CN104516874A - 一种对名词短语进行依存句法分析的方法及系统 - Google Patents
一种对名词短语进行依存句法分析的方法及系统 Download PDFInfo
- Publication number
- CN104516874A CN104516874A CN201410837967.5A CN201410837967A CN104516874A CN 104516874 A CN104516874 A CN 104516874A CN 201410837967 A CN201410837967 A CN 201410837967A CN 104516874 A CN104516874 A CN 104516874A
- Authority
- CN
- China
- Prior art keywords
- subtree
- module
- weight vector
- phrase
- dependence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种对名词短语进行依存句法分析的方法及系统,其方法包括:步骤1:基于语料数据库对权值向量和SVM分类器进行训练,得到稳定的权值向量和稳定SVM分类器;步骤2:接收待分析的短语进行预处理,得到至少两个规定格式的词语;步骤3:对所有词语进行分析处理,得到依存句法分析树。可以将该方法分解为两个步骤,即首先识别出句中的复杂名词短语,并利用本方法进行依存句法分析;然后用得到的子结构置换原句中的复杂名词短语,从而降低句子的复杂性。由于本算法是简单边优先算法的改进,保持了该算法高效的优点。针对名词短语长度较短,特征不够明显的特点,引进了SVM分类器用于依存关系方向的确定,保证了算法的有效性。
Description
技术领域
本发明涉及一种对名词短语进行依存句法分析的方法及系统,属于语言处理技术领域。
背景技术
依存句法分析最近几年在自然语言处理领域如信息抽取和机器翻译等领域受到越来越多的关注。理论上,它植根于依存语法,关注的是词语之间的句法依存关系。
对于名词短语语义结构研究,目前主要集中在NN名词短语的语义解释上,主要任务是自动获取修饰语和中心词之间隐含的语义关系。一般有两种策略:
自上而下的策略(top-down strategy),这种方法首先定义好一组关系集合,然后为每个名词短语分配适当的关系。
自下而上的策略(bottom-up strategy),这种方法不定义名名关系,而是通过大规模的语料去发现词语组合时隐含的语义关系,一般选择包含相关动词的释义语句来解释名名关系。
依存句法分析一直是自然语言处理领域的热点和难点问题之一,近年来受到了越来越多的关注。CONLL国际会议已连续多年将依存句法分析评测列入其共享任务。目前主流的依存句法分析算法可以归为三类:基于转换的句法分析方法、基于图的句法分析方法和同时基于图与转换的句法分析方法。
基于转换的依存句法分析方法自左向右扫描输入的对象,利用局部特征逐步完成对象依存关系的获取。该方法速度快,却是局部最优的,即在分析的过程中它能很好地应用待分析节点的左边特征以及历史分析所得到的特征,却无法充分利用右侧文本特征:一般只能用到右边一到两个词距离范围内的特征。这也直接导致其错误传播和准确率的下降。
基于图的依存句法分析方法对一个句子所有可能的依存句法分析树进行分析并分别给予相应的分值,取分值最高者为依存句法分析树的边。该方法能充分利用全局特征从而达到全局最优,然而因计算的时间复杂度太高(O(n3l ogn))而影响了分析的效率。
结合以上两种方法即得到同时基于转换和图的方法。这种方法能结合以上两种方法的优点,并已经得到了广泛应用。此外针对中文的依存句法分析,目前已经提出了基于最大熵的依存句法分析、基于词汇支配度的中文依存句法分析等等。
Yoav等结合两种思想,提出了计算复杂度为O(n2l ogn)的简单边优先算法,图4为简单边算法的测试结果。并证明该算法对完整句子进行依存句法分析结果的准确率接近最大生成树算法。
发明内容
本发明所要解决的技术问题是,基于传统的依存句法分析算法多着眼于整句的分析,导致当遇到结构比较复杂的句子时,分析的准确率的不到保证的不足;提供一种结合基于转换的方法和图的方法,在简单边优先算法的基础上进行改进的对名词短语进行依存句法分析的方法及系统。使该算法能较好地应用于中文复杂名词短语的依存句法分析。
本发明解决上述技术问题的技术方案如下:一种对名词短语进行依存句法分析的方法,具体包括以下步骤:
步骤1:基于语料数据库对权值向量和SVM分类器进行训练,得到稳定的权值向量和稳定SVM分类器;
步骤2:接收待分析的短语进行预处理,得到至少两个规定格式的词语;
步骤3:对所有词语进行分析处理,得到依存句法分析树。
本发明的有益效果是:本方法可以分解为两个步骤,即首先识别出句中的复杂名词短语,并利用本方法进行依存句法分析;然后用得到的子结构置换原句中的复杂名词短语,从而降低句子的复杂性。由于本算法是简单边优先算法的改进,保持了该算法高效的优点。同时,针对名词短语长度较短,特征不够明显的特点,引进了SVM分类器用于依存关系方向的确定,保证了算法的有效性。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤1具体包括以下步骤:
步骤1.1:对语料数据库中的已知依存关系的短语进行标注,得到训练语料;
步骤1.2:SVM分类器调用SVM自带的训练函数,基于训练语料完成训练,得到稳定SVM分类器;
步骤1.3:基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代,直到权值向量稳定,得到稳定权值向量。
进一步,所述步骤2具体包括以下步骤:
步骤2.1:接收待待分析的短语,将所述短语进行分词;
步骤2.2:对所有词语进行词性标注,得到至少两个规定格式的词语。
进一步,所述步骤3具体包括以下步骤:
步骤3.1:基于权值向量对所有词语匹配出其最具依赖关系的一个词语,每两个具有依赖关系的词语构成一个子树;
步骤3.2:合并子树使子树数量变少,直到数量减少到一,构成依存句法分析树。
进一步,所述步骤3.2具体包括以下步骤:
步骤3.2.1:基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两个最具依赖关系的子树构成一个子树对;
步骤3.2.2:基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖关系方向合并子树对为一个子树;
步骤3.2.3:判断当前子树数量是否为一,如果是,执行步骤3.2.4;否则,执行步骤3.2.1;
步骤3.2.4:当前子树构成依存句法分析树。
本发明解决上述技术问题的技术方案如下:一种对名词短语进行依存句法分析的系统,包括训练模块、预处理模块和分析模块;
所述训练模块用于基于语料数据库对权值向量和SVM分类器进行训练,得到稳定的权值向量和稳定SVM分类器;
所述预处理模块用于接收待分析的短语进行预处理,得到至少两个规定格式的词语;
所述分析模块用于对所有词语进行分析处理,得到依存句法分析树。
本发明的有益效果是:本系统首先识别出句中的复杂名词短语,并利用本方法进行依存句法分析;然后用得到的子结构置换原句中的复杂名词短语,从而降低句子的复杂性。由于本系统是简单边优先算法的改进,保持了该算法高效的优点。同时,针对名词短语长度较短,特征不够明显的特点,引进了SVM分类器用于依存关系方向的确定,保证了有效性。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述训练模块包括语料模块、SVM训练模块和向量训练模块;
所述语料模块用于对语料数据库中的已知依存关系的短语进行标注,得到训练语料;
所述SVM训练模块用于使SVM分类器调用SVM自带的训练函数,基于训练语料完成训练,得到稳定SVM分类器;
所述向量训练模块基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代,直到权值向量稳定,得到稳定权值向量。
进一步,所述预处理模块包括接收模块和标注模块;
所述接收模块用于接收待待分析的短语,将所述短语进行分词;
所述标注模块用于对所有词语进行词性标注,得到至少两个规定格式的词语。
进一步,所述分析模块包括子树构建模块和合并模块;
所述子树构建模块基于权值向量对所有词语匹配出其最具依赖关系的一个词语,每两个具有依赖关系的词语构成一个子树;
所述合并模块用于合并子树使子树数量变少,直到数量减少到一,构成依存句法分析树。
进一步,所述合并模块包括子树对模块、子树合并模块和判断模块;
所述子树对模块基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两个最具依赖关系的子树构成一个子树对;
所述子树合并模块基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖关系方向合并子树对为一个子树;
所述判断模块用于判断当前子树数量是否为一,如果是,当前子树构成依存句法分析树;否则,触发子树对模块。
依存句法分析的方法主要是利用统计的方法,利用名词短语中词语的词、词性以及上下文特征,确定词与词之间的依存关系。通过训练得到的特征向量和权值向量可以确定哪两个词之间存在依存关系;利用SVM可以确定该依存关系的方向,即将上一步的到的无向边转换为有向边。最终得到以一个词为树根的句法分析树。
附图说明
图1为本发明所述的一种对名词短语进行依存句法分析的方法流程图;
图2为本发明所述的一种对名词短语进行依存句法分析的系统结构框图;
图3为应用本发明所述的方法对具体短语进行具体分析的过程图;
图4为现有技术中简单边算法的测试结果图;
图5为本发明的测试结果图。
附图中,各标号所代表的部件列表如下:
1、训练模块,2、预处理模块,3、分析模块,11、语料模块,12、SVM训练模块,13、向量训练模块,21、接收模块,22、标注模块,31、子树构建模块,32、合并模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明所述的一种对名词短语进行依存句法分析的方法,具体包括以下步骤:
步骤1:对语料数据库中的已知依存关系的短语进行标注,得到训练语料;
步骤2:SVM分类器调用SVM自带的训练函数,基于训练语料完成训练,得到稳定SVM分类器;
步骤3:基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代,直到权值向量稳定,得到稳定权值向量;
步骤4:接收待待分析的短语,将所述短语进行分词;
步骤5:对所有词语进行词性标注,得到至少两个规定格式的词语;
步骤6:基于权值向量对所有词语匹配出其最具依赖关系的一个词语,每两个具有依赖关系的词语构成一个子树;
步骤7:基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两个最具依赖关系的子树构成一个子树对;
步骤8:基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖关系方向合并子树对为一个子树;
步骤9:判断当前子树数量是否为一,如果是,执行步骤10;否则,执行步骤7;
步骤10:当前子树构成依存句法分析树。
如图3所示,为应用本发明所述的一种对名词短语进行依存句法分析的方法的具体分析过程图,具体为对短语“小狐狸欢快的跳”的分析过程。
如图2所示,为本发明所述的一种对名词短语进行依存句法分析的系统,包括训练模块1、预处理模块2和分析模块3;
所述训练模块1用于基于语料数据库对权值向量和SVM分类器进行训练,得到稳定的权值向量和稳定SVM分类器;
所述预处理模块2用于接收待分析的短语进行预处理,得到至少两个规定格式的词语;
所述分析模块3用于对所有词语进行分析处理,得到依存句法分析树。
所述训练模块1包括语料模块11、SVM训练模块12和向量训练模块13;
所述语料模块11用于对语料数据库中的已知依存关系的短语进行标注,得到训练语料;
所述SVM训练模块12用于使SVM分类器调用SVM自带的训练函数,基于训练语料完成训练,得到稳定SVM分类器;
所述向量训练模块13基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代,直到权值向量稳定,得到稳定权值向量。
所述预处理模块2包括接收模块21和标注模块22;
所述接收模块21用于接收待待分析的短语,将所述短语进行分词;
所述标注模块22用于对所有词语进行词性标注,得到至少两个规定格式的词语。
所述分析模块3包括子树构建模块31和合并模块32;
所述子树构建模块31基于权值向量对所有词语匹配出其最具依赖关系的一个词语,每两个具有依赖关系的词语构成一个子树;
所述合并模块32用于合并子树使子树数量变少,直到数量减少到一,构成依存句法分析树。
所述合并模块32包括子树对模块、子树合并模块和判断模块;
所述子树对模块基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两个最具依赖关系的子树构成一个子树对;
所述子树合并模块基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖关系方向合并子树对为一个子树;
所述判断模块用于判断当前子树数量是否为一,如果是,当前子树构成依存句法分析树;否则,触发子树对模块。
实现本发明目的的研究路线是:
1.分析已有的算法,重点关注简单边优先算法应用于中文复杂名词短语的效果;
2.针对该算法的不足,针对性的做出改进;
3.将SVM引入依赖关系的识别,形成完整的方法,并用语料进行测试。
实现本发明目的的关键技术有:
1.子树:复杂名词短语的下级结构,即由位置上邻接的词语之间构成的子结构,以树根所代表的词为该部分的中心词,子树包含了大量的特征信息;
本发明分析用到的子树特征如表1所示,
表1本发明分析用到的子树特征表
2.无向依存边:描述词与词之间是否具有依存关系,若A与B存在依存关系,则可以表示为arc(A,B)。
3.有向依存边:描述词与词之间的依存关系的方向,若有词语A依赖于词语B,则可以表示为arc<A,B>。
本发明的创新之处在于:
1.中文复杂名词短语:目前的依存句法分析算法主要着眼于完整的句子甚至文章,而没有针对复杂名词短语进行依存句法分析的算法,本发明可以使对句子的依存分析工作分解为复杂名词短语的识别和分析,然后针对剩余部分进行分析;
2.分析方法:对简单边优先算法做了改进,使其适用于中文复杂名词短语的分析针对名词短语长度较短的限制,引入了SVM作为有向边分类器有效地提高了算法的准确率。
对复杂名词短语进行依存句法分析的过程等效于构建二叉树的过程。操作的基本单位是二叉树的节点。故初始阶段可以将短语中的每一个词作为节点。每个节点包含众多的特征:中心词即树根所代表的词和词性的特征、左右子树的词和词性特征、子特征的结合构成的新特征等等。分析的过程中,最明显具有依存关系的两棵子树首先被合并成为一棵子树并替代该两棵子树,短语的长度减小1,然后继续对新的短语结构进行操作直至长度减小为1。
方法的实施主要分为以下几个步骤:第一,标注训练语料,由人工对语料库中的短语进行标注以供训练;第二,训练语料,语料训练包含两个方面,权值向量的训练和SVM分类器的训练。SVM的训练可以直接调用SVM自带的训练函数利用语料完成,权值向量的训练则主要利用判别式的算法对初始化为0向量的权值向量进行迭代,直至稳定状态。第三,分析,该步骤又分为两步,即首先对待分析的短语进行分词的词性标注,然后利用权值向量,在每一步中根据子树特征获取最具依赖关系的子树,并用SVM确定两子树的依赖关系的方向,合并子树从而使短语长度不断减小直至为1。得到复杂名词短语的依存句法分析树,图5为本发明所述方法的测试结果图。
本发明与ctbparser的效果比较如表2所示,
表2本发明与ctbparser的效果比较表
以下描述了分析的算法步骤:
第一步:初始化。
Arcs={}
pending={word1,word2,…,wordn}
第二步:循环直至pending的长度为1
1.利用score()函数计算pending中每一对相邻子树之间的无向边的分值,并取其中得分最高者,记为arc_best;
2.取arc_best左右两边子树的根节点,记为left_word和right_word,然后利用SVM确定该边的方向,得到边arc(parent,child);
3.将arc加入到集合Arc中,并在pending中移除child。
第三步:输出Arcs中的边,得到依存树。且pending中所剩子树的根节点即为复杂名词短语依存句法分析树的根节点。
训练算法的具体过程如下所示:
第一步:初始化。
Arcs={}
pending={word1,word2,…,wordn}
Gold={arc|arc∈corpus}
第二步:循环直至pending的长度为1
1.得到“严格合法”的边的集合
allowed={arc|is_legal(arc,Gold,Arcs)}
2.利用score()函数选择当前的最优边arc_best,并判断:
a.如果arc_best∈allowed:则根据语料提供的方向构造边arc加入到Arcs中,更新pending,并将该条边的方向和arc_best的特征向量加入到SVM的训练集合中。
b.如果allowed,则在allowed集合中选择分值最高的边arc_allowed。更新ω。
第三步:退出循环,返回ω。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种对名词短语进行依存句法分析的方法,其特征在于,具体包括以下步骤:
步骤1:基于语料数据库对权值向量和SVM分类器进行训练,得到稳定的权值向量和稳定SVM分类器;
步骤2:接收待分析的短语进行预处理,得到至少两个规定格式的词语;
步骤3:对所有词语进行分析处理,得到依存句法分析树。
2.根据权利要求1所述的一种对名词短语进行依存句法分析的方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1:对语料数据库中的已知依存关系的短语进行标注,得到训练语料;
步骤1.2:SVM分类器调用SVM自带的训练函数,基于训练语料完成训练,得到稳定SVM分类器;
步骤1.3:基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代,直到权值向量稳定,得到稳定权值向量。
3.根据权利要求1所述的一种对名词短语进行依存句法分析的方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1:接收待待分析的短语,将所述短语进行分词;
步骤2.2:对所有词语进行词性标注,得到至少两个规定格式的词语。
4.根据权利要求1-3任一项所述的一种对名词短语进行依存句法分析的方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1:基于权值向量对所有词语匹配出其最具依赖关系的一个词语,每两个具有依赖关系的词语构成一个子树;
步骤3.2:合并子树使子树数量变少,直到数量减少到一,构成依存句法分析树。
5.根据权利要求4所述的一种对名词短语进行依存句法分析的方法,其特征在于,所述步骤3.2具体包括以下步骤:
步骤3.2.1:基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两个最具依赖关系的子树构成一个子树对;
步骤3.2.2:基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖关系方向合并子树对为一个子树;
步骤3.2.3:判断当前子树数量是否为一,如果是,执行步骤3.2.4;否则,执行步骤3.2.1;
步骤3.2.4:当前子树构成依存句法分析树。
6.一种对名词短语进行依存句法分析的系统,其特征在于,包括训练模块、预处理模块和分析模块;
所述训练模块用于基于语料数据库对权值向量和SVM分类器进行训练,得到稳定的权值向量和稳定SVM分类器;
所述预处理模块用于接收待分析的短语进行预处理,得到至少两个规定格式的词语;
所述分析模块用于对所有词语进行分析处理,得到依存句法分析树。
7.根据权利要求6所述的一种对名词短语进行依存句法分析的系统,其特征在于,所述训练模块包括语料模块、SVM训练模块和向量训练模块;
所述语料模块用于对语料数据库中的已知依存关系的短语进行标注,得到训练语料;
所述SVM训练模块用于使SVM分类器调用SVM自带的训练函数,基于训练语料完成训练,得到稳定SVM分类器;
所述向量训练模块基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代,直到权值向量稳定,得到稳定权值向量。
8.根据权利要求6所述的一种对名词短语进行依存句法分析的系统,其特征在于,所述预处理模块包括接收模块和标注模块;
所述接收模块用于接收待待分析的短语,将所述短语进行分词;
所述标注模块用于对所有词语进行词性标注,得到至少两个规定格式的词语。
9.根据权利要求6-8任一项所述的一种对名词短语进行依存句法分析的系统,其特征在于,所述分析模块包括子树构建模块和合并模块;
所述子树构建模块基于权值向量对所有词语匹配出其最具依赖关系的一个词语,每两个具有依赖关系的词语构成一个子树;
所述合并模块用于合并子树使子树数量变少,直到数量减少到一,构成依存句法分析树。
10.根据权利要求9所述的一种对名词短语进行依存句法分析的系统,其特征在于,所述合并模块包括子树对模块、子树合并模块和判断模块;
所述子树对模块基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两个最具依赖关系的子树构成一个子树对;
所述子树合并模块基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖关系方向合并子树对为一个子树;
所述判断模块用于判断当前子树数量是否为一,如果是,当前子树构成依存句法分析树;否则,触发子树对模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410837967.5A CN104516874A (zh) | 2014-12-29 | 2014-12-29 | 一种对名词短语进行依存句法分析的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410837967.5A CN104516874A (zh) | 2014-12-29 | 2014-12-29 | 一种对名词短语进行依存句法分析的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104516874A true CN104516874A (zh) | 2015-04-15 |
Family
ID=52792199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410837967.5A Pending CN104516874A (zh) | 2014-12-29 | 2014-12-29 | 一种对名词短语进行依存句法分析的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104516874A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN106156041A (zh) * | 2015-03-26 | 2016-11-23 | 科大讯飞股份有限公司 | 热点信息发现方法及系统 |
CN106997376A (zh) * | 2017-02-28 | 2017-08-01 | 浙江大学 | 一种基于多级特征的问题和答案句子相似度计算方法 |
CN109977228A (zh) * | 2019-03-21 | 2019-07-05 | 浙江大学 | 电网设备缺陷文本的信息辨识方法 |
CN110555205A (zh) * | 2018-05-31 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 否定语义识别方法及装置、电子设备、存储介质 |
CN111177371A (zh) * | 2019-12-05 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种分类方法和相关装置 |
CN112016301A (zh) * | 2020-10-20 | 2020-12-01 | 南京新一代人工智能研究院有限公司 | 一种融合短语先验知识的依存句法分析方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937430A (zh) * | 2010-09-03 | 2011-01-05 | 清华大学 | 一种汉语句子中事件句式的抽取方法 |
CN103488627A (zh) * | 2013-09-05 | 2014-01-01 | 中国专利信息中心 | 全篇专利文献翻译方法及翻译系统 |
CN104021115A (zh) * | 2014-06-13 | 2014-09-03 | 北京理工大学 | 基于神经网络的中文比较句识别方法及装置 |
-
2014
- 2014-12-29 CN CN201410837967.5A patent/CN104516874A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937430A (zh) * | 2010-09-03 | 2011-01-05 | 清华大学 | 一种汉语句子中事件句式的抽取方法 |
CN103488627A (zh) * | 2013-09-05 | 2014-01-01 | 中国专利信息中心 | 全篇专利文献翻译方法及翻译系统 |
CN104021115A (zh) * | 2014-06-13 | 2014-09-03 | 北京理工大学 | 基于神经网络的中文比较句识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
TETSUJI NAKAGAWA ET AL: "Dependency tree-based sentiment classification using CRFs with hidden variables", 《THE 2010 ANNUAL CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ACL,》 * |
沈超: "基于转换的依存句法分析研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156041B (zh) * | 2015-03-26 | 2019-05-28 | 科大讯飞股份有限公司 | 热点信息发现方法及系统 |
CN106156041A (zh) * | 2015-03-26 | 2016-11-23 | 科大讯飞股份有限公司 | 热点信息发现方法及系统 |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN104933027B (zh) * | 2015-06-12 | 2017-10-27 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN106997376B (zh) * | 2017-02-28 | 2020-12-08 | 浙江大学 | 一种基于多级特征的问题和答案句子相似度计算方法 |
CN106997376A (zh) * | 2017-02-28 | 2017-08-01 | 浙江大学 | 一种基于多级特征的问题和答案句子相似度计算方法 |
CN110555205A (zh) * | 2018-05-31 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 否定语义识别方法及装置、电子设备、存储介质 |
CN110555205B (zh) * | 2018-05-31 | 2024-04-19 | 北京京东尚科信息技术有限公司 | 否定语义识别方法及装置、电子设备、存储介质 |
CN109977228A (zh) * | 2019-03-21 | 2019-07-05 | 浙江大学 | 电网设备缺陷文本的信息辨识方法 |
CN109977228B (zh) * | 2019-03-21 | 2021-01-12 | 浙江大学 | 电网设备缺陷文本的信息辨识方法 |
CN111177371A (zh) * | 2019-12-05 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种分类方法和相关装置 |
CN111177371B (zh) * | 2019-12-05 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 一种分类方法和相关装置 |
CN112016301A (zh) * | 2020-10-20 | 2020-12-01 | 南京新一代人工智能研究院有限公司 | 一种融合短语先验知识的依存句法分析方法及装置 |
CN112016301B (zh) * | 2020-10-20 | 2021-02-19 | 南京新一代人工智能研究院有限公司 | 一种融合短语先验知识的依存句法分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104516874A (zh) | 一种对名词短语进行依存句法分析的方法及系统 | |
Wang et al. | A two-stage parsing method for text-level discourse analysis | |
CN108763510B (zh) | 意图识别方法、装置、设备及存储介质 | |
CN101510221B (zh) | 一种用于信息检索的查询语句分析方法与系统 | |
Baker et al. | An unsupervised model for instance level subcategorization acquisition | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
Antony et al. | SVM based part of speech tagger for Malayalam | |
CN108536677A (zh) | 一种专利文本相似度计算方法 | |
CN103309926A (zh) | 基于条件随机场的中英文混合命名实体识别方法及系统 | |
CN109614620B (zh) | 一种基于HowNet的图模型词义消歧方法和系统 | |
CN101446942A (zh) | 一种自然语言句子的语义角色标注方法 | |
CN110119510B (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN103678565B (zh) | 一种基于自引导方式的领域自适应句子对齐系统 | |
CN107038160A (zh) | 多语言智能预处理实时统计机器翻译系统的预处理模块 | |
CN104485107A (zh) | 名称的语音识别方法、语音识别系统和语音识别设备 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN108038099A (zh) | 基于词聚类的低频关键词识别方法 | |
CN107038163A (zh) | 一种面向海量互联网信息的文本语义建模方法 | |
CN107526717B (zh) | 一种将结构化流程模型自动生成自然语言文本的方法 | |
Zhang et al. | Improved statistical machine translation by multiple Chinese word segmentation | |
CN103064885B (zh) | 一种实现多关键词同步输入系统及方法 | |
Liu et al. | Maximum entropy based rule selection model for syntax-based statistical machine translation | |
CN106250367B (zh) | 基于改进的Nivre算法构建越南语依存树库的方法 | |
Hasan et al. | Comparison of unigram, bigram, hmm and brill's pos tagging approaches for some south asian languages | |
Li et al. | Distributed open-domain conversational understanding framework with domain independent extractors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150415 |