CN106326206A - 一种基于文法模板的实体抽取方法 - Google Patents

一种基于文法模板的实体抽取方法 Download PDF

Info

Publication number
CN106326206A
CN106326206A CN201510353435.9A CN201510353435A CN106326206A CN 106326206 A CN106326206 A CN 106326206A CN 201510353435 A CN201510353435 A CN 201510353435A CN 106326206 A CN106326206 A CN 106326206A
Authority
CN
China
Prior art keywords
matching
node
status
syntax
matching status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510353435.9A
Other languages
English (en)
Other versions
CN106326206B (zh
Inventor
唐培忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510353435.9A priority Critical patent/CN106326206B/zh
Publication of CN106326206A publication Critical patent/CN106326206A/zh
Application granted granted Critical
Publication of CN106326206B publication Critical patent/CN106326206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于文法模板的实体抽取方法。所述方法包括:定义带上下文的文法模板,使得所述文法模板之间能够相互引用并且支持正则表达式、普通字符、及其组合;将所述文法模板中定义的每个文法转为文法树,针对所述文法树的结点的多个分支结点中的每一个进行匹配,找出其中消耗字符最多的一个分支结点作为最佳匹配;并且根据文法模板的匹配结果进行类别过滤,以抽取所需的实体。

Description

一种基于文法模板的实体抽取方法
技术领域
本发明涉及一种基于文法模板的实体抽取方法。
背景技术
实体识别是自然语言处理中的一个重要基础工具,其主要任务是识别文本中具有特定意义的实体,如人名、地名、机构名、专有名词等,因而是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。
实体识别的过程主要包括两个部分:实体边界识别、确定实体类别(人名、地名或其他)。英语中的实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
目前实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、二者混合的方法。
基于规则和词典,则是语言学专家手工构造规则模板和字典库,以模式和字符串匹配为主要手段。
基于统计的方法,则是利用人工标注的语料进行训练,标注语料时不需要广博的语言学知识,但标注时间和语料的大小成正比,方法主要包括:隐马尔可夫模型、最大熵、支持向量机、条件随机场等。
混合方法则是上述二者的融合。
基于规则和字典的方法需要人工编辑大量模板和词库,维护代价高,且规则多是传统意义的正则表达式,没有上下文信息,识别过程需要依次遍历所有的规则库和字典库,效率不佳。
基于统计的方法虽然利用了机器学习,但只对通用的实体效果较好(如人名),难于兼顾准确率和召回率,并且模型的更新需要重新训练,从而不能实时的解决问题。
且此两种方法均对特定领域的实体识别效果不佳,如单个数字160,二者虽然能识别出为一个数字,但是对特定领域来说,需要更加精细的类别划分才能为应用系统所用,如数字160到底是电话,还是身高等,此时则需要更多的信息方能知晓。
发明内容
针对目前实体识别的问题,特别是在特定领域中的特殊实体识别的缺陷,我们提出了一种基于文法模板抽取实体的方法。用户通过定义带上下文的文法模板,系统动态并行地寻找最佳文法匹配,从而高效地提取出其中特定意义的实体。在根据本发明的技术方案中,能引用已有文法或自身文法,并且支持正则、普通、及其组合,表达能力接近自然语言;抽象出三个匹配过程,采用最长消耗字符的匹配策略,高效地寻找最佳匹配;并且根据文法模板匹配结果进行二次加工,抽取所需的实体。
根据本发明的一个方面,提供了一种基于文法模板的实体抽取方法包括以下步骤:定义带上下文的文法模板,使得所述文法模板之间能够相互引用并且支持正则表达式、普通字符、及其组合;将所述文法模板中定义的每个文法转为文法树,针对所述文法树的结点的多个分支结点中的每一个进行匹配,找出其中消耗字符最多的一个分支结点作为最佳匹配;并且根据文法模板的匹配结果进行类别过滤,以抽取所需的实体。
根据本发明的一个实施例,基于文法模板的实体抽取方法还包括从入口文法开始匹配的以下步骤:判断是否还有待匹配字符串。如果没有,则匹配完成,如果有,则将待匹配字符串根据文法树进行匹配。如果匹配失败,则将待匹配字符串移动一个字符并且重新执行上述步骤。如果匹配成功,则将待匹配字符串设置为成功匹配后剩余的未匹配的字符串并且重新执行上述步骤。
根据本发明的一个实施例,基于文法模板的实体抽取方法还包括从某个文法树开始匹配的以下步骤:循环遍历文法树的每一个分支结点,并将待匹配字符串根据各个分支结点分别进行匹配,记录其中匹配成功且剩余的未匹配字符串长度最短的作为匹配状态。如果没有匹配成功的分支结点,则将所述匹配状态设置为失败状态。退出并返回所述匹配状态。
根据本发明的一个实施例,基于文法模板的实体抽取方法还包括在某个文法树的内部结点开始匹配的以下步骤:查看当前结点类型,根据不同结点类型分别进行匹配,并记录第一匹配状态。如果第一匹配状态为失败状态,则退出并返回第一匹配状态。如果当前结点还有待匹配的分支结点,则循环遍历当前结点的每一个分支结点,并将剩余的未匹配字符串根据各个分支结点分别进行匹配,记录其中匹配成功且剩余的未匹配字符串长度最短的作为第二匹配状态,如果所述当前结点没有待匹配的分支结点或分支结点均匹配失败,则直接将第二匹配状态设置为失败状态。如果所述当前结点不为可结束结点,则当所述第二匹配状态为失败状态时,将所述第一匹配状态设置为失败状态。如果所述第一匹配状态和所述第二匹配状态均成功,则将所述第一匹配状态设置为所述第二匹配状态,退出并返回第一匹配状态。
根据本发明的一个实施例,其中能够实时地对所述文法树进行修改。
根据本发明的一个实施例,其中根据文法模板的匹配结果进行类别过滤还包括指定其它的类别和指定不同的类别范围。
附图说明
附图用于更好地理解本发明,并不构成对本发明的不当限定。其中:
图1是根据本发明实施例的基于文法模板的实体抽取方法的示意流程图;
图2是根据本发明实施例的基于文法模板的实体抽取方法中的具体的文法模板匹配步骤的示意流程图;以及
图3是根据本发明实施例的基于文法模板的实体抽取方法中的具体的在某个文法树的内部结点开始匹配的步骤的示意流程图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的一种基于文法模板的实体抽取方法的示意流程图。本发明的技术方案的重点在于文法模板的定义和文法模板的匹配,从而提取相关实体,因此下面分别对文法模板定义、文法模板匹配及实体抽取进行详细阐述。
如图1所示,基于文法模板的实体抽取方法包括:步骤S01,定义带上下文的文法模板,使得所述文法模板之间能够相互引用并且支持正则表达式、普通字符、及其组合;步骤S02,将所述文法模板中定义的每个文法转为文法树,针对所述文法树的结点的多个分支结点中的每一个进行匹配,找出其中消耗字符最多的一个分支结点作为最佳匹配;以及步骤S03,根据文法模板的匹配结果进行类别过滤,以抽取所需的实体。
图2是根据本发明实施例的基于文法模板的实体抽取方法中的具体的文法模板匹配步骤的示意流程图。根据本发明的实施例上述三个匹配步骤分别为:findInStart、findInTrie、findInNode。其中,findInStart表示从入口文法开始匹配,findInTrie表示从某个文法树开始匹配,findInNode表示在某个文法树的内部结点开始匹配。
根据本发明的一个实施例,从入口文法开始匹配的过程包括:判断是否还有待匹配字符串。如果没有,则匹配完成,如果有,则将待匹配字符串根据文法树进行匹配。如果匹配失败,则将待匹配字符串移动一个字符并且重新执行上述步骤。如果匹配成功,则将待匹配字符串设置为成功匹配后剩余的未匹配的字符串并且重新执行上述步骤。
根据本发明的一个实施例,从某个文法树开始匹配的过程包括:循环遍历文法树的每一个分支结点,并将待匹配字符串根据各个分支结点分别进行匹配,记录其中匹配成功且剩余的未匹配字符串长度最短的作为匹配状态。如果没有匹配成功的分支结点,则将所述匹配状态设置为失败状态。退出并返回所述匹配状态。
图3是根据本发明实施例的基于文法模板的实体抽取方法中的具体的在某个文法树的内部结点开始匹配的步骤的示意流程图。根据本发明的一个实施例,在某个文法树的内部结点开始匹配的过程包括:查看当前结点类型,根据不同结点类型分别进行匹配,并记录第一匹配状态。如果第一匹配状态为失败状态,则退出并返回第一匹配状态。如果当前结点还有待匹配的分支结点,则循环遍历当前结点的每一个分支结点,并将剩余的未匹配字符串根据各个分支结点分别进行匹配,记录其中匹配成功且剩余的未匹配字符串长度最短的作为第二匹配状态,如果所述当前结点没有待匹配的分支结点或分支结点均匹配失败,则直接将第二匹配状态设置为失败状态。如果所述当前结点不为可结束结点,则当所述第二匹配状态为失败状态时,将所述第一匹配状态设置为失败状态。如果所述第一匹配状态和所述第二匹配状态均成功,则将所述第一匹配状态设置为所述第二匹配状态,退出并返回第一匹配状态。
在根据本发明的一个实施例的基于文法模板的实体抽取方法中还能够实时地对所述文法树进行修改。以及在根据本发明的一个实施例的基于文法模板的实体抽取方法中根据文法模板的匹配结果进行类别过滤还包括指定其它的类别和指定不同的类别范围。
以下进一步参考附图,详细说明根据本发明的根据本发明的基于文法模板的实体抽取方法中的文法模板匹配的具体细节的描述。
(1)文法模板定义
本发明提出的文法模板本质上是一个规则库,但是其可带上下文,且模板之间可相互引用,从而表达能力接近自然语言,且因为可相互引用从而减少了文法模板的数量,具体的规则以如下身高的文法为例说明。
[num]={
r'\d+'
r'^[零一二三四五六七八九十百两]+'
}
[hight_prefix]={
身高
}
[hight_num]={
[num]
}
[hight_unit]={
厘米
cm
}
[hight]={
[hight_prefix]是[hight_num]
[hight_prefix]是[hight_num][hight_unit]
[hight_num]的[hight_prefix]
[hight_num][hight_unit]的[hight_prefix]
}
[start]={
[hight]
}
其意义如下:
上述例子中用中括号指出引用已有文法,用r开头表示一个正则表达式,其他的则为普通的字符而已,如身高、厘米。其中start为入口文法,表示识别过程从start开始,从而指定仅需识别的文法,避免无意义文法的识别(本例中单独识别hight_unit或hight_num、hight_prefix均是没有意义的,因为只有在文法hight中方能体现其的意义)。
因此任意一个文法(grammar)可定义如下:
[grammar]={
regx
chars
[other_grammar]
regx和chars和[other_grammar]的任意组合
}
其中regx表示正则表达式,chars表示普通字符,[other_grammar]表示引用已定义文法的other_grammar(注意other_grammar其实也可引用自身,因此具有强大的表达能力)。
(2)文法模板匹配
文法模板的匹配过程主要是将文法模板中定义的每个文法转为文法树(trie),待识别过程转移至该文法时则开始在该文法树上进行匹配,但因为文法树的结点可有多个分支,因此需要在每个可能的分支进行匹配,找出其中消耗字符最多的一个分支作为匹配,如果找不到,则回到原先开始匹配的位置,向前移动一个字符开始下一次匹配。其中因为一个文法可引用其他的文法,因此当识别过程转移至引用结点时,需要相应的转移至其引用的文法树进行匹配。其中可以实时地对所述文法树进行修改。
因此上述匹配的过程可抽象为三个过程:findInStart、findInTrie、findInNode。findInStart表示从入口文法开始匹配,findInTrie表示从某个文法树开始匹配,findInNode表示在某个文法树的内部结点开始匹配。具体的步骤如下;
findInStart:
步骤11:是否还有待匹配字符串,无则转步骤15,有则下一步;
步骤12:将待匹配字符串根据start文法树(findInTrie过程)进行匹配,匹配失败则转步骤14,成功则下一步;
步骤13:将待匹配字符串设置为步骤12中成功匹配后剩余的未匹配的字符串,并转步骤11;
步骤14:将带待匹配字符串移动一个字符,转步骤11;
步骤15:匹配完成。
findInTrie:
步骤21:循环遍历文法树的每一个分支结点node,并将待匹配字符串根据各个node结点分别进行匹配,记录其中匹配成功且剩余的未匹配字符串长度最短的作为匹配状态state,如果没有结点匹配成功则置state为匹配失败,下一步;
步骤22:退出并返回匹配状态state。
findInNode(如图3所示):
步骤31:查看当前结点类型(正则、普通字符、内部引用文法树),根据不同结点类型分别进行匹配,并记录匹配状态state1(匹配成功与否和剩余的未匹配字符串),继续下一步;
步骤32:如果state1的匹配状态失败,则转步骤36;
步骤33:如果当前结点还有分支结点,则循环遍历该结点的每一个分支结点,并将剩余的未匹配字符串根据各个分支结点分别进行匹配,记录其中匹配成功且剩余的未匹配字符串长度最短的作为匹配状态state2,如果当前结点没有分支结点或分支结点均匹配失败则直接置state2为失败状态,继续下一步;
步骤34:如果当前结点不为可结束结点,则当state2的匹配状态失败时,设置state1的匹配状态为失败,继续下一步;
步骤35:如果state1和state2的匹配状态均成功,则将state1置为state2,继续下一步;
步骤36:退出并返回匹配状态state1。
以上文所述的身高文法为例说明,假设待匹配字符串为“身高是162cm”,则进行匹配后与文法模板“[hight_prefix]是[hight_num][hight_unit]”对应,因此hight_prefix=身高,hight_num=162,hight_unit=cm,也即最后文法匹配后返回“[hight_prefix:身高][hight_num:162][hight_unit:cm]”。
(3)实体抽取
实体抽取是根据系统需求指定所需的实体类别,然后在文法模板匹配的结果上进行过滤得到的。具体的步骤如下:
根据系统需求,指定所需的实体类别(与文法模板定义对应)types;
依次查看匹配结果列表中的每个结果,保留那些匹配类别在已指定的types里面,得到实体抽取结果;
退出完成,返回实体抽取结果。
如系统指定实体类别为hight_num、hight_unit,则文法模板匹配结果若为“[hight_prefix:身高][hight_num:162][hight_unit:cm]”过滤得到“[hight_num:162][hight_unit:cm]”,因而抽取了实体hight_num=162,hight_unit=cm。
当然实体的抽取不一定是简单的类别过滤,可以有更多复杂的逻辑,例如指定其它的类别和指定不同的类别范围),但核心思想是在文法模板匹配后得到的结果中进行二次加工所得,具体的抽取逻辑可根据应用场所不同而已。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (6)

1.一种基于文法模板的实体抽取方法,包括以下步骤:
定义带上下文的文法模板,使得所述文法模板之间能够相互引用并且支持正则表达式、普通字符、及其组合;
将所述文法模板中定义的每个文法转为文法树,针对所述文法树的结点的多个分支结点中的每一个进行匹配,找出其中消耗字符最多的一个分支结点作为最佳匹配;并且
根据文法模板的匹配结果进行类别过滤,以抽取所需的实体。
2.根据权利要求1所述的方法,还包括从入口文法开始匹配的以下步骤:
判断是否还有待匹配字符串,
如果没有,则匹配完成,如果有,则将待匹配字符串根据文法树进行匹配,
如果匹配失败,则将待匹配字符串移动一个字符并且重新执行上述步骤,
如果匹配成功,则将待匹配字符串设置为成功匹配后剩余的未匹配的字符串并且重新执行上述步骤。
3.根据权利要求2所述的方法,还包括从某个文法树开始匹配的以下步骤:
循环遍历文法树的每一个分支结点,并将待匹配字符串根据各个分支结点分别进行匹配,记录其中匹配成功且剩余的未匹配字符串长度最短的作为匹配状态,
如果没有匹配成功的分支结点,则将所述匹配状态设置为失败状态,
退出并返回所述匹配状态。
4.根据权利要求3所述的方法,还包括在某个文法树的内部结点开始匹配的以下步骤:
查看当前结点类型,根据不同结点类型分别进行匹配,并记录第一匹配状态,
如果第一匹配状态为失败状态,则退出并返回第一匹配状态,
如果当前结点还有待匹配的分支结点,则循环遍历当前结点的每一个分支结点,并将剩余的未匹配字符串根据各个分支结点分别进行匹配,记录其中匹配成功且剩余的未匹配字符串长度最短的作为第二匹配状态,如果所述当前结点没有待匹配的分支结点或分支结点均匹配失败,则直接将第二匹配状态设置为失败状态,
如果所述当前结点不为可结束结点,则当所述第二匹配状态为失败状态时,将所述第一匹配状态设置为失败状态,
如果所述第一匹配状态和所述第二匹配状态均成功,则将所述第一匹配状态设置为所述第二匹配状态,退出并返回第一匹配状态。
5.根据权利要求1-4的任一项所述的方法,其中能够实时地对所述文法树进行修改。
6.根据权利要求1-4的任一项所述的方法,其中根据文法模板的匹配结果进行类别过滤还包括指定其它的类别和指定不同的类别范围。
CN201510353435.9A 2015-06-24 2015-06-24 一种基于文法模板的实体抽取方法 Active CN106326206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510353435.9A CN106326206B (zh) 2015-06-24 2015-06-24 一种基于文法模板的实体抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510353435.9A CN106326206B (zh) 2015-06-24 2015-06-24 一种基于文法模板的实体抽取方法

Publications (2)

Publication Number Publication Date
CN106326206A true CN106326206A (zh) 2017-01-11
CN106326206B CN106326206B (zh) 2021-01-26

Family

ID=57729689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510353435.9A Active CN106326206B (zh) 2015-06-24 2015-06-24 一种基于文法模板的实体抽取方法

Country Status (1)

Country Link
CN (1) CN106326206B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844355A (zh) * 2017-01-16 2017-06-13 中译语通科技(北京)有限公司 一种日期时间自动翻译控制方法
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN108304372A (zh) * 2017-09-29 2018-07-20 腾讯科技(深圳)有限公司 实体提取方法和装置、计算机设备和存储介质
CN108363701A (zh) * 2018-04-13 2018-08-03 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN111027794A (zh) * 2019-03-29 2020-04-17 广东小天才科技有限公司 一种听写作业的批改方法及学习设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582074A (zh) * 2009-01-21 2009-11-18 东北大学 一种DeepWeb响应页面数据抽取方法
US20120265779A1 (en) * 2011-04-15 2012-10-18 Microsoft Corporation Interactive semantic query suggestion for content search
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582074A (zh) * 2009-01-21 2009-11-18 东北大学 一种DeepWeb响应页面数据抽取方法
US20120265779A1 (en) * 2011-04-15 2012-10-18 Microsoft Corporation Interactive semantic query suggestion for content search
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ERWIN CHAN ET AL.: "Text analysis and entity extraction in asymmetric threat response and prediction", 《2010 IEEE INTERNATIONAL CONFERENCE ON INTELLIGENCE AND SECURITY INFORMATICS》 *
吴中彪 等: "面向中文短信的信息抽取方法", 《计算机工程》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844355A (zh) * 2017-01-16 2017-06-13 中译语通科技(北京)有限公司 一种日期时间自动翻译控制方法
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN108304372A (zh) * 2017-09-29 2018-07-20 腾讯科技(深圳)有限公司 实体提取方法和装置、计算机设备和存储介质
CN108304372B (zh) * 2017-09-29 2021-08-03 腾讯科技(深圳)有限公司 实体提取方法和装置、计算机设备和存储介质
CN108363701A (zh) * 2018-04-13 2018-08-03 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN111027794A (zh) * 2019-03-29 2020-04-17 广东小天才科技有限公司 一种听写作业的批改方法及学习设备
CN111027794B (zh) * 2019-03-29 2023-09-26 广东小天才科技有限公司 一种听写作业的批改方法及学习设备

Also Published As

Publication number Publication date
CN106326206B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN106649825B (zh) 语音交互系统及其创建方法和装置
CN106326206A (zh) 一种基于文法模板的实体抽取方法
CN101937430B (zh) 一种汉语句子中事件句式的抽取方法
CN109918680A (zh) 实体识别方法、装置及计算机设备
CN105138507A (zh) 一种基于模式自学习的中文开放式关系抽取方法
CN105138514B (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN105096953B (zh) 实现多语种混合使用的语音识别方法
CN105678327A (zh) 一种面向中文专利的实体间非分类关系抽取方法
CN104239290B (zh) 基于依存树的统计机器翻译方法及系统
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
CN101303692A (zh) 一种供机器语言翻译的通用数码语义库
CN111104803B (zh) 语义理解处理方法、装置、设备及可读存储介质
CN106326307A (zh) 一种语言交互方法
CN105630770A (zh) 一种基于sc文法的分词标音连写方法及装置
CN110175585A (zh) 一种简答题自动批改系统及方法
CN109783819A (zh) 一种正则表达式的生成方法及系统
CN106202037B (zh) 基于组块的越南语短语树构建方法
CN106502988B (zh) 一种目标属性抽取的方法和设备
CN108628829A (zh) 基于树形循环神经网络的自动树库转化方法及系统
Gang et al. Chinese intelligent chat robot based on the AIML language
CN109992777B (zh) 一种基于关键词的中医病情文本关键语义信息提取方法
CN104134017A (zh) 一种基于紧凑特征表示的蛋白质作用关系对抽取方法
CN108255818B (zh) 利用分割技术的复合式机器翻译方法
Li et al. Parallel Aligned Treebanks at LDC: New Challenges Interfacing Existing Infrastructures.
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant