CN108108344A - 一种联合识别和连接命名实体的方法及装置 - Google Patents

一种联合识别和连接命名实体的方法及装置 Download PDF

Info

Publication number
CN108108344A
CN108108344A CN201611050150.9A CN201611050150A CN108108344A CN 108108344 A CN108108344 A CN 108108344A CN 201611050150 A CN201611050150 A CN 201611050150A CN 108108344 A CN108108344 A CN 108108344A
Authority
CN
China
Prior art keywords
participle
answer
result
combination
answer combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611050150.9A
Other languages
English (en)
Other versions
CN108108344B (zh
Inventor
郭瑞
郭祥
雷宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rubu Technology Co.,Ltd.
Original Assignee
Beijing Intelligent Housekeeper Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Intelligent Housekeeper Technology Co Ltd filed Critical Beijing Intelligent Housekeeper Technology Co Ltd
Priority to CN201611050150.9A priority Critical patent/CN108108344B/zh
Publication of CN108108344A publication Critical patent/CN108108344A/zh
Application granted granted Critical
Publication of CN108108344B publication Critical patent/CN108108344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例公开了一种联合识别和连接命名实体的方法及装置。联合识别和连接命名实体的方法,包括:对输入文本的分词标注词性,生成分词文本;连接所述分词文本和至少一个预设实体库;根据连接结果生成的至少一个备选答案组合,确定命名实体识别和连接的结果。本发明实施例提出联合识别和连接命名实体的方法,该方法考虑了命名实体识别和实体连接间的依赖关系,缓解了错误传播问题,从而可以提高命名实体识别和实体连接的精度。

Description

一种联合识别和连接命名实体的方法及装置
技术领域
本发明实施例涉及自然语言处理技术,尤其涉及一种联合识别和连接命名实体的方法及装置。
背景技术
基于自然语言的人机自动应答系统,是自然语言理解的一个重要应用。人机自动应答系统在针对某一领域知识库进行特殊处理之后,用户以自然语言形式提出问题,系统能够以多媒体的形式自动给出答案。
命名实体识别和实体连接是自然语言理解的一个重要组成部分,在实际应用中,现有技术先进行命名实体识别(Named Entity Recognition),然后进行实体连接(EntityLinking)。
但是,采用先进行命名实体识别,然后进行实体连接的方式,存在错误传播的风险,即第一步识别错的命名实体或者没有识别出的命名实体均不能在第二步被正确的连接到实体库中。
发明内容
本发明提供一种联合识别和连接命名实体的方法及装置,以实现同步处理命名实体识别和实体连接,缓解错误传播问题,从而提高命名实体识别和连接的精度。
第一方面,本发明实施例提供了一种联合识别和连接命名实体的方法,包括:
对输入文本的分词标注词性,生成分词文本;
连接所述分词文本和至少一个预设实体库;
根据连接结果生成的至少一个备选答案组合,确定命名实体识别和连接的结果。
进一步地,根据连接结果生成的至少一个备选答案组合,确定命名实体识别和连接的结果包括:
当所述分词为第一级分词,则根据第一级分词和所述预设实体库中预设命名实体的匹配结果,生成第一级分词的分词答案组合;
当所述分词非第一级分词,则根据所述分词文本中本级分词和所述至少一个预设实体库中预设命名实体的匹配结果以及上一级分词的筛选分词答案组合,生成本级分词的分词答案组合;
根据所述本级分词答案组合的评分,得到命名实体识别和连接的结果。
进一步地,根据所述本级分词答案组合的评分,得到命名实体识别和连接的结果包括:
将最后一级分词的分词答案组合中评分最高的分词答案组合确定为命名实体识别和连接的结果。
进一步地,对所述分词答案组合评分包括:
抽取所述分词答案组合的特征,生成相应的答案特征集合;
根据所述答案特征集合和预设模型参数,确定所述分词答案组合的评分。
进一步地,抽取所述分词答案组合的特征,生成相应的答案特征集合包括:
抽取所述分词答案组合中各级分词的特征,并组成特征向量,作为所述分词答案组合的答案特征集合;
所述根据所述答案特征集合和预设模型参数,确定所述分词答案组合的评分包括:
根据所述预设模型参数,确定所述特征向量对应的权重向量;
计算所述权重向量的转置向量和所述特征向量的数量积,并将所述数量积作为所述分词答案组合的评分。
第二方面,本发明实施例还提供了一种联合识别和连接命名实体的装置,包括:
分词文本生成模块,用于对输入文本的分词标注词性,生成分词文本;
分词文本连接模块,用于连接所述分词文本和至少一个预设实体库;
结果确定模块,用于根据连接结果生成的至少一个备选答案组合,确定命名实体识别和连接的结果。
进一步地,结果确定模块包括:
首级分词答案组合生成子模块,用于当所述分词为第一级分词,则根据第一级分词和所述预设实体库中预设命名实体的匹配结果,生成第一级分词的分词答案组合;
分词答案组合生成子模块,用于当所述分词非第一级分词,则根据所述分词文本中本级分词和所述至少一个预设实体库中预设命名实体的匹配结果以及上一级分词的筛选分词答案组合,生成本级分词的分词答案组合;
结果确定子模块,用于根据所述本级分词答案组合的评分,得到命名实体识别和连接的结果。
进一步地,结果确定子模块具体用于:
将最后一级分词的分词答案组合中评分最高的分词答案组合确定为命名实体识别和连接的结果。
进一步地,结果确定子模块包括:
答案特征集合生成单元,用于抽取所述分词答案组合的特征,生成相应的答案特征集合;
分词答案组合评分确定单元,用于根据所述答案特征集合和预设模型参数,确定所述分词答案组合的评分。
进一步地,答案特征集合生成单元具体用于:
抽取所述分词答案组合中各级分词的特征,并组成特征向量,作为所述分词答案组合的答案特征集合;
分词答案组合评分确定单元具体用于:
根据所述预设模型参数,确定所述特征向量对应的权重向量;
计算所述权重向量的转置向量和所述特征向量的数量积,并将所述数量积作为所述分词答案组合的评分。
本发明通过同步处理命名实体识别和实体连接,解决先命名实体识别,后实体连接造成的错误传播的问题,实现提高命名实体识别和连接的精度的效果。
附图说明
图1是本发明实施例一中的一种联合识别和连接命名实体的方法的流程图;
图2是本发明实施例二中的一种联合识别和连接命名实体的方法的流程图;
图3是本发明实施例三中的一种联合识别和连接命名实体的方法的流程图;
图4是本发明实施例四中的一种联合识别和连接命名实体的装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种联合识别和连接命名实体的方法的流程图,本实施例可适用于对输入文本进行命名实体识别和连接的情况,该方法可以由联合识别和连接命名实体的装置来执行,该装置可通过软件和/或硬件的方式实现,联合识别和连接命名实体的方法具体包括如下步骤:
步骤110、对输入文本的分词标注词性,生成分词文本。
其中,输入文本可以是用户输入的文字文本或根据用户输入的语音转换而来的文本,使用预设的文本分词系统将输入文本分词,示例的,可以使用ICTCLAS(Institute ofComputing Technology,Chinese Lexical Analysis System,汉语词法分析系统)对输入文本进行分词。然后,对各分词标注词性,示例的,分词词性包括:名词、动词、形容词、副词、量词和助词。
步骤120、连接分词文本和至少一个预设实体库。
其中,预设实体库是预先整理的,包括预设命名实体,其中的预设命名实体分类存储,且根据预设命名实体的类别建立联系。例如,歌曲的命名实体库,其中包括歌手名和歌曲名,且歌手名与该歌手演唱过的歌曲名之间建立对应关系。分词文本中的分词和预设实体库中的预设命名实体匹配连接,确定分词在预设实体库中各类别的预设命名实体中的匹配结果。
步骤130、根据连接结果生成的至少一个备选答案组合,确定命名实体识别和连接的结果。
可选地,将分词与预设命名实体的匹配结果依次排列组合,生成至少一个分词文本在预设实体库中连接的备选答案组合,对备选答案组合评分,根据评分确定命名实体识别和连接的结果。
本实施例的技术方案,通过同步处理命名实体识别和实体连接,解决先命名实体识别,后实体连接造成的错误传播的问题,实现提高命名实体识别和连接的精度的效果。
实施例二
图2为本发明实施例二提供的一种联合识别和连接命名实体的方法的流程图,本实施例的技术方案在上述技术方案的基础上进一步细化,步骤130包括:
步骤210、当分词为第一级分词,则根据第一级分词与预设实体库中预设命名实体的匹配结果,生成第一级分词的分词答案组合。
步骤220、当分词非第一级分词,则根据分词文本中本级分词和至少一个预设实体库中预设命名实体的匹配结果以及上一级分词的筛选分词答案组合,生成本级分词的分词答案组合。
其中,对第一级分词的答案组合进行评分并排序,筛选排序中位置靠前的预设数量的分词答案组合作为第一级分词的筛选分词答案组合。然后,根据分词文本中各级分词和预设实体库中预设命名实体的匹配结果,在上一级分词的筛选分词答案组合的基础上,逐级分词地扩展分词答案组合。
步骤230、根据本级分词答案组合的评分,得到命名实体识别和连接的结果。
其中,将最后一级分词的分词答案组合中评分最高的分词答案组合确定为命名实体识别和连接的结果。需要说明的是,扩展至最后一级分词的分词答案组合,并评分之后,可以省去筛选最后一级分词的筛选答案组合,将最后一级分词的分词答案组合中评分最高的分词答案组合作为命名实体识别和连接的结果即可。
本实施例的技术方案,通过筛选预设数量的本级分词答案组合,作为下一级分词扩展分词答案组合的基础,可以逐级过滤低评分的分词答案组合,减少错误传播,减少运算量,提高命名实体识别和连接的精度和效率。
实施例三
图3为本发明实施例三提供的一种联合识别和连接命名实体的方法的流程图,本实施例的技术方案是在上述实施例的基础上进一步细化,其中,步骤230是根据本级分词答案组合的评分,得到命名实体识别和连接的结果。可选地,对本级分词答案组合评分包括:
步骤310、抽取分词答案组合的特征,生成相应的答案特征集合。
其中,分词答案组合的特征包括:各分词、各分词的前一个分词、各分词的后一个分词、各分词的前两个分词、各分词的后两个分词、各分词的词性、各分词的前一个分词词性、各分词的后一个分词词性、分词在预设实体库中的各命名实体类别中的匹配结果、分词在预设实体库中的各命名实体类别中的匹配唯一性和/或分词答案组合中分词匹配结果的联系。优选的,抽取分词答案组合中各级分词的特征,将根据预设规则将特征转化为特征数值,并将特征数值组成特征向量,作为分词答案组合的答案特征集合。
步骤320、根据答案特征集合和预设模型参数,确定分词答案组合的评分。
优选的,根据预设模型参数,确定特征向量对应的权重向量;计算权重向量的转置向量和特征向量的数量积,并将数量积作为分词答案组合的评分。
本实施例的技术方案,通过答案特征集合和预设模型参数确定分词答案组合的评分,进而确定命名实体识别和连接的结果。
以下为本发明的一个优选实施例,示例的,S1、给定一个输入文本:“唱首周董的东风破”,使用预设文本预处理分词系统ICTCLAS对输入文本分词和词性标注,得到分词文本x,以及每个分词的词性信息,得到分词结果为:“唱(动词)/首(量词)/周董(名词)/的(助词)/东风破(名词)”。
S2、给定一个整理好的预设实体库(这里以音乐领域的预设实体库为例),其中含有“东风破”这首歌的歌曲如表1所示:
表1
编号 歌手(ARTIST) 歌曲(SONG)
1001 梁伶 东风破
1002 浮瑶 东风破
1003 周杰伦 东风破
给定分词后的文本“唱/首/周董/的/东风破”,在第i=1位置处(即考虑分词“唱”),枚举所有候选答案组合y(x,KB,1)。
对每个分词,均有ARTIST、SONG两种可能的实体类型或者非实体类型O来标识;如果标识为ARTIST或者SONG时,会进一步枚举出可以连接到预设实体库中对应记录的编号或者默认的NIL符号(NIL符号表示在预设实体库中找不到可以连接的实体)。
表2给出了所有候选答案组合y(x,KB,1):
表2
S3、给定一个可能的答案组合y[1:1]∈y(x,KB,1)(例如上表中的第1个答案组合)抽取特征,得到特征集合Φ(x,y[1:1],KB),具体如下:
a)传统命名实体识别时使用的特征
1.每个分词本身。例如:唱,特征表示:f1(词=唱)=1;
2.每个分词的前一个分词,后一个分词。例如:“唱”的前一个分词是NIL(表示不存在),后一个分词是“首”,特征表示:f2(词=唱&&前一个词=NIL)=1,f2(词=唱&&后一个词=首)=1;
3.每个分词的前两个分词,后两个分词。例如:“唱”的前两个分词是NIL和NIL(表示不存在),后两个分词是“首”和“周董”,特征表示:f3(词=唱&&前两个词=NIL、NIL)=1,f3(词=唱&&后两个词=首、周董)=1;
4.每个分词的词性。例如:唱(动词),特征表示:f4(词=唱&&词性=v)=1;
5.每个分词的前一个分词的词性,后一个分词的词性。例如:“唱”的前一词的词性是NIL(表示不存在),后一个词的词性是“量词”,特征表示:f5(词=唱&&前一词的词性=NIL)=1,f5(词=唱&&后一词的词性=m)=1;
b)传统实体连接时使用的特征
6.如果某个分词被认为是某类型的命名实体时,是否可以在预设实体库的相应列中检索到。例如:针对第1个答案组合,“唱”被认为不属于任何类型的实体,故忽略;针对第2个答案组合,“唱”被认为是ARTIST时,在知识库的ARTIST列中检索不到,特征表示:f6(词=唱&&是ARTIST&&在ARTIST列中)=-1;
7.如果在预设实体库中可以检索到对应的分词,是否是唯一的。
例如:针对第1个答案组合,“唱”被认为不属于任何类型的实体,故忽略;针对第2个答案组合,“唱”被认为是ARTIST时,在知识库的ARTIST列中检索不到,同样忽略。
c)同时考虑命名实体识别和连接的特征
8.如果在某答案组合中某实体名为歌曲名,且其在预设实体库中对应实体的歌手名为答案组合中另一实体名,则奖励该答案组合,否则惩罚该答案组合。例如:针对第1-3个答案组合,不存在此类特征,故忽略;针对第2个答案组合,“唱”被认为是ARTIST时,在知识库的ARTIST列中检索不到,同样忽略。
S4、给定特征集合Φ(x,y[1:1],KB),即上述[1,1,1,1,1,1,1,1]构成的特征向量,从训练好的模型参数W中查得每个特征对应的权重,构成权重向量,假设为w=[0.4,0.3,0.2,0.1,0.5,0.5,0.5,0.5],对候选答案使用公式score(x,y[1:i],KB)=WT·Φ(x,y[1:i],KB)计算得分,此时得分为3。类似地,我们可以计算出表2中其他两个候选答案组合的得分,从而得到得分前k个候选答案,通常我们只保留前3个候选答案。
S5、接下来再往下扩展一个分词到i=2位置时,只需要在当前的前k个候选答案的基础上进行扩展,回到步骤2。枚举所有候选答案组合Y(x,KB,2),如表3所示
表3
编号 候选答案组合y(x,KB,2) 得分 是否进入下一步扩展
4 唱(O)/首(O) 6
5 唱(O)/首(ARTIST/NIL) 4
6 唱(O)/首(SONG/NIL) 4
7 唱(ARTIST/NIL)/首(O) 3
8 唱(ARTIST/NIL)/首(ARTIST/NIL) 2
9 唱(ARTIST/NIL)/首(SONG/NIL) 2
10 唱(SONG/NIL)/首(O) 3
11 唱(SONG/NIL)/首(ARTIST/NIL) 2
12 唱(SONG/NIL)/首(SONG/NIL) 2
S6、给定一个可能的答案组合y[1:2]∈y(x,KB,2)(例如表3中的第4个答案组合),对其抽取特征,得到特征集合Φ(x,y[1:2],KB),具体如下:
a)传统命名实体识别时使用的特征
1.每个分词本身。例如:唱,特征表示:f1(词=唱)=1,f1(词=首)=1;
2.每个分词的前一个分词,后一个分词。例如:“唱”的前一个分词是NIL(表示不存在),后一个分词是“首”,特征表示:f2(词=唱&&前一个词=NIL)=1,f2(词=唱&&后一个词=首)=1;f2(词=首&&前一个词=唱)=1,f2(词=首&&后一个词=周董)=1;
3.每个分词的前两个分词,后两个分词。例如:“唱”的前两个分词是NIL和NIL(表示不存在),后两个分词是“首”和“周董”,特征表示:f3(词=唱&&前两个词=NIL、NIL)=1,f3(词=唱&&后两个词=首、周董)=1;f3(词=首&&前两个词=NIL、唱)=1,f3(词=首&&后两个词=周董、的)=1;
4.每个分词的词性。例如:唱(动词),特征表示:f4(词=唱&&词性=v)=1,f4(词=首&&词性=m)=1;
5.每个分词的前一个分词的词性,后一个分词的词性。例如:“唱”的前一分词的词性是NIL(表示不存在),后一个分词的词性是“量词”,特征表示:f5(词=唱&&前一词的词性=NIL)=1,f5(词=唱&&后一词的词性=m)=1;f5(词=首&&前一个词的词性=v)=1,f5(词=首&&后一次的词性=n)=1;
b)传统实体连接时使用的特征
6.如果某个分词被认为是某类型的实体时,是否可以在预设实体库的相应列中检索到。例如:针对第8个答案组合,特征表示:f6(词=唱&&是ARTIST&&在ARTIST列中)=-1,f6(词=首&&是ARTIST&&在ARTIST列中)=-1;
7.如果在预设实体库中可以检索到对应的分词,是否是唯一的。在第4-12的答案组合中,不存在此类特征,故忽略。
c)同时考虑命名实体识别和连接的特征
8.如果某可能的答案组合中某实体名为歌曲名,且其在预设实体库中对应实体的歌手名为答案组合中另一实体名,则奖励该答案组合,否则惩罚该答案组合。在第4-12的答案组合中,不存在此类特征,故忽略。
S7、给定特征集合Φ(x,y[1:2],KB),即上述[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]构成的特征向量,从训练好的模型参数W中查得每个特征对应的权重,构成权重向量,假设为W=[0.4,0.4,0.3,0.2,0.3,0.2,0.1,0.5,0.1,0.5,0.5,0.5,0.5,0.5,0.5,0.5],对候选答案使用公式score(x,y[1:i],KB)=WT·Φ(x,y[1:i],KB)计算得分,此时得分为6。类似地,我们可以计算出表3中其他几个候选答案组合的得分,取前3个候选答案做下一步扩展。
S8、接着继续往下逐个地扩展分词,假设上一步扩展到第i=4位置后的前3个候选答案组合如下:
表4
编号 候选答案组合y(x,KB,4) 得分 是否进入下一步扩展
13 唱(O)/首(O)/周董(ARTIST/1003)/的(O) 20
14 唱(O)/首(O)/周董(ARTIST/NIL)/的(O) 15
15 唱(O)/首(O)/周董(O)/的(O) 12
接下来往下扩展最后一个词,即第i=5个词“东风破”。枚举所有候选答案组合y(x,KB,5),如表5所示
表5
S9、给定一个可能的答案组合y[1:5]∈y(x,KB,5)(例如表5中的第20个答案组合),对其抽取特征,得到特征集合Φ(x,y[1:5],KB),具体如下:
a)传统命名实体识别时使用的特征(此处省略)
1.每个分词本身。
2.每个分词的前一个分词,后一个分词。
3.每个分词的前两个分词,后两个分词。
4.每个分词的分词性。
5.每个分词的前一个分词的词性,后一个分词的词性。
b)传统实体连接时使用的特征
6.如果某个分词被认为是某类型的实体时,是否可以在知识库的相应列中检索到。例如:针对第20个答案组合,“东风破”被认为是SONG时,在知识库的SONG列中可以检索到,特征表示:f6(词=东风破&&是SONG&&在SONG列中)=1;
7.如果在知识库中可以检索到对应的词,是否是唯一的。
例如:针对第20个答案组合,“东风破”被认为是SONG时,在知识库的SONG列中可以检索到,且不唯一,特征表示:f7(词=东风破&&是SONG&&在SONG列中&&是否唯一)=1。
c)同时考虑命名实体识别和连接的特征
8.如果在某答案组合中某实体名为歌曲名,且其在知识库中对应实体的歌手名为答案组合中另一实体名,则奖励该答案组合,否则惩罚该答案组合。
例如:针对第20个答案组合,实体名“东风破”在知识库中对应实体的编号为1003,该实体所对应的歌手名为“周杰伦”,刚好对应于该答案组合中“周董”(此处的“周董”与“周杰伦”匹配可以额外使用一部同义词词典辅助判断),因此需要奖励该答案组合。而上表中第19个答案组合中的实体名“东风破”在知识库中对应实体的编号为1002,该实体所对应的歌手名为“浮瑶”,与答案组合中的“周董”不能匹配,则需要惩罚该答案组合。特征表示:f8(符合判断条件)=1。
S10、给定特征集合Φ(x,y[1:5],KB),从训练好的模型参数W中查得每个特征对应的权重,构成权重向量,对候选答案使用公式score(x,y[1:i],KB)=WT·Φ(x,y[1:i],KB)计算得分。第20个候选答案得分最高,所以得到命名实体识别和连接的结果为“唱(O)/首(O)/周董(ARTIST/1003)/的(O)/东风破(SONG/1003)”。
实施例四
图4为本发明实施例四提供的一种联合识别和连接命名实体的装置的结构示意图,如图4所示,联合识别和连接命名实体的装置40包括:
分词文本生成模块410,用于对输入文本的分词标注词性,生成分词文本;
分词文本连接模块420,用于连接分词文本和至少一个预设实体库;
结果确定模块430,用于根据连接结果生成的至少一个备选答案组合,确定命名实体识别和连接的结果。
进一步地,结果确定模块包括:
首级分词答案组合生成子模块,用于当分词为第一级分词,则根据第一级分词和预设实体库中预设命名实体的匹配结果,生成第一级分词的分词答案组合;
分词答案组合生成子模块,用于当分词非第一级分词,则根据分词文本中本级分词和至少一个预设实体库中预设命名实体的匹配结果以及上一级分词的筛选分词答案组合,生成本级分词的分词答案组合;
结果确定子模块,用于根据本级分词答案组合的评分,得到命名实体识别和连接的结果。
进一步地,结果确定子模块具体用于:
将最后一级分词的分词答案组合中评分最高的分词答案组合确定为命名实体识别和连接的结果。
进一步地,结果确定子模块包括:
答案特征集合生成单元,用于抽取分词答案组合的特征,生成相应的答案特征集合;
分词答案组合评分确定单元,用于根据答案特征集合和预设模型参数,确定分词答案组合的评分。
进一步地,答案特征集合生成单元具体用于:
抽取分词答案组合中各级分词的特征,并组成特征向量,作为分词答案组合的答案特征集合;
分词答案组合评分确定单元具体用于:
根据预设模型参数,确定特征向量对应的权重向量;
计算权重向量的转置向量和特征向量的数量积,并将数量积作为分词答案组合的评分。
本发明通过同步处理命名实体识别和实体连接,解决先命名实体识别,后实体连接造成的错误传播的问题,实现提高命名实体识别和连接的精度的效果。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种联合识别和连接命名实体的方法,其特征在于,包括:
对输入文本的分词标注词性,生成分词文本;
连接所述分词文本和至少一个预设实体库;
根据连接结果生成的至少一个备选答案组合,确定命名实体识别和连接的结果。
2.根据权利要求1所述的方法,其特征在于,根据连接结果生成的至少一个备选答案组合,确定命名实体识别和连接的结果包括:
当所述分词为第一级分词,则根据第一级分词和所述预设实体库中预设命名实体的匹配结果,生成第一级分词的分词答案组合;
当所述分词非第一级分词,则根据所述分词文本中本级分词和所述至少一个预设实体库中预设命名实体的匹配结果以及上一级分词的筛选分词答案组合,生成本级分词的分词答案组合;
根据所述本级分词答案组合的评分,得到命名实体识别和连接的结果。
3.根据权利要求2所述的方法,其特征在于,根据所述本级分词答案组合的评分,得到命名实体识别和连接的结果包括:
将最后一级分词的分词答案组合中评分最高的分词答案组合确定为命名实体识别和连接的结果。
4.根据权利要求2所述的方法,其特征在于,对所述分词答案组合评分包括:
抽取所述分词答案组合的特征,生成相应的答案特征集合;
根据所述答案特征集合和预设模型参数,确定所述分词答案组合的评分。
5.根据权利要求4所述的方法,其特征在于,抽取所述分词答案组合的特征,生成相应的答案特征集合包括:
抽取所述分词答案组合中各级分词的特征,并组成特征向量,作为所述分词答案组合的答案特征集合;
所述根据所述答案特征集合和预设模型参数,确定所述分词答案组合的评分包括:
根据所述预设模型参数,确定所述特征向量对应的权重向量;
计算所述权重向量的转置向量和所述特征向量的数量积,并将所述数量积作为所述分词答案组合的评分。
6.一种联合识别和连接命名实体的装置,其特征在于,包括:
分词文本生成模块,用于对输入文本的分词标注词性,生成分词文本;
分词文本连接模块,用于连接所述分词文本和至少一个预设实体库;
结果确定模块,用于根据连接结果生成的至少一个备选答案组合,确定命名实体识别和连接的结果。
7.根据权利要求6所述的装置,其特征在于,结果确定模块包括:
首级分词答案组合生成子模块,用于当所述分词为第一级分词,则根据第一级分词和所述预设实体库中预设命名实体的匹配结果,生成第一级分词的分词答案组合;
分词答案组合生成子模块,用于当所述分词非第一级分词,则根据所述分词文本中本级分词和所述至少一个预设实体库中预设命名实体的匹配结果以及上一级分词的筛选分词答案组合,生成本级分词的分词答案组合;
结果确定子模块,用于根据所述本级分词答案组合的评分,得到命名实体识别和连接的结果。
8.根据权利要求7所述的装置,其特征在于,结果确定子模块具体用于:
将最后一级分词的分词答案组合中评分最高的分词答案组合确定为命名实体识别和连接的结果。
9.根据权利要求7所述的装置,其特征在于,结果确定子模块包括:
答案特征集合生成单元,用于抽取所述分词答案组合的特征,生成相应的答案特征集合;
分词答案组合评分确定单元,用于根据所述答案特征集合和预设模型参数,确定所述分词答案组合的评分。
10.根据权利要求9所述的装置,其特征在于,答案特征集合生成单元具体用于:
抽取所述分词答案组合中各级分词的特征,并组成特征向量,作为所述分词答案组合的答案特征集合;
分词答案组合评分确定单元具体用于:
根据所述预设模型参数,确定所述特征向量对应的权重向量;
计算所述权重向量的转置向量和所述特征向量的数量积,并将所述数量积作为所述分词答案组合的评分。
CN201611050150.9A 2016-11-24 2016-11-24 一种联合识别和连接命名实体的方法及装置 Active CN108108344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611050150.9A CN108108344B (zh) 2016-11-24 2016-11-24 一种联合识别和连接命名实体的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611050150.9A CN108108344B (zh) 2016-11-24 2016-11-24 一种联合识别和连接命名实体的方法及装置

Publications (2)

Publication Number Publication Date
CN108108344A true CN108108344A (zh) 2018-06-01
CN108108344B CN108108344B (zh) 2021-07-06

Family

ID=62204932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611050150.9A Active CN108108344B (zh) 2016-11-24 2016-11-24 一种联合识别和连接命名实体的方法及装置

Country Status (1)

Country Link
CN (1) CN108108344B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902286A (zh) * 2019-01-09 2019-06-18 北京小乘网络科技有限公司 一种实体识别的方法、装置及电子设备
CN111339778A (zh) * 2020-03-13 2020-06-26 苏州跃盟信息科技有限公司 文本处理方法、装置、存储介质和处理器
WO2020133291A1 (zh) * 2018-12-28 2020-07-02 深圳市优必选科技有限公司 文本实体识别方法、装置、计算机设备及存储介质
CN112052684A (zh) * 2020-09-07 2020-12-08 南方电网数字电网研究院有限公司 电力计量的命名实体识别方法、装置、设备和存储介质
CN112307764A (zh) * 2019-07-30 2021-02-02 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
US11520985B2 (en) 2019-07-31 2022-12-06 International Business Machines Corporation Named entity recognition

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
CN103631770A (zh) * 2013-12-06 2014-03-12 刘建勇 语言实体关系分析方法和一种机器翻译装置和方法
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105045826A (zh) * 2015-06-29 2015-11-11 华东师范大学 一种基于图模型的实体链接算法
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
CN103631770A (zh) * 2013-12-06 2014-03-12 刘建勇 语言实体关系分析方法和一种机器翻译装置和方法
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105045826A (zh) * 2015-06-29 2015-11-11 华东师范大学 一种基于图模型的实体链接算法
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周鹏程等: "基于多知识库的短文本实体链接方法研究—以Wikipedia 和Freebase 为例", 《现代图书情报技术》 *
陈万礼等: "基于多源知识和Ranking SVM的中文微博命名实体链接", 《中文信息学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020133291A1 (zh) * 2018-12-28 2020-07-02 深圳市优必选科技有限公司 文本实体识别方法、装置、计算机设备及存储介质
CN109902286A (zh) * 2019-01-09 2019-06-18 北京小乘网络科技有限公司 一种实体识别的方法、装置及电子设备
CN109902286B (zh) * 2019-01-09 2023-12-12 千城数智(北京)网络科技有限公司 一种实体识别的方法、装置及电子设备
CN112307764A (zh) * 2019-07-30 2021-02-02 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
CN112307764B (zh) * 2019-07-30 2024-01-19 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
US11520985B2 (en) 2019-07-31 2022-12-06 International Business Machines Corporation Named entity recognition
CN111339778A (zh) * 2020-03-13 2020-06-26 苏州跃盟信息科技有限公司 文本处理方法、装置、存储介质和处理器
CN112052684A (zh) * 2020-09-07 2020-12-08 南方电网数字电网研究院有限公司 电力计量的命名实体识别方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN108108344B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN108108344A (zh) 一种联合识别和连接命名实体的方法及装置
US10176804B2 (en) Analyzing textual data
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN105404621B (zh) 一种用于盲人读取汉字的方法及系统
Smith Translation as secondary communication. The relevance theory perspective of Ernst-August Gutt
CN103886034A (zh) 一种建立索引及匹配用户的查询输入信息的方法和设备
Brooke et al. Automatic acquisition of lexical formality
JP2005157524A (ja) 質問応答システムおよび質問応答処理方法
KR20130128716A (ko) 어학 학습 시스템 및 학습 방법
Sharma et al. Using Hidden Markov Model to improve the accuracy of Punjabi POS tagger
CN108073565A (zh) 词语规范化的方法和设备及机器翻译方法和设备
CN109213856A (zh) 一种语义识别方法及系统
CN107665188B (zh) 一种语义理解方法及装置
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
CN103324621A (zh) 一种泰语文本拼写纠正方法及装置
CN112214991A (zh) 一种基于多特征融合加权的微博文本立场检测方法
CN105224520A (zh) 一种中文专利文献术语自动识别方法
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
JP2015215626A (ja) 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2013250925A (ja) 回答タイプ推定装置、方法、及びプログラム
CN106959943A (zh) 语种识别更新方法及装置
CN109635125B (zh) 一种词汇图谱搭建方法及电子设备
CN106653006A (zh) 基于语音交互的搜索方法和装置
Wang et al. Automatic plagiarism detection for spoken responses in an assessment of english language proficiency
Wachsmuth et al. Back to the roots of genres: Text classification by language function

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun County Economic Development Zone, Beijing 101500

Patentee after: BEIJING ROOBO TECHNOLOGY Co.,Ltd.

Address before: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun County Economic Development Zone, Beijing 101500

Patentee before: BEIJING INTELLIGENT STEWARD Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20210824

Address after: 301-112, floor 3, building 2, No. 18, YANGFANGDIAN Road, Haidian District, Beijing 100038

Patentee after: Beijing Rubu Technology Co.,Ltd.

Address before: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun County Economic Development Zone, Beijing 101500

Patentee before: BEIJING ROOBO TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right