CN109446521B - 命名实体识别方法、装置、电子设备、机器可读存储介质 - Google Patents

命名实体识别方法、装置、电子设备、机器可读存储介质 Download PDF

Info

Publication number
CN109446521B
CN109446521B CN201811213302.1A CN201811213302A CN109446521B CN 109446521 B CN109446521 B CN 109446521B CN 201811213302 A CN201811213302 A CN 201811213302A CN 109446521 B CN109446521 B CN 109446521B
Authority
CN
China
Prior art keywords
vector
dimension
identified
sentence
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811213302.1A
Other languages
English (en)
Other versions
CN109446521A (zh
Inventor
徐楚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201811213302.1A priority Critical patent/CN109446521B/zh
Publication of CN109446521A publication Critical patent/CN109446521A/zh
Application granted granted Critical
Publication of CN109446521B publication Critical patent/CN109446521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种命名实体识别方法、装置、电子设备、机器可读存储介质。一种命名实体识别方法包括:将用户输入的待识别语句转换成预设维度的待识别向量;所述待识别语句至少包含音译的命名实体;将所述待识别向量写入预先训练好的命名实体识别模型,由所述命名实体识别模型识别出所述命名实体。本实施例中待识别向量至少包括字符串向量、文字向量和拼音向量,由于采用音译的命名实体包含相同的拼音向量,因此,本实施例中待识别向量中增加了可以表征待识别语句的有效特征,有利于提升命名实体识别的正确率,可以克服音译外部人名多样化的问题。

Description

命名实体识别方法、装置、电子设备、机器可读存储介质
技术领域
本发明涉及控制技术领域,尤其涉及一种命名实体识别方法、装置、电子设备、机器可读存储介质。
背景技术
目前,人名识别是命名实体识别领域的一个重要的方向,可以应用在各种电子产品之上。然而,外国人名存在音译多样化,例如梵高与凡高,音译方式存在不能严格满足百家姓的问题,导致后续人名识别结果的正确率较低。
发明内容
本发明提供一种命名实体识别方法、装置、电子设备、机器可读存储介质,以解决相关技术中由于音译外部人名而引起的命名识别结果正确率较低的问题。
根据本发明实施例的第一方面,提供一种命名实体识别方法,包括:
将用户输入的待识别语句转换成预设维度的待识别向量;所述待识别语句至少包含音译的命名实体;
将所述待识别向量写入预先训练好的命名实体识别模型,由所述命名实体识别模型识别出所述命名实体。
所述预设维度的待识别向量至少包括第一维度的字符串向量、第二维度的文字向量和第三维度的拼音向量。
可选地,将用户输入的待识别语句转换成预设维度的待识别向量包括:
将用户输入的待识别语句处理为第一长度的待识别语句;
将所述第一长度的待识别语句分别处理为第一维度的字符串向量、第二维度的文字向量和第三维度的拼音向量;
将所述字符串向量、所述文字向量和所述拼音向量进行级联,得到所述待识别向量;
所述待识别向量的维度为第一维度、第二维度和第三维度之和。
可选地,将所述第一长度的待识别语句处理为第一维度的字符串向量包括:
基于预先设置的分词工具,对所述第一长度的待识别语句进行分词,得到分词结果;所述分词结果中至少包括表征所述待识别语句中每个分词的属性的数字;所述属性至少包括单独的文字,命名实体的开始文字和结束文字,以及命名实体的中间文字;
将表征每个分词的属性的数字采用第二长度的数据表示,得到第一维度的字符串向量;
所述第一维度为第一长度和第二长度的乘积。
可选地,将所述第一长度的待识别语句处理为第二维度的文字向量包括:
基于预先设置的文字字典,将所述第一长度的待识别语句中每个文字转换为数字,得到第一独热向量;所述文字字典包括与每个文字对应的数字;
将所述第一独热向量中每个数字采用第三长度的数据表示,得到第二维度的文字向量;
所述第二维度为第一长度和第三长度的乘积。
可选地,所述文字字典基于以下步骤获取,包括:
获取第一数量条语句样本并标注各语句样本中的命名实体;
将每条语句样本处理为第一长度的样本语句,所有第一长度的样本语句形成训练集;
统计所述训练集中每个文字出现的频率;
基于所述频率降序排列各文字,得到所述文字字典。
可选地,将所述第一长度的待识别语句处理为第三维度的拼音向量包括:
基于预先设置的拼音字典,将所述第一长度的待识别语句中每个文字的拼音转换为数字,得到第二独热向量;所述拼音字典包括与每个文字的拼音对应的数字;
将所述第二独热向量中每个数字采用第四长度的数据表示,得到第三维度的拼音向量;
所述第三维度为第一长度和第四长度的乘积。
可选地,所述拼音字典基于以下步骤获取,包括:
获取第一数量条语句样本;
将每条语句样本处理为第一长度的样本语句,所有第一长度的样本语句形成训练集;
统计所述训练集中每个文字的拼音出现的频率;
基于所述频率降序排列各文字的拼音,得到所述拼音字典。
可选地,所述命名实体识别模型基于Bi-LSTM-CRF算法实现。
根据本发明实施例的第二方面,提供一种命名实体识别装置,包括:
语句向量转换模块,用于将用户输入的待识别语句转换成预设维度的待识别向量;所述待识别语句至少包含音译的命名实体;
语句向量识别模块,用于将所述待识别向量写入预先训练好的命名实体识别模型,由所述命名实体识别模型识别出所述命名实体。
根据本发明实施例的第三方面,提供一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器被配置为执行所述存储器中的可执行指令以实现第一方面所述方法的步骤。
根据本发明实施例的第四方面,提供一种机器可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现第一方面所述的方法的步骤。
可见,本实施例中通过将用户输入的待识别语句转换成预设维度的待识别向量;其中待识别语句至少包含音译的命名实体;然后在将待识别向量写入预先训练好的命名实体识别模型后,命名实体识别模型可以识别出待识别语句中命名实体。本实施例中待识别向量至少包括字符串向量、文字向量和拼音向量,由于采用音译的命名实体包含相同的拼音向量,因此,本实施例中待识别向量中增加了可以表征待识别语句的有效特征,有利于提升命名实体识别的正确率,可以克服音译外部人名多样化的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明实施例示出的一种命名实体识别方法的流程示意图;
图2是本发明实施例示出的获取待识别向量的流程示意图;
图3是本发明实施例示出的获取字符串向量的流程示意图;
图4是本发明实施例示出的获取文字向量的流程示意图;
图5是本发明实施例示出的获取拼音向量的流程示意图;
图6是本发明实施例示出的命名实体识别模型识别基于待识别向量识别命名主体位置的流程示意图;
图7是本发明实施例示出的另一种命名实体识别方法的流程示意图;
图8~图12是本发明实施例示出的一种命名实体识别装置的框图;
图13是本发明实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
目前,人名识别是命名实体识别领域的一个重要的方向,可以应用在各种电子产品之上。然而,外国人名存在音译多样化,例如梵高与凡高,音译方式存在不能严格满足百家姓的问题,导致后续人名识别结果的正确率较低。
为此,本申请的发明人发现:不同用户在音译同一个外部人名的过程中,虽然音译结果中的文字不同,但是音译结果中命名实体的拼音是相同的。基于上述场景,本发明实施例提供了一种命名实体识别方法,发明构思在于,在将用户输入的待识别语句转换成待识别向量的过程中,增加拼音特征,这样在提高识别命名实体的正确率。另外,本实施例中,一种命名实体识别方法可以应用于需要检测音译的命名实体的场景,例如,上述命名实体识别方法可以应用于京东方公司的Igallery画廊,用户可以输入语句,如“帮我介绍一下凡高”,然后电子设备进行命名实体识别,得到其中的命名实体为“凡高”,之后再基于确定的命名实体“凡高”来查询其相应的说明材料,这样可以方便用户准确地查询相关材料。
图1是本发明实施例示出的一种命名实体识别方法的流程示意图,参见图1,一种命名实体识别方法包括:
101,将用户输入的待识别语句转换成预设维度的待识别向量;所述待识别语句至少包含音译的命名实体。
本实施例中,电子设备上设置有输入设备,例如键盘、触摸屏、手写笔等。用户通过输入设备可以输入语句,以表征其需求,如“帮我介绍一下凡高”。对于输入设备而言,其可以实时或者按照设定周期查询是否被操作触发操作,在查询到被触发操作后,可以获取到用户输入的语句,即待识别语句。为方便后续识别,本实施例中默认待识别语句中包括至少一个音译的命名实体。
本实施例中,电子设备可以将用户输入的待识别语句转换成预设维度的待识别向量,其中待识别向量至少包括字符串向量、文字向量和拼音向量。因此,本实施例中,参见图2,转换过程可以包括,
每个用户的语言表达习惯不同,导致其输入待识别语句的长度不同,因此电子设备需要将各用户输入的待识别语句处于为第一长度的待识别语句(对应步骤201)。在一实施例中,第一长度可以为20,即用户输入语句的长度可以包括20个文字。当然,第一长度可以根据具体场景进行设置,例如,用户可以根据经验值进行设置,又如,可以将统计大量用户输入习惯得到的输入语句长度最多的数值作为第一长度,都可以实现本申请的方案。
其中,电子设备处理为第一长度的待识别语句的方式可以包括:
方式一,若待识别语句的长度小于第一长度,则不足第一长度的部分用数字0补齐。例如,待识别语句为“我想看梵高的画”,其字数小于20个文字,则补齐后得到第一长度的待识别语句为“我想看梵高的画0 0 0 0 0 0 0 00 0 0 0 0”。
方式二,若待识别语句的长度大于第一长度,则将其从头开始划分为多个待识别语句,可理解的是,划分后的多个待识别语句中至少包含一个第一长度的待识别语句,还包含一个不足第一长度的待识别语句。其中,不足第一长度的待识别语句可以采用方式一进行补齐,达到第一长度。最终,划分后的多个待识别语句中至少包含两个第一长度的待识别语句。
继续参见图2,电子设备将第一长度的待识别语句进行处理,分别得到第一维度的字符串向量、第二维度的文字向量和第三维度的拼音向量(对应步骤202)。最后,电子设备将字符串向量、文字向量和拼音向量进行级联,可以得到待识别向量。可理解的是,待识别向量的维度为第一维度、第二维度和第三维度之和(对应步骤203)。需要说明的是,级联过程中,字符串向量、文字向量和拼音向量的顺序不作限定。
在一实施例中,电子设备将第一长度的待识别语句进行处理得到第一维度的字符串向量,参见图3,包括:电子设备先调用预先设置的分词工具,对第一长度的待识别进行分词,可以得到分词结果。其中,分词结果中至少包括表征待识别语句中每个分词之属性的数字(对应步骤301)。需要说明的是,本实施例中属性至少包括单独的文字,命名实体的开始文字和结束文字,以及命名实体的中间文字等。还需要说明的是,分词工具可以为Jieba分词工具,在能够实现分词的情况下,技术人员可以根据具体场景选择其他分词工具,在此不作限定。
例如,
待识别语句:我想看梵高的画0000000000000
分词结果:0 0 0 1 3 0 0 0000000000000
其中,分词结果中数字“0”表征分词的属性为一个单独的文字,数字1、2和3分别表征分词的属性为一个命名实体的开始文字、中间文字和结束文字。
继续参见图3,电子设备将表征每个分词之属性的数字采用第二长度的数据表示,这样可以得到第一维度的字符串向量,其中第一维度为第一长度和第二长度的乘积(对应步骤302)。
继续以上述待分词结果为例,将其中的数字“0”、“1”和“3”分别采用20维(即第二长度为20维)的数据表示,从而得到维度为20*20的字符串向量S。
在一实施例中,电子设备将第一长度的待识别语句处理为第二维度的文字向量,参见图4,包括:
电子设备先调用预先设置的文字字典,该文字字典中包括与每个文字对应的数字。该文字字典的获取方式后续实施例会进行描述,在此先不作说明。基于该文字字典将每个文字转换为数字,得到一个独热(one-hot)向量,即第一独热向量(对应步骤401)。然后,电子设备将第一独热向量中每个数字采用第三长度的数据表示,从而得到第二维度的文字向量。其中,第二维度为第一长度和第三长度的乘积(对应步骤402)。
例如,
待识别语句为:我想看梵高的画0000000000000
第一独热向量:15 78 48 200 60 3 70 0000000000000
之后,电子设备查询公开的数据库,例如Wiki-100.uft8,将第一独热向量中的每个数据采用100维度(即第三长度为100)的数据表示,例如,“看”可以表示为{-0.264945 -0.092258 -0.050152 -0.319721 -0.149178 0.0839560.244163 -0.302383 0.0291510.095546 -0.411431 0.042696 0.334324 0.474897 0.117823 0.191431 -0.026142 -0.106760 0.173066 0.334861 0.050283 -0.371936 -0.393356 0.035683 -0.1128870.044459 -0.035779 -0.018963 0.175626 0.046061 0.010230 -0.231759 0.080840 -0.092316 -0.264075 0.048683 0.112560 -0.1885550.345316 0.182028 0.074840 -0.429834 0.134067 0.131086 0.288123 0.274698-0.353991 0.123319 -0.140112 -0.102469 0.216367 -0.149051 -0.103791-0.170733 -0.016097 -0.143299 -0.0869810.106205 -0.156683 -0.106593 0.028822 0.249637 0.037139 0.099294 -0.025101 -0.435069 0.077488 -0.1942330.157432 -0.265231 -0.092496 -0.182734 0.149089 -0.162035 -0.106705-0.090203 -0.118444 -0.347447 0.143812 -0.024574 0.2621740.194083 0.241647 -0.152939 0.148917 0.002539 0.034128 0.053213 0.0640300.021076 -0.102498 0.224149 -0.003737 -0.339187 -0.104609 -0.136682 -0.125018-0.2638390.098237 0.396475},从而得到20*100的文字向量F。
在一实施例中,电子设备将第一长度的待识别语句处理为第三维度的拼音向量,参见图5,包括:
电子设备先调用预先设置的拼音字典,该拼音字典中包括与每个文字的拼音对应的数字。该拼音字典的获取方式后续实施例会进行描述,在此先不作说明。基于该拼音字典,电子设备将第一长度的待识别语句中每个文字的拼音转换为数字,得到第二独热向量(对应步骤501)。之后,电子设备将第二独热向量中每个数字采用第四长度的数据表示,得到第三维度的拼音向量;第三维度为第一长度和第四长度的乘积(对应步骤502)。
例如,
待识别语句为:wo xiang kan fan gao de hua 0000000000000
第一独热向量:10 68 28 100 30 2 58 0000000000000
然后,电子设备查询公开的数据库,例如Wiki-40.uft8,将第二独热向量中的每个数据采用40维度(即第四长度为40)的数据表示,例如“kan”可以表示为{-0.264945 -0.092258 -0.050152 -0.319721 -0.149178 0.0839560.244163 -0.302383 0.0291510.095546 -0.411431 0.042696 0.334324 0.474897 0.117823 0.191431 -0.026142 -0.106760 0.173066 0.334861 0.050283 -0.371936 -0.393356 0.035683 -0.1128870.044459 -0.035779 -0.018963 0.175626 0.046061 0.010230 -0.231759 0.080840 -0.092316 -0.264075 0.048683 0.112560 -0.1885550.345316 0.182028},从而得到20*40的拼音向量P。
102,将所述待识别向量写入预先训练好的命名实体识别模型,由所述命名实体识别模型识别出所述命名实体。
本实施例中,电子设备先调用预先训练好的命名实体识别模型。在一实施例中,命名实体识别模型基于Bi-LSTM-CRF算法实现。其中Bi-LSTM-CRF算法的结构如图6所示。之后,电子设备将待识别向量写入预先训练好的命名实体识别模型,由命名实体识别模型识别出命名实体,可以通过标示出命名实体的开始文字和结束文字的位置来展现识别出的命名实现。
继续参见图6,当用户输入待识别语句“我想看梵高的画”时,电子设备将输入待识别语句转换为1*20维度的待识别语句“我想看梵高的画0000000000000”。然后,电子设备将1*20维度的待识别语句转换为字符串向量S、文字向量F和拼音向量P,级联后可得到待识别向量。之后,电子设备将待识别向量输入到Bi-LSTM-CRF算法,从而得到{0,0,0,B-PER,I-PER,0,0,0,0,0,0,0,0,0,0,0,0,0},即标注出命名实体“梵高”的位置。
可见,本实施例中通过将用户输入的待识别语句转换成预设维度的待识别向量;其中待识别语句至少包含音译的命名实体;然后在将待识别向量写入预先训练好的命名实体识别模型后,命名实体识别模型可以识别出待识别语句中命名实体的位置。本实施例中待识别向量至少包括字符串向量、文字向量和拼音向量,由于采用音译的命名实体包含相同的拼音向量,因此,本实施例中待识别向量中增加了可以表征待识别语句的有效特征,有利于提升命名实体识别的正确率,可以克服音译外部人名多样化的问题。
图7是本发明实施例示出的一种命名实体识别方法的流程示意图,参见图7,一种命名实体识别方法包括:
701,训练命名实体识别模型。
本实施例中,从海量用户的使用历史记录中,电子设备可以收集第一数量条(例如数千条)表征用户查询艺术领域相关知识的语句样本,例如“莫奈出生于那一年”,“达芬奇最有名的画是什么”,“介绍下梵高”等。然后,由人工对各样本语句中命名实体进行标注,不足第一长度的语句样本的用数字“0”补足,这样可以得到一条第一长度的语句样本。
例如,语句样本:我想看梵高的画;标注后的语句样本为:<<我,0><想,0><看,0><梵,B-PER><高,I-PER><的,0><画,0>……<0,0>>。
基于上述标注方式,将第一数量条语句样本标注完成后,所有第一长度的样本语句形成训练集。
然后,电子设备基于上述训练集可以得到文字字典和拼音字典。其中,
对于文字字典:电子设备统计训练集中每个文字出现的频率,然后基于频率降序排列各文字,可以得到文字字典。对于拼音字典:电子设备统计训练集中每个文字的拼音出现的频率;然后基于频率降序排列各文字的拼音,得到拼音字典。
需要说明的是,本实施例中降序排列的目的在于,出现频率越高的文字其对应的数字越小,这样在后续计算过程中可以减少计算量。
本实施例中,在得到训练集、文字字典和拼音字典后,电子设备分别基于文字字典和拼音字典,依次将训练集中的每一条语句样本转换为第一独热向量、第二独热向量。之后,基于公开的数据库(例如Wiki-100.uft8或者Wiki-100.uft8),可以得到文字向量和拼音向量,具体方案可以参考步骤101中文字向量和拼音向量的获取方案,在此不再赘述。
本实施例中,电子设备还可以基于分词工具,获取到训练集中各语句样本的字符串向量,具体方案可以参考步骤101中字符串向量的获取方案,在此不再赘述。
最终,电子设备将训练集中各语句样本的字符串向量、文字向量和拼音向量进行级联,得到各语句样本的待识别向量,并利用待识别向量训练命名实体识别模型,并得到如图6所示的训练好的命名实体识别模型。
702,将用户输入的待识别语句转换成预设维度的待识别向量;所述待识别语句至少包含音译的命名实体。
步骤702和步骤101的具体方法和原理一致,详细描述请参考图1及步骤101的相关内容,此处不再赘述。
需要说明的是,步骤701和步骤702的执行顺序不作限定。
703,将所述待识别向量写入预先训练好的命名实体识别模型,由所述命名实体识别模型识别出所述命名实体。
步骤703和步骤102的具体方法和原理一致,详细描述请参考图1及步骤102的相关内容,此处不再赘述。
可见,本实施例中通过将用户输入的待识别语句转换成预设维度的待识别向量;其中待识别语句至少包含音译的命名实体;然后在将待识别向量写入预先训练好的命名实体识别模型后,命名实体识别模型可以识别出待识别语句中命名实体的位置。本实施例中待识别向量至少包括字符串向量、文字向量和拼音向量,由于采用音译的命名实体包含相同的拼音向量,因此,本实施例中待识别向量中增加了可以表征待识别语句的有效特征,有利于提升命名实体识别的正确率,可以克服音译外部人名多样化的问题。
图8是本发明实施例示出的一种命名实体识别装置的流程示意图,参见图8,一种命名实体识别装置800包括:
语句向量转换模块801,用于将用户输入的待识别语句转换成预设维度的待识别向量;所述待识别语句至少包含音译的命名实体;
语句向量识别模块802,用于将所述待识别向量写入预先训练好的命名实体识别模型,由所述命名实体识别模型识别出所述命名实体。
在一实施例中,所述预设维度的待识别向量至少包括第一维度的字符串向量、第二维度的文字向量和第三维度的拼音向量。
在一实施例中,参见图9,在图8所示命名实体识别装置800的基础上,所述语句向量转换模块801包括:
语句长度处理单元901,用于将用户输入的待识别语句处理为第一长度的待识别语句;
向量获取单元902,用于将所述第一长度的待识别语句分别处理为第一维度的字符串向量、第二维度的文字向量和第三维度的拼音向量;
向量级联单元903,用于将所述字符串向量、所述文字向量和所述拼音向量进行级联,得到所述待识别向量;
所述待识别向量的维度为第一维度、第二维度和第三维度之和。
在一实施例中,参见图10,在图9所示命名实体识别装置800的基础上,所述向量获取单元902包括:
语句分词子单元1001,用于基于预先设置的分词工具,对所述第一长度的待识别语句进行分词,得到分词结果;所述分词结果中至少包括表征所述待识别语句中每个分词之属性的数字;所述属性至少包括单独的文字,命名实体的开始文字和结束文字,以及命名实体的中间文字;
向量获取子单元1002,用于将表征每个分词之属性的数字采用第二长度的数据表示,得到第一维度的字符串向量;所述第一维度为第一长度和第二长度的乘积。
在一实施例中,参见图11,在图9所示命名实体识别装置800的基础上,所述向量获取单元902包括:
第一独热向量获取子单元1101,用于基于预先设置的文字字典,将所述第一长度的待识别语句中每个文字转换为数字,得到第一独热向量;所述文字字典包括与每个文字对应的数字;
文字向量获取子单元1102,用于将所述第一独热向量中每个数字采用第三长度的数据表示,得到第二维度的文字向量;所述第二维度为第一长度和第三长度的乘积。
在一实施例中,参见图12,在图9所示命名实体识别装置800的基础上,所述向量获取单元902包括:
第二独热向量获取子单元1201,用于基于预先设置的拼音字典,将所述第一长度的待识别语句中每个文字的拼音转换为数字,得到第二独热向量;所述拼音字典包括与每个文字的拼音对应的数字;
拼音向量获取子单元1202,用于将所述第二独热向量中每个数字采用第四长度的数据表示,得到第三维度的拼音向量;所述第三维度为第一长度和第四长度的乘积。
在一实施例中,所述命名实体识别模型基于Bi-LSTM-CRF算法实现。
图13是本发明实施例示出的一种电子设备的框流图,参见图13,一种电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器被配置为执行所述存储器中的可执行指令以实现图1~图6所示实施例的步骤。
本发明实施例还提供了一种机器可读存储介质,其上存储有计算机指令,该指令被处理器执行时以实现图1~6所示实施例的步骤。
在本发明中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (9)

1.一种命名实体识别方法,其特征在于,包括:
将用户输入的待识别语句转换成预设维度的待识别向量;所述待识别语句至少包含音译的命名实体;所述预设维度的待识别向量至少包括第一维度的字符串向量、第二维度的文字向量和第三维度的拼音向量;
将所述待识别向量写入预先训练好的命名实体识别模型,由所述命名实体识别模型识别出所述命名实体;
将用户输入的待识别语句转换成预设维度的待识别向量包括:
将用户输入的待识别语句处理为第一长度的待识别语句;
将所述第一长度的待识别语句分别处理为第一维度的字符串向量、第二维度的文字向量和第三维度的拼音向量;
将所述字符串向量、所述文字向量和所述拼音向量进行级联,得到所述待识别向量;
所述待识别向量的维度为第一维度、第二维度和第三维度之和;
将所述第一长度的待识别语句处理为第一维度的字符串向量包括:
基于预先设置的分词工具,对所述第一长度的待识别语句进行分词,得到分词结果;所述分词结果中至少包括表征所述待识别语句中每个分词的属性的数字;所述属性至少包括单独的文字,命名实体的开始文字和结束文字,以及命名实体的中间文字;
将表征每个分词的属性的数字采用第二长度的数据表示,得到第一维度的字符串向量;所述第一维度为第一长度和第二长度的乘积。
2.根据权利要求1所述的命名实体识别方法,其特征在于,将所述第一长度的待识别语句处理为第二维度的文字向量包括:
基于预先设置的文字字典,将所述第一长度的待识别语句中每个文字转换为数字,得到第一独热向量;所述文字字典包括与每个文字对应的数字;
将所述第一独热向量中每个数字采用第三长度的数据表示,得到第二维度的文字向量;所述第二维度为第一长度和第三长度的乘积。
3.根据权利要求2所述的命名实体识别方法,其特征在于,所述文字字典基于以下步骤获取,包括:
获取第一数量条语句样本并标注各语句样本中的命名实体;
将每条语句样本处理为第一长度的样本语句,所有第一长度的样本语句形成训练集;
统计所述训练集中每个文字出现的频率;
基于所述频率降序排列各文字,得到所述文字字典。
4.根据权利要求1所述的命名实体识别方法,其特征在于,将所述第一长度的待识别语句处理为第三维度的拼音向量包括:
基于预先设置的拼音字典,将所述第一长度的待识别语句中每个文字的拼音转换为数字,得到第二独热向量;所述拼音字典包括与每个文字的拼音对应的数字;
将所述第二独热向量中每个数字采用第四长度的数据表示,得到第三维度的拼音向量;所述第三维度为第一长度和第四长度的乘积。
5.根据权利要求4所述的命名实体识别方法,其特征在于,所述拼音字典基于以下步骤获取,包括:
获取第一数量条语句样本;
将每条语句样本处理为第一长度的样本语句,所有第一长度的样本语句形成训练集;
统计所述训练集中每个文字的拼音出现的频率;
基于所述频率降序排列各文字的拼音,得到所述拼音字典。
6.根据权利要求1所述的命名实体识别方法,其特征在于,所述命名实体识别模型基于Bi-LSTM-CRF算法实现。
7.一种命名实体识别装置,其特征在于,包括:
语句向量转换模块,用于将用户输入的待识别语句转换成预设维度的待识别向量;所述待识别语句至少包含音译的命名实体;所述预设维度的待识别向量至少包括第一维度的字符串向量、第二维度的文字向量和第三维度的拼音向量;
语句向量识别模块,用于将所述待识别向量写入预先训练好的命名实体识别模型,由所述命名实体识别模型识别出所述命名实体;
所述语句向量转换模块包括:
语句长度处理单元,用于将用户输入的待识别语句处理为第一长度的待识别语句;
向量获取单元,用于将所述第一长度的待识别语句分别处理为第一维度的字符串向量、第二维度的文字向量和第三维度的拼音向量;
向量级联单元,用于将所述字符串向量、所述文字向量和所述拼音向量进行级联,得到所述待识别向量;
所述待识别向量的维度为第一维度、第二维度和第三维度之和;
所述向量获取单元包括:
语句分词子单元,用于基于预先设置的分词工具,对所述第一长度的待识别语句进行分词,得到分词结果;所述分词结果中至少包括表征所述待识别语句中每个分词的属性的数字;所述属性至少包括单独的文字,命名实体的开始文字和结束文字,以及命名实体的中间文字;
向量获取子单元,用于将表征每个分词的属性的数字采用第二长度的数据表示,得到第一维度的字符串向量;所述第一维度为第一长度和第二长度的乘积。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器被配置为执行所述存储器中的可执行指令以实现权利要求1~6任一项所述方法的步骤。
9.一种机器可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1~6任一项所述的方法的步骤。
CN201811213302.1A 2018-10-18 2018-10-18 命名实体识别方法、装置、电子设备、机器可读存储介质 Active CN109446521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811213302.1A CN109446521B (zh) 2018-10-18 2018-10-18 命名实体识别方法、装置、电子设备、机器可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811213302.1A CN109446521B (zh) 2018-10-18 2018-10-18 命名实体识别方法、装置、电子设备、机器可读存储介质

Publications (2)

Publication Number Publication Date
CN109446521A CN109446521A (zh) 2019-03-08
CN109446521B true CN109446521B (zh) 2023-08-25

Family

ID=65547243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811213302.1A Active CN109446521B (zh) 2018-10-18 2018-10-18 命名实体识别方法、装置、电子设备、机器可读存储介质

Country Status (1)

Country Link
CN (1) CN109446521B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222340B (zh) * 2019-06-06 2023-04-18 掌阅科技股份有限公司 书籍人物姓名识别模型的训练方法、电子设备及存储介质
CN110399616A (zh) * 2019-07-31 2019-11-01 国信优易数据有限公司 命名实体检测方法、装置、电子设备及可读存储介质
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN111651990B (zh) * 2020-04-14 2024-03-15 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质
CN112883162A (zh) * 2021-03-05 2021-06-01 龙马智芯(珠海横琴)科技有限公司 一种音译名识别方法、装置、识别设备及可读存储介质
CN113190656B (zh) * 2021-05-11 2023-07-14 南京大学 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113139385A (zh) * 2021-05-12 2021-07-20 北京化工大学 基于字词读音融合特征模型的电子病历命名实体识别方法
CN116484841B (zh) * 2023-05-10 2023-10-03 道有道科技集团股份公司 基于自动化审核的信息校验系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
CN104657343B (zh) * 2013-11-15 2017-10-10 富士通株式会社 识别音译名的方法及装置
CN107016994B (zh) * 2016-01-27 2020-05-08 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统

Also Published As

Publication number Publication date
CN109446521A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109446521B (zh) 命名实体识别方法、装置、电子设备、机器可读存储介质
CN107291783B (zh) 一种语义匹配方法及智能设备
US20210011595A1 (en) Terminal and method for determining type of input method editor
US10915788B2 (en) Optical character recognition using end-to-end deep learning
CN109190049B (zh) 关键词推荐方法、系统、电子设备和计算机可读介质
US20080294982A1 (en) Providing relevant text auto-completions
CN107798001B (zh) 网页处理方法、装置及设备
CN109241525B (zh) 关键词的提取方法、装置和系统
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN109446328A (zh) 一种文本识别方法、装置及其存储介质
US20160140389A1 (en) Information extraction supporting apparatus and method
CN111459977B (zh) 自然语言查询的转换
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
CN108170708B (zh) 一种车辆实体识别方法、电子设备、存储介质、系统
CN103713845A (zh) 筛选候选项的方法和装置、文字输入方法和输入法系统
CN110110143B (zh) 一种视频分类方法及装置
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
US11520835B2 (en) Learning system, learning method, and program
US20140325350A1 (en) Target area estimation apparatus, method and program
CN104102704A (zh) 系统控件展示方法和装置
CN110738050A (zh) 基于分词和命名实体识别的文本重组方法及装置、介质
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
CN109783612B (zh) 报表数据定位方法及装置、存储介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant