CN110705302A - 命名实体的识别方法、电子设备及计算机存储介质 - Google Patents
命名实体的识别方法、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN110705302A CN110705302A CN201910964988.6A CN201910964988A CN110705302A CN 110705302 A CN110705302 A CN 110705302A CN 201910964988 A CN201910964988 A CN 201910964988A CN 110705302 A CN110705302 A CN 110705302A
- Authority
- CN
- China
- Prior art keywords
- word
- word vector
- original text
- semantic
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 239000013598 vector Substances 0.000 claims abstract description 431
- 230000011218 segmentation Effects 0.000 claims description 88
- 238000012545 processing Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 230000008901 benefit Effects 0.000 description 6
- 230000008520 organization Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种命名实体的识别方法、电子设备及计算机存储介质,该方法包括:获取原始文本中包含的各个文字及其初始字向量,获取原始文本中包含的各个分词及其初始词向量;根据各个文字的初始字向量以及各个文字在原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据各个分词的初始词向量以及各个分词在原始文本中的上下文信息,确定各个分词的语义词向量;确定与各个文字的语义字向量相对应的第一实体识别结果,与各个分词的语义词向量相对应的第二实体识别结果;根据第一实体识别结果以及第二实体识别结果识别原始文本中包含的命名实体。该方式能够获取到更加准确的识别结果,避免了因字向量的信息量少所导致的识别错误。
Description
技术领域
本发明涉及计算机领域,具体涉及一种命名实体的识别方法、电子设备及计算机存储介质。
背景技术
在自然语言的处理过程中,经常需要针对语句中包含的命名实体等特定词汇进行识别,以便于针对识别出的特定词汇进行高亮标注或添加注解等处理,从而便于用户阅读。在现有技术中,通常采用如下方案实现:首先,确定语句中包含的各个文字以及与各个文字相对应的字向量;然后,基于各个文字所对应的字向量进行实体识别,从而挖掘文本中的特定词汇。
但是,发明人在实现本发明的过程中发现,现有技术中的上述方案至少存在下述缺陷:由于字向量所包含的信息量较少,无法准确呈现上下文之间的关联关系,因此,单独通过字向量进行识别的方式存在着准确率低下的缺陷。
发明内容
鉴于上述问题,本发明提供了一种克服上述问题或者至少部分地解决上述问题的命名实体的识别方法、电子设备及计算机存储介质。
根据本发明的一个方面,提供了一种命名实体的识别方法,包括:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
在本发明提供的命名实体的识别方法、电子设备及计算机存储介质中,一方面,根据原始文本中的各个文字的初始字向量以及各个文字在原始文本中的上下文信息,确定各个文字的语义字向量,进而确定与所述各个文字的语义字向量相对应的第一实体识别结果;另一方面,根据原始文本中的各个分词的初始词向量以及各个分词在原始文本中的上下文信息,确定各个分词的语义词向量,进而确定与各个文字的语义词向量相对应的第二实体识别结果,通过上述方式能够结合两类实体识别结果准确识别命名实体。由此可见,由于分词的词向量包含更多的语义信息,因此,本实施例中的上述方式能够获取到更加准确的识别结果,避免了因字向量的信息量少所导致的识别错误。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例提供的命名实体的识别方法的流程图;
图2示出了本发明另一个实施例提供的命名实体的识别方法的流程图;
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明一个实施例提供的命名实体的识别方法的流程图。如图1所示,该方法包括以下步骤:
步骤S110:获取原始文本中包含的各个文字以及各个文字的初始字向量,获取原始文本中包含的各个分词以及各个分词的初始词向量。
其中,原始文本既可以是电子书文本,也可以是其他类型的文本,本发明对此不做限定。另外,原始文本既可以是电子书的全文文本,也可以是电子书中的一个章节、段落或语句所对应的文本,总之,本发明对原始文本的最小单位不做限定。
具体地,在本实施例中,一方面,需要以字为单位获取原始文本中包含的各个文字及其对应的初始字向量,其中,初始字向量可以直接通过查询预设的字向量词典的方式获得;另一方面,需要以词为单位获取原始文本中包含的各个分词及其对应的初始词向量,其中,各个分词可以根据预设的分词词典确定,并且,各个分词的初始词向量可以直接通过查询预设的词向量词典的方式获得。本发明对初始字向量以及初始词向量的确定方式不做限定。另外,初始字向量的获取过程以及初始词向量的获取过程既可以同时进行,也可以先后进行,本发明同样不做限定。
步骤S120:根据各个文字的初始字向量以及各个文字在原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据各个分词的初始词向量以及各个分词在原始文本中的上下文信息,确定各个分词的语义词向量。
具体地,针对各个文字的初始字向量,根据该文字在原始文本中所处的位置,确定该文字在原始文本中所对应的上下文信息,结合该上下文信息确定该文字的语义字向量。由此可见,语义字向量是指融合了上下文信息的字向量。同理,针对各个分词的初始词向量,根据该分词在原始文本中所处的位置,确定该分词在原始文本中所对应的上下文信息,结合该上下文信息确定该分词的语义词向量。由此可见,语义词向量是指融合了上下文信息的词向量。本发明对语义字向量以及语义词向量的具体获取方式不做限定,凡是能够融合上下文信息的方式均可用于本发明。另外,本发明对语义字向量以及语义词向量的获取顺序不做限定,既可以同时获取,也可以先后获取。
步骤S130:确定与各个文字的语义字向量相对应的第一实体识别结果,以及与各个分词的语义词向量相对应的第二实体识别结果。
具体地,根据各个文字的语义字向量,确定与各个文字的语义字向量相对应的第一实体识别结果。例如,可以借助分词标记模型得到与各个文字的语义字向量相对应的第一实体识别结果。其中,分词标记模型能够根据各个语义字向量输出实体识别结果。同理,根据各个分词的语义词向量,确定与各个分词的语义词向量相对应的第一实体识别结果。例如,可以借助分词标记模型得到与各个分词的语义词向量相对应的第二实体识别结果。其中,用于输出第一实体识别结果的分词标记模型与用于输出第二实体识别结果的分词标记模型既可以是相同的模型,也可以是不同的模型,本发明对此不做限定。另外,第一实体识别结果的生成过程与第二实体识别结果的生成过程既可以同时进行,也可以先后进行,本发明对具体的执行顺序不做限定。
步骤S140:根据第一实体识别结果以及第二实体识别结果识别原始文本中包含的命名实体。
其中,第一实体识别结果是根据各个文字所对应的字向量得到的实体识别结果,具体标注了识别得到的各个实体词汇;相应地,第二实体识别结果是根据各个分词所对应的词向量得到的实体识别结果,同样标注了识别得到的各个实体词汇。由于第一实体识别结果以及第二实体识别结果的生成依据不同,因此,二者可能存在少许差别。在本步骤中,通过比较第一实体识别结果以及第二实体识别结果之间的异同,最终确定原始文本中包含的命名实体。
由此可见,在本发明提供的命名实体的识别方法中,一方面,根据原始文本中的各个文字的初始字向量以及各个文字在原始文本中的上下文信息,确定各个文字的语义字向量,进而确定与各个文字的语义字向量相对应的第一实体识别结果;另一方面,根据原始文本中的各个分词的初始词向量以及各个分词在原始文本中的上下文信息,确定各个分词的语义词向量,进而确定与各个文字的语义词向量相对应的第二实体识别结果,通过上述方式能够结合两类实体识别结果准确识别命名实体。由此可见,由于分词的词向量包含更多的语义信息,因此,本实施例中的上述方式能够获取到更加准确的识别结果,避免了因字向量的信息量少所导致的识别错误。
实施例二
图2示出了本发明另一个实施例提供的命名实体的识别方法的流程图。在本实施例中,主要应用于电子书应用,从而识别电子书文本中包含的各个命名实体。其中,命名实体是指:人名、机构名、地名以及其他所有以名称为标识的实体,甚至还可以包括数字、日期、货币、地址、事件等各类名词性的实体词。总之,凡是名词性的、能够指代具体事物的词汇均可作为本实施例中的命名实体。
如图2所示,该方法包括以下步骤:
步骤S210:获取原始文本中包含的各个文字以及各个文字的初始字向量。
其中,原始文本可以是电子书中的语句和/或段落。具体实施时,针对原始文本执行切字处理,以获得原始文本中包含的各个文字以及各个文字的初始字向量。其中,切字后得到的是单个的文字(例如汉字)。本发明既可以针对切字后得到的每个文字均确定对应的初始字向量,也可以先对切字后得到的各个文字进行筛选,并仅针对筛选后得到的各个文字确定对应的初始字向量。例如,可以按照文字的字面含义筛选具有明确含义的文字,并滤除作为助词、语气词的文字,从而简化后续的数据量。
针对原始文本中包含的各个文字确定初始字向量时,可以直接根据字向量词典确定。由于本实施例用于针对电子书文本进行识别,因此,可以根据电子书应用的书城数据库生成该字向量词典。首先,预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据各个电子书的文本内容生成原始语料数据。由此可见,本实施例中的原始语料数据是基于电子书应用的书城数据库中的各个电子书文本生成的,能够反映电子书文本的行文特点,有利于提升字向量以及词向量的准确性,从而提升识别准确率。然后,通过第一向量模型和/或第二向量模型,确定与原始语料数据相对应的字向量词典,从而根据该字向量词典确定各个文字的初始字向量。其中,第一向量模型与第二向量模型均用于生成字向量,二者既可以单独使用,也可以结合使用。其中,第一向量模型可以为word2vector模型,第二向量模型可以为Glove模型,上述两种向量模型均能够实现单个文字的向量化表示,从而能够以向量的形式来描述各个文字,以便于后续的分析处理。其中,本实施例中的初始字向量可以为64维的向量。
步骤S220:获取该原始文本中包含的各个分词以及各个分词的初始词向量。
具体实施时,根据分词词典对所述原始文本执行分词处理,以获得原始文本中包含的各个分词以及各个分词的初始词向量。其中,分词词典中包含已知的各种分词结果,即:包含多个已知的词汇,例如,“猫咪”、“孙悟空”等。该分词词典可以基于常用词汇建立。
具体地,分词后得到的是单个的词汇。本发明既可以针对分词后得到的每个词汇均确定对应的初始词向量,也可以先对分词后得到的各个词汇进行筛选,并仅针对筛选后得到的各个词汇确定对应的初始词向量。例如,可以根据词汇的词性筛选名词、形容词等具有明确含义的词汇,并滤除助词、语气词、副词等不具有明确含义的词汇,从而简化后续的数据量。
针对原始文本中包含的各个分词确定初始词向量时,可以直接根据词向量词典确定。与字向量词典的生成方式类似,该词向量词典也可以根据电子书应用的书城数据库生成。首先,预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据各个电子书的文本内容生成原始语料数据。然后,通过第一向量模型和/或第二向量模型,确定与原始语料数据相对应的词向量词典,从而根据该词向量词典确定各个分词的初始词向量。其中,第一向量模型与第二向量模型均用于生成词向量,二者既可以单独使用,也可以结合使用。其中,第一向量模型可以为word2vector模型,第二向量模型可以为Glove模型,上述两种向量模型均能够实现单个词汇的向量化表示,从而能够以向量的形式来描述各个词汇,以便于后续的分析处理。其中,本实施例中的初始词向量可以为128维的向量。
步骤S230:根据各个文字的初始字向量以及各个文字在原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据各个分词的初始词向量以及各个分词在原始文本中的上下文信息,确定各个分词的语义词向量。
具体地,根据各个文字或分词在原始文本中的位置信息,确定各个文字或分词在原始文本中的上下文信息,进而得到融合了上下文信息的语义内容的语义字向量或语义词向量。具体实施时,根据预设训练模型,确定各个文字的初始字向量与原始文本中的上下文信息之间的语义关联关系,以得到各个文字的语义字向量;以及,根据预设训练模型,确定各个分词的初始词向量与原始文本中的上下文信息之间的语义关联关系,以得到各个分词的语义词向量;其中,语义字向量以及语义词向量为融合上下文信息后得到的向量。
其中,预设训练模型可以为多种形式,例如,可以是卷积神经网络模型(简称CNN)、循环神经网络模型(简称RNN)、和/或BERT预训练模型。其中,BERT预训练模型通过词嵌入处理以及自注意力机制等,能够充分挖掘各个文字或分词所对应的向量与上下文之间的语义关联,从而确保得到的语义字向量或语义词向量能够尽可能多地体现上下文的语义内容。
具体地,在确定目标文字的语义字向量时,首先,根据该目标文字在原始文本中的偏移量,确定原始文本中的其他文字(即非目标文字)相对于该目标文字的相对偏移量,进而基于各个非目标文字相对于该目标文字的相对偏移量,生成该目标文字的语义字向量,从而融合目标文字的上下文信息。语义词向量的确定方式与语义字向量类似,都要结合分词的上下文信息进行确定。
步骤S240:确定与各个文字的语义字向量相对应的第一实体识别结果,以及与各个分词的语义词向量相对应的第二实体识别结果。
具体实施时,将各个文字的语义字向量输入分词标记模型,以得到与各个文字的语义字向量相对应的第一实体识别结果;以及,将分词的语义词向量输入分词标记模型,以得到与各个分词的语义词向量相对应的第二实体识别结果。其中,分词标记模型用于根据语义向量进行实体标注处理,具体可以为多种标记模型。在本实施例中,分词标记模型为条件随机场模型(简称CRF模型),该模型能够基于统计的方式进行词性标注,从而识别各个命名实体。
具体地,在本实施例中,一方面,基于分词标记模型得到与各个文字的语义字向量相对应的第一实体识别结果;另一方面,基于分词标记模型得到与各个分词的语义词向量相对应的第二实体识别结果。其中,用于得到第一实体识别结果的分词标记模型与用于得到第二实体识别结果的分词标记模型既可以相同也可以不同,只要能够实现词性标注处理即可。由此可见,基于分词标记模型得到与各个文字的语义字向量相对应的第一实体识别结果的第一处理过程与基于分词标记模型得到与各个分词的语义词向量相对应的第二实体识别结果的第二处理过程分别独立进行,二者之间互不影响。本发明不限定第一处理过程与第二处理过程的先后顺序,二者可以同时进行或先后进行。总之,本实施例的核心在于:通过基于语义字向量的第一处理过程以及基于语义词向量的第二处理过程这两套相互并行的处理过程独立得到两套识别结果,从而实现取长补短的效果。
步骤S250:根据第一实体识别结果以及第二实体识别结果识别原始文本中包含的命名实体。
由于第一实体识别结果以及第二实体识别结果是分别基于不同类型的语义向量得到的,因此,第一实体识别结果以及第二实体识别结果之间可能存在少许差异,相应地,在本实施例中,将第一实体识别结果以及第二实体识别结果相结合,从而准确识别原始文本中包含的命名实体。
具体地,将第一实体识别结果与第二实体识别结果进行比较,根据比较结果对第一实体识别结果和/或第二实体识别结果进行修正,以识别原始文本中包含的命名实体。例如,将第一实体识别结果与第二实体识别结果进行DIFF运算处理,以比较二者之间的异同,并根据比较结果识别原始文本中包含的命名实体。
步骤S260:当识别出的命名实体未存储于分词词典时,将识别出的命名实体添加到分词词典中。
本步骤为一个可选的步骤。具体地,每当出识别原始文本中包含的命名实体之后,进一步将识别出的命名实体与上文提到的分词词典进行匹配,若分词词典中不包含与该命名实体相匹配的分词结果,则将识别出的命名实体添加到该分词词典中。相应地,当后续再次根据该分词词典执行步骤S220中的分词操作时,则能够基于新添加的命名实体实现更加准确的分词。
本发明不限定上述各个步骤之间的执行顺序,本领域技术人员可以适当调整各步骤的先后顺序,并可以将上述步骤合并为更少的步骤,或拆分为更多的步骤。另外,在实际情况中,上述的各个步骤依次循环执行:每次识别完原始文本中包含的命名实体之后,进一步根据识别结果更新分词词典,以便于在后续的识别过程中根据更新后的分词词典进行分词处理。相应地,随着本实施例的不断实施,能够逐步识别电子书文本中的新兴词汇,从而根据新兴词汇不断扩充分词词典,进而提升后续识别结果的准确率。该方式无需预先进行样本训练,直接通过在线识别的方式即可实现,从而为命名实体的识别提供了便利。
另外,发明人在实现本发明的过程中发现:单独依赖字向量进行命名实体的识别时,由于字向量包含的信息内容较少,因此,容易导致识别结果不准确;而单独依赖分词处理后得到的词向量进行命名实体的识别时,由于分词词典无法穷尽所有的词汇,因而无论采用何种分词词典都必然存在分词不准确的问题,一旦分词结果错误,则直接导致依赖分词后得到的词向量识别出的命名实体存在错误。并且,即使在结合字向量识别方式以及词向量识别方式进行识别时,若直接将字向量以及词向量一同输入分词标记模型并执行一次识别处理过程,则仍会由于分词错误的情况而导致识别结果出错。例如,假设原始文本中包含ABCD四个文字,根据分词词典能够划分为AB以及CD两个分词,但是,实际上,在原始文本中A为单个文字,BCD共同组合为一个新兴词汇。由此可见,当单独采用字向量识别方式时,将得到四个字向量,分别为a、b、c、d,由于每个字向量动态生成且信息量较少,因而无法充分结合上下文语义准确识别命名实体;当单独采用词向量识别方式时,将得到两个词向量,分别为ab以及cd,虽然词向量具有较丰富的信息量,但是,由于分词结果错误将文字B与后续的CD割裂开来,从而将导致文字B与A一起进行识别,而CD则独立于AB进行识别,因此,在CD的识别过程中显然无法结合AB的内容,进而也无法识别出BCD这一新兴词汇。例如,在一种具体的方式中,如果将a、b、c、d四个字向量以及ab和cd两个词向量一同输入分词标记模型进行一次识别处理过程,由于词向量的分词结果是固定的,并且已经将CD与AB割裂开,因此,无论如何都无法得到准确的识别结果。
为了克服上述问题,本实施例提出将利用字向量实现的第一识别处理过程与利用词向量实现的第二识别处理过程分别独立进行,即:本实施例需要执行两次识别过程,且分别基于字向量以及词向量实现,由此既能够利用字向量获取各个文字的完整上下文信息,又避免了分词出错所导致的弊端。例如,仍以上例为例,在本实施例中,一方面,将a、b、c、d四个字向量输入分词标记模型进行第一识别处理过程;另一方面,将ab和cd两个词向量输入分词标记模型进行第二识别处理过程,由于两次识别处理过程相互独立,因此,字向量识别结果不受分词结果的制约,且能够结合二者的优势,从而得到更为准确的结果,进而识别出BCD这一新兴词汇,并将该新兴词汇加入分词词典,以提升后续识别的准确性。
综上可知,本实施例能够充分利用字向量的灵活性以及词向量信息量大的优势,从而取二者之长,得到准确的识别结果,既避免了因为字向量信息量少所导致的识别不准确,又避免了由于分词错误所导致的识别出错,从而显著提升了识别结果的准确性。并且,该方式能够自动发现新兴词汇,从而扩充分词词典,进而优化后续的识别过程。另外,本实施例中的识别方法可以用于识别电子书中的实体关键词,以便在电子书的阅读页面中显示实体关键词所对应的关联搜索入口元素;并在检测到通过关联搜索入口元素触发的关联搜索请求时,获取并展示与关联搜索请求相对应的实体关联信息。总之,针对识别出的实体可以进行高亮显示、添加注解等多种处理,以提升用户阅读效率。
实施例三
本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的命名实体的识别方法。
可执行指令具体可以用于使得处理器执行以下操作:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
针对所述原始文本执行切字处理,以获得所述原始文本中包含的各个文字以及各个文字的初始字向量;
根据分词词典对所述原始文本执行分词处理,以获得所述原始文本中包含的各个分词以及各个分词的初始词向量。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
当识别出的命名实体未存储于所述分词词典时,将识别出的命名实体添加到所述分词词典中。
在一种可选的实现方式中,所述计算机存储介质应用于电子书应用,则所述可执行指令使所述处理器执行以下操作:
预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据所述各个电子书的文本内容生成原始语料数据;
通过第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的字向量词典,根据所述字向量词典确定所述各个文字的初始字向量;
通过所述第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的词向量词典,根据所述词向量词典确定所述各个分词的初始词向量。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
根据预设训练模型,确定各个文字的初始字向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个文字的语义字向量;以及,
根据所述预设训练模型,确定各个分词的初始词向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个分词的语义词向量;其中,所述语义字向量以及所述语义词向量为融合上下文信息后得到的向量。
在一种可选的实现方式中,所述预设训练模型包括:卷积神经网络模型、循环神经网络模型、和/或BERT预训练模型。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
将所述各个文字的语义字向量输入分词标记模型,以得到与所述各个文字的语义字向量相对应的第一实体识别结果;以及,
将所述分词的语义词向量输入所述分词标记模型,以得到与所述各个分词的语义词向量相对应的第二实体识别结果。
在一种可选的实现方式中,所述分词标记模型包括:条件随机场模型。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
将所述第一实体识别结果与所述第二实体识别结果进行比较,根据比较结果对所述第一实体识别结果和/或所述第二实体识别结果进行修正,以识别所述原始文本中包含的命名实体。
在一种可选的实现方式中,所述命名实体包括:人名、地名、以及机构名;所述原始文本包括:电子书中的语句和/或段落。
实施例四
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述命名实体的识别方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
针对所述原始文本执行切字处理,以获得所述原始文本中包含的各个文字以及各个文字的初始字向量;
根据分词词典对所述原始文本执行分词处理,以获得所述原始文本中包含的各个分词以及各个分词的初始词向量。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
当识别出的命名实体未存储于所述分词词典时,将识别出的命名实体添加到所述分词词典中。
在一种可选的实现方式中,所述计算机存储介质应用于电子书应用,则所述可执行指令使所述处理器执行以下操作:
预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据所述各个电子书的文本内容生成原始语料数据;
通过第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的字向量词典,根据所述字向量词典确定所述各个文字的初始字向量;
通过所述第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的词向量词典,根据所述词向量词典确定所述各个分词的初始词向量。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
根据预设训练模型,确定各个文字的初始字向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个文字的语义字向量;以及,
根据所述预设训练模型,确定各个分词的初始词向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个分词的语义词向量;其中,所述语义字向量以及所述语义词向量为融合上下文信息后得到的向量。
在一种可选的实现方式中,所述预设训练模型包括:卷积神经网络模型、循环神经网络模型、和/或BERT预训练模型。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
将所述各个文字的语义字向量输入分词标记模型,以得到与所述各个文字的语义字向量相对应的第一实体识别结果;以及,
将所述分词的语义词向量输入所述分词标记模型,以得到与所述各个分词的语义词向量相对应的第二实体识别结果。
在一种可选的实现方式中,所述分词标记模型包括:条件随机场模型。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
将所述第一实体识别结果与所述第二实体识别结果进行比较,根据比较结果对所述第一实体识别结果和/或所述第二实体识别结果进行修正,以识别所述原始文本中包含的命名实体。
在一种可选的实现方式中,所述命名实体包括:人名、地名、以及机构名;所述原始文本包括:电子书中的语句和/或段落。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1.一种命名实体的识别方法,包括:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
A2.根据A1所述的方法,其中,所述获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量包括:
针对所述原始文本执行切字处理,以获得所述原始文本中包含的各个文字以及各个文字的初始字向量;
根据分词词典对所述原始文本执行分词处理,以获得所述原始文本中包含的各个分词以及各个分词的初始词向量。
A3.根据A2所述的方法,其中,所述根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体之后,进一步包括:当识别出的命名实体未存储于所述分词词典时,将识别出的命名实体添加到所述分词词典中。
A4.根据A1-3任一所述的方法,其中,所述方法应用于电子书应用,则所述获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量包括:
预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据所述各个电子书的文本内容生成原始语料数据;
通过第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的字向量词典,根据所述字向量词典确定所述各个文字的初始字向量;
通过所述第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的词向量词典,根据所述词向量词典确定所述各个分词的初始词向量。
A5.根据A1-4任一所述的方法,其中,所述根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量包括:
根据预设训练模型,确定各个文字的初始字向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个文字的语义字向量;以及,
根据所述预设训练模型,确定各个分词的初始词向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个分词的语义词向量;其中,所述语义字向量以及所述语义词向量为融合上下文信息后得到的向量。
A6.根据A5所述的方法,其中,所述预设训练模型包括:卷积神经网络模型、循环神经网络模型、和/或BERT预训练模型。
A7.根据A1-6任一所述的方法,其中,所述确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果包括:
将所述各个文字的语义字向量输入分词标记模型,以得到与所述各个文字的语义字向量相对应的第一实体识别结果;以及,
将所述分词的语义词向量输入所述分词标记模型,以得到与所述各个分词的语义词向量相对应的第二实体识别结果。
A8.根据A7所述的方法,其中,所述分词标记模型包括:条件随机场模型。
A9.根据A1-8任一所述的方法,其中,所述根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体包括:
将所述第一实体识别结果与所述第二实体识别结果进行比较,根据比较结果对所述第一实体识别结果和/或所述第二实体识别结果进行修正,以识别所述原始文本中包含的命名实体。
A10.根据A1-8任一所述的方法,其中,所述命名实体包括:人名、地名、以及机构名;所述原始文本包括:电子书中的语句和/或段落。
B11.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
B12.根据B11所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
针对所述原始文本执行切字处理,以获得所述原始文本中包含的各个文字以及各个文字的初始字向量;
根据分词词典对所述原始文本执行分词处理,以获得所述原始文本中包含的各个分词以及各个分词的初始词向量。
B13.根据B12所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
当识别出的命名实体未存储于所述分词词典时,将识别出的命名实体添加到所述分词词典中。
B14.根据B11-13任一所述的电子设备,其中,所述电子设备应用于电子书应用,则所述可执行指令使所述处理器执行以下操作:
预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据所述各个电子书的文本内容生成原始语料数据;
通过第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的字向量词典,根据所述字向量词典确定所述各个文字的初始字向量;
通过所述第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的词向量词典,根据所述词向量词典确定所述各个分词的初始词向量。
B15.根据B11-14任一所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
根据预设训练模型,确定各个文字的初始字向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个文字的语义字向量;以及,
根据所述预设训练模型,确定各个分词的初始词向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个分词的语义词向量;其中,所述语义字向量以及所述语义词向量为融合上下文信息后得到的向量。
B16.根据B15所述的电子设备,其中,所述预设训练模型包括:卷积神经网络模型、循环神经网络模型、和/或BERT预训练模型。
B17.根据B11-16任一所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
将所述各个文字的语义字向量输入分词标记模型,以得到与所述各个文字的语义字向量相对应的第一实体识别结果;以及,
将所述分词的语义词向量输入所述分词标记模型,以得到与所述各个分词的语义词向量相对应的第二实体识别结果。
B18.根据B17所述的电子设备,其中,所述分词标记模型包括:条件随机场模型。
B19.根据B11-18任一所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
将所述第一实体识别结果与所述第二实体识别结果进行比较,根据比较结果对所述第一实体识别结果和/或所述第二实体识别结果进行修正,以识别所述原始文本中包含的命名实体。
B20.根据B11-18任一所述的电子设备,其中,所述命名实体包括:人名、地名、以及机构名;所述原始文本包括:电子书中的语句和/或段落。
C21.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
C22.根据C21所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
针对所述原始文本执行切字处理,以获得所述原始文本中包含的各个文字以及各个文字的初始字向量;
根据分词词典对所述原始文本执行分词处理,以获得所述原始文本中包含的各个分词以及各个分词的初始词向量。
C23.根据C22所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
当识别出的命名实体未存储于所述分词词典时,将识别出的命名实体添加到所述分词词典中。
C24.根据C21-23任一所述的计算机存储介质,其中,所述计算机存储介质应用于电子书应用,则所述可执行指令使所述处理器执行以下操作:
预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据所述各个电子书的文本内容生成原始语料数据;
通过第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的字向量词典,根据所述字向量词典确定所述各个文字的初始字向量;
通过所述第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的词向量词典,根据所述词向量词典确定所述各个分词的初始词向量。
C25.根据C21-24任一所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
根据预设训练模型,确定各个文字的初始字向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个文字的语义字向量;以及,
根据所述预设训练模型,确定各个分词的初始词向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个分词的语义词向量;其中,所述语义字向量以及所述语义词向量为融合上下文信息后得到的向量。
C26.根据C25所述的计算机存储介质,其中,所述预设训练模型包括:卷积神经网络模型、循环神经网络模型、和/或BERT预训练模型。
C27.根据C21-26任一所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
将所述各个文字的语义字向量输入分词标记模型,以得到与所述各个文字的语义字向量相对应的第一实体识别结果;以及,
将所述分词的语义词向量输入所述分词标记模型,以得到与所述各个分词的语义词向量相对应的第二实体识别结果。
C28.根据C27所述的计算机存储介质,其中,所述分词标记模型包括:条件随机场模型。
C29.根据C21-28任一所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
将所述第一实体识别结果与所述第二实体识别结果进行比较,根据比较结果对所述第一实体识别结果和/或所述第二实体识别结果进行修正,以识别所述原始文本中包含的命名实体。
C30.根据C21-28任一所述的计算机存储介质,其中,所述命名实体包括:人名、地名、以及机构名;所述原始文本包括:电子书中的语句和/或段落。
Claims (10)
1.一种命名实体的识别方法,包括:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
2.根据权利要求1所述的方法,其中,所述获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量包括:
针对所述原始文本执行切字处理,以获得所述原始文本中包含的各个文字以及各个文字的初始字向量;
根据分词词典对所述原始文本执行分词处理,以获得所述原始文本中包含的各个分词以及各个分词的初始词向量。
3.根据权利要求2所述的方法,其中,所述根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体之后,进一步包括:当识别出的命名实体未存储于所述分词词典时,将识别出的命名实体添加到所述分词词典中。
4.根据权利要求1-3任一所述的方法,其中,所述方法应用于电子书应用,则所述获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量包括:
预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据所述各个电子书的文本内容生成原始语料数据;
通过第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的字向量词典,根据所述字向量词典确定所述各个文字的初始字向量;
通过所述第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的词向量词典,根据所述词向量词典确定所述各个分词的初始词向量。
5.根据权利要求1-4任一所述的方法,其中,所述根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量包括:
根据预设训练模型,确定各个文字的初始字向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个文字的语义字向量;以及,
根据所述预设训练模型,确定各个分词的初始词向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个分词的语义词向量;其中,所述语义字向量以及所述语义词向量为融合上下文信息后得到的向量。
6.根据权利要求5所述的方法,其中,所述预设训练模型包括:卷积神经网络模型、循环神经网络模型、和/或BERT预训练模型。
7.根据权利要求1-6任一所述的方法,其中,所述确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果包括:
将所述各个文字的语义字向量输入分词标记模型,以得到与所述各个文字的语义字向量相对应的第一实体识别结果;以及,
将所述分词的语义词向量输入所述分词标记模型,以得到与所述各个分词的语义词向量相对应的第二实体识别结果。
8.根据权利要求7所述的方法,其中,所述分词标记模型包括:条件随机场模型。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910964988.6A CN110705302B (zh) | 2019-10-11 | 2019-10-11 | 命名实体的识别方法、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910964988.6A CN110705302B (zh) | 2019-10-11 | 2019-10-11 | 命名实体的识别方法、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705302A true CN110705302A (zh) | 2020-01-17 |
CN110705302B CN110705302B (zh) | 2023-12-12 |
Family
ID=69199471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910964988.6A Active CN110705302B (zh) | 2019-10-11 | 2019-10-11 | 命名实体的识别方法、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705302B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291549A (zh) * | 2020-05-08 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和电子设备 |
CN111444719A (zh) * | 2020-03-17 | 2020-07-24 | 车智互联(北京)科技有限公司 | 一种实体识别方法、装置和计算设备 |
CN111552819A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种实体提取方法、装置及可读存储介质 |
CN112487813A (zh) * | 2020-11-24 | 2021-03-12 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及系统、电子设备及存储介质 |
CN112836514A (zh) * | 2020-06-19 | 2021-05-25 | 合肥量圳建筑科技有限公司 | 嵌套实体识别方法、装置、电子设备和存储介质 |
CN112989829A (zh) * | 2021-02-10 | 2021-06-18 | 海尔数字科技(上海)有限公司 | 一种命名实体识别方法、装置、设备及存储介质 |
CN113221553A (zh) * | 2020-01-21 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备以及可读存储介质 |
CN114218948A (zh) * | 2021-12-15 | 2022-03-22 | 广州华多网络科技有限公司 | 关键词识别方法及其装置、设备、介质、产品 |
CN116070638A (zh) * | 2023-01-03 | 2023-05-05 | 广东工业大学 | 一种中文语句特征构造的训练更新方法及系统 |
CN118171656A (zh) * | 2024-05-14 | 2024-06-11 | 北京嘉和海森健康科技有限公司 | 一种一词多实体识别方法、装置、存储介质及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893362A (zh) * | 2014-09-26 | 2016-08-24 | 北大方正集团有限公司 | 获取知识点语义向量的方法、确定相关知识点的方法及系统 |
US20170308524A1 (en) * | 2016-04-26 | 2017-10-26 | International Business Machines Corporation | Structured dictionary population utilizing text analytics of unstructured language dictionary text |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108763510A (zh) * | 2018-05-30 | 2018-11-06 | 北京五八信息技术有限公司 | 意图识别方法、装置、设备及存储介质 |
CN109101492A (zh) * | 2018-07-25 | 2018-12-28 | 南京瓦尔基里网络科技有限公司 | 一种自然语言处理中使用历史对话行为进行实体提取的方法及系统 |
CN109273000A (zh) * | 2018-10-11 | 2019-01-25 | 河南工学院 | 一种语音识别方法 |
CN110069610A (zh) * | 2019-03-16 | 2019-07-30 | 平安科技(深圳)有限公司 | 基于Solr的检索方法、装置、设备和存储介质 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
-
2019
- 2019-10-11 CN CN201910964988.6A patent/CN110705302B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893362A (zh) * | 2014-09-26 | 2016-08-24 | 北大方正集团有限公司 | 获取知识点语义向量的方法、确定相关知识点的方法及系统 |
US20170308524A1 (en) * | 2016-04-26 | 2017-10-26 | International Business Machines Corporation | Structured dictionary population utilizing text analytics of unstructured language dictionary text |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108763510A (zh) * | 2018-05-30 | 2018-11-06 | 北京五八信息技术有限公司 | 意图识别方法、装置、设备及存储介质 |
CN109101492A (zh) * | 2018-07-25 | 2018-12-28 | 南京瓦尔基里网络科技有限公司 | 一种自然语言处理中使用历史对话行为进行实体提取的方法及系统 |
CN109273000A (zh) * | 2018-10-11 | 2019-01-25 | 河南工学院 | 一种语音识别方法 |
CN110069610A (zh) * | 2019-03-16 | 2019-07-30 | 平安科技(深圳)有限公司 | 基于Solr的检索方法、装置、设备和存储介质 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221553A (zh) * | 2020-01-21 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备以及可读存储介质 |
CN111444719A (zh) * | 2020-03-17 | 2020-07-24 | 车智互联(北京)科技有限公司 | 一种实体识别方法、装置和计算设备 |
CN111444719B (zh) * | 2020-03-17 | 2023-10-20 | 车智互联(北京)科技有限公司 | 一种实体识别方法、装置和计算设备 |
CN111552819B (zh) * | 2020-04-28 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 一种实体提取方法、装置及可读存储介质 |
CN111552819A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种实体提取方法、装置及可读存储介质 |
CN111291549B (zh) * | 2020-05-08 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和电子设备 |
CN111291549A (zh) * | 2020-05-08 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和电子设备 |
CN112836514A (zh) * | 2020-06-19 | 2021-05-25 | 合肥量圳建筑科技有限公司 | 嵌套实体识别方法、装置、电子设备和存储介质 |
CN112487813A (zh) * | 2020-11-24 | 2021-03-12 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及系统、电子设备及存储介质 |
CN112487813B (zh) * | 2020-11-24 | 2024-05-10 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及系统、电子设备及存储介质 |
CN112989829A (zh) * | 2021-02-10 | 2021-06-18 | 海尔数字科技(上海)有限公司 | 一种命名实体识别方法、装置、设备及存储介质 |
CN112989829B (zh) * | 2021-02-10 | 2024-03-08 | 卡奥斯数字科技(上海)有限公司 | 一种命名实体识别方法、装置、设备及存储介质 |
CN114218948A (zh) * | 2021-12-15 | 2022-03-22 | 广州华多网络科技有限公司 | 关键词识别方法及其装置、设备、介质、产品 |
CN116070638A (zh) * | 2023-01-03 | 2023-05-05 | 广东工业大学 | 一种中文语句特征构造的训练更新方法及系统 |
CN116070638B (zh) * | 2023-01-03 | 2023-09-08 | 广东工业大学 | 一种中文语句特征构造的训练更新方法及系统 |
CN118171656A (zh) * | 2024-05-14 | 2024-06-11 | 北京嘉和海森健康科技有限公司 | 一种一词多实体识别方法、装置、存储介质及电子设备 |
CN118171656B (zh) * | 2024-05-14 | 2024-08-09 | 北京嘉和海森健康科技有限公司 | 一种一词多实体识别方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110705302B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705302A (zh) | 命名实体的识别方法、电子设备及计算机存储介质 | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN110716991B (zh) | 基于电子书的实体关联信息的展示方法及电子设备 | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
JP2006031010A (ja) | 固有名称又は部分的な固有名称の認識を提供する方法及び装置 | |
CN110895961A (zh) | 医疗数据中的文本匹配方法及装置 | |
CN109857957B (zh) | 建立标签库的方法、电子设备及计算机存储介质 | |
CN113468339B (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN110263127A (zh) | 基于用户查询词进行文本搜索方法及装置 | |
CN113988057A (zh) | 基于概念抽取的标题生成方法、装置、设备及介质 | |
CN111382570A (zh) | 文本实体识别方法、装置、计算机设备及存储介质 | |
CN109189907A (zh) | 一种基于语义匹配的检索方法及装置 | |
CN110888975A (zh) | 文本可视化 | |
CN111881681B (zh) | 实体样本获取方法、装置及电子设备 | |
CN109902309B (zh) | 翻译方法、装置、设备和存储介质 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112784611A (zh) | 数据处理方法、装置及计算机存储介质 | |
CN114417869A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN111008519A (zh) | 阅读页面的展示方法、电子设备及计算机存储介质 | |
US11842165B2 (en) | Context-based image tag translation | |
CN116933789A (zh) | 一种语言表征模型的训练方法以及训练装置 | |
CN113988067A (zh) | 语句分词方法、装置及电子设备 | |
CN114528824A (zh) | 文本纠错方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |