CN112633001A - 文本命名实体识别方法、装置、电子设备及存储介质 - Google Patents

文本命名实体识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112633001A
CN112633001A CN202011578829.1A CN202011578829A CN112633001A CN 112633001 A CN112633001 A CN 112633001A CN 202011578829 A CN202011578829 A CN 202011578829A CN 112633001 A CN112633001 A CN 112633001A
Authority
CN
China
Prior art keywords
text
layer
information
target
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011578829.1A
Other languages
English (en)
Inventor
奚晓钰
李敏
陆彦良
李东晓
移金圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011578829.1A priority Critical patent/CN112633001A/zh
Publication of CN112633001A publication Critical patent/CN112633001A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种文本命名实体识别方法、装置、电子设备及存储介质,该方法包括:将待进行命名实体识别的目标文本输入至预设的命名实体识别模型中,其中,所述命名实体识别模型中包括提取层和识别层;通过所述命名实体识别模型中的提取层提取所述目标文本的特征信息,并将所述特征信息输入至所述识别层;在确定目标文本的文本类型后,通过所述识别层根据文本类型调用对应的识别规则,根据识别规则对目标文本的特性信息进行标注,得到标注信息,根据标注信息输出实体标注文本;其中,所述文本类型表征文本语种,所述识别规则中包括用于特性信息匹配的命名格式和专用列表。其能够适用于低资源语言环境下的数据标注,提高标注效率及准确度。

Description

文本命名实体识别方法、装置、电子设备及存储介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种文本命名实体识别方法、装置、电子设备及存储介质。
背景技术
命名实体识别(Named Entity Recognition,NER)是一种分类任务,它用于识别文本中的引用实体(如人名、组织名、地名或日期等)。
在目前的命名实体识别阶段,主要是针对高资源语言下的文本进行命名实体识别。高资源语言指全球主流国家的语言,例如英文、德文、法文、中文、韩文等,高资源语言的标注训练数据较充足完善,能够得到识别效果较好的识别模型。而对于低资源语言(如豪萨文或约鲁巴文),由于缺乏与之对应的标注训练数据,致使命名实体识别效果达不到预期。
发明内容
针对现有技术存在的问题,本发明提供一种文本命名实体识别方法、装置、电子设备及存储介质。
本发明提供一种文本命名实体识别方法,包括:
将待进行命名实体识别的目标文本输入至预设的命名实体识别模型中,其中,所述命名实体识别模型中包括提取层和识别层;
通过所述命名实体识别模型中的提取层提取所述目标文本的特征信息,并将所述特征信息输入至所述识别层;
在确定目标文本的文本类型后,通过所述识别层根据文本类型调用对应的识别规则,根据识别规则对目标文本的特性信息进行标注,得到标注信息,根据标注信息输出实体标注文本;其中,所述文本类型表征文本语种,所述识别规则中包括用于特性信息匹配的命名格式和专用列表。
根据本发明提供的一种文本命名实体识别方法,所述识别层包括命名格式层和专用列表层,相应地,将目标文本的特征信息输入到识别层,由识别层在确定目标文本的文本类型后,根据文本类型调用对应的识别规则,根据识别规则对目标文本的特征信息进行标注,包括:
将目标文本的特征信息输入到命名格式层,由命名格式层在确定目标文本的文本类型后,根据文本类型调用对应的命名格式,根据命名格式对目标文本的特征信息进行标注;
将目标文本的特征信息输入到专用列表层,由专用列表层在确定目标文本的文本类型后,根据文本类型调用对应的专用列表,根据专用列表对目标文本的特征信息进行标注。
根据本发明提供的一种文本命名实体识别方法,所述命名实体识别模型还包括优化层,相应地,将目标文本的特征信息输入到识别层,由识别层在确定目标文本的文本类型后,根据文本类型调用对应的识别规则,根据识别规则对目标文本的特征信息进行标注之后,还包括:
将目标文本的特征信息及对目标文本的特征信息进行标注的标注信息输入到优化层,由优化层根据目标文本的特征信息对标注信息进行更正优化,输出优化后的标注信息。
根据本发明提供的一种文本命名实体识别方法,所述将目标文本的特征信息及对目标文本的特征信息进行标注的标注信息输入到优化层,由优化层根据目标文本的特征信息对标注信息进行更正优化,输出优化后的标注信息,包括:
由优化层根据目标文本的特征信息,确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量;
以及确定目标文本中所有字词的嵌入向量;
根据目标字词的位置值和字词向量,以及所有字词的嵌入向量,确定目标字词的优化用标注信息;
根据优化用标注信息输出优化后的标注信息;
所述目标字词为具有标注信息的字词。
根据本发明提供的一种文本命名实体识别方法,在确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量之前,还包括:
由优化层根据未经训练的CRF分类器对目标文本的特征信息进行分类,获得标签信息;
相应地,根据标签信息确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量。
本发明还提供一种文本命名实体识别装置,包括:
输入模块,用于将待进行命名实体识别的目标文本输入至预设的命名实体识别模型中,其中,所述命名实体识别模型中包括提取层和识别层;
提取模块,用于通过所述命名实体识别模型中的提取层提取所述目标文本的特征信息,并将所述特征信息输入至所述识别层;
识别模块,用于在确定目标文本的文本类型后,通过所述识别层根据文本类型调用对应的识别规则,根据识别规则对目标文本的特性信息进行标注,得到标注信息,根据标注信息输出实体标注文本;其中,所述文本类型表征文本语种,所述识别规则中包括用于特性信息匹配的命名格式和专用列表。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本命名实体识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本命名实体识别方法的步骤。
本发明提供的文本命名实体识别方法、装置、电子设备及存储介质,通过命名实体识别模型对低资源语言环境下的文本进行标注,该模型包括识别层,能够在确定文本的文本类型后,根据文本类型调用对应的命名格式和专用列表对文本的特征信息进行标注,得到标注信息,能够适用于低资源语言环境下的数据标注,提高标注效率及准确度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本命名实体识别方法的流程示意图;
图2是本发明提供的文本命名实体识别装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明提供的文本命名实体识别方法、装置、电子设备及存储介质。
图1示出了本发明提供的文本命名实体识别方法的流程示意图,参见图1,该方法包括以下步骤:
S11、将待进行命名实体识别的目标文本输入至预设的命名实体识别模型中,其中,所述命名实体识别模型中包括提取层和识别层;
S12、通过所述命名实体识别模型中的提取层提取所述目标文本的特征信息,并将所述特征信息输入至所述识别层;
S13、在确定目标文本的文本类型后,通过所述识别层根据文本类型调用对应的识别规则,根据识别规则对目标文本的特性信息进行标注,得到标注信息,根据标注信息输出实体标注文本;其中,所述文本类型表征文本语种,所述识别规则中包括用于特性信息匹配的命名格式和专用列表。
针对步骤S11-步骤S13,需要说明的是,在本发明中,命名实体识别(NER)是一种分类任务,它用于识别文本中的引用实体(如人名、组织名、地名,日期)。它是自然语言处理的核心任务,也是许多应用程序(如搜索引擎、知识边缘图和个人助理)的组件。
在目前的命名实体识别阶段,主要是针对高资源语言下的文本进行命名实体识别。高资源语言指全球主流国家的语种,例如英文、德文、法文、中文、韩文等。而对于低资源语言(如豪萨文或约鲁巴文),由于缺乏与之对应的标注训练数据,致使命名实体识别效果达不到预期。
为此,本发明的文本命名实体识别旨在适用于低资源语言文本的命名实体识别过程。
首先,获取待进行命名实体识别的目标文本。该目标文本可以是一篇文章,也可以是该文章中一段文字或一句文字。文本具有文本类型,该文本类型表征文本语种,例如豪萨文文本的文本类型是豪萨文,约鲁巴文文本的文本类型是约鲁巴文。
然后,将目标文本输入到预设的命名实体识别模型中,在模型中进行命名实体识别过程,输出目标文本的实体标注文本。
该命名实体识别模型为将训练文本的特征信息作为输入,将训练文本的标注信息作为输出,通过机器学习训练得到的,用于确定文本标注的模型。
文本的特征信息是对文本进行关键信息判断,得到的关键性信息。该关键性信息为后续命名实体识别的依据。即一个文本中包含多个关键性信息,每个关键性信息对应文本中的某个字词。此时,输出的文本的标注信息是对文本中的某些字词的标注。
该命名实体识别模型包括提取层和识别层,提取层用于提取文本的特征信息,识别层用于在确定文本的文本类型后,根据文本类型调用对应的识别规则,根据识别规则对文本的特征信息进行标注。该识别规则用于给文本的特征信息提供一种匹配方式。
在本发明中,该方法旨在对低资源语言文本的命名实体识别。语言的不同,文本的表达方式不同。故需判断目标文本的文本类型,该文本类型代表文本语言的唯一类型。
针对低资源语言,不同类型的文本,有些字词适合于特定模式的命名规则。如文本中的时间短语,可以使用它们作为日期实体。在约鲁巴语中,日期表达式是用
Figure BDA0002864789830000061
(天/day)、“Osu”(月/month)和“Odun”(年/year)的关键词来表示。同样地,时间表达式用“Akoko”(时/hour)、
Figure BDA0002864789830000062
(分钟/minute)和“Keji”(秒/seconds)等关键字编写。
另外,有的国家的姓名命名规则也不同。如名字表达式是用“***斯基”、“***娃”和“***夫”等关键字编写。
为此,该识别规则包括用于特性信息匹配的命名格式。
针对使用低资源语言的国家及地区,可以从各种来源获得一些专用列表,这些专用列表如地名录、组织名录、词典、电话簿、人口普查数据等。
为此,该识别规则包括用于特征信息匹配的专用列表。
在本发明中,不同低资源语言国家存在不同的命名格式和专用列表,故需根据文本类型确定相对应的命名格式和专用列表。
识别层判断目标文本的文本类型,在确定文本的文本类型后,根据文本类型调用对应的识别规则,根据识别规则对文本的特征信息进行标注,得到标注信息,该标注信息会体现在目标文本中,生成对应的实体标注文本,该实体标注文本上某些字词会存在标注,该实体标注文本会显示在系统界面上。
本发明提供的文本命名实体识别方法,通过命名实体识别模型对低资源语言环境下的文本进行标注,该模型包括识别层,能够在确定文本的文本类型后,根据文本类型调用对应的命名格式和专用列表对文本的特征信息进行标注,得到标注信息,能够适用于低资源语言环境下的数据标注,提高标注效率及准确度。
在上述方法的进一步说明中,主要是对将目标文本的特征信息输入到识别层,由识别层在确定目标文本的文本类型后,根据文本类型调用对应的识别规则,根据识别规则对目标文本的特征信息进行标注的处理过程的进一步解释说明,具体如下:
该识别层包括命名格式层和专用列表层。
将目标文本的特征信息输入到命名格式层,由命名格式层在确定目标文本的文本类型后,根据文本类型调用对应的命名格式,根据命名格式对目标文本的特征信息进行标注;
将目标文本的特征信息输入到专用列表层,由专用列表层在确定目标文本的文本类型后,根据文本类型调用对应的专用列表,根据专用列表对目标文本的特征信息进行标注。
对此,需要说明的是,在本发明中,一段文本中所提取的特征信息需要全面的进行识别,为此,将识别规则中包含命名格式和专用列表对文本的特征信息进行各自的匹配处理,确定文本的标注信息。
为了更好更快速的进行识别,将识别层进行划分,划分出命名格式层和专用列表层,在不同的识别层中,集中的选择某一个规则对目标文本的特征信息进行标注。
本发明进一步提供的文本命名实体识别方法,通过对识别层分划为命名格式层和专用列表层,在命名格式层和专用列表层的识别过程中,能够在不同文本类型下,去契合低资源语言的特有环境特点,实现对文本的快速标注。
在上述方法的进一步说明中,主要是对将目标文本的特征信息输入到识别层,由识别层在确定目标文本的文本类型后,根据文本类型调用对应的识别规则,根据识别规则对目标文本的特征信息进行标注之后的处理过程的解释说明,具体如下:
将目标文本的特征信息及对目标文本的特征信息进行标注的标注信息输入到优化层,由优化层根据目标文本的特征信息对标注信息进行更正优化,输出优化后的标注信息。
对此,需要说明的是,在本发明中,考虑到低资源语言环境中也存在跨词,并且存在特殊的语法结构和一些非常用词表示,可能会存在歧义,为此,要对上述完成标注得到的标注信息进行更正优化,使标注信息更准确。
为此,该命名实体识别模型还包括优化层,该优化层对目标文本的特征信息进行进一步消歧处理,从而对文本中的已标注的字词确定新的标注信息,然后将新的标注信息与已有的标注信息进行比较,从而确定优化后的标注信息。
在本发明中,当新的标注信息与已有的标注信息不同时,将信息的标注信息作为优化后的标注信息。当新的标注信息与已有的标注信息相同时,表明已有的标注信息准确。
本发明进一步提供的文本命名实体识别方法,通过对已有的标注信息进行优化处理,得到更加准确的标注信息。
在上述方法的进一步说明中,主要是对将目标文本的特征信息及对目标文本的特征信息进行标注的标注信息输入到优化层,由优化层根据目标文本的特征信息对标注信息进行更正优化,输出优化后的标注信息的处理过程的进一步解释说明,具体如下:
由优化层根据目标文本的特征信息,确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量;
以及确定目标文本中所有字词的嵌入向量;
根据目标字词的位置值和字词向量,以及所有字词的嵌入向量,确定目标字词的优化用标注信息;
根据优化用标注信息输出优化后的标注信息。
对此,需要说明的是,在本发明中,目标文本中的至少一个字词会被标注。对字词的标注信息进行优化,需要对每个字词进行优化,确定新的标注信息。
该目标字词为当前进行优化的字词。该目标字词具有原标注信息。
优化层首先确定该目标字词在文本中的位置值。该位置值是文本中每个字词的位置信息,由系统根据预设配置规则所配置。例如给文本中字词配置顺序号。同时,还确定目标字词相对于整个文本在所在位置上的字词向量。
采用字词嵌入方法对目标文本中的所有字词进行处理,确定目标文本中所有字词的嵌入向量。
然后根据目标字词的位置值和字词向量,以及所有字词的嵌入向量,采用预设的特殊算法确定目标字词对应的优化值,根据优化值确定目标字词新的标注信息。
在本发明中,可能更改标注信息的字词是具有歧义的字词。为此,该优化值表征目标字词与词义的相似度。例如目标字词具有A、B、C三种词义(词义对应标注信息),最初的标注信息对应于词义A,若优化值与词义B的相似度高,则需要将目标字词的标注信息更换为词义B对应的标注信息。若优化值与词义A的相似度高,则无需对目标字词的标注信息进行更改。
如下是目标字词在优化过程中具体实施方式:
Figure BDA0002864789830000101
其中,xj为目标文本中第j个具有标注信息的字词的优化值,l为目标文本中第j个具有标注信息的字词在文本中的位置值,N是文本包括的字词个数,wj是字词向量,ck是文本中第k个字词的嵌入向量。
本发明进一步提供的文本命名实体识别方法,通过计算字词在文本中向量的方法对已有的标注信息进行优化处理,得到更加准确的标注信息。
在上述方法的进一步说明中,主要是对在确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量之前的处理过程进行解释说明,具体如下:
在优化层获取到目标文本的特征信息之后,由优化层根据未经训练的CRF分类器对目标文本的特征信息进行分类,获得标签信息。
然后根据标签信息确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量,以及确定目标文本中所有字词的嵌入向量,根据目标字词的位置值和字词向量,以及所有字词的嵌入向量,确定目标字词的优化用标注信息,根据优化用标注信息输出优化后的标注信息。
在本发明中,因分类器未经训练,能保证其分类原始标签的准确性,可以得到更准确的字词嵌入向量,便于后续对标注信息的优化过程。
下面对本发明提供的文本命名实体识别装置进行描述,下文描述的文本命名实体识别装置与上文描述的文本命名实体识别方法可相互对应参照。
图2示出了本发明提供的文本命名实体识别装置的结构示意图,参见图2该装置包括输入模块21、提取模块22和识别模块23,其中:
输入模块21,用于将待进行命名实体识别的目标文本输入至预设的命名实体识别模型中,其中,所述命名实体识别模型中包括提取层和识别层;
提取模块22,用于通过所述命名实体识别模型中的提取层提取所述目标文本的特征信息,并将所述特征信息输入至所述识别层;
识别模块23,用于在确定目标文本的文本类型后,通过所述识别层根据文本类型调用对应的识别规则,根据识别规则对目标文本的特性信息进行标注,得到标注信息,根据标注信息输出实体标注文本;其中,所述文本类型表征文本语种,所述识别规则中包括用于特性信息匹配的命名格式和专用列表。
在上述装置的进一步说明中,所述识别层包括命名格式层和专用列表层,所述识别模块具体用于:
将目标文本的特征信息输入到命名格式层,由命名格式层在确定目标文本的文本类型后,根据文本类型调用对应的命名格式,根据命名格式对目标文本的特征信息进行标注;
将目标文本的特征信息输入到专用列表层,由专用列表层在确定目标文本的文本类型后,根据文本类型调用对应的专用列表,根据专用列表对目标文本的特征信息进行标注。
在上述装置的进一步说明中,所述命名实体识别模型还包括优化层,相应地,所述装置还包括优化模块,用于:
将目标文本的特征信息及对目标文本的特征信息进行标注的标注信息输入到优化层,由优化层根据目标文本的特征信息对标注信息进行更正优化,输出优化后的标注信息。
在上述装置的进一步说明中,所述优化模块在将目标文本的特征信息及对目标文本的特征信息进行标注的标注信息输入到优化层,由优化层根据目标文本的特征信息对标注信息进行更正优化,输出优化后的标注信息的处理过程中,具体用于:
由优化层根据目标文本的特征信息,确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量,其中,所述目标字词为具有标注信息的字词;
以及确定目标文本中所有字词的嵌入向量;
根据目标字词的位置值和字词向量,以及所有字词的嵌入向量,确定目标字词的优化用标注信息;
根据优化用标注信息输出优化后的标注信息。
在上述装置的进一步说明中,所述优化模块在确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量之前,还用于:
由优化层根据未经训练的CRF分类器对目标文本的特征信息进行分类,获得标签信息;
相应地,根据标签信息确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量。
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
需要说明的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
本发明提供的文本命名实体识别方法,通过命名实体识别模型对低资源语言环境下的文本进行标注,该模型包括识别层,能够在确定文本的文本类型后,根据文本类型调用对应的命名格式和专用列表对文本的特征信息进行标注,得到标注信息,能够适用于低资源语言环境下的数据标注,提高标注效率及准确度。
图3示出了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)31、通信接口(Communications Interface)32、存储器(memory)33和通信总线34,其中,处理器31,通信接口32,存储器33通过通信总线34完成相互间的通信。处理器31可以调用存储器33中的逻辑指令,以执行文本命名实体识别方法,该方法包括:将待进行命名实体识别的目标文本输入至预设的命名实体识别模型中,其中,命名实体识别模型中包括提取层和识别层;通过命名实体识别模型中的提取层提取目标文本的特征信息,并将特征信息输入至所述识别层;在确定目标文本的文本类型后,通过识别层根据文本类型调用对应的识别规则,根据识别规则对目标文本的特性信息进行标注,得到标注信息,根据标注信息输出实体标注文本;其中,文本类型表征文本语种,所述识别规则中包括用于特性信息匹配的命名格式和专用列表。
此外,上述的存储器33中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的文本命名实体识别方法,该方法包括:将待进行命名实体识别的目标文本输入至预设的命名实体识别模型中,其中,命名实体识别模型中包括提取层和识别层;通过命名实体识别模型中的提取层提取目标文本的特征信息,并将特征信息输入至所述识别层;在确定目标文本的文本类型后,通过识别层根据文本类型调用对应的识别规则,根据识别规则对目标文本的特性信息进行标注,得到标注信息,根据标注信息输出实体标注文本;其中,文本类型表征文本语种,所述识别规则中包括用于特性信息匹配的命名格式和专用列表。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的文本命名实体识别方法,该方法包括:将待进行命名实体识别的目标文本输入至预设的命名实体识别模型中,其中,命名实体识别模型中包括提取层和识别层;通过命名实体识别模型中的提取层提取目标文本的特征信息,并将特征信息输入至所述识别层;在确定目标文本的文本类型后,通过识别层根据文本类型调用对应的识别规则,根据识别规则对目标文本的特性信息进行标注,得到标注信息,根据标注信息输出实体标注文本;其中,文本类型表征文本语种,所述识别规则中包括用于特性信息匹配的命名格式和专用列表。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本命名实体识别方法,包括:
将待进行命名实体识别的目标文本输入至预设的命名实体识别模型中,其中,所述命名实体识别模型中包括提取层和识别层;
通过所述命名实体识别模型中的提取层提取所述目标文本的特征信息,并将所述特征信息输入至所述识别层;
在确定目标文本的文本类型后,通过所述识别层根据文本类型调用对应的识别规则,根据识别规则对目标文本的特性信息进行标注,得到标注信息,根据标注信息输出实体标注文本;其中,所述文本类型表征文本语种,所述识别规则中包括用于特性信息匹配的命名格式和专用列表。
2.根据权利要求1所述的文本命名实体识别方法,其特征在于,所述识别层包括命名格式层和专用列表层,相应地,将目标文本的特征信息输入到识别层,由识别层在确定目标文本的文本类型后,根据文本类型调用对应的识别规则,根据识别规则对目标文本的特征信息进行标注,包括:
将目标文本的特征信息输入到命名格式层,由命名格式层在确定目标文本的文本类型后,根据文本类型调用对应的命名格式,根据命名格式对目标文本的特征信息进行标注;
将目标文本的特征信息输入到专用列表层,由专用列表层在确定目标文本的文本类型后,根据文本类型调用对应的专用列表,根据专用列表对目标文本的特征信息进行标注。
3.根据权利要求2所述的文本命名实体识别方法,其特征在于,所述命名实体识别模型还包括优化层,相应地,将目标文本的特征信息输入到识别层,由识别层在确定目标文本的文本类型后,根据文本类型调用对应的识别规则,根据识别规则对目标文本的特征信息进行标注之后,还包括:
将目标文本的特征信息及对目标文本的特征信息进行标注的标注信息输入到优化层,由优化层根据目标文本的特征信息对标注信息进行更正优化,输出优化后的标注信息。
4.根据权利要求3所述的文本命名实体识别方法,其特征在于,所述将目标文本的特征信息及对目标文本的特征信息进行标注的标注信息输入到优化层,由优化层根据目标文本的特征信息对标注信息进行更正优化,输出优化后的标注信息,包括:
由优化层根据目标文本的特征信息,确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量;其中,所述目标字词为具有标注信息的字词;
以及确定目标文本中所有字词的嵌入向量;
根据目标字词的位置值和字词向量,以及所有字词的嵌入向量,确定目标字词的优化用标注信息;
根据优化用标注信息输出优化后的标注信息。
5.根据权利要求4所述的文本命名实体识别方法,其特征在于,在确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量之前,还包括:
由优化层根据未经训练的CRF分类器对目标文本的特征信息进行分类,获得标签信息;
相应地,确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量,包括:根据标签信息确定目标文本中一目标字词的位置值及目标字词在所在位置的字词向量。
6.一种文本命名实体识别装置,包括:
输入模块,用于将待进行命名实体识别的目标文本输入至预设的命名实体识别模型中,其中,所述命名实体识别模型中包括提取层和识别层;
提取模块,用于通过所述命名实体识别模型中的提取层提取所述目标文本的特征信息,并将所述特征信息输入至所述识别层;
识别模块,用于在确定目标文本的文本类型后,通过所述识别层根据文本类型调用对应的识别规则,根据识别规则对目标文本的特性信息进行标注,得到标注信息,根据标注信息输出实体标注文本;其中,所述文本类型表征文本语种,所述识别规则中包括用于特性信息匹配的命名格式和专用列表。
7.根据权利要求6所述的文本命名实体识别装置,其特征在于,所述识别层包括命名格式层和专用列表层,所述识别模块具体用于:
将目标文本的特征信息输入到命名格式层,由命名格式层在确定目标文本的文本类型后,根据文本类型调用对应的命名格式,根据命名格式对目标文本的特征信息进行标注;
将目标文本的特征信息输入到专用列表层,由专用列表层在确定目标文本的文本类型后,根据文本类型调用对应的专用列表,根据专用列表对目标文本的特征信息进行标注。
8.根据权利要求6所述的文本命名实体识别装置,其特征在于,所述命名实体识别模型还包括优化层,相应地,所述装置还包括优化模块,用于:
将目标文本的特征信息及对目标文本的特征信息进行标注的标注信息输入到优化层,由优化层根据目标文本的特征信息对标注信息进行更正优化,输出优化后的标注信息。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述文本命名实体识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本命名实体识别方法的步骤。
CN202011578829.1A 2020-12-28 2020-12-28 文本命名实体识别方法、装置、电子设备及存储介质 Pending CN112633001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011578829.1A CN112633001A (zh) 2020-12-28 2020-12-28 文本命名实体识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011578829.1A CN112633001A (zh) 2020-12-28 2020-12-28 文本命名实体识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112633001A true CN112633001A (zh) 2021-04-09

Family

ID=75325521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011578829.1A Pending CN112633001A (zh) 2020-12-28 2020-12-28 文本命名实体识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112633001A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592512A (zh) * 2021-07-22 2021-11-02 上海普洛斯普新数字科技有限公司 一种线上商品身份唯一性识别确认系统
CN113722431A (zh) * 2021-08-24 2021-11-30 北京工业大学 命名实体关系识别方法、装置、电子设备及存储介质
CN114912455A (zh) * 2022-07-12 2022-08-16 共道网络科技有限公司 命名实体识别的方法和装置
CN116681074A (zh) * 2023-08-04 2023-09-01 中科航迈数控软件(深圳)有限公司 数控系统误操作检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017130434A1 (ja) * 2016-01-28 2017-08-03 楽天株式会社 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN109960728A (zh) * 2019-03-11 2019-07-02 北京市科学技术情报研究所(北京市科学技术信息中心) 一种开放域会议信息命名实体识别方法及系统
CN111143534A (zh) * 2019-12-26 2020-05-12 腾讯云计算(北京)有限责任公司 基于人工智能的品牌名的提取方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017130434A1 (ja) * 2016-01-28 2017-08-03 楽天株式会社 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN109960728A (zh) * 2019-03-11 2019-07-02 北京市科学技术情报研究所(北京市科学技术信息中心) 一种开放域会议信息命名实体识别方法及系统
CN111143534A (zh) * 2019-12-26 2020-05-12 腾讯云计算(北京)有限责任公司 基于人工智能的品牌名的提取方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JESUJOBA O. ALABI 等: "Massive vs. Curated Embeddings for Low-Resourced Languages: the Case of Yorub` a and Twi", 《HTTPS://ARXIV.ORG/PDF/1912.02481.PDF》, pages 1 - 9 *
王路路;艾山・吾买尔;买合木提・买买提;卡哈尔江・阿比的热西提;吐尔根・依布拉音;: "基于CRF和半监督学习的维吾尔文命名实体识别", 中文信息学报, no. 11, pages 16 - 26 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592512A (zh) * 2021-07-22 2021-11-02 上海普洛斯普新数字科技有限公司 一种线上商品身份唯一性识别确认系统
CN113722431A (zh) * 2021-08-24 2021-11-30 北京工业大学 命名实体关系识别方法、装置、电子设备及存储介质
CN114912455A (zh) * 2022-07-12 2022-08-16 共道网络科技有限公司 命名实体识别的方法和装置
CN114912455B (zh) * 2022-07-12 2022-09-30 共道网络科技有限公司 命名实体识别的方法和装置
CN116681074A (zh) * 2023-08-04 2023-09-01 中科航迈数控软件(深圳)有限公司 数控系统误操作检测方法、装置、设备及存储介质
CN116681074B (zh) * 2023-08-04 2024-04-05 中科航迈数控软件(深圳)有限公司 数控系统误操作检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及系统
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CN105718586B (zh) 分词的方法及装置
CN112633001A (zh) 文本命名实体识别方法、装置、电子设备及存储介质
CN106919542B (zh) 规则匹配方法及装置
CN112417885A (zh) 基于人工智能的答案生成方法、装置、计算机设备及介质
US9645988B1 (en) System and method for identifying passages in electronic documents
CN111488468B (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN107977364B (zh) 维语子词切分方法及装置
CN108573707B (zh) 一种语音识别结果的处理方法、装置、设备及介质
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN111209396A (zh) 实体识别模型的训练方法及实体识别方法、相关装置
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置
CN115858773A (zh) 适用于长文档的关键词挖掘方法、装置及介质
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN114139537A (zh) 词向量的生成方法及装置
CN112464927B (zh) 一种信息提取方法、装置及系统
CN111597302A (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN110866394A (zh) 公司名称识别方法及装置、计算机设备及可读存储介质
EP4167106A1 (en) Method and apparatus for data structuring of text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination