CN114298048A

CN114298048A - 命名实体识别方法及装置

Info

Publication number: CN114298048A
Application number: CN202111649563.XA
Authority: CN
Inventors: 崔乐; 戎翔; 陈强; 李庆华; 冯真
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-08
Anticipated expiration: 2041-12-29
Also published as: CN114298048B

Abstract

本申请公开了一种命名实体识别方法及装置。其中，该方法包括：采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合；从第一词向量集合中的任意一个词向量的上下文信息对第一词向量集合中的词进行过滤，得到候选词向量集合；将候选词向量集合添加至目标字典中；基于目标字典对目标语句进行分词，得到第二词向量集合；采用第二神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果。本申请解决了由于未利用新词发现能力造成的命名实体识别不准确的技术问题。

Description

命名实体识别方法及装置

技术领域

本申请涉及语言处理领域，具体而言，涉及一种命名实体识别方法及装置。

背景技术

命名实体识别(Named Entity Recognition,NER)是NLP(Neuro LinguisticProgramming神经语言程序学)里的一项很基础的任务，就是指从文本中识别出命名性指称项，为关系抽取等任务做铺垫。命名实体识别领域，一种折中的方法是基于字符级别进行序列标注，把词信息融合到字符序列中。这种方法存在的问题是虽然考虑了词语集合的局部信息，但是没有考虑词语在整个语料库中的全局信息，而且新词发现能力未体现在字词融合的识别流程中，导致新的命名实体无法识别出来。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种命名实体识别方法及装置，以至少解决由于未利用新词发现能力造成的命名实体识别不准确的技术问题。

根据本申请实施例的一个方面，提供了一种命名实体识别方法，包括：采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合；从第一词向量集合中的任意一个词向量的上下文信息对第一词向量集合中的词进行过滤，得到候选词向量集合；将候选词向量集合添加至目标字典中；基于目标字典对目标语句进行分词，得到第二词向量集合；采用第二神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果。

可选地，方法还包括：基于目标字典对目标语句进行分词后，得到第一字向量集合；采用第二神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果，包括：获取第二词向量集合中任意一个词向量和第一字向量集合中的任意一个字向量在目标语料库中的权重；基于权重对目标语句进行命名实体识别。

可选地，从第一词向量集合中的任意一个词向量的上下文信息对第一词向量集合中的词进行过滤，得到候选词向量集合，包括：计算第一词向量集合中每个词之间的互信息和信息熵；至少基于互信息和信息熵对第一词向量集合中的词进行过滤，得到候选词向量集合。

可选地，采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合之前，方法还包括：接收目标对象的输入指令，并确定输入指令中的字符长度，其中，字符长度为对目标语句进行分词处理时所依据的字节片段序列长度。

可选地，采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合之前，方法还包括：检测目标对象的语音指令；对语音指令进行识别，得到与语音指令对应的文本信息，并将文本信息作为目标语句。

可选地，采用第二神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果之后，方法还包括：确定与识别结果对应的应答信息，并输出应答信息。

根据本申请实施例的另一方面，还提供了一种命名实体识别装置，包括：获取模块，用于采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合；筛选模块，用于从第一词向量集合中的任意一个词向量的上下文信息对第一词向量集合中的词进行过滤，得到候选词向量集合；添加模块，用于将候选词向量集合添加至目标字典中；分词模块，用于基于目标字典对目标语句进行分词，得到第二词向量集合；识别模块，用于采用第二神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果。

可选地，装置还包括：字向量模块，用于基于目标字典对目标语句进行分词后，得到第一字向量集合；识别子模块，用于获取第二词向量集合中任意一个词向量和第一字向量集合中的任意一个字向量在目标语料库中的权重；基于权重对目标语句进行命名实体识别。

根据本申请实施例的再一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述命名实体识别方法。

根据本申请实施例的再一方面，还提供了一种电子设备，包括：存储器和处理器；处理器用于运行程序，其中，程序运行时执行上述命名实体识别方法。

在本申请实施例中，采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合；从第一词向量集合中的任意一个词向量的上下文信息对第一词向量集合中的词进行过滤，得到候选词向量集合；将候选词向量集合添加至目标字典中；基于目标字典对目标语句进行分词，得到第二词向量集合；采用第二神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果。的方式，通过神经网络模型对目标语句进行分词处理得到词向量集合并过滤得到候选词向量然后将候选词向量加入目标词典中对目标语句进行分词，最后由神经网络模型对词向量集合进行识别达到了目标词句在整个语料库的全局信息从而利用新词发现能力的目的，从而实现了提高命名实体识别准确率的技术效果，进而解决了由于未利用新词发现能力造成的命名实体识别不准确技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的命名实体识别方法的示意图；

图2是根据本申请实施例的一种可选的发现新词的流程示意图；

图3是根据本申请实施例的另一种可选的命名实体识别方法的示意图；

图4是根据本申请实施例的一种可选的命名实体识别装置的示意图

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种命名实体识别的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种命名实体识别方法，如图1所示，该方法包括如下步骤：

步骤S102，采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合；

步骤S104，从第一词向量集合中的任意一个词向量的上下文信息对第一词向量集合中的词进行过滤，得到候选词向量集合；

步骤S106，将候选词向量集合添加至目标字典中；

步骤S108，基于目标字典对目标语句进行分词，得到第二词向量集合；

步骤S110，采用第二神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果。

以第一神经网络模型为BILSTM+CRF模型(命名实体整体逻辑框架)模型。为例，如图2所示，通过四个方向的数据发起流程，利用BILSTM+CRF模型进行中文分词和新词发现，将新词发现的结果加入到目标字典中，然后提取词向量与字向量组成第二词向量集合，采用为第二神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果。

需要进行说明的是，第二神经网络模型与第一神经网络模型结构一致，都可以利用BILSTM+CRF模型。不同的是第二神经网络模型是用作命名实体的识别，而第一神经网络模型是只用作分词。同时第一神经网络模型的训练样本是语料样本，例如基于段落标识、文章结束标识、句子结束标识从而对文档进行拆分而得到的语料样本，然后对语料样本进行人工分词和词性标注得到训练样本；而第二神经网络模型的训练样本为命名实体样本，例如：实体类、时间类、数字类；人名、地名、机构名、时间、日期和货币等文本信息。

命名实体识别(Named Entity Recognition，NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符，确定词的边界，即分词；确定字的边界，即分字。

通过上述步骤，可以实现通过神经网络模型对目标语句进行分词处理得到词向量集合并过滤得到候选词向量然后将候选词向量加入目标词典中对目标语句进行分词，最后由神经网络模型对词向量集合进行识别达到了目标词句在整个语料库的全局信息目的，从而实现了提高命名实体识别准确率的技术效果，进而解决了由于未考虑词句在整个语料库的全局信息造成的命名实体识别不准确技术问题。

在本申请的一些实施例中，在基于目标字典对目标语句进行分字处理，得到第一字向量集合；采用第二神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果，包括：获取第二词向量集合中任意一个词向量和第一字向量集合中的任意一个字向量在目标语料库中的权重；基于权重对目标语句进行命名实体识别。

在考虑词语权重时，把词语在整个语料库中的全局权重考虑进来。第二利用BILSTM+CRF进行新词发现，这种新词发现方法不依赖规则库，同时由于N可设置，不局限于较短词语的发现。将两者融合进行命名实体识别。

利用BILSTM+CRF模型提取字向量。为了把词语在整个语料库中的全局权重考虑进来，采用TF-IDF(Term Frequency-inverse Document Frequency)算法，一种针对关键词的统计分析方法，用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比，跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响，提高了关键词与文章之间的相关性。计算出词语在整个语料库中的权重记录为W_i，把词的权重引入到字词融合的编码策略中。具体公式如下：

其中，

h_i＝o_i⊙tanh(c_i)；式中，i表示输入，f{是遗忘门，o；代表输出，σ代表sigmoid函数，h代表隐藏层，W_P和b_p表示模型參数，W_i表示词语权重。

在本申请的一些实施例中，从第一词向量集合中的任意一个词向量的上下文信息对第一词向量集合中的词进行过滤，得到候选词向量集合，包括：计算第一词向量集合中每个词之间的互信息和信息熵；至少基于互信息和信息熵对第一词向量集合中的词进行过滤，得到候选词向量集合。

需要进行说明的是，基于互信息和信息熵对第一词向量集合中的词进行过滤，具体是需要将语料文本转换成一个字符串，然后一个生成N-gram(一种常用的语言模型)的词典，并统计词的词频。利用点间互信息从之前的N-gram词典中筛选出备选的词向量。再通过左右熵从备选新词中筛选出最终输出的候选词向量集合。互信息表示信息之间的联系，信息熵用于量化信息。

具体地，在一个具体的实施例中，如图3所示，候选词向量集合的发现过程，结合循环神经网络和条件随机场景的切分概率模型对测试集文档的句子进行切分,产生切分概率的序列,用结合切分概率的过滤规则，以过滤掉噪声词，得到候选词向量集合，最后将候选词向量集合增加到目标字典中。

对原始语料进行分词，采用N-gram方法扫描字符串，N的选择可人工设置，然后计算每个词的互信息、左信息熵、右信息熵。进行人工过滤后，得出候选新词。然后训练字向量的数据，对原始语料进行分字操作，利用上一步的分词结果得到的第一词向量对分字后的语料进行自动标注，标注后数据在BILSTM+CRF上进行训练，得到候选词向量。

需要进行说明的是，N-gram应用在中文上时，可以利用上下文中相邻词间的搭配信息，实现到汉字的自动转换，条件随机场景的切分概率模型包括但不限于马尔科夫模型。

在本申请的一些实施例中，采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合之前，方法还包括：接收目标对象的输入指令，并确定输入指令中的字符长度，其中，字符长度为对目标语句进行分词处理时所依据的字节片段序列长度。具体地，正如上面，采用N-gram(一种常用的语言模型)方法扫描原始语料(即上述目标语句)对应的字符串，以对原始语料进行分词处理，分词的序列长度N可以根据实际需要人工设置。

在本申请的一些实施例中，采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合之前，方法还包括：检测目标对象的语音指令；对语音指令进行识别，得到与语音指令对应的文本信息，并将文本信息作为目标语句。

例如，在智能数据问答平台中，用户的语音查询中，会把语音识别成自然语言，再利用本申请提供的命名实体识别方法进行命名实体识别。

在本申请的一些实施例中，采用第一神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果之后，方法还包括：确定与识别结果对应的应答信息，并输出应答信息。

根据本申请实施例的另一方面，还提供了一种命名实体识别装置，如图4所示，包括：获取模块40，用于采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合；筛选模块42，用于从第一词向量集合中的任意一个词向量的上下文信息对第一词向量集合中的词进行过滤，得到候选词向量集合；添加模块44，用于将候选词向量集合添加至目标字典中；分词模块46，用于基于目标字典对目标语句进行分词，得到第二词向量集合；识别模块48，用于采用第一神经网络模型对第二词向量集合中的命名实体进行识别，得到识别结果。

命名实体识别装置还包括：字向量子模块，用于基于目标字典对目标语句进行分词后，得到第一字向量集合；识别子模块，用于获取第二词向量集合中任意一个词向量和第一字向量集合中的任意一个字向量在目标语料库中的权重；基于权重对目标语句进行命名实体识别。

筛选模块42包括：计算子模块和过滤子模块；其中，计算子模块用于计算第一词向量集合中每个词之间的互信息和信息熵；过滤子模块用于至少基于互信息和信息熵对第一词向量集合中的词进行过滤，得到候选词向量集合。

字向量子模块包括：接收单元和检测单元；其中，接收单元用于接收目标对象的输入指令，并确定输入指令中的字符长度，其中，字符长度为对目标语句进行分词处理时所依据的字节片段序列长度；检测单元用于检测目标对象的语音指令；对语音指令进行识别，得到与语音指令对应的文本信息，并将文本信息作为目标语句。

识别模块包括：反馈子模块，其中，反馈子模块用于确定与识别结果对应的应答信息，并输出应答信息。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种命名实体识别方法，其特征在于，包括：

采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合；

从所述第一词向量集合中的任意一个词向量的上下文信息对所述第一词向量集合中的词进行过滤，得到候选词向量集合；

将所述候选词向量集合添加至目标字典中；

基于所述目标字典对所述目标语句进行分词，得到第二词向量集合；

采用第二神经网络模型对所述第二词向量集合中的命名实体进行识别，得到识别结果。

2.根据权利要求1所述的方法，其特征在于，

所述方法还包括：基于所述目标字典对所述目标语句进行分字处理，得到第一字向量集合；

采用所述第二神经网络模型对所述第二词向量集合中的命名实体进行识别，得到识别结果，包括：获取所述第二词向量集合中任意一个词向量和所述第一字向量集合中的任意一个字向量在目标语料库中的权重；基于所述权重对所述目标语句进行命名实体识别。

3.根据权利要求1所述的方法，其特征在于，从所述第一词向量集合中的任意一个词向量的上下文信息对所述第一词向量集合中的词进行过滤，得到候选词向量集合，包括：

计算所述第一词向量集合中每个词之间的互信息和信息熵；

至少基于所述互信息和信息熵对所述第一词向量集合中的词进行过滤，得到所述候选词向量集合。

4.根据权利要求1所述的方法，其特征在于，采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合之前，所述方法还包括：

接收目标对象的输入指令，并确定所述输入指令中的字符长度，其中，所述字符长度为对所述目标语句进行分词处理时所依据的字节片段序列长度。

5.根据权利要求1所述的方法，其特征在于，采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合之前，所述方法还包括：

检测目标对象的语音指令；

对所述语音指令进行识别，得到与所述语音指令对应的文本信息，并将所述文本信息作为所述目标语句。

6.根据权利要求5所述的方法，其特征在于，采用所述第二神经网络模型对所述第二词向量集合中的命名实体进行识别，得到识别结果之后，所述方法还包括：

确定与所述识别结果对应的应答信息，并输出所述应答信息。

7.一种命名实体识别装置，其特征在于，包括：

获取模块，用于采用第一神经网络模型对目标语句进行分词处理，得到第一词向量集合；

筛选模块，用于从所述第一词向量集合中的任意一个词向量的上下文信息对所述第一词向量集合中的词进行过滤，得到候选词向量集合；

添加模块，用于将所述候选词向量集合添加至目标字典中；

分词模块，用于基于所述目标字典对所述目标语句进行分词，得到第二词向量集合；

识别模块，用于采用第二神经网络模型对所述第二词向量集合中的命名实体进行识别，得到识别结果。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

字向量子模块，用于基于所述目标字典对所述目标语句进行分字处理，得到第一字向量集合；

识别子模块，用于获取所述第二词向量集合中任意一个词向量和所述第一字向量集合中的任意一个字向量在目标语料库中的权重；基于所述权重对所述目标语句进行命名实体识别。

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至6中任意一项所述命名实体识别方法。

10.一种电子设备，其特征在于，包括：存储器和处理器；所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述命名实体识别方法。