CN110837737A

CN110837737A - 能力词实体识别方法

Info

Publication number: CN110837737A
Application number: CN201911097142.3A
Authority: CN
Inventors: 郭橙; 龚军; 温秀秀; 刘佩云; 杨璧竹
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-02-25

Abstract

本发明公开了一种能力词实体识别方法，包括：获取待识别的原始文档，根据标注规则对所述原始文档进行标注，得到短语结构的目标能力词，将所述目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型，基于所述第二能力词实体识别模型识别能力词实体。该方法增强了对短语结构的能力词的识别能力，而且避免了对中文进行分词产生的歧义和错误问题，提高了识别的准确率。

Description

能力词实体识别方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种能力词实体识别方法。

背景技术

目前，语义技术与物联网的结合形成了语义物联网，其中，能力是物联网物体的本质体现，物体所具有的能力决定了物体是什么和可以做什么，因此为物联网中的物体添加关于能力的语义信息至关重要，是实现语义物联网和物联网智能化的有效途径。

随着人工智能技术的发展，可以通过实体识别模型对目标能力词进行识别，现有技术中，基于字级别标注的实体识别模型和基于词级别标注的实体识别模型都可以对能力词进行识别，但是物联网中设备的能力词种类繁多，包括单词和短语结构词等，基于字级别标注的实体识别模型没有利用词级别的隐含信息，对复杂结构如短语结构的目标能力词缺少识别能力，具有一定的局限性，基于词级别标注的实体识别模型需要进行分词，会引入分词歧义和分词错误的问题，降低识别的准确率。

发明内容

本公开实施例提供了一种能力词实体识别方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

在一些实施例中，一种能力词实体识别方法包括：

获取待识别的原始文档；

根据标注规则对原始文档进行标注，得到短语结构的目标能力词；

将目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型；

基于第二能力词实体识别模型识别能力词实体。

可选地，根据标注规则对原始文档进行标注，得到短语结构的目标能力词包括：

分别使用B、I、E、S和O标注符号对原始文档中的每个字进行标注，其中，B用于标注原始文档中的目标能力词的起始位，I用于标注原始文档中的目标能力词的中间位，E用于标注原始文档中的目标能力词的末位，S用于标注原始文档中的目标能力词的单个字或词，O用于标注原始文档中的与目标能力词无关的位。

可选地，将目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型包括：

新细胞的嵌入位置为基于字级别标注的第一实体识别模型中目标能力词末位字细胞和倒数第二个字细胞的中间。

新细胞的一个输入端与基于字级别标注的第一实体识别模型中目标能力词的首字细胞的输出端连接；

新细胞的输出端与基于字级别标注的第一实体识别模型中目标能力词的末位字细胞的输入端连接。

新细胞的词向量表达式为X_a，b，其中，序号a表示目标能力词中首字的位置，序号b表示目标能力词中末位字的位置。

可选地，将目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型之前，还包括：

构建基于字级别标注的第一实体识别模型，基于字级别标注的第一实体识别模型为循环神经网络模型，输入信号为原始文档的词向量表达式，输出信号为对输入信号的分类结果。

本发明实施例提供的技术方案可以包括以下有益效果：

本发明根据标注规则对获取的原始文档进行标注，得到短语结构的目标能力词，并将具有短语结构的目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型，基于第二能力词实体识别模型识别能力词实体，扩展了实体识别模型的结构，增强了对短语结构的能力词的识别能力，而且避免了对中文进行分词产生的歧义和错误问题，提高了识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本公开实施例提供的能力实体识别方法的流程示意图；

图2是本公开实施例提供的第一实体识别模型的示意图；

图3是本公开实施例提供的第二能力实体识别模型的示意图；

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或一个以上实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

在一些示例性场景中，伴随着物联网技术的发展，物联网设备的种类愈加丰富，能力是物联网设备的本质体现，设备所具有的能力决定了设备是什么和可以做什么，因此为物联网中的物体添加关于能力的语义信息至关重要，是实现语义物联网和物联网智能化的有效途径。物联网中设备的能力词种类繁多，从结构方面看，包括单词与短语结构词；从词性方面看，包括名词、动词、形容词；例如，针对“烟感报警器”的一段描述文档是“烟感报警器是通过检测烟雾浓度从而达到预防火灾的目的的，某一品牌的烟感报警器具备报警功能、提醒功能”。可见，“检测烟雾浓度”、“预防火灾”、“报警”、“提醒”等词语都是该设备的能力词，而传统的基于字级别标注的实体识别模型没有利用词级别的隐含信息，对复杂结构如短语结构的目标能力词缺少识别能力，本公开实施例通过将具有短语结构的目标能力词如“预防火灾”作为一个新细胞加入到基于字级别标注的第一实体识别模型中，扩展了第一实体识别模型的结构，增强了对短语结构的能力词的识别能力。

图1是本公开实施例提供的一种能力词实体识别方法的流程示意图。

在该实施例中，一种能力词实体识别方法，包括：

步骤S101、获取待识别的原始文档。

可选地，可以从数据库中获取针对待识别设备的描述的原始文档。例如，获取到某一“烟感报警器”的一段原始文档是“烟感报警器是通过检测烟雾浓度从而达到预防火灾的目的的，某一品牌的烟感报警器具备报警功能、提醒功能”；获取到某一“温度传感器”的一段原始文档是“该设备可以实现控制温度的效果”。

可见，获取到的设备的原始文档中的一些词语描述了设备的能力，例如，“检测烟雾浓度”、“预防火灾”、“报警”、“提醒”等词语都是该烟感报警器的能力词，“控制温度”则是该温度传感器的能力词。从结构方面看，这些能力词包括单词结构和短语结构。

步骤S102、根据标注规则对原始文档进行标注，得到短语结构的目标能力词。

具体地，根据BIESO的标注规则对获取到的原始文档进行标注，B、I、E、 S、O分别代表中文语音结构的五部分。使用B、I、E、S和O标注符号对原始文档中的每个字进行标注，其中，B用于标注原始文档中的目标能力词的起始位，I用于标注原始文档中的目标能力词的中间位，E用于标注原始文档中的目标能力词的末位，S用于标注原始文档中的目标能力词的单个字或词，O用于标注原始文档中的与目标能力词无关的位。

例如对原始文档“该设备可以实现控制温度的效果”进行标注，将这句话作为一个序列，用B、I、E、S、O五种标注符号分别对该序列的每一个元素进行标注，得到“该(O)设(O)备(O)可(O)以(O)实(O)现(O)控(B)制(I)温(I) 度(E)的(O)效(O)果(O)”的标注结果，从上述标注结果可知，“控制温度”为该原始文档中的目标能力词。

通过上述步骤，可以获得原始文档中具有短语结构的目标能力词。

步骤S103、将目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型。

可选地，首先建立针对该原始文档的基于字级别标注的第一实体识别模型，该第一实体识别模型为循环神经网络，其中，输入信号为原始文档的词向量表达式，输出信号为对输入信号的分类结果，利用了输入信号的时序关系达到分类判别的目的。

图2是本公开实施例提供的第一实体识别模型示意图。

如图2所示，第一实体识别模型是一个循环神经网络模型，其中，C代表循环神经网络细胞，X代表输入的原始文档的词向量表达，H为每一个细胞状态的隐藏状态，输出信号B、I、E、S、O为第一实体识别模型对输入信号的分类结果。

例如，输入的原始文档为“控制温度的效果”，原始文档对应的词向量表达式是“控(x₁)制(x₂)温(x₃)度(x₄)的(x₅)效(x₆)果(x₇)”,将原始文档对应的词向量表达式输入基于字级别标注的第一实体识别模型，得到“控(B)制(I)温(I)度(E)的(O)效(O)果(O)”的输出信号。

但是基于字级别标注的第一实体识别模型存在无法利用到词级别的潜在信息的问题。例如对于“控制”、“控制温度”、“控制浓度”等能力词对比，可以发现都包含了控制这一概念，“控制温度”与“控制浓度”作为短语结构涵盖了宾语部分，使得二者成为两个能力，若仅使用字级别标注将可能存在只识别出“控制”一词而忽略宾语的可能性。而对于词级别的实体识别模型，往往存在分词歧义或不准确的问题。

因此，加入词级别信息对传统的基于字级别标注的第一实体识别模型进行改进。具体地，将目标能力词作为一个新细胞加入到基于字级别标注的第一实体识别模型，新细胞的词向量表达式为X_a，b，其中，序号a表示目标能力词中首字的位置，序号b表示目标能力词中末位字的位置。新细胞的嵌入位置为基于字级别标注的第一实体识别模型中目标能力词末位字细胞和倒数第二个字细胞的中间，新细胞的一个输入端与基于字级别标注的第一实体识别模型中目标能力词的首字细胞的输出端连接，新细胞的输出端与基于字级别标注的第一实体识别模型中目标能力词的末位字细胞的输入端连接。扩展了第一实体识别模型的结构，得到第二能力词实体识别模型。

图3是本公开实施例提供的第二能力词实体识别模型示意图。

如图3所示，在图2所示的第一实体识别模型的基础上，将目标能力词“控制温度”作为一个新细胞加入到第一实体识别模型中，新细胞的嵌入位置为“温”字所在细胞和“度”字所在细胞的中间；新细胞的词向量表达式为X_1,4,；新细胞的输入端与目标能力词的首字细胞的输出端连接，也就是把新细胞的输入端接到“控”字所在细胞的输出端上，新细胞的输出端与目标能力词的末位字细胞的输入端连接，也就是把新细胞的输出端接到“度”字所在细胞的输入端上。

通过上述步骤，将具有短语结构的目标能力词加入到基于字级别标注的第一实体识别模型中，得到了改进的第二能力词实体识别模型，可以识别具有短语结构的目标能力词，增强了对不同类型的能力词的识别能力。

步骤S104、基于第二能力词实体识别模型识别能力词实体。

其中，第二能力词实体识别模型的输入信号依然是原始文档的词向量表达式，输出信号依然是对输入信号的分类结果，基于第二能力词实体识别模型可以识别出原始文档中具有不同结构的目标能力词。

例如对原始文档“该设备能达到预防火灾的目的”进行标注，将这句话作为一个序列，用B、I、E、S、O五种标注符号分别对该序列的每一个元素进行标注，得到“该(O)设(O)备(O)能(O)达(O)到(O)预(B)防 (I)火(I)灾(E)的(O)目(O)的(O)”的标注结果，从上述标注结果可知，“预防火灾”为该设备原始文档中的目标能力词。

通过上述标注规则，可以获得原始文档中的目标能力词。

具体地，例如获得的目标能力词是“控制温度”，将“控制温度”作为一个新细胞加入到基于字级别标注的第一实体识别模型中，第一实体识别模型中的细胞都是单个的字细胞，新细胞的嵌入位置为第一实体识别模型中目标能力词末位字细胞和倒数第二个字细胞的中间，也就是“温”字所在的细胞和“度”字所在的细胞中间。

例如，获得的目标能力词是“预防火灾”，将“预防火灾”作为一个新细胞加入到基于字级别标注的第一实体识别模型中，新细胞的嵌入位置为第一实体识别模型中目标能力词末位字细胞和倒数第二个字细胞的中间，也就是“火”字所在的细胞和“灾”字所在的细胞中间。

具体地，例如获得的目标能力词是“控制温度”，“控制温度”作为一个新细胞加入到基于字级别标注的第一实体识别模型中，新细胞的输入端与基于字级别标注的第一实体识别模型中目标能力词的首字细胞的输出端连接，也就是把“控制温度”这个新细胞的输入端接到“控”字所在细胞的输出端上；新细胞的输出端与基于字级别标注的第一实体识别模型中目标能力词的末位字细胞的输入端连接，也就是把“控制温度”这个新细胞的输出端接到“度”字所在细胞的输入端上。

通过上述接入方式，把“控制温度”这个具有短语结构的新细胞成功加入到基于字级别标注的第一实体识别模型中，扩展了第一实体识别模型的结构。

可选地，第二能力词实体识别模型的输入信号依然是原始文档的词向量表达式，目标能力词所在的新细胞的词向量表达式为X_a，b，其中，序号a表示目标能力词中首字的位置，序号b表示目标能力词中末位字的位置。在一些示例性场景中，原始文档为“控制温度的效果”，目标能力词为“控制温度”，则目标能力词的首字的位置为1，目标能力词的末位字的位置为4，则序号 a＝1，序号b＝4，新细胞的词向量表达式为X_1,4。

在一些示例性场景中，原始文档为“设备能达到预防火灾的目的”，目标能力词为“预防火灾”，则目标能力词的首字的位置为6，目标能力词的末位字的位置为9，则序号a＝6，序号b＝9，新细胞的词向量表达式为X_6,9。

例如，输入的原始文档为“控制温度的效果”，原始文档对应的词向量表达式是“控(x₁)制(x₂)温(x₃)度(x₄)的(x₅)效(x₆)果(x₇)”,将原始文档对应的词向量表达式输入基于字级别标注的第一实体识别模型，得到

“控(B)制(I)温(I)度(E)的(O)效(O)果(O)”的输出信号。

通过建立循环神经网络模型，可以利用输入信号的时序关系达到分类判别的目的，实现智能性、准确性和灵活性。

本公开实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或一个以上指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等)执行本公开实施例中方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机读取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

以上描述和附图充分地示出了本公开的实施例，以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。本公开实施例的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。当用于本申请中时，虽然术语“第一”、“第二”等可能会在本申请中使用以描述各元件，但这些元件不应受到这些术语的限制。这些术语仅用于将一个元件与另一个元件区别开。比如，在不改变描述的含义的情况下，第一元件可以叫做第二元件，并且同样地，第二元件可以叫做第一元件，只要所有出现的“第一元件”一致重命名并且所有出现的“第二元件”一致重命名即可。第一元件和第二元件都是元件，但可以不是相同的元件。而且，本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法或者设备中还存在另外的相同要素。本文中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本文所披露的实施例中，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，可以仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外，在本公开实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或一个以上用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种能力词实体识别方法，其特征在于，包括：

获取待识别的原始文档；

根据标注规则对所述原始文档进行标注，得到短语结构的目标能力词；

将所述目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型；

基于所述第二能力词实体识别模型识别能力词实体。

2.根据权利要求1所述的方法，其特征在于，所述根据标注规则对所述原始文档进行标注，得到短语结构的目标能力词包括：

分别使用B、I、E、S和O标注符号对所述原始文档中的每个字进行标注，其中，所述B用于标注所述原始文档中的所述目标能力词的起始位，所述I用于标注所述原始文档中的所述目标能力词的中间位，所述E用于标注所述原始文档中的所述目标能力词的末位，所述S用于标注所述原始文档中的所述目标能力词的单个字或词，所述O用于标注所述原始文档中的与所述目标能力词无关的位。

3.根据权利要求1所述的方法，其特征在于，所述将所述目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型包括：

所述新细胞的嵌入位置为基于字级别标注的第一实体识别模型中所述目标能力词末位字细胞和倒数第二个字细胞的中间。

4.根据权利要求3所述的方法，其特征在于，所述将所述目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型包括：

所述新细胞的一个输入端与基于字级别标注的第一实体识别模型中所述目标能力词的首字细胞的输出端连接；

所述新细胞的输出端与基于字级别标注的第一实体识别模型中所述目标能力词的末位字细胞的输入端连接。

5.根据权利要求4所述的方法，其特征在于，所述将所述目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型包括：

所述新细胞的词向量表达式为X_a，b，其中，序号a表示所述目标能力词中首字的位置，序号b表示所述目标能力词中末位字的位置。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述将所述目标能力词作为新细胞加入到基于字级别标注的第一实体识别模型中，得到第二能力词实体识别模型之前，还包括：

构建所述基于字级别标注的第一实体识别模型，所述基于字级别标注的第一实体识别模型为循环神经网络模型，输入信号为所述原始文档的词向量表达式，输出信号为对输入信号的分类结果。