CN112784605A

CN112784605A - 一种基于句子的实体名识别的方法

Info

Publication number: CN112784605A
Application number: CN202110176527.XA
Authority: CN
Inventors: 陆晓; 陈文斌; 银文渊
Original assignee: Liuzhou Zhishi Technology Co ltd
Current assignee: Liuzhou Zhishi Technology Co ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-05-11

Abstract

一种基于句子的实体名识别的方法，包括学习阶段：输入句子，判断句子中是否有实体名，后将句子中的实体名逐个替换成其所对应的抽象事物，将没有抽象事物的部分作为关键字，再对每个关键字单独存储抽象句子信息；还包括识别阶段：对新句子进行分词，通过关键字查找出其对应的抽象句子，判断是否有合适的抽象句子，最后根据匹配到的最合适的抽象句子，猜测实体名。本发明依靠少量的基础数据，从句子的角度，识别出相同实体名下的各种词、字、短语的实体名，不需提前训练数据，节省大量精力、时间，即使未做过标记的没有词性的句子也不影响本发明方法性能，既方便，效果又显著。

Description

一种基于句子的实体名识别的方法

技术领域

本发明涉及计算机信息处理技术领域，特别涉及一种基于句子的实体名识别的方法。

背景技术

在计算机对语言的处理过程中，未录入词库的实体名的识别一直是汉语自然语言处理的一大难题，偏偏汉语的实体名很多，根本无法一一录入词库，因此在自然语言处理中，准确及时地识别新的实体名称是非常重要的。常见的实体名称，例如北京大学、北京理工大学等，可录入词库，但很多不是很常见的实体名称，例如北京自动化研究所、北京外国语大学等机构名或公司名，这些实体名称太多，无法一一统计和记录，便需要在语言处理时识别出来，包括一些不常见的人名和地名，都属于实体名识别的范围，所以对汉语自然语言处理的实体名识别是非常重要和迫切的。

现有的对汉语语言处理的实体名识别大多是从词的角度上、基于大数据的机器学习方法，即现有技术通过分词以后，再进行二次实体名判断处理，便需要首先录入大量的词在实体名中的位置和作用，例如：北京自动化研究所，分词之后是——北京、自动化、研究所，再分别判断北京、自动化、研究所是否存在实体名的可能，如果存在，则判断组成的实体名是否合理，整个过程都有对应的机器学习算法计算，通过统计学方法计算出组成实体名的概率，概率足够高，便可认为是实体名。这种实体名的识别方法虽然可以识别出很多实体名，但是都需要大量的统计数据，即必须要事先收集足够的数据，根据需要标记数据，之后才能训练数据，训练好的数据才能用于识别实体名，并且依靠分词的效果才得以实现，对于没有录入的属于实体名的新词，便没有办法识别出来，范围较小，运行起来不够方便。

发明内容

本发明要解决的技术问题是：提供一种不需要大量数据且不需要提前训练的、从句子的角度来对实体名进行识别的方法，以克服已有技术所存在的上述不足。

本发明采取的技术方案是：一种基于句子的实体名识别的方法，包括以下步骤：

（一）学习阶段：

A．学习开始，输入句子，判断句子中是否有实体名，若是，进入步骤B，若否，进入步骤D；

B．将句子中识别出的实体名逐个替换成其所对应的抽象事物，将没有抽象事物的部分作为关键字，所述抽象是对物体的一种概括，包括实体名，不属于实体名的也可以赋予一种抽象；

C．对每个关键字单独存储抽象句子信息，进入步骤F；

D．学习结束；

（二）识别阶段：

E．识别开始，输入新句子，对新句子进行分词，通过关键字查找出其对应的抽象句子；

F．判断是否有合适的抽象句子，若是，进入步骤G，若否，进入步骤I；

G．根据匹配到的最合适的抽象句子，猜测实体名；

H．持续猜测，判断猜测次数是否足够，若是，则猜测的结果为实体名的识别结果，进入步骤I，若否，进入步骤C；

I．识别结束。

由于采用上述技术方案，本发明之一种基于句子的实体名识别的方法具有如下有益效果：

1. 本发明通过对新句子中关键字的抽象句子进行匹配，查找出新的实体名最合适的抽象句子，进而分词截取出实体名的识别结果，从而识别出从未见过的实体名词，不同于现有技术从词的角度上识别实体名，本发明从句子的角度来识别实体名，基于一定的知识储备下，可以识别出相同实体名下的各种词、字、短语的实体名，不拘于识别的词是否录入；

2. 本发明依靠少量的基础数据，便可识别出大量同类型的实体名词，且在用户输入句子的同时进行训练和识别，不需提前训练数据，节省大量精力、时间，即使未做过标记的没有词性的句子也不影响本发明方法性能，既方便，效果又显著。

下面结合附图和实施例对本发明之一种基于句子的实体名识别的方法的技术特征作进一步的说明。

附图说明

图1：本发明实施例之实体名识别流程图。

具体实施方式

实施例

一种基于句子的实体名识别的方法，如图1所示，包括以下步骤：

（一）学习阶段：

A．在具备一定的句子和物体知识情况下，学习开始，输入句子，判断句子中是否有实体名，若是，进入步骤B，若否，进入步骤D；

B．对于每个句子，将句子中识别出的实体名逐个替换成其所对应的抽象事物，将没有抽象事物的部分作为关键字；

C．对每个关键字单独存储抽象句子信息，进入步骤F；

D．学习结束；

例如：句子“小明在北京上班”，其中小明是人名，北京是地名，我们将句子中识别出的实体名“小明”、“北京”替换成其所对应的抽象事物，即得到：人名在地名上班，将没有抽象事物的部分“在”、“上班”作为关键字进行单独存储抽象句子信息；

（二）识别阶段：

E．识别开始，输入新句子，对新句子进行分词，通过关键字（新句子中没有抽象事物的部分）查找出其对应的抽象句子；

G．根据匹配到的最合适的抽象句子，猜测实体名；

H．持续猜测，判断猜测次数是否足够，若是，则猜测的结果为实体名的识别结果，进入步骤I，若否，则猜测次数不够，进入步骤C，暂时存储计数；

I．识别结束；

例如：新句子“小红在柳州上班”，若已知“小红”是一个人名，但不知“柳州”是什么时，通过关键字“在”、“上班”匹配其合适的抽象句子，可以找到“人名在地名上班”，并且通过字符串匹配，可轻易截取出“柳州”这一字符串（即使不知道“柳州”是一个词，也可通过算法截取出来），“小红”是人名能匹配上，同理推出，“柳州”应该是一个“地名”，但是不能直接就认为正确，也可能有误判，所以还需要更多的抽象句子协同判断，因为有可能会是“人名在公司名上班”，因此需要进行多次持续猜测，通过多个不同的抽象句子，归纳出合理的抽象结果，最后识别出新的实体名词地名“柳州”。

本发明用到的词义：

抽象：对物体的一种概括，包括实体名，不属于实体名的也可以赋予一种抽象，如：苹果的抽象是水果，小明的抽象是人名，概况的粗细可由用户决定。

本发明在事先有正确的抽象知识，还有足够的句子作为判断依据的基础上，识别出新的事物，有助于计算机对句子的理解，运用起来方便快捷，效果大大优于传统的机器学习算法。

以上实施例仅为本发明的较佳实施例，本发明的方法并不限于上述实施例列举的形式，凡在本发明的精神和原则之内所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于句子的实体名识别的方法，其特征在于：包括以下步骤：

（一）学习阶段：

C．对每个关键字单独存储抽象句子信息，进入步骤F；

D．学习结束；

（二）识别阶段：

G．根据匹配到的最合适的抽象句子，猜测实体名；

I．识别结束。