CN114169317A

CN114169317A - 一种基于规则的人物属性提取方法和系统

Info

Publication number: CN114169317A
Application number: CN202111513303.XA
Authority: CN
Inventors: 王善和; 张勇; 刘如梦
Original assignee: Hainan Port And Shipping Holding Co ltd
Current assignee: Hainan Port And Shipping Holding Co ltd
Priority date: 2021-12-12
Filing date: 2021-12-12
Publication date: 2022-03-11
Anticipated expiration: 2041-12-12
Also published as: CN114169317B

Abstract

本发明公开了一种基于规则的人物属性提取方法和系统，属于自然语言的信息提取技术领域，包括：对包含人物属性信息的段落使用中文分词器进行分词处理，得到所述段落包含的若干个人物属性词语，并标注各人物属性词语的词性；将带有词性标注的各人物属性词语使用空格进行分割，得到输入段落中所有人物属性词语与词性的集合，并保存到一维数组中；遍历一维数组中各人物属性词语的词性，将其和人物属性触发词匹配规则表进行匹配，对匹配上的人物属性词语，继续匹配所述人物属性词语前后的触发词，若匹配成功，则对所述人物属性词语进行提取，反之则不进行提取。本发明提供一种简单、有效的人物属性提取方法，降低了提取难度同时提高了提取效率。

Description

一种基于规则的人物属性提取方法和系统

技术领域

本发明属于自然语言的信息提取技术领域，更具体地，涉及一种基于规则的人物属性提取方法和系统。

背景技术

随着互联网的飞速发展，各个网站获取的用户数据也呈指数级增长，如何从这些海量数据中快速、准确地分析出真正有用的人物属性信息，为用户画像、商业投资决策提供数据支撑，成为信息提取这一研究领域力图解决的问题。人物属性、关系提取是信息提取任务之一，目的是从非结构化文本中提取实体属性以及实体之间的关系。

目前，人物属性提取方法主要有两种，第一种是基于规则匹配的方法，对于开放网页文本结构不固定、数据源格式众多的特点，该方法不仅要定义大量的规则，而且匹配效率很低，不利于工程推广。第二种是一个是基于传统机器学习算法实现，然而，传统的机器学习算法，对训练数据有极强的依赖性，需要人工标注大量数据，而且只能使用浅层的特征对数据分类，致使提取性能较差。

综上，虽然现有技术能够实现对人物属性的提取，但是，依然存在匹配效率低、提取性能差问题。因此，提供一种简单、有效的人物属性提取方法成为了人物属性提取领域的当务之急。

发明内容

针对现有技术的缺陷，本发明提供了一种基于规则的人物属性提取方法和系统，解决了现有技术在人物属性提取过程中匹配效率低、提取性能差的技术问题。

为实现上述目的，本发明提供了一种基于规则的人物属性提取方法，包括如下步骤：

(1)人物属性词语获取步骤：对包含人物属性信息的段落使用中文分词器进行分词处理，得到所述段落包含的若干个人物属性词语，并标注各人物属性词语的词性；

(2)人物属性词语分割保存步骤：将带有词性标注的各人物属性词语使用空格进行分割，得到输入段落中所有人物属性词语与词性的集合，并保存到一维数组中；

(3)人物属性词语匹配提取步骤：遍历一维数组中各人物属性词语的词性，将其和人物属性触发词匹配规则表中的词性进行匹配，若匹配上，则对人物属性词语前后扫描是否存在触发词，若存在触发词，则对所述人物属性词语进行提取，反之则不进行提取。

在一个可选的实施例中，所述人物属性词语获取步骤中人物属性词语的词性，具体为：

所述人物属性词语的词性为人物属性词语所属的类别。

在一个可选的实施例中，所述人物属性词语获取步骤，还包括：

使用中文分词器的分词程序对人物属性词语是否为命名实体进行识别。

在一个可选的实施例中，所述命名实体，具体为：

若干人物属性词语的词性实例化后个体的集合。

在一个可选的实施例中，所述触发词，具体为：

所述触发词为人物属性词语的词性的同义词、近义词或同类型词汇，用于对人物属性词语的词性做进一步确认。

在一个可选的实施例中，所述触发词，还包括：

独立词汇的触发词和非独立词汇的触发词，其中，独立词汇的触发词不能缩写或扩展，否则会影响语义的理解，非独立词汇的触发词可以进行缩写或扩展，不影响语义的理解。

在一个可选的实施例中，所述人物属性词语匹配提取步骤中扫描人物属性词语前后是否存在触发词，具体为：

对于非独立词汇的触发词，扫描到所述触发词缩写或扩展后的词汇均认为扫描成功；

若人物属性词语前后的触发词匹配过程中扫描到拼接规则，若拼接规则在人物属性词语后，则需要向前扫描并匹配触发词；若拼接规则在人物属性词语前，则需要向后扫描并匹配触发词；

对于若干人物属性词语的词性，其触发词为命名实体，扫描触发词时需要在中文分词器的分词程序中查找是否存在所述命名实体。

在一个可选的实施例中，所述拼接规则，具体为：

对若干人物属性词语的词性，拼接规则为断句标点；

对于若干人物属性词语的词性，拼接规则为分句标点；

对于若干人物属性词语的词性，拼接规则为断句标点或动词或所述词性的后缀词。

在一个可选的实施例中，所述拼接规则为断句标点和拼接规则为分句标点，具体为：

所述断句标点包括：中文或英文形式的逗号、句号、分号、感叹号和问号；

所述分句标点为除去逗号外的所有断句标点。

本发明的另一目的在于提供一种基于规则的人物属性提取系统，包括如下单元：

(1)人物属性词语获取单元：对包含人物属性信息的段落使用中文分词器进行分词处理，得到所述段落包含的若干个人物属性词语，并标注各人物属性词语的词性；

(2)人物属性词语分割保存单元：将带有词性标注的各人物属性词语使用空格进行分割，得到输入段落中所有人物属性词语与词性的集合，并保存到一维数组中；

(3)人物属性词语匹配提取单元：遍历一维数组中各人物属性词语的词性，将其和人物属性触发词匹配规则表中的词性进行匹配，若匹配上，则对人物属性词语前后扫描是否存在触发词，若存在触发词，则对所述人物属性词语进行提取，反之则不进行提取。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供了一种基于规则的人物属性提取方法和系统，通过中文分词器将段落分解为若干个人物属性词语，并将所述若干个人物属性词语进行命名实体识别和词性标注，将得到的人物属性词语的词性和给定的人物属性触发词匹配规则表进行匹配，若匹配到所述词性，则扫描人物属性词语前后是否存在触发词，所述触发词是用于对所述人物属性词语的词性进一步确认，避免词性匹配成功，却不是人物属性的情况存在。

另一方面，由于汉语中存在较多的同义词、近义词或同类型的词语，本发明将所述同义词、近义词或同类型的词语均作为触发词，提供匹配的成功率，同时，将触发词划分为独立词汇的触发词和非独立词汇的触发词，独立词汇的触发词在语义上是独立的，不能进行缩写或扩展，非独立词汇的触发词时缩写或扩展，不影响语义的理解，对于非独立词汇的触发词，本发明在扫描触发词的过程中，对于所述触发词的缩写或扩展后的触发词形式也考虑进来，大大增加了扫描的成功率。

附图说明

图1为本发明的基于规则的人物属性提取方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的基于规则的人物属性提取方法，如图1所示，包括如下步骤：

具体地，本发明提供的基于规则的人物属性提取方法，以下是详细的技术方案，包括如下步骤：

(1)人物属性词语获取步骤。

对包含人物属性信息的段落使用中文分词器进行分词处理，得到所述段落包含的若干个人物属性词语，并标注各人物属性词语的词性；

在一个可选的实施例中人物属性词语的词性包括：性别，出生日期，籍贯，单位(部门)，职位(学历)，研究领域，发表文章数，合作学者和主要成果。

同时，如果人物属性词语的词性为单位或合作学者，需要使用中文分词器的分词程序对人物属性词语是否为命名实体进行识别。

其中，命名实体为单位(部门)或合作学者的实例化后个体的集合。

(2)人物属性词语分割保存步骤。

将带有词性标注的各人物属性词语使用空格进行分割，得到输入段落中所有人物属性词语与词性的集合，并保存到一维数组word_suffix[]；

(3)人物属性词语匹配提取步骤。

遍历一维数组word_suffix[]中各人物属性词语的词性，将其和人物属性触发词匹配规则表进行匹配，对匹配上的人物属性词语，继续扫描所述人物属性词语前后是否存在触发词，若存在，则对所述人物属性词语进行提取，反之则不进行提取。

具体的，本发明实施例的人物属性触发词匹配规则表如表1所示。

表1人物属性触发词匹配规则表

对于表1的触发词匹配规则的说明如下：

对于非独立词汇的触发词，“[]”符号内为触发词的缩写或扩展词汇，“[]”符号内的字或词可以选择性进行匹配；

“(人物属性词语)”为中文分词器分词处理后得到字符串，例如：给定文字内容“小明出生于2000年1月1日”，经过中文分词器处理后得到人物属性词语：2000年1月1日，词性为出生日期，在人物属性词语“2000年1月1日”前面扫描到表1中的触发词“出生于”，则说明触发词存在，对人物属性词语“2000年1月1日”进行提取。

“<>”符号里面的内容代表拼接规则。若拼接规则在人物属性词语后，则需要向前扫描并匹配触发词；若拼接规则在人物属性词语前，则需要向后扫描并匹配触发词；

对于人物属性词语的词性为单位(部门)或职位(学历)，其触发词为命名实体，需要在中文分词器的分词程序中扫描是否存在所述命名实体，若存在，则触发词匹配成功，反之则匹配不成功。

例如，单位(部门)包括：人力资源部、财务部、销售部和研发部，当人物属性词语的词性为单位(部门)时，且人物属性词语匹配上人力资源部、财务部、销售部和研发部中任一一个，则扫描成功，反之则不成功

具体地，本发明提供的基于规则的人物属性提取系统，包括如下单元：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于规则的人物属性提取方法和系统，其特征在于，包括如下步骤：

2.如权利要求1所述的基于规则的人物属性提取方法，其特征在于，所述人物属性词语获取步骤中人物属性词语的词性，具体为：

所述人物属性词语的词性为人物属性词语所属的类别。

3.如权利要求1所述的基于规则的人物属性提取方法，其特征在于，所述人物属性词语获取步骤，还包括：

4.如权利要求3所述的基于规则的人物属性提取方法，其特征在于，所述命名实体，具体为：

若干人物属性词语的词性实例化后个体的集合。

5.如权利要求1所述的基于规则的人物属性提取方法，其特征在于，所述触发词，具体为：

6.如权利要求1所述的基于规则的人物属性提取方法，其特征在于，所述触发词，还包括：

7.如权利要求1所述的基于规则的人物属性提取方法，其特征在于，所述人物属性词语匹配提取步骤中扫描人物属性词语前后是否存在触发词，具体为：

8.如权利要求7所述的基于规则的人物属性提取方法，其特征在于，所述拼接规则，具体为：

对若干人物属性词语的词性，拼接规则为断句标点；

对于若干人物属性词语的词性，拼接规则为分句标点；

9.如权利要求8所述的基于规则的人物属性提取方法，其特征在于，所述拼接规则为断句标点和拼接规则为分句标点，具体为：

所述分句标点为除去逗号外的所有断句标点。

10.一种基于规则的人物属性提取系统，其特征在于，包括如下单元：