CN114169317A - 一种基于规则的人物属性提取方法和系统 - Google Patents
一种基于规则的人物属性提取方法和系统 Download PDFInfo
- Publication number
- CN114169317A CN114169317A CN202111513303.XA CN202111513303A CN114169317A CN 114169317 A CN114169317 A CN 114169317A CN 202111513303 A CN202111513303 A CN 202111513303A CN 114169317 A CN114169317 A CN 114169317A
- Authority
- CN
- China
- Prior art keywords
- character attribute
- words
- speech
- word
- trigger
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于规则的人物属性提取方法和系统,属于自然语言的信息提取技术领域,包括:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表进行匹配,对匹配上的人物属性词语,继续匹配所述人物属性词语前后的触发词,若匹配成功,则对所述人物属性词语进行提取,反之则不进行提取。本发明提供一种简单、有效的人物属性提取方法,降低了提取难度同时提高了提取效率。
Description
技术领域
本发明属于自然语言的信息提取技术领域,更具体地,涉及一种基于规则的人物属性提取方法和系统。
背景技术
随着互联网的飞速发展,各个网站获取的用户数据也呈指数级增长,如何从这些海量数据中快速、准确地分析出真正有用的人物属性信息,为用户画像、商业投资决策提供数据支撑,成为信息提取这一研究领域力图解决的问题。人物属性、关系提取是信息提取任务之一,目的是从非结构化文本中提取实体属性以及实体之间的关系。
目前,人物属性提取方法主要有两种,第一种是基于规则匹配的方法,对于开放网页文本结构不固定、数据源格式众多的特点,该方法不仅要定义大量的规则,而且匹配效率很低,不利于工程推广。第二种是一个是基于传统机器学习算法实现,然而,传统的机器学习算法,对训练数据有极强的依赖性,需要人工标注大量数据,而且只能使用浅层的特征对数据分类,致使提取性能较差。
综上,虽然现有技术能够实现对人物属性的提取,但是,依然存在匹配效率低、提取性能差问题。因此,提供一种简单、有效的人物属性提取方法成为了人物属性提取领域的当务之急。
发明内容
针对现有技术的缺陷,本发明提供了一种基于规则的人物属性提取方法和系统,解决了现有技术在人物属性提取过程中匹配效率低、提取性能差的技术问题。
为实现上述目的,本发明提供了一种基于规则的人物属性提取方法,包括如下步骤:
(1)人物属性词语获取步骤:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;
(2)人物属性词语分割保存步骤:将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;
(3)人物属性词语匹配提取步骤:遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表中的词性进行匹配,若匹配上,则对人物属性词语前后扫描是否存在触发词,若存在触发词,则对所述人物属性词语进行提取,反之则不进行提取。
在一个可选的实施例中,所述人物属性词语获取步骤中人物属性词语的词性,具体为:
所述人物属性词语的词性为人物属性词语所属的类别。
在一个可选的实施例中,所述人物属性词语获取步骤,还包括:
使用中文分词器的分词程序对人物属性词语是否为命名实体进行识别。
在一个可选的实施例中,所述命名实体,具体为:
若干人物属性词语的词性实例化后个体的集合。
在一个可选的实施例中,所述触发词,具体为:
所述触发词为人物属性词语的词性的同义词、近义词或同类型词汇,用于对人物属性词语的词性做进一步确认。
在一个可选的实施例中,所述触发词,还包括:
独立词汇的触发词和非独立词汇的触发词,其中,独立词汇的触发词不能缩写或扩展,否则会影响语义的理解,非独立词汇的触发词可以进行缩写或扩展,不影响语义的理解。
在一个可选的实施例中,所述人物属性词语匹配提取步骤中扫描人物属性词语前后是否存在触发词,具体为:
对于非独立词汇的触发词,扫描到所述触发词缩写或扩展后的词汇均认为扫描成功;
若人物属性词语前后的触发词匹配过程中扫描到拼接规则,若拼接规则在人物属性词语后,则需要向前扫描并匹配触发词;若拼接规则在人物属性词语前,则需要向后扫描并匹配触发词;
对于若干人物属性词语的词性,其触发词为命名实体,扫描触发词时需要在中文分词器的分词程序中查找是否存在所述命名实体。
在一个可选的实施例中,所述拼接规则,具体为:
对若干人物属性词语的词性,拼接规则为断句标点;
对于若干人物属性词语的词性,拼接规则为分句标点;
对于若干人物属性词语的词性,拼接规则为断句标点或动词或所述词性的后缀词。
在一个可选的实施例中,所述拼接规则为断句标点和拼接规则为分句标点,具体为:
所述断句标点包括:中文或英文形式的逗号、句号、分号、感叹号和问号;
所述分句标点为除去逗号外的所有断句标点。
本发明的另一目的在于提供一种基于规则的人物属性提取系统,包括如下单元:
(1)人物属性词语获取单元:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;
(2)人物属性词语分割保存单元:将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;
(3)人物属性词语匹配提取单元:遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表中的词性进行匹配,若匹配上,则对人物属性词语前后扫描是否存在触发词,若存在触发词,则对所述人物属性词语进行提取,反之则不进行提取。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供了一种基于规则的人物属性提取方法和系统,通过中文分词器将段落分解为若干个人物属性词语,并将所述若干个人物属性词语进行命名实体识别和词性标注,将得到的人物属性词语的词性和给定的人物属性触发词匹配规则表进行匹配,若匹配到所述词性,则扫描人物属性词语前后是否存在触发词,所述触发词是用于对所述人物属性词语的词性进一步确认,避免词性匹配成功,却不是人物属性的情况存在。
另一方面,由于汉语中存在较多的同义词、近义词或同类型的词语,本发明将所述同义词、近义词或同类型的词语均作为触发词,提供匹配的成功率,同时,将触发词划分为独立词汇的触发词和非独立词汇的触发词,独立词汇的触发词在语义上是独立的,不能进行缩写或扩展,非独立词汇的触发词时缩写或扩展,不影响语义的理解,对于非独立词汇的触发词,本发明在扫描触发词的过程中,对于所述触发词的缩写或扩展后的触发词形式也考虑进来,大大增加了扫描的成功率。
附图说明
图1为本发明的基于规则的人物属性提取方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的基于规则的人物属性提取方法,如图1所示,包括如下步骤:
(1)人物属性词语获取步骤:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;
(2)人物属性词语分割保存步骤:将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;
(3)人物属性词语匹配提取步骤:遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表中的词性进行匹配,若匹配上,则对人物属性词语前后扫描是否存在触发词,若存在触发词,则对所述人物属性词语进行提取,反之则不进行提取。
具体地,本发明提供的基于规则的人物属性提取方法,以下是详细的技术方案,包括如下步骤:
(1)人物属性词语获取步骤。
对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;
在一个可选的实施例中人物属性词语的词性包括:性别,出生日期,籍贯,单位(部门),职位(学历),研究领域,发表文章数,合作学者和主要成果。
同时,如果人物属性词语的词性为单位或合作学者,需要使用中文分词器的分词程序对人物属性词语是否为命名实体进行识别。
其中,命名实体为单位(部门)或合作学者的实例化后个体的集合。
(2)人物属性词语分割保存步骤。
将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组word_suffix[];
(3)人物属性词语匹配提取步骤。
遍历一维数组word_suffix[]中各人物属性词语的词性,将其和人物属性触发词匹配规则表进行匹配,对匹配上的人物属性词语,继续扫描所述人物属性词语前后是否存在触发词,若存在,则对所述人物属性词语进行提取,反之则不进行提取。
具体的,本发明实施例的人物属性触发词匹配规则表如表1所示。
表1人物属性触发词匹配规则表
对于表1的触发词匹配规则的说明如下:
对于非独立词汇的触发词,“[]”符号内为触发词的缩写或扩展词汇,“[]”符号内的字或词可以选择性进行匹配;
“(人物属性词语)”为中文分词器分词处理后得到字符串,例如:给定文字内容“小明出生于2000年1月1日”,经过中文分词器处理后得到人物属性词语:2000年1月1日,词性为出生日期,在人物属性词语“2000年1月1日”前面扫描到表1中的触发词“出生于”,则说明触发词存在,对人物属性词语“2000年1月1日”进行提取。
“<>”符号里面的内容代表拼接规则。若拼接规则在人物属性词语后,则需要向前扫描并匹配触发词;若拼接规则在人物属性词语前,则需要向后扫描并匹配触发词;
对于人物属性词语的词性为单位(部门)或职位(学历),其触发词为命名实体,需要在中文分词器的分词程序中扫描是否存在所述命名实体,若存在,则触发词匹配成功,反之则匹配不成功。
例如,单位(部门)包括:人力资源部、财务部、销售部和研发部,当人物属性词语的词性为单位(部门)时,且人物属性词语匹配上人力资源部、财务部、销售部和研发部中任一一个,则扫描成功,反之则不成功
具体地,本发明提供的基于规则的人物属性提取系统,包括如下单元:
(1)人物属性词语获取单元:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;
(2)人物属性词语分割保存单元:将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;
(3)人物属性词语匹配提取单元:遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表中的词性进行匹配,若匹配上,则对人物属性词语前后扫描是否存在触发词,若存在触发词,则对所述人物属性词语进行提取,反之则不进行提取。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于规则的人物属性提取方法和系统,其特征在于,包括如下步骤:
(1)人物属性词语获取步骤:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;
(2)人物属性词语分割保存步骤:将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;
(3)人物属性词语匹配提取步骤:遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表中的词性进行匹配,若匹配上,则对人物属性词语前后扫描是否存在触发词,若存在触发词,则对所述人物属性词语进行提取,反之则不进行提取。
2.如权利要求1所述的基于规则的人物属性提取方法,其特征在于,所述人物属性词语获取步骤中人物属性词语的词性,具体为:
所述人物属性词语的词性为人物属性词语所属的类别。
3.如权利要求1所述的基于规则的人物属性提取方法,其特征在于,所述人物属性词语获取步骤,还包括:
使用中文分词器的分词程序对人物属性词语是否为命名实体进行识别。
4.如权利要求3所述的基于规则的人物属性提取方法,其特征在于,所述命名实体,具体为:
若干人物属性词语的词性实例化后个体的集合。
5.如权利要求1所述的基于规则的人物属性提取方法,其特征在于,所述触发词,具体为:
所述触发词为人物属性词语的词性的同义词、近义词或同类型词汇,用于对人物属性词语的词性做进一步确认。
6.如权利要求1所述的基于规则的人物属性提取方法,其特征在于,所述触发词,还包括:
独立词汇的触发词和非独立词汇的触发词,其中,独立词汇的触发词不能缩写或扩展,否则会影响语义的理解,非独立词汇的触发词可以进行缩写或扩展,不影响语义的理解。
7.如权利要求1所述的基于规则的人物属性提取方法,其特征在于,所述人物属性词语匹配提取步骤中扫描人物属性词语前后是否存在触发词,具体为:
对于非独立词汇的触发词,扫描到所述触发词缩写或扩展后的词汇均认为扫描成功;
若人物属性词语前后的触发词匹配过程中扫描到拼接规则,若拼接规则在人物属性词语后,则需要向前扫描并匹配触发词;若拼接规则在人物属性词语前,则需要向后扫描并匹配触发词;
对于若干人物属性词语的词性,其触发词为命名实体,扫描触发词时需要在中文分词器的分词程序中查找是否存在所述命名实体。
8.如权利要求7所述的基于规则的人物属性提取方法,其特征在于,所述拼接规则,具体为:
对若干人物属性词语的词性,拼接规则为断句标点;
对于若干人物属性词语的词性,拼接规则为分句标点;
对于若干人物属性词语的词性,拼接规则为断句标点或动词或所述词性的后缀词。
9.如权利要求8所述的基于规则的人物属性提取方法,其特征在于,所述拼接规则为断句标点和拼接规则为分句标点,具体为:
所述断句标点包括:中文或英文形式的逗号、句号、分号、感叹号和问号;
所述分句标点为除去逗号外的所有断句标点。
10.一种基于规则的人物属性提取系统,其特征在于,包括如下单元:
(1)人物属性词语获取单元:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;
(2)人物属性词语分割保存单元:将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;
(3)人物属性词语匹配提取单元:遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表中的词性进行匹配,若匹配上,则对人物属性词语前后扫描是否存在触发词,若存在触发词,则对所述人物属性词语进行提取,反之则不进行提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111513303.XA CN114169317B (zh) | 2021-12-12 | 2021-12-12 | 一种基于规则的人物属性提取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111513303.XA CN114169317B (zh) | 2021-12-12 | 2021-12-12 | 一种基于规则的人物属性提取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114169317A true CN114169317A (zh) | 2022-03-11 |
CN114169317B CN114169317B (zh) | 2023-02-14 |
Family
ID=80485814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111513303.XA Active CN114169317B (zh) | 2021-12-12 | 2021-12-12 | 一种基于规则的人物属性提取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114169317B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090164207A1 (en) * | 2007-12-20 | 2009-06-25 | Nokia Corporation | User device having sequential multimodal output user interace |
CN105138710A (zh) * | 2015-10-12 | 2015-12-09 | 金耀星 | 一种聊天代理系统及方法 |
CN106777274A (zh) * | 2016-06-16 | 2017-05-31 | 北京理工大学 | 一种中文旅游领域知识图谱构建方法及系统 |
CN107590119A (zh) * | 2016-07-07 | 2018-01-16 | 北京国双科技有限公司 | 人物属性信息抽取方法及装置 |
CN109033166A (zh) * | 2018-06-20 | 2018-12-18 | 国家计算机网络与信息安全管理中心 | 一种人物属性抽取训练数据集构建方法 |
CN109325228A (zh) * | 2018-09-19 | 2019-02-12 | 苏州大学 | 英文事件触发词抽取方法和系统 |
CN109918509A (zh) * | 2019-03-12 | 2019-06-21 | 黑龙江世纪精彩科技有限公司 | 基于信息提取的场景生成方法及场景生成系统的存储介质 |
CN111401058A (zh) * | 2020-03-12 | 2020-07-10 | 广州大学 | 一种基于命名实体识别工具的属性值抽取方法及装置 |
CN112183465A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 一种基于人物属性和上下文的社会关系识别方法 |
CN113761919A (zh) * | 2020-06-04 | 2021-12-07 | 国家计算机网络与信息安全管理中心 | 一种口语化短文本的实体属性提取方法及电子装置 |
-
2021
- 2021-12-12 CN CN202111513303.XA patent/CN114169317B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090164207A1 (en) * | 2007-12-20 | 2009-06-25 | Nokia Corporation | User device having sequential multimodal output user interace |
CN105138710A (zh) * | 2015-10-12 | 2015-12-09 | 金耀星 | 一种聊天代理系统及方法 |
CN106777274A (zh) * | 2016-06-16 | 2017-05-31 | 北京理工大学 | 一种中文旅游领域知识图谱构建方法及系统 |
CN107590119A (zh) * | 2016-07-07 | 2018-01-16 | 北京国双科技有限公司 | 人物属性信息抽取方法及装置 |
CN109033166A (zh) * | 2018-06-20 | 2018-12-18 | 国家计算机网络与信息安全管理中心 | 一种人物属性抽取训练数据集构建方法 |
CN109325228A (zh) * | 2018-09-19 | 2019-02-12 | 苏州大学 | 英文事件触发词抽取方法和系统 |
CN109918509A (zh) * | 2019-03-12 | 2019-06-21 | 黑龙江世纪精彩科技有限公司 | 基于信息提取的场景生成方法及场景生成系统的存储介质 |
CN111401058A (zh) * | 2020-03-12 | 2020-07-10 | 广州大学 | 一种基于命名实体识别工具的属性值抽取方法及装置 |
CN113761919A (zh) * | 2020-06-04 | 2021-12-07 | 国家计算机网络与信息安全管理中心 | 一种口语化短文本的实体属性提取方法及电子装置 |
CN112183465A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 一种基于人物属性和上下文的社会关系识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114169317B (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tang et al. | Email data cleaning | |
US8266169B2 (en) | Complex queries for corpus indexing and search | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
CN110175334B (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
CN112380864B (zh) | 一种基于回译的文本三元组标注样本增强方法 | |
CN112417891B (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
WO1999034307A1 (en) | Extraction server for unstructured documents | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
CN102360346A (zh) | 基于受限的语义依存分析的文本推理方法 | |
CN115292450A (zh) | 一种基于信息抽取的数据分类分级领域知识库构建方法 | |
Tkaczyk | New methods for metadata extraction from scientific literature | |
CN113010593B (zh) | 非结构化文本的事件抽取方法、系统及装置 | |
CN112711666B (zh) | 期货标签抽取方法及装置 | |
CN114490937A (zh) | 基于语义感知的评论分析方法及装置 | |
CN101271448A (zh) | 汉语基本名词短语的识别及其规则的生成方法和装置 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
Sodhar et al. | Romanized Sindhi rules for text communication | |
CN114169317B (zh) | 一种基于规则的人物属性提取方法和系统 | |
CN113779961B (zh) | 一种自然语言文本的惯用句式提取方法及电子装置 | |
US20220156611A1 (en) | Method and apparatus for entering information, electronic device, computer readable storage medium | |
Hashmi et al. | Insights to the state-of-the-art PDF Extraction Techniques | |
CN114238616A (zh) | 一种专家信息检测方法和存储设备 | |
Hammad et al. | Sentiment analysis of sindhi tweets dataset using supervised machine learning techniques | |
CN115619443A (zh) | 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |