CN108959630A - 一种面向英文无结构文本的人物属性抽取方法 - Google Patents
一种面向英文无结构文本的人物属性抽取方法 Download PDFInfo
- Publication number
- CN108959630A CN108959630A CN201810816828.2A CN201810816828A CN108959630A CN 108959630 A CN108959630 A CN 108959630A CN 201810816828 A CN201810816828 A CN 201810816828A CN 108959630 A CN108959630 A CN 108959630A
- Authority
- CN
- China
- Prior art keywords
- character attribute
- document
- word
- feature
- information gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种面向英文无结构文本的人物属性抽取方法,其包括训练支持向量机分类器,对待识别文档进行指代消解处理,对待识别文档进行分句、分词、命名实体识别,将有包含两个共现实体的句子进行特征提取,选择对应的支持向量机分类器对提取的特征进行识别。本发明首先对待识别文档进行指代消解的处理,将人称代词替换成文中出现的人名,提高了人物属性抽取的覆盖率;然后在训练分类器的过程中通过计算信息增益获得了一个位置信息增益词典,用于提取位置信息增益的特征,提高了支持向量机分类器关系判别的准确率。
Description
技术领域
本发明属于信息抽取技术领域,具体涉及一种面向英文无结构文本的人物属性抽取方法。
背景技术
随着互联网应用的迅猛发展,通过网络能够获取的数据量也呈指数级井喷式地增长,如何从这些海量数据中快速、准确地分析出真正有用的信息,显得尤为关键和紧迫。
人物属性主要是指人物的出生地,出生日期,国籍,毕业院校,职业等关键信息。如何在纷繁复杂,结构、类型多样的网页中消除歧义,高效准确地在网络中获取人物特征和属性,成为了一个重要的研究问题。人物属性抽取也有着很重要的实际应用,比如人名消岐、人物知识库的构建、人物搜索引擎等等。而现今大部分研究主要集中在网络信息提取,仅仅针对人物属性提取的研究较少,但是人物属性抽取作为信息抽取的一个重要的分支,许多信息抽取的方法能够应用在人物特征提取上。
人物属性的抽取最开始使用的是基于规则的抽取方法。基于规则的信息抽取系统中较多的采用手工制定规则,手工方式规则的获取需要相关领域的工作者参与制定,而且通过手工方式制定规则的过程相当的乏味,难免会出现错误和遗漏,也会花费大量的时间和人力。并且规则的制定一般没办法考虑到一些特殊的语法现象,难免会造成抽取的错误。
后来有学者将人物属性抽取的过程看成是一个二分类的问题,将有监督学习应用于人物属性抽取,主要是为了解决人物属性关系的判别,能够提高人物属性抽取的准确率。也就是判断一句话中的两个共现实体是否具有关系。比如“小明毕业于清华大学计算机学院。”这句话中,“小明”和“清华大学计算机学院”是两个共现实体,具有“毕业院校”的关系。传统的做法是对句子进行命名实体识别,识别出句中可能的人名和人物属性。如果句中出现了两个共现实体,就将这句话用有监督的分类器判别出他们是否有某种关系。有监督分类器的训练常常采用的词法,句法,触发词,距离位置等特征。
但是这种做法存在着两个问题:一是文中常常出现人称代词,没有对人称代词进行有效的处理。比如“他毕业于清华大学计算机学院。”这一句中的“他”,就指代了上文中的某个人,根据传统的方法,我们的这句话是没办法进行处理的,即使我们判别出来“他”和“清华大学计算机学院”具有“毕业院校”的关系,我们也没办法对他进行抽取,因为我们不知道“他”具体代表的是哪个人。二是现有的特征还是没有达到很高的准确率,需要进一步挖掘新的特征用于人物属性的抽取。
发明内容
本发明的发明目的是:为了解决现有技术中存在的以上问题,本发明提出了一种面向英文无结构文本的人物属性抽取方法。
本发明的技术方案是:一种面向英文无结构文本的人物属性抽取方法,包括以下步骤:
A、构造人工标记训练集,根据人工标记训练集训练支持向量机分类器;
B、获取待识别文档,对待识别文档进行指代消解处理;
C、对步骤B处理后的待识别文档进行分句和分词处理,并进行命名实体识别;
D、将有包含两个共现实体的句子进行特征提取,通过步骤C中命名实体识别标记的标签,选择步骤A中对应的支持向量机分类器,对提取的特征进行识别,完成人物属性抽取。
进一步地,所述步骤A构造人工标记训练集,根据人工标记训练集训练支持向量机分类器,具体包括以下分步骤:
A1、获取每一种人物属性的样本数据,对样本数据中的每一个句子进行分割处理;
A2、对步骤A1处理后的样本数据进行人工标记,得到正例数据集和负例数据集,并在句子中标记人名词和人物属性词;
A3、提取正例数据集和负例数据集中的特征向量,训练支持向量机分类器。
进一步地,所述特征向量包括词法特征,句法特征,语义特征,位置信息增益特征和距离特征。
进一步地,所述位置信息增益特征采用位置信息增益词典进行表示,具体为在人物属性词前后一定范围内分别计算信息增益,筛选出高信息增益的若干个词,作为位置信息增益词典。
进一步地,所述计算信息增益包括以下分步骤:
A31、统计正负分类的文档数量N1,N2;
A32、统计人物属性值的前三个位置的每个词的正文档出现频率A、负文档出现频率B、正文档不出现频率C、负文档不出现频率D;
A33、计算信息熵,表示为
其中,S表示文档类别;
A34、计算每个词的信息增益,表示为
进一步地,所述步骤B中对待识别文档进行指代消解处理具体为将待识别文档中的人称代词用上文出现的人名词进行代替。
进一步地,所述步骤D对提取的特征进行识别,完成人物属性抽取具体为判断人名词和人物属性词是否存在对应关系;若是,则将人物属性词提取出来保存在数据库中;若否,则将这个句子舍弃。
本发明的有益效果是:本发明首先对待识别文档进行指代消解的处理,将人称代词替换成文中出现的人名,提高了人物属性抽取的覆盖率;然后在训练分类器的过程中通过计算信息增益获得了一个位置信息增益词典,用于提取位置信息增益的特征,提高了支持向量机分类器关系判别的准确率。
附图说明
图1是本发明的面向英文无结构文本的人物属性抽取方法的流程示意图;
图2是本发明实施例中生成的句法树的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明的面向英文无结构文本的人物属性抽取方法的流程示意图。一种面向英文无结构文本的人物属性抽取方法,包括以下步骤:
A、构造人工标记训练集,根据人工标记训练集训练支持向量机分类器;
B、获取待识别文档,对待识别文档进行指代消解处理;
C、对步骤B处理后的待识别文档进行分句和分词处理,并进行命名实体识别;
D、将有包含两个共现实体的句子进行特征提取,通过步骤C中命名实体识别标记的标签,选择步骤A中对应的支持向量机分类器,对提取的特征进行识别,完成人物属性抽取。
在本发明的一个可选实施例中,上述步骤A构造人工标记训练集,根据人工标记训练集训练支持向量机分类器,具体包括以下分步骤:
A1、获取每一种人物属性的样本数据,对样本数据中的每一个句子进行分割处理;
本发明在网络中采集每一种人物属性的样本数据,并以每一个句子为单位进行分割处理。
A2、对步骤A1处理后的样本数据进行人工标记,得到正例数据集和负例数据集,并在句子中标记人名词和人物属性词;
A3、提取正例数据集和负例数据集中的特征向量,训练支持向量机分类器。
其中特征向量包括词法特征,句法特征,语义特征,位置信息增益特征和距离特征。下面对各个特征分别进行说明:
1)词法特征
人物属性和人名之间的单词的词性序列,或者人名前后几个单词的词性序列,人物属性前后几个单词的词性序列。将词性标注规定统一的数值,比如“ADJ”用1来代替,“ADV”用2来代替,“NN”用3来代替,并且用独热模型将这些词性序列数量化。
2)句法特征
句法分析判断输入的单词序列的构成是否合乎给定的语法,并通过构造句法树来确定句子的结构以及各层次句法成分之间的关系,即确定一个句子中的哪些词构成一个短语,哪些词是动词的主语或宾语等问题。
句法特征反映句子的语义特征,通过将句子转化为句法树,来分析句子的层次结构、从属关系等。使用stanford parser对句子进行句法分析,生成句子的句法树,句子的每个单词的词性是树的叶子节点,例如句子:“John graduated from the University ofLouisville in1961.”如图2所示,为本发明实施例中生成的句法树的结构示意图。
句法树以树的形式来表示层次包含关系,其中,根节点ROOT代表处理的语句本身,每个叶子结点都是对应单词的词性,其他节点代表子树所属的句子短语成分,部分成分标记含义如表1所示。
表1、部分成分标记的含义
句法成分标记 | 含义 |
IP | 简单从句 |
NP | 名词短语 |
VP | 动词短语 |
PP | 介词短语 |
CP | 由‘的’构成的表示修饰性关系的短语 |
再提取如表2所示的句法特征:
表2、句法特征
这些特征能反映各个重要的词在句子中的所属成分和地位,其中,句法最短路径距离也能反映人称词、触发词、属性词之间的相关程度,句法层面的距离相比单词层面的距离会包含更多信息。
3)语义特征
这里主要考虑构建触发词典。触发词对于属性关系判别的来说是十分关键的。触发词是提示某个属性可能出现的关键词汇,比如说描述出生日期的触发词可能是“born”,“birth”等等,描述毕业信息的触发词可能是“graduate”,“graduation”等。
4)位置信息增益特征
这里的位置信息增益特征采用位置信息增益词典进行表示,具体为在人物属性词前后一定范围内,例如将人物属性词前后3个位置,一共6个位置上分别计算信息增益,筛选出高信息增益的若干个词,作为位置信息增益词典。如果数据集中对应位置上的单词出现在了词典中,则将它置为1,否则置为0。
这里计算信息增益包括以下分步骤:
A31、统计正负分类的文档数量N1,N2;
A32、统计人物属性值的前三个位置的每个词的正文档出现频率A、负文档出现频率B、正文档不出现频率C、负文档不出现频率D;
A33、计算信息熵,表示为
其中,S表示文档类别;
A34、计算每个词的信息增益,表示为
本发明利用信息增益筛选出属性和人名前后位置上的关键词,构建一个位置信息增益词典,在位置信息中增加了语义信息,这个特征融合了位置和语义特征,提高了支持向量机分类器关系判别的准确率。
5)距离特征
人物属性和人名之间的距离。在句子中,人名和人物属性是有一定距离的,一般来说,如果人物属性距离人名越近,那么他们很可能具有某种关系,同理,如果句子中有触发词的话,那么人物属性和触发词的距离越近,那么这个人物属性很可能具有触发词所代表的关系。我们将句子分词之后,距离的度量单位就是单词的个数,一个单词代表距离为1。
在本发明的一个可选实施例中,上述步骤B获取待识别文档,对待识别文档进行指代消解处理,即将待识别文档中的人称代词用上文出现的人名词进行代替,具体为将文中的“he”,“she”,“her”,“his”等人称代词用输入文本上文出现的人名来代替,这样在每个句子中加入了有效的人名信息,可以提高人物属性抽取的覆盖率。
在本发明的一个可选实施例中,上述步骤C对步骤B处理后的待识别文档进行分句和分词处理,并进行命名实体识别。
在本发明的一个可选实施例中,上述步骤D将有包含两个共现实体的句子进行特征提取,通过步骤C中命名实体识别标记的标签,选择步骤A中对应的支持向量机分类器,对提取的特征进行识别,完成人物属性抽取,具体为判断人名词和人物属性词是否存在对应关系;若是,则将人物属性词提取出来保存在数据库中;若否,则将这个句子舍弃。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (7)
1.一种面向英文无结构文本的人物属性抽取方法,其特征在于,包括以下步骤:
A、构造人工标记训练集,根据人工标记训练集训练支持向量机分类器;
B、获取待识别文档,对待识别文档进行指代消解处理;
C、对步骤B处理后的待识别文档进行分句和分词处理,并进行命名实体识别;
D、将有包含两个共现实体的句子进行特征提取,通过步骤C中命名实体识别标记的标签,选择步骤A中对应的支持向量机分类器,对提取的特征进行识别,完成人物属性抽取。
2.如权利要求1所述的面向英文无结构文本的人物属性抽取方法,其特征在于,所述步骤A构造人工标记训练集,根据人工标记训练集训练支持向量机分类器,具体包括以下分步骤:
A1、获取每一种人物属性的样本数据,对样本数据中的每一个句子进行分割处理;
A2、对步骤A1处理后的样本数据进行人工标记,得到正例数据集和负例数据集,并在句子中标记人名词和人物属性词;
A3、提取正例数据集和负例数据集中的特征向量,训练支持向量机分类器。
3.如权利要求2所述的面向英文无结构文本的人物属性抽取方法,其特征在于,所述特征向量包括词法特征,句法特征,语义特征,位置信息增益特征和距离特征。
4.如权利要求3所述的面向英文无结构文本的人物属性抽取方法,其特征在于,所述位置信息增益特征采用位置信息增益词典进行表示,具体为在人物属性词前后一定范围内分别计算信息增益,筛选出高信息增益的若干个词,作为位置信息增益词典。
5.如权利要求4所述的面向英文无结构文本的人物属性抽取方法,其特征在于,所述计算信息增益包括以下分步骤:
A31、统计正负分类的文档数量N1,N2;
A32、统计人物属性值的前三个位置的每个词的正文档出现频率A、负文档出现频率B、正文档不出现频率C、负文档不出现频率D;
A33、计算信息熵,表示为
其中,S表示文档类别;
A34、计算每个词的信息增益,表示为
6.如权利要求5所述的面向英文无结构文本的人物属性抽取方法,其特征在于,所述步骤B中对待识别文档进行指代消解处理具体为将待识别文档中的人称代词用上文出现的人名词进行代替。
7.如权利要求6所述的面向英文无结构文本的人物属性抽取方法,其特征在于,所述步骤D对提取的特征进行识别,完成人物属性抽取具体为判断人名词和人物属性词是否存在对应关系;若是,则将人物属性词提取出来保存在数据库中;若否,则将这个句子舍弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810816828.2A CN108959630A (zh) | 2018-07-24 | 2018-07-24 | 一种面向英文无结构文本的人物属性抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810816828.2A CN108959630A (zh) | 2018-07-24 | 2018-07-24 | 一种面向英文无结构文本的人物属性抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108959630A true CN108959630A (zh) | 2018-12-07 |
Family
ID=64463483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810816828.2A Pending CN108959630A (zh) | 2018-07-24 | 2018-07-24 | 一种面向英文无结构文本的人物属性抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959630A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597959A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 文本信息抽取方法、装置以及电子设备 |
CN110825847A (zh) * | 2019-10-31 | 2020-02-21 | 北京奇艺世纪科技有限公司 | 目标人物间亲密度识别方法、装置、电子设备及存储介质 |
CN111027314A (zh) * | 2019-12-10 | 2020-04-17 | 中国传媒大学 | 一种基于语篇的人物属性抽取方法 |
CN114117055A (zh) * | 2022-01-27 | 2022-03-01 | 浙江太美医疗科技股份有限公司 | 一种文本实体关系的抽取方法、装置、设备和可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
US20130212081A1 (en) * | 2012-02-13 | 2013-08-15 | Microsoft Corporation | Identifying additional documents related to an entity in an entity graph |
CN104182535A (zh) * | 2014-08-29 | 2014-12-03 | 苏州大学 | 一种人物关系抽取方法和装置 |
CN105069141A (zh) * | 2015-08-19 | 2015-11-18 | 北京工商大学 | 一种股票标准新闻库的构建方法及构建系统 |
CN105608070A (zh) * | 2015-12-21 | 2016-05-25 | 中国科学院信息工程研究所 | 一种面向新闻标题的人物关系抽取方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN107463703A (zh) * | 2017-08-16 | 2017-12-12 | 电子科技大学 | 基于信息增益的英文社交媒体账号分类方法 |
-
2018
- 2018-07-24 CN CN201810816828.2A patent/CN108959630A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
US20130212081A1 (en) * | 2012-02-13 | 2013-08-15 | Microsoft Corporation | Identifying additional documents related to an entity in an entity graph |
CN104182535A (zh) * | 2014-08-29 | 2014-12-03 | 苏州大学 | 一种人物关系抽取方法和装置 |
CN105069141A (zh) * | 2015-08-19 | 2015-11-18 | 北京工商大学 | 一种股票标准新闻库的构建方法及构建系统 |
CN105608070A (zh) * | 2015-12-21 | 2016-05-25 | 中国科学院信息工程研究所 | 一种面向新闻标题的人物关系抽取方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN107463703A (zh) * | 2017-08-16 | 2017-12-12 | 电子科技大学 | 基于信息增益的英文社交媒体账号分类方法 |
Non-Patent Citations (2)
Title |
---|
刘路 等: "基于正反例训练的SVM命名实体关系抽取", 《计算机应用》 * |
宋敏晶: "基于情感分析的股票预测模型研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597959A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 文本信息抽取方法、装置以及电子设备 |
CN110597959B (zh) * | 2019-09-17 | 2023-05-02 | 北京百度网讯科技有限公司 | 文本信息抽取方法、装置以及电子设备 |
CN110825847A (zh) * | 2019-10-31 | 2020-02-21 | 北京奇艺世纪科技有限公司 | 目标人物间亲密度识别方法、装置、电子设备及存储介质 |
CN110825847B (zh) * | 2019-10-31 | 2022-09-02 | 北京奇艺世纪科技有限公司 | 目标人物间亲密度识别方法、装置、电子设备及存储介质 |
CN111027314A (zh) * | 2019-12-10 | 2020-04-17 | 中国传媒大学 | 一种基于语篇的人物属性抽取方法 |
CN114117055A (zh) * | 2022-01-27 | 2022-03-01 | 浙江太美医疗科技股份有限公司 | 一种文本实体关系的抽取方法、装置、设备和可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271626B (zh) | 文本语义分析方法 | |
WO2017084267A1 (zh) | 一种关键词提取方法和装置 | |
Orosz et al. | PurePos 2.0: a hybrid tool for morphological disambiguation | |
Mori et al. | A machine learning approach to recipe text processing | |
CN109858028A (zh) | 一种基于概率模型的短文本相似度计算方法 | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN108920447B (zh) | 一种面向特定领域的中文事件抽取方法 | |
CN104750820A (zh) | 一种语料库的过滤方法及装置 | |
Jayan et al. | A hybrid statistical approach for named entity recognition for malayalam language | |
CN111428031B (zh) | 一种融合浅层语义信息的图模型过滤方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN108287825A (zh) | 一种术语识别抽取方法及系统 | |
CN111626042A (zh) | 指代消解方法及装置 | |
Lone et al. | Machine intelligence for language translation from Kashmiri to English | |
Hládek et al. | Online natural language processing of the Slovak language | |
CN106650803A (zh) | 一种计算字符串间相似度的方法及装置 | |
Khoufi et al. | Statistical-based system for morphological annotation of Arabic texts | |
JP6586055B2 (ja) | 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
CN114970516A (zh) | 数据增强方法及装置、存储介质、电子设备 | |
Liu et al. | Linked open data query based on natural language | |
CN107015966A (zh) | 基于改进的PageRank算法的文本‑音频自动文摘方法 | |
CN113807102A (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
Jebbor et al. | Overview of knowledge extraction techniques in five question-answering systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181207 |