CN104035975B - 一种利用中文在线资源实现远程监督人物关系抽取的方法 - Google Patents
一种利用中文在线资源实现远程监督人物关系抽取的方法 Download PDFInfo
- Publication number
- CN104035975B CN104035975B CN201410219184.0A CN201410219184A CN104035975B CN 104035975 B CN104035975 B CN 104035975B CN 201410219184 A CN201410219184 A CN 201410219184A CN 104035975 B CN104035975 B CN 104035975B
- Authority
- CN
- China
- Prior art keywords
- name
- relation
- character relation
- matrix
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种利用中文在线资源实现远程监督人物关系抽取的方法,该方法首先利用Web上已经通过半人工化方式形成的在线百科网站自动构建知识库,以获取尽可能全面且准确的关系类型及其人物关系实例。接着提取语料库中所有共现的人名对以及上下文特征,并将人名对与知识库中关系实例相互匹配,得到标记关系的人名对集合和未标记的人名对集合。最后,引入标签传播算法实现未标记人名对的关系匹配,从而实现人物关系抽取。本发明能够自动构建人物关系知识库,其中涵盖了更为丰富、准确的关系类型,基于该知识库,引入标签传播算法实现远程监督的中文人物关系抽取,保证了关系抽取结果的准确性。
Description
技术领域
本发明涉及的技术领域包括网页信息爬取、文本预处理、特征提取、人物对相似度计算、标签传播算法等,其中文本预处理包括分句、分词、词性标注和人名识别等技术。总的来说,本发明是关系抽取领域中一种对中文人物关系有效的抽取方法,利用大量在线资源采用远程监督学习方法以抽取人物关系。
背景技术
自然语言处理(NLP)中,信息抽取是一个重要的研究领域,并得到广泛实际应用。信息抽取是指从自然文本中抽取出结构化的信息,以帮助人们从海量信息中快速找到有用的信息。其中,人物关系抽取是信息抽取研究的一个重要方向,被广泛应用于人际网络分析、社交网络服务和犯罪组织关系抽取等实际领域。
现有的人物关系抽取方法可以分为有监督学习、半监督学习和无监督学习,其中最近几年提出的远程监督学习被认为是半监督学习的一种。有监督学习需要依赖领域专家编写关系模式,成本较高且移植性较差。无监督学习采用聚类方法实现关系类型及对应实例的自动抽取,不需要人工干预,但所得关系类型较粗糙,不能合适地表达人物关系,并且准确率较低。常用的半监督学习采用少量种子不断迭代,获取更多人物关系实例,折中了有监督和无监督学习的优缺点,因此被广泛采用。但半监督学习方法存在以下不足:1)不断迭代容易产生语义漂移问题,从而降低准确率;2)需要事先定义人物关系类型,易导致定义的关系类型不够全面,例如以往的方法中所定义的关系类型都没有涵盖“敌对”、“邻里”等出现频率不高的关系。而最近几年提出的远程监督方法利用已有的大量结构化数据,即利用含有关系实例的知识库,来抽取更多的关系实例,由于知识库规模较大,涵盖关系类型丰富,且不需要不断循环迭代,从而保证了准确率。但在中文人物关系抽取中,远程监督方法迟迟没有得到应用,这和没有大规模可用的中文关系知识库有必然联系。
发明内容
本发明的目的是针对现有技术的不足而提供的一种新的中文人物关系抽取方法,利用中文百科网站中的关系信息自动构建人物关系知识库,采用远程监督的方法实现关系抽取。该方法首先利用Web上已经通过半人工化方式形成的在线百科网站自动构建知识库,以获取尽可能全面且准确的关系类型及其人物关系实例。接着提取语料库中所有共现的人名对以及上下文特征,并将人名对与知识库中关系实例相互匹配,得到标记关系的人名对集合和未标记的人名对集合。最后,引入标签传播算法实现未标记人名对的关系匹配,从而实现人物关系抽取。
实现本发明目的的具体技术方案是:
一种利用中文在线资源实现远程监督人物关系抽取的方法,该方法包括以下具体步骤:
1)构建人物关系知识库,利用中文在线百科中人名词条下的人物关系信息自动构建知识库;具体包括:
利用中文在线百科来构建知识库,以人名为关键字提交到在线百科网站的搜索入口,则显示有关大量信息的页面,其中包括的人际关系信息,并以列表形式呈现在网页中。提取出的人物关系信息并存入结构为三元组的中,其中、为人名,表示人物关系描述词。利用网络爬虫的程序不断获得新的人名词条的人物关系信息,构建大规模的知识库。
2)对待抽取人物关系的语料库(生语料库)进行标记处理,具体包括:
首先对语料库进行预处理,包括分句、分词、词性标注以及人名识别。抽取出包含至少两个人名的句子,并提取句子中的所有相邻且词距不超过设定阈值的人名对及其上下文窗口中的文本信息、和,其中表示句子中前的词语集合,表示和之间的词语集合,表示后的词语集合。对每一个,依次查找在知识库中是否存在,若存在,则将该人名对标记上对应的关系,并添加到标记人物对集合中;若不存在,则将该人名对添加到未标记的人物对集合中。
3)采用标签传播算法实现为中人物对匹配最可能的关系,且,表示标记人名对集合中所有关系类型的集合,具体包括:
采用标签传播算法,并简化其中已标记的样本数据,在集合中根据将人名对分成类。在构造转移矩阵和标签矩阵时,将其中的已标记样本节点替换成为关系类型节点。具体来说,的矩阵中的每个元素根据公式(1)(2)(3)计算,其中,表示标记为关系的所有人名对集合,是指人名对和人名对之间的相似度。
由计算公式可知,转移矩阵是一个对称矩阵。而的矩阵,前行为单位矩阵,由于最终收敛,后行的值可随机取值。
(1)
(2)
(3)
转移矩阵与标签矩阵相乘,得到的矩阵校正前行为单位矩阵,如此不断与相乘,得到最终收敛的,将后行中每行的最大值索引所对应的关系类型标记到该行所对应的人名对上。并且,如果中某行的最大值低于设定阈值,则标记该行所对应的人名对的关系类型为“其他”。
从而,实现了对未标记人名对的关系匹配,即实现了中文人物关系抽取任务。
本发明的有益效果
根据本发明的实现步骤,能够自动构建人物关系知识库,其中涵盖了更为丰富、准确的关系类型,基于该知识库,引入标签传播算法实现远程监督的中文人物关系抽取,保证了关系抽取结果的准确性。
附图说明
图1为本发明流程图;
图2为互动百科中以“XX”为输入关键字获得的人物关系图;
图3为本发明标签传播算法的流程图;
图4为本发明实施例中基于互动百科和SogouC语料库的实验结果图。
具体实施方式
本发明利用在线百科中半结构化数据自动构建人物关系知识库,并基于该知识库,与生语料库中人物对相互匹配,得到标记关系的人物对集合和未标记关系的人物对集合,引入标签传播算法利用已标记的人物对为未标记人物对匹配上最恰当的关系类型,从而实现关系抽取。
实施例
本发明利用中文在线百科构建知识库,并在生语料库中实现人物关系抽取。以下的实施例中选取互动百科中数据构建知识库,选取搜狗实验室发布的SogouC语料库作为生语料库,并结合附图,对本发明做进一步阐述。
参阅图1,首先从互动百科中自动构建结构为三元组的知识库。
以人名为关键字提交到互动百科搜索入口,则在其介绍页面中含有结构化的人物关系数据。例如输入“XX”,获得与XX相关的人物及其对应关系类型,如图2所示。选取十个不同领域的代表人物作为人名搜索的种子,逐次获得每个种子的人物关系列表,存入知识库中,并将关系人物作为下一轮人物搜索的关键字,如此迭代,不断扩充知识库。最终构建的HDKB中含有14051个人物关系对,共有982种关系描述词。
但由于存在颗粒度太细的关系描述词,不适合用于人物关系抽取,于是采用人机交互的方式对关系描述词按如下规则做处理:
a)对过于细致的描述词,进行泛化,划分到颗粒度较粗的关系类型中。
b)对含有备注的描述词,去除备注部分,再作a)情况的处理。
同时,将泛化前的关系描述词作为对应关系类型的特征词,从而得到每种关系类型的特征词集。最后本实施例中得到18种人物关系类型,有日常生活中最常见的人物关系(包括父母、合作、兄弟姐妹、师生、夫妻、亲戚、祖孙、情侣、好友、同门和上下级)以及社会中出现的概率较小但对于分析人际关系网络具有重要意义的人物关系(包括经纪人、扮演、敌对、崇拜、同行、邻里和共指)。
参阅图1,需要对SogouC语料库进行文本处理,以抽取出人物对和上下文特征。
在本实施例中,采用标点符号对文本进行分句,并采用中科院的分词软件ICTCLAS进行分词和词性标注,并且制定规则获取人名实体。从而抽取出包含至少两个人名的句子,并提取句子中的所有相邻且词距不超过一定阈值的人名对及其上下文窗口中的文本信息、和。根据统计部分共现句中人名的词距,本实施例中设定该阈值为15。
所获得的共现人名对与知识库HDKB相互匹配,以得到标记关系的人名对集合和未标记关系的人名对集合。
参阅图1,接下来引用标签传播算法为未标记关系的人名对都匹配上最恰当的关系类型。
标签传播算法的流程图如图3所示,本实施例中,根据以下三个公式计算的转移矩阵,其中,表示标记为关系的所有人名对集合,是指人名对和人名对之间的相似度。
而的标签矩阵,前行为单位矩阵,由于最终收敛,后行的值可随机取值。
根据图3的流程得到最终收敛的,将该矩阵后行中每行的最大值索引所对应的关系类型标记到该行所对应的人名对上。并且,如果中某行的最大值低于设定阈值,则标记该行所对应的人名对的关系类型为“其他”。本实施例中,经过不断调优,设定该阈值为0.02。
具体的说,本实施例中,在计算人名对之间的相似度时,考虑以下三种特征:
a)人名对上下文窗口中的词条(过滤掉停用词);
b)人物关系特征词。基于知识库中关系类型泛化处理时所获得的特征词集,人名对间的相似度计算考虑两个人名对的上下文中是否存在同一关系的特征词;
c)人名对上下文窗口中的词性特征。
对未标记人名对匹配上的关系类型进行人工标注,分为匹配正确和匹配错误,从而计算实验结果的准确率。实施例中的实验结果如图4所示,表明本发明的方法,即利用中文在线资源的远程监督人物关系抽取方法,能够在自动获取更丰富、准确的关系类型情况下,保证了较好的准确率。
Claims (1)
1.一种利用中文在线资源实现远程监督人物关系抽取的方法,其特征在于该方法包括以下具体步骤:
1)构建人物关系知识库D,具体包括:
利用中文在线百科来构建知识库,以人名Pn为关键字提交到中文在线百科网站的搜索入口,则显示有关Pn大量信息的页面,其中包括Pn的人际关系信息,并以列表形式呈现在网页中;提取出Pn的人物关系信息<pi,pj,r>并以此构建相同结构的人物关系知识库D,其中pi、pj为人名,r表示人物关系描述词;
2)对待抽取人物关系的语料库即生语料库进行标记处理,具体包括:
对语料库进行预处理,包括分句、分词、词性标注以及人名识别;抽取出包含至少两个人名的句子,并提取句子中的所有相邻且词距不超过所定阈值的人名对<pi,pj>及其上下文窗口中的文本信息Cpre、Cmid和Cpost,其中Cpre表示句子中pi前的词语集合,Cmid表示pi和pj之间的词语集合,Cpost表示pj后的词语集合;对每一个<pi,pj>,依次查找在知识库中是否存在,若存在,则将该人名对标记上对应的关系r,并添加到标记人物对集合L中;若不存在,则将该人名对添加到未标记的人物对集合U中;
3)采用标签传播算法实现为未标记的人物对集合U中人物对匹配最可能的关系r,且r∈RL,RL表示标记人名对集合L中所有关系类型的集合,具体包括:
利用标签传播算法,并简化其中已标记的样本数据,在集合L中根据RL将人名对分成|RL|类;在构造转移矩阵T和标签矩阵Y时,将其中的已标记样本节点替换成为关系类型节点;具体来说,m×m的矩阵T中的每个元素根据公式(1)(2)(3)计算,其中m=|RL|+|U|,S(r)表示标记为关系r的所有人名对集合,sim(i,j)是指人名对i和人名对j之间的相似度;
由计算公式可知,转移矩阵T是一个对称矩阵;而(|RL|+|U|)×|RL|的矩阵Y,前|RL|行为单位矩阵,由于Y最终收敛,后|U|行的值可随机取值;
ti,j=sim(i,j)(i,j∈U) (3)
转移矩阵T与标签矩阵Y相乘,得到的矩阵校正前|RL|行为单位矩阵,如此不断与T相乘,得到最终收敛的Y′,将后|U|行中每行的最大值索引所对应的关系类型标记到该行所对应的人名对上;并且,如果Y′中某行的最大值低于设定阈值,则标记该行所对应的人名对的关系类型为“其他”;实现对未标记人名对的关系匹配,即实现了中文人物关系抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410219184.0A CN104035975B (zh) | 2014-05-23 | 2014-05-23 | 一种利用中文在线资源实现远程监督人物关系抽取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410219184.0A CN104035975B (zh) | 2014-05-23 | 2014-05-23 | 一种利用中文在线资源实现远程监督人物关系抽取的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104035975A CN104035975A (zh) | 2014-09-10 |
CN104035975B true CN104035975B (zh) | 2017-07-25 |
Family
ID=51466745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410219184.0A Active CN104035975B (zh) | 2014-05-23 | 2014-05-23 | 一种利用中文在线资源实现远程监督人物关系抽取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104035975B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160098645A1 (en) * | 2014-10-02 | 2016-04-07 | Microsoft Corporation | High-precision limited supervision relationship extractor |
CN105488030A (zh) * | 2015-12-02 | 2016-04-13 | 福建天晴数码有限公司 | 获取正极性汉字的方法和装置 |
CN105912579A (zh) * | 2016-04-01 | 2016-08-31 | 东软集团股份有限公司 | 一种人物关系图谱的生成方法及装置 |
CN106250524A (zh) * | 2016-08-04 | 2016-12-21 | 浪潮软件集团有限公司 | 一种基于语义信息的机构名抽取方法和装置 |
CN106875014B (zh) * | 2017-03-02 | 2021-06-15 | 上海交通大学 | 基于半监督学习的软件工程知识库的自动化构建实现方法 |
CN106970981B (zh) * | 2017-03-28 | 2021-01-19 | 北京大学 | 一种基于转移矩阵构建关系抽取模型的方法 |
CN109213750B (zh) * | 2017-06-30 | 2024-04-16 | 勤智数码科技股份有限公司 | 一种基于知识库标签的信息资源推荐方法 |
CN108717425A (zh) * | 2018-04-26 | 2018-10-30 | 国家电网公司 | 一种基于多数据源的知识图谱人物实体对齐方法 |
CN109388648B (zh) * | 2018-08-15 | 2022-02-18 | 王小易 | 一种在电子笔录中提取人员信息及关系人的方法 |
CN109597879B (zh) * | 2018-11-30 | 2022-03-29 | 京华信息科技股份有限公司 | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 |
CN110991165A (zh) * | 2019-12-12 | 2020-04-10 | 智器云南京信息科技有限公司 | 文本中人物关系提取方法及装置、计算机设备和存储介质 |
CN113076718B (zh) * | 2021-04-09 | 2022-03-11 | 苏州爱语认知智能科技有限公司 | 一种商品属性抽取方法及其系统 |
CN113255358B (zh) * | 2021-07-12 | 2021-09-17 | 湖南工商大学 | 一种基于事件远程监督的多标签人物关系自动标注方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662998A (zh) * | 2012-03-14 | 2012-09-12 | 华侨大学 | 一种基于百度百科的文本语义主题抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130332450A1 (en) * | 2012-06-11 | 2013-12-12 | International Business Machines Corporation | System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources |
-
2014
- 2014-05-23 CN CN201410219184.0A patent/CN104035975B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662998A (zh) * | 2012-03-14 | 2012-09-12 | 华侨大学 | 一种基于百度百科的文本语义主题抽取方法 |
Non-Patent Citations (2)
Title |
---|
Distant supervision for relation extraction without labeled data;Mike Mintz等;《ACL "09 Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP》;20090802;第2卷;全文 * |
基于中文维基百科的语义知识挖掘相关研究;李赟;《中国博士学位论文全文数据库信息科技辑 》;20100315(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104035975A (zh) | 2014-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104035975B (zh) | 一种利用中文在线资源实现远程监督人物关系抽取的方法 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN106033462B (zh) | 一种新词发现方法及系统 | |
US9965726B1 (en) | Adding to a knowledge base using an ontological analysis of unstructured text | |
CN106095749A (zh) | 一种基于深度学习的文本关键词提取方法 | |
Vedula et al. | Enriching taxonomies with functional domain knowledge | |
CN104809176A (zh) | 藏语实体关系抽取方法 | |
CN106537370A (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN107169043A (zh) | 一种基于标准答案的知识点自动提取方法及系统 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN104199838B (zh) | 一种基于标签消歧的用户模型建构方法 | |
CN109086355A (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
US9830533B2 (en) | Analyzing and exploring images posted on social media | |
Xu et al. | Different data, different modalities! reinforced data splitting for effective multimodal information extraction from social media posts | |
Tembhurnikar et al. | Topic detection using BNgram method and sentiment analysis on twitter dataset | |
Bhardwaj et al. | Web scraping using summarization and named entity recognition (ner) | |
CN105956158A (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
CN108519978A (zh) | 一种基于主动学习的中文正式文本分词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |