CN109408642A - 一种基于距离监督的领域实体属性关系抽取方法 - Google Patents

一种基于距离监督的领域实体属性关系抽取方法 Download PDF

Info

Publication number
CN109408642A
CN109408642A CN201810999929.8A CN201810999929A CN109408642A CN 109408642 A CN109408642 A CN 109408642A CN 201810999929 A CN201810999929 A CN 201810999929A CN 109408642 A CN109408642 A CN 109408642A
Authority
CN
China
Prior art keywords
feature
keyword
entity
relationship
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810999929.8A
Other languages
English (en)
Other versions
CN109408642B (zh
Inventor
郭剑毅
王斌
余正涛
线岩团
王红斌
毛存礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810999929.8A priority Critical patent/CN109408642B/zh
Publication of CN109408642A publication Critical patent/CN109408642A/zh
Application granted granted Critical
Publication of CN109408642B publication Critical patent/CN109408642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于距离监督的领域实体属性关系抽取方法,属于自然语言处理和深度学习技术领域。本发明构建一个中文旅游景点的领域知识库,通过中文百科网站和旅游网站获取大量的旅游领域文本集,使用已经构建好的旅游领域知识库中的实体对来从旅游领域文本集中获取关系实例文本集,采用了主题模型关键词相似度计算和关键词模式匹配来进行去噪。最后使用各个关系下的正例数据和少量负例数据组合成的训练语料,对训练语料的词性特征、依存关系特征和短语句法树特征进行提取,利用这三种特征融合为一个语义信息更加丰富的大特征,进行关系抽取模型训练。实验表明,本文所使用的去噪后训练语料提取的三种特征融合的F值最高,抽取性能最好。

Description

一种基于距离监督的领域实体属性关系抽取方法
技术领域
本发明涉及一种基于距离监督的领域实体属性关系抽取方法,属于自然语言处理和深度学习技术领域。
背景技术
实体关系抽取作为信息抽取的核心任务和重要环节,能够实现实体对间语义关系的识别,对句子语义理解及实体语义知识库构建有着重要作用。而领域实体关系抽取是对通用领域关系抽取的一个延伸和补充,该任务对特定领域更加细粒度的知识进行扩充,为人类和计算机更好理解自然语言信息提供帮助,特定领域实体关系抽取一方面可以扩建领域知识库,另一方面可以使人们更加了解特定领域的一些细粒度的知识。我们所做的旅游领域关系抽取不仅对领域知识的挖掘具有重要的意义,而且有助于领域知识库的构建和机器翻译等任务。
发明内容
本发明提供了一种基于距离监督的领域实体属性关系抽取方法,以用于解决现有现有实体关系抽取大多运用于通用领域,而且特定领域的实体关系抽取无法直接套用通用领域的问题。
本发明的技术方案是:一种基于距离监督的领域实体属性关系抽取方法,所述方法的具体步骤如下:
Step1、首先构建中文领域知识库,并利用领域知识库中的实体对从旅游领域文本集中获取训练语料;所述Step1的具体步骤如下:
Step1.1、借鉴Freebase知识库的结构特点,构建一个中文旅游景点的领域知识库;
Step1.2、对于不同的网站运用不同的爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,组成旅游领域文本集;
Step1.3、使用距离监督(Distant Supervision)的方法构建关系实例集,利用知识库在海量的文本集中找出在知识库中存在某种关系的实体对出现的句子,组成训练语料;
本发明所构建的中文旅游景点领域知识库是对通用知识库的一个补充。通用知识库对于特定领域的知识可能有所涉及,但是大多停留在概念层的知识,对于特定领域更加细粒度的知识没有涉及。本发明所使用的文本集是根据知识库中的相关实例所获取的。
Step2、对Step1中所获得的训练语料进行优化;所述Step2的具体步骤如下:
Step2.1、利用LDA主题模型对关系实例集中的文本进行关键词抽取,通过对文本预处理后,计算主题关键词与实体对在知识库中对应的预测关系的相关性,通过设置阈值来提取正例数据,其余的作为负例数据;
本发明采用LDA主题模型关键词对关系实例集去噪,假设描述实体关系的句子以某个特定的关键词为核心,通过抽取出关键词后,计算关键词与预测关系的相似程度,来对训练语料进行优化。
Step2.2、对于Step2.1中的负例数据中存在的作为正例数据上下位关系实例文本,采用关键词模式匹配来二次获取负例数据中的正例数据,通过关键词定义一个模式来对LDA主题模型关键词去噪后的负例数据进行二次去噪,用于提升正例数据的数量;
本发明是为了丰富训练数据中的正例数据,因为正例数据是影响关系抽取模型的重要因素,对于经过LDA主题模型关键词去噪后的负例数据,使用关键词模式匹配来进一步的优化,提取其中的正例数据。
Step3、对经过Step2优化的训练语料进行词性特征、依存关系特征和短语句法树特征提取,然后融合成为一个语义信息丰富的大特征;所述Step3的具体步骤如下:
Step3.1、词性特征所提取的内容包括:实体本身和实体的词性、实体左右两边第一个词以及这个词的词性、实体左右两边第二个词以及这个词的词性;
Step3.2、依存关系特征是使用哈工大的LTP工具来对句子进行解析得到的,截取两个实体之间的一段子树作为特征;
Step3.3、短语句法树特征是使用Stanford的句法分析器对句子进行句法解析得到的,选择两个实体路径中节点的数目和两个实体根节点类型作为特征;
Step3.4、把上述的三个特征融合为一个语义信息丰富的大特征;
本发明所使用的特征很丰富,包括了实体本身、实体与周围词的词性和依赖关系,把所有正例数据抽取的特征和少量负例数据抽取的特征进行融合,使特征更加的完善。
Step4、利用Step3中融合得到的大特征作为输入,训练关系抽取模型;
Step4.1、选择Text-CNN分类器来作为关系训练模型;
Step4.2、通过输入关系实例以及从该实例对应的句子集合中抽取的词性特征、依存关系特征、短语句法树特征所融合的大特征对分类模型进行训练。
本发明关系抽取的核心思想是利用关系名称作为标签,通过提取文本特征输入到分类模型中,训练出分类模型后对新的实体对进行关系抽取。分类器的选择也是一个重要的问题,由于本发明所提取的特征为词组、短句等文本,所以为了使特征能够充分的利用,本文选择Text-CNN作为分类模型。
所述步骤Step2.1的具体步骤为:
Step2.1.1、使用哈工大的语言技术平台LTP工具包对关系实例集进行分句、分词和词性标注,再加载停用词词典去除停用词,完成数据的预处理;
Step2.1.2、经过处理的关系实例集输入到已经设置好参数的LDA主题模型中,计算词语在主题上的概率分布;概率分布计算公式为:其中K代表主题数,Cwk表示词语w被赋予主题k的次数,β是Dirichlet参数;LDA主题模型关键词的提取,构建150个主题,每个主题显示关键词个数topNum为10个;
Step2.1.3、使用余弦相似度计算主题关键词与实体对在知识库中对应的预测关系的相关性;相似性计算公式为:设同一主题下的抽取的关键词集合为S,m表示抽取的关键词的数量,对于关键词集合S中的关键词k,其向量的形式为wk(k=1,2...m),知识库中对应的预测关系向量形式为r;
Step2.1.4、计算出相似度后通过设置阈值来提取正例数据;相似度越大,就代表着关系实例句子与知识库中对应的预测关系的相关性越大。
通过Step2.1可以去除训练语料中很大一部分的噪声数据,将噪声数据作为负例数据进行保存,其余的数据作为正例数据进行保存。经过本次语料优化,可以训练出更好的关系抽取模型。
所述步骤Step2.2的具体步骤为:
Step2.2.1、通过对旅游领域上下位关系文本的分析,得出了能够泛化上下位关系的一种模式:
Object(target)/ns是(有)/v*target(Object)/ns的/u*/[keyword dict]/n
其中,Object表示关系客体,target表示关系主体,*表示匹配任意字符,keyworddict是关键词经过同义词扩展的词典;
Step2.2.2、采用了Synonyms中文同义词工具包对关键词进行同义词扩展,使用“景点”作为先导词,不断的从先导词的同义词中选择相似度大于0.6的同义词作为下一个先导词进行同义词扩展;
本发明通过构建一个词典来对先导词所扩展的同义词进行存储,此词典所储存的同义词可以泛化大多数上下位关系句子中的关键词。
Step2.2.3、把经过Step2.2.1匹配的旅游领域上下位关系文本加入正例数据中;
Step2.2.4、通过关键词定义一个模式来对LDA主题模型关键词去噪后的负例数据进行二次去噪,尽量提升正例数据的数量。
本发明的去噪部分是一个很重要的部分,因为训练数据的好坏直接影响着关系抽取模型的好坏,所以此环节是本发明的一个关键。
通过Step2.2对负例数据中存在的上下位关系数据进行再去噪,一方面在一定程度上解决了正例数据缺乏的问题,另一方面补充了正例数据的类别,使训练出来的模型具有更好的泛化性。
所述步骤Step3.1的具体步骤为:
Step3.1.1、对于经过优化的训练语料,使用哈工大的语言技术平台LTP工具包对其进行分词、词性标注和命名实体识别处理;
Step3.1.2、通过使用正则表达式来匹配实体本身和实体的词性、实体左右两边第一个词以及这个词的词性、实体左右两边第二个词以及这个词的词性。
Step3.1.3、输出匹配到的数据保存在文本中作为词性特征。
所述步骤Step4.2的具体步骤为:
Step4.2.1、把各个特征融合后的大特征和关系实例保存为TXT文本,每个TXT文本中含有一个关系实例和该关系实例对应文本所提取的特征;
Step4.2.2、设置TXT-CNN分类器的参数,CNN的所配置的类别数num_classes为4个类别,卷积核数目num_filters为128个,总迭代轮次num_epochs为10次。
本发明的有益效果是:
1、本发明经过去噪后的语料训练出来的关系抽取模型的效果明显高于未去噪的语料训练出来的关系抽取模型;
2、本发明使用三种特征融合的关系抽取效果明显好于使用单一特征的效果;
3、本发明使用三种特征融合的关系抽取效果明显高于使用两两特征组合的效果。
附图说明
图1为本发明中的总的流程图;
图2为本发明中LDA主题模型层次结构图;
图3为关键词抽取流程图。
具体实施方式
实施例1:如图1-3所示,一种基于距离监督的领域实体属性关系抽取方法,所述方法的具体步骤如下:
Step1、首先构建中文领域知识库,并利用领域知识库中的实体对从旅游领域文本集中获取训练语料;所述Step1的具体步骤如下:
Step1.1、借鉴Freebase知识库的结构特点,构建一个中文旅游景点的领域知识库;
Step1.2、对于不同的网站运用不同的爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,组成旅游领域文本集;
Step1.3、使用距离监督(Distant Supervision)的方法构建关系实例集,利用知识库在海量的文本集中找出在知识库中存在某种关系的实体对出现的句子,组成训练语料;
本发明所构建的中文旅游景点领域知识库是对通用知识库的一个补充。通用知识库对于特定领域的知识可能有所涉及,但是大多停留在概念层的知识,对于特定领域更加细粒度的知识没有涉及。本发明所使用的文本集是根据知识库中的相关实例所获取的。
Step2、对Step1中所获得的训练语料进行优化;所述Step2的具体步骤如下:
Step2.1、利用LDA主题模型对关系实例集中的文本进行关键词抽取,通过对文本预处理后,计算主题关键词与实体对在知识库中对应的预测关系的相关性,通过设置阈值来提取正例数据,其余的作为负例数据;
本发明采用LDA主题模型关键词对关系实例集去噪,假设描述实体关系的句子以某个特定的关键词为核心,通过抽取出关键词后,计算关键词与预测关系的相似程度,来对训练语料进行优化。
Step2.2、对于Step2.1中的负例数据中存在的作为正例数据上下位关系实例文本,采用关键词模式匹配来二次获取负例数据中的正例数据,通过关键词定义一个模式来对LDA主题模型关键词去噪后的负例数据进行二次去噪,用于提升正例数据的数量;
本发明是为了丰富训练数据中的正例数据,因为正例数据是影响关系抽取模型的重要因素,对于经过LDA主题模型关键词去噪后的负例数据,使用关键词模式匹配来进一步的优化,提取其中的正例数据。
Step3、对经过Step2优化的训练语料进行词性特征、依存关系特征和短语句法树特征提取,然后融合成为一个语义信息丰富的大特征;所述Step3的具体步骤如下:
Step3.1、词性特征所提取的内容包括:实体本身和实体的词性、实体左右两边第一个词以及这个词的词性、实体左右两边第二个词以及这个词的词性;
Step3.2、依存关系特征是使用哈工大的LTP工具来对句子进行解析得到的,截取两个实体之间的一段子树作为特征;
Step3.3、短语句法树特征是使用Stanford的句法分析器对句子进行句法解析得到的,选择两个实体路径中节点的数目和两个实体根节点类型作为特征;
Step3.4、把上述的三个特征融合为一个语义信息丰富的大特征;
本发明所使用的特征很丰富,包括了实体本身、实体与周围词的词性和依赖关系,把所有正例数据抽取的特征和少量负例数据抽取的特征进行融合,使特征更加的完善。
Step4、利用Step3中融合得到的大特征作为输入,训练关系抽取模型;
Step4.1、选择Text-CNN分类器来作为关系训练模型;
Step4.2、通过输入关系实例以及从该实例对应的句子集合中抽取的词性特征、依存关系特征、短语句法树特征所融合的大特征对分类模型进行训练。
本发明关系抽取的核心思想是利用关系名称作为标签,通过提取文本特征输入到分类模型中,训练出分类模型后对新的实体对进行关系抽取。分类器的选择也是一个重要的问题,由于本发明所提取的特征为词组、短句等文本,所以为了使特征能够充分的利用,本文选择Text-CNN作为分类模型。
所述步骤Step2.1的具体步骤为:
Step2.1.1、使用哈工大的语言技术平台LTP工具包对关系实例集进行分句、分词和词性标注,再加载停用词词典去除停用词,完成数据的预处理;
Step2.1.2、经过处理的关系实例集输入到已经设置好参数的LDA主题模型中,计算词语在主题上的概率分布;概率分布计算公式为:其中K代表主题数,Cwk表示词语w被赋予主题k的次数,β是Dirichlet参数;LDA主题模型关键词的提取,构建150个主题,每个主题显示关键词个数topNum为10个;
Step2.1.3、使用余弦相似度计算主题关键词与实体对在知识库中对应的预测关系的相关性;相似性计算公式为:设同一主题下的抽取的关键词集合为S,m表示抽取的关键词的数量,对于关键词集合S中的关键词k,其向量的形式为wk(k=1,2...m),知识库中对应的预测关系向量形式为r;
Step2.1.4、计算出相似度后通过设置阈值来提取正例数据;相似度越大,就代表着关系实例句子与知识库中对应的预测关系的相关性越大。
通过Step2.1可以去除训练语料中很大一部分的噪声数据,将噪声数据作为负例数据进行保存,其余的数据作为正例数据进行保存。经过本次语料优化,可以训练出更好的关系抽取模型。
所述步骤Step2.2的具体步骤为:
Step2.2.1、通过对旅游领域上下位关系文本的分析,得出了能够泛化上下位关系的一种模式:
Object(target)/ns是(有)/v*target(Object)/ns的/u*/[keyword dict]/n
其中,Object表示关系客体,target表示关系主体,*表示匹配任意字符,keyworddict是关键词经过同义词扩展的词典;
Step2.2.2、采用了Synonyms中文同义词工具包对关键词进行同义词扩展,使用“景点”作为先导词,不断的从先导词的同义词中选择相似度大于0.6的同义词作为下一个先导词进行同义词扩展;
本发明通过构建一个词典来对先导词所扩展的同义词进行存储,此词典所储存的同义词可以泛化大多数上下位关系句子中的关键词。
Step2.2.3、把经过Step2.2.1匹配的旅游领域上下位关系文本加入正例数据中;
Step2.2.4、通过关键词定义一个模式来对LDA主题模型关键词去噪后的负例数据进行二次去噪,尽量提升正例数据的数量。
本发明的去噪部分是一个很重要的部分,因为训练数据的好坏直接影响着关系抽取模型的好坏,所以此环节是本发明的一个关键。
通过Step2.2对负例数据中存在的上下位关系数据进行再去噪,一方面在一定程度上解决了正例数据缺乏的问题,另一方面补充了正例数据的类别,使训练出来的模型具有更好的泛化性。
所述步骤Step3.1的具体步骤为:
Step3.1.1、对于经过优化的训练语料,使用哈工大的语言技术平台LTP工具包对其进行分词、词性标注和命名实体识别处理;
Step3.1.2、通过使用正则表达式来匹配实体本身和实体的词性、实体左右两边第一个词以及这个词的词性、实体左右两边第二个词以及这个词的词性。
Step3.1.3、输出匹配到的数据保存在文本中作为词性特征。
所述步骤Step4.2的具体步骤为:
Step4.2.1、把各个特征融合后的大特征和关系实例保存为TXT文本,每个TXT文本中含有一个关系实例和该关系实例对应文本所提取的特征;
Step4.2.2、设置TXT-CNN分类器的参数,CNN的所配置的类别数num_classes为4个类别,卷积核数目num_filters为128个,总迭代轮次num_epochs为10次。
为了验证本发明识别出来的命名实体的效果,将采用统一的评价标准:准确率、召回率、F值来衡量本发明的性能。
为了验证本文方法的有效性,本文的设计了以下3组实验:
实验一、验证去噪后的语料训练出的关系抽取模型和未去噪的语料训练的关系抽取模型比较。将文中经过去噪后的训练语料和未去噪的训练语料抽取特征后进行关系抽取模型训练后的关系抽取效果做对比,对比结果如表1所示,可以从表中明显的看出经过去噪后的语料训练出来的关系抽取模型的效果明显高于未去噪的语料训练出来的关系抽取模型。
表1为与未优化训练语料的关系抽取方法对比
实验二、验证使用三种特征融合的关系抽取效果和使用单一特征的效果比较。分别使用词性特征、依存关系特征、句法树特征来对关系抽取模型训练,计算三种单一特征的均值精确率,均值召回率和均值F值,与三种特征融合对关系抽取模型训练后的关系抽取效果做对比,对比结果如表2所示。
表2与单一特征的关系抽取方法对比
实验三、验证使用三种特征融合的关系抽取效果和使用两两特征组合的效果比较。使用词性特征、依存关系特征、句法树特征两两组合来对关系抽取模型训练,计算两两组合特征的均值精确率,均值召回率和均值F值,与三种特征融合对关系抽取模型训练后的关系抽取效果做对比,对比结果如表3所示。
表3与两两特征组合的关系抽取方法对比
从表2、表3中可以明显看出特征融合后的测试效果明显好于使用单一特征和两两特征组合的效果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种基于距离监督的领域实体属性关系抽取方法,其特征在于:所述方法的具体步骤如下:
Step1、首先构建中文领域知识库,并利用领域知识库中的实体对从旅游领域文本集中获取训练语料;所述Step1的具体步骤如下:
Step1.1、借鉴Freebase知识库的结构特点,构建一个中文旅游景点的领域知识库;
Step1.2、对于不同的网站运用不同的爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,组成旅游领域文本集;
Step1.3、使用距离监督的方法构建关系实例集,利用知识库在海量的文本集中找出在知识库中存在某种关系的实体对出现的句子,组成训练语料;
Step2、对Step1中所获得的训练语料进行优化;所述Step2的具体步骤如下:
Step2.1、利用LDA主题模型对关系实例集中的文本进行关键词抽取,通过对文本预处理后,计算主题关键词与实体对在知识库中对应的预测关系的相关性,通过设置阈值来提取正例数据,其余的作为负例数据;
Step2.2、对于Step2.1中的负例数据中存在的作为正例数据上下位关系实例文本,采用关键词模式匹配来二次获取负例数据中的正例数据,通过关键词定义一个模式来对LDA主题模型关键词去噪后的负例数据进行二次去噪,用于提升正例数据的数量;
Step3、对经过Step2优化的训练语料进行词性特征、依存关系特征和短语句法树特征提取,然后融合成为一个语义信息丰富的大特征;所述Step3的具体步骤如下:
Step3.1、词性特征所提取的内容包括:实体本身和实体的词性、实体左右两边第一个词以及这个词的词性、实体左右两边第二个词以及这个词的词性;
Step3.2、依存关系特征是使用哈工大的LTP工具来对句子进行解析得到的,截取两个实体之间的一段子树作为特征;
Step3.3、短语句法树特征是使用Stanford的句法分析器对句子进行句法解析得到的,选择两个实体路径中节点的数目和两个实体根节点类型作为特征;
Step3.4、把上述的三个特征融合为一个语义信息丰富的大特征;
Step4、利用Step3中融合得到的大特征作为输入,训练关系抽取模型;
Step4.1、选择Text-CNN分类器来作为关系训练模型;
Step4.2、通过输入关系实例以及从该实例对应的句子集合中抽取的词性特征、依存关系特征、短语句法树特征所融合的大特征对分类模型进行训练。
2.根据权利要求1所述的基于距离监督的领域实体属性关系抽取方法,其特征在于:所述步骤Step2.1的具体步骤为:
Step2.1.1、使用哈工大的语言技术平台LTP工具包对关系实例集进行分句、分词和词性标注,再加载停用词词典去除停用词,完成数据的预处理;
Step2.1.2、经过处理的关系实例集输入到已经设置好参数的LDA主题模型中,计算词语在主题上的概率分布;概率分布计算公式为:其中K代表主题数,Cwk表示词语w被赋予主题k的次数,β是Dirichlet参数;LDA主题模型关键词的提取,构建150个主题,每个主题显示关键词个数topNum为10个;
Step2.1.3、使用余弦相似度计算主题关键词与实体对在知识库中对应的预测关系的相关性;相似性计算公式为:设同一主题下的抽取的关键词集合为S,m表示抽取的关键词的数量,对于关键词集合S中的关键词k,其向量的形式为wk(k=1,2...m),知识库中对应的预测关系向量形式为r;
Step2.1.4、计算出相似度后通过设置阈值来提取正例数据;相似度越大,就代表着关系实例句子与知识库中对应的预测关系的相关性越大。
3.根据权利要求1所述的基于距离监督的领域实体属性关系抽取方法,其特征在于:所述步骤Step2.2的具体步骤为:
Step2.2.1、通过对旅游领域上下位关系文本的分析,得出了能够泛化上下位关系的一种模式:
Object(target)/ns是(有)/v*target(Object)/ns的/u*/[keyword dict]/n
其中,Object表示关系客体,target表示关系主体,*表示匹配任意字符,keyword dict是关键词经过同义词扩展的词典;
Step2.2.2、采用了Synonyms中文同义词工具包对关键词进行同义词扩展,使用“景点”作为先导词,不断的从先导词的同义词中选择相似度大于0.6的同义词作为下一个先导词进行同义词扩展;
Step2.2.3、把经过Step2.2.1匹配的旅游领域上下位关系文本加入正例数据中;
Step2.2.4、通过关键词定义一个模式来对LDA主题模型关键词去噪后的负例数据进行二次去噪,尽量提升正例数据的数量。
4.根据权利要求1所述的基于距离监督的领域实体属性关系抽取方法,其特征在于:所述步骤Step3.1的具体步骤为:
Step3.1.1、对于经过优化的训练语料,使用哈工大的语言技术平台LTP工具包对其进行分词、词性标注和命名实体识别处理;
Step3.1.2、通过使用正则表达式来匹配实体本身和实体的词性、实体左右两边第一个词以及这个词的词性、实体左右两边第二个词以及这个词的词性。
Step3.1.3、输出匹配到的数据保存在文本中作为词性特征。
5.根据权利要求1所述的基于距离监督的领域实体属性关系抽取方法,其特征在于:所述步骤Step4.2的具体步骤为:
Step4.2.1、把各个特征融合后的大特征和关系实例保存为TXT文本,每个TXT文本中含有一个关系实例和该关系实例对应文本所提取的特征;
Step4.2.2、设置TXT-CNN分类器的参数,CNN的所配置的类别数num_classes为4个类别,卷积核数目num_filters为128个,总迭代轮次num_epochs为10次。
CN201810999929.8A 2018-08-30 2018-08-30 一种基于距离监督的领域实体属性关系抽取方法 Active CN109408642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810999929.8A CN109408642B (zh) 2018-08-30 2018-08-30 一种基于距离监督的领域实体属性关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810999929.8A CN109408642B (zh) 2018-08-30 2018-08-30 一种基于距离监督的领域实体属性关系抽取方法

Publications (2)

Publication Number Publication Date
CN109408642A true CN109408642A (zh) 2019-03-01
CN109408642B CN109408642B (zh) 2021-07-16

Family

ID=65464396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810999929.8A Active CN109408642B (zh) 2018-08-30 2018-08-30 一种基于距离监督的领域实体属性关系抽取方法

Country Status (1)

Country Link
CN (1) CN109408642B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390099A (zh) * 2019-06-28 2019-10-29 河海大学 一种基于模板库的对象关系抽取系统和抽取方法
CN110442868A (zh) * 2019-08-01 2019-11-12 第四范式(北京)技术有限公司 文本处理方法、装置及电子设备
CN110633467A (zh) * 2019-08-29 2019-12-31 中国人民解放军国防科技大学 一种基于改进特征融合的语义关系抽取方法
CN110674642A (zh) * 2019-08-29 2020-01-10 中国人民解放军国防科技大学 一种用于含噪稀疏文本的语义关系抽取方法
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110968665A (zh) * 2019-11-08 2020-04-07 浙江工业大学 一种基于梯度增强决策树的上下位词关系识别方法
CN111026885A (zh) * 2019-12-23 2020-04-17 公安部第三研究所 一种基于文本语料的涉恐事件实体属性抽取系统及方法
CN111126067A (zh) * 2019-12-23 2020-05-08 北大方正集团有限公司 实体关系抽取方法及装置
CN111191029A (zh) * 2019-12-19 2020-05-22 南京理工大学 基于监督学习和文本分类的ac构建方法
CN111241824A (zh) * 2020-01-09 2020-06-05 中国搜索信息科技股份有限公司 一种用于中文隐喻信息识别的方法
CN111276258A (zh) * 2020-01-15 2020-06-12 大连理工大学 一种基于领域知识的药物致病关系抽取方法
CN111539194A (zh) * 2020-03-24 2020-08-14 华东理工大学 一种医疗文本结构化算法的可用度评估方法
CN111914555A (zh) * 2019-05-09 2020-11-10 中国人民大学 基于Transformer结构的自动化关系抽取系统
CN111950264A (zh) * 2020-08-05 2020-11-17 广东工业大学 文本数据增强方法及知识元抽取方法
CN112232074A (zh) * 2020-11-13 2021-01-15 完美世界控股集团有限公司 实体关系抽取方法、装置、电子设备及存储介质
CN112800083A (zh) * 2021-02-24 2021-05-14 山东省建设发展研究院 一种面向政府决策的政务大数据分析方法及设备
CN112966169A (zh) * 2021-04-13 2021-06-15 四川省广播电视科学技术研究所 一种互联网应急信息抓取方法
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
WO2022022062A1 (en) * 2020-07-29 2022-02-03 International Business Machines Corporation Pair selection for entity resolution analysis
CN114154495A (zh) * 2021-12-03 2022-03-08 海南港航控股有限公司 一种基于关键词匹配的实体抽取方法及系统
CN114372462A (zh) * 2021-12-15 2022-04-19 城云科技(中国)有限公司 事件陈述文本的关键信息提取方法、装置及应用
CN114792092A (zh) * 2022-06-24 2022-07-26 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN117172254A (zh) * 2023-11-02 2023-12-05 成方金融科技有限公司 模型训练方法、信息抽取方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
EP2778069A1 (en) * 2013-03-14 2014-09-17 Weston Aerospace Limited Apparatus and method for detecting obstructions in pipes or channels
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
US9147159B2 (en) * 2011-12-30 2015-09-29 Certona Corporation Extracting predictive segments from sampled data
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及系统
CN107463607A (zh) * 2017-06-23 2017-12-12 昆明理工大学 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN107633317A (zh) * 2017-06-15 2018-01-26 北京百度网讯科技有限公司 建立行程规划模型以及规划出游行程的方法、装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
US9147159B2 (en) * 2011-12-30 2015-09-29 Certona Corporation Extracting predictive segments from sampled data
EP2778069A1 (en) * 2013-03-14 2014-09-17 Weston Aerospace Limited Apparatus and method for detecting obstructions in pipes or channels
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及系统
CN107633317A (zh) * 2017-06-15 2018-01-26 北京百度网讯科技有限公司 建立行程规划模型以及规划出游行程的方法、装置
CN107463607A (zh) * 2017-06-23 2017-12-12 昆明理工大学 结合词向量和自举学习的领域实体上下位关系获取与组织方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王斌: "《CNKI优秀硕博论文库》", 31 December 2015 *
雷春雅等: "基于自扩展与最大熵的领域实体关系自动抽取", 《山东大学学报(工学版)》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914555A (zh) * 2019-05-09 2020-11-10 中国人民大学 基于Transformer结构的自动化关系抽取系统
CN110390099A (zh) * 2019-06-28 2019-10-29 河海大学 一种基于模板库的对象关系抽取系统和抽取方法
CN110390099B (zh) * 2019-06-28 2023-01-31 河海大学 一种基于模板库的对象关系抽取系统和抽取方法
CN110442868A (zh) * 2019-08-01 2019-11-12 第四范式(北京)技术有限公司 文本处理方法、装置及电子设备
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110705292B (zh) * 2019-08-22 2022-11-29 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110633467A (zh) * 2019-08-29 2019-12-31 中国人民解放军国防科技大学 一种基于改进特征融合的语义关系抽取方法
CN110674642B (zh) * 2019-08-29 2023-04-18 中国人民解放军国防科技大学 一种用于含噪稀疏文本的语义关系抽取方法
CN110674642A (zh) * 2019-08-29 2020-01-10 中国人民解放军国防科技大学 一种用于含噪稀疏文本的语义关系抽取方法
CN110633467B (zh) * 2019-08-29 2023-04-07 中国人民解放军国防科技大学 一种基于改进特征融合的语义关系抽取方法
CN110968665A (zh) * 2019-11-08 2020-04-07 浙江工业大学 一种基于梯度增强决策树的上下位词关系识别方法
CN110968665B (zh) * 2019-11-08 2022-09-23 浙江工业大学 一种基于梯度增强决策树的上下位词关系识别方法
CN111191029A (zh) * 2019-12-19 2020-05-22 南京理工大学 基于监督学习和文本分类的ac构建方法
CN111191029B (zh) * 2019-12-19 2022-11-25 南京理工大学 基于监督学习和文本分类的ac构建方法
CN111126067A (zh) * 2019-12-23 2020-05-08 北大方正集团有限公司 实体关系抽取方法及装置
CN111126067B (zh) * 2019-12-23 2022-02-18 北大方正集团有限公司 实体关系抽取方法及装置
CN111026885B (zh) * 2019-12-23 2023-09-01 公安部第三研究所 一种基于文本语料的涉恐事件实体属性抽取系统及方法
CN111026885A (zh) * 2019-12-23 2020-04-17 公安部第三研究所 一种基于文本语料的涉恐事件实体属性抽取系统及方法
CN111241824A (zh) * 2020-01-09 2020-06-05 中国搜索信息科技股份有限公司 一种用于中文隐喻信息识别的方法
CN111276258A (zh) * 2020-01-15 2020-06-12 大连理工大学 一种基于领域知识的药物致病关系抽取方法
CN111276258B (zh) * 2020-01-15 2022-10-14 大连理工大学 一种基于领域知识的药物致病关系抽取方法
CN111539194A (zh) * 2020-03-24 2020-08-14 华东理工大学 一种医疗文本结构化算法的可用度评估方法
WO2022022062A1 (en) * 2020-07-29 2022-02-03 International Business Machines Corporation Pair selection for entity resolution analysis
CN111950264B (zh) * 2020-08-05 2024-04-26 广东工业大学 文本数据增强方法及知识元抽取方法
CN111950264A (zh) * 2020-08-05 2020-11-17 广东工业大学 文本数据增强方法及知识元抽取方法
CN112232074A (zh) * 2020-11-13 2021-01-15 完美世界控股集团有限公司 实体关系抽取方法、装置、电子设备及存储介质
CN112800083A (zh) * 2021-02-24 2021-05-14 山东省建设发展研究院 一种面向政府决策的政务大数据分析方法及设备
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113076421B (zh) * 2021-04-02 2023-03-28 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN112966169A (zh) * 2021-04-13 2021-06-15 四川省广播电视科学技术研究所 一种互联网应急信息抓取方法
CN114154495A (zh) * 2021-12-03 2022-03-08 海南港航控股有限公司 一种基于关键词匹配的实体抽取方法及系统
CN114372462A (zh) * 2021-12-15 2022-04-19 城云科技(中国)有限公司 事件陈述文本的关键信息提取方法、装置及应用
CN114792092B (zh) * 2022-06-24 2022-09-13 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN114792092A (zh) * 2022-06-24 2022-07-26 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN117172254A (zh) * 2023-11-02 2023-12-05 成方金融科技有限公司 模型训练方法、信息抽取方法、装置、设备及存储介质
CN117172254B (zh) * 2023-11-02 2024-01-16 成方金融科技有限公司 模型训练方法、信息抽取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109408642B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN109408642A (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN106383817A (zh) 利用分布式语义信息的论文标题生成方法
CN107247780A (zh) 一种基于知识本体的专利文献相似性度量方法
CN105843801B (zh) 多译本平行语料库的构建系统
CN104573028A (zh) 实现智能问答的方法和系统
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
Navigli et al. An Annotated Dataset for Extracting Definitions and Hypernyms from the Web.
CN105808525A (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN108959258A (zh) 一种基于表示学习的特定领域集成实体链接方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN105824933A (zh) 基于主述位的自动问答系统及其实现方法
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN111291156A (zh) 一种基于知识图谱的问答意图识别方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
CN105868187B (zh) 多译本平行语料库的构建方法
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114997288A (zh) 一种设计资源关联方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yu Zhengtao

Inventor after: Wang Bin

Inventor after: Guo Jianyi

Inventor after: Xian Yantuan

Inventor after: Wang Hongbin

Inventor after: Mao Cunli

Inventor before: Guo Jianyi

Inventor before: Wang Bin

Inventor before: Yu Zhengtao

Inventor before: Xian Yantuan

Inventor before: Wang Hongbin

Inventor before: Mao Cunli

GR01 Patent grant
GR01 Patent grant