CN109657052A - 一种论文摘要蕴含细粒度知识元的抽取方法及装置 - Google Patents

一种论文摘要蕴含细粒度知识元的抽取方法及装置 Download PDF

Info

Publication number
CN109657052A
CN109657052A CN201811520561.9A CN201811520561A CN109657052A CN 109657052 A CN109657052 A CN 109657052A CN 201811520561 A CN201811520561 A CN 201811520561A CN 109657052 A CN109657052 A CN 109657052A
Authority
CN
China
Prior art keywords
knowledge element
dictionary
abstract
thesis
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811520561.9A
Other languages
English (en)
Other versions
CN109657052B (zh
Inventor
余丽
钱力
赵华茗
董智鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Science Library Chinese Academy Of Sciences
Original Assignee
National Science Library Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Science Library Chinese Academy Of Sciences filed Critical National Science Library Chinese Academy Of Sciences
Priority to CN201811520561.9A priority Critical patent/CN109657052B/zh
Publication of CN109657052A publication Critical patent/CN109657052A/zh
Application granted granted Critical
Publication of CN109657052B publication Critical patent/CN109657052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种论文摘要蕴含细粒度知识元的抽取方法及装置,所述方法包括:确定知识元类型;建立知识元词库;使用bootstrapping技术自动扩充每种知识元类型的词库;获得知识元词库中的词语;使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立词语与知识元类型的映射关系,获得标注语料库;输入标注语料库,训练LSTM‑CRF模型;将论文摘要转换为标注语料的形式,输入所述LSTM‑CRF模型中,预测每个词语被分配到每种知识元类型的概率,抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为论文摘要中的知识元。能够扩展传统知识元提取的范畴,快速准确地抽取多种类型细粒度的知识元。

Description

一种论文摘要蕴含细粒度知识元的抽取方法及装置
技术领域
本申请涉及信息抽取技术领域,尤其涉及一种论文摘要蕴含细粒度知识元的抽取方法及装置。
背景技术
知识元是组成知识的基本单位和结构要素,一般以词语、概念、术语表征文献内容。知识元抽取已经成为情报大数据智能分析的关键技术之一。不同于文献元数据(标题、作者、摘要、关键词等),从文本内容中抽取知识元有利于了解知识的产生、传播和应用,追踪知识的基础、中介和前沿,研究知识的结构、演化和重组。目前,知识元抽取方法分为四类,包括人工标注、基于规则的方法、监督学习方法和无监督学习方法。
但本申请发明人在实现本申请实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:
现有技术中在对文本进行知识元提取时,存在对领域专家知识依赖性强,或需为不同领域构建大规模标注语料库,人工成本高昂,且扩展性能低的技术问题。
申请内容
本申请实施例通过提供一种论文摘要蕴含细粒度知识元的抽取方法及装置,用以解决现有技术中在对文本进行知识元提取时,存在对领域专家知识依赖性强,或需为不同领域构建大规模标注语料库,人工成本高昂,且扩展性能低的技术问题。达到了扩展传统知识元提取的范畴,且在缺乏大规模标注语料的前提下,能够快速准确地抽取多种类型细粒度的知识元,大大降低人工成本的技术效果。
为了解决上述问题,第一方面,本申请实施例提供了一种论文摘要蕴含细粒度知识元的抽取方法,所述方法包括:获取论文摘要,确定知识元类型;建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;根据所述知识元词库,获得所述知识元词库中的词语;根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;输入所述标注语料库,训练LSTM-CRF模型;将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。
优选的,所述建立知识元词库,包括:根据领域需求,获得细粒度知识元类型表;获得领域词表;获得elsevier关键词表;通过建立知识元类型与领域词和elsevier关键词的映射关系,建立知识元词库。
优选的,所述根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库,包括:使用词典匹配技术从所述论文摘要中查询类型为K的知识元词库W中的词汇;从所述论文摘要中提取所述查询到词汇的词法表达式;从所述词法表达式中筛选出新增词法表达式,加入类型为K的模式库T;使用模式匹配技术从所述论文摘要中查询类型为K的模式库T中的模式;从所述论文摘要中提取所述查询到模式的词语,标记知识元类型为K;从所述知识元中筛选出候选知识元,加入类型为K的知识元词库W。
优选的,所述从所述词法表达式中筛选出新增词法表达式,加入类型为K的模式库T,包括:从所述论文摘要中提取所述查询到词汇的词法表达式t’,构建类型为K的候选模式库T’;计算所述候选模式库T’中每个候选模式t’的得分;获得第一预定阈值;判断所述候选模式t’的得分是否大于所述第一预定阈值;如果所述候选模式t’的得分大于所述第一预定阈值,将所述候选模式t’加入类型为K的模式库T。
优选的,计算所述候选模式库T’中每个候选模式t’的得分,计算公式为:
其中,所述N(t’|K)表示使用候选模式t’挖掘的类型为K的知识元实例的总数;所述N(t’)表示使用候选模式t’挖掘的所有类型的知识元实例的总数;所述score(t’|K,T’)表示类型为K的候选模式库T’中模式t’的得分。
优选的,所述从所述知识元中筛选出候选知识元,加入类型为K的知识元词库W,包括:从所述论文摘要中提取所述查询到模式的候选知识元w,标记知识元类型为K;计算所述候选知识元w的得分;获得第二预定阈值;判断所述候选知识元w的得分是否大于所述第二预定阈值;如果所述候选知识元w的得分大于所述第二预定阈值,将所述候选知识元w加入类型为K的知识元词库W。
优选的,计算所述候选知识元w的得分,计算公式为:
其中p(sub_w)为词语分片的概率;假设所述候选知识元w长度为L,将词语w按照步长n(1≤n≤L)切分,切分出来的词语sub_w组成集合SW。f(sub_w)表示切分出来的词语sub_w在语料中出现的次数。
优选的,所述输入所述标注语料库,训练LSTM-CRF模型,包括:获得LSTM-CRF模型;将所述标注语料库以词语为单位分成训练集、发展集和测试集;初始化LSTM-CRF模型参数,通过多轮迭代学习训练所述LSTM-CRF模型。
第二方面,本申请实施例还提供了一种论文摘要蕴含细粒度知识元的抽取装置,所述装置包括:
第一获得单元,所述第一获得单元用于获取论文摘要,确定知识元类型;
第一建立单元,所述第一建立单元用于建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;
第一扩充单元,所述第一扩充单元用于根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;
第二获得单元,所述第二获得单元用于根据所述知识元词库,获得所述知识元词库中的词语;
第三获得单元,所述第三获得单元用于根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;
第一训练单元,所述第一训练单元用于输入所述标注语料库,训练LSTM-CRF模型;
第一预测单元,所述第一预测单元用于将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;
第一抽取单元,所述第一抽取单元用于抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。
优选的,所述第一建立单元包括:
第四获得单元,所述第四获得单元用于根据领域需求,获得细粒度知识元类型表;
第五获得单元,所述第五获得单元用于获得领域词表;
第六获得单元,所述第六获得单元用于获得elsevier关键词表;
第二建立单元,所述第二建立单元用于通过建立知识元类型与领域词和elsevier关键词的映射关系,建立知识元词库。
优选的,所述第一扩充单元包括:
第一查询单元,所述第一查询单元用于使用词典匹配技术从所述论文摘要中查询类型为K的知识元词库W中的词汇;
第一提取单元,所述第一提取单元用于从所述论文摘要中提取所述查询到词汇的词法表达式;
第一加入单元,所述第一加入单元用于从所述词法表达式中筛选出新增词法表达式,加入类型为K的模式库T;
第二查询单元,所述第二查询单元用于使用模式匹配技术从所述论文摘要中查询类型为K的模式库T中的模式;
第二提取单元,所述第二提取单元用于从所述论文摘要中提取所述查询到模式的词语,标记知识元类型为K;
第二加入单元,所述第二加入单元用于从所述知识元中筛选出候选知识元,加入类型为K的知识元词库W。
优选的,所述第一加入单元包括:
第一构建单元,所述第一构建单元用于从所述论文摘要中提取所述查询到词汇的词法表达式t’,构建类型为K的候选模式库T’;
第一计算单元,所述第一计算单元用于计算所述候选模式库T’中每个候选模式t’的得分;
第七获得单元,所述第七获得单元用于获得第一预定阈值;
第一判断单元,所述第一判断单元用于判断所述候选模式t’的得分是否大于所述第一预定阈值;
第三加入单元,所述第三加入单元用于如果所述候选模式t’的得分大于所述第一预定阈值,将所述候选模式t’加入类型为K的模式库T。
优选的,所述第一计算单元包括,所述候选模式库T’中每个候选模式t’的计算公式为:
其中,所述N(t’|K)表示使用候选模式t’挖掘的类型为K的知识元实例的总数;所述N(t’)表示使用候选模式t’挖掘的所有类型的知识元实例的总数;所述score(t’|K,T’)表示类型为K的候选模式库T’中模式t’的得分。
优选的,所述第二加入单元包括:
第三提取单元,所述第三提取单元用于从所述论文摘要中提取所述查询到模式的候选知识元w,标记知识元类型为K;
第二计算单元,所述第二计算单元用于计算所述候选知识元w的得分;
第八获得单元,所述第八获得单元用于获得第二预定阈值;
第二判断单元,所述第二判断单元用于判断所述候选知识元w的得分是否大于所述第二预定阈值;
第四加入单元,所述第四加入单元用于如果所述候选知识元w的得分大于所述第二预定阈值,将所述候选知识元w加入类型为K的知识元词库W。
优选的,所述第二计算单元包括,所述候选知识元w的计算公式为:
其中p(sub_w)为词语分片的概率;假设所述候选知识元w长度为L,将词语w按照步长n(1≤n≤L)切分,切分出来的词语sub_w组成集合SW。f(sub_w)表示切分出来的词语sub_w在语料中出现的次数。
优选的,所述第一训练单元包括:
第九获得单元,所述第九获得单元用于获得LSTM-CRF模型;
第一划分单元,所述第一划分单元用于将所述标注语料库以词语为单位分成训练集、发展集和测试集;
第二训练单元,所述第二训练单元用于初始化LSTM-CRF模型参数,通过多轮迭代学习训练所述LSTM-CRF模型。
第三方面,本申请实施例还提供了一种论文摘要蕴含细粒度知识元的抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取论文摘要,确定知识元类型;
建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;
根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;
根据所述知识元词库,获得所述知识元词库中的词语;
根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;
输入所述标注语料库,训练LSTM-CRF模型;
将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;
抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例通过提供一种论文摘要蕴含细粒度知识元的抽取方法及装置,所述方法包括:获取论文摘要,确定知识元类型;建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;根据所述知识元词库,获得所述知识元词库中的词语;根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;输入所述标注语料库,训练LSTM-CRF模型;将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。用以解决现有技术中在对文本进行知识元提取时,存在对领域专家知识依赖性强,或需为不同领域构建大规模标注语料库,人工成本高昂,且扩展性能低的技术问题。达到了扩展传统知识元提取的范畴,且在缺乏大规模标注语料的前提下,能够快速准确地抽取多种类型细粒度的知识元,大大降低人工成本的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本发明实施例中一种论文摘要蕴含细粒度知识元的抽取方法的流程示意图;
图2为本发明实施例中一种论文摘要蕴含细粒度知识元的抽取装置的结构示意图;
图3为本发明实施例中另一种论文摘要蕴含细粒度知识元的抽取装置的结构示意图;
图4为本发明实施例中LSTM-CRF模型的网络结构图;
图5为本发明实施例中知识元抽取后的效果图。
附图标记说明:第一获得单元11,第一建立单元12,第一扩充单元13,第二获得单元14,第三获得单元15,第一训练单元16,第一预测单元17,第一抽取单元18,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本申请实施例提供了一种论文摘要蕴含细粒度知识元的抽取方法及装置,用以解决现有技术中在对文本进行知识元提取时,存在对领域专家知识依赖性强,或需为不同领域构建大规模标注语料库,人工成本高昂,且扩展性能低的技术问题。
为了解决上述技术问题,本申请提供的技术方案总体思路如下:通过获取论文摘要,确定知识元类型;建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;根据所述知识元词库,获得所述知识元词库中的词语;根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;输入所述标注语料库,训练LSTM-CRF模型;将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。达到了扩展传统知识元提取的范畴,且在缺乏大规模标注语料的前提下,能够快速准确地抽取多种类型细粒度的知识元,大大降低人工成本的技术效果。
下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
实施例一
图1为本发明实施例中一种论文摘要蕴含细粒度知识元的抽取方法的流程示意图,如图1所示,所述方法包括:
步骤110:获取论文摘要,确定知识元类型;
步骤120:建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;
步骤130:根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;
步骤140:根据所述知识元词库,获得所述知识元词库中的词语;
步骤150:根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;
步骤160:输入所述标注语料库,训练LSTM-CRF模型;
步骤170:将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;
步骤180:抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。
具体而言,本发明实施例提出的一种论文摘要蕴含细粒度知识元的抽取方法旨在根据领域需求为非结构化文本添加多层次细粒度的语义标签,比如,将在一篇论文中的传统知识元类型从“人物”、“机构”、“主题词”、“术语”扩充到更细粒度的研究范畴、方法、数据、指标、指标值等,有助于丰富现有的知识组织模型和改善知识服务模式,以满足不同信息粒度上对象及对象间关系的认知需求。其中,所述方法通过建立知识元词库,其中,所述知识元词库为每一种知识元类型建立映射关系<知识元类型,词库>,即每一种知识元类型对应有一个词库,然后获得待抽取知识元的论文摘要,根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库,其中,Bootstrapping算法又叫自扩展技术,它是一种被广泛用于知识获取的机器学习技术,是一种循序渐进的学习方法,只需要很小数量的种子,以此为基础,通过反复训练,把种子进行有效的扩充,最终达到需要的数据信息规模,从而达到了扩展传统知识元提取的范畴,基于所述扩充后的知识元词库,使用词典匹配的方法在所述论文摘要中查找并获得每种知识元类型的词库中的词语,然后建立所述词语与语义标签的映射关系<词语,语义标签>,作为标注语料库,其中,所述词语特指所述论文摘要中出现的知识元词库中的词语,所述语义标签为所述知识元类型,接着输入所述标注语料库,训练LSTM-CRF模型,其中,所述LSTM-CRF模型为长短期记忆-条件随机场模型,最后将所述论文摘要转换为标注语料的形式,输入训练好的所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率,抽取概率最大的知识元类型作为所述论文摘要中的知识元。进一步达到了扩展传统知识元提取的范畴,且基于bootstrapping策略自动构建所述标注语料库,使得在缺乏大规模标注语料的前提下,也能够快速准确地抽取多种类型细粒度的知识元,进而增强了所述知识元提取方法的移植性,大大降低人工成本。
在步骤120中,所述建立知识元词库,具体包括:根据领域需求,由该领域专家定义细粒度知识元的类型,进而获得细粒度知识元类型表;从网络上搜集并获得领域词表;同时补充并获得elsevier关键词表;通过人工分类建立知识元类型与领域词和elsevier关键词的映射关系,进而建立知识元词库。
在步骤130中,所述根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库,具体包括:基于词典匹配的方法从所述论文摘要中查找并获得类型为K的知识元词库W中的词汇;从所述论文摘要中提取每个词汇的词法表达式,筛选出新增词法表达式,其中,所述知识元的词法表达式由所述知识元的前后词语组成。例如,句子“In this paper,we propose a new approach,Dict2vec,for describingwords-natural language dictionaries”中包含类型为“研究范畴”的知识元实例“describing words-natural language dictionaries”,可抽取“研究范畴”的模式“wepropose([^,;\?:]{1,})for()”;还包含了类型为“研究方法”的知识元实例“Dict2vec”,可抽取“研究方法”的模式“we propose a new approach()for”;将筛选出的所述新增词法表达式加入类型为K的模式库T;基于模式匹配技术,从所述论文摘要中查询类型为K的模式库T中的模式,同时从所述论文摘要中提取所述查询到模式的词语,标记知识元类型为K;从所述知识元中筛选出候选知识元,加入类型为K的知识元词库W;循环上述步骤,直到所述类型K的模式库T和所述类型为K的知识元词库的数量不再变化为止。基于句子词法特征来构建所述知识元表示模板,降低了对自然语言深度语义解析工具(句法解析、依存解析等)的依赖性,改善了方法的灵活性。
在步骤130中,从所述词法表达式中筛选出新增词法表达式,加入类型为K的模式库T,具体包括:从所述论文摘要中提取所述查询到词汇的词法表达式t’,构建类型为K的候选模式库T’;计算所述候选模式库T’中每个候选模式t’的得分;获得第一预定阈值;判断所述候选模式t’的得分是否大于所述第一预定阈值;如果所述候选模式t’的得分大于所述第一预定阈值,将所述候选模式t’加入类型为K的模式库T。其中,所述计算所述候选模式库T’中每个候选模式t’的得分的计算公式为:
其中,所述N(t’|K)表示使用候选模式t’挖掘的类型为K的知识元实例的总数;所述N(t’)表示使用候选模式t’挖掘的所有类型的知识元实例的总数;所述score(t’|K,T’)表示类型为K的候选模式库T’中模式t’的得分。进一步通过对每个候选模式T建立评分模型,达到了保证bootstrapping迭代收敛性,提高知识元提取精度的技术效果。
在步骤130中,从所述知识元中筛选出候选知识元,加入类型为K的知识元词库W,具体包括:从所述论文摘要中提取所述查询到模式的候选知识元w,标记知识元类型为K;计算所述候选知识元w的得分;获得第二预定阈值;判断所述候选知识元w的得分是否大于所述第二预定阈值;如果所述候选知识元w的得分大于所述第二预定阈值,将所述候选知识元w加入类型为K的知识元词库W。其中,计算所述候选知识元的得分的计算公式为:
其中p(sub_w)为词语分片的概率;假设候选知识元w长度为L,将词语w按照步长n(1≤n≤L)切分,切分出来的词语sub_w组成集合SW。f(sub_w)表示切分出来的词语sub_w在语料中出现的次数。进一步通过对所述候选知识元建立评分模型,达到了保证bootstrapping迭代收敛性,提高知识元提取精度的技术效果。
在步骤160中,所述输入所述标注语料库,训练LSTM-CRF模型,具体包括:设计LSTM-CRF模型的网络结构;将所述标注语料库以词语为单位按照6:2:2比例分成训练集、发展集和测试集;初始化所述LSTM-CRF模型的参数,经过多轮迭代学习不断优化所述LSTM-CRF模型的参数,直到目标函数找到最优解,然后将所述论文摘要转换为标注语料的形式<词语,语义标签>,其中,所述语义标签默认值为O;将转换后的所述论文摘要输入到已训练好的所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率,最后选择概率最大的知识元类型作为该词语的语义标签,进一步实现对论文摘要蕴含细粒度知识元的提取,所述知识元抽取后的效果图见图5。
在步骤160中,所述LSTM-CRF模型的网络结构如图4所示:网络结构的最后一层y基于CRF模型来预测每个词语标注为各类语义标签的概率。词语级向量x1直接由词语映射到分布式的向量空间得到(例如基于word2vec模型实现)。字符级向量m的计算方式为:首先将每个词语拆分成单个字符,再将每个字符映射成一个字符向量;然后输入到LSTM模型中,再级联前后两个方向的向量表达式得到h*;最后通过线性变换得到一个词语的多个字符的向量表达式m。词语级向量x1和字符级向量m级联得到x’1,输入到知识元抽取模型。融入字符级向量后,LSTM模型能有效利用词语的前后缀信息,以计算未知词语的向量。同时,在LSTM模型的顶端还增加了一个隐含层d,允许所述LSTM-CRF模型检测更高级的特征组合,以关注更加泛化的模式。
实施例二
基于与前述实施例中一种论文摘要蕴含细粒度知识元的抽取方法同样的发明构思,本发明还提供一种论文摘要蕴含细粒度知识元的抽取装置,如图2所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于获取论文摘要,确定知识元类型;
第一建立单元12,所述第一建立单元12用于建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;
第一扩充单元13,所述第一扩充单元13用于根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;
第二获得单元14,所述第二获得单元14用于根据所述知识元词库,获得所述知识元词库中的词语;
第三获得单元15,所述第三获得单元15用于根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;
第一训练单元16,所述第一训练单元16用于输入所述标注语料库,训练LSTM-CRF模型;
第一预测单元17,所述第一预测单元17用于将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;
第一抽取单元18,所述第一抽取单元18用于抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。
优选的,所述第一建立单元12包括:
第四获得单元,所述第四获得单元用于根据领域需求,获得细粒度知识元类型表;
第五获得单元,所述第五获得单元用于获得领域词表;
第六获得单元,所述第六获得单元用于获得elsevier关键词表;
第二建立单元,所述第二建立单元用于通过建立知识元类型与领域词和elsevier关键词的映射关系,建立知识元词库。
优选的,所述第一扩充单元13包括:
第一查询单元,所述第一查询单元用于使用词典匹配技术从所述论文摘要中查询类型为K的知识元词库W中的词汇;
第一提取单元,所述第一提取单元用于从所述论文摘要中提取所述查询到词汇的词法表达式;
第一加入单元,所述第一加入单元用于从所述词法表达式中筛选出新增词法表达式,加入类型为K的模式库T;
第二查询单元,所述第二查询单元用于使用模式匹配技术从所述论文摘要中查询类型为K的模式库T中的模式;
第二提取单元,所述第二提取单元用于从所述论文摘要中提取所述查询到模式的词语,标记知识元类型为K;
第二加入单元,所述第二加入单元用于从所述知识元中筛选出候选知识元,加入类型为K的知识元词库W。
优选的,所述第一加入单元包括:
第一构建单元,所述第一构建单元用于从所述论文摘要中提取所述查询到词汇的词法表达式t’,构建类型为K的候选模式库T’;
第一计算单元,所述第一计算单元用于计算所述候选模式库T’中每个候选模式t’的得分;
第七获得单元,所述第七获得单元用于获得第一预定阈值;
第一判断单元,所述第一判断单元用于判断所述候选模式t’的得分是否大于所述第一预定阈值;
第三加入单元,所述第三加入单元用于如果所述候选模式t’的得分大于所述第一预定阈值,将所述候选模式t’加入类型为K的模式库T。
优选的,所述第一计算单元包括,所述候选模式库T’中每个候选模式t’的计算公式为:
其中,所述N(t’|K)表示使用候选模式t’挖掘的类型为K的知识元实例的总数;所述N(t’)表示使用候选模式t’挖掘的所有类型的知识元实例的总数;所述score(t’|K,T’)表示类型为K的候选模式库T’中模式t’的得分。
优选的,所述第二加入单元包括:
第三提取单元,所述第三提取单元用于从所述论文摘要中提取所述查询到模式的候选知识元w,标记知识元类型为K;
第二计算单元,所述第二计算单元用于计算所述候选知识元w的得分;
第八获得单元,所述第八获得单元用于获得第二预定阈值;
第二判断单元,所述第二判断单元用于判断所述候选知识元w的得分是否大于所述第二预定阈值;
第四加入单元,所述第四加入单元用于如果所述候选知识元w的得分大于所述第二预定阈值,将所述候选知识元w加入类型为K的知识元词库W。
优选的,所述第二计算单元包括,所述候选知识元w的计算公式为:
其中p(sub_w)为词语分片的概率;假设所述候选知识元w长度为L,将词语w按照步长n(1≤n≤L)切分,切分出来的词语sub_w组成集合SW。f(sub_w)表示切分出来的词语sub_w在语料中出现的次数。
优选的,所述第一训练单元16包括:
第九获得单元,所述第九获得单元用于获得LSTM-CRF模型;
第一划分单元,所述第一划分单元用于将所述标注语料库以词语为单位分成训练集、发展集和测试集;
第二训练单元,所述第二训练单元用于初始化LSTM-CRF模型参数,通过多轮迭代学习训练所述LSTM-CRF模型。
前述图1实施例一中的一种论文摘要蕴含细粒度知识元的抽取方法的各种变化方式和具体实例同样适用于本实施例的一种论文摘要蕴含细粒度知识元的抽取装置,通过前述对一种论文摘要蕴含细粒度知识元的抽取方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种论文摘要蕴含细粒度知识元的抽取装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种论文摘要蕴含细粒度知识元的抽取方法同样的发明构思,本发明还提供一种论文摘要蕴含细粒度知识元的抽取装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种论文摘要蕴含细粒度知识元的抽取方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例通过提供一种论文摘要蕴含细粒度知识元的抽取方法及装置,所述方法包括:获取论文摘要,确定知识元类型;建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;根据所述知识元词库,获得所述知识元词库中的词语;根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;输入所述标注语料库,训练LSTM-CRF模型;将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。用以解决现有技术中在对文本进行知识元提取时,存在对领域专家知识依赖性强,或需为不同领域构建大规模标注语料库,人工成本高昂,且扩展性能低的技术问题。达到了扩展传统知识元提取的范畴,且在缺乏大规模标注语料的前提下,能够快速准确地抽取多种类型细粒度的知识元,大大降低人工成本的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种论文摘要蕴含细粒度知识元的抽取方法,其特征在于,所述方法包括:
获取论文摘要,确定知识元类型;
建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;
根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;
根据所述知识元词库,获得所述知识元词库中的词语;
根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;
输入所述标注语料库,训练LSTM-CRF模型;
将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;
抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。
2.如权利要求1所述的方法,其特征在于,所述建立知识元词库,包括:
根据领域需求,获得细粒度知识元类型表;
获得领域词表;
获得elsevier关键词表;
通过建立知识元类型与领域词和elsevier关键词的映射关系,建立知识元词库。
3.如权利要求1所述的方法,其特征在于,所述根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库,包括:
使用词典匹配技术从所述论文摘要中查询类型为K的知识元词库W中的词汇;
从所述论文摘要中提取所述查询到词汇的词法表达式;
从所述词法表达式中筛选出新增词法表达式,加入类型为K的模式库T;
使用模式匹配技术从所述论文摘要中查询类型为K的模式库T中的模式;
从所述论文摘要中提取所述查询到模式的词语,标记知识元类型为K;
从所述知识元中筛选出候选知识元,加入类型为K的知识元词库W。
4.如权利要求3所述的方法,其特征在于,所述从所述词法表达式中筛选出新增词法表达式,加入类型为K的模式库T,包括:
从所述论文摘要中提取所述查询到词汇的词法表达式t’,构建类型为K的候选模式库T’;
计算所述候选模式库T’中每个候选模式t’的得分;
获得第一预定阈值;
判断所述候选模式t’的得分是否大于所述第一预定阈值;
如果所述候选模式t’的得分大于所述第一预定阈值,将所述候选模式t’加入类型为K的模式库T。
5.如权利要求4所述的方法,其特征在于,计算所述候选模式库T’中每个候选模式t’的得分,计算公式为:
其中,所述N(t’|K)表示使用候选模式t’挖掘的类型为K的知识元实例的总数;
所述N(t’)表示使用候选模式t’挖掘的所有类型的知识元实例的总数;
所述score(t’|K,T’)表示类型为K的候选模式库T’中模式t’的得分。
6.如权利要求3所述的方法,其特征在于,所述从所述知识元中筛选出候选知识元,加入类型为K的知识元词库W,包括:
从所述论文摘要中提取所述查询到模式的候选知识元w,标记知识元类型为K;
计算所述候选知识元w的得分;
获得第二预定阈值;
判断所述候选知识元w的得分是否大于所述第二预定阈值;
如果所述候选知识元w的得分大于所述第二预定阈值,将所述候选知识元w加入类型为K的知识元词库W。
7.如权利要求6所述的方法,其特征在于,计算所述候选知识元w的得分,计算公式为:
其中p(sub_w)为词语分片的概率;
假设所述候选知识元w长度为L,将词语w按照步长n(1≤n≤L)切分,切分出来的词语sub_w组成集合SW。f(sub_w)表示切分出来的词语sub_w在语料中出现的次数。
8.如权利要求1所述的方法,其特征在于,所述输入所述标注语料库,训练LSTM-CRF模型,包括:
获得LSTM-CRF模型;
将所述标注语料库以词语为单位分成训练集、发展集和测试集;
初始化LSTM-CRF模型参数,通过多轮迭代学习训练所述LSTM-CRF模型。
9.一种论文摘要蕴含细粒度知识元的抽取装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于获取论文摘要,确定知识元类型;
第一建立单元,所述第一建立单元用于建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;
第一扩充单元,所述第一扩充单元用于根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;
第二获得单元,所述第二获得单元用于根据所述知识元词库,获得所述知识元词库中的词语;
第三获得单元,所述第三获得单元用于根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;
第一训练单元,所述第一训练单元用于输入所述标注语料库,训练LSTM-CRF模型;
第一预测单元,所述第一预测单元用于将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;
第一抽取单元,所述第一抽取单元用于抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。
10.一种论文摘要蕴含细粒度知识元的抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获取论文摘要,确定知识元类型;
建立知识元词库,其中,所述知识元词库中包括知识元类型和词库的映射关系;
根据所述论文摘要和所述知识元词库,使用bootstrapping技术自动扩充每种知识元类型的词库;
根据所述知识元词库,获得所述知识元词库中的词语;
根据所述论文摘要,使用词典匹配技术在论文摘要中查询知识元词库中的词语,建立所述词语与知识元类型的映射关系,获得标注语料库;
输入所述标注语料库,训练LSTM-CRF模型;
将所述论文摘要转换为标注语料的形式,输入所述LSTM-CRF模型中,预测每个词语被分配到每种知识元类型的概率;
抽取概率最大的知识元类型作为对应词语的语义标签,将具有语义标签的词语作为所述论文摘要中的知识元。
CN201811520561.9A 2018-12-12 2018-12-12 一种论文摘要蕴含细粒度知识元的抽取方法及装置 Active CN109657052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811520561.9A CN109657052B (zh) 2018-12-12 2018-12-12 一种论文摘要蕴含细粒度知识元的抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811520561.9A CN109657052B (zh) 2018-12-12 2018-12-12 一种论文摘要蕴含细粒度知识元的抽取方法及装置

Publications (2)

Publication Number Publication Date
CN109657052A true CN109657052A (zh) 2019-04-19
CN109657052B CN109657052B (zh) 2023-01-03

Family

ID=66114409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811520561.9A Active CN109657052B (zh) 2018-12-12 2018-12-12 一种论文摘要蕴含细粒度知识元的抽取方法及装置

Country Status (1)

Country Link
CN (1) CN109657052B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090986A (zh) * 2019-11-29 2020-05-01 福建亿榕信息技术有限公司 一种公文文档纠错的方法
CN111125315A (zh) * 2019-12-25 2020-05-08 北京中技华软科技服务有限公司 一种技术趋势预测方法和系统
CN112597295A (zh) * 2020-12-03 2021-04-02 京东数字科技控股股份有限公司 摘要提取方法、装置、计算机设备和存储介质
CN112836498A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 数据处理方法、识别方法、装置及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207945A (zh) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 基于知识网络的文本标引系统及其方法
CN102436480A (zh) * 2011-10-15 2012-05-02 西安交通大学 一种面向文本的知识单元关联关系挖掘方法
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN108052277A (zh) * 2017-12-14 2018-05-18 深圳市艾德互联网络有限公司 一种ar定位学习方法和装置
CN108170953A (zh) * 2017-12-27 2018-06-15 中国科学院微电子研究所 一种电路图迁移方法和装置
CN108172051A (zh) * 2018-01-24 2018-06-15 山东科技大学 一种体育课教学方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207945A (zh) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 基于知识网络的文本标引系统及其方法
CN102436480A (zh) * 2011-10-15 2012-05-02 西安交通大学 一种面向文本的知识单元关联关系挖掘方法
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN108052277A (zh) * 2017-12-14 2018-05-18 深圳市艾德互联网络有限公司 一种ar定位学习方法和装置
CN108170953A (zh) * 2017-12-27 2018-06-15 中国科学院微电子研究所 一种电路图迁移方法和装置
CN108172051A (zh) * 2018-01-24 2018-06-15 山东科技大学 一种体育课教学方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙建军等: ""面向学科领域的学术文献语义标注框架研究"", 《情报学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836498A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 数据处理方法、识别方法、装置及计算设备
CN111090986A (zh) * 2019-11-29 2020-05-01 福建亿榕信息技术有限公司 一种公文文档纠错的方法
CN111125315A (zh) * 2019-12-25 2020-05-08 北京中技华软科技服务有限公司 一种技术趋势预测方法和系统
CN111125315B (zh) * 2019-12-25 2023-04-07 北京本应科技有限公司 一种技术趋势预测方法和系统
CN112597295A (zh) * 2020-12-03 2021-04-02 京东数字科技控股股份有限公司 摘要提取方法、装置、计算机设备和存储介质
CN112597295B (zh) * 2020-12-03 2024-02-02 京东科技控股股份有限公司 摘要提取方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109657052B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN110717339B (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
CN107679039B (zh) 用于确定语句意图的方法和装置
US20190155898A1 (en) Method and device for extracting entity relation based on deep learning, and server
CN104050256B (zh) 基于主动学习的问答方法及采用该方法的问答系统
KR20210116379A (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
CN103207856B (zh) 一种本体概念及层次关系生成方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN109657052A (zh) 一种论文摘要蕴含细粒度知识元的抽取方法及装置
US11775594B2 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN113065003B (zh) 一种基于多指标的知识图谱生成方法
CN103324700B (zh) 一种基于Web信息的本体概念属性学习方法
CN115292457B (zh) 知识问答方法、装置、计算机可读介质及电子设备
CN104933039A (zh) 面向资源缺乏语言的实体链接系统
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN110427478A (zh) 一种基于知识图谱的问答搜索方法及系统
CN114936287A (zh) 预训练语言模型的知识注入方法和相应的交互系统
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN110188359B (zh) 一种文本实体抽取方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN107943940A (zh) 数据处理方法、介质、系统和电子设备
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114997288A (zh) 一种设计资源关联方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant