CN113032541B - 一种基于bert并融合句群检索的答案抽取方法 - Google Patents

一种基于bert并融合句群检索的答案抽取方法 Download PDF

Info

Publication number
CN113032541B
CN113032541B CN202110361140.1A CN202110361140A CN113032541B CN 113032541 B CN113032541 B CN 113032541B CN 202110361140 A CN202110361140 A CN 202110361140A CN 113032541 B CN113032541 B CN 113032541B
Authority
CN
China
Prior art keywords
answer
bert
question
fragments
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110361140.1A
Other languages
English (en)
Other versions
CN113032541A (zh
Inventor
程燕
朱江
张振海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academic Journals Electronic Publishing House Co ltd
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
China Academic Journals Electronic Publishing House Co ltd
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academic Journals Electronic Publishing House Co ltd, Tongfang Knowledge Network Digital Publishing Technology Co ltd filed Critical China Academic Journals Electronic Publishing House Co ltd
Priority to CN202110361140.1A priority Critical patent/CN113032541B/zh
Publication of CN113032541A publication Critical patent/CN113032541A/zh
Application granted granted Critical
Publication of CN113032541B publication Critical patent/CN113032541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于bert并融合句群检索的答案抽取方法,包括:构建基于bert的答案抽取模型;基于生成的答案抽取模型,联合句群相似检索技术进行问题答案的抽取;具体包括:从文档中利用片段相似检索技术将与待回答问题有浅层语义相关的句群片段找见,并进行相关度评分;根据评分高低排序,获取满足特定阈值评分的句群片段作为候选句群片段;将候选句群片段以及待回答问题输入基于bert的答案抽取模型,进行答案跨度预测;答案起始和结束位置,依据原文句群片段内容,计算具体的答案结果。

Description

一种基于bert并融合句群检索的答案抽取方法
技术领域
本发明涉及人工智能、自然语言处理技术领域,尤其涉及一种基于bert并融合句群相似检索的答案抽取方法。
背景技术
答案抽取是问答系统核心技术之一,也是一种抽取式阅读理解,其是自然语言处理、人工智能领域核心任务之一,近些年受到了广泛的关注和研究。抽取式阅读理解技术,即机器从大量文本中快速找到问题的准确答案,提升信息获取、知识获取的效率。
早期的问答系统答案抽取依赖手工规则或特性,特征通常非常稀疏,泛化能力弱,很难推广到更广的领域。近年来,随着深度学习技术的使用,抽取式阅读理解能力有了大幅提高,能够更好的实现语义表达。基于深度学习的答案抽取相比传统方法有了一定的进展,在简单事实类型问题的答案抽取上取得了较好的效果,但在非简单事实类型问题方面仍表现不佳,研究进展较慢,存在很大的提升空间,当前更多是学术界的研究。目前答案抽取仍面临以下问题:
(1)答案抽取准确性不高,实际应用效果差,适应性弱;
(2)缺乏大规模规范语料,语料标注成本高,尤其中文大规模训练数据缺失,领域迁移困难;
综上,抽取式阅读理解技术,面向问题的答案抽取,在实际应用中仍存在很多问题亟待解决,答案抽取效果不佳,领域迁移难。
发明内容
为解决上述技术问题,解决从结构化文本中提取定义、方法、原因、人物、时间、地点等类型问题的答案,并将其应用到具体的知识问答中,本发明的目的是提供一种基于bert并融合句群相似检索的答案抽取方法,由此解决答案抽取效果不佳问题,提升答案抽取准确性。
本发明的目的通过以下的技术方案来实现:
一种基于bert并融合句群相似检索的答案抽取方法,包括:
A构建基于bert的答案抽取模型;
B基于生成的答案抽取模型,联合句群相似检索技术进行问题答案的抽取;具体包括:
从文档中利用片段相似检索技术将与待回答问题有浅层语义相关的句群片段找见,并进行相关度评分;
根据评分高低排序,获取满足特定阈值评分的句群片段作为候选句群片段;
将候选句群片段以及待回答问题输入基于bert的答案抽取模型,进行答案跨度预测;
答案起始和结束位置,依据原文句群片段内容,计算具体的答案结果。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
通过将整篇文档碎片化为句群片段,再通过浅层语义匹配打分排序,获取与问题最相关的候选句群片段,基于这样的数据处理,再利用基于bert微调(Pre-trained Model+Fine Tuning模式)的答案抽取模型进行答案推理预测,这种两者融合的方式,能够有效排除不包含答案的片段,减少无答案片段时的噪音,可有效提升答案抽取效果。通过实际评测,在中文答案抽取任务上表现较好,优于单一模型解决方案,领域迁移,适合长文档、短文档的问题答案抽取。
训练数据的短缺是最大的挑战之一,预训练使用更小的数据集对预训练模型进行微调,与使用大量数据集进行的传统训练方法相比,已有很大的改进。
附图说明
图1是本发明实施例提供的构建基于bert的答案抽取模型的流程图;
图2是本发明实施例提供的基于bert并融合句群相似检索的答案抽取方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
答案抽取任务:
答案抽取任务指的是给定一个问题Q和一个或多个文本片段P(P1,P2,P3,...Pn),找出问题答案A。机器阅读理解是给定一段文本Paragraph和问题Question,得到答案Answer。通常假定Answer就包含在原文中,因此机器阅读理解任务的目标就是得到一个span(start,end),start表示Answer的开始字符在Paragraph中的位置,end表示Answer的结束字符在Paragraph中的位置。根据问题和对应的短文进行自然语言理解,依据文本预测问题答案。抽取式阅读理解任务的答案为出现在原文中的连续文字,答案必须是文本中的一个范围。机器阅读理解有几种模式,本发明讲的是抽取式阅读理解。不同类型的问题,答案类型也不同,一般情况下,有三种问题:简单的问题,可以用简单的事实回答,答案通常是实体,答案简短;稍微复杂的叙述问题,答案略长;复杂的问题,通常是关于观点或意见。
预训练模型应用在阅读理解任务上首先要解决长度限制。由于机器阅读理解任务很多篇章都会超过预训练模型的长度限制,如BERT模型单条最大处理文本长度为512字符,因此需要截断。当输入序列长度大于预训练模型单次能处理的最大文本长度时,设定一个滑动窗口,将输入序列分段,在第二段中保留滑动窗口大小的文本长度同时与上一段中保留一定的重叠,使各个窗口的信息不至于完全分开,在最终答案选择的时候,选择包含答案概率最大的片段中输出答案。
预训练模型应用于阅读理解任务的第二部就是任务微调。根据数据集的特点微调网络结构和网络参数,加快有监督任务上的训练速度,提高准确率。
答案抽取方法包括:
1)构建基于bert的答案抽取模型;具体包括如下:
步骤1:数据预处理,首先对问题和文本片段进行tokenization的处理,即将句子转为字符级的序列;之后将问题序列和文本序列相连接并以“[SEP]”分隔,并在序列的开头增加“[CLS]”,形成[CLS]问题[SEP]文本[SEP],并在连接的序列后做padding处理。经过预处理后,输入问题+文本片段序列的长度大于BERT规定的最大序列长度时,将文本片段以一定的步长分割为若干段分别与问题连接,文本分割段与文本分割段之间有一定长度的重叠部分,为了保证分割后的文本尽可能不削减完整文本的语义。
步骤2:问题和文本同时进行编码。
问题编码,将问题中的每个单词qi的embedding应用一个编码网络,获得
Figure BDA0003005589100000041
通过attention层聚合这些隐变量到一个向量中。文本编码类似,把文本每个单词的embedding通过一个编码网络,获得
Figure BDA0003005589100000042
步骤3:问题编码与文本编码交互混合预测答案,进行训练调优。
有了片段P的表示
Figure BDA0003005589100000043
和问题q的表示
Figure BDA0003005589100000044
应用attention机制的想法,可以分别训练两个分类器,一个用来预测范围的开始位置,另一个用来预测结束位置;按公式:
Figure BDA0003005589100000045
计算预测答案,式中P(start)表示开始位置概率,表示结束位置概率;模型训练中需要按公式:
L=-∑log P(start)(astart)-∑log P(end)(aend)
计算最小化交叉熵损失,式中astart表示训练数据标注的答案开始位置概率,aend表示训练数据标注的答案结束位置概率。
2)基于生成的答案抽取模型,联合句群相似检索技术进行问题答案的抽取,包括以下步骤:
步骤1:从文档中利用片段相似检索技术将与待回答问题有浅层语义相关的句群片段找见,并进行相关度评分,这里融合了信息检索技术和浅层语义分析技术;
步骤2:根据评分高低排序,获取满足特定阈值评分的句群片段作为候选句群片段,作为数据预处理,能够进一步提升答案准确率,避免基于bert的答案抽取模型的不足;
步骤3:将候选句群片段以及待回答问题输入基于bert的答案抽取模型,进行答案跨度预测:
同训练数据一样,待预测的问题+文本输入到模型后得到的输出为每个token为答案开头或者答案结尾的logits值,对数据进行后处理便可得到预测的答案,其本质为确定答案片段在文本中开头和结尾的位置。后处理过程其主要逻辑是选择位置合理(startposition和end position要在文本所在范围,且前者位置要在后者之前等),以及开头和结尾的logits之和尽可能大的结果。此外模型支持“no answer”的预测,即判断证据中不存在问题答案。如果最优预测结果的start和end都指向序列的开头,即“【CLS】“,则可判断为”noanswer“。但为了调节模型预测”no answer“的能力,我们提供一个超参数"null_score_diff_threshold",只有“no answer”对应的score(logits之和)与最优的非“no answer”对应score的差值大于该threshold,模型才判断为“no answer”。该值可以由用户自行调节,在预测阶段进行设置。
步骤4:计算答案内容,根据上述步骤获取的最优答案起始和结束位置,依据原文句群片段内容,计算具体的答案结果。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (1)

1.一种基于bert并融合句群检索的答案抽取方法,其特征在于,所述方法包括:
A构建基于bert的答案抽取模型;
B基于生成的答案抽取模型,联合句群相似检索技术进行问题答案的抽取;具体包括:
从文档中利用片段相似检索技术将与待回答问题有浅层语义相关的句群片段找见,并进行相关度评分;
根据评分高低排序,获取满足特定阈值评分的句群片段作为候选句群片段;
将候选句群片段以及待回答问题输入基于bert的答案抽取模型,进行答案跨度预测;
答案起始和结束位置,依据原文句群片段内容,计算具体的答案结果;
所述A基于bert的答案抽取模型的构建具体包括:
数据预处理,对问题和文本片段处理,将句子转为字符级序列;将问题序列和文本序列相连接并分隔,对连接的序列做预处理,输入问题和文本短序列的长度大于规定的最大序列长度时,将文本片段以一定的步长分割为若干段并分别与问题连接;
将问题和文本同时进行编码;
问题编码将问题中的每个单词qi的embedding应用一个编码网络,获得
Figure FDA0003941037280000011
通过attention层聚合这些隐变量到一个向量中;及获得
Figure FDA0003941037280000012
将问题编码与文本编码交互混合预测答案,进行训练调优;
有了片段P的表示
Figure FDA0003941037280000013
和问题q的表示
Figure FDA0003941037280000014
应用attention机制的想法,分别训练两个分类器,一个用来预测范围的开始位置,另一个用来预测结束位置;按公式:
Figure FDA0003941037280000015
计算预测答案,式中P(start)表示开始位置概率,表示结束位置概率;模型训练中需要按公式:
L=-∑logP(start)(astart)-∑logP(end)(aend)
计算最小化交叉熵损失,式中astart表示训练数据标注的答案开始位置概率,aend表示训练数据标注的答案结束位置概率。
CN202110361140.1A 2021-04-02 2021-04-02 一种基于bert并融合句群检索的答案抽取方法 Active CN113032541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110361140.1A CN113032541B (zh) 2021-04-02 2021-04-02 一种基于bert并融合句群检索的答案抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110361140.1A CN113032541B (zh) 2021-04-02 2021-04-02 一种基于bert并融合句群检索的答案抽取方法

Publications (2)

Publication Number Publication Date
CN113032541A CN113032541A (zh) 2021-06-25
CN113032541B true CN113032541B (zh) 2023-05-12

Family

ID=76453633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110361140.1A Active CN113032541B (zh) 2021-04-02 2021-04-02 一种基于bert并融合句群检索的答案抽取方法

Country Status (1)

Country Link
CN (1) CN113032541B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505213B (zh) * 2021-09-09 2021-12-24 无码科技(杭州)有限公司 关键句提取方法、系统、计算机可读存储介质
CN116610775A (zh) * 2023-07-20 2023-08-18 科大讯飞股份有限公司 人机交互方法、装置、设备及存储介质
CN117573839B (zh) * 2024-01-12 2024-04-19 阿里云计算有限公司 文档检索方法、人机交互方法、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140142920A1 (en) * 2008-08-13 2014-05-22 International Business Machines Corporation Method and apparatus for Utilizing Structural Information in Semi-Structured Documents to Generate Candidates for Question Answering Systems
CN111611361B (zh) * 2020-04-01 2022-06-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN111597314B (zh) * 2020-04-20 2023-01-17 科大讯飞股份有限公司 推理问答方法、装置以及设备

Also Published As

Publication number Publication date
CN113032541A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN113032541B (zh) 一种基于bert并融合句群检索的答案抽取方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN110119444B (zh) 一种抽取式与生成式相结合的公文摘要生成模型
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN114840677B (zh) 面向多粒度需求的短文本分类与智能分析方法
CN116166782A (zh) 一种基于深度学习的智能问答方法
CN109271524A (zh) 知识库问答系统中的实体链接方法
CN116501861B (zh) 基于层级bert模型与标签迁移的长文本摘要生成方法
CN114970523B (zh) 一种基于文本语义增强的主题提示式关键词提取方法
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN112287678A (zh) 一种基于预训练模型的古体诗自动生成方法
CN112541347A (zh) 一种基于预训练模型的机器阅读理解方法
CN113553848A (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN107679124B (zh) 一种基于动态规划算法的知识图谱中文问答检索方法
CN113158674A (zh) 一种人工智能领域文档关键信息抽取方法
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN113157885A (zh) 一种面向人工智能领域知识的高效智能问答系统
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
CN112084312A (zh) 一种基于知识图构建的智能客服系统
CN114580556A (zh) 专利文献的预评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220406

Address after: 100192 building A2, Northern Territory, Dongsheng Science Park, No. 66, xixiaokou Road, Haidian District, Beijing

Applicant after: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co.,Ltd.

Applicant after: CHINA ACADEMIC JOURNALS ELECTRONIC PUBLISHING HOUSE CO.,LTD.

Applicant after: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414

Applicant before: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co.,Ltd.

Applicant before: CHINA ACADEMIC JOURNALS ELECTRONIC PUBLISHING HOUSE CO.,LTD.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230417

Address after: Room B201-B203, B205-B210, 2nd Floor, Building B-2, Zhongguancun Dongsheng Science and Technology Park, No. 66 Xixiaokou Road, Haidian District, Beijing, 100192 (Dongsheng District)

Applicant after: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

Applicant after: CHINA ACADEMIC JOURNALS ELECTRONIC PUBLISHING HOUSE CO.,LTD.

Address before: 100192 building A2, Northern Territory, Dongsheng Science Park, No. 66, xixiaokou Road, Haidian District, Beijing

Applicant before: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co.,Ltd.

Applicant before: CHINA ACADEMIC JOURNALS ELECTRONIC PUBLISHING HOUSE CO.,LTD.

Applicant before: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant