CN110955768B - 一种基于句法分析的问答系统答案生成方法 - Google Patents

一种基于句法分析的问答系统答案生成方法 Download PDF

Info

Publication number
CN110955768B
CN110955768B CN201911239244.4A CN201911239244A CN110955768B CN 110955768 B CN110955768 B CN 110955768B CN 201911239244 A CN201911239244 A CN 201911239244A CN 110955768 B CN110955768 B CN 110955768B
Authority
CN
China
Prior art keywords
answer
question
probability
text
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911239244.4A
Other languages
English (en)
Other versions
CN110955768A (zh
Inventor
张怡卿
赵海
赵帅淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201911239244.4A priority Critical patent/CN110955768B/zh
Publication of CN110955768A publication Critical patent/CN110955768A/zh
Application granted granted Critical
Publication of CN110955768B publication Critical patent/CN110955768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于句法分析的问答系统答案生成方法,其步骤包括:(S1)获得问题信息以及多篇文本信息对应的数学表达;(S2)计算各篇所述本文信息包含所述问题信息对应的答案的概率,并根据包含所述答案的概率选取若干篇所述文本信息作为新篇章;(S3)利用神经网络计算各所述新篇章中每个单词成为所述答案的概率,并计算各所述新篇章中各句子的句法树;(S4)结合上述每个词成为所述答案的概率和所述每个句子的句法树选取多个片段,并根据选取的多个所述片段组成所述问题信息的答案。这种答案生成方式得到的答案由若干短语构成,其内容精炼,符合语言规律,具有更好的可读性。

Description

一种基于句法分析的问答系统答案生成方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于句法分析的问答系统答案生成方法。
背景技术
智能问答系统是自然语言处理(nlp)的一种典型应用,其中当用户提出问题后,智能问答系统给出该问题的答案。现有技术中,开发人员可以根据不同的问答需求设计不同的问答模型,以最终得到对应的智能问答系统。
现有技术中,问答系统通常采用机器学习的技术进行构建,然而和机器视觉、语音识别等领域相比,自然语言处理仍处于较为初级的阶段。现有的智能问答系统通过以下两种方式生成回答:
A.抽取式:从文章中抽取一个片段作为回答。这种方法的缺点在于,若实际答案在文中不连续,抽取的片段通常包含过多信息或过少信息,使得问答系统无法生成有效的回答;
B.逐字的生成,最后构成答案。这种序列的生成方式通常仅适用于较短的句子,若答案的长度较长,逐字生成的效果非常差,通常语法不通顺或语义不合理,基本上不具备可读性。
发明内容
本发明的目的是根据上述现有技术的不足之处,提供一种基于句法分析的问答系统答案生成方法,该方法在面对实际答案在文中不连续的情况下,利用句法树信息,抽取多个片段,生成更加合理、语法通顺的答案。
为了实现上述目的,本发明提供了一种基于句法分析的问答系统答案生成方法,其包括以下步骤:
(S1)获得问题信息以及多篇文本信息对应的数学表达;
(S2)计算各篇所述本文信息包含所述问题信息对应的答案的概率,并根据包含所述答案的概率选取若干篇所述文本信息作为新篇章;
(S3)利用神经网络计算各所述新篇章中每个单词成为所述答案的概率,并计算各所述新篇章中各句子的句法树;
(S4)结合上述每个词成为所述答案的概率和所述每个句子的句法树选取多个片段,并根据选取的多个所述片段组成所述问题信息的答案。
本发明的进一步改进在于,上述步骤(S1)包括:
(S11)接收问题信息和多篇文本信息;
(S22)利用预训练语言模型分别对问题信息和多篇文本信息分别编码得到它们的数学表达。
本发明的进一步改进在于,在上述步骤(S2)中,根据所述文本信息以及所述问题信息的数学表达的相似度计算所述文本信息包含答案的概率。
本发明的进一步改进在于,在上述步骤(S2)中,选取新篇章时,将各所述文本信息按照包含所述答案的概率进行排序,并选取概率最大的若干个文本信息作为新篇章。
本发明的进一步改进在于,上述步骤(S4)中,选取多个片段包括以下步骤:
(S401)根据句法树将各句子划分为短语,并根据长度上限a和长度下限b对短语进行筛选;
(S402)对各短语中每个单词成为所述答案的概率求算数平均值,作为各短语成为答案的概率;
(S403)选取短语的过程中,将成为答案的概率大于设定阈值的短语进行标记。
本发明的进一步改进在于,在上述步骤(S4)中,根据上述的多个片段组成所述问题信息的答案包括以下步骤:
(S411)将各所述新篇章按照包含所述答案的概率从高到低排列,并组成单个最终文本;
(S412)根据步骤(S403)中标记,将最终文本中没有标记的短语和单词删除,并将标记的短语依次串接,得到答案。
本发明的进一步改进在于,在上述步骤(S2)中,若所述问题信息为是否类问题,对每个所述新篇章添加肯定标记以及否定标记;在计算每个单词成为所述答案的概率的过程中,同时计算肯定标记以及否定标记的分数;在组成所述问题信息的答案的过程中,若肯定标记的分数最高,则在答案中添加肯定表述,若否定标记的分数最高,则在答案中添加否定表述。
本发明的优点是:这种答案生成方式得到的答案由若干短语构成,其内容精炼,符合语言规律,具有更好的可读性。与抽取方式以及逐字生成的答案相比,本方法生成的答案更加精炼,保留了原文的语法结构,与真实答案进行对比可以得到更高的匹配分数。
附图说明
图1为基于句法分析的问答系统答案生成方法的流程图。
具体实施方式
以下结合附图通过实施例对本发明的特征及其它相关特征作进一步详细说明,以便于同行业技术人员的理解:
实施例:如图1所示,本发明的实施例包括一种基于句法分析的问答系统答案生成方法,该方法包括以下步骤:
(S1)获得问题信息以及多篇文本信息对应的数学表达;本方法最终根据问题信息以及获得的多篇文本信息生成最终的数学表达式;
(S2)计算各篇本文信息包含问题信息对应的答案的概率,并根据包含答案的概率选取若干篇文本信息作为新篇章;
(S3)利用训练好的神经网络(该网络利用LSTM进行编码,再由多层感知机将编码后的表达映射到一个和文本等长的向量,向量的每一位代表文本中对应词成为答案的概率)计算各新篇章中每个单词成为答案的概率,并计算各新篇章中各句子的句法树;
(S4)结合上述每个词成为答案的概率和每个句子的句法树选取多个片段,并根据选取的多个片段组成问题信息的答案。
在具体实施过程中:上述步骤(S1)包括:
(S11)接收问题信息和多篇文本信息;
(S22)利用预训练语言模型分别对问题信息和多篇文本信息分别编码得到它们的数学表达。将文本转化为数学表示通常由编码层完成,与本实施例涉及的最终解码层无关;文本的数学表达通常采用向量或者矩阵的方式进行表示。本实施例中,采用的预训练语言模型为:BERT(Bidirectional Encoder Representations from Transformers)。
上述的步骤(S2)主要用于从多篇文本信息中选取包含答案的文本信息,本实施例中,主要通过文本信息与问题信息的相似性判断文本信息中包括问题信息的答案的概率。若某个文本信息中存在问题信息所对应的答案,则二者应该有更高的相似性。
具体的,本实施例中根据文本信息以及问题信息的数学表达的相似度计算文本信息包含答案的概率。当数学表达式为向量或者矩阵形式时,其相似度计算可以采用现有技术中的计算方法,将矩阵或向量线性映射到一个标量,再通过sigmoid函数将该标量控制在0到1之间。
概率计算完成后,根据计算得到的概率选取一定数目的文本信息,作为新篇章。本实施例的选取方式为:将各文本信息按照包括答案的概率从大到小排列,并选取概率最大的前五篇文本信息作为新篇章。
上述的步骤(S3)主要用于从各新篇章中获得生成答案所需的信息。在该步骤中,利用步骤(S3)中使用的训练好的神经网络计算各新篇章中每个单词成为答案的概率,并利用句法分析工具(Stanford Parser)计算各新篇章中各句子的句法树。计算语法树和计算单词成为答案的概率二者互不相关,可以并行。
在上述的步骤(S3)中,若问题信息为是否类问题,例如问题的开头是Is,Are,Will...等单词打头的情况下,在每个新篇章的开头添加肯定标记以及否定标记。在本实施例中,肯定标记包括‘yes’,否定标记包括‘no’。计算每个单词成为答案的概率的过程中,同时计算肯定标记以及否定标记的分数。分数越高,表示对应的肯定标记/否定标记越正确。
在上述步骤(S4)中,主要包括两个阶段:从新篇章中选取片段,并根据片段生成最终的答案。本实施例中,选取的片段为短语。
在选取片段的过程中,根据句法树将各句子划分为短语,并根据长度上限a和长度下限b对短语进行筛选,剔除过长或过短的短语;在此有一个例外,肯定标记以及否定标记不剔除。
短语筛选完成后,计算各短语中每个单词成为答案的概率求算数平均值,作为各短语成为答案的概率。每个单词成为答案的概率在步骤(S3)中计算得出。在选取短语的过程中,将成为答案的概率大于设定阈值的短语进行标记。标记的方式为,在新篇章中,将可能成为答案的短语中每个单词标记为1,其他单词标记为0,每个单词的初始标记为0。标记为1的单词,在后续计算过程中不会再变为0。
根据片段生成答案的过程中,将各新篇章按照包含答案的概率从高到低排列,并组成单个最终文本;根据上述的标记,将最终文本中没有标记的短语和单词删除,并将标记的短语依次串接,得到答案。具体的,删除过程中,将标记为1的单词保留,将标记为0的单词删除。这种答案生成方式得到的答案由若干短语构成,其内容精炼,符合语言规律,具有更好的可读性。
针对是否类问题,在组成问题信息的答案的过程中,需要遍历各新篇章的否定标记以及肯定标记。若肯定标记的分数最高,则在答案中添加肯定表述,若否定标记的分数最高,则在答案中添加否定表述。
以上的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于句法分析的问答系统答案生成方法,其特征在于,包括以下步骤:
(S1)获得问题信息以及多篇文本信息对应的数学表达;
(S2)计算各篇所述本文信息包含所述问题信息对应的答案的概率,并根据包含所述答案的概率选取若干篇所述文本信息作为新篇章;
(S3)利用神经网络计算各所述新篇章中每个单词成为所述答案的概率,并计算各所述新篇章中各句子的句法树;该神经网络利用LSTM进行编码,再由多层感知机将编码后的表达映射到一个和文本等长的向量,向量的每一位代表文本中对应词成为答案的概率;
(S4)结合每个词成为所述答案的概率和每个句子的句法树选取多个片段,并根据选取的多个所述片段组成所述问题信息的答案;
上述步骤(S4)中,选取多个片段包括以下步骤:
(S401)根据句法树将各句子划分为短语,并根据长度上限a和长度下限b对短语进行筛选;
(S402)对各短语中每个单词成为所述答案的概率求算数平均值,作为各短语成为答案的概率;
(S403)选取短语的过程中,将成为答案的概率大于设定阈值的短语进行标记;
在上述步骤(S4)中,根据上述的多个片段组成所述问题信息的答案包括以下步骤:
(S411)将各所述新篇章按照包含所述答案的概率从高到低排列,并组成单个最终文本;
(S412)根据步骤(S403)中标记,将最终文本中没有标记的短语和单词删除,并将标记的短语依次串接,得到答案;
上述步骤(S1)包括:
(S11)接收问题信息和多篇文本信息;
(S22)利用预训练语言模型分别对问题信息和多篇文本信息分别编码得到它们的数学表达。
2.根据权利要求1所述的一种基于句法分析的问答系统答案生成方法,其特征在于,在上述步骤(S2)中,根据所述文本信息以及所述问题信息的数学表达的相似度计算所述文本信息包含答案的概率。
3.根据权利要求1所述的一种基于句法分析的问答系统答案生成方法,其特征在于,在上述步骤(S2)中,选取新篇章时,将各所述文本信息按照包含所述答案的概率进行排序,并选取概率最大的若干个文本信息作为新篇章。
4.根据权利要求1所述的一种基于句法分析的问答系统答案生成方法,其特征在于,在上述步骤(S2)中,若所述问题信息为是否类问题,对每个所述新篇章添加肯定标记以及否定标记;在计算每个单词成为所述答案的概率的过程中,同时计算肯定标记以及否定标记的分数;在组成所述问题信息的答案的过程中,若肯定标记的分数最高,则在答案中添加肯定表述,若否定标记的分数最高,则在答案中添加否定表述。
CN201911239244.4A 2019-12-06 2019-12-06 一种基于句法分析的问答系统答案生成方法 Active CN110955768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911239244.4A CN110955768B (zh) 2019-12-06 2019-12-06 一种基于句法分析的问答系统答案生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911239244.4A CN110955768B (zh) 2019-12-06 2019-12-06 一种基于句法分析的问答系统答案生成方法

Publications (2)

Publication Number Publication Date
CN110955768A CN110955768A (zh) 2020-04-03
CN110955768B true CN110955768B (zh) 2024-03-15

Family

ID=69979918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911239244.4A Active CN110955768B (zh) 2019-12-06 2019-12-06 一种基于句法分析的问答系统答案生成方法

Country Status (1)

Country Link
CN (1) CN110955768B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268581B (zh) * 2021-07-20 2021-10-08 北京世纪好未来教育科技有限公司 题目生成方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997376A (zh) * 2017-02-28 2017-08-01 浙江大学 一种基于多级特征的问题和答案句子相似度计算方法
CN110287282A (zh) * 2019-05-20 2019-09-27 湖南大学 基于树核计算的智能对话系统应答方法及智能对话系统
CN110390049A (zh) * 2019-07-10 2019-10-29 北京航空航天大学 一种面向软件开发问题的答案自动生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252382A (ja) * 2005-03-14 2006-09-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997376A (zh) * 2017-02-28 2017-08-01 浙江大学 一种基于多级特征的问题和答案句子相似度计算方法
CN110287282A (zh) * 2019-05-20 2019-09-27 湖南大学 基于树核计算的智能对话系统应答方法及智能对话系统
CN110390049A (zh) * 2019-07-10 2019-10-29 北京航空航天大学 一种面向软件开发问题的答案自动生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于互联网的自动问答系统关键技术研究与实现;周蕾;《中国优秀硕士学位论文全文数据库信息科技辑》;第2.3.1节、4.3.2节 *

Also Published As

Publication number Publication date
CN110955768A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110795556B (zh) 一种基于细粒度插入式解码的摘要生成方法
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN110737763A (zh) 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN108932226A (zh) 一种对无标点文本添加标点符号的方法
CN107577662A (zh) 面向中文文本的语义理解系统及方法
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN109885824A (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN110008469A (zh) 一种多层次命名实体识别方法
CN110472235A (zh) 一种面向中文文本的端到端实体关系联合抽取方法
CN109949799B (zh) 一种语义解析方法及系统
CN109410949B (zh) 基于加权有限状态转换器的文本内容添加标点方法
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN112836514A (zh) 嵌套实体识别方法、装置、电子设备和存储介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
CN111428104A (zh) 基于观点型阅读理解的癫痫病辅助医疗智能问答方法
CN115859164A (zh) 一种基于prompt的建筑实体识别并分类方法及系统
CN111091002A (zh) 一种中文命名实体的识别方法
CN114333838A (zh) 语音识别文本的修正方法及系统
CN110955768B (zh) 一种基于句法分析的问答系统答案生成方法
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
CN114637852B (zh) 医学文本的实体关系抽取方法、装置、设备及存储介质
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant