CN115203356A - 专业领域问答库构建方法、问答方法及系统 - Google Patents

专业领域问答库构建方法、问答方法及系统 Download PDF

Info

Publication number
CN115203356A
CN115203356A CN202210672784.7A CN202210672784A CN115203356A CN 115203356 A CN115203356 A CN 115203356A CN 202210672784 A CN202210672784 A CN 202210672784A CN 115203356 A CN115203356 A CN 115203356A
Authority
CN
China
Prior art keywords
question
answer
professional
professional field
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210672784.7A
Other languages
English (en)
Other versions
CN115203356B (zh
Inventor
赵冠壹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanbian University
Original Assignee
Yanbian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanbian University filed Critical Yanbian University
Priority to CN202210672784.7A priority Critical patent/CN115203356B/zh
Publication of CN115203356A publication Critical patent/CN115203356A/zh
Application granted granted Critical
Publication of CN115203356B publication Critical patent/CN115203356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了专业领域问答库构建方法、问答方法及系统,方法包括:获取专业领域数据资料,并将各专业领域数据资料分别进行分段拆分,拆分为多个语料段;将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库。获取的问题数据解析出提问语句;从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答。本发明利用现有资料来自动生成问答库,并赋予问答库对未知问题具有自主分析判断能力,可以增强问答库的可用性,提升人机交互的友好程度,提升人工智能设备的智能化程度。

Description

专业领域问答库构建方法、问答方法及系统
技术领域
本发明涉及语音交互技术领域,尤其涉及的是一种专业领域问答库构建方法、问答方法、系统及存储介质。
背景技术
随着语音技术的不断发展,各种人智能产品越来越普及。而随着近几年来信息量的迅速增长,充分利用信息资源变得越来越重要。问答系统是获取这些信息的一种很有前景的方法。
但是现有技术的问答系统功能单一缺乏灵活性,缺乏人类的常识和推理能力,不能识别无法回答的问题和不相关的问题。
因此,现有技术还有待改进和发展。
发明内容
本发明的主要目的在于提供一种专业领域问答库构建方法、问答方法、系统及计算机可读存储介质,旨在解决现有技术的问答系统功能单一缺乏灵活性,缺乏人类的常识和推理能力,不能识别无法回答的问题和不相关的问题。本发明利用现有资料来自动生成问答库,并赋予问答库对未知问题具有自主分析判断能力,可以增强问答库的可用性,提高了灵活性,扩展了分析回答功能,提升人工智能设备的智能化程度。
为了实现上述目的,本发明第一方面提供一种专业领域问答库构建方法,其中,所述方法包括:
获取专业领域数据资料,并将各专业领域数据资料分别进行分段拆分,拆分为多个语料段;
将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库。
所述的专业领域问答库构建方法,其中,所述获取专业领域数据资料,并将专业领域数据资料进行分段拆分为多个语料段的步骤包括:
获取指定专业领域的专业资料并导入;
对导入的专业领域的专业资料数据进行预处理,将专业领域的专业资料数据按专业领域拆分成多个语料段,各语料段之间留有重叠区域。
所述的专业领域问答库构建方法,其中,所述将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库的步骤包括:
将拆分的多个语料段导入,并语料段数据作为输入提供给预设的问题生成系统和回答系统;
问题生成系统在语料数据的名词和动词短语中找到答案索引,根据答案索引生成可能的问题集,并且将生成的问题集提供给问答系统;
问题回答系统采用自编码模型,自编码模型有两个独立的问题和答案的索引空间,答案索引空间以问题集索引空间为条件;
在生成过程中,首先生成一个给定上下文的答案,然后通过从两个索引空间中取样,生成一个给定答案,最后将生成的问答对集提供给问答系统。
所述的专业领域问答库构建方法,其中,其还包括步骤:
利用按照问答库的问答训练的人工神经网络对各语料段进行训练,用于增强问题与答案相关度。
一种专业领域问答方法,其中,包括步骤:
获取问题数据;
对所获取的问题数据通过通用语句编辑器处理,解析出提问语句;
基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题,其中,所述专业领域问答库采用权利要求1-5任一项所述专业领域问答库构建方法得到;
根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答;
当所述专业领域问答库中没有与所述提问语句相似度大于预定阈值的生成问题,则利用以往知识,对问题进行粗略回答。
所述的专业领域问答方法,其中,所述基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题的步骤包括:
首先从所构建的专业领域问答库中选出与所述提问语句有相似度且相似度大于预定阈值的生成问题;进行初步筛选,选出的与所述提问语句有相似度的多个生成问题;
进一步计算各个生成问题和所提出问题即提问语句之间的余弦相似度。
所述的专业领域问答方法,其中,所述根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答的步骤包括:
根据上述计算出的生成的问题和提问语句即提出问题之间的余弦相似度,找出与所述提问语句相似度最高的生成问题;
从所述专业领域问答库中找出与相似度最高的生成问题对应的问答对的答案作为精确回答。
一种专业领域问答库构建系统,其中,包括:专业领域问答库构建装置,以及与专业领域问答库构建装置连接的专业领域问答装置;
其中,所述专业领域问答库构建装置包括:
第一获取模块,用于获取专业领域数据资料,并将各专业领域数据资料分别进行分段拆分,拆分为多个语料段;
构建模块,用于将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库;
所述专业领域问答装置包括:
第二获取模块,用于获取问题数据;
解析模块,用于对所获取的问题数据通过通用语句编辑器处理,解析出提问语句;
选取模块,用于基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题,其中,所述专业领域问答库采用任一项所述专业领域问答库构建方法得到;
精确回答模块,用于根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答;
粗略回答模块,用于当所述专业领域问答库中没有与所述提问语句相似度大于预定阈值的生成问题,则利用以往知识,对问题进行粗略回答。
一种专业领域问答库构建及回答智能终端,其中,包括:存储器,处理器;所述存储器上存储有可在所述处理器上运行的专业领域问答库构建程序和专业领域问答程序,所述专业领域问答库构建程序被所述处理器执行时实现任意一项所述专业领域问答库构建方法的步骤,所述专业领域问答程序被所述处理器执行时实现任意一项所述专业领域问答方法的步骤。
一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有专业领域问答库构建程序和专业领域问答程序,所述专业领域问答库构建程序被所述处理器执行时实现任意一项所述专业领域问答库构建方法的步骤,所述专业领域问答程序被所述处理器执行时实现任意一项所述专业领域问答方法的步骤。
由上可见,本发明提供了一种专业领域问答库构建方法、问答方法、系统及计算机可读存储介质,采用已知资料导入,自动问答对生成,以构建专业领域问答库;在问题的回答时,计算问题相似度,兜底处理,给出回答结果。若问答库中可以构建出相应问题答案,精确回答;并针对用户提出的库内不包含问题的答案进行分析处理,则利用以往知识,对问题进行粗略回答。本发明利用现有资料来自动生成问答库,并赋予问答库对未知问题具有自主分析判断能力,本发明可以增强问答库的可用性,提升人机交互的友好程度,提升人工智能设备的智能化程度,赋予人工智能设备一定的处理未学习问题的思维能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种专业领域问答库构建方法的流程示意图。
图2是本发明实施例提供的一种专业领域问答方法的流程示意图。
图3为本发明具体应用实施例的专业领域问答库的构建过程流程图。
图4为本发明具体应用实施例的对未知问题的回答方法流程图。
图5是本发明实施例提供的一种专业领域问答库构建系统整体架原理框图。
图6是本发明实施例提供的一种专业领域问答库构建及回答智能终端的内部结构原理框图。
具体实施方式
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
随着语音技术的不断发展,各种人智能产品越来越普及。而随着近几年来信息量的迅速增长,充分利用信息资源变得越来越重要。问答系统是获取这些信息的一种很有前景的方法。
但是现有技术的问答系统功能单一缺乏灵活性,缺乏基于常识的推理能力,不能识别无法回答的问题和不相关的问题。
为了解决现有技术的问题,本发明实施例提供了一种专业领域问答库构建方法、问答方法、系统及计算机可读存储介质,包括如下步骤:已知资料导入,自动问答对生成,计算问题相似度,兜底处理,给出回答结果;构建专业领域问答库,并针对用户提出的库内不包含问题的答案进行生成,可以提升人机交互的友好程度,提升人工智能设备的智能化程度,赋予人工智能设备一定的处理未学习问题的思维能力。
本发明通过现有资料生成特定领域的问答库,并用问题相似度机制来解决问答库未知问题的回答方法,该机制可以完全避免无法回答和不相关的问题被提出给问答系统,这也有助于问答系统只关注可回答的问题,以提高其性能。
具体如下所述:
如图1所示,本发明实施例的专业领域问答库构建方法包括以下步骤:
步骤S110、获取专业领域数据资料,并将各专业领域数据资料分别进行分段拆分,拆分为多个语料段。
本发明在具体实施时,例如获取指定专业领域的专业资料,使用已知特定专业领域专业资料导入,包括学术论文、书籍文字内容等,为自动问答对生成过程提供资料保障。本发明实施例中获取指定专业领域的专业资料输入后,对输入的资料进行预处理,将各项资料拆分成小语料段,各语料段之间留有重叠区域,并利用按照其他问答库的问答训练的卷积神经网络训练,将神经网络的权值进行更新,增强问题与答案相关度,避免数据丢失。
本发明实施例中关于并利用按照其他问答库的问答训练的卷积神经网络训练,将神经网络的权值进行更新,增强问题与答案相关度,避免数据丢失具体为:
本发明实施例中通过专业领域数据资料的文章段落间逻辑,对专业资料进行分段处理,为而后的专业领域资料输入奠定基础。本发明针对在各个不同专业领域数据库的问答系统中,问题与答案的逻辑关系均有相似度,利用其他成型数据库数据作为训练集和测试集,形成一种处理问答数据库的神经网络。而后利用这个神经网络,对本专业领域数据库相关问答作为输入数据,利用神经网络输出数据完善问答数据库。
步骤S120、将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库。
即本发明实施例中,使用问题生成系统的自监督学习预训练权重来生成问题,且使用自编码模型来产生生成的问题的答案。如图2和图3所示,首先,获取指定专业领域的专业资料导入后,将语料数据作为输入提供给问题生成系统和回答系统。问题生成系统在语料数据的名词和动词短语中找到答案索引,根据答案索引生成可能的问题集,并且将生成的问题集提供给问答系统。问题回答系统采用自编码模型,该模型有两个独立的问题和答案的索引空间,以上下文为条件,其中的答案索引空间以问题集索引空间为条件。在生成过程中,本模型首先生成一个给定上下文的答案,然后通过从两个索引空间中取样,生成一个给定答案,最后将生成的问答对集提供给问答系统。
通过以上步骤S110和步骤S120构建专业领域问答库,通过本发明方法利用收集的现有专业领域的专业资料来自动生成问答库,构建的专业领域问答库,并赋予问答库对未知问题具有自主分析判断能力,可以增强问答库的可用性,提升人工智能设备的智能化程度。
进一步地,基于上述实施例构建的专业领域问答库,本发明实施例还提供了一种专业领域问答方法,如图2所示,本发明实施例的一种专业领域问答方法包括以下步骤:
步骤S210、获取问题数据;
本发明实施例中,在利用构建的专业领域问答库进行问题回答时,首先获取回答问题的提问数据,即获取提问的问题数据。本发明实施例中所述提问的问题数据可以为直接文字输入的问题数据,也可以用户语音输入的问题数据。
步骤S220、对所获取的问题数据通过通用语句编辑器处理,解析出提问语句;
本发明实施例中,可以通过通用语句编辑器将获取的问题数据解析为提问语句,即解析为提出的问题,例如用户通过语音说出“我要查询血压评值范围”,本发前通过通用语句编辑器处理就可解析出来用户要查询问题例如“血压评值范围是多少?”
步骤S230、基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题,其中,所述专业领域问答库采用上述实施例所述专业领域问答库构建方法得到。
本发明实施例中,会基于解析出的提问语句,首先从所构建的专业领域问答库中选出与所述提问语句有相似度且相似度大于预定阈值的生成问题。本发明实施例中具体实施时,可以初定一个相似度阈值例如相似度大于50%阈值的进行初步筛选,初步选出的与所述提问语句有相似度的生成问题可能会有多个生成问题,本发明进一步地会计算各个生成问题(GQ,Generated Questions)和所提出问题(QP,Questions Posed)即提问语句之间的余弦相似度,从所述多个生成问题选取与所述提问语句相似度最大的那个生成问题。
具体地,本发明关于,关于与所述提问语句对应的生成问题相似度计算:具体为计算生成的问题(GQ,Generated Questions)和提问语句即提出问题(QP,Questions Posed)之间的余弦相似度。如图3所示,专业领域的专业资料文章最初被传递到问题生成系统,以基于从名词和动词短语导出的答案跨度来生成关于给定段落的可能的问题集。例如当问题跨度超过一定范围,即定义为两个不同的问题,通过此方式来生成问题集。
具体实施时,本发明设
Figure BDA0003695302700000091
是生成问题(GQ)的语句嵌入集合(SEC,StatementEmbedding Collection),
Figure BDA0003695302700000092
是提出问题(QP)的语句嵌入集合(SEC),EGQ是每个生成问题(GQ)的语句嵌入集合(SEC)。类似地,得到了如公式(1)所述的问题语句嵌入集合:
Figure BDA0003695302700000093
为了计算出问题相似度得分(QSS,Question Similarity Score),需要在生成的问题中识别出与所提问题的余弦相似度最高的问题。称它为最高相似度得分问题,生成的问题和提出的问题之间的QSS的计算方法由下式给出:
Figure BDA0003695302700000094
Figure BDA0003695302700000095
Figure BDA0003695302700000096
分别是第i个生成的问题和所提出问题的句子。
Figure BDA0003695302700000097
表示嵌入生成的问题与提出的问题之间的改进余弦相似度(ICS,Improved Cosine Similarity),计算形式如下公式(3)所示:
Figure BDA0003695302700000101
由上可见,本发明通过上述公式可以计算生成的问题(GQ,Generated Questions)和提问语句即提出问题(QP,Questions Posed)之间的余弦相似度。
步骤S240、根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答;
本发明实施例中,根据上述计算出的生成的问题(GQ,Generated Questions)和提问语句即提出问题(QP,Questions Posed)之间的余弦相似度,找出与所述提问语句相似度最高的生成问题,例如通过计算出问题相似度得分(QSS,Question Similarity Score),在生成的问题中识别出与所提问题的余弦相似度最高的生成问题。从所述专业领域问答库中找出与相似度最高的生成问题对应的问答对的答案作为精确回答。
例如用户通过语音说出“我要查询血压评值范围”,本发前通过通用语句编辑器处理就可解析出来用户要查询问题如“血压评值范围是多少?”即为提出问题,本发明实施例中,从所构建专业领域问答库中找出与提出问题“血压评值范围是多少?”相似度最高的生成问题例如“正常血压范围多少?高血压和低血压各多少?”。则本发明会从所构建的专业领域问答库中找出与生成问题对应的问答对的答案例如“理想的血压为120/80mmHg,正常血压为130/85mmHg以下,高血压为130-139/85-89mmHg为临界高血压、低血压是指收缩压低于90mmHg,舒张压低于60mmHg,称为低血压”作为精确回答。
更进一步地,本发明关于问答系统(精准回答)具体还包括为:例如可以采用问题相似度机制作为问答系统的问题过滤器。该机制根据计算出问题相似度得分QSS阈值识别并过滤不可回答类、无关类和可回答类的问题。其中,不可回答就是数据集中没有类似问题,无关类就是和本领域内容无关,可回答就是问答数据库中有的问题。
问题相似度得分QSS阈值可通过深度学习方法计算得相似度低值QSSL及相似度高值QSSH(值位于0.00和1.00之间)。上述深度学习算法,通过已有问答库学习得出。如果提出的问题不相关,将阈值设置在0.00-QSSL的范围内;如果所提出的问题是无法回答的,将阈值设置在QSSL-QSSH的范围内;如果所提出的问题是可回答的问题,将阈值设置在QSSH-1.00的范围内。如果提出的问题超过阈值,则将其标识为可回答问题或相关问题,并将其传递给问答系统以从构建专业领域问答库中获得该问题的答案。如果提出的问题没有超过对应阈值,它要么被确定为无关的,无法给出回答。
步骤S250、当所述专业领域问答库中没有与所述提问语句相似度大于预定阈值的生成问题,则利用以往知识,对问题进行粗略回答。
本步骤中,当所述专业领域问答库中没有与所述提问语句相似度大于预定阈值的生成问题,则利用以往知识,对问题进行粗略回答。具体如下:
本发明实施例中关于兜底处理(粗略回答)较佳可以:通过获取特定领域数据库的相关数据,将获取信息进行数据清洗、分类,基于词典的最大向前/向后切分脚本,将知识图谱进行入库处理。通过手工标记意图分类训练数据,并采用了改进贝叶斯算法训练得到意图分类模型,对知识图谱实体类型进行分类,改进后的贝叶斯计算结果更适用于本发明方法:
Figure BDA0003695302700000121
在上述公式(4)中,P(·)代表事件概率,P(yi|x1,x2,...,xd)表示待分类事件yi属于所有已知事件集合的概率,P(xj|yi)表示后验概率。
随后建立图形数据库,用于处理大量复杂、低结构化、互连接的数据。使用图形数据库通过围绕图形的方式进行数据建模,会以相同的速度遍历节点与边,构建图形数据库的核心算法采用卷积神经网络(Convolutional Neural Networks,CNN),利用其他数据库进行模型训练,并利用注意力机制提升CNN跨数据集能力,使其无论应用到哪个专业数据库,均为可用状态且可取得良好效果。随后,将需要兜底处理的问题与建立的图形数据库进行分类查询匹配获取答案,匹配算法采用二叉树算法,采取遍历方式寻找最优结果。如还是无法匹配答案,则将问题归纳为不可回答类问题,返回一个无法获取答案提示,此时,输出程序运行日志,供开发者分析,并不断提升图形数据库的鲁棒性。
以下通过具体的应用实施例对本发明方法做进一步详细描述,具体举例为:本发明具体应用实施例的专业领域问答库构建方法、以及基于构建的专业领域问答库的问答方法;在实际问答库中,如图3所示,整个方法包含以下步骤:已知资料导入,自动问答对生成,计算问题相似度,兜底处理,给出回答结果。
关于已知资料导入步骤具体为:本发明具体实施例中,获取已知糖尿病领域专业资料,包括学术论文、书籍文字内容等,并导入,为自动问答对生成过程提供专业知识库资料保障。本发明实施例中将指定领域专业资料导入输入后,系统对输入的资料进行预处理,即将上文输入的各项资料拆分成小语料段,各语料段之间留有重叠区域,并利用按照其他问答库的问答训练的卷积神经网络训练,将神经网络的权值进行更新,增强问题与答案相关度,避免数据丢失。
如图4所示,本发明实施例中关于基于构建的专业领域问答库的问答方法的步骤具体包括:
步骤S41、开始,并进入步骤S42;
步骤S42、输入问题并进入步骤S43,例如可以用户通过语音输入或直接打文字输入问题;
步骤S43、通用语句编辑器处理成为所提问题;
步骤S44、计算生成的问题(GQ,Generated Questions)和提出的问题(QP,Questions Posed)之间的余弦相似度。计算出问题相似度得分(QSS,Question SimilarityScore),需要在生成的问题中识别出与所提问题的余弦相似度最高的问题。并进入步骤S45;
步骤S45、判断问题相似度得分QS是否大于预定阈值,当是进入步骤S46,当否进入步骤S50;
步骤S46、设置问题为可回答类型或相关类型,并进入步骤S47
步骤S47、通过构建专业领域问答库的问答系统处理,进行问答系统(精准回答),处理回答问题后并进入步骤S53;
步骤S50、是否可做兜底处理(粗略回答)?当是进入步骤S51,当否进入步骤S52;
步骤S51、进行兜底处理(粗略回答),并进入步骤S47;
步骤S52、设置问题为不可回答类型或不相关问题,并进入步骤S53;
步骤S53、返回问答结果,并进入步骤S54。
步骤S54、结束。
具体地,本发明具体实施例使用问题生成系统的自监督学习预训练权重来生成问题,且使用自编码模型来产生生成的问题的答案。就生成了问答对,并保存在糖尿病问答数据库中,以构建专业领域问答库。
本发明实施例中,关于计算问题相似度的步骤具体为:利用如下公式计算生成的问题(GQ)和提出的问题(QP)之间的改进余弦相似度,而后并计算出相似度得分。
Figure BDA0003695302700000141
Figure BDA0003695302700000142
Figure BDA0003695302700000143
分别是第i个生成的问题和所提出问题的句子。
Figure BDA0003695302700000144
表示嵌入生成的问题与提出的问题之间的改进余弦相似度(ICS,Improved Cosine Similarity),计算形式如下:
Figure BDA0003695302700000145
本发明实施例中,关于兜底处理步骤具体为:通过获取特定领域数据库的相关数据,将获取信息进行数据清洗、分类,基于词典的最大向前/向后切分脚本,将知识图谱进行入库处理。通过手工标记意图分类训练数据,并采用了改进贝叶斯算法训练得到意图分类模型,对知识图谱实体类型进行分类。随后建立neo4j图形数据库,用于处理大量复杂、低结构化、互连接的数据。使用图形数据库通过围绕图形的方式进行数据建模,会以相同的速度遍历节点与边,构建图形数据库的核心算法采用卷积神经网络(Convolutional NeuralNetworks,CNN),利用其他数据库进行模型训练,并利用注意力机制提升CNN跨数据集能力,使其无论应用到哪个专业数据库,均为可用状态且可取得良好效果。随后,将需要兜底处理的问题与建立的图形数据库进行分类查询匹配获取答案,匹配算法采用二叉树算法,采取遍历方式寻找最优结果。如还是无法匹配答案,则将问题归纳为不可回答类问题,返回一个无法获取答案提示,此时,输出程序运行日志,供开发者分析,并不断提升图形数据库的鲁棒性。
关于给出回答结果的步骤具体为:若问答库中可以构建出相应问题答案,精确回答;若没有,则利用以往知识,对问题进行粗略回答,并提示用户知识范围有限,详细答案还需继续学习。
基于上述实施例,如图5所示,本发明还提供了一种专业领域问答库构建系统,包括:
专业领域问答库构建装置510,以及与专业领域问答库构建装置510连接的专业领域问答装置520;
其中,所述专业领域问答库构建装置510包括:
第一获取模块511,用于获取专业领域数据资料,并将各专业领域数据资料分别进行分段拆分,拆分为多个语料段;
构建模块512,用于将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库,具体如上所述。
所述专业领域问答装置520包括:
第二获取模块521,用于获取问题数据;
解析模块522,用于对所获取的问题数据通过通用语句编辑器处理,解析出提问语句;
选取模块523,用于基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题,其中,所述专业领域问答库采用上述实施例任一项所述专业领域问答库构建方法得到;
精确回答模块524,用于根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答;
粗略回答模块525,用于当所述专业领域问答库中没有与所述提问语句相似度大于预定阈值的生成问题,则利用以往知识,对问题进行粗略回答,具体如上所述。
基于上述实施例,如图6所示,本发明还提供了一种专业领域问答库构建及回答智能终端;如图6所示,所述专业领域问答库构建及回答智能终端较佳可以为本地服务器,其原理框图可以如图5所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。所述存储器上存储有可在所述处理器上运行的专业领域问答库构建程序和专业领域问答程序,所述专业领域问答库构建程序被所述处理器执行时实现上述任意一项所述专业领域问答库构建方法的步骤,所述专业领域问答程序被所述处理器执行时实现上述任意一项所述专业领域问答方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图5中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种专业领域问答库构建及回答智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作指令的步骤:
获取专业领域数据资料,并将各专业领域数据资料分别进行分段拆分,拆分为多个语料段;
将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库;
获取问题数据;
对所获取的问题数据通过通用语句编辑器处理,解析出提问语句;
基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题,其中,所述专业领域问答库采用任一项所述专业领域问答库构建方法得到;
根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答;
当所述专业领域问答库中没有与所述提问语句相似度大于预定阈值的生成问题,则利用以往知识,对问题进行粗略回答,具体如上所述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。。
基于上述实施例,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有专业领域问答库构建程序和专业领域问答程序,所述专业领域问答库构建程序被所述处理器执行时实现任意一项所述专业领域问答库构建方法的步骤,所述专业领域问答程序被所述处理器执行时实现任意一项所述专业领域问答方法的步骤。
综上所述,本发明提供了一种专业领域问答库构建方法、问答方法、系统及计算机可读存储介质,采用已知资料导入,自动问答对生成,以构建专业领域问答库;在问题的回答时,计算问题相似度,兜底处理,给出回答结果。若问答库中可以构建出相应问题答案,精确回答;并针对用户提出的库内不包含问题的答案进行分析处理,则利用以往知识,对问题进行粗略回答。本发明利用现有资料来自动生成问答库,并赋予问答库对未知问题具有自主分析判断能力,本发明可以增强问答库的可用性,提升人机交互的友好程度,提升人工智能设备的智能化程度,赋予人工智能设备一定的处理未学习问题的思维能力。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种专业领域问答库构建方法,其特征在于,所述方法包括:
获取专业领域数据资料,并将各专业领域数据资料分别进行分段拆分,拆分为多个语料段;
将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库。
2.根据权利要求1所述的专业领域问答库构建方法,其特征在于,所述获取专业领域数据资料,并将专业领域数据资料进行分段拆分为多个语料段的步骤包括:
获取指定专业领域的专业资料并导入;
对导入的专业领域的专业资料数据进行预处理,将专业领域的专业资料数据按专业领域拆分成多个语料段,各语料段之间留有重叠区域。
3.根据权利要求1所述的专业领域问答库构建方法,其特征在于,所述将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库的步骤包括:
将拆分的多个语料段导入,并语料段数据作为输入提供给预设的问题生成系统和回答系统;
问题生成系统在语料数据的名词和动词短语中找到答案索引,根据答案索引生成可能的问题集,并且将生成的问题集提供给问答系统;
问题回答系统采用自编码模型,自编码模型有两个独立的问题和答案的索引空间,答案索引空间以问题集索引空间为条件;
在生成过程中,首先生成一个给定上下文的答案,然后通过从两个索引空间中取样,生成一个给定答案,最后将生成的问答对集提供给问答系统。
4.根据权利要求1所述的专业领域问答库构建方法,其特征在于,其还包括步骤:
利用按照问答库的问答训练的人工神经网络对各语料段进行训练,用于增强问题与答案相关度。
5.一种专业领域问答方法,其特征在于,包括步骤:
获取问题数据;
对所获取的问题数据通过通用语句编辑器处理,解析出提问语句;
基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题,其中,所述专业领域问答库采用权利要求1-5任一项所述专业领域问答库构建方法得到;
根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答;
当所述专业领域问答库中没有与所述提问语句相似度大于预定阈值的生成问题,则利用以往知识,对问题进行粗略回答。
6.根据权利要求5所述的专业领域问答方法,其特征在于,所述基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题的步骤包括:
首先从所构建的专业领域问答库中选出与所述提问语句有相似度且相似度大于预定阈值的生成问题;进行初步筛选,选出的与所述提问语句有相似度的多个生成问题;
进一步计算各个生成问题和所提出问题即提问语句之间的余弦相似度。
7.根据权利要求5所述的专业领域问答方法,其特征在于,所述根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答的步骤包括:
根据上述计算出的生成的问题和提问语句即提出问题之间的余弦相似度,找出与所述提问语句相似度最高的生成问题;
从所述专业领域问答库中找出与相似度最高的生成问题对应的问答对的答案作为精确回答。
8.一种专业领域问答库构建系统,其特征在于,包括:专业领域问答库构建装置,以及与专业领域问答库构建装置连接的专业领域问答装置;
其中,所述专业领域问答库构建装置包括:
第一获取模块,用于获取专业领域数据资料,并将各专业领域数据资料分别进行分段拆分,拆分为多个语料段;
构建模块,用于将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库;
所述专业领域问答装置包括:
第二获取模块,用于获取问题数据;
解析模块,用于对所获取的问题数据通过通用语句编辑器处理,解析出提问语句;
选取模块,用于基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题,其中,所述专业领域问答库采用权利要求1-4任一项所述专业领域问答库构建方法得到;
精确回答模块,用于根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答;
粗略回答模块,用于当所述专业领域问答库中没有与所述提问语句相似度大于预定阈值的生成问题,则利用以往知识,对问题进行粗略回答。
9.一种专业领域问答库构建及回答智能终端,其特征在于,包括:存储器,处理器;所述存储器上存储有可在所述处理器上运行的专业领域问答库构建程序和专业领域问答程序,所述专业领域问答库构建程序被所述处理器执行时实现如权利要求1-4任意一项所述专业领域问答库构建方法的步骤,所述专业领域问答程序被所述处理器执行时实现如权利要求5-7任意一项所述专业领域问答方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有专业领域问答库构建程序和专业领域问答程序,所述专业领域问答库构建程序被所述处理器执行时实现如权利要求1-4任意一项所述专业领域问答库构建方法的步骤,所述专业领域问答程序被所述处理器执行时实现如权利要求5-7任意一项所述专业领域问答方法的步骤。
CN202210672784.7A 2022-06-15 2022-06-15 专业领域问答库构建方法、问答方法及系统 Active CN115203356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210672784.7A CN115203356B (zh) 2022-06-15 2022-06-15 专业领域问答库构建方法、问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210672784.7A CN115203356B (zh) 2022-06-15 2022-06-15 专业领域问答库构建方法、问答方法及系统

Publications (2)

Publication Number Publication Date
CN115203356A true CN115203356A (zh) 2022-10-18
CN115203356B CN115203356B (zh) 2024-06-04

Family

ID=83575852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210672784.7A Active CN115203356B (zh) 2022-06-15 2022-06-15 专业领域问答库构建方法、问答方法及系统

Country Status (1)

Country Link
CN (1) CN115203356B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290694A (zh) * 2023-11-24 2023-12-26 北京并行科技股份有限公司 问答系统评估方法、装置、计算设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959559A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 问答对生成方法和装置
CN109241258A (zh) * 2018-08-23 2019-01-18 江苏索迩软件技术有限公司 一种应用税务领域的深度学习智能问答系统
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN110532348A (zh) * 2019-09-04 2019-12-03 网易(杭州)网络有限公司 问答对数据的生成方法、装置及电子设备
US20200134449A1 (en) * 2018-10-26 2020-04-30 Naver Corporation Training of machine reading and comprehension systems
CN111782786A (zh) * 2020-07-01 2020-10-16 中关村科学城城市大脑股份有限公司 用于城市大脑的多模型融合问答方法及系统、介质
CN112364150A (zh) * 2021-01-12 2021-02-12 南京云创大数据科技股份有限公司 一种结合检索与生成的智能问答方法和系统
CN112527999A (zh) * 2020-12-22 2021-03-19 江苏省农业科学院 引入农业领域知识的抽取式智能问答方法及系统
CN113342948A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 一种智能问答方法及装置
CN113868387A (zh) * 2021-09-22 2021-12-31 北京计算机技术及应用研究所 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
CN114020862A (zh) * 2021-11-04 2022-02-08 中国矿业大学 一种面向煤矿安全规程的检索式智能问答系统及方法
CN114357127A (zh) * 2021-11-19 2022-04-15 武汉科技大学 基于机器阅读理解及常用问题解答模型的智能问答方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959559A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 问答对生成方法和装置
CN109241258A (zh) * 2018-08-23 2019-01-18 江苏索迩软件技术有限公司 一种应用税务领域的深度学习智能问答系统
US20200134449A1 (en) * 2018-10-26 2020-04-30 Naver Corporation Training of machine reading and comprehension systems
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN110532348A (zh) * 2019-09-04 2019-12-03 网易(杭州)网络有限公司 问答对数据的生成方法、装置及电子设备
CN111782786A (zh) * 2020-07-01 2020-10-16 中关村科学城城市大脑股份有限公司 用于城市大脑的多模型融合问答方法及系统、介质
CN112527999A (zh) * 2020-12-22 2021-03-19 江苏省农业科学院 引入农业领域知识的抽取式智能问答方法及系统
CN112364150A (zh) * 2021-01-12 2021-02-12 南京云创大数据科技股份有限公司 一种结合检索与生成的智能问答方法和系统
CN113342948A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 一种智能问答方法及装置
CN113868387A (zh) * 2021-09-22 2021-12-31 北京计算机技术及应用研究所 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
CN114020862A (zh) * 2021-11-04 2022-02-08 中国矿业大学 一种面向煤矿安全规程的检索式智能问答系统及方法
CN114357127A (zh) * 2021-11-19 2022-04-15 武汉科技大学 基于机器阅读理解及常用问题解答模型的智能问答方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUNG-HSIEN WU ET AL.: "Semantic segment extraction and matching for Internet FAQ retrieval", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》, vol. 18, no. 7, 30 May 2006 (2006-05-30), pages 930 - 940 *
俞俊 等: "视觉问答技术研究", 《计算机研究与发展》, no. 09, 15 September 2018 (2018-09-15), pages 122 - 134 *
涂海 等: "S2SA-BiLSTM:面向法律纠纷智能问答系统的深度学习模型", 《小型微型计算机系统》, no. 05, 14 May 2019 (2019-05-14), pages 124 - 129 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290694A (zh) * 2023-11-24 2023-12-26 北京并行科技股份有限公司 问答系统评估方法、装置、计算设备及存储介质
CN117290694B (zh) * 2023-11-24 2024-03-15 北京并行科技股份有限公司 问答系统评估方法、装置、计算设备及存储介质

Also Published As

Publication number Publication date
CN115203356B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
EP3862889A1 (en) Responding to user queries by context-based intelligent agents
CN109829052A (zh) 一种基于人机交互的开放式对话方法和系统
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN111310463B (zh) 试题难度预估方法、装置、电子设备和存储介质
CN114707516B (zh) 一种基于对比学习的长文本语义相似度计算方法
CN112800205B (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN113342958A (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN118152547B (zh) 一种根据提问者理解能力的机器人回答方法、介质及系统
CN117540004B (zh) 基于知识图谱和用户行为的工业领域智能问答方法及系统
CN115203356B (zh) 专业领域问答库构建方法、问答方法及系统
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN111783473B (zh) 医疗问答中最佳答案的识别方法、装置和计算机设备
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN117194628A (zh) 基于压缩技术提示词优化方法、装置、设备及存储介质
Celikkan et al. A consolidated approach for design pattern recommendation
CN113157932B (zh) 基于知识图谱表示学习的隐喻计算和装置
CN111506764B (zh) 音频数据筛选方法、计算机设备和存储介质
CN112749554B (zh) 确定文本匹配度的方法、装置、设备及存储介质
CN114153946A (zh) 一种智能检索方法、装置、设备及存储介质
CN110929501B (zh) 文本分析方法和装置
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant