CN116662518A - 问答方法、装置、电子设备及可读存储介质 - Google Patents
问答方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116662518A CN116662518A CN202310720673.3A CN202310720673A CN116662518A CN 116662518 A CN116662518 A CN 116662518A CN 202310720673 A CN202310720673 A CN 202310720673A CN 116662518 A CN116662518 A CN 116662518A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- text
- target
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims description 79
- 238000012795 verification Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013145 classification model Methods 0.000 description 7
- 239000000796 flavoring agent Substances 0.000 description 7
- 235000019634 flavors Nutrition 0.000 description 7
- 235000021167 banquet Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012856 packing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,提供了一种问答方法、装置、电子设备及可读存储介质。该方法包括:获取待解答的目标问题文本;根据所述目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对,其中所述语料库中包括多个问答对,所述问答对包括问题文本和与所述问题文本对应的答案文本,所述目标问答对与所述目标问题文本之间的相似度大于第一预设阈值;根据所述至少一个目标问答对,通过大语言模型,得到所述目标问题文本对应的目标答案。本申请实施例解决了现有技术中存在常见问答方法对复杂语句识别不准确的问题。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种问答方法、装置、电子设备及可读存储介质。
背景技术
随着科学技术的进步,越来越多的智能化设备开始出现并在生活中发挥重要作用。其中很常见的一种即是问答的应用。常见问题库(Frequently Asked Questions,FAQ)问答系统是目前应用最为广泛的问答系统。人们从开放的数据源中收集问答数据对,专家对其进行优化,根据用户的问题,在FAQ中找到合适答案。FAQ的关键技术就是搜索与问题相似的问句,然后将最相似问题的答案返回给用户。在问答匹配方面,采用的主要还是关键词匹配的方法,但在有一些复杂的语句上,也就是带有限定特征的问句,往往对问句的识别不够准确。即使采用了部分机器学习的方法进行处理,也很难保证语义的正确。
可见,现有技术中存在常见问答方法对复杂语句识别不准确的问题。
发明内容
有鉴于此,本申请实施例提供了一种问答方法、装置、电子设备及可读存储介质,以解决现有技术中存在的常见问答方法对复杂语句识别不准确的问题。
本申请实施例的第一方面,提供了一种问答方法,包括:
获取待解答的目标问题文本;
根据所述目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对,其中所述语料库中包括多个问答对,所述问答对包括问题文本和与所述问题文本对应的答案文本,所述目标问答对与所述目标问题文本之间的相似度大于第一预设阈值;
根据所述至少一个目标问答对,通过大语言模型,得到所述目标问题文本对应的目标答案。
本申请实施例的第二方面,提供了一种问答装置,包括:
问题模块,用于获取待解答的目标问题文本;
搜索模块,用于根据所述目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对,其中所述语料库中包括多个问答对,所述问答对包括问题文本和与所述问题文本对应的答案文本,所述目标问答对与所述目标问题文本之间的相似度大于第一预设阈值;
解答模块,用于根据所述至少一个目标问答对,通过大语言模型,得到所述目标问题文本对应的目标答案。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:
通过文本检索模型从预先设置的语料库中检索与待解答的目标问题文本相似的目标问答对,根据所得目标问答对,利用大语言模型回答待解答的目标问题文本,得到与待解答的目标问题文本相对应的目标答案。由于大语言模型本身具有较好的语言理解能力,且目标问答对与目标问题文本之间的相似度大于第一预设阈值,使得大语言模型能够通过目标问答对充分理解目标问题文本,从而得到更加准确的答案,解决了常见问答方法对复杂语句错误理解或者理解不够准确的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种问答方法的流程示意图;
图2是本申请实施例提供的一种问答装置的结构示意图;
图3是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
本申请的说明书和权利要求书中的术语“第一”“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
此外,需要说明的是,术语“包括”“包含”或者其任何其他变体意在涵盖非排他性地包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面将结合附图详细说明根据本申请实施例的一种问答方法、装置、电子设备以及可读存储介质。
图1是本申请实施例提供的一种问答方法的流程示意图。如图1所示,该问答方法包括:
步骤101,获取待解答的目标问题文本;
待解答的目标问题文本为需要利用大语言模型进行解答的问题。
该问题语句根据实际需求可能较为复杂,例如可能带有一些限定条件,包括但不限于时间限定、类别限定和选择限定等等。
步骤102,根据目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对。
其中语料库中包括多个问答对,问答对包括问题文本和与问题文本对应的答案文本,目标问答对与所述目标问题文本之间的相似度大于第一预设阈值。
文本检索模型可以是现有的检索模型,例如包括布尔模型、空间向量模型和概率模型等。
语料库中包括多个问答对,每个问答对包括问题文本和该问题文本对应的答案文本。该语料库中的问答对可以从问答网站获取,也可以是收集常见的问答,将问句和对应的答案汇总得到。
本步骤可以将语料库中的问答对和目标问题文本输入文本检索模型中,得到文本检索模型输出的至少一个目标问答对。该目标问答对于目标问题文本之间的相似度大于第一预设阈值,即目标问答对与目标问题文本之间具有较高的相似度,这使得目标问答对目标问题文本的理解具有参考性,提高了通过目标问答对理解目标问题文本时的准确性。
步骤103,根据至少一个目标问答对,通过大语言模型,得到目标问题文本对应的目标答案。
大语言模型也叫大型语言模型,是一种人工智能模型,它的目的是理解和生成人类语言大语言模型在大量的文本数据上进行训练,可以执行众多任务,包括但不限于文本总结、翻译、情感分析等等。
本步骤根据目标问答对,利用大语言模型,得到目标问题文本对应的目标答案。通过借助大语言模型,利用大语言模型强大的理解能力,基于与目标问题文本相似的目标问答对,使得能够充分理解目标问题文本,从而得到准确的与目标问题文本更加匹配的目标答案。
这样,本实施例通过文本检索模型从语料库中检索得到与目标问题文本相似的目标问答对,根据目标问答对,利用大语言模型回答目标问题文本,得到与目标问题文本相对应的目标答案;有效地利用了大语言模型的能力,使得大语言模型能够通过目标问答对充分理解目标问题文本,对问题进行分析和匹配,提升了问答的能力,从而得到更加准确的答案,解决了常见问答方法对复杂语句错误理解或者理解不够准确的问题。
在一些实施例中,根据目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对,包括:
对目标问题文本进行向量化表示,得到第一文本向量;
将第一文本向量和第二文本向量输入至所述文本检索模型中,得到文本检索模型输出的检索结果;其中第二文本向量为语料库中问题文本和答案文本的向量化表示,检索结果用于指示所述第二文本向量中与第一文本向量的相似度大于所述第一预设阈值的目标文本向量;
将目标文本向量所属的问答对确定为目标问答对。
具体地,文本向量化表示指用数值向量表示文本的语义。文本向量化的表示方法包括词向量模型、句向量模型等,具体可以包括词袋模型(Bag of Words Model)、词频-逆文档频率(TF-IDF)、单词-向量模型(Word2vec)、文档-向量模型(Doc2vec)等方式,在此并不对向量化表示方法进行限定。
本实施例对目标问题文本进行向量化表示得到第一文本向量,并对语料库中问题文本和答案文本的向量化表示,得到第二文本向量。但需要说明的是,对目标问题文本进行向量化表示的方式与对问题文本和答案文本进行向量化表示的方式相同,以保证能够计算第一文本向量与第二文本向量之间的相似度。
第一预设阈值可根据实际情况进行设定,在此并不作具体限定。
本实施例将第一文本向量与第二文本向量输入至文本检索模型中,文本检索模型输出相应的检索结果,该检索结果用于指示第二文本向量中与第一文本向量的相似度大于第一预设阈值的目标文本向量。在确定目标文本向量后,可以将该目标文本向量所对应的问答对确定为目标问答对,从而保证了目标问答对与目标问题文本之间具有较高的相似度,实现了从语料中查询得到与目标问题文本相近的目标问答对,保证了目标问答对的可参考性。
此外,在一些实施例中,根据目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对之前,还包括:
对语料库中的问题文本和答案文本进行向量化表示,得到第三文本向量;
从第三文本向量中筛选得到第二文本向量,其中任意两个第二文本向量之间的相似度小于第二预设阈值。
具体地,第三文本向量是语料库中的所有问题文本和答案文本进行向量化表示的结果,本实施例在得到第三文本向量之后,由于有些问答比较相似甚至是重复,因此为了避免语料库中存在重复的向量,本实施例对所有第三文本向量进行相似度的计算,如果有两个向量的相似度大于第二预设阈值,则将其中一个第三文本向量进行删除,从而筛选得到第二文本向量,使得任意两个第二文本向量之间的相似度小于第二预设阈值,实现了第二文本向量均为有效向量。
此外,计算文本向量之间的相似度时,可以采用余弦距离、欧式距离等计算方式。另外,第二预设阈值也可以根据具体需求进行设定,在此不作具体限定。
另外,需要说明的是,在对语料库中的问题文本和答案文本进行向量化表示,得到第三文本向量之前,可以将问题文本和答案文本中超过预设文本长度的文本截断并删除,且对剩余部分进行向量化表示得到第三文本向量。例如作为一个示例,该预设文本长度可以为1000。这样通过截断超过预设文本长度的部分,在保证了能够充分表示文本语义的同时,减少了向量化表示的计算量。
此外,在对语料库中的问题文本和答案文本进行向量化表示,得到第三文本向量之前,还可以在问题对的文本长度大于预设长度阈值的情况下,按照预设长度或换行符对问题对进行切分,然后再对问题文本和答案文本进行向量化表示得到第三文本向量。这样使得能够更方便的对文本进行向量化表示。
例如,作为一个示例,在语料库中,一个问题对可以标记为:{问题文本:“介绍一下酒店中餐厅”,答案文本:“酒店中餐厅,A餐厅,位于酒店后院停车场左侧,两层阁楼,装修别致,环境优雅,主营本地风味,设有独立包厢,小型宴会厅,提供午餐、晚餐服务!订餐、送餐电话是XXXX”}。在上述问题文本和答案文本中,进行向量化表示,进行编码得到对应的向量,本实施例可以取向量的长度为1024。
另外,在一些实施例中,根据至少一个目标问答对,通过大语言模型,得到目标问题文本对应的目标答案,包括:
在至少一个目标问答对的数量大于两个的情况下,从至少一个目标问答对中选择预设个候选问答对,其中候选问答对所对应的相似度高于目标问答对中未被选择的问答对所对应的相似度;
将候选问答对所对应的文本向量、目标问题文本所对应的第一文本向量以及预先设置的第一指令文本输入至大语言模型中,得到大语言模型输出的所述目标答案。
具体地,候选问答对所对应的相似度高于目标问答对中未被选择的问答对所对应的相似度,即候选问答对是目标问答对中与目标问题文本相似度最高的预设个问答对。例如,作为一个示例,假设至少一个目标问答对包括R1、R2、R3…Rn共N个问答对,所需的候选问答对的个数为3个,若按照与目标问题文本之间的相似度大小进行排序,R1、R2、R3…Rn与目标问题文本之间的相似度依次降低,则可以选择得到候选问答对为R1、R2和R3。
得到候选问答对后,可以将候选问答对所对应的文本向量、目标问题文本所对应的第一文本向量以及预先设置的第一指令文本输入至大语言模型中,得到大语言模型输出的目标答案。具体的,第一指令文本可以是提示词,例如可以为“根据如下候选问答对,回答如下问题”“当前知道如下候选问答对,请帮我回答如下问题”等。
这样,通过选择预设个候选问答对,使得在保证了所选取的问答对与目标问题文本最为相似的同时,减少了大语言模型的输入量,从而减少了大语言模型的计算量,有利于大语言模型相应的输入层、隐藏层以及输出层的后续计算,且能够得到一个准确的目标答案。
在一些实施例中,根据至少一个目标问答对,通过大语言模型,得到目标问题文本对应的目标答案之后,还包括:
通过预先训练得到的答案验证模型对目标答案进行验证,得到验证结果;
在验证结果指示目标答案为有效答案的情况下,将目标答案确定为最终答案;
在验证结果指示所述目标答案为无效答案的情况下,将预先设置的答案确定为最终答案。
具体地,答案验证模型为能够验证目标答案是否为有效答案的一个判断模型,它能对目标答案的有效性进行判定。具体的,该答案验证模型可以为二分类模型。本实施例可以将目标答案、目标问题文本和候选问答对共同输入答案验证模型,得到答案验证模型输出的验证结果,其中该验证结果可以包括对结果进行二分类的指示性信息,例如该验证结果可以包括是或否,且当验证结果为是时,指示目标答案为有效答案,此时可以将目标答案确定为最终答案;当验证结果为否时,指示目标答案为无效答案,此时说明不能保证该目标答案的准确性,可以将预先设置的答案确定为最终答案。
其中,预先设置的答案可以包括“不知道”“让用户换个说法”“转人工回答”等,当然该预先设置的答案可以根据需求进行设定。
这样,本实施例通过答案验证模型对目标答案的有效性进行判定,进一步确保了目标答案的准确性,且防止了大语言模型的过度回答,并且防止了大语言模型给出错误回答,提高了最终答案的准确性。
此外,在一些实施例中,通过预先训练得到的答案验证模型对目标答案进行验证,得到验证结果之前,还包括:
根据语料库确定训练集,其中训练集中包括正例样本和负例样本,正例样本包括第一问题样本、第一答案样本以及指示第一答案样本为有效答案的标签,负例样本包括第二问题样本、第二答案样本以及指示第二答案样本为无效答案的标签;
根据语料库以及训练集,对预先设置的二分类模型进行训练,得到答案验证模型。
具体的,训练集中包括正例样本和负例样本。正例样本包括第一问题样本、第一答案样本以及指示第一答案样本为有效答案的标签,其中第一答案样本为与第一问题样本相对应的答案;负例样本包括第二问题样本、第二答案样本以及指示第二答案样本为无效答案的标签,其中第二答案样本为与第二问题样本不相匹配的答案,即为无效答案。通过在训练集中设置正负例样本,提高了所训练得到的答案验证模型的准确性。
需要说明的是,二分类模型可以包括卷积神经网络(Convolutional NeuralNetworks,CNN)、循环神经网络(Recurrent Neural Network,RNN),在此并不对进行具体限定。
通过语料库中的问答对以及正负例样本对预先设置的二分类模型进行训练时,可以将问答对、正例样本中的第一问题样本、第一答案样本输入二分类模型,并且将问答对、负例样本中的第二问题样本、第二答案样本输入二分类模型,检测二分类模型输出的验证结果是否与标签相同。
这样通过语料库以及正负例样本训练得到答案验证模型,保证了所训练得到的答案验证模型的准确性。
另外,在一些实施例中,根据语料库确定训练集,包括:
从语料库中选择至少部分问答对;
从至少部分问答对中选择任意第一问答对,并将任意第一问答对中的问题文本和答案文本对应的确定为第一问题样本和第一答案样本;或者,根据至少部分问答对中的答案文本以及预先设置的第二指令文本,通过大语言模型生成第一问题样本;并根据第一问题样本以及预先设置的第三指令文本,通过大语言模型生成第一答案样本;
从至少部分问答对中任意第二问答对中选取得到第二问题样本,并从除第二问答对之外的问答对中选取得到第二答案样本;或者,获取语料库中除至少部分问答对之外的任意第三问答对,并将任意第三问答对中的问题文本和答案文本对应的确定为第二问题样本和第二答案样本。
具体地,在上述实施例中,第一问题样本和第一答案样本可以通过下述任意方式获取:
其一,直接将语料库中至少部分问答对中的任意问答对确定为正例样本,也就是直接将至少部分问答对中的问题文本和答案文本对应的确定为第一问题样本和第一答案样本。例如,假设至少部分问答对包括{pair1,pair2,…,pairk},则可以将pair2对应的问题文本和答案文本对应的确定为第一问题样本和第一答案样本,这样保证了第一答案样本与第一问题文本相对应,从而保证了所选取的第一问题样本和第一答案样本为正例样本,且标签指示答案有效。
其二,利用大语言模型构造得到正例样本。具体的,本实施例可以利用语料库中的至少部分问答对pair,构造第二指令文本,通过大语言模型生成新的第一问题样本,然后利用大语言模型,通过该构造的第三指令文本生成与第一问题样本对应的第一答案样本。其中,第二指令文本可以为提示词或指令词,例如可以为“根据下述的答案文本生成可能的问题”;第三指令文本同样可以为提示词或指令词,例如可以为“根据下面的答案文本,帮我回答XX问题(该问题即为新生成的问题)”。
例如,作为一个示例,假设语料库中的一个问题对为:{问题文本:“介绍一下酒店中餐厅”,答案文本:“酒店中餐厅,A餐厅,位于酒店后院停车场左侧,两层阁楼,装修别致,环境优雅,主营本地风味,设有独立包厢,小型宴会厅,提供午餐、晚餐服务!订餐、送餐电话是XXXX”}。首先可以根据答案文本,构造大语言模型需要的指令文本比如“根据下面的内容,帮我想几个可以问的问题。内容是:酒店中餐厅,A餐厅,位于酒店后院停车场左侧,两层阁楼,装修别致,环境优雅,主营本地风味,设有独立包厢,小型宴会厅,提供午餐、晚餐服务!订餐、送餐电话是XXXX”,这样大语言模型可能会返回一个新的问题:“酒店晚餐的风味是什么?”。之后利用该问题,可以再次构造指令文本“根据下面的介绍,帮我回答酒店晚餐的风味是什么?介绍内容为:酒店中餐厅,A餐厅,位于酒店后院停车场左侧,两层阁楼,装修别致,环境优雅,主营本地风味,设有独立包厢,小型宴会厅,提供午餐、晚餐服务!订餐、送餐电话是XXXX”,这样大语言模型可能返回一个新的答案:“酒店主要是本地风味”。
这样通过上述方式均实现了正例样本的扩展,丰富了正例样本。
在上述实施例中,第二问答对为负例样本。第二问题样本和第二答案样本可以通过下述任意方式获取:
其一,从一个问答对中选取问题样本,并从另一个问答对中选取答案样本,使得答案与问题不相匹配,从而得到负例样本。例如,假设至少部分问答对包括{pair1,pair2,…,pairk},可以从pair1中选取问题样本,并从pair2中选取答案样本,这样使得第二答案样本与第二问题文本不匹配,从而保证了所选取的第二问题样本和第二答案样本为负例样本,且标签指示答案无效。
其二,从语料库中除至少部分问答对之外选取任意第三问答对作为负例样本。具体的,由于至少部分问答对是大语言模型的训练集来源,此时第三问答对中的答案无法从至少部分问答对中获得,使得大语言模型输出的答案与第二问题文本不匹配,实现了第三问答对为负例样本,且标签指示答案无效。
这样通过上述任意方式均实现了负例样本的选取,且能够得到至少部分问答对、正例样本和负例样本组成的训练数据,并能够通过该训练数据对二分类模型进行训练得到答案验证模型,保证了答案验证模型的准确性。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图2是本申请实施例提供的一种问答装置的示意图。如图2所示,该问答装置包括:
问题模块201,用于获取待解答的目标问题文本;
搜索模块202,用于根据所述目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对,其中所述语料库中包括多个问答对,所述问答对包括问题文本和与所述问题文本对应的答案文本,所述目标问答对与所述目标问题文本之间的相似度大于第一预设阈值;
解答模块203,用于根据所述至少一个目标问答对,通过大语言模型,得到所述目标问题文本对应的目标答案。
根据本申请实施例提供的技术方案,通过问题模块获取待解答的目标问题文本,再通过搜索模块利用文本检索模型从预先设置的语料库中检索得到至少一个目标问答对,该目标问答对是语料库中与目标问题文本十分相似的一个问答对,解答模块根据至少一个目标问答对利用大语言模型得到目标问题文本所对应的目标答案。大语言模型对于复杂的语言具有更好的理解能力,利用训练后的大语言模型的能力并基于至少一个目标问答对,能够获得更为准确的目标答案,从而解决现有技术中存在常见问答方法对复杂语句识别不准确的问题。
在一些实施例中,搜索模块具体用于,用于对目标问题文本进行向量化表示,得到第一文本向量;将第一文本向量和第二文本向量输入至检索模型中,得到检索模型输出的检索结果;其中第二文本向量为语料库中问题文本和答案文本的向量化表示,检索结果用于指示第二文本向量中与第一文本向量的相似度大于第一预设阈值的目标文本向量;将目标文本向量所属的问答对确定为所述目标问答对。
在一些实施例中,问答装置还包括向量化表示模块,用于对语料库中的问题文本和答案文本进行向量化表示,得到第三文本向量;从第三文本向量中筛选得到第二文本向量,其中任意两个第二文本向量之间的相似度小于第二预设阈值。
在一些实施例中,解答模块具体用于,在至少一个目标问答对的数量大于两个的情况下,从至少一个目标问答对中选择预设个候选问答对,其中候选问答对所对应的所述相似度高于目标问答对中未被选择的问答对所对应的相似度;将候选问答对所对应的文本向量、目标问题文本所对应的第一文本向量以及预先设置的第一指令文本输入至大语言模型中,得到大语言模型输出的所述目标答案。
在一些实施例中,问答装置还包括验证模块,用于通过预先训练得到的答案验证模型对目标答案进行验证,得到验证结果;在验证结果指示目标答案为有效答案的情况下,将目标答案确定为最终答案;在验证结果指示目标答案为无效答案的情况下,将预先设置的答案确定为最终答案。
在一些实施例中,验证模块具体用于,根据语料库确定训练集,其中训练集中包括正例样本和负例样本,正例样本包括第一问题样本、第一答案样本以及指示所述第一答案样本为有效答案的标签,负例样本包括第二问题样本、第二答案样本以及指示所述第二答案样本为无效答案的标签;根据语料库以及训练集,对预先设置的二分类模型进行训练,得到答案验证模型。
在一些实施例中,验证模块具体用于,从语料库中选择至少部分问答对;从至少部分问答对中选择任意第一问答对,并将任意第一问答对中的问题文本和答案文本对应的确定为第一问题样本和所述第一答案样本;或者,根据至少部分问答对中的答案文本以及预先设置的第二指令文本,通过大语言模型生成第一问题样本;并根据第一问题样本以及预先设置的第三指令文本,通过大语言模型生成所述第一答案样本;
从至少部分问答对中任意第二问答对中选取得到所述第二问题样本,并从除第二问答对之外的问答对中选取得到第二答案样本;或者,获取语料库中除至少部分问答对之外的任意第三问答对,并将任意第三问答对中的问题文本和答案文本对应的确定为第二问题样本和所述第二答案样本。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图3是本申请实施例提供的电子设备3的示意图。如图3所示,该实施例的电子设备3包括:处理器301、存储器302以及存储在该存储器302中并且可在处理器301上运行的计算机程序303。处理器301执行计算机程序303时实现上述各个方法实施例中的步骤。或者,处理器301执行计算机程序303时实现上述各装置实施例中各模块/单元的功能。
电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解,图3仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器301可以是中央处理单元(Central Processing Unit,CPU),也可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器302可以是电子设备3的内部存储单元,例如,电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备,例如,电子设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其他程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种问答方法,其特征在于,包括:
获取待解答的目标问题文本;
根据所述目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对,其中所述语料库中包括多个问答对,所述问答对包括问题文本和与所述问题文本对应的答案文本,所述目标问答对与所述目标问题文本之间的相似度大于第一预设阈值;
根据所述至少一个目标问答对,通过大语言模型,得到所述目标问题文本对应的目标答案。
2.根据权利要求1所述的问答方法,其特征在于,所述根据所述目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对,包括:
对所述目标问题文本进行向量化表示,得到第一文本向量;
将所述第一文本向量和第二文本向量输入至所述文本检索模型中,得到所述文本检索模型输出的检索结果;其中所述第二文本向量为所述语料库中问题文本和答案文本的向量化表示,所述检索结果用于指示所述第二文本向量中与所述第一文本向量的相似度大于所述第一预设阈值的目标文本向量;
将所述目标文本向量所属的问答对确定为所述目标问答对。
3.根据权利要求2所述的问答方法,其特征在于,所述根据所述目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对之前,还包括:
对所述语料库中的问题文本和答案文本进行向量化表示,得到第三文本向量;
从所述第三文本向量中筛选得到所述第二文本向量,其中任意两个所述第二文本向量之间的相似度小于第二预设阈值。
4.根据权利要求1所述的问答方法,其特征在于,所述根据所述至少一个目标问答对,通过大语言模型,得到所述目标问题文本对应的目标答案,包括:
在所述至少一个目标问答对的数量大于两个的情况下,从所述至少一个目标问答对中选择预设个候选问答对,其中所述候选问答对所对应的所述相似度高于所述目标问答对中未被选择的问答对所对应的相似度;
将所述候选问答对所对应的文本向量、所述目标问题文本所对应的第一文本向量以及预先设置的第一指令文本输入至所述大语言模型中,得到所述大语言模型输出的所述目标答案。
5.根据权利要求1所述的问答方法,其特征在于,所述根据所述至少一个目标问答对,通过大语言模型,得到所述目标问题文本对应的目标答案之后,还包括:
通过预先训练得到的答案验证模型对所述目标答案进行验证,得到验证结果;
在所述验证结果指示所述目标答案为有效答案的情况下,将所述目标答案确定为最终答案;
在所述验证结果指示所述目标答案为无效答案的情况下,将预先设置的答案确定为所述最终答案。
6.根据权利要求5所述的问答方法,其特征在于,所述通过预先训练得到的答案验证模型对所述目标答案进行验证,得到验证结果之前,还包括:
根据所述语料库确定训练集,其中所述训练集中包括正例样本和负例样本,正例样本包括第一问题样本、第一答案样本以及指示所述第一答案样本为有效答案的标签,所述负例样本包括第二问题样本、第二答案样本以及指示所述第二答案样本为无效答案的标签;
根据所述语料库以及所述训练集,对预先设置的二分类模型进行训练,得到所述答案验证模型。
7.根据权利要求6所述的问答方法,其特征在于,所述根据所述语料库确定训练集,包括:
从所述语料库中选择至少部分问答对;
从所述至少部分问答对中选择任意第一问答对,并将所述任意第一问答对中的问题文本和答案文本对应的确定为所述第一问题样本和所述第一答案样本;或者,根据所述至少部分问答对中的答案文本以及预先设置的第二指令文本,通过所述大语言模型生成所述第一问题样本;并根据所述第一问题样本以及预先设置的第三指令文本,通过所述大语言模型生成所述第一答案样本;
从所述至少部分问答对中任意第二问答对中选取得到所述第二问题样本,并从除所述第二问答对之外的问答对中选取得到所述第二答案样本;或者,获取所述语料库中除所述至少部分问答对之外的任意第三问答对,并将所述任意第三问答对中的问题文本和答案文本对应的确定为所述第二问题样本和所述第二答案样本。
8.一种问答方法的装置,其特征在于,包括:
问题模块,用于获取待解答的目标问题文本;
搜索模块,用于根据所述目标问题文本,通过文本检索模型,从预先设置的语料库中检索得到至少一个目标问答对,其中所述语料库中包括多个问答对,所述问答对包括问题文本和与所述问题文本对应的答案文本,所述目标问答对与所述目标问题文本之间的相似度大于第一预设阈值;
解答模块,用于根据所述至少一个目标问答对,通过大语言模型,得到所述目标问题文本对应的目标答案。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310720673.3A CN116662518A (zh) | 2023-06-16 | 2023-06-16 | 问答方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310720673.3A CN116662518A (zh) | 2023-06-16 | 2023-06-16 | 问答方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116662518A true CN116662518A (zh) | 2023-08-29 |
Family
ID=87711698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310720673.3A Withdrawn CN116662518A (zh) | 2023-06-16 | 2023-06-16 | 问答方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662518A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574286A (zh) * | 2024-01-11 | 2024-02-20 | 阿里健康科技(杭州)有限公司 | 标签值的确定方法、装置、设备和存储介质 |
CN117574286B (zh) * | 2024-01-11 | 2024-05-24 | 阿里健康科技(杭州)有限公司 | 标签值的确定方法、装置、设备和存储介质 |
-
2023
- 2023-06-16 CN CN202310720673.3A patent/CN116662518A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574286A (zh) * | 2024-01-11 | 2024-02-20 | 阿里健康科技(杭州)有限公司 | 标签值的确定方法、装置、设备和存储介质 |
CN117574286B (zh) * | 2024-01-11 | 2024-05-24 | 阿里健康科技(杭州)有限公司 | 标签值的确定方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475623B (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
CN107436864B (zh) | 一种基于Word2Vec的中文问答语义相似度计算方法 | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN107329949B (zh) | 一种语义匹配方法和系统 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CA3009758A1 (en) | Systems and methods for suggesting emoji | |
US10372819B2 (en) | Determining off-topic questions in a question answering system using probabilistic language models | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN110955766A (zh) | 一种自动扩充智能客服标准问题对的方法和系统 | |
CN111414746A (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
CN115470338B (zh) | 一种基于多路召回的多场景智能问答方法和系统 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
Alshammari et al. | TAQS: an Arabic question similarity system using transfer learning of BERT with BILSTM | |
Meenakshi et al. | Novel Shared Input Based LSTM for Semantic Similarity Prediction | |
CN107562907B (zh) | 一种智能律师专家案件应答装置 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN111858860B (zh) | 搜索信息处理方法及系统、服务器、计算机可读介质 | |
CN107609096B (zh) | 一种智能律师专家应答方法 | |
Chaimae et al. | Comparative study of Arabic word embeddings: evaluation and application | |
Karpagam et al. | Deep learning approaches for answer selection in question answering system for conversation agents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230829 |