CN114610853A - 一种智能问答的优化方法及装置、存储介质、终端 - Google Patents
一种智能问答的优化方法及装置、存储介质、终端 Download PDFInfo
- Publication number
- CN114610853A CN114610853A CN202210248099.1A CN202210248099A CN114610853A CN 114610853 A CN114610853 A CN 114610853A CN 202210248099 A CN202210248099 A CN 202210248099A CN 114610853 A CN114610853 A CN 114610853A
- Authority
- CN
- China
- Prior art keywords
- question
- vector
- phrase
- answered
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种智能问答的优化方法及装置、存储介质、终端,涉及自然语言处理技术领域,主要目的在于解决现有问答模型输出答案是否准确与初步提取的文章紧密相关,且模型部署困难,从而导致现有问答系统性能较差的问题。包括:接收待回答问题并计算与所述待回答问题对应的问题向量;获取预设短语库中的多个短语向量;基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率;根据所述匹配概率输出所述待回答问题的答案。主要用于智能问答系统。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种智能问答的优化方法及装置、存储介质、终端。
背景技术
随着大数据时代的到来和人工智能技术的飞速发展,人工智能设备已经遍布在各行各业,这些设备能够通过训练的模型实现语音识别、图像处理、翻译、文本分类等多种功能,智能问答就是其中之一。智能问答系统能够根据海量的语料信息,通过自然语言处理技术进行整理划分得到有序的知识结构,并针对问题进行快速的检索,获取问题的答案,能够满足各个领域的信息获取需求。
对于智能问答的实现方法,通常是通过收集大量的训练样本数据训练问答模型,问答模型识别输入的问题智能地输出问题的答案,具体地,问答模型主要是先针对给定的问题,从海量知识库中检索出于问题相关的文章,再从所有文章中提取出最符合给定问题的答案。也就是说,现有的问答系统输出的答案是否准确很大程度上取决于初步提取到的文章是否准确,且问答模型的基本处理单元为文章,但由于问答系统处理速度与输入长度的平方成正比关系,从而使得现有问答模型部署困难且处理时间较长,从而导致现有问答系统性能较差的问题。
发明内容
有鉴于此,本发明提供一种智能问答的优化方法及装置、存储介质、终端,主要目的在于解决现有问答模型输出答案是否准确与初步提取的文章紧密相关,且模型部署困难,从而导致现有问答系统性能较差的问题。
依据本发明一个方面,提供了一种智能问答的优化方法,包括:
接收待回答问题并计算与所述待回答问题对应的问题向量,所述问题向量为包含所述待回答问题的语义信息的向量;
获取预设短语库中的多个短语向量,各个所述短语向量为包含短语对应的上下文语义信息的向量;
基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度;
根据所述匹配概率输出所述待回答问题的答案。
进一步地,所述获取预设短语库中的多个短语向量之前,所述方法还包括:
获取文本库中的多个文章并按照短语粒度将各个所述文章进行划分,得到多个短语,每个短语在所属文章中对应有起始位置和结束位置;
将各个所述文章按照字符粒度输入第一BERT模型进行计算,得到多个字符向量;
根据所述起始位置对应的起始字符向量和所述结束位置对应的结束字符向量进行拼接,得到所述短语的短语向量;
基于所述多个文章包含的短语对应的短语向量生成所述预设短语库。
进一步地,所述接收待回答问题并计算与所述待回答问题对应的问题向量之前,所述方法还包括:
获取样本问题和样本问题答案;
提取样本向量集合,所述样本向量集合中包含有多个样本字符向量,且各个所述样本字符向量为基于所述样本问题答案所属文章生成的;
将所述样本问题依次输入第二BERT模型和第三BERT模型进行计算,分别得到问题起始向量和问题结束向量;
利用所述起始向量和所述问题结束向量进行拼接,得到样本问题向量;
根据所述样本问题向量和所述样本字符向量集合训练所述问答模型。
进一步地,所述根据所述样本问题向量和所述样本字符向量集合训练所述问答模型包括:
计算所述问题起始向量与所述样本字符向量集合中各个字符向量之间的第一向量内积,和计算所述问题结束向量与所述样本字符向量集合中各个字符向量之间的第二向量内积;
利用预置函数将所述第一向量内积和所述第二向量内积转换为第一概率和第二概率,所述第一概率用于标识字符为所述样本问题答案起始位置的概率,所述第二概率用于标识字符为所述样本问题答案结束位置的概率;
根据所述样本问题答案的实际位置、所述第一概率和所述第二概率调整模型参数,并得到所述问答模型。
进一步地,在得到所述问答模型之后,所述方法还包括:
根据所述第一概率和所述第二概率分别计算第一损失函数和第二损失函数;
根据所述第一损失函数和所述第二损失函数调整所述模型参数。
进一步地,所述接收待回答问题并计算与所述待回答问题对应的问题向量包括:
接收待回答问题并根据所述第二BERT模型和第三BERT模型分别计算与所述待回答问题对应的问题起始向量和问题结束向量;
利用所述与所述待回答问题对应的问题起始向量和问题结束向量进行拼接,得到所述待回答问题对应的问题向量。
进一步地,所述根据所述匹配概率输出所述待回答问题的答案包括:
将所述匹配概率按照降序进行排序并提取预设排序范围内的多个匹配概率;
将所述预设排序范围内的多个匹配概率分别对应的短语确定为所述待回答问题的答案并输出。
依据本发明另一个方面,提供了一种智能问答的优化装置,包括:
接收模块,用于接收待回答问题;
计算模块,用于计算与所述接收模块接收到的所述待回答问题对应的问题向量,所述问题向量为包含所述待回答问题的语义信息的向量;
获取模块,用于获取预设短语库中的多个短语向量,各个所述短语向量为包含短语对应的上下文语义信息的向量;
所述计算模块,还用于基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度;
输出模块,用于根据所述匹配概率输出所述待回答问题的答案。
进一步地,所述装置还包括:划分模块、第一拼接模块、生成模块,
所述获取模块,还用于获取文本库中的多个文章;
所述划分模块,用于按照短语粒度将各个所述文章进行划分,得到多个短语,每个短语在所属文章中对应有起始位置和结束位置;
所述计算模块,还用于将各个所述文章按照字符粒度输入第一BERT模型进行计算,得到多个字符向量;
所述第一拼接模块,用于根据所述起始位置对应的起始字符向量和所述结束位置对应的结束字符向量进行拼接,得到所述短语的短语向量;
所述生成模块,用于基于所述多个文章包含的短语对应的短语向量生成所述预设短语库。
进一步地,所述装置还包括:提取模块、第二拼接模块、训练模块,
所述获取模块,还用于获取样本问题和样本问题答案;
所述提取模块,用于提取样本向量集合,所述样本向量集合中包含有多个样本字符向量,且各个所述样本字符向量为基于所述样本问题答案所属文章生成的;
所述计算模块,还用于将所述样本问题依次输入第二BERT模型和第三BERT模型进行计算,分别得到问题起始向量和问题结束向量;
所述第二拼接模块,用于利用所述起始向量和所述问题结束向量进行拼接,得到样本问题向量;
所述训练模块,用于根据所述样本问题向量和所述样本字符向量集合训练所述问答模型。
进一步地,所述训练模块包括:
计算单元,用于计算所述问题起始向量与所述样本字符向量集合中各个字符向量之间的第一向量内积,和计算所述问题结束向量与所述样本字符向量集合中各个字符向量之间的第二向量内积;
转换单元,用于利用预置函数将所述第一向量内积和所述第二向量内积转换为第一概率和第二概率,所述第一概率用于标识字符为所述样本问题答案起始位置的概率,所述第二概率用于标识字符为所述样本问题答案结束位置的概率;
调整单元,用于根据所述样本问题答案的实际位置、所述第一概率和所述第二概率调整模型参数,并得到所述问答模型。
进一步地,
所述计算单元,还用于根据所述第一概率和所述第二概率分别计算第一损失函数和第二损失函数;
所述调整单元,还用于根据所述第一损失函数和所述第二损失函数调整所述模型参数。
进一步地,所述计算模块包括:
计算单元,用于根据所述第二BERT模型和第三BERT模型分别计算与所述待回答问题对应的问题起始向量和问题结束向量;
拼接单元,用于利用所述与所述待回答问题对应的问题起始向量和问题结束向量进行拼接,得到所述待回答问题对应的问题向量。
进一步地,所述输出模块包括:
排序单元,用于将所述匹配概率按照降序进行排序;
提取单元,用于提取预设排序范围内的多个匹配概率;
输出单元,用于将所述预设排序范围内的多个匹配概率分别对应的短语确定为所述待回答问题的答案并输出。
根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述智能问答的优化方法对应的操作。
根据本发明的再一方面,提供了一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述智能问答的优化方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种智能问答的优化方法及装置、存储介质、终端,与现有技术相比,本发明实施例通过接收待回答问题并计算与所述待回答问题对应的问题向量,所述问题向量为包含所述待回答问题的语义信息的向量;获取预设短语库中的多个短语向量,各个所述短语向量为包含短语对应的上下文语义信息的向量;基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度;根据所述匹配概率输出所述待回答问题的答案,使得在回答问题时无需先针对问题提取文章再从文章中提取问题答案,从而无需针对较长的输入长度部署模型,使得部署模型更加容易,本申请中通过直接根据短语库中的短语向量和待回答问题向量查找与问题答案,使得问题答案不再依赖初步提取文章是否准确,从而使得问题答案获取的更加准确,且基于短语粒度进行数据处理的问答效率更高,提升了问答系统的性能。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种智能问答的优化方法流程图;
图2示出了本发明实施例提供的另一种智能问答的优化方法流程图;
图3示出了本发明实施例提供的一种智能问答的优化装置组成框图;
图4示出了本发明实施例提供的另一种智能问答的优化装置组成框图;
图5示出了本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
针对现有的问答系统输出的答案是否准确很大程度上取决于初步提取到的文章是否准确,且问答模型的基本处理单元为文章,但由于问答系统处理速度与输入长度的平方成正比关系,从而使得现有问答模型部署困难且处理时间较长,从而导致现有问答系统性能较差的问题。本发明实施例提供了一种智能问答的优化方法,如图1所示,该方法包括:
101、接收待回答问题并计算与所述待回答问题对应的问题向量。
其中,所述问题向量为包含所述待回答问题的语义信息的向量。具体地,可以通过BERT模型计算与待回答问题对应的问题向量,并通过该问题向量反映问题的语义信息。
在本步骤中,接收的待回答问题可以为用户通过移动终端设备输入的文字问题,也可以为移动终端设备接收用户的语音信息并将语音信息转换为能够被智能问答系统识别的问题信息,以便于智能问答系统在接收到该问题之后计算问题向量,以便于根据该问题向量进行计算查询问题答案。
102、获取预设短语库中的多个短语向量。
其中,各个所述短语向量为包含短语对应的上下文语义信息的向量。
在本申请实施例中,短语为从文章中提取的、字符数量低于预设阈值的语句,如从文章中提取的连续不超过20个字的短语。根据提取到的短语生成相应的短语向量,并根据足量短语向量生成本步骤中的预设短语库,由于各短语向量能够反映短语的上下文信息,从而可以根据短语向量衡量短语是否可以作为待回答问题的答案。
103、基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率。
其中,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度。
需要说明的是,根据上述内容可知问题向量能够反映问题的语义信息,而短语向量能够反映短语在原文章内的上下文语义信息,因此遍历预设短语库中的短语向量,并通过预先训练的问答模型依次计算各个短语向量与问题向量之间的匹配度,以便根据匹配概率确定待回答问题的答案,使得模型部署更加容易实现,且基于短语粒度直接确定问题答案,无需先提取文章再从文章中提取答案,从而使得问答更加准确可靠。
104、根据所述匹配概率输出所述待回答问题的答案。
在本申请实施例中,本步骤可以为设定一定的匹配概率阈值,即输出超过概率阈值的匹配概率所对应的短语,作为待回答问题的答案,也可以为将匹配概率按照降序进行排序,并将排序中位列前N名的匹配概率对应的短语确定为问题答案并输出,但不限于此。
在一个本发明实施例中,为了完整说明本实施例的具体实施过程,提供了另一种智能问答的优化方法,如图2所示,该方法包括:
201、获取样本问题和样本问题答案。
在本申请实施例中,基于开源问答数据库SQuAD和Natural Question(NQ)提取样本问题和样本问题答案。
202、提取样本向量集合。
其中,所述样本向量集合中包含有多个样本字符向量,且各个所述样本字符向量为基于所述样本问题答案所属文章生成的。
如上述步骤中获取到的样本问题Q,其样本问题答案出现在文章di的短语k中,通过将文章di划分为长度不大于512的段落Pi1,Pi2,…,Pij,那么短语k必然位于其中一个段落中,假设短语k在Pi2中,将段落Pi2={W1,W2,…,Wm}(m表示段落的总字数,限制条件为m<512),作为输入通过BERT模型,得到段落中所有字的向量表示:
HPi2={H_1,H_2,…,H_m}
HPi2中的每个元素都表示原段落中每个字根据上下文信息学到的向量,即为本步骤中的样本向量集合。
203、将所述样本问题依次输入第二BERT模型和第三BERT模型进行计算,分别得到问题起始向量和问题结束向量。
其中,第二BERT模型和第三BERT模型分别为基于BERT进行训练得到的,通过触发第二BERT模型学习问题对应的开始向量,第三BERT模型学习问题对应的结束向量。在本申请实施例中将问题依次输入两个不同的BERT模型进行计算,得到与问题对应的开始向量和结束向量,以使得赋予问题起始和结束标识,以便于在确定问题答案时可以根据起始和结束向量依次映射查找短语答案的起始和结束向量,实现了问题起始端到短语起始端、问题结束端到短语结束端的端对端答案查询。
204、利用所述起始向量和所述问题结束向量进行拼接,得到样本问题向量。
将问题Q={q1,q2,q3,…,ql}(其中l是问题的长度),左边拼接特殊字符[CLS],以使得输入BERT模型后模型能够识别并处理特殊字符后的数据,而后将拼接后的数据集输入至第二BERT模型和第三BERT模型,并分别得到问题Q对应的起始向量表示和结束向量表示:
H_Qs={Hs_cls,Hs_1,…,Hs_l}
H_Qe={He_cls,He_1,…,He_l}
取出向量表示Hs_cls,He_cls进行拼接,作为问题Q的最终向量表示EQ:EQ=[Hs_cls,He_cls]。
205、根据所述样本问题向量和所述样本字符向量集合训练所述问答模型。
根据上述步骤201至步骤204已经获取到了用于模型学习的样本数据集,即样本问题向量和样本问题答案所在原始文章字符对应的字符向量集合,在本步骤中便可以进行模型学习,以使得模型能够获取到问题答案。
具体地,在本申请实施例中步骤205包括:计算所述问题起始向量与所述样本字符向量集合中各个字符向量之间的第一向量内积,和计算所述问题结束向量与所述样本字符向量集合中各个字符向量之间的第二向量内积;利用预置函数将所述第一向量内积和所述第二向量内积转换为第一概率和第二概率,所述第一概率用于标识字符为所述样本问题答案起始位置的概率,所述第二概率用于标识字符为所述样本问题答案结束位置的概率;根据所述样本问题答案的实际位置、所述第一概率和所述第二概率调整模型参数,并得到所述问答模型。
如上述示例样本问题Q,根据样本问题Q的问题向量EQ=[Hs_cls,He_cls]和段落Pi2对应的样本向量集合HPi2={H_1,H_2,…,H_m},依次计算问题Q的开始向量Hs_cls与样本向量集合内各个向量之间的向量内积,以及问题的结束向量与样本向量集合内各个向量之间的向量内积,得到Zs_1,Zs_2,…,Zs_m=[Hs_clsTH_1,Hs_clsTH_2,…,Hs_clsTH_m]和Ze_1,Ze_2,…,Ze_m=[He_clsTH_1,He_clsTH_2,…,He_clsTH_m],其中,T代表向量内积。而后通过softmax函数将各个向量内积结果转换为概率值,得到Ps=softmax(Zs_1,Zs_2,…,Zs_m)和Pe=softmax(Ze_1,Ze_2,…,Ze_m)。
由于Ps中的每个概率值代表根据问题Q,段落中每个位置是正确答案开始位置的匹配度,Pe中的每个概率值代表根据问题Q,段落中每个位置是正确答案结束位置的匹配度,因此结合样本问题答案的实际位置进行模型学习,并根据模型输出概率结果调整模型参数。
进一步地,为了提升问答模型准确性,本申请实施例还包括:根据所述第一概率和所述第二概率分别计算第一损失函数和第二损失函数;根据所述第一损失函数和所述第二损失函数调整所述模型参数。
其中,第一损失函数为样本问题答案起始位置start(k)对应概率值的负对数,即Ls=-log(Ps_start(k)),第二损失函数为样本问题答案结束位置end(k)对应概率值的负对数,即Le=-log(Pe_start(k)),而后计算第一损失函数和第二损失函数的均值,L=(Ls+Le)/2,并根据这个均值对模型参数进行调整,以使得损失函数越来越小,最终趋向稳定。
206、接收待回答问题并计算与所述待回答问题对应的问题向量。
其中,所述问题向量为包含所述待回答问题的语义信息的向量。而本步骤中具体的概念解释和实施方式可以参考上述步骤101中相应描述,本申请实施例在此不再赘述。
具体地,步骤206包括:接收待回答问题并根据所述第二BERT模型和第三BERT模型分别计算与所述待回答问题对应的问题起始向量和问题结束向量;利用所述与所述待回答问题对应的问题起始向量和问题结束向量进行拼接,得到所述待回答问题对应的问题向量。
根据上述内容可知,在问答模型学习过程中,是基于样本问题对应的开始向量和结束向量,与样本向量集合内的各个字符向量表示进行内积计算并输出最终的概率值,从而实现由问题开始端到答案的开始、问题结束端到答案结束端的端到端的映射关系,因此在基于问答模型回答问题过程中,同样需要根据待回答问题进行计算,得到与待回答问题对应的开始向量表示和结束向量表示,并根据两个向量表示进行拼接,得到最终的能够标识待回答问题语义信息的问题向量。
207、获取预设短语库中的多个短语向量,各个所述短语向量为包含短语对应的上下文语义信息的向量。
在本申请实施例中,在步骤207之前还包括:获取文本库中的多个文章并按照短语粒度将各个所述文章进行划分,得到多个短语,每个短语在所属文章中对应有起始位置和结束位置;将各个所述文章按照字符粒度输入第一BERT模型进行计算,得到多个字符向量;根据所述起始位置对应的起始字符向量和所述结束位置对应的结束字符向量进行拼接,得到所述短语的短语向量;基于所述多个文章包含的短语对应的短语向量生成所述预设短语库。
在本申请实施例中,采用开源的英文维基百科作为知识库,知识库内的文章集合为D={d1,d2,d3,…,dk},k大约为5000000。对于文档库D中的每一篇文章,首先从中提取连续的不超过20个字的短语k,短语的起始位置为start(k),短语结束位置为end(k),且将文章划分为不超过512个字符的段落,将各个段落内的字符输入BERT模型之后,便可以生成各个段落相应的字符向量集合HPi={H_1,H_2,…,H_m},根据短语起始位置start(k)对应的字符向量表示H_start(k),和结束位置end(k)对应的字符向量表示H_end(k),进而便可以得到短语向量Ek,Ek=[H_start(k),H_end(k)],根据文档库内全部文章进行划分段落、提取短语、生成短语向量等操作,最终得到本步骤中的预设短语库。
208、基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率。
其中,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度。
在本申请实施例中,可以利用Facebook开源框架Faiss对所有短语的短语向量表示建立索引,以便于在本步骤中根据索引遍历全部短语向量并利用问答模型计算各个短语向量与待回答问题向量之间的匹配概率。
209、根据所述匹配概率输出所述待回答问题的答案。
具体地,步骤209包括:将所述匹配概率按照降序进行排序并提取预设排序范围内的多个匹配概率;将所述预设排序范围内的多个匹配概率分别对应的短语确定为所述待回答问题的答案并输出。
本发明提供了一种智能问答的优化方法及装置、存储介质、终端,与现有技术相比,本发明实施例通过接收待回答问题并计算与所述待回答问题对应的问题向量,所述问题向量为包含所述待回答问题的语义信息的向量;获取预设短语库中的多个短语向量,各个所述短语向量为包含短语对应的上下文语义信息的向量;基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度;根据所述匹配概率输出所述待回答问题的答案,使得在回答问题时无需先针对问题提取文章再从文章中提取问题答案,从而无需针对较长的输入长度部署模型,使得部署模型更加容易,本申请中通过直接根据短语库中的短语向量和待回答问题向量查找与问题答案,使得问题答案不再依赖初步提取文章是否准确,从而使得问题答案获取的更加准确,且基于短语粒度进行数据处理的问答效率更高,提升了问答系统的性能。
进一步的,作为对上述图1所示方法的实现,本申请实施例提供了一种智能问答的优化装置,如图3所示,该装置包括:接收模块31、计算模块32、获取模块33、输出模块34。
接收模块31,用于接收待回答问题;
计算模块32,用于计算与所述接收模块接收到的所述待回答问题对应的问题向量,所述问题向量为包含所述待回答问题的语义信息的向量;
获取模块33,用于获取预设短语库中的多个短语向量,各个所述短语向量为包含短语对应的上下文语义信息的向量;
所述计算模块32,还用于基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度;
输出模块34,用于根据所述匹配概率输出所述待回答问题的答案。
进一步地,如图4所示,所述装置还包括:划分模块35、第一拼接模块36、生成模块37,
所述获取模块33,还用于获取文本库中的多个文章;
所述划分模块35,用于按照短语粒度将各个所述文章进行划分,得到多个短语,每个短语在所属文章中对应有起始位置和结束位置;
所述计算模块32,还用于将各个所述文章按照字符粒度输入第一BERT模型进行计算,得到多个字符向量;
所述第一拼接模块36,用于根据所述起始位置对应的起始字符向量和所述结束位置对应的结束字符向量进行拼接,得到所述短语的短语向量;
所述生成模块37,用于基于所述多个文章包含的短语对应的短语向量生成所述预设短语库。
进一步地,如图4所示,所述装置还包括:提取模块38、第二拼接模块39、训练模块310,
所述获取模块33,还用于获取样本问题和样本问题答案;
所述提取模块38,用于提取样本向量集合,所述样本向量集合中包含有多个样本字符向量,且各个所述样本字符向量为基于所述样本问题答案所属文章生成的;
所述计算模块32,还用于将所述样本问题依次输入第二BERT模型和第三BERT模型进行计算,分别得到问题起始向量和问题结束向量;
所述第二拼接模块39,用于利用所述起始向量和所述问题结束向量进行拼接,得到样本问题向量;
所述训练模块310,用于根据所述样本问题向量和所述样本字符向量集合训练所述问答模型。
进一步地,如图4所示,所述训练模块310包括:
计算单元3101,用于计算所述问题起始向量与所述样本字符向量集合中各个字符向量之间的第一向量内积,和计算所述问题结束向量与所述样本字符向量集合中各个字符向量之间的第二向量内积;
转换单元3102,用于利用预置函数将所述第一向量内积和所述第二向量内积转换为第一概率和第二概率,所述第一概率用于标识字符为所述样本问题答案起始位置的概率,所述第二概率用于标识字符为所述样本问题答案结束位置的概率;
调整单元3103,用于根据所述样本问题答案的实际位置、所述第一概率和所述第二概率调整模型参数,并得到所述问答模型。
进一步地,
所述计算单元3101,还用于根据所述第一概率和所述第二概率分别计算第一损失函数和第二损失函数;
所述调整单元3103,还用于根据所述第一损失函数和所述第二损失函数调整所述模型参数。
进一步地,如图4所示,所述计算模块32包括:
计算单元321,用于根据所述第二BERT模型和第三BERT模型分别计算与所述待回答问题对应的问题起始向量和问题结束向量;
拼接单元322,用于利用所述与所述待回答问题对应的问题起始向量和问题结束向量进行拼接,得到所述待回答问题对应的问题向量。
进一步地,如图4所示,所述输出模块34包括:
排序单元341,用于将所述匹配概率按照降序进行排序;
提取单元342,用于提取预设排序范围内的多个匹配概率;
输出单元343,用于将所述预设排序范围内的多个匹配概率分别对应的短语确定为所述待回答问题的答案并输出。
本发明实施例提供了一种智能问答的优化装置,与现有技术相比,本发明实施例通过接收待回答问题并计算与所述待回答问题对应的问题向量,所述问题向量为包含所述待回答问题的语义信息的向量;获取预设短语库中的多个短语向量,各个所述短语向量为包含短语对应的上下文语义信息的向量;基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度;根据所述匹配概率输出所述待回答问题的答案,使得在回答问题时无需先针对问题提取文章再从文章中提取问题答案,从而无需针对较长的输入长度部署模型,使得部署模型更加容易,本申请中通过直接根据短语库中的短语向量和待回答问题向量查找与问题答案,使得问题答案不再依赖初步提取文章是否准确,从而使得问题答案获取的更加准确,且基于短语粒度进行数据处理的问答效率更高,提升了问答系统的性能。
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的智能问答的优化方法。
图5示出了根据本发明一个实施例提供的一种终端的结构示意图,本发明具体实施例并不对终端的具体实现做限定。
如图5所示,该终端可以包括:处理器(processor)402、通信接口(CommunicationsInterface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述智能问答的优化方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
接收待回答问题并计算与所述待回答问题对应的问题向量,所述问题向量为包含所述待回答问题的语义信息的向量;
获取预设短语库中的多个短语向量,各个所述短语向量为包含短语对应的上下文语义信息的向量;
基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度;
根据所述匹配概率输出所述待回答问题的答案。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种智能问答的优化方法,其特征在于,包括:
接收待回答问题并计算与所述待回答问题对应的问题向量,所述问题向量为包含所述待回答问题的语义信息的向量;
获取预设短语库中的多个短语向量,各个所述短语向量为包含短语对应的上下文语义信息的向量;
基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与所述待回答问题之间的匹配概率,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度;
根据所述匹配概率输出所述待回答问题的答案。
2.根据权利要求1所述的方法,其特征在于,所述获取预设短语库中的多个短语向量之前,所述方法还包括:
获取文本库中的多个文章并按照短语粒度将各个所述文章进行划分,得到多个短语,每个短语在所属文章中对应有起始位置和结束位置;
将各个所述文章按照字符粒度输入第一BERT模型进行计算,得到多个字符向量;
根据所述起始位置对应的起始字符向量和所述结束位置对应的结束字符向量进行拼接,得到所述短语的短语向量;
基于所述多个文章包含的短语对应的短语向量生成所述预设短语库。
3.根据权利要求1所述的方法,其特征在于,所述接收待回答问题并计算与所述待回答问题对应的问题向量之前,所述方法还包括:
获取样本问题和样本问题答案;
提取样本向量集合,所述样本向量集合中包含有多个样本字符向量,且各个所述样本字符向量为基于所述样本问题答案所属文章生成的;
将所述样本问题依次输入第二BERT模型和第三BERT模型进行计算,分别得到问题起始向量和问题结束向量;
利用所述起始向量和所述问题结束向量进行拼接,得到样本问题向量;
根据所述样本问题向量和所述样本字符向量集合训练所述问答模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述样本问题向量和所述样本字符向量集合训练所述问答模型包括:
计算所述问题起始向量与所述样本字符向量集合中各个字符向量之间的第一向量内积,和计算所述问题结束向量与所述样本字符向量集合中各个字符向量之间的第二向量内积;
利用预置函数将所述第一向量内积和所述第二向量内积转换为第一概率和第二概率,所述第一概率用于标识字符为所述样本问题答案起始位置的概率,所述第二概率用于标识字符为所述样本问题答案结束位置的概率;
根据所述样本问题答案的实际位置、所述第一概率和所述第二概率调整模型参数,并得到所述问答模型。
5.根据权利要求4所述的方法,其特征在于,在得到所述问答模型之后,所述方法还包括:
根据所述第一概率和所述第二概率分别计算第一损失函数和第二损失函数;
根据所述第一损失函数和所述第二损失函数调整所述模型参数。
6.根据权利要求3所述的方法,其特征在于,所述接收待回答问题并计算与所述待回答问题对应的问题向量包括:
接收待回答问题并根据所述第二BERT模型和第三BERT模型分别计算与所述待回答问题对应的问题起始向量和问题结束向量;
利用所述与所述待回答问题对应的问题起始向量和问题结束向量进行拼接,得到所述待回答问题对应的问题向量。
7.根据权利要求1所述的方法,其特征在于,所述根据所述匹配概率输出所述待回答问题的答案包括:
将所述匹配概率按照降序进行排序并提取预设排序范围内的多个匹配概率;
将所述预设排序范围内的多个匹配概率分别对应的短语确定为所述待回答问题的答案并输出。
8.一种智能问答的优化装置,其特征在于,包括:
接收模块,用于接收待回答问题;
计算模块,用于计算与所述接收模块接收到的所述待回答问题对应的问题向量,所述问题向量为包含所述待回答问题的语义信息的向量;
获取模块,用于获取预设短语库中的多个短语向量,各个所述短语向量为包含短语对应的上下文语义信息的向量;
所述计算模块,还用于基于所述问题向量和所述短语向量,利用预先训练的问答模型计算短语与待回答问题之间的匹配概率,所述匹配概率用于标识所述短语作为所述待回答问题的答案的匹配程度;
输出模块,用于根据所述匹配概率输出所述待回答问题的答案。
9.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的智能问答的优化方法对应的操作。
10.一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的智能问答的优化方法对应的操作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210248099.1A CN114610853A (zh) | 2022-03-14 | 2022-03-14 | 一种智能问答的优化方法及装置、存储介质、终端 |
PCT/CN2022/089824 WO2023173540A1 (zh) | 2022-03-14 | 2022-04-28 | 一种智能问答的优化方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210248099.1A CN114610853A (zh) | 2022-03-14 | 2022-03-14 | 一种智能问答的优化方法及装置、存储介质、终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114610853A true CN114610853A (zh) | 2022-06-10 |
Family
ID=81862880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210248099.1A Pending CN114610853A (zh) | 2022-03-14 | 2022-03-14 | 一种智能问答的优化方法及装置、存储介质、终端 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114610853A (zh) |
WO (1) | WO2023173540A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509463B (zh) * | 2017-02-28 | 2022-03-29 | 华为技术有限公司 | 一种问题的应答方法及装置 |
WO2019084867A1 (zh) * | 2017-11-02 | 2019-05-09 | 深圳前海达闼云端智能科技有限公司 | 自动回答方法、装置、存储介质及电子设备 |
CN110287296A (zh) * | 2019-05-21 | 2019-09-27 | 平安科技(深圳)有限公司 | 一种问题答案选取方法、装置、计算机设备及存储介质 |
CN111125335B (zh) * | 2019-12-27 | 2021-04-06 | 北京百度网讯科技有限公司 | 问答处理方法、装置、电子设备和存储介质 |
-
2022
- 2022-03-14 CN CN202210248099.1A patent/CN114610853A/zh active Pending
- 2022-04-28 WO PCT/CN2022/089824 patent/WO2023173540A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023173540A1 (zh) | 2023-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800306B (zh) | 意图分析方法、装置、显示终端及计算机可读存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN110222168B (zh) | 一种数据处理的方法及相关装置 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN111666376A (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN114510570A (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN116821307B (zh) | 内容交互方法、装置、电子设备和存储介质 | |
CN113392191A (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN116910599A (zh) | 数据聚类方法、系统、电子设备及存储介质 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 | |
CN114610853A (zh) | 一种智能问答的优化方法及装置、存储介质、终端 | |
CN115270818A (zh) | 一种意图识别方法及装置、存储介质、计算机设备 | |
CN114117069A (zh) | 一种用于知识图谱智能问答的语义理解方法及系统 | |
CN113609287A (zh) | 一种文本摘要的生成方法、装置、计算机设备和存储介质 | |
CN112036188A (zh) | 一种质检例句推荐的方法及装置 | |
CN112579666A (zh) | 智能问答系统和方法及相关设备 | |
CN111967243A (zh) | 一种文本比对的方法和设备 | |
CN112949313A (zh) | 信息处理模型训练方法、装置、设备及存储介质 | |
CN114357990B (zh) | 文本数据标注方法、装置、电子设备和存储介质 | |
CN116227496B (zh) | 一种基于深度学习的电力舆情实体关系抽取方法及系统 | |
CN117540004B (zh) | 基于知识图谱和用户行为的工业领域智能问答方法及系统 | |
CN115525730B (zh) | 基于页面赋权的网页内容提取方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |