CN112364150A - 一种结合检索与生成的智能问答方法和系统 - Google Patents
一种结合检索与生成的智能问答方法和系统 Download PDFInfo
- Publication number
- CN112364150A CN112364150A CN202110035346.5A CN202110035346A CN112364150A CN 112364150 A CN112364150 A CN 112364150A CN 202110035346 A CN202110035346 A CN 202110035346A CN 112364150 A CN112364150 A CN 112364150A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- answering
- knowledge base
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims description 52
- 239000013598 vector Substances 0.000 claims description 34
- 230000011218 segmentation Effects 0.000 claims description 17
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 claims description 15
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 239000010410 layer Substances 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种结合检索与生成的智能问答方法,包括:构建预设领域知识库模块;构建检索式问答模块;构建生成式问答模块;将用户问题分别输入检索式问答模块和生成式问答模块,得到对应的两种输出结果;对两种输出结果进行判断,采用预设的答案选择策略选择其中一个作为最终答案,根据选择结果对预设领域知识库进行扩充处理。本发明能够,综合利用检索式问答和生成式问答两种策略,利用检索式问答模块保证领域内智能问答的准确性,同时利用生成式问答模块扩充领域知识库、缓解数据匮乏问题,以此提高智能问答系统的应答能力。
Description
技术领域
本发明涉及智能问答技术领域,具体而言涉及一种结合检索与生成的智能问答方法和系统。
背景技术
随着科技的飞速发展,自然语言处理领域得到了显著的突破,问答系统逐渐应用在各行各业,智能客服代替人工客服已成为常态化。智能问答系统主要是利用海量的语料库信息,建立问题-答案知识体系,高效精准的完成答案的获取。
问答系统主要包含检索式问答系统和生成式问答系统。目前业内主要使用的是基于检索式问答系统,通过构建问答知识对,根据问题相似度返回知识库中固定结果。而当针对预设领域的知识相对较少时,构建完备的知识库需要大量人力成本,同时依旧会存在知识库数据匮乏、涉及范围不足等问题,无法返回正确答案。而生成式问答系统则是通过大量语料库信息,提取特征信息,系统基于已有知识生成答案,但该系统体系不够完善,相对匮乏。
因此,如何设计一套针对预设领域的智能问答系统,使其在知识库范围内能够完成高准确率、高效率的回答,同时在知识库范围外具有较好的应答能力,动态扩充知识库,针对重复性、常见性问题,节省人力成本是非常重要的。
发明内容
本发明针对现有技术中的不足,提供一种结合检索与生成的智能问答方法和系统,综合利用检索式问答和生成式问答两种策略,利用检索式问答模块保证领域内智能问答的准确性,同时利用生成式问答模块扩充领域知识库、缓解数据匮乏问题,以此提高智能问答系统的应答能力。
为实现上述目的,本发明采用以下技术方案:
一种结合检索与生成的智能问答方法,所述智能问答方法包括以下步骤:
S1,构建预设领域知识库模块:
基于预设领域问答数据建立问题-答案索引,构建预设领域知识库;
S2,构建检索式问答模块:
对预设领域知识库的问答文本数据进行分词处理,利用word2vec训练预设领域知识库中的词向量,并存储预设领域知识库中问题的向量编码,构建检索式问答模块;
S3,构建生成式问答模块:
搜集整理包括预设领域在内的多领域百科类问答数据集,对其中包含的问答数据进行预处理后导入GPT-2模型进行训练,得到预训练语言模型;将预设领域知识库中的问答数据分别拼接成为先问后答与先答后问的形式,生成微调语料T0和T1,采用微调预料T0对预训练语言模型进行训练得到生成式问答模型Model0,采用微调语料T1对生成式问答模型Model0进行训练得到生成式问答模型Model1;
S4,将用户问题输入检索式问答模块,检索式问答模块对用户输入问题进行分词处理,并基于预设领域知识库词对应的编码向量,使用余弦相似度计算输入问题与预设领域知识库问题的相似度并按照相似度大小排序,输出相似度最高的问题对应的答案;
S5,将用户问题输入生成式问答模型Model0并输出多个候选回答,采用生成式问答模型Model1计算多个候选回答的损失值,将损失值最低的回答作为生成式问答模块的最终输出;
S6,对步骤S4和步骤S5的输出结果进行判断,采用预设的答案选择策略选择其中一个作为最终答案,根据选择结果对预设领域知识库进行扩充处理。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1,所述基于预设领域问答数据建立问题-答案索引,构建预设领域知识库的过程包括以下步骤:
S11,搜集预设领域问答数据,数据形式为问题-答案数据对,建立问题-答案索引,生成初始问答知识库;
S12,依据步骤S6中的答案选择策略,当选择结果为生成式问答模块输出时,将输出的答案与对应的问题存入知识扩充库;
S13,人工检查、矫正知识扩充库答案后,将矫正后的问题-答案存入预设领域知识库,并清理知识扩充库。
进一步地,步骤S2中,所述对预设领域知识库的问答文本数据进行分词处理,利用word2vec训练预设领域知识库中的词向量的过程包括以下步骤:
对预设领域知识库中的问答数据按词进行切分,经过去除停用词和大小写转换步骤后,通过word2vec转换为词向量的形式。
进一步地,步骤S3中,所述构建生成式问答模块包括以下步骤:
S31,搜集整理预训练语料,包括跨领域百科类问答数据集和百科词条数据集,具体形式分别为问题-答案和词条-答案,对预训练语料按字进行切分,切分后的数据按照问题-答案形式进行拼接,问题与答案之间添加词表中的分隔符;
S32,准备微调语料,微调语料T0和T1均来源于预设领域知识库问答语料T,且T0和T1的切分方式相同,不同之处在于微调语料T0切分后的数据按照问题-答案形式进行拼接,微调语料T1在切分后的数据按照答案-问题形式进行拼接,问题与答案之间添加分隔符进行标记;
S33,将预训练语料与微调语料通过词嵌入的方式转化为向量形式,经过位置嵌入形成带有位置信息的向量;
S34,将预训练语料输入GPT-2模型,以模型损失值最小化为目标函数,利用误差反向传播算法对GPT模型进行训练,得到预训练语言模型;
S35,将微调语料T0输入预训练语言模型,以输出准确率最大化作为目标函数,利用误差反向传播算法对预训练语言模型训练多个轮次,观察到损失值收敛时保存得到生成式问答模型Model0;
S36,将微调语料T1输入生成式问答模型Model0,重复步骤S35中的训练过程对生成式问答模型Model0进行训练,观察到损失值收敛时保存得到生成式问答模型Model1。
进一步地,步骤S5中,所述采用生成式问答模型Model1计算多个候选回答的损失值的过程包括以下步骤:
将生成式问答模型Model0输出的多个候选答案分别与历史问题库中的问题进行拼接,历史问题库用于存储单次对话用户之前所输入的问题,拼接形式为先答后问,将拼接后的结果输入至生成式问答模型Model1,计算多个候选答案的损失值。
进一步地,步骤S6中,所述预设的答案选择策略是指:
设定相似度阈值,若检索式问答模块输出结果对应的相似度大于等于相似度阈值,则输出检索式问答模块的回答,反之则输出生成式问答模块的回答。
进一步地,所述GPT-2模型包括10层依次顺序连接的结构相同的Transformer 解码器模块。
基于前述智能问答方法,本发明还提及一种结合检索与生成的智能问答系统,所述智能问答系统包括预设领域知识库模块、检索式问答模块、生成式问答模块、用户问题接收模块和答案选择模块;
所述预设领域知识库模块用于基于预设领域问答数据建立问题-答案索引,构建预设领域知识库,并根据历史回答数据对预设领域知识库进行扩充处理;
所述用户问题接收模块用于接收用户输入的问题,将之分别发送至检索式问答模块和生成式问答模块;
所述检索式问答模块用于用户输入问题进行分词处理,并基于预设领域知识库词对应的编码向量,使用余弦相似度计算输入问题与领域知识库问题的相似度并按照相似度大小排序,输出相似度最高的问题对应的答案;
所述生成式问答模块包括生成式问答模型Model0和生成式问答模型Model1,所述生成式问答模型Model0用于对输入用户问题进行处理并输出多个候选回答,所述生成式问答模型Model1用于计算多个候选回答的损失值,将损失值最低的回答作为生成式问答模块的最终输出;
所述答案选择模块用于采用预设的答案选择策略选择检索式问答模块和生成式问答模块中其中一个的输出答案作为最终答案。
本发明的有益效果是:
本发明基于检索式问答模型,设计生成式问答流程及答案优化策略,并结合检索式问答模型,使得预设领域智能问答任务不再受限于数据量匮乏、数据分布分散、问答连贯性较差等问题,提高问答系统在预设领域知识库范围内外的应答能力,使用多领域数据提高智能问答任务效率,使用生成式问答选择策略提高回答质量,并通过知识库维护方案增量扩充知识库数据,为领域单一、数据匮乏的智能问答任务提供新思路。
本发明基于GPT-2模型构建生成式问答模块,设计生成式问答流程及答案优化策略,同时结合检索式问答模型,使得预设领域智能问答任务不再受限于数据量匮乏、数据分布分散、问答连贯性较差等问题,提高问答系统在预设领域知识库范围内外的应答能力,使用多领域数据提高智能问答任务效率,使用生成式问答选择策略提高回答质量,并通过知识库维护方案增量扩充知识库数据,为领域单一、数据匮乏的智能问答任务提供新思路。
附图说明
图1是本发明的结合检索与生成的智能问答方法流程图。
图2是本发明的结合检索与生成的智能问答系统的结构示意图。
图3为生成式问答模块的总体框架示意图。
图4为生成式问答模块中的GPT-2模型单层Transformer Decoder block的内部结构示意图。
图5为生成式问答模块的问答流程示意图。
图6为本发明的答案选择策略以及知识库维护方法示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
结合图1和图2,本发明提及一种结合检索与生成的智能问答方法,所述智能问答方法包括以下步骤:
S1,构建预设领域知识库模块:
基于预设领域问答数据建立问题-答案索引,构建预设领域知识库。
S2,构建检索式问答模块:
对预设领域知识库的问答文本数据进行分词处理,利用word2vec训练预设领域知识库中的词向量,并存储预设领域知识库中问题的向量编码,构建检索式问答模块。
S3,构建生成式问答模块:
搜集整理包括预设领域在内的多领域百科类问答数据集,对其中包含的问答数据进行预处理后导入GPT-2模型进行训练,得到预训练语言模型;将预设领域知识库中的问答数据分别拼接成为先问后答与先答后问的形式,生成微调语料T0和T1,采用微调预料T0对预训练语言模型进行训练得到生成式问答模型Model0,采用微调语料T1对生成式问答模型Model0进行训练得到生成式问答模型Model1。
S4,将用户问题输入检索式问答模块,检索式问答模块对用户输入问题进行分词处理,并基于预设领域知识库词对应的编码向量,使用余弦相似度计算输入问题与预设领域知识库问题的相似度并按照相似度大小排序,输出相似度最高的问题对应的答案。
S5,将用户问题输入生成式问答模型Model0并输出多个候选回答,采用生成式问答模型Model1计算多个候选回答的损失值,将损失值最低的回答作为生成式问答模块的最终输出。
S6,对步骤S4和步骤S5的输出结果进行判断,采用预设的答案选择策略选择其中一个作为最终答案,根据选择结果对预设领域知识库进行扩充处理。
下面以一个具体实施例对本发明的结合检索与生成的智能问答方法的具体步骤进行说明,应当理解,其中选取的数字如词向量维度为128维,只考虑词频大于5的词数据等均为简化说明需要,并非唯一取值。
步骤一:通过人工收集与基于实际使用情况相结合的实时更新策略构造智能问答知识库。具体实施过程如下:
1、通过人工和数据爬取相结合收集问答数据集:
通过查阅相关文献以及结合专家建议,收集该领域的常见专业术语、关键词等信息,同时适当衍生相关领域信息,利用脚本爬取相关原始数据文本。整理原始数据,得到目标领域数据,随后对数据去噪处理,删除文本中的无关信息。将整理后的数据文本划分为问题和答案对,生成初始领域知识库。
因生成式语言模型需要,同时收集百科类问答数据集,做上述重复操作,得到百科类问答知识库。
2、实时更新领域知识库:
根据用户实时使用情况,针对初始知识库中未出现的问题,即问题相识度低于指定阈值,提取生成式语言模块对应答案,结合人工筛选,确定答案合理性后,添加到领域知识库中。
步骤二:利用现代汉语语料库以及领域知识,构造领域词典,结合词典,采用双向最大匹配法对领域知识库中的问题集以及对应答案集分别分词,同时去除特殊符号、标点符号、停用词后,得到,以及,其中,表示问题集文本分隔开的第i个词,表示答案集文本分隔开的第i个词。
步骤四:训练出领域词向量,计算问题相似度,构建检索式问答模块,具体内容如下:
2.将提问语句重复分词、去除停用词等操作,将知识库问题集以及提问语句分词数据,根据训练后的word2vec词向量表示进行映射处理,分别得到知识库问题集词嵌入向量组Vec1=(),以及提问语句词嵌入向量Vec2=,其中和的维度均为128。
3.利用余弦距离:
计算知识库问题以及提问语句之间相似度值,其中为知识库问题集中每个问题对应的词嵌入向量,代表提问语句词嵌入向量。得到提问语句与知识库问题集间的匹配相似度Pi,选取最大相似度,此处设定一个相似度阈值,如果>,则输出问题对应知识库中的答案文本,反之输出生成模块的结果。
步骤五:利用多领域百科类问答数据对GPT-2模型进行预训练,生成关注上下文信息的预训练语言模型,然后结合预设领域知识对预训练语言模型进行微调,构建基于GPT-2模型的生成式问答模型,具体内容如下:
1、将领域知识库中的问题集以及答案集分别映射到word2vec模型词向量中,得到文本词嵌入向量,同时计算位置向量,计算公式为:
2.构建基于多层Transformer Decoder block的GPT-2模型,训练生成预训练语言模型:
(1)利用包含Masked自注意力子块M和全连接前馈神经网络子块FN的顺序连接,构造Transformer解码器模块,每个子块都包含残差连接和层归一化处理,每一个Transformer解码器模块的输出表示为:
其中Norm()为层归一化函数,M表示Masked自注意力子块,FN表示全连接前馈神经网络子块。
归一化函数Norm的输出表示为:
(2)搭建10层基于Transformer Decoder block的GPT-2模型,其中每个Transformer Decoder block结构相同,依次顺序连接起来,即形成GPT-2模型,整个模型的输出表示为:
图4为生成式问答模块中的GPT-2模型单层Transformer Decoder block的内部结构示意图。
(3)使用多领域百科类知识问答数据进行预训练,利用误差反向传播算法更新模型内部各个参数,使得模型损失值最小化,得到语言模型,其中模型损失值计算:
3. 利用预设领域知识库构建语料库,微调语言模型得到生成式问答模型Model0和Model1。
(1)利用预设领域知识库中的问题和答案构建先答后问微调语料库T0,输入预训练语言模型,得到结果P,建立生成式问答模型Model0,其中,模型Model0的输出选择[CLS]对应的输出向量C,计算过程为:
(2)以生成式问答模型Model0的输出准确率最大化作为目标函数,利用误差反向传播算法训练模型,得到最终训练的生成式问答模型Model0。
(3)利用领域知识库的问题和答案构建先问后答微调语料库T1,输入生成式问答模型Model0,重复上述训练过程,得到生成式问答模型Model1。图3为生成式问答模块的总体框架示意图。图5为生成式问答模块的问答流程示意图。
步骤六:接收用户传递的中文提问语句,同时输入检索式问答模块和生成式问答模块中,根据实际情况返回系统回答:
1. 将提问语句输入到生成式问答模块中,得到生成式问答模型Model0输出的5个生成式回答,生成式问答模型Model1分别计算结果损失值,选择损失值最小的结果作为候选答案answer1;
2. 将用户输入的中文提问语句,输入到检索式问答模块中,得到与问题集之间的匹配概率Pi,设定相似度阈值,若匹配概率的最大值>,则将对应问题的答案answer2作为系统最终推荐答案answer,反之将answer1作为系统最终推荐答案answer。
图6为本发明的答案选择策略以及知识库维护方法示意图。
综上,本发明所述的智能问答系统将检索式问答与生成式问答相结合,使用预设领域知识以及多领域知识以提高问答系统的准确率及应答能力,在实际情况中适用性强,同时针对语料库较小的领域问答任务也有较好的表现。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (8)
1.一种结合检索与生成的智能问答方法,其特征在于,所述智能问答方法包括以下步骤:
S1,构建预设领域知识库模块:
基于预设领域问答数据建立问题-答案索引,构建预设领域知识库;
S2,构建检索式问答模块:
对预设领域知识库的问答文本数据进行分词处理,利用word2vec训练预设领域知识库中的词向量,并存储预设领域知识库中问题的向量编码,构建检索式问答模块;
S3,构建生成式问答模块:
搜集整理包括预设领域在内的多领域百科类问答数据集,对其中包含的问答数据进行预处理后导入GPT-2模型进行训练,得到预训练语言模型;将预设领域知识库中的问答数据分别拼接成为先问后答与先答后问的形式,生成微调语料T0和T1,采用微调预料T0对预训练语言模型进行训练得到生成式问答模型Model0,采用微调语料T1对生成式问答模型Model0进行训练得到生成式问答模型Model1;
S4,将用户问题输入检索式问答模块,检索式问答模块对用户输入问题进行分词处理,并基于预设领域知识库词对应的编码向量,使用余弦相似度计算输入问题与预设领域知识库问题的相似度并按照相似度大小排序,输出相似度最高的问题对应的答案;
S5,将用户问题输入生成式问答模型Model0并输出多个候选回答,采用生成式问答模型Model1计算多个候选回答的损失值,将损失值最低的回答作为生成式问答模块的最终输出;
S6,对步骤S4和步骤S5的输出结果进行判断,采用预设的答案选择策略选择其中一个作为最终答案,根据选择结果对预设领域知识库进行扩充处理。
2.根据权利要求1所述的结合检索与生成的智能问答方法,其特征在于,步骤S1,所述基于预设领域问答数据建立问题-答案索引,构建预设领域知识库的过程包括以下步骤:
S11,搜集预设领域问答数据,数据形式为问题-答案数据对,建立问题-答案索引,生成初始问答知识库;
S12,依据步骤S6中的答案选择策略,当选择结果为生成式问答模块输出时,将输出的答案与对应的问题存入知识扩充库;
S13,人工检查、矫正知识扩充库答案后,将矫正后的问题-答案存入预设领域知识库,并清理知识扩充库。
3.根据权利要求1所述的结合检索与生成的智能问答方法,其特征在于,步骤S2中,所述对预设领域知识库的问答文本数据进行分词处理,利用word2vec训练预设领域知识库中的词向量的过程包括以下步骤:
对预设领域知识库中的问答数据按词进行切分,经过去除停用词和大小写转换步骤后,通过word2vec转换为词向量的形式。
4.根据权利要求1所述的结合检索与生成的智能问答方法,其特征在于,步骤S3中,所述构建生成式问答模块包括以下步骤:
S31,搜集整理预训练语料,包括跨领域百科类问答数据集和百科词条数据集,具体形式分别为问题-答案和词条-答案,对预训练语料按字进行切分,切分后的数据按照问题-答案形式进行拼接,问题与答案之间添加分隔符进行标记;
S32,准备微调语料,微调语料T0和T1均来源于预设领域知识库问答语料T,且T0和T1的切分方式相同,不同之处在于微调语料T0切分后的数据按照问题-答案形式进行拼接,微调语料T1在切分后的数据按照答案-问题形式进行拼接,问题与答案之间添加分隔符;
S33,将预训练语料与微调语料通过词嵌入的方式转化为向量形式,经过位置嵌入形成带有位置信息的向量;
S34,将预训练语料输入GPT-2模型,以模型损失值最小化为目标函数,利用误差反向传播算法对GPT模型进行训练,得到预训练语言模型;
S35,将微调语料T0输入预训练语言模型,以输出准确率最大化作为目标函数,利用误差反向传播算法对预训练语言模型训练多个轮次,观察到损失值收敛时保存得到生成式问答模型Model0;
S36,将微调语料T1输入生成式问答模型Model0,重复步骤S35中的训练过程对生成式问答模型Model0进行训练,观察到损失值收敛时保存得到生成式问答模型Model1。
5.根据权利要求1所述的结合检索与生成的智能问答方法,其特征在于,步骤S5中,所述采用生成式问答模型Model1计算多个候选回答的损失值的过程包括以下步骤:
将生成式问答模型Model0输出的多个候选答案分别与历史问题库中的问题进行拼接,历史问题库用于存储单次对话用户之前所输入的问题,拼接形式为先答后问,将拼接后的结果输入至生成式问答模型Model1,计算多个候选答案的损失值。
6.根据权利要求1所述的结合检索与生成的智能问答方法,其特征在于,步骤S6中,所述预设的答案选择策略是指:
设定相似度阈值,若检索式问答模块输出结果对应的相似度大于等于相似度阈值,则输出检索式问答模块的回答,反之则输出生成式问答模块的回答。
7.根据权利要求1所述的结合检索与生成的智能问答方法,其特征在于,所述GPT-2模型包括10层依次顺序连接的结构相同的Transformer 解码器模块。
8.一种基于权利要求1-7任意一项中所述智能问答方法的结合检索与生成的智能问答系统,其特征在于,所述智能问答系统包括预设领域知识库模块、检索式问答模块、生成式问答模块、用户问题接收模块和答案选择模块;
所述预设领域知识库模块用于基于预设领域问答数据建立问题-答案索引,构建预设领域知识库,并根据历史回答数据对预设领域知识库进行扩充处理;
所述用户问题接收模块用于接收用户输入的问题,将之分别发送至检索式问答模块和生成式问答模块;
所述检索式问答模块用于用户输入问题进行分词处理,并基于预设领域知识库词对应的编码向量,使用余弦相似度计算输入问题与领域知识库问题的相似度并按照相似度大小排序,输出相似度最高的问题对应的答案;
所述生成式问答模块包括生成式问答模型Model0和生成式问答模型Model1,所述生成式问答模型Model0用于对输入用户问题进行处理并输出多个候选回答,所述生成式问答模型Model1用于计算多个候选回答的损失值,将损失值最低的回答作为生成式问答模块的最终输出;
所述答案选择模块用于采用预设的答案选择策略选择检索式问答模块和生成式问答模块中其中一个的输出答案作为最终答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110035346.5A CN112364150A (zh) | 2021-01-12 | 2021-01-12 | 一种结合检索与生成的智能问答方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110035346.5A CN112364150A (zh) | 2021-01-12 | 2021-01-12 | 一种结合检索与生成的智能问答方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364150A true CN112364150A (zh) | 2021-02-12 |
Family
ID=74534846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110035346.5A Pending CN112364150A (zh) | 2021-01-12 | 2021-01-12 | 一种结合检索与生成的智能问答方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364150A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632265A (zh) * | 2021-03-10 | 2021-04-09 | 北京沃丰时代数据科技有限公司 | 智能机器阅读理解方法、装置、电子设备及存储介质 |
CN113157888A (zh) * | 2021-04-20 | 2021-07-23 | 北京邮电大学 | 支持多知识来源的询问答复方法、装置和电子设备 |
CN113220856A (zh) * | 2021-05-28 | 2021-08-06 | 天津大学 | 一种基于中文预训练模型的多轮对话系统 |
CN113656570A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN115062003A (zh) * | 2022-05-26 | 2022-09-16 | 电子科技大学 | 基于gpt2的云erp社区生成式问答方法 |
CN115169364A (zh) * | 2022-06-17 | 2022-10-11 | 北京百度网讯科技有限公司 | 智能问答方法、装置、设备以及存储介质 |
CN115203356A (zh) * | 2022-06-15 | 2022-10-18 | 延边大学 | 专业领域问答库构建方法、问答方法及系统 |
WO2023273170A1 (zh) * | 2021-06-30 | 2023-01-05 | 同济人工智能研究院(苏州)有限公司 | 一种迎宾机器人对话方法 |
CN116059646A (zh) * | 2023-04-06 | 2023-05-05 | 深圳尚米网络技术有限公司 | 一种交互式专家指导系统 |
CN116860951A (zh) * | 2023-09-04 | 2023-10-10 | 贵州中昂科技有限公司 | 一种基于人工智能的信息咨询服务管理方法及管理系统 |
CN116976294A (zh) * | 2023-09-22 | 2023-10-31 | 青岛诺亚信息技术有限公司 | 一种用于实现复杂电子表格自动填充的方法及系统 |
CN117194602A (zh) * | 2023-09-06 | 2023-12-08 | 书音(上海)文化科技有限公司 | 基于大语言模型和bert模型的本地知识库更新方法及系统 |
CN117235233A (zh) * | 2023-10-24 | 2023-12-15 | 之江实验室 | 一种基于大模型的财报自动化问答方法和装置 |
CN117370521A (zh) * | 2023-10-13 | 2024-01-09 | 北京百度网讯科技有限公司 | 医疗问答方法、系统、装置、设备以及存储介质 |
CN117575020A (zh) * | 2023-11-14 | 2024-02-20 | 平安创科科技(北京)有限公司 | 基于人工智能的智能问答方法、装置、设备及介质 |
CN117609479A (zh) * | 2024-01-24 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 一种模型处理方法、装置、设备、介质及产品 |
CN117633170A (zh) * | 2023-11-07 | 2024-03-01 | 中译语通科技股份有限公司 | 一种思维链数据构造方法、装置,电子设备及存储介质 |
CN117909451A (zh) * | 2024-03-18 | 2024-04-19 | 中国电子技术标准化研究院 | 问答结果溯源方法、装置、设备、介质及程序产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704585A (zh) * | 2019-09-29 | 2020-01-17 | 出门问问信息科技有限公司 | 一种问答方法、装置及计算机可读介质 |
CN110990528A (zh) * | 2019-11-27 | 2020-04-10 | 出门问问(苏州)信息科技有限公司 | 一种问答方法、装置及电子设备 |
-
2021
- 2021-01-12 CN CN202110035346.5A patent/CN112364150A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704585A (zh) * | 2019-09-29 | 2020-01-17 | 出门问问信息科技有限公司 | 一种问答方法、装置及计算机可读介质 |
CN110990528A (zh) * | 2019-11-27 | 2020-04-10 | 出门问问(苏州)信息科技有限公司 | 一种问答方法、装置及电子设备 |
Non-Patent Citations (4)
Title |
---|
XIEYAN0811: "NLP模型应用之三:GPT与GPT-2", 《HTTPS://WWW.JIANSHU.COM/P/1571BFE0AF01》 * |
大数据文摘: "图解OpenAI的秘密武器GPT-2:可视化Transformer语言模型", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1491643》 * |
张雨石: "GPT-1 & 2_ 预训练+微调带来的奇迹", 《HTTPS://MP.WEIXIN.QQ.COM/S?__BIZ=MZI4ODG3NDY2NQ==&MID=2247483710&IDX=1&SN=7F9CCF321297E9E848BE59A1B7AAACC5&CHKSM=EC3688F8DB4101EE72649C98BEBE249F0E0B1E78DDE6C7E09D35570C277C388BC6A0F28F038B&TOKEN=1357491502&LANG=ZH_CN#RD》 * |
李鹏宇: "GPT-2:结构、数据和字节对编码", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/136138225》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632265A (zh) * | 2021-03-10 | 2021-04-09 | 北京沃丰时代数据科技有限公司 | 智能机器阅读理解方法、装置、电子设备及存储介质 |
CN113157888A (zh) * | 2021-04-20 | 2021-07-23 | 北京邮电大学 | 支持多知识来源的询问答复方法、装置和电子设备 |
CN113220856A (zh) * | 2021-05-28 | 2021-08-06 | 天津大学 | 一种基于中文预训练模型的多轮对话系统 |
WO2023273170A1 (zh) * | 2021-06-30 | 2023-01-05 | 同济人工智能研究院(苏州)有限公司 | 一种迎宾机器人对话方法 |
CN113656570A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN113656570B (zh) * | 2021-08-25 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN115062003A (zh) * | 2022-05-26 | 2022-09-16 | 电子科技大学 | 基于gpt2的云erp社区生成式问答方法 |
CN115062003B (zh) * | 2022-05-26 | 2024-04-16 | 电子科技大学 | 基于gpt2的云erp社区生成式问答方法 |
CN115203356A (zh) * | 2022-06-15 | 2022-10-18 | 延边大学 | 专业领域问答库构建方法、问答方法及系统 |
CN115203356B (zh) * | 2022-06-15 | 2024-06-04 | 延边大学 | 专业领域问答库构建方法、问答方法及系统 |
CN115169364B (zh) * | 2022-06-17 | 2024-03-08 | 北京百度网讯科技有限公司 | 智能问答方法、装置、设备以及存储介质 |
CN115169364A (zh) * | 2022-06-17 | 2022-10-11 | 北京百度网讯科技有限公司 | 智能问答方法、装置、设备以及存储介质 |
CN116059646A (zh) * | 2023-04-06 | 2023-05-05 | 深圳尚米网络技术有限公司 | 一种交互式专家指导系统 |
CN116860951A (zh) * | 2023-09-04 | 2023-10-10 | 贵州中昂科技有限公司 | 一种基于人工智能的信息咨询服务管理方法及管理系统 |
CN116860951B (zh) * | 2023-09-04 | 2023-11-14 | 贵州中昂科技有限公司 | 一种基于人工智能的信息咨询服务管理方法及管理系统 |
CN117194602A (zh) * | 2023-09-06 | 2023-12-08 | 书音(上海)文化科技有限公司 | 基于大语言模型和bert模型的本地知识库更新方法及系统 |
CN117194602B (zh) * | 2023-09-06 | 2024-04-19 | 书音(上海)文化科技有限公司 | 基于大语言模型和bert模型的本地知识库更新方法及系统 |
CN116976294B (zh) * | 2023-09-22 | 2024-02-09 | 青岛诺亚信息技术有限公司 | 一种用于实现复杂电子表格自动填充的方法及系统 |
CN116976294A (zh) * | 2023-09-22 | 2023-10-31 | 青岛诺亚信息技术有限公司 | 一种用于实现复杂电子表格自动填充的方法及系统 |
CN117370521A (zh) * | 2023-10-13 | 2024-01-09 | 北京百度网讯科技有限公司 | 医疗问答方法、系统、装置、设备以及存储介质 |
CN117235233A (zh) * | 2023-10-24 | 2023-12-15 | 之江实验室 | 一种基于大模型的财报自动化问答方法和装置 |
CN117235233B (zh) * | 2023-10-24 | 2024-06-11 | 之江实验室 | 一种基于大模型的财报自动化问答方法和装置 |
CN117633170A (zh) * | 2023-11-07 | 2024-03-01 | 中译语通科技股份有限公司 | 一种思维链数据构造方法、装置,电子设备及存储介质 |
CN117575020A (zh) * | 2023-11-14 | 2024-02-20 | 平安创科科技(北京)有限公司 | 基于人工智能的智能问答方法、装置、设备及介质 |
CN117609479A (zh) * | 2024-01-24 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 一种模型处理方法、装置、设备、介质及产品 |
CN117609479B (zh) * | 2024-01-24 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 一种模型处理方法、装置、设备、介质及产品 |
CN117909451A (zh) * | 2024-03-18 | 2024-04-19 | 中国电子技术标准化研究院 | 问答结果溯源方法、装置、设备、介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364150A (zh) | 一种结合检索与生成的智能问答方法和系统 | |
CN109271505B (zh) | 一种基于问题答案对的问答系统实现方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN112528676B (zh) | 文档级别的事件论元抽取方法 | |
CN111310438A (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN110516055A (zh) | 一种结合bert的用于教学任务的跨平台智能问答实现方法 | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN109359302B (zh) | 一种领域化词向量的优化方法及基于其的融合排序方法 | |
CN113157885B (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
CN110765254A (zh) | 一种融合多视角答案重排序的多文档问答系统模型 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN110516145B (zh) | 一种基于句向量编码的信息搜索方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN112035652A (zh) | 一种基于机器阅读理解的智能问答交互方法及系统 | |
CN118093834B (zh) | 一种基于aigc大模型的语言处理问答系统及方法 | |
CN112434134B (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN114357120A (zh) | 基于faq的无监督式检索方法、系统及介质 | |
CN112214989A (zh) | 一种基于bert的汉语句子简化方法 | |
CN114997181A (zh) | 一种基于用户反馈修正的智能问答方法及系统 | |
CN110851584A (zh) | 一种法律条文精准推荐系统和方法 | |
CN117592563A (zh) | 一种领域知识增强的电力大模型训调方法 | |
CN115577080A (zh) | 一种问题回复匹配方法、系统、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210212 |
|
RJ01 | Rejection of invention patent application after publication |