CN111078853A - 问答模型的优化方法、装置、计算机设备和存储介质 - Google Patents
问答模型的优化方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111078853A CN111078853A CN201911286091.9A CN201911286091A CN111078853A CN 111078853 A CN111078853 A CN 111078853A CN 201911286091 A CN201911286091 A CN 201911286091A CN 111078853 A CN111078853 A CN 111078853A
- Authority
- CN
- China
- Prior art keywords
- question
- auxiliary
- answer
- target
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种问答模型的优化方法、装置、计算机设备和存储介质,问答模型的优化方法包括:获取目标问答数据;获取初始机器学习模型,并以所述目标问答数据为训练样本、对所述初始机器学习模型进行训练,得到目标问答模型;获取至少一组辅助问答数据,并计算所述至少一组辅助问答数据与目标问答数据的相关性;将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,以得到优化后的目标问答模型,所述补充训练的训练过程受所述相关性控制。通过此方案,能够增大训练数据量,以提高问答模型的训练效果。
Description
技术领域
本发明涉及人工智能领域,具体地涉及一种问答模型的优化方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术和大数据技术的发展,人们可以通过人工智能设备利用各种模型训练实现统计、判断、模仿等多种功能,智能问答为常见功能中的一种。
对于智能问答的实现方法,通常是通过收集大量的问答数据作为训练样本,训练得到问答模型,该问答模型识别输入的问题,智能地输出该问题的答案。然而,现有的问答模型对于新的目标领域往往效果不佳,主要原因在于,新的目标领域训练数据往往比较有限,对于有限的数据量训练出的问答模型无法涵盖输入问题的多样性。因而,对于数据量有限的目标领域,如何提高其问答模型的训练效果成为一个亟需解决的问题。
发明内容
本发明解决的技术问题是对于数据量有限的目标领域,如何提高其问答模型的训练效果。
为解决上述技术问题,本发明实施例提供一种问答模型的优化方法,所述方法包括:获取目标问答数据;获取初始机器学习模型,并以所述目标问答数据为训练样本、对所述初始机器学习模型进行训练,得到目标问答模型;获取至少一组辅助问答数据,并计算所述至少一组辅助问答数据与目标问答数据的相关性;将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,以得到优化后的目标问答模型,所述补充训练的训练过程受所述相关性控制。
可选的,所述将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,包括:获取所述目标问答模型的损失函数,根据所述相关性对所述损失函数进行更新;将所述至少一组辅助问答数据作为补充训练样本,按照更新后的损失函数对所述目标问答模型进行补充训练。
可选的,所述根据所述相关性对所述损失函数进行更新,包括:当所述辅助问答数据为一组时,将所述辅助问答数据对应的相关性和所述损失函数的乘积作为更新后的损失函数;当所述辅助问答数据超过一组时,将每组辅助问答数据对应的相关性和所述损失函数的乘积进行求和,以得到更新后的损失函数。
可选的,每组辅助问答数据包括辅助问题和对应的辅助答案,所述计算所述至少一组辅助问答数据与目标问答数据的相关性,包括:计算每一辅助问题对应的第一相关性;计算每一辅助答案对应的第二相关性;根据每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性,得到该组辅助问答数据对应的相关性。
可选的,所述目标问答数据中包括目标问题和对应的目标答案,所述计算每一辅助问题对应的第一相关性,包括:以所述辅助问题为训练样本,训练辅助语言模型;以所述目标问题为训练样本,训练目标语言模型;计算所述每一辅助问题对所述目标语言模型的第一困惑度,以及对辅助语言模型的第二困惑度;根据每一辅助问题的第一困惑度计算该辅助问题的第一交叉熵分数;根据每一辅助问题的第二困惑度计算该辅助问题的第二交叉熵分数;根据每一辅助问题的第一交叉熵分数和第二交叉熵分数得到该辅助问题的第一相关性。
可选的,所述根据每一辅助问题的第一困惑度计算该辅助问题的第一交叉熵分数,包括:取所述第一困惑度对数的相反值,作为该辅助问题的第一交叉熵分数;所述根据每一辅助问题的第二困惑度计算该辅助问题的第二交叉熵分数,包括:取所述第二困惑度对数的相反值,作为该辅助问题的第二交叉熵分数。
可选的,所述计算每一辅助答案对应的第二相关性,包括:获取所述每一辅助答案的长度和每一目标答案的长度;统计每一长度的辅助答案在所有辅助答案中的第一频次,并统计与所述每一辅助答案相同长度的目标答案在所有目标答案中的第二频次;根据所述第一频次计算该辅助答案的第三交叉熵分数;根据所述第二频次计算该辅助答案的第四交叉熵分数;根据所述每一辅助答案的第三交叉熵分数和第四交叉熵分数得到该辅助问答数据的第二相关性。
可选的,所述根据所述第一频次计算该辅助答案的第三交叉熵分数,包括:取所述第一频次对数的相反值,作为该辅助答案的第三交叉熵分数;所述根据所述第二频次计算该辅助答案的第四交叉熵分数,包括:取所述第二频次对数的相反值,作为该辅助答案的第四交叉熵分数。
可选的,所述计算每一辅助问题对应的第一相关性,包括:对所述每一辅助问题的第一交叉熵分数和第二交叉熵分数求差,并将差值作为该辅助问题对应的第一相关性;所述计算每一辅助答案对应的第二相关性,包括:对所述每一辅助答案的第四交叉熵分数和所述第三交叉熵分数求差,并将差值作为该辅助答案对应的第二相关性;所述根据每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性,得到该组辅助问答数据对应的相关性,包括:对每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性求和,将求和得到的值作为该组辅助问答数据对应的相关性。
本发明实施例还提供一种问答模型的优化装置,所述装置包括:目标问答数据获取模块,用于获取目标问答数据;模型训练模块,用于获取初始机器学习模型,并以所述目标问答数据为训练样本、对所述初始机器学习模型进行训练,得到目标问答模型;辅助问答数据获取模块,用于获取辅助问答数据,并计算所述辅助问答数据与目标问答数据的相关性;模型优化模块,用于将所述辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,以得到优化后的目标问答模型,所述补充训练的训练过程受所述相关性控制。
本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一项所述方法的步骤。
本发明实施例还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例提供的问答模型的优化方法包括:获取目标问答数据;获取初始机器学习模型,并以所述目标问答数据为训练样本、对所述初始机器学习模型进行训练,得到目标问答模型;获取至少一组辅助问答数据,并计算所述至少一组辅助问答数据与目标问答数据的相关性;将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,以得到优化后的目标问答模型,所述补充训练的训练过程受所述相关性控制。
较之现有技术,该方法除获取目标领域的目标问答数据进行大数据训练得到目标问答模型,还可将其他领域的问答数据作为补充训练样本对目标问答模型进行补充训练,以增强模型训练的数据。其中,在进行补充训练时,需考虑补充训练样本在模型训练时的系数,即辅助问答数据与目标问答数据的相关性。通过此方法,能够利用其它领域的问答数据来增强目标领域的数据,以增大训练目标领域问答模型的数据量,从而提高问答模型的训练效果,提高目标问答模型的准确性。
进一步地,可通过用辅助问答数据与目标问答数据的相关性来改变目标问答模型的损失函数,以弱化补充训练时辅助问答数据的领域特性对训练结果的影响。其中,可分别计算每组辅助问答数据的相关性系数和原损失函数的乘积,再进行求和,以得到更新后的损失函数,以提高补充训练的准确性。
进一步地,从问题和答案的角度,分别考虑其句法、语义等文字的逻辑性获取每组辅助问答数据的第一相关性和第二相关性,可以更加准确地分析辅助问答数据和目标问答数据的相关性。
进一步地,在计算每一辅助问题在补充训练时的第一相关性时,可根据辅助问题训练辅助语言模型,并根据目标问题训练目标语言模型,考虑每一辅助问题对于目标语言模型的第一交叉熵分数,和该辅助问题对于辅助语言模型的第二交叉熵分数,以得到该辅助问题的第一相关性。
进一步地,由于问答对中的答案往往长短参差不齐,可对各长度的答案的频次进行统计,以提取辅助答案和目标答案在文字结构中的关联,从而获取答案层面反映出的辅助领域和目标领域的第二相关性。
进一步地,将一组辅助问答数据中的辅助问题对应的第一相关性和辅助答案的第二相关性结合起来,计算得到此辅助问答数据作为补充训练样本时的相关性,此相关性反映的是每一组辅助领域中的问答对的交叉熵差异值,交叉熵差异值越小,则表示问答对与目标领域越相关。
附图说明
图1是本发明实施例的一种问答模型的优化方法的流程示意图;
图2是本发明实施例的一种问答模型的优化方法的部分流程示意图;
图3是本发明实施例的又一种问答模型的优化方法部分流程示意图;
图4是本发明实施例的一种问答模型的优化装置的结构示意图。
具体实施方式
如背景技术所言,现有技术中,对于数据量有限的目标领域,其训练的问答模型的效果较差。
为解决上述问题,本发明实施例提供了一种问答模型的优化方法、装置、计算机设备和存储介质。其中,所述问答模型的优化方法,包括:获取目标问答数据;获取初始机器学习模型,并以所述目标问答数据为训练样本、对所述初始机器学习模型进行训练,得到目标问答模型;获取至少一组辅助问答数据,并计算所述至少一组辅助问答数据与目标问答数据的相关性;将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,以得到优化后的目标问答模型,所述补充训练的训练过程受所述相关性控制。
通过此方法,能够利用与目标领域相关的其它领域的问答数据来增强目标领域的数据,以增大训练目标领域问答模型的数据量,从而提高问答模型的训练效果。进一步而言,其它领域与目标领域的相关可以是指两个领域的问答数据具有句法、语义等一方面或多方面的相关性。
请参见图1,图1提供了一种问答模型的优化方法的流程示意图。该问答模型的优化方法可以包括以下步骤S101至S104。
S101,获取目标问答数据。
目标问答数据是用于训练目标问答模型的问答数据,是技术人员对要训练的领域(通常是新领域)进行问答数据收集得到的,其数据量较少。目标问答数据可以包括问题和每个问题对应的答案,可将每一问题及其对应的答案作为一个数据对。
在对新的目标领域进行对应的问答模型训练时,先获取该目标领域已有的目标问答数据。
S102,获取初始机器学习模型,并以所述目标问答数据为训练样本、对所述初始机器学习模型进行训练,得到目标问答模型。
其中,初始机器学习模型是技术人员基于对多个领域的问题语言模型进行综合分析后,提取的模型框架,在引入新的目标领域时,只需在此模型框架上,以对应领域的问答数据为样本,进行模型训练即可。
获取目标问答数据后,先以目标问答数据为训练样本,进行初步的模型训练。
S103,获取至少一组辅助问答数据,并计算所述至少一组辅助问答数据与目标问答数据的相关性。
辅助问答数据为辅助领域中已收集的问答数据,可选择相对成熟的辅助领域,尤其是与目标领域相关的领域,其数据量较大。辅助问答数据可以为问题和每个问题对应的答案,可将一个问题和答案作为一个数据对。
在以辅助领域的已有数据对目标问答模型进行补充训练时,需考虑补充训练样本在模型训练时的系数,即辅助问答数据与目标问答数据的相关性。可根据辅助领域和目标领域的领域相关性、辅助问答数据和目标问答数据的逻辑相关性以及问答数据的文字含义等等,计算该相关性,以减小补充训练中由于辅助问答数据的领域特性等因素造成的模型误差。
S104,将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,以得到优化后的目标问答模型,所述补充训练的训练过程受所述相关性控制。
当计算出所述相关性后,即可以辅助问答数据为训练样本,根据其对应的相关性控制样本对于模型训练结果的影响程度,对目标问答模型进行补充训练,以实现模型训练的数据增强。
本实施例中,该方法除获取目标领域的目标问答数据进行大数据训练得到目标问答模型,还可将其他领域的问答数据作为补充训练样本对目标问答模型进行补充训练,以增强模型训练的数据。其中,在进行补充训练时,需考虑补充训练样本在模型训练时的系数,即辅助问答数据与目标问答数据的相关性。通过此方法,能够利用其它领域的问答数据来增强目标领域的数据,以增大训练目标领域问答模型的数据量,从而提高问答模型的训练效果,提高目标问答模型的准确性,改善新领域下的初始问答体验。
在一个实施例中,请继续参见图1,图1中的步骤S104将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,可以包括:获取所述目标问答模型的损失函数,根据所述相关性对所述损失函数进行更新;将所述至少一组辅助问答数据作为补充训练样本,按照更新后的损失函数对所述目标问答模型进行补充训练。
其中,损失函数(loss function)是用来估量模型的预测值与真实值的不一致程度,损失函数越小,模型的鲁棒性就越好。
具体地,在图1中步骤S104相关性对补充训练样本的控制,是在补充训练样本进行训练时,改变目标问答模型的损失函数。
本实施例中,可通过用辅助问答数据与目标问答数据的相关性来改变目标问答模型的损失函数,以弱化补充训练时辅助问答数据的领域特性对训练结果的影响。
在一个实施例中,上述根据所述相关性对所述损失函数进行更新,可以包括:当所述辅助问答数据为一组时,将所述辅助问答数据对应的相关性和所述损失函数的乘积作为更新后的损失函数;当所述辅助问答数据超过一组时,将每组辅助问答数据对应的相关性和所述损失函数的乘积进行求和,以得到更新后的损失函数。
继续上一实施例,可将相关性进行归一化计算,得到对原损失函数进行更新的系数。在利用该系数对原损失函数进行更新时,若辅助问答数据为一组时,直接计算原损失函数和该系数的乘积;若辅助问答数据超过一组,可分别计算每组辅助问答数据的相关性系数和原损失函数的乘积,再进行求和,以得到更新后的损失函数。求和之后还可计算平均值,使更新后的损失函数与原损失函数的数量级相同。
损失函数更新的公式可以表示为:
loss(b)=∑[M×loss(Q,A)];
其中,loss(b)为根据相关性更新后的损失函数,M为相关性的系数,loss(Q,A)为源损失函数。(Q,A)为目标问答数据的一个数据对。
本实施例中,可分别计算每组辅助问答数据的相关性系数和原损失函数的乘积,再进行求和,以得到更新后的损失函数,以提高补充训练的准确性。
在一个实施例中,每组辅助问答数据包括辅助问题和对应的辅助答案,请继续参见图1,图1中的步骤S103计算所述至少一组辅助问答数据与目标问答数据的相关性,可以包括:计算每一辅助问题对应的第一相关性;计算每一辅助答案对应的第二相关性;根据每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性,得到该组辅助问答数据对应的相关性。
当问答数据为问题与答案的数据对时,每组辅助问答数据包括辅助问题和对应的辅助答案。在计算辅助问答数据与目标问答数据的相关性时,可分别计算每组辅助问答数据对应的相关性,并将每组辅助问答数据的相关性拆分为其中辅助问题对应的第一相关性和辅助答案对应的第二相关性。即从问题和答案的角度,分别考虑其句法、语义等文字的逻辑性来获取每组辅助问答数据的相关性。
本实施例中,从问题和答案的角度,分别考虑其句法、语义等文字的逻辑性来获取每组辅助问答数据的第一相关性和第二相关性,可以更加准确地分析辅助问答数据和目标问答数据的相关性。
在一个实施例中,所述目标问答数据中包括目标问题和对应的目标答案,请参见图2,图2提供了本发明实施例的一种问答模型的优化方法的部分流程示意图;上述计算每一辅助问题对应的第一相关性,具体可以包括以下步骤S201至S204:
S201,以所述辅助问题为训练样本,训练辅助语言模型。
将若干个辅助问答数据中的辅助问题作为训练样本,进行大数据训练得到的语言模型称为辅助语言模型。
S202,以所述目标问题为训练样本,训练目标语言模型。
将若干个目标问答数据中的目标问题作为训练样本,进行大数据训练得到的语言模型称为目标语言模型。
S203,计算所述每一辅助问题对所述目标语言模型的第一困惑度,以及对辅助语言模型的第二困惑度。
其中,困惑度(perplexity)用来度量一个概率分布或概率模型预测样本的好坏程度。将辅助领域的问答模型称为辅助问答模型,该模型较为成熟。
在计算每一辅助问题对应的第一相关性时,可根据该辅助问题对目标语言模型的困惑度(即第一困惑度)和该辅助问题对辅助语言模型的困惑度(即第二困惑度)进行再处理得到。
S204,根据每一辅助问题的第一困惑度计算该辅助问题的第一交叉熵分数。
第一交叉熵分数是根据每一辅助问题的第一困惑度得到的、用于表示该辅助问题在目标语言模型中表现出的特性。
S205,根据每一辅助问题的第二困惑度计算该辅助问题的第二交叉熵分数。
第二交叉熵分数是根据每一辅助问题的第二困惑度得到的、用于表示该辅助问题在辅助领域的语言模型中表现出的特性。
S206,根据每一辅助问题的第一交叉熵分数和第二交叉熵分数得到该辅助问题的第一相关性。
每一辅助问题在补充训练时的第一相关性,可以根据该辅助问题对目标语言模型和辅助语言模型中的困惑度所对应的特性来获得。
本实施例中,在计算每一辅助问题在补充训练时的第一相关性时,可根据辅助问题训练辅助语言模型,并根据目标问题训练目标语言模型,考虑每一辅助问题对于目标语言模型的第一交叉熵分数,和该辅助问题对于辅助语言模型的第二交叉熵分数,以得到该辅助问题的第一相关性。
在一个实施例中,图2中的步骤S202根据每一辅助问题的第一困惑度计算该辅助问题的第一交叉熵分数,可以包括:取所述第一困惑度对数的相反值,作为该辅助问题的第一交叉熵分数;步骤S203根据每一辅助问题的第二困惑度计算该辅助问题的第二交叉熵分数,可以包括:取所述第二困惑度对数的相反值,作为该辅助问题的第二交叉熵分数。
其中,辅助问答数据的一组问答对以(qF,aF)表示,其中,qF为此问答对中的辅助问题,aF为此问答对中的辅助答案,计算得到的辅助问题qF对目标语言模型的困惑度为pplT(qF),对辅助语言模型的第二困惑度pplF(qF)。
辅助问题qF的第一交叉熵分数为CEQT(qF)的具体计算方式可表示为以下公式:
CEQT(qF)=-log(pplT(qF));
辅助问题qF的第二交叉熵分数为CEQF(qF)的具体计算方式可表示为以下公式:
CEQF(qF)=-log(pplF(qF))。
在一个实施例中,请参见图3,图3为本发明实施例的又一种问答模型的优化方法部分流程示意图;上述计算每一辅助答案对应的第二相关性,具体可以包括以下步骤S301至S305:
步骤S301,获取所述每一辅助答案的长度和每一目标答案的长度。
在计算每一辅助答案的第二相关性时,可根据辅助答案和目标答案的长度的关系得到。首先,获取每一辅助答案的长度,该长度为该辅助答案包含的字符个数;并获取每一目标答案的长度,即该目标答案中包含的字符个数。
步骤S302,统计每一长度的辅助答案在所有辅助答案中的第一频次,并统计与所述每一辅助答案相同长度的目标答案在所有目标答案中的第二频次。
由于问答对中的答案往往长短参差不齐,可对各长度的答案的频次进行统计。
步骤S303,根据所述第一频次计算该辅助答案的第三交叉熵分数。
第三交叉熵分数是根据每一辅助答案的第一频次得到的,用于表示该辅助答案作为补充训练的训练样本时、其文字结构反映的特性的数值。
步骤S304,根据所述第二频次计算该辅助答案的第四交叉熵分数。
第四交叉熵分数是根据目标答案第二频次得到的,用于表示该目标答案在模型训练作为训练样本时、其文字结构反映的特性的数值。
步骤S305,根据所述每一辅助答案的第三交叉熵分数和第四交叉熵分数得到该辅助问答数据的第二相关性。
根据第三交叉熵分数和第四交叉熵分数,可获取辅助答案层面反映出的辅助领域和目标领域的相关性,即第二相关性。
本实施例中,由于问答对中的答案往往长短参差不齐,可对各长度的答案的频次进行统计,以提取辅助答案和目标答案在文字结构中的关联,从而获取答案层面反映出的辅助领域和目标领域的第二相关性。
在一个实施例中,图3中的步骤S303所述根据所述第一频次计算该辅助答案的第三交叉熵分数,包括:取所述第一频次对数的相反值,作为该辅助答案的第三交叉熵分数;步骤S304所述根据所述第二频次计算该辅助答案的第四交叉熵分数,包括:取所述第二频次对数的相反值,作为该辅助答案的第四交叉熵分数。
其中,统计每一长度的辅助答案在所有辅助答案中的第一频次可表示为freqF,统计对应长度的每一目标答案在所有目标答案中的第二频次可表示为freqT。
分别对第一频次和第二频次取对数的相反值的计算公式为:
CEAT(aF)=-log(freqT(laf));
CEAF(aF)=-log(freqF(laf));
其中,laf表示辅助答案aF的长度,CEAF(aF)为辅助答案的第三交叉熵分数,CEAT(aF)为辅助答案的第四交叉熵分数。
在一个实施例中,所述计算每一辅助问题对应的第一相关性,包括:对所述每一辅助问题的第一交叉熵分数和第二交叉熵分数求差,并将差值作为该辅助问题对应的第一相关性。
根据上述各参数的计算方法,第一相关性的计算公式可以表示CEQT(qF)-CEQF(qF)。
可选的,可先将第一交叉熵分数和第二交叉熵分数先做归一化,在对归一化后的第一交叉熵分数和第二交叉熵分数求差,作为第一相关性。
所述计算每一辅助答案对应的第二相关性,包括:对所述每一辅助答案的第交叉熵分数和所述第三交叉熵分数求差,并将差值作为该辅助答案对应的第二相关性。
第二相关性的计算公式可以表示CEAT(aF)-CEAF(aF)。
可选的,可先将第三交叉熵分数和第四交叉熵分数先做归一化,在对归一化后的第四交叉熵分数和第三交叉熵分数求差,作为第一相关性。
所述根据每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性,得到该组辅助问答数据对应的相关性,包括:对每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性求和,将求和得到的值作为该组辅助问答数据对应的相关性。
一组辅助问答数据的相关性为其中辅助问题的第一相关性和辅助答案的第二相关性的和,可表示为以下公式:
(CEQT(qF)-CEQF(qF))+(CEAT(aF)-CEAF(aF))。
本实施例中,将一组辅助问答数据中的辅助问题对应的第一相关性和辅助答案的第二相关性结合起来,计算得到此辅助问答数据作为补充训练样本时的相关性,此相关性反映的是每一组辅助领域中的问答对的交叉熵差异值,交叉熵差异值越小,则表示问答对与目标领域越相关。
则根据此交叉熵差异值更新损失函数时,可将每一辅助问答数据的交叉熵差异值代入公式loss(b)=∑[M×loss(Q,A)]中的M值,即可求出补充训练的损失函数loss(b)。
本发明实施例提供的问答模型的优化方法,针对新的目标领域中训练数据往往比较少,并且问答模型效果不佳的情况下,在不引入复杂的模型和复杂的学习训练方法的前提下,通过利用其它领域或相似辅助任务的数据来增强目标领域的训练数据,从而可以使历史模型框架继续使用,只需简单将其它领域或其他辅助任务的数据与目标领域数据的相关性引入其训练的交叉熵差异值,即可明显提升目标问答模型的准确率等性能,大幅改善相关新领域下的初始问答体验。
请参见图4,图4为本发明实施例提供的一种问答模型的优化装置的结构示意图,该装置具体可以包括目标问答数据获取模块401、模型训练模块402、辅助问答数据获取模块403和模型优化模块404,其中:
目标问答数据获取模块401,用于获取目标问答数据。
模型训练模块402,用于获取初始机器学习模型,并以所述目标问答数据为训练样本、对所述初始机器学习模型进行训练,得到目标问答模型。
辅助问答数据获取模块403,用于获取至少一组辅助问答数据,并计算所述至少一组辅助问答数据与目标问答数据的相关性。
模型优化模块404,用于将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,以得到优化后的目标问答模型,所述补充训练的训练过程受所述相关性控制。
在一个实施例中,请继续参见图4,所述模型优化模块404可以包括:
损失函数更新单元,用于获取所述目标问答模型的损失函数,根据所述相关性对所述损失函数进行更新。
补充训练单元,用于将所述至少一组辅助问答数据作为补充训练样本,按照更新后的损失函数对所述目标问答模型进行补充训练。
在一个实施例中,损失函数更新单元可以包括:
单组损失函数更新子单元,用于当所述辅助问答数据为一组时,将所述辅助问答数据对应的相关性和所述损失函数的乘积作为更新后的损失函数。
多组损失函数更新子单元,用于当所述辅助问答数据超过一组时,将每组辅助问答数据对应的相关性和所述损失函数的乘积进行求和,以得到更新后的损失函数。
在一个实施例中,每组辅助问答数据包括辅助问题和对应的辅助答案,请继续参见图4,辅助问答数据获取模块403可以包括:
第一相关性计算单元,用于计算每一辅助问题对应的第一相关性。
第二相关性计算单元,用于计算每一辅助答案对应的第二相关性。
相关性获取单元,用于根据每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性,得到该组辅助问答数据对应的相关性。
在一个实施例中,第一相关性计算单元可以包括:
辅助语言模型训练子单元,用于以所述辅助问题为训练样本,训练辅助语言模型;
目标语言模型训练子单元,用于以所述目标问题为训练样本,训练目标语言模型;
辅助问题分析子单元,用于计算所述每一辅助问题对所述目标语言模型的第一困惑度,以及对辅助语言模型的第二困惑度。
第一交叉熵分数计算子单元,用于根据每一辅助问题的第一困惑度计算该辅助问题的第一交叉熵分数。
第二交叉熵分数计算子单元,用于根据每一辅助问题的第二困惑度计算该辅助问题的第二交叉熵分数。
第一相关性计算子单元,用于根据每一辅助问题的第一交叉熵分数和第二交叉熵分数得到该辅助问题的第一相关性。
在一个实施例中,第一交叉熵分数计算子单元,还用于取所述第一困惑度对数的相反值,作为该辅助问题的第一交叉熵分数;第二交叉熵分数计算子单元,还用于取所述第二困惑度对数的相反值,作为该辅助问题的第二交叉熵分数。
在一个实施例中,所述目标问答数据中包括目标问题和对应的目标答案,第二相关性计算单元可以包括:
答案长度获取子单元,用于获取所述每一辅助答案的长度和每一目标答案的长度。
频次统计子单元,用于统计每一长度的辅助答案在所有辅助答案中的第一频次,并统计与所述每一辅助答案相同长度的目标答案在所有目标答案中的第二频次。
第三交叉熵分数计算子单元,用于根据所述第一频次计算该辅助答案的第三交叉熵分数。
第四交叉熵分数计算子单元,用于根据所述第二频次计算该辅助答案的第四交叉熵分数。
第二相关性计算子单元,用于根据所述每一辅助答案的第三交叉熵分数和第四交叉熵分数得到该辅助问答数据的第二相关性。
在一个实施例中,第三交叉熵分数计算子单元,还用于取所述第一频次对数的相反值,作为该辅助答案的第三交叉熵分数;第四交叉熵分数计算子单元,还用于取所述第二频次对数的相反值,作为该辅助答案的第四交叉熵分数。
在一个实施例中,第一相关性计算单元,还用于对所述每一辅助问题的第一交叉熵分数和第二交叉熵分数求差,并将差值作为该辅助问题对应的第一相关性;第二相关性计算单元,还用于对所述每一辅助答案的第四交叉熵分数和所述第三交叉熵分数求差,并将差值作为该辅助答案对应的第二相关性;相关性获取单元,还用于对每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性求和,将求和得到的值作为该组辅助问答数据对应的相关性。
关于上述问答模型的优化装置的工作原理、工作方式的更多内容,可以参照上述图1至图3中问答模型的优化方法的相关描述,这里不再赘述。
进一步地,本发明实施例还公开一种终端,包括存储器和处理器,存储器上存储有能够在处理器上运行的计算机指令,处理器运行计算机指令时执行上述图1至图3所示实施例中的问答模型的优化方法技术方案。
进一步地,本发明实施例还公开一种存储介质,其上存储有计算机指令,计算机指令运行时执行上述图1至图3所示实施例中的问答模型的优化方法技术方案。优选地,存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。存储介质可以包括ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (12)
1.一种问答模型的优化方法,其特征在于,所述方法包括:
获取目标问答数据;
获取初始机器学习模型,并以所述目标问答数据为训练样本、对所述初始机器学习模型进行训练,得到目标问答模型;
获取至少一组辅助问答数据,并计算所述至少一组辅助问答数据与目标问答数据的相关性;
将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,以得到优化后的目标问答模型,所述补充训练的训练过程受所述相关性控制。
2.根据权利要求1所述的方法,其特征在于,所述将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,包括:
获取所述目标问答模型的损失函数,根据所述相关性对所述损失函数进行更新;
将所述至少一组辅助问答数据作为补充训练样本,按照更新后的损失函数对所述目标问答模型进行补充训练。
3.根据权利要求2所述的方法,其特征在于,所述根据所述相关性对所述损失函数进行更新,包括:
当所述辅助问答数据为一组时,将所述辅助问答数据对应的相关性和所述损失函数的乘积作为更新后的损失函数;
当所述辅助问答数据超过一组时,将每组辅助问答数据对应的相关性和所述损失函数的乘积进行求和,以得到更新后的损失函数。
4.根据权利要求1至3任一项所述的方法,其特征在于,每组辅助问答数据包括辅助问题和对应的辅助答案,所述计算所述至少一组辅助问答数据与目标问答数据的相关性,包括:
计算每一辅助问题对应的第一相关性;
计算每一辅助答案对应的第二相关性;
根据每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性,得到该组辅助问答数据对应的相关性。
5.根据权利要求4所述的方法,其特征在于,所述目标问答数据中包括目标问题和对应的目标答案,所述计算每一辅助问题对应的第一相关性,包括:
以所述辅助问题为训练样本,训练辅助语言模型;
以所述目标问题为训练样本,训练目标语言模型;
计算所述每一辅助问题对所述目标语言模型的第一困惑度,以及对辅助语言模型的第二困惑度;
根据每一辅助问题的第一困惑度计算该辅助问题的第一交叉熵分数;
根据每一辅助问题的第二困惑度计算该辅助问题的第二交叉熵分数;
根据每一辅助问题的第一交叉熵分数和第二交叉熵分数得到该辅助问题的第一相关性。
6.根据权利要求5所述的方法,其特征在于,所述根据每一辅助问题的第一困惑度计算该辅助问题的第一交叉熵分数,包括:
取所述第一困惑度对数的相反值,作为该辅助问题的第一交叉熵分数;
所述根据每一辅助问题的第二困惑度计算该辅助问题的第二交叉熵分数,包括:
取所述第二困惑度对数的相反值,作为该辅助问题的第二交叉熵分数。
7.根据权利要求5所述的方法,其特征在于,所述计算每一辅助答案对应的第二相关性,包括:
获取所述每一辅助答案的长度和每一目标答案的长度;
统计每一长度的辅助答案在所有辅助答案中的第一频次,并统计与所述每一辅助答案相同长度的目标答案在所有目标答案中的第二频次;
根据所述第一频次计算该辅助答案的第三交叉熵分数;
根据所述第二频次计算该辅助答案的第四交叉熵分数;
根据所述每一辅助答案的第三交叉熵分数和第四交叉熵分数得到该辅助问答数据的第二相关性。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一频次计算该辅助答案的第三交叉熵分数,包括:
取所述第一频次对数的相反值,作为该辅助答案的第三交叉熵分数;
所述根据所述第二频次计算该辅助答案的第四交叉熵分数,包括:
取所述第二频次对数的相反值,作为该辅助答案的第四交叉熵分数。
9.根据权利要求7所述的方法,其特征在于,所述计算每一辅助问题对应的第一相关性,包括:
对所述每一辅助问题的第一交叉熵分数和第二交叉熵分数求差,并将差值作为该辅助问题对应的第一相关性;
所述计算每一辅助答案对应的第二相关性,包括:
对所述每一辅助答案的第四交叉熵分数和所述第三交叉熵分数求差,并将差值作为该辅助答案对应的第二相关性;
所述根据每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性,得到该组辅助问答数据对应的相关性,包括:
对每一组辅助问答数据中辅助问题对应的第一相关性和辅助答案对应的第二相关性求和,将求和得到的值作为该组辅助问答数据对应的相关性。
10.一种问答模型的优化装置,其特征在于,所述装置包括:
目标问答数据获取模块,用于获取目标问答数据;
模型训练模块,用于获取初始机器学习模型,并以所述目标问答数据为训练样本、对所述初始机器学习模型进行训练,得到目标问答模型;
辅助问答数据获取模块,用于获取至少一组辅助问答数据,并计算所述至少一组辅助问答数据与目标问答数据的相关性;
模型优化模块,用于将所述至少一组辅助问答数据作为补充训练样本对所述目标问答模型进行补充训练,以得到优化后的目标问答模型,所述补充训练的训练过程受所述相关性控制。
11.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至9任一项所述方法的步骤。
12.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至9任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911286091.9A CN111078853B (zh) | 2019-12-13 | 2019-12-13 | 问答模型的优化方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911286091.9A CN111078853B (zh) | 2019-12-13 | 2019-12-13 | 问答模型的优化方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078853A true CN111078853A (zh) | 2020-04-28 |
CN111078853B CN111078853B (zh) | 2023-05-02 |
Family
ID=70314595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911286091.9A Active CN111078853B (zh) | 2019-12-13 | 2019-12-13 | 问答模型的优化方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078853B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035649A (zh) * | 2020-09-02 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 问答模型处理方法、装置、计算机设备及存储介质 |
CN112559706A (zh) * | 2020-12-11 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 对话生成模型的训练方法、对话方法、设备以及存储介质 |
WO2021243706A1 (zh) * | 2020-06-05 | 2021-12-09 | 中山大学 | 一种跨语言生成提问的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932349A (zh) * | 2018-08-17 | 2018-12-04 | 齐鲁工业大学 | 医疗自动问答方法及装置、存储介质、电子设备 |
CN109522395A (zh) * | 2018-10-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 自动问答方法及装置 |
CN109697228A (zh) * | 2018-12-13 | 2019-04-30 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及存储介质 |
CN110222164A (zh) * | 2019-06-13 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种问答模型训练方法、问题语句处理方法、装置及存储介质 |
CN110516059A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 基于机器学习的问题答复方法、问答模型训练方法及装置 |
-
2019
- 2019-12-13 CN CN201911286091.9A patent/CN111078853B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932349A (zh) * | 2018-08-17 | 2018-12-04 | 齐鲁工业大学 | 医疗自动问答方法及装置、存储介质、电子设备 |
CN109522395A (zh) * | 2018-10-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 自动问答方法及装置 |
CN109697228A (zh) * | 2018-12-13 | 2019-04-30 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及存储介质 |
CN110222164A (zh) * | 2019-06-13 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种问答模型训练方法、问题语句处理方法、装置及存储介质 |
CN110516059A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 基于机器学习的问题答复方法、问答模型训练方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021243706A1 (zh) * | 2020-06-05 | 2021-12-09 | 中山大学 | 一种跨语言生成提问的方法和装置 |
CN112035649A (zh) * | 2020-09-02 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 问答模型处理方法、装置、计算机设备及存储介质 |
CN112035649B (zh) * | 2020-09-02 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 问答模型处理方法、装置、计算机设备及存储介质 |
CN112559706A (zh) * | 2020-12-11 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 对话生成模型的训练方法、对话方法、设备以及存储介质 |
CN112559706B (zh) * | 2020-12-11 | 2021-09-21 | 中国科学院深圳先进技术研究院 | 对话生成模型的训练方法、对话方法、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111078853B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078853B (zh) | 问答模型的优化方法、装置、计算机设备和存储介质 | |
EP3602419B1 (en) | Neural network optimizer search | |
CN110379416A (zh) | 一种神经网络语言模型训练方法、装置、设备及存储介质 | |
CN110503192A (zh) | 资源有效的神经架构 | |
CN110991195B (zh) | 机器翻译模型训练方法、装置及存储介质 | |
CN104809103A (zh) | 一种人机对话的语义分析方法及系统 | |
JP2021520529A (ja) | アクティブ学習手法を適用した機械学習フレームワークの運用方法、装置及びコンピュータプログラム | |
CN104346389A (zh) | 口语考试半开放题型的评分方法及系统 | |
EP4123516A1 (en) | Method and apparatus for acquiring pre-trained model, electronic device and storage medium | |
CN110399279B (zh) | 一种用于非人智能体的智能度量方法 | |
EA201990216A1 (ru) | Способ создания модели анализа диалогов на базе искусственного интеллекта для обработки запросов пользователей и система, использующая такую модель | |
CN110414003A (zh) | 建立文本生成模型的方法、装置、介质和计算设备 | |
CN116595151A (zh) | 基于先验知识启发大语言模型的图像推理问答方法 | |
CN117093684A (zh) | 企业服务领域预训练对话式大语言模型的构建方法及系统 | |
CN116341877A (zh) | 基于TransGPT的综合交通运行服务系统和方法 | |
CN117290429B (zh) | 通过自然语言调用数据系统接口的方法 | |
CN114154622A (zh) | 交通运行体系流量数据采集缺失补全的算法模型 | |
CN114299920A (zh) | 用于语音识别的语言模型的训练、语音识别方法及装置 | |
CN110287999B (zh) | 基于隐变量模型的故事生成方法及装置 | |
CN117112742A (zh) | 一种对话模型优化方法、装置、计算机设备和存储介质 | |
CN112633516B (zh) | 性能预测和机器学习编译优化方法及装置 | |
JP2022088341A (ja) | 機器学習装置及び方法 | |
CN112836034A (zh) | 虚拟教学方法、装置和电子设备 | |
CN116883067B (zh) | 一种医药品牌推广系统及方法 | |
CN111984703A (zh) | 在知识库中定位问题的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |