CN110196899B - 一种低资源语言问答语料库生成方法 - Google Patents

一种低资源语言问答语料库生成方法 Download PDF

Info

Publication number
CN110196899B
CN110196899B CN201910501879.0A CN201910501879A CN110196899B CN 110196899 B CN110196899 B CN 110196899B CN 201910501879 A CN201910501879 A CN 201910501879A CN 110196899 B CN110196899 B CN 110196899B
Authority
CN
China
Prior art keywords
generated
question
sample
sequence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910501879.0A
Other languages
English (en)
Other versions
CN110196899A (zh
Inventor
孙媛
夏天赐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN201910501879.0A priority Critical patent/CN110196899B/zh
Publication of CN110196899A publication Critical patent/CN110196899A/zh
Application granted granted Critical
Publication of CN110196899B publication Critical patent/CN110196899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种低资源语言问答语料库生成方法,该方法包括以下步骤:采用生成对抗网络生成问答语料库,通过最大似然估计对随机问句序列进行初始化,然后送入生成器准循环神经网络中产生问题,同时优化强化学习中蒙特卡洛搜索加速模型迭代速度,最后使用语言模型对产生的问题进行语法优化,使得问题更加准确、自然。本发明通过优化生成对抗网络模型,自动地构建出大规模的低资源语言问答语料库,为进一步开展低资源语言问答系统研究提供了支撑;并通过对生成对抗网络模型进行优化,通过使用准循环神经网络模型作为生成器的基本单元,以及优化蒙特卡罗搜索算法降低模型的收敛时间。

Description

一种低资源语言问答语料库生成方法
技术领域
本发明涉及问答系统技术领域,特别涉及一种低资源语言问答语料库生成方法
背景技术
近年来,随着信息化的快速发展,人工智能领域取得了突飞猛进的进步,问答系统作为人工智能领域的一个重要分支也受到了越来越多的关注。问答系统可以接受并理解用户输入的自然语言问句,同时返回给用户准确而简约的答案。目前,由于存在大规模公开的问答语料库(如Google的Natural Questions,Facebook的SimpleQuestions,微软的WikiQA,TREC QA,百度中文问答数据集WebQA等),问答系统在英、汉等语言取得了很大进展,而低资源语言问答系统的研究还处于起步阶段,缺少公开的问答语料库是一个很重要的原因,因此如何有效构建出大规模的低资源语言问答语料库至关重要。
传统人工标注构建语料库的方法需要花费大量的时间和人力。因此,很多研究者把重心放在构造虚拟问答对的任务上,主要采用基于模板的方式进行构建。基于模板的构建方式利用知识库或者文本段落,通过人工抽取、标注等操作,将问句从知识库或者文本段落中提取出来,并且转化成自然语言问句。但是,基于模板的构建方式存在相应的问句质量无法保证,问句同质化严重的问题。
发明内容
本发明的目的在于,解决低资源语言问答语料库资源匮乏的问题,利用小规模的低资源语言问答语料库,将生成对抗网络(GAM)网络应用于低资源语言问答语料库生成中。
为实现上述目的,本发明提供了一种低资源语言问答语料库生成方法,该方法包括以下步骤:
采用生成对抗网络生成问答语料库;通过最大似然估计对随机产生的样本数据进行初始化;然后送入准循环神经网络的生成器中产生问题,同时优化强化学习中蒙特卡洛搜索加速模型迭代速度,最后使用语言模型对产生的问题进行语法优化,使得问题更加准确、自然。
优选地,本发明通过数据库中已统计字符随机产生一定量的样本数据,同时为了缩小产生的样本数据和真实数据的概率分布差异,使用最大似然估计对产生的随机样本数据进行初始化,然后再送入准循环神经网络的生成器中。
优选地,本发明通过优化蒙特卡洛搜索算法训练一个可以对部分已生成前缀进行打分的判别器,加速强化学习搜索效率;判别器采用长短期记忆网络结构,为了使得生成的样本数据更加逼近真实样本的数据分布,利用强化学习对生成器和判别器分别进行参数调优;为了对文本序列进行策略优化,通过在判别器对各个生成样本打出概率得分上会减去一个惩罚基准值来优化搜索空间,进而优化整个搜索策略。
优选地,本发明使用BERT模型对问题进行修正和优化,使得生成的问题更加自然、准确。
优选地,本发明最大似然估计对产生的随机样本数据进行初始化步骤,包括:定义初始化序列为T=(t1,t2,L,tn),通过训练得到初始化数据模型参数θ。即
Figure BDA0002090509670000021
优选地,生成器使用准循环神经网络模型单元,即
ht=QRNN(ht-1,xt)
p(yt|x1,x2,L,xt)=z(ht)
ht是QRNN网络输出的中间隐层向量,而z(ht)是一个softmax函数,主要根据已经生成的序列来预测下一个单词,xt代表时刻t的输入。
优选地,本发明采用判别器给予生成样本xi的概率得分并且将其反馈给生成器作为奖励;别器对各个生成样本打出概率得分上会减去一个惩罚基准值b,公式如下。
Figure BDA0002090509670000022
优选地,蒙特卡洛搜索优化算法对于获得的部分序列进行下一个字符或者序列的预测,假设已经拥有了部分生成的前缀xi[1:t],利用当前的生成器参数,强制固定这个前缀,并重复生成出可能的M个完整的序列,然后分别交给判别器进行打分,这M个模拟样本的平均奖励得分即为部分序列xi[1:t]的奖励估计值De(ai,xi[1:t])
Figure BDA0002090509670000031
其中,ai代表第i个生成文本序列的得分,xi[1:t]代表第i个文本从时间1到t已经产生的序列。
优选地,本发明直接训练一个可以对部分已生成前缀进行打分的新判别器,将真实样本X+的全部前缀子序列(必须从第一个词开始)集合记作
Figure BDA0002090509670000032
同样将生成样本X-的全部前缀子序列集合记作
Figure BDA0002090509670000033
每次从这两者中随机挑选一个或若干个标定为+或-,与原序列一同加入判别器D的训练中,通过这种方式反复训练的判别器便增加了给前缀子序列打分的能力,直接使用这样的判别器D给前缀子序列打分可获得De(ai,xi[1:t])的计算方法。
优选地,本发明使用BERT模型对产生的问题进行修正和优化,其中包括两个部分:随机掩码和下一句话预测;
随机掩码:针对文本表示较长的问题,采用20%的概率将一些词使用特殊符号“*”代替;
下一句话预测:按照50%的比例从生成的虚拟问答对中选择,另外按照50%的数量随机选择,从中筛选出正确对应的问答对。
本发明通过优化生成对抗网络模型,自动地构建出大规模的低资源语言问答语料库,为进一步开展低资源语言问答系统研究提供了支撑;并通过对生成对抗网络模型进行优化,通过使用准循环神经网络模型作为生成器的基本单元,以及优化蒙特卡罗搜索算法降低模型的收敛时间。
附图说明
图1为本发明实施例提供的一种低资源语言问答语料库生成方法流程示意图;
图2为图1所示方法的技术方案示意图。
具体实施例
图1为本发明实施例提供的一种低资源语言问答语料库生成方法流程示意图。如图1和图2所示,该方法包括步骤S101-S103:
步骤S101,采用生成对抗网络生成问答语料库;
步骤S102,通过最大似然估计对随机产生的样本数据进行初始化;
具体地,为了更加有效地生成问题,本发明实施例使用最大似然估计对产生的随机样本数据进行初始化。定义初始化序列为T=(t1,t2,L,tn),通过训练得到初始化数据模型参数θ。即
Figure BDA0002090509670000041
步骤S103,然后送入准循环神经网络的生成器中产生问题,同时优化强化学习中蒙特卡洛搜索加速模型迭代速度,最后使用语言模型对产生的问题进行语法优化,使得问题更加准确、自然。
具体地,本发明实施例生成器使用准循环神经网络(QRNN)模型单元,即
ht=QRNN(ht-1,xt)
p(yt|x1,x2,L,xt)=z(ht)
ht是QRNN网络输出的中间隐层向量,而z(ht)是一个softmax函数,主要根据已经生成的序列来预测下一个单词,xt代表时刻t的输入。本发明使用准循环神经网络作为生成器的基本单元,准循环神经网络不仅仅可以处理时序问题,同时可以大大加速模型的训练速度。
本发明实施例采用判别器D给予生成样本xi的概率得分(xi属于真实样本的概率)并且将其反馈给生成器作为奖励。既然是概率值,即使生成器生成的样本数据存在大量的语法错误,判别器D也不会给出负的得分对生成器进行惩罚。从理论上来看,生成器的训练会趋向于降低较小奖励值样本xlow出现的概率而提高较大奖励值样本xhigh出现的概率。由于采样不全、数据稀疏等不可控因素,这种区分不明的奖惩区别将有可能使得生成器G的训练变的偏颇。因此在判别器D对各个生成样本打出概率得分上会减去一个惩罚基准值b,如下所示。
Figure BDA0002090509670000051
本发明实施例采用蒙特卡洛搜索优化算法对于获得的部分序列进行下一个字符或者序列的预测。假设已经拥有了部分生成的前缀xi[1:t],利用当前的生成器参数,强制固定这个前缀,并重复生成出可能的M个完整的序列,然后分别交给判别器D进行打分,这M个模拟样本的平均奖励得分即为部分序列xi[1:t]的奖励估计值De(ai,xi[1:t])。
Figure BDA0002090509670000052
其中,ai代表第i个生成文本序列的得分,xi[1:t]代表第i个文本从时间1到t已经产生的序列。然而,每生成一个词,就要进行M次生成采样,非常耗时;同时每当计算较为靠后的一些部分序列奖励估计值的时候,总是会无法避免地多计算前面已经生成的项,这样计算出来的奖励估计值可能导致对于较前子序列的过拟合。因此,本发明直接训练一个可以对部分已生成前缀进行打分的新判别器D。将真实样本X+的全部前缀子序列(必须从第一个词开始)集合记作
Figure BDA0002090509670000053
同样将生成样本X-的全部前缀子序列集合记作
Figure BDA0002090509670000054
每次从这两者中随机挑选一个或若干个标定为+或-,与原序列一同加入判别器D的训练中,通过这种方式反复训练的判别器便增加了给前缀子序列打分的能力,直接使用这样的判别器D给前缀子序列打分可获得De(ai,xi[1:t])的计算方法。该方法耗时较传统的蒙特卡洛搜索耗时较少。本发明实施例对蒙特卡洛搜索算法进行优化,通过分段打分,提高模型整体的优化速度。另外,为了更加有效地生成问题,通过减去偏置项的方法,降低模型的搜索空间以及奖励策略的局部优化。
为了降低模型产生的问题的语法错误,本发明使用BERT模型对产生的问题进行修正和优化,其中包括两个部分:随机掩码和下一句话预测。
随机掩码:针对文本表示较长的问题,采用20%的概率将一些词使用特殊符号“*”代替。
下一句话预测:按照50%的比例从生成的虚拟问答对中选择,另外按照50%的数量随机选择,从中筛选出正确对应的问答对。本发明实施例通过BERT模型对生成器生成的问题进行微调。
本发明实施例通过优化生成对抗网络模型,自动地构建出大规模的低资源语言问答语料库,为进一步开展低资源语言问答系统研究提供了支撑。以及通过对生成对抗网络模型进行优化,通过使用准循环神经网络模型作为生成器的基本单元,以及优化蒙特卡罗搜索算法降低模型的收敛时间。

Claims (6)

1.一种低资源语言问答语料库生成方法,采用生成对抗网络生成问答语料库;其特征在于,包括以下步骤:
通过最大似然估计对随机产生的样本数据进行初始化;
然后送入准循环神经网络的生成器中产生问题,同时优化强化学习中蒙特卡洛搜索加速模型迭代速度,最后使用语言模型对产生的问题进行语法优化;
所述最大似然估计对产生的随机样本数据进行初始化步骤,包括:定义初始化序列为T=(t1,t2,L,tn),通过训练得到初始化数据模型参数θ,即:
Figure FDA0002513833380000011
所述生成器使用准循环神经网络模型单元,即
ht=QRNN(ht-1,xt)
p(yt|x1,x2,L,xt)=z(ht)
ht是QRNN网络在t时刻的中间输出隐层向量,而z(ht)是一个softmax函数,它是根据已经生成的序列来预测下一个单词,xt代表时刻t的输入;
采用判别器给予生成样本xi,并且将其反馈给生成器作为奖励Rθ,判别器对各个生成样本打出的概率得分上减去一个惩罚基准值b,则奖励Rθ的梯度公式如下:
Figure FDA0002513833380000012
所述蒙特卡洛搜索优化算法对于获得的部分序列进行下一个字符或者序列的预测,假设在t时刻已经拥有了生成句子的前缀序列xi[1:t],利用当前的生成器参数,强制固定这个前缀,并重复生成出可能的M个完整的后续序列然后分别交给判别器进行打分,这M个模拟样本的平均奖励得分即为部分序列xi[1:t]的奖励估计值De(ai,xi[1:t]),;
Figure FDA0002513833380000013
其中,ai代表第i个生成文本序列的得分,xi[1:t]代表第i个文本从时间1到t已经产生的序列。
2.根据权利要求1所述的方法,其特征在于,通过数据库中已统计字符随机产生一定量的样本数据,同时为了缩小产生的样本数据和真实数据的概率分布差异,使用最大似然估计对产生的随机样本数据进行初始化,然后再送入准循环神经网络的生成器中。
3.根据权利要求1所述的方法,其特征在于,通过优化蒙特卡洛搜索算法训练一个可以对部分已生成前缀进行打分的判别器,加速强化学习搜索效率;判别器采用长短期记忆网络结构,为了使得生成的样本数据更加逼近真实样本的数据分布,利用强化学习对生成器和判别器分别进行参数调优;为了对文本序列进行策略优化,通过在判别器对各个生成样本打出的概率得分上减去一个惩罚基准值来优化搜索空间,进而优化整个搜索策略。
4.根据权利要求1所述的方法,其特征在于,使用BERT模型对问题进行修正和优化。
5.根据权利要求1所述的方法,其特征在于,直接训练一个可以对部分已生成前缀进行打分的新判别器,将真实样本X+的全部前缀子序列集合记作
Figure FDA0002513833380000021
其中上标Tx+表示取自句子长度为T的真实样本X+,同样将生成样本X-的全部前缀子序列集合记作
Figure FDA0002513833380000022
其中上标Tx-表示取自句子长度为T的生成器样本X-,从真实样本X+的全部前缀子序列集合中挑选一个或若干个子序列并根据来源标定为+,从生成样本X-的全部前缀子序列集合中挑选一个或若干个子序列并根据来源标定为-,通过这种方式反复训练的判别器便增加了给前缀子序列打分的能力,直接使用这样的判别器D给前缀子序列打分可获得De(ai,xi[1:t])的计算方法。
6.根据权利要求1所述的方法,其特征在于,使用BERT模型对产生的问题进行修正和优化,其中包括两个部分:随机掩码和下一句话预测;
随机掩码:针对文本表示较长的问题,采用20%的概率将一些词使用特殊符号“*”代替;
下一句话预测:按照50%的比例从生成的虚拟问答对中选择,另外按照50%的数量随机选择,从中筛选出正确对应的问答对。
CN201910501879.0A 2019-06-11 2019-06-11 一种低资源语言问答语料库生成方法 Active CN110196899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910501879.0A CN110196899B (zh) 2019-06-11 2019-06-11 一种低资源语言问答语料库生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910501879.0A CN110196899B (zh) 2019-06-11 2019-06-11 一种低资源语言问答语料库生成方法

Publications (2)

Publication Number Publication Date
CN110196899A CN110196899A (zh) 2019-09-03
CN110196899B true CN110196899B (zh) 2020-07-21

Family

ID=67754383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910501879.0A Active CN110196899B (zh) 2019-06-11 2019-06-11 一种低资源语言问答语料库生成方法

Country Status (1)

Country Link
CN (1) CN110196899B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955765A (zh) * 2019-11-22 2020-04-03 中国南方电网有限责任公司 智能助理的语料构建方法、装置、计算机设备和存储介质
CN111428448B (zh) * 2020-03-02 2024-05-07 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及可读存储介质
CN112257460B (zh) * 2020-09-25 2022-06-21 昆明理工大学 基于枢轴的汉越联合训练神经机器翻译方法
CN113609824A (zh) * 2021-08-10 2021-11-05 上海交通大学 基于文本编辑和语法纠错的多轮对话改写方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345640A (zh) * 2018-01-12 2018-07-31 上海大学 一种基于神经网络语义分析的问答语料库构建方法
CN108734276A (zh) * 2018-04-28 2018-11-02 同济大学 一种基于对抗生成网络的模仿学习对话生成方法
CN109063164A (zh) * 2018-08-15 2018-12-21 百卓网络科技有限公司 一种基于深度学习的智能问答方法
CN109614471A (zh) * 2018-12-07 2019-04-12 北京大学 一种基于生成式对抗网络的开放式问题自动生成方法
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345640A (zh) * 2018-01-12 2018-07-31 上海大学 一种基于神经网络语义分析的问答语料库构建方法
CN108734276A (zh) * 2018-04-28 2018-11-02 同济大学 一种基于对抗生成网络的模仿学习对话生成方法
CN109063164A (zh) * 2018-08-15 2018-12-21 百卓网络科技有限公司 一种基于深度学习的智能问答方法
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN109614471A (zh) * 2018-12-07 2019-04-12 北京大学 一种基于生成式对抗网络的开放式问题自动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Hybrid Network Model for Tibetan Question Answering;YUAN SUN 等;《IEEE ACCESS》;20190501;第7卷(第1期);全文 *
基于联合模型的藏文实体关系抽取方法研究;夏天赐 等;《中文信息学报》;20181231;第32卷(第12期);全文 *

Also Published As

Publication number Publication date
CN110196899A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110196899B (zh) 一种低资源语言问答语料库生成方法
US20210390271A1 (en) Neural machine translation systems
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
Hughes et al. Reliable and scalable variational inference for the hierarchical dirichlet process
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN110414003B (zh) 建立文本生成模型的方法、装置、介质和计算设备
CN110263147B (zh) 推送信息的生成方法及装置
CN111626041B (zh) 一种基于深度学习的音乐评论生成方法
CN108647191A (zh) 一种基于有监督情感文本和词向量的情感词典构建方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN111985218A (zh) 一种基于生成对抗网络的司法文书自动校对方法
CN114969294A (zh) 一种音近敏感词的扩展方法
Lee et al. An unsupervised approach to user simulation: toward self-improving dialog systems
CN117453898A (zh) 基于思维链的跨模态问答的处理方法和装置
Shen et al. Research on high-performance English translation based on topic model
Naulla et al. Predicting the Next Word of a Sinhala Word Series Using Recurrent Neural Networks
Han et al. Lexicalized neural unsupervised dependency parsing
CN111104806A (zh) 神经机器翻译模型的构建方法及装置、翻译方法及装置
Singla et al. Minimal: Mining models for universal adversarial triggers
Dai et al. Simple induction of (deterministic) probabilistic finite-state automata for phonotactics by stochastic gradient descent

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant