CN113239151A - 基于bart模型的口语理解数据增强方法、系统及设备 - Google Patents

基于bart模型的口语理解数据增强方法、系统及设备 Download PDF

Info

Publication number
CN113239151A
CN113239151A CN202110540820.XA CN202110540820A CN113239151A CN 113239151 A CN113239151 A CN 113239151A CN 202110540820 A CN202110540820 A CN 202110540820A CN 113239151 A CN113239151 A CN 113239151A
Authority
CN
China
Prior art keywords
data
model
enhanced
enhancement
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110540820.XA
Other languages
English (en)
Other versions
CN113239151B (zh
Inventor
周玉
林海涛
向露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110540820.XA priority Critical patent/CN113239151B/zh
Publication of CN113239151A publication Critical patent/CN113239151A/zh
Application granted granted Critical
Publication of CN113239151B publication Critical patent/CN113239151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,具体涉及了一种基于BART模型的口语理解数据增强方法、系统及设备,旨在解决的问题。本发明包括:将训练数据进行变换,去除其语义槽值信息或上下文表达方式的信息;利用预训练语言模型BART在变换的数据上进行调优,获得两种调优模型;分别使用两种调优模型和少量训练数据进行增强数据的生成;对增强数据进行过滤处理,获得最终的增强训练数据。本发明在只利用少量训练数据的前提下,可以生成具有不同语义槽值和上下文的带标签的增强训练数据,有效地提高了口语理解模型在少量数据下的语义槽填充的性能。

Description

基于BART模型的口语理解数据增强方法、系统及设备
技术领域
本发明属于自然语言处理技术领域,具体涉及了一种基于BART模型的口语理解数据增强方法、系统及设备。
背景技术
自然语言理解中,口语理解是传统模块级联的任务型对话系统中一个关键的模块,旨在理解对话中每个语句的关键语义信息。该模块分为意图识别和语义槽填充两个子任务。意图识别是指识别用户输入文本的意图和动作类别,语义槽填充是指识别句子中存在的语义槽值以及对应的语义槽类型。相较于意图识别,语义槽填充任务的难度更大,该任务得到的结果对于对话系统的性能有着显著的影响。
口语理解模型在训练过程中通常需要大量的带标签的数据,但是在实际应用中,特别是面向一个新领域的对话场景,大量的带标签数据是难以保证的,往往只能使用少量的SLU数据进行训练。在面向少样本的场景设定下,对已有数据进行数据增强是一种直接的解决方法。数据增强的思想是基于已有数据生成新的数据,通过增加训练数据的规模提高模型性能的鲁棒性。
然而,绝大多数面向口语理解的数据增强方法只能从已有少量数据中挖掘信息,难以生成与已有数据差别较大的增强数据,导致生成数据新颖性不足,难以给口语理解模型带来性能上的提升。另外,目前现有方法只能生成具有不同表达方式的语句,但其中的语义槽值基本都是在原有数据中已经出现的,难以生成新的语义槽值。
总的来说,本领域还需要在口语理解模型的增强训练数据的新颖性进行创新,包括新语义槽值和新的上下文表达两方面的创新,借助预训练语言模型BART中的潜在知识,生成新的语义槽值和新的上下文表达方式进行模型训练数据增强,从而有效提高了口语理解模型在少样本场景下的语义槽填充效果。
发明内容
为了解决现有技术中的上述问题,即现有技术难以在少量训练数据的前提下,生成具有不同语义槽值和上下文的带标签增强数据的问题,本发明提供了一种基于BART模型的口语理解数据增强方法,该数据增强方法包括:
步骤S10,获取口语理解模型的训练数据,并分别对数据进行语义槽标签和语义帧变换,获得第一预处理数据和第二预处理数据;
步骤S20,分别构建针对所述第一预处理数据和第二预处理数据的第一损失函数和第二损失函数,并基于所述第一损失函数和第二损失函数分别进行所述预训练语言模型BART的调优,获得第一调优模型和第二调优模型;
步骤S30,基于获取的口语理解模型的少量待增强训练数据,分别通过所述第一调优模型和第二调优模型获取第一增强数据和第二增强数据;
步骤S40,分别对所述第一增强数据和第二增强数据进行过滤处理,获得口语理解模型的增强训练数据。
在一些优选的实施例中,步骤S10中对数据进行语义槽标签变换,其方法为:
将所述训练数据中的语义槽值替换为语义槽标签,并在替换后的语义槽标签前后各添加一个设定的特殊符号。
在一些优选的实施例中,步骤S10中对数据进行语义帧变换,其方法为:
提取所述训练数据中的语义帧信息,并将所述语义帧信息进行线性排列;所述语义帧信息包括意图信息、多个语义槽类型-语义槽值对。
在一些优选的实施例中,所述第一损失函数为:
Figure BDA0003071727560000031
Figure BDA0003071727560000032
其中,Loss1代表第一损失函数,
Figure BDA0003071727560000033
代表模型预测的第一预处理数据中单词的概率分布,
Figure BDA0003071727560000034
代表第一预处理数据中第i1个单词的输出类别标签,n1代表第一预处理中的单词个数,
Figure BDA0003071727560000035
代表第一预处理数据中的第i1个单词,S1代表第一预处理数据中所有属于语义槽值的单词集合,|V|代表词汇表大小,∈为预先设定的平滑系数,[0,0,…,1,…,0]为包括|V|个元素的独热向量,1所在位置为单词
Figure BDA0003071727560000036
在词汇表中的序号,
Figure BDA0003071727560000037
为包括|V|个元素的平滑向量,1-∈所在位置为单词
Figure BDA0003071727560000038
在词汇表中的序号。
在一些优选的实施例中,所述第二损失函数为:
Figure BDA0003071727560000039
Figure BDA00030717275600000310
其中,Loss2代表第二损失函数,
Figure BDA00030717275600000311
代表模型预测的第二预处理数据中单词的概率分布,
Figure BDA00030717275600000312
代表第二预处理数据中第i2个单词的输出类别标签,n2代表第二预处理中的单词个数,
Figure BDA0003071727560000041
代表第二预处理数据中的第i2个单词,S2代表第二预处理数据中所有属于语义槽值的单词集合,|V|代表词汇表大小,∈为预先设定的平滑系数,[0,0,…,1,…,0]为包括|V|个元素的独热向量,1所在位置为单词
Figure BDA0003071727560000042
在词汇表中的序号,
Figure BDA0003071727560000043
为包括|V|个元素的平滑向量,1-∈所在位置为单词
Figure BDA0003071727560000044
在词汇表中的序号。
在一些优选的实施例中,步骤S30包括:
步骤S31,通过上述的基于BART模型的口语理解数据增强方法步骤S10对应的方法,将所述少量待增强训练数据预处理为第一待增强数据和第二待增强数据;
步骤S32,分别通过所述第一调优模型和第二调优模型,使用top-p解码方式进行所述第一待增强数据和第二待增强数据的解码,获得第一增强数据和第二增强数据。
在一些优选的实施例中,步骤S40中对第一增强数据进行过滤处理,其方法为:
判断所述第一增强数据中除去语义槽之外其他单词和对应的第一待增强数据是否相同:
若相同,则保留所述第一增强数据,并将所述第一增强数据的语义槽值标记为其原有的语义槽类型,其他单词的标签和对应的第一预处理数据相同;
若不同,则过滤掉所述第一增强数据。
在一些优选的实施例中,步骤S40中对第二增强数据进行过滤处理,其方法为:
判断所述第二增强数据中是否包含了所述第二待增强数据中的所有语义槽值,且不包含所述第二预处理数据中出现过的其他语义槽值:
若符合要求,则保留所述第二增强数据,并根据所述第二增强数据语义帧的内容给每个单词打上标签;
若不符合要求,则过滤掉所述第二增强数据。
本发明的另一方面,提出了一种基于BART模型的口语理解数据增强系统,该数据增强包括以下模块:
预处理模块,配置为获取口语理解模型的训练数据,并分别对数据进行语义槽标签和语义帧变换,获得第一预处理数据和第二预处理数据;
模型调优模块,配置为分别构建针对所述第一预处理数据和第二预处理数据的第一损失函数和第二损失函数,并基于所述第一损失函数和第二损失函数分别进行所述预训练语言模型BART的调优,获得第一调优模型和第二调优模型;
数据增强模块,配置为基于获取的口语理解模型的少量待增强训练数据,分别通过所述第一调优模型和第二调优模型获取第一增强数据和第二增强数据;
数据过滤模块,配置为分别对所述第一增强数据和第二增强数据进行过滤处理,获得口语理解模型的增强训练数据。
本发明的第三方面,提出了一种电子设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于BART模型的口语理解数据增强方法。
本发明的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于BART模型的口语理解数据增强方法。
本发明的有益效果:
本发明基于BART模型的口语理解数据增强方法,针对现有的面向口语理解的数据增强方法难以生成新颖的数据,且不具备新的语义槽值的生成能力的问题,有效地利用预训练语言模型中的先验知识,生成新的语义槽值和新的上下文表达方式,显著提升了增强数据的质量,从而提高了口语理解系统在少样本情况下的识别能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于BART模型的口语理解数据增强方法的流程示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于BART模型的口语理解数据增强方法,利用预训练语言模型所包含的丰富的语言知识,通过两种类型的数据变换,学习到如何生成具有不同语义槽值和不同上下文表达方式的增强数据,有效地提高了口语理解模型在少样本场景下的语义槽填充效果。
本发明的一种基于BART模型的口语理解数据增强方法,该数据增强方法包括:
步骤S10,获取口语理解模型的训练数据,并分别对数据进行语义槽标签和语义帧变换,获得第一预处理数据和第二预处理数据;
步骤S20,分别构建针对所述第一预处理数据和第二预处理数据的第一损失函数和第二损失函数,并基于所述第一损失函数和第二损失函数分别进行所述预训练语言模型BART的调优,获得第一调优模型和第二调优模型;
步骤S30,基于获取的口语理解模型的少量待增强训练数据,分别通过所述第一调优模型和第二调优模型获取第一增强数据和第二增强数据;
步骤S40,分别对所述第一增强数据和第二增强数据进行过滤处理,获得口语理解模型的增强训练数据。
为了更清晰地对本发明基于BART模型的口语理解数据增强方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于BART模型的口语理解数据增强方法,包括步骤S10-步骤S40,各步骤详细描述如下:
步骤S10,获取口语理解模型的训练数据,并分别对数据进行语义槽标签和语义帧变换,获得第一预处理数据和第二预处理数据。
本发明一个实施例中,训练数据为“book a table somewhere in new york city(city)for this evening(time range)”,对该数据进行语义槽标签和语义帧变换,去掉其中的语义槽值信息和上下文信息。
对数据进行语义槽标签变换,其方法为:
将所述训练数据中的语义槽值替换为语义槽标签,并在替换后的语义槽标签前后各添加一个设定的特殊符号。
对上述实施例的数据进行语义槽标签变换,获得句子“book a table somewherein_city_for this evening”和“book a table somewhere in new york city for_timerange_”,其中“_”即为该变换中设定的用于区分的特殊符号。
对数据进行语义帧变换,其方法为:
提取所述训练数据中的语义帧信息,并将所述语义帧信息进行线性排列;所述语义帧信息包括意图信息、多个语义槽类型-语义槽值对。
对上述实施例的数据进行语义槽标签变换,获得句子“book restaurant(city=new york city;time range=this evening)”,其中“book restaurant”即为意图信息,“city=new york city;time range=this evening”为两个语义槽类型-语义槽值对。
步骤S20,分别构建针对所述第一预处理数据和第二预处理数据的第一损失函数和第二损失函数,并基于所述第一损失函数和第二损失函数分别进行所述预训练语言模型BART的调优,获得第一调优模型和第二调优模型。
第一损失函数和第二损失函数以及计算损失函数中采用到的参数,其计算方法如式(1)-式(4)所示:
Figure BDA0003071727560000081
Figure BDA0003071727560000082
Figure BDA0003071727560000083
Figure BDA0003071727560000091
其中,Loss1代表第一损失函数,Loss2代表第二损失函数,
Figure BDA0003071727560000092
代表模型预测的第一预处理数据中单词的概率分布,
Figure BDA0003071727560000093
代表模型预测的第二预处理数据中单词的概率分布,
Figure BDA0003071727560000094
代表第一预处理数据中第i1个单词的输出类别标签,
Figure BDA0003071727560000095
代表第二预处理数据中第i2个单词的输出类别标签,n1代表第一预处理中的单词个数,n2代表第二预处理中的单词个数,
Figure BDA0003071727560000096
代表第一预处理数据中的第i1个单词,
Figure BDA0003071727560000097
代表第二预处理数据中的第i2个单词,S1代表第一预处理数据中所有属于语义槽值的单词集合,S2代表第二预处理数据中所有属于语义槽值的单词集合,|V|代表词汇表大小,∈为预先设定的平滑系数,[0,0,…,1,…,0]为包括|V|个元素的独热向量,在第一损失函数中1所在位置为单词
Figure BDA0003071727560000098
在词汇表中的序号,在第二损失函数中1所在位置为单词
Figure BDA0003071727560000099
在词汇表中的序号,
Figure BDA00030717275600000910
为包括|V|个元素的平滑向量,在第一损失函数中1-∈所在位置为单词
Figure BDA00030717275600000911
在词汇表中的序号,在第二损失函数中1-∈所在位置为单词
Figure BDA00030717275600000912
在词汇表中的序号。
步骤S30,基于获取的口语理解模型的少量待增强训练数据,分别通过所述第一调优模型和第二调优模型获取第一增强数据和第二增强数据。
步骤S31,通过上述的基于BART模型的口语理解数据增强方法步骤S10对应的方法,将所述少量待增强训练数据预处理为第一待增强数据和第二待增强数据;
步骤S32,分别通过所述第一调优模型和第二调优模型,使用top-p解码方式进行所述第一待增强数据和第二待增强数据的解码,获得第一增强数据和第二增强数据。
top-p解码方式中,p值均设置为0.9。
步骤S40,分别对所述第一增强数据和第二增强数据进行过滤处理,获得口语理解模型的增强训练数据。
对第一增强数据进行过滤处理,判断所述第一增强数据中除去语义槽之外其他单词和对应的第一待增强数据是否相同:
若相同,则保留所述第一增强数据,并将所述第一增强数据的语义槽值标记为其原有的语义槽类型,其他单词的标签和对应的第一预处理数据相同;
若不同,则过滤掉所述第一增强数据。
对第二增强数据进行过滤处理,判断所述第二增强数据中是否包含了所述第二待增强数据中的所有语义槽值,且不包含所述第二预处理数据中出现过的其他语义槽值:
若符合要求,则保留所述第二增强数据,并根据所述第二增强数据语义帧的内容给每个单词打上标签;
若不符合要求,则过滤掉所述第二增强数据。
使用两个常见的口语理解的数据集ATIS和Snips来验证本发明增强数据的效果。为了验证本发明方法在小样本数据上的优势,分别将两个数据集划分为小型数据集Small(包含1/40的原训练数据),以及中型数据集Medium(包含1/10的原训练数据)。为了具体地比较增强数据的效果,训练了两种常见的语义槽填充的方法,包括基于LSTM的方法和基于BERT的方法。实验中对比了不使用数据增强以及其他的一些常见数据增强的方法,表1为ATIS数据集上不同数据增强方法在两种口语理解模型上的结果,表2为Snips数据集上不同数据增强方法在两种口语理解模型上的结果。
表1
Figure BDA0003071727560000111
表2
Figure BDA0003071727560000112
表1和表2中的Seq2seq,VAE,GPT-2为已有的三种常见的数据增强方法。BARTvalue为本发明中提出的利用变换数据类型1(即语义槽标签变换)得到的增强数据1,代表对语义槽值进行增强。BART context为本发明中的利用变换数据类型2(即语义帧变换)得到的增强数据2,代表对上下文表达方式进行增强。表中的所有值都是语义槽填充结果的F1值。对比之下可以发现:(1)本发明中提出的两种增强的数据方法在两个数据集上都取得了较好的结果,在大部分实验设置下相较于不使用数据增强以及其他的数据增强方法有显著的效果提升。(2)对比本发明提出的两种方法,其中对语义槽值进行增强的方法,在大部分情况下带来了更显著的提升,说明新的语义槽值对于口语理解模型的训练有着更大的帮助。(3)对比两种数据集划分的结果,本发明的方法在小数据集的提升更为明显,说明该方法在面向少样本的设定下有更显著的作用。(4)对比两种口语理解模型,本发明在两个模型上均能带来性能的提升,证明本发明方法具有一定程度上的普适性和鲁棒性。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
本发明第二实施例的基于BART模型的口语理解数据增强系统,该数据增强包括以下模块:
预处理模块,配置为获取口语理解模型的训练数据,并分别对数据进行语义槽标签和语义帧变换,获得第一预处理数据和第二预处理数据;
模型调优模块,配置为分别构建针对所述第一预处理数据和第二预处理数据的第一损失函数和第二损失函数,并基于所述第一损失函数和第二损失函数分别进行所述预训练语言模型BART的调优,获得第一调优模型和第二调优模型;
数据增强模块,配置为基于获取的口语理解模型的少量待增强训练数据,分别通过所述第一调优模型和第二调优模型获取第一增强数据和第二增强数据;
数据过滤模块,配置为分别对所述第一增强数据和第二增强数据进行过滤处理,获得口语理解模型的增强训练数据。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于BART模型的口语理解数据增强系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于BART模型的口语理解数据增强方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于BART模型的口语理解数据增强方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于BART模型的口语理解数据增强方法,其特征在于,该数据增强方法包括:
步骤S10,获取口语理解模型的训练数据,并分别对数据进行语义槽标签和语义帧变换,获得第一预处理数据和第二预处理数据;
步骤S20,分别构建针对所述第一预处理数据和第二预处理数据的第一损失函数和第二损失函数,并基于所述第一损失函数和第二损失函数分别进行所述预训练语言模型BART的调优,获得第一调优模型和第二调优模型;
步骤S30,基于获取的口语理解模型的少量待增强训练数据,分别通过所述第一调优模型和第二调优模型获取第一增强数据和第二增强数据;
步骤S40,分别对所述第一增强数据和第二增强数据进行过滤处理,获得口语理解模型的增强训练数据。
2.根据权利要求1所述的基于BART模型的口语理解数据增强方法,其特征在于,步骤S10中对数据进行语义槽标签变换,其方法为:
将所述训练数据中的语义槽值替换为语义槽标签,并在替换后的语义槽标签前后各添加一个设定的特殊符号。
3.根据权利要求1所述的基于BART模型的口语理解数据增强方法,其特征在于,步骤S10中对数据进行语义帧变换,其方法为:
提取所述训练数据中的语义帧信息,并将所述语义帧信息进行线性排列;所述语义帧信息包括意图信息、多个语义槽类型-语义槽值对。
4.根据权利要求1所述的基于BART模型的口语理解数据增强方法,其特征在于,所述第一损失函数为:
Figure FDA0003071727550000021
Figure FDA0003071727550000022
其中,Loss1代表第一损失函数,
Figure FDA0003071727550000023
代表模型预测的第一预处理数据中单词的概率分布,
Figure FDA0003071727550000024
代表第一预处理数据中第i1个单词的输出类别标签,n1代表第一预处理中的单词个数,
Figure FDA0003071727550000025
代表第一预处理数据中的第i1个单词,S1代表第一预处理数据中所有属于语义槽值的单词集合,|V|代表词汇表大小,∈为预先设定的平滑系数,[0,0,…,1,…,0]为包括|V|个元素的独热向量,1所在位置为单词
Figure FDA0003071727550000026
在词汇表中的序号,
Figure FDA0003071727550000027
Figure FDA0003071727550000028
为包括|V|个元素的平滑向量,1-∈所在位置为单词
Figure FDA0003071727550000029
在词汇表中的序号。
5.根据权利要求1所述的基于BART模型的口语理解数据增强方法,其特征在于,所述第二损失函数为:
Figure FDA00030717275500000210
Figure FDA00030717275500000211
其中,Loss2代表第二损失函数,
Figure FDA00030717275500000212
代表模型预测的第二预处理数据中单词的概率分布,
Figure FDA00030717275500000213
代表第二预处理数据中第i2个单词的输出类别标签,n2代表第二预处理中的单词个数,
Figure FDA00030717275500000214
代表第二预处理数据中的第i2个单词,S2代表第二预处理数据中所有属于语义槽值的单词集合,|V|代表词汇表大小,∈为预先设定的平滑系数,[0,0,…,1,…,0]为包括|V|个元素的独热向量,1所在位置为单词
Figure FDA0003071727550000031
在词汇表中的序号,
Figure FDA0003071727550000032
Figure FDA0003071727550000033
为包括|V|个元素的平滑向量,1-∈所在位置为单词
Figure FDA0003071727550000034
在词汇表中的序号。
6.根据权利要求1所述的基于BART模型的口语理解数据增强方法,其特征在于,步骤S30包括:
步骤S31,通过权利要求1-5任一项所述的基于BART模型的口语理解数据增强方法步骤S10对应的方法,将所述少量待增强训练数据预处理为第一待增强数据和第二待增强数据;
步骤S32,分别通过所述第一调优模型和第二调优模型,使用top-p解码方式进行所述第一待增强数据和第二待增强数据的解码,获得第一增强数据和第二增强数据。
7.根据权利要求6所述的基于BART模型的口语理解数据增强方法,其特征在于,步骤S40中对第一增强数据进行过滤处理,其方法为:
判断所述第一增强数据中除去语义槽之外其他单词和对应的第一待增强数据是否相同:
若相同,则保留所述第一增强数据,并将所述第一增强数据的语义槽值标记为其原有的语义槽类型,其他单词的标签和对应的第一预处理数据相同;
若不同,则过滤掉所述第一增强数据。
8.根据权利要求6所述的基于BART模型的口语理解数据增强方法,其特征在于,步骤S40中对第二增强数据进行过滤处理,其方法为:
判断所述第二增强数据中是否包含了所述第二待增强数据中的所有语义槽值,且不包含所述第二预处理数据中出现过的其他语义槽值:
若符合要求,则保留所述第二增强数据,并根据所述第二增强数据语义帧的内容给每个单词打上标签;
若不符合要求,则过滤掉所述第二增强数据。
9.一种基于BART模型的口语理解数据增强系统,其特征在于,该数据增强包括以下模块:
预处理模块,配置为获取口语理解模型的训练数据,并分别对数据进行语义槽标签和语义帧变换,获得第一预处理数据和第二预处理数据;
模型调优模块,配置为分别构建针对所述第一预处理数据和第二预处理数据的第一损失函数和第二损失函数,并基于所述第一损失函数和第二损失函数分别进行所述预训练语言模型BART的调优,获得第一调优模型和第二调优模型;
数据增强模块,配置为基于获取的口语理解模型的少量待增强训练数据,分别通过所述第一调优模型和第二调优模型获取第一增强数据和第二增强数据;
数据过滤模块,配置为分别对所述第一增强数据和第二增强数据进行过滤处理,获得口语理解模型的增强训练数据。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-8任一项所述的基于BART模型的口语理解数据增强方法。
CN202110540820.XA 2021-05-18 2021-05-18 基于bart模型的口语理解数据增强方法、系统及设备 Active CN113239151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110540820.XA CN113239151B (zh) 2021-05-18 2021-05-18 基于bart模型的口语理解数据增强方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110540820.XA CN113239151B (zh) 2021-05-18 2021-05-18 基于bart模型的口语理解数据增强方法、系统及设备

Publications (2)

Publication Number Publication Date
CN113239151A true CN113239151A (zh) 2021-08-10
CN113239151B CN113239151B (zh) 2023-06-27

Family

ID=77135139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110540820.XA Active CN113239151B (zh) 2021-05-18 2021-05-18 基于bart模型的口语理解数据增强方法、系统及设备

Country Status (1)

Country Link
CN (1) CN113239151B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417794A (zh) * 2022-03-29 2022-04-29 北京大学 量表问题生成模型的训练方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580458A (zh) * 2019-08-25 2019-12-17 天津大学 结合多尺度残差式cnn和sru的乐谱图像识别方法
CN112214608A (zh) * 2020-09-21 2021-01-12 清华大学 基于知识推理的文本生成方法、介质、装置和计算设备
CN112800190A (zh) * 2020-11-11 2021-05-14 重庆邮电大学 基于Bert模型的意图识别与槽值填充联合预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580458A (zh) * 2019-08-25 2019-12-17 天津大学 结合多尺度残差式cnn和sru的乐谱图像识别方法
CN112214608A (zh) * 2020-09-21 2021-01-12 清华大学 基于知识推理的文本生成方法、介质、装置和计算设备
CN112800190A (zh) * 2020-11-11 2021-05-14 重庆邮电大学 基于Bert模型的意图识别与槽值填充联合预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MIKE LEWIS等: "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension", 《ARXIV》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417794A (zh) * 2022-03-29 2022-04-29 北京大学 量表问题生成模型的训练方法、装置和计算机设备

Also Published As

Publication number Publication date
CN113239151B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN108630193B (zh) 语音识别方法及装置
CN110428818B (zh) 低资源多语言的语音识别模型、语音识别方法
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
KR20110038474A (ko) 문장경계 인식 장치 및 방법
CN113434685B (zh) 一种资讯分类处理的方法及系统
CN111510765A (zh) 基于教学视频的音频标签智能标注方法及装置
CN113239151B (zh) 基于bart模型的口语理解数据增强方法、系统及设备
CN107436931B (zh) 网页正文抽取方法及装置
CN109933658B (zh) 客服通话分析方法及装置
CN114299959A (zh) 一种通过语音指令生成可视化多轮对话的方法及装置
CN111739509B (zh) 电子书音频生成方法、电子设备及存储介质
CN110570838B (zh) 语音流处理方法和装置
EP1622040A3 (en) Apparatus and method for processing text data
CN115331703A (zh) 一种歌曲人声检测方法及装置
CN108563688B (zh) 一种影视剧本人物情绪识别方法
CN110826330B (zh) 人名识别方法及装置、计算机设备及可读存储介质
CN113326704B (zh) 基于综合策略的情绪支持对话生成方法及系统
CN115691503A (zh) 语音识别方法、装置、电子设备和存储介质
CN113987202A (zh) 一种基于知识图谱的交互电话呼入方法及装置
CN114203160A (zh) 应样本数据集生成方法、装置及设备
CN110533035B (zh) 基于文本匹配的学生作业页码识别方法
CN110414000B (zh) 一种基于模板文档对比的关键词提取方法及系统
US20220207239A1 (en) Utterance pair acquisition apparatus, utterance pair acquisition method, and program
CN116909561A (zh) 基于深度学习生成前端页面代码的方法及系统
US12019986B2 (en) Utterance pair acquisition apparatus, utterance pair acquisition method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant