CN110413739B - 用于口语语义理解的数据增强方法及系统 - Google Patents

用于口语语义理解的数据增强方法及系统 Download PDF

Info

Publication number
CN110413739B
CN110413739B CN201910706308.0A CN201910706308A CN110413739B CN 110413739 B CN110413739 B CN 110413739B CN 201910706308 A CN201910706308 A CN 201910706308A CN 110413739 B CN110413739 B CN 110413739B
Authority
CN
China
Prior art keywords
atom
sentence
matching table
template matching
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910706308.0A
Other languages
English (en)
Other versions
CN110413739A (zh
Inventor
俞凯
朱苏
赵子健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910706308.0A priority Critical patent/CN110413739B/zh
Publication of CN110413739A publication Critical patent/CN110413739A/zh
Application granted granted Critical
Publication of CN110413739B publication Critical patent/CN110413739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种用于口语语义理解的数据增强方法。该方法包括:定义原子模板匹配表,在原子模板匹配表中,各原子模板为结构化的基本粒度标签对应的自然语言描述;根据给定的对话动作确定语义表示,将对话动作的语义表示分解成单位语义标签,根据原子模板匹配表,找到与单位语义标签对应的结构化的基本粒度标签,进而确定与基本粒度标签匹配的原子模板,利用原子模板将给定的对话动作转换成原子样例;利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句。本发明实施例还提供一种用于口语语义理解的数据增强系统。本发明实施例需要数据增强的对话动作输入,即可生成全新的标签,生成的新句子更加符合自然语句。

Description

用于口语语义理解的数据增强方法及系统
技术领域
本发明涉及语音识别领域,尤其涉及一种用于口语语义理解的数据增强方法及系统。
背景技术
SLU(Spoken Language Understanding,口语理解)是口语对话系统的关键组件,将用户话语解析为窄域中的相应语义表示,SLU的典型语义表示可以是语义框架或对话行为。
深度学习在SLU领域取得了巨大成功,但是它需要大量标签数据,这就限制了SLU模型的可扩展性,尽管在半监督学习和领域适应方面取得了进步和巨大的研究活动,但深度SLU模型仍需要大量标记数据进行训练。为了获取大量数据,通常会使用以下几种技术,包括:零样本学习(zero-shot learning),输入一个样例及其标签,可以利用模型将样例编码成一个实值向量,同时可以利用预训练的词向量等为每一个标签(无论是见过的还是未见的)都学习一个向量表示。计算样例向量和标签向量的距离可以得到样例对应的标签;数据增强方法,利用源领域的大量数据,采用神经网络方法,为目标领域生成大量数据。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
零样本学习模型需要提前知道所有标签,所以需要维护一个标签集合,故而模型得到的标签局限于集合中,无法生成新的标签,模型的方法就是计算给定和所有标签的距离才能得到最终结果,故而时空复杂度高。数据增强方法,难以针对全新的标签生成合适的句子,整体性能差。
发明内容
为了至少解决现有技术中需要标签集合,无法生成新的标签,计算过程的时空复杂度高,数据增强的句子整体性能较差的问题。
第一方面,本发明实施例提供一种用于口语语义理解的数据增强方法,包括:
定义原子模板匹配表,在所述原子模板匹配表中,各原子模板为结构化的基本粒度标签对应的自然语言描述,其中,每一个基本粒度标签是单独的三元组;
根据给定的对话动作确定语义表示,将所述对话动作的语义表示分解成单位语义标签,其中,所述语义表示为三元组的集合,根据所述原子模板匹配表,找到与所述单位语义标签对应的结构化的基本粒度标签,进而确定与所述基本粒度标签匹配的原子模板,利用所述原子模板将给定的对话动作转换成原子样例;
利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句。
第二方面,本发明实施例提供一种用于口语语义理解的数据增强系统,包括:
匹配表定义程序模块,用于定义原子模板匹配表,在所述原子模板匹配表中,各原子模板为结构化的基本粒度标签对应的自然语言描述,其中,每一个基本粒度标签是单独的三元组;
原子样例转换程序模块,用于根据给定的对话动作确定语义表示,将所述对话动作的语义表示分解成单位语义标签,其中,所述语义表示为三元组的集合,根据所述原子模板匹配表,找到与所述单位语义标签对应的结构化的基本粒度标签,进而确定与所述基本粒度标签匹配的原子模板,利用所述原子模板将给定的对话动作转换成原子样例;
数据增强程序模块,用于利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于口语语义理解的数据增强方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于口语语义理解的数据增强方法的步骤。
本发明实施例的有益效果在于:根据定义的原子模板匹配表,仅需要数据增强的对话动作输入,即可生成全新的标签,而且不需要过于复杂的计算,使用更加符合自然语言描述的原子样例来数据增强句子,生成的新句子更加符合自然语句。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于口语语义理解的数据增强方法的流程图;
图2是本发明一实施例提供的一种用于口语语义理解的数据增强方法的DSTC 2和3数据集中的原子模板示例图;
图3是本发明一实施例提供的一种用于口语语义理解的数据增强方法的DSTC3评估集上不同系统的SLU性能示意图;
图4是本发明一实施例提供的一种用于口语语义理解的数据增强方法的当移除本方法的不同模块时,DSTC3评估集上的SLU性能示意图;
图5是本发明一实施例提供的一种用于口语语义理解的数据增强方法的从oracleDSTC3训练集中随机选择不同数量的种子样本的不同方法的SLU性能示意图;
图6是本发明一实施例提供的一种用于口语语义理解的数据增强系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于口语语义理解的数据增强方法的流程图,包括如下步骤:
S11:定义原子模板匹配表,在所述原子模板匹配表中,各原子模板为结构化的基本粒度标签对应的自然语言描述,其中,每一个基本粒度标签是单独的三元组;
S12:根据给定的对话动作确定语义表示,将所述对话动作的语义表示分解成单位语义标签,其中,所述语义表示为三元组的集合,根据所述原子模板匹配表,找到与所述单位语义标签对应的结构化的基本粒度标签,进而确定与所述基本粒度标签匹配的原子模板,利用所述原子模板将给定的对话动作转换成原子样例;
S13:利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句。
在本实施方式中,数据增强模型接收语义标签作为输入,输出相应的自然语句。由于语义标签的规律性和规范化,可以通过简单的规则等自定义足够多的标签,故而可以生成未在训练集合中出现过的标签数据。同时,将结构化的标签通过原子模板转化成自然语言的原子样例,使得生成过程更符合神经网络的处理,可以生成更合适的自然句子。
对于步骤S11,定义原子模板匹配表,所述原子模板匹配表中有着结构化的基本粒度标签,以及所述基本粒度标签对应的自然语言描述。所述自然语言通常是指一种自然地随文化演化的语言,也是人类交流和思维的主要工具。一个基本粒度标签可能会对应有多个自然语言描述。其中的基本粒度标签是单独的三元组,例如三元组有:inform(food=Chinese)或deny(food=Thai)。
对于步骤S12,在本方法的数据增强中,不需要预先给定某一领域的对话语句,仅需要给定期望数据增强的对话动作,通过从所述对话动作的语义表示中分解单位语义标签。所述语义表示为三元组的集合,例如步骤S11所述三元组有:inform(food=Chinese)或deny(food=Thai),那么语义表示是三元组的集合为:{inform(food=Chinese),deny(food=Thai)}。根据所述定义的原子模板匹配表,找到与所述单位语义标签对应的结构化的基本粒度标签,进而确定出与所述基本粒度标签匹配的原子模板。例如,对话动作中的单位语义标签为inform(food=Chinese),通过所述原子模板匹配表的查询,查找出原子模板中为inform(food=Chinese)的基本粒度标签,假设原子模板中基本粒度标签inform(food=Chinese)对应的原子模板为I want Chinese food,将给定的对话动作转换成原子样例集合,例如,I want Chinese food、I want Thai food等。
对于步骤S13,有了对话动作的原子样例,利用句子生成模型,将所述,I wantChinese food、I want Thai food等这些的原子样例组合成更加充实、自然的语句。
通过该实施方式可以看出,根据定义的原子模板匹配表,需要数据增强的对话动作输入,即可生成全新的标签,而且不需要过于复杂的计算,使用更加符合自然语言描述的原子样例来数据增强句子,生成的新句子更加符合自然语句。
作为一种实施方式,在本实施例中,在所述利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句之前,所述方法还包括:
接收训练数据,其中,所述训练数据包括:自然语句以及所述语句的基本粒度标签组合;
根据所述原子模板匹配表确定所述基本粒度标签对应的多个原子样例,通过字符串相似度在所述多个原子样例中选取与所述自然语句最相似的原子样例,生成语句-原子样例的数据集;
根据所述语句-原子样例的数据对所述句子生成模型进行训练。
在本实施方式中,由于最终需要生成自然语句,那么就需要对基于神经网络的句子生成模型进行训练,通过自然语句以及所述语句的基本粒度标签组合的训练数据确定出与所述自然语句最相似的原子样例,生成语句-原子样例的数据集,进行训练。
通过该实施方式可以看出,通过这样的训练,可以进一步的提高句子生成模型的效果,使生成的语句更加贴切。
作为一种实施方式,在本实施例中,所述利用基于神经网络的句子生成模型包括双向长短时记忆网络编码-解码的句子生成模型,所述方法包括:
将所述原子样例集合输入至所述双向长短时记忆网络编码-解码的句子生成模型中,通过前向、后向通道确定用于标识所述原子样例集合的隐藏向量,根据所述隐藏向量生成数据增强后的自然语句。
在本实施方式中,所述双向长短时记忆网络成功的解决了原始循环神经网络的缺陷,成为较为流行的RNN(Recurrent Neural Network,循环神经网络),在语音识别、图片描述、自然语言处理等许多领域中成功应用。
通过该实施方式可以看出,通过双向长短时记忆网络编码-解码的句子生成模型进一步提高了数据增强的效果,使生成的语句更加贴切。
作为一种实施方式,所述原子模板匹配表包括:内置的原子模板匹配表或用户输入的自定义原子模板匹配表。
在本实施方式中,原子模板匹配表会在一定程度上影响着数据增强的效果。为了满足各种水平阶段的开发者,会内置部分原子模版匹配表,来帮助开发者处理比较日常的对话动作。如果开发者对于某一领域下,或某一场景下,有一些独特的需求,也开放开发者自定义原子模板匹配表来让开发者自行调整。
通过该实施方式可以看出,提供内置的原子模板匹配表,帮助开发者处理日常的对话动作,提高开发者的数据增强的效率。针对于有某种特殊需求的开发者,同时提供了自定义原子模板匹配表,使其数据增强的结果更加偏向用户的期望,使生成的语句更加贴切。
对上述步骤进行具体的实施,数据增强的工作流程分为,定义原子模板匹配表,将act-slot-value三元组映射到具有原子模板的范例,根据原子样本生成相应的话语。
设x=x1...x|x|表示话语(单词序列),y={y1,...,y|y|}表示对话行为(一组行为-时间-值的三元组)。希望估计p(x|y),即给定对话行为y的话语x的条件概率。
然而,直接使用对话行为作为输入也存在一些缺点:来自不同域的对话行为可能会发生冲突,例如:不同的插槽名称具有相同的含义;可以不以文字方式定义动作和时隙类型,例如,使用“city_1”和“city_2”来指代不同背景下的城市名称。因此,很难使模型p(x|y)适应新的行为类型,插槽类型和域。
因此建议用简短的自然语言解释对话行为,然后将其改写为相应的用户话语。虽然在句子层面解释对话行为的成本与构建基于规则的SLU系统一样多,但选择用原子模板解释行为槽值三元组,这涉及最少的人力。
图2所示的DSTC 2和3数据集中的原子模板示例图给出了DSTC 2和3数据集中使用的原子模板的一些示例。原子模板为每个act-slot-value三元组yi以自然语言生成一个简单的描述(原子范例ei)。如果有三个yi的模板,它们生成多个原子样本E(yi),在训练阶段选择最相似的一个
Figure BDA0002152216550000071
并随机选择一个ei来自E(yi)的数据增强阶段。使用的相似函数sim(e,x)是Ratcliff-Obershelp算法。因此:
p(x|y)=p(x|{y1...y|y|})=p(x|{e1...e|y|})
利用编码器-解码器模型通过估计p(x|{e1...e|y|})来基于该组原子样本生成话语。由于原子样本集是无序的,独立编码它们。对于每个原子样本ei=wi1...wiTi(长度为Ti的单词序列),使用BLSTM(bidirectional long short-term memory,双向长短时记忆网络)对其进行编码。隐藏的向量在第j个时间步骤通过以下方式递归计算:
Figure BDA0002152216550000072
Figure BDA0002152216550000073
Figure BDA0002152216550000074
其中[·;·]表示向量连接,ψ(·)是字嵌入函数,fLSTM是前向LSTM函数,bLSTM是后向函数。前向和后向通道的最终隐藏向量用于表示每个原子样本ei,即
Figure BDA0002152216550000075
在对所有原子样本进行编码后,我们可以得到一个隐藏向量列表:
Figure BDA0002152216550000076
LSTM模型用作解码器逐字生成话语x:
Figure BDA0002152216550000077
在生成之前,解码器的隐藏矢量被初始化为
Figure BDA0002152216550000078
即所有原子样本的表示的平均值。指针softmax通过目标特征丢失技巧增强,用于处理OOV(out-of-word,集外字),它将动态地从输入源在生成和复制之间切换。
在实验中,使用为第二和第三对话状态跟踪挑战(DSTC 2和3)提供的数据集(Henderson等)。DSTC2包含大量与餐馆搜索相关的培训对话(~15.6k话语),而DSTC3旨在通过少量种子数据(dstc3种子,109个话语)来解决适应新域(旅游信息)的问题。手动转录用作用户话语以消除语音识别错误的影响。
遵循数据分区策略,随机选择DSTC3测试数据的一半作为oracle训练集(~9.4k话语),并将另一半作为评估集(~9.2k发声)。
在无数槽的情况下使用去异化三元组,如图2所示的DSTC 2和3数据集中的原子模板示例图中的“(inform(food=[food])”。对于DSTC2和DSTC3,分别有41和35个去异化三元组。对于每个三元组,平均准备两个短模板。请注意,与设计句子级模板相比,在短语级别编写三元组的原子模板需要更少的人力。
对于DSTC3的数据增加,有两种方法可以收集额外的对话行为作为输入:
*种子删节:将dstc3种子数据中存在的视觉化对话行为杂交,例如可以删除具有3个三元组{A,B,C}的对话行为以获得{A,B},{B,C},{A,C},{A},{B},{C}及其自身。
*组合:由于所有可能的三元组都是由专家在DSTC3的领域本体中预定义的。使用三元组合的一般政策,其最多随机选择Nc三元组以构成对话行为。(根据经验将Nc设为3)
然后通过随机选择该槽的值来填充对话行为中的每个不可枚举的槽,当每个值在所有收集的对话行为中出现至少N-v次时结束。N-v根据经验设置为3。在此之后,分别从种子删节和组合中进行了1420和20670对话行为。从这些对话动作开始,通过原子模板和句子生成器生成新的数据样本。
比较两个SLU模型:
*ZS:SLU的零射击学习,可以适应不可见的对话行为。
*HD:系统采用分层解码模型。
比较其他数据增强方法和原子模板(AT):
*朴素:通过随机地选择相应的时隙的值来替换在话语中同时存在的值和dstc3种子的其对话行为。当每个值出现至少Nv次时结束。
*人类:提出为DSTC3设计大量的句子级模板,需要大量的人力。
*Oracle:使用oracle训练集来模拟完美的数据扩充。
在没有数据增加的情况下,SLU模型在DSTC2数据集(源域)上进行预训练,并使用dstc3种子集进行微调。在本方法的数据增强方法中,基于原子概念的句子生成器也在DSTC2数据集上进行预训练,并使用dstc3种子进行微调。SLU模型首先在DSTC2数据集上进行预训练,然后使用增强数据集进行微调,最后使用dstc3种子进行微调。
主要结果如图3所示的DSTC3评估集上不同系统的SLU性能示意图所示。可以看到:1)分层解码(HD)模型比SLU的零镜头学习(ZS)方法获得更好的性能。2)种子数据dstc3种子限制了SLU模型的功效,甚至也可以增强它。3)原子模板(AT)数据增强方法显着提高了SLU性能。一个原因可能是生成的数据具有比增强更多的语义含义。组合可以构成更多的对话行为,因此他们的联盟给出了最好的结果。4)本方法的最佳表现接近于人类设计的句子级模板且需要更少的人力。
进行了几项消融研究,以分析方法的不同组成部分的有效性,如图4所示的当移除本方法的不同模块时,DSTC3评估集上的SLU性能示意图,通过删除DSTC2(“-dstc2”)预训练的SLU模型并对种子数据(“dstc3种子”)进行微调,可以看到SLU性能显着下降。当随后抛弃句子生成器(“-句子生成器”,即直接使用原子样本作为SLU模型的输入)时,SLU性能下降10.3%。它表明句子生成器可以产生更自然的话语。如果将原子样本替换为相应的act-slot-value三元组(“-原子模板”),则SLU性能急剧下降。这可能是由于原子模板提供了比三元组表面更好的解释。
种子样本数图5所示的从oracle DSTC3训练集中随机选择不同数量的种子样本的不同方法的SLU性能示意图,显示了使用的种子样本数与DSTC3评估集上的SLU性能。对于零射击情况(没有种子样本),本方法比基线好得多。当种子样本数量增加时,本方法不断超越基线。
如图6所示为本发明一实施例提供的一种用于口语语义理解的数据增强系统的结构示意图,该系统可执行上述任意实施例所述的用于口语语义理解的数据增强方法,并配置在终端中。
本实施例提供的一种用于口语语义理解的数据增强系统包括:匹配表定义程序模块11,原子样例转换程序模块12和数据增强程序模块13。
其中,匹配表定义程序模块11用于定义原子模板匹配表,在所述原子模板匹配表中,各原子模板为结构化的基本粒度标签对应的自然语言描述,其中,每一个基本粒度标签是单独的三元组;原子样例转换程序模块12用于根据给定的对话动作确定语义表示,将所述对话动作的语义表示分解成单位语义标签,其中,所述语义表示为三元组的集合,根据所述原子模板匹配表,找到与所述单位语义标签对应的结构化的基本粒度标签,进而确定与所述基本粒度标签匹配的原子模板,利用所述原子模板将给定的对话动作转换成原子样例;数据增强程序模块13用于利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句。
进一步地,所述系统还包括:句子生成模型程序模块,包括:
接收训练数据,其中,所述训练数据包括:自然语句以及所述语句的基本粒度标签组合;
根据所述原子模板匹配表确定所述基本粒度标签对应的多个原子样例,通过字符串相似度在所述多个原子样例中选取与所述自然语句最相似的原子样例,生成语句-原子样例的数据集;
根据所述语句-原子样例的数据对所述句子生成模型进行训练。
进一步地,所述数据增强程序模块用于:
将所述原子样例集合输入至所述双向长短时记忆网络编码-解码的句子生成模型中,通过前向、后向通道确定用于标识所述原子样例集合的隐藏向量,根据所述隐藏向量生成数据增强后的自然语句。
进一步地,所述原子模板匹配表包括:内置的原子模板匹配表或用户输入的自定义原子模板匹配表。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于口语语义理解的数据增强方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
定义原子模板匹配表,在所述原子模板匹配表中,各原子模板为结构化的基本粒度标签对应的自然语言描述,其中,每一个基本粒度标签是单独的三元组;
根据给定的对话动作确定语义表示,将所述对话动作的语义表示分解成单位语义标签,其中,所述语义表示为三元组的集合,根据所述原子模板匹配表,找到与所述单位语义标签对应的结构化的基本粒度标签,进而确定与所述基本粒度标签匹配的原子模板,利用所述原子模板将给定的对话动作转换成原子样例;
利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于口语语义理解的数据增强方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于口语语义理解的数据增强方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种用于口语语义理解的数据增强方法,包括:
定义原子模板匹配表,在所述原子模板匹配表中,各原子模板为结构化的基本粒度标签对应的自然语言描述,其中,每一个基本粒度标签是单独的三元组;
根据给定的对话动作确定语义表示,将所述对话动作的语义表示分解成单位语义标签,其中,所述语义表示为三元组的集合,根据所述原子模板匹配表,找到与所述单位语义标签对应的结构化的基本粒度标签,进而确定与所述基本粒度标签匹配的原子模板,利用所述原子模板将给定的对话动作转换成原子样例;
利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句,其中,所述基于神经网络的句子生成模型包括双向长短时记忆网络编码-解码的句子生成模型;
将所述原子样例集合输入至所述双向长短时记忆网络编码-解码的句子生成模型中,通过前向、后向通道确定用于标识所述原子样例集合的隐藏向量,根据所述隐藏向量生成数据增强后的自然语句。
2.根据权利要求1所述的方法,其中,在所述利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句之前,所述方法还包括:
接收训练数据,其中,所述训练数据包括:自然语句以及所述语句的基本粒度标签组合;
根据所述原子模板匹配表确定所述基本粒度标签对应的多个原子样例,通过字符串相似度在所述多个原子样例中选取与所述自然语句最相似的原子样例,生成语句-原子样例的数据集;
根据所述语句-原子样例的数据对所述句子生成模型进行训练。
3.根据权利要求1所述的方法,其中,所述原子模板匹配表包括:内置的原子模板匹配表或用户输入的自定义原子模板匹配表。
4.一种用于口语语义理解的数据增强系统,包括:
匹配表定义程序模块,用于定义原子模板匹配表,在所述原子模板匹配表中,各原子模板为结构化的基本粒度标签对应的自然语言描述,其中,每一个基本粒度标签是单独的三元组;
原子样例转换程序模块,用于根据给定的对话动作确定语义表示,将所述对话动作的语义表示分解成单位语义标签,其中,所述语义表示为三元组的集合,根据所述原子模板匹配表,找到与所述单位语义标签对应的结构化的基本粒度标签,进而确定与所述基本粒度标签匹配的原子模板,利用所述原子模板将给定的对话动作转换成原子样例;
数据增强程序模块,用于利用基于神经网络的句子生成模型,将原子样例集合组合成自然语句,其中,所述利用基于神经网络的句子生成模型包括双向长短时记忆网络编码-解码的句子生成模型;将所述原子样例集合输入至所述双向长短时记忆网络编码-解码的句子生成模型中,通过前向、后向通道确定用于标识所述原子样例集合的隐藏向量,根据所述隐藏向量生成数据增强后的自然语句。
5.根据权利要求4所述的系统,其中,所述系统还包括:句子生成模型程序模块,包括:
接收训练数据,其中,所述训练数据包括:自然语句以及所述语句的基本粒度标签组合;
根据所述原子模板匹配表确定所述基本粒度标签对应的多个原子样例,通过字符串相似度在所述多个原子样例中选取与所述自然语句最相似的原子样例,生成语句-原子样例的数据集;
根据所述语句-原子样例的数据对所述句子生成模型进行训练。
6.根据权利要求4所述的系统,其中,所述原子模板匹配表包括:内置的原子模板匹配表或用户输入的自定义原子模板匹配表。
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-3中任一项所述方法的步骤。
CN201910706308.0A 2019-08-01 2019-08-01 用于口语语义理解的数据增强方法及系统 Active CN110413739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910706308.0A CN110413739B (zh) 2019-08-01 2019-08-01 用于口语语义理解的数据增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910706308.0A CN110413739B (zh) 2019-08-01 2019-08-01 用于口语语义理解的数据增强方法及系统

Publications (2)

Publication Number Publication Date
CN110413739A CN110413739A (zh) 2019-11-05
CN110413739B true CN110413739B (zh) 2021-11-12

Family

ID=68365112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910706308.0A Active CN110413739B (zh) 2019-08-01 2019-08-01 用于口语语义理解的数据增强方法及系统

Country Status (1)

Country Link
CN (1) CN110413739B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507114B (zh) * 2020-04-10 2023-04-18 思必驰科技股份有限公司 基于反向翻译的口语文本增强方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915420A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 知识库数据处理方法及系统
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN108595494A (zh) * 2018-03-15 2018-09-28 腾讯科技(深圳)有限公司 答复信息的获取方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10631057B2 (en) * 2015-07-24 2020-04-21 Nuance Communications, Inc. System and method for natural language driven search and discovery in large data sources

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915420A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 知识库数据处理方法及系统
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN108595494A (zh) * 2018-03-15 2018-09-28 腾讯科技(深圳)有限公司 答复信息的获取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于标签分解的口语理解模型;许莹莹;《计算机工程》;20190731;238-241页 *

Also Published As

Publication number Publication date
CN110413739A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110427617B (zh) 推送信息的生成方法及装置
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN108417210B (zh) 一种词嵌入语言模型训练方法、词语识别方法及系统
CN110516253B (zh) 中文口语语义理解方法及系统
KR102494139B1 (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
CN110211575B (zh) 用于数据增强的语音加噪方法及系统
CN109582952B (zh) 诗歌生成方法、装置、计算机设备和介质
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
KR20170030923A (ko) 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
CN111597779B (zh) 文本生成方法、装置、设备以及存储介质
CN112837669B (zh) 语音合成方法、装置及服务器
CN115662435B (zh) 一种虚拟教师拟真化语音的生成方法及终端
Elshaer et al. Transfer learning from sound representations for anger detection in speech
CN109637527A (zh) 对话语句的语义解析方法及系统
Zhang et al. Distributing recognition in computational paralinguistics
CN113505198A (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
KR20210058059A (ko) 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스
CN110413739B (zh) 用于口语语义理解的数据增强方法及系统
CN112132075B (zh) 图文内容处理方法及介质
CN115525740A (zh) 对话应答语句的生成方法、装置、电子设备及存储介质
Kim et al. Manifold preserving hierarchical topic models for quantization and approximation
CN116564330A (zh) 弱监督语音预训练方法、电子设备和存储介质
CN112784094B (zh) 自动音频摘要生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200616

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: SHANGHAI JIAO TONG University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201026

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

GR01 Patent grant
GR01 Patent grant