CN109637527B - 对话语句的语义解析方法及系统 - Google Patents

对话语句的语义解析方法及系统 Download PDF

Info

Publication number
CN109637527B
CN109637527B CN201811523979.5A CN201811523979A CN109637527B CN 109637527 B CN109637527 B CN 109637527B CN 201811523979 A CN201811523979 A CN 201811523979A CN 109637527 B CN109637527 B CN 109637527B
Authority
CN
China
Prior art keywords
value
act
entity
slot
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811523979.5A
Other languages
English (en)
Other versions
CN109637527A (zh
Inventor
俞凯
朱苏
赵子健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201811523979.5A priority Critical patent/CN109637527B/zh
Publication of CN109637527A publication Critical patent/CN109637527A/zh
Application granted granted Critical
Publication of CN109637527B publication Critical patent/CN109637527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种对话语句的语义解析方法。该方法包括:通过长短时记忆网络,确定对话语句的连续实值表示向量以及词序列向量;优先将连续实值表示向量输入至用于行为分类的第一多层感知网络,确定act type;再将连续实值表示向量以及act type输入至用于实体分类的第二多层感知网络,确定与各act type相对应的slot;将配对后的act‑slot、连续实值表示向量以及词序列向量作为输入参数,通过基于编码‑解码模型的指针网络,确定与act‑slot相对应的value实体值;将value实体值与act‑slot进行配对,生成act‑slot‑value三元组确定为对话语句的语义。本发明实施例还提供一种对话语句的语义解析系统。本发明实施例通过优先预测act‑slot,建立act type与slot type间的关系,从而确定正确的act‑slot‑value三元组。

Description

对话语句的语义解析方法及系统
技术领域
本发明涉及人工智能领域,尤其涉及一种对话语句的语义解析方法及系统。
背景技术
SLU(Spoken language understanding,口语理解)是SDS(spoken dialoguesystem,对话语音系统)的关键组成部分,将用户的话语解析为相应的语义形式。通常SLU的解析问题被视为序列标记任务,需要单词级别的注释,除了单词对齐注释之外,还有一种句子级的语义注释是不对齐的,例如对话语句:“我想找一个价格昂贵的餐厅”,其对话语句就有一个行为-槽-值的三重注释“通知(价格范围=昂贵)”和话语“它所服务的食物类型”具有“请求(食物)”的注释。
未对齐的SLU与对齐的SLU相比具有一些优势。首先,作为ASR(Automatic SpeechRecognition,自动语音识别)的下游模块,基于统计方法的SLU模块通常要求在ASR的输出上标记训练数据,这可以提高对ASR错误的鲁棒性。因此,由于ASR错误(尤其是单词插入和错误删除),很难并且有时不可能将语义注释与ASR输出对齐。
其次,价值别名也难以以字对齐的方式处理,这会非常耗时,所以一般对具有未对齐语义注释的SLU上,将句子标记为一组act-slot-value三元组。针对于非对其数据的口语理解,把act-slot-value三元组当成一个标签,之后把整个任务建模成多标签分类任务,分模块来预测act-slot-value三元组的各部分,通过关系最密切的slot type和slot value的对应关系,合成相应的slot-value pairs(实体-值对)。然后再合成相应的act-slot-value三元组。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
现有方法分别忽略了act行为/行为类型和slot实体的act-slot pairrepresentation(行为实体槽对表示)。使得在组合三元组的这一步,当一个对话语音对应着多个act-slot-value三元组时,尽管该系统知道slot type和slot value的对应关系,可以合成出相应的slot-value paris,但是它并不知道act type和slot-value pairs的对应关系,无法合成正确的act-slot-value三元组。
发明内容
为了至少解决现有技术中当一个对话语音对应着多个act-slot-value三元组时,无法确定act type活动类型和slot-value pairs实体数值的对应关系,无法合成正确的act-slot-value三元组的问题。
第一方面,本发明实施例提供一种对话语句的语义解析方法,包括:
通过长短时记忆网络,确定对话语句的连续实值表示向量以及词序列向量;
优先将所述连续实值表示向量输入至用于行为分类的第一多层感知网络,确定至少一个行为类型act type;
再将所述连续实值表示向量以及所述至少一个行为类型act type输入至用于实体分类的第二多层感知网络,确定与各行为类型act type相对应的实体slot;
将配对后的行为/实体act-slot、所述连续实值表示向量以及所述词序列向量作为输入参数,通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值;
将所述value实体值与所述行为/实体act-slot进行配对,生成act-slot-value三元组确定为所述对话语句的语义。
第二方面,本发明实施例提供一种对话语句的语义解析系统,包括:
向量确定程序模块,用于通过长短时记忆网络,确定对话语句的连续实值表示向量以及词序列向量;
行为类型确定程序模块,用于优先将所述连续实值表示向量输入至用于行为分类的第一多层感知网络,确定至少一个行为类型act type;
实体确定程序模块,用于再将所述连续实值表示向量以及所述至少一个行为类型act type输入至用于实体分类的第二多层感知网络,确定与各行为类型act type相对应的实体slot;
实体值确定程序模块,用于将配对后的行为/实体act-slot、所述连续实值表示向量以及所述词序列向量作为输入参数,通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值;
语义解析程序模块,用于将所述value实体值与所述行为/实体act-slot进行配对,生成act-slot-value三元组确定为所述对话语句的语义。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的对话语句的语义解析方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的对话语句的语义解析方法的步骤。
本发明实施例的有益效果在于:通过合理的利用act-slot-value内部的关系,优先预测act type行为类型,之后对每一个act type行为类型预测对应的slot types,再利用配对后的act-slot确定对应的value值,建立了act type与slot type间的关系,从而确定正确的act-slot-value三元组。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种对话语句的语义解析方法的流程图;
图2是本发明一实施例提供的一种对话语句的语义解析方法的评估结果列表数据图;
图3是本发明一实施例提供的一种对话语句的语义解析系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种对话语句的语义解析方法的流程图,包括如下步骤:
S11:通过长短时记忆网络,确定对话语句的连续实值表示向量以及词序列向量;
S12:优先将所述连续实值表示向量输入至用于行为分类的第一多层感知网络,确定至少一个行为类型act type;
S13:再将所述连续实值表示向量以及所述至少一个行为类型act type输入至用于实体分类的第二多层感知网络,确定与各行为类型act type相对应的实体slot;
S14:将配对后的行为/实体act-slot、所述连续实值表示向量以及所述词序列向量作为输入参数,通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值;
S15:将所述value实体值与所述行为/实体act-slot进行配对,生成act-slot-value三元组确定为所述对话语句的语义。
在本实施方式中,本方法包括四个部分:共享话语编码部分、行为分类部分、槽类型分类部分、价值解码部分。对于本实施例所述的act-slot-value三元组,其中,act表示用户行为的类型,比如请求、查询、打招呼等等;slot表示用户输入中包含的某种act下的entity实体,比如查询酒店的位置、价格这些实体;value是指slot中entity实体对应的值,比如slot实体为位置时,value可以为北边,对应的slot-value代表位置在北边,又如,slot实体为价格时,value可以为500-800之间,对应的slot-value代表价格在500-800之间。之外,根据每一句话的长短结构,可能会包括多个act-slot-value三元组。
对于步骤S11,在接收到对话语句以后,通过将对话语句经过共享话语编码部分进行编码,其中所述共享话语编码部分是利用一个双向的LSTM(Long Short-Term Memory,长短时记忆网络),把语音对话表示成一个连续实值表示向量即所述对话语句的话语表达,以及词序列向量表示即话语向量。
对于步骤S12,由于本实施方法针对于现有技术的缺陷,合理利用act-slot-value三元组的内部关系。优先预测行为类型act type。在步骤S11确定输入的对话语句的连续实值表示向量和词序列向量后,再通过行为分类部分进行处理,其中,所述行为分类部分采用一个简单的MLP(Multi-Layer Perceptron,多层感知网络),是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图,由多个节点层组成,每一层全链接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。一种被称为反向传播算法的监督学习方法常被用来训练MLP。MLP是感知器的推广,克服了感知器无法实现对线性不可分数据识别的缺点。在接收连续实值表示向量后,预测所述对话语句的act type行为类型。
对于步骤S13,在确定所述对话语句的act type类型之后,通过槽类型分类部分进行处理。其中所述槽类型分类部分采用一个类似结构的MLP多层感知网络,通过在步骤S11确定的连续实值表示向量和经由步骤S12确定的act type行为类型表达(将所述act type表示成一个vector向量)作为输入。通过所述槽类型分类部分,确定所述对话语句的slottype实体(槽类型)。
对于步骤S14,在确定出所述对话语句的slot type实体后,进行配对,确定相应的act-slot pair representation(行为槽对表示)。再通过价值解码部分,其中所述价值解码部分是采用了基于编码-解码的指针网络。将所述对话语句的连续实值表示向量、词序列向量以及行为槽对表示(也就是配对后的行为/实体act-slot)作为输入。通过所述价值解码,确定出所述行为/实体act-slot对应的value实体值。
对于步骤S15,将上述步骤确定的value实体值与所述行为/实体act-slot进行配对,生成act-slot-value三元组确定为所述对话语句的语义。
通过该实施方法可以看出,通过合理的利用act-slot-value内部的关系,优先预测act type行为类型,之后对每一个act type行为类型预测对应的slot types,再利用配对后的act-slot确定对应的value值,建立了act type与slot type间的关系,从而确定正确的act-slot-value三元组。
作为一种实施方式,在本实施例中,在将配对后的行为/实体act-slot、所述连续实值表示向量以及所述词序列向量作为输入参数,通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值之前,所述方法还包括:
配置所述配对后的行为/实体act-slot、所述连续实值表示向量以及词序列向量的权重。
在本实施方式中,配置所述配对后的行为/实体act-slot、所述连续实值表示向量以及词序列向量的权重,根据调整所述各部分的权重,更针对性的确定所述行为/实体act-slot相对应的value。
通过该实施方式可以看出,通过配置权重,便于根据相应的情况,调整相对应的value值,使得语义解析更加全面。
作为一种实施方式,在本实施例中,所述通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值包括:
确定与所述行为/实体act-slot相关的各value实体值的概率分布;
将所述各value实体值的概率分布中概率最大的value实体值作为与所述行为/实体act-slot相对应的value实体值。
作为一种实施方式,所述与所述行为/实体act-slot相关的各value实体值包括:所述对话语句中的词汇和/或所述对话语句中之外的词汇。
在本实施方式中,确定与所述行为/实体act-slot相关的各value实体值的概率分布。从所述概率分布中确定出概率最大的value值,作为行为/实体act-slot对应的value实体值,而所述value实体值包括所述对话语句内的词汇和/或所述对话语句之外的词汇。
通过该实施方式可以看出,通过概率阈值确定行为/实体act-slot对应的value实体值,通过查询概率最大值来保证value实体值的精准度,而包括对话语句外的词汇使得确定的value值更加广泛,进一步使得语义解析更加全面,性能更佳。
作为对上述实施方式的进一步详细说明,本方法通过遵循三重结构来预测act-slot-value三元组。整个方法由四个部分组成,包括:共享话语部分、行为分类部分(以对话语句作为输入来预测行为类型)、槽类型分类部分(包含对话和行为类型作为预测槽类型的输入)、解码部分(具有话语和act-slot类型对的值解码器作为输入的值序列)。
其中,所述共享话语部分利用BLSTM(双向LSTM)模型来编码。设ew表示每个字w的嵌入字,表示矢量连接操作。编码器读取话语w=(w1,w2,…,wT)并生成BLSTM的T隐藏状态:
Figure BDA0001903916520000071
Figure BDA0001903916520000072
Figure BDA0001903916520000073
其中,
Figure BDA0001903916520000074
是BLSTM中向后传递的隐藏向量,
Figure BDA0001903916520000075
是BLSTM中在时间i的向前传递的隐藏向量,fl和fr分别是向后和向前传递的LSTM单元。话语向量最终表示定义为:
Figure BDA0001903916520000076
话语向量
Figure BDA0001903916520000077
将用于行为和槽类型分类,并且隐藏向量{h1,…,hT}将利用于指针网络的值序列生成。
所述行为和槽类型分类部分在此定义为多标签分类问题,通常解决方案是为每个标签训练二元分类器。应用具有两层的前馈网络来计算每个可能标签的存在分数:
r=ReLU(Wuu+bu)
p=σ(Wrr+br)
其中,u是输入向量,Wu、Wr是权重矩阵,bu、br是偏差。σ是用于标准化输出分数的sigmoid函数。在训练阶段,使用二进制交叉熵损失函数,在测试阶段,预测得分高于一定阈值的预测。对于行为类型的预测,输入向量u是话语向量
Figure BDA0001903916520000078
以类似的方式格式化槽类型预测,同时不仅将话语向量而且将相应的行为类型亏送到槽分类器。还定义了嵌入层以将每个行为类型编码成连续向量。设a表示一个act类型,ea表示它的嵌入,那么槽类型分类器的输入向量是:
Figure BDA0001903916520000081
注意的是,将act和slot类型的嵌入模块定义为字嵌入,以将每种类型编码为连续表示。允许利用后者中的前一模块的预测结果,例如,在槽类型预测中使用act行为类型。
所述具有指针网络的值解码部分为了预测相应的act-slot类型对的值,利用具有注意力和指针网络的基于前端-后端模型来生成值的单子序列。LSTM模型用于解码值序列v=(v1,v2,…,vN)。将定义vN定义为“</s>”,其表示着序列的结束。LSTM以Si=f(Si-1,evi)进行,其中Si是时间i处的隐藏矢量,f是LSTM单位。为了合并相应的act和slot的上下文信息,定义:
Figure BDA0001903916520000082
其中,ea和es分别是相应的行为类型a和槽类型s的嵌入,Ws是权重矩阵,bs是偏置向量。在注意机制中使用
Figure BDA0001903916520000083
来计算上下文向量Ci,如下如所述:
Figure BDA0001903916520000084
Figure BDA0001903916520000085
Figure BDA0001903916520000086
中预测的行为和槽的编码信息可以帮助注意机制在语义上集中,最后
Figure BDA0001903916520000087
和Ci被连接输出层的输入,其在基本词汇表中计算概率分布
Figure BDA0001903916520000088
为了处理值生成中的OOV(Out of Vocabulary,词汇量不足)问题,利用指针网络增强了基本的Seq2Seq模型,该模型可以根据注意权重αij在输入话语的单词上生成概率分布
Figure BDA0001903916520000089
因此,扩展词汇表的最终分布计算如下:
Figure BDA00019039165200000810
Figure BDA00019039165200000811
其中,pi是平衡分数,wp是权重向量,bp是标量偏差。
为了验证本实施方法的效果,使用对话状态跟踪DSTC2提供的数据集进行测试。其包括11677,3934,9890对话语和分别用于训练,开发和测试的相应的act-slot-value三元组。每个话语都用语义注释,包括多个act-slot-value三元组。每个话语都提供了手动转录和10给最佳假设。在整个实验中都使用手动转录和顶部假设(1-best)作为输入。
嵌入的维度100,隐藏单位的数量为128,预设概率为0.5,批量大小为20,梯度剔除的最大范数设置为5,使用Adam优化器,初始学习率为0.001。所有培训都包含50各时代,并在开发阶段提前停止。通过dstc的官方评分测试脚本报告act-slot-value三元组的F1分数。对于act和slot类型嵌入模块,编写这些抽象的概念词的嵌入,例如“pricerange”的嵌入是“price”和“range”嵌入的平均值。还将act嵌入和act类型分类器的最顶部权重矩阵联系起来,对于嵌入槽也如此。
在顶部假设上进行实验,并将结果与现有技术进行比较,以评估模型的整体SLU性能。现有方法是之前已经提到的基于神经网络的方法,并且使用基于决策树的二元分类来预测每个槽-值对和对话行为的存在的统计方法。从图2中可以看到,本方法的模型得到最佳的F1分数。
act-slot结构的分解允许预测看不见的act-slot类型对。例如,即使训练集中不存在该对,本方法的模型也可以从“确认(食物)”和“通知(区域)”组成“确认(区域)”的语义,因为它可以学习。
对于可能具有大量可能值的非可枚举槽类型(如“food”和“name”),无法提前定义所有可能的值。指针网络的使用允许生成OOV值。在测试中,大多数OOV值可以通过使用指针网络识别值周围的类似上下文来生成。给定预测的行为和槽,值解码器的注意机制将集中在相应的单词上。这使解码器能够准确地生成值。
如图3所示为本发明一实施例提供的一种对话语句的语义解析系统的结构示意图,该系统可执行上述任意实施例所述的对话语句的语义解析方法,并配置在终端中。
本实施例提供的一种对话语句的语义解析系统包括:向量确定程序模块11,行为类型确定程序模块12,实体确定程序模块13,实体值确定程序模块14和语义解析程序模块15。
其中,向量确定程序模块11用于通过长短时记忆网络,确定对话语句的连续实值表示向量以及词序列向量;行为类型确定程序模块12用于优先将所述连续实值表示向量输入至用于行为分类的第一多层感知网络,确定至少一个行为类型act type;实体确定程序模块13用于再将所述连续实值表示向量以及所述至少一个行为类型act type输入至用于实体分类的第二多层感知网络,确定与各行为类型act type相对应的实体slot;实体值确定程序模块14用于将配对后的行为/实体act-slot、所述连续实值表示向量以及所述词序列向量作为输入参数,通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值;语义解析程序模块15用于将所述value实体值与所述行为/实体act-slot进行配对,生成act-slot-value三元组确定为所述对话语句的语义。
进一步地,所述实体值确定程序模块还用于:
配置所述配对后的行为/实体act-slot、所述连续实值表示向量以及词序列向量的权重。
进一步地,所述实体值确定程序模块用于:
确定与所述行为/实体act-slot相关的各value实体值的概率分布;
将所述各value实体值的概率分布中概率最大的value实体值作为与所述行为/实体act-slot相对应的value实体值。
进一步地,所述与所述行为/实体act-slot相关的各value实体值包括:所述对话语句中的词汇和/或所述对话语句中之外的词汇。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的对话语句的语义解析方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
通过长短时记忆网络,确定对话语句的连续实值表示向量以及词序列向量;
优先将所述连续实值表示向量输入至用于行为分类的第一多层感知网络,确定至少一个行为类型act type;
再将所述连续实值表示向量以及所述至少一个行为类型act type输入至用于实体分类的第二多层感知网络,确定与各行为类型act type相对应的实体slot;
将配对后的行为/实体act-slot、所述连续实值表示向量以及所述词序列向量作为输入参数,通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值;
将所述value实体值与所述行为/实体act-slot进行配对,生成act-slot-value三元组确定为所述对话语句的语义。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的对话语句的语义解析方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的对话语句的语义解析方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有语音处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种对话语句的语义解析方法,包括:
通过长短时记忆网络,确定对话语句的连续实值表示向量以及词序列向量;
首先将所述连续实值表示向量输入至用于行为分类的第一多层感知网络,确定至少一个行为类型act type;
再将所述连续实值表示向量以及所述至少一个行为类型act type输入至用于实体分类的第二多层感知网络,确定与各行为类型act type相对应的实体slot;
将配对后的行为/实体act-slot、所述连续实值表示向量以及所述词序列向量作为输入参数,通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值;
将已配对的所述value实体值与所述行为/实体act-slot,生成act-slot-value三元组确定为所述对话语句的语义。
2.根据权利要求1所述的方法,其中,在将配对后的行为/实体act-slot、所述连续实值表示向量以及所述词序列向量作为输入参数,通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值之前,所述方法还包括:
配置所述配对后的行为/实体act-slot、所述连续实值表示向量以及词序列向量的权重。
3.根据权利要求1所述的方法,其中,所述通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值包括:
确定与所述行为/实体act-slot相关的各value实体值的概率分布;
将所述各value实体值的概率分布中概率最大的value实体值作为与所述行为/实体act-slot相对应的value实体值。
4.根据权利要求3所述的方法,其中,所述与所述行为/实体act-slot相关的各value实体值包括:所述对话语句中的词汇和/或所述对话语句中之外的词汇。
5.一种对话语句的语义解析系统,包括:
向量确定程序模块,用于通过长短时记忆网络,确定对话语句的连续实值表示向量以及词序列向量;
行为类型确定程序模块,用于首先将所述连续实值表示向量输入至用于行为分类的第一多层感知网络,确定至少一个行为类型act type;
实体确定程序模块,用于再将所述连续实值表示向量以及所述至少一个行为类型acttype输入至用于实体分类的第二多层感知网络,确定与各行为类型act type相对应的实体slot;
实体值确定程序模块,用于将配对后的行为/实体act-slot、所述连续实值表示向量以及所述词序列向量作为输入参数,通过基于编码-解码模型的指针网络,确定与所述行为/实体act-slot相对应的value实体值;
语义解析程序模块,用于将已配对的所述value实体值与所述行为/实体act-slot,生成act-slot-value三元组确定为所述对话语句的语义。
6.根据权利要求5所述的系统,其中,所述实体值确定程序模块还用于:
配置所述配对后的行为/实体act-slot、所述连续实值表示向量以及词序列向量的权重。
7.根据权利要求5所述的系统,其中,所述实体值确定程序模块用于:
确定与所述行为/实体act-slot相关的各value实体值的概率分布;
将所述各value实体值的概率分布中概率最大的value实体值作为与所述行为/实体act-slot相对应的value实体值。
8.根据权利要求7所述的系统,其中,所述与所述行为/实体act-slot相关的各value实体值包括:所述对话语句中的词汇和/或所述对话语句中之外的词汇。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
CN201811523979.5A 2018-12-13 2018-12-13 对话语句的语义解析方法及系统 Active CN109637527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811523979.5A CN109637527B (zh) 2018-12-13 2018-12-13 对话语句的语义解析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811523979.5A CN109637527B (zh) 2018-12-13 2018-12-13 对话语句的语义解析方法及系统

Publications (2)

Publication Number Publication Date
CN109637527A CN109637527A (zh) 2019-04-16
CN109637527B true CN109637527B (zh) 2021-08-31

Family

ID=66073437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811523979.5A Active CN109637527B (zh) 2018-12-13 2018-12-13 对话语句的语义解析方法及系统

Country Status (1)

Country Link
CN (1) CN109637527B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026857B (zh) * 2019-12-10 2022-07-08 思必驰科技股份有限公司 对话状态跟踪方法、人机对话方法及系统
CN111814489A (zh) * 2020-07-23 2020-10-23 苏州思必驰信息科技有限公司 口语语义理解方法及系统
CN111739520B (zh) * 2020-08-10 2020-11-20 腾讯科技(深圳)有限公司 一种语音识别模型训练方法、语音识别方法、装置
CN112182191B (zh) * 2020-10-16 2022-08-30 西北师范大学 多轮口语理解的结构化记忆图网络模型
CN113705652B (zh) * 2021-08-23 2024-05-28 西安交通大学 一种基于指针生成网络的任务型对话状态追踪系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315737A (zh) * 2017-07-04 2017-11-03 北京奇艺世纪科技有限公司 一种语义逻辑处理方法及系统
CN107329995A (zh) * 2017-06-08 2017-11-07 北京神州泰岳软件股份有限公司 一种语义受控的答案生成方法、装置及系统
CN107944027A (zh) * 2017-12-12 2018-04-20 苏州思必驰信息科技有限公司 创建语义键索引的方法及系统
US20180203852A1 (en) * 2017-01-18 2018-07-19 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN108804536A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 人机对话与策略生成方法、设备、系统及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180203852A1 (en) * 2017-01-18 2018-07-19 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
CN107329995A (zh) * 2017-06-08 2017-11-07 北京神州泰岳软件股份有限公司 一种语义受控的答案生成方法、装置及系统
CN107315737A (zh) * 2017-07-04 2017-11-03 北京奇艺世纪科技有限公司 一种语义逻辑处理方法及系统
CN107944027A (zh) * 2017-12-12 2018-04-20 苏州思必驰信息科技有限公司 创建语义键索引的方法及系统
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN108804536A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 人机对话与策略生成方法、设备、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Evolvable dialogue state tracking for statistical dialogue management;Kai Yu 等;《Frontiers of Computer Science》;20151123;第10卷;I140-3 *
人机对话理解中联合学习技术的研究与应用;马龙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180315;201-215 *

Also Published As

Publication number Publication date
CN109637527A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109637527B (zh) 对话语句的语义解析方法及系统
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US20240161732A1 (en) Multi-dialect and multilingual speech recognition
CN108417210B (zh) 一种词嵌入语言模型训练方法、词语识别方法及系统
US20210142794A1 (en) Speech processing dialog management
US20200026760A1 (en) Enhanced attention mechanisms
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
US20200349925A1 (en) Online verification of custom wake word
US11580145B1 (en) Query rephrasing using encoder neural network and decoder neural network
CN111626062B (zh) 文本语义编码方法及系统
CN111914067A (zh) 中文文本匹配方法及系统
Alon et al. Contextual speech recognition with difficult negative training examples
WO2023245389A1 (zh) 歌曲生成方法、装置、电子设备和存储介质
CN113035231A (zh) 关键词检测方法及装置
CN111382257A (zh) 一种生成对话下文的方法和系统
CN111814489A (zh) 口语语义理解方法及系统
CN111400468B (zh) 对话状态跟踪系统及方法和人机对话装置及方法
CN116312463A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN112017643A (zh) 语音识别模型训练方法、语音识别方法及相关装置
Hassan et al. Improvement in automatic speech recognition of south asian accent using transfer learning of deepspeech2
JP2023542057A (ja) グラフベースの時間的分類を用いたニューラルネットワークの訓練
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN111462734B (zh) 语义槽填充模型训练方法及系统
Kolesau et al. Voice activation systems for embedded devices: Systematic literature review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant