CN107785018A

CN107785018A - 多轮交互语义理解方法和装置

Info

Publication number: CN107785018A
Application number: CN201610790692.3A
Authority: CN
Inventors: 黄鑫; 陈志刚; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2018-03-09
Anticipated expiration: 2036-08-31
Also published as: CN107785018B

Abstract

本申请提出一种多轮交互语义理解方法和装置，该多轮交互语义理解方法包括：接收语音数据；对所述语音数据进行切分，得到语音数据片断，以及，对所述语音数据片断进行语音识别，得到当前切分文本数据；根据用户交互的历史数据对当前切分文本数据进行语义理解，得到语义理解结果。该方法能够提高语义理解结果的准确度，从而可以反馈更准确的交互结果给用户，提升用户体验。

Description

多轮交互语义理解方法和装置

技术领域

本申请涉及自然语言理解技术领域，尤其涉及一种多轮交互语义理解方法和装置。

背景技术

随着智能终端及网络技术的迅速发展，人们越来越习惯地使用智能终端完成各种需求，如使用智能音箱作为人机交互的入口时，用户可以与其进行语音交互以满足用户的不同需求，如查天气、查股票、听音乐等，或者用户在开车时，使用智能车机作为人机交互的入口，用户可以与智能车机进行语音交互以完成导航、电台查询、音乐查询等应用需求。使用智能终端完成用户的各种需求时，一般使用语音交互的方式，智能终端接收包含用户需求的语音数据，对所述语音数据进行语音识别后得到对应识别文本，再对所述识别文本进行语义理解后，系统根据所述语义理解结果反馈给用户交互结果，从而完成一次交互；当用户有一个或多个需求时，往往可以与智能终端进行多轮交互，系统根据用户每次的需求，不断反馈给用户交互结果，从而给用户一种自然流畅的交互体验，如用户的需求为导航到科大，用户可以与系统进行多轮交互后，满足这个需求，具体交互时，用户先与系统说：“去科大”，系统提问“是去科大南区、北区、中区还是东西区”，用户说：“科大南区”，系统开始规划路径，将规划好的多条侯选路径反馈给用户，用户选定导航路径后，系统开始导航。

相关技术中，用户与智能终端进行多轮语音交互时，系统在语义理解时通常仅根据当前切分的文本进行语义理解。但是，如果用户在一次请求过程中出现停顿、拖音等现象或其他人说话的干扰音时，系统通常会出现切分错误，相应的会造成语义理解错误，进而反馈给用户错误的交互结果，严重降低用户体验。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种多轮交互语义理解方法，该方法可以提高语义理解结果的准确度，从而可以反馈更准确的交互结果给用户，提升用户体验。

本申请的另一个目的在于提出一种多轮交互语义理解装置。

为达到上述目的，本申请第一方面实施例提出的多轮交互语义理解方法，包括：接收语音数据；对所述语音数据进行切分，得到语音数据片断，以及，对所述语音数据片断进行语音识别，得到当前切分文本数据；根据用户交互的历史数据对当前切分文本数据进行语义理解，得到语义理解结果。

本申请第一方面实施例提出的多轮交互语义理解方法，通过根据历史数据对切分文本数据进行语义理解，可以得到更准确的语义理解结果，从而可以反馈更准确的交互结果给用户，提升用户体验。

为达到上述目的，本申请第二方面实施例提出的多轮交互语义理解装置，包括：接收模块，用于接收语音数据；语音识别模块，用于对所述语音数据进行切分，得到语音数据片断，以及，对所述语音数据片断进行语音识别，得到当前切分文本数据；语义理解模块，用于根据用户交互的历史数据对当前切分文本数据进行语义理解，得到语义理解结果。

本申请第二方面实施例提出的多轮交互语义理解装置，通过根据历史数据对切分文本数据进行语义理解，可以得到更准确的语义理解结果，从而可以反馈更准确的交互结果给用户，提升用户体验。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的多轮交互语义理解方法的流程示意图；

图2是本申请实施例中根据历史数据对切分文本数据进行语义理解的方法的流程示意图；

图3是本申请实施例中对二次语义理解结果进行排序修正的方法的流程示意图；

图4是本申请一个实施例提出的多轮交互语义理解装置的结构示意图；

图5是本申请另一个实施例提出的多轮交互语义理解装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

为了更好理解本申请，先以一个具体示例对相关技术中的问题进一步进行说明。

例如，用户输入语音数据为“我想听范晓萱…的雪人”，其中，省略号(…)表示用户因思考或说话习惯而造成的停顿或拖音，由于停顿或拖音的存在，系统语义理解模块收到两次交互请求，即“我想听范晓萱”和“的雪人”，对于第一次的交互请求，系统进行语义理解后，直接播放范晓萱的歌曲(但不一定是“雪人”这首歌)；对于第二次的交互请求，系统进行语义理解后，播放歌曲“雪人”(可能是范晓萱唱的，也可能是其他歌手唱的同名歌曲)，也可能给出闲聊结果“冬天到了，我也喜欢堆雪人啊”的反馈，无论哪种反馈，都基本上无法满足用户的真正需求，让用户感觉交互的不流畅，用户体验效果较差。

通过对上述示例的分析，会发现造成上述交互结果不准确的一个重要原因是相关技术中的语义理解仅对当前的切分结果进行了语义识别，即，分别对“我想听范晓萱”进行了语义识别及对“的雪人”进行了语义识别，而没有将“我想听范晓萱”等历史数据和“的雪人”进行结合识别。

为了解决相关技术中存在的上述语义识别结果不准确，交互不流畅和用户体验差等问题，本申请将给出如下实施例。

图1是本申请一个实施例提出的多轮交互语义理解方法的流程示意图。

如图1所示，本实施例的方法包括：

S11：接收语音数据。

在用户需要与智能终端进行语音交互时，智能终端可以接收用户说出的语音数据。

S12：对所述语音数据进行切分，得到语音数据片断，以及，对所述语音数据片断进行语音识别，得到当前切分文本数据。

在全双工的交互模式下，用户可以连续自然的与系统进行多轮交互，系统在接收到用户输入的语音数据后，首先需要对接收的语音数据进行切分，将切分得到的每个语音数据片断作为当前交互的语音数据，系统需要对所述语音数据作出反馈。具体的切分方法不限，可以采用现有技术或将来出现的技术实现，如提取语音数据的声学特征，如梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)或filterbank，使用预先训练的切分模型根据声学特征对接收的语音数据进行切分，所述切分模型为模式识别中常用分类模型，如深度神经网络模型或支持向量机模型。

在得到切分后的每个语音数据片断后，对每个语音数据片断进行语音识别，得到对应的文本数据，每个语音数据片断对应的文本数据可以称为切分文本数据。具体的语音识别算法不限，可以采用现有或将来出现的技术实现。

S13：根据用户交互的历史数据对当前切分文本数据进行语义理解，得到语义理解结果。

与相关技术中语义理解仅与当前切分文本数据不同的是，本实施例在语义理解时还会用到历史数据，以提高语义理解的准确度。

历史数据是指用户与系统之前的交互历史数据，包括用户输入的语音数据对应的文本数据(可称为历史切分文本数据)及其语义理解结果，以及系统向用户反馈的文本数据(可称为历史反馈文本数据)及其语义理解结果等。

具体的根据历史数据对当前切分文本数据进行语义理解的流程可以参见后续实施例。

本实施例中，通过根据历史数据对切分文本数据进行语义理解，可以得到更准确的语义理解结果，从而可以反馈更准确的交互结果给用户，提升用户体验。

图2是本申请实施例中根据历史数据对当前切分文本数据进行语义理解的方法的流程示意图。

如图2所示，本实施例的方法包括：

S21：对当前切分文本数据进行独立的语义理解，得到初始语义理解结果。

在独立的语义理解时，可以对应每个语义场景，在每个语义场景下，对当前切分文本数据进行独立的语义理解，得到每个语义场景下的初始语义理解结果。

所述语义场景可以根据系统的应用需求预先设定，所述语义场景如音乐、电影、订票、餐饮等。

对当前切分文本数据进行独立的语义理解时，可以使用基于句法的语义分析、基于文法规则网络的语义分析等得到各个语义场景下的初始语义理解结果。

以基于文法规则网络的语义分析对当前切分文本数据进行独立的语义理解为例，可以预先编写好各语义场景下基于扩展巴克斯范式(Augmented Backus–Naur Form，ABNF)文法规则，然后根据各语义场景下的文法规则编译生成各语义场景下的加权有限状态机(Weighted Finite State Transducer，WFST)网络，根据各语义场景下的WFST网络分别在各语义场景下对当前切分文本数据进行语义理解，得到各语义场景下的初始语义理解结果。可以理解的是，各语义场景下的语义理解过程的具体内容可以参见各种现有或将来出现的技术，在此不再详述。

对应每个语义场景，相应语义场景下的初始语义理解结果为0个、一个或多个。例如，每种语义场景下可以预先确定置信度(静态设置或动态确定)，将对应路径的概率值大于置信度的初始语义理解结果作为该语义场景下的候选初始语义理解结果，在获取到候选初始语义理解结果后，可以根据预先确定的规则，将所有的候选初始语义理解结果作为相应语义场景下的初始语义理解结果；或者，对所有的候选初始语义理解结果按照对应路径的概率值进行排序，再按序选择预设个数的候选初始语义理解结果作为相应语义场景下的初始语义理解结果，即nbest结果，n可以根据应用需求确定。

每个初始语义理解结果包含的信息包括：语义场景名、语义场景取值、语义槽及语义槽取值，可以表示为{语义场景名:语义场景取值，语义槽1：语义槽1取值，语义槽2：语义槽2取值，…，语义槽n：语义槽n取值}，其中语义槽根据语义场景及应用需求预先设定。

如当前切分文本数据为“演唱会版”时的 1best语义理解结果为{“service”:”music”,“version”:”演唱会版”}，其中“service”表示语义场景名，“music”表示语义场景取值(音乐场景)，“version”表示语义槽(版本)，“演唱会版”表示语义槽取值。

S22：根据所述初始语义理解结果和用户交互的历史数据，提取当前切分文本数据的语义特征。

其中，历史数据包括：历史语义理解结果，和/或，反馈文本数据的语义理解结果。

所述语义特征用于对当前切分文本数据进行二次语义理解。语义特征包括如下项中的一项或多项：

初始语义理解结果特征、历史语义理解结果特征、初始语义理解结果所含语义槽集合与历史语义理解结果所含语义槽集合的重合度、初始语义理解结果所含关键语义槽取值与历史语义理解结果所含关键语义槽取值的匹配度、初始语义理解结果所含语义槽集合与上一轮的反馈文本数据的语义理解结果所含语义槽集合的重合度。

上述各语义特征的具体提取流程如下：

(1)初始语义理解结果特征

所述初始语义理解结果特征根据初始语义理解结果得到。

具体提取时，可以根据初始语义理解结果提取特征名和特征取值，将特征名和特征取值组合后的信息作为初始语义理解结果特征。

其中，特征名和特征取值的确定方式可以设置。例如，将语义场景名和语义场景取值用连接符连接后作为一个特征名，该特征名对应的特征取值表明初始语义理解结果中是否出现了该特征名；将语义槽作为另一个特征名，该特征名对应的特征取值表明初始语义理解结果中该语义槽有无取值。

上述的连接符是可设置的，例如采用“.”或者”-”或者其它符号作为连接符。特征取值可以为0或1。例如，对应上述的前一个特征名，1表示语义理解结果中出现了特征名对应的语义场景名及语义场景取值，否则，特征取值为0。或者，对应上述的后一个特征名，1表示初始语义理解结果中语义槽有取值，否则，特征取值为0。

例如，初始语义理解结果为{“service”:”music”,“version”:”演唱会版”}，则提取的初始语义理解结果特征为(service.music:1,version:1)，其中“service.music”为语义场景及语义场景取值连接后的特征名，冒号后为该特征的取值，“version”语义槽特征名，冒号后为该特征的取值，由于在语义理解结果中，“version”有对应取值，则提取的特征“version”的取值为1。

(2)历史语义理解结果特征

所述历史语义理解结果特征可以根据历史语义理解结果得到。具体可以参照根据初始语义理解结果得到初始语义理解结果特征的方式得到。

历史语义理解结果是指对历史数据的最终语义理解结果，进一步的，历史数据可以具体是指历史切分文本数据，即用户输入的语音数据对应的文本数据。

进一步的，历史语义理解结果可以为多轮历史数据的语义理解结果，此时，提取的历史语义理解结果特征为多个，形成语义理解结果特征序列，具体考虑几轮历史数据可以根据应用需求确定，如考虑5轮历史数据，则包括5个历史语义理解结果特征。

每轮交互结束后，系统会保存每轮用户交互文本数据及其最终语义理解结果，所述最终语义理解结果与初始语义理解结果的表现形式一样，即都是由语义场景、语义场景取值、语义槽及语义槽取值组成，因此，特征提取方法与对初始语义理解结果的提取方法相同，在此不再详述。

例如，当前切分文本数据为“演唱会版”，假设用户交互的历史数据包括“把电视关了”，“来首张信哲的信仰”，用户交互历史共包含两轮，则提取的历史语义理解特征序列共包含两个特征，使用中括号表示，即[(service.smartHome:1,object.tv:1,action:1),(service.music:1,artist:1,song:1)]；其中，每个小括号内的信息为一个历史语义理解结果特征，第一个特征中“service.smartHome”和“object.tv”为语义场景名与语义场景取值连接后的特征名，“action”为语义槽特征名，第二个特征中“service.music”为语义场景与语义场景取值连接后的特征名，“artist”和“song”为语义槽特征名；每个特征的取值为冒号后的数字。

(3)初始语义理解结果所含语义槽集合与历史语义理解结果所含语义槽集合的重合度

所述重合度从语义槽角度描述当前切分文本数据与用户交互历史的相关度。

具体提取时，分别获取初始语义理解结果所含语义槽集合以及历史语义理解结果所含语义槽集合，其中，初始语义理解结果所含语义槽集合具体是指由初始语义理解结果所含语义槽组成的集合；历史语义理解结果所含语义槽集合具体是指由历史语义理解结果所含语义槽组成的集合。进一步的，在存在多个历史语义理解结果时，可以选择一个历史语义理解结果，再确定对应的语义槽集合。选择的一个历史语义理解结果可以具体是上一轮交互的历史语义理解结果。

上述的重合度的计算方式为：上述两个语义槽集合中具有相同语义槽名的数量除以初始语义理解结果所含语义槽集合中的元素总数。

例如，切分文本数据为“演唱会版”，初始语义理解结果为{“service”:”music”,“version”:”演唱会版”}，则初始语义理解结果所含语义槽集合中的元素总数为1，且该元素具体为：语义槽为“版本”，假设上一轮历史数据为“来首张信哲的信仰”，所述上一轮历史数据的语义理解结果中包含张信哲演唱过的信仰对应的各种版本的歌曲，因此，得到的历史语义理解结果所含语义槽集合包含的语义槽为“歌曲名”、“歌手”、“版本”、“所属专辑”；则两个语义槽集合中相同的语义槽，只有“版本”，相同语义槽数量为1，使用1除以初始语义理解结果所含语义槽集合中的元素的数，只有1个元素，最终得到的重合度为1。

(4)初始语义理解结果所含关键语义槽取值与历史语义理解结果所含关键语义槽取值的匹配度

所述关键语义槽指各语义场景下根据应用需求预先设定的语义槽，以音乐场景为例，预先设定的关键语义槽，如“歌曲名”、“歌手”、“专辑”、“版本”、“来源(如影视插曲、综艺节目)”、“语言”、“区域”等。

在确定出关键语义槽后，可以分别在初始语义理解结果和历史语义理解结果中进行提取，得到其中的关键语义槽及对应的关键语义槽取值，从而可以分别获取到初始语义理解结果所含关键语义槽取值和历史语义理解结果所含关键语义槽取值。进一步的，在存在多个历史语义理解结果时，具体选择的一个或多个历史语义理解结果可以应用需求确定。

在分别获取到初始语义理解结果所含关键语义槽取值和历史语义理解结果所含关键语义槽取值后，这两组关键语义槽取值可以分别组成一个字符串，上述的匹配度特征可以具体是指这两个字符串之间的编辑距离。编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个字符串的相似度越大。编辑距离的具体计算方式可以采用现有或将来出现的各种技术实现，如基于发音音素跳转代价矩阵计算编辑距离。

(5)初始语义理解结果所含语义槽集合与上一轮的反馈文本数据的语义理解结果所含语义槽集合的重合度。

所述上一轮的反馈文本数据是指当前切分文本数据之前最近一次交互历史中用户请求得到的系统响应结果，如用户最近一次的请求为“张信哲的信仰”，系统给用户的反馈为“请欣赏张信哲的信仰”，则上一轮的反馈文本数据为“请欣赏张信哲的信仰”。之后对该反馈文本数据进行语义理解，具体语义理解流程可以参照对切分文本数据进行语义理解得到初始语义理解结果的流程，可以得到反馈文本数据的语义理解结果。进一步的，类似对切分文本数据对应的初始语义理解结果的处理，可以得到反馈文本数据的语义理解结果所含语义槽集合。

在得到初始语义理解结果所含语义槽集合以及反馈文本数据的语义理解结果所含语义槽集合后，可以类似初始语义理解结果所含语义槽集合与历史语义理解结果所含语义槽集合的重合度的计算方式，计算出初始语义理解结果所含语义槽集合与上一轮的反馈文本数据的语义理解结果所含语义槽集合的重合度。

S23：根据所述语义特征和预先构建的语义理解结果排序模型，对当前切分文本数据进行二次语义理解，得到二次语义理解结果。

语义理解结果排序模型可以在训练阶段，根据收集的训练数据进行训练后生成。语义理解结果排序模型的输入是文本数据的语义特征，输出是对该文本数据对应的多个初始语义理解结果的排序信息，如各初始语义理解结果的概率值，或者也可以是将正确的初始语义理解结果排在第一位的初始语义理解结果排序信息，因此，在提取到上述的语义特征后，将提取的语义特征作为语义理解结果排序模型的输入，根据输出可以得到对初始语义理解结果的排序结果。具体的，训练语义理解结果排序模型的流程可以包括：收集大量用户文本数据及系统的反馈文本数据，对这些数据进行初始语义理解后，得到用户文本数据对应的初始语义理解结果和反馈文本数据对应的初始语义理解结果，再根据上述特征提取流程提取文本数据的语义特征，对相应的初始语义理解结果的排序顺序进行人工标注，或者，直接标出正确的初始语义理解结果，将所述正确的初始语义理解结果作为排序后的第一个语义理解结果，其它初始语义理解结果放到正确初始语义理解结果的后面，顺序不定，根据提取的语义特征及人工标注的排序顺序进行训练后，就可以生成语义理解结果排序模型。所述排序模型为模式识别中常用排序模型，如Ranking SVM,Ranking CNN。

进一步的，在分语义场景对文本数据进行语义理解时，在训练语义理解结果排序模型时，可以对应每个语义场景训练生成一个语义理解结果排序模型，在生成某个语义场景的语义理解结果排序模型时，采用的训练数据是该语义场景的用户文本数据和系统的反馈文本数据等。

S24：根据所述二次语义理解结果得到最终的语义理解结果。

一些实施例中，可以直接根据二次语义理解结果得到最终的语义理解结果。

例如，选择排序在前的N个(TopN)二次语义理解结果作为最终的语义理解结果。所述N根据应用需求确定，如选择排序靠前的前10个语义理解结果。其中，二次语义理解结果的排序顺序可以根据相应路径的概率值确定，如按照概率值从大到小的顺序排序。

为了进一步提高准确度，一些实施例中，还可以对二次语义理解结果进行排序修正，根据修正后的二次语义理解结果作为最终的语义理解结果。

如图3所示，对二次语义理解结果进行排序修正的方法的流程包括：

S31：获取二次语义理解结果的相关数据。

在各语义场景下，利用垂直搜索引擎搜索二次语义理解的相关性较高的数据。

具体搜索时，将每个二次语义理解结果作为搜索引擎的搜索串输入，搜索引擎自动将所述搜索串转为内部的搜索条件，搜索每个二次语义理解结果相关的文档，并将排序后的相关文档返回，每个二次语义理解结果可以选择TopN个相关文档，作为每个二次语义理解结果的相关数据；具体过程与现有技术相同，在此不再详述。

S32：根据当前切分文本数据、二次语义理解结果和相关数据提取相关度特征。

根据各语义场景下的二次语义理解结果与其相关数据提取相关度特征。

所述相关度特征用于描述二次语义理解结果与当前切分文本数据之间的相关度及二次语义理解结果排序的准确性。

相关度特征包括如下项中的至少一项：

二次语义理解结果与当前切分文本数据相同词数、二次语义理解结果中包含关键语义槽数、与当前切分文本数据中词相同的二次语义理解结果所含关键语义槽取值热度、当前切分文本数据包含与语义场景相关的关键词的数量、初始语义理解结果所含语义槽集合与相关数据所含语义槽集合的重合度。

具体提取方法如下所述：

(1)二次语义理解结果与当前切分文本数据相同词数

所述二次语义理解结果与当前切分文本数据相同词数，是指二次语义理解结果所理解到的当前切分文本数据中词，具体可以依次匹配二次语义理解结果中所含语义槽取值与当前切分文本数据分词后的每个词，确定二次语义理解结果中语义槽取值与当前切分文本数据相同的词数。

(2)二次语义理解结果中包含关键语义槽数

统计各语义场景下每个二次语义理解结果中包含其所属语义理解场景中的关键语义槽数，包含关键语义槽数越多，语义理解结果与其所属语义场景的相关性越高，从而在每个语义场景内，将与每个语义场景相关性较高的二次语义理解结果排在前面；在不同语义场景之间，二次语义理解结果包含的场景关键语义槽越多，该二次语义理解结果排序越靠前。

(3)与当前切分文本数据中词相同的二次语义理解结果所含关键语义槽取值热度。

找到每个二次语义理解结果中的关键语义槽，依次匹配每个关键语义槽取值与当前切分文本数据中词是否相同，如果相同，则计算当前关键语义槽取值的热度；关键语义槽取值的热度可以根据所述关键语义槽所属语义场景二次语义理解结果搜索到的相关数据计算得到；所述相关数据如搜索结果中的垂直页面包含的数据，如在音乐场景中，对应的垂直页面为搜狗音乐、酷我音乐、腾讯音乐等，根据所述垂直页面中所述关键语义槽取值的用户点击量、用户播放量、用户搜索量、关键语义槽取值在多个垂直页面的分布等信息，对当前关键语义槽的热度信息进行综合分析，得到关键语义槽的热度，具体分析计算方法与现有技术相同，在此不再详述。

(4)当前切分文本数据包含与语义场景相关的关键词的数量

所述各语义场景的关键词可以通过预先收集每个语义场景下的海量文本数据，进行分词后，统计每个词的词频，将词频大于阈值的词作为每个语义场景的关键词；如音乐场景中的关键词为“听”、“歌”、“来首”、“播放”等；当前切分文本数据包含的语义场景关键词越多，该语义场景下的语义理解结果排序越靠前。

(5)初始语义理解结果所含语义槽集合与相关数据所含语义槽集合的重合度

所述相关数据所含语义槽根据二次语义理解结果搜索到的相关数据得到，对所述搜索到的相关数据进行结构化后，得到相关数据包含的语义槽集合，具体结构化方法与现有技术相同，在此不再详述；将提取的两个语义槽集合中的语义槽进行比对后，确定两个语义槽集合中相同名称的语义槽的数量，再使用所述相同数量除以初始语义理解结果所含语义槽集合中的元素数，得到所述初始语义理解结果所含语义槽集合与相关数据所含语义槽集合的重合度。

S33：根据相关度特征和预先建立的排序模型对二次语义理解结果进行排序修正。

其中，排序模型可以是在训练阶段对训练数据进行训练后生成的。例如，收集大量的文本数据，对文本数据进行语义理解得到各语义场景下的二次语义理解结果，以及提取相关度特征，对各语义场景下的二次语义理解结果的排序进行人工标注，之后根据相关度特征和人工标注的排序进行训练，生成排序模型。排序模型的输入是相关度特征，输出是排序修正后的各语义场景下的二次语义理解结果。

因此，在提取得到相关度特征后，根据排序模型可以得到排序修正后的二次语义理解结果。

在得到排序修正后的二次语义理解结果后，可以选择TopN作为最终的语义理解结果，所述N可以根据应用需求确定，如N取值为10。

本实施例中，通过对二次语义理解结果进行排序修正，可以进一步提高语义理解结果的准确度，进而进一步提高反馈结果的准确度，提升用户体验。

图4是本申请一个实施例提出的多轮交互语义理解装置的结构示意图。

如图4所示，本实施例的装置40包括：接收模块41、语音识别模块42和语义理解模块43。

接收模块41，用于接收语音数据；

语音识别模块42，用于对所述语音数据进行切分，得到语音数据片断，以及，对所述语音数据片断进行语音识别，得到当前切分文本数据；

语义理解模块43，用于根据用户交互的历史数据对当前切分文本数据进行语义理解，得到语义理解结果。

一些实施例中，参见图4，所述语义理解模块43包括：

初始语义理解子模块431，用于对当前切分文本数据进行独立的语义理解，得到初始语义理解结果；

提取子模块432，用于根据所述初始语义理解结果和用户交互的历史数据，提取当前切分文本数据的语义特征；

二次语义理解子模块433，用于根据所述语义特征和预先构建的语义理解结果排序模型，对当前切分文本数据进行二次语义理解，得到二次语义理解结果；

获取子模块434，用于根据所述二次语义理解结果得到最终的语义理解结果。

一些实施例中，所述获取子模块434具体用于：

直接按序选择预设个数的所述二次语义理解结果，作为最终的语义理解结果；或者，

对所述二次语义理解结果进行排序修正，按序选择预设个数的排序修正后的二次语义理解结果，作为最终的语义理解结果。

一些实施例中，所述获取子模块434用于对所述二次语义理解结果进行排序修正，包括：

获取二次语义理解结果的相关数据；

根据当前切分文本数据、二次语义理解结果和相关数据提取相关度特征；

根据相关度特征和预先建立的排序模型对二次语义理解结果进行排序修正。

一些实施例中，所述历史数据包括如下项中的至少一项：

历史语义理解结果，上一轮交互的反馈文本数据的语义理解结果。

一些实施例中，所述语义特征包括如下项中的至少一项：

一些实施例中，所述相关度特征包括如下项中的至少一项：

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多轮交互语义理解方法，其特征在于，包括：

接收语音数据；

对所述语音数据进行切分，得到语音数据片断，以及，对所述语音数据片断进行语音识别，得到当前切分文本数据；

根据用户交互的历史数据对当前切分文本数据进行语义理解，得到语义理解结果。

2.根据权利要求1所述的方法，其特征在于，所述根据用户交互的历史数据对当前切分文本数据进行语义理解，得到语义理解结果，包括：

对当前切分文本数据进行独立的语义理解，得到初始语义理解结果；

根据所述初始语义理解结果和用户交互的历史数据，提取当前切分文本数据的语义特征；

根据所述语义特征和预先构建的语义理解结果排序模型，对当前切分文本数据进行二次语义理解，得到二次语义理解结果；

根据所述二次语义理解结果得到最终的语义理解结果。

3.根据权利要求2所述的方法，其特征在于，所述根据二次语义理解的结果得到最终的语义理解结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述二次语义理解结果进行排序修正，包括：

获取二次语义理解结果的相关数据；

5.根据权利要求2所述的方法，其特征在于，所述历史数据包括如下项中的至少一项：

6.根据权利要求5所述的方法，其特征在于，所述语义特征包括如下项中的至少一项：

7.根据权利要求4所述的方法，其特征在于，所述相关度特征包括如下项中的至少一项：

8.一种多轮交互语义理解装置，其特征在于，包括：

接收模块，用于接收语音数据；

语音识别模块，用于对所述语音数据进行切分，得到语音数据片断，以及，对所述语音数据片断进行语音识别，得到当前切分文本数据；

语义理解模块，用于根据用户交互的历史数据对当前切分文本数据进行语义理解，得到语义理解结果。

9.根据权利要求8所述的装置，其特征在于，所述语义理解模块包括：

初始语义理解子模块，用于对当前切分文本数据进行独立的语义理解，得到初始语义理解结果；

提取子模块，用于根据所述初始语义理解结果和用户交互的历史数据，提取当前切分文本数据的语义特征；

二次语义理解子模块，用于根据所述语义特征和预先构建的语义理解结果排序模型，对当前切分文本数据进行二次语义理解，得到二次语义理解结果；

获取子模块，用于根据所述二次语义理解结果得到最终的语义理解结果。

10.根据权利要求9所述的装置，其特征在于，所述获取子模块具体用于：

11.根据权利要求10所述的装置，其特征在于，所述获取子模块用于对所述二次语义理解结果进行排序修正，包括：

获取二次语义理解结果的相关数据；

12.根据权利要求9所述的装置，其特征在于，所述历史数据包括如下项中的至少一项：

13.根据权利要求12所述的装置，其特征在于，所述语义特征包括如下项中的至少一项：

14.根据权利要求11所述的装置，其特征在于，所述相关度特征包括如下项中的至少一项：