CN107910005A

CN107910005A - 交互文本的目标业务定位方法及装置

Info

Publication number: CN107910005A
Application number: CN201711139049.5A
Authority: CN
Inventors: 马宏; 李霞
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2018-04-13
Anticipated expiration: 2037-11-16
Also published as: CN107910005B

Abstract

本发明提供一种交互文本的目标业务定位方法及装置，属于语音识别技术领域。该方法包括：识别用户输入的语音数据，得到用户以语音方式输入的交互文本，基于交互文本的语义理解，确定交互文本的业务定位结果，若交互文本的业务定位结果数量大于1个，基于语音数据的韵律特征，确定交互文本的重音关键词，其中，重音关键词的重音值大于预设阈值，将重音关键词对应的业务定位结果，确定为交互文本的目标业务，实现了在业务定位过程中，同时考虑到了语音数据中的韵律特征和语义信息，语音数据中的韵律特征可以反映用户在该语音数据中重点强调的信息，从而，提高了业务定位的准确率。

Description

交互文本的目标业务定位方法及装置

技术领域

本发明涉及语音识别技术，尤其涉及一种交互文本的目标业务定位方法及装置。

背景技术

随着语音识别技术的发展和应用，语音识别应用在了各类终端设备上，使用自然语言进行人机交互已经成为智能化设备的明显标志。随着自然语言交互的应用，对于语音识别的效果的要求也越来越高。

现有技术中，用户在终端设备上输入了语音数据之后，终端设备可以对该语音数据进行语音识别、语义理解以及业务定位，进而，根据业务定位的结果为用户提供相应的业务。其中，语音识别过程为将语音数据解码为交互文本，语义理解为提取出交互文本中的业务定位关键词，业务定位过程为根据业务定位关键词确定用户请求的业务。这里的业务可以是视频业务、音乐业务、游戏业务、下载业务或者购物业务等。

然而，在上述过程中，根据语义理解的结果进行业务定位时，若存在定位过程中确定出多个业务，但无法从该多个业务中精准定位用户请求的业务，则可能会出现业务定位冲突的问题。例如，根据用户输入的语音数据，确定出该语音数据中的业务定位关键词为“爱*艺，电影”，其中，“爱*艺”对应的业务为应用下载业务，“电影”对应的业务为视频业务，假设根据这两个业务定位关键词确定该语音数据对应的业务定位结果可能为应用下载业务和视频业务，即按照目前的业务定位方法，无法精准确定出此时的目标业务。因此，目前的语音数据的业务定位方法定位的准确率较低。

发明内容

为解决现有技术中存在的问题，本发明提供一种交互文本的目标业务定位方法及装置。

第一方面，本发明实施例提供一种交互文本的目标业务定位方法，包括：

识别用户输入的语音数据，得到用户以语音方式输入的交互文本；

基于所述交互文本的语义理解，确定所述交互文本的业务定位结果；

若所述交互文本的业务定位结果数量大于1个，基于所述语音数据的韵律特征，确定所述交互文本的重音关键词，其中，所述重音关键词的重音值大于预设阈值；

将所述重音关键词对应的所述业务定位结果，确定为所述交互文本的目标业务。

如上所示的方法中，所述基于所述语音数据的韵律特征，确定所述交互文本的重音关键词，包括：

根据所述语音数据的韵律特征以及所述交互文本的分词结果，确定所述交互文本中每个分词的重音值；其中，所述分词结果中包括对所述交互文本进行分词处理后的多个分词；

将所述多个分词中重音值大于所述预设阈值的分词，确定为所述交互文本的重音关键词。

如上所示的方法中，所述根据所述语音数据的韵律特征以及所述交互文本的分词结果，确定所述交互文本中每个分词的重音值，包括：

根据所述语音数据的韵律特征，确定所述语音数据中每个音节的重音值；

根据所述语音数据中每个音节的重音值以及所述交互文本的分词结果，确定所述交互文本中每个分词的重音值；其中，每个分词包括至少一个音节。

如上所示的方法中，所述根据所述语音数据中每个音节的重音值以及所述交互文本的分词结果，确定所述交互文本中每个分词的重音值，包括：

根据公式确定每个分词的重音值；其中，N表示所述分词结果中分词的总数量，weight_i表示第i个分词的重音值，M_i表示第i个分词中包括的音节的个数，level_j表示每个分词中第j个音节的重音值，表示第i个分词的所有音节的重音值之和，level_kj表示第k个分词中，第j个音节的重音值，表示所述分词结果中所有分词的所有音节的重音值的和。

如上所示的方法中，音节的重音类型包括：重音、次重音、中音、次轻音以及轻音，重音对应的重音值>次重音对应的重音值>中音对应的重音值>次轻音对应的重音值>轻音对应的重音值。

如上所示的方法中，所述将所述多个分词中重音值大于所述预设阈值的分词，确定为所述交互文本的重音关键词，包括：

将所述多个分词的重音值中最大的重音值对应的分词，确定为所述交互文本的重音关键词。

第二方面，本发明实施例提供一种交互文本的目标业务定位装置，包括：

第一确定模块，用于识别用户输入的语音数据，得到用户以语音方式输入的交互文本；

第二确定模块，用于基于所述交互文本的语义理解，确定所述交互文本的业务定位结果；

第三确定模块，用于当所述交互文本的业务定位结果数量大于1个时，基于所述语音数据的韵律特征，确定所述交互文本的重音关键词，其中，所述重音关键词的重音值大于预设阈值；

第四确定模块，用于将所述重音关键词对应的所述业务定位结果，确定为所述交互文本的目标业务。

如上所示的装置中，所述第三确定模块具体包括：

第一确定子模块，用于根据所述语音数据的韵律特征以及所述交互文本的分词结果，确定所述交互文本中每个分词的重音值；其中，所述分词结果中包括对所述交互文本进行分词处理后的多个分词；

第二确定子模块，用于将所述多个分词中重音值大于所述预设阈值的分词，确定为所述交互文本的重音关键词。

如上所示的装置中，所述第一确定子模块具体用于：

如上所示的装置中，所述第一确定子模块根据所述语音数据中每个音节的重音值以及所述交互文本的分词结果，确定所述交互文本中每个分词的重音值，具体包括：

如上所示的装置中，音节的重音类型包括：重音、次重音、中音、次轻音以及轻音，重音对应的重音值>次重音对应的重音值>中音对应的重音值>次轻音对应的重音值>轻音对应的重音值。

如上所示的装置中，所述第二确定子模块具体用于：

第三方面，本发明实施例提供一种交互文本的目标业务定位装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行第一方面所述的任一项方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述第一方面所述的任一项方法的步骤。

本发明实施例提供的交互文本的目标业务定位方法及装置，通过识别用户输入的语音数据，得到用户以语音方式输入的交互文本，基于交互文本的语义理解，确定交互文本的业务定位结果，若交互文本的业务定位结果数量大于1个，基于语音数据的韵律特征，确定交互文本的重音关键词，其中，重音关键词的重音值大于预设阈值，将重音关键词对应的业务定位结果，确定为交互文本的目标业务，实现了在业务定位过程中，当基于语音识别和语义理解确定出大于1个的业务定位结果时，根据语音数据的韵律特征及语义信息确定目标业务，即，在业务定位过程中，同时考虑到了语音数据中的韵律特征和语义信息，语音数据中的韵律特征可以反映用户在该语音数据中重点强调的信息，相较于只根据语义信息进行业务定位的方式，本发明实施例提供的交互文本的目标业务定位方法可以精准地确定出用户的目标业务，从而，提高了业务定位的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的交互文本的目标业务定位方法应用场景的示意图；

图2为本发明实施例提供的交互文本的目标业务定位方法实施例一的流程示意图；

图3为图2所示实施例中的一种用户界面的示意图；

图4为本发明实施例提供的交互文本的目标业务定位方法实施例二的流程示意图；

图5为图4所示实施例中一种示例性的语音特征分析图；

图6为图4所示实施例中一种实现方式的流程示意图；

图7为本发明实施例提供的交互文本的目标业务定位装置实施例一的结构示意图；

图8为本发明实施例提供的交互文本的目标业务定位装置实施例二的结构示意图；

图9为本发明实施例提供的交互文本的目标业务定位装置实施例三的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的交互文本的目标业务定位方法应用场景的示意图。如图1所示，本发明实施例提供的交互文本的目标业务定位方法可以应用于用户10与终端设备11进行语音交互的场景中。一种实现方式中，本发明实施例提供的交互文本的目标业务定位方法的执行主体是终端设备11，在该实现方式中，用户10向终端设备11中输入语音数据，终端设备11在获取到语音数据后，可以对语音数据进行语音识别、语义理解以及业务定位，最终确定出与语音数据对应的用户请求的目标业务。

另一种实现方式中，本发明实施例提供的交互文本的目标业务定位方法的执行主体是服务器12，在该实现方式中，用户10向终端设备11中输入语音数据，终端设备11在获取语音数据后，将该语音数据发送给服务器12。服务器12在获取到终端设备11发送的语音数据后，可以对语音数据进行语音识别、语义理解以及业务定位，最终确定出与语音数据对应的用户请求的目标业务，并将该目标业务的信息发送给终端设备。其中，语音识别过程为将语音数据解码为交互文本，语义理解为提取出交互文本中的业务定位关键词，业务定位过程为根据业务定位关键词确定用户请求的业务。垂直领域的注意力集中在某些特定的领域或某种特定的需求，提供有关这个领域或需求的全部深度信息和相关服务。目前在垂直领域进行业务定位的过程中，根据语音数据多个业务定位关键词可能会确定出多个业务，但无法从该多个业务中精准定位用户请求的业务。本发明实施例提供的交互文本的目标业务定位方法，旨在解决该问题。

本发明实施例提供的交互文本的目标业务定位方法，通过识别用户输入的语音数据，得到用户以语音方式输入的交互文本，基于交互文本的语义理解，确定交互文本的业务定位结果，若交互文本的业务定位结果数量大于1个，基于语音数据的韵律特征，确定交互文本的重音关键词，其中，重音关键词的重音值大于预设阈值，将重音关键词对应的业务定位结果，确定为交互文本的目标业务，实现了在业务定位过程中，当基于语音识别和语义理解确定出大于1个的业务定位结果时，根据语音数据的韵律特征及语义信息确定目标业务，即，在业务定位过程中，同时考虑到了语音数据中的韵律特征和语义信息，语音数据中的韵律特征可以反映用户在该语音数据中重点强调的信息，相较于只根据语义信息进行业务定位的方式，本发明实施例提供的交互文本的目标业务定位方法可以精准地确定出用户的目标业务，从而，提高了业务定位的准确率。

下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的交互文本的目标业务定位方法实施例一的流程示意图。如图2所示，本发明实施例提供的交互文本的目标业务定位方法包括如下步骤：

S201：识别用户输入的语音数据，得到用户以语音方式输入的交互文本。

具体地，当用户需要进行人机交互时，可以通过终端设备的麦克风，输入语音数据。

当本发明实施例提供的交互文本的目标业务定位方法的执行主体为终端设备时，终端设备可以通过麦克风获取用户输入的语音数据。本发明实施例中的终端设备可以是手持设备、车载设备、可穿戴设备、计算设备，以及各种形式的用户设备(User Equipment；简称：UE)，移动台(Mobile Station；简称：MS)及终端(terminal)等。示例性地，本发明实施例的终端设备可以是智能手机、平板电脑以及智能电视等。

当本发明实施例提供的交互文本的目标业务定位方法的执行主体为服务器时，服务器在接收到终端设备发送的语音数据时，确定获取到语音数据。示例性地，本发明实施例中的服务器可以是智能电视的服务器。

本发明实施例中的识别用户输入的语音数据的过程可以将语音数据解码为用户以语音方式输入的交互文本。一种可能的实现过程为：

预处理：对语音数据进行预处理，这里所涉及的预处理为对语音数据进行降噪处理，以提高后续步骤的准确性。

分帧处理：对降噪处理后的语音数据进行分帧处理，将语音数据每隔25毫秒划分为一帧，以便于后续提取语音数据的语音特征。

生成每帧的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents，MFCC)特征：首先，用快速傅里叶变换(Fast Fourier Transformation，FFT)将分帧处理后的时域信号转化成频域信号；之后，对频域信号的对数能量谱用依照梅尔刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换(Discrete CosineTransform，DCT)，取第2个到第13个系数。这些系数构成一个向量，就是MFCC特征。

根据声学模型解码：根据每帧的MFCC特征以及声学模型，获取状态。每三个相邻的状态生成一个音素，多个音素构成一个音节。

查询发音词典转化成文字：查询发音词典，将多个音节转换文字。

语言模型解码：根据语言模型，将多个音节转换成的多个文字的组合中组合概率最高的文字组合确定为语音数据的交互文本，即用户以语音方式输入的交互文本。

S202：基于交互文本的语义理解，确定交互文本的业务定位结果。

具体地，在确定出语音数据的交互文本后，可以根据语义理解处理，对交互文本进行分词，并对每个分词进行标注，获取业务定位关键词，以确定交互文本的业务定位结果。

对交互文本进行分词的过程为将交互文本中，单独的字划分为字的组合，以字的组合表示分词。本发明实施例中可以采用以下算法进行分词：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。

对于每种业务，都定义了不同的描述维度，例如，对于“视频业务”定义了导演、主演、编剧、视频类型、视频名称等描述维度，“音乐业务”定义了演唱者、歌曲名、编曲等描述维度，并且，每种业务的不同描述维度具有不同的权重值。对每个分词进行标注的过程为，确定每个分词属于哪个业务的哪个描述维度，用该描述维度对该分词进行标注。一个分词只用一个描述维度进行标注。例如，将分词“冯小刚”标注为“导演”，将分词“小苹果”标注为“歌曲名”。在对分词进行标注之后，确定业务定位关键词。

一种可能的确定方式为，针对某一业务，若存在用多个描述维度标注的多个分词，则将权重值最大的描述维度标注的分词确定为该业务的业务定位关键词；针对某一业务，只存在用一个描述维度标注的分词，则将该描述维度标注的分词确定为该业务的业务定位关键词。例如，某一交互文本为“冯小刚的喜剧”，将“冯小刚”标注为视频业务中的“导演”描述维度，将“喜剧”标注为视频业务中的“视频类型”描述维度，假设“导演”描述维度的权重值大于“喜剧”描述维度的权重值，则针对该交互文本，将“冯小刚”确定为视频业务的业务定位关键词。

具体地，在确定出业务定位关键词之后，根据各个业务定位关键词确定交互文本的业务定位结果。可选地，可以根据各个业务定位关键词确定各个业务的业务优先级，以确定交互文本的业务定位结果。

一种可能的确定方式为，根据该业务定位关键词对应的描述维度的权重值确定业务优先级。举例来说，某一文本信息为“冯小刚小苹果”，“冯小刚”为视频业务的业务定位关键词，并且，其对应的描述维度为“导演”，该描述维度的权重值为1.2，则可以确定视频业务的业务优先级为1.2，“小苹果”为音乐业务的业务定位关键词，并且，其对应的描述维度为“歌曲名”，该描述维度的权重值为1.2，则可以确定音乐业务的业务优先级为1.2。

另一种可能的确定方式为，业务定位关键词可以包括业务定位主关键词和业务定位辅关键词。在该实现方式中，对于每种业务，都定义了不同的主描述维度、不同的辅描述维度。例如，对于“视频业务”定义了导演、主演、编剧、视频类型、视频名称等主描述维度，还定义了“影片”、“电视剧”等辅描述维度，不同主描述维度的权重值不同，不同辅描述维度的权重值不同。基于此，在对每个分词进行标注时，确定每个分词属于哪个业务的哪个主描述维度或者哪个辅描述维度，用该描述维度对该分词进行标注。一个分词用一个主描述维度或者一个辅描述维度进行标注。在确定业务定位关键词时，每个业务可以确定出一个业务定位主关键词和一个业务定位辅关键词。例如，将分词“冯小刚电影”中的“冯小刚”标注为“导演”，将“电影”标注为“影片”，并将“冯小刚”确定为视频业务的业务定位主关键词，将“电影”确定为视频业务的业务定位辅关键词。在该实现方式中，根据业务定位主关键词对应的主描述维度的权重值和业务定位辅关键词对应的辅描述维度的权重值确定业务定位优先级。例如，将业务定位主关键词对应的主描述维度的权重值与业务定位辅关键词对应的辅描述维度的权重值之和，确定为该业务的业务优先级。

需要说明的是，本发明实施例中的业务定位关键词对应的描述维度是指：用哪个描述维度对业务定位关键词进行标注，则确定哪个描述维度为该业务定位关键词对应的描述维度。本发明实施例中的业务优先级指的是该业务匹配用户需求的目标业务的程度，某个业务的业务优先级越高表示该业务越匹配用户的需求，某个业务的业务优先级越低表示该业务越不匹配用户的需求。

一种实现方式中，可以将业务优先级大于预设优先级阈值的业务确定为交互文本的业务定位结果。在该实现方式中，当大于预设优先级阈值的业务的数量大于1时，确定出的交互文本的业务定位结果数量大于1。

另一种实现方式中，可以将业务优先级最大的业务确定为交互文本的业务定位结果。在该实现方式中，当业务优先级最大的业务的数量大于1时，确定出的交互文本的业务定位结果数量大于1。

S203：若交互文本的业务定位结果数量大于1个，基于语音数据的韵律特征，确定交互文本的重音关键词。

其中，重音关键词的重音值大于预设阈值。

具体地，在确定出多个业务定位结果时，根据目前的方法无法准确确定出用户需求的目标业务。本发明实施例中，考虑到语音数据的韵律特征可以反映用户在该语音数据中重点强调的信息，因此，当确定出多个业务定位结果后，根据语音数据的韵律特征，确定交互文本的重音关键词。可选地，本发明实施例中的语音数据的韵律特征指的是语音数据的重音，即，语音数据中发音的轻重可以反映用户在该语音数据中重点强调的信息。本发明实施例中的重音值是对发音的轻重的定量表示。

在确定交互文本的重音关键词时，可以根据语音数据的韵律特征以及交互文本的分词结果，确定语音数据对应的交互文本中每个分词的重音值；将多个分词中重音值大于所述预设阈值的分词，确定为交互文本的重音关键词。更具体地，可以将多个分词的重音值中最大的重音值对应的分词，确定为所述交互文本的重音关键词。

在确定每个分词的重音值时，可以采用以下几种分类方法：

一种可能的实现方式为，利用隐马尔可夫模型(Hidden Markov Model，HMM)、神经网络法或者朴素的贝叶斯分类算法确定每个分词的重音值。另一种可能的实现方式为，采用预配置的重音识别模型确定每个分词的重音值，该实现方式将在实施例二中进行详细说明。

S204：将重音关键词对应的业务定位结果，确定为交互文本的目标业务。

具体地，在确定出重音关键词后，可以将多个业务定位结果中，重音关键词对应的业务定位结果，确定为交互文本的目标业务。

以下以一个具体的例子说明上述过程。图3为图2所示实施例中的一种用户界面的示意图。如图3中的a图所示，用户通过按下遥控器32上的语音输入按钮33，向智能电视31中输入语音数据“暴力飞车动画片”。智能电视31在获取语音数据后，执行S201和S202，确定出语音数据的交互文本，并根据交互文本确定出两个业务定位结果：视频业务和应用下载业务。其中，应用下载业务的业务定位关键词为“暴力飞车”，视频业务的业务定位关键词为“动画片”。此时，继续执行S203，根据语音数据的韵律特征，确定交互文本的重音关键词。在此过程中，智能电视31的显示屏幕可以显示如图3中的b图所示的信息。假设“暴力飞车”的重音值大于“动画片”的重音值，则确定“暴力飞车”为交互文本的重音关键词。智能电视31执行S204，确定用户的目标业务为下载“暴力飞车”应用。此时，智能电视31的显示屏幕可以显示如图3中c图所示的信息。

图4为本发明实施例提供的交互文本的目标业务定位方法实施例二的流程示意图。本发明实施例在图2所示实施例的基础上，对如何确定每个分词的重音值作详细说明。如图4所示，本发明实施例提供的交互文本的目标业务定位方法包括如下步骤：

S401：识别用户输入的语音数据，得到用户以语音方式输入的交互文本。

S402：基于交互文本的语义理解，确定交互文本的业务定位结果。

S401与S201、S402与S202的技术原理和实现过程类似，此处不再赘述。

S403：若交互文本的业务定位结果数量大于1个，则根据语音数据的韵律特征，确定语音数据中每个音节的重音值。

具体地，本发明实施例中，可以采用预配置的重音识别模型确定语音数据中每个音节的重音值。在S403之前，可以采用训练语音数据训练出重音识别模型。本发明实施中的音节表示的是一个单独的读音，例如，“音”表示一个音节。

可选地，本发明实施例中，音节的重音类型包括：重音、次重音、中音、次轻音以及轻音，重音对应的重音值>次重音对应的重音值>中音对应的重音值>次轻音对应的重音值>轻音对应的重音值。例如，可以定义重音对应的重音值为5，次重音对应的重音值为4，中音对应的重音值为3，次轻音对应的重音值为2，轻音对应的重音值为1。该重音识别模型实质为一个能将音节的重音类型分为5类的分类器。

一种可能的确定重音识别模型的过程为：

筛选出多个发音标准、清晰的普通话语音数据作为训练语音数据；执行第一操作，该第一操作包括：根据初始的重音识别模型以及每个训练语音数据，确定每个训练语音数据中每个音节的重音值，根据每个训练语音数据中每个音节的重音值及预先获取的每个训练语音数据中每个音节的标定重音值，确定多个训练语音数据的损失函数，根据损失函数对初始的重音识别模型进行更新，获取更新后的重音识别模型；将更新后的重音识别模型作为新的初始的重音识别模型，返回执行第一操作，直至根据新的初始的重音识别模型及多个训练语音数据，确定的新的损失函数收敛为止，确定新的损失函数收敛时对应的新的初始重音识别模型为预配置的重音识别模型。在该过程中，将语音数据确定为一个三维向量，采用层级支持向量机训练方法，最终训练出一个支持5分类的重音识别模型。

重音是语音分析中的一种听觉上主观的感官特征，因此，在确定重音值时，需要提取出语音数据中的语音特征。重音在语句中的变化范围非常灵活，其可以跨音节、韵律词、韵律短语等多个层级。音节作为语音感官表达的最小单元，研究其重音变化有利用研究其他层级的重音变化。在根据初始的重音识别模型以及每个训练语音数据，确定每个训练语音数据中每个音节的重音值时，可以是提取出每个训练语音数据中每个音节的音长、平均音调变化率以及平均音高，将每个音节的音长、平均音调变化率以及平均音高作为该训练语音数据的语音特征，根据该训练语音数据的语音特征及初始的重音识别模型，确定每个训练语音数据中，每个音节的重音值。本发明实施例中，音节的音长表示一个音节从开始到结束的时间长度。平均音高表示一个音节中所有采样点的音高的平均值。音调变化率表示某一采样点附近，音调变化量和时间变化量的比值。平均音调变化率表示在一个音节时长中，所有采样点的音调变化率的平均值。

图5为图4所示实施例中一种示例性的语音特征分析图。如图5所示，其为语音数据“西红柿炒鸡蛋怎么做”的语音特征分析图。其中，图5中的a图为对语音数据的脉冲采样信号。b图中，实线51表示每个音节的音调变化趋势，虚线52表示语音的能量。针对每个训练语音数据，均可以根据其脉冲采样信息确定出每个音节的音调变化趋势和语音的能量，再根据每个音节的音调变化趋势和语音的能量可以确定出每个训练语音数据中每个音节的音长、平均音调变化率以及平均音高。例如，可以根据每个音节的语音的能量的持续时间确定出每个音节的音长。

在确定出语音识别模型后，可以根据语音数据以及语音识别模型，确定语音数据中每个音节的重音值。相应地，也可以是先提取出语音数据中每个音节的音长、平均音调变化率以及平均音高，再根据该三维特征以及语音识别模型，确定语音数据中每个音节的重音值。

图6为图4所示实施例中一种实现方式的流程示意图。如图6所示，其示出了语音识别模型的输入为语音数据的中每个音节的音长、平均音调变化率以及平均音高，输出的是每个音节的重音值。

S404：根据语音数据中每个音节的重音值以及交互文本的分词结果，确定交互文本中每个分词的重音值。

其中，每个分词包括至少一个音节。

具体地，在确定出每个音节的重音值后，需要确定每个分词的重音值。每个分词包括至少一个音节，例如，分词“暴力飞车”包括“暴”、“力”、“飞”及“车”共4个音节。

可以根据一个分词的所有音节的重音值在所有分词的所有音节的重音值中的权重，确定该分词的重音值。

一种可能的实现方式为，根据公式确定每个分词的重音值。其中，N表示分词结果中分词的总数量，weight_i表示第i个分词的重音值，M_i表示第i个分词中包括的音节的个数，level_j表示每个分词中第j个音节的重音值，表示第i个分词的所有音节的重音值之和，level_kj表示第k个分词中，第j个音节的重音值，表示分词结果中所有分词的所有音节的重音值的和。根据该实现方式确定出的每个分词的重音值为每个分词中每个音节的平均重音值。

另一种可能的实现方式为，根据公式确定每个分词的重音值。该公式中字母的物理意义与上一实现方式中字母的物理意义相同，此处不再赘述。根据该实现方式确定出的每个分词的重音值为每个分词中所有音节的重音值。

S405：将多个分词中重音值大于预设阈值的分词，确定为交互文本的重音关键词。

具体地，在确定出每个分词的重音值后，将重音值大于预设阈值的分词确定为交互文本的重音关键词。

S406：将重音关键词对应的业务定位结果，确定为交互文本的目标业务。

S406与S204的技术原理和实现过程类似，此处不再赘述。

本发明实施例提供的交互文本的目标业务定位方法，通过识别用户输入的语音数据，得到用户以语音方式输入的交互文本，基于交互文本的语义理解，确定交互文本的业务定位结果，若交互文本的业务定位结果数量大于1个，则根据语音数据的韵律特征，确定语音数据中每个音节的重音值，根据语音数据中每个音节的重音值以及交互文本的分词结果，确定交互文本中每个分词的重音值，将多个分词中重音值大于预设阈值的分词，确定为交互文本的重音关键词，将重音关键词对应的业务定位结果，确定为交互文本的目标业务，实现了在确定重音关键词的过程中，先确定出语音数据中每个音节的重音值，再根据每个音节的重音值确定每个分词的重音值，进而，确定出重音关键词，其实现过程简单高效，确定出的重音关键词的准确率较高，从而，进一步提高了业务定位的准确性。

图7为本发明实施例提供的交互文本的目标业务定位装置实施例一的结构示意图。如图7所示，本发明实施例提供的交互文本的目标业务定位装置包括如下模块：第一确定模块71、第二确定模块72、第三确定模块73及第四确定模块74。

第一确定模块71，用于识别用户输入的语音数据，得到用户以语音方式输入的交互文本。

第二确定模块72，用于基于交互文本的语义理解，确定交互文本的业务定位结果。

第三确定模块73，用于当交互文本的业务定位结果数量大于1个时，基于语音数据的韵律特征，确定交互文本的重音关键词。

其中，重音关键词的重音值大于预设阈值。

第四确定模块74，用于将重音关键词对应的业务定位结果，确定为交互文本的目标业务。

本发明实施例提供的交互文本的目标业务定位装置具体可以用于执行图2所示实施例中的业务定位方法，其实现过程和技术原理类似，此处不再赘述。

本发明实施例提供的交互文本的目标业务定位装置，通过设置第一确定模块，用于识别用户输入的语音数据，得到用户以语音方式输入的交互文本，第二确定模块，用于基于交互文本的语义理解，确定交互文本的业务定位结果，第三确定模块，用于当交互文本的业务定位结果数量大于1个时，基于语音数据的韵律特征，确定交互文本的重音关键词，其中，重音关键词的重音值大于预设阈值，第四确定模块，用于将重音关键词对应的业务定位结果，确定为交互文本的目标业务，实现了在业务定位过程中，当基于语音识别和语义理解确定出大于1个的业务定位结果时，根据语音数据的韵律特征及语义信息确定目标业务，即，在业务定位过程中，同时考虑到了语音数据中的韵律特征和语义信息，语音数据中的韵律特征可以反映用户在该语音数据中重点强调的信息，相较于只根据语义信息进行业务定位的方式，本发明实施例提供的交互文本的目标业务定位装置可以精准地确定出用户的目标业务，从而，提高了业务定位的准确率。

图8为本发明实施例提供的交互文本的目标业务定位装置实施例二的结构示意图。本发明实施例在图7所示实施例的基础上，对第三确定模块73的具体组成方式作详细说明。如图8所示，本发明实施例中的第三确定模块73包括如下子模块：第一确定子模块731及第二确定子模块732。

第一确定子模块731，用于根据语音数据的韵律特征以及交互文本的分词结果，确定交互文本中每个分词的重音值。

其中，分词结果中包括对交互文本进行分词处理后的多个分词。

可选地，第一确定子模块731具体用于：根据语音数据的韵律特征，确定语音数据中每个音节的重音值；根据语音数据中每个音节的重音值以及交互文本的分词结果，确定交互文本中每个分词的重音值。其中，每个分词包括至少一个音节。

本发明实施例中，音节的重音类型包括：重音、次重音、中音、次轻音以及轻音，重音对应的重音值>次重音对应的重音值>中音对应的重音值>次轻音对应的重音值>轻音对应的重音值。

一种实现方式中，第一确定子模块731可以根据公式

确定每个分词的重音值。其中，N表示分词结果中分词的总数量，weight_i表示第i个分词的重音值，M_i表示第i个分词中包括的音节的个数，level_j表示每个分词中第j个音节的重音值，表示第i个分词的所有音节的重音值之和，level_kj表示第k个分词中，第j个音节的重音值，表示分词结果中所有分词的所有音节的重音值的和。

第二确定子模块732，用于将多个分词中重音值大于预设阈值的分词，确定为交互文本的重音关键词。

可选地，第二确定子模块732具体用于：将多个分词的重音值中最大的重音值对应的分词，确定为交互文本的重音关键词。

本发明实施例提供的交互文本的目标业务定位装置，通过设置第一确定子模块具体用于：用于根据语音数据的韵律特征以及交互文本的分词结果，确定交互文本中每个分词的重音值，第二确定子模块，用于将多个分词中重音值大于预设阈值的分词，确定为交互文本的重音关键词，实现了在确定交互文本的重音关键词的过程中，先确定出语音数据中每个音节的重音值，再根据每个音节的重音值确定每个分词的重音值，进而，确定出重音关键词，其实现过程简单高效，确定出的重音关键词的准确率较高，从而，进一步提高了业务定位的准确性。

图9为本发明实施例提供的交互文本的目标业务定位装置实施例三的结构示意图。如图9所示，本发明实施例提供的交互文本的目标业务定位装置包括：处理器91；用于存储处理器91可执行指令的存储器92。

其中，处理器91被配置为执行图2或图4所示实施例中的方法的步骤。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，指令被处理器执行时实现图2或图4所示实施例中的方法的步骤。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种交互文本的目标业务定位方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据的韵律特征，确定所述交互文本的重音关键词，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音数据的韵律特征以及所述交互文本的分词结果，确定所述交互文本中每个分词的重音值，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述语音数据中每个音节的重音值以及所述交互文本的分词结果，确定所述交互文本中每个分词的重音值，包括：

5.根据权利要求3所述的方法，其特征在于，音节的重音类型包括：重音、次重音、中音、次轻音以及轻音，重音对应的重音值>次重音对应的重音值>中音对应的重音值>次轻音对应的重音值>轻音对应的重音值。

6.根据权利要求2所述的方法，其特征在于，所述将所述多个分词中重音值大于所述预设阈值的分词，确定为所述交互文本的重音关键词，包括：

7.一种交互文本的目标业务定位装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第三确定模块具体包括：

9.一种交互文本的目标业务定位装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-6所述的任一项方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述权利要求1-6所述的任一项方法的步骤。