CN113870842B

CN113870842B - 基于权重调节的语音控制方法、装置、设备及介质

Info

Publication number: CN113870842B
Application number: CN202111456854.7A
Authority: CN
Inventors: 蒋志燕; 陈诚; 吕少岭; 廖晨
Original assignee: Shenzhen Raisound Technology Co ltd
Current assignee: Shenzhen Raisound Technology Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-15
Anticipated expiration: 2041-12-02
Also published as: CN113870842A

Abstract

本申请涉及一种基于权重调节的语音控制方法，包括：获取控制语音对应的语音文本；根据语音文本构建操作意图矩阵，分别计算操作意图矩阵与多种预设的操作意图之间的多个第一匹配值；获取用户的历史控制行为数据，根据历史控制行为数据统计用户对多种预设的操作意图中每种操作意图的偏好权重；根据偏好权重对多个第一匹配值进行权重调整，得到多个第二匹配值；输出第二匹配值大于预设阈值的操作意图以供用户选择，获取用户从输出的操作意图中选取的目标操作意图，并执行目标操作意图。此外，本申请还涉及一种基于权重调节的语音控制装置、设备及介质。本申请可解决用户进行语音控制时无法精准识别出用户的操作意图的问题。

Description

基于权重调节的语音控制方法、装置、设备及介质

技术领域

本申请涉及文本处理领域，尤其涉及一种基于权重调节的语音控制方法、装置、电子设备及计算机可读存储介质。

背景技术

近年来，随着人工智能技术的不断发展，高精度的人机交互日益受到研究者的重视，尤其对智能设备及系统的语音控制越来越常见，它不仅要求计算机根据用户语音的内容理解用户语音的情感和含义，而且需要对不同用户、不同环境、不同任务给予不同的反馈和支持，这就需要计算机理更加精确地对用户的意图进行识别。

现阶段的语音控制多为根据用户语音的内容匹配关键操作字段，以根据用户所说的操作字段执行相应操作。但由于不同用户对不同操作意图的表述方式之间存在一定的差异性，直接对所述语音文本的内容分析，难以从该语音的内容中精确地找出用户的操作意图。

发明内容

本申请提供了一种基于权重调节的语音控制方法、装置及存储介质，以解决用户进行语音控制时无法精准识别出用户的操作意图的问题。

第一方面，本申请提供了一种基于权重调节的语音控制方法，所述方法包括：

当接收到用户的控制语音时，获取所述控制语音对应的语音文本；

根据所述语音文本构建所述控制语音的操作意图矩阵，分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值；

获取所述用户的历史控制行为数据，根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重；

根据所述偏好权重对多个所述第一匹配值进行权重调整，得到多个第二匹配值；

输出所述第二匹配值大于预设阈值的操作意图以供用户选择，获取所述用户从输出的操作意图中选取的目标操作意图，并执行所述目标操作意图。

详细地，所述获取所述控制语音对应的语音文本，包括：

将所述控制语音转换为音频频谱，并按照预设时间间隔将所述音频频谱拆分为多个音频帧；

对所述音频帧进行音素识别，得到每个音频帧对应的音素；

从预先获取的音素表中查询每个音素对应的字词，并按照每个音频帧在所述音频频谱中的先后顺序将所述字词进行拼接，得到所述控制语音对应的语音文本。

详细地，所述根据所述语音文本构建所述控制语音的操作意图矩阵，包括：

对所述语音文本进行分词处理，得到文本分词；

分别计算每一个所述文本分词与多个预设的操作词条的相似度，并选取所述相似度大于预设相似阈值的文本分词为操作意图分词；

利用所述操作意图分词构建所述操作意图矩阵。

详细地，所述根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重，包括：

统计所述多种预设的操作意图中所有操作意图在所述历史控制行为数据内的出现总次数；

统计所述多种预设的操作意图中每一种操作意图在所述历史控制行为数据内的单意图出现次数；

逐个从所述多种预设的操作意图中选取其中一个操作意图为目标意图；

计算所述目标意图的单意图出现次数在所述出现总次数中的占比权重，确定所述占比权重为所述用户对所述目标意图的偏好权重。

详细地，所述分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值，包括：

利用如下匹配算法分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值：

其中，

为所述操作意图矩阵与第

个操作意图之间的第一匹配值，

为所述操作意图矩阵，

为第

个操作意图。

详细地，所述根据所述偏好权重对多个所述第一匹配值进行权重调整，得到多个第二匹配值，包括：

逐个从所述多种预设的操作意图中选取其中一个操作意图为待调整意图；

计算所述待调整意图对应的第一匹配值与所述待调整意图对应的偏好权重的乘积，并确定所述乘积为所述待调整意图的第二匹配值。

详细地，所述输出所述第二匹配值大于预设阈值的操作意图以供用户选择，包括：

选取所述第二匹配值大于预设阈值的操作意图为待展示意图；

将所述待展示意图按照所述第二匹配值从大到小的顺序向所述用户进行展示以供用户选择。

第二方面，本申请提供了一种基于权重调节的语音控制装置，所述装置包括：

文本识别模块，用于当接收到用户的控制语音时，获取所述控制语音对应的语音文本；

第一匹配模块，用于根据所述语音文本构建所述控制语音的操作意图矩阵，分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值；

权重分析模块，用于获取所述用户的历史控制行为数据，根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重；

第二匹配模块，用于根据所述偏好权重对多个所述第一匹配值进行权重调整，得到多个第二匹配值；

操作执行模块，用于输出所述第二匹配值大于预设阈值的操作意图以供用户选择，获取所述用户从输出的操作意图中选取的目标操作意图，并执行所述目标操作意图。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的基于权重调节的语音控制方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的基于权重调节的语音控制方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，可通过对用户语音的内容进行识别，以根据语音内容分析得到用户对多种预设的操作意图的第一匹配值，同时，根据用户的历史控制行为数据分析得到用户对多种预设的操作意图的偏好权重，并利用该偏好权重对第一匹配值进行修正，实现了用户语音与历史控制行为数据的结合分析，进而根据修正后得到的第二匹配值向用户展示可选操作意图，并执行被用户选取的操作意图，实现了对操作用户操作意图的精确执行。可解决用户进行语音控制时无法精准识别出用户的操作意图的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于权重调节的语音控制方法的流程示意图；

图2为本申请实施例提供的获取控制语音对应的语音文本的流程示意图；

图3为本申请实施例提供的统计用户对多种预设的操作意图中每种操作意图的偏好权重的流程示意图；

图4为本申请实施例提供的一种语音控制的装置的模块示意图；

图5为本申请实施例提供的一种实现基于权重调节的语音控制方法的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种基于权重调节的语音控制方法的流程示意图。在本实施例中，所述基于权重调节的语音控制方法包括：

S1、当接收到用户的控制语音时，获取所述控制语音对应的语音文本。

本申请其中一个实际应用场景中，所述控制语音为通过预设的客户端设备（手机、麦克风、录音机等）捕获到的用户音频。

本申请实施例中，可通过ASR（Automatic Speech Recognition，自动语音识别）技术对所述控制语音进行内容识别，得到所述控制语音对应的语音文本。

本发明实施例中，参图2所示，所述获取所述控制语音对应的语音文本，包括：

S21、将所述控制语音转换为音频频谱，并按照预设时间间隔将所述音频频谱拆分为多个音频帧；

S22、对所述音频帧进行音素识别，得到每个音频帧对应的音素；

S23、从预先获取的音素表中查询每个音素对应的字词，并按照每个音频帧在所述音频频谱中的先后顺序将所述字词进行拼接，得到所述控制语音对应的语音文本。

详细地，可利用预设的频谱仪将所述控制语音转换为音频频谱，所述音频频谱可利用波形形式对所述控制语音进行展示，以便于后续的分析。

具体地，可利用预先训练的音素识别模型对所述音频帧进行音素识别，得到每个音频帧对应的音素，所述音素识别模型包括但不限于隐马尔科夫模型、高斯混合模型，所述音素是指根据语音的自然属性划分出来的最小语音单位，可用于对语音音节中的发音动作进行表示。

进一步地，所述音素表中包含多个音素，以及每个音素对应的字词。

本申请其他实施例中，还可采用声学模型对所述控制语音进行语音识别，得到语音文本，所述声学模型通过对每个字进行发声的建模，以建立包含多个字，及每个字对应的标准发声的数据库，通过对所述控制语音中每个时刻下用户发声的采集，以获取每个时刻下用户的发声，进而将该发声与预先构建的包含多个字，及每个字对应的标准发声的数据库中的字进行概率匹配，以此实现对控制语音进行语音识别，得到语音文本。

S2、根据所述语音文本构建所述控制语音的操作意图矩阵，分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值。

本申请实施例中，由于所述语音文本中可能包含大量内容，但并非所有内容均为该用户需要执行的操作，因此，可对所述语音文本进行分析，以根据所述语音文本构建所述控制语音的操作意图矩阵，其中，所述操作意图矩阵内包含所述语音文本中用于执行特定操作的内容。

本申请实施例中，先从所述语音文本的内容中筛选出表示用户的操作意图的内容，进而根据筛选出的内容构建所述控制语音的操作意图矩阵，相比于直接从语音文本的内容中查找用户的操作意图，能够提高分析用户操作意图的精确度。

本申请实施例中，所述根据所述语音文本构建所述控制语音的操作意图矩阵，包括：

对所述语音文本进行分词处理，得到文本分词；

利用所述操作意图分词构建所述操作意图矩阵。

本申请实施例中，将所述语音文本拆分为文本分词，以单独对每个文本分词进行分析处理，能够减少分析时计算的占用，提升分析效率。

具体地，将所述语音文本按照不同的长度在预设的标准词典中进行检索，并将可在所述标准词典中检索到的内容汇集为文本分词，其中，所述标准词典中包含多个标准分词。

本申请实施例中，可利用欧式距离算法、余弦距离算法等具有相似度计算功能的算法分别计算每一个所述文本分词与多个预设的操作词条的相似度，从而选取所述相似度大于预设相似阈值的文本分词为操作意图分词，根据所述相似度筛选出所述文本分词中可能用于表示操作意图的分词，实现了对文本分词的模糊筛选，避免由于用户表述的差异性导致筛选时遗漏文本分词中用于表示操作意图的分词的情况，有利于提升筛选出的操作意图分词的精确度。

进一步地，为了便于后续对筛选出的操作意图分词的分析，可将所述操作意图分词转换为词向量。

详细地，可从预设的字向量表中查询所述操作意图分词中每个字的字向量，并按照所述操作意图分词中每一个字的顺序将所述字向量拼接为所述操作意图分词的词向量，其中，所述字向量表中包含多个字，以及每个字对应的字向量，可通过将所述操作意图分词的每一个字在所述字向量表中进行检索，得到每一个字对应的字向量，并按照每一个字在所述操作意图分词中的顺序，将所述字向量拼接为所述操作意图分词的词向量，其中，所述字向量表与所述标准词典类似，为预先构建的，包含多个单字对应的字向量的数据表。

例如，所述操作意图分词包括“青少年”三个字，分别将三个字在所述字向量表中进行查询，得到“青”字对应的字向量为

，“少”字对应的字向量为

，“年”字对应的字向量为

，则可按照该三个字在所述操作意图分词“青少年”中的顺序，将三个字向量拼接为所述文本分词的词向量：

。

本申请其他实施例中，还可采用word2vec模型、NLP（Natural LanguageProcessing，自然语言处理）模型、bert模型等具有词向量转换功能的模型分别将所述操作意图分词转换为词向量。

本申请实施例中，利用所述操作意图分词构建所述操作意图矩阵，包括：

将所述操作意图分词转换为词向量；

将所述词向量写入预先构建的空白矩阵，得到所述操作意图矩阵。

具体地，所述空白矩阵即元素全部为0的矩阵，可通过R语言库中的B=zeros(m,n)函数创建m行n列的空白矩阵。

本申请实施例中，可将所述词向量逐个以行向量的形式填入所述空白矩阵，得到包含所述词向量的操作意图矩阵。

进一步地，由于所述操作意图矩阵内包含了多个用于可能表示所述用户的操作意图的词向量，因此，可利用所述操作意图矩阵对用户的操作意图进行分析。

本申请实施例中，所述分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值，包括：

其中，

为所述操作意图矩阵与第

个操作意图之间的第一匹配值，

为所述操作意图矩阵，

为第

个操作意图。

S3、获取所述用户的历史控制行为数据，根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重。

本申请实施例中，所述用户的历史控制行为数据是指所述用户在过往时间内执行的每一个操作意图的时间、次数等数据；可从用户执行不同操作意图的系统日志中获取所述历史控制行为数据。

本申请其中一个实际应用场景中，由于用户的行为存在一定的习惯关联性，即每个用户在表达操作意图时，往往偏向于表达习惯性的操作，例如，购物系统中，用户在表达对产品的购买意图时，往往会选择曾经多次购买的产品，因此，通过对所述历史控制行为数据中所述用户对不同预设的操作意图的执行次数进行统计，进而根据该次数确定所述用户对所述多种预设的操作意图中每种操作意图的偏好权重，可利用历史数据的样本多样性，提升计算出的所述偏好权重的精确度。

本申请实施例中，参图3所示，所述根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重，包括：

S31、统计所述多种预设的操作意图中所有操作意图在所述历史控制行为数据内的出现总次数；

S32、统计所述多种预设的操作意图中每一种操作意图在所述历史控制行为数据内的单意图出现次数；

S33、逐个从所述多种预设的操作意图中选取其中一个操作意图为目标意图；

S34、计算所述目标意图的单意图出现次数在所述出现总次数中的占比权重，确定所述占比权重为所述用户对所述目标意图的偏好权重。

详细地，所述计算所述目标意图的单意图出现次数在所述出现总次数中的占比权重，包括：

利用如下权重算法计算所述目标意图的单意图出现次数在所述出现总次数中的占比权重：

其中，

为所述占比权重，

为所述出现总次数，

为所述目标意图的单意图出现次数。

例如，所述多种操作意图内包括A意图和B意图，经统计可知，A意图和B意图在所述历史控制行为数据内的出现总次数为20，其中，A意图在所述历史控制行为数据内的单意图出现次数为15，B意图在所述历史控制行为数据内的单意图出现次数为5，则可计算得出，A意图的单意图出现次数在所述出现总次数中的占比权重为15/20=0.75，B意图的单意图出现次数在所述出现总次数中的占比权重为5/20=0.25，则确定A意图的偏好权重为0.75，B意图的偏好权重为0.25。

S4、根据所述偏好权重对多个所述第一匹配值进行权重调整，得到多个第二匹配值。

本申请其中一个实际应用场景中，仅依据所述用户的控制语音进行分析而得到的第一匹配值，可能由于用户语音的清晰度、根据所述控制语音生成的操作意图矩阵的精确度等多方因素的影响，而导致计算得出的第一匹配值无法精确表示该用户语音想要表达的操作意图，因此，可根据所述偏好权重对多个所述第一匹配值进行权重调整，得到多个第二匹配值，进而实现对多个第一匹配值的调整，进而提升对用户语音进行意图分析的精确度。

本申请实施例中，所述根据所述偏好权重对多个所述第一匹配值进行权重调整，得到多个第二匹配值，包括：

例如，所述多种操作意图内包括A意图和B意图，其中，A意图的偏好权重为0.75，B意图的偏好权重为0.25，意图A对应的第一匹配值为10，意图B对应的第一匹配值为20；选取A意图为待调整意图，则计算意图A对应的第一匹配值与偏好权重的乘积为0.75*10=7.5，选取B意图为待调整意图，则计算意图B对应的第一匹配值与偏好权重的乘积为0.25*10=5，进而调整意图A对应的第二匹配值为7.5，调整意图B对应的第二匹配值为5。

本申请实施例中，利用偏好权重对第一匹配值进行权重调整，实现了用户语音与历史控制行为数据的结合分析，有利于提升计算得到的第二匹配值的精确度。

S5、输出所述第二匹配值大于预设阈值的操作意图以供用户选择，获取所述用户从输出的操作意图中选取的目标操作意图，并执行所述目标操作意图。

本申请实施例中，所述第二匹配值可用于标识用户对每一种不同的操作意图的意向度，即用户执行每一种不同操作意图的可能性，因此，可选取所述第二匹配值大于预设阈值的操作意图，将选取的操作意图展示给所述用户。

本申请实施例中，所述输出所述第二匹配值大于预设阈值的操作意图以供用户选择，包括：

进一步地，可获取所述用户从所述展示结果内选取的操作意图，进而执行该被选取的操作意图，以实现对用户意图的精准执行。

如图4所示，本申请实施例提供了一种基于权重调节的语音控制装置10的模块示意图，所述基于权重调节的语音控制装置10，包括：文本识别模块11、第一匹配模块12、权重分析模块13、第二匹配模块14和操作执行模块15。

所述文本识别模块101，用于当接收到用户的控制语音时，获取所述控制语音对应的语音文本；

所述第一匹配模块102，用于根据所述语音文本构建所述控制语音的操作意图矩阵，分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值；

所述权重分析模块103，用于获取所述用户的历史控制行为数据，根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重；

所述第二匹配模块104，用于根据所述偏好权重对多个所述第一匹配值进行权重调整，得到多个第二匹配值；

所述操作执行模块105，用于输出所述第二匹配值大于预设阈值的操作意图以供用户选择，获取所述用户从输出的操作意图中选取的目标操作意图，并执行所述目标操作意图。

详细地，本申请实施例中所述基于权重调节的语音控制装置10中所述的各模块在使用时采用与上述图1至图3中所述的基于权重调节的语音控制方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图5所示，本申请实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111、通信接口112、存储器113通过通信总线114完成相互间的通信。

存储器113，用于存放计算机程序。

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的基于权重调节的语音控制方法，包括：

上述通信总线114可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线114可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口112用于上述电子设备与其他设备之间的通信。

存储器113可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器113还可以是至少一个位于远离前述处理器111的存储装置。

上述的处理器111可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的基于权重调节的语音控制方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。