CN113870842B - 基于权重调节的语音控制方法、装置、设备及介质 - Google Patents

基于权重调节的语音控制方法、装置、设备及介质 Download PDF

Info

Publication number
CN113870842B
CN113870842B CN202111456854.7A CN202111456854A CN113870842B CN 113870842 B CN113870842 B CN 113870842B CN 202111456854 A CN202111456854 A CN 202111456854A CN 113870842 B CN113870842 B CN 113870842B
Authority
CN
China
Prior art keywords
intention
user
voice
weight
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111456854.7A
Other languages
English (en)
Other versions
CN113870842A (zh
Inventor
蒋志燕
陈诚
吕少岭
廖晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Raisound Technology Co ltd
Original Assignee
Shenzhen Raisound Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Raisound Technology Co ltd filed Critical Shenzhen Raisound Technology Co ltd
Priority to CN202111456854.7A priority Critical patent/CN113870842B/zh
Publication of CN113870842A publication Critical patent/CN113870842A/zh
Application granted granted Critical
Publication of CN113870842B publication Critical patent/CN113870842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及一种基于权重调节的语音控制方法,包括:获取控制语音对应的语音文本;根据语音文本构建操作意图矩阵,分别计算操作意图矩阵与多种预设的操作意图之间的多个第一匹配值;获取用户的历史控制行为数据,根据历史控制行为数据统计用户对多种预设的操作意图中每种操作意图的偏好权重;根据偏好权重对多个第一匹配值进行权重调整,得到多个第二匹配值;输出第二匹配值大于预设阈值的操作意图以供用户选择,获取用户从输出的操作意图中选取的目标操作意图,并执行目标操作意图。此外,本申请还涉及一种基于权重调节的语音控制装置、设备及介质。本申请可解决用户进行语音控制时无法精准识别出用户的操作意图的问题。

Description

基于权重调节的语音控制方法、装置、设备及介质
技术领域
本申请涉及文本处理领域,尤其涉及一种基于权重调节的语音控制方法、装置、电子设备及计算机可读存储介质。
背景技术
近年来,随着人工智能技术的不断发展,高精度的人机交互日益受到研究者的重视,尤其对智能设备及系统的语音控制越来越常见,它不仅要求计算机根据用户语音的内容理解用户语音的情感和含义,而且需要对不同用户、不同环境、不同任务给予不同的反馈和支持,这就需要计算机理更加精确地对用户的意图进行识别。
现阶段的语音控制多为根据用户语音的内容匹配关键操作字段,以根据用户所说的操作字段执行相应操作。但由于不同用户对不同操作意图的表述方式之间存在一定的差异性,直接对所述语音文本的内容分析,难以从该语音的内容中精确地找出用户的操作意图。
发明内容
本申请提供了一种基于权重调节的语音控制方法、装置及存储介质,以解决用户进行语音控制时无法精准识别出用户的操作意图的问题。
第一方面,本申请提供了一种基于权重调节的语音控制方法,所述方法包括:
当接收到用户的控制语音时,获取所述控制语音对应的语音文本;
根据所述语音文本构建所述控制语音的操作意图矩阵,分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值;
获取所述用户的历史控制行为数据,根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重;
根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值;
输出所述第二匹配值大于预设阈值的操作意图以供用户选择,获取所述用户从输出的操作意图中选取的目标操作意图,并执行所述目标操作意图。
详细地,所述获取所述控制语音对应的语音文本,包括:
将所述控制语音转换为音频频谱,并按照预设时间间隔将所述音频频谱拆分为多个音频帧;
对所述音频帧进行音素识别,得到每个音频帧对应的音素;
从预先获取的音素表中查询每个音素对应的字词,并按照每个音频帧在所述音频频谱中的先后顺序将所述字词进行拼接,得到所述控制语音对应的语音文本。
详细地,所述根据所述语音文本构建所述控制语音的操作意图矩阵,包括:
对所述语音文本进行分词处理,得到文本分词;
分别计算每一个所述文本分词与多个预设的操作词条的相似度,并选取所述相似度大于预设相似阈值的文本分词为操作意图分词;
利用所述操作意图分词构建所述操作意图矩阵。
详细地,所述根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重,包括:
统计所述多种预设的操作意图中所有操作意图在所述历史控制行为数据内的出现总次数;
统计所述多种预设的操作意图中每一种操作意图在所述历史控制行为数据内的单意图出现次数;
逐个从所述多种预设的操作意图中选取其中一个操作意图为目标意图;
计算所述目标意图的单意图出现次数在所述出现总次数中的占比权重,确定所述占比权重为所述用户对所述目标意图的偏好权重。
详细地,所述分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值,包括:
利用如下匹配算法分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值:
Figure 377756DEST_PATH_IMAGE001
其中,
Figure 788009DEST_PATH_IMAGE002
为所述操作意图矩阵与第
Figure DEST_PATH_IMAGE003
个操作意图之间的第一匹配值,
Figure 839141DEST_PATH_IMAGE004
为所述操作意图矩阵,
Figure DEST_PATH_IMAGE005
为第
Figure 200590DEST_PATH_IMAGE003
个操作意图。
详细地,所述根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值,包括:
逐个从所述多种预设的操作意图中选取其中一个操作意图为待调整意图;
计算所述待调整意图对应的第一匹配值与所述待调整意图对应的偏好权重的乘积,并确定所述乘积为所述待调整意图的第二匹配值。
详细地,所述输出所述第二匹配值大于预设阈值的操作意图以供用户选择,包括:
选取所述第二匹配值大于预设阈值的操作意图为待展示意图;
将所述待展示意图按照所述第二匹配值从大到小的顺序向所述用户进行展示以供用户选择。
第二方面,本申请提供了一种基于权重调节的语音控制装置,所述装置包括:
文本识别模块,用于当接收到用户的控制语音时,获取所述控制语音对应的语音文本;
第一匹配模块,用于根据所述语音文本构建所述控制语音的操作意图矩阵,分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值;
权重分析模块,用于获取所述用户的历史控制行为数据,根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重;
第二匹配模块,用于根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值;
操作执行模块,用于输出所述第二匹配值大于预设阈值的操作意图以供用户选择,获取所述用户从输出的操作意图中选取的目标操作意图,并执行所述目标操作意图。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的基于权重调节的语音控制方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的基于权重调节的语音控制方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,可通过对用户语音的内容进行识别,以根据语音内容分析得到用户对多种预设的操作意图的第一匹配值,同时,根据用户的历史控制行为数据分析得到用户对多种预设的操作意图的偏好权重,并利用该偏好权重对第一匹配值进行修正,实现了用户语音与历史控制行为数据的结合分析,进而根据修正后得到的第二匹配值向用户展示可选操作意图,并执行被用户选取的操作意图,实现了对操作用户操作意图的精确执行。可解决用户进行语音控制时无法精准识别出用户的操作意图的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于权重调节的语音控制方法的流程示意图;
图2为本申请实施例提供的获取控制语音对应的语音文本的流程示意图;
图3为本申请实施例提供的统计用户对多种预设的操作意图中每种操作意图的偏好权重的流程示意图;
图4为本申请实施例提供的一种语音控制的装置的模块示意图;
图5为本申请实施例提供的一种实现基于权重调节的语音控制方法的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种基于权重调节的语音控制方法的流程示意图。在本实施例中,所述基于权重调节的语音控制方法包括:
S1、当接收到用户的控制语音时,获取所述控制语音对应的语音文本。
本申请其中一个实际应用场景中,所述控制语音为通过预设的客户端设备(手机、麦克风、录音机等)捕获到的用户音频。
本申请实施例中,可通过ASR(Automatic Speech Recognition,自动语音识别)技术对所述控制语音进行内容识别,得到所述控制语音对应的语音文本。
本发明实施例中,参图2所示,所述获取所述控制语音对应的语音文本,包括:
S21、将所述控制语音转换为音频频谱,并按照预设时间间隔将所述音频频谱拆分为多个音频帧;
S22、对所述音频帧进行音素识别,得到每个音频帧对应的音素;
S23、从预先获取的音素表中查询每个音素对应的字词,并按照每个音频帧在所述音频频谱中的先后顺序将所述字词进行拼接,得到所述控制语音对应的语音文本。
详细地,可利用预设的频谱仪将所述控制语音转换为音频频谱,所述音频频谱可利用波形形式对所述控制语音进行展示,以便于后续的分析。
具体地,可利用预先训练的音素识别模型对所述音频帧进行音素识别,得到每个音频帧对应的音素,所述音素识别模型包括但不限于隐马尔科夫模型、高斯混合模型,所述音素是指根据语音的自然属性划分出来的最小语音单位,可用于对语音音节中的发音动作进行表示。
进一步地,所述音素表中包含多个音素,以及每个音素对应的字词。
本申请其他实施例中,还可采用声学模型对所述控制语音进行语音识别,得到语音文本,所述声学模型通过对每个字进行发声的建模,以建立包含多个字,及每个字对应的标准发声的数据库,通过对所述控制语音中每个时刻下用户发声的采集,以获取每个时刻下用户的发声,进而将该发声与预先构建的包含多个字,及每个字对应的标准发声的数据库中的字进行概率匹配,以此实现对控制语音进行语音识别,得到语音文本。
S2、根据所述语音文本构建所述控制语音的操作意图矩阵,分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值。
本申请实施例中,由于所述语音文本中可能包含大量内容,但并非所有内容均为该用户需要执行的操作,因此,可对所述语音文本进行分析,以根据所述语音文本构建所述控制语音的操作意图矩阵,其中,所述操作意图矩阵内包含所述语音文本中用于执行特定操作的内容。
本申请实施例中,先从所述语音文本的内容中筛选出表示用户的操作意图的内容,进而根据筛选出的内容构建所述控制语音的操作意图矩阵,相比于直接从语音文本的内容中查找用户的操作意图,能够提高分析用户操作意图的精确度。
本申请实施例中,所述根据所述语音文本构建所述控制语音的操作意图矩阵,包括:
对所述语音文本进行分词处理,得到文本分词;
分别计算每一个所述文本分词与多个预设的操作词条的相似度,并选取所述相似度大于预设相似阈值的文本分词为操作意图分词;
利用所述操作意图分词构建所述操作意图矩阵。
本申请实施例中,将所述语音文本拆分为文本分词,以单独对每个文本分词进行分析处理,能够减少分析时计算的占用,提升分析效率。
具体地,将所述语音文本按照不同的长度在预设的标准词典中进行检索,并将可在所述标准词典中检索到的内容汇集为文本分词,其中,所述标准词典中包含多个标准分词。
本申请实施例中,可利用欧式距离算法、余弦距离算法等具有相似度计算功能的算法分别计算每一个所述文本分词与多个预设的操作词条的相似度,从而选取所述相似度大于预设相似阈值的文本分词为操作意图分词,根据所述相似度筛选出所述文本分词中可能用于表示操作意图的分词,实现了对文本分词的模糊筛选,避免由于用户表述的差异性导致筛选时遗漏文本分词中用于表示操作意图的分词的情况,有利于提升筛选出的操作意图分词的精确度。
进一步地,为了便于后续对筛选出的操作意图分词的分析,可将所述操作意图分词转换为词向量。
详细地,可从预设的字向量表中查询所述操作意图分词中每个字的字向量,并按照所述操作意图分词中每一个字的顺序将所述字向量拼接为所述操作意图分词的词向量,其中,所述字向量表中包含多个字,以及每个字对应的字向量,可通过将所述操作意图分词的每一个字在所述字向量表中进行检索,得到每一个字对应的字向量,并按照每一个字在所述操作意图分词中的顺序,将所述字向量拼接为所述操作意图分词的词向量,其中,所述字向量表与所述标准词典类似,为预先构建的,包含多个单字对应的字向量的数据表。
例如,所述操作意图分词包括“青少年”三个字,分别将三个字在所述字向量表中进行查询,得到“青”字对应的字向量为
Figure 300264DEST_PATH_IMAGE006
,“少”字对应的字向量为
Figure DEST_PATH_IMAGE007
,“年”字对应的字向量为
Figure 299444DEST_PATH_IMAGE008
,则可按照该三个字在所述操作意图分词“青少年”中的顺序,将三个字向量拼接为所述文本分词的词向量:
Figure 583795DEST_PATH_IMAGE009
本申请其他实施例中,还可采用word2vec模型、NLP(Natural LanguageProcessing,自然语言处理)模型、bert模型等具有词向量转换功能的模型分别将所述操作意图分词转换为词向量。
本申请实施例中,利用所述操作意图分词构建所述操作意图矩阵,包括:
将所述操作意图分词转换为词向量;
将所述词向量写入预先构建的空白矩阵,得到所述操作意图矩阵。
具体地,所述空白矩阵即元素全部为0的矩阵,可通过R语言库中的B=zeros(m,n)函数创建m行n列的空白矩阵。
本申请实施例中,可将所述词向量逐个以行向量的形式填入所述空白矩阵,得到包含所述词向量的操作意图矩阵。
进一步地,由于所述操作意图矩阵内包含了多个用于可能表示所述用户的操作意图的词向量,因此,可利用所述操作意图矩阵对用户的操作意图进行分析。
本申请实施例中,所述分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值,包括:
利用如下匹配算法分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值:
Figure 435470DEST_PATH_IMAGE001
其中,
Figure 463469DEST_PATH_IMAGE002
为所述操作意图矩阵与第
Figure 582735DEST_PATH_IMAGE003
个操作意图之间的第一匹配值,
Figure 772407DEST_PATH_IMAGE004
为所述操作意图矩阵,
Figure 609913DEST_PATH_IMAGE005
为第
Figure 176024DEST_PATH_IMAGE003
个操作意图。
S3、获取所述用户的历史控制行为数据,根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重。
本申请实施例中,所述用户的历史控制行为数据是指所述用户在过往时间内执行的每一个操作意图的时间、次数等数据;可从用户执行不同操作意图的系统日志中获取所述历史控制行为数据。
本申请其中一个实际应用场景中,由于用户的行为存在一定的习惯关联性,即每个用户在表达操作意图时,往往偏向于表达习惯性的操作,例如,购物系统中,用户在表达对产品的购买意图时,往往会选择曾经多次购买的产品,因此,通过对所述历史控制行为数据中所述用户对不同预设的操作意图的执行次数进行统计,进而根据该次数确定所述用户对所述多种预设的操作意图中每种操作意图的偏好权重,可利用历史数据的样本多样性,提升计算出的所述偏好权重的精确度。
本申请实施例中,参图3所示,所述根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重,包括:
S31、统计所述多种预设的操作意图中所有操作意图在所述历史控制行为数据内的出现总次数;
S32、统计所述多种预设的操作意图中每一种操作意图在所述历史控制行为数据内的单意图出现次数;
S33、逐个从所述多种预设的操作意图中选取其中一个操作意图为目标意图;
S34、计算所述目标意图的单意图出现次数在所述出现总次数中的占比权重,确定所述占比权重为所述用户对所述目标意图的偏好权重。
详细地,所述计算所述目标意图的单意图出现次数在所述出现总次数中的占比权重,包括:
利用如下权重算法计算所述目标意图的单意图出现次数在所述出现总次数中的占比权重:
Figure 415375DEST_PATH_IMAGE010
其中,
Figure 775950DEST_PATH_IMAGE011
为所述占比权重,
Figure 599287DEST_PATH_IMAGE012
为所述出现总次数,
Figure 969088DEST_PATH_IMAGE013
为所述目标意图的单意图出现次数。
例如,所述多种操作意图内包括A意图和B意图,经统计可知,A意图和B意图在所述历史控制行为数据内的出现总次数为20,其中,A意图在所述历史控制行为数据内的单意图出现次数为15,B意图在所述历史控制行为数据内的单意图出现次数为5,则可计算得出,A意图的单意图出现次数在所述出现总次数中的占比权重为15/20=0.75,B意图的单意图出现次数在所述出现总次数中的占比权重为5/20=0.25,则确定A意图的偏好权重为0.75,B意图的偏好权重为0.25。
S4、根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值。
本申请其中一个实际应用场景中,仅依据所述用户的控制语音进行分析而得到的第一匹配值,可能由于用户语音的清晰度、根据所述控制语音生成的操作意图矩阵的精确度等多方因素的影响,而导致计算得出的第一匹配值无法精确表示该用户语音想要表达的操作意图,因此,可根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值,进而实现对多个第一匹配值的调整,进而提升对用户语音进行意图分析的精确度。
本申请实施例中,所述根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值,包括:
逐个从所述多种预设的操作意图中选取其中一个操作意图为待调整意图;
计算所述待调整意图对应的第一匹配值与所述待调整意图对应的偏好权重的乘积,并确定所述乘积为所述待调整意图的第二匹配值。
例如,所述多种操作意图内包括A意图和B意图,其中,A意图的偏好权重为0.75,B意图的偏好权重为0.25,意图A对应的第一匹配值为10,意图B对应的第一匹配值为20;选取A意图为待调整意图,则计算意图A对应的第一匹配值与偏好权重的乘积为0.75*10=7.5,选取B意图为待调整意图,则计算意图B对应的第一匹配值与偏好权重的乘积为0.25*10=5,进而调整意图A对应的第二匹配值为7.5,调整意图B对应的第二匹配值为5。
本申请实施例中,利用偏好权重对第一匹配值进行权重调整,实现了用户语音与历史控制行为数据的结合分析,有利于提升计算得到的第二匹配值的精确度。
S5、输出所述第二匹配值大于预设阈值的操作意图以供用户选择,获取所述用户从输出的操作意图中选取的目标操作意图,并执行所述目标操作意图。
本申请实施例中,所述第二匹配值可用于标识用户对每一种不同的操作意图的意向度,即用户执行每一种不同操作意图的可能性,因此,可选取所述第二匹配值大于预设阈值的操作意图,将选取的操作意图展示给所述用户。
本申请实施例中,所述输出所述第二匹配值大于预设阈值的操作意图以供用户选择,包括:
选取所述第二匹配值大于预设阈值的操作意图为待展示意图;
将所述待展示意图按照所述第二匹配值从大到小的顺序向所述用户进行展示以供用户选择。
进一步地,可获取所述用户从所述展示结果内选取的操作意图,进而执行该被选取的操作意图,以实现对用户意图的精准执行。
本申请实施例提供的该方法,可通过对用户语音的内容进行识别,以根据语音内容分析得到用户对多种预设的操作意图的第一匹配值,同时,根据用户的历史控制行为数据分析得到用户对多种预设的操作意图的偏好权重,并利用该偏好权重对第一匹配值进行修正,实现了用户语音与历史控制行为数据的结合分析,进而根据修正后得到的第二匹配值向用户展示可选操作意图,并执行被用户选取的操作意图,实现了对操作用户操作意图的精确执行。可解决用户进行语音控制时无法精准识别出用户的操作意图的问题。
如图4所示,本申请实施例提供了一种基于权重调节的语音控制装置10的模块示意图,所述基于权重调节的语音控制装置10,包括:文本识别模块11、第一匹配模块12、权重分析模块13、第二匹配模块14和操作执行模块15。
所述文本识别模块101,用于当接收到用户的控制语音时,获取所述控制语音对应的语音文本;
所述第一匹配模块102,用于根据所述语音文本构建所述控制语音的操作意图矩阵,分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值;
所述权重分析模块103,用于获取所述用户的历史控制行为数据,根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重;
所述第二匹配模块104,用于根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值;
所述操作执行模块105,用于输出所述第二匹配值大于预设阈值的操作意图以供用户选择,获取所述用户从输出的操作意图中选取的目标操作意图,并执行所述目标操作意图。
详细地,本申请实施例中所述基于权重调节的语音控制装置10中所述的各模块在使用时采用与上述图1至图3中所述的基于权重调节的语音控制方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,本申请实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111、通信接口112、存储器113通过通信总线114完成相互间的通信。
存储器113,用于存放计算机程序。
在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的基于权重调节的语音控制方法,包括:
当接收到用户的控制语音时,获取所述控制语音对应的语音文本;
根据所述语音文本构建所述控制语音的操作意图矩阵,分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值;
获取所述用户的历史控制行为数据,根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重;
根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值;
输出所述第二匹配值大于预设阈值的操作意图以供用户选择,获取所述用户从输出的操作意图中选取的目标操作意图,并执行所述目标操作意图。
上述通信总线114可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线114可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口112用于上述电子设备与其他设备之间的通信。
存储器113可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器113还可以是至少一个位于远离前述处理器111的存储装置。
上述的处理器111可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的基于权重调节的语音控制方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于权重调节的语音控制方法,其特征在于,所述方法包括:
当接收到用户的控制语音时,获取所述控制语音对应的语音文本;
根据所述语音文本构建所述控制语音的操作意图矩阵,分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值;
获取所述用户的历史控制行为数据,根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重;
根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值;
输出所述第二匹配值大于预设阈值的操作意图以供用户选择,获取所述用户从输出的操作意图中选取的目标操作意图,并执行所述目标操作意图;
所述分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值,包括:利用如下匹配算法分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值:
Figure 491846DEST_PATH_IMAGE001
其中,
Figure 921690DEST_PATH_IMAGE002
为所述操作意图矩阵与第
Figure 163316DEST_PATH_IMAGE003
个操作意图之间的第一匹配值,
Figure 251489DEST_PATH_IMAGE004
为所述操作意图矩阵,
Figure 894960DEST_PATH_IMAGE005
为第
Figure 230126DEST_PATH_IMAGE003
个操作意图。
2.根据权利要求1所述的基于权重调节的语音控制方法,其特征在于,所述获取所述控制语音对应的语音文本,包括:
将所述控制语音转换为音频频谱,并按照预设时间间隔将所述音频频谱拆分为多个音频帧;
对所述音频帧进行音素识别,得到每个音频帧对应的音素;
从预先获取的音素表中查询每个音素对应的字词,并按照每个音频帧在所述音频频谱中的先后顺序将所述字词进行拼接,得到所述控制语音对应的语音文本。
3.根据权利要求1所述的基于权重调节的语音控制方法,其特征在于,所述根据所述语音文本构建所述控制语音的操作意图矩阵,包括:
对所述语音文本进行分词处理,得到文本分词;
分别计算每一个所述文本分词与多个预设的操作词条的相似度,并选取所述相似度大于预设相似阈值的文本分词为操作意图分词;
利用所述操作意图分词构建所述操作意图矩阵。
4.根据权利要求1所述的基于权重调节的语音控制方法,其特征在于,所述根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重,包括:
统计所述多种预设的操作意图中所有操作意图在所述历史控制行为数据内的出现总次数;
统计所述多种预设的操作意图中每一种操作意图在所述历史控制行为数据内的单意图出现次数;
逐个从所述多种预设的操作意图中选取其中一个操作意图为目标意图;
计算所述目标意图的单意图出现次数在所述出现总次数中的占比权重,确定所述占比权重为所述用户对所述目标意图的偏好权重。
5.根据权利要求1所述的基于权重调节的语音控制方法,其特征在于,所述根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值,包括:
逐个从所述多种预设的操作意图中选取其中一个操作意图为待调整意图;
计算所述待调整意图对应的第一匹配值与所述待调整意图对应的偏好权重的乘积,并确定所述乘积为所述待调整意图的第二匹配值。
6.根据权利要求1至5中任一项所述的基于权重调节的语音控制方法,其特征在于,所述输出所述第二匹配值大于预设阈值的操作意图以供用户选择,包括:
选取所述第二匹配值大于预设阈值的操作意图为待展示意图;
将所述待展示意图按照所述第二匹配值从大到小的顺序向所述用户进行展示以供用户选择。
7.一种基于权重调节的语音控制装置,其特征在于,所述装置包括:
文本识别模块,用于当接收到用户的控制语音时,获取所述控制语音对应的语音文本;
第一匹配模块,用于根据所述语音文本构建所述控制语音的操作意图矩阵,利用如下匹配算法分别计算所述操作意图矩阵与多种预设的操作意图之间的多个第一匹配值:
Figure 959048DEST_PATH_IMAGE001
,其中,
Figure 100179DEST_PATH_IMAGE002
为所述操作意图矩阵与第
Figure 598156DEST_PATH_IMAGE003
个操作意图之间的第一匹配值,
Figure 369803DEST_PATH_IMAGE004
为所述操作意图矩阵,
Figure 133491DEST_PATH_IMAGE005
为第
Figure 15996DEST_PATH_IMAGE003
个操作意图;
权重分析模块,用于获取所述用户的历史控制行为数据,根据所述历史控制行为数据统计所述用户对所述多种预设的操作意图中每种操作意图的偏好权重;
第二匹配模块,用于根据所述偏好权重对多个所述第一匹配值进行权重调整,得到多个第二匹配值;
操作执行模块,用于输出所述第二匹配值大于预设阈值的操作意图以供用户选择,获取所述用户从输出的操作意图中选取的目标操作意图,并执行所述目标操作意图。
8.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一项所述的基于权重调节的语音控制方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的基于权重调节的语音控制方法的步骤。
CN202111456854.7A 2021-12-02 2021-12-02 基于权重调节的语音控制方法、装置、设备及介质 Active CN113870842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111456854.7A CN113870842B (zh) 2021-12-02 2021-12-02 基于权重调节的语音控制方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111456854.7A CN113870842B (zh) 2021-12-02 2021-12-02 基于权重调节的语音控制方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113870842A CN113870842A (zh) 2021-12-31
CN113870842B true CN113870842B (zh) 2022-03-15

Family

ID=78985613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111456854.7A Active CN113870842B (zh) 2021-12-02 2021-12-02 基于权重调节的语音控制方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113870842B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112014006542B4 (de) * 2014-03-31 2024-02-08 Mitsubishi Electric Corporation Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
CN109389974A (zh) * 2017-08-09 2019-02-26 阿里巴巴集团控股有限公司 一种语音操作的方法及装置
CN110085217A (zh) * 2019-03-15 2019-08-02 中科恒运股份有限公司 语音导航方法、装置及终端设备
CN111310059B (zh) * 2020-04-01 2023-11-21 东软睿驰汽车技术(沈阳)有限公司 基于聚合资源的用户意图定位方法和装置
CN113205817B (zh) * 2021-07-06 2021-12-07 明品云(北京)数据科技有限公司 语音语义识别方法、系统、设备及介质

Also Published As

Publication number Publication date
CN113870842A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US11798535B2 (en) On-device custom wake word detection
US11158305B2 (en) Online verification of custom wake word
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
CN109543190B (zh) 一种意图识别方法、装置、设备及存储介质
CN108305643B (zh) 情感信息的确定方法和装置
US11043205B1 (en) Scoring of natural language processing hypotheses
US8712779B2 (en) Information retrieval system, information retrieval method, and information retrieval program
US9558741B2 (en) Systems and methods for speech recognition
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN107180084B (zh) 词库更新方法及装置
JP2014521158A (ja) テキスト入力方法、装置、およびシステム
CN112786007A (zh) 语音合成方法、装置、可读介质及电子设备
CN111916111A (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
US10872601B1 (en) Natural language processing
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
JP2022158735A (ja) 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム
CN113314119A (zh) 语音识别智能家居控制方法及装置
CN110334242B (zh) 一种语音指令建议信息的生成方法、装置及电子设备
US11615787B2 (en) Dialogue system and method of controlling the same
WO2014176489A2 (en) A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
KR20220109238A (ko) 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법
CN109119073A (zh) 基于多源识别的语音识别方法、系统、音箱及存储介质
JP6856697B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム
CN113870842B (zh) 基于权重调节的语音控制方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant