CN115620703A - 基于语音信号的指令触发方法、装置、设备和存储介质 - Google Patents

基于语音信号的指令触发方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115620703A
CN115620703A CN202211180123.9A CN202211180123A CN115620703A CN 115620703 A CN115620703 A CN 115620703A CN 202211180123 A CN202211180123 A CN 202211180123A CN 115620703 A CN115620703 A CN 115620703A
Authority
CN
China
Prior art keywords
instruction
target
candidate
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211180123.9A
Other languages
English (en)
Inventor
郭士嘉
龙良曲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Insta360 Innovation Technology Co Ltd
Original Assignee
Insta360 Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Insta360 Innovation Technology Co Ltd filed Critical Insta360 Innovation Technology Co Ltd
Priority to CN202211180123.9A priority Critical patent/CN115620703A/zh
Publication of CN115620703A publication Critical patent/CN115620703A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及一种基于语音信号的指令触发方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取目标语音信号中的多个语音片段;分别对多个所述语音片段进行分类识别,得到识别结果集;根据所述识别结果集生成各候选指令对应的指令序列;基于各所述指令序列,在所述候选指令中选取目标指令;若所述目标指令满足激活条件,则触发所述目标指令。采用本方法能够提高触发控制指令的准确性。

Description

基于语音信号的指令触发方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于语音信号的指令触发方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着人工智能技术的发展,常常通过语音信号对电子设备进行控制,使电子设备根据语音信号触发对应的指令。传统技术中,通过声学模型识别出语音信号对应的音素序列,然后根据音素序列判断语音信号中是否包含特定的词汇,以在语音信号中包含特定词汇时触发相应的指令。但是,通过声学模型对语音信号进行识别的准确性较低,从而容易导致电子设备误触发控制指令。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高触发控制指令准确性的基于语音信号的指令触发方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种基于语音信号的指令触发方法。所述方法包括:
获取目标语音信号中的多个语音片段;
分别对多个所述语音片段进行分类识别,得到识别结果集;
根据所述识别结果集生成各候选指令对应的指令序列;
基于各所述指令序列,在所述候选指令中选取目标指令;
若所述目标指令满足激活条件,则触发所述目标指令。
第二方面,本申请还提供了一种基于语音信号的指令触发装置。所述装置包括:
获取模块,用于获取目标语音信号中的多个语音片段;
识别模块,用于分别对多个所述语音片段进行分类识别,得到识别结果集;
生成模块,用于根据所述识别结果集生成各候选指令对应的指令序列;
选取模块,用于基于各所述指令序列,在所述候选指令中选取目标指令;
触发模块,用于若所述目标指令满足激活条件,则触发所述目标指令。
在一个实施例中,所述识别模块,还用于:
通过分类识别模型对多个所述语音片段进行分类识别,得到多个所述语音片段对应的识别向量;
对多个所述识别向量分别进行计算,得到多个所述语音片段与各候选指令间的匹配概率;
基于各所述匹配概率确定所述语音片段对应的识别结果,并将各所述语音片段对应的识别结果组成识别结果集。
在一个实施例中,所述生成模块,还用于:
获取各所述候选指令对应的候选指令标识与概率阈值;
根据所述候选指令标识以及所述概率阈值,确定所述识别结果集中各识别结果对应的元素值;
由各所述识别结果对应的元素值组成所述候选指令对应的指令序列。
在一个实施例中,所述识别结果集中识别结果包括识别指令标识以及匹配概率;所述识别指令标识对应的指令属于所述候选指令;所述生成模块,还用于:
若所述识别结果对应的识别指令标识与所述候选指令标识一致,且所述识别结果对应的匹配概率大于所述概率阈值,确定所述识别结果对应的元素值为第一元素值;
若所述识别结果对应的识别指令标识与所述候选指令标识不一致,和/或者所述识别结果对应的匹配概率小于或等于所述概率阈值,确定所述识别结果对应的元素值为第二元素值。
在一个实施例中,所述选取模块,还用于:
确定各所述指令序列中包含目标元素的数量;
根据所述数量在所述指令序列中选取目标指令序列;
在所述候选指令中,将所述目标指令序列对应的候选指令确定为目标指令。
在一个实施例中,所述触发模块,还用于:
获取所述目标指令对应的激活序列;
基于所述激活序列对所述目标指令对应的指令序列进行计算,得到激活值;
当所述激活值大于预设的激活阈值时,确定所述目标指令满足激活条件,并触发所述目标指令。
在一个实施例中,所述获取模块,还用于:
获取对待识别的目标语音信号进行分段截取的预设信号长度以及截取时间间隔;
根据所述预设信号长度以及所述截取时间间隔,依次从所述待识别语音信号中截取语音片段。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标语音信号中的多个语音片段;
分别对多个所述语音片段进行分类识别,得到识别结果集;
根据所述识别结果集生成各候选指令对应的指令序列;
基于各所述指令序列,在所述候选指令中选取目标指令;
若所述目标指令满足激活条件,则触发所述目标指令。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标语音信号中的多个语音片段;
分别对多个所述语音片段进行分类识别,得到识别结果集;
根据所述识别结果集生成各候选指令对应的指令序列;
基于各所述指令序列,在所述候选指令中选取目标指令;
若所述目标指令满足激活条件,则触发所述目标指令。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取目标语音信号中的多个语音片段;
分别对多个所述语音片段进行分类识别,得到识别结果集;
根据所述识别结果集生成各候选指令对应的指令序列;
基于各所述指令序列,在所述候选指令中选取目标指令;
若所述目标指令满足激活条件,则触发所述目标指令。
上述基于语音信号的指令触发方法、装置、计算机设备、存储介质和计算机程序产品,获取目标语音信号中的多个语音片段,从而可以将语音信号划分为较短的语音片段,并流水线式处理语音片段,降低了处理语音信号的延迟,提高了语音信号的处理效率。然后分别对多个语音片段进行分类识别,得到识别结果集,根据识别结果集生成各候选指令对应的指令序列。基于各指令序列,在候选指令中选取目标指令,若目标指令满足激活条件,触发目标指令。由于所选取的目标指令是根据识别结果集进行综合考虑得到的,提高了对语音信号进行识别的准确性,且需满足激活条件后触发,进一步降低了误触发指令的概率,保证了指令执行的准确性。
附图说明
图1为一个实施例中基于语音信号的指令触发方法的应用环境图;
图2为一个实施例中基于语音信号的指令触发方法的流程示意图;
图3为一个实施例中目标语音信号与语音片段的示意图;
图4为一个实施例中各候选指令对应的指令序列的示意图;
图5为一个实施例中得到识别结果集方法的流程示意图;
图6为一个实施例中确定指令序列方法的流程示意图;
图7为另一个实施例中基于语音信号的指令触发方法的流程示意图;
图8为一个实施例中基于语音信号的指令触发装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的基于语音信号的指令触发方法,可以应用于如图1所示的应用环境中。终端102获取目标语音信号中的多个语音片段;分别对多个语音片段进行分类识别,得到识别结果集;根据识别结果集生成各候选指令对应的指令序列;基于各指令序列,在候选指令中选取目标指令;若目标指令满足激活条件,触发目标指令。其中,终端102可以但不限于是各种智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为图像采集设备、智能音箱、智能电视、智能空调、智能车载设备等。图像采集设备可以是普通相机、运动相机、全景相机或者摄像机等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
在一个实施例中,如图2所示,提供了一种基于语音信号的指令触发方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
S202,获取目标语音信号中的多个语音片段。
其中,目标语音信号为声音强弱随时间变化的信号。目标语音信号中可以包括用户向智能设备发出的控制指令。例如,目标语音信号可以包括用户发出的“打开光圈”控制指令,用于指示相机打开光圈。又例如,目标语音信号可以包括用户发出的“关闭空调”控制指令,用于指示空调进行关机。终端通过检测目标语音信号中是否包含特定关键词来确定目标语音信号中是否包含控制指令。例如,当检测到目标语音信号中包含关键词“开机”时,确定目标语音信号为用户指示开机的语音信号。语音片段是目标语音信号中的片段。例如,目标语音信号为长度大于10秒的语音信号,语音片段为从该目标语音信号中截取的长度为1秒的片段。
在一个实施例中,S202具体包括:终端接收目标语音信号,若目标语音信号为模拟信号,首先将目标语音信号转换为数字信号,然后再从目标语音信号中提取语音片段。
在一个实施例中,S202具体包括:获取对待识别的目标语音信号进行分段截取的预设信号长度以及截取时间间隔;根据预设信号长度以及截取时间间隔,依次从待识别语音信号中截取语音片段。
其中,预设信号长度为语音片段的长度,可以为小于目标语音信号的任意长度值。例如,预设信号长度为1秒、2秒或者1.5秒等。截取时间间隔为截取两个相邻的语音片段的时间间隔,例如,截取时间间隔为100毫秒,终端每隔100毫秒从目标语音信号中截取一段语音片段。例如,如图3所示,语音片段是目标语音信号中长度为1秒的片段。当终端接收目标语音信号的长度达到1秒时,将这1秒的语音信号截取出来得到一个语音片段,然后间隔100毫秒,继续对目标语音信号进行截取,依次类推,得到多个语音片段。
终端根据预设信号长度以及截取时间间隔,依次从待识别语音信号中截取语音片段。从而可以将较长的目标语音信号分为多个较短的语音片段,并可以流水线式的对截取出的语音片段进行处理,降低了处理语音信号的延时,提高了对根据语音信号对智能设备进行控制的效率。
S204,分别对多个语音片段进行分类识别,得到识别结果集。
终端分别对各语音片段进行分类识别,对于每个语音片段得到一个对应的识别结果,各语音片段对应的识别结果组成识别结果集。识别结果用于指示语音片段对应的控制指令。例如,假设有N个控制指令,这N个控制指令的指令标识分别为Y1、Y2、…YN,语音片段1对应的识别结果为(Yt,Pt),其中,1≤t≤N,Yt表示指令标识,Pt表示语音片段1对应的控制指令为Yt的概率,(Yt,Pt)表示语音片段1对应的识别结果为控制指令Y1、Y2、…YN中的Yt的概率为Pt。
在一个实施例中,终端分别对各语音片段进行分类识别,得到识别结果集为{Y1,P1;Y2,P2;Y3,P3;…;Yn,Pn},其中,n为大于1的正整数,(Yn,Pn)为第n个语音片段对应的识别结果。
在一个实施例中,S204具体包括:终端分别对各语音片段进行分类识别,得到语音片段为各控制指令的概率,然后根据语音片段为各控制指令的概率确定语音片段对应的识别结果。例如,终端选取概率最大的控制指令,并将概率最大的控制指令与对应的概率作为语音片段的识别结果。最后,由各语音片段对应的识别结果组成识别结果集。
在一个实施例中,S204具体包括:终端通过基于深度学习的分类识别模型,对各语音片段进行分类识别,得到识别结果集。分类识别模型例如可以是PNN(Product-basedNeural Networks,基于神经网络的推荐模型)、NeuralCF(基于神经网络的协同过滤)模型、Deep Cross(深度交叉)模型等。
S206,根据识别结果集生成各候选指令对应的指令序列。
其中,候选指令为用于对智能设备进行控制的指令。例如,候选指令为用于指示智能设备开机的开机指令。又例如,候选指令为用于指示空调调整温度的温度调整指令。又例如,候选指令为用于指示相机进行拍照的拍照指令。又例如,候选指令为用于指示摄像机进行录像的录像指令。指令序列为由特定字符组成的字符序列,组成指令序列的字符可以是数字、字母、特殊符号等。例如,指令序列为由0与1组成的字符序列。例如,指令序列为011010。候选指令是由音素组成的语音指令,候选指令中包含特定关键词的音素,例如,当候选指令为开机指令时,候选指令中包含关键词“开机”的音素“kaiji”。指令序列中的字符“1”可以用于表示在“1”的位置出现了关键词的音素,而指令序列中的字符“0”可以用于表示在“0”的位置未出现关键词的音素。例如,温度调整指令可以为“将温度调高”,指令序列可以为“001111(wendu)0011(gao)”。
在一个实施例中,识别结果集中还包括候选指令之外的其他指令。
在一个实施例中,S206具体包括:从首个候选指令开始,终端针对每个候选指令,确定该候选指令对应的指令序列。具体地,如图4所示,终端根据识别结果集中的每个识别结果确定一个元素值,全部识别结果对应的元素值组成指令序列。例如,对于候选指令1,终端根据识别结果1-6确定的元素值分别为0、1、1、0、0、1,得到指令序列为011001;对于候选指令2,终端根据识别结果1-6确定的元素值分别为0、0、0、0、1、0,得到指令序列为000010,依次类推,直到最后一个候选指令。假设有N个候选指令Y1、Y2、…YN,M个语音片段t1、t2…tm,识别结果集为{Yt1、Pt1;Yt2、Pt2;…Ytm、Ptm},其中,Yt1至Ytm是Y1、Y2、…YN中的候选指令。对于候选指令Y1,根据识别结果集中每个识别结果(Yt,Pt,t1<=t<=tm)分别确定一个元素值,全部识别结果对应的元素值组成Y1对应的指令序列;对于候选指令Y2,根据识别结果集中每个识别结果分别确定一个元素值,全部识别结果对应的元素值组成Y2对应的指令序列,依次类推,直到候选指令YN。
S208,基于各指令序列,在候选指令中选取目标指令。
终端基于各指令序列在全部的候选指令中选取目标指令。具体地,终端可以选取满足选取条件的指令序列对应的候选指令为目标指令。选取条件例如可以是指令序列中包含特定字符,或者选取条件也可以是指令序列中包含特定字符的数量达到预设数值,或者选取条件也可以是指令序列中包含特定字符的数量最多。当多个指令序列均满足选取条件时,终端将目标语音信号对应的控制指令确定为候选指令之外的其他指令,以避免误触发控制指令。
S210,若目标指令满足激活条件,触发目标指令。
其中,激活条件为用于判断是否激活目标指令的条件。例如,激活条件为目标指令对应的激活值大于预设的激活阈值。例如,激活条件为目标指令对应的激活值大于各候选指令对应的激活值的平均值。例如,激活条件为目标指令对应的激活值在所有激活中排序的名次在预设名次之前。
在一个实施例中,S210具体包括:获取目标指令对应的激活序列;基于激活序列对目标指令对应的指令序列进行卷积计算,得到激活值;当激活值大于预设的激活阈值时,确定目标指令满足激活条件,并触发目标指令。
其中,激活序列是预先设置的字符序列,用于判断目标指令是否满足激活条件。激活序列可以由数字组成,例如,激活序列可以由二进制、十进制或者八进制的数字组成。例如,激活序列为“01001”。
在一个实施例中,终端通过大量的学习训练得到各控制指令对应的激活序列。具体地,对用于组成激活序列的字符进行排列组合,得到多个候选激活序列,然后用测试集对各个候选激活序列进行测试,例如,假设激活序列是由“0”与“1”组成的四位二进制序列,对“0”与“1”进行排列组合所得的候选激活序列为0001、0010、0100、1000、0011、0110、1100……,用测试集对各候选激活序列进行测试,假设选取“1100”作为激活序列所确定的目标指令为用户触发的真实指令的准确性最高,则选取“1100”作为目标指令对应的激活序列。激活序列的长度可以小于指令序列的长度。终端通过激活序列对指令序列进行卷积计算,得到激活值。具体地,终端通过激活序列对指令序列进行预设步长的卷积计算,得到卷积序列。然后对卷积序列中的各元素值求和,得到激活值。例如,假设指令序列M={X1、X2、…Xm},长度为m,激活序列Z={Z1、Z2、…Zn},长度为n(n<m),终端可以根据公式(1)计算得到卷积序列Y={Y1、Y2、...Ym-n},然后根据公式(2)计算得到激活值s。
Y1=X1×Z1+X2×Z2+...+Xn×Zn
Y2=X2×Z1+X3×Z2+...+Xn+1×Zn....
Ym-n=Xm-n×Z1+Xm-n+1×Z2+...+Xm×Zn (1)
Figure BDA0003866423970000091
终端基于激活序列对目标指令对应的指令序列进行卷积计算并在卷积计算所得的激活值大于预设的激活阈值时触发目标指令,从而可以利用误检时出现的指令序列与真实的控制指令对应的指令序列间的差异,通过激活值判断是否对目标指令进行激活,降低了误触发控制指令的概率。
上述实施例中,依次获取目标语音信号中的各语音片段,从而可以将语音信号划分为较短的语音片段,并流水线式处理语音片段,降低了处理语音信号的延迟,提高了语音信号的处理效率。然后分别对各语音片段进行分类识别,得到识别结果集,根据识别结果集生成各候选指令对应的指令序列。基于各指令序列,在候选指令中选取目标指令,若目标指令满足激活条件,触发目标指令。由于所选取的目标指令是根据识别结果集进行综合考虑得到的,提高了对语音信号进行识别的准确性,降低了误触发指令的概率,保证了指令执行的准确性。
在一个实施例中,如图5所示,S204具体包括如下步骤:
S502,通过分类识别模型对各语音片段进行分类识别,得到各语音片段对应的识别向量。
其中,分类识别模型是用于对语音片段进行分类识别的深度学习模型。例如,分类识别模型可以是逻辑回归模型、决策树模型、支持向量机模型或者朴素贝叶斯模型等。识别向量是分类识别模型对语音片段进行处理后输出的向量。当候选指令为N条时,识别向量可以是N+1维向量。终端将语音片段输入分类识别模型,得到分类识别模型输出的识别向量。
S504,对识别向量进行计算,得到语音片段与各候选指令间的匹配概率。
终端对识别向量进行计算,得到语音片段与各候选指令间的匹配概率。例如,终端可以对识别向量进行SoftMax(归一化)运算,得到语音片段与各候选指令间的匹配概率。例如,语音片段1与候选指令1至候选指令5间的匹配概率分别为P1、P2、P3、P4、P5。
S506,基于匹配概率确定语音片段对应的识别结果,并将各语音片段对应的识别结果组成识别结果集。
终端基于匹配概率确定语音片段对应的识别结果。例如,终端可以从匹配概率中选取最大的目标匹配概率,然后由目标匹配概率与目标匹配概率对应的候选指令标识组成语音片段对应的识别结果。例如,终端可以从匹配概率中选取大于预设值的目标匹配概率,然后由目标匹配概率与目标匹配概率对应的候选指令标识组成语音片段对应的识别结果。例如,语音片段1与各候选指令间的匹配概率分别为候选指令A:0.3;候选指令B:0.5;候选指令C:0.35;候选指令D:0.68;候选指令E:0.44,则由于候选指令D对应的匹配概率(0.68)最大,终端可以由匹配概率0.68与候选指令D的指令标识组成语音片段1对应的识别结果。终端在得到每个语音片段对应的识别结果时,由全部语音片段对应的识别结果组成识别结果集。
上述实施例中,通过分类识别模型对各语音片段进行分类识别,然后对分类识别所得的识别向量进行计算,得到语音片段与各候选指令间的匹配概率。基于匹配概率确定语音片段对应的识别结果,并将各语音片段对应的识别结果组成识别结果集。从而可以通过对识别结果集中的识别结果进行聚类来判断语音信号中是否包括用于触发目标指令的关键词,提高了触发目标指令的准确性。
在一个实施例中,如图6所示,S206具体包括如下步骤:
S602,获取各候选指令对应的候选指令标识与概率阈值。
其中,候选指令标识为用于对各候选指令进行标志的标识,可以由数字、字母、字符或者特殊符号等组成。概率阈值可以为任意小数、整数、分数或者百分数等。例如,概率阈值可以为0.5、2/3或者70%等。例如,候选指令A对应的候选指令标识为“A”,概率阈值为0.6。
S604,根据候选指令标识以及概率阈值,确定各识别结果对应的元素值。
其中,元素值为指令序列中元素的值,可以为二进制、八进制或者十进制的数值。例如,指令序列为二进制序列,元素值可以为数值0或者1;又例如,指令序列为10进制序列,元素值可以为0-9的数值。终端针对各候选指令可以设置相同的概率阈值,或者也可以针对各候选指令设置不同的概率阈值。例如,终端针对候选指令均设置概率阈值为0.5;又例如,终端针对候选指令A-C设置概率阈值为0.5,针对候选指令D-F设置概率阈值为0.6。
在一个实施例中,识别结果集中识别结果包括识别指令标识以及匹配概率;S604具体包括:若识别结果对应的识别指令标识与候选指令标识一致,且识别结果对应的匹配概率大于概率阈值,确定识别结果对应的元素值为第一元素值;若识别结果对应的识别指令标识与候选指令标识不一致,和/或者识别结果对应的匹配概率小于或等于概率阈值,确定识别结果对应的元素值为第二元素值。
其中,第一元素值与第二元素值可以设置为任意数值,例如,第一元素值为1,第二元素值为0。又例如,第一元素值为两位二进制字符10,第二元素值为两位二进制字符00。
具体地,如表1所示,终端设置第一元素值为1,第二元素值为0,概率阈值为0.5。对于候选指令A,识别结果中(A,0.7)与(A,0.65)与候选指令A的识别指令标识一致,且对应的匹配概率大于概率阈值0.5,因此,针对候选指令A,识别结果(A,0.7)与(A,0.65)对应的元素值为第一元素值1;识别结果(A,0.3)与候选指令A的识别指令标识一致,但对应的匹配概率小于概率阈值,因此(A,0.3)对应的元素值为第二元素值0;识别结果(B,0.52)、(C,0.73)、(B,0.65)、(D,0.84)、(D,0.3)与候选指令A的识别指令标识不一致,因此对应的元素值为第二元素值0。对于候选指令B,识别结果中(B,0.52)与(B,0.65)与候选指令B的识别指令标识一致,且对应的匹配概率大于概率阈值0.5。因此,针对候选指令B,识别结果(B,0.52)与(B,0.65)对应的元素值为第一元素值1,其余识别结果对应的元素值为0。依次类推,对于候选指令C与候选指令D,也可以得到与各识别结果对应的元素值。
表1
Figure BDA0003866423970000121
终端在识别结果对应的识别指令标识与候选指令标识一致,且识别结果对应的匹配概率大于概率阈值时,确定识别结果对应的元素值为第一元素值。从而可以用第一元素值对与某个候选指令间的匹配概率大于概率阈值的语音片段进行标记,也即第一元素值对应的语音片段与特定候选指令间的匹配概率大于概率阈值,该语音片段中包含特定候选指令中关键词的可能性较大。
S606,由各识别结果对应的元素值组成候选指令对应的指令序列。
终端由各识别结果对应的元素值组成候选指令对应的指令序列。例如,如表1所示,候选指令A对应的指令序列为“00000011”,候选指令B对应的指令序列为“01010000”,候选指令C对应的指令序列为“00100000”,候选指令D对应的指令序列为“00001000”。
上述实施例中,获取各候选指令对应的候选指令标识与概率阈值;根据候选指令标识以及概率阈值,确定各识别结果对应的元素值;由各识别结果对应的元素值组成候选指令对应的指令序列。从而可以将识别结果转化为指令序列,并根据指令序列在候选指令中选取目标指令,利用了指令序列与真实的控制指令对应的指令序列间的差异,排除了与真实控制指令的指令序列差异较大的指令序列,使所选取的目标指令更加准确,提高了通过语音信号对智能设备进行控制的准确性。
在一个实施例中,S208具体包括:确定各指令序列中包含目标元素的数量;根据数量在指令序列中选取目标指令序列;在候选指令中,将目标指令序列对应的候选指令确定为目标指令。
其中,目标元素可以为元素值为目标值的元素。例如,当指令序列为二进制序列时,目标元素可以为1,或者目标元素也可以为0等。终端在各指令序列中查询目标元素,然后对目标元素的数量进行计数,得到指令序列中包含目标元素的数量。例如,对于指令序列“0110100”,得到该指令序列中包含目标元素“1”的数量为3。
终端根据指令序列中包含目标元素的数量在指令序列中选取目标指令序列。例如,终端可以选取包含目标元素的数量最多的指令序列作为目标指令序列。又例如,终端可以选取包含目标元素的数量大于数量平均值的指令序列作为目标指令序列。又例如,终端可以选取包含目标元素的数量大于预设数值的指令序列作为目标指令序列。例如,终端可以选取包含目标元素“1”最多的指令序列作为目标指令序列。
在一个实施例中,若多个指令序列中包含目标元素的数量相同,说明目标语音信号对应于多个候选指令的概率相同,为避免误触发控制指令,将候选指令之外的其他指令确定为目标指令,以避免误触发控制指令,其他指令为非候选指令。
上述实施例中,由于指令序列中包含目标元素的数量越多,表示目标语音信号中包含该指令序列对应的候选指令中关键词的可能性越大。终端确定各指令序列中包含目标元素的数量,并根据数量在指令序列中选取目标指令序列。从而可以使所选取的目标指令序列对应的候选指令为目标语音信号实际对应的控制指令的可能性最大,避免了误触发控制指令,提高了通过语音信号对智能设备进行控制的准确性。
在一个实施例中,如图7所示,基于语音信号的指令触发方法包括如下步骤:
S702,获取对待识别的目标语音信号进行分段截取的预设信号长度以及截取时间间隔。
S704,根据预设信号长度以及截取时间间隔,依次从待识别语音信号中截取语音片段。
S706,通过分类识别模型对各语音片段进行分类识别,得到各语音片段对应的识别向量。
S708,对识别向量进行计算,得到语音片段与各候选指令间的匹配概率。
S710,基于匹配概率确定语音片段对应的识别结果,并将各语音片段对应的识别结果组成识别结果集。
S712,获取各候选指令对应的候选指令标识与概率阈值,根据候选指令标识以及概率阈值,确定各识别结果对应的元素值。
S714,由各识别结果对应的元素值组成候选指令对应的指令序列,并确定各指令序列中包含目标元素的数量,根据数量在指令序列中选取目标指令序列。
S716,在候选指令中,将目标指令序列对应的候选指令确定为目标指令。
S718,获取目标指令对应的激活序列,基于激活序列对目标指令对应的指令序列进行卷积计算,得到激活值。
S720,当激活值大于预设的激活阈值时,触发目标指令。
上述S702至S720的具体内容可以参考上文所述的具体实现过程。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于语音信号的指令触发方法的基于语音信号的指令触发装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于语音信号的指令触发装置实施例中的具体限定可以参见上文中对于基于语音信号的指令触发方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种基于语音信号的指令触发装置,包括:获取模块802、识别模块804、生成模块806、选取模块808和触发模块810,其中:
获取模块802,用于获取目标语音信号中的多个语音片段;
识别模块804,用于分别对多个语音片段进行分类识别,得到识别结果集;
生成模块806,用于根据识别结果集生成各候选指令对应的指令序列;
选取模块808,用于基于各指令序列,在候选指令中选取目标指令;
触发模块810,用于若目标指令满足激活条件,则触发目标指令。
上述实施例中,依次获取目标语音信号中的各语音片段,从而可以从语音信号中选取较短的语音片段,并流水线式处理语音片段,降低了处理语音信号的延迟。然后分别对各语音片段进行分类识别,得到识别结果集,根据识别结果集生成各候选指令对应的指令序列。基于各指令序列,在候选指令中选取目标指令,若目标指令满足激活条件,触发目标指令。由于所选取的目标指令是根据识别结果集进行综合考虑得到的,提高了对语音信号进行识别的准确性,降低了误触发指令的概率,保证了指令执行的准确性。
在一个实施例中,识别模块804,还用于:
通过分类识别模型对多个语音片段进行分类识别,得到各语音片段对应的识别向量;
对识别向量进行计算,得到语音片段与各候选指令间的匹配概率;
基于匹配概率确定语音片段对应的识别结果,并将各语音片段对应的识别结果组成识别结果集。
在一个实施例中,生成模块806,还用于:
获取各候选指令对应的候选指令标识与概率阈值;
根据候选指令标识以及概率阈值,确定各识别结果对应的元素值;
由各识别结果对应的元素值组成候选指令对应的指令序列。
在一个实施例中,识别结果集中识别结果包括识别指令标识以及匹配概率;识别指令标识对应的指令属于候选指令;生成模块806,还用于:
若识别结果对应的识别指令标识与候选指令标识一致,且识别结果对应的匹配概率大于概率阈值,确定识别结果对应的元素值为第一元素值;
若识别结果对应的识别指令标识与候选指令标识不一致,和/或者识别结果对应的匹配概率小于或等于概率阈值,确定识别结果对应的元素值为第二元素值。
在一个实施例中,选取模块808,还用于:
确定各指令序列中包含目标元素的数量;
根据数量在指令序列中选取目标指令序列;
将目标指令序列对应的候选指令确定为目标指令。
在一个实施例中,触发模块810,还用于:
获取目标指令对应的激活序列;
基于激活序列对目标指令对应的指令序列进行卷积计算,得到激活值;
当激活值大于预设的激活阈值时,确定目标指令满足激活条件,并触发目标指令。
在一个实施例中,获取模块802,还用于:
获取对待识别的目标语音信号进行分段截取的预设信号长度以及截取时间间隔;
根据预设信号长度以及截取时间间隔,依次从待识别语音信号中截取语音片段。
上述基于语音信号的指令触发装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于语音信号的指令触发方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种基于语音信号的指令触发方法,其特征在于,所述方法包括:
获取目标语音信号中的多个语音片段;
分别对多个所述语音片段进行分类识别,得到识别结果集;
根据所述识别结果集生成各候选指令对应的指令序列;
基于各所述指令序列,在所述候选指令中选取目标指令;
若所述目标指令满足激活条件,则触发所述目标指令。
2.根据权利要求1所述的方法,其特征在于,所述分别对各所述语音片段进行分类识别,得到识别结果集包括:
通过分类识别模型对多个所述语音片段进行分类识别,得到多个所述语音片段对应的多个识别向量;
对多个所述识别向量分别进行计算,得到多个所述语音片段与各候选指令间的匹配概率;
基于各所述匹配概率确定所述语音片段对应的识别结果,并将各所述语音片段对应的识别结果组成识别结果集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果集生成各候选指令对应的指令序列包括:
获取各所述候选指令对应的候选指令标识与概率阈值;
根据所述候选指令标识以及所述概率阈值,确定所述识别结果集中各识别结果对应的元素值;
由各所述识别结果对应的元素值组成所述候选指令对应的指令序列。
4.根据权利要求3所述的方法,其特征在于,所述识别结果集中各识别结果包括识别指令标识以及匹配概率;所述识别指令标识对应的指令属于所述候选指令;所述根据所述候选指令标识以及所述概率阈值,确定各所述识别结果对应的元素值包括:
若所述识别结果对应的识别指令标识与所述候选指令标识一致,且所述识别结果对应的匹配概率大于所述概率阈值,确定所述识别结果对应的元素值为第一元素值;
若所述识别结果对应的识别指令标识与所述候选指令标识不一致,和/或者所述识别结果对应的匹配概率小于或等于所述概率阈值,确定所述识别结果对应的元素值为第二元素值。
5.根据权利要求1所述的方法,其特征在于,所述基于各所述指令序列,在所述候选指令中选取目标指令包括:
确定各所述指令序列中包含目标元素的数量;
根据所述数量在所述指令序列中选取目标指令序列;
将所述目标指令序列对应的候选指令确定为目标指令。
6.根据权利要求1所述的方法,其特征在于,所述若所述目标指令满足激活条件,触发所述目标指令包括:
获取所述目标指令对应的激活序列;
基于所述激活序列对所述目标指令对应的指令序列进行计算,得到激活值;
当所述激活值大于预设的激活阈值时,确定所述目标指令满足激活条件,并触发所述目标指令。
7.根据权利要求1所述的方法,其特征在于,所述依次获取目标语音信号中的各语音片段包括:
获取对待识别的目标语音信号进行分段截取的预设信号长度以及截取时间间隔;
根据所述预设信号长度以及所述截取时间间隔,依次从所述待识别语音信号中截取语音片段。
8.一种基于语音信号的指令触发装置,其特征在于,所述装置包括:
获取模块,用于获取目标语音信号中的多个语音片段;
识别模块,用于分别对多个所述语音片段进行分类识别,得到识别结果集;
生成模块,用于根据所述识别结果集生成各候选指令对应的指令序列;
选取模块,用于基于各所述指令序列,在所述候选指令中选取目标指令;
触发模块,用于若所述目标指令满足激活条件,则触发所述目标指令。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202211180123.9A 2022-09-27 2022-09-27 基于语音信号的指令触发方法、装置、设备和存储介质 Pending CN115620703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211180123.9A CN115620703A (zh) 2022-09-27 2022-09-27 基于语音信号的指令触发方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211180123.9A CN115620703A (zh) 2022-09-27 2022-09-27 基于语音信号的指令触发方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN115620703A true CN115620703A (zh) 2023-01-17

Family

ID=84861449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211180123.9A Pending CN115620703A (zh) 2022-09-27 2022-09-27 基于语音信号的指令触发方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115620703A (zh)

Similar Documents

Publication Publication Date Title
TWI710964B (zh) 圖像聚類方法及裝置、電子設備和儲存介質
CN111368893B (zh) 图像识别方法、装置、电子设备及存储介质
CN109829433B (zh) 人脸图像识别方法、装置、电子设备及存储介质
CN111738357B (zh) 垃圾图片的识别方法、装置及设备
US11455491B2 (en) Method and device for training image recognition model, and storage medium
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
KR101617649B1 (ko) 영상의 관심 구간 추천 시스템 및 방법
CN114787844A (zh) 模型训练方法、视频处理方法、装置、存储介质及电子设备
CN111340213B (zh) 神经网络的训练方法、电子设备、存储介质
CN109963072B (zh) 对焦方法、装置、存储介质及电子设备
CN114429641A (zh) 一种时序动作检测方法、装置、存储介质及终端
CN112529078A (zh) 一种业务处理方法、装置及设备
CN111722717A (zh) 手势识别方法、装置及计算机可读存储介质
CN115035596B (zh) 行为检测的方法及装置、电子设备和存储介质
CN115620703A (zh) 基于语音信号的指令触发方法、装置、设备和存储介质
CN115082828A (zh) 基于支配集的视频关键帧提取方法和装置
CN115082999A (zh) 合影图像人物分析方法、装置、计算机设备和存储介质
CN112749702B (zh) 一种图像识别方法、装置、终端及存储介质
CN114117037A (zh) 意图识别方法、装置、设备和存储介质
CN112149653A (zh) 信息处理方法、装置、电子设备及存储介质
KR20210048270A (ko) 복수 객체에 대한 오디오 포커싱 방법 및 장치
CN114049634B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN112347893B (zh) 用于视频行为识别的模型训练方法、装置和计算机设备
KR102337678B1 (ko) 그래프 유사 여부를 분석하기 위하여 기계학습을 이용한 전자 장치 및 그 제어 방법
CN115408583A (zh) 搜索意图识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination