CN110197663A - 一种控制方法、装置及电子设备 - Google Patents

一种控制方法、装置及电子设备 Download PDF

Info

Publication number
CN110197663A
CN110197663A CN201910581815.6A CN201910581815A CN110197663A CN 110197663 A CN110197663 A CN 110197663A CN 201910581815 A CN201910581815 A CN 201910581815A CN 110197663 A CN110197663 A CN 110197663A
Authority
CN
China
Prior art keywords
audio data
context
audio
control strategy
locating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910581815.6A
Other languages
English (en)
Other versions
CN110197663B (zh
Inventor
徐培来
张传良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201910581815.6A priority Critical patent/CN110197663B/zh
Publication of CN110197663A publication Critical patent/CN110197663A/zh
Application granted granted Critical
Publication of CN110197663B publication Critical patent/CN110197663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本实施例提供的方法,基于获得的音频数据,确定音频数据所处语境对应的控制策略,基于控制策略,对音频数据进行语音识别,得到识别结果,最后执行与识别结果相对应的指令。可见,本申请提供的方法,在音频数据的音源所处语境不同的情况下,以不同的控制策略进行语音识别,从而实现语境自适应,避免了现有技术中采用同一控制策略而导致无法触发或者错误触发而使得语音触发的准确率较低的情况,本申请提供的方法,实现了语境自适应,提高不同语境下的识别准确率。

Description

一种控制方法、装置及电子设备
技术领域
本发明涉及语音识别技术领域,尤其涉及一种控制方法、装置及电子设备。
背景技术
随着技术的发展,通过语音触发事件的技术在智能终端如手机、智能音响、智能电视等产品上得到了广泛的应用。例如,用户通过语音启动智能音响并播放音乐。
而由于终端所处的环境的不同,导致通过语音触发终端实现功能时存在无法触发或者错误触发的情况,使得语音触发的准确率较低。
发明内容
有鉴于此,本发明提供一种控制方法、装置及电子设备,目的在于解决如何避免无法触发或者错误触发而使得语音触发的准确率较低的情况。
为实现上述目的,本发明实施例提供如下技术方案:
一种控制方法,包括:
获得音频数据;
基于所述音频数据,确定所述音频数据所处语境对应的控制策略;
基于所述控制策略,对所述音频数据进行语音识别,得到识别结果;
执行与所述识别结果相对应的指令。
上述的方法,可选的,所述基于所述音频数据,确定所述音频数据所处语境对应的控制策略,包括:
将所述音频数据输入语境训练模型,以得到所述语境训练模型输出的所述音频数据所处的当前语境;
其中,所述语境训练模型基于至少两个具有语境标签的样本得到;
获得所述当前语境对应的控制策略。
上述的方法,可选的,所述基于所述音频数据,确定所述音频数据所处语境对应的控制策略,包括:
提取所述音频数据在至少一个参数类型上的第一音频参数;
对所述第一音频参数进行解析,以得到所述音频数据所处的当前语境;
获得所述当前语境对应的控制策略。
上述的方法,可选的,所述控制策略包括:所述音频数据所处语境下的阈值参数范围。
上述的方法,可选的,所述基于所述控制策略,对所述音频数据进行语音识别,得到识别结果,包括:
提取所述音频数据中满足所述控制策略的至少一个音频片段;
对所述至少一个音频片段进行语音识别,得到识别结果。
一种控制装置,包括:
获得单元,用于获得音频数据;
确定单元,用于基于所述音频数据,确定所述音频数据所处语境对应的控制策略;
识别单元,用于基于所述控制策略,对所述音频数据进行语音识别,得到识别结果;
执行单元,用于执行与所述识别结果相对应的指令。
上述的装置,可选的,确定单元,用于基于所述音频数据,确定所述音频数据所处语境对应的控制策略,包括,确定单元具体用于,将所述音频数据输入语境训练模型,以得到所述语境训练模型输出的所述音频数据所处的当前语境;获得所述当前语境对应的控制策略。其中,所述语境训练模型基于至少两个具有语境标签的样本得到;
上述的装置,可选的,确定单元,用于基于所述音频数据,确定所述音频数据所处语境对应的控制策略,包括,确定单元具体用于:提取所述音频数据在至少一个参数类型上的第一音频参数;对所述第一音频参数进行解析,以得到所述音频数据所处的当前语境;获得所述当前语境对应的控制策略。
上述的装置,可选的,确定单元,用于确定所述音频数据所处语境对应的控制策略中,控制策略包括:音频数据所处语境下的阈值参数范围。
上述的装置,可选的,识别单元,用于基于控制策略,对音频数据进行语音识别,包括,识别单元具体用于:提取频数据中满足控制策略的至少一个音频片段;对至少一个音频片段进行语音识别,得到识别结果。
一种电子设备,包括:
存储器,用于存储应用程序及所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现功能:获得音频数据;基于所述音频数据,确定所述音频数据所处语境对应的控制策略;基于所述控制策略,对所述音频数据进行语音识别,得到识别结果;执行与所述识别结果相对应的指令。
一种电子设备,包括:
音频采集装置,用于采集音频数据;
控制器,用于获得所述音频采集装置采集到的音频数据;基于所述音频数据,确定所述音频数据所处语境对应的控制策略;基于所述控制策略,对所述音频数据进行语音识别,得到识别结果;执行与所述识别结果相对应的指令。
本发明提供的方法,基于获得的音频数据,确定音频数据所处语境对应的控制策略,基于所述控制策略,对所述音频数据进行语音识别,得到识别结果,最后执行与所述识别结果相对应的指令。从上述技术方案可以看出,本申请公开的方法,基于音频数据,以相应语境下对应的控制策略对音频数据进行语音识别,由此,本案避免了现有技术中无法触发或者错误触发而使得语音触发的准确率较低的情况,在音频数据的音源所处语境不同的情况下,以不同的控制策略进行语音识别,从而实现语境自适应,提高语境下的识别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种控制方法的方法流程图;
图2为本发明实施例公开的针对语境为安静语境的一种控制方法的方法流程图;
图3为本发明实施例公开的针对语境为多人说话语境的一种控制方法的方法流程图;
图4为本发明提供的一种控制装置结构示意图;
图5为本发明提供的一种电子设备结构示意图;
图6为本发明提供的另一种电子设备结构示意图;
图7为本发明提供的一种智能音箱的功能架构图。
具体实施方式
申请人在研究的过程中发现,现有的语音触发技术,智能终端实现语音触发事件的过程为:智能终端在检测到录入的音频的声音强度大于预先设定的阈值后,触发终端语音播报事件。由于阈值是预先设定的一个静态的固定值,所以在不同的环境下,会出现通过语音触发终端实现功能时存在无法触发或者错误触发的情况。例如在安静环境中,用户说话的音量低于该预先设定的阈值时,无法触发终端播报事件,即使用户的音量足够让人耳听清楚。
为解决以上问题,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例公开的控制方法、装置及电子设备,用于依据获得的音频数据,执行与音频数据对应的指令。
本申请实施例公开的电子设备,可以应用于包括手机、智能音响、智能电视等智能语音终端设备。
如图1所示,为本发明实施例公开的一种控制方法,具体可以包括以下步骤。
S101:获得音频数据。
音频数据是通过音频设备在所处语境下采集得到的数据,音频设备可以是麦克风、录音器等声音采集设备。音频数据所处的语境可以是安静语境、嘈杂语境、单人说话语境以及多人说话语境等不同的语境。
S102:基于音频数据,确定音频数据所处语境对应的控制策略。
获得音频数据后,对音频数据进行分析计算,通过确定音频数据所处的语境,确定音频数据所处语境对应的控制策略。
在一种实现方式中,确定音频数据所处的语境时,可以通过将音频数据输入预先建立的语境训练模型,以得到语境训练模型输出的音频数据所处的当前语境。
而具体的,建立语境训练模型的过程可以是:选取基础训练模型以及大量的训练样本,依据训练样本的语境标签对基础训练模型进行训练,当基础训练模型的输出值能准确的表征音频数据对应的语境时,确定基础训练模型训练完毕,并将训练完毕的基础训练模型作为语境训练模型,得到语境训练模型。
需要说明的是,基础训练模型可以是针对音频的神经网络训练模型,例如声学模型。训练样本为大量的不同语境下采集得到的音频数据,语境标签可以是基于训练样本的音量、能量、声纹数量、声音类型等音频特征设置的样本标签。获得语境训练模型后,将音频数据输入语境训练模型,并将语境训练模型的输出结果作为音频数据所处的语境。
在另一种实现方式中,确定音频数据所处的语境时,还可以根据音频的音量、能量、声音类型以及声纹等音频特性来确定音频数据所处的语境,具体可以为:
首先,提取音频数据在至少一个参数类型上的第一音频参数,其中,参数类型可以是音量、能量、声音类型以及声纹等音频类型中的一种或多种组合。参数类型的第一音频参数可以是音量值、能量值、声音类型值以及声纹数量等。
之后,在得到音频数据的第一音频参数后,对该第一音频参数进行解析,得到音频数据所处的当前语境。
例如,第一音频参数为音量值,分析音量值否大于音量阈值,若大于音量阈值,确定当前的语境为嘈杂语境,若不大于音量阈值,确定当前的语境为安静语境。再如,若第一音频参数为声纹数量,声纹数量能够表征正在进行语音的人的数量,由此,本实施例中可以分析声纹数量否大于声纹数量阈值来确定语境,若大于声纹数量阈值,确定当前的语境为多人说话语境,如果声纹数量只有一个,那么可以确定当前语境为单人说话语境。
最后,得到音频数据所处的语境后,确定语境对应的控制策略,其中,不同的语境对应的控制策略不同。控制策略可以为音频数据所处语境下的阈值参数范围,阈值参数可以是音频的音量参数以及能量参数等。
需要说明的是,对于同一种语境,其阈值参数范围可以是动态变化的,例如,音频数据所在的环境为10分贝的安静语境时,其阈值参数范围可以是大于20分贝的参数,音频数据所在的环境为20分贝的安静语境时,其阈值参数范围为大于30分贝的参数。同理,对于不同嘈杂程度的嘈杂语境,其阈值参数范围也不同。例如,对于酒吧和超市两种嘈杂语境,由于酒吧的嘈杂程度通常大于超市,所以酒吧的阈值参数通常也大于超市的阈值参数。对于单人说话语境,可以基于说话者声音的音量平均值,确定阈值参数,音量平均值越高,阈值参数越大。对于多人说话语境,同样的,可以基于多个说话者声音的音量,确定阈值参数。综上所述,本实施例中,语境的阈值参数是可以根据当前语境的具体情况动态变化的。
S103:基于控制策略,对音频数据进行语音识别,得到识别结果。
确定控制策略后,从音频数据中提取满足控制策略的音频片段,需要说明的是,满足控制策略的音频片段为,在该音频片段中,每一帧音频都满足控制策略。提取满足控制策略的音频片段的过程可以是,确定当前获取的音频数据中满足控制策略的第一帧音频,并将该第一帧音频作为音频片段的音频起点,依次判断该第一帧音频后续的每一帧音频是否满足控制策略,当判断到某一帧音频不满足控制策略时,将该不满足控制策略的音频帧的前一帧作为音频片段的音频终点,在音频数据中截取从音频起点到音频终点的片段,从而得到音频数据中提取满足控制策略的音频片段。例如,音频数据为“今天小爱同学电量低”时,依次判断“今天小爱同学电量低”中每个字的语音是否满足控制策略,当识别到“小”最先满足控制策略时,将“小”作为音频片段的起点,在“小”之后依次识别到“爱”、“同”和“学”也满足控制策略,但识别到“电”时,发现“电”不满足控制策略,则将紧邻“电”前面的“学”作为音频片段的终点,最后截取从起点到终点的“小爱同学”,从而得到满足控制策略的音频片段。
需要说明的是,一份音频数据可能存在多个满足控制策略的音频片段,例如,对于音频数据为“小爱同学今天的天气怎么样”,依次判断“小爱同学今天的天气怎么样”中每个字的语音是否满足控制策略。判断出“小”第一个满足控制策略,且“爱”、“同”和“学”都满足控制策略,但“今”不满足控制策略的情况时,确定第一个满足控制策略的音频片段为“小爱同学”。确定出第一个音频片段后,依次出判断“天”、“的”、“天”和“气”都不满足控制策略,“怎”、“么”和“样”都满足控制策略,则确定第二个满足控制策略的音频片段为“怎么样”。
本实施例中,每获得一个满足控制策略的音频片段后,对该音频片段进行语音识别,判定音频片段中是否包含有关键字,关键字为预先存储的表征事件类型的信息。例如,关键字可以是时间、天气、新闻、导航等信息。若判定音频片段包含关键字,将关键字作为识别结果。若判定音频片段不包含任何关键字,则确定为无识别结果。其中,对该音频进行语音识别的方法可以参考现有技术,此处不再赘述。
S104:执行与识别结果相对应的指令。
本实施例中,获得满足控制策略的音频片段的识别结果后,确定该识别结果对应的指令,最后执行该指令,其中,任意一种识别结果对应的指令是预先规定的,指令可以是播报与识别结果相关的信息。例如,当识别结果为“时间”时,指令可以是播报当前的具体时间,当识别结果为“天气”时,指令可以是播报当前的天气状况。
本实施例提供的方法,基于获得的音频数据,确定音频数据所处语境对应的控制策略,基于控制策略,对音频数据进行语音识别,得到识别结果,最后执行与识别结果相对应的指令。可见,本申请提供的方法,在音频数据的音源所处语境不同的情况下,以不同的控制策略进行语音识别,从而实现语境自适应,避免了现有技术中采用同一控制策略而导致无法触发或者错误触发而使得语音触发的准确率较低的情况,本申请提供的方法,实现了语境自适应,提高不同语境下的识别准确率。
如前述实施例所述,本实施例提供的方法可以应用于不同的语境,以下针对不同的语境,对本申请实施例提供的方法进行说明。
图2为本发明实施例公开的针对语境为安静语境的一种控制方法,具体可以包括以下步骤。
S201、获得音频数据。
通过音频采集设备对声音进行采集,对于安静语境,为了提高音频采集的精准度,可采用对音量敏感度较高的音频采集设备。
S202、依据音频数据的音量值或能量值,确定音频数据所处的语境为安静语境。
获得音频数据后,对音频数据进行分析,可根据音频数据的音量值或能量值,确定音频数据所处的语境为安静语境。例如,若音频的音量值小于40分贝,则确定音频数据所处的语境为安静语境。
S203、确定安静语境对应的阈值参数范围。
确定音频数据的语境为安静语境后,确定安静语境对应的阈值参数范围,对于安静语境,阈值参数范围为大于某个音量值或大于某个能量值的阈值参数范围,对于不同安静程度的安静语境,其阈值参数范围不同,安静程度越高,对应的阈值参数越小。如前述的实施例所述,对于安静程度为10分贝的安静语境,其阈值参数范围可以是大于20分贝的参数,对于安静程度为20分贝的安静语境,其阈值参数范围为大于30分贝的参数。
S204、提取音频数据数据中满足阈值参数范围的音频片段。
在获得的音频数据中,并不是每一帧音频都满足阈值参数范围,所以需从音频数据数据中满足阈值参数范围的音频片段,具体的从音频数据中提取音频片段的过程与上述实施例的S103中提取音频片段过程相同,此处不再赘述。
S205、对音频片段进行语音识别,得到识别结果,并执行与识别结果相对应的指令。
获取音频片段后,采用语音识别技术对音频片段进行语音识别,获取音频片段中的关键字,并将获取的关键字作为识别结果,最后执行与识别结果相对应的指令。例如,对于智能音响,若智能音响获取的关键字为“流行音乐”,则智能音响执行的指令为播放当前网络中的热门的流行音乐。
本实施例提供的方法,对于安静程度不同的安静语境,阈值参数范围不同,使用户在安静程度不同的安静语境中用不同的音量都可以成功的触发智能终端设备,避免了现有技术中采用固定的阈值参数范围,导致用户音量不满足该固定的阈值参数范围时,无法触发智能终端设备,即使用户的音量足够让人耳听清楚的问题。
针对语境为嘈杂语境的控制方法,具体为:依据获取的音频数据的音量值或能量值,确定音频数据所处的语境为嘈杂语境,然后确定嘈杂语境对应的阈值参数范围,并提取音频数据中满足阈值参数范围的音频片段,最后对音频片段进行语音识别,得到识别结果,并执行与识别结果相对应的指令。具体的实现针对语境为嘈杂语境的控制方法的过程与上述的语境为安静语境的控制方法相同,此处不再赘述。
对于嘈杂程度不同的嘈杂语境,设定不同的阈值参数范围,只对满足阈值参数范围的音频片段才进行识别,避免了现有技术中采用固定的阈值参数范围,使在嘈杂语境中,由于音频的音量大,所以音频的音量一般都满足固定的阈值参数范围,从而使智能终端设备对大量的不包括关键字的音频数据进行识别,不仅导致智能终端的功耗高,而且持续的大量识别任务,可能会导致智能终端的识别正确率降低。
图3为本发明实施例公开的针对语境为多人说话语境的一种控制方法,具体可以包括以下步骤。
S301、获得音频数据。
通过音频采集设备对声音进行采集,对于多人说话语境,为了提高音频采集的精准度,可采用对声音的音色敏感度较高的音频采集设备。
S302、依据音频数据中包括的声纹数量,确定音频数据所处的语境为多人说话语境。
对于多人说话语境,由于不同人的声音特征不同,所以每个人的声纹也不同,获得音频数据后,确定该音频数据中包括的声纹数量,若声纹数量大于2,则可确定音频数据所处的语境为多人说话语境。
S303、确定多人说话语境对应的阈值参数范围。
确定多人说话语境中阈值参数范围的最小阈值参数,该最小阈值参数足够大于每个声纹对应的音量,比如,可以是大于声纹对应的最大音量的50分贝。阈值参数范围为大于最小阈值参数的参数范围。
S304、提取音频数据中满足阈值参数范围的音频片段。
本实施例中,执行S304的方法与图2的S204相同,此处不再赘述。
S305、对音频片段进行语音识别,得到识别结果,并执行与识别结果相对应的指令。
本实施例中,执行S305的方法与图2的S205相同,此处不再赘述。
本发明实施例提供的方法,对于多人说话语境,阈值参数范围为是基于多人音量的进行设定的,只有当前的音量明显高于多人说话语境中每个人的音量时,才能触发智能终端设备,避免多人说话的过程中,因其中某个人的稍微提高音量而误触发智能终端设备。
针对语境为单人说话语境的控制方法,具体为:依据音频数据中包括的声纹数量,确定音频数据所处的语境为单人说话语境,然后确定单人说话语境对应的阈值参数范围,其中,对于单人说话语境,阈值参数范围的最小阈值参数为大于说话者平均音量的参数,确定阈值参数范围后,提取音频数据数据中满足阈值参数范围的音频片段,最后对音频片段进行语音识别,得到识别结果,并执行与识别结果相对应的指令。
对于单人说话语境,基于不同的人,设定不同的阈值参数范围,只有说话者的音量明显高于其通常说话的音量时,才能触发智能终端设备,避免单人在说话的过程中误触发智能终端设备。
与图1的方法相对应,本发明实施例还提供了一种控制装置,用于对图1方法的具体实现,其结构示意图如图4所示,具体包括:
获得单元401,用于获得音频数据;
确定单元402,用于基于音频数据,确定音频数据所处语境对应的控制策略;
识别单元403,用于基于控制策略,对音频数据进行语音识别,得到识别结果;
执行单元404,用于执行与识别结果相对应的指令。
其中,确定单元402基于音频数据,确定音频数据所处语境对应的控制策略的具体实现方式为:将音频数据输入语境训练模型,以得到所述语境训练模型输出的所述音频数据所处的当前语境;获得当前语境对应的控制策略。其中,语境训练模型基于至少两个具有语境标签的样本得到;
其中,确定单元402基于音频数据,确定音频数据所处语境对应的控制策略的具体实现方式还可以是:提取音频数据在至少一个参数类型上的第一音频参数;对第一音频参数进行解析,以得到音频数据所处的当前语境;获得所述当前语境对应的控制策略。
确定单元402,确定音频数据所处语境对应的控制策略中,控制策略包括:音频数据所处语境下的阈值参数范围。
识别单元403,基于控制策略,对音频数据进行语音识别,得到识别结果的具体实现方式为:提取频数据中满足控制策略的至少一个音频片段;对至少一个音频片段进行语音识别,得到识别结果。
本实施例提供的装置,基于获得的音频数据,确定音频数据所处语境对应的控制策略,基于控制策略,对音频数据进行语音识别,得到识别结果,最后执行与识别结果相对应的指令。可见,本申请提供的装置,在音频数据的音源所处语境不同的情况下,以不同的控制策略进行语音识别,从而实现语境自适应,避免了现有技术中采用同一控制策略而导致无法触发或者错误触发而使得语音触发的准确率较低的情况,本申请提供的装置,实现了语境自适应,提高不同语境下的识别准确率。
本发明实施例还提供了一种电子设备,其结构示意图如图5所示,具体包括存储器501和处理器502。
存储器501,用于存储应用程序及所述应用程序运行所产生的数据;
处理器502,用于执行所述应用程序,以实现功能:获得音频数据;基于音频数据,确定音频数据所处语境对应的控制策略;基于控制策略,对音频数据进行语音识别,得到识别结果;执行与识别结果相对应的指令。
本发明实施例还提供了另一种电子设备,其结构示意图如图6所示,具体包音频采集装置601和控制器602。
音频采集装置601,如麦克风等,用于采集音频数据;
控制器602,用于获得音频采集装置采集到的音频数据;基于音频数据,确定音频数据所处语境对应的控制策略;基于控制策略,对音频数据进行语音识别,得到识别结果;执行与识别结果相对应的指令。
以下以电子设备为智能音箱为例,对本实施例中的技术方案进行举例说明,
本实施例的智能音箱的功能架构图如图7所示。该智能音箱的功能架构中包括了麦克风MIC(microphone)模块、语音活动检测(Voice Activity Detection,VAD)模块和触发模块,下面将对各个模块的之间相互配合,以实现智能音箱的对音频数据进行语音识别的功能进行说明。
MIC模块获取当前的音频数据并传送至VAD模块。
VAD模块接收到MIC模块传送的音频数据后,依据预先构建语境分析模型,对当前的音频数据进行语境分析,确定当前的语境,然后根据当前的语境确定VAD策略,确定VAD策略后,对当前的音频数据进行检测,检测到满足VAD策略的音频片段后,将该音频片段发送至触发模块。
触发模块对接收到音频片段进行语音识别,并根据识别的结果,执行相应的指令。
其中,VAD模块构建语境分析模型的方法可以是:
一、基于音量、能量等参数值,可区分为安静语境、嘈杂语境等语境类别。
二、基于声音类型判断参数,可区分为分噪声、说话声等声音类别。
三、基于声纹判断参数,可区分多人说话语境、单人说话语境等类别。需要说明的是,本实施例中,也可以通过增加更多参数,构建更复杂的模型,以判断区分观看影视剧等特殊语境。
本实施例中,对不同的语境VAD模块可以采用不同VAD策略,具体为:
安静语境:基于当前的安静程度(如音量大小和能量大小),动态选择语音起点、语音终点的参数阈值。例如10分贝环境,采用20分贝作为语音起点的阈值;而30分贝环境,则采用45分贝作为语音起点的阈值。
嘈杂语境:类似安静语境,区别是动态选择阈值时,阈值要明显高于嘈杂语境中噪声的音量值。
个人说话语境:基于说话者通常语音的音量,阈值需要在说话者通常语音的音量上附加足够的增加量。使说话者突然明显提高说话音量时,才会大于阈值,从而才会判断为语音起点,从而避免平常说话过程中的虚警触发。
多人交谈语境:类似个人说话语境,仅当当前语音音量明显高于多人的音量标准值时,才会大于策略调整后的阈值,从而可避免多人交谈过程中的虚警触发。
本实施例中,智能音箱的基本工作流程为:
步骤一、MIC实时将音频输入发送给VAD模块。
步骤二、VAD执行语境分析,确定当前的语境。
步骤三、VAD基于当前的实时语境,选择对应的VAD策略,并基于音量等参数设置当前VAD引擎算法相关参数(音量、能量和声纹等)的阈值。
步骤四、VAD对音频流执行当前的VAD引擎算法,检测语音起点、语音终点。
步骤五、在检测到语音起点的情况下,VAD再将语音起点、语音终点之间的音频流片段,发送给触发模块进行触发判断。如果未检测到,则VAD不需要启动触发模块(即使当前背景声音很大)。
综合上所述,本实施例中智能音箱可以基于当前的语境,动态决定触发器输入端(VAD模块)的处理过程。智能音箱的VAD模块可以依据预先构建的语境分析模型将当前语境区分为安静语境、嘈杂语境、观看影视剧噪声、单人说话语境、多人说话语境等多种语境类型,并基于不同的语境采用不同的VAD策略。可见,本实施例提供的智能音箱除了可以降低功耗以外,还可以达到如下的效果:在安静的环境,即使用户以较低的声音说出唤醒词,也能保证成功触发的唤醒率。匝嘈杂的背景噪声,降低虚警率。在多人交谈的背景语音环境,交谈多人的说话声音不会误触发。而注册用户以高于交谈声音的音量说出唤醒词,能够保证成功触发的唤醒率。并且根据加入声纹技术,可在多人交谈时,即使注册用户音量正常的情况下,也能降低虚警率,提高注册用户的成功唤醒率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种控制方法,其特征在于,包括:
获得音频数据;
基于所述音频数据,确定所述音频数据所处语境对应的控制策略;
基于所述控制策略,对所述音频数据进行语音识别,得到识别结果;
执行与所述识别结果相对应的指令。
2.根据权利要求1所述的方法,其特征在于,所述基于所述音频数据,确定所述音频数据所处语境对应的控制策略,包括:
将所述音频数据输入语境训练模型,以得到所述语境训练模型输出的所述音频数据所处的当前语境;
其中,所述语境训练模型基于至少两个具有语境标签的样本得到;
获得所述当前语境对应的控制策略。
3.根据权利要求1所述的方法,其特征在于,所述基于所述音频数据,确定所述音频数据所处语境对应的控制策略,包括:
提取所述音频数据在至少一个参数类型上的第一音频参数;
对所述第一音频参数进行解析,以得到所述音频数据所处的当前语境;
获得所述当前语境对应的控制策略。
4.根据权利要求1所述的方法,其特征在于,所述控制策略包括:所述音频数据所处语境下的阈值参数范围。
5.根据权利要求1或4所述的方法,其特征在于,所述基于所述控制策略,对所述音频数据进行语音识别,得到识别结果,包括:
提取所述音频数据中满足所述控制策略的至少一个音频片段;
对所述至少一个音频片段进行语音识别,得到识别结果。
6.一种控制装置,其特征在于,包括:
获得单元,用于获得音频数据;
确定单元,用于基于所述音频数据,确定所述音频数据所处语境对应的控制策略;
识别单元,用于基于所述控制策略,对所述音频数据进行语音识别,得到识别结果;
执行单元,用于执行与所述识别结果相对应的指令。
7.一种电子设备,其特征在于,包括:
存储器,用于存储应用程序及所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现功能:获得音频数据;基于所述音频数据,确定所述音频数据所处语境对应的控制策略;基于所述控制策略,对所述音频数据进行语音识别,得到识别结果;执行与所述识别结果相对应的指令。
8.一种电子设备,其特征在于,包括:
音频采集装置,用于采集音频数据;
控制器,用于获得所述音频采集装置采集到的音频数据;基于所述音频数据,确定所述音频数据所处语境对应的控制策略;基于所述控制策略,对所述音频数据进行语音识别,得到识别结果;执行与所述识别结果相对应的指令。
CN201910581815.6A 2019-06-30 2019-06-30 一种控制方法、装置及电子设备 Active CN110197663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910581815.6A CN110197663B (zh) 2019-06-30 2019-06-30 一种控制方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910581815.6A CN110197663B (zh) 2019-06-30 2019-06-30 一种控制方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110197663A true CN110197663A (zh) 2019-09-03
CN110197663B CN110197663B (zh) 2022-05-31

Family

ID=67755493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910581815.6A Active CN110197663B (zh) 2019-06-30 2019-06-30 一种控制方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110197663B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110657561A (zh) * 2019-09-30 2020-01-07 广东美的制冷设备有限公司 空调器及其语音指令识别方法、控制装置和可读存储介质

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
WO2015117448A1 (zh) * 2014-08-22 2015-08-13 中兴通讯股份有限公司 语音识别的控制方法和装置
CN105094816A (zh) * 2015-07-09 2015-11-25 北京君正集成电路股份有限公司 一种降低智能设备功耗的方法及智能设备
US20160077794A1 (en) * 2014-09-12 2016-03-17 Apple Inc. Dynamic thresholds for always listening speech trigger
CN105513588A (zh) * 2014-09-22 2016-04-20 联想(北京)有限公司 一种信息处理方法及电子设备
CN106354025A (zh) * 2016-10-31 2017-01-25 广州华凌制冷设备有限公司 一种基于语音识别的智能家电控制方法及装置、空调
CN106653013A (zh) * 2016-09-30 2017-05-10 北京奇虎科技有限公司 语音识别方法及装置
CN107305774A (zh) * 2016-04-22 2017-10-31 腾讯科技(深圳)有限公司 语音检测方法和装置
CN107767863A (zh) * 2016-08-22 2018-03-06 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN108564948A (zh) * 2018-03-30 2018-09-21 联想(北京)有限公司 一种语音识别方法及电子设备
CN108735210A (zh) * 2018-05-08 2018-11-02 宇龙计算机通信科技(深圳)有限公司 一种语音控制方法及终端
CN108766423A (zh) * 2018-05-25 2018-11-06 三星电子(中国)研发中心 一种基于场景的主动唤醒方法和装置
CN108847221A (zh) * 2018-06-19 2018-11-20 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN108848011A (zh) * 2018-06-19 2018-11-20 广东美的制冷设备有限公司 家电设备及其语音交互方法和装置
CN109036461A (zh) * 2017-06-12 2018-12-18 杭州海康威视数字技术股份有限公司 一种通知信息的输出方法、服务器及监控系统
US20180366117A1 (en) * 2017-06-20 2018-12-20 Bose Corporation Audio Device with Wakeup Word Detection
CN109065036A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音识别的方法、装置、电子设备及计算机可读存储介质
CN109166580A (zh) * 2018-09-17 2019-01-08 珠海格力电器股份有限公司 一种语音反馈提示控制方法、系统及空调器
CN109256134A (zh) * 2018-11-22 2019-01-22 深圳市同行者科技有限公司 一种语音唤醒方法、存储介质及终端
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
CN109410919A (zh) * 2018-11-28 2019-03-01 深圳朗昇贸易有限公司 一种智能家居控制系统
CN109817219A (zh) * 2019-03-19 2019-05-28 四川长虹电器股份有限公司 语音唤醒测试方法及系统

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
WO2015117448A1 (zh) * 2014-08-22 2015-08-13 中兴通讯股份有限公司 语音识别的控制方法和装置
CN105469786A (zh) * 2014-08-22 2016-04-06 中兴通讯股份有限公司 语音识别的控制方法和装置
US20160077794A1 (en) * 2014-09-12 2016-03-17 Apple Inc. Dynamic thresholds for always listening speech trigger
CN105513588A (zh) * 2014-09-22 2016-04-20 联想(北京)有限公司 一种信息处理方法及电子设备
CN105094816A (zh) * 2015-07-09 2015-11-25 北京君正集成电路股份有限公司 一种降低智能设备功耗的方法及智能设备
CN107305774A (zh) * 2016-04-22 2017-10-31 腾讯科技(深圳)有限公司 语音检测方法和装置
CN107767863A (zh) * 2016-08-22 2018-03-06 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN106653013A (zh) * 2016-09-30 2017-05-10 北京奇虎科技有限公司 语音识别方法及装置
CN106354025A (zh) * 2016-10-31 2017-01-25 广州华凌制冷设备有限公司 一种基于语音识别的智能家电控制方法及装置、空调
CN109036461A (zh) * 2017-06-12 2018-12-18 杭州海康威视数字技术股份有限公司 一种通知信息的输出方法、服务器及监控系统
US20180366117A1 (en) * 2017-06-20 2018-12-20 Bose Corporation Audio Device with Wakeup Word Detection
CN108564948A (zh) * 2018-03-30 2018-09-21 联想(北京)有限公司 一种语音识别方法及电子设备
CN108735210A (zh) * 2018-05-08 2018-11-02 宇龙计算机通信科技(深圳)有限公司 一种语音控制方法及终端
CN108766423A (zh) * 2018-05-25 2018-11-06 三星电子(中国)研发中心 一种基于场景的主动唤醒方法和装置
CN108847221A (zh) * 2018-06-19 2018-11-20 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN108848011A (zh) * 2018-06-19 2018-11-20 广东美的制冷设备有限公司 家电设备及其语音交互方法和装置
CN109065036A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音识别的方法、装置、电子设备及计算机可读存储介质
CN109166580A (zh) * 2018-09-17 2019-01-08 珠海格力电器股份有限公司 一种语音反馈提示控制方法、系统及空调器
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
CN109256134A (zh) * 2018-11-22 2019-01-22 深圳市同行者科技有限公司 一种语音唤醒方法、存储介质及终端
CN109410919A (zh) * 2018-11-28 2019-03-01 深圳朗昇贸易有限公司 一种智能家居控制系统
CN109817219A (zh) * 2019-03-19 2019-05-28 四川长虹电器股份有限公司 语音唤醒测试方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110657561A (zh) * 2019-09-30 2020-01-07 广东美的制冷设备有限公司 空调器及其语音指令识别方法、控制装置和可读存储介质
CN110657561B (zh) * 2019-09-30 2021-04-27 广东美的制冷设备有限公司 空调器及其语音指令识别方法、控制装置和可读存储介质

Also Published As

Publication number Publication date
CN110197663B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN111223497B (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN103578470B (zh) 一种电话录音数据的处理方法及系统
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN111508474B (zh) 一种语音打断方法、电子设备及存储装置
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
CN109326289A (zh) 免唤醒语音交互方法、装置、设备及存储介质
US20130006633A1 (en) Learning speech models for mobile device users
CN111341325A (zh) 声纹识别方法、装置、存储介质、电子装置
CN110428806B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN104766608A (zh) 一种语音控制方法及装置
CN110335593A (zh) 语音端点检测方法、装置、设备及存储介质
EP3989217A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
EP4002363A1 (en) Method and apparatus for detecting an audio signal, and storage medium
CN112102850A (zh) 情绪识别的处理方法、装置、介质及电子设备
CN110097875A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110544468B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN110111776A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110689887B (zh) 音频校验方法、装置、存储介质及电子设备
CN109065026B (zh) 一种录音控制方法及装置
WO2019041871A1 (zh) 语音对象识别方法及装置
CN110197663A (zh) 一种控制方法、装置及电子设备
CN109271480B (zh) 一种语音搜题方法及电子设备
CN108922523B (zh) 位置提示方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant