CN114120603B - 语音控制方法、耳机和存储介质 - Google Patents
语音控制方法、耳机和存储介质 Download PDFInfo
- Publication number
- CN114120603B CN114120603B CN202111428705.XA CN202111428705A CN114120603B CN 114120603 B CN114120603 B CN 114120603B CN 202111428705 A CN202111428705 A CN 202111428705A CN 114120603 B CN114120603 B CN 114120603B
- Authority
- CN
- China
- Prior art keywords
- voice signal
- voice
- earphone
- signal
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000000875 corresponding effect Effects 0.000 claims abstract description 42
- 230000001276 controlling effect Effects 0.000 claims abstract description 12
- 230000001133 acceleration Effects 0.000 claims description 27
- 230000008859 change Effects 0.000 claims description 14
- 210000000613 ear canal Anatomy 0.000 claims description 5
- 238000001514 detection method Methods 0.000 description 20
- 210000003027 ear inner Anatomy 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 210000000883 ear external Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/18—Status alarms
- G08B21/24—Reminder alarms, e.g. anti-loss alarms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Emergency Management (AREA)
- Multimedia (AREA)
- Headphones And Earphones (AREA)
Abstract
本发明公开了一种语音控制方法、耳机和存储介质,语音控制方法包括:获取第一麦克风采集的第一语音信号;在满足预设条件时,获取第二麦克风采集的第二语音信号;在第一语音信号与第二语音信号匹配时,确定第一语音信号和/或第二语音信号对应的控制指令;根据控制指令控制耳机执行相应动作。本发明通过将外界采集到的第一语音信号与耳道内采集到的第二语音信号进行匹配,以确定是否为用户本人说话,从而减少耳机的误触发操作。
Description
技术领域
本发明涉及便携式收听设备领域,尤其涉及一种语音控制方法、耳机和存储介质。
背景技术
目前,TWS(True Wireless Stereo,真正的无线立体声)耳机在语音控制和语音监听方面还存在一些亟待提升的问题。语音控制是需要麦克风一直处于开启的状态,获取周围外界的语音信号,其中,为了更好的采集外界更丰富的语音信号,使用多麦克风采集语音信号,基于此,如果耳机佩戴者和周围的用户相距比较近,那么其他用户的语音有可能触发耳机执行相应的控制动作,从而导致耳机误触发的问题。
发明内容
本发明的主要目的在于提供一种语音控制方法、耳机和存储介质,旨在解决耳机误触发的技术问题。
为实现上述目的,本发明提供一种语音控制方法,应用于耳机,所述耳机包括用于采集外界语音信号的第一麦克风,以及用于采集耳道内语音信号的第二麦克风,所述语音控制方法包括以下步骤:
获取所述第一麦克风采集的第一语音信号;
在满足预设条件时,获取所述第二麦克风采集的第二语音信号;
在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令;
根据所述控制指令控制所述耳机执行相应动作。
可选地,所述在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令的步骤之前,包括:
获取所述耳机的输入信号;
根据所述输入信号和所述第二语音信号确定目标信号;
在所述目标信号与所述第一语音信号的相关性大于预设值时,判定所述第一语音信号与所述第二语音信号匹配。
可选地,所述在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令的步骤包括:
在所述第一语音信号与所述第二语音信号匹配时,提取所述第一语音信号的第一文本信息和/或所述第二语音信号中的第二文本信息;
根据所述第一文本信息和/或所述第二文本信息确定所述控制指令,所述控制指令至少包括唤醒指令、音量调节指令和音频切换指令。
可选地,所述根据所述第一文本信息和/或所述第二文本信息确定所述控制指令的步骤包括:
根据所述第一文本信息确定第一关键词,以及根据所述第二文本信息确定第二关键词;
根据所述第一关键词和/或所述第二关键词确定目标关键词;
在所述目标关键词与预设关键词匹配时,将所述唤醒指令作为所述控制指令。
可选地,所述在满足预设条件时,获取所述第二麦克风采集的第二语音信号的步骤之前,包括:
在所述第一语音信号中识别到目标信号时,确定满足所述预设条件,其中,在满足所述预设条件时,进入语音识别模式。
可选地,所述在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令的步骤之前,还包括:
在满足所述预设条件时,检测所述耳机的加速度信息;
根据检测到所述加速度信息确定所述耳机的加速度的变化阈值;
当所述变化阈值大于或等于预设阈值时,将所述第一语音信号与所述第二语音信号进行匹配。
可选地,所述根据检测到所述加速度信息确定所述耳机的加速度的变化阈值的步骤之后,包括:
当所述变化阈值小于所述预设阈值时,退出语音识别模式。
可选地,所述根据所述控制指令控制所述耳机执行相应动作的步骤之后,包括:
当预设时间内在第一语音信号和/或所述第二语音信号中未检测到目标信号时,退出语音识别模式;
或者,检测所述耳机的语音识别状态,当所述语音识别状态为预设状态时,退出语音识别模式。
此外,为实现上述目的,本发明还提供一种耳机,所述耳机包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音控制程序,所述处理器执行所述语音控制程序时实现如上所述语音控制方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有语音控制程序,所述处理器执行所述语音控制程序时实现如上所述语音控制方法的步骤。
本发明提供一种语音控制方法,通过获取第一麦克风采集的第一语音信号;在满足预设条件时,获取第二麦克风采集的第二语音信号;在第一语音信号与第二语音信号匹配时,确定第一语音信号和/或第二语音信号对应的控制指令;根据控制指令控制耳机执行相应动作。本发明通过将外界采集到的第一语音信号与耳道内采集到的第二语音信号进行匹配,以确定是否为用户本人说话,从而减少耳机的误触发操作。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的耳机的结构示意图;
图2为本发明语音控制方法第一实施例的流程示意图;
图3为本发明语音控制方法第一实施例中步骤S30的细化流程示意图;
图4为本发明语音控制方法第一实施例中步骤S30之后的流程示意图;
图5为本发明语音控制方法第一实施例中步骤S40之后的流程示意图;
图6为本发明语音控制方法的操作流程示意图;
图7为本发明语音检测模式的结构示意图;
图8为本发明语音识别模式的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取所述第一麦克风采集的第一语音信号;在满足预设条件时,获取所述第二麦克风采集的第二语音信号;在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令;根据所述控制指令控制所述耳机执行相应动作。
由于耳机为了更好的采集外界更丰富的语音信号,通常使用多麦克风采集语音信号,基于此,如果耳机佩戴者和周围的用户相距比较近,那么其他用户的语音有可能触发耳机执行相应的控制动作,从而导致耳机误触发的问题。
本发明提供一种解决方案,通过获取第一麦克风采集的第一语音信号;在满足预设条件时,获取第二麦克风采集的第二语音信号;在第一语音信号与第二语音信号匹配时,确定第一语音信号和/或第二语音信号对应的控制指令;根据控制指令控制耳机执行相应动作。本发明通过将外界采集到的第一语音信号与耳道内采集到的第二语音信号进行匹配,以确定是否为用户本人说话,从而减少耳机的误触发操作。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的耳机结构示意图。
如图1所示,该耳机可以包括:处理器1001,例如中央处理器(Central ProcessingUnit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对耳机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及语音控制程序。
在图1所示的耳机中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;在终端为耳机时,处理器1001可以用于调用存储器1005中语音控制程序,并执行以下操作:
获取所述第一麦克风采集的第一语音信号;
在满足预设条件时,获取所述第二麦克风采集的第二语音信号;
在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令;
根据所述控制指令控制所述耳机执行相应动作。
本发明实施例提供了一种语音控制方法,参照图2,图2为本发明语音控制方法第一实施例的流程示意图。
本实施例的语音控制方法应用于耳机,所述耳机包括用于采集外界语音信号的第一麦克风,以及用于采集耳道内语音信号的第二麦克风,所述语音控制方法包括以下步骤:
步骤S10,获取所述第一麦克风采集的第一语音信号;
需要说明的是,耳机的语音控制包括两个阶段:第一个阶段是VAD(VoiceActivity Detection,语音活动检测/语音端点检测)阶段,第二个阶段是KWS(KeywordSpotting,关键词识别/检测)阶段。参考图7,在第一个阶段中,麦克风A(Mic A)直接与蓝牙芯片连接,用于采集外界的语音信号,然后通过Splitter(语音分离器)将Mic A采集的语音信号分成两路,其中一路存储至Kws_buffer(即关键词识别缓存区),用于数据的暂存,另一路存储至VAD识别模块(VAD Operator),用于语音控制。
为了更好地采集耳道内和外界的语音信号,本发明的耳机包括至少一个用于采集外界语音信号的第一麦克风,以及至少一个用于采集耳道内语音信号的第二麦克风。
在本实施例中,耳机创建VAD链路(即进入语音检测模式)后,通过其中一个外耳麦克风(即第一麦克风)采集外界的语音信号(即第一语音信号)。
步骤S20,在满足预设条件时,获取所述第二麦克风采集的第二语音信号;
当外耳麦克风采集到外界的第一语音信号后,耳机自动对该第一语音信号进行识别,如果在第一语音信号中识别到目标信号,则确定满足预设条件,其中,目标信号是指目标用户的语音信号,可以理解是的,预设条件是指在外界语音信号中检测到目标用户的声音。例如,耳机中预先存储有目标用户的声纹信息,当采集到外界语音信号时,从外界语音信号中提取对应的声纹信息,然后,将该声纹信息与目标用户的声纹信息进行匹配,如果匹配相似度达到设定条件(如大于98%)时,确定在外界语音信号中检测到目标用户的声音,即满足预设条件。
当在外界语音信号中检测到目标用户的声音后,开启内耳麦克风(即第二麦克风)的检测功能,以采集耳道内的第二语音检测信号。可以理解的是,用户说话产生的声音会通过口腔传输到耳道内,如此,即可通过内耳麦克风采集耳道内的语音信号,从而减少外部声音的干扰,继而提高语音识别的准确性。
步骤S30,在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令;
需要说明的是,耳道内的语音信号检测一般包括两种情况,一种是目标用户在说话时,耳机没有播放音频,即没有其他杂音,此时,内耳麦克风检测到的只有目标用户说话的声音;而另一种情况是目标用户在说话时,耳机在播放音频,此时,内耳麦克风既可以检测到音频信号,又可以检测到目标用户的声音,对于这种情况,耳机需要对内耳麦克风采集到的语音信号进行过滤处理,以滤除杂音,如音频信号。
耳机是基于控制终端的输入信号执行相应的操作,因此,可以通过获取耳机的输入信号,然后,根据输入信号和第二语音信号确定目标信号(即目标用户的声音),在目标信号与第一语音信号的相关性大于预设值时,判定第一语音信号与第二语音信号匹配。一实施例中,假设输入信号为:播放音频A,耳机在接收到该输入信号后,自动播放音频A,此时,如果用户想要调节当前的播放音量,可通过语音控制调节音量,假设用户发出的语音控制指令为:降低音量,那么内耳麦克风可以检测到音频A和用户的语音信号,而用户的语音信号为有用信号,因此耳机需要将音频A进行过滤,得到用户的语音信号。进一步地,将该语音信号与外界采集到语音信号进行匹配,如果两个语音信号的相关性大于预设值(如98%),则说明内耳采集到的用户的语音信号与外界采集到的语音信号相同,也即说明用户本人在说话。其中,如果两个语音信号的相关性小于预设值,则说明内耳采集到的用户的语音信号与外界采集到的语音信号不相同,也即说明用户本人没有在说话,此时,销毁KWS链路(即退出语音识别模式),然后,重新创建VAD链路(即进入语音检测模式),开始新一轮的语音检测。
在确定用户本人在说话后,需要对采集到的内外语音信号进行识别,以确定语音信号中的控制指令(如唤醒指令、音量调节指令、音频切换指令等),即确定第一语音信号和/或第二语音信号对应的控制指令。例如,可以直接通过耳道内采集到的语音信号,或者外界采集到的语音信号确定对应的控制指令;为了提高识别的准确性,还可以通过耳道内采集到的语音信号和外界采集到的语音信号共同确定对应的控制指令。
步骤S40,根据所述控制指令控制所述耳机执行相应动作。
在本实施例中,耳机在接收到用户的语音控制指令后,基于该控制指令执行相应动作,例如,假设控制指令为唤醒指令,则基于该唤醒指令唤醒耳机;假设控制指令为音频切换指令,则基于该音频切换指令切换下一首音频。
本实施例通过在满足预设条件时,获取第二麦克风采集的第二语音信号;在第一语音信号与第二语音信号匹配时,确定第一语音信号和/或第二语音信号对应的控制指令;根据控制指令控制耳机执行相应动作。本发明通过将外界采集到的第一语音信号与耳道内采集到的第二语音信号进行匹配,以确定是否为用户本人说话,从而减少耳机的误触发操作。
进一步的,参照图3,提出本发明语音控制方法第二实施例。
所述语音控制方法第二实施例与第一实施例的区别在于,所述步骤S30包括:
步骤S31,在所述第一语音信号与所述第二语音信号匹配时,提取所述第一语音信号的第一文本信息和/或所述第二语音信号中的第二文本信息;
步骤S32,根据所述第一文本信息和/或所述第二文本信息确定所述控制指令,所述控制指令至少包括唤醒指令、音量调节指令和音频切换指令。
在本实施例中,耳机在将第一语音信号与第二语音信号匹配时,提取第一语音信号的第一文本信息和/或第二语音信号中的第二文本信息,然后,根据第一文本信息和/或第二文本信息确定控制指令,其中,控制指令至少包括唤醒指令、音量调节指令和音频切换指令。例如,耳机在获取到第一语音信号和第二语音信号后,对语音信号进行预处理,然后将该语音信号分别转换为对应的文本信息,再基于该文本信息确定控制指令。
一实施例中,在提取第一语音信号的第一文本信息以及第二语音信号中的第二文本信息后,进一步根据第一文本信息确定第一关键词,以及根据第二文本信息确定第二关键词,然后,根据第一关键词和/或第二关键词确定目标关键词,在目标关键词与预设关键词匹配时,将唤醒指令作为控制指令。例如,耳机中构建有关键词库,用于存储各个控制指令的关键词,如“唤醒”、“降低音量”、“提高音量”、“切换下一首”等,在获取到第一文本信息和第二文本信息后,将该文本信息与关键词库中的关键词进行匹配,以确定文本信息中的关键词,假设匹配得到的关键词为“唤醒”,则将唤醒指令作为控制指令。
本实施例通过提取第一语音信号和/或第二语音信号中的关键词确定对应的控制指令,以使耳机基于该控制指令执行对应的动作,从而提高控制的准确性。
进一步的,参照图4,提出本发明语音控制方法第三实施例。
所述语音控制方法第三实施例与第二实施例的区别在于,所述步骤S30之前,还包括:
步骤S33,在满足所述预设条件时,检测所述耳机的加速度信息;
步骤S34,根据检测到所述加速度信息确定所述耳机的加速度的变化阈值;
步骤S35,当所述变化阈值大于或等于预设阈值时,将所述第一语音信号与所述第二语音信号进行匹配。
需要说明的是,本发明的耳机中设有加速度传感器(G-sensor),用于检测耳机的加速度信息,其中,加速度传感器可以是三轴加速度传感器,即具有三个传感器,从而能够分别检测相互正交的三个轴,即X轴、Y轴、Z轴方向的加速度,并以三路独立的信号的形式向外输出;加速度传感器还可以是四轴及四轴以上的加速度传感器。
耳机在创建VAD链路(即进入语音检测模式)后,如果在外界采集的语音信号中识别到目标信号,则说明在外界采集到的语音信号中识别到目标用户的声音,此时,VAD识别模块(VAD Operator)会向应用层发送识别到目标用户的声音的消息,并开启加速度传感器的检测功能,以检测耳机的加速度信息;同时,耳机还会销毁VAD链路(即退出语音检测模式),并创建KWS链路(即进入语音识别模式)。
一实施例中,参考图8,耳机创建KWS链路时,需要打开两路,即麦克风A和麦克风B,以采集外界的语音信号。采集到的外界语音信号经过一个外部的codec(编码译码器)的处理,然后,通过I2S的信号传输通道将语音信号经过Beamforming(麦克风阵列语音增强),再将增强后的语音信号存储至KWS_buffe(关键词识别缓存区),最后将语音信号传输到KWS识别模块(KWS Operator)。此时,KWS的识别模块会对该语音信号进行识别,当识别到关键词(即语音控制指令对应的关键词)后,向应用层传输消息,同时对G-sensor的状态进行判断,以确定是否触发G-sensor。具体地,通过G-sensor获取耳机的加速度信息,然后,基于检测到的加速度信息确定耳机的加速度的变化阈值,当变化阈值大于或等于预设阈值时,将第一语音信号与所述第二语音信号进行匹配。可以理解的是,当变化阈值大于或等于预设阈值时,说明G-sensor触发,即初步确定目标用户本人在说话,此时,需要进一步验证该检测结果是否正确,即需要将耳道内采集到的语音信号与外界采集到的语音信号进行匹配。
一实施例中,如果耳机的加速度的变化阈值小于预设阈值,说明G-sensor没有触发,即目标用户本人没有说话,此时,需要销毁KWS链路(即退出语音识别模式)。
本实施例首先通过G-sensor的状态判断G-sensor是否被触发,如果被触发,则再进一步将内耳麦克风采集的语音信号和外部麦克风采集的语音信号进行匹配,从而检测是否为本人说话,继而减少耳机的误触发。其次,如果G-sensor没有被触发,则退出语音识别模式,从而减少了耳机功耗的消耗,继而提高耳机的续航时长。
进一步的,参照图5,提出本发明语音控制方法第四实施例。
所述语音控制方法第四实施例与第三实施例的区别在于,所述步骤S40之后,包括:
步骤S41,当预设时间内在第一语音信号和/或所述第二语音信号中未检测到目标信号时,退出语音识别模式;
步骤S42,检测所述耳机的语音识别状态,当所述语音识别状态为预设状态时,退出语音识别模式。
在本实施例中,如果耳机在一段时间内在第一语音信号和/或第二语音信号中没有检测到目标信号,此时,自动退出语音识别模式,即销毁KWS链路。例如,如果耳机在2分钟内没有检测到目标用户本人在说话,自动退出语音识别模式,然后,进入到语音检测模式(参考图7),可以理解的是,将外耳麦克风从两个切换到一个的过程,KWS链路随之销毁,并建立VAD链路,然后,重新语音检测阶段进行相应的动作。
一实施例中,每间隔预设时间(如5s)会检测耳机的语音识别状态,如果语音识别状态为空闲状态,即耳机当前不用执行检测任务,则退出语音识别模式。例如,每间隔5s检测KWS模块的状态,并对KWS模块上传的score(分数值,用于表征KWS模块的状态)进行判断,如果score返回的数值表明正在检测中,则再次执行KWS模块的状态检查,如果score返回的数值表明KWS没有在语音检测,此时需要销毁KWS链路(即退出语音识别模式)。
本实施例在预设时间内未检测到语音信号,或者在耳机处于空闲状态时,退出语音识别模式,如此,可以减少耳机功耗的消耗,从而提高耳机的续航能力。
为了更好地解析说明本发明的语音控制方法,参考图6,图6为本发明语音控制方法的操作流程示意图。
在本实施例中,耳机创建VAD链路,然后通过外耳麦克风采集外界的语音信号,如果VAD链路在外界语音信号中检测到目标信号(即目标用户的声音),则开启G-sensor的检测功能,以检测耳机的加速度信息,并开启内耳麦克风,以检测耳道内的语音信号。同时,耳机还会自动销毁VAD链路,然后,创建KWS链路,并开启麦克风A和麦克风B,基于麦克风A和麦克风B检测外界的语音信号,如果在外界的语音信号中检测到关键词,则向应用层传输消息,同时对G-sensor的状态进行判断,以确定是否触发G-sensor,如果G-sensor没有触发,即目标用户本人没有说话,此时,需要销毁KWS链路;如果G-sensor触发,即初步确定目标用户本人在说话,此时,需要进一步验证该检测结果是否正确,即需要将耳道内采集到的语音信号与外界采集到的语音信号进行匹配。如果耳道内采集到的语音信号与外界采集到的语音信号不匹配,则说明目标用户本人没有说话,此时,需要销毁KWS链路;如果耳道内采集到的语音信号与外界采集到的语音信号匹配,则说明目标用户本人在说话,此时,需要识别语音信号中的关键词,并向应用层发送消息,然后,根据识别到的关键词确定控制指令,基于该控制指令控制耳机执行对应的动作。进一步地,耳机每间隔5s检测KWS识别模块的状态,即获取KWS识别模块上报的Score,然后基于Score确定KWS识别模块的状态,如果KWS识别模块的状态为检测状态,则继续执行每间隔5s检测KWS识别模块的状态;如果KWS识别模块的状态为空闲状态,则销毁KWS链路。
本实施例通过G-sensor的状态判断G-sensor是否被触发,如果被触发,则再进一步将内耳麦克风采集的语音信号和外部麦克风采集的语音信号进行匹配,从而检测是否为本人说话,继而减少耳机的误触发。
此外,本发明还提供一种耳机,所述耳机包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音控制程序,所述耳机通过获取第一麦克风采集的第一语音信号;在满足预设条件时,获取第二麦克风采集的第二语音信号;在第一语音信号与第二语音信号匹配时,确定第一语音信号和/或第二语音信号对应的控制指令;根据控制指令控制耳机执行相应动作。本实施例通过将外界采集到的第一语音信号与耳道内采集到的第二语音信号进行匹配,以确定是否为用户本人说话,从而减少耳机的误触发操作。
此外,本发明还提供一种存储介质,所述存储介质上存储有语音控制程序,所述处理器执行所述语音控制程序时实现如上所述语音控制方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种语音控制方法,其特征在于,应用于耳机,所述耳机包括用于采集外界语音信号的第一麦克风,以及用于采集耳道内语音信号的第二麦克风,所述语音控制方法包括以下步骤:
获取所述第一麦克风采集的第一语音信号;
在所述第一语音信号满足预设条件时,获取所述第二麦克风采集的第二语音信号;
在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令;
根据所述控制指令控制所述耳机执行相应动作;
所述在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令的步骤之前,包括:
获取所述耳机的输入信号;
根据所述输入信号和所述第二语音信号确定目标信号;
在所述目标信号与所述第一语音信号的相关性大于预设值时,判定所述第一语音信号与所述第二语音信号匹配。
2.如权利要求1所述的语音控制方法,其特征在于,所述在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令的步骤包括:
在所述第一语音信号与所述第二语音信号匹配时,提取所述第一语音信号的第一文本信息和/或所述第二语音信号中的第二文本信息;
根据所述第一文本信息和/或所述第二文本信息确定所述控制指令,所述控制指令至少包括唤醒指令、音量调节指令和音频切换指令。
3.如权利要求2所述的语音控制方法,其特征在于,所述根据所述第一文本信息和/或所述第二文本信息确定所述控制指令的步骤包括:
根据所述第一文本信息确定第一关键词,以及根据所述第二文本信息确定第二关键词;
根据所述第一关键词和/或所述第二关键词确定目标关键词;
在所述目标关键词与预设关键词匹配时,将所述唤醒指令作为所述控制指令。
4.如权利要求1所述的语音控制方法,其特征在于,所述在满足预设条件时,获取所述第二麦克风采集的第二语音信号的步骤之前,包括:
在所述第一语音信号中识别到目标信号时,确定满足所述预设条件,其中,在满足所述预设条件时,进入语音识别模式。
5.如权利要求1所述的语音控制方法,其特征在于,所述在所述第一语音信号与所述第二语音信号匹配时,确定所述第一语音信号和/或所述第二语音信号对应的控制指令的步骤之前,还包括:
在满足所述预设条件时,检测所述耳机的加速度信息;
根据检测到所述加速度信息确定所述耳机的加速度的变化阈值;
当所述变化阈值大于或等于预设阈值时,将所述第一语音信号与所述第二语音信号进行匹配。
6.如权利要求5所述的语音控制方法,其特征在于,所述根据检测到所述加速度信息确定所述耳机的加速度的变化阈值的步骤之后,包括:
当所述变化阈值小于所述预设阈值时,退出语音识别模式。
7.如权利要求1所述的语音控制方法,其特征在于,所述根据所述控制指令控制所述耳机执行相应动作的步骤之后,包括:
当预设时间内在第一语音信号和/或所述第二语音信号中未检测到目标信号时,退出语音识别模式;
或者,检测所述耳机的语音识别状态,当所述语音识别状态为预设状态时,退出语音识别模式。
8.一种耳机,其特征在于,所述耳机包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的语音控制程序,所述语音控制程序配置为实现如权利要求1至7中任一项所述的语音控制方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有语音控制程序,所述语音控制程序被处理器执行时实现如权利要求1至7任一项所述的语音控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111428705.XA CN114120603B (zh) | 2021-11-26 | 2021-11-26 | 语音控制方法、耳机和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111428705.XA CN114120603B (zh) | 2021-11-26 | 2021-11-26 | 语音控制方法、耳机和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114120603A CN114120603A (zh) | 2022-03-01 |
CN114120603B true CN114120603B (zh) | 2023-08-08 |
Family
ID=80370845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111428705.XA Active CN114120603B (zh) | 2021-11-26 | 2021-11-26 | 语音控制方法、耳机和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114120603B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842841B (zh) * | 2022-03-22 | 2024-01-05 | 国家珠宝检测中心(广东)有限责任公司 | 基于语音识别技术的珠宝终端机交互控制方法及其装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016208797A1 (ko) * | 2015-06-25 | 2016-12-29 | 엘지전자 주식회사 | 헤드셋 및 그 제어 방법 |
CN111063363A (zh) * | 2018-10-16 | 2020-04-24 | 湖南海翼电子商务股份有限公司 | 一种语音获取方法、音频设备和具有存储功能的装置 |
CN111105796A (zh) * | 2019-12-18 | 2020-05-05 | 杭州智芯科微电子科技有限公司 | 无线耳机控制装置及控制方法、语音控制设置方法和系统 |
WO2020188250A1 (en) * | 2019-03-18 | 2020-09-24 | Cirrus Logic International Semiconductor Limited | Compensation of own voice occlusion |
CN111933140A (zh) * | 2020-08-27 | 2020-11-13 | 恒玄科技(上海)股份有限公司 | 检测耳机佩戴者的语音的方法、装置及存储介质 |
CN112259124A (zh) * | 2020-10-21 | 2021-01-22 | 交互未来(北京)科技有限公司 | 基于音频频域特征的对话过程捂嘴手势识别方法 |
CN112420035A (zh) * | 2018-06-29 | 2021-02-26 | 华为技术有限公司 | 一种语音控制方法、可穿戴设备及终端 |
CN112995833A (zh) * | 2021-03-04 | 2021-06-18 | 歌尔科技有限公司 | 耳机的语音收集方法、耳机及可读存储介质 |
WO2021184549A1 (zh) * | 2020-03-19 | 2021-09-23 | 清华大学 | 单耳耳机、智能电子设备、方法和计算机可读介质 |
-
2021
- 2021-11-26 CN CN202111428705.XA patent/CN114120603B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016208797A1 (ko) * | 2015-06-25 | 2016-12-29 | 엘지전자 주식회사 | 헤드셋 및 그 제어 방법 |
CN112420035A (zh) * | 2018-06-29 | 2021-02-26 | 华为技术有限公司 | 一种语音控制方法、可穿戴设备及终端 |
CN111063363A (zh) * | 2018-10-16 | 2020-04-24 | 湖南海翼电子商务股份有限公司 | 一种语音获取方法、音频设备和具有存储功能的装置 |
WO2020188250A1 (en) * | 2019-03-18 | 2020-09-24 | Cirrus Logic International Semiconductor Limited | Compensation of own voice occlusion |
CN111105796A (zh) * | 2019-12-18 | 2020-05-05 | 杭州智芯科微电子科技有限公司 | 无线耳机控制装置及控制方法、语音控制设置方法和系统 |
WO2021184549A1 (zh) * | 2020-03-19 | 2021-09-23 | 清华大学 | 单耳耳机、智能电子设备、方法和计算机可读介质 |
CN111933140A (zh) * | 2020-08-27 | 2020-11-13 | 恒玄科技(上海)股份有限公司 | 检测耳机佩戴者的语音的方法、装置及存储介质 |
CN112259124A (zh) * | 2020-10-21 | 2021-01-22 | 交互未来(北京)科技有限公司 | 基于音频频域特征的对话过程捂嘴手势识别方法 |
CN112995833A (zh) * | 2021-03-04 | 2021-06-18 | 歌尔科技有限公司 | 耳机的语音收集方法、耳机及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114120603A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11696063B2 (en) | Automatic active noise reduction (ANR) control to improve user interaction | |
EP2267695B1 (en) | Controlling music players using environment audio analysis | |
CN110268470B (zh) | 音频设备滤波器修改 | |
US20190295540A1 (en) | Voice trigger validator | |
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
CN110493678B (zh) | 耳机的控制方法、装置、耳机和存储介质 | |
JP2019117623A (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
CN112585676A (zh) | 生物特征认证 | |
GB2609093A (en) | Speaker identification | |
US20180174574A1 (en) | Methods and systems for reducing false alarms in keyword detection | |
WO2021159369A1 (zh) | 一种用于降噪的助听方法、装置、芯片、耳机及存储介质 | |
CN114120603B (zh) | 语音控制方法、耳机和存储介质 | |
CN111491236A (zh) | 一种主动降噪耳机及其唤醒方法、装置及可读存储介质 | |
CN112911441A (zh) | 降噪方法、装置、音频设备和计算机可读存储介质 | |
CN110234044A (zh) | 一种语音唤醒方法、语音唤醒装置及耳机 | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
CN112399297A (zh) | 一种耳机及其语音唤醒方法、计算机存储介质 | |
CN111028838A (zh) | 一种语音唤醒方法、设备及计算机可读存储介质 | |
US20190385593A1 (en) | Method for controlling the transmission of data between at least one hearing device and a peripheral device of a hearing device system and an associated hearing device system | |
CN107680592A (zh) | 一种移动终端语音识别方法、及移动终端及存储介质 | |
GB2526980A (en) | Sensor input recognition | |
JP6874437B2 (ja) | コミュニケーションロボット、プログラム及びシステム | |
CN110197663B (zh) | 一种控制方法、装置及电子设备 | |
CN111800700B (zh) | 环境中对象提示方法、装置、耳机设备及存储介质 | |
CN106469553A (zh) | 语音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |