CN107274895A - 一种语音识别设备及方法 - Google Patents

一种语音识别设备及方法 Download PDF

Info

Publication number
CN107274895A
CN107274895A CN201710711864.8A CN201710711864A CN107274895A CN 107274895 A CN107274895 A CN 107274895A CN 201710711864 A CN201710711864 A CN 201710711864A CN 107274895 A CN107274895 A CN 107274895A
Authority
CN
China
Prior art keywords
audio
frequency information
information
speech recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710711864.8A
Other languages
English (en)
Other versions
CN107274895B (zh
Inventor
杨珣
杨向东
赵星星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201710711864.8A priority Critical patent/CN107274895B/zh
Publication of CN107274895A publication Critical patent/CN107274895A/zh
Priority to US16/006,363 priority patent/US10861447B2/en
Application granted granted Critical
Publication of CN107274895B publication Critical patent/CN107274895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level

Abstract

本发明涉及一种语音识别设备及方法,用以解决目前语音识别过程中,对于嘈杂环境中多人讲话时,却无法提升语音识别效果的问题。该设备包括:语音识别模块,采集音频信息并进行语音识别;环境判断模块,当语音识别模块识别出的语义内容无法与语义库中的内容匹配时,判断音频信息是否包括环境嘈杂音频信息与用户音频信息;主控制模块,当音频信息包括环境嘈杂音频信息与用户音频信息时,根据音频信息的输入音量和电压幅值,确定采集音频信息的条件,进而可以优化下一次采集到的音频信息,并在语音识别模块采集音频信息,启动下一次语音识别过程时,提高语音识别的效果。

Description

一种语音识别设备及方法
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别设备及方法。
背景技术
语音识别技术是指机器把音频输入转换为文字或命令的技术。在语音识别过程中,尤其是麦克风阵列具有远场识别功能时,音频信号采集的灵敏度会比较高。用户周围如果有其他不相干的人说话,麦克风会同时采集到多个人的声音,而且不相关部分的声音幅值也会高于语音识别门限,导致用户与设备的交互以及周围其他人之间的闲聊均被设备采集,使语音识别模块无法判断用户的意图,从而难以做出正确的响应。
传统的音频信号处理方法有麦克风降噪,回声消除,主要是用来去除环境中喇叭或者设备产生的噪声;还有自动增益控制技术,主要用来稳定音频信号。但对于嘈杂环境中多人讲话时,却无法提升语音识别效果。
发明内容
本发明的目的是提供一种语音识别设备及方法,用以解决目前语音识别过程中,对于嘈杂环境中多人讲话时,却无法提升语音识别效果的问题。
本发明实施例提供的一种语音识别设备,所述设备包括:语音识别模块、环境判断模块和主控制模块;
所述语音识别模块,用于采集音频信息并进行语音识别;
所述环境判断模块,用于当所述语音识别模块识别出的语义内容无法与语义库中的内容匹配时,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息;
所述主控制模块,用于当所述音频信息包括环境嘈杂音频信息与用户音频信息时,根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并控制所述语音识别模块采集音频信息,启动下一次语音识别过程。
较佳的,所述主控制模块具体用于:
当所述音频信息包括环境嘈杂音频信息与用户音频信息时,判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量;
当所述音频信息的输入音量未达到最大可接收音量时,提示用户提高输入用户音频信息的音量,重新输入音频信息;以及,
控制所述语音识别模块降低采集音频信息的电压幅值,并采用降低后的电压幅值采集音频信息,启动下一次语音识别过程。
较佳的,所述主控制模块还用于:
在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后,在所述语音识别模块采集音频信息,启动下一次语音识别过程之前,当所述音频信息包括环境嘈杂音频信息与用户音频信息、且所述音频信息的输入音量达到最大可接收音量时,提示用户降低周围环境中的环境嘈杂音频信息,重新输入音频信息。
较佳的,所述主控制模块还用于:
在所述环境判断模块判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息之后,在所述语音识别模块采集音频信息,启动下一次语音识别过程之前,当所述音频信息不包括环境嘈杂音频信息时,提示用户重新输入音频信息。
较佳的,所述环境判断模块具体用于:
将所述语音识别过程中识别出的语义内容与语义库中的内容进行匹配;以及,判断所述音频信息的输入功率是否大于预设功率;
当所述语义内容与所述语义库中的内容匹配失败时;以及,当所述音频信息的输入功率大于预设功率时;确定所述音频信息包括环境嘈杂音频信息与用户音频信息;
否则,确定所述音频信息不包括环境嘈杂音频信息。
本发明实施例还提供了一种语音识别的方法,所述方法包括:
采集音频信息并进行语音识别;
当所述语音识别过程中识别出的语义内容无法与语义库中的内容匹配时,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息;
当所述音频信息包括环境嘈杂音频信息与用户音频信息时,根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并采集音频信息,启动下一次语音识别过程。
较佳的,所述根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,包括:
当所述音频信息包括环境嘈杂音频信息与用户音频信息时,判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量;
当所述音频信息的输入音量未达到最大可接收音量时,提示用户提高输入用户音频信息的音量,重新输入音频信息;以及,
降低采集音频信息的电压幅值,并采用降低后的电压幅值采集音频信息,启动下一次语音识别过程。
较佳的,在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后,在采集音频信息,启动下一次语音识别过程之前,还包括:
当所述音频信息的输入音量达到最大可接收音量时,提示用户降低周围环境中的环境嘈杂音频信息,重新输入音频信息。
较佳的,在判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息之后,在采集音频信息,启动下一次语音识别过程之前,还包括:
当所述音频信息不包括环境嘈杂音频信息时,提示用户重新输入音频信息。
较佳的,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息,包括:
判断所述语音识别过程中识别出的语义内容与语义库中的内容进行匹配;以及,判断所述音频信息的输入功率是否大于预设功率;
当所述语义内容与所述语义库中的内容匹配失败时;以及,当所述音频信息的输入功率大于预设功率时;确定所述音频信息包括环境嘈杂音频信息与用户音频信息;
否则,确定所述音频信息不包括环境嘈杂音频信息。
本发明有益效果如下:
本发明实施例提供的语音识别设备,在语音识别模块识别出的语义内容无法与语义库中的内容匹配时,通过环境判断模块来判断音频信息是否包括环境嘈杂音频信息与用户音频信息,在音频信息包括环境嘈杂音频信息与用户音频信息时,可以通过主控制模块根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,进而可以优化下一次采集到的音频信息,并在语音识别模块采集音频信息,启动下一次语音识别过程时,提高语音识别的效果。
附图说明
图1为本发明实施例提供的一种语音识别设备的结构示意图;
图2a为本发明实施例提供的音频信息未能被识别时的电压幅值的示意图;
图2b为本发明实施例提供的音频信息能够被识别时的电压幅值的示意图;
图3为本发明实施例提供的语音识别的方法的流程图;
图4为本发明实施例提供的语音识别方法的整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中提供的语音识别设备,主要是针对具有远场识别功能的语音交互设备,例如,智能画框、智能家居等。当然,也可以根据需要应用到其它的语音识别场景中,在此不做限定。
如图1所示,为本发明实施例提供的一种语音识别设备的结构示意图,该设备包括:语音识别模块101、环境判断模块102和主控制模块103;
语音识别模块101,用于采集音频信息并进行语音识别;
环境判断模块102,用于当语音识别模块101识别出的语义内容无法与语义库中的内容匹配时,判断音频信息是否包括环境嘈杂音频信息与用户音频信息;
主控制模块103,当音频信息包括环境嘈杂音频信息与用户音频信息,根据语音识别模块101采集音频信息时音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并控制语音识别模块101采集音频信息,启动下一次语音识别过程。
在具体实施时,如果语音识别设备处于嘈杂环境中,即有多人同时说话,语音设备对周围所有人说话的声音均进行采集和识别,导致识别出来的语义内容混乱,无法识别出用户的真实意图。即语音识别模块101采集到的音频信息中包括用户发出的用户音频信息、以及周围环境中其他人发出的环境嘈杂音频信息,而用户音频信息的电压幅值和环境嘈杂音频信息的电压幅值均大于语音识别设备能够识别的最低电压幅值。因此,针对该音频信息进行语音识别后,识别出的语义内容很可能与语义库中的内容不匹配,无法被正确响应。
具体的,环境判断模块102在确定针对音频信息的第一次语音识别失败,语音识别模块101识别出的语义内容无法与语义库中的内容匹配时,可以根据语义内容和音频信息的输入功率判断音频信息是否包括环境嘈杂音频信息与用户音频信息。具体的,环境判断模块102具体用于:判断语音识别过程中识别出的语义内容与语义库中的内容进行匹配;以及,判断音频信息的输入功率是否大于预设功率;当语义内容与语义库中的内容匹配失败时;以及,当音频信息的输入功率大于预设功率时;确定音频信息包括环境嘈杂音频信息与用户音频信息;否则,确定音频信息不包括环境嘈杂音频信息。
由于单独使用音频信息的输入功率判断的话,如果在安静的环境下,用户说话声音很大或者播放音乐时,音频输入功率也很大,但是不能判定属于本发明中所说的嘈杂环境。而如果单独使用语音识别模块识别出的语义内容进行判断,有时安静情况下用户发出的用户音频信息也可能无法得到与语义库中的内容匹配的语义内容。为了更准确地判断音频信息是否包括环境嘈杂音频信息与用户音频信息,可以采用两者结合的方式。
具体的,判断音频信息是否包括环境嘈杂音频信息与用户音频信息,可以结合语音识别模块反馈和采集到的音频信息的输入功率大小。当语音识别设备处于嘈杂环境中,语音识别设备可以同时采集并识别多个人谈话内容,会导致语音转文字的结果不合乎正常语法或者内容跟语义库中的内容无法匹配,导致语音识别模块无法推断用户的真实意图。此时再结合音频输入功率大小,如果输入功率比较大,说明当前环境比较嘈杂,音频信息中同时包括环境嘈杂音频信息与用户音频信息;否则,则认为该音频信息中不包括环境嘈杂音频信息。
当语音识别模块识别出的语义内容无法与语义库中的内容匹配时,需要从新采集音频信息,而当判断出音频信息包括环境嘈杂音频信息与用户音频信息,说明周围环境中有其他人说话(即有环境嘈杂音频信息)对语音识别造成了干扰。同时,由于本发明主要针对周围环境中人们说话声音对用户声音产生的干扰,并非指其他音乐或者喇叭鸣笛声等;因而为了减少周围人说话声音的干扰,主控制模块103可以根据语音识别模块101采集音频信息时音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,进而可以优化下一次采集到的音频信息,并在控制语音识别模块101根据确定的新的采集音频信息的条件采集音频信息,启动下一次语音识别过程时,提高语音识别的效果。
如果下一次语音识别过程识别出的语义内容能够与语义库中的内容匹配,则直接执行相应的操作,而若仍然不能与语义库中的内容匹配,则环境判断模块102继续判断音频信息是否包括环境嘈杂音频信息与用户音频信息,即语音识别设备中的各个模块继续重复上述各个操作。
下面具体介绍主控制模块如何确定下一次采集音频信息的条件。
较佳的,主控制模块103具体用于:当音频信息包括环境嘈杂音频信息与用户音频信息时,判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量;当音频信息的输入音量未达到最大可接收音量时,提示用户提高输入用户音频信息的音量,重新输入音频信息;以及,控制语音识别模块降低采集音频信息的电压幅值,并采用降低后的电压幅值采集音频信息,启动下一次语音识别过程。
在具体实施时,在确定音频信息包括环境嘈杂音频信息与用户音频信息之后,还需要进一步判断语音识别模块采集音频信息时音频信息的输入音量,如果音频信息的输入音量没有达到最大可接收音量,则主控制模块103会提示用户提高输入用户音频信息的音量,并重新输入音频信息。
另外,主控制模块103还可以控制语音识别模块101在下一次采集音频信息时,降低采集音频信息的电压幅值(即下一次采集音频信号的条件),并采用降低后的电压幅值采集音频信息,当用户输入音频信息的电压幅值大于能够进行语音识别的最低电压幅值、而周围环境中其他人发出的环境嘈杂音频信息的电压幅值小于最低电压幅值时,就能够仅使用户输入的音频信息能够被采集到;也就是说,此时采集到的音频信息中仅包括用户输入的音频信息,然后再针对新采集的音频信息启动下一次语音识别过程。
由于嘈杂环境中,周围环境中其他人和用户说话都容易被识别到,如图2a所示,为本发明实施例提供的音频信息未能被识别时的电压幅值的示意图,此时用户发出的用户音频信息和其他人发出的环境嘈杂音频信息的电压幅值均大于语音识别设备能够识别的最低电压幅值(即识别门限值),所以需要提示用户提高说话的声音,而后,主控制模块103可以控制语音识别模块101采用降低后的电压幅值采集音频信息。
由于采集音频信息时的电压幅值降低后,采集到的所有音频信息(包括用户音频信息和周围环境嘈杂音频信息)的电压幅值都会降低,但并不会改变语音识别的门限值(即语音识别的最低电压幅值)大小。由于已经提示用户提高输入用户音频信息的音量,因此用户输入用户音频信息的电压幅值会大于其他人输入环境嘈杂音频信息的电压幅值,当用户音频信息在识别门限值之上,而其他人输入的环境嘈杂音频信息在识别门限值之下时,即达到如图2b所示的情况时,即可准确识别用户发出的用户音频信息,图2b为本发明实施例提供的音频信息能够被识别时的电压幅值的示意图。
其中,上述语音识别模块101环境判断模块102和主控制模块103,只是为了清楚说明语音识别设备的结构所起的名称,并不用于限定本发明,实际上这些结构均为集成在语音识别设备内部的结构,可以设置为分开的单独结构,也可以设置为集成在一起的一体结构。
为了清楚的说明本发明实施例中提供的语音识别设备的硬件结构,现以一种比较常见的语音识别设备的结构为例进行说明,但本领域技术人员应该知道,在本发明公开的上述语音识别设备的基础上,很容易进行简单的变形,得到其它可行的硬件结构,本发明仅以一种为例进行说明,并不用于限定本发明。
例如,语音识别设备可以由以下硬件结构组成:麦克风阵列、数字电位器和主控制器。麦克风阵列采集到音频信号后,经过数字电位器进行分压,然后传递到主控制器。主控制器会根据语音识别模块识别出的语义内容和输入音频信号的功率对音频信息进行判断,当判断音频信息包括环境嘈杂音频信息与用户音频信息时,主控制器可以向数字电位器发送信号,调整分压电阻的阻值来调节音频信号输入电压,降低采集音频信息的电压幅值,并提示用户提高输入的用户音频信息的音量,当其他人输入的环境嘈杂音频信息降低到识别门限值之下,而用户说话的声音提高到识别门限值之上时,即可准确识别用户说的话。
在具体实施时,上述环境判断模块102在判断音频信息是否包括环境嘈杂音频信息与用户音频信息之后,会有两种结果,如果是同时包括环境嘈杂音频信息与用户音频信息,则按照上述介绍执行采集音频信息的步骤,如果判断出来不包括环境嘈杂音频信息,则直接提示用户重新输入音频信息,并采集该音频信息,启动下一次语音识别过程。
较佳的,主控制模块103还用于:在环境判断模块102判断音频信息是否包括环境嘈杂音频信息与用户音频信息之后,在语音识别模块采集音频信息,启动下一次语音识别过程之前,当音频信息不包括环境嘈杂音频信息时,提示用户重新输入音频信息。
在具体实施时,如果根据语义内容和音频信息的输入功率判断音频信息不包括环境嘈杂音频信息时,则可能由于其他原因(比如用户说话语速过快,或者说话不清楚)导致语音识别失败,此时则需要提示用户再重新输入音频信息。
在上述环境判断模块102判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量之后,也相应的会有两种结果,如果是没有达到最大可接收音量,则按照上述介绍执行采集音频信息的步骤。
较佳的,主控制模块还用于:在判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量之后,在语音识别模块采集音频信息,启动下一次语音识别过程之前,当音频信息的输入音量达到最大可接收音量时,提示用户降低周围环境中的环境嘈杂音频信息,重新输入音频信息。
具体的,如果环境判断模块判断出音频信息包括环境嘈杂音频信息与用户音频信息,而且主控制模块判断出来识别的音频信息已经达到最大可接收音量,则表示当前环境过于嘈杂,导致语音识别失败,需要提示用户降低周围环境中的环境嘈杂音频信息(即降低其他人说话的声音)并重新输入音频信息,然后再从新采集该音频信息启动下一次语音识别过程。
基于相同的发明构思,本发明实施例还提供了一种语音识别的方法。由于该方法解决技术问题的原理与本发明实施例提供的语音识别设备相似,其实施可参照语音识别设备的实施,重复之处不再赘述。
如图3所示,为本发明实施例提供的语音识别的方法的流程图。具体包括如下步骤:
步骤301,采集音频信息并进行语音识别;
步骤302,当语音识别过程中识别出的语义内容无法与语义库中的内容匹配时,判断音频信息是否包括环境嘈杂音频信息与用户音频信息;
步骤303,当音频信息包括环境嘈杂音频信息与用户音频信息,根据采集音频信息时音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并采集音频信息,启动下一次语音识别过程。
较佳的,根据采集音频信息时音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,包括:
当音频信息包括环境嘈杂音频信息与用户音频信息时,判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量;当音频信息的输入音量未达到最大可接收音量时,提示用户提高输入用户音频信息的音量,重新输入音频信息;以及,降低采集音频信息的电压幅值,并采用降低后的电压幅值采集音频信息,启动下一次语音识别过程。
较佳的,在判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量之后,在采集音频信息,启动下一次语音识别过程之前,还包括:
当音频信息包括环境嘈杂音频信息与用户音频信息时,提示用户降低周围环境中的环境嘈杂音频信息,重新输入音频信息。
较佳的,在判断音频信息是否包括环境嘈杂音频信息与用户音频信息之后,在采集音频信息,启动下一次语音识别过程之前,还包括:
当音频信息不包括环境嘈杂音频信息时,提示用户重新输入音频信息。
较佳的,判断音频信息是否包括环境嘈杂音频信息与用户音频信息,包括:
判断语音识别过程中识别出的语义内容与语义库中的内容进行匹配;以及,判断音频信息的输入功率是否大于预设功率;
当语义内容与语义库中的内容匹配失败时;以及,当音频信息的输入功率大于预设功率时;确定音频信息包括环境嘈杂音频信息与用户音频信息;
否则,确定音频信息不包括环境嘈杂音频信息。
为了清楚的说明本发明实施例提供的语音识别的方法,如图4所示,给出了本发明实施例提供的语音识别方法的整体流程图,具体包括如下步骤:
步骤401,采集音频信息并进行语音识别;执行步骤402;
步骤402,判断识别出的语义内容是否能够与语义库中的内容匹配;若是,则对语义内容进行响应并结束流程,否则,执行步骤403。
步骤403,判断音频信息是否包括环境嘈杂音频信息与用户音频信息;若是,执行步骤404,否则,执行步骤406;
步骤404,判断语音识别模块采集音频信息时音频信息的输入音量是否达到最大可接收音量;若是,执行步骤405,否则,执行步骤407;
步骤405,提示用户提高输入用户音频信息的音量,重新输入音频信息;降低采集音频信息的电压幅值,并采用降低后的电压幅值采集音频信息;返回继续执行步骤401;
步骤406,提示用户重新输入音频信息;并返回继续执行步骤401;
步骤407,提示用户降低周围环境中的环境嘈杂音频信息并重新输入音频信息;并返回继续执行步骤401。
综上所述,本发明实施例提供的语音识别设备,在语音识别模块识别出的语义内容无法与语义库中的内容匹配时,通过环境判断模块来判断音频信息是否包括环境嘈杂音频信息与用户音频信息,在音频信息包括环境嘈杂音频信息与用户音频信息时,可以通过主控制模块根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,进而可以优化下一次采集到的音频信息,并在语音识别模块采集音频信息,启动下一次语音识别过程时,提高语音识别的效果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语音识别设备,其特征在于,所述设备包括:语音识别模块、环境判断模块和主控制模块;
所述语音识别模块,用于采集音频信息并进行语音识别;
所述环境判断模块,用于当所述语音识别模块识别出的语义内容无法与语义库中的内容匹配时,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息;
所述主控制模块,用于当所述音频信息包括环境嘈杂音频信息与用户音频信息时,根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并控制所述语音识别模块采集音频信息,启动下一次语音识别过程。
2.如权利要求1所述的设备,其特征在于,所述主控制模块具体用于:
当所述音频信息包括环境嘈杂音频信息与用户音频信息时,判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量;
当所述音频信息的输入音量未达到最大可接收音量时,提示用户提高输入用户音频信息的音量,重新输入音频信息;以及,
控制所述语音识别模块降低采集音频信息的电压幅值,并采用降低后的电压幅值采集音频信息,启动下一次语音识别过程。
3.如权利要求2所述的设备,其特征在于,所述主控制模块还用于:
在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后,在所述语音识别模块采集音频信息,启动下一次语音识别过程之前,当所述音频信息的输入音量达到最大可接收音量时,提示用户降低周围环境中的环境嘈杂音频信息,重新输入音频信息。
4.如权利要求1所述的设备,其特征在于,所述主控制模块还用于:
在所述环境判断模块判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息之后,在所述语音识别模块采集音频信息,启动下一次语音识别过程之前,当所述音频信息不包括环境嘈杂音频信息时,提示用户重新输入音频信息。
5.如权利要求1-4任一项所述的设备,其特征在于,所述环境判断模块具体用于:
将所述语音识别过程中识别出的语义内容与语义库中的内容进行匹配;以及,判断所述音频信息的输入功率是否大于预设功率;
当所述语义内容与所述语义库中的内容匹配失败时;以及,当所述音频信息的输入功率大于预设功率时;确定所述音频信息包括环境嘈杂音频信息与用户音频信息;
否则,确定所述音频信息不包括环境嘈杂音频信息。
6.一种语音识别的方法,其特征在于,所述方法包括:
采集音频信息并进行语音识别;
当所述语音识别过程中识别出的语义内容无法与语义库中的内容匹配时,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息;
当所述音频信息包括环境嘈杂音频信息与用户音频信息时,根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并采集音频信息,启动下一次语音识别过程。
7.如权利要求6所述的方法,其特征在于,所述根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,包括:
当所述音频信息包括环境嘈杂音频信息与用户音频信息时,判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量;
当所述音频信息的输入音量未达到最大可接收音量时,提示用户提高输入用户音频信息的音量,重新输入音频信息;以及,
降低采集音频信息的电压幅值,并采用降低后的电压幅值采集音频信息,启动下一次语音识别过程。
8.如权利要求7所述的方法,其特征在于,在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后,在采集音频信息,启动下一次语音识别过程之前,还包括:
当所述音频信息的输入音量达到最大可接收音量时,提示用户降低周围环境中的环境嘈杂音频信息,重新输入音频信息。
9.如权利要求6所述的方法,其特征在于,在判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息之后,在采集音频信息,启动下一次语音识别过程之前,还包括:
当所述音频信息不包括环境嘈杂音频信息时,提示用户重新输入音频信息。
10.如权利要求6-9任一项所述的方法,其特征在于,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息,包括:
将所述语音识别过程中识别出的语义内容与语义库中的内容进行匹配;以及,判断所述音频信息的输入功率是否大于预设功率;
当所述语义内容与所述语义库中的内容匹配失败时;以及,当所述音频信息的输入功率大于预设功率时;确定所述音频信息包括环境嘈杂音频信息与用户音频信息;
否则,确定所述音频信息不包括环境嘈杂音频信息。
CN201710711864.8A 2017-08-18 2017-08-18 一种语音识别设备及方法 Active CN107274895B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710711864.8A CN107274895B (zh) 2017-08-18 2017-08-18 一种语音识别设备及方法
US16/006,363 US10861447B2 (en) 2017-08-18 2018-06-12 Device for recognizing speeches and method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710711864.8A CN107274895B (zh) 2017-08-18 2017-08-18 一种语音识别设备及方法

Publications (2)

Publication Number Publication Date
CN107274895A true CN107274895A (zh) 2017-10-20
CN107274895B CN107274895B (zh) 2020-04-17

Family

ID=60080426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710711864.8A Active CN107274895B (zh) 2017-08-18 2017-08-18 一种语音识别设备及方法

Country Status (2)

Country Link
US (1) US10861447B2 (zh)
CN (1) CN107274895B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993666A (zh) * 2017-12-19 2018-05-04 北京华夏电通科技有限公司 语音识别方法、装置、计算机设备及可读存储介质
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10719592B1 (en) * 2017-09-15 2020-07-21 Wells Fargo Bank, N.A. Input/output privacy tool
US10719832B1 (en) 2018-01-12 2020-07-21 Wells Fargo Bank, N.A. Fraud prevention tool

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11194798A (ja) * 1997-12-26 1999-07-21 Kyocera Corp 音声認識電話機
EP0763813B1 (en) * 1990-05-28 2001-07-11 Matsushita Electric Industrial Co., Ltd. Speech signal processing apparatus for detecting a speech signal from a noisy speech signal
CN101330769A (zh) * 2007-06-21 2008-12-24 株式会社船井电机新应用技术研究所 声音输入输出装置及通话装置
CN101740036A (zh) * 2009-12-14 2010-06-16 深圳华为通信技术有限公司 通话音量自动调节方法及装置
US20130204618A1 (en) * 2012-01-19 2013-08-08 SpeakWrite, LLC Methods and Systems for Dictation and Transcription
CN103811020A (zh) * 2014-03-05 2014-05-21 东北大学 一种智能语音处理方法
CN106160687A (zh) * 2016-06-29 2016-11-23 努比亚技术有限公司 一种音量调节装置及方法、相关设备
CN106940997A (zh) * 2017-03-20 2017-07-11 海信集团有限公司 一种向语音识别系统发送语音信号的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3287747B2 (ja) * 1995-12-28 2002-06-04 富士通テン株式会社 騒音感応自動音量調整装置
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
DE19956747C1 (de) * 1999-11-25 2001-01-11 Siemens Ag Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
JP4131392B2 (ja) * 2003-01-28 2008-08-13 ソニー株式会社 ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
US8135148B2 (en) * 2006-04-26 2012-03-13 Microsemi Semiconductor Corp. Automatic gain control for mobile microphone
US8140325B2 (en) * 2007-01-04 2012-03-20 International Business Machines Corporation Systems and methods for intelligent control of microphones for speech recognition applications
US9560316B1 (en) * 2014-08-21 2017-01-31 Google Inc. Indicating sound quality during a conference
DE112016005648T5 (de) * 2015-12-11 2018-08-30 Sony Corporation Datenverarbeitungsvorrichtung, datenverarbeitungsverfahren und programm

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0763813B1 (en) * 1990-05-28 2001-07-11 Matsushita Electric Industrial Co., Ltd. Speech signal processing apparatus for detecting a speech signal from a noisy speech signal
JPH11194798A (ja) * 1997-12-26 1999-07-21 Kyocera Corp 音声認識電話機
CN101330769A (zh) * 2007-06-21 2008-12-24 株式会社船井电机新应用技术研究所 声音输入输出装置及通话装置
CN101740036A (zh) * 2009-12-14 2010-06-16 深圳华为通信技术有限公司 通话音量自动调节方法及装置
US20130204618A1 (en) * 2012-01-19 2013-08-08 SpeakWrite, LLC Methods and Systems for Dictation and Transcription
CN103811020A (zh) * 2014-03-05 2014-05-21 东北大学 一种智能语音处理方法
CN106160687A (zh) * 2016-06-29 2016-11-23 努比亚技术有限公司 一种音量调节装置及方法、相关设备
CN106940997A (zh) * 2017-03-20 2017-07-11 海信集团有限公司 一种向语音识别系统发送语音信号的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993666A (zh) * 2017-12-19 2018-05-04 北京华夏电通科技有限公司 语音识别方法、装置、计算机设备及可读存储介质
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统

Also Published As

Publication number Publication date
US20190057687A1 (en) 2019-02-21
US10861447B2 (en) 2020-12-08
CN107274895B (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN107274895A (zh) 一种语音识别设备及方法
CN104464723B (zh) 一种语音交互方法及系统
CN103578468B (zh) 一种语音识别中置信度阈值的调整方法及电子设备
CN105979197B (zh) 基于啸叫音自动识别的远程会议控制方法及装置
US20220215853A1 (en) Audio signal processing method, model training method, and related apparatus
CN103391347B (zh) 一种自动录音的方法及装置
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN107767861A (zh) 语音唤醒方法、系统及智能终端
CN108766441A (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN104103272B (zh) 语音识别方法、装置和蓝牙耳机
CN107845381A (zh) 一种机器人语义处理的方法及系统
CN107705791A (zh) 基于声纹识别的来电身份确认方法、装置和声纹识别系统
US20160077792A1 (en) Methods and apparatus for unsupervised wakeup
US20180158462A1 (en) Speaker identification
EP2504745B1 (en) Communication interface apparatus and method for multi-user
CN110956965A (zh) 一种基于声纹识别的个性化智能家居安全控制系统及方法
CN105913842A (zh) 一种语音自定义唤醒手机的方法
CN105825848A (zh) 一种语音识别方法、装置及终端
CN110364178A (zh) 一种语音处理方法、装置、存储介质和电子设备
KR20140067687A (ko) 대화형 음성인식이 가능한 차량 시스템
CN106598536A (zh) 电子设备的录音启动方法、装置及电子设备
CN109427336B (zh) 语音对象识别方法及装置
CN106971715A (zh) 一种应用于机器人的语音识别装置
CN103730117A (zh) 一种自适应智能语音装置及方法
CN110197663B (zh) 一种控制方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant