CN114694667A - 语音输出方法、装置、计算机设备及存储介质 - Google Patents
语音输出方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114694667A CN114694667A CN202011607681.XA CN202011607681A CN114694667A CN 114694667 A CN114694667 A CN 114694667A CN 202011607681 A CN202011607681 A CN 202011607681A CN 114694667 A CN114694667 A CN 114694667A
- Authority
- CN
- China
- Prior art keywords
- sound source
- voice
- echo cancellation
- microphone
- source data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 abstract description 7
- 238000004891 communication Methods 0.000 abstract description 6
- 230000002349 favourable effect Effects 0.000 abstract description 3
- 230000003044 adaptive effect Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开一种语音输出方法、装置、计算机设备及存储介质,涉及有线通信技术领域,所述方法包括采集音源数据和音源数据对应的设备位置信息,其中,音源数据包括目标音源的语音信号和/或噪音信号,若检测到语音信号,则根据设备位置信息确定回声消除参数,根据回声消除参数消除噪音信号,以输出语音信号中的语音信息,即通过音源数据确定设备位置信息,进而通过设备位置信息来动态调整回声消除参数,实现对噪音信号的过滤,使得输出的语音信息质量更高,从而有利于提高语音信息的识别准确率,进而提高了语音唤醒准确率。
Description
技术领域
本申请涉及有线通信技术领域,尤其涉及语音输出方法、装置、计算机设备及存储介质。
背景技术
语音控制功能已经广泛的应用在智能产品上,例如,智能音箱,车载智能音响等,其中,智能音箱的语音交互流程被划分为五个环节,包括唤醒、ASR(Automatic SpeechRecognition,语音识别)、NLP(自然语言处理)、TTS(TextToSpeech,语音合成)以及Skill(技能)。其中,唤醒是用户与语音产品交互的第一个接触点,对用户的体验和语音交互处理流程有至关重要的影响。由于语音产品的摆放位置不同,可能引起周围环境的干扰声音被附近的语音产品所感应,即语音传播错误易产生误唤醒的问题,进而极大影响了唤醒率能力。
发明内容
本申请实施例的目的在于提出一种语音输出方法,以解决语音输出准确率低和语音唤醒准确率低的问题。
为了解决上述技术问题,本申请实施例提供一种语音输出方法,包括如下步骤:
采集音源数据和所述音源数据对应的设备位置信息,其中,所述音源数据包括目标音源的语音信号和/或噪音信号;
若检测到语音信号,则根据设备位置信息确定回声消除参数;
根据回声消除参数消除噪音信号,以输出语音信号中的语音信息。
可选地,采集音源数据和音源数据对应的设备位置信息包括:
通过至少两个麦克风接收音源数据;
根据预设的音源定位算法,确定目标音源的角度信息;
根据麦克风的设备型号和角度信息确定麦克风的设备位置信息。
可选地,回声消除参数包括第一回声消除参数和第二回声消除参数,若检测到语音信号,则根据设备位置信息确定回声消除参数包括:
根据设备位置信息和语音信号,检测每个麦克风的语音信号强度;
将语音信号强度最大的麦克风作为主麦克风,其余麦克风为副麦克风;
根据主麦克风的设备位置信息,调整预设的回声消除算法中的第一回声消除参数;
根据预设的回声消除默认参数,确定述副麦克风的第二回声消除参数。
可选地,采集音源数据和音源数据对应的设备位置信息之后,所述方法还包括:
若没有检测到语音信号,则不输出音源数据。
可选地,根据回声消除参数消除噪音信号,以输出语音信号中的语音信息之后,所述方法还包括:
对语音信息进行语音识别,以得到语音文本;
若语音文本为唤醒关键词,则唤醒目标设备。
为了解决上述技术问题,本申请实施例还提供一种语音输出装置,包括:
采集模块,用于采集音源数据和音源数据对应的设备位置信息,其中,音源数据包括目标音源的语音信号和/或噪音信号;
参数确定模块,用于若检测到语音信号,则根据设备位置信息确定回声消除参数;
消除模块,用于根据回声消除参数消除噪音信号,以输出语音信号中的语音信息。
可选地,采集模块包括:
接收单元,用于通过至少两个麦克风接收音源数据;
角度确定单元,用于根据预设的音源定位算法,确定目标音源的角度信息;
位置确定单元,用于根据麦克风的设备型号和角度信息确定麦克风的设备位置信息。
可选地,回声消除参数包括第一回声消除参数和第二回声消除参数,参数确定模块包括:
检测单元,用于根据设备位置信息和语音信号,检测每个麦克风的语音信号强度;
麦克风确定单元,用于将语音信号强度最大的麦克风作为主麦克风,其余麦克风为副麦克风;
第一参数单元,用于根据主麦克风的设备位置信息,调整预设的回声消除算法中的第一回声消除参数;
第二参数单元,用于根据预设的回声消除默认参数,确定述副麦克风的第二回声消除参数。
可选地,语音输出装置还用于:
若没有检测到语音信号,则不输出音源数据。
可选地,语音输出装置还包括:
语音识别模块,用于对语音信息进行语音识别,以得到语音文本;
唤醒模块,用于若语音文本为唤醒关键词,则唤醒目标设备。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述语音输出方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音输出方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
通过采集音源数据和音源数据对应的设备位置信息,其中,音源数据包括目标音源的语音信号和/或噪音信号,若检测到语音信号,则根据设备位置信息确定回声消除参数,根据回声消除参数消除噪音信号,以输出语音信号中的语音信息,即通过音源数据确定设备位置信息,进而通过设备位置信息来动态调整回声消除参数,实现对噪音信号的过滤,使得输出的语音信息质量更高,从而有利于提高语音信息的识别准确率,进而提高了语音唤醒准确率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是是本申请实施例提供的一种语音唤醒系统结构示意图;
图3是本申请提供的语音输出的方法的一个实施例的流程图
图4是本申请提供的语音输出装置的一个实施例的结构示意图;
图5是本申请提供的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的语音输出方法一般由服务器/终端设备执行,相应地,语音输出装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
智能音箱和车载智能音响等智能设备有别于智能手机的语音交互,需要先激活音箱,现有的激活方法包括按键激活,即通过点击外设的按钮来激活音箱,或者通过设置激活词来唤醒音箱。但是,智能设备感应到周围环境干扰声音时,容易错误激活,即误唤醒智能设备。虽然现有解决方案可以是通过云用户的语音上传到云端进行预设次数确认,再决定智能设备是否响应,但是带来的弊端就是唤醒响应时间被拉长,如果网络环境差,响应时间可能更久。
在本申请实施例中,图2是本申请实施例提供的一种语音唤醒系统结构示意图。其中,语音唤醒系统可以是智能Wifi音响、蓝牙音响产品以及带语音采集和语音传播功能的音响产品。其中,语音唤醒系统包括麦克风阵列(即图2中的传感器)、主控芯片以及无线网络(WiFi)。通过麦克风阵列采集目标音源的音源数据,并根据音源数据转换成相关的数量关系,进而通过数量关系来判断当前音响产品(麦克风阵列)相对于目标音源(例如用户发声位置)的相对摆放位置信息,例如通过计算音源数据的语音信号到达麦克风阵列之间的时间差,从而计算出目标音源的位置坐标,并将相对摆放位置信息和音源数据回传给主控芯片,主控芯片可以通过这些数据调整语音识别引擎算法和参数,进而通过调整好的语音识别引擎算法和参数对音源数据进行去回声或消噪处理,从而输出高质量的音源数据中的语音信息,并通过识别语音信息来确定是否为语音唤醒词,进而提高了语音输出质量和语音唤醒词的识别能力,以及提高了语音传播的准确性。
其中,用于拾音和目标音源定位的麦克风阵列是由一定数目的声学传感器(即麦克风)按照一定规则排列的多麦克风系统,用于对声场的空间特性进行采样并滤波的系统。麦克风阵列除了有多个麦克风,还有一系列的前端算法,两者结合的系统才是完整的麦克风阵列。麦克风阵列通过对目标音源进行采集之外,通过调整前端算法的参数(例如图2中的AEC参数,即回声消除器参数)来对目标音源进行定位,进而确定目标音源相对于音响产品的放置位置。
进一步地,主控模块加载了有关声学模型和语言模型相关的算法,用于对音源数据的降噪去回声、识别用户的声纹信息和语音信息等功能,使得获取到的声纹信息更加清晰,高质量的声纹信息可以用于判断是否为设定的用户的声纹,以及通过将语音信息转化成文本信息,进而确定是否为唤醒关键词。
进一步地,当确定为唤醒关键词时,通过无线网络调用与之对应的文件,例如音频文件、网页链接或者应用程序等。
继续参考图3,示出了本申请的语音输出的方法的一个实施例的流程图。所述的语音输出方法,包括以下步骤:
S301:采集音源数据和音源数据对应的设备位置信息,其中,音源数据包括目标音源的语音信号和/或噪音信号。
在本申请实施例中,采集音源数据的方式可以通过麦克风阵列录制声音,目标音源为主发声体,例如讲话的用户,由于采集音源数据的过程中,可能会发生语音信号在室内传播时,被墙壁、天花板、地板等障碍物形成反射声(即回声),或者周围环境产生的其他声音,例如电视声音、空调噪音或其他人声等环境噪音。因此,麦克风阵列采集的音源数据是混合了多种声音,即包括目标音源的语音信号和/或噪音信号。
进一步地,音源数据的格式可以是:WAVE、MOD、Layer-3、Real Audio或者CD Audio等。
进一步地,采集音源数据和音源数据对应的设备位置信息包括:
通过至少两个麦克风接收音源数据;
根据预设的音源定位算法,确定目标音源的角度信息;
根据麦克风的设备型号和角度信息确定麦克风的设备位置信息。
具体地,通过至少两个麦克风的组成的麦克风阵列(即若干声学传感器组成的传感器),例如,有4麦克风阵列、6麦克风阵列或8+1麦克风阵列等,此处不做限定。麦克风阵列可用于采集音源数据以及能通过音源数据确定目标音源的所在位置,进而提升拾音效果。
在本申请实施例中,对目标音源的定位一般可以由于多个麦克风组成的麦克风阵列同步采集音源数据的信号,利用多个麦克风之间的信号相位差,求得目标音源的发出位置;或者,通过声强探头由两个传声器面对面组成一个联合体,可以测量空间每一点的声压、声波振速大小和方向,在被测物体表面或包络面附近扫描测试,可以得到被测物体附近的声场分布情况,从而掌握噪声源位置和分布。
本申请实施例以预设的音源定位算法来确定目标音源,例如可以是TDOA(TimeDifference of Arrival,到达时间差)算法,即基于各信号到达各麦克风的时间延迟(TDOA)估计的定位方向,通过计算不同麦克风接收音源数据中各信号(语音信号和噪音信号)的时间差,并通过几何定位或搜索的方法确定目标生源的位置信息;基于波束指向性(steeredbeamformer)的定位算法,即在最大拟然准则的前提下,对收集的音源数据中各信号(语音信号和噪音信号)进行滤波,并对整个接收空间进行扫描,获得的波束能量的方向即为目标音源的方向;基于高分辨率谱的定位算法,即根据各个麦克风采集的语音信号间的相关矩阵来计算音源数据中各信号的方位角度,进而分辨目标音源的位置信息。
优选地,本申请实施例采用改进的DOA(Direction Of Arrival,波达方向)定位算法来确定目标音源的角度信息,具体实现过程如下:
导向矢量是反映信号传播方向的重要参数,其中,
时间域信号表示为:
yj(n)=∑lhj(l)x(n-l)+uj(n)=hj(n)x(n)+uj(n) 公式(1),
其中,y表示音源数据的各个信号(包括噪音信号和语音信号),x表示语音信号,h表示响应函数,l表示噪音信号缓存区,u表示噪音信号,n表示音源数据的帧数量即帧长,j为正整数。
频域信号表示为:
YJ(t,f)=HJ(f)X(t,f)+UJ(t,f) 公式(2),
其中,Y表示音源数据的各个信号(包括噪音信号和语音信号),X表示语音信号,H表示目标音源的语音信号传输到麦克风的转换,t表示时域时间,U表示噪音信号,f表示频率,J为正整数。
进一步地,以远场平面波模型为例,音源数据的各个信号可以表示为:
其中,Δτi表示语音信号到达各个麦克风的时间差,gj(f)表示语音信号传输过程中的衰减,UJ(t,f)表示噪声和混响。
由上述公式(3)可知,Δτi和gj(f)影响音源数据的各个信号的取值大小。因此,本申请实施例中,以坐标系的远点为基准,并计算导向矢量,导向矢量公式可以表示为h=e-j2πfΔτ,其中,τ表示延时差,通过目标音源角度、波长和声速可以计算得到。目标音源的信号存在入射角的方向上能量最大,因此对于当前第n帧信号对应在0~360度的每个角度计算出一个导向矢量值,然后与当前信号进行匹配,当与入射方向一致时,对应的角度即为能量最大的角度。
因此,通过上述可以求得目标音源的角度信息,即可求得目标音源相对于麦克风的所在位置信息。由于麦克风的设备型号一般规定麦克风拾音状态较佳时所对应的默认放置位置,即麦克风的设备型号规定了只识别某个角度的声音,其他角度的声音都会受到抑制,而对角度的设置通常和本身麦克风的放置位置有关,因此,根据目标音源的角度信息来确定麦克风当前的设备放置信息是否为默认放置位置,默认放置位置可以是平放,竖放等。
通过音源定位算法来确定目标音源的角度信息,进而根据麦克风的设备型号和角度信息确定麦克风的设备位置信息,实现了对目标声源的精准定位,进而为后续提高噪音信号消除提供了基础。
S302:若检测到语音信号,则根据设备位置信息确定回声消除参数。
在本申请实施例中,采用预设的自适应算法中的回声消除参数来消除噪音信号,其中,自适应算法主要用于消噪和去声,自适应算法可以是声学回声消除(Acoustic EchoCancellation,AEC)方法、基于互相关比较算法或者Geigel算法(盖格尔),此处不做限定。
进一步地,声学回声消除方法主要集中在时域滤波方面,采用自适应滤波器跟踪模拟回声路径,将模拟回声信号与真实回声信号进行相减,实现回声消除,即使用自适应滤波器实现回声消除,其关键是自适应算法根据误差信号来调整滤波器权系数,使误差信号输出最小。
进一步地,若没有检测到语音信号,则不输出音源数据,即在没有语音信号的前提下,不启动有关确定设备位置信息的处理流程,减少处理计算量,同时减少了误唤醒的概率。
进一步地,回声消除参数包括第一回声消除参数和第二回声消除参数,若检测到语音信号,则根据设备位置信息确定回声消除参数包括:
根据设备位置信息和语音信号,检测每个麦克风的语音信号强度;
将语音信号强度最大的麦克风作为主麦克风,其余麦克风为副麦克风;
根据主麦克风的设备位置信息,调整预设的回声消除算法中的第一回声消除参数;
根据预设的回声消除默认参数,确定述副麦克风的第二回声消除参数。
其中,第一回声消除参数和第二回声消除参数均用于过滤音源数据的噪音和回声,以提高音频传输质量。
具体地,采用不同的方式检测终端设备上主麦克风接收的语音信号强度与副麦克风接收的语音信号强度,例如:可以通过相关信号检测设备,或者终端设备上的信号检测应用程序等来检测语音信号强度。通过比较各个麦克风的语音信号强度大小,可以按照从大到小的顺序对麦克风进行排序,并将语音强度最大的麦克风作为主麦克风,其余为副麦克风。
进一步地,回声包括直接回声和间接回声,其中,直接回声是指由扬声器(音响)播出的声音未经任何反射直接进入麦克风。这种回声的延时最短,它同远端说话者的语音能量,扬声器与麦克风之间的距离、角度(即麦克风的设备位置信息),扬声器的播放音量以及麦克风的拾取灵敏度等因素直接相关;间接回声是指由扬声器播出的声音经过不同的路径(如房屋或房屋内的任何物体)的一次或多次反射后进入麦克风所产生的回声的集合。房屋内的任何物体的任何变动都会改变回声的通道,这种回声的特点是多路径的、时变的。
因此,预设的回声消除算法可以采用回声消除器(Acoustic Echo Chancellor,AEC)中的自适应滤波器来调整第一回声消除参数,使得第一回声消除参数用于消除噪音信号。其中,回声消除器将接收到的远端信号作为一个参考信号,回声消除器根据参考信号由自适应滤波器产生回声的估计值,将估计值从近端带有回声(噪音信号)的语音信号减去,就得到近端传送出去的语音信号。在理想情况下,经过回声消除器处理后,残留的回声误差将为0,从而实现回音消除。该方法的关键就是得到回声路径的冲击响应,由于回音路径通常是未知的和时变的,所以一般采用自适应滤波器来模拟回音路径,模拟回音路径过程需要参考设备位置信息和各个麦克风的拾音情况,例如,某些麦克风平放的时候所调试的第一回声消除参数比在竖放的时候识别率明显降低,并通过不断修改自适应滤波器的系数(即第一回声参数),使得回声估计值更加逼近真实的回声。然后,将回声估计值从麦克风的输入信号中减去,从而达到消除回声的目的。
其中,自适应滤波器类型可以分为两大类:非线性自适应滤波器、线性自适应滤波器。非线性自适应滤波器包括基于神经网络的自适应滤波器及Volterra(沃尔泰拉)滤波器。非线性自适应滤波器信号处理能力更强,但计算复杂度较高。所以实践中,线性自适应滤波器使用较多,主要分为两类FIR(Finite impulse response,有限冲激响应)滤波器、IIR(Infinite Impulse Response,无限冲激响应)滤波器。FIR滤波器具有很好的线性相位,无相位失真,稳定性较好。IIR滤波器是非线性的,稳定性不能保证,但计算量较少。由于IIR存在稳定性问题,因此一般采用FIR。
进一步地,预设的回声消除默认参数可以是回声消除器预先存储的自适应滤波器参考系数值,该滤波器参考系数值用于调整第二回声参数,使得第二回声参数能消除副麦克风的各个信号,即副麦克风输出到扬声器的输出值为0。
在本申请实施例中,通过第一回声消除参数调整主麦克风的噪音信号,以及采用第二回声消除参数处理副麦克风的回声,从而减少了回声和噪音信号的干扰,提高音源数据的质量。
S303:根据回声消除参数消除噪音信号,以输出语音信号中的语音信息。
其中,消除噪音信号后的音源数据为具有高质量的语音信号,语音信息用来表示语言的声音符号,可以为语音的关键词、句子等。
可选地,根据回声消除参数消除噪音信号,以输出语音信号中的语音信息之后,所述方法还包括:
对语音信息进行语音识别,以得到语音文本;
若语音文本为唤醒关键词,则唤醒目标设备。
具体地,语音识别算法可以是,模型匹配法,包括矢量量化(VQ)、动态时间规整(DTW)等;概率统计方法,包括高斯混合模型(GMM)、隐马尔科夫模型(HMM)等;辨别器分类方法,如支持向量机(SVM)、人工神经网络(ANN)和深度神经网络(DNN)等以及多种组合方法。通过上述语音算法将语音信息转换成语音文本。
进一步地,通过基于统计特征的关键词提取算法取语音文本中的唤醒关键词,例如基于统计特征的关键词提取算法可以是TF-IDF(term frequency–inverse documentfrequency,一种信息检索数据挖掘的常用加权技术),其中,TF-IDF是将语音文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到唤醒关键词。
上述提取语音文本中的唤醒关键词还可以采用无监督关键词提取、TextRank(基于图形的文本处理排名模型)算法或者LDA(Latent Dirichlet Allocation,一种文档主题生成模型)等等,此处不做限定。
其中,唤醒关键词可以包括唤醒目标设备的名称和唤醒动作关键词,目标设备可以是智能音箱、移动设备(例如手机、笔记本等)或者车载音箱等等。当识别语音信息为唤醒关键词时,唤醒目标设备,从而启动并运行目标设备功能,例如,当唤醒关键词为“某APP,将歌曲A切换到歌曲B”时,将当前播放音乐的某APP(某应用程序)从歌曲A切换到歌曲B;或者当唤醒关键词为“智能语音,请关闭当前APP”时,将当前运行的APP进行关闭处理;或者“智能语音,请开启某APP”时,根据当前某APP的名称启动该APP,从而实现了智能唤醒目标设备,提高人机交互效率。
在本申请实施例中,通过采集音源数据和音源数据对应的设备位置信息,其中,音源数据包括目标音源的语音信号和/或噪音信号,若检测到语音信号,则根据设备位置信息确定回声消除参数,根据回声消除参数消除噪音信号,以输出语音信号中的语音信息,即通过音源数据确定设备位置信息,进而通过设备位置信息来动态调整回声消除参数,实现对噪音信号的过滤,使得输出的语音信息质量更高,从而有利于提高语音信息的识别准确率,进而提高了语音唤醒准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图4,作为对上述图3所示方法的实现,本申请提供了一种语音输出装置的一个实施例,该装置实施例与图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的语音输出装置包括:采集模块401、参数确定模块402以及消除模块403。其中:
采集模块401,用于采集音源数据和音源数据对应的设备位置信息,其中,音源数据包括目标音源的语音信号和/或噪音信号;
参数确定模块402,用于若检测到语音信号,则根据设备位置信息确定回声消除参数;
消除模块403,用于根据回声消除参数消除噪音信号,以输出语音信号中的语音信息。
可选地,采集模块401包括:
接收单元,用于通过至少两个麦克风接收音源数据;
角度确定单元,用于根据预设的音源定位算法,确定目标音源的角度信息;
位置确定单元,用于根据麦克风的设备型号和角度信息确定麦克风的设备位置信息。
可选地,回声消除参数包括第一回声消除参数和第二回声消除参数,参数确定模块402包括:
检测单元,用于根据设备位置信息和语音信号,检测每个麦克风的语音信号强度;
麦克风确定单元,用于将语音信号强度最大的麦克风作为主麦克风,其余麦克风为副麦克风;
第一参数单元,用于根据主麦克风的设备位置信息,调整预设的回声消除算法中的第一回声消除参数;
第二参数单元,用于根据预设的回声消除默认参数,确定述副麦克风的第二回声消除参数。
可选地,语音输出装置还用于:
若没有检测到语音信号,则不输出音源数据。
可选地,语音输出装置还包括:
语音识别模块,用于对语音信息进行语音识别,以得到语音文本;
唤醒模块,用于若语音文本为唤醒关键词,则唤醒目标设备。
关于上述实施例中语音输出装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
所述计算机设备5包括通过系统总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是,图中仅示出了具有组件51-53的计算机设备5,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器51至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D语音输出存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器51可以是所述计算机设备5的内部存储单元,例如该计算机设备5的硬盘或内存。在另一些实施例中,所述存储器51也可以是所述计算机设备5的外部存储设备,例如该计算机设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中,所述存储器51通常用于存储安装于所述计算机设备5的操作系统和各类应用软件,例如语音输出方法的程序代码等。此外,所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中,所述处理器52用于运行所述存储器51中存储的程序代码或者处理数据,例如运行所述语音输出方法的程序代码。
所述网络接口53可包括无线网络接口或有线网络接口,该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有语音输出程序,所述语音输出程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语音输出方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种语音输出方法,其特征在于,所述方法包括:
采集音源数据和所述音源数据对应的设备位置信息,其中,所述音源数据包括目标音源的语音信号和/或噪音信号;
若检测到所述语音信号,则根据所述设备位置信息确定回声消除参数;
根据所述回声消除参数消除所述噪音信号,以输出所述语音信号中的语音信息。
2.根据权利要求1所述的语音输出方法,其特征在于,所述采集音源数据和所述音源数据对应的设备位置信息包括:
通过至少两个麦克风接收音源数据;
根据预设的音源定位算法,确定所述目标音源的角度信息;
根据所述麦克风的设备型号和所述角度信息确定所述麦克风的设备位置信息。
3.根据权利要求1所述的语音输出方法,其特征在于,所述回声消除参数包括第一回声消除参数和第二回声消除参数,所述若检测到所述语音信号,则根据所述设备位置信息确定回声消除参数包括:
根据所述设备位置信息和所述语音信号,检测每个所述麦克风的语音信号强度;
将所述语音信号强度最大的所述麦克风作为主麦克风,其余所述麦克风为副麦克风;
根据所述主麦克风的设备位置信息,调整预设的回声消除算法中的第一回声消除参数;
根据预设的回声消除默认参数,确定述副麦克风的第二回声消除参数。
4.根据权利要求1所述的语音输出方法,其特征在于,所述采集音源数据和所述音源数据对应的设备位置信息之后,所述方法还包括:
若没有检测到所述语音信号,则不输出所述音源数据。
5.根据权利要求1-4所述的语音输出方法,其特征在于,所述根据所述回声消除参数消除所述噪音信号,以输出所述语音信号中的语音信息之后,所述方法还包括:
对所述语音信息进行语音识别,以得到语音文本;
若所述语音文本为唤醒关键词,则唤醒目标设备。
6.一种语音输出装置,其特征在于,所述语音输出装置包括:
采集模块,用于采集音源数据和所述音源数据对应的设备位置信息,其中,所述音源数据包括目标音源的语音信号和/或噪音信号;
参数确定模块,用于若检测到所述语音信号,则根据所述设备位置信息确定回声消除参数;
消除模块,用于根据所述回声消除参数消除所述噪音信号,以输出所述语音信号中的语音信息。
7.根据权利要求6所述的语音输出装置,其特征在于,所述采集模块包括:
接收单元,用于通过至少两个麦克风接收音源数据;
角度确定单元,用于根据预设的音源定位算法,确定所述目标音源的角度信息;
位置确定单元,用于根据所述麦克风的设备型号和所述角度信息确定所述麦克风的设备位置信息。
8.根据权利要求6所述的语音输出装置,其特征在于,所述回声消除参数包括第一回声消除参数和第二回声消除参数,所述参数确定模块包括:
检测单元,用于根据所述设备位置信息和所述语音信号,检测每个所述麦克风的语音信号强度;
麦克风确定单元,用于将所述语音信号强度最大的所述麦克风作为主麦克风,其余所述麦克风为副麦克风;
第一参数单元,用于根据所述主麦克风的设备位置信息,调整预设的回声消除算法中的第一回声消除参数;
第二参数单元,用于根据预设的回声消除默认参数,确定述副麦克风的第二回声消除参数。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的语音输出方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的语音输出方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011607681.XA CN114694667A (zh) | 2020-12-30 | 2020-12-30 | 语音输出方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011607681.XA CN114694667A (zh) | 2020-12-30 | 2020-12-30 | 语音输出方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114694667A true CN114694667A (zh) | 2022-07-01 |
Family
ID=82132067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011607681.XA Pending CN114694667A (zh) | 2020-12-30 | 2020-12-30 | 语音输出方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114694667A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115881151A (zh) * | 2023-01-04 | 2023-03-31 | 广州市森锐科技股份有限公司 | 一种基于高拍仪的双向拾音消噪方法、装置、设备及介质 |
-
2020
- 2020-12-30 CN CN202011607681.XA patent/CN114694667A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115881151A (zh) * | 2023-01-04 | 2023-03-31 | 广州市森锐科技股份有限公司 | 一种基于高拍仪的双向拾音消噪方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11620983B2 (en) | Speech recognition method, device, and computer-readable storage medium | |
US11557310B2 (en) | Voice trigger for a digital assistant | |
CN109671433B (zh) | 一种关键词的检测方法以及相关装置 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN110556103B (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
US11138977B1 (en) | Determining device groups | |
EP3923273B1 (en) | Voice recognition method and device, storage medium, and air conditioner | |
CN102625946B (zh) | 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 | |
US20200227071A1 (en) | Analysing speech signals | |
CN111344780A (zh) | 基于上下文的设备仲裁 | |
US20160034811A1 (en) | Efficient generation of complementary acoustic models for performing automatic speech recognition system combination | |
CN110211599B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
WO2014144579A1 (en) | System and method for updating an adaptive speech recognition model | |
CN108962241B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN112513983A (zh) | 可穿戴系统语音处理 | |
JP2009271359A (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
US11222652B2 (en) | Learning-based distance estimation | |
CN111883135A (zh) | 语音转写方法、装置和电子设备 | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
CN114694667A (zh) | 语音输出方法、装置、计算机设备及存储介质 | |
CN112489674A (zh) | 语音增强方法、装置、设备及计算机可读存储介质 | |
CN114464184B (zh) | 语音识别的方法、设备和存储介质 | |
CN105788590A (zh) | 语音识别方法及装置、移动终端 | |
US11727926B1 (en) | Systems and methods for noise reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |