CN109508171A - 一种基于四通道的语音处理方法及设备 - Google Patents

一种基于四通道的语音处理方法及设备 Download PDF

Info

Publication number
CN109508171A
CN109508171A CN201811552849.4A CN201811552849A CN109508171A CN 109508171 A CN109508171 A CN 109508171A CN 201811552849 A CN201811552849 A CN 201811552849A CN 109508171 A CN109508171 A CN 109508171A
Authority
CN
China
Prior art keywords
voice
enrolled
mixing
microphone
loudspeaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811552849.4A
Other languages
English (en)
Inventor
沈涛涛
杜军红
汤肖迅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Haocheng Information Technology Co.,Ltd.
Original Assignee
Shanghai Longcheer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Longcheer Technology Co Ltd filed Critical Shanghai Longcheer Technology Co Ltd
Priority to CN201811552849.4A priority Critical patent/CN109508171A/zh
Publication of CN109508171A publication Critical patent/CN109508171A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • G11B2020/10555Audio or video recording specifically adapted for audio data wherein the frequency, the amplitude, or other characteristics of the audio signal is taken into account

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请的目的是提供一种基于四通道的语音处理方法及设备,本申请可以在使用扬声器播放语音时,通过一个第二数据通道反馈扬声器播放的播放语音,并通过该另外的三个第一数据通道采集麦克风录取的混合录取语音,在此,该混合录取语音既包括麦克风实际录取的用户语音,还包括扬声器播放的播放语音,以便通过对三个第一数据通道采集的混合录取语音和一个第二数据通道反馈的播放语音进行扬声器播放的语音的消除处理,得到麦克风实际录取的用户语音,从而通过四通道的语音采集方式实现在扬声器播放所述播放语音的同时完成对所述麦克风实际录取的所述用户语音的识别。

Description

一种基于四通道的语音处理方法及设备
技术领域
本申请涉及移动设备技术领域,尤其涉及一种基于四通道的语音处理方法及设备。
背景技术
随着安卓系统的应用越来越广泛,人们对于录音、语音唤醒等需求越来越高。搭配双麦克风和三麦克风的智能设备在市场上已经占据主导地位。然而,目前基于安卓系统的智能设备却很难做到对四通道录音的支持。
发明内容
本申请的一个目的是提供一种基于四通道的语音处理方法及设备,以实现扬声器播放所述播放语音的同时完成对所述麦克风实际录取的所述用户语音的识别。
根据本申请的一个方面,提供了一种基于四通道的语音处理设备,其中,所述设备包括中央处理器CPU、音频编解码器、I2S接口、音频模拟接口、三个麦克风及一个扬声器,其中,
所述三个麦克风和所述扬声器分别通过所述音频模拟接口与所述音频编解码器连接,所述音频编解码器通过所述I2S接口与所述CPU连接;
所述三个麦克风和所述扬声器分别通过所述音频模拟接口将录取到的混合录取语音和扬声器反馈的播放语音传递至所述音频编解码器;所述音频编解码器对所述混合录取语音和所述播放语音进行数字化处理并通过I2S接口传递至所述CPU,所述CPU对所述混合录取语音和所述播放语音进行语音处理,得到所述麦克风实际录取的用户语音。
进一步地,上述基于四通道的语音处理设备中,所述CPU安装有安卓系统并基于所述安卓系统对所述混合录取语音和所述播放语音进行语音处理,得到所述麦克风实际录取的用户语音。
进一步地,上述基于四通道的语音处理设备中,若所述扬声器未进行语音播放,所述三个麦克风通过所述音频模拟接口将录取到的混合录取语音传递至所述音频编解码器;所述音频编解码器对所述混合录取语音进行数字化处理并通过I2S接口传递至所述CPU,所述CPU对所述混合录取语音进行语音处理,得到所述麦克风实际录取的用户语音。
根据本申请的另一方面,还提供了一种基于四通道的语音处理方法,其中,所述方法包括:
通过三个第一数据通道采集麦克风录取的混合录取语音,其中,所述麦克风的数量为三个;
通过一个第二数据通道反馈扬声器播放的播放语音;
将所述三个第一数据通道采集的混合录取语音和所述一个第二数据通道反馈的播放语音进行语音处理,得到所述麦克风实际录取的用户语音,以实现扬声器播放所述播放语音的同时完成对所述麦克风实际录取的所述用户语音的识别。
进一步地,上述基于四通道的语音处理方法中,若所述扬声器未进行语音播放,则将所述三个第一数据通道采集的混合录取语音和进行语音处理,得到所述麦克风实际录取的用户语音,以实现对所述麦克风实际录取的所述用户语音的识别。
与现有技术相比,本申请可以在使用扬声器播放语音时,通过一个第二数据通道反馈扬声器播放的播放语音,并通过该另外的三个第一数据通道采集麦克风录取的混合录取语音,在此,该混合录取语音既包括麦克风实际录取的用户语音,还包括扬声器播放的播放语音,以便通过对三个第一数据通道采集的混合录取语音和一个第二数据通道反馈的播放语音进行扬声器播放的语音的消除处理,得到麦克风实际录取的用户语音,从而通过四通道的语音采集方式实现在扬声器播放所述播放语音的同时完成对所述麦克风实际录取的所述用户语音的识别。进一步地,本申请的上述四个用来获取语音的通道中,若所述播放器未进行语音播放时,则第二数据通道就不用反馈播放器播放的语音,从而还可以实现通过三通道的语音采集方式来实现对所述麦克风实际录取的所述用户语音的识别。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种基于四通道的语音处理设备的连接示意图。
附图标记:
1-中央处理器CPU,2-音频编解码器,3-麦克风,4-扬声器,5-I2S接口,6-音频模拟接口;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
本申请提供的一种基于四通道的语音处理设备,包括其中,所述设备包括中央处理器(Central Processing Unit,CPU)1、音频编解码器(COder-DECoder,CODEC)2、总线(Inter—IC Sound,I2S)接口5、音频模拟接口6、三个麦克风3及一个扬声器4。
具体地,三个麦克风3和扬声器4分别通过音频模拟接口6与音频编解码器2连接,使得三个所述麦克风3通过音频模拟接口6将录取到的混合录取语音和和扬声器4通过音频模拟接口6将该扬声器4反馈的播放语音传递到CODEC2,在此,所述混合录取语音包括麦克风实际录取的用户语音和播放器反馈的播放语音;所述音频编解码器2通过所述I2S接口5与所述CPU1连接,以使所述音频编解码器2对所述混合录取语音和所述播放语音进行数字化处理并通过I2S接口5传递至所述CPU1,所述CPU1对所述混合录取语音和所述播放语音进行语音处理,得到所述麦克风实际录取的用户语音,即麦克风真正录取到的用户的声音。
例如,所述麦克风3通过音频模拟接口6将录取到的混合录取语音传递给CODEC2,CODEC2对所述混合录取语音进行数字化处理并通过I2S接口5将数字化处理后的混合录取语音传递给CPU1,实现了CPU1对3个麦克风采集的混合录取语音的获取。在此,使用标准的I2S接口和音频模拟接口与CODEC进行语音的传输通讯,进而保证实现过程的简单化和便捷性,且易于编程。
又例如,所述扬声器4通过所述音频模拟接口6将扬声器反馈的所述扬声器4播放的播放语音传递给CODEC2,所述CODEC2对扬声器4反馈的播放语音进行数字化处理后通过所述I2S接口5将数字化处理后的播放语音传递给CPU1,使得所述CPU1能够对通过麦克风3录取的混合录取语音和扬声器4反馈的播放语音进行处理,得到没有任何扬声器噪音及环境噪音的用户语音,从而实现扬声器播放所述播放语音的同时完成对所述麦克风实际录取的所述用户语音的识别,应用于一边进行语音播放操作一边录取的用户语音的语音识别场景,比如智能音箱等。
优选地,所述CPU1基于安卓系统,所述CPU1安装有安卓系统,所述CPU1基于所述安卓系统处理经由CODEC2和I2S接口5传递过来的、数字化后的混合录取语音和播放语音进行语音处理,得到所述麦克风实际录取的用户语音。
进一步地,若所述扬声器4未进行语音播放,即扬声器4不存在播放的播放语音,则所述CPU1就不会经由CODEC2和I2S接口5接收到来自扬声器4所反馈的播放语音,同时,三个麦克风3在进行用户语音的实际采集过程中,也就不会采集到所述播放语音,故所述CPU1经由CODEC2和I2S接口5接收到的混合录取语音中只包括用户语音和背景噪音,以便所述CPU1对所述混合录取语音进行噪音分析,得到所述麦克风实际录取的用户语音,进而实现三通道方式的用户语音的处理和识别。
接着本申请的上述实施例,本申请另一个方面还提供了一种基于四通道的语音处理方法,其中,所述方法包括:
通过三个第一数据通道采集麦克风录取的混合录取语音,其中,所述麦克风的数量为三个;在此,所述混合录取语音包括麦克风实际录取的用户语音和播放器反馈的播放语音。
通过一个第二数据通道反馈扬声器播放的播放语音;
将所述三个第一数据通道采集的混合录取语音和所述一个第二数据通道反馈的播放语音进行语音处理,得到所述麦克风实际录取的用户语音,使得通过上述的四通道(三个第一数据通道和一个第二数据通道)实现了扬声器播放所述播放语音的同时完成对所述麦克风实际录取的所述用户语音的识别。进一步地,上述基于四通道的语音处理方法中,若所述扬声器未进行语音播放,则将所述三个第一数据通道采集的混合录取语音和进行语音处理,得到所述麦克风实际录取的用户语音,使得本申请的四通道的录音也可以演变为三通道录音(因为三个第一数据通道在采集麦克风的混合录音语音,而一个第二数据通道没有需要反馈的扬声器播放的播放语音),也进一步实现对所述麦克风实际录取的所述用户语音的识别。
综上所述,本申请可以在使用扬声器播放语音时,通过一个第二数据通道反馈扬声器播放的播放语音,并通过该另外的三个第一数据通道采集麦克风录取的混合录取语音,在此,该混合录取语音既包括麦克风实际录取的用户语音,还包括扬声器播放的播放语音,以便通过对三个第一数据通道采集的混合录取语音和一个第二数据通道反馈的播放语音进行扬声器播放的语音的消除处理,得到麦克风实际录取的用户语音,从而通过四通道的语音采集方式实现在扬声器播放所述播放语音的同时完成对所述麦克风实际录取的所述用户语音的识别。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (5)

1.一种基于四通道的语音处理设备,其中,所述设备包括中央处理器CPU、音频编解码器、I2S接口、音频模拟接口、三个麦克风及一个扬声器,其中,
所述三个麦克风和所述扬声器分别通过所述音频模拟接口与所述音频编解码器连接,所述音频编解码器通过所述I2S接口与所述CPU连接;
所述三个麦克风和所述扬声器分别通过所述音频模拟接口将录取到的混合录取语音和扬声器反馈的播放语音传递至所述音频编解码器;所述音频编解码器对所述混合录取语音和所述播放语音进行数字化处理并通过I2S接口传递至所述CPU,所述CPU对所述混合录取语音和所述播放语音进行语音处理,得到所述麦克风实际录取的用户语音。
2.根据权利要求1所述的基于四通道的语音处理设备,其中,所述CPU安装有安卓系统并基于所述安卓系统对所述混合录取语音和所述播放语音进行语音处理,得到所述麦克风实际录取的用户语音。
3.根据权利要求1或2所述的基于四通道的语音处理设备,其中,若所述扬声器未进行语音播放,所述三个麦克风通过所述音频模拟接口将录取到的混合录取语音传递至所述音频编解码器;所述音频编解码器对所述混合录取语音进行数字化处理并通过I2S接口传递至所述CPU,所述CPU对所述混合录取语音进行语音处理,得到所述麦克风实际录取的用户语音。
4.一种基于四通道的语音处理方法,其中,所述方法包括:
通过三个第一数据通道采集麦克风录取的混合录取语音,其中,所述麦克风的数量为三个;
通过一个第二数据通道反馈扬声器播放的播放语音;
将所述三个第一数据通道采集的混合录取语音和所述一个第二数据通道反馈的播放语音进行语音处理,得到所述麦克风实际录取的用户语音,以实现扬声器播放所述播放语音的同时完成对所述麦克风实际录取的所述用户语音的识别。
5.根据权利要求4所述的方法,其中,若所述扬声器未进行语音播放,则将所述三个第一数据通道采集的混合录取语音和进行语音处理,得到所述麦克风实际录取的用户语音,以实现对所述麦克风实际录取的所述用户语音的识别。
CN201811552849.4A 2018-12-19 2018-12-19 一种基于四通道的语音处理方法及设备 Pending CN109508171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811552849.4A CN109508171A (zh) 2018-12-19 2018-12-19 一种基于四通道的语音处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811552849.4A CN109508171A (zh) 2018-12-19 2018-12-19 一种基于四通道的语音处理方法及设备

Publications (1)

Publication Number Publication Date
CN109508171A true CN109508171A (zh) 2019-03-22

Family

ID=65753628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811552849.4A Pending CN109508171A (zh) 2018-12-19 2018-12-19 一种基于四通道的语音处理方法及设备

Country Status (1)

Country Link
CN (1) CN109508171A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1104155A2 (en) * 1999-11-24 2001-05-30 Phone.Com Inc. Voice recognition based user interface for wireless devices
CN105493179A (zh) * 2013-07-31 2016-04-13 微软技术许可有限责任公司 具有多个同时语音识别器的系统
CN105632491A (zh) * 2014-11-26 2016-06-01 三星电子株式会社 用于语音识别的方法和电子装置
CN108447483A (zh) * 2018-05-18 2018-08-24 深圳市亿道数码技术有限公司 语音识别系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1104155A2 (en) * 1999-11-24 2001-05-30 Phone.Com Inc. Voice recognition based user interface for wireless devices
CN105493179A (zh) * 2013-07-31 2016-04-13 微软技术许可有限责任公司 具有多个同时语音识别器的系统
CN105632491A (zh) * 2014-11-26 2016-06-01 三星电子株式会社 用于语音识别的方法和电子装置
CN108447483A (zh) * 2018-05-18 2018-08-24 深圳市亿道数码技术有限公司 语音识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨琳,张建平,王迪,颜永红: "基于频率调制信息的人工耳蜗语音处理算法研究", 《声学学报》 *

Similar Documents

Publication Publication Date Title
US11620983B2 (en) Speech recognition method, device, and computer-readable storage medium
JP6857699B2 (ja) 音声対話設備のウェイクアップ方法、装置、設備、記憶媒体、及びプログラム
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
CN105304080B (zh) 语音合成装置及方法
Barker et al. The PASCAL CHiME speech separation and recognition challenge
TWI590228B (zh) 語音控制系統、電子裝置及語音控制方法
JP6139598B2 (ja) オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
TWI711967B (zh) 播報語音的確定方法、裝置和設備
CN109326289A (zh) 免唤醒语音交互方法、装置、设备及存储介质
JP2019185062A (ja) 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体
CN107210040A (zh) 语音功能的操作方法和支持该方法的电子设备
CN109994106B (zh) 一种语音处理方法及设备
US20210343270A1 (en) Speech translation method and translation apparatus
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN204496731U (zh) 一种语音控制听写装置
Barker et al. The CHiME challenges: Robust speech recognition in everyday environments
CN104766608A (zh) 一种语音控制方法及装置
CN106205652A (zh) 一种音频跟读评测方法及装置
CN110349569A (zh) 定制化产品语言模型的训练和识别方法及装置
US20200227069A1 (en) Method, device and apparatus for recognizing voice signal, and storage medium
CN112185342A (zh) 语音转换与模型训练方法、装置和系统及存储介质
CN107959882B (zh) 基于视频观看记录的语音变换方法、装置、终端及介质
CN104932862A (zh) 基于语音识别的多角色交互方法
CN201532764U (zh) 车载声控无线宽带网络音频播放器
US20080147439A1 (en) User recognition/identification via speech for a personal health system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210409

Address after: Room 903, No.1, Lane 399, shengxia Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203

Applicant after: Shanghai Haocheng Information Technology Co.,Ltd.

Address before: Floor 1, Building 401 Caobao Road, Xuhui District, Shanghai, 2003

Applicant before: SHANGHAI LONGCHEER TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190322