CN110349582A - 显示装置与远场语音处理电路 - Google Patents

显示装置与远场语音处理电路 Download PDF

Info

Publication number
CN110349582A
CN110349582A CN201910620438.2A CN201910620438A CN110349582A CN 110349582 A CN110349582 A CN 110349582A CN 201910620438 A CN201910620438 A CN 201910620438A CN 110349582 A CN110349582 A CN 110349582A
Authority
CN
China
Prior art keywords
circuit
far field
sound
voice
display device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910620438.2A
Other languages
English (en)
Other versions
CN110349582B (zh
Inventor
于云涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Hisense Electronics Co Ltd
Original Assignee
Qingdao Hisense Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Hisense Electronics Co Ltd filed Critical Qingdao Hisense Electronics Co Ltd
Priority to CN201910620438.2A priority Critical patent/CN110349582B/zh
Publication of CN110349582A publication Critical patent/CN110349582A/zh
Priority to PCT/CN2020/075958 priority patent/WO2021004067A1/zh
Application granted granted Critical
Publication of CN110349582B publication Critical patent/CN110349582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明提供了一种显示装置与远场语音处理电路。该显示装置电路包括扬声器、声音拾取电路、预处理电路以及回声处理电路。其中,预处理电路与所述声音拾取电路连接,以接收拾取的远场声音,且所述预处理电路连接到扬声器的前端以获取播放声音回采信号。回声处理电路与所述预处理电路连接,以接收拾取的远场语音和所述播放声音回采信号,并用所述播放声音回采信号对所述拾取的远场声音进行回声消除,以得到用户发出的远场语音。本发明技术方案能够极大的降低用户发出的远场语音中的回声干扰,提高识别远场语音的准确率,从而提高了远程拾音的打断唤醒的灵敏度,提高了用户体验。

Description

显示装置与远场语音处理电路
技术领域
本发明涉及智能设备领域,特别涉及一种远场语音处理电路与显示装置。
背景技术
远场语音(Far-FieldVoice)作为一种新型的交互方式,其基本原理是通过人类语音的方式实现人机交互;理论上可完全解放用户的双手,摆脱遥控器的束缚,因此越来越受到人们的青睐。与音箱等产品整合远场声音相比,远场声音技术在电视上应用远场声音存在着诸多困难,受限于电视的SOC(系统芯片)的硬件资源,部分SOC未包含直连麦克风的硬件接口,从而因无法连接麦克而无法具备远场声音功能。
另一方面,回声现象一直是显示装置远场语音性能提升的难点。当电视通过扬声器播放歌曲/视频等本机声音,麦克风阵列实际采集了电视的扬声器所发出的本机声音和用户实际说话的语音,而回声消除的目的就是要去掉其中的扬声器所发出的本机声音部分而只保留用户的语音。但是现实中,所采集到的电视自身的本机声音信号与扬声器实际发出的本机声音具有一定的差距,造成无法完全消除扬声器实际发出的本机声音,导致回声消除的不彻底,远场拾音的打断唤醒及识别效果变差,从而影响用户体验。
发明内容
本发明的提出一种智能设备,旨在提高回声处理效果。
根据本发明的一个方面,本发明提供一种显示装置,显示装置包括扬声器以及远场语音处理电路;所述远场语音处理电路包括:
扬声器,用于播放设备输出的声音;
声音拾取电路,用于拾取远场声音,所述远场声音包括用户发出的远场语音和所述扬声器播放的声音传输到声音拾取电路的声音;
预处理电路,与所述声音拾取电路连接,以接收拾取的远场声音,且所述预处理电路连接到扬声器的前端以获取播放声音回采信号;
回声处理电路,与所述预处理电路连接,以接收拾取的远场声音和所述播放声音回采信号,并用所述播放声音回采信号对所述拾取的远场声音进行回声消除,以得到用户发出的远场语音。
根据本发明的一实施例,所述预处理电路包括:
前置处理电路,与所述声音拾取电路和所述扬声器的前端耦接,以将拾取的远场声音和所述播放声音回采信号转换成所述回声处理电路兼容的格式。
根据本发明的一实施例,所述前置处理电路还用于调节拾取的远场声音与所述播放声音回采信号的相位,以使所述播放声音回采信号的相位超前于所述拾取的远场声音的相位在预设时长之内。
根据本发明的一实施例,所述预处理电路还包括:
第一编码器,所述前置处理电路通过所述第一编码器与所述扬声器的前端连接,所述第一编码器对所述播放声音回采信号进行模数转换。
根据本发明的一实施例,所述显示装置包括功率放大器;所述功率放大器连接在所述扬声器和所述回声处理电路之间,用于向所述扬声器提供设备输出的多路声音;所述播放声音回采信号包括从扬声器的前端获取的所述多路声音;
所述第一编码器还用于对从扬声器的前端获得的多路声音进行合成。
根据本发明的一实施例,所述声音拾取电路包括麦克风阵列,以及与所述麦克风阵列电连接的第二编码器,其中,所述麦克风阵列用于拾取所述远场声音;所述第二编码器用于对所述远场声音进行模数转换;
所述第二编码器还用于对所述麦克风阵列拾取的多路远场声音进行合成。
根据本发明的一实施例,所述远场声音处理电路还包括语音增强电路以及声源定位电路,所述回声消除电路输出的回声消除后的远场声音分别传输至所述语音增强电路以及声源定位电路;
所述语音增强电路与所述声源定位电路连接,以接收所述声源定位电路输出的声源定位结果,并根据所述声源定位结果,对回声消除后的远场声音进行增强处理,以生成以形成待上传远场语音。
根据本发明的一实施例,所述显示装置还包括语音引擎电路,所述语音引擎电路与所述语音增强电路的输出端连接,所述语音引擎电路将所述待上传远场语音进行唤醒词识别处理,以在识别到预设的唤醒词时,将所述待上传远场语音进行编码,传输到指定终端;
所述语音引擎电路还用于接收从指定终端返回的与所述远场语音对应的指令。
根据本发明的一实施例,所述显示装置具有主控芯片,所述回声处理电路、语音增强电路、声源定位电路、语音引擎电路均集成于所述主控芯片内。
根据本发明的另一方面,提出一种远场语音处理电路,所述远场语音处理电路包括:
声音拾取电路,用于拾取远场声音,所述远场声音包括用户发出的远场语音和所述扬声器播放的声音传输到声音拾取电路的声音;
预处理电路,与所述声音拾取电路连接,以接收拾取的远场声音,且所述预处理电路连接到扬声器的前端以获取播放声音回采信号;
回声处理电路,与所述预处理电路连接,以接收拾取的远场声音和所述播放声音回采信号,并用所述播放声音回采信号对所述拾取的远场声音进行回声消除,以得到用户发出的远场语音。
本发明技术方案中,考虑到设备音响系统的需求,功放都会对需要播放的声音信号作相关的处理,因此需要播放的声音信号在经过功放的前后已经发生了非线性变化;因此本方案从功放的后端、扬声器前端获取播放声音回采信号,因此即便在功放中进行了均衡、放大等非线性信号处理后,预处理电路所得到的播放声音回采信号与声音拾取电路所拾取到的扬声器播放的声音是极为接近的,因此用该播放声音回采信号对所述拾取的远场声音进行回声消除,能够较大程度上降低用户发出的远场语音中的回声干扰,提高识别远场语音的准确率,从而提高了远程拾音的打断唤醒的灵敏度,提高了用户体验;另一方面,本实施例通过设置预处理电路,以接收拾取的远场声音以及播放声音回采信号,从而克服了现有许多显示装置SOC芯片没有相应的接口,而无法接收麦克风阵列所传输的远场声音的缺陷。因此本发明技术方案提高了远场语音人机交互技术在显示装置上的普及。
附图说明
图1a是本发明显示装置一实施例的正视图;
图1b为图1a的部分结构分解图;
图2本发明本发明显示装置的电路架构图;
图3本发明远场语音处理电路一实施例的电路连接框图;
图4是本发明远场语音处理电路另一实施例的电路连接框图;
图5是本发明远场语音处理电路再一实施例的电路连接框图;
图6是麦克风阵列中与第二编码器之间的接口电路图;
图7是主控芯片一实施例的功能结构框图;
图8是本发明远场语音处理电路一实施例的部分电路连接框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
在本公开中,除非另有明确的规定和限定,术语“相连”、“连接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是是电连接,也可以是互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
此外,在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示单独存在A、单独存在B及同时存在A和B三种情况。符号“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
本实施例所提出的显示装置具有人机语音交互功能。在此对显示装置的结构进行说明,参见图1a所示,图1a为本实施例显示装置的正视图,图1b为本实施例显示装置的结构分解图。如图1a和图1b所示,显示装置包括面板1、背光组件2、主板3、电源板4、后壳5、基座6、拾音模块7。其中,面板1用于给用户呈现画面;背光组件2位于面板1的下方,通常是一些光学组件,用于供应充足的亮度与分布均匀的光源,使面板1能正常显示影像,背光组件2还包括背板201,主板3和电源板4设置于背板201上,通常在背板201上冲压形成一些凸包结构,主板3和电源板4通过螺钉或者挂钩固定在凸包上;后壳5盖设在面板1上,以隐藏背光组件2、主板3以及电源板4等显示装置的零部件,起到美观的效果;底座6,用于支撑显示装置拾音模块内具有用于拾取远场语音的麦克风。本实施例中,拾音模块7可以设置于后壳下侧,且大致位于整个显示装置的中部,拾音模块7与后壳5为一体式结构或通过螺钉、卡扣等结构实现可拆卸连接。
在相关技术中,通过在遥控器上设置麦克风,以拾取用户发出的语音。当用户需要与显示装置进行语音交互时,必须要手持遥控器,并对着遥控器发出语音。因此当遥控器不在身边时,用户需要先寻找遥控器,并且在用户手持遥控器发出语音的同时,用户的手被占用而无法做其他事情,这极大的造成用户的使用不便,特别是对于一些手部残疾的用户来说将无法充分的使用显示装置的人机语音交互功能。
在另一相关技术中,出现了带有远场拾音功能的显示装置,用户拾音的麦克风阵列设置在显示装置上,因此用户可以脱离于遥控器发出语音而直接被显示装置所拾取,这种方式解放了用户的双手,极大的方便了用户的使用。但是由于回音消除的不彻底,导致远场拾音的打断唤醒及识别效果变差,从而影响用户体验。这是由于用户发出远场语音的同时,环境中往往也伴随着显示装置自身通过扬声器播放歌曲/视频等本机声音,因此麦克风阵列实际采集了显示装置的扬声器所发出的本机声音和用户实际说话的语音,而回声消除的目的就是要去掉其中的扬声器所发出的本机声音部分而只保留用户的语音。一般的,显示装置的主板SOC发出准备要播放的声音信号至功放,由功放进行放大处理后,输出至扬声器进行播放。因此通常采用在SOC芯片的输出端,引出一路声音回采信号,以作为需要消除信号的参照。但是实际上,由于显示装置音响系统的需求,功放都会对需要播放的声音信号作相关的处理,因此需要播放的声音信号在经过功放的前后已经发生了非线性变化。因此造成所采集到声音回采信号与扬声器实际发出的本机声音具有一定的差距,因此即使回声消除算法的精确性再高,也无法完全消除扬声器实际发出的本机声音,回声消除的不彻底的问题始终得不到解决。
请参阅图2,本实施例的显示装置的主板3上包括SOC(System on Chip,系统芯片),与SOC连接的功放50。功放50的输出端连接有扬声器40,SOC输出待播放音频信号至功放50内,功放50对该音频信号进行放大、模数转换处理后,驱动扬声器40播放。扬声器40具体可以设置有两个或两个以上。上述实施例中的拾音模块7内包括麦克板8,麦克板8上设置麦克风阵列11,麦克风阵列11包括多个间隔设置的麦克风,每相邻两麦克风之间的间距大致相同。麦克板8上还设置对从功放50后端获取的播放声音回采信号进行编码的第一编码器22,以及用于对麦克风输出信号进行编码的第二编码器12。
主板3与麦克板8需要通过接口座进行信号传输,麦克风阵列11拾取的远场声音以及从功放50后端获取的播放声音回采信号均通过该USB接口进行传输。接口座可以为USB口,或以USB的UAC(USB Audio Class)协议为接口协议所设计的专用的USB接口。
本发明实施例提出了一种设备的远场语音处理电路。该设备可以是智能终端,例如显示装置。在以下实施例中,以远场语音处理电路应用于显示装置上为例说明。
请参阅图3,该远场语音处理电路包括扬声器40、声音拾取电路10、预处理电路20以及主控芯片30,主控芯片30集成有回声处理电路31。其中,扬声器40用于播放设备输出的声音。声音拾取电路10用于拾取远场声音,远场声音包括用户发出的远场语音和扬声器40播放的声音传输到声音拾取电路10的混合声音。预处理电路20与声音拾取电路10连接,以接收拾取的远场声音,且预处理电路20连接到扬声器40的前端以获取播放声音回采信号。回声处理电路31与预处理电路20连接,以接收拾取的远场语音和播放声音回采信号,并用播放声音回采信号对拾取的远场声音进行回声消除,以得到用户发出的远场语音。在另一实施例中,回声处理电路31可以为单独的模块。
用户通过发出语音以与显示装置实现人机交互,而显示装置自身在工作时会通过扬声器40播放出音乐、视频中的语音等声音;因此声音拾取电路10不可避免的会拾取到用户发出的远场语音以及扬声器40播放的声音。本实施例方案中,显示装置的主控芯片30将需要播放的声音信号传输至功率放大器(简称功放50),功放50会对该需要播放的声音信号进行放大处理后,以驱动扬声器40播放声音。由于显示装置音响系统的需求,功放50都会对需要播放的声音信号作相关的处理,因此需要播放的声音信号在经过功放50的前后已经发生了非线性变化,因此在功放50的后端、扬声器40前端所获取的声音才能够较大程度的贴近扬声器40真实播放的声音。本实施例通过从功放50的后端、扬声器40前端获取播放声音的回采信号,因此该播放声音的回采信号与声音拾取电路10中拾取到的扬声器40播放的声音非常接近,因此基于该播放声音回采信号对拾取的远场声音进行回声消除,能够较大程度上降低用户发出的远场语音中掺杂的回声(该回声即是指扬声器40播放的声音),提高识别远场语音的准确率,从而提高了远程拾音的打断唤醒的灵敏度,提高了用户体验。
可以理解的是,本实施例中“声音”具体可以指代该声音对应的声波信号以及该声音对应的模拟信号、数字信号。例如,声音拾取电路10拾取的是远场声音的声波信号,经过处理后形成远场声音的数字信号,进而传输至预处理电路20。本领域技术人员有能力判断声音传输至不同的电路中,所会发生的一些格式上的变化。
请参阅图4,本实施例中,预处理电路20包括前置处理电路21、第一编码器22。其中,前置处理电路21可以为MCU、单片机或其他一些具有音频接口的数字处理芯片。在以下实施例中,为了便于理解,以前置处理电路21为MCU为例进行说明。
首先关于第一编码器22。前置处理电路21通过第一编码器22与扬声器40的前端连接,第一编码器22对播放声音回采信号进行模数转换。具体的,功放50的后端、扬声器40前端输出播放声音回采信号为模拟信号,因此第一编码器22对该播放声音回采信号进行模数转换,并将模数转换后的播放声音回采信号传输至MCU内(即前置处理电路21内)。当扬声器有多个时,第一编码器22能够对多个扬声器40输出的播放声音回采信号进行模数转换并转换成一通道的数字信号输出。
在此需要解释的是,一个音频信号的输出端在此对应为“一个通道”,多路扬声器输出的多路模拟信号能够在编码器内经过模数转换并通过一个通道输出。第一编码器22具体可以采用X-POWER公司的AC108,AC108能够将两个扬声器40输出的模拟信号转换成一通道的数字信号输出。
远场语音处理电路包括功率放大器,连接在扬声器40和显示装置的主控芯片30之间。当扬声器40有多个时,播放声音回采信号包括从多个扬声器40的前端获取的多路声音。
请参阅图5,具体的,本实施例中,远场语音处理电路还包括信号处理电路70,信号处理电路70的输入端与功放50的后端、扬声器40的前端连接,信号处理电路的输出端与第一编码器22连接。即从功放50输出的播放声音回采信号经过信号处理电路进行降压、以及滤波处理后输入至第一编码器22。信号处理电路70可以采用现有的BUCK降压电路或电阻分压电路对从功放50输出的播放声音回采信号进行降压;可以采用RC滤波电路,对经过降压后的播放声音回采信号进行滤波处理。
同时,声音拾取电路10包括麦克风阵列11,以及与麦克风阵列11电连接的第二编码器12。其中,麦克风阵列11包括多个麦克风,每个麦克风均能够拾取远场声音;多个麦克风同时拾取远场声音,以生成多路远场声音的模拟信号。多个麦克风按照线性阵列排布,采集原始的远场声音信号并转化成模拟电信号,再输出给后端的第一编码器22内。
第二编码器12用于将远场声音的模拟信号进行模数转换。第二编码器12还用于在对远场声音的模拟信号进行模数转换后,对多路远场声音的数字信号转换成一路音频信号传输至MCU。第二编码器1可以采用X-POWER公司的AC108,AC108包含四通道的模数转换器,能够将四个麦克风输出的共四路模拟信号进行模数转换,并转换为一通道的数字信号输出。
在上述实施例中,第一编码器22、第二编码器12所转化成的一通道数字音频信号可以是IIS音频格式或TDM音频格式。
需要说明的是,本实施例中,在线性麦克风阵列11的在传输信号过程中尽量保证同步,使得传输的波形相位差不能超过180°。具体的,可以采用1kHz单频电信号进行通入麦克风阵列11中进行测试,以便更好的观察每个麦克风输出信号的相位差。
具体的,当麦克风阵列11中有四个麦克风时,四个麦克风会相应输出四路远场声音的模拟信号至第二编码器12,第二编码器12对这四路远场声音的模拟信号进行数模转换并转换形成一通道数字音频信号,以传输至MCU对应的音频接口上。可以理解的是,该一通道音频信号实质上包含了4个麦克风输出的模拟信号。
请参阅图6,在一实施例中,CON1-CON4为四个麦克风的接口,麦克风按直线等距摆放,两两间距大致35mm,组成满足算法空间需求的线性四麦阵列。四路麦克的模拟信号直接输入到第二编码器12中完成模数转换及低通滤波等信号处理,然后转换成1通道的IIS格式的音频信号,并通过IIS接口将该音频信号传输至MCU对应的IIS接口。
关于前置处理电路21。前置处理电路21与声音拾取电路10和扬声器40的前端耦接,以将拾取的远场声音和播放声音回采信号转换成回声处理电路31兼容的格式。具体的,前置处理电路21可以为MCU,当MCU接收到转换成一通道的远场声音信号和转换成一通道的播放声音回采信号后,会将远场声音信号和播放声音回采信号进行合成,以形成回声处理电路31兼容的格式的音频信号,从而可以使MCU可以将经过处理后的远场声音信号和播放声音回采信号传输至回声处理电路31。在本实施例中,由于回声处理电路31集成于显示装置SOC内。因此MCU需要将远场声音信号和播放声音回采信号后合成SOC所能兼容的格式的音频信号。
在一具体的实施例中,MCU将远场声音信号和所述播放声音回采信号转换成USB的数据格式,以使MCU能够通过USB接口的UAC(USB Audio Class)协议,利用标准的USB数据线,完成MCU与SOC之间音频数据的传输。
本实施例通过设置预处理电路20,以接收拾取的远场声音以及播放声音回采信号,从而克服了现有许多显示装置SOC芯片没有相应的音频传输接口,而无法接收麦克风阵列11所传输的远场声音的缺陷。因此本发明技术方案提高了远场语音人机交互技术在显示装置上的普及。
进一步的,在进行格式转换前,MCU还用于调节拾取的远场声音与播放声音回采信号的相位,以使播放声音回采信号的相位超前于拾取的远场声音的相位在预设时长之内。这是为了满足SOC中回声处理算法的要求,提高回声处理效果。具体的,使播放声音回采信号的相位超前于拾取的远场声音的相位在20ms之内,由此可以实现对扬声器40所播放的声音更好的消除。
进一步的,MCU还用于对拾取的远场声音与播放声音回采信号通过算法做低通滤波,以过滤频率高于8KHz的音频,以实现最终MCU输出的远场声音与播放声音回采信号无谐波、无混叠;提高对远场声音与播放声音回采信号的预处理效果,进而提高回声处理效果。
需要说明的是,在MCU中,可以先对远场声音与播放声音回采信号通过算法做低通滤波,再进行两者之间的相位调节,最后再进行格式转换;也可以先对远场声音与播放声音回采信号进行相位调节,再进行滤波,最后进行格式转换。例如,MCU接收到前端第一编码器22输出的数字化的播放声音回采信号和第二编码器12输出的数字化远场声音信号后,先对它们进行低通滤波的处理,防止产生混叠现象而影响回音消除算法的识别,然后进行远场声音信号与播放声音回采信号的相位差控制与调节,最后将上述处理后的远场声音与播放声音回采信号合成USB格式的音频信号,传给后端的SOC处理。
请参阅图5,在本实施例中,远场语音处理电路还包括加密芯片80,加密芯片80用于存储远程语音识别算法的密钥,MCU用于与加密芯片80通信。只有当MCU和加密芯片80通信成功,才能启动远场语音的识别算法。具体的,在显示装置上电后,MCU会与加密芯片80进行通信,当通信成功后,SOC对远场声音进行回音处理后所获得的远场语音才能够进一步被后续的远场语音识别算法所进一步识别,以解析远场语音的语义。
在SOC中通过回声处理算法实现将拾取的远场声音中去除掉与播放声音回采信号所对应的部分,从而保留用户的发出的远场语音。现有的回声处理算法均可以应用于本实施例中,在此不做具体限定。在一具体实施例中,麦克风阵列11采集的远场声音信号送入SOC后,集成在SOC中的语音服务程序场(语音server APK)中的回声消除算法通过动态判断语音信号中麦克风阵列11所拾取的远场语音及扬声器40输出的播放声音回采信号的能量差值与相位差值,进而能够将麦克风阵列11所拾取的远场语音信号中的用户发出的远场语音提取出来,从而消除了显示装置本机播放的声音所造成的回声干扰现象。
经过SOC中回声处理电路31处理后,还需要对已经经过回声处理后的远程语音进行进一步处理,以最大程度上还原用户真实发出的远场语音。请参阅图7和图8,具体的,SOC内还包括语音增强电路33以及声源定位电路32,回声消除电路输出的回声消除后的远场声音分别传输至语音增强电路33以及声源定位电路32;语音增强电路33与声源定位电路32连接,以接收声源定位电路32输出的声源定位结果,并根据声源定位结果,对回声消除后的远场声音进行增强处理。语音增强电路33可以包括波束形成电路331,去混响电路332、以及降噪电路333中的一个或多个。在一具体的实施例中,语音增强电路33同时包括依次连接的波束形成电路331,去混响电路332、以及降噪电路333,以对回声消除后的远场声音依次进行波束形成、去混响、和降噪处理,从而生成以形成待上传远场语音。
在该实施例中,通过声源定位电路32,以识别用户远场语音的来源位置,并将该位置反馈给语音增强电路33,语音增强电路33基于已确定的用户远场语音的来源位置,进行波束形成,并基于形成的波束对相应区域的语音进行抑制,并进一步进行降噪处理,以最终得到待上传远场语音。本实施例所得到的待上传远场语音已经极为接近用户发出的真实远场语音。
进一步的,在得到待上传远场语音后,还需要对该待上传远场语音进行语义分析。具体的,SOC中还包括语音引擎电路34,语音引擎电路34与语音增强电路33的输出端连接,语音引擎电路34将待上传远场声音进行唤醒词识别处理,当识别到预设的唤醒词时,会触发唤醒事件,进而将待上传远场声音进行编码,传输到指定终端60;语音引擎电路34还用于接收从指定终端60返回的与远场声音对应的指令。
具体的,指定终端60可以为云端,也可以是显示装置内的其他处理电路。在此以上传至云端为例,在云端进行语音识别以及语义理解,并通过在线语音合成,生成与远场声音对应的指令,通过执行该指令,从而完成显示装置的人机语音交互全过程。
语音引擎电路34从云端接收到的指令可以是包含回答用户提出的问题的语音回复信息,语音回复信息可以通过显示装置的功放50、扬声器40将该进行播出。该指令也可以依照用户远场语音中的控制要求,以控制显示装置响应的控制指令;显示装置的SOC根据该控制指令控制相关的电路响应该控制指令。例如该控制指令为关机,此时SOC协调显示装置的供电系统以停止对显示系统的供电。
进一步的,当唤醒事件被触发后,待上传语音会同步上传到语音服务程序场(语音server APK),再由语音服务程序场上报到算法提供方的云服务后台,实现唤醒的闭环优化;由此可以提高对由不同音色、发音所发出的唤醒词识别的灵敏度。
以上实施例中,回声处理电路31、语音增强电路33、声源定位电路32、语音引擎电路34可以为单独的模块,在本实施例中,它们均为算法电路,而存储于SOC内。
本发明技术方案中,考虑到设备音响系统的需求,功放50都会对需要播放的声音信号做相关的处理,因此需要播放的声音信号在经过功放50的前后已经发生了非线性变化;因此本方案从功放50的后端、扬声器40前端获取播放声音回采信号,因此即便在功放50中进行了均衡、放大等非线性信号处理后,预处理电路20所得到的播放声音回采信号与声音拾取电路10所拾取到的扬声器40播放的声音是极为接近的,因此基于该播放声音回采信号对拾取的远场声音进行回声消除,能够较大程度上降低用户发出的远场语音中的回声干扰,提高识别远场语音的准确率,从而提高了远程拾音的打断唤醒的灵敏度,提高了用户体验;另一方面,本实施例通过设置预处理电路20,以接收拾取的远场声音以及播放声音回采信号,从而克服了现有许多显示装置SOC芯片没有相应的接口,而无法接收麦克风阵列11所传输的远场声音的缺陷。因此本发明技术方案提高了远场语音人机交互技术在显示装置上的普及。
虽然已参照几个典型实施方式描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施方式不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims (10)

1.一种显示装置,其特征在于,包括扬声器以及远场语音处理电路;所述远场语音处理电路包括:
声音拾取电路,用于拾取远场声音,所述远场声音包括用户发出的远场语音和所述扬声器播放的声音传输到声音拾取电路的声音;
预处理电路,与所述声音拾取电路连接,以接收拾取的远场声音,且所述预处理电路连接到扬声器的前端以获取播放声音回采信号;
回声处理电路,与所述预处理电路连接,以接收拾取的远场声音和所述播放声音回采信号,并用所述播放声音回采信号对所述拾取的远场声音进行回声消除,以得到用户发出的远场语音。
2.根据权利要求1所述的显示装置,其特征在于,所述预处理电路包括:
前置处理电路,与所述声音拾取电路和所述扬声器的前端耦接,以将拾取的远场声音和所述播放声音回采信号转换成所述回声处理电路兼容的格式。
3.根据权利要求2所述的显示装置,其特征在于,所述前置处理电路还用于调节拾取的远场声音与所述播放声音回采信号的相位,以使所述播放声音回采信号的相位超前于所述拾取的远场声音的相位在预设时长之内。
4.根据权利要求2所述的显示装置,其特征在于,所述预处理电路还包括:
第一编码器,所述前置处理电路通过所述第一编码器与所述扬声器的前端连接,所述第一编码器对所述播放声音回采信号进行模数转换。
5.根据权利要求4所述的显示装置,其特征在于,所述显示装置包括功率放大器;所述功率放大器连接在所述扬声器和所述回声处理电路之间,用于向所述扬声器提供设备输出的多路声音;所述播放声音回采信号包括从扬声器的前端获取的所述多路声音;
所述第一编码器还用于将从扬声器的前端获得的多路声音转换成一通道的数字信号输出。
6.根据权利要求1所述的智能设备的显示装置,其特征在于,所述声音拾取电路包括麦克风阵列,以及与所述麦克风阵列电连接的第二编码器,其中,所述麦克风阵列用于拾取所述远场声音;所述第二编码器用于对所述远场声音进行模数转换;
所述第二编码器还用于对所述麦克风阵列拾取的多路远场声音进行合成。
7.根据权利要求1所述的显示装置,其特征在于,所述远场声音处理电路还包括语音增强电路以及声源定位电路,所述回声消除电路输出的回声消除后的远场声音分别传输至所述语音增强电路以及声源定位电路;
所述语音增强电路与所述声源定位电路连接,以接收所述声源定位电路输出的声源定位结果,并根据所述声源定位结果,对回声消除后的远场声音进行增强处理,以生成以形成待上传远场语音。
8.根据权利要求7所述的显示装置,其特征在于,所述显示装置还包括语音引擎电路,所述语音引擎电路与所述语音增强电路的输出端连接,所述语音引擎电路将所述待上传远场语音进行唤醒词识别处理,以在识别到预设的唤醒词时,将所述待上传远场语音进行编码,传输到指定终端;
所述语音引擎电路还用于接收从指定终端返回的与所述远场语音对应的指令。
9.根据权利要求8所述的显示装置,其特征在于,所述显示装置具有主控芯片,所述回声处理电路、语音增强电路、声源定位电路、语音引擎电路均集成于所述主控芯片内。
10.一种远场语音处理电路,其特征在于,所述远场语音处理电路为如权利要求1至9中任意一项所述显示装置中的远场语音处理电路。
CN201910620438.2A 2019-07-10 2019-07-10 显示装置与远场语音处理电路 Active CN110349582B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910620438.2A CN110349582B (zh) 2019-07-10 2019-07-10 显示装置与远场语音处理电路
PCT/CN2020/075958 WO2021004067A1 (zh) 2019-07-10 2020-02-20 一种显示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910620438.2A CN110349582B (zh) 2019-07-10 2019-07-10 显示装置与远场语音处理电路

Publications (2)

Publication Number Publication Date
CN110349582A true CN110349582A (zh) 2019-10-18
CN110349582B CN110349582B (zh) 2021-11-19

Family

ID=68174787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910620438.2A Active CN110349582B (zh) 2019-07-10 2019-07-10 显示装置与远场语音处理电路

Country Status (1)

Country Link
CN (1) CN110349582B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021004067A1 (zh) * 2019-07-10 2021-01-14 海信视像科技股份有限公司 一种显示装置
CN112975945A (zh) * 2019-12-17 2021-06-18 沈阳新松机器人自动化股份有限公司 一种服务机器人的人机交互控制系统
CN113014978A (zh) * 2021-02-18 2021-06-22 四川长虹电器股份有限公司 提高电视远场语音激活率的方法、计算机设备、存储介质
CN113316047A (zh) * 2021-04-16 2021-08-27 杭州涂鸦信息技术有限公司 一种拾音设备
CN113823310A (zh) * 2021-11-24 2021-12-21 南昌龙旗信息技术有限公司 应用于平板电脑的语音打断唤醒电路

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825862A (zh) * 2015-01-05 2016-08-03 沈阳新松机器人自动化股份有限公司 一种机器人人机对话回声消除系统
CN106782591A (zh) * 2016-12-26 2017-05-31 惠州Tcl移动通信有限公司 一种在背景噪音下提高语音识别率的装置及其方法
CN109360562A (zh) * 2018-12-07 2019-02-19 深圳创维-Rgb电子有限公司 回声消除方法、装置、介质以及语音唤醒方法和设备
CN109545237A (zh) * 2018-10-24 2019-03-29 广东思派康电子科技有限公司 一种计算机可读存储介质和应用该介质的语音交互音箱
CN209017204U (zh) * 2018-12-25 2019-06-21 深圳创维-Rgb电子有限公司 语音识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825862A (zh) * 2015-01-05 2016-08-03 沈阳新松机器人自动化股份有限公司 一种机器人人机对话回声消除系统
CN106782591A (zh) * 2016-12-26 2017-05-31 惠州Tcl移动通信有限公司 一种在背景噪音下提高语音识别率的装置及其方法
CN109545237A (zh) * 2018-10-24 2019-03-29 广东思派康电子科技有限公司 一种计算机可读存储介质和应用该介质的语音交互音箱
CN109360562A (zh) * 2018-12-07 2019-02-19 深圳创维-Rgb电子有限公司 回声消除方法、装置、介质以及语音唤醒方法和设备
CN209017204U (zh) * 2018-12-25 2019-06-21 深圳创维-Rgb电子有限公司 语音识别系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021004067A1 (zh) * 2019-07-10 2021-01-14 海信视像科技股份有限公司 一种显示装置
CN112975945A (zh) * 2019-12-17 2021-06-18 沈阳新松机器人自动化股份有限公司 一种服务机器人的人机交互控制系统
CN113014978A (zh) * 2021-02-18 2021-06-22 四川长虹电器股份有限公司 提高电视远场语音激活率的方法、计算机设备、存储介质
CN113316047A (zh) * 2021-04-16 2021-08-27 杭州涂鸦信息技术有限公司 一种拾音设备
CN113823310A (zh) * 2021-11-24 2021-12-21 南昌龙旗信息技术有限公司 应用于平板电脑的语音打断唤醒电路

Also Published As

Publication number Publication date
CN110349582B (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN110349582A (zh) 显示装置与远场语音处理电路
US10923138B2 (en) Sound collection apparatus for far-field voice
CN208691406U (zh) 用于智能电视的远场语音采集系统
CN108447483B (zh) 语音识别系统
US20130144626A1 (en) Rap music generation
CN109817238A (zh) 音频信号采集装置、音频信号处理方法和装置
CN101162894A (zh) 音效处理装置及方法
CN102982792A (zh) 一种利用手机对乐器进行调音的方法及装置
CN111276150B (zh) 一种基于麦克风阵列的智能语音转文字及同声翻译系统
CN105208189A (zh) 音频处理方法及移动终端
CN208724111U (zh) 基于电视设备的远场语音控制系统
CN206181355U (zh) 一种语音降噪系统
CN206759671U (zh) 一种麦克风
CN205430537U (zh) 多功能麦克风话筒
CN208094741U (zh) 一种基于语音识别技术的智能麦克风
CN208805783U (zh) 一种集成声卡功能的键盘
CN208538474U (zh) 语音识别系统
CN109473111A (zh) 一种语音赋能装置及方法
CN203747954U (zh) 麦克风、以及音频传输系统
CN203243508U (zh) 一种无线啸叫抑制装置
CN205812273U (zh) 一种音频输出设备的机震测试工装和系统
CN105491302A (zh) 音频信号输出方法、装置、终端及系统
CN205320230U (zh) 多媒体设备
CN209419784U (zh) 一种适用于树莓派的圆形阵列麦克风
CN103152669A (zh) 一种采用智能终端运算音频效果器的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 266000, No. 218, Bay Road, Qingdao economic and Technological Development Zone, Shandong

Applicant after: Hisense Video Technology Co., Ltd

Address before: 266555 Qingdao economic and Technological Development Zone, Shandong, Hong Kong Road, No. 218

Applicant before: HISENSE ELECTRIC Co.,Ltd.

GR01 Patent grant
GR01 Patent grant