CN115359788A

CN115359788A - 一种显示装置和远场语音识别方法

Info

Publication number: CN115359788A
Application number: CN202210861441.5A
Authority: CN
Inventors: 杨香斌
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-11-18

Abstract

本公开涉及显示装置和远场语音识别方法，包括：扬声器以及远场语音处理模块；远场语音处理模块包括：声音拾取模块，用于拾取远场声音，远场声音包括用户发出的远场语音和扬声器播放的媒体文件的音频，扬声器至少包括主声道和低音声道，第一音频通过主声道播放，第二音频通过低音声道播放；预处理模块，与扬声器的回采输出端电连接，将主声道播放的第一音频和低音声道播放的第二音频进行混音处理后得到播放音频回采信号；回声处理模块，分别与声音拾取模块和预处理模块连接，以接收拾取的远场声音和所述播放音频回采信号，并用播放音频回采信号对拾取的远场声音进行回声消除，以得到用户发出的远场语音，降低了显示装置算力资源的浪费。

Description

一种显示装置和远场语音识别方法

技术领域

本公开涉及显示设备技术领域，尤其涉及一种显示装置和远场语音识别方法。

背景技术

近年来，随着高清视频的不断发展，从2K到4K，甚至8K，还有伴随着虚拟现实VR、AR的发展，人们对音频的听觉要求也随之提高。人们已不再满足于流行多年的立体声、5.1、7.1等音响效果，开始追求更具有沉浸感、真实感的3D音效或沉浸式音效，而随着智能家居技术的不断发展，带有智能麦克远场语音识别控制系统的终端设备已经成为市场上的主打潮流产品。

现有技术中，终端设备播放音视频的技术链中，最关键的一个模块就是回声消除，即终端设备播放音视频的同时，用户需要用唤醒词去唤醒，因此需要对终端设备播放的音视频的声音进行回声消除，避免在空间中对用户说的声音的影响。然而，终端设备的音响效果和远场语音在一定程度上是对立和平衡关系，也就是说，音效越复杂，对远场语音的影响就越大。现有技术中，为迎合用户的听感需求，会将声音的通道数，从左右两声道，扩展到三通道，甚至更多，尤其是针对低音部分，大多电视或者音效，会将低音单独拉出来，作为一个声道进行低音增强，用独立的喇叭进行播放，也就是所谓的2.1声道，而且这些低音声道往往是单独的功放来处理，会用专门的音效处理，所以即便是从主声道分离出来的，主声道低音部分已经完全不能覆盖这个频段的信息，因此仅仅是用原始的双声道的参考信号，无法来进行空间中三个喇叭的声音信号的回声消除。此时，需要针对低音增加一路回声消除，这个无论对于成本和计算资源来说，都会是很大的挑战，尤其是在电视这类系统资源已经非常紧张的情况下，需要一直占用一块用于低音回声消除的算力单元，是非常不合算的。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种显示装置和远场语音识别方法。

第一方面，本公开实施例提供了一种显示装置，包括：扬声器以及远场语音处理模块；

所述远场语音处理模块包括：

声音拾取模块，用于拾取远场声音，所述远场声音包括用户发出的远场语音和所述扬声器播放的媒体文件的音频，所述媒体文件的音频包括第一音频和第二音频，所述扬声器至少包括主声道和低音声道，所述第一音频通过所述主声道播放，所述第二音频通过所述低音声道播放；

预处理模块，与所述扬声器的回采输出端电连接，将所述主声道播放的第一音频和所述低音声道播放的第二音频进行混音处理后得到播放音频回采信号；

回声处理模块，分别与所述声音拾取模块和所述预处理模块连接，以接收拾取的远场声音和所述播放音频回采信号，并用所述播放音频回采信号对所述拾取的远场声音进行回声消除，以得到用户发出的远场语音。

作为一种可实施方式，可选的，所述预处理模块包括加法电路；

所述加法电路的第一输入端与所述主声道的回采输出端电连接，所述加法电路的第二输入端与所述低音声道的回采输出端电连接，所述加法电路的输出端与所述回声处理模块电连接。

作为一种可实施方式，可选的，所述加法电路包括第一加法单元和第二加法单元；

所述第一加法单元的第一输入端与主左声道的回采输出端电连接，所述第一加法单元的第二输入端与低音左声道的回采输出端电连接，所述第一加法单元的输出端与所述回声处理模块的第一端电连接；

所述第二加法单元的第一输入端与主右声道的回采输出端电连接，所述第二加法单元的第二输入端与低音右声道的回采输出端电连接，所述第二加法单元的输出端与所述回声处理模块的第二端电连接。

作为一种可实施方式，可选的，所述预处理模块包括混音芯片；

所述混音芯片的第一输入端与主左声道的回采输出端电连接，所述混音芯片的第二输入端与主右声道的回采输出端电连接，所述混音芯片的第三输入端与低音左声道的回采输出端电连接，所述混音芯片的第四输入端与低音右声道的回采输出端电连接，所述混音芯片的第一输出端与所述回声处理模块的第一端电连接，所述混音芯片的第二输出端与所述回声处理模块的第二端电连接。

作为一种可实施方式，可选的，所述混音芯片为多路输入多路输出芯片。

作为一种可实施方式，可选的，所述显示装置包括系统芯片，所述混音芯片集成于所述系统芯片内。

作为一种可实施方式，可选的，所述远场语音处理模块还包括：

格式转换模块，与所述声音拾取模块和所述预处理模块的输出端端耦接，以将拾取的远场声音和所述播放音频回采信号转换成所述回声处理模块兼容的格式。

作为一种可实施方式，可选的，所述格式转换模块还用于调节拾取的远场声音与所述播放音频回采信号的相位，以使所述播放音频回采信号的相位与所述拾取的远场声音的相位相同。

第二方面，本公开实施例提供一种远场语音识别方法，应用于第一方面任一项所述的显示装置，包括：

拾取远场声音，所述远场声音包括用户发出的远场语音和所述扬声器播放的媒体文件的音频，所述媒体文件的音频包括第一音频和第二音频，所述扬声器至少包括主声道和低音声道，所述第一音频通过所述主声道播放，所述第二音频通过所述低音声道播放；

将所述主声道播放的第一音频和所述低音声道播放的第二音频进行混音处理后得到播放音频回采信号；

接收拾取的远场声音和所述播放音频回采信号，并用所述播放音频回采信号对所述拾取的远场声音进行回声消除，以得到用户发出的远场语音。

作为一种可实施方式，可选的，所述接收拾取的远场声音和所述播放音频回采信号，并用所述播放音频回采信号对所述拾取的远场声音进行回声消除，以得到用户发出的远场语音，包括：

接收拾取的远场声音和所述播放音频回采信号；

将所述远场声音和所述播放音频回采信号输入至滤波模型，得到用户发出的远场语音。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供的显示装置和远场语音识别方法，用户通过发出语音以与显示装置实现人机交互，而显示装置自身在工作时会通过扬声器播放出音乐、视频中的语音等声音，因此声音拾取模块不可避免的会拾取到用户发出的远场语音以及扬声器播放的声音。本实施例方案中，显示装置的主控芯片将需要播放的声音信号传输至功率放大器，功放会对该需要播放的声音信号进行放大处理后，以驱动扬声器播放声音。由于显示装置音响系统的需求，功放都会对需要播放的声音信号作相关的处理，因此需要播放的声音信号在经过功放的前后已经发生了非线性变化，因此在功放的后端、扬声器前端所获取的声音才能够较大程度的贴近扬声器真实播放的声音。本实施例通过从功放的后端、扬声器前端获取播放声音的回采信号，因此该播放声音的回采信号与声音拾取模块中拾取到的扬声器播放的声音非常接近，因此基于该播放声音回采信号对拾取的远场声音进行回声消除，能够较大程度上降低用户发出的远场语音中掺杂的回声(该回声即是指扬声器播放的声音)，提高识别远场语音的准确率，从而提高了远程拾音的打断唤醒的灵敏度，提高了用户体验，此外，本申请中，通过预处理模块直接将主声道播放的第一音频和低音声道播放的第二音频进行混音处理发送播放音频回采信号至回声处理模块，此时，回声处理模块仅仅基于接收到的播放音频回采信号对拾取的远场声音进行回声消除，此时显示装置仅仅设置一路回声消除，降低了显示装置算力资源的浪费。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A是本公开实施例提供的显示装置与控制装置之间操作场景的示意图；

图1B是本公开实施例提供的一种显示装置的硬件结构示意图；

图2A是本公开实施例提供的一种显示装置的结构示意图；

图2B是本公开实施提供的显示装置的功放的处理流程示意图；

图3A是本公开实施例提供的另一种显示装置的结构示意图；

图3B是本公开实施例提供的又一种显示装置的结构示意图；

图3C是本公开实施例提供的又一种显示装置的结构示意图；

图3D是本公开实施例提供的一种混音芯片的内部结构示意图；

图4是本公开实施例提供的又一种显示装置的结构示意图；

图5是本公开实施例提供的一种远场语音识别方法的流程示意图；

图6A是本公开实施例提供的另一种远场语音识别方法的流程示意图；

图6B是本公开实施例提供的一种滤波器的原理示意图；

图7是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请实施方式提供的显示装置可以具有多种实施形式，例如，可以是电视、智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等。图1A为本申请的显示装置的一种具体实施方式。

图1A为根据实施例中显示装置与控制装置之间操作场景的示意图。如图1A所示，用户可通过智能设备300或控制装置100操作显示装置200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示装置200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示装置200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示装置200。例如，使用在智能设备上运行的应用程序控制显示装置200。

在一些实施例中，显示设备可以不使用上述的智能设备或控制设备接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，显示装置200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示装置200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示装置200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示装置200还与服务器400进行数据通信。可允许显示装置200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示装置200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

如图1B，显示装置200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示装置200可以通过通信器220与外部控制设备或服务器400建立控制信号和数据信号的发送和接收。

用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示装置200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在现有技术中，出现了带有远场拾音功能的显示装置，因此用户发出的语音可以直接被显示装置所拾取，实现远场语音交互，极大的方便了用户的使用。但是由于回音消除的不彻底，导致远场拾音的打断唤醒及识别效果变差，从而影响用户体验。这是由于用户发出远场语音的同时，环境中往往也伴随着显示装置自身通过扬声器播放歌曲/视频等本机声音，因此麦克风阵列实际采集了显示装置的扬声器所发出的本机声音和用户实际说话的语音，而回声消除的目的就是要去掉其中的扬声器所发出的本机声音部分而只保留用户的语音。一般的，显示装置的主板发出准备要播放的声音信号至功放，由功放进行放大处理后，输出至扬声器进行播放。因此通常采用在主板芯片的输出端，引出一路声音回采信号，以作为需要消除信号的参照。但是随着人们对听觉要求的逐渐提高，当显示装置的扬声器采用2.1声道，即将显示装置播放的歌曲/视频等声音中位于0～200Hz的信号通过低音声道播放，将显示装置播放的歌曲/视频等声音中位于200Hz～8KHz的信号通过主声道播放，保证显示装置的播放音效。然而，当采用低音声道和主声道播放不同声音时，需要针对低音声道增加一路回声消除，这个无论对于成本和计算资源来说，都会是很大的挑战，尤其是在电视这类系统资源已经非常紧张的情况下，需要一直占用一块用于低音回声消除的算力单元，是非常不合算的。

基于现有技术存在的问题，本公开实施例提供一种显示装置，如图2A所示，显示装置包括：扬声器40以及远场语音处理模块；远场语音处理模块包括：声音拾取模块10，用于拾取远场声音，远场声音包括用户发出的远场语音和扬声器播放的媒体文件的音频，媒体文件的音频包括第一音频和第二音频，扬声器至少包括主声道和低音声道，第一音频通过主声道播放，第二音频通过低音声道播放；预处理模块20，将主声道播放的第一音频和低音声道播放的第二音频进行混音处理后得到播放音频回采信号；回声处理模块30，分别与声音拾取模块10和预处理模块20连接，以接收拾取的远场声音和播放音频回采信号，并用播放音频回采信号对拾取的远场声音进行回声消除，以得到用户发出的远场语音。

在具体的实施方式中，本实施例的显示装置的主板上包括SOC(System on Chip，系统芯片)，与SOC连接的功放。功放的输出端连接有扬声器，SOC输出待播放音频信号至功放内，功放对该音频信号进行放大、模数转换处理后，驱动扬声器播放。具体过程如图2B所示，功放包括SRC(采样率控制)，PEQ(音效设置)，VOLUME CONTROL(增益及音量控制)，3BDRC(动态范围控制)，Prescaler(预分频)，PWM(脉宽调制)到最后的Switch Matrix形成了推挽电路来驱动扬声器播放。扬声器具体可以设置主声道和低音声道，其中，主声道至少包括主左声道和主右声道，低音声道至少包括低音左声道和低音右声道。

如图2A所示，显示装置包括扬声器以及远场语音处理模块，该远场语音处理模块包括声音拾取模块10、预处理模块20以及回声处理模块30。其中，声音拾取模块10用于拾取远场声音，远场声音包括用户发出的远场语音和扬声器播放的媒体文件的音频。预处理模块20与扬声器的回采输出端电连接，以获取扬声器的主声道播放的第一音频以及扬声器的低音声道播放的第二音频，并将获取的第一音频和第二音频进行混音处理得到播放音频回采信号。回声处理模块30分别与预处理模块20和声音拾取模块10连接，以接收拾取的远场语音和播放声音回采信号，并用播放声音回采信号对拾取的远场声音进行回声消除，以得到用户发出的远场语音。

本公开实施例提供的显示装置，用户通过发出语音以与显示装置实现人机交互，而显示装置自身在工作时会通过扬声器播放出音乐、视频中的语音等声音；因此声音拾取模块不可避免的会拾取到用户发出的远场语音以及扬声器播放的声音。本实施例方案中，显示装置的主控芯片将需要播放的声音信号传输至功率放大器(简称功放)，功放会对该需要播放的声音信号进行放大处理后，以驱动扬声器播放声音。由于显示装置音响系统的需求，功放都会对需要播放的声音信号作相关的处理，因此需要播放的声音信号在经过功放的前后已经发生了非线性变化，因此在功放的后端、扬声器前端所获取的声音才能够较大程度的贴近扬声器真实播放的声音。本实施例通过从功放的后端、扬声器前端获取播放声音的回采信号，因此该播放声音的回采信号与声音拾取模块中拾取到的扬声器播放的声音非常接近，因此基于该播放声音回采信号对拾取的远场声音进行回声消除，能够较大程度上降低用户发出的远场语音中掺杂的回声(该回声即是指扬声器播放的声音)，提高识别远场语音的准确率，从而提高了远程拾音的打断唤醒的灵敏度，提高了用户体验。

可以理解的是，本实施例中“声音”具体可以指代该声音对应的声波信号以及该声音对应的模拟信号、数字信号。例如，声音拾取模块拾取的是远场声音的声波信号，经过处理后形成远场声音的数字信号，进而传输至预处理模块。本领域技术人员有能力判断声音传输至不同的电路中，所会发生的一些格式上的变化。

由于显示装置的扬声器至少包括主声道和低音声道，即显示装置的主控芯片将需要播放的声音信号传输至功率放大器，功放会对该需要播放的声音信号进行放大处理后分别通过主声道和低音声道播放声音，因此若仅仅拾取主声道的播放声音的回采信号，无法对扬声器的播放声音的回声完全消除。而现有技术另外一种解决方案是，分别拾取主声道播放声音的回采信号以及低音声道的播放声音的回采信号，通过将主声道播放声音的回采信号以及低音声道的播放声音的回采信号输入至回声处理模块，回声处理模块分两次进行回声消除，第一次基于主声道播放声音的回采信号对拾取的远场声音进行回声消除，第二次基于低音声道的播放声音的回采信号对进行第一次回声消除后输出的远场声音进行回声消除，由于需要针对低音声道一路回声消除，这个无论对于成本和计算资源来说，都会是很大的挑战，尤其是在电视这类系统资源已经非常紧张的情况下，需要一直占用一块用于低音回声消除的算力单元，是非常不合算的。本申请在满足显示装置音响效果的基础上，通过设置远场语音处理模块包括预处理模块，预处理模块与扬声器的回采输出端电连接，基于预处理模块将主声道播放的第一音频和低音声道播放的第二音频进行混音处理后得到播放音频回采信号，即采用播放音频回采信号对拾取的远场声音进行回声消除之前，通过预处理模块获取主声道对应的功放的后端、主声道前端的第一音频以及低音声道对应的功放的后端、主声道前端的第二音频，并将获取的第一音频和第二音频进行混音处理后得到播放音频回采信号，并将播放音频回采信号以及拾取的远场声音输入至回声处理模块，基于回声处理模块，采用播放音频回采信号对拾取的远场声音进行回声消除，得到用户发出的远场语音，基于该播放音频回采信号对拾取的远场声音进行回声消除，能够较大程度上降低用户发出的远场语音中掺杂的回声(该回声即是指扬声器播放的声音)，提高识别远场语音的准确率，从而提高了远程拾音的打断唤醒的灵敏度，提高了用户体验。此外，本申请中，通过预处理模块直接将主声道播放的第一音频和低音声道播放的第二音频进行混音处理发送播放音频回采信号至回声处理模块，此时，回声处理模块仅仅基于接收到的播放音频回采信号对拾取的远场声音进行回声消除，此时显示装置仅仅设置一路回声消除，降低了显示装置算力资源的浪费。

本公开实施例提供的显示装置，通过设置远场语音处理模块包括预处理模块，预处理模块与扬声器的回采输出端电连接，基于预处理模块将主声道播放的第一音频和低音声道播放的第二音频进行混音处理后得到播放音频回采信号，即采用播放音频回采信号对拾取的远场声音进行回声消除之前，通过预处理模块获取主声道对应的功放的后端、主声道前端的第一音频以及低音声道对应的功放的后端、主声道前端的第二音频，并将获取的第一音频和第二音频进行混音处理后得到播放音频回采信号，并将播放音频回采信号以及拾取的远场声音输入至回声处理模块，基于回声处理模块，采用播放音频回采信号对拾取的远场声音进行回声消除，得到用户发出的远场语音，基于该播放音频回采信号对拾取的远场声音进行回声消除，能够较大程度上降低用户发出的远场语音中掺杂的回声(该回声即是指扬声器播放的声音)，提高识别远场语音的准确率，从而提高了远程拾音的打断唤醒的灵敏度，提高了用户体验。此外，本申请中，通过预处理模块直接将主声道播放的第一音频和低音声道播放的第二音频进行混音处理发送播放音频回采信号至回声处理模块，此时，回声处理模块仅仅基于接收到的播放音频回采信号对拾取的远场声音进行回声消除，此时显示装置仅仅设置一路回声消除，降低了显示装置算力资源的浪费。

作为一种可实施方式，图3A是本公开实施例提供的另一种显示装置的结构示意图，本公开实施例是在上述实施例的基础上，如图3A所示，预处理模块20包括加法电路21；加法电路21的第一输入端与主声道41的回采输出端电连接，加法电路21的第二输入端与低音声道42的回采输出端电连接，加法电路21的输出端与回声处理模块30电连接。

在具体的实施方式中，预处理模块实现将主声道41播放的第一音频和低音声道42播放的第二音频进行混音处理可基于加法电路实现。

具体的，结合图3B，加法电路21包括第一加法单元211和第二加法单元212，第一加法单元211的第一输入端与主左声道411的回采输出端电连接，第一加法单元211的第二输入端与低音左声道421的回采输出端电连接，第一加法单元211的输出端与回声处理模块30的第一端电连接；第二加法单元212的第一输入端与主右声道412的回采输出端电连接，第二加法单元212的第二输入端与低音右声道422的回采输出端电连接，第二加法单元212的输出端与回声处理模块30的第二端电连接。

示例性的，如图3B所示，加法电路包括第一加法单元211和第二加法单元212，第一加法单元211实现将主左声道411的播放声音的回采信号与低音左声道421的播放声音的回采信号进行叠加处理，得到左声道的播放声音的回采信号，第二加法单元212实现将主右声道412的播放声音的回采信号与低音右声道422的播放声音的回采信号进行叠加处理，得到右声道的播放声音的回采信号。

在具体的实施方式中，通过将两段不重叠频率的信号(低音声道和主声道)进行混音，从时域上看，是在同一时间上将主声道的播放声音与低音声道的播放声音进行混音，是个简单混合方式，在频域上，确是将两个完全频段独立的音源进行组合，互补的同时互不影响。

图3C是本公开实施例提供的又一种显示装置的结构示意图，本公开实施例是在上述实施例的基础上，如图3C所示，预处理模块20包括混音芯片22，混音芯片22的第一输入端与主左声道411的回采输出端电连接，混音芯片22的第二输入端与主右声道412的回采输出端电连接，混音芯片22的第三输入端与低音左声道421的回采输出端电连接，混音芯片22的第四输入端与低音右声道422的回采输出端电连接，混音芯片22的第一输出端与回声处理模块30的第一端电连接，混音芯片22的第二输出端与回声处理模块30的第二端电连接。

作为另一种实施方式，预处理模块包括混音芯片，混音芯片例如可以是比如TI(德州仪器)公司的TAS5548，图3D示例性表示混音芯片的内部结构示意图，混音芯片是一颗能支持最多10通道(5路I2S)输入的混音芯片。通过将主声道的回采输出端以及低音声道的回采输出端分别与混音芯片的输入端电连接，基于混音芯片实现对主声道的播放声音的回采信号与低音声道的播放声音的回采信号进行叠加处理。

具体的，混音芯片包括多路输入和多路输出，图3C示例性表示混音芯片包括四路输入和两路输出，本实施例中，可以将IN1作为主左声道的播放声音的回采信号的输入端，IN2作为主右声道的播放声音的回采信号的输入端，IN3作为低音左声道的播放声音的回采信号的输入端，IN4作为低音右声道的播放声音的回采信号的输入端，OUT1作为混音后的左声道的输出端，OUT2作为混音后的右声道的输出端。

作为一种可选的可实施方式，混音芯片集成于系统芯片内。

本公开实施例提供的显示装置，显示装置包括系统芯片，系统芯片输出待播放音频信号，通过将混音芯片集成在系统芯片上，可以减少显示装置整体体积。

图4是本公开实施例提供的又一种显示装置的结构示意图，如图4所示，远场语音处理模块还包括：格式转换模块50，与声音拾取模块10和预处理模块20的输出端端耦接，以将拾取的远场声音和播放音频回采信号转换成回声处理模块兼容的格式。

如图4所示，本实施例中，远场语音处理模块还包括格式转换模块，其中，格式转换模块可以为MCU、单片机或其他一些具有音频接口的数字处理芯片。在以下实施例中，为了便于理解，以格式转换模块为MCU为例进行说明。

通过在回声处理模块与声音拾取模块以及回声处理模块与预处理模块之间设备格式转换模块，基于格式转换模块对声音拾取模块拾取的远场声音进行模数转换以及对预处理模块混音处理后得到的播放音频回采信号进行模数转换。具体的，功放的后端、扬声器前端输出播放声音回采信号为模拟信号，因此预处理模块混音处理得到的播放音频回采信号也为模拟信号，此时格式转换模块将播放音频回采信号转换为数字信号，将远场声音转换为数字信号，进而输出至回声处理模块，使得回声处理模块可以基于播放音频回采信号对拾取的远场声音进行回声消除。

在具体的实施方式中，格式转换模块还用于调节拾取的远场声音与播放音频回采信号的相位，以使播放音频回采信号的相位与拾取的远场声音的相位相同。

为较大程度上降低用户发出的远场语音中掺杂的回声(该回声即是指扬声器播放的声音)，提高识别远场语音的准确率，从而提高了远程拾音的打断唤醒的灵敏度，提高了用户体验，格式转换模块将播放音频回采信号转换为数字信号，将远场声音转换为数字信号后，通过调节拾取的远场声音与播放音频回采信号的相位，以使播放音频回采信号的相位与拾取的远场声音的相位相同，基于主声道播放声音的回采信号对拾取的远场声音进行回声消除，实现最大程度降低用户发出的远场语音中掺杂的回声。

图5是本公开实施例提供的一种远场语音识别方法，该远场语音识别方法应用于上述任一实施例所述的显示装置，如图5所示，远场语音识别方法包括：

S101、拾取远场声音。

远场声音包括用户发出的远场语音和扬声器播放的媒体文件的音频，媒体文件的音频包括第一音频和第二音频，扬声器至少包括主声道和低音声道，第一音频通过主声道播放，第二音频通过低音声道播放。

在现有技术中，出现了带有远场拾音功能的显示装置，因此用户发出的语音可以直接被显示装置所拾取，实现远场语音交互，极大的方便了用户的使用。但是由于回音消除的不彻底，导致远场拾音的打断唤醒及识别效果变差，从而影响用户体验。这是由于用户发出远场语音的同时，环境中往往也伴随着显示装置自身通过扬声器播放歌曲/视频等本机声音，因此麦克风阵列实际采集了显示装置的扬声器所发出的本机声音和用户实际说话的语音，而回声消除的目的就是要去掉其中的扬声器所发出的本机声音部分而只保留用户的语音。例如，当显示装置的扬声器采用2.1声道，即将显示装置播放的歌曲/视频等声音中位于0～200Hz的信号通过低音声道播放，将显示装置播放的歌曲/视频等声音中位于200Hz～8KHz的信号通过主声道播放，保证显示装置的播放音效。然而，当采用低音声道和主声道播放不同声音时，需要针对低音声道增加一路回声消除，这个无论对于成本和计算资源来说，都会是很大的挑战，尤其是在电视这类系统资源已经非常紧张的情况下，需要一直占用一块用于低音回声消除的算力单元，是非常不合算的。

本申请提供的远场语音识别方法，首先拾取远场声音。

S102、将主声道播放的第一音频和低音声道播放的第二音频进行混音处理后得到播放音频回采信号。

通过将主声道播放的第一音频和低音声道播放的第二音频进行混音处理后得到播放音频回采信号，即采用播放音频回采信号对拾取的远场声音进行回声消除之前，通过获取主声道对应的功放的后端、主声道前端的第一音频以及低音声道对应的功放的后端、主声道前端的第二音频，并将获取的第一音频和第二音频进行混音处理后得到播放音频回采信号。

S103、接收拾取的远场声音和播放音频回采信号，并用播放音频回采信号对拾取的远场声音进行回声消除，以得到用户发出的远场语音。

通过将主声道播放的第一音频和低音声道播放的第二音频进行混音处理后得到播放音频回采信号，即采用播放音频回采信号对拾取的远场声音进行回声消除之前，通过获取主声道对应的功放的后端、主声道前端的第一音频以及低音声道对应的功放的后端、主声道前端的第二音频，并将获取的第一音频和第二音频进行混音处理后得到播放音频回采信号，并采用播放音频回采信号对拾取的远场声音进行回声消除，得到用户发出的远场语音，基于该播放音频回采信号对拾取的远场声音进行回声消除，能够较大程度上降低用户发出的远场语音中掺杂的回声(该回声即是指扬声器播放的声音)，提高识别远场语音的准确率，从而提高了远程拾音的打断唤醒的灵敏度，提高了用户体验。此外，本申请中，通过直接将主声道播放的第一音频和低音声道播放的第二音频进行混音处理，此时，仅仅基于接收到的播放音频回采信号对拾取的远场声音进行回声消除，此时显示装置仅仅设置一路回声消除，降低了显示装置算力资源的浪费。

图6A是本公开实施例提供的一种远场语音识别方法，本公开实施例是在上述实施例的基础上，如图6A所示，步骤S103的具体实施方式包括：

S1030、接收拾取的远场声音和播放音频回采信号。

S1031、将远场声音和播放音频回采信号输入至滤波模型，得到用户发出的远场语音。

回声消除的过程是，采用扬声器播放的声音，消除掉声音拾取模块拾取的声音，从而只剩下用户声音。

上述消除的过程，大多是通过维纳滤波模型，用不同的收敛函数方法来进行滤波器系数求解，相关算法建模如下：

误差信号求取：

e(n)＝x(n)*h(n)-d(n)

其中，x(n)表示用户发出的远场语音和扬声器播放的媒体文件的音频，x(n)表示声学传递函数h(n)，d(n)表示用户发出的远场语音。

通过误差信号的期望估计E[e²(n)]，即e²(n)的均方差最小，来计算h(n)。

基于维纳滤波器的原理，可以通过对误差函数求最小均方差(平方的期望)：E[e²(n)]＝E[(x(n)*h(n)-d(n))^2]，来计算最大相关性，求得滤波器系数(房间的冲击响应h(n))，最后得出：

其中

为输入信号的自相关矩阵的逆，其中

r_xd＝E[x(n)d(n)]。

本公开还提供一种电子设备，包括：处理器，所述处理器用于执行存储于存储器的计算机程序，所述计算机程序被处理器执行时实现上述方法实施例的步骤。

图7为本公开提供的一种电子设备的结构示意图，图7示出了适于用来实现本发明实施例实施方式的示例性电子设备的框图。图7显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：一个或者多个处理器810，系统存储器820，连接不同系统组件(包括系统存储器820和处理器)的总线830。

总线830表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备800典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备800访问的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器820可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)840和/或高速缓存存储器850。电子设备800可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统860可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM、DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线830相连。系统存储器820可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块870的程序/实用工具880，可以存储在例如系统存储器820中，这样的程序模块870包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块870通常执行本发明实施例所描述的实施例中的功能和/或方法。

处理器810通过运行存储在系统存储器820中的多个程序中的至少一个程序，从而执行各种功能应用以及信息处理，例如实现本发明实施例所提供的方法实施例。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例的步骤。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)域连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本公开还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行实现上述方法实施例的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种显示装置，其特征在于，包括：扬声器以及远场语音处理模块；

所述远场语音处理模块包括：

2.根据权利要求1所述的显示装置，其特征在于，所述预处理模块包括加法电路；

3.根据权利要求2所述的显示装置，其特征在于，所述加法电路包括第一加法单元和第二加法单元；

4.根据权利要求1所述的显示装置，其特征在于，所述预处理模块包括混音芯片；

5.根据权利要求4所述的显示装置，其特征在于，所述混音芯片为多路输入多路输出芯片。

6.根据权利要求4所述的显示装置，其特征在于，所述显示装置包括系统芯片，所述混音芯片集成于所述系统芯片内。

7.根据权利要求1所述的显示装置，其特征在于，所述远场语音处理模块还包括：

8.根据权利要求7所述的显示装置，其特征在于，所述格式转换模块还用于调节拾取的远场声音与所述播放音频回采信号的相位，以使所述播放音频回采信号的相位与所述拾取的远场声音的相位相同。

9.一种远场语音识别方法，其特征在于，应用于权利要求1-8任一项所述的显示装置，包括：

10.根据权利要求9所述的方法，其特征在于，所述接收拾取的远场声音和所述播放音频回采信号，并用所述播放音频回采信号对所述拾取的远场声音进行回声消除，以得到用户发出的远场语音，包括：

接收拾取的远场声音和所述播放音频回采信号；