CN109767766A

CN109767766A - 一种语音识别方法及装置

Info

Publication number: CN109767766A
Application number: CN201910065077.XA
Authority: CN
Inventors: 张利红
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-05-17

Abstract

本发明实施例公开了一种语音识别方法及装置，涉及语音识别领域，解决了用户远距离对电视机进行语音控制时，电视机的语音识别率较低的问题。具体方案为：通过传声器阵列采集第一声源，采用预设算法，从第一声源中分离出目标声源，接收与语音识别装置连接的外设发送的第二声源，对目标声源和第二声源进行叠加，得到叠加后的声源，识别叠加后的声源，并根据识别结果执行相应的操作。本发明实施例用于电视机识别用户语音的过程中。

Description

一种语音识别方法及装置

技术领域

本发明实施例涉及语音识别领域，尤其涉及一种语音识别方法及装置。

背景技术

目前，电视机中设置有传声器阵列，该阵列采用线性等均匀阵列排布，用于进行远场语音增强，以使得用户在距离电视机较远时，能够实现语音控制电视机。

但是，在进行远场语音增强时，由于声音在传播过程中，随着距离增加，环境噪声和干扰较多且复杂，会使得声压级会衰减，且直达声与各类噪声总合的比值，随着声源与传声器阵列距离的增大而下降，因此如果用户距离电视机太远，则电视机的语音识别率较低，甚至识别系统完全失效。这样，当用户在沙发上说话来控制电视机时，会由于距离较远使得电视机无法识别声源，需要用户提高声音或者跑到距离电视机较近的地方，对着麦克风说话，电视机才能识别用户的语音，导致用户体验较差。

发明内容

本发明提供一种语音识别方法及装置，解决了用户远距离对电视机进行语音控制时，电视机的语音识别率较低的问题。

为达到上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种语音识别方法，该方法应用于语音识别装置，语音识别装置包括：传声器阵列。该方法可以包括：通过传声器阵列采集第一声源；采用预设算法，从第一声源中分离出目标声源；接收与语音识别装置连接的外设发送的第二声源；对目标声源和第二声源进行叠加，得到叠加后的声源；识别叠加后的声源，并根据识别结果执行相应的操作。

结合第一方面，在一种可能的实现方式中，识别叠加后的声源，并根据识别结果执行相应的操作，具体的可以包括：采用声音模型识别叠加后的声源，如果结果与预存的唤醒词相同，则启动人机交互功能；去除语音识别装置的声音。

结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，对目标声源和第二声源进行叠加，具体的可以包括：采用快拍数方法，对目标声源和第二声源进行相关性计算，得到延时时间；以目标声源的时间为基准，根据延时时间对第二声源进行延时处理；根据目标声源和第二声源分别对应的权重，对目标声源和延时后的第二声源进行叠加。

结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，第二声源为外设采集的单一方向声源。

第二方面，本发明提供一种语音识别装置，语音识别装置可以包括：传声器阵列、采集单元、分离单元、接收单元、叠加单元和处理单元。其中，采集单元，用于通过传声器阵列采集第一声源。分离单元，用于采用预设算法，从第一声源中分离出目标声源。接收单元，用于接收与语音识别装置连接的外设发送的第二声源。叠加单元，用于对目标声源和第二声源进行叠加，得到叠加后的声源。处理单元，用于识别叠加后的声源，并根据识别结果执行相应的操作。

结合第二方面，在一种可能的实现方式中，处理单元，具体用于：采用声音模型识别叠加后的声源，如果结果与预存的唤醒词相同，则启动人机交互功能；去除语音识别装置的声音。

结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，叠加单元，具体用于：采用快拍数方法，对目标声源和第二声源进行相关性计算，得到延时时间；以目标声源的时间为基准，根据延时时间对第二声源进行延时处理；根据目标声源和第二声源分别对应的权重，对目标声源和延时后的第二声源进行叠加。

结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，第二声源为外设采集的单一方向声源。

具体的实现方式可以参考第一方面或第一方面的可能的实现方式提供的语音识别方法中语音识别装置的行为功能。

第三方面，提供一种语音识别装置，该语音识别装置包括：至少一个处理器、存储器、通信接口和通信总线。处理器与存储器、通信接口通过通信总线连接，存储器用于存储计算机执行指令，当语音识别装置运行时，处理器执行存储器存储的计算机执行指令，以使语音识别装置执行如第一方面或第一方面的可能的实现方式中任意一项的语音识别方法。

第四方面，提供一种计算机存储介质，其上存储有计算机执行指令，当计算机执行指令在语音识别装置上运行时，使得语音识别装置执行如第一方面或第一方面的可能的实现方式中任意一项的语音识别方法。

本发明提供的语音识别方法，在采用预设算法，从采集的第一声源中分离出目标声源，接收到外设发送的第二声源后，对目标声源和第二声源进行叠加，识别叠加后的声源，并根据识别结果执行相应的操作。这样，在语音识别装置为电视机，用户距离电视机较远的情况下，电视机通过进行远场拾音，并从采集的声源中分离出用户的声源，即目标声源，且在该目标声源基础上加入外设进行近场拾音采集的第二声源，来对叠加后的声源进行语音识别。由于用户距离外设较近，近场采集到的第二声源中的噪声较小，叠加在目标声源上能够达到语音增强，提升信噪比的目的，因此电视机的传声器阵列和外设的麦克组成的分布式阵列能够改善电视机的语音识别率，从而方便用户在沙发上语音控制电视机，提升了用户体验。

附图说明

图1为本发明实施例提供的一种可以应用本发明实施例的系统结构的简化示意图；

图2为本发明实施例提供的一种语音识别装置的组成示意图；

图3为本发明实施例提供的一种语音识别方法的流程图；

图4为本发明实施例提供的另一种语音识别装置的组成示意图；

图5为本发明实施例提供的另一种语音识别装置的组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种可以应用本发明实施例的系统结构的简化示意图，如图1所示，该系统架构可以包括：语音识别装置11和外设12。

其中，语音识别装置11与外设12可以是有线连接，也可以是通过蓝牙、无线局域网(Wireless Fidelity，WiFi)等方式的无线连接。语音识别装置11可以连接有至少一个外设12。

语音识别装置11，可以是电视机、空调器等家用电器，用于在用户语音控制语音识别装置11时，将通过传声器阵列采集的第一声源进行处理，分离出目标声源，接收外设12采集的第二声源，并将目标声源与第二声源进行叠加，对叠加后的声源进行识别，根据识别结果执行相应的操作。图1中以语音识别装置11为电视机为例示出。

外设12，可以包括近场麦克，具体的可以是与语音识别装置11连接的遥控器、音箱、便携式的微型支架等装置，且可以对微型支架的外型进行造型设计，来增加卖点。外设12，通常距离用户较近，用于进行近场拾音，并将采集到的第二声源发送至语音识别装置11。图1中以外设12为遥控器为例示出。

在具体的实现中，外设12可以采用单指向性麦克，摒弃语音识别装置11的噪声，仅接收前方180度声音，以采集单一方向的声源，实现降噪的目的。这样外设12通过物理降噪方式来拾音，便无需再采用回声消除技术对采集到的第二声源进行去除噪声处理，仅需对第二声源进行简单的信号处理，如模拟数字转换(Analog to Digital Converter，ADC)处理后，便可以将处理后的声源发送至语音识别装置11。

图2为本发明实施例提供的一种语音识别装置的组成示意图，如图2所示，该语音识别装置可以包括：至少一个处理器21、存储器22、通信接口23、通信总线24和传声器阵列25。

下面结合图2对语音识别装置的各个构成部件进行具体的介绍：

其中，处理器21是语音识别装置的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器21是一个中央处理器(Central Processing Unit，CPU)，也可以是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路，例如：一个或多个数字信号处理器(DigitalSignal Processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable GateArray，FPGA)。

在具体的实现中，作为一种实施例，处理器21可以包括一个或多个CPU，例如图2中所示的CPU0和CPU1。且，作为一种实施例，语音识别装置可以包括多个处理器，例如图2中所示的处理器21和处理器26。这些处理器中的每一个可以是一个单核处理器(Single-CPU)，也可以是一个多核处理器(Multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器22可以是只读存储器(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器22可以是独立存在，通过通信总线24与处理器21相连接。存储器22也可以和处理器21集成在一起。

在具体的实现中，存储器22，用于存储本发明中的数据和执行本发明的软件程序。处理器21可以通过运行或执行存储在存储器22内的软件程序，以及调用存储在存储器22内的数据，执行语音识别装置的各种功能。

通信接口23，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如外设、无线接入网(Radio Access Network，RAN)，无线局域网(Wireless Local AreaNetworks，WLAN)等。通信接口23可以包括接收单元实现接收功能，以及发送单元实现发送功能。

通信总线24，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

传声器阵列25，一般采用线性均匀阵列排布，用于进行远场语音增强。假设线性均匀阵列的相邻阵元之间的距离为D，声源最高频率语音的波长(即声源的最小波长)为λ，那么在声源距离传声器阵列25的中心参考点的距离大于2D/λ时，确定该声源为远场声源，否则为近场声源。通常情况下，声源与传声器阵列25中心的距离在1米内便为近场范围。

为了解决用户远距离对电视机进行语音控制时，电视机的语音识别率较低的问题，本发明实施例提供了一种语音识别方法，可以应用在用户距离语音识别装置较远，距离外设较近的场景中，通过远场拾音和近场拾音的叠加来进行语音识别，来实现用户对语音识别装置的控制。如图3所示，该方法可以包括：

301、通过传声器阵列采集第一声源。

其中，语音识别装置在开启后，可以通过自身包括的传声器阵列实时采集第一声源，该第一声源可以包括：用户的声源、语音识别装置的播放声，以及周围的噪声。

302、采用预设算法，从第一声源中分离出目标声源。

其中，预设算法可以为旁瓣抵消(Generalized Sidelobe Canceller，GSC)算法或者多通道维纳滤波(Minimum Variance Distortionless Response，MVDR)算法。语音识别装置在采集到第一声源之后，可以对第一声源进行预处理，如ADC处理和回声消除处理，并采用预设算法，从预处理后的声源中分离出目标声源，即用户的声源。

例如，假设预设算法为GSC算法，那么语音识别装置可以先利用固定的波束形成器对预处理后的声源进行预增强，并利用阻塞矩阵提供噪声参考，且通过多通道自适应滤波器依据噪声参考来消除噪声，最后得到目标声源。

303、接收与语音识别装置连接的外设发送的第二声源。

其中，语音识别装置在开启后，可以与其对应的外设建立连接，外设便可以通过自身包括的麦克实时采集第二声源，并对采集的第二声源进行预处理，如ADC处理，向语音识别装置发送预处理后的第二声源，以便语音识别装置接收该第二声源。进一步的，第二声源可以是外设采用单指向性麦克采集到的用户的声源，此时第二声源为单一方向的声源，达到了减少噪声的目的。

需要说明的是，外设在采集第二声源时，处于静止状态会使得采集到的声源更准确，而外设在移动时采集第二声源，则会提高处理声源的复杂度。

304、对目标声源和第二声源进行叠加，得到叠加后的声源。

其中，由于语音识别装置和外设均在实时采集声源，且用户距离语音识别装置和距离外设的距离不同，使得语音识别装置和外设无法同时采集到用户的语音，因此语音识别装置可以采用快拍数方法，确定包括有相同的用户语音的目标声源和第二声源，并对目标声源和第二声源进行相关性计算，得到延时时间。语音识别装置在计算出延时时间后，可以以目标声源的时间为基准，根据延时时间对第二声源进行延时处理，以使两个声源保持同步，并根据目标声源和第二声源分别对应的权重，对目标声源和第二声源进行叠加，得到叠加后的声源，达到增强用户语音，提升信噪比的目的。

需要说明的是，本发明实施例是以采用快拍数方法对两个声源进行计算，以实现两个声源保持同步为例进行说明的，当然，也可以采用其他方法来使得不同的声源保持同步，本发明实施例在此不再一一说明。

305、识别叠加后的声源，并根据识别结果执行相应的操作。

其中，语音识别装置在得到叠加后的声源后，可以对叠加后的声源进行识别，以获知用户说了什么，并根据识别结果执行相应的操作。例如，语音识别装置可以在本地采用声音模型识别叠加后的声源，如果结果与预存的唤醒词相同，则确定唤醒成功；或者，语音识别装置可以将叠加后的声源上传至云端，云端便可以将叠加后的声源进行文字转换处理，并对转换后的文字进行语义处理，如果得到的结果与预存的唤醒词相同，则确定唤醒成功。在唤醒成功后，语音识别装置可以启动人机交互功能，并去除语音识别装置的声音，以便在唤醒后接收用户的语音指令时减小噪声。

需要说明的是，在本发明实施例中，如果外设为遥控器，语音识别装置为电视机，那么电视机不仅可以实现远场拾音与近场拾音的叠加，且可以实现单独近场拾音。具体的，可以在遥控器上增加切换按键，当用户没有对切换按键进行操作时，电视机可以执行上述步骤301-步骤305，来进行远场拾音与近场拾音的叠加。当用户对切换按键进行操作时，遥控器可以根据该操作向电视机发送切换消息，以指示电视机进行近场拾音，并将采集的用户声源发送至电视机，以便电视机进行语音识别。

另外，上述步骤301-步骤305是以语音识别装置和一个外设为例对语音识别方法进行说明的。当然，如果与语音识别装置连接的外设有多个，则每个外设都可以向语音识别装置发送各自采集到的声源，语音识别装置可以根据自身采集的声源，以及接收到的多个声源，进行延时处理，以使得所有声源保持同步，最后再对所有声源进行叠加，并对叠加后的声源进行语音识别，进一步的提高了用户声源的准确性，从而改善了语音识别装置的语音识别率。

上述主要从语音识别装置的角度对本发明实施例提供的方案进行了介绍。可以理解的是，语音识别装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本发明实施例可以根据上述方法示例对语音识别装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图4示出了上述实施例中涉及的语音识别装置的另一种可能的组成示意图，如图4所示，该语音识别装置可以包括：采集单元41、分离单元42、接收单元43、叠加单元44和处理单元45。

其中，采集单元41，用于支持语音识别装置执行图3所示的语音识别方法中的步骤301。

分离单元42，用于支持语音识别装置执行图3所示的语音识别方法中的步骤302。

接收单元43，用于支持语音识别装置执行图3所示的语音识别方法中的步骤303。

叠加单元44，用于支持语音识别装置执行图3所示的语音识别方法中的步骤304。

处理单元45，用于支持语音识别装置执行图3所示的语音识别方法中的步骤305。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本发明实施例提供的语音识别装置，用于执行上述语音识别方法，因此可以达到与上述语音识别方法相同的效果。

在采用集成的单元的情况下，图5示出了上述实施例中所涉及的语音识别装置的另一种可能的组成示意图。如图5所示，该语音识别装置包括：处理模块51、通信模块52和存储模块53。

处理模块51用于对语音识别装置的动作进行控制管理，例如，处理模块51用于支持语音识别装置执行图3中的步骤301、步骤302、步骤304、步骤305，和/或用于本文所描述的技术的其它过程。通信模块52用于支持语音识别装置与其他网络实体，如外设的通信。例如，通信模块52用于支持语音识别装置执行图3中的步骤303。存储模块53，用于存储语音识别装置的程序代码和数据。

其中，处理模块51可以是图2中的处理器。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块52可以是图2中的通信接口。存储模块53可以是图2中的存储器。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，应用于语音识别装置，所述语音识别装置包括：传声器阵列，其特征在于，所述方法包括：

通过所述传声器阵列采集第一声源；

采用预设算法，从所述第一声源中分离出目标声源；

接收与所述语音识别装置连接的外设发送的第二声源；

对所述目标声源和所述第二声源进行叠加，得到叠加后的声源；

识别所述叠加后的声源，并根据识别结果执行相应的操作。

2.根据权利要求1所述的语音识别方法，其特征在于，所述识别所述叠加后的声源，并根据识别结果执行相应的操作，包括：

采用声音模型识别所述叠加后的声源，如果结果与预存的唤醒词相同，则启动人机交互功能；

去除所述语音识别装置的声音。

3.根据权利要求1或2所述的语音识别方法，其特征在于，所述对所述目标声源和所述第二声源进行叠加，包括：

采用快拍数方法，对所述目标声源和所述第二声源进行相关性计算，得到延时时间；

以所述目标声源的时间为基准，根据所述延时时间对所述第二声源进行延时处理；

根据所述目标声源和所述第二声源分别对应的权重，对所述目标声源和延时后的所述第二声源进行叠加。

4.根据权利要求1所述的语音识别方法，其特征在于，所述第二声源为所述外设采集的单一方向声源。

5.一种语音识别装置，其特征在于，所述语音识别装置包括：传声器阵列、采集单元、分离单元、接收单元、叠加单元和处理单元；

所述采集单元，用于通过所述传声器阵列采集第一声源；

所述分离单元，用于采用预设算法，从所述第一声源中分离出目标声源；

所述接收单元，用于接收与所述语音识别装置连接的外设发送的第二声源；

所述叠加单元，用于对所述目标声源和所述第二声源进行叠加，得到叠加后的声源；

所述处理单元，用于识别所述叠加后的声源，并根据识别结果执行相应的操作。

6.根据权利要求5所述的语音识别装置，其特征在于，所述处理单元，具体用于：

去除所述语音识别装置的声音。

7.根据权利要求5或6所述的语音识别装置，其特征在于，所述叠加单元，具体用于：

8.根据权利要求5所述的语音识别装置，其特征在于，所述第二声源为所述外设采集的单一方向声源。

9.一种语音识别装置，其特征在于，所述语音识别装置包括：处理器、存储器、通信接口和通信总线；

所述处理器与所述存储器、所述通信接口通过所述通信总线连接，所述存储器用于存储计算机执行指令，当所述语音识别装置运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述语音识别装置执行如权利要求1-4中任一项所述的语音识别方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质包括计算机执行指令，当所述计算机执行指令在语音识别装置上运行时，使得所述语音识别装置执行如权利要求1-4中任一项所述的语音识别方法。