CN105529026B

CN105529026B - 语音识别装置和语音识别方法

Info

Publication number: CN105529026B
Application number: CN201510601128.8A
Authority: CN
Inventors: 房圭燮; 李昌宪
Original assignee: Hyundai Motor Co
Current assignee: Hyundai Motor Co
Priority date: 2014-10-17
Filing date: 2015-09-18
Publication date: 2021-01-01
Anticipated expiration: 2035-09-18
Also published as: CN105529026A; US20160111084A1; DE102015213715A1; KR101610151B1

Abstract

本公开涉及语音识别装置和语音识别方法。一种语音识别装置，包括：收集器，从基于语音的装置收集第一说话者的语音数据；第一存储器，累积第一说话者的语音数据；学习器，学习累积在第一存储器中的第一说话者的语音数据并且基于所学习的知语音数据生成第一说话者的个人声学模型；第二存储器，存储通用声学模型和第一说话者的个人声学模型；特征向量提取器，当从第一说话者接收到语音识别请求时，该特征向量提取器从第一说话者的语音数据提取特征向量；以及语音识别器，基于第一说话者的语音数据的累积量来选择通用声学模型和第一说话者的个人声学模型中的任一个并且使用所提取的特征向量和所选择的声学模型来识别语音命令。

Description

语音识别装置和语音识别方法

相关申请的交叉引用

本申请要求于2014年10月17日向韩国知识产权局提交的韩国专利申请第10-2014-0141167号的优先权和权益，通过引用将其全部内容结合于本文中。

技术领域

本公开涉及语音识别装置和语音识别方法。

背景技术

根据传统的语音识别方法，使用已预先存储在语音识别装置中的声学模型来执行语音识别。声学模型被用于表示说话者的语音的属性。例如，音素、双音素、三音素、五音素、音节以及字被用作声学模型的基本单位。如果将音素用作声学模型的基本模型，由于声学模型的数量减少，所以诸如双音素、三音素或五音素的上下文相关的声学模型被广泛使用以便反映相邻音素之间的变化所引起的协同发音(coarticulation)现象。需要大量数据来学习上下文相关的声学模型。

通常，将在消声室被录音的或通过服务器收集的各个说话者的声音存储作为语音数据，并且通过学习语音数据来生成声学模型。然而，在这种方法中，因为实际上使用语音识别功能的说话者的音调常常不同于与所收集的语音数据相对应的音调，故难以收集大量的语音数据并且保证语音识别性能。因此，由于通常通过学习成年男性的语音数据来生成声学模型，故难以识别具有不同的声音音调的成年女性、年长者或孩子的语音命令。

在该背景部分中公开的上述信息仅用于增强对本公开内容的背景的理解，并且因此本公开内容可以包含在该国家中未构成为本领域普通技术人员所已知的相关技术的信息。

发明内容

所创作的本公开致力于提供具有基于说话者的语音数据生成个人声学模型(individual acoustic model)并且通过使用个人声学模型进行语音识别的优点的语音识别装置和语音识别方法。除了前述目的以外，本公开的实施方式可被用于实现未详细描述的其他目的。

根据本公开的实施方式的语音识别装置包括：收集器，从基于语音的装置收集第一说话者(first speaker)的语音数据；第一存储器，累积第一说话者的语音数据；学习器(learner)，学习累积在第一存储器中的第一说话者的语音数据并且基于所学习的语音数据生成第一说话者的个人声学模型；第二存储器，存储通用声学模型(generic acousticmodel)和第一说话者的个人声学模型；特征向量提取器，当从第一说话者接收到语音识别请求时，该特征向量提取器从第一说话者的语音数据提取特征向量；以及语音识别器，该语音识别器基于第一说话者的语音数据的累积量来选择通用声学模型和第一说话者的个人声学模型中的任一个并且语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令。

语音识别装置可以进一步包括检测并且去除第一说话者的语音数据中的噪声的预处理器。

当第一说话者的语音数据的累积量大于或等于预定阈值时，语音识别器可以选择第一说话者的个人声学模型；并且当第一说话者的语音数据的累积量小于预定阈值时，语音识别器可以选择通用声学模型。

收集器可以收集包括第一说话者的多个说话者的语音数据，并且第一存储器可以累积多个说话者的各个说话者的语音数据。

学习器可以学习多个说话者的语音数据并且基于所学习的多个说话者的语音数据生成用于各个说话者的个人声学模型。

学习器可以学习多个说话者的语音数据并且基于所学习的多个说话者的语音数据来更新通用声学模型。

语音识别装置可以进一步包括执行与所识别的语音命令相对应的功能的识别结果处理器。

此外，根据本公开的实施方式，语音识别方法包括：从基于语音的装置收集第一说话者的语音数据；将第一说话者的语音数据累积在第一存储器中；学习所累积的第一说话者的语音数据；基于所学习的语音数据生成第一说话者的个人声学模型；将第一说话者的个人声学模型和通用声学模型存储在第二存储器中；当从第一说话者接收语音识别请求时，从第一说话者的语音数据提取特征向量；基于第一说话者的语音数据的累积量来选择第一说话者的个人声学模型和通用声学模型中的任一个；以及使用所提取的特征向量和所选择的声学模型识别语音命令。

语音识别方法可以进一步包括检测并且去除第一说话者的语音数据中的噪声。

语音识别方法可以进一步包括将第一说话者的语音数据的累积量与预定阈值进行比较；当第一说话者的语音数据的累积量大于或等于预定阈值时选择第一说话者的个人声学模型；并且当第一说话者的语音数据的累积量小于预定阈值时选择通用声学模型。

语音识别方法可以进一步包括收集包括第一说话者的多个说话者的语音数据，并且在第一存储器中累积多个说话者的各个说话者的语音数据。

语音识别方法可以进一步包括学习多个说话者的语音数据；并且基于所学习的多个说话者的语音数据生成用于各个说话者的个人声学模型。

语音识别方法可以进一步包括学习多个说话者的语音数据；并且基于所学习的多个说话者的语音数据来更新通用声学模型。

语音识别方法可以进一步包括执行与所识别的语音命令相对应的功能。

此外，根据本公开的实施方式，一种非易失性计算机可读介质，包含用于执行语音识别方法的程序指令，该计算机可读介质包括：从基于语音的装置收集第一说话者的语音数据的程序指令；将第一说话者的语音数据累积在第一存储器中的程序指令；学习所累积的第一说话者的语音数据的程序指令；基于所学习的语音数据生成第一说话者的个人声学模型的程序指令；将第一说话者的个人声学模型和通用声学模型存储在第二存储器中的程序指令；如果当从第一说话者接收语音识别请求时，从第一说话者的语音数据提取特征向量的程序指令；基于第一说话者的语音数据的累积量来选择通用声学模型和第一说话者的个人声学模型中的任一个的程序指令；以及使用所提取的特征向量和所选择的声学模型识别语音命令的程序指令。

因此，可以使用说话者的个人声学模型执行语音识别，从而改善语音识别性能。此外，可以减少生成个人声学模型所需的语音数据的收集时间和收集成本。

附图说明

图1是根据本公开的实施方式的语音识别装置的框图。

图2是根据本公开的实施方式的语音识别器和第二存储器的框图。

图3是根据本公开的实施方式的语音识别方法的流程图。

<符号说明>

110：车载信息娱乐装置 120：电话

210：收集器 220：预处理器

230：第一存储器 240：学习器

250：第二存储器 260：特征向量提取器

270：语音识别器 280：识别结果处理器

具体实施方式

在下文中，将参照附图详细地描述本公开。本领域的技术人员应理解的是，在不背离本公开的精神或范围的前提下，可以以各种不同的方式对所描述的实施方式进行修改。此外，贯穿本说明书，相同的参考标号指代相同的元件。

贯穿本说明书，除非另有明确说明，否则词语“包括(comprise)”以及诸如“包含(comprises)”或者“含有(comprising)”的变形应被理解为意指包括所陈述的元件，但并不排除任何其他元件。此外，在说明书中所描述的术语“单元”、“...者(-er)”、“...器(-or)”或者“模块(module)”意指用于处理至少一个功能和操作的器件并且可通过硬件组件或者软件组件及它们的组合来实现。

贯穿说明书，“说话者(speaker)”意指诸如车载信息娱乐装置或电话的基于语音的装置的用户，并且“语音数据(speech data)”意指用户的声音。此外，应理解的是，在本文中所使用的术语“车辆(vehicle)”或“车辆的(vehicular)”或其他类似术语包括广义上的机动车辆，诸如载客车辆，包括运动型多用途车辆(SUV)、公共汽车、卡车、各种商用车、包括各种小船和船只的船舶、飞机等等；并且包括混合动力车辆、电动车辆、插电式混合动力车辆、氢动力车辆以及其他可替代的燃料车辆(例如，燃料来源于除石油以外的能源)。如本文中所提及的，混合车辆是具有两个或更多个动力源的车辆，例如，汽油动力和电动力车辆这两者。

此外，应理解的是，可以由至少一个处理器执行一个或多个下面的方法或者该方法的方面。术语“处理器”可以指与存储器结合操作的硬件装置。该存储器被配置为存储程序指令，并且处理器被具体编程为执行用于执行下面进一步描述的一个或多个处理的程序指令。此外，应理解的是，如本领域普通技术人员应理解的，可由包括结合一个或多个其他组件的处理器的设备来执行下面的方法。

图1是根据本公开的实施方式的语音识别装置的框图；以及图2是根据本公开的实施方式的语音识别器和第二存储器的框图。

如在图1中所示，语音识别装置200可以通过有线或无线方式连接到基于语音的装置100。基于语音的装置110可以包括诸如音频视频导航(AVN)装置的车载信息娱乐装置110和电话120。语音识别装置200可以包括收集器210、预处理器220、第一存储器230、学习器240、第二存储器250、特征向量提取器260、语音识别器270以及识别结果处理器280。

收集器210可以从基于语音的装置100收集第一说话者(例如，车辆的驾驶员)的语音数据。例如，如果说明基于语音的装置100属于第一说话者，那么收集器210可以从基于语音的装置100收集语音数据作为第一说话者的语音数据。此外，收集器210可以收集包括第一说话者的多个说话者的语音数据。

预处理器220可以检测并且去除通过收集器210所收集的第一说话者的语音数据中的噪声。

在第一存储器230中累积去除了噪声的第一说话者的语音数据。此外，第一存储器230可以累积多个说话者的各个说话者的语音数据。

学习器240可以学习累积在第一存储器230中的第一说话者的语音数据，以生成第一说话者的个人声学模型252。将所生成的个人声学模型252存储在第二存储器250中。此外，学习器240可以通过学习累积在第一存储器230中的多个说话者的语音数据来生成用于各个说话者的个人声学模型。

第二存储器250预先存储通用声学模型254。可以通过学习消音室中的各个说话者的语音数据来预先生成通用声学模型254。此外，学习器240可以通过学习累积在第一存储器230中的多个说话者的语音数据来更新通用声学模型254。第二存储器250可以进一步存储被用于执行语音识别的上下文信息和语言模型。

如果从第一说话者接收到语音识别请求，那么特征向量提取器260从第一说话者的语音数据提取特征向量。将所提取的特征向量发送至语音识别器270。特征向量提取器260可以通过使用Mel频率倒谱参数(MelFrequency Cepstral Coefficient)(MFCC)提取法、线性预测编码(LPC)提取法、高频域强调提取法(high frequency domain emphasisextraction method)或窗口函数提取法来提取特征向量。由于提取特征向量的方法对于本领域普通技术人员是显而易见的，所以将省略对其的详细说明。

语音识别器270基于从特征向量提取器260接收的特征向量执行语音识别。语音识别器270可以基于第一说话者的语音数据的累积量来选择通用声学模型254和第一说话者的个人声学模型252中的任一个。具体地，语音识别器270可以将第一说话者的语音数据的累积量与预定阈值进行比较。预定阈值可被设定为是由本领域普通技术人员所确定的值，该值用于确定第一存储器230中是否累积了足够的第一说话者的语音数据。

如果第一说话者的语音数据的累积量大于或等于预定阈值，那么语音识别器270选择第一说话者的个人声学模型252。语音识别器270通过使用特征向量和第一说话者的个人声学模型252来识别语音命令。相反，如果第一说话者的语音数据的累积量小于预定阈值，那么语音识别器270选择通用声学模型254。语音识别器270通过使用特征向量和通用声学模型254来识别语音命令。

识别结果处理器280从语音识别器270接收语音识别结果(即，语音命令)。识别结果处理器280可以基于语音识别结果控制基于语音的装置100。例如，识别结果处理器280可以执行与所识别的语音命令相对应的功能(例如，呼叫功能或路线指导功能)。

图3是根据本公开的实施方式的语音识别方法的流程图。

在步骤S11中，收集器210从基于语音的装置100收集第一说话者的语音数据。预处理器220可以检测并且去除第一说话者的语音数据的噪声。此外，收集器210可以收集包括第一说话者的多个说话者的语音数据。

在步骤S12中，将中第一说话者的语音数据累积在第一存储器230。可以在第一存储器230中累积多个说话者的各个说话者的语音数据。

在步骤S13中，学习器240通过学习累积在第一存储器230中的第一说话者的语音数据来生成第一说话者的个人声学模型252。此外，学习器240可以通过学习多个说话者的语音数据来生成用于各个说话者的个人声学模型。此外，学习器240可以通过学习多个说话者的语音数据来更新通用声学模型254。

如果从第一说话者接收到语音识别请求，那么在步骤S14中，特征向量提取器260从第一说话者的语音数据提取特征向量。

在步骤S15中，语音识别器270可以将第一说话者的语音数据的累积量与预定阈值进行比较。

如果在步骤S15中第一说话者的语音数据的累积量大于或等于预定阈值，那么在步骤S16中，语音识别器270通过使用第一说话者的个人声学模型252和特征向量来识别语音命令。

如果在步骤S15中第一说话者的语音数据的累积量小于预定阈值，那么在步骤S17中，语音识别器270通过使用通用声学模型254和特征向量来识别语音命令。此后，识别结果处理器280可以执行与语音命令相对应的功能。

如上所述，根据本公开的实施方式，可以基于说话者的语音数据的累积量来选择个人声学模型和通用声学模型中的一个并且可以通过使用所选择的声学模型来执行语音识别。此外，可以基于所累积的语音数据生成说话者的定制声学模型，从而改善语音识别性能。

虽然结合目前被视为实践的实施方式描述了本公开内容，但是应理解的是，本公开内容不限于所公开的实施方式，相反，本公开内容旨在覆盖被包含在所附权利要求的实质和范围内的各种修改和等同配置。

Claims

1.一种语音识别装置，包括：

收集器，从基于语音的装置收集第一说话者的语音数据；

第一存储器，累积所述第一说话者的语音数据；

学习器，学习累积在所述第一存储器中的所述第一说话者的语音数据并且所述学习器基于所学习的语音数据生成所述第一说话者的个人声学模型；

第二存储器，存储通用声学模型和所述第一说话者的个人声学模型；

特征向量提取器，当从所述第一说话者接收到语音识别请求时，所述特征向量提取器从所述第一说话者的语音数据提取特征向量；以及

语音识别器，基于所述第一说话者的语音数据的累积量来选择所述通用声学模型和所述第一说话者的个人声学模型中的任一个并且所述语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令，

其中，当所述第一说话者的语音数据的累积量大于或等于预定阈值时，所述语音识别器选择所述第一说话者的个人声学模型；并且当所述第一说话者的语音数据的累积量小于所述预定阈值时，所述语音识别器选择所述通用声学模型。

2.根据权利要求1所述的语音识别装置，进一步包括检测并且去除所述第一说话者的语音数据中的噪声的预处理器。

3.根据权利要求1所述的语音识别装置，其中，

所述收集器收集包括所述第一说话者的多个说话者的语音数据；并且

所述第一存储器累积所述多个说话者的各个说话者的语音数据。

4.根据权利要求3所述的语音识别装置，其中，所述学习器学习所述多个说话者的语音数据并且所述学习器基于所学习的所述多个说话者的语音数据生成用于各个说话者个人声学模型。

5.根据权利要求3所述的语音识别装置，其中，所述学习器学习所述多个说话者的语音数据并且基于所学习的所述多个说话者的语音数据来更新所述通用声学模型。

6.根据权利要求1所述的语音识别装置，进一步包括执行与所识别的语音命令相对应的功能的识别结果处理器。

7.一种语音识别方法，包括：

从基于语音的装置收集第一说话者的语音数据；

将所述第一说话者的语音数据累积在第一存储器中；

学习所累积的所述第一说话者的语音数据；

基于所学习的语音数据生成所述第一说话者的个人声学模型；

将通用声学模型和所述第一说话者的个人声学模型存储在第二存储器中；

当从所述第一说话者接收到语音识别请求时，从所述第一说话者的语音数据提取特征向量；

基于所述第一说话者的语音数据的累积量来选择所述通用声学模型和所述第一说话者的个人声学模型中的任一个；以及

使用所提取的特征向量和所选择的声学模型识别语音命令，

所述语音识别方法进一步包括：

将所述第一说话者的语音数据的累积量与预定阈值进行比较；

当所述第一说话者的语音数据的累积量大于或等于所述预定阈值时，选择所述第一说话者的个人声学模型；并且

当所述第一说话者的语音数据的累积量小于所述预定阈值时，选择所述通用声学模型。

8.根据权利要求7所述的语音识别方法，进一步包括检测并且去除所述第一说话者的语音数据中的噪声。

9.根据权利要求7所述的语音识别方法，进一步包括：

收集包括所述第一说话者的多个说话者的语音数据；并且

在所述第一存储器中累积所述多个说话者的各个说话者的语音数据。

10.根据权利要求9所述的语音识别方法，进一步包括：

学习所述多个说话者的语音数据；并且

基于所学习的所述多个说话者的语音数据生成用于各个说话者的个人声学模型。

11.根据权利要求9所述的语音识别方法，进一步包括：

学习所述多个说话者的语音数据；并且

基于所学习的所述多个说话者的语音数据更新所述通用声学模型。

12.根据权利要求7所述的语音识别方法，进一步包括执行与所识别的语音命令相对应的功能。

13.一种非易失性计算机可读介质，包含用于执行语音识别方法的程序指令，所述非易失性计算机可读介质包括：

从基于语音的装置收集第一说话者的语音数据的程序指令；

将所述第一说话者的语音数据累积在第一存储器中的程序指令；

学习所累积的所述第一说话者的语音数据的程序指令；

基于所学习的语音数据生成所述第一说话者的个人声学模型的程序指令；

将通用声学模型和所述第一说话者的个人声学模型存储在第二存储器中的程序指令；

如果当从所述第一说话者接收到语音识别请求时，从所述第一说话者的语音数据提取特征向量的程序指令；

基于所述第一说话者的语音数据的累积量来选择所述通用声学模型和所述第一说话者的个人声学模型中的任一个的程序指令；以及

使用所提取的特征向量和所选择的声学模型来识别语音命令的程序指令，

所述计算机可读介质还包括：

将所述第一说话者的语音数据的累积量与预定阈值进行比较的程序指令；

当所述第一说话者的语音数据的累积量大于或等于所述预定阈值时，选择所述第一说话者的个人声学模型的程序指令；以及

当所述第一说话者的语音数据的累积量小于所述预定阈值时，选择所述通用声学模型的程序指令。