CN110970018B

CN110970018B - 语音识别方法和装置

Info

Publication number: CN110970018B
Application number: CN201811143178.6A
Authority: CN
Inventors: 易斌; 连园园; 陈浩广; 肖龙
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2022-05-27
Anticipated expiration: 2038-09-28
Also published as: CN110970018A

Abstract

本发明公开了一种语音识别方法和装置。其中，该方法包括：获取语音信息；基于语音信息，根据预先获取的语种判断模型确定语音信息所属的语种，其中，语种判断模型根据训练数据进行训练得到，训练数据包括：多个语种的语音信息和用于表示语音信息所属语种的标签；根据语言信息所属的语种调用对应的语言转换模块，将语音信息转换为对应的文字信息。本发明解决了现有技术中语音转录的过程只能在固定的一种语言模式下运行，导致智能程度较低的技术问题。

Description

语音识别方法和装置

技术领域

本发明涉及语言处理领域，具体而言，涉及一种语音识别方法和装置。

背景技术

人工智能技术发展迅速，智能家居对用户生活的影响也越来越大，应用便捷性逐步升级，但仍存在一些需要改进的问题。

例如，现有的智能家居系统具备接收语音指令的功能，但只能接收固定的一种语音指令，如果更换下发语音指令时的语种，则设备在进行语音转录文字的操作时难以正确的识别；如果语音指令中包括多个语种的语音，则设备在进行语音转录文字的操作时，仍然会将所有的语音信息都转换为一种语音，从而导致智能程度低，用户体验差。

针对现有技术中语音转录的过程只能在固定的一种语言模式下运行，导致智能程度较低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音识别方法和装置，以至少解决现有技术中语音转录的过程只能在固定的一种语言模式下运行，导致智能程度较低的技术问题。

根据本发明实施例的一个方面，提供了一种语音识别方法，包括：获取语音信息；基于语音信息，根据预先获取的语种判断模型确定语音信息所属的语种，其中，语种判断模型根据训练数据进行训练得到，训练数据包括：多个语种的语音信息和用于表示语音信息所属语种的标签；根据语言信息所属的语种调用对应的语言转换模块，将语音信息转换为对应的文字信息。

进一步地，获取采集到的声音信息；对声音信息进行去噪处理，得到目标对象的语音信息。

进一步地，将语音信息输入至语种判断模型，其中，语种判断模型输出语音信息属于每个候选语种的概率；根据每个候选语种对应的概率确定语音信息所属的语种。

进一步地，获取预设的候选语种和候选语种对应的权重；根据每个候选语种对应的概率和每个候选语种的权重，确定语音信息所属的语种。

进一步地，在根据语言信息所属的语种调用对应的语言转换模块，将语音信息转换为对应的文字信息之后，获取预设的文字显示类型；根据文字显示类型显示文字信息。

进一步地，在获取语音信息之前，获取语种判断模型，其中，获取语种判断模型，包括：获取训练数据和初始卷积神经网络模型，其中，初始卷积神经网络模型具有初始网络参数；使用训练数据对初始卷积神经网络模型进行训练，得到目标网络参数，其中，目标网络参数用于构成语种判断模型。

根据本发明实施例的另一方面，还提供了一种语音识别装置，包括：获取模块，用于获取语音信息；确定模块，用于基于所述语音信息，根据预先获取的语种判断模型确定所述语音信息所属的语种，其中，所述语种判断模型根据训练数据进行训练得到，所述训练数据包括：多个语种的语音信息和用于表示所述语音信息所属语种的标签；转换模块，用于根据语言信息所属的语种调用对应的语言转换模块，将所述语音信息转换为对应的文字信息。

进一步地，获取模块包括：获取子模块，用于获取采集到的声音信息；处理子模块，用于对所述声音信息进行去噪处理，得到目标对象的所述语音信息。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的语音识别方法。

根据本发明实施例的另一方面，还提供了一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行上述的语音识别方法。

在本发明实施例中，获取语音信息，基于语音信息，根据预先获取的语种判断模型确定语音信息所属的语种，根据语言信息所属的语种调用对应的语言转换模块，将语音信息转换为对应的文字信息。上述方案通过语种诊断模型对语音信息的语种进行判断，避免了将多种语种的语言都按照一种语种进行语音识别，导致语音识别不准确的情况，从而解决了现有技术中语音转录的过程只能在固定的一种语言模式下运行，导致智能程度较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音识别方法的流程图；以及

图2是根据本发明实施例的一种语音识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种语音识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的语音识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取语音信息。

具体的，上述语音信息可以是用户发出的语音，或用户通过控制其他设备发出的语音。

上述语音识别方法可以应用在多种场景中，以智能家居的场景为例，该语音识别方法可以应用在空调设备上，使得用户可以通过语音对空调进行控制，以智能终端的场景为例，该语音识别方法可以应用在智能终端的控制上。

在一种可选的实施例中，以应用在智能终端为例，智能终端可以通过麦克风拾取用户的语音信息；再以智能家居系统为例，智能家居也可以通过麦克风拾取用户的语音信息。

步骤S104，基于语音信息，根据预先获取的语种判断模型确定语音信息所属的语种，其中，语种判断模型根据训练数据进行训练得到，训练数据包括：多个语种的语音信息和用于表示语音信息所属语种的标签。

在上述方案中，上述语种判断模型可以是根据训练数据预先训练得到，依据预先获取的语种判断模型对语音信息进行判断，从而能够根据对语音信息的语种判断结果进行对应的语音识别。

在一种可选的实施例中，设备在接收到语音信息后，并不将语音信息输入至语音识别模块，而是先将语音信息输入至语种判断模块，对语音的语种进行判断。

上述训练数据包括多个语种的语音信息和用于表示语音信息所属语种的标签，该标签与语种具有预设的对应关系，用于在训练语种判断模型时确定训练数据中的语音信息所属的语种。

此处需要说明的是，设备所接收到的语音信息可能是整句均属于一个语种，例如：“开电视”属于中文语种，“turn on the TV”属于英文语种，但也有可能整句包含多个语种的语音信息，例如：播放my heart will go on。因此语种判断模型在判断语音信息所属语种时，可以是对整句所属的语种进行判断的，可以是对语音信息中的语句进行分词后，分别对每个词语进行判断的。

步骤S106，根据语言信息所属的语种调用对应的语言转换模块，将语音信息转换为对应的文字信息。

在一种可选的实施例中，语音识别系统中可以设置多种语音转换模块，例如：汉语语音转换模块、英语语音转换模块、法语语音转换模块等，在语音识别的过程中，根据确定的语音信息所属的语种，调用对应的语音转换模块进行识别。

在另一种可选的实施例中，上述汉语语音转换模块还可以根据汉语的类型进行更多的分类，例如：粤语语音转换模块、河南话语音转换模块、普通话语音转换模块等，为了进一步提高语音信息识别的准确性，在语音信息所属的语种为中文的情况下，可以更近一步的确定语音信息的类别，从而更准确的调用语音转换模块。

现有技术中，只要用户指定的语音识别的类型，设备会一直依照这个类型进行识别，如果用户指定的语音识别类型为识别中文，即使用户发出包含与外文的语音信息，设备仍然会按照中文进行识别。例如，用户向智能音响发出指令：播放my heart will go on。设备只能识别出“播放”，而难以识别出“my heart will go on”，因此只能音响难以正确的执行用户的该指令。

而在上述方案中，设备会首先确定语音信息所属的语种，再根据语种进行识别，仍以语音指令“播放my heart will go on”为例，智能音响识别出“播放”为中文，“my heartwill go on”为英文后，可以调用中文语音识别模块对“播放”进行识别，并调用英文识别模块对“my heart will go on”进行识别，从而能够确定用户的指令，并准确的执行。

由此可知，本申请上述实施例获取语音信息，基于语音信息，根据预先获取的语种判断模型确定语音信息所属的语种，根据语言信息所属的语种调用对应的语言转换模块，将语音信息转换为对应的文字信息。上述方案通过语种诊断模型对语音信息的语种进行判断，避免了将多种语种的语言都按照一种语种进行语音识别，导致语音识别不准确的情况，从而解决了现有技术中语音转录的过程只能在固定的一种语言模式下运行，导致智能程度较低的技术问题。

作为一种可选的实施例，获取语音信息，包括：获取采集到的声音信息；对声音信息进行去噪处理，得到目标对象的语音信息。

在设备采集语音信息时，由于环境内可能存在其他干扰的声音，例如，在室内环境中，除了用户发出语音信息的声音，还可能电视、音响等其他设备发出的声音，因此难以得到准确的语音识别结果，因此设备在采集到声音信息后，可以通过滤波等方式对声音信息进行去噪处理，以从声音信息中提取出语音信息。

在一种可选的实施例中，可以使用小波变换的手段对声音信息进行去噪处理。用小波变换将信号分解到多尺度上，再针对每一层小波系数进行阈值处理，将噪声小波系数与声音信号的小波系数分离，然后利用小波重构算法恢复信号，从而达到降噪的目的。

作为一种可选的实施例，基于语音信息，根据预先获取的语种判断模型确定语音信息所属的语种，包括：将语音信息输入至语种判断模型，其中，语种判断模型输出语音信息属于每个候选语种的概率；根据每个候选语种对应的概率确定语音信息所属的语种。

具体的，上述候选语种可以是用户预先选择的，也可以是设备预先默认的。语种判断模型会预测出每种候选语种的概率，用于表示语音信息属于该语种的可能性，在根据预测的结果确定语音信息所属的语种。

在一种可选的实施例中，可以确定概率最大的候选语种为语音信息所属的语种。例如，候选语种为中文和英文，在设备接收到语音信息后，语种判断模型对语音信息的语种进行预测，得到语音信息为中文概率为98％，语音信息为英文的概率为2％，因此可以确定中文为该语句所属的语种。

作为一种可选的实施例，根据每个候选语种对应的概率确定语音信息所属的语种，包括：获取预设的候选语种和候选语种对应的权重；根据每个候选语种对应的概率和每个候选语种的权重，确定语音信息所属的语种。

具体的，上述候选语种和候选语种的权重可以由用户根据需求设置。以智能家居场景下的智能空调为例，如果家庭中不仅包括以中文为母语的成员，还包括以英文为母语的成员，则可以设置候选语种为中文和英文，并由于以中文为母语的成员的数量较多，因此可以设置中文的权重大于英文的权重。

在获取到语种判断模型输出的概率结果后，结合每个候选语种对应的权重，即可得到每个候选语种结合权重后的概率，以及结合权重后的概率确定语音信息所属的语种。

在一种可选的实施例中，设置候选语种为中文和英文，并设置中文对应的概率为65％，英文对应的概率为35％。语种诊断模型对语音信息的预测结果为：中文0.6，英文0.4。将中文对应的概率65％与中文对应的权重0.65相乘得到0.39，将英文对应的概率35％与英文对应的权重0.4相乘得到0.14，由于0.39>0.14，因此确定该语音信息属于中文。

在例如智能家居等应用场景，设备接收到的语音信息通常为用户对设备的语音指令，因此在设备识别语音信息得到语音指令的情况下，按照语音指令执行即可，但在另一些场景中，需要显示语音信息的识别结果，例如，在语音输入的场景下，需要将语音识别结果展示在终端的显示界面中；再例如，对耳聋的残障人士，需要将他人的语音信息识别为文字信息后并展示给残障人士，以使其与他人交流。因此作为一种可选的实施例，在根据语言信息所属的语种调用对应的语言转换模块，将语音信息转换为对应的文字信息之后，上述方法还包括：获取预设的文字显示类型；根据文字显示类型显示文字信息。

具体的，上述文字显示类型可以包括显示文字的字体、字号、颜色等多种特征，以中文为例，中文对应的文字显示类型可以包括简体中文、繁体中文，在繁体中文中，还可以包括港式繁体中文和台式繁体中文，也可以按照宋体、楷体等方式分类；对于英文来说，显示类型可以包括花体或正体。

在上述方案中，用户预先选择其需要的类型，设备按照用户所选的类型显示识别结果。

作为一种可选的实施例，在获取语音信息之前，方法还包括：获取语种判断模型，其中，获取语种判断模型，包括：获取训练数据和初始卷积神经网络模型，其中，初始卷积神经网络模型具有初始网络参数；使用训练数据对初始卷积神经网络模型进行训练，得到目标网络参数，其中，目标网络参数用于构成语种判断模型。

具体的，上述训练数据可以包括多组训练数据，每组训练数据中包括至少一条语音信息和语音信息对应的标签，语音信息对应的标签用于指示语音信息所属的语种。使用训练数据对初始卷积神经网络模型进行训练，得到语种判断模型。

在一种可选的实施例中，可以将训练数据中的语音信息输入至初始卷积神经网络模型，得到初始卷积神经网络模型输出的结果，在根据初始卷积神经网络模型输出的结果和语音信息对应的标签，求取二者的交叉熵损失函数，在经过大量的训练后使交叉熵损失函数收敛，即可得到语种判断模型对网络参数，进而得到语种判断模型。

实施例2

根据本发明实施例，提供了一种语音识别装置，图2是根据本发明实施例的一种语音识别装置的示意图，结合图2所示，该装置包括：

获取模块20，用于获取语音信息。

确定模块22，用于基于语音信息，根据预先获取的语种判断模型确定语音信息所属的语种，其中，语种判断模型根据训练数据进行训练得到，训练数据包括：多个语种的语音信息和用于表示语音信息所属语种的标签。

转换模块24，用于根据语言信息所属的语种调用对应的语言转换模块，将语音信息转换为对应的文字信息。

作为一种可选的实施例，获取模块包括：获取子模块，用于获取采集到的声音信息；处理子模块，用于对声音信息进行去噪处理，得到目标对象的语音信息。

作为一种可选的实施例，确定模块包括：输入子模块，用于将语音信息输入至语种判断模型，其中，语种判断模型输出语音信息属于每个候选语种的概率；确定子模块，用于根据每个候选语种对应的概率确定语音信息所属的语种。

作为一种可选的实施例，确定子模块包括：获取单元，用于获取预设的候选语种和候选语种对应的权重；确定单元，用于根据每个候选语种对应的概率和每个候选语种的权重，确定语音信息所属的语种。

作为一种可选的实施例，上述装置还包括：类型获取模块，用于在根据语言信息所属的语种调用对应的语言转换模块，将语音信息转换为对应的文字信息之后，获取预设的文字显示类型；显示模块，用于根据文字显示类型显示文字信息。

作为一种可选的实施例，上述装置还包括：模型获取模块，用于在获取语音信息之前，获取语种判断模型，其中，模型获取模块包括：获取子模块，用于获取训练数据和初始卷积神经网络模型，其中，初始卷积神经网络模型具有初始网络参数；训练模块，用于使用训练数据对初始卷积神经网络模型进行训练，得到目标网络参数，其中，目标网络参数用于构成语种判断模型。

实施例3

根据本发明实施例，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行实施例1中所述的语音识别方法。

实施例4

根据本发明实施例，提供了一种处理器，其特征在于，处理器用于运行程序，其中，程序运行时执行实施例1中所述的语音识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取语音信息；

基于所述语音信息，将所述语音信息输入至语种判断模型，其中，所述语种判断模型输出所述语音信息属于每个候选语种的概率；根据所述每个候选语种对应的概率确定所述语音信息所属的语种，其中，所述语种判断模型根据训练数据进行训练得到，所述训练数据包括：多个语种的语音信息和用于表示所述语音信息所属语种的标签，根据所述每个候选语种对应的概率确定所述语音信息所属的语种，包括：获取预设的候选语种和所述候选语种对应的权重；根据所述每个候选语种对应的概率和所述每个候选语种的权重，确定所述语音信息所属的语种；

根据语言信息所属的语种调用对应的语言转换模块，将所述语音信息转换为对应的文字信息。

2.根据权利要求1所述的方法，其特征在于，获取语音信息，包括：

获取采集到的声音信息；

对所述声音信息进行去噪处理，得到目标对象的所述语音信息。

3.根据权利要求1所述的方法，其特征在于，在根据语言信息所属的语种调用对应的语言转换模块，将所述语音信息转换为对应的文字信息之后，所述方法还包括：

获取预设的文字显示类型；

根据所述文字显示类型显示所述文字信息。

4.根据权利要求1所述的方法，其特征在于，在获取语音信息之前，所述方法还包括：获取所述语种判断模型，其中，获取所述语种判断模型，包括：

获取所述训练数据和初始卷积神经网络模型，其中，所述初始卷积神经网络模型具有初始网络参数；

使用所述训练数据对所述初始卷积神经网络模型进行训练，得到目标网络参数，其中，所述目标网络参数用于构成所述语种判断模型。

5.一种语音识别装置，其特征在于，包括：

获取模块，用于获取语音信息；

确定模块，用于基于所述语音信息，将所述语音信息输入至语种判断模型，其中，所述语种判断模型输出所述语音信息属于每个候选语种的概率；根据所述每个候选语种对应的概率确定所述语音信息所属的语种，其中，所述语种判断模型根据训练数据进行训练得到，所述训练数据包括：多个语种的语音信息和用于表示所述语音信息所属语种的标签，根据所述每个候选语种对应的概率确定所述语音信息所属的语种，包括：获取预设的候选语种和所述候选语种对应的权重；根据所述每个候选语种对应的概率和所述每个候选语种的权重，确定所述语音信息所属的语种；

转换模块，用于根据语言信息所属的语种调用对应的语言转换模块，将所述语音信息转换为对应的文字信息。

6.根据权利要求5所述的装置，其特征在于，获取模块包括：

获取子模块，用于获取采集到的声音信息；

处理子模块，用于对所述声音信息进行去噪处理，得到目标对象的所述语音信息。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的语音识别方法。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述的语音识别方法。