CN110600032A

CN110600032A - 一种语音识别方法及装置

Info

Publication number: CN110600032A
Application number: CN201810501947.9A
Authority: CN
Inventors: 邓威; 向上; 徐源盛
Original assignee: Beijing Language Intellectual Technology Co Ltd
Current assignee: Beijing Language Intellectual Technology Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2019-12-20

Abstract

本发明实施例提供一种语音识别方法及装置，其中，方法包括：采用包含有特定字符的语音样本训练得到语音识别引擎，语音识别引擎包括：声学模型和语言模型，所述声学模型用于将输入的声音信息识别为语言中的音素，所述语言模型用于将声学模型所识别的音素联合识别成语言中的句子；获取特定场景下的声音信息；通过声学模型识别声音信息中的包含有特定字符的语音信息，通过语言模型识别与所述语音信息相对应的文字信息；其中，所述特定字符是与所述特定场景相匹配的预设字符。本发明实施例能够在特定场景下准确识别出特定字符的关键的语言信息，大大提高对特定字符的语言信息识别的准确度。

Description

一种语音识别方法及装置

技术领域

本发明实施例涉及语音识别技术领域，具体涉及一种语音识别方法及装置。

背景技术

语音识别是将语音转化为文字的技术，在多种场景下都有重要应用。

现有的语音识别技术先通过通用的语音样本训练声学模型，采用该声学模型基本可以识别出通用的语音，但是，在某些场景下语音识别的准确率不高，进而导致对一些特定字符的关键的语言信息无法识别或识别错误。

因此，如何避免上述缺陷，能够在特定场景下准确识别出特定字符的关键的语言信息，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种语音识别方法及装置。

第一方面，本发明实施例提供一种语音识别方法，所述方法包括：

采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，所述声学模型用于将输入的声音信息识别为语言中的音素，所述语言模型用于将所述声学模型所识别的音素联合识别成语言中的句子；

获取特定场景下的声音信息；

通过所述语音识别引擎中的声学模型识别所述声音信息中的包含有特定字符的语音信息，通过所述语音识别引擎中的语言模型识别与所述语音信息相对应的文字信息；

其中，所述特定字符是与所述特定场景相匹配的预设字符。

可选地，所述特定字符包括特定文字、特定符号标记和数字中的至少一种。

可选地，所述获取特定场景下的声音信息，包括：

接收由本地设备发送的所述声音信息。

可选地，所述采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，包括：

采集多种类型的特定场景下的通用语音数据和包含有特定字符的专有语音数据作为语音样本；

预处理采集到的语音样本；

对预处理后的通用语音数据进行训练，得到初始声学模型，利用包含有特定字符的专有语音数据对得到的初始声学模型进行优调，得到优调后的声学模型；

对预处理后的包含有特定字符的专有语音数据进行训练，得到语言模型；

由所述优调后的声学模型和所述语言模型构成语音识别引擎。

可选地，采集多种类型的特定场景下的包含有特定字符的专有语音数据作为语音样本，包括：

直接采集所述特定字符干净的语音数据；

和/或，

采集特定场景下只包含特定字符的语音数据；

和/或，

采集特定场景下包含特定字符和环境噪声的语音数据，所述语音数据中包含的特定字符所占据的比例高于包含的环境噪声所占据的比例。

可选地，所述声音信息包括与所述语音信息无关的噪音；相应的，所述预处理采集到的语音样本，包括：

去除与所述语音信息无关的噪音。

可选地，所述语言模型包括：非受限语言模型或者受限语言模型。

第二方面，本发明实施例提供一种语音识别装置，所述装置包括：

训练单元，用于采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，所述声学模型用于将输入的声音信息识别为语言中的音素，所述语言模型用于将所述声学模型所识别的音素联合识别成语言中的句子；

获取单元，用于获取特定场景下的声音信息；

识别单元，用于通过所述语音识别引擎中的声学模型识别所述声音信息中的包含有特定字符的语音信息，通过所述语音识别引擎中的语言模型识别与所述语音信息相对应的文字信息；

其中，所述特定字符是与所述特定场景相匹配的预设字符。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述方法。

本发明实施例提供的语音识别方法及装置，通过采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，所述声学模型用于将输入的声音信息识别为语言中的音素，所述语言模型用于将所述声学模型所识别的音素联合识别成语言中的句子；获取特定场景下的声音信息；通过语音识别引擎中的声学模型识别声音信息中的包含有特定字符的语音信息，通过语音识别引擎中的语言模型识别与语音信息相对应的文字信息，由此，能够在特定场景下准确识别出特定字符的关键语言信息，大大提高了对特定字符的语言信息识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例语音识别方法的流程示意图；

图2为本发明实施例提供的用于表示受限语言模型的有限状态自动机的结构示意图；

图3为本发明实施例语音识别装置的结构示意图；

图4为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例语音识别方法的流程示意图，如图1所示，本发明实施例提供的一种语音识别方法，包括以下步骤：

S1：采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，所述声学模型用于将输入的声音信息识别为语言中的音素，所述语言模型用于将所述声学模型所识别的音素联合识别成语言中的句子。

具体的，装置采用包含有特定字符的语音样本训练得到语音识别引擎。装置可以是服务器，不作具体限定。特定字符可以包括特定文字、特定符号标记和数字中的至少一种。

S2：获取特定场景下的声音信息。

具体的，装置获取特定场景下的声音信息。特定场景可以是例如超市、广场、交通枢纽站等无发音源的第一场景，也可以是例如专题会议、电影院等有主发音源的第二场景。参照上述举例，发音源例如专题会议的会议发言人的发言、电影院播放的电影中演员所饰演角色发出的声音。声音信息可以理解为该特定场景下的全部声音信息，例如，第一场景中的交通枢纽站的客车语音播报、乘客交谈、客车行驶过程中的鸣笛等；例如，第二场景中的专题会议中的会议发言人的发言、作为背景的轻音乐、听众的讨论声音等。还可以通过接收由本地设备发送的声音信息的方式，获取特定场景下的声音信息，本地设备可以是本地的PC(个人计算机)、手机等，该本地设备与服务器可以实时通信。

S3：通过所述语音识别引擎中的声学模型识别所述声音信息中的包含有特定字符的语音信息，通过所述语音识别引擎中的语言模型识别与所述语音信息相对应的文字信息。

其中，所述特定字符是与所述特定场景相匹配的预设字符。

具体的，装置通过所述语音识别引擎中的声学模型识别所述声音信息中的包含有特定字符的语音信息，通过所述语音识别引擎中的语言模型识别与所述语音信息相对应的文字信息；其中，所述特定字符是与所述特定场景相匹配的预设字符。以第一场景中的交通枢纽站为例，特定字符可以是该场景中的客车语音播报的客车路线号，例如322、506等特定数字；以第二场景中的专题会议为例，特定字符可以是该场景中的与专题会议内容相关的人工智能、机器学习等特定文字，特定字符还可以是特定符号标记，例如，经济专题会议中的是人民币符号“￥”。还可以包括上述特定文字、特定符号标记和数字之间的组合，例如，将特定符号标记和数字组合，￥100等，这里不一一列举。

本发明实施例提供的语音识别方法，通过采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，所述声学模型用于将输入的声音信息识别为语言中的音素，所述语言模型用于将所述声学模型所识别的音素联合识别成语言中的句子；获取特定场景下的声音信息；通过语音识别引擎中的声学模型识别声音信息中的包含有特定字符的语音信息，通过语音识别引擎中的语言模型识别与语音信息相对应的文字信息，由此，能够在特定场景下准确识别出特定字符的关键语言信息，大大提高了对特定字符的语言信息识别的准确度。

进一步地，在上述实施例的基础上，所述步骤S1可以包括图中未示出的步骤S11-S15：

S11、采集多种类型的特定场景下的通用语音数据和包含有特定字符的专有语音数据作为语音样本。

其中，采集多种类型的特定场景下的包含有特定字符的专有语音数据作为语音样本，可以包括：

直接采集所述特定字符干净的语音数据；

和/或，采集特定场景下只包含特定字符的语音数据，可以理解：这里由采集到的语音数据组成的语音样本的集合中不包含任何其他非特定字符；以特征字符“人工智能”为例，采集特定场景下只包含“人工智能”的语音数据中不包含“人工智能”以外的非特定字符；

和/或，采集特定场景下包含特定字符和环境噪声(即包含其他非特定字符)的语音数据，所述语音数据中包含的特定字符所占据的比例高于包含的环境噪声所占据的比例。以特征字符“人工智能”为例，假如采集特定场景下包含“人工智能”和包含“人工智能”以外的非特定字符的语音数据的总数为1万，则该语音数据的集合中“人工智能”的语音样本数至少为5千，从而保证该语音数据的集合中包含的“人工智能”的语音数据所占据的比例高于包含全部的非特定字符所占据的比例。

可以理解的是，为了提高声学模型的鲁棒性，我们希望数据能包含尽量多的环境信息，包括说话人信息、信道信息、混响信息、噪声信息。为此我们尽量扩大数据采集面，让数据尽量多地覆盖不同的环境。除了训练数据，可以在真实场景收录部分实际数据作为测试集，用以评价声学模型性能。

S12、预处理采集到的语音样本。

在具体应用中，若所述声音信息包括与所述语音信息无关的噪音；相应的，所述预处理采集到的语音样本，包括：去除与所述语音信息无关的噪音。参照上述举例，该语音信息为第二场景中专题会议的“人工智能”，该声音信息可以包括作为背景的轻音乐、听众的讨论声音等与“人工智能”无关的噪音。即去除作为背景的轻音乐、听众的讨论声音等。

可以理解的是，通过去除与语音信息无关的噪音，能够达到预处理的预期效果。

需要说明的是：上述的步骤：在所述特定场景下采集所述特定字符的语音样本；预处理采集到的语音样本也可以在本地设备中执行，然后，再将执行完成的结果发送至服务器。

S13、对预处理后的通用语音数据进行训练，得到初始声学模型，利用包含有特定字符的专有语音数据对得到的初始声学模型进行优调，得到优调后的声学模型。

在具体应用中，举例来说，在步骤S13中训练得到优调后的声学模型，可以首先对预处理后的通用语音数据提取MFCC(梅尔频率倒谱系数)特征，得到语音帧。每一个语音帧表示一段时间区间里声音的频率信息。声学模型的目标是将语音帧对应到语言中的音素。声学模型的训练分可以为两步，第一步训练通用的声学模型，第二步在通用模型的基础上利用包含有特定字符的专有语音数据进行调优。在训练通用声学模型的时候，可以首先利用HMM(隐马尔可夫模型)-GMM(高斯混合模型)对语音数据进行对齐操作，生成每一个语音帧对应的音素状态标注，之后采用深度学习模型训练语音帧到音素状态的对应。深度模型是三层LSTM网络，采用交叉熵作为残差来训练网络参数。通过观察模型在验证集上的性能决定训练的超参数。最后在经过以交叉熵为残差训练网络基础上，使用序列训练进一步提升模型性能。有了基础声学模型后，在训练数据中加入特定字符的语音数据，采用较小的学习率进行自适应学习，得到优调后的针对特定字符的声学模型。

S14、对预处理后的包含有特定字符的专有语音数据进行训练，得到语言模型。

在具体应用中，举例来说，实现识别特定字符的语言模型，有两种方法：非受限语言模型和受限语言模型。

其中，非受限语言模型是基于通用语言模型优化得到，例如，可以采用n-gram汉语语言模型进行学习。首先通过预处理后的大量包含有特定字符的专有语音数据进行训练得到通用语言模型G₁；然后在特定字符的子语言中随机生成大量语料，对随机生成的语料进行建模，得到子语言模型G₂；最后将G₁和G₂插值得到针对特定字符的非受限语言模型。非受限语言模型和声学模型结合进行语音识别后，句子中可能包括非特定字符，将这些字符删除即得到最终识别结果。

其中，受限语言模型可以用正则表达式表示为[Σ]^*，其中Σ为字符集。对于这一个受限子语言，我们可以构造如图2所示的有限状态自动机(FST)，如图2所示，特定字符的语言模型可以由一个FST表示。这一自动机包括一个开始、终结节点S节点和T节点。字符集中的每个字符对应状态机中一个节点A₁到A_n，特别的filter节点表示不存在在字符集中的字符，从终止节点到每个字符节点都有一组双向的边。将这一FST作为特定字符的语言模型与声学模型结合，即可确保产生的句子都属于由特定字符构成的语言。

S15、由所述优调后的声学模型和所述语言模型构成语音识别引擎。

由此，本实施例可以采用包含有特定字符的语音样本训练得到语音识别引擎。

在上述实施例的基础上，所述特定字符包括特定文字、特定符号标记和数字中的至少一种。

具体的，装置中的所述特定字符包括特定文字、特定符号标记和数字中的至少一种。可参照上述实施例，不再赘述。

本发明实施例提供的语音识别方法，通过使特定字符包括特定文字、特定符号标记和数字中的至少一种，能够在特定场景下识别出不同形式的特定字符的关键语言信息。

在上述实施例的基础上，所述获取特定场景下的声音信息，可以包括：

接收由本地设备发送的所述声音信息。

具体的，装置接收由本地设备发送的所述声音信息。可参照上述实施例，不再赘述。

本发明实施例提供的语音识别方法，通过接收由本地设备发送的声音信息，能够从更多渠道获取声音信息。

本发明实施例提供的语音识别方法，利用采用包含有特定字符的语音样本训练得到包括声学模型和语言模型的语音识别引擎，能够在特定场景下准确识别出特定字符的关键语言信息，大大提高了对特定字符的语言信息识别的准确度。

图3为本发明实施例语音识别装置的结构示意图，如图3所示，本发明实施例提供了一种语音识别装置，包括训练单元1、获取单元2和识别单元3，其中：

训练单元1，用于采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，所述声学模型用于将输入的声音信息识别为语言中的音素，所述语言模型用于将所述声学模型所识别的音素联合识别成语言中的句子；

获取单元2，用于获取特定场景下的声音信息；

识别单元3，用于通过所述语音识别引擎中的声学模型识别所述声音信息中的包含有特定字符的语音信息，通过所述语音识别引擎中的语言模型识别与所述语音信息相对应的文字信息；

其中，所述特定字符是与所述特定场景相匹配的预设字符。

具体的，训练单元1采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，所述声学模型用于将输入的声音信息识别为语言中的音素，所述语言模型用于将所述声学模型所识别的音素联合识别成语言中的句子；获取单元2获取特定场景下的声音信息；识别单元3通过所述语音识别引擎中的声学模型识别所述声音信息中的包含有特定字符的语音信息，通过所述语音识别引擎中的语言模型识别与所述语音信息相对应的文字信息；其中，所述特定字符是与所述特定场景相匹配的预设字符。

本发明实施例提供的语音识别装置，利用采用包含有特定字符的语音样本训练得到包括声学模型和语言模型的语音识别引擎，能够在特定场景下准确识别出特定字符的关键语言信息，大大提高了对特定字符的语言信息识别的准确度。

本发明实施例提供的语音识别装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图4为本发明实施例提供的电子设备的实体结构示意图，如图4所示，所述电子设备包括：处理器(processor)401、存储器(memory)402和总线403；

其中，所述处理器401、存储器402通过总线403完成相互间的通信；

所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，所述声学模型用于将输入的声音信息识别为语言中的音素，所述语言模型用于将所述声学模型所识别的音素联合识别成语言中的句子；获取特定场景下的声音信息；通过所述语音识别引擎中的声学模型识别所述声音信息中的包含有特定字符的语音信息，通过所述语音识别引擎中的语言模型识别与所述语音信息相对应的文字信息；其中，所述特定字符是与所述特定场景相匹配的预设字符。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，所述声学模型用于将输入的声音信息识别为语言中的音素，所述语言模型用于将所述声学模型所识别的音素联合识别成语言中的句子；获取特定场景下的声音信息；通过所述语音识别引擎中的声学模型识别所述声音信息中的包含有特定字符的语音信息，通过所述语音识别引擎中的语言模型识别与所述语音信息相对应的文字信息；其中，所述特定字符是与所述特定场景相匹配的预设字符。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：采用包含有特定字符的语音样本训练得到声学模型；获取特定场景下的声音信息；通过所述声学模型识别所述声音信息中的包含有特定字符的语音信息，以获取与所述语音信息相对应的文字信息；其中，所述特定字符是与所述特定场景相匹配的预设字符。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取特定场景下的声音信息；

其中，所述特定字符是与所述特定场景相匹配的预设字符。

2.根据权利要求1所述的方法，其特征在于，所述特定字符包括特定文字、特定符号标记和数字中的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述获取特定场景下的声音信息，包括：

接收由本地设备发送的所述声音信息。

4.根据权利要求1或2或3所述的方法，其特征在于，所述采用包含有特定字符的语音样本训练得到语音识别引擎，所述语音识别引擎包括：声学模型和语言模型，包括：

预处理采集到的语音样本；

5.根据权利要求4所述的方法，其特征在于，采集多种类型的特定场景下的包含有特定字符的专有语音数据作为语音样本，包括：

直接采集所述特定字符干净的语音数据；

和/或，

采集特定场景下只包含特定字符的语音数据；

和/或，

6.根据权利要求4所述的方法，其特征在于，所述声音信息包括与所述语音信息无关的噪音；相应的，所述预处理采集到的语音样本，包括：

去除与所述语音信息无关的噪音。

7.根据权利要求1所述的方法，其特征在于，所述语言模型包括：非受限语言模型或者受限语言模型。

8.一种语音识别装置，其特征在于，包括：

获取单元，用于获取特定场景下的声音信息；

其中，所述特定字符是与所述特定场景相匹配的预设字符。

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。