CN110634472B

CN110634472B - 一种语音识别方法、服务器及计算机可读存储介质

Info

Publication number: CN110634472B
Application number: CN201810646582.9A
Authority: CN
Inventors: 张恒生; 王满洪; 蒋天超
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2024-06-04
Anticipated expiration: 2038-06-21
Also published as: CN110634472A

Abstract

本发明实施例公开了一种语音识别方法、服务器及计算机可读存储介质，其中，所述方法包括：接收客户端发送的第一语音信息；获取所述第一语音信息对应的用户的标识信息；如果能够获取到所述用户的标识信息对应的第一个性化解码网络，基于所述第一个性化解码网络对所述第一语音信息进行识别，得到第一识别结果；将所述第一识别结果发送给所述客户端。

Description

一种语音识别方法、服务器及计算机可读存储介质

技术领域

本发明涉及人工智能与信号处理领域，尤其涉及一种语音识别方法、服务器及计算机可读存储介质。

背景技术

目前市场上的语音识别系统都是通过终端设备采集语音数据，发送给云端的识别引擎，引擎再将处理后的识别结果反馈回终端。在相关技术中，语音识别引擎在识别数据时，在已经训练好的声学模型和语言模型构建基于有限状态机(Weighted Finite StateTransducer，WFST)的解码网络上，搜索概率最大的路径来识别说话内容。这种模式基于固有的语料，生成对应的解码网络，也达到了一定的识别效果。但是这种模式的缺点是系统的鲁棒性不够，没有根据说话人本身的先验知识来做识别，从而导致语音识别的精确度低下。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种语音识别方法、服务器及计算机可读存储介质，解决了现有技术中没有根据说话人本身的先验知识来做识别，从而导致语音识别的精确度低下的问题，能够根据包含说话人先验知识的解码网络进行解码搜索，从而显著提升语音识别系统的识别率。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种语音识别方法，所述方法包括：

接收客户端发送的第一语音信息；

获取所述第一语音信息对应的用户的标识信息；

如果能够获取到所述用户的标识信息对应的第一个性化解码网络，基于所述个性化解码网络对所述第一语音信息进行识别，得到第一识别结果；

将所述第一识别结果发送给所述客户端。

第二方面，本发明实施例提供一种服务器，所述服务器至少包括存储器、通信总线和处理器，其中：

所述存储器，配置为存储语音识别程序；

所述通信总线，配置为实现处理器和存储器之间的连接通信；

所述处理器，配置为执行存储器中存储的语音识别程序，以实现本发明其他实施例提供的语音识别方法中的步骤。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行本发明其他实施例提供的语音识别方法中的步骤。

本发明实施例提供一种语音识别方法、服务器及计算机可读存储介质，其中，首先接收客户端发送的第一语音信息；然后获取所述第一语音信息对应的用户的标识信息；如果能够获取到所述用户的标识信息对应的第一个性化解码网络，基于所述个性化解码网络对所述第一语音信息进行识别，得到第一识别结果；最后将所述第一识别结果发送给所述客户端；如此能够根据包含说话人先验知识的个性化解码网络进行语音识别，从而显著提升语音识别系统的识别率。

附图说明

在附图(其不一定是按比例绘制的)中，相似的附图标记可在不同的视图中描述相似的部件。具有不同字母后缀的相似附图标记可表示相似部件的不同示例。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。

图1为传统语音识别系统框架示意图；

图2为本发明实施例语音识别方法的实现流程示意图；

图3为本发明实施例语音识别方法的实现流程示意图；

图4为本发明实施例多知识源辅助改进后的语音识别系统框架示意图；

图5为本发明实施例语音识别方法的实现流程示意图；

图6为本发明实施例个性化解码网络的创建方法的实现流程示意图；

图7为本发明实施例语音识别方法的实现流程示意图；

图8为本发明实施例个性化解码网络空间的创建方法的实现流程示意图；

图9为本发明实施例服务器的组成结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

为了更好的理解本发明实施例，这里首先对相关技术中传统语音识别系统进行说明。

图1为传统语音识别系统框架示意图，如图1所示，在传统语音识别系统中，首先将语言模型、发音词典和声学模型通过WFST工具箱103构建解码网络102，并将解码网络加载到语音识别引擎101的解码器1011中。在进行语音识别时，将待识别的语音和配置文件输入到语音识别引擎，并对语音进行前端处理，将处理后的语音输入解码器，解码器通过解码网络和搜索算法，搜索出概率最大的路径，根据概率最大的路径上的语序列或语格得到说话内容，即语音识别结果。

在利用传统语音识别系统进行语音识别时，是基于固有的语料，生成对应的解码网络，虽然也能达到一定的识别效果，但是这种模式的缺点是系统的鲁棒性不够，没有根据说话人本身的先验知识来做识别。

而人在识别语音时，鲁棒性会好的多。人脑在处理语音时，可以通过多种感官预先判断识别说话人是谁(如眼睛看到，或者听声音识别出是谁，或者其他人告诉说话人是谁，等等)，在知道对方是谁的条件下，最大化利用记忆中已存得关于说话人的先验知识，来综合识别说话人所说的语音。从而能够更准确地识别语音。

而基于统计模式的机器语言识别，完全是基于训练文本中的概率来识别，而统计的概率，是基于所有人的最大概率，但是这个概率对于说话者个体，不一定是最优的。举例来说，“zhang wei”这个音，通常按照概率来说，“张伟”比“章伟”在统计上概率更大，机器通常会识别成“张伟”，而人的识别，更多的是依赖记忆中已存的说话人先验知识。如果一个人在高中时有个同学叫张伟，大学时有个同学叫章伟。那么人会根据说话人本身得特征来准确识别，如果说话人是高中同学，很大可能是“张伟”，如果是大学同学，那很大可能指的是“章伟”。如果人在某种情况下缺乏这样得先验知识，也会难以进行准确识别。比如看病时医生说的复杂一点得药名，即使知道医生说的是药名，但是缺乏相应的先验知识，也一样会难以识别出准确的文字。

再比如说，如果事先已知某说话人是足球爱好者，当测试“梅西”时，系统就不会误识别成“没戏”或“美系”等相同声学发音了。再比如，一个医学专业的说话人，测试“人参”的时候，就不会误识别成“人声”或“人生”等相似发音词汇。在比如一个南昌人，测试“你搞什”时，也不会被误判为“你高深”。语音识别的声学模型只负责将特征对应到近似发音词汇，具体到哪个词汇，需要语言模型的修正，如果语言模型覆盖较准确，语音识别的效果当然会有提高。

实施例一

本发明实施例提供一种语音识别方法，图2为本发明实施例语音识别方法的实现流程示意图，如图2所示，所述方法包括以下步骤：

步骤S201，接收客户端发送的第一语音信息。

这里，所述步骤S201可以是由语音识别服务器实现的。所述语音识别服务器可以是当作服务器使用的普通电脑设备或大型服务器设备，还可以是服务器集群设备。

所述客户端可以是智能终端，例如可以是移动电话(手机)、平板电脑、笔记本电脑等具有无线通信能力的移动终端设备，还可以是台式计算机、桌面电脑等不便移动的智能终端设备。所述客户端具有语音采集模块，其中，所述语音采集模块可以是所述客户端内置的，还可以是所述客户端外接的。所述语音采集模块可以是麦克风。所述语音采集模块可以采集用户的语音信息，在客户端的语音采集模块采集到用户的语音信息后，可以通过客户端自身的通讯模块，将采集到的语音信息发送给服务器。

步骤S202，获取所述第一语音信息对应的用户的标识信息。

这里，所述步骤S202可以是由语音识别服务器实现的。所述标识信息包括但不限于是身份证号、手机号、车牌号，所述标识信息中还可以包括用户的姓名、籍贯等信息。

在实际实现过程中，获取所述第一语音信息对应的用户的标识信息可以通过以下几种方式实现：

方式一、人脸识别。

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术。在通过人脸识别获取用户的标识信息时，可以通过客户端采集说话人的图像，并通过人脸识别技术确定出图像中的人脸区域图像，再从数据库中搜索与人脸区域图像匹配的用户的标识信息。

方式二、声纹识别。

声纹识别也是一种生物识别技术。声纹是用电声学仪器显示的携带言语信息的声波频谱。每个人的语音声学特征是相对稳定的，因此可以通过声纹识别来获取用户的标识信息。在实现过程中，可以首先提取第一语音信息中的声纹特征，然后从数据库中获取与所述声纹特征匹配的用户的标识信息。

这里，可提取的声学特征包括时域特征及频域特征。其中，时域特征可以是以下特征中的一种或多种：共振峰、短时平均能量和短时平均过零率。频域特征可以是以下特征中的一种或多种：线性预测系数、线性预测系数倒谱系数和梅尔频率倒谱系数。此外，可提取的声学特征还可以是任何可用于语音识别处理中的其他特征。

方式三、虹膜识别。

虹膜识别技术是基于眼睛中的虹膜进行身份识别。虹膜是位于黑色瞳孔和白色巩膜之间的圆环状部分，其包含有很多相互交错的斑点、细丝、冠状、条纹、隐窝等的细节特征。而且虹膜在胎儿发育阶段形成后，在整个生命历程中将是保持不变的。这些特征决定了虹膜特征的唯一性，同时也决定了身份识别的唯一性。因此，可以将眼睛的虹膜特征作为每个人的身份识别对象。

在利用虹膜识别技术获取用户的标识信息时，首先需要接收客户端发送的具有用户虹膜信息的图像，然后提取用户的虹膜信息，再进一步从数据库中获取与所述虹膜信息匹配的用户的标识信息。

方式四、指纹识别。

指纹是指人的手指末端正面皮肤上凸凹不平产生的纹线。纹线有规律的排列形成不同的纹型。纹线的起点、终点、结合点和分叉点，称为指纹的细节特征点。指纹识别即指通过比较不同指纹的细节特征点来进行鉴别。

在利用指纹识别技术获取用户的标识信息时，需要要求客户端具备指纹采集模块，通过指纹采集模块采集说话人的指纹信息，并将指纹信息发送给服务器，由服务器从数据库中获取与所述指纹信息匹配的用户的标识信息。

步骤S203，如果能够获取到所述用户的标识信息对应的第一个性化解码网络，基于所述第一个性化解码网络对所述第一语音信息进行识别，得到第一识别结果。

这里，所述步骤S203可以是由语音识别服务器实现的。

在其他实施例中，在所述步骤S203之前，所述方法还包括：判断是否能够获取到所述用户的标识信息对应的第一个性化解码网络，其中，如果能够获取到所述用户的标识信息对应的第一个性化解码网络，说明服务器中已经保存有第一个性化解码网络，此时进入步骤S203；如果不能获取到所述第一个性化解码网络，说明服务器中没有保存有第一个性化解码网络，此时可以根据用户的标识信息，从网络中获取与所述标识信息相关的文本信息和/或语音信息，再根据这些文本信息和/或语音信息以及通用解码网络来生成第一个性化解码网络。

在基于第一个性化解码网络对所述第一语音信息进行识别时，可以是将所述第一个性化解码网络中得分最高的解码路径确定为最优解码路径，并将最优解码路径作为第一识别结果。所述第一个性化解码网络中包含有用户的先验知识，能够更加准确的反应用户说话时的语言习惯、组词顺序等信息，因此利用第一个性化解码网络进行语音识别能够提高语音识别的准确率。

步骤S204，将所述第一识别结果发送给所述客户端。

这里，所述步骤S204可以是由语音识别服务器实现的。

在本发明实施例提供语音识别方法中，首先接收客户端发送的第一语音信息；然后获取所述第一语音信息对应的用户的标识信息；如果能够获取到所述用户的标识信息对应的第一个性化解码网络，基于所述个性化解码网络对所述第一语音信息进行识别，得到第一识别结果；最后将所述第一识别结果发送给所述客户端；如此能够根据包含说话人先验知识的个性化解码网络进行语音识别，从而显著提升语音识别系统的识别率。

实施例二

基于前述的实施例，本发明实施例再提供一种语音识别方法，应用于语音识别系统，所述语音识别系统至少包括客户端和服务器，图3为本发明实施例语音识别方法的实现流程示意图，如图3所示，所述方法包括以下步骤：

步骤S301，客户端基于第一操作获取用户发出的第一语音信息。

这里，所述第一操作可以是用户发起的进行语音识别的操作，所述第一操作可以是一个动作还可以是一系列动作的组合。在本实施例中，所述客户端中安装有语音识别应用，所述语音识别应用可以实时对用户发出的语音进行识别，还可以对本地存储的语音信息进行识别。

客户端基于第一操作获取用户发出的第一语音信息可以是用户点击了所述语音识别应用界面上的实时语音识别按键，实时采集用户发出的第一语音信息，还可以是用户点击识别本地语音的按键，并基于用户的选择操作确定用户选择的本地语音信息。

步骤S302，所述客户端将所述第一语音信息发送给服务器。

步骤S303，所述服务器接收所述第一语音信息，获取所述第一语音信息对应的用户的标识信息。

这里，所述步骤S303可以通过以下步骤实现：

步骤S3031a，获取所述第一语音信息的声纹特征；

步骤S3032a，根据所述声纹特征确定所述第一语音信息对应的用户的标识信息。

在其他实施例中，还可以通过人脸识别技术获取所述用户的标识信息，此时所述步骤S303可以通过以下步骤实现：

步骤S3031b，接收客户端发送的图像；

步骤S3032b，对所述图像进行人脸检测，确定所述图像中的人脸区域图像；

步骤S3033b，根据所述人脸区域图像确定所述第一语音信息对应的用户的标识信息。

这里，所述客户端发送的图像可以是客户端通过图像采集装置实时采集的用户图像，还可以是所述客户端本地存储的图像。

步骤S304，所述服务器判断是否能够获取到与所述标识信息对应的第一个性化解码网络。

这里，如果能够获取到与所述标识信息对应的第一个性化解码网络，进入步骤S308；如果不能获取到与所述标识信息对应的第一个性化解码网络，进入步骤S305。

步骤S305，所述服务器判断能否获取与所述用户的标识信息对应的历史语音信息和/或文本信息。

这里，如果不能够获取到所述第一个性化解码网络，那么所述服务器基于所述标识信息，在因特网(Internet)检索该用户的所有语音和文本信息，包括但不限于：语音消息、通话记录、短信、论坛贴吧、微博博客、新闻评论、论文、演讲稿等。如果能获取到所述历史语音信息和/或文本信息，进入步骤S306；如果不能获取到所述历史语音信息和/或文本信息进入步骤S310。

需要说明的是，在本实施例中，与所述标识信息对应的历史语音信息和/或文本信息是指用户自己发出的语音信息和/或文本信息，并不包括其引用和转发的语音信息和/或文本信息。在实现过程中，可以首先获取与所述标识信息相关的所有历史语音信息和/或文本信息，然后再对这些信息需要进行筛选，剔除掉其转发或引用的部分，仅保留用户自己创造的内容。

步骤S306，所述服务器根据所述历史语音信息和通用声学模型生成个性化声学模型和/或根据所述文本信息和通用语言模型生成个性化语言模型。

这里，在获取到所述历史语音信息后可以利用所述历史语音信息对通用声学模型进行自适应调整，以生成个性化声学模型；在获取到文本信息后同样可以利用文本信息对通用语言模型进行自适应调整，以生成个性化语言模型。

步骤S307，将所述个性化声学模型和/或个性化语言模型加载到通用解码网络，得到第一个性化解码网络。

这里，所述通用解码网络可以是根据通用声学模型、通用语言模型和通用发音词典生成的。将所述个性化声学模型和/或个性化语言模型加载到通用解码网络，得到的第一个性化解码网络是具备用户的声学特征和语言特征的解码网络，因此在利用第一个性化解码网络进行语音识别时，能有效提高识别率。

步骤S308，所述服务器基于所述第一个性化解码网络对所述第一语言信息进行识别，得到第一识别结果。

步骤S309，所述服务器将所述第一识别结果发送给所述客户端。

步骤S310，所述服务器基于所述第一语音信息获取所述用户的第二属性信息。

这里，所述第二属性信息可以包括但不限于地域信息、年龄信息和性别信息。所述步骤S310在实现过程中，可以是对第一语音信息进行解析，获取所述第一语音信息中的一些声学特征，再根据这些声学特征确定用户的地域信息、年龄信息和性别信息，假设获取到的第二属性信息为湖南长沙人、35岁，男性。

在其他实施例中，还可以根据语音信息中的内容来获取职业或者兴趣爱好等信息也作为第二属性信息所包含的内容。

步骤S311，所述服务器判断能否获取与所述第二属性信息对应的第二个性化解码网络。

这里，在实际实现过程中，所述步骤S311可以通过以下步骤实现：

步骤S3111，判断是否能够获取与所述地域信息匹配的第三个性化解码网络集合；

步骤S3112，如果能够获取所述第三个性化解码网络集合，判断是否能够从所述第三个性化解码网络集合中获取与所述年龄信息匹配的第四个性化解码网络集合；

步骤S3113，如果能够获取所述第四个性化解码网络集合，判断所述第四个性化网络中是否存在与所述性别信息匹配的第五个性化网络集合；其中，如果所述第五个性化网络集合不为空集，则表明能够获取到所述第二个性化解码网络，此时进入步骤S312；如果所述第五个性化网络集合为空集，表明不能获取到所述第二个性化解码网络，此时进入步骤S314。

在本实施例中，如果所述第四个性化解码网络集合中存在与所述性别信息匹配的第五个性化解码网络集合，按照预设算法从所述第五个性化解码网络集合中获取第二个性化解码网络。

步骤S312，所述服务器基于所述第二个性化解码网络对所述第一语音信息进行识别，得到第二识别结果。

步骤S313，将所述第二识别结果发送给所述客户端。

步骤S314，基于通用解码网络对所述语音信息进行识别，得到第三识别结果；

步骤S315，将所述第三识别结果发送给所述客户端。

需要说明的是，本实施例中与其它实施例中相同步骤或概念的解释可以参考其它实施例中的描述。

在本发明实施例提供的语音识别方法中，首先，客户端基于第一操作采集用户发出的第一语音信息，并将所述第一语音信息发送给服务器，所述服务器接收到所述第一语音信息后获取所述第一语音信息对应的用户的标识信息；如果所述服务器能够获取到与所述标识信息对应的第一个性化解码网络，所述服务器基于所述第一个性化解码网络对所述第一语言信息进行识别，得到第一识别结果并将所述第一识别结果发送给所述客户端；如果所述服务器不能获取到与所述标识信息对应的第一个性化解码网络，所述服务器基于所述标识信息获取所述用户对应的历史语音信息和/或文本信息，并根据所述历史语音信息和通用声学模型生成个性化声学模型和/或根据所述文本信息和通用语言模型生成个性化语言模型；再将所述个性化声学模型和/或个性化语言模型加载到通用解码网络，得到第一个性化解码网络，然后所述服务器基于所述第一个性化解码网络对所述第一语言信息进行识别，得到第一识别结果并将所述第一识别结果发送给所述客户端；如果不能够获取与所述用户的标识信息对应的历史语音信息和文本信息，所述服务器基于所述第一语音信息获取所述用户的第二属性信息；如果能够获取与所述第二属性信息对应的第二个性化解码网络，基于所述第二个性化解码网络对所述第一语音信息进行识别，得到第二识别结果；并将所述第二识别结果发送给所述客户端；如果不能获取到所述第二个性化解码网络，则基于通用解码网络对所述语音信息进行识别，得到第三识别结果；并将所述第三识别结果发送给所述客户端；如此，能够在获取到说话者的标识信息(身份)的情况下，根据包含说话者的先验知识的个性化解码网络进行语音识别，能够有效提高语音识别的准确率，在不能获取到个性化解码网络时可以获取相似的个性化解码网络，以保证语音识别的准确率。

在其他实施例中，在所述步骤S301之前，还可以通过以下步骤生成第一个性化解码网络：

步骤41，获取用户输入的标识信息以及与所述标识信息对应的历史语音信息和/或文本信息；

步骤42，根据所述历史语音信息和通用声学模型生成个性化声学模型和/或根据所述文本信息和通用语言模型生成个性化语言模型；

步骤43，将所述个性化声学模型和/或个性化语言模型加载到通用解码网络，得到第一个性化解码网络。

在其他实施例中，在所述步骤S307或者步骤43之后，所述方法还包括：

步骤31，根据所述历史语音信息和/或文本信息获取所述用户的第一属性信息；

步骤32，建立并存储所述标识信息和所述第一属性信息的映射关系；

步骤33，建立并存储所述标识信息和所述第一个性化解码网络的映射关系。

在步骤31至步骤33的实施例中，所述第一属性信息可以包括但不限于是用户的兴趣爱好、职业、地域、年龄、性别，建立所述标识信息和第一属性信息的映射关系以及所述标识信息和第一个性化解码网络的映射关系能够在不能获取到某些用户的历史语音信息和文本信息时，通过匹配属性信息来获取与这些用户的属性信息最接近用户的个性化解码网络，进而根据个性化解码网络进行语音识别以提高识别率。

在其他实施例中，在步骤S303之后，所述方法还包括：判断是否成功获取所述用户的标识信息，其中，如果成功获取所述用户的标识信息进入步骤S304；如果不能成功获取所述用户的标识信息，可以进入步骤S310。也就是说在不能够获取用户的标识信息时，可以通过用户的第一语音信息来获取用户的地域信息、年龄信息和性别信息等第二属性信息，再进一步通过第二属性信息获取与所述第二属性信息关联度最高的第二个性化解码网络，并利用第二个性化解码网络进行语音识别，以提供语音识别的准确率。

实施例三

本发明实施例提供一种多知识源辅助增强的语音识别方法，应用于多知识源辅助改进后的语音识别系统，通过某种辅助方式识别出说话人身份后，识别引擎根据说话人身份ID，装载个性化的解码网络用来解码识别，帮助提升传统语音识别系统的识别准确率。

本发明实施例提供的多知识源辅助改进后的语音识别方法包括个性化解码网络空间的构造和增强识别过程的两个流程，其中：

流程一，个性化解码网络的构建。

解码网络WFST是语音识别系统中的一个重要模块。经典的语音识别系统主要包括声学模型、语言学模型和发音字典。而WFST就是将者三个模块组合成一个网络空间，在提升识别率的同时大大加快了语音识别的解码速度。语音识别的过程就是在已构建好的解码网络中寻找最优路径。

个性化的解码网络是指在已建立的通用解码空间中加载了包含当前测试说话人的声学模型和语言模型。若本发明实施例提供的语音识别系统中无此说话人的个性化解码网络时(个性化解码网络可通过话者身份检索)，有以下两种构建方案：

一)静态构建：语音识别系统管理者在说话人使用前，预先输入说话人的相关可利用语音文本信息作为先验知识源，识别引擎在处理后将其加载到通用模型，更新通用解码空间的权重和参数。这是在系统开始处理前就构建了当前说话人的个性化解码空间。

二)动态构建：在说话人使用系统时，系统根据辅助识别系统(人脸识别，声纹识别，虹膜识别等等)识别出说话人身份信息，然后利用该身份信息从相关网络中获取相关知识源，在实现时可以通过以下步骤实现：

步骤11，在获得说话人身份后，向相关部门申请资源获取权限，在因特网(Internet)检索该说话人的所有语音和文本信息。

这里，语音和文本信息包括但不限于是：语音消息、通话记录、短信、论坛贴吧、微博博客、新闻评论、论文、演讲稿。其中语音文件尤为重要，应当重点搜索。

步骤12，对获取到的信息进行筛选整理，筛去其转发或引用的部分，保留话者自己创造的内容。

步骤13，对系统中所有说话人的语音文本信息，会按照兴趣爱好、职业、地域、年龄、性别等社交属性进行分类，方便无身份话者根据属性相似度来归类。

步骤14，根据说话人的语音信息和基准通用声学模型生成说话人个性化的声学模型。

说话人的语音信息，用于基准通用声学模型针对说话人的自适应，生成说话人个性化的声学模型，用于个性化的发音词典校正。

步骤15，根据说话人的文本信息和基准通用语言模型生成说话人个性化的语言模型。

说话人的文本信息，用于基准通用语言模型的自适应，生成说话人个性化的语言模型。

步骤16，基于说话人个性化的声学模型，个性化的语言模型，个性化的发音词典可以构建出针对说话人的用于语音识别解码引擎的个性化解码网络。

个性化解码网络的构建，可以基于任一个、两个或三个个性化模型和通用模型的任意组合生成。

在动态构建成个性化解码网络后，系统维护一个说话人身份ID和说话人个性化解码网络的映射关系。在语音识别工作时可以根据说话人身份索引到说话人相关的个性化解码网络。

流程二，增强语音识别系统识别过程，在实现时可以通过以下步骤实现：

步骤21，通过某种生物识别技术鉴别出当前说话人的真实身份。

这里，可以采用例如：声纹识别、人脸识别、虹膜识别、指纹识别等技术获取当前说话人的真实身份。若数据库中不存在此人信息，利用当前语音信息去匹配库中与其属性(典型地如兴趣爱好、职业、地域、年龄、性别等社交属性)最大相似的替代者。

步骤22，根据说话人信息找出说话人个性化的解码网络，动态装载进识别引擎，进行个性化识别。获得比传统语音识别系统更佳得识别准确率。

步骤23，如果系统中没有说话人信息，触发该说话人个性化解码网络创建过程，利于说话人的再次识别。

在本发明实施例提供的语音识别方法中，通过辅助识别技术手段，识别说话人的身份信息，根据说说人身份信息，加载适配说话人先验知识的个性化解码网络到识别引擎，从而提升语音识别系统的识别准确率。

本发明实施例还相应地提供了一种多知识源辅助增强的语音识别系统，图4为本发明实施例多知识源辅助改进后的语音识别系统框架示意图，如图4所示，与传统语音识别系统相比，本发明实施例提供的多知识源辅助增强的语音识别系统新增了两个模块：辅助识别模块401和个性化解码网络生成模块402，其中：

辅助识别模块401用于识别说话人身份信息；

个性化解码网络生成模块402，用于根据说话人身份信息，在各种信息系统(典型互联网)上爬取与该说话人相关的信息，作为先验知识，再结合基础语料创建出包含该说话人先验信息的个性化解码网络。

在本发明实施例提供的多知识源辅助增强的语音识别方法中，所述的辅助识别手段包括但不限于声纹识别、人脸识别、虹膜识别以及指纹识别等身份识别技术。所述的身份信息包括但不限于身份证号、手机号、车牌号等唯一标识。所述的先验知识包括但不仅限于当前说话人的语音、文本信息以及所属说话人分类的相似信息等。

借鉴人的这种识别方式：首先识别说话人，然后根据记忆中说话人的先验知识综合识别从而达到识别更准确这一特点。本发明实施例提供的语音识别方法通过辅助识别技术首先识别出说话人，然后比对系统中是否存有说话人的先验知识。如果有，那么装配个性化的解码网络来识别，此个性化解码网络预先基于通用的解码网络加上已采集到的针对该说话人得先验知识来构建。如果系统中没有此说话人的先验知识，那么和传统语音识别一样，用通用的解码网络来解码识别。

在本发明实施例中，构建含有说话人先验知识的个性化解码网络是提升语音识别识别率的一个重要环节。此个性化解码网络可以是多个说话人共享一个个性化解码网络，也可以是每个说话人都构建一个独有的解码网络，也可以是全部说话人共享一个个性化解码网络。此个性化解码网络可以被预先创建(系统管理员预定义说话者可能范围，系统在说话人使用前预先创建好每个待识别说话人的个性化解码网络，提高识别响应速度)，也可以动态实时创建(通过辅助识别技术识别说话者的身份，利用身份信息在各种信息系统中抽取先验知识，动态创建个性化解码网络来进行语音识别，这种方法得弊端是动态创建解码网络会增大识别延时，影响用户体验。)

当前信息电子化普及，通过话者身份可以轻松获取所属者的很多相关信息，如学术论文、演讲稿、论坛贴吧、论坛评论、聊天记录、微博、社交网络信息，甚至语音消息等等。特别是国家在颁布互联网身份实名制条令后，各大网络平台都需要验证真实身份，在获取相关权限后，得到的文本、语音信息将会更精确、充足。在这些信息中，可以通过语音来自适应声学模型，个性化发音词典，通过文本信息可以个性化说话者的语言模型，通过声学模型、语言模型、加上个性化发音词典，构建出包含该说话人先验知识的个性化解码网络，针对包含说话人先验知识的解码网络进行解码搜索，可以显著提升语音识别系统的识别率。

实施例四

基于前述的实施例，本发明实施例提供一种语音识别方法，图5为本发明实施例语音识别方法的实现流程示意图，如图5所示，所述方法包括以下步骤：

步骤S501，输入用户人脸与语音信息。

步骤S502，通过人脸识别系统，获取用户身份。

这里，在众多的生物识别技术中，人脸识别技术最为成熟，应用也最为广泛。在本发明实施例中，以人脸识别作为辅助识别技术，来确定用户身份ID。

步骤S503，判断是否能够获取用户身份对应的个性化WFST。

这里，如果能成功获取用户身份，并能够获取与用户身份对应的个性化WFST则进入步骤S504；如果能成功获取用户身份，但不能获取到用户身份对应的个性化WFST，则基于身份ID本身的属性信息，与系统中已保存的所有身份ID所对应的属性信息相比对，检索出关联度最大的身份ID，以这个ID所对应的个性化解码网络作为说话人的解码网络，语音识别解码引擎将其加载进去并进入步骤S504；如果不能成功获取用户身份，或者无法检索到相近得身份ID以获得相近的个性化解码网络，则认为不能够获取用户身份对应的个性化WFST，此时进入步骤S505。

步骤S504，根据用户ID加载个性化WFST。

这里，语音识别引擎根据说话人身份ID，在服务端检索其个性化解码网络空间，如果存在与身份ID对应的个性化解码网络，语音识别引擎会将其直接加载到解码网络中。

步骤S505，加载通用WFST。

步骤S506，从加载的WFST中检索输入语音的可能路径。

这里，WFST加载完毕后，即和传统模式一样，接收用户语音收入，进行语音解码，检索输入语音的可能路径。

步骤S507，从可能路径中确定最佳路径，根据最佳路径返回识别结果。

本发明实施例在提供一种个性化解码网络空间的创建方法，图6为本发明实施例个性化解码网络的创建方法的实现流程示意图，如图6所示，所述方法包括以下步骤：

步骤S601，在系统产品使用前，为已知用户预先建立个性化WFST。

这里，系统管理员可以人工输入待测说话人的已知文本或语音信息，系统将立即加载到个性化解码空间，节省后续信息检索时间。

步骤S602，在系统使用过程中，获取人脸信息。

步骤S603，通过人脸检测设备识别话者的身份。

这里，可以是获取话者的姓名、身份证号或手机号等身份ID。这种身份识别方式需要在终端的语音识别设备上安装辅助的人脸检测设备，需耗费一定的成本，但人脸识别效果较稳定。

步骤S604，判断是否存在与话者身份对应的WFST。

这里，如果存在与话者身份对应的WFST，进入步骤S610，如果不存在与话者身份对应的WFST，进入步骤S605。

步骤S605，根据已知身份ID，网络搜索语音文本信息。

这里，可以通过各种信息系统(包括但不仅限于政府信息系统，互联网等)爬取用户语音、文本等个性化信息。

步骤S606，判断是否能够获取到语音文本信息。

这里，如果不能获取到语音文本信息，进入步骤S607；如果能够获取到语音文本信息，进入步骤S608。

步骤S607，分析话者语音特点检索相似分类的WFST。

步骤S608，对信息按照年龄、地域、职业、兴趣爱好等属性分类，维护身份与属性信息之间的映射关系。

这里，将已爬取的先验知识按照兴趣爱好、职业、地域、年龄、性别等社交属性做一个具有优先级的分类。若后续话者身份识别后检索不到相关先验知识，根据这些分类属性匹配相应的解码空间，再根据类别权重合成自身的个性化解码空间。如此，特别针对那些网上有效资料较少的用户也能确定其对应的解码网络。

步骤S609，动态构建个性化WFST，维护身份与WFST间的映射关系。

这里，可以通过各种信息系统(包括但不仅限于政府信息系统，互联网等)爬取用户语音、文本等个性化信息。根据这些先验知识创建个性化的声学模型与语言模型，即解码网络。

步骤S610，加载个性化WFST。

在本发明实施例中，个性化解码网络创建模块重复步骤S605开始的过程，迭代更新个性化解码网络和用户属性信息。

在本发明实施例提供的语音识别方法中，在正式接收说话人语音输入并工作之前，由人脸识别系统识别出说话人身份，并且动态更新与用户最适配的模型参数，以提高语音识别系统得识别准确率。

实施例五

本发明实施例再提供一种语音识别方法，图7为本发明实施例语音识别方法的实现流程示意图，如图7所示，所述方法包括以下步骤：

步骤S701，输入用户语音信息。

这里，可以是系统接收说话人的语音。

步骤S702，利用声纹识别技术获取用户身份。

这里，在实现过程中，可以抽取一小段语音，通过声纹识别技术，识别出说话人身份ID，在服务端检索其个性化解码网络空间。

步骤S703，判断是否能够获取用户身份对应的个性化WFST。

这里，如果能成功获取用户身份，并能够获取与用户身份对应的个性化WFST则进入步骤S,704；如果能成功获取用户身份，但不能获取到用户身份对应的个性化WFST，则基于身份ID本身的属性信息，与系统中已保存的所有身份ID所对应的属性信息相比对，检索出关联度最大的身份ID，以这个ID所对应的个性化解码网络作为说话人的解码网络，语音识别解码引擎将其加载进去并进入步骤S704；如果不能成功获取用户身份，或者无法检索到相近得身份ID以获得相近的个性化解码网络，则认为不能够获取用户身份对应的个性化WFST，此时进入步骤S705。

步骤S704，根据用户ID加载个性化WFST。

步骤S705，加载通用WFST。

步骤S706，从加载的WFST中检索输入语音的可能路径。

步骤S707，从可能路径中确定最佳路径，根据最佳路径返回识别结果。

声纹识别技术是一种与语言识别技术本身很相关的识别技术，目前市场上的声纹识别已经相当成熟，它不需要额外的数据采集装置，仅通过语音识别系统的输入语音便可以鉴别出话者身份，能大大节省技术成本。

本发明实施例还提供一种个性化解码网络空间的创建方法，以声纹识别作为辅助识别技术，来构建个性化解码网络空间。图8为本发明实施例个性化解码网络空间的创建方法的实现流程示意图，如图8所示，所述方法包括以下步骤：

步骤S801，在系统产品使用前，为已知用户预先建立个性化WFST。

步骤S802，在系统使用过程中，获取语音信息。

步骤S803，通过声纹识别来检测话者的身份。

这里，可以是获取话者的姓名、身份证号或手机号等身份ID。这种身份识别方式不需要额外的设备支持，只要在服务端扩展声纹识别技术即可，实施起来较为容易。

步骤S804，判断是否存在与话者身份对应的WFST。

这里，如果存在与话者身份对应的WFST，进入步骤S810，如果不存在与话者身份对应的WFST，进入步骤S805。

步骤S805，根据已知身份ID，网络搜索语音文本信息。

步骤S806，判断是否能够获取到语音文本信息。

这里，如果不能获取到语音文本信息，进入步骤S807；如果能够获取到语音文本信息，进入步骤S808。

步骤S807，分析话者语音特点检索相似分类的WFST。

步骤S808，对信息按照年龄、地域、职业、兴趣爱好等属性分类，维护身份与属性信息之间的映射关系。

步骤S809，动态构建个性化WFST，维护身份与WFST间的映射关系。

步骤S810，加载个性化WFST。

在本发明实施例提供的语音识别方法中，在正式接收说话人语音输入并工作之前，先抽取一小段说话人语音，交由声纹识别系统识别出说话人身份，并且动态更新与用户最适配的模型参数，以提高语音识别系统的识别准确率。

实施例四

本实施例提供一种终端，图9为本发明实施例服务器的组成结构示意图，如图9所示，所述服务器900至少包括存储器901、通信总线902和处理器903，其中：

所述存储器901，配置为存储语音识别程序；

所述通信总线902，配置为实现处理器和存储器之间的连接通信；

所述处理器903，配置为执行存储器中存储的语音识别程序，以实现以下步骤：

接收客户端发送的第一语音信息；

获取所述第一语音信息对应的用户的标识信息；

如果能够获取到所述用户的标识信息对应的第一个性化解码网络，基于所述第一个性化解码网络对所述第一语音信息进行识别，得到第一识别结果；

将所述第一识别结果发送给所述客户端。

需要说明的是，以上终端实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明终端实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

对应地，本发明实施例提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行本发明其他实施例提供的语音识别方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

接收客户端发送的第一语音信息；

获取所述第一语音信息对应的用户的标识信息；

将所述第一识别结果发送给所述客户端；

其中，所述方法还包括：

如果能够获取与所述用户的标识信息对应的历史语音信息和/或文本信息，根据所述历史语音信息和通用声学模型生成个性化声学模型和/或根据所述文本信息和通用语言模型生成个性化语言模型；

将所述个性化声学模型和/或个性化语言模型加载到通用解码网络，得到第一个性化解码网络；

其中，所述方法还包括：

如果不能够获取与所述用户的标识信息对应的历史语音信息和文本信息，基于所述第一语音信息获取所述用户的第二属性信息；

如果能够获取与所述第二属性信息对应的第二个性化解码网络，基于所述第二个性化解码网络对所述第一语音信息进行识别，得到第二识别结果；

将所述第二识别结果发送给所述客户端。

2.根据权利要求1中所述的方法，其特征在于，所述获取所述语音信息对应的用户的标识信息，包括：

获取所述第一语音信息的声纹特征；

根据所述声纹特征确定所述第一语音信息对应的用户的标识信息。

3.根据权利要求1中所述的方法，其特征在于，所述获取所述第一语音信息对应的用户的标识信息，包括：

接收客户端发送的图像；

对所述图像进行人脸检测，确定所述图像中的人脸区域；

根据所述人脸区域确定所述第一语音信息对应的用户的标识信息。

4.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

根据所述第一语音信息和/或文本信息获取所述用户的第一属性信息；

建立并存储所述标识信息和所述第一属性信息的映射关系；

建立并存储所述标识信息和所述第一个性化解码网络的映射关系。

5.根据权利要求1中所述的方法，其特征在于，所述第二属性信息至少包括地域信息、年龄信息和性别信息，对应地，所述方法还包括：

判断是否能够获取与所述地域信息匹配的第三个性化解码网络集合；

如果能够获取所述第三个性化解码网络集合，判断是否能够从所述第三个性化解码网络集合中获取与所述年龄信息匹配的第四个性化解码网络集合；

如果能够获取所述第四个性化解码网络集合，判断所述第四个性化网络中是否存在与所述性别信息匹配的第五个性化网络集合；

如果所述第四个性化解码网络集合中存在与所述性别信息匹配的第五个性化解码网络集合，按照预设算法从所述第五个性化解码网络集合中获取第二个性化解码网络。

6.根据权利要求1或5中所述的方法，其特征在于，所述方法还包括：

如果不能获取到所述第二个性化解码网络，基于通用解码网络对所述语音信息进行识别，得到第三识别结果；

将所述第三识别结果发送给所述客户端。

7.一种服务器，其特征在于，所述服务器至少包括存储器、通信总线和处理器，其中：

所述存储器，配置为存储语音识别程序；

所述处理器，配置为执行存储器中存储的语音识别程序，以实现上述权利要求1至6中任一项提供的语音识别方法中的步骤。

8.一种计算机可读存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行上述权利要求1至6中任一项提供的语音识别方法中的步骤。