CN110364146A

CN110364146A - 语音识别方法、装置、语音识别设备及存储介质

Info

Publication number: CN110364146A
Application number: CN201910794216.2A
Authority: CN
Inventors: 李东明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-10-22
Anticipated expiration: 2039-08-23
Also published as: CN110364146B

Abstract

本发明实施例公开了一种语音识别方法、装置、语音识别设备及介质，其中方法包括：获取待识别的目标用户的语音数据；获取所述目标用户的用户画像，所述用户画像包括多个属性标签，每个属性标签对应一个标签加强模型，所述标签加强模型用于进行语音识别处理；分别调用各个属性标签所对应的标签加强模型对所述语音数据进行语音识别处理，得到多个语音识别结果；从所述多个语音识别结果筛选得到所述目标用户的目标语音识别结果。本发明实施例可以更好地进行语音识别，提高目标语音识别结果的准确性。

Description

语音识别方法、装置、语音识别设备及存储介质

技术领域

本发明涉及互联网技术领域，具体涉及语音识别技术领域，尤其涉及一种语音识别方法、一种语音识别装置、一种语音识别设备及一种计算机存储介质。

背景技术

随着科学技术的发展，越来越多的智能设备出现在用户的日常生活中，这些智能设备通常支持人机交互的功能；所谓的人机交互(Human–Computer Interaction，HCI)是指人与智能设备之间使用某种对话语言，以一定的交互方式确定人与智能设备之间的信息交换过程。研究表明，让智能设备能听、能看、能说、能感觉，是未来人机交互的重要发展方向；其中，语音成为未来最被看好的人机交互方式之一。因此，如何更好地进行语音识别处理成为了研究热点。

发明内容

本发明实施例提供了一种语音识别方法、装置、语音识别设备及计算机存储介质，可以更好地进行语音识别，提高目标语音识别结果的准确性。

一方面，本发明实施例提供了一种语音识别方法，该语音识别方法包括：

获取待识别的目标用户的语音数据；

获取所述目标用户的用户画像，所述用户画像包括多个属性标签，每个属性标签对应一个标签加强模型，所述标签加强模型用于进行语音识别处理；

分别调用各个属性标签所对应的标签加强模型对所述语音数据进行语音识别处理，得到多个语音识别结果；

从所述多个语音识别结果筛选得到所述目标用户的目标语音识别结果。

另一方面，本发明实施例提供了一种语音识别装置，该语音识别装置包括：

获取单元，用于获取待识别的目标用户的语音数据；

所述获取单元，用于获取所述目标用户的用户画像，所述用户画像包括多个属性标签，每个属性标签对应一个标签加强模型，所述标签加强模型用于进行语音识别处理；

识别单元，用于分别调用各个属性标签所对应的标签加强模型对所述语音数据进行语音识别处理，得到多个语音识别结果；

处理单元，用于从所述多个语音识别结果筛选得到所述目标用户的目标语音识别结果。

再一方面，本发明实施例提供了一种语音识别设备，所述语音识别设备包括输入接口和输出接口，所述语音识别设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

获取待识别的目标用户的语音数据；

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

获取待识别的目标用户的语音数据；

本发明实施例在获取到目标用户的语音数据之后，还可获取目标用户的用户画像，该用户画像包括多个属性标签；其次，可分别调用各个属性标签所对应的标签加强模型对语音数据进行语音识别处理，得到多个语音识别结果；然后，可从多个语音识别结果中筛选得到目标用户的目标语音识别结果。在上述语音识别的过程中，通过用户画像的属性标签来选择相应的标签加强模型进行语音识别处理，可以使得各个语音识别结果偏向于目标用户的用户画像，在一定程度上可有效提高目标语音识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种语音识别系统的架构图；

图1b是本发明实施例提供的另一种语音识别系统的架构图；

图1c是本发明实施例提供的一种语音识别方案的示意图；

图1d是本发明实施例提供的一种行为数据上报的流程示意图；

图1e是本发明实施例提供的一种用户画像计算的流程示意图；

图1f是本发明实施例提供的一种模型训练的流程示意图；

图1g是本发明实施例提供的一种语音识别处理的流程示意图；

图2是本发明实施例提供的一种语音识别方法的流程示意图；

图3是本发明实施例提供的一种语音识别方法的流程示意图；

图4a是本发明实施例提供的一种语音识别方法的应用场景图；

图4b是本发明实施例提供的另一种语音识别方法的应用场景图；

图5是本发明实施例提供的一种语音识别装置的结构示意图；

图6是本发明实施例提供的一种语音识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

随着AI(Artificial Intelligence，人工智能)技术的发展，本发明实施例基于AI技术提出了一种语音识别方案和对应的语音识别系统；所谓的AI是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。AI技术是一门综合学科，其涉及的领域较为广泛；本发明实施例所提出的语音识别方案主要涉及AI技术中的ASR(Automatic SpeechRecognition，自动语音识别技术)，ASR是一种将语音数据转换为对应的文字信息的技术。

其中，语音识别系统可至少包括语音识别设备、以及N个用户所对应的数据上报装置和语音接收装置；N的取值为正整数。此处的语音识别设备可用于执行本发明实施例所提出的语音识别方案，其具体是指能够对用户的语音数据进行语音识别处理以得到文本数据的设备；语音识别设备可以为以下任一种设备：智能电视、智能音箱、智能手机、智能手表/手环、语音机器人、拾音设备等具有语音识别功能的智能终端；以及具有数据处理能力的服务器。该数据上报装置是指能够搜集用户的行为数据，并将搜集到的行为数据上报至语音识别设备的装置；该数据上报装置可以包括但不限于：智能电视、智能音箱、智能手机等可通过内设的通信接口和语音识别设备进行数据交互的设备，以及具有数据搜集功能的应用程序(APP)，例如视频APP、即时通讯APP、音乐APP、浏览器APP，等等。语音接收装置是指能够接收用户的语音数据，并将接收到的语音数据发送至语音识别设备的装置，该语音接收装置可以包括但不限于：智能电视、智能音箱、智能手机等可通过内设的通信接口和语音识别设备进行数据交互的设备，以及具有语音接收功能的APP，例如即时通讯APP、浏览器APP，等等。

在一种实施方式中，上述所提及的语音识别系统的系统架构可以参见图1a所示；此实施方式下的数据上报装置和语音接收装置是两个相互独立的不同装置。例如，数据上报装置可以是智能音箱，而语音接收装置可以是智能电视；又如，数据上报装置可以是视频APP，而语音接收装置可以是即时通讯APP，等等。另一种实施方式中，上述所提及的语音识别系统的系统架构可以参见图1b所示；此实施方式下的数据上报装置和语音接收装置是同一个装置(即图1b中的数据处理装置)。例如，数据上报装置和语音接收装置可以是同一个智能电视；又如，数据上报装置和语音接收装置可以是同一个即时通讯APP，等等。。为便于阐述，后续均以如图1b所示的语音识别系统为例进行说明；并且，除非特别指明，后续所提及的语音识别设备均是指服务器。

在具体实现中，本发明实施例所提出的语音识别方案主要包括以下三部分：一是用户画像的离线计算；二是标签加强模型的离线训练；三是ASR在线实时识别；此处的离线是指预先处理的意思。下面将结合图1c所示的流程图，分别对该语音识别方案所包括的三部分进行阐述：

(一)用户画像的离线计算：

针对任一用户而言，用户侧的数据处理装置会定期或实时收集用户的行为数据，并将收集到的行为数据通过网络上报至语音识别设备；相应的，语音识别设备在接收到数据处理装置上报的行为数据之后，可以将该行为数据和用户的用户标识关联存储至行为数据库中，如图1d所示；此处的行为数据可以包括但不限于：用户点击多媒体(如音视频)的点击行为、在视频播放界面的停留时长(即页面曝光时长)、LBS(Location Based Service，基于移动位置服务)位置信息以及身份信息(如年龄、性别)等数据；用户标识可以包括但不限于：社交账号、身份证号、电话号码，等等。语音识别设备可提供一个独立的离线计算服务，通过该服务可以定期或实时地从行为数据库中取出该用户的全网历史行为数据，并对该全网历史行为数据进行数据分析以计算出该用户的用户画像，并按照用户画像库所规定的画像格式将计算得到的用户画像存储至用户画像库，以更新用户画像库，如图1e所示；此处的用户画像是指一种勾画用户、联系用户诉求与设计方向的有效工具，其可以包括一个或多个能够将用户形象具体化的属性标签；该属性标签可包括以下至少一个维度属性的标签：地域维度、年龄维度、性别维度、兴趣维度，等等。

需要说明的是，用户画像库中包括多个用户的用户画像，每个用户的用户画像与该用户的用户标识关联存储在用户画像库中。另外，用户的行为数据除了通过上述所提及的数据处理装置上报之外，也可通过引导用户主动上报自己的特征信息来获取并上报行为数据；例如输出调查问卷以引导用户填写自己的特征信息，从而实现行为数据的上报；此处的特征信息可包括但不限于：年龄、性别、地区、兴趣爱好，等等。

(二)标签加强模型的离线训练：

首先，可先获取用于模型训练的语料数据，并将获取到的语料数据入库到语料库中；此处的语料数据是指由音频和该音频所对应的文本所构成的数据，语料数据的获取可至少包括以下三个途径：①通过专业的标注人员对从用户侧搜集到的音频数据进行文本标注；②提取视频中的音频数据和对应的字幕文本；③通过外部购买的方式采购市场上的语料数据。其次，语音识别设备可定期或实时地从用户画像库中选取属性标签，并从语料库中获取被选取的属性标签所关联的训练数据；基于机器学习技术并采用获取到的训练数据对该被选取的属性标签所对应的初始标签模型进行训练优化，得到该被选取的属性标签对应的标签加强模型；此处的机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科；其专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。然后，可将训练好的标签加强模型和该被选取的属性标签关联存储至模型库中，从而更新该模型库，如图1f所示。

(三)ASR在线实时识别：

当用户触发语音识别功能时，数据处理装置可获取用户的语音数据以及用户标识，并将获取到的用户标识和语音数据将被发送到语音识别设备；语音识别设备则可根据用户标识到用户画像库中检索该用户所对应的用户画像。然后，可根据检索到的用户画像中的多个属性标签从模型库中选取对应的标签加强模型，并调用选取的各个标签加强模型对语音数据进行语音识别处理，得到多个语音识别结果。例如，检索到的用户画像包括3个属性标签：“四川”“男性”以及“视频”，那么从模型库中选取的标签加强模型可包括：四川口音的标签加强模型、男性的标签加强模型以及视频的标签加强模型；调用这3个标签加强模型对语音数据进行语音识别处理，可得到3个语音识别结果。在得到多个语音识别结果之后，可对这多个语音识别结果进行综合决策，得到最终的目标识别结果；语音识别设备还可将目标识别结果返回至数据处理装置，如图1g所示。

由此可见，本发明实施例所提出的语音识别方案采用了小而准的标签加强模型的训练思路，使得每个标签加强模型所需的训练数据较少，可有效提高模型训练效率，降低起始代价；并且，各个标签加强模型之间是相互独立的，每训练好一个标签加强模型便可投入使用一个；在后续进行模型优化时，也可以分别逐个对各个标签加强模型进行优化，可有效提高优化效率，降低优化代价。并且，通过用户画像的属性标签选择相应的标签加强模型进行语音识别处理，可以使得语音识别结果更加偏向于用户画像，实现在一定程度上提高语音识别的准确率，从而提高目标语音识别结果的正确概率，以及语音识别系统的应用效果。

基于上述的描述，本发明实施例提出一种语音识别方法，该语音识别方法可以由上述所提及的语音识别设备执行。请参见图2，该语音识别方法可包括以下步骤S201-S204：

S201，获取待识别的目标用户的语音数据。

由前述可知，语音识别设备可从与该语音识别设备进行通信的数据处理装置中获取目标用户的语音数据。具体实现中，当目标用户向数据处理装置输入语音数据时，数据处理装置的语音识别功能被触发；此时，数据处理装置可以获取目标用户输入的语音数据和目标用户的用户标识，并生成携带目标用户的语音数据和用户标识的语音识别请求；然后将该语音识别请求发送给语音识别设备。相应的，语音识别设备可接收数据处理装置发送的语音识别请求，并解析该语音识别请求得到目标用户的语音数据和用户标识。

S202，获取目标用户的用户画像。

在语音识别的实际应用场景中，通常会因为地域口音、性别嗓音、年龄嗓音等因素，导致大多数用户的语音数据都是非标准的语音数据，从而导致在语音识别过程中存在同音冲突问题，使得语音识别结果的准确性较低；所谓同音冲突问题是指同样的语音数据，在不同场景下所对应的语音识别结果是不一样的问题。同音冲突问题主要发生在口音和同音词两个场景中；例如，“liǔnǎi”，在含有四川口音的场景下所对应的语音识别结果应该是“牛奶”，而在标准普通话的场景下所对应的语音识别结果应该是“流奶”；又如，“láng yá”，在标准普通话的场景下所对应的语音识别结果应该是“狼牙”，而在视频播放的场景下所对应的语音识别结果应该是“琅琊”，等等。为了解决此问题，本发明实施例进行了多次研究实践；经研究表明：每个用户的用户画像通常是长期不变的，比如地域口音、性别嗓音以及兴趣偏好等；因此，本发明实施例基于用户画像长期不变的这一特点，可先获取目标用户的用户画像，然后通过用户画像中的各个属性标签来选择相应的标签加强模型对语音数据进行语音识别处理，以解决同音冲突问题，从而提高识别准确性。

在具体实现中，由于语音识别设备内的用户画像库中可包括预先计算得到的多个用户的用户画像；因此，语音识别设备通过步骤S201获取到目标用户的用户标识之后，可以根据目标用户的用户标识从用户画像库中获取该目标用户的用户画像；目标用户的用户画像可包括多个属性标签，每个属性标签对应一个标签加强模型，标签加强模型用于进行语音识别处理。需要说明的是，若用户画像库中不包括目标用户的用户画像，则语音识别设备也可实时根据目标用户的用户标识获取目标用户的行为数据，并采用聚类算法对该行为数据进行分析计算，得到目标用户的用户画像。其中，聚类算法可包括但不限于：K-Means聚类算法、均值漂移聚类算法、基于密度的聚类算法(DBSCAN)、采用高斯混合模型(GMM)的最大期望(EM)聚类算法、凝聚层次聚类算法，以及图团体检测(Graph Community Detection)算法，等等。

S203，分别调用各个属性标签所对应的标签加强模型对语音数据进行语音识别处理，得到多个语音识别结果。

在目标用户的用户画像之后，可以先根据目标用户的用户画像中的各个属性标签，从模型库中获取各个属性标签所对应的标签加强模型；然后分别调用各个属性标签所对应的标签加强模型对语音数据进行语音识别处理，得到多个语音识别结果。经实践表明：通过调用各个属性标签所对应的标签加强模型对语音数据进行语音识别处理，可使得各个语音识别结果往目标用户的用户画像侧加强，从而能够在一定程度上有效解决因地域口音、性别嗓音、年龄音调以及同音词等因素所导致的同音冲突问题，进而可有效提高各个语音识别结果的准确性。例如，设目标用户的语音数据包括“liǔnǎi”；若目标用户的用户画像中包括“四川”的属性标签，则可从模型库中获取四川口音的标签加强模型，并调用四川口音的标签加强模型对该语音数据进行语音识别处理；在语音识别处理过程中，四川口音的标签加强模型会倾向于将语音数据识别为“牛奶”，而不是“流奶”，从而得到语音识别结果为“牛奶”；又如，设目标用户的语音数据包括“láng yá”；若目标用户的用户画像中包括“视频”的属性标签，则可获取视频的标签加强模型，并调用视频的标签加强模型对该语音数据进行语音识别处理；在语音识别处理过程中，视频的标签加强模型会倾向于将语音数据识别为“琅琊”，而不是“狼牙”，从而得到语音识别结果为“琅琊”。

S204，从多个语音识别结果筛选得到目标用户的目标语音识别结果。

在得到多个语音识别结果之后，可以对多个语音识别结果进行综合决策，以从多个语音识别结果筛选得到较为准确的目标语音识别结果。在具体实现中，可以先获取各个语音识别结果的准确度；然后，根据各个语音识别结果的准确度，从多个语音识别结果中选取一个语音识别结果作为目标用户的目标语音识别结果。

请参见图3，是本发明实施例提供的另一种语音识别方法的流程示意图。该语音识别方法可以由上述所提及的语音识别设备执行。如图3所示，该语音识别方法可包括以下步骤S301-S307：

S301，获取待识别的目标用户的语音数据。

S302，获取目标用户的用户画像。

此处的用户画像包括多个属性标签，每个属性标签对应一个标签加强模型，标签加强模型用于进行语音识别处理。由前述可知，可采用聚类算法对目标用户的行为数据进行分析计算，得到目标用户的用户画像；在具体实施过程中，可以具体包括以下步骤：①采用聚类算法对行为数据进行分析聚类，得到每个类别的行为数据；②获取预设的属性标签集合，该预设的属性标签集合中包括多个预设的属性标签以及各预设的属性标签所对应的特征数据；③针对任一类别的行为数据，检测预设的属性标签集合中是否存在预设的属性标签所对应的特征数据与该类别的行为数据相同，若存在，则将该预设的属性标签添加至目标用户的用户画像中。④重复执行步骤③，直至遍历完聚类得到的所有类别的行为数据，从而得到目标用户的用户画像。

S303，分别调用各个属性标签所对应的标签加强模型对语音数据进行语音识别处理，得到多个语音识别结果。

由前述可知，每个属性标签对应的标签加强模型可采用属性标签所关联的训练数据进行模型训练得到。在具体实现中，每个属性标签所对应的标签加强模型采用如下方式进行训练得到：

首先，可获取属性标签所关联的初始标签模型，此处的初始标签模型可主要分为三个部分：发音词典、声学模型和语言模型。其中，发音词典可通过人工构造的方式得到；发音词典、声学模型和语音模型均可通过深度学习的方法进行训练，其可以为RNN(RecurrentNeural Network，循环神经网络)模型和LSTM(Long Short-Term Memory，长短期记忆网络)模型。其次，可获取用于训练初始标签模型的训练数据。在一种实施方式中，训练数据可只包括属性标签对应的属性语料数据。再一种实施方式中，训练数据可包括从语料库中提取出的基础语料数据以及属性标签对应的属性语料数据，且属性语料数据的权重大于基础语料数据的权重。也就是说，训练数据中与属性标签相关的属性语料数据的权重会被加强；例如，属性标签“视频”，与该属性标签关联的初始标签模型为视频的初始标签模型，那么可以从语料库中提取基础语料数据(如一些常用句子)以及视频的属性语料数据(如一些影视剧名)，对视频的属性语料数据进行加权后和基础语料数据一起作为训练数据；采用基础语料数据和属性语料数据构成训练数据，可以使得后续模型训练得到的标签加强模型的泛化性和鲁棒性。在得到训练数据之后，可以采用训练数据对初始标签模型进行模型训练，得到标签加强模型。具体的，由于训练数据包括训练音频和训练文本；因此，可调用初始标签模型对训练音频进行语音识别处理，得到该训练音频所对应的预测文本；根据预测文本和训练文本之间的差异对初始标签模型的模型参数进行优化调整，以实现对初始标签模型的模型训练，从而得到标签加强模型。

S304，获取各个语音识别结果的准确度。

各个语音识别结果的准确度可采用分数进行表示，每个语音识别结果的分数可采用如式1.1所示的公式计算得到：

其中，S_i表示第i个语音识别结果的分数，i的取值区间为[1，n]；n表示多个语音识别结果的数量，n的取值为正整数；W_k表示第k个标签加强模型的权重值，k的取值区间为[1，n]；k的取值和i的取值可以相同，也可以不同；B_k表示第k个语音识别结果和第i个语音识别结果之间的相似度。在一种实施方式中，B_k的具体取值可参见式1.2所示：

参见式1.1可知，每个语音识别结果的准确度的获取方式类似；因此为便于阐述，本发明实施例以任一个语音识别结果为例，对步骤S304的具体实施方式进行说明。具体实现中，设多个语音识别结果包括第一识别结果，第一识别结果为多个语音识别结果中的任一语音识别结果。相应的，步骤S304的具体实施方式可以包括以下步骤s11-s14：

s11，获取第一识别结果和多个语音识别结果中的各个语音识别结果之间的相似度。

在一种实施方式中，通过直接比较第一识别结果和各个语音识别结果是否相同，根据比较结果确定相似度。具体的，设多个语音识别结果包括第二识别结果，第二识别结果为多个语音识别结果中的任一语音识别结果；若第一识别结果和第二识别结果相同，则确定第一识别结果和第二识别结果之间的相似度为第一数值；若第一识别结果和第二识别结果不相同，则确定第一识别结果和第二识别结果之间的相似度为第二数值。其中，第一数值和第二数值不同，其具体取值均可根据经验值设置，例如设置第一数值为1，第二数值为0。语音识别结果可包括对语音数据进行语音识别所得到的文本，文本包括多个字符；第一识别结果包括第一文本，第二识别结果包括第二文本；相应的，第一识别结果和第二识别结果相同是指：第一文本所包括的第一字符的字符数量和第二文本所包括的第二字符的字符数量相同，且同一字符位置处的第一字符和第二字符相同。

例如，设第一识别结果为“我想喝牛奶”；若第二识别结果为“我喝流奶”，则由于第一识别结果包括5个第一字符，第二识别结果包括4个第二字符，第一字符的字符数量和第二字符的字符数量不同，因此第一识别结果和第二识别结果不相同。又若第二识别结果为“我想喝流奶”，则由于第4个字符位置处的第一字符“牛”和第二字符“流”不相同，因此第一识别结果和第二识别结果不相同。再若第二识别结果为“我想喝牛奶”，则由于第一识别结果包括的第一字符的字符数量和第二识别结果包括的第二字符的字符数量相同，且同一字符位置处的第一字符和第二字符也相同，因此第一识别结果和第二识别结果相同。

再一种实施方式中，可以采用相似度算法计算第一识别结果和各个语音识别结果之间的相似度，此处的相似度算法可以包括但不限于：余弦相似度算法、词移距离算法、编辑距离算法、简单共有词算法，等等。其中，编辑距离算法是一种通过计算两个文本之间，由一个文本转成另一个文本所需的最少编辑操作次数来评估相似度的算法；编辑操作包括将字符替换、字符插入以及字符删除等操作；编辑距离越小，两个文本的相似度越大。简单共有词算法是一种通过计算两个文本共有的词的总字符数除以最长文本字符数来评估相似度的算法；其中，若第一识别结果所包括的第一字符的字符数量大于第二识别结果所包括的第二字符的字符数量，则最长文本字符数等于第一字符的字符数量；否则，最长文本字符数等于第二字符的字符数量。

s12，获取各个标签加强模型的权重值。

各个标签加强模型的权重值可根据实际的业务需求预先设置；例如，若业务场景为控制智能电视的场景，则可为视频的标签加强模型设置一个较大的权重值；若业务场景为对四川地区的用户进行语音识别的场景，则可为四川口音的标签加强模型设置一个较大的权重，等等。各个标签加强模型的权重值可预先和标签加强模型关联存储在模型库中；相应的，语音识别设备可以在模型库中获取各个标签加强模型的权重值。

s13，采用各个标签加强模型的权重值对第一识别结果和各个语音识别结果之间的相似度进行加权处理。

此处的加权处理是指乘积运算；具体实现中，针对任一语音识别结果和第一识别结果之间的相似度，可采用该任一语音识别结果所对应的标签加强模型的权重值对该任一语音识别结果和第一识别结果之间的相似度进行加权处理。例如，设总共有2个语音识别结果：语音识别结果1和语音识别结果2；第一识别结果和语音识别结果1之间的相似度为第一数值，第一识别结果和语音识别结果2之间的相似度为第二数值；那么，可采用语音识别结果1所对应的标签加强模型1对第一数值进行加权处理，采用语音识别结果2所对应的标签加强模型2对第二数值进行加权处理。

s14，对加权处理得到的结果进行求和，得到第一识别结果的分数。

加权处理得到的结果包括多个加权处理后的相似度，可对这多个加权处理后的相似度进行求和，得到第一识别结果的分数。重复迭代执行步骤s11-s14，可得到各个语音识别结果的准确度(分数)。

S305，根据各个语音识别结果的准确度，从多个语音识别结果中选取一个语音识别结果作为目标用户的目标语音识别结果。

在一种实施方式中，可以根据各个语音识别结果的准确度，从多个语音识别结果中选取准确度最高的语音识别结果作为目标用户的目标语音识别结果。再一种实施方式中，可以设置一个准确度阈值，通过该准确度阈值来选取目标语音识别结果；具体的，可以先根据准确度阈值从多个语音识别结果中筛选得到至少一个候选语音识别结果，每个候选语音识别结果的准确度大于准确度阈值；然后从至少一个候选语音识别结果中选取任一候选语音识别结果作为目标语音识别结果。

S306，根据目标语音识别结果确定业务指令。

S307，根据业务指令执行业务处理。

在步骤S306-S307中，可以先根据语音识别结果和预设指令之间的对应关系，根据目标语音识别结果确定业务指令。然后，可根据业务指令执行业务处理；具体的，语音识别设备可以将业务指令发送给数据处理装置，以使得数据处理装置根据该业务指令执行业务处理。

在一种实施方式中，业务处理可以是指针对智能电视的业务处理，该业务处理可包括以下至少一项：电视频道切换、电视亮度调整、电视音量调整以及影视剧搜索，等等。再一种实施方式中，业务处理可以是指针对智能手机的业务处理，该业务处理可包括以下至少一项：应用切换、拨打电话、信息查询、手机亮度调整、手机音量调整、输出目标语音识别结果(即输出语音数据对应的文本)的处理，等等。再一种实施方式中，业务处理还可以是针对智能音箱的业务处理，该业务处理可包括：音乐切换、音乐搜索、音量调整，等等。再一种实施方式中，该业务处理可以是针对语音机器人的业务处理，该业务处理可以包括：获取目标语音识别结果所对应的响应信息，并输出响应信息的处理。应理解的是，业务处理并不局限于上述所提及的处理，本发明实施例只是示例性地列举了业务处理，并非穷举。

在实际的应用场景中，可根据实际的业务需求将上述所提及的语音识别方法运用在不同的应用场景中，例如控制智能电视的应用场景、语音聊天的应用场景，等等。下面以将该语音识别方法应用在控制智能电视的应用场景下为例，对该语音识别方法的具体应用过程进行阐述；在此应用场景下，语音识别设备为服务器，数据处理装置为智能电视。

当目标用户想要通过语音控制处于工作状态的智能电视进行影视剧播放时，可以向智能电视输入语音数据“我想看动画片”；此时的智能电视可作为语音接收装置来接收目标用户输入的语音数据，然后生成并发送携带目标用户的用户标识和语音数据的语音识别请求至服务器，如图4a所示。服务器接收到语音识别请求之后，可以根据目标用户的用户标识获取目标用户的用户画像，该用户画像包括以下4个属性标签：视频、男性、儿童以及南方。其次，可获取各属性标签所对应的标签加强模型以及权重值：视频的标签加强模型(简称视频偏好模型)、男性的标签加强模型(简称男性音色模型)、儿童的标签加强模型(简称儿童音调模型)、南方的标签加强模型(简称南方口音模型)；各标签加强模型的权重值分别为：视频偏好模型：1.5、男性音色模型：1.2、儿童音调模型：1.0、南方口音模型：1.1。服务器可分别调用这4个标签加强模型对语音数据进行语音识别处理，得到的4个语音识别结果A1-A4；具体的，A1：视频偏好模型：“我想看动画片”、A2：男性音色模型：“我想看冬华篇”、A3：儿童音调模型：“我想看动画片”、A4：南方口音模型：“我想看动滑篇”。然后可分别计算得到各个语音识别结果的准确度如下：

针对语音识别结果A1：由于A1和A1相同(“我想看动画片”和“我想看动画片”相同)，因此B1＝1；由于A1和A2不同(“我想看动画片”和“我想看冬华篇”不同)，因此B2＝0；由于A1和A3相同(“我想看动画片”和“我想看动画片”相同)，因此B3＝1；由于A1和A4不同(“我想看动画片”和“我想看动滑篇”不同)，因此B4＝0；那么，可计算得到语音识别结果A1的准确度S1＝B1*W1+B2*W2+B3*W3+B4*W4＝2.6。

针对语音识别结果A2：由于A2和A1不同(“我想看冬华篇”和“我想看动画片”不同)，因此B1＝0；由于A2和A2相同(“我想看冬华篇”和“我想看冬华篇”相同)，因此B2＝1；由于A2和A3不同(“我想看冬华篇”和“我想看动画片”不同)，因此B3＝0；由于A2和A4不同(“我想看冬华篇”和“我想看动滑篇”不同)，因此B4＝0；那么，可计算得到语音识别结果A2的准确度S2＝B1*W1+B2*W2+B3*W3+B4*W4＝1.2。

针对语音识别结果A3：由于A3和A1相同(“我想看动画片”和“我想看动画片”相同)，因此B1＝1；由于A3和A2不同(“我想看动画片”和“我想看冬华篇”不同)，因此B2＝0；由于A3和A3相同(“我想看动画片”和“我想看动画片”相同)，因此B3＝1；由于A3和A4不同(“我想看动画片”和“我想看动滑篇”不同)，因此B4＝0；那么，可计算得到语音识别结果A3的准确度S3＝B1*W1+B2*W2+B3*W3+B4*W4＝2.6。

针对语音识别结果A4：由于A4和A1不同(“我想看动滑篇”和“我想看动画片”不同)，因此B1＝0；由于A4和A2不同(“我想看动滑篇”和“我想看冬华篇”不同)，因此B2＝0；由于A4和A3不同(“我想看动滑篇”和“我想看动画片”不同)，因此B3＝0；由于A4和A4相同(“我想看动滑篇”和“我想看动滑篇”相同)，因此B4＝1；那么，可计算得到语音识别结果A4的准确度S4＝B1*W1+B2*W2+B3*W3+B4*W4＝1.0。

通过各个语音识别结果的准确度可知：不同的语音识别结果的准确度一定不同，相同的语音识别结果的准确度一定相同；在得到各个语音识别结果的准确度之后，服务器可以选择准确度最高所对应的语音识别结果作为目标语音识别结果，即选取目标语音识别结果为“我想看动画片”。服务器可根据该目标语音识别结果确定业务指令为“播放动画片”的指令，并将该业务处理发送给智能电视。智能电视在接收到该业务指令之后，可以根据该业务指令进行业务处理；例如，智能电视的当前界面为频道选择界面，则可选择动画片频道并播放动画片，如图4b所示。

基于上述语音识别方法实施例的描述，本发明实施例还公开了一种语音识别装置，所述语音识别装置可以是运行于语音识别设备中的一个计算机程序(包括程序代码)。该语音识别装置可以执行图2至图3所示的方法。请参见图5，所述语音识别装置可以运行如下单元：

获取单元101，用于获取待识别的目标用户的语音数据；

所述获取单元101，用于获取所述目标用户的用户画像，所述用户画像包括多个属性标签，每个属性标签对应一个标签加强模型，所述标签加强模型用于进行语音识别处理；

识别单元102，用于分别调用各个属性标签所对应的标签加强模型对所述语音数据进行语音识别处理，得到多个语音识别结果；

处理单元103，用于从所述多个语音识别结果筛选得到所述目标用户的目标语音识别结果。

在一种实施方式中，处理单元103在用于从所述多个语音识别结果筛选得到所述目标用户的目标语音识别结果时，具体用于：获取各个语音识别结果的准确度；根据所述各个语音识别结果的准确度，从所述多个语音识别结果中选取一个语音识别结果作为所述目标用户的目标语音识别结果。

再一种实施方式中，所述准确度采用分数进行表示；所述多个语音识别结果包括第一识别结果，所述第一识别结果为所述多个语音识别结果中的任一语音识别结果；相应的，处理单元103在用于获取各个语音识别结果的准确度时，具体用于：获取所述第一识别结果和所述多个语音识别结果中的各个语音识别结果之间的相似度；获取各个标签加强模型的权重值；采用各个标签加强模型的权重值对所述第一识别结果和所述各个语音识别结果之间的相似度进行加权处理；对加权处理得到的结果进行求和，得到所述第一识别结果的分数。

再一种实施方式中，所述多个语音识别结果包括第二识别结果，所述第二识别结果为所述多个语音识别结果中的任一语音识别结果；相应的，处理单元103在用于获取所述第一识别结果和所述多个语音识别结果中的各个语音识别结果之间的相似度时，具体用于：若所述第一识别结果和所述第二识别结果相同，则确定所述第一识别结果和所述第二识别结果之间的相似度为第一数值；若所述第一识别结果和所述第二识别结果不相同，则确定所述第一识别结果和所述第二识别结果之间的相似度为第二数值。

再一种实施方式中，所述语音识别结果包括对所述语音数据进行语音识别所得到的文本，所述文本包括多个字符；第一识别结果包括第一文本，第二识别结果包括第二文本；其中，所述第一识别结果和所述第二识别结果相同是指：所述第一文本所包括的第一字符的字符数量和所述第二文本所包括的第二字符的字符数量相同，且同一字符位置处的第一字符和第二字符相同。

再一种实施方式中，处理单元103在用于根据所述各个语音识别结果的准确度，从所述多个语音识别结果中选取一个语音识别结果作为所述目标用户的目标语音识别结果时，具体用于：根据所述各个语音识别结果的准确度，从所述多个语音识别结果中选取准确度最高的语音识别结果作为所述目标用户的目标语音识别结果。

再一种实施方式中，处理单元103还可用于：根据所述目标语音识别结果确定业务指令；根据所述业务指令执行业务处理，所述业务处理包括以下至少一项：电视频道切换、电视亮度调整、电视音量调整以及影视剧搜索。

再一种实施方式中，每个属性标签对应的标签加强模型采用所述属性标签所关联的训练数据进行模型训练得到；处理单元103还可用于：采用属性标签所关联的训练数据进行模型训练，得到该属性标签对应的标签加强模型；每个属性标签所对应的标签加强模型采用如下方式进行训练得到：获取所述属性标签所关联的初始标签模型；获取用于训练所述初始标签模型的训练数据，所述训练数据包括从语料库中提取出的基础语料数据以及所述属性标签对应的属性语料数据，且所述属性语料数据的权重大于所述基础语料数据的权重；采用所述训练数据对所述初始标签模型进行模型训练，得到标签加强模型。

根据本发明的一个实施例，图2至图3所示的方法所涉及的各个步骤均可以是由图5所示的语音识别装置中的各个单元来执行的。例如，图2中所示的步骤S201和S202可以由图5中所示的获取单元101来执行，步骤S203和S204可分别由图5中所示的识别单元102和处理单元103来执行；又如，图3中所示的步骤S301和S302可以由图5中所示的获取单元101来执行，步骤S303可由图5中所示的识别单元102来执行，步骤S304-S307可由图5中所示的处理单元103来执行。根据本发明的另一个实施例，图5所示的语音识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于语音识别装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2至图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图5中所示的语音识别装置设备，以及来实现本发明实施例的语音识别方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种语音识别设备。请参见图6，该语音识别设备至少包括处理器201、输入接口202、输出接口203以及计算机存储介质204。其中，语音识别设备内的处理器201、输入接口202、输出接口203及计算机存储介质204可通过总线或其他方式连接。

计算机存储介质204可以存储在语音识别设备的存储器中，所述计算机存储介质204用于存储计算机程序，所述计算机程序包括程序指令，所述处理器201用于执行所述计算机存储介质204存储的程序指令。处理器201(或称CPU(Central Processing Unit，中央处理器))是语音识别设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器201可以用于对目标用户的语音数据进行一系列的语音识别处理，包括：获取待识别的目标用户的语音数据；获取所述目标用户的用户画像，所述用户画像包括多个属性标签，每个属性标签对应一个标签加强模型，所述标签加强模型用于进行语音识别处理；分别调用各个属性标签所对应的标签加强模型对所述语音数据进行语音识别处理，得到多个语音识别结果；从所述多个语音识别结果筛选得到所述目标用户的目标语音识别结果，等等。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是语音识别设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括语音识别设备中的内置存储介质，当然也可以包括语音识别设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了语音识别设备的操作系统。并且，在该存储空间中还存放了适于被处理器201加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器201加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关语音识别方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器201加载并执行如下步骤：

获取待识别的目标用户的语音数据；

在一种实施方式中，在从所述多个语音识别结果筛选得到所述目标用户的目标语音识别结果时，所述一条或多条指令由处理器201加载并具体执行：获取各个语音识别结果的准确度；根据所述各个语音识别结果的准确度，从所述多个语音识别结果中选取一个语音识别结果作为所述目标用户的目标语音识别结果。

再一种实施方式中，所述准确度采用分数进行表示；所述多个语音识别结果包括第一识别结果，所述第一识别结果为所述多个语音识别结果中的任一语音识别结果；相应的，在获取各个语音识别结果的准确度时，所述一条或多条指令由处理器201加载并具体执行：获取所述第一识别结果和所述多个语音识别结果中的各个语音识别结果之间的相似度；获取各个标签加强模型的权重值；采用各个标签加强模型的权重值对所述第一识别结果和所述各个语音识别结果之间的相似度进行加权处理；对加权处理得到的结果进行求和，得到所述第一识别结果的分数。

再一种实施方式中，所述多个语音识别结果包括第二识别结果，所述第二识别结果为所述多个语音识别结果中的任一语音识别结果；相应的，在获取所述第一识别结果和所述多个语音识别结果中的各个语音识别结果之间的相似度时，所述一条或多条指令由处理器201加载并具体执行：若所述第一识别结果和所述第二识别结果相同，则确定所述第一识别结果和所述第二识别结果之间的相似度为第一数值；若所述第一识别结果和所述第二识别结果不相同，则确定所述第一识别结果和所述第二识别结果之间的相似度为第二数值。

再一种实施方式中，在根据所述各个语音识别结果的准确度，从所述多个语音识别结果中选取一个语音识别结果作为所述目标用户的目标语音识别结果时，所述一条或多条指令由处理器201加载并具体执行：根据所述各个语音识别结果的准确度，从所述多个语音识别结果中选取准确度最高的语音识别结果作为所述目标用户的目标语音识别结果。

再一种实施方式中，所述一条或多条指令还可由处理器201加载并具体执行：根据所述目标语音识别结果确定业务指令；根据所述业务指令执行业务处理，所述业务处理包括以下至少一项：电视频道切换、电视亮度调整、电视音量调整以及影视剧搜索。

再一种实施方式中，每个属性标签对应的标签加强模型采用所述属性标签所关联的训练数据进行模型训练得到；所述一条或多条指令还可由处理器201加载并具体执行：采用属性标签所关联的训练数据进行模型训练，得到该属性标签对应的标签加强模型；每个属性标签所对应的标签加强模型采用如下方式进行训练得到：获取所述属性标签所关联的初始标签模型；获取用于训练所述初始标签模型的训练数据，所述训练数据包括从语料库中提取出的基础语料数据以及所述属性标签对应的属性语料数据，且所述属性语料数据的权重大于所述基础语料数据的权重；采用所述训练数据对所述初始标签模型进行模型训练，得到标签加强模型。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别的目标用户的语音数据；

2.如权利要求1所述的方法，其特征在于，所述从所述多个语音识别结果筛选得到所述目标用户的目标语音识别结果，包括：

获取各个语音识别结果的准确度；

根据所述各个语音识别结果的准确度，从所述多个语音识别结果中选取一个语音识别结果作为所述目标用户的目标语音识别结果。

3.如权利要求2所述的方法，其特征在于，所述准确度采用分数进行表示；所述多个语音识别结果包括第一识别结果，所述第一识别结果为所述多个语音识别结果中的任一语音识别结果；所述获取各个语音识别结果的准确度，包括：

获取所述第一识别结果和所述多个语音识别结果中的各个语音识别结果之间的相似度；

获取各个标签加强模型的权重值；

采用各个标签加强模型的权重值对所述第一识别结果和所述各个语音识别结果之间的相似度进行加权处理；

对加权处理得到的结果进行求和，得到所述第一识别结果的分数。

4.如权利要求3所述的方法，其特征在于，所述多个语音识别结果包括第二识别结果，所述第二识别结果为所述多个语音识别结果中的任一语音识别结果；所述获取所述第一识别结果和所述多个语音识别结果中的各个语音识别结果之间的相似度，包括：

若所述第一识别结果和所述第二识别结果相同，则确定所述第一识别结果和所述第二识别结果之间的相似度为第一数值；

若所述第一识别结果和所述第二识别结果不相同，则确定所述第一识别结果和所述第二识别结果之间的相似度为第二数值。

5.如权利要求4所述的方法，其特征在于，所述语音识别结果包括对所述语音数据进行语音识别所得到的文本，所述文本包括多个字符；第一识别结果包括第一文本，第二识别结果包括第二文本；

其中，所述第一识别结果和所述第二识别结果相同是指：所述第一文本所包括的第一字符的字符数量和所述第二文本所包括的第二字符的字符数量相同，且同一字符位置处的第一字符和第二字符相同。

6.如权利要求2所述的方法，其特征在于，所述根据所述各个语音识别结果的准确度，从所述多个语音识别结果中选取一个语音识别结果作为所述目标用户的目标语音识别结果，包括：

根据所述各个语音识别结果的准确度，从所述多个语音识别结果中选取准确度最高的语音识别结果作为所述目标用户的目标语音识别结果。

7.如权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标语音识别结果确定业务指令；

根据所述业务指令执行业务处理，所述业务处理包括以下至少一项：电视频道切换、电视亮度调整、电视音量调整以及影视剧搜索。

8.如权利要求1所述的方法，其特征在于，每个属性标签对应的标签加强模型采用所述属性标签所关联的训练数据进行模型训练得到；每个属性标签所对应的标签加强模型采用如下方式进行训练得到：

获取所述属性标签所关联的初始标签模型；

获取用于训练所述初始标签模型的训练数据，所述训练数据包括从语料库中提取出的基础语料数据以及所述属性标签对应的属性语料数据，且所述属性语料数据的权重大于所述基础语料数据的权重；

采用所述训练数据对所述初始标签模型进行模型训练，得到标签加强模型。

9.一种语音识别装置，其特征在于，包括：

获取单元，用于获取待识别的目标用户的语音数据；

10.一种语音识别设备，包括输入接口和输出接口，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-8任一项所述的语音识别方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-8任一项所述的语音识别方法。