CN108075892B

CN108075892B - 一种语音处理的方法、装置和设备

Info

Publication number: CN108075892B
Application number: CN201610985706.7A
Authority: CN
Inventors: 万玉龙; 刘敏; 蒋丹宁
Original assignee: Banma Zhixing Network Hongkong Co Ltd
Current assignee: Banma Zhixing Network Hongkong Co Ltd
Priority date: 2016-11-09
Filing date: 2016-11-09
Publication date: 2021-07-27
Anticipated expiration: 2036-11-09
Also published as: CN108075892A

Abstract

本发明提供了一种语音处理的方法、装置和设备，其中方法包括：接收用户输入的语音指令；从所述语音指令中提取声纹特征，并根据所述声纹特征确定用户身份；依据所述用户的身份以及所述语音指令的识别结果，向所述用户提供服务。或者，接收用户输入的语音指令，并对所述语音指令进行识别；若得到具有精确需求的识别结果，依据所述语音指令，向所述用户提供服务；从所述语音指令中提取声纹特征，依据声纹特征确定所述用户的身份，并利用本次向所述用户提供的服务维护与所述用户的身份相关联的用户画像。本发明利用用户的声纹特征即可确定用户身份，并获得相应服务，无需用户在使用智能设备时频繁地切换登录用户，实现方式更加简便。

Description

一种语音处理的方法、装置和设备

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种语音处理的方法、装置和设备。

【背景技术】

现有的智能设备诸如智能手机、智能电视、智能手表等已经开始具备一些针对用户的个性化服务提供能力。但目前智能设备在针对用户提供个性化服务时，大多采用的是针对当前在智能设备上登录的用户进行的，也就是说，个性化服务的提供是基于用户身份的，但目前智能设备确定用户身份是基于登录用户的，这种方式比较适用于智能手机这种通常是单一用户使用的场景。但在诸如智能电视等使用场景下，同一智能设备往往不止一个用户在使用，同一家庭中有多个用户会使用智能电视，若采用与智能手机类似的实现方式，则需要不同用户在智能电视上切换登录，显然这种方式实现起来比较麻烦。

【发明内容】

有鉴于此，本发明提供了一种语音处理的方法、装置和设备，以便于更加简便地确定用户身份，以获得相应服务，使得不同用户在使用智能设备时不需要频繁地切换登录用户。

具体技术方案如下：

本发明提供了一种语音处理的方法，该方法包括：

接收用户输入的语音指令；

从所述语音指令中提取声纹特征，并根据所述声纹特征确定用户身份；

依据所述用户的身份以及所述语音指令的识别结果，向所述用户提供服务。

根据本发明一优选实施方式，根据所述声纹特征确定用户身份包括：

将所述声纹特征与已建立的用户声纹模型进行匹配；

依据匹配结果，确定用户的身份。

根据本发明一优选实施方式，依据所述用户的身份以及所述语音指令的识别结果，向所述用户提供服务包括：

若所述语音指令的识别结果为未满足预设质量要求的识别结果，或者，具有泛化需求的识别结果，则依据与所述用户的身份相关联的用户画像，向所述用户提供服务。

根据本发明一优选实施方式，所述依据匹配结果，确定用户的身份包括：

若已建立的用户声纹模型中存在与所述声纹特征匹配的用户声纹模型，则确定所述用户为已有用户，否则确定所述用户为新用户。

根据本发明一优选实施方式，若确定所述用户为新用户，则该方法还包括：利用所述声纹特征，针对所述用户建立用户声纹模型；

若确定所述用户为已有用户，则该方法还包括：利用所述声纹特征更新针对所述用户已建立的用户声纹模型。

根据本发明一优选实施方式，与所述用户的身份相关联的用户画像采用以下方式确定：

确定与所述声纹特征匹配的用户声纹模型所关联的用户画像；或者，

利用与所述声纹特征匹配的用户声纹模型，获取用户标识，确定该用户标识对应的用户画像。

根据本发明一优选实施方式，向所述用户提供服务包括：

向所述用户推送资源；或者，

针对所述用户设置智能设备的工作参数。

根据本发明一优选实施方式，在向所述用户提供服务时，该方法进一步包括：

根据从所述语音指令中提取的声纹特征，确定用户属性；

依据所述用户属性，向所述用户提供与所述用户属性相适应的服务。

根据本发明一优选实施方式，所述用户属性包括：年龄或性别。

根据本发明一优选实施方式，所述根据从所述语音指令中提取的声纹特征，确定用户属性包括：

将所述声纹特征与已建立的属性声纹模型进行匹配，确定与所述声纹特征匹配的用户属性。

根据本发明一优选实施方式，所述方法应用于智能电视，向所述用户提供的服务包括：向智能电视推送多媒体资源；或者，

所述方法应用于车载设备，向所述用户提供的服务包括：向所述车载设备推送多媒体资源或者设置导航参数。

本发明还提供了一种语音处理的方法，该方法包括：

接收用户输入的语音指令，并对所述语音指令进行识别；

若得到具有精确需求的识别结果，依据所述语音指令，向所述用户提供服务；

从所述语音指令中提取声纹特征，依据声纹特征确定所述用户的身份，并利用本次向所述用户提供的服务维护与所述用户的身份相关联的用户画像。

将所述声纹特征与已建立的用户声纹模型进行匹配；

依据匹配结果，确定用户的身份。

根据本发明一优选实施方式，向所述用户推送资源；或者，

针对所述用户设置智能设备的工作参数。

本发明还提供了一种确定用户身份的装置，该装置包括：

声纹提取单元，用于从用户输入的语音指令中提取声纹特征；

身份确认单元，用于根据所述声纹特征确定用户身份；

语音识别单元，用于对所述用户输入的语音指令进行识别；

服务提供单元，用于依据所述用户的身份以及所述语音指令的识别结果，向所述用户提供服务。

根据本发明一优选实施方式，所述身份确认单元，具体用于：将所述声纹特征与已建立的用户声纹模型进行匹配；依据匹配结果，确定用户的身份。

根据本发明一优选实施方式，所述服务提供单元，具体用于若所述语音指令的识别结果为未满足预设质量要求的识别结果，或者，具有泛化需求的识别结果，则依据与所述用户的身份相关联的用户画像，向所述用户提供服务。

根据本发明一优选实施方式，所述身份确认单元在依据匹配结果，确定用户的身份时，具体执行：

根据本发明一优选实施方式，该装置还包括：

模型维护单元，用于若所述身份确认单元确定所述用户为新用户，则利用所述声纹特征，针对所述用户建立用户声纹模型；若所述身份确认单元确定所述用户为已有用户，则利用所述声纹特征更新针对所述用户已建立的用户声纹模型。

根据本发明一优选实施方式，该装置还包括：

画像确定单元，用于采用以下方式确定所述用户的身份相关联的用户画像：

根据本发明一优选实施方式，所述服务提供单元向所述用户提供的服务包括：

向所述用户推送资源；或者，

针对所述用户设置智能设备的工作参数。

根据本发明一优选实施方式，该装置还包括：

属性识别单元，用于根据所述声纹提取单元提取的声纹特征，确定用户属性；

所述服务提供单元，还用于在向所述用户提供服务时，依据所述用户属性，向所述用户提供与所述用户属性相适应的服务。

根据本发明一优选实施方式，所述属性识别单元，具体用于将所述声纹特征与已建立的属性声纹模型进行匹配，确定与所述声纹特征匹配的用户属性。

根据本发明一优选实施方式，所述装置应用于智能电视，所述服务提供单元用于向智能电视推送多媒体资源；或者，

所述装置应用于车载设备，所述服务提供单元用于向所述车载设备推送多媒体资源或者设置导航参数。

本发明还提供了一种语音处理的装置，该装置包括：

语音识别单元，用于对用户输入的语音指令进行识别；

服务提供单元，用于若得到具有精确需求的识别结果，依据所述语音指令，向所述用户提供服务；

身份确认单元，用于根据所述声纹特征确定用户身份；

画像维护单元，用于利用所述服务提供单元向所述用户提供的服务维护与所述用户的身份相关联的用户画像。

根据本发明一优选实施方式，该装置还包括：

向所述用户推送资源；或者，

针对所述用户设置智能设备的工作参数。

本发明还提供了一种设备，包括：

一个或者多个处理器；

存储器；

一个或者多个程序，所述一个或者多个程序存储在所述存储器中，被所述一个或者多个处理器执行以实现如下操作：

接收用户输入的语音指令；

本发明还提供了一种设备，包括：

一个或者多个处理器；

存储器；

接收用户输入的语音指令，并对所述语音指令进行识别；

由以上技术方案可以看出，本发明利用用户的声纹特征即可确定用户身份，并获取到相应的服务，无需用户在使用智能设备时频繁地切换登录用户，实现方式更加简便。

【附图说明】

图1为本发明实施例提供的确定用户身份的方法流程图；

图2为用户声纹模型的工作原理示意图；

图3为本发明实施例提供的详细方法流程图；

图4为本发明实施例提供的维护用户画像的方法示意图；

图5为本发明实施例提供的新建用户画像的方法示意图；

图6为本发明实施例提供的更新用户画像的方法示意图；

图7为本发明实施例提供的装置结构图；

图8为本发明实施例提供的设备结构示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

本发明的语音处理方式主要基于用户身份，一种方式为：从用户输入的语音指令中提取声纹特征，根据声纹特征确定用户身份；然后依据用户身份以及语音指令的识别结果，向用户提供服务。

其中，确定出用户身份后，可以获取与用户身份相关联的用户画像，然后依据用户画像和语音指令的识别结果向用户提供服务。这种方式可以适用于语音指令的识别结果为具有泛化需求的识别结果，或者未满足预设质量要求的识别结果等情况。例如，若语音指令的识别结果为未满足预设质量要求的识别结果时，依据与用户的身份相关联的用户画像，向用户提供服务。若语音指令的识别结果为具有泛化需求的识别结果，则结合识别结果与用户身份相关联的用户画像，向用户提供服务。具体将在后续实施例中详述。

再一种方式为：对用户输入的语音指令进行识别，若得到具有精确需求的识别结果，依据该语音指令，向用户提供服务；从语音指令中提取声纹特征，依据声纹特征确定用户的身份，并利用本次向用户提供的服务维护与用户的身份相关联的用户画像。

为了方便本发明的理解，首先对基于语音指令确定用户身份的方式进行详述。图1为本发明实施例提供的确定用户身份的方法流程图，如图1所示，该方法可以包括以下步骤：

在101中，从用户输入的语音指令中提取声纹特征。

在102中，依据该声纹特征与已建立的用户声纹模型进行匹配的结果，确定用户的身份。

为了方便对本发明的理解，首先对用户声纹模型进行简单介绍。声纹是生物特征的一种，用于描述携带言语信息的声波频谱。人类语音的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹都有差异。鉴于每个人声纹特征的相对稳定性和强区分性，因此可以将声纹特征作为识别一个人的重要特征，针对每个人建立一个用户声纹模型。用户声纹模型的建立有很多种特征提取和训练方式，由于可以采用现有技术，本发明对声纹特征的提取、类型以及声纹模型的类别和训练方式并不加以限制，在此仅列举其中一种方式：

首先对某用户的语音数据序列进行预处理，去除其中的非语音信号和静默语音信号，并对语音信号进行分帧；提取每一帧语音信号的MFCC(Mel Frequency CepstrumCoefficient，梅尔频率倒谱系数)参数；利用提取的MFCC参数训练GMM(Gaussian MixtureModel，高斯混合模型)，从而得到该用户的用户声纹模型。对于待识别的语音数据，提取其声纹特征后，利用已建立的用户声纹模型就能够识别出该语音数据对应哪个用户。其原理是，对待识别的语音数据进行分帧；提取每一帧语音信号的声纹特征(MFCC)，将提取的声纹特征与所有已建立的用户声纹模型逐一进行匹配，与每个用户声纹模型都存在一个匹配分值，若与某个用户声纹模型的匹配分值满足预设要求，则将该用户声纹模型对应的用户识别为该待识别语音数据所属的用户，如图2所示。除了用户声纹模型之外，还可以结合其他模型以提高识别准确度，例如可以结合UBM(Universal Background Model，统一背景模型)。

在本步骤中，确定的用户身份可以包括新用户或者已有用户，更进一步地，若是已有用户，可以进一步确定用户标识信息。

具体地，如果已建立的用户声纹模型中存在与提取的声纹特征匹配的用户声纹模型，则确定该用户为已有用户；否则确定该用户为新用户。另外，用户声纹模型是针对各用户分别建立的，也就是说，每个已有用户都存在一个对应的用户声纹模型，因此各用户声纹模型可以分别对应一个用户标识。

如果确定出用户为新用户，那么可以针对该用户建立一个用户声纹模型，即利用用户输入的语音指令中提取的声纹特征训练用户声纹模型。如果确定出用户为已有用户，那么可以利用该用户本次输入的语音指令中提取的声纹特征更新用户声纹模型，也就是说，每一次用户输入的语音指令都会用于用户声纹模型的训练，从而使得用户声纹模型逐渐趋于精确。

图1所示方法的执行主体可以是在终端设备上；也可以由终端设备采集语音指令后上报给服务端设备(例如云端设备)，由服务端设备实现声纹特征的提取和用户身份的确定；还可以由终端设备采集语音指令并从中提取声纹特征后，将声纹特征上报给服务端设备，由服务端设备实现用户身份的确定。

通过这种方式，用户只需要在终端设备上输入语音指令，完全无需其他操作(例如登录、输入指纹、在摄像头前等待人脸采集等等)就能够自动实现用户身份的鉴别，显然非常地灵活和简便。

本发明所提供的上述身份确定的方法，其主要用途是基于用户身份向用户提供服务，下面结合具体实施例进行详细描述。图3为本发明实施例提供的详细方法流程图，如图3所示，该方法可以具体包括以下步骤：

在301中，对用户输入的语音指令进行识别。

本步骤涉及语音识别技术，可以采用现有实现方式，本发明对语音识别的方式并不加以限制。

在302中，判断是否得到具有精确需求的识别结果，如果是，执行303；否则，执行306。

本步骤中，得到具有精确需求的识别结果指的是，语音指令的识别结果符合预设的质量要求，即输入的语音指令足够清晰能够准确地进行语音识别，且识别结果是用户有对特定对象的需求。与精确需求相对应的是泛化需求，在后续会有详细描述。

在303中，依据该语音指令，向该用户提供服务。

如果用户的语音指令具有精确的需求，则直接按照用户的语音指令向用户提供服务即可。在本发明实施例中涉及的向用户提供的服务可以包括但不限于：向用户推送资源，针对用户设置智能设备的工作参数，等等，具体将在后续应用场景中举例说明。

在304中，采用图1中所示方式确定用户的身份。

在305中，依据用户的身份，维护与用户的身份相关联的用户画像。

步骤304～305与步骤303可以以任意的顺序先后执行，也可以同时执行，图3中仅是其中一种执行顺序的实施例。

本步骤的具体实现可以如图4中所示，即在401中判断用户身份，若用户为新用户，则执行402；否则执行403。在402中，建立与用户的身份相关联的用户画像。在403中，利用本次向用户提供的服务(即步骤303中向用户提供的服务)更新与该用户的身份相关联的用户画像。

具体地，若用户为新用户，如图1所示实施例中所述的，一方面会利用本次用户输入的语音指令作为训练样本，来新建用户声纹模型，另一方面，会如图4中步骤402所示的，新建与用户的身份相关联的用户画像。如图5中所示。

若用户为已有用户，则一方面会利用本次用户输入的语音指令补充入训练样本，来更新用户声纹模型，另一方面，会如图4中步骤403所示的，更新与用户的身份相关联的用户画像，例如新增标签，或者更改某标签的权重。如图6中所示。

在本发明实施例中，在确定与用户的身份相关联的画像时，可以采用但不限于以下两种实现方式：

第一种方式：将用户声纹模型与用户画像直接关联，即预先建立用户声纹模型与用户画像之间的一一对应关系。当找到与声纹模型匹配的用户声纹模型后，就可以直接确定该用户声纹模型所关联的用户画像。

第二种方式：依据用户声纹模型可以确定用户标识，根据预先建立的用户标识与用户画像之间的对应关系可以确定出该用户标识对应的用户画像。其中用户标识可以是一组数字构成的编号，也可以是其他形式，只要能唯一标识一个用户即可。

用户画像又称用户角色，是一个已有概念，其是一种勾画目标用户、联系用户需求的有效工具，在各个领域都得到了广泛应用。用户画像建立在用户数据之上，这些用户数据可以包括诸如用户年龄、家庭状况、性别、收入、工作等基本属性，也可以包括基于用户行为数据获得的一些标签，这些标签体现了用户诸如用户偏好、场景、技能、人生态度等等，在本发明中重点使用的是其中的用户偏好信息。

继续参见图3，在306中，利用图1所示方式确定用户的身份。

在307中，依据与该用户的身份相关联的用户画像，向用户提供服务。

在本步骤中主要存在两种情况：

第一种情况是，得到的识别结果不满足预设的质量要求，即用户输入的语音指令非常模糊，并不清晰，这种情况下，很难获知用户意图，因此有与用户的身份相关联的用户画像，向用户提供服务。例如当用户向智能电视输入一段语音指令，但该语音指令非常模糊，无法清晰获知具体是什么指令。但语音指令模糊通常不会影响声纹识别，因此还是可以确定用户身份的，假设获知了该用户的身份后，查询与该用户的身份相关联的用户画像，得知该用户很喜欢看综艺节目，那么就可以向该用户推荐综艺类的节目信息。

第二种情况：得到具有泛化需求的识别结果，即用户的需求不是特别明确。为了区分泛化需求和精确需求，举一个例子，假设用户向智能电视输入语音指令“播放大圣归来”，这个就是一个明确的需求，用户想要播放的是一个特定的视频资源；假设用户向智能电视输入语音指令“播放电影”，这就可以看做是一个泛化需求，用户想要播放一个电影，但并不是一个特定的视频资源。需要说明的是，对于泛化需求和精确需求的区分粒度，可以根据实际需求进行设置。

对于这种情况，在向用户提供服务时，可以依据与该用户的身份相关联的用户画像，向用户提供该语音指令所对应需求的服务。还以用户向智能电视输入语音指令“播放电影”为例，通过确定用户身份以及定位用户画像后，得知该用户非常偏爱动画电影，那么就可以向用户推荐动画类电影资源。

另外，在向用户提供服务时，除了考虑用户偏好信息之外，还可以进一步考虑用户属性。从语音指令中提取的声纹特征，还可以进一步确定诸如年龄、性别等用户属性，基于这些用户属性也可以向用户提供有针对性的服务，即可以依据用户属性，向用户提供与其用户属性相适应的服务。其实现方式可以是，在确定向用户提供的服务时，综合考虑用户偏好信息和用户属性，从而确定向用户提供的服务；也可以在基于用户偏好信息确定向用户提供的服务后，再从中过滤掉与该用户属性不相适应的服务。举一个例子，假设在确定用户身份后，向用户推荐的是动画电影，但从用户声纹特征确定出该用户是个儿童，那么就可以将向用户推荐的动画电影中涉及少儿不宜内容的电影过滤掉。

其中，在利用用户声纹特征确定用户属性时，用到了另外一种声纹模型，即属性声纹模型，可以将提取的声纹体征与已建立的属性声纹模型进行匹配，确定与该声纹特征匹配的用户属性。在此对属性声纹特征进行简单描述，所谓属性声纹特征是利用声纹特征来识别用户属性的，其训练数据与用户声纹模型不同，用户声纹模型是利用已知用户的声纹特征训练得到的，属性声纹特征是利用大规模的已知用户属性的声纹特征训练得到的。例如，采集各年龄用户对应的声纹特征，然后训练分类模型，就可以得到能够识别用户年龄的声纹模型。采集不同性别的用户对应的声纹特征，然后训练分类模型，就可以得到能够识别用户性别的声纹模型。

以上是针对本发明所提供方法进行的详细描述，下面结合实施例对本发明所提供的装置进行详细描述。图7为本发明实施例提供的装置结构图，如图7所示，该装置可以包括：声纹提取单元00和身份确认单元10，还可以进一步包括语音识别单元20、服务提供单元30、画像维护单元40、模型维护单元50、画像确定单元60和属性识别单元70。其中各组成单元的主要功能如下：

声纹提取单元00负责从用户输入的语音指令中提取声纹特征。

身份确认单元10负责依据声纹特征与已建立的用户声纹模型进行匹配的结果，确定用户的身份。

语音识别单元20负责对用户输入的语音指令进行识别。

若语音识别单元20得到具有精确需求的识别结果，则服务提供单元30依据语音指令，向用户提供服务。

画像维护单元40负责依据用户的身份，维护与用户的身份相关联的用户画像，用户画像中可以包括服务偏好信息。

其中，若用户的身份为新用户，则画像维护单元40建立与用户的身份相关联的用户画像；若用户的身份为已有用户，则画像维护单元40利用本次向用户提供的服务更新与用户的身份相关联的用户画像。

若语音识别单元20得到未满足预设质量要求的识别结果，服务提供单元30则依据与用户的身份相关联的用户画像，向用户提供服务。这种方式实际上，服务提供单元30是依据用户的身份以及语音指令的识别结果，向用户提供服务。

若语音识别单元20得到具有泛化需求的识别结果，则服务提供单元30依据与用户的身份相关联的用户画像，向用户提供语音指令所对应需求的服务。

若已建立的用户声纹模型中存在与声纹特征匹配的用户声纹模型，则身份确认单元10确定用户为已有用户，否则确定用户为新用户。

若身份确认单元10确定用户为新用户，则模型维护单元50利用声纹特征，针对用户建立用户声纹模型；若身份确认单元10确定用户为已有用户，则模型维护单元50利用声纹特征更新针对用户已建立的用户声纹模型。

画像确定单元60可以采用但不限于以下两种方式确定用户的身份相关联的用户画像：

服务提供单元30向用户提供的服务可以包括但不限于：向用户推送资源；或者，针对用户设置智能设备的工作参数。

另外，在向用户提供服务时，除了考虑用户偏好信息之外，还可以进一步考虑用户属性。属性识别单元70负责根据声纹提取单元00提取的声纹特征，确定用户属性。服务提供单元30在向用户提供服务时，可以依据用户属性，向用户提供与用户属性相适应的服务。其中，用户属性可以包括但不限于：年龄或性别等。

其中，在利用用户声纹特征确定用户属性时，用到了另外一种声纹模型，即属性声纹模型。属性识别单元70可以将声纹特征与已建立的属性声纹模型进行匹配，确定与声纹特征匹配的用户属性。属性声纹特征是利用声纹特征来识别用户属性的，其训练数据与用户声纹模型不同，用户声纹模型是利用已知用户的声纹特征训练得到的，属性声纹特征是利用大规模的已知用户属性的声纹特征训练得到的。例如，采集各年龄用户对应的声纹特征，然后训练分类模型，就可以得到能够识别用户年龄的声纹模型。采集不同性别的用户对应的声纹特征，然后训练分类模型，就可以得到能够识别用户性别的声纹模型。

本发明实施例提供的上述方法和装置可以以设置并运行于设备中的计算机程序体现。该设备可以包括一个或多个处理器，还包括存储器和一个或多个程序，如图8中所示。其中该一个或多个程序存储于存储器中，被上述一个或多个处理器执行以实现本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行的方法流程，可以包括：

接收用户输入的语音指令；

再例如，被上述一个或多个处理器执行的方法流程，可以包括：

接收用户输入的语音指令，并对所述语音指令进行识别；

需要说明的是，上述装置中的各单元可以都设置于客户端，也可以都设置于服务端(例如云端)。也可以部分设置于客户端，部分设置于云端。

下面列举几个本发明所适用的具体应用场景：

应用场景一、

一个家庭中可能存在多个家庭成员，每个家庭成员对于视频资源的偏好并不相同，因此将本发明应用于智能电视利用不同用户的声纹特征实现针对用户的个性化视频推荐。

例如，若一个儿童对着智能电视输入语音指令“播放动画片大闹天宫”，智能电视对该语音指令进行识别，如果该指令足够清晰，经过识别后确定该语音指令具有精确需求，则智能电视直接执行该指令，为其播放动画片《大闹天宫》。并且，智能电视从该语音指令中提取声纹特征，将该声纹特征与已建立的用户声纹模型进行匹配，若不存在匹配的用户声纹模型，则针对该用户新建用户声纹模型以及与该用户身份相关联的用户画像，用户画像中记载了该用户的偏好信息，例如增加标签“动画片”并为其赋予初始权重；若存在匹配的用户声纹模型，则更新该用户声纹模型以及与该用户身份相关联的用户画像，例如在用户画像的用户偏好信息中增加标签“动画片”，若已有该标签，则增加其权重值。

若该儿童对着智能电视输入语音指令“播放电视”，智能电视对该语音指令进行识别，如果该指令不清晰，或者经过识别后确定该指令为泛化需求，则智能电视从该语音指令中提取声纹特征，将声纹特征与已建立的用户声纹模型进行匹配，若不存在匹配的用户声纹模型，可以结束流程，等待下次语音指令。若存在匹配的用户声纹模型，则确定与该用户身份相关联的用户画像，利用其中的用户偏好信息为其推荐视频信息。从该用户的用户偏好信息中发现其偏好动画片，可以为其推荐动画片相关视频资源。

另外，利用从语音指令中提取的声纹特征与属性声纹模型进行匹配后，确定该用户的属性为儿童，那么可以将为其推荐的视频资源中涉及暴力、黄色等少儿不宜的视频资源过滤掉，从而保护青少年的身心健康。

应用场景二、

对于车载设备而言，由于同一个车子的使用者可能是多个，有多个人可能使用该车载设备，因此可以将本发明应用于车载设备利用不同用户的声纹特征实现车载设备工作参数的个性化设置。

例如，当一个用户对着车载设备输入语音指令“导航回家”，进行语音识别后认为其并不是一个精确需求，即并没有明确指出目的地址，而是用了一个泛化描述词“家”，而对于不同用户的家地址可能是不同的。车载设备从该语音指令中提取声纹特征，将该声纹特征与用户声纹模型进行匹配，确定其是用户A，获取该用户A的用户画像，利用该用户画像中包含的家的地址设置导航目的地。

应用场景三、

在一个家庭中可能存在多个家庭成员，每个家庭成员对于室内温度的偏好并不相同，因此可以将本发明应用于智能空调利用不同用户的声纹特征实现针对该用户的个性化工作参数设置。

例如，当一个用户对着智能空调输入语音指令“设置温度28度”，智能空调进行语音识别后认为其是一个精确需求，则直接执行该指令，设置工作参数中温度为28度。并且，智能空调从该语音指令中提取声纹特征，将该声纹特征与已建立的用户声纹模型进行匹配，若不存在匹配的用户声纹模型，则针对该用户新建用户声纹模型以及与该用户身份相关联的用户画像，用户画像中记载了该用户的偏好信息，例如增加标签“28度”并为其赋予初始权重；若存在匹配的用户声纹模型，则更新该用户声纹模型以及与该用户身份相关联的用户画像，例如在用户画像的用户偏好信息中增加标签“28度”，若已有该标签，则增加其权重值。

若一个人对着智能空调输入语音指令“打开空调”，智能空调对该语音指令进行识别，如果该指令不清晰，或者经过识别后确定该指令为泛化需求，则智能空调从该语音指令中提取声纹特征，将声纹特征与已建立的用户声纹模型进行匹配，若不存在匹配的用户声纹模型，可以结束流程，等待下次语音指令。若存在匹配的用户声纹模型，则确定与该用户身份相关联的用户画像，利用其中的用户偏好信息为其设置工作温度。从该用户的用户偏好信息中发现其偏好最多的温度为“28度”，可以设置工作温度为28度。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音处理的方法，其特征在于，该方法包括：

接收用户输入的语音指令；

依据所述用户的身份以及所述语音指令的识别结果，向所述用户提供服务，

包括：

若所述语音指令的识别结果为未满足预设质量要求的识别结果，则依据与

所述用户的身份相关联的用户画像，向所述用户提供服务；或者，

若所述语音指令的识别结果为具有泛化需求的识别结果，则结合所述识别

结果与所述用户的身份相关联的用户画像，向所述用户提供服务；

其中，所述用户画像建立在用户数据之上，所述用户数据包括基于用户行为数据获得的标签。

2.根据权利要求 1 所述的方法，其特征在于，根据所述声纹特征确定用户身份包括：

将所述声纹特征与已建立的用户声纹模型进行匹配；

依据匹配结果，确定用户的身份。

3.根据权利要求 2 所述的方法，其特征在于，所述依据匹配结果，确定用户的身份包括：

若已建立的用户声纹模型中存在与所述声纹特征匹配的用户声纹模型，则

确定所述用户为已有用户，否则确定所述用户为新用户。

4.根据权利要求 3 所述的方法，其特征在于，若确定所述用户为新用户，

则该方法还包括：利用所述声纹特征，针对所述用户建立用户声纹模型；

若确定所述用户为已有用户，则该方法还包括：利用所述声纹特征更新针

对所述用户已建立的用户声纹模型。

5.根据权利要求 1 所述的方法，其特征在于，与所述用户的身份相关联的用户画像采用以下方式确定：

6.根据权利要求 1 所述的方法，其特征在于，向所述用户提供服务包括：

向所述用户推送资源；或者，

针对所述用户设置智能设备的工作参数。

7.根据权利要求 1 或 6 所述的方法，其特征在于，在向所述用户提供服务时，该方法进一步包括：

根据从所述语音指令中提取的声纹特征，确定用户属性；

8.根据权利要求 7 所述的方法，其特征在于，所述用户属性包括：年龄或性别。

9.根据权利要求 8 所述的方法，其特征在于，所述根据从所述语音指令中提取的声纹特征，确定用户属性包括：

10.根据权利要求 1 或 6 所述的方法，其特征在于，所述方法应用于智能电视，向所述用户提供的服务包括：向智能电视推送多媒体资源；或者，

11.一种语音处理的方法，其特征在于，该方法包括：

接收用户输入的语音指令，并对所述语音指令进行识别；

若所述语音指令的识别结果为未满足预设质量要求的识别结果，则依据与所述用户的身份相关联的用户画像，向所述用户提供服务；或者，

若所述语音指令的识别结果为具有泛化需求的识别结果，则结合所述识别结果与所述用户的身份相关联的用户画像，向所述用户提供服务；

从所述语音指令中提取声纹特征，依据声纹特征确定所述用户的身份，并

利用本次向所述用户提供的服务维护与所述用户的身份相关联的用户画像。

12.根据权利要求 11 所述的方法，其特征在于，根据所述声纹特征确定用户身份包括：

将所述声纹特征与已建立的用户声纹模型进行匹配；

依据匹配结果，确定用户的身份。

13.根据权利要求 12 所述的方法，其特征在于，所述依据匹配结果，确定用户的身份包括：

14.根据权利要求 13 所述的方法，其特征在于，

若确定所述用户为新用户，则该方法还包括：利用所述声纹特征，针对所述用户建立用户声纹模型；

15.根据权利要求 11 所述的方法，其特征在于，与所述用户的身份相关联的用户画像采用以下方式确定：

16.根据权利要求 11 所述的方法，其特征在于，向所述用户推送资源；或者，

针对所述用户设置智能设备的工作参数。

17.根据权利要求 11 或 16 所述的方法，其特征在于，所述方法应用于智能电视，向所述用户提供的服务包括：向智能电视推送多媒体资源；或者，

18.一种确定用户身份的装置，其特征在于，该装置包括：

身份确认单元，用于根据所述声纹特征确定用户身份；

语音识别单元，用于对所述用户输入的语音指令进行识别；

服务提供单元，用于依据所述用户的身份以及所述语音指令的识别结果，向所述用户提供服务；

所述服务提供单元，具体用于若所述语音指令的识别结果为未满足预设质量要求的识别结果，则依据与所述用户的身份相关联的用户画像，向所述用户提供服务；或者，

19.根据权利要求 18 所述的装置，其特征在于，所述身份确认单元，具体用于：将所述声纹特征与已建立的用户声纹模型进行匹配；依据匹配结果，确定用户的身份。

20.根据权利要求 19 所述的装置，其特征在于，所述身份确认单元在依据匹配结果，确定用户的身份时，具体执行：

21.根据权利要求 20 所述的装置，其特征在于，该装置还包括：

22.根据权利要求 18 所述的装置，其特征在于，该装置还包括：

23.根据权利要求 18 所述的装置，其特征在于，所述服务提供单元向所述用户提供的服务包括：

向所述用户推送资源；或者，

针对所述用户设置智能设备的工作参数。

24.根据权利要求 18 或 23 所述的装置，其特征在于，该装置还包括：

25.根据权利要求 24 所述的装置，其特征在于，所述用户属性包括：年龄或性别。

26.根据权利要求 25 所述的装置，其特征在于，所述属性识别单元，具体用于将所述声纹特征与已建立的属性声纹模型进行匹配，确定与所述声纹特征匹配的用户属性。

27.根据权利要求 18 或 23 所述的装置，其特征在于，所述装置应用于智能电视，所述服务提供单元用于向智能电视推送多媒体资源；或者，

28.一种语音处理的装置，其特征在于，该装置包括：

语音识别单元，用于对用户输入的语音指令进行识别；

服务提供单元，用于若得到具有精确需求的识别结果，依据所述语音指令，向所述用户提供服务；若所述语音指令的识别结果为未满足预设质量要求的识别结果，则依据与所述用户的身份相关联的用户画像，向所述用户提供服务；或者，

若所述语音指令的识别结果为具有泛化需求的识别结果，则结合所述识别结果与所述用户的身份相关联的用户画像，向所述用户提供服务，其中，所述用户画像建立在用户数据之上，所述用户数据包括基于用户行为数据获得的标签；

身份确认单元，用于根据所述声纹特征确定用户身份；

29.根据权利要求 28 所述的装置，其特征在于，所述身份确认单元，具体用于：将所述声纹特征与已建立的用户声纹模型进行匹配；依据匹配结果，确定用户的身份。

30.根据权利要求 28 所述的装置，其特征在于，所述身份确认单元在依据匹配结果，确定用户的身份时，具体执行：

31.根据权利要求 30 所述的装置，其特征在于，该装置还包括：

模型维护单元，用于若所述身份确认单元确定所述用户为新用户，则利用

所述声纹特征，针对所述用户建立用户声纹模型；若所述身份确认单元确定所述用户为已有用户，则利用所述声纹特征更新针对所述用户已建立的用户声纹模型。

32.根据权利要求 28 所述的装置，其特征在于，该装置还包括：

33.根据权利要求 28 所述的装置，其特征在于，所述服务提供单元向所述用户提供的服务包括：

向所述用户推送资源；或者，

针对所述用户设置智能设备的工作参数。

34.根据权利要求 28 或 33 所述的装置，其特征在于，所述装置应用于智能电视，所述服务提供单元用于向智能电视推送多媒体资源；或者，

35.一种电子设备，包括：

一个或者多个处理器；

存储器；

一个或者多个程序，所述一个或者多个程序存储在所述存储器中，被所述

一个或者多个处理器执行以实现如下操作：

接收用户输入的语音指令；

包括：

36.一种电子设备，包括：

一个或者多个处理器；

存储器；

一个或者多个处理器执行以实现如下操作：

接收用户输入的语音指令，并对所述语音指令进行识别；

若得到具有精确需求的识别结果，依据所述语音指令，向所述用户提供服

务；

从所述语音指令中提取声纹特征，依据声纹特征确定所述用户的身份，并利用本次向所述用户提供的服务维护与所述用户的身份相关联的用户画像；