CN115376512A

CN115376512A - 一种基于人物画像的语音识别系统及方法

Info

Publication number: CN115376512A
Application number: CN202211007502.8A
Authority: CN
Inventors: 王晨光; 张媛; 陈鹏
Original assignee: Shenzhen Changliang Intelligent Co ltd
Current assignee: Shenzhen Changliang Intelligent Co ltd
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-11-22
Anticipated expiration: 2042-08-22
Also published as: CN115376512B

Abstract

本发明提出一种基于人物画像的语音识别系统及方法，所述方法包括：获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据，并以二者构建不同场景下的人物画像，建立人物画像集；接收待识别语音数据，并从所述待识别语音数据中提取第一用户标识；根据所述第一用户标识确定所述待识别语音数据所属的第一用户和第一场景；从所述人物画像集中选择与所述第一用户、所述第一场景对应的第一人物画像；根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果。本发明通过利用人物画像对所述待识别语音数据进行识别得到第一识别结果，在提高语音识别效率的同时，也能提高语音识别的准确率。

Description

一种基于人物画像的语音识别系统及方法

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于人物画像的语音识别系统及方法。

背景技术

目前，越来越多的智能设备出现在用户的日常生活中，这些智能设备通常支持人机交互的功能。人机交互是指人与智能设备之间使用某种对话语言，以一定的交互方式确定人与智能设备之间的信息交换过程。随着计算机技术的不断发展，人机交互的方式也越来越来多样化与智能化，目前，越来越多的交互平台都采用了语音交互的方式，语音交互能提高用户的互动效率和提升趣味性，已成为一种重要的人机交互方式。但是现有的语音识别方法的准确率都不高。

发明内容

本发明正是基于上述问题，提出了一种基于人物画像的语音识别系统及方法，通过确定与第一场景对应的人物画像，并利用人物画像对所述待识别语音数据进行识别得到，在提高语音识别效率的同时，也能提高语音识别的准确率。

有鉴于此，本发明的一方面提出了一种基于人物画像的语音识别方法，包括：

获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据；

以所述人物特征数据和所述人物行为数据构建不同场景下的人物画像，建立每个用户的人物画像集；

利用书写笔接收待识别语音数据，并从所述待识别语音数据中提取第一用户标识；

根据所述第一用户标识确定所述待识别语音数据所属的第一用户；

确定所述待识别语音数据所属的第一场景；

从所述人物画像集中选择与所述第一用户、所述第一场景对应的第一人物画像；

根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果。

可选地，所述获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据的步骤，包括：

获取所述多个用户的声纹信息作为所述用户标识；

通过虚拟现实设备构建不同场景的多个虚拟游戏；

分别采集所述多个用户在多个所述虚拟游戏的参与过程中产生的人物特征数据和人物行为数据。

可选地，所述根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果的步骤之后，还包括：

利用所述书写笔与显示设备进行通信；

当所述书写笔触碰到所述显示设备时，在所述显示设备上显示所述第一识别结果；

利用所述书写笔在所述显示设备上对所述第一识别结果进行确认与修改。

可选地，所述根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果的步骤，包括：

利用语音识别算法对所述待识别语音数据进行语音识别，得到初步识别结果；

根据所述第一人物画像对所述初步识别结果中满足预设条件的关键词进行修正，得到所述第一识别结果。

可选地，所述确定所述待识别语音数据所属的第一场景的步骤，包括：

从所述待识别语音数据中提取第一属性信息；

根据所述第一属性信息确定所述第一场景；

其中，所述第一属性信息包括：所述待识别语音数据的采集工具、采集方式、采集时间、采集地点、人物数量和语义环境。

本发明的另一方面提供一种基于人物画像的语音识别系统，包括：获取模块、人物画像构建模块、书写笔、处理模块和语音识别模块；其中，

所述获取模块，用于获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据；

所述人物画像构建模块，用于以所述人物特征数据和所述人物行为数据构建不同场景下的人物画像，建立每个用户的人物画像集；

所述书写笔，用于接收待识别语音数据；

所述处理模块，用于从所述待识别语音数据中提取第一用户标识，并根据所述第一用户标识确定所述待识别语音数据所属的第一用户；

所述处理模块，还用于确定所述待识别语音数据所属的第一场景；

所述处理模块，还用于从所述人物画像集中选择与所述第一用户、所述第一场景对应的第一人物画像；

所述语音识别模块，用于根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果。

可选地，所述获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据的步骤中，所述获取模块具体用于：

获取所述多个用户的声纹信息作为所述用户标识；

通过虚拟现实设备构建不同场景的多个虚拟游戏；

可选地，还包括显示设备；

所述书写笔，还用于与所述显示设备进行通信；

所述显示设备，用于当所述书写笔触碰到所述显示设备时，显示所述第一识别结果；

所述书写笔，还用于在所述显示设备上对所述第一识别结果进行确认与修改。

可选地，所述根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果的步骤中，所述语音识别模块具体用于：

可选地，所述确定所述待识别语音数据所属的第一场景的步骤中，所述处理模块具体用于：

从所述待识别语音数据中提取第一属性信息；

根据所述第一属性信息确定所述第一场景；

采用本发明的技术方案，基于人物画像的语音识别方法包括：获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据；以所述人物特征数据和所述人物行为数据构建不同场景下的人物画像，建立每个用户的人物画像集；利用书写笔接收待识别语音数据，并从所述待识别语音数据中提取第一用户标识；根据所述第一用户标识确定所述待识别语音数据所属的第一用户；确定所述待识别语音数据所属的第一场景；从所述人物画像集中选择与所述第一用户、所述第一场景对应的第一人物画像；根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果。通过确定与第一场景对应的人物画像，并利用人物画像对所述待识别语音数据进行识别得到第一识别结果，在提高语音识别效率的同时，也能提高语音识别的准确率。

附图说明

图1是本发明一个实施例提供的基于人物画像的语音识别方法流程图；

图2本发明一个实施例提供的基于人物画像的语音识别系统的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面参照图1至图2来描述根据本发明一些实施方式提供的一种基于人物画像的语音识别系统及方法。

如图1所示，本发明一个实施例提供一种基于人物画像的语音识别方法，包括：

确定所述待识别语音数据所属的第一场景；

可以理解的是，本发明实施例提供的一种基于人物画像的语音识别方法可以应用于如智能手机、电脑、智能电视、对讲设备、机器人、门禁系统等智能终端/设备。

在本发明的实施例中，所述用户标识可以为指纹信息、人脸信息、声纹信息等中一种或几种。

所述人物特征数据包括但不限于性别、年龄、健康状态、教育程序、兴趣爱好、性格特征、婚姻状况、职业、籍贯、居住地、口音等。

所述人物行为数据包括但不限于肢体动作、面部表情、语气、站姿/坐姿等。

通过分别获取多个用户在不同场景下的人物特征数据和人物行为数据，可以根据“用户”、“场景”、“人物画像”三者间一一对应的关系建立每个用户在各个场景下的用户画像集。

在本实施例中，可以通过麦克风、录音笔或者带收音功能的其他设备(如带收音功能的智能终端书写笔、触摸笔等)获取待识别语音数据，也可以通过通信网络从服务器或其他智能终端获取待识别语音数据。再获取到所述待识别语音数据后，可以根据所述用户标识(如声纹信息)确定所述待识别语音数据是否属于所述用户。

应当说明的是，在所述待识别语音数据的原始采集过程中，同时将语音发生场景的相关信息作为所述待识别语音数据的第一属性信息进行保存，例如记录语音发生场景环境音、拍摄语音发生场景环境图像等，并以此作为第一属性信息。在接收到所述待识别语音数据后，根据所述待识别语音数据所携带的第一属性信息，可以确定所述待识别语音数据所属的第一场景，例如，待识别语音数据的第一属性信息为采集地点，在识别出采集地点为住所的情况下，再结合其他第一属性信息，如采集时间(如星期天上午10点)、人物数量(可以通过声纹特征确定)等，可以确定待识别语音数据所属的第一场景为“家人闲谈”。可以理解的是，根据实际应用场景，第一场景包括但不限于：家人闲谈、工作讨论、购物、朋友聚会等。

在确定了第一用户、第一场景后，可以根据“用户”、“场景”、“人物画像”三者间一一对应的关系，从所述人物画像集中选择与所述第一用户、所述第一场景对应的第一人物画像，再根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果。

采用本发明实施例的技术方案，所述基于人物画像的语音识别方法包括：获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据；以所述人物特征数据和所述人物行为数据构建不同场景下的人物画像，建立每个用户的人物画像集；利用书写笔接收待识别语音数据，并从所述待识别语音数据中提取第一用户标识；根据所述第一用户标识确定所述待识别语音数据所属的第一用户；确定所述待识别语音数据所属的第一场景；从所述人物画像集中选择与所述第一用户、所述第一场景对应的第一人物画像；根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果。通过确定与第一场景对应的人物画像，并利用人物画像对所述待识别语音数据进行识别得到第一识别结果，在提高语音识别效率的同时，也能提高语音识别的准确率。

在本发明一些可能的实施方式中，所述获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据的步骤，包括：

获取所述多个用户的声纹信息作为所述用户标识；

通过虚拟现实设备构建不同场景的多个虚拟游戏；

应当说明的是，为了更方便地获取用户标识及减少数据处理量，在本发明实施例中，获取所述多个用户每个人的声纹信息作为所述用户标识。

另外，为了准确、高效地获取人物特征数据和人物行为数据，通过虚拟现实设备构建不同场景的多个虚拟游戏，分别采集所述多个用户在多个所述虚拟游戏的参与过程中产生的人物特征数据和人物行为数据。具体地，可以根据用户的基本信息，如性别、年龄、健康状态、教育程序、兴趣爱好等，构建不同场景下、适合用户的且包含多个交互事件的多个虚拟游戏，在用户参与游戏的过程中，提示用户作出预设的动作和/或提示用户说出预设文字数据和/或提示用户输入预设选择数据等；全程记录用户在游戏过程中的行为动作、表情/情绪、语音、语气、生理参数等，从中提取出人物特征数据和人物行为数据。

可以理解的是，基于每一个虚拟游戏，构建的交互事件越多、覆盖的事件类型越全面，得到的交互行为数据越多，提取人物特征数据和人物行为数据就越丰富准确。

在本发明一些可能的实施方式中，所述根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果的步骤之后，还包括：

利用所述书写笔与显示设备进行通信；

可以理解的是，在本发明的实施例中，所述书写笔和所述显示设备都设置有通信模块(如蓝牙模块、WIFI模块、5G通信模块等)，通过通信模块，所述书写笔可以获取所述第一识别结果，也可以与所述显示设备进行通信。当所述书写笔触碰到所述显示设备时，将所述第一识别结果发送至所述显示设备。在所述显示设备上显示所述第一识别结果后，可以利用所述书写笔在所述显示设备上对所述第一识别结果进行确认与修改，如进行内容确认、删除、修改、保存、注释等操作。通过本实施例的方案，可以对语音识别过程中的错误进行快速修改，提高了效率和准确率。

在本发明一些可能的实施方式中，所述根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果的步骤，包括：

可以理解的是，在本发明实施例中，所述初步识别结果可以为文本信息，从所述初步识别结果中提取满足预设条件(如出现频率和/或易错频率处于预设范围)的关键词(如具有地方特色的用语、行业通用语、专业术语等)；再利用第一人物画像所含有的人物标签(如常居地、所在行业、口音特点、性别、人物关系等)，综合分析所述初步识别结果，并在存在误差时，对所述关键词进行修正，得到第一识别结果。本实施例中，利用人物画像，针对性的对所述初步识别结果进行分析，并对满足预设条件的关键词进行修正，极大地提高了识别准备率。

在本发明一些可能的实施方式中，所述确定所述待识别语音数据所属的第一场景的步骤，包括：

从所述待识别语音数据中提取第一属性信息；

根据所述第一属性信息确定所述第一场景；

可以理解的是，如前所述，在采集所述待识别语音数据的过程中，同时将语音发生场景的相关信息作为所述待识别语音数据的第一属性信息进行保存，具体是将声音数据与所述第一属性信息进行打包形成所述待识别语音数据，或者将声音数据的数据格式进行修改，增加一部分以记录所述第一属性信息形成所述待识别语音数据。从所述待识别语音数据中提取第一属性信息后，再根据所述第一属性信息可以确定所述第一场景。

其中，所述第一属性信息包括：所述待识别语音数据的采集工具(如手机、无人机、机器人、智能摄像头等)、采集方式(如通过设备直接采集、通过网络连接其他设备采集等)、采集时间(如早晨6点、上午9点等)、采集地点(如公司、公园、家、商场、医院、学校等)、人物数量和语义环境(主要包括表达、领会的前言后语和上下文)。

在本发明的实施例中，通过记录语音发生场景的相关信息，为后续语音识别多提供了一个参考维度，提高语音识别效率和准度。

在本发明的一些实施例中，对所述待识别语音数据进行语音识别，可以通过语音识别模块按照声纹不同将所述待识别语音数据进行分段，也可以按预设的时间长度将所述待识别语音数据进行分段，还可以按预设的文件大小将所述待识别语音数据进行分段，分段后的每一个语音片段按照语音发生的时间先后顺序进行排队，并利用语音识别算法按照排队序列将每个语音片段转换为对应的文本信息；将所述文本信息按时间先后顺序融合，并根据上下文进行调整，得到初步识别结果。

请参见图2，本发明的另一实施例提供一种基于人物画像的语音识别系统，包括：获取模块、人物画像构建模块、书写笔、处理模块和语音识别模块；其中，

所述书写笔，用于接收待识别语音数据；

采用本发明实施例的技术方案，所述基于人物画像的语音识别系统包括：获取模块、人物画像构建模块、书写笔、处理模块和语音识别模块；其中，所述获取模块，用于获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据；所述人物画像构建模块，用于以所述人物特征数据和所述人物行为数据构建不同场景下的人物画像，建立每个用户的人物画像集；所述书写笔，用于接收待识别语音数据；所述处理模块，用于从所述待识别语音数据中提取第一用户标识，并根据所述第一用户标识确定所述待识别语音数据所属的第一用户；所述处理模块，还用于确定所述待识别语音数据所属的第一场景；所述处理模块，还用于从所述人物画像集中选择与所述第一用户、所述第一场景对应的第一人物画像；所述语音识别模块，用于根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果。通过确定与第一场景对应的人物画像，并利用人物画像对所述待识别语音数据进行识别得到第一识别结果，在提高语音识别效率的同时，也能提高语音识别的准确率。

在本发明一些可能的实施方式中，所述获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据的步骤中，所述获取模块具体用于：

获取所述多个用户的声纹信息作为所述用户标识；

通过虚拟现实设备构建不同场景的多个虚拟游戏；

在本发明一些可能的实施方式中，还包括显示设备；

所述书写笔，还用于与所述显示设备进行通信；

在本发明一些可能的实施方式中，所述根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果的步骤中，所述语音识别模块具体用于：

在本发明一些可能的实施方式中，所述确定所述待识别语音数据所属的第一场景的步骤中，所述处理模块具体用于：

从所述待识别语音数据中提取第一属性信息；

根据所述第一属性信息确定所述第一场景；

图2为本实施例中系统的框架组成示意图。可以理解的是，图2仅仅示出了系统的简化设计。在实际应用中，系统还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出系统、处理器、控制器、存储器等，而所有可以实现本申请实施例的语音识别方法的系统都在本申请的保护范围之内。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，可轻易想到变化或替换，均可作各种更动与修改，包含上述不同功能、实施步骤的组合，包含软件和硬件的实施方式，均在本发明的保护范围。

Claims

1.一种基于人物画像的语音识别方法，其特征在于，包括：

确定所述待识别语音数据所属的第一场景；

2.根据权利要求1所述的基于人物画像的语音识别方法，其特征在于，所述获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据的步骤，包括：

获取所述多个用户的声纹信息作为所述用户标识；

通过虚拟现实设备构建不同场景的多个虚拟游戏；

3.根据权利要求2所述的基于人物画像的语音识别方法，其特征在于，所述根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果的步骤之后，还包括：

利用所述书写笔与显示设备进行通信；

4.根据权利要求3所述的基于人物画像的语音识别方法，其特征在于，所述根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果的步骤，包括：

5.根据权利要求4所述的基于人物画像的语音识别方法，其特征在于，所述确定所述待识别语音数据所属的第一场景的步骤，包括：

从所述待识别语音数据中提取第一属性信息；

根据所述第一属性信息确定所述第一场景；

6.一种基于人物画像的语音识别系统，其特征在于，包括：获取模块、人物画像构建模块、书写笔、处理模块和语音识别模块；其中，

所述书写笔，用于接收待识别语音数据；

7.根据权利要求6所述的基于人物画像的语音识别系统，其特征在于，所述获取多个用户的用户标识以及所述多个用户在不同场景下的人物特征数据和人物行为数据的步骤中，所述获取模块具体用于：

获取所述多个用户的声纹信息作为所述用户标识；

通过虚拟现实设备构建不同场景的多个虚拟游戏；

8.根据权利要求7所述的基于人物画像的语音识别系统，其特征在于，还包括显示设备；

所述书写笔，还用于与所述显示设备进行通信；

9.根据权利要求8所述的基于人物画像的语音识别系统，其特征在于，所述根据所述第一人物画像对所述待识别语音数据进行语音识别，得到第一识别结果的步骤中，所述语音识别模块具体用于：

10.根据权利要求9所述的基于人物画像的语音识别系统，其特征在于，所述确定所述待识别语音数据所属的第一场景的步骤中，所述处理模块具体用于：

从所述待识别语音数据中提取第一属性信息；

根据所述第一属性信息确定所述第一场景；