CN111554300B

CN111554300B - 音频数据处理方法、装置、存储介质及设备

Info

Publication number: CN111554300B
Application number: CN202010612049.8A
Authority: CN
Inventors: 田植良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-04-13
Anticipated expiration: 2040-06-30
Also published as: CN111554300A

Abstract

本申请实施例公开了一种音频数据处理方法、装置、存储介质以及设备，属于人工智能‑语音相关的技术领域。其中，该方法包括：获取目标用户的音频数据，以及所述目标用户的用户属性信息；确定与所述目标用户的用户属性信息匹配的参考用户音频特征，所述参考用户音频特征是对参考用户的历史音频数据进行音频特征提取得到的，所述参考用户的用户属性信息与所述目标用户的用户属性信息匹配，提取所述参考用户音频特征中的参考用户声音属性特征；根据所述参考用户声音属性特征以及所述目标用户的音频数据，生成所述目标用户的音频数据对应的文本数据。通过本申请可提高识别文本数据的准确度。

Description

音频数据处理方法、装置、存储介质及设备

技术领域

本申请涉及人工智能-语音相关的技术领域，具体涉及语音处理技术领域，尤其涉及一种音频数据处理方法、装置、存储介质及设备。

背景技术

人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，语音识别技术(也可称之为音频识别技术)是指一种将音频数据转换为相应的文本数据或操作指令的技术，被广泛应用于机器翻译、语音搜索、语音输入、语音对话、智能问答等各个领域。目前的音频识别方法主要是通过分析音频数据的内容，将音频数据转换为文本数据，实践中发现，受地域等因素的影响，存在不同用户对同一个词或词组的发音不同的情况，导致目前的语音识别方法不能准确的识别出音频数据对应的文本数据，不能达到预期的音频识别效果。

发明内容

本申请实施例所要解决的技术问题在于，提供一种音频数据处理方法、装置、存储介质及设备，能够提高识别文本数据的准确度。

本申请实施例一方面提供一种音频数据处理方法，包括：

获取目标用户的音频数据，以及上述目标用户的用户属性信息；

确定与上述目标用户的用户属性信息匹配的参考用户音频特征，上述参考用户音频特征是对参考用户的历史音频数据进行音频特征提取得到的，上述参考用户的用户属性信息与上述目标用户的用户属性信息匹配；

提取上述参考用户音频特征中的参考用户声音属性特征；根据上述参考用户声音属性特征以及上述目标用户的音频数据，生成上述目标用户的音频数据对应的文本数据。

本申请实施例一方面提供一种音频数据处理装置，包括：

获取模块，用于获取目标用户的音频数据，以及上述目标用户的用户属性信息；

确定模块，用于确定与上述目标用户的用户属性信息匹配的参考用户音频特征，上述参考用户音频特征是对参考用户的历史音频数据进行音频特征提取得到的，上述参考用户的用户属性信息与上述目标用户的用户属性信息匹配；

识别模块，用于提取上述参考用户音频特征中的参考用户声音属性特征；根据上述参考用户声音属性特征以及上述目标用户的音频数据，生成上述目标用户的音频数据对应的文本数据。

可选的，识别模块，具体用于获取目标音频识别模型；采用上述目标音频识别模型提取上述参考用户音频特征中的参考用户声音属性特征；根据上述参考用户声音属性特征以及上述目标用户的音频数据，生成上述目标用户的音频数据对应的文本数据。

可选的，上述目标音频识别模型包括感知层、特征提取层、联通层以及识别层；可选的，识别模块，具体用于：

采用上述感知层对上述参考用户音频特征进行属性特征提取，得到上述参考用户声音属性特征；

采用上述特征提取层对上述目标用户的音频数据进行音频特征提取，得到目标用户音频特征；上述目标用户音频特征包括目标用户声音属性特征，以及关注于上述音频数据的音频内容特征；

在上述联通层中，根据上述参考用户声音属性特征，对上述目标用户声音属性特征进行增强处理，得到增强处理后的声音属性特征；

采用上述识别层对增强处理后的声音属性特征以及上述音频内容特征进行识别，得到上述目标用户的音频数据对应的文本数据。

可选的，识别模块，具体用于获取上述目标用户声音属性特征的特征启始标识以及特征结束标识；

在上述联通层中，在上述特征启始标识所在的位置之前拼接上述参考用户声音属性特征，在上述特征结束标识所在的位置之后拼接上述参考用户声音属性特征，得到增强处理后的声音属性特征。

可选的，上述装置还包括：

调整模块，用于获取语言模型，以及音频识别模型，上述语言模型具有预测文本数据的能力，上述语言模型是通过样本本文数据训练得到的，上述语言模型的结构与上述音频识别模型的结构匹配；

采用上述语言模型的参数对上述音频识别模型的参数进行初始化处理；

获取样本用户的音频数据，上述样本用户的音频数据的标注文本数据，以及与上述样本用户的用户属性信息匹配的参考样本用户音频特征；

采用上述样本用户的音频数据、上述样本用户的音频数据的标注文本数据、以及上述参考样本用户音频特征对初始化后的音频识别模型进行调整；

将调整后的音频识别模型确定为上述目标音频识别模型。

可选的，调整模块，具体用于采用上述语言模型的参数，对上述音频识别模型的识别层的参数进行初始化处理，得到初始化后的音频识别模型；上述语言模型的结构与上述音频识别模型的识别层的结构相同。

可选的，调整模块，具体采用上述初始化后的音频识别模型对上述样本用户的音频数据以及上述参考样本用户音频特征进行识别，得到上述样本用户的音频数据对应的预测文本数据；

根据上述预测文本数据以及上述标注文本数据，确定上述初始化后的音频识别模型的识别损失值；

若上述识别损失值不满足收敛条件，则根据上述损失值对上述初始化后的音频识别模型进行调整，得到调整后的音频识别模型。

可选的，确定模块，具体用于获取候选用户集合，以及上述候选用户集合中的候选用户的用户属性信息；

将上述候选用户集合中用户属性信息，与上述目标用户的用户属性信息匹配的候选用户作为参考用户；

获取上述参考用户的历史音频数据，对上述参考用户的历史音频数据进行音频特征提取，得到候选用户音频特征；

对上述候选用户音频特征进行融合，得到上述参考用户音频特征。

可选的，上述候选用户的用户属性信息包括上述候选用户所属的位置，上述目标用户的用户属性信息包括上述目标用户所属的位置；

可选的，确定模块，具体用于获取上述候选用户集合中的候选用户所属的位置，与上述目标用户所属的位置之间的位置关系；

将上述候选用户集合中位置关系为从属关系或等同关系的候选用户，作为上述参考用户。

可选的，上述候选用户的用户属性信息包括上述候选用户的年龄，上述目标用户的用户属性信息包括上述目标用户的年龄；

可选的，确定模块，具体用于获取上述候选用户集合中的候选用户的年龄，与上述目标用户的年龄之间的年龄差值；

将上述候选用户集合中年龄差值小于年龄阈值的候选用户，作为上述参考用户。

可选的，确定模块，具体用于获取上述候选用户音频特征之间的相似度；

从上述候选用户音频特征中筛选出相似度大于相似度阈值的候选用户音频特征；

对筛选所得到的候选用户音频特征进行平均化处理，得到上述参考用户音频特征。

本申请一方面提供了一种计算机设备，包括：处理器及存储器；

处理器，适于实现一条或多条指令；以及，

计算机存储介质，上述计算机存储介质存储有一条或多条指令，上述一条或多条指令适于由上述处理器加载并执行如下步骤：

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有一条或多条指令，上述一条或多条指令适于由处理器加载并执行如下步骤：

本申请中，计算机设备可以获取目标用户的音频数据，以及目标用户的用户属性信息，确定与该目标用户的用户属性信息匹配的参考用户音频特征，提取该参考用户音频特征中的参考用户声音属性特征。由于参考用户的用户属性信息与目标用户的用户属性信息匹配，即参考用户声音属性特征与目标用户声音属性特征之间具有相似性，也即参考用户声音属性特征可用于描述目标用户针对音频数据的发音特征，以及文本数据的表达形式；同时，由于目标用户的音频数据所提供的信息量太少，难以根据目标用户的音频数据中获取到准确的目标用户声音属性特征。因此，可根据参考用户声音属性特征以及目标用户的音频数据，生成目标用户的音频数据对应的文本数据，通过在音频数据中引入参考用户声音属性特征，有利于体现目标用户个性化的发音特征，并体现目标用户的个性化的文本数据表达形式，提高识别文本数据的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种音频数据处理系统的架构示意图；

图2是本申请提供的一种音频数据处理系统中各个设备的交互过程的场景示意图；

图3是本申请实施例提供的一种音频数据处理方法的流程示意图；

图4是本申请提供的一种获取参考用户音频特征的场景示意图；

图5是本申请提供的一种获取参考用户音频特征的流程示意图；

图6是本申请提供的一种获取目标音频识别模型的流程示意图；

图7是本申请提供的一种调整音频识别模型的场景示意图；

图8是本申请提供的一种采用目标音频识别模型识别文本数据的场景示意图；

图9是本申请实施例提供的一种音频数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。

其中，本申请实施例提供的音频数据处理方法主要涉及人工智能-语音识别技术，该语音识别技术是指利用声纹识别算法、语音转换算法等将音频数据转换为相应的文本数据或操作指令的技术，此处音频数据可以由用户输入得到的，或者从网络中下载得到的，音频数据的语种可以包括但不限于：中文、英文、法文等等；音频数据具体可以是一个词(如一个英文单词)、一个字(如一个中文字)、多个词或词组对应的音频数据。由于不同用户的针对同一个词或词组的音频内容特征的表达形式不同，例如，例如，北京的用户针对“你好”所输出的音频数据对应的音频内容特征为：ni hao，而上海的用户针对“你好”所输出的音频数据对应的音频内容特征为：nong hao。同时，具有相同音频内容特征(即发音)的音频数据其对应的词或词组不同，例如，“文明”和“闻名”对应的音频内容特征均为wen ming，但是，职业为管理类的用户比较常用“文明”，职业为导游的用户比较常用“闻名”。不同用户针对同一含义的文本数据的表达形式也不相同，例如，年龄小于20岁的用户比较习惯使用网络语言表达文本数据，年龄大于或等于20岁的用户比较习惯使用正式语言表达文本数据；网络语言包括多个语种结合的语言(中英结合的语言)、词语缩写(如生快)等等，正式语言是指按照规范词或词组所构成的语言。如果仅根据音频数据的音频内容特征识别音频数据的文本数据，会导致识别音频数据的文本数据的准确度不高。例如，如果根据上海的用户针对“你好”的音频数据对应的音频内容特征，识别得到音频数据的文本数据为：弄好或农好等。基于此，本申请中主要通过获取与目标用户的用户属性信息匹配的参考用户音频特征，提取参考用户音频特征中的参考用户声音属性特征；由于参考用户声音属性特征可用于反映参考用户对音频数据的发音特征，参考用户的用户属性信息与目标用户的用户属性信息匹配，即目标用户的声音属性特征与参考用户的声音属性特征之间具有相似性。因此，可根据参考用户声音属性特征以及目标用户的音频数据，生成目标用户的音频数据对应的文本数据，即采用参考用户声音属性特征对目标用户的音频数据对应的目标用户声音属性特征进行增强处理，这样有利于体现目标用户对音频数据的个性化发音，进而，有利于准确地识别音频数据对应的文本数据，即有利于体现目标用户对文本数据的个性化表达方式。上述参考用户音频特征是对参考用户的音频数据进行特征提取得到的，参考用户音频特征用于描述参考用户针对的音频数据的音频内容特征以及声音属性特征，音频内容特征用于指示音频数据所包含的内容，声音属性特征用于指示参考用户针对音频数据所包括的内容的发音特征，如音色、音调以及响度等等，音调是指声音的高低，响度是指声音的强弱，音色是指声音的品质和特性。用户声音属性特征不同，对应的文本数据的表达方式也不一致，因此，用户声音属性特征还可用于反映用户的文本数据表达方式。参考用户的用户属性信息与目标用户的用户属性信息匹配，参考用户的用户属性信息包括参考用户所属的位置、参考用户的年龄、爱好、社交关系以及职业等等；目标用户的用户属性信息包括目标用户所属的位置、年龄、爱好、社交关系以及职业等等。

首先介绍用于实现本申请的音频数据处理方法的音频数据处理系统，如图1所示，该音频数据处理系统中包括服务器10、目标终端11以及至少两个参考终端12。

其中，目标终端11可以是指面向音频数据录制者的终端，即目标终端11可以是指目标用户用于录制音频数据，并将音频数据发送至服务器10；参考终端12可以是指面向参考用户的终端，即参考终端12是指参考用户用于录制音频数据的终端。服务器10可以是指处理音频数据的后端服务设备，具体可用于从目标终端11中获取目标用户的音频数据，从参考终端12中获取参考用户的音频数据，根据参考用户的音频数据以及目标用户的音频数据，生成目标用户的音频数据对应的文本数据。

其中，服务器10可以是独立的一个物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。参考终端和目标终端均可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

上述音频数据处理系统可用于社交聊天场景、会议场景、音视频教学场景等需要将音频数据转换为文本数据的场景中，如，在社交聊天应用场景中，可将用户的会话语音数据转换为文本数据；或者，在会议场景中，可将用户在会议中输出的会议语音数据转换为文本数据；或者，在音视频教学场景中，如教学内容对应的语音数据转换为文本数据。下面以社交聊天场景为例，对上述音频数据处理系统中各个设备之间的交互过程进行描述。如图2所示，当小王与小李在社交应用程序上进行聊天时，如果小王向小李发送一段会话语音数据13，此时小王所使用的终端可以称为目标终端，小王可以称为目标用户，该会话语音数据可以称为音频数据。如果检测到针对该会话语音数据13的转换指令，目标终端可以将该会话语音数据13发送至服务器，服务器可以从各个参考终端中获取参考用户的历史音频数据，对历史音频数据进行音频特征提取，得到参考用户音频特征，此处参考用户可以是指与小王之间具有社交关系(如好友关系、同事关系)的用户。从参考用户音频特征中提取参考用户声音属性特征，根据参考用户声音属性特征以及会话语音数据13，生成该会话语音数据13对应的文本数据；具体的，如根据参考用户声音属性特征反映该目标用户习惯采用中英结合的方式表达文本数据，可生成会话语音数据13对应的文本数据15，该文本数据15为“Hello，在干什么呢？”。即通过在会话语音数据引入参考用户声音属性特征，有利于体现目标用户个性化的发音特征，并体现目标用户的个性化的文本数据表达形式，提高识别文本数据的准确度。

基于上述的描述，请参见图3，是本申请实施例提供的一种音频数据处理方法的流程示意图。该方法可由计算机设备来执行，该计算机设备可以是指图1中的服务器10，如图3所示，该音频数据处理方法可以包括如下步骤S101～S103。

S101、获取目标用户的音频数据，以及该目标用户的用户属性信息。

计算机设备可以从音频应用程序上获取目标用户的音频数据，以及目标用户的用户属性信息；目标用户的音频数据可以是指目标用户在音频应用程序上所发布的音频数据(如语音数据)，音频应用程序可以是指社交应用程序、网页应用程序(如论坛、贴吧)、内容发布应用程序(如新闻应用程序)以及音乐应用程序等等。目标用户的用户属性信息包括目标用户所属的位置、年龄、爱好、社交关系以及职业等等，目标用户所属的位置可以是指目标用户的出生地、目标用户的常驻地，目标用户所在的位置可以根据目标用户在音频应用程序上发布音频数据时的定位位置确定的，或者，目标用户所属的位置是根据目标用户在音频应用程序上注册时所填写的位置确定的。目标用户的社交关系可以是根据目标用户在音频应用程序上所添加的好友、所在好友群组确定的；目标用户的年龄、职业、爱好可以根据目标用户在音频应用程序上注册时所填写的用户信息确定的。

S102、确定与该目标用户的用户属性信息匹配的参考用户音频特征，该参考用户音频特征是对参考用户的历史音频数据进行音频特征提取得到的，该参考用户的用户属性信息与该目标用户的用户属性信息匹配。

由于用户属性信息相匹配的用户之间的用户声音属性特征以及文本数据表达形式具有相似性，例如，同属于四川的用户对应的用户声音属性特征具有四川口音特征，均习惯采用四川方言表达文本数据；或者，职业均为技术工程的用户具有响度比较弱的用户声音属性特征，均习惯采用技术术语表达文本数据等等。计算机设备可以在数据库中确定与该目标用户的用户属性信息匹配的参考用户音频特征；该数据库中包括多个参考用户音频特征，该参考用户音频特征是对参考用户的历史音频数据进行音频特征提取得到的，即参考用户音频特征是对多个参考用户的历史音频数据进行音频特征提取得到的。参考用户音频特征包括参考用户内容特征以及参考用户声音属性特征，由于参考用户的用户属性信息与目标用户的用户属性信息匹配，表明参考用户与目标用户均属于同一个位置，或者，目标用户所属的位置与参考用户所属的位置属于同一个管辖地区；或者，表明参考用户与目标用户属于同一个年龄阶段；或者，表明参考用户与目标用户的职业相同或相似；或者表明参考用户与目标用户具有相似的社交关系等。因此，参考用户声音属性特征与目标用户声音属性特征之间具有相似性，参考用户声音属性特征可用于准确描述目标用户针对音频数据的发音特征，以及目标用户的文本数据的表达形式。特别的，参考用户音频特征还可以是指根据目标用户的多条历史音频数据生成的。

S103、提取该参考用户音频特征中的参考用户声音属性特征；根据该参考用户声音属性特征以及该目标用户的音频数据，生成该目标用户的音频数据对应的文本数据。

计算机设备可以从该参考用户音频特征中提取参考用户声音属性特征，根据参考用户声音属性特征以及该目标用户的音频数据，生成该目标用户的音频数据对应的文本数据；即采用该参考用户声音属性特征增强目标用户的音频数据对应的目标用户声音属性特征，根据增强后的声音属性特征以及目标用户的音频数据对应音频内容特征，生成目标用户的音频数据对应的文本数据。也就是说，根据增强后的声音属性特征确定目标用户的文本数据表达形式，根据语言表达形式以及目标用户的音频数据的音频内容特征，生成目标用户的音频数据对应的文本数据。

例如，如果目标用户的音频内容特征为nong hao，当根据声音属性特征确定目标用户具有上海口音特征，因此，确定该目标用户习惯采用上海方言表达文本数据，即该目标用户的音频数据对应的文本数据为：侬好。当根据声音属性特征确定目标用户具有北京口音特征，因此，确定该目标用户习惯采用北京方言表达文本数据，即该目标用户的音频数据对应的文本数据为：弄好。

在一个实施例中，上述步骤S102中包括如下步骤s11～s14。

s11、获取候选用户集合，以及该候选用户集合中的候选用户的用户属性信息。

s12、将该候选用户集合中用户属性信息，与该目标用户的用户属性信息匹配的候选用户作为参考用户。

s13、获取该参考用户的历史音频数据，对该参考用户的历史音频数据进行音频特征提取，得到候选用户音频特征。

s14、对该候选用户音频特征进行融合，得到该参考用户音频特征。

在步骤s11～s14中，由于具有相同或相似的用户属性信息的用户，对应的用户声音属性特征之间具有相似性；例如，具有相同职业的用户，对应的用户声音属性特征之间具有相似性，或者，同属于一个好友群组的用户(即具有相同社交关系的用户)，对应的用户声音属性特征之间具有相似性。因此，可以获取参考用户音频特征，以便采用参考用户音频特征来描述目标用户的发音特征。具体的，计算机设备可以获取候选用户集合，以及该候选用户集合中的候选用户的用户属性信息，该候选用户集合包括两个或两个以上的候选用户，候选用户可以是指与目标用户属于同一个音频应用程序的用户，或者，候选用户可以是指与目标用户属于不同音频应用程序的用户。将该候选用户集合中用户属性信息，与该目标用户的用户属性信息匹配的候选用户作为参考用户；参考用户可以是指与目标用户属于同一个地区的候选用户，或者，参考用户可以是指与目标用户具有相似社交关系，或者，参考用户可以是指与目标用户具有相同或相似职业的候选用户，或者，参考用户可以是指与目标用户的年龄相差不大的候选用户。进一步，从参考用户所属的音频应用程序中获取参考用户的历史音频数据，该历史音频数据可以是指参考用户在预设时间段内(如近一周内、一个月内)所上传至音频应用程序的音频数据，对该参考用户的历史音频数据进行音频特征提取，得到候选用户音频特征。在获取到候选用户音频特征后，可以对该候选用户音频特征进行融合，得到该参考用户音频特征，通过对候选用户音频特征进行融合，使参考用户音频特征更具有代表性以及区别性，即使参考用户音频特征更能够契合目标用户对音频数据的发音特征。

例如，如图4所示，可以采用Seq2Seq模型获取参考用户音频特征，Seq2Seq模型是指一种处理自然语言的模型，包括编码器(Encoder)和解码器(Decoder)两部分。具体的，计算机设备可以从候选用户集合中筛选出用户属性信息与目标用户的用户属性信息匹配的候选用户，作为参考用户；获取每个参考用户的历史音频数据，将每个参考用户的历史音频数据输入至编码器中，由编码器对历史音频数据进行音频特征提取，得到候选用户音频特征。对候选用户音频特征进行融合处理，得到参考用户音频特征，此处融合处理可以是指平均化处理，或者拼接处理等等。

在此实施例中，该候选用户的用户属性信息包括该候选用户所属的位置，该目标用户的用户属性信息包括该目标用户所属的位置；上述步骤s12包括如下步骤s21～s22。

s21、获取该候选用户集合中的候选用户所属的位置，与该目标用户所属的位置之间的位置关系。

s22、将该候选用户集合中位置关系为从属关系或等同关系的候选用户，作为该参考用户。

在步骤s21～s22中，与目标用户属于相同位置，或者与目标用户所属的位置均归同一个地区管辖的候选用户，和目标用户之间的声音属性特征之间具有相似性，例如，属于上海的用户具有上海口音特征，属于四川的用户具有四川口音特征。因此，可根据用户所属的位置确定参考用户；具体的，计算机设备可获取该候选用户集合中的候选用户所属的位置，与该目标用户所属的位置之间的位置关系，如果候选用户所属的位置与目标用户所属的位置之间具有从属关系，表明候选用户所属的位置与目标用户所属的位置均属于同一个地区管辖。如目标用户所属的位置为成都，候选用户所属的位置为成都的武侯区。目标用户和候选用户所输出的音频数据均具有四川口音特征，即目标用户和候选用户所输出的音频数据的声音属性特征具有相似性，因此，将该候选用户集合中位置关系为从属关系的候选用户，作为该参考用户。如果候选用户所属的位置与目标用户所属的位置之间具有等同关系，表明候选用户所属的位置与目标用户所属的位置相同。如目标用户和候选用户所属的位置均为成都，目标用户和候选用户所输出的音频数据均具有四川口音特征，即目标用户和候选用户所输出的音频数据的声音属性特征具有相似性；因此，将该候选用户集合中位置关系为等同关系的候选用户，作为该参考用户。

可选的，该候选用户的用户属性信息包括该候选用户的年龄，该目标用户的用户属性信息包括该目标用户的年龄；上述步骤s12包括如下步骤s31～s32。

s31、获取该候选用户集合中的候选用户的年龄，与该目标用户的年龄之间的年龄差值。

s32、将该候选用户集合中年龄差值小于年龄阈值的候选用户，作为该参考用户。

在步骤s31～s32中，如果候选用户与目标用户之间的年龄相近，则候选用户与目标用户之间的用户声音属性特征以及文本数据表达形式之间具有相似性；例如，年龄小于20岁的用户具有语速比较快、语调比较清脆的用户声音属性特征，均习惯采用网络语言表达文本数据；年龄大于或等于20岁的用户具有语速比较慢、语调比较粗犷的用户声音属性特征，均习惯采用正式语言表达文本数据。因此，可根据候选用户的年龄确定参考用户；具体的，计算机设备可获取该候选用户集合中的候选用户的年龄，与该目标用户的年龄之间的年龄差值，如果候选用户与目标用户之间的年龄差值大于或等于年龄阈值，表明候选用户与目标用户的年龄之间差异比较大，候选用户的声音属性特征与目标用户的声音属性特征之间差异比较大；因此，从候选用户集合中过滤掉年龄差值大于或等于年龄阈值的候选用户。如果候选用户与目标用户之间的年龄差值小于年龄阈值，表明候选用户与目标用户的年龄之间相近，候选用户的声音属性特征与目标用户的声音属性特征之间具有相似性；因此，将该候选用户集合中年龄差值小于年龄阈值的候选用户，作为该参考用户。

在此实施例中，如图5所示，上述步骤s12包括如下步骤s41～s43。

s41、获取该候选用户音频特征之间的相似度。

s42、从该候选用户音频特征中筛选出相似度大于相似度阈值的候选用户音频特征。

s43、对筛选所得到的候选用户音频特征进行平均化处理，得到该参考用户音频特征。

在步骤s41～s43中，计算机设备可以获取该候选用户音频特征之间的相似度，如果相似度大于相似度阈值，表明候选用户音频特征具有代表性。因此，从该候选用户音频特征中筛选出相似度大于相似度阈值的候选用户音频特征，对筛选所得到的候选用户音频特征进行平均化处理，得到该参考用户音频特征。通过对候选用户音频特征进行筛选，并对筛选后的候选用户音频特征进行平均化处理，使参考用户音频特征更具有代表性以及区别性，即使参考用户音频特征更能够契合目标用户对音频数据的发音特征。

在一个实施例中，如图6所示，该方法还可以包括如下步骤s51～s55。

s51、获取语言模型，以及音频识别模型，该语言模型具有预测文本数据的能力，该语言模型是通过样本本文数据训练得到的，该语言模型的结构与该音频识别模型的结构匹配。

s52、采用该语言模型的参数对该音频识别模型的参数进行初始化处理；

s53、获取样本用户的音频数据，该样本用户的音频数据的标注文本数据，以及与该样本用户的用户属性信息匹配的参考样本用户音频特征。

s54、采用该样本用户的音频数据、该样本用户的音频数据的标注文本数据、以及该参考样本用户音频特征对初始化后的音频识别模型进行调整。

s55、将调整后的音频识别模型确定为该目标音频识别模型。

在步骤s51～s55中，计算机设备可以获取语言模型，以及音频识别模型，该语言模型可以具有预测文本数据的能力，该语言模型为无监督模型，即该语言模型通过未被人工标注的样本本文数据训练得到的，该语言模型预测文本数据的准确度大于准确度阈值；该语言模型的结构与该音频识别模型的结构匹配。为了提高对音频识别模型的训练效率，可以采用该语言模型的参数对该音频识别模型的参数进行初始化处理，得到初始化后的音频识别模型，进一步，获取样本用户的音频数据，该样本用户的音频数据的标注文本数据，以及与该样本用户的用户属性信息匹配的参考样本用户音频特征，样本用户可以是指多个属于不同音频应用程序的用户，或多个同属于一个音频应用程序的用户。然后，可以采用该样本用户的音频数据、该样本用户的音频数据的标注文本数据、以及该参考样本用户音频特征对初始化后的音频识别模型进行调整，以提高音频识别模型识别文本数据的准确度。

上述音频识别模型和语言识别模型均可以是指统计语言模型或神经网络语言模型，统计语言模型可包括隐马尔可夫模型(Hidden Markov Model，HMM)、条件随机场(conditional random field,CRF)、支持向量机(Support Vector Machine，SVM)以及深度学习模型等。神经网络语言模型可包括卷积神经网络模型或循环神经网络模型。

在此实施例中，步骤s52包括：采用该语言模型的参数，对该音频识别模型的识别层的参数进行初始化处理，得到初始化后的音频识别模型；该语言模型的结构与该音频识别模型的识别层的结构相同。

该音频识别模型包括感知层、特征提取层、联通层以及识别层；感知层用于提取参考用户音频特征中的参考用户声音属性特征，特征提取层用于提取音频数据的目标用户音频特征；联通层用于对目标用户声音属性特征进行增强处理，识别层用户识别音频数据对应的文本数据。该语言模型的结构与音频识别模型的识别层的结构相同，即该语言模型的层级数量与音频识别模型的识别层的层级数量相同，该语言模型的每层与音频识别模型的识别层的每个层之间具有一一对应关系。因此，可以采用该语言模型的参数，对该音频识别模型的识别层的参数进行初始化处理，得到初始化后的音频识别模型，即可以将该语言模型的参数复制到该音频识别模型的识别层，得到初始化后的音频识别模型，有利于提高对音频识别模型训练的效率。

例如，如图7所示，计算机设备可以获取语言模型，该语言模型是采用无标注的文本数据训练得到的，即该语言模型为无监督模型，该语言模型的结构与音频识别模型的识别层的结构相同。计算机设备可以获取语言模型的参数，采用语言模型的参数对音频识别模型的识别层进行初始化处理，得到初始化后的音频识别模型；即采用语言模型的各层的参数分别对音频识别模型的识别层中对应的层进行初始化处理，得到初始化后的音频识别模型。

在此实施例中，步骤s52包括如下步骤s61～s63。

s61、采用该初始化后的音频识别模型对该样本用户的音频数据以及该参考样本用户音频特征进行识别，得到该样本用户的音频数据对应的预测文本数据。

s62、根据该预测文本数据以及该标注文本数据，确定该初始化后的音频识别模型的识别损失值。

s62、若该识别损失值不满足收敛条件，则根据该损失值对该初始化后的音频识别模型进行调整，得到调整后的音频识别模型。

在步骤s61～s63中，计算机设备可以采用该初始化后的音频识别模型对该样本用户的音频数据以及该参考样本用户音频特征进行识别，得到该样本用户的音频数据对应的预测文本数据，计算该预测文本数据以及该标注文本数据之间的差异值；该差异值越大，表明识别出的预测文本数据的准确度比较低，该差异值越低，表明识别出的预测文本数据的准确度比较高。因此，可根据该差异值确定该初始化后的音频识别模型的识别损失值，若该识别损失值不满足收敛条件，表明该音频识别模型的文本数据识别准确度比较低，则可根据该损失值对该初始化后的音频识别模型进行调整，得到调整后的音频识别模型，以提高音频识别模型的文本识别准确度。若该识别损失值满足收敛条件，表明该音频识别模型的文本数据识别准确度比较高，则可以将该音频识别模型作为目标音频识别模型。

在此实施例中，步骤S103可以包括如下步骤s71～s72。

s71、获取目标音频识别模型。

s72、采用该目标音频识别模型提取该参考用户音频特征中的参考用户声音属性特征；根据该参考用户声音属性特征以及该目标用户的音频数据，生成该目标用户的音频数据对应的文本数据。

在步骤s71～s72中，计算机设备可以获取目标音频识别模型，该目标音频识别模型是上述对音频识别模型进行调整得到的，即该目标音频识别模型的文本数据的识别准确度大于准确度阈值。因此，可以采用该目标音频识别模型提取该参考用户音频特征中的参考用户声音属性特征；根据该参考用户声音属性特征以及该目标用户的音频数据，生成该目标用户的音频数据对应的文本数据，通过目标音频识别模型识别文本数据，可以提高识别文本数据的准确度。

在此实施例中，该目标音频识别模型包括感知层、特征提取层、联通层以及识别层；上述步骤s72可以包括如下步骤s81～s84。

s81、采用该感知层对该参考用户音频特征进行属性特征提取，得到该参考用户声音属性特征。

s82、采用该特征提取层对该目标用户的音频数据进行音频特征提取，得到目标用户音频特征；该目标用户音频特征包括目标用户声音属性特征，以及关注于该音频数据的音频内容特征。

s83、在该联通层中，根据该参考用户声音属性特征，对该目标用户声音属性特征进行增强处理，得到增强处理后的声音属性特征。

s84、采用该识别层对增强处理后的声音属性特征以及该音频内容特征进行识别，得到该目标用户的音频数据对应的文本数据。

在步骤s81～s84中，如图8所示，计算机设备可以采用该感知层对该参考用户音频特征进行属性特征提取，得到该参考用户声音属性特征，该感知层可以是指多层感知机，用于从该参考用户音频特征中提取多个维度的音频特征，作为该参考用户声音属性特征。然后，采用该特征提取层对该目标用户的音频数据进行音频特征提取，得到目标用户音频特征，该目标用户音频特征包括目标用户声音属性特征，以及关注于该音频数据的音频内容特征。由于单一的音频数据难以体现目标用户声音属性特征，因此，在该联通层中，根据该参考用户声音属性特征，对该目标用户声音属性特征进行增强处理，得到增强处理后的声音属性特征，该增强处理后的声音属性特征更能够有效地体现目标用户的声音属性特征。进一步，采用该识别层对增强处理后的声音属性特征以及该音频内容特征进行识别，得到该目标用户的音频数据对应的文本数据。

在此实施例中，s83包括如下步骤s91和s92。

s91、获取该目标用户声音属性特征的特征启始标识以及特征结束标识。

s92、在该联通层中，在该特征启始标识所在的位置之前拼接该参考用户声音属性特征，在该特征结束标识所在的位置之后拼接该参考用户声音属性特征，得到增强处理后的声音属性特征。

在步骤s91和s92中，计算机设备可以获取该目标用户声音属性特征的特征启示标识和特征结束标识，在该联通层中，在该特征启始标识所在的位置之前拼接该参考用户声音属性特征，在该特征结束标识所在的位置之后拼接该参考用户声音属性特征，得到增强处理后的声音属性特征，即通过在目标用户声音属性特征中起始位置处以及结束位置处拼接参考用户声音属性特征，有利于增强目标用户声音属性特征，体现目标用户声音属性特征的个性化。

请参见图9，是本申请实施例提供的一种音频数据处理装置的结构示意图。上述音频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该音频数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示，该音频数据处理装置可以包括：获取模块701、确定模块702、识别模块703以及调整模块704。

获取模型701，用于获取目标用户的音频数据，以及上述目标用户的用户属性信息；

确定模型702，用于确定与上述目标用户的用户属性信息匹配的参考用户音频特征，上述参考用户音频特征是对参考用户的历史音频数据进行音频特征提取得到的，上述参考用户的用户属性信息与上述目标用户的用户属性信息匹配；

识别模型703，用于提取上述参考用户音频特征中的参考用户声音属性特征；根据上述参考用户声音属性特征以及上述目标用户的音频数据，生成上述目标用户的音频数据对应的文本数据。

可选的，识别模型703，具体用于获取目标音频识别模型；采用上述目标音频识别模型提取上述参考用户音频特征中的参考用户声音属性特征；根据上述参考用户声音属性特征以及上述目标用户的音频数据，生成上述目标用户的音频数据对应的文本数据。

可选的，上述目标音频识别模型包括感知层、特征提取层、联通层以及识别层；可选的，识别模型703，具体用于：

可选的，识别模型703，具体用于获取上述目标用户声音属性特征的特征启始标识以及特征结束标识；

可选的，上述装置还包括：

调整模型704，用于获取语言模型，以及音频识别模型，上述语言模型具有预测文本数据的能力，上述语言模型是通过样本本文数据训练得到的，上述语言模型的结构与上述音频识别模型的结构匹配；

将调整后的音频识别模型确定为上述目标音频识别模型。

可选的，调整模型704，具体用于采用上述语言模型的参数，对上述音频识别模型的识别层的参数进行初始化处理，得到初始化后的音频识别模型；上述语言模型的结构与上述音频识别模型的识别层的结构相同。

可选的，调整模型704，具体采用上述初始化后的音频识别模型对上述样本用户的音频数据以及上述参考样本用户音频特征进行识别，得到上述样本用户的音频数据对应的预测文本数据；

可选的，确定模型702，具体用于获取候选用户集合，以及上述候选用户集合中的候选用户的用户属性信息；

可选的，确定模型702，具体用于获取上述候选用户集合中的候选用户所属的位置，与上述目标用户所属的位置之间的位置关系；

可选的，确定模型702，具体用于获取上述候选用户集合中的候选用户的年龄，与上述目标用户的年龄之间的年龄差值；

可选的，确定模型702，具体用于获取上述候选用户音频特征之间的相似度；

根据本申请的一个实施例，图3所示的音频数据处理方法所涉及的步骤可由图9所示的音频数据处理装置中的各个模块来执行。例如，图3中所示的步骤S101可由图9中的获取模块701来执行，图3中所示的步骤S102可由图8中的确定模块702来执行；图3中所示的步骤S103可由图9中的识别模块703来执行。

根据本申请的一个实施例，图9所示的音频数据处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个单元来实现，或者多个模块的功能由一个单元实现。在本申请的其它实施例中，音频数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的音频数据处理装置，以及来实现本申请实施例的音频数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图10，是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，上述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取目标音频识别模型；

采用上述目标音频识别模型提取上述参考用户音频特征中的参考用户声音属性特征；根据上述参考用户声音属性特征以及上述目标用户的音频数据，生成上述目标用户的音频数据对应的文本数据。

可选的，上述目标音频识别模型包括感知层、特征提取层、联通层以及识别层；

获取上述目标用户声音属性特征的特征启始标识以及特征结束标识；

获取语言模型，以及音频识别模型，上述语言模型具有预测文本数据的能力，上述语言模型是通过样本本文数据训练得到的，上述语言模型的结构与上述音频识别模型的结构匹配；

将调整后的音频识别模型确定为上述目标音频识别模型。

采用上述语言模型的参数，对上述音频识别模型的识别层的参数进行初始化处理，得到初始化后的音频识别模型；上述语言模型的结构与上述音频识别模型的识别层的结构相同。

采用上述初始化后的音频识别模型对上述样本用户的音频数据以及上述参考样本用户音频特征进行识别，得到上述样本用户的音频数据对应的预测文本数据；

获取候选用户集合，以及上述候选用户集合中的候选用户的用户属性信息；

获取上述候选用户集合中的候选用户所属的位置，与上述目标用户所属的位置之间的位置关系；

获取上述候选用户集合中的候选用户的年龄，与上述目标用户的年龄之间的年龄差值；

获取上述候选用户音频特征之间的相似度；

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对上述音频数据处理方法的描述，也可执行前文图7所对应实施例中对上述音频数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的音频数据处理装置所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3对应实施例中对上述音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁盘、光盘、只读存储器(Read-Only Memory，ROM)或随机存储器(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

获取目标用户的音频数据，以及所述目标用户的用户属性信息；

获取候选用户集合，以及所述候选用户集合中的候选用户的用户属性信息；

将所述候选用户集合中用户属性信息，与所述目标用户的用户属性信息匹配的候选用户作为参考用户；

获取所述参考用户的历史音频数据，对所述参考用户的历史音频数据进行音频特征提取，得到候选用户音频特征；

对所述候选用户音频特征进行融合，得到参考用户音频特征，所述参考用户音频特征包括音频内容特征以及声音属性特征，音频内容特征用于指示音频数据所包含的内容，声音属性特征用于指示参考用户针对音频数据所包含的内容的发音特征和/或表达方式；

提取所述参考用户音频特征中的参考用户声音属性特征；根据所述参考用户声音属性特征以及所述目标用户的音频数据，生成所述目标用户的音频数据对应的文本数据。

2.如权利要求1所述的方法，其特征在于，所述提取所述参考用户音频特征中的参考用户声音属性特征；根据所述参考用户声音属性特征以及所述目标用户的音频数据，生成所述目标用户的音频数据对应的文本数据，包括：

获取目标音频识别模型；

采用所述目标音频识别模型提取所述参考用户音频特征中的参考用户声音属性特征；根据所述参考用户声音属性特征以及所述目标用户的音频数据，生成所述目标用户的音频数据对应的文本数据。

3.如权利要求2所述的方法，其特征在于，所述目标音频识别模型包括感知层、特征提取层、联通层以及识别层；

所述采用所述目标音频识别模型提取所述参考用户音频特征中的参考用户声音属性特征；根据所述参考用户声音属性特征以及所述目标用户的音频数据，生成所述目标用户的音频数据对应的文本数据，包括：

采用所述感知层对所述参考用户音频特征进行属性特征提取，得到所述参考用户声音属性特征；

采用所述特征提取层对所述目标用户的音频数据进行音频特征提取，得到目标用户音频特征；所述目标用户音频特征包括目标用户声音属性特征，以及关注于所述音频数据的音频内容特征；

在所述联通层中，根据所述参考用户声音属性特征，对所述目标用户声音属性特征进行增强处理，得到增强处理后的声音属性特征；

采用所述识别层对增强处理后的声音属性特征以及所述音频内容特征进行识别，得到所述目标用户的音频数据对应的文本数据。

4.如权利要求3所述的方法，其特征在于，所述在所述联通层中，根据所述参考用户声音属性特征，对所述目标用户声音属性特征进行增强处理，得到增强处理后的声音属性特征，包括：

获取所述目标用户声音属性特征的特征启始标识以及特征结束标识；

在所述联通层中，在所述特征启始标识所在的位置之前拼接所述参考用户声音属性特征，在所述特征结束标识所在的位置之后拼接所述参考用户声音属性特征，得到增强处理后的声音属性特征。

5.如权利要求3或4所述的方法，其特征在于，所述方法还包括：

获取语言模型，以及音频识别模型，所述语言模型具有预测文本数据的能力，所述语言模型是通过样本本文数据训练得到的，所述语言模型的结构与所述音频识别模型的结构匹配；

采用所述语言模型的参数对所述音频识别模型的参数进行初始化处理；

获取样本用户的音频数据，所述样本用户的音频数据的标注文本数据，以及与所述样本用户的用户属性信息匹配的参考样本用户音频特征；

采用所述样本用户的音频数据、所述样本用户的音频数据的标注文本数据、以及所述参考样本用户音频特征对初始化后的音频识别模型进行调整；

将调整后的音频识别模型确定为所述目标音频识别模型。

6.如权利要求5所述的方法，其特征在于，所述采用所述语言模型的参数对所述音频识别模型的参数进行初始化处理，包括：

采用所述语言模型的参数，对所述音频识别模型的识别层的参数进行初始化处理，得到初始化后的音频识别模型；所述语言模型的结构与所述音频识别模型的识别层的结构相同。

7.如权利要求5所述的方法，其特征在于，所述采用所述样本用户的音频数据、所述样本用户的音频数据的标注文本数据、以及所述参考样本用户音频特征对初始化后的音频识别模型进行调整，包括：

采用所述初始化后的音频识别模型对所述样本用户的音频数据以及所述参考样本用户音频特征进行识别，得到所述样本用户的音频数据对应的预测文本数据；

根据所述预测文本数据以及所述标注文本数据，确定所述初始化后的音频识别模型的识别损失值；

若所述识别损失值不满足收敛条件，则根据所述损失值对所述初始化后的音频识别模型进行调整，得到调整后的音频识别模型。

8.如权利要求1所述的方法，其特征在于，所述候选用户的用户属性信息包括所述候选用户所属的位置，所述目标用户的用户属性信息包括所述目标用户所属的位置；

所述将所述候选用户集合中用户属性信息，与所述目标用户的用户属性信息匹配的候选用户作为参考用户，包括：

获取所述候选用户集合中的候选用户所属的位置，与所述目标用户所属的位置之间的位置关系；

将所述候选用户集合中位置关系为从属关系或等同关系的候选用户，作为所述参考用户。

9.如权利要求1所述的方法，其特征在于，所述候选用户的用户属性信息包括所述候选用户的年龄，所述目标用户的用户属性信息包括所述目标用户的年龄；

所述将所述候选用户集合中用户属性信息与所述目标用户的用户属性信息匹配的候选用户作为参考用户，包括：

获取所述候选用户集合中的候选用户的年龄，与所述目标用户的年龄之间的年龄差值；

将所述候选用户集合中年龄差值小于年龄阈值的候选用户，作为所述参考用户。

10.如权利要求1、8或9任一项所述的方法，其特征在于，所述对所述候选用户音频特征进行融合，得到所述参考用户音频特征，包括：

获取所述候选用户音频特征之间的相似度；

从所述候选用户音频特征中筛选出相似度大于相似度阈值的候选用户音频特征；

对筛选所得到的候选用户音频特征进行平均化处理，得到所述参考用户音频特征。

11.一种音频数据处理装置，其特征在于，包括：

获取模块，用于获取目标用户的音频数据，以及所述目标用户的用户属性信息；

确定模块，用于获取候选用户集合，以及所述候选用户集合中的候选用户的用户属性信息；将所述候选用户集合中用户属性信息，与所述目标用户的用户属性信息匹配的候选用户作为参考用户；获取所述参考用户的历史音频数据，对所述参考用户的历史音频数据进行音频特征提取，得到候选用户音频特征；对所述候选用户音频特征进行融合，得到参考用户音频特征，所述参考用户音频特征包括音频内容特征以及声音属性特征，音频内容特征用于指示音频数据所包含的内容，声音属性特征用于指示参考用户针对音频数据所包含的内容的发音特征和/或表达方式；

识别模块，用于提取所述参考用户音频特征中的参考用户声音属性特征；根据所述参考用户声音属性特征以及所述目标用户的音频数据，生成所述目标用户的音频数据对应的文本数据。

12.一种计算机设备，其特征在于，包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-10任一项所述的方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-10任一项所述的方法。