CN115862635A

CN115862635A - 一种数据处理方法、电子设备及存储介质

Info

Publication number: CN115862635A
Application number: CN202310174686.5A
Authority: CN
Inventors: 孟君; 贺琳; 崔向雨; 邵志明; 黄宇凯; 郝玉峰; 李科
Original assignee: Beijing Speechocean Technology Co ltd
Current assignee: Beijing Speechocean Technology Co ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-03-28
Anticipated expiration: 2043-02-28
Also published as: CN115862635B

Abstract

本公开是关于一种数据处理方法、电子设备及存储介质。数据处理方法包括：获取第一语音数据和多个第二语音数据；其中，所述第一语音数据和所述第二语音数据由多个录音角色在同一对话场景、同一时段内录制得到，所述第一语音数据包含全部所述录音角色录制的对话内容，所述多个第二语音数据中各个第二语音数据分别包含单一所述录音角色录制的对话内容，且所述多个第二语音数据与所述多个录音角色一一对应；基于所述第一语音数据和所述多个第二语音数据，生成用于训练语音识别模型的对话样本数据。通过本公开可以实现多人对话语音样本数据的自动标注及生成。

Description

一种数据处理方法、电子设备及存储介质

技术领域

本公开涉及语音识别技术领域，尤其涉及一种数据处理方法、电子设备及存储介质。

背景技术

目前，在语音识别中，当有多个人同时说话时，语音识别引擎很难分辨哪个人的语音是主语音，从而导致识别准确率很低。为了适配多人对话的识别场景，提高识别准确率，需要大量类似场景的语音数据来训练语音识别声学模型。

相关技术中，多人对话场景下的对话样本数据依赖人工制作，需要人工反复听对话语音，并标注主说话人语音对应的文本，该方法存在人工成本高、准确率低的问题。

发明内容

为克服相关技术中存在的问题，本公开提供一种数据处理方法、电子设备及存储介质。

根据本公开实施例的第一方面，提供一种数据处理方法，包括：

获取第一语音数据和多个第二语音数据；其中，所述第一语音数据和所述第二语音数据由多个录音角色在同一对话场景、同一时段内录制得到，所述第一语音数据包含全部所述录音角色录制的对话内容，所述多个第二语音数据中各个第二语音数据分别包含单一所述录音角色录制的对话内容，且所述多个第二语音数据与所述多个录音角色一一对应；基于所述第一语音数据和所述多个第二语音数据，生成用于训练语音识别模型的对话样本数据。

一种实施方式中，所述基于所述第一语音数据和所述多个第二语音数据，生成用于训练语音识别模型的对话样本数据，包括：将所述第一语音数据与所述多个第二语音数据中各个第二语音数据分别进行对齐，并基于对齐后的各个语音数据，得到语音数据集；分别对各个所述第二语音数据进行语音识别，得到与所述多个第二语音数据一一对应的多个文本数据，并对所述多个文本数据进行合并，得到文本数据集；将所述语音数据集和所述文本数据集作为所述对话样本数据。

一种实施方式中，采用如下方式将所述第一语音数据与目标语音数据进行对齐，所述目标语音数据为所述各个第二语音数据中任一第二语音数据：对所述第一语音数据进行语音特征提取，得到所述第一语音数据中各个语音帧分别对应的第一特征数据，以及对所述目标语音数据进行语音特征提取，得到所述目标语音数据中各个语音帧分别对应的第二特征数据；基于所述第一特征数据与所述第二特征数据之间的特征相似度，在所述第一特征数据中确定目标第一特征数据，以及在所述第二特征数据中确定目标第二特征数据，所述目标第一特征数据与所述目标第二特征数据之间的特征相似度大于或等于特征相似度阈值；将所述目标第一特征数据对应的语音帧与所述目标第二特征数据对应的语音帧进行对齐，以使所述第一语音数据与所述目标语音数据对齐。

一种实施方式中，所述文本数据包括文本中包含的各个单字，以及包括对话过程中记录所述各个单字分别对应的语音时段；所述对所述多个文本数据进行合并，得到目标文本数据，包括：比对所述各个单字各自对应的语音时段；响应于基于所比对的语音时段，确定所述各个单字中存在第一单字，所述第一单字对应的语音时段与其他单字对应的语音时段之间存在重叠时段，为所述第一单字设置第一标记；响应于基于所比对的语音时段，确定所述各个单字中存在第二单字，所述第二单字对应的语音时段与其他单字对应的语音时段之间不存在重叠时段，为所述第二单字设置第二标记；基于所述第一标记和所述第二标记，对所述各个单字进行筛选，得到所述目标文本数据。

一种实施方式中，基于所述第一标记和所述第二标记，对所述各个单字进行筛选，得到所述目标文本数据，包括：基于所述多个文本数据中所述各个单字分别对应的语音时段，确定所述多个录音角色进行对话时的非语音时段；基于所述非语音时段，将所述各个单字划分至多个不同第一集合；其中，每一所述第一集合中包含有相邻两个非语音时段之间的语音时段所对应的全部单字；确定各个所述第一集合分别对应的语音时长，并基于所述第一标记和所述第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合；其中，每一所述第二集合对应的语音时长小于或等于所述预设时长阈值；基于所述第一标记和所述第二标记，分别对每一所述第二集合以及每一未被拆分的第一集合进行筛选，得到筛选后的各个集合；基于所述筛选后的各个集合，得到所述目标文本数据。

一种实施方式中，所述基于所述第一标记和所述第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合，包括：在语音时长大于所述预设时长阈值的第一集合中，确定所述各个单字中表征标点符号的目标单字；响应于确定以所述目标单字为集合划分间隔，拆分后的各个第二集合分别满足所包含的单字数量大于第一阈值，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合。

一种实施方式中，不同所述文本数据包含的第二单字设置有不同的第二标记；采用如下方式对目标集合进行文本筛选，得到筛选后的目标集合，所述目标集合为所述第二集合或未被拆分的第一集合：在所述目标集合中确定第三单字，所述第三单字为所述目标集合中目标文本数据所对应的全部单字，所述第三单字的第一数量大于第四单字的第二数量，所述第四单字为所述目标集合中除所述目标文本数据外的其他任一文本数据所对应的全部单字；筛除所述目标集合中除所述第三单字以外的全部第二单字，得到筛选后的目标集合。

一种实施方式中，所述方法还包括：响应于确定所述目标集合中存在相邻的第四单字，且所述相邻的第四单字的单字数量大于第二阈值，将所述相邻的各个第四单字划分至第三集合；将所述第三集合作为筛选后的集合。

根据本公开实施例的第二方面，提供一种数据处理装置，包括：

获取单元，用于获取第一语音数据和多个第二语音数据；其中，所述第一语音数据和所述第二语音数据由多个录音角色在同一对话场景、同一时段内录制得到，所述第一语音数据包含全部所述录音角色录制的对话内容，所述多个第二语音数据中各个第二语音数据分别包含单一所述录音角色录制的对话内容，且所述多个第二语音数据与所述多个录音角色一一对应；处理单元，基于所述第一语音数据和所述多个第二语音数据，生成用于训练语音识别模型的对话样本数据。

一种实施方式中，所述处理单元采用如下方式基于所述第一语音数据和所述多个第二语音数据，生成用于训练语音识别模型的对话样本数据：将所述第一语音数据与所述多个第二语音数据中各个第二语音数据分别进行对齐，并基于对齐后的各个语音数据，得到语音数据集；分别对各个所述第二语音数据进行语音识别，得到与所述多个第二语音数据一一对应的多个文本数据，并对所述多个文本数据进行合并，得到文本数据集；将所述语音数据集和所述文本数据集作为所述对话样本数据。

一种实施方式中，所述处理单元采用如下方式将所述第一语音数据与目标语音数据进行对齐，所述目标语音数据为所述各个第二语音数据中任一第二语音数据：对所述第一语音数据进行语音特征提取，得到所述第一语音数据中各个语音帧分别对应的第一特征数据，以及对所述目标语音数据进行语音特征提取，得到所述目标语音数据中各个语音帧分别对应的第二特征数据；基于所述第一特征数据与所述第二特征数据之间的特征相似度，在所述第一特征数据中确定目标第一特征数据，以及在所述第二特征数据中确定目标第二特征数据，所述目标第一特征数据与所述目标第二特征数据之间的特征相似度大于或等于特征相似度阈值；将所述目标第一特征数据对应的语音帧与所述目标第二特征数据对应的语音帧进行对齐，以使所述第一语音数据与所述目标语音数据对齐。

一种实施方式中，所述文本数据包括文本中包含的各个单字，以及包括对话过程中记录所述各个单字分别对应的语音时段；所述处理单元采用如下方式对所述多个文本数据进行合并，得到目标文本数据：比对所述各个单字各自对应的语音时段；响应于基于所比对的语音时段，确定所述各个单字中存在第一单字，所述第一单字对应的语音时段与其他单字对应的语音时段之间存在重叠时段，为所述第一单字设置第一标记；响应于基于所比对的语音时段，确定所述各个单字中存在第二单字，所述第二单字对应的语音时段与其他单字对应的语音时段之间不存在重叠时段，为所述第二单字设置第二标记；基于所述第一标记和所述第二标记，对所述各个单字进行筛选，得到所述目标文本数据。

一种实施方式中，所述处理单元采用如下方式基于所述第一标记和所述第二标记，对所述各个单字进行筛选，得到所述目标文本数据：基于所述多个文本数据中所述各个单字分别对应的语音时段，确定所述多个录音角色进行对话时的非语音时段；基于所述非语音时段，将所述各个单字划分至多个不同第一集合；其中，每一所述第一集合中包含有相邻两个非语音时段之间的语音时段所对应的全部单字；确定各个所述第一集合分别对应的语音时长，并基于所述第一标记和所述第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合；其中，每一所述第二集合对应的语音时长小于或等于所述预设时长阈值；基于所述第一标记和所述第二标记，分别对每一所述第二集合以及每一未被拆分的第一集合进行筛选，得到筛选后的各个集合；基于所述筛选后的各个集合，得到所述目标文本数据。

一种实施方式中，所述处理单元采用如下方式基于所述第一标记和所述第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合：在语音时长大于所述预设时长阈值的第一集合中，确定所述各个单字中表征标点符号的目标单字；响应于确定以所述目标单字为集合划分间隔，拆分后的各个第二集合分别满足所包含的单字数量大于第一阈值，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合。

一种实施方式中，不同所述文本数据包含的第二单字设置有不同的第二标记；所述处理单元采用如下方式对目标集合进行文本筛选，得到筛选后的目标集合，所述目标集合为所述第二集合或未被拆分的第一集合：在所述目标集合中确定第三单字，所述第三单字为所述目标集合中目标文本数据所对应的全部单字，所述第三单字的第一数量大于第四单字的第二数量，所述第四单字为所述目标集合中除所述目标文本数据外的其他任一文本数据所对应的全部单字；筛除所述目标集合中除所述第三单字以外的全部第二单字，得到筛选后的目标集合。

一种实施方式中，所述处理单元还用于：响应于确定所述目标集合中存在相邻的第四单字，且所述相邻的第四单字的单字数量大于第二阈值，将所述相邻的各个第四单字划分至第三集合；将所述第三集合作为筛选后的集合。

根据本公开实施例第三方面，提供一种电子设备，包括：

处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行第一方面或者第一方面任意一种实施方式中所述的数据处理方法。

根据本公开实施例第四方面，提供一种存储介质，所述存储介质中存储有指令，当所述存储介质中的指令由处理器执行时，使得处理器能够执行第一方面或者第一方面任意一种实施方式中所述的数据处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：本公开可以获取多个录音角色在同一对话场景、同一时段内录制的语音数据，包括包含全部录音角色录制的对话内容的第一语音数据，以及包括分别包含单一录音角色录制的对话内容的多个第二语音数据。在此基础上，可以通过对第一语音数据和第二语音数据的进一步处理，生成用于训练语音识别模型的对话样本数据，以此实现对话样本数据的高效生成。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种数据处理方法的流程图。

图2是根据一示例性实施例示出的一种基于第一语音数据和多个第二语音数据，生成对话样本数据的方法流程图。

图3是根据一示例性实施例示出的一种将第一语音数据与目标语音数据进行对齐的方法流程图。

图4是根据一示例性实施例示出的一种对多个文本数据进行合并，得到目标文本数据的方法流程图。

图5是根据一示例性实施例示出的一种基于第一标记和第二标记，对各个单字进行筛选，得到目标文本数据的方法流程图。

图6是根据一示例性实施例示出的一种基于第一标记和第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合的方法流程图。

图7是根据一示例性实施例示出的一种对目标集合进行文本筛选，得到筛选后的目标集合的方法流程图。

图8是根据一示例性实施例示出的一种对目标集合进行文本筛选，得到筛选后的目标集合的方法流程图。

图9是根据一示例性示出的一种文本数据的示意图。

图10是根据一示例性示出的另一种文本数据的示意图。

图11是根据一示例性示出的又一种文本数据的示意图。

图12是根据一示例性示出的一种目标文本数据的示意图。

图13是根据一示例性实施例示出的一种数据处理装置框图。

图14是根据一示例性实施例示出的一种用于数据处理的电子设备框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述设计附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本公开一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。下面结合附图对本公开的实施例进行详细说明。

本公开实施例提供的数据处理方法，可以应用于为网络模型制作样本数据的场景。例如，可以应用于为语音识别模型训练制作对话样本数据的场景。

目前，在语音识别中，当有多个人同时说话时，接收到的语音中往往存在重叠（overlap）部分，语音识别引擎很难分辨哪个人的语音是主语音，从而导致识别准确率很低。为了适配多人对话的识别场景，提高识别准确率，需要大量类似场景的语音数据来训练语音识别声学模型。

鉴于此，本公开提出了一种数据处理方法，该方法针对多人对话场景，可以获取由多个录音角色共同录制的混合语音数据，以及获取每个录音角色单独录制的单人语音数据。进一步的，可以通过对各个语音数据的分析处理，自动化生成用于训练语音识别模型的对话样本数据，以此改善相关技术中因人工参与样本生成致使人工成本高、样本准确率低的问题。

本公开以下为便于描述，在由多个录音角色在同一对话场景、同一时段内录制得到的录音数据中，将包含全部录音角色录制的对话内容的语音数据称为第一语音数据，将包含单一录音角色录制的对话内容的录音数据称为第二录音数据。

图1是根据一示例性实施例示出的一种数据处理方法的流程图，如图1所示，包括以下步骤。

在步骤S11中，获取第一语音数据和多个第二语音数据。

其中，多个第二语音数据中各个第二语音数据分别包含单一录音角色录制的对话内容，且多个第二语音数据与多个录音角色一一对应。

在步骤S12中，基于第一语音数据和多个第二语音数据，生成用于训练语音识别模型的对话样本数据。

本公开实施例中，第一语音数据中包含有各个录音角色分别对应的对话语音，当至少两个录音角色在相同时段进行发言时，对话过程中存在语音重叠部分。此时，第一语音数据中包含有语音重叠部分对应的语音数据，该部分语音数据即为待训练的语音识别模型的识别侧重点。相应的，各个第二语音数据中分别包含有一个录音角色对应的对话语音，即第二语音数据中不会存在语音重叠部分。在此基础上，通过对第一语音数据及第二语音数据的分析处理，可以生成用于训练语音识别模型的对话样本数据。

更进一步的，通过所生成的对话样本数据训练语音识别模型，训练后的语音识别模型可以实现对语音重叠部分的高精度识别，提高对复杂语音进行识别的准确性。

示例的，在录制第一语音数据和第二语音数据时，可基于对语音识别模型的识别需求，设计与识别需求相匹配的对话流程。其中，针对对话流程的设计，例如可以包括对话话题设计、录音角色数（示例的，为保证第一语音数据中具有语音重叠部分，录音角色数应≥2）设计、录音角色特性设计。其中，录音角色特性设计例如可以包括口音设计、语种设计、年龄设计、和/或性别设计等。

示例的，第一语音数据的语音录制方式，例如可以是通过在对话场景中放置用于收录场景中整体语音的麦克风阵列。第二语音数据的语音录制方式，例如可以是为每一录制角色佩戴用于收录单人语音的麦克风。

一实施方式中，可以通过对第一语音数据和第二语音数据的处理，得到语音数据及文本数据两部分，进而将得到的两部分数据作为对话样本数据。

图2是根据一示例性实施例示出的一种基于第一语音数据和多个第二语音数据，生成对话样本数据的方法流程图，如图2所示，包括以下步骤S21至步骤S23。

在步骤S21中，将第一语音数据与多个第二语音数据中各个第二语音数据分别进行对齐，并基于对齐后的各个语音数据，得到语音数据集。

在步骤S22中，分别对各个第二语音数据进行语音识别，得到与多个第二语音数据一一对应的多个文本数据，并对多个文本数据进行合并，得到文本数据集。

在步骤S23中，将语音数据集和文本数据集作为对话样本数据。

本公开实施例提供的方法，将第一语音数据与多个第二语音数据中各个第二语音数据分别进行对齐，例如可以是将包括第一语音数据和多个第二语音数据在内的各个语音数据进行时间点对齐，对齐后的各个语音数据所组成的数据集合即为目标语音数据。目标语音数据中，同一对话内容在不同语音数据中对应的时序相一致。

示例的，以第一语音数据包括语音数据A，第二语音数据包括语音数据B1和B2为例。将第一语音数据与多个第二语音数据中各个第二语音数据分别进行对齐，例如可以是先将语音数据B1与语音数据A进行对齐，然后再将语音数据B2与语音数据A进行对齐。当然，具体的对齐顺序并不限于此，此处仅为一示例性可行实施方式。

一实施方式中，可以将各个第二语音数据中任一第二语音数据作为目标语音数据，并通过如下方式将第一语音数据与目标语音数据进行对齐。以下为便于描述，将第一语音数据中各个语音帧分别对应的特征数据称为第一特征数据，将目标语音数据中各个语音帧分别对应的特征数据称为第二特征数据，将在第一特征数据中选取的指定特征数据称为目标第一特征数据，将第二特征数据中选取的指定特征数据称为目标第二特征数据。

图3是根据一示例性实施例示出的一种将第一语音数据与目标语音数据进行对齐的方法流程图，如图3所示，包括以下步骤。

在步骤S31中，对第一语音数据进行语音特征提取，得到第一语音数据中各个语音帧分别对应的第一特征数据，以及对目标语音数据进行语音特征提取，得到目标语音数据中各个语音帧分别对应的第二特征数据。

在步骤S32中，基于第一特征数据与第二特征数据之间的特征相似度，在第一特征数据中确定目标第一特征数据，以及在第二特征数据中确定目标第二特征数据。

其中，目标第一特征数据与目标第二特征数据之间的特征相似度大于或等于特征相似度阈值。

在步骤S33中，将目标第一特征数据对应的语音帧与目标第二特征数据对应的语音帧进行对齐，以使第一语音数据与目标语音数据对齐。

本公开实施例中，语音帧可以理解为一帧内包含的语音数据。本公开实施例提供的方法中，通过语音特征提取及比对的方式，可以确定同一对话内容在不同语音数据中对应的时序，进而通过时序对齐的方式，完成语音数据的对齐。为便于理解，以下结合一具体示例进行示例性说明。

例如，用于录制目标语音数据的录音角色录制有包括“方总李总下午好”的对话内容，该对话内容在录制过程中分别由第一语音数据及目标语音数据收录，即第一语音数据及目标语音数据收录中分别包含有表征“方总李总下午好”的语音数据。由于对于同一对话内容的特征提取，所得到的特征数据往往是相接近或相一致的。因此，对话内容“方总李总下午好”在第一特征数据及第二特征数据中分别对应的特征数据之间，满足使特征相似度大于或等于相似度阈值。也因此，上述实施例中，通过确定目标第一特征数据和目标第二特征数据的方式，可以确定同一对话内容在第一语音数据与目标语音数据之间分别对应的语音时序，此处确定的语音时序之间往往是存在差异的。例如，在第一语音数据中“方总李总下午好”对应a时段，而在第二语音数据中“方总李总下午好”对应b时段（示例的，a时段与b时段不重合）。此时，可以以第一语音数据为基准，按照a时段与b时段之间的差异值，对第二语音数据的时序进行调节，以使第一语音数据与目标语音数据之间达到时序对齐。

在一些实施例中，可以在第二语音数据选取语音较为连续的语音段作为用于进行特征提取的语音样本，该语音段的长度例如可以为第二语音数据中整体语音长度的10%。

在一些实施例中，可以通过提取梅尔倒谱系数（Mel-scaleFrequency CepstralCoefficients，MFCC）的方式，完成对第一语音数据或第二语音数据进行特征提取。

本公开实施例提供的方法，可以通过对各个第二语音数据进行文本识别的方式，得到与各个第二语音数据一一对应的多个文本数据。

在一些实施例中，对于同一文本数据，可以按照非语音时长及语法信息，将文本数据中的各个单字自动分为多个单句，并在单句之间添加标点符号，同时标注每个单句的语音时段。

在一些实施例中，对于通过文本识别方式得到的各个文本数据，可以采用人工校对的方式进一步保证文本数据中各个文本的准确度。

本公开实施例中，在对第二语音数据进行文本识别后，得到的文本数据中包括文本中包含的各个单字，以及对话过程中录制各个单字分别对应的语音时段。

一示例中，对于文本数据非基于人工校对的情况，文本数据中各个单字分别对应的语音时段，可直接使用基于文本识别输出的各个语音时段。

另一示例中，对于文本数据基于人工校对的情况，需要对文本数据中的各个单字以及相应的语音时段进行对齐。对此，作为一种可行方式，可以通过强制对齐（forcealignment）算法执行相应处理，获得每个单字在语音数据中对应的语音时段。如下示例性示出了一种通过强制对齐算法获得每个单字在语音数据中对应的语音时段的可行实施方式。

示例的，在执行强制对齐算法前，需要预准备能够对文本数据中各个单字进行文本解读的单字词典（示例的，单字词典包含各个中文单字，以及包含26个英文字母及0-9数字）。进一步的，将第二语音数据语音按文本数据中标注的各个单句对应的语音时段进行切分，以通过分别对各个单句进行强制对齐的方式，提高强制对齐的准确率。其中，针对表征标点符号的单字，将其与在前的一个单字进行关联，以作为一个整体进行语义时段的强制对齐，所关联的单字对应的语音时段，即视为表征该标点符号的单字对应的语音时段。在得到各个单字各自对应的语音时段的情况下，进一步在每一个单字对应的语音时段与单句对应的语音时段之间建立映射关系。

本公开实施例提供的方法，文本数据包括文本中包含的各个单字、对话过程中录制各个单字分别对应的语音时段、以及对话过程中录制各个单句分别对应的语音时段。

一实施方式中，可以通过如下方式对多个文本数据进行合并，得到目标文本数据。以下为便于描述，将各个单字中与其他单字对应的语音时段之间存在重叠时段的单字称为第一单字，将各个单字中与其他单字对应的语音时段之间不存在重叠时段的单字称为第二单字，将为第一单字设置的标记称为第一标记，以及将为第一单字设置的标记称为第二标记。

图4是根据一示例性实施例示出的一种对多个文本数据进行合并，得到目标文本数据的方法流程图，如图4所示，包括以下步骤。

在步骤S41中，比对各个单字各自对应的语音时段。

在步骤S42a中，响应于基于所比对的语音时段，确定各个单字中存在第一单字，为第一单字设置第一标记。

在步骤S42b中，响应于基于所比对的语音时段，确定各个单字中存在第二单字，为第二单字设置第二标记。

在步骤S43中，基于第一标记和第二标记，对各个单字进行筛选，得到目标文本数据。

本公开实施例中，所比对的各个单字包括多个文本数据中各个文本数据分别包含的各个单字。示例的，所比对的各个单字例如可以包括单字z1和z2。其中，单字z1对应c时段，单字z2对应d时段。若c时段与d时段之间存在重叠时段（如，c时段的起始时刻小于d时段的终止时刻），则单字z1和单字z2可分别被作为第一单字，并分别被设置第一标记。相应的，若c时段与d时段之间不存在重叠时段（如，c时段的起始时刻大于d时段的终止时刻），则单字z1和单字z2均不能作为第一单字。更进一步的，以单字z1为例，若单字z1的c时段与包括单字z2在内的各个单字分别对应的语音时段之间，均不存在重叠时段，则单字z1可以被作为第二单字，并被设置第二标记。

本公开实施例中，对于对话样本数据而言，需要对重叠语音部分进行着重标注，其中包括对于语音数据的标注和文本数据的标注。其中，语音数据的标注可以通过区分第一语音数据和第二语音数据的方式来实现。而相应的，文本数据的标注则是基于上述对于各个单字的标记来完成。例如，第一单字和第二单字中，具有第一标记的第一单字可以理解为语音录制过程中语音重叠部分对应的各个单字，该部分可进一步被理解为语音识别模型在训练过程中对于语音重叠部分进行文本识别的参考文本。

示例的，在完成对各个单字的标记的情况下，可以通过第一标记和第二标记，对各个单字进行筛选，以得到目标文本数据。以下为便于描述，将通过非语音时段划分的单字集合称为第一集合，以及将通过第一集合对应的语音时长划分的单字集合称为第二集合。

图5是根据一示例性实施例示出的一种基于第一标记和第二标记，对各个单字进行筛选，得到目标文本数据的方法流程图，如图5所示，包括以下步骤。

在步骤S51中，基于多个文本数据中各个单字分别对应的语音时段，确定多个录音角色进行对话时的非语音时段。

在步骤S52中，基于非语音时段，将各个单字划分至多个不同第一集合。

在步骤S53中，确定各个第一集合分别对应的语音时长，并基于第一标记和第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合。

在步骤S54中，基于第一标记和第二标记，分别对每一第二集合以及每一未被拆分的第一集合进行筛选，得到筛选后的各个集合。

在步骤S55中，基于筛选后的各个集合，得到目标文本数据。

本公开实施例中，每一第一集合中包含有相邻两个非语音时段之间的语音时段所对应的全部单字，每一第二集合对应的语音时长小于或等于预设时长阈值。

本公开实施例提供的方法，用于将各个单字划分至多个不同集合。其中，通过非语音时段及语音时长分别进行集合筛选，是为了在最终筛选后的集合与单句语音之间建立相应的关联关系。例如，以非语音时段为间隔的单字划分方式，可以理解为将对话连续不间断的一段语音视为一个单句，进一步通过语音时长为参考标准进行集合拆分，可以理解为将一段连续对话拆分为可拆分的多个短句，最终达到每个集合仅包括一个单句对应的各个单字的效果。

一示例中，可以通过如下方式将第一集合拆分为至少两个第二集合。以下为便于描述，将预配置的用于判断是否对第一集合进行拆分的单字数量阈值称为第一阈值。

图6是根据一示例性实施例示出的一种基于第一标记和第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合的方法流程图，如图6所示，包括以下步骤。

在步骤S61中，在语音时长大于预设时长阈值的第一集合中，确定各个单字中表征标点符号的目标单字。

在步骤S62中，响应于确定以目标单字为集合划分间隔，拆分后的各个第二集合分别满足所包含的单字数量大于第一阈值，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合。

本公开实施例提供的方法，以标点符号作为拆分间隔，将第一集合中的各个单字进一步拆分至至少两个第二集合。

一示例中，以第一集合中包含一个表征标点符号的目标单字为例，可以将标点符号之前的各个单字划分至一个第二集合，以及将标点符号之后的各个单字划分至另一个第二集合，以此实现将一个第一集合划分为两个第二集合。

另一示例中，以第一集合中包含两个表征标点符号的目标单字为例，可以将第一个标点符号之前的各个单字划分至第一个第二集合，将在第一个标点符号之后且在第二个标点符号之前的各个单字划分至第二个第二集合，以及将第二个标点符号之后的各个单字划分至第三个第二集合，以此实现将一个第一集合划分为三个第二集合。

上述实施例中，对于每一第二集合或未被拆分的第一集合，分别包含有单句语音对应的各个单字，其中包括语音重叠部分对应的第一单字。在此基础上，还可以通过对每一集合中各个单字的分析，确定每一集合对应的主话人，以此实现对单字集合的进一步筛选。

一示例中，不同文本数据包含的第二单字设置有不同的第二标记，对于第二集合或未被拆分的第一集合，可以通过如下方式做出进一步筛选。以下实施例中，目标集合为第二集合或未被拆分的第一集合。

为便于描述，以下将目标集合中所选定的文本数据称为目标文本数据，将目标集合中目标文本数据对应的全部单字称为第三单字，将目标集合中除目标文本数据外的其他任一文本数据所对应的全部单字称为第四单字，将第三单字的单字数量称为第一数量，以及将第四单字的数量称为第二数量。

图7是根据一示例性实施例示出的一种对目标集合进行文本筛选，得到筛选后的目标集合的方法流程图，如图7所示，包括以下步骤。

在步骤S71中，在目标集合中确定第三单字。

本公开实施例中，目标集合中目标文本数据对应的第三单字的数量，大于目标集合中除目标文本数据外的其他任一文本数据所对应的第四单字的数量。也即，第一数量大于第二数量。

在步骤S72中，筛除目标集合中除第三单字以外的全部第二单字，得到筛选后的目标集合。

示例的，第三单字为目标集合中目标文本数据对应的全部单字，包括目标文本数据对应的第一单字和目标文本数据对应的第二单字。

本公开实施例提供的方法，当目标集合中除第三单字以外的全部第二单字被筛除时，相当于在多个录音角色中确定了主话人。当对话场景中存在语音重叠时，目标集合中对应语音重叠时段的不同第二单字中，除主话人以外的其他录音角色所对应的各个第二单字均被滤除，当对话场景中不存在语音重叠时，除主话人以外的其他录音角色所对应的各个单字可以被保留。至此，筛选后的目标集合中，一方面包括主话人对应的各个单字，另一方面包括除主话人以外的其他对话角色对应的各个单字。

在此基础上，当除主话人以外的其他对话角色对应的各个单字数量满足作为单句的条件时，可以对筛选后的目标集合进行进一步拆分，以下提供了一种可行的实施方式。

本公开以下为便于描述，将用于对筛选后的目标集合中的第四单字进行进一步筛选而设置的单字数量阈值，称为第二阈值，且将用于划分第四单字的单字集合称为第三集合。

图8是根据一示例性实施例示出的一种对目标集合进行文本筛选，得到筛选后的目标集合的方法流程图，如图8所示，包括以下步骤。

在步骤S81中，响应于确定目标集合中存在相邻的第四单字，且相邻的第四单字的单字数量大于第二阈值，将相邻的各个第四单字划分至第三集合。

在步骤S82中，将第三集合作为筛选后的集合。

本公开实施例中，目标集合中的单字分别满足以下四种情况中一种。

情况一：单字所对应的语音时段处于重叠语音时段，且单字所属录音角色为主话人。

情况二：单字所对应的语音时段处于重叠语音时段，且单字所属录音角色非主话人。

情况三：单字所对应的语音时段处于非重叠语音时段，且单字所属录音角色为主话人。

情况四：单字所对应的语音时段处于非重叠语音时段，且单字所属录音角色非主话人。

本公开实施例提供的方法，将满足情况一和情况三的单字保留于目标集合，将满足情况二的单字筛除。而对于满足情况三的单字，根据相邻单字的数量选择筛除或单独划分至新的单字集合。

在通过上述方式完成对单字的筛选时，筛选后的集合包括第二集合、第三集合、以及未被筛选的第一集合。在此基础上，可进一步将第二集合、第三集合、以及未被筛选的第一集合进行整理，得到对于语音重叠部分明确标识有主话人及相应单句的目标文本数据。

本公开实施例提供的方法，可以应用于至少两个录音角色在同一对话场景中进行对话以生成对话样本数据。为便于理解，如下以对话场景中包括三个录音角色为例，对文本数据的处理方式进行示例性说明。

示例的，对于对话场景中包括三个录音角色的情况，所录制的语音数据包括一个第一语音数据以及三个第二语音数据。由于文本数据是通过对第二语音数据进行文本识别得到的，因此，通过语音数据得到的文本数据，包括与第二语音数据一一对应的三个文本数据。

示例的，图9、图10、及图11分别示出了一个文本数据中包含的数据内容。其中，如图9、10、及11所示，对于每一文本数据，分别标识有各个单句对应的文本、各个单句分别对应的语音时段、以及各个单句对应的编号。例如，以图10为例，单句对应的文本可以是“这个行业好像是不是太冷啊，”，与其对应的编号为0004，录音角色录制该文本时对应的语音时段为42.919秒至45.79秒。当然，除上述内容外，文本数据中还标记有每一单句中各个单字分别对应语音时段（图中未示出）。例如，针对文本为“这个行业好像是不是太冷啊，”的单句，单字“啊”对应的语音时段例如可以是45秒至45.79秒。此外，（sil）表示文本内容为空，所对应的时段即为非语音时段。

示例的，对于图9、图10、及图11分别示出的文本数据，分别定义为文本数据1、文本数据2和文本数据3。首先，选取两个文本数据进行逐字合并，如文本数据1和文本数据2中第一个非静音时段的起始时刻，将起始时刻较早的文本数据标记为first_spk_list，另一个标记为second_spk_list。

其中，将合并后的文本数据按静音时段划分至不同集合。在通过静音时段划分至不同集合的基础上，可以进一步通过单句对应的语音时长，以预设时长阈值为标准，对得到分句后得到的各个单句进行再次划分，以将所包含的各个单字划分至不同集合。例如，预设时长阈值可以为15秒，可以在单句对应的语音时长<=15秒的情况下保留单句，或是在单句对应的语音时长>15秒的情况下划分至不同集合。更进一步的，对于单句对应的语音时长>15秒的情况，若分句得到的两个单句各自包含的单字个数<10则不划分至不同集合。否则，划分至不同集合。通过上述方式进行划分，可以得到上述实施例中涉及的第二集合，以及未被拆分的第一集合。

示例的，对于划分后的各个集合中，每一单字分别设置有第一标记（示例以overlap表示）或第二标记（示例以tag1或tag2表示，其中tag1与tag2分别表示不同录音角色对应的第二单字）。

在此基础上，若集合中各个单字分别设置了tag1，则该集合的主话人为tag1对应的录音角色。若集合中各个单字的设置都为tag2，则该集合的主话人为tag2对应的录音角色。若集合中各个单字分别设置tag1或overlap，则在设置有overlap的各个单字中，仅保留tag1对应的录音角色所录制的单字，其他单字筛出集合，该集合的主话人为tag1对应的录音角色。若集合中各个单字分别设置tag2或overlap，则在设置有overlap的各个单字中，仅保留tag2对应的录音角色所录制的单字，其他单字筛出集合，该集合的主话人为tag2对应的录音角色。若集合中各个单字分别设置有tag1、tag2、或overlap，则比较设置有tag1的单字与设置有tag2的单字之间的单字数量，单字数量多的标记对应的录音角色即为该集合的主话人。其中，以主话人为tag1对应的录音角色为例，对于该集合，还会进一步在设置有overlap的各个单字中，筛除tag2对应的录音角色对应的各个第一单字。此外，若集合中数量较少的单字对应的标记数量>5，且所标记的各个单字彼此相邻，则进一步将数量较少的各个单字单独划分至进行的单字集合，否则直接从该句中删除个数少的标记。若集合中各个单字分别设置有tag1或tag2，若个数少的人的标记相邻的个数>5,则按相邻标记首尾断句，否则直接从该句中删除个数少的标记。

基于上述文本处理方式，如图9、图10及图11所示的三个文本数据，可被整理为如图12所示的目标文本数据。其中，对于目标文本数据中的标记，一组“overlap”和“/overlap”之间包含的文本对应对话场景中的重叠语音部分。

基于相同的构思，本公开实施例还提供一种数据处理装置。

可以理解的是，本公开实施例提供的数据处理装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图13是根据一示例性实施例示出的一种数据处理装置框图。参照图13，该装置100包括获取单元101和处理单元102。

获取单元101，用于获取第一语音数据和多个第二语音数据。其中，第一语音数据和第二语音数据由多个录音角色在同一对话场景、同一时段内录制得到，第一语音数据包含全部录音角色录制的对话内容，多个第二语音数据中各个第二语音数据分别包含单一录音角色录制的对话内容，且多个第二语音数据与多个录音角色一一对应。处理单元102，基于第一语音数据和多个第二语音数据，生成用于训练语音识别模型的对话样本数据。

一种实施方式中，处理单元102采用如下方式基于第一语音数据和多个第二语音数据，生成用于训练语音识别模型的对话样本数据：将第一语音数据与多个第二语音数据中各个第二语音数据分别进行对齐，并基于对齐后的各个语音数据，得到语音数据集。分别对各个第二语音数据进行语音识别，得到与多个第二语音数据一一对应的多个文本数据，并对多个文本数据进行合并，得到文本数据集。将语音数据集和文本数据集作为对话样本数据。

一种实施方式中，处理单元102采用如下方式将第一语音数据与目标语音数据进行对齐，目标语音数据为各个第二语音数据中任一第二语音数据：对第一语音数据进行语音特征提取，得到第一语音数据中各个语音帧分别对应的第一特征数据，以及对目标语音数据进行语音特征提取，得到目标语音数据中各个语音帧分别对应的第二特征数据。基于第一特征数据与第二特征数据之间的特征相似度，在第一特征数据中确定目标第一特征数据，以及在第二特征数据中确定目标第二特征数据，目标第一特征数据与目标第二特征数据之间的特征相似度大于或等于特征相似度阈值。将目标第一特征数据对应的语音帧与目标第二特征数据对应的语音帧进行对齐，以使第一语音数据与目标语音数据对齐。

一种实施方式中，文本数据包括文本中包含的各个单字，以及包括对话过程中录制各个单字分别对应的语音时段。处理单元102采用如下方式对多个文本数据进行合并，得到目标文本数据：比对各个单字各自对应的语音时段。响应于基于所比对的语音时段，确定各个单字中存在第一单字，第一单字对应的语音时段与其他单字对应的语音时段之间存在重叠时段，为第一单字设置第一标记。响应于基于所比对的语音时段，确定各个单字中存在第二单字，第二单字对应的语音时段与其他单字对应的语音时段之间不存在重叠时段，为第二单字设置第二标记。基于第一标记和第二标记，对各个单字进行筛选，得到目标文本数据。

一种实施方式中，处理单元102采用如下方式基于第一标记和第二标记，对各个单字进行筛选，得到目标文本数据：基于多个文本数据中各个单字分别对应的语音时段，确定多个录音角色进行对话时的非语音时段。基于非语音时段，将各个单字划分至多个不同第一集合。其中，每一第一集合中包含有相邻两个非语音时段之间的语音时段所对应的全部单字。确定各个第一集合分别对应的语音时长，并基于第一标记和第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合。其中，每一第二集合对应的语音时长小于或等于预设时长阈值。基于第一标记和第二标记，分别对每一第二集合以及每一未被拆分的第一集合进行筛选，得到筛选后的各个集合。基于筛选后的各个集合，得到目标文本数据。

一种实施方式中，处理单元102采用如下方式基于第一标记和第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合：在语音时长大于预设时长阈值的第一集合中，确定各个单字中表征标点符号的目标单字。响应于确定以目标单字为集合划分间隔，拆分后的各个第二集合分别满足所包含的单字数量大于第一阈值，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合。

一种实施方式中，不同文本数据包含的第二单字设置有不同的第二标记。处理单元102采用如下方式对目标集合进行文本筛选，得到筛选后的目标集合，目标集合为第二集合或未被拆分的第一集合：在目标集合中确定第三单字，第三单字为目标集合中目标文本数据所对应的全部单字，第三单字的第一数量大于第四单字的第二数量，第四单字为目标集合中除目标文本数据外的其他任一文本数据所对应的全部单字。筛除目标集合中除第三单字以外的全部第二单字，得到筛选后的目标集合。

一种实施方式中，处理单元102还用于：响应于确定目标集合中存在相邻的第四单字，且相邻的第四单字的单字数量大于第二阈值，将相邻的各个第四单字划分至第三集合。将第三集合作为筛选后的集合。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图14是根据一示例性实施例示出的一种用于数据处理的电子设备200框图。

如图14所示，本公开的一个实施方式提供了一种电子设备200。其中，该电子设备200包括存储器201、处理器202、输入/输出(Input/Output，I/O)接口203。其中，存储器201，用于存储指令。处理器202，用于调用存储器201存储的指令执行本公开实施例的数据处理方法。其中，处理器202分别与存储器201、I/O接口203连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器201可用于存储程序和数据，包括本公开实施例中设计的数据处理方法的程序，处理器202通过运行存储在存储器201的程序从而执行电子设备200的各种功能应用以及数据处理。

本公开实施例中处理器202可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器202可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本公开实施例中的存储器201可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read OnlyMemory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid State Drive，SSD)等。

本公开实施例中，I/O接口203可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备200的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本公开实施例中I/O接口203可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本公开提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

在一些实施方式中，本公开提供了一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序被处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本公开的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，除非有特殊说明，“连接”包括两者之间不存在其他构件的直接连接，也包括两者之间存在其他元件的间接连接。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利范围指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利范围来限制。

Claims

1.一种数据处理方法，其特征在于，所述数据处理方法包括：

获取第一语音数据和多个第二语音数据；其中，所述第一语音数据和所述第二语音数据由多个录音角色在同一对话场景、同一时段内录制得到，所述第一语音数据包含全部所述录音角色录制的对话内容，所述多个第二语音数据中各个第二语音数据分别包含单一所述录音角色录制的对话内容，且所述多个第二语音数据与所述多个录音角色一一对应；

基于所述第一语音数据和所述多个第二语音数据，生成用于训练语音识别模型的对话样本数据。

2.根据权利要求1所述的数据处理方法，其特征在于，所述基于所述第一语音数据和所述多个第二语音数据，生成用于训练语音识别模型的对话样本数据，包括：

将所述第一语音数据与所述多个第二语音数据中各个第二语音数据分别进行对齐，并基于对齐后的各个语音数据，得到语音数据集；

分别对各个所述第二语音数据进行语音识别，得到与所述多个第二语音数据一一对应的多个文本数据，并对所述多个文本数据进行合并，得到文本数据集；

将所述语音数据集和所述文本数据集作为所述对话样本数据。

3.根据权利要求2所述的数据处理方法，其特征在于，采用如下方式将所述第一语音数据与目标语音数据进行对齐，所述目标语音数据为所述各个第二语音数据中任一第二语音数据：

对所述第一语音数据进行语音特征提取，得到所述第一语音数据中各个语音帧分别对应的第一特征数据，以及对所述目标语音数据进行语音特征提取，得到所述目标语音数据中各个语音帧分别对应的第二特征数据；

基于所述第一特征数据与所述第二特征数据之间的特征相似度，在所述第一特征数据中确定目标第一特征数据，以及在所述第二特征数据中确定目标第二特征数据，所述目标第一特征数据与所述目标第二特征数据之间的特征相似度大于或等于特征相似度阈值；

将所述目标第一特征数据对应的语音帧与所述目标第二特征数据对应的语音帧进行对齐，以使所述第一语音数据与所述目标语音数据对齐。

4.根据权利要求2所述的数据处理方法，其特征在于，所述文本数据包括文本中包含的各个单字，以及包括对话过程中记录所述各个单字分别对应的语音时段；

所述对所述多个文本数据进行合并，得到目标文本数据，包括：

比对所述各个单字各自对应的语音时段；

响应于基于所比对的语音时段，确定所述各个单字中存在第一单字，所述第一单字对应的语音时段与其他单字对应的语音时段之间存在重叠时段，为所述第一单字设置第一标记；

响应于基于所比对的语音时段，确定所述各个单字中存在第二单字，所述第二单字对应的语音时段与其他单字对应的语音时段之间不存在重叠时段，为所述第二单字设置第二标记；

基于所述第一标记和所述第二标记，对所述各个单字进行筛选，得到所述目标文本数据。

5.根据权利要求4所述的数据处理方法，其特征在于，基于所述第一标记和所述第二标记，对所述各个单字进行筛选，得到所述目标文本数据，包括：

基于所述多个文本数据中所述各个单字分别对应的语音时段，确定所述多个录音角色进行对话时的非语音时段；

基于所述非语音时段，将所述各个单字划分至多个不同第一集合；其中，每一所述第一集合中包含有相邻两个非语音时段之间的语音时段所对应的全部单字；

确定各个所述第一集合分别对应的语音时长，并基于所述第一标记和所述第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合；其中，每一所述第二集合对应的语音时长小于或等于所述预设时长阈值；

基于所述第一标记和所述第二标记，分别对每一所述第二集合以及每一未被拆分的第一集合进行筛选，得到筛选后的各个集合；

基于所述筛选后的各个集合，得到所述目标文本数据。

6.根据权利要求5所述的数据处理方法，其特征在于，所述基于所述第一标记和所述第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合，包括：

在语音时长大于所述预设时长阈值的第一集合中，确定所述各个单字中表征标点符号的目标单字；

响应于确定以所述目标单字为集合划分间隔，拆分后的各个第二集合分别满足所包含的单字数量大于第一阈值，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合。

7.根据权利要求5或6所述的数据处理方法，其特征在于，不同所述文本数据包含的第二单字设置有不同的第二标记；

采用如下方式对目标集合进行文本筛选，得到筛选后的目标集合，所述目标集合为所述第二集合或未被拆分的第一集合：

在所述目标集合中确定第三单字，所述第三单字为所述目标集合中目标文本数据所对应的全部单字，所述第三单字的第一数量大于第四单字的第二数量，所述第四单字为所述目标集合中除所述目标文本数据外的其他任一文本数据所对应的全部单字；

筛除所述目标集合中除所述第三单字以外的全部第二单字，得到筛选后的目标集合。

8.根据权利要求7所述的数据处理方法，其特征在于，所述方法还包括：

响应于确定所述目标集合中存在相邻的第四单字，且所述相邻的第四单字的单字数量大于第二阈值，将所述相邻的各个第四单字划分至第三集合；

将所述第三集合作为筛选后的集合。

9.一种数据处理装置，其特征在于，所述数据处理装置包括：

获取单元，用于获取第一语音数据和多个第二语音数据；其中，所述第一语音数据和所述第二语音数据由多个录音角色在同一对话场景、同一时段内录制得到，所述第一语音数据包含全部所述录音角色录制的对话内容，所述多个第二语音数据中各个第二语音数据分别包含单一所述录音角色录制的对话内容，且所述多个第二语音数据与所述多个录音角色一一对应；

处理单元，基于所述第一语音数据和所述多个第二语音数据，生成用于训练语音识别模型的对话样本数据。

10.根据权利要求9所述的数据处理装置，其特征在于，所述处理单元采用如下方式基于所述第一语音数据和所述多个第二语音数据，生成用于训练语音识别模型的对话样本数据：

11.根据权利要求10所述的数据处理装置，其特征在于，所述处理单元采用如下方式将所述第一语音数据与目标语音数据进行对齐，所述目标语音数据为所述各个第二语音数据中任一第二语音数据：

12.根据权利要求10所述的数据处理装置，其特征在于，所述文本数据包括文本中包含的各个单字，以及包括对话过程中记录所述各个单字分别对应的语音时段；

所述处理单元采用如下方式对所述多个文本数据进行合并，得到目标文本数据：

比对所述各个单字各自对应的语音时段；

13.根据权利要求12所述的数据处理装置，其特征在于，所述处理单元采用如下方式基于所述第一标记和所述第二标记，对所述各个单字进行筛选，得到所述目标文本数据：

基于所述筛选后的各个集合，得到所述目标文本数据。

14.根据权利要求13所述的数据处理装置，其特征在于，所述处理单元采用如下方式基于所述第一标记和所述第二标记，将语音时长大于预设时长阈值的第一集合拆分为至少两个第二集合：

15.根据权利要求13或14所述的数据处理装置，其特征在于，不同所述文本数据包含的第二单字设置有不同的第二标记；

所述处理单元采用如下方式对目标集合进行文本筛选，得到筛选后的目标集合，所述目标集合为所述第二集合或未被拆分的第一集合：

16.根据权利要求15所述的数据处理装置，其特征在于，所述处理单元还用于：

将所述第三集合作为筛选后的集合。

17.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-8中任意一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-8中任意一项所述的方法。