CN113963694A

CN113963694A - 一种语音识别方法、语音识别装置、电子设备及存储介质

Info

Publication number: CN113963694A
Application number: CN202010700307.8A
Authority: CN
Inventors: 姜雪婷
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2022-01-21

Abstract

本申请公开了一种语音识别方法、语音识别装置，电子设备及存储介质，所述方法包括：获取当前语音识别场景下的多个语音数据；多个语音数据包括多个语音采集器采集的当前语音识别场景下的多个对象的语音数据；多个语音采集器位于当前语音识别场景中的不同位置；基于多个语音数据，生成与多个对象中的每一对象关联的目标语音数据；每一对象关联的目标语音数据来源于多个语音数据中的至少两个语音数据；基于多个目标语音数据生成语音识别结果，并输出语音识别结果；如此，无需人为的分析语音数据，减少了语音数据的计算量，保证了语音分析结果的准确度。

Description

一种语音识别方法、语音识别装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，尤其是涉及一种语音识别方法、语音识别装置、电子设备及存储介质。

背景技术

随着语音识别技术的快速发展，语音识别已成为人机交互的重要方式。相关技术中常用的语音识别方式包括人为分析方式和多语音引擎识别方式。

采用人为分析方式时，在一些场合如会议中，采集到会议人员的语音信息后，人为的分析出各人员所对应的语音信息，该方法存在数据分析计算量大或分析结果不准确的问题。采用多语音引擎识别方式时，在一些场合如会议中，采集到会议人员的语音信息后，将语音信息输入多个语音识别引擎中，获得每个语音识别引擎对应的识别结果的置信度，最后确定置信度最高的识别结果为最终的语音识别结果，该方法在语音段过长的情况下，存在识别性能较低的问题。可见，相关技术中的人为分析方式存在数据分析计算量大或分析结果不准确，多语音引擎识别方式存在识别性能较低的问题。

发明内容

本申请期望提供一种语音识别方法、语音识别装置、电子设备及存储介质，解决了相关技术中人为分析方式存在数据分析计算量大或分析结果不准确，多语音引擎识别方式存在识别性能较低的问题。

本申请的技术方案是这样实现的：

本申请提供一种语音识别方法，所述方法包括：

获取当前语音识别场景下的多个语音数据；所述多个语音数据包括多个语音采集器采集的所述当前语音识别场景下的多个对象的语音数据；所述多个语音采集器位于所述当前语音识别场景中的不同位置；

基于所述多个语音数据，生成与多个对象中的每一对象关联的目标语音数据；所述每一对象关联的目标语音数据来源于所述多个语音数据中的至少两个语音数据；

基于多个所述目标语音数据生成语音识别结果，并输出所述语音识别结果。

可选的，所述基于所述多个语音数据，生成与多个对象中的每一对象关联的目标语音数据，包括：

将所述多个语音数据中的每一语音数据进行分割，得到所述每一语音数据分割后的每一子语音数据集合；所述每一子语音数据集合包括多段语音数据；

获取所述每一子语音数据集合关联的多个声纹特征；

基于所述每一子语音数据集合和所述每一子语音数据集合关联的多个声纹特征，生成所述每一对象关联的目标语音数据。

可选的，所述基于所述每一子语音数据集合和所述每一子语音数据集合关联的多个声纹特征，生成所述每一对象关联的目标语音数据，包括：

确定多个所述子语音数据集合中具有同一声纹特征且具有同一时间戳的多个子语音数据；

从所述多个子语音数据中确定目标子语音数据，得到同一声纹特征关联的多个目标子语音数据；

基于所述多个目标子语音数据以及所述多个目标子语音数据对应的时间戳，生成所述每一对象关联的目标语音数据。

可选的，所述目标子语音数据为所述多个子语音数据中具有最大振幅的语音数据。

可选的，所述基于所述目标语音数据生成语音识别结果之前，所述方法还包括：

获取所述多个语音采集器在所述当前语音识别场景中的第一位置信息；

相应的，所述基于多个所述目标语音数据生成语音识别结果，还包括：

基于所述第一位置信息和多个所述目标语音数据，确定所述多个对象中每一对象在所述当前语音识别场景中的第二位置信息；

基于多个所述第二位置信息和多个所述目标语音数据，生成语音识别结果。

可选的，所述基于多个所述第二位置信息和多个所述目标语音数据，生成语音识别结果，包括：

对多个所述目标语音数据进行语音情感识别，得到多个第一识别结果；

获取多个所述目标语音数据关联的多个目标文本数据；

对多个所述目标文本数据进行语义识别，得到多个第二识别结果；

基于多个所述第一识别结果、多个所述第二识别结果、多个所述目标文本数据和多个所述第二位置信息，生成所述语音识别结果。

可选的，所述基于多个所述第一识别结果、多个所述第二识别结果、多个所述目标文本数据和多个所述第二位置信息，生成所述语音识别结果，包括：

基于每一对象关联的所述第一识别结果和每一对象关联的所述第二识别结果，提取每一对象关联的所述目标文本数据的特征信息；

基于每一对象关联的特征信息和每一对象关联的所述第二位置信息，生成方位语音图；所述语音识别结果包括所述方位语音图。

本申请提供一种语音识别装置，所述语音识别装置包括：

获取单元，用于获取当前语音识别场景下的多个语音数据；所述多个语音数据包括多个语音采集器采集的所述当前语音识别场景下的多个对象的语音数据；所述多个语音采集器位于所述当前语音识别场景中的不同位置；

第一处理单元，用于基于所述多个语音数据，生成与多个对象中的每一对象关联的目标语音数据；所述每一对象关联的目标语音数据来源于所述多个语音数据中的至少两个语音数据；

第二处理单元，用于基于多个所述目标语音数据生成语音识别结果，并输出所述语音识别结果。

本申请提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令，以实现如上述所述的语音识别方法。

本申请提供一种计算机存储介质，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述所述的语音识别方法。

本申请提供的一种语音识别方法、语音识别装置、电子设备及存储介质，获取当前语音识别场景下的多个语音数据；多个语音数据包括多个语音采集器采集的当前语音识别场景下的多个对象的语音数据；多个语音采集器位于当前语音识别场景中的不同位置；基于多个语音数据，生成与多个对象中的每一对象关联的目标语音数据；每一对象关联的目标语音数据来源于多个语音数据中的至少两个语音数据；基于多个目标语音数据生成语音识别结果，并输出语音识别结果；也就是说，本申请基于获取的当前语音识别场景下处于不同位置的多个语音采集器所采集的包括多个对象的多个语音数据，生成与多个对象中的每一对象关联的目标语音数据，进而基于目标语音数据生成并输出语音识别结果；如此，无需人为的分析语音数据，实现了语音数据的智能分析，减少了语音数据的计算量，提高了识别性能，保证了语音分析结果的准确度。

附图说明

图1为本申请实施例提供的一种语音识别方法的流程示意图；

图2为本申请实施例提供的另一种语音识别方法的流程示意图；

图3中(a)至(c)为本申请实施例提供的多个语音数据进行分割的过程示意图；

图4为本申请实施例提供的又一种语音识别方法的流程示意图；

图5为本申请实施例提供的一种语音识别装置的结构示意图；

图6为本申请实施例提供的一种语音识别处理装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

应理解，说明书通篇中提到的“本申请实施例”或“前述实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“本申请实施例中”或“在前述实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中应。在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例提供一种语音识别方法，应用于电子设备，参照图1所示，该方法包括以下步骤：

步骤101、获取当前语音识别场景下的多个语音数据。

其中，多个语音数据包括多个语音采集器采集的当前语音识别场景下的多个对象的语音数据；多个语音采集器位于当前语音识别场景中的不同位置。

本申请实施例中，当前语音识别场景可以理解为能够获取到语音数据的场景；示例性的，当前语音识别场景可以为输入法、会议和/或法院庭审时的实时字幕上屏的场景；当前语音识别场景还可以为已经录制完毕的音/视频字幕配置和/或实时性要求不高的客服语音质检和用户原创(UGC，User Generated Content)语音内容审查场景，本申请不做具体限定。

本申请实施例中，电子设备可以通过设置的多个语音采集器采集当前语音识别场景下多个对象的语音数据。需要说明的是，多个语音采集器位于当前语音识别场景中的不同位置，且同一语音采集器在当前语音识别场景下可以采集多个对象的语音数据，不同的语音采集器在当前语音识别场景下可以采集同一对象的语音数据。

在实际应用中，语音采集器的位置可以理解为在当前语音识别场景下，为采集到质量较高的语音数据用户提前设定的位置。同时，多个语音采集器中每两个语音采集器之间的距离满足预设距离。其中，预设距离可以是电子设备在获取多个语音数据之前，与语音采集器的型号对应的距离；预设距离也可以是电子设备在获取多个语音数据之前，用户提前设置的距离。预设距离无论是与语音采集器型号对应的距离，还是用户提前设置的距离，均以语音采集器采集到较好的语音信号为准。示例性的，若用户设置四个型号相同的语音采集器，可以在四个方向即东南西北方向各设置一个语音采集器，且四个语音采集器中每两个语音采集器之间的距离均为两米，进一步地，对每一语音采集器的位置进行标记并存储在电子设备中。

示例性的，某会议室的会议桌上安装了四个相同型号语音采集器分别为A、B、C、D，以及参加会议的人员甲、乙、丙、丁；其中，语音采集器A位于会议桌的正东方向，语音采集器B位于会议桌的正南方向，语音采集器C位于会议桌的正西方向，语音采集器D位于会议桌的正北方向，且语音采集器A、B、C、D中每两个语音采集器之间的距离均为两米。当会议人员在该会议室进行开会时，语音采集器A和语音采集器B可以同时采集到对象甲的语音数据，语音采集器A也可以同时采集到对象甲和对象乙的语音数据，且每一语音采集器所采集的语音数据都会存储在电子设备中。

步骤102、基于多个语音数据，生成与多个对象中的每一对象关联的目标语音数据。

其中，每一对象关联的目标语音数据来源于多个语音数据中的至少两个语音数据。

本申请实施例中，目标语音数据可以理解为与多个对象中的同一对象关联的语音数据。

本申请实施例中，电子设备获取到当前语音识别场景下的多个语音数据后，基于多个语音数据中的至少两个语音数据，获取与多个对象中同一对象的关联的语音数据，进而生成与多个对象中的每一对象关联的目标语音数据。

步骤103、基于多个目标语音数据生成语音识别结果，并输出语音识别结果。

本申请实施例中，语音识别结果可以理解为将目标语音数据通过语音识别方法得到的结果。

在实际应用中，电子设备生成与多个对象中的每一对象关联的目标语音数据后，通过语音识别方法将多个目标语音数据生成语音识别结果，并输出语音识别结果。其中，语音识别方法包括基于语言学和声学的方法、随机模型法以及概率语法分析等；语音识别方法还包括随机模型法。本申请实施例中，语音识别方法优选随机模型法将多个目标语音数据生成语音识别结果。

本申请所提供的一种语音识别方法，获取当前语音识别场景下的多个语音数据；多个语音数据包括多个语音采集器采集的当前语音识别场景下的多个对象的语音数据；多个语音采集器位于当前语音识别场景中的不同位置；基于多个语音数据，生成与多个对象中的每一对象关联的目标语音数据；每一对象关联的目标语音数据来源于多个语音数据中的至少两个语音数据；基于多个目标语音数据生成语音识别结果，并输出语音识别结果；也就是说，本申请实施例中，基于获取的当前语音识别场景下处于不同位置的多个语音采集器所采集的包括多个对象的多个语音数据，生成与多个对象中的每一对象关联的目标语音数据，进而基于目标语音数据生成并输出语音识别结果；如此，无需人为的分析语音数据，减少了语音数据的计算量，保证了语音分析结果的准确度。

基于前述实施例，本申请实施例提供一种语音识别方法，应用于电子设备，参照图2所示，该方法包括以下步骤：

步骤201、获取当前语音识别场景下的多个语音数据。

步骤202、将多个语音数据中的每一语音数据进行分割，得到每一语音数据分割后的每一子语音数据集合。

其中，每一子语音数据集合包括多段语音数据。

本申请实施例中，电子设备将多个语音数据中的每一语音数据进行分割，得到每一语音数据分割后的包括多段语音数据的每一子语音数据集合。

在实际应用中，步骤202将多个语音数据中的每一语音数据进行分割，得到每一语音数据分割后的每一子语音数据集合，可以通过如下步骤进行实现：

步骤S1、获取多个语音数据中的每一语音数据中语句间的间断时间，若间断时间大于预设间断时间，将多个语音数据中的每一语音数据进行分割，得到每一语音数据分割后第一子语音数据集合。

其中，第一子语音数据集合包括多段语音数据。

本申请实施例中，第一子语音数据集合可以理解为每一语音数据分割后所得到的语音数据集合。

本申请实施例中，预设间断时间可以是在对多个语音数据中的每一语音数据进行分割之前，预先存储在电子设备中与语音数据分割模式对应的间断时间；预设间断时间也可以是电子设备确定进入语音数据分割状态后，用户实时设置的间断时间。可以理解的，无论是预先存储的间断时间还是实时设置的间断时间，均以获得较好的语音数据为准。

本申请实施例中，电子设备获取到当前语音识别场景下的多个语音数据后，获取多个语音数据中的每一语音数据中语句间的间断时间，将每一语音数据中语句间的间断时间与预设间断时间进行比较，若语句间的间断时间大于预设间断时间，则将多个语音数据中的每一语音数据中在语句间的间断处进行分割，得到每一语音数据分割后的包括多段语音数据的第一子语音数据集合。

在实际应用中，如图3中(a)和(b)所示，若电子设备获取到当前语音识别场景下的多个语音数据，如图3中(a)所示，获取多个语音数据中的每一语音数据中的语句间的间断时间，将每一语音数据中语句间的间断时间与预设间断时间进行比较，示例性的，预设间断时间可以设置为2秒，若语句间的间断时间超过2秒，则将多个语音数据中的每一语音数据中在语句间的间断处进行分割，如图3中(b)所示的在实线处进行分割，得到每一语音数据分割后的包括多段语音数据的第一子语音数据集合。

步骤S2、对每一语音数据分割后的第一子语音数据集合中的每段语音数据按照预设时间间隔进行再次分割，得到每一语音数据分割后的每一子语音数据集合。

其中，第一子语音数据集合包括每一子语音数据集合。

本申请实施例中，预设时间间隔可以是在对第一子语音数据集合进行分割之前，预先存储在电子设备中与对第一子语音数据集合分割模式对应的时间间隔；预设时间间隔也可以是电子设备确定进入对第一子语音数据集合进行分割的状态后，用户实时设置的时间间隔。可以理解的，无论是预先存储的时间间隔还是实时设置的时间间隔，均以获得较好的语音数据为准。

本申请实施例中，电子设备得到第一子语音数据集合后，对每一语音数据分割后的第一子语音数据集合中的每段语音数据按照预设的时间间隔进行再次分割，得到每一语音数据分割后的每一子语音数据集合。

在实际应用中，如图3中(b)和(c)所示，电子设备得到第一子语音数据集合，如图3中(b)所示，按照预设的时间间隔将每一语音数据分割后的第一子语音数据集合中的每段语音数据进行再次分割，示例性的，预设时间间隔可以设置为10-30ms，将第一子语音数据集合中的每段语音数据分割为更小时间段的语音数据，如图3中(c)所示的在虚线处进行分割，得到包括多段语音数据的每一语音数据分割后的每一子语音数据集合。需要说明的是，对第一子语音数据集合中的每段语音数据进行再次分割，得到更小时间段的语音数据，以便能够更加精确的得到每一对象的语音识别结果。

步骤203、获取每一子语音数据集合关联的多个声纹特征。

本申请实施例中，声纹特征可以理解为具有不同对象所具有的特征，声纹还可以理解为具有身份识别的特征。声纹特征具有特定性，还具有稳定性。

本申请实施例中，电子设备获取每一子语音数据集合所关联的多个声纹特征，并基于每一子语音数据集合所关联的多个声纹特征确定在当前语音识别场景下的对象的数目。需要说明的是，同一对象具有相同的声纹特征，电子设备可以基于声纹特征的数量确定在当前语音识别场景下的对象的数目。

步骤204、基于每一子语音数据集合和每一子语音数据集合关联的多个声纹特征，生成每一对象关联的目标语音数据。

本申请实施例中，步骤204基于每一子语音数据集合和每一子语音数据集合关联的多个声纹特征，生成每一对象关联的目标语音数据，可以通过如下步骤实现：

步骤A1、确定多个子语音数据集合中具有同一声纹特征且具有同一时间戳的多个子语音数据。

本申请实施例中，同一声纹特征可以理解为同一对象具有相同的声纹特征；多个子语音数据可以理解为从多个子语音数据集合中选择具有同一声纹特征以及具有同一时间戳的语音数据；也就是说，多个子语音数据中包括的是同一对象在同一时间点或者同一时间段内所获得的语音数据。

本申请实施例中，电子设备在获取每一子语音数据集合关联的多个声纹特征后，确定多个子语音数据集合中具有同一声纹特征且具有同一时间戳的多个子语音数据。

步骤A2、从多个子语音数据中确定目标子语音数据，得到同一声纹特征关联的多个目标子语音数据。

其中，目标子语音数据为多个子语音数据中具有最大振幅的语音数据。

本申请实施例中，振幅是声压与静止压强之差的最大值。其中声压是声波在空气中传播时形成压缩和稀疏交替变化的压力增值。在实际应用中，语音采集器采集语音数据的原理就是将空气中的压力变动波转化成电信号的变动。

本申请实施例中，电子设备从多个子语音数据中确定具有最大振幅的目标子语音数据，得到同一声纹特征关联的多个目标子语音数据，可以通过如下方式实现：

电子设备获取到具有同一声纹特征且具有同一时间戳的多个子语音数据的每一振幅，并将多个子语音数据的每一振幅进行比较，从多个子语音数据中获得最大振幅的子语音数据作为目标子语音数据，进而基于目标子语音数据得到同一声纹特征关联的多个目标子语音数据。需要说明的是，若多个子语音数据中存在至少两个振幅相同的子语音数据，从至少两个振幅相同的子语音数据中获取任一振幅的子语音数据作为目标子语音数据，进而基于目标子语音数据得到同一声纹特征关联的多个目标子语音数据。

示例性的，电子设备获取到具有同一声纹特征且具有同一时间戳的子语音数据T1、子语音数据T2以及子语音数据T3，且得到子语音数据T1的振幅为A1、子语音数据T2的振幅为A2以及子语音数据T3的振幅为A3，将子语音数据T1的振幅A1、子语音数据T2的振幅A2以及子语音数据T3的振幅A3进行比较，得到如下两种情况的比较结果，情况一：振幅A3>振幅A2>振幅A1，则表示子语音数据T3的振幅A3为最大振幅，将子语音数据T3作为目标子语音数据；情况二：振幅A3＝振幅A2>振幅A1，则表示子语音数据T3的振幅A3与子语音数据T2的振幅A2均为最大振幅，从子语音数据T3的振幅A3与子语音数据T2的振幅A2中获取任一振幅的子语音数据作为目标子语音数据，如获取振幅A2的子语音数据T2作为目标子语音数据。需要说明的是，本申请实施例所列举的情况仅方便用户理解本方案，并不完全代表本申请所要保护的具体实现方式。

步骤A3、基于多个目标子语音数据以及多个目标子语音数据对应的时间戳，生成每一对象关联的目标语音数据。

本申请实施例中，电子设备得到同一声纹特征关联的多个目标子语音数据，以及多个目标子语音数据对应的时间戳，生成每一对象关联的目标语音数据。

步骤205、基于多个目标语音数据生成语音识别结果，并输出语音识别结果。

本申请实施例中，步骤205基于多个目标语音数据生成语音识别结果，并输出语音识别结果，可通过如下步骤实现：

步骤B1、获取多个语音采集器在当前语音识别场景中的第一位置信息。

本申请实施例中，第一位置信息可以理解为语音采集器设置在当前语音识别场景中位置的信息。其中，第一位置信息可以是多个语音采集器在当前语音识别场景下预先存储在电子设备中的位置信息；第一位置信息还可以是电子设备实时获取的多个语音采集器在当前语音识别场景下的位置信息。需要说明的是，第一位置信息无论是预先存储在电子设备中的位置信息，还是实时获取的位置信息，以获取到多个语音采集器的位置信息为准。

步骤B2、基于第一位置信息和多个目标语音数据，确定多个对象中每一对象在当前语音识别场景中的第二位置信息。

其中，第二位置信息可以理解为相对于多个语音采集器在当前语音识别场景中的第一位置信息。

本申请实施例中，电子设备获取多个语音采集器在当前语音识别场景中的第一位置信息后，基于第一位置信息和多个目标语音数据，确定多个对象中每一对象在当前语音识别场景中相对于第一位置信息的第二位置信息。

步骤B3、对多个目标语音数据进行语音情感识别，得到多个第一识别结果。

本申请实施例中，第一识别结果可以理解为对目标语音数据进行语音情感识别后得到的结果。

本申请实施例中，电子设备提取多个目标语音数据中每一语音数据的情感语音特征，基于情感语音特征，对每一语音数据进行情感识别，得到第一识别结果。

在实际应用中，在对每一语音数据进行情感语音特征提取之前，需要对每一语音数据进行预处理。语音数据的预处理包括预加重、短时分析、分帧、加窗以及端点检测。其中，预加重：语音数据中的频率越高，相应的成分越小，通过预加重的方式可以提高高频部分的频谱，使信号的频谱变得平坦，以便于频谱分析或者声道参数分析。短时分析：语音数据从整体来看是随时间变化的，是一个非平稳过程，且语音数据具有时变特性，但是在一个短时间范围内如在10-30ms，其特性基本保持相对稳定，即语音具有短时平稳性。分帧：为了进行短时分析，将语音数据按照预设时间间隔如10-30ms进行分段，得到的每一段称为一帧；为了使帧与帧之间平滑过渡，保持连续性，也可以使用交叠分段的方法。加窗：用一定的窗函数来w(n)乘s(n)，从而形成加窗语音数据s_w(n)＝s(n)*w(n)，窗函数中的窗口长度即样本点个数对应一帧。端点检测：从一段语音数据中准确地找出语音数据的起始点和结束点，保证有效的语音数据和无用的噪声信号得以分离。

本申请实施例中，情感语音特征的提取是通过将语音波形以相对最小的数据速率转换为参数表示形式进行提取的。其中，情感语音特征提取的算法包括Mel频率倒谱系数(MFCC，Mel Frequency Cepstrum Coefficient)，线性预测倒谱系数(LPCC，LinearPrediction Cepstrum Coefficient,)，线谱频率(LSF，LineSpectrumFrequency)，离散小波变换(DWT，Discrete Wavelet Transform)，感知线性预测(PLP，Perceptual LinearPredictive)等，当然，情感语音特征提取的算法还包括其他如线性预测系数(LPC，LinearPredictive Coding)等，本申请对语音特征提取算法不做具体限定。

语音情感识别本质上是对语音情感的语音特征参数进行分类和模式识别，

本申请实施例中，电子设备基于LPC算法，提取多个目标语音数据中每一语音数据中的情感语音特征，并基于训练库利用情感分类算法对多个目标语音数据中的每一语音数据进行情感分类，以得到多个第一识别结果。其中，情感分类算法包括人工神经网络(ANN，Artificial Neural Network)、隐马尔可夫模型(HMM，Hidden Markov Model)、支持向量机(SVM，Support Vector Machine)等，当然，情感识别算法还包括其他如决策树(DT，DecisionTree)，本申请对情感分类算法不做具体限定。

语音情感数据集是研究语音情感识别的重要基础。其中语音情感数据集包括Belfast英语情感数据库、柏林Emo-DB情感数据库、CASIA汉语情感数据库、ACCorpus系列汉语情感数据库，当然，语音情感数据集还包括其他如FAU AIBO儿童德语情感数据库，本申请对语音情感数据集不做具体限定。

本申请实施例中，电子设备对多个目标语音数据中的每一语音数据的情感语音特征提取使用LPC算法，语音情感分类使用HMM算法，训练库使用CASIA汉语情感数据库，以得到多个第一识别结果。

步骤B4、获取多个目标语音数据关联的多个目标文本数据。

本申请实施例中，电子设备在获取到多个目标语音数据后，将多个目标语音数据转换为多个目标文本数据。

步骤B5、对多个目标文本数据进行语义识别，得到多个第二识别结果。

本申请实施例中，语义识别可以理解为对目标文本数据进行自动分词，进一步整理目标文本数据的结构甚至理解目标文本数据的含义；第二识别结果可以理解为对目标文本数据进行语义识别后得到的结果。

本申请实施例中，电子设备对多个目标文本数据进行语义识别，得到多个第二识别结果。其中，语义识别方法包括基于字符串匹配的分词方法、最大匹配法，本申请对语义识别方法不做具体限定。

步骤B6、基于多个第一识别结果、多个第二识别结果、多个目标文本数据和多个第二位置信息，生成语音识别结果。

本申请实施例中，步骤B6基于多个第一识别结果、多个第二识别结果、多个目标文本数据和多个第二位置信息，生成语音识别结果可通过如下步骤实现：

步骤C1、基于每一对象关联的第一识别结果和每一对象关联的第二识别结果，提取每一对象关联的目标文本数据的特征信息。

本申请实施例中，特征信息可以理解为在当前语音识别场景下与每一对象关联的目标文本数据的信息。示例性，特征信息可以是每一对象关联的目标文本数据中某一词语出现频率较高的信息；特征信息还可以是当前语音识别场景下的主题相关性较高的信息，本申请不做具体限定。

在实际应用场景中，如在会议中，电子设备通过计算每一对象关联的目标文本数据中所包含的词语出现的频率，将每一词语出现的频率进行比较，得到较高频率的词语作为特征信息。

本申请实施例中，电子设备基于每一对象关联的第一识别结果和每一对象关联的第二识别结果，提取每一对象关联的目标文本数据的特征信息。

步骤C2、基于每一对象关联的特征信息和每一对象关联的第二位置信息，生成方位语音图；语音识别结果包括方位语音图。

本申请实施例中，方位语音图包括多个对象、每一对象关联的特征信息以及每一对象关联的第二位置信息。

本申请实施例中，电子设备提取每一对象关联的目标文本数据的特征信息，基于每一对象关联的特征信息和每一对象关联的第二位置信息，生成包括方位语音图的语音识别结果。

在实际应用场景中，如在会议中，电子设备提取每一对象关联的目标文本数据的特征信息，同时基于多个对象的每一对象关联的目标文本数据的特征信息进行整合，作为此次会议的特征信息，即此次会议的主题。且基于每一对象关联的第二位置信息，生成此次会议的方位语音图。

本申请其他实施例中，电子设备可以输出方位显示图，并通过显示模组显示方位语音图。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

基于前述实施例，本申请提供一种语音识别方法，应用于电子设备，参照图4所示，该方法包括以下步骤：

步骤301、获取当前语音识别场景下的四个语音数据。

其中，四个语音数据包括四个语音采集器采集的当前语音识别场景下的多个对象的语音数据；四个语音采集器位于当前语音识别场景中的不同位置。

本申请实施例中，电子设备中包括四个语音采集器，四个语音采集器位于当前语音识别场景中东南西北四个方向，且四个语音采集器中的每两个语音采集器相互距离半米，每一语音采集器均采集当前语音识别场景下的四个方向的多个对象的语音数据，得到四个语音数据。

步骤302、获取四个语音数据中的每一语音数据中语句间的间断时间，若间断时间大于预设间断时间，将四个语音数据中的每一语音数据进行分割，得到每一语音数据分割后第一子语音数据集合。

其中，第一子语音数据集合包括多段语音数据。

步骤303、对每一语音数据分割后的第一子语音数据集合中的每一语音数据进行按照预设的时间间隔进行分割，提取每一子语音数据中的多个声纹特征，得到多个对象中的每一对象的语音数据。

本申请实施例中，电子设备对提取到多个声纹特征使用GMM进行聚类，根据声纹特征的差异，判断出每一子语音数据中的对象的数量，最后进行语音拼接，得到多个对象中的每一对象的语音数据，即同一语音数据中同一时间存在多个对象的语音数据被分割成每一对象的多个子语音数据。

步骤304、从多个子语音数据集合中确定具有同一声纹特征且具有同一时间戳的多个子语音数据，获取多个子语音数据中具有最大振幅的语音数据，将其确定为目标子语音数据。

步骤305、基于多个子语音数据，得到同一声纹特征关联的多个目标子语音数据。

步骤306、基于采集到的多个目标子语音数据的语音采集器的第一位置信息，确定多个对象中每一对象在当前语音识别场景中的第二位置信息。

步骤307、对多个子目标语音数据进行语音情感识别，得到多个第一识别结果。

本申请实施例中，电子设备对多个子目标语音数据进行语音情感识别，语音数据的预处理包括预加重，分帧，加窗，端点检测，并使用LPC算法提取语音特征，使用HMM算法对多个子目标语音数据进行情感分类，另外，训练库使用CASIA汉语情感数据库，最终得到多个第一识别结果。

步骤308、获取多个目标语音数据关联的多个目标文本数据，对多个目标文本数据进行语义识别，得到多个第二识别结果。

步骤309、基于每一对象关联的第一识别结果和每一对象关联的第二识别结果，提取每一对象关联的目标文本数据的关键词信息。

步骤310、基于每一对象关联的关键词信息和每一对象关联的第二位置信息，生成方位语音图。

其中，语音识别结果包括方位语音图。

步骤311、输出并导出方位语音图。

由以上可知，本申请实施例中将多个对象中每一对象的位置信息、每一对象的目标语音数据以及基于每一对象的目标语音数据所提取的关键字进行对应，无需人为分析，减少了对语音数据分析的计算量，且保证了语音结果的准确性。

基于前述实施例，本申请实施例提供一种语音识别装置，该语音识别装置可以应用于图1～2对应的实施例提供的一种语音识别方法中，参照图5所示，该语音识别装置5包括：

获取单元51，用于获取当前语音识别场景下的多个语音数据；多个语音数据包括多个语音采集器采集的当前语音识别场景下的多个对象的语音数据；多个语音采集器位于当前语音识别场景中的不同位置；

第一处理单元52，用于基于多个语音数据，生成与多个对象中的每一对象关联的目标语音数据；每一对象关联的目标语音数据来源于多个语音数据中的至少两个语音数据；

第二处理单元53，用于基于多个目标语音数据生成语音识别结果，并输出语音识别结果。

本申请其他实施例中，第一处理单元52还用于将多个语音数据中的每一语音数据进行分割，得到每一语音数据分割后的每一子语音数据集合；每一子语音数据集合包括多段语音数据；获取每一子语音数据集合关联的多个声纹特征；基于每一子语音数据集合和每一子语音数据集合关联的多个声纹特征，生成每一对象关联的目标语音数据。

本申请其他实施例中，第一处理单元52还用于确定多个子语音数据集合中具有同一声纹特征且具有同一时间戳的多个子语音数据；从多个子语音数据中确定目标子语音数据，得到同一声纹特征关联的多个目标子语音数据；基于多个目标子语音数据以及多个目标子语音数据对应的时间戳，生成每一对象关联的目标语音数据。

本申请其他实施例中，第一处理单元52还用于目标子语音数据为多个子语音数据中具有最大振幅的语音数据。

本申请其他实施例中，第二处理单元53还用于获取多个语音采集器在当前语音识别场景中的第一位置信息；基于第一位置信息和多个目标语音数据，确定多个对象中每一对象在当前语音识别场景中的第二位置信息；基于多个第二位置信息和多个目标语音数据，生成语音识别结果。

本申请其他实施例中，第二处理单元53还用于对多个目标语音数据进行语音情感识别，得到多个第一识别结果；获取多个目标语音数据关联的多个目标文本数据；对多个目标文本数据进行语义识别，得到多个第二识别结果；基于多个第一识别结果、多个第二识别结果、多个目标文本数据和多个第二位置信息，生成语音识别结果。

本申请其他实施例中，第二处理单元53还用于基于每一对象关联的第一识别结果和每一对象关联的第二识别结果，提取每一对象关联的目标文本数据的特征信息；基于每一对象关联的特征信息和每一对象关联的第二位置信息，生成方位语音图；语音识别结果包括方位语音图。

基于前述实施例，本申请实施例提供另一种语音识别装置，该语音识别装置可以应用于图3对应的实施例提供的一种语音识别方法中，参照图6所示，图6中的语音识别处理装置6对应图5中的语音识别装置5，其中，语音识别装置5中的获取单元51包括语音识别处理装置6中的语音采集单元61，语音识别装置5中的第一处理单元52包括语音识别处理装置6中的语音数据分割单元62、人声分离单元63以及声纹识别引擎单元64；语音识别装置5中的第二处理单元53包括语音识别处理装置6中的语音数据选择与对象位置确定单元65、语音情感识别单元66、语音识别单元67、文字转换单元68以及生成输出单元69。

基于前述实施例，本申请实施例提供一种电子设备，该电子设备可以应用于图1～2对应的实施例提供的一种语音识别方法中，参照图7所示，该电子设备7(图7中的电子设备7对应图5中的语音识别装置5)包括：存储器71和处理器72；其中，处理器72用于执行存储器71中存储的语音识别程序，电子设备7通过处理器72以实现如下步骤：

获取当前语音识别场景下的多个语音数据；多个语音数据包括多个语音采集器采集的当前语音识别场景下的多个对象的语音数据；多个语音采集器位于当前语音识别场景中的不同位置；

基于多个语音数据，生成与多个对象中的每一对象关联的目标语音数据；每一对象关联的目标语音数据来源于多个语音数据中的至少两个语音数据；

基于多个目标语音数据生成语音识别结果，并输出语音识别结果。

本申请其他实施例中，处理器72用于执行存储器71中存储的语音识别程序，以实现如下步骤：

将多个语音数据中的每一语音数据进行分割，得到每一语音数据分割后的每一子语音数据集合；每一子语音数据集合包括多段语音数据；

获取每一子语音数据集合关联的多个声纹特征；

基于每一子语音数据集合和每一子语音数据集合关联的多个声纹特征，生成每一对象关联的目标语音数据。

确定多个子语音数据集合中具有同一声纹特征且具有同一时间戳的多个子语音数据；

从多个子语音数据中确定目标子语音数据，得到同一声纹特征关联的多个目标子语音数据；

基于多个目标子语音数据以及多个目标子语音数据对应的时间戳，生成每一对象关联的目标语音数据。

目标子语音数据为多个子语音数据中具有最大振幅的语音数据。

获取多个语音采集器在当前语音识别场景中的第一位置信息；

相应的，基于多个目标语音数据生成语音识别结果，还包括：

基于第一位置信息和多个目标语音数据，确定多个对象中每一对象在当前语音识别场景中的第二位置信息；

基于多个第二位置信息和多个目标语音数据，生成语音识别结果。

对多个目标语音数据进行语音情感识别，得到多个第一识别结果；

获取多个目标语音数据关联的多个目标文本数据；

对多个目标文本数据进行语义识别，得到多个第二识别结果；

基于多个第一识别结果、多个第二识别结果、多个目标文本数据和多个第二位置信息，生成语音识别结果。

基于每一对象关联的第一识别结果和每一对象关联的第二识别结果，提取每一对象关联的目标文本数据的特征信息；

基于每一对象关联的特征信息和每一对象关联的第二位置信息，生成方位语音图；语音识别结果包括方位语音图。

基于前述实施例，本发明的实施例提供一种计算机存储介质，该计算机存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如下步骤：

在本发明的其他实施例中，该一个或者多个程序可被一个或者多个处理器执行，以实现如下步骤：

获取每一子语音数据集合关联的多个声纹特征；

在本发明的其他实施例中，该一个或者多个程序可被一个或者多个处理器执行，以实现以下步骤：

获取多个目标语音数据关联的多个目标文本数据；

需要说明的是，上述计算机存储介质/存储器可以是只读存储器(Read OnlyMemory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个语音数据，生成与多个对象中的每一对象关联的目标语音数据，包括：

获取所述每一子语音数据集合关联的多个声纹特征；

3.根据权利要求2所述的方法，其特征在于，所述基于所述每一子语音数据集合和所述每一子语音数据集合关联的多个声纹特征，生成所述每一对象关联的目标语音数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标子语音数据为所述多个子语音数据中具有最大振幅的语音数据。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述目标语音数据生成语音识别结果之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于多个所述第二位置信息和多个所述目标语音数据，生成语音识别结果，包括：

获取多个所述目标语音数据关联的多个目标文本数据；

7.根据权利要求6所述的方法，其特征在于，所述基于多个所述第一识别结果、多个所述第二识别结果、多个所述目标文本数据和多个所述第二位置信息，生成所述语音识别结果，包括：

8.一种语音识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令，实现如权利要求1至7中任一项所述的语音识别方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至7中任一项所述的语音识别方法。