CN111326173B

CN111326173B - 语音信息处理方法、装置、电子设备以及可读存储介质

Info

Publication number: CN111326173B
Application number: CN201811544377.8A
Authority: CN
Inventors: 张凌宇
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2023-03-24
Anticipated expiration: 2038-12-17
Also published as: CN111326173A

Abstract

本申请提供了一种语音信息处理方法、装置、电子设备以及可读存储介质，其中，该方法包括：确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及所述发声语音段在所述语音信息中的时间信息；根据所述发声语音段在所述语音信息中的时间信息，将每个所述发声用户标识与各所述发声语音段对应的文本信息段进行匹配，得到对话信息；根据所述对话信息，识别所述用户的情绪类型。本申请实施例通过根据语音信息生成发声用户之间的对话信息，并根据对话信息确定发声用户的情绪类型，避免了根据单个发声用户的语音信息确定情绪类型的情况，提高了确定发声用户的情绪类型的准确性和灵活性。

Description

语音信息处理方法、装置、电子设备以及可读存储介质

技术领域

本申请涉及音频技术领域，具体而言，涉及一种语音信息处理方法、装置、电子设备以及可读存储介质。

背景技术

随着人工智能的不断发展，终端不但可以根据文字分析用户当前的情绪，还可以根据用户发出的语音信息分析用户的情绪。

相关技术中，终端可以获取用户发出的语音信息，并对语音信息进行分析处理，得到语音信息对应的文字信息，再对文字信息进行分析，确定用户当前的情绪。

但是，在根据用户的语音信息进行分析的过程中，终端仅根据单个用户的语音信息进行分析，得到的结果存在误差，不能准确确定用户的情绪类型。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语音信息处理方法、装置、电子设备及计算机可读存储介质，通过确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及发声语音段在语音信息中的时间信息，根据发声语音段在语音信息中的时间信息，将每个发声用户标识与各发声语音段对应的文本信息段进行匹配，得到对话信息，根据对话信息，识别用户的情绪类型。通过根据语音信息生成发声用户之间的对话信息，并根据对话信息确定发声用户的情绪类型，避免了根据单个发声用户的语音信息确定情绪类型的情况，提高了确定发声用户的情绪类型的准确性和灵活性。

第一方面，本申请实施例提供了一种语音信息处理方法，包括：

确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及所述发声语音段在所述语音信息中的时间信息；

根据所述发声语音段在所述语音信息中的时间信息，将每个所述发声用户标识与各所述发声语音段对应的文本信息段进行匹配，得到对话信息；

根据所述对话信息，识别所述用户的情绪类型。

可选的，在所述确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及所述发声语音段在所述语音信息中的时间信息之前，包括：

获取音频数据；

在所述根据所述发声语音段在所述语音信息中的时间信息，将每个所述发声用户标识与各所述发声语音段对应的文本信息段进行匹配之前，包括：

将所述音频数据转换为文本信息。

可选的，所述获取音频数据，包括：

检测当前环境中是否包括至少一个发声用户发出的语音信息；

若检测到任一发声用户发出的语音信息，获取所述当前环境中的音频数据。

可选的，所述将所述音频数据转换为文本信息，包括：

对所述音频数据进行去噪处理，得到所述语音信息；

通过预先设置的语音识别模型将所述语音信息转换为所述文本信息。

可选的，所述通过预先设置的语音识别模型将所述语音信息转换为所述文本信息之后，还包括：

确定所述文本信息所包括的各个文本信息段对应的时间信息；

所述根据所述发声语音段在所述语音信息中的时间信息，将每个所述发声用户标识与各所述发声语音段对应的文本信息段进行匹配，包括：

根据所述文本信息中各个文本信息段对应的时间信息，以及所述发声语音段在所述语音信息中的时间信息，将与目标时间段对应的目标发声用户标识、以及与所述目标时间段对应的目标文本信息段进行匹配，得到所述对话信息。

可选的，所述确定语音信息中至少一个发声用户标识，包括：

对所述语音信息进行识别，得到至少一个发声用户的用户特征，所述用户特征包括音色、频率和声纹中的至少一个特征；

根据所述用户特征的数目，生成至少一个所述发声用户标识，所述用户特征的数目和所述发声用户标识的数目一致。

可选的，以块存储的方式存储所述语音信息。

可选的，所述根据所述对话信息，识别所述用户的情绪类型，包括：

通过预先设置的情绪识别模型对所述对话信息进行分析，得到所述用户的情绪类型。

第二方面，本申请实施例提供了一种语音信息处理装置，包括：

第一确定模块，用于确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及所述发声语音段在所述语音信息中的时间信息；

匹配模块，用于根据所述发声语音段在所述语音信息中的时间信息，将每个所述发声用户标识与各所述发声语音段对应的文本信息段进行匹配，得到对话信息；

识别模块，用于根据所述对话信息，识别所述用户的情绪类型。

可选的，还包括：

获取模块，用于获取音频数据；

转换模块，用于将所述音频数据转换为文本信息。

可选的，所述获取模块，具体用于检测当前环境中是否包括至少一个发声用户发出的语音信息；若检测到任一发声用户发出的语音信息，获取所述当前环境中的音频数据。

可选的，所述转换模块，具体用于对所述音频数据进行去噪处理，得到所述语音信息；通过预先设置的语音识别模型将所述语音信息转换为所述文本信息。

可选的，还包括：

第二确定模块，用于确定所述文本信息所包括的各个文本信息段对应的时间信息；

所述匹配模块，具体用于根据所述文本信息中各个文本信息段对应的时间信息，以及所述发声语音段在所述语音信息中的时间信息，将与目标时间段对应的目标发声用户标识、以及与所述目标时间段对应的目标文本信息段进行匹配，得到所述对话信息。

可选的，所述第一确定模块，具体用于对所述语音信息进行识别，得到至少一个发声用户的用户特征，所述用户特征包括音色、频率和声纹中的至少一个特征；根据所述用户特征的数目，生成至少一个所述发声用户标识，所述用户特征的数目和所述发声用户标识的数目一致。

可选的，以块存储的方式存储所述语音信息。

可选的，所述识别模块，具体用于通过预先设置的情绪识别模型对所述对话信息进行分析，得到所述用户的情绪类型。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如上述第一方面中任一所述的语音信息处理方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面中任一所述的语音信息处理方法的步骤。

本申请实施例中，通过确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及发声语音段在语音信息中的时间信息，根据发声语音段在语音信息中的时间信息，将每个发声用户标识与各发声语音段对应的文本信息段进行匹配，得到对话信息，根据对话信息，识别用户的情绪类型。通过根据语音信息生成发声用户之间的对话信息，并根据对话信息确定发声用户的情绪类型，避免了根据单个发声用户的语音信息确定情绪类型的情况，提高了确定发声用户的情绪类型的准确性和灵活性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种语音信息处理方法所涉及的场景示意图；

图2示出了本申请的一些实施例的可以实现本申请思想的电子设备200的示例性硬件和软件组件的示意图；

图3示出了本申请实施例所提供的一种语音信息处理方法流程示意图；

图4示出了本申请实施例所提供的另一种语音信息处理方法流程示意图；

图5示出了本申请实施例所提供的一种语音信息处理装置的框图；

图6示出了本申请实施例所提供的另一种语音信息处理装置的框图；

图7示出了本申请实施例所提供的又一种语音信息处理装置的框图；

图8示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

图1示出了本申请实施例提供的一种语音信息处理方法所涉及的场景示意图；如图1所示，该语音信息处理方法所涉及的场景可以包括：车辆110、终端120和至少一个发声用户130。

当车辆110在行驶过程中，车辆110内的至少一个发声用户130(驾驶员和/或乘客)可以发出语音信息，则终端120可以获取发声用户130的语音信息，并对语音信息进行转换、识别，得到与语音信息对应的文本信息和发声用户标识，再对发声用户标识和文本信息进行匹配，确定文本信息中各个文本信息段对应的发声用户标识，也即是，确定文本信息中的各个语句是由哪个发声用户标识对应的发声用户130发出的，从而形成各个发声用户130之间的对话信息，最后可以根据对话信息进行判断，确定各个发声用户130的情绪类型，例如确定各个发声用户130的情绪是处于积极、中立或者消极的状态。

其中，在对语音信息进行转换、识别的过程中，终端120可以同时对语音信息执行转换和识别的操作。

例如，终端120可以通过预先设置的语音识别系统，对语音信息进行转换，将语音信息转换为机器可读格式的文本信息，同时，终端120还可以通过预先设置的讲话者识别系统，对语音信息所包含的多个特征进行提取，得到语音、情感、发声用户130特定信息等多种特征，从而确定发声用户130的数目，生成发声用户标识，最后将发声用户标识与文本信息进行匹配，得到对话信息。

需要说明的是，在实际应用中，终端120还可以向服务器发送获取的语音信息，服务器则可以接收该语音信息，并对语音信息上述处理，确定发声用户130的情绪类型，本申请实施例对此不做限定。

另外，在实际应用中，本申请提供的语音信息处理方法可以应用于多个能够获取发声用户130的语音信息的场景中，而本申请实施例仅是以车辆110行驶的场景为例进行说明，对本申请提供的语音信息处理方法应用场景不做限定。

图2示出了根据本申请的一些实施例的可以实现本申请思想的电子设备200的示例性硬件和软件组件的示意图。例如，处理器可以用于电子设备200上，并且用于执行本申请中的功能。

电子设备200可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的向量获取方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口250。

为了便于说明，在电子设备200中仅描述了一个处理器。然而，应当注意，本申请中的电子设备200还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备200的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

为了提高确定用户情绪类型的准确度，可以根据各个用户之间的对话进行判断，确定用户的情绪是否处于激动状态，以便根据确定的用户的情绪进行预警，避免用户情绪激动导致冲突或发生安全事故，从而提高用户的人身安全。

例如，若在车辆行驶过程中，驾驶员和乘客位于车内环境，可以根据驾驶员和乘客之间的对话，确定驾驶员或乘客是否处于情绪激动的状态，避免驾驶员与乘客发生冲突。

为了简便说明，本申请仅是以车辆行驶过程中驾驶员和乘客位于车内环境为例进行说明，当然，本申请还适用于其他能够根据语音确定用户情绪的场景，本申请实施例对此不做限定。

图3示出了本申请实施例所提供的一种语音信息处理方法流程示意图。该方法的执行主体可以是如图1中所示的终端等，在此不作限制。如图3所示，该方法包括：

S301、确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及发声语音段在该语音信息中的时间信息。

其中，该语音信息为包括至少一个发声用户的语音的音频数据。

为了确定用户的情绪是否处于激动状态，可以对发声用户的声音进行识别，确定不同发声用户发出的不同声音、语句，从而根据发声用户之间的对话确定各个用户的情绪类型。

因此，可以先根据获取的语音信息进行识别，确定不同发声用户的发声用户标识、每个发声用户标识对应的发声语音段、以及各个发声语音段在语音信息中的时间信息。

其中，各个发声用户标识用于指示不同的发声用户，发声用户标识对应的发声语音段用于表示发声用户标识所发出的声音，发声语音段在语音信息中的时间信息，用于表示各个发声语音段在语音信息中所占用的时间段。

例如，语音信息为发声用户A和发声用户B之间的对话，用户A在0至5S(秒)、12至20S以及30至35S发声说话，而用户B在6至9S、22至30S以及36至40S发声说话，则对语音信息进行识别后，可以得到指示发声用户A的发声用户标识A、指示发声用户B的发声用户标识B、发声用户标识A在0至5S、12至20S以及30至35S对应的发声语音段、发声用户标识B在6至9S、22至30S以及36至40S对应的发声语音段，其中各个时间段信息即为各个发声语音段对应的时间信息。

S302、根据发声语音段在语音信息中的时间信息，将每个发声用户标识与各发声语音段对应的文本信息段进行匹配，得到对话信息。

其中，文本信息段是从文本信息中的各个对话拆分得到的，文本信息则是根据语音信息转换得到的。

在对语音信息进行识别之后，可以根据识别得到的各个标识、发声语音段以及时间信息进行匹配，使得匹配之后的文本信息可以形成各个发声用户之间的对话。

具体地，可以先确定各个发声用户标识对应的发声语音段，并确定与每个发声语音段对应的时间信息，再确定文本信息中每个文本信息段对应的时间信息，从而可以将各个发声语音段与各个文本信息段进行匹配，若某个发声语音段对应的时间信息与某个文本信息段对应的时间信息相一致，则可以确定该发声语音段与该文本信息段相匹配，并为该文本信息段标记该发声语音段所属的发声用户标识，用以表示该文本信息段由该发声用户标识所对应的发声用户发出。

在对每个发声语音段和每个文本信息段进行匹配，并为每个文本信息段添加发声用户标识后，则可以根据各个文本信息段的先后顺序，生成由不同发声用户之间的对话信息。

S303、根据对话信息，识别用户的情绪类型。

在得到不同发声用户之间的对话信息后，可以通过预先设置的情绪识别模型对得到的对话信息进行分析，判断各个发声用户的情绪状态，确定各个发声用户的情绪类型。

具体地，可以将对话信息输入情绪识别模型，使得情绪识别模型对对话信息中的各个语句进行处理得到词向量，再对词向量进行去停用词、向量求和取平均值以及设置标签等处理，最后输出各个发声用户的情绪类型，例如确定各个发声用户的情绪处于积极、消极或者中立等各个不同的类型。

例如，对话信息包括：用户A：“师傅，丈八四路数码科技园，麻烦您快点，上班要迟到了！”用户B：“好的，但是现在早高峰，快不了啊！”用户A：“我看看导航，咱们绕远一点就不太堵了！”通过在情绪识别模型中输入上述对话信息，情绪识别模型可以根据用户A的语句确定用户目前处于情绪激动的状态，也即是积极情绪的状态，而根据用户B的语句无法确定用户B的情绪是否积极或消极，则可以确定用户B为中立情绪的状态。

综上所述，本申请实施例提供的语音信息处理方法，通过确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及发声语音段在语音信息中的时间信息，根据发声语音段在语音信息中的时间信息，将每个发声用户标识与各发声语音段对应的文本信息段进行匹配，得到对话信息，根据对话信息，识别用户的情绪类型。通过根据语音信息生成发声用户之间的对话信息，并根据对话信息确定发声用户的情绪类型，避免了根据单个发声用户的语音信息确定情绪类型的情况，提高了确定发声用户的情绪类型的准确性和灵活性。

图4示出了本申请实施例所提供的另一种语音信息处理方法流程示意图。该方法的执行主体可以是如图1中所示的终端等，在此不作限制。如图4所示，该方法包括：

S401、获取音频数据。

为了提高确定用户情绪的准确度，可以通过发声用户的声音判断发声用户的情绪是否激动。因此，可以通过终端获取包括发声用户的声音、以及发声用户与其他发声用户之间的对话的音频数据，以便在后续步骤中，可以根据该音频数据确定发声用户的情绪类型。

进一步地，为了减少终端的运算量，避免终端存储冗余信息，终端可以对当前环境中的声音进行检测，若检测到发声用户发出声音，再获取当前环境的音频数据。

可选的，终端可以检测当前环境中是否包括至少一个发声用户发出的语音信息，若检测到任一发声用户发出的语音信息，则可以获取当前环境中的音频数据。

具体地，终端可以对当前环境中的声音进行检测，若检测到当前环境中的声音的频率、振幅和音色与对话声音的特征近似时，则可以确定当前环境中的发声用户正在说话，从而获取当前环境中的音频数据。

需要说明的是，终端还可以采用语音活动检测(Voice Activity Detection，VAD)的方式对当前环境中发声用户并未发声的时间段进行过滤，当然还可以采用其他方式滤除音频数据中发声用户并未发声的时间段，本申请实施例对此不做限定。

例如，终端可以实时采集当前环境的音频数据，并采用VAD方式对音频数据中用户并未发声的时间段进行识别，从而对用户并未发声的时间段进行滤除，保留用户发声的时间段。

S402、将音频数据转换为文本信息。

在得到音频数据后，终端可以对音频数据进行分析处理，得到音频数据对应的文本信息。但是，由于当前环境中不但包括发声用户所发出的语音信息，还包括当前环境中的噪音。

因此，为了提高文本信息的准确度，可以对音频数据中的噪声滤除，得到语音信息，再对语音信息进行转换，得到文本信息。

可选的，终端可以对音频数据进行去噪处理，得到语音信息，并通过预先设置的语音识别模型将语音信息转换为文本信息。

具体地，终端可以采用预先设置的算法对音频数据进行去噪处理，去除音频数据中频率与对话声音的频率不一致的声音，得到语音信息。再将语音信息输入预先设置的语音识别模型，使得语音识别模型对语音信息进行转换，得到语音信息对应的文本信息。

例如，可以采用Sphinx4(Java的语音识别库)、Bing Speech API(必应语音接口)或者Google Speech API(谷歌语音接口)对语音信息进行转换，本申请实施例对此不做限定。

进一步地，为了对文本信息中的各个语句进行划分，得到多个文本信息段，从而根据多个文本信息段形成不同发声用户之间的对话信息。因此，终端可以确定文本信息所包括的各个文本信息段对应的时间信息。

具体地，可以根据语句划分算法，对文本信息中的各个语句进行划分，得到由多个语句组成的多个文本信息段。并且，确定各个语句所对应的时间段，从而确定各个文本信息段对应的时间信息。

例如，在确定各个文本信息后，可以对文本信息中的各个语句对应的时间段进行确认，从而得到每个语句对应的起始时刻和终止时刻，再采用哈希算法对起始时刻和终止时刻进行计算，得到每个语句对应的哈希码，从而得到各个文本信息段对应的时间信息。

需要说明的是，终端在存储语音信息时，可以以块存储的方式存储语音信息，以便在后续步骤中，可以对各个存储块进行标识，确定每个存储块对应的发声用户标识。

S403、确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及发声语音段在该语音信息中的时间信息。

S403与S301类似，在此不再赘述。

但是，在确定语音信息中至少一个发声用户标识的过程中，终端可以对语音信息进行识别，得到至少一个用户的用户特征，并根据用户特征的数目，生成至少一个发声用户标识。

其中，用户特征可以包括音色、频率和声纹中的至少一个特征，而用户特征的数目和所述发声用户标识的数目一致。

例如，可以通过动态时间归整(Dynamic Time Warping，DTW)算法，结合语音信息中各个声音对应的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，采用Euclidean(欧里几德)、Correlation(相关性)或Canberra for feature matching(堪培拉特征匹配)进行识别，得到各个发声用户的发声用户标识。

需要说明的是，在确定各个发声用户标识后，可以根据各个发声用户标识对应的发声语音段所属的时间信息，对发声语音段相对应的存储块进行标记，以便在后续步骤中，可以根据各个存储块对应的发声用户标识生成对话信息。

而且，与S402类似的，在确定每个发声用户标识对应的各个发声语音段的时间信息时，也可以采用哈希算法对各个发声语音段对应的起始时刻和终止时刻进行计算，得到哈希码，从而得到各个发声语音段对应的时间信息。

另外，S402和S403可以同时执行，也可以先执行S403，再执行S402，本申请实施例对此不做限定。

S404、根据文本信息中各个文本信息段对应的时间信息，以及发声语音段在语音信息中的时间信息，将与目标时间段对应的目标发声用户标识、以及与目标时间段对应的目标文本信息段进行匹配，得到对话信息。

终端在对语音信息进行转换、识别之后，可以将转换得到的文本信息和识别得到的发声用户标识进行匹配，使得文本信息中的每个文本信息段都标示有对应的发声用户标识，从而形成对话信息。

具体地，终端可以获取目标文本信息段对应的时间信息，并将该时间信息所指示的目标时间段，与每个发声语音段对应的时间信息所指示的时间段进行匹配，若目标文本信息段对应的目标时间段与目标发声语音段对应的时间段一致，则可以将该目标发声语音段所属的发声用户标识作为与目标文本信息段相匹配的目标发声用户标识。

其中，目标文本信息段为文本信息中多个文本信息段中的任意一个文本信息段。

在采用上述方式对文本信息中的每个文本信息段进行匹配后，确定每个文本信息段对应的发声用户标识，则可以根据各个文本信息段对应的发声用户标识，生成对话信息。

需要说明的是，由于在S402和S403中可以采用哈希算法得到指示时间信息的哈希码，则在匹配发声用户标识和文本信息段的过程中，可以先对哈希码进行解析，得到相对应的起始时刻和终止时刻，从而根据各个起始时刻和各个终止时刻进行匹配，确定各个文本信息段对应的发声用户标识。

S405、通过预先设置的情绪识别模型对对话信息进行分析，得到用户的情绪类型。

S405与S303类似，在此不再赘述。

需要说明的是，预先设置的情绪识别模型可以采用长短期记忆网络(Long Short-Term Memory，LSTM)构建，也可以采用其他类型的神经网络进行构建，本申请实施例对此不做限定。

而且，在对对话信息进行分析的过程中，可以先对对话信息进行预处理。例如，可以采用word2vec(用来产生词向量的相关模型)对对话信息进行处理，得到多个词向量，并通过去停用词、向量求和取平均值和设置标签等操作对词向量进行处理，得到处理后的词向量，最后将处理后的词向量输入预先设置的情绪识别模型，得到用户的情绪类型。

图5是示出本申请实施例所提供的一种语音信息处理装置的框图，该语音信息处理装置实现的功能对应上述方法执行的步骤。该装置可以理解为如图1所示的终端，如图所示，语音信息处理装置可以包括：

第一确定模块501，用于确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及该发声语音段在该语音信息中的时间信息；

匹配模块502，用于根据该发声语音段在该语音信息中的时间信息，将每个该发声用户标识与各该发声语音段对应的文本信息段进行匹配，得到对话信息；

识别模块503，用于根据该对话信息，识别该用户的情绪类型。

可选的，参照图6，该装置还可以包括：

获取模块504，用于获取音频数据；

转换模块505，用于将该音频数据转换为文本信息。

可选的，该获取模块504，具体用于检测当前环境中是否包括至少一个发声用户发出的语音信息；若检测到任一发声用户发出的语音信息，获取该当前环境中的音频数据。

可选的，该转换模块505，具体用于对该音频数据进行去噪处理，得到该语音信息；通过预先设置的语音识别模型将该语音信息转换为该文本信息。

可选的，参照图7，该装置还可以包括：

第二确定模块506，用于确定该文本信息所包括的各个文本信息段对应的时间信息；

该匹配模块502，具体用于根据该文本信息中各个文本信息段对应的时间信息，以及该发声语音段在该语音信息中的时间信息，将与目标时间段对应的目标发声用户标识、以及与该目标时间段对应的目标文本信息段进行匹配，得到该对话信息。

可选的，该第一确定模块501，具体用于对该语音信息进行识别，得到至少一个发声用户的用户特征，该用户特征包括音色、频率和声纹中的至少一个特征；根据该用户特征的数目，生成至少一个该发声用户标识，该用户特征的数目和该发声用户标识的数目一致。

可选的，以块存储的方式存储该语音信息。

可选的，该识别模块503，具体用于通过预先设置的情绪识别模型对该对话信息进行分析，得到该用户的情绪类型。

综上所述，本申请实施例提供的语音信息处理装置，通过确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及发声语音段在语音信息中的时间信息，根据发声语音段在语音信息中的时间信息，将每个发声用户标识与各发声语音段对应的文本信息段进行匹配，得到对话信息，根据对话信息，识别用户的情绪类型。通过根据语音信息生成发声用户之间的对话信息，并根据对话信息确定发声用户的情绪类型，避免了根据单个发声用户的语音信息确定情绪类型的情况，提高了确定发声用户的情绪类型的准确性和灵活性。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

如图8所示，为本申请实施例提供的一种电子设备的结构示意图，包括：处理器801、存储器802和总线803。

所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，所述机器可读指令被所述处理器801执行时执行如下处理：

根据所述对话信息，识别所述用户的情绪类型。

在具体实施中，上述处理器801执行的处理中，在所述确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及所述发声语音段在所述语音信息中的时间信息之前，包括：

获取音频数据；

将所述音频数据转换为文本信息。

在具体实施中，上述处理器801执行的处理中，所述获取音频数据，包括：

在具体实施中，上述处理器801执行的处理中，所述将所述音频数据转换为文本信息，包括：

对所述音频数据进行去噪处理，得到所述语音信息；

在具体实施中，上述处理器801执行的处理中，所述通过预先设置的语音识别模型将所述语音信息转换为所述文本信息之后，还包括：

在具体实施中，上述处理器801执行的处理中，所述确定语音信息中至少一个发声用户标识，包括：

在具体实施中，上述处理器801执行的处理中，以块存储的方式存储所述语音信息。

在具体实施中，上述处理器801执行的处理中，所述根据所述对话信息，识别所述用户的情绪类型，包括：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行执行上述任一实施例所述的语音信息处理方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音信息处理方法，其特征在于，包括：

根据所述发声语音段在所述语音信息中的时间信息，将每个所述发声用户标识与各所述发声语音段对应的文本信息段进行匹配，得到对话信息；所述发声语音段对应的时间信息是对所述发声语音段的起始时刻和终止时刻进行哈希计算获得的；

根据所述对话信息，识别用户的情绪类型；其中，所述根据所述发声语音段在所述语音信息中的时间信息，将每个所述发声用户标识与各所述发声语音段对应的文本信息段进行匹配，包括：

根据各个文本信息段对应的时间信息，以及所述发声语音段在所述语音信息中的时间信息，将与目标时间段对应的目标发声用户标识、以及与所述目标时间段对应的目标文本信息段进行匹配，得到所述对话信息；所述文本信息段对应的时间信息是是对所述文本信息段的起始时刻和终止时刻进行哈希计算获得的。

2.根据权利要求1所述的方法，其特征在于，在所述确定语音信息中至少一个发声用户标识、各发声用户标识对应的发声语音段、以及所述发声语音段在所述语音信息中的时间信息之前，包括：

获取音频数据；

将所述音频数据转换为文本信息。

3.根据权利要求2所述的方法，其特征在于，所述获取音频数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述音频数据转换为文本信息，包括：

对所述音频数据进行去噪处理，得到所述语音信息；

5.根据权利要求4所述的方法，其特征在于，所述通过预先设置的语音识别模型将所述语音信息转换为所述文本信息之后，还包括：

确定所述文本信息所包括的各个文本信息段对应的时间信息。

6.根据权利要求1所述的方法，其特征在于，所述确定语音信息中至少一个发声用户标识，包括：

7.根据权利要求1至6任一所述的方法，其特征在于，以块存储的方式存储所述语音信息。

8.根据权利要求1至6任一所述的方法，其特征在于，所述根据所述对话信息，识别所述用户的情绪类型，包括：

9.一种语音信息处理装置，其特征在于，包括：

匹配模块，用于根据所述发声语音段在所述语音信息中的时间信息，将每个所述发声用户标识与各所述发声语音段对应的文本信息段进行匹配，得到对话信息；所述发声语音段对应的时间信息是对所述发声语音段的起始时刻和终止时刻进行哈希计算获得的；

识别模块，用于根据所述对话信息，识别用户的情绪类型；

所述匹配模块，具体用于根据所述文本信息中各个文本信息段对应的时间信息，以及所述发声语音段在所述语音信息中的时间信息，将与目标时间段对应的目标发声用户标识、以及与所述目标时间段对应的目标文本信息段进行匹配，得到所述对话信息；所述时间信息是根据所述文本信息段中的各语句分别对应的哈希码生成的，所述哈希码是对所述文本信息段中的各语句分别对应的起始时刻和终止时刻进行哈希计算获得的。

10.根据权利要求9所述的装置，其特征在于，还包括：

获取模块，用于获取音频数据；

转换模块，用于将所述音频数据转换为文本信息。

11.根据权利要求10所述的装置，其特征在于，所述获取模块，具体用于检测当前环境中是否包括至少一个发声用户发出的语音信息；若检测到任一发声用户发出的语音信息，获取所述当前环境中的音频数据。

12.根据权利要求10所述的装置，其特征在于，所述转换模块，具体用于对所述音频数据进行去噪处理，得到所述语音信息；通过预先设置的语音识别模型将所述语音信息转换为所述文本信息。

13.根据权利要求12所述的装置，其特征在于，还包括：

第二确定模块，用于确定所述文本信息所包括的各个文本信息段对应的时间信息。

14.根据权利要求9所述的装置，其特征在于，所述第一确定模块，具体用于对所述语音信息进行识别，得到至少一个发声用户的用户特征，所述用户特征包括音色、频率和声纹中的至少一个特征；根据所述用户特征的数目，生成至少一个所述发声用户标识，所述用户特征的数目和所述发声用户标识的数目一致。

15.根据权利要求9至14任一所述的装置，其特征在于，以块存储的方式存储所述语音信息。

16.根据权利要求9至14任一所述的装置，其特征在于，所述识别模块，具体用于通过预先设置的情绪识别模型对所述对话信息进行分析，得到所述用户的情绪类型。

17.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至8任一所述的语音信息处理方法的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至8任一所述的语音信息处理方法的步骤。