CN114974294A

CN114974294A - 一种多模态语音通话信息抽取方法及系统

Info

Publication number: CN114974294A
Application number: CN202210403339.0A
Authority: CN
Inventors: 龚科; 陈添水
Original assignee: Guangzhou Wisdom Technology Guangzhou Co ltd
Current assignee: Guangzhou Wisdom Technology Guangzhou Co ltd
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-08-30

Abstract

本发明提供了一种多模态语音通话信息抽取方法及系统，所述多模态语音通话信息抽取方法包括：S1、获取音频文件：获取语音通话的音频文件；S2、提取语音特征：提取音频的能量特征、时域特征、频域特征和乐理特征；S3、提取语义特征：通过语音识别技术将音频转录成文字，再利用自然语言处理技术，对文本内容进行分析和理解；S4、提取交互特征：通过语音分析，提取音频中说话人的交互特征。本发明通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合，形成一个多模态的语音通话特征集，可应用于众多下游任务的分析，具有广泛的应用前景。

Description

一种多模态语音通话信息抽取方法及系统

技术领域

本发明涉及语音特征提取领域，具体涉及一种多模态语音通话信息抽取方法及系统。

背景技术

随着语音识别、语音合成、对话系统等技术的发展，智能电话客服得以应用在越来越多的电话业务当中。智能外呼系统也极大增加了通话的数量，成千上万的电话通话录音也在不间断地产生。

在这一背景下，如何从海量的通话数据中提取有效的信息，来辅助分析客户行为意愿，是摆在众多服务提供商面前的一大难题。

发明内容

本发明的目的在于针对现有技术中的问题，提供一种多模态语音通话信息抽取方法及系统，以提取通话数据中的语音、语义、交互等多模态特征信息，使之能够用于众多下游任务。

为实现上述目的，本发明采用以下技术方案：

一种多模态语音通话信息抽取方法，包括：

S1、获取音频文件：获取语音通话的音频文件；

S2、提取语音特征：提取音频的能量特征、时域特征、频域特征和乐理特征；

S3、提取语义特征：通过语音识别技术将音频转录成文字，再利用自然语言处理技术，对文本内容进行分析和理解；

S4、提取交互特征：通过语音分析，提取音频中说话人的交互特征。

进一步地，在S2中，使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。

进一步地，所述S3具体包括：

S301、音频去噪：对音频进行去噪处理；

S302、端点检测：采用端点检测技术，将连续的通话内容切分成独立的语音片段，并去除静音片段；

S303、语音分离：采用语音分离技术，将音频中有多人重叠说话的部分分离成单人语音数据，将单通道多人声数据分离拆分成多通道单人声数据；

S304、声纹识别：采用声纹识别技术，识别音频中的不同人的声纹，根据声纹区分不同的说话人，并对说话人的身份类别进行归类划分；

S305、语音识别：采用语音识别技术，将音频数据转录成文本；

S306、标点符号生成：采用标点符号生成技术，对文本进行语义重组和断句，给文本内容加上标点符号；

S307、语义理解：采用意图理解技术和实体识别技术，对文本内容进行分析，获取文本意图和关键的实体；

S308、语义特征输出：将S307中获取到的语义标签信息输出。

进一步地，在S4中，所述说话人的交互特征包括整个通话的时长，以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。

进一步地，所述S4具体包括：

S401、语音分离：采用语音分离技术，将音频中有多人重叠说话的部分分离成单人语音数据，将单通道多人声数据分离拆分成多通道单人声数据；

S402、声纹识别：采用声纹识别技术，识别音频中的不同人的声纹，根据声纹区分不同的说话人，并对说话人的身份类别进行归类划分；

S403、端点检测：采用端点检测技术，获取每段话的开始与结束时间，以计算整个通话的时长，以及每个说话人各自的说话时长、静默时长、静默次数、插话时长；

S404、语速检测：通过语速检测，获取每个说话人的每段话的语速；

S405、噪声检测：通过噪声检测，获取每个说话人的通话质量以及通话环境质量；

S406、交互特征输出：将从S401至S405中获取到的交互特征汇总输出。

一种多模态语音通话信息抽取系统，包括：

音频文件获取模块，用于获取语音通话的音频文件；

语音特征提取模块，用于提取音频的能量特征、时域特征、频域特征和乐理特征；

语义特征提取模块：用于通过语音识别技术将音频转录成文字，再利用自然语言处理技术，对文本内容进行分析和理解；

交互特征提取模块，用于通过语音分析，提取音频中说话人的交互特征。

进一步地，在语音特征提取模块中，使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)，梅尔频率倒谱系数中即包含了音频的能量特征、时域特征、频域特征和乐理特征。

进一步地，所述语义特征提取模块包括：

音频去噪子模块，用于对音频进行去噪处理；

端点检测子模块，用于采用端点检测技术，将连续的通话内容切分成独立的语音片段，并去除静音片段；

语音分离子模块，用于采用语音分离技术，将音频中有多人重叠说话的部分分离成单人语音数据，将单通道多人声数据分离拆分成多通道单人声数据；

声纹识别子模块，用于采用声纹识别技术，识别音频中的不同人的声纹，根据声纹区分不同的说话人，并对说话人的身份类别进行归类划分；

语音识别子模块，用于采用语音识别技术，将音频数据转录成文本；

标点符号生成子模块，用于采用标点符号生成技术，对文本进行语义重组和断句，给文本内容加上标点符号；

语义理解子模块，用于采用意图理解技术和实体识别技术，对文本内容进行分析，获取文本意图和关键的实体；

语义特征输出子模块，用于将S307中获取到的语义标签信息输出。

进一步地，在交互特征提取模块中，提取的说话人的交互特征包括整个通话的时长，以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。

进一步地，所述交互特征提取模块包括：

端点检测子模块，用于采用端点检测技术，获取每段话的开始与结束时间，以计算整个通话的时长，以及每个说话人各自的说话时长、静默时长、静默次数、插话时长；

语速检测子模块，用于通过语速检测，获取每个说话人的每段话的语速；

噪声检测子模块，用于通过噪声检测，获取每个说话人的通话质量以及通话环境质量；

交互特征输出子模块，用于将从S401至S405中获取到的交互特征汇总输出。

本发明提供的一种多模态语音通话信息抽取方法及系统，通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合，形成一个多模态的语音通话特征集，可应用于众多下游任务的分析，包含但不限于客服服务质量分析、催收通话中的客户还款意愿分析、营销通话中的客户付费意愿分析、回访电话中的客户满意度分析等等，具有广泛的应用前景。

附图说明

图1是本发明实施例一的一种多模态语音通话信息抽取方法的流程图。

图2是本发明实施例一中提取语义特征的方法流程图。

图3是本发明实施例一中提取交互特征的方法流程图。

具体实施方式

下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。

实施例一

如图1所示，本发明实施例提供了一种多模态语音通话信息抽取方法，包括：

S1、获取音频文件：获取语音通话的音频文件；

在S2中，使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。

如图2所示，所述S3具体包括：

S301、音频去噪：对音频进行去噪处理；

S307、语义理解：采用意图理解技术和实体识别技术，对文本内容进行分析，获取文本意图和关键的实体；其中，关键的实体指的是文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

S308、语义特征输出：将S307中获取到的语义标签信息输出。所述语义标签信息包含了S307中获取的文本意图和实体内容。

如图3所示，所述S4具体包括：

进一步地，本发明实施例提供的一种多模态语音通话信息抽取方法，还包括：S5、特征组合及输出：根据实际的应用需求，将S2至S4提取的特征进行组合，形成一个多模态的特征集合并输出，以辅助进行下游任务分析。

具体来说，在实际应用中，可以利用机器学习中的特征分析方法，如相关性度量分析、基于稀疏性大的选择方法、利用主成分分析的降维方法、基于bagging或boosting的集成方法、神经网络自动选择方法等，并结合应用场景的具体需求来筛选出有效的特征，来完成业务层面的分析和预测。

实施例二

本发明实施例提供了一种多模态语音通话信息抽取系统，包括：

音频文件获取模块，用于获取语音通话的音频文件；

进一步地，在语音特征提取模块中，使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。

进一步地，所述语义特征提取模块包括：

音频去噪子模块，用于对音频进行去噪处理；

进一步地，所述交互特征提取模块包括：

进一步地，本发明实施例提供的一种多模态语音通话信息抽取系统，还包括特征组合及输出模块，用于根据实际的应用需求，将以上各模块提取的特征进行组合，形成一个多模态的特征集合并输出，以辅助进行下游任务分析。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种多模态语音通话信息抽取方法，其特征在于，包括：

S1、获取音频文件：获取语音通话的音频文件；

2.根据权利要求1所述的多模态语音通话信息抽取方法，其特征在于，在S2中，使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。

3.根据权利要求1所述的多模态语音通话信息抽取方法，其特征在于，所述S3具体包括：

S301、音频去噪：对音频进行去噪处理；

S308、语义特征输出：将S307中获取到的语义标签信息输出。

4.根据权利要求1所述的多模态语音通话信息抽取方法，其特征在于，在S4中，所述说话人的交互特征包括整个通话的时长，以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。

5.根据权利要求4所述的多模态语音通话信息抽取方法，其特征在于，所述S4具体包括：

6.一种多模态语音通话信息抽取系统，其特征在于，包括：

音频文件获取模块，用于获取语音通话的音频文件；

7.根据权利要求6所述的多模态语音通话信息抽取系统，其特征在于，在语音特征提取模块中，使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。

8.根据权利要求6所述的多模态语音通话信息抽取系统，其特征在于，所述语义特征提取模块包括：

音频去噪子模块，用于对音频进行去噪处理；

9.根据权利要求6所述的多模态语音通话信息抽取方法，其特征在于，在交互特征提取模块中，提取的说话人的交互特征包括整个通话的时长，以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。

10.根据权利要求9所述的多模态语音通话信息抽取方法，其特征在于，所述交互特征提取模块包括：