CN114974294A - 一种多模态语音通话信息抽取方法及系统 - Google Patents

一种多模态语音通话信息抽取方法及系统 Download PDF

Info

Publication number
CN114974294A
CN114974294A CN202210403339.0A CN202210403339A CN114974294A CN 114974294 A CN114974294 A CN 114974294A CN 202210403339 A CN202210403339 A CN 202210403339A CN 114974294 A CN114974294 A CN 114974294A
Authority
CN
China
Prior art keywords
voice
audio
technology
adopting
call
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210403339.0A
Other languages
English (en)
Inventor
龚科
陈添水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wisdom Technology Guangzhou Co ltd
Original Assignee
Guangzhou Wisdom Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wisdom Technology Guangzhou Co ltd filed Critical Guangzhou Wisdom Technology Guangzhou Co ltd
Priority to CN202210403339.0A priority Critical patent/CN114974294A/zh
Publication of CN114974294A publication Critical patent/CN114974294A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5175Call or contact centers supervision arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种多模态语音通话信息抽取方法及系统,所述多模态语音通话信息抽取方法包括:S1、获取音频文件:获取语音通话的音频文件;S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。本发明通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合,形成一个多模态的语音通话特征集,可应用于众多下游任务的分析,具有广泛的应用前景。

Description

一种多模态语音通话信息抽取方法及系统
技术领域
本发明涉及语音特征提取领域,具体涉及一种多模态语音通话信息抽取方法及系统。
背景技术
随着语音识别、语音合成、对话系统等技术的发展,智能电话客服得以应用在越来越多的电话业务当中。智能外呼系统也极大增加了通话的数量,成千上万的电话通话录音也在不间断地产生。
在这一背景下,如何从海量的通话数据中提取有效的信息,来辅助分析客户行为意愿,是摆在众多服务提供商面前的一大难题。
发明内容
本发明的目的在于针对现有技术中的问题,提供一种多模态语音通话信息抽取方法及系统,以提取通话数据中的语音、语义、交互等多模态特征信息,使之能够用于众多下游任务。
为实现上述目的,本发明采用以下技术方案:
一种多模态语音通话信息抽取方法,包括:
S1、获取音频文件:获取语音通话的音频文件;
S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;
S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。
进一步地,在S2中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
进一步地,所述S3具体包括:
S301、音频去噪:对音频进行去噪处理;
S302、端点检测:采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
S303、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S304、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S305、语音识别:采用语音识别技术,将音频数据转录成文本;
S306、标点符号生成:采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
S307、语义理解:采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
S308、语义特征输出:将S307中获取到的语义标签信息输出。
进一步地,在S4中,所述说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
进一步地,所述S4具体包括:
S401、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S402、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S403、端点检测:采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
S404、语速检测:通过语速检测,获取每个说话人的每段话的语速;
S405、噪声检测:通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
S406、交互特征输出:将从S401至S405中获取到的交互特征汇总输出。
一种多模态语音通话信息抽取系统,包括:
音频文件获取模块,用于获取语音通话的音频文件;
语音特征提取模块,用于提取音频的能量特征、时域特征、频域特征和乐理特征;
语义特征提取模块:用于通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
交互特征提取模块,用于通过语音分析,提取音频中说话人的交互特征。
进一步地,在语音特征提取模块中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC),梅尔频率倒谱系数中即包含了音频的能量特征、时域特征、频域特征和乐理特征。
进一步地,所述语义特征提取模块包括:
音频去噪子模块,用于对音频进行去噪处理;
端点检测子模块,用于采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
语音识别子模块,用于采用语音识别技术,将音频数据转录成文本;
标点符号生成子模块,用于采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
语义理解子模块,用于采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
语义特征输出子模块,用于将S307中获取到的语义标签信息输出。
进一步地,在交互特征提取模块中,提取的说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
进一步地,所述交互特征提取模块包括:
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
端点检测子模块,用于采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
语速检测子模块,用于通过语速检测,获取每个说话人的每段话的语速;
噪声检测子模块,用于通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
交互特征输出子模块,用于将从S401至S405中获取到的交互特征汇总输出。
本发明提供的一种多模态语音通话信息抽取方法及系统,通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合,形成一个多模态的语音通话特征集,可应用于众多下游任务的分析,包含但不限于客服服务质量分析、催收通话中的客户还款意愿分析、营销通话中的客户付费意愿分析、回访电话中的客户满意度分析等等,具有广泛的应用前景。
附图说明
图1是本发明实施例一的一种多模态语音通话信息抽取方法的流程图。
图2是本发明实施例一中提取语义特征的方法流程图。
图3是本发明实施例一中提取交互特征的方法流程图。
具体实施方式
下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。
实施例一
如图1所示,本发明实施例提供了一种多模态语音通话信息抽取方法,包括:
S1、获取音频文件:获取语音通话的音频文件;
S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;
S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。
在S2中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
如图2所示,所述S3具体包括:
S301、音频去噪:对音频进行去噪处理;
S302、端点检测:采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
S303、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S304、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S305、语音识别:采用语音识别技术,将音频数据转录成文本;
S306、标点符号生成:采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
S307、语义理解:采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;其中,关键的实体指的是文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
S308、语义特征输出:将S307中获取到的语义标签信息输出。所述语义标签信息包含了S307中获取的文本意图和实体内容。
进一步地,在S4中,所述说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
如图3所示,所述S4具体包括:
S401、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S402、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S403、端点检测:采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
S404、语速检测:通过语速检测,获取每个说话人的每段话的语速;
S405、噪声检测:通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
S406、交互特征输出:将从S401至S405中获取到的交互特征汇总输出。
进一步地,本发明实施例提供的一种多模态语音通话信息抽取方法,还包括:S5、特征组合及输出:根据实际的应用需求,将S2至S4提取的特征进行组合,形成一个多模态的特征集合并输出,以辅助进行下游任务分析。
具体来说,在实际应用中,可以利用机器学习中的特征分析方法,如相关性度量分析、基于稀疏性大的选择方法、利用主成分分析的降维方法、基于bagging或boosting的集成方法、神经网络自动选择方法等,并结合应用场景的具体需求来筛选出有效的特征,来完成业务层面的分析和预测。
实施例二
本发明实施例提供了一种多模态语音通话信息抽取系统,包括:
音频文件获取模块,用于获取语音通话的音频文件;
语音特征提取模块,用于提取音频的能量特征、时域特征、频域特征和乐理特征;
语义特征提取模块:用于通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
交互特征提取模块,用于通过语音分析,提取音频中说话人的交互特征。
进一步地,在语音特征提取模块中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
进一步地,所述语义特征提取模块包括:
音频去噪子模块,用于对音频进行去噪处理;
端点检测子模块,用于采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
语音识别子模块,用于采用语音识别技术,将音频数据转录成文本;
标点符号生成子模块,用于采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
语义理解子模块,用于采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
语义特征输出子模块,用于将S307中获取到的语义标签信息输出。
进一步地,在交互特征提取模块中,提取的说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
进一步地,所述交互特征提取模块包括:
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
端点检测子模块,用于采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
语速检测子模块,用于通过语速检测,获取每个说话人的每段话的语速;
噪声检测子模块,用于通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
交互特征输出子模块,用于将从S401至S405中获取到的交互特征汇总输出。
进一步地,本发明实施例提供的一种多模态语音通话信息抽取系统,还包括特征组合及输出模块,用于根据实际的应用需求,将以上各模块提取的特征进行组合,形成一个多模态的特征集合并输出,以辅助进行下游任务分析。
本发明提供的一种多模态语音通话信息抽取方法及系统,通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合,形成一个多模态的语音通话特征集,可应用于众多下游任务的分析,包含但不限于客服服务质量分析、催收通话中的客户还款意愿分析、营销通话中的客户付费意愿分析、回访电话中的客户满意度分析等等,具有广泛的应用前景。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种多模态语音通话信息抽取方法,其特征在于,包括:
S1、获取音频文件:获取语音通话的音频文件;
S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;
S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。
2.根据权利要求1所述的多模态语音通话信息抽取方法,其特征在于,在S2中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
3.根据权利要求1所述的多模态语音通话信息抽取方法,其特征在于,所述S3具体包括:
S301、音频去噪:对音频进行去噪处理;
S302、端点检测:采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
S303、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S304、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S305、语音识别:采用语音识别技术,将音频数据转录成文本;
S306、标点符号生成:采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
S307、语义理解:采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
S308、语义特征输出:将S307中获取到的语义标签信息输出。
4.根据权利要求1所述的多模态语音通话信息抽取方法,其特征在于,在S4中,所述说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
5.根据权利要求4所述的多模态语音通话信息抽取方法,其特征在于,所述S4具体包括:
S401、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S402、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S403、端点检测:采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
S404、语速检测:通过语速检测,获取每个说话人的每段话的语速;
S405、噪声检测:通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
S406、交互特征输出:将从S401至S405中获取到的交互特征汇总输出。
6.一种多模态语音通话信息抽取系统,其特征在于,包括:
音频文件获取模块,用于获取语音通话的音频文件;
语音特征提取模块,用于提取音频的能量特征、时域特征、频域特征和乐理特征;
语义特征提取模块:用于通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
交互特征提取模块,用于通过语音分析,提取音频中说话人的交互特征。
7.根据权利要求6所述的多模态语音通话信息抽取系统,其特征在于,在语音特征提取模块中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
8.根据权利要求6所述的多模态语音通话信息抽取系统,其特征在于,所述语义特征提取模块包括:
音频去噪子模块,用于对音频进行去噪处理;
端点检测子模块,用于采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
语音识别子模块,用于采用语音识别技术,将音频数据转录成文本;
标点符号生成子模块,用于采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
语义理解子模块,用于采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
语义特征输出子模块,用于将S307中获取到的语义标签信息输出。
9.根据权利要求6所述的多模态语音通话信息抽取方法,其特征在于,在交互特征提取模块中,提取的说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
10.根据权利要求9所述的多模态语音通话信息抽取方法,其特征在于,所述交互特征提取模块包括:
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
端点检测子模块,用于采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
语速检测子模块,用于通过语速检测,获取每个说话人的每段话的语速;
噪声检测子模块,用于通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
交互特征输出子模块,用于将从S401至S405中获取到的交互特征汇总输出。
CN202210403339.0A 2022-04-18 2022-04-18 一种多模态语音通话信息抽取方法及系统 Pending CN114974294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210403339.0A CN114974294A (zh) 2022-04-18 2022-04-18 一种多模态语音通话信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210403339.0A CN114974294A (zh) 2022-04-18 2022-04-18 一种多模态语音通话信息抽取方法及系统

Publications (1)

Publication Number Publication Date
CN114974294A true CN114974294A (zh) 2022-08-30

Family

ID=82976430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210403339.0A Pending CN114974294A (zh) 2022-04-18 2022-04-18 一种多模态语音通话信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN114974294A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174092A (zh) * 2023-11-02 2023-12-05 北京语言大学 基于声纹识别与多模态分析的移动语料转写方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174092A (zh) * 2023-11-02 2023-12-05 北京语言大学 基于声纹识别与多模态分析的移动语料转写方法及装置
CN117174092B (zh) * 2023-11-02 2024-01-26 北京语言大学 基于声纹识别与多模态分析的移动语料转写方法及装置

Similar Documents

Publication Publication Date Title
US10720164B2 (en) System and method of diarization and labeling of audio data
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
US20150350438A1 (en) Speech analytics system and methodology with accurate statistics
US20100070276A1 (en) Method and apparatus for interaction or discourse analytics
CN109256150A (zh) 基于机器学习的语音情感识别系统及方法
Kopparapu Non-linguistic analysis of call center conversations
US10546064B2 (en) System and method for contextualising a stream of unstructured text representative of spoken word
CN112562682A (zh) 基于多人通话的身份识别方法、系统、设备及存储介质
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
CN114974294A (zh) 一种多模态语音通话信息抽取方法及系统
CN115831125A (zh) 语音识别方法、装置、设备、存储介质及产品
CN114707515A (zh) 话术判别方法、装置、电子设备及存储介质
Liu et al. Supra-Segmental Feature Based Speaker Trait Detection.
Deekshitha et al. Prosodically guided phonetic engine
AU2020103587A4 (en) A system and a method for cross-linguistic automatic speech recognition
CN113314103B (zh) 基于实时语音情感分析的非法信息识别方法及装置
Kulkarni et al. Project Vāc: Can a Text-to-Speech Engine Generate Human Sentiments?
Koolagudi et al. Vowel recognition from telephonic speech using MFCCs and Gaussian mixture models
Sai Tharun et al. Voice Data-Mining on Audio from Audio and Video Clips
RS et al. Kannada Subtitle Generation with Speaker Diarization: A Comprehensive Solution for Regional Language Visual Media Accessibility
Katerenchuk et al. Interpersonal Relationship Labels for the CALLHOME Corpus
Sárosi et al. LVCSR-based Speech Analytics of a Hungarian Language Call-Center
Menon Real time speech analysis
WO2023129262A1 (en) Training and using a transcript generation model on a multi-speaker audio stream
CN115811568A (zh) 语音对话日志生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination