CN114974294A - 一种多模态语音通话信息抽取方法及系统 - Google Patents
一种多模态语音通话信息抽取方法及系统 Download PDFInfo
- Publication number
- CN114974294A CN114974294A CN202210403339.0A CN202210403339A CN114974294A CN 114974294 A CN114974294 A CN 114974294A CN 202210403339 A CN202210403339 A CN 202210403339A CN 114974294 A CN114974294 A CN 114974294A
- Authority
- CN
- China
- Prior art keywords
- voice
- audio
- technology
- adopting
- call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 238000005516 engineering process Methods 0.000 claims abstract description 75
- 230000002452 interceptive effect Effects 0.000 claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000003058 natural language processing Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 46
- 238000000926 separation method Methods 0.000 claims description 24
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims description 3
- 230000006798 recombination Effects 0.000 claims description 3
- 230000008521 reorganization Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract 1
- 238000010187 selection method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/5175—Call or contact centers supervision arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Marketing (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种多模态语音通话信息抽取方法及系统,所述多模态语音通话信息抽取方法包括:S1、获取音频文件:获取语音通话的音频文件;S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。本发明通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合,形成一个多模态的语音通话特征集,可应用于众多下游任务的分析,具有广泛的应用前景。
Description
技术领域
本发明涉及语音特征提取领域,具体涉及一种多模态语音通话信息抽取方法及系统。
背景技术
随着语音识别、语音合成、对话系统等技术的发展,智能电话客服得以应用在越来越多的电话业务当中。智能外呼系统也极大增加了通话的数量,成千上万的电话通话录音也在不间断地产生。
在这一背景下,如何从海量的通话数据中提取有效的信息,来辅助分析客户行为意愿,是摆在众多服务提供商面前的一大难题。
发明内容
本发明的目的在于针对现有技术中的问题,提供一种多模态语音通话信息抽取方法及系统,以提取通话数据中的语音、语义、交互等多模态特征信息,使之能够用于众多下游任务。
为实现上述目的,本发明采用以下技术方案:
一种多模态语音通话信息抽取方法,包括:
S1、获取音频文件:获取语音通话的音频文件;
S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;
S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。
进一步地,在S2中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
进一步地,所述S3具体包括:
S301、音频去噪:对音频进行去噪处理;
S302、端点检测:采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
S303、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S304、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S305、语音识别:采用语音识别技术,将音频数据转录成文本;
S306、标点符号生成:采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
S307、语义理解:采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
S308、语义特征输出:将S307中获取到的语义标签信息输出。
进一步地,在S4中,所述说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
进一步地,所述S4具体包括:
S401、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S402、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S403、端点检测:采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
S404、语速检测:通过语速检测,获取每个说话人的每段话的语速;
S405、噪声检测:通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
S406、交互特征输出:将从S401至S405中获取到的交互特征汇总输出。
一种多模态语音通话信息抽取系统,包括:
音频文件获取模块,用于获取语音通话的音频文件;
语音特征提取模块,用于提取音频的能量特征、时域特征、频域特征和乐理特征;
语义特征提取模块:用于通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
交互特征提取模块,用于通过语音分析,提取音频中说话人的交互特征。
进一步地,在语音特征提取模块中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC),梅尔频率倒谱系数中即包含了音频的能量特征、时域特征、频域特征和乐理特征。
进一步地,所述语义特征提取模块包括:
音频去噪子模块,用于对音频进行去噪处理;
端点检测子模块,用于采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
语音识别子模块,用于采用语音识别技术,将音频数据转录成文本;
标点符号生成子模块,用于采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
语义理解子模块,用于采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
语义特征输出子模块,用于将S307中获取到的语义标签信息输出。
进一步地,在交互特征提取模块中,提取的说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
进一步地,所述交互特征提取模块包括:
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
端点检测子模块,用于采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
语速检测子模块,用于通过语速检测,获取每个说话人的每段话的语速;
噪声检测子模块,用于通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
交互特征输出子模块,用于将从S401至S405中获取到的交互特征汇总输出。
本发明提供的一种多模态语音通话信息抽取方法及系统,通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合,形成一个多模态的语音通话特征集,可应用于众多下游任务的分析,包含但不限于客服服务质量分析、催收通话中的客户还款意愿分析、营销通话中的客户付费意愿分析、回访电话中的客户满意度分析等等,具有广泛的应用前景。
附图说明
图1是本发明实施例一的一种多模态语音通话信息抽取方法的流程图。
图2是本发明实施例一中提取语义特征的方法流程图。
图3是本发明实施例一中提取交互特征的方法流程图。
具体实施方式
下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。
实施例一
如图1所示,本发明实施例提供了一种多模态语音通话信息抽取方法,包括:
S1、获取音频文件:获取语音通话的音频文件;
S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;
S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。
在S2中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
如图2所示,所述S3具体包括:
S301、音频去噪:对音频进行去噪处理;
S302、端点检测:采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
S303、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S304、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S305、语音识别:采用语音识别技术,将音频数据转录成文本;
S306、标点符号生成:采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
S307、语义理解:采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;其中,关键的实体指的是文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
S308、语义特征输出:将S307中获取到的语义标签信息输出。所述语义标签信息包含了S307中获取的文本意图和实体内容。
进一步地,在S4中,所述说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
如图3所示,所述S4具体包括:
S401、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S402、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S403、端点检测:采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
S404、语速检测:通过语速检测,获取每个说话人的每段话的语速;
S405、噪声检测:通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
S406、交互特征输出:将从S401至S405中获取到的交互特征汇总输出。
进一步地,本发明实施例提供的一种多模态语音通话信息抽取方法,还包括:S5、特征组合及输出:根据实际的应用需求,将S2至S4提取的特征进行组合,形成一个多模态的特征集合并输出,以辅助进行下游任务分析。
具体来说,在实际应用中,可以利用机器学习中的特征分析方法,如相关性度量分析、基于稀疏性大的选择方法、利用主成分分析的降维方法、基于bagging或boosting的集成方法、神经网络自动选择方法等,并结合应用场景的具体需求来筛选出有效的特征,来完成业务层面的分析和预测。
实施例二
本发明实施例提供了一种多模态语音通话信息抽取系统,包括:
音频文件获取模块,用于获取语音通话的音频文件;
语音特征提取模块,用于提取音频的能量特征、时域特征、频域特征和乐理特征;
语义特征提取模块:用于通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
交互特征提取模块,用于通过语音分析,提取音频中说话人的交互特征。
进一步地,在语音特征提取模块中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
进一步地,所述语义特征提取模块包括:
音频去噪子模块,用于对音频进行去噪处理;
端点检测子模块,用于采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
语音识别子模块,用于采用语音识别技术,将音频数据转录成文本;
标点符号生成子模块,用于采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
语义理解子模块,用于采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
语义特征输出子模块,用于将S307中获取到的语义标签信息输出。
进一步地,在交互特征提取模块中,提取的说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
进一步地,所述交互特征提取模块包括:
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
端点检测子模块,用于采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
语速检测子模块,用于通过语速检测,获取每个说话人的每段话的语速;
噪声检测子模块,用于通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
交互特征输出子模块,用于将从S401至S405中获取到的交互特征汇总输出。
进一步地,本发明实施例提供的一种多模态语音通话信息抽取系统,还包括特征组合及输出模块,用于根据实际的应用需求,将以上各模块提取的特征进行组合,形成一个多模态的特征集合并输出,以辅助进行下游任务分析。
本发明提供的一种多模态语音通话信息抽取方法及系统,通过提取通话数据中的语音、语义、交互等多模态特征信息进行组合,形成一个多模态的语音通话特征集,可应用于众多下游任务的分析,包含但不限于客服服务质量分析、催收通话中的客户还款意愿分析、营销通话中的客户付费意愿分析、回访电话中的客户满意度分析等等,具有广泛的应用前景。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种多模态语音通话信息抽取方法,其特征在于,包括:
S1、获取音频文件:获取语音通话的音频文件;
S2、提取语音特征:提取音频的能量特征、时域特征、频域特征和乐理特征;
S3、提取语义特征:通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
S4、提取交互特征:通过语音分析,提取音频中说话人的交互特征。
2.根据权利要求1所述的多模态语音通话信息抽取方法,其特征在于,在S2中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
3.根据权利要求1所述的多模态语音通话信息抽取方法,其特征在于,所述S3具体包括:
S301、音频去噪:对音频进行去噪处理;
S302、端点检测:采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
S303、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S304、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S305、语音识别:采用语音识别技术,将音频数据转录成文本;
S306、标点符号生成:采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
S307、语义理解:采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
S308、语义特征输出:将S307中获取到的语义标签信息输出。
4.根据权利要求1所述的多模态语音通话信息抽取方法,其特征在于,在S4中,所述说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
5.根据权利要求4所述的多模态语音通话信息抽取方法,其特征在于,所述S4具体包括:
S401、语音分离:采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
S402、声纹识别:采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
S403、端点检测:采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
S404、语速检测:通过语速检测,获取每个说话人的每段话的语速;
S405、噪声检测:通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
S406、交互特征输出:将从S401至S405中获取到的交互特征汇总输出。
6.一种多模态语音通话信息抽取系统,其特征在于,包括:
音频文件获取模块,用于获取语音通话的音频文件;
语音特征提取模块,用于提取音频的能量特征、时域特征、频域特征和乐理特征;
语义特征提取模块:用于通过语音识别技术将音频转录成文字,再利用自然语言处理技术,对文本内容进行分析和理解;
交互特征提取模块,用于通过语音分析,提取音频中说话人的交互特征。
7.根据权利要求6所述的多模态语音通话信息抽取系统,其特征在于,在语音特征提取模块中,使用openSMILE工具提取音频的梅尔频率倒谱系数(MFCC)。
8.根据权利要求6所述的多模态语音通话信息抽取系统,其特征在于,所述语义特征提取模块包括:
音频去噪子模块,用于对音频进行去噪处理;
端点检测子模块,用于采用端点检测技术,将连续的通话内容切分成独立的语音片段,并去除静音片段;
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
语音识别子模块,用于采用语音识别技术,将音频数据转录成文本;
标点符号生成子模块,用于采用标点符号生成技术,对文本进行语义重组和断句,给文本内容加上标点符号;
语义理解子模块,用于采用意图理解技术和实体识别技术,对文本内容进行分析,获取文本意图和关键的实体;
语义特征输出子模块,用于将S307中获取到的语义标签信息输出。
9.根据权利要求6所述的多模态语音通话信息抽取方法,其特征在于,在交互特征提取模块中,提取的说话人的交互特征包括整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长、语速、通话质量和通话环境质量。
10.根据权利要求9所述的多模态语音通话信息抽取方法,其特征在于,所述交互特征提取模块包括:
语音分离子模块,用于采用语音分离技术,将音频中有多人重叠说话的部分分离成单人语音数据,将单通道多人声数据分离拆分成多通道单人声数据;
声纹识别子模块,用于采用声纹识别技术,识别音频中的不同人的声纹,根据声纹区分不同的说话人,并对说话人的身份类别进行归类划分;
端点检测子模块,用于采用端点检测技术,获取每段话的开始与结束时间,以计算整个通话的时长,以及每个说话人各自的说话时长、静默时长、静默次数、插话时长;
语速检测子模块,用于通过语速检测,获取每个说话人的每段话的语速;
噪声检测子模块,用于通过噪声检测,获取每个说话人的通话质量以及通话环境质量;
交互特征输出子模块,用于将从S401至S405中获取到的交互特征汇总输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210403339.0A CN114974294A (zh) | 2022-04-18 | 2022-04-18 | 一种多模态语音通话信息抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210403339.0A CN114974294A (zh) | 2022-04-18 | 2022-04-18 | 一种多模态语音通话信息抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114974294A true CN114974294A (zh) | 2022-08-30 |
Family
ID=82976430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210403339.0A Pending CN114974294A (zh) | 2022-04-18 | 2022-04-18 | 一种多模态语音通话信息抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114974294A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117174092A (zh) * | 2023-11-02 | 2023-12-05 | 北京语言大学 | 基于声纹识别与多模态分析的移动语料转写方法及装置 |
CN117456984A (zh) * | 2023-10-26 | 2024-01-26 | 杭州捷途慧声科技有限公司 | 一种基于声纹识别的语音交互方法及系统 |
-
2022
- 2022-04-18 CN CN202210403339.0A patent/CN114974294A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456984A (zh) * | 2023-10-26 | 2024-01-26 | 杭州捷途慧声科技有限公司 | 一种基于声纹识别的语音交互方法及系统 |
CN117174092A (zh) * | 2023-11-02 | 2023-12-05 | 北京语言大学 | 基于声纹识别与多模态分析的移动语料转写方法及装置 |
CN117174092B (zh) * | 2023-11-02 | 2024-01-26 | 北京语言大学 | 基于声纹识别与多模态分析的移动语料转写方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10720164B2 (en) | System and method of diarization and labeling of audio data | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN110136727A (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
US20150350438A1 (en) | Speech analytics system and methodology with accurate statistics | |
US20100070276A1 (en) | Method and apparatus for interaction or discourse analytics | |
CN109256150A (zh) | 基于机器学习的语音情感识别系统及方法 | |
CN114974294A (zh) | 一种多模态语音通话信息抽取方法及系统 | |
US20120209606A1 (en) | Method and apparatus for information extraction from interactions | |
Kopparapu | Non-linguistic analysis of call center conversations | |
US10546064B2 (en) | System and method for contextualising a stream of unstructured text representative of spoken word | |
CN112562682A (zh) | 基于多人通话的身份识别方法、系统、设备及存储介质 | |
CN113744742A (zh) | 对话场景下的角色识别方法、装置和系统 | |
CN115831125A (zh) | 语音识别方法、装置、设备、存储介质及产品 | |
CN113314103B (zh) | 基于实时语音情感分析的非法信息识别方法及装置 | |
CN114707515A (zh) | 话术判别方法、装置、电子设备及存储介质 | |
Deekshitha et al. | Prosodically guided phonetic engine | |
AU2020103587A4 (en) | A system and a method for cross-linguistic automatic speech recognition | |
Kulkarni et al. | Project Vāc: Can a Text-to-Speech Engine Generate Human Sentiments? | |
Koolagudi et al. | Vowel recognition from telephonic speech using MFCCs and Gaussian mixture models | |
Sai Tharun et al. | Voice Data-Mining on Audio from Audio and Video Clips | |
RS et al. | Kannada Subtitle Generation with Speaker Diarization: A Comprehensive Solution for Regional Language Visual Media Accessibility | |
Katerenchuk et al. | Interpersonal Relationship Labels for the CALLHOME Corpus | |
Sárosi et al. | LVCSR-based Speech Analytics of a Hungarian Language Call-Center | |
CN118447841A (zh) | 基于语音识别的对话方法、装置、终端设备及存储介质 | |
WO2023129262A1 (en) | Training and using a transcript generation model on a multi-speaker audio stream |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |