CN111599382B - 语音分析方法、装置、计算机设备和存储介质 - Google Patents
语音分析方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111599382B CN111599382B CN202010727222.9A CN202010727222A CN111599382B CN 111599382 B CN111599382 B CN 111599382B CN 202010727222 A CN202010727222 A CN 202010727222A CN 111599382 B CN111599382 B CN 111599382B
- Authority
- CN
- China
- Prior art keywords
- level
- task
- sentence
- voice
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 279
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000011176 pooling Methods 0.000 claims description 104
- 230000000694 effects Effects 0.000 claims description 42
- 238000001514 detection method Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及一种语音分析方法、装置、计算机设备和存储介质。所述方法包括:获取包括多个语音帧的语音序列;将各语音帧输入多任务语音分析模型中的共享网络层,提取分别对应于各语音帧的共享中间特征;将共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层;不同任务私有网络层对应于不同的语音分析任务;通过与语音分析任务中的句级任务对应的任务私有网络层,根据各语音帧的共享中间特征生成句级特征,并对句级特征进行语音分析,输出与句级任务对应的分析结果;通过与语音分析任务中的帧级任务对应的任务私有网络层,对共享中间特征进行语音分析,输出与帧级任务对应的分析结果。采用本方法能够提高语音分析准确性。
Description
技术领域
本申请涉及计算机技术和深度学习技术领域,特别是涉及一种语音分析方法、装置、计算机设备和存储介质。
背景技术
随着远程通讯的普及以及计算机技术的发展,在日常生活中,每天会产生大量的语音数据,对语音数据进行分析非常重要。比如:电话客服中心和营销部门可以通过分析客服和客户的对话内容的语音数据,筛选目标客户。再比如:机器人在人机交互中,若能智能地分析出语音中的有用信息,也可以极大地提升机器人的智能化水平。
传统技术中,一般是从某一单一方面对语音进行分析,比如:对语音中的内容进行分析,从而确定说话人的意图或感情色彩等。然而,这样只对一个方面进行分析比较片面,从而导致语音分析准确性比较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高语音分析准确性的语音分析方法、装置、计算机设备和存储介质。
一种语音分析方法,所述方法包括:
获取语音序列;所述语音序列中包括多个语音帧;
将各所述语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各所述语音帧的共享中间特征;所述多任务语音分析模型,用于对所述语音序列执行多个语音分析任务;
将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私有网络层;不同所述任务私有网络层对应于不同的所述语音分析任务;
通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级任务对应的分析结果;
通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果。
在其中一个实施例中,所述语音分析任务包括语音活动检测任务;
在所述将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私有网络层之前,所述方法还包括:
将各所述语音帧的共享中间特征,输入至所述语音活动检测任务所对应的任务私有网络层,从所述语音帧中检测出属于人声的语音帧;
所述将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私有网络层包括:
将所述属于人声的语音帧的所述共享中间特征,分别并行地输入至多任务语音分析模型中的各任务私有网络层。
在其中一个实施例中,所述句级任务对应的任务私有网络层中包括句级池化层;
所述通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级任务对应的分析结果包括:
通过与所述语音分析任务中的句级任务对应的任务私有网络层中的所述句级池化层,对各所述语音帧的所述共享中间特征进行池化处理,生成相应的句级特征;所述句级特征,用于表征相应共享中间特征所对应的句子的特征;所述句子为所述相应共享中间特征所提取自的所述语音帧所属于的句子;
通过所述句级任务对应的任务私有网络层中所述句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分析,输出所述句级任务对应的分析结果。
在其中一个实施例中,所述句级任务包括句级预测任务和句级分类任务中的至少一种;
所述通过所述句级任务对应的任务私有网络层中所述句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分析,输出所述句级任务对应的分析结果包括:
当所述句级任务包括句级预测任务时,则通过所述句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行预测处理,输出所述句级预测任务针对所述语音序列的预测结果;
当所述句级任务包括句级分类任务时,则通过所述句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分类处理,输出所述句级分类任务针对所述语音序列的分类结果。
在其中一个实施例中,所述句级预测任务包括年龄预测任务;
所述通过所述句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行预测处理,输出所述句级预测任务针对所述语音序列的预测结果包括:
通过所述年龄预测任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行年龄预测处理,输出所述语音帧所属于的句子对应的发声者的年龄。
在其中一个实施例中,所述句级分类任务包括语种识别任务;
所述通过所述句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分类处理,输出所述句级分类任务针对所述语音序列的分类结果包括:
通过所述语种识别任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行语种分类处理,输出所述语音帧所属于的句子对应的语种。
在其中一个实施例中,句级分类任务包括性别识别任务;所述通过所述句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分类处理,输出所述句级分类任务针对所述语音序列的分类结果包括:
通过所述性别识别任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行性别分类处理,输出所述语音帧所属于的句子对应的发声者的性别。
在其中一个实施例中,所述帧级任务包括帧级预测任务和帧级分类任务中的至少一种;
所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果包括:
当所述帧级任务包括所述帧级预测任务时,通过与所述帧级预测任务对应的任务私有网络层,对各所述语音帧的所述共享中间特征进行预测处理,输出所述帧级预测任务针对所述语音序列的预测结果;
当所述帧级任务包括帧级分类任务时,通过与所述帧级分类任务对应的任务私有网络层,对所述共享中间特征进行分类处理,输出所述帧级分类任务针对所述语音序列的分类结果。
在其中一个实施例中,所述帧级预测任务包括语音活动检测任务;
所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果包括:
通过与所述语音分析任务中的语音活动检测任务对应的任务私有网络层,对所述共享中间特征进行语音活动概率预测处理,输出各所述语音帧为活动语音的概率。
在其中一个实施例中,所述帧级分类任务包括语音识别任务;
所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果包括:
通过与所述语音分析任务中的语音识别任务对应的任务私有网络层,对所述共享中间特征进行语音识别处理,输出各所述语音帧对应的语音内容。
一种语音分析装置,所述装置包括:
共享特征提取模块,用于获取语音序列;所述语音序列中包括多个语音帧;将各所述语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各所述语音帧的共享中间特征;所述多任务语音分析模型,用于对所述语音序列执行多个语音分析任务;
共享特征提取模块还用于将所述共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层;不同所述任务私有网络层对应于不同的所述语音分析任务;
句级语音分析模块,用于通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级任务对应的分析结果;
帧级语音分析模块,用于通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请各实施例所述的语音分析方法中的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述的语音分析方法中的步骤。
上述语音分析方法、装置、计算机设备和存储介质,将语音序列中的各语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各语音帧的共享中间特征,然后将共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层,通过句级任务对应的任务私有网络层,输出与句级任务对应的分析结果,通过帧级任务对应的任务私有网络层,输出与帧级任务对应的分析结果。能够同时对语音数据进行多方面的分析,从而得到多方面的分析结果,增加了语音分析获得的信息量,从而提高了语音分析的准确性。
附图说明
图1为一个实施例中语音分析方法的应用环境图;
图2为一个实施例中语音分析方法的流程示意图;
图3为一个实施例中多任务语音分析模型的结构示意图;
图4为一个实施例中语音分析装置的结构框图;
图5为另一个实施例中语音分析装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音分析方法,可以应用于如图1所示的应用环境中。其中,发声者102进行说话,语音采集设备104采集发声者102说话产生的原始语音数据。计算机设备106获取语音采集设备104采集到的原始语音数据,然后对原始语音数据进行处理得到语音序列,再对语音序列执行本申请各实施例中的语音分析方法进行语音分析,得到分析结果。其中,计算机设备106可以是终端或服务器,或终端和服务器的系统。在一个实施例中,如图2所示,提供了一种语音分析方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,获取语音序列;语音序列中包括多个语音帧。
其中,语音序列,是由多个语音帧按时序排列的序列。语音序列,是将语音数据切分成多个预设长度的片段所得到的序列。语音序列,是对语音数据进行分帧处理后得到的序列。语音帧,是语音序列中的片段。
需要说明的是,语音序列可以是对原始语音数据分帧处理后得到的序列,也可以是对分帧处理后得到的语音帧进行常规的语音信号处理后得到的序列。其中,原始语音数据,是指语音采集设备直接采集到的、且未经过处理的语音数据。
在一个实施例中,服务器可以先对原始语音数据进行分帧处理,将原始语音数据切分成多个语音帧,然后对切分得到的语音帧进行常规的语音信号处理,得到预处理后的语音序列,并将预处理后的语音序列中的各语音帧输入预先训练的多任务语音分析模型中的共享网络层。在一个实施例中,常规的语音信号处理具体可以是傅里叶变换。
S204,将各语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各语音帧的共享中间特征;多任务语音分析模型,用于对语音序列执行多个语音分析任务。
其中,共享中间特征,是对语音序列执行各语音分析任务所共同需要的特征。共享网络层,用于从语音序列中提取共享中间特征。语音分析任务,是通过对语音进行分析,从语音中获得信息的任务。多任务语音分析模型,是用单个模型进行多个语音分析任务的机器学习模型。
在一个实施例中,多任务语音分析模型可以为深度学习模型。
在一个实施例中,语音分析任务,可以包括帧级任务和句级任务。其中,帧级任务,是对语音帧进行语音分析的任务。帧级任务包括语音活动检测任务和语音识别任务等中的至少一种。句级任务,是对整句的语音数据进行语音分析的任务。句级任务包括语种识别任务、性别识别任务和年龄预测任务等中的至少一种。
在一个实施例中,语音分析任务,可以包括预测任务和分类任务。其中,预测任务,是输出连续数值的任务。预测任务包括年龄预测任务和语音活动检测任务等中的至少一种。分类任务,是输出离散类别的任务。分类任务包括性别分类任务、语种识别任务和语音识别任务等中的至少一种。
具体地,服务器将语音序列中的各语音帧一起输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各语音帧的共享中间特征。
如图3所示,“t0,t1,t2,…,tn”即为语音序列,tn为语音序列中的语音帧,将“t0,t1,t2,…,tn”一起输入共享网络层,提取各自对应的共享中间特征。
S206,将共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层;不同任务私有网络层对应于不同的语音分析任务。
其中,任务私有网络层,是各语音分析任务所私有的、且用于根据共享中间特征分析得到相应语音分析任务的分析结果的网络层。
在一个实施例中,服务器可以先将各语音帧的共享中间特征输入语音活动检测任务所对应的任务私有网络层中,检测出属于人声的语音帧,然后再将属于人声的语音帧的共享中间特征,分别并行地输入至多任务语音分析模型中的各任务私有网络层进行语音分析。可以理解,本实施例中,属于人声的语音帧的共享中间特征所输入至的多任务语音分析模型中的各任务私有网络层,不包括语音活动检测任务的任务私有网络层。
在另一个实施例中,服务器也可以直接将各语音帧的共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层进行语音分析。如图3所示,即为将共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层,图中每个方框内即为一个任务私有网络层。可以理解,语种识别和性别识别均为句级分类任务,图中仅示意性地示出一个句级分类任务对应的任务私有网络层,在实际应用中,不同的语音分析任务对应不同的任务私有网络层,即,语种识别和性别识别分别对应各自的任务私有网络层。可以理解,本实施例中,直接将各语音帧的共享中间特征分别并行地输入至的多任务语音分析模型中的各任务私有网络层,包括语音活动检测任务的任务私有网络层。
S208,通过与语音分析任务中的句级任务对应的任务私有网络层,根据各语音帧的共享中间特征生成句级特征,并对句级特征进行语音分析,输出与句级任务对应的分析结果。
其中,句级任务,是对整句的语音数据进行语音分析的任务。句级特征,用于表征相应共享中间特征所对应的句子的特征。
在一个实施例中,句级任务可以包括句级预测任务和句级分类任务中的至少一种。句级预测任务和句级分类任务中分别可以包括至少一种语音分析任务。比如,句级分类任务可以包括语种识别任务和性别识别任务中的至少一种。
S210,通过与语音分析任务中的帧级任务对应的任务私有网络层,对共享中间特征进行语音分析,输出与帧级任务对应的分析结果。
其中,帧级任务,是对每个语音帧进行语音分析的任务。
在一个实施例中,帧级任务可以包括帧级预测任务和帧级分类任务中的至少一种。帧级预测任务和帧级分类任务中分别可以包括至少一种语音分析任务。
上述语音分析方法中,将语音序列中的各语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各语音帧的共享中间特征,然后将共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层,通过句级任务对应的任务私有网络层,输出与句级任务对应的分析结果,通过帧级任务对应的任务私有网络层,输出与帧级任务对应的分析结果。能够同时对语音数据进行多方面的分析,从而得到多方面的分析结果,增加了语音分析获得的信息量。并且,基于深度学习模型进行语音分析,能够提高语音分析的结果的准确性。此外,同时执行多项不同的语音分析任务,各语音分析任务共享用于提取共享中间特征的共享网络层的参数,从而降低了计算量,提高了语音分析效率,还能有效改善单个语音分析任务面临的数据稀疏问题,提升模型的整体鲁棒性。
在一个实施例中,语音分析任务包括语音活动检测任务。在步骤S206之前,该方法还包括如下步骤:将各语音帧的共享中间特征,输入至语音活动检测任务所对应的任务私有网络层,从语音帧中检测出属于人声的语音帧。步骤S206具体包括如下步骤:将属于人声的语音帧的共享中间特征,分别并行地输入至多任务语音分析模型中的各任务私有网络层。
其中,语音活动检测任务,是用于预测每个语音帧属于活动语音的概率的任务,且预测的概率范围为0~100%。活动语音,是指人声。语音活动检测任务,属于帧级预测任务,即,既属于帧级任务,又属于预测任务。
具体地,服务器可以先将各语音帧的共享中间特征,输入至语音活动检测任务所对应的任务私有网络层,执行语音活动检测任务,输出每个语音帧属于人声的概率。然后根据每个语音帧属于人声的概率,确定属于人声的语音帧。服务器将属于人声的语音帧的共享中间特征,分别并行地输入至多任务语音分析模型中除语音活动检测任务所对应的任务私有网络层之外的各任务私有网络层,执行除语音活动检测任务之外的各语音分析任务,输出除语音活动检测任务之外的各语音分析任务对应的分析结果。
本实施例中,先执行语音活动检测任务,然后将检测到的属于人声的语音帧的共享中间特征输入其他语音分析任务对应的任务私有网络层,执行其他语音分析任务,这样其他语音分析任务只需对属于人声的语音帧进行分析,能够减少除语音活动检测任务之外的语音分析任务的工作量。此外,无论是语音活动检测任务,还是除语音活动检测任务之外的语音分析任务,均对共享网络层提取的共享中间特征进行分析,而不需要每个语音分析任务分别提取这部分共享中间特征,减少了语音分析的工作量,从而提高了语音分析效率。
在一个实施例中,句级任务对应的任务私有网络层中包括句级池化层。步骤S208,具体包括如下步骤:通过与语音分析任务中的句级任务对应的任务私有网络层中的句级池化层,对各语音帧的共享中间特征进行池化处理,生成相应的句级特征;句级特征,用于表征相应共享中间特征所对应的句子的特征;句子为相应共享中间特征所提取自的语音帧所属于的句子;通过句级任务对应的任务私有网络层中句级池化层之后的网络层,对句级池化层输出的句级特征进行分析,输出句级任务对应的分析结果。
其中,句级池化层,是用于将帧级特征汇总成句级特征的神经网络层。比如:如图3所示,句级预测任务和句级分类任务分别对应的任务私有网络层中的句级池化层,即为句级池化层。
具体地,语音分析任务中可以包括至少一个句级任务。当服务器将共享中间特征输入句级任务对应的任务私有网络层时,先通过句级任务对应的任务私有网络层中的句级池化层,对各语音帧的共享中间特征进行池化处理,将各语音帧的共享中间特征这样的帧级特征汇总成句级特征。比如,语音数据“我爱祖国”是一个句子,假设将这个语音数据转换为语音序列后,得到“我”、“爱”、“祖”和“国”四个语音帧组成的语音序列,对这四个语音帧分别对应的共享中间特征进行池化处理,则得到“我爱祖国”这整个句子对应的句级特征。然后,服务器通过句级池化层之后的网络层,对句级池化层输出的句级特征进行分析,输出句级任务对应的分析结果,即,共享中间特征所提取自的语音帧所属于的句子的分析结果。比如:仍以“我爱祖国”为例,输出对“我爱祖国”这整个句子的分析结果。
在一个实施例中,服务器可以直接将共享网络层所提取的各语音帧的共享中间特征,输入至句级任务对应的任务私有网络层中的句级池化层。
在另一个实施例中,服务器可以先将共享网络层所提取的各语音帧的共享中间特征,输入至语音活动检测任务所对应的任务私有网络层,从语音帧中检测出属于人声的语音帧。然后,服务器再将属于人声的语音帧的共享中间特征,输入至句级任务对应的任务私有网络层中的句级池化层。
本实施例中,句级任务对应的任务私有网络层中包括句级池化层,先通过句级池化层将帧级特征汇总成句级特征,然后对句级特征进行分析,输出句级任务对应的分析结果,这样能够使句级任务和帧级任务共享相同的共享中间特征,然后只需将共享中间特征汇总成句级特征即可执行句级任务,不需要句级任务和帧级任务分别进行整个分析过程,减少了语音分析的工作量,从而提高了语音分析效率。
在一个实施例中,句级任务包括句级预测任务和句级分类任务中的至少一种。通过句级任务对应的任务私有网络层中句级池化层之后的网络层,对句级池化层输出的句级特征进行分析,输出句级任务对应的分析结果的步骤,具体包括如下步骤:当句级任务包括句级预测任务时,则通过句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行预测处理,输出句级预测任务针对语音序列的预测结果;当句级任务包括句级分类任务时,则通过句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行分类处理,输出句级分类任务针对语音序列的分类结果。
其中,句级预测任务,为既属于句级任务又属于预测任务的语音分析任务。句级分类任务,为既属于句级任务又属于分类任务的语音分析任务。
在一个实施例中,当句级任务包括句级预测任务时,服务器则通过句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行预测处理,输出句级预测任务针对语音序列中的句子的预测数值。如图3所示,句级预测任务的输出为预测数值。
在一个实施例中,句级预测任务可以包括至少一种语音分析任务。比如:句级预测任务可以包括年龄预测任务。
在一个实施例中,当句级任务包括句级分类任务时,则通过句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行分类处理,输出句级分类任务针对语音序列中的句子的分类结果。如图3所示,句级分类任务的输出为分类处理得到的类别,即,分类结果为类别1至类别k中的某一个类别。
在一个实施例中,句级分类任务可以包括至少一种语音分析任务。比如:句级分类任务可以语种识别任务或性别识别任务。
本实施例中,句级任务包括句级预测任务和句级分类任务中的至少一种,服务器可以对语音序列分别进行句级预测任务和句级分类任务,从而能够执行多种语音分析任务,同时对语音数据进行多方面的分析,从而得到多方面的分析结果,增加了语音分析获得的信息量。
在一个实施例中,句级预测任务包括年龄预测任务。通过句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行预测处理,输出句级预测任务针对语音序列的预测结果的步骤,具体包括如下步骤:通过年龄预测任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行年龄预测处理,输出语音帧所属于的句子对应的发声者的年龄。
其中,年龄预测任务,是预测语音帧所属于的句子对应的发声者的年龄的任务。
具体地,服务器可以通过年龄预测任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行年龄预测处理,输出语音帧所属于的句子对应的发声者的年龄。输出的发声者的年龄可以为可识别范围内的某一个年龄,比如:输出的年龄可以是5岁至70岁之间的某一个年龄。
本实施例中,服务器可以执行年龄预测任务,输出语音帧所属于的句子对应的发声者的年龄。
在一个实施例中,句级分类任务包括语种识别任务。通过句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行分类处理,输出句级分类任务针对语音序列的分类结果的步骤,具体包括如下步骤:通过语种识别任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行语种分类处理,输出语音帧所属于的句子对应的语种。
其中,语种识别任务,是识别语音帧所属于的句子对应的语种的任务。
具体地,当句级分类任务包括语种识别任务时,服务器可以通过语种识别任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行语种分类处理,输出语音帧所属于的句子对应的语种。比如:输出的语种可以为汉语、英语或西班牙语等。
本实施例中,服务器可以执行语种识别任务,输出语音帧所属于的句子对应的语种。
在一个实施例中,句级分类任务包括性别识别任务。通过句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行分类处理,输出句级分类任务针对语音序列的分类结果的步骤,具体包括如下步骤:通过性别识别任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行性别分类处理,输出语音帧所属于的句子对应的发声者的性别。
其中,性别识别任务,是识别语音帧所属于的句子对应的发声者的性别的任务。
在一个实施例中,当句级分类任务包括性别识别任务时,服务器可以通过性别识别任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行性别分类处理,输出语音帧所属于的句子对应的发声者的性别。比如:输出的发声者的性别可以为男或女。
本实施例中,服务器可以执行性别识别任务,输出语音帧所属于的句子对应的发声者的性别。
在一个实施例中,帧级任务包括帧级预测任务和帧级分类任务中的至少一种。步骤S210具体包括如下步骤:当帧级任务包括帧级预测任务时,通过与帧级预测任务对应的任务私有网络层,对各语音帧的共享中间特征进行预测处理,输出帧级预测任务针对语音序列的预测结果。
其中,帧级预测任务,是既属于帧级任务又属于预测任务的语音分析任务。帧级分类任务,是既属于帧级任务又属于分类任务的语音分析任务。
具体地,当帧级任务包括帧级预测任务时,服务器可以通过与帧级预测任务对应的任务私有网络层,对各语音帧的共享中间特征进行预测处理,输出帧级预测任务针对语音序列中每个语音帧的预测结果。如图3所示,帧级预测任务的输出为每个语音帧对应的预测数值。
在一个实施例中,帧级预测任务可以包括至少一种语音分析任务。比如:帧级预测任务可以包括语音活动检测任务。
在一个实施例中,步骤S210具体包括如下步骤:当帧级任务包括帧级分类任务时,通过与帧级分类任务对应的任务私有网络层,对共享中间特征进行分类处理,输出帧级分类任务针对语音序列的分类结果。
具体地,当帧级任务包括帧级分类任务时,服务器可以通过与帧级分类任务对应的任务私有网络层,对共享中间特征进行分类处理,输出帧级分类任务针对语音序列中每个语音帧的分类结果。如图3所示,帧级分类任务的输出为每个语音帧对应的分类处理所得到的类别,即,每个语音帧的分类结果为类别1至类别k中的某一个类别。
在一个实施例中,帧级分类任务可以包括至少一种语音分析任务。比如:帧级分类任务可以包括语音识别任务。
本实施例中,帧级任务包括帧级预测任务和帧级分类任务中的至少一种,服务器可以对语音序列分别进行帧级预测任务和帧级分类任务,从而能够执行多种语音分析任务,同时对语音数据进行多方面的分析,从而得到多方面的分析结果,增加了语音分析获得的信息量。
在一个实施例中,帧级预测任务包括语音活动检测任务。步骤S210包括如下步骤:通过与语音分析任务中的语音活动检测任务对应的任务私有网络层,对共享中间特征进行语音活动概率预测处理,输出各语音帧为活动语音的概率。
其中,语音活动概率预测处理,是预测每个语音帧为活动语音的概率的处理。活动语音,是指人声。
具体地,服务器可以通过与语音分析任务中的语音活动检测任务对应的任务私有网络层,对各语音帧对应的共享中间特征进行语音活动概率预测处理,输出各语音帧为活动语音的概率。
本实施例中,服务器可以执行语音活动检测任务,输出各语音帧为活动语音的概率,从而确定哪些语音帧为人声。
在一个实施例中,帧级分类任务包括语音识别任务。步骤S210包括如下步骤:通过与语音分析任务中的语音识别任务对应的任务私有网络层,对共享中间特征进行语音识别处理,输出各语音帧对应的语音内容。
其中,语音识别任务,是识别语音序列中的每个语音帧中的内容或关键字的任务。
在一个实施例中,语音识别任务输出的各语音帧对应的语音内容可以为音素或文字等。
本实施例中,服务器可以执行语音识别任务,识别语音序列中的语音内容,从而能够根据语音内容确定发声者的情感或意图。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种语音分析装置400,包括:共享特征提取模块402、句级语音分析模块404和帧级语音分析模块406,其中:
共享特征提取模块402,用于获取语音序列;语音序列中包括多个语音帧;将各语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各语音帧的共享中间特征;多任务语音分析模型,用于对语音序列执行多个语音分析任务。
共享特征提取模块402还用于将共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层;不同任务私有网络层对应于不同的语音分析任务。
句级语音分析模块404,用于通过与语音分析任务中的句级任务对应的任务私有网络层,根据各语音帧的共享中间特征生成句级特征,并对句级特征进行语音分析,输出与句级任务对应的分析结果。
帧级语音分析模块406,用于通过与语音分析任务中的帧级任务对应的任务私有网络层,对共享中间特征进行语音分析,输出与帧级任务对应的分析结果。
在一个实施例中,如图5所示,语音分析任务包括语音活动检测任务。语音分析装置400还包括:
人声提取模块408,用于将各语音帧的共享中间特征,输入至语音活动检测任务所对应的任务私有网络层,从语音帧中检测出属于人声的语音帧。将属于人声的语音帧的共享中间特征,分别并行地输入至多任务语音分析模型中的各任务私有网络层。
在一个实施例中,句级任务对应的任务私有网络层中包括句级池化层。句级语音分析模块404还用于通过与语音分析任务中的句级任务对应的任务私有网络层中的句级池化层,对各语音帧的共享中间特征进行池化处理,生成相应的句级特征;句级特征,用于表征相应共享中间特征所对应的句子的特征;句子为相应共享中间特征所提取自的语音帧所属于的句子;通过句级任务对应的任务私有网络层中句级池化层之后的网络层,对句级池化层输出的句级特征进行分析,输出句级任务对应的分析结果。
在一个实施例中,句级任务包括句级预测任务和句级分类任务中的至少一种。在一个实施例中,句级语音分析模块404还用于当句级任务包括句级预测任务时,则通过句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行预测处理,输出句级预测任务针对语音序列的预测结果。
在一个实施例中,句级语音分析模块404还用于当句级任务包括句级分类任务时,则通过句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行分类处理,输出句级分类任务针对语音序列的分类结果。
在一个实施例中,句级预测任务包括年龄预测任务。句级语音分析模块404还用于通过年龄预测任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行年龄预测处理,输出语音帧所属于的句子对应的发声者的年龄。
在一个实施例中,句级分类任务包括语种识别任务。句级语音分析模块404还用于通过语种识别任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行语种分类处理,输出语音帧所属于的句子对应的语种。
在一个实施例中,句级分类任务包括性别识别任务。句级语音分析模块404还用于通过性别识别任务对应的任务私有网络层中的句级池化层之后的网络层,对句级池化层输出的句级特征进行性别分类处理,输出语音帧所属于的句子对应的发声者的性别。
在一个实施例中,帧级任务包括帧级预测任务和帧级分类任务中的至少一种。在一个实施例中,帧级语音分析模块406还用于当帧级任务包括帧级预测任务时,通过与帧级预测任务对应的任务私有网络层,对各语音帧的共享中间特征进行预测处理,输出帧级预测任务针对语音序列的预测结果。
在一个实施例中,帧级语音分析模块406还用于当帧级任务包括帧级分类任务时,通过与帧级分类任务对应的任务私有网络层,对共享中间特征进行分类处理,输出帧级分类任务针对语音序列的分类结果。
在一个实施例中,帧级预测任务包括语音活动检测任务。帧级语音分析模块406还用于通过与语音分析任务中的语音活动检测任务对应的任务私有网络层,对共享中间特征进行语音活动概率预测处理,输出各语音帧为活动语音的概率。
在一个实施例中,帧级分类任务包括语音识别任务。帧级语音分析模块406还用于通过与语音分析任务中的语音识别任务对应的任务私有网络层,对共享中间特征进行语音识别处理,输出各语音帧对应的语音内容。
上述语音分析装置中,将语音序列中的各语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各语音帧的共享中间特征,然后将共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层,通过句级任务对应的任务私有网络层,输出与句级任务对应的分析结果,通过帧级任务对应的任务私有网络层,输出与帧级任务对应的分析结果。能够同时对语音数据进行多方面的分析,从而得到多方面的分析结果,增加了语音分析获得的信息量。并且,基于深度学习模型进行语音分析,能够提高语音分析的结果的准确性。此外,同时执行多项不同的语音分析任务,各语音分析任务共享用于提取共享中间特征的共享网络层的参数,从而降低了计算量,提高了语音分析效率,还能有效改善单个语音分析任务面临的数据稀疏问题,提升模型的整体鲁棒性。
关于语音分析装置的具体限定可以参见上文中对于语音分析方法的限定,在此不再赘述。上述语音分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音分析数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音分析方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (13)
1.一种语音分析方法,其特征在于,所述方法包括:
获取语音序列;所述语音序列中包括多个语音帧;
将各所述语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各所述语音帧的共享中间特征;所述多任务语音分析模型,用于对所述语音序列执行多个语音分析任务;
将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私有网络层;不同所述任务私有网络层对应于不同的所述语音分析任务;
通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级任务对应的分析结果;
通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果。
2.根据权利要求1所述的方法,其特征在于,所述语音分析任务包括语音活动检测任务;
在所述将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私有网络层之前,所述方法还包括:
将各所述语音帧的共享中间特征,输入至所述语音活动检测任务所对应的任务私有网络层,从所述语音帧中检测出属于人声的语音帧;
所述将所述共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层包括:
将所述属于人声的语音帧的所述共享中间特征,分别并行地输入至所述多任务语音分析模型中的各任务私有网络层。
3.根据权利要求1或2所述的方法,其特征在于,所述句级任务对应的任务私有网络层中包括句级池化层;
所述通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级任务对应的分析结果包括:
通过与所述语音分析任务中的句级任务对应的任务私有网络层中的所述句级池化层,对各所述语音帧的所述共享中间特征进行池化处理,生成相应的句级特征;所述句级特征,用于表征相应共享中间特征所对应的句子的特征;所述句子为所述相应共享中间特征所提取自的所述语音帧所属于的句子;
通过所述句级任务对应的任务私有网络层中所述句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分析,输出所述句级任务对应的分析结果。
4.根据权利要求3所述的方法,其特征在于,所述句级任务包括句级预测任务和句级分类任务中的至少一种;
所述通过所述句级任务对应的任务私有网络层中所述句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分析,输出所述句级任务对应的分析结果包括:
当所述句级任务包括句级预测任务时,则通过所述句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行预测处理,输出所述句级预测任务针对所述语音序列的预测结果;
当所述句级任务包括句级分类任务时,则通过所述句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分类处理,输出所述句级分类任务针对所述语音序列的分类结果。
5.根据权利要求4所述的方法,其特征在于,所述句级预测任务包括年龄预测任务;
所述通过所述句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行预测处理,输出所述句级预测任务针对所述语音序列的预测结果包括:
通过所述年龄预测任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行年龄预测处理,输出所述语音帧所属于的句子对应的发声者的年龄。
6.根据权利要求4所述的方法,其特征在于,所述句级分类任务包括语种识别任务;所述通过所述句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分类处理,输出所述句级分类任务针对所述语音序列的分类结果包括:
通过所述语种识别任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行语种分类处理,输出所述语音帧所属于的句子对应的语种。
7.根据权利要求4所述的方法,其特征在于,所述句级分类任务包括性别识别任务;
所述通过所述句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分类处理,输出所述句级分类任务针对所述语音序列的分类结果包括:
通过所述性别识别任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行性别分类处理,输出所述语音帧所属于的句子对应的发声者的性别。
8.根据权利要求1所述的方法,其特征在于,所述帧级任务包括帧级预测任务和帧级分类任务中的至少一种;
所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果包括:
当所述帧级任务包括所述帧级预测任务时,通过与所述帧级预测任务对应的任务私有网络层,对各所述语音帧的所述共享中间特征进行预测处理,输出所述帧级预测任务针对所述语音序列的预测结果;
当所述帧级任务包括帧级分类任务时,通过与所述帧级分类任务对应的任务私有网络层,对所述共享中间特征进行分类处理,输出所述帧级分类任务针对所述语音序列的分类结果。
9.根据权利要求8所述的方法,其特征在于,所述帧级预测任务包括语音活动检测任务;
所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果包括:
通过与所述语音分析任务中的语音活动检测任务对应的任务私有网络层,对所述共享中间特征进行语音活动概率预测处理,输出各所述语音帧为活动语音的概率。
10.根据权利要求8所述的方法,其特征在于,所述帧级分类任务包括语音识别任务;
所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果包括:
通过与所述语音分析任务中的语音识别任务对应的任务私有网络层,对所述共享中间特征进行语音识别处理,输出各所述语音帧对应的语音内容。
11.一种语音分析装置,其特征在于,所述装置包括:
共享特征提取模块,用于获取语音序列;所述语音序列中包括多个语音帧;将各所述语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各所述语音帧的共享中间特征;所述多任务语音分析模型,用于对所述语音序列执行多个语音分析任务;
共享特征提取模块还用于将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私有网络层;不同所述任务私有网络层对应于不同的所述语音分析任务;
句级语音分析模块,用于通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级任务对应的分析结果;
帧级语音分析模块,用于通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727222.9A CN111599382B (zh) | 2020-07-27 | 2020-07-27 | 语音分析方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727222.9A CN111599382B (zh) | 2020-07-27 | 2020-07-27 | 语音分析方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111599382A CN111599382A (zh) | 2020-08-28 |
CN111599382B true CN111599382B (zh) | 2020-10-27 |
Family
ID=72188185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010727222.9A Active CN111599382B (zh) | 2020-07-27 | 2020-07-27 | 语音分析方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111599382B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530456B (zh) * | 2021-02-18 | 2021-05-28 | 北京远鉴信息技术有限公司 | 一种语言类别的识别方法、装置、电子设备及存储介质 |
CN113920988B (zh) * | 2021-12-03 | 2022-03-22 | 深圳比特微电子科技有限公司 | 语音唤醒方法、装置及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
CN109741735A (zh) * | 2017-10-30 | 2019-05-10 | 阿里巴巴集团控股有限公司 | 一种建模方法、声学模型的获取方法和装置 |
CN110379433A (zh) * | 2019-08-02 | 2019-10-25 | 清华大学 | 身份验证的方法、装置、计算机设备及存储介质 |
CN110444214A (zh) * | 2017-11-24 | 2019-11-12 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN110751260A (zh) * | 2018-07-24 | 2020-02-04 | 北京三星通信技术研究有限公司 | 电子设备、任务处理的方法以及训练神经网络的方法 |
CN111081255A (zh) * | 2019-12-31 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 说话人确认方法和装置 |
CN111104498A (zh) * | 2019-12-12 | 2020-05-05 | 华南理工大学 | 一种任务型对话系统中的语义理解方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10929754B2 (en) * | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
GB2573809B (en) * | 2018-05-18 | 2020-11-04 | Emotech Ltd | Speaker Recognition |
-
2020
- 2020-07-27 CN CN202010727222.9A patent/CN111599382B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
CN109741735A (zh) * | 2017-10-30 | 2019-05-10 | 阿里巴巴集团控股有限公司 | 一种建模方法、声学模型的获取方法和装置 |
CN110444214A (zh) * | 2017-11-24 | 2019-11-12 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN110751260A (zh) * | 2018-07-24 | 2020-02-04 | 北京三星通信技术研究有限公司 | 电子设备、任务处理的方法以及训练神经网络的方法 |
CN110379433A (zh) * | 2019-08-02 | 2019-10-25 | 清华大学 | 身份验证的方法、装置、计算机设备及存储介质 |
CN111104498A (zh) * | 2019-12-12 | 2020-05-05 | 华南理工大学 | 一种任务型对话系统中的语义理解方法 |
CN111081255A (zh) * | 2019-12-31 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 说话人确认方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111599382A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN109729383B (zh) | 双录视频质量检测方法、装置、计算机设备和存储介质 | |
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
US20220328037A1 (en) | System and method for neural network orchestration | |
CN112289323B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
CN110472224B (zh) | 服务质量的检测方法、装置、计算机设备和存储介质 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN111145782B (zh) | 重叠语音识别方法、装置、计算机设备和存储介质 | |
CN110110038B (zh) | 话务预测方法、装置、服务器及存储介质 | |
CN110930989B (zh) | 语音意图识别方法、装置、计算机设备和存储介质 | |
CN111599382B (zh) | 语音分析方法、装置、计算机设备和存储介质 | |
CN111597818B (zh) | 呼叫质检方法、装置、计算机设备和计算机可读存储介质 | |
CN113192516A (zh) | 语音角色分割方法、装置、计算机设备及存储介质 | |
CN109766474A (zh) | 审讯信息审核方法、装置、计算机设备和存储介质 | |
CN113434670A (zh) | 话术文本生成方法、装置、计算机设备和存储介质 | |
CN114218427A (zh) | 语音质检分析方法、装置、设备及介质 | |
CN113223532A (zh) | 客服通话的质检方法、装置、计算机设备及存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN111027319A (zh) | 自然语言时间词的解析方法、装置和计算机设备 | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN111552785A (zh) | 人机交互系统数据库更新方法、装置、计算机设备和介质 | |
CN113515642A (zh) | 电话营销关键断点确定方法及装置 | |
CN114333813A (zh) | 可配置智能语音机器人的实现方法、装置和存储介质 | |
CN113239154B (zh) | 坐席话术的质检方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |