CN112466297A - 一种基于时域卷积编解码网络的语音识别方法 - Google Patents

一种基于时域卷积编解码网络的语音识别方法 Download PDF

Info

Publication number
CN112466297A
CN112466297A CN202011301480.7A CN202011301480A CN112466297A CN 112466297 A CN112466297 A CN 112466297A CN 202011301480 A CN202011301480 A CN 202011301480A CN 112466297 A CN112466297 A CN 112466297A
Authority
CN
China
Prior art keywords
output
sequence
time
network
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011301480.7A
Other languages
English (en)
Other versions
CN112466297B (zh
Inventor
彭德光
赵清清
孙健
汤斌
黄攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Megalight Technology Co ltd
Original Assignee
Chongqing Megalight Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Megalight Technology Co ltd filed Critical Chongqing Megalight Technology Co ltd
Priority to CN202011301480.7A priority Critical patent/CN112466297B/zh
Publication of CN112466297A publication Critical patent/CN112466297A/zh
Application granted granted Critical
Publication of CN112466297B publication Critical patent/CN112466297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出一种基于时域卷积编解码网络的语音识别方法,包括:输入音频信息,获取音频特征,其中音频特征包括梅尔频率倒谱系数、线性预测倒谱系数;将所述音频特征输入预先构建的神经网络模型,获取时序特征序列;通过时域卷积网络对所述时序特征序列进行编码和解码操作,得到一组输出序列;根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则,获取预测结果;本发明可有效解决语音识别延迟问题。

Description

一种基于时域卷积编解码网络的语音识别方法
技术领域
本发明涉及语音识别领域,尤其涉及一种基于时域卷积编解码网络的语音识 别方法。
背景技术
目前语音识别领域主要有传统方法和深度学习方法,传统方法主要使用 GMM-HMM或DNN-HMM等基于HMM的方法对每一帧语音进行建模;基于深 度学习的方法使用包括卷积神经网络、循环神经网络在内的深度神经网络对大量 语音数据进行建模。现有技术的缺点:传统的基于HMM的方法需要帧级别的标 注,标注工作耗费大量时间和人力;深度学习方法中的双向循环网络无法有效解 决识别延迟问题。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种基于时域卷积编解码网络的 语音识别方法,主要解决现有方法标注费时且识别存在延时的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种基于时域卷积编解码网络的语音识别方法,包括:
输入音频信息,获取音频特征,其中音频特征包括梅尔频率倒谱系数、线性 预测倒谱系数;
将所述音频特征输入预先构建的神经网络模型,获取时序特征序列;
通过时域卷积网络对所述时序特征序列进行编码和解码操作,得到一组输出 序列;
根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的 预设映射规则,获取预测结果。
可选地,所述神经网络模型包括卷积神经网络模型和递归神经网络模型;输 入的所述音频特征预先通过卷积神经网络进行特征提取,在将提取的特征输入循 环神经网络获取所述时序特征序列。
可选地,所述卷积神经网络模型至少包括两层带有批量归一化的卷积层,激 活函数采用硬双曲正切函数。
可选地,所述递归神经网络包括5到7层网络层,且每层网络层均采用批量 归一化。
可选地,根据根据输出序列中每个元素的输出概率以及每个所述元素与标签 的预设映射规则构建CTC损失函数;
通过所述CTC损失函数反向传播更新所述时域卷积网络的参数。
可选地,所述时域卷积网络通过Softmax激活函数输出每个时间步输出序列 中元素的输出概率。
可选地,根据输出序列中每个元素的输出概率以及所述输出序列与预设标签 序列的预设映射规则,获取预测结果,包括:
根据输出序列中某一元素的输出概率与输出该元素之前的所有输出概率的 关系获取输出序列中元素的输出概率;
计算所有映射到所述标签序列中某一标签的输出序列的输出概率之和,作为 该标签的输出概率;选出输出概率最高的标签作为所述预测结果。
可选地,所述输出序列中某一元素的输出概率与输出该元素之前的所有输出 概率的关系表示为:
Figure BDA0002787035920000021
其中,设输出序列表示为π={π12,…,πn},
Figure BDA0002787035920000022
表示第t时间步输出πt的概 率,T表示输出为π的时间步。
可选地,标签的输出概率表示为:
Figure BDA0002787035920000023
其中,l表示标签序列;F-1(l)表示标签映射到输出序列的映射规则。
可选地,通过预训练的语言模型对所述预测结果进行校正。
如上所述,本发明一种基于时域卷积编解码网络的语音识别方法,具有以下 有益效果。
端到端的语音识别,减少繁杂的预处理步骤;时序卷积网络进行二次时序序 列建模,可有效缩短识别延迟。
附图说明
图1为本发明一实施例中基于时域卷积编解码网络的语音识别方法的流程 图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说 明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外 不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观 点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不 冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本 构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、 形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变, 且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种基于时域卷积神经网络的语音识别方法,包括 步骤S01-S04。
在步骤S01中,输入实时音频信息,获取音频特征,其中,音频特征包括梅 尔频率倒谱系数、线性预测倒谱系数:
在一实施例中,原始音频可由麦克风设备采集得到,音频文件类型可采用 “.wav”文件类型,格式要求为单声道、16000Hz采样频率、256kbps码率。
由于采集设备的不同,采集的音频格式不一定符合要求,但可以通过相关软 件和程序把这些音频格式转换成符合要求的格式。
音频的时域信息比较单一,为了得到较为丰富的信息,将音频从时域变换到 频域。在频域中,可以使用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)等频域特征,这里以MFCC为例。具体步骤如下:
预加重:用一个高通滤波器H(z)=1-μz-1对音频信号进行滤波,提升高频信 息,其中μ取值范围为0.9-1.0。
分帧:对信号进行平稳化处理。把预加重后的音频信号切分成长度为 20ms-30ms的音频帧,为了避免信号间的变化过大,每帧之间有25%、50%、75% 的重复率。
加窗:为避免频谱泄露,在进行频域变换之前,对每帧音频乘上一个窗函数, 突出中间时间信息,忽略开始和结束时间段信息。可选地,可采用“汉明窗”。
频域转换:用傅里叶变换将上述加窗后的短时时域信号变换到频域。
梅尔刻度滤波器过滤:使用三角带通滤波器或等高度的梅尔滤波器对频域信 号进行滤波,将频域信号进行平滑处理,使其分成几个子带。
离散余弦变换(Discrete Cosine Transformation,DCT):计算每个滤波器 组输出的对数能量,即子带能量,再经DCT变换得到MFCC系数。
Figure BDA0002787035920000041
其中,f(i)为频域信号,F(u)是DCT变换后的系数,N为原始信号的点数,c(u) 是一个补偿系数,它可使DCT变换矩阵成为正交矩阵。
在步骤S02中,将音频特征输入预先构建的神经网络模型,获取时序特征序 列:
在一实施例中,神经网络模型可包括卷积神经网络模型和递归神经网络模型(Recurrent Neural Network,RNN)。其中,卷积神经网络模型采用两层或三层带 有批量归一化(Batch Normalization,BN)的卷积神经网络(Convolutional Neural Network,CNN)结构,无池化层,激活函数可采用HardTanh函数(即硬双曲正 切函数)。其中,卷积核的数量、尺寸、移动步长、填充方式、填充大小以及池 化层的尺寸、移动步长可根据需要设置。
用hl表示第l个卷积层,h0表示输入x,c表示上下文窗口的大小,f表示激 活函数。那么,对于第l层,时间步t的第i个激活值为:
Figure BDA0002787035920000042
在一实施例中,可预先采用不同说话人的音频特征对卷积神经网络模型进行 训练,以便于学习不同说话人音频之间的差异性。
在一实施例中,卷积神经网络对输入的音频特征进行逐帧提取,获取提取的 抽象特征,该抽象特征为时序序列。进一步地,递归神经网络模型接收卷积神经 网络输出的时序序列,进而输出一组时序特征序列。
在一实施例中,递归神经网络使用单向RNN,RNN有5-7层,每一层都使用BN, 以提高训练速度和泛化能力。其操作如下:
Figure BDA0002787035920000051
其中,W和U为权重,f()为激活函数,bl表示RNN第l层的偏置,
Figure BDA0002787035920000052
为时间 步t对应的第l层输出。
除了标准的RNN,还可以使用LSTM、GRU等经过改进的RNN。
在步骤S03中,通过时域卷积网络对所述时序特征序列进行编码和解码操作, 得到一组输出序列:
在一实施例中,时域卷积网络)(TCN)对递归神经网络模型输出的时序特 征序列进行编解码操作。
在一实施例中,时域卷积网络包括编码器和解码器,编码器encoder由多层 卷积-池化操作组成。
对于l层,首先进行卷积操作,卷积的输出为:
Figure BDA0002787035920000053
式中,
Figure RE-GDA0002921636570000053
Fl是第l层卷积核的个数,Tl是相应的时间步;
Figure RE-GDA0002921636570000054
表示W是第l层中所有卷积核的集合,共有Fl个卷积核, 每个卷积核相当于通道数为Fl,空洞大小为d的一维空洞卷积;E(l-1)是上一层的 输出;
Figure RE-GDA0002921636570000056
是对应卷积核的偏置;f()代表激活函数。
然后对卷积后的结果进行在时间维度上进行最大池化操作,池化窗口的大小 为2。第l层卷积-池化操作完成后,再把输出送入下一个卷积-池化层。
在解码器Decoder中,采用相反的操作进行解码。
最后使用Softmax激活函数对每个时间步的预测概率进行输出。
在步骤S04中,根据输出序列中每个元素的输出概率以及所述输出序列与预 设标签序列的预设映射规则,获取预测结果。
使用CTC损失函数进行反向传播更新网络中的各个参数;
为了把预测结果和标签进行对齐,使用CTC损失函数。步骤P50输出序列为 π={π12,…,πn},标签序列为l={l1,l2,…,lm},m<n,l与π的映射规则为π=F(l),
Figure BDA0002787035920000061
表示第t时刻输出πt的概率。那么输出序列为π的概率和网络输出概率之间的关 系为:
Figure BDA0002787035920000062
映射到标签的概率为所有能映射到l序列的π序列之和:
Figure BDA0002787035920000063
在一实施例中,可采用前向后向算法计算映射到标签的概率。
进一步地,可采用现有的语言识别模型对本实施例的预测结果进行推理,以 提高语音识别的准确性。
综上所述,本发明一种基于时域卷积编解码网络的语音识别方法,端到端的 语音识别,无需繁杂的预处理步骤;使用TCN Encoder-Decoder进行二次序列建模, 在不大幅降低准确率的情况下缩短识别延迟,提升用户体验;采用外部的语言模 型对声学模型的输出结果进行纠正,提升识别的准确率。所以,本发明有效克服 了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任 何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修 饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的 精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵 盖。

Claims (10)

1.一种基于时域卷积编解码网络的语音识别方法,其特征在于,包括:
输入音频信息,获取音频特征,其中音频特征包括梅尔频率倒谱系数、线性预测倒谱系数;
将所述音频特征输入预先构建的神经网络模型,获取时序特征序列;
通过时域卷积网络对所述时序特征序列进行编码和解码操作,得到一组输出序列;
根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则,获取预测结果。
2.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述神经网络模型包括卷积神经网络模型和递归神经网络模型;输入的所述音频特征预先通过卷积神经网络进行特征提取,在将提取的特征输入循环神经网络获取所述时序特征序列。
3.根据权利要求2所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述卷积神经网络模型至少包括两层带有批量归一化的卷积层,激活函数采用硬双曲正切函数。
4.根据权利要求2所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述递归神经网络包括5到7层网络层,且每层网络层均采用批量归一化。
5.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,根据根据输出序列中每个元素的输出概率以及每个所述元素与标签的预设映射规则构建CTC损失函数;
通过所述CTC损失函数反向传播更新所述时域卷积网络的参数。
6.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述时域卷积网络通过Softmax激活函数输出每个时间步输出序列中元素的输出概率。
7.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则,获取预测结果,包括:
根据输出序列中某一元素的输出概率与输出该元素之前的所有输出概率的关系获取输出序列中元素的输出概率;
计算所有映射到所述标签序列中某一标签的输出序列的输出概率之和,作为该标签的输出概率;选出输出概率最高的标签作为所述预测结果。
8.根据权利要求7所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述输出序列中某一元素的输出概率与输出该元素之前的所有输出概率的关系表示为:
Figure FDA0002787035910000021
其中,设输出序列表示为π={π12,…,πn},
Figure FDA0002787035910000022
表示第t时间步输出πt的概率,T表示输出为π的时间步。
9.根据权利要求7所述的基于时域卷积编解码网络的语音识别方法,其特征在于,标签的输出概率表示为:
Figure FDA0002787035910000023
其中,l表示标签序列;F-1(l)表示标签映射到输出序列的映射规则。
10.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,通过预训练的语言模型对所述预测结果进行校正。
CN202011301480.7A 2020-11-19 2020-11-19 一种基于时域卷积编解码网络的语音识别方法 Active CN112466297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011301480.7A CN112466297B (zh) 2020-11-19 2020-11-19 一种基于时域卷积编解码网络的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011301480.7A CN112466297B (zh) 2020-11-19 2020-11-19 一种基于时域卷积编解码网络的语音识别方法

Publications (2)

Publication Number Publication Date
CN112466297A true CN112466297A (zh) 2021-03-09
CN112466297B CN112466297B (zh) 2022-09-30

Family

ID=74837707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011301480.7A Active CN112466297B (zh) 2020-11-19 2020-11-19 一种基于时域卷积编解码网络的语音识别方法

Country Status (1)

Country Link
CN (1) CN112466297B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114023316A (zh) * 2021-11-04 2022-02-08 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN115188389A (zh) * 2021-04-06 2022-10-14 京东科技控股股份有限公司 基于神经网络的端到端语音增强方法、装置
WO2022218134A1 (zh) * 2021-04-16 2022-10-20 深圳市优必选科技股份有限公司 多通道语音检测的系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法
CN110413993A (zh) * 2019-06-26 2019-11-05 重庆兆光科技股份有限公司 一种基于稀疏权值神经网络的语义分类方法、系统和介质
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统
US20200082837A1 (en) * 2019-11-14 2020-03-12 Munir Nikolai Alexander Georges Concealing phrases in audio traveling over air
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法
CN110413993A (zh) * 2019-06-26 2019-11-05 重庆兆光科技股份有限公司 一种基于稀疏权值神经网络的语义分类方法、系统和介质
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统
US20200082837A1 (en) * 2019-11-14 2020-03-12 Munir Nikolai Alexander Georges Concealing phrases in audio traveling over air
CN111477221A (zh) * 2020-05-28 2020-07-31 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YING ZHANG,等: "Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks", 《ARXIV》 *
王海坤,等: "基于时域建模的自动语音识别", 《计算机工程与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188389A (zh) * 2021-04-06 2022-10-14 京东科技控股股份有限公司 基于神经网络的端到端语音增强方法、装置
CN115188389B (zh) * 2021-04-06 2024-04-05 京东科技控股股份有限公司 基于神经网络的端到端语音增强方法、装置
WO2022218134A1 (zh) * 2021-04-16 2022-10-20 深圳市优必选科技股份有限公司 多通道语音检测的系统和方法
CN114023316A (zh) * 2021-11-04 2022-02-08 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN114023316B (zh) * 2021-11-04 2023-07-21 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法

Also Published As

Publication number Publication date
CN112466297B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN112466297B (zh) 一种基于时域卷积编解码网络的语音识别方法
CN105321525B (zh) 一种降低voip通信资源开销的系统和方法
CN103117059B (zh) 一种基于张量分解的语音信号特征提取方法
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
JPH09507105A (ja) 分散音声認識システム
CN108108357B (zh) 口音转换方法及装置、电子设备
CN112712813B (zh) 语音处理方法、装置、设备及存储介质
Anusuya et al. Comparison of different speech feature extraction techniques with and without wavelet transform to Kannada speech recognition
WO2023030235A1 (zh) 目标音频的输出方法及系统、可读存储介质、电子装置
CN114678032B (zh) 一种训练方法、语音转换方法及装置和电子设备
CN110931045A (zh) 基于卷积神经网络的音频特征生成方法
CN111429943B (zh) 音频中音乐及音乐相对响度的联合检测方法
CN115602165A (zh) 基于金融系统的数字员工智能系统
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
CN110648655A (zh) 一种语音识别方法、装置、系统及存储介质
CN113611281A (zh) 一种语音合成方法、装置、电子设备及存储介质
CN111599368B (zh) 一种基于直方图匹配的自适应实例规一化语音转换方法
CN116612779A (zh) 一种基于深度学习的单通道语音分离的方法
CN113793615B (zh) 说话人识别方法、模型训练方法、装置、设备及存储介质
CN110197657A (zh) 一种基于余弦相似度的动态音声特征提取方法
CN112687284B (zh) 混响语音的混响抑制方法及装置
CN114203151A (zh) 语音合成模型的训练的相关方法以及相关装置、设备
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
KR100329596B1 (ko) 전화음성을 이용한 문장독립형 화자식별방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing

Applicant after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing

Applicant before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant