CN112466297A - 一种基于时域卷积编解码网络的语音识别方法 - Google Patents
一种基于时域卷积编解码网络的语音识别方法 Download PDFInfo
- Publication number
- CN112466297A CN112466297A CN202011301480.7A CN202011301480A CN112466297A CN 112466297 A CN112466297 A CN 112466297A CN 202011301480 A CN202011301480 A CN 202011301480A CN 112466297 A CN112466297 A CN 112466297A
- Authority
- CN
- China
- Prior art keywords
- output
- sequence
- time
- network
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000011176 pooling Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出一种基于时域卷积编解码网络的语音识别方法,包括:输入音频信息,获取音频特征,其中音频特征包括梅尔频率倒谱系数、线性预测倒谱系数;将所述音频特征输入预先构建的神经网络模型,获取时序特征序列;通过时域卷积网络对所述时序特征序列进行编码和解码操作,得到一组输出序列;根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则,获取预测结果;本发明可有效解决语音识别延迟问题。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种基于时域卷积编解码网络的语音识 别方法。
背景技术
目前语音识别领域主要有传统方法和深度学习方法,传统方法主要使用 GMM-HMM或DNN-HMM等基于HMM的方法对每一帧语音进行建模;基于深 度学习的方法使用包括卷积神经网络、循环神经网络在内的深度神经网络对大量 语音数据进行建模。现有技术的缺点:传统的基于HMM的方法需要帧级别的标 注,标注工作耗费大量时间和人力;深度学习方法中的双向循环网络无法有效解 决识别延迟问题。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种基于时域卷积编解码网络的 语音识别方法,主要解决现有方法标注费时且识别存在延时的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种基于时域卷积编解码网络的语音识别方法,包括:
输入音频信息,获取音频特征,其中音频特征包括梅尔频率倒谱系数、线性 预测倒谱系数;
将所述音频特征输入预先构建的神经网络模型,获取时序特征序列;
通过时域卷积网络对所述时序特征序列进行编码和解码操作,得到一组输出 序列;
根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的 预设映射规则,获取预测结果。
可选地,所述神经网络模型包括卷积神经网络模型和递归神经网络模型;输 入的所述音频特征预先通过卷积神经网络进行特征提取,在将提取的特征输入循 环神经网络获取所述时序特征序列。
可选地,所述卷积神经网络模型至少包括两层带有批量归一化的卷积层,激 活函数采用硬双曲正切函数。
可选地,所述递归神经网络包括5到7层网络层,且每层网络层均采用批量 归一化。
可选地,根据根据输出序列中每个元素的输出概率以及每个所述元素与标签 的预设映射规则构建CTC损失函数;
通过所述CTC损失函数反向传播更新所述时域卷积网络的参数。
可选地,所述时域卷积网络通过Softmax激活函数输出每个时间步输出序列 中元素的输出概率。
可选地,根据输出序列中每个元素的输出概率以及所述输出序列与预设标签 序列的预设映射规则,获取预测结果,包括:
根据输出序列中某一元素的输出概率与输出该元素之前的所有输出概率的 关系获取输出序列中元素的输出概率;
计算所有映射到所述标签序列中某一标签的输出序列的输出概率之和,作为 该标签的输出概率;选出输出概率最高的标签作为所述预测结果。
可选地,所述输出序列中某一元素的输出概率与输出该元素之前的所有输出 概率的关系表示为:
可选地,标签的输出概率表示为:
其中,l表示标签序列;F-1(l)表示标签映射到输出序列的映射规则。
可选地,通过预训练的语言模型对所述预测结果进行校正。
如上所述,本发明一种基于时域卷积编解码网络的语音识别方法,具有以下 有益效果。
端到端的语音识别,减少繁杂的预处理步骤;时序卷积网络进行二次时序序 列建模,可有效缩短识别延迟。
附图说明
图1为本发明一实施例中基于时域卷积编解码网络的语音识别方法的流程 图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说 明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外 不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观 点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不 冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本 构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、 形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变, 且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种基于时域卷积神经网络的语音识别方法,包括 步骤S01-S04。
在步骤S01中,输入实时音频信息,获取音频特征,其中,音频特征包括梅 尔频率倒谱系数、线性预测倒谱系数:
在一实施例中,原始音频可由麦克风设备采集得到,音频文件类型可采用 “.wav”文件类型,格式要求为单声道、16000Hz采样频率、256kbps码率。
由于采集设备的不同,采集的音频格式不一定符合要求,但可以通过相关软 件和程序把这些音频格式转换成符合要求的格式。
音频的时域信息比较单一,为了得到较为丰富的信息,将音频从时域变换到 频域。在频域中,可以使用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)等频域特征,这里以MFCC为例。具体步骤如下:
预加重:用一个高通滤波器H(z)=1-μz-1对音频信号进行滤波,提升高频信 息,其中μ取值范围为0.9-1.0。
分帧:对信号进行平稳化处理。把预加重后的音频信号切分成长度为 20ms-30ms的音频帧,为了避免信号间的变化过大,每帧之间有25%、50%、75% 的重复率。
加窗:为避免频谱泄露,在进行频域变换之前,对每帧音频乘上一个窗函数, 突出中间时间信息,忽略开始和结束时间段信息。可选地,可采用“汉明窗”。
频域转换:用傅里叶变换将上述加窗后的短时时域信号变换到频域。
梅尔刻度滤波器过滤:使用三角带通滤波器或等高度的梅尔滤波器对频域信 号进行滤波,将频域信号进行平滑处理,使其分成几个子带。
离散余弦变换(Discrete Cosine Transformation,DCT):计算每个滤波器 组输出的对数能量,即子带能量,再经DCT变换得到MFCC系数。
其中,f(i)为频域信号,F(u)是DCT变换后的系数,N为原始信号的点数,c(u) 是一个补偿系数,它可使DCT变换矩阵成为正交矩阵。
在步骤S02中,将音频特征输入预先构建的神经网络模型,获取时序特征序 列:
在一实施例中,神经网络模型可包括卷积神经网络模型和递归神经网络模型(Recurrent Neural Network,RNN)。其中,卷积神经网络模型采用两层或三层带 有批量归一化(Batch Normalization,BN)的卷积神经网络(Convolutional Neural Network,CNN)结构,无池化层,激活函数可采用HardTanh函数(即硬双曲正 切函数)。其中,卷积核的数量、尺寸、移动步长、填充方式、填充大小以及池 化层的尺寸、移动步长可根据需要设置。
用hl表示第l个卷积层,h0表示输入x,c表示上下文窗口的大小,f表示激 活函数。那么,对于第l层,时间步t的第i个激活值为:
在一实施例中,可预先采用不同说话人的音频特征对卷积神经网络模型进行 训练,以便于学习不同说话人音频之间的差异性。
在一实施例中,卷积神经网络对输入的音频特征进行逐帧提取,获取提取的 抽象特征,该抽象特征为时序序列。进一步地,递归神经网络模型接收卷积神经 网络输出的时序序列,进而输出一组时序特征序列。
在一实施例中,递归神经网络使用单向RNN,RNN有5-7层,每一层都使用BN, 以提高训练速度和泛化能力。其操作如下:
除了标准的RNN,还可以使用LSTM、GRU等经过改进的RNN。
在步骤S03中,通过时域卷积网络对所述时序特征序列进行编码和解码操作, 得到一组输出序列:
在一实施例中,时域卷积网络)(TCN)对递归神经网络模型输出的时序特 征序列进行编解码操作。
在一实施例中,时域卷积网络包括编码器和解码器,编码器encoder由多层 卷积-池化操作组成。
对于l层,首先进行卷积操作,卷积的输出为:
式中,Fl是第l层卷积核的个数,Tl是相应的时间步;表示W是第l层中所有卷积核的集合,共有Fl个卷积核, 每个卷积核相当于通道数为Fl,空洞大小为d的一维空洞卷积;E(l-1)是上一层的 输出;是对应卷积核的偏置;f()代表激活函数。
然后对卷积后的结果进行在时间维度上进行最大池化操作,池化窗口的大小 为2。第l层卷积-池化操作完成后,再把输出送入下一个卷积-池化层。
在解码器Decoder中,采用相反的操作进行解码。
最后使用Softmax激活函数对每个时间步的预测概率进行输出。
在步骤S04中,根据输出序列中每个元素的输出概率以及所述输出序列与预 设标签序列的预设映射规则,获取预测结果。
使用CTC损失函数进行反向传播更新网络中的各个参数;
为了把预测结果和标签进行对齐,使用CTC损失函数。步骤P50输出序列为 π={π1,π2,…,πn},标签序列为l={l1,l2,…,lm},m<n,l与π的映射规则为π=F(l),表示第t时刻输出πt的概率。那么输出序列为π的概率和网络输出概率之间的关 系为:映射到标签的概率为所有能映射到l序列的π序列之和:
在一实施例中,可采用前向后向算法计算映射到标签的概率。
进一步地,可采用现有的语言识别模型对本实施例的预测结果进行推理,以 提高语音识别的准确性。
综上所述,本发明一种基于时域卷积编解码网络的语音识别方法,端到端的 语音识别,无需繁杂的预处理步骤;使用TCN Encoder-Decoder进行二次序列建模, 在不大幅降低准确率的情况下缩短识别延迟,提升用户体验;采用外部的语言模 型对声学模型的输出结果进行纠正,提升识别的准确率。所以,本发明有效克服 了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任 何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修 饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的 精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵 盖。
Claims (10)
1.一种基于时域卷积编解码网络的语音识别方法,其特征在于,包括:
输入音频信息,获取音频特征,其中音频特征包括梅尔频率倒谱系数、线性预测倒谱系数;
将所述音频特征输入预先构建的神经网络模型,获取时序特征序列;
通过时域卷积网络对所述时序特征序列进行编码和解码操作,得到一组输出序列;
根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则,获取预测结果。
2.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述神经网络模型包括卷积神经网络模型和递归神经网络模型;输入的所述音频特征预先通过卷积神经网络进行特征提取,在将提取的特征输入循环神经网络获取所述时序特征序列。
3.根据权利要求2所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述卷积神经网络模型至少包括两层带有批量归一化的卷积层,激活函数采用硬双曲正切函数。
4.根据权利要求2所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述递归神经网络包括5到7层网络层,且每层网络层均采用批量归一化。
5.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,根据根据输出序列中每个元素的输出概率以及每个所述元素与标签的预设映射规则构建CTC损失函数;
通过所述CTC损失函数反向传播更新所述时域卷积网络的参数。
6.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述时域卷积网络通过Softmax激活函数输出每个时间步输出序列中元素的输出概率。
7.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则,获取预测结果,包括:
根据输出序列中某一元素的输出概率与输出该元素之前的所有输出概率的关系获取输出序列中元素的输出概率;
计算所有映射到所述标签序列中某一标签的输出序列的输出概率之和,作为该标签的输出概率;选出输出概率最高的标签作为所述预测结果。
10.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,通过预训练的语言模型对所述预测结果进行校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011301480.7A CN112466297B (zh) | 2020-11-19 | 2020-11-19 | 一种基于时域卷积编解码网络的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011301480.7A CN112466297B (zh) | 2020-11-19 | 2020-11-19 | 一种基于时域卷积编解码网络的语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112466297A true CN112466297A (zh) | 2021-03-09 |
CN112466297B CN112466297B (zh) | 2022-09-30 |
Family
ID=74837707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011301480.7A Active CN112466297B (zh) | 2020-11-19 | 2020-11-19 | 一种基于时域卷积编解码网络的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112466297B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
CN115188389A (zh) * | 2021-04-06 | 2022-10-14 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
WO2022218134A1 (zh) * | 2021-04-16 | 2022-10-20 | 深圳市优必选科技股份有限公司 | 多通道语音检测的系统和方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
CN110413993A (zh) * | 2019-06-26 | 2019-11-05 | 重庆兆光科技股份有限公司 | 一种基于稀疏权值神经网络的语义分类方法、系统和介质 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
US20200082837A1 (en) * | 2019-11-14 | 2020-03-12 | Munir Nikolai Alexander Georges | Concealing phrases in audio traveling over air |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
-
2020
- 2020-11-19 CN CN202011301480.7A patent/CN112466297B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
CN110413993A (zh) * | 2019-06-26 | 2019-11-05 | 重庆兆光科技股份有限公司 | 一种基于稀疏权值神经网络的语义分类方法、系统和介质 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
US20200082837A1 (en) * | 2019-11-14 | 2020-03-12 | Munir Nikolai Alexander Georges | Concealing phrases in audio traveling over air |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
Non-Patent Citations (2)
Title |
---|
YING ZHANG,等: "Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks", 《ARXIV》 * |
王海坤,等: "基于时域建模的自动语音识别", 《计算机工程与应用》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115188389A (zh) * | 2021-04-06 | 2022-10-14 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
CN115188389B (zh) * | 2021-04-06 | 2024-04-05 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
WO2022218134A1 (zh) * | 2021-04-16 | 2022-10-20 | 深圳市优必选科技股份有限公司 | 多通道语音检测的系统和方法 |
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
CN114023316B (zh) * | 2021-11-04 | 2023-07-21 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112466297B (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112466297B (zh) | 一种基于时域卷积编解码网络的语音识别方法 | |
CN105321525B (zh) | 一种降低voip通信资源开销的系统和方法 | |
CN103117059B (zh) | 一种基于张量分解的语音信号特征提取方法 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
WO2019214047A1 (zh) | 建立声纹模型的方法、装置、计算机设备和存储介质 | |
JPH09507105A (ja) | 分散音声認識システム | |
CN108108357B (zh) | 口音转换方法及装置、电子设备 | |
CN112712813B (zh) | 语音处理方法、装置、设备及存储介质 | |
Anusuya et al. | Comparison of different speech feature extraction techniques with and without wavelet transform to Kannada speech recognition | |
WO2023030235A1 (zh) | 目标音频的输出方法及系统、可读存储介质、电子装置 | |
CN114678032B (zh) | 一种训练方法、语音转换方法及装置和电子设备 | |
CN110931045A (zh) | 基于卷积神经网络的音频特征生成方法 | |
CN111429943B (zh) | 音频中音乐及音乐相对响度的联合检测方法 | |
CN115602165A (zh) | 基于金融系统的数字员工智能系统 | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
CN110648655A (zh) | 一种语音识别方法、装置、系统及存储介质 | |
CN113611281A (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
CN111599368B (zh) | 一种基于直方图匹配的自适应实例规一化语音转换方法 | |
CN116612779A (zh) | 一种基于深度学习的单通道语音分离的方法 | |
CN113793615B (zh) | 说话人识别方法、模型训练方法、装置、设备及存储介质 | |
CN110197657A (zh) | 一种基于余弦相似度的动态音声特征提取方法 | |
CN112687284B (zh) | 混响语音的混响抑制方法及装置 | |
CN114203151A (zh) | 语音合成模型的训练的相关方法以及相关装置、设备 | |
CN114360491A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
KR100329596B1 (ko) | 전화음성을 이용한 문장독립형 화자식별방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing Applicant after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD. Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing Applicant before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |