CN105895081A - 一种语音识别解码的方法及装置 - Google Patents

一种语音识别解码的方法及装置 Download PDF

Info

Publication number
CN105895081A
CN105895081A CN201610221182.4A CN201610221182A CN105895081A CN 105895081 A CN105895081 A CN 105895081A CN 201610221182 A CN201610221182 A CN 201610221182A CN 105895081 A CN105895081 A CN 105895081A
Authority
CN
China
Prior art keywords
frame
information
model
acoustic features
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610221182.4A
Other languages
English (en)
Inventor
俞凯
周伟达
陈哲怀
邓威
徐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
AI Speech Ltd
Suzhou Speech Information Technology Co Ltd
Original Assignee
Shanghai Jiaotong University
Suzhou Speech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, Suzhou Speech Information Technology Co Ltd filed Critical Shanghai Jiaotong University
Priority to CN201610221182.4A priority Critical patent/CN105895081A/zh
Priority to EP16894814.9A priority patent/EP3444806A4/en
Priority to PCT/CN2016/081334 priority patent/WO2017177484A1/zh
Priority to US15/562,173 priority patent/US20190057685A1/en
Publication of CN105895081A publication Critical patent/CN105895081A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音识别解码的方法及装置,属于语音处理领域。该方法包括:接收语音信息,提取声学特征;根据连接时序分类模型计算该声学特征的信息;若所述声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。本发明通过建立连续时序分类模型,使得声学建模更加精确;使用改进加权有限状态机,使得模型表示更为高效,减少计算和内存资源消耗近50%;在解码中使用音素同步的方法,有效减少了模型搜索的计算量和次数。

Description

一种语音识别解码的方法及装置
技术领域
本发明属于语音处理领域,具体涉及语音识别解码的方法及装置。
背景技术
语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。传统语音识别中将语言学信息(包括词的发音序列,词组合的出现概率等)全部分别转换成一种具有“输入”,“输出”,“路径权重”,“状态跳转”四种属性的结构,并将转换得到的所有语言学信息合成(composition)在一起,经过全局优化网络结构后,构成了一个整体的语音识别搜索网络,供解码过程在网络中进行搜索。其构建流程大致参见 (例子中的“/”后表示路径权重):
传统语音识别技术基于隐马尔科夫模型(hidden markov model),逐帧同步解码(Frame Synchronous Decoding)和加权有限状态机(Weighted Finite State Transducer)方法进行构建,主要有以下缺点:
隐马尔科夫模型的建模效果有缺陷;
逐帧同步解码的计算量庞大且冗余;
该框架下的加权有限状态机消耗大量计算和内存资源。
发明内容
为了解决上述问题,本发明实施例提供了一种语音识别解码的方法及装置。所述技术方案如下:
第一方面,一种语音识别解码的方法,该方法包括:
接收语音信息,提取声学特征;
根据连接时序分类模型计算该声学特征的信息;
其中,声学特征的信息主要包括由声波的声学信息逐帧提取的向量。
声学信息存储结构为连接时序分类模型词,该声学特征的信息存储结构基于加权有限状态机进行表示,将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。
具体的,连接时序分类模型在输入每一帧声学特征后,会逐帧得出各音素的出现概率。
若该声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。
具体的,该方法还包括:通过音素同步解码输出语音识别结果。
第二方面,一种语音识别解码的装置,该装置包括:
特征提取模块,用于接收语音信息,提取声学特征;
声学计算模块,用于根据连接时序分类模型计算该声学特征的信息;
其中,声学特征的信息主要包括由声波的声学信息逐帧提取的向量。
声学信息存储结构为连接时序分类模型词,该声学特征的信息存储结构 基于加权有限状态机进行表示,将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。
具体的,连接时序分类模型在输入每一帧声学特征后,会逐帧得出各音素的出现概率。
解码搜索模块,若该声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。
该装置还包括音素解码模块,通过音素同步解码输出语音识别结果。
本发明通过建立连续时序分类模型,使得声学建模更加精确;使用改进加权有限状态机,使得模型表示更为高效,减少计算和内存资源消耗近50%;在解码中使用音素同步的方法,有效减少了模型搜索的计算量和次数。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图
1是本发明第一实施例提供的一种语音识别解码的方法流程
2是本发明实施例提供的适配声学建模信息的加权有限状态机的示意
3是本发明实施例提供的声学信息结构的示意
4是本发明第二实施例提供的一种音素同步解码的方法流程
5是本发明第二实施例提供的一种音素同步解码的方法流程
6是本发明实施例提供的一种语音识别解码的结构示意
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
1示出了本发明第一实施例提供的一种语音识别解码的方法流程,具体 包括:
S101接收语音信息,提取声学特征;
特征提取通过传统信号处理技术,将声波的声学信息逐帧提取成一个向量,供后端建模和解码作为输入特征使用。
S102根据连接时序分类模型计算该声学特征的信息;
其中,声学特征的信息主要包括由声波的声学信息逐帧提取的向量。
声学信息存储结构为连接时序分类模型词,该声学特征的信息存储结构基于加权有限状态机进行表示,将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。
基于时序分类模型对音频的音素信息进行建模。具体方法是将收集标注好音频内容的训练数据,经过前处理和提取特征后,作为模型输入和输出进行时序分类模型的模型训练。在海量数据训练下,得到最终的连接时序分类模型供模型搜索使用。训练得到的模型在输入每一帧声学特征后,会给出所有建模单元可能出现的概率,其中建模单元为音素。
具体的,连接时序分类模型在输入每一帧声学特征后,会逐帧得出音素的出现概率。
S103若声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。
加权有限状态机是一种用于表示语音识别搜索网络的结构。针对使用连接时序分类模型的语音识别系统设计了相应的适配声学建模信息的加权有限状态机模型,该模型强调了高效,节省内存及计算资源,其结构如图 2所示,其中“<blk>”表示连接时序分类模型中的空白模型,“<eps>”表示空标识,“#1”用于适配“表示词发音序列的加权有限状态机”中的多发音词,“a”表示连接时序分类模型中的一个示例模型,“...”表示连接时序分类模型中的其他模型。该结构相比目前存在的其他同类结构,算法的计算和内存资源消耗减少50%左右,且语言学信息完全等效。
具体的,该方法还包括:通过音素同步解码输出语音识别结果。
本实施例提出了连接时序分类模型词,一种高效的声学信息储存结构,用于作为上面提出的音素同步解码的载体。
这种声学信息结构基于加权有限状态机进行表示,方法是将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。 3示出这种结构的构建示例,对应于该结构的示例声学信息见 1
Time Phone:score
0.4s <blk>:0.2a2:0.5a4:0.2
0.9s <blk>:0.3a1:0.6
1.5s a5:0.3ai1:0.2ai3:0.2
1 声学信息结构的示例声学信息
本发明实施例通过建立连续时序分类模型,使得声学建模更加精确;使用改进加权有限状态机,使得模型表示更为高效,减少计算和内存资源消耗近50%;在解码中使用音素同步的方法,有效减少了模型搜索的计算量和次数。
连接时序分类模型的概率输出分布具有单峰突出的特点,一句话对应各帧的一组概率输出,一般纵轴为概率值,横轴为时间轴,不同颜色的峰值代表不同模型的输出。
基于该现象,本实施例提出了一种新颖的音素同步解码方法,以取代传统的逐帧同步解码。音素同步解码方法只在出现非空白模型输出时才进行语言学网络搜索,否则直接丢弃当前帧声学信息,转到下一帧。其算法流程如图 4所示。
4示出本发明第二实施例提供的一种音素同步解码的方法流程,详述如下:
S401算法初始化;
S402判断语音是否结束,若结束,则回溯并输出解码结果,否则进入步骤S403;
S403声学特征提取;
S404利用连接时序分类模型计算声学信息;
S405判断声学信息中每帧是否为空白模型帧,若是,则直接丢弃,否则进入步骤S406;
S406使用加权有限状态机进行语言学搜索;
S407储存语言学历史信息;
S408获取语言学历史信息后,回溯并输出解码结果。
该方法丢弃了大量冗余的空白模型对应的语言学网络搜索,且不会带来搜索空间的损失。
本发明实施例通过建立连续时序分类模型,使得声学建模更加精确;使用改进加权有限状态机,使得模型表示更为高效,减少计算和内存资源消耗近50%;在解码中使用音素同步的方法,有效减少了模型搜索的计算量和次数。
5示出本发明实施例提供的一种语音识别解码的结构示意,详述如下:
特征提取模块51,用于接收语音信息,提取声学特征;
声学计算模块52,用于根据连接时序分类模型计算该声学特征的信息;
其中,声学特征的信息主要包括由声波的声学信息逐帧提取的向量。
声学信息存储结构为连接时序分类模型词,该声学特征的信息存储结构基于加权有限状态机进行表示,将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。
具体的,连接时序分类模型在输入每一帧声学特征后,会逐帧得出音素的出现概率。
解码搜索模块53,若该声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储,否则丢弃该帧。
该装置还包括音素解码模块54,通过音素同步解码输出语音识别结果。
本发明通过建立连续时序分类模型,使得声学建模更加精确;使用改进加权有限状态机,使得模型表示更为高效,减少计算和内存资源消耗近50%;在 解码中使用音素同步的方法,有效减少了模型搜索的计算量和次数。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音识别解码方法,其特征在于,所述方法包括:
接收语音信息,提取声学特征;
根据连接时序分类模型计算所述声学特征的信息;
若所述声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过音素同步解码输出语音识别结果。
3.根据权利要求1所述的方法,其特征在于,所述声学特征的信息主要包括由声波的声学信息逐帧提取的向量。
4.根据权利要求1所述的方法,其特征在于,所述连接时序分类模型在输入每一帧声学特征后,会逐帧得出各音素的出现概率。
5.根据权利要求1所述的方法,其特征在于,所述声学信息存储结构为连接时序分类模型词图,所述声学特征的信息存储结构基于所述加权有限状态机进行表示,将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。
6.一种语音识别解码装置,其特征在于,所述装置包括:
特征提取模块,用于接收语音信息,提取声学特征;
声学计算模块,用于根据连接时序分类模型计算所述声学特征的信息;
解码搜索模块,若所述声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
音素解码模块,通过音素同步解码输出语音识别结果。
8.根据权利要求6所述的装置,其特征在于,所述声学特征的信息主要包括由声波的声学信息逐帧提取的向量。
9.根据权利要求6所述的装置,其特征在于,所述连接时序分类模型在输入每一帧声学特征后,会逐帧得出各音素的出现概率。
10.根据权利要求6所述的装置,其特征在于,所述声学信息存储结构为连接时序分类模型词图,所述声学特征的信息存储结构基于所述加权有限状态机进行表示,将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。
CN201610221182.4A 2016-04-11 2016-04-11 一种语音识别解码的方法及装置 Pending CN105895081A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610221182.4A CN105895081A (zh) 2016-04-11 2016-04-11 一种语音识别解码的方法及装置
EP16894814.9A EP3444806A4 (en) 2016-04-11 2016-05-06 METHOD AND DEVICE FOR VOTING DETECTION-BASED DECODING
PCT/CN2016/081334 WO2017177484A1 (zh) 2016-04-11 2016-05-06 一种语音识别解码的方法及装置
US15/562,173 US20190057685A1 (en) 2016-04-11 2016-05-06 Method and Device for Speech Recognition Decoding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610221182.4A CN105895081A (zh) 2016-04-11 2016-04-11 一种语音识别解码的方法及装置

Publications (1)

Publication Number Publication Date
CN105895081A true CN105895081A (zh) 2016-08-24

Family

ID=57012369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610221182.4A Pending CN105895081A (zh) 2016-04-11 2016-04-11 一种语音识别解码的方法及装置

Country Status (4)

Country Link
US (1) US20190057685A1 (zh)
EP (1) EP3444806A4 (zh)
CN (1) CN105895081A (zh)
WO (1) WO2017177484A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782513A (zh) * 2017-01-25 2017-05-31 上海交通大学 基于置信度的语音识别实现方法及系统
WO2017177484A1 (zh) * 2016-04-11 2017-10-19 苏州思必驰信息科技有限公司 一种语音识别解码的方法及装置
CN107680587A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 声学模型训练方法和装置
CN110288972A (zh) * 2019-08-07 2019-09-27 北京新唐思创教育科技有限公司 语音合成模型训练方法、语音合成方法及装置
WO2022134894A1 (zh) * 2020-12-23 2022-06-30 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020263034A1 (en) * 2019-06-28 2020-12-30 Samsung Electronics Co., Ltd. Device for recognizing speech input from user and operating method thereof
KR20210079666A (ko) * 2019-12-20 2021-06-30 엘지전자 주식회사 음향 모델을 학습시키기 위한 인공 지능 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6315980B2 (ja) * 2013-12-24 2018-04-25 株式会社東芝 デコーダ、デコード方法およびプログラム
US9530404B2 (en) * 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
CN105895081A (zh) * 2016-04-11 2016-08-24 苏州思必驰信息科技有限公司 一种语音识别解码的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HASIM SAK 等: "LEARNING ACOUSTIC FRAME LABELING FOR SPEECH RECOGNITION WITH RECURRENT NEURAL NETWORKS", 《ICASSP 2015》 *
YAJIE MIAO ET AL: "EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING", 《AUTOMATIC SPEECH RECOGNITION & UNDERSTANDING》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017177484A1 (zh) * 2016-04-11 2017-10-19 苏州思必驰信息科技有限公司 一种语音识别解码的方法及装置
CN106782513A (zh) * 2017-01-25 2017-05-31 上海交通大学 基于置信度的语音识别实现方法及系统
CN106782513B (zh) * 2017-01-25 2019-08-23 上海交通大学 基于置信度的语音识别实现方法及系统
CN107680587A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 声学模型训练方法和装置
CN110288972A (zh) * 2019-08-07 2019-09-27 北京新唐思创教育科技有限公司 语音合成模型训练方法、语音合成方法及装置
CN110288972B (zh) * 2019-08-07 2021-08-13 北京新唐思创教育科技有限公司 语音合成模型训练方法、语音合成方法及装置
WO2022134894A1 (zh) * 2020-12-23 2022-06-30 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
WO2017177484A1 (zh) 2017-10-19
EP3444806A4 (en) 2019-12-11
US20190057685A1 (en) 2019-02-21
EP3444806A1 (en) 2019-02-20

Similar Documents

Publication Publication Date Title
CN105895081A (zh) 一种语音识别解码的方法及装置
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
CN102592595B (zh) 语音识别方法及系统
CN103903619B (zh) 一种提高语音识别准确率的方法及系统
CN108735201B (zh) 连续语音识别方法、装置、设备和存储介质
CN111433847B (zh) 语音转换的方法及训练方法、智能装置和存储介质
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN103578471B (zh) 语音辨识方法及其电子装置
CN109754790B (zh) 一种基于混合声学模型的语音识别系统及方法
CN111862942B (zh) 普通话和四川话的混合语音识别模型的训练方法及系统
CN104616655A (zh) 声纹模型自动重建的方法和装置
CN109243468B (zh) 语音识别方法、装置、电子设备及存储介质
CN108899013A (zh) 语音搜索方法、装置和语音识别系统
CN109147774B (zh) 一种改进的延时神经网络声学模型
CN106710585B (zh) 语音交互过程中的多音字播报方法及系统
CN107403619A (zh) 一种应用于自行车环境的语音控制方法及系统
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN109326278B (zh) 一种声学模型构建方法及装置、电子设备
CN112116907A (zh) 语音识别模型建立、语音识别方法、装置、设备和介质
CN106228976A (zh) 语音识别方法和装置
Zhou et al. Extracting unit embeddings using sequence-to-sequence acoustic models for unit selection speech synthesis
CN109934347A (zh) 扩展问答知识库的装置
CN113763939B (zh) 基于端到端模型的混合语音识别系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160824

RJ01 Rejection of invention patent application after publication