CN105336321B - 用于语音合成的音子切分方法和装置 - Google Patents

用于语音合成的音子切分方法和装置 Download PDF

Info

Publication number
CN105336321B
CN105336321B CN201510623958.0A CN201510623958A CN105336321B CN 105336321 B CN105336321 B CN 105336321B CN 201510623958 A CN201510623958 A CN 201510623958A CN 105336321 B CN105336321 B CN 105336321B
Authority
CN
China
Prior art keywords
state
cutting
pinyin sequence
phone
speech frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510623958.0A
Other languages
English (en)
Other versions
CN105336321A (zh
Inventor
张辉
李秀林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510623958.0A priority Critical patent/CN105336321B/zh
Publication of CN105336321A publication Critical patent/CN105336321A/zh
Application granted granted Critical
Publication of CN105336321B publication Critical patent/CN105336321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于语音合成的音子切分方法和装置,其中,用于语音合成的音子切分方法,包括:获取语料文本,并将语料文本转换为拼音序列,其中拼音序列包括多个音子,每个音子具有多个状态;将拼音序列对应的语音数据切分为多个语音帧,并获取语音帧的声学特征;针对每个状态,根据声学特征对语音帧进行聚类,并生成状态对应的多个节点;以及基于动态规划算法和二维状态网络计算出拼音序列对应的最优路径,并根据最优路径切分拼音序列。本发明实施例的用于语音合成的音子切分方法和装置,提高了切分拼音序列的准确性,进而提高了语音合成的声学模型可靠性,最终使文语转换的语音更加流畅自然。

Description

用于语音合成的音子切分方法和装置
技术领域
本发明涉及文语转换技术领域,尤其涉及一种用于语音合成的音子切分方法和装置。
背景技术
语音合成,又称文语转换技术,是一种能够将文字信息转化为语音并朗读的技术。语音合成系统性能的主要评价指标主要包括可懂度和流畅度两方面。现有的语音合成系统在可懂度方面已经基本成熟,但是在流畅度方面和人们真实的发音仍然存在一定的差距。为了能够合成更加流畅自然的语音,则需要对音子(比如声母、韵母)的切分具有很高的准确性。如果音子切分错误,可能导致建立的声学模型不可靠,进而导致合成语音时获取到错误的语音片段。
在数据规模较小时,人工切分是最可靠的。但随着数据规模的增大,人工切分需要的时间越来越长、成本越来越高,采用人工切分方法无法满足快速和低成本构建特色语音合成系统的需求。因此,需要采用自动切分音子的办法。
目前,主要基于隐马尔可夫声学模型对音子进行切分,首先将训练语料转换为文本,再将文本转换为一维的状态序列,然后根据维特比算法得到最优路径,再从最优路径中获取每个语音帧对应的状态结果,最后根据状态结果对音子进行切分。
但是,当语料中存在有例如吸气、清嗓子等用单个节点无法准确描述的发音时,上述方法可能会出现切分错误。例如:将吸气对应的发音与它后面的辅音切分成一个语音片段,如图1所示,被圈中的语音片段为吸气的发音,与辅音r一起,被误切分为同一个语音片段。更严重的,很可能造成跨音子切分错误,即切分给某个音子的语音片段是属于其他音子的。上述错误会造成语音合成系统的性能严重下降。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种用于语音合成的音子切分方法,能够提高切分拼音序列的准确性。
本发明的第二个目的在于提出一种用于语音合成的音子切分装置。
为了实现上述目的,本发明第一方面实施例提出了一种用于语音合成的音子切分方法,包括:获取语料文本,并将所述语料文本转换为拼音序列,其中所述拼音序列包括多个音子,每个所述音子具有多个状态;将所述拼音序列对应的语音数据切分为多个语音帧,并获取所述语音帧的声学特征;针对每个所述状态,根据所述声学特征对所述语音帧进行聚类,并生成所述状态对应的多个所述节点;以及基于动态规划算法计算出所述拼音序列对应的最优路径,并根据所述最优路径切分所述拼音序列。
本发明实施例的用于语音合成的音子切分方法,通过获取语料文本,并将语料文本转换为拼音序列,以及将拼音序列对应的语音数据切分为多个语音帧,并获取语音帧的声学特征,并针对每个状态,根据声学特征对语音帧进行聚类,并生成状态对应的多个节点,以及基于动态规划算法计算出拼音序列对应的最优路径,并根据最优路径切分拼音序列,提高了切分拼音序列的准确性,进而提高了语音合成的声学模型可靠性,最终使文语转换的语音更加流畅自然。
本发明第二方面实施例提出了一种用于语音合成的音子切分装置,包括:转换模块,用于获取语料文本,并将所述语料文本转换为拼音序列,其中所述拼音序列包括多个音子,每个所述音子具有多个状态;处理模块,用于将所述拼音序列对应的语音数据切分为多个语音帧,并获取所述语音帧的声学特征;生成模块,用于针对每个所述状态,根据所述声学特征对所述语音帧进行聚类,并生成所述状态对应的多个所述节点;以及切分模块,用于基于动态规划算法计算出所述拼音序列对应的最优路径,并根据所述最优路径切分所述拼音序列。
本发明实施例的用于语音合成的音子切分装置,通过获取语料文本,并将语料文本转换为拼音序列,以及将拼音序列对应的语音数据切分为多个语音帧,并获取语音帧的声学特征,并针对每个状态,根据声学特征对语音帧进行聚类,并生成状态对应的多个节点,以及基于动态规划算法计算出拼音序列对应的最优路径,并根据最优路径切分拼音序列,提高了切分拼音序列的准确性,进而提高了语音合成的声学模型可靠性,最终使文语转换的语音更加流畅自然。
附图说明
图1是现有技术中切分错误的效果示意图;
图2是根据本发明一个实施例的用于语音合成的音子切分方法的流程图;
图3是针对某一状态生成对应的多个节点的效果示意图;
图4是组成二维状态网络的效果示意图;
图5是最优路径的效果示意图;
图6是根据本发明一个实施例的切分音子效果示意图。
图7是根据本发明一个实施例的用于语音合成的音子切分装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的用于语音合成的音子切分方法和装置。
图2是根据本发明一个实施例的用于语音合成的音子切分方法的流程图。
如图2所示,用于语音合成的音子切分方法可包括:
S1、获取语料文本,并将语料文本转换为拼音序列。
具体地,可从语料库中获取训练语料,再将训练语料转换为对应的语料文本,然后将语料文本转换为拼音序列。其中,语料库中保存了海量的录音数据即训练语料,用于训练语音合成系统。举例来说,训练语料为“他已经三天没吃过东西了,如果今天…”,可将其转换成对应的语料文本,然后再转换为拼音序列“tayijingsantianmeichiguodongxilesplruguojintian”。其中,拼音序列是由声母、韵母等音子组成的,其中spl代表静音音子。而每个音子又对应多个状态,例如:ing这个音子可具有3个状态。
S2、将拼音序列对应的语音数据切分为多个语音帧,并获取语音帧的声学特征。
拼音序列对应的语音数据,可按照一定的时间间隔例如5毫秒切分成多个语音帧,然后获取上述语音帧的声学特征。
S3、针对每个状态,根据声学特征对语音帧进行聚类,并生成状态对应的多个节点。
具体地,针对拼音序列中的某一音子中的某一状态,可利用高斯模型描述声学特征,并将声学特征相似的语音帧进行聚类,从而生成与该状态对应的多个节点。如图3所示,某个音子具有3个状态1、2、3,状态2可对应3个节点,节点A、节点B和节点C。
S4、基于动态规划算法计算出拼音序列对应的最优路径,并根据最优路径切分拼音序列。
具体地,可按照时间先后顺序将每个状态的多个节点组成一个二维状态网络,然后可基于动态规划算法从二维状态网络中选取最优路径。其中,动态规划算法可包括维特比算法。举例来说,如图4所示,A2和A3为一个音子的第二个和第三个状态,B1为下一音子的第一个状态,其中,A2和A3均具有三个节点,B1具有一个节点,可按照时间先后顺序将上述节点组成一个二维状态网络,即从节点A2至节点B1的所有路径。然后,通过维特比算法选取出最优路径,如图4中粗箭头表示的路径。
在确定出最优路径之后,可根据最优路径获得每个语音帧对应的状态结果,然后根据状态结果切分拼音序列。举例来说,如图5所示,横轴t表示帧数,纵轴i表示拼音序列,通过横轴与纵轴的交叉点,选取的粗曲线表示最优路径,其中,第1语音帧和第2语音帧对应的状态结果为A2,第3语音帧、第4语音帧和第5语音帧对应的状态结果为A3,第6语音帧和第7语音帧对应的状态结果为B1,而A2和A3属于同一音子,因此从t=5处切分拼音序列。具体切分效果可如图6描述的例子所示,将表示吸气的语音片段切分到spl这个音子中,避免了图1所示的误切分的情况的发生。
本发明实施例的用于语音合成的音子切分方法,通过获取语料文本,并将语料文本转换为拼音序列,以及将拼音序列对应的语音数据切分为多个语音帧,并获取语音帧的声学特征,并针对每个状态,根据声学特征对语音帧进行聚类,并生成状态对应的多个节点,以及基于动态规划算法计算出拼音序列对应的最优路径,并根据最优路径切分拼音序列,提高了切分拼音序列的准确性,进而提高了语音合成的声学模型可靠性,最终使文语转换的语音更加流畅自然。
图7是根据本发明一个实施例的用于语音合成的音子切分装置的结构示意图。
如图7所示,用于语音合成的音子切分装置可包括:转换模块110、处理模块120、生成模块130和切分模块140。
转换模块110用于获取语料文本,并将语料文本转换为拼音序列。
具体地,转换模块110可从语料库中获取训练语料,再将训练语料转换为对应的语料文本,然后将语料文本转换为拼音序列。其中,语料库中保存了海量的录音数据即训练语料,用于训练语音合成系统。举例来说,训练语料为“他已经三天没吃过东西了,如果今天…”,可将其转换成对应的语料文本,然后再转换为拼音序列“tayijingsantianmeichiguodongxilesplruguojintian”。其中,拼音序列是由声母、韵母等音子组成的,其中spl代表静音音子。而每个音子又对应多个状态,例如:ing这个音子可具有3个状态。
处理模块120用于将拼音序列对应的语音数据切分为多个语音帧,并获取语音帧的声学特征。
由于拼音序列对应的语音数据是具有前后顺序的,因此处理模块120可按照一定的时间间隔例如5毫秒将拼音序列对应的语音数据切分成多个语音帧,然后获取上述语音帧的声学特征。
生成模块130用于针对每个状态,根据声学特征对语音帧进行聚类,并生成状态对应的多个节点。
具体地,针对拼音序列中的某一音子中的某一状态,生成模块130可利用高斯模型描述声学特征,并将声学特征相似的语音帧进行聚类,从而生成与该状态对应的多个节点。如图3所示,某个音子具有3个状态1、2、3,状态2可对应3个节点,节点A、节点B和节点C。
切分模块140用于基于动态规划算法计算出拼音序列对应的最优路径,并根据最优路径切分拼音序列。
具体地,切分模块140可按照时间先后顺序将每个状态的多个节点组成一个二维状态网络,然后可基于动态规划算法从二维状态网络中选取最优路径。其中,动态规划算法可包括维特比算法。举例来说,如图4所示,A2和A3为一个音子的第二个和第三个状态,B1为下一音子的第一个状态,其中,A2和A3均具有三个节点,B1具有一个节点,可按照时间先后顺序将上述节点组成一个二维状态网络,即从节点A2至节点B1的所有路径。然后,通过维特比算法选取出最优路径。
在确定出最优路径之后,可根据最优路径获得每个语音帧对应的状态结果,然后根据状态结果切分拼音序列。举例来说,如图5所示,横轴t表示帧数,纵轴i表示拼音序列,通过横轴与纵轴的交叉点,选取的粗曲线表示最优路径,其中,第1语音帧和第2语音帧对应的状态结果为A2,第3语音帧、第4语音帧和第5语音帧对应的状态结果为A3,第6语音帧和第7语音帧对应的状态结果为B1,而A2和A3属于同一音子,因此从t=5处切分拼音序列。具体切分效果可如图6描述的例子所示,将表示吸气的语音片段切分到spl这个音子中,避免了图1所示的误切分的情况的发生。
本发明实施例的用于语音合成的音子切分装置,通过获取语料文本,并将语料文本转换为拼音序列,以及将拼音序列对应的语音数据切分为多个语音帧,并获取语音帧的声学特征,并针对每个状态,根据声学特征对语音帧进行聚类,并生成状态对应的多个节点,以及基于动态规划算法计算出拼音序列对应的最优路径,并根据最优路径切分拼音序列,提高了切分拼音序列的准确性,进而提高了语音合成的声学模型可靠性,最终使文语转换的语音更加流畅自然。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种用于语音合成的音子切分方法,其特征在于,包括:
获取语料文本,并将所述语料文本转换为拼音序列,其中所述拼音序列包括多个音子,每个所述音子具有多个状态;
将所述拼音序列对应的语音数据切分为多个语音帧,并获取所述语音帧的声学特征;
针对每个所述状态,根据所述声学特征对所述语音帧进行聚类,并生成所述状态对应的多个节点;以及
基于动态规划算法计算出所述拼音序列对应的最优路径,并根据所述最优路径切分所述拼音序列。
2.如权利要求1所述的方法,其特征在于,所述基于动态规划算法计算出所述拼音序列对应的最优路径,包括:
按照时间先后顺序将每个所述状态的多个所述节点组成二维状态网络;
基于动态规划算法从所述二维状态网络中选取所述最优路径。
3.如权利要求1所述的方法,其特征在于,所述根据所述声学特征对所述语音帧进行聚类,包括:
利用高斯模型描述所述声学特征,并将声学特征相似的语音帧进行聚类。
4.如权利要求1所述的方法,其特征在于,所述根据所述最优路径切分所述拼音序列,包括:
根据所述最优路径获得每个所述语音帧对应的状态结果,并根据所述状态结果切分所述拼音序列。
5.如权利要求1所述的方法,其特征在于,所述动态规划算法包括维特比算法。
6.一种用于语音合成的音子切分装置,其特征在于,包括:
转换模块,用于获取语料文本,并将所述语料文本转换为拼音序列,其中所述拼音序列包括多个音子,每个所述音子具有多个状态;
处理模块,用于将所述拼音序列对应的语音数据切分为多个语音帧,并获取所述语音帧的声学特征;
生成模块,用于针对每个所述状态,根据所述声学特征对所述语音帧进行聚类,并生成所述状态对应的多个节点;以及
切分模块,用于基于动态规划算法计算出所述拼音序列对应的最优路径,并根据所述最优路径切分所述拼音序列。
7.如权利要求6所述的装置,其特征在于,所述切分模块,具体用于:
按照时间先后顺序将每个所述状态的多个所述节点组成二维状态网络;
基于动态规划算法从所述二维状态网络中选取所述最优路径。
8.如权利要求6所述的装置,其特征在于,所述生成模块,具体用于:
利用高斯模型描述所述声学特征,并将声学特征相似的语音帧进行聚类。
9.如权利要求6所述的装置,其特征在于,所述切分模块,具体用于:
根据所述最优路径获得每个所述语音帧对应的状态结果,并根据所述状态结果切分所述拼音序列。
10.如权利要求6所述的装置,其特征在于,所述动态规划算法包括维特比算法。
CN201510623958.0A 2015-09-25 2015-09-25 用于语音合成的音子切分方法和装置 Active CN105336321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510623958.0A CN105336321B (zh) 2015-09-25 2015-09-25 用于语音合成的音子切分方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510623958.0A CN105336321B (zh) 2015-09-25 2015-09-25 用于语音合成的音子切分方法和装置

Publications (2)

Publication Number Publication Date
CN105336321A CN105336321A (zh) 2016-02-17
CN105336321B true CN105336321B (zh) 2016-10-19

Family

ID=55286809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510623958.0A Active CN105336321B (zh) 2015-09-25 2015-09-25 用于语音合成的音子切分方法和装置

Country Status (1)

Country Link
CN (1) CN105336321B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782506A (zh) * 2016-11-23 2017-05-31 语联网(武汉)信息技术有限公司 一种将录音音频分割成段的方法
CN106782508A (zh) * 2016-12-20 2017-05-31 美的集团股份有限公司 语音音频的切分方法和语音音频的切分装置
CN107657947B (zh) * 2017-09-20 2020-11-24 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN108492818B (zh) * 2018-03-22 2020-10-30 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
CN109948124B (zh) * 2019-03-15 2022-12-23 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN111583901B (zh) * 2020-04-02 2023-07-11 湖南声广科技有限公司 一种广播电台智能天气预报系统及天气预报语音切分方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455386A (zh) * 2002-11-01 2003-11-12 中国科学院声学研究所 一种嵌入式语音合成方法及系统
JP2007079476A (ja) * 2005-09-16 2007-03-29 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
CN102750267A (zh) * 2012-06-15 2012-10-24 北京语言大学 汉语音字转换方法及系统、区分性词典的构建方法
CN104102661A (zh) * 2013-04-09 2014-10-15 重庆新媒农信科技有限公司 一种拼音流切分方法及系统
CN104392716A (zh) * 2014-11-12 2015-03-04 百度在线网络技术(北京)有限公司 高表现力的语音合成方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455386A (zh) * 2002-11-01 2003-11-12 中国科学院声学研究所 一种嵌入式语音合成方法及系统
JP2007079476A (ja) * 2005-09-16 2007-03-29 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
CN102750267A (zh) * 2012-06-15 2012-10-24 北京语言大学 汉语音字转换方法及系统、区分性词典的构建方法
CN104102661A (zh) * 2013-04-09 2014-10-15 重庆新媒农信科技有限公司 一种拼音流切分方法及系统
CN104392716A (zh) * 2014-11-12 2015-03-04 百度在线网络技术(北京)有限公司 高表现力的语音合成方法和装置

Also Published As

Publication number Publication date
CN105336321A (zh) 2016-02-17

Similar Documents

Publication Publication Date Title
CN105336321B (zh) 用于语音合成的音子切分方法和装置
Grice The intonation of interrogation in Palermo Italian: implications for intonation theory
CN111954903B (zh) 多说话者神经文本到语音合成
CN105529027B (zh) 语音识别方法和装置
CN105551481B (zh) 语音数据的韵律标注方法及装置
CN104538024B (zh) 语音合成方法、装置及设备
Crookes The utterance, and other basic units for second language discourse analysis
KR102139387B1 (ko) 큰 말뭉치에 기초하여 음성 합성을 하기 위한 방법 및 장치
CN108648766B (zh) 语音评测方法及系统
CN102376182B (zh) 语言学习系统、语言学习方法及其程序产品
CN101604520A (zh) 基于统计模型和语法规则的口语语音识别方法
CN109065032A (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
JP6036682B2 (ja) 音声合成システム、音声合成方法、および音声合成プログラム
JP4885160B2 (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
CN106057192A (zh) 一种实时语音转换方法和装置
CN108932941A (zh) 语音识别方法、装置及计算机设备、存储介质及程序产品
CN111079423A (zh) 一种听写报读音频的生成方法、电子设备及存储介质
Walker Voiced stops in the command performance of Southern US English
Peláez-Moreno et al. Analyzing phonetic confusions using formal concept analysis
CN110223674B (zh) 语音语料训练方法、装置、计算机设备和存储介质
CN107704549A (zh) 语音搜索方法、装置及计算机设备
CN103035244A (zh) 一种可实时反馈用户朗读进度的语音跟踪方法
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
KR20190057934A (ko) 한글 학습 장치 및 한글 학습 방법
JP2006243230A (ja) 歌声評定装置およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant