CN1577489A - 为拼接的文语转换声音确定未对准语音单元的方法 - Google Patents

为拼接的文语转换声音确定未对准语音单元的方法 Download PDF

Info

Publication number
CN1577489A
CN1577489A CN200410037463.1A CN200410037463A CN1577489A CN 1577489 A CN1577489 A CN 1577489A CN 200410037463 A CN200410037463 A CN 200410037463A CN 1577489 A CN1577489 A CN 1577489A
Authority
CN
China
Prior art keywords
voice unit
unit
voice
abnormal
suspicious
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200410037463.1A
Other languages
English (en)
Other versions
CN1243339C (zh
Inventor
P·格利森
M·E·史密斯
J·Z·曾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1577489A publication Critical patent/CN1577489A/zh
Application granted granted Critical
Publication of CN1243339C publication Critical patent/CN1243339C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Abstract

一种过滤在拼接的文语转换(CTTS)声音中要使用的语音单元的方法。初始时能建立一个正常阈值。可以接收至少一个从语音资料库中自动提取的语音单元以构造CTTS声音。对该语音单元,能计算其异常指数。然后,该异常指数能与已建立的正常阈值比较。如果异常指数超过该正常阈值,则该语音单元能被标记为可疑语音单元。如果该语音单元未超过该正常阈值,则该语音单元能被标记为核实过的语音单元。使用核实过的语音单元能构建拼接文语转换声音。

Description

为拼接的文语转换声音确定未对准语音单元的方法
技术领域
本发明涉及合成语音领域,更具体地说,涉及对拼接的文语转换(text-to-speech)声音中的未对准语音单元的检测。
背景技术
通过文语转换(TTS)应用软件产生合成语音是利用语音技术的任何人机接口的一个关键性方面。产生合成语音的一种主要技术是一种数据驱动技术,它把实际人类语音的多个样本拼接到一起,形成所希望的TTS输出。这一产生TTS输出的拼接技术可称作拼接文语转换(CTTS)技术。
CTTS技术需要一组语音单元,称作CTTS声音,它们能被拼接在一起形成CTTS输出。一个语音单元能是任何被定义的语音段,如一个音素、一个音位变体(allophone)和/或一个子音素(sub-phoneme)。每个CTTS声音具有特定说话人的声学特性,CTTS声音就是由这些特性产生的。一个CTTS应用能包括多重CTTS声音以产生不同发声的CTTS输出。
称作CTTS语音资料库的人类语音大样本可用于导出形成CTTS声音的语音单元。由于涉及大量语言单元,通常利用自动方法将CTTS语音资料库分段成为多个加标签的语音单元。每个语音单元被核实和存储在语音单元数据存储区内。语音数据存储区的构建能造成CTTS声音。
可惜的是,用于把CTTS语音资料库分段成语音单元的自动提取方法偶尔会造成错误或未对准的语音单元。一个未对准的语音单元是含有显著不准确之处的加标签的语音单元。两种常见的未对准可包括语音单元的误加标签和为语音单元建立不适当的边界。当对一个语音单元错误地赋予一个与之关联的标识符或标签时便发生误加标签。例如,如果发声为“M”的语音单元被加上发声为“N”的语音单元的标签,则该语音单元是一个误加标签的语音单元。当一个语音单元被不适当地分段,从而它的持续时间、起点和/或终点被错误地确定时,便发生不适当地建立边界。
由于由未对准语音单元构造成的CTTS声音能造成低质量的合成语音,所以人们希望从最终CTTS声音构造中排除未对准的语音单元。可惜人工检测未对准单元通常是不现实的,这是由于在这项任务中所涉及的时间和努力太大。传统上,当在CTTS语音测试过程中产生的合成语音输出中含有错误时由技术人员去掉未对准单元。就是说,技术人员试图“测试掉”未对准语音单元,这一过程通常只能校正CTTS声音构造中最严重的错误。
发明内容
这里公开的发明提供一种方法、系统和装置用于检测在拼接的文语转换(CTTS)声音中使用的未对准语音单元。特别是,为了形成CTTS声音,能自动地从语音资料库中提取出大量语音单元。对于每个语音单元,能计算出一个异常指数,它指出该语音单元未对准的可能性。异常指数越大,则该语音单元未对准的可能性越大。该语音单元的异常指数能与一个已建立的正常阈值比较。如果异常指数在该正常阈值之下,则该语音单元可被标记为核实过的语音单元。如果该异常指数在该正常阈值之上,则该语音单元可被标记为可疑语音单元。然后,可疑语音单元可被系统地显示在一个对准核实界面内,在那里每个单元或可被核实或可被拒绝。所有被核实的语音单元能用于构造CTTS声音。
本发明的一个方面包括过滤在CTTS声音中要使用的语音单元的方法。一个正常阈值能在初始时建立起来。在包括大量语音单元的一个实施例中,能使用一个正常阈值界面调节正常阈值,这里正常阈值界面展现这大量语音单元的异常指数的分布图形。例如,可在正常阈值界面内展现异常指数柱状图。该异常指数表明与其关联的语音单元未对准的可能性。
在本方法内能接收至少一个从语音资料库中自动提取的语音单元以构造CTTS声音。显然,构造CTTS声音能需要大量语音单元,它们一起构成最终在CTTS声音内包含的一组语音单元。对于该语音单元,能计算其异常指数。然后,该异常指数能与已建立的正常阈值比较。如果异常指数超过该正常阈值,则该语音单元能被标记为可疑语音单元。如果该异常指数未超过该正常阈值,则该语音单元能被标记为核实过的语音单元。
在一个实施例中,异常指数的计算能包括检验该语音单元的多个异常属性并为每个异常属性赋予一个异常值。所述的异常指数可以至少是部分地基于该异常值。在又一个实施例中,能为每个异常属性识别出一个异常权重。异常权重和异常值能乘在一起,其结果帮助确定异常指数。例如,对每个语音单元能检验至少一个异常属性特性。对每个异常属性特性能确定至少一个异常参数。这些异常参数能在异常属性评价函数中被利用。使用这些异常属性评价函数能计算出异常指数。
再有,可疑语音单元能被展现在对准确认界面内。对准确认界面能包括一个用于认可该可疑语音单元的确认单元和一个用于否定该可疑语音单元的拒绝单元。如果选择确认单元,则该可疑语音单元能被标记为核实过的语音单元。如果选择拒绝单元,则该可疑语音单元能被标记为被拒绝的语音单元。所有核实过的语音单元能被放入核实过的语音单元数据存储区,这里该核实过的语音单元数据存储区能被用于构造CTTS声音。然而,被拒绝的语音单元能从CTTS声音构造中排除。在一个实施例中,能在对准确认界面内提供一个音频回放控制。选择音频回放控制能造成在该界面内可听地展现可疑语音单元。在包括至少一批语音单元的另一实施例中,在对准确认界面内能提供至少一个浏览控制。选择浏览控制能造成从该可疑语音单元浏览到另一个可疑语音单元。
在本发明的另一方面中,可以在一CTTS声音中使用一个对语音单元过滤的系统。该系统能包括建立正常阈值的单元。该系统还能包括接收至少一个语音单元的单元,该语音单元是为构建CTTS声音而从一个语音资料库中自动提取出来的。此外,该系统还能包括为该语音单元计算异常指数的单元。该异常指数能指出该语音单元未对准的可能性。再有,该系统能包括将异常指数与正常阈值进行比较的单元。如果异常指数超过该正常阈值,则把该语音单元标记为可疑语音单元的单元能被触发。如果异常指数未超过该正常阈值,则把该语音单元标记为核实过的语音单元的单元能被触发。
附图说明
附图中显示出当前优选的实施例,但应该理解,本发明不限于所示确定的结构安排和仪器。
图1是示意图,表示了根据这里公开的发明安排,用于检测未对准的语音单元的一个系统示例;
图2是流程图,说明使用图1的系统计算一个语音单元的异常指数的方法;
图3表示了图1所示正常阈值界面的图形用户界面(GUI)示例;以及
图4是图1所示对准确认界面的GUI示例。
具体实施方式
这里公开的发明提供了一种用于检测在拼接的文语(CTTS)声音中使用的未对准语音单元的方法、系统和装置。一个CTTS声音是指语音单元的集合,诸如音素、音位变体和子音素等语音单元,它们能通过CTTS技术结合到一起产生CTTS输出。由于每个CTTS声音能需要大量语音单元,所以CTTS语音单元往往是从含有语音样本的CTTS语音资料库中被自动提取出来。然而,自动提取过程往往造成未对准的语音单元,这些未对准的语音单元要在构造CTTS声音之前从未过滤的数据存储区中检测出来并被去掉。本发明提高了未对准的语音单元能被检测出来的效率。
更具体地说,一个指出语音单元未对准的可能性的异常指数能被计算出来。如果这一异常指数超过一个先前建立的正常阈值,则该语音单元被标记为可疑语音单元。否则,该语音单元被标记为核实的语音单元。可疑语音单元能被展现在图形用户界面(GUI)中,从而能由技术人员确定这些可疑语音单元应通过核实还是被拒绝。核实过的语音单元能包括在CTTS声音构造中,而被拒绝的语音单元能从CTTS声音构造中排除。结果,使用本解决方案能比传统的未对准检测方法快得多地并且更准确地检测和过滤未对准语音单元。
图1是示意图,其表示了检测未对准语音单元的系统示例100。系统100能包括一个自动语音标注器(labeler)110、一个未对准检测器120、一个正常阈值界面125、一个对准确认界面150以及一个CTTS声音构造器155。还能提供一个CTTS语音资料库数据存储区105、一个未过滤数据存储区115、一个核实过的数据存储区140、一个未对准数据存储区145以及一个CTTS声音数据存储区160。
自动语音标注器110能包括硬件和/或软件部件,所述的部件被配置成把语音样本自动分段成语音单元。自动语音标注器110能对它创建的每个语音单元段加上适当的标签。例如,一个语音单元能被标注为从一特定语音上下文中提取的一个特定音位变体或音素。能由相邻语音单元的语言特征确定一个语音单元的语言上下文。
本领域普通技术人员能理解,自动语音标注器110能使用多种已知的语音处理技术。在一个实施例中,自动语音标注器110能检测一个语音样本内各词之间的无声,从而把该样本初步分成多个词。然后,自动语音标注器110能使用音调激振(pitch excitation)把每个词分段成语音单元。然后,每个语音单元能与模型语音单元资料库内包含的相应语音单元匹配。然后,每个语音单元能被赋予与被匹配的模型语音单元相关联的标签。再有,相邻的语音单元能被适当地标注并用于确定一个选定语音单元的语言上下文。
值得注意的是,自动语音标注器110不限于某种特定的方法和/或技术,自动语音标注器110能使用各种已知技术中的任何技术。例如,自动语音标注器能使用声门靠近实例(glottal closure instance)(GCI)检测把语音样本分段成语音单元。
未对准检测器120能包括硬件和/或软件部件,所述的部件被配置成分析未过滤的语音单元以确定每个单元含有未对准的可能性。两种常见的未对准可包括语音单元的误加标签和为语音单元建立不适当的边界。未对准检测器120通过检测伴随每个语音单元的异常来确定未对准。至少是部分地根据检测到的异常或不存在异常,能确定异常指数。一旦确定了异常指数,未对准检测器120能将异常指数与一个预先确定的正常阈值加以比较。作为比较的结果,未过滤数据存储区115中的语音单元能被有选择地放入核实过的数据存储区135或可疑数据存储区140。
正常阈值界面125能是一个图形用户界面(GUI),它能帮助建立和调整正常阈值。例如,预先确定的一些语音单元的异常指数分布图能被呈现在正常阈值界面125中。技术人员能观察该分布图并为正常阈值确定一个适当值。
对准确认界面150能是一个GUI,由技术人员用于把可疑语音单元分类到或者是核实过的语音单元或者是未对准的语音单元。例如,对准确认界面150能包括多媒体部件,其允许有声播放可疑语音单元,从而技术人员能确定语音单元的质量。对准确认界面150能含有可由技术人员选择的确认对象,如一个按钮。如果该确认对象被触发,则一个可疑语音单元能被标记为核实过的并放入核实过的数据存储区135。对准确认界面150还能含有可由技术人员选择的拒绝对象,如一个按钮。如果该拒绝对象被触发,则一个可疑语音单元能被标记为被拒绝的并放入未对准数据存储区145。放在未对准数据存储区145内的语音单元能被从CTTS声音构造中排除。再有,对准确认界面150能包括浏览按钮用于从一个可疑语音单元浏览到其他可疑语音单元。
CTTS声音构造器155能包括硬件和/或软件部件,所述的部件被配置成由多个核实过的语音单元构成CTTS声音。值是注意的是,一个完整的CTTS声音通常能要求完整的一组语音单元。再有,在核实过的数据存储区135中能包括构成该CTTS声音的一组语音单元中每个必要语音单元的多重选择。CTTS声音构造器155能从放在核实过的语音单元存储区135中的一组核实过的语音单元中选择出一组优选的语音单元。当然,如果所有已被核实过的语音单元都要被包括在CTTS声音内,则选择一组优选的语音单元就不必要了。
如前所述,系统100能包括CTTS语音资料库数据存储区105、未过滤数据存储区115、核实过的数据存储区135、可疑数据存储区140、未对准数据存储区145以及CTTS声音数据存储区160。一个数据存储区,如数据存储区105、115、135、140、145和/或160,能是配置成信息资料库的任何电子存储空间。每个数据存储区能代表任何类型的存储器存储空间,如在磁和/或光的固定存储设备内的空间,在诸如随机存取存储器(RAM)之类暂存储器位置内的空间,以及分布在网络上的虚拟存储空间。此外,每个数据存储区能在逻辑上和/或物理上作为单个数据存储区或作为若干数据存储区来实现。每个数据存储区还能与信息处理方法关联,以进行数据操作,如存储数据、查询数据、更新数据和/或删除数据。再有,在数据存储区内的数据能以任何方式存储,如存储在数据库内、在被编索引的一个或多个文件内、在未被编索引的一个或多个文件内、在数据堆(heap)内等。
在操作时,样本语音段能存在于CTTS语音资料库数据存储区105。自动语音标注器110能由CTTS语音资料库数据存储区105中的数据中产生语音单元,并把所产生的语音单元放入未过滤数据存储区115。然后,未对准检测器120能为未过滤数据存储区115中包含的每个语音单元计算一个异常指数。如果计算出的异常指数超过一个正常阈值,则该语音单元能被放入可疑数据存储区140。否则,该语音单元能被放入核实过的数据存储区135。接下来,对准确认界面150能用于检验可疑语音单元。如果一个可疑语音单元被对准确认界面150确认为对准的,则该可疑语音单元能被放入核实过的数据存储区135。如果一个可疑语音单元被拒绝,则它能被放入未对准数据存储区145。最后,CTTS声音构造器155能由核实过的数据存储区135内的数据构造CTTS声音并把该CTTS声音放入CTTS声音数据存储区160。
本领域普通技术人员应该理解,上述安排只是实现本发明的一个安排示例,其他在功能上等效的安排能被利用。例如,作为将可疑语音单元、核实过的语音单元以及被拒绝的语音单元放入不同的数据存储区的一种替代方法,每个语音单元能被适当地注释并存储在单一的数据存储区内。在另一实例中,能实现具有界面125和界面150二者特征的单一界面,以代替界面125和150。
图2是说明为语音单元计算异常指数的方法200的流程图。方法200能在未对准检测过程情境内实现,该过程将一个正常阈值与一个置信区间相比较。于是,方法200能在图1所示的未对准检测器120内实现。方法200能以接收语音单元202来启动,语音单元202能被从未过滤语音单元数据存储区中检索出来。一旦被启动,方法200能在步骤205开始,在那里能识别出一种计算异常指数的方法。例如,所识别出的方法能总体上根据语音单元波形来计算异常指数。在另一例子中,所识别出的方法可以基于语音单元中包含的离散特性或异常属性。
在步骤215中,可以为选定的异常属性检验未过滤的语音单元。异常属性可指能用于确定一个语音单元是否未对准的多种指标中的任何指标。例如,未过滤语音单元的数字信号能相对于模型语音单元的数字信号进行规一化,并可确定这两个数字信号之间的偏差程度。在另一个例子中,平均音调值、音调偏差和语音单元持续时间可被作为异常属性。再有,通常在语音技术中使用的概率函数,如维持比(viterbi)对准中的最佳路径似然性,能用于定量化异常属性。在步骤220中,对该异常属性,能确定适当的异常指数。在做这一确定时,未过滤语音单元的异常属性能与一个预期值比较。该预期值可部分地基于与未过滤语音单元等效的至少一个语音单元(如模型语音单元)所具有的异常属性值。
替代做法是,在步骤230中能识别出与异常属性关联的异常评估函数。在数字信号处理和/或语音处理中通常使用的各种不同评估函数中的任何函数都可使用。此外,异常属性评估函数既可是基于算法的也可以是基于试探的。再有,该评估函数能是通用的或针对一种特定语音类型的。
例如,可以根据一个音素的语音单元是否是一个爆破音,如“pit”中的“p”、一个双元音,如“boil”中的“oi”或一个磨擦音,如“season”中的“s”,来使用不同的算法评估函数。在另一个例子中,异常属性评估函数能是一个受过训练的神经网络,如一个语音识别专家系统。
一旦识别出异常函数,该方法能进入步骤235,在那里能检验该语音单元以确定识别出的异常函数的参数值。在步骤240中,使用识别出的参数值和识别出的函数能计算一个异常值。
一旦计算出了异常值,该方法能进入步骤225,在那里能为异常属性确定异常权重。在步骤250,能以异常值乘异常权重。步骤250的结果可称作该语音单元的一个特定异常属性的异常因子。在包括异常属性评估函数的一个实施例中,方程(1)能用于计算异常因子。
(1)异常因子=aw*af(ap1,ap2,…,apn)
这里aw是异常权重,af是异常属性评估函数,ap1,ap2,...,apn是该异常属性评估函数的异常参数。在另一实施例中,方程(2)能用于计算异常因子。
(2)异常因子=aw*av
这里aw是异常权重,av是异常值。
在步骤255中,该方法能确定是否还有任何异常属性要被确定,如果是,则方法能进入步骤215。如果不是,则方法能进入步骤260,在那里能计算异常指数。例如,异常指数能是对一给定语音单元计算出的全部异常因子之和。
一旦在步骤260中计算出异常指数,该方法能进入步骤265,在那里该异常指数能与一个正常阈值比较。在步骤270中,如果该异常指数大于该正常阈值,则该语音单元能被标记为可疑语音单元204。在一个实施例中,可疑语音单元204能被传递到可疑语音单元数据存储区。然而,如果该异常指数小于正常阈值,如步骤275中所示,则该语音单元能被标记为核实过的语音单元206。在一个实施例中,核实过的语音单元206能被传递到核实过的数据存储区。
图3是图1中描述的正常阈值界面的GUI示例300、GUI300能包括阈值建立部分310、分布图315以及阈值改变按钮320。阈值建立部分310允许用户输入一个新的阈值。例如可以向与当前阈值相关联的文本框中输入一个阈值。另一种作法是,用户能在阈值建立部分310中送入一个百分比,这里的百分比代表其异常指数大于已建立的正常阈值的语音单元所占百分比。如果这一百分比被输入,则能自动计算出相应的阈值。
分布图315能图形展示处理过的语音单元的异常指数值316,以其纵坐标度量异常指数,以其横坐标代表近似有指定的异常指数的语音单元的频度。此外,分布图315能包括图形阈值318,其以图形显示当前正常阈值。在一个实施例中,图形阈值318能被人机交互定位,造成在阈值建立部分310中自动发生相应的改变。选择阈值改变按钮320能使GUI300中出现的阈值成为该未对准确定系统的新的正常阈值。
图4是图1中描述的对准确认界面的GUI示例400。GUI400能包括可疑单元项目410、图形单元显示415、播放按钮420、确认按钮425、拒绝按钮430以及浏览按钮435、440、445和450。可疑单元项目410能显示当前可疑语音单元数据存储区中包含的一个语音单元的标识符。在可疑单元项目410中展现的语音单元响应浏览按钮的选择而改变。例如,如果选择“第一个”浏览按钮435,则在可疑单元项目410中能展现可疑数据存储区内顺序上的第一个可疑单元的标识。类似地,“前一个”浏览按钮440能使前一个可疑单元标识符呈现在可疑单元项目410中。“下一个”浏览按钮445能使后一个可疑单元标识符呈现在可疑单元项目410中。最后,“最后一个”浏览按钮450能使顺序上最后一个可疑单元标识符呈现在可疑单元项目410中。
图形单元显示415能图形展现一个波形,其中包括可疑单元项目410中选定的可疑语音单元。在一个实施例中,还能以图形展现与该可疑语音单元相邻的语音单元,以便给出该可疑图形单元的上下文。在图形单元显示415中能包括从一个显示的语音单元波形段浏览到另一段的控制。此外,选择“播放”按钮420能使展现在图形单元显示415中的波形被可听地展现出来。选择“核实”按钮425能把当前语音单元标记为核实过的语音单元。此外,核实过的语音单元可以从可疑数据存储区移到核实过的数据存储区。选择“拒绝”按钮430能把当前语音单元标记为被拒绝的语音单元。每当未对准是由于边界错位造成时,选择“拒绝”按钮430还能拒绝与该可疑单元共享边界的语音单元。此外,被拒绝的语音单元能从可疑数据存储区移动到未对准的数据存储区。
应该指出,这里公开的各种GUI只是为了演示目的而给出的。因此,本发明不受特定GUI或在GUI视图内包含的数据输入机制的限制。相反,本领域技术人员将会理解,各种不同的GUI类型和数据条目、字段、选择器以及控制的各种安排都能被采用。
本发明能以硬件、软件或硬件和软件的组合来实现。本发明能以位于一个计算机系统中的集中方式实现或以分布式方式实现,在分布式方式中不同部件分布在若干互连的计算机系统上。任何种类的计算机系统或适合于实现这里描述的方法的其他装置都是适用的。典型的硬件和软件组合可以是通用计算机系统加上一个计算机程序,当把该程序加载和执行时,它能控制该计算机系统使其实现这里描述的方法。
本发明还能体现为一个计算机程序产品,它包含能实现这里所述方法的全部特性,并是当把它装载到一个计算机系统时,它能实现这些方法。在本说明范围内,计算机程序是指一组指令的以任何语言、代码或符号组成的表达式,这组指令使一个具有信息处理能力的系统或者是直接地或者在如下述二者之一或二者之后实现特定功能:a)转换成另一种语言、代码或符号;b)以不同的材料形式复制。
本发明能以其他形式实现而不离开本发明的精神或基本属性。因此,应参考下文的权利要求,而不是前述说明,以指出本发明的范围。

Claims (23)

1.一种过滤在拼接的文语转换声音中要使用的语音单元的方法,包括如下步骤:
接收至少一个从语音资料库中自动提取的语音单元以构造拼接的文语转换声音;
为所述语音单元计算一个异常指数,其中所述的异常指数指示所述语音单元未对准的可能性;
将所述异常指数与一正常阈值比较;
如果所述异常指数不超过所述正常阈值,把所述语音单元标记为核实过的语音单元;以及
使用所述核实过的语音单元构造所述拼接的文语转换声音。
2.权利要求1的方法,进一步包括如下步骤:
如果所述异常指示超过所述正常阈值,把所述语音单元标记为可疑语音单元。
3.权利要求2的方法,进一步包括在一个对准确认界面内展现所述可疑语音单元的步骤,其中所述对准确认界面包括一个确认单元用于确认所述可疑语音单元有效和一个拒绝单元用于使所述可疑语音单元无效。
4.权利要求3的方法,其中所述至少一个语音单元包含多个语音单元,所述方法进一步包括如下步骤:
在所述对准确认界面内提供至少一个浏览控制;以及
在选择所述浏览控制之一时,从所述可疑语音单元浏览到另一个不同的可疑语音单元。
5.权利要求3的方法,进一步包括如下步骤:
在所述对准确认界面内提供一个音频回放控制;以及
在选择所述音频回放控制时,有声地呈现所述可疑语音单元。
6.权利要求3的方法,进一步包括如下步骤:
如果在所述对准确认界面内所述确认单元被选定,则把所述可疑语音单元标记为核实过的语音单元。
7.权利要求3的方法,进一步包括如下步骤:
如果在所述对准确认界面内所述拒绝单元被选定,则把所述可疑语音单元标记为被拒绝的语音单元;以及
从所述拼接文语转换声音的所述构造中排除所述被拒绝的语音单元。
8.权利要求1的方法,其中所述至少一个语音单元包括多个语音单元,所述方法进一步包括如下步骤:
在一个正常阈值界面内呈现所述多个语音单元的异常指数分布图;以及
在所述正常阈值界面内调节所述正常阈值。
9.权利要求1的方法,所述计算步骤进一步包括如下步骤:
检验所述语音单元的多个异常属性;
对每个所述异常属性赋予一个异常值;以及
至少是部分地根据所述多个异常值计算所述异常指数。
10.权利要求9的方法,所述计算步骤进一步包括如下步骤:
对于每个异常属性,识别出一个异常权重,并把所述异常权重与所述异常值相乘;以及
把所述相乘的结果相加以确定所述异常指数。
11.权利要求9的方法,所述赋予步骤进一步包括如下步骤:
检验所述语音单元的至少一个异常属性特性;
对每个异常属性特性,确定至少一个异常参数;
在一个异常属性评估函数中利用所述异常参数;以及
使用所述异常属性评估函数计算所述异常指数。
12.一种过滤在拼接的文语转换声音中要使用的语音单元的系统,包括:
接收至少一个从语音资料库中自动提取的语音单元以构造拼接的文语转换声音的单元;
为所述语音单元计算一个异常指数单元,其中所述异常指数指示所述语音单元未对准的可能性;
将所述异常指数与一个正常阈值比较的单元;
如果所述异常指数不超过所述正常阈值,把所述语音单元标记为核实过的语音单元的单元;以及
使用所述核实过的语音单元构造所述拼接的文语转换声音的单元。
13.一种机器可读的存储器,其上存储有一个具有多个代码部分的计算机程序,所述代码部分可由机器执行以使该机器完成如下步骤:
接收至少一个从语音资料库中自动提取的语音单元以构造拼接的文语转换声音;
为所述语音单元计算一个异常指数,其中所述异常指数指示所述语音单元未对准的可能性;
将所述异常指数与一正常阈值比较;
如果所述异常指数不超过所述正常阈值,把所述语音单元标记为核实过的语音单元;以及
使用所述核实过的语音单元构造所述拼接的文语转换声音。
14.权利要求13的机器可读存储器,进一步包括如下步骤:
如果所述异常指示超过所述正常阈值,把所述语音单元标记为可疑语音单元。
15.权利要求14的机器可读存储器,进一步包括在一个对准确认界面内展现所述可疑语音单元的步骤,其中所述对准确认界面包括一个确认单元用于确认所述可疑语音单元有效和一个拒绝单元用于使所述可疑语音单元无效。
16.权利要求15的机器可读存储器,其中所述至少一个语音单元包括多个语音单元,所述方法进一步包括如下步骤:
在所述对准确认界面内提供至少一个浏览控制;以及
在选择所述浏览控制之一时,从所述可疑语音单元浏览到另一个不同的可疑语音单元。
17.权利要求15的机器可读存储器,进一步包括如下步骤:
在所述对准确认界面内提供一个音频回放控制;以及
在选择所述音频回放控制时,有声地呈现所述可疑语音单元。
18.权利要求15的机器可读存储器,进一步包括如下步骤:
如果在所述对准确认界面内所述确认单元被选定,则把所述可疑语音单元标记为核实过的语音单元。
19.权利要求15的机器可读存储器,进一步包括如下步骤:
如果在所述对准确认界面内所述拒绝单元被选定,则把所述可疑语音单元标记为被拒绝的语音单元;以及
从所述拼接文语转换声音的所述构造中排除所述被拒绝的语音单元。
20.权利要求13的机器可读存储器,其中所述至少一个语音单元包括多个语音单元,所述方法进一步包括如下步骤:
在一个正常阈值界面内呈现所述多个语音单元的异常指数分布图;以及
在所述正常阈值界面内调节所述正常阈值。
21.权利要求13的机器可读存储器,所述计算步骤进一步包括如下步骤:
检验所述语音单元的多个异常属性;
对每个所述异常属性赋予一个异常值;以及
至少是部分地根据所述多个异常值计算所述异常指数。
22.权利要求21的机器可读存储器,所述计算步骤进一步包括如下步骤:
对于每个异常属性,识别出一个异常权重,并把所述异常权重与所述异常值相乘;以及
把所述相乘的结果相加以确定所述异常指数。
23.权利要求21的机器可读存储器,所述赋予步骤进一步包括如下步骤:
检验所述语音单元的至少一个异常属性特性;
对每个异常属性特性,确定至少一个异常参数;
在一个异常属性评估函数中利用所述异常参数;以及使用所述异常属性评估函数计算所述异常指数。
CN200410037463.1A 2003-07-30 2004-04-29 为拼接的文语转换声音确定未对准语音单元的方法和系统 Expired - Fee Related CN1243339C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/630,113 US7280967B2 (en) 2003-07-30 2003-07-30 Method for detecting misaligned phonetic units for a concatenative text-to-speech voice
US10/630,113 2003-07-30

Publications (2)

Publication Number Publication Date
CN1577489A true CN1577489A (zh) 2005-02-09
CN1243339C CN1243339C (zh) 2006-02-22

Family

ID=34103774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200410037463.1A Expired - Fee Related CN1243339C (zh) 2003-07-30 2004-04-29 为拼接的文语转换声音确定未对准语音单元的方法和系统

Country Status (2)

Country Link
US (1) US7280967B2 (zh)
CN (1) CN1243339C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903633A (zh) * 2012-12-27 2014-07-02 华为技术有限公司 检测语音信号的方法和装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4150645B2 (ja) * 2003-08-27 2008-09-17 株式会社ケンウッド 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
TWI220511B (en) * 2003-09-12 2004-08-21 Ind Tech Res Inst An automatic speech segmentation and verification system and its method
EP1856630A2 (en) * 2005-03-07 2007-11-21 Linguatec Sprachtechnologien GmbH Hybrid machine translation system
JP2006323538A (ja) * 2005-05-17 2006-11-30 Yokogawa Electric Corp 異常監視システムおよび異常監視方法
US7742919B1 (en) 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for repairing a TTS voice database
US7693716B1 (en) * 2005-09-27 2010-04-06 At&T Intellectual Property Ii, L.P. System and method of developing a TTS voice
US7742921B1 (en) * 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for correcting errors when generating a TTS voice
US7711562B1 (en) * 2005-09-27 2010-05-04 At&T Intellectual Property Ii, L.P. System and method for testing a TTS voice
US7630898B1 (en) * 2005-09-27 2009-12-08 At&T Intellectual Property Ii, L.P. System and method for preparing a pronunciation dictionary for a text-to-speech voice
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US20090172546A1 (en) * 2007-12-31 2009-07-02 Motorola, Inc. Search-based dynamic voice activation
US20140047332A1 (en) * 2012-08-08 2014-02-13 Microsoft Corporation E-reader systems
CN104795077B (zh) * 2015-03-17 2018-02-02 北京航空航天大学 一种检验语音标注质量的一致性检测方法
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN109166569B (zh) * 2018-07-25 2020-01-31 北京海天瑞声科技股份有限公司 音素误标注的检测方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5142677A (en) * 1989-05-04 1992-08-25 Texas Instruments Incorporated Context switching devices, systems and methods
US5727125A (en) * 1994-12-05 1998-03-10 Motorola, Inc. Method and apparatus for synthesis of speech excitation waveforms
US5848163A (en) 1996-02-02 1998-12-08 International Business Machines Corporation Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5884267A (en) * 1997-02-24 1999-03-16 Digital Equipment Corporation Automated speech alignment for image synthesis
WO2000030069A2 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6202049B1 (en) * 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
US6529866B1 (en) * 1999-11-24 2003-03-04 The United States Of America As Represented By The Secretary Of The Navy Speech recognition system and associated methods
US6792407B2 (en) * 2001-03-30 2004-09-14 Matsushita Electric Industrial Co., Ltd. Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903633A (zh) * 2012-12-27 2014-07-02 华为技术有限公司 检测语音信号的方法和装置
US9396739B2 (en) 2012-12-27 2016-07-19 Huawei Technologies Co., Ltd. Method and apparatus for detecting voice signal
CN103903633B (zh) * 2012-12-27 2017-04-12 华为技术有限公司 检测语音信号的方法和装置

Also Published As

Publication number Publication date
US7280967B2 (en) 2007-10-09
CN1243339C (zh) 2006-02-22
US20050027531A1 (en) 2005-02-03

Similar Documents

Publication Publication Date Title
CN1243339C (zh) 为拼接的文语转换声音确定未对准语音单元的方法和系统
CN103035247B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
DE60211197T2 (de) Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte
EP2506252B1 (en) Topic specific models for text formatting and speech recognition
CN101076851B (zh) 口语识别系统以及用于训练和操作该系统的方法
US7818308B2 (en) System and method for document section segmentation
US20050144184A1 (en) System and method for document section segmentation
CN112632326B (zh) 一种基于视频脚本语义识别的视频生产方法及装置
CA2423033A1 (en) A document categorisation system
WO2005027092A1 (ja) 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
CN1692404A (zh) 词汇重音预测
KR20070121810A (ko) 복합 뉴스 스토리 합성
CN108231066A (zh) 语音识别系统及其方法与词汇建立方法
CN110428811A (zh) 一种数据处理方法、装置及电子设备
CN110942765B (zh) 一种构建语料库的方法、设备、服务器和存储介质
CN109584859A (zh) 语音合成方法及装置
CN106897379B (zh) 语音文件的lrc时间轴文件自动生成方法及相关设备
Buist et al. Automatic Summarization of Meeting Data: A Feasibility Study.
CN116246598A (zh) 一种基于片段式的多阶段自动音准评分方法
CN112231512B (zh) 歌曲标注检测方法、装置和系统及存储介质
CN112487804B (zh) 一种基于语义上下文场景的中文小说语音合成系统
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN1371090A (zh) 一种将语音文件转换成文本文件的方法
CN1831829A (zh) 一种快速构造用于关键词检出任务的语音数据库的方法
CN1074552C (zh) 使用者行为记录装置及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090703

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090703

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060222

Termination date: 20170429

CF01 Termination of patent right due to non-payment of annual fee