发明内容
这里公开的发明提供一种方法、系统和装置用于检测在拼接的文语转换(CTTS)声音中使用的未对准语音单元。特别是,为了形成CTTS声音,能自动地从语音资料库中提取出大量语音单元。对于每个语音单元,能计算出一个异常指数,它指出该语音单元未对准的可能性。异常指数越大,则该语音单元未对准的可能性越大。该语音单元的异常指数能与一个已建立的正常阈值比较。如果异常指数在该正常阈值之下,则该语音单元可被标记为核实过的语音单元。如果该异常指数在该正常阈值之上,则该语音单元可被标记为可疑语音单元。然后,可疑语音单元可被系统地显示在一个对准核实界面内,在那里每个单元或可被核实或可被拒绝。所有被核实的语音单元能用于构造CTTS声音。
本发明的一个方面包括过滤在CTTS声音中要使用的语音单元的方法。一个正常阈值能在初始时建立起来。在包括大量语音单元的一个实施例中,能使用一个正常阈值界面调节正常阈值,这里正常阈值界面展现这大量语音单元的异常指数的分布图形。例如,可在正常阈值界面内展现异常指数柱状图。该异常指数表明与其关联的语音单元未对准的可能性。
在本方法内能接收至少一个从语音资料库中自动提取的语音单元以构造CTTS声音。显然,构造CTTS声音能需要大量语音单元,它们一起构成最终在CTTS声音内包含的一组语音单元。对于该语音单元,能计算其异常指数。然后,该异常指数能与已建立的正常阈值比较。如果异常指数超过该正常阈值,则该语音单元能被标记为可疑语音单元。如果该异常指数未超过该正常阈值,则该语音单元能被标记为核实过的语音单元。
在一个实施例中,异常指数的计算能包括检验该语音单元的多个异常属性并为每个异常属性赋予一个异常值。所述的异常指数可以至少是部分地基于该异常值。在又一个实施例中,能为每个异常属性识别出一个异常权重。异常权重和异常值能乘在一起,其结果帮助确定异常指数。例如,对每个语音单元能检验至少一个异常属性特性。对每个异常属性特性能确定至少一个异常参数。这些异常参数能在异常属性评价函数中被利用。使用这些异常属性评价函数能计算出异常指数。
再有,可疑语音单元能被展现在对准确认界面内。对准确认界面能包括一个用于认可该可疑语音单元的确认单元和一个用于否定该可疑语音单元的拒绝单元。如果选择确认单元,则该可疑语音单元能被标记为核实过的语音单元。如果选择拒绝单元,则该可疑语音单元能被标记为被拒绝的语音单元。所有核实过的语音单元能被放入核实过的语音单元数据存储区,这里该核实过的语音单元数据存储区能被用于构造CTTS声音。然而,被拒绝的语音单元能从CTTS声音构造中排除。在一个实施例中,能在对准确认界面内提供一个音频回放控制。选择音频回放控制能造成在该界面内可听地展现可疑语音单元。在包括至少一批语音单元的另一实施例中,在对准确认界面内能提供至少一个浏览控制。选择浏览控制能造成从该可疑语音单元浏览到另一个可疑语音单元。
在本发明的另一方面中,可以在一CTTS声音中使用一个对语音单元过滤的系统。该系统能包括建立正常阈值的单元。该系统还能包括接收至少一个语音单元的单元,该语音单元是为构建CTTS声音而从一个语音资料库中自动提取出来的。此外,该系统还能包括为该语音单元计算异常指数的单元。该异常指数能指出该语音单元未对准的可能性。再有,该系统能包括将异常指数与正常阈值进行比较的单元。如果异常指数超过该正常阈值,则把该语音单元标记为可疑语音单元的单元能被触发。如果异常指数未超过该正常阈值,则把该语音单元标记为核实过的语音单元的单元能被触发。
具体实施方式
这里公开的发明提供了一种用于检测在拼接的文语(CTTS)声音中使用的未对准语音单元的方法、系统和装置。一个CTTS声音是指语音单元的集合,诸如音素、音位变体和子音素等语音单元,它们能通过CTTS技术结合到一起产生CTTS输出。由于每个CTTS声音能需要大量语音单元,所以CTTS语音单元往往是从含有语音样本的CTTS语音资料库中被自动提取出来。然而,自动提取过程往往造成未对准的语音单元,这些未对准的语音单元要在构造CTTS声音之前从未过滤的数据存储区中检测出来并被去掉。本发明提高了未对准的语音单元能被检测出来的效率。
更具体地说,一个指出语音单元未对准的可能性的异常指数能被计算出来。如果这一异常指数超过一个先前建立的正常阈值,则该语音单元被标记为可疑语音单元。否则,该语音单元被标记为核实的语音单元。可疑语音单元能被展现在图形用户界面(GUI)中,从而能由技术人员确定这些可疑语音单元应通过核实还是被拒绝。核实过的语音单元能包括在CTTS声音构造中,而被拒绝的语音单元能从CTTS声音构造中排除。结果,使用本解决方案能比传统的未对准检测方法快得多地并且更准确地检测和过滤未对准语音单元。
图1是示意图,其表示了检测未对准语音单元的系统示例100。系统100能包括一个自动语音标注器(labeler)110、一个未对准检测器120、一个正常阈值界面125、一个对准确认界面150以及一个CTTS声音构造器155。还能提供一个CTTS语音资料库数据存储区105、一个未过滤数据存储区115、一个核实过的数据存储区140、一个未对准数据存储区145以及一个CTTS声音数据存储区160。
自动语音标注器110能包括硬件和/或软件部件,所述的部件被配置成把语音样本自动分段成语音单元。自动语音标注器110能对它创建的每个语音单元段加上适当的标签。例如,一个语音单元能被标注为从一特定语音上下文中提取的一个特定音位变体或音素。能由相邻语音单元的语言特征确定一个语音单元的语言上下文。
本领域普通技术人员能理解,自动语音标注器110能使用多种已知的语音处理技术。在一个实施例中,自动语音标注器110能检测一个语音样本内各词之间的无声,从而把该样本初步分成多个词。然后,自动语音标注器110能使用音调激振(pitch excitation)把每个词分段成语音单元。然后,每个语音单元能与模型语音单元资料库内包含的相应语音单元匹配。然后,每个语音单元能被赋予与被匹配的模型语音单元相关联的标签。再有,相邻的语音单元能被适当地标注并用于确定一个选定语音单元的语言上下文。
值得注意的是,自动语音标注器110不限于某种特定的方法和/或技术,自动语音标注器110能使用各种已知技术中的任何技术。例如,自动语音标注器能使用声门靠近实例(glottal closure instance)(GCI)检测把语音样本分段成语音单元。
未对准检测器120能包括硬件和/或软件部件,所述的部件被配置成分析未过滤的语音单元以确定每个单元含有未对准的可能性。两种常见的未对准可包括语音单元的误加标签和为语音单元建立不适当的边界。未对准检测器120通过检测伴随每个语音单元的异常来确定未对准。至少是部分地根据检测到的异常或不存在异常,能确定异常指数。一旦确定了异常指数,未对准检测器120能将异常指数与一个预先确定的正常阈值加以比较。作为比较的结果,未过滤数据存储区115中的语音单元能被有选择地放入核实过的数据存储区135或可疑数据存储区140。
正常阈值界面125能是一个图形用户界面(GUI),它能帮助建立和调整正常阈值。例如,预先确定的一些语音单元的异常指数分布图能被呈现在正常阈值界面125中。技术人员能观察该分布图并为正常阈值确定一个适当值。
对准确认界面150能是一个GUI,由技术人员用于把可疑语音单元分类到或者是核实过的语音单元或者是未对准的语音单元。例如,对准确认界面150能包括多媒体部件,其允许有声播放可疑语音单元,从而技术人员能确定语音单元的质量。对准确认界面150能含有可由技术人员选择的确认对象,如一个按钮。如果该确认对象被触发,则一个可疑语音单元能被标记为核实过的并放入核实过的数据存储区135。对准确认界面150还能含有可由技术人员选择的拒绝对象,如一个按钮。如果该拒绝对象被触发,则一个可疑语音单元能被标记为被拒绝的并放入未对准数据存储区145。放在未对准数据存储区145内的语音单元能被从CTTS声音构造中排除。再有,对准确认界面150能包括浏览按钮用于从一个可疑语音单元浏览到其他可疑语音单元。
CTTS声音构造器155能包括硬件和/或软件部件,所述的部件被配置成由多个核实过的语音单元构成CTTS声音。值是注意的是,一个完整的CTTS声音通常能要求完整的一组语音单元。再有,在核实过的数据存储区135中能包括构成该CTTS声音的一组语音单元中每个必要语音单元的多重选择。CTTS声音构造器155能从放在核实过的语音单元存储区135中的一组核实过的语音单元中选择出一组优选的语音单元。当然,如果所有已被核实过的语音单元都要被包括在CTTS声音内,则选择一组优选的语音单元就不必要了。
如前所述,系统100能包括CTTS语音资料库数据存储区105、未过滤数据存储区115、核实过的数据存储区135、可疑数据存储区140、未对准数据存储区145以及CTTS声音数据存储区160。一个数据存储区,如数据存储区105、115、135、140、145和/或160,能是配置成信息资料库的任何电子存储空间。每个数据存储区能代表任何类型的存储器存储空间,如在磁和/或光的固定存储设备内的空间,在诸如随机存取存储器(RAM)之类暂存储器位置内的空间,以及分布在网络上的虚拟存储空间。此外,每个数据存储区能在逻辑上和/或物理上作为单个数据存储区或作为若干数据存储区来实现。每个数据存储区还能与信息处理方法关联,以进行数据操作,如存储数据、查询数据、更新数据和/或删除数据。再有,在数据存储区内的数据能以任何方式存储,如存储在数据库内、在被编索引的一个或多个文件内、在未被编索引的一个或多个文件内、在数据堆(heap)内等。
在操作时,样本语音段能存在于CTTS语音资料库数据存储区105。自动语音标注器110能由CTTS语音资料库数据存储区105中的数据中产生语音单元,并把所产生的语音单元放入未过滤数据存储区115。然后,未对准检测器120能为未过滤数据存储区115中包含的每个语音单元计算一个异常指数。如果计算出的异常指数超过一个正常阈值,则该语音单元能被放入可疑数据存储区140。否则,该语音单元能被放入核实过的数据存储区135。接下来,对准确认界面150能用于检验可疑语音单元。如果一个可疑语音单元被对准确认界面150确认为对准的,则该可疑语音单元能被放入核实过的数据存储区135。如果一个可疑语音单元被拒绝,则它能被放入未对准数据存储区145。最后,CTTS声音构造器155能由核实过的数据存储区135内的数据构造CTTS声音并把该CTTS声音放入CTTS声音数据存储区160。
本领域普通技术人员应该理解,上述安排只是实现本发明的一个安排示例,其他在功能上等效的安排能被利用。例如,作为将可疑语音单元、核实过的语音单元以及被拒绝的语音单元放入不同的数据存储区的一种替代方法,每个语音单元能被适当地注释并存储在单一的数据存储区内。在另一实例中,能实现具有界面125和界面150二者特征的单一界面,以代替界面125和150。
图2是说明为语音单元计算异常指数的方法200的流程图。方法200能在未对准检测过程情境内实现,该过程将一个正常阈值与一个置信区间相比较。于是,方法200能在图1所示的未对准检测器120内实现。方法200能以接收语音单元202来启动,语音单元202能被从未过滤语音单元数据存储区中检索出来。一旦被启动,方法200能在步骤205开始,在那里能识别出一种计算异常指数的方法。例如,所识别出的方法能总体上根据语音单元波形来计算异常指数。在另一例子中,所识别出的方法可以基于语音单元中包含的离散特性或异常属性。
在步骤215中,可以为选定的异常属性检验未过滤的语音单元。异常属性可指能用于确定一个语音单元是否未对准的多种指标中的任何指标。例如,未过滤语音单元的数字信号能相对于模型语音单元的数字信号进行规一化,并可确定这两个数字信号之间的偏差程度。在另一个例子中,平均音调值、音调偏差和语音单元持续时间可被作为异常属性。再有,通常在语音技术中使用的概率函数,如维持比(viterbi)对准中的最佳路径似然性,能用于定量化异常属性。在步骤220中,对该异常属性,能确定适当的异常指数。在做这一确定时,未过滤语音单元的异常属性能与一个预期值比较。该预期值可部分地基于与未过滤语音单元等效的至少一个语音单元(如模型语音单元)所具有的异常属性值。
替代做法是,在步骤230中能识别出与异常属性关联的异常评估函数。在数字信号处理和/或语音处理中通常使用的各种不同评估函数中的任何函数都可使用。此外,异常属性评估函数既可是基于算法的也可以是基于试探的。再有,该评估函数能是通用的或针对一种特定语音类型的。
例如,可以根据一个音素的语音单元是否是一个爆破音,如“pit”中的“p”、一个双元音,如“boil”中的“oi”或一个磨擦音,如“season”中的“s”,来使用不同的算法评估函数。在另一个例子中,异常属性评估函数能是一个受过训练的神经网络,如一个语音识别专家系统。
一旦识别出异常函数,该方法能进入步骤235,在那里能检验该语音单元以确定识别出的异常函数的参数值。在步骤240中,使用识别出的参数值和识别出的函数能计算一个异常值。
一旦计算出了异常值,该方法能进入步骤225,在那里能为异常属性确定异常权重。在步骤250,能以异常值乘异常权重。步骤250的结果可称作该语音单元的一个特定异常属性的异常因子。在包括异常属性评估函数的一个实施例中,方程(1)能用于计算异常因子。
(1)异常因子=aw*af(ap1,ap2,…,apn)
这里aw是异常权重,af是异常属性评估函数,ap1,ap2,...,apn是该异常属性评估函数的异常参数。在另一实施例中,方程(2)能用于计算异常因子。
(2)异常因子=aw*av
这里aw是异常权重,av是异常值。
在步骤255中,该方法能确定是否还有任何异常属性要被确定,如果是,则方法能进入步骤215。如果不是,则方法能进入步骤260,在那里能计算异常指数。例如,异常指数能是对一给定语音单元计算出的全部异常因子之和。
一旦在步骤260中计算出异常指数,该方法能进入步骤265,在那里该异常指数能与一个正常阈值比较。在步骤270中,如果该异常指数大于该正常阈值,则该语音单元能被标记为可疑语音单元204。在一个实施例中,可疑语音单元204能被传递到可疑语音单元数据存储区。然而,如果该异常指数小于正常阈值,如步骤275中所示,则该语音单元能被标记为核实过的语音单元206。在一个实施例中,核实过的语音单元206能被传递到核实过的数据存储区。
图3是图1中描述的正常阈值界面的GUI示例300、GUI300能包括阈值建立部分310、分布图315以及阈值改变按钮320。阈值建立部分310允许用户输入一个新的阈值。例如可以向与当前阈值相关联的文本框中输入一个阈值。另一种作法是,用户能在阈值建立部分310中送入一个百分比,这里的百分比代表其异常指数大于已建立的正常阈值的语音单元所占百分比。如果这一百分比被输入,则能自动计算出相应的阈值。
分布图315能图形展示处理过的语音单元的异常指数值316,以其纵坐标度量异常指数,以其横坐标代表近似有指定的异常指数的语音单元的频度。此外,分布图315能包括图形阈值318,其以图形显示当前正常阈值。在一个实施例中,图形阈值318能被人机交互定位,造成在阈值建立部分310中自动发生相应的改变。选择阈值改变按钮320能使GUI300中出现的阈值成为该未对准确定系统的新的正常阈值。
图4是图1中描述的对准确认界面的GUI示例400。GUI400能包括可疑单元项目410、图形单元显示415、播放按钮420、确认按钮425、拒绝按钮430以及浏览按钮435、440、445和450。可疑单元项目410能显示当前可疑语音单元数据存储区中包含的一个语音单元的标识符。在可疑单元项目410中展现的语音单元响应浏览按钮的选择而改变。例如,如果选择“第一个”浏览按钮435,则在可疑单元项目410中能展现可疑数据存储区内顺序上的第一个可疑单元的标识。类似地,“前一个”浏览按钮440能使前一个可疑单元标识符呈现在可疑单元项目410中。“下一个”浏览按钮445能使后一个可疑单元标识符呈现在可疑单元项目410中。最后,“最后一个”浏览按钮450能使顺序上最后一个可疑单元标识符呈现在可疑单元项目410中。
图形单元显示415能图形展现一个波形,其中包括可疑单元项目410中选定的可疑语音单元。在一个实施例中,还能以图形展现与该可疑语音单元相邻的语音单元,以便给出该可疑图形单元的上下文。在图形单元显示415中能包括从一个显示的语音单元波形段浏览到另一段的控制。此外,选择“播放”按钮420能使展现在图形单元显示415中的波形被可听地展现出来。选择“核实”按钮425能把当前语音单元标记为核实过的语音单元。此外,核实过的语音单元可以从可疑数据存储区移到核实过的数据存储区。选择“拒绝”按钮430能把当前语音单元标记为被拒绝的语音单元。每当未对准是由于边界错位造成时,选择“拒绝”按钮430还能拒绝与该可疑单元共享边界的语音单元。此外,被拒绝的语音单元能从可疑数据存储区移动到未对准的数据存储区。
应该指出,这里公开的各种GUI只是为了演示目的而给出的。因此,本发明不受特定GUI或在GUI视图内包含的数据输入机制的限制。相反,本领域技术人员将会理解,各种不同的GUI类型和数据条目、字段、选择器以及控制的各种安排都能被采用。
本发明能以硬件、软件或硬件和软件的组合来实现。本发明能以位于一个计算机系统中的集中方式实现或以分布式方式实现,在分布式方式中不同部件分布在若干互连的计算机系统上。任何种类的计算机系统或适合于实现这里描述的方法的其他装置都是适用的。典型的硬件和软件组合可以是通用计算机系统加上一个计算机程序,当把该程序加载和执行时,它能控制该计算机系统使其实现这里描述的方法。
本发明还能体现为一个计算机程序产品,它包含能实现这里所述方法的全部特性,并是当把它装载到一个计算机系统时,它能实现这些方法。在本说明范围内,计算机程序是指一组指令的以任何语言、代码或符号组成的表达式,这组指令使一个具有信息处理能力的系统或者是直接地或者在如下述二者之一或二者之后实现特定功能:a)转换成另一种语言、代码或符号;b)以不同的材料形式复制。
本发明能以其他形式实现而不离开本发明的精神或基本属性。因此,应参考下文的权利要求,而不是前述说明,以指出本发明的范围。