CN105103221A

CN105103221A - 对文本到语音发音问题检测的语音识别辅助评估

Info

Publication number: CN105103221A
Application number: CN201480012446.4A
Authority: CN
Inventors: P.赵; B.彦; L.何; Z.耿; Y-M.梁
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-03-05
Filing date: 2014-02-27
Publication date: 2015-11-25
Anticipated expiration: 2034-02-27
Also published as: EP2965313B1; EP2965313A1; US9293129B2; CN105103221B; US20140257815A1; WO2014137761A1

Abstract

对于合成语音的发音问题在包括文本到语音流和语音识别（SR）流的语音识别辅助评估（SRAE）框架内使用人类录音作为参考来自动检测。发音问题检测器通过使用对应的人类录音作为对于所述合成语音的参考，对在所述TTS流和所述SR流的多个级别（例如音素、单词和信号级别）获取的结果进行评估，并输出可能的发音问题。信号级别可以用于确定所述录音与所述TTS输出之间的相似性/差别。模型级别检查器可以向所述发音问题检测器提供结果，以检查所述TTS和所述SR音素集合的相似性（包括映射关系）。来自对所述SR输出和所述录音的比较的结果也可以是由所述发音问题检测器进行评估。所述发音问题检测器输出列出潜在的发音问题候选的列表。

Description

对文本到语音发音问题检测的语音识别辅助评估

背景技术

文本到语音（TTS）系统正变得日益流行。TTS系统被用在诸如导航、话音激活的拨号、帮助系统、银行等的许多不同应用中。TTS应用根据由开发人员提供的定义使用来自TTS合成器的输出。通过人类听力测试以便标记错误（例如发音错误）来对TTS系统进行评估，这可以是昂贵和耗时的。

发明内容

提供本概要以便以简化形式介绍下面在详细描述中进一步描述的概念的选择。本概要不旨在标识所要求保护的主题的关键特征或本质特征，其也不旨在被用作在确定所要求保护的主题的范围时的辅助。

合成语音的发音问题在包括文本到语音流和语音识别（SR）流的语音识别辅助评估（SRAE）框架内使用人类录音作为参考来自动检测。发音问题检测器对通过使用对应的人类录音作为合成语音的参考在所述TTS流和所述SR流的多个级别（例如音素（phone）、单词和信号级别）获取的结果进行评估，并输出列出可能的发音问题的结果。信号级别（例如针对音素序列的信号级别）可以用于确定所述人类录音的语音与所述TTS输出之间的相似性/差别。模型级别检查器可以为所述发音问题检测器提供结果以检查所述TTS与所述SR音素集合的相似性（包括映射关系）。来自对所述SR输出和所述录音的比较结果也可以是由所述发音问题检测器进行的评估。所述发音问题检测器使用所述不同级别的评估结果来输出可能的发音问题候选。

附图说明

图1示出了包括发音问题检测器的系统；

图2示出了语音识别辅助评估（SRAE）框架；

图3示出了用于使用作为参考的文本和录音来确定发音问题的说明性过程；

图4图示了使用SRAE框架来检测可能的发音问题的示例性系统；以及

图5、6A、6B和7以及关联的描述提供对可以在其中实践本发明的实施例的各种各样操作环境的讨论。

具体实施方式

现在参考其中相似数字表示相似元件的附图，将描述各种实施例。

图1示出了包括发音问题检测器的系统。如所图示的，系统100包括计算设备115、发音问题检测器26、人类录音104、文本106、结果108和用户界面（UI）118。

如所图示的，系统100可以包括零个或多个触摸屏输入设备/显示器，其检测何时接收到了触摸输入（例如手指触摸或几乎触摸触摸屏）。任何类型的触摸屏可以用于检测用户的触摸输入。例如，触摸屏可以包括检测触摸输入的一层或多层电容材料。除电容材料之外或替代电容材料，可以使用其他传感器。例如，可以使用红外（IR）传感器。根据实施例，触摸屏被配置为检测与可触摸表面接触或在其之上的物体。尽管在本描述中使用了术语“在……之上”，但应当理解，触摸面板系统的方向是不相关的。术语“在……之上”旨在适用于所有这样的方向。触摸屏可以被配置为确定接收到触摸输入的位置（例如起始点、中间点和结束点）。可触摸表面与物体之间的实际接触可以通过任何合适的装置（例如包括通过耦合到触摸面板的振动传感器或麦克风）来检测。用于使得传感器检测接触的示例的非穷举列表包括基于压力的机制、微机器加工的加速度计、压电设备、电容传感器、电阻传感器、电感传感器、激光振动计和LED振动计。一个或多个记录设备可以用于检测语音和/或视频/图片（例如微软的KINECT、（一个或者多个）麦克风等）。一个或多个扬声器还可以用于音频输出（例如TTS合成语音）。

根据一个实施例，应用110是这样的应用，即：其被配置为接收由发音问题检测器26确定的结果108。应用110可以使用不同形式的输入/输出。例如，可以被应用110利用的语音输入、键盘输入（例如物理键盘和/或SIP）、文本输入、基于视频的输入等。应用110还可以提供多模输出（例如语音、图形、振动、声音……）。

发音问题检测器26可以响应于分析对于TTS引擎的发音问题而向/从应用110提供信息。一般而言，发音问题检测器26使用在多个级别执行的评估确定对于由TTS引擎生成的合成语音的可能的发音问题。发音问题检测器26对通过使用对应人类录音104作为从文本106生成的合成语音的参考而在TTS流和SR流的多个级别（例如音素、单词和信号级别）获取的结果进行评估，并且输出列出可能的发音问题的结果108。信号级别（例如对于音素序列的信号级别）可以用于确定人类录音的语音与TTS输出之间的相似性/差别。模型级别检查器可以为发音问题检测器提供结果，以用于检查TTS和SR音素集合的相似性（包括映射关系）。来自SR输出和录音的比较的结果也可以是由发音问题检测器进行的评估。发音问题检测器使用不同级别的评估结果来输出可能的发音问题候选作为结果108，所述结果108可以被用户用于调整TTS引擎的参数。更多细节在下面提供。

图2示出了语音识别辅助评估（SRAE）框架。如所图示的，SRAE包括文本205、顶端评估器210、录音的SR音素序列215、TTS流220、SR流250、TTS输出240、录音242、底端评估器244、结果280和发音问题检测器26。

文本到语音（TTS）和语音识别（SR）是人机语音接口的功能。发音问题检测器26使用TTS和SR这两者以便自动确定发音问题。一般而言，SR技术被配置为识别对于各种各样的用户/环境的语音，但不是设计用于识别TTS输出。另一方面，TTS是用于高级功能的SR的逆过程，但不用于子功能。对于子功能，TTS具有针对特定话音的引导和用于创建合成语音的样式。

SRAE框架200针对自动确定TTS引擎的潜在发音问题。取代使用人类进行对TTS系统的评估，SRAE框架200针对节省用于对合成语音的人类听力测试的成本和时间。SRAE框架200使用录音242（例如文本205的人类录音）作为在确定发音问题时与TTS输出240（例如合成波）进行比较的参考。发音问题检测器26使用通过使用对应的录音（242、215）作为输入文本205的合成语音的参考在TTS流和SR流的多个级别（例如音素、单词和信号级别）确定的结果，并输出列出可能的发音问题的结果280。

如所图示的，TTS流220图示了从输入文本205到TTS输出240的步骤。SR流250示出了从语音信号244到从SR流确定的已识别文本的语音识别步骤。

SRAE框架200针对通过在多个级别（例如文本级别和信号级别）对合成语音和录音进行比较来检测潜在发音问题。根据实施例，文本级别包括单词序列和音素序列。信号级别包括声学特征f0。文本205（受对应的录音242的约束）被用作对于发音问题检测的测试集合。文本205是（一个或者多个）文本脚本，以及录音242和SR音素序列录音215是对应的人类录音。在文本级别检测器中，句子是用于检测统计的最大尺度，以及随后是意指具有与其邻居相同的标签的连续单词的段、段中的单词、单词中的音节和音节中的音素。

发音问题检测器26可以通过将来自TTS流的合成语音输出与录音242进行比较来使用在信号级别上的声学特征所确定的结果。使用受约束的文本可以在通过调整合成语音的已识别文本与输入文本之间的失配来从SR引擎移除差错时提供辅助，其中，调整合成语音的已识别文本与输入文本之间的失配是通过比较在合成语音与对应录音之间的已识别文本的相似性而进行的。

发音问题检测器26对结果进行评估，所述结果从在包括文本级别的不同级别对相似性进行的评估来确定。根据实施例，文本级别包括针对每个句子的单词序列和音素序列。用于文本上的评估的比较包括：合成语音的已识别结果、对应录音的已识别结果和对于合成语音的输入文本。根据实施例，文本级别的检测模块基于如由B. Richard在普林斯顿大学出版社（1957）所讨论的动态编程（DP）算法，其针对通过将已识别文本序列与参考项进行比较、以及还在音素和单词级别两者上对合成语音和录音的已识别文本序列进行比较，以用于标签序列对齐。

对于每个文本级别，基于在句子中的DP对齐结果来度量目标与参考的相似性的评估被执行为Eq.(1). s = 1 – ，其中，s是该级别评估器上的相似性分数；C_Corr、C_Sub、C_Ins和C_Del表示句子中正确分量、替代差错、插入差错和删除差错的计数。每个句子中的潜在问题计数与该分数高度相关。

根据实施例，对于文本级别检测，音素级别是在评估中进行比较的基本单元。对于信号级别，信号级别检测步骤是基于输入文本或者对于合成语音或录音的已识别文本的音素序列。在信号级别上，检测是基于在音素内的合成语音和对应的录音的一致性进行的基础频率（f0）比较。音素段信息是基于已识别音素序列与输入语音信号的HTK强制对齐。根据实施例，f0使用如由David Talkin 1995年在语音编码与合成中的“用于音调跟踪的鲁棒算法（A robust algorithm for pitch tracking）(RAPT)”中描述的RAPT来计算。信号级别上的相似性通过可在正常范围内（诸如50Hz到500Hz）的f0的检测来度量，其包括针对TTS和SR两者的声学模型（234、266），并且还与词典（或发音字典）232、268有关。来自文本或信号级别处理的该级别的差别是时间定义属性。在该级别上，音素序列评估270检查TTS与SR音素集合的相似性（包括映射关系）。当一个音素从TTS到SR分别在其音素集合中不同时，词典检查器272用于进行音素映射。根据实施例，由SRAE框架200进行的对TTS和SR的音素集合的统一化被执行一次，并且不被再次检查。

发音问题检测器26对来自SRAE框架200内的每个级别的比较结果进行处理。发音问题检测器26从音素序列评估器270接收结果（相似性结果），并且过滤出合成语音和其对应的录音的已识别结果的相匹配的音素标签。发音问题检测器26针对上文过滤出的所检查的音素而分析从评估器244接收的信号级别一致的标签，并且发音问题检测器26过滤出信号级别问题。发音问题检测器26从顶端评估器210接收单词级别相似性度量结果，并且针对合成语音和其对应的录音的已识别结果的判断标签而过滤出失配的单词作为发音问题。发音问题检测器26还基于单词级别判断标签计算分段和句子级别潜在问题计数。根据实施例，已识别的合成语音与录音之间每个句子上的失配单词的潜在问题计数不包括由识别器差错导致的那些项，其对于合成语音和对应的录音具有相同的已识别文本。

结果280是由发音问题检测器26确定的结果。根据实施例，结果280是排名列表，其包括潜在发音问题候选排名，所述潜在发音问题候选排名通过基于由上面示出的Eq.(1)计算的分数s和对多级别分析的信号级别判断结果而对整个候选集合中的每个句子的已检测问题计数来进行。该列表包括具有零以上的已检测问题计数的句子。

出于图示的目的，提供下面的实验结果，并且其不旨在是限制性的。

在一个实验中，针对女性话音的500个合成句子（平均句子长度为15个单词）被生成，并通过计算命中率来进行对准确度的评估。在500个合成句子中，158个句子包括由人类语言专家检测出的发音问题。测试集合包括对于所述500个句子的合成语音以及对于所述500个句子的对应的人类录音。SRAE框架200使用该测试集合，并且自动确定包括被检测为发音问题候选的句子列表的结果。基线工具也在所述测试集合上运行，以便生成比较数据（例如，如L.F. Wang、L.J. Wang、Y. Teng、Z. Geng和F. K Soong的2012年InterSpeech中的“使用模板约束的广义后验概率的文本到语音系统的对象可理解性评价（Objective intelligibility assessment of text-to-speech system using template constrained generalized posterior probability）”中所描述的那样）。人类语言专家也被用在该实验中。

SRAE框架为列表选择214个句子，该列表包含作为输出的多于一个问题。基线工具选择85个句子。所述实验通过表1（在下面示出）中的段命中率的准确度来度量，所述段命中率的准确度独立于随机选择的检查列表中的句子数量。所述实验还通过基于检查列表中的214个候选句子的具有发音问题的句子的查全率来度量，以便与提议的SRAE和随机选择进行比较。

表1. 对500个句子的实验结果。

在表1中，段是指具有与其邻居相同的判断标签的连续单词。“NA”意指没有任何信息可用于该计算项。表1中的结果示出，与随机选择策略相比，在由本文中描述的SRAE框架生成的检查列表中，对发音问题段命中率的准确度的相对改进是220.9%；以及，与基线相比是162.2%。如所图示的，从基线到随机选择存在22.4%的相对改进。本文中描述的SRAE框架的检查列表中的发音问题段命中率的准确度为21.5%，而随机选择策略为6.7%。对于SRAE框架的发音问题句子的查全率为53.8%，其中，从检查列表中选择了214个句子，而随机选择为42.8%，其中在检查列表中选择了同样数量的句子。与随机选择相比，本文中描述的SRAE框架存在19.2%的相对改进。因此，与从大量候选中随机选择相比，本文中描述的SRAE系统和方法通过使用提议的方法的检查列表可以使得在检查发音问题时的劳动更有效。

图3示出了用于使用作为参考的文本和录音确定发音问题的说明性过程。当阅读对本文中呈现的例程的讨论时，应当认识到，各种实施例的逻辑操作被实现为：（1）计算机实现的动作序列或运行在计算系统上的程序模块和/或（2）计算系统内的互连机器逻辑电路或电路模块。实现方式是取决于对实现本发明的计算系统的性能要求的选择问题。相应地，所图示的并且组成本文中描述的实施例的逻辑操作被以各种方式称为操作、结构化设备、动作或模块。这些操作、结构化设备、动作和模块可以以软件、固件、专用数字逻辑及其任何组合来实现。

在开始操作之后，过程移向操作310，在此处，接收到文本，并且接收到对应的（一个或者多个）录音。根据实施例，所述文本是（一个或者多个）文本脚本，以及，所述（一个或者多个）录音是文本脚本的人类录音。所述录音还可以包括SR音素序列录音。

流向操作320，从TTS部件接收到合成语音。生成合成语音的TTS部件是自动检查发音问题的TTS部件。

移向决策操作330，执行了不同级别的评估。根据实施例，在文本级别和信号级别执行评估。

在操作332处，执行（一个或者多个）文本级别评估。根据实施例，文本级别包括针对已接收文本内的每个句子的单词序列和音素序列。用于对文本的评估的比较包括合成语音的已识别结果、对应录音的已识别结果以及对于合成语音的输入文本。文本级别评估将已识别文本序列与参考文本序列进行比较，并且还在音素和单词级别两者上对合成语音和录音的已识别文本序列进行比较。

在操作334处，使用来自SR部件的结果执行SR评估，所述来自SR部件的结果包括针对合成语音作为输入和录音作为输入的结果。在不同结果之间进行比较以便确定相似性。

在操作336处，执行信号评估。评估通过对从TTS流输出的合成语音和录音进行比较来比较在信号级别上声学特征。根据实施例，信号级别是基于文本的音素序列。

在操作338处，执行模型检查。模型级别检查对由TTS部件和SR部件使用的声学模型进行比较。该检查确定TTS音素集合和SR音素集合的相似性，其包括确定TTS声学模型和SR声学模型之间的映射关系。

流向操作340，发音问题检测器获取已执行的评估，并且生成发音问题的列表。

所述过程然后移向结束框，并且返回处理其他动作。

图4图示了使用SRAE框架来检测可能的发音问题的一个示例性系统。如所图示的，系统1000包括服务1010、数据仓库1045、触摸屏输入设备/显示器1050（例如，板设备）和智能电话1030。

如所图示的，服务1010是基于云和/或基于企业的服务，其可以被配置为提供产生多模输出（例如语音、文本……）的服务，并接收用于与服务进行交互的多模输入（包括言语），所述服务诸如是与各种应用（例如游戏、浏览、定位、生产力服务（例如电子表格、文档、呈现、图表、消息等））相关的服务。可以使用不同类型的输入/输出与该服务进行交互。例如，用户可以使用语音输入、触摸输入、基于硬件的输入等。该服务可以提供由TTS部件生成的语音输出。由服务1010提供的服务/应用中的一个或多个的功能性还可以被配置为基于客户端/服务器的应用。

如所图示的，服务1010向任何数量的租户（例如租户1-N）提供资源1015和服务。多租户服务1010是基于云的服务，其为订阅该服务的租户提供资源/服务1015，并分开地维护每个租户的数据，并且保护其不受其他租户数据影响。

如所图示的，系统1000包括触摸屏输入设备/显示器1050（例如板/平板设备）和智能电话1030，其检测何时接收了触摸输入（例如手指触摸或几乎触摸触摸屏）。可以利用任何类型的触摸屏来检测用户的触摸输入。例如，触摸屏可以包括检测触摸输入的一层或多层电容材料。除电容材料之外或替代电容材料，可以使用其他传感器。例如，可以使用红外（IR）传感器。根据实施例，触摸屏被配置为检测与可触摸表面接触或在其之上的物体。尽管在本描述中使用了术语“在……之上”，但应当理解，触摸面板系统的方向是不相关的。术语“在……之上”旨在适用于所有这样的方向。触摸屏可以被配置为确定接收触摸输入的位置（例如起始点、中间点和结束点）。可触摸表面与物体之间的实际接触可以通过任意合适的装置来检测，所述装置例如包括通过耦合到触摸面板的振动传感器或麦克风。用于使得传感器检测接触的示例的非穷举列表包括基于压力的机制、微机器加工的加速度计、压电设备、电容传感器、电阻传感器、电感传感器、激光振动计和LED振动计。

根据实施例，智能电话1030和触摸屏输入设备/显示器1050被配置了多模应用（1031、1051）。

如所图示的，触摸屏输入设备/显示器1050和智能电话1030示出了示例性显示器1052/1032，所述示例性显示器1052/1032示出了利用多模输入/输出的应用的使用（例如语音/图形显示）。数据可以存储在设备（例如智能电话1030、板设备1050）上和/或某个其他位置处（例如网络数据仓库1045）。数据仓库1054可以用于存储被TTS部件使用的文本、该文本的对应人类录音和/或被语言理解系统使用的模型。被所述设备使用的应用可以是基于客户端的应用、基于服务器的应用、基于云的应用和/或某些组合。

发音问题检测器26被配置为执行与确定发音问题相关的操作，如本文中描述的。尽管检测器26被示为在服务1010内，但该检测器的功能性的全部/部分可以被包括在其他位置中（例如智能电话1030和/或板设备1050上）。

本文中描述的实施例和功能性可以经由众多计算系统来操作，所述计算系统包括有线和无线计算系统、移动计算系统（例如移动电话、平板或板类型的计算机、膝上型计算机等）。另外，本文中描述的实施例和功能性可以在分布式系统上操作，其中应用功能性、存储器、数据存储装置和检索以及各种处理功能可以在诸如互联网或内联网之类的分布式计算网络上彼此远程地操作。各种类型的用户界面和信息可以经由机载计算设备显示器或经由关联于一个或多个计算设备的远程显示单元来显示。例如，可以在各种类型的用户界面和信息所被投影到的墙面上显示各种类型的用户界面和信息并与其进行交互。与本发明的实施例可以通过其来实践的众多计算系统的交互包括键击输入、触摸屏输入、话音或其他音频输入、手势输入（其中关联的计算设备配备了用于捕获和解释用户手势以用于控制该计算设备的功能性的检测（例如照相机）功能性）等。

图5-7和关联的描述提供了对本发明的实施例可以在其中被实践的各种各样的操作环境的讨论。然而，关于图5-7图示和讨论的设备和系统是出于示例和图示的目的，并且不限制可以用于实践本文中描述的本发明实施例的大量计算设备配置。

图5是图示了本发明的实施例可以通过其来实践的计算设备1100的示例物理部件的框图。下面描述的计算设备部件可以适于上面描述的计算设备。在基本配置中，计算设备1100可以包括至少一个处理单元1102和系统存储器1104。取决于计算设备的配置和类型，系统存储器1104可以包括但不限于易失性（例如随机存取存储器（RAM））、非易失性（例如只读存储器（ROM））、闪存器或任何组合。系统存储器1104可以包括操作系统1105、一个或多个编程模块1106，并且可以包括web浏览器应用1120。操作系统1105例如可以适于控制计算设备1100的操作。在一个实施例中，编程模块1106可以包括安装在计算设备1100上的、如上面所描述的发音问题检测器26。此外，本发明的实施例可以结合图形库、其他操作系统或任何其他应用程序来实践，并且不限于任何特定的应用或系统。该基本配置在图5中由虚线1108内的那些部件图示。

计算设备1100可以具有附加的特征或功能性。例如，计算设备1100还可以包括附加的数据存储设备（可移除和/或非可移除的），诸如磁盘、光盘或磁带。所述附加存储装置由可移除存储装置1109和不可移除存储装置1110图示出。

如上面所述，包括操作系统1105的许多程序模块和数据文件可以存储在系统存储器1104中。当在处理单元1102上执行时，诸如检测器之类的编程模块1106可以执行过程，所述过程例如包括与如上面所描述的方法相关的操作。前面提到的过程是一个示例，并且处理单元1102可以执行其他过程。可以根据本发明的实施例来使用的其他编程模块可以包括电子邮件和联系人应用、字处理应用、电子表格应用、数据库应用、幻灯片呈现应用、画图或计算机辅助应用程序等。

一般而言，与本发明的实施例一致，程序模块可以包括可以执行特定任务或可以实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外，本发明的实施例可以采用其他计算机系统配置来实践，所述其他计算机系统包括手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、微型计算机、大型计算机等。本发明的实施例还可以在分布式计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中，程序模块可以位于在本地和远程存储器存储设备两者中。

此外，本发明的实施例可以在包括离散电子元件的电子电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路或者包含电子元件或微处理器的单个芯片上实践。例如，本发明的实施例可以经由芯片上系统（SOC）来实践，其中图5中所图示的部件的每个或许多可以被集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能性，这些全部被集成（或“烧制”）到芯片基板上作为单个集成电路。当经由SOC操作时，本文中关于检测器26描述的功能性可以经由与单格集成电路（芯片）上的计算设备/系统1100的其他部件集成在一起的专用逻辑来操作。本发明的实施例还可以使用能够执行诸如与、或和非的逻辑运算的其他技术来实践，所述技术包括但不限于机械、光学、流体和量子技术。附加地，本发明的实施例可以在通用计算机内或者任何其他电路或系统中实践。

例如，本发明的实施例可以被实现为计算机过程（方法）、计算系统或者诸如计算机程序产品或计算机可读介质之类的制品。所述计算机程序产品可以是计算机存储介质，其可由计算机系统读取并且对用于执行计算机过程的指令的计算机程序进行编码。

在本文中使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的方法或技术实现的易失性和非易失性、可移除和不可移除介质。系统存储器1104、可移除存储装置1109和不可移除存储装置1110全部是计算机存储介质示例（即存储器存储装置）。计算机存储介质可以包括但不限于：RAM、ROM、电可擦除只读存储器（EEPROM）、闪存器或其他存储器技术、CD-ROM、数字多功能光盘（DVD）或其他光存储、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或者可以用于存储信息并且可以被计算设备1100访问的任何其他介质。任何这样的计算机存储介质可以是设备1100的部分。计算设备1110还可以具有（一个或者多个）输入设备1112，诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可以包括（一个或者多个）输出设备1114，诸如显示器、扬声器、打印机等。前面提到的设备是示例，并且可以使用其他的设备。

照相机和/或某个其他感应设备可以操作为记录一个或多个用户，并捕获由计算设备的用户做出的运动和/或手势。感测设备可以进一步操作为诸如由麦克风捕获口述单词，和/或诸如由键盘和/或鼠标（未示出）捕获来自用户的其他输入。所述感测设备可以包括任何能够检测用户的移动的运动检测设备。例如，照相机可以包括微软的 KINECT®运动捕获设备，其包括多个照相机和多个麦克风。

本文使用的术语计算机可读介质还可以包括通信介质。通信介质可以由计算机可读指令、数据结构、程序模块或已调制数据信号中（诸如载波或其他传输机制）的其他数据来体现，并且包括任何信息递送介质。术语“已调制数据信号”可以描述这样的信号，即：使其一个或多个特性以如下这样的方式被设置或改变，即：将信息编码到信号中。作为示例并且不是限制，通信介质可以包括：诸如有线网络或直接有线连接之类的有线介质，以及诸如声学、射频（RF）、红外和其他无线介质之类的无线介质。

图6A和6B图示了本发明的实施例可以通过其来实践的合适移动计算环境，例如移动电话、智能电话、平板个人计算机、膝上型计算机等。参考图6A，图示了用于实现实施例的示例移动计算设备1200。在基本配置中，移动计算设备1200是具有输入元件和输出元件两者的手持式计算机。输入元件可以包括允许用户将信息输入到移动计算设备1200中的触摸屏显示器1205和输入按钮1210。移动计算设备1200还可以含有允许进一步的用户输入的可选侧面输入元件1215。可选侧面输入元件1215可以是旋转式开关、按钮或任何其他类型的手工输入元件。在可替换实施例中，移动计算设备1200可以含有更多或更少的输入单元。例如，在某些实施例中，显示器1205可以不是触摸屏。在又一可替换实施例中，移动计算设备是便携式电话系统，诸如具有显示器1205和输入按钮1210的蜂窝电话。移动计算设备1200还可以包括可选的小键盘1235。可选小键盘1235可以是物理小键盘或在触摸屏显示器上生成的“软”小键盘。

移动计算设备1200含有了可以显示图形用户界面（GUI）的输出元件，诸如显示器1205。其他输出元件包括扬声器1225和LED 1220。附加地，移动计算设备1200可以含有振动模块（未示出），该振动模块导致移动计算设备1200振动以便向用户通知事件。在又一实施例中，移动计算设备1200可以含有用于提供另一种提供输出信号的装置的耳机插孔（未示出）。

尽管在本文中结合移动计算设备1200进行了描述，但在可替换实施例中，本发明结合任何数量的计算机系统来使用，所述计算机系统诸如在台式环境中、膝上型或笔记本计算机系统、多处理器系统、基于微处理器的或可编程消费电子产品、网络PC、微型计算机、大型计算机等中。本发明的实施例还可以在分布式计算环境中来实践，其中，任务由分布式计算环境中通过通信网络链接的远程处理设备来执行；程序可以位于本地和远程存储器存储设备两者中。概括来说，具有多个环境传感器、多个用于向用户提供通知的输出元件和多个通知事件类型的任何计算机系统可以含有本发明的实施例。

图6B是图示出在一个实施例中使用的移动计算设备的部件的框图，其中，所述移动计算设备诸如是图6A中所示的计算设备。也就是说，移动计算设备1200可以含有用于实现某些实施例的系统1202。例如，系统1202可以在实现“智能电话”时使用，所述“智能电话”可以运行与台式或笔记本计算机的那些应用相似的一个或多个应用，所述应用诸如是呈现应用、浏览器、电子邮件、日程安排、即时消息发送和媒体播放器应用。在某些实施例中，系统1202被集成为诸如集成式个人数字助理（PDA）和无线音位（phoneme）的计算设备。

一个或多个应用1266可以被加载到存储器1262中，并在操作系统1264之上或关联于其运行。应用程序的示例包括电话拨号器程序、电子邮件程序、PIM（个人信息管理）程序、字处理程序、电子表格程序、互联网浏览器程序、消息发送程序等。系统1202还包括存储器1262内的非易失性存储装置1268。非易失性存储装置1268可以用于存储持续性信息，如果系统1202断电，所述持续性信息不应当丢失。应用1266可以在非易失性存储装置1268中使用并存储信息，诸如电子邮件或被电子邮件应用使用的其他消息等。同步应用（未示出）也可以驻留在系统1202上，并且被编程为与常驻在主机上的对应同步应用进行交互，以便保持存储在非易失性存储装置1268中的信息与存储在主机处的对应信息同步。如应当认识到的，其他应用可以被加载到存储器1262中并在设备1200上运行，所述其他应用包括上面描述的发音问题检测器26。

系统1202具有可以被实现为一个或多个电池的电力供应装置1270。电力供应装置1270可以进一步包括外部电源，诸如AC适配器的或者对电池进行补充或再充电的带电对接托架。

系统1202还可以包括执行传输和接收射频通信功能的无线电1272。无线电1272经由通信载体或服务提供商促进了系统1202与“外面世界”之间的无线连通性。对无线电1272的传输和来自无线电1272的传输在OS 1264的控制下进行。换句话说，由无线电1272接收的通信可以经由OS 1264被传播给应用1266，并且反之亦然。

无线电1272允许系统1202诸如通过网络与其他计算设备进行通信。无线电1272是通信介质的一个示例。通信介质通常可以由计算机可读指令、数据结构、程序模块或已调制数据信号（诸如载波或其他传输机制）中的其他数据来体现，并且包括任何信息递送介质。术语“已调制数据信号”意指这样的信号，即：使其特性中的一个或多个以如下这样的方式设置或改变，即：将信息编码到信号中。作为示例并且不是限制，通信介质包括：诸如有线网络或直接有线连接之类的有线介质以及诸如声学、RF、红外和其他无线介质之类的无线介质。本文中使用的术语计算机可读介质包括存储介质和通信介质两者。

系统1202的该实施例被示为具有两种类型的通知输出设备；可以用于提供视觉通知的LED 1220和可以与扬声器1225一起使用来提供音频通知的音频接口1274。这些设备可以直接耦合到电力供应装置1270，以使得当被激活时，它们在由通知机制规定的持续时间内保持打开，即使处理器1260和其他部件可能为了保存电池电力而关闭。LED 1220可以被编程为无限地保持打开直到用户采取动作来指示设备的通电状态。音频接口1274用于向用户提供可听信号和从用户接收可听信号。例如，除耦合到扬声器1225之外，音频接口1274还可以耦合到麦克风来接收可听输入，从而促进电话交谈。根据本发明的实施例，麦克风还可以充当用于促进控制通知的音频传感器，如将在下面描述的。系统1202可以进一步包括视频接口1276，该视频接口1276使机载照相机1230的操作能够记录静止图像、视频流等。

实现系统1202的移动计算设备可以具有附加特征或功能性。例如，该设备还可以包括诸如磁盘、光盘或磁带之类的附加数据存储设备（可移除和/或不可移除的）。这样的附加存储装置在图9B中由存储装置1268图示出。计算机存储介质可以包括以用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。

如上面描述的，由设备1200生成或捕获并经由系统1202存储的数据/信息可以本地存储在设备1200上，或者所述数据可以存储在任何数量的存储介质上，所述任何数量的存储介质可以由所述设备经由无线电1272或经由设备1200与关联于设备1200的单独计算设备之间的有线连接进行访问，所述单独计算设备例如是诸如互联网之类的分布式计算网络中的服务器计算机。如应当认识到的，这样的数据/信息可以经由设备1200经由无线电1272或者经由分布式计算网络来访问。类似地，这样的数据/信息可以根据包括电子邮件和协同数据/信息共享系统的众所周知的数据/信息传输和存储装置在计算设备之间容易地传输，以用于存储和使用。

图7图示了如本文中所描述的系统的系统体系结构。

经由发音问题检测器26来管理的部件可以存储在不同通信信道或其他存储类型中。例如，部件连同它们根据其而被开发的信息可以使用目录服务1322、web门户1324、邮箱服务1326、即时消息发送仓库1328和社交网络站点1330来存储。系统/应用26、1320可以使用这些类型的系统等等中的任一个以便使得能在仓库1316中管理和存储部件。服务器1332可以提供与如本文中描述的确定可能的发音问题相关的通信和服务。服务器1332可以通过网络1308在web上向客户端提供服务和内容。可以利用服务器1332的客户端的示例包括可以包括任何通用个人计算机的计算设备1302、平板计算设备1304和/或可以包括智能电话的移动计算设备1306。这些设备中的任一个可以从仓库1316获取显示部件管理通信和内容。

上面参考根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作图示描述了本发明的实施例。在框中标注的功能/动作可以脱离如任何流程图中所示的次序而发生。例如，取决于所涉及的功能性/动作，相继示出的两个框实际上可以基本并发地被执行，或者所述框有时可以按照颠倒的次序被执行。

上面的说明书、示例和数据提供了对本发明的组成的制造和使用的完整描述。由于可以在不脱离本发明的精神和范围的情况下做出本发明的许多实施例，所以本发明存在于下文中所附的权利要求中。

Claims

1.一种用于确定发音问题的方法，其包括：

接收包括用于文本到语音（TTS）部件的句子的文本和用作针对所述文本的参考的所述文本的录音；

接收由所述TTS部件使用所述文本作为对所述TTS部件的输入而生成的合成语音；

对经由通过确定所述合成语音与所述录音的相似性在文本级别执行的评估而接收的结果进行评估；

对从语音识别（SR）部件获取的结果进行评估，所述结果与包括所述合成语音和所述录音的、对SR部件的不同输入相关；以及

基于所述评估生成包括发音问题候选的排名的列表。

2.根据权利要求1所述的方法，其进一步包括使用从所述TTS部件确定的音素序列和所述录音的SR音素序列，对来自所述文本的音素序列的信号级别评估的结果进行评估。

3.根据权利要求1所述的方法，其中，所述文本级别的评估包括执行对所述文本内每个句子的单词序列和音素序列的评估。

4.根据权利要求1所述的方法，其中，所述文本级别的评估包括执行对所述文本中每个句子的音素序列与所述录音中每个句子的对应音素序列的相似性度量。

5.一种存储用于确定发音问题的计算机可执行指令的计算机可读介质，其包括：

接收由所述TTS部件使用所述文本作为所述TTS部件的输入而生成的合成语音；

对从语音识别（SR）部件获取的结果进行评估，所述结果与包括所述合成语音和所述录音的、对SR部件的不同输入相关；

对来自对所述文本和所述录音的信号级别评估的结果进行评估；以及

基于所述评估生成包括发音问题候选排名的列表。

6.根据权利要求5所述的计算机可读介质，其中对所述文本的所述信号级别评估包括使用从所述TTS部件确定的音素序列和所述录音的SR音素序列，对所述文本的音素序列的录音的相似性进行评估。

7.根据权利要求5所述的计算机可读介质，其中所述文本级别的评估包括执行对所述文本中每个句子的音素序列与所述录音中每个句子的对应音素序列的相似性度量。

8.一种用于确定发音问题的系统，其包括：

处理器和存储器；

操作环境，其使用所述处理器而执行；

包括句子的文本和对应于所述文本的录音；

文本到语音（TTS）部件，其被配置为使用所述文本来生成合成语音；

语音识别（SR）部件，其被配置为对语音进行识别；以及

发音问题检测器，其被配置为执行包括以下的动作：

　　接收由所述TTS部件生成的合成语音；

　　对从SR部件获取的结果进行评估，所述结果与包括所述合成语音和所述录音的、对SR部件的不同输入相关；

　　基于所述评估生成包括发音问题候选排名的列表。

9.根据权利要求8所述的系统，其中对所述文本的所述信号级别评估包括使用从所述TTS部件确定的音素序列和所述录音的SR音素序列，对所述文本的音素序列的录音的相似性进行评估。

10.根据权利要求8所述的系统，其中所述文本级别的评估包括执行对所述文本中每个句子的音素序列与所述录音中每个句子的对应音素序列的相似性度量。