CN104217716A

CN104217716A - 语音处理器及语音处理方法

Info

Publication number: CN104217716A
Application number: CN201410093682.5A
Authority: CN
Inventors: 中田康太
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-06-03
Filing date: 2014-03-13
Publication date: 2014-12-17
Also published as: US20140358548A1; JP2014235345A; US9530431B2

Abstract

一种语音处理器包括呈现单元、语音获取单元、识别单元、确定单元、频率获取单元、和得分计算器。该呈现单元被配置成给操作员呈现文本。语音获取单元被配置为获取朗读文本的操作员的语音。识别单元被配置为识别包含在操作员的语音中的音素的输出间隔。确定单元被配置为确定每个输出间隔的时间长度是否正常。频率获取单元被配置为获取分别表示分别对应于音素的上下文的出现频率的频率值。该上下文包括音素以及与音素的至少一侧相邻的另一个音素。得分计算器被配置基于输出间隔的时间长度的确定结果以及分别对应于音素的所获取的上下文的频率值，来计算代表操作员的语音的正确性的得分。

Description

语音处理器及语音处理方法

相关申请的交叉引用

本申请是基于并要求于2013年6月3日提交的日本专利申请NO.2013-117261的优先权；该日本专利申请的全部内容通过引用并入本文。

技术领域

本文所描述的实施例大体涉及语音处理器，和语音处理方法。

背景技术

语音处理，例如语音识别或语音合成需要获取大量的用于例如学习或评估的语音。作为获取语音的方式之一，可以构建一个通过互联网从大量操作员获取语音并作为他们的工作的报酬给操作员奖励的系统。例如，JP-A2003-186489公开了一种语音获取系统，它使发声者能够通过显示将被说出的字符串及对发声者的指导信息来自己执行记录。这样的系统可以以在时间和经济方面的较低成本来获取大量语音。

在这样的系统中，操作员酌情朗读（read aloud）所呈现的文本并同时进行录制工作。因此，当操作员无法朗读文本时，操作员可以在不再次朗读文本的情况下发送语音，不与文本一致的低质量语音可以被获取到系统中。由于朗读中的错误导致使用包括大量的如此低质量语音的语音引起了语音处理精度恶化。

发明内容

实施例的目的是提供一种能够以高精确度计算出代表操作员朗读文本的语音的正确性的得分的语音处理器。

根据一种语音处理器，包括呈现单元、语音获取单元、识别单元、确定单元、频率获取单元，和得分计算器。呈现单元被配置为将文本呈现给操作员。语音获取单元用于获取朗读文本的操作员的语音。识别单元被配置为识别包含在操作员的语音中的音素的输出间隔。确定单元被配置为确定每个输出间隔的时间长度是否是正常的。频率获取单元被配置为获取分别表示分别对应于音素的上下文（context）的出现频率的频率值。上下文包括音素以及与该音素的至少一侧相邻的另一音素。得分计算器被配置为基于输出间隔的时间长度的确定结果和分别对应于音素的所获取的上下文的频率值，计算出代表操作员的语音正确性的得分。

根据上文描述的语音处理器，可以以高精度计算出代表朗读文本操作员的语音的正确性的得分。

附图说明

图1是语音处理系统的示例性结构图；

图2是语音处理器和终端设备的示例性结构图；

图3是由语音处理器执行的处理的示例性流程图；

图4是示出当选择了日语文本时的音素串的示例图；

图5是示出当选择了日语文本时的上下文的示例图；

图6是示出了文本呈现屏幕的示例性示意图；

图7是示出了当选择了日语文本时音素的输出间隔的示例图；

图8是示出了当选择了日语文本时各音素的时间长度的确定结果的示例图；

图9是示出了当选择了日语文本时上下文的频率值的示例图；

图10是示出了当选择了日语文本时各音素的权重的示例图；

图11是示出了其上显示得分的文本呈现屏幕的示例性示意图；

图12是用于计算相应音素的权重的处理的示例性流程图；

图13是用于计算得分的处理的示例性流程图；

图14是用来选择文本的处理的示例性流程图；

图15是示出了上下文的出现位置的示例图；

图16是示出了当选择英文文本时的音素串和上下文的示例图；

图17是示出了当选择英语文本时的音素的输出间隔的示例图；

图18是示出了当选择英语文本时的各音素的时间长度的确定结果的示例图；

图19是示出了当选择英语文本时的上下文的频率值的示例图；

图20是示出了当选择英语文本时的各音素的权重的示例图；以及

图21是语音处理器的示例性硬件结构图。

具体实施方式

下面参照附图来描述实施例。

图1说明了根据实施例的语音处理系统10的结构。语音处理系统10向多个操作员呈现文本，并要求操作员朗读文本。该文本是字符串，如任何语言的词或句子。语音处理系统10把由操作员朗读的语音转换成信号并获取该信号。在下文中，从语音转换的所获取的信号也被称为所获取的语音。语音处理系统10使得所获取的语音能够以如此方式被用于语音处理（例如语音识别或语音合成）中的学习或评估。

语音处理系统10包括语音处理器20和多个终端设备30。语音处理器20是连接到网络（如因特网）的计算机。每个终端设备30的是由操作员操作的计算机。语音处理器20和各个终端设备30通过网络彼此耦合。

语音处理器20通过其相应的终端设备30向操作员呈现文本，并指示相应操作员朗读所呈现的文本。语音处理器20将由相应操作员朗读的语音获取为信号并且存储所获取的语音。

语音处理器20计算代表所获取的语音的正确性的得分。例如，语音处理器20通过终端设备30向每个操作员通知得分。语音处理器20互相关联地存储得分和所获取的语音。例如，得分的较大值表明该操作员更正确地朗读文本，而在朗读文本时具有更少错误。换句话说，例如，得分的较小值表明由于朗读中的错误而导致操作员的语音是不正确的。

因此构成的语音处理系统10可以通过通知操作员得分来使操作员意识到朗读中的正确性。因此构成的互相关联地存储获取的语音和得分的语音处理系统10还能够通过使具有高得分的语音被用于例如语音处理中的学习或评估来提高语音处理中的准确性。

图2示出根据本实施例的语音处理器20和终端设备30的结构。

终端设备30包括显示器41，输入单元42，麦克风43，和信息处理器44。显示器41显示从语音处理器20获取的文本。显示器41显示从语音处理器20获取的得分。

为键盘或鼠标的输入单元42例如接收操作员的操作。麦克风43将朗读文本的操作员的语音转换为信号。

信息处理器44包括中央处理单元（CPU），并且完全控制终端设备30。信息处理器44通过网络接收来自语音处理器20的文本和得分，并使显示器41显示接收到的文本和得分。信息处理器44通过网络将由麦克风43从语音转换的信号传输到语音处理器20。

语音处理器20包括文本选择器51，音素串转换器52，上下文生成器53，呈现单元54，语音获取单元55，识别单元56，确定单元57，频率存储单元58，频率获取单元59，权重计算器60，得分计算器61，通知器62，点加法器63，更新单元64和记录器65。

文本选择器51选择将要呈现给操作员的文本。文本选择器51可以读出由系统管理员预先选定的文本，例如，或从多个候选文本中选择出将要呈现给操作员的文本。

音素串转换器52把文本选择器51选择的文本转换为音素串。音素是声音的最小单位以识别由人说出的话语的含义。音素串转换器52将文本转换为符号序列，该符号序列基于文本和音素串的对应表来表现各音素。音素系统根据语言和理论的解释而变化。只要音素系统对应于所选文本的语言，音素串转换器52可以根据任何解释将文本转换成音素字符串。

上下文生成器53生成与包含于通过利用音素串转换器52的转换而得的音素字符串中的各音素对应的上下文。上下文代表某一音素和与该某一音素的至少一侧相邻的相邻音素（即紧接在某一音素之前的相邻音素以及紧接在某一音素之后的相邻音素）的组合。被称为双音素和三音素的上下文是已知的。双音素是表示某一音素与紧接在该某一因素之前的音素的组合的上下文。三音素是表示某一音素与紧接在该某一因素之前及之后的音素的组合的上下文。上下文生成器53可以生成双音素或三音素。

呈现单元54向操作员呈现由文本选择器51选择的文本。例如，呈现单元54通过网络将该文本发送到终端设备30，并使终端设备30的显示器41显示该文本。

语音获取单元55获取朗读所呈现的文本的操作员的语音。例如，语音获取单元55接收由终端设备30的麦克风43从语音转换的信号，并将该信号存储到存储器中。

识别单元56识别包含在操作员的语音中的各个音素的输出间隔。具体来说，识别单元56检测包括在操作员的语音内的音素的分离，并识别每个音素的开始时间和结束时间。

识别单元56使用强制对准技术（forced alignment technique）基于通过利用音素串转换器52的转换而获得的音素字符串，来分析由语音获取单元55获取的语音并识别每个音素的输出间隔。强制对准技术例如使用过去获取的音素的波形或类似物，来识别音素的输出间隔。在强制对准技术中，极可能的是，与过去获取更少的音素的输出间隔相比，过去获取更多的音素的输出间隔能被更正确地识别。

确定单元57确定每个音素的由识别单元56识别的输出间隔的时间长度是否正常。确定单元57然后将确定结果与包含在语音中的相应音素关联起来。具体来说，确定单元57将标记与相应的音素关联起来，该标记表明该时间长度是正常还是异常（即，该时间长度是不正常的）。

包含在由人发出的语音中的每个音素的时间长度通常是在一定的范围内的。因此，当音素的输出间隔的由识别单元56识别出的时间长度在一定范围之外时，所识别的音素的输出间隔的时间长度被估计为异常。确定单元57因此针对每个音素确定音素的输出间隔的时间长度是否在预定范围内，并且如果音素的输出间隔的时间长度是在预定范围内，则确定该音素为正常，并且如果该时间长度在预定范围之外时，确定该音素为异常。换句话说，如果音素的输出间隔的时间长度等于或大于预定下限时间长度，且等于或小于预定上限时间长度时，则确定单元57确定该音素为正常，而如果该时间长度是小于该下限时间长度或大于该上限时间长度时，则确定单元57确定该音素为异常。

被确定为正常的每个音素的时间长度所在的范围可以是相同的，而不管音素的种类如何；或者被确定为正常的每个音素的时间长度所在的范围也可能根据音素的类型而变化。被确定为正常的每个音素的时间长度所在的范围可能根据语言而变化。

频率存储单元58针对每个上下文，在其中储存了表示包含在过去获取的语音中的上下文的出现频率的值作为频率值。当上下文被包括在过去获取的语音中的次数为大时，频率值是大的，而当上下文被包括在过去获取的语音中的次数为小时，则频率值是小的。

过去获取的语音可能是由语音处理系统10获取的语音或是由另一系统获取的语音。过去取得的语音可能既包括由语音处理系统10获取的语音，也包括由另一系统获取的语音。

频率值并不必须是直接代表出现频率的值，只要其代表出现频率。频率值的实例包括将出现频率分成约10个级别而获得的级别的代表值，以及出现频率的归一化值。

频率获取单元59从频率存储单元58获取与通过音素串转换器52的转换而得到的各音素相对应的上下文的频率值。具体来说，频率获取单元59从频率存储单元58中读出与由上下文生成器53产生的相应文本相对应的频率值。

权重计算器60根据频率获取单元59获取的文本的频率值计算出与通过音素串转换器52的转换而得的音素相对应的权重。权重是由例如数值表示的系数。例如，频率值越大，权重计算器60计算出的权重值就越大，而频率值越小，权重计算器60计算出的权重值就越小。

得分计算器61基于确定单元57关于音素输出间隔的时间长度的确定结果和权重计算器60计算的分别对应于音素的权重来计算代表朗读文本的操作员的语音的正确性的得分结果。

具体来说，得分计算器61利用对应的相应权重来对音素的确定结果进行加权。然后得分计算器61在加权之后计算被确定为正常的音素的确定结果的数量与确定结果的总数量的比率，来作为得分。得分计算器61能在得分上反映出具有大权重的音素（即具有大出现频率的音素）的确定结果以及具有小加权音素（即具有小的出现频率的音素）的确定结果。

通知器62根据由评分计算器61计算的得分通知操作员其内容。例如，通知器62通过网络发送得分到终端设备30，并使终端设备30的显示器41显示得分。通知器62可以将得分转换为分类成两级或三级（例如，评估等级A，评估等级B，和评估等级C）的评估值，并例如使显示器41显示出评估值。作为结果，通知器62可以使操作员意识到朗读文本的操作员的语音的正确性。

分数加法器63例如，访问外部分数管理服务器，并且向操作员增加了分数以作为对朗读工作的报酬。例如，该分数可以是现金或电子货币。可替代地，例如，分数加法器63可以将对应量的货币转移到操作员的银行账户。

分数加法器63可以按照得分来改变分数。例如当操作员的语音的计算得分等于或大于预先设定的阈值时，分数加法器63可以在常规分数之前将奖励分数加给朗读文本的操作员。作为结果，分数加法器63可以激励操作员更正确地朗读文本。

更新单元64更新存储在频率存储单元58中的与朗读文本的操作员的语音中包括的相应音素对应的上下文的频率值。在这种情况下，更新单元64在得分等于或大于某一阈值时，可更新上下文的频率值。作为结果，更新单元64可以在文本被不正确地朗读时，防止频率值被反映在频率存储单元58上。

记录器65在内部或外部存储设备中存储由语音获取单元55获取的语音和识别单元56所识别的相应音素的输出间隔。作为结果，记录器65可以使获取的语音被用于语音处理。

在这种情况下，记录器65还可以进一步与语音相关联地存储得分。作为结果，记录器65可使具有高得分的语音（即，正确的语音）被用于语音处理。记录器65可以通过分析具有低得分的语音来使其朗读中的错误的原因被分析。

图3示出根据本实施例的语音处理器20执行的处理流程。下面参照图3描述了由语音处理器20执行的处理过程。

在步骤S11，文本选择器51选择将要呈现给操作员的文本。举个例子，文本选择器51选择日语词语的“mottsuarera（英文中的mozzarella）”的文本。

在步骤S12，音素串转换器52将选定的文本转换成音素串。在本例中，音素串转换器52将文本“mottsuarera”转换成"m-o-Q-cw-a-r-e-r-a"的词素串，其是由如图4所示的9个音素构成。

在步骤S13，上下文生成器53产生与音素串中包含的相应音素对应的上下文作为转换结果。在该示例中，上下文生成器53产生被称为双音素的上下文。

具体而言，如图5所示，上下文生成器53产生与“m”的音素对应的“sil-m”的上下文。符号“sil”表示silence（沉默）。

上下文生成器53产生对应于音素“o”的上下文“m-o”。上下文生成器53产生对应于音素“Q”的上下文“o-Q”。上下文生成器53产生对应于音素“cw”的上下文“Q-cw”。上下文生成器53产生对应于音素“a”的上下文“cw-a”。上下文生成器53产生对应于音素“r”的上下文“a-r”。上下文生成器53产生对应于音素“e”的上下文“r-e”。上下文生成器53产生对应于音素“r”的上下文“e-r”。上下文生成器53产生对应于音素“a”的上下文“r-a”。

在步骤S14，呈现单元54使终端设备30的显示器41显示所选择的文本。在该示例中，如图6所示，呈现单元54使显示器41显示包括文本“mottsuarera”的呈现屏幕70。

指示对朗读文本的奖励的分数（例如，“5分数”）可与文本一起显示在呈现屏幕70上。例如，在呈现屏幕70上，显示了启动语音记录的记录按钮71。一旦记录按钮71被操作员按压，终端设备30通过麦克风43开始记录操作员的语音。

在步骤S15，语音获取单元55通过网络获取由终端设备30记录的语音。随后例如，语音获取单位55将获取的语音存储在存储器中。

在步骤S16，识别单元56识别包括在所获取的语音内的相应音素的输出间隔。在本例中，识别单元56使用强制对准技术来识别相应音素的输出间隔。识别单元56使用过去获取的相应音素的波形或类似物来识别与从呈现的文本转换成的相应音素相对应的输出间隔。

在本例中，如图7所示，识别单元56识别相应音素“m”，“o”，“Q”，“cw”，“a”，“r”，“e”，“r”和“a”的开始时间和结束时间。例如，识别单元56关于第一个音素“m”识别开始时间是1.20秒并且结束时间为1.29秒。作为另一示例，识别单元56关于第四音素“cw”识别了开始时间为1.43秒并且结束时间为1.47秒。

开始时间和结束时间的参照可被设定为任何时间。在该示例中，开始时间和结束时间的参考是开始记录的时间。

在步骤S17，确定单元57确定每个相应的音素的识别的输出间隔的时间长度是否正常。如图8所示，在本例中，当音素的从开始时间到结束时间的时间长度等于或大于0.05秒且等于或小于0.15秒时，确定单元57确定该音素为正常。换句话说，当音素的开始时间到结束时间的时间长度是小于0.05秒或者比0.15秒更大时，则确定单元57确定该音素为异常。例如，确定单元57确定为第一个音素“m”是正常的，因为时间长度为0.09秒。作为另一示例，确定单元57确定第四个音素“cw”为异常，因为时间长度为0.04秒。

如图8所示，确定单元57将每一个指示正常或异常的标记与相应的音素关联起来。

在步骤S18，频率获取单元59从频率存储单元58获取与从呈现的文本转换而成的相应音素相对应的上下文的频率值。在该示例中，频率获取单元59获取与图9所示的相应上下文“sil-m”、“m-o”、“o-Q”、“Q-cw”、“cw-a”、“a-r”、“r-e”、“e-r”和“r-a”相对应的频率值。例如，频率获取单元59获取“1000000”作为与第一个音素“m”所对应的上下文“sil-m”的频率值。作为另一示例，频率获取单元59获取“1000”作为与第四个音素“cw”相对应的上下文“Q-cw”的频率值。

在步骤S19，权重计算器60根据所获取的上下文的频率值，计算与从所呈现的文本转换的相应音素相对应的权重。如图10所示，权重计算器60将与其上下文具有比预定参考值小的频率的音素所对应的权重计算为第一值（例如，0.1），同时权重计算器60将与其上下文具有大于或等于预定参考值的频率值的音素相对应的权重，计算为第二值（例如，1.0），在本示例中，第二值大于第一值。例如，权重计算器60将对应于第一个音素“m”的权重计算为第二值（1.0）。作为另一示例，权重计算器60将与第四个音素“cw”相应的权重计算为第一值（0.1）。

权重计算器60在该例中，设置第一值与第二个值之间的比率为10倍。这个比率可以是大于或小于10倍。在步骤S19的具体处理将在后面参照图12中来描述。

在步骤S20，得分计算器61基于相应音素的输出间隔的时间长度的确定结果和与各音素相对应的计算而得的权重，来计算得分。在例子中，得分计算器61计算由0到100的任何数字值表示的得分。步骤S20的具体处理将在后面参照图13进行描述。

在步骤S21，通知器62使终端设备30的显示器41显示得分，从而将得分通知操作员。如该图11所示，在该示例中，通知器62使显示器41显示得分窗72，将得分显示在呈现屏幕70的一部分上。分数加法器63访问分数管理服务器，例如，并将该分数加给操作员。

当得分等于或大于预先设定的阈值时，通知器62除了常规分数之外将奖励分数加给操作员。在这种情况下，如图11所示，通知器62使显示器41将奖励分数的值显示在得分窗72上，从而通知操作员该奖励分数被添加。

在步骤S22，更新单元64在得分等于或大于某一阈值的条件下，将存储在频率存储单元58的频率值进行更新。记录器65将所获取的语音及相应音素的输出间隔存储在内部或外部存储设备中。在这种情况下，记录器65与语音相关联地存储得分。

在步骤S22的处理完成后，语音处理器20结束该流程的处理。

图12是用来计算音素的权重的处理流程。权重计算器60在图3的步骤S19处执行图12中所示的处理。

在步骤S191中，权重计算器60从频率存储单元58获取由频率获取单元50获取的上下文的频率值中的最大值。如图9所示，在该示例中，权重计算器60获得“2000000”，其是与第七音素“e”对应的上下文“r-e”的最大的频率值。

在步骤S192，权重计算器60确定在从所呈现的文本转换成的音素中是否剩余待选择的任何音素。如果没有待选择的音素剩余（步骤S192的否），则权重计算器60结束该流程，并且该处理返回到主流程。如果剩余待选择的任何音素（步骤S192的是），则权重计算器60前进到步骤S193。

在步骤S193，权重计算器60从剩余待选的音素中选出任何一个音素作为处理对象。

在步骤S194，权重计算器60将与待选的音素相对应的上下文的频率值进行归一化。具体来说，权重计算器60在归一化处理中，与被选的音素相对应的上下文的频率值除以在步骤S191中获取的最大值。在图9所示的该示例中，当第一个音素“m”被选择时，归一化的频率值被如下计算：1000000/2000000=0.5。在图9所示的该示例中，当第四音素“cw”被选择时，则归一化的频率值被如下计算：1000/2000000=0.0005。

在步骤S195中，权重计算器60将归一化的频率值与预先设定的参考值进行比较，并计算与所选择的音素相对应的权重。具体地，当归一化的频率值比参考值小时，权重计算器60将对应于所选择的音素计算为第一值（0.1）。当归一化的频率值等于或大于参考值时，权重计算器60将与所选音素相对应的权重计算为第二值（1.0），该第二值比第一值大。

在该示例中，参考值被设置为“0.1”。如图10所示，当第一个音素“m”被选择时，由于归一化的频率值是比参考值大的“0.5”，故权重计算器60将权重计算为第二值（1.0）。当选择第四个音素“cw”时，权重计算器60将权重计算为第一值（0.1），因为归一化的频率值是比参考值小的“0.0005”。

权重计算器60可使用不仅仅两个值，而是三个或更多的值来计算权重。权重计算器60可以计算归一化的频率值的对数值作为权重。

在步骤S196，权重计算器60将计算出的权重与选择的音素关联地存储。然后权重计算器60返回到步骤S192，并继续从步骤S192到步骤S196的处理，直到没有待选择的音素剩余。

图13示出用于计算得分的处理流程。得分计算器61在图3所示的步骤S20处执行图13所示的处理。

在步骤S201，得分计算器61代入“0”用于变量W和T。

在步骤S202，得分计算器61确定从文本转换而来的音素中是否剩余任何待选择的音素。如果没有剩余音素待选择（步骤S202的否），则得分计算器61前进到步骤S208。如果剩余任何音素待选择（步骤S202的是），则得分计算器61前进到步骤S203。

在步骤S203，得分计算器61从剩余待选择的音素中选择任一个音素作为处理目标。

在步骤S204，得分计算器61获取对应于所选择的音素的权重w_i。例如，当选择了第一个音素“m”时，得分计算器61获得如图10所示的“权重w₁=1.0”。作为另一示例，当第四音素“cw”被选择时，得分计算器61获取如图10所示的“权重w₄=0.1”。

在步骤S205，得分计算器61执行W=W+w_i的算术运算。换句话说，该得分计算器61将所选音素的权重wi加到变量W。

在步骤S206，得分计算器61获取与所选的音素相对应的标记l_i。例如，当选择第一个音素“m”时，得分计器部61获得如图8所示的“标记l₁=正常”。再如，当选择第四个音素“cw”时，得分计算器61获得如图8所示的“标记l₄=异常”。

在步骤S207，得分计算器61执行算术运算“T=T+I（l_i=正常）×w_i”。I（x）是函数。当x为真时，I（x）=1，而当x为假时，I（x）=0。当标记l_i是正常时，得分计算器61将w_i加到T，而当标记l_i是异常时，得分计算61不将值加到T。

在完成步骤S207处的处理之后，得分计算器61返回到步骤S202，并且重复从步骤S202至步骤S207的处理，直到没有音素剩余待选择为止。如果没有音素剩余待选择，则得分计算器61前进到步骤S208。

在步骤S208，得分计算器61执行算术运算“S=（T/W）×100”来计算得分S。W表示与各个音素相对应的权重之和。T代表与被确定为正常的音素对应的权重之和。

得分计算器61因此在算术运算“S=(T/W)×100”中，通过将对应于被确定为正常的各音素的权重之和与对应于各个音素的权重之和的比率乘以100，来计算得分S。

从步骤S201到步骤S208的处理由下面的表达式（1）表示。

在图8和图10所示的示例中，得分计算器61如下计算得分S：S={(1×1.0)+(1×1.0)+(0×1.0)+(0×0.1)+(0×0.1)+(1×1.0)+(1×1.0)+(1×1.0)+(1×1.0)}/{1.0+1.0+1.0+0.1+0.1+1.0+1.0+1.0+1.0}×100=83.3。

如上所述，语音处理器20通过根据被包括在过去获取的语音中的音素的出现频率对确定结果进行加权，来将具有高出现频率的上下文中包括的音素的确定结果反映在得分中。

在强制对准技术中，过去获取得越少的音素，比起过去获取得更多的音素，更可能在确定结果中包含错误。因此语音处理器20利用小的权重对通过强制对准技术而更可能在确定结果中包含错误的音素进行加权，从而降低，而语音处理器20利用大的权重对通过强制对准技术而更不可能在确定结果中包含错误的因素进行加权以增大影响。作为结果，语音处理器20可以计算出具有高精度的得分。

图14示出了用于选择文本的处理流程的示例。例如，文本选择器51执行图14所示的处理流程，以选择出用于向操作员呈现的文本。文本选择器51可针对来自终端设备30的每个访问或在来自终端设备30的访问之前，执行图14所示的处理。

在步骤S301中，文本选择器51从多个预先准备好的候选文本中选择一个候选文本。

在步骤S302中，文本选择器51将所选择的候选文本转换成音素串。步骤S302的处理与图3的步骤S12的处理相同。

在步骤S303中，文本选择器51生成与包含在通过变换所得到的音素串中的相应因素相对应的上下文。步骤S303的处理与图3的步骤S13的处理相同。

在步骤S304中，文本选择器51从频率存储单元58获取与从候选文本转换而来的相应音素相对应的上下文的频率值。步骤S304的处理与图3中的步骤S18的处理相同。

在步骤S305中，文本选择器51基于与相应音素相对应的频率值计算出候选文本的优先级P。具体来说，文本选择器51通过使用如下表达式（2）执行算术运算来计算优先级P。

P = [Σ_{i = 1}^{Nh} I (f_{(ci)} > f_{th}) + Σ_{i = N - Nh + 1}^{N} I (f_{(ci)} > f_{th}) + Σ_{i = Nh + 1}^{N - Nh} I (f_{(ci)} < f_{th})] / N - - - (2)

在表达式（2）中，N是等于或大于一的整数，并代表候选文本的音素的数目。如图15所示，i是等于或大于一的整数，并且代表音素从头部开始的位置。C_i表示第i个音素。f(C_i)表示与第i个音素对应的上下文的频率值。f_th是常数，并且代表阈值。

在表达式（2）中，N_h是常数，并且代表比候选文本的音素数目的一半更小的整数。更具体地，如图15所示，N_h是指定在文本开头的因素和在文本结尾的音素的常数。

在表达式（2）中，分子的第一项代表在文本开头的N_h个音素中，具有频率值大于阈值的上下文的音素的数量。在表达式（2）中，分子中的第二项代表在文本结尾的N_h个音素中，具有频率值大于阈值的上下文的音素的数量。

在表达式（2）中，分子的第三项表示在不包括文本开头处的N_h个音素和文本结尾处的N_h个音素的音素（即，在文本中间的音素）中，具有频率值小于阈值的上下文的音素的数量。

文本选择器51通过对分子的第一项、第二项和第三项进行相加并将分子除以候选文本的音素数量N，从而计算出优先级P，作为表达式（2）的算术运算的结果。

在步骤S306中，文本选择器51决定预定数量的候选文本是否被选择。如果预定数量的候选文本未被选择（步骤S306的否），则文本选择器51返回到步骤S301，并从步骤S301开始重复在另一个候选文本上的处理。如果预定数量的候选文本被选择（步骤S306的是），则文本选择器51前进至步骤S307。

在步骤S307中，文本选择器51从候选文本中选择具有最大优先级P的文本作为呈现给操作员的文本。当步骤S307的处理结束后，文本选择器51结束该流程。

通过上述处理，文本选择器51可以选择优先于其他候选文本的以下候选文本。优选的候选文本在文本的开头和结尾包括具有大于阈值的频率值的上下文的音素，以及在文本中除了文本的开头和结尾之外的部分（即在文本的中间）中包括具有小于阈值的频率值的上下文的音素。

通过这种方式，语音处理器20优先选择在文本的开头包括具有大频率值的上下文的音素的文本。从而语音处理器20可以增加与在文本的开头的音素相对应的权重。作为结果，例如，当文本的开头的音素由于记录按钮71的错误操作导致其被删除而被确定为不正常时，语音处理系统10能够必定降低得分。

语音处理器20优先选择在文本结尾包括具有高频率值的文本的音素的文本。作为结果，语音处理器20可以增加与文本结尾的音素相对应的权重。例如，当操作员中途停止朗读文本并且因而使文本结尾的音素被确定为异常时，则语音处理设备20能够必定降低得分。

语音处理器20优先选择在除了文本开头和结尾之外的部分（即在文本的中间）中包括具有小频率值的上下文的音素的文本。对于语音处理系统10来说，优先获取尽可能多的不同音素直到达到相应音素的某个最小数，语音处理器20优先选择包括具有较小的频率值的上下文的音素的文本，从而可以可靠地获取包括过去获取得较少的音素在内的语音。

如上所述，根据本实施例的语音处理系统10根据包括在过去获取的语音中的上下文的出现频率来对包括在所获取语音中的音素的确定结果进行加权。语音处理系统10由此可提高更可能是正确的音素的确定结果的权重，并减少较不可能为正确的音素的确定结果的权重。作为结果，语音处理系统10可以计算出具有高精度的得分。

语音处理系统10通过向操作员通知准确得分来鼓励操作员正确地朗读文本，从而使得更有可能获得高质量的语音。语音处理系统10可以计算出精确的得分，从而使使用所获取的语音的语音处理可以以高精度执行。

语音处理系统10优先选择从中计算出精确得分的文本并呈现高文本给操作员，从而使得精确的得分能被可靠地计算。

图16至图20示出了英语文本被朗读的情况的例子。在上述实施例中，描述了日文文本被朗读的情况。语音处理系统10也可以被应用到日文以外的语言的文本被朗读的情况。

作为示例，文本选择器51选择英语句子“avocado cake”。在这种情况下，如图16所示，音素串转换器52将文本“avocado cake”转换成由10个音素构成的音素串"ae-v--k-aa-d-ou-k-ei-k"。

如图16所示，上下文生成器53生成与相应音素相对应的上下文“sil-ae”，“ae-v”，“v-”，“-k”，“k-aa”，“aa-d”，“d-ou”，“ou-k”，“k-ei”和“ei-k”。

如图17所示，识别单元56识别相应音素的输出间隔。例如，识别单元56关于第一个音素“ae”识别开始时间为1.20秒并且结束时间为1.29秒。又如，识别单元56关于第六个音素“d”识别开始时间为1.62秒并且结束时间为1.65秒。

如图18所示，确定单元57确定每个相应音素的所识别的输出间隔的时间长度是否正常。例如，确定单元57确定具有小于0.05秒或大于0.15秒的时间长度的音素为异常。例如，确定单元57确定为第一个音素“ae”是正常的，因为时间长度为0.09秒。作为另一示例，确定单元57确定第六个音素“d”是异常的，因为时间长度为0.03秒。

如图19所示，频率获取单元59从频率存储单元58获取与各音素对应的上下文的频率值。例如，频率获取单元59获取“1000000”作为与第一个音素“ae”相对应的上下文“sil-ae”的频率值。作为另一示例，频率获取单元59获取“2000”作为与第六个音素“d”相对应的上下文“aa-d”的频率值。

如图20所示，权重计算器60根据所获取的上下文的频率值来计算与各音素相对应的权重。例如，权重计算器60将与第一个音素“ae”相对应的权重计算为第二值（1.0）。作为另一示例，权重计算器60将与第六个音素“d”相对应的权重计算为第一值（0.1）。

得分计算器61基于图18所示的各音素的输出间隔的时间长度的确定结果来算出得分以及如图20所示的与各音素相对应的权重。具体而言，如图18和图20所示，得分计算器61如下计算得分S：S={（1×1.0）+（1×1.0）+（1×1.0）+（1×1.0）+（1×1.0）+（0×0.1）+（0×0.1）+（1×1.0）+（1×1.0）+（1×1.0）}/{1.0+1.0+1.0+1.0+1.0+0.1+0.1+1.0+1.0+1.0}×100=97.5。

图21是示意图，示出了本实施例中的语音处理器20的硬件结构的例子。在该实施例的语音处理器20包括控制器（例如中央处理单元（CPU）101）、存储设备（例如只读存储器（ROM）102和随机存取存储器（RAM）103）、通过连接到网络来通信的通信接口（I/F）104，以及连接这些部件的总线。

在本实施例中由语音处理器20执行的语音处理程序通过被预先存储在ROM102中来提供。

在本实施例中由语音处理器20执行的语音处理程序可以被记录在由计算机可读的存储介质中作为可安装或可执行的格式的文件，并且被提供作为计算机程序产品。存储介质的示例包括紧致盘ROM（CD-ROM）、软盘（FD）、可记录CD（CD-R）和数字通用光盘（DVD）。

在本实施例中由语音处理器20执行的语音处理程序可以被存储在与网络（如因特网）耦合的计算机上，并通过经由网络下载该程序来提供该程序。在本实施例中由语音处理器20执行的语音处理程序可以通过网络（如因特网）被提供或被分布。

在本实施例中由语音处理器20执行语音处理程序可以使计算机充当语音处理器20的各个单元（文本选择器51，音素串转换器52，上下文生成器53，呈现单元54，语音获取单元55，识别单元56，确定单元57，频率存储单元58，频率获取单元59，权重计算器60，得分计算器61，通知器62，分数加法器63，更新单元64，记录器65）。该单元的一部分或全部可以由硬件实施方式来实现。计算机的CPU101可以从计算机可读存储介质读出程序到主存储设备，并执行该程序。

根据上面描述的实施例，语音处理器包括呈现单元、语音获取单元、识别单元、确定单元、频率获取单元，和得分计算器。呈现单元被配置成呈现文本给操作员。语音获取单元被配置为获取朗读文本的操作员的语音。识别单元被配置为识别包括在操作员的语音中的多个音素中的每个的输出间隔。确定单元被配置为确定多个音素中的每个的输出间隔的时间长度是否正常。频率获取单元被配置为获取表示与每个音素对应的上下文的出现频率的频率值。上下文包括音素及与该音素的至少一侧相邻的另一个音素。得分计算器被配置为基于多个音素的输出间隔的时间长度的确定结果和与多个音素相对应的分别获取的上下文的获取频率值，来计算代表朗读文本的操作员的语音的正确性的得分。因此，代表朗读文本的操作员的语音的正确性的得分可被以高精确度计算出。

虽然已经描述了某些实施例，但实施例只通过示例的方式呈现，并且，并不旨在限制本发明的范围。事实上，本文所述的新颖的实施例可以以其他各种形式体现；此外，在本文所述的实施例的形式中的各种省略、替代及改变可在不脱离本发明的精神的情况下做出。所附的权利要求及其等同物旨在覆盖如将落入本发明的范围和精神之内的这样的形式或修改。

Claims

1.一种语音处理器，包括：

被配置成将文本呈现给操作员的呈现单元；

被配置成获取朗读所述文本的操作员的语音的语音获取单元；

被配置成识别包含在所述操作员的所述语音中的音素的输出间隔的识别单元；

被配置成确定所述输出间隔的时间长度中的每一个是否正常的确定单元；

被配置为获取分别代表分别与所述音素相对应的上下文的出现频率的频率值的频率获取单元，所述上下文包括所述音素以及与所述音素的至少一侧相邻的另一个音素；以及

得分计算器，其被配置为基于所述输出间隔的所述时间长度的确定结果以及分别对应于所述音素的所获取的上下文的频率值，来计算代表所述操作员的所述语音的正确性的得分。

2.根据权利要求1所述的语音处理器，还包括：

被配置为根据所述上下文的所述频率值来计算对应于每个所述音素的权重的权重计算器，其中

所述得分计算器计算与对应于被确定为正常的正常音素的所述权重之和与对应于多个音素的所述权重之和的比率相对应的值，作为所述得分。

3.根据权利要求2所述的语音处理器，其中，所述权重计算器计算所述权重，使得与上下文的频率值等于或大于参考值的音素相对应的权重，比与上下文的频率值小于所述参考值的音素相对应的权重更大。

4.根据权利要求1所述的语音处理器，还包括被配置为向所述操作员通知根据所述得分的内容的通知器。

5.根据权利要求1所述的语音处理器，还包括：

频率存储单元，其被配置为在其中存储包括在过去获取的语音中的多个上下文的出现频率作为所述频率值；

更新单元，其被配置来根据所述得分来更新与朗读所述文本的所述操作员的所述语音中包括的所述音素相对应的所述上下文的存储在所述频率存储单元中的所述频率值；以及

文本选择器，其被配置为从多个候选文本中选择一个文本作为所述文本，其中

所述文本选择器基于当所述候选文本被朗读时与包括在所述候选文本中的多个音素相对应的上下文的频率值来选择所述文本。

6.根据权利要求5所述的语音处理器，其中，所述文本选择器选择优先于其他候选文本的候选文本，优选的候选文本在文本的开头和结尾处包括上下文的频率值大于阈值的音素，并且在文本中除了文本的开头和结尾之外的部分处包括上下文的频率值小于所述阈值的音素。

7.一种语音处理方法，包括：

将文本呈现给操作员；

获取朗读所述文本的所述操作员的语音；

识别包括在所述操作员的所述语音内的音素的输出间隔；

确定所述输出间隔的时间长度中的每一个是否正常；

获取分别代表分别对应于所述音素的上下文的出现频率的频率值，所述上下文包括对应的音素和与所述音素的至少一侧相邻的另一个音素；以及

基于所述输出间隔的所述时间长度的确定结果和分别对应于所述音素获得的所述上下文的所述频率值，来计算代表所述操作员的所述语音的正确性的得分。