CN101114447A

CN101114447A - 语音翻译装置和方法

Info

Publication number: CN101114447A
Application number: CNA2007101390194A
Authority: CN
Inventors: 古贺敏之
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-07-26
Filing date: 2007-07-23
Publication date: 2008-01-30
Also published as: JP2008032834A; US20080027705A1

Abstract

一种语音翻译装置，包括：语音输入单元、语音识别单元、机器翻译单元、参数设置单元、语音合成单元，以及语音输出单元，并且从通过语音识别/机器翻译获得的多个似然确定将被输出的语音数据的语音音量值。对于具有低似然的单词，使得其语音音量值小，从而难以发送给用户，而另一方面，对于具有高似然的单词，使得其语音音量值大，进行特别强调，并发送给所述用户。

Description

语音翻译装置和方法

技术领域

本发明涉及一种语音翻译装置和方法，其涉及语音识别技术、机器翻译技术和语音合成技术。

背景技术

在语音识别方法中，提出了这样的方法，在其中，在已进行语音识别的响应消息中，缓慢地重复语音识别结果中的不确定部分(例如，参见JP-A-2003-208196)。

在此方法中，在与人对话期间所说的语音的内容不充分的情况下，此人能够通过在该处插话来进行校正。此时，当已生成所述语音内容时，语音识别装置侧有意缓慢地说出不确定的部分，并通知该人，这是可疑部分，并且可能需要花费时间通过插话来加入校正。

在所述语音翻译装置中，除了语音识别外，还需要进行机器翻译。然而，当在语音识别和机器翻译中进行数据转换时，很可能出现转换失败。相比仅进行语音识别，此转换具有更高的失败可能性。

因此，在所述语音识别中，得到了错误的识别而没有识别结果，并且在所述机器翻译中，得到了翻译错误而没有翻译结果。采用根据语音识别和机器翻译中计算出的似然(likelihood)得到的顺序中的第一顺位转换结果，其包括转换中的失败，并且最终通过语音输出呈现给用户。此时，当转换结果在第一顺位中时，即使其似然的值很低，也输出所述结果，即使其是转换错误。

因此，考虑到这个问题，根据本发明的实施例，提供了一种语音翻译装置和方法，在其中，通过语音来输出翻译结果，从而使得用户能够理解在语音识别或机器翻译中有失败的可能性。

发明内容

根据本发明的实施例，语音翻译装置包括语音输入单元，其被配置为获取任意语言的语音数据，语音识别单元，其被配置为通过对所述任意语言的语音数据进行识别处理来获得识别数据，以及获得所述识别数据的每个片段(segment)的似然，翻译单元，其被配置为将所述识别数据翻译为所述任意语言之外的另一种语言的翻译数据，以及获得所述翻译数据的各个片段的似然，参数设置单元，其被配置为利用所述识别数据的各个片段的似然和所述翻译数据的每个片段的似然，设置从所述翻译数据进行语音合成所需的参数，语音合成单元，其被配置为利用所述各片段的参数将所述翻译数据转换为以所述另一种语言叙说的语音数据，以及语音输出单元，其被配置为从所述另一种语言的语音数据输出语音。

根据本发明的实施例，能够通过语音输出翻译结果，从而使得用户能够理解在语音识别或机器翻译中存在失败的可能性。

附图说明

图1是视图，其示出了根据本发明实施例的对于语音的语音翻译处理结果分数的反映；

图2是语音翻译装置10的全部处理的流程图；

图3是语音识别单元12的流程图；

图4是机器翻译单元13的流程图；

图5是语音合成单元15的流程图；

图6是所获取的语音数据和音素数据库之间的相似度计算的视图；

图7是HMM的视图；

图8是从状态S₀到状态S₆的路径；

图9是视图，其用于解释利用句法树进行日语到英语以及英语到日语的翻译；

图10是视图，其用于解释词法分析中的句子结构的多个可能性和似然；

图11是视图，其用于解释翻译词中的多个可能性；

图12是视图，其示出了关于“shopping”的语音的语音翻译处理结果分数的反映；

图13是视图，其示出了关于“went”的语音的语音翻译处理结果分数的反映；

图14是表格，在其中，在机器翻译单元13中获得在翻译之前/之后的单词(word)的相关信息。

具体实施方式

此后，将参考图1到图14描述根据本发明实施例的语音翻译装置10。

(1)语音翻译装置10的概要

在本实施例的语音翻译装置10中，注意语音输出时的语音音量值，并且从通过语音识别/机器翻译获得的多个似然确定将被输出的语音数据的语音音量值。通过此处理，关于具有较低似然的单词，使其语音音量值较小，从而使得难以将所述单词发送给用户，而关于具有较高似然的单词，使其语音音量值较大，从而特别强调地将所述单词发送给所述用户。

基于通过语音音量值强调的所述部分(即，作为处理结果的看上去确定的信息)，所述用户能够理解发送的意图。

在语音识别中，所参考的似然包括，比较各音素的相似度、通过网格计算(trellis calculation)的单词的分数，以及从点阵结构计算出的短语/句子的分数，而在机器翻译中，则包括翻译词的似然分数、词法分析结果，以及例子的相似度分数。通过利用图1所示的这些计算得到的以单词为单位的似然值被反映在语音生成时的参数上，诸如语音音量值、基频、音调、语调，以及速度，并且被使用。

与人的听觉能力无关，有这样的倾向，与用低音量说出的单词相比，能更清楚地听到用高音量说出的单词。当根据所述语音翻译处理的似然确定音量的差异时，接收所述语音输出数据的用户能够更清楚地听到更确定的单词(计算出具有高似然的单词)。此外，人们甚至能够从片断信息获得某种程度的确定信息。这是一种人类技巧，从片断信息进行类推，从而推测出将被发送的信息。通过这两点，减少了呈现错误单词以及发送错误信息，并且用户能够获得正确信息。

此外，如图1所示，作为翻译的结果，将“iki/mashi/ta”翻译为“went”，并且由于影响将被语音输出的单词的范围不仅包括翻译之后的单词，还包括翻译之前的单词或短语，并且这不同于专利文献1中的计算处理。此外，与目的在于通知所有语音识别结果的专利文献1相比，此实施例的不同之处在于，即使没有发送所有语音识别结果数据，只要发送概要(outline)就足够了。

(2)语音翻译装置10的结构

在图2到图5中示出了语音翻译装置10的结构。

图2是框图，其示出了语音翻译装置10的结构。语音翻译装置10包括语音输入单元11，语音识别单元12，机器翻译单元13，参数设置单元14，语音合成单元15，以及语音输出单元16。

也可以通过在计算机中存储的程序实现各单元12到15的各自功能。

(2-1)语音输入单元11

语音输入单元11是声音传感器，其获取外部，诸如，麦克风的声音数据。此处的声音数据是在所述外部生成且包括语音、环境噪声、或者机械声的声音波形被作为数字数据获取时的值。通常，以设定的采样频率，获得声压值的时间序列。

在语音输入单元11中，由于人的语音是对象，将所获取的数据称为“语音数据”。此处，除了有关人语音的数据，如稍后描述的语音识别处理中的识别对象之外，所述语音数据包括在说话人周围产生的环境噪声(背景噪声)。

(2-2)语音识别单元12

下面将参考图3描述语音识别单元12的处理。

提取在语音输入单元11中获得的语音数据中包含的人语音的区间(section)(步骤121)。

预先准备从音素数据生成的HMM(隐Markov模型)的数据库124及其内容，并且将所述语音数据与数据库124的HMM进行比较，以获得字符串(步骤122)。

输出计算出的字符串，作为识别结果(步骤123)。

(2-3)机器翻译单元13

下面将参考图4描述机器翻译单元13的处理。

分析通过语音识别单元12获得的识别结果的字符串的句子结构(步骤131)。

将所获得的句法树转换为翻译对象的句法树(步骤132)。

从转换起点和转换终点之间的对应关系选择翻译词，并生成翻译后的句子(步骤133)。

(2-4)参数设置单元14

参数设置单元14获取这样的值，其表示在语音识别单元12的处理中的识别处理结果的识别的句子中的各个单词的似然。

此外，在机器翻译单元13的处理中获取这样的值，其表示翻译处理结果的翻译后的句子中的各个单词的似然。

从这样获得的翻译后的句子中的一个单词的多个似然，计算所述单词的似然。使用此单词的似然来计算在语音合成单元15的语音生成处理中使用的参数，并进行设置。

稍后将描述参数设置单元14的细节。

(2-5)语音合成单元15

下面将参考图5描述语音合成单元15的处理。

语音合成单元15使用在参数设置单元14中设置的语音生成参数，并进行语音合成处理。

在此过程，分析已翻译句子的句子结构(步骤151)，并基于此生成语音数据(步骤152)。

(2-6)语音输出单元16

语音输出单元16是，例如，扬声器，并且从在语音合成单元15中生成的语音数据输出语音。

(3)似然的内容

在参数设置单元14中，从语音识别单元12作为输入获取的似然S_Ri(i＝1，2，...)，以及从机器翻译单元13获取的似然S_Tj(j＝1，2，...)包括以下描述的值。当最终将它们反映在语音生成的参数上时，由于考虑到更加强调地呈现给用户，出于“更加强调更确定的结果”和“更加强调重要的结果”的目的来选择似然。对于前者，选择相似度或概率值，对于后者，选择单词的质量/权重。

(3-1)似然S_R1

似然S_R1是在语音识别单元12中对语音数据和音素数据进行互相比较时计算得到的相似度。

当在语音识别单元12中进行识别处理时，将作为语音区间获取和提取的语音数据的音素与在已有的音素数据库124中存储的音素相比较，从而确定所比较的语音数据的音素是“a”还是“i”。

例如，在“a”的情况下，关于与“a”的相似程度以及与“i”的相似程度，由于与“a”的相似程度大，则作出这样的判断，并计算所述“程度”作为一个参数(图6)。尽管也将此“程度”用作为实际语音识别处理中的似然S_Ri，毕竟，它是“音素是“a”的确定度”。

(3-2)似然S_R2

似然S_R2是通过语音识别单元12中的网格计算计算得到的单词或句子的输出概率值。

一般而言，当进行语音识别处理时，在将所述语音数据转换为文本的内部处理中，进行利用HMM(隐Markov模型)的概率计算。

例如，在识别了“tokei”的情况下，所述HMM如图7所示。作为初始状态，状态暂留在S₀。当发生语音输入时，移动到S₁，并且随后，移动到S₂、S₃、...，并且在语音结束时，移动到S₆。

在各个状态S_i中，例如，在S₁设置音素的输出信号的种类以及输出所述信号的概率，输出/t/的概率较高。利用大量语音数据预先进行学习，并且存储HMM作为各个单词的字典。

此时，在某HMM(例如，图7所示的HMM)中，在也考虑时序轴的情况下，作为能够发生状态转移的路径的模式，可以设想如图8所示的跟踪路径(126条路径)。

水平轴指示时间，垂直轴指示HMM的状态。然而，在每个时刻ti(i＝0，1，...，11)，输出一系列信号O，并且要求所述HMM输出这些。计算所述126条路径中的每一条输出所述信号系列O的概率。

将使用这些概率之和来计算HMM输出所述信号系列O的概率的算法称为前向算法，而将在这些路径中获得具有最高的输出信号系列O的概率的路径(最大似然路径)的算法称为Viterbi算法。考虑到计算量等，主要采用后者，并且这也用于句子分析(单词之间的连接的分析)。

在Viterbi算法中，当获得所述最大似然路径时，通过如下表达式(1)和(2)获得所述最大似然路径的似然。这是在所述最大似然路径中输出信号系列O的概率Pr(O)，并且通常在进行识别处理中获得。

α (t, j) = \max_{k} {α (t - 1, k) a_{kj} b_{j} (x_{t})} - - - (1)

\Pr (O) = \max_{k} {α (T, k)} = {x_{j} | j = t_{i}} - - - (2)

此处，a(t，j)表示路径中的最大概率，在此路径中，输出直到此时的信号系列，并且在时刻t(t＝0，1，...，T)转移到某状态。此外，a_kj表示从状态S_k转移到状态S_j的概率，而b_j(x)表示在状态S_j输出信号x的概率。

作为结果，语音识别处理的结果成为由某HMM指示的单词/句子，其中在各个HMM的最大似然路径的输出概率值中，此HMM产生了最大值。即，此处的最大似然路径的输出概率S_R2是“输入语音是单词/句子的确定度”。

(3-3)似然S_T1

似然S_T1是机器翻译单元13中的词法分析结果。

每个句子由各个具有含义的最小单元组成，这种单元称为语素。即，将句子的各个单词分类到词类(parts of speech)，从而得到句子结构。通过利用词法分析的结果，在机器翻译中得到句子的语法树，并且可将此语法树转换为对照翻译的句子的语法树(图9)。此时，在从前者的句子获得所述语法树的处理中，可以设想多种结构。从处理后置助词(postpositional particle)的差异、纯粹从分割差异获得的多个解释等产生这些。

例如，如图10所示，在“ashitahasiranai”的语音识别结果中，存在“ashita hasiranai”、“ashita，hasira，nai”以及“ashitaha siranai”等可想象的模式。尽管通常很少使用“ashita，hasira，nai”，但是根据此时的情况存在使用“ashita hasiranai”和“ashitaha siranai”的可能性。

关于这些，基于某单词的上下文或者其是否在当前交谈领域的词汇中来设想所述结构的确定性。实际上，在所述处理中，通过比较这样的似然来确定最确定的结构，并且可以设想，将此时使用的似然用作为输入。即，其是表示“句子结构的确定度”的分数。此时，例如，在句子之中，对于某个部分仅能采用此单词，而对于某个部分存在两种语素的组合，且这两种都有意义，并且如上所述，所述似然根据每个部分而变化。

那么，不仅可以将与整个句子有关的似然用作为输入，也可以将每个单词的似然用作为输入。

(3-4)似然S_T2

似然S_T2是根据通过机器翻译单元13中的词法分析进行分类的词类的加权值。

尽管似然S_T2不同于属性中的另一个分数，可以通过词法分析获得的结果作出将被发送的重要度的判断。

即，在所述词类之中，关于独立词，在一定程度上可以仅通过单词发送所述含义。然而，关于附属词(attached word)，不能仅通过“ha”或“he”的含义表示具体含义。在将含义发送给人的情况下，独立词比附属词更被选择发送。

即使在一定程度上信息是断断续续的，人也能理解大致意思，并且在很多情况下，能够发送一些独立词就已经足够了。由此，从此处获得的词素的结果，即，从各个词素的词类的数据，能够设置与各个词类的含义的重要度的值。此值被制成分数，并且被反映在最终输出语音的参数上。

还在语音识别单元12和语音合成单元15中实现似然S_T2，并且进行各个处理专用的词法分析，还从词类的信息获得所述权重值，并且将其反映在最终输出语音的参数上。

(3-5)似然S_T3

似然S_T3表示当在机器翻译单元13中计算某个词的翻译词时的确定度。

机器翻译的主要功能是，在步骤133，在生成已翻译句子的语法树之后，在转换前对语法树进行检查，并且在已翻译句子中的每个单词间隔(word space)中填充翻译词。此时，尽管参考双语字典，也有字典中存在一些翻译的情况。

例如，考虑将日语翻译到英语的情况，作为“kiru”的英语翻译，可以设想各种翻译，例如，在用刀切割材料的情形中，使用“cut”，在关上开关的情形中，使用“turn off/cut off”，而在失去工作的情形中，使用“fire”(图11)。

此外，在“kiru”的意思是“cut”的情形下，存在这样的情况，其中根据切割的方式(“thin”、“snipped with scissors”、“with saw”等)使用另一个单词。

当从这些之中选择适当的单词时，作为选择标准，存在很多从经验例子加以获得的情况，诸如“在这样的句子中使用此单词”。在尽管一些单词作为翻译词互相等同的情况下，它们在含义上有细微区别，预先设置当关于“在这种情况下使用那个词”作出选择时所使用的标准值。

由于这样的选择所使用的值是所述单词的似然S_T3，可以在此处对其提及。

(4)参数设置单元14的计算方法

使用上述从语音识别单元12和机器翻译单元13获得的各种似然，并计算句子的各词素的强调程度和单词的似然。为此目的，使用加权平均值或累计值(integrated value)。

例如，在图12和图13中，考虑进行日语到英语翻译的情况，诸如将“watashiha kinou sibuyani kaimononi ikimasita.”翻译成“I went shoppingto Shibuya yesterday.”。

将在语音识别单元12中获得的各种似然表示为S_R1、S_R2、...，而将在机器翻译单元13中获得的各种似然表示为S_T1、S_T2、...。此时，在将似然计算所使用的表达式表示为f()的情况下，用表达式(3)表示所得到的似然C。

此处，关于S_R1，S_R2，...，S_T1，S_T2，...，适当地进行处理，诸如进行标准化，或者使用[0，1]范围的值，诸如概率，作为似然值。

此外，尽管为每个单词获得似然C，在机器翻译单元13中获得翻译前后的单词的相关信息并将其记录为表格。例如，如图14的表格所示。从此表格，可以指示翻译前的哪个单词对用于翻译后的各个单词的语音合成的参数具有影响。将此表格用于图8的处理中。

例如，此处，在考虑获得关于“shopping”的似然C(“shopping”)的情况下(图7)，跟踪所述翻译词，并且提取关于“kaimono”的似然。因此，如下进行计算：

C(“shopping”)＝f(S_R1(“kaimono”)，S_R2(“kaimono”)，...，S_T1(“shopping”)，S_T2(“shopping”)，...) (4)

此处，带括号的似然S_Ri、S_Rj或C表示括号中的单词的似然。

此外，当在考虑获得关于“went”的似然C(“went”)的情况下跟踪翻译词时(图8)，提取关于“iki/mashi/ta”的似然。在这种情况下，“iki”意味“go”，“ta”指示过去式，而“mashi”指示礼貌用语(politeword)。因此，由于“went”受到这三个词素的影响，如下进行似然C(“went”)的计算。

C(“went”)＝f(S_R1(“iki”)，S_R1(“mashi”)，S_R1(“ta”)，S_R2(“iki”)，S_R2(“mashi”)，S_R2(“ta”)，...，S_T1(“went”)，S_T2(“went”)...) (5)

通过这样做，可以使得翻译前后的所有似然都影响到“went”。

此外，此时，参考图14的表格，由于从“iki”的含义和“ta”的过去式可以认为翻译词是“went”，主要是这些对“went”产生影响。此外，关于诸如“mashi”的礼貌用语，尽管其在结构上包含于“went”中，由于没有特别反映出来，其影响很小。那么，可以设想，通过对各个单词加权来计算“ikimashita”的似然，并且将其用于似然C(“went”)的计算。即，根据如下表达式(6)和(7)进行计算。

S_Ri(“ikimashita”)＝w(“iki”)S_Ri(“iki”)+w(“mashi”)S_Ri(“mashi”)+w(“ta”)S_Ri(“ta”) (6)

C(“went”)＝f(S_R1(“ikimashita”)，S_R1(“ikimashita”)，...，S_T1(“went”)，S_T2(“went”)...) (7)

通过这样做，将w(“iki”)和w(“ta”)设置为较大，而将w(“mashi”)设置为较小，从而可能设置所述影响。

(5)语音合成单元15中的参数设置

在参数设置单元14中，使用各个单词的似然，并且进行在语音合成单元15中的语音生成处理，其中通过利用从语音识别单元12和机器翻译单元13获得的各个似然来获得所述各个单词的似然。

(5-1)参数的种类

此处，作为反映了各片段的似然的参数，包括语音音量值、音调、语调等。调整所述参数，使得可以通过话音更清楚地表达具有高似然的单词，且通过话音模糊地表达具有低似然的单词。音调指示话音的高度，当令此值变大时，话音变高。根据所述语音音量值和所述音调的句子语音的声音强度/高度模式成为句子语音中的重音，并且可将对所述两个参数的调整称为重音的控制。然而，关于所述重音，也考虑当看到整个句子时的平衡。

此外，关于语调(声音的种类)，在作为各种频率声波的合成波的语音中，相比通过共振等强检测到的频率(共振峰)的组合，存在差异。将共振峰用作为语音识别中的语音的特征，并控制这些的组合的模式，从而能够生成各种种类的语音。将此合成方法称为共振峰合成，并且在这种合成方法中，能够容易地生成清晰的语音。在通常的用来从语音数据库生成语音的语音合成装置中，在单词被连接的情况下存在语音损失并且通过处理声音变得不清晰，然而，根据本方法，能够生成清晰的语音，而不会导致这种语音中的损失。也可以通过控制此部分调整清晰度。即，此处，能够控制所述声音的语调和质量。

然而，在此方法中，很难获得自然的语音，生成的是类似机器人的语音。

进一步，通过改变说话速度可以缓慢地说出不清楚的地方。

(5-2)语音音量值的调整

当考虑调整语音音量值的情况下，随着语音音量值变大，可以向用户清楚地发送信息。相反，随着其变小，用户很难听到所述信息。因此，在语音音量值V反映每个单词的似然C的情况下，当令初始语音音量值为V_ori时，如果

V＝f(C，V_ori) (8)

是关于C的单调增函数，就足够了。例如，通过C和V_ori的积计算V，

V＝C·V_ori (9)

在考虑如果C大到某个程度则不能确保可靠性的情况下，对于C进行阈值处理，从而获得

V = \{\begin{matrix} C \cdot V_{ori} (C &GreaterEqual; C_{th}) \\ 0 (C < C_{th}) \end{matrix} - - - (10)

并且在似然较低的情况下，不进行自身输出。此外，根据同样的思考方式，也可以设想，将转换函数设置为

V＝V_ori·exp(C) (11)

通过这样，在较高的似然C，输出较大值V。

(5-3)音调的调整

此外，在考虑音调调整的情况下，随着基频变高，话音变高。通常，女性话音的基频比男性话音的基频更高。通过使得基频变高，能够更清楚地发送话音。因此，在令基频f₀和每个单词的似然C是单调增函数的情况下，此调整手段变得可能。

f₀＝f(C，f_0，ori) (12)

通过利用以这种方式获得的语音生成参数，在语音合成单元15中进行步骤152的语音合成。输出的语音反映各个单词的似然，并且随着似然变高，能够更容易地将所述单词发送给用户。

然而，当进行所述语音生成时，可以想到在单词之间的间隙发生非自然不连续的情况，或者将似然在整体上设置为较低的情况。

关于前者，采取措施，使得所述单词在所述间隙连续地连接，或者，根据具有高似然的单词，将具有低似然的单词的似然略为变高。

关于后者，可以设想，采取措施，使得升高整个平均值，并进行计算，对整个句子进行标准化，或者当似然在整体上较低时，拒绝句子本身。此外，需要考虑整个句子进行重音控制。

(7)变型例

顺带地，本发明不限于所述实施例，不脱离其主旨，在其范围内可以作出各种修改。

例如，作为在其中获得似然的单位，对于所述实施例的内容没有限制，并且可以为每个片段加以获得。

顺带地，“片段”是音素或音素的分割部分的组合，例如，可以枚举出半音素，音素(C，V)，双音素(CV，VC，VV)，三音素(CVC，VCV)，以及音节(CV，V)(V表示元音，C表示辅音)，并且例如，这些是混合的，并且所述片段可具有可变长度。

Claims

1.一种语音翻译装置，包括：

语音输入单元，其被配置为获取任意语言的语音数据；

语音识别单元，其被配置为通过对所述任意语言的语音数据进行识别处理来获得识别数据，以及获得所述识别数据的每个片段的识别似然；

翻译单元，其被配置为将所述识别数据翻译为所述任意语言之外的另一种语言的翻译数据，以及获得所述翻译数据的各个片段的翻译似然；

参数设置单元，其被配置为利用所述识别似然和所述翻译似然，设置从所述翻译数据进行语音合成所需的参数；

语音合成单元，其被配置为利用所述各片段的参数将所述翻译数据转换为以所述另一种语言说出的语音数据；以及

语音输出单元，其被配置为从所述另一种语言的语音数据输出语音。

2.根据权利要求1所述的装置，其中，所述参数设置单元利用为所述语音识别单元中的所述任意语言的各个片段获得的一个或多个似然以及为所述翻译单元中的所述另一种语言的各个片段获得的一个或多个似然，设置所述参数。

3.根据权利要求1所述的装置，其中，所述参数设置单元将语音音量值设置为所述参数。

4.根据权利要求3所述的装置，其中，随着所述似然变高，所述参数设置单元增加所述语音音量值。

5.根据权利要求1所述的装置，其中，所述参数设置单元将音调、语调以及说话速度中的一个设置为所述参数。

6.根据权利要求1所述的装置，其中，通过所述语音识别单元获得的所述似然是当将所述任意语言的语音数据与先前存储的音素数据相比较时计算出的相似度，或者是通过网格计算计算出的单词或句子的输出概率值。

7.根据权利要求1所述的装置，其中，通过所述翻译单元获得的所述似然是与作为所述翻译单元中的词法分析结果的通过所述词法分析进行分类的词类相对应的权重值，或者是当计算单词的翻译词时的确定度。

8.根据权利要求1所述的装置，其中，所述参数设置单元利用所述任意语言的各片段或者所述另一种语言的各片段的各个似然的加权平均值或所述各个似然的累计值来设置所述参数。

9.根据权利要求1所述的装置，其中，所述片段是句子、词素、词汇和单词中的一种。

10.根据权利要求1所述的装置，其中，所述翻译单元存储所述任意语言的片段和所述另一种语言的片段之间的对应关系，并基于所述对应关系进行翻译。

11.一种语音翻译方法，包括：

获取任意语言的语音数据；

通过对所述任意语言的语音数据进行识别处理来获得识别数据，以及获得所述识别数据的每个片段的识别似然；

将所述识别数据翻译为所述任意语言之外的另一种语言的翻译数据，以及获得所述翻译数据的各个片段的翻译似然；

利用所述识别似然和所述翻译似然，设置从所述翻译数据进行语音合成所需的参数；

利用所述各片段的参数将所述翻译数据转换为以所述另一种语言说出的语音数据；以及

从所述另一种语言的语音数据输出语音。