CN104750677A - 语音传译装置、语音传译方法及语音传译程序 - Google Patents
语音传译装置、语音传译方法及语音传译程序 Download PDFInfo
- Publication number
- CN104750677A CN104750677A CN201410815097.1A CN201410815097A CN104750677A CN 104750677 A CN104750677 A CN 104750677A CN 201410815097 A CN201410815097 A CN 201410815097A CN 104750677 A CN104750677 A CN 104750677A
- Authority
- CN
- China
- Prior art keywords
- case
- phrase
- voice
- text
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000000605 extraction Methods 0.000 claims description 33
- 238000011524 similarity measure Methods 0.000 claims description 16
- 230000001419 dependent effect Effects 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
Abstract
本发明呈现适当的用例。根据实施方式,语音传译装置具备提取部、赋予部、检索部和排序部。提取部通过从文本组提取短语而获得短语集合,所述文本组包含当前的语音识别结果和所述对话历史中包含的过去的语音识别结果及机器翻译结果。赋予部对属于短语集合的每个短语,赋予权重,该权重依赖于成为出现该短语的文本的基础的发话语音所关联的对话状态与当前的对话状态的差别。检索部通过从多个第1语言的用例检索包含短语集合中包含的任一短语的用例而获得命中用例集合。排序部基于权重及相似度计算命中用例集合中包含的每个命中用例的得分,基于该得分对命中用例集合中包含的命中用例进行排序。
Description
申请以日本专利申请2013-267918(申请日:2014年12月25日)为基础,享受该申请的优先权。本申请通过参照该申请,包含该申请的全部内容。
技术领域
实施方式涉及伴随语音传译技术的用例检索技术。
背景技术
近年,伴随文化及经济的全球化,以不同语言为母语的人彼此交流的机会持续增大。因此,相关的交流辅助用的自动传译技术备受关注。特别地,作为语音识别技术、自然语言处理技术及机器翻译技术的应用例的语音传译技术,将语音输入的第1语言的原文机器翻译为第2语言的译文,将该译文呈现给说话者的对话方。若利用相关的语音传译技术,则以不同语言为母语的人彼此可以采用各自的母语容易地进行基于语音的交流。
伴随语音传译技术,用例检索技术也得到灵活运用。用例检索技术从预先准备的多个用例中,检索与语音输入的第1语言的原文意义相似的一个以上的用例。检索到的相似用例被呈现给说话者。若说话者选择所呈现的相似用例中的一个,则所选择的相似用例的对译用例被呈现给说话者的对话方。从而,即使是原文的语音识别结果不正确的情况,只要说话者可以选择适当的相似用例,便不必重说也可以正确传达自己的意思。相关的用例检索技术中,重要的是向说话者优先地呈现适当的(即,适合说话者的意思的可能性高的)用例。
发明内容
实施方式的目的在于呈现适当的用例。
根据实施方式,语音传译装置具备语音识别部、机器翻译部、第1存储部、提取部、赋予部、第2存储部、检索部、计算部和排序部。语音识别部通过对当前的发话语音进行语音识别处理而生成当前的语音识别结果。机器翻译部通过将当前的语音识别结果从第1语言机器翻译为第2语言而生成当前的机器翻译结果。第1存储部存储形成当前对话的一个以上的发话的各个的对话历史。提取部通过从文本组提取短语而获得短语集合,所述文本组包含当前的语音识别结果和对话历史中包含的过去的语音识别结果及机器翻译结果。赋予部对属于短语集合的每个短语,赋予权重,该权重依赖于成为出现该短语的文本的基础的发话语音所关联的对话状态与当前的对话状态的差别。第2存储部存储多个第1语言的用例和该多个第1语言的用例的各个所关联的第2语言的对译用例。检索部通过从多个第1语言的用例检索包含短语集合中包含的任一短语的用例而获得命中用例集合。计算部对命中用例集合中包含的每个命中用例,计算与当前的语音识别结果的相似度。排序部基于权重及相似度计算命中用例集合中包含的每个命中用例的得分,基于该得分对命中用例集合中包含的命中用例进行排序。
根据上述构成的语音传译装置,可以呈现适当的用例。
附图说明
图1是例示第1实施方式所涉及的语音传译装置的方框图。
图2是例示图1的对话历史存储部中存储的对话历史的图。
图3是例示发话语音的内容、该发话语音的语音识别结果和该语音识别结果的机器翻译结果的图。
图4是例示图1的短语提取部提取的短语集合的图。
图5是例示对属于图4所例示的短语集合的每个短语赋予的权重的图。
图6是例示由图1的用例检索部检索的命中用例、该命中用例的权重得分、相似度得分及检索得分的图。
图7是例示由图1的用例排序部进行的命中用例的排序结果的图。
图8是表示由图1的呈现部进行的命中用例及机器翻译结果的显示例的图。
图9是例示图1的语音传译装置的工作的流程图。
图10是例示图9的用例检索处理的流程图。
图11是例示图1的对话历史存储部中存储的对话历史的图。
图12是例示发话语音的内容、该发话语音的语音识别结果和该语音识别结果的机器翻译结果的图。
图13是例示由第2实施方式所涉及的语音传译装置中的短语提取部提取的短语集合的图。
图14是例示由第2实施方式所涉及的语音传译装置中的短语提取部从图11所例示的机器翻译结果的第2位的候选文本及图12所例示的语音识别结果的第2位的候选文本进一步提取的短语集合的图。
图15是例示对属于图13或图14所例示的短语集合的每个短语赋予的权重的图。
图16是例示由第2实施方式所涉及的语音传译装置中的用例检索部检索的命中用例和该命中用例的权重得分、相似度得分及检索得分的图。
图17是例示由第2实施方式所涉及的语音传译装置中的用例排序部进行的命中用例的排序结果的图。
具体实施方式
以下,参照图面进行实施方式的说明。此外,以下,对与已经说明的要素相同或相似的要素标注相同或相似的符号,且重复的说明基本上省略。
以下的说明中,设为说话者A使用英语,说话者B使用日语。但是,说话者A及说话者B不限于此,可以使用各种语言。
(第1实施方式)
如图1所例示,第1实施方式所涉及的语音传译装置100具备:输入部101;语音识别部102;机器翻译部103;短语提取部104;权重赋予部105;用例检索部106;相似度计算部107;用例排序部108;对话用例存储部109;呈现部110;对话历史存储部111。
输入部101以数字语音信号的形式输入说话者的发话语音。作为输入部101,可以采用例如麦克风等现有的语音输入装置。输入部101将数字语音信号向语音识别部102输出。
语音识别部102从输入部101输入数字语音信号。语音识别部102通过对数字语音信号进行语音识别处理,生成表示上述发话语音的内容的文本形式的语音识别结果。例如在说话者A发话“It was a green bag.”的内容的情况下,语音识别部102可能生成与该发话内容完全一致的语音识别结果,也可能如图3所示的“It was a green back.”那样生成部分错误的语音识别结果。
语音识别部102例如可以利用LPC(Linear Predictive Coding:线性预测编码)分析、隐马尔可夫模型(HMM:Hidden Markov Model)、动态规划、神经网络、N-gram语言模型等各种技术,进行语音识别处理。语音识别部102将当前的语音识别结果向机器翻译部103及短语提取部104输出。
机器翻译部103从语音识别部102输入当前的语音识别结果。机器翻译部103通过将作为第1语言(也可以称为源语言)的文本的语音识别结果机器翻译为第2语言(也可以称为目标语言)的文本,生成文本形式的机器翻译结果。如图3所例示,在语音识别结果为“It was a green back.”的情况下,机器翻译部103可能生成“緑の後部でした。”这样的机器翻译结果。
机器翻译部103例如可以利用转换方式、基于用例的方式、基于统计的方式、中间语言方式等一般的机器翻译系统中利用的各种技术,进行机器翻译处理。机器翻译部103将当前的机器翻译结果向呈现部110输出。
通过后述的呈现部110,形成当前对话的一个以上发话的各个的对话历史按该发话在当前对话中的发生顺序被写入对话历史存储部111。这里,所谓对话,相当于按发生顺序排列的一个以上发话的序列。特别地,在相当于当前对话的序列中,发生顺序最新的要素是当前的发话,除此以外的要素是过去的发话。
对话历史存储部111以数据库形式存储所写入的对话历史。对话历史例如包含标识对应的发话语音的说话者的信息、该发话语音的语音识别结果、该语音识别结果的机器翻译结果及取代该机器翻译结果而选择的用例及其对译用例(这些详细情况将后述)中一部分或全部的要素。例如,在对话历史存储部111,存储图2所示的对话历史。在对话历史存储部111存储的对话历史由短语提取部104及权重赋予部105根据需要而读出。
短语提取部104从语音识别部102输入当前的语音识别结果。短语提取部104进而从对话历史存储部111读出对话历史。具体地,短语提取部104输入对话历史中所包含的过去的第1语言的发话语音的语音识别结果以及过去的第2语言的发话语音的语音识别结果的第1语言的机器翻译结果。短语提取部104通过从包含这些语音识别结果及机器翻译结果的文本组提取短语,获得短语集合。短语提取部104将短语集合向权重赋予部105输出。
短语提取部104例如可以利用词素解析、单词词典等来提取短语。此外,例如也可以将英语中的“the”、“a”这样在任何句子中都共同出现的一般(非特征)单词登记为停止词。短语提取部104通过将停止词排除后提取短语,可以调整使得属于短语集合的短语数不会过大。
例如,短语提取部104通过从图2及图3所示的说话者A的发话语音的语音识别结果以及图2所示的说话者B的发话语音的语音识别结果的机器翻译结果提取短语,获得图4所示的短语集合。具体地,短语提取部104从说话者B的过去的发话语音的语音识别结果的机器翻译结果提取“color”等短语,从说话者A的过去的发话语音的语音识别结果提取“lost”等短语,从说话者A的当前发话语音的语音识别结果提取“green”等短语。
权重赋予部105从短语提取部104输入短语集合,从对话历史存储部111读出对话历史。权重赋予部105对属于短语集合的每个短语,赋予权重,该权重依赖于成为出现该短语的文本(即,语音识别结果或机器翻译结果)的基础的发话语音所关联的对话状态(例如,该发话语音的说话者、该发话语音在当前对话中的发生顺序)与当前对话状态的差别。
此外,权重赋予部105,在短语遍及多个文本而出现的情况下,通过将依赖于成为该多个文本的各个的基础的发话语音所关联的对话状态与当前对话状态的差别的权重进行合计,可以计算对该短语赋予的权重。权重赋予部105将短语集合和对属于该短语集合的每个短语赋予的权重向用例检索部106输出。
具体地,权重赋予部105对属于图4所示短语集合的每个短语,可以如图5所例示那样赋予权重。
短语“green”出现于说话者A的发生顺序3的发话语音的语音识别结果中,该发话所关联的对话状态与当前的对话状态一致。权重赋予部105对短语“green”赋予依赖于这些对话状态的差别的权重“1”。
短语“color”出现于说话者B的发生顺序2的发话语音的语音识别结果的机器翻译结果中,该发话所关联的对话状态与当前的对话状态相比,说话者不同,发话的发生顺序是前一个。权重赋予部105对短语“color”赋予依赖于这些对话状态的差别的权重“0.5”。
短语“lost”出现于说话者A的发生顺序1的发话语音的语音识别结果中,该发话所关联的对话状态与当前的对话状态相比,说话者相同,但是发话的发生顺序是前两个。权重赋予部105对短语“lost”赋予依赖于这些对话状态的差别的权重“0.25”。
短语“bag”出现于说话者A的发生顺序1的发话语音的语音识别结果中,该发话所关联的对话状态与当前的对话状态相比,说话者相同,但是发话的发生顺序为前两个。短语“bag”还出现于说话者B的发生顺序2的发话语音的语音识别结果的机器翻译结果中,该发话所关联的对话状态与当前的对话状态相比,说话者不同,发话的发生顺序为前一个。权重赋予部105对短语“bag”赋予通过将依赖于这些对话状态的差别的权重“0.25”及“0.5”进行合计而获得的权重“0.75”。
对话用例存储部109以数据库形式存储多个第1语言的用例和该多个第1语言的用例的各个所关联的第2语言的对译用例。对话用例存储部109中存储的用例及其对译用例根据需要由用例检索部106读出。
用例检索部106从权重赋予部105输入短语集合和对属于该短语集合的每个短语赋予的权重。用例检索部106通过从对话用例存储部109中存储的多个第1语言的用例检索包含短语集合中所含的任一短语的第1语言的用例,而获得命中用例集合。用例检索部106将命中用例集合向相似度计算部107输出。
用例检索部106能够通过采用任意的文本检索技术,从对话用例存储部109中存储的多个第1语言的用例检索包含短语集合中所含的任一短语的用例。例如,用例检索部106可以通过逐次读入对话用例存储部109中存储的多个第1语言的用例而对全部用例进行关键字匹配,也可以作成转置索引而进行索引。
进而,用例检索部106对命中用例集合中所包含的每个命中用例,计算权重得分。具体地,用例检索部106将对属于上述短语集合的短语中预定命中用例所包含的至少一个短语赋予的权重进行合计,由此计算该命中用例的权重得分。用例检索部106将命中用例集合及权重得分向用例排序部108输出。
例如,在图6所示的“My bag is green one.”的命中用例中,包含短语“bag”及短语“green”。因此,用例检索部106通过将对短语“bag”赋予的权重“0.75”和对短语“green”赋予的权重“1”进行合计,来计算上述命中用例的权重“1.75”。
相似度计算部107从用例检索部106输入命中用例集合,从语音识别部102输入当前的语音识别结果。相似度计算部107对命中用例集合所包含的每个命中用例,计算与当前的语音识别结果的相似度。相似度计算部107将各命中用例的相似度向用例排序部108输出。
相似度计算部107能够通过采用任意的相似文检索技术,来计算相似度。例如,相似度计算部107可以利用编辑距离或同义词词典而计算相似度,也可以合计通过对当前的语音识别结果进行单词划分而获得的一个以上的单词的各个在命中用例中出现的次数,由此计算相似度。
图6中按命中用例集合所包含的每个命中用例,例示了与图3所示的当前的语音识别结果“It was a green back.”的相似度。图6的相似度使用标准化成了0以上1以下的编辑距离进行计算。具体地,相似度计算部107按照下述公式(1),计算第i(i表示索引)个命中用例Hi与语音识别结果T的相似度(i)。
【数学式1】
在数学式(1)中,WordLength(t)是返回文本t的单词长的函数,Max(a,b)是返回值a及值b中大的一方的函数。
用例排序部108从用例检索部106输入命中用例集合和每个命中用例的权重得分,从相似度计算部107输入每个命中用例的相似度。用例排序部108对命中用例集合所包含的每个命中用例,赋予基于权重得分及相似度进行预定的运算而获得的检索得分。例如,如图6所示,用例排序部108可以采用通过权重得分及相似度的乘法运算而获得的积作为命中用例的检索得分。然后,如图7所例示,用例排序部108按检索得分的降序对命中用例进行排序。用例排序部108将命中用例的排序结果向呈现部110输出。
呈现部110从语音识别部102输入当前的语音识别结果,从机器翻译部103输入当前的机器翻译结果,从用例排序部108输入命中用例的排序结果。如图8所例示,呈现部110将当前的语音识别结果和命中用例的排序结果的一部分或全部向当前的说话者呈现。呈现部110可以采用例如显示器等显示装置显示这些文本,也可以采用例如扬声器等语音输出装置将这些文本语音输出。
具体地,呈现部110可以从命中用例的排序结果中选定第1位到第r位(r是任意的自然数,可以预定也可以由用户(例如任一说话者)指定)的命中用例来呈现,也可以选定检索得分为阈值(其可以预定也可以由用户指定)以上的命中用例来呈现。或者,呈现部110也可以基于多个条件的组合来选定呈现命中用例的排序结果中的哪个。
若当前的说话者例如使用输入装置选择所呈现的多个文本的某一个,则呈现部110将所选择的文本的对译文本(即,当前的机器翻译结果或所选择的用例的对译用例)向当前的说话者的对话方呈现(典型地为显示或语音输出)。进而,呈现部110在当前的说话者选择了当前的语音识别结果的情况下,将标识该说话者的信息、当前的语音识别结果及当前的机器翻译结果写入对话历史存储部111。另一方面,呈现部110在当前的说话者选择了所呈现的用例中的某一个的情况下,将标识该说话者的信息及所选择的用例及其对译用例写入对话历史存储部111。
语音传译装置100如图9所例示进行工作。通过任一说话者发话来开始图9的处理(步骤S00)。
输入部101以数字语音信号S的形式输入说话者的发话语音(步骤S01)。语音识别部102通过对在步骤S01中输入的数字语音信号S进行语音识别处理,生成表示上述发话语音的内容的语音识别结果T(步骤S02)。在步骤S02之后,进行用例检索处理(步骤S03)。
用例检索处理(步骤S03)的详细情况如图10所例示。若用例检索处理开始(步骤A00),则短语提取部104从文本组提取短语,由此作成短语集合V,该文本组包含在步骤S02生成的语音识别结果T以及对话历史存储部111中存储的对话历史所包含的过去的语音识别结果及机器翻译结果(步骤A01)。
在步骤A01之后,判定短语集合V是否为空集合(即,步骤A01中一个短语也未提取出)(步骤A02)。在短语集合V为空集合的情况下,图10的用例检索处理结束(步骤A10),处理前进至图9的步骤S04。另一方面,在短语集合V不是空集合的情况下,处理前进至步骤A03。
在步骤A03,权重赋予部105对属于步骤A01中作成的短语集合V的每个短语,赋予权重,该权重依赖于成为出现该短语的文本(即,语音识别结果或机器翻译结果)的基础的发话语音所关联的对话状态(例如,该发话语音的说话者、该发话语音在当前对话中的发生顺序)与当前对话状态的差别。
用例检索部106从对话用例存储部109中存储的多个第1语言的用例检索包含步骤A01中作成的短语集合中包含的任一短语的用例,由此作成命中用例集合L(步骤A04)。
在步骤A04之后,判定命中用例集合L是否为空集合(即,步骤A04中一个用例也未检索到)(步骤A05)。在命中用例集合L为空集合的情况下,图10的用例检索处理结束(步骤A10),处理前进至图9的步骤S04。另一方面,在命中用例集合L不是空集合的情况下,处理前进至步骤A06。
在步骤A06,用例检索部106对在步骤A04作成的命中用例集合L中包含的每个命中用例计算权重得分,相似度计算部107对命中用例集合L中包含的每个命中用例,计算与在图9的步骤S02生成的语音识别结果T的相似度。
用例排序部108对在步骤A04作成的命中用例集合L中包含的每个命中用例,赋予通过基于在步骤A06计算的权重得分及相似度进行预定的运算而获得的检索得分(步骤A07)。用例排序部108按照在步骤A07赋予的检索得分的降序,对在步骤A04作成的命中用例集合中包含的命中用例进行排序(A08)。
呈现部110将在步骤A08获得的命中用例的排序结果中的一部分或全部和在步骤S02生成的语音识别结果T向当前的说话者呈现(A09)。在步骤A09之后,图10的用例检索处理结束(步骤A10),处理前进至图9的步骤S04。
在步骤S04,判定图9的步骤A09中输出的命中用例的某一个是否被选择。在命中用例被选择了的情况下,处理前进至步骤S05,否则(特别地,在步骤A09中输出的语音识别结果T被选择了的情况下),处理前进至步骤S06。
在步骤S05,呈现部110将所选择的用例的对译用例向当前的说话者的对话方呈现。在步骤S06,呈现部110将在步骤S02生成的语音识别结果T的机器翻译结果向当前的说话者的对话方呈现。此外,机器翻译结果也可以与例如用例检索处理(步骤S03)并行地由机器翻译部103生成。
呈现部110将对话历史写入对话历史存储部111(步骤S07)。具体地,在步骤S07之前进行了步骤S05的处理的情况下,呈现部110将表示当前的说话者的信息及所选择的用例及其对译用例写入对话历史存储部111。另一方面,在步骤S07之前进行了步骤S06的处理的情况下,呈现部110将标识当前的说话者的信息、在步骤S02生成的语音识别结果T及机器翻译结果写入对话历史存储部111。在步骤S07之后,图9的处理结束(步骤S08)。
如以上说明,第1实施方式所涉及的语音传译装置从文本组提取短语,对所提取的短语赋予依赖于成为出现该短语的文本的基础的发话语音所关联的对话状态与当前对话状态的差别的权重,所述文本组包含当前的发话语音的语音识别结果及对话历史中所含的过去的文本。然后,该语音传译装置使用至少基于上述权重计算的得分,选定向当前的说话者呈现的用例。从而,根据该语音传译装置,可以优先地呈现适于当前的对话状态的用例。
(第2实施方式)
前述的第1实施方式所涉及的语音传译装置从包含当前或过去的发话语音的语音识别结果及其机器翻译结果的文本组提取短语。一般地,语音识别处理选定多个候选文本中被评价为最适当的第1位的候选文本作为语音识别结果,机器翻译处理选定多个候选文本中被评价为最适当的第1位的候选文本作为机器翻译结果。第2实施方式所涉及的语音传译装置也从未被选定为语音识别结果或机器翻译结果的(即,第2位以后的)候选文本提取短语。
本实施方式所涉及的语音传译装置与图1所例示的语音传译装置100相比,在短语提取部104及权重赋予部105的工作的一部分不同。
短语提取部104从语音识别部102输入当前的第1语言的发话语音的语音识别结果及其第2位以后的候选文本。进而,短语提取部104还从对话历史存储部111读出对话历史。具体地,短语提取部104输入对话历史所包含的过去的第1语言的发话语音的语音识别结果及其第2位以后的候选文本以及过去的第2语言的发话语音的语音识别结果的第1语言的机器翻译结果及其第2位以后的候选文本。短语提取部104从包含上述语音识别结果及其第2位以后的候选文本以及上述机器翻译结果及其第2位以后的候选文本的文本组提取短语,由此获得短语集合。短语提取部104向权重赋予部105输出短语集合。
例如,短语提取部104从图11所示的说话者A的发话语音的语音识别结果的机器翻译结果以及图12所示的说话者B的发话语音的语音识别结果提取短语,由此获得图13所示的短语集合。具体地,短语提取部104从说话者A的过去的发话语音的语音识别结果的机器翻译结果提取“写真”等短语,从说话者B的当前的发话语音的语音识别结果提取“最新”等短语。进而,如图14所例示,短语提取部104从图11所示的说话者A的发话语音的语音识别结果的机器翻译结果的第2位的候选文本“ここで写真撮影をしてもいいですか?”提取“撮影”等短语,从图12所示的说话者B的发话语音的语音识别结果的第2位的候选文本“写真の水泳は講演で頂いております。”提取“写真”等短语。
权重赋予部105从短语提取部104输入短语集合,从对话历史存储部111读出对话历史。权重赋予部105对属于短语集合的每个短语,赋予权重,该权重依赖于成为出现该短语的文本(即,语音识别结果或其第2位以后的候选文本或机器翻译结果或其第2位以后的候选文本)的基础的发话语音所关联的对话状态与当前的对话状态的差别。在出现短语的文本是语音识别结果或机器翻译结果的第2位以后的候选文本的情况下,该权重例如还可以依赖于该候选顺序进行调整。
此外,如果短语遍及多个文本而出现,则权重赋予部105将依赖于成为各个文本的基础的发话语音所关联的对话状态与当前的对话状态的差别的权重进行合计,由此可以计算对该短语赋予的权重。权重赋予部105将短语集合和对属于该短语集合的每个短语赋予的权重向用例检索部106输出。
具体地,权重赋予部105可以如图15所例示对属于图13及图14所示的短语集合的每个短语赋予权重。
短语“写真”出现于发生顺序1的说话者A的发话语音的语音识别结果的机器翻译结果中,该发话所关联的对话状态与当前的对话状态相比,说话者不同,发话的发生顺序为前一个。依赖于该对话状态的差别的权重为“0.5”。进而,短语“写真”还出现于发生顺序2的说话者B的发话语音的语音识别结果的第2位的候选文本中,该发话所关联的对话状态与当前的对话状态一致。依赖于该对话状态的差别的权重为“1.0”,但是,由于短语“写真”不是出现于语音识别结果,而是出现于其第2位的候选文本中,因此上述权重被调整为“0.5”。从而,权重赋予部105对短语“写真”赋予通过将依赖于这些对话状态的差别的权重“0.5”及“0.5”相加而获得的权重“1.0”。
短语“拍摄”出现于发生顺序1的说话者A的发话语音的语音识别结果的机器翻译结果的第2位的候选文本中,该发话所关联的对话状态与当前的对话状态相比,说话者不同,发话的发生顺序为前一个。依赖于该对话状态的差别的权重为“0.5”,但是,由于短语“撮影”不是出现于机器翻译结果,而是出现于其第2位的候选文本出现,因此上述权重被调整为“0.4”。从而,权重赋予部105对短语“撮影”赋予依赖于这些对话状态的差别的权重“0.4”。
用例检索部106、相似度计算部107及用例排序部108的工作与第1实施方式中说明的相同。
即,用例检索部106通过从对话用例存储部109中存储的多个第1语言的用例检索包含短语集合中所包含的任一短语的用例,获得图16所例示的命中用例集合。进而,如图16所例示,用例检索部106对命中用例集合中所包含的每个命中用例,计算权重得分。如图16所例示,相似度计算部107对命中用例集合中所包含的每个命中用例,计算与当前的语音识别结果的相似度。
例如,在图16所示的“許可のない写真撮影はご遠慮いただけますか。”这样的命中用例中,包含短语“写真”及短语“撮影”。因此,用例检索部106通过将对短语“写真”赋予的权重“1.0”与对短语“撮影”赋予的权重“0.4”相加,来计算上述命中用例的权重“1.4”。
用例排序部108对命中用例集合中所包含的每个命中用例,赋予通过基于权重得分及相似度进行预定的运算而获得的检索得分。例如,如图16所示,用例排序部108可以采用通过权重得分及相似度的乘法运算而获得的积作为命中用例的检索得分。然后,如图17所例示,用例排序部108按检索得分的降序对命中用例进行排序。
如以上说明,第2实施方式所涉及的语音传译装置从除了发话语音的语音识别结果及其机器翻译结果外还包含它们的第2位以后的候选文本的文本组提取短语。从而,根据该语音传译装置,与第1实施方式相比,可以基于丰富的文本提取短语,计算对短语赋予的权重。
上述各实施方式的处理的至少一部分也可以使用计算机作为硬件来实现。这里,计算机不限于个人计算机,例如也可以是运算处理装置、微控制器等可执行程序的任意的装置。另外,计算机不限于一个装置,也可以是多个装置例如通过因特网、LAN等网络连接而成的系统。另外,也可以基于在计算机中安装的程序内的指示,由该计算机的中间件(例如,OS、数据库管理软件、网络等)执行上述各实施方式的处理的至少一部分。
实现上述处理的程序也可以保存于可由计算机读取的存储介质。程序作为可安装形式的文件或可执行形式的文件保存于存储介质。程序可以汇总保存于一个存储介质,也可以在多个存储介质分割保存。存储介质只要可以保存程序且可由计算机读取即可。存储介质例如是磁盘、软盘、硬盘、光盘(CD-ROM、CD-R、DVD等)、光磁盘(MO等)、半导体存储器等。
另外,也可以将实现上述处理的程序保存于与网络连接的计算机(服务器)上,经由网络下载到计算机(客户机)。
虽然说明了本发明的几种实施方式,但是这些实施方式只是作为例子呈现的,而并非要限定发明的范围。这些新实施方式可以其他各种形态实施,在不脱离发明的主旨的范围内,可以进行各种省略、置换、变更。这些实施方式和/或其变形包含于发明的范围和/或主旨,也包含于权利要求所记载的发明及其均等的范围。
Claims (8)
1.一种语音传译装置,具备:
语音识别部,其通过对当前的发话语音进行语音识别处理而生成当前的语音识别结果;
机器翻译部,其通过将所述当前的语音识别结果从第1语言机器翻译为第2语言而生成当前的机器翻译结果;
第1存储部,其存储形成当前对话的一个以上的发话的各个的对话历史;
提取部,其通过从文本组提取短语而获得短语集合,所述文本组包含所述当前的语音识别结果和所述对话历史中包含的过去的语音识别结果及机器翻译结果;
赋予部,其对属于所述短语集合的每个短语,赋予权重,该权重依赖于成为出现该短语的文本的基础的发话语音所关联的对话状态与当前的对话状态的差别;
第2存储部,其存储多个所述第1语言的用例和该多个第1语言的用例的各个所关联的所述第2语言的对译用例;
检索部,其通过从所述多个第1语言的用例检索包含所述短语集合中包含的任一短语的用例而获得命中用例集合;
计算部,其对所述命中用例集合中包含的每个命中用例,计算与所述当前的语音识别结果的相似度;以及
排序部,其基于所述权重及所述相似度计算所述命中用例集合中包含的每个命中用例的得分,基于该得分对所述命中用例集合中包含的命中用例进行排序。
2.权利要求1所述的语音传译装置,其中,
对预定的短语赋予的权重依赖于成为出现该短语的文本的基础的发话语音的说话者与所述当前的发话语音的说话者的差别。
3.权利要求1所述的语音传译装置,其中,
对预定的短语赋予的权重依赖于成为出现该短语的文本的基础的发话语音在所述当前对话中的发生顺序与所述当前的发话语音在该当前对话中的发生顺序的差别。
4.权利要求1所述的语音传译装置,其中,
如果预定的短语出现于多个文本,则所述赋予部通过将依赖于成为该多个文本的各个的基础的发话语音所关联的对话状态与所述当前的对话状态的差别的权重进行合计,来计算对该短语赋予的权重。
5.权利要求1所述的语音传译装置,其中,
所述文本组包含所述当前的语音识别结果的第2位以后的候选文本、所述过去的语音识别结果的第2位以后的候选文本以及所述过去的机器翻译结果的第2位以后的候选文本中的至少一个。
6.权利要求5所述的语音传译装置,其中,
对预定的短语赋予的权重,在出现该短语的文本为所述当前的语音识别结果的第2位以后的候选文本、所述过去的语音识别结果的第2位以后的候选文本以及所述过去的机器翻译结果的第2位以后的候选文本中的任一个的情况下,还依赖于该文本的候选顺序。
7.一种语音传译方法,包括:
通过对当前的发话语音进行语音识别处理而生成当前的语音识别结果;
通过将所述当前的语音识别结果从第1语言机器翻译为第2语言而生成当前的机器翻译结果;
存储形成当前对话的一个以上的发话的各个的对话历史;
通过从文本组提取短语而获得短语集合,所述文本组包含所述当前的语音识别结果和所述对话历史中包含的过去的语音识别结果及机器翻译结果;
对属于所述短语集合的每个短语,赋予权重,该权重依赖于成为出现该短语的文本的基础的发话语音所关联的对话状态与当前的对话状态的差别;
存储多个所述第1语言的用例和该多个第1语言的用例的各个所关联的所述第2语言的对译用例;
通过从所述多个第1语言的用例检索包含所述短语集合中包含的任一短语的用例而获得命中用例集合;
对所述命中用例集合中包含的每个命中用例,计算与所述当前的语音识别结果的相似度;以及
基于所述权重及所述相似度计算所述命中用例集合中包含的每个命中用例的得分,基于该得分对所述命中用例集合中包含的命中用例进行排序。
8.一种语音传译程序,其使计算机作为以下单元起作用:
通过对当前的发话语音进行语音识别处理而生成当前的语音识别结果的单元;
通过将所述当前的语音识别结果从第1语言机器翻译为第2语言而生成当前的机器翻译结果的单元;
存储形成当前对话的一个以上的发话的各个的对话历史的单元;
通过从文本组提取短语而获得短语集合的单元,所述文本组包含所述当前的语音识别结果和所述对话历史中包含的过去的语音识别结果及机器翻译结果;
对属于所述短语集合的每个短语赋予权重的单元,该权重依赖于成为出现该短语的文本的基础的发话语音所关联的对话状态与当前的对话状态的差别;
存储多个所述第1语言的用例和该多个第1语言的用例的各个所关联的所述第2语言的对译用例的单元;
通过从所述多个第1语言的用例检索包含所述短语集合中包含的任一短语的用例而获得命中用例集合的单元;
对所述命中用例集合中包含的每个命中用例计算与所述当前的语音识别结果的相似度的单元;以及
基于所述权重及所述相似度计算所述命中用例集合中包含的每个命中用例的得分,基于该得分对所述命中用例集合中包含的命中用例进行排序的单元。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013-267918 | 2013-12-25 | ||
JP2013267918A JP2015125499A (ja) | 2013-12-25 | 2013-12-25 | 音声通訳装置、音声通訳方法及び音声通訳プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104750677A true CN104750677A (zh) | 2015-07-01 |
Family
ID=53400225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410815097.1A Withdrawn CN104750677A (zh) | 2013-12-25 | 2014-12-23 | 语音传译装置、语音传译方法及语音传译程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150178274A1 (zh) |
JP (1) | JP2015125499A (zh) |
CN (1) | CN104750677A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885734A (zh) * | 2017-11-13 | 2018-04-06 | 深圳市沃特沃德股份有限公司 | 语言翻译方法和装置 |
WO2019090781A1 (zh) * | 2017-11-13 | 2019-05-16 | 深圳市沃特沃德股份有限公司 | 语言翻译方法、装置和翻译设备 |
CN110136720A (zh) * | 2018-02-05 | 2019-08-16 | 株式会社东芝 | 编辑支援装置、编辑支援方法以及程序 |
CN111813902A (zh) * | 2020-05-21 | 2020-10-23 | 车智互联(北京)科技有限公司 | 智能应答方法、系统及计算设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6198879B1 (ja) * | 2016-03-30 | 2017-09-20 | 株式会社リクルートライフスタイル | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム |
KR102564008B1 (ko) * | 2016-09-09 | 2023-08-07 | 현대자동차주식회사 | 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법 |
KR102449875B1 (ko) * | 2017-10-18 | 2022-09-30 | 삼성전자주식회사 | 음성 신호 번역 방법 및 그에 따른 전자 장치 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
EP0859332A1 (en) * | 1997-02-12 | 1998-08-19 | STMicroelectronics S.r.l. | Word recognition device and method |
JP2001101187A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
US7353165B2 (en) * | 2002-06-28 | 2008-04-01 | Microsoft Corporation | Example based machine translation system |
US7778830B2 (en) * | 2004-05-19 | 2010-08-17 | International Business Machines Corporation | Training speaker-dependent, phrase-based speech grammars using an unsupervised automated technique |
GB0507036D0 (en) * | 2005-04-07 | 2005-05-11 | Ibm | Method and system for language identification |
JP4087400B2 (ja) * | 2005-09-15 | 2008-05-21 | 株式会社東芝 | 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム |
WO2007055181A1 (ja) * | 2005-11-11 | 2007-05-18 | Matsushita Electric Industrial Co., Ltd. | 対話支援装置 |
JP4158937B2 (ja) * | 2006-03-24 | 2008-10-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 字幕修正装置 |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US8949122B2 (en) * | 2008-02-25 | 2015-02-03 | Nuance Communications, Inc. | Stored phrase reutilization when testing speech recognition |
JP5467043B2 (ja) * | 2008-06-06 | 2014-04-09 | 株式会社レイトロン | 音声認識装置、音声認識方法および電子機器 |
WO2010046782A2 (en) * | 2008-10-24 | 2010-04-29 | App Tek | Hybrid machine translation |
US8442824B2 (en) * | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
US8543563B1 (en) * | 2012-05-24 | 2013-09-24 | Xerox Corporation | Domain adaptation for query translation |
US8983840B2 (en) * | 2012-06-19 | 2015-03-17 | International Business Machines Corporation | Intent discovery in audio or text-based conversation |
-
2013
- 2013-12-25 JP JP2013267918A patent/JP2015125499A/ja active Pending
-
2014
- 2014-12-23 US US14/581,944 patent/US20150178274A1/en not_active Abandoned
- 2014-12-23 CN CN201410815097.1A patent/CN104750677A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885734A (zh) * | 2017-11-13 | 2018-04-06 | 深圳市沃特沃德股份有限公司 | 语言翻译方法和装置 |
WO2019090781A1 (zh) * | 2017-11-13 | 2019-05-16 | 深圳市沃特沃德股份有限公司 | 语言翻译方法、装置和翻译设备 |
CN107885734B (zh) * | 2017-11-13 | 2021-07-20 | 深圳市沃特沃德股份有限公司 | 语言翻译方法和装置 |
CN110136720A (zh) * | 2018-02-05 | 2019-08-16 | 株式会社东芝 | 编辑支援装置、编辑支援方法以及程序 |
CN110136720B (zh) * | 2018-02-05 | 2022-10-04 | 株式会社东芝 | 编辑支援装置、编辑支援方法以及程序 |
CN111813902A (zh) * | 2020-05-21 | 2020-10-23 | 车智互联(北京)科技有限公司 | 智能应答方法、系统及计算设备 |
CN111813902B (zh) * | 2020-05-21 | 2024-02-23 | 车智互联(北京)科技有限公司 | 智能应答方法、系统及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
US20150178274A1 (en) | 2015-06-25 |
JP2015125499A (ja) | 2015-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
US10176804B2 (en) | Analyzing textual data | |
US11531818B2 (en) | Device and method for machine reading comprehension question and answer | |
Siu et al. | Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery | |
Wu et al. | Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels | |
JP4571822B2 (ja) | テキストおよび音声の分類のための言語モデルの判別トレーニング | |
JP7324354B2 (ja) | マルチメディア会話からの意図発見のためのシステムおよび方法 | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
Iancu | Evaluating Google speech-to-text API's performance for Romanian e-learning resources | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
JPWO2009101837A1 (ja) | 記号挿入装置および記号挿入方法 | |
Kopparapu | Non-linguistic analysis of call center conversations | |
Kaushik et al. | Automatic audio sentiment extraction using keyword spotting. | |
Moyal et al. | Phonetic search methods for large speech databases | |
Rajendran et al. | Language dialect based speech emotion recognition through deep learning techniques | |
Koudounas et al. | Italic: An italian intent classification dataset | |
JP2010277036A (ja) | 音声データ検索装置 | |
Liu et al. | Supra-Segmental Feature Based Speaker Trait Detection. | |
Andra et al. | Contextual keyword spotting in lecture video with deep convolutional neural network | |
Zajíc et al. | First insight into the processing of the language consulting center data | |
JP6067616B2 (ja) | 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム | |
CN109344221B (zh) | 录音文本生成方法、装置及设备 | |
JP6309852B2 (ja) | 強調位置予測装置、強調位置予測方法及びプログラム | |
JP6002598B2 (ja) | 強調位置予測装置、その方法、およびプログラム | |
US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C04 | Withdrawal of patent application after publication (patent law 2001) | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20150701 |