JP2010164918A

JP2010164918A - 音声翻訳装置、および方法

Info

Publication number: JP2010164918A
Application number: JP2009009262A
Authority: JP
Inventors: Kazuo Sumita; 一男住田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-01-19
Filing date: 2009-01-19
Publication date: 2010-07-29
Anticipated expiration: 2029-01-19
Also published as: JP4966324B2

Abstract

【課題】音声認識精度を向上させるとともに、翻訳精度の低下を防止することができる音声翻訳装置、および方法を提供する。
【解決手段】音声認識部１１０が、第１音声認識辞書記憶部４２に記憶された第１デフォルト辞書及び第１カスタマイズ辞書を用いて第１発話音声を認識し、第１認識文字列を生成し、検索部１２０が、第１認識文字列の誤認識文字列に発音が類似する単語又は単語列を、訂正候補として、第１翻訳辞書を記憶する第１翻訳辞書記憶部４６から検索し、受付部１３０が、誤認識文字列の選択の受付、訂正候補の中から訂正単語の選択の受付を行い、登録部１４０が、訂正単語を第１カスタマイズ辞書として第１音声認識辞書記憶部４２に登録し、翻訳部１５０が、第１翻訳辞書を用いて、誤認識文字列を訂正単語で訂正した第１認識文字列を第２言語に翻訳し、出力制御部１６０が、第１認識文字列、訂正候補、及び翻訳結果を出力させる。
【選択図】図１

Description

本発明は、音声翻訳装置、および方法に関する。

近年、文化や経済のグローバル化に伴い、異なる言語を母語とする人同士のコミュニケーションの機会が増加している。このため、自然言語処理技術、音声認識処理技術、機械翻訳技術などを採用し、異なる言語を母語とする人同士のコミュニケーションを支援する音声翻訳装置への期待が高まっている。

音声認識処理技術に関しては、認識精度が向上しているものの、その認識結果には少なからず誤りが存在する。特に、音声認識用の辞書に登録されていない未知語を含む発話をユーザが行った場合、当該未知語の箇所についても、辞書に登録されている単語を用いた音声認識処理が行われるため、認識誤りとなる可能性が高い。

このため特許文献１では、音声データ検索用のＷＥＢサイトシステムにおいて、ユーザ端末機から、検索サーバが行った音声認識処理の認識結果に対する認識誤り箇所の訂正が行われた場合に、検索サーバが、認識誤り箇所の訂正に用いられた単語を、当該単語の発音とともに、音声認識用の辞書に登録する技術が開示されている。

特開２００８−１５８５１１号公報

ところで、音声認識用の辞書の語彙数を増加させると、音声認識処理時間が伸張するほか、音声認識処理時の解析の曖昧性が増加するため、必ずしも認識精度の向上に繋がるとは限らない。従って、語彙数の増加により音声認識精度を向上させるのであれば、必要最小限の単語の追加に留めることが好ましい。

しかしながら、上述した従来技術では、多数のユーザにより訂正が行われる結果、必要以上の単語が音声認識用の辞書に登録されてしまい、却って認識精度が低下してしまう可能性がある。

また、上述した従来技術では、訂正に用いる単語は各ユーザが自由に設定することができる。従って、上述した従来技術の手法を音声翻訳装置に用いてしまうと、音声認識用の辞書に追加された単語が、機械翻訳用の辞書に登録されていない場合、当該単語の翻訳を行うことができず、翻訳精度が低下してしまうことになる。

本発明は、上記事情に鑑みてなされたものであり、音声認識精度を向上させるとともに、翻訳精度の低下を防止することができる音声翻訳装置、および方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の一態様にかかる音声翻訳装置は、第１言語の音声認識に用いるデフォルトの音声認識辞書である第１デフォルト辞書を記憶するとともに、前記第１言語の音声認識に用いるカスタマイズ用の音声認識辞書である第１カスタマイズ辞書が記憶される第１音声認識辞書記憶部と、前記第１言語から第２言語への翻訳に用いる第１翻訳辞書を記憶する第１翻訳辞書記憶部と、前記第１言語の発話音声である第１発話音声の入力を受け付ける音声受付部と、前記第１デフォルト辞書及び前記第１カスタマイズ辞書を用いて前記第１発話音声を認識し、第１認識文字列を生成する音声認識部と、前記第１認識文字列を出力する出力部と、出力された前記第１認識文字列の誤認識箇所の文字列である誤認識文字列の選択を受け付ける第１受付部と、前記誤認識文字列に発音が類似する単語又は単語列を、前記誤認識文字列の訂正候補として、前記第１翻訳辞書記憶部から検索する検索部と、前記訂正候補を前記出力部に出力させる第１出力制御部と、出力された前記訂正候補の中から前記誤認識文字列の訂正に用いる単語又は単語列である訂正単語の選択を受け付ける第２受付部と、前記訂正単語を、前記第１カスタマイズ辞書に登録する登録部と、前記第１翻訳辞書を用いて、前記誤認識文字列を前記訂正単語で訂正し、前記第２言語に翻訳する翻訳部と、前記出力部に翻訳結果を出力させる第２出力制御部と、を備えることを特徴とする。

また、本発明の別の態様にかかる音声翻訳方法は、音声受付部が、第１言語の発話音声である第１発話音声の入力を受け付ける音声受付ステップと、音声認識部が、第１音声認識辞書記憶部に記憶された前記第１言語の音声認識に用いるデフォルトの音声認識辞書である第１デフォルト辞書及び、前記第１言語の音声認識に用いるカスタマイズ用の音声認識辞書である第１カスタマイズ辞書を用いて前記第１発話音声を認識し、第１認識文字列を生成する音声認識ステップと、出力制御部が、前記第１認識文字列を出力部に出力させる第１出力制御ステップと、受付部が、前記出力部に出力された前記第１認識文字列の誤認識箇所の文字列である誤認識文字列の選択を受け付ける第１受付ステップと、検索部が、前記誤認識文字列に発音が類似する単語又は単語列を、前記誤認識文字列の訂正候補として、前記第１言語から第２言語への翻訳に用いる第１翻訳辞書を記憶する第１翻訳辞書記憶部から検索する検索ステップと、出力制御部が、前記訂正候補を前記出力部に出力させる第２出力制御ステップと、受付部が、前記出力部に出力された前記訂正候補の中から前記誤認識文字列の訂正に用いる単語又は単語列である訂正単語の選択を受け付ける第２受付ステップと、登録部が、前記訂正単語を、前記第１カスタマイズ辞書に登録する登録ステップと、翻訳部が、前記第１翻訳辞書を用いて、前記誤認識文字列を前記訂正単語で訂正し、前記第２言語に翻訳する翻訳ステップと、出力制御部が、前記出力部に翻訳結果を出力させる第３出力制御ステップと、を含むことを特徴とする。

本発明によれば、発話音声から生成された認識文字列のうち、誤認識箇所の文字列である誤認識文字列を訂正した訂正単語のみが音声認識辞書に登録されるため、音声認識辞書に追加登録される単語を必要最小限に留めることができ、音声認識精度を向上させることができるという効果を奏する。また本発明によれば、音声認識辞書に登録される訂正単語は音声翻訳辞書の単語であるため、音声認識辞書に登録された単語を必ず翻訳することができ、音声認識精度の向上に伴う翻訳精度の低下を防止することができるという効果を奏する。

本実施の形態の音声翻訳装置の構成の一例を示すブロック図である。本実施の形態の第１デフォルト辞書の一例を示す図である。本実施の形態の第２デフォルト辞書の一例を示す図である。本実施の形態の第１翻訳辞書の一例を示す図である。本実施の形態の第２翻訳辞書の一例を示す図である。本実施の形態の音声認識結果の一例を説明するための図である。本実施の形態の訂正候補の検索結果の一例を説明するための図である。本実施の形態のコンフュージョン行列の一例を示す図である。本実施の形態の類似度の演算例の一例を説明するための図である。本実施の形態の類似度の演算例の一例を説明するための図である。本実施の形態の第１デフォルト辞書及び第１カスタマイズ辞書の一例を示す図である。本実施の形態の第２デフォルト辞書及び第２カスタマイズ辞書の一例を示す図である。本実施の形態の認識文字列の訂正結果及び訂正した認識文字列の翻訳結果の一例を説明するための図である。本実施の形態の音声翻訳装置で行われる全体の処理の流れの一例を示すフローチャートである。本実施の形態の音声翻訳装置で行われる全体の処理の流れの一例を示すフローチャートである。本実施の形態の訂正候補検索処理の一例を示すフローチャートである。本実施の形態の訂正候補検索処理の処理例の一例を説明するための図である。本実施の形態の訂正候補検索処理の処理例の一例を説明するための図である。本実施の形態の訂正候補検索処理の処理例の一例を説明するための図である。本実施の形態の訂正候補検索処理の処理例の一例を説明するための図である。本実施の形態の類似発音検索処理の一例を示すフローチャートである。本実施の形態の類似度演算処理の一例を示すフローチャートである。本実施の形態の類似度演算処理の処理例の一例を説明するための図である。本実施の形態の類似度演算処理の処理例の一例を説明するための図である。本実施の形態の音声認識結果及び翻訳結果の一例を説明するための図である。

以下、添付図面を参照しながら、本発明にかかる音声翻訳装置、および方法の最良な実施の形態を詳細に説明する。

本実施の形態の音声翻訳装置は、第１言語及び第２言語間の音声翻訳を双方向で実現するものであり、第１言語の音声が入力された場合には、第２言語に翻訳して出力し、第２言語の音声が入力された場合には、第１言語に翻訳して出力する。

なお本実施の形態では、第１言語から第２言語への翻訳を行う際の処理を中心に説明するが、第２言語から第１言語への翻訳についても同様の処理を行うことができる。また本実施の形態では、第１言語に日本語を用い、第２言語に英語を用いた場合を例にとり説明するが、翻訳形態はこれに限定されるものではなく、あらゆる言語間での音声翻訳に適用することができる。

図１は、本実施の形態の音声翻訳装置１の構成の一例を示すブロック図である。図１に示すように、音声翻訳装置１は、音声入力部１０と、出力部２０と、入力部３０と、記憶部４０と、音声受付部１００と、音声認識部１１０と、検索部１２０と、受付部１３０と、登録部１４０と、翻訳部１５０と、出力制御部１６０とを備える。

音声入力部１０は、音声翻訳装置１のユーザが発話する音声などを入力するものであり、例えば、マイクなどの既存の音声入力装置により実現できる。

出力部２０は、後述する出力制御部１６０の指示により、音声認識結果や音声翻訳結果などを出力するものであり、例えば、タッチパネル式ディスプレイ、液晶ディスプレイ、又は有機ＥＬディスプレイなどの既存の表示装置により実現できる。なお出力部２０を、スピーカなどの既存の音声出力装置により実現してもよいし、これらを併用して実現するようにしてもよい。

入力部３０は、音声翻訳装置１のユーザが行った操作をデータとして入力するものであり、例えば、タッチパネル式ディスプレイ、キースイッチ、キーボード、またはポインティングデバイスなどの既存の入力装置により実現できる。なお本実施の形態では、キースイッチ、及びタッチパネル式ディスプレイにより入力部３０を実現している。

記憶部４０は、音声翻訳装置１で行われる各種処理に使用される情報を記憶するものであり、例えば、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの既存の記憶媒体により実現できる。そして記憶部４０は、第１音声認識辞書記憶部４２と、第２音声認識辞書記憶部４４と、第１翻訳辞書記憶部４６と、第２翻訳辞書記憶部４８とを含む。

第１音声認識辞書記憶部４２は、第１言語の音声認識に用いるデフォルトの音声認識辞書である第１デフォルト辞書を記憶する。また第１音声認識辞書記憶部４２には、第１言語の音声認識に用いるカスタマイズ用の音声認識辞書である第１カスタマイズ辞書が、後述する登録部１４０により登録（記憶）される。

図２は、第１音声認識辞書記憶部４２に記憶されている第１デフォルト辞書の一例を示す図である。図２に示す例では、第１デフォルト辞書は、第１言語の発音、第１言語の品詞、及び第１言語の単語を対応付けた辞書データとなっている。なお図２に示す例では、第１カスタマイズ辞書は第１音声認識辞書記憶部４２に記憶されていない。

第２音声認識辞書記憶部４４は、第２言語の音声認識に用いるデフォルトの音声認識辞書である第２デフォルト辞書を記憶する。また第２音声認識辞書記憶部４４には、第２言語の音声認識に用いるカスタマイズ用の音声認識辞書である第２カスタマイズ辞書が、後述する登録部１４０により登録（記憶）される。

図３は、第２音声認識辞書記憶部４４に記憶されている第２デフォルト辞書の一例を示す図である。図３に示す例では、第２デフォルト辞書は、第２言語の発音、第２言語の品詞、及び第２言語の単語を対応付けた辞書データとなっている。なお図３に示す例では、第２カスタマイズ辞書は第２音声認識辞書記憶部４４に記憶されていない。

第１デフォルト辞書及び第２デフォルト辞書は、それぞれ、第１音声認識辞書記憶部４２及び第２音声認識辞書記憶部４４に予め記憶されている音声翻訳装置１固有の音声認識辞書であり、辞書データの追加・削除などは行われない。一方、第１カスタマイズ辞書及び第２カスタマイズ辞書は、ユーザによる音声翻訳装置１の使用に伴って、辞書データの追加・削除が行われる音声認識辞書である。

第１翻訳辞書記憶部４６は、第１言語から第２言語への翻訳に用いる第１翻訳辞書を記憶する。図４は、第１翻訳辞書記憶部４６に記憶されている第１翻訳辞書の一例を示す図である。図４に示す例では、第１翻訳辞書は、第１言語の単語、第１言語の品詞、第２言語の単語、及び第１言語の発音を対応付けた辞書データとなっている。

第２翻訳辞書記憶部４８は、第２言語から第１言語への翻訳に用いる第２翻訳辞書を記憶する。図５は、第２翻訳辞書記憶部４８に記憶されている第２翻訳辞書の一例を示す図である。図５に示す例では、第２翻訳辞書は、第２言語の単語、第２言語の品詞、第１言語の単語、及び第２言語の発音を対応付けた情報となっている。

音声受付部１００は、音声入力部１０から第１言語の発話音声である第１発話音声、又は第２言語の発話音声である第２発話音声の入力を受け付ける。具体的には、音声受付部１００は、音声入力部１０から入力された音声のアナログ信号に対してサンプリングを行い、ステレオのデジタル信号に変換する。なお、デジタル信号への変換には、例えば、Ａ／Ｄ変換など既存の技術を用いることができる。

音声認識部１１０は、音声受付部１００により受け付けられた発話音声（デジタル音声信号）を認識し、認識した発話音声の文字列である認識文字列を生成する音声認識処理を行う。

具体的には、音声認識部１１０は、第１デフォルト辞書及び第１カスタマイズ辞書を用いて第１発話音声を認識し、認識した第１発話音声の文字列である第１認識文字列を生成する。同様に、音声認識部１１０は、第２デフォルト辞書及び第２カスタマイズ辞書を用いて第２発話音声を認識し、認識した第２発話音声の文字列である第２認識文字列を生成する。また音声認識部１１０は、第１発話音声及び第１認識文字列の対応付けや、第２発話音声及び第２認識文字列の対応付けも行う。

なお、音声認識処理には、例えば、ＬＰＣ分析、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、ダイナミックプログラミング、ニューラルネットワーク、Ｎグラム言語モデルなど既存の音声認識方法を用いることができる。

検索部１２０は、第１認識文字列の誤認識箇所の文字列である誤認識文字列に発音が類似する単語又は単語列を、誤認識文字列の訂正候補として、第１翻訳辞書記憶部４６から検索する。なお検索部１２０は、後述する受付部１３０により誤認識文字列の選択が受け付けられることで誤認識箇所を特定する。また、誤認識文字列に発音が類似する単語又は単語列の検索には、例えば、動的計画法などを用いることができる。

例えば、第１翻訳辞書記憶部４６に図４に示す第１翻訳辞書が記憶され、図６に示すように、ユーザＡの第１発話音声２１０のうち、部分音声２１１が誤認識文字列２１２に誤認識され、第１認識文字列２１３が生成されたものとする。この場合、検索部１２０は、図７に示すように、誤認識文字列２１２に発音が類似する単語又は単語列である単語２１４、単語列２１５、単語列２１６、単語列２１７などを、誤認識文字列２１２の訂正候補として、第１翻訳辞書記憶部４６から検索する。

また検索部１２０は、後述する受付部１３０により誤認識文字列の訂正に用いる単語又は単語列である第１言語の訂正単語の選択が受け付けられた場合には、第２言語の訂正単語を第２翻訳辞書記憶部４８から更に検索する。具体的には、検索部１２０は、第１言語の訂正単語と一致する第１言語の単語に対応付けられた第２言語の単語を、第２言語の訂正単語として、第２翻訳辞書記憶部４８から検索する。

なお検索部１２０は、誤認識文字列に発音が類似する単語又は単語列であるか否かを、両発音間の類似度に基づいて決定しており、例えば、類似度が所定のしきい値を超えている場合に、誤認識文字列に発音が類似する単語又は単語列であると決定する。そして検索部１２０は、類似度演算部１２２を含む。

類似度演算部１２２は、誤認識文字列の発音と検索部１２０により検索される単語又は単語列の発音との類似度を演算するものであり、例えば、異なる発音間の誤りの傾向を定義したコンフュージョン行列を参照することにより、類似度を求めることができる。

図８は、コンフュージョン行列の一例を示す図である。図８に示すコンフュージョン行列では、同一文字間の発音については、正しく認識される確率を示しており、異なる文字間の発音については、誤認識される確率を示している。例えば、文字２１８の発音が、正しく文字２１８の発音と認識される確率は０．８７であり、文字２１９の発音が、誤って文字２１８の発音と認識される確率は０．０２であり、文字２２０の発音が、誤って文字２１８の発音と認識される確率は０．０８であることを示している。

図９−１は、単語２１４の発音２２１と誤認識文字列の発音２２２との類似度の演算例を説明するための図である。各文字間の発音の認識確率は、図９−１に示す通りであり、単語２１４は単数の単語であるため、単語間の出現確率を考慮する必要はない。従って類似度演算部１２２は、各文字間の発音の認識確率の積を求めることにより、発音２２１、２２２間の類似度を求めることができる（数式（１）参照）。

図９−２は、単語列２１５の発音２２２と誤認識文字列の発音２２２との類似度の演算例を説明するための図である。各文字間の発音の認識確率は、図９−２に示す通りであるが、単語列２１５は単語２２３及び単語２２４（複数の単語）から成る単語列であるため、単語２２３の発音の後に単語２２４発音が出現する出現確率を考慮する必要がある。この場合、類似度演算部１２２は、各文字の発音の認識確率の積（数式（２）参照）と、単語２２３の発音の後に単語２２４発音が出現する出現確率（数式（３）参照）との積を求めることにより、発音２２２同士の類似度を求めることができる（数式（４）参照）。

なお、単語間の出現確率については、出現確率を定義したデータなどを参照して決定すればよく、コンフュージョン行列とともに記憶部４０に記憶しておけばよい。また、コンフュージョン行列で示された認識確率を対数値で表す場合には、類似度演算部１２２は、各文字間の発音の認識確率の和を求めることにより、発音間の類似度を求めることができる。

受付部１３０（第１受付部及び第２受付部の一例）は、入力部３０からの入力を受け付ける。具体的には、受付部１３０は、後述する出力制御部１６０により出力部２０に出力された第１認識文字列に含まれる誤認識文字列の選択の受付と、出力制御部１６０により出力部２０に出力された訂正候補の中から誤認識文字列の訂正に用いる単語又は単語列である訂正単語の選択の受付とを行う。

例えば図７に示す例では、出力部２０、入力部３０、及び受付部１３０をタッチパネル式ディスプレイにより実現している。そしてユーザＡが、ポインティングデバイス５０で出力部２０に表示された誤認識文字列２１２を指し示す（タッチする）ことにより、受付部１３０は、誤認識文字列２１２の選択を受け付ける。同様に、ユーザＡが、ポインティングデバイス５０で出力部２０に表示された訂正候補（単語２１４〜単語列２１７）の中から訂正単語を指し示す（タッチする）ことにより、受付部１３０は、指し示された訂正単語の選択を受け付ける。

なお、ユーザに誤認識箇所を再発話させることにより、誤認識文字列の選択を受け付けるようにしてもよい。この場合には、音声受付部１００を受付部１３０として機能させればよい。

また、受付部１３０は、入力言語の選択（翻訳方向の選択）を受け付けたり、認識文字列の翻訳を後述する翻訳部１５０に実行させる翻訳実行操作の入力を受け付ける。なお、選択を受け付けられた入力言語の設定は、記憶部４０に記憶される。

登録部１４０は、受付部１３０により受け付けられた第１言語の訂正単語を、第１カスタマイズ辞書に登録する。具体的には、登録部１４０は、第１言語の訂正単語と一致する第１言語の単語、当該第１言語の単語に対応付けられた第１言語の品詞、及び第１言語の発音を第１翻訳辞書記憶部４６から読み出し、第１カスタマイズ辞書に登録する。

図１０は、登録部１４０による登録後の第１音声認識辞書記憶部４２に記憶されている第１デフォルト辞書及び第１カスタマイズ辞書の一例を示す図である。図１０に示す例では、単語２１４の発音、単語２１４の品詞、及び単語２１４を対応付けた辞書データが、第１カスタマイズ辞書に新たに記憶されている。なお、図１０に示す例では、受付部１３０により、第１言語の訂正単語として、単語２１４の選択が受け付けられ、登録部１４０により、単語２１４の登録が行われたものとする。

また登録部１４０は、検索部１２０により検索された第２言語の訂正単語を、第２カスタマイズ辞書に更に登録する。具体的には、登録部１４０は、第２言語の訂正単語と一致する第２言語の単語、当該第２言語の単語に対応付けられた第２言語の品詞、及び第２言語の発音を第２翻訳辞書記憶部４８から読み出し、第２カスタマイズ辞書に更に登録する。

図１１は、登録部１４０による登録後の第２音声認識辞書記憶部４４に記憶されている第２デフォルト辞書及び第２カスタマイズ辞書の一例を示す図である。図１１に示す例では、単語２２５の発音、単語２２５の品詞、及び単語２２５を対応付けた辞書データが、第２カスタマイズ辞書に新たに記憶されている。なお、図１１に示す例では、検索部１２０により、第２言語の訂正単語として、単語２２５が検索され、登録部１４０により、単語２２５の登録が行われたものとする。

また登録部１４０は、所定の条件が成立したことに基づいて、第１カスタマイズ辞書に登録した第１言語の訂正単語、及び第２カスタマイズ辞書に登録した第２言語の訂正単語を、それぞれ、第１音声認識辞書記憶部４２及び第２音声認識辞書記憶部４４から消去（削除）するようにしてもよい。例えば登録部１４０は、登録から一定期間経過後（例えば、１日後、１週間後など）に第１言語の訂正単語及び第２言語の訂正単語を消去するようにしてもよい。

翻訳部１５０は、第１翻訳辞書を用いて、誤認識文字列を訂正単語で訂正した第１認識文字列を第２言語に翻訳する。なお、翻訳処理には、例えば、用例ベース方式、トランスファ方式、統計ベース方式などの既存の翻訳方法を用いることができる。また翻訳部１５０は、第２翻訳辞書を用いて、第２認識文字列を第１言語に翻訳する。

出力制御部１６０（第１出力制御部及び第２出力制御部の一例）は、第１認識文字列又は第２認識文字列など音声認識部１１０により生成された認識文字列を出力部２０に出力させる。例えば図６に示す例では、出力制御部１６０が出力部２０に第１認識文字列２１３を表示させている。

また出力制御部１６０は、検索部１２０により検索された訂正候補を出力部２０に出力させる。例えば図７に示す例では、出力制御部１６０が出力部２０に訂正候補（単語２１４〜単語列２１７）を表示させている。なお図７に示す例では、出力制御部１６０は、類似度演算部１２２により求められた類似度が高いものから順番に訂正候補を表示させている。

また出力制御部１６０は、受付部１３０により受け付けられた訂正単語で誤認識文字列を訂正した第１認識文字列を出力部２０に出力させる制御や、翻訳部１５０の翻訳結果を出力部２０に出力させる制御を行う。例えば図１２に示す例では、単語２１４で誤認識文字列２１２を訂正した第１認識文字列２２６とともに、第１認識文字列２２６の翻訳結果２２７を出力部２０に表示させている。

なお、出力部２０をスピーカなどの既存の音声出力装置により実現する場合には、出力制御部１６０は、音声認識結果や音声翻訳結果などを音声信号に変換する音声合成処理を行い、音声合成処理により生成した音声信号をＤＡ変換して出力部２０に音声出力させる。また出力制御部１６０は、これらの出力手法を必要に応じて切り替えるようにしてもよいし、併用するようにしてもよい。

次に、図１３−１及び図１３−２を参照しながら、本実施の形態の音声翻訳装置の動作について説明する。図１３−１及び図１３−２は、音声翻訳装置１で行われる全体の処理の流れの一例を示すフローチャートである。なお、以下の説明では、第１音声認識辞書記憶部４２、第２音声認識辞書記憶部４４、第１翻訳辞書記憶部４６、及び第２翻訳辞書記憶部４８には、それぞれ、図２、図３、図４、及び図５に示す辞書が記憶されている場合を例にとり説明する。

まず、音声翻訳装置１の入力言語が第１言語に設定されている場合には（ステップＳ１０でＹｅｓ）、音声受付部１００は、音声翻訳装置１のユーザにより音声入力部１０に入力された発話音声を、第１発話音声の入力として受け付ける（ステップＳ１２）。ここでは、音声受付部１００は、第１発話音声２１０（図６参照）の入力を受け付けるものとする。

次に、音声認識部１１０は、第１デフォルト辞書及び第１カスタマイズ辞書を用いて第１発話音声を認識し、第１認識文字列を生成する（ステップＳ１４）。ここでは、音声認識部１１０は、第１発話音声２１０のうち、部分音声２１１を誤認識文字列２１２に誤認識したため、第１認識文字列２１３を生成するものとする（図６参照）。

次に、出力制御部１６０は、第１認識文字列を出力部２０に出力させる（ステップＳ１６）。ここでは、出力制御部１６０は、図６に示すように、第１認識文字列２１３を出力部２０に表示させるものとする。

次に、入力部３０から翻訳実行操作が入力されると、受付部１３０は、翻訳実行操作の入力を受け付ける（ステップＳ１８でＹｅｓ）。また、入力部３０から翻訳実行操作が入力されずに（ステップＳ１８でＮｏ）、出力部２０に出力された第１認識文字列の誤認識箇所の文字列である誤認識文字列が選択されると、受付部１３０は、当該誤認識文字列の選択を受け付ける（ステップＳ２０でＹｅｓ）。ここでは、受付部１３０は、図７に示すように、誤認識文字列２１２の選択を受け付けるものとする。

なお、受付部１３０が、誤認識文字列の選択を受け付けなかった場合には（ステップＳ２０でＮｏ）、翻訳実行操作の入力を確認する（ステップＳ１８へ）。

次に、受付部１３０により誤認識文字列の選択が受け付けられると（ステップＳ２０でＹｅｓ）、検索部１２０は、誤認識文字列に発音が類似する単語又は単語列を、誤認識文字列の訂正候補として、第１翻訳辞書記憶部４６から検索する訂正候補検索処理を行う（ステップＳ２２）。ここでは、検索部１２０は、誤認識文字列２１２の訂正候補として、図７に示すように、誤認識文字列２１２に発音が類似する単語又は単語列である単語２１４、単語列２１５、単語列２１６、及び単語列２１７を第１翻訳辞書記憶部４６から検索するものとする。なお、訂正候補検索処理の詳細は後述する。

次に、出力制御部１６０は、訂正候補を出力部２０に出力させる（ステップＳ２４）。ここでは、出力制御部１６０は、図７に示すように、訂正候補として、単語２１４、単語列２１５、単語列２１６、及び単語列２１７を出力部２０に表示させるものとする。

次に、受付部１３０は、訂正単語の選択を待ち（ステップＳ２６でＮｏ）、入力部３０により、出力部２０に出力された訂正候補の中から誤認識文字列の訂正に用いる単語又は単語列である訂正単語が選択されると、訂正単語の選択を受け付ける（ステップＳ２６でＹｅｓ）。ここでは、受付部１３０は、訂正単語として、単語２１４の選択を受け付けるものとする（図７参照）。

次に、出力制御部１６０は、受付部１３０により受け付けられた第１言語の訂正単語で誤認識文字列を訂正した第１認識文字列を出力部２０に出力させる（ステップＳ２８）。ここでは、出力制御部１６０は、単語２１４で誤認識文字列２１２を訂正した第１認識文字列２２６を出力部２０に表示させるものとする（図１２参照）。

次に、登録部１４０は、受付部１３０により受け付けられた第１言語の訂正単語を、第１カスタマイズ辞書に登録する（ステップＳ３０）。ここでは、登録部１４０は、単語２１４を、第１カスタマイズ辞書に登録するものとする（図１０参照）。

次に、検索部１２０は、第２言語の訂正単語を第２翻訳辞書記憶部４８から検索する（ステップＳ３２）。ここでは、検索部１２０は、単語２２５を第２翻訳辞書記憶部４８から検索するものとする（図５参照）。

次に、登録部１４０は、検索部１２０により検索された第２言語の訂正単語を、第２カスタマイズ辞書に更に登録する（ステップＳ３４）。ここでは、登録部１４０は、単語２２５を、第２カスタマイズ辞書に登録するものとする（図１１参照）。

次に、受付部１３０が、翻訳実行操作の入力を確認する（ステップＳ１８へ）。そして、受付部１３０により翻訳実行操作の入力が受け付けられた場合には（ステップＳ１８でＹｅｓ）、翻訳部１５０は、第１翻訳辞書を用いて、誤認識文字列を訂正単語で訂正した第１認識文字列を第２言語に翻訳する（ステップＳ３６）。ここでは、翻訳部１５０は、単語２１４で誤認識文字列２１２を訂正した第１認識文字列２２６を翻訳結果２２７に翻訳するものとする（図１２参照）。

次に、出力制御部１６０は、翻訳結果を出力部２０に出力させる（ステップＳ３８）。ここでは、出力制御部１６０は、図１２に示すように、翻訳結果２２７を出力部２０に表示させるものとする。

一方、ステップＳ１０において、音声翻訳装置１の入力言語が第１言語に設定されていない場合（第２言語に設定されている場合）には（ステップＳ１０でＮｏ）、音声受付部１００は、音声翻訳装置１のユーザにより音声入力部１０に入力された発話音声を、第２発話音声の入力として受け付ける（ステップＳ４０）。

次に、音声認識部１１０は、第２デフォルト辞書及び第２カスタマイズ辞書を用いて第２発話音声を認識し、第２認識文字列を生成する（ステップＳ４２）。

次に、出力制御部１６０は、第２認識文字列を出力部２０に出力させる（ステップＳ４４）。

次に、入力部３０から翻訳実行操作が入力されると、受付部１３０は、翻訳実行操作の入力を受け付ける（ステップＳ４６でＹｅｓ）。また、入力部３０から翻訳実行操作が入力されずに（ステップＳ４６でＮｏ）、出力部２０に出力された認識文字列に含まれる誤認識文字列が選択されると、受付部１３０は、当該誤認識文字列の選択を受け付ける（ステップＳ４８でＹｅｓ）。なお、受付部１３０が、誤認識文字列の選択を受け付けなかった場合には（ステップＳ４８でＮｏ）、翻訳実行操作の入力を確認する（ステップＳ４６へ）。

次に、受付部１３０により誤認識文字列の選択が受け付けられると（ステップＳ４８でＹｅｓ）、検索部１２０は、誤認識文字列に発音が類似する単語又は単語列を、誤認識文字列の訂正候補として、第２翻訳辞書記憶部４８から検索する訂正候補検索処理を行う（ステップＳ５０）。

次に、出力制御部１６０は、訂正候補を出力部２０に出力させる（ステップＳ５２）。

次に、受付部１３０は、訂正単語の選択を待ち（ステップＳ５４でＮｏ）、入力部３０により、出力部２０に出力された訂正候補の中から誤認識文字列の訂正に用いる単語又は単語列である訂正単語が選択されると、訂正単語の選択を受け付ける（ステップＳ５４でＹｅｓ）。

次に、出力制御部１６０は、受付部１３０により受け付けられた第２言語の訂正単語で誤認識文字列を訂正した第２認識文字列を出力部２０に出力させる（ステップＳ５６）。

次に、登録部１４０は、受付部１３０により受け付けられた第２言語の訂正単語を、第２カスタマイズ辞書に登録する（ステップＳ５８）。

次に、検索部１２０は、第１言語の訂正単語を第１翻訳辞書記憶部４６から検索する（ステップＳ６０）。

次に、登録部１４０は、検索部１２０により検索された第１言語の訂正単語を、第１カスタマイズ辞書に更に登録する（ステップＳ６２）。

次に、受付部１３０が、翻訳実行操作の入力を確認する（ステップＳ４６へ）。そして、受付部１３０により翻訳実行操作の入力が受け付けられた場合には（ステップＳ４６でＹｅｓ）、翻訳部１５０は、第２翻訳辞書を用いて、誤認識文字列を訂正単語で訂正した第２認識文字列を第１言語に翻訳し（ステップＳ６４）、出力制御部１６０が、翻訳結果を出力部２０に出力させる（ステップＳ３８へ）。

次に、図１４を参照しながら、図１３−１のステップＳ２２及び図１３−２のステップＳ５０に示す訂正候補検索処理について説明する。図１４は、訂正候補検索処理の一例を示すフローチャートである。なお、以下の説明では、図１３−１のステップＳ２２に示す訂正候補検索処理を例にとり説明するが、図１３−２のステップＳ５０に示す訂正候補検索処理について同様の処理を行うことができる。また、訂正候補検索処理には、例えば、動的計画法の一種であるViterbiアルゴリズムなどを採用することができる。

まず、検索部１２０は、誤認識文字列の発音の先頭位置を示す値で、変数ｐｏｉｎｔｅｒを初期化する（ステップＳ１００）。ここでは、検索部１２０は、図１５−１に示すように、誤認識文字列の発音２２２の先頭位置を示す値で、ｐｏｉｎｔｅｒを初期化するものとする。

次に、検索部１２０は、ｐｏｉｎｔｅｒが示す位置から始まる全てのパターンの発音（比較発音）に関して、当該発音と類似する発音を第１翻訳辞書記憶部４６から検索する類似発音検索処理を行う（ステップＳ１０２）。なお、類似発音検索処理の詳細は後述する。

例えば図１５−１に示す例では、ｐｏｉｎｔｅｒが示す位置から始まる発音は６文字の発音であるため、検索部１２０は、６パターンの発音に関して類似発音検索処理を行い、発音２２１、発音２２８、及び発音２２９を、第１翻訳辞書記憶部４６から検索するものとする。同様に図１５−２に示す例では、ｐｏｉｎｔｅｒが示す位置から始まる発音は４文字の発音であるため、検索部１２０は、４パターンの発音に関して類似発音検索処理を行い、発音２３０を、第１翻訳辞書記憶部４６から新たに検索するものとする。同様に図１５−３に示す例では、ｐｏｉｎｔｅｒが示す位置から始まる発音は３文字の発音であるため、検索部１２０は、３パターンの発音に関して類似発音検索処理を行い、発音２３１、発音２３２、発音２３３を、第１翻訳辞書記憶部４６から新たに検索するものとする。

次に、類似度演算部１２２は、類似発音検索処理により求められた発音等に基づいて、訂正候補を決定するための類似度のスコアを求める（ステップＳ１０４）。具体的には、検索部１２０は、今までに検索された発音のスコアと、今回検索された発音のスコアと、連接可能な発音を連接する連接スコアとの和により、訂正候補を決定するための類似度のスコアを求める。

なお、検索された発音のスコアは、類似発音検索処理により求められた類似度と、発音間の出現確率との和で表される。また、連接可能な発音とは、発音の終了位置と開始位置とが一致する発音である。例えば図１５−２に示す例では、発音２２１及び発音２２８の終了位置と発音２３０の開始位置は一致しないため、これらの発音は連結できないが、発音２２９の終了位置と発音２３１の開始位置は一致するため、これらの発音は連結できる。

つまり、類似度演算部１２２は、検索した発音同士が連接可能な場合には連接し、連接した全てのパターンの発音に対して、訂正候補を決定するための類似度のスコアを求める。従って検索部１２０は、図１５−１及び図１５−２に示す例では、３パターンの発音に対して、訂正候補を決定するための類似度のスコアを求め、図１５−３及び図１５−４に示す例では、７パターンの発音に対して、訂正候補を決定するための類似度のスコアを求める。

例えば図１５−２に示す例では、発音２２１及び初期ノードの連接スコアと発音２２１のスコアとの和、発音２２８及び初期ノードの連接スコアと発音２２８のスコアとの和、発音２２９及び初期ノードの連接スコアと発音２２９のスコアと発音２２９及び発音２３０の連接スコアと発音２３０のスコアとの和が、訂正候補を決定するための類似度のスコアとなる。

次に、検索部１２０は、類似発音検索処理により求められた発音のうち、最短文字数の発音の文字数分ｐｏｉｎｔｅｒを移動させる（ステップＳ１０６）。例えば図１５−１に示す例では、発音２２９が２文字の発音であり、最短文字数の発音となるため、検索部１２０は、図１５−２に示すように、ｐｏｉｎｔｅｒを２文字分移動させている。同様に図１５−２に示す例では、発音２３０が１文字の発音であり、最短文字数の発音となるため、検索部１２０は、図１５−３に示すように、ｐｏｉｎｔｅｒを１文字分移動させている。同様に図１５−３に示す例では、最短文字数は３文字となるため、検索部１２０は、図１５−４に示すように、ｐｏｉｎｔｅｒを３文字分移動させている。

次に、検索部１２０は、ｐｏｉｎｔｅｒの位置が誤認識文字列の発音の最後位置となるまで、ステップＳ１０２〜ステップＳ１０６の処理を繰り返し行う（ステップＳ１０８でＮｏ）。そして、ｐｏｉｎｔｅｒの位置が誤認識文字列の発音の最後位置を超えた場合には（ステップＳ１０８でＹｅｓ）、検索部１２０は、訂正候補を決定するための類似度のスコアが閾値を超えた発音の単語又は発音列の単語列を訂正候補に設定して（ステップＳ１１０）、処理を終了し、訂正候補を返却する。

次に、図１６を参照しながら、図１４のステップＳ１０２に示す類似発音検索処理について説明する。図１６は、類似発音検索処理の一例を示すフローチャートである。

まず、検索部１２０は、比較発音が第１言語の発音である場合には（ステップＳ２００でＹｅｓ）、第１翻訳辞書記憶部４６に記憶された第１翻訳辞書を検索対象に設定する（ステップＳ２０２）。また検索部１２０は、比較発音が第１言語の発音でない場合（比較発音が第２言語の発音である場合）には（ステップＳ２００でＮｏ）、第２翻訳辞書記憶部４８に記憶された第２翻訳辞書を検索対象に設定する（ステップＳ２０４）。なお検索部１２０は、比較発音が第１言語の発音であるか否かを、入力言語の設定から判別してもよい。

次に、検索部１２０は、検索対象の翻訳辞書に登録された全ての単語の発音と、比較発音との類似度を求めるまで（ステップＳ２０６でＮｏ）、類似度が求められていない単語を読み出す（ステップＳ２０８）。

次に、類似度演算部１２２は、読み出された単語の発音と、比較発音との類似度を演算する類似度演算処理を行う（ステップＳ２１０）。なお、類似度演算処理の詳細は後述する。

次に、検索部１２０は、類似度演算部１２２により求められた類似度を閾値と比較し（ステップＳ２１２）、閾値を超えている場合には、読み出された単語の発音を類似発音に設定する（ステップＳ２１２でＹｅｓ、ステップＳ２１４）。なお検索部１２０は、類似度が閾値を超えていない場合には、読み出された単語の発音を類似発音に設定しない（ステップＳ２１２でＮｏ）。

そして、検索部１２０は、検索対象の翻訳辞書に登録された全ての単語の発音と、比較発音との類似度を演算した場合には（ステップＳ２０６でＹｅｓ）、処理を終了し、類似発音とその類似度を返却する。

次に、図１７を参照しながら、図１６のステップＳ２１０に示す類似度演算処理について説明する。図１７は、類似度演算処理の一例を示すフローチャートである。なお、類似度演算処理には、例えば、動的計画法の一種であるDynamic Time Warping法などを採用することができる。

まず、類似度演算部１２２は、読み出された単語の発音の長さを変数ｎに設定するとともに（ステップＳ３００）、比較発音の長さを変数ｍに設定する（ステップＳ３０２）。

次に、類似度演算部１２２は、ｎ＋１×ｍ＋１の二次元配列であるｓｉｍ［ｎ＋１，ｍ＋１］を記憶部４０に確保する（ステップＳ３０４）。

次に、類似度演算部１２２は、ｓｉｍ［０，０］に初期値である−１０００を設定する（ステップＳ３０６）。

次に、類似度演算部１２２は、変数ｉを０で初期化し（ステップＳ３０８）、ｉがｎより小さい場合には（ステップＳ３１０でＮｏ）、変数ｊを０で初期化する（ステップＳ３１２）。

次に、類似度演算部１２２は、ｊがｍより小さい場合には（ステップＳ３１４でＮｏ）、ｓｉｍ［ｉ−１，ｊ］に設定された値と、読み出された単語の発音ｉ（読み出された単語の発音中の比較対象の発音）を比較発音と照合しない場合のスコアとを加算した値を、変数ｘに設定する（ステップＳ３１６）。

次に、類似度演算部１２２は、ｓｉｍ［ｉ，ｊ−１］に設定された値と、比較発音ｊ（比較発音中の比較対象の発音）を読み出された単語の発音と照合しない場合のスコアとを加算した値を、変数ｙに設定する（ステップＳ３１８）。

なお、読み出された単語の発音ｉを比較発音と照合しない場合のスコア、及び比較発音ｊを読み出された単語の発音と照合しない場合のスコアは、発音の種類によらず、全て同一の値（例えば、−１０．０）を設定してもよいし、発音の種類に応じた値を設定するようにしてもよい。

次に、類似度演算部１２２は、ｓｉｍ［ｉ−１，ｊ−１］に設定された値と、読み出された単語の発音ｉと比較発音ｊとを照合した場合のスコアとを加算した値を、変数ｚに設定する（ステップＳ３２０）。なお、読み出された単語の発音ｉと比較発音ｊとを照合した場合のスコアは、図６のコンフュージョン行列で示された認識確率の対数値となる。

次に、類似度演算部１２２は、ｘ、ｙ、ｚのうち、最大の値を、ｓｉｍ［ｉ，ｊ］に設定する（ステップＳ３２２）。

次に、類似度演算部１２２は、ｊをインクリメントし（ステップＳ３２４）、ｊがｍより大きくなるまで（ステップＳ３１４でＮｏ）、ステップＳ３１６〜ステップＳ３２４の処理を繰り返す。

そして、類似度演算部１２２は、ｊがｍより大きくなった場合には（ステップＳ３１４でＹｅｓ）、ｉをインクリメントし（ステップＳ３２６）、ｉがｎより大きくなるまで（ステップＳ３１０でＮｏ）、ステップＳ３１２〜ステップＳ３２６の処理を繰り返す。

そして、類似度演算部１２２は、ｉがｎより大きくなった場合には（ステップＳ３１０でＹｅｓ）、処理を終了し、読み出された単語の発音と、比較発音との類似度であるｓｉｍ［ｉ，ｊ］＊２／ｎ＋ｍを返却する。

これにより、ｓｉｍ［ｉ，ｊ］には、類似度を最も大きくするスコアを設定することができる。

例えば、図１８−１に示すように、単語２１４の発音２２１と、比較発音である誤認識文字列の発音２２２との類似度を類似度演算処理で演算した場合、同図に示す経路でｓｉｍ［６，６］にスコアが設定され、このスコアが類似度を最も大きくするスコアとなる。

また例えば、図１８−２に示すように、発音２３４と、比較発音である誤認識文字列の発音２２２との類似度を類似度演算処理で演算した場合、同図に示す経路でｓｉｍ［５，６］にスコアが設定され、このスコアが類似度を最も大きくするスコアとなる。

このように本実施の形態によれば、発話音声から生成された認識文字列のうち、誤認識箇所の文字列である誤認識文字列を訂正した訂正単語のみが音声認識辞書として登録されるため、音声認識辞書に追加登録される単語を必要最小限に留めることができ、音声認識精度を向上させることができる。

また本実施の形態によれば、音声認識辞書に登録される訂正単語は音声翻訳辞書の単語であるため、音声認識辞書に登録された単語を必ず翻訳することができ、音声認識精度の向上に伴う翻訳精度の低下を防止することができる。

例えば、図１０に示すように、単語２１４が、第１カスタマイズ辞書に新たに登録されることにより、これ以降は、単語２１４の発音を確実に認識することができるようになる。

また本実施の形態では、一方の言語の訂正単語だけでなく、他方の言語の訂正単語についても音声認識辞書として登録するため、双方向での音声翻訳をスムーズに実現することができる。

例えば、図１０に示す第１言語の訂正単語である単語２１４だけでなく、図１１に示すように、第２言語の訂正単語である単語２２５も、第２カスタマイズ辞書に新たに登録されることにより、これ以降は、単語２２５の発音も確実に認識することができるようになる。従って、図１９に示すように、ユーザＢが単語２２５を含む第２発話音声２３５を発話したとしても、単語２２５の発音も確実に認識して、翻訳結果２３６を出力することができる。

特に音声翻訳辞書は、音声認識辞書と異なり、語彙数を増やすほど翻訳精度が高くなるため、大語彙化する傾向にあり、誤認識文字列の訂正候補を検索する辞書としても優れている。

なお本実施の形態の音声翻訳装置１は、ＣＰＵ（Central Processing Unit）などの制御装置、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などの記憶装置、マイクなどの音声入力装置、タッチパネルなどの表示装置や入力装置、スピーカなどの音声出力装置、ネットワークに接続して通信を行う通信Ｉ／Ｆ等を備えたハードウェア構成となっている。

また、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。

１音声翻訳装置
１０音声入力部
２０出力部
３０入力部
４０記憶部
４２第１音声認識辞書記憶部
４４第２音声認識辞書記憶部
４６第１翻訳辞書記憶部
４８第２翻訳辞書記憶部
５０ポインティングデバイス
１００音声受付部
１１０音声認識部
１２０検索部
１２２類似度演算部
１３０受付部
１４０登録部
１５０翻訳部
１６０出力制御部
２１０第１発話音声
２１１部分音声
２１２誤認識文字列
２１３第１認識文字列
２１４単語
２１５〜２１７単語列
２１８〜２２０文字
２２１、２２２発音
２２３〜２２５単語
２２６第１認識文字列
２２７翻訳結果
２２８〜２３４発音
２３５第２発話音声
２３６翻訳結果

Claims

第１言語の音声認識に用いるデフォルトの音声認識辞書である第１デフォルト辞書を記憶するとともに、前記第１言語の音声認識に用いるカスタマイズ用の音声認識辞書である第１カスタマイズ辞書が記憶される第１音声認識辞書記憶部と、
前記第１言語から第２言語への翻訳に用いる第１翻訳辞書を記憶する第１翻訳辞書記憶部と、
前記第１言語の発話音声である第１発話音声の入力を受け付ける音声受付部と、
前記第１デフォルト辞書及び前記第１カスタマイズ辞書を用いて前記第１発話音声を認識し、第１認識文字列を生成する音声認識部と、
前記第１認識文字列を出力する出力部と、
出力された前記第１認識文字列の誤認識箇所の文字列である誤認識文字列の選択を受け付ける第１受付部と、
前記誤認識文字列に発音が類似する単語又は単語列を、前記誤認識文字列の訂正候補として、前記第１翻訳辞書記憶部から検索する検索部と、
前記訂正候補を前記出力部に出力させる第１出力制御部と、
出力された前記訂正候補の中から前記誤認識文字列の訂正に用いる単語又は単語列である訂正単語の選択を受け付ける第２受付部と、
前記訂正単語を、前記第１カスタマイズ辞書に登録する登録部と、
前記第１翻訳辞書を用いて、前記誤認識文字列を前記訂正単語で訂正し、前記第２言語に翻訳する翻訳部と、
前記出力部に翻訳結果を出力させる第２出力制御部と、を備えることを特徴とする音声翻訳装置。
前記第２言語の音声認識に用いるデフォルトの音声認識辞書である第２デフォルト辞書を記憶するとともに、前記第２言語の音声認識に用いるカスタマイズ用の音声認識辞書である第２カスタマイズ辞書が記憶される第２音声認識辞書記憶部と、
前記第２言語から前記第１言語への翻訳に用いる第２翻訳辞書を記憶する第２翻訳辞書記憶部と、を更に備え、
前記検索部は、更に、前記第２言語の前記訂正単語を前記第２翻訳辞書記憶部から検索し、
前記登録部は、更に、前記第２言語の前記訂正単語を、前記第２カスタマイズ辞書に登録し、
前記音声受付部は、更に、前記第２言語の発話音声である第２発話音声の入力を受け付け、
前記音声認識部は、更に、前記第２デフォルト辞書及び前記第２カスタマイズ辞書を用いて前記第２発話音声を認識し、第２認識文字列を生成し、
前記翻訳部は、更に、前記第２翻訳辞書を用いて、前記第２認識文字列を前記第１言語に翻訳することを特徴とする請求項１に記載の音声翻訳装置。
前記登録部は、所定の条件が成立したことに基づいて、前記第１カスタマイズ辞書に登録した前記訂正単語を、前記第１音声認識辞書記憶部から消去することを特徴とする請求項１に記載の音声翻訳装置。
前記検索部は、動的計画法により、前記第１翻訳辞書記憶部から前記訂正候補を検索することを特徴とする請求項１に記載の音声翻訳装置。
前記誤認識文字列の発音と前記検索部により検索される単語又は単語列の発音との類似度を演算する類似度演算部を更に備え、
前記検索部は、前記類似度が閾値を超える単語又は単語列を、前記訂正候補として、前記第１翻訳辞書記憶部から検索することを特徴とする請求項１に記載の音声翻訳装置。
前記出力部、前記第１受付部、及び前記第２受付部は、タッチパネル式ディスプレイであることを特徴とする請求項１に記載の音声翻訳装置。
音声受付部が、第１言語の発話音声である第１発話音声の入力を受け付ける音声受付ステップと、
音声認識部が、第１音声認識辞書記憶部に記憶された前記第１言語の音声認識に用いるデフォルトの音声認識辞書である第１デフォルト辞書及び、前記第１言語の音声認識に用いるカスタマイズ用の音声認識辞書である第１カスタマイズ辞書を用いて前記第１発話音声を認識し、第１認識文字列を生成する音声認識ステップと、
出力制御部が、前記第１認識文字列を出力部に出力させる第１出力制御ステップと、
受付部が、前記出力部に出力された前記第１認識文字列の誤認識箇所の文字列である誤認識文字列の選択を受け付ける第１受付ステップと、
検索部が、前記誤認識文字列に発音が類似する単語又は単語列を、前記誤認識文字列の訂正候補として、前記第１言語から第２言語への翻訳に用いる第１翻訳辞書を記憶する第１翻訳辞書記憶部から検索する検索ステップと、
出力制御部が、前記訂正候補を前記出力部に出力させる第２出力制御ステップと、
受付部が、前記出力部に出力された前記訂正候補の中から前記誤認識文字列の訂正に用いる単語又は単語列である訂正単語の選択を受け付ける第２受付ステップと、
登録部が、前記訂正単語を、前記第１カスタマイズ辞書に登録する登録ステップと、
翻訳部が、前記第１翻訳辞書を用いて、前記誤認識文字列を前記訂正単語で訂正し、前記第２言語に翻訳する翻訳ステップと、
出力制御部が、前記出力部に翻訳結果を出力させる第３出力制御ステップと、を含むことを特徴とする音声翻訳方法。