JP2012073369A - 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム - Google Patents

音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム Download PDF

Info

Publication number
JP2012073369A
JP2012073369A JP2010217559A JP2010217559A JP2012073369A JP 2012073369 A JP2012073369 A JP 2012073369A JP 2010217559 A JP2010217559 A JP 2010217559A JP 2010217559 A JP2010217559 A JP 2010217559A JP 2012073369 A JP2012073369 A JP 2012073369A
Authority
JP
Japan
Prior art keywords
character string
unit
similar
speech
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010217559A
Other languages
English (en)
Other versions
JP5704686B2 (ja
Inventor
Hideo Okuma
英男 大熊
Masao Uchiyama
将夫 内山
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2010217559A priority Critical patent/JP5704686B2/ja
Publication of JP2012073369A publication Critical patent/JP2012073369A/ja
Application granted granted Critical
Publication of JP5704686B2 publication Critical patent/JP5704686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音声認識結果に誤りがある場合、翻訳精度は著しく劣化していた。
【解決手段】音素列と文字列とを有する2以上の固有表現情報を格納し得る固有表現情報格納部と、音声を受け付ける音声受付部と、音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、音声認識部が取得した音素列に類似する音素列を、固有表現情報格納部から取得する類似音素列取得部と、類似音素列取得部が取得した音素列に対応する文字列である類似文字列を取得する類似文字列取得部と、類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を用いて音声出力する合成音声出力部とを具備する音声翻訳装置により、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。
【選択図】図2

Description

本発明は、入力された音声を翻訳し、音声合成出力する音声翻訳システム等に関するものである。
従来、予め対訳の例文を用意し、特定の例文の訳文を対話相手に表示することによって発話を翻訳する対話翻訳技術があった(特許文献1参照)。この技術は、利用者からの問いに対する回答文の選択肢を対話相手に提示し、対話相手が選択した回答の訳文を利用者に表示することにより対話相手の回答を利用者に通訳する対話翻訳技術である。
また、入力された音声の音声認識結果の文からキーワードを取得し、キーワードを用いて例文を検索し、当該例文を用いて自動通訳を行う自動通訳システムがあった(非特許文献1参照)。
特許第3952709号公報(第1頁、第1図等)
池田崇博、他4名「自由文通訳と例文選択型通訳を統合した自動通訳システム」FIT(情報科学技術フォーラム)2002年
しかしながら、従来の音声翻訳システムにおいては、音声認識結果に誤りがある場合、翻訳精度は著しく劣化していた。
さらに具体的には、音声認識結果の文には、音が近いが意味が遠い単語が含まれていることも多いにも関わらず、従来の技術において、音声認識結果に含まれる単語をキーとして例文を検索することにより、正解からは遠い単語を含むテキストが機械翻訳の入力となることにより、翻訳精度は著しく劣化していた。
本第一の発明の音声翻訳システムは、端末装置とサーバ装置とを具備する音声翻訳システムであって、端末装置は、音声を受け付ける音声受付部と、音声受付部が受け付けた音声、または音声受付部が受け付けた音声に関する1以上の特徴量である音声関連情報を取得する音声関連情報取得部と、音声関連情報をサーバ装置に送信する音声関連情報送信部と、サーバ装置から音声合成結果を受信する音声合成結果受信部と、音声合成結果を用いて音声出力する合成音声出力部とを具備し、サーバ装置は、音素列と文字列とを有する2以上の固有表現情報を格納し得る固有表現情報格納部と、音声関連情報を受信する音声関連情報受信部と、音声関連情報を用いて、音声認識し、音素列を取得する音声認識部と、音声認識部が取得した音素列に類似する音素列を、固有表現情報格納部から取得する類似音素列取得部と、類似音素列取得部が取得した音素列に対応する文字列である類似文字列を、固有表現情報格納部から取得する類似文字列取得部と、類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
かかる構成により、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。
また、本第二の発明の音声翻訳システムは、第一の発明に対して、音声認識部は、音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得し、類似音素列取得部は、音声認識部が取得した音素列に類似する1以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した1以上の音素列に対応する1以上の類似文字列を取得し、音声認識部が取得した1以上の音声認識文字列および類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を、端末装置に送信する候補文字列送信部と、2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置から受信する候補文字列特定情報受信部とをさらに具備し、機械翻訳部は、候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得し、端末装置は、サーバ装置から、2以上の候補文字列を受信する候補文字列受信部と、候補文字列受信部が受信した2以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置に送信する候補文字列特定情報送信部とをさらに具備する音声翻訳システムである。
かかる構成により、音声認識結果に誤りがある場合でも、さらに良好な翻訳結果を得ることができる。
また、本第三の発明の音声翻訳システムは、第一の発明に対して、類似音素列取得部は、音声認識部が取得した音素列に類似する2以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した2以上の音素列に対応する2以上の文字列である2以上の類似文字列を取得し、類似文字列取得部が取得した2以上の類似文字列である2以上の候補文字列を、端末装置に送信する候補文字列送信部と、2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置から受信する候補文字列特定情報受信部とをさらに具備し、機械翻訳部は、候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得し、端末装置は、サーバ装置から、2以上の候補文字列を受信する候補文字列受信部と、候補文字列受信部が受信した2以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置に送信する候補文字列特定情報送信部とをさらに具備する音声翻訳システムである。
かかる構成により、音声認識結果に誤りがある場合でも、さらに良好な翻訳結果を得ることができる。
また、本第四の発明の音声翻訳システムは、第二または第三の発明に対して、サーバ装置は、音声認識部が取得した文字列と類似文字列取得部が取得した1以上の各類似文字列とを比較し、音声認識部が取得した文字列と一致する文字列が、類似文字列取得部が取得した1以上の類似文字列の中に存在するか否かを判断する制御部をさらに具備し、候補文字列送信部は、候補文字列を送信しない音声翻訳システムである。
かかる構成により、音声認識結果が正しい場合、高速な処理が可能となる。
また、本第五の発明の音声翻訳装置は、音素列と文字列とを有する2以上の固有表現情報を格納し得る固有表現情報格納部と、音声を受け付ける音声受付部と、音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、音声認識部が取得した音素列に類似する音素列を、固有表現情報格納部から取得する類似音素列取得部と、類似音素列取得部が取得した音素列に対応する文字列である類似文字列を取得する類似文字列取得部と、類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を用いて音声出力する合成音声出力部とを具備する音声翻訳装置である。
かかる構成により、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。
また、本第六の発明の音声翻訳装置は、第五の発明に対して、音声認識部は、音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得し、類似音素列取得部は、音声認識部が取得した音素列に類似する1以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した1以上の音素列に対応する1以上の文字列である1以上の類似文字列を取得し、音声認識部が取得した1以上の音声認識文字列および類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、機械翻訳部は、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得する音声翻訳装置である。
かかる構成により、音声認識結果に誤りがある場合でも、さらに良好な翻訳結果を得ることができる。
また、本第七の発明の音声翻訳装置は、第五の発明に対して、類似音素列取得部は、音声認識部が取得した音素列に類似する2以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した2以上の音素列に対応する2以上の類似文字列を取得し、類似文字列取得部が取得した2以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、機械翻訳部は、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得する音声翻訳装置である。
かかる構成により、音声認識結果に誤りがある場合でも、さらに良好な翻訳結果を得ることができる。
また、本第八の発明の音声翻訳装置は、第六または第七の発明に対して、音声認識部が取得した文字列と類似文字列取得部が取得した1以上の各類似文字列とを比較し、音声認識部が取得した文字列と一致する文字列が、類似文字列取得部が取得した1以上の類似文字列の中に存在するか否かを判断する制御部をさらに具備し、候補文字列出力部は、候補文字列を出力しない音声翻訳装置である。
かかる構成により、音声認識結果が正しい場合、高速な処理が可能となる。
本発明による音声翻訳システムによれば、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。
実施の形態1における音声翻訳システム1の概念図 同音声翻訳システム1の内部構造を示すブロック図 同端末装置11の動作について説明するフローチャート 同サーバ装置12の動作について説明するフローチャート 同類似音素列取得処理について説明するフローチャート 同固有表現管理表を示す図 同候補文字列の出力例を示す図 実施の形態2における音声翻訳装置2のブロック図 同音声翻訳装置2の動作について説明するフローチャート 上記実施の形態におけるコンピュータシステムの概観図 同コンピュータシステムのブロック図
以下、音声翻訳システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、入力された音声に対する音声認識処理により音素列を取得し、当該音素列を用いて、類似文をコーパスから検索し、類似文を翻訳し、音声合成出力する音声翻訳システムについて説明する。また、本実施の形態において、1以上の音声認識処理結果と、1以上の検索類似文を出力し、ユーザからの指示を受け付け、指示された文を翻訳し、音声合成出力する音声翻訳システムについて説明する。さらに、本実施の形態において、2以上の検索類似文を出力し、ユーザからの指示を受け付け、指示された文を翻訳し、音声合成出力する音声翻訳システムについて説明する。
図1は、本実施の形態における音声翻訳システム1の概念図である。音声翻訳システム1は、1以上の端末装置11、およびサーバ装置12を具備し、ネットワーク13により相互に通信可能である。端末装置11は、いわゆるパーソナルコンピュータ、携帯端末、携帯電話、いわゆるスマートフォーンなどであるが、音声の入力や出力が行えれば良く、その態様は問わない。なお、ネットワーク13は、インターネット、電話回線、専用回線等、問わない。
図2は、本実施の形態における音声翻訳システム1の内部構造を示すブロック図である。
端末装置11は、音声受付部111、音声関連情報取得部112、音声関連情報送信部113、候補文字列受信部114、候補文字列出力部115、指示受付部116、候補文字列特定情報送信部117、音声合成結果受信部118、および合成音声出力部119を具備する。
サーバ装置12は、固有表現情報格納部120、音声関連情報受信部121、音声認識部122、類似音素列取得部123、類似文字列取得部124、候補文字列送信部125、候補文字列特定情報受信部126、機械翻訳部127、音声合成部128、音声合成結果送信部129、および制御部130を具備する。
音声受付部111は、通常、ユーザから音声を受け付ける。ただし、受け付けとは、有線もしくは無線の通信回線を介して送信された音声の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された音声の受け付けなどを含む概念である。
音声関連情報取得部112は、音声受付部111が受け付けた音声に関する1以上の特徴量である音声関連情報を取得するか、音声受付部111が受け付けた音声を取得する。つまり、音声関連情報取得部112は、音声から1以上の特徴量を抽出する機能を有しても有さなくても良い。また、音声関連情報とは、音声または1以上の特徴量であり、音声から1以上の特徴量を取得する技術は公知技術である。ここで、特徴量は、音声の特徴量である。1以上の特徴量は、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。ただし、1以上の特徴量の内容は問わない。
音声関連情報送信部113は、音声関連情報取得部112が取得した音声関連情報をサーバ装置12に送信する。
候補文字列受信部114は、音声関連情報の送信に対応して、サーバ装置12から2以上の候補文字列を受信する。
候補文字列出力部115は、候補文字列受信部114が受信した2以上の候補文字列を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
指示受付部116は、候補文字列出力部115が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける。指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。
候補文字列特定情報送信部117は、指示受付部116が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置12に送信する。候補文字列特定情報とは、候補文字列を特定する情報であれば何でも良く、例えば、候補文字列のID、候補文字列自体などである。
音声合成結果受信部118は、サーバ装置12から音声合成結果を受信する。ここで、音声合成結果とは、音声のデータでも良いし、音声合成の元になるデータや音声出力する直前のデータなどでも良い。
合成音声出力部119は、音声合成結果受信部118が受信した音声合成結果を用いて音声出力する。音声合成結果を用いた音声出力とは、音声合成結果が音声である場合、単に音声出力することである。また、音声合成結果が音声合成の元になるデータの場合、音声合成結果を用いた音声出力とは、当該データから音声合成し、音声出力することである。
サーバ装置12の固有表現情報格納部120は、音素列と文字列とを有する2以上の固有表現情報を格納し得る。ここで、音素列とは、文字列に対応する音素列である。つまり、音素列とは、文字列を発音した際の音素の並びである。そして、文字列とは、原言語の文や句や単語を構成する文字列である。
音声関連情報受信部121は、音声関連情報を、端末装置11から受信する。
音声認識部122は、音声関連情報受信部121が受信した音声関連情報を用いて、音声認識し、音素列を取得する。なお、音声認識部122は公知技術であるので、詳細な説明を省略する。また、この音声認識部122は、音声関連情報受信部121が受信した音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得しても良い。また、音声認識部122は、1以上の特徴量から音声認識処理しても良いし、音声関連情報である音声から1以上の特徴量を抽出し、当該1以上の特徴量から音声認識しても良い。また、音素列とは、通常、2以上の音素の集合である。
類似音素列取得部123は、音声認識部122が取得した音素列に類似する音素列を、固有表現情報格納部120から取得する。この類似音素列取得部123は、音声認識部122が取得した音素列と、固有表現情報格納部120に格納されている2以上の各固有表現情報が有する2以上の音素列との類似度(スコア)を算出し、当該類似度が所定の条件を満たすほど類似している1以上の音素列を固有表現情報格納部120から取得する。所定の条件を満たすほど類似している音素列とは、例えば、類似度が最大の音素列であったり、類似度が閾値以上または閾値より大の音素列であったり、類似度をキーとして降順に音素列をソートした場合の上位n(nは1以上の整数)の音素列等である。
なお、2つの音素列の類似度を算出するアルゴリズムは、例えば、BLEUやWord Error Rate (WER)などである。また、2つの音素列の類似度を算出するアルゴリズムは、例えば、「類似度=一致する音素数/長い方の全音素数」などでも良い。つまり、類似の判断のアルゴリズムは問わない。なお、BLEUやWERは、代表的な機械翻訳結果の評価尺度である。また、BLEUやWERは、通常、機械翻訳結果である自然言語文や単語を対象として、スコアを算出する尺度であるが、音声翻訳システム1では、音素列を対象として用いられる。
BLEUを用いた場合、以下の数式1により類似度を算出する。
Figure 2012073369
数式1において、pは音声認識部122が取得した音素列内のnグラムが固有表現情報格納部120内の音素列のnグラムと一致する割合である。また、rは音声認識部122が取得した音素列の長さ、cは固有表現情報格納部120内の固有表現情報が有する音素列の長さである。なお、後述する実験では、Nは4であり、wは1/Nである、とした。
また、WERを用いた場合、以下の数式2により類似度を算出する。
Figure 2012073369
数式2において、Iは挿入語数、Dは削除語数、Sは置換語数、Nは参照訳の語数である。ここで、語とは、音素に読み替える。つまり、数式2において、挿入語数とは、挿入されている音素の数である。また、削除語数とは、削除されている音素の数である。また、置換語数とは、置換されている音素の数である。さらに、参照訳の語数とは、参照訳の音素の数である。
また、類似音素列取得部123は、音声認識部122が取得した音素列に類似する1以上の音素列を、固有表現情報格納部120から取得しても良いし、音声認識部122が取得した音素列に類似する2以上の音素列を、固有表現情報格納部120から取得しても良い。
類似文字列取得部124は、類似音素列取得部123が取得した音素列に対応する文字列である類似文字列を、固有表現情報格納部120から取得する。また、類似文字列取得部124は、類似音素列取得部123が取得した1以上の音素列に対応する1以上の類似文字列を取得しても良い。また、類似文字列取得部124は、類似音素列取得部123が取得した2以上の音素列に対応する2以上の類似文字列を取得しても良い。
候補文字列送信部125は、2以上の候補文字列を、端末装置11に送信する。2以上の候補文字列は、音声認識部122が取得した1以上の音声認識文字列および類似文字列取得部124が取得した1以上の類似文字列であっても良いし、類似文字列取得部124が取得した2以上の類似文字列であっても良い。つまり、2以上の候補文字列の中には、通常、音声認識文字列を含むが、音声認識文字列を含まなくても良い。
候補文字列特定情報受信部126は、2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置11から受信する。候補文字列特定情報とは、候補文字列を識別する情報でも良いし、候補文字列そのものでも良い。
機械翻訳部127は、類似文字列取得部124が取得した類似文字列を翻訳し、翻訳結果を取得する。機械翻訳部127は、候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得しても良いし、候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得しても良い。なお、機械翻訳部127は、公知技術である。
音声合成部128は、機械翻訳部127が取得した翻訳結果を音声合成し、音声合成結果を取得する。音声合成結果とは、例えば、音声のデータである。ただし、音声合成結果とは、音声合成する元になるデータでも良い。音声合成部128は、公知技術である。
音声合成結果送信部129は、音声合成部128が取得した音声合成結果を端末装置11に送信する。
制御部130は、音声認識部122が取得した文字列と類似文字列取得部124が取得した1以上の各類似文字列とを比較し、音声認識部122が取得した文字列と一致する文字列(概ね一致する文字列も含む)が、類似文字列取得部124が取得した1以上の類似文字列の中に存在するか否かを判断する。一致する文字列が存在する場合、候補文字列送信部125は候補文字列を送信しない。そして、一致する文字列が存在する場合、機械翻訳部127は、音声認識部122が取得した文字列を機械翻訳する。なお、制御部130は、音声認識部122が取得した音素列と類似音素列取得部123が取得した1以上の各類似音素列とを比較し、音声認識部122が取得した音素列と一致する音素列(概ね一致する音素列も含む)が、類似音素列取得部123が取得した1以上の音素列の中に存在するか否かを判断しても良い。なお、音素列の比較も、文字列の比較と同等である、と考える。
音声受付部111は、例えば、マイクとそのドライバーソフトにより実現され得る。
音声関連情報取得部112、音声認識部122、類似音素列取得部123、類似文字列取得部124、機械翻訳部127、および音声合成部128は、通常、MPUやメモリ等から実現され得る。音声関連情報取得部112等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
音声関連情報送信部113、候補文字列特定情報送信部117、候補文字列送信部125、および音声合成結果送信部129は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。
候補文字列受信部114、音声合成結果受信部118、音声関連情報受信部121、および候補文字列特定情報受信部126は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
候補文字列出力部115は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。候補文字列出力部115は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
指示受付部116は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
合成音声出力部119は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。合成音声出力部119は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
固有表現情報格納部120は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。固有表現情報格納部120に固有表現情報が記憶される過程は問わない。例えば、記録媒体を介して固有表現情報が固有表現情報格納部120で記憶されるようになってもよく、通信回線等を介して送信された固有表現情報が固有表現情報格納部120で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された固有表現情報が固有表現情報格納部120で記憶されるようになってもよい。
次に、音声翻訳システム1の動作について説明する。まず、端末装置11の動作について、図3のフローチャートを用いて説明する。
(ステップS301)音声受付部111は、音声を受け付けたか否かを判断する。音声を受け付ければステップS302に行き、音声を受け付けなければステップS301に戻る。
(ステップS302)音声関連情報取得部112は、ステップS301で受け付けられた音声に関する1以上の特徴量である音声関連情報を取得する。
(ステップS303)音声関連情報送信部113は、ステップS302で取得された音声関連情報をサーバ装置12に送信する。
(ステップS304)候補文字列受信部114は、サーバ装置12から、2以上の候補文字列を受信したか否かを判断する。2以上の候補文字列を受信すればステップS305に行き、受信しなければステップS309に行く。
(ステップS305)候補文字列出力部115は、ステップS304で受信された2以上の候補文字列を出力する。
(ステップS306)指示受付部116は、ステップS305で出力された2以上の候補文字列の中から、一の候補文字列の指示(ユーザによる指示)を受け付けたか否かを判断する。指示を受け付ければステップS307に行き、受け付けなければステップS306に行く。
(ステップS307)候補文字列特定情報送信部117は、指示受付部116が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置12に送信する。
(ステップS308)音声合成結果受信部118は、ステップS307における候補文字列特定情報の送信に対応して、サーバ装置12から音声合成結果を受信したか否かを判断する。音声合成結果を受信すればステップS310に行き、受信しなければステップS308に戻る。
(ステップS309)音声合成結果受信部118は、サーバ装置12から音声合成結果を受信したか否かを判断する。音声合成結果を受信すればステップS310に行き、受信しなければステップS304に戻る。
(ステップS310)合成音声出力部119は、ステップS308、またはステップS309で受信された音声合成結果を用いて音声出力し、ステップS301に戻る。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、サーバ装置12の動作について、図4のフローチャートを用いて説明する。
(ステップS401)音声関連情報受信部121は、端末装置11から音声関連情報を受信したか否かを判断する。音声関連情報を受信すればステップS402に行き、音声関連情報を受信しなければステップS401に戻る。
(ステップS402)音声認識部122は、ステップS401で受信された音声関連情報を用いて、音声認識処理を行う。そして、音声認識部122は、1以上の音素列および1以上の音声認識文字列を取得する。なお、音声認識文字列は、音声認識結果である。
(ステップS403)類似音素列取得部123は、ステップS402で取得された音素列に類似する1以上の音素列を、固有表現情報格納部120から取得する。かかる処理を、類似音素列取得処理という。類似音素列取得処理について、図5のフローチャートを用いて説明する。
(ステップS404)類似文字列取得部124は、ステップS403で取得された1以上の音素列に対応する1以上の類似文字列を、固有表現情報格納部120から取得する。
(ステップS405)制御部130は、音声認識部122がステップS402で取得した文字列と、類似文字列取得部124がステップS404で取得した1以上の各類似文字列とを比較する。そして、制御部130は、音声認識部122が取得した文字列と一致する類似文字列が存在するか否かを判断する。音声認識部122が取得した文字列と一致する類似文字列が存在すればステップS409に行き、存在しなければステップS406に行く。
(ステップS406)候補文字列送信部125は、ステップS402で取得した文字列と、ステップS404で取得した1以上の各類似文字列とを用いて、2以上の候補文字列を構成する。
(ステップS407)候補文字列送信部125は、ステップS406で構成した2以上の候補文字列を端末装置11に送信する。
(ステップS408)候補文字列特定情報受信部126は、ステップS407における2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置11から受信したか否かを判断する。候補文字列特定情報を受信すればステップS409に行き、受信しなければステップS408に戻る。
(ステップS409)ステップS408から遷移してきた場合、機械翻訳部127は、候補文字列特定情報に対応する音声認識文字列または類似文字列を取得する。また、ステップS405から遷移してきた場合、機械翻訳部127は、音声認識部122が取得した文字列を取得する。
(ステップS410)機械翻訳部127は、ステップS409で取得した文字列を翻訳し、翻訳結果を取得する。
(ステップS411)音声合成部128は、ステップS410で取得された翻訳結果を音声合成し、音声合成結果を取得する。
(ステップS412)音声合成結果送信部129は、ステップS411で取得された音声合成結果を端末装置11に送信し、ステップS401に戻る。
なお、図4のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、ステップS403の類似音素列取得処理について、図5のフローチャートを用いて説明する。
(ステップS501)類似音素列取得部123は、ステップS402における音声認識処理により得られた音声認識文字列(第一の音素列という)を取得する。
(ステップS502)類似音素列取得部123は、カウンタiに1を代入する。
(ステップS503)類似音素列取得部123は、固有表現情報格納部120にi番目の音素列(第二の音素列という)が存在するか否かを判断する。i番目の第二の音素列が存在すればステップS504に行き、i番目の第二の音素列が存在しなければステップS507に行く。
(ステップS504)類似音素列取得部123は、ステップS501で取得した第一の音素列と、i番目の第二の音素列との類似度を算出する。
(ステップS505)類似音素列取得部123は、ステップS504で算出した類似度を、i番目の第二の音素列に対応付けて、図示しない記録媒体に一時蓄積する。
(ステップS506)類似音素列取得部123は、カウンタiを1、インクリメントし、ステップS503に戻る。
(ステップS507)類似音素列取得部123は、ステップS505で一時蓄積した類似度をキーとして、第二の音素列をソートする。
(ステップS508)類似音素列取得部123は、所定の条件を満たすほど類似している1または2以上の音素列(類似音素列)を固有表現情報格納部120から取得し、上位処理にリターンする。
以下、本実施の形態における音声翻訳システム1の具体的な動作(行った実験)について説明する。
本実験では、サーバ装置12の固有表現情報格納部120は、図6に示す固有表現管理表を保持している。固有表現管理表は「ID」「文字列」「音素列」を有するレコード(固有表現情報)を1以上格納している。ここでは、固有表現情報は、5095存在する。また、固有表現情報が有する音素列の固有表現音素記号化手法は「Ximera」という手法を用いている。また、類似音素列取得部123が利用する類似度の算出のアルゴリズムは、BLEU(数式1)である。また、類似音素列取得部123が利用する所定の条件は「類似度が最大の音素列」である。
そして、実験において、ユーザは、300の文を音声により入力した。以下、2つの例を用いて、音声翻訳システム1の具体的な動作について説明する。
例えば、ユーザが「雑誌売り場はどこですか」と、端末装置11に対して音声入力した。次に、端末装置11の音声受付部111は、音声を受け付ける。そして、音声関連情報取得部112は、受け付けられた音声に関する1以上の特徴量である音声関連情報を取得する。音声関連情報送信部113は、取得された音声関連情報をサーバ装置12に送信する。
次に、サーバ装置12の音声関連情報受信部121は、端末装置11から1以上の特徴量である音声関連情報を受信する。
次に、音声認識部122は、受信された音声関連情報を用いて、音声認識処理を行う。そして、音声認識部122は、音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」と音声認識文字列「斬新売り場はどこですか」とを取得する。
次に、類似音素列取得部123は、取得された音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」に類似する1以上の音素列を、BLUEを用いて探索する。そして、類似音素列取得部123は、図6に示す固有表現管理表から類似音素列「z a q sh i u r i b a w a d o k o d e s u k a」取得する。
次に、類似文字列取得部124は、取得された音素列「z a q sh i u r i b a w a d o k o d e s u k a」に対応する類似文字列「雑誌売り場はどこですか」を、固有表現管理表から取得する。
次に、制御部130は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを比較する。そして、制御部130は、両文字列が一致しない、と判断する。
次に、候補文字列送信部125は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを用いて、2つの候補文字列を構成する。例えば、構成した候補文字列は「1:雑誌売り場はどこですか,2:斬新売り場はどこですか」である。ここで構成とは、送信するデータ構造にすることである。
次に、候補文字列送信部125は、構成した2つの候補文字列「1:雑誌売り場はどこですか,2:斬新売り場はどこですか」を端末装置11に送信する。
次に、端末装置11の候補文字列受信部114は、サーバ装置12から、2つの候補文字列「1:雑誌売り場はどこですか,2:斬新売り場はどこですか」を受信する。
次に、候補文字列出力部115は、受信された候補文字列を出力する。候補文字列の出力例を図7に示す。そして、図7に示すように、ユーザは、「雑誌売り場はどこですか」の文をチェックし、「送信」ボタンを押下した、とする。
次に、指示受付部116は、出力された2つの候補文字列の中から、一の候補文字列「雑誌売り場はどこですか」の指示(ユーザによる指示)を受け付ける。
そして、候補文字列特定情報送信部117は、受け付けた指示に対応する候補文字列「雑誌売り場はどこですか」を特定する候補文字列特定情報「1」を取得する。そして、候補文字列特定情報送信部117は、候補文字列特定情報「1」をサーバ装置12に送信する。
次に、サーバ装置12の候補文字列特定情報受信部126は、候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報「1」を、端末装置11から受信する。
次に、機械翻訳部127は、候補文字列特定情報「1」に対応する類似文字列「雑誌売り場はどこですか」を取得する。
次に、機械翻訳部127は、取得した文字列「雑誌売り場はどこですか」を翻訳し、翻訳結果「Where is the magazine counter?」を取得する。
次に、音声合成部128は、取得された翻訳結果「Where is the magazine counter?」を音声合成し、音声合成結果を取得する。
そして、音声合成結果送信部129は、取得された音声合成結果を端末装置11に送信する。
次に、音声合成結果受信部118は、候補文字列特定情報の送信に対応して、サーバ装置12から音声合成結果を受信する。
そして、合成音声出力部119は、受信された音声合成結果を用いて音声出力する。
次に、ユーザが「フロントは内線九番です」と、端末装置11に対して音声入力した。そして、上記と同様の動作により、サーバ装置12の音声認識部122は、音素列「j o ng t o w a n a i s e ng k j u u b a ng d e s u」と音声認識文字列「夜んとは内線九番で」とを取得する。
そして、次に、類似音素列取得部123は、取得された音素列「j o ng t o w a n a i s e ng k j u u b a ng d e s u」に類似する1以上の音素列を、BLUEを用いて探索する。そして、類似音素列取得部123は、図6に示す固有表現管理表から類似音素列「f u r o ng t o w a n a i s e ng k j u u b a ng d e s u」取得する。
次に、類似文字列取得部124は、取得された音素列「f u r o ng t o w a n a i s e ng k j u u b a ng d e s u」に対応する類似文字列「フロントは内線九番です」を、固有表現管理表から取得する。
次に、制御部130は、音声認識文字列「夜んとは内線九番で」と、類似文字列「フロントは内線九番です」とを比較する。そして、制御部130は、両文字列が一致しない、と判断する。
次に、候補文字列送信部125は、音声認識文字列「夜んとは内線九番で」と、類似文字列「フロントは内線九番です」とを用いて、2つの候補文字列「1:フロントは内線九番です,2:夜んとは内線九番で」を構成する。
次に、候補文字列送信部125は、構成した2つの候補文字列「1:フロントは内線九番です,2:夜んとは内線九番で」を端末装置11に送信する。
次に、端末装置11の候補文字列受信部114は、サーバ装置12から、2つの候補文字列「1:フロントは内線九番です,2:夜んとは内線九番で」を受信する。
次に、候補文字列出力部115は、受信された候補文字列を出力する。
そして、ユーザは、「フロントは内線九番です」の文をチェックし、「送信」ボタンを押下した、とする。
次に、指示受付部116は、出力された2つの候補文字列の中から、一の候補文字列「フロントは内線九番です」の指示(ユーザによる指示)を受け付ける。
そして、候補文字列特定情報送信部117は、受け付けた指示に対応する候補文字列を特定する候補文字列特定情報「1」を取得する。そして、候補文字列特定情報送信部117は、候補文字列特定情報「1」をサーバ装置12に送信する。
次に、サーバ装置12の候補文字列特定情報受信部126は、候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報「1」を、端末装置11から受信する。
次に、機械翻訳部127は、候補文字列特定情報「1」に対応する類似文字列「フロントは内線九番です」を取得する。
次に、機械翻訳部127は、取得した文字列「フロントは内線九番です」を翻訳し、翻訳結果「Extension because of the connection to the reception desk is the ninth.」を取得する。
次に、音声合成部128は、取得された翻訳結果「Extension because of the connection to the reception desk is the ninth.」を音声合成し、音声合成結果を取得する。
そして、音声合成結果送信部129は、取得された音声合成結果を端末装置11に送信する。
次に、音声合成結果受信部118は、候補文字列特定情報の送信に対応して、サーバ装置12から音声合成結果を受信する。
そして、合成音声出力部119は、受信された音声合成結果を用いて音声出力する。
以上の実験において、音声認識の段階において、認識が成功した数は235で、失敗した数は65となった。そして、認識失敗した文をさらに類似文検索した結果、一番スコア(類似度)が良かったものが意図した文(検索成功)であった数は53で、意図しなかった文(検索失敗)であった数は12であった。
つまり、「認識成功:235 (78.3%)、認識失敗:65 (21.7%)」、「検索成功:53、検索失敗:12」であった。
つまり、認識成功文と検索成功文とを同時に提示してユーザに選択させることにより、発話した文が意図どおりに機械翻訳部127に渡る数は235+53=288(96.0%)になる。以上より、本実験において、音声翻訳としての精度を大幅に上げることができたことが分かる。
以上、本実施の形態によれば、音を表す音素記号列を検索のキーとして、類似文の検索を行うことにより、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における端末装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声、または前記音声受付部が受け付けた音声に関する1以上の特徴量である音声関連情報を取得する音声関連情報取得部と、前記音声関連情報を前記サーバ装置に送信する音声関連情報送信部と、前記サーバ装置から音声合成結果を受信する音声合成結果受信部と、前記音声合成結果を用いて音声出力する合成音声出力部として機能させるためのプログラム、である。
また、上記プログラムにおいて、コンピュータを、前記サーバ装置から、2以上の候補文字列を受信する候補文字列受信部と、前記候補文字列受信部が受信した2以上の候補文字列を出力する候補文字列出力部と、前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、前記サーバ装置に送信する候補文字列特定情報送信部としてさらに機能させることは好適である。
また、本実施の形態におけるサーバ装置を実現するソフトウェアは、以下のようなプログラムである。つまり、記憶媒体に、音素列と文字列とを有する2以上の固有表現情報を格納しており、コンピュータを、前記音声関連情報を受信する音声関連情報受信部と、前記音声関連情報を用いて、音声認識し、音素列を取得する音声認識部と、前記音声認識部が取得した音素列に類似する音素列を、前記記憶媒体から取得する類似音素列取得部と、前記類似音素列取得部が取得した音素列に対応する文字列である類似文字列を、前記記憶媒体から取得する類似文字列取得部と、前記類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、前記音声合成結果を前記端末装置に送信する音声合成結果送信部として機能させることは好適である。
また、上記プログラムにおいて、前記音声認識部は、前記音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得し、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する1以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した1以上の音素列に対応する1以上の類似文字列を取得し、コンピュータを、前記音声認識部が取得した1以上の音声認識文字列および前記類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を、前記端末装置に送信する候補文字列送信部と、前記2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、前記端末装置から受信する候補文字列特定情報受信部としてさらに機能させ、前記機械翻訳部は、前記候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得するものとして、コンピュータを機能させることは好適である。
また、上記プログラムにおいて、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する2以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した2以上の音素列に対応する2以上の文字列である2以上の類似文字列を取得し、コンピュータを、前記類似文字列取得部が取得した2以上の類似文字列である2以上の候補文字列を、前記端末装置に送信する候補文字列送信部と、前記2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、前記端末装置から受信する候補文字列特定情報受信部としてさらに機能させ、前記機械翻訳部は、前記候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得するものとして、コンピュータを機能させることは好適である。
また、上記プログラムにおいて、コンピュータを、前記音声認識部が取得した文字列と前記類似文字列取得部が取得した1以上の各類似文字列とを比較し、前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した1以上の類似文字列の中に存在するか否かを判断する制御部としてさらに機能させ、前記候補文字列送信部は、前記候補文字列を送信しないものとして、コンピュータを機能させることは好適である。
(実施の形態2)
本実施の形態において、スタンドアロンの音声翻訳装置について説明する。本実施の形態における音声翻訳装置の機能は、実施の形態1の音声翻訳システム1の機能と同様である。
図8は、本実施の形態における音声翻訳装置2のブロック図である。音声翻訳装置2は、固有表現情報格納部120、音声受付部111、音声認識部201、類似音素列取得部123、類似文字列取得部124、候補文字列出力部202、指示受付部116、機械翻訳部203、音声合成部128、合成音声出力部204、および制御部130を具備する。
音声認識部201は、音声受付部111が受け付けた音声を音声認識し、音素列を取得する。また、音声認識部201は、音声受付部111が受け付けた音声を音声認識し、音素列と音声認識文字列とを取得しても良い。また、音声認識部201は、音声受付部111が受け付けた音声に関する1以上の特徴量である音声関連情報を取得し、当該音声関連情報を用いて、音声認識し、1以上の音素列または、1以上の音素列と1以上の音声認識文字列とを取得しても良い。
候補文字列出力部202は、2以上の候補文字列を出力する。2以上の候補文字列は、通常、音声認識部201が取得した1以上の音声認識文字列および類似文字列取得部124が取得した1以上の類似文字列である。ただし、2以上の候補文字列は、類似文字列取得部124が取得した2以上の類似文字列であっても良い。
機械翻訳部203は、類似文字列取得部124が取得した類似文字列を翻訳し、翻訳結果を取得する。機械翻訳部203は、指示受付部116が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得しても良い。機械翻訳部203は、候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得しても良い。
合成音声出力部204は、音声合成部128が取得した音声合成結果を用いて音声出力する。
音声認識部201、機械翻訳部203は、通常、MPUやメモリ等から実現され得る。音声認識部201等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
合成音声出力部204は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。合成音声出力部204は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音声翻訳装置2の動作について、図9のフローチャートを用いて説明する。図9のフローチャートにおいて、図3または図4のフローチャートと同一のステップの説明を省略する。なお、図9のフローチャートは、図3または図4のフローチャートと同様のステップにより構成されるので、説明を省略する。また、図9のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音声翻訳装置2の具体的な動作について説明する。
本具体例では、実施の形態1における実験の環境と同じである。つまり、音声翻訳装置2の固有表現情報格納部120は、図6に示す固有表現管理表を保持している。また、固有表現情報が有する音素列の固有表現音素記号化手法は「Ximera」という手法を用いている。また、類似音素列取得部123が利用する類似度の算出のアルゴリズムは、BLEU(数式1)である。また、類似音素列取得部123が利用する所定の条件は「類似度が最大の音素列」である。
例えば、ユーザが「雑誌売り場はどこですか」と、音声翻訳装置2に対して音声入力した。次に、音声翻訳装置2の音声受付部111は、音声を受け付ける。そして、音声認識部201は、受け付けられた音声に対して、音声認識処理を行う。そして、音声認識部201は、音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」と音声認識文字列「斬新売り場はどこですか」とを取得する。
次に、類似音素列取得部123は、取得された音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」に類似する1以上の音素列を、BLUEを用いて探索する。そして、類似音素列取得部123は、図6に示す固有表現管理表から類似音素列「z a q sh i u r i b a w a d o k o d e s u k a」取得する。
次に、類似文字列取得部124は、取得された音素列「z a q sh i u r i b a w a d o k o d e s u k a」に対応する類似文字列「雑誌売り場はどこですか」を、固有表現管理表から取得する。
次に、制御部130は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを比較する。そして、制御部130は、両文字列が一致しない、と判断する。
次に、候補文字列出力部202は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを用いて、2つの候補文字列を構成する。例えば、構成した候補文字列は「1:雑誌売り場はどこですか,2:斬新売り場はどこですか」である。
次に、候補文字列出力部202は、候補文字列を出力する。候補文字列の出力例を図7に示す。そして、図7に示すように、ユーザは、「雑誌売り場はどこですか」の文をチェックし、「送信」ボタンを押下した、とする。
次に、指示受付部116は、出力された2つの候補文字列の中から、一の候補文字列「雑誌売り場はどこですか」の指示(ユーザによる指示)を受け付ける。
次に、機械翻訳部203は、候補文字列特定情報「1」に対応する類似文字列「雑誌売り場はどこですか」を取得する。
次に、機械翻訳部203は、取得した文字列「雑誌売り場はどこですか」を翻訳し、翻訳結果「Where is the magazine counter?」を取得する。
次に、音声合成部128は、取得された翻訳結果「Where is the magazine counter?」を音声合成し、音声合成結果を取得する。
そして、合成音声出力部204は、音声合成結果を用いて音声出力する。
以上、本実施の形態によれば、音を表す音素記号列を検索のキーとして、類似文の検索を行うことにより、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。
なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記憶媒体に、音素列と文字列とを有する2以上の固有表現情報を格納しており、コンピュータを、音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、前記音声認識部が取得した音素列に類似する音素列を、前記記憶媒体から取得する類似音素列取得部と、前記類似音素列取得部が取得した音素列に対応する文字列を取得する文字列取得部と、前記文字列取得部が取得した文字列を翻訳し、翻訳結果を取得する機械翻訳部と、前記機械翻訳部が取得した翻訳結果を音声合成する音声合成部と、前記音声合成結果を用いて音声出力する合成音声出力部として機能させるためのプログラムである。
また、上記プログラムにおいて、前記音声認識部は、前記音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得し、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する1以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した1以上の音素列に対応する1以上の文字列である1以上の類似文字列を取得し、前記音声認識部が取得した1以上の音声認識文字列および前記類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、前記機械翻訳部は、前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得するものとしてコンピュータを機能させることは好適である。
また、上記プログラムにおいて、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する2以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した2以上の音素列に対応する2以上の類似文字列を取得し、前記類似文字列取得部が取得した2以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、前記機械翻訳部は、前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得するものとしてコンピュータを機能させることは好適である。
また、上記プログラムにおいて、コンピュータを、前記音声認識部が取得した文字列と前記類似文字列取得部が取得した1以上の各類似文字列とを比較し、前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した1以上の類似文字列の中に存在するか否かを判断する制御部としてさらに機能させ、前記候補文字列出力部は、前記候補文字列を出力しないものとして、コンピュータを機能させることは好適である。
また、図10は、本明細書で述べたプログラムを実行して、上述した実施の形態の音声翻訳装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図10は、このコンピュータシステム340の概観図であり、図11は、コンピュータシステム340の内部構成を示す図である。
図10において、コンピュータシステム340は、FDドライブ3411、CD−ROMドライブ3412を含むコンピュータ341と、キーボード342と、マウス343と、モニタ344と、マイク345とを含む。
図11において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、MPU3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム340に、上述した実施の形態の音声翻訳装置等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ341に、上述した実施の形態の音声翻訳装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、モデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる音声翻訳システムは、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる、という効果を有し、音声翻訳システム等として有用である。
1 音声翻訳システム
2 音声翻訳装置
11 端末装置
12 サーバ装置
111 音声受付部
112 音声関連情報取得部
113 音声関連情報送信部
114 候補文字列受信部
115、202 候補文字列出力部
116 指示受付部
117 候補文字列特定情報送信部
118 音声合成結果受信部
119、204 合成音声出力部
120 固有表現情報格納部
121 音声関連情報受信部
122、201 音声認識部
123 類似音素列取得部
124 類似文字列取得部
125 候補文字列送信部
126 候補文字列特定情報受信部
127、203 機械翻訳部
128 音声合成部
129 音声合成結果送信部
130 制御部

Claims (10)

  1. 端末装置とサーバ装置とを具備する音声翻訳システムであって、
    前記端末装置は、
    音声を受け付ける音声受付部と、
    前記音声受付部が受け付けた音声、または前記音声受付部が受け付けた音声に関する1以上の特徴量である音声関連情報を取得する音声関連情報取得部と、
    前記音声関連情報を前記サーバ装置に送信する音声関連情報送信部と、
    前記サーバ装置から音声合成結果を受信する音声合成結果受信部と、
    前記音声合成結果を用いて音声出力する合成音声出力部とを具備し、
    前記サーバ装置は、
    音素列と文字列とを有する2以上の固有表現情報を格納し得る固有表現情報格納部と、
    前記音声関連情報を受信する音声関連情報受信部と、
    前記音声関連情報を用いて、音声認識し、音素列を取得する音声認識部と、
    前記音声認識部が取得した音素列に類似する音素列を、前記固有表現情報格納部から取得する類似音素列取得部と、
    前記類似音素列取得部が取得した音素列に対応する文字列である類似文字列を、前記固有表現情報格納部から取得する類似文字列取得部と、
    前記類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、
    前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を前記端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
  2. 前記音声認識部は、
    前記音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得し、
    前記類似音素列取得部は、
    前記音声認識部が取得した音素列に類似する1以上の音素列を、前記固有表現情報格納部から取得し、
    前記類似文字列取得部は、
    前記類似音素列取得部が取得した1以上の音素列に対応する1以上の類似文字列を取得し、
    前記音声認識部が取得した1以上の音声認識文字列および前記類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を、前記端末装置に送信する候補文字列送信部と、
    前記2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、前記端末装置から受信する候補文字列特定情報受信部とをさらに具備し、
    前記機械翻訳部は、
    前記候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得し、
    前記端末装置は、
    前記サーバ装置から、2以上の候補文字列を受信する候補文字列受信部と、
    前記候補文字列受信部が受信した2以上の候補文字列を出力する候補文字列出力部と、
    前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、
    前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、前記サーバ装置に送信する候補文字列特定情報送信部とをさらに具備する請求項1記載の音声翻訳システム。
  3. 前記類似音素列取得部は、
    前記音声認識部が取得した音素列に類似する2以上の音素列を、前記固有表現情報格納部から取得し、
    前記類似文字列取得部は、
    前記類似音素列取得部が取得した2以上の音素列に対応する2以上の文字列である2以上の類似文字列を取得し、
    前記類似文字列取得部が取得した2以上の類似文字列である2以上の候補文字列を、前記端末装置に送信する候補文字列送信部と、
    前記2以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、前記端末装置から受信する候補文字列特定情報受信部とをさらに具備し、
    前記機械翻訳部は、
    前記候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得し、
    前記端末装置は、
    前記サーバ装置から、2以上の候補文字列を受信する候補文字列受信部と、
    前記候補文字列受信部が受信した2以上の候補文字列を出力する候補文字列出力部と、
    前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、
    前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、前記サーバ装置に送信する候補文字列特定情報送信部とをさらに具備する請求項1記載の音声翻訳システム。
  4. 前記サーバ装置は、
    前記音声認識部が取得した文字列と前記類似文字列取得部が取得した1以上の各類似文字列とを比較し、前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した1以上の類似文字列の中に存在するか否かを判断する制御部をさらに具備し、
    前記候補文字列送信部は、
    前記候補文字列を送信しない請求項2または請求項3記載の音声翻訳システム。
  5. 音素列と文字列とを有する2以上の固有表現情報を格納し得る固有表現情報格納部と、
    音声を受け付ける音声受付部と、
    前記音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、
    前記音声認識部が取得した音素列に類似する音素列を、前記固有表現情報格納部から取得する類似音素列取得部と、
    前記類似音素列取得部が取得した音素列に対応する文字列である類似文字列を取得する類似文字列取得部と、
    前記類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、
    前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を用いて音声出力する合成音声出力部とを具備する音声翻訳装置。
  6. 前記音声認識部は、
    前記音声関連情報を用いて、音声認識し、1以上の音素列および音声認識結果である1以上の文字列である1以上の音声認識文字列を取得し、
    前記類似音素列取得部は、
    前記音声認識部が取得した音素列に類似する1以上の音素列を、前記固有表現情報格納部から取得し、
    前記類似文字列取得部は、
    前記類似音素列取得部が取得した1以上の音素列に対応する1以上の文字列である1以上の類似文字列を取得し、
    前記音声認識部が取得した1以上の音声認識文字列および前記類似文字列取得部が取得した1以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、
    前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、
    前記機械翻訳部は、
    前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得する請求項5記載の音声翻訳装置。
  7. 前記類似音素列取得部は、
    前記音声認識部が取得した音素列に類似する2以上の音素列を、前記固有表現情報格納部から取得し、
    前記類似文字列取得部は、
    前記類似音素列取得部が取得した2以上の音素列に対応する2以上の類似文字列を取得し、
    前記類似文字列取得部が取得した2以上の類似文字列である2以上の候補文字列を出力する候補文字列出力部と、
    前記候補文字列出力部が出力した2以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、
    前記機械翻訳部は、
    前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得する請求項5記載の音声翻訳装置。
  8. 前記音声認識部が取得した文字列と前記類似文字列取得部が取得した1以上の各類似文字列とを比較し、前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した1以上の類似文字列の中に存在するか否かを判断する制御部をさらに具備し、
    前記候補文字列出力部は、
    前記候補文字列を出力しない請求項6または請求項7記載の音声翻訳装置。
  9. 記憶媒体に、
    音素列と文字列とを有する2以上の固有表現情報を格納しており、
    音声受付部、音声認識部、類似音素列取得部、文字列取得部、機械翻訳部、音声合成部、および合成音声出力部により実現される音声翻訳方法であって、
    前記音声受付部が、音声を受け付ける音声受付ステップと、
    前記音声認識部が、前記音声受付ステップで受け付けられた音声を音声認識し、音素列を取得する音声認識ステップと、
    前記類似音素列取得部が、前記音声認識ステップで取得された音素列に類似する音素列を、前記記憶媒体から取得する類似音素列取得ステップと、
    前記文字列取得部が、前記類似音素列取得ステップで取得された音素列に対応する文字列を取得する文字列取得ステップと、
    前記機械翻訳部が、前記文字列取得ステップで取得された文字列を翻訳し、翻訳結果を取得する機械翻訳ステップと、
    前記音声合成部が、前記機械翻訳ステップで取得された翻訳結果を音声合成し、音声合成結果を取得する音声合成ステップと、
    前記合成音声出力部が、前記音声合成結果を用いて音声出力する合成音声出力ステップとを具備する音声翻訳方法。
  10. 記憶媒体に、
    音素列と文字列とを有する2以上の固有表現情報を格納しており、
    コンピュータを、
    音声を受け付ける音声受付部と、
    前記音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、
    前記音声認識部が取得した音素列に類似する音素列を、前記記憶媒体から取得する類似音素列取得部と、
    前記類似音素列取得部が取得した音素列に対応する文字列を取得する文字列取得部と、
    前記文字列取得部が取得した文字列を翻訳し、翻訳結果を取得する機械翻訳部と、
    前記機械翻訳部が取得した翻訳結果を音声合成する音声合成部と、
    前記音声合成結果を用いて音声出力する合成音声出力部として機能させるためのプログラム。
JP2010217559A 2010-09-28 2010-09-28 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム Active JP5704686B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010217559A JP5704686B2 (ja) 2010-09-28 2010-09-28 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010217559A JP5704686B2 (ja) 2010-09-28 2010-09-28 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2012073369A true JP2012073369A (ja) 2012-04-12
JP5704686B2 JP5704686B2 (ja) 2015-04-22

Family

ID=46169614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010217559A Active JP5704686B2 (ja) 2010-09-28 2010-09-28 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5704686B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015052743A (ja) * 2013-09-09 2015-03-19 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2015052745A (ja) * 2013-09-09 2015-03-19 Necパーソナルコンピュータ株式会社 情報処理装置、制御方法、及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031385A (ja) * 2004-07-15 2006-02-02 Nec Corp 音声入力による検索システムと方法並びにプログラム
JP2007094086A (ja) * 2005-09-29 2007-04-12 Toshiba Corp 入力装置、入力方法および入力プログラム
JP2008076865A (ja) * 2006-09-22 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2008083376A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置
JP2008243080A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 音声を翻訳する装置、方法およびプログラム
US20090177461A1 (en) * 2008-01-09 2009-07-09 Fluential, Inc. Mobile Speech-to-Speech Interpretation System

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031385A (ja) * 2004-07-15 2006-02-02 Nec Corp 音声入力による検索システムと方法並びにプログラム
JP2007094086A (ja) * 2005-09-29 2007-04-12 Toshiba Corp 入力装置、入力方法および入力プログラム
JP2008076865A (ja) * 2006-09-22 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2008083376A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置
JP2008243080A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 音声を翻訳する装置、方法およびプログラム
US20090177461A1 (en) * 2008-01-09 2009-07-09 Fluential, Inc. Mobile Speech-to-Speech Interpretation System

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015052743A (ja) * 2013-09-09 2015-03-19 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2015052745A (ja) * 2013-09-09 2015-03-19 Necパーソナルコンピュータ株式会社 情報処理装置、制御方法、及びプログラム

Also Published As

Publication number Publication date
JP5704686B2 (ja) 2015-04-22

Similar Documents

Publication Publication Date Title
JP5598998B2 (ja) 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
US7552045B2 (en) Method, apparatus and computer program product for providing flexible text based language identification
US20080126093A1 (en) Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
US8954335B2 (en) Speech translation system, control device, and control method
JP6327848B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
KR20090130028A (ko) 분산 음성 검색을 위한 방법 및 장치
US8131550B2 (en) Method, apparatus and computer program product for providing improved voice conversion
GB2557714A (en) Determining phonetic relationships
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
KR20090111825A (ko) 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치
US20120166176A1 (en) Speech translation system, dictionary server, and program
KR20080040960A (ko) 대응 문형 패턴 기반 자동통역 방법 및 장치
JPWO2016147342A1 (ja) 情報提供システム
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
CN112580335A (zh) 多音字消歧方法及装置
US7181397B2 (en) Speech dialog method and system
JP5704686B2 (ja) 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム
CN112614482A (zh) 移动端外语翻译方法、系统及存储介质
US20200243092A1 (en) Information processing device, information processing system, and computer program product
CN114586021B (zh) 信息输出装置、信息输出方法以及记录介质
CN117059076A (zh) 方言语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150220

R150 Certificate of patent or registration of utility model

Ref document number: 5704686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250