JP6462651B2

JP6462651B2 - 音声翻訳装置、音声翻訳方法及びプログラム

Info

Publication number: JP6462651B2
Application number: JP2016241190A
Authority: JP
Inventors: ハイリィアンリー; シンリー; リンジュワン
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-02-19
Filing date: 2016-12-13
Publication date: 2019-01-30
Anticipated expiration: 2036-12-13
Also published as: JP2017146587A; CN107102990A; US20170242847A1

Description

本発明の実施形態は、音声翻訳装置、音声翻訳方法及びプログラムに関する。

会議は、人々が日常の仕事や生活において話し合うための重要な手段である。更に、文化と経済のグローバル化により、異なる母国語を有する人々の会議が増加している。特に、ほとんどの多国籍企業において、複数言語の会議は極めて頻繁に行われる。例えば、会議に参加している人々は、異なる母国語（中国語、日本語、英語等）を用いて話し合いを行う。

この理由により、多言語会議において音声翻訳サービスを提供するための音声認識・機械翻訳技術が開発されている。この技術の音声認識・翻訳精度を向上させるため、異なったドメイン（分野）毎に多数の単語セットを事前収集しておく。そして実際の会議において、この会議に関連するドメインの単語セットを用いて、音声認識・機械翻訳を行う。

しかしながら、実際の会議に適用する時、従来技術によるドメイン単語セットを用いた上記翻訳方法には、高コストと低効率という問題を有する。ドメイン単語セットが膨大であり、且つ動的に更新することが困難であるため、その効果が明白でない。

更に実際の会議において、会議の議題や参加者により、多くの異なった専門技術語や組織独自の単語が用いられる。これは音声認識・機械翻訳の精度の低下をもたらす。結果として、会議音声翻訳サービスの品質に悪影響を与える。

ＵＳ８７６８６８６号公報ＵＳ８４６３８０６号公報ＵＳ７０８９４９３号公報

多言語会議において、音声認識・機械翻訳の精度を向上させることが可能な音声翻訳装置、音声翻訳方法及びプログラムを提供する。

実施形態に係る音声翻訳装置は、音声認識部、機械翻訳部、抽出部、及び受信部を備える。前記抽出部は、会議の関連情報に基づいて、単語セットから前記会議に用いられる単語を抽出し、この抽出した単語を前記音声認識部及び前記機械翻訳部へ送る。前記受信部は、前記会議における第１言語音声を受信する。前記音声認識部は、前記抽出した単語に基づいて、前記第１言語音声を第１言語テキストとして認識する。前記機械翻訳部は、前記抽出した単語に基づいて、前記第１言語テキストを第２言語テキストへ翻訳する。前記会議の関連情報は、前記会議の議題及びユーザ情報を含む。前記単語セットは、ユーザ語彙、グループ語彙、及びユーザとグループ間の関係情報を含む。前記抽出部は、前記ユーザ情報に基づいて前記ユーザ語彙から前記ユーザに関連するユーザ単語を抽出し、前記関係情報に基づいて前記グループ語彙から前記ユーザが属するグループのグループ語を抽出し、前記議題に基づいて、抽出されたユーザ単語及びグループ語から前記会議に関連する単語を抽出する。

本発明の１実施形態に係る会議音声翻訳方法のフローチャートである。本発明の１実施形態に係る会議音声翻訳方法において、抽出された単語のフィルタリング処理の第１フローチャートである。本発明の１実施形態に係る会議音声翻訳方法において、抽出された単語のフィルタリング処理の第２フローチャートである。本発明の１実施形態に係る会議音声翻訳方法において、抽出された単語のフィルタリング処理の第３フローチャートである。本発明の１実施形態に係る会議音声翻訳方法において、蓄積されたユーザ単語の使用頻度の更新処理のフローチャートである。本発明の１実施形態に係る会議音声翻訳方法において、グループ語の追加処理のフローチャートである。本発明の他の実施形態に係る会議音声翻訳装置のブロック図である。

以下、図面を参照しながら、発明を実施するための実施形態について説明する。

＜会議音声翻訳方法＞
図１は本発明の１実施形態に係る、会議音声翻訳方法のフローチャートである。

図１に示すように、本実施形態の会議音声翻訳方法は以下のステップを有する。ステップＳ１０１では、会議関連情報１０に基づいて、会議に使用される単語を単語セット２０から抽出する。ステップＳ１０５では、抽出した単語を音声翻訳エンジン３０（音声認識エンジン３０１と機械翻訳エンジン３０５を含む）へ送る。ステップＳ１１０では、該会議中の音声４０から、第１言語の音声を受信する。ステップＳ１１５では、音声認識エンジン３０１を用いて、前記第１言語の音声を、第１言語のテキストとして認識する。ステップＳ１２０では、機械翻訳エンジン３０５を用いて、前記第１言語のテキストを第２言語のテキストに翻訳する。

本実施形態において、会議とは広い意味での会議である。例えば、少なくとも２つの仲間（グループ、又は２人の人々）が参加している会議、少なくとも１人が他の１人以上の人々に向かって行う講義・報告、２人以上の人々の間で雑談する音声や映像を含む。つまり、２人以上の人々が、音声を介してコミュニケーション（伝達）する限り、それは会議に属するとする。

本実施形態において、会議とはオンサイトの会議でもよい。例えば会議参加者が他の会議参加者とダイレクトにコミュニケーションする会議室で会議が開催される場合である。又、会議とはネットワーク会議でもよい。つまり人々がネットワークを介して会議に出席する場合である。ここで会議出席者の音声はネットワークを介して他の会議出席者に伝達される。

本実施形態の会議音声翻訳方法の各ステップを以下、詳細に説明する。

ステップＳ１０１において、会議関連情報１０に基づいて、会議に使用される単語を単語セット２０から抽出する。

本実施形態において、会議関連情報１０は、好ましくは、会議の議題やユーザ情報を含む。ユーザ情報とは、会議参加者の情報である。

単語セット２０は、好ましくは、ユーザ語彙（辞書）、グループ語彙（辞書）、ユーザとグループ間の関係情報を含む。単語セット２０は、複数のユーザ語彙を含む。各ユーザ語彙は該ユーザに関係する単語（例えば、会議履歴に蓄積された該ユーザの単語、該ユーザに特有の単語等）を含む。複数ユーザは単語セット２０内でグループ化されており、各グループはグループ語彙を有する。語彙内の各単語は、原テキスト、この原テキストの発音及び翻訳結果を含む。この翻訳結果は複数言語による翻訳を含んでもよい。

本実施形態において、以下の方法によって、該会議の使用単語が単語セット２０から抽出される。

先ず、該ユーザに関係するユーザ単語を、該ユーザ情報に基づいて単語セット２０内のユーザ語彙から抽出する。又、該ユーザが属するグループのグループ語を、該ユーザと該グループ間の関係情報に基づいて、グループ語彙から抽出する。

次に、ユーザ単語とグループ語の抽出後、好ましくは、会議の議題に基づいて、該会議に関連する単語を、抽出したユーザ単語・グループ語から抽出する。

更に好ましくは、該会議に関係する抽出語をフィルタリングする。例えば、同一単語や低使用頻度の単語を除去する。

次に、本実施形態において、抽出したユーザ単語・グループ語をフィルタリングするための好ましい方法を、図２〜４を参照して説明する。図２は本実施形態の会議音声翻訳方法において、抽出された単語のフィルタリング処理の第１フローチャートである。図３は本実施形態の会議音声翻訳方法において、抽出された単語のフィルタリング処理の第２フローチャートである。図４は本実施形態の会議音声翻訳方法において、抽出された単語のフィルタリング処理の第３フローチャートである。

図２に示すように、ステップＳ２０１において、抽出単語（複数）６０の原テキストの発音が比較される。ステップＳ２０５において、原テキストの発音が一致しているか否かが判定される。原テキストの発音が不一致の場合、抽出単語（複数）が異なる単語と判定される。

原テキストの発音が一致する場合、ステップＳ２１５において、原テキストの発音が一致する単語（複数）の、原テキストと翻訳結果を夫々比較する。ステップＳ２２０において、原テキストと翻訳結果が夫々一致するか否か判定する。原テキストの発音は一致するが、原テキスト及び翻訳結果が不一致の場合、ステップＳ２２５において、使用頻度に基づいてフィルタリングが行われる。

ユーザ単語について、その使用頻度は、例えば、ユーザの会話履歴で使用された回数でもよい。グループ語について、その使用頻度は、例えば、そのグループに属するユーザの会話履歴で使用された回数でもよい。ステップＳ２２５において、使用頻度が所定閾値よりも低い単語を除去する。更に、ステップＳ２２５において、会議の議題とマッチしており、且つ、最も高い使用頻度を有する単語を保持し、他の単語を除去してもよい。

ステップＳ２３０において、原テキストの発音、原テキスト及び翻訳結果が全て一致する場合、これらの単語を同一とみなし、１個の単語のみを保持して、他の同じ単語を除去する。

更に、抽出単語を図３又は図４の方法に基づいてフィルタ処理してもよい。或いは、図２の方法に基づいてフィルタ処理した後、抽出単語を図３又は図４の方法に基づいてフィルタ処理してもよい。つまり、図２・図３・図４に示すフィルタリング方法は、単独で用いてもよいし、組み合わせて用いてもよい。

図３の絶対フィルタリング方法、及び図４の相対フィルタリング方法を、詳細に以下説明する。

図３に示す様に、ステップＳ３０１において、抽出単語（複数）６０を使用頻度の降順（値の大きい順）にソートする。次に、ステップＳ３０５において、使用頻度が所定閾値よりも低い単語を除去する。

図４に示す様に、ステップＳ４０１において、抽出単語（複数）６０を使用頻度の降順にソートする。次に、ステップＳ４０５において、低い使用頻度を有する単語の所定数、又は所定割合を除去する。例えば、低い使用頻度を有する単語を１０００個除去する。又は、低い使用頻度を有する単語の３０％を除去する。

図１に戻って、ステップＳ１０５において、抽出単語を音声翻訳エンジン３０へ送る（追加する）。音声翻訳エンジン３０は、音声認識エンジン３０１と機械翻訳エンジン３０５を含む。これらは当業者に周知のいずれかの音声認識エンジンと機械翻訳エンジンでよい。本実施形態はこれについて限定しない。

ステップＳ１１０において、会議における第１言語の音声を、会議中の音声４０から受信する。

本実施形態において、第１言語は、英語、中国語、日本語など、自然言語のいずれでもよい。第１言語の音声は人によって話されるものでよい。又は、会議出席者によって再生される録音のように、機械によって出力されるものでもよい。本実施形態はこれについて限定しない。

ステップＳ１１５において、音声認識エンジン３０１を用いて、第１言語の音声が第１言語のテキストとして認識される。ステップＳ１２０において、機械翻訳エンジン３０５を用いて、第１言語のテキストが第２言語のテキストに翻訳される。

本実施形態において、第２言語は第１言語と異なる、いかなる言語でもよい。

本実施形態の会議音声翻訳方法によれば、会議の基本情報に基づいて、この会議のみに適した適応データを抽出し、リアルタイムで音声翻訳エンジンに格納する。低コスト・高効率で、高品質な音声翻訳サービスを提供できる。更に、本実施形態の会議音声翻訳方法によれば、会議の議題・ユーザ情報に基づいて、この会議のみに適した単語を単語セットから抽出する。低コスト・高効率で、会議音声翻訳の品質を向上できる。更に、本実施形態の会議音声翻訳方法によれば、抽出単語のフィルタリングにより、データ量・コストを更に減少でき、効率が向上する。

更に望ましくは、本実施形態の会議音声翻訳方法において、会議中のユーザ音声に基づいて、新ユーザ単語が蓄積され、音声翻訳エンジン３０に追加される。

更に望ましくは、本実施形態の会議音声翻訳方法において、会議中のユーザ音声に基づいて、新ユーザ単語が蓄積され、単語セット２０のユーザ語彙に追加される。

次に、本実施形態の新ユーザ単語の蓄積方法を詳細に説明する。

本実施形態において、会議中のユーザ音声に基づいた新ユーザ単語の蓄積方法は、以下の方法のいずれか、又は組み合わせでよい。

（１）会議中のユーザ音声に基づいて、新ユーザ単語の原テキスト、この原テキストの発音・翻訳結果を手入力する。

（２）会議中のユーザ音声に基づいて、新ユーザ単語の原テキストを手入力する。書記素―音素変換モジュール、及び／又は、テキスト-音素変換モジュールを用いて、原テキストの発音を生成する。機械翻訳エンジンを用いて、原テキストの翻訳を生成する。自動的に生成された情報は修正してもよい。

（３）会議中のユーザ音声から声データを収集する。音声認識エンジンを用いて、原テキスト、及び原テキストの発音を生成する。音声翻訳エンジンを用いて、原テキストの翻訳を生成する。自動的に生成された情報は修正してもよい。

（４）会議の音声認識結果及び機械翻訳結果から、登録すべきユーザ単語を選択する。望ましくは、校正後に登録を行う。

（５）会議の音声認識結果及び機械翻訳結果における未知語を検出する。望ましくは、校正後に登録を行う。

上記の望ましい方法に基づいて、新ユーザ単語を蓄積する。しかしながら、当業者に知られている他の新ユーザ単語蓄積方法を使用してもよい。本実施形態は特に制限されない。

更に、会議中のユーザ音声に基づいて、新ユーザ単語を蓄積している処理中に、会議の議題情報、及び新ユーザ単語に関連するユーザ情報を獲得してもよい。

更に、本実施形態において、蓄積した新ユーザ単語を単語セット２０のユーザ語彙に追加後、望ましくは、ユーザ単語の使用頻度をリアルタイムで、又は今後の会議で更新してもよい。

次に、ユーザ単語の使用頻度の更新方法について、図５を参照して詳細に説明する。図５は、本実施形態の会議音声翻訳方法において、蓄積されたユーザ単語の使用頻度の更新方法のフローチャートである。

図５に示す様に、ステップＳ５０１において、ユーザ単語を獲得する。次に、ステップＳ５０５において、ユーザ単語をユーザの音声記録とマッチングする。即ち、各ユーザ単語について、該ユーザ単語が存在するか否かを判定するために、ユーザの音声記録を調べる。該ユーザ単語が存在する場合は、ステップＳ５１０において、マッチングの回数、即ち、該ユーザ単語がユーザの音声記録に出現する回数を、該ユーザ単語の使用頻度として、データベース中で更新する。次に、ステップＳ５１５において、全てのユーザ単語がマッチングされたか否か（使用頻度を更新したか否か）を判定する。マッチングすべきユーザ単語がない場合、処理を終了する。そうでない場合、処理はステップＳ５０５に戻り、マッチングを続ける。

更に望ましくは、本実施形態の会議音声翻訳方法において、新ユーザ単語を、ユーザ単語に基づいた単語セット２０のグループ語彙に追加してもよい。

次に、グループ語彙への新グループ語の追加方法を、図６を参照して詳細に説明する。図６は、本実施形態の会議音声翻訳方法における、グループ語追加方法のフローチャートである。

図７に示す様に、本実施形態は会議音声翻訳装置７００を提供する。会議音声翻訳装置７００は以下を備える。音声翻訳エンジン３０は、音声認識エンジン３０１と機械翻訳エンジン３０５を含む。抽出部７０１は、会議関連情報１０に基づいて、単語セット２０から会議に使用される単語を抽出し、抽出された単語を音声翻訳エンジン３０へ送る（追加する）。受信部７１０は、会議中に第１言語の音声を受信する。音声認識エンジン３０１は、第１単語の該音声を第１単語のテキストとして認識する。機械翻訳エンジン３０５は、第１言語の該テキストを第２言語のテキストへ翻訳する。更にオプションとして、本実施形態の会議音声翻訳装置７００は、蓄積部７２０を備えてもよい。

ステップＳ６０５において、ユーザ数と、同一ユーザ単語の使用頻度を計算する。具体的には、各ユーザ単語の属性情報は、ユーザ数と使用頻度を含む。該ユーザ単語を含むユーザ語彙数は、ユーザ数とみなされる。各ユーザ語彙において、該ユーザ単語の使用頻度の合計は、ステップＳ６０５で計算された使用頻度とみなされる。

次に、ステップＳ６１０において、ユーザ数が第２閾値より大きいか否か比較される。ステップＳ６２０において、使用頻度が第３閾値より大きいか否か比較される。ユーザ数が第２閾値より大きく、且つ、使用頻度が第３閾値より大きい場合、ステップＳ６２５において、該ユーザ単語を、グループ語としてグループ語彙に追加する。ユーザ数が第２閾値より大きくないか、又は、使用頻度が第３閾値より大きくない場合、ステップＳ６１５において、該ユーザ単語を、グループ語としてグループ語彙に追加しない。

本実施形態の会議音声翻訳方法によれば、会議中に新語を蓄積し、音声翻訳エンジンを自動的に更新することにより、該音声翻訳エンジンを、会議中の音声内容に従って自動的に調整できる。結果として、音声翻訳効果を動的・適応的に遂行できる。更に、本実施形態の会議音声翻訳方法によれば、会議中に新語を蓄積することにより、該新語を単語セットに追加すると共に、今後の会議で適用できる。結果として、会議音声翻訳の品質を定常的に向上できる。

＜会議音声翻訳装置＞
上記実施形態と同様の発明概念に基づいて、図７は他の実施形態に係る、会議音声翻訳装置のブロック図である。次に、本実施形態について、図面を参照して説明する。上記実施形態と同一部分については、その説明を省略する。

図７に示す様に、本実施形態は会議音声翻訳装置７００を提供する。会議音声翻訳装置７００は以下を備える。音声翻訳エンジン３０は、音声認識エンジン３０１と機械翻訳エンジン３０５を含む。抽出部７０１は、会議関連情報１０に基づいて、単語セット２０から会議に使用される単語を抽出し、抽出された単語を音声翻訳エンジン３０へ送る（追加する）。受信部７１０は、会議中に第１言語の音声を受信する。音声認識エンジン３０１は、第１単語の該音声を第１単語のテキストとして認識する。音声翻訳エンジン３０５は、第１言語の該テキストを第２言語のテキストへ翻訳する。更にオプションとして、本実施形態の会議音声翻訳装置７００は、蓄積部７００を備えてもよい。

本実施形態の会議音声翻訳装置７００の様々なユニットとモジュールを以下、図７を参照して詳細に説明する。

抽出部７０１は、会議関連情報１０に基づいて、会議に使用される単語を単語セット２０から抽出する。

本実施形態において、以下の方法によって、抽出部７０１が該会議の使用単語を単語セット２０から抽出する。

先ず、抽出部７０１は、該ユーザに関係するユーザ単語を、該ユーザ情報に基づいて単語セット２０内のユーザ語彙から抽出する。又、該ユーザが属するグループのグループ語を、該ユーザと該グループ間の関係情報に基づいて、グループ語彙から抽出する。

次に、抽出部７０１は、ユーザ単語とグループ語の抽出後、会議の議題に基づいて、該会議に関連する単語を、抽出したユーザ単語・グループ語から抽出する。

更に好ましくは、抽出部７０１はフィルタリング部を含む。フィルタリング部は、該会議に関係する抽出語をフィルタリングする。好ましくは、同一単語や低使用頻度の単語を除去する。

本実施形態において、フィルタリング部によって用いられる、会議に関連した抽出単語のフィルタリング方法は、図２〜４を参照した上記説明と同じである。次に図２〜４を参照して、フィルタリング方法を再度説明する。

図２に示すように、フィルタリング部は、抽出単語（複数）６０の原テキストの発音を比較する。次に、原テキストの発音が一致しているか否かを判定する。原テキストの発音が不一致の場合、抽出単語（複数）を異なる単語と判定する。

原テキストの発音が一致する場合、フィルタリング部は、原テキストの発音が一致する単語（複数）の、原テキストと翻訳結果を夫々比較し、原テキストと翻訳結果が夫々一致するか否を判定する。原テキストの発音は一致するが、原テキスト及び翻訳結果が不一致の場合、フィルタリング部は、使用頻度に基づいてフィルタリングを行う。

ユーザ単語について、その使用頻度は、例えば、ユーザの会話履歴で使用された回数でもよい。グループ語について、その使用頻度は、例えば、そのグループに属するユーザの会話履歴で使用された回数でもよい。フィルタリング部は、使用頻度が所定閾値よりも低い単語を除去する。更に、フィルタリング部は、会議の議題とマッチしており、且つ、最も高い使用頻度を有する単語を保持し、他の単語を除去する。

更にフィルタリング部は、原テキストの発音、原テキスト及び翻訳結果が全て一致する場合、これらの単語を同一とみなし、１個の単語のみを保持して、他の同じ単語を除去する。

更にフィルタリング部は、抽出単語６０を図３又は図４の方法に基づいてフィルタ処理してもよい。或いは、図２の方法に基づいてフィルタ処理した後、抽出単語を図３又は図４の方法に基づいてフィルタ処理してもよい。つまり、図２・図３・図４に示すフィルタリング方法は、単独で用いてもよいし、組み合わせて用いてもよい。

図３に示す様に、フィルタリング部は、抽出単語（複数）６０を使用頻度の降順（値の大きい順）にソートする。次に、フィルタリング部は、使用頻度が所定閾値よりも低い単語を除去する。

図４に示す様に、フィルタリング部は、抽出単語（複数）６０を使用頻度の降順にソートする。次に、フィルタリング部は、低い使用頻度を有する単語の所定数、又は所定割合を除去する。例えば、低い使用頻度を有する単語を１０００個除去する。又は、低い使用頻度を有する単語の３０％を除去する。

図７に戻って、抽出部７０１は、会議に関連した単語を抽出後、これらの抽出単語を音声翻訳エンジン３０へ送る（追加する）。音声翻訳エンジン３０は、音声認識エンジン３０１と機械翻訳エンジン３０５を含む。これらは当業者に周知のいずれかの音声認識エンジンと機械翻訳エンジンでよい。本実施形態はこれについて限定しない。

受信部７１０は、会議における第１言語の音声を、会議中の音声４０から受信する。

受信部７１０は、第１言語の受信音声を、音声認識エンジン３０１へ入力する。音声認識エンジン３０１は、第１言語の音声を第１言語のテキストとして認識する。次に機械翻訳エンジン３０５は、第１言語のテキストを第２言語のテキストに翻訳する。

本実施形態の会議音声翻訳装置７００によれば、会議の基本情報に基づいて、この会議のみに適した適応データを抽出し、リアルタイムで音声翻訳エンジンに格納する。低コスト・高効率で、高品質な音声翻訳サービスを提供できる。更に、本実施形態の会議音声翻訳装置によれば、会議の議題・ユーザ情報に基づいて、この会議のみに適した単語を単語セットから抽出する。低コスト・高効率で、会議音声翻訳の品質を向上できる。更に、本実施形態の会議音声翻訳装置によれば、抽出単語のフィルタリングにより、データ量・コストを更に減少でき、効率が向上する。

更に望ましくは、本実施形態の会議音声翻訳装置７００は蓄積部７２０を有する。この蓄積部７２０は、会議中のユーザ音声に基づいて、新ユーザ単語を蓄積し、音声翻訳エンジン３０に追加する。

更に望ましくは、蓄積部７２０は、会議中のユーザ音声に基づいて、新ユーザ単語を蓄積し、単語セット２０のユーザ語彙に追加する。

次に、本実施形態の蓄積部７２０による、新ユーザ単語の蓄積機能を詳細に説明する。

本実施形態において、蓄積部７２０は、以下の機能のいずれか１つを有する。

上記の機能に加えて、蓄積部７２０は、当業者に知られている新ユーザ単語蓄積の他機能を使用してもよい。本実施形態は特に制限されない。

更に、蓄積部７２０は、会議中のユーザ音声に基づいて、新ユーザ単語を蓄積している処理中に、会議の議題情報、及び新ユーザ単語に関連するユーザ情報を獲得してもよい。

更に望ましくは、本実施形態の会議音声翻訳装置７００は、更新部を備えてもよい。この更新部は、蓄積部７２０が蓄積した新ユーザ単語を単語セット２０のユーザ語彙に追加後、ユーザ単語の使用頻度をリアルタイムで、又は今後の会議で更新する。

本実施形態において、更新部によるユーザ単語の使用頻度の更新方法は、図５を参照した上記説明と同じである。次に図５を参照して、使用頻度更新方法を再度説明する。

図５に示す様に、更新部はユーザ単語を獲得する。次に、更新部は、ユーザ単語をユーザの音声記録とマッチングする。即ち、各ユーザ単語について、該ユーザ単語が存在するか否かを判定するために、ユーザの音声記録を調べる。該ユーザ単語が存在する場合は、更新部は、マッチングの回数、即ち、該ユーザ単語がユーザの音声記録に出現する回数を、該ユーザ単語の使用頻度として、データベース中で更新する。最後に、更新部は、全てのユーザ単語がマッチングされたか否か（使用頻度を更新したか否か）を判定する。マッチングすべきユーザ単語がない場合、処理を終了する。そうでない場合、マッチング処理を続ける。

更に望ましくは、本実施形態の会議音声翻訳装置７００はグループ語追加部を有する。グループ語追加部は、新ユーザ単語を、該ユーザ単語に基づいた単語セット２０のグループ語彙に追加する。

本実施形態において、グループ語追加部によるグループ語彙への新グループ語の追加方法は、図６を参照した上記説明と同じである。次に図６を参照して、新グループ語追加方法を再度説明する。

図６に示す様に、グループ語追加部は、グループに属するユーザのユーザ単語を獲得する。

グループ語追加部は、ユーザ数と、同一ユーザ単語の使用頻度を計算する。具体的には、各ユーザ単語の属性情報は、ユーザ数と使用頻度を含む。該ユーザ単語を含むユーザ語彙数は、ユーザ数とみなされる。各ユーザ語彙において、該ユーザ単語の使用頻度の合計は、使用頻度とみなされる。

グループ語追加部は、ユーザ数が第２閾値より大きいか否か比較する。又、使用頻度が第３閾値より大きいか否か比較する。ユーザ数が第２閾値より大きく、且つ、使用頻度が第３閾値より大きい場合、該ユーザ単語を、グループ語としてグループ語彙に追加する。ユーザ数が第２閾値より大きくないか、又は、使用頻度が第３閾値より大きくない場合、該ユーザ単語を、グループ語としてグループ語彙に追加しない。

本実施形態の会議音声翻訳装置７００によれば、会議中に新語を蓄積し、音声翻訳エンジンを自動的に更新することにより、該音声翻訳エンジンを、会議中の音声内容に従って自動的に調整できる。結果として、音声翻訳効果を動的・適応的に遂行できる。更に、本実施形態の会議音声翻訳装置によれば、会議中に新語を蓄積することにより、該新語を単語セットに追加すると共に、今後の会議で適用できる。結果として、会議音声翻訳の品質を定常的に向上できる。

本発明に係る音声翻訳装置、音声翻訳方法及びプログラムは、各実施形態として詳細に説明したが、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、様々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０・・・会議関連情報
２０・・・単語セット
３０・・・音声翻訳エンジン
４０・・・会議中の音声
５０・・・翻訳結果
６０・・・抽出単語
７０・・・フィルタ処理された単語
３０１・・・音声認識エンジン
３０５・・・機械翻訳エンジン
７００・・・会議音声翻訳装置
７０１・・・抽出部
７１０・・・受信部
７２０・・・蓄積部

Claims

音声認識部と、
機械翻訳部と、
会議の関連情報に基づいて、単語セットから前記会議に用いられる単語を抽出し、この抽出した単語を前記音声認識部及び前記機械翻訳部へ送る抽出部と、
前記会議における第１言語音声を受信する受信部とを備え、
前記音声認識部は、前記抽出した単語に基づいて、前記第１言語音声を第１言語テキストとして認識し、
前記機械翻訳部は、前記抽出した単語に基づいて、前記第１言語テキストを第２言語テキストへ翻訳し、
前記会議の関連情報は、前記会議の議題及びユーザ情報を含んでおり、
前記単語セットは、ユーザ語彙、グループ語彙、及びユーザとグループ間の関係情報を含んでおり、
前記抽出部は、
前記ユーザ情報に基づいて、前記ユーザ語彙から前記ユーザに関連するユーザ単語を抽出し、
前記関係情報に基づいて、前記グループ語彙から前記ユーザが属するグループのグループ語を抽出し、
前記議題に基づいて、抽出されたユーザ単語及びグループ語から前記会議に関連する単語を抽出する
ことを特徴とする音声翻訳装置。
前記抽出部は、前記抽出した単語の原テキスト、前記原テキストの発音及び翻訳結果に基づいて、前記抽出した単語をフィルタ処理するフィルタリング部を更に備えた、
請求項１に記載の音声翻訳装置。
前記フィルタリング部は、
抽出した各単語の前記原テキストの発音が一致しているか否か比較し、
前記原テキストの発音が一致している場合、一致した各単語について、前記原テキストと前記翻訳結果が一致しているか否か比較し、
前記原テキストと前記翻訳結果が一致している場合、前記原テキストの発音、前記原テキスト及び前記翻訳結果が全て一致している単語をフィルタ処理し、
前記原テキストと前記翻訳結果の少なくとも１つが一致しない場合、該単語の使用頻度に基づいて、原テキストの発音が一致している単語をフィルタ処理する、
請求項２に記載の音声翻訳装置。
前記フィルタリング部は、
前記使用頻度に基づいて、前記抽出した単語をソートし、
第１閾値より低い使用頻度の単語をフィルタ除去するか、又は、低使用頻度の単語群の内、所定個数又は所定割合の単語をフィルタ除去する、
請求項３に記載の音声翻訳装置。
前記会議における前記ユーザの音声に基づいて、新ユーザ単語を蓄積し、前記新ユーザ単語を前記音声認識部及び前記機械翻訳部へ送る蓄積部を更に備えた、
請求項１に記載の音声翻訳装置。
前記会議における前記ユーザの音声に基づいて、新ユーザ単語を蓄積し、前記新ユーザ単語を前記単語セットの前記ユーザ語彙へ追加する蓄積部を更に備え、
前記新ユーザ単語は、前記会議の議題及びユーザ情報を含む、
請求項１に記載の音声翻訳装置。
前記蓄積部は以下の機能の少なくとも１つを有する、
前記新ユーザ単語の原テキスト、前記原テキストの発音及び翻訳結果をマニュアル入力する；
前記新ユーザ単語の原テキストをマニュアル入力し、テキスト-音素変換モジュールを用いて前記原テキストの発音を生成し、前記機械翻訳部を用いて前記原テキストの翻訳結果を生成する；
前記会議における前記ユーザの音声から声データを収集し、前記音声認識部を用いて原テキスト及びこの発音を生成し、前記機械翻訳部を用いて前記原テキストの翻訳結果を生成する；
前記会議の音声認識結果及び機械翻訳結果から前記新ユーザ単語を選択する；
前記音声認識結果及び前記機械翻訳結果において、未知語を前記新ユーザ単語として検出する；
請求項５に記載の音声翻訳装置。
前記ユーザ語彙のユーザ単語の使用頻度を更新する更新部を更に備えた、
請求項６に記載の音声翻訳装置。
新グループ語を、ユーザ単語に基づいた前記単語セットの前記グループ語彙に追加するグループ語追加部を更に備え、
前記グループ語追加部は、
前記グループに属するユーザのユーザ単語を獲得し、
前記ユーザの数及び同一ユーザ単語の使用頻度を計算し、
前記ユーザの数が第２閾値より大きいユーザ単語、及び、前記使用頻度が第３閾値より大きいユーザ単語を、グループ語として前記グループ語彙に追加する、
請求項６に記載の音声翻訳装置。
音声翻訳装置の抽出部により、会議の関連情報に基づいて、単語セットから前記会議に用いられる単語を抽出するステップと、
前記抽出部により、前記ステップで抽出した単語を、音声認識部及び機械翻訳部へ送るステップと、
前記音声翻訳装置の受信部により、前記会議における第１言語音声を受信するステップと、
前記音声認識部により、前記抽出した単語に基づいて、前記第１言語音声を第１言語テキストとして認識するステップと、
前記機械翻訳部により、前記抽出した単語に基づいて、前記第１言語テキストを第２言語テキストへ翻訳するステップと、
を備え、
前記会議の関連情報は、前記会議の議題及びユーザ情報を含んでおり、
前記単語セットは、ユーザ語彙、グループ語彙、及びユーザとグループ間の関係情報を含んでおり、
前記抽出するステップは、
前記ユーザ情報に基づいて、前記ユーザ語彙から前記ユーザに関連するユーザ単語を抽出し、
前記関係情報に基づいて、前記グループ語彙から前記ユーザが属するグループのグループ語を抽出し、
前記議題に基づいて、抽出されたユーザ単語及びグループ語から前記会議に関連する単語を抽出する
ことを特徴とする音声翻訳方法。
音声認識及び機械翻訳を行うためのコンピュータに用いられるプログラムであって、
前記コンピュータに、
会議の関連情報に基づいて、単語セットから前記会議に用いられる単語を抽出する機能と、
この機能により抽出した単語を、音声認識部及び機械翻訳部へ送る機能と、
前記会議における第１言語音声を受信する機能と、
前記音声認識部により、前記抽出した単語に基づいて、前記第１言語音声を第１言語テキストとして認識する機能と、
前記機械翻訳部により、前記抽出した単語に基づいて、前記第１言語テキストを第２言語テキストへ翻訳する機能と、
を実現させ、
前記会議の関連情報は、前記会議の議題及びユーザ情報を含んでおり、
前記単語セットは、ユーザ語彙、グループ語彙、及びユーザとグループ間の関係情報を含んでおり、
前記抽出する機能は、
前記ユーザ情報に基づいて、前記ユーザ語彙から前記ユーザに関連するユーザ単語を抽出し、
前記関係情報に基づいて、前記グループ語彙から前記ユーザが属するグループのグループ語を抽出し、
前記議題に基づいて、抽出されたユーザ単語及びグループ語から前記会議に関連する単語を抽出する
ことを特徴とするプログラム。