JP2010128766A

JP2010128766A - 情報処理装置、情報処理方法、プログラム及び記憶媒体

Info

Publication number: JP2010128766A
Application number: JP2008302432A
Authority: JP
Inventors: Masaaki Yamada; 雅章山田; Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-11-27
Filing date: 2008-11-27
Publication date: 2010-06-10

Abstract

【課題】従来、使用してコミュニケーションをする者同士が異なる言語を使用する場合において、円滑なコミュニケーションを図るために、必要に応じて音声を翻訳するための対策が望まれていた。
【解決手段】本発明に係る情報処理装置は、翻訳元の言語と翻訳先の言語とを設定し、音声を取得し、取得された音声が翻訳元の言語であるか否か判定し、得された音声が翻訳元の言語である場合、当該音声を翻訳先の言語に翻訳し、翻訳結果をテキストデータとして出力する。
【選択図】図２

Description

本発明は、映像および音声を入出力する技術に関わるものである。

従来、映像および音声を入出力する映像音声入出力装置がある。この一例として、特許文献１では、ディスクトップ会議システムが開示されている。前記文献では、インターネットや電話網等を介して映像や音声を入出力することにより、遠隔地、特に海外にいる人物との会議（ビデオ会議）を可能としている。

海外の人物と会議を行う場合、参加者間で母語が異なることがある。前記特許文献１では、この点に鑑みて、自動翻訳を利用したディスクトップ会議システムを開示している。

しかし、現在の音声認識および自動翻訳技術には、精度・適用範囲の点で限界がある。したがって、実際には、参加者間で理解可能な共通言語（典型的には英語）で会議を行う場合が多い。

この場合、ビデオ会議参加者の片方もしくは双方は、母語以外の言語で会議を行うことになる。

ところで、ビデオ会議の各拠点にそれぞれ複数の人物が居る場合、拠点内では母語で話す方が便利なことがある。例えば、拠点内での意思統一を図る場合などは、不自由な共通語を用いるよりも、母語を用いて詳細に議論する方が効率的である。
特開平１０−１３６３２７号公報

しかしながら、従来の映像音声入出力装置では、以下のような問題がある。

上記のように、拠点内での会話には、母語を用いた方が効率的である。しかし、その間、他の拠点では、理解できない会話を聞くことになる。

本来、他の拠点に伝える必要の無い情報であるため、他の拠点の参加者が理解できなかったとしても、情報交換の点では問題はない。しかし、相互理解できない会話が流れると、会議としての雰囲気を保つのが難しくなる。

前記課題を解決するために、本発明に係る情報処理装置は、翻訳元の言語と翻訳先の言語とを設定する設定手段と、音声を取得する取得手段と、取得された音声が翻訳元の言語であるか否か判定する判定手段と、取得された音声が翻訳元の言語である場合、当該音声を翻訳先の言語に翻訳し、翻訳結果をテキストデータとして出力する出力手段とを備える。

本発明によれば、拠点内で交わされる母語による会話を適切に他の拠点に伝え、会議としての雰囲気を保つことが容易になる。

以下、図面を参照しながら本発明の好適な実施例について説明していく。

（実施例１）
図１は本発明の一実施例における情報処理装置のハードウェア構成である。

尚、本情報処理装置の一例としては、ネットワークカメラを有する遠隔会議システムが想定される。

本情報処理装置は、中央処理部１、入力部２、映像入力部３、音声入力部４、映像出力部５、音声出力部６、ＲＯＭ８、ＲＡＭ９、通信部１０を備える。

また、本情報処理装置は、外部記憶部７と接続されている。

中央処理部１は数値演算、制御等の処理を行う。尚、中央処理部１は複数のプログラムモジュールを有する。各モジュールの詳細は後述する。

入力部２はタッチパネルやキーボード、ボタン等であり、ユーザが本装置に対して動作の指示を与えるのに用いられる。また、入力部２は本体に有線接続されている必要はなく、例えばリモコンのような形態であっても良い。

映像入力部３はカメラ等であり、ユーザやユーザの周囲の映像を入力するのに用いられる。

音声入力部４はマイクロホン等であり、ユーザの発声や周囲の音を入力するのに用いられる。

映像出力部５はＣＲＴや液晶等の映像出力部であり、受信した映像やその他の情報をユーザに提示する。

尚、映像出力部５は、受信した映像やその他の情報を同時にユーザに提示する場合、当該映像や情報を重畳して出力する。

音声出力部６はスピーカ等であり、ユーザに対して音声を提示する。

外部記憶媒体７はディスク装置や不揮発メモリ等であり、音声認識用辞書７０１や翻訳用辞書７０２等が保持される。

また、外部記憶部７は、ＣＤ−ＲＯＭやメモリカードといった可搬性のある形態であっても良く、これによって利便性を高めることもできる。

ＲＯＭ（読み取り専用メモリ）８は、本発明を実現するためのプログラムコード８０１や図示しない固定的データ等が格納される。もっとも、本発明において、外部記憶部７とＲＯＭ８の使用には任意性がある。例えば、プログラムコード８０１は、ＲＯＭ８ではなく外部記憶部７にインストールされるものであっても良い。逆に、前記各辞書等はＲＯＭ８に格納されるものであっても良い。

ＲＡＭ９は一時情報を保持するメモリであり、一時的なデータや各種フラグ等が保持される。ＲＡＭ９に格納されるデータの例として、翻訳対象言語９０１や翻訳先言語９０２、翻訳判定結果９０３、音声認識結果９０４、翻訳結果９０５等が挙げられる。

ＲＡＭ９に関しても、外部記憶部７やＲＯＭ８と同様に使い分けには任意性がある。例えば、サイズの大きな一時データを外部記憶部７に保持するようにしても良い。あるいは、ＲＯＭ８中に圧縮されて記憶されているプログラムコードをＲＡＭ９に展開するような実装でも良い。

通信部１０はモデム等の通信部であり、電話回線やインターネットなどの回線１１を通じて、映像や音声等の情報を送受信する。

尚、上記の各部は、バス１２で接続されている。

次に、本実施例における情報処理装置の構成を説明する。

図２は、本実施例における情報処理装置の構成を示したブロック図である。以下、図２に即して説明する。

音声取得部１３０１はユーザの発声した音声や周囲の環境音を取得するモジュールであり、音声入力部４から音声を取得する。

音声送信部１３０２は音声取得部１３０１で取得した音声を送信するモジュールであり、通信部１０を通じて回線１１に音声を送信する。この時、送信される音声は、符号化されて送信される。

映像取得部１３０３はユーザの顔画像や周囲の映像を取得するモジュールであり、映像入力部３から映像を取得する。

映像送信部１３０４は映像取得部１３０３で取得した映像を送信するモジュールであり、通信部１０を通じて回線１１に映像を送信する。この時、送信される映像は、符号化されて送信される。また、前記音声と映像とを同期させるために必要な情報も送信される。

音声受信部１３０５は音声を受信するモジュールであり、通信部１０を通じて回線１１から音声を受信する。受信した音声が符号化されている場合は、復号される。

映像受信部１３０６は映像を受信するモジュールであり、通信部１０を通じて回線１１から映像を受信する。受信した映像が符号化されている場合は、復号される。

言語設定部１３０７は翻訳の対象（翻訳元）となる言語および翻訳先となる言語を設定するモジュールである。翻訳対象言語および翻訳先言語は入力部２によって設定され、ＲＡＭ９に保持される。

音声認識部１３０８は音声認識を行うモジュールであり、前記音声受信部１３０５で受信した音声を認識する。音声認識結果はＲＡＭ９に保持される。

会議のように語彙制約の無い（あるいは少ない）音声を認識する手法として、ディクテーション（書き起こし）型の音声認識を用いる。あるいは、本実施例では、重要語によるキーワードスポッティングも適用できる。

なお、音声認識の際、翻訳対象言語９０１として設定された情報を利用して、翻訳対象言語に特化した音声認識を行ってもよい。これにより、全言語を対象とした多言語音声認識よりも計算コストを削減することができる。

また、音声認識結果９０４として保持される情報は、必ずしも文字列である必要はない。例えば、後述の翻訳に都合の良い中間表現を用いても良い。

言語識別部１３０９は言語識別を行うモジュールであり、前記音声受信部１３０５で受信した音声が、どの言語で話されているかを識別する。言語識別の手法として、例えば、音素の出現確率に基づいた手法を用いることができる。

音素の出現確率に基づいた言語識別では、まず、前記音声受信部１３０５で受信した音声に対する音素認識を行う。この際、音素セットとして、ＩＰＡ（ＩｎｔｅｒｎａｔｉｏｎａｌＰｈｏｎｅｔｉｃＡｌｐｈａｂｅｔ）等の言語に依存しない音素セットを用いる。

次に、音素認識結果より得られた音素の出現確率分布および音素間の連鎖確率を前記翻訳対象言語の音素出現確率分布・音素連鎖確率と対照することによって言語を識別する。すなわち、前記音素認識結果より得られた音素出現確率・音素連鎖確率と、翻訳対象言語の音素出現確率分布・音素連鎖確率との差が所定の値より小さい場合、翻訳対象言語を言語識別結果とする。

また、言語識別には、別の手法をとることもできる。例えば、音声認識部１３０８で行われる音声認識の結果を利用することができる。すなわち、音声認識結果に対するスコア（尤度）が所定の値より大きい場合、翻訳対象言語を言語識別結果とする。これは、翻訳対象言語９０１として設定された情報と前記音声受信部１３０５で受信した音声がミスマッチしている場合に認識スコアが下がる現象を利用している。

翻訳判定部１３１０は翻訳判定を行うモジュールであり、前記言語設定部１３０７で設定された翻訳対象言語および前記言語識別部１３０９で識別された言語に基づいて翻訳判定を行う。すなわち、翻訳対象言語９０１として設定された情報と前記言語識別部１３０９で識別された言語が一致すれば翻訳判定結果９０３を「真」とし、一致しなければ翻訳判定結果９０３を「偽」とする。

翻訳部１３１１は翻訳を行うモジュールであり、前記言語設定部１３０７、音声認識部１３０８、翻訳判定部１３１０の結果に基づいて翻訳を行う。すなわち、翻訳判定結果９０３として設定された情報が「真」の場合、音声認識結果９０４として保持された情報を翻訳先言語９０２として設定された言語に翻訳する。翻訳結果はＲＡＭ９に保持される。なお、前記翻訳判定結果が「偽」の場合、翻訳結果９０５の内容は空とする。

翻訳には、従来提案されている種々の方法を使用することができる。また、上記音声認識の手法としてキーワードスポッティングを使用する場合、辞書引きによる単語置換のみを行う方法でも良い。

字幕合成部１３１２は字幕合成を行うモジュールであり、前記映像受信部１３０６で受信した映像と前記翻訳結果９０５として保持された情報とを合成する。合成の形態は重ね合わせでも良いし、映像と字幕に画面分割する形態でも良い。

映像再生部１３１３は映像を再生するモジュールであり、前記字幕合成部１３１２による処理の結果得られた映像を映像出力部５に出力する。

音声再生部１３１４は音声を再生するモジュールであり、前記音声受信部１３０５で取得した音声を音声出力部６に出力する。

次に、
図６は、実施例１に係る情報処理装置における処理の一例を示すフローチャートである。

まず、ステップＳ６０１において、言語設定部１３０７は翻訳の対象（翻訳元）となる言語および翻訳先となる言語を設定する。

次に、ステップＳ６０２において、音声取得部１３０１は音声入力部４を介してユーザの発声した音声や周囲の環境音を取得する。

次に、ステップＳ６０３において、言語識別部１３０９は音声入力部４を介して入力された音に含まれる音声が、どの言語で話されているかを識別する。

次に、ステップＳ６０４において、翻訳部１３１１は、言語識別部１３０９によって、翻訳対象言語であると識別された音声の翻訳を行い、テキストデータに変換して翻訳結果９０５として出力する。

尚、ステップＳ６０４の処理は、前記言語設定部１３０７、音声認識部１３０８、翻訳判定部１３１０の結果に基づいて実行される。

次に、ステップＳ６０５において、字幕合成部１３１２は、翻訳結果９０５を示す情報を映像出力部５に出力する。

尚、ステップＳ６０５の処理を実行するタイミング、翻訳対象言語であると識別された音声が音声出力部６から出力されるタイミングに対応するタイミングとする。

尚、上記の対応するタイミングは、例えば、ある文節を構成する音声が出力されている時間、当該文節を出力するように設定する。

即ち、字幕合成部１３１２は映像出力部５に対する出力制御の処理を実行する。

（実施例２）
前記実施例１では、言語識別によって翻訳・字幕表示するか否かの判定を行っていた。これに対し、発声者の視線方向を検出し、発声者の視線がカメラ方向を向いていない場合に翻訳・字幕表示するようにしても良い。

本実施例におけるモジュールの構成を図３に示す。

図２と共通する要素については、同一の符号を付しその説明を省略する。

図２に示す前記実施例１のモジュールの構成と異なる点は、言語識別部１３０９の代わりに視線方向検出部１４０１が設けられている点および翻訳判定部１３１０の処理内容である。

視線方向検出部１４０１は、前記映像受信部１３０６で受信した映像から、発声者の視線方向を検出する。視線方向の検出方法として、例えば、黒目の位置情報を利用する方法がある。

また、本実施例では、厳密に視線方向を検出する必要はない。例えば、顔方向を検出し、視線方向の代替としても良い。

本実施例における翻訳判定部１３１０は、前記視線方向検出部１４０１によって検出された視線方向に基づいて翻訳判定を行う。すなわち、前記視線方向検出部１４０１によって検出された視線方向がカメラ方向（正面）を向いていない場合、翻訳判定結果９０３を「真」とし、一致しなければ翻訳判定結果９０３を「偽」とする。

本実施例の構成により、発声者がカメラを向いていないことで拠点内の会話が検知され、拠点内会話の内容が翻訳・字幕表示される。一方、拠点間の会話の際には発声者がカメラを向いて話すため、翻訳・字幕表示が抑制される。

（実施例３）
前記各実施例では、受信側で翻訳・字幕合成を行っていた。これに対し、送信側で翻訳・字幕合成を行う構成も可能である。

本実施例におけるモジュールの構成を図４に示す。

図２に示す前記実施例１のモジュールの構成と異なるのは、以下の点である。

音声認識部１３０８および言語識別部１３０９は、音声受信部１３０５で受信した音声ではなく、音声取得部１３０１で取得した音声に対して音声認識・言語識別を行う。

字幕合成部１３１２は、映像受信部１３０６で受信した映像ではなく映像取得部１３０３で取得した映像に対して字幕合成を行う。

映像送信部１３０４は、映像取得部１３０３で取得した映像ではなく字幕合成部１３１２で得られた映像を送信する。

映像再生部１３１３は、字幕合成部１３１２で得られた映像ではなく映像受信部１３０６で受信した映像を再生する。

送信側で翻訳・字幕合成を行うと、多地点で会議を行う場合に有効なことがある。すなわち、あらかじめ送信された映像に字幕が合成されているため、拠点ごとに翻訳・字幕合成を行う必要がなくなる。

一方、拠点ごとに翻訳先の言語を変えたい場合には、受信側で翻訳・字幕合成を行う構成が向いている。

また、計算負荷を考えた場合、翻訳・字幕合成を行う側の負荷が重くなる。したがって、翻訳・字幕合成を送信側でも受信側でも行えるようにし、計算能力に応じて処理内容を選択できるようにしてもよい。

なお、送信側で翻訳・字幕合成を行う構成は、実施例２のように視線方向検出を行う場合でも同様に実現できる。

（実施例４）
前記各実施例に対して、送信側・受信側で処理を分散させる構成も可能である。

本実施例におけるモジュールの構成を図５に示す。

図２に示す前記実施例１のモジュールの構成と異なるのは、音声認識結果送信部１６０２と音声認識結果受信部１６０３が設けられている点、および言語設定部１３０７、音声認識部１３０８、翻訳部１３１１の処理内容である。

言語設定部１３０７では、翻訳元となる言語のみを設定し、翻訳先となる言語は設定しない。翻訳先となる言語は、翻訳設定部１６０１で設定する。

音声認識結果送信部１６０２は、翻訳判定部１３１０の結果に基づいて９０４に保持された音声認識結果を送信する。すなわち、翻訳判定結果９０３が「真」の場合に、音声認識結果９０４の内容を回線１１に送信する。

音声認識結果受信部１６０３は、回線１１より音声認識結果を受信する。

翻訳部１３１１は、前記音声認識結果受信部１６０３で受信した音声認識結果に基づいて翻訳を行う。

送信側・受信側で処理を分散させると、多地点で会議を行う場合に有効なことがある。例えば拠点ごとに異なる言語に翻訳したい場合、音声認識までを共通化して処理の効率化を図ることができる。

なお、送信側・受信側で処理を分散させる構成は、実施例２のように視線方向検出を行う場合でも同様に実現できる。

（実施例５）
前記各実施例では、音声認識を常に行い、翻訳判定部１３１０によって翻訳・字幕合成を制御する構成となっている。しかし、翻訳も常に行い、字幕合成のみを翻訳判定部１３１０によって制御する構成でも良い。

一方、翻訳判定部１３１０で音声認識部１３０８の結果を利用しない場合、常に音声認識を行う必要はない。翻訳判定部１３１０の結果によって、不要な場合には音声認識を行わないように制御しても良い。

前記各実施例では、言語識別によって翻訳・字幕合成を制御する場合と視線方向検出によって翻訳・字幕合成を制御する場合とを個別に説明したが、両者を組み合わせる実施形態でも良い。例えば、言語識別・視線方向検出のいずれかで拠点内会話が検知された時に翻訳・字幕合成するようにすれば、検出漏れを減らすことができる。

前記実施例２では、映像受信部１３０６で受信した映像から発声者の視線方向を検出することで、発声者がカメラを向いているか否かを判定している。しかし、視線方向検出以外の方法によっても、発声者がカメラを向いているか否かを判定できる。

例えば、複数のマイクを配し、音響処理によって話者の発声方向を判定する方法が考えられる。

あるいは、専用のセンサを用いて話者の発声方向を判定することが可能である。例えば、ユーザの頭部に磁気センサを装着し、頭部の向いている方向を判定することが可能である。

また、前記各実施例では、翻訳対象言語や翻訳先言語の設定を送信側もしくは受信側のみで行うかのようになっている。しかし、適宜通信することにより、送信側・受信側の双方で翻訳対象言語や翻訳先言語を設定することが可能である。

また、前記各実施例では、映像や音声は回線を通じて送受信されるが、必ずしも送受信の必要はない。

例えば、図２に示す前記実施例１のモジュールの構成において、音声送信部１３０２、映像送信部１３０４、音声受信部１３０５、映像受信部１３０６を廃した構成としても良い。

この場合、音声取得部１３０１で取得された音声が音声認識部１３０８、言語識別部１３０９、音声再生部１３１４に供給される。さらに、映像取得部１３０３で取得された映像が字幕合成部１３１２に供給される。

このような構成をとることにより、対面によって行われるコミュニケーションを支援する端末が実現される。

（その他の実施例）
また、本発明の目的は、以下の処理を実行することによって達成される。

即ち、上述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）が記憶媒体に格納されたプログラムコードを読み出す処理である。

この場合、記憶媒体から読み出されたプログラムコード自体が上述した実施例の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。

また、プログラムコードを供給するための記憶媒体としては、次のものを用いることができる。

例えば、フレキシブルディスク、ハードディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＷ、ＤＶＤ＋ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等である。

または、ネットワークを介してプログラムコードをダウンロードしてもよい。

また、コンピュータが読み出したプログラムコードを実行することにより、上記実施例の機能が実現される場合も本発明に含まれる。

加えて、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施例の機能が実現される場合も含まれる。

更に、上述した実施例の機能が以下の処理によって実現される場合も本発明に含まれる。

即ち、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。

その後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行う場合である。

実施例１に係る情報処理装置のハードウェア構成を示した図である。実施例１に係る情報処理装置のモジュール構成を示す機能ブロック図である。実施例２に係る情報処理装置のモジュール構成を示す機能ブロック図である。実施例３に係る情報処理装置のモジュール構成を示す機能ブロック図である。実施例４に係る情報処理装置のモジュール構成を示す機能ブロック図である。実施例１に係る情報処理装置における処理の一例を示すフローチャートである。

符号の説明

１中央処理部
２入力部
３映像入力部
４音声入力部
５映像出力部
６音声出力部

Claims

翻訳元の言語と翻訳先の言語とを設定する設定手段と、
音声を取得する取得手段と、
取得された音声が翻訳元の言語であるか否か判定する判定手段と、
取得された音声が翻訳元の言語である場合、当該音声を翻訳先の言語に翻訳し、翻訳結果をテキストデータとして出力する出力手段とを備える情報処理装置。
翻訳元の言語と翻訳先の言語とを設定する設定工程と、
音声を取得する取得工程と、
取得された音声が翻訳元の言語であるか否か判定する判定工程と、
取得された音声が翻訳元の言語である場合、当該音声を翻訳先の言語に翻訳し、翻訳結果をテキストデータとして出力する出力工程とを有する情報処理方法。
前記請求項２に記載の情報処理方法をコンピュータに実行させるためのプログラム。
前記請求項３のプログラムを記憶した記憶媒体。