JP6663444B2

JP6663444B2 - 視覚情報と聴覚情報の同期方法および情報処理装置

Info

Publication number: JP6663444B2
Application number: JP2017547279A
Authority: JP
Inventors: 慶華孫; 本間　健; 健本間; 貴志住吉; 真人戸上
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2020-03-11
Anticipated expiration: 2035-10-29
Also published as: US20180336891A1; WO2017072915A1; US10691898B2; JPWO2017072915A1

Description

本発明は、自動音声翻訳する装置などに適用するに好適な技術に係り、入力された第1言語聴覚情報（音声）と視覚情報（話し手の動きなど）から、聞き手に対して、第2言語の聴覚情報（翻訳した音声）と視覚情報（編集した動画やロボットによる動きの再現など）を自動生成する技術に関する。

近年、音声認識、機械翻訳、音声合成などの技術が飛躍的に向上していることを背景に、これらの技術を組み合わせた音声翻訳システムが実用化されつつある。このようなシステムは、第１言語の入力に対して、音声認識技術によって、第１言語のテキストに変換される。さらに、第１言語のテキストを機械翻訳によって、第２言語のテキストに翻訳したあと、第２言語に対応した音声合成モジュールで、第２言語の音声に変換される。この技術の実用化により、言葉の壁がなくなり、自由に外国の方とコミュニケーションが可能とある。

その一方、耳から入る音声情報とともに、表情やジェスチャなどの目から入る視覚情報も、意味の伝達に大きく貢献する。例えば、“指差し”のようなジェスチャでは、意味の理解に大きく寄与する。そのため、話し手の動きを映像もしくはロボットを通して、聞き手に伝えることによって、より自然なコミュニケーションを実現する。例えば、特許文献１では、ロボットを通して、話し手の動きを再現することを提案した。

しかし、音声翻訳システムにおいて、第１言語音声を第２言語音声に翻訳した場合、同じ意味の持つ言葉は、必ず同じ時間（発話先頭を基準とした相対時間）に来ることは保障できない。そのため、聞き手の目に入る視覚情報と耳に入る聴覚情報とのミスマッチ（以降、「時間的ずれ」とする）が生じ、意味の理解には大きく損なう場合もある。

従来手法（特許文献２）では、第２言語音声の開始時間と終了時間を、第１言語音声に合わせる手法が提案され、音声と映像との開始と終了時間での同期をとれるようになったが、局所的な視覚情報と聴覚情報との時間的ずれという問題は、依然に解決できていない。特に、日本語と英語と翻訳した場合は、語順の違いによる、この時間的ずれは顕著となり、誤解につながることになることもある。

たとえば、話し手が、第1言語（英語）で「Put this can into this can.」と話しながら、缶１（最初に発話されるcan）を指して（ジェスチャ１）から、缶２（2番目に発話されるcan）を指す（ジェスチャ２）動作を行ったとする。この時、缶１の音声とジェスチャ１、缶２の音声とジェスチャ２との時間的対応関係が、聞き手にとって、意味の理解に大きく寄与する。しかし、第2言語（日本語）ネイティブに、「この缶に、この缶を入れてください。」と翻訳した場合、缶１（最初に発話される缶）と缶２（2番目に発話される缶）の順番が、第一言語と逆になり、缶２の音声とジェスチャ１、缶１の音声とジェスチャ２と時間的に対応関係となり、話し手の意図と逆の意味を持つことになる。

特開2004-230479号公報特開2002-123282号公報特開平6-253197号公報

石岡恒憲、亀田雅之：コンピュータによる小論文の自動採点システム Jessの試作、計算機統計学、Vol.16， No.1， pp．3-18（2003）。

R． E． Donovan and E． M． Eide， "The IBM Trainable Speech Synthesis System，" Proc． ICSLP， vol．5， pp．1703-1706， 1998．徳田恵一，隠れマルコフモデルの音声合成への応用，電子情報通信学会技術研究報告，SP99-61， 47-54 (1999).

本発明では、これまでの自動音声翻訳システムでは、翻訳した第2言語音声と、再現した第１言語発話者（話し手）の動作と、両者の持っている情報の「時間的ずれ」による意味理解への影響を解消する。

上記課題を解決する本発明の一側面は、視覚情報と聴覚情報の同期方法において、映像に含まれる前記視覚情報を抽出し、第１言語の音声に含まれる第１言語の聴覚情報を認識し、視覚情報と第１言語の聴覚情報とを対応付け、第１言語の聴覚情報を第２言語の聴覚情報に翻訳し、視覚情報と第２言語の聴覚情報とを対応付けるよう、視覚情報及び第２言語の聴覚情報の少なくとも一つを編集する、ことを特徴とする視覚情報と聴覚情報の同期方法である。

理解を容易にするため具体的な例を挙げると、視覚情報とは例えばジェスチャ（指さし、身振り）や表情であり、聴覚情報とは例えば発話内容である。映像とは例えばカメラによって撮影された話者の動画像である。

本発明の他の側面は、第１の視覚情報を含む入力映像データと、第１の聴覚情報を含む第１の言語による入力音声データを入力し、第１の視覚情報に対応する第２の視覚情報を含む出力視覚データと、第１の聴覚情報に対応する第２の聴覚情報を含む第２の言語による出力音声データを出力する情報処理装置である。この装置は、入力映像データから第１の視覚情報を検出する検出部と、入力音声データから第１の聴覚情報を認識する認識部と、第１の視覚情報と第１の聴覚情報の対応付けを行う対応付け部と、第１の言語による入力音声データを、第２の言語による出力音声データに変換する翻訳部と、対応付けられた第１の視覚情報と第１の聴覚情報に対応する、第２の視覚情報と第２の聴覚情報の出力タイミングずれが小さくなるように、第２の視覚情報および第２の聴覚情報の少なくとも一方の出力タイミングを制御する最適化部と、を有する。

出力視覚データは、ユーザの視覚で最終的に認知されるデータであればよく、動画像（例えば入力映像データを編集したもの）でもよいし、その他のデータ（例えばロボットの動作を指示する動作指令データ）でもよい。

本発明のさらに他の側面では、入力した第１言語の音声から、自動的に第2言語の音声に翻訳する装置であって、その基本構成に加えて、入力した第１言語の音声とともに、話し手の身体動作を取得する手段を持ち、上記取得した身体動作と入力した第１言語の音声との対応を検出する手段を持ち、第１言語の音声から翻訳した第２言語の音声と取得した話し手の身体動作との対応を検出する手段を持ち、第2言語音声を再生するとともに、話し手の身体動作を再現する手段を持ち、第2言語と再現した話し手の身体動作との時間軸でのずれを評価する手段を持ち、時間軸において、再現した話し手の身体動作の編集、翻訳第２言語テキストの編集、合成した第２言語音声の編集などの複数の手段を持ち、再現した話し手の身体動作の編集、翻訳第２言語テキストの編集、合成した第２言語音声の編集による発話への理解しやすさに対する影響を定量的に評価する手段を持ち、時間ずれを最小化した上、上記評価手段を用いて、もっとも理解しやすい手段を選択する手段を持つ。

本発明によれば、翻訳した音声と再現した話し手の動きとの「時間的ずれ」を小さくすることができ、自然なコミュニケーションを実現することが可能となる。

実施例１遠隔映像転送における自動音声翻訳装置の全体構成を説明するブロック図実施例１の遠隔映像転送における自動音声翻訳装置の全体構成を説明するブロック図実施例１の遠隔映像転送における自動音声翻訳装置の全体構成を説明するブロック図ジェスチャと音声（第１言語）との情報同期部で得られた、映像から抽出したジェスチャ（指差し）と音声から得られた単語（第１言語音声）との対応関係を示すイメージ図テキスト（第２言語）と音声（第１言語）との情報同期部で得られた、第１言語音声と翻訳された第２言語テキストとの対応関係を示すイメージ図音声合成部（第２言語）で合成した第２言語音声のイメージ図映像編集による「時間的ずれ」を解消する例のイメージ図テキスト編集による「時間的ずれ」を解消する例のイメージ図音声編集による「時間的ずれ」を解消する例のイメージ図実施例２のロボットにおける自動音声翻訳装置の全体構成を説明するブロック図実施例２のロボットにおける自動音声翻訳装置の全体構成を説明するブロック図予測したロボットの動きのタイミングを示すイメージ図合成した第２言語音声のタイミングを示すイメージ図動作指令編集による「時間的ずれ」を解消する場合のイメージ図ロボット動きの制約により、目標時刻通りに動くことができない場合のロボットの動きのタイミングを示すイメージ図動作指令編集と音声編集を同時に行うことによる「時間的ずれ」を解消する場合のイメージ図実施例３の携帯端末における自動音声翻訳装置の特徴を説明する平面図

以下、実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。

本明細書等における「第１」、「第２」、「第３」などの表記は、構成要素を識別するために付するものであり、必ずしも、数または順序を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。

図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。

以下の実施例では計算や制御等の機能は、記憶装置に格納されたプログラムがプロセッサによって実行されることで、定められた処理を他のハードウェアと協働して行うことを想定している。計算機などが実行するプログラムまたはその機能を実現する手段を、「ユニット」「機能」、「手段」、「部」、「モジュール」等と呼ぶ場合がある。また、本実施例中、ソフトウエアで構成した機能と同等の機能は、FPGA（Field Programmable Gate Array）、ASIC（Application Specific Integrated Circuit）などのハードウェアでも実現できる。そのような態様も本願発明の範囲に含まれる。

本実施例では、録画された（もしくは遠隔転送された）第２言語音声と映像データを、第２言語音声と映像に変換することを想定した、本発明の基本構成を説明する。例えば、遠隔授業などの場合を想定して、映像が編集可能なケースを想定している。

本実施例では、第1言語音声と映像を、本発明の音声翻訳装置（システム）によって、入力と同じ意味を持つ、第2言語音声と映像に変換する基本機能を実現する。以下では、○○装置、○○部、○○モジュールという表現で内部処理の各単位を呼称するが、ハードウェアとしての実現しも、ソフトウェアプログラムとして実現されたシステム、またはプログラムという形態で実現することも可能である。

＜概要＞
図１Ａは、本実施例の音声翻訳装置１００の全体構成を説明する図である。

図１Ｂは、図１Ａの全体構成のうち、映像と音声（第2言語）との情報同期の最適化部の詳細構成である。灰色に塗りつぶされている音声認識部１０１、テキスト翻訳部１０２、音声出力部１０７、音声合成部（第2言語）１０６１は、通常の音声翻訳システムにも存在する処理単位である。特に、二重枠線で示している映像と音声（第2言語）との情報同期の最適化部１０６は、後に図１Ｂで詳細に説明する。

本実施例の音声翻訳装置１００では、同期の取れている映像データと音声データ（第１言語）を入力すると、映像から抽出したコミュニケーションに重要なジェスチャ（指差しなど）と、それを同じタイミングで発した言葉（第１言語）との対応関係を特定し、翻訳した同じテキスト（第２言語）から、最適な編集手法（映像編集、テキスト編集、音声編集）を決定し、ジェスチャと対応する言葉（第２言語）との時間的ずれを最小化するとともに、映像、テキスト、音声の自然性や理解しやすさを、最大限に維持することを可能とする。

この音声翻訳処理を実現するために、音声認識部（第１言語）１０１、テキスト翻訳部（第１言語から第２言語に翻訳）１０２、音声合成部（第２言語）１０６１、音声出力部１０７という通常の音声翻訳装置が持つ処理単位を備える。これに加えて、ジェスチャ検出部１０４、ジェスチャと音声（第１言語）との情報同期部１０５、テキスト（第２言語）と音声（第１言語）との情報同期部１０３、映像と音声（第２言語）との情報同期の最適化部１０６、映像出力部１０８を備える。

図１Ｂに詳細を示すように、さらに、映像と音声（第２言語）との情報同期の最適化部１０６では、第2言語音声とジェスチャとの時間ずれ評価モジュール１０６２、映像編集、テキスト編集、音声編集の各手法による音声・映像を編集する編集モジュール１０６４、判定処理１０６３、編集モジュール１０６４による音声・映像の自然性低下を評価する音声・映像自然性評価モジュール１０６５を有する。音声・映像自然性評価モジュール１０６５では、例えば、映像編集後の不連続性、語順変更後テキストの自然性、・話速変更後音声の自然性などを判断基準とする。

図１Ｃは、本実施例のシステム構成例である。入力側端末１００１からは、入力映像データと入力音声データ（第1言語）が入力される。これらの入力データは例えばネットワーク１００２を経由して、音声翻訳装置１００を構成するサーバ１００３に入力される。サーバ１００３では入力データを処理し、出力映像データと出力音声データ（第2言語）として、ネットワーク１００２を経由して出力側端末１００４に送信する。

サーバ１００３は、通常の構成として入力装置１００５、出力装置１００６、処理装置１００７、記憶装置１００８を備える。図１Ａ，図１Ｂで説明した各モジュールは、記憶装置１００８に記憶されたプログラムが、処理装置１００７で実行されることにより各種の機能を実現することができる。

＜詳細＞
以下ではまず本実施例を構成する各処理部で行われる処理について、図１を参照しつつ説明する。以下の説明では、入力した音声は、「この缶に、この缶を入れてください。」（日本語）や「Put this can into this can.」（英語）などの単文としているが、複数の文を結合した長い音声も処理可能である。

また、以下の説明では、日本語から英語、英語から日本語に音声翻訳することを例にしているが、ほかの言語間の翻訳でもかまわない。その場合は、内部処理（音声認識、テキスト翻訳、音声合成）もその言語に対応したプログラム・データを用いなければならない。

また、以下の説明では、「指差し」を例に説明するが、映像から検出できるすべての視覚情報に拡張することが可能である。特に、発話者の手振り身振り、背景の変化など、時間とともに変化する視覚情報は、重要だと考えられる。以降、本発明では、単にジェスチャと書いた場合は、すべての視覚情報を意味する。

また、本実施例を構成する各処理部は、プログラムによって自動処理と説明しているが、プログラムの自動処理の代わりに、作業者による手作業なども考えられる。たとえば、ジェスチャ抽出部は、作業者による手作業での抽出も可能とする。

ジェスチャ検出部１０４では、入力した映像から、コミュニケーションに重要な視覚情報を抽出する。入力映像をパターン認識処理してもよいが、視覚情報の重要度は、発話内容に大きく影響されるため、入力映像のみから抽出するより、音声認識で得られたテキストを参考に、抽出したほうが正確に抽出することが可能となる。本説明では、遠隔授業などを例にしているため、「指差し」という動作が重要だと考え、「指差し」動作の抽出を行う。

一例では、入力した音声「Put this can into this can.」（英語）に対して、映像から、2回の指差し動作が検出された。１回目（指差し１）は、缶１（先に発話されたcanに対応）を指し、２回目は（指差し２）は、缶２（後に発話されたcanに対応）を指している。以降、説明しやすくするために、先に発話されたcanをcan(1)と表記し第2言語の音声（テキスト）では缶１に対応することにし、後に発話されたcanをcan(2)と表記し第2の言語の音声（テキスト）では缶２に対応しているものとする。なお、これら缶やcanに付された番号は明細書および図面に説明のために付すものであって、実際には缶やcanを区別する番号は発話されていないことに留意されたい。

ジェスチャと音声（第１言語）との情報同期部１０５では、ジェスチャ検出部１０４で抽出したジェスチャと、それに対応する言葉（第１言語）との対応関係を決定する。

図２で一例を示す。図２で示したように、映像から抽出した「指差し１」と音声から得られたテキスト「can(1)」とを対応させ、「タイム１」（開始時刻１から終了時刻１まで）の間で行われていたとの情報同期を行う。同じく、映像から抽出した「指差し２」と音声から得られたテキスト「can(2)」とを対応させ、「タイム２」（開始時刻２から終了時刻２まで）の間で行っていたとの結果を得る。

テキスト（第２言語）と音声（第１言語）との情報同期部１０３では、音声認識部１０１で得られた第１言語テキストと、テキスト翻訳部１０２で得られた第２言語テキストとの対応情報を用いて、第２言語テキストと第１言語音声との情報同期を行う。音声認識部１０１とテキスト翻訳部１０２は、各種の公知技術を用いるものとし、詳細な説明は割愛する。

図３で例を示したように、情報同期部１０３では、入力音声から得られた英語「Put this can(1) into this can(2).」、とそれを翻訳した日本語テキスト「この缶２に、この缶１を入れてください。」との対応関係を用いて、英語音声と日本語テキストとの対応関係が得られる。

映像と音声（第２言語）との情報同期の最適化部１０６では、まず、音声合成部（第２言語）１０６１で、翻訳した第２言語のテキストから、第２言語音声を作成する。

図４に、音声合成部（第２言語）１０６１で合成した音声の例を示す。そして、第2言語音声とジェスチャとの時間ずれ評価モジュール１０６２では、ジェスチャと音声（第１言語）との情報同期部１０５から入力したジェスチャと第１言語音声との対応関係と、テキスト（第２言語）と音声（第１言語）との情報同期部１０３から入力した第２言語テキストと第１言語音声との対応関係を用いて、テキストを第２言語音声に合成した場合に、映像のジェスチャと、それに対応する音声中の第2言語単語との時間的ずれ（以降、単に「時間的ずれ」とする）を評価する。

この時間ずれは、ジェスチャの開始・終了時刻と、それに対応第2言語音声の開始・終了時刻の差分で評価することが可能とする。すべての時間的ずれがある閾値以下であれば、映像出力部１０８と音声出力部１０７に出力するが、いずれかの時間的ずれは閾値を越えていれば、編集モジュール１０６４に出力する。

評価方法の一例では、
時間的ずれ１＝｜開始時刻１（ジェスチャ１）− 開始時刻２（第２言語音声）｜＋｜終了時刻１（ジェスチャ１）− 終了時刻２（第２言語音声）｜
時間的ずれ２＝｜開始時刻２（ジェスチャ２）− 開始時刻１（第２言語音声）｜＋｜開始時刻２（ジェスチャ２）− 開始時刻１（第２言語音声）｜
「|※|」は、※の絶対値を意味する。ここで、ジェスチャの開始時刻１、終了時刻１、開始時刻２、終了時刻２は、それぞれ、100ms、300ms、400ms、600msとし、第２言語の開始時刻１、終了時刻１、開始時刻２、終了時刻２は、それぞれ、0ms、200ms、200ms、400msだとする場合、
時間的ずれ１＝｜100ms − 200ms｜＋｜300ms − 400ms｜＝ 200ms
時間的ずれ２＝｜400ms − 0ms ｜＋｜600ms − 200ms｜＝ 800ms
となる。事前に定義した「時間的ずれ」の閾値が50msとした場合、上記式で計算したジェスチャ１の「時間的ずれ」（=200ms）と、ジェスチャ２の「時間的ずれ」（=800ms）とのいずれも、閾値より大きいので、編集する必要があると判断し、編集モジュール１０６４に出力する。

編集モジュール１０６４では、映像編集モジュール１０６４a、テキスト編集モジュール１０６４b、音声編集モジュール１０６４cなど、複数モジュールによる編集の手法の少なくともひとつを用いて第2言語音声及び入力映像を編集（タイミング制御）することができる。

映像編集モジュール１０６４aでは、映像を早くしたり、遅くしたり、シーン順番を入れ替えたりすることが可能とする。ここでの映像編集は、映像を一時的に静止する／動画の再生順序を変える／computer graphics（CG）を使うCGで再現するなどあらゆる映像編集技術を使用することができる。

テキスト編集モジュール１０６４bでは、語順を変えたり、ある単語を長さの異なる同意語に変えたりすることが可能とする。ここでのテキスト編集は、テキストを変更するあらゆる技術を使用することができる。

音声編集モジュール１０６４cは、部分的な発話速度を早くしたり、遅くしたり、ポーズを挿入したりすることが可能とする。ここでの音声編集は、音声を変更するあらゆる技術を使用することができる。ここで、音声編集モジュール１０６４cとして、音声合成部（第２言語）１０６１を利用することができる。つまり、合成した音声を編集するのでではなく、音声を再合成することで、音声編集による自然性の劣化を防ぐことができる。

以上の編集機能を利用して、より第2言語音声とジェスチャとの時間的ずれを小さくするように、映像や音声の編集を行う。

図５は、映像編集モジュール１０６４aで映像を編集する例である。ジェスチャ１（指差し１）部分の映像と、ジェスチャ２（指差し２）部分の映像を入れ替え、音声との時間的ずれを小さくすることができる。

図６は、テキスト編集モジュール１０６４bでテキストを編集する例である。テキスト編集では、「この缶2にこの缶1を入れてください。」の語順を変えて、「この缶1にこの缶2を入れてください。」に変更し、映像との時間的ずれを小さくすることができる。このようなテキスト編集は、テキスト翻訳部１０２における翻訳結果の候補を変更することにより、実現することができる。すなわち、機械翻訳では、翻訳結果として複数の候補を提示することができるので、複数の候補の中で最も映像と、テキストに基づく音声との時間ずれが小さくなる候補を選択すればよい。あるいは、他の方式として、テキストベースで同じ意味となるテキストに変換する方法がある。具体例としては、目的語を入れ替える等してテキスト内の語順を変更する方法がある。

図７は、音声編集モジュール１０６４cで音声を編集する例である。図６のテキスト編集の後に、さらに、図７で示したように、音声を早くしたり、遅くしたり、ポーズを挿入することで、より音声と映像の指差しとの時間的ずれを小さくすることができる。

以上の各モジュールは組み合わせて用いてもよいし、単独で用いてもよい。なお、最適化部による処理の前に、入力音声（第1言語）と出力音声（第2言語）の全体の長さがほぼ等しくなるように出力音声の速度を調節してから、その時間の範囲内で編集を行うように構成してもよい。

音声・映像自然性評価モジュール１０６５では、複数の時間的ずれ解消手法（映像編集、テキスト編集、音声編集など）について、それぞれ自然性を評価し、自然性の高い手法を選択する。

編集した映像の自然性評価については、特許文献３にて述べられているように、編集した映像の時空間連続性と時空間変化率のなめらかさを評価し、映像の自然さを評価することが可能である。

編集したテキストの自然性評価については、文法、文体、文体などの複数の観点から、自然性を評価する。例えば、非特許文献１の提案した小論文自動採点の手法も考えられる。

編集した音声の自然性評価については、音声のスペクトルの連続性や、隠れマルコフモデル（Hidden Markov Model：HMM）などの統計モデルによる生成確率計算などを用いて、客観的に評価することが可能である。例えば、音声編集による不連続は、音声パラメータの変化量（非特許文献２）を用いて、評価することが可能である。一方、韻律変更などの音声編集による音声のひずみについては、音声の生成過程を確率で表現するHMM（非特許文献３）を用いて、編集した音声の生成確率を計算することによって、自然性評価する方法も考えられる。以上のように自然性を評価する手法は公知の種々の技術を適用することが可能であり、特に制限はない。

一例では、映像編集する場合より、テキスト編集し語順を変えたほうが、より自然性が高いと評価し、テキスト編集手法が選択される。しかし、テキスト編集のみの場合、ジェスチャ１との時間的ずれが解消されるが、ジェスチャ２との時間的ずれが閾値より小さくするためには、音声編集（ポーズ挿入と発話速度調整）が必要となる。

したがって、一例では、テキストを編集（図６）した後、音声編集（図７）を行う場合、より自然性の高い音声と映像を得られ、映像出力部１０８と音声出力部１０９に出力する。映像出力部１０８では、映像と音声（第２言語）との情報同期の最適化部１０６で生成した映像を出力する。音声出力部１０７では、映像と音声（第２言語）との情報同期の最適化部１０６で生成した音声を出力する。

以上のように、自然性に優れた編集方式を選択したり組み合わせたりするが、選択の基準としては、映像の自然性を重視する手法、音声の自然性を重視する手法、両方をバランスさせる手法などがあり、用途や状況に応じて任意に設定すればよい。

なお、図１Ｂの構成のように、最適化部１０６では、編集モジュール１０６４で編集した結果を再度、音声合成部１０６１で音声合成し、時間ずれ評価モジュール１０６２で再評価し、時間ずれが閾値より小さくなるまで回帰的に動作させ、時間ずれが閾値以下になった編集方式によるデータを出力する構成となっている。もっとも、編集モジュールにより１回で十分効果的に時間ずれを解消できる設計であれば、時間ずれ評価モジュール１０６２による再評価を省略することもできる。

以上説明した実施例の構成は、図１のように単体のコンピュータで構成してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワーク等で接続された他のコンピュータで構成されてもよい。発明の思想としては等価であり、変わるところがない。

本実施例では、ロボットを介して音声翻訳を行うことを想定した、本発明の基本構成を説明する。すなわち、実施例１の形態で、映像出力に代えてロボットの動きで音声を補足する。本実施例では、第1言語発話者の音声と映像を、本発明の音声翻訳装置（ロボット）に入力すると、ロボットが第2言語音声に翻訳するとともに、発話者の動作を再現する基本機能を実現する。

＜概要＞
図８Ａは、本実施例の音声翻訳装置の全体構成を説明する図である。

図８Ｂは、図８Ａの全体構成のうち、映像と音声（第2言語）との情報同期の最適化部８０６の詳細構成である。図１Ａ，図１Ｂと同様の構成は同じ符号を付し、説明は省略する。

本実施例の音声翻訳装置８００では、同期の取れている映像データと音声データ（第１言語）を入力すると、映像から抽出したコミュニケーションにとって重要なジェスチャ（指差しなど）と、それを同じタイミングで発した言葉（第１言語）との対応関係を特定し、最適な編集手法（ロボット動作指令編集、テキスト編集、音声編集など）を決定し、ロボットの再現したジェスチャと対応する言葉（第２言語）との時間的ずれを最小化するとともに、ロボットの動き、テキスト、合成音声の自然性や理解しやすさを、最大限に維持することを可能とする。

この音声翻訳処理を実現するために、実施例１の構成と比較して特徴的な部分として、ロボットの動きと音声（第２言語）との情報同期の最適化部８０６、ロボット動作制御部８０８を備えている。ロボットの動きと音声（第２言語）との情報同期の最適化部８０６は、実施例１の編集モジュール１０６４に代えて編集モジュール８０６４を、第2言語音声と（映像の）ジェスチャとの時間ずれ評価モジュール１０６２に代えて第2言語音声と（ロボットの）ジェスチャとの時間ずれ評価モジュール８０６２を備える。

編集モジュール８０６４は、映像編集モジュール１０６４ａに代えて、ロボットの動きを編集する動作編集モジュール８０６４ａを備える。編集モジュール８０６４による音声・ロボットの動きの自然性低下の評価は、音声・動きの自然性評価モジュール８０６５で行われる。

本実施例の処理の説明については、実施例１との違いのみを説明する。実施例１と同じ処理単位については、説明を省略する。

実施例２では、実施例１の映像編集に変わって、ロボットの動きを制御する動作指令を編集することによって、ロボットの動きを変えることができる。（以降、「動作指令編集」と「ロボット動き編集」と同意味である。）
ロボットの動きと音声（第２言語）との情報同期の最適化部８０６では、第2言語音声とジェスチャとの時間ずれ評価モジュール８０６２によって、音声合成による第２言語音声と、ロボット動作指定によるロボットの身体動作（ジェスチャ）との、時間ずれを評価することができる。

図９にロボットの動作指示のシーケンスを示す。このようなロボットの動作指示は、例えば人間の動きに対応した動作を、ロボットが行うように制御する技術が、既にロボット工学の分野では公知となっている。実施例2では、例えば送信側の人間の動作を受信側のロボットがコピーするとともに、送信側の人間の音声（第１言語）を翻訳して受信側で出力するような応用を想定している。

図１０は、第２言語音声のタイミングを示している。この例では、第２言語合成音声と、ロボット動作指定による指差しの動きが、それぞれ、図９、図１０で示したようなタイミングで行われることを推定した場合、その「時間的ずれ」は実施例１と同じように計算できる。

時間的ずれ１＝｜開始時刻１（ジェスチャ１）− 開始時刻２（第２言語音声）｜＋｜終了時刻１（ジェスチャ１）− 終了時刻２（第２言語音声）｜
時間的ずれ２＝｜開始時刻２（ジェスチャ２）− 開始時刻１（第２言語音声）｜＋｜開始時刻２（ジェスチャ２）− 開始時刻１（第２言語音声）｜
「|※|」は、※の絶対値を意味する。ここで、ジェスチャの開始時刻１、終了時刻１、開始時刻２、終了時刻２は、それぞれ、100ms、300ms、400ms、600msとし、第２言語の開始時刻１、終了時刻１、開始時刻２、終了時刻２は、それぞれ、0ms、200ms、200ms、400msだとする場合、
時間的ずれ１＝｜100ms − 200ms｜＋｜300ms − 400ms｜＝ 200ms
時間的ずれ２＝｜400ms − 0ms ｜＋｜600ms − 200ms｜＝ 800ms
となる。実施例１と同じように、事前に定義した「時間的ずれ」の閾値が50msとした場合、上記式で計算したジェスチャ１の「時間的ずれ」（=200ms）と、ジェスチャ２の「時間的ずれ」（=800ms）とのいずれも、閾値より大きいので、編集する必要があると判断し、編集モジュール８０６４に出力する。

編集モジュール８０６４では、実施例１の映像編集に変わって、動作指令編集によるロボットの動きを編集する機能を動作指令編集モジュール８０６４ａが備えている。ここで、テキスト編集モジュール８０６４ｂ、音声編集モジュール８０６４ｃなどの手法は、実施例１と同じなので、その説明を省略する。

動作指令編集モジュール８０６４ａでは、ロボットの動きを早くしたり、遅くしたり、動作の順番を入れ替えたりすることが可能とする。そこで、より第2言語音声とロボットのジェスチャとの時間的ずれを小さくするように、この動作指令編集モジュール８０６４ａでロボットの動作の編集を行う。

図１１はロボットの動作指令を編集した例を示す図である。この例では、ロボットのジェスチャ１の動きと、ジェスチャ２の動きと入れ替わることによって、音声内容との「時間的ずれ」を小さくすることができる。

また、実施例１の図６で示したように、テキスト編集で語順を変えて、ロボットの動作との、時間的ずれを小さくすることができる。さらに、図７で示したように、音声を早くしたり、遅くしたり、ポーズを挿入することでロボットの動作との時間的ずれを小さくすることができる。実施例２では、図６、図７の「映像」を「ロボットの動作」に置き換えればよい。

音声・動きの自然性評価モジュール８０６５では、複数の「時間的ずれ」を解消する手法（動作指令編集、テキスト編集、音声編集など）について、それぞれ自然性を評価し、最も自然性の高い手法を選択する。一例では、図１１のように、ロボットの動作指令を編集したほうが、音声編集やテキスト編集より、自然性が高いと評価された場合、ロボットの動作指令編集を行い、ロボット動作制御部８０８と音声出力部１０７に出力する。

一方、ロボット自身の制約（動きの速度など）により、動作指令を編集しても、所望のタイミングでの動作が得られない場合がある。

図１２にその例を示す。指差し１のタイミングを早めることができないため、音声との時間ずれが生じている。図１２で示したようなタイミングで動くことしかできない場合、動き指令を編集するだけでは、「時間的ずれ」を閾値以下に抑えることができない。

図１３に、図１２の処理による動き指令の編集に加えて、音声編集を行った例を示す。図１３の例では、音声中「この缶１を」を遅らせるためにポーズなどを挿入するとともに、全体の時間を所定時間内に収めるために、「入れてください。」の部分を早く発話している。

本実施例では、モバイル端末（携帯やタブレットなど）を介して音声翻訳を行うことを想定した、本発明の基本構成を説明する。

本実施例では、第1言語音声と映像を、本発明の音声翻訳装置（システム）によって、入力と同じ意味を持つ、第2言語音声と映像に変換する基本機能を実現する。以下では、○○装置という表現で内部処理の各単位を呼称するが、ハードウェアとしての装置で実現しなくても、ソフトウェアプログラムとして実現されたシステム、またはプログラムという形態で実現することも可能である。

＜概要＞
図１４は、実施例３の使用形態を説明する図である。ここでは、話者2名(話者A，話者B)がおり、異なる言語で発話しているものと想定する。それぞれの話者が発話している言語を、言語A，言語Bとする。

話者Aは、タブレットA 10010を持つ。話者Aが言語Aで発話した音声は、音声認識されてタブレットの表示領域10020に表示される（タブレットAの文言10050 "aabbcc"）。この文言を、話者Bが理解できる言語Bに翻訳された結果が、話者Bが持つタブレットB 10030の表示領域10040に表示される（タブレットBの文言10070 "AABBCC"）。

いっぽう、話者Bが言語Bで発話した音声は、音声認識され、タブレットB 10030に表示される（タブレットBの文言10080 "DDEEFF"）。この文言は、言語Aに翻訳されて、話者Aが持つタブレットA 10010に表示される（タブレットAの文言10060 "ddeeff"）。

ここで話者Aが、すでに発話した文言をキャンセルすることを考える。キャンセルの指定方法にはさまざまなものが考えられるが、たとえば、話者AがタブレットAの表示領域10020のキャンセル箇所をスイープする。ここでは、タブレットAの文言10050の"aabbcc"をスイープすると、タブレットBの文言10070にも、キャンセルされた旨が分かる表示がなされる。たとえば、×マークを表示する、文言自体を削除するといったことが考えられる。

また、1文のなかの一部の単語だけをキャンセルしたい場合もある。このとき、たとえば、話者AがタブレットAの表示領域10020のキャンセル箇所をスイープする。ここでは、タブレットAの文言10050の"aabbcc"から、"bb"だけをスイープする。すると、タブレットBの文言10070の該当する表示"BB"にも、キャンセルされた旨が分かる表示がなされる。たとえば、"BB"のところに×マークを表示する、"BB"を削除するといったことが考えられる。

以上の処理は、タブレットに実行させてもよいが、タブレットＡとＢがネットワークで接続されている場合、例えば、図１Ｃの構成でタブレットＡを入力側端末１００１、タブレットＢを出力側端末に対応させることができる。この場合、音声認識、翻訳、タブレットに表示させる情報の制御等の一部または全部は、サーバ１００３に実行させることができる。この場合には、例えばタブレットAでキャンセルされた個所の指定は、サーバ１００３を経由してタブレットＢに送信され、タブレットＢで動作するブラウザ等のソフトウエアの制御により、タブレットＢ上の表示がキャンセルされる。

以上のように図１４で説明した実施例によれば、
端末Ａに第１の言語による第１の音声を入力するステップ、
前記端末Ａに前記第１の音声を（音声認識などにより）第１のテキストとして表示するステップ、
前記端末Ａから前記第１のテキストを（ネットワークなどを介して）端末Ｂに転送するステップ、
前記端末Ｂに前記第１のテキストを（機械翻訳などにより）第２の言語による第２のテキストとして表示するステップ（なお、機械翻訳はネットワーク中のサーバが行ってもよいし、端末ＡまたはＢが行ってもよい）、
前記端末Ａに表示された前記第１のテキストの任意の個所を指定するステップ、
前記端末Ａから前記任意の個所の指定を前記端末Ｂに通知するステップ、
前記端末Ｂに表示された前記第２のテキストにおいて、指定された前記第１のテキストの任意の個所に対応する部分の表示を変更するステップ、
をサーバまたはタブレットが実行することにより、スムーズなコミュニケーションが可能となる。

本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の実施例の構成の追加・削除・置換をすることが可能である。

自動翻訳などのコミュニケーションツールに利用することができる。

音声翻訳装置１００、音声認識部１０１、テキスト翻訳部１０２、テキスト（第２言語）と音声（第１言語）との情報同期部１０３、ジェスチャ検出部１０４、ジェスチャと音声（第１言語）との情報同期部１０５、音声合成部（第2言語）１０６１、映像と音声（第2言語）との情報同期の最適化部１０６、音声出力部１０７、映像出力部１０８

Claims

視覚情報と聴覚情報の同期方法において、
映像に含まれ、映像中の第１の映像タイミングに対応する前記視覚情報を抽出し、
第１言語の音声に含まれ、音声中の第１の音声タイミングに対応する第１言語の聴覚情報を認識し、
前記視覚情報と、前記第１言語の聴覚情報とを対応付け、
前記第１言語の音声を第２言語の音声に変換して、前記第１言語の聴覚情報を前記第２言語の音声中の第２言語の聴覚情報に翻訳し、
前記第２言語の聴覚情報は、前記第２言語の音声中の第２の音声タイミングに対応し、
前記視覚情報の第１の映像タイミングと前記第２言語の聴覚情報の第２の音声タイミングとを対応付けるよう、前記視覚情報及び前記第２言語の聴覚情報の少なくとも一つを編集し、
前記視覚情報の第１の映像タイミングと前記第２言語の聴覚情報の第２の音声タイミングとを対応付ける編集は、前記視覚情報の第１の映像タイミングと前記第２言語の聴覚情報の第２の音声タイミングとの時間的ずれを評価し、該時間的ずれを縮小する編集であり、
前記時間的ずれを縮小する編集は、
前記映像に含まれる前記視覚情報の発生タイミングおよび前記第２言語の音声中の前記第２言語の聴覚情報の発生タイミングの少なくとも一つを移動させる、
ことを特徴とする視覚情報と聴覚情報の同期方法。
請求項１において、
前記時間的ずれを縮小する編集は、
前記映像を早くする、前記映像を遅くする、前記映像のシーン順番を入れ替える、前記第２言語の音声の語順を変える、前記第２言語の音声の単語を同義語に置き換える、前記第２言語の音声の発話速度を早くする、前記第２言語の音声の発話速度を遅くする、及び、前記第２言語の音声にポーズを挿入する、の操作のうちの少なくとも一つを含む、
視覚情報と聴覚情報の同期方法。
請求項１において、
前記視覚情報及び前記第２言語の聴覚情報の少なくとも一つを編集する編集手法は、複数ある編集手法から、一つ以上の最適な編集手法を選択することを特徴とする、
視覚情報と聴覚情報の同期方法。
視覚情報と聴覚情報の同期方法において、
映像に含まれる前記視覚情報を抽出し、
第１言語の音声に含まれる第１言語の聴覚情報を認識し、
前記視覚情報と、前記第１言語の聴覚情報とを対応付け、
前記第１言語の音声を第２言語の音声に変換して、前記第１言語の聴覚情報を前記第２言語の音声中の第２言語の聴覚情報に翻訳し、
前記視覚情報と前記第２言語の聴覚情報とを対応付けるよう、前記視覚情報及び前記第２言語の聴覚情報の少なくとも一つを編集し、
前記編集は、前記映像中の視覚情報の発生タイミングと前記第２言語の音声中の前記第２言語の聴覚情報の発生タイミングとの時間的ずれを縮小する編集であり、
前記時間的ずれを縮小する編集は、
前記視覚情報の発生タイミングおよび前記第２言語の聴覚情報の発生タイミングの少なくとも一つを移動させるものであり、
前記視覚情報及び前記第２言語の聴覚情報の少なくとも一つを編集する編集手法は、複数ある編集手法から、一つ以上の最適な編集手法を選択するものであり、
前記最適な編集手法を選択する手法には、それぞれの前記編集手法による前記視覚情報及び前記第２言語の聴覚情報を予め定めた基準により評価した結果を用いることを特徴とする、
視覚情報と聴覚情報の同期方法。
視覚情報と聴覚情報の同期方法において、
映像に含まれる前記視覚情報を抽出し、
第１言語の音声に含まれる第１言語の聴覚情報を認識し、
前記視覚情報と、前記第１言語の聴覚情報とを対応付け、
前記第１言語の音声を第２言語の音声に変換して、前記第１言語の聴覚情報を前記第２言語の音声中の第２言語の聴覚情報に翻訳し、
前記視覚情報と前記第２言語の聴覚情報とを対応付けるよう、前記視覚情報及び前記第２言語の聴覚情報の少なくとも一つを編集し、
前記編集は、前記映像中の視覚情報の発生タイミングと前記第２言語の音声中の前記第２言語の聴覚情報の発生タイミングとの時間的ずれを縮小する編集であり、
前記時間的ずれを縮小する編集は、
前記視覚情報の発生タイミングおよび前記第２言語の聴覚情報の発生タイミングの少なくとも一つを移動させるものであり、
前記視覚情報及び前記第２言語の聴覚情報の少なくとも一つを編集する編集手法は、複数ある編集手法から、一つ以上の最適な編集手法を選択するものであり、
前記最適な編集手法を選択する手法では、前記視覚情報及び前記第２言語の聴覚情報の編集による視覚情報及び第２言語の聴覚情報を予め定めた基準により評価した結果に基づいて選択することを特徴とする、
視覚情報と聴覚情報の同期方法。
請求項３において、
前記視覚情報を編集する編集手法は、前記映像の再生の一時的な静止、前記映像の再生順序の変更の少なくとも一つを用いて、前記視覚情報のタイミングを変更することを特徴とする、
視覚情報と聴覚情報の同期方法。
請求項３において、
前記第２言語の聴覚情報を編集する編集手法は、前記第２言語の聴覚情報を含む第２言語の音声の再生の一時的な静止、前記第２言語の音声の発話語順の変更、前記第２言語の音声の中の単語の長さの異なる同意語への変更、の少なくとも一つを用いて、前記聴覚情報のタイミングを変更することを特徴とする、
視覚情報と聴覚情報の同期方法。
請求項４において、
前記予め定めた基準による評価は、前記視覚情報については、時空間連続性と時空間変化率のなめらかさを評価することを特徴とする、
視覚情報と聴覚情報の同期方法。
請求項４において、
前記予め定めた基準による評価は、前記第２言語の聴覚情報については、前記第２言語の聴覚情報を含む第２言語の音声の連続性を評価することを特徴とする、
視覚情報と聴覚情報の同期方法。
第１の視覚情報を含む入力映像データと、第１の聴覚情報を含む第１の言語による入力音声データを入力し、前記第１の視覚情報は前記入力映像データ中の第１の視覚タイミングに対応するものであり、前記第１の聴覚情報は前記第１の言語による入力音声データ中の第１の音声タイミングに対応するものであり、
前記第１の視覚情報と同一の情報または前記第１の視覚情報である人間の動きに対応するロボットの動作である第２の視覚情報を含む出力視覚データと、前記第１の聴覚情報に対応する第２の聴覚情報を含む第２の言語による出力音声データを出力し、前記第２の視覚情報は出力視覚データ中の第２の視覚タイミングに対応するものであり、前記第２の聴覚情報は第２の言語による出力音声データ中の第２の音声タイミングに対応するものである情報処理装置であって、
前記入力映像データから前記第１の視覚情報を検出する検出部と、
前記入力音声データから前記第１の聴覚情報を認識する認識部と、
前記第１の視覚情報と前記第１の聴覚情報の対応付けを行う対応付け部と、
前記第１の言語による入力音声データを、前記第２の言語による出力音声データに変換する翻訳部と、
前記対応付けられた前記第１の視覚情報と前記第１の聴覚情報に対応する、前記第２の視覚情報と前記第２の聴覚情報の出力タイミングずれが小さくなるように、前記第２の視覚情報および前記第２の聴覚情報の少なくとも一方の出力タイミングを制御する最適化部と、
を有する情報処理装置。
前記最適化部は、
前記出力視覚データである出力映像データを編集する映像編集部、
前記出力視覚データであるロボットの動作指令データを編集する動作指令編集部、前記出力音声データを生成するためのテキストデータを編集するテキスト編集部、および、前記出力音声データを編集する音声編集部、
の少なくとも一つを有する請求項１０記載の情報処理装置。
前記最適化部は、
前記対応付けられた前記第１の視覚情報と前記第１の聴覚情報に対応する、前記第２の視覚情報と前記第２の聴覚情報の出力タイミングずれを閾値と比較する、時間ずれ評価部を備え、
前記評価部により前記出力タイミングずれが前記閾値より大きいと判定された場合に、
前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、
の少なくとも一つを動作させる請求項１１記載の情報処理装置。
前記映像編集部は、
前記入力映像データに対して、該入力映像データに含まれる前記第１の視覚情報の時間的な前後関係を入れ替える編集を行うことで、前記第２の視覚情報を含む前記出力映像データを生成する、
請求項１１記載の情報処理装置。
第１の視覚情報を含む入力映像データと、第１の聴覚情報を含む第１の言語による入力音声データを入力し、
前記第１の視覚情報と同一の情報または前記第１の視覚情報である人間の動きに対応するロボットの動作である第２の視覚情報を含む出力視覚データと、前記第１の聴覚情報に対応する第２の聴覚情報を含む第２の言語による出力音声データを出力する情報処理装置であって、
前記入力映像データから前記第１の視覚情報を検出する検出部と、
前記入力音声データから前記第１の聴覚情報を認識する認識部と、
前記第１の視覚情報と前記第１の聴覚情報の対応付けを行う対応付け部と、
前記第１の言語による入力音声データを、前記第２の言語による出力音声データに変換する翻訳部と、
前記対応付けられた前記第１の視覚情報と前記第１の聴覚情報に対応する、前記第２の視覚情報と前記第２の聴覚情報の出力タイミングずれが小さくなるように、前記第２の視覚情報および前記第２の聴覚情報の少なくとも一方の出力タイミングを制御する最適化部と、
を有し、
前記最適化部は、
前記出力視覚データである出力映像データを編集する映像編集部、
前記出力視覚データであるロボットの動作指令データを編集する動作指令編集部、前記出力音声データを生成するためのテキストデータを編集するテキスト編集部、および、前記出力音声データを編集する音声編集部、
の少なくとも一つを有し、
前記テキスト編集部は、
前記翻訳部における翻訳結果の候補を変更することにより、前記出力音声データを生成するテキストデータを変更するか、あるいは、前記テキストデータ内の語順を変更することで、前記出力音声データを生成する、
情報処理装置。
第１の視覚情報を含む入力映像データと、第１の聴覚情報を含む第１の言語による入力音声データを入力し、
前記第１の視覚情報と同一の情報または前記第１の視覚情報である人間の動きに対応するロボットの動作である第２の視覚情報を含む出力視覚データと、前記第１の聴覚情報に対応する第２の聴覚情報を含む第２の言語による出力音声データを出力する情報処理装置であって、
前記入力映像データから前記第１の視覚情報を検出する検出部と、
前記入力音声データから前記第１の聴覚情報を認識する認識部と、
前記第１の視覚情報と前記第１の聴覚情報の対応付けを行う対応付け部と、
前記第１の言語による入力音声データを、前記第２の言語による出力音声データに変換する翻訳部と、
前記対応付けられた前記第１の視覚情報と前記第１の聴覚情報に対応する、前記第２の視覚情報と前記第２の聴覚情報の出力タイミングずれが小さくなるように、前記第２の視覚情報および前記第２の聴覚情報の少なくとも一方の出力タイミングを制御する最適化部と、
を有し、
前記最適化部は、
前記出力視覚データである出力映像データを編集する映像編集部、
前記出力視覚データであるロボットの動作指令データを編集する動作指令編集部、前記出力音声データを生成するためのテキストデータを編集するテキスト編集部、および、前記出力音声データを編集する音声編集部、
の少なくとも一つを有し、
前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、の少なくとも一つを動作させた結果の、前記出力視覚データおよび前記出力音声データの少なくとも一つを予め定めた基準により評価する評価部を備え、
前記評価部の評価結果に基づいて、前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、のいずれを動作させるかを変更する、
情報処理装置。