JP2021179689A

JP2021179689A - 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末

Info

Publication number: JP2021179689A
Application number: JP2020083415A
Authority: JP
Inventors: 徹江崎; Toru Ezaki
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2021-11-18
Anticipated expiration: 2040-05-11
Also published as: JP6754154B1

Abstract

【課題】話者が言葉を発するときの口唇の動きに基づきその言葉を他言語の言葉に翻訳する場合において、翻訳処理の高速化が可能な技術を提供する。【解決手段】話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳して出力可能な翻訳プログラムにおいて、コンピュータを、話者が発する言葉を、当該言葉を発するときの口唇の動きからは読み取り不可能であって、当該口唇の動きに対応付けられた前記他言語の言葉に翻訳して出力可能な翻訳部として機能させる。【選択図】図４

Description

本発明は、話者が発した言葉を他国語に翻訳する技術に関し、特に、話者の口唇の動きに基づいて翻訳処理を実行する翻訳プログラム、翻訳装置、及び翻訳方法に関するものである。

話者が発する言葉を、人間によらず、コンピュータによって認識させる技術の研究・開発が行われている。
例えば、話者が発する言葉を、当該話者が映っている映像を解析して認識する技術が知られている。
具体的には、映像から話者の口唇の動きを特定し、当該特定した口唇の動きに基づいて話者が発した言葉を読み取る映像解析の技術（読唇技術）が知られている（例えば、特許文献１参照）。
このような映像解析技術に基づき、話者の口唇の動きから読み取れる、当該話者の言語（日本語）や、これに対応した他言語（英語）を出力することで翻訳を実行可能な技術が提案されている（例えば、特許文献２参照）。

特開２００４−１５２５０号公報特開２０１３−４５２８２号公報

ところで、従来、話者の口唇の動きに基づく他言語への翻訳処理は、以下の点において問題があった。
例えば、話者が、英語で「Ｉｈａｖｅａｐｅｎ」という言葉を発した場合、話者の口唇の動きを映像解析により特定し、特定した口唇の動きから「アイハブアペン」と話者が発したこと、つまり、英語で「Ｉｈａｖｅａｐｅｎ」と話者が発したことを認識し、その後、この英語「Ｉｈａｖｅａｐｅｎ」を日本語「私はペンを持っている。」に翻訳する処理が行われる。
しかしながら、この場合、第１に、話者の口唇の動きから「英語」の言葉を認識し、第２に、当該認識した「英語」の言葉を「日本語」の言葉に翻訳するといった、複数の処理や工程が必要であり、このことが翻訳処理における遅延の要因となっていた。
つまり、仮に、話者の口唇の動きから直接「日本語」を翻訳できるのであれば遅延の問題は生じないが、話者の口唇の動きから一旦「英語」の言葉を認識するといった無駄な処理や工程があるために遅延の問題が生じていた。

また、特許文献２の通訳システムは、予め口唇の動き（特徴量）に対応した日本語「暖かいです」のテキストデータとともに、これに対応する英語「Ｉｔｉｓｗａｒｍ」のテキストデータとを対応付けた態様のデータベースを登録することで、話者が日本語で「暖かいです」と話したときに、日本語と英語とを共に出力可能としている。
しかしながら、この場合、データベースは、日本語のテキストデータとこれに対応する英語のテキストデータといった複数のデータで構成されており、無駄なデータを含む構成となっている。
つまり、仮に、話者の口唇の動きから直接「日本語」を翻訳できるのであれば必要のない「英語」のテキストデータをデータベースに含んでおり、これにより、記憶部の記憶領域を無駄に占有したり、必要以上の記憶容量を用意せざるを得なかった。

以上のように、従来における、話者の口唇の動きに基づく他言語への翻訳技術は、話者の口唇の動きから直接的に他言語に翻訳する構成にはなっておらず、これによって遅延や記憶容量に関する種々の問題が生じていた。
これは、読唇技術者がそうであるように、話者（例えば英語話者）の口唇の動きからは、当該話者が実際に発した言語（英語）の言葉は読み取ることはできても、話者の口唇の動きから当該話者が発した言語とは異なる他言語（日本語）の言葉は読み取ることができないこと、言い換えれば、話者の口唇の動きから当該話者が実際に発していない他言語の言葉を読み取ることは不可能であること、が技術常識であることが背景にある。
つまり、このような技術常識があるために、当業者を含む多くの者が、話者の口唇の動きと他言語とを直接結び付けた翻訳処理の構成を発想するには至らず、これによって遅延や記憶容量に関する種々の問題が潜在していた。

本発明は、以上のような事情に鑑みなされたものであり、話者の口唇の動きに基づいて、直接的に他言語への翻訳処理を行う翻訳プログラム、翻訳装置、及び翻訳方法の提供を目的とする。

上記課題を達成するため、本発明の翻訳プログラムは、話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳可能な翻訳プログラムにおいて、コンピュータを、話者が発する言葉を、当該言葉を発するときの口唇の動きからは読み取り不可能であって、当該口唇の動きに対応付けられた前記他言語の言葉に翻訳して出力可能な翻訳部、として機能させるようにしてある。

本発明によれば、話者の口唇の動きに基づいて行われる他言語への翻訳を高速に行うことができる。

本発明の翻訳装置の一例であるウェアラブル端末の外観図である。翻訳装置のハードウェア構成を示すブロック図である。翻訳装置のソフトウェア構成を示すブロック図である。機械学習に用いるデータセット（教師データ）の一例である。学習済みの翻訳モデルを示す模式図である。翻訳情報の表示例を示す図である。本発明の翻訳方法に係る処理手順を示すフローチャートである。複数の装置で構成された翻訳装置の一例を示す図である。（ａ）は、ウェアラブル端末とスマートフォンとにより構成される翻訳装置の一例であり、（ｂ）は、サーバと各種端末装置とにより構成される翻訳装置の一例である。

本発明の翻訳装置１の実施形態について図面を参照して説明する。
図１は、本発明の翻訳装置１の一例であるウェアラブル端末の外観図である。
図１に示すように、本発明の翻訳装置１は、例えば、撮影装置１６を備えたメガネ型のウェアラブル端末によって構成することができる。
本実施形態では、聞き手である利用者がウェアラブル端末を装着した状態で、対面する話者を撮影装置１６で撮影しながら、話者が発する言葉をウェアラブル端末により翻訳し、翻訳結果を表示すること（同時通訳）を想定している。
また、本実施形態では、話者が米国人で、利用者が日本人であり、話者が発する英語の言葉を、日本語に翻訳することを想定している。
翻訳装置１は、スマートフォン、タブレット端末、パーソナルコンピュータなどの情報処理端末を適用することもできる。

図２は、翻訳装置１の一例であるウェアラブル端末のハードウェア構成を示すブロック図である。
図２に示すように、翻訳装置１は、プロセッサ１１と、メモリ１２と、ストレージ１３と、入力装置１４と、出力装置１５と、撮影装置１６と、通信装置１７とを備えるコンピュータである。
プロセッサ１１は、制御部、演算部、レジスタ等を含む中央処理部（ＣＰＵ）を備え、コンピュータ全体を制御する。
プロセッサ１１は、プログラム及びデータ等を、ストレージ１３や通信装置１７からメモリ１２に読み出し、これらに従って各種の処理を実行する。
メモリ１２は、コンピュータが読み取り可能な記録媒体であり、例えば、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＲＡＭ等である。

ストレージ１３は、コンピュータが読み取り可能な記録媒体であり、例えば、ハードディスクドライブ、フラッシュメモリ等である。
ストレージ１３は、本発明の記憶部として機能する。
入力装置１４は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。
出力装置１５は、外部への出力を実施する出力デバイス（例えば、モニター、ディスプレイ、表示パネル、スピーカー、ＬＥＤランプなど）である。
ウェアラブル端末においては、出力装置１５として投影装置を備え、当該投影装置から翻訳情報が投影されることで、レンズ１５１上に翻訳情報が表示されるようになっている（図１、図６参照）。

撮影装置１６は、カメラであり、撮影した映像情報をプロセッサ１１に供給する。
撮影装置１６は、ウェアラブル端末を装着した利用者の前方の映像を撮影可能に設けられている。
本実施形態では、利用者がウェアラブル端末を装着した状態で、利用者の前方にいる話者の顔の映像（少なくとも口唇部を含む映像）が撮影できるようになっている。
なお、撮影装置１６は、外部のカメラであってもよい。
また、話者の撮影情報を外部から取り込み、ストレージ１３に記憶しておくこともできる。
通信装置１７は、有線及び／又は無線による通信回線を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等である。
本実施形態のメガネ型のウェアラブル端末において、前記各部は、例えば、テンプル部分に内蔵又は外付けされた態様で設けられる。

翻訳装置１は、プロセッサ１１がプログラム（本発明の翻訳プログラム）を実行して各部を制御することで、以下に述べる機能が実現される。
例えば、ボタンなどの入力装置１４の操作に応じて、翻訳プログラムが実行され、撮影装置１６による撮影が開始される。
図３は、翻訳装置１のソフトウェア構成を示すブロック図である。
図３に示すように、翻訳装置１は、映像入力部２１と、翻訳モデル２２と、出力部２３と、翻訳モデル生成部２４と、を備える。

映像入力部２１は、撮影装置１６により撮影された話者の顔の映像情報を入力する。
具体的には、撮影装置１６により撮影された話者の顔の映像から話者の口唇領域の映像、つまり、話者の口唇の動きを特定可能な映像を抽出して翻訳モデル２２に入力する。
なお、翻訳モデル２２に入力される「映像」は、話者の口唇の動きが映された動画であり、時系列要素を有する複数の静止画である。

翻訳モデル２２は、翻訳モデル生成部２４により生成されるプログラムである。
翻訳モデル２２の生成においては、前処理として、機械学習に用いる多数のデータセット（教師データ）を記憶部であるストレージ１３に記憶させる処理を行う。
データセットは、話者が言葉を発するときの口唇の動きを特定可能な映像情報と、当該口唇の動きからは読み取り不可能な他言語であって、前記言葉に対応する他言語の言葉（すなわち、前記言葉と同じ意味の他言語の言葉）の情報と、を対応付けたデータ構成である。
なお、「読み取り不可能」とは、技術常識に基づき「読み取り不可能」であることを意味するが、これに限らず、「読み取り困難」や「極めて読み取り困難」を含む。
「同じ意味」とは、完全同一の意味に限らず、「ほぼ同じ意味」や「おおよそ同じ意味」を含む。
「他言語」とは、話者が実際に発した言語とは異なる言語であり、例えば、話者が英語で言葉を発した場合、英語以外の言語（例えば日本語）のことをいう。
言い換えると、「他言語」は、翻訳における「原言語（翻訳前の言語）」と「目的言語（翻訳後の言語）」との関係においては「目的言語」に相当する。
「言葉」は、複数の単語を組み合わせたフレーズやセンテンス（文）のみならず、単語そのものを含む。

図４は、データセット（教師データ）の一例である。
図４に示すように、本実施形態のデータセットは、（ａ）英語話者が言葉を発したときの口唇の動きを特定可能な映像情報（入力データ）と、（ｂ）その言葉の日本語の文字情報（出力データ）とにより構成される。
つまり、図４に示すデータセットは、英語→日本語の翻訳を目的とする場合のデータセットである。
例えば、Ｎｏ．１のデータセットは、（ａ）英語話者が英語で「Ｉｈａｖｅａａｐｐｌｅ．」と言ったときの口唇の動きを予め撮影した映像情報と、（ｂ）その日本語の文字情報「私はリンゴを持っている。」とにより構成される。
Ｎｏ．２のデータセットは、（ａ）英語話者が英語で「Ｉｈａｖｅａｐｅｎ．」と言ったときの口唇の動きを予め撮影した映像情報と、（ｂ）その日本語の文字情報「私はペンを持っている。」とにより構成される。
このようなデータセットは、例えば、同時通訳者に、（ａ）の映像情報（話者の音声を含む）を見せながら英語翻訳を行わせ、翻訳結果を、（ｂ）の文字情報として（ａ）の映像情報と紐付けて構成する。
これにより、同時通釈者が備える直観的な翻訳機能や翻訳技術を移植することが期待できる。
この他にも、例えば、音声認識により話者が発した言語を他言語に自動的に翻訳することが可能な公知のアプリケーションプログラムを用い、当該プログラムの翻訳結果を（ｂ）の情報として用いることもできる。
このようなデータセットを、１つの言葉に対し複数（多数）パターン記憶させるとともに、様々な言葉について記憶する。
なお、図４は、フレーズやセンテンスに係るデータセットの一例であるが、単語に係るデータセットを含めることもできる。

図４は、原言語（翻訳前の言語）である英語を、目的言語（翻訳後の言語）である日本語に翻訳する場合のデータセットである。
このため、原言語や目的言語に応じ、データセットの構成データを変えることで様々な翻訳に対応することができる。
例えば、日本語（原言語）→英語（目的言語）の翻訳を目的とする場合、（ａ）を日本語の言葉を発するときの口唇の動きを特定可能な映像情報とし、（ｂ）をその言葉の英語の文字情報とするデータセットを用意すればよい。
また、英語（原言語）→仏語（目的言語）の翻訳を目的とする場合、（ａ）を英語の言葉を発するときの口唇の動きを特定可能な映像情報とし、（ｂ）をその言葉の仏語の文字情報とするデータセットを用意すればよい。

翻訳モデル生成部２４は、ストレージ１３に記憶されているデータセットを教師データとして機械学習させることで学習済みの翻訳モデル２２を生成する。
機械学習は、公知の深層学習（ディープラーニング）などのニューラルネットワークを用いて行うものとする。
具体的には、ニューラルネットワークにおいて、入力層に、図４（ａ）のデータを入力することで、出力層から図４（ｂ）のデータが高確率（例えば９０％以上）で出力されるように学習させる。
すなわち、話者が言葉を発するときの口唇の動きを特定可能な映像情報を入力層に入力したときに、出力層において、その言葉と対応する他言語の言葉の情報の確率が高確率で導出されるように各ニューロンにおける重み係数等の最適化処理を実行させることにより学習済みの翻訳モデル２２が生成される。
機械学習の対象は、時系列要素を有する複数の静止画（映像）によって表される口唇の動きであり、その口唇の動きによって表される時系列要素を有する言葉であることから、公知のＣＮＮ（畳み込みニューラルネットワーク）、ＲＮＮ（再帰型ニューラルネットワーク）、ＬＳＴＭ等を用いる。

翻訳モデル２２は、翻訳部の一機能であり、話者の口唇の動きを特定可能な映像情報が入力されると、その言葉に対応する他言語の言葉の情報を翻訳情報として出力する。
このため、話者の映像を撮影装置１６で撮影しつつ、その映像情報を翻訳モデル２２に入力するようにことで、話者が何らかの言葉を発した場合、話者の口唇の動きに基づいて他言語の言葉を翻訳情報として出力する、いわゆる同時通訳が可能になる。
図５は、翻訳モデル生成部２４により生成された翻訳モデル２２の模式図である。
図５に示すように、翻訳モデル２２は、入力層と中間層と出力層とを有する多層のニューラルネットワークで構成されている。
図５は、英語話者が「Ｉｈａｖｅａｐｅｎ．」と発したときの口唇の動きを特定可能な映像情報を入力層に入力した場合に、出力層において「私はリンゴを持っている。」が出力（分類）されたことを示している。
つまり、話者が言葉を発した場合、当該話者がその言葉を発するときの口唇の動きを特定可能な映像情報を翻訳モデル２２に入力することで、当該翻訳モデル２２から、その言葉に対応する他言語の言葉が翻訳情報として出力される。
なお、「話者が言葉を発した場合、当該話者がその言葉を発するときの口唇の動き」には、仮に話者が言葉を発したとしたら、そのような口唇の動きになる当該口唇の動きを含む。
このため、話者が言葉を発さずに口元だけ動かす、いわゆる口パクの場合にも対応することができる。
また、翻訳モデル２２には、ストレージ１３に記憶した映像情報や、通信装置１７が外部から受信した映像情報を入力させることもできる。
このため、同時通訳のみならず、過去の映像情報から特定される話者の動きに基く翻訳も可能である。

出力部２３は、翻訳モデル２２から出力された翻訳情報を出力装置１５に出力させる。
本実施形態のウェアラブル端末においては、出力装置１５の一例である投影装置による投影によりレンズ１５１上に翻訳情報を表示することができる（図１参照）。
図６は、翻訳情報として「私はリンゴを持っている。」がレンズ１５１上に表示された例を示している。
この場合、利用者は、ウェアラブル端末を装着した状態で、レンズ１５１に表示される翻訳情報を見ることができる。
このため、例えば、ウェアラブル端末を同時通訳に用いることができ、話者との円滑な会話をサポートすることができる。
翻訳装置１が、パーソナルコンピュータ、スマートフォン、タブレット端末の場合、翻訳情報をディスプレイやモニターに表示することができる。
出力部２３は、翻訳情報を、ストレージ１３に記憶することもできる。
これにより、例えば、会議の議事録やインタビューなどを自動的に記録することができる。
出力部２３は、翻訳情報を、通信装置１７により外部に送信させることもできる。

次に、本発明の翻訳方法について説明する。
図７は、本発明の翻訳方法に係る処理手順を示すフローチャートである。
図７に示すように、まず、話者の口唇の動きを特定可能な映像情報を入力する（Ｓ１）。本発明の前工程に相当する工程である。
次に、口唇の動きに対応付けられた他言語の言葉の情報を翻訳情報として出力する（Ｓ２）。本発明の後工程に相当する工程である。
具体的には、話者の口唇の動きを特定可能な映像情報を翻訳モデル２２に入力することで、当該翻訳モデル２２が、その口唇の動きに対応する他言語の言葉の情報を翻訳情報として出力する。

すなわち、本発明の翻訳方法は、話者が言葉を発した場合に、当該話者の口唇の動きを特定可能な映像情報を入力する前工程と、前記前工程により入力された口唇の動きを特定可能な映像情報に基づき、前記話者が発した言葉を、前記他言語の言葉に翻訳する後工程と、いった大きく２つの工程を有する。
つまり、従来技術では、前工程において入力された口唇の動きを特定可能な映像情報から前記話者が発した原言語の言葉を読み取る中工程を経て、当該中工程において読み取った原言語の言語を他言語の言葉に翻訳することが想定されるところ、本発明の翻訳方法では、このような中工程を経ることなく、つまり、前工程において入力された原言語に係る口唇の動きから直接他言語を翻訳情報として出力するようにしている。
このような本発明の翻訳方法によれば、無駄な工程を省くことができるため、翻訳処理を高速化することができる。

ここで、入力データと出力データとの「相関関係」について説明する。
要するに、（ａ）「口唇の動き」（入力データ）と、（ｂ）「他言語の言葉」（出力データ）との相関関係について説明する（図４参照）。
このうち、（ｂ）の「他言語の言葉」は、例えば、英語話者が英語で言葉を発するときの口唇の動き（ａ）からは読み取ることが不可能な日本語の言葉であるものの、（ａ）から読み取ることが可能な英語の言葉と同じ意味の日本語の言葉であることから、（ａ）と（ｂ）とは相関関係を有する。
また、話者の口唇の動きから原言語の言葉を読み取ることは可能であっても、話者の口唇の動きから、直接、他言語の言葉を読み取ること（つまり、話者が実際に発していない言語（他言語）を読み取ること）は、技術常識を超える発想であることから、この相関関係は新規かつ特徴的なものである。
本発明は、このような特徴的な相関関係のある入力データと出力データを用いることで、話者が話す言葉を、その口唇の動きから直接他言語に翻訳するものである。
つまり、本発明は、従来、翻訳処理において、話者の口唇の動きから一旦「原言語」の言葉を認識するといった無駄な処理や工程があるために生じていた遅延の問題や、登録処理において、必要のない「原言語」のデータを登録情報に含むことによる記憶容量等の問題を解決するものである。
このような本発明によれば、翻訳処理の高速化等を図ることができる。

また、従来は、第１に「口唇の動き」から「原言語」の言葉を認識し、第２に当該認識した「原言語の言葉」を「他言語の言葉」に翻訳する、といった複数の処理や工程を介して翻訳処理が行われることで、第１の処理及び第２の処理のいずれか一方で誤認識や誤訳があった場合、最終的な翻訳精度が低下していた。
このため、従来は、複数の処理に対応したそれぞれの登録データについても適切なデータを登録する必要があり、それぞれの登録データが適切でなければ、翻訳の精度が低下する問題があった。
これに対し、本発明、すなわち、本発明に係る「相関関係」によれば、このような従来の問題は生じない。

（他の実施形態）
翻訳装置１を、複数の装置の組み合わせにより実現することもできる。
図８は、複数の装置で構成された翻訳装置１の一例を示す図である。（ａ）は、ウェアラブル端末とスマートフォンとにより構成される翻訳装置１の一例であり、（ｂ）は、サーバと各種装置とにより構成される翻訳装置１の一例である。
図８に示すように、翻訳装置１は、複数の装置を、所定の通信回線を介してデータ通信可能に接続することによって実現することができる。
図８（ａ）に示す翻訳装置１は、ウェアラブル端末とスマートフォン等とをブルートゥース（登録商標）を介して通信可能にした構成である。
この構成によれば、例えば、翻訳プログラムや当該プログラムにより実行される機能（ソフトウェア構成）をスマートフォン側に持たせることができ、ウェアラブル端末側では、話者の撮影や翻訳結果を表示する程度の簡易な構成にすることができる。
図８（ｂ）は、クラウドコンピューティングなどにおけるサーバと各種端末装置とをインターネット回線や携帯通信回線（５Ｇなど）を介して通信可能にした構成である。
この構成によれば、例えば、翻訳プログラムや当該プログラムにより実行される機能（ソフトウェア構成）をサーバ側に持たせることができ、端末装置側では、話者の撮影や翻訳結果を表示する程度の簡易な構成にすることができる。
特に、高速大容量・低遅延の５Ｇを用いることで、端末装置側においては簡易な構成を実現しつつ、あたかも端末装置単体で実行されているかのような、ストレスのない、円滑な翻訳処理を行うことができる。

以上説明したように、本発明の翻訳プログラムは、コンピュータを、話者が言葉を発した場合、当該話者がその言葉を発するときの口唇の動きからは読み取り不可能な他言語であって、前記言葉の情報に対応付けられた他言語の言葉の情報を翻訳情報として出力する翻訳部、として機能するようにしてある。
具体的には、コンピュータを、話者が言葉を発するときの口唇の動きを特定可能な映像情報と、当該口唇の動きからは読み取り不可能な他言語であって、前記言葉に対応する他言語の言葉の情報と、を対応付けて記憶する記憶部、前記記憶部に記憶されている、前記口唇の動きを特定可能な映像情報を入力とし前記他言語の言葉の情報を出力とする教師データを学習させることで学習済みの翻訳モデル２２を生成する翻訳モデル生成部２４、として機能させ、前記翻訳部は、話者が言葉を発した場合、当該話者の口唇の動きを特定可能な映像情報を前記翻訳モデル２２に入力することで、当該翻訳モデル２２から出力された前記他言語の言葉の情報を翻訳情報として出力するようにしてある。
また、本発明の翻訳装置１は、コンピュータであり、プロセッサ１１が、翻訳プログラムを実行することにより上記翻訳部（翻訳モデル２２）、記憶部、翻訳モデル生成部２４を機能させることが可能である。
また、本発明の翻訳方法においては、話者が言葉を発した場合に、当該話者の口唇の動きを特定可能な映像情報を入力する前工程と、前記前工程により入力された口唇の動きを特定可能な映像情報に基づき、前記話者が発した言葉を、前記他言語の言葉に翻訳する後工程と、を有し、前記後工程は、前記前工程により入力された口唇の動きを特定可能な映像情報から前記話者が発した言語を読み取る中工程を経ず、前記話者が発した言葉を、前記他言語の言葉に翻訳するようにしてある。

本発明によれば、話者が言葉を発するときの口唇の動きに基づきその言葉を直接他言語の言葉に翻訳するため、当該翻訳処理における遅延をなくし、高速化することができる。
具体的には、従来に比べ、構成、処理、工程を簡易にすることで、翻訳処理の高速化を図ることができる。
すなわち、本発明によれば、即時の翻訳処理が可能になる。
このため、例えば、本発明によれば、ストレスのない同時通訳サービスを実現できる。
具体的には、外国人と実際に会って対話する場合において、対話を円滑にすることができる。
特に、翻訳装置１としてのウェアラブル端末を装着することで、例えば、外国人との打合せや会議を円滑に行うことができる。
また、翻訳装置１としてパーソナルコンピュータやスマートフォンを用いる場合でも、Ｗｅｂ会議を介した国際会議等において円滑なコミュニケーションを図ることができる。

以上、本発明の翻訳プログラム、翻訳装置、及び翻訳方法について、好ましい実施形態を示して説明したが、本発明の翻訳装置等は、前述した実施形態にのみ限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、入力映像から話者の口唇の動きを特定し、当該特定した口唇の動きと類似する口唇の動きをデータセットの中から抽出し、当該抽出した口唇の動きと対応付けられている他言語の言葉を翻訳情報として出力することもできる。
また、翻訳情報として音声情報を出力してもよい。この場合、例えば、文字情報を音声情報に変換可能な公知の音声読み上げプログラムを用いることで実現できる。

本発明は、他言語への自動翻訳、特に、同時通訳に利用可能である。

１ウェアラブル端末（翻訳装置）
１６撮影装置
２２翻訳モデル
２４翻訳モデル生成部

本発明は、話者が発した言葉を他国語に翻訳する技術に関し、特に、話者の口唇の動きに基づいて翻訳処理を実行する翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末に関するものである。

本発明は、以上のような事情に鑑みなされたものであり、話者の口唇の動きに基づいて、直接的に他言語への翻訳処理を行う翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末の提供を目的とする。

上記課題を達成するため、本発明の翻訳プログラムは、話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳可能な翻訳プログラムにおいて、コンピュータを、話者が言葉を発するときの口唇の動きを特定可能な映像情報と、前記言葉に対応する他言語の言葉の情報と、を対応付けて記憶する記憶部、前記記憶部に記憶されている、前記口唇の動きを特定可能な映像情報を入力とし前記他言語の言葉の情報を出力とする教師データを学習させることで学習済みの翻訳モデルを生成する翻訳モデル生成部、及び話者が発する言葉を、当該話者の口唇の動きを特定可能な映像情報を前記翻訳モデルに入力することで、当該翻訳モデルから出力された前記他言語の言葉に翻訳する翻訳部、として機能させるようにしてある。

Claims

話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳可能な翻訳プログラムにおいて、
コンピュータを、
話者が発する言葉を、当該言葉を発するときの口唇の動きからは読み取り不可能であって、当該口唇の動きに対応付けられた前記他言語の言葉に翻訳して出力可能な翻訳部、として機能させる
ことを特徴とする翻訳プログラム。
コンピュータを、
話者が言葉を発するときの口唇の動きを特定可能な映像情報と、当該口唇の動きからは読み取り不可能な他言語であって、前記言葉に対応する他言語の言葉の情報と、を対応付けて記憶する記憶部、
前記記憶部に記憶されている、前記口唇の動きを特定可能な映像情報を入力とし前記他言語の言葉の情報を出力とする教師データを学習させることで学習済みの翻訳モデルを生成する翻訳モデル生成部、として機能させ、
前記翻訳部は、
話者が言葉を発した場合、当該話者の口唇の動きを特定可能な映像情報を前記翻訳モデルに入力することで、当該翻訳モデルから出力された前記他言語の言葉の情報を翻訳情報として出力する
ことを特徴とする請求項１に記載の翻訳プログラム。
話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳可能な翻訳装置において、
話者が発する言葉を、当該言葉を発するときの口唇の動きからは読み取り不可能であって、当該口唇の動きに対応付けられた前記他言語の言葉に翻訳して出力可能な翻訳部を備えた
ことを特徴とする翻訳装置。
話者が言葉を発するときの口唇の動きを特定可能な映像情報と、当該口唇の動きからは読み取り不可能な他言語であって、前記言葉に対応する他言語の言葉の情報と、を対応付けて記憶する記憶部と、
前記記憶部に記憶されている、前記口唇の動きを特定可能な映像情報を入力とし前記他言語の言葉の情報を出力とする教師データを学習させることで学習済みの翻訳モデルを生成する翻訳モデル生成部と、を備え、
前記翻訳部は、
話者が言葉を発した場合に、当該話者の口唇の動きを特定可能な映像情報を前記翻訳モデルに入力することで、当該翻訳モデルから出力された前記他言語の言葉の情報を翻訳情報として出力する
ことを特徴とする請求項３に記載の翻訳装置。
話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳可能な翻訳方法において、
話者が言葉を発した場合、当該話者の口唇の動きを特定可能な映像情報を入力する前工程と、
前記前工程により入力された口唇の動きを特定可能な映像情報に基づき、前記話者が発した言葉を、前記他言語の言葉に翻訳する後工程と、を有し、
前記後工程は、
前記前工程により入力された口唇の動きを特定可能な映像情報から前記話者が発した言語を読み取る工程を経ることなく、前記話者が発した言葉を、前記他言語の言葉に翻訳する
ことを特徴とする翻訳方法。