JP2021179689A - 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末 - Google Patents

翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末 Download PDF

Info

Publication number
JP2021179689A
JP2021179689A JP2020083415A JP2020083415A JP2021179689A JP 2021179689 A JP2021179689 A JP 2021179689A JP 2020083415 A JP2020083415 A JP 2020083415A JP 2020083415 A JP2020083415 A JP 2020083415A JP 2021179689 A JP2021179689 A JP 2021179689A
Authority
JP
Japan
Prior art keywords
translation
speaker
words
movement
lips
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020083415A
Other languages
English (en)
Other versions
JP6754154B1 (ja
Inventor
徹 江崎
Toru Ezaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2020083415A priority Critical patent/JP6754154B1/ja
Application granted granted Critical
Publication of JP6754154B1 publication Critical patent/JP6754154B1/ja
Publication of JP2021179689A publication Critical patent/JP2021179689A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 話者が言葉を発するときの口唇の動きに基づきその言葉を他言語の言葉に翻訳する場合において、翻訳処理の高速化が可能な技術を提供する。【解決手段】 話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳して出力可能な翻訳プログラムにおいて、コンピュータを、話者が発する言葉を、当該言葉を発するときの口唇の動きからは読み取り不可能であって、当該口唇の動きに対応付けられた前記他言語の言葉に翻訳して出力可能な翻訳部として機能させる。【選択図】図4

Description

本発明は、話者が発した言葉を他国語に翻訳する技術に関し、特に、話者の口唇の動きに基づいて翻訳処理を実行する翻訳プログラム、翻訳装置、及び翻訳方法に関するものである。
話者が発する言葉を、人間によらず、コンピュータによって認識させる技術の研究・開発が行われている。
例えば、話者が発する言葉を、当該話者が映っている映像を解析して認識する技術が知られている。
具体的には、映像から話者の口唇の動きを特定し、当該特定した口唇の動きに基づいて話者が発した言葉を読み取る映像解析の技術(読唇技術)が知られている(例えば、特許文献1参照)。
このような映像解析技術に基づき、話者の口唇の動きから読み取れる、当該話者の言語(日本語)や、これに対応した他言語(英語)を出力することで翻訳を実行可能な技術が提案されている(例えば、特許文献2参照)。
特開2004−15250号公報 特開2013−45282号公報
ところで、従来、話者の口唇の動きに基づく他言語への翻訳処理は、以下の点において問題があった。
例えば、話者が、英語で「I have a pen」という言葉を発した場合、話者の口唇の動きを映像解析により特定し、特定した口唇の動きから「アイ ハブ ア ペン」と話者が発したこと、つまり、英語で「I have a pen」と話者が発したことを認識し、その後、この英語「I have a pen」を日本語「私はペンを持っている。」に翻訳する処理が行われる。
しかしながら、この場合、第1に、話者の口唇の動きから「英語」の言葉を認識し、第2に、当該認識した「英語」の言葉を「日本語」の言葉に翻訳するといった、複数の処理や工程が必要であり、このことが翻訳処理における遅延の要因となっていた。
つまり、仮に、話者の口唇の動きから直接「日本語」を翻訳できるのであれば遅延の問題は生じないが、話者の口唇の動きから一旦「英語」の言葉を認識するといった無駄な処理や工程があるために遅延の問題が生じていた。
また、特許文献2の通訳システムは、予め口唇の動き(特徴量)に対応した日本語「暖かいです」のテキストデータとともに、これに対応する英語「It is warm」のテキストデータとを対応付けた態様のデータベースを登録することで、話者が日本語で「暖かいです」と話したときに、日本語と英語とを共に出力可能としている。
しかしながら、この場合、データベースは、日本語のテキストデータとこれに対応する英語のテキストデータといった複数のデータで構成されており、無駄なデータを含む構成となっている。
つまり、仮に、話者の口唇の動きから直接「日本語」を翻訳できるのであれば必要のない「英語」のテキストデータをデータベースに含んでおり、これにより、記憶部の記憶領域を無駄に占有したり、必要以上の記憶容量を用意せざるを得なかった。
以上のように、従来における、話者の口唇の動きに基づく他言語への翻訳技術は、話者の口唇の動きから直接的に他言語に翻訳する構成にはなっておらず、これによって遅延や記憶容量に関する種々の問題が生じていた。
これは、読唇技術者がそうであるように、話者(例えば英語話者)の口唇の動きからは、当該話者が実際に発した言語(英語)の言葉は読み取ることはできても、話者の口唇の動きから当該話者が発した言語とは異なる他言語(日本語)の言葉は読み取ることができないこと、言い換えれば、話者の口唇の動きから当該話者が実際に発していない他言語の言葉を読み取ることは不可能であること、が技術常識であることが背景にある。
つまり、このような技術常識があるために、当業者を含む多くの者が、話者の口唇の動きと他言語とを直接結び付けた翻訳処理の構成を発想するには至らず、これによって遅延や記憶容量に関する種々の問題が潜在していた。
本発明は、以上のような事情に鑑みなされたものであり、話者の口唇の動きに基づいて、直接的に他言語への翻訳処理を行う翻訳プログラム、翻訳装置、及び翻訳方法の提供を目的とする。
上記課題を達成するため、本発明の翻訳プログラムは、話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳可能な翻訳プログラムにおいて、コンピュータを、話者が発する言葉を、当該言葉を発するときの口唇の動きからは読み取り不可能であって、当該口唇の動きに対応付けられた前記他言語の言葉に翻訳して出力可能な翻訳部、として機能させるようにしてある。
本発明によれば、話者の口唇の動きに基づいて行われる他言語への翻訳を高速に行うことができる。
本発明の翻訳装置の一例であるウェアラブル端末の外観図である。 翻訳装置のハードウェア構成を示すブロック図である。 翻訳装置のソフトウェア構成を示すブロック図である。 機械学習に用いるデータセット(教師データ)の一例である。 学習済みの翻訳モデルを示す模式図である。 翻訳情報の表示例を示す図である。 本発明の翻訳方法に係る処理手順を示すフローチャートである。 複数の装置で構成された翻訳装置の一例を示す図である。(a)は、ウェアラブル端末とスマートフォンとにより構成される翻訳装置の一例であり、(b)は、サーバと各種端末装置とにより構成される翻訳装置の一例である。
本発明の翻訳装置1の実施形態について図面を参照して説明する。
図1は、本発明の翻訳装置1の一例であるウェアラブル端末の外観図である。
図1に示すように、本発明の翻訳装置1は、例えば、撮影装置16を備えたメガネ型のウェアラブル端末によって構成することができる。
本実施形態では、聞き手である利用者がウェアラブル端末を装着した状態で、対面する話者を撮影装置16で撮影しながら、話者が発する言葉をウェアラブル端末により翻訳し、翻訳結果を表示すること(同時通訳)を想定している。
また、本実施形態では、話者が米国人で、利用者が日本人であり、話者が発する英語の言葉を、日本語に翻訳することを想定している。
翻訳装置1は、スマートフォン、タブレット端末、パーソナルコンピュータなどの情報処理端末を適用することもできる。
図2は、翻訳装置1の一例であるウェアラブル端末のハードウェア構成を示すブロック図である。
図2に示すように、翻訳装置1は、プロセッサ11と、メモリ12と、ストレージ13と、入力装置14と、出力装置15と、撮影装置16と、通信装置17とを備えるコンピュータである。
プロセッサ11は、制御部、演算部、レジスタ等を含む中央処理部(CPU)を備え、コンピュータ全体を制御する。
プロセッサ11は、プログラム及びデータ等を、ストレージ13や通信装置17からメモリ12に読み出し、これらに従って各種の処理を実行する。
メモリ12は、コンピュータが読み取り可能な記録媒体であり、例えば、ROM、EPROM、EEPROM、RAM等である。
ストレージ13は、コンピュータが読み取り可能な記録媒体であり、例えば、ハードディスクドライブ、フラッシュメモリ等である。
ストレージ13は、本発明の記憶部として機能する。
入力装置14は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。
出力装置15は、外部への出力を実施する出力デバイス(例えば、モニター、ディスプレイ、表示パネル、スピーカー、LEDランプなど)である。
ウェアラブル端末においては、出力装置15として投影装置を備え、当該投影装置から翻訳情報が投影されることで、レンズ151上に翻訳情報が表示されるようになっている(図1、図6参照)。
撮影装置16は、カメラであり、撮影した映像情報をプロセッサ11に供給する。
撮影装置16は、ウェアラブル端末を装着した利用者の前方の映像を撮影可能に設けられている。
本実施形態では、利用者がウェアラブル端末を装着した状態で、利用者の前方にいる話者の顔の映像(少なくとも口唇部を含む映像)が撮影できるようになっている。
なお、撮影装置16は、外部のカメラであってもよい。
また、話者の撮影情報を外部から取り込み、ストレージ13に記憶しておくこともできる。
通信装置17は、有線及び/又は無線による通信回線を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等である。
本実施形態のメガネ型のウェアラブル端末において、前記各部は、例えば、テンプル部分に内蔵又は外付けされた態様で設けられる。
翻訳装置1は、プロセッサ11がプログラム(本発明の翻訳プログラム)を実行して各部を制御することで、以下に述べる機能が実現される。
例えば、ボタンなどの入力装置14の操作に応じて、翻訳プログラムが実行され、撮影装置16による撮影が開始される。
図3は、翻訳装置1のソフトウェア構成を示すブロック図である。
図3に示すように、翻訳装置1は、映像入力部21と、翻訳モデル22と、出力部23と、翻訳モデル生成部24と、を備える。
映像入力部21は、撮影装置16により撮影された話者の顔の映像情報を入力する。
具体的には、撮影装置16により撮影された話者の顔の映像から話者の口唇領域の映像、つまり、話者の口唇の動きを特定可能な映像を抽出して翻訳モデル22に入力する。
なお、翻訳モデル22に入力される「映像」は、話者の口唇の動きが映された動画であり、時系列要素を有する複数の静止画である。
翻訳モデル22は、翻訳モデル生成部24により生成されるプログラムである。
翻訳モデル22の生成においては、前処理として、機械学習に用いる多数のデータセット(教師データ)を記憶部であるストレージ13に記憶させる処理を行う。
データセットは、話者が言葉を発するときの口唇の動きを特定可能な映像情報と、当該口唇の動きからは読み取り不可能な他言語であって、前記言葉に対応する他言語の言葉(すなわち、前記言葉と同じ意味の他言語の言葉)の情報と、を対応付けたデータ構成である。
なお、「読み取り不可能」とは、技術常識に基づき「読み取り不可能」であることを意味するが、これに限らず、「読み取り困難」や「極めて読み取り困難」を含む。
「同じ意味」とは、完全同一の意味に限らず、「ほぼ同じ意味」や「おおよそ同じ意味」を含む。
「他言語」とは、話者が実際に発した言語とは異なる言語であり、例えば、話者が英語で言葉を発した場合、英語以外の言語(例えば日本語)のことをいう。
言い換えると、「他言語」は、翻訳における「原言語(翻訳前の言語)」と「目的言語(翻訳後の言語)」との関係においては「目的言語」に相当する。
「言葉」は、複数の単語を組み合わせたフレーズやセンテンス(文)のみならず、単語そのものを含む。
図4は、データセット(教師データ)の一例である。
図4に示すように、本実施形態のデータセットは、(a)英語話者が言葉を発したときの口唇の動きを特定可能な映像情報(入力データ)と、(b)その言葉の日本語の文字情報(出力データ)とにより構成される。
つまり、図4に示すデータセットは、英語→日本語の翻訳を目的とする場合のデータセットである。
例えば、No.1のデータセットは、(a)英語話者が英語で「I have a apple.」と言ったときの口唇の動きを予め撮影した映像情報と、(b)その日本語の文字情報「私はリンゴを持っている。」とにより構成される。
No.2のデータセットは、(a)英語話者が英語で「I have a pen.」と言ったときの口唇の動きを予め撮影した映像情報と、(b)その日本語の文字情報「私はペンを持っている。」とにより構成される。
このようなデータセットは、例えば、同時通訳者に、(a)の映像情報(話者の音声を含む)を見せながら英語翻訳を行わせ、翻訳結果を、(b)の文字情報として(a)の映像情報と紐付けて構成する。
これにより、同時通釈者が備える直観的な翻訳機能や翻訳技術を移植することが期待できる。
この他にも、例えば、音声認識により話者が発した言語を他言語に自動的に翻訳することが可能な公知のアプリケーションプログラムを用い、当該プログラムの翻訳結果を(b)の情報として用いることもできる。
このようなデータセットを、1つの言葉に対し複数(多数)パターン記憶させるとともに、様々な言葉について記憶する。
なお、図4は、フレーズやセンテンスに係るデータセットの一例であるが、単語に係るデータセットを含めることもできる。
図4は、原言語(翻訳前の言語)である英語を、目的言語(翻訳後の言語)である日本語に翻訳する場合のデータセットである。
このため、原言語や目的言語に応じ、データセットの構成データを変えることで様々な翻訳に対応することができる。
例えば、日本語(原言語)→英語(目的言語)の翻訳を目的とする場合、(a)を日本語の言葉を発するときの口唇の動きを特定可能な映像情報とし、(b)をその言葉の英語の文字情報とするデータセットを用意すればよい。
また、英語(原言語)→仏語(目的言語)の翻訳を目的とする場合、(a)を英語の言葉を発するときの口唇の動きを特定可能な映像情報とし、(b)をその言葉の仏語の文字情報とするデータセットを用意すればよい。
翻訳モデル生成部24は、ストレージ13に記憶されているデータセットを教師データとして機械学習させることで学習済みの翻訳モデル22を生成する。
機械学習は、公知の深層学習(ディープラーニング)などのニューラルネットワークを用いて行うものとする。
具体的には、ニューラルネットワークにおいて、入力層に、図4(a)のデータを入力することで、出力層から図4(b)のデータが高確率(例えば90%以上)で出力されるように学習させる。
すなわち、話者が言葉を発するときの口唇の動きを特定可能な映像情報を入力層に入力したときに、出力層において、その言葉と対応する他言語の言葉の情報の確率が高確率で導出されるように各ニューロンにおける重み係数等の最適化処理を実行させることにより学習済みの翻訳モデル22が生成される。
機械学習の対象は、時系列要素を有する複数の静止画(映像)によって表される口唇の動きであり、その口唇の動きによって表される時系列要素を有する言葉であることから、公知のCNN(畳み込みニューラルネットワーク)、RNN(再帰型ニューラルネットワーク)、LSTM等を用いる。
翻訳モデル22は、翻訳部の一機能であり、話者の口唇の動きを特定可能な映像情報が入力されると、その言葉に対応する他言語の言葉の情報を翻訳情報として出力する。
このため、話者の映像を撮影装置16で撮影しつつ、その映像情報を翻訳モデル22に入力するようにことで、話者が何らかの言葉を発した場合、話者の口唇の動きに基づいて他言語の言葉を翻訳情報として出力する、いわゆる同時通訳が可能になる。
図5は、翻訳モデル生成部24により生成された翻訳モデル22の模式図である。
図5に示すように、翻訳モデル22は、入力層と中間層と出力層とを有する多層のニューラルネットワークで構成されている。
図5は、英語話者が「I have a pen.」と発したときの口唇の動きを特定可能な映像情報を入力層に入力した場合に、出力層において「私はリンゴを持っている。」が出力(分類)されたことを示している。
つまり、話者が言葉を発した場合、当該話者がその言葉を発するときの口唇の動きを特定可能な映像情報を翻訳モデル22に入力することで、当該翻訳モデル22から、その言葉に対応する他言語の言葉が翻訳情報として出力される。
なお、「話者が言葉を発した場合、当該話者がその言葉を発するときの口唇の動き」には、仮に話者が言葉を発したとしたら、そのような口唇の動きになる当該口唇の動きを含む。
このため、話者が言葉を発さずに口元だけ動かす、いわゆる口パクの場合にも対応することができる。
また、翻訳モデル22には、ストレージ13に記憶した映像情報や、通信装置17が外部から受信した映像情報を入力させることもできる。
このため、同時通訳のみならず、過去の映像情報から特定される話者の動きに基く翻訳も可能である。
出力部23は、翻訳モデル22から出力された翻訳情報を出力装置15に出力させる。
本実施形態のウェアラブル端末においては、出力装置15の一例である投影装置による投影によりレンズ151上に翻訳情報を表示することができる(図1参照)。
図6は、翻訳情報として「私はリンゴを持っている。」がレンズ151上に表示された例を示している。
この場合、利用者は、ウェアラブル端末を装着した状態で、レンズ151に表示される翻訳情報を見ることができる。
このため、例えば、ウェアラブル端末を同時通訳に用いることができ、話者との円滑な会話をサポートすることができる。
翻訳装置1が、パーソナルコンピュータ、スマートフォン、タブレット端末の場合、翻訳情報をディスプレイやモニターに表示することができる。
出力部23は、翻訳情報を、ストレージ13に記憶することもできる。
これにより、例えば、会議の議事録やインタビューなどを自動的に記録することができる。
出力部23は、翻訳情報を、通信装置17により外部に送信させることもできる。
次に、本発明の翻訳方法について説明する。
図7は、本発明の翻訳方法に係る処理手順を示すフローチャートである。
図7に示すように、まず、話者の口唇の動きを特定可能な映像情報を入力する(S1)。本発明の前工程に相当する工程である。
次に、口唇の動きに対応付けられた他言語の言葉の情報を翻訳情報として出力する(S2)。本発明の後工程に相当する工程である。
具体的には、話者の口唇の動きを特定可能な映像情報を翻訳モデル22に入力することで、当該翻訳モデル22が、その口唇の動きに対応する他言語の言葉の情報を翻訳情報として出力する。
すなわち、本発明の翻訳方法は、話者が言葉を発した場合に、当該話者の口唇の動きを特定可能な映像情報を入力する前工程と、前記前工程により入力された口唇の動きを特定可能な映像情報に基づき、前記話者が発した言葉を、前記他言語の言葉に翻訳する後工程と、いった大きく2つの工程を有する。
つまり、従来技術では、前工程において入力された口唇の動きを特定可能な映像情報から前記話者が発した原言語の言葉を読み取る中工程を経て、当該中工程において読み取った原言語の言語を他言語の言葉に翻訳することが想定されるところ、本発明の翻訳方法では、このような中工程を経ることなく、つまり、前工程において入力された原言語に係る口唇の動きから直接他言語を翻訳情報として出力するようにしている。
このような本発明の翻訳方法によれば、無駄な工程を省くことができるため、翻訳処理を高速化することができる。
ここで、入力データと出力データとの「相関関係」について説明する。
要するに、(a)「口唇の動き」(入力データ)と、(b)「他言語の言葉」(出力データ)との相関関係について説明する(図4参照)。
このうち、(b)の「他言語の言葉」は、例えば、英語話者が英語で言葉を発するときの口唇の動き(a)からは読み取ることが不可能な日本語の言葉であるものの、(a)から読み取ることが可能な英語の言葉と同じ意味の日本語の言葉であることから、(a)と(b)とは相関関係を有する。
また、話者の口唇の動きから原言語の言葉を読み取ることは可能であっても、話者の口唇の動きから、直接、他言語の言葉を読み取ること(つまり、話者が実際に発していない言語(他言語)を読み取ること)は、技術常識を超える発想であることから、この相関関係は新規かつ特徴的なものである。
本発明は、このような特徴的な相関関係のある入力データと出力データを用いることで、話者が話す言葉を、その口唇の動きから直接他言語に翻訳するものである。
つまり、本発明は、従来、翻訳処理において、話者の口唇の動きから一旦「原言語」の言葉を認識するといった無駄な処理や工程があるために生じていた遅延の問題や、登録処理において、必要のない「原言語」のデータを登録情報に含むことによる記憶容量等の問題を解決するものである。
このような本発明によれば、翻訳処理の高速化等を図ることができる。
また、従来は、第1に「口唇の動き」から「原言語」の言葉を認識し、第2に当該認識した「原言語の言葉」を「他言語の言葉」に翻訳する、といった複数の処理や工程を介して翻訳処理が行われることで、第1の処理及び第2の処理のいずれか一方で誤認識や誤訳があった場合、最終的な翻訳精度が低下していた。
このため、従来は、複数の処理に対応したそれぞれの登録データについても適切なデータを登録する必要があり、それぞれの登録データが適切でなければ、翻訳の精度が低下する問題があった。
これに対し、本発明、すなわち、本発明に係る「相関関係」によれば、このような従来の問題は生じない。
(他の実施形態)
翻訳装置1を、複数の装置の組み合わせにより実現することもできる。
図8は、複数の装置で構成された翻訳装置1の一例を示す図である。(a)は、ウェアラブル端末とスマートフォンとにより構成される翻訳装置1の一例であり、(b)は、サーバと各種装置とにより構成される翻訳装置1の一例である。
図8に示すように、翻訳装置1は、複数の装置を、所定の通信回線を介してデータ通信可能に接続することによって実現することができる。
図8(a)に示す翻訳装置1は、ウェアラブル端末とスマートフォン等とをブルートゥース(登録商標)を介して通信可能にした構成である。
この構成によれば、例えば、翻訳プログラムや当該プログラムにより実行される機能(ソフトウェア構成)をスマートフォン側に持たせることができ、ウェアラブル端末側では、話者の撮影や翻訳結果を表示する程度の簡易な構成にすることができる。
図8(b)は、クラウドコンピューティングなどにおけるサーバと各種端末装置とをインターネット回線や携帯通信回線(5Gなど)を介して通信可能にした構成である。
この構成によれば、例えば、翻訳プログラムや当該プログラムにより実行される機能(ソフトウェア構成)をサーバ側に持たせることができ、端末装置側では、話者の撮影や翻訳結果を表示する程度の簡易な構成にすることができる。
特に、高速大容量・低遅延の5Gを用いることで、端末装置側においては簡易な構成を実現しつつ、あたかも端末装置単体で実行されているかのような、ストレスのない、円滑な翻訳処理を行うことができる。
以上説明したように、本発明の翻訳プログラムは、コンピュータを、話者が言葉を発した場合、当該話者がその言葉を発するときの口唇の動きからは読み取り不可能な他言語であって、前記言葉の情報に対応付けられた他言語の言葉の情報を翻訳情報として出力する翻訳部、として機能するようにしてある。
具体的には、コンピュータを、話者が言葉を発するときの口唇の動きを特定可能な映像情報と、当該口唇の動きからは読み取り不可能な他言語であって、前記言葉に対応する他言語の言葉の情報と、を対応付けて記憶する記憶部、前記記憶部に記憶されている、前記口唇の動きを特定可能な映像情報を入力とし前記他言語の言葉の情報を出力とする教師データを学習させることで学習済みの翻訳モデル22を生成する翻訳モデル生成部24、として機能させ、前記翻訳部は、話者が言葉を発した場合、当該話者の口唇の動きを特定可能な映像情報を前記翻訳モデル22に入力することで、当該翻訳モデル22から出力された前記他言語の言葉の情報を翻訳情報として出力するようにしてある。
また、本発明の翻訳装置1は、コンピュータであり、プロセッサ11が、翻訳プログラムを実行することにより上記翻訳部(翻訳モデル22)、記憶部、翻訳モデル生成部24を機能させることが可能である。
また、本発明の翻訳方法においては、話者が言葉を発した場合に、当該話者の口唇の動きを特定可能な映像情報を入力する前工程と、前記前工程により入力された口唇の動きを特定可能な映像情報に基づき、前記話者が発した言葉を、前記他言語の言葉に翻訳する後工程と、を有し、前記後工程は、前記前工程により入力された口唇の動きを特定可能な映像情報から前記話者が発した言語を読み取る中工程を経ず、前記話者が発した言葉を、前記他言語の言葉に翻訳するようにしてある。
本発明によれば、話者が言葉を発するときの口唇の動きに基づきその言葉を直接他言語の言葉に翻訳するため、当該翻訳処理における遅延をなくし、高速化することができる。
具体的には、従来に比べ、構成、処理、工程を簡易にすることで、翻訳処理の高速化を図ることができる。
すなわち、本発明によれば、即時の翻訳処理が可能になる。
このため、例えば、本発明によれば、ストレスのない同時通訳サービスを実現できる。
具体的には、外国人と実際に会って対話する場合において、対話を円滑にすることができる。
特に、翻訳装置1としてのウェアラブル端末を装着することで、例えば、外国人との打合せや会議を円滑に行うことができる。
また、翻訳装置1としてパーソナルコンピュータやスマートフォンを用いる場合でも、Web会議を介した国際会議等において円滑なコミュニケーションを図ることができる。
以上、本発明の翻訳プログラム、翻訳装置、及び翻訳方法について、好ましい実施形態を示して説明したが、本発明の翻訳装置等は、前述した実施形態にのみ限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、入力映像から話者の口唇の動きを特定し、当該特定した口唇の動きと類似する口唇の動きをデータセットの中から抽出し、当該抽出した口唇の動きと対応付けられている他言語の言葉を翻訳情報として出力することもできる。
また、翻訳情報として音声情報を出力してもよい。この場合、例えば、文字情報を音声情報に変換可能な公知の音声読み上げプログラムを用いることで実現できる。
本発明は、他言語への自動翻訳、特に、同時通訳に利用可能である。
1 ウェアラブル端末(翻訳装置)
16 撮影装置
22 翻訳モデル
24 翻訳モデル生成部
本発明は、話者が発した言葉を他国語に翻訳する技術に関し、特に、話者の口唇の動きに基づいて翻訳処理を実行する翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末に関するものである。
本発明は、以上のような事情に鑑みなされたものであり、話者の口唇の動きに基づいて、直接的に他言語への翻訳処理を行う翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末の提供を目的とする。
上記課題を達成するため、本発明の翻訳プログラムは、話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳可能な翻訳プログラムにおいて、コンピュータを、話者が言葉を発するときの口唇の動きを特定可能な映像情報と、前記言葉に対応する他言語の言葉の情報と、を対応付けて記憶する記憶部、前記記憶部に記憶されている、前記口唇の動きを特定可能な映像情報を入力とし前記他言語の言葉の情報を出力とする教師データを学習させることで学習済みの翻訳モデルを生成する翻訳モデル生成部、及び話者が発する言葉を、当該話者の口唇の動きを特定可能な映像情報を前記翻訳モデルに入力することで、当該翻訳モデルから出力された前記他言語の言葉に翻訳する翻訳部、として機能させるようにしてある。

Claims (5)

  1. 話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳可能な翻訳プログラムにおいて、
    コンピュータを、
    話者が発する言葉を、当該言葉を発するときの口唇の動きからは読み取り不可能であって、当該口唇の動きに対応付けられた前記他言語の言葉に翻訳して出力可能な翻訳部、として機能させる
    ことを特徴とする翻訳プログラム。
  2. コンピュータを、
    話者が言葉を発するときの口唇の動きを特定可能な映像情報と、当該口唇の動きからは読み取り不可能な他言語であって、前記言葉に対応する他言語の言葉の情報と、を対応付けて記憶する記憶部、
    前記記憶部に記憶されている、前記口唇の動きを特定可能な映像情報を入力とし前記他言語の言葉の情報を出力とする教師データを学習させることで学習済みの翻訳モデルを生成する翻訳モデル生成部、として機能させ、
    前記翻訳部は、
    話者が言葉を発した場合、当該話者の口唇の動きを特定可能な映像情報を前記翻訳モデルに入力することで、当該翻訳モデルから出力された前記他言語の言葉の情報を翻訳情報として出力する
    ことを特徴とする請求項1に記載の翻訳プログラム。
  3. 話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳可能な翻訳装置において、
    話者が発する言葉を、当該言葉を発するときの口唇の動きからは読み取り不可能であって、当該口唇の動きに対応付けられた前記他言語の言葉に翻訳して出力可能な翻訳部を備えた
    ことを特徴とする翻訳装置。
  4. 話者が言葉を発するときの口唇の動きを特定可能な映像情報と、当該口唇の動きからは読み取り不可能な他言語であって、前記言葉に対応する他言語の言葉の情報と、を対応付けて記憶する記憶部と、
    前記記憶部に記憶されている、前記口唇の動きを特定可能な映像情報を入力とし前記他言語の言葉の情報を出力とする教師データを学習させることで学習済みの翻訳モデルを生成する翻訳モデル生成部と、を備え、
    前記翻訳部は、
    話者が言葉を発した場合に、当該話者の口唇の動きを特定可能な映像情報を前記翻訳モデルに入力することで、当該翻訳モデルから出力された前記他言語の言葉の情報を翻訳情報として出力する
    ことを特徴とする請求項3に記載の翻訳装置。
  5. 話者が発する言葉を、当該言葉と同じ意味の他言語の言葉に翻訳可能な翻訳方法において、
    話者が言葉を発した場合、当該話者の口唇の動きを特定可能な映像情報を入力する前工程と、
    前記前工程により入力された口唇の動きを特定可能な映像情報に基づき、前記話者が発した言葉を、前記他言語の言葉に翻訳する後工程と、を有し、
    前記後工程は、
    前記前工程により入力された口唇の動きを特定可能な映像情報から前記話者が発した言語を読み取る工程を経ることなく、前記話者が発した言葉を、前記他言語の言葉に翻訳する
    ことを特徴とする翻訳方法。
JP2020083415A 2020-05-11 2020-05-11 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末 Active JP6754154B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020083415A JP6754154B1 (ja) 2020-05-11 2020-05-11 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020083415A JP6754154B1 (ja) 2020-05-11 2020-05-11 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末

Publications (2)

Publication Number Publication Date
JP6754154B1 JP6754154B1 (ja) 2020-09-09
JP2021179689A true JP2021179689A (ja) 2021-11-18

Family

ID=72333572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020083415A Active JP6754154B1 (ja) 2020-05-11 2020-05-11 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末

Country Status (1)

Country Link
JP (1) JP6754154B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022009942A (ja) * 2017-06-30 2022-01-14 京楽産業.株式会社 遊技機

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022009942A (ja) * 2017-06-30 2022-01-14 京楽産業.株式会社 遊技機

Also Published As

Publication number Publication date
JP6754154B1 (ja) 2020-09-09

Similar Documents

Publication Publication Date Title
US10621991B2 (en) Joint neural network for speaker recognition
US11527242B2 (en) Lip-language identification method and apparatus, and augmented reality (AR) device and storage medium which identifies an object based on an azimuth angle associated with the AR field of view
CN110475069B (zh) 图像的拍摄方法及装置
CN110931042B (zh) 同声传译方法、装置、电子设备以及存储介质
CN113835522A (zh) 手语视频生成、翻译、客服方法、设备和可读介质
US11482134B2 (en) Method, apparatus, and terminal for providing sign language video reflecting appearance of conversation partner
WO2017195775A1 (ja) 手話会話支援システム
CN114401438A (zh) 虚拟数字人的视频生成方法及装置、存储介质、终端
US10388325B1 (en) Non-disruptive NUI command
US20200342896A1 (en) Conference support device, conference support system, and conference support program
Patil et al. LSTM Based Lip Reading Approach for Devanagiri Script
Kanvinde et al. Bidirectional sign language translation
CN113851029B (zh) 一种无障碍通信方法和装置
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
CN113822187A (zh) 手语翻译、客服、通信方法、设备和可读介质
TWI769520B (zh) 多國語言語音辨識及翻譯方法與相關的系統
Rastgoo et al. A survey on recent advances in Sign Language Production
Ivanko et al. Designing advanced geometric features for automatic Russian visual speech recognition
Arakane et al. Conformer-based lip-reading for Japanese sentence
JPH02183371A (ja) 自動通訳装置
Vayadande et al. Lipreadnet: A deep learning approach to lip reading
JP2023046127A (ja) 発話認識システム、通信システム、発話認識装置、移動体制御システム、発話認識方法及びプログラム
CN113780013A (zh) 一种翻译方法、设备和可读介质
JP2019191339A (ja) 電子機器、制御プログラム、制御装置および制御方法
Jeon et al. Multimodal audiovisual speech recognition architecture using a three‐feature multi‐fusion method for noise‐robust systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200511

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200511

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200818

R150 Certificate of patent or registration of utility model

Ref document number: 6754154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250