JP5998298B1 - 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム - Google Patents

音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム Download PDF

Info

Publication number
JP5998298B1
JP5998298B1 JP2016004337A JP2016004337A JP5998298B1 JP 5998298 B1 JP5998298 B1 JP 5998298B1 JP 2016004337 A JP2016004337 A JP 2016004337A JP 2016004337 A JP2016004337 A JP 2016004337A JP 5998298 B1 JP5998298 B1 JP 5998298B1
Authority
JP
Japan
Prior art keywords
input
content
user
history
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016004337A
Other languages
English (en)
Other versions
JP2017126152A (ja
Inventor
知高 大越
知高 大越
諒俊 武藤
諒俊 武藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RECRUIT LIFESTYLE CO., LTD.
Original Assignee
RECRUIT LIFESTYLE CO., LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RECRUIT LIFESTYLE CO., LTD. filed Critical RECRUIT LIFESTYLE CO., LTD.
Priority to JP2016004337A priority Critical patent/JP5998298B1/ja
Application granted granted Critical
Publication of JP5998298B1 publication Critical patent/JP5998298B1/ja
Priority to PCT/JP2017/000564 priority patent/WO2017122657A1/ja
Publication of JP2017126152A publication Critical patent/JP2017126152A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Abstract

【課題】音声翻訳処理において、会話における頻出フレーズを発話する手間を省き、ユーザの負担を軽減し且つ利便性を向上させることができ、また、誤訳の発生を防止する。【解決手段】本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部と、その入力音声の内容を記憶する記憶部と、その入力音声の内容を異なる言語の内容に翻訳する翻訳部と、その翻訳内容(対訳)を音声及び/又はテキストで出力する出力部と、入力内容の履歴を表示する履歴表示部とを備える。そして、記憶部が、ユーザの指示により、又は、入力頻度に基づいて、履歴のなかから、特定の入力内容を他の入力内容と区別して記憶する。さらに、翻訳部が、特定の入力内容が選択されたときに、その特定の入力内容を異なる言語の内容に翻訳する。【選択図】図4

Description

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。
互いの言語を理解できない人同士の会話、例えば店員(飲食店等の店舗の販売員)と顧客(海外からの観光客等)との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている(例えば特許文献1参照)。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている(例えば非特許文献1参照)。
特開平9−34895号公報
U−STARコンソーシアムホームページ[平成27年12月3日検索]、インターネット<URL:http://www.ustar-consortium.com/app_ja/app.html>
ところで、例えば店員と顧客の会話では、頻繁に使用されるフレーズ(質問事項、案内事項、説明等)や定型的な内容を発話することが多くある。例えば、飲食店であれば、店員が顧客の注文の内容を尋ねたり、料理の素材を説明したりする際に、同じ言い回し又は同じ内容のフレーズが出現し得る。
しかし、上記従来の音声翻訳装置では、そういった頻出フレーズであっても、ユーザ(店員)が、その都度(毎回)発話する必要がある。また、そもそも、入力された音声の内容が、その言語の基本的な文型になっていないと、翻訳エンジンによる機械翻訳において、誤訳が生じてしまう可能性が高くなる傾向にある。よって、実質的に同じ内容のフレーズであっても、例えば発話した語順等が若干異なっただけでも、誤訳が生じてしまい、たとえ頻出フレーズであっても、発話をし直さなければならない事態も起こり得る。それらの結果、ユーザ(利用者、発話者)の負担の増加や利便性の低下を招いてしまうおそれがある。
そこで、本発明は、かかる事情に鑑みてなされたものであり、会話によく出現するフレーズを発話する手間を省くことにより、ユーザの負担を軽減し且つ利便性を向上させることができるとともに、誤訳の発生を防止することができる音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。
上記課題を解決するため、本発明の一態様による音声翻訳装置は、まず、ユーザの音声を入力するための入力部と、その入力音声の内容を記憶する記憶部と、その入力音声の内容を異なる言語の内容に翻訳する翻訳部と、その翻訳内容(対訳)を音声及び/又はテキストで出力する出力部と、入力内容の履歴を表示する履歴表示部とを備える。そして、記憶部が、ユーザの指示により、又は、入力頻度に基づいて、履歴のなかから、特定の入力内容を他の入力内容と区別して記憶する。さらに、翻訳部が、特定の入力内容が選択されたときに、その特定の入力内容を異なる言語の内容に翻訳する。ここで、「特定の入力内容」としては、会話において、ユーザが使用する頻出フレーズ(よく使う言い回し)や定型文の内容を例示することができる。
また、本発明の一態様による音声翻訳装置は、ユーザの属性(例えば性別、職業、業種、業態等)に関する情報を取得する情報取得部を更に備え、記憶部が、特定の入力内容を、ユーザの属性に関連付けて記憶するように構成してもよい。この場合、履歴表示部が、ユーザの属性に応じて、履歴の表示を切り替えるようにしてもよい。
また、本発明の一態様による音声翻訳装置は、ユーザの属性に関連付けて記憶された特定の入力内容から、属性毎のライブラリを作成するライブラリ作成部を更に備えてもよい。このとき、属性毎のライブラリを、ユーザと他のユーザ(つまり複数のユーザ間)で共有可能なものとすることもできる。
また、本発明の一態様による音声翻訳方法は、入力部、記憶部、翻訳部、出力部、及び履歴表示部を備える音声翻訳装置を用い、ユーザの音声を入力するステップと、入力音声の内容を記憶するステップと、入力音声の内容を異なる言語の内容に翻訳するステップと、翻訳内容を音声及び/又はテキストで出力するステップと、入力内容の履歴を表示するステップとを含む。そして、記憶するステップにおいては、ユーザの指示により、又は、入力頻度に基づいて、履歴のなかから、特定の入力内容を他の入力内容と区別して記憶する。また、履歴を表示するステップにおいては、特定の入力内容をユーザが選択可能に表示する。さらに、翻訳するステップにおいては、特定の入力内容が選択されたときに、その特定の入力内容を異なる言語の内容に翻訳する。
また、本発明の一態様による音声翻訳プログラムは、コンピュータ(単数又は単一種に限られず、複数又は複数種でもよい;以下同様)を、ユーザの音声を入力するための入力部と、入力音声の内容を記憶する記憶部と、入力音声の内容を異なる言語の内容に翻訳する翻訳部と、翻訳内容を音声及び/又はテキストで出力する出力部と、入力内容の履歴を表示する履歴表示部として機能させる。そして、本発明の一態様による音声翻訳プログラムは、記憶部に、ユーザの指示により、又は、入力頻度に基づいて、履歴のなかから、特定の入力内容を他の入力内容と区別して記憶させる。また、履歴表示部に、特定の入力内容をユーザが選択可能に表示させる。さらに、翻訳部に、特定の入力内容が選択されたときに、特定の入力内容を異なる言語の内容に翻訳させる。
なお、「属性」に関する情報を取得する方法としては、ユーザが音声翻訳装置に係るサービスを使用する際、又は、音声翻訳プログラムであるアプリケーションを情報端末等のコンピュータにインストールして使用する際のユーザ情報の登録画面に記入してもらったり、音声翻訳装置を利用する際に属性に関する質問アンケートに回答してもらったりといった例が挙げられる。
本発明によれば、ユーザが発話した音声の入力内容の履歴を保持し、そのなかから、頻出フレーズ等の特定の入力内容を記憶し、その特定の入力内容をユーザが選択可能に表示する。そして、その特定の入力内容のなかから所望のフレーズを選択することにより、頻出フレーズ等を都度発話する手間を省くことができ、その結果、ユーザの負担を軽減し且つ利便性を向上させることができる。しかも、誤訳の発生を防止することが可能となるので、音声翻訳の精度を簡易に且つ効果的に向上させることもできる。
本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。 本発明による音声翻訳装置におけるユーザ者装置(情報端末)の構成の一例を概略的に示すシステムブロック図である。 本発明による音声翻訳装置におけるサーバの構成の一例を概略的に示すシステムブロック図である。 本発明による音声翻訳装置における処理の流れ(一部)の一例を示すフローチャートである。 (A)乃至(D)は、情報端末における表示画面の遷移の一例を示す平面図である。
以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。
(装置構成)
図1は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置100は、ユーザ(発話者、他の発話者)が使用する情報端末10(ユーザ装置)にネットワークNを介して電子的に接続されるサーバ20を備える(但し、これに限定されない)。
情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。
プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムP10としての音声翻訳アプリケーションソフトは、例えばサーバ20からネットワークNを通じて配信可能なものであり、手動的に又は自動的にインストール及びアップデートされてもよい。
なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth:登録商標)、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。
記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための出力デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。
通信インターフェイス14は、例えばサーバ20との接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザや、必要に応じて会話の相手方に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。
サーバ20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。そして、各サーバ20は、プロセッサ21、通信インターフェイス22、及び記憶資源23(記憶部)を備える。
プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP20を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。
記憶資源23は、例えば、物理デバイス(ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数の、プログラムP20、各種モジュールL20、各種データベースD20、及び各種モデルM20が格納されている。
プログラムP10は、サーバ20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL20は、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムP10の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL20としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。
また、各種データベースD20としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字(語彙)コーパス、英語文字(語彙)コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)、後述する音声データベース、ユーザに関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルM20としては、後述する音声認識に使用する音響モデルや言語モデル等が挙げられる。
以上のとおり構成された音声翻訳装置100における、音声翻訳処理の操作及び動作の一例について、以下に更に説明する。
(第1実施形態)
図4は、本実施形態の音声翻訳装置100における処理の流れ(一部)の一例を示すフローチャートである。また、図5(A)乃至(D)は、情報端末10における表示画面の遷移の一例を示す平面図である。ここでは、情報端末10のユーザが日本語を話す飲食店の店員であり、会話の相手が英語を話す顧客である場合の会話、すなわち、入力言語が日本語であり、翻訳言語が英語である会話を想定する(但し、これに限定されない)。
まず、ユーザ(店員)が当該アプリケーションを起動する(ステップSU1)と、表示デバイス16に、顧客の言語選択画面が表示される(図5(A);ステップSJ1)。この言語選択画面には、顧客に言語を尋ねる旨の日本語のテキストT21、その旨の英語のテキストT22、及び、想定される複数の代表的な言語(ここでも、英語、中国語(例えば書体により2種類)、ハングル語)を示す言語ボタン61が表示される。
このとき、図5(A)に示す如く、日本語のテキストT21及び英語のテキストT22は、プロセッサ11及び表示デバイス16により、情報端末10の表示デバイス16の画面において、異なる領域によって区分けされ、且つ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、ユーザは日本語のテキストT21を確認し易い一方、顧客は、英語のテキストT22を確認し易くなる。また、テキストT21とテキストT22が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。
ユーザは、その言語選択画面のテキストT22の表示を顧客に提示し、顧客に英語(English)のボタンをタップしてもらうことにより、又は、自ら顧客の言語を選択することができる。こうして顧客の言語が選択されると、ホーム画面として、日本語と英語の音声入力の待機画面が表示される(図5(B);ステップSJ2)。この待機画面には、ユーザと顧客の言語の何れを発話するかを問うテキストT23、並びに、日本語の音声入力を行うための日本語入力ボタン62a及び英語の音声入力を行うための英語入力ボタン62bが表示される。また、この待機画面には、入力内容の履歴を表示するための履歴ボタン63、言語選択画面に戻って顧客の言語を切り替える(言語選択をやり直す)ための言語選択ボタン64、及び当該アプリケーションソフトの各種設定を行うための設定ボタン65も表示される。
次いで、図4には、ユーザが履歴ボタン63をタップするか否かに着目した場合分け(ステップSU2)のフローを示したが、通常の音声翻訳処理においては、図5(B)に示す待機画面から音声入力を行うことができる。ここでは、その場合(つまり、ステップSU2において「No」)の音声翻訳処理の流れについて先に説明する。
[通常の音声翻訳処理]
すなわち、この待機画面において、ユーザ(店員)が日本語入力ボタン62aをタップして日本語の音声入力を選択すると音声入力が可能な状態となる。この状態で、ユーザが顧客への伝達事項等を発話すると、音声入出力デバイス13を通して音声入力が行われる(ステップSJ3)。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体、又はプロセッサ11及び音声入出力デバイス13が「入力部」として機能する。
サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う(ステップSJ4)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。このとおり、プロセッサ21、又は、サーバ20が全体として「音声認識サーバ」として機能する。
ここで、入力音声が認識された場合、プロセッサ21は、認識された音声の「読み」(文字)を他の言語に翻訳する多言語翻訳処理へ移行する(ステップSJ5)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ21は、「翻訳部」としても機能し、サーバ20は、全体として「翻訳サーバ」としても機能する。なお、入力音声がうまく認識されなかった場合には、音声の再入力を行うことができる(画面表示を図示せず)。
また、プロセッサ21は、認識された入力音声の内容を記憶資源23に記憶する。次に、多言語翻訳処理、及び、入力音声の内容の記憶処理が完了すると、プロセッサ21は、音声合成処理へ移行する(ステップSJ6)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ21は、「音声合成部」としても機能し、サーバ20は、全体として「音声合成サーバ」としても機能する。
次いで、プロセッサ21は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス22及びネットワークNを通して、情報端末10へ送信する。情報端末10のプロセッサ11は、通信インターフェイス14を通してその音声信号を受信し、音声出力処理を行う(ステップSJ7)。
[履歴表示からの翻訳処理]
一方、図5(B)に示す待機画面において、ユーザが履歴ボタンをタップしてそれまでの入力音声の履歴表示を選択する(ステップSU2において「Yes」)と、情報端末10のプロセッサ11は、履歴を表示するための指令信号をサーバ20へ送信する。その指令信号を受信したサーバ20のプロセッサ21は、記憶資源23に記憶保持された入力音声の内容を読み出し、例えば図5(C)に示す履歴表示画面を表示デバイス16に表示する(ステップSJ8)。この履歴表示画面には、それまでに音声入力されて翻訳処理が行われた内容が例えばフレーズ単位でテキスト表示される。また、その画面において、テキストが一覧表示されたリストの上方には、入力音声の内容のリストの順番を、例えば「最新順」と「頻度順」で切り替えるための表示順選択ボタン66が表示される。ユーザは、その表示順選択ボタン66を適宜タップすることにより、「最新順」のリストと「頻度順」のリストを所望に切り替えることができる。
さらに、図5(C)に示す履歴表示画面においては、各入力音声の内容のテキストに、例えばピン形状図案Pが付帯的に表示される。ユーザがこのピン形状図案Pをタップすることにより、履歴表示画面に表示されている各入力音声の内容のなかから、ユーザが頻繁に発話する内容や定型文的な内容を選択して、言わばピンすることによって「クリップ」しておくことができる。
例えば、ユーザが、図5(C)にリストされた入力内容のうち、テキストT31,T32,T33で表示された入力内容(特定の入力内容)のピン形状図案Pをタップする(ステップSU3において「Yes」)。そうすると、情報端末10のプロセッサ11は、テキストT31,T32,T33の入力内容を画面の上方領域R1に移動してまとめて表示する一方、他の入力内容を画面の下方領域R2に移動してまとめて表示し、両者を視覚的に区別する(ステップSJ4)。また、上方領域R1の近傍には、ピンでクリップされた入力内容であることを示すテキストT23が明示される。
さらに、このとき、情報端末10のプロセッサ11は、ユーザによりテキストT31,T32,T33の入力内容が選択されたことを示す指令信号をサーバ20へ送信する。その指令信号を受信したサーバ20のプロセッサ21は、記憶資源23に保持されているテキストT31,T32,T33の入力内容(特定の入力内容)にフラグを立てる等して、他の入力内容と区別して改めて記憶する。
また、図5(D)に示す履歴表示画面において、ピンでクリップされた各テキストT31,T32,T33の入力内容には、ピン形状図案Pに代えて×印図案67が付帯的に表示される。ユーザは、必要に応じて、その×印図案67をタップすることにより、各テキストT31,T32,T33のピンを外すことができる。その場合、サーバ20のプロセッサ21は、情報端末10のプロセッサ11からの指令信号により、記憶資源23に例えばフラグを立てて記憶されている入力内容から、そのフラグを外す。
次に、ユーザは、顧客に対する質問事項等を発話することに代えて、ピンでクリップしたテキストT31,T32,T33のなかから所望の入力内容を選択することができる。例えば、ユーザがテキストT31の部分をタップして選択する(ステップSU4において「Yes」)と、情報端末10のプロセッサ11からその指令信号がサーバ20へ送信される。その指令信号を受信したサーバ20のプロセッサ21は、選択されたテキストT31の内容について、多言語翻訳処理(ステップSJ5)、音声合成処理(ステップSJ6)、及び音声出力処理(ステップSJ7)を順次実行する。これにより、ユーザは、音声入力を行うことなく、所望のフレーズ等(特定の入力内容)の対訳を出力させることができる。
一方、ステップSU3においてピンでクリップすべき入力内容が選択されなかった場合(ステップSU3において「No」)、又は、ステップSU4において発話に代えて特定の入力内容が選択されなかった場合(ステップSU4において「No」)、サーバ20のプロセッサ21は、前述したステップSJ3〜SJ7に示す通常の音声翻訳処理を順次実行する。具体的には、図5(C)又は図5(D)に示す履歴表示画面において、ユーザが閉じるボタン68をタップすることにより、表示デバイス16には図5(B)に示す待機画面が再表示され、通常の音声翻訳処理に戻入することができる。
(第2実施形態)
ユーザが、頻出フレーズや定型文といった何らかの特定の入力内容を一旦ピンしてクリップすると、図5(B)に示す待機画面において履歴ボタン63を選択した場合、図5(C)に示す履歴表示画面の表示がなされずに、図5(D)に示す履歴表示画面が表示されるように構成してもよい。この場合、図4に示すフローにおいては、ステップSU2が実効されると、ステップSJ8,SU3がスキップされて、ステップSJ9が実行されることとなる。
(第3実施形態)
本実施形態では、ユーザが音声翻訳アプリケーションを起動(図4に示すステップSU1)すると、例えば、音声翻訳の対象言語を選択する待機画面(図5(B))が情報端末10の表示デバイス16に表示される前に、或いは、対象言語を選択した後に、ユーザに関する情報を入力してもらうための情報登録画面が、情報端末10の表示デバイス16に表示される。ユーザに関する情報としては特に制限されないが、ユーザ(又はユーザの店舗)の職業、業種、業態、年齢、性別、出身地、居住地等の属性情報が含まれる。
この状態で、ユーザがユーザ情報を入力すると、情報端末10のプロセッサ11は、その情報入力に基づいて情報信号を生成し、その情報信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体又はプロセッサ11が「情報取得部」としても機能する。
サーバ20のプロセッサ21は、通信インターフェイス22を通してその情報信号を受信すると、処理を一旦、図4に示すステップSJ2以降の処理へ移行する。それから、ユーザが、ステップSU3においてクリップしたい例えばテキストT31,T32,T33で表示された入力内容を選択する(ステップSU3において「Yes」)と、第1実施形態又は第2実施形態と同様に、図5(C)又は図5(D)に示す履歴表示画面が表示される。一方、サーバ20のプロセッサ21は、記憶資源23に保持されているテキストT31,T32,T33の入力内容(特定の入力内容)にフラグを立てる等して、他の入力内容と区別するとともに、それらをユーザの属性に関連付けて改めて記憶する。
ここで、音声翻訳アプリケーションを複数のユーザが利用する場合、記憶資源23には、各ユーザの属性に関連付けられてクリップされた特定の入力内容が順次蓄積されていくこととなる。そこで、本実施形態では、情報端末10からユーザの属性情報が入力され、且つ、履歴ボタン63がタップされた場合、プロセッサ11,21は、そのユーザの属性の一部(又は全部)と一致する属性に関連付けてクリップされた特定の入力内容を、図5(C)又は図5(D)に示す履歴表示画面に表示する。
このとき、プロセッサ21により、ユーザの属性のうち、特にユーザ(又はユーザの店舗)の職業、業種、及び業態の何れかに基づいて、特定の入力内容を抽出又は絞り込むようにすると特に有用である。また、プロセッサ21は、そのようにして、ユーザの属性によって抽出又は絞り込まれた特定の入力内容とそれに対応する翻訳内容を、属性毎のライブラリとしてまとめ、記憶資源23に記憶するようにしてもよい。このようにして作成された属性毎のライブラリは、複数のユーザ間で共有するようにすると、更に有用である。
以上のように構成された音声翻訳装置100及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザが発話した音声の入力内容の履歴のなかから、頻出フレーズや定型文等の特定の入力内容をいわばクリップして記憶することができる。よって、ユーザが、頻出フレーズや定型文等を簡易に呼び出すことができ、ユーザがそれらを都度発話する手間を省くことができる。その結果、ユーザの負担を軽減し且つ利便性を向上させることが可能になるとともに、誤訳の発生を有効に防止することもできるので、音声翻訳の精度を簡易に且つ効果的に向上させることも実現できる。
さらに、クリップされた特定の入力内容を、ユーザの属性に関連付けて記憶し、また、履歴表示画面に表示することにより、そのユーザの属性に応じた頻出フレーズや定型文等を効率よく選択することが可能となる。その結果、ユーザにとって必要な頻出フレーズや定型文等を見つけやすくなるので、ユーザの負担を更に軽減し且つ利便性を更に向上させることができる。特に、ユーザが店員であり、業務において顧客と会話する場合、頻出フレーズ等が更に定型化されることが予想されるところ、ユーザの属性として職業、業種、及び業態の何れかに基づいて、特定の入力内容を抽出又は絞り込むことにより、ユーザの利便性を更に一層高め、且つ、音声翻訳の更なる高精度化及び高効率化を実現することができる。
なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。
また、上記各実施形態では、音声認識、翻訳、及び音声合成の各処理をサーバ20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL20は、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。さらに、音声データベースのデータベースD20、及び/又は、音響モデル等のモデルM20も、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークN及びサーバ20を備えなくてもよい。
さらに、例えば図5(C)又は図5(D)に示す履歴表示画面に表示された特定の入力内容から、ユーザが手動操作によってピンすることに代えて、例えば、その特定の入力内容の頻度が所定の頻度よりも高いものをサーバ20のプロセッサ21が抽出し、それらをクリップしたデータベースやライブラリを自動で生成してもよい。この場合、図5(C)又は図5(D)に示す表示順選択ボタン66を「頻度順」に切り替えた画面に、プロセッサ21によって入力頻度に基づいて抽出された入力内容を表示することができる。またさらに、クリップされた特定の入力内容とともに、一度実行された所定言語の翻訳結果を併せて(特定の入力内容に関連付けて)記憶してもよい。例えば図4に示すフローにおいて、ユーザがテキストT31の部分をタップして選択した場合(ステップSU4において「Yes」)、多言語翻訳処理(ステップSJ5)をスキップして音声合成処理(ステップSJ6)を実行するようにしてもよい。
また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。
本発明によれば、音声翻訳処理におけるユーザの負担を軽減し且つ利便性を向上させることができ、しかも、誤訳の発生を防止して音声翻訳の精度を簡易に且つ効果的に向上させ得るので、例えば、互いの言語を理解できない人同士の会話に関連するサービスを提供する分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。
10 情報端末
11 プロセッサ
12 記憶資源
13 音声入出力デバイス
14 通信インターフェイス
15 入力デバイス
16 表示デバイス
17 カメラ
20 サーバ
21 プロセッサ
22 通信インターフェイス
23 記憶資源
61 言語ボタン
62a 日本語入力ボタン
62b 英語入力ボタン
63 履歴ボタン
64 言語選択ボタン
65 設定ボタン
66 表示順選択ボタン
67 ×印図案
68 閉じるボタン
100 音声翻訳装置
D20 データベース
L20 モジュール
M20 モデル
N ネットワーク
P ピン形状図案
P10 プログラム
P20 プログラム
R1 上方領域
R2 下方領域
T21,T22,T23 テキスト
T31,T32,T33 テキスト(特定の入力内容)

Claims (7)

  1. ユーザの音声を入力するための入力部と、
    入力音声の内容を記憶する記憶部と、
    前記入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
    翻訳内容を音声及び/又はテキストで出力する出力部と、
    前記入力内容の履歴を表示する履歴表示部と、
    を備え、
    前記履歴表示部は、前記ユーザが前記履歴のなかから特定の入力内容を選択可能であることを示す図案を、前記履歴における各入力内容に付帯して表示し、
    前記記憶部は、前記ユーザが前記図案を用いて前記履歴のなかから前記特定の入力内容を選択したときに特定の入力内容を他の入力内容と区別して記憶し、
    前記履歴表示部は、前記特定の入力内容と前記他の入力内容を視覚的に区別して表示し、かつ、前記ユーザが該視覚的に区別して表示された前記特定の入力内容のなかから所望の入力内容を選択可能に表示し、
    前記翻訳部は、前記ユーザにより前記所望の入力内容が選択されたときに、該所望の入力内容を異なる言語の内容に翻訳する、
    音声翻訳装置。
  2. 前記履歴表示部は、前記特定の入力内容と前記他の入力内容を視覚的に区別して表示するときに、前記ユーザが該特定の入力内容から不要な入力内容を除去可能であることを示す図案を、該特定の入力内容に付帯して表示する、
    請求項1記載の音声翻訳装置。
  3. 前記ユーザの属性に関する情報を取得する情報取得部を更に備え、
    前記記憶部は、前記特定の入力内容を前記ユーザの属性に関連付けて記憶
    前記履歴表示部は、前記ユーザの属性に応じて、前記履歴の表示を切り替える、
    請求項1又は2記載の音声翻訳装置。
  4. 前記ユーザの属性に関連付けて記憶された前記特定の入力内容から、前記属性毎のライブラリを作成するライブラリ作成部を更に備える、
    請求項3記載の音声翻訳装置。
  5. 前記属性毎のライブラリは、前記ユーザと他のユーザが共有可能なものである、
    請求項4記載の音声翻訳装置。
  6. 入力部、記憶部、翻訳部、出力部、及び履歴表示部を備える音声翻訳装置を用い、
    ユーザの音声を入力するステップと、
    入力音声の内容を記憶するステップと、
    前記入力音声の内容を異なる言語の内容に翻訳するステップと、
    翻訳内容を音声及び/又はテキストで出力するステップと、
    前記入力内容の履歴を表示するステップと、
    を含み、
    前記履歴を表示するステップにおいては、前記ユーザが前記履歴のなかから特定の入力内容を選択可能であることを示す図案を、前記履歴における各入力内容に付帯して表示し、
    前記記憶するステップにおいては、前記ユーザが前記図案を用いて前記履歴のなかから前記特定の入力内容を選択したときに特定の入力内容を他の入力内容と区別して記憶し、
    前記履歴を表示するステップにおいては、前記特定の入力内容と前記他の入力内容を視覚的に区別して表示し、かつ、前記ユーザが該視覚的に区別して表示された前記特定の入力内容のなかから所望の入力内容を選択可能に表示し、
    前記翻訳するステップにおいては、前記ユーザにより前記所望の入力内容が選択されたときに、該所望の入力内容を異なる言語の内容に翻訳する、
    音声翻訳方法。
  7. コンピュータを、
    ユーザの音声を入力するための入力部と、
    入力音声の内容を記憶する記憶部と、
    前記入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
    翻訳内容を音声及び/又はテキストで出力する出力部と、
    前記入力内容の履歴を表示する履歴表示部と、
    して機能させ、
    前記履歴表示部に、前記ユーザが前記履歴のなかから特定の入力内容を選択可能であることを示す図案を、前記履歴における各入力内容に付帯して表示させ、
    前記記憶部に、前記ユーザが前記図案を用いて前記履歴のなかから前記特定の入力内容を選択したときに特定の入力内容を他の入力内容と区別して記憶させ、
    前記履歴表示部に、前記特定の入力内容と前記他の入力内容を視覚的に区別して表示させ、かつ、前記ユーザが該視覚的に区別して表示された前記特定の入力内容のなかから所望の入力内容を選択可能に表示させ、
    前記翻訳部に、前記ユーザにより前記所望の入力内容が選択されたときに、該所望の入力内容を異なる言語の内容に翻訳させる、
    音声翻訳プログラム。
JP2016004337A 2016-01-13 2016-01-13 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム Expired - Fee Related JP5998298B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016004337A JP5998298B1 (ja) 2016-01-13 2016-01-13 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
PCT/JP2017/000564 WO2017122657A1 (ja) 2016-01-13 2017-01-11 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016004337A JP5998298B1 (ja) 2016-01-13 2016-01-13 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Publications (2)

Publication Number Publication Date
JP5998298B1 true JP5998298B1 (ja) 2016-09-28
JP2017126152A JP2017126152A (ja) 2017-07-20

Family

ID=56997641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016004337A Expired - Fee Related JP5998298B1 (ja) 2016-01-13 2016-01-13 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Country Status (2)

Country Link
JP (1) JP5998298B1 (ja)
WO (1) WO2017122657A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6243071B1 (ja) * 2017-04-03 2017-12-06 旋造 田代 通信内容翻訳処理方法、通信内容翻訳処理プログラム、及び、記録媒体
JP2018072568A (ja) * 2016-10-28 2018-05-10 株式会社リクルートライフスタイル 音声入力装置、音声入力方法及び音声入力プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005141759A (ja) * 2001-01-24 2005-06-02 Matsushita Electric Ind Co Ltd 音声変換装置、音声変換方法、プログラム、及び記録媒体
JP2008276617A (ja) * 2007-05-01 2008-11-13 Sharp Corp 電子機器およびその制御方法
JP2009110420A (ja) * 2007-10-31 2009-05-21 Sharp Corp 電子機器、その制御方法およびコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005141759A (ja) * 2001-01-24 2005-06-02 Matsushita Electric Ind Co Ltd 音声変換装置、音声変換方法、プログラム、及び記録媒体
JP2008276617A (ja) * 2007-05-01 2008-11-13 Sharp Corp 電子機器およびその制御方法
JP2009110420A (ja) * 2007-10-31 2009-05-21 Sharp Corp 電子機器、その制御方法およびコンピュータプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6016016795; 尾崎 俊 外2名: '携帯型多言語間医療対話支援システムの構築と医療機関への導入' 情報処理学会研究報告 2012(平成24)年度5 [CD-ROM] , 20130215, p.1-8, 一般社団法人情報処理学会 *
JPN6016016797; 吉野 孝 外4名: '対話の即時性を目指した携帯型多言語間医療対話支援システムの開発' 第33回医療情報学連合大会論文集 (第14回日本医療情報学会学術大会) 医療情報学 第33巻 第33巻, 20131123, p.1306-1307, 日本医療情報学会 *
JPN6016016799; 瀬野 訓啓 外3名: 'コミュニケーションツール流暢Tel&Tell' 富士ゼロックステクニカルレポート 第11号, 19970321, p.153-159, 富士ゼロックス株式会社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018072568A (ja) * 2016-10-28 2018-05-10 株式会社リクルートライフスタイル 音声入力装置、音声入力方法及び音声入力プログラム
JP6243071B1 (ja) * 2017-04-03 2017-12-06 旋造 田代 通信内容翻訳処理方法、通信内容翻訳処理プログラム、及び、記録媒体
JP2018180590A (ja) * 2017-04-03 2018-11-15 旋造 田代 通信内容翻訳処理方法、通信内容翻訳処理プログラム、及び、記録媒体

Also Published As

Publication number Publication date
JP2017126152A (ja) 2017-07-20
WO2017122657A1 (ja) 2017-07-20

Similar Documents

Publication Publication Date Title
US20200410174A1 (en) Translating Languages
US9355094B2 (en) Motion responsive user interface for realtime language translation
US6917920B1 (en) Speech translation device and computer readable medium
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
JP6141483B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP5998298B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6290479B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6449181B2 (ja) 音声翻訳システム、音声翻訳方法、及び音声翻訳プログラム
JP6310950B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6250209B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6353860B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6198879B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6110539B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6334589B2 (ja) 定型フレーズ作成装置及びプログラム、並びに、会話支援装置及びプログラム
JP6383748B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP2004295578A (ja) 翻訳装置
JP5103718B2 (ja) 自動翻訳システムおよび方法並びにそのプログラム
JP6174746B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP2010257085A (ja) 検索装置、検索方法、および検索プログラム
JP2018173910A (ja) 音声翻訳システム及び音声翻訳プログラム
JP6298806B2 (ja) 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム
JP6147387B1 (ja) 音声翻訳システム、その制御方法および音声翻訳プログラム
Jeevitha et al. A study on innovative trends in multimedia library using speech enabled softwares

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160829

R150 Certificate of patent or registration of utility model

Ref document number: 5998298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees