JP2015060423A - 音声翻訳装置、音声翻訳方法およびプログラム - Google Patents

音声翻訳装置、音声翻訳方法およびプログラム Download PDF

Info

Publication number
JP2015060423A
JP2015060423A JP2013194020A JP2013194020A JP2015060423A JP 2015060423 A JP2015060423 A JP 2015060423A JP 2013194020 A JP2013194020 A JP 2013194020A JP 2013194020 A JP2013194020 A JP 2013194020A JP 2015060423 A JP2015060423 A JP 2015060423A
Authority
JP
Japan
Prior art keywords
speech
voice
translation
language
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013194020A
Other languages
English (en)
Inventor
聡典 河村
Akinori Kawamura
聡典 河村
住田 一男
Kazuo Sumita
一男 住田
聡史 釜谷
Satoshi Kamaya
聡史 釜谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013194020A priority Critical patent/JP2015060423A/ja
Priority to US14/487,267 priority patent/US9280539B2/en
Priority to CN201410471705.1A priority patent/CN104462070A/zh
Publication of JP2015060423A publication Critical patent/JP2015060423A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】お互いの発話タイミングが取りやすい、スムーズなコミュニケーションが可能な音声翻訳装置を提供する。【解決手段】実施形態の音声翻訳装置は、第1言語の第1音声入力装置と第1音声出力装置とを有する第1音声装置と、第2言語の第2音声入力装置と第2音声出力装置とを有する第2音声装置と、第1音声装置と第2音声装置との間の音声翻訳を行うサーバとを有し、サーバは、第1音声入力装置からの第1言語の発話音声の音声認識を行う第1音声認識手段と、その発話終了を待たずに逐次的に音声認識結果の第1言語を前記第2言語へ翻訳する第1機械翻訳手段と、翻訳結果の第2音声を生成する第1音声合成手段と、第2音声よりも第1言語の発話音声の音量が小さくなるように音量を調整して、第1音声および第2音声を第2音声出力装置に向けて出力する出力音調整手段と、を有する。【選択図】 図3

Description

本発明の実施形態は、会話を翻訳して音声で出力する音声翻訳装置、音声翻訳方法およびプログラムに関する。
音声翻訳システムの実用化が進んでいる。例えば、株式会社エヌ・ティ・ティ・ドコモが2012年に「はなして翻訳」という音声翻訳サービスを開始した。このサービスでは、対面音声翻訳サービスだけでなく、非対面音声翻訳サービスをサポートしている。この対面音声翻訳サービスとは、1つの音声翻訳端末を共有して使用し、2人の話者による対面した会話を音声翻訳するものを言う。また、非対面音声翻訳サービスとは、遠隔地にいる2人の話者が電話などの通話機器による対話を音声翻訳するものを言う。
対面音声翻訳サービスにおいては、共有する音声翻訳端末上に、それぞれの言語用の発話開始ボタンおよび終了ボタンが用意されている。異なる言語を話す2人の利用者は、それぞれの言語で会話する場合、まず発話開始ボタンを押してから、それぞれの言語で発話を行う。そして、発話を終了すると発話終了ボタンを操作する。なお、発話終了ボタンの代わりに、無音区間を検出して自動的に発話を終了するようにしても良い。
これにより、音声翻訳端末の画面には、音声認識結果および翻訳結果が文字列として表示される。更に、翻訳結果が音声としてスピーカーから出力される。その画面を見た他方の利用者は、今度は、上述した操作を行って発話を行えば、同様にその翻訳結果が相手端末のスピーカーから出力される。そして、同様の操作を繰り返すことにより、音声翻訳装置を介してお互いの会話を行なうことができる。
非対面音声翻訳サービスにおいては、一方の利用者Aが、発話開始ボタンを押す→発話する→発話終了ボタンを押すという操作を行うと、通話の相手である利用者Bの電話には、
利用者Aが発話開始ボタンを押した際の「ピッ」という通知音
→利用者Aの発話音声
→利用者Aが発話終了ボタンを押した際の「ピッ」という通知音
→翻訳結果の音声
が聞こえるようになっている。そして、お互いに、この操作を繰り返すことにより、音声翻訳による会話が可能になる。
このような音声翻訳装置では、一方の利用者による発話が終了してから、音声翻訳結果が表示出力或いは音声出力される。このため、通常の会話によるコミュニケーション比較して、相手の意図を理解するまでに時間がかかるという問題があった。
この問題を解決するために、発明者らは、利用者が発話している最中であっても、自動的に翻訳単位を検出し、話し手の発話に追随して翻訳結果を表示する対面同時翻訳システムを考案した。これにより、話し手の発話の終了を待つことなく翻訳結果が通知されるため、相手の意図を理解するまでに要する時間が短縮され、コミュニケーションをスムーズに行なうことが可能になる。
特開2002−27039号公報
「対面業務支援を想定した連続発話可能な同時通訳システムの開発と評価」、情報処理学会研究報告.HCI,ヒューマンコンピュータインタラクション研究会報告、2013-HCI-151(17)、1-8、2013-Ol-25
同時音声翻訳システムでは、対面音声翻訳サービスを想定しており、発話の最中に翻訳結果が逐次表示されても問題はない。しなしながら、非対面音声翻訳サービスへの適用を考えた場合、逐次的に翻訳される翻訳結果の音声を話し手(利用者A)の原音声に重ねて出力すると、聞き手(利用者B)にとっては翻訳結果の音声が聞き取りづらくなるという問題が発生する。
これを解決するため、話し手の発話の終了を待ってから、翻訳結果の音声を出力する方式を採用すれば、聞き取りづらいという問題は解決する。しかしながら、この手法では、相手の意図を理解するまでに時間がかかり、スムーズなコミュニケーションが実現できない。
また、話し手の原音声を出力せず、翻訳結果の音声だけを出力することで、音声の重複を回避する手法も考えられる。この手法では、話し手の原音声が聞こえずに、翻訳結果の音声だけを聞くことになるので、聞き手にとっては発話タイミングが取りづらい。例えば、翻訳結果の音声が途切れた場合、2つのケースが考えられる。1つは、話し手の発話が終了して、聞き手の発話待ち状態のケース。他の1つは、話し手が一息ついただけで、話しを続けるケース。遠隔地に居る2人の利用者は、この2つのケースの発話ターンの判断が難しい。その結果、ぎくしゃくしとした会話となってしまうという問題を生ずる。
本発明が解決しようとする課題は、お互いの発話タイミングが取りやすい、スムーズなコミュニケーションが可能な音声翻訳装置、音声翻訳方法およびプログラムを提供することを目的とする。
上記目的を達成するために、実施形態の音声翻訳装置は、少なくとも第1言語による音声を取り込む第1音声入力装置と、前記音声を出力する第1音声出力装置とを有する第1音声装置と、少なくとも第2言語による音声を取り込む第2音声入力装置と、前記音声を出力する第2音声出力装置とを有する第2音声装置と、前記第1音声装置と第2音声装置との間の音声翻訳を行う音声認識・翻訳サーバと、を有する音声翻訳装置であって、前記音声認識・翻訳サーバは、前記第1音声入力装置からの前記第1言語の発話音声を受信して、音声認識を行う第1音声認識手段と、その発話終了を待たずに逐次的に前記音声認識結果の前記第1言語を前記第2言語へ翻訳する第1機械翻訳手段と、前記翻訳結果の第2音声を生成する第1音声合成手段と、前記第1音声合成手段が生成する前記翻訳結果の第2音声、および前記第1言語の発話音声の音量を調整可能とし、前記第2音声よりも前記第1言語の発話音声の音量が小さくなるように音量を調整して、前記第1音声および前記第2音声を前記第2音声出力装置に向けて出力する第1出力音調整手段と、を有することを特徴とする。
実施形態に係る音声翻訳装置によれば、翻訳された言葉の理解に要する時間が短く、かつ、お互いの発話タイミングが取りやすい、スムーズなコミュニケーションが可能となる。
実施形態に係る音声翻訳装置の全体構成を示すブロック図である。 実施形態に係る音声翻訳装置の主要部の構成を示すブロック図である。 第2出力音調整装置の動作を示すフローチャートである。 第1実施形態における、出力音声を時間に沿った形で表現した図である 第2実施形態における、第2出力音調整装置の動作を示すフローチャートである。 第2実施形態における、出力音声を時間に沿った形で表現した図である 第3実施形態における、第2出力音調整装置の動作を示すフローチャートである。 第3実施形態における、出力音声を時間に沿った形で表現した図である
以下、本発明の実施形態の音声翻訳装置、音声翻訳方法およびプログラムについて、図面を参照して詳細に説明する。
図1は、実施形態に係る音声翻訳装置の全体の構成を示す図である。利用者端末A(100)は、第1音声装置である。利用者端末A(100)は、携帯型筐体に、スピーカー111、ディスプレイ112、マイク113、および音声入力ボタン114を備えている。同様に、利用者の端末B(200)は、第2音声装置である。利用者端末B(200)は、携帯型筐体に、スピーカー211、ディスプレイ212、マイク213、および音声入力ボタン214を備えている。スピーカー111,211は、この装置で音声翻訳されたものを音声で出力する。ディスプレイ112,212は、音声認識結果および機械翻訳結果などを表示する。マイク113,213は、利用者の発話音声を取り込む。音声入力ボタン114,214は、発話音声の取り込み開始を指示する。
利用者端末A(100)と利用者端末B(200)は、ネットワーク300上の音声認識・翻訳サーバ400を介して接続され、スマートフォンなどの携帯電子機器を用いた音声翻訳システムが提供される。ネットワーク300は、無線通信、又は有線通信のどちらでも構わない。なお、実施形態の音声翻訳装置は、図1の構成に限定されることなく、例えばパーソナルコンピュータなどを使用したテレビ会議システムなどにも応用可能である。
(第1実施形態)
図2は、実施形態に係る音声翻訳装置の主要部の構成を示すブロック図である。
この音声翻訳装置は、第1言語(例えば、日本語)で話す利用者Aと、第1言語とは異なる第2言語(例えば、英語)で話す利用者Bとの間で音声翻訳を実施する装置である。遠隔地に離れた利用者Aと利用者Bとの双方向での会話を可能とするために、利用者端末A(100)は、第1音声入力装置110と第1音声出力装置120とを備えている。同様に、利用者端末B(200)は、第2音声入力装置230と第2音声出力装置240とを備えている。この第1音声入力装置110は図1のマイク113に相当し、音声出力装置120は図1のスピーカー111に相当している。また、第2音声入力装置230は図1のマイク213に相当し、第2音声出力装置240は図1のスピーカー211に相当している。
両端末間のネットワーク上に設けられる音声認識・翻訳サーバ400は、音声翻訳装置401,402、第1出力音調整装置470、第2出力音調整装置480、および制御装置490を有している。
音声翻訳装置401は、第1音声認識装置410、第1機械翻訳装置430、および第1音声合成装置450によって構成され、受信した第1音声を認識して、その翻訳結果の第2音声を出力する。また、音声翻訳装置402は、第2音声認識装置420、第2機械翻訳装置440、第2音声合成装置460によって構成され、受信した第2音声を認識して、その翻訳結果の第1音声を出力する。以下に、その詳細を説明する。
第1音声認識装置410は、利用者端末A(100)の第1音声入力装置110から送信された第1言語の音声を受信して取り込む。第1機械翻訳装置430は、図示していない翻訳辞書を参照して、第1音声認識装置410で認識した第1言語の音声認識結果を第2言語に翻訳し、その翻訳結果を第1音声合成装置450に出力する。第1音声合成装置450は、第1機械翻訳装置430から入力された翻訳結果の第2言語の音声合成信号を生成して、利用者端末B(200)の第2音声出力装置240に向けて出力する。
一方、第2音声認識装置420は、利用者端末B(200)の第2音声入力装置230から送信された第2言語の音声を受信して取り込む。第2機械翻訳装置440は、図示していない翻訳辞書を参照して、第2音声認識装置420で認識した第2言語の音声認識結果を第1言語に翻訳し、その翻訳結果を第2音声合成装置460に出力する。第2音声合成装置460は、第2機械翻訳装置440から入力された翻訳結果の第1言語の音声合成信号を生成して、利用者端末A(100)の第1音声出力装置120に向けて出力する。
なお、ここでは、第1機械翻訳装置430からの翻訳結果を第1音声合成装置450に出力したが、第2音声合成装置460に出力するようにしても良い。同様に、第2機械翻訳装置440からの翻訳結果を第2音声合成装置460に出力したが、第1音声合成装置450に出力するようにしても良い。
第1出力音調整装置470は、第2言語の発話音声および第2音声合成装置460が出力する第1言語の音声合成信号の音量を調整する。第2出力音調整装置480は、第1言語の発話音声および第1音声合成装置450が出力する第2言語の音声合成信号の音量を調整する。制御装置440は、これら装置全体の動作タイミングを制御する。なお、上述した音声翻訳装置の利用者端末A(100)、利用者端末B(200)、および音声認識・翻訳サーバ400は、ネットワーク通信を行うため、図示しない通信装置を備えている。
次に、第1実施形態に示した音声翻訳装置の動作を説明する。
まず、利用者Aが第1言語(例えば、日本語)で発話を開始すると、利用者端末A(100)の第1音声入力装置110により発話音声が取得される。この第1音声入力装置110からの第1音声は、ネットワークの音声認識・翻訳サーバ400を経由して、その音量を絞ってそのまま利用者端末B(200)の第2音声出力装置240に送出される。
同時に、音声認識・翻訳サーバ400の第1音声認識装置410は、第1音声入力装置110から受信した第1言語の発話音声を音声認識して、第1機械翻訳装置430に出力する。第1機械翻訳装置430は、音声認識した第1言語を第2言語(例えば、英語)に翻訳し、第1音声合成装置450に出力する。このとき、例えば、非特許文献1に記載している方法により、翻訳単位が自動的に検出されると、発話最中であっても翻訳結果の第2音声が逐次的に生成される。第1音声合成装置450は、その翻訳結果の第2音声合成信号を生成する。生成された第2音声合成信号の音量は、第2出力音調整装置480によって調整される。これにより、利用者Aが発話した第1言語が音声認識・翻訳サーバ400によって第2言語に翻訳され、第2出力音調整装置480によって調整された音量で、その翻訳結果の音声が利用者端末B(200)の第2音声出力装置240に向けて出力され、利用者Bによって聞き取られる。
同様にして、利用者Bが第2言語(例えば、英語)で発話を開始すると、利用者端末B(200)の第2音声入力装置230により発話音声が取得される。この第2音声入力装置230からの第1音声は、ネットワークの音声認識・翻訳サーバ400を経由して、その音量を絞ってそのまま利用者端末A(100)の第1音声出力装置120に送出される。同時に、音声認識・翻訳サーバ400の第2音声認識装置420は、第2音声入力装置230から受信した第2言語の発話音声を音声認識して、第2機械翻訳装置440に出力する。第2機械翻訳装置440は、音声認識した第2言語を第1言語(例えば、日本語)に翻訳し、第2音声合成装置460に出力する。この場合も、非特許文献1に記載している方法により、翻訳単位が自動的に検出されると、発話最中であっても翻訳結果の第1音声が逐次的に生成される。第2音声合成装置460は、その翻訳結果の第1音声合成信号を生成する。生成された第1音声合成信号の音量は、第1出力音調整装置470によって調整される。これにより、利用者Bが発話した第2言語が音声認識・翻訳サーバ400によって第1言語に翻訳され、第2出力音調整装置480によって調整された音量で、その翻訳結果の音声が利用者端末A(100)の第1音声出力装置120に向けて出力され、利用者Aによって聞き取られる。
図3は、利用者Aが第1音声入力装置110に向けて発話した場合における、第2出力音調整装置480の動作を示すフローチャートである。また、第1出力音調整装置470でも同様な動作を実行する。
第2出力音調整装置480は、ネットワークを介して第1音声入力装置110より第1音声(例えば、日本語)の発話を受け取ると(S300)、その音量を絞ってそのまま、ネットワークを介して利用者端末B(200)の第2音声出力装置240に送出する(S310)。
第1音声の発話に対して第1音声認識装置410で音声認識し、その認識結果を受けて機械翻訳を行う第1機械翻訳装置430は、やや遅れて逐次的に翻訳結果を生成する。そして、第1音声合成装置450は、その翻訳結果の第2音声(例えば、英語)を生成する。そして、第1音声合成装置450に翻訳結果の第2音声があるかをチェックする(S320)。翻訳結果の第2音声が有れば、第2出力音調整装置480は、第1音声合成装置450が生成する翻訳結果の第2音声の音量よりも第1言語の発話音声の音量が小さくなるように音量を調整し、利用者端末B(200)に向けて送出する。利用者端末B(200)の第2音声出力装置240は、第2出力音声調整装置480により調整された音量の第1音声の発話音声と第2音声の翻訳結果の音声を受け取り、利用者Bに聞こえるようにスピーカーから出力する(S330)。S330の後、又はS320で第2音声が無ければ、元に戻り、次の音声入力を待つ。
このような動作により、利用者Bにとっては、小さな音量の第1言語(例えば、日本語)の発話音声にやや遅れて追随する形式で、より大きな音量の第2言語(例えば、英語)の翻訳結果の第2音声が重なって聞こえることになる。
これにより、利用者Bは、利用者Aの第1言語の発話音声を聞くことができるので、利用者Aが発話を停止して、自分からの発話待ちをしていることを自然に感知することが出来る。また、第1言語の発話音声の音量が翻訳結果の第2音声よりも小さいため、利用者Bは第1言語の発話音声に妨げられることなく、翻訳結果の第2音声を聞き取り、利用者Aの話している内容を理解する事ができる。その結果、速やかに、利用者Bは自分のターンの発声を開始することが可能となり、スムーズな会話が行える。
同様にして、利用者Bが発話を開始すると、今度は、先ほどとは逆方向の処理が実行される。すなわち、第1出力音調整装置470は、ネットワークを経由して第2音声入力装置230より第2音声(例えば、英語)の発話を受け取ると(S300に相当)、その音量を絞ってそのまま、ネットワークを経由して第1音声出力装置120に送出する(S310に相当)。
第2音声の発話に対して第2音声認識装置420で音声認識し、その認識結果を受けて機械翻訳を行う第2機械翻訳装置440は、やや遅れて逐次的に翻訳結果を生成する。そして、第2音声合成装置460は、翻訳結果の第1音声(例えば、日本語)を生成する。そして、第2音声合成装置460による翻訳結果の第1音声があるかをチェックする(S320に相当)。翻訳結果の第1音声が有れば、第1出力音調整装置470は、第2音声合成装置460が生成する翻訳結果の第1音声の音量よりも第2言語の発話音声の音量が小さくなるように音量を調整し、利用者端末A(100)に向けて送出する。利用者端末A(100)の第1音声出力装置120は、第1出力音声調整装置470により調整された音量の第2音声の発話音声と第1音声の翻訳結果の音声を受け取り、利用者Aに聞こえるようにスピーカーから出力する(S330に相当)。
このような動作により、利用者Aにとっては、小さな音量の第2言語(例えば、英語)の発話音声にやや遅れて追随する形式で、より大きな音量の第1言語(例えば、日本語)の翻訳結果の第1音声が重なって聞こえることになる。
これにより、利用者Aは、利用者Bの第2言語の発話音声を聞くことができるので、利用者Bが発話を停止して、自分からの発話待ちをしていることを自然に感知することが出来る。また、第2言語の発話音声の音量が翻訳結果の第1音声よりも小さいため、利用者Aは第2言語の発話音声に妨げられることなく、翻訳結果の第1音声を聞き取り、利用者Bの話している内容を理解する事ができる。その結果、速やかに、再び、利用者Aは自分のターンの発声を開始することが可能となる。
図4は、第1実施形態の音声翻訳装置における出力音声を時間軸に沿った形式で表現したものである。利用者Aが発話した音声(日本語1)を翻訳して利用者Bに音声(英語1)を提供する場合、第2出力音調整装置480は、第1言語の発話音声(日本語1)の音量は小さく、第1音声合成装置450から出力される翻訳結果の第2音声(英語1)の音量は大きくなるように調整して、第2音声出力装置240から出力する。
一方、利用者Bが発話した音声(英語2)を翻訳して利用者Aに音声(日本語2)を提供する場合、第1出力音調整装置470は、第2言語の発話音声(英語2)の音量は小さく、第2音声合成装置460から出力される翻訳結果の第1音声(日本語2)の音量は大きくなるように調整して、第1音声出力装置120から出力する。
このような処理を繰り返すことにより、利用者Aと利用者Bの双方にとって、お互いの発話タイミングが取り易くなり、スムーズなコミュニケーションが可能となる。
ところで、第1実施例形態のような音声翻訳装置においては、翻訳結果の第1音声又は第2音声が、実際の発話音声よりも遅れて伝わることは原理的に避けられない。特に、非対面音声翻訳サービスでは、発話者にとって、音声出力の遅れがどれくらいかを知る手段がない。よって、自分(例えば、利用者A)の発話に対する相手(例えば、利用者B)からの返答発話がなかなか返ってこない場合に、翻訳処理の遅延によるものなのか、相手に自分の意図が正しく伝わらなかったために相手が沈黙しているのかを判断することができない。
また、自分からの話の意図が正しく相手に伝達して、相手から返答の発話を開始している場合であっても、相手に話の意図が正しく伝わらなかったのではないかと不安になる。このような場合、相手からの発話が遅いと、焦って言葉を継いでしまうことがある。その場合、自分の発話と相手の発話のタイミングが衝突して、会話がぎくしゃくする状況が発生し得る。
(第2実施形態)
第2実施形態は、このような事態を解決するための方法であり、第1実施形態の方法に加えて、さらに、自分の発話の翻訳結果音声を、相手側で出力されているタイミングで、自分でも聞く事を可能としている。
第2実施形態における、第2出力音調整装置480の動作を示すフローチャートを図5に示す。
図5において、S500乃至S530は、図3に示した動作と同じである。この第2実施形態において、S530で、第1音声出力装置120から第1音声合成装置450からの翻訳結果の第2音声(英語1)を出力するように設定されていれば、第2音声出力装置240の第2音声より小さい音量で出力しても良い。
新たに追加したS540では、利用者Bから発話した第2言語(英語2)に応答して、第2出力音調整装置480は、第2機械翻訳装置440から翻訳結果の第1音声(日本語2)の出力があるかをチェックする。第1音声(日本語2)の出力がある場合、第2出力音調整装置480は、S530における翻訳結果の第2音声(英語1)よりも小さい音量で、翻訳結果の第2音声(日本語2)を第2音声出力装置240から出力する(S550)。S550の後、又はS540で第1音声が無ければ、元に戻り、次の音声入力を待つ。
このように、第2出力音調整装置480は、利用者Bの発話音声の翻訳結果(日本語2)を第2音声出力装置240からも出力する場合、直前の第2音声出力装置240から出力される翻訳結果(英語1)よりも小さい音量で出力する。
こうすることにより、各利用者は、相手に聞こえている自分の発話の翻訳結果の音声を、自分の発声の邪魔にならないような小さな音声で、自分でも同時に聞くことができる。したがって、自分の発話内容が相手に伝わった終了タイミング、すなわち、相手の返答を待つタイミングを知ることができるようになる。このため、逐次翻訳の遅れに伴う相手からの返答の遅れを不安に思うことが少なくなる。また、会話の衝突が発生しにくくなり、よりスムーズな会話が可能となる。
図6は、第2実施形態の音声翻訳装置における出力音声を時間軸に沿った形式で表現したものである。
利用者Aが発話した第1言語の音声を認識して翻訳し、利用者Bに翻訳結果の音声を提供する場合、第2出力音調整装置480は、最初に第2音声出力装置240から出力する第1言語の発話音声(日本語1)の音量は小さくする。次に、第2出力音調整装置480は、発話音声(日本語1)に重ねて第2音声出力装置240から出力する第1機械翻訳装置430の翻訳結果である第2音声(英語1)の音量は、発話音声(日本語1)より大きくなるように調整する。
また、第1出力音調整装置470は、翻訳結果の第2音声(英語1)を第1音声出力装置120から出力する場合、第2音声出力装置240の第2音声(英語1)の音量より小さい音量で出力する。
次に、利用者Bが発話した第2音声を認識して翻訳し、利用者Aに翻訳結果の音声を提供する場合、第1出力音調整装置470は、最初に第1音声出力装置120から出力する第2言語の発話音声(英語2)の音量は小さくする。次に、第1出力音調整装置470は、発話音声(英語2)に重ねて第1音声出力装置120から出力する第2機械翻訳装置440の翻訳結果である第1音声(日本語2)の音量は、第2言語の発話音声(英語2)より大きく、且つ直前の翻訳結果の第2音声(英語1)よりも大きくなるように調整する。
また、第2出力音調整装置480は、翻訳結果の第1音声(日本語2)を第2音声出力装置240から出力する場合、第1音声出力装置120からの第1音声(日本語2)の音量より小さく、且つ直前の翻訳結果の第2音声(英語1)と比べても小さくなるように調整する。
(第3実施形態)
第3実施形態では、第2実施形態に加えて、さらに、自分の発話に対する翻訳結果の音声の音量を細かく調整できるようにする。
第3実施形態における、第2出力音調整装置480の動作を示すフローチャートを図7に示す。
図7において、S700乃至S730は、図3に示した動作と同じである。この第3実施形態においても、S730で、第1音声出力装置120から第1音声合成装置450からの翻訳結果の第2音声(英語1)を出力するように設定されていれば、第2音声出力装置240の第2音声より小さい音量で出力する。そして、利用者Aの発話音声である第1言語が無くなれば、それまでの小さい音量から大きい音量に変えて第2音声(英語1)を第1音声出力装置120から出力するようにしても良い。
新たに追加したS740では、利用者Bから発話した第2言語(英語2)に応答して、第2出力音調整装置480は、第2機械翻訳装置440から翻訳結果の第1音声(日本語2)の出力があるかをチェックする。第1音声(日本語2)の出力がある場合、第2出力音調整装置480は、利用者Bが第2言語で発話中であるかをチェックする(S750)。発話中であれば、S730における翻訳結果の第2音声(英語1)よりも小さい音量で、翻訳結果の第2音声(日本語2)を第2音声出力装置240から出力する(S760)。一方、S750において発話中で無ければ、それまでの小さい音量から大きい音量に変えて第2音声(日本語2)を第2音声出力装置240から出力する(S770)。
このように、第2出力音調整装置480は、利用者Bの発話音声の翻訳結果(日本語2)を第2音声出力装置240から出力する場合、利用者Bが発話中であれば直前の第2音声出力装置240からの翻訳結果(英語1)よりも小さい音量で出力し、利用者Bが発話中でなければ、それまでの小さい音量から大きい音量に変えて出力する。
一方、第1出力音調整装置470も同様に、利用者Aの発話音声の翻訳結果(英語1)を第1音声出力装置120から出力する場合、利用者Aが発話中であれば直前の第1音声出力装置120からの翻訳結果よりも小さい音量で出力し、利用者Aが発話中でなければ、それまでの小さい音量から大きい音量に変えて出力する。
図8は、第3実施形態の音声翻訳装置における出力音声を時間軸に沿った形式で表現したものである。
利用者Aが発話した音声を認識して翻訳し、利用者Bに翻訳結果(英語1)の音声を提供する場合、第2出力音調整装置480は、最初に第2音声出力装置240から出力する第1言語の発話音声(日本語1)の音量は小さくする。次に、第2出力音調整装置480は、発話音声(日本語1)に重ねて第2音声出力装置240から出力する第1機械翻訳装置430の翻訳結果である第2音声(英語1)の音量は、発話音声(日本語1)より大きくなるように調整する。
また、第1出力音調整装置470は、翻訳結果の第2音声(英語1)を第1音声出力装置120から出力する場合、利用者Aが発話中であれば、第2音声出力装置240の音量より小さい音量で出力する。利用者Aが発話中で無ければ、それまでの小さい音量から大きい音量に変えて出力する。
次に、利用者Bが発話した音声を認識して翻訳し、利用者Aに翻訳結果の音声を提供する場合、第1出力音調整装置470は、最初に第1音声出力装置120から出力される第2言語の発話音声(英語2)の音量は小さくする。次に、第1出力音調整装置470は、発話音声(英語2)に重ねて第1音声出力装置120から出力される第2機械翻訳装置440の翻訳結果である第1音声(日本語2)の音量は、第2言語の発話音声(英語2)より大きくなるように調整する。
また、第2出力音調整装置480は、翻訳結果の第1音声(日本語2)を第2音声出力装置240から出力する場合、利用者Bが発話中であれば第1音声出力装置120の音量より小さい音量で出力する。利用者Bが発話中で無ければ、それまでの小さい音量から大きい音量に変えて出力する。
こうすることにより、第2実施形態と比較して、自分の発話内容が相手に伝わった終了タイミングを、よりハツキリと知ることができるようになる。また、会話の衝突が発生しにくくなり、よりスムーズな会話が可能となる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100‥利用者端末A
200‥利用者端末B
300‥ネットワーク
400‥音声認識・翻訳サーバ
401,402‥音声翻訳装置
110,230‥第1、第2音声入力装置
120,240‥第1、第2音声出力装置
410,420‥第1、第2音声認識装置
430,440‥第1、第2機械翻訳装置
450,460‥第1、第2音声合成装置
470,480‥第1、第2出力音調整装置
490‥制御装置

Claims (12)

  1. 少なくとも第1言語による音声を取り込む第1音声入力装置と、前記音声を出力する第1音声出力装置とを有する第1音声装置と、
    少なくとも第2言語による音声を取り込む第2音声入力装置と、前記音声を出力する第2音声出力装置とを有する第2音声装置と、
    前記第1音声装置と第2音声装置との間の音声翻訳を行う音声認識・翻訳サーバと、
    を有する音声翻訳装置であって、
    前記音声認識・翻訳サーバは、
    前記第1音声入力装置からの前記第1言語の発話音声を受信して、音声認識を行う第1音声認識手段と、
    その発話終了を待たずに逐次的に前記音声認識結果の前記第1言語を前記第2言語へ翻訳する第1機械翻訳手段と、
    前記翻訳結果の第2音声を生成する第1音声合成手段と、
    前記第1音声合成手段が生成する前記翻訳結果の第2音声、および前記第1言語の発話音声の音量を調整可能とし、前記第2音声よりも前記第1言語の発話音声の音量が小さくなるように音量を調整して、前記第1音声および前記第2音声を前記第2音声出力装置に向けて出力する第1出力音調整手段と、
    を有することを特徴とする音声翻訳装置。
  2. 前記第2音声入力装置からの前記第2言語の発話音声を受信して、音声認識を行う第2音声認識手段と、
    その発話終了を待たずに逐次的に前記音声認識結果の前記第2言語を前記第1言語へ翻訳する第2機械翻訳手段と、
    前記翻訳結果の第1音声を生成する第2音声合成手段と、
    前記第2音声合成手段が生成する前記翻訳結果の第1音声、および前記第2言語の発話音声の音量を調整可能とし、前記第1音声よりも前記第2言語の発話音声の音量が小さくなるように音量を調整して、前記第2音声および前記第1音声を前記第1音声出力装置に向けて出力する第2出力音調整手段と、
    を更に有することを特徴とする請求項1に記載の音声翻訳装置。
  3. 前記第1出力音調整手段は更に、前記第2音声出力装置に向けて出力される前記第2機械翻訳手段の翻訳結果である前記第1音声の音量を、前記第1機械翻訳手段の翻訳結果である前記第2音声の音量よりも小さくなるように調整することを特徴とする請求項2に記載の音声翻訳装置。
  4. 前記第2出力音調整手段は更に、前記第1音声出力装置に向けて出力される前記第1機械翻訳手段の翻訳結果である前記第2音声の音量を、前記第2機械翻訳手段の翻訳結果である前記第1音声の音量よりも小さくなるように調整することを特徴とする請求項2に記載の音声翻訳装置。
  5. 前記第1出力音調整手段は更に、前記第2言語の発話音声の発話終了を検知すると、前記第2音声合成手段が生成する翻訳結果の前記第1音声の音量を、前記第2言語の発話音声の出力中よりも大きくなるように音量を調整することを特徴とする請求項2に記載の音声翻訳装置。
  6. 前記第2出力音調整手段は更に、前記第1言語の発話音声の発話終了を検知すると、前記第1音声翻訳手段が生成する翻訳結果の前記第2音声の音量を、前記第1言語の発話音声の出力中よりも大きくなるように音量を調整することを特徴とする請求項2に記載の音声翻訳装置。
  7. 前記第1出力音調整手段は更に、前記第1音声出力装置に向けて出力される第1機械翻訳手段の翻訳結果である前記第2音声を、前記第2音声出力装置に向けて出力される前記第1機械翻訳手段の翻訳結果である前記第2音声の音量よりも小さくなるように音量を調整することを特徴とする請求項2に記載の音声翻訳装置。
  8. 前記第2出力音調整手段は更に、前記第2音声出力装置に向けて出力される第2機械翻訳手段の翻訳結果である前記第1音声を、前記第1音声出力装置に向けて出力される前記第2機械翻訳手段の翻訳結果である前記第1音声の音量よりも小さくなるように音量を調整することを特徴とする請求項2に記載の音声翻訳装置。
  9. 少なくとも第1言語による音声を取り込む第1音声入力装置と、前記音声を出力する第1音声出力装置とを有する第1音声装置と、
    少なくとも第2言語による音声を取り込む第2音声入力装置と、前記音声を出力する第2音声出力装置とを有する第2音声装置と、
    前記第1音声装置と第2音声装置との間の音声翻訳を行う音声認識・翻訳サーバと、
    による音声翻訳方法であって、
    前記第1音声入力装置が出力する前記第1言語の音声を受信し、音声認識を行うステップと、
    その音声認識結果を入力としてその発話終了を待たずに逐次的に前記第1言語を前記第2言語へ翻訳するステップと、
    前記第2言語に翻訳された前記翻訳結果の第2音声を生成するステップと、
    前記翻訳結果の第2音声よりも前記第1言語の発話音声の音量が小さくなるように音量を調整するステップと、
    前記第1言語の発話音声に重ねて音量の大きい前記翻訳結果の第2音声を前記第2音声出力装置に向けて出力するステップと、
    を有することを特徴とする音声翻訳方法。
  10. 前記第2音声入力装置が出力する前記第2言語の音声を受信し、音声認識を行うステップと、
    その音声認識結果を入力としてその発話終了を待たずに逐次的に前記第2言語を前記第1言語へ翻訳するステップと、
    前記第1言語に翻訳された前記翻訳結果の第1音声を生成するステップと、
    前記翻訳結果の第1音声よりも前記第2言語の発話音声の音量が小さくなるように音量を調整するステップと、
    前記第2言語の発話音声に重ねて音量の大きい前記翻訳結果の第1音声を前記第1音声出力装置に向けて出力するステップと、
    更に有することを特徴とする請求項9に記載の音声翻訳方法。
  11. 少なくとも第1言語による音声を取り込む第1音声入力装置と、前記音声を出力する第1音声出力装置とを有する第1音声装置と、
    少なくとも第2言語による音声を取り込む第2音声入力装置と、前記音声を出力する第2音声出力装置とを有する第2音声装置と、
    前記第1音声装置と第2音声装置との間の音声翻訳を行う音声認識・翻訳サーバと、
    による音声翻訳プログラムであって、
    前記第1音声出力装置が出力する前記第1言語の発話音声を前記音声認識・翻訳サーバが受信して音声認識を行う機能と、
    前記音声認識・翻訳サーバによって、前記音声認識の結果を入力として前記第1言語から前記第2言語に翻訳すると共に、その翻訳結果の第1音声を生成する機能と、
    前記翻訳結果の第1音声よりも前記第1言語の発話音声の音量が小さくなるように音量を調整し、前記第1言語の発話音声に重ねて音量の大きい前記翻訳結果の第1音声を前記音声認識・翻訳サーバから前記第2音声出力装置に向けて出力する機能と、
    をコンピュータによって実行させるプログラム。
  12. 前記第2音声出力装置が出力する前記第2言語の発話音声を前記音声認識・翻訳サーバが受信して音声認識を行う機能と、
    前記音声認識・翻訳サーバによって、前記音声認識の結果を入力として前記第2言語から前記第1言語に翻訳すると共に、その翻訳結果の第2音声を生成する機能と、
    前記翻訳結果の第2音声よりも前記第2言語の発話音声の音量が小さくなるように音量を調整し、前記第2言語の発話音声に重ねて音量の大きい前記翻訳結果の第2音声を前記音声認識・翻訳サーバから前記第1音声出力装置に向けて出力する機能と、
    を更にコンピュータによって実行する請求項11に記載のプログラム。
JP2013194020A 2013-09-19 2013-09-19 音声翻訳装置、音声翻訳方法およびプログラム Pending JP2015060423A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013194020A JP2015060423A (ja) 2013-09-19 2013-09-19 音声翻訳装置、音声翻訳方法およびプログラム
US14/487,267 US9280539B2 (en) 2013-09-19 2014-09-16 System and method for translating speech, and non-transitory computer readable medium thereof
CN201410471705.1A CN104462070A (zh) 2013-09-19 2014-09-16 语音翻译系统和语音翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013194020A JP2015060423A (ja) 2013-09-19 2013-09-19 音声翻訳装置、音声翻訳方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2015060423A true JP2015060423A (ja) 2015-03-30

Family

ID=52668736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013194020A Pending JP2015060423A (ja) 2013-09-19 2013-09-19 音声翻訳装置、音声翻訳方法およびプログラム

Country Status (3)

Country Link
US (1) US9280539B2 (ja)
JP (1) JP2015060423A (ja)
CN (1) CN104462070A (ja)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018190431A (ja) * 2015-09-08 2018-11-29 アップル インコーポレイテッドApple Inc. メディア環境内におけるインテリジェント自動アシスタント
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
US20170060850A1 (en) * 2015-08-24 2017-03-02 Microsoft Technology Licensing, Llc Personal translator
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US9898250B1 (en) * 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
US10431216B1 (en) * 2016-12-29 2019-10-01 Amazon Technologies, Inc. Enhanced graphical user interface for voice communications
US11582174B1 (en) 2017-02-24 2023-02-14 Amazon Technologies, Inc. Messaging content data storage
TW201834438A (zh) * 2017-03-08 2018-09-16 捷音特科技股份有限公司 耳麥翻譯系統
JP7062958B2 (ja) * 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
CN108710615B (zh) * 2018-05-03 2020-03-03 Oppo广东移动通信有限公司 翻译方法及相关设备
EP3579121A1 (en) * 2018-06-05 2019-12-11 Nokia Technologies Oy Audio outputs
CN108923810A (zh) * 2018-06-15 2018-11-30 Oppo广东移动通信有限公司 翻译方法及相关设备
CN109286725B (zh) * 2018-10-15 2021-10-19 华为技术有限公司 翻译方法及终端
CN109285563B (zh) * 2018-10-15 2022-05-06 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置
US20200193965A1 (en) * 2018-12-13 2020-06-18 Language Line Services, Inc. Consistent audio generation configuration for a multi-modal language interpretation system
WO2021109000A1 (zh) * 2019-12-03 2021-06-10 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质
US11990139B1 (en) * 2023-10-09 2024-05-21 Sandrew & Company, Llc System that conducts dialogs using artificial intelligence

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002027039A (ja) * 2000-07-06 2002-01-25 Hitachi Ltd 通信通訳システム
JP2007080097A (ja) * 2005-09-15 2007-03-29 Toshiba Corp 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP2007110197A (ja) * 2005-10-11 2007-04-26 Oki Electric Ind Co Ltd 同時通訳装置
JP2009135596A (ja) * 2007-11-28 2009-06-18 Aiphone Co Ltd インターホン装置
JP2010193495A (ja) * 2010-04-05 2010-09-02 Sony Corp 通訳通話システム
JP2014518038A (ja) * 2011-05-05 2014-07-24 オルツボ, インコーポレイテッド 近接するモバイルデバイス間の言語間通信

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001251429A (ja) 2000-03-03 2001-09-14 Net Teimento:Kk 携帯電話を使用した音声翻訳システムおよび携帯電話
US8108509B2 (en) * 2001-04-30 2012-01-31 Sony Computer Entertainment America Llc Altering network transmitted content data based upon user specified characteristics
US7240330B2 (en) * 2002-02-01 2007-07-03 John Fairweather Use of ontologies for auto-generating and handling applications, their persistent storage, and user interfaces
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
JP2008032834A (ja) 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
JP4271224B2 (ja) * 2006-09-27 2009-06-03 株式会社東芝 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
FR2921735B1 (fr) 2007-09-28 2017-09-22 Joel Pedre Procede et dispositif de traduction ainsi qu'un casque mis en oeuvre par ledit dispositif
US8041018B2 (en) * 2007-12-03 2011-10-18 Samuel Joseph Wald System and method for establishing a conference in two or more different languages
US8566076B2 (en) * 2008-05-28 2013-10-22 International Business Machines Corporation System and method for applying bridging models for robust and efficient speech to speech translation
US20100169073A1 (en) * 2008-12-31 2010-07-01 Voice Muffler Corporation Foldable Wireless Device for Language Translation
US20100185432A1 (en) * 2009-01-22 2010-07-22 Voice Muffler Corporation Headset Wireless Noise Reduced Device for Language Translation
US20100250231A1 (en) * 2009-03-07 2010-09-30 Voice Muffler Corporation Mouthpiece with sound reducer to enhance language translation
KR101589433B1 (ko) * 2009-03-11 2016-01-28 삼성전자주식회사 동시 통역 시스템
US20100283829A1 (en) * 2009-05-11 2010-11-11 Cisco Technology, Inc. System and method for translating communications between participants in a conferencing environment
CN101923858B (zh) * 2009-06-17 2012-11-21 劳英杰 一种实时同步互译语音终端
CN101631032B (zh) * 2009-08-27 2011-08-10 华为终端有限公司 实现多语言会议的方法、装置和系统
US20110238407A1 (en) * 2009-08-31 2011-09-29 O3 Technologies, Llc Systems and methods for speech-to-speech translation
JP2011221237A (ja) 2010-04-08 2011-11-04 Nec Corp 音声出力装置、そのコンピュータプログラムおよびデータ処理方法
US20110270601A1 (en) * 2010-04-28 2011-11-03 Vahe Nick Karapetian, Jr. Universal translator
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US9015030B2 (en) * 2011-04-15 2015-04-21 International Business Machines Corporation Translating prompt and user input
US20140358516A1 (en) * 2011-09-29 2014-12-04 Google Inc. Real-time, bi-directional translation
JP5750380B2 (ja) 2012-02-10 2015-07-22 株式会社東芝 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2013167806A (ja) 2012-02-16 2013-08-29 Toshiba Corp 情報通知支援装置、情報通知支援方法、および、プログラム
KR20140120560A (ko) * 2013-04-03 2014-10-14 삼성전자주식회사 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말
US9430465B2 (en) * 2013-05-13 2016-08-30 Facebook, Inc. Hybrid, offline/online speech translation system
US9128930B2 (en) * 2013-10-31 2015-09-08 Tencent Technology (Shenzhen) Company Limited Method, device and system for providing language service

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002027039A (ja) * 2000-07-06 2002-01-25 Hitachi Ltd 通信通訳システム
JP2007080097A (ja) * 2005-09-15 2007-03-29 Toshiba Corp 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP2007110197A (ja) * 2005-10-11 2007-04-26 Oki Electric Ind Co Ltd 同時通訳装置
JP2009135596A (ja) * 2007-11-28 2009-06-18 Aiphone Co Ltd インターホン装置
JP2010193495A (ja) * 2010-04-05 2010-09-02 Sony Corp 通訳通話システム
JP2014518038A (ja) * 2011-05-05 2014-07-24 オルツボ, インコーポレイテッド 近接するモバイルデバイス間の言語間通信

Cited By (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US10956006B2 (en) 2015-09-08 2021-03-23 Apple Inc. Intelligent automated assistant in a media environment
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
JP2018190431A (ja) * 2015-09-08 2018-11-29 アップル インコーポレイテッドApple Inc. メディア環境内におけるインテリジェント自動アシスタント
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones

Also Published As

Publication number Publication date
US9280539B2 (en) 2016-03-08
CN104462070A (zh) 2015-03-25
US20150081274A1 (en) 2015-03-19

Similar Documents

Publication Publication Date Title
JP2015060423A (ja) 音声翻訳装置、音声翻訳方法およびプログラム
JP2015060332A (ja) 音声翻訳装置、音声翻訳方法およびプログラム
KR101136769B1 (ko) 음성 및 텍스트 통신 시스템, 방법, 및 장치
US20180014117A1 (en) Wearable headset with self-contained vocal feedback and vocal command
EP3090531B1 (en) Smart bluetooth headset for speech command
CN106919562B (zh) 一种实时翻译系统、方法及装置
CN109360549B (zh) 一种数据处理方法、穿戴设备和用于数据处理的装置
WO2018209102A2 (en) Smart sound devices and language translation system
JP2018173652A (ja) 翻訳装置および翻訳方法
US10817674B2 (en) Multifunction simultaneous interpretation device
CN106982286B (zh) 一种录音方法、设备和计算机可读存储介质
KR20140023080A (ko) 문자 데이터를 이용한 음성 통화를 제공하기 위한 전자 장치 및 방법
US20220286538A1 (en) Earphone device and communication method
JP2009218950A (ja) カメラ付き携帯端末装置
WO2019240035A1 (ja) 会話補助装置、会話補助方法及びプログラム
WO2018198791A1 (ja) 信号処理装置および方法、並びにプログラム
JPWO2019186639A1 (ja) 翻訳システム、翻訳方法、及び翻訳装置
KR101609585B1 (ko) 청각 장애인용 이동 통신 단말기
JP3165585U (ja) 音声合成装置
KR20160142079A (ko) 근거리 무선 통신망을 기반으로 청각 장애인의 음성 대화를 지원하는 청각 장애인용 언어통역 보조장치, 음성합성서버, 음성인식서버, 알람 장치, 강연장 로컬 서버, 및 음성 통화 지원 어플리케이션
JP2018185758A (ja) 音声対話システムおよび情報処理装置
JP2018186469A (ja) 音声入出力装置、無線接続方法、音声対話システム
JP3217741U (ja) 多機能即時音声翻訳装置
JP2006139138A (ja) 情報端末及び基地局
EP4184507A1 (en) Headset apparatus, teleconference system, user device and teleconferencing method

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20150218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160317

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170601