JP2018085091A - 翻訳装置の制御方法、翻訳装置、および、プログラム - Google Patents

翻訳装置の制御方法、翻訳装置、および、プログラム Download PDF

Info

Publication number
JP2018085091A
JP2018085091A JP2017132069A JP2017132069A JP2018085091A JP 2018085091 A JP2018085091 A JP 2018085091A JP 2017132069 A JP2017132069 A JP 2017132069A JP 2017132069 A JP2017132069 A JP 2017132069A JP 2018085091 A JP2018085091 A JP 2018085091A
Authority
JP
Japan
Prior art keywords
translation
translation device
display screen
language
control method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017132069A
Other languages
English (en)
Other versions
JP6876936B2 (ja
Inventor
夏樹 佐伯
Natsuki Saeki
夏樹 佐伯
三浦 康史
Yasushi Miura
康史 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to KR1020187004003A priority Critical patent/KR20190082162A/ko
Priority to PCT/JP2017/028512 priority patent/WO2018087969A1/ja
Priority to CN201780003302.6A priority patent/CN108307659A/zh
Priority to EP17857667.4A priority patent/EP3540565A4/en
Priority to US15/939,390 priority patent/US20180217985A1/en
Publication of JP2018085091A publication Critical patent/JP2018085091A/ja
Application granted granted Critical
Publication of JP6876936B2 publication Critical patent/JP6876936B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1694Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being a single or a set of motion sensors for pointer control or gesture input obtained by sensing movements of the portable computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

【課題】翻訳装置を介した円滑な対話を阻害することを抑制する。【解決手段】翻訳装置は、マイクと、翻訳装置の姿勢を検出するセンサと、表示画面とを備え、翻訳装置の制御方法では、マイクにより第一ユーザの音声を示す音声信号を生成し(S104)、センサにより検出される翻訳装置の姿勢の変化を検知し、翻訳装置の姿勢の変化の検知までに生成された音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面に表示させる(S108)。【選択図】図7

Description

本発明は、翻訳装置の制御方法、翻訳装置、および、プログラムに関する。
特許文献1は、互いに異なる言語を使用する2者の間に配置され、第一の言語及び第二の言語の一方から他方への翻訳を行い、翻訳後の音声を再生する翻訳音声再生装置を開示している。この翻訳音声再生装置は、翻訳後の音声を出力する方向を制御することで、翻訳後の音声を聴取者に好適に提示する。
特開2011−150657号公報
音声翻訳機能を備えた翻訳装置は、2者の一方の者が話す言葉を翻訳して他方の者に伝えることを、双方向にかつ自動的に行うことが求められる。しかしながら、翻訳結果を提示するために2者による明示的な入力操作を求めるとすれば、2者の円滑な対話を阻害し得るという問題がある。
そこで、本発明は、翻訳装置を介した円滑な対話を阻害することを抑制する翻訳装置の制御方法等を提供する。
本発明の一態様に係る翻訳装置の制御方法は、前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、前記制御方法では、前記マイクにより第一ユーザの音声を示す音声信号を生成し、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明の翻訳装置の制御方法は、翻訳装置を介した円滑な対話を阻害することを抑制することができる。
図1は、実施の形態に係る翻訳装置の構成を示すブロック図である。 図2は、実施の形態に係る対話管理記憶部に保存される情報の一例を示す説明図である。 図3は、実施の形態に係る翻訳装置の姿勢情報の説明図である。 図4は、実施の形態に係る傾き検出の説明図である。 図5は、実施の形態に係る設定値を決定するために使用される画像の一例を示す説明図である。 図6は、実施の形態に係る基準言語の設定を促す画像の一例を示す説明図である。 図7は、実施の形態に係る翻訳装置のメイン処理を示すフロー図である。 図8は、実施の形態に係る翻訳装置の録音開始処理を示すフロー図である。 図9は、実施の形態に係る翻訳装置の録音終了処理を示すフロー図である。 図10は、実施の形態に係る音声認識結果の確認処理を示すフロー図である。 図11は、実施の形態に係る表示画面の説明図である。 図12は、実施の形態に係る表示画面の表示内容の説明図である。
(本発明の基礎となった知見)
本発明者は、「背景技術」の欄において記載した、翻訳装置の制御方法に関し、以下の問題が生じることを見出した。
音声翻訳機能を備えた翻訳装置(例えば携帯型翻訳機器)では、正しい翻訳結果を得るために、その入力である音声の開始時点から終了時点までの区間を正しく検出し、検出した区間を翻訳対象とする必要がある。音声認識処理における音声の開始時点と終了時点との検出は、従来、無音区間を検出する方法等が検討されている。しかし、雑音又は環境音などの影響を受けやすく、無音区間の検出が適切に行われないなどの問題がある。また、音声認識処理を行うために本来不要な無音区間を設ける必要が生じることにより、対話中に本来不要な無言状態が発生し、円滑な対話の阻害要因となる。
特許文献1は、機器の傾きを検出するセンサにより、対話する2者の言語間の変換方向(翻訳方向)を検出し、閲覧者にとって適切な翻訳結果の情報の表示を行う技術を開示している。特許文献1は、利用者の円滑な対話を補助するために翻訳方向を決定する方法を開示するものの、翻訳処理又は結果表示処理等を含む処理を翻訳装置が何をトリガとして行うかについて何ら開示がない。例えば上記処理の際に逐一、利用者による意図的な操作を要するとすれば、2者による円滑な対話を阻害し得る。
本発明は、翻訳結果を提示する際に円滑な対話を阻害することを抑制する翻訳装置の制御方法等を提供する。
このような問題を解決するために、本発明の一態様に係る翻訳装置の制御方法は、前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、前記制御方法では、前記マイクにより第一ユーザの音声を示す音声信号を生成し、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる。
上記態様によれば、翻訳装置は、話し手(第一ユーザ)と受け手(第二ユーザ)との対話において、翻訳装置の姿勢の変化の検知を契機として、翻訳処理により生成された第二テキストを表示画面に表示させ、受け手に視認させることができる。話し手は、対話中に自然に翻訳装置を傾けることで、容易に翻訳装置の姿勢を変化させことができる。よって、翻訳装置を介した円滑な対話を阻害することを抑制することができる。
例えば、前記翻訳装置の姿勢の変化を検知する際には、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、前記翻訳装置から、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたことを検知することで、前記翻訳装置の姿勢の変化を検知する。
上記態様によれば、翻訳装置は、翻訳装置の表示画面が受け手に向けられるように傾けられることを契機として、翻訳処理により生成された第二テキストを表示画面に表示させ、受け手に視認させることができる。一般に、対話において話し手が受け手に対して視認させたい物がある場合には、その視認させたい物を受け手に見えるように傾けることが行われる。翻訳を介した対話の場面においては、上記の視認させたい物は、話し手の発話内容を翻訳した第二テキストに相当する。すなわち、話し手が受け手に対して見せたいものを受け手に見えるように翻訳装置を傾けるという自然な動作によって、翻訳装置は、翻訳結果のテキストを受け手に提示することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができ、つまり、翻訳装置を介した円滑な対話を阻害することを抑制することができる。
例えば、前記制御方法では、さらに、前記提示方向が、前記翻訳装置から、前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたことを検知すると、前記マイクによる前記音声信号の生成を開始する。
上記態様によれば、翻訳装置は、翻訳装置の表示画面が話し手に向けられるように傾けられることを契機として、話し手による発話の録音を開始する。一般に翻訳装置を用いた対話において、自身の発話内容を翻訳装置に聞き取らせよう(又は、取得させよう)と考える場合、話し手は、翻訳装置に自身の音声が明瞭に聞き取られることを期待して、翻訳装置の表示画面を自身の方へ向けると想定される。すなわち、話し手が翻訳装置に自身の発話を聞き取らせるように翻訳装置を傾けるという自然な動作によって、翻訳装置は、話し手の音声の録音を開始することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができる。
例えば、前記制御方法では、さらに、前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向から第三所定角度だけ遠ざかったことを検知すると、前記マイクによる前記音声信号の生成を終了し、前記音声信号に対する音声認識処理を行うことで前記第一テキストを取得し、取得した前記第一テキストを前記表示画面に表示する。
上記態様によれば、翻訳装置は、翻訳装置の表示画面が話し手から遠い方向に向けられるように傾けられることを契機として、話し手による発話の録音を終了する。一般に翻訳装置を用いた対話において、話し手は、自身の発話を終えようとする場合、録音の開始のときと反対の動作をすれば、開始の反対の概念である終了をすることができると考えると想定される。すなわち、話し手が、録音開始とは反対の概念である録音終了をしようと考えて録音開始の際の翻訳装置の傾け方とは反対方向への傾け方をするという自然な動作によって、翻訳装置は、話し手の音声の録音を終了することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができる。
例えば、前記制御方法では、さらに、前記第一テキストを前記表示画面に表示した後に、前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向へ向けて前記第一所定角度だけ近づいたことを検知すると、新たな音声信号の生成を開始する。
上記態様によれば、翻訳装置は、翻訳装置による音声認識結果が自身の意図と異なる場合に、再度、話し手による発話の録音を開始する。話し手は、一度目の録音の開始の際と同じように翻訳装置を傾けることで、再び録音を開始させる、つまり、録音をやり直す手段を提供することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができる。
例えば、前記翻訳装置は、前記翻訳装置の姿勢と、前記姿勢において音声認識処理をするための言語を示す言語情報とを対応付けた対応情報を記憶しており、前記制御方法では、さらに、前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を用いて前記音声認識処理を行う。
上記態様によれば、翻訳装置は、姿勢との対応付けに基づいて音声認識処理に用いる言語を適切に選定することができる。
例えば、前記制御方法では、さらに、前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を翻訳元言語として前記翻訳処理を行う。
上記態様によれば、翻訳装置は、姿勢との対応付けに基づいて翻訳処理に用いる言語を適切に選定することができる。
例えば、前記制御方法では、さらに、検知される前記翻訳装置の姿勢に応じて画像を前記表示画面に表示させる。
上記態様によれば、翻訳装置は、翻訳装置の姿勢の変化を話し手又は受け手に伝えることができる。これにより、話し手又は受け手は、翻訳装置の状態、つまり、翻訳装置が行っている処理を認識しながら翻訳装置を扱うことができ、意図に反して翻訳装置が動作することを未然に回避できる。
例えば、前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向と、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向または前記第一ユーザに向かう方向として予め定められた方向と、の角度の差分に応じた画像の表示を含む。
上記態様によれば、翻訳装置は、提示方向と、受け手または話し手との角度に基づいたより具体的な処理に基づいて、翻訳装置の状態を話し手又は受け手に伝えることができる。
例えば、前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたこと、または前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたこと、に応じた画像の表示を含む。
上記態様によれば、翻訳装置は、提示方向と、受け手または話し手との角度の変化に基づいたより具体的な処理に基づいて、翻訳装置の状態を話し手又は受け手に伝えることができる。
また、本発明の一態様に係る翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、前記マイクにより第一ユーザの音声を示す音声信号を生成する音声入力制御部と、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面に表示させる表示制御部とを備える。
上記態様によれば、上記翻訳装置の制御方法と同様の効果を奏する。
また、本発明の一態様に係るプログラムは、上記の制御方法をコンピュータに実行させるためのプログラムである。
上記態様によれば、上記翻訳装置の制御方法と同様の効果を奏する。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態)
本実施の形態において、翻訳装置を介した円滑な対話を阻害することを抑制する翻訳装置について説明する。この翻訳装置は、互いに異なる言語を利用する2人の利用者の対話において、対話内容を2人のうちの一方の利用言語から他方の利用言語に翻訳する。
なお、「利用言語」とは、翻訳装置を利用する際に用いる言語である。より具体的には、対話の話し手が翻訳装置に向けて翻訳元言語で発話する際に用いる言語、及び、対話の受け手が翻訳装置から受ける翻訳先言語のことである。利用言語は、原則、利用者の母国語とするが、これに限定されない。また、この翻訳装置は、2人の利用者の間の位置に配置されることが想定される。なお、話し手を第一ユーザともいい、受け手を第二ユーザともいう。また、対話の進行に応じて、話し手及び受け手は入れ替わる。
図1は、本実施の形態における翻訳装置1の構成を示すブロック図である。図2は、本実施の形態に係る対話管理記憶部28に保存される情報の一例を示す説明図である。
図1に示されるように、翻訳装置1は、マイク10と、音声入力制御部12と、音声認識処理部14と、表示制御部16と、表示画面18と、翻訳処理部20と、対話制御部22と、センサ値処理部26と、ジャイロセンサ24と、対話管理記憶部28と、音声合成部30と、音声出力部32と、スピーカ34とを備える。なお、図1において破線の枠で示される制御部40に含まれる音声入力制御部12等は、専用ハードウェアによって実現されてもよいし、コンピュータのプロセッサ(不図示)がメモリ(不図示)等を用いてプログラムを実行することによって、つまりソフトウェアによって実現されてもよい。また、翻訳装置1は、利用者の手によって持ち運び可能な携帯型翻訳装置として実現されてもよく、より具体的には、スマートフォン、タブレット又はパーソナルコンピュータ等により実現され得る。
マイク10は、話し手の音声を収音し、収音した音声を変換した音声信号を出力するマイクロホン装置である。
音声入力制御部12は、マイク10から入力される音声信号の録音を行う。音声入力制御部12は、音声信号の録音開始及び録音終了のタイミングをセンサ値処理部26による制御に基づいて制御する。具体的には、上記タイミングは、録音を行っているか否かと、ジャイロセンサ24が生成するセンサ値があらかじめ設定されたセンサ値の閾値を超えたか否かとによって決定される。なお、録音開始から録音終了までの区間を音声区間ともいう。音声の録音開始及び録音停止のタイミングについては、後で詳しく説明する。
音声認識処理部14は、音声入力制御部12によって得られた音声区間に含まれる音声信号に対する音声認識処理を行い、あらかじめ設定された言語情報と、入力された音声信号とに基づくテキストデータ(以降、単にテキストともいう)を生成する。音声認識処理部14により生成されるテキスト(第一テキストに相当)はプログラムによる処理が可能な文字からなる情報であり、このテキストが音声認識結果として表示画面18により表示される。音声認識処理部14は、公知の音声認識処理技術により実現され得る。
表示制御部16は、受け手に提示する画像の画像データを生成し、生成した画像データに基づいて表示画面18に画像を表示させる処理部である。表示制御部16は、ジャイロセンサ24により検出される翻訳装置1の姿勢の変化を検知すると、翻訳装置1の姿勢の変化の検知までに生成された音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面18に表示させる。後述するジャイロセンサ24が取得する翻訳装置1の姿勢と、発話しようとしている利用者の言語とは、対話管理記憶部28に保存されており、これらの情報を使うことで、表示画面18を視認している利用者を特定できる。これにより、表示画面18が表示する画像を、利用者の利便性を向上させるように切り替えることも可能である。
表示画面18は、画像を表示する表示装置である。表示画面18は、表示制御部16による制御に従って、音声認識処理部14が生成した第一テキスト、及び、翻訳処理部20が生成した翻訳先言語によるテキスト等を表示する。
翻訳処理部20は、入力言語の翻訳方向を制御する対話制御部22から、翻訳対象であるテキストと、翻訳元言語及び翻訳先言語それぞれを示す情報とを受け取り、テキストを指定された翻訳元言語から翻訳先言語へ翻訳し、その翻訳結果として得られるテキストを対話制御部22へ提供する。このテキストは第二テキストに相当する。翻訳処理部20は、公知の翻訳処理技術により実現され得る。
対話制御部22は、話し手と受け手との間で行われる対話に並行して、受け手に翻訳結果を提供するように、音声認識処理部14及び翻訳処理部20などを制御する。対話制御部22は、音声認識処理部14が生成したテキストを音声入力制御部12から取得し、取得したテキストを表示制御部16及び翻訳処理部20に提供する。また、対話制御部22は、翻訳処理部20から翻訳結果のテキストを取得し、表示制御部16及び音声合成部30に提供する。また、対話制御部22は、センサ値処理部26から取得する翻訳装置1の姿勢を示す姿勢情報に基づいて翻訳装置1の姿勢の変化を検出し、音声認識処理部14及び翻訳処理部20などの動作タイミングを制御する。なお、対話制御部22が翻訳装置1の姿勢の変化を検知する際には、表示画面18の法線に平行な方向であって表示画面18が画像を提示する方向である提示方向が、翻訳装置1から受け手に向かう方向として予め定められた方向へ向けて所定角度だけ近づいたことを検知することで、翻訳装置1の姿勢の変化を検知してもよい。なお、翻訳装置1の姿勢の変化の検出に用いる初期提示方向は、翻訳装置1の出荷時等に予め対話管理記憶部28に記憶されていてもよいし、翻訳装置1を用いる翻訳対話の冒頭において対話管理記憶部28に記憶されてもよい。なお、合成音声による翻訳結果の提示が不要である場合、音声合成部30へのテキストの提供は不要である。
ジャイロセンサ24は、角速度を計測するセンサであり、計測により取得したセンサ値をセンサ値処理部26に提供する。
センサ値処理部26は、ジャイロセンサ24が生成したセンサ値を取得し処理する処理部である。センサ値処理部26は、ジャイロセンサ24が生成したセンサ値に基づいて翻訳装置1の姿勢を検出し、検出した姿勢を示す姿勢情報を生成する。センサ値処理部26は、生成した姿勢情報を対話制御部22に提供する。なお、翻訳装置1の姿勢は、表示画面18の法線に平行な方向であって表示画面18が画像を提示する方向である「提示方向」と一対一の関係にある。以降では、翻訳装置1の姿勢を、上記「提示方向」により表現することもある。
対話管理記憶部28は、翻訳装置1を利用した2者の対話に用いられる設定情報について、設定名と設定値とを対応付けて保存する記憶装置である。2者の対話において発話は交互に行われ、かつ利用者ごとに別々の言語が利用されるので、翻訳装置1は、対話を開始する前に翻訳対話に必要ないくつかの項目を決定しておく必要がある。
対話管理記憶部28には、決定しておく必要がある項目を設定情報として保存している(図2参照)。この設定情報は、図2に示されるように、第一言語、第二言語、感度、基準言語、基準提示方向、初期提示方向、音声認識結果、及び、翻訳結果を含む。
第一言語及び第二言語は、対話する2者が利用する互いに異なる2つの言語のそれぞれを示す情報である。
感度は、翻訳装置1が姿勢の変化を検知する感度を示す情報である。
基準言語は、第一言語及び第二言語のうち、現時点後に発話を行う利用者が利用する言語を示す情報である。
基準提示方向は、現時点後に発話を行う利用者に表示画面18を向けるときの提示方向を示す情報である。
初期提示方向は、初期の時点として予め定められる時点における表示画面18の提示方向を示す情報である。上記「初期の時点として予め定められる時点」とは、例えば、話し手による発話前(後述するステップS201に相当)、発話中(後述するステップS301に相当)、及び、音声認識結果の表示中(後述するステップS402に相当)のタイミングである。
音声認識結果は、話し手の発話に対する音声認識処理の結果を示すテキストである。
翻訳結果は、音声認識結果に対する翻訳処理の結果を示すテキストである。
例えば、日本語を使用する利用者と英語を使用する利用者との2者が翻訳装置1を利用しており、話し手が英語の利用者である場合、対話管理記憶部28に保存されている設定情報を図2の(a)に示す。翻訳装置1は、この設定情報を用いて、提示方向が話し手の方向に近づけられているときには日本語による画像の表示を行い、提示方向が受け手の方向に近づけられているときには英語による画像の表示を行う。また、基準言語を英語に設定したときの設定情報が図2の(b)に示す。
音声合成部30は、翻訳処理部20が生成した翻訳先言語によるテキストを取得し、取得したテキストを音声出力部32へ出力するための音声信号へ変換する。
音声出力部32は、スピーカ34へ出力する音声信号を出力する。
スピーカ34は、音声出力部32から入力される音声信号を音声(空気の振動)に変換する音声出力装置である。スピーカ34より発せられた合成音声は、翻訳した結果として利用者に聴取される。
図3は、本実施の形態に係る翻訳装置1の姿勢情報の説明図である。
翻訳装置1の姿勢を示す姿勢情報は、例えば図3に示されるように、翻訳装置1の所定の標準姿勢から、3軸(ヨー軸、ロール軸及びピッチ軸)それぞれの軸まわりにどれだけの角度旋回した姿勢であるかを示す値、つまり、3つの角度である。上記標準姿勢は、どのような姿勢であってもよいが、例えば、話し手と受け手との位置関係に基づいて、図3に示す表示画面18の姿勢としてもよい。
また、提示方向は、上記のとおり、表示画面18の法線に平行な方向であって表示画面18が画像を提示する方向であり、翻訳装置1に対して固定的に設定される方向である。提示方向は、3次元空間における直交する3軸とのなす角である3つの角度により一意に特定される。
以上のように構成された翻訳装置1は、翻訳装置1の姿勢の変化をトリガとして各処理を実行することに特徴を有する。このことについて図4を参照しながら説明する。図4において、説明のため、話し手と受け手とを結ぶ線分の中点を原点Oとし、話し手と受け手とを結ぶ軸をx軸とし、話し手から受け手に向かう向きをx軸プラス方向とする。また、原点Oから話し手及び受け手にとっての上下方向の軸をy軸とし、話し手及び受け手の頭上へ向かう向きをy軸プラス方向とする。なお、上記座標軸の取り方は説明のための一例であり、他の位置及び向きに座標軸を取っても同様の説明が成立する。
なお、翻訳装置1から第一ユーザに向かう方向として予め定められた方向は、x軸マイナス方向に相当し、翻訳装置1から第二ユーザに向かう方向として予め定められた方向は、x軸プラス方向に相当する。
図4の(a)は、翻訳装置1が音声の録音を行う前の姿勢を示している。このとき、表示画面18の提示方向はy軸プラス方向からx軸マイナス方向へ向けて角度θ1だけ傾いた方向である。図4の(a)に示される翻訳装置1の姿勢は、初期提示方向の一例である。
図4の(a)に示される翻訳装置1の姿勢から、提示方向がx軸マイナス方向に近づく方向へ所定角度だけ翻訳装置1が旋回したことを検出すると、翻訳装置1は、音声の録音を開始する。このとき、提示方向は、上記θ1より大きい角度θ2だけ、y軸プラス方向からx軸マイナス方向へ向けて傾いた方向である(図4の(b))。なお、上記のように翻訳装置1が旋回することを、表示画面18が話し手の方を向く、又は、話し手に視認される表示画面18の見た目の面積が増加する、と表現することもできる。なお、角度θ2が取り得る範囲の下限は上記θ1である。角度θ2の上限は特に限定されないが、例えば90度程度とすると、受け手が表示画面18を視認するのに支障がないという利点がある。
図4の(b)に示される翻訳装置1の姿勢から、提示方向がx軸マイナス方向から遠ざかる方向へ所定角度だけ翻訳装置1が旋回したことを検出すると、翻訳装置1は、音声の録音を終了し、音声認識処理の結果得られるテキストを表示画面18に表示する。このとき、表示画面18の提示方向は、上記θ2より小さい角度θ3だけ、y軸プラス方向からx軸マイナス方向へ傾いた方向である(図4の(c))。なお、角度θ3はゼロ度、つまり、表示画面18がx軸と並行になってもよい。なお、上記のように翻訳装置1が旋回することを、提示方向が話し手から遠ざけられる、又は、話し手に視認される表示画面18の見た目の面積が減少する、と表現することもできる。
例えば、話し手が「おはようございます」との発話をした場合、生成されるテキストは、音声信号として入力された「おはようございます」なる音声が、音声認識処理を経て生成された「おはようございます」なるテキストであり、言い換えればプログラムによる処理が可能なように変換されたものである。そして、このテキストに係るテキストが表示画面18に話し手の利用言語で表示される。話し手は、表示画面18に表示された音声認識結果たるテキストを確認し、自身の発話が翻訳装置1により正しく認識されたか否かを判断することができる。
図4の(c)に示される状況から、話し手は、以下(1)及び(2)の2つの行動をとり得る。そして、翻訳装置1は、以下(i)及び(ii)の2つの処理を実行し得る。
(1)話し手は、音声認識処理の結果が、自身の発話した内容に適合しない場合、翻訳装置1に再録音をさせるという行動をとることができる。自身の発話の内容に適合しないまま翻訳を行うと自身の意図と異なる翻訳結果となり不適切であるからである。
具体的には、話し手の発話の内容に適合しない場合には、話し手は、表示画面18を自身に向ける方向に翻訳装置1の姿勢を変化させる(図4の(d))。これにより、音声入力制御部12は、音声認識結果を消去(キャンセル)する処理を行う。これにより、話し手は、自身の意図に反する音声認識結果を用いて翻訳装置1が翻訳処理を行うことを回避し、音声の録音をやり直すことができる。
(2)話し手は、音声の認識結果が、自身の発話した内容と適合する場合、翻訳装置1に翻訳処理を行わせ、翻訳結果を相手に伝えるという行動をとることができる。
具体的には、音声認識結果が話し手の発話の内容に適合する場合には、話し手は、翻訳装置1から受け手に向かう方向に提示方向が近づくように翻訳装置1の姿勢を変化させる(図4の(e))。これにより、翻訳装置1は、音声認識処理部14により生成されたテキストを用いて翻訳処理部20により翻訳処理を行う。
翻訳装置1が実行し得る2つの処理(i)及び(ii)を以下に記す。
(i)図4の(c)に示される翻訳装置1の姿勢から、提示方向がx軸マイナス方向に近づく方向へ所定角度だけ翻訳装置1が旋回したことを検出すると、翻訳装置1は、音声の再録音を開始する。このとき、表示画面18の提示方向は、上記θ3より大きい角度θ4だけ、y軸プラス方向からx軸マイナス方向へ傾いた方向である(図4の(d))。なお、角度θ4が取り得る範囲の下限は上記θ3である。角度θ4の上限は特に限定されないが、例えば角度θ2と同様の理由で90度程度とすることができる。
(ii)図4の(c)に示される翻訳装置1の姿勢から、x軸プラス方向へ向けて所定角度だけ翻訳装置1が旋回し、提示方向が、y軸プラス方向からx軸プラス方向へ向けて角度θ5だけ傾けた方向になったことを検出すると、翻訳装置1は、翻訳処理の結果得られる翻訳後テキストを表示画面18に表示する(図4の(e))。なお、角度θ5の角度範囲は特に限定されないが、例えば、30度〜90度程度であると表示画面18が受け手に視認されやすい利点がある。
このようにして、翻訳装置1は、音声認識処理又は翻訳処理の後など、表示画面18を視認すべき利用者の方向へ表示画面18を向けることを、その次の処理を実行するトリガとする。
例えば、従来の音声区間の判定は、利用者によるボタンの押下操作などをトリガとして行われる。これに対して、音声入力制御部12の上記手法によれば、翻訳装置1の姿勢の変化(図4の(a)から(b)への変化、及び、(b)から(c)への変化)を検出することで音声区間の検出を自然な方法で実現することができる。翻訳装置1の姿勢の変化は、音声の入力時、音声認識結果の確認時、及び翻訳結果の受け手への提示時というに、話し手等が自然に行う動作の流れに沿ったものである。よって、この姿勢の変化によって、円滑な対話を阻害することが抑制される。さらに、ボタンの押下などの操作が不要となることから、翻訳装置1がボタン等の操作インタフェースを備える必要がなくなる。これにより、翻訳装置1のデザイン性の向上、又は、小型化に貢献する。
2者による対話では、2者が交互に発話するので、翻訳装置1へ入力される発話の言語も交互に入れ替わる。後で説明を行うが、現在の話し手が利用する言語の判定は、話し手が発話している時の翻訳装置1の姿勢と、対話管理記憶部28に保存されている「第一言語」、「第二言語」、「基準言語」及び「基準提示方向」の情報から判定される。話し手の利用言語は、音声認識処理部14による音声認識処理の際に音声信号データを正しく認識するためにも参照される。また、翻訳処理部20が、翻訳元言語と翻訳先言語とを決定するために利用される。
なお、上記において、翻訳装置1の姿勢が変化したと判定するか否かの角度の閾値は、設定情報により調整され得る。
図5は、本実施の形態に係る基準言語の設定を促す画像50の一例を示す説明図である。具体的には、図5に示される画像50は、対話管理記憶部28に保存される設定情報の設定を行うための画像の一例である。
画像50は、対話する2者が利用する言語である「第一言語」及び「第二言語」のそれぞれを設定するボタン52及び54、並びに、翻訳装置1の姿勢の変化を検知する感度を示す「感度」を設定するボタン56を含む。
ボタン52は、第一言語として選定される言語を示す文字列(図5では「日本語」)が付されており、ボタン52に対するユーザのタッチ操作により他の言語に切り替え可能である。
ボタン54は、第二言語として選定される言語を示す文字列(図5では「英語」)が付されており、ボタン54に対するユーザのタッチ操作により他の言語に切り替え可能である。
ボタン56は、姿勢の感度を設定するためのボタンである。姿勢の感度は、翻訳装置1の姿勢の変化を検知する感度を示す情報であり、例えば、「高」、「中」及び「低」の3段階のいずれかに切り替え可能である。姿勢の感度は、ジャイロセンサ24が生成するセンサ値の変化量についての閾値に反映される。例えば、姿勢の感度を「高」とする場合、上記閾値が小さい値に設定される。すると、翻訳装置1の姿勢が比較的小さい変化をしただけで、その姿勢の変化量が閾値を超え、姿勢が変化したことが検知される。
なお、翻訳装置1は、例えば、日本において外国人観光客を相手として接客を行う業態などで活用されることが多いと想定される。そのため、利用者の簡便性を考えて、第一言語は、よく利用される「日本語」などを規定値にしておいてもよい。その場合、利用者が翻訳装置1を使用するにあたって、実質的に選択する項目は第二言語だけになる。
図6は、本実施の形態に係る基準言語の設定を促す画像60の一例を示す説明図である。具体的には、画像60は、最初の発話に用いる言語の設定を促すための画像の一例である。
画像60は、発話言語を選択するためのボタン62を含む。
ボタン62は、第一言語及び第二言語のどちらを最初の発話に用いる言語とするかを切り替えるボタンである。最初の発話に用いる言語は、第一言語を示す文字列である「日本語」、及び、第二言語を示す文字列である「英語」のいずれかである。ボタン62は、上記の言語のどちらを最初の発話に用いる言語とするかについての利用者による選択を受け付ける。
機器を利用した翻訳対話において、最初の発話に用いる言語を、その発話に係る音声等から決定する必要がある。この決定を自動的に行うことが難しい場合、最初の発話に用いる言語について利用者による選択を要する。図6に示される画像60によって選択された言語は、対話管理記憶部28に保存されている設定情報の「基準言語」の項目に設定される。最初の発話時の翻訳装置1の提示方向がジャイロセンサ24により取得され、この提示方向が対話管理記憶部28の設定情報の「基準提示方向」として記憶される。これにより、翻訳装置1の提示方向が基準提示方向から所定角度範囲内である場合には、翻訳装置1の利用者である話し手は基準言語を利用言語とすることが判定でき、そうでない場合は第一言語と第二言語とのうちの基準言語ではない方の言語が発話に利用される言語であると判断することができる。このようにして、以降の発話言語の判別が翻訳装置1の提示方向によって決定することができる。
以上のように構成された翻訳装置1について、その動作を以下に説明する。
図7は、本実施の形態に係る翻訳装置1のメイン処理を示すフロー図である。
ステップS101において、対話制御部22は、翻訳装置1を用いた翻訳対話処理を進めるに必要な設定が欠落しているか否かを判定する。ここで、翻訳対話処理に必要な設定とは、対話管理記憶部28に保存される設定項目のうちの「第一言語」、「第二言語」、「感度」及び「基準言語」である。これらの情報のうち1つでも欠落がある場合(ステップS101でyes)、ステップS102に進み、それ以外の場合(ステップS101でno)、ステップS104に進む。なお、基準提示方向は、後で話し手が基準言語で示される言語で発話を行った際に提示方向を取得し、取得した提示方向を新たな基準提示方向とする。これにより基準言語を利用する話し手に対応する提示方向が分かる。また、反対に第一言語と第二言語とのうち基準言語ではない方の言語は、基準提示方向ではない方向に提示方向が向いている時に使われる言語として対応付けが行われる。
ステップS102において、対話制御部22は、翻訳対話処理を進めるのに必要な設定をする処理を行う。具体的には、対話制御部22は、表示制御部16を介して表示画面18に、翻訳対話処理を進めるのに必要な設定を促すための画像(例えば図5の画像50)を表示する。翻訳装置1が、日本で外国人観光客を相手に接客を行う業態などで活用される場合、利用者の簡便性を考え、第一言語の規定値を日本語にしておくなどしてもよい。この場合、利用者が実質的に選択する項目は「第二言語」だけである。
姿勢の感度は、図4の(b)、(c)、(d)及び(e)で示すように話し手の操作によって翻訳装置1の姿勢が変わる前の提示方向と、変わった後の提示方向との差がどの程度あれば翻訳装置1の状態を遷移させるかを、3段階(「高」、「中」及び「低」)で表したものである。
ステップS103において、対話制御部22は、基準言語の設定を行う。基準言語はステップS102で設定した第一言語及び第二言語のどちらかであり、対話管理記憶部28に保存される。ここで、基準言語は、これから発話を行う利用者の言語が選択されることが想定され、実際にはこの設定の後に発話する利用者が使う言語が設定される。また、ステップS103において、基準言語の設定が完了すると、対話管理記憶部28に保存されているデータは、基準言語に第一言語及び第二言語のいずれか一方が設定され、基準提示方向は未設定状態になる(図2の(b)参照)。このような状態である場合、次の発話が行われた際に取得された提示方向が基準提示方向として設定される。この処理は、図8のステップS205で詳説する。
ステップS104において、翻訳装置1は、録音開始処理を行う。録音開始処理では、録音を開始するタイミングを適切に決定し、決定したタイミングに基づいて録音を開始する。詳細は後述する。
ステップS105において、翻訳装置1は、録音終了処理を行う。録音終了処理では、ステップS104で開始された録音処理を適切に停止するタイミングを決定し、決定したタイミングに基づいて録音を停止する。詳細は後述する。
ステップS106において、翻訳装置1は、音声認識結果の確認処理を行う。音声認識結果の確認処理では、対話制御部22は、音声認識処理部14による音声認識の結果を表示画面18に表示する。話し手は、自身の発話内容と翻訳装置1が音声認識した内容が適合しているか否か確認することができる。ここで、翻訳装置1の音声認識処理結果が適合していない場合、話し手は音声認識処理結果をキャンセルして再度発話を行うことができる。詳細は後述する。
ステップS107において、翻訳処理部20は、話し手が表示画面18に表示された確認済みの音声認識結果であるテキストと、発話に用いた言語と、出力となる翻訳結果の言語とを入力として翻訳処理部20で翻訳を行い、その結果として翻訳テキストを生成する。ここで、発話に利用した言語は、前述のように対話管理記憶部28に設定されている基準言語と、基準提示方向と、発話時の翻訳装置1の姿勢(又は提示方向)から判別できる。従って、翻訳結果として得られる翻訳テキストの言語は、第一言語と第二言語とのうち、上記発話に利用した言語ではない方の言語である。生成された翻訳テキストは、対話管理記憶部28に、翻訳結果として保存される。
ステップS108において、対話制御部22は、翻訳処理部20による翻訳処理の結果を表示画面18に表示する。表示制御部16は、第一言語及び第二言語のうち、発話に利用した言語ではない方の言語を用いて受け手のための表示用画像を生成し、翻訳結果を表示画面18に出力する。翻訳結果は、ステップS107で生成し対話管理記憶部28に翻訳結果として保存された情報を利用する。
ステップS109において、音声合成部30は、ステップS107で生成し対話管理記憶部28に翻訳結果として保存された翻訳結果と、翻訳に利用した言語とを用いて合成音声信号データを生成する。生成した合成音声信号データは、受け手に聞こえるように音声出力部32及びスピーカ34より出力される。
図8は、本実施の形態に係る翻訳装置1の録音開始処理を示すフロー図であり、図7におけるステップS104の処理を詳細に示すものである。
ステップS201において、センサ値処理部26は、初期提示方向を取得する。具体的には、センサ値処理部26は、ジャイロセンサ24が生成したセンサ値を取得し、翻訳装置1の提示方向を算出する。本ステップにおいて、例えば、翻訳装置1は図4の(a)に示される姿勢になっている。そして、対話制御部22は、センサ値処理部26が算出した提示方向を、対話管理記憶部28に「初期提示方向」として保存する。
ステップS202において、センサ値処理部26は、現時点の提示方向を取得する。具体的には、センサ値処理部26は、話し手の操作によって刻々と変化するセンサ値を順次取得し、取得したセンサ値を用いて翻訳装置1の提示方向を算出する。このようにして、対話制御部22は、話し手の操作によって刻々と変化する提示方向を取得する。
ステップS203において、対話制御部22は、ステップS201で取得した初期提示方向と、ステップS202で取得した提示方向との差が閾値を超えたか否かを判定する。上記閾値は、対話管理記憶部28に保存されている「姿勢の感度」の設定に基づいて定められる。これによって、翻訳装置1の表示画面18が話し手へ向く方向へ傾けられたか否かを判定する(図4の(b))。なお、上記閾値は、第二所定角度に相当する。
上記ステップS203において、提示方向の差が閾値を超えた場合(ステップS203でyes)には、ステップS204へ進み、それ以外の場合(ステップS203でno)にはステップS202を再度実行する。
ステップS204において、対話制御部22は、対話管理記憶部28の基準言語と、基準提示方向の設定内容を調べる。具体的には、対話制御部22は、基準言語のみが設定されており、かつ、基準提示方向の設定が欠落している(つまり未設定である)とき、すなわち、基準言語を発話の言語として使用する者の方向が未設定である場合(ステップS204でyes)には、ステップS205へ進み、それ以外の場合には、ステップS206へ進む。
ステップS205は、上記ステップS204で説明したように、基準言語のみ判別済みで、基準提示方向が未設定の場合に実行される。このとき翻訳装置1の姿勢は、例えば、図4の(b)で示すような、話し手の側に表示画面18が向いている状態である。この時の翻訳装置1の姿勢をジャイロセンサ24から取得し、対話管理記憶部28に基準提示方向として記憶する。これにより、以降においても翻訳装置1の提示方向が基準提示方向と同じ方向を向いている時は、基準言語が話し手の利用する言語とし、翻訳装置1の提示方向がそれ以外の方向を向いている場合には、第一言語と第二言語とのうち基準言語ではない方の言語が、話し手の利用する言語であるとする。
ステップS206において、音声入力制御部12は、音声の録音の開始処理を実行し、マイク10から入力される話し手の音声録音を開始する。
図9は、本実施の形態に係る翻訳装置1における録音終了処理を示すフロー図であり、図7におけるステップS105の処理を詳細に示すものである。
ステップS301において、センサ値処理部26は、初期提示方向を取得する。具体的には、センサ値処理部26は、ジャイロセンサ24が生成したセンサ値を取得し、翻訳装置1の提示方向を算出する。本ステップにおいて、例えば、翻訳装置1は図4の(b)に示される姿勢になっている。対話制御部22は、対話管理記憶部28の設定情報の「初期提示方向」として設定する。なお、上記設定の時点で既に「初期提示方向」が設定されていた場合には上書きしてもよい。
ステップS302において、センサ値処理部26は、現時点の提示方向を取得する。具体的には、センサ値処理部26は、話し手の操作によって刻々と変化するセンサ値を順次取得し、取得したセンサ値を用いて翻訳装置1の提示方向を算出する。このようにして、対話制御部22は、話し手の操作によって刻々と変化する提示方向を取得する。
ステップS303において、対話制御部22は、ステップS301で取得した初期提示方向と、ステップS302で取得した提示方向との差が閾値を超えたか否かを判定する。上記閾値は、対話管理記憶部28に保存されている感度の設定に基づいて定められる。これによって、翻訳装置1の表示画面18が話し手に向く方向から遠ざけられたか否かを判定する(図4の(c))。上記差が閾値を超えた場合(ステップS303でyes)、ステップS304へ進み、それ以外の場合(ステップS303でno)、ステップS302を再度実行する。なお、上記閾値は、第三所定角度に相当する。
ステップS304において、音声入力制御部12は、音声の録音の停止処理を実行し、マイク10から入力される話し手の音声の録音を終了する。このようにして音声入力制御部12は、ステップS206(図8)の録音開始処理時からステップS304の録音終了処理時までの期間に得られた音声信号の音声信号データを生成する。
ステップS305において、音声認識処理部14は、ステップS304で生成した音声信号データと、発話時の翻訳装置1の提示方向から判別される言語から、音声認識処理を行うことで音声信号データをテキストに変換し、対話管理記憶部28に音声認識結果として保存する。
図10は、本実施の形態に係る翻訳装置1における音声認識結果確認処理のフロー図であり、図7におけるステップS106の処理を詳細に示すものである。
ステップS401において、表示制御部16は、ステップS305(図9)で生成されて対話管理記憶部28に音声認識結果として保存されたテキストを取得し、表示画面18に出力するための表示用データを生成する。生成された表示用データが表示画面18に出力されると、表示画面18は、表示用データに基づいて、上記テキストを表示する。表示画面18に表示されたテキストは、図4の(c)に示される姿勢において話し手が使用する言語で表示されるので、話し手は自身の意図したとおりに音声認識処理がなされたかを表示画面18に表示されたテキストで確認することができる。後続のステップでは、話し手が翻訳装置1をどの向きに傾けるかに応じて、音声認識の結果をキャンセルし再度録音を行うか、又は、音声認識の結果を確定し、受け手へその翻訳結果を提示するか、のいずれかの処理を行う。
ステップS402において、センサ値処理部26は、初期提示方向を取得する。具体的には、センサ値処理部26は、ジャイロセンサ24が生成したセンサ値を取得し、翻訳装置1の提示方向を算出する。本ステップにおいて、例えば、翻訳装置1は図4の(c)に示される姿勢になっている。そして、対話制御部22は、センサ値処理部26が算出した提示方向を、対話管理記憶部28に「初期提示方向」として保存する。なお、上記設定の時点で既に初期提示方向が設定されていた場合には上書きしてもよい。
ステップS403において、センサ値処理部26は、現時点の提示方向を取得する。具体的には、センサ値処理部26は、話し手の操作によって刻々と変化するセンサ値を順次取得し、取得したセンサ値を用いて翻訳装置1の提示方向を算出する。このようにして、対話制御部22は、話し手の操作によって刻々と変化する提示方向を取得する。
ステップS404において、対話制御部22は、ステップS402で取得した初期提示方向と、ステップS403で取得した提示方向との差が閾値を超えたか否かを判定する。上記差が閾値を超えた場合(ステップS404でyes)、ステップS405へ進み、それ以外の場合(ステップS404でno)、ステップS403を再度実行する。なお、上記閾値は、第一所定角度に相当する。
ステップS405において、対話制御部22は、提示方向が受け手に向かう向きに傾けられたか、又は、提示方向が話し手に向かう向きに傾けられたか、を判定する。これによって、対話制御部22は、提示方向が図4の(d)のように話し手側に傾けられた場合と、図4の(e)のように受け手側に傾けられた場合とで処理を分岐させる。
図4の(d)のように話し手側に傾けられるのは、例えば、表示画面18上に表示された音声認識結果を見た話し手が、その音声認識結果が自身の意図と異なると判断した場合である。
上記ステップS405において、提示方向が受け手に向かう向きに傾けられた場合(ステップS405で「受け手側」)には、ステップS401で表示画面18に表示させた音声認識結果を確定させることとして、本フロー図に示される一連の処理を終了する。一方、上記ステップS405において、提示方向が話し手に向かう向きに傾けられた場合(ステップS405で「話し手側」)には、ステップS401で表示画面18に表示させた音声認識結果をキャンセルすることとして、本フロー図に示される一連の処理を終了する。
このようにすることで、翻訳装置1は2者間の対話における翻訳処理の音声認識の精度を向上させることができる。また翻訳装置1の利用者は違和感のない操作によるやりとりで、異なる言語間の対話を簡易に行うことができる。
なお、本実施の形態によれば2者間の対話における翻訳装置1の動作を想定して説明したが、1人で使用することも可能である。
なお、音声認識処理部14は、図1のように翻訳装置1の内部にある必要はなく、クラウドサーバなど通信経路を経た外部のサーバ上に配置されていてもよい。
なお、翻訳処理部20は、図1のように翻訳装置1の内部にある必要はなく、クラウドサーバなど通信経路を経た外部のサーバ等にあってもよい。
なお、表示画面18は、図1のように翻訳装置1の内部にある必要はなく、利用者が確認可能な場所にあればよく、例えば翻訳装置1と接続された外部ディスプレイなどで代替してもよい。
なお、本実施の形態では、翻訳結果を合成音声で出力する例を説明したが、合成音声での確認は必須ではない。翻訳結果を合成音声で出力することが必要ではない場合には、音声合成部30、音声出力部32及びスピーカ34は必要ない。
なお、翻訳装置1は、上記で説明した表示画面18に加えて、翻訳装置1の翻訳に関する動作の状態を示す表示画面18Aを備えていてもよい。表示画面18Aについて具体例を用いて説明する。
図11は、本実施の形態に係る表示画面18Aの説明図である。図12は、本実施の形態に係る表示画面18Aの表示内容の説明図である。図11及び図12に示される表示画面18Aは、表示領域18B、18C及び18Dを含む。
表示領域18B、18C及び18Dは、ジャイロセンサ24により検知される翻訳装置1の姿勢、つまり、翻訳装置1の翻訳に関する動作の状態に対応して設けられている。すなわち、表示領域18Bは、翻訳装置1が翻訳結果を表示している状態(図4の(e)の状態)に対応している。表示領域18Cは、翻訳装置1が音声認識結果を表示している状態(図4の(c)の状態)に対応している。表示領域18Dは、翻訳装置1が録音している状態(図4の(b)から(c)までの間の状態)に対応している。
そして、表示領域18B、18C及び18Dのいずれかには、インジケータ(指示子又は表示子である画像)18Eが表示されている。表示領域18B、18C及び18Dのうち、インジケータ18Eが表示されている表示領域に対応する状態が、翻訳装置1の現在の状態を示している。このように、翻訳装置1の姿勢に応じてインジケータ18E(画像に相当)が表示画面18Aに表示される。
例えば、翻訳装置1が話し手の音声を録音している状態では、表示領域18Dにインジケータ18Eが表示されている(図12の(a))。これにより、話し手は、翻訳装置1が確かに自身の音声を録音していることを認識しながら、翻訳装置1に音声の録音をさせることができる。仮に話し手の意思に反して手ぶれなどにより翻訳装置1の姿勢が変化して、録音状態が終了した場合には、話し手はそのことを認識し、適切な行動を取ることができる利点もある。
また、翻訳装置1が翻訳結果を表示している状態では、表示領域18Bにインジケータ18Eが表示されている(図12の(b))。これにより、受け手は、翻訳装置1が翻訳結果を表示していることを認識することができる。
なお、各表示領域におけるインジケータ18Eの表示位置は、任意としてもよいが、翻訳装置1の姿勢に応じて変化してもよい。例えば、図12の(a)の場合、提示方向がx軸マイナス方向に近づくほど、インジケータ18Eの表示位置が、表示領域18Cから離れた位置に変化してもよい。また、図12の(b)の場合、提示方向がx軸プラス方向に近づくほど、インジケータ18Eの表示位置が、表示領域18Cから離れた位置に変化してもよい。
すなわち、インジケータ18Eの表示は、提示方向と、受け手に向かう方向として予め定められた方向または話し手に向かう方向として予め定められた方向と、の角度の差分に応じたインジケータ18Eの表示を含んでもよい。また、インジケータ18Eの表示は、提示方向が、(a)受け手に向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたこと、または、(b)話し手に向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたこと、に応じた画像の表示を含んでもよい。これにより、翻訳装置1の姿勢の変化をインジケータ18Eの表示位置によって表現することができる。
また、表示領域18B、18C及び18Dのうち、翻訳装置1の現在の状態に対応した表示領域の色を変化させるようにしてもよい。話し手及び受け手に、より直観的に現在の翻訳装置1の状態を認識させることができる利点がある。
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の翻訳装置などを実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、翻訳装置の制御方法であって、前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、前記制御方法では、前記マイクにより第一ユーザの音声を示す音声信号を生成し、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる制御方法を実行させる。
以上、一つまたは複数の態様に係る翻訳装置などについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
本開示は、翻訳装置を介した円滑な対話を阻害することを抑制する翻訳装置に利用可能である。
1 翻訳装置
10 マイク
12 音声入力制御部
14 音声認識処理部
16 表示制御部
18、18A 表示画面
18B、18C、18D 表示領域
18E インジケータ
20 翻訳処理部
22 対話制御部
24 ジャイロセンサ
26 センサ値処理部
28 対話管理記憶部
30 音声合成部
32 音声出力部
34 スピーカ
40 制御部
50、60 画像
52、54、56、62 ボタン

Claims (12)

  1. 翻訳装置の制御方法であって、
    前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、
    前記制御方法では、
    前記マイクにより第一ユーザの音声を示す音声信号を生成し、
    前記センサにより検出される前記翻訳装置の姿勢の変化を検知し、
    前記翻訳装置の姿勢の変化の検知までに生成された前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる
    制御方法。
  2. 前記翻訳装置の姿勢の変化の検知は、
    前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、前記翻訳装置から、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたことを検知することを含む
    請求項1に記載の制御方法。
  3. 前記制御方法では、さらに、
    前記提示方向が、前記翻訳装置から、前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたことを検知すると、前記マイクによる前記音声信号の生成を開始する
    請求項2に記載の制御方法。
  4. 前記制御方法では、さらに、
    前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向から第三所定角度だけ遠ざかったことを検知すると、前記マイクによる前記音声信号の生成を終了し、
    前記音声信号に対する音声認識処理を行うことで前記第一テキストを取得し、
    取得した前記第一テキストを前記表示画面に表示させる
    請求項2又は3に記載の制御方法。
  5. 前記制御方法では、さらに、
    前記第一テキストを前記表示画面に表示した後に、前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向へ向けて前記第一所定角度だけ近づいたことを検知すると、新たな音声信号の生成を開始する
    請求項4に記載の制御方法。
  6. 前記翻訳装置は、
    前記翻訳装置の姿勢と、前記姿勢において音声認識処理をするための言語を示す言語情報とを対応付けた対応情報を記憶しており、
    前記制御方法では、さらに、
    前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を用いて前記音声認識処理を行う
    請求項1〜5のいずれか1項に記載の制御方法。
  7. 前記制御方法では、さらに、
    前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を翻訳元言語として前記翻訳処理を行う
    請求項6に記載の制御方法。
  8. 検知される前記翻訳装置の姿勢に応じて画像を前記表示画面に表示させる
    請求項1〜7のいずれか1項に記載の制御方法。
  9. 前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向と、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向または前記第一ユーザに向かう方向として予め定められた方向と、の角度の差分に応じた画像の表示を含む
    請求項8に記載の制御方法。
  10. 前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、
    前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたこと、
    または前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたこと、
    に応じた画像の表示を含む
    請求項8に記載の制御方法。
  11. 翻訳装置であって、
    マイクと、
    前記翻訳装置の姿勢を検出するセンサと、
    前記マイクにより第一ユーザの音声を示す音声信号を生成する音声入力制御部と、
    前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面に表示させる表示制御部とを備える
    翻訳装置。
  12. 請求項1〜10のいずれか1項に記載の制御方法をコンピュータに実行させるためのプログラム。
JP2017132069A 2016-11-11 2017-07-05 翻訳装置の制御方法、翻訳装置、および、プログラム Active JP6876936B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020187004003A KR20190082162A (ko) 2016-11-11 2017-08-07 번역 장치의 제어 방법, 번역 장치, 및, 프로그램
PCT/JP2017/028512 WO2018087969A1 (ja) 2016-11-11 2017-08-07 翻訳装置の制御方法、翻訳装置、および、プログラム
CN201780003302.6A CN108307659A (zh) 2016-11-11 2017-08-07 翻译装置的控制方法、翻译装置以及程序
EP17857667.4A EP3540565A4 (en) 2016-11-11 2017-08-07 CONTROL METHOD FOR TRANSLATION DEVICE, TRANSLATION DEVICE AND PROGRAM
US15/939,390 US20180217985A1 (en) 2016-11-11 2018-03-29 Control method of translation device, translation device, and non-transitory computer-readable recording medium storing a program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016220987 2016-11-11
JP2016220987 2016-11-11

Publications (2)

Publication Number Publication Date
JP2018085091A true JP2018085091A (ja) 2018-05-31
JP6876936B2 JP6876936B2 (ja) 2021-05-26

Family

ID=62237635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017132069A Active JP6876936B2 (ja) 2016-11-11 2017-07-05 翻訳装置の制御方法、翻訳装置、および、プログラム

Country Status (5)

Country Link
US (1) US20180217985A1 (ja)
EP (1) EP3540565A4 (ja)
JP (1) JP6876936B2 (ja)
KR (1) KR20190082162A (ja)
CN (1) CN108307659A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020109654A (ja) * 2019-01-03 2020-07-16 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド モバイル端末における音声認識機能のウェイクアップ方法及び装置
WO2020189410A1 (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置
JP2020529032A (ja) * 2018-06-12 2020-10-01 深▲せん▼市合言信息科技有限公司Langogo Technology Co.,Ltd. 音声認識翻訳方法及び翻訳装置
JP7432177B2 (ja) 2019-03-15 2024-02-16 優 坂西 音声認識装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110914828B (zh) * 2018-09-19 2023-07-04 深圳市合言信息科技有限公司 语音翻译方法及翻译装置
CN109344411A (zh) * 2018-09-19 2019-02-15 深圳市合言信息科技有限公司 一种自动侦听式同声传译的翻译方法
CN110188363A (zh) * 2019-04-26 2019-08-30 北京搜狗科技发展有限公司 一种信息切换方法、装置和翻译设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278972A (ja) * 1995-04-06 1996-10-22 Sony Corp 音声入力翻訳装置
JP2000098990A (ja) * 1998-09-21 2000-04-07 Sharp Corp 画像表示装置
JP2005141759A (ja) * 2001-01-24 2005-06-02 Matsushita Electric Ind Co Ltd 音声変換装置、音声変換方法、プログラム、及び記録媒体
JP2007080097A (ja) * 2005-09-15 2007-03-29 Toshiba Corp 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP2007264473A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2010033414A (ja) * 2008-07-30 2010-02-12 Casio Hitachi Mobile Communications Co Ltd 携帯端末装置及びプログラム
JP2011076349A (ja) * 2009-09-30 2011-04-14 Nec Corp 携帯情報端末および表示制御方法
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2013114433A (ja) * 2011-11-28 2013-06-10 Toshiba Corp 電子機器及び機械翻訳方法
JP2015005250A (ja) * 2013-06-24 2015-01-08 レノボ・シンガポール・プライベート・リミテッド 携帯型情報処理装置、そのポインタ移動方法、およびコンピュータが実行可能なプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100030549A1 (en) * 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8121586B2 (en) * 2008-09-16 2012-02-21 Yellowpages.Com Llc Systems and methods for voice based search
JP2011150657A (ja) 2010-01-25 2011-08-04 Fujitsu Toshiba Mobile Communications Ltd 翻訳音声再生装置およびその再生方法
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US20120310622A1 (en) * 2011-06-02 2012-12-06 Ortsbo, Inc. Inter-language Communication Devices and Methods
US9355094B2 (en) * 2013-08-14 2016-05-31 Google Inc. Motion responsive user interface for realtime language translation
KR20150025750A (ko) * 2013-08-30 2015-03-11 삼성전자주식회사 사용자 단말 장치 및 그 양방향 번역 방법
KR20160054869A (ko) * 2014-11-07 2016-05-17 한국전자통신연구원 사용자 제스처 기반의 번역 서비스 제공 방법
KR102308645B1 (ko) * 2014-12-29 2021-10-05 삼성전자주식회사 사용자 단말 장치 및 그의 제어 방법
US9836457B2 (en) * 2015-05-25 2017-12-05 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages
US10013418B2 (en) * 2015-10-23 2018-07-03 Panasonic Intellectual Property Management Co., Ltd. Translation device and translation system
US9990921B2 (en) * 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
US20190095430A1 (en) * 2017-09-25 2019-03-28 Google Inc. Speech translation device and associated method

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278972A (ja) * 1995-04-06 1996-10-22 Sony Corp 音声入力翻訳装置
JP2000098990A (ja) * 1998-09-21 2000-04-07 Sharp Corp 画像表示装置
JP2005141759A (ja) * 2001-01-24 2005-06-02 Matsushita Electric Ind Co Ltd 音声変換装置、音声変換方法、プログラム、及び記録媒体
JP2007080097A (ja) * 2005-09-15 2007-03-29 Toshiba Corp 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP2007264473A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2010033414A (ja) * 2008-07-30 2010-02-12 Casio Hitachi Mobile Communications Co Ltd 携帯端末装置及びプログラム
JP2011076349A (ja) * 2009-09-30 2011-04-14 Nec Corp 携帯情報端末および表示制御方法
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2013114433A (ja) * 2011-11-28 2013-06-10 Toshiba Corp 電子機器及び機械翻訳方法
JP2015005250A (ja) * 2013-06-24 2015-01-08 レノボ・シンガポール・プライベート・リミテッド 携帯型情報処理装置、そのポインタ移動方法、およびコンピュータが実行可能なプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020529032A (ja) * 2018-06-12 2020-10-01 深▲せん▼市合言信息科技有限公司Langogo Technology Co.,Ltd. 音声認識翻訳方法及び翻訳装置
JP2020109654A (ja) * 2019-01-03 2020-07-16 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド モバイル端末における音声認識機能のウェイクアップ方法及び装置
US11265414B2 (en) 2019-01-03 2022-03-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for waking up voice recognition function in mobile terminal, and computer readable storage medium
WO2020189410A1 (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置
JP7432177B2 (ja) 2019-03-15 2024-02-16 優 坂西 音声認識装置

Also Published As

Publication number Publication date
JP6876936B2 (ja) 2021-05-26
KR20190082162A (ko) 2019-07-09
EP3540565A1 (en) 2019-09-18
US20180217985A1 (en) 2018-08-02
CN108307659A (zh) 2018-07-20
EP3540565A4 (en) 2019-10-23

Similar Documents

Publication Publication Date Title
JP6876936B2 (ja) 翻訳装置の制御方法、翻訳装置、および、プログラム
JP7334120B2 (ja) タッチ式操作システムのハンズフリーナビゲーション
US10777193B2 (en) System and device for selecting speech recognition model
US10542369B2 (en) Sound control apparatus, program, and control method
ES2958183T3 (es) Procedimiento de control de aparatos electrónicos basado en el reconocimiento de voz y de movimiento, y aparato electrónico que aplica el mismo
USRE44418E1 (en) Techniques for disambiguating speech input using multimodal interfaces
JP6178198B2 (ja) 音声翻訳システム、方法およびプログラム
JP4667138B2 (ja) 音声認識方法及び音声認識装置
US20070203699A1 (en) Speech recognizer control system, speech recognizer control method, and speech recognizer control program
JP3702867B2 (ja) 音声制御装置
WO2016151956A1 (ja) 情報処理システムおよび情報処理方法
WO2016152200A1 (ja) 情報処理システムおよび情報処理方法
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
WO2018087969A1 (ja) 翻訳装置の制御方法、翻訳装置、および、プログラム
JP6591167B2 (ja) 電子機器
KR20140117771A (ko) 움직임 센서 기반의 휴대용 자동 통역 장치 및 그의 제어방법
WO2017199486A1 (ja) 情報処理装置
JP7223561B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
JPWO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP2003316384A (ja) リアルタイム文字修正装置、およびその方法、ならびにそのプログラム、その記憶媒体
US20050120046A1 (en) User interaction and operation-parameter determination system and operation-parameter determination method
JP2013072904A (ja) 音声認識方法および音声認識装置
JP2009251019A (ja) 音声認識装置
JP2019020475A (ja) 音声認識装置、音声認識方法
JPWO2019058453A1 (ja) 音声対話制御装置および音声対話制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210407

R151 Written notification of patent or utility model registration

Ref document number: 6876936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151