JP6569926B2 - 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム - Google Patents

音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム Download PDF

Info

Publication number
JP6569926B2
JP6569926B2 JP2018534287A JP2018534287A JP6569926B2 JP 6569926 B2 JP6569926 B2 JP 6569926B2 JP 2018534287 A JP2018534287 A JP 2018534287A JP 2018534287 A JP2018534287 A JP 2018534287A JP 6569926 B2 JP6569926 B2 JP 6569926B2
Authority
JP
Japan
Prior art keywords
voice
control unit
translation
section
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018534287A
Other languages
English (en)
Other versions
JPWO2018034059A1 (ja
Inventor
石川 智一
智一 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2018034059A1 publication Critical patent/JPWO2018034059A1/ja
Application granted granted Critical
Publication of JP6569926B2 publication Critical patent/JP6569926B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、音声を取得し、音声認識を行う音声区間を決定する音声入力装置及び音声入力方法に関する。
特許文献1は、音声認識のための音声区間を検出する音声区間検出装置を開示する。この音声区間検出装置は、音声信号を取得し、検出範囲を指定するスイッチ操作に応じて音声区間を抽出して出力する音声区間検出装置であって、記憶手段と、制御手段とを備える。記憶手段は、入力音声信号を記憶する。制御手段は、スイッチ操作で指定される検出範囲よりも広い範囲で記憶手段に記憶されている入力音声信号から一つだけ音声区間を抽出し、出力する。これにより、スイッチが押されるより早いタイミングで発声が行われた場合でも、語頭を欠くことなく音声区間を検出できる。
特許文献2は、音声認識装置を開示する。この音声認識装置は、出力手段と、接触手段と、音声区間判定手段と、音声認識手段とを備える。出力手段は、話者の音声を含む音響を入力し、音響信号を出力する。接触手段は、話者が発声するときに話者に接触する。音声区間判定手段は、音響信号に含まれる音声信号および接触手段の接触状態に基づいて話者が音声を発している音声区間を判定する。音声認識手段は、音声区間の音声を認識する。音声区間判定手段は、話者が接触手段に接触した時点の近傍において音声信号のパワーがパワー閾値を越えた時点から所定の時間遡った時点を音声区間の開始時点とする。そして、音声区間判定手段は、話者が接触手段の接触を停止した時点の近傍において音声信号のパワーがパワー閾値を下回る時点から所定の時間経過した時点を音声区間の終了時点とする。これにより、話者の肉体的および精神的な負担を軽減した簡単な操作で音声認識を行うことができる。
特開平8−185196号公報 特開2004−294659号公報
本開示は、音声認識の精度を向上することが可能な音声入力装置及び音声入力方法を提供する。
本開示における音声入力装置は、入力部と、記憶部と、操作部と、制御部とを備える。入力部は、音声を取得し、音声に応じた音声データを生成する。記憶部は、入力部からの音声データを記憶する。操作部は、ユーザにより操作される。制御部は、記憶部に記憶された音声データにおいて、操作部に対するユーザ操作に基づき音声認識を行う音声区間を決定する。そして、制御部は、ユーザによる操作部に対する所定の操作を検知したときに、決定した音声区間を調整する。
また、本開示における音声入力方法は、入力される音声に応じて生成された音声データを記憶部に記憶するステップと、記憶部に記憶された音声データにおいて、操作部に対するユーザ操作に基づき音声認識を行う音声区間を決定するステップとを含む。そして、音声区間を決定するステップは、ユーザによる操作部に対する所定の操作を検知したときに、決定した音声区間を調整することを含む。
本開示における音声入力装置及び音声入力方法は、音声認識の精度を向上することができる。
図1は、実施の形態1にかかる翻訳装置の外観を示す図である。 図2は、実施の形態1にかかる翻訳装置の電気的な構成を示すブロック図である。 図3Aは、発話の終了タイミングに対して発話アイコンの2回目のタッチタイミング(音声区間の終了時点)が適切であるときのこれらの関係を示す図である。 図3Bは、発話の終了タイミングに対して発話アイコンの2回目のタッチタイミング(音声区間の終了時点)が早いときのこれらの関係を示す図である。 図3Cは、発話の終了タイミングに対して発話アイコンの2回目のタッチタイミング(音声区間の終了時点)が遅いときのこれらの関係を示す図である。 図4は、実施の形態1にかかる翻訳装置の制御部による翻訳動作を示すフローチャートである。 図5は、実施の形態1にかかる翻訳装置の音声認識装置(音声入力装置)の制御部による音声認識動作を示すフローチャートである。 図6は、実施の形態1にかかる翻訳装置の音声認識装置(音声入力装置)の制御部による音声区間の終了時点の決定動作を示すフローチャートである。 図7Aは、ホストの指がタッチパネルにおけるディスプレイの発話アイコンに触れる様子を示す図である。 図7Bは、ホストの指が右にスライドする様子、及び、音声区間の終了時点をキャンセルすることをユーザに確定させる確定アイコンを示す図である。 図7Cは、確定アイコンにホストの指が触れる様子を示す図である。 図8Aは、ホストの指がタッチパネルにおけるディスプレイの発話アイコンに触れる様子を示す図である。 図8Bは、ホストの指が左にスライドする様子、及び、音声区間の終了時点を前に遡らせる時間をユーザに選択させる選択アイコンを示す図である。 図8Cは、選択アイコンにホストの指が触れる様子を示す図である。 図9は、実施の形態1の変形例にかかる翻訳装置の音声認識装置(音声入力装置)の制御部による音声区間の終了時点の決定動作を示すフローチャートである。 図10Aは、ホストの指がタッチパネルにおけるディスプレイの発話アイコンに触れる様子を示す図である。 図10Bは、ホストの指が左にスライドする様子を示す図である。 図10Cは、ホストの指が右にスライドする様子を示す図である。 図10Dは、発話内容およびディスプレイの表示領域に表示される音声認識結果の一例を示す図である。 図11は、音声認識動作における音声認識結果の逐次表示のための音声認識データの取得動作を示すフローチャートである。 図12は、逐次表示のための音声認識データの取得動作を説明するための図である。 図13は、逐次表示のための音声認識データの一例を示す図である。 図14は、実施の形態2にかかる翻訳装置の音声認識装置(音声入力装置)の制御部による音声認識動作を示すフローチャートである。 図15は、実施の形態2にかかる翻訳装置の音声認識装置(音声入力装置)の制御部による音声区間の終了時点の決定動作を示すフローチャートである。 図16Aは、音声区間の終了時点の決定動作を説明するための図である。 図16Bは、音声区間の終了時点の決定動作を説明するための図である。 図16Cは、音声区間の終了時点の決定動作を説明するための図である。 図17は、実施の形態3にかかる翻訳装置の音声認識装置(音声入力装置)の制御部による音声区間の終了時点の決定動作を示すフローチャートである。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
(実施の形態1)
以下、図1〜図8Cを用いて、実施の形態1を説明する。以下では、本開示にかかる音声入力装置及び音声入力方法を用いた翻訳装置を説明する。
[1−1.構成]
[1−1−1.外観構成]
図1は、実施の形態1にかかる翻訳装置の外観を示す図である。図1に示す翻訳装置1は、例えばタブレットタイプの翻訳装置であり、言語が異なる2人のユーザの会話を翻訳する翻訳装置である。本実施の形態では、翻訳装置1が、英語を話すゲスト(旅行者)と、ゲストを案内し、日本語を話すホスト(案内者)とが翻訳装置1を介して対面で行う会話を翻訳することを想定して説明する。翻訳装置1は、マイク10と、スピーカ12と、ディスプレイ14と、タッチパネル16とを備える。
マイク10及びスピーカ12は、例えば、翻訳装置1の側面の開口近傍に配置されている。ディスプレイ14及びタッチパネル16は、翻訳装置1の主面に配置されている。タッチパネル16は、ディスプレイ14に重畳して配置されている。ディスプレイ14の長手方向の一方側(例えば、ホスト側)の領域には、発話アイコン14h、14hg及び表示領域15hが配置される。ディスプレイ14の長手方向の他方側(例えば、ゲスト側)の領域には、発話アイコン14g及び表示領域15gが配置される。
発話アイコン14hは、ホストが発話を行うときに(すなわち、日本語の発話を入力するときに)、ホスト本人がホストの発話の開始時点及び終了時点を指定するための操作アイコンである。本実施の形態では、タッチ操作とは、例えば、ホストやゲストの指がタッチパネル16における発話アイコン14h、14g、14hgのそれぞれに対応する領域に接触する操作を意味する。またスライド操作とは、例えば、ホストやゲストの指がこの領域に接触した後にスライドする操作を意味する。発話アイコン14gは、ゲストが発話を行うときに(すなわち、英語の発話を入力するときに)、ゲスト本人がゲストの発話の開始時点及び終了時点を指定するための操作アイコンである。また、発話アイコン14hgは、ゲストが発話を行うときに(すなわち、英語の発話を入力するときに)、ゲスト本人に代わりホストがゲストの発話の開始時点及び終了時点を指定するための操作アイコンである。表示領域15h、15gは、音声認識結果、翻訳結果及び逆翻訳結果を文字列として表示するための表示領域である。
[1−1−2.電気的な構成]
図2は、実施の形態1にかかる翻訳装置1の電気的な構成を示すブロック図である。図1に示す翻訳装置1は、インターネットのようなネットワーク2を介して音声認識サーバ3、翻訳サーバ4、及び、音声合成サーバ5とデータ通信を行う。
音声認識サーバ3は、翻訳装置1からネットワーク2を介して受信したデジタル音声データを音声認識して文字列の音声認識データを生成するサーバである。
翻訳サーバ4は、翻訳装置1からネットワーク2を介して受信した音声認識データを翻訳して文字列の翻訳データを生成するサーバである。
音声合成サーバ5は、翻訳装置1からネットワーク2を介して受信した文字列の翻訳データを音声合成して音声信号を生成するサーバである。
翻訳装置1は、マイク10と、スピーカ12と、ディスプレイ14と、タッチパネル16と、通信部18と、記憶部20と、制御部22とを備える。マイク10と、ディスプレイ14と、タッチパネル16と、通信部18と、記憶部20と、制御部22とが、本実施の形態にかかる音声入力装置の一例である音声認識装置100を構成する。また、スピーカ12と、ディスプレイ14と、通信部18と、記憶部20と、制御部22とが、本実施の形態にかかる翻訳出力部200を構成する。
音声認識装置100は、マイク10に入力される音声に応じた音声データにおいて、音声認識を行う音声区間を決定する。また、音声認識装置100は、決定した音声区間に対応する音声データを通信部18を介して音声認識サーバ3に送信し、音声認識サーバ3で音声認識された音声認識結果をディスプレイ14に出力する。
翻訳出力部200は、音声認識装置100で得た音声認識結果を通信部18を介して翻訳サーバ4に送信し、翻訳サーバ4で翻訳された翻訳結果をスピーカ12及びディスプレイ14のうちの少なくとも一方に出力する。以下、音声認識装置100及び翻訳出力部200における各構成要素の詳細を説明する。
マイク10は、音声をデジタル音声データに変換する装置である。具体的には、マイク10は、音声を音声信号(アナログ電気信号)に変換する。マイク10は、AD変換器を備え、音声信号をさらにデジタル音声データに変換する。マイク10は、入力部の一例である。
通信部18は、Bluetooth(登録商標)、Wi−Fi、3G、LTE、IEEE802.11等の通信方式に従って、ネットワーク2を介して音声認識サーバ3、翻訳サーバ4、音声合成サーバ5とデータ通信を行う通信モジュールである。
記憶部20は、フラッシュメモリ、強誘電体メモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)などで構成される記憶素子である。記憶部20は、マイク10からのデジタル音声データ及び翻訳データを記憶する。また、記憶部20は、制御部22のための各種プログラムを格納している。
制御部22は、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等で構成され、記憶部20に格納された各種プログラムを実行することにより、翻訳装置1の全体を制御する。制御部22は、タッチパネル16におけるディスプレイ14の発話アイコン14h、14g、14hgに対するホスト又はゲストのタッチ操作に応じて、音声認識を行う音声区間を決定する。その際、制御部22は、スライド操作を検知したときに、音声区間の終了時点を調整する。音声区間の決定の詳細については、後述する。
なお、制御部22の機能は、ハードウェアとソフトウェアの協同により実現したが、所定の機能を実現するように専用に設計されたハードウェア回路のみで実現してもよい。例えば、制御部22は、CPU、MPUのみならず、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等で構成することができる。
スピーカ12は、電気信号を音声に変換する装置である。スピーカ12は、制御部22からの音声信号(電気信号)に基づいた音声を出力する。スピーカ12は、出力部の一例である。
ディスプレイ14は、画像を表示する装置である。ディスプレイ14は、制御部22からの音声認識データ、翻訳データ、及び、逆翻訳データが示す文字画像を表示する。ディスプレイ14は、音声認識データ、翻訳データ、及び、逆翻訳データをホスト及びゲストに対して表示する表示部の一例である。また、ディスプレイ14は上述した発話アイコン14h、14g、14hgを表示する。
タッチパネル16は、発話スイッチ等の各種操作部として機能する。発話スイッチは、ディスプレイ14に表示される発話アイコン14h、14g、14hgと連動して、音声区間の開始時点及び終了時点をホスト又はゲストが操作するためのスイッチである。タッチパネル16はユーザが操作する操作部の一例である。
[1−2.動作]
[1−2−1.動作の概要]
以上のように構成された翻訳装置1の動作の概要を説明する。翻訳装置1は、マイク10に入力される音声に応じたデジタル音声データを、ネットワーク2を介して音声認識サーバ3に送信する。このとき、音声認識サーバ3は、受信した音声データを音声認識して文字列の音声認識データを生成する。翻訳装置1は、音声認識の結果である文字列の音声認識データを、音声認識サーバ3からネットワーク2を介して受信し、ディスプレイ14に音声認識の結果を文字列として表示する。
また、翻訳装置1は、文字列の音声認識データを、ネットワーク2を介して翻訳サーバ4に送信する。このとき、翻訳サーバ4は、受信した音声認識データを翻訳して文字列の翻訳データを生成するとともに、翻訳データを翻訳前の言語に逆翻訳して文字列の逆翻訳データを生成する。翻訳装置1は、翻訳結果である文字列の翻訳データ及び逆翻訳データを、翻訳サーバ4からネットワーク2を介して受信し、ディスプレイ14に音声認識の結果を文字列として表示する。
さらに、翻訳装置1は、翻訳結果である文字列の翻訳データを、ネットワーク2を介して音声合成サーバ5に送信する。このとき、音声合成サーバ5は、翻訳装置1からネットワーク2を介して受信する文字列の翻訳データを音声合成して音声信号を生成する。翻訳装置1は、音声合成の結果である音声信号を、音声合成サーバ5からネットワーク2を介して受信し、スピーカ12から音声信号に応じた音声を出力させる。
この翻訳装置1において、ホストの発話を翻訳する場合、翻訳装置1は、まずタッチパネル16における発話アイコン14hに対するホストによるタッチ操作に基づいて、音声認識を行う音声区間を決定する。具体的には、翻訳装置1は、ホストが発話アイコン14hを1回目にタッチしたときに音声区間の開始時点を決定し、ホストが発話アイコン14hを2回目にタッチしたときに音声区間の終了時点を決定する。翻訳装置1は、決定した開始時点から終了時点までの音声区間においてマイク10に入力されるホストの音声を音声認識して翻訳する。また、翻訳装置1は、翻訳結果を逆翻訳する。翻訳装置1は、翻訳結果を音声としてスピーカ12に出力する。また、翻訳装置1は、翻訳結果を文字列としてディスプレイ14のゲスト側の表示領域15gに表示するとともに、認識結果及び逆翻訳結果を文字列としてディスプレイ14のホスト側の表示領域15hに表示する。
ゲストの発話を翻訳する場合、翻訳装置1は、まずタッチパネル16における発話アイコン14gに対するゲストによるタッチ操作に基づいて音声区間を決定する。具体的には、翻訳装置1は、ゲストが発話アイコン14gを1回目にタッチしたときに音声区間の開始時点を決定し、ゲストが発話アイコン14gを2回目にタッチしたときに音声区間の終了時点を決定する。翻訳装置1は、決定した開始時点から終了時点までの音声区間においてマイク10に入力されるゲストの音声を音声認識して翻訳する。また、翻訳装置1は、翻訳結果を逆翻訳する。翻訳装置1は、翻訳結果を音声としてスピーカ12に出力する。また、翻訳装置1は、翻訳結果を文字列としてディスプレイ14のホスト側の表示領域15hに表示するとともに、認識結果及び逆翻訳結果を文字列としてディスプレイ14のゲスト側の表示領域15gに表示する。
また、翻訳装置1は、タッチパネル16における発話アイコン14hgに対するホストによるタッチ操作に基づいて、ゲストの発話に対する音声区間を決定することができる。具体的には、翻訳装置1は、発話アイコン14hgをホストが1回目にタッチしたときに音声区間の開始時点を決定し、発話アイコン14hgをホストが2回目にタッチしたときに音声区間の終了時点を決定する。翻訳装置1は、決定した開始時点から終了時点までの音声区間においてマイク10に入力されるゲストの音声を音声認識して翻訳する。また、翻訳装置1は、翻訳結果を逆翻訳する。翻訳装置1は、翻訳結果を音声としてスピーカ12に出力する。また、翻訳装置1は、翻訳結果を文字列としてディスプレイ14のホスト側の表示領域15hに表示するとともに、認識結果及び逆翻訳結果を文字列としてディスプレイ14のゲスト側の表示領域15gに表示する。
本実施の形態の翻訳装置1のように、発話を入力する際に、発話アイコンへのタッチ操作により発話の入力期間を指定する場合、以下の課題が考えられる。図3A〜図3Cは、発話タイミングと発話アイコンのタッチタイミング(音声区間の開始時点と終了時点)との関係を示す図である。図3Aは、発話の終了タイミングに対して発話アイコンの2回目のタッチタイミング(音声区間の終了時点)が適切であるときのこれらの関係を示す図である。図3Bは、発話の終了タイミングに対して発話アイコンの2回目のタッチタイミング(音声区間の終了時点)が早いときのこれらの関係を示す図である。図3Cは、発話の終了タイミングに対して発話アイコンの2回目のタッチタイミング(音声区間の終了時点)が遅いときのこれらの関係を示す図である。
ホスト又はゲストが発話を行うときに、ホスト本人又はゲスト本人が発話アイコン14h、14gを操作する場合、図3Aに示すように、発話タイミングに対して発話アイコンの1回目及び2回目のタッチタイミング(すなわち、音声区間の開始時点及び終了時点)が略一致すれば問題ない。
しかし、ゲストが発話を行うときに、ゲスト本人に代わりホストが発話アイコン14hgを操作して音声区間を決定するという要望が生じる場合、図3B及び図3Cに示すように、例えば発話の終了タイミングに対して発話アイコンの2回目のタッチタイミング(すなわち、音声区間の終了時点)が適切でない場合がある。例えば、図3Bに示すように、ホストが、ゲストの発話が終了したと思い、発話アイコンをタッチしたところ、ゲストの発話が続いてしまうことがある。このとき、発話の終了タイミングに対して発話アイコンの2回目のタッチタイミング(音声区間の終了時点)が早くなってしまう。この場合、音声認識の精度が低下し、その結果翻訳の精度が低下することがある。そのため、発話アイコンの2回目のタッチ操作(音声区間の終了時点の決定)をキャンセルしたいという要望が生じる。また、図3Cに示すように、ホストが、ゲストの発話がまだ終了していないと思っていたところ、ゲストの発話が終了してしまっていることがある。このとき、発話の終了タイミングに対して発話アイコンの2回目のタッチタイミング(すなわち、音声区間の終了時点)が遅くなってしまう。この場合、音声認識の精度が低下し、その結果翻訳の精度が低下することがある。そのため、発話アイコンの2回目のタッチタイミング(音声区間の終了時点)を遡らせたいという要望が生じる。
本実施の形態では、このような課題を解決するものであり、音声区間の終了時点をリアルタイムで調整し、音声認識の精度を向上するための構成を説明する。
[1−2−2.動作の詳細]
以上のように構成された翻訳装置1の動作の詳細を、図4〜図8Cを用いて以下に説明する。以下では、ホストが発話する日本語の音声をゲストの言語である英語に翻訳する際に、ホスト本人が翻訳装置1のディスプレイ14に表示された発話アイコン14hを操作する一例について説明する。
[1−2−2−1.翻訳動作]
図4は、実施の形態1にかかる翻訳装置1の制御部22による翻訳動作を示すフローチャートである。制御部22は、図1に示すように発話アイコン14h、14hg、14gをディスプレイ14に表示している。タッチパネル16におけるディスプレイ14の発話アイコン14hに対してホストによりタッチ操作が行われると、制御部22は、図4に示すように、ホストの音声を認識して文字列の音声認識データを生成する音声認識を行う(S1)。音声認識動作(音声入力動作)の詳細は後述する。
次に、制御部22は、音声認識結果の音声認識データを通信部18及びネットワーク2を介して翻訳サーバ4に送信する(S2)。このとき、翻訳サーバ4は、受信した音声認識データを翻訳して文字列の翻訳データを生成する。具体的には、翻訳サーバ4は、日本語−英語の翻訳辞書を参照して、音声認識データに対応した翻訳データを生成する。また、翻訳サーバ4は、翻訳データを翻訳前の言語(日本語)に逆翻訳して文字列の逆翻訳データを生成する。具体的には、翻訳サーバ4は、英語−日本語の翻訳辞書を参照して、翻訳データに対応した逆翻訳データを生成する。
次に、制御部22は、翻訳サーバ4からネットワーク2及び通信部18を介して、翻訳データ及び逆翻訳データを受信する(S3)。次に、制御部22は、受信した翻訳データを通信部18及びネットワーク2を介して音声合成サーバ5に送信する(S4)。このとき、音声合成サーバ5は、受信した翻訳データの音声合成を行って音声信号を生成する。具体的には、音声合成サーバ5は、英語の音声合成の参照テーブルを参照して、文字列の翻訳データを音声信号に変換する。
次に、制御部22は、音声合成サーバ5からネットワーク2及び通信部18を介して、音声信号を受信する(S5)。次に、制御部22は、ステップS3で受信した翻訳データを表示するための文字画像を生成し、この文字画像をディスプレイ14のゲスト側の表示領域15gに表示する(S6)。また、制御部22は、ステップS3で受信した逆翻訳データを表示するための文字画像を生成し、この文字画像をディスプレイ14のホスト側の表示領域15hに表示する(S6)。さらに、制御部22は、ステップS5で受信した音声信号に応じた音声をスピーカ12から出力させる(S7)。
以上のようにして、ホストの発話が翻訳され、翻訳結果が音声及び文字情報でゲストに提示される。
[1−2−2−2.音声認識動作(音声入力動作)]
次に、上述した図4におけるステップS1の音声認識動作(本実施の形態の音声入力動作)の詳細を、図5を参照して説明する。図5は、実施の形態1にかかる翻訳装置1の音声認識装置(音声入力装置)100の制御部22による音声認識動作(音声入力動作)を示すフローチャートである。
図5に示すように、制御部22は、タッチパネル16におけるディスプレイ14の発話アイコン14hをホストが1回目にタッチしたことを検知すると(S10)、1回目のタッチ検知時点を、音声認識を行う音声区間の開始時点として決定する(S20)。このとき、制御部22は、マイク10を有効にして、マイク10から出力されるデジタル音声データを記憶部20に記憶する。すなわち、制御部22は録音を開始する。
次に、制御部22は、タッチパネル16におけるディスプレイ14の発話アイコン14hをホストが2回目にタッチしたことを検知すると(S30)、2回目のタッチ検知時点を音声区間の終了時点として決定する(S40)。このとき、制御部22は、マイク10から出力されるデジタル音声データを記憶部20に記憶する。すなわち、制御部22は録音を停止せずに継続する。音声区間の終了時点の決定動作(S40)の詳細は後述する。なお、制御部22は、2回目のタッチ検知時点から所定期間(数秒程度)だけ録音を継続してから、録音を停止してもよい。また、制御部22は、後述するように、音声区間の終了時点の調整が完了するまで録音を継続してから、録音を停止してもよい。
次に、制御部22は、決定した開始時点から終了時点までの音声区間に対応する音声データを記憶部20から読み出し、通信部18及びネットワーク2を介して音声認識サーバ3に送信する(S50)。このとき、音声認識サーバ3は、受信した音声データの音声認識を行って文字列の音声認識データを生成する。具体的には、音声認識サーバ3は、日本語の音声認識の参照テーブルを参照して、デジタル音声データを文字列の音声認識データに変換する。
次に、制御部22は、音声認識サーバ3からネットワーク2及び通信部18を介して、音声認識データを音声認識結果として受信する(S60)。その後、制御部22は、音声認識データを表示するための文字画像を生成し、この文字画像をディスプレイ14のホスト側の表示領域15hに表示する(S70)。
[1−2−2−3.音声区間の終了時点の決定動作]
次に、上述した図5におけるステップS40の音声区間の終了時点の決定動作について、図6〜図8Cを参照して説明する。
まず、図7A〜図7C及び図8A〜図8Cを用いて、音声区間の終了時点の決定及び変更のためのユーザ操作を説明する。図7A〜図7Cは、音声区間の終了時点を決定するためのホストによる2回目のタッチ操作の一例を示す図である。図8A〜図8Cは、音声区間の終了時点を変更するためのホストによる2回目のタッチ操作の一例を示す図である。ホストは、音声入力の開始後、図7Aに示すように指で発話アイコン14hに触れるタッチ操作を行うことにより、その時点を音声区間の終了時点として一旦決定する。その後、ホストは、図7Bに示すように指を右にスライドするスライド操作を行うことにより、一旦決定された音声区間の終了時点をキャンセルすることができる。また、ホストは、音声入力の開始後、図8Aに示すように指で発話アイコン14hに触れることにより、その時点を音声区間の終了時点として一旦決定する。その後、ホストは、図8Bに示すように指を左にスライドするスライド操作を行うことにより、一旦決定された音声区間の終了時点を時間的に前へシフトすることができる。
図6は、実施の形態1にかかる翻訳装置1の音声認識装置(音声入力装置)100の制御部22による音声区間の終了時点の決定動作を示すフローチャートである。
図6に示すように、タッチパネル16におけるディスプレイ14の発話アイコン14hがホストにより2回目にタッチされると、制御部22は、タッチされた時刻及び位置を記憶部20に記憶する(S101)(図7A及び図8A)。次に、制御部22は、ホストの指がタッチされた位置から右にスライドしたか否かを判断する(S102)。ホストの指が右にスライドした場合、制御部22は、図7Bに示すように、ホストによる2回目のタッチをキャンセルすることをホストに確定させるための確定アイコン14Aを発話アイコン14hに隣接してディスプレイ14に表示する(S103)。次に、制御部22は、タッチパネル16における確定アイコン14A上でホストの指がタッチパネルから離れたか否かを判断する(S104)。図7Cに示すように、タッチパネル16における確定アイコン14A上でホストの指が離れた場合、制御部22は、図5におけるステップS30に戻り、上記したステップS30以降の処理を繰り返す。ステップS104で確定アイコン14A以外の場所でホストが指を離した場合、制御部22は、ユーザがキャンセル操作を確定させなかったと判断する。この場合、制御部22は、後述するステップS109においてホストが指を離したと判定された場合と同じ扱いとし、ステップS110に移行する。
このように、発話の終了タイミングに対して発話アイコン14hの2回目のタッチタイミング(音声区間の終了時点)が早かったとき、ホストはタッチしたまま離さずに右スライドを行うことにより、2回目のタッチ操作(すなわち音声区間の終了時点の決定操作)をキャンセルすることができる。よって、音声区間の終了時点をリアルタイムで調整し、音声認識の精度を向上することができる。
一方、ステップS102において、ホストの指が右にスライドしていない場合、次に、制御部22は、ホストの指が左にスライドしたか否かを判断する(S105)。ホストの指が左にスライドした場合、制御部22は、図8Bに示すように、記憶したホストによる2回目のタッチの時刻を前へシフトするための選択アイコン14B、14C、14Dを発話アイコン14hに隣接してディスプレイ14に表示する(S106)。次に、制御部22は、選択アイコン14B、14C、14D上でホストの指が離れたか否かを判断する(S107)。図8Cに示すように、例えば選択アイコン14C上でホストの指が離れた場合、制御部22は、選択された選択アイコン14Cが示すシフト時間2秒を、記憶した2回目のタッチの時刻から差し引いた時刻を、音声区間の終了時点として決定する(S108)。その後、本処理を終了する。ステップS107で選択アイコン14B、14C、14D以外の場所でホストが指を離した場合、制御部22は、ユーザがシフト操作を確定させなかったと判断する。この場合、制御部22は、後述するステップS109においてホストが指を離したと判定された場合と同じ扱いとし、ステップS110に移行する。
このように、発話の終了タイミングに対して発話アイコン14hの2回目のタッチタイミング(音声区間の終了時点)が遅かったとき、ホストは指をタッチしたまま左スライドを行うことにより、2回目のタッチタイミング(すなわち音声区間の終了時点)を遡ることができる。このように、音声区間の終了時点をリアルタイムで調整し、音声認識の精度を向上することができる。
ステップS105において、ホストの指が左にスライドしていない場合、制御部22は、ホストの指がタッチパネル16から離れたか否かを判断する(S109)。ホストの指が離れていない場合、制御部22は、上述したステップS101からステップS109の動作を繰り返す。一方、ホストの指が離れた場合、制御部22は、記憶した2回目のタッチの時刻を、音声区間の終了時点として決定する(S110)。その後、本処理を終了する。なお、ステップS103、S106においてアイコンを表示する際に、ユーザの指がアイコン上にあるか否かでアイコンの表示を変えてもよい。表示を変えることで、指を離した場合に、ユーザは、表示が変わったアイコンの上で指を離した(そのアイコンを選択した)ことを認識することができるようになる。
本実施の形態では、ホストが発話する日本語の音声をゲストの言語である英語に翻訳する際に、ホスト本人がタッチパネル16における発話アイコン14hをタッチ操作した場合の動作の一例について説明した。しかし、本開示は、例えば、ゲストが発話する英語の音声をホストの言語である日本語に翻訳する際に、ゲスト本人に代わりホストがタッチパネル16における発話アイコン14hgを操作するような場面でより効果を奏する。例えば、図3Bに示すように、ホストが、ゲストの発話が終了したと思い、発話アイコン14hgをタッチしたところ、発話が続いてしまい、発話の終了タイミングに対して発話アイコン14hgの2回目のタッチタイミング(音声区間の終了時点)が早くなってしまうようなことがある。このような場面で、ホストは、発話アイコン14hgの2回目のタッチ操作(音声区間の終了時点の決定)をキャンセルすることができる。また、図3Cに示すように、ホストが、ゲストの発話がまだ終了していないと思っていたところ発話が終了しており、発話の終了タイミングに対して発話アイコン14hgの2回目のタッチタイミング(すなわち、音声区間の終了時点)が遅くなってしまうようなことがある。このような場面で、ホストは、発話アイコン14hgの2回目のタッチタイミング(音声区間の終了時点)を遡らせることができる。
[1−3.効果等]
以上のように、本実施の形態において、音声認識装置(音声入力装置)100は、マイク10と、記憶部20と、タッチパネル16と、制御部22とを備える。マイク10は、音声を取得し、音声に応じた音声データを生成する。記憶部20は、マイク10からの音声データを記憶する。タッチパネル16は、ユーザにより操作される。制御部22は、記憶部20に記憶された音声データにおいて、タッチパネル16に対するユーザ操作に基づき音声認識を行う音声区間を決定する。そして、制御部22は、ユーザによるタッチパネル16に対するスライド操作(所定の操作の一例)を検知したときに、決定した音声区間を調整する。
また、記憶部20により記憶される音声データの区間は、制御部22により決定される音声区間よりも長い区間である。
また、制御部22は、タッチパネル16に対するタッチ操作に基づき音声区間の終了時点を決定し、スライド操作を検知したときに、終了時点を変更する。
これにより、発話の終了タイミングに対して発話アイコン14hの2回目のタッチタイミング(音声区間の終了時点)が早かったとき、ユーザは例えば右スライド操作(所定方向と反対方向へのスライド操作)を行うことにより、2回目のタッチ操作(すなわち音声区間の終了時点の決定操作)をキャンセルすることができる。また、発話の終了タイミングに対して発話アイコン14hの2回目のタッチタイミング(音声区間の終了時点)が遅かったとき、ユーザは例えば左スライド操作(所定方向へのスライド操作)を行うことにより、2回目のタッチタイミング(すなわち音声区間の終了時点)を時間的に2回目のタッチ操作の時刻よりも前へシフトさせることができる。そのため、音声区間の終了時点をリアルタイムで修正し、音声認識の精度を向上することができる。
(実施の形態1の変形例)
実施の形態1にかかる翻訳装置1は、ユーザによる右スライド操作を検知したときに、音声区間の終了時点をキャンセルすることをユーザに確定させるための確定アイコン14Aを表示した。また、実施の形態1にかかる翻訳装置1は、ユーザによる左スライド操作を検知したときに、音声区間の終了時点を時間的に前へシフトさせる時間をユーザに選択させるための選択アイコン14B、14C、14Dを表示した。実施の形態1の変形例にかかる翻訳装置1は、ユーザによる右スライド操作を検知したときに、確定アイコン14Aを表示することなく、ユーザによる2回目のタッチ操作をキャンセルする。また、実施の形態1の変形例にかかる翻訳装置1は、ユーザによる左スライド操作を検知したときに、選択アイコン14B、14C、14Dを表示することなく、所定時間だけホストによる2回目のタッチ時刻を時間的に前へシフトさせる。
図9は、図5におけるステップS40の翻訳装置1の音声認識装置(音声入力装置)100の制御部22による音声区間の終了時点の決定動作の別の例を示すフローチャートである。
図9に示すように、ステップS102において、ホストの指が右にスライドした場合、制御部22は、確定アイコン14Aを表示せずに、図5におけるステップS30に戻り、上記したステップS30以降の処理を繰り返す。
また、ステップS105において、ホストの指が左にスライドした場合、制御部22は、選択アイコン14B、14C、14Dを表示せずに、所定時間をホストより2回目にタッチされた時刻から差し引いた時刻を、音声区間の終了時点として決定する(S108A)。その後、本処理を終了する。このような方法においても音声区間の終了時点を変更することができる。
(実施の形態2)
実施の形態1にかかる翻訳装置1は、音声区間の終了時点の調整完了後に、最終の音声認識結果を表示した。実施の形態2にかかる翻訳装置1は、音声区間の終了時点を調整する際に、スライド操作に応じた音声認識結果をリアルタイムで表示する。
図10A〜図10Dは、実施の形態2にかかる翻訳装置1の音声認識装置(音声入力装置)100の制御部22による音声区間の終了時点の決定動作における表示の一例、及び、ホストによる2回目のタッチ操作の一例を示す図である。図10Aは、タッチ操作において、ホストの指がタッチパネル16におけるディスプレイ14の発話アイコン14hにタッチされた様子を示す。図10Bは、その後ホストの指が左にスライドされた様子を示す。図10Cは、さらにその後ホストの指が右にスライドされた様子を示す。図10Dは、発話内容30と図10A〜図10Cにおいて、ディスプレイ14の表示領域15hに表示される音声認識結果の一例を示す。
例えば、ホストが発話内容30を発話する際に、発話内容30の途中の時点31aで2回目のタッチ操作を行った場合(図10A参照)、図10Dに示すようにディスプレイ14の表示領域15hにはその時点に対応する音声認識結果31bが表示される。このときホストが左スライド操作を行うと(図10B参照)、図10Dに示すように表示領域15hには一つ前の時点32aに対応した音声認識結果32bが表示される。その後、ホストが右スライド操作を行うと(図10C参照)、図10Dに示すように表示領域15hの表示は一つ先の時点33aに対応した音声認識結果33bに戻る。さらにホストが右スライド操作を行うと、一つ先の時点34aに対応した音声認識結果34bが表示される。このように、実施の形態2の翻訳装置1によれば、ホストは音声認識結果をリアルタイムに確認しながら、音声区間の終了時点を調整することができる。
実施の形態2にかかる翻訳装置1の構成は、図1及び図2を参照して説明した実施の形態1のものと基本的に同様であるが、翻訳装置1の音声認識装置(音声入力装置)100の制御部22の機能、動作が前述のものと異なる。以下、図11〜16を用いて、実施の形態2にかかる翻訳装置1の音声認識装置(音声入力装置)100の動作を説明する。
(音声認識データの取得)
図10A〜図10Dを用いて説明した音声認識動作における逐次表示のための音声認識データの取得動作を説明する。図11は、音声認識動作における音声認識結果の逐次表示のための音声認識データの取得動作を示すフローチャートである。図12は、逐次表示のための音声認識データの取得動作を説明するための図である。図13は、逐次表示のための音声認識データの一例を示す図である。
制御部22は、タッチパネル16におけるディスプレイ14の発話アイコン14hをホストが1回目にタッチしたことを検知すると(S81)、1回目のタッチ検知時点を音声区間の開始時点として決定する(S82)。このとき、制御部22は、マイク10を有効にして、マイク10から出力されるデジタル音声データを記憶部20に記憶する。すなわち、制御部22は、録音を開始する。
このとき、制御部22は、タイマーを0にセットする(S83)。次に、制御部22は、タイマーが所定時間t1(例えば500ms)に達したか否かを判定し(S84)、タイマーが所定時間t1に達するまで録音を継続する。タイマーが所定時間t1に達した場合、制御部22は、図12に示すように、録音開始から現時点までの音声データVi(i=0、1、2・・・)を記憶部20から読み出し、通信部18及びネットワーク2を介して音声認識サーバ3に送信する(S85)。このとき、音声認識サーバ3は、受信する音声データViを音声認識して音声認識データを生成する。
次に、制御部22は、音声認識サーバ3からネットワーク2及び通信部18を介して音声認識データRiを受信し、記憶部20に記憶する(S86)。このとき、制御部22は、受信した音声認識データRiにデータ番号ri(i=0、1、2・・・)を付与して、図13に示すように例えば参照テーブルとして音声認識データを記憶部20に記憶する。次に、制御部22は、翻訳アプリの終了命令があるか否かを判定する(S87)。翻訳アプリの終了命令は、ホストが翻訳アプリを終了するときに生成される命令である。終了命令がない場合には、上記したステップS81〜S85の動作を繰り返す。一方、終了命令がある場合には、録音を終了すると共に、マイクを無効にして本処理を終了する。
このようにして、制御部22は、録音開始から現時点までに記憶部20に録音された音声データV0、V1、V2・・・Vnを所定時間t1ごとに逐次音声認識して(図12参照)、音声認識データR0、R1、R2・・・Rnを記憶部20に記憶する(図13参照)。
(音声認識動作)
次に、本実施の形態2における音声認識動作(図4に示すフローチャートにおけるステップS1の動作)について説明する。特に本実施の形態では、記憶部20に記憶した逐次音声認識結果の音声認識データR0、R1、R2・・・Rnを用いた音声認識動作を説明する。図14は、実施の形態2にかかる翻訳装置1の音声認識装置(音声入力装置)100の制御部22による音声認識動作を示すフローチャートである。図14に示す処理は、図11に示す処理と並列に動作する。
まず、制御部22は、ホストによる1回目のタッチ操作に基づき、音声区間の開始時点を決定する(S10、S20)。次に、制御部22は、ホストによる2回目のタッチの検知を行う(S30)。
ホストによる2回目のタッチを検知すると、制御部22は、2回目のタッチ検知時点を音声区間の終了時点として決定する(S40A)。音声区間の終了時点の決定動作の詳細は後述する。
次に、制御部22は、現在表示している音声認識データを音声認識結果として確定する(S70A)。
(音声区間の終了時点の決定動作)
次に、上述した図14におけるステップS40Aの音声区間の終了時点の決定動作について、図15及び図16A〜図16Cを参照して説明する。図15は、実施の形態2にかかる翻訳装置1の音声認識装置(音声入力装置)100の制御部22による音声区間の終了時点の決定動作を示すフローチャートである。図16A〜図16Cは、音声区間の終了時点の決定動作を説明するための図である。
図15に示すように、制御部22は、発話アイコン14hをホストが2回目にタッチした時点で記憶部20に記憶された最新の音声認識結果である音声認識データRiをディスプレイ14のホスト側の表示領域15hに表示する(S201)。例えば図16Aの記憶部20の参照テーブルの一例では、最新の音声認識結果である音声認識データR7を表示する。
次に、制御部22は、ホストの指が右にスライドしたか否かを判断する(S202)。ホストの指が右にスライドした場合、制御部22は、記憶部20に記憶されている音声認識データのうちの現在表示している音声認識データRiの一つ後に取得した音声認識データR(i+1)を表示領域15hに表示する(S203)。例えば図16Bにおいて、音声認識データR7の一つ後に取得した音声認識結果である音声認識データR8を表示する。その後、上述したステップS202に戻る。
一方、ステップS202において、ホストの指が右にスライドしていない場合、次に、制御部22は、ホストの指が左にスライドしたか否かを判断する(S204)。ホストの指が左にスライドした場合、制御部22は、記憶部20に記憶されている音声認識データのうちの現在表示している音声認識データRiの一つ前に取得した音声認識データR(i−1)を表示領域15hに表示する(S205)。例えば図16Cにおいて、音声認識データR7の一つ前に取得した音声認識結果である音声認識データR6を表示する。その後、ステップS202に戻る。
ステップS204において、ホストの指が左にスライドしていない場合、次に、制御部22は、ホストの指が離れたか否かを判断する(S206)。ホストの指が離れていない場合、制御部22は、ステップS202に戻り、上述の動作を繰り返す。一方、ホストの指が離れた場合、制御部22は、現在表示の音声認識結果に対応した音声区間の終了時点を、音声区間の終了時点として決定する(S207)。その後、上述した図14におけるステップS70Aの動作が行われる。
以上のように、本実施の形態2の翻訳装置1によれば、ホストの指のスライド操作に応じて変化する音声区間の終了時点に応じて表示される音声認識結果がリアルタイムで変更される。そのため、ホストは、音声認識結果をリアルタイムに確認しながら、音声区間の終了時点を調整することができる。すなわち、制御部22は、調整された音声区間に対応する音声認識結果を示す文字列をディスプレイ14の表示領域15hに表示する。
(実施の形態3)
実施の形態2にかかる翻訳装置1は、逐次音声認識を行い、音声区間の終了時点を調整する際にこれらの逐次音声認識の結果をリアルタイムで表示した。これに対して、実施の形態3にかかる翻訳装置1は、音声区間の終了時点を調整する際にその都度音声認識結果を取得し、その音声認識結果をリアルタイムで表示する。
実施の形態3にかかる翻訳装置1の構成は、図1及び図2を参照して説明した実施の形態1のものと基本的に同様であるが、翻訳装置1の音声認識装置(音声入力装置)100の制御部22の機能、動作が前述のものと異なる。以下、図17を用いて、実施の形態3にかかる翻訳装置1の音声認識装置(音声入力装置)100の動作を説明する。
(音声区間の終了時点の決定動作)
上述した図14におけるステップS40Aの音声区間の終了時点の決定動作について、図17を参照して説明する。本実施の形態にかかる翻訳装置1は、実施の形態2で説明した音声認識装置100の動作において、図15のフローチャートに示す動作に代えて、図17のフローチャートに示す動作を行う。図17は、実施の形態3にかかる翻訳装置1の音声認識装置(音声入力装置)100の制御部22による音声区間の終了時点の決定動作を示すフローチャートである。
図17に示すように、制御部22は、発話アイコン14hをホストが2回目にタッチした時刻を音声区間の終了時点として決定する(S301)。次に、制御部22は、決定した音声区間に対応する音声データを記憶部20から抽出して、通信部18及びネットワーク2を介して音声認識サーバ3に送信する(S302)。このとき、音声認識サーバ3は、受信した音声データに基づき音声認識を行って文字列の音声認識データを生成する。
次に、制御部22は、音声認識サーバ3からネットワーク2及び通信部18を介して音声認識データを受信する(S303)。次に、制御部22は、音声認識データを表示するための文字画像を生成し、この文字画像をディスプレイ14のホスト側の表示領域15hに表示する(S303)。
次に、制御部22は、ホストの指が右にスライドしたか否かを判断する(S304)。ホストの指が右にスライドした場合、制御部22は、音声区間の終了時点を所定時間だけ後へシフトさせるように決定する(S305)。その後、制御部22は、上述したステップS302、S303の動作を繰り返し、変更された音声区間の音声データの音声認識結果を表示領域15hに表示し直す。
一方、ステップS304において、ホストの指が右にスライドしていない場合、制御部22は、ホストの指が左にスライドしたか否かを判断する(S306)。ホストの指が左にスライドした場合、制御部22は、音声区間の終了時点を所定時間だけ前にシフトさせるように決定する(S307)。その後、制御部22は、上述したステップS302、S303の動作を繰り返し、変更された音声区間の音声データの音声認識結果を表示領域15hに表示し直す。
ステップS306において、ホストの指が左にスライドしていない場合、制御部22は、ホストの指が離れたか否かを判断する(S308)。ホストの指が離れていない場合、制御部22は、上述したステップS304に戻る。一方、ホストの指が離れた場合、制御部22は、現在表示の音声認識結果に対応した音声区間の終了時点を、音声区間の終了時点として決定する(S309)。
以上のような制御によっても、ホストの指のスライド操作に応じて変化する音声区間の終了時点に応じて表示される音声認識結果がリアルタイムで変更される。そのため、実施の形態2の翻訳装置1と同様に、ホストは音声認識結果をリアルタイムに確認しながら、音声区間の終了時点を調整することができる。
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態1〜3を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1〜3で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。
(1)上記の実施の形態では、ユーザの指が発話アイコンに触れ、離れずにスライド操作(所定の操作)が行われたとき、音声区間の終了時点を調整した。しかし、本開示はこれに限定されず、ユーザの指が発話アイコンに触れ、離れた後でも、所定時間以上長押しされた後にスライド操作が行われたときに、音声区間の終了時点を変更するようにしてもよい。
(2)上記の実施の形態では、音声区間の終了時点を調整する所定の操作として、タッチパネルに対するスライド操作を例示した。しかし、本開示はこれに限定されず、所定の操作として、機械式ボタンに対する押下操作、傾きセンサに対する傾ける操作や振る操作などの種々の操作が適用可能である。
(3)上記の実施の形態では、音声認識を行う音声区間をユーザの操作により決定する手動認識において、音声区間の終了時点を変更する形態を説明した。しかし、本開示はこれに限定されず、音声区間を自動で決定する自動認識機能において、自動で認識された音声区間の終了時点を手動で調整できるように本開示の制御を行ってもよい。
(4)上記の実施の形態では、音声区間の終了時点を変更する形態を説明した。しかし、本開示はこれに限定されず、本開示の制御を音声区間の開始時点を変更する制御に適用してもよい。例えば、制御部22は、ユーザの指によるスライド操作を検知したときに、音声区間の開始時点を前または後へ調整してもよい。この場合、制御部22は、常時音声録音を行い、シフトされた開始時点を音声区間の開始時点として決定すればよい。このとき、記憶部20は録音された音声をすべて記憶する必要はなく、制御部22は、適宜不必要な音声を削除してもよい。また、2回目のタッチ操作を行った後に、ユーザが所定時間内に次の音声区間の開始時点を決定するためのタッチ操作をさらに行った場合、制御部22は、連続して音声録音を行ってもよい。
また、制御部22は、ディスプレイ14が音声区間を示す画像を表示した状態で、以下のユーザ操作を検知した際に、音声区間の開始時点の調整、音声区間の終了時点の調整、または音声区間全体のシフトを行ってもよい。すなわち、制御部22は、音声区間を示す画像の先頭付近への2回目のタッチ操作およびスライド操作を検知した際に、音声区間の開始時点の調整を行ってもよい。また、制御部22は、音声区間を示す画像の末尾付近への2回目のタッチ操作およびスライド操作を検知した際に、音声区間の終了時点の調整を行ってもよい。また、制御部22は、音声区間を示す画像の中央付近への2回目のタッチ操作およびスライド操作を検知した際に、固定した音声区間を前後にシフトしてもよい。これにより、制御部22は、ユーザ操作に応じた音声区間の調整を行うことができる。
(5)上記の実施の形態では、音声認識を音声認識サーバで行い、翻訳を翻訳サーバで行い、音声合成を音声合成サーバで行ったが、本開示はこれに限定されず、音声認識、翻訳、音声合成を翻訳装置内で行ってもよい。この場合、記憶部20は、音声認識のための参照テーブル、音声合成のための参照テーブルを複数の言語ごとに格納すればよい。音声認識のための参照テーブルは、文字データとそのデジタル音声データとが対応付けされたテーブルである。音声合成のための参照テーブルは、文字データとその音声信号の特徴とが対応付けされたテーブルである。また、記憶部20は、翻訳のための複数の翻訳辞書を、言語翻訳(例えば、日本語から英語への言語翻訳、英語から日本語への言語翻訳)の種類ごとに格納すればよい。翻訳辞書は、文字列(テキスト)の音声認識データと文字列の翻訳データとが対応付けされた辞書である。
(6)上記の実施の形態では、音声認識、翻訳、及び、音声合成の言語として日本語と英語を例示したが、音声認識、翻訳、及び、音声合成の対象とする言語は日本語と英語に限定されず、他の言語でもよい。
(7)上記の実施の形態では、翻訳装置に適用可能な音声認識装置(音声入力装置)を説明したが、本開示の思想はこれに限定されず、翻訳装置以外の電子装置にも適用可能である。例えば、教育アプリケーションや対話アプリケーション等の音声入力及び音声認識を行う種々の電子装置に適用可能である。
(8)上記の実施の形態では、制御部22は、図6のステップS103において確定アイコン14Aを表示したが、これに代えて、2回目のタッチの時刻を後へシフトするための選択アイコンをディスプレイ14に表示してもよい。ユーザはこの選択アイコン上で指を離すことにより、音声区間の終了時点を2回目のタッチ操作の時刻よりも後に変更することができる。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
また、上述の実施の形態に係る音声入力方法をコンピュータに実行させるための音声入力プログラムおよびそのプログラムを記憶したプログラム記憶媒体も本開示の範囲内に含まれる。
本開示は、音声を取得し、音声認識を行う音声区間を決定する音声入力装置に適用可能である。
1 翻訳装置
2 ネットワーク
3 音声認識サーバ
4 翻訳サーバ
5 音声合成サーバ
10 マイク(入力部)
12 スピーカ(出力部)
14 ディスプレイ(表示部)
16 タッチパネル(操作部)
18 通信部
20 記憶部
22 制御部
14h,14g,14hg 発話アイコン
14A 確定アイコン
14B,14C,14D 選択アイコン
15h,15g 表示領域
100 音声認識装置(音声入力装置)
200 翻訳出力部

Claims (15)

  1. 音声を取得し、前記音声に応じた音声データを生成する入力部と、
    前記入力部からの前記音声データを記憶する記憶部と、
    ユーザにより操作されるタッチパネルと、
    前記記憶部に記憶された前記音声データにおいて、前記タッチパネルに対するタッチ操作に基づき音声認識を行う音声区間を決定する制御部と、
    を備え、
    前記制御部は、ユーザによる前記タッチパネルに対するスライド操作を検知したときに、決定した前記音声区間を調整する、
    音声入力装置。
  2. 前記記憶部により記憶される前記音声データの区間は、前記制御部により決定される前記音声区間よりも長い区間である、
    請求項1に記載の音声入力装置。
  3. 前記制御部は、前記タッチ操作に基づき前記音声区間の開始時点を決定し、前記スライド操作を検知したときに、前記開始時点を調整する、
    請求項に記載の音声入力装置。
  4. 前記制御部は、
    前記スライド操作の方向が所定方向である場合に、前記開始時点を前記タッチ操作の時刻よりも前に調整し、
    前記スライド操作の方向が前記所定方向の反対方向である場合に、前記開始時点を前記タッチ操作の時刻よりも後に調整する、
    請求項に記載の音声入力装置。
  5. 前記制御部は、前記タッチ操作に基づき前記音声区間の終了時点を決定し、前記スライド操作を検知したときに、前記終了時点を調整する、
    請求項に記載の音声入力装置。
  6. 前記制御部は、
    前記スライド操作の方向が所定方向である場合に、前記終了時点を前記タッチ操作の時刻よりも前に調整し、
    前記スライド操作の方向が前記所定方向の反対方向である場合に、前記終了時点を前記タッチ操作の時刻よりも後に調整する、
    請求項に記載の音声入力装置。
  7. 前記制御部は、
    前記スライド操作を検知したときに、前記終了時点の決定をキャンセルする、
    請求項に記載の音声入力装置。
  8. 表示部をさらに備え、
    前記制御部は、前記スライド操作を検知したときに、前記音声区間を調整するための時間をユーザに選択させるためのアイコンを前記表示部に表示する、
    請求項に記載の音声入力装置。
  9. 表示部をさらに備え、
    前記制御部は、前記スライド操作を検知したときに、前記音声区間の決定をキャンセルすることをユーザに確定させるためのアイコンを前記表示部に表示する、
    請求項に記載の音声入力装置。
  10. 表示部をさらに備え、
    前記制御部は、前記音声データの音声認識結果を示す文字列を前記表示部に表示する、
    請求項に記載の音声入力装置。
  11. 前記制御部は、調整された前記音声区間に対応する前記文字列を前記表示部に表示する、
    請求項10に記載の音声入力装置。
  12. 前記音声は、前記ユーザとは異なる他のユーザの音声である、
    請求項1に記載の音声入力装置。
  13. 請求項1に記載の音声入力装置と、
    前記音声入力装置によって調整された前記音声区間に対応する前記音声データの音声認識結果に基づく翻訳結果を出力する出力部と、
    を備える翻訳装置。
  14. 入力される音声に応じて生成された音声データを記憶部に記憶するステップと、
    前記記憶部に記憶された前記音声データにおいて、タッチパネルに対するタッチ操作に基づき音声認識を行う音声区間を決定するステップと、
    を含み、
    前記音声区間を決定するステップは、ユーザによる前記タッチパネルに対するスライド操作を検知したときに、決定した前記音声区間を調整することを含む、
    音声入力方法。
  15. 請求項14に記載の音声入力方法をコンピュータに実行させるための音声入力プログラム。
JP2018534287A 2016-08-17 2017-06-22 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム Active JP6569926B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016160170 2016-08-17
JP2016160170 2016-08-17
PCT/JP2017/023009 WO2018034059A1 (ja) 2016-08-17 2017-06-22 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム

Publications (2)

Publication Number Publication Date
JPWO2018034059A1 JPWO2018034059A1 (ja) 2018-11-22
JP6569926B2 true JP6569926B2 (ja) 2019-09-04

Family

ID=61196657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018534287A Active JP6569926B2 (ja) 2016-08-17 2017-06-22 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム

Country Status (3)

Country Link
US (1) US10854200B2 (ja)
JP (1) JP6569926B2 (ja)
WO (1) WO2018034059A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11079915B2 (en) * 2016-05-03 2021-08-03 Intelligent Platforms, Llc System and method of using multiple touch inputs for controller interaction in industrial control systems
JP7330066B2 (ja) * 2019-03-27 2023-08-21 パナソニックホールディングス株式会社 音声認識装置、音声認識方法及びそのプログラム
JP6606697B1 (ja) * 2019-05-24 2019-11-20 株式会社ナレッジフロー 通話システム、及び通話プログラム
JP7109498B2 (ja) * 2020-04-09 2022-07-29 励至 鈴木 音声入力装置
JP7666054B2 (ja) * 2021-03-24 2025-04-22 株式会社Jvcケンウッド 翻訳通信システム
WO2025197100A1 (ja) * 2024-03-22 2025-09-25 ポケトーク株式会社 音声認識システム、音声認識方法及び情報記憶媒体

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08146987A (ja) * 1994-11-17 1996-06-07 Canon Inc 音声入力装置及びその制御方法
JPH08185196A (ja) 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
US6353809B2 (en) * 1997-06-06 2002-03-05 Olympus Optical, Ltd. Speech recognition with text generation from portions of voice data preselected by manual-input commands
FR2853126A1 (fr) * 2003-03-25 2004-10-01 France Telecom Procede de reconnaissance de parole distribuee
JP2004294659A (ja) 2003-03-26 2004-10-21 Matsushita Electric Ind Co Ltd 音声認識装置
US7505163B2 (en) * 2003-09-25 2009-03-17 Ricoh Co., Ltd. User interface for networked printer
JP2006091130A (ja) * 2004-09-21 2006-04-06 Nissan Motor Co Ltd 音声認識装置および音声認識方法
US20060247927A1 (en) * 2005-04-29 2006-11-02 Robbins Kenneth L Controlling an output while receiving a user input
US8731914B2 (en) * 2005-11-15 2014-05-20 Nokia Corporation System and method for winding audio content using a voice activity detection algorithm
US8756058B2 (en) * 2006-02-23 2014-06-17 Nec Corporation Speech recognition system, speech recognition result output method, and speech recognition result output program
JP4786384B2 (ja) * 2006-03-27 2011-10-05 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP5075664B2 (ja) * 2008-02-15 2012-11-21 株式会社東芝 音声対話装置及び支援方法
JP2010054991A (ja) * 2008-08-29 2010-03-11 Yamaha Corp 録音装置
KR20210152028A (ko) * 2008-11-10 2021-12-14 구글 엘엘씨 멀티센서 음성 검출
US20130139057A1 (en) * 2009-06-08 2013-05-30 Jonathan A.L. Vlassopulos Method and apparatus for audio remixing
JP5704428B2 (ja) * 2009-11-18 2015-04-22 株式会社リコー タッチパネル装置及びタッチパネル装置の制御方法
KR101290145B1 (ko) * 2011-05-31 2013-07-26 삼성전자주식회사 터치 스크린 제어 방법 및 장치, 컴퓨터에 의해 독출될 수 있는 기록 매체, 그리고 단말장치
CN103650032A (zh) * 2011-06-15 2014-03-19 骨声通信有限(以色列)有限公司 用于检测语音的系统、设备和方法
US20130211826A1 (en) * 2011-08-22 2013-08-15 Claes-Fredrik Urban Mannby Audio Signals as Buffered Streams of Audio Signals and Metadata
DE102012004327A1 (de) * 2012-03-07 2013-09-12 Mobotix Ag Verfahren für die Parameterveränderung parametrierbarer Funktionen mittels Datenverarbeitungsgeräten
US9047873B2 (en) * 2012-12-21 2015-06-02 Draeger Safety, Inc. Self contained breathing and communication apparatus
US8577422B1 (en) * 2013-03-27 2013-11-05 Open Invention Network, Llc Wireless device gesture detection and operational control
US9462115B2 (en) * 2013-04-04 2016-10-04 James S. Rand Unified communications system and method
US9503556B2 (en) * 2013-06-18 2016-11-22 Here Global B.V. Handling voice calls
US9264824B2 (en) * 2013-07-31 2016-02-16 Starkey Laboratories, Inc. Integration of hearing aids with smart glasses to improve intelligibility in noise
JP2015060332A (ja) * 2013-09-18 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
US9274673B2 (en) * 2013-12-31 2016-03-01 Google Inc. Methods, systems, and media for rewinding media content based on detected audio events
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
US10579330B2 (en) * 2015-05-13 2020-03-03 Microsoft Technology Licensing, Llc Automatic visual display of audibly presented options to increase user efficiency and interaction performance
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
EP3185244B1 (en) * 2015-12-22 2019-02-20 Nxp B.V. Voice activation system
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US20190095867A1 (en) * 2016-03-09 2019-03-28 Maxell, Ltd. Portable information terminal and information processing method used in the same
US9832308B1 (en) * 2016-05-12 2017-11-28 Google Inc. Caller preview data and call messages based on caller preview data
ES2806204T3 (es) * 2016-06-15 2021-02-16 Cerence Operating Co Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados
US10515292B2 (en) * 2016-06-15 2019-12-24 Massachusetts Institute Of Technology Joint acoustic and visual processing
JP6739041B2 (ja) * 2016-07-28 2020-08-12 パナソニックIpマネジメント株式会社 音声モニタリングシステム及び音声モニタリング方法

Also Published As

Publication number Publication date
WO2018034059A1 (ja) 2018-02-22
US20190005958A1 (en) 2019-01-03
JPWO2018034059A1 (ja) 2018-11-22
US10854200B2 (en) 2020-12-01

Similar Documents

Publication Publication Date Title
JP6569926B2 (ja) 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6364629B2 (ja) 翻訳装置および翻訳方法
US9570076B2 (en) Method and system for voice recognition employing multiple voice-recognition techniques
US10504502B2 (en) Sound control device, sound control method, and sound control program
KR20150127712A (ko) 제스처들을 이용하여 프로세싱 모드들을 스위칭하기 위한 시스템들 및 방법들
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
CN108307659A (zh) 翻译装置的控制方法、翻译装置以及程序
JP2007010971A (ja) 音声認識方法及び音声認識装置
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
WO2016152200A1 (ja) 情報処理システムおよび情報処理方法
JP2010176543A (ja) 翻訳装置、方法、及びプログラム
JP2011248140A (ja) 音声認識装置
JP7406874B2 (ja) 電子機器、その制御方法、およびそのプログラム
JP2020160431A (ja) 音声認識装置、音声認識方法及びそのプログラム
CN105139848A (zh) 数据转换方法和装置
JP2019174784A (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
JP2020064151A (ja) 再生システムおよびプログラム
US20140297257A1 (en) Motion sensor-based portable automatic interpretation apparatus and control method thereof
CN105426154A (zh) 一种语音输入控制的方法、装置及终端
JP2015172848A (ja) 読唇入力装置、読唇入力方法及び読唇入力プログラム
JP6392051B2 (ja) 電子機器、方法およびプログラム
JP6472823B2 (ja) 信号処理装置、信号処理方法および属性付与装置
CN108986784B (zh) 语音输出控制装置及语音输出控制方法
JP6483391B2 (ja) 電子機器、方法およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180613

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190724

R150 Certificate of patent or registration of utility model

Ref document number: 6569926

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150