JP6569926B2

JP6569926B2 - 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム

Info

Publication number: JP6569926B2
Application number: JP2018534287A
Authority: JP
Inventors: 石川　智一; 智一石川
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-08-17
Filing date: 2017-06-22
Publication date: 2019-09-04
Anticipated expiration: 2037-06-22
Also published as: WO2018034059A1; US20190005958A1; JPWO2018034059A1; US10854200B2

Description

本開示は、音声を取得し、音声認識を行う音声区間を決定する音声入力装置及び音声入力方法に関する。

特許文献１は、音声認識のための音声区間を検出する音声区間検出装置を開示する。この音声区間検出装置は、音声信号を取得し、検出範囲を指定するスイッチ操作に応じて音声区間を抽出して出力する音声区間検出装置であって、記憶手段と、制御手段とを備える。記憶手段は、入力音声信号を記憶する。制御手段は、スイッチ操作で指定される検出範囲よりも広い範囲で記憶手段に記憶されている入力音声信号から一つだけ音声区間を抽出し、出力する。これにより、スイッチが押されるより早いタイミングで発声が行われた場合でも、語頭を欠くことなく音声区間を検出できる。

特許文献２は、音声認識装置を開示する。この音声認識装置は、出力手段と、接触手段と、音声区間判定手段と、音声認識手段とを備える。出力手段は、話者の音声を含む音響を入力し、音響信号を出力する。接触手段は、話者が発声するときに話者に接触する。音声区間判定手段は、音響信号に含まれる音声信号および接触手段の接触状態に基づいて話者が音声を発している音声区間を判定する。音声認識手段は、音声区間の音声を認識する。音声区間判定手段は、話者が接触手段に接触した時点の近傍において音声信号のパワーがパワー閾値を越えた時点から所定の時間遡った時点を音声区間の開始時点とする。そして、音声区間判定手段は、話者が接触手段の接触を停止した時点の近傍において音声信号のパワーがパワー閾値を下回る時点から所定の時間経過した時点を音声区間の終了時点とする。これにより、話者の肉体的および精神的な負担を軽減した簡単な操作で音声認識を行うことができる。

特開平８−１８５１９６号公報特開２００４−２９４６５９号公報

本開示は、音声認識の精度を向上することが可能な音声入力装置及び音声入力方法を提供する。

本開示における音声入力装置は、入力部と、記憶部と、操作部と、制御部とを備える。入力部は、音声を取得し、音声に応じた音声データを生成する。記憶部は、入力部からの音声データを記憶する。操作部は、ユーザにより操作される。制御部は、記憶部に記憶された音声データにおいて、操作部に対するユーザ操作に基づき音声認識を行う音声区間を決定する。そして、制御部は、ユーザによる操作部に対する所定の操作を検知したときに、決定した音声区間を調整する。

また、本開示における音声入力方法は、入力される音声に応じて生成された音声データを記憶部に記憶するステップと、記憶部に記憶された音声データにおいて、操作部に対するユーザ操作に基づき音声認識を行う音声区間を決定するステップとを含む。そして、音声区間を決定するステップは、ユーザによる操作部に対する所定の操作を検知したときに、決定した音声区間を調整することを含む。

本開示における音声入力装置及び音声入力方法は、音声認識の精度を向上することができる。

図１は、実施の形態１にかかる翻訳装置の外観を示す図である。図２は、実施の形態１にかかる翻訳装置の電気的な構成を示すブロック図である。図３Ａは、発話の終了タイミングに対して発話アイコンの２回目のタッチタイミング（音声区間の終了時点）が適切であるときのこれらの関係を示す図である。図３Ｂは、発話の終了タイミングに対して発話アイコンの２回目のタッチタイミング（音声区間の終了時点）が早いときのこれらの関係を示す図である。図３Ｃは、発話の終了タイミングに対して発話アイコンの２回目のタッチタイミング（音声区間の終了時点）が遅いときのこれらの関係を示す図である。図４は、実施の形態１にかかる翻訳装置の制御部による翻訳動作を示すフローチャートである。図５は、実施の形態１にかかる翻訳装置の音声認識装置（音声入力装置）の制御部による音声認識動作を示すフローチャートである。図６は、実施の形態１にかかる翻訳装置の音声認識装置（音声入力装置）の制御部による音声区間の終了時点の決定動作を示すフローチャートである。図７Ａは、ホストの指がタッチパネルにおけるディスプレイの発話アイコンに触れる様子を示す図である。図７Ｂは、ホストの指が右にスライドする様子、及び、音声区間の終了時点をキャンセルすることをユーザに確定させる確定アイコンを示す図である。図７Ｃは、確定アイコンにホストの指が触れる様子を示す図である。図８Ａは、ホストの指がタッチパネルにおけるディスプレイの発話アイコンに触れる様子を示す図である。図８Ｂは、ホストの指が左にスライドする様子、及び、音声区間の終了時点を前に遡らせる時間をユーザに選択させる選択アイコンを示す図である。図８Ｃは、選択アイコンにホストの指が触れる様子を示す図である。図９は、実施の形態１の変形例にかかる翻訳装置の音声認識装置（音声入力装置）の制御部による音声区間の終了時点の決定動作を示すフローチャートである。図１０Ａは、ホストの指がタッチパネルにおけるディスプレイの発話アイコンに触れる様子を示す図である。図１０Ｂは、ホストの指が左にスライドする様子を示す図である。図１０Ｃは、ホストの指が右にスライドする様子を示す図である。図１０Ｄは、発話内容およびディスプレイの表示領域に表示される音声認識結果の一例を示す図である。図１１は、音声認識動作における音声認識結果の逐次表示のための音声認識データの取得動作を示すフローチャートである。図１２は、逐次表示のための音声認識データの取得動作を説明するための図である。図１３は、逐次表示のための音声認識データの一例を示す図である。図１４は、実施の形態２にかかる翻訳装置の音声認識装置（音声入力装置）の制御部による音声認識動作を示すフローチャートである。図１５は、実施の形態２にかかる翻訳装置の音声認識装置（音声入力装置）の制御部による音声区間の終了時点の決定動作を示すフローチャートである。図１６Ａは、音声区間の終了時点の決定動作を説明するための図である。図１６Ｂは、音声区間の終了時点の決定動作を説明するための図である。図１６Ｃは、音声区間の終了時点の決定動作を説明するための図である。図１７は、実施の形態３にかかる翻訳装置の音声認識装置（音声入力装置）の制御部による音声区間の終了時点の決定動作を示すフローチャートである。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。

（実施の形態１）
以下、図１〜図８Ｃを用いて、実施の形態１を説明する。以下では、本開示にかかる音声入力装置及び音声入力方法を用いた翻訳装置を説明する。

［１−１．構成］
［１−１−１．外観構成］
図１は、実施の形態１にかかる翻訳装置の外観を示す図である。図１に示す翻訳装置１は、例えばタブレットタイプの翻訳装置であり、言語が異なる２人のユーザの会話を翻訳する翻訳装置である。本実施の形態では、翻訳装置１が、英語を話すゲスト（旅行者）と、ゲストを案内し、日本語を話すホスト（案内者）とが翻訳装置１を介して対面で行う会話を翻訳することを想定して説明する。翻訳装置１は、マイク１０と、スピーカ１２と、ディスプレイ１４と、タッチパネル１６とを備える。

マイク１０及びスピーカ１２は、例えば、翻訳装置１の側面の開口近傍に配置されている。ディスプレイ１４及びタッチパネル１６は、翻訳装置１の主面に配置されている。タッチパネル１６は、ディスプレイ１４に重畳して配置されている。ディスプレイ１４の長手方向の一方側（例えば、ホスト側）の領域には、発話アイコン１４ｈ、１４ｈｇ及び表示領域１５ｈが配置される。ディスプレイ１４の長手方向の他方側（例えば、ゲスト側）の領域には、発話アイコン１４ｇ及び表示領域１５ｇが配置される。

発話アイコン１４ｈは、ホストが発話を行うときに（すなわち、日本語の発話を入力するときに）、ホスト本人がホストの発話の開始時点及び終了時点を指定するための操作アイコンである。本実施の形態では、タッチ操作とは、例えば、ホストやゲストの指がタッチパネル１６における発話アイコン１４ｈ、１４ｇ、１４ｈｇのそれぞれに対応する領域に接触する操作を意味する。またスライド操作とは、例えば、ホストやゲストの指がこの領域に接触した後にスライドする操作を意味する。発話アイコン１４ｇは、ゲストが発話を行うときに（すなわち、英語の発話を入力するときに）、ゲスト本人がゲストの発話の開始時点及び終了時点を指定するための操作アイコンである。また、発話アイコン１４ｈｇは、ゲストが発話を行うときに（すなわち、英語の発話を入力するときに）、ゲスト本人に代わりホストがゲストの発話の開始時点及び終了時点を指定するための操作アイコンである。表示領域１５ｈ、１５ｇは、音声認識結果、翻訳結果及び逆翻訳結果を文字列として表示するための表示領域である。

［１−１−２．電気的な構成］
図２は、実施の形態１にかかる翻訳装置１の電気的な構成を示すブロック図である。図１に示す翻訳装置１は、インターネットのようなネットワーク２を介して音声認識サーバ３、翻訳サーバ４、及び、音声合成サーバ５とデータ通信を行う。

音声認識サーバ３は、翻訳装置１からネットワーク２を介して受信したデジタル音声データを音声認識して文字列の音声認識データを生成するサーバである。

翻訳サーバ４は、翻訳装置１からネットワーク２を介して受信した音声認識データを翻訳して文字列の翻訳データを生成するサーバである。

音声合成サーバ５は、翻訳装置１からネットワーク２を介して受信した文字列の翻訳データを音声合成して音声信号を生成するサーバである。

翻訳装置１は、マイク１０と、スピーカ１２と、ディスプレイ１４と、タッチパネル１６と、通信部１８と、記憶部２０と、制御部２２とを備える。マイク１０と、ディスプレイ１４と、タッチパネル１６と、通信部１８と、記憶部２０と、制御部２２とが、本実施の形態にかかる音声入力装置の一例である音声認識装置１００を構成する。また、スピーカ１２と、ディスプレイ１４と、通信部１８と、記憶部２０と、制御部２２とが、本実施の形態にかかる翻訳出力部２００を構成する。

音声認識装置１００は、マイク１０に入力される音声に応じた音声データにおいて、音声認識を行う音声区間を決定する。また、音声認識装置１００は、決定した音声区間に対応する音声データを通信部１８を介して音声認識サーバ３に送信し、音声認識サーバ３で音声認識された音声認識結果をディスプレイ１４に出力する。

翻訳出力部２００は、音声認識装置１００で得た音声認識結果を通信部１８を介して翻訳サーバ４に送信し、翻訳サーバ４で翻訳された翻訳結果をスピーカ１２及びディスプレイ１４のうちの少なくとも一方に出力する。以下、音声認識装置１００及び翻訳出力部２００における各構成要素の詳細を説明する。

マイク１０は、音声をデジタル音声データに変換する装置である。具体的には、マイク１０は、音声を音声信号（アナログ電気信号）に変換する。マイク１０は、ＡＤ変換器を備え、音声信号をさらにデジタル音声データに変換する。マイク１０は、入力部の一例である。

通信部１８は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ、３Ｇ、ＬＴＥ、ＩＥＥＥ８０２．１１等の通信方式に従って、ネットワーク２を介して音声認識サーバ３、翻訳サーバ４、音声合成サーバ５とデータ通信を行う通信モジュールである。

記憶部２０は、フラッシュメモリ、強誘電体メモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）などで構成される記憶素子である。記憶部２０は、マイク１０からのデジタル音声データ及び翻訳データを記憶する。また、記憶部２０は、制御部２２のための各種プログラムを格納している。

制御部２２は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等で構成され、記憶部２０に格納された各種プログラムを実行することにより、翻訳装置１の全体を制御する。制御部２２は、タッチパネル１６におけるディスプレイ１４の発話アイコン１４ｈ、１４ｇ、１４ｈｇに対するホスト又はゲストのタッチ操作に応じて、音声認識を行う音声区間を決定する。その際、制御部２２は、スライド操作を検知したときに、音声区間の終了時点を調整する。音声区間の決定の詳細については、後述する。

なお、制御部２２の機能は、ハードウェアとソフトウェアの協同により実現したが、所定の機能を実現するように専用に設計されたハードウェア回路のみで実現してもよい。例えば、制御部２２は、ＣＰＵ、ＭＰＵのみならず、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）等で構成することができる。

スピーカ１２は、電気信号を音声に変換する装置である。スピーカ１２は、制御部２２からの音声信号（電気信号）に基づいた音声を出力する。スピーカ１２は、出力部の一例である。

ディスプレイ１４は、画像を表示する装置である。ディスプレイ１４は、制御部２２からの音声認識データ、翻訳データ、及び、逆翻訳データが示す文字画像を表示する。ディスプレイ１４は、音声認識データ、翻訳データ、及び、逆翻訳データをホスト及びゲストに対して表示する表示部の一例である。また、ディスプレイ１４は上述した発話アイコン１４ｈ、１４ｇ、１４ｈｇを表示する。

タッチパネル１６は、発話スイッチ等の各種操作部として機能する。発話スイッチは、ディスプレイ１４に表示される発話アイコン１４ｈ、１４ｇ、１４ｈｇと連動して、音声区間の開始時点及び終了時点をホスト又はゲストが操作するためのスイッチである。タッチパネル１６はユーザが操作する操作部の一例である。

［１−２．動作］
［１−２−１．動作の概要］
以上のように構成された翻訳装置１の動作の概要を説明する。翻訳装置１は、マイク１０に入力される音声に応じたデジタル音声データを、ネットワーク２を介して音声認識サーバ３に送信する。このとき、音声認識サーバ３は、受信した音声データを音声認識して文字列の音声認識データを生成する。翻訳装置１は、音声認識の結果である文字列の音声認識データを、音声認識サーバ３からネットワーク２を介して受信し、ディスプレイ１４に音声認識の結果を文字列として表示する。

また、翻訳装置１は、文字列の音声認識データを、ネットワーク２を介して翻訳サーバ４に送信する。このとき、翻訳サーバ４は、受信した音声認識データを翻訳して文字列の翻訳データを生成するとともに、翻訳データを翻訳前の言語に逆翻訳して文字列の逆翻訳データを生成する。翻訳装置１は、翻訳結果である文字列の翻訳データ及び逆翻訳データを、翻訳サーバ４からネットワーク２を介して受信し、ディスプレイ１４に音声認識の結果を文字列として表示する。

さらに、翻訳装置１は、翻訳結果である文字列の翻訳データを、ネットワーク２を介して音声合成サーバ５に送信する。このとき、音声合成サーバ５は、翻訳装置１からネットワーク２を介して受信する文字列の翻訳データを音声合成して音声信号を生成する。翻訳装置１は、音声合成の結果である音声信号を、音声合成サーバ５からネットワーク２を介して受信し、スピーカ１２から音声信号に応じた音声を出力させる。

この翻訳装置１において、ホストの発話を翻訳する場合、翻訳装置１は、まずタッチパネル１６における発話アイコン１４ｈに対するホストによるタッチ操作に基づいて、音声認識を行う音声区間を決定する。具体的には、翻訳装置１は、ホストが発話アイコン１４ｈを１回目にタッチしたときに音声区間の開始時点を決定し、ホストが発話アイコン１４ｈを２回目にタッチしたときに音声区間の終了時点を決定する。翻訳装置１は、決定した開始時点から終了時点までの音声区間においてマイク１０に入力されるホストの音声を音声認識して翻訳する。また、翻訳装置１は、翻訳結果を逆翻訳する。翻訳装置１は、翻訳結果を音声としてスピーカ１２に出力する。また、翻訳装置１は、翻訳結果を文字列としてディスプレイ１４のゲスト側の表示領域１５ｇに表示するとともに、認識結果及び逆翻訳結果を文字列としてディスプレイ１４のホスト側の表示領域１５ｈに表示する。

ゲストの発話を翻訳する場合、翻訳装置１は、まずタッチパネル１６における発話アイコン１４ｇに対するゲストによるタッチ操作に基づいて音声区間を決定する。具体的には、翻訳装置１は、ゲストが発話アイコン１４ｇを１回目にタッチしたときに音声区間の開始時点を決定し、ゲストが発話アイコン１４ｇを２回目にタッチしたときに音声区間の終了時点を決定する。翻訳装置１は、決定した開始時点から終了時点までの音声区間においてマイク１０に入力されるゲストの音声を音声認識して翻訳する。また、翻訳装置１は、翻訳結果を逆翻訳する。翻訳装置１は、翻訳結果を音声としてスピーカ１２に出力する。また、翻訳装置１は、翻訳結果を文字列としてディスプレイ１４のホスト側の表示領域１５ｈに表示するとともに、認識結果及び逆翻訳結果を文字列としてディスプレイ１４のゲスト側の表示領域１５ｇに表示する。

また、翻訳装置１は、タッチパネル１６における発話アイコン１４ｈｇに対するホストによるタッチ操作に基づいて、ゲストの発話に対する音声区間を決定することができる。具体的には、翻訳装置１は、発話アイコン１４ｈｇをホストが１回目にタッチしたときに音声区間の開始時点を決定し、発話アイコン１４ｈｇをホストが２回目にタッチしたときに音声区間の終了時点を決定する。翻訳装置１は、決定した開始時点から終了時点までの音声区間においてマイク１０に入力されるゲストの音声を音声認識して翻訳する。また、翻訳装置１は、翻訳結果を逆翻訳する。翻訳装置１は、翻訳結果を音声としてスピーカ１２に出力する。また、翻訳装置１は、翻訳結果を文字列としてディスプレイ１４のホスト側の表示領域１５ｈに表示するとともに、認識結果及び逆翻訳結果を文字列としてディスプレイ１４のゲスト側の表示領域１５ｇに表示する。

本実施の形態の翻訳装置１のように、発話を入力する際に、発話アイコンへのタッチ操作により発話の入力期間を指定する場合、以下の課題が考えられる。図３Ａ〜図３Ｃは、発話タイミングと発話アイコンのタッチタイミング（音声区間の開始時点と終了時点）との関係を示す図である。図３Ａは、発話の終了タイミングに対して発話アイコンの２回目のタッチタイミング（音声区間の終了時点）が適切であるときのこれらの関係を示す図である。図３Ｂは、発話の終了タイミングに対して発話アイコンの２回目のタッチタイミング（音声区間の終了時点）が早いときのこれらの関係を示す図である。図３Ｃは、発話の終了タイミングに対して発話アイコンの２回目のタッチタイミング（音声区間の終了時点）が遅いときのこれらの関係を示す図である。

ホスト又はゲストが発話を行うときに、ホスト本人又はゲスト本人が発話アイコン１４ｈ、１４ｇを操作する場合、図３Ａに示すように、発話タイミングに対して発話アイコンの１回目及び２回目のタッチタイミング（すなわち、音声区間の開始時点及び終了時点）が略一致すれば問題ない。

しかし、ゲストが発話を行うときに、ゲスト本人に代わりホストが発話アイコン１４ｈｇを操作して音声区間を決定するという要望が生じる場合、図３Ｂ及び図３Ｃに示すように、例えば発話の終了タイミングに対して発話アイコンの２回目のタッチタイミング（すなわち、音声区間の終了時点）が適切でない場合がある。例えば、図３Ｂに示すように、ホストが、ゲストの発話が終了したと思い、発話アイコンをタッチしたところ、ゲストの発話が続いてしまうことがある。このとき、発話の終了タイミングに対して発話アイコンの２回目のタッチタイミング（音声区間の終了時点）が早くなってしまう。この場合、音声認識の精度が低下し、その結果翻訳の精度が低下することがある。そのため、発話アイコンの２回目のタッチ操作（音声区間の終了時点の決定）をキャンセルしたいという要望が生じる。また、図３Ｃに示すように、ホストが、ゲストの発話がまだ終了していないと思っていたところ、ゲストの発話が終了してしまっていることがある。このとき、発話の終了タイミングに対して発話アイコンの２回目のタッチタイミング（すなわち、音声区間の終了時点）が遅くなってしまう。この場合、音声認識の精度が低下し、その結果翻訳の精度が低下することがある。そのため、発話アイコンの２回目のタッチタイミング（音声区間の終了時点）を遡らせたいという要望が生じる。

本実施の形態では、このような課題を解決するものであり、音声区間の終了時点をリアルタイムで調整し、音声認識の精度を向上するための構成を説明する。

［１−２−２．動作の詳細］
以上のように構成された翻訳装置１の動作の詳細を、図４〜図８Ｃを用いて以下に説明する。以下では、ホストが発話する日本語の音声をゲストの言語である英語に翻訳する際に、ホスト本人が翻訳装置１のディスプレイ１４に表示された発話アイコン１４ｈを操作する一例について説明する。

［１−２−２−１．翻訳動作］
図４は、実施の形態１にかかる翻訳装置１の制御部２２による翻訳動作を示すフローチャートである。制御部２２は、図１に示すように発話アイコン１４ｈ、１４ｈｇ、１４ｇをディスプレイ１４に表示している。タッチパネル１６におけるディスプレイ１４の発話アイコン１４ｈに対してホストによりタッチ操作が行われると、制御部２２は、図４に示すように、ホストの音声を認識して文字列の音声認識データを生成する音声認識を行う（Ｓ１）。音声認識動作（音声入力動作）の詳細は後述する。

次に、制御部２２は、音声認識結果の音声認識データを通信部１８及びネットワーク２を介して翻訳サーバ４に送信する（Ｓ２）。このとき、翻訳サーバ４は、受信した音声認識データを翻訳して文字列の翻訳データを生成する。具体的には、翻訳サーバ４は、日本語−英語の翻訳辞書を参照して、音声認識データに対応した翻訳データを生成する。また、翻訳サーバ４は、翻訳データを翻訳前の言語（日本語）に逆翻訳して文字列の逆翻訳データを生成する。具体的には、翻訳サーバ４は、英語−日本語の翻訳辞書を参照して、翻訳データに対応した逆翻訳データを生成する。

次に、制御部２２は、翻訳サーバ４からネットワーク２及び通信部１８を介して、翻訳データ及び逆翻訳データを受信する（Ｓ３）。次に、制御部２２は、受信した翻訳データを通信部１８及びネットワーク２を介して音声合成サーバ５に送信する（Ｓ４）。このとき、音声合成サーバ５は、受信した翻訳データの音声合成を行って音声信号を生成する。具体的には、音声合成サーバ５は、英語の音声合成の参照テーブルを参照して、文字列の翻訳データを音声信号に変換する。

次に、制御部２２は、音声合成サーバ５からネットワーク２及び通信部１８を介して、音声信号を受信する（Ｓ５）。次に、制御部２２は、ステップＳ３で受信した翻訳データを表示するための文字画像を生成し、この文字画像をディスプレイ１４のゲスト側の表示領域１５ｇに表示する（Ｓ６）。また、制御部２２は、ステップＳ３で受信した逆翻訳データを表示するための文字画像を生成し、この文字画像をディスプレイ１４のホスト側の表示領域１５ｈに表示する（Ｓ６）。さらに、制御部２２は、ステップＳ５で受信した音声信号に応じた音声をスピーカ１２から出力させる（Ｓ７）。

以上のようにして、ホストの発話が翻訳され、翻訳結果が音声及び文字情報でゲストに提示される。

［１−２−２−２．音声認識動作（音声入力動作）］
次に、上述した図４におけるステップＳ１の音声認識動作（本実施の形態の音声入力動作）の詳細を、図５を参照して説明する。図５は、実施の形態１にかかる翻訳装置１の音声認識装置（音声入力装置）１００の制御部２２による音声認識動作（音声入力動作）を示すフローチャートである。

図５に示すように、制御部２２は、タッチパネル１６におけるディスプレイ１４の発話アイコン１４ｈをホストが１回目にタッチしたことを検知すると（Ｓ１０）、１回目のタッチ検知時点を、音声認識を行う音声区間の開始時点として決定する（Ｓ２０）。このとき、制御部２２は、マイク１０を有効にして、マイク１０から出力されるデジタル音声データを記憶部２０に記憶する。すなわち、制御部２２は録音を開始する。

次に、制御部２２は、タッチパネル１６におけるディスプレイ１４の発話アイコン１４ｈをホストが２回目にタッチしたことを検知すると（Ｓ３０）、２回目のタッチ検知時点を音声区間の終了時点として決定する（Ｓ４０）。このとき、制御部２２は、マイク１０から出力されるデジタル音声データを記憶部２０に記憶する。すなわち、制御部２２は録音を停止せずに継続する。音声区間の終了時点の決定動作（Ｓ４０）の詳細は後述する。なお、制御部２２は、２回目のタッチ検知時点から所定期間（数秒程度）だけ録音を継続してから、録音を停止してもよい。また、制御部２２は、後述するように、音声区間の終了時点の調整が完了するまで録音を継続してから、録音を停止してもよい。

次に、制御部２２は、決定した開始時点から終了時点までの音声区間に対応する音声データを記憶部２０から読み出し、通信部１８及びネットワーク２を介して音声認識サーバ３に送信する（Ｓ５０）。このとき、音声認識サーバ３は、受信した音声データの音声認識を行って文字列の音声認識データを生成する。具体的には、音声認識サーバ３は、日本語の音声認識の参照テーブルを参照して、デジタル音声データを文字列の音声認識データに変換する。

次に、制御部２２は、音声認識サーバ３からネットワーク２及び通信部１８を介して、音声認識データを音声認識結果として受信する（Ｓ６０）。その後、制御部２２は、音声認識データを表示するための文字画像を生成し、この文字画像をディスプレイ１４のホスト側の表示領域１５ｈに表示する（Ｓ７０）。

［１−２−２−３．音声区間の終了時点の決定動作］
次に、上述した図５におけるステップＳ４０の音声区間の終了時点の決定動作について、図６〜図８Ｃを参照して説明する。

まず、図７Ａ〜図７Ｃ及び図８Ａ〜図８Ｃを用いて、音声区間の終了時点の決定及び変更のためのユーザ操作を説明する。図７Ａ〜図７Ｃは、音声区間の終了時点を決定するためのホストによる２回目のタッチ操作の一例を示す図である。図８Ａ〜図８Ｃは、音声区間の終了時点を変更するためのホストによる２回目のタッチ操作の一例を示す図である。ホストは、音声入力の開始後、図７Ａに示すように指で発話アイコン１４ｈに触れるタッチ操作を行うことにより、その時点を音声区間の終了時点として一旦決定する。その後、ホストは、図７Ｂに示すように指を右にスライドするスライド操作を行うことにより、一旦決定された音声区間の終了時点をキャンセルすることができる。また、ホストは、音声入力の開始後、図８Ａに示すように指で発話アイコン１４ｈに触れることにより、その時点を音声区間の終了時点として一旦決定する。その後、ホストは、図８Ｂに示すように指を左にスライドするスライド操作を行うことにより、一旦決定された音声区間の終了時点を時間的に前へシフトすることができる。

図６は、実施の形態１にかかる翻訳装置１の音声認識装置（音声入力装置）１００の制御部２２による音声区間の終了時点の決定動作を示すフローチャートである。

図６に示すように、タッチパネル１６におけるディスプレイ１４の発話アイコン１４ｈがホストにより２回目にタッチされると、制御部２２は、タッチされた時刻及び位置を記憶部２０に記憶する（Ｓ１０１）（図７Ａ及び図８Ａ）。次に、制御部２２は、ホストの指がタッチされた位置から右にスライドしたか否かを判断する（Ｓ１０２）。ホストの指が右にスライドした場合、制御部２２は、図７Ｂに示すように、ホストによる２回目のタッチをキャンセルすることをホストに確定させるための確定アイコン１４Ａを発話アイコン１４ｈに隣接してディスプレイ１４に表示する（Ｓ１０３）。次に、制御部２２は、タッチパネル１６における確定アイコン１４Ａ上でホストの指がタッチパネルから離れたか否かを判断する（Ｓ１０４）。図７Ｃに示すように、タッチパネル１６における確定アイコン１４Ａ上でホストの指が離れた場合、制御部２２は、図５におけるステップＳ３０に戻り、上記したステップＳ３０以降の処理を繰り返す。ステップＳ１０４で確定アイコン１４Ａ以外の場所でホストが指を離した場合、制御部２２は、ユーザがキャンセル操作を確定させなかったと判断する。この場合、制御部２２は、後述するステップＳ１０９においてホストが指を離したと判定された場合と同じ扱いとし、ステップＳ１１０に移行する。

このように、発話の終了タイミングに対して発話アイコン１４ｈの２回目のタッチタイミング（音声区間の終了時点）が早かったとき、ホストはタッチしたまま離さずに右スライドを行うことにより、２回目のタッチ操作（すなわち音声区間の終了時点の決定操作）をキャンセルすることができる。よって、音声区間の終了時点をリアルタイムで調整し、音声認識の精度を向上することができる。

一方、ステップＳ１０２において、ホストの指が右にスライドしていない場合、次に、制御部２２は、ホストの指が左にスライドしたか否かを判断する（Ｓ１０５）。ホストの指が左にスライドした場合、制御部２２は、図８Ｂに示すように、記憶したホストによる２回目のタッチの時刻を前へシフトするための選択アイコン１４Ｂ、１４Ｃ、１４Ｄを発話アイコン１４ｈに隣接してディスプレイ１４に表示する（Ｓ１０６）。次に、制御部２２は、選択アイコン１４Ｂ、１４Ｃ、１４Ｄ上でホストの指が離れたか否かを判断する（Ｓ１０７）。図８Ｃに示すように、例えば選択アイコン１４Ｃ上でホストの指が離れた場合、制御部２２は、選択された選択アイコン１４Ｃが示すシフト時間２秒を、記憶した２回目のタッチの時刻から差し引いた時刻を、音声区間の終了時点として決定する（Ｓ１０８）。その後、本処理を終了する。ステップＳ１０７で選択アイコン１４Ｂ、１４Ｃ、１４Ｄ以外の場所でホストが指を離した場合、制御部２２は、ユーザがシフト操作を確定させなかったと判断する。この場合、制御部２２は、後述するステップＳ１０９においてホストが指を離したと判定された場合と同じ扱いとし、ステップＳ１１０に移行する。

このように、発話の終了タイミングに対して発話アイコン１４ｈの２回目のタッチタイミング（音声区間の終了時点）が遅かったとき、ホストは指をタッチしたまま左スライドを行うことにより、２回目のタッチタイミング（すなわち音声区間の終了時点）を遡ることができる。このように、音声区間の終了時点をリアルタイムで調整し、音声認識の精度を向上することができる。

ステップＳ１０５において、ホストの指が左にスライドしていない場合、制御部２２は、ホストの指がタッチパネル１６から離れたか否かを判断する（Ｓ１０９）。ホストの指が離れていない場合、制御部２２は、上述したステップＳ１０１からステップＳ１０９の動作を繰り返す。一方、ホストの指が離れた場合、制御部２２は、記憶した２回目のタッチの時刻を、音声区間の終了時点として決定する（Ｓ１１０）。その後、本処理を終了する。なお、ステップＳ１０３、Ｓ１０６においてアイコンを表示する際に、ユーザの指がアイコン上にあるか否かでアイコンの表示を変えてもよい。表示を変えることで、指を離した場合に、ユーザは、表示が変わったアイコンの上で指を離した（そのアイコンを選択した）ことを認識することができるようになる。

本実施の形態では、ホストが発話する日本語の音声をゲストの言語である英語に翻訳する際に、ホスト本人がタッチパネル１６における発話アイコン１４ｈをタッチ操作した場合の動作の一例について説明した。しかし、本開示は、例えば、ゲストが発話する英語の音声をホストの言語である日本語に翻訳する際に、ゲスト本人に代わりホストがタッチパネル１６における発話アイコン１４ｈｇを操作するような場面でより効果を奏する。例えば、図３Ｂに示すように、ホストが、ゲストの発話が終了したと思い、発話アイコン１４ｈｇをタッチしたところ、発話が続いてしまい、発話の終了タイミングに対して発話アイコン１４ｈｇの２回目のタッチタイミング（音声区間の終了時点）が早くなってしまうようなことがある。このような場面で、ホストは、発話アイコン１４ｈｇの２回目のタッチ操作（音声区間の終了時点の決定）をキャンセルすることができる。また、図３Ｃに示すように、ホストが、ゲストの発話がまだ終了していないと思っていたところ発話が終了しており、発話の終了タイミングに対して発話アイコン１４ｈｇの２回目のタッチタイミング（すなわち、音声区間の終了時点）が遅くなってしまうようなことがある。このような場面で、ホストは、発話アイコン１４ｈｇの２回目のタッチタイミング（音声区間の終了時点）を遡らせることができる。

［１−３．効果等］
以上のように、本実施の形態において、音声認識装置（音声入力装置）１００は、マイク１０と、記憶部２０と、タッチパネル１６と、制御部２２とを備える。マイク１０は、音声を取得し、音声に応じた音声データを生成する。記憶部２０は、マイク１０からの音声データを記憶する。タッチパネル１６は、ユーザにより操作される。制御部２２は、記憶部２０に記憶された音声データにおいて、タッチパネル１６に対するユーザ操作に基づき音声認識を行う音声区間を決定する。そして、制御部２２は、ユーザによるタッチパネル１６に対するスライド操作（所定の操作の一例）を検知したときに、決定した音声区間を調整する。

また、記憶部２０により記憶される音声データの区間は、制御部２２により決定される音声区間よりも長い区間である。

また、制御部２２は、タッチパネル１６に対するタッチ操作に基づき音声区間の終了時点を決定し、スライド操作を検知したときに、終了時点を変更する。

これにより、発話の終了タイミングに対して発話アイコン１４ｈの２回目のタッチタイミング（音声区間の終了時点）が早かったとき、ユーザは例えば右スライド操作（所定方向と反対方向へのスライド操作）を行うことにより、２回目のタッチ操作（すなわち音声区間の終了時点の決定操作）をキャンセルすることができる。また、発話の終了タイミングに対して発話アイコン１４ｈの２回目のタッチタイミング（音声区間の終了時点）が遅かったとき、ユーザは例えば左スライド操作（所定方向へのスライド操作）を行うことにより、２回目のタッチタイミング（すなわち音声区間の終了時点）を時間的に２回目のタッチ操作の時刻よりも前へシフトさせることができる。そのため、音声区間の終了時点をリアルタイムで修正し、音声認識の精度を向上することができる。

（実施の形態１の変形例）
実施の形態１にかかる翻訳装置１は、ユーザによる右スライド操作を検知したときに、音声区間の終了時点をキャンセルすることをユーザに確定させるための確定アイコン１４Ａを表示した。また、実施の形態１にかかる翻訳装置１は、ユーザによる左スライド操作を検知したときに、音声区間の終了時点を時間的に前へシフトさせる時間をユーザに選択させるための選択アイコン１４Ｂ、１４Ｃ、１４Ｄを表示した。実施の形態１の変形例にかかる翻訳装置１は、ユーザによる右スライド操作を検知したときに、確定アイコン１４Ａを表示することなく、ユーザによる２回目のタッチ操作をキャンセルする。また、実施の形態１の変形例にかかる翻訳装置１は、ユーザによる左スライド操作を検知したときに、選択アイコン１４Ｂ、１４Ｃ、１４Ｄを表示することなく、所定時間だけホストによる２回目のタッチ時刻を時間的に前へシフトさせる。

図９は、図５におけるステップＳ４０の翻訳装置１の音声認識装置（音声入力装置）１００の制御部２２による音声区間の終了時点の決定動作の別の例を示すフローチャートである。

図９に示すように、ステップＳ１０２において、ホストの指が右にスライドした場合、制御部２２は、確定アイコン１４Ａを表示せずに、図５におけるステップＳ３０に戻り、上記したステップＳ３０以降の処理を繰り返す。

また、ステップＳ１０５において、ホストの指が左にスライドした場合、制御部２２は、選択アイコン１４Ｂ、１４Ｃ、１４Ｄを表示せずに、所定時間をホストより２回目にタッチされた時刻から差し引いた時刻を、音声区間の終了時点として決定する（Ｓ１０８Ａ）。その後、本処理を終了する。このような方法においても音声区間の終了時点を変更することができる。

（実施の形態２）
実施の形態１にかかる翻訳装置１は、音声区間の終了時点の調整完了後に、最終の音声認識結果を表示した。実施の形態２にかかる翻訳装置１は、音声区間の終了時点を調整する際に、スライド操作に応じた音声認識結果をリアルタイムで表示する。

図１０Ａ〜図１０Ｄは、実施の形態２にかかる翻訳装置１の音声認識装置（音声入力装置）１００の制御部２２による音声区間の終了時点の決定動作における表示の一例、及び、ホストによる２回目のタッチ操作の一例を示す図である。図１０Ａは、タッチ操作において、ホストの指がタッチパネル１６におけるディスプレイ１４の発話アイコン１４ｈにタッチされた様子を示す。図１０Ｂは、その後ホストの指が左にスライドされた様子を示す。図１０Ｃは、さらにその後ホストの指が右にスライドされた様子を示す。図１０Ｄは、発話内容３０と図１０Ａ〜図１０Ｃにおいて、ディスプレイ１４の表示領域１５ｈに表示される音声認識結果の一例を示す。

例えば、ホストが発話内容３０を発話する際に、発話内容３０の途中の時点３１ａで２回目のタッチ操作を行った場合（図１０Ａ参照）、図１０Ｄに示すようにディスプレイ１４の表示領域１５ｈにはその時点に対応する音声認識結果３１ｂが表示される。このときホストが左スライド操作を行うと（図１０Ｂ参照）、図１０Ｄに示すように表示領域１５ｈには一つ前の時点３２ａに対応した音声認識結果３２ｂが表示される。その後、ホストが右スライド操作を行うと（図１０Ｃ参照）、図１０Ｄに示すように表示領域１５ｈの表示は一つ先の時点３３ａに対応した音声認識結果３３ｂに戻る。さらにホストが右スライド操作を行うと、一つ先の時点３４ａに対応した音声認識結果３４ｂが表示される。このように、実施の形態２の翻訳装置１によれば、ホストは音声認識結果をリアルタイムに確認しながら、音声区間の終了時点を調整することができる。

実施の形態２にかかる翻訳装置１の構成は、図１及び図２を参照して説明した実施の形態１のものと基本的に同様であるが、翻訳装置１の音声認識装置（音声入力装置）１００の制御部２２の機能、動作が前述のものと異なる。以下、図１１〜１６を用いて、実施の形態２にかかる翻訳装置１の音声認識装置（音声入力装置）１００の動作を説明する。

（音声認識データの取得）
図１０Ａ〜図１０Ｄを用いて説明した音声認識動作における逐次表示のための音声認識データの取得動作を説明する。図１１は、音声認識動作における音声認識結果の逐次表示のための音声認識データの取得動作を示すフローチャートである。図１２は、逐次表示のための音声認識データの取得動作を説明するための図である。図１３は、逐次表示のための音声認識データの一例を示す図である。

制御部２２は、タッチパネル１６におけるディスプレイ１４の発話アイコン１４ｈをホストが１回目にタッチしたことを検知すると（Ｓ８１）、１回目のタッチ検知時点を音声区間の開始時点として決定する（Ｓ８２）。このとき、制御部２２は、マイク１０を有効にして、マイク１０から出力されるデジタル音声データを記憶部２０に記憶する。すなわち、制御部２２は、録音を開始する。

このとき、制御部２２は、タイマーを０にセットする（Ｓ８３）。次に、制御部２２は、タイマーが所定時間ｔ１（例えば５００ｍｓ）に達したか否かを判定し（Ｓ８４）、タイマーが所定時間ｔ１に達するまで録音を継続する。タイマーが所定時間ｔ１に達した場合、制御部２２は、図１２に示すように、録音開始から現時点までの音声データＶｉ（ｉ＝０、１、２・・・）を記憶部２０から読み出し、通信部１８及びネットワーク２を介して音声認識サーバ３に送信する（Ｓ８５）。このとき、音声認識サーバ３は、受信する音声データＶｉを音声認識して音声認識データを生成する。

次に、制御部２２は、音声認識サーバ３からネットワーク２及び通信部１８を介して音声認識データＲｉを受信し、記憶部２０に記憶する（Ｓ８６）。このとき、制御部２２は、受信した音声認識データＲｉにデータ番号ｒｉ（ｉ＝０、１、２・・・）を付与して、図１３に示すように例えば参照テーブルとして音声認識データを記憶部２０に記憶する。次に、制御部２２は、翻訳アプリの終了命令があるか否かを判定する（Ｓ８７）。翻訳アプリの終了命令は、ホストが翻訳アプリを終了するときに生成される命令である。終了命令がない場合には、上記したステップＳ８１〜Ｓ８５の動作を繰り返す。一方、終了命令がある場合には、録音を終了すると共に、マイクを無効にして本処理を終了する。

このようにして、制御部２２は、録音開始から現時点までに記憶部２０に録音された音声データＶ０、Ｖ１、Ｖ２・・・Ｖｎを所定時間ｔ１ごとに逐次音声認識して（図１２参照）、音声認識データＲ０、Ｒ１、Ｒ２・・・Ｒｎを記憶部２０に記憶する（図１３参照）。

（音声認識動作）
次に、本実施の形態２における音声認識動作（図４に示すフローチャートにおけるステップＳ１の動作）について説明する。特に本実施の形態では、記憶部２０に記憶した逐次音声認識結果の音声認識データＲ０、Ｒ１、Ｒ２・・・Ｒｎを用いた音声認識動作を説明する。図１４は、実施の形態２にかかる翻訳装置１の音声認識装置（音声入力装置）１００の制御部２２による音声認識動作を示すフローチャートである。図１４に示す処理は、図１１に示す処理と並列に動作する。

まず、制御部２２は、ホストによる１回目のタッチ操作に基づき、音声区間の開始時点を決定する（Ｓ１０、Ｓ２０）。次に、制御部２２は、ホストによる２回目のタッチの検知を行う（Ｓ３０）。

ホストによる２回目のタッチを検知すると、制御部２２は、２回目のタッチ検知時点を音声区間の終了時点として決定する（Ｓ４０Ａ）。音声区間の終了時点の決定動作の詳細は後述する。

次に、制御部２２は、現在表示している音声認識データを音声認識結果として確定する（Ｓ７０Ａ）。

（音声区間の終了時点の決定動作）
次に、上述した図１４におけるステップＳ４０Ａの音声区間の終了時点の決定動作について、図１５及び図１６Ａ〜図１６Ｃを参照して説明する。図１５は、実施の形態２にかかる翻訳装置１の音声認識装置（音声入力装置）１００の制御部２２による音声区間の終了時点の決定動作を示すフローチャートである。図１６Ａ〜図１６Ｃは、音声区間の終了時点の決定動作を説明するための図である。

図１５に示すように、制御部２２は、発話アイコン１４ｈをホストが２回目にタッチした時点で記憶部２０に記憶された最新の音声認識結果である音声認識データＲｉをディスプレイ１４のホスト側の表示領域１５ｈに表示する（Ｓ２０１）。例えば図１６Ａの記憶部２０の参照テーブルの一例では、最新の音声認識結果である音声認識データＲ７を表示する。

次に、制御部２２は、ホストの指が右にスライドしたか否かを判断する（Ｓ２０２）。ホストの指が右にスライドした場合、制御部２２は、記憶部２０に記憶されている音声認識データのうちの現在表示している音声認識データＲｉの一つ後に取得した音声認識データＲ（ｉ＋１）を表示領域１５ｈに表示する（Ｓ２０３）。例えば図１６Ｂにおいて、音声認識データＲ７の一つ後に取得した音声認識結果である音声認識データＲ８を表示する。その後、上述したステップＳ２０２に戻る。

一方、ステップＳ２０２において、ホストの指が右にスライドしていない場合、次に、制御部２２は、ホストの指が左にスライドしたか否かを判断する（Ｓ２０４）。ホストの指が左にスライドした場合、制御部２２は、記憶部２０に記憶されている音声認識データのうちの現在表示している音声認識データＲｉの一つ前に取得した音声認識データＲ（ｉ−１）を表示領域１５ｈに表示する（Ｓ２０５）。例えば図１６Ｃにおいて、音声認識データＲ７の一つ前に取得した音声認識結果である音声認識データＲ６を表示する。その後、ステップＳ２０２に戻る。

ステップＳ２０４において、ホストの指が左にスライドしていない場合、次に、制御部２２は、ホストの指が離れたか否かを判断する（Ｓ２０６）。ホストの指が離れていない場合、制御部２２は、ステップＳ２０２に戻り、上述の動作を繰り返す。一方、ホストの指が離れた場合、制御部２２は、現在表示の音声認識結果に対応した音声区間の終了時点を、音声区間の終了時点として決定する（Ｓ２０７）。その後、上述した図１４におけるステップＳ７０Ａの動作が行われる。

以上のように、本実施の形態２の翻訳装置１によれば、ホストの指のスライド操作に応じて変化する音声区間の終了時点に応じて表示される音声認識結果がリアルタイムで変更される。そのため、ホストは、音声認識結果をリアルタイムに確認しながら、音声区間の終了時点を調整することができる。すなわち、制御部２２は、調整された音声区間に対応する音声認識結果を示す文字列をディスプレイ１４の表示領域１５ｈに表示する。

（実施の形態３）
実施の形態２にかかる翻訳装置１は、逐次音声認識を行い、音声区間の終了時点を調整する際にこれらの逐次音声認識の結果をリアルタイムで表示した。これに対して、実施の形態３にかかる翻訳装置１は、音声区間の終了時点を調整する際にその都度音声認識結果を取得し、その音声認識結果をリアルタイムで表示する。

実施の形態３にかかる翻訳装置１の構成は、図１及び図２を参照して説明した実施の形態１のものと基本的に同様であるが、翻訳装置１の音声認識装置（音声入力装置）１００の制御部２２の機能、動作が前述のものと異なる。以下、図１７を用いて、実施の形態３にかかる翻訳装置１の音声認識装置（音声入力装置）１００の動作を説明する。

（音声区間の終了時点の決定動作）
上述した図１４におけるステップＳ４０Ａの音声区間の終了時点の決定動作について、図１７を参照して説明する。本実施の形態にかかる翻訳装置１は、実施の形態２で説明した音声認識装置１００の動作において、図１５のフローチャートに示す動作に代えて、図１７のフローチャートに示す動作を行う。図１７は、実施の形態３にかかる翻訳装置１の音声認識装置（音声入力装置）１００の制御部２２による音声区間の終了時点の決定動作を示すフローチャートである。

図１７に示すように、制御部２２は、発話アイコン１４ｈをホストが２回目にタッチした時刻を音声区間の終了時点として決定する（Ｓ３０１）。次に、制御部２２は、決定した音声区間に対応する音声データを記憶部２０から抽出して、通信部１８及びネットワーク２を介して音声認識サーバ３に送信する（Ｓ３０２）。このとき、音声認識サーバ３は、受信した音声データに基づき音声認識を行って文字列の音声認識データを生成する。

次に、制御部２２は、音声認識サーバ３からネットワーク２及び通信部１８を介して音声認識データを受信する（Ｓ３０３）。次に、制御部２２は、音声認識データを表示するための文字画像を生成し、この文字画像をディスプレイ１４のホスト側の表示領域１５ｈに表示する（Ｓ３０３）。

次に、制御部２２は、ホストの指が右にスライドしたか否かを判断する（Ｓ３０４）。ホストの指が右にスライドした場合、制御部２２は、音声区間の終了時点を所定時間だけ後へシフトさせるように決定する（Ｓ３０５）。その後、制御部２２は、上述したステップＳ３０２、Ｓ３０３の動作を繰り返し、変更された音声区間の音声データの音声認識結果を表示領域１５ｈに表示し直す。

一方、ステップＳ３０４において、ホストの指が右にスライドしていない場合、制御部２２は、ホストの指が左にスライドしたか否かを判断する（Ｓ３０６）。ホストの指が左にスライドした場合、制御部２２は、音声区間の終了時点を所定時間だけ前にシフトさせるように決定する（Ｓ３０７）。その後、制御部２２は、上述したステップＳ３０２、Ｓ３０３の動作を繰り返し、変更された音声区間の音声データの音声認識結果を表示領域１５ｈに表示し直す。

ステップＳ３０６において、ホストの指が左にスライドしていない場合、制御部２２は、ホストの指が離れたか否かを判断する（Ｓ３０８）。ホストの指が離れていない場合、制御部２２は、上述したステップＳ３０４に戻る。一方、ホストの指が離れた場合、制御部２２は、現在表示の音声認識結果に対応した音声区間の終了時点を、音声区間の終了時点として決定する（Ｓ３０９）。

以上のような制御によっても、ホストの指のスライド操作に応じて変化する音声区間の終了時点に応じて表示される音声認識結果がリアルタイムで変更される。そのため、実施の形態２の翻訳装置１と同様に、ホストは音声認識結果をリアルタイムに確認しながら、音声区間の終了時点を調整することができる。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態１〜３を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態１〜３で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。

（１）上記の実施の形態では、ユーザの指が発話アイコンに触れ、離れずにスライド操作（所定の操作）が行われたとき、音声区間の終了時点を調整した。しかし、本開示はこれに限定されず、ユーザの指が発話アイコンに触れ、離れた後でも、所定時間以上長押しされた後にスライド操作が行われたときに、音声区間の終了時点を変更するようにしてもよい。

（２）上記の実施の形態では、音声区間の終了時点を調整する所定の操作として、タッチパネルに対するスライド操作を例示した。しかし、本開示はこれに限定されず、所定の操作として、機械式ボタンに対する押下操作、傾きセンサに対する傾ける操作や振る操作などの種々の操作が適用可能である。

（３）上記の実施の形態では、音声認識を行う音声区間をユーザの操作により決定する手動認識において、音声区間の終了時点を変更する形態を説明した。しかし、本開示はこれに限定されず、音声区間を自動で決定する自動認識機能において、自動で認識された音声区間の終了時点を手動で調整できるように本開示の制御を行ってもよい。

（４）上記の実施の形態では、音声区間の終了時点を変更する形態を説明した。しかし、本開示はこれに限定されず、本開示の制御を音声区間の開始時点を変更する制御に適用してもよい。例えば、制御部２２は、ユーザの指によるスライド操作を検知したときに、音声区間の開始時点を前または後へ調整してもよい。この場合、制御部２２は、常時音声録音を行い、シフトされた開始時点を音声区間の開始時点として決定すればよい。このとき、記憶部２０は録音された音声をすべて記憶する必要はなく、制御部２２は、適宜不必要な音声を削除してもよい。また、２回目のタッチ操作を行った後に、ユーザが所定時間内に次の音声区間の開始時点を決定するためのタッチ操作をさらに行った場合、制御部２２は、連続して音声録音を行ってもよい。

また、制御部２２は、ディスプレイ１４が音声区間を示す画像を表示した状態で、以下のユーザ操作を検知した際に、音声区間の開始時点の調整、音声区間の終了時点の調整、または音声区間全体のシフトを行ってもよい。すなわち、制御部２２は、音声区間を示す画像の先頭付近への２回目のタッチ操作およびスライド操作を検知した際に、音声区間の開始時点の調整を行ってもよい。また、制御部２２は、音声区間を示す画像の末尾付近への２回目のタッチ操作およびスライド操作を検知した際に、音声区間の終了時点の調整を行ってもよい。また、制御部２２は、音声区間を示す画像の中央付近への２回目のタッチ操作およびスライド操作を検知した際に、固定した音声区間を前後にシフトしてもよい。これにより、制御部２２は、ユーザ操作に応じた音声区間の調整を行うことができる。

（５）上記の実施の形態では、音声認識を音声認識サーバで行い、翻訳を翻訳サーバで行い、音声合成を音声合成サーバで行ったが、本開示はこれに限定されず、音声認識、翻訳、音声合成を翻訳装置内で行ってもよい。この場合、記憶部２０は、音声認識のための参照テーブル、音声合成のための参照テーブルを複数の言語ごとに格納すればよい。音声認識のための参照テーブルは、文字データとそのデジタル音声データとが対応付けされたテーブルである。音声合成のための参照テーブルは、文字データとその音声信号の特徴とが対応付けされたテーブルである。また、記憶部２０は、翻訳のための複数の翻訳辞書を、言語翻訳（例えば、日本語から英語への言語翻訳、英語から日本語への言語翻訳）の種類ごとに格納すればよい。翻訳辞書は、文字列（テキスト）の音声認識データと文字列の翻訳データとが対応付けされた辞書である。

（６）上記の実施の形態では、音声認識、翻訳、及び、音声合成の言語として日本語と英語を例示したが、音声認識、翻訳、及び、音声合成の対象とする言語は日本語と英語に限定されず、他の言語でもよい。

（７）上記の実施の形態では、翻訳装置に適用可能な音声認識装置（音声入力装置）を説明したが、本開示の思想はこれに限定されず、翻訳装置以外の電子装置にも適用可能である。例えば、教育アプリケーションや対話アプリケーション等の音声入力及び音声認識を行う種々の電子装置に適用可能である。

（８）上記の実施の形態では、制御部２２は、図６のステップＳ１０３において確定アイコン１４Ａを表示したが、これに代えて、２回目のタッチの時刻を後へシフトするための選択アイコンをディスプレイ１４に表示してもよい。ユーザはこの選択アイコン上で指を離すことにより、音声区間の終了時点を２回目のタッチ操作の時刻よりも後に変更することができる。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

また、上述の実施の形態に係る音声入力方法をコンピュータに実行させるための音声入力プログラムおよびそのプログラムを記憶したプログラム記憶媒体も本開示の範囲内に含まれる。

本開示は、音声を取得し、音声認識を行う音声区間を決定する音声入力装置に適用可能である。

１翻訳装置
２ネットワーク
３音声認識サーバ
４翻訳サーバ
５音声合成サーバ
１０マイク（入力部）
１２スピーカ（出力部）
１４ディスプレイ（表示部）
１６タッチパネル（操作部）
１８通信部
２０記憶部
２２制御部
１４ｈ，１４ｇ，１４ｈｇ発話アイコン
１４Ａ確定アイコン
１４Ｂ，１４Ｃ，１４Ｄ選択アイコン
１５ｈ，１５ｇ表示領域
１００音声認識装置（音声入力装置）
２００翻訳出力部

Claims

音声を取得し、前記音声に応じた音声データを生成する入力部と、
前記入力部からの前記音声データを記憶する記憶部と、
ユーザにより操作されるタッチパネルと、
前記記憶部に記憶された前記音声データにおいて、前記タッチパネルに対するタッチ操作に基づき音声認識を行う音声区間を決定する制御部と、
を備え、
前記制御部は、ユーザによる前記タッチパネルに対するスライド操作を検知したときに、決定した前記音声区間を調整する、
音声入力装置。
前記記憶部により記憶される前記音声データの区間は、前記制御部により決定される前記音声区間よりも長い区間である、
請求項１に記載の音声入力装置。
前記制御部は、前記タッチ操作に基づき前記音声区間の開始時点を決定し、前記スライド操作を検知したときに、前記開始時点を調整する、
請求項１に記載の音声入力装置。
前記制御部は、
前記スライド操作の方向が所定方向である場合に、前記開始時点を前記タッチ操作の時刻よりも前に調整し、
前記スライド操作の方向が前記所定方向の反対方向である場合に、前記開始時点を前記タッチ操作の時刻よりも後に調整する、
請求項３に記載の音声入力装置。
前記制御部は、前記タッチ操作に基づき前記音声区間の終了時点を決定し、前記スライド操作を検知したときに、前記終了時点を調整する、
請求項１に記載の音声入力装置。
前記制御部は、
前記スライド操作の方向が所定方向である場合に、前記終了時点を前記タッチ操作の時刻よりも前に調整し、
前記スライド操作の方向が前記所定方向の反対方向である場合に、前記終了時点を前記タッチ操作の時刻よりも後に調整する、
請求項５に記載の音声入力装置。
前記制御部は、
前記スライド操作を検知したときに、前記終了時点の決定をキャンセルする、
請求項５に記載の音声入力装置。
表示部をさらに備え、
前記制御部は、前記スライド操作を検知したときに、前記音声区間を調整するための時間をユーザに選択させるためのアイコンを前記表示部に表示する、
請求項１に記載の音声入力装置。
表示部をさらに備え、
前記制御部は、前記スライド操作を検知したときに、前記音声区間の決定をキャンセルすることをユーザに確定させるためのアイコンを前記表示部に表示する、
請求項１に記載の音声入力装置。
表示部をさらに備え、
前記制御部は、前記音声データの音声認識結果を示す文字列を前記表示部に表示する、
請求項１に記載の音声入力装置。
前記制御部は、調整された前記音声区間に対応する前記文字列を前記表示部に表示する、
請求項１０に記載の音声入力装置。
前記音声は、前記ユーザとは異なる他のユーザの音声である、
請求項１に記載の音声入力装置。
請求項１に記載の音声入力装置と、
前記音声入力装置によって調整された前記音声区間に対応する前記音声データの音声認識結果に基づく翻訳結果を出力する出力部と、
を備える翻訳装置。
入力される音声に応じて生成された音声データを記憶部に記憶するステップと、
前記記憶部に記憶された前記音声データにおいて、タッチパネルに対するタッチ操作に基づき音声認識を行う音声区間を決定するステップと、
を含み、
前記音声区間を決定するステップは、ユーザによる前記タッチパネルに対するスライド操作を検知したときに、決定した前記音声区間を調整することを含む、
音声入力方法。
請求項１４に記載の音声入力方法をコンピュータに実行させるための音声入力プログラム。