JP2011248140A

JP2011248140A - 音声認識装置

Info

Publication number: JP2011248140A
Application number: JP2010121947A
Authority: JP
Inventors: Chikashi Sugiura; 千加志杉浦; Takehiko Isaka; 岳彦井阪
Original assignee: Fujitsu Toshiba Mobile Communication Ltd
Current assignee: Fujitsu Mobile Communications Ltd
Priority date: 2010-05-27
Filing date: 2010-05-27
Publication date: 2011-12-08

Abstract

【課題】音声入力時の操作性に優れた音声認識装置を提供する。
【解決手段】音声を記録する音声記録手段１６と、音声に基づいて音声認識処理を行う音声認識手段３３と、入力の開始または入力の終了を検出する入力手段１４と、入力手段１４が入力の開始を検出した場合に音声の記録を開始し、入力手段１４が入力の開始を検出した後所定時間以内に入力の終了を検出した場合、その後再度入力の開始を検出した場合に音声の記録を終了させる第１の集音モードに制御し、入力手段１４が入力の開始を検出したまま所定時間経過した場合、入力の終了を検出した場合に音声の記録を終了させる第２の集音モードに制御する集音モード制御手段３０とを備えた。
【選択図】図２

Description

本発明の実施形態は、音声認識装置に関する。

今日、音声入力インタフェースを利用したアプリケーションソフトは、携帯端末やカーナビゲーションシステムなどの電子機器に多く利用されている。音声入力インタフェースは、例えば、指示を音声で入力したり、入力された音声を異なる言語に翻訳したりする場合に用いられる。
ここで、ユーザが音声を入力する方法には、いくつかの方法がある。

例えば、発話を開始するときに所定のボタンを短押し、発話を終了するときに所定のボタンを短押しする方法（以下、「短押し入力モード」という。）がある。また、発話を開始するときに所定のボタンを押し、発話中にはこのボタンを押し続け、発話を終了するときにこのボタンを放す他の方法（以下、「長押し入力モード」という。）がある。

また、音声認識の精度を向上させるため、予めユーザの発話前の非発話区間の音声を取り込み、非発話区間の音声からユーザの背景雑音を推定する技術が知られている。

特開２００４−３０２１９６号公報

短押し入力モードおよび長押し入力モードは、従来から広く用いられる音声入力方法である。また、ユーザがどちらの入力方法を用いるかは、ユーザの好みに応じて決定される。このため、両者の入力方法を切り替え可能とし、ユーザに任意に設定させる音声認識装置もある。しかし、入力方法の設定をユーザに行わせることは、ユーザにとって煩雑な操作が発生してしまう。

一方、雑音は、非発話区間の音声、すなわちユーザの発話に基づく音声の背景雑音を正確に検出することで、より高い精度で推定される。しかし、短押し入力モードおよび長押し入力モードのいずれの入力方法を用いた場合であっても、ユーザが発話を始めるタイミングと、音声認識装置が音声の取り込みを始めるタイミングとを合わせることは困難である。このため、音声認識装置は、ユーザが発話する任意のタイミングから非発話区間を取り込むタイミングを見つけ出すのは難しく、雑音の推定精度を向上させるのは困難であるという課題があった。
本発明はこのような事情を考慮してなされたもので、音声入力時の操作性に優れた音声認識装置を提供することを目的とする。
また、本発明の他の目的は、音声認識の精度を向上させることにある。

実施形態の音声認識装置は、音声を記録する音声記録手段と、前記音声に基づいて音声認識処理を行う音声認識手段と、入力の開始または入力の終了を検出する入力手段と、前記入力手段が入力の開始を検出した場合に前記音声の記録を開始し、前記入力手段が前記入力の開始を検出した後所定時間以内に前記入力の終了を検出した場合、その後再度入力の開始を検出した場合に前記音声の記録を終了させる第１の集音モードに制御し、前記入力手段が入力の開始を検出したまま所定時間経過した場合、前記入力の終了を検出した場合に前記音声の記録を終了させる第２の集音モードに制御する集音モード制御手段とを備えた。

本発明に係る音声認識装置の一実施形態である携帯端末を示す外観斜視図。本実施形態における携帯端末の主な機能構成を示す概略的な機能ブロック図。音声翻訳処理時におけるタッチパネルの表示例を示す図。本実施形態における携帯端末により実行される音声翻訳処理を説明するフローチャート。本実施形態における携帯端末により実行される他の音声翻訳処理を説明するフローチャート。

本発明に係る音声認識装置の実施形態を添付図面に基づいて説明する。

本実施形態においては、音声認識装置に携帯端末を適用して説明する。しかし、音声認識装置は、携帯端末に限らず、携帯型および固定型の各種電子機器に適用することができる。
図１は、本発明に係る音声認識装置の一実施形態である携帯端末１を示す外観斜視図である。
携帯端末１は、矩形の板状の筐体１１を有する。この筐体１１は、表面の大部分にタッチパネル１２を有する。

タッチパネル１２は、文字や画像などからなる表示画面を表示する領域が設けられたディスプレイ（図２の表示部１３）を有する。このディスプレイは、例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイで構成される。

また、タッチパネル１２は、操作面に対する接触動作を検出するタッチセンサ（図２の入力部１４）を有する。タッチセンサは、ディスプレイの上面に複数配置された接触動作を検出するための素子と、さらにその上に積層された透明な操作面を有する。なお、タッチパネル１２上で接触動作を検知する方法は、圧力の変化を感知する感圧式、静電気による電気信号を感知する静電式その他の方法を適用することができる。

筐体１１は、マイクロフォン１６およびスピーカ１７を所定位置に備える。マイクロフォン１６は、例えばタッチパネル１２下部に配置され、ユーザの音声などを集音する。スピーカ１７は、例えばタッチパネル１２上部（タッチパネル１２を介してマイクロフォン１６と対向する位置）に配置され、種々の音声を出力する。

図２は、本実施形態における携帯端末１の主な機能構成を示す概略的な機能ブロック図である。携帯端末１は、主制御部２１、電源回路部２２、入力制御部２３、表示制御部２４、音声制御部２５、通信制御部２６、記憶部２８、音声処理部３０がバスによって相互に通信可能に接続されて構成されている。

主制御部２１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を有する。主制御部２１は、記憶部２８に記憶された各種プログラムに基づき動作して、携帯端末１の統括的な制御を行う。

電源回路部２２は、電力供給源（図示せず）を備える。電源回路部２２は、電源をＯＮする操作に基づいて携帯端末１の電源のＯＮ／ＯＦＦ状態を切り替える。電源回路部２２は、電源がＯＮ状態の場合に電力供給源から各部に対して電力を供給して、携帯端末１を動作可能にする。

入力制御部２３は入力部１４（タッチパネル１２）に対する入力インタフェースを備える。入力制御部２３は、所定時間毎（例えば１０ｍｓ毎）に入力部１４からの検知信号を入力位置の座標を示す入力位置情報として受け取り、その入力を示す信号を生成して主制御部２１に伝送する。

表示制御部２４は表示部１３（タッチパネル１２）に対する表示インタフェースを備える。表示制御部２４は、主制御部２１の制御に基づいて、文書データや画像信号に基づいた画像を表示部１３に表示させる。

音声制御部２５は、主制御部２１の制御に基づいて、マイクロフォン１６で集音された音声からアナログ音声信号を生成し、このアナログ音声信号をデジタル音声信号に変換する。また音声制御部２５は、デジタル音声信号を取得すると、主制御部２１の制御に基づいて、このデジタル音声信号をアナログ音声信号に変換し、スピーカ１７から音声として出力する。

通信制御部２６は、主制御部２１の制御に基づいて、基地局からアンテナ２９を介して受信した受信信号をスペクトラム逆拡散処理してデータを復元する。このデータは、主制御部２１の指示により、音声制御部２５に伝送されてスピーカ１７から出力されたり、表示制御部２４に伝送されて表示部１３に表示されたり、または記憶部２８に記録されたりする。通信制御部２６は、主制御部２１の制御に基づいて、マイクロフォン１６で集音された音声データや入力部１４を介して入力されたデータ、記憶部２８に記憶されたデータを取得すると、これらのデータに対してスペクトラム拡散処理を行う。通信制御部２６は、このスペクトラム拡散処理が行われたデータをアンテナ２９を介して基地局に向けて送信する。

記憶部２８は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やハードディスク、不揮発性メモリ、データベース、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などである。記憶部２８は、主制御部２１が行う処理についての処理プログラムや処理に必要なデータなどを格納したり、主制御部２１が処理を行う際に使用されるデータを一時的に記憶したりする。

音声処理部３０は、マイクロフォン１６より入力された音声に基づいて音声認識処理、翻訳処理をはじめとする各種処理を行う。音声処理部３０は、音声取込バッファ３１、音声検出部３２、音声認識部３３、翻訳部３４、雑音推定部３５、状態表示部３６、モード切替部３７およびコマンド認識部３８を有する。

音声取込バッファ３１は、マイクロフォン１６で集音され携帯端末１に取り込まれた音声を記憶する。本実施形態においては、マイクロフォン１６および音声取込バッファ３１は、音声記憶手段として機能する。音声取込バッファ３１は、予め決定されたサイズ（例えば音声１０秒間分）を備えたバッファを用いてもよいし、リングバッファを用いてもよい。

音声検出部３２は、マイクロフォン１６で集音された音声から発話区間と非発話区間を検出し、分離する。発話区間は、ユーザによる発話が含まれた音声の区間である。非発話区間は、ユーザによる発話が含まれない背景雑音からなる音声の区間である。
音声認識部３３は、音声検出部３２により検出された発話区間の音声を音声認識し、テキストデータを生成する。

翻訳部３４は、音声認識部３３により生成されたテキストデータを異なる言語に翻訳し、テキストデータおよび音声合成による音声データを生成し、出力する。翻訳部３４は、例えば日本語からなるテキストデータから英語からなるテキストデータおよび音声データを生成する。

雑音推定部３５は、音声検出部３２により検出された非発話区間の音声波形に基づいて雑音を推定する。音声認識部３３は、この雑音を考慮して、音声認識を行うことで、音声認識の精度を向上させる。

状態表示部３６は、ユーザに対して発話を促す旨の通知を行う。例えば状態表示部３６は、「発話してください」などの文字や画像をタッチパネル１２に表示させたり消したりする。

モード切替部３７は、音声認識部３３が音声認識を行うための音声翻訳モードを切り替える。音声翻訳モードは、複数の音声翻訳モードからなる一組のモード間で切り替え可能となっている。例えば、モード切替部３７は、標準的な音声認識を行う標準モード、標準モードより高精度に音声認識処理を行う高精度モード、および高精度モードより精度は低いが高速に音声認識処理を行う高速モードからなる一組のモード間で切替を行う。また、モード切替部３７は、単語のみからなる音声を認識させる場合に適した単語用音声認識モード、および複数の単語を含む文章からなる音声を認識させる場合に適した文章用音声認識モードからなる一組の動作モード間で切替を行う。さらに、モード切替部３７は、複数の言語間で双方向に音声翻訳が可能な場合には、翻訳前の言語である原言語と翻訳後の言語である翻訳言語との切替えを行う。

コマンド認識部３８は、所定条件下で集音された音声の音声認識結果に基づいて音声に含まれるコマンドを認識する。コマンド認識部３８の具体的な説明については、後述する。

なお、音声処理部３０で行われる処理については、公知の音声認識技術、機械翻訳技術、および音声合成技術を適用することができる。このため、ここでは音声処理部３０の詳細な構成・処理の説明は省略する。
図３は、音声翻訳処理時におけるタッチパネル１２の表示例を示す図である。

タッチパネル１２は、原言語表示領域４１、翻訳言語表示領域４２および音声入力ボタン４３を有する。原言語表示領域４１は、音声認識結果としての翻訳前の音声のテキストを表示する。翻訳言語表示領域４２は、原言語表示領域４１の下部に設けられ、音声認識結果を翻訳後の言語に機械翻訳したテキストが表示される。

音声入力ボタン４３は、音声入力の開始および終了を指示するユーザのタッチ（入力の開始）操作およびリリース（入力の終了）操作を検出する。なお、本実施形態においては、タッチの検出から所定時間以内にリリースが検出された操作を、音声入力ボタン４３の短押しという場合がある。また、タッチの検出（または音声の入力を促す表示）から所定時間経過してもリリースが検出されない操作を、音声入力ボタン４３の長押しという場合がある。

音声処理部３０は、音声入力ボタン４３に対する入力の状態に基づいて音声翻訳処理のための音声の入力の開始および終了（発話の開始および終了）を検出する。
音声処理部３０は、音声の集音モードとして、「短押し入力モード」および「長押し入力モード」を有する。

第１の集音モードとしての「短押し入力モード」は、ユーザが発話を開始するときに音声入力ボタン４３を短押しし、発話を終了するときに音声入力ボタン４３を再度短押しするモード（方法）である。

第２の集音モードとしての「長押し入力モード」は、ユーザが発話を行う間音声入力ボタン４３を長押しし続け、発話を終了するときに音声入力ボタン４３をリリースするモード（方法）である。
短押し入力モードおよび長押し入力モードは、それぞれ長所および短所を有する。

例えば、短押し入力モードは、発話中は音声入力ボタン４３をタッチ（長押し）し続けなくてもよいという長所を有する。その一方で、短押し入力モードは、発話を終了した際には再度音声入力ボタン４３をタッチしなければいけないという煩雑さがある。また、ユーザが発話の終了時に音声入力ボタン４３のタッチをし忘れてしまった場合には、集音（記録）された音声に非発話区間が多く含まれてしまうという短所もある。また、長押し入力モードは、発話を行う際には意識して音声入力ボタン４３を長押しする必要があり、他者とコミュニケーションを行う際に長押し操作がストレスになってしまうという短所を有する。

このように、短押し入力モードおよび長押し入力モードは、それぞれ長所および短所を有するため、いずれかの方法を用いるかはユーザの好みに応じて任意に選択できることが望ましい。しかし、ユーザが発話環境に応じていずれかの方法を使い分けたい場合にはその都度設定を変更する必要があり、却ってユーザに煩雑な操作を行わせてしまう。

そこで、本実施形態における携帯端末１は、この短押し入力モードと長押し入力モードとのいずれを用いて音声入力を行うかについて事前に設定することなく、短押し入力モードによる音声入力と長押し入力モードによる音声入力とを自動的に判別し、制御することができるようになっている。

また、携帯端末１は短押し入力モードにより入力された音声に対する音声翻訳処理に第１の動作モードを設定することができる。また、携帯端末１は、長押し入力モードにより入力された音声に対する音声翻訳処理に第２の動作モードを設定することができる。すなわち、携帯端末１は、音声認識の動作モードを例えば設定画面から予め設定することなく、音声入力の方法の切換に応じて動作モードを設定することができる。

第１の動作モードと第２の動作モードとには、例えば、一組の動作モードの中から選択された動作モードがそれぞれ設定される。動作モードは、例えばユーザ任意に設定されたり、予め固定値に設定されたりする。例えば、携帯端末１は、第１の動作モードに対しては上述した標準モードを設定し、第２の動作モードに対しては高精度モードを設定する。また、携帯端末１は、第１の動作モードに対しては上述した文章用音声認識モードを設定し、第２の動作モードに対しては単語用音声認識モードを設定する。

また、ユーザの発話をより正確に音声認識するためには、非発話区間の音声を取得してユーザの背景雑音の特性を測定する必要がある。ユーザの発話中の雑音特性を正確に推定するため、音声処理部３０は発話のタイミングに可能な限り近いタイミングで非発話区間の音声を取得することが望ましい。非発話区間の音声が実際の発話タイミングから大きくずれると、発話中の雑音特性と異なってしまうというリスクを有するためである。

そこで、本実施形態における、携帯端末１は、タッチパネル１２に対する表示を好適に制御することにより、非発話区間を確実に作り出して雑音の推定に用いる音声を好適に集音（記録）するようになっている。
以下、音声翻訳処理について具体的に説明する。
図４は、本実施形態における携帯端末１により実行される音声翻訳処理を説明するフローチャートである。

この音声翻訳処理は、例えば携帯端末１において実行される音声翻訳アプリケーションなどの音声入力インタフェースを備えたアプリケーションが起動した後に実行される。
なお、音声翻訳処理は、音声処理部３０を含む携帯端末１の各部が動作することにより実行されるが、ここでは主に音声処理部３０を主体として説明する。

ステップＳ１において、音声処理部３０は、音声入力ボタン４３に対するタッチが検出されたか否かの判定を行う。音声処理部３０は、タッチが検出されていないと判定した場合、検出されるまで待機する。

一方、音声処理部３０は、タッチ（一度目の入力の開始）が検出されたと判定した場合、ステップＳ２において、マイクロフォン１６より音声の集音を開始し、音声取込バッファ３１へ音声の取り込みを開始する。ステップＳ３において、音声処理部３０は、タッチが検出されてから、所定時間Ｔ１が経過したか否かの判定を行う。ここで、所定時間Ｔ１は、雑音の推定に必要な非発話区間に相当する時間（例えば５００ｍｓｅｃ）である。音声処理部３０は、所定時間Ｔ１が経過していないと判定した場合、所定時間Ｔ１が経過するまで待機する。

一方、音声処理部３０により所定時間Ｔ１が経過したと判定された場合、ステップＳ４において状態表示部３６は、音声を取り込み中である旨の通知をタッチパネル１２に表示する。ステップＳ５において、音声処理部３０の雑音推定部３５は、音声の取り込みを開始してから所定時間Ｔ１が経過するまでの間に取り込まれた音声に基づいて、雑音推定処理を行う。この雑音推定処理が行われる区間の音声は、音声の取り込み中である旨の通知が表示される前に取り込まれた音声である。このため、雑音推定処理に用いられる音声は、ユーザの発話に基づく音声が含まれない背景雑音のみの音声である可能性が高い。

ステップＳ６において、音声処理部３０は、現在時刻ＴｉｍｅＮｏｗを時刻Ｔ０として記憶する（Ｔ０＝ＴｉｍｅＮｏｗ）。ステップＳ７において、音声処理部３０は、音声入力ボタン４３のリリースが検出されたか否かの判定を行う。音声処理部３０は、ステップＳ７においてリリース（入力の終了）が検出されたと判定した場合、音声入力ボタン４３の短押しが行われたと認識し、短押し入力モードを用いた音声入力の制御を行う。ステップＳ８において、モード切替部３７は、第１の動作モードを設定する。例えば、第１の動作モードに標準モードが設定されていた場合には、モード切替部３７は、音声認識処理を標準モードで行うように設定する。

ステップＳ９において、音声処理部３０は、音声取込バッファ３１への音声取込みを継続すると同時に、音声認識部３３により音声認識処理を行う。また、音声処理部３０は、音声認識処理結果に基づいて翻訳部３４により翻訳処理を行う。ステップＳ１０において、音声処理部３０は、音声入力ボタン４３のタッチが検出されたか否かの判定を行う。なお、タッチ検出ステップＳ１０において、音声処理部３０は、タッチの検出の判定を行ってもよいし、短押し（タッチと所定時間Ｔｔｈ１以内のリリース）の検出の判定を行ってもよい。

音声処理部３０は、タッチが検出されないと判定した場合、ステップＳ１１において、ユーザの発話が終了したか否かの判定を行う。音声処理部３０は、音声検出部３２による発話区間の検出の有無に応じて発話の終了を判定する。音声処理部３０は、発話の終了を判定することにより、ユーザが発話を終えたにも係わらず音声入力ボタン４３の短押しを忘れた際にも音声の取込みを終了させることができる。音声処理部３０は、発話が終了していないと判定した場合、音声取込ステップＳ９に戻り処理を繰り返す。

一方、音声処理部３０は、タッチ検出ステップＳ１０において音声入力ボタン４３のタッチ（再度の入力の開始）が検出されたと判定した場合、および発話終了判定ステップＳ１１において発話が終了したと判定した場合、取込終了ステップＳ１８に進む。

一方、音声処理部３０は、リリース検出ステップＳ７において、リリースが検出されていないと判定した場合、ステップＳ１２において、取込開始ステップＳ２において開始した音声取り込みを継続する。

ステップＳ１３において、音声処理部３０は、時刻記憶ステップＳ６において記憶された時刻Ｔ０と現在時刻ＴｉｍｅＮｏｗとの差が、所定値Ｔｔｈより大きいか否かの判定を行う（ＴｉｍｅＮｏｗ−Ｔ０＞Ｔｔｈ）。すなわち、記憶された時刻Ｔ０から所定時間Ｔｔｈが経過したか否かの判定を行う。所定値Ｔｔｈは、ユーザが長押し入力モードを利用した音声入力を行うことを意図しているか否かを判断するために用いられる時間（音声取込中表示からの経過時間）である。この所定値Ｔｔｈは、予め設定された固定値（例えば５００ｍｓｅｃ）であってもよいし、ユーザ任意に設定された値でもよい。また、音声処理部３０のアルゴリズム遅延時間（例えば４００ｍｓｅｃ）を考慮し、所定値Ｔｔｈをこの遅延時間以上とするなど、音声認識処理が処理要件を満たす最小値以上としてもよい。さらに、この所定値Ｔｔｈは、音声翻訳処理においてのみ設定される時間でもよいし、携帯端末１全体に用いられる長押しと判定されるタッチからリリースまでの時間でもよい。

音声処理部３０は、時刻Ｔ０と現在時刻ＴｉｍｅＮｏｗとの差が、所定値Ｔｔｈ以下であると判定した場合、リリース検出ステップＳ７に戻りリリースが検出されたか否かの判定を行う。一方、音声処理部３０が時刻Ｔ０と現在時刻ＴｉｍｅＮｏｗとの差が、所定値Ｔｔｈより大きいと判定した場合、音声入力ボタン４３の長押しが行われたと認識し、長押し入力モードを用いた音声入力の制御を行う。ステップＳ１４において、モード切替部３７は、第２の動作モードを設定する。例えば、第２の動作モードに高精度モードが設定されていた場合には、モード切替部３７は、音声認識処理を高精度モードで行うように設定する。

ステップＳ１５において、音声処理部３０は、音声取込みを継続すると同時に、音声認識部３３により音声認識処理を行う。また、音声処理部３０は、音声認識結果に基づき翻訳部３４により翻訳処理を行う。ステップＳ１６において、音声処理部３０は、音声入力ボタン４３のリリースが検出されたか否かの判定を行う。音声処理部３０は、リリースが検出されていないと判定した場合、ステップＳ１７において、音声検出部３２による発話区間の検出の有無に応じて発話が終了したか否かの判定を行う。音声終了ステップＳ１７で行われる判定は、発話終了ステップＳ１１と同様の趣旨に基づくものである。なお、発話終了ステップＳ１１およびＳ１７は、省略してもよい。

一方、音声処理部３０は、リリース検出ステップＳ１６において音声入力ボタン４３のリリースが検出されたと判定した場合、および発話終了判定ステップＳ１７において発話が終了したと判定した場合、ステップＳ１８において、音声処理部３０は、音声の集音および記録（取込み）を終了する。

ステップＳ１９において、状態表示部３６は、音声を取込み中である旨の通知を終了すべくタッチパネル１２の表示を更新する。ステップＳ２０において、音声処理部３０は、音声認識結果および翻訳結果のテキストをタッチパネル１２に表示し、また合成音声をスピーカ１７より出力する。

なお、ステップＳ９およびステップＳ１５の音声認識処理および翻訳処理は、音声取込処理と並行して行ってもよいし、音声取込終了ステップＳ１８の後に行ってもよい。また、雑音推定ステップＳ５は、音声認識処理の直前に行ってもよい。また、図３の音声翻訳処理においては、翻訳処理を行う例を説明したが、音声認識処理のみを行ってもよい。

また、雑音推定部３５は、音声取込ステップＳ２から所定時間Ｔ１が経過するまでの間に記録された音声に基づいて雑音推定処理を行う例を説明した。しかし、雑音推定部３５は、音声取込ステップＳ２から所定時間Ｔ１が経過するまでの間の音声に限らず、例えば音声翻訳アプリケーション起動中は（音声入力を開始する指示入力の前から）常に音声を記録しておき、この音声に基づいて雑音推定処理を行ってもよい。例えば、音声取込中表示を行う前にユーザが発話を始めてしまい、音声取込ステップＳ２から所定時間Ｔ１が経過するまでの間の音声にユーザの発話に基づく音声が含まれてしまった場合には雑音を精度よく推定する観点から有効である。

この音声翻訳処理を実行する携帯端末１によれば、入力形態の異なる短押し入力モードと長押し入力モードとの切替を予め設定することなく、携帯端末１側で自動的に認識することができる。このため、ユーザは予め入力方法を設定する操作を不要とすることができる。また、ユーザは、音声翻訳機能を用いる状況に応じて、特段の設定を行うことなく音声入力方法を使い分けることができる。

例えば、通常長押し入力モードを用いて音声入力を行うユーザが、携帯端末１を保持し言語の異なる相手に差し出しながら音声の入力を行わせる場合を考える。このような状況下において音声入力に長押し入力モードを用いると、ユーザは音声入力ボタン４３をタッチし続けながら携帯端末１を相手に差し出さないといけない。この間、ユーザは、タッチパネル１２を確認することができず、音声入力ボタン４３以外の箇所を誤操作してしまう可能性がある。この点、短押し入力モードを用いると、ユーザは一度音声入力ボタン４３を短押しすれば、後は音声入力が終了した場合にタッチパネル１２を確認しながら音声入力ボタン４３を短押しすればよい。

また、携帯端末１は、入力方法に応じて音声認識処理の動作モードを設定できる。このため、ユーザは予め動作モードを設定する操作が不要となり、入力方法の使い分けにより希望の動作モードを用いた音声認識処理を携帯端末１に行わせることができる。これにより、入力方法が一時的に使い分けることができた結果、動作モードについても種々の状況下において一時的に使い分けることができる。

さらに、携帯端末１は、音声の取込を開始してから所定時間経過後に発話を促す旨の通知を行うため、雑音を推定するための非発話区間の音声のみを取り込むための時間を確実に作り出すことができる。その結果、携帯端末１は、ユーザの使い勝手を大幅に悪化させることなく、非発話区間の音声を好適に取得することができる。この結果、携帯端末１は、雑音推定処理を高精度に行うことができる。

次に、音声認識処理の他の例を説明する。以下に説明する音声認識処理は、短押し入力モードを用いた音声入力の終了を指示する短押しに代えて長押しが入力された場合、第３の動作モードに切替えるようになっている。第３の動作モードは、コマンドが含まれるコマンド用音声として取り込まれた音声からコマンド認識部３８がコマンドを認識し、音声処理部３０の各部がこのコマンドに割り当てられた処理を行うモードである。

コマンドには、例えば翻訳結果の合成音声のニュアンスに強弱をつける処理、合成音声の音量を操作する処理、音声認識結果や翻訳結果のテキストの表示の大きさを指定する処理、バックトランスレーション機能（翻訳結果を再度翻訳前の言語に戻す機能）のオン・オフを操作する処理などの音声認識結果の出力方法に関する処理が割り当てられる。

例えば、コマンド認識部３８は、音声認識結果に「強く」というコマンドが含まれる場合、翻訳部３４はこの「強く」というコマンドに割り当てられた翻訳結果の合成音声のニュアンスを強める処理を行う。また、コマンド認識部３８は、音声認識結果に「大きく」というコマンドが含まれる場合、音声処理部３０は、この「大きく」に割り当てられた合成音声の読み上げ音量を大きくする処理を行う。

また、コマンド認識部３８は、音声認識結果の出力方法に関するコマンドに限らず、音声認識処理部３３が音声認識処理を行う音声翻訳モードを切替えるコマンドを認識することができる。例えば、コマンド認識部３８は、上述した一組の音声認識モードである標準モード、高精度モード、高速モードのいずれかを指定するコマンドを認識することができる。その他、コマンド認識部３８は、上述した一組の音声認識モードである単語用音声認識モードまたは文章用音声認識モードのいずれかを指定するコマンドを認識することができる。
図５は、本実施形態における携帯端末１により実行される他の音声翻訳処理を説明するフローチャートである。

図５の音声翻訳処理は、ステップＳ３１〜ステップＳ４０、およびステップＳ４６〜ステップＳ５３については、図４の音声翻訳処理におけるタッチ検出ステップＳ１〜タッチ検出ステップＳ１０、音声取込ステップＳ１２〜リリース検出ステップＳ１６、および音声取込終了ステップＳ１８〜出力ステップＳ２０の処理とほぼ同様であるため、ここでは重複した説明を省略する。なお、図５の音声翻訳処理においては、短押し入力モードに割り当てられた第１の動作モードと、長押し入力モードに割り当てられた第２の動作モードとは同一のモードであってもよい。

ステップＳ４１において、音声処理部３０は、現在時刻ＴｉｍｅＮｏｗを時刻Ｔ０として記憶する（Ｔ０＝ＴｉｍｅＮｏｗ）。ステップＳ４２において、音声処理部３０は音声入力ボタン４３のリリースが検出されたか否かの判定を行う。音声処理部３０は、リリースが検出されたと判定した場合、図３と同様に第１の動作モードに基づく音声処理を行うため、音声取込終了ステップＳ５１に進む。

一方、音声処理部３０は、リリースが検出されないと判定した場合、ステップＳ４３において音声の取込を継続する。ステップＳ４４において、音声処理部３０は、時刻記憶ステップＳ４１において記憶された時刻Ｔ０と現在時刻ＴｉｍｅＮｏｗとの差が、所定値Ｔｔｈより大きいか否かの判定を行う（ＴｉｍｅＮｏｗ−Ｔ０＞Ｔｔｈ）。すなわち、音声処理部３０は、短押し入力モードの音声入力の終了を指示する音声入力ボタン４３のタッチが、長押しであったか否かの判定を行う。音声処理部３０は、時刻Ｔ０と現在時刻ＴｉｍｅＮｏｗとの差が、所定値Ｔｔｈ以下であった場合、リリース検出ステップＳ４２に戻り以降の処理を繰り返す。なお、時刻判定ステップＳ４４で判定に用いられる所定値Ｔｔｈは、時刻判定ステップＳ４７で用いられる所定値Ｔｔｈと異なる値であってもよい。

一方、音声処理部３０は、時刻Ｔ０と現在時刻ＴｉｍｅＮｏｗとの差が、所定値Ｔｔｈより大きいと判定した場合、すなわち音声入力ボタン４３の長押しが行われた判定した場合、ステップＳ４５において動作モード切替部３７は、第３の動作モードを設定する。その後処理はステップＳ４９に進み、音声処理部３０は、長押し入力モードを用いた音声を取り込む。ここで行われる長押し入力モードによる音声入力は、コマンドが含まれるコマンド用音声を記録するためのものである。また、コマンド認識部３８は、音声認識結果に基づいてコマンド用音声からコマンドの認識を行う。音声処理部３０は、認識されたコマンドに割り当てられた処理を行う。

ステップＳ５０において、音声処理部３０は、音声入力ボタン４３のリリースが検出されたか否かの判定を行う。音声処理部３０は、リリースが検出されないと判定した場合、ステップＳ４９に戻る。音声処理部３０は、リリースが検出されたと判定した場合、ステップＳ５１においてコマンド用音声の取込を終了する。

例えば、合成音声の読み上げ語気を強めるコマンドが認識された場合には、音声処理部３０は、出力ステップＳ５３において語気を強めた合成音声を出力する。また、音声認識および翻訳結果を大きく表示するコマンドが認識された場合には、音声処理部３０は原言語表示領域４１および翻訳言語表示領域４２に通常よりも大きいサイズでテキストを表示する。

なお、第３の動作モードへの切替は、短押し入力モードにおける音声入力の終了を指示する短押しが長押しであった場合に行う例を説明した。しかし、第３の動作モードへの切替は、長押しに限らず他の入力（例えば短押しが素早く２回連続されるダブルタップ）に割り当ててもよい。

この他の音声翻訳処理を行う携帯端末１は、状況に応じた音声翻訳処理の制御を行うことができる。このため、ユーザは一時的に異なる音声翻訳機能（例えば語気を強めるなど）を利用したい場合においても、設定画面などからその都度設定を行うことなく、音声入力の一連の流れの中で所望の機能を利用することができる。

また、例えば日本人ユーザが英語圏の一と音声翻訳アプリケーションを用いて会話をする場合、発話意図を相手により適切に伝えるためには、ニュアンスも併せて伝えられることが理想的である。この場合、ユーザによる発話後、音声翻訳が行われて相手に向かって合成音声が再生されるタイミングで語気のニュアンスをユーザに選択させることも考えられる。しかし、その都度設定するための操作数が増えてしまい、煩雑である。

これに対し、本実施形態における携帯端末１は、短押し入力モードによる音声入力後、追加の長押し入力モードで音声コマンド入力することができるため、余計な操作を必要としない点で有効である。

なお、本実施形態における携帯端末１は、タッチパネル１２が音声入力ボタンを備え、タッチおよびリリースにより音声入力の開始および終了を検出する例を説明した。しかし、音声入力ボタン（入力手段）は接触式のタッチパネルに限らず、押下タイプの操作キーであってもよい。

本発明に係る翻訳音声再生装置は、携帯端末１のみならずＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、パーソナルコンピュータ、携帯型ゲーム機、携帯型音楽再生機、携帯型動画再生機などの音声入力インタフェースを備えた他の機器にも適用することができる。
また、本発明の実施形態において説明した一連の処理は、ソフトウェアにより実行させることもできるが、ハードウェアにより実行させることもできる。

さらに、本発明の実施形態では、フローチャートのステップは、記載された順序に沿って時系列的に行われる処理例を示したが、必ずしも時系列的に処理されなくとも、並列的あるいは個別実行される処理をも含むものである。

１携帯端末
１２タッチパネル
１６マイクロフォン
１７スピーカ
２１主制御部
３０音声処理部
３１音声取込バッファ
３２音声検出部
３３音声認識部
３４翻訳部
３５雑音推定部
３６状態表示部
３７モード切替部
３８コマンド認識部
４１原言語表示領域
４２翻訳言語表示領域
４３音声入力ボタン

Claims

音声を記録する音声記録手段と、
前記音声に基づいて音声認識処理を行う音声認識手段と、
入力の開始または入力の終了を検出する入力手段と、
前記入力手段が入力の開始を検出した場合に前記音声の記録を開始し、前記入力手段が前記入力の開始を検出した後所定時間以内に前記入力の終了を検出した場合、その後再度入力の開始を検出した場合に前記音声の記録を終了させる第１の集音モードに制御し、前記入力手段が入力の開始を検出したまま所定時間経過した場合、前記入力の終了を検出した場合に前記音声の記録を終了させる第２の集音モードに制御する集音モード制御手段とを備えたことを特徴とする音声認識装置。
前記音声認識手段は、前記音声認識のモードである第１の動作モードと前記第１の動作モードとは異なる第２の動作モードにより前記音声認識を行い、
前記集音モード制御手段により前記第１の集音モードに制御された場合前記音声認識手段は前記第１の動作モードに設定され、前記第２の集音モードに制御された場合前記第２の動作モードに設定される請求項１記載の音声認識装置。
前記音声認識手段の音声認識結果に基づいて前記音声に含まれるコマンドを認識するコマンド認識手段をさらに備え、
前記音声記録手段は、前記第１の集音モードに制御された後前記入力手段が所定の入力を検出した場合、さらに前記コマンドを認識するためのコマンド用音声を記録し、
前記コマンド認識手段は、前記音声記録手段により記録された前記コマンド用音声に含まれる前記コマンドを認識し、
前記音声認識手段は、前記第１の集音モードに制御された後前記入力手段が所定の入力を検出した場合、前記コマンド認識手段に認識された前記コマンドに基づいて前記音声認識結果の出力を行う第３の動作モードに設定される請求項１または２記載の音声認識装置。
前記音声認識手段の音声認識結果に基づいて前記音声に含まれるコマンドを認識するコマンド認識手段をさらに備え、
前記音声記録手段は、前記第１の集音モードに制御された後前記入力手段が所定の入力を検出した場合、さらに前記コマンドを認識するためのコマンド用音声を記録し、
前記コマンド認識手段は、前記音声記録手段により記録された前記コマンド用音声に含まれる前記コマンドを認識し、
前記音声認識手段は、前記第１の集音モードに制御された後前記入力手段が所定の入力を検出した場合、前記コマンド認識手段に認識された前記コマンドに基づいて前記音声認識を行う第３の動作モードに設定される請求項１または２記載の音声認識装置。
前記音声記録手段により前記音声の記録が開始されてから所定時間経過後にユーザに対して前記音声の発話を促す旨の通知を行う通知手段と、
前記音声の記録が開始されてから前記所定時間の間に記録された音声から前記音声の記録時の雑音を推定する雑音推定手段とをさらに備え、
前記音声認識手段は、前記雑音を考慮して前記音声認識を行う請求項１〜４のいずれか一項記載の音声認識装置。
音声を記録する音声記録手段と、
前記音声に基づいて音声認識処理を行う音声認識手段と、
前記音声認識処理の開始の指示入力を検出する入力手段と、
前記入力手段により前記指示入力が検出されてから所定時間経過後にユーザに対して前記音声の発話を促す旨の通知を行う通知手段と、
前記音声記録手段により記録された音声より雑音を推定する雑音推定手段とを備え、
前記音声記録手段は、前記入力手段により前記指示入力が検出された場合に前記音声の入力を開始し、
前記雑音推定手段は、前記前記音声の記録が開始されてから前記所定時間の間に記録された前記音声に基づいて前記雑音の推定を行い、
前記音声認識手段は、前記雑音を考慮して前記音声認識処理を行うことを特徴とする音声認識装置。
前記音声記録手段は、前記入力手段により前記指示入力が検出される前に前記音声の記録を開始し、
前記雑音推定手段は、前記所定時間の間に記録された前記音声に前記ユーザの発話に基づく音声が含まれている場合、前記指示入力が検出される前に記録された前記音声に基づいて前記雑音の推定を行う請求項６記載の音声認識装置。