JP2011248140A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2011248140A
JP2011248140A JP2010121947A JP2010121947A JP2011248140A JP 2011248140 A JP2011248140 A JP 2011248140A JP 2010121947 A JP2010121947 A JP 2010121947A JP 2010121947 A JP2010121947 A JP 2010121947A JP 2011248140 A JP2011248140 A JP 2011248140A
Authority
JP
Japan
Prior art keywords
voice
input
command
recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010121947A
Other languages
English (en)
Inventor
Chikashi Sugiura
千加志 杉浦
Takehiko Isaka
岳彦 井阪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Mobile Communications Ltd
Original Assignee
Fujitsu Toshiba Mobile Communication Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Toshiba Mobile Communication Ltd filed Critical Fujitsu Toshiba Mobile Communication Ltd
Priority to JP2010121947A priority Critical patent/JP2011248140A/ja
Publication of JP2011248140A publication Critical patent/JP2011248140A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声入力時の操作性に優れた音声認識装置を提供する。
【解決手段】音声を記録する音声記録手段16と、音声に基づいて音声認識処理を行う音声認識手段33と、入力の開始または入力の終了を検出する入力手段14と、入力手段14が入力の開始を検出した場合に音声の記録を開始し、入力手段14が入力の開始を検出した後所定時間以内に入力の終了を検出した場合、その後再度入力の開始を検出した場合に音声の記録を終了させる第1の集音モードに制御し、入力手段14が入力の開始を検出したまま所定時間経過した場合、入力の終了を検出した場合に音声の記録を終了させる第2の集音モードに制御する集音モード制御手段30とを備えた。
【選択図】 図2

Description

本発明の実施形態は、音声認識装置に関する。
今日、音声入力インタフェースを利用したアプリケーションソフトは、携帯端末やカーナビゲーションシステムなどの電子機器に多く利用されている。音声入力インタフェースは、例えば、指示を音声で入力したり、入力された音声を異なる言語に翻訳したりする場合に用いられる。
ここで、ユーザが音声を入力する方法には、いくつかの方法がある。
例えば、発話を開始するときに所定のボタンを短押し、発話を終了するときに所定のボタンを短押しする方法(以下、「短押し入力モード」という。)がある。また、発話を開始するときに所定のボタンを押し、発話中にはこのボタンを押し続け、発話を終了するときにこのボタンを放す他の方法(以下、「長押し入力モード」という。)がある。
また、音声認識の精度を向上させるため、予めユーザの発話前の非発話区間の音声を取り込み、非発話区間の音声からユーザの背景雑音を推定する技術が知られている。
特開2004−302196号公報
短押し入力モードおよび長押し入力モードは、従来から広く用いられる音声入力方法である。また、ユーザがどちらの入力方法を用いるかは、ユーザの好みに応じて決定される。このため、両者の入力方法を切り替え可能とし、ユーザに任意に設定させる音声認識装置もある。しかし、入力方法の設定をユーザに行わせることは、ユーザにとって煩雑な操作が発生してしまう。
一方、雑音は、非発話区間の音声、すなわちユーザの発話に基づく音声の背景雑音を正確に検出することで、より高い精度で推定される。しかし、短押し入力モードおよび長押し入力モードのいずれの入力方法を用いた場合であっても、ユーザが発話を始めるタイミングと、音声認識装置が音声の取り込みを始めるタイミングとを合わせることは困難である。このため、音声認識装置は、ユーザが発話する任意のタイミングから非発話区間を取り込むタイミングを見つけ出すのは難しく、雑音の推定精度を向上させるのは困難であるという課題があった。
本発明はこのような事情を考慮してなされたもので、音声入力時の操作性に優れた音声認識装置を提供することを目的とする。
また、本発明の他の目的は、音声認識の精度を向上させることにある。
実施形態の音声認識装置は、音声を記録する音声記録手段と、前記音声に基づいて音声認識処理を行う音声認識手段と、入力の開始または入力の終了を検出する入力手段と、前記入力手段が入力の開始を検出した場合に前記音声の記録を開始し、前記入力手段が前記入力の開始を検出した後所定時間以内に前記入力の終了を検出した場合、その後再度入力の開始を検出した場合に前記音声の記録を終了させる第1の集音モードに制御し、前記入力手段が入力の開始を検出したまま所定時間経過した場合、前記入力の終了を検出した場合に前記音声の記録を終了させる第2の集音モードに制御する集音モード制御手段とを備えた。
本発明に係る音声認識装置の一実施形態である携帯端末を示す外観斜視図。 本実施形態における携帯端末の主な機能構成を示す概略的な機能ブロック図。 音声翻訳処理時におけるタッチパネルの表示例を示す図。 本実施形態における携帯端末により実行される音声翻訳処理を説明するフローチャート。 本実施形態における携帯端末により実行される他の音声翻訳処理を説明するフローチャート。
本発明に係る音声認識装置の実施形態を添付図面に基づいて説明する。
本実施形態においては、音声認識装置に携帯端末を適用して説明する。しかし、音声認識装置は、携帯端末に限らず、携帯型および固定型の各種電子機器に適用することができる。
図1は、本発明に係る音声認識装置の一実施形態である携帯端末1を示す外観斜視図である。
携帯端末1は、矩形の板状の筐体11を有する。この筐体11は、表面の大部分にタッチパネル12を有する。
タッチパネル12は、文字や画像などからなる表示画面を表示する領域が設けられたディスプレイ(図2の表示部13)を有する。このディスプレイは、例えばLCD(Liquid Crystal Display)、有機EL(ElectroLuminescence)ディスプレイで構成される。
また、タッチパネル12は、操作面に対する接触動作を検出するタッチセンサ(図2の入力部14)を有する。タッチセンサは、ディスプレイの上面に複数配置された接触動作を検出するための素子と、さらにその上に積層された透明な操作面を有する。なお、タッチパネル12上で接触動作を検知する方法は、圧力の変化を感知する感圧式、静電気による電気信号を感知する静電式その他の方法を適用することができる。
筐体11は、マイクロフォン16およびスピーカ17を所定位置に備える。マイクロフォン16は、例えばタッチパネル12下部に配置され、ユーザの音声などを集音する。スピーカ17は、例えばタッチパネル12上部(タッチパネル12を介してマイクロフォン16と対向する位置)に配置され、種々の音声を出力する。
図2は、本実施形態における携帯端末1の主な機能構成を示す概略的な機能ブロック図である。携帯端末1は、主制御部21、電源回路部22、入力制御部23、表示制御部24、音声制御部25、通信制御部26、記憶部28、音声処理部30がバスによって相互に通信可能に接続されて構成されている。
主制御部21は、CPU(Central Processing Unit)を有する。主制御部21は、記憶部28に記憶された各種プログラムに基づき動作して、携帯端末1の統括的な制御を行う。
電源回路部22は、電力供給源(図示せず)を備える。電源回路部22は、電源をONする操作に基づいて携帯端末1の電源のON/OFF状態を切り替える。電源回路部22は、電源がON状態の場合に電力供給源から各部に対して電力を供給して、携帯端末1を動作可能にする。
入力制御部23は入力部14(タッチパネル12)に対する入力インタフェースを備える。入力制御部23は、所定時間毎(例えば10ms毎)に入力部14からの検知信号を入力位置の座標を示す入力位置情報として受け取り、その入力を示す信号を生成して主制御部21に伝送する。
表示制御部24は表示部13(タッチパネル12)に対する表示インタフェースを備える。表示制御部24は、主制御部21の制御に基づいて、文書データや画像信号に基づいた画像を表示部13に表示させる。
音声制御部25は、主制御部21の制御に基づいて、マイクロフォン16で集音された音声からアナログ音声信号を生成し、このアナログ音声信号をデジタル音声信号に変換する。また音声制御部25は、デジタル音声信号を取得すると、主制御部21の制御に基づいて、このデジタル音声信号をアナログ音声信号に変換し、スピーカ17から音声として出力する。
通信制御部26は、主制御部21の制御に基づいて、基地局からアンテナ29を介して受信した受信信号をスペクトラム逆拡散処理してデータを復元する。このデータは、主制御部21の指示により、音声制御部25に伝送されてスピーカ17から出力されたり、表示制御部24に伝送されて表示部13に表示されたり、または記憶部28に記録されたりする。通信制御部26は、主制御部21の制御に基づいて、マイクロフォン16で集音された音声データや入力部14を介して入力されたデータ、記憶部28に記憶されたデータを取得すると、これらのデータに対してスペクトラム拡散処理を行う。通信制御部26は、このスペクトラム拡散処理が行われたデータをアンテナ29を介して基地局に向けて送信する。
記憶部28は、ROM(Read Only Memory)やハードディスク、不揮発性メモリ、データベース、RAM(Random Access Memory)などである。記憶部28は、主制御部21が行う処理についての処理プログラムや処理に必要なデータなどを格納したり、主制御部21が処理を行う際に使用されるデータを一時的に記憶したりする。
音声処理部30は、マイクロフォン16より入力された音声に基づいて音声認識処理、翻訳処理をはじめとする各種処理を行う。音声処理部30は、音声取込バッファ31、音声検出部32、音声認識部33、翻訳部34、雑音推定部35、状態表示部36、モード切替部37およびコマンド認識部38を有する。
音声取込バッファ31は、マイクロフォン16で集音され携帯端末1に取り込まれた音声を記憶する。本実施形態においては、マイクロフォン16および音声取込バッファ31は、音声記憶手段として機能する。音声取込バッファ31は、予め決定されたサイズ(例えば音声10秒間分)を備えたバッファを用いてもよいし、リングバッファを用いてもよい。
音声検出部32は、マイクロフォン16で集音された音声から発話区間と非発話区間を検出し、分離する。発話区間は、ユーザによる発話が含まれた音声の区間である。非発話区間は、ユーザによる発話が含まれない背景雑音からなる音声の区間である。
音声認識部33は、音声検出部32により検出された発話区間の音声を音声認識し、テキストデータを生成する。
翻訳部34は、音声認識部33により生成されたテキストデータを異なる言語に翻訳し、テキストデータおよび音声合成による音声データを生成し、出力する。翻訳部34は、例えば日本語からなるテキストデータから英語からなるテキストデータおよび音声データを生成する。
雑音推定部35は、音声検出部32により検出された非発話区間の音声波形に基づいて雑音を推定する。音声認識部33は、この雑音を考慮して、音声認識を行うことで、音声認識の精度を向上させる。
状態表示部36は、ユーザに対して発話を促す旨の通知を行う。例えば状態表示部36は、「発話してください」などの文字や画像をタッチパネル12に表示させたり消したりする。
モード切替部37は、音声認識部33が音声認識を行うための音声翻訳モードを切り替える。音声翻訳モードは、複数の音声翻訳モードからなる一組のモード間で切り替え可能となっている。例えば、モード切替部37は、標準的な音声認識を行う標準モード、標準モードより高精度に音声認識処理を行う高精度モード、および高精度モードより精度は低いが高速に音声認識処理を行う高速モードからなる一組のモード間で切替を行う。また、モード切替部37は、単語のみからなる音声を認識させる場合に適した単語用音声認識モード、および複数の単語を含む文章からなる音声を認識させる場合に適した文章用音声認識モードからなる一組の動作モード間で切替を行う。さらに、モード切替部37は、複数の言語間で双方向に音声翻訳が可能な場合には、翻訳前の言語である原言語と翻訳後の言語である翻訳言語との切替えを行う。
コマンド認識部38は、所定条件下で集音された音声の音声認識結果に基づいて音声に含まれるコマンドを認識する。コマンド認識部38の具体的な説明については、後述する。
なお、音声処理部30で行われる処理については、公知の音声認識技術、機械翻訳技術、および音声合成技術を適用することができる。このため、ここでは音声処理部30の詳細な構成・処理の説明は省略する。
図3は、音声翻訳処理時におけるタッチパネル12の表示例を示す図である。
タッチパネル12は、原言語表示領域41、翻訳言語表示領域42および音声入力ボタン43を有する。原言語表示領域41は、音声認識結果としての翻訳前の音声のテキストを表示する。翻訳言語表示領域42は、原言語表示領域41の下部に設けられ、音声認識結果を翻訳後の言語に機械翻訳したテキストが表示される。
音声入力ボタン43は、音声入力の開始および終了を指示するユーザのタッチ(入力の開始)操作およびリリース(入力の終了)操作を検出する。なお、本実施形態においては、タッチの検出から所定時間以内にリリースが検出された操作を、音声入力ボタン43の短押しという場合がある。また、タッチの検出(または音声の入力を促す表示)から所定時間経過してもリリースが検出されない操作を、音声入力ボタン43の長押しという場合がある。
音声処理部30は、音声入力ボタン43に対する入力の状態に基づいて音声翻訳処理のための音声の入力の開始および終了(発話の開始および終了)を検出する。
音声処理部30は、音声の集音モードとして、「短押し入力モード」および「長押し入力モード」を有する。
第1の集音モードとしての「短押し入力モード」は、ユーザが発話を開始するときに音声入力ボタン43を短押しし、発話を終了するときに音声入力ボタン43を再度短押しするモード(方法)である。
第2の集音モードとしての「長押し入力モード」は、ユーザが発話を行う間音声入力ボタン43を長押しし続け、発話を終了するときに音声入力ボタン43をリリースするモード(方法)である。
短押し入力モードおよび長押し入力モードは、それぞれ長所および短所を有する。
例えば、短押し入力モードは、発話中は音声入力ボタン43をタッチ(長押し)し続けなくてもよいという長所を有する。その一方で、短押し入力モードは、発話を終了した際には再度音声入力ボタン43をタッチしなければいけないという煩雑さがある。また、ユーザが発話の終了時に音声入力ボタン43のタッチをし忘れてしまった場合には、集音(記録)された音声に非発話区間が多く含まれてしまうという短所もある。また、長押し入力モードは、発話を行う際には意識して音声入力ボタン43を長押しする必要があり、他者とコミュニケーションを行う際に長押し操作がストレスになってしまうという短所を有する。
このように、短押し入力モードおよび長押し入力モードは、それぞれ長所および短所を有するため、いずれかの方法を用いるかはユーザの好みに応じて任意に選択できることが望ましい。しかし、ユーザが発話環境に応じていずれかの方法を使い分けたい場合にはその都度設定を変更する必要があり、却ってユーザに煩雑な操作を行わせてしまう。
そこで、本実施形態における携帯端末1は、この短押し入力モードと長押し入力モードとのいずれを用いて音声入力を行うかについて事前に設定することなく、短押し入力モードによる音声入力と長押し入力モードによる音声入力とを自動的に判別し、制御することができるようになっている。
また、携帯端末1は短押し入力モードにより入力された音声に対する音声翻訳処理に第1の動作モードを設定することができる。また、携帯端末1は、長押し入力モードにより入力された音声に対する音声翻訳処理に第2の動作モードを設定することができる。すなわち、携帯端末1は、音声認識の動作モードを例えば設定画面から予め設定することなく、音声入力の方法の切換に応じて動作モードを設定することができる。
第1の動作モードと第2の動作モードとには、例えば、一組の動作モードの中から選択された動作モードがそれぞれ設定される。動作モードは、例えばユーザ任意に設定されたり、予め固定値に設定されたりする。例えば、携帯端末1は、第1の動作モードに対しては上述した標準モードを設定し、第2の動作モードに対しては高精度モードを設定する。また、携帯端末1は、第1の動作モードに対しては上述した文章用音声認識モードを設定し、第2の動作モードに対しては単語用音声認識モードを設定する。
また、ユーザの発話をより正確に音声認識するためには、非発話区間の音声を取得してユーザの背景雑音の特性を測定する必要がある。ユーザの発話中の雑音特性を正確に推定するため、音声処理部30は発話のタイミングに可能な限り近いタイミングで非発話区間の音声を取得することが望ましい。非発話区間の音声が実際の発話タイミングから大きくずれると、発話中の雑音特性と異なってしまうというリスクを有するためである。
そこで、本実施形態における、携帯端末1は、タッチパネル12に対する表示を好適に制御することにより、非発話区間を確実に作り出して雑音の推定に用いる音声を好適に集音(記録)するようになっている。
以下、音声翻訳処理について具体的に説明する。
図4は、本実施形態における携帯端末1により実行される音声翻訳処理を説明するフローチャートである。
この音声翻訳処理は、例えば携帯端末1において実行される音声翻訳アプリケーションなどの音声入力インタフェースを備えたアプリケーションが起動した後に実行される。
なお、音声翻訳処理は、音声処理部30を含む携帯端末1の各部が動作することにより実行されるが、ここでは主に音声処理部30を主体として説明する。
ステップS1において、音声処理部30は、音声入力ボタン43に対するタッチが検出されたか否かの判定を行う。音声処理部30は、タッチが検出されていないと判定した場合、検出されるまで待機する。
一方、音声処理部30は、タッチ(一度目の入力の開始)が検出されたと判定した場合、ステップS2において、マイクロフォン16より音声の集音を開始し、音声取込バッファ31へ音声の取り込みを開始する。ステップS3において、音声処理部30は、タッチが検出されてから、所定時間T1が経過したか否かの判定を行う。ここで、所定時間T1は、雑音の推定に必要な非発話区間に相当する時間(例えば500msec)である。音声処理部30は、所定時間T1が経過していないと判定した場合、所定時間T1が経過するまで待機する。
一方、音声処理部30により所定時間T1が経過したと判定された場合、ステップS4において状態表示部36は、音声を取り込み中である旨の通知をタッチパネル12に表示する。ステップS5において、音声処理部30の雑音推定部35は、音声の取り込みを開始してから所定時間T1が経過するまでの間に取り込まれた音声に基づいて、雑音推定処理を行う。この雑音推定処理が行われる区間の音声は、音声の取り込み中である旨の通知が表示される前に取り込まれた音声である。このため、雑音推定処理に用いられる音声は、ユーザの発話に基づく音声が含まれない背景雑音のみの音声である可能性が高い。
ステップS6において、音声処理部30は、現在時刻TimeNowを時刻T0として記憶する(T0=TimeNow)。ステップS7において、音声処理部30は、音声入力ボタン43のリリースが検出されたか否かの判定を行う。音声処理部30は、ステップS7においてリリース(入力の終了)が検出されたと判定した場合、音声入力ボタン43の短押しが行われたと認識し、短押し入力モードを用いた音声入力の制御を行う。ステップS8において、モード切替部37は、第1の動作モードを設定する。例えば、第1の動作モードに標準モードが設定されていた場合には、モード切替部37は、音声認識処理を標準モードで行うように設定する。
ステップS9において、音声処理部30は、音声取込バッファ31への音声取込みを継続すると同時に、音声認識部33により音声認識処理を行う。また、音声処理部30は、音声認識処理結果に基づいて翻訳部34により翻訳処理を行う。ステップS10において、音声処理部30は、音声入力ボタン43のタッチが検出されたか否かの判定を行う。なお、タッチ検出ステップS10において、音声処理部30は、タッチの検出の判定を行ってもよいし、短押し(タッチと所定時間Tth1以内のリリース)の検出の判定を行ってもよい。
音声処理部30は、タッチが検出されないと判定した場合、ステップS11において、ユーザの発話が終了したか否かの判定を行う。音声処理部30は、音声検出部32による発話区間の検出の有無に応じて発話の終了を判定する。音声処理部30は、発話の終了を判定することにより、ユーザが発話を終えたにも係わらず音声入力ボタン43の短押しを忘れた際にも音声の取込みを終了させることができる。音声処理部30は、発話が終了していないと判定した場合、音声取込ステップS9に戻り処理を繰り返す。
一方、音声処理部30は、タッチ検出ステップS10において音声入力ボタン43のタッチ(再度の入力の開始)が検出されたと判定した場合、および発話終了判定ステップS11において発話が終了したと判定した場合、取込終了ステップS18に進む。
一方、音声処理部30は、リリース検出ステップS7において、リリースが検出されていないと判定した場合、ステップS12において、取込開始ステップS2において開始した音声取り込みを継続する。
ステップS13において、音声処理部30は、時刻記憶ステップS6において記憶された時刻T0と現在時刻TimeNowとの差が、所定値Tthより大きいか否かの判定を行う(TimeNow−T0>Tth)。すなわち、記憶された時刻T0から所定時間Tthが経過したか否かの判定を行う。所定値Tthは、ユーザが長押し入力モードを利用した音声入力を行うことを意図しているか否かを判断するために用いられる時間(音声取込中表示からの経過時間)である。この所定値Tthは、予め設定された固定値(例えば500msec)であってもよいし、ユーザ任意に設定された値でもよい。また、音声処理部30のアルゴリズム遅延時間(例えば400msec)を考慮し、所定値Tthをこの遅延時間以上とするなど、音声認識処理が処理要件を満たす最小値以上としてもよい。さらに、この所定値Tthは、音声翻訳処理においてのみ設定される時間でもよいし、携帯端末1全体に用いられる長押しと判定されるタッチからリリースまでの時間でもよい。
音声処理部30は、時刻T0と現在時刻TimeNowとの差が、所定値Tth以下であると判定した場合、リリース検出ステップS7に戻りリリースが検出されたか否かの判定を行う。一方、音声処理部30が時刻T0と現在時刻TimeNowとの差が、所定値Tthより大きいと判定した場合、音声入力ボタン43の長押しが行われたと認識し、長押し入力モードを用いた音声入力の制御を行う。ステップS14において、モード切替部37は、第2の動作モードを設定する。例えば、第2の動作モードに高精度モードが設定されていた場合には、モード切替部37は、音声認識処理を高精度モードで行うように設定する。
ステップS15において、音声処理部30は、音声取込みを継続すると同時に、音声認識部33により音声認識処理を行う。また、音声処理部30は、音声認識結果に基づき翻訳部34により翻訳処理を行う。ステップS16において、音声処理部30は、音声入力ボタン43のリリースが検出されたか否かの判定を行う。音声処理部30は、リリースが検出されていないと判定した場合、ステップS17において、音声検出部32による発話区間の検出の有無に応じて発話が終了したか否かの判定を行う。音声終了ステップS17で行われる判定は、発話終了ステップS11と同様の趣旨に基づくものである。なお、発話終了ステップS11およびS17は、省略してもよい。
一方、音声処理部30は、リリース検出ステップS16において音声入力ボタン43のリリースが検出されたと判定した場合、および発話終了判定ステップS17において発話が終了したと判定した場合、ステップS18において、音声処理部30は、音声の集音および記録(取込み)を終了する。
ステップS19において、状態表示部36は、音声を取込み中である旨の通知を終了すべくタッチパネル12の表示を更新する。ステップS20において、音声処理部30は、音声認識結果および翻訳結果のテキストをタッチパネル12に表示し、また合成音声をスピーカ17より出力する。
なお、ステップS9およびステップS15の音声認識処理および翻訳処理は、音声取込処理と並行して行ってもよいし、音声取込終了ステップS18の後に行ってもよい。また、雑音推定ステップS5は、音声認識処理の直前に行ってもよい。また、図3の音声翻訳処理においては、翻訳処理を行う例を説明したが、音声認識処理のみを行ってもよい。
また、雑音推定部35は、音声取込ステップS2から所定時間T1が経過するまでの間に記録された音声に基づいて雑音推定処理を行う例を説明した。しかし、雑音推定部35は、音声取込ステップS2から所定時間T1が経過するまでの間の音声に限らず、例えば音声翻訳アプリケーション起動中は(音声入力を開始する指示入力の前から)常に音声を記録しておき、この音声に基づいて雑音推定処理を行ってもよい。例えば、音声取込中表示を行う前にユーザが発話を始めてしまい、音声取込ステップS2から所定時間T1が経過するまでの間の音声にユーザの発話に基づく音声が含まれてしまった場合には雑音を精度よく推定する観点から有効である。
この音声翻訳処理を実行する携帯端末1によれば、入力形態の異なる短押し入力モードと長押し入力モードとの切替を予め設定することなく、携帯端末1側で自動的に認識することができる。このため、ユーザは予め入力方法を設定する操作を不要とすることができる。また、ユーザは、音声翻訳機能を用いる状況に応じて、特段の設定を行うことなく音声入力方法を使い分けることができる。
例えば、通常長押し入力モードを用いて音声入力を行うユーザが、携帯端末1を保持し言語の異なる相手に差し出しながら音声の入力を行わせる場合を考える。このような状況下において音声入力に長押し入力モードを用いると、ユーザは音声入力ボタン43をタッチし続けながら携帯端末1を相手に差し出さないといけない。この間、ユーザは、タッチパネル12を確認することができず、音声入力ボタン43以外の箇所を誤操作してしまう可能性がある。この点、短押し入力モードを用いると、ユーザは一度音声入力ボタン43を短押しすれば、後は音声入力が終了した場合にタッチパネル12を確認しながら音声入力ボタン43を短押しすればよい。
また、携帯端末1は、入力方法に応じて音声認識処理の動作モードを設定できる。このため、ユーザは予め動作モードを設定する操作が不要となり、入力方法の使い分けにより希望の動作モードを用いた音声認識処理を携帯端末1に行わせることができる。これにより、入力方法が一時的に使い分けることができた結果、動作モードについても種々の状況下において一時的に使い分けることができる。
さらに、携帯端末1は、音声の取込を開始してから所定時間経過後に発話を促す旨の通知を行うため、雑音を推定するための非発話区間の音声のみを取り込むための時間を確実に作り出すことができる。その結果、携帯端末1は、ユーザの使い勝手を大幅に悪化させることなく、非発話区間の音声を好適に取得することができる。この結果、携帯端末1は、雑音推定処理を高精度に行うことができる。
次に、音声認識処理の他の例を説明する。以下に説明する音声認識処理は、短押し入力モードを用いた音声入力の終了を指示する短押しに代えて長押しが入力された場合、第3の動作モードに切替えるようになっている。第3の動作モードは、コマンドが含まれるコマンド用音声として取り込まれた音声からコマンド認識部38がコマンドを認識し、音声処理部30の各部がこのコマンドに割り当てられた処理を行うモードである。
コマンドには、例えば翻訳結果の合成音声のニュアンスに強弱をつける処理、合成音声の音量を操作する処理、音声認識結果や翻訳結果のテキストの表示の大きさを指定する処理、バックトランスレーション機能(翻訳結果を再度翻訳前の言語に戻す機能)のオン・オフを操作する処理などの音声認識結果の出力方法に関する処理が割り当てられる。
例えば、コマンド認識部38は、音声認識結果に「強く」というコマンドが含まれる場合、翻訳部34はこの「強く」というコマンドに割り当てられた翻訳結果の合成音声のニュアンスを強める処理を行う。また、コマンド認識部38は、音声認識結果に「大きく」というコマンドが含まれる場合、音声処理部30は、この「大きく」に割り当てられた合成音声の読み上げ音量を大きくする処理を行う。
また、コマンド認識部38は、音声認識結果の出力方法に関するコマンドに限らず、音声認識処理部33が音声認識処理を行う音声翻訳モードを切替えるコマンドを認識することができる。例えば、コマンド認識部38は、上述した一組の音声認識モードである標準モード、高精度モード、高速モードのいずれかを指定するコマンドを認識することができる。その他、コマンド認識部38は、上述した一組の音声認識モードである単語用音声認識モードまたは文章用音声認識モードのいずれかを指定するコマンドを認識することができる。
図5は、本実施形態における携帯端末1により実行される他の音声翻訳処理を説明するフローチャートである。
図5の音声翻訳処理は、ステップS31〜ステップS40、およびステップS46〜ステップS53については、図4の音声翻訳処理におけるタッチ検出ステップS1〜タッチ検出ステップS10、音声取込ステップS12〜リリース検出ステップS16、および音声取込終了ステップS18〜出力ステップS20の処理とほぼ同様であるため、ここでは重複した説明を省略する。なお、図5の音声翻訳処理においては、短押し入力モードに割り当てられた第1の動作モードと、長押し入力モードに割り当てられた第2の動作モードとは同一のモードであってもよい。
ステップS41において、音声処理部30は、現在時刻TimeNowを時刻T0として記憶する(T0=TimeNow)。ステップS42において、音声処理部30は音声入力ボタン43のリリースが検出されたか否かの判定を行う。音声処理部30は、リリースが検出されたと判定した場合、図3と同様に第1の動作モードに基づく音声処理を行うため、音声取込終了ステップS51に進む。
一方、音声処理部30は、リリースが検出されないと判定した場合、ステップS43において音声の取込を継続する。ステップS44において、音声処理部30は、時刻記憶ステップS41において記憶された時刻T0と現在時刻TimeNowとの差が、所定値Tthより大きいか否かの判定を行う(TimeNow−T0>Tth)。すなわち、音声処理部30は、短押し入力モードの音声入力の終了を指示する音声入力ボタン43のタッチが、長押しであったか否かの判定を行う。音声処理部30は、時刻T0と現在時刻TimeNowとの差が、所定値Tth以下であった場合、リリース検出ステップS42に戻り以降の処理を繰り返す。なお、時刻判定ステップS44で判定に用いられる所定値Tthは、時刻判定ステップS47で用いられる所定値Tthと異なる値であってもよい。
一方、音声処理部30は、時刻T0と現在時刻TimeNowとの差が、所定値Tthより大きいと判定した場合、すなわち音声入力ボタン43の長押しが行われた判定した場合、ステップS45において動作モード切替部37は、第3の動作モードを設定する。その後処理はステップS49に進み、音声処理部30は、長押し入力モードを用いた音声を取り込む。ここで行われる長押し入力モードによる音声入力は、コマンドが含まれるコマンド用音声を記録するためのものである。また、コマンド認識部38は、音声認識結果に基づいてコマンド用音声からコマンドの認識を行う。音声処理部30は、認識されたコマンドに割り当てられた処理を行う。
ステップS50において、音声処理部30は、音声入力ボタン43のリリースが検出されたか否かの判定を行う。音声処理部30は、リリースが検出されないと判定した場合、ステップS49に戻る。音声処理部30は、リリースが検出されたと判定した場合、ステップS51においてコマンド用音声の取込を終了する。
例えば、合成音声の読み上げ語気を強めるコマンドが認識された場合には、音声処理部30は、出力ステップS53において語気を強めた合成音声を出力する。また、音声認識および翻訳結果を大きく表示するコマンドが認識された場合には、音声処理部30は原言語表示領域41および翻訳言語表示領域42に通常よりも大きいサイズでテキストを表示する。
なお、第3の動作モードへの切替は、短押し入力モードにおける音声入力の終了を指示する短押しが長押しであった場合に行う例を説明した。しかし、第3の動作モードへの切替は、長押しに限らず他の入力(例えば短押しが素早く2回連続されるダブルタップ)に割り当ててもよい。
この他の音声翻訳処理を行う携帯端末1は、状況に応じた音声翻訳処理の制御を行うことができる。このため、ユーザは一時的に異なる音声翻訳機能(例えば語気を強めるなど)を利用したい場合においても、設定画面などからその都度設定を行うことなく、音声入力の一連の流れの中で所望の機能を利用することができる。
また、例えば日本人ユーザが英語圏の一と音声翻訳アプリケーションを用いて会話をする場合、発話意図を相手により適切に伝えるためには、ニュアンスも併せて伝えられることが理想的である。この場合、ユーザによる発話後、音声翻訳が行われて相手に向かって合成音声が再生されるタイミングで語気のニュアンスをユーザに選択させることも考えられる。しかし、その都度設定するための操作数が増えてしまい、煩雑である。
これに対し、本実施形態における携帯端末1は、短押し入力モードによる音声入力後、追加の長押し入力モードで音声コマンド入力することができるため、余計な操作を必要としない点で有効である。
なお、本実施形態における携帯端末1は、タッチパネル12が音声入力ボタンを備え、タッチおよびリリースにより音声入力の開始および終了を検出する例を説明した。しかし、音声入力ボタン(入力手段)は接触式のタッチパネルに限らず、押下タイプの操作キーであってもよい。
本発明に係る翻訳音声再生装置は、携帯端末1のみならずPDA(Personal Digital Assistant)、パーソナルコンピュータ、携帯型ゲーム機、携帯型音楽再生機、携帯型動画再生機などの音声入力インタフェースを備えた他の機器にも適用することができる。
また、本発明の実施形態において説明した一連の処理は、ソフトウェアにより実行させることもできるが、ハードウェアにより実行させることもできる。
さらに、本発明の実施形態では、フローチャートのステップは、記載された順序に沿って時系列的に行われる処理例を示したが、必ずしも時系列的に処理されなくとも、並列的あるいは個別実行される処理をも含むものである。
1 携帯端末
12 タッチパネル
16 マイクロフォン
17 スピーカ
21 主制御部
30 音声処理部
31 音声取込バッファ
32 音声検出部
33 音声認識部
34 翻訳部
35 雑音推定部
36 状態表示部
37 モード切替部
38 コマンド認識部
41 原言語表示領域
42 翻訳言語表示領域
43 音声入力ボタン

Claims (7)

  1. 音声を記録する音声記録手段と、
    前記音声に基づいて音声認識処理を行う音声認識手段と、
    入力の開始または入力の終了を検出する入力手段と、
    前記入力手段が入力の開始を検出した場合に前記音声の記録を開始し、前記入力手段が前記入力の開始を検出した後所定時間以内に前記入力の終了を検出した場合、その後再度入力の開始を検出した場合に前記音声の記録を終了させる第1の集音モードに制御し、前記入力手段が入力の開始を検出したまま所定時間経過した場合、前記入力の終了を検出した場合に前記音声の記録を終了させる第2の集音モードに制御する集音モード制御手段とを備えたことを特徴とする音声認識装置。
  2. 前記音声認識手段は、前記音声認識のモードである第1の動作モードと前記第1の動作モードとは異なる第2の動作モードにより前記音声認識を行い、
    前記集音モード制御手段により前記第1の集音モードに制御された場合前記音声認識手段は前記第1の動作モードに設定され、前記第2の集音モードに制御された場合前記第2の動作モードに設定される請求項1記載の音声認識装置。
  3. 前記音声認識手段の音声認識結果に基づいて前記音声に含まれるコマンドを認識するコマンド認識手段をさらに備え、
    前記音声記録手段は、前記第1の集音モードに制御された後前記入力手段が所定の入力を検出した場合、さらに前記コマンドを認識するためのコマンド用音声を記録し、
    前記コマンド認識手段は、前記音声記録手段により記録された前記コマンド用音声に含まれる前記コマンドを認識し、
    前記音声認識手段は、前記第1の集音モードに制御された後前記入力手段が所定の入力を検出した場合、前記コマンド認識手段に認識された前記コマンドに基づいて前記音声認識結果の出力を行う第3の動作モードに設定される請求項1または2記載の音声認識装置。
  4. 前記音声認識手段の音声認識結果に基づいて前記音声に含まれるコマンドを認識するコマンド認識手段をさらに備え、
    前記音声記録手段は、前記第1の集音モードに制御された後前記入力手段が所定の入力を検出した場合、さらに前記コマンドを認識するためのコマンド用音声を記録し、
    前記コマンド認識手段は、前記音声記録手段により記録された前記コマンド用音声に含まれる前記コマンドを認識し、
    前記音声認識手段は、前記第1の集音モードに制御された後前記入力手段が所定の入力を検出した場合、前記コマンド認識手段に認識された前記コマンドに基づいて前記音声認識を行う第3の動作モードに設定される請求項1または2記載の音声認識装置。
  5. 前記音声記録手段により前記音声の記録が開始されてから所定時間経過後にユーザに対して前記音声の発話を促す旨の通知を行う通知手段と、
    前記音声の記録が開始されてから前記所定時間の間に記録された音声から前記音声の記録時の雑音を推定する雑音推定手段とをさらに備え、
    前記音声認識手段は、前記雑音を考慮して前記音声認識を行う請求項1〜4のいずれか一項記載の音声認識装置。
  6. 音声を記録する音声記録手段と、
    前記音声に基づいて音声認識処理を行う音声認識手段と、
    前記音声認識処理の開始の指示入力を検出する入力手段と、
    前記入力手段により前記指示入力が検出されてから所定時間経過後にユーザに対して前記音声の発話を促す旨の通知を行う通知手段と、
    前記音声記録手段により記録された音声より雑音を推定する雑音推定手段とを備え、
    前記音声記録手段は、前記入力手段により前記指示入力が検出された場合に前記音声の入力を開始し、
    前記雑音推定手段は、前記前記音声の記録が開始されてから前記所定時間の間に記録された前記音声に基づいて前記雑音の推定を行い、
    前記音声認識手段は、前記雑音を考慮して前記音声認識処理を行うことを特徴とする音声認識装置。
  7. 前記音声記録手段は、前記入力手段により前記指示入力が検出される前に前記音声の記録を開始し、
    前記雑音推定手段は、前記所定時間の間に記録された前記音声に前記ユーザの発話に基づく音声が含まれている場合、前記指示入力が検出される前に記録された前記音声に基づいて前記雑音の推定を行う請求項6記載の音声認識装置。
JP2010121947A 2010-05-27 2010-05-27 音声認識装置 Pending JP2011248140A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010121947A JP2011248140A (ja) 2010-05-27 2010-05-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010121947A JP2011248140A (ja) 2010-05-27 2010-05-27 音声認識装置

Publications (1)

Publication Number Publication Date
JP2011248140A true JP2011248140A (ja) 2011-12-08

Family

ID=45413470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010121947A Pending JP2011248140A (ja) 2010-05-27 2010-05-27 音声認識装置

Country Status (1)

Country Link
JP (1) JP2011248140A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018087969A1 (ja) * 2016-11-11 2018-05-17 パナソニックIpマネジメント株式会社 翻訳装置の制御方法、翻訳装置、および、プログラム
JP2018085091A (ja) * 2016-11-11 2018-05-31 パナソニックIpマネジメント株式会社 翻訳装置の制御方法、翻訳装置、および、プログラム
WO2019150996A1 (ja) * 2018-01-30 2019-08-08 パナソニックIpマネジメント株式会社 言語提示装置、言語提示方法、及び言語提示プログラム
JP2020149035A (ja) * 2019-07-25 2020-09-17 優 坂西 音声認識装置
WO2020189410A1 (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置
JP2020160429A (ja) * 2019-03-25 2020-10-01 パナソニック株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム
US11893982B2 (en) 2018-10-31 2024-02-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method therefor
JP7432177B2 (ja) 2019-03-15 2024-02-16 優 坂西 音声認識装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07140998A (ja) * 1992-12-28 1995-06-02 Toshiba Corp 音声認識インターフェース
JP2000322098A (ja) * 1999-05-13 2000-11-24 Denso Corp 音声認識装置
JP2001067091A (ja) * 1999-08-25 2001-03-16 Sony Corp 音声認識装置
JP2003241794A (ja) * 2002-02-18 2003-08-29 Nec Corp 音声認識装置及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07140998A (ja) * 1992-12-28 1995-06-02 Toshiba Corp 音声認識インターフェース
JP2000322098A (ja) * 1999-05-13 2000-11-24 Denso Corp 音声認識装置
JP2001067091A (ja) * 1999-08-25 2001-03-16 Sony Corp 音声認識装置
JP2003241794A (ja) * 2002-02-18 2003-08-29 Nec Corp 音声認識装置及び方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018087969A1 (ja) * 2016-11-11 2018-05-17 パナソニックIpマネジメント株式会社 翻訳装置の制御方法、翻訳装置、および、プログラム
JP2018085091A (ja) * 2016-11-11 2018-05-31 パナソニックIpマネジメント株式会社 翻訳装置の制御方法、翻訳装置、および、プログラム
WO2019150996A1 (ja) * 2018-01-30 2019-08-08 パナソニックIpマネジメント株式会社 言語提示装置、言語提示方法、及び言語提示プログラム
US11893982B2 (en) 2018-10-31 2024-02-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method therefor
WO2020189410A1 (ja) * 2019-03-15 2020-09-24 優 坂西 音声認識装置
JP7432177B2 (ja) 2019-03-15 2024-02-16 優 坂西 音声認識装置
JP2020160429A (ja) * 2019-03-25 2020-10-01 パナソニック株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム
JP7429107B2 (ja) 2019-03-25 2024-02-07 パナソニックホールディングス株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム
JP2020149035A (ja) * 2019-07-25 2020-09-17 優 坂西 音声認識装置

Similar Documents

Publication Publication Date Title
JP2011248140A (ja) 音声認識装置
JP5017441B2 (ja) 携帯型電子機器
US11462213B2 (en) Information processing apparatus, information processing method, and program
US9570076B2 (en) Method and system for voice recognition employing multiple voice-recognition techniques
EP2669889A2 (en) Method and apparatus for executing voice command in electronic device
KR20140014812A (ko) 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
JP2006352869A (ja) 通信端末機及び通信端末機における通話内容送信方法
JP3847624B2 (ja) 携帯電話機
CN105489220A (zh) 语音识别方法及装置
EP2682931B1 (en) Method and apparatus for recording and playing user voice in mobile terminal
JP7330066B2 (ja) 音声認識装置、音声認識方法及びそのプログラム
US11507759B2 (en) Speech translation device, speech translation method, and recording medium
KR20130068303A (ko) 음성 명령 수행장치, 이를 구비한 이동 단말기 및 음성 명령 수행방법
CN105355195A (zh) 音频识别方法及装置
JP2008145693A (ja) 情報処理装置及び情報処理方法
JP2020042745A (ja) 電子機器、その制御方法、およびそのプログラム
JP6569926B2 (ja) 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
US20170322621A1 (en) Mobile phone, method for operating mobile phone, and recording medium
JP2018045675A (ja) 情報提示方法、情報提示プログラム及び情報提示システム
CN110890095A (zh) 语音检测方法、推荐方法、装置、存储介质和电子设备
JP2011150657A (ja) 翻訳音声再生装置およびその再生方法
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP7449070B2 (ja) 音声入力装置、音声入力方法及びそのプログラム
US11308966B2 (en) Speech input device, speech input method, and recording medium
JP2004134942A (ja) 携帯電話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140225