JP2003202890A

JP2003202890A - 音声認識装置及びその方法、プログラム

Info

Publication number: JP2003202890A
Application number: JP2001401350A
Authority: JP
Inventors: Kenichiro Nakagawa; 賢一郎中川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-12-28
Filing date: 2001-12-28
Publication date: 2003-07-18

Abstract

(57)【要約】【課題】音声入力に係る操作を効率的にかつ容易に実
行することができる音声認識装置及びその方法、プログ
ラムを提供する。【解決手段】入力デバイスの操作状態に基づいて、音
声認識処理を制御するための制御情報を音声認識制御キ
ー情報入力部１０５より入力する。音声認識処理に用い
る複数種類の音響モデル１０９及び認識文法１１０を記
憶しておく。次に、音声を音声入力部１０１より入力す
る。そして、入力される制御情報とハイパーテキスト文
書１１２に書かれたルールに基づいて、入力された音声
データに対する音声認識処理を音声認識処理制御部１０
７で制御する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された音声を
認識し、その音声認識結果に基づいて処理を実行する音
声認識装置及びその方法、プログラムに関するものであ
る。

【０００２】

【従来の技術】近年の音声認識技術の発展と電子機器の
性能向上により、音声認識技術は我々の身近なものに定
着しつつある。この音声認識技術は、パーソナルコンピ
ュータ（ＰＣ）等の端末に対する音声コマンドや、カー
ナビゲーション、電話サービスなどに実用化されてい
る。また、音声認識ソフト−Ｗｅｂコンテンツ間のイン
タフェース標準化も World Wide Web Consortium（Ｗ３
Ｃ）で議論されており、「VoiceXML」とハイパーテキス
ト形式で正式な標準となる可能性がある。

【０００３】一般的に音声認識は負荷がかかる処理であ
る。このため、対話を完全に支配するシステム（電話サ
ービスのように、システムアナウンスとユーザ発声が交
互に繰り返される）以外では、ユーザが音声認識ボタン
等による音声認識を指示を実行した場合にのみ、音声認
識処理が実行されることが望ましい。このように、ユー
ザが音声認識対象の音声を入力するための発声のタイミ
ングをシステムに伝えることは、認識誤りを低減させる
働きもある。

【０００４】例えば、音声認識機能付きのカーナビゲー
ションシステムには、通常、このような音声認識を実行
するための発声開始ボタンが付属しており、ユーザはこ
の発声開始ボタンを押してから発声、あるいは押しなが
ら発声する。ここでは、ユーザが押してから発声する音
声認識方式を「Push to talk 型」の音声認識、押しな
がら発声する場合を「Push while talk 型」の音声認識
と呼ぶ。

【０００５】特開平１１−１１２６３３号は、音声認識
開始キーを用いて音声認識を行う携帯電話端末に関する
技術を開示している。また、特開２０００−８９７８９
は、「Push while talk 型」の技術を拡張し、発声にお
ける音声区間の取りこぼしを回避する技術を開示してい
る。

【０００６】

【発明が解決しようとする課題】しかしながら、音声認
識には、認識誤りが生じるものである。認識誤りは、そ
の発声で認識結果となり得る語彙数（認識語彙）が多く
なればなるほど多くなる傾向がある。このため、なるべ
く絞られた語彙の中でユーザに発声させることが、認識
性能の観点では重要となる。

【０００７】例えば、クレジットカードの情報を音声で
入力するシステムを実現する場合、そのクレジットカー
ドのカード会社名、有効期間、名前、カード番号等のカ
ード情報の入力をユーザから受ける必要がある。これら
のカード情報中の任意の情報をどれでも入力が可能にな
るようにシステムを構築すると、認識語彙が増大するた
め多くの認識誤りが生じることが予想される。そこで、
ユーザにどの情報を入力対象であるかを選択させ、その
情報のみを認識語彙とすることで認識率の低下をある程
度防ぐことができる。この方法では、ユーザは入力対象
の情報を選択し、その情報を発声することになる。例え
ば、マウスで「カード有効期間」のボックスを選択し、
音声認識開始キーを押して「２００５年１２月」と発声
する。この方法では、確かに一度に認識するための認識
語彙が少ないため、認識性能は期待できる。しかし、一
つの情報の入力ごとに・入力対象の情報を選択する・音声認識開始キーを押下するという２ストロークの作業が発生するため、ユーザの音
声入力操作に係る負担は大きい。

【０００８】本発明は上記の課題を解決するためになさ
れたものであり、音声入力に係る操作を効率的にかつ容
易に実行することができる音声認識装置及びその方法、
プログラムを提供すること目的とする。

【０００９】

【課題を解決するための手段】上記の目的を達成するた
めの本発明による音声認識装置は以下の構成を備える。
即ち、入力された音声を認識し、その音声認識結果に基
づいて処理を実行する音声認識装置であって、入力デバ
イスの操作状態に基づいて、音声認識処理を制御するた
めの制御情報を入力する入力手段と、前記音声認識処理
に用いる複数種類の音響モデル及び認識文法を記憶する
記憶手段と、音声を入力する音声入力手段と、前記入力
手段によって入力される制御情報に基づいて、前記音声
入力手段で入力された音声データに対する音声認識処理
を制御する制御手段とを備える。

【００１０】また、好ましくは、ハイパーテキスト文書
を読み込むハイパーテキスト文書読込手段とを更に備
え、前記制御手段は、前記制御情報と前記ハイパーテキ
スト文書に基づいて、前記音声入力手段で入力された音
声データに対する音声認識処理を制御する。

【００１１】また、好ましくは、前記制御手段は、前記
入力デバイスの操作状態が所定状態から初期状態になる
場合に、前記音声認識処理の実行を終了する。

【００１２】また、好ましくは、前記入力手段は、前記
操作状態を判定する判定手段とを備え、前記判定手段で
判定された操作状態を示す制御情報を入力し、前記制御
手段は、前記制御情報に対応する前記音響モデル及び前
記認識文法を用いて前記音声認識処理を実行する。

【００１３】また、好ましくは、前記制御手段は、前記
制御情報に対応する音声認識処理に用いる音声認識文法
を設定する。

【００１４】また、好ましくは、前記制御手段は、前記
制御情報に対応する音声認識処理に用いる音響モデルを
設定する。

【００１５】また、好ましくは、前記入力デバイスは、
複数のボタンである。

【００１６】また、好ましくは、前記入力デバイスは、
複数種類のキー群を有するキーボードである。

【００１７】また、好ましくは、前記入力デバイスは、
複数種類の操作状態を有するダイヤルである。

【００１８】また、好ましくは、前記制御情報に基づい
て、前記音声認識処理の音声認識結果を出力する出力手
段とを更に備える。

【００１９】また、好ましくは、前記制御情報に基づい
て、前記出力手段で出力された音声認識結果による検索
を実行する検索手段とを更に備える。

【００２０】また、好ましくは、前記制御情報に基づい
て、前記出力手段で出力された音声認識結果に対応する
コマンドを実行する実行手段とを更に備える。

【００２１】また、好ましくは、前記制御情報に基づい
て、前記出力手段で出力された音声認識結果に対応する
宛先と発呼する発呼手段とを更に備える。

【００２２】上記の目的を達成するための本発明による
音声認識方法は以下の構成を備える。即ち、入力された
音声を認識し、その音声認識結果に基づいて処理を実行
する音声認識方法であって、入力デバイスの操作状態に
基づいて、音声認識処理を制御するための制御情報を入
力する入力工程と、音声を入力する音声入力工程と、前
記入力工程によって入力される制御情報に基づいて、前
記音声入力工程で入力された音声データに対する音声認
識処理を制御する制御工程とを備える。

【００２３】上記の目的を達成するための本発明による
プログラムは以下の構成を備える。即ち、入力された音
声を認識し、その音声認識結果に基づいて処理を実行す
る音声認識をコンピュータに機能させるためのプログラ
ムであって、入力デバイスの操作状態に基づいて、音声
認識処理を制御するための制御情報を入力する入力工程
のプログラムコードと、音声を入力する音声入力工程の
プログラムコードと、前記入力工程によって入力される
制御情報に基づいて、前記音声入力工程で入力された音
声データに対する音声認識処理を制御する制御工程のプ
ログラムコードとを備える。

【００２４】

【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。 [実施形態１]図１は本発明の実施形態１の音声認識装置
の機能構成を示すブロック図である。

【００２５】音声認識装置１０８は、マイクなどの音声
入力部１０１からユーザの音声を取り込み、その音声を
音声認識処理により音声認識結果である文字列に変換
し、ディスプレイやプリンタ等の外部機器１１１に送信
する。音声認識装置１０８には、外部に音声入力部１０
１、音声認識制御キー情報入力部１０５及び外部機器１
１１が接続されている。音声入力部１０１には、音声認
識装置１０８内の音声取込部１０２、音声認識制御キー
情報入力部１０５には、音声認識制御キー情報取込部１
０６がそれぞれ接続されている。

【００２６】音声認識制御キー情報入力部１０５は、入
力デバイスとして、単純な押ボタンでもよいし、キーボ
ード上のキー及びキー群の組み合わせや、マウス上のボ
タン及びボタン群の組み合わせ、ジョグダイヤルのよう
なダイヤル、更には、シャトルスイッチのようなスイッ
チであってもよい。いずれにしても、複数種類の操作状
態（ボタンの押下／非押下、キー操作、ダイヤル／スイ
ッチの位置、複数の入力部）を有する入力デバイスであ
ればどのようなものでも良い。但し、この操作状態の数
は、ユーザを混乱させない程度の数（例えば、３、４
個）であることが望ましい。

【００２７】また、ユーザの操作に応じて音声認識制御
キー情報入力部１０５が生成する音声認識制御キー情報
（以下、単に、制御情報と称する）は、キーの種類、キ
ーの操作回数、ボタンの押下／非押下、キー操作、ダイ
ヤル／スイッチの位置等の入力デバイスの操作状態を示
す情報である。

【００２８】音声認識制御キー情報入力部１０５が操作
されると、音声認識制御キー情報取込部１０６がその操
作を検知し、その検知結果から得られる制御情報に基づ
いて、音声取込部１０２は音声入力部１０１から音声の
取込を開始する。それと同時に、制御情報を音声認識処
理制御部１０７に通知する。音声認識処理制御部１０７
は、ハイパーテキスト文書１１２に記述された内容と制
御情報に基づいて、音声認識部１０３で使用する音響モ
デル（音声特徴量の統計データを記述したもの）１０９
及び認識文法１１０（音声認識対象の語彙からなる各種
データ）を決定する。

【００２９】音声認識部１０３は、音声認識処理制御部
１０７で決定された音響モデル１０９及び認識文法１１
０と、音声取込部１０２により取得された音声データを
用いて音声認識処理を行う。音声認識処理は公知の技術
であるため、その詳細は省略するが、音声データを全認
識語彙の音響的特性と比較し、最も尤度の高いものを音
声認識結果として出力する処理である。

【００３０】音響モデル１０９及び認識文法１１０は、
入力される音声の最適な音声認識処理を実行するために
必要な複数種類の音響モデル及び認識文法からなり、そ
の具体例については、各実施形態で後述する。

【００３１】ハイパーテキスト文書１１２には、制御情
報（具体的なキーの種類等）と認識動作内容（使用する
文法名等）が対となって書かれている。音声認識処理制
御部１０７では、このハイパーテキスト文書１１２の対
応関係を基に、制御情報から使用する認識文法や音響モ
デルを選択する。ハイパーテキスト文書１１２の具体例
については、各実施形態で後述する。

【００３２】音声認識部１０３の音声認識結果は、音声
認識結果出力部１０４から外部機器１１１に出力され
る。このとき、先に使われた音声認識制御キー情報入力
部１０５の制御情報も出力し、出力先で制御情報により
音声認識結果の使用方法を変更することが可能となる。

【００３３】尚、当該音声認識装置１０８は、公衆回線
や無線ＬＡＮ等とのネットワークを介して、データ通信
を行うことができ、汎用コンピュータや携帯端末に搭載
される標準的な構成要素（例えば、ＣＰＵ、ＲＡＭ、Ｒ
ＯＭ、ハードディスク、外部記憶装置、ネットワークイ
ンタフェース、ディスプレイ、キーボード、マウス等）
で構成されている。また、上述の音声認識装置１０８で
実現される各種機能は、システム内部のＲＯＭや外部記
憶装置に記憶されるプログラムがＣＰＵによって実行さ
れることによって実現されても良いし、専用のハードウ
ェアで実現されても良い。

【００３４】次に、図１の音声認識装置を利用する具体
的な動作例について、図２を用いて説明する。

【００３５】図２は本発明の実施形態１の音声認識装置
の動作例を示すフローチャートである。

【００３６】図２では、音声認識装置１０８をパーソナ
ルコンピュータで実現する場合を例に挙げる。特に、パ
ーソナルコンピュータ上のＷｅｂブラウザで、インター
ネット上のＷｅｂサイトを閲覧しているときに、表示Ｗ
ｅｂページあるいはインターネット全体を検索する場合
において、音声認識結果を用いて検索を行うことが可能
なＷｅｂブラウザに関する例である。この例では、ユー
ザが「Push to talk型」で用いる音声認識開始キーを有
する音声認識制御キー情報入力部１０５により、現在Ｗ
ｅｂブラウザ上で表示するＷｅｂページの中での検索、
インターネット全体の検索を切り換えることが可能であ
る。

【００３７】本音声認識装置１０８が起動すると、音声
認識処理制御部１０７は、ハイパーテキスト文書１１２
を読み込み、音声認識に用いる音響モデル１０９及び認
識文法１１０を用いて、初期化を行う（ステップＳ２０
１）。次に、音声認識制御キー情報入力部１０５は、音
声認識開始キーが操作されたか否かを判定する（ステッ
プＳ２０２）。音声認識開始キーが操作されない場合
（ステップＳ２０２でＮＯ）、操作されるまで待機す
る。一方、音声認識開始キーが操作された場合（ステッ
プＳ２０２でＹＥＳ）、ステップＳ２０３に進む。

【００３８】尚、ハイパーテキスト文書１１２により、
音声認識開始キーの操作によって音声認識制御キー情報
入力部１０５で入力される制御情報は、キーボード上の
「Ｃｔｒｌ＋Ｗ」（「Ｃｔｒｌ」キーを押しながら
「Ｗ」キーを押す）、あるいは「Ｃｔｒｌ＋Ｆ」（「Ｃ
ｔｒｌ」キーを押しながら「Ｆ」キーを押す）の２種類
を示す情報であると記述されていたとする。また、「Ｃ
ｔｒｌ＋Ｗ」は、例えば、音声認識結果を用いたインタ
ーネット全体の検索、「Ｃｔｒｌ＋Ｆ」は、例えば、音
声認識結果を用いてＷｅｂページ上での検索の実行が割
当られているとする。

【００３９】音声認識開始キーが操作されると、音声認
識制御キー情報入力部１０５はその操作に対応する制御
情報をバッファＫｅｙに格納する（ステップＳ２０
３）。次に、音声取得部１０２にて、一定期間分の音声
データを音声入力部１０１から取得する（ステップＳ２
０４）。次に、音声認識部１０３にて、その一定期間分
の音声データの音声認識処理を行う（ステップＳ２０
５）。

【００４０】尚、この一定期間は、例えば、１／１００
秒程度の時間が用いられることが多い。

【００４１】次に、音声認識部１０３は、取り込まれた
音声データ中の音声波形が音声区間終端であるか否かを
判定する。音声区間終端でない場合（ステップＳ２０６
でＮＯ）、例えば、ユーザは発声中あるいは発声し始め
ていない場合は、ステップＳ２０４に戻り、音声区間終
端が得られるまで、音声データの取込と音声認識処理を
繰り返す。一方、音声区間終端である場合（ステップＳ
２０６でＹＥＳ）、音声認識結果出力部１０４は、音声
区間始端からその音声区間終端までの音声認識結果を出
力する（ステップＳ２０６ａ）。

【００４２】音声認識処理が終了すると、音声認識処理
制御部１０７は、先に格納したバッファＫｅｙを参照
し、音声認識制御キー情報入力部１０５から入力された
制御情報を判定する（ステップＳ２０７）。ここでは、
制御情報が「Ｃｔｒｌ＋Ｆ」であるか否かを判定する。
「Ｃｔｒｌ＋Ｆ」である場合（ステップＳ２０７でＹＥ
Ｓ）、音声認識結果（テキストデータ）を用いて現在表
示中のＷｅｂページ内を検索する（ステップＳ２０
８）。

【００４３】一方、「Ｃｔｒｌ＋Ｆ」でない場合（ステ
ップＳ２０７でＮＯ）、つまり、制御情報が「Ｃｔｒｌ
＋Ｗ」の場合、Yahoo!等のインターネット検索エンジン
に音声認識結果を送信し、インターネット全体の検索を
指示する。

【００４４】図３は、図２の音声認識処理機能を実現す
るためのハイパーテキスト文書である。これは「VoiceX
ML １.０」を一部拡張した表現で記述しており、拡張箇
所は図の下線で示してある部分に現れている。追加する
仕様は次に示す。

【００４５】尚、このハイパーテキスト文書によって実
現される音声認識処理機能は、Ｗｅｂブラウザに予め組
込まれた形で動作しても良いし、Ｗｅｂブラウザへのプ
ラグインとして動作しても良いし、インターネット上の
Ｗｅｂサーバが管理する専用Ｗｅｂサイト上で動作して
も良い。

【００４６】＜field＞の属性として「asrmode」（３０
１）を追加する。これは音声認識方法を「Push to talk
型」で行うか、「Push while talk 型」で行うかを指
定する属性である。また、＜grammar＞の属性として「p
ushkey」（３０２）を追加する。これは、「Push to ta
lk 型」あるいは「Push while talk 型」の音声認識処
理の場合に、制御情報によって使用する認識文法を指定
する。つまり、ユーザの操作によって入力された制御情
報とハイパーテキスト文書に記述された制御情報が一致
した場合、その制御情報に対応する認識文法を用いるこ
とを示している。さらに、＜grammar＞に属性「id」
（３０３）を追加する。この属性値は、＜field＞要素
のシャドウ変数として機能し、音声認識結果から＜gram
mar＞の「id」（３０４）を取得することが可能とす
る。これにより、使用された認識文法の「id」によっ
て、条件分岐等の処理が可能となる。

【００４７】尚、実施形態１では、音声認識結果の使用
方法として、音声認識結果を用いた検索を行う例を挙げ
たがこれに限定されず、例えば、Ｗｅｂページ上の選択
項目の選択や入力フォームへの入力等の各種操作に応用
することができる。

【００４８】以上説明したように、実施形態１によれ
ば、「Push to talk 型」で用いる音声認識開始キーの
操作状態に応じて音声認識制御キー情報入力部１０５が
生成する制御情報に基づいて、音響モデル１０９及び認
識文法１１０、音声認識結果の使用方法を設定する。こ
れにより、音声認識処理の実行や音声認識結果の使用方
法の切換を、ユーザは音声認識開始キーの１回の操作で
実行することできる。

【００４９】また、認識動作の内容はハイパーテキスト
文書によって記述されているため、各認識制御キーをユ
ーザあるいはWebサイトの管理者が自由にカスタマイズ
することも可能である。 [実施形態２]近年の多くのカーナビゲーションシステム
には、音声認識機能が搭載されており、ユーザは住所、
コマンド等を運転中に発声することで、音声入力による
カーナビゲーションシステムの操作が可能である。実施
形態２では、実施形態１の音声認識装置１０８をカーナ
ビゲーションシステム（通信ユニット、ＧＰＳ、地図デ
ータ等の各種データ、スピーカ等の通常のカーナビゲー
ションシステムを実現するための各種構成要素からな
る）に適用する場合について説明する。

【００５０】特に、実施形態２のカーナビゲーションシ
ステムでは、左右２つの「Push while talk 型」の音声
取込キーを有する音声認識制御キー情報入力部１０５を
構成する。ここで、音声取込キーの操作によって音声認
識制御キー情報入力部１０５で入力される制御情報は、
音声取込キー（右）、あるいは音声取込キー（左）の２
種類を示す情報である。音声取込キー（右）は、例え
ば、全国地名が認識できる認識文法の設定及びそれを用
いた音声認識処理、音声取込キー（左）は、例えば、音
声コマンドが認識できる認識文法の設定及びそれを用い
た音声認識処理の実行が割当られているとする。これら
の認識動作はハイパーテキスト文書１１２によって記述
されているものとする。

【００５１】これにより、ユーザが選択した音声取込キ
ーに応じた音声認識で用いる認識文法を設定することが
でき、音声認識処理で一度に起動する認識語彙を少なく
抑えることができるともに、ユーザが入力する音声に対
する最適な音声認識処理を実行することができる。

【００５２】図４は本発明の実施形態２の音声認識装置
の動作例を示すフローチャートである。

【００５３】まず、本音声認識装置１０８が起動する
と、音声認識処理制御部１０７は、ハイパーテキスト文
書１１２を読み込み、音響モデル１０９を初期化する
（ステップＳ４０１）。このハイパーテキスト文書１１
２には、音声取込キー（右）には全国地名文法が、音声
取込キー（左）には音声コマンド文法が指定されている
ものとする。

【００５４】次に、音声認識制御キー情報入力部１０５
は、音声取込キー（右）が操作されたか否かを判定する
（ステップＳ４０２）。音声取込キー（右）が操作され
た場合（ステップＳ４０２でＹＥＳ）、その操作に対応
する制御情報をバッファＫｅｙに格納し、その制御情報
に対応する全国地名が認識できる認識文法（全国地名文
法）を設定する（ステップＳ４０４）。一方、音声取込
キー（右）が操作されない場合（ステップＳ４０２でＮ
Ｏ）、ステップＳ４０３に進む。

【００５５】ステップＳ４０３では、音声認識制御キー
情報入力部１０５は、音声取込キー（左）が操作された
か否かを判定する（ステップＳ４０３）。音声取込キー
（左）が操作された場合（ステップＳ４０３でＹＥ
Ｓ）、その操作に対応する制御情報をバッファＫｅｙに
格納し、その制御情報に対応する音声コマンドが認識で
きる認識文法（音声コマンド文法）を設定する（ステッ
プＳ４０５）。一方、音声取込キー（左）が操作されな
い場合（ステップＳ４０３でＮＯ）、ステップＳ４０２
に戻る。

【００５６】尚、全国地名文法及び音声コマンド文法は
それぞれ、例えば、図５の５０１及び５０２のような構
成を有している。具体的には、全国地名文法は、ユーザ
が入力する音声を地名として認識するための認識文法で
あり、地名の表記情報とそれに対応する発声情報から構
成される。この全国地名文法によって得られる音声認識
結果は、例えば、カーナビゲーションシステムの操作画
面上の地名入力メニューの入力として利用される。一
方、音声コマンド文法は、ユーザが入力する音声を音声
コマンドとして認識するための文法であり、音声コマン
ドの表記情報とそれに対応する発声情報から構成され
る。この音声コマンド文法によって得られる音声認識結
果は、例えば、カーナビゲーションシステムの操作画面
上の操作メニューの選択や入力メニューへの入力として
利用される。

【００５７】本音声認識装置１０８は、「Push while t
alk 型」であるため、押された音声取込キーが離される
まで音声認識処理を繰り返す。そこで、音声認識制御キ
ー情報入力部１０５は、音声取込キーが離されたか否か
を判定する（ステップＳ４０６）。音声取込キーが離さ
れていない場合（ステップＳ４０６でＮＯ）、音声取得
部１０２にて、一定期間分の音声データを音声入力部１
０１から取得する（ステップＳ４０７）。次に、音声認
識部１０３にて、その一定期間分の音声データの音声認
識処理を行う（ステップＳ４０８）。

【００５８】一方、音声取込キーが離された場合（ステ
ップＳ４０６でＹＥＳ）、つまり、音声取込キーが操作
されていない初期状態に戻った場合、音声認識制御キー
情報入力部１０５はその旨を音声認識処理制御部１０７
に通知し、音声認識処理制御部１０７は、音声区間終端
であると判定し、音声認識処理を終了する（ステップＳ
４０９）。そして、その時点で最も尤度の高い音声認識
語彙を音声認識結果として出力する（ステップＳ４１
０）。

【００５９】図６は、図４の音声認識処理機能を実現す
るためのハイパーテキスト文書である。これも、図３と
同様に、「VoiceXML １.０」を一部拡張した表現で記述
しており、拡張箇所は図の下線で示してある部分（６０
１、６０２）に現れている。この６０１及び６０２の記
述は、実施形態１で説明した記述３０１及び３０２に対
応するものである。

【００６０】以上説明したように、実施形態２によれ
ば、「Push while talk 型」で用いる音声取込キーの操
作状態に応じて音声認識制御キー情報入力部１０５が生
成する制御情報に基づいて、認識文法１１０を設定す
る。これにより、入力される音声に対する適切な音声認
識処理の実行や音声認識結果の使用方法の切換を、ユー
ザは音声取込キーの１回の操作で実行することできる。

【００６１】また、ユーザは、このハイパーテキスト文
書をなんらかのユーザインタフェースを用いて編集する
ことが可能である。例えば、左右のボタンに逆の意味を
もたせる事も可能である。 [実施形態３]宛先名を発声し、その発声を音声認識処理
して得られる音声認識結果に対応する宛先へ自動的に電
話を発呼するボイスダイヤル機能を搭載した携帯電話機
（通信ユニット、アドレス帖等の各種データ、マイク、
スピーカ等のボイスダイヤル機能を搭載した携帯電話機
を実現するための各種構成要素からなる）が発売されて
いる。この携帯電話機で実現される音声認識処理は、平
常時の音声で最も認識性能が出るようにチューニングさ
れている。このため、満員電車内やコンサートホール内
で、通常の発声より小さい発声（「ささやき声」）をす
る必要な状況では、高い認識性能が望めないことが予想
される。そこで、実施形態３では、「通常音声用（第１
音声用）」と「ささやき音声用（第２音声用）」の２種
類に音声取込キーを割り当て、発声形態に適切な音声認
識処理を実行する音声認識装置１０８を携帯電話機に適
用する場合について説明する。

【００６２】図７は本発明の実施形態３の音声認識装置
の動作例を示すフローチャートである。

【００６３】尚、図７の説明にあたり、実施形態３の携
帯電話機の概観を図８に示す。図８の携帯電話機８０１
のダイヤル８０３は、「Push while talk 型」で用いる
音声取込キーとして機能し、操作していない初期状態の
ときは中立位置になっている。そして、図８では、ダイ
ヤル８０３が上位置にある状態を示しており、ダイヤル
８０３が上位置にある場合が「ささやき音声用」の音響
モデルＡの設定及びそれを用いた音声認識処理の実行が
割当られ、下位置にある場合が「通常音声用」の音響モ
デルＢの設定及びそれを用いた音声認識処理の実行が割
当られている。また、ダイヤル８０３の位置により、表
示部８０２に現在の音声取込キーの種類をユーザに提示
することが可能である。

【００６４】本音声認識装置１０８が起動すると、音声
認識処理制御部１０７は、ハイパーテキスト文書１１２
を読み込み、認識文法を初期化する（ステップＳ７０
１）。この認識文法は、携帯電話機内に格納されている
アドレス帖から自動で作成されたものである。

【００６５】次に、音声認識制御キー情報入力部１０５
は、ダイヤル８０３が上位置であるか否かを判定する
（ステップＳ７０２）。ダイヤル８０３が上位置である
場合（ステップＳ７０２でＹＥＳ）、その操作に対応す
る制御情報をバッファＫｅｙに格納し、その制御情報に
対応する「ささやき音声用」の音響モデルＡを設定する
（ステップＳ７０４）。一方、ダイヤル８０３が上位置
でない場合（ステップＳ７０２でＮＯ）、ステップＳ７
０３に進む。

【００６６】ステップＳ７０３では、音声認識制御キー
情報入力部１０５は、ダイヤル８０３が下位置であるか
否かを判定する（ステップＳ７０３）。ダイヤル８０３
が下位置である場合（ステップＳ７０３でＹＥＳ）、そ
の操作に対応する制御情報をバッファＫｅｙに格納し、
その制御情報に対応する「通常音声用」の音響モデルＢ
を設定する（ステップＳ７０５）。一方、ダイヤル８０
３が下位置でない場合（ステップＳ７０３でＮＯ）、ス
テップＳ７０２に戻る。

【００６７】本音声認識装置１０８は、ダイヤル８０３
が中立位置に戻されるまで音声認識処理を繰り返す。そ
こで、音声認識制御キー情報入力部１０５は、ダイヤル
８０３が中立位置であるか否かを判定する（ステップＳ
７０６）。ダイヤル８０３が中立位置でない場合（ステ
ップＳ７０６でＮＯ）、音声取得部１０２にて、一定期
間分の音声データを音声入力部１０１から取得する（ス
テップＳ７０７）。次に、音声認識部１０３にて、その
一定期間分の音声データの音声認識処理を行う（ステッ
プＳ７０８）。

【００６８】一方、ダイヤル８０３が中立位置である場
合（ステップＳ７０６でＹＥＳ）、つまり、音声取込キ
ーが操作されていない初期状態に戻った場合、音声認識
制御キー情報入力部１０５はその旨を音声認識処理制御
部１０７に通知し、音声認識処理制御部１０７は、音声
区間終端であると判定し、音声認識処理を終了する（ス
テップＳ７０９）。そして、その時点で最も尤度の高い
音声認識語彙を音声認識結果に対応するアドレス帖の宛
先へ電話を発呼する（ステップＳ７１０）。

【００６９】図９は、図７の音声認識処理機能を実現す
るためのハイパーテキスト文書である。これも、図３と
同様に、「VoiceXML １.０」を一部拡張した表現で記述
されており、拡張箇所は図の下線で示してある部分（９
０１〜９０３）に現れている。

【００７０】特に、９０３は＜grammar＞の属性として
追加された「model」であり、音声認識時に使用する音
響モデル名を指定するためのものである。また、この９
０１及び９０２の記述は、実施形態１で説明した記述３
０１及び３０２に対応するものである。

【００７１】以上説明したように、実施形態３によれ
ば、「Push while talk 型」で用いる音声取込キーの操
作状態に応じて音声認識制御キー情報入力部１０５が生
成する制御情報に基づいて、音響モデルを設定する。こ
れにより、入力される音声に対する適切な音声認識処理
の実行を、ユーザは音声取込キーの１回の操作で実行す
ることできる。

【００７２】また、上記実施形態１〜３によれば、音声
認識開始キーや音声取込キーを含む音声認識制御キー
（「Push to talk 型」または「Push while talk 型」
に用いるキー）を１回操作するだけで、音声認識処理
（音声入力処理も含む）に係る各種処理の実行や各種パ
ラメータの設定を実行することができる。例えば、認識
文法及び音響モデルの設定、入力音声に適切な音声認識
処理の実行及びその音声認識結果の使用方法の切換を実
現することができる。

【００７３】尚、本発明は、前述した実施形態の機能を
実現するソフトウェアのプログラム（実施形態では図に
示すフローチャートに対応したプログラム）を、システ
ム或いは装置に直接或いは遠隔から供給し、そのシステ
ム或いは装置のコンピュータが該供給されたプログラム
コードを読み出して実行することによっても達成される
場合を含む。その場合、プログラムの機能を有していれ
ば、形態は、プログラムである必要はない。

【００７４】従って、本発明の機能処理をコンピュータ
で実現するために、該コンピュータにインストールされ
るプログラムコード自体も本発明を実現するものであ
る。つまり、本発明は、本発明の機能処理を実現するた
めのコンピュータプログラム自体も含まれる。

【００７５】その場合、プログラムの機能を有していれ
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、ＯＳに供給するスクリプトデータ等、プ
ログラムの形態を問わない。

【００７６】プログラムを供給するための記録媒体とし
ては、例えば、フロッピー（登録商標）ディスク、ハー
ドディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ
−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発
性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，
ＤＶＤ−Ｒ）などがある。

【００７７】その他、プログラムの供給方法としては、
クライアントコンピュータのブラウザを用いてインター
ネットのホームページに接続し、該ホームページから本
発明のコンピュータプログラムそのもの、もしくは圧縮
され自動インストール機能を含むファイルをハードディ
スク等の記録媒体にダウンロードすることによっても供
給できる。また、本発明のプログラムを構成するプログ
ラムコードを複数のファイルに分割し、それぞれのファ
イルを異なるホームページからダウンロードすることに
よっても実現可能である。つまり、本発明の機能処理を
コンピュータで実現するためのプログラムファイルを複
数のユーザに対してダウンロードさせるＷＷＷサーバ
も、本発明に含まれるものである。

【００７８】また、本発明のプログラムを暗号化してＣ
Ｄ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所
定の条件をクリアしたユーザに対し、インターネットを
介してホームページから暗号化を解く鍵情報をダウンロ
ードさせ、その鍵情報を使用することにより暗号化され
たプログラムを実行してコンピュータにインストールさ
せて実現することも可能である。

【００７９】また、コンピュータが、読み出したプログ
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼動しているＯＳなどが、実際の処理の一
部または全部を行ない、その処理によっても前述した実
施形態の機能が実現され得る。

【００８０】さらに、記録媒体から読み出されたプログ
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ
などが実際の処理の一部または全部を行ない、その処理
によっても前述した実施形態の機能が実現される。

【００８１】

【発明の効果】以上説明したように、本発明によれば、
音声入力に係る操作を効率的にかつ容易に実行すること
ができる音声認識装置及びその方法、プログラムを提供
できる。

【図面の簡単な説明】

【図１】本発明の実施形態１の音声認識装置の機能構成
を示すブロック図である。

【図２】本発明の実施形態１の音声認識装置の動作例を
示すフローチャートである。

【図３】本発明の実施形態１の音声認識処理機能を実現
するためのハイパーテキスト文書例を示す図である。

【図４】本発明の実施形態２の音声認識装置の動作例を
示すフローチャートである。

【図５】本発明の実施形態２の認識文法の例を示す図で
ある。

【図６】本発明の実施形態２の音声認識処理機能を実現
するためのハイパーテキスト文書例を示す図である。

【図７】本発明の実施形態３の音声認識装置の動作例を
示すフローチャートである。

【図８】本発明の実施形態３の携帯電話機の概観を示す
図である。

【図９】本発明の実施形態３の音声認識処理機能を実現
するためのハイパーテキスト文書例を示す図である。

【符号の説明】

１０１音声入力部１０２音声取込部１０３音声認識部１０４音声認識結果出力部１０５音声認識制御キー情報入力部１０６音声認識制御キー情報取込部１０７音声認識処理制御部１０８音声認識装置１０９音響モデル１１０認識文法

Claims

【特許請求の範囲】

【請求項１】入力された音声を認識し、その音声認識
結果に基づいて処理を実行する音声認識装置であって、入力デバイスの操作状態に基づいて、音声認識処理を制
御するための制御情報を入力する入力手段と、前記音声認識処理に用いる複数種類の音響モデル及び認
識文法を記憶する記憶手段と、音声を入力する音声入力手段と、前記入力手段によって入力される制御情報に基づいて、
前記音声入力手段で入力された音声データに対する音声
認識処理を制御する制御手段とを備えることを特徴とす
る音声認識装置。
【請求項２】ハイパーテキスト文書を読み込むハイパ
ーテキスト文書読込手段とを更に備え、前記制御手段は、前記制御情報と前記ハイパーテキスト
文書に基づいて、前記音声入力手段で入力された音声デ
ータに対する音声認識処理を制御することを特徴とする
請求項１に記載の音声認識装置。
【請求項３】前記制御手段は、前記入力デバイスの操
作状態が所定状態から初期状態になる場合に、前記音声
認識処理の実行を終了することを特徴とする請求項１に
記載の音声認識装置。
【請求項４】前記入力手段は、前記操作状態を判定す
る判定手段とを備え、前記判定手段で判定された操作状態を示す制御情報を入
力し、前記制御手段は、前記制御情報に対応する前記音響モデ
ル及び前記認識文法を用いて前記音声認識処理を実行す
ることを特徴とする請求項１に記載の音声認識装置。
【請求項５】前記制御手段は、前記制御情報に対応す
る音声認識処理に用いる音声認識文法を設定することを
特徴とする請求項１に記載の音声認識装置。
【請求項６】前記制御手段は、前記制御情報に対応す
る音声認識処理に用いる音響モデルを設定することを特
徴とする請求項１に記載の音声認識装置。
【請求項７】前記入力デバイスは、複数のボタンであ
ることを特徴とする請求項１に記載の音声認識装置。
【請求項８】前記入力デバイスは、複数種類のキー群
を有するキーボードであることを特徴とする請求項１に
記載の音声認識装置。
【請求項９】前記入力デバイスは、複数種類の操作状
態を有するダイヤルであることを特徴とする請求項１に
記載の音声認識装置。
【請求項１０】前記制御情報に基づいて、前記音声認
識処理の音声認識結果を出力する出力手段とを更に備え
ることを特徴とする請求項１に記載の音声認識装置。
【請求項１１】前記制御情報に基づいて、前記出力手
段で出力された音声認識結果による検索を実行する検索
手段とを更に備えることを特徴とする請求項１０に記載
の音声認識装置。
【請求項１２】前記制御情報に基づいて、前記出力手
段で出力された音声認識結果に対応するコマンドを実行
する実行手段とを更に備えることを特徴とする請求項１
０に記載の音声認識装置。
【請求項１３】前記制御情報に基づいて、前記出力手
段で出力された音声認識結果に対応する宛先と発呼する
発呼手段とを更に備えることを特徴とする請求項１０に
記載の音声認識装置。
【請求項１４】入力された音声を認識し、その音声認
識結果に基づいて処理を実行する音声認識方法であっ
て、入力デバイスの操作状態に基づいて、音声認識処理を制
御するための制御情報を入力する入力工程と、音声を入力する音声入力工程と、前記入力工程によって入力される制御情報に基づいて、
前記音声入力工程で入力された音声データに対する音声
認識処理を制御する制御工程とを備えることを特徴とす
る音声認識方法。
【請求項１５】ハイパーテキスト文書を読み込むハイ
パーテキスト文書読込工程とを更に備え、前記制御工程は、前記制御情報と前記ハイパーテキスト
文書に基づいて、前記音声入力工程で入力された音声デ
ータに対する音声認識処理を制御することを特徴とする
請求項１４に記載の音声認識方法。
【請求項１６】前記制御工程は、前記入力デバイスの
操作状態が所定状態から初期状態になる場合に、前記音
声認識処理の実行を終了することを特徴とする請求項１
４に記載の音声認識方法。
【請求項１７】前記入力工程は、前記操作状態を判定
する判定工程とを備え、前記判定工程で判定された操作状態を示す制御情報を入
力し、前記制御工程は、前記制御情報に対応する音響モデル及
び認識文法を用いて前記音声認識処理を実行することを
特徴とする請求項１４に記載の音声認識方法。
【請求項１８】前記制御工程は、前記制御情報に対応
する音声認識処理に用いる音声認識文法を設定すること
を特徴とする請求項１４に記載の音声認識方法。
【請求項１９】前記制御工程は、前記制御情報に対応
する音声認識処理に用いる音響モデルを設定することを
特徴とする請求項１４に記載の音声認識方法。
【請求項２０】前記入力デバイスは、複数のボタンで
あることを特徴とする請求項１４に記載の音声認識方
法。
【請求項２１】前記入力デバイスは、複数種類のキー
群を有するキーボードであることを特徴とする請求項１
４に記載の音声認識方法。
【請求項２２】前記入力デバイスは、複数種類の操作
状態を有するダイヤルであることを特徴とする請求項１
４に記載の音声認識方法。
【請求項２３】前記制御情報に基づいて、前記音声認
識処理の音声認識結果を出力する出力工程とを更に備え
ることを特徴とする請求項１４に記載の音声認識方法。
【請求項２４】前記制御情報に基づいて、前記出力工
程で出力された音声認識結果による検索を実行する検索
工程とを更に備えることを特徴とする請求項２３に記載
の音声認識方法。
【請求項２５】前記制御情報に基づいて、前記出力工
程で出力された音声認識結果に対応するコマンドを実行
する実行工程とを更に備えることを特徴とする請求項２
３に記載の音声認識方法。
【請求項２６】前記制御情報に基づいて、前記出力手
段で出力された音声認識結果に対応する宛先と発呼する
発呼工程とを更に備えることを特徴とする請求項２３に
記載の音声認識方法。
【請求項２７】入力された音声を認識し、その音声認
識結果に基づいて処理を実行する音声認識をコンピュー
タに機能させるためのプログラムであって、入力デバイ
スの操作状態に基づいて、音声認識処理を制御するため
の制御情報を入力する入力工程のプログラムコードと、音声を入力する音声入力工程のプログラムコードと、前記入力工程によって入力される制御情報に基づいて、
前記音声入力工程で入力された音声データに対する音声
認識処理を制御する制御工程のプログラムコードとを備
えることを特徴とするプログラム。