JP2003202890A - 音声認識装置及びその方法、プログラム - Google Patents

音声認識装置及びその方法、プログラム

Info

Publication number
JP2003202890A
JP2003202890A JP2001401350A JP2001401350A JP2003202890A JP 2003202890 A JP2003202890 A JP 2003202890A JP 2001401350 A JP2001401350 A JP 2001401350A JP 2001401350 A JP2001401350 A JP 2001401350A JP 2003202890 A JP2003202890 A JP 2003202890A
Authority
JP
Japan
Prior art keywords
voice recognition
voice
input
control information
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001401350A
Other languages
English (en)
Other versions
JP2003202890A5 (ja
Inventor
Kenichiro Nakagawa
賢一郎 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001401350A priority Critical patent/JP2003202890A/ja
Publication of JP2003202890A publication Critical patent/JP2003202890A/ja
Publication of JP2003202890A5 publication Critical patent/JP2003202890A5/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声入力に係る操作を効率的にかつ容易に実
行することができる音声認識装置及びその方法、プログ
ラムを提供する。 【解決手段】 入力デバイスの操作状態に基づいて、音
声認識処理を制御するための制御情報を音声認識制御キ
ー情報入力部105より入力する。音声認識処理に用い
る複数種類の音響モデル109及び認識文法110を記
憶しておく。次に、音声を音声入力部101より入力す
る。そして、入力される制御情報とハイパーテキスト文
書112に書かれたルールに基づいて、入力された音声
データに対する音声認識処理を音声認識処理制御部10
7で制御する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された音声を
認識し、その音声認識結果に基づいて処理を実行する音
声認識装置及びその方法、プログラムに関するものであ
る。
【0002】
【従来の技術】近年の音声認識技術の発展と電子機器の
性能向上により、音声認識技術は我々の身近なものに定
着しつつある。この音声認識技術は、パーソナルコンピ
ュータ(PC)等の端末に対する音声コマンドや、カー
ナビゲーション、電話サービスなどに実用化されてい
る。また、音声認識ソフト−Webコンテンツ間のイン
タフェース標準化も World Wide Web Consortium(W3
C)で議論されており、「VoiceXML」とハイパーテキス
ト形式で正式な標準となる可能性がある。
【0003】一般的に音声認識は負荷がかかる処理であ
る。このため、対話を完全に支配するシステム(電話サ
ービスのように、システムアナウンスとユーザ発声が交
互に繰り返される)以外では、ユーザが音声認識ボタン
等による音声認識を指示を実行した場合にのみ、音声認
識処理が実行されることが望ましい。このように、ユー
ザが音声認識対象の音声を入力するための発声のタイミ
ングをシステムに伝えることは、認識誤りを低減させる
働きもある。
【0004】例えば、音声認識機能付きのカーナビゲー
ションシステムには、通常、このような音声認識を実行
するための発声開始ボタンが付属しており、ユーザはこ
の発声開始ボタンを押してから発声、あるいは押しなが
ら発声する。ここでは、ユーザが押してから発声する音
声認識方式を「Push to talk 型」の音声認識、押しな
がら発声する場合を「Push while talk 型」の音声認識
と呼ぶ。
【0005】特開平11−112633号は、音声認識
開始キーを用いて音声認識を行う携帯電話端末に関する
技術を開示している。また、特開2000−89789
は、「Push while talk 型」の技術を拡張し、発声にお
ける音声区間の取りこぼしを回避する技術を開示してい
る。
【0006】
【発明が解決しようとする課題】しかしながら、音声認
識には、認識誤りが生じるものである。認識誤りは、そ
の発声で認識結果となり得る語彙数(認識語彙)が多く
なればなるほど多くなる傾向がある。このため、なるべ
く絞られた語彙の中でユーザに発声させることが、認識
性能の観点では重要となる。
【0007】例えば、クレジットカードの情報を音声で
入力するシステムを実現する場合、そのクレジットカー
ドのカード会社名、有効期間、名前、カード番号等のカ
ード情報の入力をユーザから受ける必要がある。これら
のカード情報中の任意の情報をどれでも入力が可能にな
るようにシステムを構築すると、認識語彙が増大するた
め多くの認識誤りが生じることが予想される。そこで、
ユーザにどの情報を入力対象であるかを選択させ、その
情報のみを認識語彙とすることで認識率の低下をある程
度防ぐことができる。この方法では、ユーザは入力対象
の情報を選択し、その情報を発声することになる。例え
ば、マウスで「カード有効期間」のボックスを選択し、
音声認識開始キーを押して「2005年12月」と発声
する。この方法では、確かに一度に認識するための認識
語彙が少ないため、認識性能は期待できる。しかし、一
つの情報の入力ごとに ・入力対象の情報を選択する ・音声認識開始キーを押下する という2ストロークの作業が発生するため、ユーザの音
声入力操作に係る負担は大きい。
【0008】本発明は上記の課題を解決するためになさ
れたものであり、音声入力に係る操作を効率的にかつ容
易に実行することができる音声認識装置及びその方法、
プログラムを提供すること目的とする。
【0009】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による音声認識装置は以下の構成を備える。
即ち、入力された音声を認識し、その音声認識結果に基
づいて処理を実行する音声認識装置であって、入力デバ
イスの操作状態に基づいて、音声認識処理を制御するた
めの制御情報を入力する入力手段と、前記音声認識処理
に用いる複数種類の音響モデル及び認識文法を記憶する
記憶手段と、音声を入力する音声入力手段と、前記入力
手段によって入力される制御情報に基づいて、前記音声
入力手段で入力された音声データに対する音声認識処理
を制御する制御手段とを備える。
【0010】また、好ましくは、ハイパーテキスト文書
を読み込むハイパーテキスト文書読込手段とを更に備
え、前記制御手段は、前記制御情報と前記ハイパーテキ
スト文書に基づいて、前記音声入力手段で入力された音
声データに対する音声認識処理を制御する。
【0011】また、好ましくは、前記制御手段は、前記
入力デバイスの操作状態が所定状態から初期状態になる
場合に、前記音声認識処理の実行を終了する。
【0012】また、好ましくは、前記入力手段は、前記
操作状態を判定する判定手段とを備え、前記判定手段で
判定された操作状態を示す制御情報を入力し、前記制御
手段は、前記制御情報に対応する前記音響モデル及び前
記認識文法を用いて前記音声認識処理を実行する。
【0013】また、好ましくは、前記制御手段は、前記
制御情報に対応する音声認識処理に用いる音声認識文法
を設定する。
【0014】また、好ましくは、前記制御手段は、前記
制御情報に対応する音声認識処理に用いる音響モデルを
設定する。
【0015】また、好ましくは、前記入力デバイスは、
複数のボタンである。
【0016】また、好ましくは、前記入力デバイスは、
複数種類のキー群を有するキーボードである。
【0017】また、好ましくは、前記入力デバイスは、
複数種類の操作状態を有するダイヤルである。
【0018】また、好ましくは、前記制御情報に基づい
て、前記音声認識処理の音声認識結果を出力する出力手
段とを更に備える。
【0019】また、好ましくは、前記制御情報に基づい
て、前記出力手段で出力された音声認識結果による検索
を実行する検索手段とを更に備える。
【0020】また、好ましくは、前記制御情報に基づい
て、前記出力手段で出力された音声認識結果に対応する
コマンドを実行する実行手段とを更に備える。
【0021】また、好ましくは、前記制御情報に基づい
て、前記出力手段で出力された音声認識結果に対応する
宛先と発呼する発呼手段とを更に備える。
【0022】上記の目的を達成するための本発明による
音声認識方法は以下の構成を備える。即ち、入力された
音声を認識し、その音声認識結果に基づいて処理を実行
する音声認識方法であって、入力デバイスの操作状態に
基づいて、音声認識処理を制御するための制御情報を入
力する入力工程と、音声を入力する音声入力工程と、前
記入力工程によって入力される制御情報に基づいて、前
記音声入力工程で入力された音声データに対する音声認
識処理を制御する制御工程とを備える。
【0023】上記の目的を達成するための本発明による
プログラムは以下の構成を備える。即ち、入力された音
声を認識し、その音声認識結果に基づいて処理を実行す
る音声認識をコンピュータに機能させるためのプログラ
ムであって、入力デバイスの操作状態に基づいて、音声
認識処理を制御するための制御情報を入力する入力工程
のプログラムコードと、音声を入力する音声入力工程の
プログラムコードと、前記入力工程によって入力される
制御情報に基づいて、前記音声入力工程で入力された音
声データに対する音声認識処理を制御する制御工程のプ
ログラムコードとを備える。
【0024】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。 [実施形態1]図1は本発明の実施形態1の音声認識装置
の機能構成を示すブロック図である。
【0025】音声認識装置108は、マイクなどの音声
入力部101からユーザの音声を取り込み、その音声を
音声認識処理により音声認識結果である文字列に変換
し、ディスプレイやプリンタ等の外部機器111に送信
する。音声認識装置108には、外部に音声入力部10
1、音声認識制御キー情報入力部105及び外部機器1
11が接続されている。音声入力部101には、音声認
識装置108内の音声取込部102、音声認識制御キー
情報入力部105には、音声認識制御キー情報取込部1
06がそれぞれ接続されている。
【0026】音声認識制御キー情報入力部105は、入
力デバイスとして、単純な押ボタンでもよいし、キーボ
ード上のキー及びキー群の組み合わせや、マウス上のボ
タン及びボタン群の組み合わせ、ジョグダイヤルのよう
なダイヤル、更には、シャトルスイッチのようなスイッ
チであってもよい。いずれにしても、複数種類の操作状
態(ボタンの押下/非押下、キー操作、ダイヤル/スイ
ッチの位置、複数の入力部)を有する入力デバイスであ
ればどのようなものでも良い。但し、この操作状態の数
は、ユーザを混乱させない程度の数(例えば、3、4
個)であることが望ましい。
【0027】また、ユーザの操作に応じて音声認識制御
キー情報入力部105が生成する音声認識制御キー情報
(以下、単に、制御情報と称する)は、キーの種類、キ
ーの操作回数、ボタンの押下/非押下、キー操作、ダイ
ヤル/スイッチの位置等の入力デバイスの操作状態を示
す情報である。
【0028】音声認識制御キー情報入力部105が操作
されると、音声認識制御キー情報取込部106がその操
作を検知し、その検知結果から得られる制御情報に基づ
いて、音声取込部102は音声入力部101から音声の
取込を開始する。それと同時に、制御情報を音声認識処
理制御部107に通知する。音声認識処理制御部107
は、ハイパーテキスト文書112に記述された内容と制
御情報に基づいて、音声認識部103で使用する音響モ
デル(音声特徴量の統計データを記述したもの)109
及び認識文法110(音声認識対象の語彙からなる各種
データ)を決定する。
【0029】音声認識部103は、音声認識処理制御部
107で決定された音響モデル109及び認識文法11
0と、音声取込部102により取得された音声データを
用いて音声認識処理を行う。音声認識処理は公知の技術
であるため、その詳細は省略するが、音声データを全認
識語彙の音響的特性と比較し、最も尤度の高いものを音
声認識結果として出力する処理である。
【0030】音響モデル109及び認識文法110は、
入力される音声の最適な音声認識処理を実行するために
必要な複数種類の音響モデル及び認識文法からなり、そ
の具体例については、各実施形態で後述する。
【0031】ハイパーテキスト文書112には、制御情
報(具体的なキーの種類等)と認識動作内容(使用する
文法名等)が対となって書かれている。音声認識処理制
御部107では、このハイパーテキスト文書112の対
応関係を基に、制御情報から使用する認識文法や音響モ
デルを選択する。ハイパーテキスト文書112の具体例
については、各実施形態で後述する。
【0032】音声認識部103の音声認識結果は、音声
認識結果出力部104から外部機器111に出力され
る。このとき、先に使われた音声認識制御キー情報入力
部105の制御情報も出力し、出力先で制御情報により
音声認識結果の使用方法を変更することが可能となる。
【0033】尚、当該音声認識装置108は、公衆回線
や無線LAN等とのネットワークを介して、データ通信
を行うことができ、汎用コンピュータや携帯端末に搭載
される標準的な構成要素(例えば、CPU、RAM、R
OM、ハードディスク、外部記憶装置、ネットワークイ
ンタフェース、ディスプレイ、キーボード、マウス等)
で構成されている。また、上述の音声認識装置108で
実現される各種機能は、システム内部のROMや外部記
憶装置に記憶されるプログラムがCPUによって実行さ
れることによって実現されても良いし、専用のハードウ
ェアで実現されても良い。
【0034】次に、図1の音声認識装置を利用する具体
的な動作例について、図2を用いて説明する。
【0035】図2は本発明の実施形態1の音声認識装置
の動作例を示すフローチャートである。
【0036】図2では、音声認識装置108をパーソナ
ルコンピュータで実現する場合を例に挙げる。特に、パ
ーソナルコンピュータ上のWebブラウザで、インター
ネット上のWebサイトを閲覧しているときに、表示W
ebページあるいはインターネット全体を検索する場合
において、音声認識結果を用いて検索を行うことが可能
なWebブラウザに関する例である。この例では、ユー
ザが「Push to talk型」で用いる音声認識開始キーを有
する音声認識制御キー情報入力部105により、現在W
ebブラウザ上で表示するWebページの中での検索、
インターネット全体の検索を切り換えることが可能であ
る。
【0037】本音声認識装置108が起動すると、音声
認識処理制御部107は、ハイパーテキスト文書112
を読み込み、音声認識に用いる音響モデル109及び認
識文法110を用いて、初期化を行う(ステップS20
1)。次に、音声認識制御キー情報入力部105は、音
声認識開始キーが操作されたか否かを判定する(ステッ
プS202)。音声認識開始キーが操作されない場合
(ステップS202でNO)、操作されるまで待機す
る。一方、音声認識開始キーが操作された場合(ステッ
プS202でYES)、ステップS203に進む。
【0038】尚、ハイパーテキスト文書112により、
音声認識開始キーの操作によって音声認識制御キー情報
入力部105で入力される制御情報は、キーボード上の
「Ctrl+W」(「Ctrl」キーを押しながら
「W」キーを押す)、あるいは「Ctrl+F」(「C
trl」キーを押しながら「F」キーを押す)の2種類
を示す情報であると記述されていたとする。また、「C
trl+W」は、例えば、音声認識結果を用いたインタ
ーネット全体の検索、「Ctrl+F」は、例えば、音
声認識結果を用いてWebページ上での検索の実行が割
当られているとする。
【0039】音声認識開始キーが操作されると、音声認
識制御キー情報入力部105はその操作に対応する制御
情報をバッファKeyに格納する(ステップS20
3)。次に、音声取得部102にて、一定期間分の音声
データを音声入力部101から取得する(ステップS2
04)。次に、音声認識部103にて、その一定期間分
の音声データの音声認識処理を行う(ステップS20
5)。
【0040】尚、この一定期間は、例えば、1/100
秒程度の時間が用いられることが多い。
【0041】次に、音声認識部103は、取り込まれた
音声データ中の音声波形が音声区間終端であるか否かを
判定する。音声区間終端でない場合(ステップS206
でNO)、例えば、ユーザは発声中あるいは発声し始め
ていない場合は、ステップS204に戻り、音声区間終
端が得られるまで、音声データの取込と音声認識処理を
繰り返す。一方、音声区間終端である場合(ステップS
206でYES)、音声認識結果出力部104は、音声
区間始端からその音声区間終端までの音声認識結果を出
力する(ステップS206a)。
【0042】音声認識処理が終了すると、音声認識処理
制御部107は、先に格納したバッファKeyを参照
し、音声認識制御キー情報入力部105から入力された
制御情報を判定する(ステップS207)。ここでは、
制御情報が「Ctrl+F」であるか否かを判定する。
「Ctrl+F」である場合(ステップS207でYE
S)、音声認識結果(テキストデータ)を用いて現在表
示中のWebページ内を検索する(ステップS20
8)。
【0043】一方、「Ctrl+F」でない場合(ステ
ップS207でNO)、つまり、制御情報が「Ctrl
+W」の場合、Yahoo!等のインターネット検索エンジン
に音声認識結果を送信し、インターネット全体の検索を
指示する。
【0044】図3は、図2の音声認識処理機能を実現す
るためのハイパーテキスト文書である。これは「VoiceX
ML 1.0」を一部拡張した表現で記述しており、拡張箇
所は図の下線で示してある部分に現れている。追加する
仕様は次に示す。
【0045】尚、このハイパーテキスト文書によって実
現される音声認識処理機能は、Webブラウザに予め組
込まれた形で動作しても良いし、Webブラウザへのプ
ラグインとして動作しても良いし、インターネット上の
Webサーバが管理する専用Webサイト上で動作して
も良い。
【0046】<field>の属性として「asrmode」(30
1)を追加する。これは音声認識方法を「Push to talk
型」で行うか、「Push while talk 型」で行うかを指
定する属性である。また、<grammar>の属性として「p
ushkey」(302)を追加する。これは、「Push to ta
lk 型」あるいは「Push while talk 型」の音声認識処
理の場合に、制御情報によって使用する認識文法を指定
する。つまり、ユーザの操作によって入力された制御情
報とハイパーテキスト文書に記述された制御情報が一致
した場合、その制御情報に対応する認識文法を用いるこ
とを示している。さらに、<grammar>に属性「id」
(303)を追加する。この属性値は、<field>要素
のシャドウ変数として機能し、音声認識結果から<gram
mar>の「id」(304)を取得することが可能とす
る。これにより、使用された認識文法の「id」によっ
て、条件分岐等の処理が可能となる。
【0047】尚、実施形態1では、音声認識結果の使用
方法として、音声認識結果を用いた検索を行う例を挙げ
たがこれに限定されず、例えば、Webページ上の選択
項目の選択や入力フォームへの入力等の各種操作に応用
することができる。
【0048】以上説明したように、実施形態1によれ
ば、「Push to talk 型」で用いる音声認識開始キーの
操作状態に応じて音声認識制御キー情報入力部105が
生成する制御情報に基づいて、音響モデル109及び認
識文法110、音声認識結果の使用方法を設定する。こ
れにより、音声認識処理の実行や音声認識結果の使用方
法の切換を、ユーザは音声認識開始キーの1回の操作で
実行することできる。
【0049】また、認識動作の内容はハイパーテキスト
文書によって記述されているため、各認識制御キーをユ
ーザあるいはWebサイトの管理者が自由にカスタマイズ
することも可能である。 [実施形態2]近年の多くのカーナビゲーションシステム
には、音声認識機能が搭載されており、ユーザは住所、
コマンド等を運転中に発声することで、音声入力による
カーナビゲーションシステムの操作が可能である。実施
形態2では、実施形態1の音声認識装置108をカーナ
ビゲーションシステム(通信ユニット、GPS、地図デ
ータ等の各種データ、スピーカ等の通常のカーナビゲー
ションシステムを実現するための各種構成要素からな
る)に適用する場合について説明する。
【0050】特に、実施形態2のカーナビゲーションシ
ステムでは、左右2つの「Push while talk 型」の音声
取込キーを有する音声認識制御キー情報入力部105を
構成する。ここで、音声取込キーの操作によって音声認
識制御キー情報入力部105で入力される制御情報は、
音声取込キー(右)、あるいは音声取込キー(左)の2
種類を示す情報である。音声取込キー(右)は、例え
ば、全国地名が認識できる認識文法の設定及びそれを用
いた音声認識処理、音声取込キー(左)は、例えば、音
声コマンドが認識できる認識文法の設定及びそれを用い
た音声認識処理の実行が割当られているとする。これら
の認識動作はハイパーテキスト文書112によって記述
されているものとする。
【0051】これにより、ユーザが選択した音声取込キ
ーに応じた音声認識で用いる認識文法を設定することが
でき、音声認識処理で一度に起動する認識語彙を少なく
抑えることができるともに、ユーザが入力する音声に対
する最適な音声認識処理を実行することができる。
【0052】図4は本発明の実施形態2の音声認識装置
の動作例を示すフローチャートである。
【0053】まず、本音声認識装置108が起動する
と、音声認識処理制御部107は、ハイパーテキスト文
書112を読み込み、音響モデル109を初期化する
(ステップS401)。このハイパーテキスト文書11
2には、音声取込キー(右)には全国地名文法が、音声
取込キー(左)には音声コマンド文法が指定されている
ものとする。
【0054】次に、音声認識制御キー情報入力部105
は、音声取込キー(右)が操作されたか否かを判定する
(ステップS402)。音声取込キー(右)が操作され
た場合(ステップS402でYES)、その操作に対応
する制御情報をバッファKeyに格納し、その制御情報
に対応する全国地名が認識できる認識文法(全国地名文
法)を設定する(ステップS404)。一方、音声取込
キー(右)が操作されない場合(ステップS402でN
O)、ステップS403に進む。
【0055】ステップS403では、音声認識制御キー
情報入力部105は、音声取込キー(左)が操作された
か否かを判定する(ステップS403)。音声取込キー
(左)が操作された場合(ステップS403でYE
S)、その操作に対応する制御情報をバッファKeyに
格納し、その制御情報に対応する音声コマンドが認識で
きる認識文法(音声コマンド文法)を設定する(ステッ
プS405)。一方、音声取込キー(左)が操作されな
い場合(ステップS403でNO)、ステップS402
に戻る。
【0056】尚、全国地名文法及び音声コマンド文法は
それぞれ、例えば、図5の501及び502のような構
成を有している。具体的には、全国地名文法は、ユーザ
が入力する音声を地名として認識するための認識文法で
あり、地名の表記情報とそれに対応する発声情報から構
成される。この全国地名文法によって得られる音声認識
結果は、例えば、カーナビゲーションシステムの操作画
面上の地名入力メニューの入力として利用される。一
方、音声コマンド文法は、ユーザが入力する音声を音声
コマンドとして認識するための文法であり、音声コマン
ドの表記情報とそれに対応する発声情報から構成され
る。この音声コマンド文法によって得られる音声認識結
果は、例えば、カーナビゲーションシステムの操作画面
上の操作メニューの選択や入力メニューへの入力として
利用される。
【0057】本音声認識装置108は、「Push while t
alk 型」であるため、押された音声取込キーが離される
まで音声認識処理を繰り返す。そこで、音声認識制御キ
ー情報入力部105は、音声取込キーが離されたか否か
を判定する(ステップS406)。音声取込キーが離さ
れていない場合(ステップS406でNO)、音声取得
部102にて、一定期間分の音声データを音声入力部1
01から取得する(ステップS407)。次に、音声認
識部103にて、その一定期間分の音声データの音声認
識処理を行う(ステップS408)。
【0058】一方、音声取込キーが離された場合(ステ
ップS406でYES)、つまり、音声取込キーが操作
されていない初期状態に戻った場合、音声認識制御キー
情報入力部105はその旨を音声認識処理制御部107
に通知し、音声認識処理制御部107は、音声区間終端
であると判定し、音声認識処理を終了する(ステップS
409)。そして、その時点で最も尤度の高い音声認識
語彙を音声認識結果として出力する(ステップS41
0)。
【0059】図6は、図4の音声認識処理機能を実現す
るためのハイパーテキスト文書である。これも、図3と
同様に、「VoiceXML 1.0」を一部拡張した表現で記述
しており、拡張箇所は図の下線で示してある部分(60
1、602)に現れている。この601及び602の記
述は、実施形態1で説明した記述301及び302に対
応するものである。
【0060】以上説明したように、実施形態2によれ
ば、「Push while talk 型」で用いる音声取込キーの操
作状態に応じて音声認識制御キー情報入力部105が生
成する制御情報に基づいて、認識文法110を設定す
る。これにより、入力される音声に対する適切な音声認
識処理の実行や音声認識結果の使用方法の切換を、ユー
ザは音声取込キーの1回の操作で実行することできる。
【0061】また、ユーザは、このハイパーテキスト文
書をなんらかのユーザインタフェースを用いて編集する
ことが可能である。例えば、左右のボタンに逆の意味を
もたせる事も可能である。 [実施形態3]宛先名を発声し、その発声を音声認識処理
して得られる音声認識結果に対応する宛先へ自動的に電
話を発呼するボイスダイヤル機能を搭載した携帯電話機
(通信ユニット、アドレス帖等の各種データ、マイク、
スピーカ等のボイスダイヤル機能を搭載した携帯電話機
を実現するための各種構成要素からなる)が発売されて
いる。この携帯電話機で実現される音声認識処理は、平
常時の音声で最も認識性能が出るようにチューニングさ
れている。このため、満員電車内やコンサートホール内
で、通常の発声より小さい発声(「ささやき声」)をす
る必要な状況では、高い認識性能が望めないことが予想
される。そこで、実施形態3では、「通常音声用(第1
音声用)」と「ささやき音声用(第2音声用)」の2種
類に音声取込キーを割り当て、発声形態に適切な音声認
識処理を実行する音声認識装置108を携帯電話機に適
用する場合について説明する。
【0062】図7は本発明の実施形態3の音声認識装置
の動作例を示すフローチャートである。
【0063】尚、図7の説明にあたり、実施形態3の携
帯電話機の概観を図8に示す。図8の携帯電話機801
のダイヤル803は、「Push while talk 型」で用いる
音声取込キーとして機能し、操作していない初期状態の
ときは中立位置になっている。そして、図8では、ダイ
ヤル803が上位置にある状態を示しており、ダイヤル
803が上位置にある場合が「ささやき音声用」の音響
モデルAの設定及びそれを用いた音声認識処理の実行が
割当られ、下位置にある場合が「通常音声用」の音響モ
デルBの設定及びそれを用いた音声認識処理の実行が割
当られている。また、ダイヤル803の位置により、表
示部802に現在の音声取込キーの種類をユーザに提示
することが可能である。
【0064】本音声認識装置108が起動すると、音声
認識処理制御部107は、ハイパーテキスト文書112
を読み込み、認識文法を初期化する(ステップS70
1)。この認識文法は、携帯電話機内に格納されている
アドレス帖から自動で作成されたものである。
【0065】次に、音声認識制御キー情報入力部105
は、ダイヤル803が上位置であるか否かを判定する
(ステップS702)。ダイヤル803が上位置である
場合(ステップS702でYES)、その操作に対応す
る制御情報をバッファKeyに格納し、その制御情報に
対応する「ささやき音声用」の音響モデルAを設定する
(ステップS704)。一方、ダイヤル803が上位置
でない場合(ステップS702でNO)、ステップS7
03に進む。
【0066】ステップS703では、音声認識制御キー
情報入力部105は、ダイヤル803が下位置であるか
否かを判定する(ステップS703)。ダイヤル803
が下位置である場合(ステップS703でYES)、そ
の操作に対応する制御情報をバッファKeyに格納し、
その制御情報に対応する「通常音声用」の音響モデルB
を設定する(ステップS705)。一方、ダイヤル80
3が下位置でない場合(ステップS703でNO)、ス
テップS702に戻る。
【0067】本音声認識装置108は、ダイヤル803
が中立位置に戻されるまで音声認識処理を繰り返す。そ
こで、音声認識制御キー情報入力部105は、ダイヤル
803が中立位置であるか否かを判定する(ステップS
706)。ダイヤル803が中立位置でない場合(ステ
ップS706でNO)、音声取得部102にて、一定期
間分の音声データを音声入力部101から取得する(ス
テップS707)。次に、音声認識部103にて、その
一定期間分の音声データの音声認識処理を行う(ステッ
プS708)。
【0068】一方、ダイヤル803が中立位置である場
合(ステップS706でYES)、つまり、音声取込キ
ーが操作されていない初期状態に戻った場合、音声認識
制御キー情報入力部105はその旨を音声認識処理制御
部107に通知し、音声認識処理制御部107は、音声
区間終端であると判定し、音声認識処理を終了する(ス
テップS709)。そして、その時点で最も尤度の高い
音声認識語彙を音声認識結果に対応するアドレス帖の宛
先へ電話を発呼する(ステップS710)。
【0069】図9は、図7の音声認識処理機能を実現す
るためのハイパーテキスト文書である。これも、図3と
同様に、「VoiceXML 1.0」を一部拡張した表現で記述
されており、拡張箇所は図の下線で示してある部分(9
01〜903)に現れている。
【0070】特に、903は<grammar>の属性として
追加された「model」であり、音声認識時に使用する音
響モデル名を指定するためのものである。また、この9
01及び902の記述は、実施形態1で説明した記述3
01及び302に対応するものである。
【0071】以上説明したように、実施形態3によれ
ば、「Push while talk 型」で用いる音声取込キーの操
作状態に応じて音声認識制御キー情報入力部105が生
成する制御情報に基づいて、音響モデルを設定する。こ
れにより、入力される音声に対する適切な音声認識処理
の実行を、ユーザは音声取込キーの1回の操作で実行す
ることできる。
【0072】また、上記実施形態1〜3によれば、音声
認識開始キーや音声取込キーを含む音声認識制御キー
(「Push to talk 型」または「Push while talk 型」
に用いるキー)を1回操作するだけで、音声認識処理
(音声入力処理も含む)に係る各種処理の実行や各種パ
ラメータの設定を実行することができる。例えば、認識
文法及び音響モデルの設定、入力音声に適切な音声認識
処理の実行及びその音声認識結果の使用方法の切換を実
現することができる。
【0073】尚、本発明は、前述した実施形態の機能を
実現するソフトウェアのプログラム(実施形態では図に
示すフローチャートに対応したプログラム)を、システ
ム或いは装置に直接或いは遠隔から供給し、そのシステ
ム或いは装置のコンピュータが該供給されたプログラム
コードを読み出して実行することによっても達成される
場合を含む。その場合、プログラムの機能を有していれ
ば、形態は、プログラムである必要はない。
【0074】従って、本発明の機能処理をコンピュータ
で実現するために、該コンピュータにインストールされ
るプログラムコード自体も本発明を実現するものであ
る。つまり、本発明は、本発明の機能処理を実現するた
めのコンピュータプログラム自体も含まれる。
【0075】その場合、プログラムの機能を有していれ
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、OSに供給するスクリプトデータ等、プ
ログラムの形態を問わない。
【0076】プログラムを供給するための記録媒体とし
ては、例えば、フロッピー(登録商標)ディスク、ハー
ドディスク、光ディスク、光磁気ディスク、MO、CD
−ROM、CD−R、CD−RW、磁気テープ、不揮発
性のメモリカード、ROM、DVD(DVD−ROM,
DVD−R)などがある。
【0077】その他、プログラムの供給方法としては、
クライアントコンピュータのブラウザを用いてインター
ネットのホームページに接続し、該ホームページから本
発明のコンピュータプログラムそのもの、もしくは圧縮
され自動インストール機能を含むファイルをハードディ
スク等の記録媒体にダウンロードすることによっても供
給できる。また、本発明のプログラムを構成するプログ
ラムコードを複数のファイルに分割し、それぞれのファ
イルを異なるホームページからダウンロードすることに
よっても実現可能である。つまり、本発明の機能処理を
コンピュータで実現するためのプログラムファイルを複
数のユーザに対してダウンロードさせるWWWサーバ
も、本発明に含まれるものである。
【0078】また、本発明のプログラムを暗号化してC
D−ROM等の記憶媒体に格納してユーザに配布し、所
定の条件をクリアしたユーザに対し、インターネットを
介してホームページから暗号化を解く鍵情報をダウンロ
ードさせ、その鍵情報を使用することにより暗号化され
たプログラムを実行してコンピュータにインストールさ
せて実現することも可能である。
【0079】また、コンピュータが、読み出したプログ
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼動しているOSなどが、実際の処理の一
部または全部を行ない、その処理によっても前述した実
施形態の機能が実現され得る。
【0080】さらに、記録媒体から読み出されたプログ
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるCPU
などが実際の処理の一部または全部を行ない、その処理
によっても前述した実施形態の機能が実現される。
【0081】
【発明の効果】以上説明したように、本発明によれば、
音声入力に係る操作を効率的にかつ容易に実行すること
ができる音声認識装置及びその方法、プログラムを提供
できる。
【図面の簡単な説明】
【図1】本発明の実施形態1の音声認識装置の機能構成
を示すブロック図である。
【図2】本発明の実施形態1の音声認識装置の動作例を
示すフローチャートである。
【図3】本発明の実施形態1の音声認識処理機能を実現
するためのハイパーテキスト文書例を示す図である。
【図4】本発明の実施形態2の音声認識装置の動作例を
示すフローチャートである。
【図5】本発明の実施形態2の認識文法の例を示す図で
ある。
【図6】本発明の実施形態2の音声認識処理機能を実現
するためのハイパーテキスト文書例を示す図である。
【図7】本発明の実施形態3の音声認識装置の動作例を
示すフローチャートである。
【図8】本発明の実施形態3の携帯電話機の概観を示す
図である。
【図9】本発明の実施形態3の音声認識処理機能を実現
するためのハイパーテキスト文書例を示す図である。
【符号の説明】
101 音声入力部 102 音声取込部 103 音声認識部 104 音声認識結果出力部 105 音声認識制御キー情報入力部 106 音声認識制御キー情報取込部 107 音声認識処理制御部 108 音声認識装置 109 音響モデル 110 認識文法

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を認識し、その音声認識
    結果に基づいて処理を実行する音声認識装置であって、 入力デバイスの操作状態に基づいて、音声認識処理を制
    御するための制御情報を入力する入力手段と、 前記音声認識処理に用いる複数種類の音響モデル及び認
    識文法を記憶する記憶手段と、 音声を入力する音声入力手段と、 前記入力手段によって入力される制御情報に基づいて、
    前記音声入力手段で入力された音声データに対する音声
    認識処理を制御する制御手段とを備えることを特徴とす
    る音声認識装置。
  2. 【請求項2】 ハイパーテキスト文書を読み込むハイパ
    ーテキスト文書読込手段とを更に備え、 前記制御手段は、前記制御情報と前記ハイパーテキスト
    文書に基づいて、前記音声入力手段で入力された音声デ
    ータに対する音声認識処理を制御することを特徴とする
    請求項1に記載の音声認識装置。
  3. 【請求項3】 前記制御手段は、前記入力デバイスの操
    作状態が所定状態から初期状態になる場合に、前記音声
    認識処理の実行を終了することを特徴とする請求項1に
    記載の音声認識装置。
  4. 【請求項4】 前記入力手段は、前記操作状態を判定す
    る判定手段とを備え、 前記判定手段で判定された操作状態を示す制御情報を入
    力し、 前記制御手段は、前記制御情報に対応する前記音響モデ
    ル及び前記認識文法を用いて前記音声認識処理を実行す
    ることを特徴とする請求項1に記載の音声認識装置。
  5. 【請求項5】 前記制御手段は、前記制御情報に対応す
    る音声認識処理に用いる音声認識文法を設定することを
    特徴とする請求項1に記載の音声認識装置。
  6. 【請求項6】 前記制御手段は、前記制御情報に対応す
    る音声認識処理に用いる音響モデルを設定することを特
    徴とする請求項1に記載の音声認識装置。
  7. 【請求項7】 前記入力デバイスは、複数のボタンであ
    ることを特徴とする請求項1に記載の音声認識装置。
  8. 【請求項8】 前記入力デバイスは、複数種類のキー群
    を有するキーボードであることを特徴とする請求項1に
    記載の音声認識装置。
  9. 【請求項9】 前記入力デバイスは、複数種類の操作状
    態を有するダイヤルであることを特徴とする請求項1に
    記載の音声認識装置。
  10. 【請求項10】 前記制御情報に基づいて、前記音声認
    識処理の音声認識結果を出力する出力手段とを更に備え
    ることを特徴とする請求項1に記載の音声認識装置。
  11. 【請求項11】 前記制御情報に基づいて、前記出力手
    段で出力された音声認識結果による検索を実行する検索
    手段とを更に備えることを特徴とする請求項10に記載
    の音声認識装置。
  12. 【請求項12】 前記制御情報に基づいて、前記出力手
    段で出力された音声認識結果に対応するコマンドを実行
    する実行手段とを更に備えることを特徴とする請求項1
    0に記載の音声認識装置。
  13. 【請求項13】 前記制御情報に基づいて、前記出力手
    段で出力された音声認識結果に対応する宛先と発呼する
    発呼手段とを更に備えることを特徴とする請求項10に
    記載の音声認識装置。
  14. 【請求項14】 入力された音声を認識し、その音声認
    識結果に基づいて処理を実行する音声認識方法であっ
    て、 入力デバイスの操作状態に基づいて、音声認識処理を制
    御するための制御情報を入力する入力工程と、 音声を入力する音声入力工程と、 前記入力工程によって入力される制御情報に基づいて、
    前記音声入力工程で入力された音声データに対する音声
    認識処理を制御する制御工程とを備えることを特徴とす
    る音声認識方法。
  15. 【請求項15】 ハイパーテキスト文書を読み込むハイ
    パーテキスト文書読込工程とを更に備え、 前記制御工程は、前記制御情報と前記ハイパーテキスト
    文書に基づいて、前記音声入力工程で入力された音声デ
    ータに対する音声認識処理を制御することを特徴とする
    請求項14に記載の音声認識方法。
  16. 【請求項16】 前記制御工程は、前記入力デバイスの
    操作状態が所定状態から初期状態になる場合に、前記音
    声認識処理の実行を終了することを特徴とする請求項1
    4に記載の音声認識方法。
  17. 【請求項17】 前記入力工程は、前記操作状態を判定
    する判定工程とを備え、 前記判定工程で判定された操作状態を示す制御情報を入
    力し、 前記制御工程は、前記制御情報に対応する音響モデル及
    び認識文法を用いて前記音声認識処理を実行することを
    特徴とする請求項14に記載の音声認識方法。
  18. 【請求項18】 前記制御工程は、前記制御情報に対応
    する音声認識処理に用いる音声認識文法を設定すること
    を特徴とする請求項14に記載の音声認識方法。
  19. 【請求項19】 前記制御工程は、前記制御情報に対応
    する音声認識処理に用いる音響モデルを設定することを
    特徴とする請求項14に記載の音声認識方法。
  20. 【請求項20】 前記入力デバイスは、複数のボタンで
    あることを特徴とする請求項14に記載の音声認識方
    法。
  21. 【請求項21】 前記入力デバイスは、複数種類のキー
    群を有するキーボードであることを特徴とする請求項1
    4に記載の音声認識方法。
  22. 【請求項22】 前記入力デバイスは、複数種類の操作
    状態を有するダイヤルであることを特徴とする請求項1
    4に記載の音声認識方法。
  23. 【請求項23】 前記制御情報に基づいて、前記音声認
    識処理の音声認識結果を出力する出力工程とを更に備え
    ることを特徴とする請求項14に記載の音声認識方法。
  24. 【請求項24】 前記制御情報に基づいて、前記出力工
    程で出力された音声認識結果による検索を実行する検索
    工程とを更に備えることを特徴とする請求項23に記載
    の音声認識方法。
  25. 【請求項25】 前記制御情報に基づいて、前記出力工
    程で出力された音声認識結果に対応するコマンドを実行
    する実行工程とを更に備えることを特徴とする請求項2
    3に記載の音声認識方法。
  26. 【請求項26】 前記制御情報に基づいて、前記出力手
    段で出力された音声認識結果に対応する宛先と発呼する
    発呼工程とを更に備えることを特徴とする請求項23に
    記載の音声認識方法。
  27. 【請求項27】 入力された音声を認識し、その音声認
    識結果に基づいて処理を実行する音声認識をコンピュー
    タに機能させるためのプログラムであって、入力デバイ
    スの操作状態に基づいて、音声認識処理を制御するため
    の制御情報を入力する入力工程のプログラムコードと、 音声を入力する音声入力工程のプログラムコードと、 前記入力工程によって入力される制御情報に基づいて、
    前記音声入力工程で入力された音声データに対する音声
    認識処理を制御する制御工程のプログラムコードとを備
    えることを特徴とするプログラム。
JP2001401350A 2001-12-28 2001-12-28 音声認識装置及びその方法、プログラム Pending JP2003202890A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001401350A JP2003202890A (ja) 2001-12-28 2001-12-28 音声認識装置及びその方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001401350A JP2003202890A (ja) 2001-12-28 2001-12-28 音声認識装置及びその方法、プログラム

Publications (2)

Publication Number Publication Date
JP2003202890A true JP2003202890A (ja) 2003-07-18
JP2003202890A5 JP2003202890A5 (ja) 2005-07-28

Family

ID=27640119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001401350A Pending JP2003202890A (ja) 2001-12-28 2001-12-28 音声認識装置及びその方法、プログラム

Country Status (1)

Country Link
JP (1) JP2003202890A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007069512A1 (ja) * 2005-12-15 2007-06-21 Sharp Kabushiki Kaisha 情報処理装置及びプログラム
US7668719B2 (en) 2005-06-30 2010-02-23 Canon Kabushiki Kaisha Speech recognition method and speech recognition apparatus
WO2015053560A1 (ko) * 2013-10-08 2015-04-16 삼성전자 주식회사 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치
WO2016114428A1 (ko) * 2015-01-16 2016-07-21 삼성전자 주식회사 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
CN105814628A (zh) * 2013-10-08 2016-07-27 三星电子株式会社 用于基于装置信息来执行语音识别的方法和设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668719B2 (en) 2005-06-30 2010-02-23 Canon Kabushiki Kaisha Speech recognition method and speech recognition apparatus
WO2007069512A1 (ja) * 2005-12-15 2007-06-21 Sharp Kabushiki Kaisha 情報処理装置及びプログラム
WO2015053560A1 (ko) * 2013-10-08 2015-04-16 삼성전자 주식회사 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치
US10636417B2 (en) 2013-10-08 2020-04-28 Samsung Electronics Co., Ltd. Method and apparatus for performing voice recognition on basis of device information
CN105814628A (zh) * 2013-10-08 2016-07-27 三星电子株式会社 用于基于装置信息来执行语音识别的方法和设备
CN105814628B (zh) * 2013-10-08 2019-12-10 三星电子株式会社 用于基于装置信息来执行语音识别的方法和设备
US10403267B2 (en) 2015-01-16 2019-09-03 Samsung Electronics Co., Ltd Method and device for performing voice recognition using grammar model
CN107112010A (zh) * 2015-01-16 2017-08-29 三星电子株式会社 用于使用语法模型执行话音识别的方法和设备
WO2016114428A1 (ko) * 2015-01-16 2016-07-21 삼성전자 주식회사 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
US10706838B2 (en) 2015-01-16 2020-07-07 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
US10964310B2 (en) 2015-01-16 2021-03-30 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
CN107112010B (zh) * 2015-01-16 2021-06-01 三星电子株式会社 用于使用语法模型执行话音识别的方法和设备
USRE49762E1 (en) 2015-01-16 2023-12-19 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model

Similar Documents

Publication Publication Date Title
TWI511125B (zh) 語音操控方法、行動終端裝置及語音操控系統
US7421390B2 (en) Method and system for voice control of software applications
KR101418163B1 (ko) 컨텍스트 정보를 이용한 음성 인식 복구
US7980465B2 (en) Hands free contact database information entry at a communication device
US7689417B2 (en) Method, system and apparatus for improved voice recognition
RU2355045C2 (ru) Последовательный мультимодальный ввод
US20060122836A1 (en) Dynamic switching between local and remote speech rendering
KR100339587B1 (ko) Mp3 플레이어 겸용 휴대폰에서 음성 인식에 의한 선곡방법
JP2002528804A (ja) サービスアプリケーションに対するユーザインタフェースの音声制御
JP2005149484A (ja) 逐次的なマルチモーダル入力
KR20200011198A (ko) 대화형 메시지 구현 방법, 장치 및 프로그램
AU2019201441B2 (en) Electronic device for processing user voice input
US7181397B2 (en) Speech dialog method and system
JP2003202890A (ja) 音声認識装置及びその方法、プログラム
JP2002091473A (ja) 情報処理装置
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
JP2002023996A (ja) 音声対応スクリプト動作装置
CN112040326A (zh) 弹幕控制方法、系统、电视机及存储介质
JP2004516563A (ja) ユーザインタフェースのコンフィギュレーション方法
KR101994780B1 (ko) 게임을 위한 단축키 등록 및 실행 방법 및 장치
JP2001242888A (ja) 音声認識システムおよび音声認識方法および記録媒体
JP2004029457A (ja) 音声対話装置、および音声対話プログラム
KR100989500B1 (ko) 음성인식 파라미터 공유 방법
JP2004295017A (ja) マルチモーダルシステムおよび音声入力方法
WO2007052281A1 (en) Method and system for selection of text for editing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061117