JP2002328696A

JP2002328696A - 音声認識装置および音声認識装置における処理条件設定方法

Info

Publication number: JP2002328696A
Application number: JP2001130157A
Authority: JP
Inventors: Hiroki Yamamoto; 寛樹山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-04-26
Filing date: 2001-04-26
Publication date: 2002-11-15

Abstract

(57)【要約】【課題】音声認識の設定を容易に行うことの可能な、
より使い勝手のよい音声認識装置および音声認識装置に
おける処理条件設定方法を提供すること。【解決手段】音声認識の設定画面において、使用者
は、目標動作スペックを数値で入力し（ステップＳ
１）、さらに、目標動作スペックや発話内容に適合しそ
うな音響モデル、言語モデル等の種類を複数選択する
（ステップＳ２）。その後、音声認識させる発話内容に
即したテスト用の読み上げ文を録音する（ステップＳ
４）。そして、この録音された読み上げ音声データに対
して、選択された複数の動作条件の組み合わせを変更し
ながら音声認識を繰り返し、目標動作スペックに適合す
る動作条件、探索条件の組み合わせ候補を表示する（ス
テップＳ５）。これにより使用者は容易に動作条件を決
定することが可能になる（ステップＳ６）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識の各種条
件を設定することが可能な音声認識装置および音声認識
装置における処理条件設定方法に関する。

【０００２】

【従来の技術】音声認識装置において、音声認識の応答
速度（一般には音声を入力してから認識結果が出力され
るまでの時間をいう）、認識精度等の動作性能（動作ス
ペック）は、認識候補の探索処理における探索範囲を制
御する各種パラメータの値によって様々に変化する。

【０００３】一般に、探索範囲を広くとるような制御を
すると認識精度は向上するが、それに伴って計算量も増
大するので応答速度が低下する。逆に、探索範囲を絞る
と応答速度は向上するものの認識精度が低下する。この
ように認識精度と応答速度とは一般にはトレードオフの
関係にある。また、音響モデルから計算される音響スコ
アに、言語モデルから計算される言語スコアを加える際
に適用される重み付け等によっても動作スペックは変化
する。本明細書では、認識候補の探索処理を行う際の各
種パラメータのことを「探索条件」とよぶ。

【０００４】探索条件に加え、音響分析方法、音響モデ
ル、言語モデル、音声を収録する際のサンプリング周波
数等も動作スペックに密接に関連している。また、従来
より、音響モデルおよび言語モデルをそれぞれ複数種類
備え、話者や発話内容に応じて適当な音響モデル、言語
モデルを選択する音声認識装置も知られている。本明細
書では、かかる選択情報を含む条件のことを探索条件と
は分けて、「動作条件」とよぶ。

【０００５】音声認識に求められる動作スペックは、上
記したとおり、認識精度と応答速度とがトレードオフの
関係を有することから、使用目的や使用者の好みによっ
てさまざまである。

【０００６】例えば、既存の音声認識アプリケーション
では、何らかの方法で、動作条件や探索条件を設定する
手段を用意している。例えば言語モデルの動作条件を設
定する場合には、「○万語の単語辞書」、「医療用語」
のように、比較的一般使用者にもわかりやすい表現形式
で複数の条件を提示して、その中から選択させることが
できる。同様に音響モデルについて設定する場合も、
「不特定話者用」、「男性用」、「女性用」、「○○個
人用」等といった表現形式で提示された複数の条件から
選択させることができる。

【０００７】一方、探索条件については、探索アルゴリ
ズムに係るパラメータは、技術専門的な指標であって一
般使用者にとっては何を意味するものか分からないもの
が多く、使用者が一つ一つ設定したり選択するのは困難
な場合が多い。

【０００８】既存の音声認識のアプリケーションでは、
音響モデルや言語モデル等の選択とは別に、例えば図３
のような設定画面を用意しているものがあり、このよう
な比較的分かりやすい方法で目標動作スペックを設定で
きるものがある。この例では、使用者が認識精度と応答
速度の優先度をスライドバーを用いて決定することがで
きる。また、標準設定と書かれたボタン３０２をクリッ
クすることにより、システムが推奨する設定に変更する
こともできる。

【０００９】より具体的な目標動作スペックを指定する
方法として、例えば、特開平9-127981号公報において、
使用者自身が所望の応答時間あるいは認識精度を設定す
る方法が提案されている。この方法では、使用者が応答
時間を明確な数値で設定できる。一方、認識精度の設定
は、現在の認識精度を基準にして、現在よりも精度を上
げる/精度を下げるという形式で設定する。いずれの場
合も、設定された目標を満たすように、探索条件を変え
て探索空間の範囲の制御を行っている。

【００１０】

【発明が解決しようとする課題】図３に示したような設
定方法では、使用者に具体的な応答時間、認識精度が明
確に示されておらず、そのため、例えば、応答時間を最
優先する設定にした場合に、どの程度の応答速度が得ら
れるかは設定を終えた後に、実際に音声認識を実行する
まで知ることができない。結局、所望の動作スペックを
得るには、使用者自身が音声認識を実行しながら設定の
調整を繰り返し行う必要があり、使い勝手が悪いという
問題があった。

【００１１】また、上記した特開平9-127981号公報に開
示された方法によれば、応答速度については明確に設定
できる一方で、認識精度の設定の際には、認識精度に関
して具体的な数値が表現されることなく、認識精度の上
げる／下げるという単純な指示しかできないため、所望
の認識精度を得るまでに、認識精度の設定を繰り返す必
要があり、やはり使い勝手の点では問題が残る。

【００１２】さらに、設定された目標の応答時間や認識
精度を達成するために、それに応じた音響モデルや言語
モデル等の動作条件の最適化が行われてしかるべきであ
るところ、従来、そのような最適化処理は行われておら
ず、そのため、目標とする動作スペックを得られない場
合が多いという問題も有していた。

【００１３】また、既存の音声認識アプリケーションに
は、音声認識処理に必要な最低限のメモリサイズやメモ
リサイズの推奨値を示すようにしたものもあるが、使用
するメモリサイズを使用者が設定することはできなかっ
た。

【００１４】本発明は、かかる従来技術が抱える問題点
に鑑みてなされたものであり、音声認識の設定を容易に
行うことのできる、より使い勝手のよい音声認識装置お
よび音声認識装置における処理条件設定方法を提供する
ことを目的とする。

【００１５】

【課題を解決するための手段】上記目的を達成するた
め、例えば本発明の音声認識装置は、以下の構成を備え
る。すなわち、音声認識処理に関する処理条件を設定す
る設定手段を備え、該設定された処理条件に従って音声
認識処理を行う音声認識装置であって、前記設定手段
は、音声認識の動作性能の目標値を入力する目標値入力
手段と、所定の読み上げ音声を入力する音声入力手段
と、該入力された音声に対し、処理条件のすべての組み
合わせに従う音声認識処理を実行し、各音声認識処理の
動作性能を評価する評価手段と、該評価手段で得られた
動作性能が前記目標値入力手段で入力された前記目標値
に適合する処理条件の組み合わせのうち、最適な組み合
わせを決定する決定手段と、を備えることを特徴とす
る。

【００１６】

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施形態を詳細に説明する。

【００１７】図１は本発明の実施の形態に係る音声認識
装置のハードウエア構成を示すブロック図である。

【００１８】図示するように、装置全体の制御をつかさ
どるＣＰＵ１０１、ブートプログラム等を記憶している
ＲＯＭ１０２、主記憶装置として機能するＲＡＭ１０３
をはじめ、以下の構成を備える。

【００１９】ＨＤＤ１０４はハードディスク装置であっ
て、ここにＯＳのほか、音声認識処理を実行するための
音声認識プログラムや音声認識の設定条件ファイル等が
格納されている。また、音声認識処理中に発生する一時
データも格納される。また、ＶＲＡＭ１０５は表示しよ
うとするイメージデータを展開するメモリであり、ここ
にイメージデータ等を展開することでＣＲＴ１０６に表
示させることができる。１０７および１０８は、各種設
定を行うためのキーボードおよびマウスである。

【００２０】また、１０９は音声を入力するマイクロフ
ォンであり、マイクアンプ１１０はマイクロフォン１０
９から入力された信号を増幅する増幅器である。１１１
は不要な高周波成分を遮断するためのローパスフィル
タ、１１２はローパスフィルタ１１１の出力信号をディ
ジタル信号に変換するためのＡ／Ｄ変換器である。

【００２１】Ｄ／Ａ変換器１１２はディジタル音声信号
をアナログ信号に変換するものであり、ローパスフィル
タ１１５は不要な高周波成分を遮断する。１１４は入力
された信号を増幅するマイクアンプ、そして、１１３は
放音するためのスピーカである。

【００２２】続いて、本実施形態における音声認識の設
定処理について、図２のフローチャートおよび図４の設
定画面表示例を用いて説明する。図２のフローチャート
に対応するプログラムは、ＨＤＤ１０４に格納されてい
た音声認識処理プログラムの１モジュールとして含まれ
ているものであり、使用者からの音声認識プログラムの
立ち上げ指示に応じて、音声認識処理プログラム自体が
ＲＡＭ１０３にロードされ、ＣＰＵ１０１により実行さ
れるものである。

【００２３】図２のフローは、使用者が音声認識の実行
に先立ち、キーボード１０７またはマウス１０８を用い
て設定処理を指示することで開始する。設定処理が開始
すると、ＣＲＴ１０６には例えば図４に示す設定画面が
表示される。以下、図２の各処理内容に合わせて、図４
の設定画面例を参照しながら説明していく。

【００２４】まず、ステップS1で、使用者の希望する動
作スペックの入力を受け付ける。図４の設定画面の上部
には目標動作スペック入力欄４０１が表示されており、
その中に、認識精度入力ボックス４０１ａ、応答時間入
力ボックス４０１ｂ、およびメモリ量入力ボックス４０
１ｃが設けられている。使用者はこれら各ボックスに所
望の数値を入力することができる。図示の例では、すで
に各ボックスに数値が入力されており、これによれば、
97％以上の認識精度（認識率）、1.0秒以内の応答時
間、そして、メモリ使用量が20MB以内に収まることを希
望していることになる。

【００２５】次に、ステップS2で、使用者の動作条件候
補の選択を受け付ける。図４の設定画面において上記し
た目標動作スペック入力欄４０１の下部には、動作条件
候補選択欄４０２が表示されており、その中はさらに、
サンプリング周波数選択欄４０２１、音響モデル選択欄
４０２２、および言語モデル選択欄４０２３が設けら
れ、各欄には複数の候補が列記されている。

【００２６】後述するように、最終的には各選択欄から
１つずつの項目が決定されることになるが、各欄ともに
目標動作スペックに適う最適な項目は、使用者が入力す
る音声の音質や発声内容によって異なり、実際に音声認
識してみないと分からない場合が多い。そのため、本ス
テップの時点では各選択欄ごとに複数の候補を予備的に
選択することが可能である。

【００２７】サンプリング周波数選択欄４０２１は、音
声入力時のサンプリング周波数を選択するものであっ
て、図示の例では８kHz、11kHz、16kHz、および22kHzの
４種類の候補がある。使用者により選択された項目は、
その項目先頭に付されている四角形のチェックボックス
が黒く塗りつぶされる。図示の例では11kHzのサンプリ
ングが選択されたことを示している。

【００２８】実施形態においては、音響モデル選択欄４
０２２に示されているように、「不特定」、「男性」、
「女性」、「個人用」の４種類のモデルに各々、速い認
識応答を得るため計算量が少ない「簡易」版と、高い認
識精度を得るための「詳細」版があり、計８種類の音響
モデルが用意されている。この欄において、「不特定」
モデルとは、男女関係なく収集した音声サンプル群から
作成された音響モデルであり、一般には話者を問わずに
平均的によい認識精度が得られる。「男性」モデルは、
複数の男性から収集した音声サンプル群から作成された
音響モデルであり、一般に男性話者に対して高い認識性
能を示す。「女性」モデルは、複数の女性から収集した
音声サンプル群から作成された音響モデルであり、一般
に女性話者に対して高い認識性能を示す。また、「個人
用」モデルは、使用者が登録した音声サンプル群のみを
用いて作成された音響モデルである。

【００２９】また、言語モデル選択欄４０２３に示され
ているように、言語モデルとしては、「レポート」、
「電子メール」、「全般（６万語）」、および「全般
（２万語）」の４種類が用意されている。ここで、「レ
ポート」モデルは、例えばビジネス用文書のコーパスよ
り作成された言語モデル、「電子メール」モデルは、電
子メールコーパスより作成された言語モデル、「全般
（６万語）」および「全般（２万語）」モデルは各々、
ジャンルを問わずに収集されたコーパスより作成された
言語モデルであって、前者は６万語単語辞書を対象と
し、後者は２万語単語辞書を対象としている。

【００３０】説明を繰り返すが、問題は、例えば男女の
ちがいによって音声を区別できるものではないので、
（数としては少ないだろうが）話者によっては「女性」
音響モデルが適した男性もいるであろうし、その逆もあ
りえるということである。さらには、話者によっては詳
細版音響モデルより簡易版音響モデルのほうがよい認識
性能を示す場合もあろう。そのため、このステップＳ２
では複数の音響モデルや言語モデル等を選択できるもの
とし、図示の例では、不特定・簡易モデル、男性・簡易
モデル、および男性・詳細モデルの３つの音響モデルが
選択され、さらに、「全般（６万語）」および「全般
（２万語）」の２つの言語モデルが選択されている。こ
れが、後述する処理において１の音響モデル、１つの言
語モデルに特定されることになる。

【００３１】なお、候補となりうる動作条件の種類は、
動作条件候補選択欄４０２に示したものに限定されるも
のではない。かかる候補は、音声認識の処理形態（単語
音声認識／連続音声認識、小語彙／大語彙等の別）によ
っても異なるであろう。また音響分析条件等もこの欄に
含めるようにしてもよい。

【００３２】次に、ステップS3で、使用者によるテスト
用読み上げ文の編集を受け付ける。使用者は、音声認識
の対象としている具体的な発話内容に関する文章を、キ
ーボード１０７を介して入力することができる。このと
き、あらかじめいくつかのジヤンルの読み上げ文例を使
用者に提示して、使用者がその中から選択して、選択さ
れた文を編集できるようにしてもよい。

【００３３】図４の設定画面例においては、読み上げ欄
４０３中の「文編集」ボタン４０３ａが表示されてお
り、このボタンをクリックすることによって読み上げ文
の編集ができるようになっている。

【００３４】次に、ステップS4で、使用者の、ステップ
S3で編集した読み上げ文の読み上げ音声を、マイクロフ
ォン１０９より入力する。マイクロフォン１０９に入力
された発話音声は、マイクアンプ１１０、ローパスフィ
ルタ１１１、およびＡ／Ｄ変換器１１２を介して所定の
サンプリング周波数の評価用音声データとして、図１に
示すようにＨＤＤ１０４に格納される。図４の設定画面
例では、読み上げ欄４０３中の「発話録音」ボタン４０
３ｂがクリックされると、読み上げ文の発話音声をマイ
クロフォン１０９から入力できるようになっている。発
話の入力は例えば、登録された文を順に入力することに
よって行う。

【００３５】ステップS5では、使用者により動作条件探
索欄４０４中の「開始」ボタン４０４ａがクリックされ
ると、収録した評価用音声データに対して、ステップS2
で選択された動作条件の全ての組み合わせについて音声
認識を実行し、各組み合わせごとの認識精度、応答速
度、および使用メモリ量を測定する。この際、１の組合
わせの動作条件に対して、探索条件を変えて繰り返し音
声認識を実行する。実行する探索条件の種類は、動作条
件の組み合わせごとに代表的な探索条件をあらかじめ決
めておく。

【００３６】全ての動作条件および探索条件について音
声認識の実行が終了すると、使用者の設定した目標動作
スペックに適合する（適合しそうな）動作条件および探
索条件を求め、動作条件探索欄４０４中の、結果表示欄
４０４ｃに表示する。図示の如く、複数種類の組み合わ
せを表示することが可能であり、この場合の結果表示
は、結果表示順序選択欄４０４ｂの中から、認識精度
順、応答速度順、使用メモリ量の順のいずれかを選択し
て、ソートして表示することが可能である（例えば、マ
ウス１０８で対応するチェックボックスをクリックする
ことで行われ、図示の例では使用メモリ順が選択されて
いる）。また、動作条件は同じでも、探索条件の違うも
のについては、個別に表示しても良い。図示の例では、
２番目と３番目の動作条件の候補は同一であるが、探索
条件が異なるので個別に表示している例である。

【００３７】結果表示の方法として、動作条件の候補ご
とに詳細な認識結果を表示しても良い。例えば、図4に
示す例では、結果表示欄４０４ｃ中の各動作条件候補の
末尾に表示された「詳細」ボタン４０５をクリックする
ことで、より詳細な認識結果を表示するようにしてい
る。詳細な認識結果の表示方法としては、例えば、各読
み上げ文ごとの認識結果および認識率、応答速度を表示
する。使用者は、詳細な認識結果を見ることで、具体的
にどの箇所でどの程度の認識誤りを生じたのか等を確認
することができ、次のステップで動作条件を決定すると
きの判断材料とすることができる。

【００３８】そして、ステップS6で、表示された結果を
もとに使用者が動作条件を決定する。表示されている動
作条件の候補から、一つを選択し、動作条件を決定す
る。図４に示す例では、各動作条件の候補に表示されて
いる「設定」ボタンを使用者がクリックすることによっ
て、最終的な動作条件が決定され、これで動作条件の設
定を終了する。

【００３９】以上の設定後、使用者からの音声認識実行
指示に応じて、設定された動作条件にしたがって音声認
識を実行することになる。

【００４０】先に述べたとおり、従来、最適な音声認識
の動作条件を設定することが困難であり、所望の動作ス
ペックを得るために使用者自身が動作条件の設定調整を
繰り返しながら音声認識を実行させる必要があり、使い
勝手が悪いという問題があったところ、上述した実施形
態によれば、収録したテスト用音声データに対して、指
定された複数の動作条件の組み合わせを変更しながら各
組み合わせで音声認識が自動的に繰り返し実行され、そ
の結果、使用者が希望する動作スペックに適う動作条件
が提示される。これによって、使用者は容易に動作条件
を設定することが可能になる。

【００４１】また、実施形態によれば、動作条件を設定
する際に、使用者は目標動作スペックを具体的な数値を
入力することができる。音声認識に使用するメモリサイ
ズを入力することも可能である。実施形態における動作
条件設定手段は、この入力された目標動作スペックに基
づいて適切な動作条件の組み合わせを使用者に提示する
ことになるので、使用者は従来の如く所望の動作スペッ
クを得るまで動作条件を変更しながら音声認識を繰り返
す必要がなくなる。

【００４２】さらに、実施形態によれば、設定された目
標の応答時間や認識精度を達成するために、それに応じ
た音響モデルや言語モデル等の動作条件の最適化が行わ
れることになる。そのため、目標とする動作スペックを
達成することができる可能性が高くなる。

【００４３】

【他の実施形態】上述したように、本発明の目的は、前
述した実施形態の機能を実現するソフトウェアのプログ
ラムコードを記録した記憶媒体（または記録媒体）を、
システムあるいは装置に供給し、そのシステムあるいは
装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒
体に格納されたプログラムコードを読み出し実行するこ
とによっても、達成される。この場合、記憶媒体から読
み出されたプログラムコード自体が前述した実施形態の
機能を実現することになり、そのプログラムコードを記
憶した記憶媒体は本発明を構成することになる。また、
コンピュータが読み出したプログラムコードを実行する
ことにより、前述した実施形態の機能が実現されるだけ
でなく、そのプログラムコードの指示に基づき、コンピ
ュータ上で稼働しているオペレーティングシステム（Ｏ
Ｓ）などが実際の処理の一部または全部を行い、その処
理によって前述した実施形態の機能が実現される場合も
含まれることは言うまでもない。

【００４４】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるＣＰＵなどが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。

【００４５】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明した図２のフローチャートに
対応するプログラムコードが格納されることになる。

【００４６】

【発明の効果】以上説明したように本発明によれば、音
声認識の設定を容易に行うことの可能な、より使い勝手
のよい音声認識装置および音声認識装置における処理条
件設定方法を提供することができる。

【図面の簡単な説明】

【図１】実施形態に係る音声認識装置を示すブロック構
成図である。

【図２】実施形態における音声認識の設定処理を示すフ
ローチャートである。

【図３】従来技術における音声認識の設定画面の一例を
示す図である。

【図４】実施形態における音声認識の設定画面の一例を
示す図である。

Claims

【特許請求の範囲】

【請求項１】音声認識処理に関する処理条件を設定す
る設定手段を備え、該設定された処理条件に従って音声
認識処理を行う音声認識装置であって、前記設定手段は、音声認識の動作性能の目標値を入力する目標値入力手段
と、所定の読み上げ音声を入力する音声入力手段と、該入力された音声に対し、処理条件のすべての組み合わ
せに従う音声認識処理を実行し、各音声認識処理の動作
性能を評価する評価手段と、該評価手段で得られた動作性能が前記目標値入力手段で
入力された当該目標値に適合する処理条件の組み合わせ
のうち、最適な組み合わせを決定する決定手段と、を備えることを特徴とする音声認識装置。
【請求項２】前記評価手段は、前記処理条件の候補を予備選択する予備選択手段を備
え、前記入力された音声に対し、前記予備選択された処理条
件の組み合わせに従う音声認識処理を実行し、各音声認
識処理の動作性能を評価することを特徴とする請求項１
に記載の音声認識装置。
【請求項３】前記設定手段は、前記読み上げ音声の読
み上げ内容を編集する編集手段を更に備えることを特徴
とする請求項１または２に記載の音声認識装置。
【請求項４】前記決定手段は、前記評価手段で得られた動作性能が前記目標値入力手段
で入力された前記目標値に適合する前記処理条件の間の
組み合わせを表示する表示手段と、該表示された前記処理条件の間の組み合わせから、所望
の組み合わせを指定する指定手段と、を含むことを特徴とする請求項１ないし３のいずれか１
項に記載の音声認識装置。
【請求項５】前記動作性能は、前記所定の読み上げ音
声に対する音声認識処理における認識精度、当該音声認
識処理の応答時間、および、当該音声認識処理において
使用されるメモリ量のうち、少なくとも１つとすること
を特徴とする請求項１ないし４のいずれか１項に記載の
音声認識装置。
【請求項６】音声認識処理に関する処理条件を設定す
る設定手段を備え、該設定された処理条件に従って音声
認識処理を行う音声認識装置における処理条件設定方法
であって、音声認識の動作性能の目標値を入力する目標値入力工程
と、所定の読み上げ音声を入力する音声入力工程と、該入力された音声に対し、処理条件のすべての組み合わ
せに従う音声認識処理を実行させ、各音声認識処理の動
作性能を評価する評価工程と、該評価工程で得られた動作性能が前記目標値入力工程で
入力された前記目標値に適合する処理条件の組み合わせ
のうち、最適な組み合わせを決定する決定工程と、を有することを特徴とする音声認識装置における処理条
件設定方法。
【請求項７】前記評価工程は、前記処理条件の候補を予備選択する予備選択工程を含
み、前記入力された音声に対し、前記予備選択された処理条
件の組み合わせに従う音声認識処理を実行させ、各音声
認識処理の動作性能を評価することを特徴とする請求項
６に記載の音声認識装置における処理条件設定方法。
【請求項８】前記音声入力工程に先立ち、前記所定の
読み上げ音声の読み上げ内容を編集する編集工程を更に
有することを特徴とする請求項６または７に記載の音声
認識装置における処理条件設定方法。
【請求項９】前記決定工程は、前記評価工程で得られた動作性能が前記目標値入力工程
で入力された前記目標値に適合する前記処理条件の間の
組み合わせを表示する表示工程と、該表示された前記処理条件の間の組み合わせから、所望
の組み合わせを指定する指定工程と、を含むことを特徴とする請求項６ないし８のいずれか１
項に記載の音声認識装置における処理条件設定方法。
【請求項１０】コンピュータが読み込み実行すること
で、処理条件を設定可能な音声認識装置として機能する
プログラムであって、音声認識の動作性能の目標値を入力する目標値入力工程
のプログラムコードと、所定の読み上げ音声を入力する音声入力工程のプログラ
ムコードと、該入力された音声に対し、処理条件のすべての組み合わ
せに従う音声認識処理を実行させ、各音声認識処理の動
作性能を評価する評価工程のプログラムコードと、該評価工程で得られた動作性能が前記目標値入力工程で
入力された前記目標値に適合する処理条件の組み合わせ
のうち、最適な組み合わせを決定する決定工程のプログ
ラムコードと、で構成されることを特徴とするプログラム。
【請求項１１】前記評価工程のプログラムコードは、前記処理条件の候補を予備選択する予備選択工程のプロ
グラムコードを含み、前記入力された音声に対し、前記予備選択された処理条
件の組み合わせに従う音声認識処理を実行させ、各音声
認識処理の動作性能を評価することを特徴とする請求項
１０に記載のプログラム。
【請求項１２】前記音声入力工程に先立ち、前記所定
の読み上げ音声の読み上げ内容を編集する編集工程のプ
ログラムコードを更に有することを特徴とする請求項１
０または１１に記載のプログラム。
【請求項１３】前記決定工程のプログラムコードは、前記評価工程で得られた動作性能が前記目標値入力工程
で入力された前記目標値に適合する前記処理条件の間の
組み合わせを表示する表示工程のプログラムコードと、該表示された前記処理条件の間の組み合わせから、所望
の組み合わせを指定する指定工程のプログラムコード
と、を含むことを特徴とする請求項１０ないし１２のいずれ
か１項に記載のプログラム。
【請求項１４】前記１０ないし１３のいずれか１項に
記載のプログラムを格納した記憶媒体。