JP2002328696A - 音声認識装置および音声認識装置における処理条件設定方法 - Google Patents

音声認識装置および音声認識装置における処理条件設定方法

Info

Publication number
JP2002328696A
JP2002328696A JP2001130157A JP2001130157A JP2002328696A JP 2002328696 A JP2002328696 A JP 2002328696A JP 2001130157 A JP2001130157 A JP 2001130157A JP 2001130157 A JP2001130157 A JP 2001130157A JP 2002328696 A JP2002328696 A JP 2002328696A
Authority
JP
Japan
Prior art keywords
voice
target value
speech recognition
processing conditions
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001130157A
Other languages
English (en)
Inventor
Hiroki Yamamoto
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001130157A priority Critical patent/JP2002328696A/ja
Publication of JP2002328696A publication Critical patent/JP2002328696A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識の設定を容易に行うことの可能な、
より使い勝手のよい音声認識装置および音声認識装置に
おける処理条件設定方法を提供すること。 【解決手段】 音声認識の設定画面において、使用者
は、目標動作スペックを数値で入力し(ステップS
1)、さらに、目標動作スペックや発話内容に適合しそ
うな音響モデル、言語モデル等の種類を複数選択する
(ステップS2)。その後、音声認識させる発話内容に
即したテスト用の読み上げ文を録音する(ステップS
4)。そして、この録音された読み上げ音声データに対
して、選択された複数の動作条件の組み合わせを変更し
ながら音声認識を繰り返し、目標動作スペックに適合す
る動作条件、探索条件の組み合わせ候補を表示する(ス
テップS5)。これにより使用者は容易に動作条件を決
定することが可能になる(ステップS6)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識の各種条
件を設定することが可能な音声認識装置および音声認識
装置における処理条件設定方法に関する。
【0002】
【従来の技術】音声認識装置において、音声認識の応答
速度(一般には音声を入力してから認識結果が出力され
るまでの時間をいう)、認識精度等の動作性能(動作ス
ペック)は、認識候補の探索処理における探索範囲を制
御する各種パラメータの値によって様々に変化する。
【0003】一般に、探索範囲を広くとるような制御を
すると認識精度は向上するが、それに伴って計算量も増
大するので応答速度が低下する。逆に、探索範囲を絞る
と応答速度は向上するものの認識精度が低下する。この
ように認識精度と応答速度とは一般にはトレードオフの
関係にある。また、音響モデルから計算される音響スコ
アに、言語モデルから計算される言語スコアを加える際
に適用される重み付け等によっても動作スペックは変化
する。本明細書では、認識候補の探索処理を行う際の各
種パラメータのことを「探索条件」とよぶ。
【0004】探索条件に加え、音響分析方法、音響モデ
ル、言語モデル、音声を収録する際のサンプリング周波
数等も動作スペックに密接に関連している。また、従来
より、音響モデルおよび言語モデルをそれぞれ複数種類
備え、話者や発話内容に応じて適当な音響モデル、言語
モデルを選択する音声認識装置も知られている。本明細
書では、かかる選択情報を含む条件のことを探索条件と
は分けて、「動作条件」とよぶ。
【0005】音声認識に求められる動作スペックは、上
記したとおり、認識精度と応答速度とがトレードオフの
関係を有することから、使用目的や使用者の好みによっ
てさまざまである。
【0006】例えば、既存の音声認識アプリケーション
では、何らかの方法で、動作条件や探索条件を設定する
手段を用意している。例えば言語モデルの動作条件を設
定する場合には、「○万語の単語辞書」、「医療用語」
のように、比較的一般使用者にもわかりやすい表現形式
で複数の条件を提示して、その中から選択させることが
できる。同様に音響モデルについて設定する場合も、
「不特定話者用」、「男性用」、「女性用」、「○○個
人用」等といった表現形式で提示された複数の条件から
選択させることができる。
【0007】一方、探索条件については、探索アルゴリ
ズムに係るパラメータは、技術専門的な指標であって一
般使用者にとっては何を意味するものか分からないもの
が多く、使用者が一つ一つ設定したり選択するのは困難
な場合が多い。
【0008】既存の音声認識のアプリケーションでは、
音響モデルや言語モデル等の選択とは別に、例えば図3
のような設定画面を用意しているものがあり、このよう
な比較的分かりやすい方法で目標動作スペックを設定で
きるものがある。この例では、使用者が認識精度と応答
速度の優先度をスライドバーを用いて決定することがで
きる。また、標準設定と書かれたボタン302をクリッ
クすることにより、システムが推奨する設定に変更する
こともできる。
【0009】より具体的な目標動作スペックを指定する
方法として、例えば、特開平9-127981号公報において、
使用者自身が所望の応答時間あるいは認識精度を設定す
る方法が提案されている。この方法では、使用者が応答
時間を明確な数値で設定できる。一方、認識精度の設定
は、現在の認識精度を基準にして、現在よりも精度を上
げる/精度を下げるという形式で設定する。いずれの場
合も、設定された目標を満たすように、探索条件を変え
て探索空間の範囲の制御を行っている。
【0010】
【発明が解決しようとする課題】図3に示したような設
定方法では、使用者に具体的な応答時間、認識精度が明
確に示されておらず、そのため、例えば、応答時間を最
優先する設定にした場合に、どの程度の応答速度が得ら
れるかは設定を終えた後に、実際に音声認識を実行する
まで知ることができない。結局、所望の動作スペックを
得るには、使用者自身が音声認識を実行しながら設定の
調整を繰り返し行う必要があり、使い勝手が悪いという
問題があった。
【0011】また、上記した特開平9-127981号公報に開
示された方法によれば、応答速度については明確に設定
できる一方で、認識精度の設定の際には、認識精度に関
して具体的な数値が表現されることなく、認識精度の上
げる/下げるという単純な指示しかできないため、所望
の認識精度を得るまでに、認識精度の設定を繰り返す必
要があり、やはり使い勝手の点では問題が残る。
【0012】さらに、設定された目標の応答時間や認識
精度を達成するために、それに応じた音響モデルや言語
モデル等の動作条件の最適化が行われてしかるべきであ
るところ、従来、そのような最適化処理は行われておら
ず、そのため、目標とする動作スペックを得られない場
合が多いという問題も有していた。
【0013】また、既存の音声認識アプリケーションに
は、音声認識処理に必要な最低限のメモリサイズやメモ
リサイズの推奨値を示すようにしたものもあるが、使用
するメモリサイズを使用者が設定することはできなかっ
た。
【0014】本発明は、かかる従来技術が抱える問題点
に鑑みてなされたものであり、音声認識の設定を容易に
行うことのできる、より使い勝手のよい音声認識装置お
よび音声認識装置における処理条件設定方法を提供する
ことを目的とする。
【0015】
【課題を解決するための手段】上記目的を達成するた
め、例えば本発明の音声認識装置は、以下の構成を備え
る。すなわち、音声認識処理に関する処理条件を設定す
る設定手段を備え、該設定された処理条件に従って音声
認識処理を行う音声認識装置であって、前記設定手段
は、音声認識の動作性能の目標値を入力する目標値入力
手段と、所定の読み上げ音声を入力する音声入力手段
と、該入力された音声に対し、処理条件のすべての組み
合わせに従う音声認識処理を実行し、各音声認識処理の
動作性能を評価する評価手段と、該評価手段で得られた
動作性能が前記目標値入力手段で入力された前記目標値
に適合する処理条件の組み合わせのうち、最適な組み合
わせを決定する決定手段と、を備えることを特徴とす
る。
【0016】
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施形態を詳細に説明する。
【0017】図1は本発明の実施の形態に係る音声認識
装置のハードウエア構成を示すブロック図である。
【0018】図示するように、装置全体の制御をつかさ
どるCPU101、ブートプログラム等を記憶している
ROM102、主記憶装置として機能するRAM103
をはじめ、以下の構成を備える。
【0019】HDD104はハードディスク装置であっ
て、ここにOSのほか、音声認識処理を実行するための
音声認識プログラムや音声認識の設定条件ファイル等が
格納されている。また、音声認識処理中に発生する一時
データも格納される。また、VRAM105は表示しよ
うとするイメージデータを展開するメモリであり、ここ
にイメージデータ等を展開することでCRT106に表
示させることができる。107および108は、各種設
定を行うためのキーボードおよびマウスである。
【0020】また、109は音声を入力するマイクロフ
ォンであり、マイクアンプ110はマイクロフォン10
9から入力された信号を増幅する増幅器である。111
は不要な高周波成分を遮断するためのローパスフィル
タ、112はローパスフィルタ111の出力信号をディ
ジタル信号に変換するためのA/D変換器である。
【0021】D/A変換器112はディジタル音声信号
をアナログ信号に変換するものであり、ローパスフィル
タ115は不要な高周波成分を遮断する。114は入力
された信号を増幅するマイクアンプ、そして、113は
放音するためのスピーカである。
【0022】続いて、本実施形態における音声認識の設
定処理について、図2のフローチャートおよび図4の設
定画面表示例を用いて説明する。図2のフローチャート
に対応するプログラムは、HDD104に格納されてい
た音声認識処理プログラムの1モジュールとして含まれ
ているものであり、使用者からの音声認識プログラムの
立ち上げ指示に応じて、音声認識処理プログラム自体が
RAM103にロードされ、CPU101により実行さ
れるものである。
【0023】図2のフローは、使用者が音声認識の実行
に先立ち、キーボード107またはマウス108を用い
て設定処理を指示することで開始する。設定処理が開始
すると、CRT106には例えば図4に示す設定画面が
表示される。以下、図2の各処理内容に合わせて、図4
の設定画面例を参照しながら説明していく。
【0024】まず、ステップS1で、使用者の希望する動
作スペックの入力を受け付ける。図4の設定画面の上部
には目標動作スペック入力欄401が表示されており、
その中に、認識精度入力ボックス401a、応答時間入
力ボックス401b、およびメモリ量入力ボックス40
1cが設けられている。使用者はこれら各ボックスに所
望の数値を入力することができる。図示の例では、すで
に各ボックスに数値が入力されており、これによれば、
97%以上の認識精度(認識率)、1.0秒以内の応答時
間、そして、メモリ使用量が20MB以内に収まることを希
望していることになる。
【0025】次に、ステップS2で、使用者の動作条件候
補の選択を受け付ける。図4の設定画面において上記し
た目標動作スペック入力欄401の下部には、動作条件
候補選択欄402が表示されており、その中はさらに、
サンプリング周波数選択欄4021、音響モデル選択欄
4022、および言語モデル選択欄4023が設けら
れ、各欄には複数の候補が列記されている。
【0026】後述するように、最終的には各選択欄から
1つずつの項目が決定されることになるが、各欄ともに
目標動作スペックに適う最適な項目は、使用者が入力す
る音声の音質や発声内容によって異なり、実際に音声認
識してみないと分からない場合が多い。そのため、本ス
テップの時点では各選択欄ごとに複数の候補を予備的に
選択することが可能である。
【0027】サンプリング周波数選択欄4021は、音
声入力時のサンプリング周波数を選択するものであっ
て、図示の例では8kHz、11kHz、16kHz、および22kHzの
4種類の候補がある。使用者により選択された項目は、
その項目先頭に付されている四角形のチェックボックス
が黒く塗りつぶされる。図示の例では11kHzのサンプリ
ングが選択されたことを示している。
【0028】実施形態においては、音響モデル選択欄4
022に示されているように、「不特定」、「男性」、
「女性」、「個人用」の4種類のモデルに各々、速い認
識応答を得るため計算量が少ない「簡易」版と、高い認
識精度を得るための「詳細」版があり、計8種類の音響
モデルが用意されている。この欄において、「不特定」
モデルとは、男女関係なく収集した音声サンプル群から
作成された音響モデルであり、一般には話者を問わずに
平均的によい認識精度が得られる。「男性」モデルは、
複数の男性から収集した音声サンプル群から作成された
音響モデルであり、一般に男性話者に対して高い認識性
能を示す。「女性」モデルは、複数の女性から収集した
音声サンプル群から作成された音響モデルであり、一般
に女性話者に対して高い認識性能を示す。また、「個人
用」モデルは、使用者が登録した音声サンプル群のみを
用いて作成された音響モデルである。
【0029】また、言語モデル選択欄4023に示され
ているように、言語モデルとしては、「レポート」、
「電子メール」、「全般(6万語)」、および「全般
(2万語)」の4種類が用意されている。ここで、「レ
ポート」モデルは、例えばビジネス用文書のコーパスよ
り作成された言語モデル、「電子メール」モデルは、電
子メールコーパスより作成された言語モデル、「全般
(6万語)」および「全般(2万語)」モデルは各々、
ジャンルを問わずに収集されたコーパスより作成された
言語モデルであって、前者は6万語単語辞書を対象と
し、後者は2万語単語辞書を対象としている。
【0030】説明を繰り返すが、問題は、例えば男女の
ちがいによって音声を区別できるものではないので、
(数としては少ないだろうが)話者によっては「女性」
音響モデルが適した男性もいるであろうし、その逆もあ
りえるということである。さらには、話者によっては詳
細版音響モデルより簡易版音響モデルのほうがよい認識
性能を示す場合もあろう。そのため、このステップS2
では複数の音響モデルや言語モデル等を選択できるもの
とし、図示の例では、不特定・簡易モデル、男性・簡易
モデル、および男性・詳細モデルの3つの音響モデルが
選択され、さらに、「全般(6万語)」および「全般
(2万語)」の2つの言語モデルが選択されている。こ
れが、後述する処理において1の音響モデル、1つの言
語モデルに特定されることになる。
【0031】なお、候補となりうる動作条件の種類は、
動作条件候補選択欄402に示したものに限定されるも
のではない。かかる候補は、音声認識の処理形態(単語
音声認識/連続音声認識、小語彙/大語彙等の別)によ
っても異なるであろう。また音響分析条件等もこの欄に
含めるようにしてもよい。
【0032】次に、ステップS3で、使用者によるテスト
用読み上げ文の編集を受け付ける。使用者は、音声認識
の対象としている具体的な発話内容に関する文章を、キ
ーボード107を介して入力することができる。このと
き、あらかじめいくつかのジヤンルの読み上げ文例を使
用者に提示して、使用者がその中から選択して、選択さ
れた文を編集できるようにしてもよい。
【0033】図4の設定画面例においては、読み上げ欄
403中の「文編集」ボタン403aが表示されてお
り、このボタンをクリックすることによって読み上げ文
の編集ができるようになっている。
【0034】次に、ステップS4で、使用者の、ステップ
S3で編集した読み上げ文の読み上げ音声を、マイクロフ
ォン109より入力する。マイクロフォン109に入力
された発話音声は、マイクアンプ110、ローパスフィ
ルタ111、およびA/D変換器112を介して所定の
サンプリング周波数の評価用音声データとして、図1に
示すようにHDD104に格納される。図4の設定画面
例では、読み上げ欄403中の「発話録音」ボタン40
3bがクリックされると、読み上げ文の発話音声をマイ
クロフォン109から入力できるようになっている。発
話の入力は例えば、登録された文を順に入力することに
よって行う。
【0035】ステップS5では、使用者により動作条件探
索欄404中の「開始」ボタン404aがクリックされ
ると、収録した評価用音声データに対して、ステップS2
で選択された動作条件の全ての組み合わせについて音声
認識を実行し、各組み合わせごとの認識精度、応答速
度、および使用メモリ量を測定する。この際、1の組合
わせの動作条件に対して、探索条件を変えて繰り返し音
声認識を実行する。実行する探索条件の種類は、動作条
件の組み合わせごとに代表的な探索条件をあらかじめ決
めておく。
【0036】全ての動作条件および探索条件について音
声認識の実行が終了すると、使用者の設定した目標動作
スペックに適合する(適合しそうな)動作条件および探
索条件を求め、動作条件探索欄404中の、結果表示欄
404cに表示する。図示の如く、複数種類の組み合わ
せを表示することが可能であり、この場合の結果表示
は、結果表示順序選択欄404bの中から、認識精度
順、応答速度順、使用メモリ量の順のいずれかを選択し
て、ソートして表示することが可能である(例えば、マ
ウス108で対応するチェックボックスをクリックする
ことで行われ、図示の例では使用メモリ順が選択されて
いる)。また、動作条件は同じでも、探索条件の違うも
のについては、個別に表示しても良い。図示の例では、
2番目と3番目の動作条件の候補は同一であるが、探索
条件が異なるので個別に表示している例である。
【0037】結果表示の方法として、動作条件の候補ご
とに詳細な認識結果を表示しても良い。例えば、図4に
示す例では、結果表示欄404c中の各動作条件候補の
末尾に表示された「詳細」ボタン405をクリックする
ことで、より詳細な認識結果を表示するようにしてい
る。詳細な認識結果の表示方法としては、例えば、各読
み上げ文ごとの認識結果および認識率、応答速度を表示
する。使用者は、詳細な認識結果を見ることで、具体的
にどの箇所でどの程度の認識誤りを生じたのか等を確認
することができ、次のステップで動作条件を決定すると
きの判断材料とすることができる。
【0038】そして、ステップS6で、表示された結果を
もとに使用者が動作条件を決定する。表示されている動
作条件の候補から、一つを選択し、動作条件を決定す
る。図4に示す例では、各動作条件の候補に表示されて
いる「設定」ボタンを使用者がクリックすることによっ
て、最終的な動作条件が決定され、これで動作条件の設
定を終了する。
【0039】以上の設定後、使用者からの音声認識実行
指示に応じて、設定された動作条件にしたがって音声認
識を実行することになる。
【0040】先に述べたとおり、従来、最適な音声認識
の動作条件を設定することが困難であり、所望の動作ス
ペックを得るために使用者自身が動作条件の設定調整を
繰り返しながら音声認識を実行させる必要があり、使い
勝手が悪いという問題があったところ、上述した実施形
態によれば、収録したテスト用音声データに対して、指
定された複数の動作条件の組み合わせを変更しながら各
組み合わせで音声認識が自動的に繰り返し実行され、そ
の結果、使用者が希望する動作スペックに適う動作条件
が提示される。これによって、使用者は容易に動作条件
を設定することが可能になる。
【0041】また、実施形態によれば、動作条件を設定
する際に、使用者は目標動作スペックを具体的な数値を
入力することができる。音声認識に使用するメモリサイ
ズを入力することも可能である。実施形態における動作
条件設定手段は、この入力された目標動作スペックに基
づいて適切な動作条件の組み合わせを使用者に提示する
ことになるので、使用者は従来の如く所望の動作スペッ
クを得るまで動作条件を変更しながら音声認識を繰り返
す必要がなくなる。
【0042】さらに、実施形態によれば、設定された目
標の応答時間や認識精度を達成するために、それに応じ
た音響モデルや言語モデル等の動作条件の最適化が行わ
れることになる。そのため、目標とする動作スペックを
達成することができる可能性が高くなる。
【0043】
【他の実施形態】上述したように、本発明の目的は、前
述した実施形態の機能を実現するソフトウェアのプログ
ラムコードを記録した記憶媒体(または記録媒体)を、
システムあるいは装置に供給し、そのシステムあるいは
装置のコンピュータ(またはCPUやMPU)が記憶媒
体に格納されたプログラムコードを読み出し実行するこ
とによっても、達成される。この場合、記憶媒体から読
み出されたプログラムコード自体が前述した実施形態の
機能を実現することになり、そのプログラムコードを記
憶した記憶媒体は本発明を構成することになる。また、
コンピュータが読み出したプログラムコードを実行する
ことにより、前述した実施形態の機能が実現されるだけ
でなく、そのプログラムコードの指示に基づき、コンピ
ュータ上で稼働しているオペレーティングシステム(O
S)などが実際の処理の一部または全部を行い、その処
理によって前述した実施形態の機能が実現される場合も
含まれることは言うまでもない。
【0044】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。
【0045】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明した図2のフローチャートに
対応するプログラムコードが格納されることになる。
【0046】
【発明の効果】以上説明したように本発明によれば、音
声認識の設定を容易に行うことの可能な、より使い勝手
のよい音声認識装置および音声認識装置における処理条
件設定方法を提供することができる。
【図面の簡単な説明】
【図1】実施形態に係る音声認識装置を示すブロック構
成図である。
【図2】実施形態における音声認識の設定処理を示すフ
ローチャートである。
【図3】従来技術における音声認識の設定画面の一例を
示す図である。
【図4】実施形態における音声認識の設定画面の一例を
示す図である。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 音声認識処理に関する処理条件を設定す
    る設定手段を備え、該設定された処理条件に従って音声
    認識処理を行う音声認識装置であって、 前記設定手段は、 音声認識の動作性能の目標値を入力する目標値入力手段
    と、 所定の読み上げ音声を入力する音声入力手段と、 該入力された音声に対し、処理条件のすべての組み合わ
    せに従う音声認識処理を実行し、各音声認識処理の動作
    性能を評価する評価手段と、 該評価手段で得られた動作性能が前記目標値入力手段で
    入力された当該目標値に適合する処理条件の組み合わせ
    のうち、最適な組み合わせを決定する決定手段と、 を備えることを特徴とする音声認識装置。
  2. 【請求項2】 前記評価手段は、 前記処理条件の候補を予備選択する予備選択手段を備
    え、 前記入力された音声に対し、前記予備選択された処理条
    件の組み合わせに従う音声認識処理を実行し、各音声認
    識処理の動作性能を評価することを特徴とする請求項1
    に記載の音声認識装置。
  3. 【請求項3】 前記設定手段は、前記読み上げ音声の読
    み上げ内容を編集する編集手段を更に備えることを特徴
    とする請求項1または2に記載の音声認識装置。
  4. 【請求項4】 前記決定手段は、 前記評価手段で得られた動作性能が前記目標値入力手段
    で入力された前記目標値に適合する前記処理条件の間の
    組み合わせを表示する表示手段と、 該表示された前記処理条件の間の組み合わせから、所望
    の組み合わせを指定する指定手段と、 を含むことを特徴とする請求項1ないし3のいずれか1
    項に記載の音声認識装置。
  5. 【請求項5】 前記動作性能は、前記所定の読み上げ音
    声に対する音声認識処理における認識精度、当該音声認
    識処理の応答時間、および、当該音声認識処理において
    使用されるメモリ量のうち、少なくとも1つとすること
    を特徴とする請求項1ないし4のいずれか1項に記載の
    音声認識装置。
  6. 【請求項6】 音声認識処理に関する処理条件を設定す
    る設定手段を備え、該設定された処理条件に従って音声
    認識処理を行う音声認識装置における処理条件設定方法
    であって、 音声認識の動作性能の目標値を入力する目標値入力工程
    と、 所定の読み上げ音声を入力する音声入力工程と、 該入力された音声に対し、処理条件のすべての組み合わ
    せに従う音声認識処理を実行させ、各音声認識処理の動
    作性能を評価する評価工程と、 該評価工程で得られた動作性能が前記目標値入力工程で
    入力された前記目標値に適合する処理条件の組み合わせ
    のうち、最適な組み合わせを決定する決定工程と、 を有することを特徴とする音声認識装置における処理条
    件設定方法。
  7. 【請求項7】 前記評価工程は、 前記処理条件の候補を予備選択する予備選択工程を含
    み、 前記入力された音声に対し、前記予備選択された処理条
    件の組み合わせに従う音声認識処理を実行させ、各音声
    認識処理の動作性能を評価することを特徴とする請求項
    6に記載の音声認識装置における処理条件設定方法。
  8. 【請求項8】 前記音声入力工程に先立ち、前記所定の
    読み上げ音声の読み上げ内容を編集する編集工程を更に
    有することを特徴とする請求項6または7に記載の音声
    認識装置における処理条件設定方法。
  9. 【請求項9】 前記決定工程は、 前記評価工程で得られた動作性能が前記目標値入力工程
    で入力された前記目標値に適合する前記処理条件の間の
    組み合わせを表示する表示工程と、 該表示された前記処理条件の間の組み合わせから、所望
    の組み合わせを指定する指定工程と、 を含むことを特徴とする請求項6ないし8のいずれか1
    項に記載の音声認識装置における処理条件設定方法。
  10. 【請求項10】 コンピュータが読み込み実行すること
    で、処理条件を設定可能な音声認識装置として機能する
    プログラムであって、 音声認識の動作性能の目標値を入力する目標値入力工程
    のプログラムコードと、 所定の読み上げ音声を入力する音声入力工程のプログラ
    ムコードと、 該入力された音声に対し、処理条件のすべての組み合わ
    せに従う音声認識処理を実行させ、各音声認識処理の動
    作性能を評価する評価工程のプログラムコードと、 該評価工程で得られた動作性能が前記目標値入力工程で
    入力された前記目標値に適合する処理条件の組み合わせ
    のうち、最適な組み合わせを決定する決定工程のプログ
    ラムコードと、 で構成されることを特徴とするプログラム。
  11. 【請求項11】 前記評価工程のプログラムコードは、 前記処理条件の候補を予備選択する予備選択工程のプロ
    グラムコードを含み、 前記入力された音声に対し、前記予備選択された処理条
    件の組み合わせに従う音声認識処理を実行させ、各音声
    認識処理の動作性能を評価することを特徴とする請求項
    10に記載のプログラム。
  12. 【請求項12】 前記音声入力工程に先立ち、前記所定
    の読み上げ音声の読み上げ内容を編集する編集工程のプ
    ログラムコードを更に有することを特徴とする請求項1
    0または11に記載のプログラム。
  13. 【請求項13】 前記決定工程のプログラムコードは、 前記評価工程で得られた動作性能が前記目標値入力工程
    で入力された前記目標値に適合する前記処理条件の間の
    組み合わせを表示する表示工程のプログラムコードと、 該表示された前記処理条件の間の組み合わせから、所望
    の組み合わせを指定する指定工程のプログラムコード
    と、 を含むことを特徴とする請求項10ないし12のいずれ
    か1項に記載のプログラム。
  14. 【請求項14】 前記10ないし13のいずれか1項に
    記載のプログラムを格納した記憶媒体。
JP2001130157A 2001-04-26 2001-04-26 音声認識装置および音声認識装置における処理条件設定方法 Withdrawn JP2002328696A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001130157A JP2002328696A (ja) 2001-04-26 2001-04-26 音声認識装置および音声認識装置における処理条件設定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001130157A JP2002328696A (ja) 2001-04-26 2001-04-26 音声認識装置および音声認識装置における処理条件設定方法

Publications (1)

Publication Number Publication Date
JP2002328696A true JP2002328696A (ja) 2002-11-15

Family

ID=18978582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001130157A Withdrawn JP2002328696A (ja) 2001-04-26 2001-04-26 音声認識装置および音声認識装置における処理条件設定方法

Country Status (1)

Country Link
JP (1) JP2002328696A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301102A (ja) * 2005-04-18 2006-11-02 Mitsubishi Electric Corp 音声認識装置及びそのプログラム
JP2009532742A (ja) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
US8374870B2 (en) 2005-02-04 2013-02-12 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8612235B2 (en) 2005-02-04 2013-12-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8756059B2 (en) 2005-02-04 2014-06-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
KR101529918B1 (ko) * 2008-09-10 2015-06-18 엘지전자 주식회사 다중 스레드를 이용한 음성 인식 장치 및 그 방법
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
KR20210061805A (ko) * 2019-11-20 2021-05-28 에스케이브로드밴드주식회사 음성인식 품질평가장치 및 그 동작 방법
US11837253B2 (en) 2016-07-27 2023-12-05 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202458B2 (en) 2005-02-04 2015-12-01 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US9928829B2 (en) 2005-02-04 2018-03-27 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8612235B2 (en) 2005-02-04 2013-12-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8756059B2 (en) 2005-02-04 2014-06-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8374870B2 (en) 2005-02-04 2013-02-12 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US10068566B2 (en) 2005-02-04 2018-09-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
JP2006301102A (ja) * 2005-04-18 2006-11-02 Mitsubishi Electric Corp 音声認識装置及びそのプログラム
JP2009532742A (ja) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
KR101529918B1 (ko) * 2008-09-10 2015-06-18 엘지전자 주식회사 다중 스레드를 이용한 음성 인식 장치 및 그 방법
US10685643B2 (en) 2011-05-20 2020-06-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US11810545B2 (en) 2011-05-20 2023-11-07 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US11817078B2 (en) 2011-05-20 2023-11-14 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9697818B2 (en) 2011-05-20 2017-07-04 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US11837253B2 (en) 2016-07-27 2023-12-05 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
KR20210061805A (ko) * 2019-11-20 2021-05-28 에스케이브로드밴드주식회사 음성인식 품질평가장치 및 그 동작 방법
KR102344618B1 (ko) * 2019-11-20 2021-12-30 에스케이브로드밴드주식회사 음성인식 품질평가장치 및 그 동작 방법

Similar Documents

Publication Publication Date Title
JP3724649B2 (ja) 音声認識用辞書作成装置および音声認識装置
KR100586286B1 (ko) 구술 및 명령 구별을 향상하는 방법
US6334102B1 (en) Method of adding vocabulary to a speech recognition system
US7490038B2 (en) Speech recognition optimization tool
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
EP0887788A2 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
CN104050972A (zh) 声音信号分析设备以及声音信号分析方法和程序
CN104008752B (zh) 语音识别装置及方法、以及半导体集成电路装置
JP2002328696A (ja) 音声認識装置および音声認識装置における処理条件設定方法
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2014038282A (ja) 韻律編集装置、方法およびプログラム
JP2006268428A (ja) 情報呈示装置、情報呈示方法、および、情報呈示用プログラム
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
JP7402396B2 (ja) 感情解析装置、感情解析方法、及び感情解析プログラム
JP2001272990A (ja) 対話記録編集装置
JPH10133852A (ja) パーソナルコンピュータおよび音声属性パラメータの管理方法
JP3311467B2 (ja) 音声認識システム
JP2006189799A (ja) 選択可能な音声パターンの音声入力方法及び装置
JP4586386B2 (ja) 素片接続型音声合成装置及び方法
JP4311710B2 (ja) 音声合成制御装置
JPH08272388A (ja) 音声合成装置及びその方法
JP4198040B2 (ja) データ利用装置及びデータ利用方法
JP2000259169A (ja) 音声認識装置およびその記録媒体
JP2005106989A (ja) 楽譜対応データ生成装置及びプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080701