JP2001067096A

JP2001067096A - 音声認識結果評価装置および記録媒体

Info

Publication number: JP2001067096A
Application number: JP24427599A
Authority: JP
Inventors: Hisataka Yamagishi; 久高山岸; Koji Soma; 宏司相馬
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1999-08-31
Filing date: 1999-08-31
Publication date: 2001-03-16

Abstract

(57)【要約】【課題】音声認識結果を正確に評価できるようにす
る。【解決手段】図１１（Ａ）に示すように、「東京から
名古屋」の発声が行われた場合、その音声ファイルを人
が聞き起こした結果が、図１１（Ｃ）に示すように、ロ
ーマ字で発音表記毎に表される。所定の音声認識部によ
り音声認識された結果も、図１１（Ｄ）に示すように、
発音表記毎に区切って表される。音声認識の結果が正し
いか否かは、図１１（Ｃ）に示す発音表記と、図１１
（Ｄ）に示す発音表記を、発音表記毎に区切って比較す
ることで行われる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識結果評価
装置および記録媒体に関し、特に、より正確に音声認識
結果を評価することができるようにした、音声認識結果
評価装置および記録媒体に関する。

【０００２】

【従来の技術】最近、音声認識装置が普及し、様々な分
野で利用されるようになってきた。例えば、切符の自動
販売装置においては、自動販売装置から「行き先を教え
て下さい」のようなメッセージを発生させた後、ユーザ
に「東京」のような行き先を応答させ、自動販売装置か
らさらに「行き先は東京ですね」のようなメッセージを
出力させ、このメッセージに対応して、ユーザから例え
ば、「はい」のような応答があったとき、その行き先に
対応する切符を販売させるようにしている。

【０００３】このような音声認識を利用した装置におい
ては、音声認識の認識率を、迅速かつ正確に評価する必
要がある。これは、通常、このような認識率のレポート
を添付して、音声認識装置が顧客に対して納入されるこ
とが多いからである。

【０００４】音声認識装置の認識率は、例えば次のよう
に求められる。最初に発話音声データファイルが用意さ
れる。この発話音声データファイルには、例えば、図１
（Ａ）に示すように、「東京から横浜まで」のような音
声信号が収録されている。次に、この発話音声データフ
ァイルを再生させ、人にそれを聞き取らせ、その発話音
声データファイルに記録されている内容を文字データに
変換させ、いわゆる聞き起こし作業が行われる。この聞
き起こし作業により、例えば、図１（Ｂ）乃至図１
（Ｄ）に示されるように、例えば「東京から横浜ま
で」、「東京から横浜まで」または、「とーきょーか
らよこはままで」などのようなテキストデータが得ら
れる。

【０００５】これに対して、切符の自動販売装置におい
て、入力された音声が、図１（Ｆ）に示すように、
「（出発地名）から（到着地名）まで」のよう
に、単語の並びで入力された音声信号を認識するように
プログラムされているものとすると、例えば、図１
（Ａ）に示すような「東京から横浜まで」の発話音声デ
ータファイルの音声は、図１（Ｅ）に示すように、「と
ーきょーからよこはままで」の様に認識される。
もちろん切符の自動販売装置に、漢字とひらがなを交え
て音声認識結果を得るようにプログラムしておけば、例
えば、図１（Ｃ）に示すように、「東京から横浜
まで」のような認識結果も得られる。

【０００６】

【発明が解決しようとする課題】音声認識装置の認識率
は、音声認識装置による認識結果と、人が行った聞き起
こし作業の結果とを比較することで、求められる。日本
語は、漢字とひらがなが混在しているのが自然である。
また、日本語の単語の区切りは、英語その他の外国語ほ
ど明確ではない。このため、図１（Ａ）に示すような
「東京から横浜まで」のような発話音声データファイル
の音声を聞き起こし作業して得られた結果は、その聞き
お越し作業を行った作業を行った人によって異なり、あ
る人は、図１（Ｂ）に示すように、「東京から横浜ま
で」のように認識し、ある人は、図１（Ｃ）に示すよう
に、「東京から横浜まで」のように認識し、ある
人は、図１（Ｄ）に示すように、「とーきょーからよ
こはままで」のように認識する。

【０００７】その結果、従来の音声認識結果評価装置に
より認識率を演算させると、このような図１（Ｂ）乃至
図１（Ｄ）に示すような認識結果は、音声認識装置の認
識結果である図１（Ｅ）に示す、「とーきょーから
よこはままで」と、漢字の有無、スペースの位置の
違いなどから、同一ではないと判定されることになる。
すなわち人間が評価した場合、図１（Ｅ）に示す切符の
自動販売装置の認識結果は、図１（Ｂ）乃至（Ｄ）に示
す聞き起こし作業の結果と一致し、正しい認識結果が得
られているものと判定されるのであるが、音声認識結果
評価装置に評価させると、これらはいずれも一致しない
ので、正しい認識結果が得られていないと評価されてし
まうことになる。その結果、その音声認識装置（切符の
自動販売装置）は、音声認識率が低いものとしての評価
がなされてしまうことになる。

【０００８】このように、従来の音声認識結果評価装置
は、音声認識結果を単語の並びで評価するようにしてい
るため、人間が評価した場合には、正しい音声認識結果
が得られている場合であっても、誤った音声認識結果が
なされているものと、誤った評価をしてしまうことがあ
り、結局正しい認識率を評価することができない課題が
あった。

【０００９】本発明はこのような状況に鑑みてなされた
ものであり、迅速かつ確実に音声認識結果の認識率を正
しく評価することができるようにするものである。

【００１０】

【課題を解決するための手段】請求項１に記載の音声認
識結果評価装置は、音声認識された結果得られたテキス
トデータを、発音表記に変換する変換手段と、変換手段
により変換された発音表記と基準の発音表記を、発音表
記毎に区切って比較する比較手段と、比較手段の比較結
果に対応する評価値を演算する演算手段とを備えること
を特徴とする。

【００１１】前記発音表記は、任意に定義されたものと
することができ、例えば、ローマ字、またはひらがなと
することができる。

【００１２】請求項５に記載のプログラムは、音声認識
された結果得られたテキストデータを、発音表記に変換
する変換ステップと、変換ステップの処理により変換さ
れた発音表記と基準の発音表記を、発音表記毎に区切っ
て比較する比較ステップと、比較ステップの処理におけ
る比較結果に対応する評価値を演算する演算ステップと
を含むことを特徴とする。

【００１３】この場合においても、前記発音表記は、任
意に定義されたものとすることができ、例えば、ローマ
字、またはひらがなとすることができる。

【００１４】請求項１に記載の音声認識結果評価装置、
および請求項５に記載のプログラムにおいては、音声認
識された結果得られたテキストデータが、発音表記に変
換され、変換された発音表記と基準の発音表記が発音表
記毎に区切って比較される。したがって正確な音声認識
結果の評価が可能となる。

【００１５】

【発明の実施の形態】図２は、本発明を適用した、音声
認識結果評価装置の構成例を表している。CPU２１は、R
OM２２に記録されているプログラムにしたがって各種の
処理を実行する。RAM２３には、CPU２１が各種の処理を
実行する上において必要なプログラムやデータが適宜記
憶される。CPU２１には、バス２４を介して入出力イン
ターフェース２５が接続されている。入出力インターフ
ェース２５には、キーボードマウスなどよりなる入力部
２６が接続されている。この入力部２６は、CPU２１
に、各種の指令を入力するとき、ユーザにより操作され
る。CPU２１は、音声認識結果の評価のための各種のメ
ッセージや操作の指示などを入出力インターフェース２
５を介して、CRT２７に出力し、表示させる。マイクロ
フォン２８は、ユーザからの音声信号を取り込む。スピ
ーカ２９は、ユーザに音声を出力する。

【００１６】ハードディスク３０は、CPU２１が音声認
識処理や音声認識結果評価処理を実行する上において必
要なプログラムや、音声データファイルなどが記憶され
る。通信部３１は、例えば電話回線などを介してインタ
ーネットその他のネットワークに接続されている。ドラ
イブ３２は、磁気ディスク４１、光ディスク４２、光磁
気ディスク４３、或いは半導体メモリ４４などの、装着
された記録媒体をドライブし、それらに対してデータを
記録または再生する。

【００１７】図３は、CPU２１が音声認識結果評価処理
を実行する場合における機能ブロックを表している。音
声認識部５１は、入力された音声ファイルデータの音声
を音声認識し、得られた認識結果データ（テキストデー
タ）を発音表記変換部５２に出力する。発音表記変換部
５２は、入力された認識結果データを発音表記のデータ
（例えば、ローマ字やひらがなのデータ）に変換する。
正誤判定部５３は、音声認識部５１による音声認識が正
しく行われたか否かを判定する処理を実行する。

【００１８】この正誤判定部５３が、音声認識部５１の
認識結果の正誤判定を行うことができるように、発話内
容聞き起こし部６１において、音声認識部５１により音
声認識される音声ファイルデータと同一の音声ファイル
データが予め音声認識される。そしてその認識結果デー
タ（テキストデータ）が発音表記変換部５２に入力さ
れ、発音表記データに変換された後、正誤判定部５３に
供給され、記憶されている。なお、この発話内容聞き起
こし部６１の処理は、実際には人により行われるもので
ある。

【００１９】次に、図４のフローチャートを参照して、
音声認識部５１による、音声認識の結果の評価を行う前
に、発話内容聞き起こし部６１と発音表記変換部５２に
おいて、予め行っておく処理について説明する。

【００２０】最初にステップＳ１において、音声認識部
５１に対して、音声認識させる内容を有する音声データ
ファイルを作成する処理が実行される。すなわち、例え
ば、人が、マイクロフォン２８に向かって、「東京から
名古屋」、「大阪から広島です」、「博多から東京ま
で」といった内容の音声を発話する。CPU２１は、マイ
クロフォン２８により取り込まれた音声信号を音声デー
タファイル形式にファイル化し、ハードディスク３０に
記憶させる。これにより、例えば、図５に示すように、
B:\VoiceData\というディレクトリに、音声データファ
イルが保存される。図５の例においては、「東京から名
古屋」の音声データは、ファイル名024073756601.wavと
して、「大阪から広島です」の音声データは、ファイル
名024073756701.wavとして、そして「博多から東京ま
で」の音声データは、ファイル名024073756801.wavとし
て、それぞれ保存される。このように、この例では、音
声データファイルは、.wavの拡張子を付して表される。

【００２１】もちろんこのよな音声データファイルは、
予め用意されたものを、ネットワークから通信部３１を
介して取り込み、ハードディスク３０に記憶させるよう
にしてもよい。

【００２２】次にステップＳ２において、発話内容聞き
起こし部６１は、音声データの聞き起こし処理を実行す
る。すなわちCPU２１は、入力部２６からの指令に対応
して、ハードディスク３０に記録されている音声データ
ファイルを再生させ、スピーカ２９から出力させる。こ
れにより、図５に示すような音声データファイルの音声
が、スピーカ２９から出力されるので、「東京から名古
屋」、「大阪から広島です」、「博多から東京まで」と
いうような音声が、スピーカ２９から出力される。聞き
起こし作業を実行する人は、この音声を聞き取り、聞き
取った結果を文字として入力部２６から入力する。CPU
２１は、入力部２６から入力された文字データ（テキス
トデータ）をテキストファイルとしてハードディスク３
０に記録する。

【００２３】例えば、図５に示す音声データファイルに
対応して、図６に示すようなテキストファイルがハード
ディスク３０に記録される。図６の例においては、図５
に示す、「東京から名古屋」の音声に対応して、「とう
きょうからなごや」のテキストファイルが作成さ
れ、「大阪から広島です」の音声に対応して、「おおさ
かからひろしまです」のテキストファイルが作成
され、「博多から東京まで」の音声に対応して、「はか
たからとうきょうまで」のテキストファイルが作
成されている。図６の例においては、図５に示す音声デ
ータのファイルの拡張子.wavに１を付加したwav１がテ
キストファイルの拡張子とされている。

【００２４】図７は、聞き起こし作業の結果得られるテ
キストファイルの他の例を表している。図７（Ａ）に示
す例は、図６に示す場合と同様に、ひらがなで、音声の
内容が表されているが、図６に示す場合と、単語の区切
り位置（スペースの位置）が異なっている。すなわち図
６に示す例では、「とうきょうからなごや」である
ものが、「とうきょうからなごや」とされ、「おおさか
からひろしまです」が、「おおさかからひろし
まです」とされ、また、「はかたからとうきょう
まで」が「はかたからとうきょうまで」とされてい
る。

【００２５】図７（Ｂ）は、図６に示す、すべてひらが
なで表されているテキストのうち、東京、名古屋、大
阪、広島、博多などの地名が漢字で表されている。図７
（Ｃ）は、図７（Ａ）に示す、ひらがなで表されている
テキストのうち、地名が漢字で表されている。

【００２６】このように、図６、或いは図７（Ａ）乃至
（Ｃ）のいずれの形式で音声データをテキストデータに
変換するかは、聞き起こし作業を行う人によって異な
る。

【００２７】以上のようにして生成されたテキストデー
タは、ステップＳ３において、発音表記へ変換される。
すなわちこの時、CPU２１は、ハードディスク３０に記
憶されているテキストファイルを読み出し、発音表記変
換部５２に出力し、そのテキストデータを発音表記に変
換させる。これにより、例えば、図６に示すテキストフ
ァイルが、図８に示すような発音表記のファイルに変換
される。図６と図８を比較して明らかなように、この例
においては、発音表記はローマ字とされている。そし
て、発音表記変換部５２は、テキストを発音表記毎に区
切ってローマ字化する。例えば、「とうきょうから
なごや」は、「to u kyo u ka ra na go ya」
のように表される。

【００２８】発音表記変換部５２は、このように、ひら
がなをローマ字に変換するための発音表記変換テーブル
を内蔵するとともに、例えば図７（Ｂ）および（Ｃ）に
示すような、漢字を含むテキストをローマ字の発音表記
に変換するために、例えば、図９に示すような、漢字を
ローマ字の発音表記に変換するためのテーブルを有して
いる。これにより、例えば、「東京」の漢字は、「to
u kyo u」のローマ字に変換される。

【００２９】発音表記変換部５２は、発音表記で表され
たデータをハードディスク３０に記録させる。このよう
にしてハードディスク３０には、図８に示すような発音
表記のファイルが記録される。なお、図８の例において
は、発音表記のファイルは、対応する音声データファイ
ルの拡張子.wavの最後に数字の２を付加して、.wav２と
して表されている。

【００３０】以上のようにして、聞き起こしファイル作
成処理が予め行われた後、図１０のフローチャートに示
す、正解率算出処理が実行される。

【００３１】最初にステップＳ１１において、正誤判定
部５３は、音声認識部５１による音声認識の正解数と不
正解数に、それぞれ値０を初期設定する。また、処理し
たデータ数を表す変数ｎに０が初期設定される。ステッ
プＳ１２において、正誤判定部５３は、認識率算出に用
いるデータ数を取得し、その値を変数totalに設定す
る。この認識率算出に用いるデータ数は、例えば、入力
部２６を操作することにより、ユーザが入力するか、ま
たは、ハードディスク３０に記録されている音声データ
ファイルの数を検索することで取得される。

【００３２】次に、ステップＳ１３において、音声認識
部５１は、ハードディスク３０に記憶されている音声デ
ータファイルＡ（ｎ）のデータを取得する。これによ
り、図４のステップＳ１において生成された音声データ
ファイルの中から、最初のファイルＡ（０）が取得され
る。ステップＳ１４において、音声認識部５１は、ステ
ップＳ１３で取得した音声データファイルの音声を音声
認識処理する。音声認識部５１により音声認識処理され
た結果得られたテキストデータは、発音表記変換部５２
に供給される。発音表記変換部５２は、ステップＳ１５
において、音声認識部５１により音声認識された結果得
られたテキストデータを、発音表記のデータ（ローマ字
のデータ）に変換する。これにより上述した図８に示す
ような、発音表記のデータＲ（ｎ）が生成される。この
発音表記のデータＲ（ｎ）がRAM２３またはハードディ
スク３０に一時記録される。

【００３３】ステップＳ１６において、正誤判定部５３
は、ステップＳ４で聞き起こし作業の結果得られた発音
表記のファイルＢ（ｎ）のデータをハードディスク３０
から取得し、ステップＳ１７において、ステップＳ１５
の処理で、音声認識部５１により音声認識された結果得
られた発音表記のファイルＲ（ｎ）のデータと比較す
る。この比較は、発音表記毎に区切って行われる。そし
てステップＳ１８において、正誤判定部５３は、比較の
結果、発話内容聞き起こし部６１による聞き起こしの結
果得られた発音表記と、音声認識部５１による音声認識
の結果の発音表記とが一致するか否かを判定する。この
一致は、上述したように、発音表記が発音表記毎に表さ
れているため、発音表記の並びが一致するか否かの観点
から判定される。

【００３４】例えば、ユーザによる発声の内容が、図１
１（Ａ）に示すように、「東京から名古屋」であるよう
な場合、この音声信号が図１１（Ｂ）に示すように、音
声ファイルデータB:\VoiceData\024073756801.wavとし
て保存される。この音声ファイルＡ（ｎ）が再生され、
人が聞き起こした結果得られたテキストをさらに発音表
記に変換して、図１１（Ｃ）に示すようなファイルB:\V
oiceData\024073756601.wav2が作成される。このファイ
ルの内容は、「to u kyo u ka ra na go ya」
となっている。このファイルがステップＳ１６でファイ
ルＢ（ｎ）として取り込まれる。

【００３５】音声認識部５１が、図１１（Ｂ）に示す音
声ファイルＡ（ｎ）の音声を音声認識して得られた結果
が、さらに発音表記に変換されて、図１１（Ｄ）に示す
ようなファイルＲ（ｎ）が得られる。このファイルＲ
（ｎ）の内容は、「to u kyou ka ra na go y
a」となっている。図１１（Ｃ）に示すファイルＢ
（ｎ）の内容と、図１１（Ｄ）に示すファイルＲ（ｎ）
の内容を比較すると、両者は一致している。したがって
この場合、ステップＳ１９に進み、正誤判定部５３は、
ステップＳ１１で値０を初期設定した正解数を１だけイ
ンクリメントする。

【００３６】これに対して図１２（Ａ）に示すように、
「大阪から名古屋です」の発声がユーザから出される
と、これが、ステップＳ１において、図１２（Ｂ）に示
すように、音声データファイルB:\VoiceData\024073756
701.wavとして保存される。このファイルが、発話内容
聞き起こし部６１において、聞き起こし処理され、さら
に発音表記変換部５２で発音表記に変換されて、図１２
（Ｃ）に示すように、ファイルB:\VoiceData\024073756
701.wavがステップＳ４において、生成される。

【００３７】図１２（Ｂ）に示す音声ファイルがファイ
ルＡ（ｎ）としてステップＳ１３で取り込まれ、ステッ
プＳ１４において、音声認識部５１により音声認識され
る。音声認識された結果は、ステップＳ１５において、
発音表記変換部５２で発音表記に変換され、図１２
（Ｄ）に示すファイルＲ（ｎ）が生成される。図１２
（Ｃ）に示すファイルＢ（ｎ）の内容は、「o o sa
ka ka ra hi ro shi ma de su」であるのに対
して、図１２（Ｄ）に示すように、ファイルＲ（ｎ）の
内容は、「ko sa ka ka ra hi ro shi ma de
su」であるから、ファイルＢ（ｎ）とファイルＲ
（ｎ）の内容は一致しない。すなわちこの場合には、音
声認識部５１で正しい音声認識が行われなかったことに
なる。そこでこの場合には、ステップＳ２０に進み、正
誤判定部５３は、ステップＳ１１で０を初期設定した不
正解数の値を１だけインクリメントする。

【００３８】ステップＳ１９またはステップＳ２０の処
理の後、ステップＳ２１に進み、正誤判定部５３は、変
数ｎが認識率算出に用いるデータ数totalより大きいか
否かを判定し、大きくない場合には、ステップＳ２２に
進み、変数ｎを１だけインクリメントする。その後、ス
テップＳ１３に戻り、それ以降の処理が繰り返し実行さ
れる。

【００３９】以上のような処理が繰り返し実行され、ス
テップＳ２１において、変数ｎの値が、データ数total
より大きいと判定された場合（認識率算出に用いるデー
タを全て認識評価したと判定された場合）、ステップＳ
２３に進み、正誤判定部５３は、正解率の算出処理を実
行する。この正解率は、次式で表されるように演算され
る。

【００４０】正解率＝（正解数／total）＊１００％本発明の特徴を明確にするために、従来の評価方法と本
発明の評価方法とを比較すると、次のようになる。

【００４１】例えば、図１３（Ａ）に示すように、「東
京から名古屋」の発声がユーザからなされた場合に、聞
き起こし処理の結果、図１３（Ｂ）に示すように、「と
うきょうからなごや」が得られたとすると、その単語
区切り発音表記は、図１３（Ｃ）に示すように、「touk
youkara nagoya」となる。音声認識の認識結果を発音
表記に変換した結果が図１３（Ｄ）に示したように、
「toukyou kara nagoya」であるとすると、この結果
は、図１３（Ｃ）に示す、聞き起こしの発音表記と一
致しないため（スペースの有無の違いがあるため）、従
来の方法では、正しい認識結果がなされていないと判定
される。

【００４２】同様に、図１４（Ａ）に示すように、「東
京から名古屋」のユーザからの発声に対して、聞き起こ
し処理の結果、図１４（Ｂ）に示すように、「とうきょ
うからなごや」が得られたとすると、その発音表記は図
１４（Ｃ）に示すように、「toukyoukaranagoya」とな
る。

【００４３】これに対して、音声認識部による音声に認
識結果が、図１４（Ｄ）に示すように、「toukyou kar
a nagoya」であるとすると、この認識結果は、図１４
（Ｃ）に示す聞き起こしの発音表記と一致しないため
（スペースの有無の違いがあるため）、従来の方法で
は、この場合も正しい音声認識が行われなかったものと
判定されることになる。

【００４４】これに対して図１５（Ａ）に示すように、
「東京から名古屋」の発声に対する聞き起こしの結果
が、図１５（Ｂ）に示すように、「とうきょうから
なごや」であるとする。その発音表記は、図１５（Ｃ）
に示すように、「toukyou kara nagoya」であり、か
つ図１５（Ｄ）に示すように、音声認識部による音声認
識結果が「toukyou kara nagoya」である場合には、
単語の並びとスペースの位置が一致するところから、従
来の方法では、正しい音声認識が行われたものと判定さ
れる。

【００４５】これに対して、上述した本願発明において
は、図１３乃至図１５に示すいずれの場合においても、
聞き起こし処理の結果得られた発音表記は、図１６
（Ａ）に示すように、「to u kyo u ka ra na g
o ya」となる。音声認識部５１による音声認識結果の
発音表記も、図１６（Ｂ）に示すように、「to u kyo
u ka ra na go ya」となるので、正しい音声認識
が行われたものと判定される。

【００４６】上述した一連の処理は、ハードウエアによ
り実行させることもできるが、ソフトウエアにより実行
させることもできる。一連の処理をソフトウエアにより
実行させる場合には、そのソフトウエアを構成するプロ
グラムが、専用のハードウエアに組み込まれているコン
ピュータ、または、各種のプログラムをインストールす
ることで、各種の機能を実行することが可能な、例えば
汎用のパーソナルコンピュータなどに、記録媒体からイ
ンストールされる。

【００４７】この記録媒体は、図２に示すように、コン
ピュータとは別に、ユーザにプログラムを提供するため
に配布される、プログラムが記録されている磁気ディス
ク４１（フロッピディスクを含む）、光ディスク４２
（CD-ROM(Compact Disk-Read Only Memory),DVD(Digita
l Versatile Disk)を含む）、光磁気ディスク４３（Ｍ
Ｄ（Mini-Disk）を含む）、もしくは半導体メモリ４４
などよりなるパッケージメディアにより構成されるだけ
でなく、コンピュータに予め組み込まれた状態でユーザ
に提供される、プログラムが記録されているROM２２
や、ハードディスク３０などで構成される。

【００４８】以上においては、発音表記として、ローマ
字を用いるようにしたが、ひらがなを用いることも可能
である。或いはまた、ローマ字やひらがな以外の任意の
発音表記を定義することも可能である。

【００４９】

【発明の効果】以上の如く、請求項１に記載の音声認識
結果評価装置、および請求項５に記載の記録媒体によれ
ば、音声認識された結果得られたテキストデータを発音
表記に変換し、変換された発音表記と基準の発音表記を
発音表記毎に区切って比較するようにしたので、音声認
識の結果を迅速かつ正確に評価することが可能となる。

【図面の簡単な説明】

【図１】音声認識の処理を説明する図である。

【図２】本発明を適用した、音声認識結果評価装置の構
成を示すブロック図である。

【図３】図２のCPU２１の機能ブロックの構成を示す図
である。

【図４】聞き起こしファイル作成処理を説明するフロー
チャートである。

【図５】音声データファイルの構成を示す図である。

【図６】音声データファイルの内容をテキストで表した
ファイルの構成を示す図である。

【図７】音声データファイルの内容をテキストで表した
ファイルの構成を示す図である。

【図８】発音表記のファイルを説明する図である。

【図９】発音表記変換のためのテーブルの構成を説明す
る図である。

【図１０】図３の正誤判定部５３の正解率算出処理を説
明するフローチャートである。

【図１１】図１０のステップＳ１９の処理を説明する図
である。

【図１２】図１０のステップＳ２０の処理を説明する図
である。

【図１３】本発明と比較するための従来の音声認識処理
を説明する図である。

【図１４】本発明と比較するための従来の音声認識処理
を説明する図である。

【図１５】本発明と比較するための従来の音声認識処理
を説明する図である。

【図１６】図１３乃至図１５の認識結果評価に対応する
本発明の認識結果の評価を説明する図である。

【符号の説明】２１ CPU，２２ ROM，２３ RAM，２８マイ
クロホン，２９スピーカ，３０ハードディスク

Claims

【特許請求の範囲】

【請求項１】音声信号が音声認識された結果を評価す
る音声認識結果評価装置において、前記音声認識された結果得られたテキストデータを、発
音表記に変換する変換手段と、前記変換手段により変換された発音表記と基準の発音表
記を、発音表記毎に区切って比較する比較手段と、前記比較手段の比較結果に対応する評価値を演算する演
算手段とを備えることを特徴とする音声認識結果評価装
置。
【請求項２】前記発音表記は、任意に定義されたもの
であることを特徴とする請求項１に記載の音声認識結果
評価装置。
【請求項３】前記発音表記は、ローマ字であることを
特徴とする請求項１に記載の音声認識結果評価装置。
【請求項４】前記発音表記は、ひらがなであることを
特徴とする請求項１に記載の音声認識結果評価装置。
【請求項５】音声信号が音声認識された結果を評価す
る音声認識結果評価のためのプログラムにおいて、前記音声認識された結果得られたテキストデータを、発
音表記に変換する変換ステップと、前記変換ステップの処理により変換された発音表記と基
準の発音表記を、発音表記毎に区切って比較する比較ス
テップと、前記比較ステップの処理における比較結果に対応する評
価値を演算する演算ステップとを含むことを特徴とする
コンピュータが読み取り可能なプログラムが記録されて
いる記録媒体。
【請求項６】前記発音表記は、任意に定義されたもの
であることを特徴とする請求項５に記載の記録媒体。
【請求項７】前記発音表記は、ローマ字であることを
特徴とする請求項５に記載の記録媒体。
【請求項８】前記発音表記は、ひらがなであることを
特徴とする請求項５に記載の記録媒体。