JP2001067096A - 音声認識結果評価装置および記録媒体 - Google Patents

音声認識結果評価装置および記録媒体

Info

Publication number
JP2001067096A
JP2001067096A JP24427599A JP24427599A JP2001067096A JP 2001067096 A JP2001067096 A JP 2001067096A JP 24427599 A JP24427599 A JP 24427599A JP 24427599 A JP24427599 A JP 24427599A JP 2001067096 A JP2001067096 A JP 2001067096A
Authority
JP
Japan
Prior art keywords
result
speech recognition
phonetic notation
file
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP24427599A
Other languages
English (en)
Inventor
Hisataka Yamagishi
久高 山岸
Koji Soma
宏司 相馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP24427599A priority Critical patent/JP2001067096A/ja
Publication of JP2001067096A publication Critical patent/JP2001067096A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識結果を正確に評価できるようにす
る。 【解決手段】 図11(A)に示すように、「東京から
名古屋」の発声が行われた場合、その音声ファイルを人
が聞き起こした結果が、図11(C)に示すように、ロ
ーマ字で発音表記毎に表される。所定の音声認識部によ
り音声認識された結果も、図11(D)に示すように、
発音表記毎に区切って表される。音声認識の結果が正し
いか否かは、図11(C)に示す発音表記と、図11
(D)に示す発音表記を、発音表記毎に区切って比較す
ることで行われる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識結果評価
装置および記録媒体に関し、特に、より正確に音声認識
結果を評価することができるようにした、音声認識結果
評価装置および記録媒体に関する。
【0002】
【従来の技術】最近、音声認識装置が普及し、様々な分
野で利用されるようになってきた。例えば、切符の自動
販売装置においては、自動販売装置から「行き先を教え
て下さい」のようなメッセージを発生させた後、ユーザ
に「東京」のような行き先を応答させ、自動販売装置か
らさらに「行き先は東京ですね」のようなメッセージを
出力させ、このメッセージに対応して、ユーザから例え
ば、「はい」のような応答があったとき、その行き先に
対応する切符を販売させるようにしている。
【0003】このような音声認識を利用した装置におい
ては、音声認識の認識率を、迅速かつ正確に評価する必
要がある。これは、通常、このような認識率のレポート
を添付して、音声認識装置が顧客に対して納入されるこ
とが多いからである。
【0004】音声認識装置の認識率は、例えば次のよう
に求められる。最初に発話音声データファイルが用意さ
れる。この発話音声データファイルには、例えば、図1
(A)に示すように、「東京から横浜まで」のような音
声信号が収録されている。次に、この発話音声データフ
ァイルを再生させ、人にそれを聞き取らせ、その発話音
声データファイルに記録されている内容を文字データに
変換させ、いわゆる聞き起こし作業が行われる。この聞
き起こし作業により、例えば、図1(B)乃至図1
(D)に示されるように、例えば「東京から 横浜 ま
で」、「東京 から横浜まで」または、「とーきょーか
ら よこはままで」などのようなテキストデータが得ら
れる。
【0005】これに対して、切符の自動販売装置におい
て、入力された音声が、図1(F)に示すように、
「(出発地名) から (到着地名) まで」のよう
に、単語の並びで入力された音声信号を認識するように
プログラムされているものとすると、例えば、図1
(A)に示すような「東京から横浜まで」の発話音声デ
ータファイルの音声は、図1(E)に示すように、「と
ーきょー から よこはま まで」の様に認識される。
もちろん切符の自動販売装置に、漢字とひらがなを交え
て音声認識結果を得るようにプログラムしておけば、例
えば、図1(C)に示すように、「東京 から 横浜
まで」のような認識結果も得られる。
【0006】
【発明が解決しようとする課題】音声認識装置の認識率
は、音声認識装置による認識結果と、人が行った聞き起
こし作業の結果とを比較することで、求められる。日本
語は、漢字とひらがなが混在しているのが自然である。
また、日本語の単語の区切りは、英語その他の外国語ほ
ど明確ではない。このため、図1(A)に示すような
「東京から横浜まで」のような発話音声データファイル
の音声を聞き起こし作業して得られた結果は、その聞き
お越し作業を行った作業を行った人によって異なり、あ
る人は、図1(B)に示すように、「東京から 横浜ま
で」のように認識し、ある人は、図1(C)に示すよう
に、「東京 から 横浜 まで」のように認識し、ある
人は、図1(D)に示すように、「とーきょーから よ
こはままで」のように認識する。
【0007】その結果、従来の音声認識結果評価装置に
より認識率を演算させると、このような図1(B)乃至
図1(D)に示すような認識結果は、音声認識装置の認
識結果である図1(E)に示す、「とーきょー から
よこはま まで」 と、漢字の有無、スペースの位置の
違いなどから、同一ではないと判定されることになる。
すなわち人間が評価した場合、図1(E)に示す切符の
自動販売装置の認識結果は、図1(B)乃至(D)に示
す聞き起こし作業の結果と一致し、正しい認識結果が得
られているものと判定されるのであるが、音声認識結果
評価装置に評価させると、これらはいずれも一致しない
ので、正しい認識結果が得られていないと評価されてし
まうことになる。その結果、その音声認識装置(切符の
自動販売装置)は、音声認識率が低いものとしての評価
がなされてしまうことになる。
【0008】このように、従来の音声認識結果評価装置
は、音声認識結果を単語の並びで評価するようにしてい
るため、人間が評価した場合には、正しい音声認識結果
が得られている場合であっても、誤った音声認識結果が
なされているものと、誤った評価をしてしまうことがあ
り、結局正しい認識率を評価することができない課題が
あった。
【0009】本発明はこのような状況に鑑みてなされた
ものであり、迅速かつ確実に音声認識結果の認識率を正
しく評価することができるようにするものである。
【0010】
【課題を解決するための手段】請求項1に記載の音声認
識結果評価装置は、音声認識された結果得られたテキス
トデータを、発音表記に変換する変換手段と、変換手段
により変換された発音表記と基準の発音表記を、発音表
記毎に区切って比較する比較手段と、比較手段の比較結
果に対応する評価値を演算する演算手段とを備えること
を特徴とする。
【0011】前記発音表記は、任意に定義されたものと
することができ、例えば、ローマ字、またはひらがなと
することができる。
【0012】請求項5に記載のプログラムは、音声認識
された結果得られたテキストデータを、発音表記に変換
する変換ステップと、変換ステップの処理により変換さ
れた発音表記と基準の発音表記を、発音表記毎に区切っ
て比較する比較ステップと、比較ステップの処理におけ
る比較結果に対応する評価値を演算する演算ステップと
を含むことを特徴とする。
【0013】この場合においても、前記発音表記は、任
意に定義されたものとすることができ、例えば、ローマ
字、またはひらがなとすることができる。
【0014】請求項1に記載の音声認識結果評価装置、
および請求項5に記載のプログラムにおいては、音声認
識された結果得られたテキストデータが、発音表記に変
換され、変換された発音表記と基準の発音表記が発音表
記毎に区切って比較される。したがって正確な音声認識
結果の評価が可能となる。
【0015】
【発明の実施の形態】図2は、本発明を適用した、音声
認識結果評価装置の構成例を表している。CPU21は、R
OM22に記録されているプログラムにしたがって各種の
処理を実行する。RAM23には、CPU21が各種の処理を
実行する上において必要なプログラムやデータが適宜記
憶される。CPU21には、バス24を介して入出力イン
ターフェース25が接続されている。入出力インターフ
ェース25には、キーボードマウスなどよりなる入力部
26が接続されている。この入力部26は、CPU21
に、各種の指令を入力するとき、ユーザにより操作され
る。CPU21は、音声認識結果の評価のための各種のメ
ッセージや操作の指示などを入出力インターフェース2
5を介して、CRT27に出力し、表示させる。マイクロ
フォン28は、ユーザからの音声信号を取り込む。スピ
ーカ29は、ユーザに音声を出力する。
【0016】ハードディスク30は、CPU21が音声認
識処理や音声認識結果評価処理を実行する上において必
要なプログラムや、音声データファイルなどが記憶され
る。通信部31は、例えば電話回線などを介してインタ
ーネットその他のネットワークに接続されている。ドラ
イブ32は、磁気ディスク41、光ディスク42、光磁
気ディスク43、或いは半導体メモリ44などの、装着
された記録媒体をドライブし、それらに対してデータを
記録または再生する。
【0017】図3は、CPU21が音声認識結果評価処理
を実行する場合における機能ブロックを表している。音
声認識部51は、入力された音声ファイルデータの音声
を音声認識し、得られた認識結果データ(テキストデー
タ)を発音表記変換部52に出力する。発音表記変換部
52は、入力された認識結果データを発音表記のデータ
(例えば、ローマ字やひらがなのデータ)に変換する。
正誤判定部53は、音声認識部51による音声認識が正
しく行われたか否かを判定する処理を実行する。
【0018】この正誤判定部53が、音声認識部51の
認識結果の正誤判定を行うことができるように、発話内
容聞き起こし部61において、音声認識部51により音
声認識される音声ファイルデータと同一の音声ファイル
データが予め音声認識される。そしてその認識結果デー
タ(テキストデータ)が発音表記変換部52に入力さ
れ、発音表記データに変換された後、正誤判定部53に
供給され、記憶されている。なお、この発話内容聞き起
こし部61の処理は、実際には人により行われるもので
ある。
【0019】次に、図4のフローチャートを参照して、
音声認識部51による、音声認識の結果の評価を行う前
に、発話内容聞き起こし部61と発音表記変換部52に
おいて、予め行っておく処理について説明する。
【0020】最初にステップS1において、音声認識部
51に対して、音声認識させる内容を有する音声データ
ファイルを作成する処理が実行される。すなわち、例え
ば、人が、マイクロフォン28に向かって、「東京から
名古屋」、「大阪から広島です」、「博多から東京ま
で」といった内容の音声を発話する。CPU21は、マイ
クロフォン28により取り込まれた音声信号を音声デー
タファイル形式にファイル化し、ハードディスク30に
記憶させる。これにより、例えば、図5に示すように、
B:\VoiceData\というディレクトリに、音声データファ
イルが保存される。図5の例においては、「東京から名
古屋」の音声データは、ファイル名024073756601.wavと
して、「大阪から広島です」の音声データは、ファイル
名024073756701.wavとして、そして「博多から東京ま
で」の音声データは、ファイル名024073756801.wavとし
て、それぞれ保存される。このように、この例では、音
声データファイルは、.wavの拡張子を付して表される。
【0021】もちろんこのよな音声データファイルは、
予め用意されたものを、ネットワークから通信部31を
介して取り込み、ハードディスク30に記憶させるよう
にしてもよい。
【0022】次にステップS2において、発話内容聞き
起こし部61は、音声データの聞き起こし処理を実行す
る。すなわちCPU21は、入力部26からの指令に対応
して、ハードディスク30に記録されている音声データ
ファイルを再生させ、スピーカ29から出力させる。こ
れにより、図5に示すような音声データファイルの音声
が、スピーカ29から出力されるので、「東京から名古
屋」、「大阪から広島です」、「博多から東京まで」と
いうような音声が、スピーカ29から出力される。聞き
起こし作業を実行する人は、この音声を聞き取り、聞き
取った結果を文字として入力部26から入力する。CPU
21は、入力部26から入力された文字データ(テキス
トデータ)をテキストファイルとしてハードディスク3
0に記録する。
【0023】例えば、図5に示す音声データファイルに
対応して、図6に示すようなテキストファイルがハード
ディスク30に記録される。図6の例においては、図5
に示す、「東京から名古屋」の音声に対応して、「とう
きょう から なごや」のテキストファイルが作成さ
れ、「大阪から広島です」の音声に対応して、「おおさ
か から ひろしま です」のテキストファイルが作成
され、「博多から東京まで」の音声に対応して、「はか
た から とうきょう まで」のテキストファイルが作
成されている。図6の例においては、図5に示す音声デ
ータのファイルの拡張子.wavに1を付加したwav1がテ
キストファイルの拡張子とされている。
【0024】図7は、聞き起こし作業の結果得られるテ
キストファイルの他の例を表している。図7(A)に示
す例は、図6に示す場合と同様に、ひらがなで、音声の
内容が表されているが、図6に示す場合と、単語の区切
り位置(スペースの位置)が異なっている。すなわち図
6に示す例では、「とうきょう から なごや」である
ものが、「とうきょうからなごや」とされ、「おおさか
から ひろしま です」が、「おおさかから ひろし
まです」とされ、また、「はかた から とうきょう
まで」が「はかたから とうきょう まで」とされてい
る。
【0025】図7(B)は、図6に示す、すべてひらが
なで表されているテキストのうち、東京、名古屋、大
阪、広島、博多などの地名が漢字で表されている。図7
(C)は、図7(A)に示す、ひらがなで表されている
テキストのうち、地名が漢字で表されている。
【0026】このように、図6、或いは図7(A)乃至
(C)のいずれの形式で音声データをテキストデータに
変換するかは、聞き起こし作業を行う人によって異な
る。
【0027】以上のようにして生成されたテキストデー
タは、ステップS3において、発音表記へ変換される。
すなわちこの時、CPU21は、ハードディスク30に記
憶されているテキストファイルを読み出し、発音表記変
換部52に出力し、そのテキストデータを発音表記に変
換させる。これにより、例えば、図6に示すテキストフ
ァイルが、図8に示すような発音表記のファイルに変換
される。図6と図8を比較して明らかなように、この例
においては、発音表記はローマ字とされている。そし
て、発音表記変換部52は、テキストを発音表記毎に区
切ってローマ字化する。例えば、「とうきょう から
なごや」は、「to u kyo u ka ra na go ya」
のように表される。
【0028】発音表記変換部52は、このように、ひら
がなをローマ字に変換するための発音表記変換テーブル
を内蔵するとともに、例えば図7(B)および(C)に
示すような、漢字を含むテキストをローマ字の発音表記
に変換するために、例えば、図9に示すような、漢字を
ローマ字の発音表記に変換するためのテーブルを有して
いる。これにより、例えば、「東京」の漢字は、「to
u kyo u」のローマ字に変換される。
【0029】発音表記変換部52は、発音表記で表され
たデータをハードディスク30に記録させる。このよう
にしてハードディスク30には、図8に示すような発音
表記のファイルが記録される。なお、図8の例において
は、発音表記のファイルは、対応する音声データファイ
ルの拡張子.wavの最後に数字の2を付加して、.wav2と
して表されている。
【0030】以上のようにして、聞き起こしファイル作
成処理が予め行われた後、図10のフローチャートに示
す、正解率算出処理が実行される。
【0031】最初にステップS11において、正誤判定
部53は、音声認識部51による音声認識の正解数と不
正解数に、それぞれ値0を初期設定する。また、処理し
たデータ数を表す変数nに0が初期設定される。ステッ
プS12において、正誤判定部53は、認識率算出に用
いるデータ数を取得し、その値を変数totalに設定す
る。この認識率算出に用いるデータ数は、例えば、入力
部26を操作することにより、ユーザが入力するか、ま
たは、ハードディスク30に記録されている音声データ
ファイルの数を検索することで取得される。
【0032】次に、ステップS13において、音声認識
部51は、ハードディスク30に記憶されている音声デ
ータファイルA(n)のデータを取得する。これによ
り、図4のステップS1において生成された音声データ
ファイルの中から、最初のファイルA(0)が取得され
る。ステップS14において、音声認識部51は、ステ
ップS13で取得した音声データファイルの音声を音声
認識処理する。音声認識部51により音声認識処理され
た結果得られたテキストデータは、発音表記変換部52
に供給される。発音表記変換部52は、ステップS15
において、音声認識部51により音声認識された結果得
られたテキストデータを、発音表記のデータ(ローマ字
のデータ)に変換する。これにより上述した図8に示す
ような、発音表記のデータR(n)が生成される。この
発音表記のデータR(n)がRAM23またはハードディ
スク30に一時記録される。
【0033】ステップS16において、正誤判定部53
は、ステップS4で聞き起こし作業の結果得られた発音
表記のファイルB(n)のデータをハードディスク30
から取得し、ステップS17において、ステップS15
の処理で、音声認識部51により音声認識された結果得
られた発音表記のファイルR(n)のデータと比較す
る。この比較は、発音表記毎に区切って行われる。そし
てステップS18において、正誤判定部53は、比較の
結果、発話内容聞き起こし部61による聞き起こしの結
果得られた発音表記と、音声認識部51による音声認識
の結果の発音表記とが一致するか否かを判定する。この
一致は、上述したように、発音表記が発音表記毎に表さ
れているため、発音表記の並びが一致するか否かの観点
から判定される。
【0034】例えば、ユーザによる発声の内容が、図1
1(A)に示すように、「東京から名古屋」であるよう
な場合、この音声信号が図11(B)に示すように、音
声ファイルデータB:\VoiceData\024073756801.wavとし
て保存される。この音声ファイルA(n)が再生され、
人が聞き起こした結果得られたテキストをさらに発音表
記に変換して、図11(C)に示すようなファイルB:\V
oiceData\024073756601.wav2が作成される。このファイ
ルの内容は、「to u kyo u ka ra na go ya」
となっている。このファイルがステップS16でファイ
ルB(n)として取り込まれる。
【0035】音声認識部51が、図11(B)に示す音
声ファイルA(n)の音声を音声認識して得られた結果
が、さらに発音表記に変換されて、図11(D)に示す
ようなファイルR(n)が得られる。このファイルR
(n)の内容は、「to u kyou ka ra na go y
a」となっている。図11(C)に示すファイルB
(n)の内容と、図11(D)に示すファイルR(n)
の内容を比較すると、両者は一致している。したがって
この場合、ステップS19に進み、正誤判定部53は、
ステップS11で値0を初期設定した正解数を1だけイ
ンクリメントする。
【0036】これに対して図12(A)に示すように、
「大阪から名古屋です」の発声がユーザから出される
と、これが、ステップS1において、図12(B)に示
すように、音声データファイルB:\VoiceData\024073756
701.wavとして保存される。このファイルが、発話内容
聞き起こし部61において、聞き起こし処理され、さら
に発音表記変換部52で発音表記に変換されて、図12
(C)に示すように、ファイルB:\VoiceData\024073756
701.wavがステップS4において、生成される。
【0037】図12(B)に示す音声ファイルがファイ
ルA(n)としてステップS13で取り込まれ、ステッ
プS14において、音声認識部51により音声認識され
る。音声認識された結果は、ステップS15において、
発音表記変換部52で発音表記に変換され、図12
(D)に示すファイルR(n)が生成される。図12
(C)に示すファイルB(n)の内容は、「o o sa
ka ka ra hi ro shi ma de su」であるのに対
して、図12(D)に示すように、ファイルR(n)の
内容は、「ko sa ka ka ra hi ro shi ma de
su」であるから、ファイルB(n)とファイルR
(n)の内容は一致しない。すなわちこの場合には、音
声認識部51で正しい音声認識が行われなかったことに
なる。そこでこの場合には、ステップS20に進み、正
誤判定部53は、ステップS11で0を初期設定した不
正解数の値を1だけインクリメントする。
【0038】ステップS19またはステップS20の処
理の後、ステップS21に進み、正誤判定部53は、変
数nが認識率算出に用いるデータ数totalより大きいか
否かを判定し、大きくない場合には、ステップS22に
進み、変数nを1だけインクリメントする。その後、ス
テップS13に戻り、それ以降の処理が繰り返し実行さ
れる。
【0039】以上のような処理が繰り返し実行され、ス
テップS21において、変数nの値が、データ数total
より大きいと判定された場合(認識率算出に用いるデー
タを全て認識評価したと判定された場合)、ステップS
23に進み、正誤判定部53は、正解率の算出処理を実
行する。この正解率は、次式で表されるように演算され
る。
【0040】正解率=(正解数/total)*100% 本発明の特徴を明確にするために、従来の評価方法と本
発明の評価方法とを比較すると、次のようになる。
【0041】例えば、図13(A)に示すように、「東
京から名古屋」の発声がユーザからなされた場合に、聞
き起こし処理の結果、図13(B)に示すように、「と
うきょうから なごや」が得られたとすると、その単語
区切り発音表記は、図13(C)に示すように、「touk
youkara nagoya」となる。音声認識の認識結果を発音
表記に変換した結果が図13(D)に示したように、
「toukyou kara nagoya」であるとすると、この結果
は、図13 (C)に示す、聞き起こしの発音表記と一
致しないため(スペースの有無の違いがあるため)、従
来の方法では、正しい認識結果がなされていないと判定
される。
【0042】同様に、図14(A)に示すように、「東
京から名古屋」のユーザからの発声に対して、聞き起こ
し処理の結果、図14(B)に示すように、「とうきょ
うからなごや」が得られたとすると、その発音表記は図
14(C)に示すように、「toukyoukaranagoya」とな
る。
【0043】これに対して、音声認識部による音声に認
識結果が、図14(D)に示すように、「toukyou kar
a nagoya」であるとすると、この認識結果は、図14
(C)に示す聞き起こしの発音表記と一致しないため
(スペースの有無の違いがあるため)、従来の方法で
は、この場合も正しい音声認識が行われなかったものと
判定されることになる。
【0044】これに対して図15(A)に示すように、
「東京から名古屋」の発声に対する聞き起こしの結果
が、図15(B)に示すように、「とうきょう から
なごや」であるとする。その発音表記は、図15(C)
に示すように、「toukyou kara nagoya」であり、か
つ図15(D)に示すように、音声認識部による音声認
識結果が「toukyou kara nagoya」である場合には、
単語の並びとスペースの位置が一致するところから、従
来の方法では、正しい音声認識が行われたものと判定さ
れる。
【0045】これに対して、上述した本願発明において
は、図13乃至図15に示すいずれの場合においても、
聞き起こし処理の結果得られた発音表記は、図16
(A)に示すように、「to u kyo u ka ra na g
o ya」となる。音声認識部51による音声認識結果の
発音表記も、図16(B)に示すように、「to u kyo
u ka ra na go ya」となるので、正しい音声認識
が行われたものと判定される。
【0046】上述した一連の処理は、ハードウエアによ
り実行させることもできるが、ソフトウエアにより実行
させることもできる。一連の処理をソフトウエアにより
実行させる場合には、そのソフトウエアを構成するプロ
グラムが、専用のハードウエアに組み込まれているコン
ピュータ、または、各種のプログラムをインストールす
ることで、各種の機能を実行することが可能な、例えば
汎用のパーソナルコンピュータなどに、記録媒体からイ
ンストールされる。
【0047】この記録媒体は、図2に示すように、コン
ピュータとは別に、ユーザにプログラムを提供するため
に配布される、プログラムが記録されている磁気ディス
ク41(フロッピディスクを含む)、光ディスク42
(CD-ROM(Compact Disk-Read Only Memory),DVD(Digita
l Versatile Disk)を含む)、光磁気ディスク43(M
D(Mini-Disk)を含む)、もしくは半導体メモリ44
などよりなるパッケージメディアにより構成されるだけ
でなく、コンピュータに予め組み込まれた状態でユーザ
に提供される、プログラムが記録されているROM22
や、ハードディスク30などで構成される。
【0048】以上においては、発音表記として、ローマ
字を用いるようにしたが、ひらがなを用いることも可能
である。或いはまた、ローマ字やひらがな以外の任意の
発音表記を定義することも可能である。
【0049】
【発明の効果】以上の如く、請求項1に記載の音声認識
結果評価装置、および請求項5に記載の記録媒体によれ
ば、音声認識された結果得られたテキストデータを発音
表記に変換し、変換された発音表記と基準の発音表記を
発音表記毎に区切って比較するようにしたので、音声認
識の結果を迅速かつ正確に評価することが可能となる。
【図面の簡単な説明】
【図1】音声認識の処理を説明する図である。
【図2】本発明を適用した、音声認識結果評価装置の構
成を示すブロック図である。
【図3】図2のCPU21の機能ブロックの構成を示す図
である。
【図4】聞き起こしファイル作成処理を説明するフロー
チャートである。
【図5】音声データファイルの構成を示す図である。
【図6】音声データファイルの内容をテキストで表した
ファイルの構成を示す図である。
【図7】音声データファイルの内容をテキストで表した
ファイルの構成を示す図である。
【図8】発音表記のファイルを説明する図である。
【図9】発音表記変換のためのテーブルの構成を説明す
る図である。
【図10】図3の正誤判定部53の正解率算出処理を説
明するフローチャートである。
【図11】図10のステップS19の処理を説明する図
である。
【図12】図10のステップS20の処理を説明する図
である。
【図13】本発明と比較するための従来の音声認識処理
を説明する図である。
【図14】本発明と比較するための従来の音声認識処理
を説明する図である。
【図15】本発明と比較するための従来の音声認識処理
を説明する図である。
【図16】図13乃至図15の認識結果評価に対応する
本発明の認識結果の評価を説明する図である。
【符号の説明】 21 CPU, 22 ROM, 23 RAM, 28 マイ
クロホン, 29 スピーカ, 30 ハードディスク

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声信号が音声認識された結果を評価す
    る音声認識結果評価装置において、 前記音声認識された結果得られたテキストデータを、発
    音表記に変換する変換手段と、 前記変換手段により変換された発音表記と基準の発音表
    記を、発音表記毎に区切って比較する比較手段と、 前記比較手段の比較結果に対応する評価値を演算する演
    算手段とを備えることを特徴とする音声認識結果評価装
    置。
  2. 【請求項2】 前記発音表記は、任意に定義されたもの
    であることを特徴とする請求項1に記載の音声認識結果
    評価装置。
  3. 【請求項3】 前記発音表記は、ローマ字であることを
    特徴とする請求項1に記載の音声認識結果評価装置。
  4. 【請求項4】 前記発音表記は、ひらがなであることを
    特徴とする請求項1に記載の音声認識結果評価装置。
  5. 【請求項5】 音声信号が音声認識された結果を評価す
    る音声認識結果評価のためのプログラムにおいて、 前記音声認識された結果得られたテキストデータを、発
    音表記に変換する変換ステップと、 前記変換ステップの処理により変換された発音表記と基
    準の発音表記を、発音表記毎に区切って比較する比較ス
    テップと、 前記比較ステップの処理における比較結果に対応する評
    価値を演算する演算ステップとを含むことを特徴とする
    コンピュータが読み取り可能なプログラムが記録されて
    いる記録媒体。
  6. 【請求項6】 前記発音表記は、任意に定義されたもの
    であることを特徴とする請求項5に記載の記録媒体。
  7. 【請求項7】 前記発音表記は、ローマ字であることを
    特徴とする請求項5に記載の記録媒体。
  8. 【請求項8】 前記発音表記は、ひらがなであることを
    特徴とする請求項5に記載の記録媒体。
JP24427599A 1999-08-31 1999-08-31 音声認識結果評価装置および記録媒体 Pending JP2001067096A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24427599A JP2001067096A (ja) 1999-08-31 1999-08-31 音声認識結果評価装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24427599A JP2001067096A (ja) 1999-08-31 1999-08-31 音声認識結果評価装置および記録媒体

Publications (1)

Publication Number Publication Date
JP2001067096A true JP2001067096A (ja) 2001-03-16

Family

ID=17116337

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24427599A Pending JP2001067096A (ja) 1999-08-31 1999-08-31 音声認識結果評価装置および記録媒体

Country Status (1)

Country Link
JP (1) JP2001067096A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015018238A (ja) * 2013-07-08 2015-01-29 インタラクションズ コーポレイション 自然言語理解のための自動音声認識プロキシシステム
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding
US9741347B2 (en) 2011-01-05 2017-08-22 Interactions Llc Automated speech recognition proxy system for natural language understanding
US10049676B2 (en) 2011-01-05 2018-08-14 Interactions Llc Automated speech recognition proxy system for natural language understanding
US10147419B2 (en) 2011-01-05 2018-12-04 Interactions Llc Automated recognition system for natural language understanding
US10810997B2 (en) 2011-01-05 2020-10-20 Interactions Llc Automated recognition system for natural language understanding
JP2015018238A (ja) * 2013-07-08 2015-01-29 インタラクションズ コーポレイション 自然言語理解のための自動音声認識プロキシシステム

Similar Documents

Publication Publication Date Title
US6801897B2 (en) Method of providing concise forms of natural commands
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US7143033B2 (en) Automatic multi-language phonetic transcribing system
JP3232289B2 (ja) 記号挿入装置およびその方法
US20020161580A1 (en) Two-way speech recognition and dialect system
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2007206317A (ja) オーサリング方法、オーサリング装置およびプログラム
JP2008164647A (ja) 発話分割方法、装置およびプログラム
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
JP6397641B2 (ja) 自動通訳装置及び方法
JP2010197644A (ja) 音声認識システム
JP2012003090A (ja) 音声認識装置および音声認識方法
JP2001067096A (ja) 音声認識結果評価装置および記録媒体
JP2003162524A (ja) 言語処理装置
JPS63149699A (ja) 音声入出力装置
JP2007535692A (ja) 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
JP7165439B2 (ja) ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP3526549B2 (ja) 音声認識装置、方法及び記録媒体
KR102267579B1 (ko) 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법
JP2008286921A (ja) キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体
JPH08110790A (ja) 音声認識装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031210