JP2005084102A - 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム - Google Patents
音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム Download PDFInfo
- Publication number
- JP2005084102A JP2005084102A JP2003312747A JP2003312747A JP2005084102A JP 2005084102 A JP2005084102 A JP 2005084102A JP 2003312747 A JP2003312747 A JP 2003312747A JP 2003312747 A JP2003312747 A JP 2003312747A JP 2005084102 A JP2005084102 A JP 2005084102A
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- information
- voice
- speech
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 547
- 238000000034 method Methods 0.000 title description 11
- 230000008451 emotion Effects 0.000 claims description 59
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000003780 insertion Methods 0.000 claims description 18
- 230000037431 insertion Effects 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 abstract description 100
- 230000015572 biosynthetic process Effects 0.000 abstract description 99
- 238000003786 synthesis reaction Methods 0.000 abstract description 99
- 230000002194 synthesizing effect Effects 0.000 abstract description 4
- 238000013441 quality evaluation Methods 0.000 description 35
- 238000010586 diagram Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 9
- 238000007619 statistical method Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 評価項目設定部11が音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する。音声合成パラメタ生成部12が評価用音声情報に対応する合成音を生成するためのパラメタを生成する。音声合成部13がパラメタに基づいて合成音を生成する。合成音出力部14が合成音を音声認識装置に出力する。認識結果取得部15が音声認識装置が合成音を認識した認識結果を音声認識装置から取得する。認識結果解析部16が評価項目と認識結果とを参照して、評価項目に対する音声認識装置の性能を評価する。
【選択図】 図1
Description
寺嶌立太、他、「HMM音声合成に基づく音声認識性能予測手法」、日本音響学会講演論文集2003年3月、pp159−pp160 松井、内藤、他、「地域や年齢的な広がりを考慮した大規模な日本語音声データベース」、日本音響学会講演論文集1999秋季、pp169−pp170
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、前記パラメタに基づいて合成音を生成する合成音生成手段と、前記合成音を前記音声認識装置に出力する出力手段と、前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるためのものである。
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるためのものである。
(第1の実施形態)
本実施形態の音声認識評価装置の各装置部分を図1を参照して説明する。図1は、本発明の第1の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部11は、ユーザから音声認識装置の評価項目の指定を受け付ける。評価項目は、音声認識装置が様々な形態の音声を取得してそれらを異なる音声として識別することが可能か否かを評価するためのものである。評価項目は、例えば、声質情報、語彙情報、言い淀みや不要語の挿入の有無情報、発声時の感情情報がある。声質情報は、例えば、話者の性別、話者の話す速度(話速)、話者の声の高さ、話者のイントネーションのつけ方がある。なお、本実施形態では評価項目として評価用音声情報である話者の性別、話速、声の高さの3つを用いて説明する。語彙情報については第3の実施形態、言い淀みや不要語の挿入の有無情報については第4の実施形態、発声時の感情情報については第5の実施形態において説明する。しかし、本発明の実施形態の音声認識評価装置はこれらの評価項目に限らず、他の評価項目を用いることもできる。
解析結果提示部17は、認識結果解析部16から出力される解析結果をユーザに提示する。解析結果提示部17では、入力された解析結果をユーザが見やすい形式に整形し提示する。
まず、評価項目設定部11がユーザから評価項目の指定を受け付ける。評価項目設定部11は、評価用音声情報を音声合成パラメタ生成部12に出力する。音声合成パラメタ生成部12は評価用音声情報から音声合成パラメタを生成し、音声合成パラメタを音声合成部13に出力する。音声合成部13は音声合成パラメタから合成音を生成し、合成音を合成音出力部14に出力する。合成音出力部14は、音声認識装置に合成音を出力して、音声認識装置に合成音を認識させる。音声認識装置が認識した合成音の認識結果は、認識結果取得部15が取得し認識結果を認識結果解析部16に出力する。認識結果解析部16は認識結果を解析する。すなわち、ステップS1の評価項目と認識結果とを参照して、評価項目に対する音声認識装置の性能を評価する。その後、解析結果提示部17が認識結果解析部16による解析結果はユーザに提示する。解析結果を提示後、ユーザが再度、音声認識装置を評価するか否か判断して、評価する場合はステップS1に戻り、評価項目を変更したりして再度音声認識装置を評価し、評価しない場合は音声認識装置の評価を終了する。
評価項目設定部11は、声質評価項目入力部111、評価用音声情報生成部112、標準評価語彙セット113、及び声質評価項目バリエーション114を備えている。
声質評価項目入力部111はユーザから声質に関する評価項目の指定を入力して、声質に関する評価項目を評価用音声情報生成部112に出力する。
評価用音声情報生成部112は、声質評価項目入力部111から入力した評価項目に対して、評価項目ごとのバリエーションの情報である声質評価項目バリエーション114を参照し、評価項目ごとにバリエーションをもつ評価用音声の情報を生成する。さらに、評価用音声情報生成部112は、標準評価語彙セット113を参照しそこに格納されている語彙を利用して、評価用音声の語彙(発声内容)を生成する。そして、評価用音声情報生成部112は、ある音質の音声情報及び評価用音声の語彙を評価用音声情報として音声合成パラメタ生成部12に出力する。
標準評価語彙セット113は、音声認識装置を評価するための語彙を複数格納している。これらの語彙は、音声認識装置がしばしば入力すると期待される標準的な語彙であることが望ましい。声質評価項目バリエーション114は、評価項目ごとに対応して複数のバリエーションを格納している。声質評価項目バリエーション114の内容は後に図4を参照して説明する。
認識結果正解判定部161は、評価項目設定部11の標準評価語彙セット113から音声認識装置に入力した評価用音声の語彙を入力して、この語彙と認識結果取得部15で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を評価項目別認識率計算部162に出力する。
評価項目別認識率計算部162は、声質評価項目入力部111から出力された声質に関する評価項目の情報を参照し、正解又は不正解の情報が付与された認識結果に対して、評価項目別にそのバリエーションごとの認識率とその平均及び分散を求める。本実施形態では、「話者の性別」、「話速」、「声の高さ」のそれぞれの評価項目について、評価項目別認識率計算部162が評価項目のバリエーションごとの認識率及びその平均と分散を求めるが、その詳細は後に図6を参照して説明する。その後、評価項目別認識率計算部162はこれら認識率及び平均と分散を解析結果提示部17に出力する。
図4に示した例では、「話者の性別」1141(図4では「話者(性別)」)には6種類のバリエーションがあり、「話速」1142、「声の高さ」1143にはそれぞれ5種類のバリエーションがある。この3つ以外の評価項目に関しては、それぞれの評価項目のバリエーションの中から標準的なものを1つだけ選択し利用する。図4に示した例では、評価項目「イントネーション」1144には3種類のバリエーションが存在するが、ここでは、その中から「標準」のみを選択して利用する。また、音声認識装置が受理可能な語彙セット(グラマーと呼ぶ。以下では単に「グラマー」と表記する)に関しては、標準評価語彙セット113が予め格納している標準的なグラマーを利用する。この結果、ユーザが評価項目として「話者(性別)」、「話速」、「声の高さ」を指定した場合には、6×5×5=150通りのバリエーションをもつ評価用音声データが利用可能となる。評価項目設定部11は、ユーザから指定された評価項目の情報を、音声合成パラメタ生成部12に出力する。
図5の例では、評価項目「話者(性別)」には音声合成パラメタ「モデル」が対応し、評価項目「話者(性別)」のバリエーションである「男性A」〜「女性F」に対応して音声合成パラメタ「モデル」の設定値である「モデルA」〜「モデルF」を生成する。
評価項目「話速」には音声合成パラメタ「継続時間(ここでは1音素あたりの平均継続時間長を指す)」が対応し、評価項目「話速」のバリエーションに対応して音声合成パラメタ「継続時間」の設定値を「0.50」〜「2.00」の範囲で生成する。ここで、音声合成パラメタ「継続時間」の設定値は平均的な継続時間に対する比率を表しており、設定値が小さいほど1音素あたりの継続時間長が短い、すなわち話速が大きい、という関係となっている。
評価項目「声の高さ」には音声合成パラメタ「ピッチ」が対応し、評価項目「声の高さ」のバリエーションに対して音声合成パラメタ「ピッチ」の設定値を「2.00」〜「0.50」の範囲で生成する。ここで、音声合成パラメタ「ピッチ」は平均的なピッチに対する比率を表しており、設定値が大きいほどピッチが大きい、すなわち声が高い、という関係となっている。
第2の実施形態の音声認識評価装置は、音声特徴ベクトル合成部23及び特徴ベクトル出力部24のみが第1の実施形態の音声認識評価装置と異なる。その他は第1の実施形態に示した音声認識評価装置と同様である。図7は、本発明の第2の実施形態に関する音声認識評価装置のブロック図である。
第2の実施形態の音声認識評価装置は、音声特徴ベクトル合成部23において、合成音を出力するかわりに、評価対象である音声認識装置に入力することが可能な特徴ベクトル時系列を出力する。特徴ベクトル時系列は、例えば、LPCケプストラム(特徴量)である。LPCケプストラムは、例えば、「古井(著)、「音声情報処理」、森北出版株式会社」にその記載がある。音声特徴ベクトル合成部23は特徴ベクトル時系列を特徴ベクトル出力部24に出力する。特徴ベクトル出力部24は、入力された特徴ベクトル時系列を評価対象である音声認識装置に出力し、音声認識装置は入力された特徴ベクトル時系列を参照して音声認識処理を行う。
第3の実施形態の音声認識評価装置は、ユーザが指定する評価項目が他の実施形態と異なる。本実施形態では、ユーザは評価のためにグラマーを指定する。指定する評価項目が第1の実施形態と異なることに起因して、評価項目設定部31及び認識結果解析部36のみが第1の実施形態の音声認識評価装置と異なる。その他は第1の実施形態に示した音声認識評価装置と同様である。図8は本発明の第3の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部31は、音声認識装置の評価項目のうち、「音声認識装置が受理可能なグラマー」を受け付ける。ユーザは同時に、音声認識装置の評価に用いるグラマーを入力する。ここでは例として、「電源オン」、「電源オフ」という2つの語彙からなるグラマーを入力した場合について説明する。評価項目設定部31は、評価項目「グラマー」以外の評価項目のバリエーションを全て選択し、それらの情報を音声合成パラメタ生成部12に出力する。
評価項目設定部31は、評価語彙入力部311、評価用音声情報生成部312、及び声質評価項目バリエーション313を備えている。
評価語彙入力部311は、ユーザからグラマーに関する評価項目の指定を入力して、グラマーに関する評価項目を評価用音声情報生成部312に出力する。
評価用音声情報生成部312は、評価語彙入力部311から入力した評価項目に対して、声質の評価項目ごとのバリエーションの情報である声質評価項目バリエーション313を参照し、評価項目ごとにバリエーションをもつ評価用音声情報を生成する。
声質評価項目バリエーション313は、評価項目ごとに対応して複数のバリエーションを格納している。声質評価項目バリエーション313の内容は図4を参照して上述した。
認識結果正解判定部361は、評価項目設定部31の評価語彙入力部311に入力された評価語彙を入力して、この語彙と認識結果取得部15で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を評価語彙別誤り率計算部362に出力する。
評価語彙別誤り率計算部362は、評価語彙入力部311から出力された評価語彙の情報を参照し、正解又は不正解の情報が付与された認識結果に対して、評価項目別にそのバリエーションごとの誤り頻度を求めるが、その詳細は後に図10を参照して説明する。その後、評価語彙別誤り率計算部362は誤り頻度を解析結果提示部17に出力する。
評価用音声情報生成部312は、評価語彙入力部311から指定されたグラマーに対して、声質評価項目ごとのバリエーションの情報である声質評価項目バリエーション313を参照し、声質評価項目バリエーション313に格納されている全ての声質評価項目のバリエーションをもつ評価用音声の情報を生成する。すなわち、グラマーに含まれる単語ごとに、声質評価項目バリエーション313に格納されている「話者(性別)」、「話速」、「声の高さ」、及び「イントネーション」の全てのバリエーションをもつ評価用音声の情報を生成する。
第4の実施形態の音声認識評価装置は、ユーザが指定する評価項目が他の実施形態と異なる。本実施形態では、ユーザは人間による実発声において現れることがありうる言い淀みや不要語の挿入を、評価用データセットに含めるか否かを選択することができる。指定する評価項目が第1の実施形態と異なることに起因して、評価項目設定部41及び認識結果解析部46のみが第1の実施形態の音声認識評価装置と異なる。その他は第1の実施形態に示した音声認識評価装置と同様である。図11は本発明の第4の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部41は、音声認識装置の評価項目として、人間による実発声において現れる言い淀みや不要語の挿入を受け付ける。さらに、グラマーに対して、言い淀みや不要語の挿入が起こる位置と、その内容を指定できる。例えば、単語「つけて」の直前に言い淀みを挿入する、単語「電源」と単語「けして」の間に不要語「え〜と」を挿入する、というように指定することができる。言い淀みや不要語の挿入が起こる位置とその内容(「え〜と」など)を指定しない場合には、評価項目設定部41が予め格納している言い淀み、不要語のパターンのリストから適当なものを選択し、グラマー中の任意の位置に挿入する。挿入する位置やその内容はランダムに決定してもよいし、グラマー中で言い淀みや不要語の挿入が起こりやすい位置やその内容に関する統計的な情報を予め格納しておき、その情報をもとに挿入する位置と内容を決定してもよい。
評価項目設定部41は、評価語彙入力部411、不要語挿入部412、評価用音声情報生成部413、及び声質評価項目バリエーション414を備えている。
評価語彙入力部411は、音声認識装置が受理可能なグラマーの指定をユーザから受け付ける。不要語挿入部412は、不要語が挿入されたグラマーと挿入されていないグラマーを生成し、それらのグラマーを評価語彙として評価用音声情報生成部413に出力する。不要語挿入部412は、グラマーには含まれないが人間の実発声において現れる可能性の高い「え〜と」などの発声や言い淀みなどの不要語の発声内容と、グラマー中で不要語が挿入される位置を指定する。
声質評価項目バリエーション414は、評価項目ごとに対応して複数のバリエーションを格納している。声質評価項目バリエーション414の内容は第3の実施形態での声質評価項目バリエーション313と同様である。
認識結果正解判定部461は、評価項目設定部41の評価語彙入力部411に入力された評価語彙を入力して、この語彙と認識結果取得部15で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を不要語有無別誤り率計算部462に出力する。
不要語有無別誤り率計算部462は、評価語彙入力部411及び不要語挿入部412からそれぞれ出力された評価語彙及び不要語の内容と不要語の挿入位置の情報を参照し、正解又は不正解の情報が付与された認識結果に対して、評価項目別にそのバリエーションごとの誤り頻度を求めるが、その詳細は後に図13を参照して説明する。その後、不要語有無別誤り率計算部462は誤り率を解析結果提示部17に出力する。
評価項目設定部41は、ユーザが指定した評価項目やグラマーと共に、言い淀みや不要語が挿入される位置とその内容の情報を、音声合成パラメタ生成部12へ出力する。音声合成パラメタ生成部12では、入力された評価項目のバリエーションに対して、バリエーションに対応する音声合成パラメタを生成する。音声合成パラメタ生成部12は、生成した音声合成パラメタセットと、グラマー、言い淀みや不要語が挿入される位置とその内容を、音声合成部13に出力する。
さらに本実施形態では、認識結果解析部46において、言い淀みや不要語の挿入の有無に対する音声認識装置の性能を解析し、解析結果提示部17では、その解析結果をユーザが見やすい形式に整形して提示する。その例を図13に示す。図13は、不要語有無別誤り率計算部462が計算して求めた不要語の有無別の誤り率を示した図である。解析結果を図13のような形式で提示することにより、ユーザは、言い淀みや不要語の挿入の有無に対する音声認識装置の性能変動を容易に知ることができる。例えば図13の例では、言い淀みや不要語の挿入がある場合に、評価対象である音声認識装置の性能は大幅に低下することがわかる。
第4の実施形態の音声認識評価装置は、ユーザが指定する評価項目が他の実施形態と異なる。本実施形態では、発声時の感情を評価用データセットに含めるか否かを選択することができる。人間は通常、感情に依存して発声される音声も変化すると期待される。本実施形態では、感情に応じて変化した発声に対する音声認識装置の性能を評価するための音声認識評価装置を提供する。指定する評価項目が第1の実施形態と異なることに起因して、評価項目設定部51及び認識結果解析部56のみが第1の実施形態の音声認識評価装置と異なる。その他は第1の実施形態に示した音声認識評価装置と同様である。図14は本発明の第5の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部51は、音声認識評価装置の評価項目として、人間が発声する際の感情を受け付ける。ユーザは評価用音声データ発声時の感情を指定する。感情の評価項目としては、例えば、「怒り」、「喜び」、「悲しみ」がある。評価項目設定部51は、ユーザが指定した評価項目やグラマーと共に、発生時の感情の情報を音声合成パラメタ生成部12へ出力する。
評価項目設定部51は、感情情報入力部511、評価用音声情報生成部512、標準評価語彙セット513、及び声質評価項目バリエーション514を備えている。
感情情報入力部511は、評価項目として、発声時での感情の種類の指定をユーザから受付、評価用音声情報生成部512に発声時の感情の種類を出力する。評価用音声情報生成部512は、標準評価語彙セット513と声質評価項目バリエーション514を参照して、評価用音声情報を生成し、この評価用音声情報を音声合成パラメタ生成部12に出力する。評価用音声情報生成部512では、標準評価語彙セットに格納されているグラマーに対して、声質評価項目バリエーションを参照し、声質評価項目バリエーションに格納されている全ての声質評価項目のバリエーションをもつ評価用音声の情報を生成する。すなわち、グラマーに含まれる単語ごとに、声質評価項目バリエーションに格納されている「話者(性別)」、「話速」、「声の高さ」、「イントネーション」の全てのバリエーションをもつ評価用音声情報を生成する。そして、評価用音声情報生成部512は、感情情報入力部511から出力された発声時の感情の種類を参照し、感情の種類ごとに上記の評価用音声情報を生成するものとする。
認識結果正解判定部561は、評価項目設定部51の標準評価語彙セット513から音声認識装置に入力した評価用音声の語彙を入力して、この語彙と認識結果取得部15で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を感情情報別認識率計算部562に出力する。
評価項目設定部51は、ユーザが指定した評価項目やグラマーと共に、発生時の感情の情報を音声合成パラメタ生成部12に出力する。音声合成パラメタ生成部12は、声質に関する情報及び発声時の感情を参照して、それぞれの項目のバリエーションに対応する音声合成パラメタを生成する。音声合成パラメタ生成部12では、入力された評価項目のバリエーションに対して、バリエーションに対応する音声合成パラメタを生成する。その際に、感情音声合成の技術を利用して、評価項目設定部51で指定された感情に応じて音声合成パラメタを調整し、合成音に込める感情を指定するパラメタ(感情パラメタ)を付与する。音声合成パラメタ生成部12は、生成した音声合成パラメタセットと、必要ならば付与された感情パラメタとを、感情音声の合成が可能な音声合成部13に出力する。
Claims (36)
- 音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、
前記パラメタに基づいて合成音を生成する合成音生成手段と、
前記合成音を前記音声認識装置に出力する出力手段と、
前記音声認識装置が前記合成音を認識した認識結果を前記音声認識装置から取得する取得手段と、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段とを具備することを特徴とする音声認識評価装置。 - 前記音声情報生成手段は、
前記評価項目を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含み、前記パラメタを生成するための評価用音声情報を生成する生成手段とを具備することを特徴とする請求項1に記載の音声認識評価装置。 - 前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、評価項目の各音声情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項2に記載の音声認識評価装置。 - 前記音声情報生成手段は、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項1に記載の音声認識評価装置。 - 前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、評価項目の各語彙情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項4に記載の音声認識評価装置。 - 前記音声情報生成手段は、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報と、該語彙情報に含める無意味な言葉及びその挿入位置に関する無意味語情報とを取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報と前記無意味語情報を含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項1に記載の音声認識評価装置。 - 前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、語彙の発声中に無意味語が挿入されているか否かに対して認識率を算出する算出手段とを具備することを特徴とする請求項6に記載の音声認識評価装置。 - 前記音声情報生成手段は、
前記評価項目として、発声時の感情の種類を指定する感情情報を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項1に記載の音声認識評価装置。 - 前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、発声時の感情の種類ごとに認識率を算出する算出手段とを具備することを特徴とする請求項8に記載の音声認識評価装置。 - 音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、
前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、
前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、
前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段とを具備することを特徴とする音声認識評価装置。 - 前記音声情報生成手段は、性別による声質、話速、声の高さ、及び、イントネーションのうちの少なくとも1つを含んでいる評価項目を生成し、各評価項目は複数のバリエーションからなることを特徴とする請求項1から請求項10のいずれかに記載の音声認識評価装置。
- 前記評価手段の評価結果を提示する提示手段をさらに具備することを特徴とする請求項1から請求項11のいずれかに記載の音声認識評価装置。
- 音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成し、
前記評価用音声情報に対応する合成音を生成するためのパラメタを生成し、
前記パラメタに基づいて合成音を生成し、
前記合成音を前記音声認識装置に出力し、
前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得し、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価することを特徴とする音声認識評価方法。 - 前記評価用音声情報を生成することは、
前記評価項目を取得し、
複数の声質情報を格納し、
前記合成音を語彙の発声に対応させるための語彙情報を格納し、
前記評価項目に応じて前記声質格納手段から声質情報を選択し、
該声質情報と前記語彙情報とを含み、前記パラメタを生成するための評価用音声情報を生成することを特徴とする請求項13に記載の音声認識評価方法。 - 前記評価項目に対する前記音声認識装置の性能を評価することは、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
正解であるか否かの判定結果と前記評価項目とを参照して、評価項目の各音声情報に対して認識率を算出することを特徴とする請求項14に記載の音声認識評価方法。 - 前記評価用音声情報を生成することは、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報を取得し、
複数の声質情報を格納し、
前記評価項目に応じて声質情報を選択し、
該声質情報と前記語彙情報とを含む評価用音声情報を生成することを特徴とする請求項13に記載の音声認識評価方法。 - 前記評価項目に対する前記音声認識装置の性能を評価することは、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
正解であるか否かの判定結果と前記評価項目とを参照して、評価項目の各語彙情報に対して認識率を算出することを特徴とする請求項16に記載の音声認識評価方法。 - 前記評価用音声情報を生成することは、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報と該語彙情報に含める無意味な言葉及びその挿入位置に関する無意味語情報を取得し、
複数の声質情報を格納し、
前記評価項目に応じて前記声質格納手段から声質情報を選択し、
該声質情報と前記語彙情報と前記無意味語情報を含む評価用音声情報を生成することを特徴とする請求項13に記載の音声認識評価方法。 - 前記評価項目に対する前記音声認識装置の性能を評価することは、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
正解であるか否かの判定結果と前記評価項目とを参照して、語彙の発声中に無意味語が挿入されているか否かに対して認識率を算出することを特徴とする請求項18に記載の音声認識評価方法。 - 前記評価用音声情報を生成することは、
前記評価項目として、発声時の感情の種類を指定する感情情報を取得し、
複数の声質情報を格納し、
前記合成音を語彙の発声に対応させるための語彙情報を格納し、
前記評価項目に応じて前記声質格納手段から声質情報を選択し、
該声質情報と前記語彙情報とを含む評価用音声情報を生成することを特徴とする請求項13に記載の音声認識評価方法。 - 前記評価項目に対する前記音声認識装置の性能を評価することは、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
正解であるか否かの判定結果と前記評価項目とを参照して、発声時の感情の種類ごとに認識率を算出することを特徴とする請求項20に記載の音声認識評価方法。 - 音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成し、
前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成し、
前記パラメタに基づいて特徴ベクトル時系列を生成し、
前記特徴ベクトル時系列を前記音声認識装置に出力し、
前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得し、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価することを特徴とする音声認識評価方法。 - 前記評価用音声情報を生成することは、性別による声質、話速、声の高さ、及び、イントネーションのうちの少なくとも1つを含んでいる評価項目を生成し、各評価項目は複数のバリエーションからなることを特徴とする請求項13から請求項22のいずれかに記載の音声認識評価方法。
- 前記評価項目に対する前記音声認識装置の性能を評価する評価結果を提示することをさらに具備することを特徴とする請求項13から請求項23のいずれかに記載の音声認識評価方法。
- コンピュータを、
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、
前記パラメタに基づいて合成音を生成する合成音生成手段と、
前記合成音を前記音声認識装置に出力する出力手段と、
前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるための音声認識評価プログラム。 - 前記音声情報生成手段は、
前記評価項目を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含み、前記パラメタを生成するための評価用音声情報を生成する生成手段とを具備することを特徴とする請求項25に記載の音声認識評価プログラム。 - 前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、評価項目の各音声情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項26に記載の音声認識評価プログラム。 - 前記音声情報生成手段は、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項25に記載の音声認識評価プログラム。 - 前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、評価項目の各語彙情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項28に記載の音声認識評価プログラム。 - 前記音声情報生成手段は、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報と、該語彙情報に含める無意味な言葉及びその挿入位置に関する無意味語情報を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報と前記無意味語情報を含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項25に記載の音声認識評価プログラム。 - 前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、語彙の発声中に無意味語が挿入されているか否かに対して認識率を算出する算出手段とを具備することを特徴とする請求項30に記載の音声認識評価プログラム。 - 前記音声情報生成手段は、
前記評価項目として、発声時の感情の種類を指定する感情情報を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項25に記載の音声認識評価プログラム。 - 前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、発声時の感情の種類ごとに認識率を算出する算出手段とを具備することを特徴とする請求項32に記載の音声認識評価プログラム。 - コンピュータを、
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、
前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、
前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、
前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるための音声認識評価プログラム。 - 前記音声情報生成手段は、性別による声質、話速、声の高さ、及び、イントネーションのうちの少なくとも1つを含んでいる評価項目を生成し、各評価項目は複数のバリエーションからなることを特徴とする請求項25から請求項34のいずれかに記載の音声認識評価プログラム。
- 前記評価手段の評価結果を提示する提示手段をさらに具備することを特徴とする請求項25から請求項35のいずれかに記載の音声認識評価プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003312747A JP3984207B2 (ja) | 2003-09-04 | 2003-09-04 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
US10/931,998 US7454340B2 (en) | 2003-09-04 | 2004-09-02 | Voice recognition performance estimation apparatus, method and program allowing insertion of an unnecessary word |
CNB2004101038905A CN1311422C (zh) | 2003-09-04 | 2004-09-03 | 语音识别评价装置和语音识别评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003312747A JP3984207B2 (ja) | 2003-09-04 | 2003-09-04 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005084102A true JP2005084102A (ja) | 2005-03-31 |
JP3984207B2 JP3984207B2 (ja) | 2007-10-03 |
Family
ID=34413914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003312747A Expired - Fee Related JP3984207B2 (ja) | 2003-09-04 | 2003-09-04 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7454340B2 (ja) |
JP (1) | JP3984207B2 (ja) |
CN (1) | CN1311422C (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006113569A (ja) * | 2004-10-15 | 2006-04-27 | Microsoft Corp | 音声認識システムの音響モデルから生成された合成入力を用いた自動音声認識システムのテストおよび調整 |
JP2007199173A (ja) * | 2006-01-24 | 2007-08-09 | Asahi Kasei Corp | 評価用データ生成装置、認識性能分布情報生成装置およびシステム |
JP2007226117A (ja) * | 2006-02-27 | 2007-09-06 | Mitsubishi Electric Corp | 音声認識装置、音声認識プログラム、及び音声認識方法 |
KR100930039B1 (ko) * | 2007-12-18 | 2009-12-07 | 한국전자통신연구원 | 음성 인식기의 성능 평가 장치 및 그 방법 |
JP2010190995A (ja) * | 2009-02-16 | 2010-09-02 | Toshiba Corp | 音声処理装置、音声処理方法及び音声処理プログラム |
US9734821B2 (en) | 2015-06-30 | 2017-08-15 | International Business Machines Corporation | Testing words in a pronunciation lexicon |
KR20210128255A (ko) * | 2020-04-16 | 2021-10-26 | 주식회사 카카오엔터프라이즈 | 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8050918B2 (en) * | 2003-12-11 | 2011-11-01 | Nuance Communications, Inc. | Quality evaluation tool for dynamic voice portals |
WO2006006366A1 (ja) * | 2004-07-13 | 2006-01-19 | Matsushita Electric Industrial Co., Ltd. | ピッチ周波数推定装置およびピッチ周波数推定方法 |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
JP2007047412A (ja) * | 2005-08-09 | 2007-02-22 | Toshiba Corp | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 |
WO2007120418A2 (en) * | 2006-03-13 | 2007-10-25 | Nextwire Systems, Inc. | Electronic multilingual numeric and language learning tool |
EP2685451A3 (en) | 2006-04-03 | 2014-03-19 | Vocollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
US8234120B2 (en) * | 2006-07-26 | 2012-07-31 | Nuance Communications, Inc. | Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities |
US20110035215A1 (en) * | 2007-08-28 | 2011-02-10 | Haim Sompolinsky | Method, device and system for speech recognition |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
CN103366737B (zh) | 2012-03-30 | 2016-08-10 | 株式会社东芝 | 在自动语音识别中应用声调特征的装置和方法 |
CN103730117A (zh) * | 2012-10-12 | 2014-04-16 | 中兴通讯股份有限公司 | 一种自适应智能语音装置及方法 |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
WO2014199450A1 (ja) * | 2013-06-11 | 2014-12-18 | 株式会社東芝 | 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム |
CN104732968B (zh) * | 2013-12-20 | 2018-10-02 | 上海携程商务有限公司 | 语音操控系统的评价系统及方法 |
JP6580882B2 (ja) | 2015-06-24 | 2019-09-25 | 株式会社東芝 | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム |
CN105336342B (zh) * | 2015-11-17 | 2019-05-28 | 科大讯飞股份有限公司 | 语音识别结果评价方法及系统 |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
CN106448701B (zh) * | 2016-08-30 | 2019-10-25 | 河北师范大学 | 一种声乐综合训练系统 |
JP6585022B2 (ja) * | 2016-11-11 | 2019-10-02 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
JP7073640B2 (ja) * | 2017-06-23 | 2022-05-24 | カシオ計算機株式会社 | 電子機器、感情情報取得システム、プログラム及び感情情報取得方法 |
CN107403629B (zh) * | 2017-08-16 | 2020-10-09 | 歌尔股份有限公司 | 远场拾音性能评价方法和系统、电子设备 |
US10553203B2 (en) * | 2017-11-09 | 2020-02-04 | International Business Machines Corporation | Training data optimization for voice enablement of applications |
US10565982B2 (en) * | 2017-11-09 | 2020-02-18 | International Business Machines Corporation | Training data optimization in a service computing system for voice enablement of applications |
US10636423B2 (en) * | 2018-02-21 | 2020-04-28 | Motorola Solutions, Inc. | System and method for managing speech recognition |
CN108986811B (zh) * | 2018-08-31 | 2021-05-28 | 北京新能源汽车股份有限公司 | 一种语音识别的检测方法、装置和设备 |
KR102020773B1 (ko) * | 2019-04-04 | 2019-11-04 | 미디어젠(주) | 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템 |
CN110417589B (zh) * | 2019-07-23 | 2022-11-29 | 徐州工程学院 | 一种车载语音云用户体验质量路测方法 |
FR3102603A1 (fr) * | 2019-10-24 | 2021-04-30 | Psa Automobiles Sa | Procédé et dispositif d’évaluation d’un système de reconnaissance vocale |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
CN1287657A (zh) * | 1998-08-17 | 2001-03-14 | 索尼株式会社 | 声音识别装置和方法、导航装置、便携电话装置以及信息处理装置 |
US6622121B1 (en) * | 1999-08-20 | 2003-09-16 | International Business Machines Corporation | Testing speech recognition systems using test data generated by text-to-speech conversion |
JP2001117581A (ja) * | 1999-10-22 | 2001-04-27 | Alpine Electronics Inc | 感情認識装置 |
JP2001338265A (ja) * | 2000-05-25 | 2001-12-07 | Fujitsu Ltd | パターン認識装置及び方法並びに当該装置及び方法を実現するコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。 |
WO2002049001A1 (fr) * | 2000-12-14 | 2002-06-20 | Sony Corporation | Dispositif d'extraction d'informations |
US20050049868A1 (en) * | 2003-08-25 | 2005-03-03 | Bellsouth Intellectual Property Corporation | Speech recognition error identification method and system |
-
2003
- 2003-09-04 JP JP2003312747A patent/JP3984207B2/ja not_active Expired - Fee Related
-
2004
- 2004-09-02 US US10/931,998 patent/US7454340B2/en not_active Expired - Fee Related
- 2004-09-03 CN CNB2004101038905A patent/CN1311422C/zh not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006113569A (ja) * | 2004-10-15 | 2006-04-27 | Microsoft Corp | 音声認識システムの音響モデルから生成された合成入力を用いた自動音声認識システムのテストおよび調整 |
JP2007199173A (ja) * | 2006-01-24 | 2007-08-09 | Asahi Kasei Corp | 評価用データ生成装置、認識性能分布情報生成装置およびシステム |
JP2007226117A (ja) * | 2006-02-27 | 2007-09-06 | Mitsubishi Electric Corp | 音声認識装置、音声認識プログラム、及び音声認識方法 |
KR100930039B1 (ko) * | 2007-12-18 | 2009-12-07 | 한국전자통신연구원 | 음성 인식기의 성능 평가 장치 및 그 방법 |
JP2010190995A (ja) * | 2009-02-16 | 2010-09-02 | Toshiba Corp | 音声処理装置、音声処理方法及び音声処理プログラム |
US8650034B2 (en) | 2009-02-16 | 2014-02-11 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product for speech processing |
US9734821B2 (en) | 2015-06-30 | 2017-08-15 | International Business Machines Corporation | Testing words in a pronunciation lexicon |
US10373607B2 (en) | 2015-06-30 | 2019-08-06 | International Business Machines Corporation | Testing words in a pronunciation lexicon |
KR20210128255A (ko) * | 2020-04-16 | 2021-10-26 | 주식회사 카카오엔터프라이즈 | 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치 |
KR102386635B1 (ko) | 2020-04-16 | 2022-04-14 | 주식회사 카카오엔터프라이즈 | 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20050086055A1 (en) | 2005-04-21 |
CN1311422C (zh) | 2007-04-18 |
US7454340B2 (en) | 2008-11-18 |
CN1619643A (zh) | 2005-05-25 |
JP3984207B2 (ja) | 2007-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3984207B2 (ja) | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム | |
JP4539537B2 (ja) | 音声合成装置,音声合成方法,およびコンピュータプログラム | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP4125362B2 (ja) | 音声合成装置 | |
US20090281807A1 (en) | Voice quality conversion device and voice quality conversion method | |
JP5149107B2 (ja) | 音響処理装置およびプログラム | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
JP2006201749A (ja) | 音声による選択装置、及び選択方法 | |
JP2018072650A (ja) | 音声対話装置及び音声対話方法 | |
JP6464703B2 (ja) | 会話評価装置およびプログラム | |
JP2007140200A (ja) | 語学学習装置およびプログラム | |
JP4564416B2 (ja) | 音声合成装置および音声合成プログラム | |
JP2004325635A (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP3706112B2 (ja) | 音声合成装置及びコンピュータプログラム | |
Savchenko | Semi-automated Speaker Adaptation: How to Control the Quality of Adaptation? | |
JP4778402B2 (ja) | 休止時間長算出装置及びそのプログラム、並びに音声合成装置 | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
Cen et al. | Generating emotional speech from neutral speech | |
JP4972660B2 (ja) | 音声学習装置及びプログラム | |
JP4631251B2 (ja) | メディア検索装置およびメディア検索プログラム | |
JP6163454B2 (ja) | 音声合成装置、その方法及びプログラム | |
JP4313724B2 (ja) | 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 | |
Percybrooks et al. | Voice conversion with linear prediction residual estimaton |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070705 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100713 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100713 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110713 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |