JP2005084102A

JP2005084102A - 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム

Info

Publication number: JP2005084102A
Application number: JP2003312747A
Authority: JP
Inventors: Masaru Sakai; 優酒井; Hiroshi Kanazawa; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-09-04
Filing date: 2003-09-04
Publication date: 2005-03-31
Anticipated expiration: 2023-09-04
Also published as: US20050086055A1; CN1311422C; US7454340B2; CN1619643A; JP3984207B2

Abstract

【課題】評価用音声データを予め用意する必要がなく、かつ、評価項目ごとの音声認識装置の性能評価が容易であり、少ない時間と少ないコストで評価が可能。
【解決手段】評価項目設定部１１が音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する。音声合成パラメタ生成部１２が評価用音声情報に対応する合成音を生成するためのパラメタを生成する。音声合成部１３がパラメタに基づいて合成音を生成する。合成音出力部１４が合成音を音声認識装置に出力する。認識結果取得部１５が音声認識装置が合成音を認識した認識結果を音声認識装置から取得する。認識結果解析部１６が評価項目と認識結果とを参照して、評価項目に対する音声認識装置の性能を評価する。
【選択図】図１

Description

本発明は、音声を認識する音声認識装置の性能を評価する音声認識評価装置、音声認識評価方法、及び音声認識評価プログラムに関する。

音声認識装置の開発では、音声認識装置が期待通りの性能を発揮するかどうかを評価することが不可欠である。音声認識装置の性能評価は、音声認識装置に様々な条件下で録音された音声データを入力し、それに対する認識結果を解析することで行われる。例えば、音声認識装置の認識率を解析することで、音声認識装置が良好な性能を発揮できるような条件を知ることができ、その条件における具体的な性能も認識率という数値として知ることができる（例えば、非特許文献１参照）。さらに、音声認識装置が期待通りの性能を発揮しない場合は、誤認識結果の傾向を解析することで、音声認識装置が期待通りの性能を発揮できない原因の詳細を探ることができ、その原因を性能改善の手がかりとして利用することができる。

音声認識装置を評価する際の評価項目には様々なものがあるが、代表的なものとして以下の３つがある。すなわち、（１）音声認識装置が受理可能な語彙セットのバリエーション、（２）話者に起因するバリエーション（話者の性別、話者の話す速度、話者の声の高さ、その他（話者のイントネーションのつけ方、訛りなど））、（３）環境に起因するバリエーション（周囲の雑音、マイクの特性、その他（伝送系の特性、など））である。音声認識装置の評価では、上で挙げた様々な評価項目について、条件が異なる多数の音声データを音声認識装置に入力し、それぞれの項目におけるバリエーションに対して音声認識装置が良好な性能を示すか否かを確認する。理想的な音声認識装置は、どのような条件でも良好な性能を示し、条件の違いに対する性能差が小さいものである。

音声認識装置を評価する際には、前述の評価項目を様々な視点から使い分ける。音声認識装置を評価する視点も様々であるが、代表的な視点は以下の２通りである。（１）様々な評価項目に対する音声認識装置の全般的な性能を調べる、という視点である（例えば、非特許文献２参照）。音声認識装置の基本性能を評価するような場合には、あらゆる評価項目について音声認識装置を評価する必要がある。（２）ある特定の条件における音声認識装置の性能を調べる、という視点である。特定の用途における音声認識装置の性能を評価する場合には、その用途においてバリエーションをもたない、すなわち固定することができる評価項目を除き、他の評価項目のバリエーションに対する音声認識装置の性能を調べる。例えば、「音声認識装置が受理可能な語彙セットが固定」かつ「男性話者専用」である音声認識装置の評価では、語彙セットと話者の性別を固定した上で、その他の評価項目のバリエーションに対する音声認識装置の性能を評価する。一般に、音声認識装置の用途によって評価すべき項目は異なる。

以上に説明したような視点から音声認識装置を評価する方法は、以下の通りである。（１）様々な評価項目に対する音声認識装置の全般的な性能を調べる場合には、あらゆる評価項目について、それらのバリエーションを十分にカバーする大規模な評価用音声データセットを用意する必要がある。評価用音声データセットの評価項目ごとのバリエーションを調べた上で、音声認識装置の認識結果をもとに、それらのバリエーションに対する認識性能を統計的な手法などを用いて求めることで、あらゆる評価項目ごとの性能を調べることができる。（２）ある特定の条件における音声認識装置の性能を調べる場合には、その特定の条件において考慮すべき評価項目のバリエーションをカバーできるような評価用音声データセットを準備する、あるいは新規に収録する必要がある。特に、音声認識装置が受理可能な語彙セットの設計を変更した場合には、語彙セットに含まれる語彙を発声した音声データを新たに収録する必要がある。評価データセットの評価項目ごとのバリエーションを調べた上で、それらのバリエーションに対する認識性能を統計的な手法などを用いて求めることで、ある特定の条件における評価項目ごとの性能を調べることができる。
寺嶌立太、他、「ＨＭＭ音声合成に基づく音声認識性能予測手法」、日本音響学会講演論文集２００３年３月、ｐｐ１５９−ｐｐ１６０松井、内藤、他、「地域や年齢的な広がりを考慮した大規模な日本語音声データベース」、日本音響学会講演論文集１９９９秋季、ｐｐ１６９−ｐｐ１７０

前述のように、音声認識装置を評価するためには、評価の視点に応じた評価用音声データセットを用意する必要がある。しかし、そのような評価用音声データセットを用意するための音声データベースの収録には多大な時間とコストが必要である。

まず、（１）様々な評価項目に対する音声認識装置の全般的な性能を調べる場合では、あらゆる評価項目のバリエーションをカバーできるような大規模な評価用音声データセットを構築するためのコストが非常に大きい。構築できたとしても、構築時には想定していなかった評価項目についても評価することができるようにする場合や、ある評価項目についてそのバリエーションを増やしたい場合には、評価用音声データの新規収録又は追加収録が必要となり、さらなる時間とコストがかかる。

また、（２）ある特定の条件における音声認識装置の性能を調べる場合でも、評価したい特定の条件において考慮すべき評価項目のバリエーションをカバーできる評価用音声データセットが存在しない場合には、音声データを新規収録する必要があり、やはり時間とコストが非常に大きい。このように、音声認識装置の評価では、評価用音声データを用意するためのかかる時間及びコストが非常に大きいという問題がある。

既に存在する評価用音声データセットに対して人工的に変動を加えることで、様々な評価項目のバリエーションをカバーする評価用音声データセットを人工的に作成する方法が考えられる。環境に起因する評価項目（雑音、マイク特性、など）については、雑音を重畳する、評価用音声データにマイク特性を畳み込むなどの処理によって、それらのバリエーションを増やすことが比較的容易に可能である。しかし、既存の評価用音声データの話速や声の高さを人工的に変動させることは非常に難しく、話者の性別や発声内容を人工的に変動させることは不可能であるため、それらのバリエーションを人工的に増やすことは不可能である。したがって、既に存在する評価用音声データセットに対して人工的に変動を加える方法では、前述の問題を解決することはできない。

本発明は、上述した従来の技術に鑑み、評価用音声データを予め用意する必要がなく、かつ、評価項目ごとの音声認識装置の性能評価が容易であり、少ない時間と少ないコストで評価が可能な音声認識評価装置、音声認識評価方法、及び音声認識評価プログラムを提供する。

本発明の音声認識評価装置は、音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、前記パラメタに基づいて合成音を生成する合成音生成手段と、前記合成音を前記音声認識装置に出力する出力手段と、前記音声認識装置が前記合成音を認識した認識結果を前記音声認識装置から取得する取得手段と、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段とを具備することを特徴とする。

また、本発明の音声認識評価装置は、音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段とを具備することを特徴とする。

本発明の音声認識評価方法は、音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成し、前記評価用音声情報に対応する合成音を生成するためのパラメタを生成し、前記パラメタに基づいて合成音を生成し、前記合成音を前記音声認識装置に出力し、前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得し、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価することを特徴とする。

また、本発明の音声認識評価方法は、音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成し、前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成し、前記パラメタに基づいて特徴ベクトル時系列を生成し、前記特徴ベクトル時系列を前記音声認識装置に出力し、前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得し、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価することを特徴とする。

本発明の音声認識評価プログラムは、コンピュータを、
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、前記パラメタに基づいて合成音を生成する合成音生成手段と、前記合成音を前記音声認識装置に出力する出力手段と、前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるためのものである。

また、本発明の音声認識評価プログラムは、コンピュータを、
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるためのものである。

本発明の音声認識評価装置、音声認識評価方法、及び音声認識評価プログラムによれば、評価用音声データを用意する必要がなく、かつ、少ない時間と少ないコストで評価項目ごとの音声認識装置の性能評価が容易になる。

以下、図面を参照して本発明の実施形態に関する音声認識評価装置、音声認識評価方法、及び音声認識評価プログラムを説明する。本発明の実施形態では、音声合成部から出力される合成音を用いて音声認識装置を評価する装置を提案する。音声合成部は、以下の条件を満たすものとする。パラメタを調整することで、任意の語彙セットのバリエーションをカバーする合成音、話者に起因する評価項目のバリエーションをカバーする合成音を出力することができる。このような音声合成部により出力された合成音を評価用音声データセットとして用いることで、任意の評価項目について、音声認識装置の性能を評価することができる。以下、本発明の実施形態をより詳細に説明する。
（第１の実施形態）
本実施形態の音声認識評価装置の各装置部分を図１を参照して説明する。図１は、本発明の第１の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部１１は、ユーザから音声認識装置の評価項目の指定を受け付ける。評価項目は、音声認識装置が様々な形態の音声を取得してそれらを異なる音声として識別することが可能か否かを評価するためのものである。評価項目は、例えば、声質情報、語彙情報、言い淀みや不要語の挿入の有無情報、発声時の感情情報がある。声質情報は、例えば、話者の性別、話者の話す速度（話速）、話者の声の高さ、話者のイントネーションのつけ方がある。なお、本実施形態では評価項目として評価用音声情報である話者の性別、話速、声の高さの３つを用いて説明する。語彙情報については第３の実施形態、言い淀みや不要語の挿入の有無情報については第４の実施形態、発声時の感情情報については第５の実施形態において説明する。しかし、本発明の実施形態の音声認識評価装置はこれらの評価項目に限らず、他の評価項目を用いることもできる。

音声合成パラメタ生成部１２は、評価項目設定部１１で指定された評価項目ごとのバリエーションに対して、バリエーションに対応する音声合成パラメタを生成する。この音声合成パラメタは各バリエーションに対応する合成音を生成するためのものである。音声合成パラメタの生成は、ある評価項目に対応する音声合成パラメタについて、評価項目のバリエーションに対応する音声合成パラメタの設定値を生成することで行う。音声合成パラメタの生成については後に図５を参照して具体例を挙げて詳細に説明する。

音声合成部１３は、音声合成パラメタ生成部１２から出力される音声合成パラメタに基づいて音声合成処理を行う。音声合成処理は、入力された音声合成パラメタの設定値の組合せごとに、評価項目設定部１１が予め格納している標準的な語彙セット（後述する図３の１１３）に含まれる全ての語彙を読み上げる音声を合成する。その後、音声合成部１３は合成音を合成音出力部１４に出力する。

合成音出力部１４は、音声合成部１３で生成された合成音を、評価対象である音声認識装置に出力する。音声認識装置は合成音を入力として認識処理を行う。認識結果取得部１５は、合成音出力部１４から出力された合成音に対する音声認識装置の認識結果を取得し、認識結果解析部１６に出力する。

認識結果解析部１６は、認識結果取得部１５から出力される音声認識装置の認識結果及び評価項目設定部１１から出力される評価項目を入力として、評価項目設定部１１で指定された評価項目に対する音声認識装置の性能を解析する。認識結果解析部１６は、入力された認識結果が正解であるか不正解であるかを判定し、その判定結果を順次保存する。その際に、入力された認識結果に対応する評価項目とそのバリエーションに関する情報を認識結果と一緒に保存する。音声合成部１３が、音声合成パラメタ生成部１２が出力した音声合成パラメタセットに対応する全ての合成音の出力を完了し、それに対応する音声認識装置の全ての認識結果が得られた後で、認識結果解析部１６は評価項目設定部１１で指定された評価項目に対する音声認識装置の性能を統計的な手法を用いて解析する。認識結果解析部１６は、その解析結果を解析結果提示部１７に出力する。
解析結果提示部１７は、認識結果解析部１６から出力される解析結果をユーザに提示する。解析結果提示部１７では、入力された解析結果をユーザが見やすい形式に整形し提示する。

次に、図１の音声認識評価装置で実行される動作を図２を参照して説明する。図２は、本発明の第１の実施形態に関する音声認識評価方法のフロー図である。
まず、評価項目設定部１１がユーザから評価項目の指定を受け付ける。評価項目設定部１１は、評価用音声情報を音声合成パラメタ生成部１２に出力する。音声合成パラメタ生成部１２は評価用音声情報から音声合成パラメタを生成し、音声合成パラメタを音声合成部１３に出力する。音声合成部１３は音声合成パラメタから合成音を生成し、合成音を合成音出力部１４に出力する。合成音出力部１４は、音声認識装置に合成音を出力して、音声認識装置に合成音を認識させる。音声認識装置が認識した合成音の認識結果は、認識結果取得部１５が取得し認識結果を認識結果解析部１６に出力する。認識結果解析部１６は認識結果を解析する。すなわち、ステップＳ１の評価項目と認識結果とを参照して、評価項目に対する音声認識装置の性能を評価する。その後、解析結果提示部１７が認識結果解析部１６による解析結果はユーザに提示する。解析結果を提示後、ユーザが再度、音声認識装置を評価するか否か判断して、評価する場合はステップＳ１に戻り、評価項目を変更したりして再度音声認識装置を評価し、評価しない場合は音声認識装置の評価を終了する。

ここで、図１の評価項目設定部１１及び認識結果解析部１６を図３を参照して詳細に説明する。図３は、図１の評価項目設定部１１及び認識結果解析部１６のブロック図である。
評価項目設定部１１は、声質評価項目入力部１１１、評価用音声情報生成部１１２、標準評価語彙セット１１３、及び声質評価項目バリエーション１１４を備えている。
声質評価項目入力部１１１はユーザから声質に関する評価項目の指定を入力して、声質に関する評価項目を評価用音声情報生成部１１２に出力する。
評価用音声情報生成部１１２は、声質評価項目入力部１１１から入力した評価項目に対して、評価項目ごとのバリエーションの情報である声質評価項目バリエーション１１４を参照し、評価項目ごとにバリエーションをもつ評価用音声の情報を生成する。さらに、評価用音声情報生成部１１２は、標準評価語彙セット１１３を参照しそこに格納されている語彙を利用して、評価用音声の語彙（発声内容）を生成する。そして、評価用音声情報生成部１１２は、ある音質の音声情報及び評価用音声の語彙を評価用音声情報として音声合成パラメタ生成部１２に出力する。
標準評価語彙セット１１３は、音声認識装置を評価するための語彙を複数格納している。これらの語彙は、音声認識装置がしばしば入力すると期待される標準的な語彙であることが望ましい。声質評価項目バリエーション１１４は、評価項目ごとに対応して複数のバリエーションを格納している。声質評価項目バリエーション１１４の内容は後に図４を参照して説明する。

また、認識結果解析部１６は、認識結果正解判定部１６１と評価項目別認識率計算部１６２とを備えている。
認識結果正解判定部１６１は、評価項目設定部１１の標準評価語彙セット１１３から音声認識装置に入力した評価用音声の語彙を入力して、この語彙と認識結果取得部１５で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を評価項目別認識率計算部１６２に出力する。
評価項目別認識率計算部１６２は、声質評価項目入力部１１１から出力された声質に関する評価項目の情報を参照し、正解又は不正解の情報が付与された認識結果に対して、評価項目別にそのバリエーションごとの認識率とその平均及び分散を求める。本実施形態では、「話者の性別」、「話速」、「声の高さ」のそれぞれの評価項目について、評価項目別認識率計算部１６２が評価項目のバリエーションごとの認識率及びその平均と分散を求めるが、その詳細は後に図６を参照して説明する。その後、評価項目別認識率計算部１６２はこれら認識率及び平均と分散を解析結果提示部１７に出力する。

図３の声質評価項目バリエーション１１４の内容を図４を参照して説明する。図４は、図３の声質評価項目バリエーション１１４に格納されている情報を示す。評価項目設定部１１の中にある声質評価項目バリエーション１１４は、予め用意されている評価項目ごとのバリエーションの情報を格納している。
図４に示した例では、「話者の性別」１１４１（図４では「話者（性別）」）には６種類のバリエーションがあり、「話速」１１４２、「声の高さ」１１４３にはそれぞれ５種類のバリエーションがある。この３つ以外の評価項目に関しては、それぞれの評価項目のバリエーションの中から標準的なものを１つだけ選択し利用する。図４に示した例では、評価項目「イントネーション」１１４４には３種類のバリエーションが存在するが、ここでは、その中から「標準」のみを選択して利用する。また、音声認識装置が受理可能な語彙セット（グラマーと呼ぶ。以下では単に「グラマー」と表記する）に関しては、標準評価語彙セット１１３が予め格納している標準的なグラマーを利用する。この結果、ユーザが評価項目として「話者（性別）」、「話速」、「声の高さ」を指定した場合には、６×５×５＝１５０通りのバリエーションをもつ評価用音声データが利用可能となる。評価項目設定部１１は、ユーザから指定された評価項目の情報を、音声合成パラメタ生成部１２に出力する。

上述した図４のバリエーションに基づいて評価用音声情報生成部１１２が生成した評価用音声情報を音声合成パラメタ生成部１２が入力して生成する音声合成パラメタを図５を参照して説明する。図５は、図４のバリエーションごとに音声合成パラメタ生成部１２が生成した音声合成パラメタを示している。
図５の例では、評価項目「話者（性別）」には音声合成パラメタ「モデル」が対応し、評価項目「話者（性別）」のバリエーションである「男性Ａ」〜「女性Ｆ」に対応して音声合成パラメタ「モデル」の設定値である「モデルＡ」〜「モデルＦ」を生成する。
評価項目「話速」には音声合成パラメタ「継続時間（ここでは１音素あたりの平均継続時間長を指す）」が対応し、評価項目「話速」のバリエーションに対応して音声合成パラメタ「継続時間」の設定値を「０．５０」〜「２．００」の範囲で生成する。ここで、音声合成パラメタ「継続時間」の設定値は平均的な継続時間に対する比率を表しており、設定値が小さいほど１音素あたりの継続時間長が短い、すなわち話速が大きい、という関係となっている。
評価項目「声の高さ」には音声合成パラメタ「ピッチ」が対応し、評価項目「声の高さ」のバリエーションに対して音声合成パラメタ「ピッチ」の設定値を「２．００」〜「０．５０」の範囲で生成する。ここで、音声合成パラメタ「ピッチ」は平均的なピッチに対する比率を表しており、設定値が大きいほどピッチが大きい、すなわち声が高い、という関係となっている。

前述の３つの音声合成パラメタ以外のパラメタに関しては、評価項目のバリエーションのうち標準的なものに対応する設定値をひとつだけ生成して、その設定値を用いる。図５の例では、評価項目「イントネーション」のバリエーションのひとつである「標準」に対して、音声合成パラメタ「韻律パターン」の設定値「標準韻律パターン」を生成する。他の評価項目、音声合成パラメタが存在する場合も同様である。ここで、音声合成部１３の合成精度が優れず、評価項目のバリエーションの大きさが小さいものを再現できない場合がある。このように評価項目のバリエーションの大きさが音声合成部１３の性能に制限されることを防ぐために、音声合成パラメタの設定値を大きめに変動させて設定するという制御を行うようにしてもよい。

このようにして、ユーザが指定した評価項目「話者（性別）」、「話速」、「声の高さ」のバリエーションの組合せによる１５０通りの評価音声データを合成するために必要な、音声合成パラメタ「モデル」、「継続時間」、「ピッチ」の異なる設定値及び他の音声合成パラメタの標準的な設定値を組み合わせた１５０通りの音声合成パラメタセットを生成する。音声合成パラメタ生成部１２は、生成した音声合成パラメタセットを音声合成部１３に出力する。

次に、図５に示した音声合成パラメタ生成部１２が生成したパラメタを基にして生成した合成音を音声認識装置に出力して取得した認識結果を認識結果解析部１６が解析して、解析結果提示部１７に提示する解析結果を図６を参照して説明する。図６は、図５のパラメタを基にして解析した解析結果を示した図である。

図６の例では、評価項目設定部１１で指定された評価項目「話者（性別）」、「話速」、「声の高さ」のそれぞれについて、そのバリエーションに対する認識率とその平均値、バリエーションに対する分散をユーザに提示している。解析結果を図６のような形式で提示することにより、ユーザは下記のようなことを容易に理解することができる。すなわち、「話者（性別）」については、男性Ｃの認識率が他に比べて低いことから、音声認識装置が特定の話者に対して十分な性能を発揮しない場合があることがわかる。「話速」については、そのバリエーションに対する認識率の分散が他の評価項目に比べて大きく、話速が遅くなるほど認識率が上昇することから、音声認識装置の性能が話速の変動に影響を受けやすく、話速が遅い（すなわち、ゆっくりと喋る）ほど良好な性能を示す傾向にあることがわかる。「声の高さ」については、そのバリエーションに対する認識率の分散が他の評価項目に比べて極めて小さいことから、音声認識装置の性能は声の高さにはほとんど全く影響を受けないことがわかる。音声認識装置の平均的な性能は、認識率の平均を参照することでわかる。

本実施形態で説明したように、本実施形態の音声認識評価装置を用いることで、ユーザが評価用音声データセットを用意するための時間及びコストを小さくすることができる。また、評価項目に対する音声認識装置の性能を容易に知ることができる。

（第２の実施形態）
第２の実施形態の音声認識評価装置は、音声特徴ベクトル合成部２３及び特徴ベクトル出力部２４のみが第１の実施形態の音声認識評価装置と異なる。その他は第１の実施形態に示した音声認識評価装置と同様である。図７は、本発明の第２の実施形態に関する音声認識評価装置のブロック図である。
第２の実施形態の音声認識評価装置は、音声特徴ベクトル合成部２３において、合成音を出力するかわりに、評価対象である音声認識装置に入力することが可能な特徴ベクトル時系列を出力する。特徴ベクトル時系列は、例えば、ＬＰＣケプストラム（特徴量）である。ＬＰＣケプストラムは、例えば、「古井（著）、「音声情報処理」、森北出版株式会社」にその記載がある。音声特徴ベクトル合成部２３は特徴ベクトル時系列を特徴ベクトル出力部２４に出力する。特徴ベクトル出力部２４は、入力された特徴ベクトル時系列を評価対象である音声認識装置に出力し、音声認識装置は入力された特徴ベクトル時系列を参照して音声認識処理を行う。

第２の実施形態の音声認識評価装置は、音声特徴ベクトル合成部２３及び特徴ベクトル出力部２４において、合成音ではなく合成音の代わりに、評価対象である音声認識装置に入力することが可能な特徴ベクトル時系列を出力することを特徴とする。一般に、音声認識装置に入力することが可能な特徴ベクトル時系列は合成音よりもデータサイズが小さくなる傾向がある。したがって、本実施形態の音声認識評価装置は、合成音ではなく特徴ベクトル時系列を用いることで、音声認識評価装置と評価対象である音声認識装置との間でのデータ入出力に必要な時間を短縮することができるという利点がある。

（第３の実施形態）
第３の実施形態の音声認識評価装置は、ユーザが指定する評価項目が他の実施形態と異なる。本実施形態では、ユーザは評価のためにグラマーを指定する。指定する評価項目が第１の実施形態と異なることに起因して、評価項目設定部３１及び認識結果解析部３６のみが第１の実施形態の音声認識評価装置と異なる。その他は第１の実施形態に示した音声認識評価装置と同様である。図８は本発明の第３の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部３１は、音声認識装置の評価項目のうち、「音声認識装置が受理可能なグラマー」を受け付ける。ユーザは同時に、音声認識装置の評価に用いるグラマーを入力する。ここでは例として、「電源オン」、「電源オフ」という２つの語彙からなるグラマーを入力した場合について説明する。評価項目設定部３１は、評価項目「グラマー」以外の評価項目のバリエーションを全て選択し、それらの情報を音声合成パラメタ生成部１２に出力する。

認識結果解析部３６では、入力された認識結果の正解又は不正解を判定し、その結果を順次保存する。認識結果解析部３６は評価項目設定部１１で指定されたグラマーに含まれる語彙について、ある語彙がどの語彙に誤認識されたかを解析する。認識結果解析部３６は、その解析結果を解析結果提示部１７に出力する。

次に、評価項目設定部３１及び認識結果解析部３６を図９を参照して詳細に説明する。図９は、図８の評価項目設定部３１及び認識結果解析部３６のブロック図である。
評価項目設定部３１は、評価語彙入力部３１１、評価用音声情報生成部３１２、及び声質評価項目バリエーション３１３を備えている。
評価語彙入力部３１１は、ユーザからグラマーに関する評価項目の指定を入力して、グラマーに関する評価項目を評価用音声情報生成部３１２に出力する。
評価用音声情報生成部３１２は、評価語彙入力部３１１から入力した評価項目に対して、声質の評価項目ごとのバリエーションの情報である声質評価項目バリエーション３１３を参照し、評価項目ごとにバリエーションをもつ評価用音声情報を生成する。
声質評価項目バリエーション３１３は、評価項目ごとに対応して複数のバリエーションを格納している。声質評価項目バリエーション３１３の内容は図４を参照して上述した。

また、認識結果解析部３６は、認識結果正解判定部３６１、及び評価語彙別誤り率計算部３６２を備えている。
認識結果正解判定部３６１は、評価項目設定部３１の評価語彙入力部３１１に入力された評価語彙を入力して、この語彙と認識結果取得部１５で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を評価語彙別誤り率計算部３６２に出力する。
評価語彙別誤り率計算部３６２は、評価語彙入力部３１１から出力された評価語彙の情報を参照し、正解又は不正解の情報が付与された認識結果に対して、評価項目別にそのバリエーションごとの誤り頻度を求めるが、その詳細は後に図１０を参照して説明する。その後、評価語彙別誤り率計算部３６２は誤り頻度を解析結果提示部１７に出力する。

以下、音声認識装置の評価項目として、音声認識装置が受理可能なグラマーとして「電源オン」、「電源オフ」という２つの語彙からなるグラマーの場合を例にとって、本実施形態の詳細を説明する。

ユーザはまず、評価項目設定部３１が提示する音声認識装置の評価項目のうち、「音声認識装置が受理可能なグラマー」を選択する。ユーザは同時に、音声認識装置の評価に用いるグラマーを評価語彙入力部３１１に入力する。
評価用音声情報生成部３１２は、評価語彙入力部３１１から指定されたグラマーに対して、声質評価項目ごとのバリエーションの情報である声質評価項目バリエーション３１３を参照し、声質評価項目バリエーション３１３に格納されている全ての声質評価項目のバリエーションをもつ評価用音声の情報を生成する。すなわち、グラマーに含まれる単語ごとに、声質評価項目バリエーション３１３に格納されている「話者（性別）」、「話速」、「声の高さ」、及び「イントネーション」の全てのバリエーションをもつ評価用音声の情報を生成する。

評価項目設定部３１は評価用音声情報を音声合成パラメタ生成部１２に出力する。音声合成パラメタ生成部１２では、評価項目ごとのバリエーションに対応する音声合成パラメタを生成する。

音声合成パラメタ生成部１２は、入力された評価項目のうち「グラマー」以外の評価項目ごとのバリエーションに対して、バリエーションに対応する音声合成パラメタを生成する。音声合成パラメタの生成方法は第１の実施形態と同様である。音声合成パラメタ生成部１２では、生成した音声合成パラメタセットと、ユーザが入力したグラマーを音声合成部１３に出力する。

音声合成部１３は、入力された音声合成パラメタに基づいて音声合成処理を行う。その際に、評価項目設定部１１でユーザが入力したグラマーに含まれる全ての語彙を読み上げる音声を合成する。前述の例では、全ての音声合成パラメタの設定値の組合せごとに「電源オン」、「電源オフ」という２発声分の音声を合成する処理を行う。音声合成部１３は、合成音を合成音出力部１４に出力する。

合成音出力部１４は、評価対象である音声認識装置に合成音を出力する。音声認識装置は合成音を入力として認識処理を行う。認識結果取得部１５は、評価対象である音声認識装置から出力される認識結果を取得し、認識結果解析部３６に出力する。

この例では、図１０の上段に示されるようにグラマーに含まれる「電源オン」、「電源オフ」のそれぞれの単語について、「電源オン」が「電源オフ」に誤って認識された頻度、及び、「電源オフ」が「電源オン」に誤って認識された頻度を求める。図１０は、評価語彙別誤り率計算部３６２が計算した解析結果であって、解析結果提示部１７がユーザに提示する解析結果を示した図である。

解析結果提示部１７では、入力された解析結果をユーザが見やすい形式に整形し、ユーザに提示する。その例を図１０の上段に示す。図１０の上段の例では、評価項目設定部３１で指定されたグラマーに含まれる語彙のそれぞれについて、誤認識された場合の語彙とその頻度をユーザに提示している。この頻度は語彙の総発声数に対する誤認識の発声回数である。解析結果を図１０のような形式で提示することにより、ユーザは、どの語彙がどの語彙に誤認識されやすいのかという傾向と、そのような誤認識の発生頻度を容易に知ることができる。例えば図１０の上段を見ると、語彙「電源オフ」は語彙「電源オン」に誤認識されるという強い傾向（偏り）があるが、その逆の傾向は無いことが容易にわかる。

ユーザは、解析結果提示部１７で提示された解析結果をもとにグラマーを変更し、グラマー以外の条件を変更せずに、前述までの処理を再実行することができる。そのような例として、グラマーを「電源つけて」、「電源けして」という２つの語彙からなるグラマーに変更して前述までの処理を再実行した場合の解析結果提示部１７の出力を図１０の下段に示す。図１０の下段の解析結果を見ると、図１０の上段に見られるような特定の誤認識傾向の偏りは存在しておらず、全ての語彙が同じ頻度で誤認識されていることがわかる。図１０の上段と下段（すなわち、グラマー修正前と修正後）の解析結果を比較することにより、ユーザは、図１０の上段において用いたグラマーに比べて、図１０の下段で用いたグラマーには特定の誤認識傾向の偏りが存在しないことを容易に知ることができる。

図１０に示すように、２つの異なるグラマーをそれぞれ用いて音声認識装置の性能の解析結果を出し、その結果得られた２つの解析結果を比較することで、２つのグラマー間の誤り傾向の差を容易に理解することができる。図１０の例では、ユーザは、「電源つけて」、「電源消して」という２つの単語から構成されるグラマーを用いた場合には、「電源オン」、「電源オフ」という２つの単語から構成されるグラマーを用いた場合に比べて、誤り率の偏りが小さくなることを容易に知ることができる。

本実施形態の音声認識評価装置を用いることで、ユーザは、音声認識装置が受理可能なグラマーについて、特定の誤認識傾向の偏りが存在するか否かを容易に知ることができる。また、複数のグラマーに対する音声認識装置の認識結果の比較も容易に行うことができる。

（第４の実施形態）
第４の実施形態の音声認識評価装置は、ユーザが指定する評価項目が他の実施形態と異なる。本実施形態では、ユーザは人間による実発声において現れることがありうる言い淀みや不要語の挿入を、評価用データセットに含めるか否かを選択することができる。指定する評価項目が第１の実施形態と異なることに起因して、評価項目設定部４１及び認識結果解析部４６のみが第１の実施形態の音声認識評価装置と異なる。その他は第１の実施形態に示した音声認識評価装置と同様である。図１１は本発明の第４の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部４１は、音声認識装置の評価項目として、人間による実発声において現れる言い淀みや不要語の挿入を受け付ける。さらに、グラマーに対して、言い淀みや不要語の挿入が起こる位置と、その内容を指定できる。例えば、単語「つけて」の直前に言い淀みを挿入する、単語「電源」と単語「けして」の間に不要語「え〜と」を挿入する、というように指定することができる。言い淀みや不要語の挿入が起こる位置とその内容（「え〜と」など）を指定しない場合には、評価項目設定部４１が予め格納している言い淀み、不要語のパターンのリストから適当なものを選択し、グラマー中の任意の位置に挿入する。挿入する位置やその内容はランダムに決定してもよいし、グラマー中で言い淀みや不要語の挿入が起こりやすい位置やその内容に関する統計的な情報を予め格納しておき、その情報をもとに挿入する位置と内容を決定してもよい。

認識結果解析部４６は、入力された認識結果の正解又は不正解を判定し、その結果を順次保存する。認識結果解析部４６は評価項目設定部４１で指定されたグラマーに含まれる語彙について、ある語彙がどの語彙に誤認識されたかを解析する。認識結果解析部４６は、その解析結果を解析結果提示部１７に出力する。

次に、評価項目設定部４１及び認識結果解析部４６を図１２を参照して詳細に説明する。図１２は、図１１の評価項目設定部４１及び認識結果解析部４６のブロック図である。
評価項目設定部４１は、評価語彙入力部４１１、不要語挿入部４１２、評価用音声情報生成部４１３、及び声質評価項目バリエーション４１４を備えている。
評価語彙入力部４１１は、音声認識装置が受理可能なグラマーの指定をユーザから受け付ける。不要語挿入部４１２は、不要語が挿入されたグラマーと挿入されていないグラマーを生成し、それらのグラマーを評価語彙として評価用音声情報生成部４１３に出力する。不要語挿入部４１２は、グラマーには含まれないが人間の実発声において現れる可能性の高い「え〜と」などの発声や言い淀みなどの不要語の発声内容と、グラマー中で不要語が挿入される位置を指定する。

評価用音声情報生成部４１３は、不要語挿入部４１２から入力した評価項目に対して、声質の評価項目ごとのバリエーションの情報である声質評価項目バリエーション４１４を参照し、評価項目ごとにバリエーションをもつ評価用音声情報を生成する。
声質評価項目バリエーション４１４は、評価項目ごとに対応して複数のバリエーションを格納している。声質評価項目バリエーション４１４の内容は第３の実施形態での声質評価項目バリエーション３１３と同様である。

また、認識結果解析部４６は、認識結果正解判定部４６１及び不要語有無別誤り率計算部４６２を備えている。
認識結果正解判定部４６１は、評価項目設定部４１の評価語彙入力部４１１に入力された評価語彙を入力して、この語彙と認識結果取得部１５で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を不要語有無別誤り率計算部４６２に出力する。
不要語有無別誤り率計算部４６２は、評価語彙入力部４１１及び不要語挿入部４１２からそれぞれ出力された評価語彙及び不要語の内容と不要語の挿入位置の情報を参照し、正解又は不正解の情報が付与された認識結果に対して、評価項目別にそのバリエーションごとの誤り頻度を求めるが、その詳細は後に図１３を参照して説明する。その後、不要語有無別誤り率計算部４６２は誤り率を解析結果提示部１７に出力する。

以下、本実施形態の全体の動作の流れを説明する。
評価項目設定部４１は、ユーザが指定した評価項目やグラマーと共に、言い淀みや不要語が挿入される位置とその内容の情報を、音声合成パラメタ生成部１２へ出力する。音声合成パラメタ生成部１２では、入力された評価項目のバリエーションに対して、バリエーションに対応する音声合成パラメタを生成する。音声合成パラメタ生成部１２は、生成した音声合成パラメタセットと、グラマー、言い淀みや不要語が挿入される位置とその内容を、音声合成部１３に出力する。

音声合成部１３は、入力された音声合成パラメタに基づいて音声合成処理を行う。その際に、ユーザが入力したグラマーに対して、言い淀みや不要語を挿入すべき位置に挿入した上で、グラマーに含まれる全ての語彙を読み上げる音声を合成する。この結果ユーザは、言い淀みや不要語が挿入された評価用音声データセットを容易に得ることができる。音声合成部１３は、合成音を合成音出力部１４に出力する。

合成音出力部１４、認識結果取得部１５、解析結果提示部１７は、第１の実施形態及び第３の実施形態と同様に動作する。ユーザが評価項目設定部４１において指定した評価項目に対しては第１の実施形態と同様に、グラマーに対しては第３の実施形態と同様に動作する。
さらに本実施形態では、認識結果解析部４６において、言い淀みや不要語の挿入の有無に対する音声認識装置の性能を解析し、解析結果提示部１７では、その解析結果をユーザが見やすい形式に整形して提示する。その例を図１３に示す。図１３は、不要語有無別誤り率計算部４６２が計算して求めた不要語の有無別の誤り率を示した図である。解析結果を図１３のような形式で提示することにより、ユーザは、言い淀みや不要語の挿入の有無に対する音声認識装置の性能変動を容易に知ることができる。例えば図１３の例では、言い淀みや不要語の挿入がある場合に、評価対象である音声認識装置の性能は大幅に低下することがわかる。

一般に、人間の発声者に言い淀みや不要語の挿入を意識して行ってもらうことは難しいが、本実施形態の音声認識評価装置を用いることで、言い淀みや不要語が挿入された評価用音声データセットを少ない時間及びコストで容易に得ることができる。また、本実施形態の音声認識評価装置を用いることで、ユーザは、人間による実発声において現れるであろう言い淀みや不要語の挿入に対して、音声認識装置がどれだけ頑健な認識性能を発揮できるかを容易に知ることができる。

（第５の実施形態）
第４の実施形態の音声認識評価装置は、ユーザが指定する評価項目が他の実施形態と異なる。本実施形態では、発声時の感情を評価用データセットに含めるか否かを選択することができる。人間は通常、感情に依存して発声される音声も変化すると期待される。本実施形態では、感情に応じて変化した発声に対する音声認識装置の性能を評価するための音声認識評価装置を提供する。指定する評価項目が第１の実施形態と異なることに起因して、評価項目設定部５１及び認識結果解析部５６のみが第１の実施形態の音声認識評価装置と異なる。その他は第１の実施形態に示した音声認識評価装置と同様である。図１４は本発明の第５の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部５１は、音声認識評価装置の評価項目として、人間が発声する際の感情を受け付ける。ユーザは評価用音声データ発声時の感情を指定する。感情の評価項目としては、例えば、「怒り」、「喜び」、「悲しみ」がある。評価項目設定部５１は、ユーザが指定した評価項目やグラマーと共に、発生時の感情の情報を音声合成パラメタ生成部１２へ出力する。

認識結果解析部５６は、入力された認識結果の正解又は不正解を判定し、その結果を順次保存する。認識結果解析部５６は感情情報入力部５１１で指定された感情について、その感情に応じて変化した発声が認識されたかを解析する。認識結果解析部５６は、その解析結果を解析結果提示部１７に出力する。

次に、評価項目設定部５１及び認識結果解析部５６を図１５を参照して詳細に説明する。図１５は、図１４の評価項目設定部５１及び認識結果解析部５６のブロック図である。
評価項目設定部５１は、感情情報入力部５１１、評価用音声情報生成部５１２、標準評価語彙セット５１３、及び声質評価項目バリエーション５１４を備えている。
感情情報入力部５１１は、評価項目として、発声時での感情の種類の指定をユーザから受付、評価用音声情報生成部５１２に発声時の感情の種類を出力する。評価用音声情報生成部５１２は、標準評価語彙セット５１３と声質評価項目バリエーション５１４を参照して、評価用音声情報を生成し、この評価用音声情報を音声合成パラメタ生成部１２に出力する。評価用音声情報生成部５１２では、標準評価語彙セットに格納されているグラマーに対して、声質評価項目バリエーションを参照し、声質評価項目バリエーションに格納されている全ての声質評価項目のバリエーションをもつ評価用音声の情報を生成する。すなわち、グラマーに含まれる単語ごとに、声質評価項目バリエーションに格納されている「話者（性別）」、「話速」、「声の高さ」、「イントネーション」の全てのバリエーションをもつ評価用音声情報を生成する。そして、評価用音声情報生成部５１２は、感情情報入力部５１１から出力された発声時の感情の種類を参照し、感情の種類ごとに上記の評価用音声情報を生成するものとする。

認識結果解析部５６は、認識結果正解判定部５６１及び感情情報別認識率計算部５６２を備えている。
認識結果正解判定部５６１は、評価項目設定部５１の標準評価語彙セット５１３から音声認識装置に入力した評価用音声の語彙を入力して、この語彙と認識結果取得部１５で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を感情情報別認識率計算部５６２に出力する。

感情情報別認識率計算部５６２は、感情情報入力部５１１から出力された発声時の感情の種類を参照し、正解又は不正解の情報が付与された認識結果に対して、感情の種類別に、感情に応じて変化した発声の認識率を求める。例えば図１６に示すように、「怒り」、「喜び」、「悲しみ」という３種の感情それぞれについて、それぞれの感情に応じて変化した発声の認識率を求める。そして、感情情報別認識率計算部５６２は、発声時の感情の種類別に求めた認識率を、発声時の感情の種類に応じて変化する発声に対する音声認識装置の性能の解析結果として解析結果提示部１７に出力する。

以下、本実施形態の全体の動作の流れを説明する。
評価項目設定部５１は、ユーザが指定した評価項目やグラマーと共に、発生時の感情の情報を音声合成パラメタ生成部１２に出力する。音声合成パラメタ生成部１２は、声質に関する情報及び発声時の感情を参照して、それぞれの項目のバリエーションに対応する音声合成パラメタを生成する。音声合成パラメタ生成部１２では、入力された評価項目のバリエーションに対して、バリエーションに対応する音声合成パラメタを生成する。その際に、感情音声合成の技術を利用して、評価項目設定部５１で指定された感情に応じて音声合成パラメタを調整し、合成音に込める感情を指定するパラメタ（感情パラメタ）を付与する。音声合成パラメタ生成部１２は、生成した音声合成パラメタセットと、必要ならば付与された感情パラメタとを、感情音声の合成が可能な音声合成部１３に出力する。

音声合成部１３は、入力された音声合成パラメタ、及び、付与された感情パラメタに基づいて、感情が込められた音声を合成する処理を行う。音声合成部１３は、感情が込められた合成音を合成音出力部１４に出力する。

合成音出力部１４、認識結果取得部１５、解析結果提示部１７は、第１の実施形態及び第３の実施形態と同様に動作する。ユーザが評価項目設定部１１において指定した評価項目に対しては第１の実施形態と同様に、グラマーに対しては第３の実施形態と同様に動作する。さらに本実施形態では、認識結果解析部５６において、ユーザが指定した感情の種類に応じて変化した発声に対する音声認識装置の性能を解析し、解析結果提示部１７では、その解析結果をユーザが見やすい形式に整形して提示する。その例を図１６に示す。図１６は、感情情報別認識率計算部５６２が計算して求めた認識率を示した図である。解析結果を図１６のような形式で提示することにより、ユーザは、発声時の感情の種類に応じて変化した発声に対する音声認識装置の性能変動を容易に知ることができる。例えば図１６の例では、発声時の感情が「怒り」、「喜び」である場合に比べて、感情が「悲しみ」である場合には、評価対象である音声認識装置の性能は大幅に低下することがわかる。

一般に、人間の発声者に感情を込めた発声を意識して行ってもらうことは難しいが、本実施形態の音声認識評価装置を用いることで、感情を込めて発声された評価用音声データセットを容易に得ることができる。また、本実施形態の音声認識評価装置を用いることで、ユーザは、感情が込められた発声に対して、音声認識装置がどれだけ頑健な認識性能を発揮できるかを容易に知ることができる。

以上説明したように、本発明の実施形態の音声認識評価装置、音声認識評価方法、及び音声認識評価プログラムは、従来の音声認識装置の評価において問題となっていた、評価用音声データセットを用意するためにかかる時間及びコストが非常に大きいという問題を解決することができる。さらに、評価項目ごとの音声認識装置の性能を容易に知ることができる。本実施形態の音声認識評価装置は、音声認識装置を評価しようとするユーザにとって、非常に有用な装置である。

また、本発明の実施形態では、評価者が指定した音声認識装置の任意の評価項目を基に、評価項目のバリエーションを十分にカバーできるような合成音を出力するために必要な合成音パラメタの設定値を自動的に生成する。音声合成部はこの合成音パラメタの設定値を用いて合成音を出力する。この合成音を評価用音声データセットとして用いることで、評価者は、時間及びコストをほとんどかけずに評価用音声データセットを得ることが可能となる。

さらに、本発明の実施形態では、音声認識装置が出力する認識結果を評価者が指定した評価項目ごとに統計的な手法を用いて自動的に解析し、評価項目ごとの性能を評価者に提示する。この結果、評価者は、評価項目を指定するだけで、評価項目ごとの音声認識装置の性能を容易に知ることが可能となる。

また、上述の実施形態の中で示した処理手順に示された指示、及び流れ図の各ステップに示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の音声認識評価装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の音声認識評価装置と同様な動作を実現することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に関する音声認識評価装置のブロック図。本発明の第１の実施形態に関する音声認識評価方法のフロー図。図１の評価項目設定部及び認識結果解析部のブロック図。図３の声質評価項目バリエーションに格納されている情報を示す図。図４のバリエーションごとに図１の音声合成パラメタ生成部が生成した音声合成パラメタを示す図。図５のパラメタを基にして認識結果解析部が解析した解析結果を示した図。本発明の第２の実施形態に関する音声認識評価装置のブロック図。本発明の第３の実施形態に関する音声認識評価装置のブロック図。図８の評価項目設定部及び認識結果解析部のブロック図。図８の解析結果提示部がユーザに提示する解析結果を示す図。本発明の第４の実施形態に関する音声認識評価装置のブロック図。図１１の評価項目設定部及び認識結果解析部のブロック図。図１１の解析結果提示部がユーザに提示する解析結果を示す図。本発明の第５の実施形態に関する音声認識評価装置のブロック図。図１４の評価項目設定部及び認識結果解析部のブロック図。図１４の解析結果提示部がユーザに提示する解析結果を示す図。

符号の説明

１１、３１、４１、５１・・・評価項目設定部、１２・・・音声合成パラメタ生成部、１３・・・音声合成部、１４・・・合成音出力部、１５・・・認識結果取得部、１６、３６、４６、５６・・・認識結果解析部、１７・・・解析結果提示部、２３・・・音声特徴ベクトル合成部、２４・・・特徴ベクトル出力部、１１１・・・声質評価項目入力部、１１２・・・評価用音声情報生成部、１１３、５１３・・・標準評価語彙セット、１１４、３１３、４１４、５１４・・・声質評価項目バリエーション、１６１、３６１、４６１、５６１・・・認識結果正解判定部、１６２・・・評価項目別認識率計算部、３１１、４１１・・・評価語彙入力部、３１２、４１３、５１２・・・評価用音声情報生成部、３６２・・・評価語彙別誤り率計算部、４１２・・・不要語挿入部、４６２・・・不要語有無別誤り率計算部、５１１・・・感情情報入力部、５６２・・・感情情報別認識率計算部

Claims

音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、
前記パラメタに基づいて合成音を生成する合成音生成手段と、
前記合成音を前記音声認識装置に出力する出力手段と、
前記音声認識装置が前記合成音を認識した認識結果を前記音声認識装置から取得する取得手段と、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段とを具備することを特徴とする音声認識評価装置。
前記音声情報生成手段は、
前記評価項目を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含み、前記パラメタを生成するための評価用音声情報を生成する生成手段とを具備することを特徴とする請求項１に記載の音声認識評価装置。
前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、評価項目の各音声情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項２に記載の音声認識評価装置。
前記音声情報生成手段は、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項１に記載の音声認識評価装置。
前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、評価項目の各語彙情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項４に記載の音声認識評価装置。
前記音声情報生成手段は、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報と、該語彙情報に含める無意味な言葉及びその挿入位置に関する無意味語情報とを取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報と前記無意味語情報を含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項１に記載の音声認識評価装置。
前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、語彙の発声中に無意味語が挿入されているか否かに対して認識率を算出する算出手段とを具備することを特徴とする請求項６に記載の音声認識評価装置。
前記音声情報生成手段は、
前記評価項目として、発声時の感情の種類を指定する感情情報を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項１に記載の音声認識評価装置。
前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、発声時の感情の種類ごとに認識率を算出する算出手段とを具備することを特徴とする請求項８に記載の音声認識評価装置。
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、
前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、
前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、
前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段とを具備することを特徴とする音声認識評価装置。
前記音声情報生成手段は、性別による声質、話速、声の高さ、及び、イントネーションのうちの少なくとも１つを含んでいる評価項目を生成し、各評価項目は複数のバリエーションからなることを特徴とする請求項１から請求項１０のいずれかに記載の音声認識評価装置。
前記評価手段の評価結果を提示する提示手段をさらに具備することを特徴とする請求項１から請求項１１のいずれかに記載の音声認識評価装置。
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成し、
前記評価用音声情報に対応する合成音を生成するためのパラメタを生成し、
前記パラメタに基づいて合成音を生成し、
前記合成音を前記音声認識装置に出力し、
前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得し、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価することを特徴とする音声認識評価方法。
前記評価用音声情報を生成することは、
前記評価項目を取得し、
複数の声質情報を格納し、
前記合成音を語彙の発声に対応させるための語彙情報を格納し、
前記評価項目に応じて前記声質格納手段から声質情報を選択し、
該声質情報と前記語彙情報とを含み、前記パラメタを生成するための評価用音声情報を生成することを特徴とする請求項１３に記載の音声認識評価方法。
前記評価項目に対する前記音声認識装置の性能を評価することは、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
正解であるか否かの判定結果と前記評価項目とを参照して、評価項目の各音声情報に対して認識率を算出することを特徴とする請求項１４に記載の音声認識評価方法。
前記評価用音声情報を生成することは、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報を取得し、
複数の声質情報を格納し、
前記評価項目に応じて声質情報を選択し、
該声質情報と前記語彙情報とを含む評価用音声情報を生成することを特徴とする請求項１３に記載の音声認識評価方法。
前記評価項目に対する前記音声認識装置の性能を評価することは、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
正解であるか否かの判定結果と前記評価項目とを参照して、評価項目の各語彙情報に対して認識率を算出することを特徴とする請求項１６に記載の音声認識評価方法。
前記評価用音声情報を生成することは、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報と該語彙情報に含める無意味な言葉及びその挿入位置に関する無意味語情報を取得し、
複数の声質情報を格納し、
前記評価項目に応じて前記声質格納手段から声質情報を選択し、
該声質情報と前記語彙情報と前記無意味語情報を含む評価用音声情報を生成することを特徴とする請求項１３に記載の音声認識評価方法。
前記評価項目に対する前記音声認識装置の性能を評価することは、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
正解であるか否かの判定結果と前記評価項目とを参照して、語彙の発声中に無意味語が挿入されているか否かに対して認識率を算出することを特徴とする請求項１８に記載の音声認識評価方法。
前記評価用音声情報を生成することは、
前記評価項目として、発声時の感情の種類を指定する感情情報を取得し、
複数の声質情報を格納し、
前記合成音を語彙の発声に対応させるための語彙情報を格納し、
前記評価項目に応じて前記声質格納手段から声質情報を選択し、
該声質情報と前記語彙情報とを含む評価用音声情報を生成することを特徴とする請求項１３に記載の音声認識評価方法。
前記評価項目に対する前記音声認識装置の性能を評価することは、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
正解であるか否かの判定結果と前記評価項目とを参照して、発声時の感情の種類ごとに認識率を算出することを特徴とする請求項２０に記載の音声認識評価方法。
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成し、
前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成し、
前記パラメタに基づいて特徴ベクトル時系列を生成し、
前記特徴ベクトル時系列を前記音声認識装置に出力し、
前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得し、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価することを特徴とする音声認識評価方法。
前記評価用音声情報を生成することは、性別による声質、話速、声の高さ、及び、イントネーションのうちの少なくとも１つを含んでいる評価項目を生成し、各評価項目は複数のバリエーションからなることを特徴とする請求項１３から請求項２２のいずれかに記載の音声認識評価方法。
前記評価項目に対する前記音声認識装置の性能を評価する評価結果を提示することをさらに具備することを特徴とする請求項１３から請求項２３のいずれかに記載の音声認識評価方法。
コンピュータを、
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、
前記パラメタに基づいて合成音を生成する合成音生成手段と、
前記合成音を前記音声認識装置に出力する出力手段と、
前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるための音声認識評価プログラム。
前記音声情報生成手段は、
前記評価項目を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含み、前記パラメタを生成するための評価用音声情報を生成する生成手段とを具備することを特徴とする請求項２５に記載の音声認識評価プログラム。
前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、評価項目の各音声情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項２６に記載の音声認識評価プログラム。
前記音声情報生成手段は、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項２５に記載の音声認識評価プログラム。
前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、評価項目の各語彙情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項２８に記載の音声認識評価プログラム。
前記音声情報生成手段は、
前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報と、該語彙情報に含める無意味な言葉及びその挿入位置に関する無意味語情報を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報と前記無意味語情報を含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項２５に記載の音声認識評価プログラム。
前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、語彙の発声中に無意味語が挿入されているか否かに対して認識率を算出する算出手段とを具備することを特徴とする請求項３０に記載の音声認識評価プログラム。
前記音声情報生成手段は、
前記評価項目として、発声時の感情の種類を指定する感情情報を取得する取得手段と、
複数の声質情報を格納している声質格納手段と、
前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項２５に記載の音声認識評価プログラム。
前記評価手段は、
前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
該判定手段の判定結果と前記評価項目とを参照して、発声時の感情の種類ごとに認識率を算出する算出手段とを具備することを特徴とする請求項３２に記載の音声認識評価プログラム。
コンピュータを、
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、
前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、
前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、
前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、
前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるための音声認識評価プログラム。
前記音声情報生成手段は、性別による声質、話速、声の高さ、及び、イントネーションのうちの少なくとも１つを含んでいる評価項目を生成し、各評価項目は複数のバリエーションからなることを特徴とする請求項２５から請求項３４のいずれかに記載の音声認識評価プログラム。
前記評価手段の評価結果を提示する提示手段をさらに具備することを特徴とする請求項２５から請求項３５のいずれかに記載の音声認識評価プログラム。