JP2007199173A - 評価用データ生成装置、認識性能分布情報生成装置およびシステム - Google Patents

評価用データ生成装置、認識性能分布情報生成装置およびシステム Download PDF

Info

Publication number
JP2007199173A
JP2007199173A JP2006015166A JP2006015166A JP2007199173A JP 2007199173 A JP2007199173 A JP 2007199173A JP 2006015166 A JP2006015166 A JP 2006015166A JP 2006015166 A JP2006015166 A JP 2006015166A JP 2007199173 A JP2007199173 A JP 2007199173A
Authority
JP
Japan
Prior art keywords
order signal
data
low
recognition
recognition performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006015166A
Other languages
English (en)
Other versions
JP4825014B2 (ja
Inventor
Makoto Shosakai
誠 庄境
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP2006015166A priority Critical patent/JP4825014B2/ja
Publication of JP2007199173A publication Critical patent/JP2007199173A/ja
Application granted granted Critical
Publication of JP4825014B2 publication Critical patent/JP4825014B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】様々な特性を有する認識対象の信号データから評価用データを生成し、且つ当該生成した評価用データに対するパターン認識手段の認識性能の分布情報を生成するのに好適な評価用データ生成装置及び認識性能分布情報生成装置、並びにパターン認識に関する仕様情報に応じたパターン認識手段の認識性能の分布情報を生成するのに好適な認識性能分布情報生成システムを提供する。
【解決手段】評価基準となる認識対象に係る低次信号ベクトル空間を複数の領域に区分し、当該区分された低次信号ベクトル空間に対して、その重心においてそれぞれ例えば、均等に交差する複数本の座標軸を放射状に設定し、当該座標軸と領域の区分境界との交差位置に最も近い位置にある低次信号ベクトルを選択し、当該選択した低次信号ベクトルに対応する信号データを用いて評価用データを生成する。そして、当該生成した評価用データに対する認識結果から認識性能分布情報を生成する。
【選択図】図1

Description

本発明は、多様な入力信号のパターン認識の性能を評価する評価用データの生成、及び認識性能値の分布情報の生成を行うのに好適な、評価用データ生成装置、評価用データ生成プログラム及び評価用データ生成方法、並びに認識性能分布情報生成装置、認識性能分布情報生成システム、認識性能分布情報生成プログラム及び認識性能分布情報生成方法に関する。
一般に、パターン認識は、認識対象の信号をある特徴パラメータの系列に変換する特徴分析部と、特徴分析部で得られた特徴パラメータの系列を、予めメモリやハードディスクなどの記憶装置に蓄積した語彙単語の特徴パラメータに関する情報と照合して、最も類似度の高い音声を認識結果とする特徴照合処理の2つの部分から構成される。以下、音声認識を例にとって説明する。音声サンプルをある特徴パラメータの系列に変換する特徴分析処理方法としては、ケプストラム分析法や線形予測分析法などが知られており、「Lawrence Rabiner and Biing-Hwang Juang, "Fundamentals of Speech Recognition," Prentice Hall Signal Processing Series, 1993のChapter 3 Signal Processing and Analysis Methods for Speech Recognition」にも詳述されている。
音声認識の中で、不特定話者の音声を認識する技術を一般に不特定話者音声認識と呼ぶ。不特定話者音声認識においては、語彙単語の特徴パラメータに関する情報が予め記憶装置に蓄積されているため、特定話者音声認識のようにユーザーが音声認識させたい単語を登録するという作業は発生しない。また、語彙単語の特徴パラメータに関する情報の作成およびその情報と入力された音声から変換された特徴パラメータの系列との音声照合方法としては、隠れマルコフモデル(Hidden Markov Model, HMM)による方法が一般に用いられている。HMMによる方法においては、音節、半音節、音韻、biphone、triphoneなどの音声単位がHMMによりモデル化される。これらのモデルを一般に、音響モデルと呼ぶ。音響モデルの作成方法、例えば、公知のEMアルゴリズムについては、「Lawrence Rabiner and Biing-Hwang Juang, "Fundamentals of Speech Recognition," Prentice Hall Signal Processing Series, 1993のChapter 6 Theory and Implementation of Hidden Markov Models」に詳しく述べられている。また、同文献に記載されている公知のViterbiアルゴリズムにより、当業者は不特定話者音声認識装置を容易に構成することができる。
また、音声認識は、音声による入力インターフェースを提供する技術として、ハンズフリー操作が要求されるカーナビゲーションシステムなどの車載機器や、音声による対話機能を持つロボットなどにおいて実用化の期待が高まっているが、現状では、100%の認識確率を実現しているとは言えない。利用者の声質や喋り方によっては、認識確率が50%を下回る場合も多く、入力インターフェースとしては、未成熟であり、音声認識の実用化の阻害要因ともなっている。
これまでは、認識確率の平均値を尺度として認識性能を評価することが多かったが、入力インターフェースとしての性能を評価するのであれば、認識確率の最低値を評価し、その値が例えば90%以上であるから、全ての利用者に対して90%以上の認識性能を実現できるという形の性能保証をしていく必要がある。
特に、音声認識技術を新たな入力手段として採用する立場、例えば、音声操作が可能なカーナビゲーション製品を開発するメーカーの立場に立てば、音声認識技術を実環境の実アプリケーションの中で様々なユーザーが使用する場合に、どんな認識性能のばらつきになるのかを、連続的な認識性能分布の形で把握したいという要求がある。
また、連続的な認識性能分布を得るということは、あらゆる特性の音声データに対する認識結果を評価する必要がある。しかしながら、あらゆる音声データを収集することは、一般に困難であるので、有限の期間で有限のコストで有限の音声データ群を収集することになる。
一方、従来、音声認識の性能評価は、試行錯誤的な手法が多かった。上記のような制約の中で収集した有限の音声データ群を学習用音声データ群と評価用音声データ群とに適当に分割する。学習用音声データ群からHMMによる音響モデルを作成し、評価用音声データ群に対する音響モデルの認識性能を評価する。認識性能の評価においては、平均値や最高値、最低値などの離散的な性能評価値を算出する。場合によっては、学習用音声データ群と評価用音声データ群の組み合わせが変化するように複数種類の分割を行い、性能評価結果を平均化する操作によって、より客観性の高い評価を行う場合もある。しかしながら、音声データ群を、学習用音声データ群と評価用音声データ群とに分割する処理は適当であり、且つ、音声データ群も有限であるため、評価用音声データ群は、様々な環境で、様々な声質のユーザーが、様々な喋り方で喋った音声を全て網羅することは、事実上、不可能であった。また、前述したように、認識性能のばらつきがどのようになるのかを、連続的な認識性能分布の形で把握したいという要求に対しては、離散的な性能評価値の算出だけでは応えられないという課題がある。
また、あらゆる評価用データを収集することは、一般に困難であるので、評価用データを自動的に生成する方法の研究もされている。このように評価用データを自動的に生成する技術として、例えば、下記の特許文献1、特許文献2、非特許文献1及び非特許文献2に記載の技術などがある。
非特許文献1では、HMMにより生成された不特定話者用音響モデルの平均と分散とを用いて、評価用データを生成する手法が提案されている。また、実際の音声データの単語誤り率が42%であるのに対し、HMMによる不特定話者用音響モデルから生成された評価データの単語誤り率が9%であると報告されている。
また、非特許文献2では、認識性能評価のための基準話者を複数人定め、それぞれの基準話者から学習用音声データを収集し、学習用音声データから話者依存HMMモデルによるHMM音声合成器を作成し、それぞれの基準話者のHMM音声合成器を用いて音声を合成することにより、認識性能を予測する手法を提案している。
また、特許文献1では、非特許文献2の発表を受けて、話者、話速、声の高さ、イントネーション、語彙、感情などのパラメータを音声合成器に与え、評価音声を生成して、認識率を評価し、提示する手法を開示している。
また、特許文献2では、音声認識率推定装置として、音声合成用の音声素片を用いて評価用データを生成する方法、HMMによる不特定話者音響モデルから評価用データを生成する方法、単語認識困難度が高い単語に関しては実発声データを用いる方法などを開示している。
特開2005−84102号公報 特開2005−283646号公報 Don McAllaster and Larry Gillick, "Studies in Acoustic Training and Language Modeling Using Simulated Speech Data," Eurospeech 99 寺嶌他「HMM音声合成に基づく音声認識性能予測手法」(日本音響学会講演論文集、pp159−160、2003年3月)
しかしながら、上記非特許文献1に記載の従来技術においては、非常に多くの話者の音声データから学習された不特定話者用音響モデルの平均と分散とを用いて評価データを生成するため、非常に多くの話者の音声データを平滑化した評価データしか生成されないため、ユニークな話者の音声データが評価データとして選択されないという課題があった。また、不特定話者用音響モデルの平均と分散とを用いて生成された評価データが、実際の音声データよりも遙かに高い認識性能を示すため、この評価データに対する認識結果からは認識性能の正確な評価を行うことはできないという不具合を有している。
また、上記非特許文献2、特許文献1及び特許文献2に記載の従来技術においては、選択された基準話者毎に、音声合成技術を用いて評価データを生成するため、正確な認識性能を得るためには、話者、話速、声の高さ、イントネーション、語彙、感情などのパラメータに応じて、実音声を近似する評価データを生成可能な音声合成器を有しなければならない。しかしながら、現状の音声合成器は、特定の話者毎に限られた話速、声の高さ、イントネーション、語彙、感情の組み合わせで作成されるのが常であり、上記のような高性能の音声合成器の開発は現状では極めて困難である。更に、音声合成器を作る基準話者の選択方法に関しては一切述べられていない。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、評価の基準となる認識対象を選択する認識対象の集合から、様々な特性を有する認識対象(評価基準)を効率良く選択して評価用データを生成するのに好適な評価用データ生成装置、評価用データ生成プログラム及び評価用データ生成方法、前記生成された様々な特性を有する評価用データに対するパターン認識手段の認識性能の分布情報を生成するのに好適な認識性能分布情報生成装置、認識性能分布情報生成プログラム及び認識性能分布情報生成方法、並びにパターン認識に関する仕様情報に応じたパターン認識手段の認識性能の分布情報を生成するのに好適な認識性能分布情報生成システム、認識性能分布情報生成プログラム及び認識性能分布情報生成方法を提供することを目的としている。
上記目的を達成するために、本発明に係る請求項1記載の評価用データ生成装置は、
パターン認識における認識性能を評価するための評価用データを生成する評価用データ生成装置であって、
予め取得された、複数対象に係る複数の信号データを記憶する信号データ記憶手段と、
前記信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間を記憶する低次信号ベクトル空間記憶手段と、
前記低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ交差する複数本の座標軸を設定する座標軸設定手段と、
前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択手段と、
前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成手段と、を備えることを特徴としている。
このような構成であれば、信号データ記憶手段によって、予め取得された、複数対象に係る複数の信号データを記憶することが可能であり、低次信号ベクトル空間記憶手段によって、前記信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間を記憶することが可能であり、座標軸設定手段によって、前記低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ例えば、均等に交差する複数本の座標軸を設定することが可能であり、低次信号ベクトル選択手段によって、前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択することが可能である。
また、評価用データ生成手段によって、前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成することが可能である。
低次信号ベクトル空間においては、重心から離れれば離れるほど低次信号ベクトルの存在する密度が低くなる傾向にあり、且つ密度の低いところ(分布の外側周辺およびその近傍)にある低次信号ベクトルに対応した信号データは、類似した他の信号データが少ないことを意味しており、例えば、全データを用いて生成した不特定対象に対するパターンモデルに対して低い認識確率を生じさせるユニークな特性を持つ傾向にある。一方、重心に近づけば近づくほど低次信号ベクトルの存在する密度が高くなる傾向にあり、且つ密度の高いところにあるベクトルに対応した信号データは、類似した他の信号データが多いことを意味しており、例えば、全データを用いて生成した不特定対象に対するパターンモデルに対して比較的良好な認識確率を生じさせるという特性を持つ傾向にある。
このことから、低次信号ベクトル空間に対して、全低次信号ベクトルの重心でそれぞれ例えば、均等に交差する複数本の座標軸を設定することで、各座標軸上及びその近傍に位置する低次ベクトルは、他に類似しているものが多いものからユニークな特性のものまで段階的に複数の特性を有した信号データにそれぞれ対応することになる。また、複数本の座標軸を設定することで、より広範囲に様々な特性を有する信号データの存在領域をカバーすることができる。例えば、重心から複数方向へ放射角の角度方向に満遍なく放射状に伸びるように複数本の座標軸を設定することで、様々な特性を有する低次信号ベクトルを広範囲にかつ偏り無く一様にカバーできる。
従って、各座標軸上及びその近傍に位置する低次信号ベクトルを選択することで、大規模な信号データの集合から、様々な特性を有する認識対象(評価基準)の信号データを効率よく広範囲にかつ偏り無く一様に選択することができ、このような信号データからパターン認識手段の性能評価用の評価用データを生成することで、低次信号ベクトル空間の全低次信号ベクトルに対応する信号データを用いた場合と比較して、非常に少ない数の評価用データで、様々な特性を有する認識対象(評価基準)に対するパターン認識手段の認識性能を評価することができる。つまり、パターン認識手段の認識性能を評価するのに適した評価用データを効率よく広範囲にかつ偏り無く一様に生成することができるという効果が得られる。
ここで、パターン認識手段とは、例えば、所定データが音声データである場合に、この音声データに対してマッチングを行う信号パターンをモデル化したパターンモデルを有し、このパターンモデルを用いて、入力された音声データのパターンマッチングを行い音声パターンの種類を認識する手段である。またパターン認識手段は、汎用のPC等において専用のプログラムを実行させてパターン認識を行う構成のもの、専用のIC等のハードウェアの駆動によってパターン認識を行う構成のもの、ハードウェアとソフトウェアとが混在して動作することでパターン認識を行う構成のもの等様々な構成により実現することが可能である。
また、パターンモデルとは、例えば、所定データが音声データである場合に、この音声データに対してマッチングを行う信号パターンをモデル化したものであり、HMMやニューラルネットワーク等の統計モデルや特徴パラメータの時系列を用いて表現されるものである。
また、信号データとしては、例えば、人間の音声などの音響データや野鳥、昆虫、蛙、蝙蝠、動物などの野生生物の鳴声データ、画像データ、赤外線センサデータ、加速度センサデータ、方位角センサデータ、圧力センサデータ、圧電素子や振動計などの振動センサデータおよびその他の全てのセンサデータ、リチウムイオン2次電池や燃料電池などの電池の充電状況に関する物理的データ、心電図、筋電図、血圧、体重などの生体信号データ、遺伝子解析用のマイクロアレイデータ、気温、湿度、気圧などの気象データ、酸素濃度、窒素酸化物濃度などの環境データ、株価、物価などの経済動向データなどの時系列データ等がある。
また、パターンモデルを4次元以上の高次元の要素を含むモデルとしたが、これは、例えば、音声認識等のパターン認識において、少なくとも、4次元以上の特徴パラメータを利用しないと、高い認識性能が得られないためであり、また、音声認識においては、実用上有効な認識性能を実現可能な高次信号パターンモデルの次元未満の次元の特徴パラメータが現在のところ発見されていないためである。
また、複数対象に係る信号データとは、例えば、複数対象から測定できるデータそのもの、当該データから抽出した特徴量、当該特徴量に基づき生成したパターンモデルなどと、それらの内容を記述したテキストファイルとの組などを指す。例えば、複数の話者の発声した音声のデータ、当該音声データから抽出した特徴量、当該特徴量に基づき生成したパターンモデルなどと、それらの発声内容を記述したテキストファイルとの組などである。
また、高次信号パターンモデル相互間の類似関係とは、特定対象の信号データまたはノイズデータから生成されるパターンモデル間の類似度を示すもので、例えば、ユークリッド距離や、類似度を測る距離を二つのベクトルの内積とし、二つのベクトルの成す角を類似度として評価するマハラノビスの汎距離などがある。 なお、本発明においては、距離として、他に、バタチャリヤ(Bhattacharyya)距離、平方ユークリッド距離、コサイン距離、ピアソンの相関、チェビシェフ、都市ブロック距離(あるいはマンハッタン距離)、ミンコウスキー和、カルバック情報量、ベイズ距離、チェルノフ距離、HMMによって構成されたパターンモデルの正規分布の平均ベクトルに基づくユークリッド距離、HMMによって構成されたパターンモデルの正規分布の標準偏差により正規化された当該パターンモデルの正規分布の平均ベクトルに基づくユークリッド距離、HMMによって構成されたパターンモデルの正規分布に基づくバタチャリア距離などがある。つまり、高次パターンモデル相互間の類似度を示すものであれば何でも良い。
また、4次元以上の高次元のデータ空間を、各パターンモデル間の距離関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次元のデータ空間に写像する処理は、例えば、パターンモデル相互間の距離が小さい2つのパターンモデルは互いに近くに、パターンモデル相互間の距離が大きい2つのパターンモデルは互いに遠くに位置するように全てのパターンモデルを低次元空間(例えば、2次元空間、3次元空間)に写像する処理となる。
例えば、パターンモデル間の距離としてユークリッド距離を用いた場合、写像された低次元空間において、ユークリッド距離が近いパターンモデルは遠いものよりもパターンモデル相互が類似していることを意味していると考えられる。
また、高次のパターンモデルを、これより低次のベクトルに変換する公知の手法としては、Sammon法(J. W. Sammon,"A nonlinear mapping for data structure ana1ysis,"IEEE Trans.Computers,vol.C-18,no.5,pp.401-409,May 1969.参照)、判別分析法(R. A. Fisher, "The use of multiple measurements in taxonomic Problems,"Ann.Eugenics,vol.7,no.PartII,pp.179-188,1936.参照)、Aladjam法(M.A1adjem,"Multiclass discriminant mappings,"Signa1 Process.,vol.35,pp.1-18,1994.参照)、ニューラルネットワークによる手法(J.Mao et a1.,"Artificial neural networks for feature extraction and mu1tivariate data projection,"IEEE Trans.Neura1 Networks,vol.6,no.2,pp.296-317,1995.参照)、グラフを利用した手法(Y.Mori et al.,"Comparison of 1ow-dimensional mapping techniques based on discriminatory information,"Proc.2nd International ICSC Symposium on Advances in Intelligent Data Analysis(AIDA'2001),CD-ROM Paper-no.1724-166,Bangor,United Kingdom,2001.参照)、写像追跡法(J.H.Freidman et al.,"A projection pursuit algorithm for exp1oratory data ana1ysis,"IEEE Trans.Comput.,vol.C-23,no.9,pp.881-889,1974.参照)、SOM法(T.Kohonen,"Self-Organizing Maps,"Springer Series in Information Sciences,vol.30,Berlin,1995.参照)等があるが、Sammon法が好適である。
高次のパターンモデルを、これより低次のベクトルに変換する手法として、Sammon法を用いることにより得られる低次信号ベクトル空間は、それぞれが異なる特徴を表現している無数の座標軸が重心で放射状に交差した構造を有する特徴があり、それらの座標軸に沿って、特徴が順次変化する高次のパターンモデルが連続的に整列する傾向がある。
また、複数本の座標軸の近傍に位置する低次信号ベクトルとは、各座標軸上に位置する低次信号ベクトル及び各座標軸の近傍(座標軸から所定距離以内)に位置する低次信号ベクトルの両方を含み、低次信号ベクトル選択手段は、これらのうち少なくとも一方を選択する。
更に、請求項2に係る発明は、請求項1記載の評価用データ生成装置において、
前記低次信号ベクトル空間を複数の領域に区分する領域区分手段を備え、
前記低次信号ベクトル選択手段は、前記領域区分手段で区分した各領域の区分境界と、前記複数本の座標軸との交差位置の近傍に位置する低次信号ベクトルを選択することを特徴としている。
このような構成であれば、領域区分手段によって、前記低次信号ベクトル空間を複数の領域に区分することが可能であり、前記低次信号ベクトル選択手段は、前記領域区分手段で区分した各領域の区分境界と、前記複数本の座標軸との交差位置の近傍に位置する低次信号ベクトルを選択することが可能である。
従って、領域の区分の仕方を工夫することで、座標軸に沿って段階的に特性が変化する信号データに対応する低次信号ベクトルのうち、各特性の代表となる低次信号ベクトルを選択することができるので、評価基準となる認識対象の数(評価用データの生成数)をより少なくすることができる。これにより、パターン認識手段の認識性能を適切に評価することができる評価用データをより効率よく広範囲にかつ偏り無く一様に生成することができるという効果が得られる。
ここで、複数本の座標軸との交差位置の近傍に位置する低次信号ベクトルとは、交差位置にある低次信号ベクトル及び交差位置の近傍(交差位置から所定距離以内)にある低次信号ベクトルの両方を含み、低次信号ベクトル選択手段は、これらのうち、交差位置にある低次信号ベクトルのみを選択するか、または交差位置に低次信号ベクトルがある場合はその低次信号ベクトルを選択し、交差位置に低次信号ベクトルがない場合は、交差位置に最も近い低次信号ベクトル若しくは交差位置から所定距離以内にある低次信号ベクトルを選択する。
更に、請求項3に係る発明は、請求項2記載の評価用データ生成装置において、
前記低次信号ベクトル空間は2次元、3次元、4次元及び5次元のいずれか1の次元のデータ空間であり、
前記領域区分手段は、前記低次信号ベクトル空間を構成する複数の低次信号ベクトルを、全低次信号ベクトルの重心を中心とし且つ前記重心と当該重心から最も離れた位置の低次信号ベクトルとの距離を半径とした1つの外円または外球と、前記重心を中心とし且つ前記外円または外球よりも小さな半径のn個の内円または内球(nは1以上の整数)とにより区分し、
前記低次信号ベクトル選択手段は、前記外円および内円または外球および内球からなる複数の同心円同士または同心球同士の各曲線間または各曲面間に形成される環状または球面状の領域の各区分境界と、前記複数本の座標軸との交差位置の近傍に位置する低次信号ベクトルを選択することを特徴としている。
このような構成であれば、前記領域区分手段は、前記低次信号ベクトル空間を構成する複数の低次信号ベクトルを、全低次信号ベクトルの重心を中心とし且つ前記重心と当該重心から最も離れた位置の低次信号ベクトルとの距離を半径とした1つの外円または外球と、前記重心を中心とし且つ前記外円または外球よりも小さな半径のn個の内円または内球(nは1以上の整数)とにより区分することが可能であり、前記低次信号ベクトル選択手段は、前記外円および内円または外球および内球からなる複数の同心円同士または同心球同士の各曲線間または各曲面間に形成される環状または球面状の領域の各区分境界と、前記複数本の座標軸との交差位置の近傍に位置する低次信号ベクトルを選択することが可能である。
つまり、前述したように低次信号ベクトル(信号データ)の特性は、重心からの距離に応じて段階的に変化するので、2次元、3次元、4次元及び5次元のいずれか1の次元のの低次信号ベクトル空間を重心を中心とし、最も離れた位置の低次信号ベクトルとの距離を半径とした外円または外球と、当該外円または外球よりも小さな半径の複数の内円によって区分し、これらの区分境界と、各座標軸との交差位置及びその近傍の低次信号ベクトルを選択することで、段階的に特性が変化していく低次信号ベクトルのうち、各特性の代表となる低次信号ベクトルを選択することが可能となる。従って、評価基準となる認識対象の数(評価用データの生成数)をより少なくすることができるので、パターン認識手段の認識性能を適切に評価することができる評価用データをより効率よく広範囲にかつ偏り無く一様に生成することができるという効果が得られる。
更に、請求項4に係る発明は、請求項3記載の評価用データ生成装置において、
前記座標軸設定手段は、各隣り合う2つの前記座標軸が前記重心を頂点として形成する角度がそれぞれ等角度となるように前記複数本の座標軸を設定することを特徴としている。
このような構成であれば、複数本の座標軸を低次信号ベクトル空間に対して満遍なく設定することが可能となるので、より無駄なく様々な特性を有する認識対象の評価用データを生成することが可能となる。従って、パターン認識手段の認識性能を適切に評価することができる評価用データをより効率よく広範囲にかつ偏り無く一様に生成することができるという効果が得られる。
更に、請求項5に係る発明は、請求項1乃至請求項4のいずれか1項に記載の評価用データ生成装置において、
認識対象に係る属性情報を取得する属性情報取得手段と、
前記属性情報取得手段で取得した属性情報に基づき、前記低次信号ベクトル空間における前記属性情報に対応する低次信号ベクトルを選択する属性対応低次信号ベクトル選択手段と、
前記属性対応低次信号ベクトル選択手段で選択した低次信号ベクトルの、前記低次信号ベクトル空間における分布の最外縁に位置する複数の低次信号ベクトルの座標点を結線して評価領域を生成する第1評価領域生成手段と、
前記第1評価領域生成手段で生成された評価領域内に含まれる低次信号ベクトルに対応する高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像して、前記低次信号ベクトル空間を再構成する第1低次信号ベクトル空間再構成手段と、を備えることを特徴としている。
このような構成であれば、属性情報取得手段によって、認識対象に係る属性情報を取得することが可能であり、属性対応低次信号ベクトル選択手段によって、前記属性情報取得手段で取得した属性情報に基づき、前記低次信号ベクトル空間における前記属性情報に対応する低次信号ベクトルを選択することが可能であり、第1評価領域生成手段によって、前記属性対応低次信号ベクトル選択手段で選択した低次信号ベクトルの、前記低次信号ベクトル空間における分布の最外縁に位置する複数の低次信号ベクトルの座標点を結線して評価領域を生成することが可能であり、第1低次信号ベクトル空間再構成手段によって、前記第1評価領域生成手段で生成された評価領域内に含まれる低次信号ベクトルに対応する高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像して、前記低次信号ベクトル空間を再構成することが可能である。
つまり、前記座標軸設定手段は、前記第1低次信号ベクトル空間再構成手段によって再構成された低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ例えば、均等に交差する複数本の座標軸を設定することが可能であり、前記低次信号ベクトル選択手段によって、前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択することが可能であり、前記評価用データ生成手段によって、前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成することが可能である。
従って、低次信号ベクトル空間における、認識対象に係る属性に対応する低次信号ベクトルの分布の最外縁に位置する低次信号ベクトル同士を結線して第1領域を生成することで、低次信号ベクトル空間を構成する低次信号ベクトルを、認識対象に係る属性に対応する(関係が比較的深い)低次信号ベクトルが存在する領域に絞り込み、更に、第1領域内に含まれる全低次信号ベクトルに対応する高次信号パターンモデルを用いて低次信号ベクトル空間を再構成するようにしたので、この再構成した低次信号ベクトル空間から選択した低次信号ベクトルに対応する信号データを用いて評価用データを生成することで、認識対象の属性に特化した評価用データを生成することができる。つまり、認識対象の属性に関与する認識対象に対するパターン認識手段の認識性能を個別に評価することができる評価用データを効率よく広範囲にかつ偏り無く一様に生成することができるという効果が得られる。
ここで、認識対象に係る属性情報とは、例えば、所定の信号データが音声データである場合は、話者の年齢、性別などの認識対象の特徴的な情報となる。
また、低次信号ベクトル空間を再構成するとは、低次信号ベクトル空間記憶手段に記憶された低次信号ベクトル空間に含まれるデータの一部(認識対象に係る属性に関与するデータ)を用いて、新たな低次信号ベクトル空間を生成することである。
更に、請求項6に係る発明は、請求項1乃至請求項5のいずれか1項に記載の評価用データ生成装置において、
新規認識対象に係る信号データを取得する信号データ取得手段と、
前記信号データ取得手段で取得した信号データに基づき新規の高次信号パターンモデルを生成する高次信号パターンモデル生成手段と、
前記高次信号パターンモデル生成手段で生成された高次信号パターンモデルに対応する新規の低次信号ベクトルを前記低次信号ベクトル空間に追加して、評価領域同定用の低次信号ベクトル空間を生成する評価領域同定用低次信号ベクトル空間生成手段と、
前記生成した評価領域同定用の低次信号ベクトル空間における前記新規の低次信号ベクトルの分布の最外縁に位置する各低次信号ベクトルの座標点を結線して第2評価領域を生成する第2評価領域生成手段と、
前記第2評価領域生成手段で生成された第2評価領域内に含まれる、前記新規の低次信号ベクトルを含む全ての低次信号ベクトルに対応する高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像して、前記低次信号ベクトル空間を再構成する第2低次信号ベクトル空間再構成手段と、を備えることを特徴としている。
このような構成であれば、信号データ取得手段によって、新規認識対象に係る信号データを取得することが可能であり、高次信号パターンモデル生成手段によって、前記信号データ取得手段で取得した信号データに基づき新規の高次信号パターンモデルを生成することが可能であり、評価領域同定用低次信号ベクトル空間生成手段によって、前記高次信号パターンモデル生成手段で生成された高次信号パターンモデルに対応する新規の低次信号ベクトルを前記低次信号ベクトル空間に追加して、評価領域同定用の低次信号ベクトル空間を生成することが可能であり、第2評価領域生成手段によって、前記生成した評価領域同定用の低次信号ベクトル空間における前記新規の低次信号ベクトルの分布の最外縁に位置する各低次信号ベクトルの座標点を結線して第2評価領域を生成することが可能であり、第2低次信号ベクトル空間再構成手段によって、前記第2評価領域生成手段で生成された第2評価領域内に含まれる、前記新規の低次信号ベクトルを含む全ての低次信号ベクトルに対応する高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像して、前記低次信号ベクトル空間を再構成することが可能である。
つまり、前記座標軸設定手段は、前記第2低次信号ベクトル空間再構成手段によって再構成された低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ例えば、均等に交差する複数本の座標軸を設定することが可能であり、前記低次信号ベクトル選択手段によって、前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択することが可能であり、前記評価用データ生成手段によって、前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成することが可能である。
従って、低次信号ベクトル空間に対して、新規認識対象の信号データに基づき構成された高次信号パターンモデルに対応する低次信号ベクトルを追加することが可能であり、この低次信号ベクトル空間における新規の低次信号ベクトルの分布の最外縁に位置する低次信号ベクトルの座標点同士を結線して第2領域を生成し、この第2領域に含まれる全低次信号ベクトル(新規の低次信号ベクトルを含む)に対応する高次信号パターンモデルを用いて低次信号ベクトル空間を再構成することが可能であるので、この再構成した低次信号ベクトル空間を用いて評価用データを生成することで、新規認識対象の属性に特化した評価用データを生成することができる。つまり、新規認識対象の属性に関与する認識対象に対するパターン認識手段の認識性能を個別に評価することができる評価用データを効率よく広範囲にかつ偏り無く一様に生成することができるという効果が得られる。
ここで、低次信号ベクトル空間を再構成するとは、低次信号ベクトル空間記憶手段に記憶された低次信号ベクトル空間に含まれるデータの一部(新規認識対象の属性に関与するデータ)を用いて、新たな低次信号ベクトル空間を生成することである。
更に、請求項7に係る発明は、請求項1乃至請求項6のいずれか1項に記載の評価用データ生成装置において、
前記評価用データ生成手段は、前記信号データ記憶手段に記憶された各信号データを構成する部分信号系列を各評価用パターンに合った組み合わせで接続することによって、前記評価用データを生成することを特徴としている。
このような構成であれば、信号データ記憶手段に記憶されている多数の信号データを構成する複数種類の信号部分系列を組合せて接続することによって、様々な種類の評価用データを生成することが可能である。例えば、信号データが音声データであれば、生の音声信号データの複数種類の部分信号系列を接続して、様々な語彙に対応した評価用データを生成することができる。つまり、部分信号系列を組み合わせて評価用データを生成するので、予め各種データ(例えば、各種語彙に対応する音声データ)を新たに収集することなく任意の評価用データを生成することができる。
更に、請求項8に係る発明は、請求項1乃至請求項6のいずれか1項に記載の評価用データ生成装置において、
前記評価用データ生成手段は、前記信号データ記憶手段に記憶された各信号データに基づき算出された特徴パラメータを構成する部分系列を各評価用パターンに合った組み合わせで接続することによって、前記評価用データを生成することを特徴としている。
このような構成であれば、信号データ記憶手段に記憶されている多数の信号データから算出される多数の特徴パラメータを構成する部分系列を組み合わせて接続することによって、様々な種類の評価用データを生成することが可能である。例えば、信号データが音声データであれば、生の音声信号データから算出される特徴パラメータの複数種類の部分系列を接続して、様々な語彙に対応した評価用データを生成することができる。つまり、部分系列を組み合わせて評価用データを生成するので、予め各種データ(例えば、各種語彙に対応する音声データ)を新たに収集することなく任意の評価用データを生成することができる。
更に、請求項9に係る発明は、請求項1乃至請求項8のいずれか1項に記載の評価用データ生成装置において、
前記高次信号パターンモデルは、HMM(Hidden Markov Model)によって構成されることを特徴としている。
このような構成であれば、前記高次信号パターンモデルは、HMM(Hidden Markov Model)によって構成され、時間的概念を伴う信号データに対して適切なパターンモデルとなる。
ここで、HMMは時系列信号のパターンモデルであり、複数の定常信号源の間を遷移することで、非定常な時系列信号をモデル化することが可能である。例えば、音声は話すスピードによりその時間的長さが変わり、発話内容により、周波数上で特徴的な形状(スペクトル包絡という)を示すが、その形状は発声する人、環境、内容等に依存し、揺らぎが生じる。HMMはそのような揺らぎを吸収することができる統計的モデルである。HMMは、どのような単位で定義されても良く(例えば単語や音素)、各HMM(ここで「各」というのは例えば単語であれば複数の単語が存在し、音素においても複数の音素が存在するため。)は、複数の状態からなり、各状態は統計的に学習された、状態遷移確率と出力確率(正規分布、混合正規分布等の確率分布)とで構成されている。遷移確率は音声の時間伸縮の揺らぎを、出力確率はスペクトルの揺らぎを吸収する。
一方、上記目的を達成するために、請求項10記載の認識性能分布情報生成装置は、
所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成装置であって、
請求項1乃至請求項9のいずれか1項に記載の評価用データ生成装置と、
前記評価用データ生成装置で生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力手段と、
前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得手段と、
前記認識結果取得手段で取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出手段と、
前記認識性能値算出手段の算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成手段と、を備えることを特徴としている。
このような構成であれば、評価用データ入力手段によって、前記評価用データ生成装置で生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力することが可能であり、認識結果取得手段によって、前記パターン認識手段の前記評価用データに対する認識結果を取得することが可能であり、認識性能値算出手段によって、前記認識結果取得手段で取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出することが可能であり、認識性能分布情報生成手段によって、前記認識性能値算出手段の算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成することが可能である。
従って、例えば、大規模な信号データの集合から、様々な特性を有する認識対象の信号データを効率良く選択し、且つ当該選択した信号データから生成された評価用データに対するパターン認識手段の認識結果から算出される認識性能値の分布を示す情報を生成するようにしたので、様々な特性を有する評価用データに対するパターン認識手段の認識性能分布情報を低コストで得ることができるという効果が得られる。
ここで、認識性能値とは、認識結果の認識の正誤に基づき算出可能な、正しい認識結果となった割合を示す認識率などがある。
更に、請求項11に係る発明は、請求項10記載の認識性能分布情報生成装置において、
前記認識性能分布情報生成手段は、前記認識性能分布情報として、前記複数の認識対象の認識性能値を座標空間上に降順または昇順に並べると共に、当該並べられた認識性能値に対して近似曲線または近似直線を引くことで前記認識性能値の分布を示すグラフを生成することを特徴としている。
このような構成であれば、前記認識性能分布情報生成手段は、前記認識性能分布情報として、前記複数の認識対象の認識性能値を座標空間上に降順または昇順に、例えば等間隔に並べると共に、当該並べられた認識性能値に対して近似曲線または近似直線を引くことで前記認識性能値の分布を示すグラフを生成することが可能である。
従って、性能評価値の分布を近似曲線または近似直線によって近似することで、様々な特性を有する認識対象に対する認識性能値の連続的な変化(変化特性)を推定することができると共に、例えば、このような認識性能分布情報を出力(表示、プリントアウト等)することで、様々な特性を有する認識対象に対する認識性能値の連続的な変化を視覚的に簡易に把握することができるという効果が得られる。
一方、上記目的を達成するために、請求項12記載の認識性能分布情報生成システムは、
所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成システムであって、
前記パターン認識の仕様に関する仕様情報を取得する仕様情報取得手段と、
予め取得された、複数対象に係る複数の信号データを記憶する信号データ記憶手段と、
前記仕様情報に基づき、前記信号データ記憶手段に記憶された信号データから、前記パターン認識手段の認識性能評価用の評価用データの生成処理に用いる信号データを選択する信号データ選択手段と、
前記信号データ選択手段で選択した信号データに基づき、4次元以上の高次元の要素からなる高次信号パターンモデルを生成する高次信号パターンモデル生成手段と、
前記高次信号パターンモデル生成手段で生成した複数の前記高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間を生成する低次信号ベクトル空間生成手段と、
前記低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれが交差する複数本の座標軸を設定する座標軸設定手段と、
前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択手段と、
前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成手段と、
前記評価用データ生成手段で生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力手段と、
前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得手段と、
前記認識結果取得手段で取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出手段と、
前記認識性能値算出手段の算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成手段と、
前記認識性能分布情報生成手段で生成された認識性能分布情報を出力する認識性能分布情報出力手段と、を備えることを特徴としている。
このような構成であれば、仕様情報取得手段によって、前記パターン認識の仕様に関する仕様情報を取得することが可能であり、信号データ記憶手段によって、予め取得された、複数対象に係る複数の信号データを記憶することが可能であり、信号データ選択手段によって、前記仕様情報に基づき、前記信号データ記憶手段に記憶された信号データから、前記パターン認識手段の認識性能評価用の評価用データの生成処理に用いる信号データを選択することが可能であり、高次信号パターンモデル生成手段によって、前記信号データ選択手段で選択した信号データに基づき、4次元以上の高次元の要素からなる高次信号パターンモデルを生成することが可能であり、低次信号ベクトル空間生成手段によって、前記高次信号パターンモデル生成手段で生成した複数の前記高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間を生成することが可能であり、座標軸設定手段によって、前記低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれが例えば、均等に交差する複数本の座標軸を設定することが可能であり、低次信号ベクトル選択手段によって、前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択することが可能であり、評価用データ生成手段によって、前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成することが可能である。
また、評価用データ入力手段によって、前記評価用データ生成手段で生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力することが可能であり、認識結果取得手段によって、前記パターン認識手段の前記評価用データに対する認識結果を取得することが可能であり、認識性能値算出手段によって、前記認識結果取得手段で取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出することが可能であり、認識性能分布情報生成手段によって、前記認識性能値算出手段の算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成することが可能であり、認識性能分布情報出力手段によって、前記認識性能分布情報生成手段で生成された認識性能分布情報を出力することが可能である。
従って、パターン認識手段の仕様情報に基づき、当該パターン認識手段の仕様に応じた信号データを信号データ記憶手段から取得し、当該取得した信号データから高次信号パターンモデルを生成し、且つ当該高次信号パターンモデルを射影して低次信号ベクトル空間を生成することができる。そして、この低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれが例えば、均等に交差する複数本の座標軸を設定し、この設定した座標軸上及びその近傍に位置する低次信号ベクトルを選択し、当該選択した低次信号ベクトルに対応する信号データから評価用データを生成するようにしたので、前記パターン認識手段を評価するのに適切な様々な特性を有する評価用データを効率良く生成することができる。更に、当該生成した評価用データを当該パターン認識手段に入力し、その認識結果を取得して認識性能値を算出し、当該算出結果に基づき認識性能値の分布を示す認識性能分布情報を生成して、これを出力するようにしたので、様々な特性を有する評価用データに対するパターン認識手段の認識性能分布情報を低コストで得ることができると共に、認識性能値の分布を視覚的に簡易に把握することができるという効果が得られる。
ここで、仕様情報とは、パターン認識手段が、例えば、音声認識手段である場合に、音声認識語彙に関する情報、パターン認識アプリケーション機器の動作環境に関する情報、パターン認識アプリケーション機器のユーザー層に関する情報などが含まれる。また、これらの仕様情報から、音声の認識性能分布の予測に有効な情報を抽出することができる。例えば、音声の言語種別、語彙サイズ、受理すべき発話文法、パターン認識アプリケーション機器の動作環境の雑音種別やSNR(Signal-to-Noise Ratio)、残響のパターンや残響時間、パターン認識アプリケーション機器のユーザーの出身地や年齢などの情報を抽出することができる。
また、本システムは、単一の装置、端末その他の機器として実現するようにしてもよいし、複数の装置、端末その他の機器を通信可能に接続したネットワークシステムとして実現するようにしてもよい。後者の場合、各構成要素は、それぞれ通信可能に接続されていれば、複数の機器等のうちいずれに属していてもよい。
一方、上記目的を達成するために、請求項13記載の評価用データ生成プログラムは、
パターン認識における認識性能を評価するための評価用データを生成する評価用データ生成プログラムであって、
複数対象に係る複数の信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心を原点とした複数本の座標軸を設定する座標軸設定ステップと、
前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
前記低次信号ベクトル選択ステップで選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成ステップとからなる処理をコンピュータに実行させるためのプログラムを含むことを特徴としている。
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、請求項1記載の評価用データ生成装置と同等の作用および効果が得られる。
また、上記目的を達成するために、請求項14記載の評価用データ生成方法は、
パターン認識における認識性能を評価するための評価用データを生成する評価用データ生成方法であって、
複数対象に係る複数の信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心を原点とした複数本の座標軸を設定する座標軸設定ステップと、
前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
前記低次信号ベクトル選択ステップで選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成ステップと、を含むことを特徴としている。
これにより、請求項1記載の評価用データ生成装置と同等の効果が得られる。
一方、上記目的を達成するために、請求項15記載の認識性能分布情報生成プログラムは、
所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成プログラムであって、
複数対象に係る複数の信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心を原点とした複数本の座標軸を設定する座標軸設定ステップと、
前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
前記低次信号ベクトル選択ステップで選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成ステップと、
前記評価用データ生成ステップで生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力ステップと、
前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得ステップと、
前記認識結果取得ステップで取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出ステップと、
前記認識性能値算出ステップの算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成ステップとからなる処理をコンピュータに実行させるためのプログラムを含むことを特徴としている。
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、請求項10記載の認識性能分布情報生成装置と同等の作用および効果が得られる。
また、上記目的を達成するために、請求項16記載の認識性能分布情報生成方法は、
所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成方法であって、
複数対象に係る複数の信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心を原点とした複数本の座標軸を設定する座標軸設定ステップと、
前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
前記低次信号ベクトル選択ステップで選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成ステップと、
前記評価用データ生成ステップで生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力ステップと、
前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得ステップと、
前記認識結果取得ステップで取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出ステップと、
前記認識性能値算出ステップの算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成ステップと、を含むことを特徴としている。
これにより、請求項10記載の認識性能分布情報生成装置と同等の効果が得られる。
一方、上記目的を達成するために、請求項17記載の認識性能分布情報生成プログラムは、
所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成プログラムであって、
前記パターン認識の仕様に関する仕様情報を取得する仕様情報取得ステップと、
前記仕様情報に基づき、信号データ記憶手段に記憶された複数対象に係る複数の信号データから、前記パターン認識手段の認識性能評価用の評価用データの生成処理に用いる信号データを選択する信号データ選択ステップと、
前記信号データ選択ステップで選択した信号データに基づき、4次元以上の高次元の要素からなる高次信号パターンモデルを生成する高次信号パターンモデル生成ステップと、
前記高次信号パターンモデル生成ステップで生成した複数の前記高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間を生成する低次信号ベクトル空間生成ステップと、
前記低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心を原点とした複数本の座標軸を設定する座標軸設定ステップと、
前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用のパターンデータを生成する評価用データ生成ステップと、
前記評価用データ生成ステップで生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力ステップと、
前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得ステップと、
前記認識結果取得ステップで取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出ステップと、
前記認識性能値算出ステップの算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成ステップと、
前記認識性能分布情報生成ステップで生成された認識性能分布情報を出力する認識性能分布情報出力ステップとからなる処理をコンピュータに実行させるためのプログラムを含むことを特徴としている。
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、請求項12記載の認識性能分布情報生成システムと同等の作用および効果が得られる。
また、上記目的を達成するために、請求項18記載の認識性能分布情報生成方法は、
所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成方法であって、
前記パターン認識の仕様に関する仕様情報を取得する仕様情報取得ステップと、
前記仕様情報に基づき、信号データ記憶手段に記憶された複数対象に係る複数の信号データから、前記パターン認識手段の認識性能評価用の評価用データの生成処理に用いる信号データを選択する信号データ選択ステップと、
前記信号データ選択ステップで選択した信号データに基づき、4次元以上の高次元の要素からなる高次信号パターンモデルを生成する高次信号パターンモデル生成ステップと、
前記高次信号パターンモデル生成ステップで生成した複数の前記高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間を生成する低次信号ベクトル空間生成ステップと、
前記低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心を原点とした複数本の座標軸を設定する座標軸設定ステップと、
前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用のパターンデータを生成する評価用データ生成ステップと、
前記評価用データ生成ステップで生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力ステップと、
前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得ステップと、
前記認識結果取得ステップで取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出ステップと、
前記認識性能値算出ステップの算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成ステップと、
前記認識性能分布情報生成ステップで生成された認識性能分布情報を出力する認識性能分布情報出力ステップとからなる処理をコンピュータに実行させるためのプログラムを含むことを特徴としている。
これにより、請求項12記載の認識性能分布情報生成システムと同等の効果が得られる。
以上説明したように、本発明に係る評価用データ生成装置、評価用データ生成プログラム及び評価用データ生成方法によれば、例えば、大規模な信号データの集合から、様々な特性を有する認識対象(評価基準)の信号データを効率よく広範囲にかつ偏り無く一様に選択することができ、このような信号データからパターン認識手段の性能評価用の評価用データを生成することで、低次信号ベクトル空間の全低次信号ベクトルに対応する信号データを用いた場合と比較して、非常に少ない数の評価用データで、様々な特性を有する認識対象の評価用データに対するパターン認識手段の認識性能を評価することができる。つまり、パターン認識手段の認識性能を評価するのに適した評価用データを効率よく広範囲にかつ偏り無く一様に生成することができるという効果が得られる。
また、本発明に係る認識性能分布情報生成装置、認識性能分布情報生成プログラム及び認識性能分布情報生成方法によれば、例えば、大規模な信号データの集合から、様々な特性を有する認識対象(評価基準)の信号データを効率よく広範囲にかつ偏り無く一様に選択し、且つ当該選択された信号データから生成された評価用データに対するパターン認識手段の認識結果から算出される認識性能値の分布を示す情報を生成するようにしたので、様々な特性を有する認識対象の評価用データに対するパターン認識手段の認識性能分布情報を低コストで得ることができるという効果が得られる。
また、本発明に係る認識性能分布情報生成システム、認識性能分布情報生成プログラム及び認識性能分布情報生成方法によれば、パターン認識手段を評価するのに適切な様々な特性を有する認識対象の評価用データを効率よく広範囲にかつ偏り無く一様に生成することができ、更に、様々な特性を有する認識対象の評価用データに対するパターン認識手段の認識性能分布情報を低コストで得ることができると共に、認識性能値の分布を視覚的に簡易に把握することができるという効果が得られる。
〔第1の実施形態〕
以下、本発明の第1の実施形態を図面に基づき説明する。図1〜図13は、本発明に係る評価用データ生成装置、評価用データ生成プログラム及び評価用データ生成方法、並びに認識性能分布情報生成装置、認識性能分布情報生成プログラム及び認識性能分布情報生成方法の実施形態を示す図である。
まず、本発明に係る認識性能分布情報生成装置100の概略構成を図1に基づき説明する。図1は、本発明に係る認識性能分布情報生成装置100の概略構成を示すブロック図である。
認識性能分布情報生成装置100は、図1に示すように、評価用データ生成器10と、認識性能分布情報生成器20とを含んで構成される。
評価用データ生成器10は、複数対象に係る信号データから生成される高次信号パターンモデルによって構成されるデータ空間を、低次の信号ベクトルによって構成されるデータ空間に写像してなる低次信号ベクトル空間を複数の領域に分割すると共に、当該分割された低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心においてそれぞれが例えば、均等に交差する複数本の座標軸を設定する。そして、これら設定された複数本の座標軸と各領域を区分する区分境界とが交差する位置及びその近傍に位置する低次信号ベクトルを選択する。更に、当該選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、各高次信号パターンモデルに対応するラベル(対象の種類や属性等を示す情報)毎の評価用データを生成する。
認識性能分布情報生成器20は、評価用データ生成器10で生成されたラベル毎の評価用データを取得し、当該取得した評価用データを、図1に示すパターン認識器300に入力し、これら入力した評価用データに対するパターン認識結果を取得する。そして、当該取得した認識結果に基づき、ラベル毎の認識性能値を算出し、当該算出した認識性能値に基づき全ラベルの認識性能値の分布を示す認識性能分布情報を生成する。
更に、図2に基づき、評価用データ生成器10の詳細な機能構成を説明する。ここで、図2は、評価用データ生成器10の機能構成を示す図である。
評価用データ生成器10は、図2に示すように、外部から入力される各種データを取得するデータ取得部10aと、当該評価用データ生成器10を統括制御するデータ制御部10bと、低次信号ベクトル空間(複数の低次信号ベクトルデータから構成されたデータ空間)を記憶する低次信号ベクトル空間記憶部10cと、信号データ及びこれら信号データから生成された高次信号パターンモデルを記憶する信号データ記憶部10dと、信号データに基づき高次信号パターンモデルを生成する高次信号パターンモデル生成部10eと、高次信号パターンモデルに基づき低次信号ベクトル空間を生成する低次信号ベクトル空間生成部10fとを含んで構成される。
データ取得部10aは、外部機器等を介して入力される、信号データ、または低次信号ベクトル空間データなどを含む評価用データの生成処理への移行を指示する指示データなどを取得し、当該取得した指示データをデータ制御部10bに伝送する機能を有している。ここで、本実施形態において、信号データにはラベル情報が付加されており、当該信号データの属性(対象を識別する情報等)が解るようになっている。また、本実施形態において、低次信号ベクトル空間は、必ず、この低次信号ベクトル空間を生成したときの高次信号パターンモデル及び当該高次信号パターンモデルの生成時に使用した信号データもセットで入力されるようになっている。また、指示データは、評価用データ生成器10に対して、評価用データの生成処理における生成モードの種類を指示するためのコマンドを含んでいる。本実施形態において、この生成モードには、以下の3つの種類がある。
生成モード1:新規に入力された低次信号ベクトル空間に対して、領域の区分及び座標軸の設定を行い、評価用データの生成を行う。従って、指示データには、生成モード1を指示するコマンド、新規の低次信号ベクトル空間データ、新規の高次信号パターンモデル及び新規の信号データが含まれる。
生成モード2:低次信号ベクトル空間記憶部10cに記憶された低次信号ベクトル空間から、外部機器等から入力された指示データに対応する低次信号ベクトル空間を選択し、当該選択した低次信号ベクトル空間における、前記入力された指示データに含まれる属性情報に対応する低次信号ベクトルを選択する。更に、当該選択された低次信号ベクトルに基づき評価領域を同定し、当該評価領域内の全低次信号ベクトルに対応する高次信号パターンモデルに基づき低次信号ベクトル空間を再構成し、この再構成した低次信号ベクトル空間に対して生成モード1と同様の処理を行って評価用データを生成する。従って、指示データには、生成モード2を指示するコマンド及び認識対象に係る属性情報が含まれる。
生成モード3:新規に入力された信号データに基づき高次信号パターンモデルを生成し、低次信号ベクトル空間記憶部10cに記憶された低次信号ベクトル空間から前記入力された信号データに対応する低次信号ベクトル空間を選択し、当該選択した低次信号ベクトル空間に対して、前記生成した高次信号パターンモデルに対応する低次信号パターンモデルを追加する。更に、当該追加した低次信号ベクトルに基づき評価領域を同定し、当該評価領域内の全低次信号ベクトルに対応する高次信号パターンモデルに基づき低次信号ベクトル空間を再構成し、この再構成した低次信号ベクトル空間に対して生成モード1と同様の処理を行って評価用データを生成する。従って、指示データには、生成モード3を指示するコマンド及び新規の信号データが含まれる。
データ制御部10bは、評価用データ生成器10を構成する各構成要素間のデータの流れを制御したり、各構成要素の動作処理の流れを制御したりするなど当該評価用データ生成器10を統括制御する。具体的には、データ取得部10aから伝送された指示データに含まれる新規の低次信号ベクトル空間を、低次信号ベクトル空間記憶部10cに記憶したり、データ取得部10aから伝送された指示データに含まれる新規の信号データを、信号データ記憶部10dに記憶したりする。また、データ取得部10aから伝送された指示データの示す生成モードに応じて、各構成要素にコマンドを発行して各モードに対応した評価用データの生成に必要な処理を各構成要素に実行させる。
低次信号ベクトル空間記憶部10cは、外部装置からネットワーク等を介して送られてきたり、記憶媒体を介して送られてきたりした低次信号ベクトル空間や、低次信号ベクトル空間生成部10fで生成された低次信号ベクトル空間などを、これらの空間を構成する低次信号ベクトルに対応する高次信号パターンモデル及び信号データ群に対応付けて記憶する。
信号データ記憶部10dは、複数の話者が発声した音声信号データ、複数の赤外線センサなどのセンサから出力されたセンサ出力信号データ、複数の野生生物の鳴声信号データ等の複数対象に係る信号データ、これら信号データから生成された高次信号パターンモデル、高次信号パターンモデル生成部10eで生成された高次信号パターンモデルなどを記憶する。更に、本実施形態においては、複数対象に係る信号データを、複数の特定条件に基づきグループ分けして各グループ毎にラベルを付加して記憶する機能を有している。例えば、複数話者から取得した不特定多数の音声データを、話者の名前、男性/女性の性別、子供/大人/高齢者の年齢別等の「話者の種類」、発話する、数字、文章、単語等の「発話語彙」、発話速度、発話音量、方言に由来する特徴等の「発話様式」などの特定条件に基づいてグループ分けして記憶する。
高次信号パターンモデル生成部10eは、まず、信号データ記憶部10dに記憶された各グループ毎の信号データのうち、生成モード3を示す指示データに対応する新規の信号データから、ケプストラム分析や線形予測分析などの分析処理によって4次元以上の高次元の特徴量(特徴パラメータともいう)を抽出する機能を有している。更に、当該抽出した高次元の特徴量を学習データとして、公知のEMアルゴリズム等を用いてHMMの学習を行い、当該学習後のHMMから構成される高次元の要素を含んでなるパターンモデルを生成する機能を有している。ここで、パターンモデルは、例えば、複数対象に係る信号データであれば、各グループを構成する個人や個体毎などに生成される。
低次信号ベクトル空間生成部10fは、公知のSammon法を用いて、複数の高次信号パターンモデルによって構成されるデータ空間の代替として、当該データ空間における各パターンモデル間の距離関係を近似した状態で、当該複数の高次信号パターンモデルを高次信号パターンモデルの次元未満の次元の低次元の要素からなる信号ベクトルから構成されるデータ空間へと写像して低次信号ベクトル空間を生成する機能を有している。また、新規の高次信号パターンモデルを、既存の低次信号ベクトル空間に追加する機能も有している。
ここで、Sammon法とは、高次元空間上のベクトル情報(高次パターンモデル)の相互距離の総和と低次元空間上の写像位置座標(低次ベクトル)の相互ユークリッド距離の総和との差が最小となるように、最急降下法により低次元空間上の写像位置座標を最適化する手法である。つまり、高次信号パターンモデルおよび高次ノイズパターンモデルは、各パターンモデル間の距離関係を近似した状態で、例えば、2次元または3次元の低次ベクトルへと変換され、低次元空間上における座標点へと写像されることになる。
図2に示すように、評価用データ生成部10は、更に、低次信号ベクトル空間における評価領域を同定する評価領域同定部10gと、低次信号ベクトル空間を複数の領域に区分する領域区分部10hと、領域区分後の低次信号ベクトル空間に対して複数本の座標軸を設定する座標軸設定部10iと、当該設定された座標軸に基づき、低次信号ベクトル空間から評価に係る低次信号ベクトルを選択する低次信号ベクトル選択部10jと、当該選択された低次信号ベクトルに対応する高次信号パターンモデルの生成時に使用した信号データに基づき評価用データを生成する評価用データ生成部10kとを含んで構成される。
評価領域同定部10gは、生成モード2及び生成モード3に対する評価用データの生成処理において、新規に入力された信号データに対応する低次信号ベクトルに基づき、当該信号データの属性に対応する評価領域を同定する。具体的に、生成モード2においては、低次信号ベクトル空間から、属性情報に対応する低次信号ベクトルを選択し、この選択した低次信号ベクトルの形成する分布の最外縁にそれぞれ位置する低次信号ベクトルの座標点を直線で結び、この直線が囲む領域を評価領域として同定する。一方、生成モード3においては、まず、新規に入力された信号データから高次信号パターンモデルを生成し、当該生成した高次信号パターンモデルに対応する低次信号ベクトルを低次信号ベクトル空間に追加する。そして、この低次信号ベクトル空間において、前記追加した新規の低次信号ベクトルが形成する分布の最外縁にそれぞれ位置する低次信号ベクトルの座標点を直線で結び、この直線が囲む領域を評価領域として同定する。
領域区分部10hは、複数の低次信号ベクトルから構成される2次元(または3次元)の低次信号ベクトル空間を、全低次信号ベクトルの重心を中心とし、当該中心とそこから最も離れた位置にある低次信号ベクトルとの間の距離を半径とした外円(または外球)と、前記重心を中心とし、前記外円(または外球)よりも短い半径のn個の内円(または内球)とによって区分する機能を有している。
ここで、上記括弧内の記載は、低次信号ベクトル空間が3次元空間である場合の形状を示す記載である。このことは、以下の低次信号ベクトル空間に対する記載においても同様である。
座標軸設定部10iは、領域区分部10hで領域が区分された低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心においてそれぞれが例えば、均等に交差する複数本の座標軸を設定する。具体的には、複数本の座標軸を重心から放射状に設定し、且つ重心を頂点とする各座標軸間の角度が等角度となるように設定する。つまり、各座標軸間の角度を等角度にすることで、放射角の角度方向に離散的且つ満遍なく座標軸を設定することが可能である。
低次信号ベクトル選択部10jは、領域区分部10hで領域が区分され、且つ座標軸設定部10iで座標軸の設定された低次信号ベクトル空間から、当該座標軸と、前記領域の区分境界線とが交差する位置の近傍に位置する低次信号ベクトルを選択する。本実施形態においては、交差位置に低次信号ベクトルがある場合はその低次信号ベクトルを選択し、交差位置に低次信号ベクトルがない場合は、交差位置から所定距離以内にある低次信号ベクトルを選択する。
評価用データ生成部10kは、低次信号ベクトル選択部10jで選択された低次信号ベクトルに対応する高次信号パターンモデルの生成時に使用した信号データに基づき、評価用データを生成する。具体的には、信号データ記憶部10dに記憶されている多数の信号データを構成する複数種類の部分信号系列から、生成する評価用データを構成するための複数の部分信号系列を選択し、当該選択した複数の部分信号系列を接続して評価用データを生成する。更に、本実施形態においては、信号データ記憶部10dに記憶されている多数の信号データから予め特徴パラメータを算出して当該信号データ記憶部10dに記憶してあり、この特徴パラメータを構成する複数種類の部分系列から、生成する評価用データを構成するための複数の部分系列を選択し、当該選択した複数の部分系列を接続して評価用データを生成することが可能である。なお、これら評価用データの生成方法は、パターン認識器300の仕様に応じて適宜変更される。
更に、図3に基づき、認識性能分布情報生成器20の詳細な機能構成を説明する。ここで、図3は、認識性能分布情報生成器20の機能構成を示すブロック図である。
認識性能分布情報生成器20は、図3に示すように、当該認識性能分布情報生成器20を統括制御するデータ制御部20aと、評価用データ等の各種データを記憶するデータ記憶部20bと、パターン認識器300に評価用データを入力する評価用データ入力部20cと、パターン認識器300から認識結果を取得する認識結果取得部20dと、当該取得した認識結果に基づき認識性能値を算出する認識性能値算出部20eと、当該算出した認識性能値に基づき認識性能分布情報を生成する認識性能分布情報生成部20fと、当該生成した認識性能分布情報を出力する認識性能分布情報出力部20gとを含んで構成される。
データ制御部20aは、認識性能分布情報生成器20を構成する各構成要素間のデータの流れを制御したり、各構成要素の動作処理の流れを制御したりするなど当該認識性能分布情報生成器20を統括制御する。具体的には、評価用データ生成器10から伝送された評価用データ、認識結果取得部20dで取得した認識結果データ、認識性能値算出部20eで算出した認識性能値データ、認識性能分布情報生成部20fで生成した認識性能分布情報データなどをデータ記憶部20bに記憶する。また、各構成要素にコマンドを発行して認識性能分布情報の生成に必要な処理を各構成要素に実行させたり、認識性能分布情報を認識性能分布情報出力部20gに出力させたりする。
データ記憶部20bは、評価用データ、認識結果データ、認識性能値データ、認識性能分布情報データ等の各種データを記憶する。
評価用データ入力部20cは、パターン認識器300の仕様に応じた評価用データを、データ制御部20aを介してデータ記憶部20bから取得し、当該取得した評価用データを、パターン認識器300に入力する。ここで、評価用データは、認識性能分布情報生成装置100とパターン認識器300との接続形態に応じて、有線または無線等を介してパターン認識器300に入力される。なお、パターン認識器300の機能を、例えば、認識性能分布情報生成装置100内に持たせ、内部で全てを処理する構成としても良い。その場合は、データ伝送バス等を介して評価用データがパターン認識器300に伝送される。
認識結果取得部20dは、評価用データ入力部20cから入力された評価データに対するパターン認識器300の認識結果データを取得する。そして、取得した認識結果データは、データ制御部20aに伝送され、当該データ制御部20aを介してパターン認識を行ったパターン認識器300の仕様情報(認識対象の種類、認識エンジンの種類などを含む情報)と対応付けてデータ記憶部20bに記憶される。ここで、認識結果データの取得は、評価用データ入力部20cと同様に、認識性能分布情報生成装置100とパターン認識器300との接続形態に応じて、有線または無線等を介してパターン認識器300から取得される。なお、パターン認識器300の機能を、認識性能分布情報生成装置100内に持たせ、内部で全てを処理する構成とした場合は、データ伝送バス等を介して認識結果データがパターン認識器300から伝送される。
また、認識結果データは、各高次信号パターンモデルのラベル毎に生成される複数種類の評価データの各評価データ毎の認識結果を示すデータである。
認識性能値算出部20eは、パターン認識器300の仕様情報毎にデータ記憶部20bに記憶された認識結果データを、データ制御部20aを介してデータ記憶部20bから取得し、当該取得した認識結果データに基づき、各ラベル毎の認識性能値を算出する。具体的には、評価用データの示す単語が予め解っているので、各ラベル毎に生成された複数種類の評価用データの認識結果データから各ラベル毎の正しい認識結果の割合を示す認識率を算出する。例えば、各ラベル毎に100個の評価用データがあるとすると、このうちパターン認識器300で正しく認識できた数が90個だとすると、算出される認識性能値は「90%」となる。そして、算出した認識性能値のデータを、パターン認識器300の仕様情報且つ高次信号パターンモデルの各ラベルに対応付けてデータ記憶部20bに記憶する。
認識性能分布情報生成部20fは、パターン認識器300の仕様情報毎且つ高次信号パターンモデルのラベル毎にデータ記憶部20bに記憶された認識性能値データを、データ制御部20aを介してデータ記憶部20bから取得し、当該取得した認識性能値データに基づき、パターン認識器300の仕様情報毎の認識性能分布情報を生成する。そして、当該生成した認識性能分布情報をデータ制御部20aを介してデータ記憶部20bに記憶する。
本実施形態においては、各ラベル毎に算出された複数の認識性能値(認識率)を、縦軸を認識率、横軸をラベル種類とした座標空間に、各数値の大きさに基づき降順または昇順に例えば、等間隔に並び替え、更に、当該並び替えた認識性能値全体を直線近似または曲線近似することで、認識性能値の分布をグラフ化してなる認識性能分布情報を生成する。
例えば、パターン認識器300が音声認識エンジンを搭載しており、評価用データが評価用音声データである場合、高次信号パターンモデルに対応付けられたラベルには、話者の識別情報(氏名等)、音声データ収集時の周辺環境(発話環境)の情報、音声データ収集時の発話の方法(発話様式)などの特定条件を示す情報などが含まれる。従って、この場合の認識性能分布情報は、各話者毎の認識率の分布を示すグラフとなる。
認識性能分布情報出力部20gは、認識性能分布情報生成部20fで生成された認識性能分布情報またはデータ記憶部20bに記憶された認識性能分布情報を表示出力したり、プリント出力したりする他、認識性能分布情報データを外部機器に出力したりする。
なお、本実施形態において、認識性能分布情報生成装置100は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶されたROM(Read Only Memory)と、を備えており、プロセッサにより専用のプログラムを実行することにより上記評価用データ生成器10及び上記認識性能分布情報生成器20の各部の機能を果たす。ここで、上記各部は、専用のプログラムのみでその機能を果たすもの、専用のプログラムによりハードウェアを制御してその機能を果たすもの等が混在している。
更に、図4に基づき、認識性能分布情報生成装置100の評価用データ生成器10における評価用データの生成処理の流れを説明する。ここで、図4は、評価用データ生成器10の評価用データ生成処理を示すフローチャートである。
評価用データ生成処理は、図4に示すように、まずステップS100に移行し、データ制御部10bにおいて、データ取得部10aを介して指示データを取得したか否かを判定し、取得したと判定された場合(Yes)は、ステップS102に移行し、そうでない場合(Yes)は判定処理を続行する。
ステップS102に移行した場合は、データ制御部10bにおいて、ステップS100で取得した指示データの示すモードは生成モード1か否かを判定し、生成モード1であると判定された場合(Yes)は、領域区分部10hに領域区分処理実行コマンドを発行してステップS104に移行し、そうでない場合(No)は、ステップS114に移行する。ここで、指示データには、生成モード1を示す情報と、低次信号ベクトル空間の種類を示す情報とが含まれており、
ステップS104に移行した場合は、領域区分部10hにおいて、データ制御部10bからの領域区分処理実行コマンドに応じて、低次信号ベクトル空間記憶部10cから、ステップS100で取得した指示データに対応する新規の低次信号ベクトル空間データを読み出してステップS106に移行する。
ステップS106では、領域区分部10hにおいて、各生成モードの種類に応じて、ステップS104で読み出した新規の低次信号ベクトル空間、またはステップS122で再構成された低次信号ベクトル空間を複数の領域に区分し、当該区分後の低次信号ベクトル空間データを、データ制御部10bを介して座標軸設定実行コマンドと共に座標軸設定部10iに伝送してステップS108に移行する。
ステップS108では、座標軸設定部10iにおいて、データ制御部10bからの座標軸設定実行コマンドに応じて、ステップS106で複数の領域に区分された低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心においてそれぞれ交差(例えば、均等に交差)する複数本の座標軸を設定し、当該設定後の低次信号ベクトル空間データを、データ制御部10bを介して低次信号ベクトル選択処理実行コマンドと共に低次信号ベクトル選択部10jに通知してステップS110に移行する。
ステップS110では、低次信号ベクトル選択部10jにおいて、低次信号ベクトル選択処理実行コマンドに応じて、複数本の座標軸と、区分された各領域の境界との交差位置に最も近い位置にある低次信号ベクトルを選択し、当該選択結果をデータ制御部10bを介して評価用データ生成部10kに通知してステップS112に移行する。但し、交差位置から所定距離以内に低次信号ベクトルが無い場合は選択しない。
ステップS112では、評価用データ生成部10kにおいて、ステップS110で選択された低次信号ベクトルに対応する高次信号ベクトルの生成時の信号データを用いて、評価用データを生成し、当該生成した評価用データをデータ制御部10bに伝送してステップS114に移行する。
ステップS114では、データ制御部10bにおいて、評価用データ生成部10kから伝送されてきた評価用データを、認識性能分布情報生成器20に伝送してステップS100に移行する。
一方、ステップS102において、生成モード1ではなくステップS116に移行した場合は、データ制御部10bにおいて、ステップS100で取得した指示データの示すモードは生成モード2か否かを判定し、生成モード2であると判定された場合(Yes)は、評価領域同定部10gに評価領域同定処理実行コマンドを発行してステップS118に移行し、そうでない場合(No)は、ステップS124に移行する。
ステップS118に移行した場合は、評価領域同定部10gにおいて、データ制御部10bからの評価領域同定処理実行コマンドに応じて、低次信号ベクトル空間記憶部10cから、ステップS100で取得した指示データに対応する低次信号ベクトル空間データを読み出してステップS120に移行する。
ステップS120では、評価領域同定部10gにおいて、ステップS100で取得した指示データに含まれる属性情報に基づき、ステップS118で読み出した低次信号ベクトル空間における、前記属性情報に対応する低次信号ベクトルを選択してステップS122に移行する。
ステップS122では、評価領域同定部10gにおいて、ステップS120で選択した低次信号ベクトルが、ステップS118で読み出した低次信号ベクトル空間において形成する分布の最外縁にそれぞれ位置する低次信号ベクトルの座標点をそれぞれ直線で結んで形成される領域を評価領域と同定し、この同定した評価領域の情報をデータ制御部10bを介して低次信号ベクトル空間生成処理実行コマンドと共に低次信号ベクトル空間生成部10fに伝送してステップS124に移行する。
ステップS124では、低次信号ベクトル空間生成部10fにおいて、低次信号ベクトル空間生成処理実行コマンド及び生成モードの種類に応じて、ステップS122で同定された評価領域内、またはステップS134で同定された評価領域内に含まれる全低次信号ベクトルに対応する高次信号パターンモデルだけを用いて、ステップS118で読み出した低次信号ベクトル空間を再構成し、当該再構成した低次信号ベクトル空間データを領域区分処理実行コマンドと共にデータ制御部10bを介して領域区分部10hに伝送してステップS106に移行する。つまり、ステップS118で読み出した低次信号ベクトル空間を、認識対象に係る属性情報に関与する低次信号ベクトルのみで構成されるデータ空間に再構成する。
また、ステップS116において生成モード2ではなくステップS126に移行した場合は、データ制御部10bにおいて、ステップS100で取得した指示データの示すモードは生成モード3か否かを判定し、生成モード3であると判定された場合(Yes)は、高次信号パターンモデル生成部10eに高次信号パターンモデル生成処理実行コマンドを発行してステップS128に移行し、そうでない場合(No)は、ステップS136に移行する。
ステップS128に移行した場合は、高次信号パターンモデル生成部10eにおいて、ステップS100で取得した指示データに対応する信号データを信号データ記憶部10cから読み出し、当該読み出した信号データに基づき、高次信号パターンモデルを生成し、当該生成した高次信号パターンモデルを低次信号ベクトル空間生成処理実行コマンドと共に、データ制御部10bを介して低次信号ベクトル空間生成部10fに伝送してステップS130に移行する。
ステップS130では、低次信号ベクトル空間生成部10fにおいて、ステップS100で取得した指示データに対応する低次信号ベクトル空間データを、データ制御部10bを介して低次信号ベクトル空間記憶部10cから読み出してステップS132に移行する。
ステップS132では、低次信号ベクトル空間生成部10fにおいて、ステップS130で読み出した低次信号ベクトル空間に、ステップS128で生成した高次信号パターンモデルに対応する低次信号ベクトルを追加した低次信号ベクトル空間を生成し、当該生成した低次信号ベクトル空間データを、データ制御部10bを介して評価領域同定処理実行コマンドと共に評価領域同定部10gに伝送してステップS134に移行する。
ステップS134では、評価領域同定部10gにおいて、ステップS132で追加した低次信号ベクトルの形成する分布の最外縁にそれぞれ位置する低次信号ベクトルの座標点を直線で結んで形成される領域を評価領域と同定してステップS124に移行する。
更に、図5に基づき、認識性能分布情報生成装置100の認識性能分布情報生成器20における認識性能分布情報生成処理の流れを説明する。ここで、図5は、認識性能分布情報生成器20の認識性能分布情報生成処理を示すフローチャートである。
認識性能分布情報生成処理は、図5に示すように、まずステップS200に移行し、データ制御部20aにおいて、評価用データ生成器10から評価用データを取得したか否かを判定し、取得したと判定された場合(Yes)は、当該取得した評価用データをデータ記憶部20bに記憶すると共に、入力実行コマンドを評価用データ入力部20cに伝送してステップS202に移行し、そうでない場合(No)は、取得するまで判定処理を続行する。
ステップS202に移行した場合は、評価用データ入力部20cにおいて、入力実行コマンドの指示する評価用データを、データ記憶部20bから読み出し、当該読み出した評価用データを、当該評価用データに対応する仕様を有したパターン認識器300に入力してステップS204に移行する。
ステップS204では、認識結果取得部20dにおいて、パターン認識器300からの認識結果データを取得し、当該取得した認識結果データをデータ制御部20aを介してデータ記憶部20bに記憶すると共に認識性能値算出処理実行コマンドを認識性能値算出部20eに伝送してステップS206に移行する。
ステップS206では、認識性能値算出部20eにおいて、認識性能値算出処理実行コマンドに応じて、データ記憶部20bから、ステップS204で取得された認識結果データを読み出し、当該読み出した認識結果データに基づき、認識性能値を算出し、当該算出した認識性能値をデータ制御部20aを介してデータ記憶部20bに記憶すると共に認識性能分布情報生成処理実行コマンドを認識性能分布情報生成部20fに伝送してステップS208に移行する。
ステップS208では、認識性能分布情報生成部20fにおいて、認識性能分布情報生成処理実行コマンドに応じて、データ記憶部20bから、ステップS206で算出された認識性能値データを読み出し、当該読み出した認識性能値データに基づき認識性能分布情報を生成し、当該生成した認識性能分布情報をデータ制御部20aを介してデータ記憶部20bに記憶すると共に認識性能分布情報出力処理実行コマンドを認識性能分布情報出力部20gに伝送してステップS210に移行する。
ステップS210では、認識性能分布情報出力部20gにおいて、認識性能分布情報出力処理実行コマンドに応じて、ステップS208で生成された認識性能分布情報を出力してステップS200に移行する。
次に、図6〜図13に基づき、本実施形態の動作を説明する。
ここで、図6は、音声信号データに対する2次元の低次信号ベクトル空間の一例を示す図である。また、図7は、領域区分後の図6の低次信号ベクトル空間の一例を示す図である。また、図8は、複数本の座標軸が設定された図7の低次ベクトル空間の一例を示す図である。また、図9は、図8の低次信号ベクトル空間における座標軸と領域境界との交差位置を示す図である。また、図10は、座標軸上に位置する低次信号ベクトルの特性変化の様子の一例を示す図である。また、図11は、認識性能分布情報の一例を示す図である。また、図12は、生成モード2における評価領域の一例を示す図である。また、図13は、生成モード3における評価領域の一例を示す図である。
以下、信号データが音声信号データであり、パターン認識器300が音声認識エンジンの搭載された音声認識器であることを想定して説明を行う。
まず、外部機器から、データ取得部10aを介して、生成モード1による評価用データ生成処理の指示情報、評価用データの生成対象である低次信号ベクトル空間データ、当該低次信号ベクトル空間データの生成に用いた高次信号パターンモデル及び当該高次信号パターンモデルの生成時に使用した音声信号データを含む指示データが入力されたとする(ステップS100の「Yes」の分岐)。
データ制御部10bは、指示データが生成モード1による評価用データ生成処理を指示していることを確認すると(ステップS102の「Yes」の分岐)、上記取得した指示データに含まれる各種データを、低次信号ベクトル空間記憶部10c及び信号データ記憶部10dに記憶すると共に、領域区分処理実行コマンドを領域区分部10hに伝送する。
領域区分部10hは、データ制御部10bからの領域区分処理実行コマンドに応じて、指示データに対応する低次信号ベクトル空間データを低次信号ベクトル空間記憶部10cから読み出し(ステップS104)、当該読み出した低次信号ベクトル空間を複数の領域に区分し、領域区分後の低次信号ベクトル空間をデータ制御部10bを介して、座標軸設定実行コマンドと共に座標軸設定部10iに伝送する。(ステップS106)。
例えば、読み出した低次信号ベクトル空間は、2次元のデータ空間であり、これを可視化したものが、図6に示すようなものであるとする。ここで、図6に示す低次信号ベクトル空間は、100人の男性が日本の1000都市名を発声した音声データから作成された100個の特定話者に対する高次信号パターンモデルから作成されたものである。図6に示すように、各座標点が低次信号ベクトルとなる。領域区分部10hは、各低次信号ベクトルがこのような類似関係を有する低次信号ベクトル空間を、ここでは、図7に示すように、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心を中心とし、当該中心とそこから最も離れた位置にある低次信号ベクトルとの間の距離を半径とした外円と、前記重心を中心とし、前記外円よりも短い半径の3個の内円とによって区分する。
一方、座標軸設定部10iは、領域区分後の低次信号ベクトル空間を取得すると、当該低次信号ベクトル空間に対して、ここでは、図8に示すように、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心においてそれぞれが均等に交差する、8本の座標軸を設定し、当該設定後の低次信号ベクトル空間をデータ制御部10bを介して低次信号ベクトル選択処理実行コマンドと共に低次信号ベクトル選択部10jに伝送する(ステップS108)。ここで、座標軸設定部10iは、図8に示すように、8本の座標軸を放射状に設定すると共に、放射角度方向に各隣り合う2本の座標軸と重心とが形成する角度が、全て等角度(図8の例では、22.5°)となるように設定する。
低次信号ベクトル選択部10jは、座標軸設定後の低次信号ベクトル空間及び低次信号ベクトル選択処理実行コマンドを受信すると、座標軸設定後の低次信号ベクトル空間における、複数本の座標軸と区分された各領域の境界との交差位置に最も近い位置にある、低次信号ベクトルを選択し、当該選択した低次信号ベクトルをデータ制御部10bを介して評価用データ生成処理実行コマンドと共に評価用データ生成部10kに伝送する(ステップS110)。ここで、前記交差位置は、図9に示すようになり、低次信号ベクトル選択部10jは、これら交差位置に最も近い位置にある低次信号ベクトルを選択する。ここでは、図7に示す×印の位置にある低次信号ベクトルを選択したとする。
また、図9に示す、座標軸90に着目すると、この座標軸90における各交差位置にある低次信号ベクトルに対応する高次信号パターンモデルは、図10に示す交差点の濃度変化のように、その特性が段階的に変化する。具体的には、各交差位置に対応する高次信号パターンモデルに係る話者の音声信号データの特性が段階的に変化する。このことは、各座標軸に対していえることである。従って、各座標軸と領域の境界との交差位置に最も近い位置の低次信号ベクトルに対応する音声信号データの特性は、各座標軸毎にそれぞれが異なるものとなる。つまり、各座標軸に沿った低次信号ベクトル空間を選択することで、特性の重複が少ない認識対象(評価基準)を選択することが可能である。
評価用データ生成部10kは、低次信号ベクトルの選択情報及び評価用データ生成処理実行コマンドを受信すると、選択された低次信号ベクトルに対応する高次信号パターンモデルの生成時に用いた多数の信号データを構成する部分信号系列を用いて、評価用データを生成し、当該生成した評価用データをデータ制御部10bに伝送する(ステップS112)。例えば、予め用意された評価用データとして作成する語彙一覧の各単語に対応する音声信号データを生成する場合は、各単語の音声信号データを生成するための複数の部分信号系列を信号データ記憶部10dから読み出し、当該読み出した複数の部分信号系列を単語の発音情報等に基づいて正しい順番に接続して各単語の評価用データ(音声信号データ)を生成する。このように、信号データを構成する部分信号系列を利用して評価用データを生成することで、信号データ記憶部10dに記憶されていない音声信号データを簡易に生成することができる。
また、ここでは、低次信号ベクトル空間を構成する各低次信号ベクトルに対応した各高次信号パターンモデルが、話者、発話様式、語彙、環境雑音等の特定条件毎に作成されているとする。従って、上記選択された低次信号ベクトルに対応する高次信号パターンモデルは、特定条件の内容がそれぞれ異なっており、評価用データは、特定条件毎(ラベルにその情報が含まれる)に、上記語彙リストに登録された単語数分が作成される。例えば、選択された低次信号ベクトルの数が100個で、評価用データ生成用の語彙リストには日本の100都市を示す単語が登録されているとすると、「100×100=10000個」の評価用データを生成することになる。
データ制御部10bは、評価用データ生成部10kで生成された評価用データを受信すると、当該受信した評価用データを、高次信号パターンモデルに付加されたラベルに対応付けて認識性能分布情報生成器20に出力する(ステップS114)。
一方、認識性能分布情報生成器20は、評価用データ生成器10から評価用データが入力されると、データ制御部20aにおいて、当該入力された評価用データをデータ記憶部20bに記憶すると共に、入力実行コマンドを評価用データ入力部20cに伝送する(ステップS200)。評価用データ入力部20cは、入力実行コマンドに応じて、データ記憶部20bから各ラベル毎の評価用データ(音声データ)を読み出し、当該読み出した評価用データを、パターン認識器300に入力する(ステップS202)。
また、パターン認識器300は、前述したように音声認識エンジンを搭載しており、例えば、評価用データに対してフレーム毎(例えば、フレーム長20ms、フレームシフト10ms)にケプストラム分析や、MFCC分析等を行って特徴量を抽出し、当該抽出した特徴量と、音声認識エンジンの有する音声認識用のパターンモデルとに基づき、各パターンモデルに対する尤度を算出し、当該算出した尤度に基づきパターン認識を行う。パターン認識は、例えば、最大尤度のパターンモデルに対応したラベル(単語)を認識結果として選択する。
認識結果取得部20dは、パターン認識器300において音声認識された認識結果データを、当該パターン認識器300から取得し、当該取得した認識結果データをデータ制御部20aを介してデータ記憶部20bに記憶すると共に、認識性能値算出処理実行コマンドを認識性能値算出部20eに伝送する(ステップS204)。
認識性能値算出部20eは、認識性能値算出処理実行コマンドに応じて、データ記憶部20bから認識結果データを読み出し、当該読み出した認識結果データに基づき、各ラベル毎の認識性能値を算出し、当該算出した認識性能値をデータ制御部20aを介してデータ記憶部20bに記憶すると共に、認識性能分布情報生成処理実行コマンドを認識性能分布情報生成部20fに伝送する(ステップS206)。
ここで、評価用データ生成器10から入力される各評価用データは、語彙リストに基づき生成されるため、予めどの単語(都市名)の音声信号データかが解るようになっている。そのため、パターン認識器300からの認識結果が正しいか否かを簡易に判断できるので、ここでは、認識性能値として、100都市名の評価用データ(音声信号データ)に対する正しい認識結果の割合(認識率)を算出する。例えば、評価用データの示す都市名が「横浜市」、この評価用データに対するパターン認識器300の認識結果の都市名が「横須賀市」といったように、評価用データの都市名と認識結果の都市名とが不一致の場合は誤りであると判断し、一方、評価用データの都市名と認識結果の都市名とが一致する場合は正しいと判断する。つまり、正しい認識結果の数を計数して認識率を算出する。
認識性能分布情報生成部20fは、認識性能分布情報生成処理実行コマンドに応じて、データ記憶部20bから認識性能値データ(認識率データ)を読み出し、当該読み出した認識性能値データを、横軸を話者の識別番号(話者番号)、縦軸を認識率とした座標空間上に認識率の低い方から順に例えば、等間隔で並べ、これら各認識率に対して多項式近似曲線を引いたグラフ(認識性能分布情報)を生成する。そして、当該生成した認識性能分布情報を、データ制御部20aを介してデータ記憶部20bに記憶すると共に認識性能分布情報出力コマンドを認識性能分布情報出力部20gに伝送する(ステップS208)。
例えば、64個の低次信号ベクトルから構成される低次信号ベクトル空間から、上記生成モード1の生成方法を用いて、13個の低次信号ベクトルを選択し、当該選択した低次信号ベクトルに対応する高次信号パターンモデルの生成時に用いた信号データに基づき評価用データを生成したとする。この生成した評価用データに対する13個の高次信号パターンモデルの各ラベルに対応した認識率は、例えば、話者番号の若い方から順に、図11に示す「▲」のような分布になる。つまり、この13個の「▲」に対して、図11に示すように、多項式近似曲線を引くことで、認識性能値の分布を示すグラフを生成する。本実施形態では、このグラフが認識性能分布情報となる。
認識性能分布情報出力部20gは、認識性能分布情報出力処理実行コマンドに応じて、データ記憶部20bから上記生成した認識性能分布情報を読み出し、当該読み出した認識性能分布情報を表示部に表示出力したり、印刷用紙にプリント出力したり、指示データの送信元の端末に出力したりする(ステップS210)。このように出力された認識性能分布情報(グラフ)から、様々な特性を有する話者に対するパターン認識器300の認識性能を把握することができる。
更に、外部機器から、データ取得部10aを介して、生成モード2による評価用データ生成処理の指示情報、及び属性情報を含む指示データが入力された場合を説明する。
データ制御部10bは、指示データが生成モード2による評価用データ生成処理を指示していることを確認すると、上記取得した指示データに含まれる属性情報を、評価領域同定処理実行コマンド共に評価領域同定部10gに伝送する(ステップS116の「Yes」の分岐)。
評価領域同定部10gは、評価領域同定処理実行コマンドに応じて、指示データの指定する低次信号ベクトル空間データを低次信号ベクトル空間記憶部10cから読み出し(ステップS118)、当該読み出した低次信号ベクトル空間において、指示データに含まれる属性情報に対応する低次信号ベクトルを選択する(ステップS120)。例えば、属性情報に、20代の男性といった属性情報が含まれている場合は、低次信号ベクトル空間から20代の男性の音声データから生成された高次信号パターンモデルに対応する低次信号パターンモデルが選択される。
このようにして選択された低次信号ベクトルの座標点が、低次信号ベクトル空間において、例えば、図12に示すような分布を示した場合に、評価領域同定部10gは、この分布の最外縁にそれぞれ位置する低次信号ベクトルの座標点を直線で結び、当該直線で囲まれた領域を評価領域と同定し、この同定した評価領域の情報をデータ制御部10bを介して低次信号ベクトル空間生成処理実行コマンドと共に低次信号ベクトル空間生成部10fに伝送する(ステップS122)。なお、図12の例では、生成モード1と同様の内容で既に領域が分割され且つ座標軸が設定された状態の低次信号ベクトル空間に対して領域の境界と座標軸との交差位置に最も近い位置にある低次信号ベクトルの中から属性情報に対応した低次信号ベクトルを選択している。
低次信号ベクトル空間生成部10fは、低次信号ベクトル空間生成処理実行コマンドに応じて、低次信号ベクトル空間における、評価領域同定部10gで同定された評価領域内に含まれる全低次信号ベクトルに対応する高次信号パターンモデルを、信号データ記憶部10dから読み出す。そして、当該読み出した高次信号パターンモデルから構成されるデータ空間を、公知のSammon法を用いて2次元の低次元の要素からなる信号ベクトルから構成されるデータ空間に射影して低次信号ベクトル空間を再構成し、当該再構成した低次信号ベクトル空間データを領域区分処理実行コマンドと共にデータ制御部10bを介して領域区分部10hに伝送する(ステップS124)。つまり、20代の男性に関与する(関係の深い)低次信号ベクトルから構成される低次信号ベクトル空間を生成する。
以降の処理は生成モード1と同様となり、当該属性情報に関与する低次信号ベクトルだけに絞り込んで構成される低次信号ベクトル空間の領域を区分し、当該区分後の低次信号ベクトル空間に複数本の座標軸を設定し、領域の境界と座標軸との交差位置に最も近い位置にある低次信号ベクトルを選択する。そして、当該選択した低次信号ベクトルに対応する高次信号パターンモデルの生成時に用いた音声信号データから評価用データを生成し、当該生成した評価用データに対するパターン認識器300の認識結果から認識性能分布情報を生成する。このようにして生成される認識性能分布情報は、属性情報に特化されたものとなり、パターン認識器300の属性情報毎の認識性能の評価に有効となる。また、属性情報に特化するため扱うデータ量を低減することができるのでコストの低減も可能となる。
更に、外部機器から、データ取得部10aを介して、生成モード3による評価用データ生成処理の指示情報、及び属性情報を含む指示データが入力された場合を説明する。
データ制御部10bは、指示データが生成モード3による評価用データ生成処理を指示していることを確認すると、上記取得した指示データに含まれる音声信号データを、高次信号パターンモデル生成処理実行コマンド共に高次信号パターンモデル生成部10eに伝送する(ステップS126の「Yes」の分岐)。
高次信号パターンモデル生成部10eは、指示データに対応する新規の音声信号データを信号データ記憶部10cから読み出し、当該読み出した音声信号データに基づき、高次信号パターンモデルを生成し、当該生成した高次信号パターンモデルをデータ制御部10bを介して低次信号ベクトル空間生成処理実行コマンドと共に低次信号ベクトル空間生成部10fに伝送する(ステップS128)。
例えば、30人の新規話者の信号データ(音声信号データ)から、ケプストラム分析、MFCC分析、線形予測分析などの分析処理によって、例えば、10〜40次元の高次元の特徴量(特徴パラメータともいう)を抽出し、当該抽出した高次元の特徴量を学習データとして、公知のEMアルゴリズム等を用いてHMMの学習を行い、当該学習後のHMMから構成される高次元の要素を含んでなるパターンモデル(高次信号パターンモデル)を生成する。ここで、高次信号パターンモデルは、各話者毎に生成される。
低次信号ベクトル空間生成部10fは、低次信号ベクトル空間生成処理実行コマンドに応じて、指示データの指定する低次信号ベクトル空間データを低次信号ベクトル空間記憶部10cから読み出し(ステップS130)、当該読み出した低次信号ベクトル空間に、上記生成された高次信号パターンモデルに対応した低次信号パターンモデルを追加してなる低次信号ベクトル空間を生成し、当該生成した低次信号ベクトル空間(以下、評価領域同定用低次信号ベクトル空間と称す)を、データ制御部10bを介して評価領域同定処理実行コマンドと共に評価領域同定部10gに伝送する。このとき、新規の低次信号ベクトルを追加する前の低次信号ベクトル空間を構成する各低次信号ベクトルの座標を固定して評価領域同定用低次信号ベクトル空間を生成しても良いし、新規の高次信号パターンモデルを含む全高次信号パターンモデルを、改めて公知のSammon法を用いて2次元の低次元の要素からなる信号ベクトルから構成されるデータ空間に射影して評価領域同定用低次信号ベクトル空間を生成しても良い。
このようにして追加された新規の低次信号ベクトルの座標点が、評価領域同定用低次信号ベクトル空間において、例えば、図13に示すような分布を示した場合に、評価領域同定部10gは、評価領域同定処理実行コマンドに応じて、評価領域同定用低次信号ベクトル空間における、新規に追加した低次信号ベクトルの座標点が形成する分布の最外縁に位置する低次信号ベクトルの座標点を直線で結び、当該直線で囲まれた領域を評価領域と同定し、この同定した評価領域の情報をデータ制御部10bを介して低次信号ベクトル空間生成処理実行コマンドと共に低次信号ベクトル空間生成部10fに伝送する(ステップS132)。なお、図13の例では、領域が分割され且つ座標軸が設定された状態の評価領域同定用低次信号ベクトル空間に対して領域の境界と座標軸との交差位置に最も近い位置にある新規の低次信号ベクトルの形成する分布の最外縁にそれぞれ位置する低次信号ベクトルの座標点を直線で結んでいる。
以降は、第2生成モードと同様に、評価領域同定用低次信号ベクトル空間における、評価領域同定部10gで同定された評価領域内に含まれる全低次信号ベクトルに対応する高次信号パターンモデルを、信号データ記憶部10dから読み出す。そして、当該読み出した高次信号パターンモデルから構成されるデータ空間を、公知のSammon法を用いて2次元の低次元の要素からなる信号ベクトルから構成されるデータ空間に射影して評価領域同定用低次信号ベクトル空間を再構成した低次信号ベクトル空間(以下、第2低次信号ベクトル空間と称す)を生成し、当該生成した第2低次信号ベクトル空間データをデータ制御部10bを介して領域区分処理実行コマンドと共に領域区分部10hに伝送する(ステップS124)。つまり、新規話者の音声信号データに関与する(関係の深い)低次信号ベクトルから構成される低次信号ベクトル空間を生成する。
このようにして生成される認識性能分布情報は、新規話者に特化されたものとなり、パターン認識器300の新規話者の音声信号データに対する認識性能の評価に有効となる。また、新規話者に特化するため、扱うデータ量を低減することができるのでコストの低減も可能となる。
このようにして、本発明に係る認識性能分布情報生成装置100は、当該認識対象に係る信号データから構成される高次信号パターンモデルを射影してなる低次信号ベクトル空間を複数の領域に区分し、当該区分後の低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心において例えば、均等に交差する複数本の座標軸を放射状に設定し、当該複数本の座標軸と各領域の区分境界との交差位置に最も近い位置にある低次信号ベクトルに対応する認識対象を、パターン認識器300の認識性能の評価基準となる認識対象として選択するようにしたので、様々な特性を有する認識対象を効率よく広範囲にかつ偏り無く一様に選択することが可能である。
また、上記選択した低次信号ベクトルに対応する高次信号パターンモデルの生成時に用いた信号データを構成する部分信号系列を用いて、評価用データを生成するようにしたので、様々な特性を有する認識対象の評価用データを効率よく広範囲にかつ偏り無く一様に生成することが可能である。
また、上記生成された評価用データをパターン認識器300に入力し、その認識結果に基づき、認識性能分布情報を生成するようにしたので、様々な特性を有する認識対象の認識性能の分布を効率よく(低コストで)得ることが可能である。
また、認識性能値(認識率)を、横軸を認識対象の種類、縦軸を認識率とした座標空間上に昇順で例えば、等間隔に並べ、当該昇順で並べた認識率に対して多項式近似曲線を引いてグラフを生成するようにしたので、様々な特性を有する認識対象に対する認識性能の連続的な変化(変化特性)を推定することが可能であると共に、その変化を視覚的に簡易に把握することが可能である。
なお、低次信号ベクトル空間の生成方法、当該低次信号ベクトル空間の可視化方法等については、本発明者らが発表した論文(「M.Shozakai and G.Nagino,"Analysis of Speaking Styles by Two-Dimensional Visualization of Aggregate of Acoustic Models,"Proc.ICSLP,vol.1,pp.717-720,Jeju,Korea,Oct.2004.」)に、より詳しく記載されている。
上記第1の実施形態において、信号データ記憶部10dは、請求項1、7、8のいずれか1項に記載の信号データ記憶手段に対応し、低次信号ベクトル空間記憶部10cは、請求項1記載の低次信号ベクトル空間記憶手段に対応し、座標軸設定部10iは、請求項1または4に記載の座標軸設定手段に対応し、低次信号ベクトル選択部10jは、請求項1、2、3及び5のいずれか1項に記載の低次信号ベクトル選択手段に対応し、評価用データ生成部10kは、請求項1、7及び8のいずれか1項に記載の評価用データ生成手段に対応する。
また、上記第1の実施形態において、領域区分部10hは、請求項2または3に記載の領域区分手段に対応し、データ取得部10aにおける属性情報を含む指示データの取得処理は、請求項5記載の属性情報取得手段に対応し、評価領域同定部10gによる低次信号ベクトル空間からの属性情報に対応する低次信号ベクトルの選択処理は、請求項5記載の属性対応低次信号ベクトル選択手段に対応し、評価領域同定部10gにおける属性情報に対応する低次信号ベクトルに基づき評価領域(第1評価領域)を同定する処理は、請求項5記載の第1評価領域生成手段に対応し、低次信号ベクトル空間生成部10fにおいて第1評価領域内に含まれる全低次信号ベクトルに対応する高次信号パターンモデルから低次信号ベクトル空間(第1低次信号ベクトル空間)を生成する処理は、請求項5記載の第1低次信号ベクトル空間生成手段に対応する。
また、上記第1の実施形態において、データ取得部10aにおける新規認識対象の信号データを含む指示データの取得処理は、請求項6記載の信号データ取得手段に対応し、高次信号パターンモデル生成部10eは、請求項6記載の高次信号パターンモデル生成手段に対応し、低次信号ベクトル空間生成部10fにおける新規の信号データに対する高次信号パターンモデルに基づき評価領域同定用低次信号ベクトル空間を生成する処理は、請求項6記載の評価領域同定用低次信号ベクトル空間生成手段に対応し、評価領域同定部10gにおける評価領域同定用低次信号ベクトル空間における新規の低次信号ベクトルに基づき評価領域(第2評価領域)を同定する処理は、請求項6記載の第2評価領域生成手段に対応し、低次信号ベクトル空間生成部10fにおいて第2評価領域内に含まれる全低次信号ベクトルに対応する高次信号パターンモデルから第2低次信号ベクトル空間を生成する処理は、請求項6記載の第2低次信号ベクトル空間再構成手段に対応する。
また、上記第1の実施形態において、評価用データ入力部20cは、請求項10記載の評価用データ入力手段に対応し、認識結果取得部20dは、請求項10記載の認識結果取得手段に対応し、認識性能値算出部20eは、請求項10記載の認識性能値算出手段に対応し、認識性能分布情報生成部20fは、請求項10または11記載の認識性能分布情報生成手段に対応する。
また、上記第1の実施形態において、ステップS108は、請求項13または14記載の座標軸設定ステップに対応し、ステップS110は、請求項13または14記載の低次信号ベクトル選択ステップに対応し、ステップS112は、請求項13または14記載の評価用データ生成ステップに対応する。
また、上記第1の実施形態において、ステップS202は、請求項15または16記載の評価用データ入力ステップに対応し、ステップS204は、請求項15または16記載の認識結果取得ステップに対応し、ステップS206は、請求項15または16記載の認識性能値算出ステップに対応し、ステップS208は、請求項15または16記載の認識性能分布情報生成ステップに対応する。
〔第1の実施形態の実施例〕
パターン認識器の評価に用いる代表的な基準話者を選択する方法として、本発明が開示する方法の他に、例えば、ランダムに基準話者を選択する方法と、クラスタリングを行い、クラスタの重心を基準話者として選択する方法とがある。本実施例では、本発明により基準話者を選択する方法、ランダムに基準話者を選択する方法及びクラスタリング手法により基準話者を選択する方法における認識性能分布情報(グラフ)の推定精度の比較を行う。
日本の100都市名の認識タスクで65人の話者から13人の基準話者を選択する方法に関して説明する。
まず、ランダムに基準話者を選択する場合について説明する。65人の話者の中から、ランダムに13人を選択した。ランダムに選択する手法としては、Perlのrand()関数を用い、初期値を1から5まで5通り変えて行った。その結果、初期値5の場合が最も認識性能分布情報(多項式近似曲線グラフ)の推定精度が高かったので、その結果を図14に示す。ここで、全ての65人の話者の音声データに対する認識性能値を●印で示し、この65個の認識性能値の対数近似曲線を実線で示す。この実線が、所望の認識性能分布曲線である。一方、ランダムに選択された13人の基準話者の音声データに対する13個の認識性能値を65個の認識性能値にスケールが合うように昇順に等間隔に並べた点を▲印で示し、この13個の認識性能値の5次の多項式近似曲線を点線で示す。この実線と点線が近接していればしているほど、13人の基準話者の認識性能から65人の全話者の認識性能分布を高い精度で予測できることになる。
次に、クラスタリング手法により基準話者を選択する場合について説明する。クラスタリング手法としては、公知のk−means法による木構造クラスタリングを用いた。その結果、得られた認識性能分布を図15に示す。ここで、全ての65人の話者の音声データに対する認識性能値を●印で示し、この65個の認識性能値の対数近似曲線を実線で示す。一方、クラスタリング手法により選択された13人の基準話者の音声データに対する13個の認識性能値を65個の認識性能値にスケールが合うように昇順に等間隔に並べた点を▲印で示し、この13個の認識性能値の5次の多項式近似曲線を点線で示す。図14及び図15に示す認識性能分布情報を比較すると、ランダムに基準話者を選択する方法に比べて、クラスタリング手法により基準話者を選択する方法の方が65人の全話者の認識性能分布をより高い精度で推定できていることが分かる。
最後に、本発明により基準話者を選択する場合について説明する。例えば、図16に示す、2次元の低次信号ベクトル空間が得られた場合に、上記第1の実施形態における生成モード1の処理によって、×印で示す13個の低次信号ベクトルを選択したとする。そして、これら選択した低次信号ベクトルに対応する高次信号パターンモデルの生成時に使用した音声データの部分信号系列(または特徴パラーメータの部分系列)を用いて、日本の100都市名の評価用データを生成し、これらの生成した評価用データの認識結果から、13個の認識性能値を得たとする。その結果、得られた認識性能分布を図17に示す。ここで、全ての65人の話者の音声データに対する認識性能値を●印で示し、この65個の認識性能値の対数近似曲線を実線で示す。一方、本発明により選択された13人の基準話者の音声データに対する13個の認識性能値を65個の認識性能値にスケールが合うように昇順に等間隔に並べた点を▲印で示し、この13個の認識性能値の5次の多項式近似曲線を点線で示す。図14、図15及び図16に示す認識性能分布情報をそれぞれ比較すると、ランダムに基準話者を選択する場合やクラスタリングにより基準話者を選択する場合と比べて、本発明により基準話者を選択する手法が、所望の認識性能分布曲線である実線と点線とが最も近接していることが解る。また、本発明の基準話者を選択する手法が、ランダムに基準話者を選択する手法やクラスタリングにより基準話者を選択する手法に比べて、13人の基準話者の認識性能値を示す▲印が、所望の認識性能分布曲線である実線に最も隣接していることが分かる。従って、少数(約2割)の基準話者の評価用データから全体の認識性能分布を推定できることが分かる。
このことから、本発明は、低コストで高精度にパターン認識性能を近似計算する方法を提供できる。これは、先にも説明したように、上記第1の実施形態の生成モード1の手法において、複数本の座標軸(放射軸)が設定された低次信号ベクトル空間は、それぞれが異なる特徴を表現している無数の放射軸が原点で例えば、均等に交差した構造を有し、図10に示すように、それらの軸に沿って、多次元信号の特徴が連続的に変化する傾向があることによるものである。なお、本実施例では、認識性能値を昇順に等間隔に並べる場合について説明したが、降順に等間隔に並べても同様の結果が得られる。
〔第2の実施形態〕
次に、本発明の第2の実施形態を図面に基づき説明する。図18は、本発明に係る評価用データ生成装置、評価用データ生成プログラム及び評価用データ生成方法、並びに認識性能分布情報生成装置、認識性能分布情報生成システム、認識性能分布情報生成プログラム及び認識性能分布情報生成方法の実施形態を示す図である。
図18は、本発明に係る認識性能分布情報生成システム400の概略構成を示すブロック図である。
認識性能分布情報生成システム400は、図18に示すように、上記第1の実施形態の認識性能分布情報生成装置100における認識性能分布情報生成器20と同等の機能を有したパターン認識性能分布予測クライアント40と、パターン認識アプリケーション機器42と、上記第1の実施形態の認識性能分布情報生成装置100における評価用データ生成器10と同等の機能を有したパターン認識性能分布予測サーバ44と、様々な認識対象の信号データが記憶された信号データ記憶装置46と、パターン認識アプリケーション機器42と信号データ記憶装置46とを相互にデータ通信可能に接続するネットワーク48とを含んで構成される。
パターン認識性能分布予測クライアント40は、パターン認識アプリケーション機器42のパターン認識に関する仕様情報を取得し、当該取得した仕様情報を、ネットワーク48を介してパターン認識性能分布予測サーバ44に送信する。そして、パターン認識性能分布予測サーバ44からの、前記送信した仕様情報に対応する評価用データを受信し、当該受信した評価用データをパターン認識アプリケーション機器42に入力し、当該パターン認識アプリケーション機器42から認識結果データを取得すると、上記第1の実施形態と同様の処理を行い認識性能分布情報を生成する。
パターン認識アプリケーション機器42は、音声パターン認識、画像パターン認識等のパターン認識を行うアプリケーション機器である。従って、認識対象に係る信号データの入力に対し、当該信号データのパターン認識を行い、その認識結果を出力する。
一方、パターン認識性能分布予測サーバ44は、パターン認識性能分布予測クライアント40からのパターン認識に関する仕様情報を受信し、当該受信した仕様情報に基づき、信号データ記憶装置46から仕様情報に対応する高次信号パターンモデルを選択し、当該選択した高次信号パターンモデルから低次信号ベクトル空間を生成し、当該生成した低次信号ベクトル空間を用いて、上記第1の実施形態と同様の処理を行い評価用データを生成する。そして、生成した評価用データを、ネットワーク48を介して仕様情報の送信元であるパターン認識性能分布予測クライアント40に送信する。ここで、信号データ記憶装置46から、高次信号パターンモデルではなくて信号データを選択し、当該選択した信号データから高次信号パターンモデルを生成し、当該生成した高次信号パターンモデルから低次信号ベクトル空間を生成するようにしても良い。
信号データ記憶装置46は、上記第1の実施形態における評価用データ生成器10の信号データ記憶部10dと同様に、多数の認識対象に係る多数の信号データ、これら多数の信号データから生成された高次信号パターンモデル、特徴パターンデータなどが記憶されている。
ネットワーク48は、LAN、WAN、インターネットなどのネットワークであり、有線ネットワーク、無線ネットワーク、有線と無線とが混在したネットワークなどのいずれかの形態となる。
次に、本実施形態の具体的な動作例を説明する。
例えば、音声認識機能を搭載した、カーナビゲーションシステム、ハンズフリー通話装置、ロボット、住宅設備機器、ゲーム機などの音声パターン認識アプリケーション機器を新規に商品企画する場合に、その音声認識性能分布を本システムを利用して予測する。
この場合、ユーザは、まず、最初に、商品企画のアイデアから、パターン認識に関する仕様情報を明確化し、それをパターン認識性能分布予測クライアント40に入力する。
ここで、パターン認識に関する仕様情報には、例えば、音声認識語彙に関する情報、パターン認識アプリケーション機器の動作環境に関する情報、パターン認識アプリケーション機器のユーザー層に関する情報が含まれている。
パターン認識性能分布予測クライアント40は、音声の認識性能分布の予測に有効な情報をパターン認識に関する仕様情報から抽出する。例えば、音声の言語種別、語彙サイズ、受理すべき発話文法、パターン認識アプリケーション機器の動作環境の雑音種別やSNR(Signal-to-Noise Ratio)、残響のパターンや残響時間、パターン認識アプリケーション機器のユーザーの出身地や年齢などの情報が音声の認識性能分布の予測に有効な情報である。
パターン認識性能分布予測クライアント40は、抽出したパターン認識に関する仕様情報を、ネットワーク48を介して、パターン認識性能分布予測サーバ44に送信する。
一方、パターン認識性能分布予測サーバ44は、パターン認識性能分布予測クライアント40から送信されたパターン認識に関する仕様情報から、認識性能分布予測に必要な信号データを信号データ記憶装置46から取得する。信号データ記憶装置46は、1ヶ所に集中されていても良いし、複数ヶ所に分散され、有線、無線のネットワークで結合されていても良い。そして、パターン認識性能分布予測サーバ44は、上記第1の実施形態と同様の処理によって、評価用データを生成し、当該生成した評価用データを、ネットワーク48を介してパターン認識性能分布予測クライアント40に送信する。
パターン認識性能分布予測クライアント40は、パターン認識性能分布予測サーバ44から送信された評価用データから、上記第1の実施形態と同様の処理によって、認識性能分布を予測(認識性能分布情報を生成)し、当該生成した認識性能分布情報を、例えば、パターン認識アプリケーション機器42に出力する。
一方、パターン認識アプリケーション機器42は、例えば、表示装置を備えており、パターン認識クライアント40から入力された認識性能分布情報を表示装置に表示する。パターン認識アプリケーション機器42のユーザは、この表示された認識性能分布情報を見て、パターン認識アプリケーション機器42の認識性能を評価することができる。
なお、本実施形態においては、認識性能分布情報生成システム400において、パターン認識クライアント40が、上記第1の実施形態の認識性能分布情報生成装置100における認識性能分布情報生成器20と同等の機能を有し、パターン認識性能分布予測サーバ44が、上記第1の実施形態の認識性能分布情報生成装置100における評価用データ生成器10と同等の機能を有する構成としたが、これに限らず、図19に示す認識性能分布情報生成システム500のように、パターン認識性能分布予測サーバが、上記第1の実施形態の認識性能分布情報生成装置100における、評価用データ生成器10及び認識性能分布情報生成器20の双方と同等の機能を有した構成としても良い。ここで、図19に示すように、認識性能分布情報生成システム500における、パターン認識クライアントをパターン認識クライアント50とし、パターン認識性能分布予測サーバをパターン認識性能分布予測サーバ54とする。それ以外は、認識性能分布情報生成システム400と同様となるので同じ符号を付して説明を省略する。
認識性能分布情報生成システム500において、パターン認識性能分布予測クライアント50は、パターン認識アプリケーション機器42のパターン認識に関する仕様情報を取得し、当該取得した仕様情報を、ネットワーク48を介してパターン認識性能分布予測サーバ54に送信する。そして、パターン認識性能分布予測サーバ54からの、前記送信した仕様情報に対応する認識性能分布情報を受信し、当該受信した認識性能分布情報をパターン認識アプリケーション機器42に入力する。
一方、パターン認識性能分布予測サーバ54は、パターン認識性能分布予測クライアント50からのパターン認識に関する仕様情報を受信し、当該受信した仕様情報に基づき、信号データ記憶装置46から仕様情報に対応する高次信号パターンモデルを選択し、当該選択した高次信号パターンモデルから低次信号ベクトル空間を生成し、当該生成した低次信号ベクトル空間を用いて、上記第1の実施形態と同様の処理を行い評価用データを生成する。そして、生成した評価用データを、パターン認識アプリケーション機器42と同等の性能を有するパターン認識アプリケーション機器42’に入力し、当該パターン認識アプリケーション機器42’から認識結果データを取得すると、上記第1の実施形態と同様の処理を行い認識性能分布情報を生成する。そして、当該生成した認識性能分布情報を、ネットワーク48を介して仕様情報の送信元であるパターン認識性能分布予測クライアント50に送信する。
このように、認識性能分布情報生成システム400(500)によって、任意のパターン認識アプリケーション機器に対するパターン認識性能分布の予測サービスを実施することが可能である。
また、パターン認識アプリケーション機器の商品企画者は、自分で音声の認識性能分布を予測する必要がないという利点がある。
一方、パターン認識性能分布の予測サービス事業者は、様々なパターン認識アプリケーション機器全体の詳細を知らなくても、信号データ記憶装置46に記憶された多数の信号データ(信号コーパス)を再利用しながら、信頼性の高い認識性能分布を予測することが可能である。
上記第2の実施形態において、信号データ記憶装置46は、請求項12、17及び18のいずれか1項に記載の信号データ記憶手段に対応し、低次信号ベクトル空間記憶部10cは、請求項12記載の低次信号ベクトル空間記憶手段に対応し、座標軸設定部10iは、請求項12記載の座標軸設定手段に対応し、低次信号ベクトル選択部10jは、請求項12記載の低次信号ベクトル選択手段に対応し、評価用データ生成部10kは、請求項12記載の評価用データ生成手段に対応する。
また、上記第2の実施形態において、評価用データ入力部20cは、請求項12記載の評価用データ入力手段に対応し、認識結果取得部20dは、請求項12記載の認識結果取得手段に対応し、認識性能値算出部20eは、請求項12記載の認識性能値算出手段に対応し、認識性能分布情報生成部20fは、請求項12記載の認識性能分布情報生成手段に対応する。
また、上記第2の実施形態において、ステップS108は、請求項17または18記載の座標軸設定ステップに対応し、ステップS110は、請求項17または18記載の低次信号ベクトル選択ステップに対応し、ステップS112は、請求項17または18記載の評価用データ生成ステップに対応する。
また、上記第1の実施形態において、ステップS202は、請求項17または18記載の評価用データ入力ステップに対応し、ステップS204は、請求項17または18記載の認識結果取得ステップに対応し、ステップS206は、請求項17または18記載の認識性能値算出ステップに対応し、ステップS208は、請求項17または18記載の認識性能分布情報生成ステップに対応する。
なお、上記第1及び第2の実施形態においては、認識性能分布情報の生成において、座標空間上に認識性能値を昇順で並べ、この並べられた認識性能値に対して多項式近似曲線を引いて認識性能分布を示すグラフを生成するようにしたが、これに限らず、対数近似、累乗近似、指数近似、移動平均など他の近似曲線を用いても良いし、曲線近似に限らず、線形近似(直線)、区分的直線(折れ線)などの近似直線を用いても良い。
また、上記第1及び第2の実施形態においては、信号データとして音声データを例にとって説明したが、これに限らず、画像データや、様々なセンサーから得られるセンサー信号データなど他の信号データに対して本発明を適用しても良い。
また、上記第1の実施形態においては、認識性能分布情報生成装置100を、評価用データを生成する評価用データ生成器10、及び認識性能分布情報を生成する認識性能分布情報生成器20の2つの生成器を有する構成としたが、これに限らず、これら各生成器の有する機能を分けずに1つにまとめた構成としても良い。
また、上記第1の実施形態においては、高次信号パターンモデルから生成された2次元の低次信号ベクトル空間の複数本の座標軸の近傍に位置する低次信号ベクトルを選択し、選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データを用いて評価用データを生成するようにしたが、これに限らず、3次元以上の低次信号ベクトル空間を用いて評価用データを生成する構成としても良い。
例えば、2次元の低次信号ベクトル空間においては、2次元の極座標系、すなわち、(r・cosθ、r・sinθ)に基づいて、複数本の座標軸の近傍に位置する低次信号ベクトルを選択すればよい。
また、例えば、3次元の低次信号ベクトル空間においては、3次元の極座標系、すなわち、(r・sinθ・cosη、r・sinθ・sinη、r・cosθ)に基づいて、複数本の座標軸の近傍に位置する低次信号ベクトルを選択すればよい。
また、例えば、4次元の低次信号ベクトル空間においては、4次元の極座標系、すなわち、(r・sinθ・cosη・cosζ、r・sinθ・cosη・sinζ、r・sinθ・sinη、r・cosθ)に基づいて、複数本の座標軸の近傍に位置する低次信号ベクトルを選択すればよい。
本発明に係る認識性能分布情報生成装置100の概略構成を示すブロック図である。 評価用データ生成器10の機能構成を示す図である。 認識性能分布情報生成器20の機能構成を示すブロック図である。 評価用データ生成器10の評価用データ生成処理を示すフローチャートである。 認識性能分布情報生成器20の認識性能分布情報生成処理を示すフローチャートである。 音声信号データに対する2次元の低次信号ベクトル空間の一例を示す図である。 領域区分後の図6の低次信号ベクトル空間の一例を示す図である。 複数本の座標軸が設定された図7の低次信号ベクトル空間の一例を示す図である。 図8の低次信号ベクトル空間における座標軸と領域境界との交差位置を示す図である。 座標軸上に位置する低次信号ベクトルの特性変化の様子の一例を示す図である。 認識性能分布情報の一例を示す図である。 生成モード2における評価領域の一例を示す図である。 生成モード3における評価領域の一例を示す図である。 評価基準話者をランダムに選択した場合の認識性能分布情報の一例を示す図である。 評価基準話者をクラスタリング手法を用いて選択した場合の認識性能分布情報の一例を示す図である。 65人の話者の音声データから生成された低次信号ベクトル空間の一例を示す図である。 本発明を適用して評価基準話者を選択した場合の認識性能分布情報の一例を示す図である。 本発明に係る認識性能分布情報生成システム400の概略構成を示すブロック図である。 本発明に係る認識性能分布情報生成システム500の概略構成を示すブロック図である。
符号の説明
100 認識性能分布情報生成装置
300 パターン認識器
400,500 認識性能分布情報生成システム
10 評価用データ生成器
10a データ取得部
10b データ制御部
10c 低次信号ベクトル空間記憶部
10d 信号データ記憶部
10e 高次信号パターンモデル生成部
10f 低次信号ベクトル空間生成部
10g 評価領域同定部
10h 領域区分部
10i 座標軸設定部
10j 低次信号ベクトル選択部
10k 評価用データ生成部
20 認識性能分布情報生成器
20a データ制御部
20b データ記憶部
20c 評価用データ入力部
20d 認識結果取得部
20e 認識性能値算出部
20f 認識性能分布情報生成部
20g 認識性能分布情報出力部

Claims (18)

  1. パターン認識における認識性能を評価するための評価用データを生成する評価用データ生成装置であって、
    予め取得された、複数対象に係る複数の信号データを記憶する信号データ記憶手段と、
    前記信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間を記憶する低次信号ベクトル空間記憶手段と、
    前記低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ交差する複数本の座標軸を設定する座標軸設定手段と、
    前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択手段と、
    前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成手段と、を備えることを特徴とする評価用データ生成装置。
  2. 前記低次信号ベクトル空間を複数の領域に区分する領域区分手段を備え、
    前記低次信号ベクトル選択手段は、前記領域区分手段で区分した各領域の区分境界と、前記複数本の座標軸との交差位置の近傍に位置する低次信号ベクトルを選択することを特徴とする請求項1記載の評価用データ生成装置。
  3. 前記低次信号ベクトル空間は2次元または3次元のデータ空間であり、
    前記領域区分手段は、前記低次信号ベクトル空間を構成する複数の低次信号ベクトルを、全低次信号ベクトルの重心を中心とし且つ前記重心と当該重心から最も離れた位置の低次信号ベクトルとの距離を半径とした1つの外円または外球と、前記重心を中心とし且つ前記外円または外球よりも小さな半径のn個の内円または内球(nは1以上の整数)とにより区分し、
    前記低次信号ベクトル選択手段は、前記外円および内円または外球および内球からなる複数の同心円同士または同心球同士の各曲線間または各曲面間に形成される環状または球面状の領域の各区分境界と、前記複数本の座標軸との交差位置の近傍に位置する低次信号ベクトルを選択することを特徴とする請求項2記載の評価用データ生成装置。
  4. 前記座標軸設定手段は、各隣り合う2つの前記座標軸が前記重心を頂点として形成する角度がそれぞれ等角度となるように前記複数本の座標軸を設定することを特徴とする請求項3記載の評価用データ生成装置。
  5. 認識対象に係る属性情報を取得する属性情報取得手段と、
    前記属性情報取得手段で取得した属性情報に基づき、前記低次信号ベクトル空間における前記属性情報に対応する低次信号ベクトルを選択する属性対応低次信号ベクトル選択手段と、
    前記属性対応低次信号ベクトル選択手段で選択した低次信号ベクトルの、前記低次信号ベクトル空間における分布の最外縁に位置する複数の低次信号ベクトルの座標点を結線して評価領域を生成する第1評価領域生成手段と、
    前記第1評価領域生成手段で生成された評価領域内に含まれる低次信号ベクトルに対応する高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像して、前記低次信号ベクトル空間を再構成する第1低次信号ベクトル空間再構成手段と、を備えることを特徴とする請求項1乃至請求項4のいずれか1項に記載の評価用データ生成装置。
  6. 新規認識対象に係る信号データを取得する信号データ取得手段と、
    前記信号データ取得手段で取得した信号データに基づき新規の高次信号パターンモデルを生成する高次信号パターンモデル生成手段と、
    前記高次信号パターンモデル生成手段で生成された高次信号パターンモデルに対応する新規の低次信号ベクトルを前記低次信号ベクトル空間に追加して、評価領域同定用の低次信号ベクトル空間を生成する評価領域同定用低次信号ベクトル空間生成手段と、
    前記生成した評価領域同定用の低次信号ベクトル空間における前記新規の低次信号ベクトルの分布の最外縁に位置する各低次信号ベクトルの座標点を結線して第2評価領域を生成する第2評価領域生成手段と、
    前記第2評価領域生成手段で生成された第2評価領域内に含まれる、前記新規の低次信号ベクトルを含む全ての低次信号ベクトルに対応する高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像して、前記低次信号ベクトル空間を再構成する第2低次信号ベクトル空間再構成手段と、を備えることを特徴とする請求項1乃至請求項5のいずれか1項に記載の評価用データ生成装置。
  7. 前記評価用データ生成手段は、前記信号データ記憶手段に記憶された各信号データを構成する部分信号系列を各評価用パターンに合った組み合わせで接続することによって、前記評価用データを生成することを特徴とする請求項1乃至請求項6のいずれか1項に記載の評価用データ生成装置。
  8. 前記評価用データ生成手段は、前記信号データ記憶手段に記憶された各信号データに基づき算出された特徴パラメータを構成する部分系列を各評価用パターンに合った組み合わせで接続することによって、前記評価用データを生成することを特徴とする請求項1乃至請求項6のいずれか1項に記載の評価用データ生成装置。
  9. 前記高次信号パターンモデルは、HMM(Hidden Markov Model)によって構成されることを特徴とする請求項1乃至請求項8のいずれか1項に記載の評価用データ生成装置。
  10. 所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成装置であって、
    請求項1乃至請求項9のいずれか1項に記載の評価用データ生成装置と、
    前記評価用データ生成装置で生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力手段と、
    前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得手段と、
    前記認識結果取得手段で取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出手段と、
    前記認識性能値算出手段の算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成手段と、を備えることを特徴とする認識性能分布情報生成装置。
  11. 前記認識性能分布情報生成手段は、前記認識性能分布情報として、前記複数の認識対象の認識性能値を座標空間上に降順または昇順に並べると共に、当該並べられた認識性能値に対して近似曲線または近似直線を引くことで前記認識性能値の分布を示すグラフを生成することを特徴とする請求項10記載の認識性能分布情報生成装置。
  12. 所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成システムであって、
    前記パターン認識の仕様に関する仕様情報を取得する仕様情報取得手段と、
    予め取得された、複数対象に係る複数の信号データを記憶する信号データ記憶手段と、
    前記仕様情報に基づき、前記信号データ記憶手段に記憶された信号データから、前記パターン認識手段の認識性能評価用の評価用データの生成処理に用いる信号データを選択する信号データ選択手段と、
    前記信号データ選択手段で選択した信号データに基づき、4次元以上の高次元の要素からなる高次信号パターンモデルを生成する高次信号パターンモデル生成手段と、
    前記高次信号パターンモデル生成手段で生成した複数の前記高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間を生成する低次信号ベクトル空間生成手段と、
    前記低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ交差する複数本の座標軸を設定する座標軸設定手段と、
    前記座標軸設定手段で設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択手段と、
    前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成手段と、
    前記評価用データ生成手段で生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力手段と、
    前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得手段と、
    前記認識結果取得手段で取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出手段と、
    前記認識性能値算出手段の算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成手段と、
    前記認識性能分布情報生成手段で生成された認識性能分布情報を出力する認識性能分布情報出力手段と、を備えることを特徴とする認識性能分布情報生成システム。
  13. パターン認識における認識性能を評価するための評価用データを生成する評価用データ生成プログラムであって、
    複数対象に係る複数の信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ交差する複数本の座標軸を設定する座標軸設定ステップと、
    前記座標軸設定ステップで設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
    前記低次信号ベクトル選択ステップで選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成ステップとからなる処理をコンピュータに実行させるためのプログラムを含むことを特徴とする評価用データ生成プログラム。
  14. パターン認識における認識性能を評価するための評価用データを生成する評価用データ生成方法であって、
    複数対象に係る複数の信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ交差する複数本の座標軸を設定する座標軸設定ステップと、
    前記座標軸設定ステップで設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
    前記低次信号ベクトル選択ステップで選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成ステップと、を含むことを特徴とする評価用データ生成方法。
  15. 所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成プログラムであって、
    複数対象に係る複数の信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ交差する複数本の座標軸を設定する座標軸設定ステップと、
    前記座標軸設定ステップで設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
    前記低次信号ベクトル選択ステップで選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成ステップと、
    前記評価用データ生成ステップで生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力ステップと、
    前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得ステップと、
    前記認識結果取得ステップで取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出ステップと、
    前記認識性能値算出ステップの算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成ステップとからなる処理をコンピュータに実行させるためのプログラムを含むことを特徴とする認識性能分布情報生成プログラム。
  16. 所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成方法であって、
    複数対象に係る複数の信号データに基づき生成された4次元以上の高次元の要素からなる複数の高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ交差する複数本の座標軸を設定する座標軸設定ステップと、
    前記座標軸設定ステップで設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
    前記低次信号ベクトル選択ステップで選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用データを生成する評価用データ生成ステップと、
    前記評価用データ生成ステップで生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力ステップと、
    前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得ステップと、
    前記認識結果取得ステップで取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出ステップと、
    前記認識性能値算出ステップの算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成ステップと、を含むことを特徴とする認識性能分布情報生成プログラム。
  17. 所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成プログラムであって、
    前記パターン認識の仕様に関する仕様情報を取得する仕様情報取得ステップと、
    前記仕様情報に基づき、信号データ記憶手段に記憶された複数対象に係る複数の信号データから、前記パターン認識手段の認識性能評価用の評価用データの生成処理に用いる信号データを選択する信号データ選択ステップと、
    前記信号データ選択ステップで選択した信号データに基づき、4次元以上の高次元の要素からなる高次信号パターンモデルを生成する高次信号パターンモデル生成ステップと、
    前記高次信号パターンモデル生成ステップで生成した複数の前記高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間を生成する低次信号ベクトル空間生成ステップと、
    前記低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ交差する複数本の座標軸を設定する座標軸設定ステップと、
    前記座標軸設定ステップで設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
    前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用のパターンデータを生成する評価用データ生成ステップと、
    前記評価用データ生成ステップで生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力ステップと、
    前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得ステップと、
    前記認識結果取得ステップで取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出ステップと、
    前記認識性能値算出ステップの算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成ステップと、
    前記認識性能分布情報生成ステップで生成された認識性能分布情報を出力する認識性能分布情報出力ステップとからなる処理をコンピュータに実行させるためのプログラムを含むことを特徴とする認識性能分布情報生成プログラム。
  18. 所定パターンデータのパターン認識を行うパターン認識手段の認識性能を評価するための認識性能の分布情報を出力する認識性能分布情報生成方法であって、
    前記パターン認識の仕様に関する仕様情報を取得する仕様情報取得ステップと、
    前記仕様情報に基づき、信号データ記憶手段に記憶された複数対象に係る複数の信号データから、前記パターン認識手段の認識性能評価用の評価用データの生成処理に用いる信号データを選択する信号データ選択ステップと、
    前記信号データ選択ステップで選択した信号データに基づき、4次元以上の高次元の要素からなる高次信号パターンモデルを生成する高次信号パターンモデル生成ステップと、
    前記高次信号パターンモデル生成ステップで生成した複数の前記高次信号パターンモデルから構成されるデータ空間の代替として、当該データ空間における各高次信号パターンモデルを、当該高次信号パターンモデル相互間の類似関係を近似した状態で高次信号パターンモデルの次元未満の次元の低次信号ベクトルから構成されるデータ空間に写像してなる低次信号ベクトル空間を生成する低次信号ベクトル空間生成ステップと、
    前記低次信号ベクトル空間に対して、当該低次信号ベクトル空間を構成する全低次信号ベクトルの重心でそれぞれ交差する複数本の座標軸を設定する座標軸設定ステップと、
    前記座標軸設定ステップで設定された複数本の座標軸の近傍に位置する低次信号ベクトルを選択する低次信号ベクトル選択ステップと、
    前記信号データ記憶手段に記憶された、前記低次信号ベクトル選択手段で選択した低次信号ベクトルに対応する高次信号パターンモデルの生成に用いた信号データに基づき、前記評価用のパターンデータを生成する評価用データ生成ステップと、
    前記評価用データ生成ステップで生成された評価用データを、当該評価用データの属性に対応するパターン認識手段に入力する評価用データ入力ステップと、
    前記パターン認識手段の前記評価用データに対する認識結果を取得する認識結果取得ステップと、
    前記認識結果取得ステップで取得した認識結果に基づき、認識対象毎の認識性能を示す認識性能値を算出する認識性能値算出ステップと、
    前記認識性能値算出ステップの算出結果に基づき、前記認識性能値の分布を示す認識性能分布情報を生成する認識性能分布情報生成ステップと、
    前記認識性能分布情報生成ステップで生成された認識性能分布情報を出力する認識性能分布情報出力ステップとからなる処理をコンピュータに実行させるためのプログラムを含むことを特徴とする認識性能分布情報生成方法。
JP2006015166A 2006-01-24 2006-01-24 評価用データ生成装置、認識性能分布情報生成装置およびシステム Expired - Fee Related JP4825014B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006015166A JP4825014B2 (ja) 2006-01-24 2006-01-24 評価用データ生成装置、認識性能分布情報生成装置およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006015166A JP4825014B2 (ja) 2006-01-24 2006-01-24 評価用データ生成装置、認識性能分布情報生成装置およびシステム

Publications (2)

Publication Number Publication Date
JP2007199173A true JP2007199173A (ja) 2007-08-09
JP4825014B2 JP4825014B2 (ja) 2011-11-30

Family

ID=38453874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006015166A Expired - Fee Related JP4825014B2 (ja) 2006-01-24 2006-01-24 評価用データ生成装置、認識性能分布情報生成装置およびシステム

Country Status (1)

Country Link
JP (1) JP4825014B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011245057A (ja) * 2010-05-27 2011-12-08 Airettsu:Kk 遊技台特性取得装置、遊技台特性取得システム、遊技台特性取得プログラム
JP2015530614A (ja) * 2012-08-30 2015-10-15 インタラクティブ・インテリジェンス・インコーポレイテッド 精度スコアを使用した音声認識性能を予測するための方法およびシステム
US9226713B2 (en) * 2010-09-13 2016-01-05 Fujitsu Limited Information processing method, apparatus, and program
US10019983B2 (en) 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100789A (ja) * 1999-09-27 2001-04-13 Nippon Hoso Kyokai <Nhk> 連続音声認識装置の音素認識性能測定装置
JP2005084102A (ja) * 2003-09-04 2005-03-31 Toshiba Corp 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
WO2005034086A1 (ja) * 2003-10-03 2005-04-14 Asahi Kasei Kabushiki Kaisha データ処理装置及びデータ処理装置制御プログラム
JP2005283646A (ja) * 2004-03-26 2005-10-13 Matsushita Electric Ind Co Ltd 音声認識率推定装置
JP2007065491A (ja) * 2005-09-01 2007-03-15 Asahi Kasei Corp パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100789A (ja) * 1999-09-27 2001-04-13 Nippon Hoso Kyokai <Nhk> 連続音声認識装置の音素認識性能測定装置
JP2005084102A (ja) * 2003-09-04 2005-03-31 Toshiba Corp 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
WO2005034086A1 (ja) * 2003-10-03 2005-04-14 Asahi Kasei Kabushiki Kaisha データ処理装置及びデータ処理装置制御プログラム
JP2005283646A (ja) * 2004-03-26 2005-10-13 Matsushita Electric Ind Co Ltd 音声認識率推定装置
JP2007065491A (ja) * 2005-09-01 2007-03-15 Asahi Kasei Corp パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
庄境誠: "[招待講演]複数音声コーパスの俯瞰的分析", 情報処理学会研究報告, vol. 音声言語情報処理,2005(127), JPN6011016071, 21 December 2005 (2005-12-21), JP, pages 133 - 138, ISSN: 0002011777 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011245057A (ja) * 2010-05-27 2011-12-08 Airettsu:Kk 遊技台特性取得装置、遊技台特性取得システム、遊技台特性取得プログラム
US9226713B2 (en) * 2010-09-13 2016-01-05 Fujitsu Limited Information processing method, apparatus, and program
JP2015530614A (ja) * 2012-08-30 2015-10-15 インタラクティブ・インテリジェンス・インコーポレイテッド 精度スコアを使用した音声認識性能を予測するための方法およびシステム
US10019983B2 (en) 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
US10360898B2 (en) 2012-08-30 2019-07-23 Genesys Telecommunications Laboratories, Inc. Method and system for predicting speech recognition performance using accuracy scores

Also Published As

Publication number Publication date
JP4825014B2 (ja) 2011-11-30

Similar Documents

Publication Publication Date Title
US7548651B2 (en) Data process unit and data process unit control program
JP6933264B2 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
US7725412B2 (en) Identifying temporal sequences using a recurrent self organizing map
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
JP5768093B2 (ja) 音声処理システム
JP4590692B2 (ja) 音響モデル作成装置及びその方法
US10726326B2 (en) Learning of neural network
KR100800367B1 (ko) 음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
CN111754998B (zh) 人工智能设备以及操作人工智能设备的方法
JP2006285899A (ja) 学習装置および学習方法、生成装置および生成方法、並びにプログラム
US11200888B2 (en) Artificial intelligence device for providing speech recognition function and method of operating artificial intelligence device
CN109196583A (zh) 动态语音识别数据评估
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JP4825014B2 (ja) 評価用データ生成装置、認識性能分布情報生成装置およびシステム
JP4763387B2 (ja) パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置
Walter et al. An evaluation of unsupervised acoustic model training for a dysarthric speech interface
KR102631143B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
KR102642617B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
CN110419078B (zh) 用于自动语音识别的系统和方法
KR102603282B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
KR20240105875A (ko) 음성변환을 위한 음성 데이터 학습 방법
JP2004334024A (ja) 標準パターン作成方法、作成装置及び作成プログラム
WO2009122780A1 (ja) 適応話者選択装置および適応話者選択方法並びに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110909

R150 Certificate of patent or registration of utility model

Ref document number: 4825014

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees