JP2013061402A

JP2013061402A - 音声言語評価装置、方法、及びプログラム

Info

Publication number: JP2013061402A
Application number: JP2011198383A
Authority: JP
Inventors: Roux Jonathan Le; ジョナトンルルー; Hirokazu Kameoka; 弘和亀岡; Takahito Kawanishi; 隆仁川西; Kunio Kashino; 邦夫柏野; Shuichi Itabashi; 秀一板橋; Yuichi Ishimoto; 祐一石本
Original assignee: Nippon Telegraph and Telephone Corp; Research Organization of Information and Systems
Current assignee: Nippon Telegraph and Telephone Corp; Research Organization of Information and Systems
Priority date: 2011-09-12
Filing date: 2011-09-12
Publication date: 2013-04-04
Anticipated expiration: 2031-09-12
Also published as: JP5544575B2

Abstract

【課題】テキストレベルの言語表現への変換を行うことなく、また事前知識を要することなく、入力された音声信号が示す言語の種類を評価する。
【解決手段】音素表現計算部１３で、学習用音声信号から抽出されたメルスペクトルをＮＭＦにより分解して言語の種類毎に音素表現Ｈと配合比率Ｕとを求め、音素表現Ｈを音素表現記憶部１４に言語の種類毎に記憶する。評価用音声信号が入力されると、特徴情報抽出部１２で、メルスペクトルを抽出し、音素配合比率計算部１５で、抽出されたメルスペクトルと、音素表現記憶部１４に記憶された音素表現Ｈとに基づいて、言語の種類毎に配合比率Ｕを計算する。言語類似性評価部１６で、計算された配合比率Ｕと音素表現記憶部１４に記憶された音素表現Ｈとの積を言語の種類毎に各々計算し、評価用音声信号から抽出されたメルスペクトルとの類似度に基づいて、評価用音声信号が示す言語の種類を評価する。
【選択図】図１

Description

本発明は、音声言語評価装置、方法、及びプログラムに係り、特に、入力された音声信号が示す言語の種類を評価する音声言語評価装置、方法、及びプログラムに関する。

従来、音声信号からその音声信号が示す言語の種類を識別することが行われており、そのための技術が多数提案されている(例えば、特許文献１、特許文献２、非特許文献１、及び非特許文献２参照)。このような音声信号が示す言語の種類を識別する技術としては、主に、音情報だけでなくテキストレベルの文法を活用したものと、音情報だけを用い音素レベルの特徴を活用したものとに分類できる。

テキストレベルの文法を用いる手法として、例えば、特許文献１記載の技術では、語彙文法モデルや意味規則等を用いた自然言語解析処理により、言語の認識及び解析を行っている。また、音素レベルの特徴を活用した手法としては、母音などの各言語に含まれる音への類似性を考慮して、言語の分類を行う手法が数多く提案されている。例えば、特許文献２記載の技術では、事前知識としていくつかの音声アルファベットを仮定して、テキストではなく音素情報を用いて、言語の認識を行っている。

特開平８−１０６３７４号公報特開２００１−１０９４９０号公報

Zissman, M.A."Comparison of four approaches to automatic language identification of telephone speech," IEEE Trans. on Speech and Audio Processing, Vol.4, No.1, pp. 31-44, Jan. 1996. Yeshwant K. et.al "Reviewing Automatic Language Identification," IEEE Signal Processing Magazine, pp. 33-41, Oct. 1994

しかしながら、テキストレベルの文法を用いる手法は、文字を持たず文法が解析されていない言語への適用は困難である、という問題がある。例えば、特許文献１記載の技術では、自然言語解析処理を必要とし、文字言語が存在しない言語へは適用できない。

また、音素レベルの特徴を活用する場合には、例えば、特許文献２に記載の技術のように、事前知識を必要とし、分析の行われていない多くの文字を持たない言語への適用は困難である、という問題がある。

本発明は、上記の課題を解決するためになされたもので、テキストレベルの言語表現への変換を行うことなく、また事前知識を要することなく、入力された音声信号が示す言語の種類を評価することができる音声言語評価装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の音声言語評価装置は、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する抽出手段と、言語の種類が既知の複数の学習用音声信号から抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより得られた音素毎の基底ベクトルで表された言語の種類毎の音素表現と、前記抽出手段により抽出された評価用特徴情報とに基づいて、該評価用特徴情報に配合された各音素の基底ベクトルの比率を示す配合比率を、言語の種類毎に計算する配合比率計算手段と、前記評価用特徴情報と、前記配合比率計算手段により計算された言語の種類毎の配合比率と前記言語の種類毎の音素表現との積で示される情報各々との類似度に基づいて、該評価用特徴情報に対応する評価用音声信号が示す言語の種類を評価する評価手段と、を含んで構成されている。

本発明の音声言語評価装置によれば、抽出手段が、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する。また、言語の種類が既知の複数の学習用音声信号から抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより、音素毎の基底ベクトルで表された言語の種類毎の音素表現が予め得られている。そして、配合比率計算手段が、予め得られた言語の種類毎の音素表現と、抽出手段により抽出された評価用特徴情報とに基づいて、評価用特徴情報に配合された各音素の基底ベクトルの比率を示す配合比率を、言語の種類毎に計算する。そして、評価手段が、評価用特徴情報と、配合比率計算手段により計算された言語の種類毎の配合比率と言語の種類毎の音素表現との積で示される情報各々との類似度に基づいて、評価用特徴情報に対応する評価用音声信号が示す言語の種類を評価する。

このように、学習用音声信号を非負値行列分解して得られた言語の種類毎の音素表現と、その音素表現と評価用特徴情報とに基づいて計算された配合比率との積で示される情報と評価用特徴情報との類似度により、評価用音声信号が示す言語の種類を評価するため、テキストレベルの言語表現への変換を行うことなく、また事前知識を要することなく、入力された音声信号が示す言語の種類を評価することができる。

また、前記音素表現を、時系列構造の音素表現とすることができる。これにより、音の連続的な変化における微妙な音素の変化も考慮して、入力された音声信号が示す言語の種類を評価することができる。

また、前記評価手段は、前記類似度が最も高くなるときの音素表現に対応する言語の種類を、前記評価用音声信号が示す言語の種類であると識別するか、または、言語の種類毎の類似度に基づいて、言語の種類間の系統的関連性を示す言語系統樹を作成することができる。

また、前記配合比率計算手段は、発話者の性別及び年齢の少なくとも一方が既知の学習用音声信号から抽出された学習用特徴情報より得られた言語の種類並びに性別及び年齢別の少なくとも一方毎の音素表現に基づいて、言語の種類並びに性別及び年齢別の少なくとも一方毎に前記配合比率を計算することができる。

また、前記抽出手段は、前記複数の学習用音声信号から前記言語の種類毎の学習用特徴情報を抽出し、前記抽出手段により抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより前記言語の種類毎の音素表現を計算する音素表現計算手段を含んで構成することができる。

また、本発明の音声言語評価方法は、抽出手段と、配合比率計算手段と、評価手段とを含む音声言語評価装置における音声言語評価方法であって、前記抽出手段は、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出し、前記配合比率計算手段は、言語の種類が既知の複数の学習用音声信号から抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより得られた音素毎の基底ベクトルで表された言語の種類毎の音素表現と、前記抽出手段により抽出された評価用特徴情報とに基づいて、該評価用特徴情報に配合された各音素の基底ベクトルの比率を示す配合比率を、言語の種類毎に計算し、前記評価手段は、前記評価用特徴情報と、前記配合比率計算手段により計算された言語の種類毎の配合比率と前記言語の種類毎の音素表現との積で示される情報各々との類似度に基づいて、該評価用特徴情報に対応する音声信号が示す言語の種類を評価する方法である。

また、音素表現計算手段を更に含む音声言語評価装置における音声言語評価方法では、前記抽出手段は、前記複数の学習用音声信号から前記言語の種類毎の学習用特徴情報を抽出し、前記音素表現計算手段は、前記抽出手段により抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより前記言語の種類毎の音素表現を計算する。

また、本発明の音声言語評価プログラムは、コンピュータを、上記の音声言語評価装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の音声言語評価装置、方法、及びプログラムによれば、学習用音声信号を非負値行列分解して得られた言語の種類毎の音素表現と、その音素表現と評価用特徴情報とに基づいて計算された配合比率との積で示される情報と評価用特徴情報との類似度により、評価用音声信号が示す言語の種類を評価するため、テキストレベルの言語表現への変換を行うことなく、また事前知識を要することなく、入力された音声信号が示す言語の種類を評価することができる、という効果が得られる。

第１の実施の形態に係る音声言語評価装置の構成を示す概略図である。非負値行列分解のイメージ図である。中国語の音素表現の一例を示すグラフである。スペイン語の音素表現の一例を示すグラフである。第１の実施の形態に係る音声言語評価装置における学習処理ルーチンの内容を示すフローチャートである。第１の実施の形態に係る音声言語評価装置における評価処理ルーチンの内容を示すフローチャートである。時系列の音素表現に対する非負値行列分解のイメージ図である。英語の時系列の音素表現の一例を示すグラフである。ドイツ語の時系列の音素表現の一例を示すグラフである。スウェーデン語の時系列の音素表現の一例を示すグラフである。フランス語の時系列の音素表現の一例を示すグラフである。ある音声信号に対する類似値の一例を示すグラフである。言語系統樹の出力の一例を示す図である。時系列の音素表現を利用した言語分類の一例を示すグラフである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

第１の実施の形態に係る音声言語評価装置１は、ＣＰＵと、ＲＡＭと、後述する学習処理及び評価処理を含む音声言語評価処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成されている。

このコンピュータは、機能的には、図１に示すように、音声信号を入力する音声信号入力部１１と、音声信号から特徴情報を抽出する特徴情報抽出部１２と、事前学習のために、言語の種類及び性別毎に得られた特徴情報に対して音素表現を計算する音素表現計算部１３と、言語の種類及び性別毎の音素表現が記憶される音素表現記憶部１４と、言語評価のために、特徴情報抽出部１２から得られた特徴情報に対し、音素表現記憶部１４に記憶された言語の種類及び性別毎の音素表現各々を用いて配合比率を計算する音素配合比率計算部１５と、言語の種類毎の音素配合比率を解析して、各言語との類似性を評価する言語類似性評価部１６と、評価結果が表示装置に表示されるように制御する表示制御部１７とを含んだ構成で表すことができる。

また、音声信号入力部１１、特徴情報抽出部１２、音素表現計算部１３、及び音素表現記憶部１４が学習部２として機能し、音声信号入力部１１、特徴情報抽出部１２、音素配合比率計算部１５、言語類似性評価部１６、及び表示制御部１７が評価部３として機能する。すなわち、音声信号入力部１１及び特徴情報抽出部１２は、学習部２及び評価部３で共通に用いられる。

音声信号入力部１１には、例えば、電子的に記録されたファイルまたはマイクなどの入力装置から、デジタル化された音声信号が入力される。学習段階では、言語の種類及び発話者の性別（男女別）が既知の音声信号（学習用音声信号）が入力される。また、評価段階では、言語の種類が未知で、発話者の性別が既知または未知の音声信号（評価用音声信号）が入力される。

特徴情報抽出部１２は、音声信号入力部１１から得られるデジタル化された音声信号から、特徴情報を抽出する。本実施の形態では、特徴情報として、メルスペクトルを抽出する場合について説明する。なお、特徴情報は、音素表現やその識別方法に何を使うかにより異なる特徴（例えば、スペクトルと主成分分析（ＰＣＡ）、メルケプストラムとベクトル量子化など）を抽出するようにしてもよい。学習段階では、学習用音声信号から言語の種類及び性別毎にメルスペクトルを抽出し、これを学習用特徴情報とする。また、評価段階では、評価用音声信号からメルスペクトルを抽出し、これを評価用特徴情報とする。

音素表現計算部１３では、特徴情報抽出部１２により学習用特徴情報として抽出された言語の種類及び性別毎のメルスペクトルを分析して、音声信号内に繰り返し現れる音素構造を抽出する。このような方法には、例えば、音のような非負の情報を取り扱うのに適した非負値行列分解（ＮＭＦ：Non-negative Matrix Factorization）を用いることができる（例えば、「D. D. Lee, H. S. Seung, “Learning the part of objects by non-negative matrix factorization,” Nature Vol.401, pp. 788-791, 1999.」参照）。ＮＭＦは、自動採譜やモノラル混合信号からの音源の分離に適用されている（例えば、「P. Smaragdis, J. C. Brown, “Non-Negative Matrix Factorization for Music Transcription,”ln Proc. 2003 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA2003), pp. 177-180,2003.」及び「T. Virtanen, “Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, pp. 1066−1074, 2007.」参照）
ＮＭＦによって音声信号を音素へ分解するイメージを図２に示す。図中Ｙは、特徴情報抽出部１２で抽出されたメルスペクトルを、図中Ｈは、音素表現（音素毎の基底ベクトルを並べたもの。音素の基底ベクトルを、以下では単に「音素」ともいう）を、図中Ｕは、各音素がＹにどのくらいの比率で配合されているかを示す配合比率を表す。ＮＭＦによる繰り返し演算で、メルスペクトルＹと、音素表現Ｈと配合比率Ｕとの積との差を最小化することにより、適切な音素表現Ｈ及び配合比率Ｕを求めることができる。評価段階では、音素表現Ｈのみを利用するため、求めた音素表現Ｈを出力する。

ここでは、ＮＭＦでメルスペクトルＹと、音素表現Ｈと配合比率Ｕとの積との差を最小化するために用いる距離尺度にＫＬ（Kullback-Leibler）−ダイバージェンスを用いる。なお、ＫＬ−ダイバージェンスではなく、板倉斎藤距離やユークリッド距離を用いてもよい。メルスペクトルを入力とし、ＫＬ−ダイバージェンスを距離尺度として作成した中国語の音素表現を図３に示す。同図では、１０個の音素を横方向に並べ、音素各々の縦軸を周波数、横軸をその強さとして、音素表現を表している。同様に表したスペイン語の音素表現を図４に示す。スペイン語と中国語とで、似通った音素とそうではない音素とが存在する。このような特徴は、各言語の母音の種類の差に相当すると推察される。

音素表現記憶部１４には、音素表現計算部１３から出力された音素表現Ｈが、男女別に言語の種類毎に記憶される。なお、ここでは、音素表現を男女別に言語の種類毎に記憶する構成としたが、特徴情報や距離の定義によっては、男女をまとめてもよいし、年齢別等さらに細かく分類してもよい。

音素配合比率計算部１５は、特徴情報抽出部１２で評価用特徴情報として抽出されたメルスペクトルが入力される。ＮＭＦでは、図２の上式のように、音声信号のメルスペクトルＹを、音素表現Ｈと配合比率Ｕとの積で近似的に表現することができる。音素配合比率計算部１５は、この近似表現に基づいて、入力されたメルスペクトルＹと、音素表現記憶部１４に男女別に記憶された言語の種類毎の音素表現Ｈとに基づいて、言語の種類毎に配合比率Ｕを計算する。

ここで、評価用音声信号の発話者の性別が既知の場合には、音素表現記憶部１４に記憶された男女別の言語の種類毎の音素表現Ｈのうち、発話者の性別に対応した音素表現Ｈを用いて配合比率Ｕを計算する。発話者の性別が未知の場合には、記憶された音素表現Ｈの全てを用いて、言語の種類及び性別毎に配合比率Ｕを計算する。

言語類似性評価部１６は、音素配合比率計算部１５で計算された配合比率Ｕと音素表現記憶部１４に記憶された音素表現Ｈとの積を言語の種類毎に各々計算し、特徴情報抽出部１２から出力された評価用音声信号のメルスペクトルＹとの類似度を計算する。類似度は、ＵとＨとの積とＹとの差分（距離）とすることができる。これにより、入力された音声信号が示す言語の種類と各言語の種類の音素表現との類似性が距離として表現される。この距離が最も近い場合の計算に用いられた音素表現Ｈに対応する言語の種類を、評価用音声信号が示す言語の種類に最も類似する言語の種類であると評価する。

また、言語類似性評価部１６は、計算された類似度を用いて、言語の体系化のために、入力された音声信号に対する言語系統樹を評価結果として求めてもよい。言語系統樹の作成方法としては、群平均法（ＵＰＧＭＡ：UnweightedPair-Group Method using Average）などを用いることができる。ＵＰＧＭＡは、段階的な言語系統樹の作成方法であり、最小距離となる２つの言語を結合していく処理を繰り返す方法である。結合された言語グループとの距離の計算にはグループ内のそれぞれの言語との距離の平均値を用いる。

なお、評価用音声信号の発話者の性別が未知の場合には、男性版の音素表現を用いた場合の類似度、女性版の音素表現を用いた場合の類似度の両方を計算し、類似度が高い方の音素表現に対応する性別も合わせて評価結果として求めるようにするとよい。

表示制御部１７は、言語類似性評価部１６による評価結果が表示装置に表示されるように制御する。例えば、評価用音声信号が示す言語の種類に最も類似する言語の種類が何であるかを文字で表示したり、評価用音声信号と各言語の種類の音素表現との類似度を棒グラフ等で表示したりすることができる。また、言語系統樹を求めた場合には、求めた言語系統樹を表示するようにするとよい。

なお、ここでは、評価結果を表示装置に表示する場合について説明したが、音声出力装置により音声で評価結果を出力するようにしてもよい。例えば、評価用音声信号が示す言語の種類に最も類似する言語の種類が何であるかを音声で表示したり、最も類似する言語の種類の学習データ中の音声を出力したりすることができる。

次に、第１の実施の形態に係る音声言語評価装置１の作用について説明する。評価用音声信号が示す言語の種類を評価する評価処理に先立って、図５に示す学習処理ルーチンが実行される。

ステップ１００で、電子的に記録されたファイルまたはマイクなどの入力装置から、デジタル化された学習用音声信号が入力される。

次に、ステップ１０２で、上記ステップ１００で入力された学習用音声信号から、学習用特徴情報としてメルスペクトルを抽出する。ここで抽出された学習用特徴情報は、言語の種類及び性別毎の特徴情報である。

次に、ステップ１０４で、上記ステップ１０２で抽出されたメルスペクトルを、言語の種類及び性別毎にＮＭＦにより音素に分解し、音素表現Ｈと配合比率Ｕとする。

次に、ステップ１０６で、上記ステップ１０４で計算された音素表現Ｈを、音素表現記憶部１４に男女別に言語の種類毎に記憶して処理を終了する。

そして、上記の学習処理ルーチンが実行されて、音素表現記憶部１４に男女別に言語の種類毎の音素表現Ｈが記憶された状態で、図６に示す評価処理ルーチンが実行される。

ステップ１２０で、評価用音声信号を入力する。ここで入力された評価用音声信号は、発話者の性別が既知であるとする。

次に、ステップ１２２で、学習処理のステップ１０２と同様の処理により、上記ステップ１２０で入力された評価用音声信号から、評価用特徴情報としてメルスペクトルを抽出する。

次に、ステップ１２４で、上記ステップ１２２で評価用音声信号から抽出されたメルスペクトルＹと、音素表現記憶部１４に記憶された発話者の性別に対応した言語の種類毎の音素表現Ｈとに基づいて、言語の種類毎に配合比率Ｕを計算する。

次に、ステップ１２６で、上記ステップ１２４で計算された言語の種類毎の配合比率Ｕと音素表現記憶部１４に記憶された発話者の性別に対応した言語の種類毎の音素表現Ｈとの積を各々計算し、上記ステップ１２２で抽出されたメルスペクトルＹとの類似度を計算する。この類似度が最も高い場合の計算に用いられた音素表現Ｈに対応する言語の種類を、評価用音声信号が示す言語の種類に最も類似する言語の種類であると評価する。また、計算された類似度を用いて、言語の種類の体系化のために、入力された評価用音声信号に対する系統樹を評価結果として求める。

次に、ステップ１２８で、上記ステップ１２６での評価結果を表示装置に表示して、処理を終了する。

以上説明したように、第１の実施の形態の音声言語評価装置によれば、学習用音声信号から抽出された学習用特徴情報を非負値行列分割により音素表現とその配合比率とで表現した場合の音素表現を言語の種類毎に記憶しておき、評価用音声信号から抽出された評価用特徴情報と記憶された言語の種類毎の音素表現とに基づいて、言語の種類毎に配合比率を計算し、評価用特徴情報と、記憶された言語の種類毎の音素表現と計算された配合比率との積との類似度に基づいて、評価用音声信号が示す言語の種類がどの言語の種類に類似するかを評価する。このように、テキストレベルの言語表現への変換を行うことなく、また事前知識を要することなく、音声信号のみを用いて、入力された音声信号が示す言語の種類を評価することができる。

また、評価用音声信号が示す言語の種類と各言語の種類との類似性を用いて言語系統樹を求めることができ、言語の種類間の関係性に対する新たな文化的歴史的新知見も期待できる。

次に、第２の実施の形態について説明する。なお、第２の実施の形態に係る音声言語評価装置は、音素表現計算部１３において、時系列の音素表現を用いる点が第１の実施の形態と異なるため、その点について説明する。

言語の特性は母音の種類などにより分類されるが、特に連続音のように、母音などの各音素の音量が連続的に変化する場合には、前の音素から後の音素に連続的に変化していく中で、認識が困難になる状況がある（例えば、「おはよう」の「よ」から「う」にかけての音の変化）。第２の実施の形態では、このような連続音における音の微妙な変化も考慮に入れて、言語の種類を評価する。

第２の実施の形態における音素表現計算部１３は、図７に示すように、時系列構造を持った音素に対し、非負値行列分解（Non-negative Matrix Deconvolution、ＮＭＦＤ、例えば、「Paris Smaragdis, “Non-negative Matrix Factor Deconvolution; Extraction of Multiple Sound Sources from Monophonic Inputs,” Independent Component Analysis and Blind Signal Separation, Lecture Notes in Computer Science, 2004, Volume 3195/2004, 494-499」参照）を用いて時系列の音素表現を計算する。

ＮＭＦＤで計算した英語、ドイツ語、スウェーデン語、及びフランス語の時系列の音素表現を図８〜１１に示す。ここでは、１２個の音素を横に並べた音素表現となっている。各音素の内部では、横に５つの時系列の変化を表し、縦が周波数を表している。内部の各四角形が暗いほど強い値であることを示す。すなわち、各音素がメルスペクトルの時間推移を表現している。

第２の実施の形態における学習処理及び評価処理については、第１の実施の形態の学習処理及び評価処理においてＮＭＦにより音素表現を計算した点が、上記のＮＭＦＤを用いて時系列の音素表現を計算する点と異なるだけであるので、説明を省略する。

以上説明したように、第２の実施の形態の音声言語評価装置によれば、第１の実施の形態の効果に加え、音の連続的な変化における微妙な音素の変化も考慮して、適切に評価用音声信号が示す言語の種類を評価することができる。

ここで、本発明の効果を説明するために、評価結果の一例について説明する。

２１言語の音声コーパスから音素表現を作成し、ある女性の日本語入力に対し、類似度を比較した評価結果を図１２に示す。距離を類似値に変換するため、ｅｘｐ（−距離値）を類似値とした。同図に示すとおり、日本語との類似値が最も高く、入力された音声信号が示す言語の種類が日本語であると正しく識別できることが確認できた。

同様の方法を各言語間で繰り返し、ＵＰＧＭＡ法で言語系統樹を作成した結果を図１３に示す。同図の評価結果は、必ずしも言語学的分類の言語系統樹とは一致していないが、地理的な近さは反映したものとなっており、音素と言語の種類とのなんらかの関係を示唆していると思われる。

次に、ＮＭＦＤを用いて、英語、ドイツ語、スウェーデン語、及びフランス語の４言語について、距離を測定した結果を図１４に示す。縦軸が学習した音素の変化であり、横軸は入力した音声の言語の種類である。各四角形内が黒いほど類似しており、白いほど違いが大きいことを示している。同図からわかるように、全ての入力された言語の種類に対して最も類似する言語の種類が正解の言語の種類となっており、ＮＭＦＤを用いた識別が有効であることがわかる。さらにスウェーデン語の音素は他の言語との違いが大きく、ドイツ語の音素は他の言語に類似している。一般に英語よりもスウェーデン語やフランス語は母音の種類が多く、ドイツ語は母音の種類が少ない。このような傾向の影響を受けているように思われる。

なお、上記の実施の形態では、学習部と評価部とを１つのコンピュータで構成する場合について説明したが、各々別のコンピュータで構成するようにしてもよい。

また、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述の音声言語評価装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１音声言語評価装置
２学習部
３評価部
１１音声信号入力部
１２特徴情報抽出部
１３音素表現計算部
１４音素表現記憶部
１５音素配合比率計算部
１６言語類似性評価部
１７表示制御部

Claims

言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する抽出手段と、
言語の種類が既知の複数の学習用音声信号から抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより得られた音素毎の基底ベクトルで表された言語の種類毎の音素表現と、前記抽出手段により抽出された評価用特徴情報とに基づいて、該評価用特徴情報に配合された各音素の基底ベクトルの比率を示す配合比率を、言語の種類毎に計算する配合比率計算手段と、
前記評価用特徴情報と、前記配合比率計算手段により計算された言語の種類毎の配合比率と前記言語の種類毎の音素表現との積で示される情報各々との類似度に基づいて、該評価用特徴情報に対応する評価用音声信号が示す言語の種類を評価する評価手段と、
を含む音声言語評価装置。
前記音素表現を、時系列構造の音素表現とした請求項１記載の音声言語評価装置。
前記評価手段は、前記類似度が最も高くなるときの音素表現に対応する言語の種類を、前記評価用音声信号が示す言語の種類であると識別するか、または、言語の種類毎の類似度に基づいて、言語の種類間の系統的関連性を示す言語系統樹を作成する請求項１または請求項２記載の音声言語評価装置。
前記配合比率計算手段は、発話者の性別及び年齢の少なくとも一方が既知の学習用音声信号から抽出された学習用特徴情報より得られた言語の種類並びに性別及び年齢別の少なくとも一方毎の音素表現に基づいて、言語の種類並びに性別及び年齢別の少なくとも一方毎に前記配合比率を計算する請求項１〜請求項３のいずれか１項記載の音声言語評価装置。
前記抽出手段は、前記複数の学習用音声信号から前記言語の種類毎の学習用特徴情報を抽出し、
前記抽出手段により抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより前記言語の種類毎の音素表現を計算する音素表現計算手段
を含む請求項１〜請求項４のいずれか１項記載の音声言語評価装置。
抽出手段と、配合比率計算手段と、評価手段とを含む音声言語評価装置における音声言語評価方法であって、
前記抽出手段は、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出し、
前記配合比率計算手段は、言語の種類が既知の複数の学習用音声信号から抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより得られた音素毎の基底ベクトルで表された言語の種類毎の音素表現と、前記抽出手段により抽出された評価用特徴情報とに基づいて、該評価用特徴情報に配合された各音素の基底ベクトルの比率を示す配合比率を、言語の種類毎に計算し、
前記評価手段は、前記評価用特徴情報と、前記配合比率計算手段により計算された言語の種類毎の配合比率と前記言語の種類毎の音素表現との積で示される情報各々との類似度に基づいて、該評価用特徴情報に対応する評価用音声信号が示す言語の種類を評価する
音声言語評価方法。
前記音声言語評価装置は、音素表現計算手段を更に含み、
前記抽出手段は、前記複数の学習用音声信号から前記言語の種類毎の学習用特徴情報を抽出し、
前記音素表現計算手段は、前記抽出手段により抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより前記言語の種類毎の音素表現を計算する
請求項６記載の音声言語評価方法。
コンピュータを、請求項１〜請求項５のいずれか１項記載の音声言語評価装置を構成する各手段として機能させるための音声言語評価プログラム。