JP6057170B2 - Spoken language evaluation device, parameter estimation device, method, and program - Google Patents

Spoken language evaluation device, parameter estimation device, method, and program Download PDF

Info

Publication number
JP6057170B2
JP6057170B2 JP2013036258A JP2013036258A JP6057170B2 JP 6057170 B2 JP6057170 B2 JP 6057170B2 JP 2013036258 A JP2013036258 A JP 2013036258A JP 2013036258 A JP2013036258 A JP 2013036258A JP 6057170 B2 JP6057170 B2 JP 6057170B2
Authority
JP
Japan
Prior art keywords
parameter
evaluation
language
unit
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013036258A
Other languages
Japanese (ja)
Other versions
JP2014164187A (en
Inventor
康智 大石
康智 大石
弘和 亀岡
弘和 亀岡
小野 順貴
順貴 小野
祐一 石本
祐一 石本
松井 知子
知子 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Inter University Research Institute Corp Research Organization of Information and Systems filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013036258A priority Critical patent/JP6057170B2/en
Publication of JP2014164187A publication Critical patent/JP2014164187A/en
Application granted granted Critical
Publication of JP6057170B2 publication Critical patent/JP6057170B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声言語評価装置、パラメータ推定装置、方法、及びプログラムに係り、特に、入力された音声信号が示す言語の種類を評価する音声言語評価装置、パラメータ推定装置、方法、及びプログラムに関する。   The present invention relates to a spoken language evaluation device, a parameter estimation device, a method, and a program, and more particularly, to a spoken language evaluation device, a parameter estimation device, a method, and a program for evaluating a language type indicated by an input speech signal.

言語の種類を分類または識別することは、言語学的観点及び工学的応用の両面から重要な技術である。言語学の分野では、機能的または地理的比較を用いた手法により、文法、語彙、歴史的または地理的背景などに基づいた言語の分類及び類型化が進められてきた。しかし、このような機能的または地理的比較を用いた手法は、研究者個人の観察や内省に基づくものが多く客観性が高いとは言い難い。   Classifying or identifying language types is an important technique from both a linguistic point of view and engineering applications. In the field of linguistics, categorization and typification of languages based on grammar, vocabulary, historical or geographical background, etc. have been promoted by methods using functional or geographical comparison. However, it is difficult to say that such methods using functional or geographical comparisons are based on observations and reflections of individual researchers and are highly objective.

一方、音声工学において、音声信号が示す言語の種類を分類することは、言語の種類の識別や多言語音声認識の基盤となることから、複数種類の言語による複数の音声信号を含む大規模音声コーパスを利用した言語の種類の分類や識別が試みられている。このような音声工学における言語の種類の分類や識別には、これまでベクトル量子化、隠れマルコフモデル(HMM)、ガウス混合モデル(GMM)など様々な手法が用いられている。   On the other hand, in speech engineering, classifying the language type indicated by a speech signal is the basis for language type identification and multilingual speech recognition, so large-scale speech containing multiple speech signals in multiple types of languages. Attempts have been made to classify and identify language types using a corpus. Various methods such as vector quantization, hidden Markov model (HMM), and Gaussian mixture model (GMM) have been used to classify and identify language types in speech engineering.

C.S. Greenberg et. al.,“The 2011 NIST Language Recognition Evaluation,”in Proc. Interspeech 2012.C.S.Greenberg et. Al., “The 2011 NIST Language Recognition Evaluation,” in Proc. Interspeech 2012.

しかしながら、従来の手法では、事前知識無しに音声信号のみから音声信号が示す言語の種類を評価することについて、充分な成果は得られていない。   However, in the conventional method, sufficient results have not been obtained for evaluating the type of language indicated by the voice signal from only the voice signal without prior knowledge.

本発明は、上記の事情に鑑みてなされたものであり、事前知識を要することなく、入力された音声信号が示す言語の種類を精度良く評価することができる音声言語評価装置、方法、及びプログラム、並びにこれらに用いるためのパラメータを推定するパラメータ推定装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and a spoken language evaluation apparatus, method, and program capable of accurately evaluating the type of language indicated by an input speech signal without requiring prior knowledge. An object of the present invention is to provide a parameter estimation device, a method, and a program for estimating parameters to be used for them.

上記目的を達成するために、第1の発明に係る音声言語評価装置は、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する抽出手段と、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号に対する非負値行列因子分解により抽出した複数の音素の各々に相当する複数の状態の基底スペクトルを示す第1パラメータ及び基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、前記抽出手段により抽出された評価用特徴情報とに基づいて、前記評価用音声信号が示す言語の種類が前記複数種類の各々であることの尤もらしさ示す尤度を計算する尤度計算手段と、前記尤度計算手段により計算された尤度に基づいて、前記評価用音声信号が示す言語の種類を評価する評価手段と、を含んで構成されている。 In order to achieve the above object, a speech language evaluation apparatus according to a first aspect of the present invention includes an extraction unit that extracts evaluation feature information from an evaluation speech signal whose language type is unknown, and a plurality of languages whose types are known. for each type of language, the first parameter indicating a basal spectra of a plurality of states corresponding to each of a plurality of phonemes and extracted with non-negative matrix factorization for training speech signal and the second indicating state transition probabilities of the underlying spectrum Based on the model including the parameter and the evaluation feature information extracted by the extraction unit, the likelihood indicating the likelihood that the language type indicated by the evaluation speech signal is each of the plurality of types is calculated. Likelihood calculating means, and evaluation means for evaluating the type of language indicated by the evaluation speech signal based on the likelihood calculated by the likelihood calculating means. To have.

第1の発明に係る音声言語評価装置によれば、抽出手段が、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する。そして、尤度計算手段が、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号に対する非負値行列因子分解により抽出した複数の音素の各々に相当する複数の状態の基底スペクトルを示す第1パラメータ及び基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、抽出手段により抽出された評価用特徴情報とに基づいて、評価用音声信号が示す言語の種類が複数種類の各々であることの尤もらしさ示す尤度を計算する。さらに、評価手段が、尤度計算手段により計算された尤度に基づいて、評価用音声信号が示す言語の種類を評価する。 According to the spoken language evaluation apparatus according to the first aspect of the invention, the extraction unit extracts the evaluation feature information from the evaluation speech signal whose language type is unknown. Then, the likelihood calculating means, with a plurality kinds of languages type of language is known, the base spectrum of a plurality of states corresponding to each of a plurality of phonemes and extracted with non-negative matrix factorization for training speech signals A plurality of kinds of languages indicated by the evaluation speech signal based on the model including the first parameter indicating the second parameter indicating the state transition probability of the base spectrum and the evaluation feature information extracted by the extraction unit. The likelihood indicating the likelihood of being each is calculated. Further, the evaluation means evaluates the type of language indicated by the evaluation speech signal based on the likelihood calculated by the likelihood calculation means.

また、第2の発明に係る音声言語評価装置は、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する抽出手段と、学習用音声信号から学習用特徴情報として抽出されたメルスペクトルのスケールに応じた重み付け平均による更新則で学習され、かつ複数種類の言語に共通の複数の状態の基底スペクトルを示す第1パラメータと、言語の種類が既知である複数種類の言語それぞれについて、1時刻前の基底スペクトルに依存して遷移する基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、前記抽出手段により抽出された評価用特徴情報とに基づいて、前記評価用音声信号が示す言語の種類が前記複数種類の各々であることの尤もらしさ示す尤度を計算する尤度計算手段と、前記尤度計算手段により計算された尤度に基づいて、前記評価用音声信号が示す言語の種類を評価する評価手段と、
を含んで構成されている。
The spoken language evaluation apparatus according to the second aspect of the invention also includes an extraction means for extracting evaluation feature information from an evaluation speech signal whose language type is unknown, and a melody extracted as learning feature information from the learning speech signal. learned by updating rule according to the weighted average in accordance with the scale of the spectrum, and a first parameter indicating a basal spectrum common multiple states to a plurality of types of languages, for each of a plurality kinds of languages different languages are known , 1 a model and a second parameter indicating a state transition probability of the base spectrum time transitions depending on the previous base spectrum, based on the evaluation feature information extracted by the extraction means, the evaluation speech The likelihood calculation means for calculating likelihood indicating the likelihood that the language type indicated by the signal is each of the plurality of types, and the likelihood calculation means Based on the time, and evaluation means for evaluating the type of language that the sound signals used for evaluation is shown,
It is comprised including.

第2の発明に係る音声言語評価装置によれば、抽出手段が、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する。そして、尤度計算手段が、学習用音声信号から学習用特徴情報として抽出されたメルスペクトルのスケールに応じた重み付け平均による更新則で学習され、かつ複数種類の言語に共通の複数の状態の基底スペクトルを示す第1パラメータと、言語の種類が既知である複数種類の言語それぞれについて、1時刻前の基底スペクトルに依存して遷移する基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、抽出手段により抽出された評価用特徴情報とに基づいて、評価用音声信号が示す言語の種類が複数種類の各々であることの尤もらしさ示す尤度を計算する。さらに、評価手段が、尤度計算手段により計算された尤度に基づいて、評価用音声信号が示す言語の種類を評価する。 According to the spoken language evaluation apparatus according to the second aspect of the present invention, the extracting means extracts the evaluation feature information from the evaluation speech signal whose language type is unknown. Then, the likelihood calculating means is learned by an update rule by weighted average according to the scale of the mel spectrum extracted as learning feature information from the learning speech signal, and is based on a plurality of states common to a plurality of types of languages. model including a first parameter showing a spectrum for each of a plurality kinds of languages different languages are known, and a second parameter indicating a state transition probability of the base spectral transition depending on the underlying spectra of the immediately preceding time Based on the evaluation feature information extracted by the extraction unit, the likelihood indicating the likelihood that the language type indicated by the evaluation speech signal is each of a plurality of types is calculated. Further, the evaluation means evaluates the type of language indicated by the evaluation speech signal based on the likelihood calculated by the likelihood calculation means.

このように、複数の状態の基底スペクトル及び基底スペクトルの状態遷移確率を示すパラメータを含むモデルを用いることにより、言語が持つ音声的性質と音素遷移とを含む言語的性質に基づく評価を行うことができるため、事前知識を要することなく、入力された音声信号が示す言語の種類を精度良く評価することができる。   As described above, by using a model including a base spectrum of a plurality of states and a parameter indicating a state transition probability of the base spectrum, it is possible to perform an evaluation based on a speech property of a language and a linguistic property including a phoneme transition. Therefore, it is possible to accurately evaluate the type of language indicated by the input voice signal without requiring prior knowledge.

また、第3の発明に係るパラメータ推定装置は、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号から学習用特徴情報を抽出する抽出手段と、前記学習用音声信号に対する非負値行列因子分解により抽出した複数の音素の各々に相当する複数の状態の基底スペクトルを示す第1パラメータ及び基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルについて、前記複数種類の言語毎の前記第1パラメータ及び前記第2パラメータの初期値を生成する初期値生成手段と、前記第1パラメータ及び前記第2パラメータの初期値、または現在の前記第1パラメータ及び前記第2パラメータの値と、前記抽出手段により抽出された学習用特徴情報とを用いた最適化により、前記複数種類の言語毎の前記第1パラメータ及び前記第2パラメータを推定する推定手段と、前記推定手段の推定結果が所定の条件を満たした場合に、推定された前記第1パラメータ及び前記第2パラメータを出力し、前記推定結果が前記所定の条件を満たしていない場合に、前記推定手段により前記第1パラメータ及び前記第2パラメータの推定が行われるように制御する制御手段と、を含んで構成されている。 According to a third aspect of the present invention, there is provided a parameter estimation device including: an extraction unit that extracts learning feature information from a learning speech signal for each of a plurality of types of languages whose language types are known; and a non-negative for the learning speech signal. For a model including a first parameter indicating a base spectrum of a plurality of states corresponding to each of a plurality of phonemes extracted by value matrix factorization and a second parameter indicating a state transition probability of the base spectrum, for each of the plurality of types of languages Initial value generating means for generating initial values of the first parameter and the second parameter; initial values of the first parameter and the second parameter; or current values of the first parameter and the second parameter; The first parameter for each of the plurality of types of languages is obtained by optimization using the learning feature information extracted by the extracting means. And the estimation means for estimating the second parameter, and when the estimation result of the estimation means satisfies a predetermined condition, the estimated first parameter and the second parameter are output, and the estimation result is And control means for controlling the first parameter and the second parameter to be estimated by the estimating means when a predetermined condition is not satisfied.

第3の発明に係るパラメータ推定装置によれば、抽出手段が、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号から学習用特徴情報を抽出する。そして、初期値生成手段が、前記学習用音声信号に対する非負値行列因子分解により抽出した複数の音素の各々に相当する複数の状態の基底スペクトルを示す第1パラメータ及び基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルについて、前記複数種類の言語毎の前記第1パラメータ及び前記第2パラメータの初期値を生成する。次に、推定手段が、第1パラメータ及び第2パラメータの初期値と、抽出手段により抽出された学習用特徴情報とを用いた最適化により、複数種類の言語毎の第1パラメータ及び第2パラメータを推定する。そして、制御手段が、推定手段の推定結果が所定の条件を満たした場合に、推定された第1パラメータ及び第2パラメータを出力し、推定結果が所定の条件を満たしていない場合に、推定手段により第1パラメータ及び第2パラメータの推定が行われるように制御する。推定手段による2回目以降の処理の際には、第1パラメータ及び第2パラメータの初期値に替えて、推定手段で推定された第1パラメータ及び第2パラメータの値を用いる。 According to the parameter estimation device according to the third aspect of the invention, the extracting means extracts the learning feature information from the learning speech signal for each of a plurality of types of languages whose language types are known. Then, the initial value generation means indicates a first parameter indicating a plurality of state base spectra corresponding to each of a plurality of phonemes extracted by non-negative matrix factorization for the learning speech signal and a state transition probability of the base spectrum. For the model including the second parameter, initial values of the first parameter and the second parameter for each of the plurality of types of languages are generated. Next, the estimation unit performs optimization using the initial values of the first parameter and the second parameter and the learning feature information extracted by the extraction unit, so that the first parameter and the second parameter for each of a plurality of types of languages are obtained. Is estimated. The control means outputs the estimated first parameter and the second parameter when the estimation result of the estimation means satisfies a predetermined condition, and the estimation means when the estimation result does not satisfy the predetermined condition. Thus, control is performed so that the first parameter and the second parameter are estimated. In the second and subsequent processing by the estimation unit, the values of the first parameter and the second parameter estimated by the estimation unit are used instead of the initial values of the first parameter and the second parameter.

また、第4の発明に係るパラメータ推定装置は、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号から学習用特徴情報を抽出する抽出手段と、前記学習用特徴情報として抽出されたメルスペクトルのスケールに応じた重み付け平均による更新則で学習され、かつ複数の状態の基底スペクトルを示す第1パラメータ及び1時刻前の基底スペクトルに依存して遷移する基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルについて、前記複数種類の言語に共通の前記第1パラメータ及び前記複数種類の言語毎の前記第2パラメータの初期値を生成する初期値生成手段と、前記第1パラメータ及び前記第2パラメータの初期値、または現在の前記第1パラメータ及び前記第2パラメータの値と、前記抽出手段により抽出された学習用特徴情報とを用いた最適化により、前記複数種類の言語に共通の前記第1パラメータ及び前記複数種類の言語毎の前記第2パラメータを推定する推定手段と、前記推定手段の推定結果が所定の条件を満たした場合に、推定された前記第1パラメータ及び前記第2パラメータを出力し、前記推定結果が前記所定の条件を満たしていない場合に、前記推定手段により前記第1パラメータ及び前記第2パラメータの推定が行われるように制御する制御手段と、を含んで構成されている。 According to a fourth aspect of the present invention, there is provided a parameter estimation device that extracts, for each of a plurality of types of languages whose language types are known, learning feature information from a learning speech signal, and extracts the learning feature information as the learning feature information. has been learned by the update rule according to the weighted average in accordance with the scale of the Mel spectrum, and a plurality of first parameter indicative of the ground spectrum state, and 1 time the state transition probability of the base spectral transition in dependence on the previous base spectrum for model including a second parameter indicating an initial value generation means for generating an initial value of said second parameter for each of the common first parameter and the plurality of types of languages to said plurality of types of languages, the first parameter And the initial value of the second parameter, or the current value of the first parameter and the second parameter, and the extraction method An estimation unit that estimates the first parameter common to the plurality of types of languages and the second parameter for each of the plurality of types of languages by optimization using the learning feature information extracted by When the estimation result satisfies the predetermined condition, the estimated first parameter and the second parameter are output, and when the estimation result does not satisfy the predetermined condition, the estimation means And control means for controlling so that one parameter and the second parameter are estimated.

第4の発明に係るパラメータ推定装置によれば、抽出手段が、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号から学習用特徴情報を抽出する。そして、初期値生成手段が、学習用特徴情報として抽出されたメルスペクトルのスケールに応じた重み付け平均による更新則で学習され、かつ複数の状態の基底スペクトルを示す第1パラメータ及び1時刻前の基底スペクトルに依存して遷移する基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルについて、複数種類の言語に共通の第1パラメータ及び複数種類の言語毎の第2パラメータの初期値を生成する。次に、推定手段が、第1パラメータ及び第2パラメータの初期値と、抽出手段により抽出された学習用特徴情報とを用いた最適化により、複数種類の言語に共通の第1パラメータ及び複数種類の言語毎の第2パラメータを推定する。そして、制御手段が、推定手段の推定結果が所定の条件を満たした場合に、推定された第1パラメータ及び第2パラメータを出力し、推定結果が所定の条件を満たしていない場合に、推定手段により第1パラメータ及び第2パラメータの推定が行われるように制御する。推定手段による2回目以降の処理の際には、第1パラメータ及び第2パラメータの初期値に替えて、推定手段で推定された第1パラメータ及び第2パラメータの値を用いる。 According to the parameter estimation apparatus according to the fourth aspect of the present invention, the extracting means extracts learning feature information from the learning speech signal for each of a plurality of types of languages whose language types are known. Then, the initial value generation means is learned with an update rule by weighted average according to the scale of the mel spectrum extracted as the learning feature information, and the first parameter indicating the base spectrum of a plurality of states , and one time before For a model including a second parameter indicating a state transition probability of a base spectrum that changes depending on the base spectrum, a first parameter common to a plurality of types of languages and an initial value of a second parameter for each of the plurality of types of languages are generated. . Next, the estimation unit optimizes using the initial values of the first parameter and the second parameter and the learning feature information extracted by the extraction unit, and thereby the first parameter and the plurality of types common to a plurality of types of languages. The second parameter for each language is estimated. The control means outputs the estimated first parameter and the second parameter when the estimation result of the estimation means satisfies a predetermined condition, and the estimation means when the estimation result does not satisfy the predetermined condition. Thus, control is performed so that the first parameter and the second parameter are estimated. In the second and subsequent processing by the estimation unit, the values of the first parameter and the second parameter estimated by the estimation unit are used instead of the initial values of the first parameter and the second parameter.

このように、複数の状態の基底スペクトル及び基底スペクトルの状態遷移確率を示すパラメータを最適化により推定するため、言語が持つ音声的性質と音素遷移とを含む言語的性質に基づく評価を行うことができるパラメータを推定することができる。このため、事前知識を要することなく、入力された音声信号が示す言語の種類を精度良く評価するためのパラメータを推定することができる。   As described above, since the parameters indicating the base spectrum of a plurality of states and the state transition probability of the base spectrum are estimated by optimization, evaluation based on linguistic properties including speech properties and phoneme transitions of languages can be performed. Possible parameters can be estimated. Therefore, it is possible to estimate parameters for accurately evaluating the language type indicated by the input speech signal without requiring prior knowledge.

また、第3及び第4の発明において、前記推定手段は、フォワード・バックワードアルゴリズムを用いて、前記モデルにおいて、各時刻で選択される基底スペクトルに対応した潜在変数の事後分布を示す変数γ、及び2つの連続した潜在変数に対する同時事後分布を示す変数ξを求め、変数γ及び変数ξを用いて、前記第1パラメータ及び前記第2パラメータの期待値が最大となるように、前記第1パラメータ及び前記第2パラメータを更新することができる。   In the third and fourth aspects of the invention, the estimation means uses a forward / backward algorithm, and in the model, a variable γ indicating a posterior distribution of latent variables corresponding to a base spectrum selected at each time, And a variable ξ indicating a simultaneous posterior distribution for two consecutive latent variables, and using the variable γ and the variable ξ, the first parameter and the second parameter are expected to have maximum expected values. And the second parameter can be updated.

また、第5の発明に係る音声言語評価方法は、抽出手段と、尤度計算手段と、評価手段とを含む音声言語評価装置における音声言語評価方法であって、前記抽出手段が、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出し、前記尤度計算手段が、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号に対する非負値行列因子分解により抽出した複数の音素の各々に相当する複数の状態の基底スペクトルを示す第1パラメータ及び基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、前記抽出手段により抽出された評価用特徴情報とに基づいて、前記評価用音声信号が示す言語の種類が前記複数種類の各々であることの尤もらしさ示す尤度を計算し、前記評価手段が、前記尤度計算手段により計算された尤度に基づいて、前記評価用音声信号が示す言語の種類を評価する方法である。 A spoken language evaluation method according to a fifth aspect of the present invention is a spoken language evaluation method in a spoken language evaluation apparatus that includes an extraction unit, a likelihood calculation unit, and an evaluation unit, wherein the extraction unit includes a language type. There extracts evaluation feature information from an unknown sound signals used for evaluation, extracting the likelihood calculating means, with a plurality kinds of languages type of language is known, the non-negative matrix factorization for training speech signals A model including a first parameter indicating a base spectrum of a plurality of states corresponding to each of the plurality of phonemes and a second parameter indicating a state transition probability of the base spectrum, and evaluation feature information extracted by the extraction unit Based on this, the likelihood indicating the likelihood that the language type indicated by the speech signal for evaluation is each of the plurality of types is calculated. Based on the calculated likelihood, a method for evaluating the type of language indicated by the evaluation speech signal.

また、第6の発明に係る音声言語評価方法は、抽出手段と、尤度計算手段と、評価手段とを含む音声言語評価装置における音声言語評価方法であって、前記抽出手段が、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出し、前記尤度計算手段が、学習用音声信号から学習用特徴情報として抽出されたメルスペクトルのスケールに応じた重み付け平均による更新則で学習され、かつ複数種類の言語に共通の複数の状態の基底スペクトルを示す第1パラメータと、言語の種類が既知である複数種類の言語それぞれについて、1時刻前の基底スペクトルに依存して遷移する基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、言語の種類が既知である複数種類の言語それぞれについての基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、前記抽出手段により抽出された評価用特徴情報とに基づいて、前記評価用音声信号が示す言語の種類が前記複数種類の各々であることの尤もらしさ示す尤度を計算し、前記評価手段が、前記尤度計算手段により計算された尤度に基づいて、前記評価用音声信号が示す言語の種類を評価する方法である。 A spoken language evaluation method according to a sixth aspect of the present invention is a spoken language evaluation method in a spoken language evaluation apparatus including an extraction unit, a likelihood calculation unit, and an evaluation unit, wherein the extraction unit includes a language type. Is used to extract evaluation feature information from an unknown evaluation speech signal, and the likelihood calculation means learns with an update rule by weighted average according to the scale of the mel spectrum extracted as learning feature information from the learning speech signal it is, and a first parameter indicating a basal spectrum common multiple states to a plurality of types of languages, for each of a plurality kinds of languages type of language is known, the transition depending on the underlying spectra of the immediately preceding time model and state transition probability of the base spectrum for each of a plurality kinds of languages type of language is known and a second parameter indicating a state transition probability of the basis spectra The likelihood indicating that the language type indicated by the evaluation speech signal is each of the plurality of types based on the model including the second parameter indicating, and the evaluation feature information extracted by the extraction unit The degree is calculated, and the evaluation means evaluates the type of language indicated by the evaluation speech signal based on the likelihood calculated by the likelihood calculation means.

また、第7の発明に係るパラメータ推定方法は、抽出手段と、初期値生成手段と、推定手段と、制御手段とを含むパラメータ推定装置におけるパラメータ推定方法であって、前記抽出手段が、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号から学習用特徴情報を抽出し、前記初期値生成手段が、前記学習用音声信号に対する非負値行列因子分解により抽出した複数の音素の各々に相当する複数の状態の基底スペクトルを示す第1パラメータ及び基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルについて、前記複数種類の言語毎の前記第1パラメータ及び前記第2パラメータの初期値を生成し、前記推定手段が、前記第1パラメータ及び前記第2パラメータの初期値、または現在の前記第1パラメータ及び前記第2パラメータの値と、前記抽出手段により抽出された学習用特徴情報とを用いた最適化により、前記複数種類の言語毎の前記第1パラメータ及び前記第2パラメータを推定し、前記制御手段が、前記推定手段の推定結果が所定の条件を満たした場合に、推定された前記第1パラメータ及び前記第2パラメータを出力し、前記推定結果が前記所定の条件を満たしていない場合に、前記推定手段により前記第1パラメータ及び前記第2パラメータの推定が行われるように制御する方法である。 A parameter estimation method according to a seventh aspect of the present invention is a parameter estimation method in a parameter estimation apparatus including an extraction unit, an initial value generation unit, an estimation unit, and a control unit, wherein the extraction unit includes a language For each of a plurality of types of languages whose types are known, feature information for learning is extracted from the learning speech signal, and the initial value generation unit extracts a plurality of phonemes extracted by non-negative matrix factorization with respect to the learning speech signal. For a model including a first parameter indicating a base spectrum of a plurality of states corresponding to each and a second parameter indicating a state transition probability of the base spectrum, an initial of the first parameter and the second parameter for each of the plurality of types of languages A first value of the first parameter and the second parameter, or the current first parameter. The first parameter and the second parameter for each of the plurality of types of languages are estimated by using the learning feature information extracted by the extraction unit and the learning parameter information extracted by the extraction unit, The control means outputs the estimated first parameter and the second parameter when the estimation result of the estimation means satisfies a predetermined condition, and when the estimation result does not satisfy the predetermined condition In this method, control is performed such that the first parameter and the second parameter are estimated by the estimation means.

また、第8の発明に係るパラメータ推定方法は、抽出手段と、初期値生成手段と、推定手段と、制御手段とを含むパラメータ推定装置におけるパラメータ推定方法であって、前記抽出手段が、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号から学習用特徴情報を抽出し、前記初期値生成手段が、前記学習用特徴情報として抽出されたメルスペクトルのスケールに応じた重み付け平均による更新則で学習され、かつ複数の状態の基底スペクトルを示す第1パラメータ及び1時刻前の基底スペクトルに依存して遷移する基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルについて、前記複数種類の言語に共通の前記第1パラメータ及び前記複数種類の言語毎の前記第2パラメータの初期値を生成し、前記推定手段が、前記第1パラメータ及び前記第2パラメータの初期値、または現在の前記第1パラメータ及び前記第2パラメータの値と、前記抽出手段により抽出された学習用特徴情報とを用いた最適化により、前記複数種類の言語に共通の前記第1パラメータ及び前記複数種類の言語毎の前記第2パラメータを推定し、前記制御手段が、前記推定手段の推定結果が所定の条件を満たした場合に、推定された前記第1パラメータ及び前記第2パラメータを出力し、前記推定結果が前記所定の条件を満たしていない場合に、前記推定手段により前記第1パラメータ及び前記第2パラメータの推定が行われるように制御する方法である。 A parameter estimation method according to an eighth invention is a parameter estimation method in a parameter estimation device including an extraction unit, an initial value generation unit, an estimation unit, and a control unit, wherein the extraction unit includes a language For each of a plurality of types of languages whose types are known, feature information for learning is extracted from the speech signal for learning, and the initial value generation means performs a weighted average according to the scale of the mel spectrum extracted as the feature information for learning A model that is learned by an update rule according to the above and includes a first parameter that indicates a base spectrum of a plurality of states , and a second parameter that indicates a state transition probability of the base spectrum that transitions depending on the base spectrum one time ago. Generating initial values of the first parameter common to a plurality of types of languages and the second parameter for each of the plurality of types of languages; The estimation means uses the initial values of the first parameter and the second parameter, or the current values of the first parameter and the second parameter, and the learning feature information extracted by the extraction means. The first parameter common to the plurality of types of languages and the second parameter for each of the plurality of types of languages are estimated, and the control unit satisfies a predetermined condition of the estimation result of the estimation unit The estimated first parameter and the second parameter are output, and the estimation means estimates the first parameter and the second parameter when the estimation result does not satisfy the predetermined condition. It is a method of controlling so that it is displayed.

また、第7及び第8の発明において、前記推定手段が、フォワード・バックワードアルゴリズムを用いて、前記モデルにおいて、各時刻で選択される基底スペクトルに対応した潜在変数の事後分布を示す変数γ、及び2つの連続した潜在変数に対する同時事後分布を示す変数ξを求め、変数γ及び変数ξを用いて、前記第1パラメータ及び前記第2パラメータの期待値が最大となるように、前記第1パラメータ及び前記第2パラメータを更新することができる。   Further, in the seventh and eighth inventions, the estimating means uses a forward / backward algorithm, and in the model, a variable γ indicating a posterior distribution of latent variables corresponding to a base spectrum selected at each time, And a variable ξ indicating a simultaneous posterior distribution for two consecutive latent variables, and using the variable γ and the variable ξ, the first parameter and the second parameter are expected to have maximum expected values. And the second parameter can be updated.

また、第9の発明に係る音声言語評価プログラムは、コンピュータを、上記の音声言語評価装置を構成する各手段として機能させるためのプログラムである。   A spoken language evaluation program according to a ninth aspect of the invention is a program for causing a computer to function as each means constituting the above spoken language evaluation device.

また、第9の発明に係るパラメータ推定プログラムは、コンピュータを、上記のパラメータ推定装置を構成する各手段として機能させるためのプログラムである。   A parameter estimation program according to the ninth invention is a program for causing a computer to function as each means constituting the parameter estimation device.

以上説明したように、本発明の音声言語評価装置、方法、及びプログラムによれば、複数の状態の基底スペクトル及び基底スペクトルの状態遷移確率を示すパラメータを含むモデルを用いることにより、言語が持つ音声的性質と音素遷移とを含む言語的性質に基づく評価を行うことができるため、事前知識を要することなく、入力された音声信号が示す言語の種類を精度良く評価することができる、という効果が得られる。   As described above, according to the spoken language evaluation apparatus, method, and program of the present invention, the speech possessed by a language is obtained by using a model including a base spectrum of a plurality of states and a parameter indicating a state transition probability of the base spectrum. Can be evaluated based on the linguistic properties including the physical properties and phoneme transitions, so that the language type indicated by the input speech signal can be accurately evaluated without requiring prior knowledge. can get.

また、本発明のパラメータ推定装置、方法、及びプログラムによれば、上記の音声言語評価装置、方法、及びプログラムで用いることのできるパラメータを推定することができる。   Further, according to the parameter estimation apparatus, method, and program of the present invention, it is possible to estimate parameters that can be used in the above spoken language evaluation apparatus, method, and program.

本実施の形態の原理を説明するための概略図である。It is the schematic for demonstrating the principle of this Embodiment. 本実施の形態の原理を説明するための概略図である。It is the schematic for demonstrating the principle of this Embodiment. 第1の実施の形態に係る音声言語評価装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the spoken language evaluation apparatus which concerns on 1st Embodiment. 第1の実施の形態における学習処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the learning process routine in 1st Embodiment. 第1の実施の形態における評価処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the evaluation process routine in 1st Embodiment. 第1の実施の形態における学習処理及び評価処理を示すシーケンス図である。It is a sequence diagram which shows the learning process and evaluation process in 1st Embodiment. 第2の実施の形態に係る音声言語評価装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the spoken language evaluation apparatus which concerns on 2nd Embodiment. 第2の実施の形態における学習処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the learning process routine in 2nd Embodiment. 第2の実施の形態における評価処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the evaluation process routine in 2nd Embodiment. 第2の実施の形態における学習処理及び評価処理を示すシーケンス図である。It is a sequence diagram which shows the learning process and evaluation process in 2nd Embodiment. 5種類の言語に対する評価結果の一例を示すグラフである。It is a graph which shows an example of the evaluation result with respect to five types of languages. 13種類の言語に対する評価結果の一例を示すグラフである。It is a graph which shows an example of the evaluation result with respect to 13 types of languages.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<実施の形態の原理>
まず、本発明の理解を容易とするため、本発明を適用した実施の形態の原理について説明する。
<Principle of Embodiment>
First, in order to facilitate understanding of the present invention, the principle of an embodiment to which the present invention is applied will be described.

後述の各実施の形態では、音声信号処理分野で発展している非負値行列因子分解(Nonnegative matrix factorization、NMF、参考文献1:D.D. Lee et. al.,“Learning the parts of objects with nonnegative matrix factorization,” Nature, Vol. 401, pp. 788-791, 1999)を用いて、スパースな基底と、基底の時間的な遷移構造とを、大量の多言語音声コーパスデータのみから学習することにより、言語の種類毎の事前知識を必要とすることなく、言語の種類に応じた音声的性質と音素遷移とを含む言語的性質である言語情報を抽出する。そして、この言語情報に基づいて、言語の種類の分類及び識別等の評価を行う。   In each of the embodiments described later, nonnegative matrix factorization (NMF, Reference 1: DD Lee et. Al., “Learning the parts of objects with nonnegative matrix factorization” developed in the audio signal processing field. , ”Nature, Vol. 401, pp. 788-791, 1999), the sparse basis and temporal transition structure of the basis are learned only from a large amount of multilingual speech corpus data. Language information that is a linguistic property including a phonetic property and a phoneme transition corresponding to the language type is extracted without requiring prior knowledge for each type. Based on this language information, language type classification and identification are evaluated.

具体的には、NMFが、教師なしでデータからスパースな基底を学習する能力が高いことに着目し、音声信号のメルスペクトログラム(非負データ)から抽出される言語の種類に応じた特徴的な基底スペクトルを、多言語分類に応用する。一方、音声的性質を示す基底スペクトルのみならず、基底スペクトルの時間的遷移の性質を捉えることも重要である。そこで、各実施の形態では、NMFのような非負データを対象とする教師なし学習法に、基底の時間的遷移の確率モデルを組み込んだトピック遷移PLSAという生成モデルを用いる。   Specifically, focusing on the high ability of NMF to learn a sparse basis from data without supervision, a characteristic basis corresponding to the type of language extracted from the mel spectrogram (non-negative data) of the speech signal Apply spectrum to multilingual classification. On the other hand, it is also important to capture not only the base spectrum indicating the speech property but also the temporal transition property of the base spectrum. Therefore, in each embodiment, a generation model called topic transition PLSA in which a probability model of a base temporal transition is incorporated into an unsupervised learning method for non-negative data such as NMF is used.

PLSA(Probabilistic Latent Semantic Analysis、参考文献2:T. Hofmann,“ Probabilistic Latent Semantic Indexing , ”in SIGIR1999)は、もともとテキストデータを対象とした自然言語処理の一手法であり、話題(トピック)に相当する潜在変数を介して、各文書中に現れる単語の度数データを扱うものである。PLSAは数学的には、ある種のNMFと等価であるが、NMFの定式化では導入が困難であった基底の時間遷移のモデリングが、PLSAの場合には隠れ変数の遷移確率として自然に導入できる。この手法を用いて、言語が持つ音声的性質と音素遷移とを含む言語的性質を、それぞれ基底スペクトルと状態遷移確率として別々に学習する。   PLSA (Probabilistic Latent Semantic Analysis, Reference 2: T. Hofmann, “Probabilistic Latent Semantic Indexing,” in SIGIR1999) is a natural language processing method originally intended for text data and corresponds to a topic. It handles the frequency data of words appearing in each document via latent variables. PLSA is mathematically equivalent to a certain type of NMF, but modeling of temporal transitions of the base, which was difficult to introduce in the NMF formulation, is naturally introduced as a transition probability of hidden variables in the case of PLSA. it can. Using this method, the linguistic properties including the speech property and phoneme transition of the language are separately learned as the base spectrum and the state transition probability.

まず、トピック遷移PLSAによる生成モデルについて説明する。図1に、PLSAによって生成されるメルスペクトログラムの概略図を示す。例えば、言語の種類がmの言語(以下、「言語(m)」と表記)のメルスペクトログラムを生成するために、K個の基底スペクトル(m)=[1 (m),・・・,K (m)]を用意する。なお、記号「→」はベクトルを表す。k番目の基底スペクトルを (m)=[hk,1 (m),・・・,hk,Ω (m)]Tと表現する。ω=1,・・・,Ωはメルフィルタバンクの中心周波数を指すインデックスである。ここで、基底スペクトルの各要素を「周波数の出易さを表す確率」とみなす。また、各々の基底スペクトルは各音素に相当すると考える。時刻tにおいて、これらの基底スペクトルのいずれかが選ばれ、選ばれた基底スペクトルをパラメータとする多項分布から生成されたものを、時刻tのメルスペクトルと考える。すなわち、生成モデルは、下式(1)のように書ける。なお、数式内ではベクトルを太字で表記している。 First, a generation model based on topic transition PLSA will be described. FIG. 1 shows a schematic diagram of a mel spectrogram generated by PLSA. For example, in order to generate a mel spectrogram of a language whose language type is m (hereinafter referred to as “language (m)”), K basis spectra H (m) = [ h 1 (m),.・ ・, h K (m) ] is prepared. The symbol “→” represents a vector. The k-th base spectrum is expressed as h k (m) = [h k, 1 (m) ,..., h k, Ω (m) ] T. ω = 1,..., Ω is an index indicating the center frequency of the mel filter bank. Here, each element of the base spectrum is regarded as a “probability representing the ease with which the frequency is generated”. Each base spectrum is considered to correspond to each phoneme. Any one of these base spectra is selected at time t, and the one generated from the multinomial distribution with the selected base spectrum as a parameter is considered as the mel spectrum at time t. That is, the generation model can be written as the following formula (1). In the formula, the vector is shown in bold.

ここで、π1,t (m),・・・,πK,t (m)は各基底スペクトルの時刻tにおける出現確率、t (m)は時刻tのメルスペクトルを表す。PLSAはもともとテキストを対象とした自然言語処理の一手法であり、話題(トピック)に相当する潜在変数を介して、各文書中に現れる単語の度数データを扱うものである。PLSAによるメルスペクトログラムの生成モデルでは、基底スペクトルのインデックスkがトピックに相当する。また、メルスペクトログラムの値yω,tは時刻(文書)tにおける周波数(単語)ωの度数と解釈する。 Here, π 1, t (m) ,..., Π K, t (m) represents the appearance probability of each base spectrum at time t, and y t (m) represents the mel spectrum at time t. PLSA is a natural language processing method originally intended for text, and handles frequency data of words appearing in each document via latent variables corresponding to topics. In the mel spectrogram generation model by PLSA, the index k of the base spectrum corresponds to the topic. The mel spectrogram value y ω, t is interpreted as the frequency of the frequency (word) ω at time (document) t.

式(1)の生成モデルを、図2に示すように、PLSAにおける基底スペクトル(トピック)が、一つ前の時刻(t−1)の基底スペクトル(トピック)に依存して遷移するモデルへと拡張する。すなわち、拡張した生成モデルは、下式(2)のように書ける。ここで、Aは、図2に示すように、時刻(t−1)の基底スペクトルt-1から時刻tに各基底スペクトルt(k=1,・・・,K)へ遷移する確率を示す遷移確率行列である。 As shown in FIG. 2, the generation model of Expression (1) is changed to a model in which the base spectrum (topic) in PLSA transitions depending on the base spectrum (topic) at the previous time (t−1). Expand. That is, the extended generation model can be written as the following equation (2). Here, A, as shown in FIG. 2, the time (t-1) of the basis spectra k each basis spectral from t-1 to time t → k t (k = 1 , ···, K) to It is a transition probability matrix indicating the probability of transition.

このとき、メルスペクトログラムの対数尤度関数は、下式(3)で示され、式(2)に示す生成モデルのパラメータはθ(m)={π(m)(m)(m)}となる。 At this time, the log likelihood function of the mel spectrogram is expressed by the following equation (3), and the parameters of the generation model shown in the equation (2) are: θ (m) = { π (m) , A (m) , h (m) }.

従って、観測されるメルスペクトログラムから、言語が持つ音声的性質と音素遷移とを含む言語的性質を、それぞれ基底スペクトルを示すパラメータ(m)={1 (m),・・・,K (m)}、及び各基底スペクトルの出現確率(初期状態確率)π(m)と遷移確率行列(m)とで表される状態遷移確率を示すパラメータ{π(m)(m)}として推定する逆問題を解くことを考える。なお、パラメータ(m)は、本発明の第1パラメータの一例であり、パラメータ{π(m)(m)}は、本発明の第2パラメータの一例である。 Accordingly, from the observed mer spectrogram, the speech properties of the language and the linguistic properties including the phoneme transition are respectively expressed as parameters indicating the base spectrum h (m) = { h 1 (m) ,. h K (m) } and the appearance probability of each base spectrum (initial state probability) π (m) and transition probability matrix A parameter indicating the state transition probability represented by A (m) { π (m ) , A (m) } Consider solving the inverse problem. The parameter h (m) is an example of the first parameter of the present invention, and the parameter { π (m) , A (m) } is an example of the second parameter of the present invention.

便宜上、基底スペクトルのインデックスkの代わりにt (m)=[z1,t (m),・・・,zK,t (m)]Tを導入する。t (m)はK次元の2値確率変数であり、どれか1つのzk,t (m)だけが1で他は0とする。すなわち、zk,t (m)はzk,t (m)∈{0,1}かつΣkk,t (m)=1を満たす。t (m)は式(2)に示す生成モデルの潜在変数であり、K種類の状態を取る。 For convenience, z t (m) = [z 1, t (m) ,..., Z K, t (m) ] T is introduced instead of the index k of the base spectrum. z t (m) is a K-dimensional binary random variable, and only one z k, t (m) is 1 and the others are 0. That is, z k, t (m) satisfies z k, t (m) ∈ {0, 1} and Σ k z k, t (m) = 1. z t (m) is a latent variable of the generation model shown in Equation (2) and takes K types of states.

次に、トピック遷移PLSAによる生成モデルのパラメータの推定について説明する。トピック遷移PLSAのパラメータθ(m)={π(m)(m)(m)}は、例えばEMアルゴリズムを利用して推定することができる。Q関数(完全データの対数尤度関数の期待値)は下式(4)のように書ける。ここで、θ(m)oldは、パラメータθ(m)の現在の値(初期値、または直前に更新された更新値)である。 Next, estimation of the parameters of the generation model by topic transition PLSA will be described. Parameters of topic transition PLSA θ (m) = { π (m) , A (m) , h (m) } can be estimated using, for example, an EM algorithm. The Q function (expected value of log likelihood function of complete data) can be written as the following equation (4). Here, θ (m) old is the current value (initial value or updated value immediately before ) of parameter θ (m) .

式(4)において、γ(t (m))は潜在変数t (m)の事後分布、ξ(t-1 (m)t (m))は2つの連続した潜在変数(t-1 (m)t (m))に対する同時事後分布であり、下式(5)〜(7)となる期待値を表す変数である。 In equation (4), γ ( z t (m) ) is a latent variable z t (m) posterior distribution, ξ ( z t-1 (m) , z t (m) ) is two consecutive Is a simultaneous posterior distribution with respect to the latent variables ( z t-1 (m) , z t (m) ), and is a variable representing an expected value represented by the following equations (5) to (7).

Eステップでは、例えば、フォワード・バックワードアルゴリズム(参考文献3:L.R.Rabiner,“A tutorial on hidden markov models and selected applications in speech recognition, ”Proceedings of the IEEE, pp. 257.286, 1989)を利用して、変数γ(t (m))及び変数ξ(t-1 (m)t (m))を求めることができる。変数γ(t (m))は、下式(8)のように書き下すことができる。 In the E step, for example, a forward-backward algorithm (Reference 3: LRRabiner, “A tutorial on hidden markov models and selected applications in speech recognition,” Proceedings of the IEEE, pp. 257.286, 1989) γ ( z t (m) ) and variable ξ ( z t−1 (m) , z t (m) ) can be obtained. The variable γ ( z t (m) ) can be written as the following equation (8).

ここで、変数α(t (m))を下式(9)、変数β(t (m))を下式(10)とする。 Here, the variable α ( z t (m) ) is represented by the following expression (9), and the variable β ( z t (m) ) is represented by the following expression (10).

そして、α(1 (m))を下式(11)として、t=1,・・・,Tに対して、順番に変数α(t (m))を計算する。 Then, α ( z 1 (m) ) is expressed by the following equation (11), and the variable α ( z t (m) ) is calculated in order for t = 1,.

また、β(T (m))=1として、t=T,・・・,1に対して、順番に変数β(t (m))を計算すると、式(8)により変数γ(t (m))が求められる。ここで、下式(12)を用いると、同様に、変数ξ(t-1 (m)t (m))も下式(13)のように書き下すことができるため、先に求めた変数α(t (m))及び変数β(t (m))を利用して、変数ξ(t-1 (m)t (m))を計算することができる。 If β ( z T (m) ) = 1 and t = T,..., 1 are calculated in order, the variable β ( z t (m) ) is γ ( z t (m) ) is obtained. Here, if the following equation (12) is used, similarly, the variable ξ ( z t-1 (m) , z t (m) ) can also be written as the following equation (13). Using the previously obtained variable α ( z t (m) ) and variable β ( z t (m) ), the variable ξ ( z t-1 (m) , z t (m) ) Can be calculated.

Mステップでは、変数γ(t (m))及び変数ξ(t-1 (m)t (m))を定数とみなし、Q関数Q(θ(m)θ (m) old)を最大化するパラメータθ(m)={π(m)(m)(m)}を推定する。これには、適当なラグランジュ乗数を用いることができる。パラメータθ(m)={π(m)(m)(m)}の更新式は、下式(14)〜(16)のようになる。 In the M step, the variable γ ( z t (m) ) and the variable ξ ( z t-1 (m) , z t (m) ) are regarded as constants, and the Q function Q ( θ (m) , The parameter that maximizes θ (m) old ) θ (m) = { π (m) , A (m) , h (m) } is estimated. For this, a suitable Lagrange multiplier can be used. The update formula of the parameter θ (m) = { π (m) , A (m) , h (m) } is expressed by the following formulas (14) to (16).

式(16)は、言語(m)毎に基底スペクトルを示すパラメータ(m)を推定する場合の更新式であるが、対象とする全ての言語の種類に対して共通の基底スペクトルを示すパラメータhを推定すると共に、言語(m)毎に異なる状態遷移確率を示すパラメータ{π(m)(m)}を推定することも可能である。その場合、共通の基底スペクトルを示すパラメータhの更新式は、下式(17)となる。 Expression (16) is an update expression for estimating a parameter indicating a base spectrum for each language (m) h (m) , and shows a common base spectrum for all target language types. It is possible to estimate the parameter { π (m) , A (m) } indicating the state transition probability that differs for each language (m) while estimating the parameter h. In that case, the update formula of the parameter indicating the common base spectrum h is the following formula (17).

<第1の実施の形態>
次に、第1の実施の形態について説明する。
<First Embodiment>
Next, a first embodiment will be described.

第1の実施の形態に係る音声言語評価装置10は、CPUと、RAMと、後述する学習処理及び評価処理を含む音声言語評価処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成されている。   A spoken language evaluation apparatus 10 according to the first embodiment includes a CPU, a RAM, and a ROM that stores a program for executing a spoken language evaluation processing routine including a learning process and an evaluation process described later. It consists of

このコンピュータは、機能的には、図3に示すように、学習部20と評価部40とを含んだ構成で表すことができる。   Functionally, this computer can be represented by a configuration including a learning unit 20 and an evaluation unit 40 as shown in FIG.

まず、学習部20の各部について詳述する。学習部20は、音声特徴抽出部21と、パラメータ初期値生成部22と、パラメータ推定部23と、収束判定部24と、パラメータ出力部25とを含んだ構成で表すことができる。なお、音声特徴抽出部21は本発明の抽出手段の一例である。また、パラメータ初期値生成部22は本発明の初期値生成手段の一例である。また、パラメータ推定部23は本発明の推定手段の一例である。また、収束判定部24及びパラメータ出力部25は本発明の制御手段の一例である。   First, each part of the learning unit 20 will be described in detail. The learning unit 20 can be represented by a configuration including a speech feature extraction unit 21, a parameter initial value generation unit 22, a parameter estimation unit 23, a convergence determination unit 24, and a parameter output unit 25. Note that the voice feature extraction unit 21 is an example of the extraction means of the present invention. The parameter initial value generator 22 is an example of the initial value generator of the present invention. Moreover, the parameter estimation part 23 is an example of the estimation means of this invention. The convergence determination unit 24 and the parameter output unit 25 are an example of the control means of the present invention.

音声特徴抽出部21は、言語の種類が既知の学習用音声信号を入力として受け付ける。学習用音声信号の示す言語の種類をmとし、以下では、この学習用音声信号を「言語(m)の学習用音声信号」と表記する。音声特徴抽出部21が受け付ける言語の種類は2以上であり、ここではM種類であるとして説明する。すなわち、mは言語の種類を示すインデックスであり、m=1,・・・,Mである。学習部20の各部(音声特徴抽出部21、パラメータ初期値生成部22、パラメータ推定部23、収束判定部24、及びパラメータ出力部25)では、各言語の学習用音声信号について同じ処理を行う。以下では、学習部20の各部において、M種類のうちの1種類の言語について行う処理を説明する。   The voice feature extraction unit 21 receives a learning voice signal whose language type is known as an input. The language type indicated by the learning speech signal is m, and in the following, this learning speech signal is expressed as “a learning speech signal of language (m)”. There are two or more types of languages accepted by the speech feature extraction unit 21, and here, explanation will be made assuming that there are M types. That is, m is an index indicating the language type, and m = 1,. Each unit of the learning unit 20 (speech feature extraction unit 21, parameter initial value generation unit 22, parameter estimation unit 23, convergence determination unit 24, and parameter output unit 25) performs the same processing on the learning speech signal of each language. Below, the process performed about one kind of language of M types in each part of the learning part 20 is demonstrated.

音声特徴抽出部21は、言語(m)の学習用音声信号から音声特徴量y't (m)を抽出して出力する。ここでtは時刻である。例えば、音素の特徴を表現するスペクトル包絡に着目し、フレーム長32ms、フレームシフト長16msとして、言語(m)の学習用音声信号に対してフレーム毎に短時間フーリエ変換を行い、その振幅スペクトルをメルフィルタバンク処理して得られる出力値を音声特徴量y't (m)とすることができる。ここでt番目のフレームを便宜的に時刻tと呼ぶこととすると、tはt=1,・・・,Tであり、Tはフレームの総数に相当する。また、時刻tの音声特徴量y't (m)は、y't (m)=[y'1,t (m),・・・,y'Ω,t (m)]Tであり、例えば、メルフィルタの数を22個とすれば、Ω=22である。なお、振幅スペクトログラムそのものを音声特徴量としてもよい。また、式(2)に示すように、多項分布に従う確率変数として音声特徴量を表現するため、音声特徴抽出部21は、音声特徴量y't (m)の全ての要素を整数値に丸め込んだ丸め込み音声特徴量t (m)を生成して出力する。 The voice feature extraction unit 21 extracts the voice feature quantity y ′ t (m) from the learning voice signal of the language (m) and outputs it. Here, t is time. For example, paying attention to the spectral envelope that expresses the features of phonemes, the frame length is 32 ms, the frame shift length is 16 ms, and the speech spectrum for language (m) is subjected to short-time Fourier transform for each frame, The output value obtained by the mel filter bank processing can be set as voice feature amount y ′ t (m) . Here, if the t-th frame is referred to as time t for convenience, t is t = 1,..., T, and T corresponds to the total number of frames. The audio feature amount of time t y 't (m) is, → y' t (m) = In [y '1, t (m ), ···, y' Ω, t (m)] T Yes, for example, if the number of Mel filters is 22, Ω = 22. Note that the amplitude spectrogram itself may be used as the speech feature amount. Further, as shown in Expression (2), in order to express the speech feature quantity as a random variable according to the multinomial distribution, the speech feature extraction unit 21 converts all the elements of the speech feature quantity y ′ t (m) to integer values. Marumekon's rounding audio feature generates a y t (m) outputs.

パラメータ初期値生成部22は、音声特徴抽出部21から出力された丸め込み音声特徴量t (m)を入力として受け付け、式(2)に示す生成モデルのパラメータθ(m)={π(m)(m)(m)}の初期値を生成する。なお、パラメータ(m)は基底スペクトルを示すパラメータ、パラメータπ(m)は各基底スペクトルの初期状態確率を示すパラメータ、及びパラメータ(m)は基底スペクトルの遷移確率行列を示すパラメータである。 The parameter initial value generation unit 22 accepts the rounded speech feature amount y t (m) output from the speech feature extraction unit 21 as an input, and the parameters of the generation model shown in Expression (2) θ (m) = { An initial value of π (m) , A (m) , h (m) } is generated. Parameter h (m) is a parameter indicating the base spectrum, parameter π (m) is a parameter indicating the initial state probability of each base spectrum, and parameter A (m) is a parameter indicating the transition probability matrix of the base spectrum It is.

具体的には、パラメータ初期値生成部22は、丸め込み音声特徴量t (m)(t=1,・・・,T)を一つの行列(m)とみなし、通常のNMFを適用して推定された基底スペクトルをパラメータ(m)の初期値として生成する。この部分のNMFは、周知技術(例えば、参考文献4:D.D.Lee et. al., “ Algorithms for non-negative matrix factorization ” in NIPS2000.、参考文献5:A.T. Cemgil, “ Bayesian inference in nonnegative matrix factorisation models, ” in University of Cambridge, 2008.)により実現できる。 Specifically, the parameter initial value generation unit 22 regards the rounded speech feature value y t (m) (t = 1,..., T) as one matrix Y (m), and converts the normal NMF into A base spectrum estimated by application is generated as an initial value of the parameter h (m) . NMF in this part is known in the art (for example, Reference 4: DDLee et. Al., “Algorithms for non-negative matrix factorization” in NIPS2000., Reference 5: AT Cemgil, “Bayesian inference in nonnegative matrix factorisation models, ”In University of Cambridge, 2008.)

また、パラメータ初期値生成部22は、パラメータπ(m)については、全ての要素に対して等確率となる値1/K(Kは基底スペクトルの総数)を初期値として生成する。パラメータ(m)についても、全ての行に対して等確率となる値1/Kを初期値として生成する。 Further, the parameter initial value generation unit 22 generates a value 1 / K (K is the total number of base spectra) having an equal probability for all elements as an initial value for the parameter π (m) . Parameter A will be (m), to produce a value 1 / K to be equal probabilities for all lines as the initial value.

パラメータ推定部23は、パラメータ初期値生成部22で生成されたパラメータθ(m)={π(m)(m)(m)}の初期値、または後述する状態遷移確率更新部232及び基底スペクトル更新部233で更新されたパラメータθ(m)={π(m)(m)(m)}の更新値、及び音声特徴抽出部21から出力された丸め込み音声特徴量t (m)を入力として、更新後のパラメータθ(m)={π(m)(m)(m)} を、言語(m)のメルスペクトルグラムの尤度関数の値が最大となるように更新する。パラメータ推定部23は、さらに、フォワード・バックワードアルゴリズム部231と、状態遷移確率更新部232と、基底スペクトル更新部233とを含んだ構成で表すことができる。 The parameter estimator 23 is the parameter generated by the parameter initial value generator 22 θ (m) = { π (m) , A (m) , h (m) }, or a state described later Parameters updated by the transition probability update unit 232 and the base spectrum update unit 233 θ (m) = { π (m) , A (m) , h (m) } update value, and speech feature extraction unit as input to output the rounded speech features y t (m) from 21, the parameter after update → θ (m) = {→ π (m), → a (m), → h (m)} and The likelihood function value of the mel spectrum gram of language (m) is updated so as to be maximized. The parameter estimation unit 23 can be expressed by a configuration including a forward / backward algorithm unit 231, a state transition probability update unit 232, and a base spectrum update unit 233.

フォワード・バックワードアルゴリズム部231は、パラメータ初期値生成部22で生成されたパラメータθ(m)={π(m)(m)(m)}の初期値、または後述する状態遷移確率更新部232及び基底スペクトル更新部233で更新されたパラメータθ(m)={π(m)(m)(m)}の更新値を入力として受け付ける。フォワード・バックワードアルゴリズム部231は、パラメータの初期値または更新値を用いて、フォワード・バックワードアルゴリズムにより、式(9)に示す変数α(t (m))及び式(10)に示す変数β(t (m))を、式(11)を用いて計算する。また、計算した変数α(t (m))及び変数β(t (m))を用いて、式(8)に示す変数γ(t (m))、及び式(13)に示す変数ξ(t-1 (m)t (m))を求めて、出力する。 The forward / backward algorithm unit 231 uses the initial value of the parameter generated by the parameter initial value generation unit 22 θ (m) = { π (m) , A (m) , h (m) }, or Parameters updated by a state transition probability updating unit 232 and a base spectrum updating unit 233 described later θ (m) = { π (m) , A (m) , h (m) } Accept. The forward / backward algorithm unit 231 uses the initial value or the updated value of the parameter to represent the variable α ( z t (m) ) shown in the equation (9) and the equation (10) by the forward / backward algorithm. The variable β ( z t (m) ) is calculated using equation (11). Further, using the calculated variable α ( z t (m) ) and variable β ( z t (m) ), the variable γ ( z t (m) ) shown in the equation (8) and the equation (13 ) ( z t-1 (m) , z t (m) ) shown in FIG.

状態遷移確率更新部232は、フォワード・バックワードアルゴリズム部231から出力された変数γ(t (m))及び変数ξ(t-1 (m)t (m))を入力として受け付ける。状態遷移確率更新部232は、変数γ(t (m))及び変数ξ(t-1 (m)t (m))を用いて、式(14)及び式(15)により、初期状態確率を示すパラメータπ(m)、及び遷移確率行列を示すパラメータ(m)をそれぞれ更新する。これにより、状態遷移確率を示すパラメータ{π(m)(m)}が更新される。状態遷移確率更新部232は、パラメータ{π(m)(m)}の更新値を出力する。 The state transition probability updating unit 232 uses the variable γ ( z t (m) ) and the variable ξ ( z t−1 (m) , z t (m) ) output from the forward / backward algorithm unit 231. Accept as input. The state transition probability updating unit 232 uses the variable γ ( z t (m) ) and the variable ξ ( z t−1 (m) , z t (m) ), and uses the equations (14) and (15 ), The parameter indicating the initial state probability π (m) and the parameter indicating the transition probability matrix A (m) are updated. Thereby, the parameter { π (m) , A (m) } indicating the state transition probability is updated. The state transition probability updating unit 232 outputs an updated value of the parameter { π (m) , A (m) }.

基底スペクトル更新部233は、音声特徴抽出部21から出力された丸め込み音声特徴量t (m)、及びフォワード・バックワードアルゴリズム部231から出力された変数γ(t (m))及び変数ξ(t-1 (m)t (m))を入力として受け付ける。基底スペクトル更新部233は、丸め込み音声特徴量t (m)、変数γ(t (m))及び変数ξ(t-1 (m)t (m))を用いて、式(16)により、基底スペクトルを示すパラメータ(m)={1 (m),・・・,K (m)}の全ての要素を更新する。基底スペクトル更新部233は、更新したパラメータ(m)を出力する。 The base spectrum update unit 233 includes a rounded speech feature amount output from the speech feature extraction unit 21 y t (m) and a variable γ ( z t (m) ) output from the forward / backward algorithm unit 231 and Variable ξ ( z t-1 (m) , z t (m) ) is accepted as an input. The base spectrum updating unit 233 uses the rounded speech feature value y t (m) , the variable γ ( z t (m) ), and the variable ξ ( z t−1 (m) , z t (m) ). Then, all the elements of the parameter indicating the base spectrum h (m) = { h 1 (m) ,... h K (m) } are updated by the equation (16). The base spectrum update unit 233 outputs the updated parameter h (m) .

収束判定部24は、状態遷移確率更新部232から出力されたパラメータ{π(m)(m)}、及び基底スペクトル更新部233から出力されたパラメータ(m)を入力として受け付ける。収束判定部24は、パラメータθ(m)={π(m)(m)(m)}を用いて、式(9)及び式(11)により変数α(T (m))を計算し、式(12)に示す尤度関数を計算する。収束判定部24は、計算した尤度関数の値が収束したか否かを、例えば所定の条件を満たすか否かにより、判定する。例えば、1ステップ前に計算した尤度関数の値と今回計算した尤度関数の値との誤差が、所定の閾値ε以下であれば、収束したと判定することができる。例えば、ε=1.0×10-5とすることができる。 The convergence determination unit 24 receives the parameters { π (m) , A (m) } output from the state transition probability update unit 232 and the parameters output from the base spectrum update unit 233 h (m). Accept. The convergence determination unit 24 uses the parameter θ (m) = { π (m) , A (m) , h (m) }, and the variable α ( z T (m) ) is calculated, and a likelihood function shown in Expression (12) is calculated. The convergence determination unit 24 determines whether or not the calculated likelihood function value has converged based on, for example, whether or not a predetermined condition is satisfied. For example, if the error between the value of the likelihood function calculated one step before and the value of the likelihood function calculated this time is equal to or smaller than a predetermined threshold value ε, it can be determined that convergence has occurred. For example, ε = 1.0 × 10 −5 can be set.

収束判定部24は、尤度関数の値が収束したと判定した場合、すなわち、所定の条件を満たした場合には、パラメータθ(m)をパラメータ出力部25に受け渡し、収束していないと判定した場合、すなわち、所定の条件を満たしていない場合には、パラメータθ(m)をフォワード・バックワードアルゴリズム部231に受け渡す。 When it is determined that the likelihood function value has converged, that is, when a predetermined condition is satisfied, the convergence determination unit 24 passes the parameter θ (m) to the parameter output unit 25 and has not converged. When it is determined, that is, when the predetermined condition is not satisfied, the parameter θ (m) is transferred to the forward / backward algorithm unit 231.

なお、収束したか否かを判定する方法としては、尤度関数を用いる方法以外に、パラメータ各々の更新前の値と更新後の値との誤差が所定の閾値ε2以下か否かにより判定する方法を用いてもよい。この場合は、「パラメータ各々の更新前の値と更新後の値との誤差が所定の閾値ε2以下である」ことが「所定の条件を満たした」ことになる。例えば、ε2=1.0×10-5とすることができる。また、パラメータの更新が予め定めた繰り返し回数に到達した場合に、収束したと判定してもよい。この場合は、「パラメータの更新が予め定めた繰り返し回数に到達した」ことが「所定の条件を満たした」ことになる。例えば、繰り返し回数を1000回とすることができる。 In addition to the method using the likelihood function, the method for determining whether or not the convergence has occurred is determined based on whether or not the error between the pre-update value and the post-update value of each parameter is equal to or less than a predetermined threshold value ε2. A method may be used. In this case, “the error between the pre-update value and the post-update value of each parameter is equal to or less than a predetermined threshold value ε2” means “a predetermined condition is satisfied”. For example, ε2 = 1.0 × 10 −5 can be set. Further, it may be determined that the parameter has converged when the parameter update reaches a predetermined number of repetitions. In this case, “a parameter update has reached a predetermined number of repetitions” means “a predetermined condition is satisfied”. For example, the number of repetitions can be 1000.

パラメータ出力部25は、収束判定部24から受け渡されたパラメータθ(m)={π(m)(m)(m)}の全てを、言語(m)パラメータ蓄積データベース(DB)31mに蓄積し、パラメータ格納部30に格納する。 The parameter output unit 25 converts all of the parameters passed from the convergence determination unit 24 θ (m) = { π (m) , A (m) , h (m) } into the language (m) parameter. The data is accumulated in the accumulation database (DB) 31 m and stored in the parameter storage unit 30.

上記の学習部20の各部の処理を、M種類の言語のそれぞれについて行うことにより、言語(1)、言語(2)、・・・言語(M)のそれぞれについて推定されたパラメータθ(1)θ(2)、・・・、θ(M)が、言語(1)パラメータ蓄積DB311、言語(2)パラメータ蓄積DB312、・・・、言語(M)パラメータ蓄積DB31Mにそれぞれ蓄積され、パラメータ格納部30に格納される。 By performing the processing of each part of the learning unit 20 for each of the M kinds of languages, parameters estimated for each of the language (1), the language (2),..., The language (M) θ (1 ), → θ (2), ···, → θ is (M), language (1) parameter storage DB 311, language (2) parameter storage DB 312, · · ·, are respectively accumulated in the language (M) parameter storage DB31M And stored in the parameter storage unit 30.

次に、評価部40の各部について詳述する。評価部40は、音声特徴抽出部41と、尤度計算部42と、言語評価結果出力部43とを含んだ構成で表すことができる。なお、音声特徴抽出部41は本発明の抽出手段の一例である。また、尤度計算部42は本発明の尤度計算手段の一例である。また、言語評価結果出力部43は本発明の評価手段の一例である。   Next, each part of the evaluation unit 40 will be described in detail. The evaluation unit 40 can be represented by a configuration including a speech feature extraction unit 41, a likelihood calculation unit 42, and a language evaluation result output unit 43. Note that the voice feature extraction unit 41 is an example of the extraction means of the present invention. The likelihood calculation unit 42 is an example of the likelihood calculation means of the present invention. The language evaluation result output unit 43 is an example of the evaluation unit of the present invention.

音声特徴抽出部41は、言語の種類が未知の評価用音声信号を入力として受け付ける。音声特徴抽出部41は、学習部20の音声特徴抽出部21が言語(m)の学習用音声信号から音声特徴量y't (m)(t=1,・・・,T)を抽出するのと同様に、評価用音声信号から音声特徴量y't(t=1,・・・,T)を抽出する。また、音声特徴抽出部41は、音声特徴量y'tの全ての要素を整数値に丸め込んだ丸め込み音声特徴量tを生成し、出力する。 The voice feature extraction unit 41 receives an evaluation voice signal whose language type is unknown as an input. In the speech feature extraction unit 41, the speech feature extraction unit 21 of the learning unit 20 extracts the speech feature quantity y ′ t (m) (t = 1,..., T) from the learning speech signal of the language (m). In the same manner as described above, the speech feature amount y ′ t (t = 1,..., T) is extracted from the speech signal for evaluation. The speech feature extraction unit 41 generates and outputs a rounded speech feature amount y t obtained by rounding all elements of the speech feature amount y ′ t to an integer value.

尤度計算部42は、音声特徴抽出部41から出力された丸め込み音声特徴量tを入力として受け付け、丸め込み音声特徴量tと、パラメータ格納部30に格納された各言語(m)パラメータ蓄積DB31mに蓄積されたパラメータθ(m)とを用いて、パラメータ格納部30にパラメータが格納されている言語の全てについて、評価用音声信号が示す言語の種類が言語(m)であることの尤もらしさを示す尤度を計算する。 The likelihood calculation unit 42 receives the rounded speech feature amount y t output from the speech feature extraction unit 41 as an input, and the rounded speech feature amount y t and each language (m) stored in the parameter storage unit 30. Using all the parameters stored in the parameter storage DB 31m θ (m) , the language type indicated by the evaluation audio signal is language (m) for all the languages in which the parameters are stored in the parameter storage unit 30. The likelihood indicating the likelihood of this is calculated.

具体的には、尤度計算部42は、各言語(m)パラメータ蓄積DB31mに蓄積された言語(m)毎のパラメータθ(m)を用いて、式(9)及び式(11)により変数α(T (m))を計算し、式(12)に示す尤度関数を計算する。尤度計算部42は、各言語(m)について計算した尤度関数の値(尤度)L(m=1,・・・,M)を出力する。 More specifically, the likelihood calculating unit 42 uses the parameters for each language (m) stored in each language (m) parameter storage DB 31m θ (m), and uses Equation (9) and Equation (11). The variable α ( z T (m) ) is calculated, and the likelihood function shown in Expression (12) is calculated. The likelihood calculation unit 42 outputs the value (likelihood) L m (m = 1,..., M) of the likelihood function calculated for each language (m).

言語評価結果出力部43は、尤度計算部42から出力された各言語(m)の尤度Lを比較して、尤度Lが最大となる言語(m)が評価用音声信号の示す言語の種類である旨の言語評価結果を出力する。 The language evaluation result output unit 43 compares the likelihood L m of each language (m) output from the likelihood calculation unit 42, and the language (m) having the maximum likelihood L m is the voice signal for evaluation. Outputs the language evaluation result indicating that the language type is indicated.

次に、第1の実施の形態に係る音声言語評価装置10の作用について説明する。まず、学習部20において、図4に示す学習処理が実行され、対象となる複数種類の言語のそれぞれについて、言語(m)パラメータ蓄積DB31mを生成して、パラメータ格納部30に格納する。言語(m)パラメータ蓄積DB31m(m=1,・・・,M)が生成された状態で、音声言語評価装置10に評価用音声信号が入力されると、評価部40において、図5に示す評価処理が実行される。以下、図6に示すシーケンス図も参照して、各処理について詳述する。   Next, the operation of the spoken language evaluation apparatus 10 according to the first embodiment will be described. First, the learning process shown in FIG. 4 is executed in the learning unit 20, and the language (m) parameter accumulation DB 31 m is generated and stored in the parameter storage unit 30 for each of a plurality of types of target languages. When the speech signal for evaluation is input to the speech language evaluation apparatus 10 in a state where the language (m) parameter accumulation DB 31m (m = 1,..., M) is generated, the evaluation unit 40 shows in FIG. An evaluation process is executed. Hereinafter, each process will be described in detail with reference to the sequence diagram shown in FIG.

まず、図4に示す学習処理のステップ100で、音声特徴抽出部21が、入力された言語(m)の学習用音声信号から音声特徴量y't (m)(t=1,・・・,T)を抽出し、全ての要素を整数値に丸め込んだ丸め込み音声特徴量t (m)を生成する。音声特徴抽出部21は、図6に示すように、生成した丸め込み音声特徴量t (m)をパラメータ初期値生成部22及び基底スペクトル更新部233へ受け渡す。 First, in step 100 of the learning processing shown in FIG. 4, the speech characteristic extraction unit 21, the audio features from training speech signal of the input language (m) → y 't ( m) (t = 1, ·· .., T) is extracted, and a rounded speech feature amount y t (m) is generated by rounding all elements to integer values. The speech feature extraction unit 21 passes the generated rounded speech feature amount y t (m) to the parameter initial value generation unit 22 and the base spectrum update unit 233, as shown in FIG.

次に、ステップ102で、パラメータ初期値生成部22が、音声特徴抽出部21から受け渡された丸め込み音声特徴量t (m)を用いて、例えば通常のNMFを適用して推定された基底スペクトルをパラメータ(m)の初期値として生成する。また、パラメータ初期値生成部22が、パラメータπ(m)について、例えば全ての要素に対して等確率となる値1/Kを初期値として生成する。パラメータ(m)についても、例えば全ての行に対して等確率となる値1/Kを初期値として生成する。パラメータ初期値生成部22は、図6に示すように、生成した各パラメータの初期値をまとめてパラメータθ(m)の初期値とし、フォワード・バックワードアルゴリズム部231へ受け渡す。 Next, in step 102, the parameter initial value generation unit 22 is estimated by applying, for example, normal NMF, using the rounded speech feature amount passed from the speech feature extraction unit 21 y t (m) . A base spectrum is generated as an initial value of the parameter h (m) . Further, the parameter initial value generation unit 22 generates, for example, a value 1 / K having an equal probability for all elements as an initial value for the parameter π (m) . For even Parameter A (m), for example, it generates a value 1 / K to be equal probabilities for all lines as the initial value. As shown in FIG. 6, the parameter initial value generation unit 22 collects the initial values of the generated parameters as an initial value of parameter θ (m) , and transfers the initial value to the forward / backward algorithm unit 231.

次に、ステップ104で、フォワード・バックワードアルゴリズム部231が、パラメータ初期値生成部22から受け渡されたパラメータθ(m)の初期値を用いて、フォワード・バックワードアルゴリズムにより、式(9)に示す変数α(t (m))及び式(10)に示す変数β(t (m))を、式(11)を用いて計算する。また、計算した変数α(t (m))及び変数β(t (m))を用いて、式(8)に示す変数γ(t (m))、及び式(13)に示す変数ξ(t-1 (m)t (m))を求める。フォワード・バックワードアルゴリズム部231は、図6に示すように、求めた変数γ(t (m))及び変数ξ(t-1 (m)t (m))を、状態遷移確率更新部232及び基底スペクトル更新部233へ受け渡す。 Next, in step 104, the forward / backward algorithm unit 231 uses the initial value of the parameter θ (m) passed from the parameter initial value generation unit 22, and the formula (9 ) (Α) z t (m) ) and the variable β ( z t (m) ) shown in equation (10) are calculated using equation (11). Further, using the calculated variable α ( z t (m) ) and variable β ( z t (m) ), the variable γ ( z t (m) ) shown in the equation (8) and the equation (13 ) ( z t-1 (m) , z t (m) ) shown in FIG. As shown in FIG. 6, the forward / backward algorithm unit 231 uses the obtained variable γ ( z t (m) ) and variable ξ ( z t-1 (m) , z t (m) ), The data is transferred to the state transition probability update unit 232 and the base spectrum update unit 233.

次に、ステップ106で、状態遷移確率更新部232が、フォワード・バックワードアルゴリズム部231から受け渡された変数γ(t (m))及び変数ξ(t-1 (m)t (m))を用いて、式(14)及び式(15)により、初期状態確率を示すパラメータπ(m)、及び遷移確率行列を示すパラメータ(m)をそれぞれ更新する。状態遷移確率更新部232は、図6に示すように、パラメータπ(m)及び(m)の更新値を収束判定部24へ受け渡す。 Next, in step 106, the state transition probability update unit 232 receives the variable γ ( z t (m) ) and the variable ξ ( z t−1 (m) , passed from the forward / backward algorithm unit 231. z t (m) ), the parameter indicating the initial state probability π (m) and the parameter indicating the transition probability matrix A (m) are respectively updated according to the equations (14) and (15). . As shown in FIG. 6, the state transition probability update unit 232 delivers the updated values of the parameters π (m) and A (m) to the convergence determination unit 24.

次に、ステップ108で、基底スペクトル更新部233が、音声特徴抽出部21から受け渡された丸め込み音声特徴量t (m)、及びフォワード・バックワードアルゴリズム部231から受け渡された変数γ(t (m))及び変数ξ(t-1 (m)t (m))を用いて、式(16)により、基底スペクトルを示すパラメータ(m)の全ての要素を更新する。基底スペクトル更新部233は、図6に示すように、パラメータ(m)の更新値を収束判定部24へ受け渡す。 Next, in step 108, the base spectrum update unit 233 receives the rounded speech feature amount passed from the speech feature extraction unit 21 y t (m) and the variable γ passed from the forward / backward algorithm unit 231. ( z t (m) ) and the variable ξ ( z t-1 (m) , z t (m) ) , all the parameters indicating the base spectrum h (m) are obtained according to equation (16). Update elements of. As shown in FIG. 6, the base spectrum update unit 233 delivers the updated value of parameter h (m) to the convergence determination unit 24.

なお、ステップ106とステップ108とは、処理順序を逆にしてもよい。   Note that the processing order of step 106 and step 108 may be reversed.

次に、ステップ110で、収束判定部24が、状態遷移確率更新部232から受け渡されたパラメータπ(m)及び(m)の更新値、並びに基底スペクトル更新部233から受け渡されたパラメータ(m)の更新値をまとめたパラメータθ(m)={π(m)(m)(m)}の更新値を用いて、式(9)及び式(11)により変数α(T (m))を計算し、式(12)に示す尤度関数を計算し、尤度関数の値が収束したか否かを、例えば所定の条件を満たすか否かにより、判定する。尤度関数の値が収束していない場合、すなわち、所定の条件を満たしていない場合には、ステップ104へ戻る。この際に、収束判定部24は、図6に示すように、パラメータθ(m)の更新値をフォワード・バックワードアルゴリズム部231に受け渡す。これにより、ステップ104〜108において、パラメータθ(m)の更新が繰り返される。 Next, in step 110, the convergence determination unit 24 receives the updated values of the parameters π (m) and A (m) passed from the state transition probability update unit 232 and the base spectrum update unit 233. Parameter parameter that summarizes the updated value of h (m) θ (m) = { π (m) , A (m) , h (m) } And the variable α ( z T (m) ) is calculated according to the equation (11), the likelihood function shown in the equation (12) is calculated, and whether or not the value of the likelihood function has converged, for example, a predetermined condition Judgment is made depending on whether or not the above is satisfied. When the value of the likelihood function has not converged, that is, when the predetermined condition is not satisfied, the process returns to step 104. At this time, the convergence determination unit 24 passes the updated value of the parameter θ (m) to the forward / backward algorithm unit 231 as shown in FIG. Thereby, in steps 104 to 108, the parameter θ (m) is updated repeatedly.

一方、上記ステップ110で、尤度関数の値が収束したと判定された場合、すなわち、所定の条件を満たした場合には、ステップ112へ移行する。この際、収束判定部24は、図6に示すように、パラメータθ(m)の更新値をパラメータ出力部25に受け渡す。 On the other hand, if it is determined in step 110 that the likelihood function value has converged, that is, if a predetermined condition is satisfied, the routine proceeds to step 112. At this time, the convergence determination unit 24 delivers the updated value of parameter θ (m) to the parameter output unit 25 as shown in FIG.

ステップ112では、パラメータ出力部25が、収束判定部24から受け渡されたパラメータθ(m)={π(m)(m)(m)}の全てを、言語(m)パラメータ蓄積DB31mに蓄積し、図6に示すように、パラメータ格納部30へ受け渡して、学習処理を終了する。 In step 112, the parameter output unit 25 converts all of the parameters passed from the convergence determination unit 24 θ (m) = { π (m) , A (m) , h (m) } into the language (m) The parameter is accumulated in the parameter accumulation DB 31m and transferred to the parameter storage unit 30 as shown in FIG. 6 to complete the learning process.

上記の学習処理を言語(1)、言語(2)、・・・言語(M)のそれぞれについて実行することにより、言語(1)のパラメータθ(1)を蓄積した言語(1)パラメータ蓄積DB311、言語(2)のパラメータθ(2)を蓄積した言語(2)パラメータ蓄積DB312、・・・、言語(M)のパラメータθ(M)を蓄積した言語(M)パラメータ蓄積DB31Mのそれぞれが生成され、パラメータ格納部30に格納される。 Language the learning process (1), language (2), by executing for each of ... Language (M), the parameter theta (1) the accumulated Language Language (1) (1) Parameters accumulation DB311, the language of (2) parameter → θ (2) accumulated language (2) parameters accumulate DB312, ···, language parameters → θ language that has accumulated (M) (M) parameters accumulation DB31M of (M) Each is generated and stored in the parameter storage unit 30.

次に、図5に示す評価処理のステップ120で、音声特徴抽出部41が、入力された評価用音声信号から、音声特徴抽出部21が言語(m)の学習用音声信号から音声特徴量y't (m)(t=1,・・・,T)を抽出するのと同様に、音声特徴量y't(t=1,・・・T)を抽出する。また、音声特徴抽出部41は、音声特徴量y'tの全ての要素を整数値に丸め込んだ丸め込み音声特徴量tを生成する。音声特徴抽出部41は、図6に示すように、生成した丸め込み音声特徴量tを尤度計算部42へ受け渡す。 Next, FIG. 5 step 120 the evaluation processing shown in the voice characteristic extraction unit 41, from the input sound signals used for evaluation, speech features from training speech signal of the speech characteristic extraction unit 21 Language (m) Similarly to extracting y ′ t (m) (t = 1,..., T), the speech feature quantity y ′ t (t = 1,... T) is extracted. Also, the speech feature extraction unit 41 generates a rounded speech feature amount y t by rounding all elements of the speech feature amount y ′ t to an integer value. The speech feature extraction unit 41 delivers the generated rounded speech feature amount y t to the likelihood calculation unit 42 as shown in FIG.

次に、ステップ122で、尤度計算部42が、言語の種類を示すインデックスに対応した変数mを1に設定する。次に、ステップ124で、尤度計算部42が、音声特徴抽出部41から受け渡された丸め込み音声特徴量tと、パラメータ格納部30に格納された各言語(m)パラメータ蓄積DB31mに蓄積されたパラメータθ(m)とを用いて、評価用音声信号が示す言語の種類が言語(m)であることの尤もらしさを示す尤度Lを計算する。 Next, in step 122, the likelihood calculator 42 sets the variable m corresponding to the index indicating the language type to 1. Next, in step 124, the likelihood calculation unit 42, the audio feature y t rounding transferred from the speech characteristic extraction unit 41, for each language (m) parameter storage DB31m stored in the parameter storage section 30 Using the accumulated parameter θ (m) , a likelihood L m indicating the likelihood that the language type indicated by the speech signal for evaluation is language (m) is calculated.

次に、ステップ126で、尤度計算部42が、変数mがMになったか否かを判定することにより、パラメータ格納部30にパラメータが格納されている全ての言語について尤度を計算したか否かを判定する。m≠Mの場合には、ステップ128へ移行し、mを1インクリメントして、ステップ124に戻る。m=Mの場合には、ステップ130へ移行する。この際、尤度計算部42は、図6に示すように、計算した全ての尤度L(m=1,・・・,M)を言語評価結果出力部43へ受け渡す。 Next, in step 126, the likelihood calculation unit 42 determines whether or not the variable m is M, thereby calculating the likelihood for all languages in which parameters are stored in the parameter storage unit 30. Determine whether or not. If m ≠ M, the process proceeds to step 128, m is incremented by 1, and the process returns to step 124. If m = M, the process proceeds to step 130. At this time, the likelihood calculation unit 42 passes all the calculated likelihoods L m (m = 1,..., M) to the language evaluation result output unit 43 as shown in FIG.

ステップ130では、言語評価結果出力部43が、尤度計算部42から受け渡された各言語(m)の尤度Lを比較して、尤度Lが最大となる言語(m)が評価用音声信号の示す言語の種類である旨の言語評価結果を出力して、評価処理を終了する。 In step 130, the language evaluation result output unit 43 compares the likelihood L m of each language (m) delivered from the likelihood calculation unit 42, and the language (m) having the maximum likelihood L m is determined. A language evaluation result indicating that the language type indicated by the evaluation audio signal is output, and the evaluation process is terminated.

以上説明したように、第1の実施の形態に係る音声言語評価装置によれば、言語毎の音声信号から抽出された音声特徴量に基づいて、基底スペクトル及び基底スペクトルの状態遷移確率の各々を示すパラメータを含む生成モデルの最適パラメータを推定する。これにより、言語が持つ音声的性質と音素遷移とを含む言語的性質に対応したパラメータが推定される。このパラメータを用いることにより、事前知識を要することなく、入力された音声信号が示す言語の種類を精度良く評価することができる。   As described above, according to the speech language evaluation apparatus according to the first embodiment, each of the base spectrum and the state transition probability of the base spectrum is calculated based on the speech feature amount extracted from the speech signal for each language. Estimate the optimal parameters of the generated model including the parameters shown. Thereby, the parameter corresponding to the linguistic property including the speech property and phoneme transition of the language is estimated. By using this parameter, it is possible to accurately evaluate the type of language indicated by the input voice signal without requiring prior knowledge.

<第2の実施の形態>
次に、第2の実施の形態について説明する。第1の実施の形態では、言語の種類(m)毎に、パラメータθ(m)={π(m)(m)(m)}を推定する場合について説明したが、第2の実施の形態では、対象となる全ての言語の種類に対して共通の基底スペクトルを示すパラメータhを推定すると共に、言語の種類(m)毎に状態遷移確率を示すパラメータ{π(m)(m)}を推定する場合について説明する。なお、第2の実施の形態に係る音声言語評価装置について、第1の実施の形態に係る音声言語評価装置10の構成と同一または対応する構成については、同一または対応する符号を付して詳細な説明を省略する。
<Second Embodiment>
Next, a second embodiment will be described. In the first embodiment, for each language type (m), a case has been described in which parameters θ (m) = { π (m) , A (m) , h (m) } are estimated. However, in the second embodiment, a parameter indicating a common base spectrum for all target language types h is estimated, and a parameter indicating a state transition probability for each language type (m) { π (m) , A (m) } is estimated. In addition, about the speech language evaluation apparatus which concerns on 2nd Embodiment, about the structure which is the same as or corresponds to the structure of the speech language evaluation apparatus 10 which concerns on 1st Embodiment, attaches | subjects the same or corresponding code | symbol, and details The detailed explanation is omitted.

第2の実施の形態に係る音声言語評価装置210は、CPUと、RAMと、後述する学習処理及び評価処理を含む音声言語評価処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成されている。   A spoken language evaluation apparatus 210 according to the second embodiment includes a CPU, a RAM, and a ROM that stores a program for executing a spoken language evaluation processing routine including a learning process and an evaluation process described later. It consists of

このコンピュータは、機能的には、図7に示すように、学習部220と評価部240とを含んだ構成で表すことができる。   This computer can be functionally represented by a configuration including a learning unit 220 and an evaluation unit 240, as shown in FIG.

まず、学習部220の各部について詳述する。学習部220は、音声特徴抽出部221と、パラメータ初期値生成部222と、パラメータ推定部223と、収束判定部224と、パラメータ出力部225とを含んだ構成で表すことができる。なお、音声特徴抽出部221は本発明の抽出手段の一例である。また、パラメータ初期値生成部222は本発明の初期値生成手段の一例である。また、パラメータ推定部223は本発明の推定手段の一例である。また、収束判定部224及びパラメータ出力部225は本発明の制御手段の一例である。   First, each part of the learning unit 220 will be described in detail. The learning unit 220 can be represented by a configuration including a speech feature extraction unit 221, a parameter initial value generation unit 222, a parameter estimation unit 223, a convergence determination unit 224, and a parameter output unit 225. Note that the voice feature extraction unit 221 is an example of the extraction means of the present invention. The parameter initial value generator 222 is an example of the initial value generator of the present invention. Moreover, the parameter estimation part 223 is an example of the estimation means of this invention. Moreover, the convergence determination part 224 and the parameter output part 225 are examples of the control means of this invention.

音声特徴抽出部221は、言語の種類が既知の学習用音声信号を入力として受け付ける。第1の実施の形態では、言語の種類がmである学習用音声信号を入力したが、第2の実施の形態では、言語の種類が複数種類m(m=1,・・・,M、Mは言語の種類の総数)の音声信号が学習用音声信号(以下、「言語(m=1,・・・,M)の学習用音声信号」と表記する)として入力される。   The speech feature extraction unit 221 accepts a learning speech signal whose language type is known as an input. In the first embodiment, the learning speech signal whose language type is m is input. However, in the second embodiment, there are a plurality of language types m (m = 1,..., M, M is a speech signal for learning (hereinafter referred to as “speech speech signal for language (m = 1,..., M)”).

音声特徴抽出部221は、第1の実施の形態における音声特徴抽出部21が言語(m)の学習用音声信号から音声特徴量y't (m)(t=1,・・・,T)を抽出するのと同様に、言語(m=1,・・・,M)の学習用音声信号から音声特徴量y't (m)(t=1,・・・,T、m=1,・・・,M)を抽出して出力する。また、音声特徴抽出部221は、音声特徴量y't (m)の全ての要素を整数値に丸め込んだ丸め込み音声特徴量t (m)を生成し、出力する。 The speech feature extraction unit 221 is configured such that the speech feature extraction unit 21 in the first embodiment uses speech feature amounts from learning speech signals in language (m) y ′ t (m) (t = 1,..., T ) Is extracted from the learning speech signal of the language (m = 1,..., M) y ′ t (m) (t = 1,..., T, m = 1,..., M) are extracted and output. The speech feature extraction unit 221 generates and outputs a rounded speech feature amount y t (m) obtained by rounding all elements of the speech feature amount y ′ t (m) to an integer value.

パラメータ初期値生成部222は、丸め込み音声特徴量t (m)(t=1,・・・,T、m=1,・・・,M)を一つの行列Yとみなし、通常のNMFを適用して推定された基底スペクトルをパラメータhの初期値として生成する。パラメータπ(m)の初期値及びパラメータ(m)の初期値については、第1の実施の形態のパラメータ初期値生成部22がパラメータπ(m)の初期値及びパラメータ(m)の初期値を推定するのと同様である。なお、パラメータπ(m)の初期値及びパラメータ(m)の初期値において、m=1,・・・,Mである点が第1の実施の形態とは異なる。以下、パラメータπ(m)の更新値及びパラメータ(m)の更新値についても同様にm=1,・・・,Mである点が第1の実施の形態とは異なる。 The parameter initial value generation unit 222 considers the rounded speech feature value y t (m) (t = 1,..., T, m = 1,..., M) as one matrix Y, A base spectrum estimated by applying NMF is generated as an initial value of parameter h. For the initial value of the parameter π (m) and the initial value of the parameter A (m) , the parameter initial value generation unit 22 of the first embodiment sets the initial value of the parameter π (m) and the parameter A ( This is the same as estimating the initial value of m) . Note that the initial value of parameter π (m) and the initial value of parameter A (m) are different from the first embodiment in that m = 1,..., M. Hereinafter, the update value of the parameter π (m) and the update value of the parameter A (m) are also different from the first embodiment in that m = 1,..., M.

パラメータ推定部223は、さらに、フォワード・バックワードアルゴリズム部231と、状態遷移確率更新部232と、基底スペクトル更新部2233とを含んだ構成で表すことができる。フォワード・バックワードアルゴリズム部231及び状態遷移確率更新部232は、パラメータ(m)に替えて、パラメータhを用いる点、及び各変数及びパラメータにおいて、m=1,・・・,Mである点が第1の実施の形態と異なるだけであるため、説明を省略する。 The parameter estimation unit 223 can be expressed by a configuration including a forward / backward algorithm unit 231, a state transition probability update unit 232, and a base spectrum update unit 2233. Forward-backward algorithm unit 231 and the state transition probability update unit 232, instead of the parameter h (m), a point using the parameter h, and at each variable and parameter, m = 1, · · ·, in M Since a certain point is only different from the first embodiment, the description is omitted.

基底スペクトル更新部2233は、丸め込み音声特徴量t (m)、変数γ(t (m))及び変数ξ(t-1 (m)t (m))(m=1,・・・,M)を用いて、式(17)により、全ての言語の種類に共通する基底スペクトルを示すパラメータh={1,・・・,K}の全ての要素を更新する。基底スペクトル更新部2233は、パラメータhの更新値を出力する。 The base spectrum update unit 2233 includes a rounded speech feature amount y t (m) , a variable γ ( z t (m) ), and a variable ξ ( z t−1 (m) , z t (m) ) (m = 1, · · ·, M) using, by the equation (17), the parameter h = illustrating a base spectrum common to all kinds of languages {→ h 1, ···, → h K} all Update elements of. The base spectrum update unit 2233 outputs an updated value of parameter h.

収束判定部224は、パラメータθ(m)={π(m)(m)h}を用いて、式(9)及び式(11)により変数α(T (m))を計算し、下式(18)に示す尤度関数を計算する。 The convergence determining unit 224 uses the parameter θ (m) = { π (m) , A (m) , h}, and the variable α ( z T ( m) ) is calculated, and the likelihood function shown in the following equation (18) is calculated.

収束判定部224は、計算した尤度関数の値が収束したか否かを、例えば所定の条件を満たすか否かにより、判定する。例えば、1ステップ前に計算した尤度関数の値と今回計算した尤度関数の値との誤差が、所定の閾値ε3以下であれば、収束したと判定することができる。例えば、ε3=1.0×10-5とすることができる。 The convergence determination unit 224 determines whether or not the calculated likelihood function value has converged, for example, depending on whether or not a predetermined condition is satisfied. For example, if the error between the value of the likelihood function calculated one step before and the value of the likelihood function calculated this time is equal to or smaller than a predetermined threshold value ε3, it can be determined that convergence has occurred. For example, ε3 = 1.0 × 10 −5 can be set.

なお、収束したか否かを判定する方法としては、尤度関数を用いる方法以外に、パラメータ各々の更新前の値と更新後の値との誤差が所定の閾値ε4以下か否かにより判定する方法を用いてもよい。この場合は、「パラメータ各々の更新前の値と更新後の値との誤差が所定の閾値ε4以下である」ことが「所定の条件を満たした」ことになる。例えば、ε4=1.0×10-5とすることができる。また、パラメータの更新が予め定めた繰り返し回数に到達した場合に、収束したと判定してもよい。この場合は、「パラメータの更新が予め定めた繰り返し回数に到達した」ことが「所定の条件を満たした」ことになる。例えば、繰り返し回数を1000回とすることができる。 In addition to the method using the likelihood function, the method for determining whether or not the convergence has occurred is determined by whether or not the error between the pre-update value and the post-update value of each parameter is equal to or less than a predetermined threshold value ε4. A method may be used. In this case, “the error between the pre-update value and the post-update value of each parameter is equal to or less than a predetermined threshold value ε4” means “a predetermined condition is satisfied”. For example, ε4 = 1.0 × 10 −5 can be set. Further, it may be determined that the parameter has converged when the parameter update reaches a predetermined number of repetitions. In this case, “a parameter update has reached a predetermined number of repetitions” means “a predetermined condition is satisfied”. For example, the number of repetitions can be 1000.

パラメータ出力部225は、収束判定部224から受け渡されたパラメータθ={π(m)(m)h}(m=1,・・・,M)について、全ての言語の種類に共通の基底スペクトルを示すパラメータhを基底スペクト蓄積DB32に蓄積し、言語(m)の状態遷移確率を示すパラメータ{π(m)(m)}(m=1,・・・,M)を言語(m)遷移確率蓄積DB33mに蓄積する。なお、“m”は言語の種類を示すインデックスであるので、言語(1)、・・・、言語(M)のそれぞれについて推定したパラメータ{π(1)(1)}、・・・、{π(M)(M)}を、言語(1)遷移確率蓄積DB331、・・・、言語(M)遷移確率蓄積DB33Mにそれぞれ蓄積する。基底スペクトル蓄積DB32及び各言語(m)遷移確率蓄積DB33mは、パラメータ格納部30に格納する。 Parameter output unit 225, the parameters passed from the convergence determination unit 224 → θ = {→ π ( m), → A (m), → h} (m = 1, ···, M) for all A parameter indicating a base spectrum common to the language type h is stored in the base spectrum storage DB 32, and a parameter indicating a state transition probability of the language (m) { π (m) , A (m) } (m = 1 ,..., M) are stored in the language (m) transition probability storage DB 33m. Since “m” is an index indicating the language type, the parameters { π (1) , A (1) } estimated for each of the language (1),..., Language (M),. .., { π (M) , A (M) } are stored in the language (1) transition probability storage DB 331,..., And the language (M) transition probability storage DB 33M, respectively. The base spectrum accumulation DB 32 and each language (m) transition probability accumulation DB 33 m are stored in the parameter storage unit 30.

次に、評価部240の各部について詳述する。評価部240は、音声特徴抽出部41と、尤度計算部242と、言語評価結果出力部43とを含んだ構成で表すことができる。なお、音声特徴抽出部41は本発明の抽出手段の一例である。また、尤度計算部242は本発明の尤度計算手段の一例である。また、言語評価結果出力部43は本発明の評価手段の一例である。   Next, each part of the evaluation unit 240 will be described in detail. The evaluation unit 240 can be represented by a configuration including a speech feature extraction unit 41, a likelihood calculation unit 242, and a language evaluation result output unit 43. Note that the voice feature extraction unit 41 is an example of the extraction means of the present invention. The likelihood calculation unit 242 is an example of the likelihood calculation means of the present invention. The language evaluation result output unit 43 is an example of the evaluation unit of the present invention.

尤度計算部242は、音声特徴抽出部41から出力された丸め込み音声特徴量tと、パラメータ格納部30に格納された基本スペクトル蓄積DB32に蓄積されたパラメータh、及び言語(m)遷移確率蓄積DB33mに蓄積されたパラメータ{π(1)(1)}とを用いて、パラメータ格納部30にパラメータが格納されている言語の全てについて、評価用音声信号が示す言語の種類が言語(m)であることの尤もらしさを示す尤度を計算する。尤度の計算は、パラメータ(m)に替えて、パラメータhを用いる点が第1の実施の形態と異なるだけである。 Likelihood calculating unit 242, audio feature rounding outputted from the voice characteristic extraction unit 41 y t and, the stored parameters h the fundamental spectral accumulation DB32 stored in the parameter storage unit 30, and Language (m) Using the parameters { π (1) , A (1) } stored in the transition probability storage DB 33m, the language indicated by the evaluation speech signal for all the languages in which the parameters are stored in the parameter storage unit 30 The likelihood indicating the likelihood that the type of is language (m) is calculated. The likelihood calculation is different from the first embodiment only in that parameter h is used instead of parameter h (m) .

次に、第2の実施の形態に係る音声言語評価装置210の作用について説明する。まず、学習部220において、図8に示す学習処理が実行され、基底スペクトルDB32及び各言語(m)遷移確率蓄積DB33mを生成して、パラメータ格納部30に格納する。各DBが生成された状態で、音声言語評価装置210に評価用音声信号が入力されると、評価部240において、図9に示す評価処理が実行される。以下、図10に示すシーケンス図も参照して、各処理について詳述する。なお、第1の実施の形態における学習処理(図4)及び評価処理(図5)の処理と同一または対応する処理については、同一または対応する符号を付して、詳細な説明を省略する。   Next, the operation of the spoken language evaluation apparatus 210 according to the second embodiment will be described. First, the learning process shown in FIG. 8 is executed in the learning unit 220, and the base spectrum DB 32 and each language (m) transition probability accumulation DB 33 m are generated and stored in the parameter storage unit 30. When an evaluation speech signal is input to the spoken language evaluation device 210 in a state where each DB is generated, the evaluation unit 240 executes the evaluation process shown in FIG. Hereinafter, each process will be described in detail with reference to the sequence diagram shown in FIG. In addition, about the process which is the same or corresponding to the process of the learning process (FIG. 4) and evaluation process (FIG. 5) in 1st Embodiment, the code | symbol same or corresponding is attached | subjected and detailed description is abbreviate | omitted.

まず、図8に示す学習処理のステップ200で、音声特徴抽出部221が、言語(m=1,・・・,M)の学習用音声信号から音声特徴量y't (m)(t=1,・・・,T、m=1,・・・,M)を抽出し、全ての要素を整数値に丸め込んだ丸め込み音声特徴量t (m)を生成する。音声特徴抽出部221は、図10に示すように、生成した丸め込み音声特徴量t (m)をパラメータ初期値生成部222及び基底スペクトル更新部2233へ受け渡す。 First, in step 200 of the learning process shown in FIG. 8, the speech feature extraction unit 221 determines the speech feature amount from the learning speech signal of the language (m = 1,..., M) y ′ t (m) (t = 1, ..., extracted T, m = 1, ..., a M), generates a rounding it Marumekon all elements to integers speech features y t (m). As shown in FIG. 10, the speech feature extraction unit 221 delivers the generated rounded speech feature amount y t (m) to the parameter initial value generation unit 222 and the base spectrum update unit 2233.

次に、ステップ202で、パラメータ初期値生成部222が、丸め込み音声特徴量t (m)(t=1,・・・,T、m=1,・・・,M)を一つの行列Yとみなし、通常のNMFを適用して推定された基底スペクトルをパラメータhの初期値として生成する。パラメータπ(m)の初期値及びパラメータ(m)の初期値については、m=1,・・・,Mについて、第1の実施の形態におけるパラメータ初期値生成部22がパラメータπ(m)の初期値及びパラメータ(m)の初期値を推定するのと同様に生成する。パラメータ初期値生成部222は、図10に示すように、生成した各パラメータの初期値をまとめてパラメータθ={π(m)(m)h}(m=1,・・・,M)の初期値とし、フォワード・バックワードアルゴリズム部231へ受け渡す。 Next, in step 202, the parameter initial value generation unit 222 converts the rounded speech feature quantity y t (m) (t = 1,..., T, m = 1,..., M) into one matrix. Y is assumed, and a base spectrum estimated by applying normal NMF is generated as an initial value of parameter h. Parameters The initial value of [pi initial values and parameters A of (m) (m), m = 1, ···, for M, the parameter initial value generator 22 in the first embodiment are parameter [pi The initial value of (m) and the parameter A are generated in the same manner as the initial value of (m) is estimated. As shown in FIG. 10, the parameter initial value generation unit 222 collects the initial values of the generated parameters as parameters θ = { π (m) , A (m) , h} (m = 1, .., M) as initial values and transferred to the forward / backward algorithm unit 231.

次に、ステップ204で、フォワード・バックワードアルゴリズム部231が、m=1,・・・,Mについて、変数γ(t (m))及び変数ξ(t-1 (m)t (m))を求める。フォワード・バックワードアルゴリズム部231は、図10に示すように、求めた変数γ(t (m))及び変数ξ(t-1 (m)t (m))を、状態遷移確率更新部232及び基底スペクトル更新部2233へ受け渡す。 Next, in step 204, the forward / backward algorithm unit 231 performs the variable γ ( z t (m) ) and the variable ξ ( z t−1 (m) , m for m = 1,. Find z t (m) ). As shown in FIG. 10, the forward / backward algorithm unit 231 uses the obtained variable γ ( z t (m) ) and variable ξ ( z t−1 (m) , z t (m) ), The data is transferred to the state transition probability update unit 232 and the base spectrum update unit 2233.

次に、ステップ206で、状態遷移確率更新部232が、m=1,・・・,Mについて、パラメータπ(m)及び(m)をそれぞれ更新する。状態遷移確率更新部232は、図10に示すように、パラメータπ(m)及び(m)(m=1,・・・,M)の更新値を収束判定部224へ受け渡す。 Next, in step 206, the state transition probability update unit 232 updates the parameters π (m) and A (m) for m = 1,. As shown in FIG. 10, the state transition probability update unit 232 delivers the updated values of the parameters π (m) and A (m) (m = 1,..., M) to the convergence determination unit 224.

次に、ステップ208で、基底スペクトル更新部2233が、丸め込み音声特徴量t (m)、変数γ(t (m))及び変数ξ(t-1 (m)t (m))を用いて、式(17)により、全ての言語の種類に共通の基底スペクトルを示すパラメータhの全ての要素を更新する。基底スペクトル更新部2233は、図10に示すように、パラメータhの更新値を収束判定部224へ受け渡す。 Next, in step 208, the base spectrum update unit 2233 causes the rounded speech feature value y t (m) , variable γ ( z t (m) ), and variable ξ ( z t−1 (m) , z. t (m) ) is used to update all elements of the parameter h indicating the base spectrum common to all language types according to equation (17). As shown in FIG. 10, the base spectrum update unit 2233 delivers the updated value of parameter h to the convergence determination unit 224.

なお、ステップ206とステップ208とは、処理順序を逆にしてもよい。   Note that the processing order of step 206 and step 208 may be reversed.

次に、ステップ211で、収束判定部224が、パラメータθ(m)={π(m)(m)h}を用いて、式(9)及び式(11)により変数α(T (m))を計算し、式(18)に示す尤度関数を計算し、尤度関数の値が収束したか否かを、例えば所定の条件を満たすか否かにより、判定する。尤度関数の値が収束していない場合、すなわち、所定の条件を満たしていない場合には、ステップ204へ戻る。この際に、収束判定部224は、図10に示すように、パラメータθの更新値をフォワード・バックワードアルゴリズム部231に受け渡す。一方、尤度関数の値が収束した場合、すなわち、所定の条件を満たした場合には、ステップ212へ移行する。この際、収束判定部224は、図10に示すように、パラメータθの更新値をパラメータ出力部224に受け渡す。 Next, in step 211, the convergence determination unit 224 uses the parameters θ (m) = { π (m) , A (m) , h} according to the expressions (9) and (11). The variable α ( z T (m) ) is calculated, the likelihood function shown in the equation (18) is calculated, and whether or not the value of the likelihood function has converged, for example, depending on whether or not a predetermined condition is satisfied. ,judge. When the value of the likelihood function has not converged, that is, when the predetermined condition is not satisfied, the process returns to step 204. At this time, the convergence determination unit 224 delivers the updated value of parameter θ to the forward / backward algorithm unit 231 as shown in FIG. On the other hand, if the likelihood function value has converged, that is, if a predetermined condition is satisfied, the routine proceeds to step 212. At this time, the convergence determination unit 224 delivers the updated value of parameter θ to the parameter output unit 224 as shown in FIG.

ステップ212では、パラメータ出力部225が、収束判定部224から受け渡されたパラメータθ={π(m)(m)h}(m=1,・・・,M)について、パラメータhを基底スペクト蓄積DB32に蓄積し、パラメータ{π(m)(m)}(m=1,・・・,M)を言語(m)遷移確率蓄積DB33mに蓄積し、図10に示すように、パラメータ格納部30へ受け渡して、学習処理を終了する。 In step 212, the parameter output unit 225 receives the parameter passed from the convergence determination unit 224 θ = { π (m) , A (m) , h} (m = 1,..., M) for accumulates parameter h in basal spectrum accumulation DB 32, stored in the parameter {→ π (m), → a (m)} (m = 1, ···, M) the language (m) transition probability storage DB33m Then, as shown in FIG. 10, the data is transferred to the parameter storage unit 30 and the learning process is terminated.

次に、図9に示す評価処理のステップ120で、音声特徴抽出部41が、入力された評価用音声信号から音声特徴量y't(t=1,・・・T)を抽出する。また、音声特徴抽出部41は、音声特徴量y'tの全ての要素を整数値に丸め込んだ丸め込み音声特徴量tを生成する。音声特徴抽出部41は、図10に示すように、生成した丸め込み音声特徴量tを尤度計算部242へ受け渡す。 Next, in step 120 of the evaluation process shown in FIG. 9, the speech feature extraction unit 41 extracts speech feature amounts y ′ t (t = 1,... T) from the input speech signal for evaluation. Also, the speech feature extraction unit 41 generates a rounded speech feature amount y t by rounding all elements of the speech feature amount y ′ t to an integer value. The speech feature extraction unit 41 passes the generated rounded speech feature amount y t to the likelihood calculation unit 242 as shown in FIG.

次に、ステップ122で、尤度計算部242が、言語の種類を示すインデックスに対応した変数mを1に設定する。次に、ステップ226で、尤度計算部242が、丸め込み音声特徴量tと、パラメータ格納部30に格納された基本スペクトル蓄積DB32に蓄積されたパラメータh、及び言語(m)遷移確率蓄積DB33mに蓄積されたパラメータ{π(1)(1)}とを用いて、評価用音声信号が示す言語の種類が言語(m)であることの尤もらしさを示す尤度Lを計算する。 Next, in step 122, the likelihood calculating unit 242 sets the variable m corresponding to the index indicating the language type to 1. Next, in step 226, the likelihood calculation unit 242 determines that the rounded speech feature value y t , the parameter stored in the basic spectrum storage DB 32 stored in the parameter storage unit 30 h, and the language (m) transition probability Using the parameters { π (1) , A (1) } stored in the storage DB 33m, the likelihood L indicating the likelihood that the language type indicated by the evaluation speech signal is the language (m) m is calculated.

以下、ステップ126〜130で、第1の実施の形態における評価処理と同様に処理して、言語評価結果を出力して、評価処理を終了する。   Thereafter, in steps 126 to 130, processing is performed in the same manner as the evaluation processing in the first embodiment, a language evaluation result is output, and the evaluation processing ends.

以上説明したように、第2の実施の形態に係る音声言語評価装置によれば、第1の実施の形態の効果に加え、1度の学習処理で複数の言語の種類を評価するためのパラメータを推定することができる。   As described above, according to the spoken language evaluation apparatus according to the second embodiment, in addition to the effects of the first embodiment, parameters for evaluating a plurality of language types in one learning process Can be estimated.

ここで、本発明の効果を説明するための評価結果の一例について説明する。   Here, an example of an evaluation result for explaining the effect of the present invention will be described.

まず、5種類の言語(英語、アメリカ英語、ドイツ語、スウェーデン語、フランス語)の音声信号に対する上記第1の実施の形態に係る音声言語評価装置10による評価について説明する。基底スペクトルの総数Kは、K=12とした。言語毎に4名の話者(男性2名、女性2名)による12発話を学習用音声信号として用いて、各言語(m)のパラメータθ(m)={π(m)(m)(m)}を学習した。なお、mは言語の種類を示すインデックスである。学習には用いていない他の4名の話者(男性2名、女性2名)による12発話を評価用音声信号として、各言語に対する尤度関数の値を計算した。図11に評価結果を示す。図11内の各グラフは、評価用音声信号の言語の種類に対応し、横軸の1〜5は言語の種類を示すインデックス、縦軸は尤度関数の値(対数尤度)である。図11に示すように、5種類の言語の分類であれば、比較的良好に言語の種類を分類することが可能である。 First, evaluation by the speech language evaluation apparatus 10 according to the first embodiment described above for speech signals in five languages (English, American English, German, Swedish, French) will be described. The total number K of base spectra was K = 12. Using 12 utterances by 4 speakers per language (2 males and 2 females) as learning speech signals, parameters for each language (m) θ (m) = { π (m) , I learned A (m) , h (m) }. Note that m is an index indicating the type of language. The value of the likelihood function for each language was calculated using 12 utterances by other 4 speakers (2 men and 2 women) not used for learning as evaluation speech signals. FIG. 11 shows the evaluation results. Each graph in FIG. 11 corresponds to the language type of the speech signal for evaluation, the horizontal axis 1 to 5 is an index indicating the language type, and the vertical axis is a likelihood function value (log likelihood). As shown in FIG. 11, if the classification of five types of languages is used, it is possible to classify the types of languages relatively well.

次に、13種類の言語(英語、アメリカ英語、ドイツ語、オランダ語、スウェーデン語、フランス語、スペイン語、イタリア語、ポルトガル語、ロシア語、ポーランド語、ギリシャ語、ヒンズー語)の音声信号に対する上記第1の実施の形態に係る音声言語評価装置10による評価について説明する。基底スペクトルの総数、パラメータの学習や評価方法など、言語の種類の数以外の条件は、上記の5種類の言語の場合と同様である。図12に評価結果を示す。図12に示すように、5種類の場合と比較すると分類精度は落ちるものの、言語によっては適切に分類することが可能である。   Next, the above-mentioned speech signals for 13 languages (English, American English, German, Dutch, Swedish, French, Spanish, Italian, Portuguese, Russian, Polish, Greek, Hindu) Evaluation by the spoken language evaluation device 10 according to the first exemplary embodiment will be described. Conditions other than the number of language types, such as the total number of base spectra, parameter learning, and evaluation methods, are the same as those for the above five languages. FIG. 12 shows the evaluation results. As shown in FIG. 12, although the classification accuracy is lower than in the case of five types, it can be classified appropriately depending on the language.

本発明に係る音声言語評価装置のような、時系列の音声信号の分析に基づいた多言語音声の分類は、直接的には言語識別技術の基盤となり、多言語音声認識の前処理としての応用が期待される。さらに多言語音声翻訳や字幕翻訳等を含むマルチモーダル処理へ展開することで、音声認識や音声合成といった音声工学分野にとどまらず、言語工学や認知科学などの様々な分野との融合へと発展しうる。一方、言語学的観点からは、文字言語を持たない多数の言語に対して、本手法により音素に近い要素の抽出が可能となり、それらの言語の記述及び言語系統の解明が期待できる。これによりサイエンスとしての音声言語学の発展とデータ駆動型手法による新たな言語科学の創出に寄与すると考えられる。   The classification of multilingual speech based on the analysis of time-series speech signals, such as the speech language evaluation apparatus according to the present invention, directly becomes the basis of language identification technology, and is applied as preprocessing for multilingual speech recognition. There is expected. Furthermore, by expanding to multimodal processing including multilingual speech translation and subtitle translation, it has been developed not only in speech engineering fields such as speech recognition and speech synthesis, but also in fusion with various fields such as language engineering and cognitive science. sell. On the other hand, from a linguistic point of view, elements similar to phonemes can be extracted by this method for many languages that do not have a character language, and the description of these languages and the elucidation of the language system can be expected. This will contribute to the development of spoken linguistics as a science and to the creation of new linguistic science using data-driven methods.

なお、上記の実施の形態では、学習部と評価部とを1つのコンピュータで構成する場合について説明したが、各々別のコンピュータで構成するようにしてもよい。学習部を構成するコンピュータは、本発明のパラメータ推定装置の一例であり、評価部を構成するコンピュータは、本発明の音声言語評価装置の一例である。   In the above-described embodiment, the case where the learning unit and the evaluation unit are configured by one computer has been described. However, the learning unit and the evaluation unit may be configured by separate computers. The computer constituting the learning unit is an example of the parameter estimation device of the present invention, and the computer constituting the evaluation unit is an example of the spoken language evaluation device of the present invention.

また、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications can be made without departing from the gist of the present invention.

例えば、上述の音声言語評価装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   For example, although the above-described spoken language evaluation apparatus has a computer system therein, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. .

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10、210 音声言語評価装置
20、220 学習部
21、221 学習部の音声特徴抽出部
22、222 パラメータ初期値生成部
23、223 パラメータ推定部
24、224 収束判定部
25 パラメータ出力部
30 パラメータ格納部
40、240 評価部
41 評価部の音声特徴抽出部
42、242 尤度計算部
43 言語評価結果出力部
225 パラメータ出力部
231 フォワード・バックワードアルゴリズム部
232 状態遷移確率更新部
233、2233 基底スペクトル更新部
10, 210 Spoken language evaluation device 20, 220 Learning unit 21, 221 Speech feature extraction unit 22, 222 of learning unit Parameter initial value generation unit 23, 223 Parameter estimation unit 24, 224 Convergence determination unit 25 Parameter output unit 30 Parameter storage unit 40, 240 Evaluation unit 41 Speech feature extraction unit 42, 242 Likelihood calculation unit 43 Language evaluation result output unit 225 Parameter output unit 231 Forward / backward algorithm unit 232 State transition probability update unit 233, 2233 Base spectrum update unit

Claims (12)

言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する抽出手段と、
言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号に対する非負値行列因子分解により抽出した複数の音素の各々に相当する複数の状態の基底スペクトルを示す第1パラメータ及び基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、前記抽出手段により抽出された評価用特徴情報とに基づいて、前記評価用音声信号が示す言語の種類が前記複数種類の各々であることの尤もらしさ示す尤度を計算する尤度計算手段と、
前記尤度計算手段により計算された尤度に基づいて、前記評価用音声信号が示す言語の種類を評価する評価手段と、
を含む音声言語評価装置。
Extraction means for extracting evaluation feature information from an evaluation speech signal whose language type is unknown;
For each plurality of kinds of languages type is known language, the first parameter and the base spectrum shows the basal spectrum of a plurality of states corresponding to each of a plurality of phonemes and extracted with non-negative matrix factorization for training speech signals The language type indicated by the evaluation speech signal is each of the plurality of types based on the model including the second parameter indicating the state transition probability of the input and the evaluation feature information extracted by the extraction unit. Likelihood calculating means for calculating likelihood indicating likelihood;
Evaluation means for evaluating the type of language indicated by the evaluation speech signal based on the likelihood calculated by the likelihood calculation means;
Spoken language evaluation device including
言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する抽出手段と、
学習用音声信号から学習用特徴情報として抽出されたメルスペクトルのスケールに応じた重み付け平均による更新則で学習され、かつ複数種類の言語に共通の複数の状態の基底スペクトルを示す第1パラメータと、言語の種類が既知である複数種類の言語それぞれについて、1時刻前の基底スペクトルに依存して遷移する基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、前記抽出手段により抽出された評価用特徴情報とに基づいて、前記評価用音声信号が示す言語の種類が前記複数種類の各々であることの尤もらしさ示す尤度を計算する尤度計算手段と、
前記尤度計算手段により計算された尤度に基づいて、前記評価用音声信号が示す言語の種類を評価する評価手段と、
を含む音声言語評価装置。
Extraction means for extracting evaluation feature information from an evaluation speech signal whose language type is unknown;
Learned by update rule from the training speech signals by weighted averaging in accordance with the scale of the Mel spectrum extracted as training feature information, and a first parameter indicating a basal spectrum common multiple states to a plurality of types of languages , for each of a plurality kinds of languages type of language is known, it is extracted by the model and the extraction means and a second parameter indicating a state transition probability of the base spectral transition depending on the underlying spectra of the immediately preceding time Likelihood calculating means for calculating likelihood indicating the likelihood that the language type indicated by the evaluation speech signal is each of the plurality of types based on the evaluation feature information;
Evaluation means for evaluating the type of language indicated by the evaluation speech signal based on the likelihood calculated by the likelihood calculation means;
Spoken language evaluation device including
言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号から学習用特徴情報を抽出する抽出手段と、
前記学習用音声信号に対する非負値行列因子分解により抽出した複数の音素の各々に相当する複数の状態の基底スペクトルを示す第1パラメータ及び基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルについて、前記複数種類の言語毎の前記第1パラメータ及び前記第2パラメータの初期値を生成する初期値生成手段と、
前記第1パラメータ及び前記第2パラメータの初期値、または現在の前記第1パラメータ及び前記第2パラメータの値と、前記抽出手段により抽出された学習用特徴情報とを用いた最適化により、前記複数種類の言語毎の前記第1パラメータ及び前記第2パラメータを推定する推定手段と、
前記推定手段の推定結果が所定の条件を満たした場合に、推定された前記第1パラメータ及び前記第2パラメータを出力し、前記推定結果が前記所定の条件を満たしていない場合に、前記推定手段により前記第1パラメータ及び前記第2パラメータの推定が行われるように制御する制御手段と、
を含むパラメータ推定装置。
For each of a plurality of types of languages whose language types are known, an extracting means for extracting learning feature information from the learning speech signal;
For a model including a first parameter indicating a base spectrum of a plurality of states corresponding to each of a plurality of phonemes extracted by non-negative matrix factorization for the learning speech signal and a second parameter indicating a state transition probability of the base spectrum, Initial value generating means for generating initial values of the first parameter and the second parameter for each of the plurality of types of languages;
By the optimization using the initial values of the first parameter and the second parameter, or the current values of the first parameter and the second parameter, and the learning feature information extracted by the extraction unit, the plurality of Estimating means for estimating the first parameter and the second parameter for each type of language;
When the estimation result of the estimation unit satisfies a predetermined condition, the estimated first parameter and the second parameter are output, and when the estimation result does not satisfy the predetermined condition, the estimation unit Control means for controlling the first parameter and the second parameter to be estimated by:
A parameter estimation apparatus including:
言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号から学習用特徴情報を抽出する抽出手段と、
前記学習用特徴情報として抽出されたメルスペクトルのスケールに応じた重み付け平均による更新則で学習され、かつ複数の状態の基底スペクトルを示す第1パラメータ及び1時刻前の基底スペクトルに依存して遷移する基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルについて、前記複数種類の言語に共通の前記第1パラメータ及び前記複数種類の言語毎の前記第2パラメータの初期値を生成する初期値生成手段と、
前記第1パラメータ及び前記第2パラメータの初期値、または現在の前記第1パラメータ及び前記第2パラメータの値と、前記抽出手段により抽出された学習用特徴情報とを用いた最適化により、前記複数種類の言語に共通の前記第1パラメータ及び前記複数種類の言語毎の前記第2パラメータを推定する推定手段と、
前記推定手段の推定結果が所定の条件を満たした場合に、推定された前記第1パラメータ及び前記第2パラメータを出力し、前記推定結果が前記所定の条件を満たしていない場合に、前記推定手段により前記第1パラメータ及び前記第2パラメータの推定が行われるように制御する制御手段と、
を含むパラメータ推定装置。
For each of a plurality of types of languages whose language types are known, an extracting means for extracting learning feature information from the learning speech signal;
The first parameter indicating the base spectrum of a plurality of states , which is learned by the update rule by weighted average corresponding to the scale of the mel spectrum extracted as the learning feature information , and the transition depending on the base spectrum one time ago Initial value generation for generating a first parameter common to the plurality of languages and an initial value of the second parameter for each of the plurality of languages for a model including a second parameter indicating a state transition probability of a base spectrum to be performed Means,
By the optimization using the initial values of the first parameter and the second parameter, or the current values of the first parameter and the second parameter, and the learning feature information extracted by the extraction unit, the plurality of Estimating means for estimating the first parameter common to types of languages and the second parameter for each of the plurality of types of languages;
When the estimation result of the estimation unit satisfies a predetermined condition, the estimated first parameter and the second parameter are output, and when the estimation result does not satisfy the predetermined condition, the estimation unit Control means for controlling the first parameter and the second parameter to be estimated by:
A parameter estimation apparatus including:
前記推定手段は、フォワード・バックワードアルゴリズムを用いて、前記モデルにおいて、各時刻で選択される基底スペクトルに対応した潜在変数の事後分布を示す変数γ、及び2つの連続した潜在変数に対する同時事後分布を示す変数ξを求め、変数γ及び変数ξを用いて、前記第1パラメータ及び前記第2パラメータの期待値が最大となるように、前記第1パラメータ及び前記第2パラメータを更新する請求項3または請求項4記載のパラメータ推定装置。   The estimation means uses a forward-backward algorithm, and in the model, a variable γ indicating a posterior distribution of latent variables corresponding to a base spectrum selected at each time, and a simultaneous posterior distribution for two consecutive latent variables The variable ξ indicating the first parameter and the second parameter are updated using the variable γ and the variable ξ so that the expected values of the first parameter and the second parameter are maximized. Or the parameter estimation apparatus of Claim 4. 抽出手段と、尤度計算手段と、評価手段とを含む音声言語評価装置における音声言語評価方法であって、
前記抽出手段が、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出し、
前記尤度計算手段が、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号に対する非負値行列因子分解により抽出した複数の音素の各々に相当する複数の状態の基底スペクトルを示す第1パラメータ及び基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、前記抽出手段により抽出された評価用特徴情報とに基づいて、前記評価用音声信号が示す言語の種類が前記複数種類の各々であることの尤もらしさ示す尤度を計算し、
前記評価手段が、前記尤度計算手段により計算された尤度に基づいて、前記評価用音声信号が示す言語の種類を評価する
音声言語評価方法。
A spoken language evaluation method in a spoken language evaluation apparatus including an extraction unit, a likelihood calculation unit, and an evaluation unit,
The extraction means extracts evaluation feature information from an evaluation speech signal whose language type is unknown,
The likelihood calculating means, with a plurality kinds of languages type of language is known, the base spectrum of a plurality of states corresponding to each of a plurality of phonemes and extracted with non-negative matrix factorization for training speech signals A plurality of types of languages indicated by the evaluation speech signal based on a model including a first parameter to be indicated and a second parameter indicating a state transition probability of a base spectrum and the evaluation feature information extracted by the extraction unit; Calculate the likelihood that each of the types is likely,
The speech language evaluation method, wherein the evaluation unit evaluates a language type indicated by the evaluation speech signal based on the likelihood calculated by the likelihood calculation unit.
抽出手段と、尤度計算手段と、評価手段とを含む音声言語評価装置における音声言語評価方法であって、
前記抽出手段が、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出し、
前記尤度計算手段が、学習用音声信号から学習用特徴情報として抽出されたメルスペクトルのスケールに応じた重み付け平均による更新則で学習され、かつ複数種類の言語に共通の複数の状態の基底スペクトルを示す第1パラメータと、言語の種類が既知である複数種類の言語それぞれについて、1時刻前の基底スペクトルに依存して遷移する基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルと、前記抽出手段により抽出された評価用特徴情報とに基づいて、前記評価用音声信号が示す言語の種類が前記複数種類の各々であることの尤もらしさ示す尤度を計算し、
前記評価手段が、前記尤度計算手段により計算された尤度に基づいて、前記評価用音声信号が示す言語の種類を評価する
音声言語評価方法。
A spoken language evaluation method in a spoken language evaluation apparatus including an extraction unit, a likelihood calculation unit, and an evaluation unit,
The extraction means extracts evaluation feature information from an evaluation speech signal whose language type is unknown,
The likelihood calculation means is learned by an update rule based on a weighted average corresponding to the scale of the mel spectrum extracted as learning feature information from the learning speech signal, and is a base spectrum of a plurality of states common to a plurality of types of languages a first parameter indicating a, for each plurality of kinds of languages type of language is known, the model and a second parameter indicating a state transition probability of the base spectral transition depending on the underlying spectra of the immediately preceding time Then, based on the evaluation feature information extracted by the extraction unit, a likelihood indicating the likelihood that the language type indicated by the evaluation speech signal is each of the plurality of types is calculated,
The speech language evaluation method, wherein the evaluation unit evaluates a language type indicated by the evaluation speech signal based on the likelihood calculated by the likelihood calculation unit.
抽出手段と、初期値生成手段と、推定手段と、制御手段とを含むパラメータ推定装置におけるパラメータ推定方法であって、
前記抽出手段が、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号から学習用特徴情報を抽出し、
前記初期値生成手段が、前記学習用音声信号に対する非負値行列因子分解により抽出した複数の音素の各々に相当する複数の状態の基底スペクトルを示す第1パラメータ及び基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルについて、前記複数種類の言語毎の前記第1パラメータ及び前記第2パラメータの初期値を生成し、
前記推定手段が、前記第1パラメータ及び前記第2パラメータの初期値、または現在の前記第1パラメータ及び前記第2パラメータの値と、前記抽出手段により抽出された学習用特徴情報とを用いた最適化により、前記複数種類の言語毎の前記第1パラメータ及び前記第2パラメータを推定し、
前記制御手段が、前記推定手段の推定結果が所定の条件を満たした場合に、推定された前記第1パラメータ及び前記第2パラメータを出力し、前記推定結果が前記所定の条件を満たしていない場合に、前記推定手段により前記第1パラメータ及び前記第2パラメータの推定が行われるように制御する
パラメータ推定方法。
A parameter estimation method in a parameter estimation device including an extraction unit, an initial value generation unit, an estimation unit, and a control unit,
The extraction means extracts learning feature information from a learning speech signal for each of a plurality of types of languages whose language types are known;
A first parameter indicating a base spectrum of a plurality of states corresponding to each of a plurality of phonemes extracted by non-negative matrix factorization of the learning speech signal by the initial value generation means and a state transition probability of the base spectrum. For a model including two parameters , generating initial values of the first parameter and the second parameter for each of the plurality of types of languages,
The estimation means uses the initial values of the first parameter and the second parameter, or the current values of the first parameter and the second parameter, and the learning feature information extracted by the extraction means. To estimate the first parameter and the second parameter for each of the plurality of types of languages,
When the control means outputs the estimated first parameter and the second parameter when the estimation result of the estimation means satisfies a predetermined condition, and the estimation result does not satisfy the predetermined condition A parameter estimation method for controlling the first parameter and the second parameter to be estimated by the estimation means.
抽出手段と、初期値生成手段と、推定手段と、制御手段とを含むパラメータ推定装置におけるパラメータ推定方法であって、
前記抽出手段が、言語の種類が既知である複数種類の言語それぞれについて、学習用音声信号から学習用特徴情報を抽出し、
前記初期値生成手段が、前記学習用特徴情報として抽出されたメルスペクトルのスケールに応じた重み付け平均による更新則で学習され、かつ複数の状態の基底スペクトルを示す第1パラメータ及び1時刻前の基底スペクトルに依存して遷移する基底スペクトルの状態遷移確率を示す第2パラメータを含むモデルについて、前記複数種類の言語に共通の前記第1パラメータ及び前記複数種類の言語毎の前記第2パラメータの初期値を生成し、
前記推定手段が、前記第1パラメータ及び前記第2パラメータの初期値、または現在の前記第1パラメータ及び前記第2パラメータの値と、前記抽出手段により抽出された学習用特徴情報とを用いた最適化により、前記複数種類の言語に共通の前記第1パラメータ及び前記複数種類の言語毎の前記第2パラメータを推定し、
前記制御手段が、前記推定手段の推定結果が所定の条件を満たした場合に、推定された前記第1パラメータ及び前記第2パラメータを出力し、前記推定結果が前記所定の条件を満たしていない場合に、前記推定手段により前記第1パラメータ及び前記第2パラメータの推定が行われるように制御する
パラメータ推定方法。
A parameter estimation method in a parameter estimation device including an extraction unit, an initial value generation unit, an estimation unit, and a control unit,
The extraction means extracts learning feature information from a learning speech signal for each of a plurality of types of languages whose language types are known;
The initial value generation means is trained with an update rule based on a weighted average corresponding to the scale of the mel spectrum extracted as the learning feature information, and has a first parameter indicating a plurality of states of the base spectrum , and one time before For a model including a second parameter indicating a state transition probability of a base spectrum that changes depending on the base spectrum, the first parameter common to the plurality of languages and the initial value of the second parameter for each of the plurality of languages Generate a value,
The estimation means uses the initial values of the first parameter and the second parameter, or the current values of the first parameter and the second parameter, and the learning feature information extracted by the extraction means. By estimating, the first parameter common to the plurality of types of languages and the second parameter for each of the plurality of types of languages are estimated,
When the control means outputs the estimated first parameter and the second parameter when the estimation result of the estimation means satisfies a predetermined condition, and the estimation result does not satisfy the predetermined condition A parameter estimation method for controlling the first parameter and the second parameter to be estimated by the estimation means.
前記推定手段が、フォワード・バックワードアルゴリズムを用いて、前記モデルにおいて、各時刻で選択される基底スペクトルに対応した潜在変数の事後分布を示す変数γ、及び2つの連続した潜在変数に対する同時事後分布を示す変数ξを求め、変数γ及び変数ξを用いて、前記第1パラメータ及び前記第2パラメータの期待値が最大となるように、前記第1パラメータ及び前記第2パラメータを更新する請求項8または請求項9記載のパラメータ推定方法。   The estimation means uses a forward-backward algorithm in the model, a variable γ indicating a posterior distribution of latent variables corresponding to a base spectrum selected at each time, and a simultaneous posterior distribution for two consecutive latent variables The first parameter and the second parameter are updated so that the expected values of the first parameter and the second parameter are maximized using the variable γ and the variable ξ. Or the parameter estimation method of Claim 9. コンピュータを、請求項1または請求項2記載の音声言語評価装置を構成する各手段として機能させるための音声言語評価プログラム。   A spoken language evaluation program for causing a computer to function as each means constituting the spoken language evaluation device according to claim 1. コンピュータを、請求項3〜請求項5のいずれか1項記載のパラメータ推定装置を構成する各手段として機能させるためのパラメータ推定プログラム。   The parameter estimation program for functioning a computer as each means which comprises the parameter estimation apparatus of any one of Claims 3-5.
JP2013036258A 2013-02-26 2013-02-26 Spoken language evaluation device, parameter estimation device, method, and program Active JP6057170B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013036258A JP6057170B2 (en) 2013-02-26 2013-02-26 Spoken language evaluation device, parameter estimation device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013036258A JP6057170B2 (en) 2013-02-26 2013-02-26 Spoken language evaluation device, parameter estimation device, method, and program

Publications (2)

Publication Number Publication Date
JP2014164187A JP2014164187A (en) 2014-09-08
JP6057170B2 true JP6057170B2 (en) 2017-01-11

Family

ID=51614821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013036258A Active JP6057170B2 (en) 2013-02-26 2013-02-26 Spoken language evaluation device, parameter estimation device, method, and program

Country Status (1)

Country Link
JP (1) JP6057170B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3531198B2 (en) * 1994-02-18 2004-05-24 松下電器産業株式会社 Language identification device
JP2004347732A (en) * 2003-05-20 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> Automatic language identification method and system
JP5544575B2 (en) * 2011-09-12 2014-07-09 日本電信電話株式会社 Spoken language evaluation apparatus, method, and program

Also Published As

Publication number Publication date
JP2014164187A (en) 2014-09-08

Similar Documents

Publication Publication Date Title
US10460721B2 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
JP6444530B2 (en) Spoken language understanding system
US10360898B2 (en) Method and system for predicting speech recognition performance using accuracy scores
US8548808B2 (en) Speech understanding apparatus using multiple language models and multiple language understanding models
CN106297800B (en) Self-adaptive voice recognition method and equipment
CN108538285B (en) Multi-instance keyword detection method based on multitask neural network
US20120221339A1 (en) Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis
JP5982297B2 (en) Speech recognition device, acoustic model learning device, method and program thereof
US8494847B2 (en) Weighting factor learning system and audio recognition system
JP5752060B2 (en) Information processing apparatus, large vocabulary continuous speech recognition method and program
JP6884946B2 (en) Acoustic model learning device and computer program for it
CN106340297A (en) Speech recognition method and system based on cloud computing and confidence calculation
JP2014164126A (en) Acoustic signal analysis method, device, and program
US20150169553A1 (en) Log-linear Dialog Manager
JP4861912B2 (en) Probability calculation apparatus and computer program for incorporating knowledge sources
JP2013117683A (en) Voice recognizer, error tendency learning method and program
JP5885210B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP2938866B1 (en) Statistical language model generation device and speech recognition device
JP4612435B2 (en) Acoustic model learning device and speech recognition device
JP6057170B2 (en) Spoken language evaluation device, parameter estimation device, method, and program
CN112908359A (en) Voice evaluation method and device, electronic equipment and computer readable medium
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis
Rasipuram et al. Probabilistic lexical modeling and unsupervised training for zero-resourced ASR
JP5318042B2 (en) Signal analysis apparatus, signal analysis method, and signal analysis program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161124

R150 Certificate of patent or registration of utility model

Ref document number: 6057170

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250