JP6389776B2

JP6389776B2 - 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム

Info

Publication number: JP6389776B2
Application number: JP2015032887A
Authority: JP
Inventors: 亮増村; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-02-23
Filing date: 2015-02-23
Publication date: 2018-09-12
Anticipated expiration: 2035-02-23
Also published as: JP2016156870A

Description

この発明は、入力発話がどの言語で話されたものかを識別する言語識別技術に関する。

グローバル社会の進展に伴い、音声認識技術では複数の言語の入力を許容する必要性が増している。そこで、入力された音声の言語がどの言語なのか（例えば、英語、日本語、中国語のいずれなのか）を識別する言語識別技術の高度化が求められている。

言語識別技術では、あらかじめ各言語の言語らしさを統計的に捉えておくことで、入力された発話がどの言語に一番近いかを計算して識別を行う枠組みが一般的である。具体的には、音声データと言語ラベル（「この音声は日本語で話されている」といった情報）の組を大量に準備して、各言語の言語らしさを捉えることで言語識別器を構築する。

従来の言語識別技術として、非特許文献１に記載の方法が挙げられる。非特許文献１では、ディープニューラルネットワークと呼ばれる統計モデルを利用して言語識別を実現している。具体的には、ニューラルネットワークを利用して、数ミリ秒程度のフレーム単位で言語らしさを統計的に捉える。ニューラルネットワークは、例えば、言語ラベルの可能性が３言語（日本語、英語、中国語）とした場合に、ある音声幅（例えば、25ミリ秒）のフレーム単位で統計モデルを学習しておき、任意のフレームが入力された際に上記の３言語のいずれに当たるかを表す確率値を算出する。なお、ディープニューラルネットワークの学習方法は、公知の技術である。

学習済みのニューラルネットワークを利用して言語識別を行う際は、どの言語で話されたかが未知である入力音声に対して、ニューラルネットワークの学習で利用した音声幅のフレーム単位に入力音声を分割し、各フレームについてどの言語で話されたかの確率値を算出する。その後、その確率値を全てのフレームで平均化し、平均値が最も高い言語に識別する。例えば、入力音声が３秒で、１フレームの長さを25ミリ秒と定義すると、入力音声には120フレームが存在することとなる。このとき、120フレーム中の最初のフレームを学習済みのディープニューラルネットワークに入力すると、例えば、「英語である確率が0.5、日本語である確率が0.3、中国語である確率が0.2」といった確率値が出力される。このような処理を残り119フレームすべてに対しても同様に求めた後、言語ごと（例えば、英語ごと、日本語ごと、中国語ごと）に確率値の平均値を算出する。すなわち、１フレーム目から120フレーム目までのすべての英語（もしくは、日本語、中国語）である確率値を加算し、フレーム数の120で除算する。このような処理を行った結果、例えば、英語である確率の平均値が0.7、日本語である確率の平均値が0.1、中国語である確率の平均値が0.2であったとする。この場合、言語識別器は、入力音声の言語は確率の平均値が最大の言語である英語であったと識別する。

全フレームの確率値を平均化することでどの言語で話されたかの確率値を求めているのは、各フレームレベルではその言語と特定できるだけの十分な情報がないことに起因している。いかにニューラルネットワークが緻密なモデリングを可能にするとしても、数ミリ秒程度の音声から完全に言語を特定できるだけのモデリングは不可能である。具体的には、ある英語の音声について各フレーム単位で確率値を算出した場合に、１フレーム目に対しては英語である確率が高いが、２フレーム目は英語である確率が低いと判断される場合が十分にある。従来手法では、この課題に対し全体を平均化してみることで解決を図っており、ある程度の精度で言語識別が実現できている。

Javier Gonzalez-Dominguez, Ignacio Lopez-Moreno, Pedro J. Moreno, Joaquin Gonzalez-Rodriguez, "Frame by Frame Language Identification in Short Utterances using Deep Neural Networks", Neural Networks Special Issue: Neural Network Learning in Big Data, 2014.

非特許文献１の枠組みは、フレームレベルの識別能力の低さを全フレームの確率値を平均化してみることで解決している。しかしながら、全体を平均化してしまうと、系列全体としての変化をうまく捉えることができなくなる。例えば、ある英語の音声を言語識別器にかけると、４フレーム中３フレームは英語の確率が高いと出てくるが、４フレーム中１フレームは日本語の確率が高いと出てくる場合がある。このような現象が実際にあったとしても全体を平均化して捉えてしまうと、「英語の音声はこのような現象が起こりやすい」といった知見を活かすことができなくなってしまう。

この問題が識別誤りにつながることをより具体的な例を挙げて説明する。例えば、ある英語の音声のフレームごとの識別確率が、１〜３フレーム目は「P(英語)=0.5、P(日本語)=0.4、P(中国語)=0.1」であり、４フレーム目は「P(英語)=0.1、P(日本語)=0.8、P(中国語)=0.1」であったと想定する。ここで、P(＊)は、そのフレームが言語＊である確率値を表している。この系列を平均値として捉えると、その確率は「P(英語)=0.4、P(日本語)=0.5、p(中国語)=0.1」となる。英語よりも日本語の方が高い確率となるため、実際には英語の音声であっても日本語に識別されてしまう識別誤りを起こしてしまう。このようにフレームレベルでは言語らしさをうまく捉えられないことは多く、平均化するだけでは言語識別のための緻密さに欠ける。

すなわち、非特許文献１に記載の従来技術の問題点は、系列としての言語らしさの変動に関する情報を含まない平均値という情報で言語らしさを捉えていることによる、言語識別の緻密さの欠落と言える。

この発明の目的は、このような点に鑑みて、フレームレベルの言語らしさの系列情報を利用して、より高精度な言語識別を実現することである。

上記の課題を解決するために、この発明の第一の態様の言語識別モデル学習装置は、複数の言語による音声データと各音声データの言語を表す言語ラベルとを組とした複数の学習データを記憶する学習データ記憶部と、学習データを用いて、音声データを入力とし、言語ラベルの事後確率分布を離散化した離散記号系列を出力する離散記号系列変換モデルを学習する変換モデル学習部と、離散記号系列変換モデルを用いて、学習データの音声データを離散記号系列に変換する離散記号系列変換部と、学習データの離散記号系列および言語ラベルを用いて、音声データの離散記号系列を入力とし、言語ラベルごとの生成確率を出力する言語識別モデルを学習する言語識別モデル学習部と、を含む。

この発明の第二の態様の言語識別装置は、言語識別モデル学習装置により生成した離散記号系列変換モデルを記憶した変換モデル記憶部と、言語識別モデル学習装置により生成した言語識別モデルを記憶した言語識別モデル記憶部と、離散記号系列変換モデルを用いて、入力音声データを離散記号系列に変換する離散記号系列変換部と、言語識別モデルを用いて、入力音声データの離散記号系列から言語ラベルごとの生成確率を求め、最大の生成確率を与える言語ラベルを出力する言語識別部と、を含む。

この発明の言語識別技術は、ニューラルネットワークによって捉えたフレームレベルの言語らしさの系列情報を言語ごとにモデル化し、その言語識別モデルを用いて入力音声の言語識別を実施する。したがって、この発明によれば、言語らしさの平均基準で言語識別を実施する場合と比較して、高精度な言語識別を実現することができる。

図１は、言語識別モデル学習装置の機能構成を例示する図である。図２は、変換モデル学習部の機能構成を例示する図である。図３は、言語識別モデル学習部の機能構成を例示する図である。図４は、言語識別モデル学習方法の処理フローを例示する図である。図５は、言語識別装置の機能構成を例示する図である。図６は、言語識別方法の処理フローを例示する図である。

実施形態の説明に先立って、この発明の基本的な考え方を説明する。

この発明では、フレームレベルの言語らしさを離散化して捉える。フレームごとの言語らしさの情報は、例えば「P(英語)=0.5、P(日本語)=0.4、P(中国語)=0.1」といった情報である。このような連続表現を系列として捉えることは非常に複雑である。一方で、離散化された情報であれば系列を捉えやすい。そこで、フレームごとの言語らしさの情報を離散化した上で、音声データ全体を離散記号系列に変換する。フレームごとの言語らしさの情報は、言語ごとの確率値を要素とするベクトルと考えることができる。つまり、このベクトル空間を何らかの基準で分割し、空間ごとにクラスタ番号を定めておくことにより、言語らしさの情報を離散記号化できる。例えば、１〜３フレーム目の言語らしさ（例えば、「P(英語)=0.5、P(日本語)=0.4、P(中国語)=0.1」）がクラスタ番号10となり、４フレーム目の言語らしさ（例えば、「P(英語)=0.1、P(日本語)=0.8、P(中国語)=0.1」）がクラスタ番号３となった場合、この音声の離散記号系列は「10,10,10,3」と表すことができる。

離散記号系列は、既存の記号系列のモデリング技術を使って、言語ごと（上記の例では、英語ごと、日本語ごと、中国語ごと）にモデル化する。記号系列のモデリングには、言語モデルと呼ばれる公知技術を利用できる。例えば、Nグラムモデルという言語モデルを利用すれば、N個組の記号系列の生成確率を直接モデル化できる。

識別時には、入力音声データを離散記号系列に変換し、学習したモデルを利用して離散記号系列から各言語の生成確率を求め、最大の生成確率を与える言語に識別する。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

実施形態では、学習データを用いて離散記号系列変換モデルおよび言語識別モデルを学習する言語識別モデル学習装置および方法と、学習した離散記号系列変換モデルおよび言語識別モデルを用いて音声データの言語識別を行う言語識別装置および方法を説明する。

＜言語識別モデル学習＞
実施形態の言語識別モデル学習装置は、図１に示すように、学習データ記憶部１、変換モデル学習部２、変換モデル記憶部３、離散記号系列変換部４、言語識別モデル学習部５、および言語識別モデル記憶部６を例えば含む。変換モデル学習部２は、図２に示すように、ニューラルネットワーク学習部２１およびセントロイド生成部２２を例えば含む。言語識別モデル学習部５は、図３に示すように、学習データ分割部５１およびモデル学習部５２を例えば含む。

言語識別モデル学習装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。言語識別モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。言語識別モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、言語識別モデル学習装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

言語識別モデル学習装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。言語モデル作成装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

学習データ記憶部１には、K（≧2）個の学習データが記憶されている。学習データは、T（≧2）種類の言語で話された発話を収録した音声データと、各音声データがどの言語で話されたのかを表す言語ラベルとの組である。

図４を参照して、実施形態の言語識別モデル学習方法の処理手続きを説明する。

ステップＳ１１〜１２において、変換モデル学習部２は、学習データ記憶部１に記憶されたK個の学習データを用いて、音声データを離散記号系列に変換する離散記号系列変換モデルを学習する。離散記号系列変換モデルは、変換モデル記憶部３へ記憶される。離散記号系列は、フレームごとの言語らしさを表す事後確率分布を離散化した系列である。離散記号系列変換モデルは、フレームごとの音声データから事後確率分布を求めるニューラルネットワークと、事後確率分布をクラスタリングしたときの各クラスタのセントロイドとからなる。変換モデル学習部２は、従来技術と同様に、学習データからフレームレベルのニューラルネットワークを学習し、それを利用して各学習データを事後確率分布の系列に変換する。その後、全データの全フレームを効率的に離散化するために、学習データの事後確率分布をK-meansクラスタリングによりM（≧2）個のクラスタに分類し、各クラスタのセントロイドを学習する。以下、変換モデル学習部２の処理をより詳細に説明する。

ステップＳ１１において、ニューラルネットワーク学習部２１は、学習データ記憶部１に記憶されたK個の学習データからニューラルネットワークを学習する。このニューラルネットワークは、従来技術で用いられるものと同様に、フレームの音声データに対する特徴量を入力とし、その音声データの発話がどの言語によるものであるかを示す事後確率分布を出力する。フレーム長は数ミリ秒であり、例えば従来技術と同様に25ミリ秒とする。フレームの音声データに対する特徴量は、公知のメル周波数ケプストラム係数（MFCC: Mel Frequency Cepstral Coefficient）等、任意の特徴量を利用することができる。

このニューラルネットワークは、学習データ内に含まれる言語ラベルの種類数Tの値が出力層の大きさとなる。例えば、K個の音声データに付与された言語ラベルの種類が「日本語」「英語」「中国語」の３種類であれば、T=3であり、出力層の大きさは３となる。学習データの総数Kの値は、３言語識別であればそれぞれの言語の音声データが10,000個として、K=30,000となる。ニューラルネットワークの層の数や形状などは任意の形態をとることができる。例えば、中間層の数が８であり、各層のノード数が2,048であるニューラルネットワークなどを利用できる。なお、ニューラルネットワークの学習方法については、上記非特許文献１などを参考にされたい。

ステップＳ１２において、セントロイド生成部２２は、ニューラルネットワーク学習部２１で学習したニューラルネットワークを用いて、K個の学習データの各フレームを事後確率分布に変換し、K個の事後確率分布の系列を得る。各事後確率分布は、上述のような３言語識別であれば、３次元のベクトルとして得られる。続いて、セントロイド生成部２２は、事後確率分布（ベクトル）を離散記号化するためにクラスタリングを行う。クラスタリング時のクラスタ数Mの値は人手で与える。例えば、Mは64や128を与える。クラスタリング手法は、公知のK-meansクラスタリングを利用することができる。K-meansクラスタリングを行うと、各クラスタのセントロイドのベクトルを得ることができる。なお、セントロイドは事後確率分布と同様にベクトルとして表される。各セントロイドにはインデクス（識別記号）を付与しておく。例えば、１つ目のセントロイドには識別記号「1」を与え、２つ目のセントロイドには識別記号「2」を与える。

ステップＳ１３において、離散記号系列変換部４は、変換モデル学習部２で学習した離散記号系列変換モデルを用いて、学習データの音声データを離散記号系列に変換する。具体的には、ニューラルネットワークを用いて、K個の学習データの各フレームを事後確率分布（ベクトル）に変換し、フレームごとに事後確率分布とM個のセントロイドそれぞれとのユークリッド距離を測り、最も近いクラスタの識別記号に変換する。例えば、ある音声のフレーム数が５であった場合は、５個のフレームに対してそれぞれ事後確率分布を得て、上述の方法で離散化する。例えば、１番目のフレームが識別記号「1」、２〜３番目のフレームが識別記号「5」、４番目のフレームが識別記号「2」、５番目のフレームが識別記号「3」にそれぞれ変換されたとすると、結果として「1, 5, 5, 2, 3」の離散記号系列に変換される。これをK個の学習データすべてに対して実施し、すべての学習データを離散記号系列に変換する。

ステップＳ１４〜１５において、言語識別モデル学習部５は、離散記号系列変換部４で学習データから変換された離散記号系列と、学習データ記憶部１に記憶された学習データの言語ラベルとを用いて、言語識別モデルを学習する。言語識別モデルは、言語識別モデル記憶部６へ記憶される。言語識別モデルは、言語ラベルごとに学習されたT個の離散記号系列モデルから構成される。以下、言語識別モデル学習部５の処理手続きをより詳細に説明する。

ステップＳ１４において、データ分割部５１は、学習データの離散記号系列を言語ラベルごとに分割する。K個の学習データはそれぞれ言語ラベルを持っているので、それぞれ同じ言語ラベルを持つ集合に分割する。つまり、言語ラベルの種類数Tと同数の学習データの集合ができる。例えば、言語ラベルの種類が「日本語」「英語」「中国語」の３種類であれば、３個の学習データの集合に分割することができる。

ステップＳ１５において、モデル学習部５２は、言語ラベルごとに分割した学習データを用いて、言語ラベルごとに離散記号系列モデルを学習し、各言語の離散記号系列モデルを集約して言語識別モデルを出力する。離散記号系列のモデリングは言語モデルと呼ばれる技術を利用できる。任意の言語モデルを利用して離散記号系列をモデル化できるが、例えば、Nグラムモデルと呼ばれる公知の言語モデルが利用できる。Nグラムモデルでは、N個組の離散記号系列の生成確率を直接モデル化できる。Nグラムモデルを学習すると、例えば「離散記号系列が“1,2”と続いた後に、“3”が続く確率は0.3、“1”が続く確率は0.2」といった記号の並び方の生成確率を求めることができる。そして、学習したNグラムモデルを利用することで、任意の離散記号系列に対して生成確率を求めることが可能となる。モデル学習部５２は、言語ごとに学習したT個の離散記号系列モデルを集約して言語識別モデルを生成し、言語識別モデル記憶部６へ記憶する。

＜言語識別＞
実施形態の言語識別装置は、図５に示すように、変換モデル記憶部３、離散記号系列変換部４、言語識別モデル記憶部６、および言語識別部７を例えば含む。変換モデル記憶部３、離散記号系列変換部４、および言語識別モデル記憶部６は、言語識別モデル学習装置が備える各構成部と同じものである。変換モデル記憶部３には、言語識別モデル学習装置により生成された離散記号系列変換モデルが記憶されている。言語識別モデル記憶部６は、言語識別モデル学習装置により生成された言語識別モデルが記憶されている。

言語識別装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。言語識別装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。言語識別装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、言語識別装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

図６を参照して、実施形態の言語識別方法の処理手続きを説明する。

ステップＳ２１において、離散記号系列変換部４は、変換モデル記憶部３に記憶された離散記号系列変換モデルを用いて、入力音声データを離散記号系列に変換する。離散記号系列変換部４の処理は、上述のステップＳ１３と同様である。

ステップＳ２２において、言語識別部７は、言語識別モデル記憶部６に記憶された言語識別モデルを用いて、離散記号系列変換部４で得られた入力音声データの離散記号系列から、その入力音声データの言語を表す言語ラベルを求める。具体的には、言語識別モデルを構成する言語ラベルごとの離散記号系列モデルを利用して、言語ラベルごとに言語らしさの確率値を算出する。各言語ラベルの離散記号系列モデルは言語モデルとして表されているので、上述の通り任意の記号系列に対して生成確率を求めることが可能である。したがって、離散記号系列に変換した入力音声データに対して言語ラベルの生成確率を算出することが可能である。言語識別は言語ラベルごとに生成確率を求めた後に、最大の確率値を与える言語ラベルを出力することで実現できる。例えば「日本語」「英語」「中国語」の離散記号系列モデルがあった場合、各言語の生成確率が「P(日本語)=0.05、P(英語)=0.02、P(中国語)=0.0001」であったとした場合、最大を与える言語ラベルは「日本語」であるので、言語ラベルとして「日本語」を出力する。

この発明の言語識別技術は、上記のように構成することにより、ニューラルネットワークによって捉えたフレームレベルの言語らしさの系列情報を陽に活かした言語識別を実現できる。これにより、言語らしさの平均基準で言語識別を実施する従来技術と比較して、言語識別の性能を向上することができる。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１学習データ記憶部
２変換モデル学習部
２１ニューラルネットワーク学習部
２２セントロイド生成部
３変換モデル記憶部
４離散記号系列変換部
５言語識別モデル学習部
５１学習データ分割部
５２モデル学習部
６言語識別モデル記憶部

Claims

音声データを入力とし、当該音声データの言語らしさの情報を出力するように学習された系列変換モデルを用いて、入力音声データをフレームごとに当該入力音声データの言語らしさの情報に変換することで、当該入力音声データの言語らしさの系列情報を出力する系列変換部と、
音声データの言語らしさの系列情報を入力とし、当該音声データの言語ラベルごとの生成確率を出力するように学習された言語識別モデルを用いて、上記入力音声データの言語らしさの系列情報を当該入力音声データの言語ラベルごとの生成確率に変換した結果に基づき、当該入力音声データの言語を表す言語ラベルを出力する言語識別部と、
を含む言語識別装置。
請求項１に記載の言語識別装置であって、
上記系列変換部は、上記入力音声データをフレームごとに上記系列変換モデルにより当該入力音声データの当該フレームに対応する言語ラベルの事後確率分布を離散化した離散記号に変換するものであり、
上記入力音声データの言語らしさの系列情報は、上記系列変換部で得られたフレームごとの離散記号を時系列に並べたものである、
言語識別装置。
請求項２に記載の言語識別装置であって、
上記系列変換部は、学習用に与えられた複数の音声データについて、各音声データを上記系列変換モデルにより変換して得た言語ラベルの事後確率分布を複数のクラスタにクラスタリングしたときの各クラスタのセントロイドと、上記入力音声データに対応する言語ラベルの事後確率分布との距離に基づいて、当該距離が近いクラスタを特定する離散記号を、当該入力音声データに対応する言語ラベルの事後確率分布に対応する離散記号として求めるものである、
言語識別装置。
複数の言語による音声データと各音声データの言語を表す言語ラベルとを組とした複数の学習データを記憶する学習データ記憶部と、
上記学習データを用いて、音声データを入力とし、当該音声データの言語らしさの情報を出力する系列変換モデルを学習する変換モデル学習部と、
上記系列変換モデルを用いて、上記学習データの音声データをフレームごとに当該音声データの言語らしさの情報に変換することで、当該音声データの言語らしさの系列情報に変換する系列変換部と、
上記学習データの音声データの言語らしさの系列情報および当該音声データに対応する言語ラベルを用いて、音声データの言語らしさの系列情報を入力とし、当該音声データの言語ラベルごとの生成確率を出力する言語識別モデルを学習する言語識別モデル学習部と、
を含む言語識別モデル学習装置。
系列変換部が、音声データを入力とし、当該音声データの言語らしさの情報を出力するように学習された系列変換モデルを用いて、入力音声データをフレームごとに当該入力音声データの言語らしさの情報に変換することで、当該入力音声データの言語らしさの系列情報を出力する系列変換ステップと、
言語識別部が、音声データの言語らしさの系列情報を入力とし、当該音声データの言語ラベルごとの生成確率を出力するように学習された言語識別モデルを用いて、上記入力音声データの言語らしさの系列情報を当該入力音声データの言語ラベルごとの生成確率に変換した結果に基づき、当該入力音声データの言語を表す言語ラベルを出力する言語識別ステップと、
を含む言語識別方法。
請求項１から３のいずれかに記載の言語識別装置もしくは請求項４に記載の言語識別モデル学習装置としてコンピュータを機能させるためのプログラム。