JP6389776B2 - 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム - Google Patents

言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム Download PDF

Info

Publication number
JP6389776B2
JP6389776B2 JP2015032887A JP2015032887A JP6389776B2 JP 6389776 B2 JP6389776 B2 JP 6389776B2 JP 2015032887 A JP2015032887 A JP 2015032887A JP 2015032887 A JP2015032887 A JP 2015032887A JP 6389776 B2 JP6389776 B2 JP 6389776B2
Authority
JP
Japan
Prior art keywords
language
data
input
language identification
speech data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015032887A
Other languages
English (en)
Other versions
JP2016156870A (ja
Inventor
亮 増村
亮 増村
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015032887A priority Critical patent/JP6389776B2/ja
Publication of JP2016156870A publication Critical patent/JP2016156870A/ja
Application granted granted Critical
Publication of JP6389776B2 publication Critical patent/JP6389776B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、入力発話がどの言語で話されたものかを識別する言語識別技術に関する。
グローバル社会の進展に伴い、音声認識技術では複数の言語の入力を許容する必要性が増している。そこで、入力された音声の言語がどの言語なのか(例えば、英語、日本語、中国語のいずれなのか)を識別する言語識別技術の高度化が求められている。
言語識別技術では、あらかじめ各言語の言語らしさを統計的に捉えておくことで、入力された発話がどの言語に一番近いかを計算して識別を行う枠組みが一般的である。具体的には、音声データと言語ラベル(「この音声は日本語で話されている」といった情報)の組を大量に準備して、各言語の言語らしさを捉えることで言語識別器を構築する。
従来の言語識別技術として、非特許文献1に記載の方法が挙げられる。非特許文献1では、ディープニューラルネットワークと呼ばれる統計モデルを利用して言語識別を実現している。具体的には、ニューラルネットワークを利用して、数ミリ秒程度のフレーム単位で言語らしさを統計的に捉える。ニューラルネットワークは、例えば、言語ラベルの可能性が3言語(日本語、英語、中国語)とした場合に、ある音声幅(例えば、25ミリ秒)のフレーム単位で統計モデルを学習しておき、任意のフレームが入力された際に上記の3言語のいずれに当たるかを表す確率値を算出する。なお、ディープニューラルネットワークの学習方法は、公知の技術である。
学習済みのニューラルネットワークを利用して言語識別を行う際は、どの言語で話されたかが未知である入力音声に対して、ニューラルネットワークの学習で利用した音声幅のフレーム単位に入力音声を分割し、各フレームについてどの言語で話されたかの確率値を算出する。その後、その確率値を全てのフレームで平均化し、平均値が最も高い言語に識別する。例えば、入力音声が3秒で、1フレームの長さを25ミリ秒と定義すると、入力音声には120フレームが存在することとなる。このとき、120フレーム中の最初のフレームを学習済みのディープニューラルネットワークに入力すると、例えば、「英語である確率が0.5、日本語である確率が0.3、中国語である確率が0.2」といった確率値が出力される。このような処理を残り119フレームすべてに対しても同様に求めた後、言語ごと(例えば、英語ごと、日本語ごと、中国語ごと)に確率値の平均値を算出する。すなわち、1フレーム目から120フレーム目までのすべての英語(もしくは、日本語、中国語)である確率値を加算し、フレーム数の120で除算する。このような処理を行った結果、例えば、英語である確率の平均値が0.7、日本語である確率の平均値が0.1、中国語である確率の平均値が0.2であったとする。この場合、言語識別器は、入力音声の言語は確率の平均値が最大の言語である英語であったと識別する。
全フレームの確率値を平均化することでどの言語で話されたかの確率値を求めているのは、各フレームレベルではその言語と特定できるだけの十分な情報がないことに起因している。いかにニューラルネットワークが緻密なモデリングを可能にするとしても、数ミリ秒程度の音声から完全に言語を特定できるだけのモデリングは不可能である。具体的には、ある英語の音声について各フレーム単位で確率値を算出した場合に、1フレーム目に対しては英語である確率が高いが、2フレーム目は英語である確率が低いと判断される場合が十分にある。従来手法では、この課題に対し全体を平均化してみることで解決を図っており、ある程度の精度で言語識別が実現できている。
Javier Gonzalez-Dominguez, Ignacio Lopez-Moreno, Pedro J. Moreno, Joaquin Gonzalez-Rodriguez, "Frame by Frame Language Identification in Short Utterances using Deep Neural Networks", Neural Networks Special Issue: Neural Network Learning in Big Data, 2014.
非特許文献1の枠組みは、フレームレベルの識別能力の低さを全フレームの確率値を平均化してみることで解決している。しかしながら、全体を平均化してしまうと、系列全体としての変化をうまく捉えることができなくなる。例えば、ある英語の音声を言語識別器にかけると、4フレーム中3フレームは英語の確率が高いと出てくるが、4フレーム中1フレームは日本語の確率が高いと出てくる場合がある。このような現象が実際にあったとしても全体を平均化して捉えてしまうと、「英語の音声はこのような現象が起こりやすい」といった知見を活かすことができなくなってしまう。
この問題が識別誤りにつながることをより具体的な例を挙げて説明する。例えば、ある英語の音声のフレームごとの識別確率が、1〜3フレーム目は「P(英語)=0.5、P(日本語)=0.4、P(中国語)=0.1」であり、4フレーム目は「P(英語)=0.1、P(日本語)=0.8、P(中国語)=0.1」であったと想定する。ここで、P(*)は、そのフレームが言語*である確率値を表している。この系列を平均値として捉えると、その確率は「P(英語)=0.4、P(日本語)=0.5、p(中国語)=0.1」となる。英語よりも日本語の方が高い確率となるため、実際には英語の音声であっても日本語に識別されてしまう識別誤りを起こしてしまう。このようにフレームレベルでは言語らしさをうまく捉えられないことは多く、平均化するだけでは言語識別のための緻密さに欠ける。
すなわち、非特許文献1に記載の従来技術の問題点は、系列としての言語らしさの変動に関する情報を含まない平均値という情報で言語らしさを捉えていることによる、言語識別の緻密さの欠落と言える。
この発明の目的は、このような点に鑑みて、フレームレベルの言語らしさの系列情報を利用して、より高精度な言語識別を実現することである。
上記の課題を解決するために、この発明の第一の態様の言語識別モデル学習装置は、複数の言語による音声データと各音声データの言語を表す言語ラベルとを組とした複数の学習データを記憶する学習データ記憶部と、学習データを用いて、音声データを入力とし、言語ラベルの事後確率分布を離散化した離散記号系列を出力する離散記号系列変換モデルを学習する変換モデル学習部と、離散記号系列変換モデルを用いて、学習データの音声データを離散記号系列に変換する離散記号系列変換部と、学習データの離散記号系列および言語ラベルを用いて、音声データの離散記号系列を入力とし、言語ラベルごとの生成確率を出力する言語識別モデルを学習する言語識別モデル学習部と、を含む。
この発明の第二の態様の言語識別装置は、言語識別モデル学習装置により生成した離散記号系列変換モデルを記憶した変換モデル記憶部と、言語識別モデル学習装置により生成した言語識別モデルを記憶した言語識別モデル記憶部と、離散記号系列変換モデルを用いて、入力音声データを離散記号系列に変換する離散記号系列変換部と、言語識別モデルを用いて、入力音声データの離散記号系列から言語ラベルごとの生成確率を求め、最大の生成確率を与える言語ラベルを出力する言語識別部と、を含む。
この発明の言語識別技術は、ニューラルネットワークによって捉えたフレームレベルの言語らしさの系列情報を言語ごとにモデル化し、その言語識別モデルを用いて入力音声の言語識別を実施する。したがって、この発明によれば、言語らしさの平均基準で言語識別を実施する場合と比較して、高精度な言語識別を実現することができる。
図1は、言語識別モデル学習装置の機能構成を例示する図である。 図2は、変換モデル学習部の機能構成を例示する図である。 図3は、言語識別モデル学習部の機能構成を例示する図である。 図4は、言語識別モデル学習方法の処理フローを例示する図である。 図5は、言語識別装置の機能構成を例示する図である。 図6は、言語識別方法の処理フローを例示する図である。
実施形態の説明に先立って、この発明の基本的な考え方を説明する。
この発明では、フレームレベルの言語らしさを離散化して捉える。フレームごとの言語らしさの情報は、例えば「P(英語)=0.5、P(日本語)=0.4、P(中国語)=0.1」といった情報である。このような連続表現を系列として捉えることは非常に複雑である。一方で、離散化された情報であれば系列を捉えやすい。そこで、フレームごとの言語らしさの情報を離散化した上で、音声データ全体を離散記号系列に変換する。フレームごとの言語らしさの情報は、言語ごとの確率値を要素とするベクトルと考えることができる。つまり、このベクトル空間を何らかの基準で分割し、空間ごとにクラスタ番号を定めておくことにより、言語らしさの情報を離散記号化できる。例えば、1〜3フレーム目の言語らしさ(例えば、「P(英語)=0.5、P(日本語)=0.4、P(中国語)=0.1」)がクラスタ番号10となり、4フレーム目の言語らしさ(例えば、「P(英語)=0.1、P(日本語)=0.8、P(中国語)=0.1」)がクラスタ番号3となった場合、この音声の離散記号系列は「10,10,10,3」と表すことができる。
離散記号系列は、既存の記号系列のモデリング技術を使って、言語ごと(上記の例では、英語ごと、日本語ごと、中国語ごと)にモデル化する。記号系列のモデリングには、言語モデルと呼ばれる公知技術を利用できる。例えば、Nグラムモデルという言語モデルを利用すれば、N個組の記号系列の生成確率を直接モデル化できる。
識別時には、入力音声データを離散記号系列に変換し、学習したモデルを利用して離散記号系列から各言語の生成確率を求め、最大の生成確率を与える言語に識別する。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施形態では、学習データを用いて離散記号系列変換モデルおよび言語識別モデルを学習する言語識別モデル学習装置および方法と、学習した離散記号系列変換モデルおよび言語識別モデルを用いて音声データの言語識別を行う言語識別装置および方法を説明する。
<言語識別モデル学習>
実施形態の言語識別モデル学習装置は、図1に示すように、学習データ記憶部1、変換モデル学習部2、変換モデル記憶部3、離散記号系列変換部4、言語識別モデル学習部5、および言語識別モデル記憶部6を例えば含む。変換モデル学習部2は、図2に示すように、ニューラルネットワーク学習部21およびセントロイド生成部22を例えば含む。言語識別モデル学習部5は、図3に示すように、学習データ分割部51およびモデル学習部52を例えば含む。
言語識別モデル学習装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。言語識別モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。言語識別モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、言語識別モデル学習装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
言語識別モデル学習装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。言語モデル作成装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
学習データ記憶部1には、K(≧2)個の学習データが記憶されている。学習データは、T(≧2)種類の言語で話された発話を収録した音声データと、各音声データがどの言語で話されたのかを表す言語ラベルとの組である。
図4を参照して、実施形態の言語識別モデル学習方法の処理手続きを説明する。
ステップS11〜12において、変換モデル学習部2は、学習データ記憶部1に記憶されたK個の学習データを用いて、音声データを離散記号系列に変換する離散記号系列変換モデルを学習する。離散記号系列変換モデルは、変換モデル記憶部3へ記憶される。離散記号系列は、フレームごとの言語らしさを表す事後確率分布を離散化した系列である。離散記号系列変換モデルは、フレームごとの音声データから事後確率分布を求めるニューラルネットワークと、事後確率分布をクラスタリングしたときの各クラスタのセントロイドとからなる。変換モデル学習部2は、従来技術と同様に、学習データからフレームレベルのニューラルネットワークを学習し、それを利用して各学習データを事後確率分布の系列に変換する。その後、全データの全フレームを効率的に離散化するために、学習データの事後確率分布をK-meansクラスタリングによりM(≧2)個のクラスタに分類し、各クラスタのセントロイドを学習する。以下、変換モデル学習部2の処理をより詳細に説明する。
ステップS11において、ニューラルネットワーク学習部21は、学習データ記憶部1に記憶されたK個の学習データからニューラルネットワークを学習する。このニューラルネットワークは、従来技術で用いられるものと同様に、フレームの音声データに対する特徴量を入力とし、その音声データの発話がどの言語によるものであるかを示す事後確率分布を出力する。フレーム長は数ミリ秒であり、例えば従来技術と同様に25ミリ秒とする。フレームの音声データに対する特徴量は、公知のメル周波数ケプストラム係数(MFCC: Mel Frequency Cepstral Coefficient)等、任意の特徴量を利用することができる。
このニューラルネットワークは、学習データ内に含まれる言語ラベルの種類数Tの値が出力層の大きさとなる。例えば、K個の音声データに付与された言語ラベルの種類が「日本語」「英語」「中国語」の3種類であれば、T=3であり、出力層の大きさは3となる。学習データの総数Kの値は、3言語識別であればそれぞれの言語の音声データが10,000個として、K=30,000となる。ニューラルネットワークの層の数や形状などは任意の形態をとることができる。例えば、中間層の数が8であり、各層のノード数が2,048であるニューラルネットワークなどを利用できる。なお、ニューラルネットワークの学習方法については、上記非特許文献1などを参考にされたい。
ステップS12において、セントロイド生成部22は、ニューラルネットワーク学習部21で学習したニューラルネットワークを用いて、K個の学習データの各フレームを事後確率分布に変換し、K個の事後確率分布の系列を得る。各事後確率分布は、上述のような3言語識別であれば、3次元のベクトルとして得られる。続いて、セントロイド生成部22は、事後確率分布(ベクトル)を離散記号化するためにクラスタリングを行う。クラスタリング時のクラスタ数Mの値は人手で与える。例えば、Mは64や128を与える。クラスタリング手法は、公知のK-meansクラスタリングを利用することができる。K-meansクラスタリングを行うと、各クラスタのセントロイドのベクトルを得ることができる。なお、セントロイドは事後確率分布と同様にベクトルとして表される。各セントロイドにはインデクス(識別記号)を付与しておく。例えば、1つ目のセントロイドには識別記号「1」を与え、2つ目のセントロイドには識別記号「2」を与える。
ステップS13において、離散記号系列変換部4は、変換モデル学習部2で学習した離散記号系列変換モデルを用いて、学習データの音声データを離散記号系列に変換する。具体的には、ニューラルネットワークを用いて、K個の学習データの各フレームを事後確率分布(ベクトル)に変換し、フレームごとに事後確率分布とM個のセントロイドそれぞれとのユークリッド距離を測り、最も近いクラスタの識別記号に変換する。例えば、ある音声のフレーム数が5であった場合は、5個のフレームに対してそれぞれ事後確率分布を得て、上述の方法で離散化する。例えば、1番目のフレームが識別記号「1」、2〜3番目のフレームが識別記号「5」、4番目のフレームが識別記号「2」、5番目のフレームが識別記号「3」にそれぞれ変換されたとすると、結果として「1, 5, 5, 2, 3」の離散記号系列に変換される。これをK個の学習データすべてに対して実施し、すべての学習データを離散記号系列に変換する。
ステップS14〜15において、言語識別モデル学習部5は、離散記号系列変換部4で学習データから変換された離散記号系列と、学習データ記憶部1に記憶された学習データの言語ラベルとを用いて、言語識別モデルを学習する。言語識別モデルは、言語識別モデル記憶部6へ記憶される。言語識別モデルは、言語ラベルごとに学習されたT個の離散記号系列モデルから構成される。以下、言語識別モデル学習部5の処理手続きをより詳細に説明する。
ステップS14において、データ分割部51は、学習データの離散記号系列を言語ラベルごとに分割する。K個の学習データはそれぞれ言語ラベルを持っているので、それぞれ同じ言語ラベルを持つ集合に分割する。つまり、言語ラベルの種類数Tと同数の学習データの集合ができる。例えば、言語ラベルの種類が「日本語」「英語」「中国語」の3種類であれば、3個の学習データの集合に分割することができる。
ステップS15において、モデル学習部52は、言語ラベルごとに分割した学習データを用いて、言語ラベルごとに離散記号系列モデルを学習し、各言語の離散記号系列モデルを集約して言語識別モデルを出力する。離散記号系列のモデリングは言語モデルと呼ばれる技術を利用できる。任意の言語モデルを利用して離散記号系列をモデル化できるが、例えば、Nグラムモデルと呼ばれる公知の言語モデルが利用できる。Nグラムモデルでは、N個組の離散記号系列の生成確率を直接モデル化できる。Nグラムモデルを学習すると、例えば「離散記号系列が“1,2”と続いた後に、“3”が続く確率は0.3、“1”が続く確率は0.2」といった記号の並び方の生成確率を求めることができる。そして、学習したNグラムモデルを利用することで、任意の離散記号系列に対して生成確率を求めることが可能となる。モデル学習部52は、言語ごとに学習したT個の離散記号系列モデルを集約して言語識別モデルを生成し、言語識別モデル記憶部6へ記憶する。
<言語識別>
実施形態の言語識別装置は、図5に示すように、変換モデル記憶部3、離散記号系列変換部4、言語識別モデル記憶部6、および言語識別部7を例えば含む。変換モデル記憶部3、離散記号系列変換部4、および言語識別モデル記憶部6は、言語識別モデル学習装置が備える各構成部と同じものである。変換モデル記憶部3には、言語識別モデル学習装置により生成された離散記号系列変換モデルが記憶されている。言語識別モデル記憶部6は、言語識別モデル学習装置により生成された言語識別モデルが記憶されている。
言語識別装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。言語識別装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。言語識別装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、言語識別装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
図6を参照して、実施形態の言語識別方法の処理手続きを説明する。
ステップS21において、離散記号系列変換部4は、変換モデル記憶部3に記憶された離散記号系列変換モデルを用いて、入力音声データを離散記号系列に変換する。離散記号系列変換部4の処理は、上述のステップS13と同様である。
ステップS22において、言語識別部7は、言語識別モデル記憶部6に記憶された言語識別モデルを用いて、離散記号系列変換部4で得られた入力音声データの離散記号系列から、その入力音声データの言語を表す言語ラベルを求める。具体的には、言語識別モデルを構成する言語ラベルごとの離散記号系列モデルを利用して、言語ラベルごとに言語らしさの確率値を算出する。各言語ラベルの離散記号系列モデルは言語モデルとして表されているので、上述の通り任意の記号系列に対して生成確率を求めることが可能である。したがって、離散記号系列に変換した入力音声データに対して言語ラベルの生成確率を算出することが可能である。言語識別は言語ラベルごとに生成確率を求めた後に、最大の確率値を与える言語ラベルを出力することで実現できる。例えば「日本語」「英語」「中国語」の離散記号系列モデルがあった場合、各言語の生成確率が「P(日本語)=0.05、P(英語)=0.02、P(中国語)=0.0001」であったとした場合、最大を与える言語ラベルは「日本語」であるので、言語ラベルとして「日本語」を出力する。
この発明の言語識別技術は、上記のように構成することにより、ニューラルネットワークによって捉えたフレームレベルの言語らしさの系列情報を陽に活かした言語識別を実現できる。これにより、言語らしさの平均基準で言語識別を実施する従来技術と比較して、言語識別の性能を向上することができる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 学習データ記憶部
2 変換モデル学習部
21 ニューラルネットワーク学習部
22 セントロイド生成部
3 変換モデル記憶部
4 離散記号系列変換部
5 言語識別モデル学習部
51 学習データ分割部
52 モデル学習部
6 言語識別モデル記憶部

Claims (6)

  1. 音声データを入力とし、当該音声データの言語らしさの情報を出力するように学習された系列変換モデルを用いて、入力音声データをフレームごとに当該入力音声データの言語らしさの情報に変換することで、当該入力音声データの言語らしさの系列情報を出力する系列変換部と、
    音声データの言語らしさの系列情報を入力とし、当該音声データの言語ラベルごとの生成確率を出力するように学習された言語識別モデルを用いて、上記入力音声データの言語らしさの系列情報を当該入力音声データの言語ラベルごとの生成確率に変換した結果に基づき、当該入力音声データの言語を表す言語ラベルを出力する言語識別部と、
    を含む言語識別装置。
  2. 請求項1に記載の言語識別装置であって、
    上記系列変換部は、上記入力音声データをフレームごとに上記系列変換モデルにより当該入力音声データの当該フレームに対応する言語ラベルの事後確率分布を離散化した離散記号に変換するものであり、
    上記入力音声データの言語らしさの系列情報は、上記系列変換部で得られたフレームごとの離散記号を時系列に並べたものである、
    言語識別装置。
  3. 請求項2に記載の言語識別装置であって、
    上記系列変換部は、学習用に与えられた複数の音声データについて、各音声データを上記系列変換モデルにより変換して得た言語ラベルの事後確率分布を複数のクラスタにクラスタリングしたときの各クラスタのセントロイドと、上記入力音声データに対応する言語ラベルの事後確率分布との距離に基づいて、当該距離が近いクラスタを特定する離散記号を、当該入力音声データに対応する言語ラベルの事後確率分布に対応する離散記号として求めるものである、
    言語識別装置。
  4. 複数の言語による音声データと各音声データの言語を表す言語ラベルとを組とした複数の学習データを記憶する学習データ記憶部と、
    上記学習データを用いて、音声データを入力とし、当該音声データの言語らしさの情報を出力する系列変換モデルを学習する変換モデル学習部と、
    記系列変換モデルを用いて、上記学習データの音声データをフレームごとに当該音声データの言語らしさの情報に変換することで、当該音声データの言語らしさの系列情報に変換する系列変換部と、
    上記学習データの音声データの言語らしさの系列情報および当該音声データに対応する言語ラベルを用いて、音声データの言語らしさの系列情報を入力とし、当該音声データの言語ラベルごとの生成確率を出力する言語識別モデルを学習する言語識別モデル学習部と、
    を含む言語識別モデル学習装置。
  5. 列変換部が、音声データを入力とし、当該音声データの言語らしさの情報を出力するように学習された系列変換モデルを用いて、入力音声データをフレームごとに当該入力音声データの言語らしさの情報に変換することで、当該入力音声データの言語らしさの系列情報を出力する系列変換ステップと、
    言語識別部が、音声データの言語らしさの系列情報を入力とし、当該音声データの言語ラベルごとの生成確率を出力するように学習された言語識別モデルを用いて、上記入力音声データの言語らしさの系列情報を当該入力音声データの言語ラベルごとの生成確率に変換した結果に基づき、当該入力音声データの言語を表す言語ラベルを出力する言語識別ステップと、
    を含む言語識別方法。
  6. 請求項1から3のいずれかに記載の言語識別装置もしくは請求項に記載の言語識別モデル学習装置としてコンピュータを機能させるためのプログラム。
JP2015032887A 2015-02-23 2015-02-23 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム Active JP6389776B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015032887A JP6389776B2 (ja) 2015-02-23 2015-02-23 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015032887A JP6389776B2 (ja) 2015-02-23 2015-02-23 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016156870A JP2016156870A (ja) 2016-09-01
JP6389776B2 true JP6389776B2 (ja) 2018-09-12

Family

ID=56825900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015032887A Active JP6389776B2 (ja) 2015-02-23 2015-02-23 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6389776B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493846B (zh) * 2018-11-18 2021-06-08 深圳市声希科技有限公司 一种英语口音识别系统
JP7454857B2 (ja) * 2019-03-28 2024-03-25 国立研究開発法人情報通信研究機構 言語識別装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3427500B2 (ja) * 1994-08-09 2003-07-14 松下電器産業株式会社 帰属度算出装置およびhmm装置
JP2996926B2 (ja) * 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
JP2004053742A (ja) * 2002-07-17 2004-02-19 Matsushita Electric Ind Co Ltd 音声認識装置
JP5672487B2 (ja) * 2010-11-11 2015-02-18 株式会社国際電気通信基礎技術研究所 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム
JP6164639B2 (ja) * 2013-05-23 2017-07-19 国立研究開発法人情報通信研究機構 ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2016156870A (ja) 2016-09-01

Similar Documents

Publication Publication Date Title
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
JP6686154B2 (ja) 発話認識方法及び装置
TWI530940B (zh) 聲學模型訓練方法和裝置
JP6615736B2 (ja) 音声言語識別装置、その方法、及びプログラム
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
WO2021023440A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
JP5717794B2 (ja) 対話装置、対話方法および対話プログラム
CN112825249A (zh) 语音处理方法和设备
JP2010181884A (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
WO2018232591A1 (en) SEQUENCE RECOGNITION PROCESSING
JP6230987B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
WO2020110815A1 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
JP6556381B2 (ja) モデル学習装置及びモデル学習方法
JP6389776B2 (ja) 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム
JP5740368B2 (ja) 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
JP6244297B2 (ja) 音響スコア算出装置、その方法及びプログラム
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP5980142B2 (ja) 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム
JP6612277B2 (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
US20210201913A1 (en) Method of and system for translating speech to text
JP5679345B2 (ja) 音声認識精度推定装置、音声認識精度推定方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180820

R150 Certificate of patent or registration of utility model

Ref document number: 6389776

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150