JP5124012B2 - 音声認識装置及び音声認識プログラム - Google Patents

音声認識装置及び音声認識プログラム Download PDF

Info

Publication number
JP5124012B2
JP5124012B2 JP2010275213A JP2010275213A JP5124012B2 JP 5124012 B2 JP5124012 B2 JP 5124012B2 JP 2010275213 A JP2010275213 A JP 2010275213A JP 2010275213 A JP2010275213 A JP 2010275213A JP 5124012 B2 JP5124012 B2 JP 5124012B2
Authority
JP
Japan
Prior art keywords
keyword
language model
word
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010275213A
Other languages
English (en)
Other versions
JP2011048405A (ja
Inventor
真一 本間
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2010275213A priority Critical patent/JP5124012B2/ja
Publication of JP2011048405A publication Critical patent/JP2011048405A/ja
Application granted granted Critical
Publication of JP5124012B2 publication Critical patent/JP5124012B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、言語モデルを用いて、入力音声を認識する音声認識装置及び音声認識プログラムに関する。
一般に、音声の認識は、単語の出現頻度や接続確率をモデル化した言語モデルから、認識候補となる単語を探索することにより行われている。この言語モデルとしては、N−gramを用いた言語モデル(Nグラム言語モデル)が知られている。
このNグラム言語モデルは、入力される単語の列(単語列)w…wに対して、その単語の出現確率P(w…w)を、以下に示す(1)式のように条件付き確率により算出し生成するモデルであり、単語列w…wと出現確率P(w…w)とからなるエントリの集合である。
Figure 0005124012
すなわち、Nグラム言語モデルでは、i番目の単語wの生成確率が、(N−1)単語列wi−N+1…wi−2i−1に依存する。例えば、3−gram(N=3:トライグラム)を例にとると、単語列wに続いて単語wが出現する確率はP(w|w)と表される。
このようなNグラム言語モデルにおいては、学習されていない未登録語については、認識を行うことができない。
そこで、従来は、認識辞書の語彙を拡張して未登録語を削減する手法が提案されている(非特許文献1、非特許文献2等)。
「Open Vocabulary ASR for Audiovisual Document Indexation」,ICASSP 2005 I pp.1013-1016 「Unsupervised Vocabulary Expansion for Automatic Transcription of Broadcast News」,ICASSP 2005 I pp.1021-1024
一般に、放送番組、講演等の音声信号を音声認識する場合、認識する必要があることが事前に分かっている重要な単語、すなわち、キーワードが存在する。例えば、講演におけるテーマに関連する用語等である。従来から、このようなキーワードについては、精度よく音声認識してほしいという要求があった。
しかし、従来の技術は、事前に登録されていない単語を認識辞書に登録して、認識を可能とするものである。すなわち、認識辞書に単に未登録単語を登録することで、未登録単語を他の単語と同様に認識可能としたものであり、キーワードとなる単語の認識精度を高める工夫はなされていない。
また、一般にキーワードは、固有名詞や、専門用語であることが多く、特殊な単語であるため、過去の出現頻度の情報に基づいて出現確率を推定することは困難であり、音声認識の精度を高めることができない要因となっていた。
本発明は、以上のような問題点に鑑みてなされたものであり、予め定めたキーワードについての認識精度を高めた音声認識装置及び音声認識プログラムを提供することを目的とする。
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の音声認識装置は、言語モデルを用いて、入力音声を認識する音声認識装置において、特定のキーワードとその品詞を記憶するキーワード記憶手段と、言語モデルを記憶する言語モデル記憶手段と、前記特定のキーワード以外の単語については当該単語の文字列を用い、前記特定のキーワードの単語については、前記キーワード記憶手段に記憶されている当該キーワードの品詞を示す固有の文字列に置き換えて学習することで、前記言語モデル記憶手段に記憶されている言語モデルを更新する言語モデル更新手段と、この言語モデル更新手段で更新された言語モデルにおいて、前記入力音声の単語列に対する確率値が最大となる経路を探索することで、認識結果である単語列を出力する単語列生成手段と、を備え、前記単語列生成手段が、前記キーワードの直前までの単語列の後に当該キーワードに対応する品詞クラスが出現する確率と、当該品詞クラス中で当該キーワードが出現する確率とを乗じた確率値を算出し、出力系列の確率値に加算する確率値増加手段を有する構成とした。
かかる構成において、言語モデル記憶手段に記憶されている言語モデルは、キーワードについては品詞クラスの言語モデルとなる。そこで、音声認識装置は、単語列生成手段によって、キーワードの接続確率値が小さい場合には、キーワードの接続確率値を、キーワードに対応する品詞の接続確率値に基づいて演算することで、より大きな接続確率値が得られることになる。
また、請求項2に記載の音声認識プログラムは、特定のキーワードとその品詞を記憶するキーワード記憶手段と、言語モデルを記憶する言語モデル記憶手段とを備えた音声認識装置において、入力音声を認識するために、コンピュータを、前記特定のキーワード以外の単語については当該単語の文字列を用い、前記特定のキーワードの単語については、前記キーワード記憶手段に記憶されている当該キーワードの品詞を示す固有の文字列に置き換えて学習することで、前記言語モデル記憶手段に記憶されている言語モデルを更新する言語モデル更新手段、この言語モデル更新手段で更新された言語モデルにおいて、前記入力音声の単語列に対する確率値が最大となる経路を探索することで、認識結果である単語列を出力する単語列生成手段、として機能させ、前記単語列生成手段が、前記キーワードの直前までの単語列の後に当該キーワードに対応する品詞クラスが出現する確率と、当該品詞クラス中で当該キーワードが出現する確率とを乗じた確率値を算出し、出力系列の確率値に加算する構成とした。
かかる構成において、音声認識プログラムは、単語列生成手段によって、言語モデルにおいて、入力音声の単語列に対する確率値が最大となる経路を探索することで、認識結果である単語列を出力する。このとき、言語モデル記憶手段に記憶されている言語モデルは、キーワードについては品詞クラスの言語モデルである。そこで、単語列生成手段は、言語モデルにおいて、キーワードの接続確率値をキーワード記憶手段に記憶されている当該キーワードに対応する品詞の接続確率値に基づいて演算することで、キーワードの接続確率値を増加させる。
請求項1又は請求項2に記載の発明によれば、キーワードを品詞クラスの言語モデルにより接続確率値を算出するため、通常の単語のみにより接続確率値を求める場合に比べて、その接続確率値を高めることができ、キーワードの認識精度を高めることができる。
参考例の実施の形態に係る音声認識装置の構成を示すブロック図である。 参考例に係る言語モデルの内容を示すデータ構造図である。 キーワードの抽出手法を説明するための説明図である。 類似単語の抽出手法を説明するための説明図である。 参考例の実施の形態に係る音声認識装置の言語モデルの更新動作を示すフローチャートである。 参考例の実施の形態に係る音声認識装置の音声認識動作を示すフローチャートである。 本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。 本発明に係る言語モデルを生成する手順を説明するための説明図である。 本発明の実施の形態に係る音声認識装置の言語モデルの更新動作を示すフローチャートである。 本発明の実施の形態に係る音声認識装置の音声認識動作を示すフローチャートである。
以下、本発明の実施の形態について図面を参照して説明する。
[参考例の実施の形態]
(音声認識装置の構成)
まず、図1を参照して、参考例の実施の形態に係る音声認識装置の構成について説明する。図1は、参考例の実施の形態に係る音声認識装置の構成を示すブロック図である。図1に示した音声認識装置1は、特定のキーワードについての認識精度を高めて、入力された音声信号を認識するものである。ここでは、音声認識装置1は、認識部10と、更新部20とで構成されている。
認識部10は、言語モデルと音響モデルと発音辞書とに基づいて、音声信号を認識するものである。ここでは、認識部10は、記憶手段11と、特徴抽出手段12と、単語列生成手段13とを備えている。
記憶手段(言語モデル記憶手段、発音辞書記憶手段)11は、言語モデル111と、音響モデル112と、発音辞書113とを記憶するものであって、ハードディスク等の一般的な記憶装置である。
言語モデル111は、大量の音声データから学習した出力系列(単語、形態素、音素等)の出現頻度や接続確率等をモデル化したものである。この言語モデルには、例えば、一般的な「Nグラム言語モデル」を用いることができる。
なお、言語モデル111は、後記する更新部20によって、特定のキーワードを識別する情報が付与されて生成されている。ここで、図2を参照して、言語モデル111の内容について具体的に説明する。図2は、本発明に係る言語モデルの内容を示すデータ構造図である。
図2に示すように、言語モデル111は、文章を構成する単語と、その次に来る単語のつながりやすさの確率や、文頭に出現しやすい単語の確率を、「文頭」から「文末」にわたって記述したデータである。なお、この言語モデル111は、一般的なNグラム言語モデルを基本として、特定のキーワードを識別することが可能なように拡張されている。
具体的には、言語モデル111は、キーワード(図2では「コスギ」)に、キーワードを特定するための識別情報(図2では「!」の文字)を付与されていることとし、そのキーワードが接続される確率値に対して、加算する確率値をボーナス値として記憶する領域BAを設けている。
これによって、単語の接続確率値を算出する際に、このボーナス値を加算することで、キーワードが認識される精度を高めることができる。
また、言語モデル111では、さらに、キーワードの認識精度を高めるため、キーワードと発音が類似する単語については、接続される確率値に対して減算する確率値をペナルティ値として記憶する領域PAを設けている。図2の例では、ボーナス値とペナルティ値を記憶する領域を同一とし、「+」、「−」の記号によって、いずれかを識別することとしている。
なお、ここでは、「!」等の文字によってキーワードを識別する識別情報(第1の識別情報)としているが、ボーナス値の「+」等の符号を識別情報とみなすこととしてもよい。また、ここでは、ペナルティ値の「−」等の符号を、キーワードに類似する単語を示す第2の識別情報としている。
この図2に示した言語モデルの生成については、後記する更新部20の説明において行うこととする。
図1に戻って、音声認識装置1の構成について説明を続ける。
音響モデル112は、大量の音声データから予め学習した音素ごとの特徴量を「隠れマルコフモデル」によってモデル化したものである。この音響モデル112は、単一の音響モデルを用いてもよいし、音響の種別(例えば、人物別)ごとに複数のモデルを用いてもよい。
発音辞書113は、単語ごとにその発音を示す子音と母音との構成を示したものである。なお、この発音辞書113には、予め複数の単語の発音を登録しておく。
特徴抽出手段12は、外部から入力された音声(音声信号)を分析し、その音声の特徴量を抽出するものである。
なお、特徴抽出手段12は、入力された音声の音声波形に窓関数(ハミング窓等)をかけることで、フレーム化された波形を抽出し、その波形を周波数分析することで、種々の特徴量を抽出する。例えば、フレーム化された波形のパワースペクトルの対数を逆フーリエ変換した値であるケプストラム係数等を特徴量とする。この特徴量には、ケプストラム係数以外にも、メル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)、LPC(Linear Predictive Cording)係数、対数パワー等、一般的な音声特徴量を用いることができる。
単語列生成手段13は、記憶手段11に記憶されている言語モデル111、音響モデル112及び発音辞書113に基づいて、特徴抽出手段12で抽出された特徴量から、音声認識結果となる単語列を生成するものである。ここでは、単語列生成手段13は、音響類似度算出手段131と、探索手段132とを備えている。
音響類似度算出手段131は、特徴抽出手段12で抽出され、時系列に入力される特徴量と、記憶手段11に記憶されている音響モデル112でモデル化されている音素との類似度(確率値)を算出するものである。
探索手段132は、言語モデル111から、接続される出力系列の候補を探索し、確率値が最大となる出力系列を入力音声に対する認識結果(認識単語列)として出力するものである。ここでは、探索手段132は、ボーナス付与手段132aと、ペナルティ付与手段132bとを備えている。
ボーナス付与手段(確率値増加手段)132aは、出力系列の確率値を算出する際に、言語モデル111において、キーワードとして登録されている単語の確率に、予め定めた確率値をボーナス値として加算するものである。ここでは、ボーナス付与手段132aは、図2で説明した言語モデル111において、キーワードとなる単語を、識別情報(図2では「!」の文字)により認識し、そのキーワードに付されているボーナス値を、元となる確率値に加算する。これによって、キーワードの接続確率が高くなり、キーワードが認識される精度を高めることができる。
ペナルティ付与手段(確率値減少手段)132bは、出力系列の接続確率を算出する際に、言語モデル111において、キーワードに類似する単語として登録されている単語の確率から、予め定めた確率値をペナルティ値として減算するものである。これによって、キーワードに類似する単語の接続確率が低くなり、相対的にキーワードが認識される精度を高めることができる。
なお、探索手段132は、言語モデル111に基づいて、単語ごとに接続確率を加算するとともに、音響類似度算出手段131によって算出された、音響モデル112に基づく類似度(確率値)も加算する。
更新部20は、認識部10で使用される言語モデル111を、特定のキーワードの認識精度が高くなるように更新するものである。ここでは、更新部20は、キーワード抽出手段21と、記憶手段22と、音素列探索手段23と、類似単語抽出手段24と、言語モデル更新手段25とを備えている。
キーワード抽出手段21は、電子化されたキーワードを含んだ文書からキーワードを抽出するものである。この文書は、例えば、放送番組の台本、構成表等が該当する。ここでは、キーワード抽出手段21は、文書内の単語に重み付けを行い、その重み(重要度スコア)に基づいて、キーワードとなる単語を特定することとする。
ここで、図3を参照(適宜図1参照)して、キーワード抽出手段21が行うキーワードの抽出手法について説明する。図3は、キーワードの抽出手法を説明するための説明図である。
ここでは、図3に示すように、キーワードを含む文書dがN個入力され、その文書内からキーワードを抽出することとする。なお、文書dにおける記号「△」は、単語の区切りを示している。このように、入力される文書dは予め単語ごとに区切られたデータであってもよいし、キーワード抽出手段21が形態素解析を行うことで、単語ごとに区分することとしてもよい。
一般に、キーワードとなる重要な単語は、文書d内に多く出現する。しかし、すべての文書(N個分)に数多く出現すると、逆に文書dを特徴付ける単語とは言えなくなる。そこで、ここでは、キーワード抽出手段21は、文書dから、キーワードを抽出する手法として「TF・IDF法」を用い、単語の重み(重要度スコア)を算出することで、キーワードを抽出する。
この「TF・IDF法」における重要度スコアは、ある文書中に出現する単語の頻度(TF:Term Frequency)と、その単語が全文書中のどれくらいの文書に出現するかを示す尺度(IDF:Inverse Document Frequency)とを乗算することにより得られる。
すなわち、キーワード抽出手段21は、ある文書d中に出現する単語tの頻度をtf(t,d)、単語tが全文書中のどれくらいの文書に出現するかを示す尺度をidf(t)としたとき、以下の(2)式により単語tの重要度スコアw を算出する。
Figure 0005124012
なお、この(2)式における尺度idf(t)は、全文書数をN、単語tが出現する文書数をdf(t)としたとき、以下の(3)式で表すことができる。
Figure 0005124012
このように、キーワード抽出手段21は、文書から、その文書内における単語の重要度スコアを算出し、予め定めた閾値よりも大きい重要度スコアとなった単語をキーワードとして抽出する。そして、キーワード抽出手段21は、抽出したキーワードと、その重要度スコアとを記憶手段22に記憶する。また、ここでは、重要度スコアを、前記したボーナス値として使用することとする。
なお、この図3に示した例では、文書dから、キーワード「コスギ」、「空手」、「武道」が抽出され、それぞれの重要度スコア(ボーナス値)として「1.000」、「0.959」、「0.532」が算出された例を示している。
図1に戻って、音声認識装置1の構成について説明を続ける。
記憶手段(キーワード記憶手段)22は、キーワード抽出手段21で抽出されたキーワードと重要度スコアとを、キーワード辞書221として記憶するものであって、ハードディスク等の一般的な記憶装置である。
音素列探索手段23は、記憶手段22に記憶されているキーワード辞書221に含まれているキーワードの発音を示す音素列(キーワード音素列)を、発音辞書113から検索するものである。なお、発音辞書113から検索されたキーワード音素列は、子音と母音とが組み合わされた文字列である。この音素列探索手段23は、キーワードと、検索したキーワード音素列とを、類似単語抽出手段24に出力する。
類似単語抽出手段24は、音素列探索手段23で探索されたキーワードの発音を示すキーワード音素列と、発音辞書113に登録されている単語の発音を示す登録単語音素列とに基づいて、キーワードに類似(同一を含む)する単語(類似単語)を抽出するものである。ここでは、類似単語抽出手段24は、類似度測定手段241を備えている。
類似度測定手段241は、キーワード音素列と登録単語音素列との類似の度合いを示す類似度を測定するものである。
すなわち、類似単語抽出手段24は、類似度測定手段241によって測定された類似度により、キーワード音素列に類似する登録単語音素列を有する単語を類似単語として抽出する。
ここで、図4を参照(適宜図1参照)して、類似単語抽出手段24が行う類似単語の抽出手法について説明する。図4は、類似単語の抽出手法を説明するための説明図である。
ここでは、図4に示すように、キーワードとして、「武道」及び「コスギ」が予め抽出されているものとする。
このとき、類似単語抽出手段24は、類似度測定手段241によって、キーワード音素列と登録単語音素列との類似の度合いを示す類似度を測定する。この各音素列同士の類似度は、例えば、DP(Dynamic Programming)マッチング法により音素列間の距離として求めることができる。
図4の例では、キーワード「武道」と登録単語「ぶどう」とは、どちらも音素列「budo:」で、音素列間の距離が“0”となり、同一の発音となる。また、キーワード「コスギ」と登録単語「小菅」とは、各音素列が「kosugi」と「kosuge」とで1音素(「i」と「e」)のみが異なっており、音素列間の距離が“1”の類似する発音となる。
そこで、類似単語抽出手段24は、この音素列間の距離が近いものほど、前記したペナルティ値を大きく設定する。ここでは、登録単語「ぶどう」にペナルティ値「−1.0」、登録単語「小菅」にペナルティ値「−0.5」を設定した例を示している。
図1に戻って、音声認識装置1の構成について説明を続ける。
言語モデル更新手段25は、記憶手段22に記憶されているキーワード辞書221に登録されているキーワード及び重要度スコア(ボーナス値)と、類似単語抽出手段24で抽出された類似単語及びペナルティ値とに基づいて、言語モデル111を更新するものである。すなわち、言語モデル更新手段25は、図2で説明したように、言語モデル111において、キーワードを特定するための識別情報(図2では「!」の文字)を、キーワードを示す単語に付与し、接続確率値に加算するボーナス値を領域BAに登録する。さらに、言語モデル更新手段25は、言語モデル111において、類似単語を探索し、接続確率値から減算するペナルティ値を領域PAに登録する。
なお、言語モデル更新手段25は、言語モデル111に、以前登録したキーワードが存在する場合、そのキーワードの登録を抹消し、ボーナス値やペナルティ値を消去することとする。ここでキーワードの登録を抹消するには、キーワードに付した識別情報(図2では「!」の文字)を消去すればよい。これによって、言語モデル111は、常に認識精度を高めたいキーワードのみについてボーナス値が付与された状態となる。
このように音声認識装置1を構成することで、音声認識装置1は、電子化された文書からキーワードを抽出し、そのキーワードに対して認識精度を高めて音声認識を行うことができる。
以上、参考例の実施の形態に係る音声認識装置1の構成について説明したが、本発明は、この構成に限定されるものではない。例えば、予めキーワードが決まっているのであれば、構成からキーワード抽出手段21を省略し、直接、キーワード辞書221にキーワードとボーナス値とを登録することとしてもよい。
また、ここでは、言語モデル111に、キーワードに対してボーナス値を設定し、類似単語にペナルティ値を設定することとしたが、キーワードに対してボーナス値を設定するだけの構成としてもよい。すなわち、音声認識装置1から、ペナルティ付与手段132b、音素列探索手段23、類似単語抽出手段24を省略して構成してもよい。この場合、言語モデル更新手段25は、記憶手段22に記憶されているキーワード辞書221に登録されているキーワード及びボーナス値に基づいて、言語モデル111を更新する。
なお、音声認識装置1は、一般的なコンピュータを前記した各手段として機能させる音声認識プログラムによって動作させることができる。
(音声認識装置の動作)
次に、図5及び図6を参照(構成については図1参照)して、音声認識装置の動作について説明する。図5は、参考例の実施の形態に係る音声認識装置の言語モデルの更新動作を示すフローチャートである。図6は、参考例の実施の形態に係る音声認識装置の音声認識動作を示すフローチャートである。
〔言語モデルの更新動作〕
図5に示すように、まず、音声認識装置1は、キーワード抽出手段21によって、電子化されたキーワードを含んだ文書から、「TF・IDF法」により単語の重み(重要度スコア;ボーナス値として使用)を算出することで、キーワードを抽出する(ステップS1)。
そして、キーワード抽出手段21が、ステップS1で抽出したキーワードと、そのキーワードのボーナス値とを、キーワード辞書221として記憶手段22に記憶する(ステップS2)。
その後、音声認識装置1は、音素列探索手段23によって、キーワード辞書221に含まれているキーワードの発音を示す音素列(キーワード音素列)を、発音辞書113から探索する(ステップS3)。
そして、音声認識装置1は、類似単語抽出手段24によって、ステップS3で探索されたキーワード音素列と、発音辞書113に登録されている単語の発音を示す登録単語音素列とに基づいて、キーワードに類似(同一を含む)する単語(類似単語)を抽出するとともに、その類似単語に対するペナルティ値を決定する(ステップS4)。
このとき、類似単語抽出手段24は、類似度測定手段241によって、DPマッチング法による音素列間の距離により、キーワード音素列と登録単語音素列との類似度を測定することで、類似単語を抽出する。さらに、類似単語抽出手段24は、音素列間の距離が近い類似単語ほど、ペナルティ値を大きくする。
そして、音声認識装置1は、言語モデル更新手段25によって、ステップS2で記憶されたキーワード辞書221に登録されているキーワード及びボーナス値と、ステップS4で抽出された類似単語及びペナルティ値とに基づいて、言語モデル111を更新する。
すなわち、音声認識装置1は、言語モデル更新手段25によって、言語モデル111において、キーワードを特定するための識別情報(図2では「!」の文字)を、キーワードを示す単語に付与し、接続確率値に加算するボーナス値を登録する(ステップS5)。
さらに、音声認識装置1は、言語モデル更新手段25によって、言語モデル111において、類似単語を探索し、接続確率値から減算するペナルティ値を登録する(ステップS6)。
以上の動作によって、音声認識装置1は、電子化された文書からキーワードを抽出し、そのキーワードを認識することが可能な言語モデルを新たに生成することができる。
なお、新たに別の文書によって、キーワードを更新する場合は、ステップS5より前に、登録された識別情報や、ボーナス値及びペナルティ値を削除することとする。これによって、例えば、放送番組の台本、構成表等によって、認識精度を高めたいキーワードが異なる場合であっても、容易にその対象となるキーワードを変更することができる。
〔音声認識動作〕
次に、図6に示すように、音声認識装置1は、探索手段132によって、言語モデル111から、接続される出力系列の候補を探索する。
このとき、探索手段132は、候補となる単語が、キーワードとして登録されている単語であるか否かを判定し(ステップS11)、キーワードである場合(ステップS11でYes)は、ボーナス付与手段132aによって、接続確率値にボーナス値を加算した値を当該出力系列の確率値に加算し(ステップS12)、ステップS16へ進む。
さらに、探索手段132は、候補となる単語が、キーワードと類似する類似単語であるか否かを判定し(ステップS13)、類似単語である場合(ステップS13でYes)は、ペナルティ付与手段132bによって、接続確率値からペナルティ値を減算した値を当該出力系列の確率値に加算し(ステップS14)、ステップS16へ進む。
一方、候補となる単語が、キーワードでもなく類似単語でもない場合は、当該単語に設定されている接続確率値を出力系列の確率値に加算する(ステップS15)。
さらに、音声認識装置1は、特徴抽出手段12によって、入力された音声(音声信号)を分析することで音声の特徴量を抽出し、音響類似度算出手段131によって、単語に振られた発音(音素)との類似度を出力系列に加算する(ステップS16)。
そして、探索手段132は、接続される単語がさらに継続するか否かを判定し(ステップS17)、継続する場合(ステップS17でYes)は、ステップS11に戻って、出力系列の確率値を加算していく。
そして、探索手段132は、すべての出力系列の候補の確率値を算出した段階で、確率値が最大となる出力系列を認識単語列として出力する(ステップS18)。
以上の動作によって、音声認識装置1は、キーワードの認識精度を高めた音声認識を行うことができる。
[本発明の実施の形態]
(音声認識装置の構成)
次に、図7を参照して、本発明の実施の形態に係る音声認識装置の構成について説明する。図7は、本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。図7に示した音声認識装置1Bは、特定のキーワードについての認識精度を高めて、入力された音声信号を認識するものである。ここでは、音声認識装置1Bは、認識部10Bと、更新部20Bとで構成されている。
この音声認識装置1Bは、図1で説明した音声認識装置1に対して、言語モデル111B及びキーワード辞書221Bの内容と、ボーナス付与手段132Ba、キーワード抽出手段21B及び言語モデル更新手段25Bの各機能とが異なっている。他の構成については、図1で説明した音声認識装置1と同一であるため、同一の符号を付し説明を省略する。
なお、音声認識装置1Bは、図1で説明した音声認識装置1とは、キーワードに対する接続確率を高める(ボーナスを付与する)手法が異なっている。
キーワード抽出手段21Bは、電子化されたキーワードを含んだ文書からキーワードを抽出するものである。なお、このキーワード抽出手段21Bは、図1で説明したキーワード抽出手段21と同様にキーワードを抽出するが、キーワードの品詞を認識する機能を付加している点が異なっている。すなわち、ここでは、キーワード抽出手段21Bは、形態素解析を行うことで、キーワードの品詞を解析する。
そして、キーワード抽出手段21Bは、抽出したキーワードとその品詞とを記憶手段22Bのキーワード辞書221Bに登録する。
言語モデル更新手段25Bは、記憶手段22Bに記憶されているキーワード辞書221Bに登録されているキーワード及び品詞に基づいて、言語モデル111Bを更新するものである。ここでは、言語モデル更新手段25Bは、学習テキストとして登録されている単語のうち、キーワードに相当する単語を、そのキーワードの品詞を示す固有の文字列に置換した後、品詞クラスの言語モデルとして生成する。
ここで、図8を参照(適宜図7参照)して、言語モデル更新手段25Bが言語モデル111Bを生成する手法について説明する。図8は、本発明に係る言語モデルを生成する手順を説明するための説明図である。
ここで、まず、図8(a)に示すように、言語モデルを生成するための学習テキストが存在するとする。なお、この学習テキストは、通常、数百万文程度を用い、図示を省略した記憶手段に記憶されているものとする。
また、図8(b)に示すように、言語モデル111Bには、図8(a)の学習結果として数万個程度の単語(登録語彙)が登録されているものとする。
このとき、図8(c)に示すような未登録語彙(ここでは、「中教審」、「こども」)がキーワードであると仮定すると、言語モデル更新手段25Bは、図8(d)に示すように、学習テキストの未登録語彙(キーワード)に相当する単語を、固有のマーク(ここでは、「$」)を付したキーワードの品詞に置き換える。
図8(d)では、「中教審」を「$固有名詞$」、「こども」を「$一般名詞$」にそれぞれ置換した例を示している。
その後、言語モデル更新手段25Bは、図8(e)に示すように、N−gramの数をカウントする。なお、図8(e)では、N−gramのうち、N=2の例を示している。
そして、言語モデル更新手段25Bは、図8(f)に示すように、各単語の接続確率値を計算し、言語モデル111Bを学習しなおす。これによって、キーワードについては品詞クラスの言語モデルが生成されることになる。
図7に戻って、音声認識装置1Bの構成について説明を続ける。
ボーナス付与手段132Baは、言語モデル111Bにおいて、キーワードの品詞に基づいて、出力系列の確率値を算出するものである。なお、キーワードの品詞は、キーワード辞書221Bに登録されているものを使用する。
ここでは、ボーナス付与手段132Baは、出力系列の確率値(言語スコア)を算出する際に、キーワードの言語スコアについては、品詞に基づく言語スコアを用い、より大きな言語スコアが得られる単語列を入力音声に対する認識結果(認識単語列)として出力する。
具体的には、ボーナス付与手段132Baは、キーワードをw、キーワードwの直前の(N−1)−gramの履歴をh、品詞クラスをCとしたとき、以下の(4)式により、wが出現する事後確率P(w|h)を推定する。
Figure 0005124012
すなわち、ボーナス付与手段132Baは、単語列((N−1)−gramの履歴)hの後、キーワードwが出現する事後確率P(w|h)を、単語列hの後に品詞クラスCが出現する確率に、品詞クラスC中でキーワードwが出現する確率を乗じて算出する。
ここで、品詞クラスC中でキーワードwが出現する確率とは、品詞クラスC(例えば、固有名詞のクラス)に属するキーワードの個数の逆数である。
この場合、予め音声認識装置1Bで使用する語彙の設計において、例えば、一般に特殊な単語とみなされる固有名詞を除いておけば、固有名詞の単語に与えられる確率値が大きくなる。また、キーワードは、一般に固有名詞等限られた品詞であることが多いため、キーワードを含んだ出力系列の言語スコアの値に対して、実質的にボーナスを与えたことになる。
以上、本発明の実施の形態に係る音声認識装置1Bの構成について説明したが、本発明は、この構成に限定されるものではない。
例えば、予めキーワードが決まっているのであれば、構成からキーワード抽出手段21Bを省略し、直接、キーワード辞書221Bにキーワードと品詞とを登録することとしてもよい。また、参考例の実施の形態に係る音声認識装置1と同様、ペナルティ付与手段132b、音素列探索手段23、類似単語抽出手段24を省略して構成してもよい。
なお、音声認識装置1Bは、一般的なコンピュータを前記した各手段として機能させる音声認識プログラムによって動作させることができる。
(音声認識装置の動作)
次に、図9及び図10を参照(構成については図1参照)して、音声認識装置の動作について説明する。図9は、本発明の実施の形態に係る音声認識装置の言語モデルの更新動作を示すフローチャートである。図10は、本発明の実施の形態に係る音声認識装置の音声認識動作を示すフローチャートである。
〔言語モデルの更新動作〕
図9に示すように、まず、音声認識装置1Bは、キーワード抽出手段21Bによって、電子化されたキーワードを含んだ文書から、キーワードとその品詞を抽出する(ステップS21)。
そして、キーワード抽出手段21Bが、ステップS21で抽出したキーワードと、その品詞とを、キーワード辞書221Bとして記憶手段22に記憶する(ステップS22)。
その後、音声認識装置1Bは、音素列探索手段23によって、キーワード辞書221Bに含まれているキーワードの発音を示す音素列(キーワード音素列)を、発音辞書113から検索する(ステップS23)。
そして、音声認識装置1Bは、類似単語抽出手段24によって、ステップS23で探索されたキーワード音素列と、発音辞書113に登録されている単語の発音を示す登録単語音素列とに基づいて、キーワードに類似(同一を含む)する単語(類似単語)を抽出するとともに、その類似単語にペナルティ値を設定する(ステップS24)。
そして、音声認識装置1Bは、言語モデル更新手段25Bによって、ステップS22で記憶されたキーワード辞書221Bに登録されているキーワード及び品詞と、ステップS24で抽出された類似単語及びペナルティ値とに基づいて、言語モデル111Bを更新する。すなわち、音声認識装置1Bは、言語モデル更新手段25Bによって、学習テキストとして登録されている単語のうち、キーワードに相当する単語を、そのキーワードの品詞を示す固有の文字列に置換した後、学習テキストを学習することで品詞クラスの言語モデルを生成する(ステップS25)。
さらに、音声認識装置1Bは、言語モデル更新手段25Bによって、言語モデル111Bにおいて、類似単語を探索し、接続確率値を減算するペナルティ値を登録する(ステップS26)。
以上の動作によって、音声認識装置1Bは、電子化された文書からキーワードを抽出し、キーワードについては、品詞によりモデル化された言語モデルを生成する。
〔音声認識動作〕
次に、図10に示すように、音声認識装置1Bは、探索手段132Bによって、言語モデル111Bから、接続される出力系列の候補を探索する。
このとき、探索手段132Bは、候補となる単語が、キーワードとして登録されている単語であるか否かを判定し(ステップS31)、キーワードである場合(ステップS31でYes)は、ボーナス付与手段132Baによって、当該キーワードに対応する品詞の確率値を当該出力系列の確率値に加算し(ステップS32)、ステップS36へ進む。
さらに、探索手段132Bは、候補となる単語が、キーワードと類似する類似単語であるか否かを判定し(ステップS33)、類似単語である場合(ステップS33でYes)は、接続確率値からペナルティ値を減算した値を当該出力系列の確率値に加算し(ステップS34)、ステップS36へ進む。
一方、候補となる単語が、キーワードでもなく類似単語でもない場合は、当該単語に設定されている接続確率値を出力系列の確率値に加算する(ステップS35)。
さらに、音声認識装置1Bは、特徴抽出手段12によって、入力された音声(音声信号)を分析することで音声の特徴量を抽出し、音響類似度算出手段131によって、単語に振られた発音(音素)との類似度を出力系列に加算する(ステップS36)。
そして、探索手段132Bは、接続される単語がさらに継続するか否かを判定し(ステップS37)、継続する場合(ステップS37でYes)は、ステップS31に戻って、出力系列の確率値を加算していく。
そして、探索手段132Bは、すべての出力系列の候補の確率値を算出した段階で、確率値が最大となる出力系列を認識単語列として出力する(ステップS38)。
以上の動作によって、音声認識装置1Bは、キーワードの認識精度を高めた音声認識を行うことができる。
1 音声認識装置
11 記憶手段(言語モデル記憶手段、発音辞書記憶手段)
111 言語モデル
112 音響モデル
113 発音辞書
12 特徴抽出手段
13 単語列生成手段
131 音響類似度算出手段
132 探索手段
132a ボーナス付与手段(確率値増加手段)
132b ペナルティ付与手段(確率値減少手段)
21 キーワード抽出手段
22 記憶手段(キーワード記憶手段)
221 キーワード辞書
23 音素列探索手段
24 類似単語抽出手段
241 類似度測定手段
25 言語モデル更新手段

Claims (2)

  1. 言語モデルを用いて、入力音声を認識する音声認識装置において、
    特定のキーワードとその品詞を記憶するキーワード記憶手段と、
    語モデルを記憶する言語モデル記憶手段と、
    前記特定のキーワード以外の単語については当該単語の文字列を用い、前記特定のキーワードの単語については、前記キーワード記憶手段に記憶されている当該キーワードの品詞を示す固有の文字列に置き換えて学習することで、前記言語モデル記憶手段に記憶されている言語モデルを更新する言語モデル更新手段と、
    この言語モデル更新手段で更新された言語モデルにおいて、前記入力音声の単語列に対する確率値が最大となる経路を探索することで、認識結果である単語列を出力する単語列生成手段と、を備え、
    前記単語列生成手段が、
    前記キーワードの直前までの単語列の後に当該キーワードに対応する品詞クラスが出現する確率と、当該品詞クラス中で当該キーワードが出現する確率とを乗じた確率値を算出し、出力系列の確率値に加算する確率値増加手段を有していることを特徴とする音声認識装置。
  2. 特定のキーワードとその品詞を記憶するキーワード記憶手段と、言語モデルを記憶する言語モデル記憶手段とを備えた音声認識装置において、入力音声を認識するために、コンピュータを、
    前記特定のキーワード以外の単語については当該単語の文字列を用い、前記特定のキーワードの単語については、前記キーワード記憶手段に記憶されている当該キーワードの品詞を示す固有の文字列に置き換えて学習することで、前記言語モデル記憶手段に記憶されている言語モデルを更新する言語モデル更新手段、
    この言語モデル更新手段で更新された言語モデルにおいて、前記入力音声の単語列に対する確率値が最大となる経路を探索することで、認識結果である単語列を出力する単語列生成手段、として機能させ、
    前記単語列生成手段が、
    前記キーワードの直前までの単語列の後に当該キーワードに対応する品詞クラスが出現する確率と、当該品詞クラス中で当該キーワードが出現する確率とを乗じた確率値を算出し、出力系列の確率値に加算することを特徴とする音声認識プログラム。
JP2010275213A 2010-12-10 2010-12-10 音声認識装置及び音声認識プログラム Expired - Fee Related JP5124012B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010275213A JP5124012B2 (ja) 2010-12-10 2010-12-10 音声認識装置及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010275213A JP5124012B2 (ja) 2010-12-10 2010-12-10 音声認識装置及び音声認識プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2006049729A Division JP4764203B2 (ja) 2006-02-27 2006-02-27 音声認識装置及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2011048405A JP2011048405A (ja) 2011-03-10
JP5124012B2 true JP5124012B2 (ja) 2013-01-23

Family

ID=43834690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010275213A Expired - Fee Related JP5124012B2 (ja) 2010-12-10 2010-12-10 音声認識装置及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP5124012B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102332729B1 (ko) * 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
KR102292921B1 (ko) * 2014-12-08 2021-08-24 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
CN111161739B (zh) * 2019-12-28 2023-01-17 科大讯飞股份有限公司 语音识别方法及相关产品

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109491A (ja) * 1999-10-01 2001-04-20 Univ Waseda 連続音声認識装置および方法
JP2004013134A (ja) * 2002-06-12 2004-01-15 Nec Corp 音声認識装置及びその方法並びにプログラム
JP3913626B2 (ja) * 2002-07-17 2007-05-09 日本電信電話株式会社 言語モデル生成方法、その装置及びそのプログラム

Also Published As

Publication number Publication date
JP2011048405A (ja) 2011-03-10

Similar Documents

Publication Publication Date Title
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
US6934683B2 (en) Disambiguation language model
Karpov et al. Large vocabulary Russian speech recognition using syntactico-statistical language modeling
US20180286385A1 (en) Method and system for predicting speech recognition performance using accuracy scores
KR100717385B1 (ko) 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
WO2004034378A1 (ja) 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
Menacer et al. An enhanced automatic speech recognition system for Arabic
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
JP4758758B2 (ja) 辞書作成装置および辞書作成プログラム
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Veisi et al. Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2021529338A (ja) 発音辞書生成方法及びそのための装置
Huang et al. Task-independent call-routing
Sarikaya et al. Maximum entropy modeling for diacritization of arabic text
JP2010085522A (ja) 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法
Soltau et al. Automatic speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121026

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees