JP4758758B2 - 辞書作成装置および辞書作成プログラム - Google Patents

辞書作成装置および辞書作成プログラム Download PDF

Info

Publication number
JP4758758B2
JP4758758B2 JP2005371362A JP2005371362A JP4758758B2 JP 4758758 B2 JP4758758 B2 JP 4758758B2 JP 2005371362 A JP2005371362 A JP 2005371362A JP 2005371362 A JP2005371362 A JP 2005371362A JP 4758758 B2 JP4758758 B2 JP 4758758B2
Authority
JP
Japan
Prior art keywords
word
dictionary
words
text data
entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005371362A
Other languages
English (en)
Other versions
JP2007171724A (ja
Inventor
彰夫 小林
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2005371362A priority Critical patent/JP4758758B2/ja
Publication of JP2007171724A publication Critical patent/JP2007171724A/ja
Application granted granted Critical
Publication of JP4758758B2 publication Critical patent/JP4758758B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた学習テキストに基づいて、辞書を更新して作成する辞書作成装置および辞書作成プログラムに関する。
音声認識装置として、例えば、生の音声データ等が入力された場合に、音響モデル、言語モデルを利用して、この音声データ等を認識し、その認識結果を出力単語列として生成する装置が知られている。ここで、言語モデルとは、大量の音声データを利用して統計的計算手法によって求められた、音声データ中の単語間のつながり度合いを示す確率モデルの一種(接続確率)である。また、音響モデルとは、大量の音声データの波形パターンに基づいて求められた、音声データ中の波形パターンと単語との関係を示す確率モデルの一種である。
このうち、言語モデルは、複数の単語からなる辞書(語彙)に基づいて作成されている。通常、辞書は、単語(日本語ならば、自立語、付属語)を基盤としているが、音声認識装置における単語認識率を向上させるために、2つ以上の連続した単語を含む単語列から構成される複合語をさらに追加登録した辞書も存在する。従来、このような複合語を、通常の辞書に追加登録することによって、予め定められた登録語数の辞書を作成する場合に、辞書を基盤として予め作成された学習テキスト(例えば、ニュース原稿など)から、どのような複合語を選択して辞書に追加するかという基準が知られている(例えば、非特許文献1参照)。
この基準として、選択すべき複合語を、学習テキストにおける出現頻度の高い単語列とする方法(以下、出現頻度による方法という)と、学習テキストに採用した場合にエントロピー(単語の複雑性を示す指標、または、音声認識の難しさを示す指標)を減少させることのできる単語列とする方法(以下、エントロピーによる方法という)とのいずれか一方が一般的に採用されている。このうち、出現頻度による方法によれば、学習テキストに数多く出現する単語列が、追加登録すべき複合語の候補として優先的に抽出される。また、エントロピーによる方法によれば、複雑性の低い単語列(音声認識の容易な単語列)が、追加登録すべき複合語の候補として優先的に抽出される。
和田陽介、外3名、「大語彙連続音声認識における連鎖語の追加による語彙拡大の効果」、情報処理学会論文誌、社団法人情報処理学会、1999年、第40巻、第4号、p.1413−1420
一般的に、音声認識装置における単語認識率を向上させるためには、学習テキストにおけるエントロピーを減少させるような言語モデルを作成することが望ましい。しかしながら、出現頻度による方法で辞書を作成した場合には、学習テキストにおけるエントロピーを下げることができるとは限らない。つまり、複雑性の高い単語列(音声認識の難しい単語列)が選択される場合がある。そのため、この作成した辞書に基づいて言語モデルを作成した場合、音声認識装置における単語認識率が改善されない可能性がある。
一方、エントロピーによる方法で辞書を作成した場合には、学習テキストにおける出現頻度が高い単語列が必ずしも選択されるとは限らない。つまり、学習テキストに稀にしか出現しない単語列が選択される場合がある。そのため、この作成した辞書に基づいて言語モデルを作成した場合、音声認識装置における単語認識率を効果的に向上させるとは限らない。
本発明は、以上のような問題点に鑑みてなされたものであり、音声認識における利用された場合に、単語認識率を向上させることができる辞書を作成する辞書作成装置および辞書作成プログラムを提供することを目的とする。
前記目的を達成するために、本発明の請求項1に記載の辞書作成装置は、音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた文章に対して形態素解析された結果である単語区切りが予め付与されたテキストデータに基づいて、前記辞書を更新して作成する辞書作成装置であって、出現頻度計算手段と、エントロピー計算手段と、辞書更新手段と、判別手段と、テキストデータ更新手段と、を備えることとした。
かかる構成によれば、辞書作成装置は、出現頻度計算手段によって、前記テキストデータに出現する連続した2つ以上の単語からなる単語列の前記テキストデータにおける出現頻度を、前記テキストデータにおける所定数の前記単語列についてそれぞれ計算する。なお、所定数は、テキストデータの全体またはその一部で定められる個数である。そして、辞書作成装置は、エントロピー計算手段によって、出現頻度計算手段で計算された所定数の出現頻度のうち、当該出現頻度が上位で前記所定数より少ない第2の所定数の単語列について、前記テキストデータにおいて、1つの単語列を複数の単語ω ai ,ω bi とみなしたときのエントロピーH′(c と、1つの単語列を1つの単語 とみなしたときのエントロピーH(c との差分ΔH(c 式(5)で計算し、前記差分ΔH(c が前記第2の所定数の単語列の中で最大となる単語列を抽出する。ここで、エントロピーとは、単語の複雑性を示す指標、または、音声認識の難しさを示す指標であり、エントロピーが高いほど、単語の複雑性が増す、または、音声認識が難しくなる。そして、辞書作成装置は、辞書更新手段によって、エントロピー計算手段で抽出された単語列を1つの単語とみなした複合語として前記辞書に追加して、当該辞書を更新する。これによって、辞書が作成される。
また、辞書作成装置は、判別手段によって、辞書更新手段が辞書に追加した複合語の個数が第3の所定数であるか否かを判別し、追加された複合語の個数が第3の所定数に達していない場合、テキストデータの更新を指示する。そして、辞書作成装置は、テキストデータ更新手段によって、判別手段から更新を指示された場合、辞書更新手段で更新された辞書、または、エントロピー計算手段で抽出された単語列に基づいて、予め作成されたテキストデータに付与された単語区切りを更新することによってテキストデータを更新する。これによって、辞書作成装置は、出現頻度計算手段によって、更新されたテキストデータから単語列を選択し、エントロピー計算手段によって、エントロピーの差分が最大となる単語列を抽出し、辞書更新手段によって、複合語を辞書に追加することができる。そして、複合語の候補としての単語列の選択、抽出、複合語の追加というこの一連の処理を繰り返すことにより、複数の複合語を辞書に追加することができる。このとき、エントロピーの差分の大きい順番に正確に複合語を1つずつ選択することができる。その結果、音声認識に効果があると考えられる複合語を漏らすことなく複数の複合語を抽出することができる。
また、請求項に記載の辞書作成装置は、請求項1に記載の辞書作成装置において、前記テキストデータは、前記単語区切りと共に、係り受け解析された結果である文節区切りをさらに予め付与され、前記出現頻度計算手段が、前記単語列として、文節の境界を含まないものを選択することを特徴とする。
かかる構成によれば、辞書作成装置は、出現頻度計算手段によって、文節の境界を含まない単語列を選択して辞書を作成する。したがって、この作成された辞書が音声認識における言語モデルに採用された場合には、この文節境界を含む単語間において小休止によって生じる雑音の影響を排除する。一般に、発話における小休止は、文節内の単語間よりもむしろ文節境界を含む単語間に置かれることが多いと考えられる。したがって、この辞書作成装置によれば、単語認識率を向上させることができる。
また、請求項に記載の辞書作成プログラムは、音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた文章に対して形態素解析された結果である単語区切りが予め付与されたテキストデータに基づいて、前記辞書を更新して作成するために、コンピュータを、出現頻度計算手段、エントロピー計算手段、辞書更新手段、判別手段、テキストデータ更新手段として機能させることを特徴とする。
かかる構成によれば、辞書作成プログラムは、出現頻度計算手段によって、前記テキストデータに出現する連続した2つ以上の単語からなる単語列の前記テキストデータにおける出現頻度を、前記テキストデータにおける所定数の前記単語列についてそれぞれ計算する。そして、辞書作成プログラムは、エントロピー計算手段によって、出現頻度計算手段で計算された所定数の出現頻度のうち、当該出現頻度が上位で前記所定数より少ない第2の所定数の単語列について、前記テキストデータにおいて、1つの単語列を複数の単語ω ai ,ω bi とみなしたときのエントロピーH′(c と、1つの単語列を1つの単語 とみなしたときのエントロピーH(c との差分ΔH(c 式(5)で計算し、前記差分ΔH(c が前記第2の所定数の単語列の中で最大となる単語列を抽出する。そして、辞書作成プログラムは、辞書更新手段によって、エントロピー計算手段で抽出された単語列を1つの単語とみなした複合語として前記辞書に追加して、当該辞書を更新する。そして、辞書作成プログラムは、判別手段によって、辞書更新手段が辞書に追加した複合語の個数が第3の所定数であるか否かを判別し、追加された前記複合語の個数が前記第3の所定数に達していない場合、前記テキストデータの更新を指示する。そして、辞書作成プログラムは、テキストデータ更新手段によって、前記判別手段から更新を指示された場合、前記辞書更新手段で更新された辞書、または、前記エントロピー計算手段で抽出された単語列に基づいて、前記テキストデータに付与された前記単語区切りを更新する。
請求項1または請求項に記載の発明によれば、予め作成されたテキストデータにおいて出現が期待され、かつ、このテキストデータにおけるエントロピーを下げるような単語列を複合語として選択して辞書を作成するので、作成された辞書によって、音声認識における単語認識率を向上させることが可能になる。
請求項1または請求項3に記載の発明によれば、複数の複合語を辞書に追加する場合に、最適な複合語を1つずつ順番に辞書に登録し、他の単語に与える影響を考慮して漏れのないように辞書を更新することができる。その結果、作成された辞書によって、音声認識における単語認識率を向上させることが可能になる。
請求項に記載の発明によれば、文節の境界を含まない単語列を複合語として選択して辞書を作成するので、作成された辞書によって、発話に伴う小休止によって生じる雑音の影響を排除できる。その結果、音声認識における単語認識率を向上させることができる。
以下、本発明の実施の形態について図面を参照して説明する。
[音声認識システムの構成]
図1は、本発明の実施形態に係る辞書作成装置を含む音声認識システムの構成を示す機能ブロック図である。音声認識システム1は、辞書作成処理と、この作成された辞書を用いた言語モデル作成処理と、この作成された言語モデルを用いた音声認識処理とを実行するものであって、図1に示すように、学習テキストDB10と、辞書作成装置20と、語彙DB(辞書)30と、言語モデル作成装置40と、言語モデル記憶手段50と、音響モデル記憶手段60と、音声認識装置70とを備える。
学習テキストDB10は、音声認識に用いられる言語モデルを作成するための語彙DB(辞書)30に属する単語を用いた文章に対して形態素解析された結果である単語区切りと、係り受け解析された結果である文節区切りとが予め付与された学習テキスト(テキストデータ)を記憶したものであって、HDD(Hard Disk Drive)等の一般的な記録媒体である。なお、単語という場合、特に断らない限り、単語列も含んでいる。また、言語モデルとは、大量の音声データを利用して統計的計算手法によって求められた、音声データ中の単語間のつながり度合いを示す確率モデルの一種(接続確率)である。
この学習テキストDB10に記憶される学習テキストは、例えば、ニュース原稿あるいはニュース書き起こしなどのテキストデータである。この学習テキストは、事前に形態素解析により形態素(自立語や付属語などの単語)単位に分割されており、また、係り受け解析により文節区切りが付与されている。ここで、形態素とは、これ以上に細かくすると意味がなくなってしまう最小の文字列をいい、形態素解析とは、文章を形態素のレベルまで分解して解析することである。また、係り受け解析とは、文章を文節に区切ると共に、ある文節に含まれる着目している単語が、他の文節に含まれる単語にどのように係るかを、品詞毎に予め定められた係り可能性に基づいて解析することである。例えば、日本語の「今日の天気は晴れです」という文章に対して単語区切りと文節区切りとが付与されたテキストデータでは、「(今日/の/)(天気/は/)(晴れ/です)」等のように区切られている。なお、記号( )は文節区切りを示し、記号/は、単語区切りを示している。
辞書作成装置20は、学習テキストDB10に基づいて、語彙DB(辞書)30を更新して作成するものである。この辞書作成装置20は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)と、HDDと、入出力インターフェース等(図示を省略)とを備え、CPUがHDD等に格納されたプログラムをRAMに展開することにより後記する各種機能を実現する。
語彙DB(辞書)30は、音声認識に用いられる言語モデルを作成するための複数の単語(この体系を語彙という)を予め記憶したものであって、HDD等の一般的な記録媒体である。以下、語彙DB(辞書)30を単に辞書30という場合もある。この辞書30には、2つの連続した単語からなる単語列が追加登録される。この追加登録される単語列を複合語(または連鎖語)という。なお、辞書30に予め記憶する語彙数は任意でよい。また、辞書30に学習テキストDB10としての機能を含む(学習テキストを記憶する)ように構成してもよい。
言語モデル作成装置40は、辞書30に基づいて、統計的な処理により、言語モデル(統計的言語モデル、または、確率的言語モデル:例えば、「確率的言語モデル」北研二、東京大学出版会、pp.57−62参照)を作成し、作成した言語モデルを言語モデル記憶手段50に格納するものである。この言語モデル作成装置40は、CPUと、ROMと、RAMと、HDDと、入出力インターフェース等とを備え、CPUがHDD等に格納されたプログラムをRAMに展開することにより言語モデル作成機能を実現する。なお、この言語モデルの作成に関しては、例えば、特開2002−366190号公報に記載されている方法を適用することができる。
言語モデル記憶手段50は、言語モデル作成装置40で作成された言語モデルを記憶したものであって、HDD等の一般的な記録媒体である。
音響モデル記憶手段60は、大量の音声データの波形パターンに基づいて求められた、音声データ中の波形パターンと単語との関係を示す確率モデルの一種(音響的な特徴量)である音響モデルを音素ごとに記憶したものであって、HDD等の一般的な記録媒体である。なお、音響モデルは、例えば、隠れマルコフモデル(HMM)によるものである。
音声認識装置70は、生の音声データや生の音声データから抽出された特徴量等が入力された場合に、言語モデル記憶手段50および音響モデル記憶手段60にそれぞれ記憶された言語モデルおよび音響モデルを利用して、入力された音声データや音声データの特徴量を認識し、その認識した結果を出力単語列(テキストデータ)として生成するものである。この音声認識装置70は、CPUと、ROMと、RAMと、HDDと、入出力インターフェース等とを備え、CPUがHDD等に格納されたプログラムをRAMに展開することにより後記する各種機能を実現する。具体的には、音声認識装置70は、入力音声等から認識結果を得るために、一例として、図1に示すように、発音単語記憶手段71と、音響分析手段72と、音響スコア計算手段73と、言語スコア計算手段74と、単語候補検索手段75と、テキストデータ変換手段76とを備えている。
発音単語記憶手段71は、音素(または音素列)を単語別に記憶したものであって、HDD等の一般的な記録媒体である。
音響分析手段72は、入力装置Mから入力された音声から音素ごとの特徴量を抽出し、音響スコア計算手段73に出力するものである。ここで、音素ごとの特徴量とは、例えば、各個人で異なる声の性質を示す指標となるケプストラム距離である。また、入力装置Mは例えばマイクである。
音響スコア計算手段73は、入力された音声等と音響モデル記憶手段60に記憶された音響モデルとの類似度である音響スコアを計算し、単語候補検索手段75に出力するものである。なお、音響スコアとしては、単語候補としてふさわしいものほど値が大きくなるものであればよく、公知のものを用いることができる。
言語スコア計算手段74は、言語モデル記憶手段50に記憶された言語モデルを用いて、音響スコア計算手段73で計算された音響スコアを生成する音素(または音素列)を示す単語候補について、単語としての接続確率を反映した言語スコアを計算し、単語候補検索手段75に出力するものである。なお、言語スコアとしては、単語候補としてふさわしいものほど値が大きくなるものであればよく、公知のものを用いることができる。
単語候補検索手段75は、音響スコア計算手段73で計算される音響スコアと、言語スコア計算手段74で計算される言語スコアとの和を最大とする単語候補を出力すべき単語として発音単語記憶手段71から検索するものである。この単語候補検索手段75は、音響スコアと言語スコアとの和が最大であるか否かを判別し、最大である場合に、そのときの単語候補を発音単語記憶手段71から抽出し、テキストデータ変換手段76に出力する。
テキストデータ変換手段76は、単語候補検索手段75で検索された単語候補をテキストデータに変換して出力装置Dに出力するものである。なお、出力装置Dは、画像を表示するものであれば何でもよく、例えば、液晶ディスプレイ、CRT等であり、音声を出力するスピーカ等を含んでいてもよい。
[辞書作成装置の構成]
図2は、図1に示した辞書作成装置の構成を示す機能ブロック図である。
辞書作成装置20は、学習テキストDB10から単語列を複数選択し、選択した複数の単語列の中から最適な単語列を複合語として辞書30に登録するために、図2に示すように、出現頻度計算手段21と、エントロピー計算手段22と、語彙更新手段(辞書更新手段)23と、判別手段24と、学習テキスト更新手段(テキストデータ更新手段)25とを備えている。
出現頻度計算手段21は、学習テキストDB10に記憶された学習テキスト(テキストデータ)に出現する連続した2つの単語からなる単語列(以下、単語ペアという)の学習テキストにおける出現頻度を、学習テキストにおける所定数の単語ペアについてそれぞれ計算し、出現頻度が上位で前記所定数より少ない第2の所定数(N個)の単語ペアをエントロピー計算手段22に出力するものである。ここで、所定数は、学習テキストの全体またはその一部で定められる個数である。この出現頻度計算手段21は、ここでは、単語ペアとして、文節の境界を含まないもの(文節区切りをまたがないもの)のみを選択して出現頻度を計算する。また、出現頻度計算手段21は、学習テキスト更新手段25の指示に基づいて、更新された学習テキストによる出現頻度の計算を行う。
ここで、出現頻度の計算方法の一例を示す。例えば、想定している学習テキストに、単語「きょう」から接続する単語として、単語「が」、単語「は」、単語「の」がそれぞれ「20個」、「30個」、「50個」存在し、合わせて全体で「100個」であるとする。この場合には、単語ペア「きょう が」の出現頻度は「0.2(=20/100)」、「きょう は」の出現頻度は「0.3」、「きょう の」の出現頻度は「0.5」となる。
エントロピー計算手段22は、出現頻度計算手段21から入力される上位N個(第2の所定数)の単語ペアについて、学習テキストDB10に記憶された学習テキストにおいて、1つの単語ペアを2つ(複数)の単語とみなしたときのエントロピーと、この単語ペアを1つの単語とみなしたときのエントロピーとの差分をそれぞれ計算し、この差分が上位N個の単語ペアの中で最大となる単語ペアを複合語として抽出し、語彙更新手段23に出力するものである。ここで、エントロピーとは、単語の複雑性を示す指標、または、音声認識の難しさを示す指標であり、エントロピーが高いほど、単語の複雑性が増す、または、音声認識が難しくなる(参考図書:「確率モデルによる音声認識」中川聖一、電子情報通信学会、pp.111)。具体的には、エントロピー計算手段22は、想定している単語ペアを含む単語列のみを対象とした部分エントロピーを計算する。つまり、想定している単語ペアと、その前後の単語とからなる単語列を考慮したバイグラム(bigram)モデルで部分エントロピーを計算する。以下では、単にエントロピーという場合には、この部分エントロピーを指している。
このエントロピー計算手段22は、後記する式(1)〜式(6)に基づいて、エントロピーの計算処理および複合語の抽出処理を実行する。ここでは、これらの式の前提を以下のように定めることとしている。
まず、エントロピー計算手段22に入力される単語ペア(複合語候補)について、N個のうちのi番目の単語ペアを、2つの単語とみなしたときに(前の単語をWord a、後ろの単語をWord bとみなしたときに)「ωai ωbi」で表記することとし、また、1つの単語とみなしたときに(combinationしたときに)「c」で表記することとする。
また、エントロピー計算手段22に入力される単語ペアを学習テキストに採用する前(当該単語ペアを2つの単語とみなしたとき)に辞書30に記憶されている語彙を「V′」、エントロピー計算手段22に入力される単語ペアを学習テキストに採用したと想定した場合(当該単語ペアを1つの単語とみなしたとき)に辞書30に記憶されている語彙を「V」で表記することとする。
さらに、語彙V′(2つの単語とみなしたとき)および語彙V(1つの単語とみなしたとき)をそれぞれ反映して、単語区切りおよび文節区切りが付与された学習テキストを区別する場合に、それぞれを「11a」、「11b」で表すこととする。なお、本実施形態の場合には、学習テキスト11a(2つの単語とみなしたとき)と、学習テキスト11b(1つ単語とみなしたとき)とは、文節区切りが同一となる。
エントロピー計算手段22に入力するi番目の単語ペアc(≡ωai ωbi)が、学習テキスト11a(例えば、図5参照)において、前の単語ωに続いて出現し、その後に単語ωが続いて出現している場合には(ただし、ω,ω∈V′)、この単語ペアを含む単語列は、学習テキスト11aにおいて、「ω,ωai,ωbi,ω」のように並べられていることとなる。この場合には、i番目の単語ペアcを採用する前の学習テキスト11aにおける部分エントロピーH′(c)は、式(1)で示される。
Figure 0004758758
ここで、P(ω,ωai,ωbi,ω)は、この単語ペアを含む単語列が学習テキスト11a(例えば、図5参照)において、この順番で出現する生成確率を示している。この生成確率Pについて、式(2)に示す近似を用いる。
Figure 0004758758
ここで、P(ω|X)と表記した場合に、数式中の「X」は、履歴(バイグラムモデルでは1つの単語:横書きでは、単語ωの左にある単語)を示し、数式P(ω|X)は、単語Xに続いて単語ωが出現する接続確率(条件)を示している。
同様に、エントロピー計算手段22に入力されるi番目の単語ペアc(≡ωai ωbi)が、単語ペアcを採用したと想定した場合の学習テキスト11b(例えば、図5参照)において、前の単語ωに続いて出現し、その後に単語ωが続いて出現しているとする(ただし、ω,ω∈V)。ここで、語彙Vは、式(1)中の語彙V′とは異なる。この場合には、この単語ペアcを含む単語列は、学習テキスト11bにおいて、「ω,c,ω」のように並べられていることとなる。したがって、学習テキスト11bにおける部分エントロピーH(c)は、式(3)で示される。
Figure 0004758758
ここで、P(ω,c,ω)は、この単語ペアを含む単語列が学習テキスト11b(例えば、図5参照)において、この順番で出現する生成確率を示している。この生成確率Pについて、式(4)に示す近似を用いる。
Figure 0004758758
エントロピー計算手段22は、前記した式(1)〜式(4)から求められる式(5)に基づいて、単語ペアcを2つ(複数)の単語とみなしたときのエントロピーと、単語ペアcを1つの単語とみなしたときのエントロピーとの差分ΔH(c)を算出する。この差分ΔH(c)は、i番目の単語ペアcを仮に複合語として辞書30に追加した場合に、その影響によって、辞書30に追加する前に比べてどれだけエントロピーが低下するか(複雑性が低下するか)を示しており、この差分ΔH(c)が大きいほど辞書30に追加することが好ましい単語ペアと言える。
Figure 0004758758
そして、エントロピー計算手段22は、式(6)に基づいて、入力されたN個の単語ペアcに亘って前記した式(5)で求められた差分ΔH(c)から、その最大値を有する単語ペアcを抽出し、複合語cとして語彙更新手段23に出力する。
Figure 0004758758
ただし、argmax f(x)は、変数xに関する関数f(x)に対して、f(x)が最大になる変数xを求めることを示している。
語彙更新手段(辞書更新手段)23は、エントロピー計算手段22で抽出された単語ペアを1つの単語とみなした複合語cとして、辞書30に追加(登録)して、当該辞書30を更新するものである。この語彙更新手段23は、辞書30の更新のたびに、更新したことを示す信号を判別手段24に出力する。辞書30の更新により、辞書30に更新前に記憶されていた語彙「V′」は語彙「V」となる。なお、辞書30を全く更新していないときに格納されている語彙を「V」、M回更新したときに辞書30に格納されている語彙を「V」と表記する。
判別手段24は、辞書30に追加登録された複合語の個数がM個(予め定められた第3の所定数)であるか否かを判別するものである。ここで、Mは、追加すべき複合語の個数を示し、予め図示しない入力手段によって入力されるか、または、図示しない記憶手段に記憶されている。この判別手段24は、具体的には、語彙更新手段23から出力される信号の入力回数をカウントすることにより、辞書30にM個の複合語が追加登録されたか否かを判定する。判別手段24は、追加登録された複合語の個数がM個に達していない場合に、学習テキストDB10に記憶された学習テキストの更新を学習テキスト更新手段25に指示する。なお、判別手段24は、辞書30に追加登録された複合語の個数で判別する代わりに、辞書30に登録されている単語(複合語を含む)の総数が、「辞書30の当初の語彙数」とMとの和に達したか否かを判別するようにしてもよい。
学習テキスト更新手段(テキストデータ更新手段)25は、判別手段24から更新を指示された場合に、語彙更新手段23で更新された辞書30に基づいて、学習テキストDB10に記憶された学習テキストに付与された単語区切りを更新することにより、学習テキストを更新し、この更新された学習テキストによる出現頻度の計算を出現頻度計算手段21に指示するものである。ここで、単語区切りの更新とは、具体的には、日本語の場合には、更新前の学習テキスト11a(例えば、図5参照)に含まれる1つの文節内にある「自立語A+自立語B」や、「自立語A+付属語C」といった単語ペアが、更新後の学習テキスト11b(例えば、図5参照)において、「複合語AB」や、「複合語AC」に変化することである。このために、学習テキスト11bにおいては、「自立語A」から「自立語B」への接続確率や、「自立語A」から「付属語C」への接続確率が、学習テキスト11aで求められたものと異なる。さらに、学習テキスト11bにおいては、「複合語AC」から他の単語への接続確率や、別の単語から「複合語AC」への接続確率などが新たに生じることとなる。なお、学習テキスト更新手段25は、エントロピー計算手段22で抽出された複合語が辞書30に登録される前に、この抽出された複合語に基づいて、学習テキストを更新するようにしてもよい。
[音声認識システムの動作]
次に、図3を参照(適宜図1参照)して、図1に示した音声認識システム1の動作について説明する。図3は、図1に示した音声認識システムの動作を示すフローチャートであって、(a)は言語モデル作成処理、(b)は音声認識処理を示している。
音声認識システム1では、図3の(a)に示すように、言語モデル作成処理において、まず、辞書作成装置20は、学習テキストDB10に基づいて、語彙DB(辞書)30を更新して作成する(ステップS1)。そして、言語モデル作成装置40が、語彙DB(辞書)30に基づいて、統計的な処理により、言語モデルを作成し(ステップS2)、作成した言語モデルを言語モデル記憶手段50に格納する。
また、音声認識システム1は、図3の(b)に示すように、音声認識処理において、まず、音声認識装置70は、入力装置Mによって、音声を入力し(ステップS11)、音響分析手段72によって、入力装置Mから入力された音声から音素ごとの特徴量を抽出する(ステップS12)。そして、音声認識装置70は、音響スコア計算手段73によって、入力された音声と音響モデルとの類似度である音響スコアを計算する(ステップS13)。続いて、音声認識装置70は、言語スコア計算手段74によって、音響スコア計算手段73で計算された音響スコアを生成する音素を示す単語候補について、言語スコアを計算する(ステップS14)。
そして、音声認識装置70は、単語候補検索手段75によって、音響スコアと言語スコアとの和が最大であるか否かを判別する(ステップS15)。音響スコアと言語スコアとの和が最大ではない場合(ステップS15:No)、音声認識装置70は、ステップS13に戻る。一方、音響スコアと言語スコアとの和が最大である場合(ステップS15:Yes)、音声認識装置70は、単語候補検索手段75によって、そのときの単語候補をテキストデータ変換手段76に出力する。続いて、音声認識装置70は、テキストデータ変換手段76によって、当該単語候補をテキストデータとして出力装置Dに出力する(ステップS16)。これにより、出力装置Dは、入力音声に対応した文字(テキストデータ)を表示する。
[辞書作成装置の動作]
次に、図4を参照(適宜図2参照)して、辞書作成装置20の動作(音声認識システム1の言語モデル作成処理におけるステップS1の処理)について説明する。図4は、図2に示した辞書作成装置の動作を示すフローチャートである。前提として、辞書作成装置20には、追加すべき複合語の個数「M」が、予め図示しない入力手段によって入力されるか、または、図示しない記憶手段に記憶されている。
まず、辞書作成装置20は、出現頻度計算手段21によって、学習テキストDB10に記憶された学習テキストに基づいて、単語ペアの出現頻度を所定数の単語ペアについて、それぞれ計算し、上位N個の単語ペアを出力する(ステップS21)。そして、辞書作成装置20は、エントロピー計算手段22によって、前記した式(5)に基づいて、単語ペアを学習テキストに採用する前後のエントロピー(部分エントロピー)の差分を算出し、前記した式(6)に基づいて、その差分の最大値を有する単語ペアを抽出する(ステップS22)。そして、辞書作成装置20は、語彙更新手段23によって、抽出された単語ペアを複合語として語彙DB(辞書)30に登録する(ステップS23)。
続いて、辞書作成装置20は、判別手段24によって、語彙DB(辞書)30に追加登録された複合語の個数がM個であるか否かを判別する(ステップS24)。複合語の個数がM個である場合(ステップS24:Yes)、辞書作成装置20は、処理を終了する。一方、複合語の個数がM個ではない場合(ステップS24:No)、辞書作成装置20は、学習テキスト更新手段25によって、語彙更新手段23で更新した辞書30に基づいて、学習テキストDB10に記憶された学習テキストを更新し(ステップS25)、ステップS21に戻る。
[具体的な辞書作成例]
次に、図5を参照(適宜図2参照)して、辞書作成装置20の具体的な辞書作成例を説明する。図5は、図2に示した辞書作成装置の動作の具体例を示す説明図であって、(a)は更新前の学習テキストの例、(b)はエントロピーの差分の例、(c)は更新後の学習テキストの例を示している。
例えば、ニュース原稿として、「きょうのニュースです」、「為替と株の値動きです」、「総理官邸から中継です」などの文章が用意されているものとする。この場合、図5の(a)に示すように、学習テキスト11aには、文節区切りと、単語区切り(「/(スラッシュ)」で図示する)が予め施されて、学習テキストDB10に記憶される。すなわち、これらのニュース原稿は、学習テキスト11aにおいて、文節501「きょう/の/」、文節502「ニュース/です/」、文節511「為替/と/」、文節512「株/の/」、文節513「値動き/です」、文節521「総理/官邸/から/」、文節522「中継/です」等に区切られることとなる。
そして、辞書作成装置20は、出現頻度計算手段21によって、この学習テキスト11aに出現する単語ペアの出現頻度を計算し、エントロピー計算手段22によって、エントロピー(部分エントロピー)の差分を前記した式(5)に基づいて計算する。その結果、エントロピーの差分は、例えば、図5の(b)に示すように、求められる。この場合には、候補No.が「4」のときに、エントロピーの差分が「+20.0」であり、最大となっていることから、辞書作成装置20は、エントロピー計算手段22によって、前記した式(6)に基づいて、候補No.が「4」である単語ペア「株 の」を追加登録すべき複合語cとして抽出する。そして、辞書作成装置20は、学習テキスト更新手段25によって、学習テキスト11aに付与された単語区切りを更新する。具体的には、学習テキスト更新手段25は、候補No.が「4」である単語ペア「株 の」について、単語「株」と、単語「の」との間の単語区切りを除去して新たな単語区切りを学習テキストに付与する。その結果、図5の(c)に示すように、文節内での単語区切り(/)が更新されて施される。すなわち、更新前の学習テキスト11aに含まれていた文節512「株/の/」(図5の(a)参照)から単語区切り(/)が除去された文節514「株の/」が作成される。
本実施形態の辞書作成装置20によれば、学習テキストにおいて出現が期待され、かつ、この学習テキストにおけるエントロピーを下げるような単語ペアを複合語として選択して辞書30を更新して作成する。また、複数の複合語を辞書30に追加する場合に、最適な複合語を1つずつ順番に辞書30に登録し、他の単語に与える影響を考慮して漏れのないように辞書30を更新することができる。その結果、作成された辞書30が音声認識に利用された場合に、単語認識率を向上させることが可能になる。特に、辞書作成装置20は、文節の境界を含まない単語列を複合語として選択して辞書を作成するので、発話に伴う小休止によって生じる雑音の影響を排除するという優れた効果を奏する。
以上、実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。例えば、辞書作成装置20の各構成を一つずつの過程と捉えた辞書作成方法とみなすことや、各構成の処理を汎用のコンピュータ言語で記述した辞書作成プログラムとみなすことも可能である。この場合、辞書作成装置20と同様の効果を得ることができる。
また、図1に示した音声認識システム1では、辞書作成装置20、言語モデル作成装置40および音声認識装置70は、それぞれが、CPUと、ROMと、RAMと、HDDと、入出力インターフェース等を備えるものとして説明したが、言語モデル作成装置40および音声認識装置70は、辞書作成装置20とハードウェアの一部または全部を共通にして、プログラムを実行することによりそれぞれの機能を実現するようにしてもよい。
また、辞書作成装置20の出現頻度計算手段21は、単語ペアとして、文節の境界を含まない単語列のみについて出現頻度を計算するものとして説明したが、このような制限は本発明の必須条件ではない。ただし、この制限を加えることにより、発声に伴って文節の境界を含む単語間における小休止によって生じる雑音の影響を排除できるので、単語認識率を向上させることができる。したがって、このような方法で出現頻度の計算対象とする単語ペアの個数を制限することが好ましい。
この単語ペアの個数を制限する条件は、文節の境界を含むか否かに限定されるものではなく、複合語候補を構成する単語の文字数(前の単語の文字数、後ろの単語の文字数、または、両単語の合計文字数)が所定の文字数以内の単語列のものだけを計算対象とするようにしてもよい。また、複合語候補を構成する単語のモ−ラ数(拍数、または、仮名文字の個数)によって単語ペアの個数を制限するようにしてもよい。なお、このモーラ数も前の単語、後ろの単語、あるいは、両単語の合計のいずれかを考慮できる。また、文節の境界を含まないという条件を同時に加えるようにしてもよい。
また、この計算対象とする単語ペアに対して、文節の境界を含まないという制限をすることなく、文字数やモーラ数だけで制限する場合には、形容詞とそれに続く名詞のように文節境界をまたぐ単語列の中で小休止がほとんどない単語列でも複合語として取り込むことが可能になる。例えば、文字数やモーラ数を単語の前後で2つずつとして、単語ペア「(白い/)(犬/)」を「(白い犬/)」のように複合した場合には、前の単語「しろい」の「い」と、後ろの単語「いぬ」の「い」とが同一であることから、個々の単語に対応した認識をするよりも、追加された複合語で認識する方が単語認識率を向上できると考えられる。
また、辞書作成装置20の出現頻度計算手段21は、単語ペアとして、連続した2つの単語からなる単語列に関して出現頻度を計算するものとして説明したが、単語列を構成する単語の個数は、これに限定されず、2個以上であればよい。例えば、本実施形態のように、文節の境界を含まない単語列に限定する場合には、最大では、1つの文節を構成する単語の数まで可能である。つまり、1つの文節が3単語で構成されていれば、出現頻度計算手段21は、単語ペア(2単語)だけではなく、連続した3つの単語からなる単語列に関しても出現頻度を計算することとなる。また、文節の境界を含まないという条件を用いない場合には、単語列を構成する単語の個数に特段の制限はなくなる。この場合には、例えば、テレビやラジオから出力される音声を認識対象としたときに、挨拶文などの決まり文句や、長い熟語から成る専門用語などを複合語として追加した辞書を作成しておくことにより、単語認識率を向上させることが可能になる。
次に、本発明の効果を確認した実施例について説明する。辞書作成装置20を用いて、作成した辞書に基づいて作成された言語モデルによる音声認識結果(実施例)と、複合語を含まない辞書に基づいて作成された言語モデルによる音声認識結果(比較例1:ベースライン)と、従来のように学習テキストにおける出現頻度のみに基づいて作成された言語モデルによる音声認識結果(比較例2:出現頻度)とを比較した。
[音声認識実験]
音声認識システム1(図1参照)において、音声認識装置70のマイクMに入力する評価データ(入力音声)は、2004年7月1日から2004年7月21日までに複数の男性により発声されたニュース文のうち、主としてアナウンサーと記者との対談500文(7,379単語)である。音声認識装置70によって、評価データ(入力音声)がテキストデータに変換されたときの単語認識率(単語正解精度)Accuracyは、式(7)で示される。
Figure 0004758758
ここで、式(7)の右辺の「#Insertions」は、入力音声がテキストデータに変換されたときに入った余計な訳出単語の数(挿入単語数)であり、「#Matched Words」は、正しく訳出された単語の数(正解単語数)であり、「#Correct Words」は、出力されるべきテキストデータに含まれる単語の数(正解単語数+誤った訳出単語数+未訳出単語数)である。
また、音声認識システム1(図1参照)において、語彙DB(辞書)30には、20,000単語から成る語彙が記憶された。また、学習テキストDB10には、20,000単語の語彙を用いたニュース原稿および放送書き起こしの400万文章(合計1億2,700万単語)が記憶された。実際には、そのうちの100万文章(所定数)を利用して言語モデルを作成した。また、言語モデル作成装置40は、トライグラム(trigram)モデルの言語モデルを作成した。また、実施例および比較例2で追加登録した複合語の個数は、1,000個とした(M=1.000)。
この音声認識実験では、評価データである500文(7,379単語)全体を音声認識に用いて、実施例、比較例1および比較例2の結果を得た。また、評価データを、読み上げスタイル(入力音声が雑音や発話スタイルに影響されにくい箇所、252文)と、それ以外の部分(248文)とに分けた場合の音声認識実験も行い、それぞれの単語認識率を得た。これらの音声認識結果を表1に示す。
Figure 0004758758
表1に示すように、評価データ全体の結果によれば、実施例では、単語認識率が「82.1%」であり、比較例1の「81.6%」および比較例2の「81.7%」に比べて、単語認識率が向上した。ここで、複合語を追加した比較例2(出現頻度)は、複合語のない場合(比較例1)と比べて「0.1%」の増加であったが、実施例は、「0.5%」も増加した。つまり、実施例の増加率は、比較例2(出現頻度)の増加率の5倍であった。
また、表1に示すように、読み上げスタイルの部分の結果によれば、比較例2(出現頻度)は、複合語を追加したにも関わらず、比較例1(ベースライン)よりも「0.3%」も単語認識率が低下した。一方、実施例では、単語認識率が比較例1(ベースライン)よりも「0.2%」向上した。これは、実施例は、比較例2(出現頻度)のように複合語を追加したにも関わらず、辞書に追加登録する複合語の選択の仕方が比較例2(出現頻度)と異なるために、比較例2(出現頻度)に生じた単語認識率の低下を回避することができたと考えられる。そして、実施例は、入力音声の発話スタイルに影響されること無く、むしろ、単語認識率を向上させることができた。なお、読み上げスタイル以外の部分の結果は、評価データ全体の結果と同様なものであった。
以上まとめると、辞書作成装置20によって作成した辞書(実施例に相当)は、複合語を含まない辞書(比較例1に相当)や、学習テキストにおける出現頻度のみに基づいて作成された辞書(比較例2に相当)に比べて、音声認識における単語認識率を向上させることのできる言語モデルを作成するために有効であった。
本発明の実施形態に係る辞書作成装置を含む音声認識システムの構成を示す機能ブロック図である。 図1に示した辞書作成装置の構成を示す機能ブロック図である。 図1に示した音声認識システムの動作を示すフローチャートであって、(a)は言語モデル作成処理、(b)は音声認識処理を示している。 図2に示した辞書作成装置の動作を示すフローチャートである。 図2に示した辞書作成装置の動作の具体例を示す説明図であって、(a)は更新前の学習テキストの例、(b)はエントロピーの差分の例、(c)は更新後の学習テキストの例を示している。
符号の説明
1 音声認識システム
10 学習テキストDB
20 辞書作成装置
21 出現頻度計算手段
22 エントロピー計算手段
23 語彙更新手段(辞書更新手段)
24 判別手段
25 学習テキスト更新手段(テキストデータ更新手段)
30 語彙DB(辞書)
40 言語モデル作成装置
50 言語モデル記憶手段
60 音響モデル記憶手段
70 音声認識装置
71 発音単語記憶手段
72 音響分析手段
73 音響スコア計算手段
74 言語スコア計算手段
75 単語候補検索手段
76 テキストデータ変換手段
M 入力装置
D 出力装置

Claims (3)

  1. 音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた文章に対して形態素解析された結果である単語区切りが予め付与されたテキストデータに基づいて、前記辞書を更新して作成する辞書作成装置であって、
    前記テキストデータに出現する連続した2つ以上の単語からなる単語列の前記テキストデータにおける出現頻度を、前記テキストデータにおける所定数の前記単語列についてそれぞれ計算する出現頻度計算手段と、
    この出現頻度計算手段で計算された所定数の出現頻度のうち、当該出現頻度が上位で前記所定数より少ない第2の所定数の単語列について、前記テキストデータにおいて、1つの単語列を複数の単語ω ai ,ω bi とみなしたときのエントロピーH′(c と、1つの単語列を1つの単語 とみなしたときのエントロピーH(c との差分ΔH(c 以下の式(5)で計算し、前記差分ΔH(c が前記第2の所定数の単語列の中で最大となる単語列を抽出するエントロピー計算手段と、
    このエントロピー計算手段で抽出された単語列を1つの単語とみなした複合語として前記辞書に追加して、当該辞書を更新する辞書更新手段と、
    前記辞書更新手段によって辞書に追加された複合語の個数が第3の所定数であるか否かを判別し、追加された前記複合語の個数が前記第3の所定数に達していない場合、前記テキストデータの更新を指示する判別手段と、
    前記判別手段から更新を指示された場合、前記辞書更新手段で更新された辞書、または、前記エントロピー計算手段で抽出された単語列に基づいて、前記テキストデータに付与された前記単語区切りを更新するテキストデータ更新手段と、
    を備えることを特徴とした辞書作成装置。
    Figure 0004758758
    なお、前記式(5)では、ω ,ω が単語であり、V′が前記1つの単語列を前記複数の単語ω ai ,ω bi とみなしたときに前記辞書に記憶されている語彙であり、Vが前記1つの単語列を前記1つの単語c とみなしたときに前記辞書に記憶されている語彙であり、P(ω|X)が単語Xに続いて単語ωが出現する接続確率である。
  2. 前記テキストデータは、前記単語区切りと共に、係り受け解析された結果である文節区切りをさらに予め付与され、
    前記出現頻度計算手段は、前記単語列として、文節の境界を含まないものを選択することを特徴とする請求項1に記載の辞書作成装置。
  3. 音声認識に用いられる言語モデルを作成するための辞書に属する単語を用いた文章に対して形態素解析された結果である単語区切りが予め付与されたテキストデータに基づいて、前記辞書を更新して作成するために、コンピュータを、
    前記テキストデータに出現する連続した2つ以上の単語からなる単語列の前記テキストデータにおける出現頻度を、前記テキストデータにおける所定数の前記単語列についてそれぞれ計算する出現頻度計算手段、
    この出現頻度計算手段で計算された所定数の出現頻度のうち、当該出現頻度が上位で前記所定数より少ない第2の所定数の単語列について、前記テキストデータにおいて、1つの単語列を複数の単語ω ai ,ω bi とみなしたときのエントロピーH′(c と、1つの単語列を1つの単語 とみなしたときのエントロピーH(c との差分ΔH(c 以下の式(5)で計算し、前記差分ΔH(c が前記第2の所定数の単語列の中で最大となる単語列を抽出するエントロピー計算手段、
    このエントロピー計算手段で抽出された単語列を1つの単語とみなした複合語として前記辞書に追加して、当該辞書を更新する辞書更新手段、
    前記辞書更新手段によって辞書に追加された複合語の個数が第3の所定数であるか否かを判別し、追加された前記複合語の個数が前記第3の所定数に達していない場合、前記テキストデータの更新を指示する判別手段、
    前記判別手段から更新を指示された場合、前記辞書更新手段で更新された辞書、または、前記エントロピー計算手段で抽出された単語列に基づいて、前記テキストデータに付与された前記単語区切りを更新するテキストデータ更新手段、
    として機能させることを特徴とする辞書作成プログラム。
    Figure 0004758758
    なお、前記式(5)では、ω ,ω が単語であり、V′が前記1つの単語列を前記複数の単語ω ai ,ω bi とみなしたときに前記辞書に記憶されている語彙であり、Vが前記1つの単語列を前記1つの単語c とみなしたときに前記辞書に記憶されている語彙であり、P(ω|X)が単語Xに続いて単語ωが出現する接続確率である。
JP2005371362A 2005-12-26 2005-12-26 辞書作成装置および辞書作成プログラム Active JP4758758B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005371362A JP4758758B2 (ja) 2005-12-26 2005-12-26 辞書作成装置および辞書作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005371362A JP4758758B2 (ja) 2005-12-26 2005-12-26 辞書作成装置および辞書作成プログラム

Publications (2)

Publication Number Publication Date
JP2007171724A JP2007171724A (ja) 2007-07-05
JP4758758B2 true JP4758758B2 (ja) 2011-08-31

Family

ID=38298345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005371362A Active JP4758758B2 (ja) 2005-12-26 2005-12-26 辞書作成装置および辞書作成プログラム

Country Status (1)

Country Link
JP (1) JP4758758B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4446313B2 (ja) 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
JP4645708B2 (ja) * 2008-09-10 2011-03-09 株式会社デンソー コード認識装置および経路探索装置
US20110144969A1 (en) 2009-12-11 2011-06-16 International Business Machines Corporation High-Frequency Entropy Extraction From Timing Jitter
JP6276516B2 (ja) * 2013-05-08 2018-02-07 日本放送協会 辞書作成装置、及び辞書作成プログラム
JP6300394B2 (ja) * 2013-05-15 2018-03-28 日本放送協会 誤り修正モデル学習装置、及びプログラム
CN110134767B (zh) * 2019-05-10 2021-07-23 云知声(上海)智能科技有限公司 一种词汇表的筛选方法
JP2020201363A (ja) * 2019-06-09 2020-12-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3441400B2 (ja) * 1998-06-04 2003-09-02 松下電器産業株式会社 言語変換規則作成装置、及びプログラム記録媒体

Also Published As

Publication number Publication date
JP2007171724A (ja) 2007-07-05

Similar Documents

Publication Publication Date Title
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
Kumar et al. Development of Indian language speech databases for large vocabulary speech recognition systems
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP4758758B2 (ja) 辞書作成装置および辞書作成プログラム
US20130080155A1 (en) Apparatus and method for creating dictionary for speech synthesis
KR101747873B1 (ko) 음성인식을 위한 언어모델 생성 장치 및 방법
JP3415585B2 (ja) 統計的言語モデル生成装置、音声認識装置及び情報検索処理装置
JP2013125144A (ja) 音声認識装置およびそのプログラム
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP6003127B2 (ja) 言語モデル作成プログラム及び言語モデル作成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110603

R150 Certificate of patent or registration of utility model

Ref document number: 4758758

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250