JP5437204B2 - 言語モデル処理装置および音声認識装置、ならびにプログラム - Google Patents

言語モデル処理装置および音声認識装置、ならびにプログラム Download PDF

Info

Publication number
JP5437204B2
JP5437204B2 JP2010197869A JP2010197869A JP5437204B2 JP 5437204 B2 JP5437204 B2 JP 5437204B2 JP 2010197869 A JP2010197869 A JP 2010197869A JP 2010197869 A JP2010197869 A JP 2010197869A JP 5437204 B2 JP5437204 B2 JP 5437204B2
Authority
JP
Japan
Prior art keywords
correct answer
language
storage unit
data
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010197869A
Other languages
English (en)
Other versions
JP2012053403A (ja
Inventor
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2010197869A priority Critical patent/JP5437204B2/ja
Publication of JP2012053403A publication Critical patent/JP2012053403A/ja
Application granted granted Critical
Publication of JP5437204B2 publication Critical patent/JP5437204B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、言語モデルを作成するための言語モデル処理装置、およびその言語モデルを用いる音声認識装置、ならびにそのプログラムに関する。
背景技術として、非特許文献1には、音声認識の手法が記載されている。この音声認識手法における誤り傾向の学習と、誤り修正の手法は次の通りである。
図12は、音声認識結果の正解文と、N個の正解文候補を示す概略図である。この例ではN=4である。これらN個の正解文候補は、音声認識装置が統計的音響モデルに基づいて出力する対数音響スコアと、音声認識装置が統計的言語モデルに基づいて出力する対数言語スコアとの和の順に上位から並べたものである。スコアの和の値が大きいほど、上位の候補である。
また、従来技術による方法では、各々の正解文候補に対して、単語の挿入、置換、脱落による誤り修正が、人手で与えられる。図示する例では、正解文が「損害/を/です/ね/補償/する」(「/」は単語の区切りを表す)である。よって、正解文候補第1位の「損害/を/です/ね/[え]/[ま]/保証/する」に対する誤り訂正は、「保証」を「補償」に置換することである。また、正解文候補第4位の「損害/を/です/ね/[え]/[ま]/保障/する」に対する誤り訂正は、「保障」を「補償」に置換することである。そして、音声認識装置が「保証」や「保障」といった誤った単語を選択しないように、(1)「保証」や「保障」を出現しにくくするために、これら各単語に対してペナルティを与え、また、(2)「補償」を出現しやすくするために、この単語に報償を与える。
音声認識装置は、統計的音響モデルおよび統計的言語モデルにそれぞれ基づく音響スコアおよび言語スコアを用いて各正解候補のスコアを算出するが、これらのスコアに加えて、上記の単語の誤り傾向に基づくペナルティや報償を加点することで、尤もらしい正解候補単語列を選択する。なお、ここで,音響スコアは、HMM(隠れマルコフモデル)等の統計的音響モデルに基づいて得られた、正解候補単語の音響的な尤もらしさを表すスコアである。言い換えれば、HMM等に基づくある音響特徴量が与えられたとき、複数の正解候補単語それぞれに対する尤もらしさを表すスコアが音響スコアである。また、言語スコアは、nグラム(n-gram)等の統計的言語モデルに基づいて得られた、正解候補単語の言語的な尤もらしさに対するスコアである。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補単語それぞれに対する尤もらしさを表すスコアが言語スコアである。
また、単語の誤り傾向に基づくペナルティや報償のスコアは、あらかじめ収集された音声認識結果と、対応する正解とを用いて、音声認識装置が統計的に学習することによって得られる。
非特許文献1に記載された技術では、単語n項組が与えられたときの正解・誤りの分布を学習データから統計的に求めて、スコアを算出している。これらは一般にnグラム素性(単語の誤り傾向を決定するための特徴)と呼ばれ、通常、単語nグラム(連続した単語のn個組)や、単語を該当する品詞や意味などに置き換えたクラスnグラムを素性とする。そして、通常、nの値として2から3程度を用いる。
小林彰夫,外4名,「単語誤り最小化に基づく識別的リスコアリングによる音声認識」,電子情報通信学会誌,2010年,vol. J93-D,no.5,pp.598−609.
しかしながら、上記の従来技術による方法には、次のような課題が存在する。
まず、従来技術による方法では、音声認識率を向上させるために、与えられた音声に対する音声認識結果と、その正解を準備することが必要である。その正解は、音声に基づき人手で作成する必要がある。そして、音声認識率を充分に改善させるためには、膨大な量の正解を人手で作成する必要があり、それを行なう場合のコストは膨大である。
また、コストを投じて正解を用意したとしても、それらのデータは、必ずしも認識させたい音声の認識率向上の目的に適うとは限らない。例えば、スポーツニュースの音声認識性能を向上させたいにもかかわらず、政治や経済などの一般的なニュースの音声認識結果とその正解しか用意できなければ、スポーツニュースに出現するような単語、例えばスポーツ選手の名前や各種競技のルール名などの単語誤り傾向を学習することはできない。つまり、タスク(話題、番組のジャンルなど)の不適合が発生し得る。これはタスクに応じて単語やnグラムや文等の言語表現の出現頻度が異なるためである。
つまり、従来技術による方法では、単語の誤り傾向を反映した統計的言語モデルを学習するために、正解が予め用意されたデータを用いる必要があるため、学習データの収集に要するコストの高くなるという問題があった。また、上記のタスク不適合の問題を回避できないという不都合があった。
本発明は、上記の課題認識に基づいて行なわれたものであり、学習により統計的言語モデルを構築するためのコストを削減することのできる言語モデル処理装置を提供する。
さらに、本発明は、利用者がターゲットとするタスクに適合した学習により統計的言語モデルを構築する言語モデル処理装置を提供する。
[1](欠番)
[2]上記の課題を解決するため、本発明の一態様による言語モデル処理装置は、正解データのない音声認識結果データを記憶する正解なし認識結果記憶部と、言語表現の出現確率を表すデータである言語モデルを記憶する言語モデル記憶部と、与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって前記言語モデルを更新して、更新された前記言語モデルを前記言語モデル記憶部に書き込む正解なし誤り傾向学習部とを具備して、音声認識結果データと該音声認識結果データに対応する正解データとを記憶する正解付き認識結果記憶部と、予め与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって与えられた前記言語モデルを更新して出力する正解付き誤り傾向学習部とをさらに具備し、前記正解なし誤り傾向学習部は、前記正解付き誤り傾向学習部が更新して出力した前記言語モデルを入力とすることを特徴とする
ここで、言語表現の例は、単語や、熟語や、所定の長さの文字nグラムあるいは単語nグラムや、文や、発話単位や、その他所定の単位の単語列などである。
またここで、学習処理とは機械学習処理である。機械学習処理は、例えば、可変要因を有する系において、所望の結果を得るため、または結果を最適化ないしは改善するために、前記可変要因を様々に変えて試行を行いつつその試行結果をフィードバックすることにより、前記可変要因の望ましい形態を得る処理である。ここでは、上記可変要因は言語モデルである。また所望の結果とは、更新された言語モデルを用いる音声認識装置が、音声認識結果として、正解を出力する度合いを高め、また正解以外を出力する度合いを低めることである。機械学習処理は、一例としては、目的関数(評価関数)を適切に定め、可変要因の変化に対する目的関数の値の変化を得て、目的関数値の変化に応じて可変要因を適応的に定めていく処理を行う。
上記の正解付き誤り傾向学習部は、それ自身による学習処理の結果得られた言語モデルを出力する。また、正解付き誤り傾向学習部によって更新された言語モデルを、正解なし誤り傾向学習部への入力とする
[3]また、上記の言語モデル処理装置において、以下のようにしても良い。即ち、前記正解付き誤り傾向学習部は、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データにそれぞれ含まれる言語表現と所定の第1のパラメータ集合とを基に計算される第1の目的関数を用いて前記誤り傾向の学習処理を行い、この誤り傾向の学習結果によって得られた前記第1のパラメータ集合の値に基づいて、前記言語モデルの更新および出力を行い、前記正解なし誤り傾向学習部は、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データに基づき、前記正解のない音声認識結果データに含まれる言語表現と所定の第2のパラメータ集合とを基に計算される第2の目的関数を用いて、前記誤り傾向の学習処理を行い、この誤り傾向の学習結果によって得られた前記第2のパラメータ集合の値に基づいて、前記言語モデルを更新し、更新された前記言語モデルと前記言語モデル記憶部に書き込む。
ここで、第1の目的関数の例として、正解データと音声認識結果データとの間のリスクと、正解データの事後確率(この事後確率は第1のパラメータ集合により可変)とに基づく値を取る関数を用いる。第1の目的関数は、確率要素を加味したリスクの総量となるようにする。リスクの一例は、両データ間の編集距離である。そして、このリスクの総量を最小化するような正解データの事後確率を得られることを指向して、正解付き誤り傾向学習部は、学習処理により第1のパラメータ集合の値を求める。
また、第2の目的関数の例として、正解候補である複数の音声認識結果データの相互間のリスクと、正解候補である音声認識データの事後確率(この事後確率は第2のパラメータ集合により可変)とに基づく値を取る関数を用いる。第2の目的関数は、確率要素を加味したリスクの総量となるようにする。そして、このリスクの総量を最小化するような、正解候補である音声認識結果データの事後確率を得られることを指向して、正解なし誤り傾向学習部は、学習処理により第2のパラメータ集合の値を求める。
また、第1のパラメータ集合および第2のパラメータ集合のそれぞれの一例は、所定の与えられた言語モデルを、言語表現に関する複数の素性関数を用いて更新するときに、各素性関数に対応する重み値の集合を用いて良い。
[4]また、上記の言語モデル処理装置において、以下のようにしても良い。即ち、言語モデル処理装置は、テキストを記憶するテキスト記憶部(実施形態における符号100、110、120、130に対応)と、予め与えられる前記言語モデルと、前記テキスト記憶部から読み出した前記テキストとを用いて、言語表現の出現傾向の学習を行い、この出現傾向の学習結果によって前記言語モデルを更新して出力する出現傾向学習部とをさらに具備し、前記正解付き誤り傾向学習部は、前記出現傾向学習部が出力した前記言語モデルを前記入力された言語モデルとして使用することを特徴とする。
ここで、テキスト記憶部が記憶するテキストは、例えば、ウェブサイト等から得られる一般的なテキストや、音声認識結果として生成されたテキスト等を用いて良い。
[5]また、上記の言語モデル処理装置において、以下のようにしても良い。即ち、言語モデル処理装置は、音声認識結果データと該音声認識結果データに対応する正解データとを蓄積しておく正解付き音声言語資源蓄積部と、正解データのない音声認識結果データを蓄積しておく正解なし音声言語資源蓄積部と、収集されたテキストを蓄積しておく言語資源蓄積部(実施形態における符号40、50、60、およびそれらを包括する符号70に対応)と、所定のタスクに属する言語情報(テキストあるいは音声)を記憶するターゲットデータ記憶部と、(1)前記ターゲットデータ記憶部から読み出した前記言語情報と前記正解付き音声言語資源蓄積部から読み出した前記正解データとの間で計算した言語表現に関する類似度に基づき、前記正解付き音声言語資源蓄積部から選択した前記音声認識結果データおよび対応する前記正解データを、前記正解付き認識結果記憶部に書き込み、(2)前記ターゲットデータ記憶部から読み出した前記言語情報と前記正解なし音声言語資源蓄積部から読み出した前記正解データのない音声認識結果データとの間で計算した言語表現に関する類似度に基づき、前記正解なし音声言語資源蓄積部から選択した前記正解データのない音声認識結果データを前記正解なし認識結果記憶部に書き込み、(3)前記ターゲットデータ記憶部から読み出した前記言語情報と前記言語資源蓄積部から読み出した前記テキストとの間で計算した言語表現に関する類似度に基づき、前記言語資源蓄積部から選択した前記テキストを前記テキスト記憶部に書き込むデータ抽出部とを具備する。
[6]また、上記の言語モデル処理装置を具備し、言語表現と音響的特徴量に対する言語表現の確率を表すデータである音響モデルを記憶する音響モデル記憶部と、前記言語モデル処理装置の前記言語モデル記憶部から読み出す前記言語モデルと、前記音響モデル記憶部から読み出す前記音響モデルとに基づき、入力される音声の音声認識処理を行い、結果として得られる正解のない音声認識結果データを前記言語モデル処理装置の前記正解なし音声言語資源蓄積部に書き込む音声認識処理部とをさらに具備する音声認識装置としても良い。
[7]また、本発明の一態様はコンピュータを、上記の言語モデル処理装置のいずれかとして機能させるためのプログラムである。
本発明の一態様によれば、単語の認識誤りについての機械学習を行って、その結果により言語モデルを更新するため、その言語モデルを用いた場合の音声認識精度を向上させることができる。
また、本発明の一態様によれば、単語の出現傾向についての機械学習を行って、その結果により言語モデルを更新するため、その言語モデルを用いた場合の音声認識精度を向上させることができる。
また、本発明の一態様によれば、特定の言語資源(音声言語資源)との類似度に基づいて選択された言語資源(音声言語資源)によって上記の学習を行なうため、特定のタスクにおいて特に音声認識精度を向上させることができる。
また、正解なし音声言語認識結果をも用いて上記の学習を行なうため、予め正解データを用意する必要がなく、低コスト化が可能となる。
また、本発明の一態様によれば、自動的に収集・蓄積した言語資源を用いて上記の学習を行なうため、低コスト化が可能となる。
本発明の実施形態による音声認識装置全体の機能構成を示すブロック図である。 同実施形態による学習部のさらに詳細な機能構成を示すブロック図である。 同実施形態による正解なし音声言語資源蓄積部が記憶するデータの構成を示す概略図である。 同実施形態による正解付き音声言語資源蓄積部が記憶するデータの構成を示す概略図である。 同実施形態による正解なし言語資源蓄積部が記憶するデータの構成を示す概略図である。 同実施形態による音声認識装置の全体的な処理手順を示すフローチャートである。 同実施形態のターゲット選定部およびデータ抽出部による、データ抽出処理の手順を示すフローチャートである。 同実施形態の出現傾向学習部による学習処理の手順を示すフローチャートである。 同実施形態の正解付き誤り傾向学習部による学習処理の手順を示すフローチャートである。 同実施形態の正解なし誤り傾向学習部による学習処理の手順を示すフローチャートである。 本発明の第2の実施形態による言語モデル処理装置の機能構成を示すブロック図である。 音声認識結果の正解文と、複数個の正解文候補の例を示す概略図である。
[1.第1の実施の形態]
本発明の第1の実施形態について、図面を参照しながら説明する。
[1.1 構成]
図1は、本実施形態による音声認識装置全体の機能構成を示すブロック図である。この音声認識装置1は、音声認識処理で使用するための統計的言語モデルを構築する言語モデル処理装置を内部に含んでいる。
図示するように、音声認識装置1は、音声認識処理部10と、言語資源取得部20と、資源蓄積部70と、ターゲット選定部80と、データ抽出部90と、ターゲットデータ記憶部100と、類似テキスト記憶部110と、正解付き認識結果記憶部120と、正解なし認識結果記憶部130と、学習部140と、モデル記憶部170とを含んで構成される。
また、資源蓄積部70は、内部に、正解なし音声言語資源蓄積部40と、正解付き音声言語資源蓄積部50と、言語資源蓄積部60とを含んで構成されている。
また、学習部140は、出現傾向学習部150と、誤り傾向学習部160とを含んで構成されている。
また、モデル記憶部170は、音響モデル記憶部180と、言語モデル記憶部190とを含んで構成されている。
なお、本装置の各部は、電子回路を用いて構成する。また、資源蓄積部70、ターゲットデータ記憶部100、類似テキスト記憶部110、正解付き認識結果記憶部120、正解なし認識結果記憶部130、モデル記憶部170等、情報を記憶する手段は、磁気ハードディスク装置や各種の半導体メモリを併せて用いて構成する。
次に、音声認識装置1を構成する各部について、順次説明する。
音声認識処理部10は、モデル記憶部170から音響モデルおよび言語モデルを読み出しながら、入力される放送音声の音声認識処理を随時行ない、その音声と認識結果のテキストデータを出力する。なお、音声認識処理の対象である音声としては、サンプリングされたデジタルデータを扱う。
資源蓄積部70は、外部から取得されたテキストデータや、音声や、音声認識結果等を記憶・蓄積するものである。資源蓄積部70に含まれる正解なし音声言語資源蓄積部40は、正解なし音声言語資源を記憶する。ここで、正解なし音声言語資源は、音声とその音声認識処理の結果とを対応付けたデータであり、正解を含まないものである。上述した音声認識処理部10は、音声認識処理によって音声認識結果を得るが、その正解を得ることはなく、よって正解なし音声言語資源をこの音声言語資源蓄積部40に書き込む。また、正解付き音声言語資源蓄積部50は、正解付き音声言語資源を記憶する。ここで、正解付き音声言語資源は、音声とその音声認識処理の結果と人の手作業により作成された正解とを対応付けたデータである。また、言語資源蓄積部20は、言語資源を記憶する。ここで、言語資源は、例えば日本語や英語などといった言語で書かれたテキストのデータである。
言語資源取得部20は、外部のウェブサーバ310から、例えばインターネット等の通信回線を介して、テキストデータを取得する。ここで、ウェブサーバ310は、HTTP(ハイパーテキスト転送プロトコル)等を用いてウェブページのデータを提供するコンピュータであり、それらのウェブページには、ニュース記事や、各種話題に関する記事や、用語解説などの様々なテキストデータが含まれている。言語資源取得部20は、各種ウェブサイトを適宜巡回して取得したテキストデータを言語資源蓄積部60に書き込む。なお、ここで、言語資源取得部20が外部から取得するテキストデータは、例えばHTML(ハイパーテキストマークアップ言語)等の形式でマークアップ用の属性情報を含んでいるものであっても良く、また、属性情報を有しないプレインなテキストであっても良い。
ターゲット選定部80は、音声言語資源蓄積部40に蓄積されている音声言語資源のデータのうち、利用者が選んだものを読み出して、それら選ばれた音声言語資源をターゲットデータ記憶部100に書き込む。ターゲット選定部80は、適宜設計された利用者インターフェースを用いて選定候補を画面等に表示することにより、利用者がターゲットとする音声言語資源を選択できるようにする。利用者は、音声認識率を向上させたいタスクに類似する音声言語資源をターゲットとして選択することができる。なお、ターゲット選定部80において選択されたデータを、以後、ターゲットデータとも呼ぶ。
ターゲットデータ記憶部100は、上記のターゲット選定部80の機能によってターゲットとして選定された音声言語資源を記憶する。つまり、ターゲットデータ記憶部100は、選択された特定のタスクに属する言語情報を記憶する。
データ抽出部90は、ターゲットデータ記憶部100に記憶されているデータと、資源格納部70内の各部に記憶されている各種言語資源のデータとを比較し、ターゲットデータ即ち利用者が音声認識率を向上させたいと考えて選択したタスクに類似した言語資源を抽出し、出力する。具体的には、データ抽出部90は、正解なし音声言語資源蓄積部40に蓄積された正解なし音声言語資源のデータと、ターゲットデータ記憶部100に記憶された音声言語資源のデータとを比較し、類似したデータを抽出し、抽出されたデータを正解なし認識結果記憶部130に書き込む。また、データ抽出部90は、正解付き音声言語資源蓄積部50に蓄積された正解付き音声言語資源のデータと、ターゲットデータ記憶部100に記憶された音声言語資源のデータとを比較し、類似したデータを抽出し、抽出されたデータを正解付き認識結果記憶部120に書き込む。また、データ抽出部90は、言語資源蓄積部60に蓄積された言語資源のテキストデータと、ターゲットデータ記憶部100に記憶された音声言語資源のデータとを比較し、類似したデータを抽出し、抽出されたテキストデータを類似テキスト記憶部110に書き込む。なお、データ抽出部90は、言語表現に関する所定の類似度を計算する機能を有しており、この類似度に基づいて上記の各データの抽出を行う。
学習部140は、類似テキスト記憶部110と正解付き認識結果記憶部120と正解なし認識結果記憶部130にそれぞれ記憶された類似データ(ターゲットデータとの類似データ)と、ターゲットデータそのものとを用いて、統計的方法を用いて、単語の出現傾向と単語の誤り傾向とを学習する処理を行なう。
学習処理部140を構成する出現傾向学習部150は、類似テキスト記憶部110から読み出すテキストデータと、正解付き認識結果記憶部120から読み出すテキストデータ(音声認識結果のテキストおよび正解のテキスト)と、正解なし認識結果記憶部130から読み出すテキストデータ(音声認識結果のテキスト)と、ターゲットデータ記憶部100から読み出すターゲットデータ(音声認識結果のテキスト)から、単語の出現傾向を学習するものである。出現傾向学習部150は、この学習処理の結果に基づいて、予め与えられる初期の言語モデルを更新し、出力する。
つまり、ターゲットデータ記憶部100と類似テキスト記憶部110と正解付き認識結果記憶部120と正解なし認識結果記憶部130は、それぞれ、出現傾向学習部150が学習処理に用いるためのテキストを記憶するテキスト記憶部として機能する。
また、学習処理部140を構成する誤り傾向学習部160は、類似テキスト記憶部110のデータを用いず、正解付き認識結果記憶部120から読み出すテキストデータ(音声認識結果のテキストおよび正解のテキスト)と、正解なし認識結果記憶部130から読み出すテキストデータ(音声認識結果のテキスト)とから、単語の誤り傾向を学習するものである。このとき、誤り傾向学習部160は、出現傾向学習部150が出力した言語モデルを入力として、そして学習処理により言語モデルを更新する。
学習部140内では、まず出現傾向学習部150が単語の出現傾向の学習を行い、その後に、出現傾向の学習結果をも用いながら、誤り傾向学習部160が単語の誤り傾向の学習を行なう。学習部140は、これらの学習処理の結果として、言語モデルを出力する。学習部140は、出力する言語モデルを、モデル記憶部170内の言語モデル記憶部190に書き込む。
なお、音声認識処理部10は、学習部140によって書き込まれた(更新された)言語モデルを用いて、また、音響モデルを用いて、前述の音声認識処理をおこなう。このように、音声認識装置1において、言語モデルを利用した音声認識処理−音声言語資源の蓄積−ターゲットに類似の音声言語資源の抽出−抽出されたデータを用いた統計的処理−言語モデルの出力は、処理の閉ループを構成する。つまり、言語モデルを用いた入力音声の認識処理と、その認識結果(正解なし)に基づく出現傾向と誤り傾向の学習処理および学習結果に基づく言語モデルの更新を、交互に行ないながら、言語モデルを順次改善し成長させることもできる。
図2は、上で説明した学習部140のさらに詳細な機能構成を示すブロック図である。図示するように、学習部140内の誤り傾向学習部160は、正解付き誤り傾向学習部161と正解なし誤り傾向学習部162とを含んで構成される。
正解付き誤り傾向学習部161は、与えられた言語モデルを入力とし、入力された言語モデルと、正解付き認識結果記憶部120から読み出した音声認識結果データおよび正解データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって与えられた前記言語モデルを更新して出力する。
正解なし誤り傾向学習部162は、正解付き誤り傾向学習部161が出力した言語モデルと、正解なし認識結果記憶部130から読み出した正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって言語モデルを更新して、更新された言語モデルを表すデータを言語モデル記憶部190に書き込む。
次に、音声認識装置1の各部についてさらに詳細に説明する。
音声認識処理部10における処理は、統計的なモデルを利用して、入力される音声を単語列に変換する処理である。このような統計的特徴を利用する処理では、大量のテキストデータや大量の音声データを収集することが重要な役割を果たす。それらの大量のデータを蓄積・保存するものが、前述の資源蓄積部70である。
次に、資源蓄積部70内に記憶する各データについて説明する。
図3は、正解なし音声言語資源蓄積部40が記憶する正解なし音声言語資源のデータ構成を示す概略図である。図示するように、正解なし音声言語資源蓄積部40は、番組識別情報と、番組情報と、音声と、音声認識結果の各項目のデータを互いに関連付けて記憶する。正解なし音声言語資源蓄積部40は番組単位でデータを保持するものであり、図示している表の1行分のデータが1番組に対応する。番組識別情報は番組を一意に識別するためのID(番号等)である。番組情報は、電子番組表(Electronic Program Guide)に含まれる番組タイトルや番組説明テキストのデータである。音声は、番組の音声であり、例えばWAV形式などのデジタル化された音声データである。音声認識結果は、上記の音声を入力として音声認識処理を行なった結果得られるデータである。音声認識結果のデータは、複数の正解候補を含むものであってもよい。
図4は、正解付き音声言語資源蓄積部50が記憶する正解付き音声言語資源のデータ構成を示す概略図である。図示するように、正解付き音声言語資源蓄積部50は、番組識別情報と、番組情報と、音声と、音声認識結果と、正解の各項目のデータを互いに関連付けて記憶する。これらのうち、番組識別情報と、番組情報と、音声と、音声認識結果の各項目のデータは、正解なし音声言語資源蓄積部40が保持するそれらと同様のものである。そして、正解は、当該番組の音声に対応する正解のテキストであり、人手で付与されるものである。
図5は、言語資源蓄積部60が記憶する言語資源のデータ構成を示す概略図である。図示するように、言語資源蓄積部60は、ページ識別情報と、URL(Uniform Resource Locator)と、日時と、テキストの各項目のデータを互いに関連付けて記憶する。この言語資源蓄積部60が記憶するテキストデータは、言語資源取得部20が外部のウェブサーバから取得したニュース記事やブログ(blog)記事等のテキストである。
資源蓄積部70が蓄積する上記の3種類のデータはいずれも、言語的な情報を含んでいる。また、それらのうちの正解なし音声言語資源と正解付き音声言語資源は、さらに音響的な情報を含んでいる。また、正解なし音声言語資源蓄積部40に蓄積されるデータと言語資源蓄積部60に蓄積されるデータは、人手を必要とせず自動処理により、比較的安価に収集することができる。それに対して、正解付き音声言語資源蓄積部50に蓄積されるデータは、人手によって正解を付与するため、比較的コストのかかるデータである。なお、正解なし音声言語資源蓄積部40に記憶されるデータには正解のデータが含まれず、音声認識結果には通常は誤りの情報が含まれている。
なお、類似テキスト記憶部110と正解付き認識結果記憶部120と正解なし認識結果記憶部130が記憶する内部のデータの構成も、それぞれ、言語資源蓄積部60と正解付き音声言語資源蓄積部50と正解なし音声言語資源蓄積部40と同様のものである。
音響モデル記憶部180は、音響的特徴量と言語表現(認識結果の音素等の表記)の統計的関係(確率値)を表すデータを音響モデルとして記憶するものである。これらのデータは一般的な話者に共通のものであっても良いし、話者個人毎あるいは話者属性(例えば、性別、年齢層等)毎のデータであっても良い。なお、音声認識処理における音響的特長量の処理の仕方については後述する。
言語モデル記憶部190は、言語表現の統計的な出現確率を表すデータを記憶するものであり、そのデータ構成については後述する。
[1.2 処理概略]
次に、音声認識装置1による処理の概略について説明する。
音声入力xに対して、最も尤もらしい単語列w(ハット)は、ベイズ(Bayes)の定理により、下の式(1)で求めることができる。ここで、単語列とは言語表現の一種である。
Figure 0005437204
ここで、音声入力xおよび単語列wは、例えば、発話の単位に対応する。発話の単位は、休止区間(無音区間)に挟まれた音声区間である。そして、P(x|w)は、単語列w(認識結果の文仮説)に対する音響的な尤もらしさであり、そのスコアは隠れマルコフモデル(HMM,Hidden Markov Model)に代表される統計的音響モデルに基づいて計算できる。一方、P(w)は、単語列wに対する言語的な尤もらしさであり、そのスコアは単語nグラムモデル等の統計的言語モデルにより計算される。そして、音声認識においては、上の式(1)に基づいて、下の式(2)で表される評価関数g(w|x)を定める。
Figure 0005437204
但し、この式において、νは音響モデルに対する言語モデルの重みであり、その値は適宜定められる。一例としては、ν=1.0とする。
そして、式(3)によって、正解候補となる単語列の集合Lに属するwのうち最良の単語列w(ハット)を選択する。
Figure 0005437204
また、単語列wの事後確率P(w|x)は、式(2)の評価関数を用いて、下の式(4)によって計算できる。
Figure 0005437204
本実施形態による音声認識装置1における出現傾向学習部150は、音声認識処理を行なうタスクに合わせて式(1)におけるP(w)の値の分布が最適になるように、学習処理を行なう。これは、単語の出現傾向の学習である。音声認識装置1がこの学習処理を行なうことにより、タスクにマッチする単語列wに関してP(w)がより大きくなり、そうでない単語列wに関してP(w)が相対的に小さくなる。
また、音声認識装置1における誤り傾向学習部160は、音声認識処理を行なうタスクに合わせて、式(4)におけるP(w|x)の値が正解単語列に対して大きくなるように、P(w)の値の分布についての学習処理を行なう。これは、タスクに合わせた、単語の誤り傾向の学習である。
音声認識装置1は、上記の2種類の機械学習処理を行なうことにより、音声認識率を改善する。言い換えれば、音声認識装置1は、音声認識性能を向上させるべきタスクが利用者によって選択されている条件下で、つまりそのタスクに属する音声言語資源が利用者によって選択されている条件下で、次の2種類の学習を順次行なう。
(1)ウェブ等のテキストデータから得られた言語資源や、過去の放送番組の音声に基づく音声認識結果を用いて、そのタスクにおいて期待される単語の出現傾向を学習する。
(2)上記(1)の学習結果を反映した上で、正解付きの音声言語資源、および大量に収集した放送番組の(正解なしの)音声認識結果から、正解または誤りと見込まれる部分の誤り傾向を学習する。
[1.3 処理手順]
次に、音声認識装置1による具体的な処理手順について説明する。
図6は、音声認識装置1の全体的な処理手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まず、ステップS1において、ターゲット選定部80が、音声認識性能の改善対象となるタスクを選択する。具体的には、利用者からの操作に基づき、ターゲット選定部80が正解なし音声言語資源蓄積部40に蓄積されているデータの一部を選択し、ターゲットデータ記憶部100に書き込む。例えば、利用者がスポーツニュース番組の音声認識性能を改善したいと望めば、スポーツニュースの放送音声を選択する。
次に、ステップS2において、音声認識処理部10が、入力される放送音声の認識処理を行い、その音声と音声認識結果と番組情報とをあわせて正解なし音声に言語資源蓄積部に書き込む。
次に、ステップS3において、データ抽出部90が、ターゲットデータに類似したデータを選択・抽出する。具体的には、データ抽出部90は、ターゲットデータ記憶部100に記憶されているターゲットデータと、資源蓄積部70内の各部に蓄積されているデータ(外部のウェブサーバから取得されたテキストデータや、音声認識結果として得られたデータ)との間の類似度を計算する。そして、データ抽出部90は、その類似度に基づいて、ページ単位(ウェブサーバが提供するページの場合)や番組単位(放送音声の場合)などでターゲットデータに類似するデータを選択する。データ抽出部90は、選択したデータを、適宜、類似テキスト記憶部110や正解付き認識結果記憶部120や正解なし認識結果記憶部130に書き込む。つまり、このステップで選択されたデータは、対象とするタスクに属するデータである。
なお、ステップS3における類似度の計算方法の一例は、次の通りである。即ち、正解付き音声言語資源または正解なし音声言語資源の1番組分の音声認識結果を1つの文書として、あるいはウェブ文書等の言語資源の1ページ分のテキストを1つの文書として、これら文書に含まれる単語の出現頻度をベクトル空間モデルに基づいて表現する。このベクトルが、その文書の特徴を現す特徴ベクトルである。そして、資源蓄積部70に記憶されている各文書の特徴ベクトルとターゲットデータ記憶部100に記憶されている文書の特徴ベクトルとの間のコサイン尺度を、両文書間の類似度として計算する。なお、コサイン尺度に基づくデータ選択方法の詳細については、後述する。
次に、ステップS4において、学習部140内の出現傾向学習部150が、データ抽出部90によって選択されたデータに基づき、対象としているタスクに対して出現が見込まれる単語の出現傾向を学習する。そして、出現傾向学習部150は、学習結果に基づいて出現傾向適応化言語モデルを出力する。
本ステップでの単語出現傾向の学習処理の詳細は、次の通りである。
ターゲットデータ、およびステップS3で選択・抽出されたデータから得られるテキスト集合をD={D,D,D,D}とする。Dは、類似テキスト記憶部110に記憶されている言語資源のテキストデータである。Dは、正解付き認識結果記憶部120に記憶されている正解付き音声言語資源のテキストデータである。Dは、正解なし認識結果記憶部130に記憶されている正解なし音声言語資源のテキストデータ(認識結果)である。Dは、ターゲットデータ記憶部100に記憶されているターゲットデータに含まれるテキストデータである。このテキスト集合Dは、利用者によって選択されたタスクに関するテキストの集合である。このようなテキスト集合Dに対して、頻繁に使われている単語や言語表現等の出現傾向を統計的に学習することにより、これに類似した、即ち当該タスクに属する未知の音声が与えられたときの単語の出現傾向を予測することができる。
出現傾向学習部150は、単語の出現傾向を学習する方法として、例えば、最大エントロピー法を用いる。単語の出現傾向は、単語列の出現確率として与えられる。単語列wが与えられたとき、その出現確率P(w;Λ)は、下の式(5)の通りである。
Figure 0005437204
ここで、P(w)は、出現傾向を学習する前のnグラムに基づく単語列wの出現確率である。また、F ={f,f,・・・}は、与えられた単語列wに対して値を返す素性関数である。また、Λ={λ,λ,・・・}は、前記素性関数の各々に対応する重み値である。なお、Z(Λ)は、確率P(w;Λ)の総和が1となるようにするための正規化定数である。
上記の素性関数f(i=1,2,・・・)は、それぞれ単語列wに関する言語的ルールに対応しており、単語列wに関してそのルールが成立すれば1となり、成立しなければ0となるような関数である。ここで、言語的ルールの例とは、次に挙げるようなものである。なお、uやvは、それぞれ具体的な単語である。
ルール例1:単語列wに、連続する単語2項組(u,v)が含まれる。
ルール例2:単語列wに、連続しない単語2項組(u,v)が含まれる。
ルール例3:単語列wに、uからvに係るような係り受け関係が含まれる(構文的なルール)。
そして、出現傾向学習部160は、このようにして得られた出現傾向適応化言語モデルを、誤り傾向学習部150に渡す。
次に、ステップS5において、学習部140内の誤り傾向学習部160は、上のステップS4で作成された出現傾向適応化言語モデルを初期モデルとして用いて、またデータ抽出部90によって選択されたデータのうちの正解付き認識結果および正解なし認識結果のデータを用いて、単語の誤り傾向を学習し、その結果として統計的言語モデルを作成する。なお、誤り傾向学習部160は、作成した統計的言語モデルによって言語モデル記憶部190を更新する。
本ステップでの単語誤り傾向の学習処理の詳細は、次の通りである。
誤り傾向学習部160は、ステップS3で選択・抽出された正解付き音声言語資源および正解なし音声言語資源を、それぞれ、正解付き認識結果記憶部120および正解なし認識結果記憶部130から読み出す。また、誤り傾向学習部160は、ターゲットデータをターゲットデータ記憶部100から読み出す。そして、これらの音声認識結果の集合をCとする。
音声認識処理における単語列の識別関数は、下の式(6)で表される。
Figure 0005437204
ここで、log(P(x|w))は対数音響スコアであり、例えば隠れマルコフモデルにより得られる。また、log(P(ハット)(w))は対数言語スコアであり、前のステップS4で得られた出現傾向適応化言語モデルによって、この対数言語スコアを取得できる。また、νおよびνは、ぞれぞれ、対数音響スコアおよび対数言語スコアに対する重み値である。
この誤り傾向の学習では、下の式(7)による識別関数を用いる。
Figure 0005437204
ここで,φ(w)(i=1,2,・・・)は、単語列wに対して値を返す言語的な素性関数であり、ステップS4で述べた素性関数と同等のものである。また、Θ={θ,θ,・・・}は、前記の素性関数φ(w)にそれぞれ対応する重み値である。式(7)の右辺の第2項および第3項の和であるν・log(P(ハット)(w))+Σ(θφ(w))から、誤り傾向を反映した言語モデルP(w;Θ)は、式(8)で表される。
Figure 0005437204
なお、Z(Θ)は、確率P(w;Θ)の総和が1となるようにするための正規化定数である。
P(w;Θ)を用いて、単語列wの事後確率は、下の式(9)によって求められる。
Figure 0005437204
本ステップにおける単語の誤り傾向の学習では、正解と誤りとのスコアの差が最大となるように、P(w;Θ)を求める。言い換えれば、正解に対する事後確率が最大となるように、P(w;Θ)を求める。
正解付きの音声認識結果集合に対しては、既存の技術を用いて重み値集合Θを求めることができるが、正解なしの音声認識結果集合に対しては、正解単語列が存在しないので、既存の技術のみでΘを求めることはできない。
従って、本実施形態は、以下に述べる方法で、従来技術における目的関数を拡張することによって、正解なしの音声認識結果集合に対してもΘを求めることができるようにする。
まず、誤り傾向学習部160は、正解付き認識結果記憶部120と正解なし認識結果記憶部130とターゲットデータ記憶部100から読み込んだ学習データの集合Cを、CposとCnegの2つに分ける。C={Cpos,Cneg}である。Cposは、正解付きの音声・音声認識結果の集合である。Cnegは、正解なしの音声・音声認識結果の集合である。Cnegは、ターゲットデータの音声認識結果を含んでいる。
これらの集合CposおよびCnegに対応して、それぞれ、素性関数の集合ΦposおよびΦnegを定める。但し、Φpos∩Φnegは空集合である。また、ΦposおよびΦnegの各要素に対応する重み値の集合が、それぞれ、Θpos(第1のパラメータ集合)およびΘneg(第2のパラメータ集合)である。
本ステップでは、上記のΘposおよびΘnegについて学習処理を行ない、最適化を図る。そのための手順として、まず第1段階で、正解付き誤り傾向学習部161が正解付きの音声認識結果の集合を利用して重み値集合Θposを求め、その後の第2段階で、正解なし誤り傾向学習部162が正解なしの音声認識結果の集合を利用して重み値集合Θnegを求める。
第1段階では、下の式(10)による目的関数を用いて、この関数値が最小になるように、Θposを学習する。
Figure 0005437204
式(10)の目的関数は、正解付き音声認識結果の第m番目の発話x∈Cposに対する正解単語列wm,0の対数事後確率の、mについての総和によるものである。
次に第2段階では、下の式(11)による目的関数を用いて、この関数値が最小になるように、Θnegを学習する。
Figure 0005437204
式(11)の目的関数は、正解なし音声認識結果の第n番目の発話x∈Cnegに対する音声認識結果の集合Lについての対数事後確率の総和によるものである。なお、wn,kは、発話xに対するk番目の音声認識結果(k=1,2,・・・)である。
式(10)および(11)の代わりに、別の新しい目的関数を用いることもできる。まず第1段階では、正解付き音声認識結果について、下の式(12)による目的関数を定める。
Figure 0005437204
式(12)の上の目的関数において、関数R(w,w´)は2つの単語列(w,w´)に関するリスクであり、単語列間の編集距離(レーベンシュタイン距離,Levenshtein Distance)として定義される。この編集距離は、文字の{挿入、削除、置換}のいずれかの操作を使って単語列wを単語列w´に変形するのに必要な、手順の最小回数として与えられる。
そして、正解単語列に対するベイズリスクの総和を最小化するように、つまり式(12)の関数値を最小化するように、学習処理を行い、重み値集合Θposを求める。
次に第2段階では、正解なし音声認識結果の集合について、下の式(13)による目的関数を定める。
Figure 0005437204
正解付き音声認識結果に用いる式(12)の目的関数が正解に対するリスクを用いたのに対して、この式(13)の目的関数は期待ベイズリスクとして定義されている。そして、この期待ベイズリスクを最小化するように、学習処理を行い、重み値集合Θnegを求める。
以上述べたように、誤り傾向学習部160は、ステップS4で得られた出現傾向適応化言語モデルを用いて、2段階の学習処理を行なうことにより、重み値集合ΘposおよびΘnegを求める。言い換えれば、入力される出現傾向適応化言語モデルに単語の謝り傾向を反映させ、間違いやすい単語を訂正し、よくある誤りを排除するような統計的言語モデルを作成する。
そして、ステップS6において、音声認識装置1は、処理を終了するか否かを決定する。終了しない場合には、ステップS2に戻り、ステップS5で更新された言語モデルを用いて、当該タスクに関連した未知の音声の認識処理を行なう。
なお、このフローチャートでは、ステップS2で音声認識処理を行い、ステップS6における判断に基づいてステップS2に戻って繰り返し処理を行うようにしているが、ステップS1でのターゲット選定の処理の前に音声認識処理をすべて完了させておいても良い。この場合には、ステップS2およびS6における処理が不要であり、ステップS5の完了後にこのフローチャートの処理を終了する。
以上、述べたように、音声認識装置1は、単語の出現傾向と音声認識結果の誤り傾向の両者を用いた学習を行い、音声認識率を改善する。ここで、入力は、利用者が選択したタスクに即した音声認識結果と、蓄積された言語資源、正解なし音声言語資源、正解付き音声言語資源である。また、出力は、選択されたタスクに単語の出現傾向と単語の誤り傾向とを適応させた統計的言語モデルである。
[1.4 詳細な処理手順]
次に、音声認識装置1における主要各部のさらに詳細な処理方法について説明する。
図7は、ターゲット選定部80およびデータ抽出部90による、データ抽出の処理の手順を示すフローチャートである。この図で示す処理は、図6に示したステップS1およびS3に相当する部分である。以下、このフローチャートに沿って説明する。
まずステップS200において、ターゲット選定部80は、正解なし音声言語資源蓄積部40に記憶されている正解なし音声言語資源から、利用者が音声認識率を改善したいタスク(話題,番組)に関する音声をいくつか選択する。ターゲット選定部80は、選択されたデータをターゲットデータとしてターゲットデータ記憶部100に書き込む。
次に、ステップS210において、データ抽出部90は、言語資源蓄積部60に記憶されている言語資源のテキストデータから、上記ターゲットデータと類似したテキストデータを選択する。データ抽出部90は、テキストデータの選択手法として、ベクトル空間モデルに基づくコサイン尺度を用いる。ベクトル空間モデルでは、放送番組やウェブページなどを1つの文書とみなし、m個の単語、n個の文書からなる文書集合Dを、m行n列の単語−文書行列のデータとして表現する。単語−文書行列の要素dijは、例えば、文書中の単語の出現頻度に基づいて次の式(14)〜(16)ように定める。
Figure 0005437204
Figure 0005437204
Figure 0005437204
ここで、式(15)のfijは、単語iの文書jにおける出現頻度(回数)である。また、式(16)のpijは、下の式(17)で定義される単語iの相対頻度である。
Figure 0005437204
式(17)に表すように、相対頻度pijは、単語iの全文書における出現頻度に対する、文書jにおける出現頻度の割合である。また、式(16)における|D|は、文書集合Dに属する文書の総数である。
式(15)のl(エル)ijはfijの増減に応じて単調に増減する正値であり、式(16)のgもまた各文書jについてのpijの増減に応じて単調に増減する正値である。つまり、式(14)のdijもまた、関係する出現頻度の値に応じて単調に変化する。
ここで,dを文書集合のj番目の列ベクトルとし、qをターゲットデータを表す行ベクトルとすると、それら両者間の類似度は、式(18)で表すコサイン尺度cos(d,q)として求められる。
Figure 0005437204
そして、データ抽出部90は、このターゲットデータとの間の類似度が所定の閾値以上である文書のテキストデータを選択し、選択されたテキストを、類似テキスト記憶部110に書き込む。
次に、ステップS220において、データ抽出部90は、ターゲットデータと、正解付き音声資源蓄積部50から読み出した正解付き音声資源に含まれる正解データとの間の類似度を計算する。類似度の計算方法は、ステップS210で述べたものと同様である。そして、ターゲットデータとの間の類似度が所定の閾値以上である正解付き音声資源を選択し、選択されたデータを、正解付き認識結果記憶部120に書き込む。
次に、ステップS230において、データ抽出部90は、ターゲットデータと、正解なし音声資源蓄積部40から読み出した正解なし音声資源に含まれる認識結果データとの間の類似度を計算する。類似度の計算方法は、ステップS210で述べたものと同様である。そして、ターゲットデータとの間の類似度が所定の閾値以上である正解なし音声資源を選択し、選択されたデータを、正解なし認識結果記憶部130に書き込む。
図8は、出現傾向学習部150による、出現傾向学習の処理の手順を示すフローチャートである。この図で示す処理は、図6に示したステップS4に相当する部分である。
この出現傾向学習処理で用いる最大エントロピー法について、まず説明する。最大エントロピー法に基づく適応化では、既に説明したテキスト集合をD={D,D,D,D}に対して、下の式(19)で表される、適応モデルP(ハット)(w)による負の対数尤度が最小になるように、重み値を求める。
Figure 0005437204
但し、このとき、下の式(20)で表される制約を満たすことを条件とする。
Figure 0005437204
ここで、式(20)の左辺のP(チルダ)(w)は、集合Dにおける経験分布である。
モデルP(ハット)は、下の式(21)で表すような対数線形モデルとなる。
Figure 0005437204
式(21)におけるλ(i=0,1,2,・・・)は、素性関数fにそれぞれ対応する重み値であり、学習処理により求める。最大エントロピー法に基づく学習では、式(19)のLmeを目的関数として、制約式(20)に従って、勾配を下の式(22)により求める。
Figure 0005437204
ここで、δは、更新のステップ幅である。そして、下の式(23)により、重み値λを更新する。
Figure 0005437204
式(23)による更新は、目的関数の値が変化しなくなるまで繰り返す。具体的には、目的関数の値が収束したか否か、つまり更新前後の目的関数の値の差の絶対値が所定閾値未満であるか否かの判断を行い、収束するまで式(23)による更新を繰り返す。
これを、図8のフローチャートに沿って説明すると、まずステップS310において、出現傾向学習部150は、類似テキスト記憶部110から読み出したテキストデータ、および正解付き認識結果記憶部120と正解なし認識結果記憶部130とターゲットデータ記憶部100から読み出した音声認識結果を用いて、式(20)の左辺の期待値を計算する。ここで、入力となる類似テキストおよび音声認識結果は既に定まっているため、これらのテキスト集合Dにおける単語列wの経験分布P(w)は、このフローチャートの処理全体を通して定数である。よって、式(20)の左辺の値は、この処理全体を通して定数である。
次に、ステップS320において、出現傾向学習部150は、素性関数の重みΛ={λ,λ,・・・}を全てゼロに初期化する。
次に、ステップS330において、出現傾向学習部150は、初期言語モデル(式(21)におけるP(w))を言語モデル記憶部190から読み込むとともに、式(22)に従ってΛを更新する。言い換えれば、出現傾向学習部150は、これによって素性重みΛを推定している。なお、初期言語モデルは、選択されたタスクに応じた学習を行なう前から言語モデル記憶部190に記憶されている、単語列の出現確率である。
次に、ステップS340において、出現傾向学習部150は、ステップS330で更新した素性重みΛを用いて、式(19)の目的関数の値を計算し、その値をL´meとする。
次に、ステップS350では、出現傾向学習部150は、重み更新前の目的関数値Lmeと更新後の目的関数値L´meとを比較して、予め設定しておいた収束判定のための閾値εに対して、下の不等式(24)で表される条件を満たすか否かを判定する。
Figure 0005437204
つまり、出現傾向学習部150は、目的関数値の相対的変化量がε未満かどうかにより、目的関数値が収束したか否かを判定する。その結果、式(24)を満たさない場合(まだ収束していない場合)にはステップS330に戻り、式(24)を満たす場合(収束した場合)には次のステップS360に進む。
最後に、ステップS360では、出現傾向学習部150は、得られた素性重みΛを用いて、言語モデルを更新して出力する。ここで、具体的には、出現傾向学習部150は、得られた素性関数の重み値λ(i=0,1,2,・・・)を半導体メモリ等に書き込むことによって、これらの値を誤り傾向学習部160に渡す。また、重み値λに加えて、式(21)のP(ハット)(w)の値を、半導体メモリ等に書き込むことによって、誤り傾向学習部160に渡すようにしても良い。
ステップS360の処理が終わると、出現傾向学習部150は、このフローチャート全体の処理を終了する。
図9は、誤り傾向学習部160内の正解付き誤り傾向学習部161による処理の手順を示すフローチャートである。
図10は、誤り傾向学習部160内の正解なし誤り傾向学習部162による処理の手順を示すフローチャートである。
まず、正解付き誤り傾向学習部161全体の処理について、数式を用いて説明する。
正解付き誤り傾向学習部161が用いる目的関数(第1の目的関数)は、前述のベイズリスクに基づくものであり、式(25)で表される。
Figure 0005437204
式(25)に表すように、この目的関数は、音声認識の正解データと、対応する音声認識結果との間のリスク(編集距離)を用いている。
式(25)の目的関数は、正解データと正解候補である音声認識結果データとの間のリスクと、正解データの事後確率とに基づく値を取る関数を用いている。またこの目的関数は、確率要素を加味したリスク(編集距離)の総量となるようにしている。そして、正解付き誤り傾向学習部161が行う学習処理は、このリスクの総量を最小化するような正解データの事後確率を得られることを指向している。
素性重み値の集合Θposに関する勾配を用いて目的関数の最小化を行うために、目的関数値L posをθ posに関して偏微分すると、下の式(26)を得る。
Figure 0005437204
ここで、H(wm,k)を下の式(27)の通りとする。
Figure 0005437204
従って、重み値の更新式は、ステップ幅δを用いて、下の式(28)で表される。
Figure 0005437204
式(28)で更新された重みを用いて目的関数値を再計算し、更新前と更新後の間の目的関数値の相対的変化量が所定の閾値ε未満か否かを判定する。つまり、下の式(29)による判定を行なう。
Figure 0005437204
式(29)を満たす場合には目的関数値が収束したと判断し、式(29)を満たさない場合には目的関数値が収束するまで重み値の更新を繰り返す。
そして、これで得られた重み値を用いた対数線形モデルは、下の式(30)で表される。
Figure 0005437204
続いて、正解なし誤り傾向学習部162全体の処理について、数式を用いて説明する。
正解なし誤り傾向学習部162が用いる目的関数(第2の目的関数)は、式(31)で表される。
Figure 0005437204
但し、事後確率P(w|x;Θneg)は、正解付き誤り傾向学習部161で得られる言語モデルP(w;Θpos)を使って計算される。つまり、式(31)の目的関数値は、正解付き誤り傾向学習部161で得られる言語モデルP(w;Θpos)を使って計算される。
なおここでは正解データがないため、式(31)に表す目的関数は、ある音声に対する複数の音声認識結果(正解候補)の相互間のリスク(編集距離)を用いている。本実施形態は、このような目的関数を用いているため、正解データがない音声言語資源を用いた誤り傾向の学習を効率的に行える。つまり、高コストな正解付き音声言語資源のみに頼る必要がない。
つまり、式(31)で表す目的関数としては、正解候補である複数の音声認識結果データの相互間のリスクと、正解候補である音声認識データの事後確率とに基づく値を取る関数を用いている。また、この目的関数は、確率要素を加味したリスクの総量となるようにしている。正解なし誤り傾向学習部161が行う学習処理は、このリスクの総量を最小化するような、正解候補の事後確率を得られることを指向している。
式(31)の目的関数値L negをθ negに関して偏微分すると、下の式(32)を得る。
Figure 0005437204
なお、この式(32)の計算でも、言語モデルP(w;Θpos)は用いられる。
そして、重み値の更新式は、ステップ幅δを用いて、下の式(33)で表される。
Figure 0005437204
式(33)で更新された重みを用いて目的関数値を再計算し、更新前と更新後の間の目的関数値の相対的変化量が所定の閾値ε未満か否かを判定する。つまり、下の式(34)による判定を行なう。
Figure 0005437204
式(34)を満たす場合には目的関数値が収束したと判断し、式(34)を満たさない場合には目的関数値が収束するまで重み値の更新を繰り返す。これにより、Θnegを求めることができる。
そして、以上で得られた重み値Θ={Θpos,Θneg}を用いた対数線形モデルは、前述の式(8)で表される。
次に、誤り傾向学習処理の具体的な手順をフローチャートに沿って説明する。
図9にも示すように、正解付き誤り傾向学習部161は、正解付き認識結果記憶部120から読み出した正解付き音声認識結果を用いるとともに、出現傾向学習部150より渡された出現傾向適応化モデルを読み出して、誤り傾向を学習する。
図9のステップS510において、正解付き誤り傾向学習部161は、素性関数Φposに対する重みΘposの要素を全てゼロに初期化する。
次に、ステップS520において、正解付き誤り傾向学習部161は、正解付き音声認識結果に基づき、式(28)を用いた計算を行なって、重み値θ pos(i=1,2,・・・)の値をそれぞれ更新する。
次に、ステップS530において、正解付き誤り傾向学習部161は、ステップS520で更新された重み値を用いて、式(25)で定義される目的関数値を計算する。
次に、ステップS540において、正解付き誤り傾向学習部161は、式(29)が満たされるか否かの計算を行い、目的関数値が収束したか否かを判定する。式(29)を満たせば、つまり目的関数値が収束していれば、次のステップS550に進む。式(29)を満たさなければ、つまり目的関数値が収束していなければ素性重み値をさらに更新するために、ステップS520に戻る。
次に、ステップS550に進んだ場合には、正解付き誤り傾向学習部161は、式(30)で表される対数線形モデルの形式で、言語モデルを更新する。ここで、具体的には、正解付き誤り傾向学習部161は、得られた素性関数の重み値θ pos(i=1,2,・・・)を半導体メモリ等に書き込むことによって、これらの値を正解なし誤り傾向学習部162に渡す。また、重み値θ posに加えて、式(30)のP(w;Θpos)の値を、半導体メモリ等に書き込むことによって、正解なし誤り傾向学習部162に渡すようにしても良い。
以上で、このフローチャート全体の処理を終了する。
次に、図10にも示すように、正解なし誤り傾向学習部162は、正解なし認識結果記憶部130から読み出した正解なし音声認識結果と、ターゲットデータ記憶部100から読み出したターゲットデータとを用いて、誤り傾向を学習する。
図10のステップS560において、正解なし誤り傾向学習部162は、素性関数Φnegに対する重みΘnegの要素を全てゼロに初期化する。
次に、ステップS570において、正解なし誤り傾向学習部162は、正解なし音声認識結果とターゲットデータに基づき、式(33)を用いた計算を行なって、重み値θ neg(i=1,2,・・・)の値をそれぞれ更新する。なお、正解なし誤り傾向学習部162は、この計算を行なう際、前述の通り、正解付き誤り傾向学習部161から渡された言語モデルP(w;Θpos)も用いる。
次に、ステップS580において、正解なし誤り傾向学習部162は、ステップS570で更新された重み値を用いて、式(31)で定義される目的関数値を計算する。この計算の際にも、言語モデルP(w;Θpos)が用いられる。
次に、ステップS590において、正解なし誤り傾向学習部162は、式(34)が満たされるか否かの計算を行い、目的関数値が収束したか否かを判定する。式(34)を満たせば、つまり目的関数値が収束していれば、次のステップS600に進む。式(34)を満たさなければ、つまり目的関数値が収束していなければ素性重み値をさらに更新するために、ステップS570に戻る。
次に、ステップS600に進んだ場合には、正解なし誤り傾向学習部162は、式(8)で表される対数線形モデルの形式で、言語モデルを更新する。ここで、具体的には、正解なし誤り傾向学習部162は、得られた素性関数の重み値ΘposおよびΘnegを言語モデル記憶部190に書き込む。また、重み値ΘposおよびΘnegに加えて、式(8)のP(w;Θ)の値を、言語モデル記憶部190に書き込むようにしても良い。
以上で、このフローチャート全体の処理を終了する。
以上のようにして、誤り傾向学習部160は、正解付き音声認識結果を用いた誤り傾向の学習と、正解なし音声認識結果を用いた誤り傾向の学習とを行う。
そして、以上の学習部140全体の処理により、言語モデル記憶部190は、利用者によって選択されたタスクに特に適うよう更新される。
以上述べたように、本実施形態の音声認識装置1では、正解付き音声認識結果だけではなく、正解なし音声認識結果をも用いた学習処理を行なうため、安いコストで収集した言語資源を用いて、コスト効率よく、モデルの学習を行なうことができる。これにより、音声認識率を向上させることができる。
[1.5 言語モデル記憶部の構成]
既に述べたように、言語モデルは、式(5)や式(8)や式(30)で表される、単語列の出現確率のデータである。
言語モデル記憶部190は、初期の言語モデルとして、各単語列wに対応付けてP(w)の値を予め記憶しておく。
また、学習部140の処理によって更新された言語モデルを保持するための一形態として、言語モデル記憶部190は、学習の結果得られた素性関数の重み値のセットを記憶する。このとき、タスクを識別する情報と関連付けて、素性関数の重み値のセットを記憶するようにしてもよい。これにより、複数のタスクにそれぞれ対応する言語モデルを保持することができる。さらに、言語モデル記憶部190が、学習結果反映済みの出現確率の値を各単語列wに対応付けて記憶するようにしても良い。これは、式(8)におけるP(w;Θ)の値である。
なお、出現傾向学習部150から誤り傾向学習部160(正解付き誤り傾向学習部161)に渡される言語モデルや、正解付き誤り傾向学習部161から正解なし誤り傾向学習部162に渡される言語モデルについても、そのデータ構成は上記の言語モデル記憶部190におけるそれと同様である。
[1.6 その他]
以上述べた本実施形態について整理すると、この手法では、ウェブ上のテキスト等の言語資源や、音声認識結果などの正解のない音声言語資源から、単語の出現傾向を学習できる。また、この手法では、比較的少量の正解付きの音声言語資源を準備して、比較的多量の正解なし音声言語資源を用いて、単語の誤り傾向を学習できる。これにより、単語の出現傾向と誤り傾向の両者を反映した統計的言語モデルを用いることによって、従来技術に比べて音声認識の性能を向上させることができる。また、低コストの言語資源、音声言語資源を利用することにより、正解データを制作するコストを削減できるという著しい利点がある。
[2.第2の実施の形態]
次に、第2の実施形態について、図面を参照しながら説明する。なお、第1の実施形態と共通の事項については説明を省略し、本実施形態特有の事項のみを以下に説明する。
図11は、本実施形態による言語モデル処理装置の機能構成を示すブロック図である。図示するように、本実施形態の言語モデル処理装置2は、言語資源取得部20と、資源蓄積部70と、ターゲット選定部80と、データ抽出部90と、ターゲットデータ記憶部100と、類似テキスト記憶部110と、正解付き認識結果記憶部120と、正解なし認識結果記憶部130と、学習部140と、モデル記憶部170とを含んで構成される。これら各部の機能は、第1の実施形態におけるそれらと同様である。なお、第1の実施形態における音声認識装置1と異なり、この言語モデル処理装置2は、音声認識処理部10を備えていない。
つまり、言語モデル処理装置2は、外部から入力された音声の認識処理を行なわず、正解なし音声言語資源としては予め正解なし音声言語資源蓄積部40に蓄積されているもののみを用いて、データ抽出部90による抽出処理や学習部140による学習処理を行なう。またこの言語モデル処理装置2では、学習部140による学習処理の結果として特定のタスクに適合した言語モデルが得られ、得られた言語モデルを学習部140が言語モデル記憶部190に書き込むが、この言語モデル処理装置2自身が得られた言語モデルを用いて音声認識処理を行なうことはない。言語モデル処理装置2によって得られた言語モデルは、適宜、他の音声認識装置で用いることが可能である。
[3.変形例]
さらに、第1の実施形態および第2の実施形態の変形例について説明する。
一つの態様として、言語資源取得部20を含まない形で音声認識装置1または言語モデル処理装置2を構成しても良い。このとき、言語資源蓄積部60には予めテキストを蓄積しておき、そのテキストを用いた処理を行なうようにする。
また、さらなる態様として、資源蓄積部70の一部または全部を含まない形で音声認識装置1または言語モデル処理装置2を構成しても良い。このとき、資源蓄積部70に蓄積されない資源(テキストのみによる言語資源、正解付き音声言語資源、正解なし音声言語資源)については、予め、類似テキスト記憶部110、正解付き認識結果記憶部120、正解なし認識結果記憶部130に適切な形で記憶させておくようにする。
また、さらなる態様として、学習部140内に、出現傾向学習部140を含まず、誤り傾向学習部150のみを含む形で、構成しても良い。このとき、誤り傾向学習部160は、与えられた言語モデルに基づいて誤り傾向の学習処理を行い、言語モデルを更新する。このとき、誤り傾向学習部160に与えられる言語モデルは、出現傾向適応化済のものであっても良い。
また、さらなる態様として、誤り傾向学習部160が、正解なし誤り傾向学習部162を有しているものの、正解付き誤り傾向学習部161を有していない構成としても良い。このとき、正解なし誤り傾向学習部162は、誤り傾向学習部160の外部から入力されたまたは読み込んだ言語モデル(即ち、出現傾向学習部150が存在する場合には出現傾向学習部150から出力される出現傾向適応化言語モデル。出現傾向学習部150が存在しない場合には言語モデル記憶部190から読み出される初期の言語モデル。)を基に、正解なし認識結果を用いて前述の学習処理を行い、この学習結果により言語モデルを更新する。この場合は、正解付きの音声言語資源を必要とせずに、正解なし認識結果のみに基づいた言語モデルの改善が実現される。
なお、上述した各実施形態およびその変形例における音声認識装置または言語モデル処理装置の全部または一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
上記実施形態では、放送音声を音声認識処理の対象としたが、放送音声以外の音声を対象として音声認識装置または言語モデル処理装置を構成しても良い。この場合は、放送番組の単位の変わりに、適宜定めた単位で音声言語資源を蓄積し、処理を行なう。
また、上記実施形態では、番組単位の放送音声を一文書として扱ったが、適宜これと異なる単位で放送音声を一文書として扱うようにしても良い。例えば、ニュース番組の記事毎に放送音声を一文書として扱ったり、番組内のコーナー(例えば、一般ニュース、スポーツニュース、天気予報など)毎に放送音声を一文書として扱ったりするようにしても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、音声認識処理一般に広く利用できる。また例えば、放送等の音声を含んだコンテンツから、音声認識処理によって自動的に書き起こしテキストを生成する目的で、本発明を利用できる。また例えば、番組等のコンテンツ流通のために必要とされる番組情報を、自動的に取得する目的で、本発明を利用できる。
1 音声認識装置
2 言語モデル処理装置
10 音声認識処理部
20 言語資源取得部
40 正解なし音声言語資源蓄積部
50 正解付き音声言語資源蓄積部
60 言語資源蓄積部
70 資源蓄積部
80 ターゲット選定部
90 データ抽出部
100 ターゲットデータ記憶部(テキスト記憶部)
110 類似テキスト記憶部(テキスト記憶部)
120 正解付き認識結果記憶部(テキスト記憶部)
130 正解なし認識結果記憶部(テキスト記憶部)
140 学習部
150 出現傾向学習部
160 誤り傾向学習部
161 正解付き誤り傾向学習部
162 正解なし誤り傾向学習部
170 モデル記憶部
180 音響モデル記憶部
190 言語モデル記憶部

Claims (6)

  1. 正解データのない音声認識結果データを記憶する正解なし認識結果記憶部と、
    言語表現の出現確率を表すデータである言語モデルを記憶する言語モデル記憶部と、
    与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって前記言語モデルを更新して、更新された前記言語モデルを前記言語モデル記憶部に書き込む正解なし誤り傾向学習部と、を具備す言語モデル処理装置であって、
    音声認識結果データと該音声認識結果データに対応する正解データとを記憶する正解付き認識結果記憶部と、
    予め与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって与えられた前記言語モデルを更新して出力する正解付き誤り傾向学習部と、をさらに具備し、
    前記正解なし誤り傾向学習部は、前記正解付き誤り傾向学習部が更新して出力した前記言語モデルを入力とする、
    ことを特徴とす言語モデル処理装置。
  2. 前記正解付き誤り傾向学習部は、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データにそれぞれ含まれる言語表現と所定の第1のパラメータ集合とを基に計算される第1の目的関数を用いて前記誤り傾向の学習処理を行い、この誤り傾向の学習結果によって得られた前記第1のパラメータ集合の値に基づいて、前記言語モデルの更新および出力を行い、
    前記正解なし誤り傾向学習部は、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データに基づき、前記正解のない音声認識結果データに含まれる言語表現と所定の第2のパラメータ集合とを基に計算される第2の目的関数を用いて、前記誤り傾向の学習処理を行い、この誤り傾向の学習結果によって得られた前記第2のパラメータ集合の値に基づいて、前記言語モデルを更新し、更新された前記言語モデルと前記言語モデル記憶部に書き込む、
    ことを特徴とする請求項に記載の言語モデル処理装置。
  3. テキストを記憶するテキスト記憶部と、
    予め与えられる前記言語モデルと、前記テキスト記憶部から読み出した前記テキストとを用いて、言語表現の出現傾向の学習を行い、この出現傾向の学習結果によって前記言語モデルを更新して出力する出現傾向学習部と、
    をさらに具備し、
    前記正解付き誤り傾向学習部は、前記出現傾向学習部が出力した前記言語モデルを前記入力された言語モデルとして使用する、
    ことを特徴とする請求項またはのいずれか一項に記載の言語モデル処理装置。
  4. 音声認識結果データと該音声認識結果データに対応する正解データとを蓄積しておく正解付き音声言語資源蓄積部と、
    正解データのない音声認識結果データを蓄積しておく正解なし音声言語資源蓄積部と、
    収集されたテキストを蓄積しておく言語資源蓄積部と、
    所定のタスクに属する言語情報を記憶するターゲットデータ記憶部と、
    前記ターゲットデータ記憶部から読み出した前記言語情報と前記正解付き音声言語資源蓄積部から読み出した前記正解データとの間で計算した言語表現に関する類似度に基づき、前記正解付き音声言語資源蓄積部から選択した前記音声認識結果データおよび対応する前記正解データを、前記正解付き認識結果記憶部に書き込み、前記ターゲットデータ記憶部から読み出した前記言語情報と前記正解なし音声言語資源蓄積部から読み出した前記正解データのない音声認識結果データとの間で計算した言語表現に関する類似度に基づき、前記正解なし音声言語資源蓄積部から選択した前記正解データのない音声認識結果データを前記正解なし認識結果記憶部に書き込み、前記ターゲットデータ記憶部から読み出した前記言語情報と前記言語資源蓄積部から読み出した前記テキストとの間で計算した言語表現に関する類似度に基づき、前記言語資源蓄積部から選択した前記テキストを前記テキスト記憶部に書き込むデータ抽出部と、
    を具備することを特徴とする請求項に記載の言語モデル処理装置。
  5. 請求項1からまでのいずれか一項に記載の言語モデル処理装置を具備し、
    言語表現と音響的特徴量に対する言語表現の確率を表すデータである音響モデルを記憶する音響モデル記憶部と、
    前記言語モデル処理装置の前記言語モデル記憶部から読み出す前記言語モデルと、前記音響モデル記憶部から読み出す前記音響モデルとに基づき、入力される音声の音声認識処理を行い、結果として得られる正解のない音声認識結果データを前記言語モデル処理装置の前記正解なし音声言語資源蓄積部に書き込む音声認識処理部と、
    をさらに具備することを特徴とする音声認識装置。
  6. コンピュータを、請求項1から4までのいずれか一項に記載の言語モデル処理装置として機能させるためのプログラム。
JP2010197869A 2010-09-03 2010-09-03 言語モデル処理装置および音声認識装置、ならびにプログラム Active JP5437204B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010197869A JP5437204B2 (ja) 2010-09-03 2010-09-03 言語モデル処理装置および音声認識装置、ならびにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010197869A JP5437204B2 (ja) 2010-09-03 2010-09-03 言語モデル処理装置および音声認識装置、ならびにプログラム

Publications (2)

Publication Number Publication Date
JP2012053403A JP2012053403A (ja) 2012-03-15
JP5437204B2 true JP5437204B2 (ja) 2014-03-12

Family

ID=45906743

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010197869A Active JP5437204B2 (ja) 2010-09-03 2010-09-03 言語モデル処理装置および音声認識装置、ならびにプログラム

Country Status (1)

Country Link
JP (1) JP5437204B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5812936B2 (ja) * 2012-05-24 2015-11-17 日本電信電話株式会社 アクセント句境界推定装置、アクセント句境界推定方法及びプログラム
JP6086714B2 (ja) * 2012-12-14 2017-03-01 日本放送協会 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6300394B2 (ja) * 2013-05-15 2018-03-28 日本放送協会 誤り修正モデル学習装置、及びプログラム
JP2016095399A (ja) * 2014-11-14 2016-05-26 日本電信電話株式会社 音声認識結果整形装置、方法及びプログラム
JP6389795B2 (ja) * 2015-04-24 2018-09-12 日本電信電話株式会社 音声認識結果整形装置、方法及びプログラム
CN114078475B (zh) * 2021-11-08 2023-07-25 北京百度网讯科技有限公司 语音识别和更新方法、装置、设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4852448B2 (ja) * 2007-02-28 2012-01-11 日本放送協会 誤り傾向学習音声認識装置及びコンピュータプログラム
JP5334178B2 (ja) * 2009-01-21 2013-11-06 クラリオン株式会社 音声認識装置およびデータ更新方法

Also Published As

Publication number Publication date
JP2012053403A (ja) 2012-03-15

Similar Documents

Publication Publication Date Title
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US10410627B2 (en) Automatic language model update
JP4852448B2 (ja) 誤り傾向学習音声認識装置及びコンピュータプログラム
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
US8401847B2 (en) Speech recognition system and program therefor
JP5437204B2 (ja) 言語モデル処理装置および音声認識装置、ならびにプログラム
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
AU2016383052A1 (en) Systems and methods for suggesting emoji
JP6047364B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
CN102880611B (zh) 一种语言建模方法及语言建模装置
JP7155758B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2002091477A (ja) 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
CN101996232A (zh) 信息处理装置、用于处理信息的方法及程序
JPWO2012105231A1 (ja) モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
JP4755478B2 (ja) 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP5265445B2 (ja) 話題境界検出装置及びコンピュータプログラム
JP5914054B2 (ja) 言語モデル作成装置、音声認識装置、およびそのプログラム
JP6366166B2 (ja) 音声認識装置、及びプログラム
JP5723711B2 (ja) 音声認識装置および音声認識プログラム
JP6300394B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP4340024B2 (ja) 統計的言語モデル生成装置および統計的言語モデル生成プログラム
JP6086714B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Dinarelli et al. Concept segmentation and labeling for conversational speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131211

R150 Certificate of patent or registration of utility model

Ref document number: 5437204

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250