JP3950957B2 - 言語処理装置および方法 - Google Patents

言語処理装置および方法 Download PDF

Info

Publication number
JP3950957B2
JP3950957B2 JP2002071625A JP2002071625A JP3950957B2 JP 3950957 B2 JP3950957 B2 JP 3950957B2 JP 2002071625 A JP2002071625 A JP 2002071625A JP 2002071625 A JP2002071625 A JP 2002071625A JP 3950957 B2 JP3950957 B2 JP 3950957B2
Authority
JP
Japan
Prior art keywords
character strings
word
language processing
probability
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002071625A
Other languages
English (en)
Other versions
JP2003271188A (ja
Inventor
友良 秋葉
克亘 伊藤
敦 藤井
徹也 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2002071625A priority Critical patent/JP3950957B2/ja
Publication of JP2003271188A publication Critical patent/JP2003271188A/ja
Application granted granted Critical
Publication of JP3950957B2 publication Critical patent/JP3950957B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、言語モデルを使用して言語処理を行う言語処理装置および方法に関する。
【0002】
【従来の技術】
音声認識装置は、音声信号の特徴量aを観察し、それをもっとも良く説明する単語(列)wを推定する問題が下記式により定式化されている。
【0003】
【数1】
argmax wP (w|a) = argmax wP (a|w)P (w)
【0004】
音声認識装置の性能は、このP(a|w)、P(w)の良いモデルを見いだすことに大きく依存している。
【0005】
このうち、P(w)は音声信号の発話内容が言語としてどれだけ尤もらしいかを表す確率で、言語モデルと呼ばれる。現在、言語モデルを構築する手法は、統計的手法によるものと記述文法によるものの2つに大別される。
【0006】
統計的手法による言語モデルの代表的なものはN−gramモデルと呼ばれ、大語彙連続音声認識システムで現在もっとも広く利用されている。N−gramモデルは、新聞記事などの大量の言語データから、N個の連続する単語の並びの統計情報を抽出し、確率モデルとして表したものである。学習データさえ用意すれば、大語彙で比較的性能の良い言語モデルを簡単に構築することができる。
【0007】
一方、その性能は用意した学習データの統計的性質に左右されるため、大量の学習データを用意することが困難なタスクを扱うのが難しいという問題点がある。たとえば、音声認識の応用分野として、ある特定のデータベースの検索を対象とした対話システムや、特定用途のために認識する発話を特化したシステムが考えられるが、このようなタスクの学習データは元から存在しないことがほとんどで、システム開発者が用意する必要があるが、作成のコストの面で困難である。
【0008】
このような分野に用いられる言語モデルとしては、記述文法によるものが広く用いられている。自然言語の記述に広く用いられている文脈自由文法や、正規文法(ネットワーク文法)を用いて、そのタスクで扱われる発話をシステム設計者が人手で記述し、それを言語モデルとする方法である。N−gramモデルは単語長Nという言語の中でもきわめて短い間の依存関係しか表現できないのに対して、記述文法では、文単位の長距離の依存関係を記述する能力がある。また、記述文法の作成には、これまでの言語学の研究成果から得られた知見を利用できるという特徴もある。しかし、人手で作成する以上、作成する規模には限界があり広い範囲の言語表現に対応するのは難しい。また、統計的手法を用いないので大語彙の認識には不向きである。
【0009】
N−gramモデルにおいて、種々のスムージング手法が提案されている(北研二.確率的言語モデル.東京大学出版会,1999)。スムージングとは、学習データに現れないN単語連鎖を確率0としてN−gramモデルを作成すると言語モデルの性能が悪化するため、0でない確率を割り当てるよう補完を行う手法のことを指す。現在、広く利用されているバックオフスムージングでは、学習データに現れないN単語連鎖の確率をN−1単語連鎖の確率で補完する。
【0010】
【発明が解決しようとする課題】
上述したように統計的な言語モデルを使用する言語処理方法および記述文法の言語モデルを使用する言語処理方法にはそれぞれ一長一短がある。
【0011】
そこで、本発明の目的は、上記2つの長所を取り入れて、統計的な言語モデルおよび記述文法の言語モデルを併用することができる言語処理装置および方法を提供することにある。
【0012】
【課題を解決するための手段】
このような目的を達成するために、請求項1の発明は、複数組の文字列の各々の特徴を該特徴を表す文字列に変換するために、前記複数組の文字列の各々についての変換候補をネットワークの形態で接続し、該ネットワーク上の同一経路上で隣接する変換候補の連鎖の確率の値を求め、前記ネットワークの各経路の確率の値の中で、最も値が高い経路上の変換候補の列を前記複数組の文字列の特徴に対する変換結果とすると共にバックオフスムージング処理を行う言語処理装置において、予め定められた並びの複数組の文字列が前記ネットワーク上の経路に現れるか否かを判定する判定手段と、肯定判定が得られた場合には、予め定められた並びの複数組の文字列以外の変換候補から予め定められた並びの複数組の文字列の中の先頭以外の変換候補の文字列への経路の接続、および予め定められた並びの複数組の文字列の中の末尾以外の変換候補の文字列から予め定められた並びの複数組の文字列以外の変換候補への経路の接続、を禁止する制御手段とを具えたことを特徴とする。
【0013】
請求項2の発明は、請求項1に記載の言語処理装置おいて、複数組の文字列およびその連鎖の確率の値および該確率の値に対する当該文字列の組数に応じた補正係数の値を記載した確率表を有し、経路の接続を禁止する文字列の組み合わせについては、その組み合わせの内容に応じて前記確率の値または補正係数の値を0(ゼロ)となすことを特徴とする。
【0014】
請求項3の発明は、請求項2に記載の言語処理装置において、文字列の特徴およびその特徴に対応する変換候補の文字列を記載した単語辞書をさらに有し、該単語辞書に記載する文字列の中に、前記予め定めた並びの文字列の中に含まれる文字列を識別符号を付して含めておくことを特徴とする。
【0015】
請求項4の発明は、請求項2に記載の言語処理装置において、文書を入力する手段と、当該入力された文書の中に含まれる文字列をその種類ごとに計数して、前記確率表を作成する手段をさらに具えたことを特徴とする。
【0016】
請求項5の発明は、請求項4に記載の言語処理装置において、前記予め定められた並びの複数組の文字列を指定する手段をさらに具え、当該指定された文字列の組み合わせについては前記確率表中の各文字列に請求項3に記載の識別符号と同じ識別符号が付されることを特徴とする。
【0017】
請求項6の発明は、複数組の文字列の各々の特徴を該特徴を表す文字列に変換するために、言語処理装置により、前記複数組の文字列の各々についての変換候補をネットワークの形態で接続し、該ネットワーク上の同一経路上で隣接する変換候補の連鎖の確率の値を求め、前記ネットワークの各経路の確率の値の中で、最も値が高い経路上の変換候補の列を前記複数組の文字列の特徴に対する変換結果とすると共にバックオフスムージング処理を行う言語処理方法において、前記言語処理装置の実行処理ステップは、予め定められた並びの複数組の文字列が前記ネットワーク上の経路に現れるか否かを判定する判定ステップと、肯定判定が得られた場合には、予め定められた並びの複数組の文字列以外の変換候補から予め定められた並びの複数組の文字列の中の先頭以外の変換候補の文字列への経路の接続、および予め定められた並びの複数組の文字列の中の末尾以外の変換候補の文字列から予め定められた並びの複数組の文字列以外の変換候補への経路の接続、を禁止する制御ステップとを具えたことを特徴とする。
【0018】
請求項7の発明は、請求項6に記載の言語処理方法おいて、複数組の文字列およびその連鎖の確率の値および該確率の値に対する当該文字列の組数に応じた補正係数の値を記載した確率表を有し、経路の接続を禁止する文字列の組み合わせについては、その組み合わせの内容に応じて前記確率の値または補正係数の値を0(ゼロ)となすことを特徴とする。
【0019】
請求項8の発明は、請求項7に記載の言語処理方法において、前記言語処理装置は文字列の特徴およびその特徴に対応する変換候補の文字列を記載した単語辞書をさらに有し、該単語辞書に記載する文字列の中に、前記予め定めた並びの文字列の中に含まれる文字列を識別符号を付して含めておくことを特徴とする。
【0020】
請求項9の発明は、請求項7に記載の言語処理方法において、文書を入力するステップと、当該入力された文書の中に含まれる文字列をその種類ごとに計数して、前記確率表を作成するステップをさらに具えたことを特徴とする。
【0021】
請求項10の発明は、請求項9に記載の言語処理方法において、前記予め定められた並びの複数組の文字列を指定するステップをさらに具え、当該指定された文字列の組み合わせについては前記確率表中の各文字列に請求項8に記載の識別符号と同じ識別符号が付されることを特徴とする。
【0022】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0023】
(本実施形態の言語処理方法)
従来技術で説明したように、統計的言語モデルでは広い範囲の言語表現を扱えるが、特定のタスク用途に用いるのは難しい。記述文法は、システム設計者が扱える言語表現を自由に記述することで、特定のタスク用途の言語モデルを容易に獲得することができるが、広い範囲の言語表現や大語彙に対応するのが難しい。
【0024】
そこで、本実施形態では、記述文法で表した言語モデルをN−gramで表現し、統計的手法によるN−gramモデルと統合する。
【0025】
本実施形態では、まず、記述文法で表した言語モデルを、bi−gram(2つの単語の連鎖)で表現する。正規文法(ネットワーク文法)は、単語連接が可能な場合は確率値p(>0)で、単語連接が不可能な場合は確率値0としたbi−gramで表現することができる(詳細は、APPENDIXに記述する。)。また、文脈自由文法は、正規文法に近似するアルゴリズムが知られているので(F.C.N.Pereiraand R.R.Wright.Finite−state approximation of phrase−structure grammars.In Proc.of ACL 1991,pp.246−255,1991)、正規文法に近似したあと同様の手法bi−gram表現に変換することが可能である。
【0026】
このようなbi−gram表現した記述文法を、新聞記事などから学習した統計的手法によるN−gramモデルと統合し、統合N−gramを作成する。その手順は、以下に説明する。音声認識装置は、
(1)記述文法部分の頻度情報を獲得する。
(2)獲得した頻度情報を用いて確率を学習する。
(3)作成した言語モデルを用いて音声認識を実行する。
の処理を実行する。
【0027】
(1)頻度情報の獲得
【0028】
【外1】
Figure 0003950957
【0029】
(1−1)ネットワーク文法の作成
まず、統計的手法で作成したN−gramの語彙を用いてネットワーク文法を作成する。もしN−gram語彙に含まれない単語を使用する場合は、N−gramの未知語に対応づける。(例えば、日本語ディクテーション基本ソフトウェア(鹿野清宏,伊藤克亘,河原達也,武田一哉,山本幹雄(編).音声認識システム.オーム社,2001)の言語モデルは、2万語と6万語のものがあり、特殊な固有名詞を使わない限り、ネットワーク文法を記述するには十分である。)
【0030】
開始単語と終了単語は、他のネットワーク内単語と区別して、それぞれ開始時、終了時のみ到達可能とするようにネットワークを構成する。これには、開始単語と終了単語のために、他の単語と区別する特別な単語記号を用意すればよい。すなわちネットワーク内単語集合WGは、互いに共通部分のない、開始単語集合WGs、終了単語集合WGf、中間に現れる単語集合WGmから構成されるとする。また、ネットワーク文法の単語は、元のN−gramの同じ単語と区別するために、別の単語記号を割り当てる。ここでは、N−gram中の単語wに対して、ネットワーク文法の単語を、記号”@”を付けて@wと表すことにする。
【0031】
【外2】
統合モデルの語彙WAは、元のN−gramからの単語w∈WUと、ネットワーク文法からの単語WG(=WGs∪WGm∪WGf)から構成される。(WU∩WG=Φ)
【0032】
(1−2)頻度情報のコピー
【0033】
【外3】
Figure 0003950957
【0034】
普通、N−gram確率学習では、高次の単語列頻度と低次の単語列頻度が無矛盾なので、高次の単語列頻度から低次の単語列頻度を求めることができる。しかし、ここでは、部分的に頻度情報を与えるため、高次の単語列頻度から低次の単語列頻度を求めることができない。そこで、以下では各単語長ごとに頻度Cを与えて表すことにする。
【0035】
統合モデルの部分によって、次のような頻度を与える(図1)。ここでは、現在もっともよく用いられているtri−gram(N=3)の場合について説明する。一般のNの場合でも同様に求めることができる。
【0036】
・N−gram内単語列の頻度
元の単語列の、N−gram頻度をそのまま使う。
【0037】
【数2】
Figure 0003950957
【0038】
・ネットワーク文法内の単語列頻度
ネットワーク文法で連接可能な単語対(@wi,@wj)および(@wj,@wk)に対し、対応するN−gramモデル中の単語対(wi,wj)の頻度を与える。
【0039】
【数3】
Figure 0003950957
【0040】
ただし、C0(wi,wj)=0となるような単語対(@wi,@wj)が存在する可能性があるため、ディスカウンティングを行う必要がある。一方、開始単語@wsを除いて単単語頻度を0とする。
【0041】
【数4】
Figure 0003950957
【0042】
・N−gramとネットワーク文法を結ぶ単語列頻度
ネットワーク文法の開始単語@ws∈WGsに対し、対応する単語wsの頻度を用いて、次のような頻度を与える。
【0043】
【数5】
Figure 0003950957
【0044】
γは、ネットワーク文法の表す単語列の、対応するN−gramモデルでの単語列に対する相対的な優先度を表す。1以上の値を与え、大きな値を与えるほど、ネットワーク文法の表現が優先的に考慮される。後で述べるように、γ=1としても、ネットワーク文法の表現は優先的に扱われるようになる。
【0045】
ネットワーク文法の終了単語@wf∈WGfからN−gramへの単語列頻度も、同様に与える。ただし、@wfの単単語頻度は0とする。δは、γと同様、ネットワーク文法の表す単語列の、対応するN−gramモデルでの単語列に対する相対的な優先度を表す。
【0046】
【数6】
C(@wf,wj,wk)=δC0(wf,wj,wk
C(@wf,wj)=δC0(wf,wj
C(@wf)=0
【0047】
(2)確率モデルの学習
与えた部分的頻度情報からモデルを学習する。一般に、バックオフスムージングが行われたN−gramは、次の再帰式で表される。
【0048】
【数7】
Figure 0003950957
【0049】
【外4】
Figure 0003950957
【0050】
(2−1)部分的頻度からの学習
従来法による確率学習手順を図2に示す。
【0051】
学習データだけから頻度情報を獲得する場合、各長さnの頻度情報は無矛盾であるので、目的のN−gramの長さNの頻度情報だけを与えれば良い。より短いn(<N)の頻度は、Nの頻度から一意に計算可能である。
【0052】
これに対し、提案法の手順を図3に示す。
【0053】
このように、人手で頻度情報を操作した場合、頻度情報の各長さnで整合性がなくなる。そのため、各長さn毎の頻度情報が必要となる。また、N−gramモデルの確率計算方法の修正が必要となる。
【0054】
バックオフスムージングモデルの計算において、長さnの頻度
【0055】
【外5】
Figure 0003950957
【0056】
は、
(a)(n+1)−gram確率計算、
(b)n−gram確率計算
の二通りに使用される。学習データだけから獲得した(完全な)頻度情報を使う場合は、(a)と(b)のどちらの計算にも同じ長さnの頻度情報を用いることができる。一方、部分的な頻度情報を用いる場合は、同じn頻度情報を用いると、正しい確率計算ができない。
【0057】
【外6】
Figure 0003950957
【0058】
(a)(n+1)−gram確率計算
【0059】
【外7】
Figure 0003950957
【0060】
【数8】
Figure 0003950957
【0061】
ディスカウント係数の計算でもn頻度が必要な場合は、従来法のn頻度をコンテキストn頻度に置き換えて計算する。例えば、witten−bell法(P.Placeway,R.Schwartz,P.FungandL.Nguyen.TheEstimation of Powerful Lnaguage Models from Small and Large Corpora.In Porc.of ICASSP,Vol.II,pp.33−36,1993.)の場合は、
【0062】
【数9】
Figure 0003950957
【0063】
であるが、本実施形態では、
【0064】
【数10】
Figure 0003950957
【0065】
【外8】
Figure 0003950957
【0066】
また、Good−Turing法(S.M.Katz.Estimationof probabilities from sparse data for language model component of a speech recognizer.IEEETrans.ASSP,Vol.35,pp.400−401,1987)では、長さn+1の頻度情報
【0067】
【外9】
Figure 0003950957
【0068】
から求めたGood−Turing推定値
【0069】
【外10】
Figure 0003950957
【0070】
を使って、(従来法と同じ)次の式になる。
【0071】
【数11】
Figure 0003950957
【0072】
(b)n−gram確率計算
長さnの頻度
【0073】
【外11】
Figure 0003950957
【0074】
をそのまま用いる。
【0075】
同時に計算に用いる長さn−1の頻度には、再帰的に、長さn−1のコンテキスト頻度
【0076】
【外12】
Figure 0003950957
【0077】
を用いる。
【0078】
(計算例)tri−gramの場合
バックオフスムージングによるtri−gramは、次の式で計算される。
【0079】
【数12】
Figure 0003950957
【0080】
従来法では、
・式(2)の中でtri−gram頻度C(wi,wj,wk)とbi−gram頻度C(wi,wj)が、
・式(3)の中でbi−gram頻度C(wi,wj)とuni−gram頻度C(wi)が、
・式(4)の中でuni−gram頻度C(wi)が、
それぞれ計算に使用される。
【0081】
本実施形態の言語処理方法では、
・式(2)の中でtri−gram頻度C(wi,wj,wk)とそのコンテキスト頻度Cc(wi,wj)が、
・式(3)の中でbi−gram頻度C(wi,wj)とそのコンテキスト頻度Cc(wi)が、
・式(4)の中でuni−gram頻度C(wi)が、
それぞれ計算に使用される。
【0082】
(応用)
部分的な頻度情報を用いることで、既存のN−gramモデルを簡単に改善することが可能になる。例えば、tri−gramモデルにおいて、ある単語woを優先的に認識したい場合、元の頻度情報Cに部分頻度情報を加えた、次のような頻度情報C’から確率を学習する。
【0083】
【数13】
Figure 0003950957
【0084】
すなわち、woを予測する確率のための頻度のみβ倍し、他の頻度はそのままとする。
【0085】
同様の方法で、ある単語列w1w2...wiを優先したり、単語列の集合(単語ネットワーク)を優先するように、部分頻度情報を与えることができる。
【0086】
このような、特定の単語(列)の確率だけを操作することは、従来法のように学習データだけの変更だけで対処するのは非常に難しいことに注意されたい。例えば、上記の単語woを優先する場合、学習データに単語woだけを加えた場合、単語woだけから構成される文を学習してしまい、文中に現れる単語woだけを優先することにはならない。そのためには文中にwoを含む学習データを用意する必要があるが、その場合もwo以外の文脈も学習されてしまうという問題がある上、wo以外の文脈を含む学習データを用意する必要がありコスト面でも問題が生じる。提案法では、簡単に、目的の単語(列)の確率だけを、直接制御することが可能である。
【0087】
(2−2)統計的手法によるモデルと記述文法によるモデルの2種の異なる性質を持つモデルの学習統合モデルのうち、ネットワーク文法を表す部分では二値的な制約を、それ以外の部分では通常のN−gramの性質を持ったモデルを学習するため、各部分に応じて異なる計算方法を適用してモデルを作成する。
【0088】
統合モデルの語彙WAのうち、開始単語を除くネットワーク文法中の単語wn∈WGm∪WGfを予測する確率PA(タイプA)と、N−gram内の単語とネットワーク開始単語wj∈WU∪WGsを予測する確率PB(タイプB)で、異なるバックオフスムージングの計算を行う。
【0089】
タイプAの確率
【0090】
【外13】
Figure 0003950957
【0091】
は、uni−gramへのバックオフを行なわないで求める。すなわち、式1(数7)の再帰式のうち、bi−gram確率を計算する式を次のように計算する。
【0092】
【数14】
Figure 0003950957
【0093】
ここでディスカウント係数
【0094】
【外14】
Figure 0003950957
【0095】
は、再配分を行わないで
【0096】
【数15】
Figure 0003950957
【0097】
となるように決める。もっとも簡単なものは、
【0098】
【外15】
Figure 0003950957
【0099】
である。この時、bi−gramのコンテキストを構成する単語は@wi∈WGs∪WGmとなっている点に注意されたい。
【0100】
タイプBの確率
【0101】
【外16】
Figure 0003950957
【0102】
は、普通にバックオフスムージングを行なって求める。ただし、uni−gram確率のディスカウントの際、WU∪WGsを全単語集合とみなしてuni−gramの再配分を行なうことに注意する。
【0103】
本実施形態の言語処理方法により学習したモデルの持つ性質以上の方法で作成した統合言語モデルは、例えばARPA形式などの、従来のN−gramモデルと同じフォーマットで表現できる。そのため、N−gramを言語モデルとして利用する既存の音声認識デコーダでそのまま利用できる。そして以下に示すように、N−gramとネットワーク文法の両方の性質を併せ持ったモデルとして利用できる。
【0104】
・N−gramからネットワーク文法内部の単語を予測する確率は必ず0となる。
開始単語を除くNetwork内単語@wk∈WGm∪WGfの予測モデルのuni−gramは0となる。Network内単語で、かつN−gram(N>0)確率の存在する(有向弧の存在する)単語からのみ予測可能となる。N−gram内単語wi∈WUからのN−gram確率は、N−gram(N>0)が存在しないのでuni−gramにバックオフされるが、
【0105】
【数16】
Figure 0003950957
【0106】
となり、wjから@wkへの遷移は生じない。
【0107】
・ネットワーク文法内部からN−gram単語を予測する確率は必ず0となる。
終了単語を除くネットワーク内単語@wi∈WGs∪WGmに対し、bi−gram確率のα(@wi)=0となる。ネットワーク内単語@wiからN−gram内単語wjへの頻度C(@wi,wj)は必ず0なので、
【0108】
【数17】
Figure 0003950957
【0109】
したがって、@wiからwjへの遷移は生じない。
【0110】
・ネットワーク文法の開始単語/終了単語ではN−gramとの連接が可能。
N−gram内単語からネットワーク開始単語、およびネットワーク終了単語からN−gram内単語は、通常のN−gramモデルと同様のスムージングされた確率値が割り当てられる。したがって、全てのN−gram内単語からネットワーク文法開始単語への遷移、文法終了単語から全てのN−gram内単語への遷移が可能である。
【0111】
・N−gram内の単語列だけから成る文に割り当てられる確率値の順序関係は保存される。
N−gram内単語列に与える頻度は、元のN−gramモデル学習用の頻度と同じである。
【0112】
・同じ単語列では、ネットワーク文法を通る単語列が優先される。
ネットワーク文法内単語列を含む文には、それに対応する(同じ音素列を持つ)N−gram内単語だけで構成された文が必ず存在する。既存の認識デコーダは、文の確率をパスの最大確率で近似する方法(ビタビ・アルゴリズム)が普通であるので、認識時には両者の確率値を比較し、高い方が採用されることになる。両者のbi−gram確率は同じ頻度から学習されているが、ネットワーク文法内単語列は、連接しない単語(特にネットワーク外の単語)を予測するための確率配分がないこと、バックオフを行わないで学習したモデルであること、から相対的に高い確率値が割り当てられることになる。また、ネットワーク文法開始単語への単語列頻度をγ(およびδ)で調節することで、N−gramに対する優先性をコントロールすることができる。
【0113】
(3)本実施形態の言語モデルを用いた効率的な音声認識処理方法
本実施形態の言語モデルの性質を利用して音声認識器の計算方法を工夫することで、効率的な音声認識処理が可能である。大語彙音声認識器では、音声入力順(あるいは逆順)に単語仮説との照合を逐次的に行う。ある単語仮説との照合が終了すると、その次の単語仮説を生成して、再び照合を開始する(図5参照)。N−gram言語モデルでは、すべての単語間で連接可能であるから、全単語を仮説として生成するのが普通である。
【0114】
この時、提案法の言語モデルでは、ネットワーク文法内とN−gram内との間で互いの予測確率が0となる事実を利用して、仮説の生成を抑制する(図6)。
【0115】
照合が完了した単語仮説wiが、終了単語を除くNetwork内単語wi∈WGs∪WGmである場合、次の単語は、wj∈WGm∪WGfである(それ以外の単語への言語モデル確率は0である)。よって、wj∈WGm∪WGfだけを単語仮説として生成すれば良い。
【0116】
照合が完了した単語仮説wiが、wi∈WU∪WGfである場合、次の単語は、wj∈WU∪WGsである(それ以外の単語への言語モデル確率は0である)。よって、wj∈WU∪WGsだけを単語仮説として生成すれば良い。
【0117】
しかるに、提案言語モデルの特殊な性質を利用すれば、認識した単語の属する集合に応じて展開する単語集合を限定することで、単語仮説の数を従来法より減少させることが可能であり、結果として効率の良い音声認識処理が可能となる。
【0118】
質問応答(QA)(佐々木裕,磯崎秀樹,平博順,廣田啓一,賀沢秀人,平尾努,中島浩之,加藤恒昭.質問応答システムの比較と評価.信学技報,NLC2000−24,pp.17−24,2000)は、1999年のTREC−8にタスクとして採択されて以来、次世代の情報検索技術を目指した評価タスクとして注目されている。従来の情報検索タスクも音声入力に対応するように拡張されてきたが(伊藤克亘,秋葉友良,藤井敦,石川徹也.音声入力型テキスト検索システムのための音声認識.日本音響学会講演論文集,pp.193−194,Oct.2001)、質問応答では入力が質問文というより話し言葉に近い表現が使用されることから、より音声入力に適したタスクであると考えられる。
【0119】
質問応答システムへの入力となる検索者の発話は、質問文という定型的な表現となる一方、QAの検索対象に関する多様な表現が使用される。そのため音声認識部では、これら性質の異なる2種の表現を同時に扱う言語モデルが必要となる。例として、QAタスクの入力には、答えを得るための次のような質問文が想定される。
【0120】
この入力中、文末の「何という名前でしたか」の部分は質問文に典型的に現れるパターンであり、ネットワーク文法でモデル化することができる。一方、「1976年に火星に軟着陸した探査機は」の部分は汎用のN−gramモデルで扱うことができる。
【0121】
QAタスクの質問文を想定した定型表現を受理可能なネットワーク文法(図7)を作成し、新聞記事111か月分から学習した2万語bi−gramおよびtri−gramと統合、ネットワーク文法統合モデル(net)を作成した。γは2とした。また比較のため、新聞記事のみから学習したN−gramモデル(base)を作成した。スムージング手法は、共にWitten-Bell法を用いた。
【0122】
評価データには、新聞記事100文(NP)とQAタスク用質問文50文(QA)を、男性2人女性2人によって読み上げた音声データを用いた。作成したネットワーク文法は、29単語と比較的小規模のものであるが、質問文のうち72%の36文(QA’)が、この文法のモデル化する表現を含んでいた。
【0123】
デコーダには大語彙音声認識デコーダjulius(鹿野清宏,伊藤克亘,河原達也,武田一哉,山本幹雄(編).音声認識システム.オーム社,2001)のバージョン3.2を使用し、音響モデルには2000状態16混合性別非依存triphoneを、言語モデル重みは新聞記事N−gramでの最適値を用いた。探索アルゴリズムの変更は行っていない。
【0124】
実験結果を表1に示す。新聞記事の認識精度を下げること無く、質問文の精度が向上することを確認した。
【0125】
【表1】
Figure 0003950957
【0126】
COR=単語正解率(%),ACC=単語正解精度(%)
【0127】
APPENDIX
ネットワーク文法のbi−gramモデル表現単語bi−gramは、単語を頂点とし、全ての単語間の有向弧に確率が付与された、重み付き(ループのある)完全有向グラフと見ることができる。この時、有向弧のbi−gram確率が0である場合、その単語連続があり得ないことを表すため、弧が存在しないことと等価である。したがって、単語を頂点として表現した任意のネットワーク文法から、有向弧が存在する場合は0でない確率値を、有向弧が存在しない場合は確率0を割り当て、単語bi−gramで表現することが可能となる。もしネットワーク文法中で、ある単語から入出力する有向弧を、文脈に応じて変えたいのであれば、文脈の数だけ同じ単語を表す頂点を複製して表現すればよい。
【0128】
このような、単語bi−gramで表現されたネットワーク文法は、例文の集合から簡単に獲得可能である。例えば、年月日を尋ねる発話を表した以下の例文から文法を獲得することを考える。
【0129】
何/年/です/か
何/年/何/月/です/か
何/月/何/日/です/か
この3文から獲得できる連接可能な単語対は以下の通りである。
A={(何,年)(何,月)(何,日)(年,何)(月,何)(年,です)(月,です)(日,です)(です,か)}
【0130】
この単語対だけが連接可能であると考えると、ネットワーク文法(G1)は4つ組(Wa,Ws,Wf,A)で表現できる。ここで、Wa,Ws,Wfは、それぞれ、全単語集合、開始単語集合、終了単語集合であり、
Wa={何年月日ですか},
Ws={何},Wf={か}
となる。G1のグラフ表現を図8左に示す。
【0131】
この時、ネットワーク文法は、以下の制約を満たすbi−gramとして表現できる。
【0132】
【数18】
Figure 0003950957
【0133】
文法G1は「何年何年ですか」「何月何年ですか」「何年何日ですか」のような、意図されない言語表現までモデル化してしまう。そこで、文法作成者の持つ言語知識を利用して、好ましくない表現を排除し、図8右のようなネットワーク文法G2に修正することを考える。新たに導入したノード(文脈)毎に、新たな単語記号を導入して、次のような文法
【0134】
【外17】
Figure 0003950957
【0135】
として表現する。
【0136】
【数19】
Figure 0003950957
【0137】
文法G2は、「何年何月ですか」「何月何日ですか」のような、作成者の意図する表現だけを受理し、それ以外を排除する。このように、ネットワーク文法では、人の持つ言語知識を利用して、N−gramでは獲得不可能な、単語間の長距離の依存関係も表現することが可能である。
【0138】
(本実施形態の言語処理装置)
上述の言語処理方法を適用した言語処理装置について、説明する。言語処理装置のハードウェアは市販のパソコン等、周知の情報処理機能を有するものを使用することができるので、ハードウェア構成については詳細な説明を省略する。
【0139】
言語処理装置に搭載するソフトウェアの構成を図9に示す。図9において、10は音声認識プログラムであり、マイクロホンから入力された音声信号をその音声信号の示す文字列に変換して表示器等に出力する。音声認識プログラムの中に本発明に係わる言語処理方法を適用したプログラムが組み込まれている。このプログラムの内容については、図12を使用して説明する。
【0140】
11は、音声認識プログラム10で使用する確率表である。この確率表は複数組の文字列およびその連鎖の確率の値および該確率の値に対する当該文字列の組数に応じた補正係数の値が記載されており、経路の接続を禁止する文字列の組み合わせについては、その組み合わせの内容に応じて前記確率の値または補正係数の値を0(ゼロ)となっている。このようにすることで、経路の接続を禁止する必要のある単語の間の確率を0とすることが可能となる。
【0141】
12は音声の特徴を文字列に変換するために使用する単語辞書である。20は、確率表11を作成するためのプログラムである。
【0142】
確率表11、いわゆる、言語モデルの記載の内容を図10(A)〜(D)に示す。確率表は、3組の文字列(以下、単に単語と略記する。ただし単語の概念には1文字の文字列も含まれる)用の確率表(図10(A)、2組の単語用の確率表(図10(B))、1組の単語用の確率表が用意されている。1組の単語用の確率表は統計的確率モデル用(識別符号が付加されていない文字列用、図10(C))と本発明で言う予め定められた並びの文字列の中に含まれる文字列のみを記載した、いわゆる記述文法の確率のモデル用(図10(D))の2種類がある。予め定められた並びの文字列、すなわち記述文法に沿った文字列を検出すべき言語パターンと呼ぶことにする。
【0143】
3組および2組の単語用の確率表に記載する文字列には、検出すべき言語パターンの中に含まれる単語を許容している。検出すべき言語パターンの中に含まれる単語についてはそのことを示す@の識別符号が付されている。@はさらに他の単語が接続可能な位置をも示す。単語の前に@が付されている場合には、その単語の前に@が後に付された他の単語が接続可能であることを示す。単語の後に@が付されている場合にはその単語の後に@が前に付された他の単語が接続可能であることを示す。言語パターンの先頭単語は、その単語の後のみに@が付され、言語パターン末尾単語はその単語の前にのみ@が付される。
【0144】
本実施形態では、従来、使用されている統計的言語モデル(確率表の)の中に検出すべき言語パターンの単語の組み合わせを混在させ、これらの単語については識別符号を付して、統計的言語モデルの単語と区別可能としたことに新規特徴がある。
【0145】
図10(B)〜図10(D)に示す確率表には、単語と確率の値と、補正係数の値とが記載される。補正係数は上述の言語処理方法の説明の中の正規化係数のことである。補正係数を設けること自体は従来から周知であるが、1組用の単語の確率表(図10(D))を設けることおよびその確率の値および補正係数の値を、他の単語との組み合わせ内容に応じて補正係数または確率の値を0(ゼロ)とすることに新規特徴がある。より具体的には、@単語(言語パターンの末尾単語)については確率の値が0に設定されている。@単語@(言語パターン途中の単語)については補正係数および確率の値が0に設定されている。単語@(言語パターンの先頭単語)については補正係数が0に設定されている。このような値を設定することにより、言語処理おける処理対象の単語の連鎖確率は、@単語@で接続される単語の連鎖の確率は正の値を持ち、@を有さない単語と@単語@との連鎖の確率の値は0となる。これにより、検出すべき言語パターンの中の先頭および末尾の単語を除く、単語、統計的確率モデルの単語とのネットワーク上の経路の接続が禁止される。具体的な言語処理プロセスについては後で説明する。
【0146】
単語辞書12の一例を図11に示す。単語辞書12には、音声信号から抽出される音声の特徴とその特徴に対応する文字列が記載されている。上記検出すべき言語パターンに含まれる単語については、上述した@の識別符号がやはり付されている。
【0147】
音声の特徴は、音声信号の解析結果である音響特徴を使用してもよいし、音響特徴から得られる音韻ラベルを使用してもよい。いずれの特徴を使用するかは音声認識方法の種類に応じて適宜定めればよい。
【0148】
以上述べた確率表11および単語辞書12を使用する言語処理を次に説明する。
【0149】
(確率表の作成)
ユーザは、パソコンに搭載された確率表作成プログラム20を起動して次の処理をパソコンのCPUに実行させる。
【0150】
(処理1)
新聞等の文書ファイルを入力する。文書ファイルの入力は外部記憶装置(フロッピー(登録商標)ディスク、ハードディスク、CD-ROM等)からの読み取り、通信による他の装置からの転送、キーボードによる文字入力のいずれの入力方法を使用してもよい。
【0151】
(処理2)
検出すべき言語パターン、たとえば、図7で示される言語パターンを構成する文字列をキーボードから、あるいは言語パターン記録した外部記憶装置や通信による他の装置からの転送によって、指示する。処理2で指定された単語については、言語パターンの位置に基づいて@の識別符号を付した単語を作成する。
【0152】
(処理3)
処理1で入力された文書の中の隣接する3つの単語の出現頻度、2つの出現頻度、1つの単語の出現頻度を計数する。
【0153】
(処理4)
出現頻度から予め定めた計算式により確率の値および補正係数(1および2単語用)を取得する。
【0154】
(処理5)
取得された確率の値および補正係数および組み合わせの単語を使用して図10(A)〜(D)の確率表をパソコンのハードディスク上に作成する。
【0155】
(音声認識処理)
以下では、音声認識のもっとも純粋な実施形態として、(1)音響信号から音韻ラベル候補を抽出、(2)音韻ラベル候補から単語列候補(単語ネットワーク)を作成、(3)単語ネットワークから言語処理により認識結果(単語列)を作成、の順に処理を進めるものとして説明を行う。実際は、このような純粋な実施形態は非常に処理効率が悪いので、(1)(2)(3)の処理を同時・並行・混合して認識を行う様々な効率化手法(鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄 編著、音声認識システム、オーム社、2001)が実施される。それらの様々な効率化のための変形手法が特許請求の範囲の記載の示す技術に基づく限り、その変形は本発明の技術範囲内となる。
【0156】
音声認識を行う場合ユーザはパソコンに搭載された音声認識プログラム10をパソコンのCPUに実行させる。音声認識プログラム10は従来と同様の処理を行って、マイクロホンから入力された音声を音声特徴に変換する。たとえば、「1976年に火星に軟着陸した探査機は何という名前でしたか」という音声が入力されたとする。ここで、「何という名前でしたか」が予めパソコンに登録されている言語パターンであり、確率表11および単語辞書12にはこの言語パターンに含まれる単語が@の識別符号を付して登録されているものとする。
【0157】
音声認識プログラム10により変換される音声特徴を音素ラベルとすると、上記音声は"silB s e N ky u: hy a k u n a n a j u: r o k u n e N n i k a s e i n i n a N ch a k u r i k u sh i t a t a N s a k i h a n a N t o i u n a m a e d e sh i t a k a silE"のような音素ラベル列候補に変換される。silB, silEは、発話区間の開始、終了の無音を表す、特別な音素ラベルである。このとき、音素照合処理の曖昧性のため、音響的に類似した非常に数多くの候補が生成される。例えば、上記候補以外にも"silB s e i ky u: ch u: n o ... n a m a e n i sh i t a k a silE"のような候補が得られる。各候補には、得られた音素ラベル列と入力音声信号とがどれだけ照合しているかを表す音響モデル確率が付与されている。
【0158】
上記の音素ラベル列候補は、単語辞書を参照し、すべての音素ラベルを洩れなく単語へ変換することにより、単語列へと変換される。例えば、上記最初の音素ラベル列は、「<s> 千 九百 七十 六 年 に 火星 に 軟着陸 した 探査機 は 何@ @という@ @名前@ @でし@ @た@ @か </s>」のように変換される。ただし、記号"<s>"および"</s>"は、それぞれ文頭、文末を表す特別な単語記号である。このような変換をすべての音素ラベル列候補に対して実行することにより、数多くの単語列候補が生成される。このような複数の単語列候補は、単語の共通部分を共有してネットワークの形状で表現することにより、図13のような単語ネットワークで表現することができる。すなわち、単語ネットワーク上の一つの経路が、上記一つの単語列候補に相当する。音声認識の目的は、上記音響モデル確率と以下に述べる言語モデル確率の観点から、尤も確率の大きな経路を見つけ、その文字列を認識結果として出力することにある。
【0159】
なお、音素ラベル列から単語辞書を参照する際、予め登録してある言語パターン内の単語は図12のように辞書の記載された単語に@が付されている。そのため、単語ネットワーク上では、予め登録してある言語パターン内の単語は@が付されている点に留意されたい。
【0160】
このようなネットワークが構築されると、次に音声認識プログラム中の図12の処理プログラムが実行されて、ネットワーク上の経路の累積確率値(言語モデル確率)が取得される。以下では、トライグラム(tri−gram)の場合を説明する。
【0161】
トライグラムの場合、経路上のすべての3単語連鎖の確率値を確率表11から取得する。例えば、上記単語列の例では、(_,_,<s>)(_,<s>,千)(<s>,千,九百)(千,九百,七十) ... (@でし@,@た@,@か)(@た@,@か,</s>)の3単語連鎖から各確率値を求め、すべての値の積を計算する。ただし、"_"は文頭の確率値を計算するための(確率表や辞書には記載されていない)ダミーの単語記号である。確率値は、表11を参照し、以下に述べるような従来のバックオフ言語モデルの処理方法と全く同じ方法で処理できる。
【0162】
3単語連鎖(w1,w2,w3)から確率表11を参照し、確率値を求める手順は以下の通りである(図12を参照)。取得した3つの単語の組合せが単語辞書12の中の3単語用確率表(図10(A))で最初に参照される。3単語用確率表に3つの単語の組合せが記載されている場合にはその確率の値を取得する。(ステップS30→S35)
【0163】
3単語用確率表に上記3つの単語の組合せが記載されていない場合には、次にまず3単語の前2単語の組合せ(w1,w2)から補正係数の値を2単語用確率表(図10(B))から取得する。この補正係数の値と以降の処理で得られた確率値と掛け合わせた値を3単語の確率値とする。
【0164】
次に、3単語の後ろ2単語の組合せ(w2,w3)が2単語用確率表(図10(B))で参照される。2単語の組み合わせが記載されている場合にはその確率の値を取得する。(そして、前期の補正係数と掛け合わせた値を確率値とする。)(ステップS50→S55)
【0165】
2単語用確率表に前記2つの単語の組合せが記載されていない場合には、次に2単語の前1単語(最初の3単語の中央の単語)から補正係数の値を1単語確率表(図10(C)および(D))から取得する。この補正係数の値を(前期の補正係数に加えて)さらに以降の処理で得られた確率値と掛け合わせた値を3単語の確率値とする。この時単語の後ろに@のついた単語(「単語@」および「@単語@」)の補正値は、図10に示した確率表を用いることにより、0となる。
【0166】
最後に、3単語の最後の単語(w3)が1単語用確率表(図10(C)および(D))で参照される。記載されている場合には、その確率の値を取得する。(先に求めた2つの補正値を掛け合わせる。)(ステップS70→S75)この時、単語の前に@のついた単語(「@単語」および「@単語@」)の確率値は、図10に示した確率表を用いることにより、0となる。記載がない場合は、あらかじめ計算した定数P0を確率値として取得する。(ステップS70→S80)
【0167】
このようにしてネットワーク上のすべての経路について連鎖の確率の値および累積値が計算されると、最も累積値の値が高い経路上の単語列が音声認識結果として決定される。
【0168】
以上説明したように、本実施形態では、図10に示した確率表を用いることにより、予め登録した言語パターンの中の途中の単語(@単語@)については1単語用の確率表の確率の値および補正係数の値を0に設定しておくことにより、この単語への他の単語からの経路およびこの単語から他の単語への経路の接続が、3単語確率表か2単語確率表に記載されていない場合、禁止された扱いとなる。言語パターンの先頭単語(単語@)については1単語用の確率表の補正係数の値を0に設定しておくことにより、この単語から他の単語への経路の接続が、3単語確率表か2単語確率表に記載されていない場合、禁止された扱いとなる。言語パターンの末尾単語(@単語)については1単語用の確率表の確率の値を0に設定しておくことにより、この単語への他の単語からの経路の接続が、3単語確率表か2単語確率表に記載されていない場合、禁止された扱いとなる。これにより、予め登録した言語パターンと同じ言語パターンが音声の中に含まれている場合、正しくその言語パターンを検出することができる。
【0169】
以上述べた実施形態の他に次の形態を実施できる。
1)上述の言語処理方法は音声認識処理に適用される例であったが,OCRで読み取った文字画像列を文字コードに変換する文字認識など、文字の特徴を文字(コード)に変換する種々の言語処理に本発明を適用することができる。
2)上述の形態では、識別符号を有する1単語用確率表の確率の値または補正係数の値を0に設定することで、予め登録した言語パターンの先頭単語、途中の単語、最後尾の単語に対する他の単語からの経路の接続を制限しているが、@(識別符号)の付加位置に基づいて経路の接続を制限してもよい。この場合にはネットワークの構築時に、単語辞書から得られる音声特徴の変換候補(単語)に識別符号が付してあるか否かを判定し、付してある場合には識別符号の位置に応じて他の単語の接続との接続を禁止してもよい。これにより登録の言語パターンの先頭語は他の単語からの経路の接続が許容され、末尾語は他の単語への経路の接続が許容される。
3)音声認識結果を表示や印刷出力する際に登録された言語パターンが含まれている場合には、その言語パターンを報知することができる。この場合、言語パターンには@符号が付加されているので@符号をそのまま出力してもよいし、@符号を除去して、アンダーライン、異なる色、ボールド体等で上記言語パターンの単語を報知すればよい。また、識別符号には他の記号を使用してもよい。
【0170】
上述の実施形態以外にも種々の変形が考えられる。しかしながら、それらの変形が特許請求の範囲の記載の示す技術思想に基づく限り、その変形は本発明の技術範囲内となる。
【0171】
【発明の効果】
以上、説明したように、本発明によれば、予め定めた並びの文字列(実施形態の登録の言語パターン)がネットワークに変換候補として現れる場合には、これらの文字列の先頭および末尾を除いた途中の文字列と登録の言語パターン以外の単語文字列との間の経路の接続が禁止される。これにより、従来の統計的言語モデルの言語処理を行っても、記述文法的な確率モデルの言語処理の併用が可能となる。また、従来の統計的言語モデルのみの言語処理に比べると、登録の言語処理パターンに対する部分の変換処理の精度が著しく向上する。
【0172】
また、予め定めた並びの文字列については識別符号が付されるので、この識別符号を使用して、特徴から文字列への変換結果の中で報知が可能となる。
【図面の簡単な説明】
【図1】本発明実施形態の言語処理方法を示す説明図である。
【図2】従来のN−gramモデル学習手順を示す説明図である。
【図3】本発明実施形態のN−gramモデル学習手順を示す説明図である。
【図4】本発明実施形態の学習を説明するための説明図である。
【図5】仮説の生成を説明するための説明図である。
【図6】仮説の生成を説明するための説明図である。
【図7】QAタスク定型表現の文法を示す説明図である。
【図8】ネットワーク文法を示す説明図である。
【図9】言語処理装置のソフトウェア構成を示すブロック図である。
【図10】確率表の内容を示す説明図である。
【図11】単語辞書の内容を示す説明図である。
【図12】音声認識プログラム内の言語処理のためのプログラムの内容を示すフローチャートである。
【図13】構築されるネットワークを模式的に示す説明図である。
【符号の説明】
10 音声認識プログラム
11 確率表
12 単語辞書
20 確率表作成プログラム

Claims (10)

  1. 複数組の文字列の各々の特徴を該特徴を表す文字列に変換するために、前記複数組の文字列の各々についての変換候補をネットワークの形態で接続し、該ネットワーク上の同一経路上で隣接する変換候補の連鎖の確率の値を求め、前記ネットワークの各経路の確率の値の中で、最も値が高い経路上の変換候補の列を前記複数組の文字列の特徴に対する変換結果とすると共にバックオフスムージング処理を行う言語処理装置において、
    予め定められた並びの複数組の文字列が前記ネットワーク上の経路に現れるか否かを判定する判定手段と、
    肯定判定が得られた場合には、予め定められた並びの複数組の文字列以外の変換候補から予め定められた並びの複数組の文字列の中の先頭以外の変換候補の文字列への経路の接続、および予め定められた並びの複数組の文字列の中の末尾以外の変換候補の文字列から予め定められた並びの複数組の文字列以外の変換候補への経路の接続、を禁止する制御手段と
    を具えたことを特徴とする言語処理装置。
  2. 請求項1に記載の言語処理装置において、複数組の文字列およびその連鎖の確率の値および該確率の値に対する当該文字列の組数に応じた補正係数の値を記載した確率表を有し、経路の接続を禁止する文字列の組み合わせについては、その組み合わせの内容に応じて前記確率の値または補正係数の値を0(ゼロ)となすことを特徴とする言語処理装置。
  3. 請求項2に記載の言語処理装置において、文字列の特徴およびその特徴に対応する変換候補の文字列を記載した単語辞書をさらに有し、該単語辞書に記載する文字列の中に、前記予め定めた並びの文字列の中に含まれる文字列を識別符号を付して含めておくことを特徴とする言語処理装置。
  4. 請求項2に記載の言語処理装置において、文書を入力する手段と、当該入力された文書の中に含まれる文字列をその種類ごとに計数して、前記確率表を作成する手段をさらに具えたことを特徴とする言語処理装置。
  5. 請求項4に記載の言語処理装置において、前記予め定められた並びの複数組の文字列を指定する手段をさらに具え、当該指定された文字列の組み合わせについては前記確率表中の各文字列に請求項3に記載の識別符号と同じ識別符号が付されることを特徴とする言語処理装置。
  6. 複数組の文字列の各々の特徴を該特徴を表す文字列に変換するために、言語処理装置により、前記複数組の文字列の各々についての変換候補をネットワークの形態で接続し、該ネットワーク上の同一経路上で隣接する変換候補の連鎖の確率の値を求め、前記ネットワークの各経路の確率の値の中で、最も値が高い経路上の変換候補の列を前記複数組の文字列の特徴に対する変換結果とすると共にバックオフスムージング処理を行う言語処理方法において、前記言語処理装置の実行処理ステップは、
    予め定められた並びの複数組の文字列が前記ネットワーク上の経路に現れるか否かを判定する判定ステップと、
    肯定判定が得られた場合には、予め定められた並びの複数組の文字列以外の変換候補から予め定められた並びの複数組の文字列の中の先頭以外の変換候補の文字列への経路の接続、および予め定められた並びの複数組の文字列の中の末尾以外の変換候補の文字列から予め定められた並びの複数組の文字列以外の変換候補への経路の接続、を禁止する制御ステップと
    を具えたことを特徴とする言語処理方法。
  7. 請求項6に記載の言語処理方法おいて、複数組の文字列およびその連鎖の確率の値および該確率の値に対する当該文字列の組数に応じた補正係数の値を記載した確率表を有し、経路の接続を禁止する文字列の組み合わせについては、その組み合わせの内容に応じて前記確率の値または補正係数の値を0(ゼロ)となすことを特徴とする言語処理方法。
  8. 請求項7に記載の言語処理方法において、前記言語処理装置は文字列の特徴およびその特徴に対応する変換候補の文字列を記載した単語辞書をさらに有し、該単語辞書に記載する文字列の中に、前記予め定めた並びの文字列の中に含まれる文字列を識別符号を付して含めておくことを特徴とする言語処理方法。
  9. 請求項7に記載の言語処理方法において、文書を入力するステップと、当該入力された文書の中に含まれる文字列をその種類ごとに計数して、前記確率表を作成するステップをさらに具えたことを特徴とする言語処理方法。
  10. 請求項9に記載の言語処理方法において、前記予め定められた並びの複数組の文字列を指定するステップをさらに具え、当該指定された文字列の組み合わせについては前記確率表中の各文字列に請求項8に記載の識別符号と同じ識別符号が付されることを特徴とする言語処理方法。
JP2002071625A 2002-03-15 2002-03-15 言語処理装置および方法 Expired - Lifetime JP3950957B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002071625A JP3950957B2 (ja) 2002-03-15 2002-03-15 言語処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002071625A JP3950957B2 (ja) 2002-03-15 2002-03-15 言語処理装置および方法

Publications (2)

Publication Number Publication Date
JP2003271188A JP2003271188A (ja) 2003-09-25
JP3950957B2 true JP3950957B2 (ja) 2007-08-01

Family

ID=29201854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002071625A Expired - Lifetime JP3950957B2 (ja) 2002-03-15 2002-03-15 言語処理装置および方法

Country Status (1)

Country Link
JP (1) JP3950957B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080177542A1 (en) * 2005-03-11 2008-07-24 Gifu Service Corporation Voice Recognition Program
US8332207B2 (en) 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
JP2010078877A (ja) * 2008-09-25 2010-04-08 Pioneer Electronic Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP5274324B2 (ja) * 2009-03-19 2013-08-28 株式会社エヌ・ティ・ティ・ドコモ 言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法
JP5718084B2 (ja) * 2010-02-16 2015-05-13 岐阜サービス株式会社 音声認識用文法作成支援プログラム
WO2012165529A1 (ja) * 2011-06-03 2012-12-06 日本電気株式会社 言語モデル構築支援装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2003271188A (ja) 2003-09-25

Similar Documents

Publication Publication Date Title
JP4528535B2 (ja) テキストから単語誤り率を予測するための方法および装置
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP5072415B2 (ja) 音声検索装置
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN107705787A (zh) 一种语音识别方法及装置
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US9384730B2 (en) Pronunciation accuracy in speech recognition
JP2005258439A (ja) 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
JP2006243728A (ja) 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP3950957B2 (ja) 言語処理装置および方法
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP5344396B2 (ja) 言語学習装置、言語学習プログラム及び言語学習方法
JP2001312294A (ja) 入力記号列を出力記号列に変換するトランスデューサの学習方法およびトランスデューサの学習プログラムを記憶したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070320

R150 Certificate of patent or registration of utility model

Ref document number: 3950957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term