JP4478042B2 - 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 - Google Patents

頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 Download PDF

Info

Publication number
JP4478042B2
JP4478042B2 JP2005056598A JP2005056598A JP4478042B2 JP 4478042 B2 JP4478042 B2 JP 4478042B2 JP 2005056598 A JP2005056598 A JP 2005056598A JP 2005056598 A JP2005056598 A JP 2005056598A JP 4478042 B2 JP4478042 B2 JP 4478042B2
Authority
JP
Japan
Prior art keywords
morpheme
word
frequency information
text
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005056598A
Other languages
English (en)
Other versions
JP2006243976A (ja
Inventor
拓 工藤
秀樹 磯崎
元 塚田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005056598A priority Critical patent/JP4478042B2/ja
Publication of JP2006243976A publication Critical patent/JP2006243976A/ja
Application granted granted Critical
Publication of JP4478042B2 publication Critical patent/JP4478042B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、いわゆる形態素解析を応用した頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置に関する。
近年、コンピュータを用いて、自然言語で作成された文書の検索や自動分類などが盛んに行われている。その基礎となる技術は、一般に、形態素解析と呼ばれている。形態素解析とは、日本語などの自然言語で記述されたテキストを単語列に分解し、品詞を付与し、活用を処理(原形を出力)するコンピュータ処理の総称である。なお、ここでいうテキストとは、1つ以上の文の集合である。
形態素解析は、テキストを単語の集合に変換する目的で用いられる。一般的には、その変換と同時に、テキストを構成する単語について、それぞれの単語の出現頻度情報を算出する。このように、テキストを頻度情報付きの単語集合に変換する装置を頻度情報付き単語集合生成装置と呼ぶ。
図15は、従来、一般的に使用されている頻度情報付き単語集合生成装置の構成を示した図である。図15において、頻度情報付き単語集合生成装置5は、図示しない情報処理部と記憶部とを少なくとも含んだコンピュータによって構成され、その情報処理部の一部として、形態素ラティス生成部510、最適解選択部520、頻度情報付き単語集合算出部530を備える。
図15において、形態素ラティス生成部510は、テキスト記憶部540に記憶されているテキストを入力していわゆる形態素ラティス560を生成する。なお、形態素ラティスとは、入力されたテキストを所定の辞書に従って形態素の列に分解し、可能な形態素のつながりをグラフとして表現したものである。形態素ラティス560の具体的な例は、本発明の実施形態において詳しく説明する。
次に、最適解選択部520は、形態素ラティス560から、入力されたテキストの意味に最も適した形態素の列、つまり、最適解570を選択する。その最適解570の選択にあたっては、最小コスト法などが利用される。最小コスト法においては、形態素の出現のしやすさ(形態素生起コスト)と2つの連続する形態素の出現のしやすさ(形態素連接コスト)との総和が最小になるような形態素の列を最適解570とする。
次に、頻度情報付き単語集合算出部530は、最適解選択部520によって選択された最適解570が示す形態素の列に基づき、入力されたテキストに含まれる各単語の頻度を算出する。すなわち、頻度情報付き単語集合算出部530は、単語と頻度のペアの集合580を頻度情報付き単語集合記憶部550に出力する。
なお、以上に説明した最小コスト法や頻度情報付き単語集合生成装置については、非特許文献1や非特許文献2にその例が開示されている。
金明哲、村上征勝、永田昌明、大津起夫、山西健司、共著、「統計科学のフロンティア(第10巻)言語と心理の統計――ことばと行動の確率モデルによる分析」、岩波書店、2003年、p.62−73 徳永健伸著、「言語と計算(第5巻)情報検索と言語処理」、東京大学出版会、1999年、p.26−28
以上に示した頻度情報付き単語集合生成装置5においては、入力されたテキストは、前記最適解570、つまり、唯一の単語の列に分解され、その分解された単語に基づき単語の頻度が算出される。そのため、日本語のように複合名詞が頻出するような言語では、最適解570が必ずしも最適であるとは限らない。例えば、「本部長」は、「本・部長」または「本部・長」、「女子大生」は、「女子大・生」または「女子・大生」といった解釈が可能である。
また、形態素解析の辞書には解析精度を向上させる目的のために、しばしば長い複合語が登録されることがあるが、長い複合語を登録すればするほど、形態素解析の整合性が取りづらくなる。例えば、ある辞書においては、「成田空港」は一語として登録されているが、「宮崎空港」は登録されていないというようなことが多々見受けられる。
また、その形態素解析の結果(例えば、頻度情報付き単語集合)をテキスト全文検索の索引に用いた場合には、前記最適解に現れた単語のみが索引語として用いられるため、検索者が意図した検索を行うことができない場合がある。例えば、検索のもとになるテキストの形態素解析の結果、「成田空港」という複合語が取り出され、「成田」という単語が取り出されなかった場合には、「成田」という単語では検索が行われないことになる。
本発明は、以上のような複合語などの単語同定の曖昧性から生じる問題点を解決するためになされたものであり、本発明の第1の目的は、複合語など単語同定に曖昧性が多い言語に対して、同定の可能性のある単語をできるだけ漏らさずに抽出し、その頻度情報を算出することが可能な頻度情報付き単語集合生成方法、プログラム、プログラム記憶媒体、および、頻度情報付き単語集合生成装置を提供することにある。また、本発明の第2の目的は、複合語など単語同定に曖昧性が多い言語のテキストが入力されても、同定の可能性のある単語をできるだけ漏らさずに抽出することができ、検索または分類精度のよいテキスト索引語作成装置、全文検索装置またはテキスト分類装置を提供することにある。
請求項1に記載の頻度情報付き単語集合生成方法は、情報処理部と記憶部とを少なくとも備えたコンピュータにおいて、入力されたテキストに対し、その入力されたテキストに含まれ得る単語について、その単語とその単語の頻度情報とのペアを元とした集合を生成する頻度情報付き単語集合生成方法であって、前記情報処理部が、前記入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、前記同定された形態素の接続関係をグラフとして表わした形態素ラティスを生成するステップと、前記形態素ラティスに含まれる形態素それぞれについて、その形態素が出現する確率である形態素出現確率を計算するステップと、前記形態素出現確率に対応して、それぞれの形態素の重要度を計算するステップと、前記計算した形態素の重要度に基づき、前記形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成するステップとを実行し、前記形態素出現確率を計算するステップは、前記形態素ラティスにおける文頭から文末に至る各経路について、その経路に含まれる形態素の形態素生起コストと形態素連接コストとの総和である経路コストを計算するステップと、前記入力されたテキスト中に前記各経路が出現する経路出現確率がボルツマン分布に従うものとして、前記計算された経路コストに応じた各経路の経路出現確率を計算するステップと、前記形態素ラティスに含まれる形態素それぞれについて、前記入力されたテキストの所定の文字位置範囲内に当該形態素が含まれる経路の前記経路出現確率を足し合わせたものを形態素周辺確率として計算し、前記計算した形態素周辺確率を前記形態素出現確率として出力するステップとを含んで構成されることを特徴とする。
また、請求項に記載のプログラムは、請求項1に記載の頻度情報付き単語集合生成方法をコンピュータに実行させるためのプログラムである。
また、請求項に記載のプログラム記憶媒体は、請求項に記載のプログラムをコンピュータ読み取り可能な記憶媒体に記憶したことを特徴とする。
また、請求項に記載の頻度情報付き単語集合生成装置は、情報処理部と記憶部とを少なくとも備えたコンピュータからなり、入力されたテキストに対し、その入力されたテキストに含まれ得る単語について、その単語とその単語の頻度情報とのペアを元とした集合を生成する頻度情報付き単語集合生成装置であって、前記入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、前記同定された形態素の接続関係をグラフとして表わした形態素ラティスを生成する手段と、前記形態素ラティスに含まれる形態素それぞれについて、その形態素が出現する確率を表わす形態素出現確率を計算する手段と、前記形態素出現確率に対応して、それぞれの形態素の重要度を計算する手段と、前記計算した形態素の重要度に基づき、前記形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成する手段とを備え、前記形態素出現確率を計算する手段は、前記形態素ラティスにおける文頭から文末に至る各経路について、その経路に含まれる形態素の形態素生起コストと形態素連接コストとの総和である経路コストを計算する手段と、前記入力されたテキスト中に前記各経路が出現する経路出現確率がボルツマン分布に従うものとして、前記計算された経路コストに応じた各経路の経路出現確率を計算する手段と、前記形態素ラティスに含まれる形態素それぞれについて、前記入力されたテキストの所定の文字位置範囲内に当該形態素が含まれる経路の前記経路出現確率を足し合わせたものを形態素周辺確率として計算し、前記計算した形態素周辺確率を前記形態素出現確率として出力する手段とを含んで構成されることを特徴とする。
以上、請求項1ないし請求項の発明によれば、入力されたテキストに対して生成された形態素ラティスにおける文頭から文末までの経路の出現確率を計算し、その経路の出現確率がボルツマン分布に従うものとして、形態素ラティスに含まれるすべての形態素に対してその出現確率を計算する。そのため、複合語など単語同定に曖昧性が多い言語に対しても、同定の可能性のある単語をできるだけ漏らすことなく、その頻度情報を算出することができる。
また、請求項に記載のテキスト索引語作成装置は、請求項に記載の頻度情報付き単語集合生成装置を含んで構成されることを特徴とする。
また、請求項に記載の全文検索装置は、請求項に記載のテキスト索引語作成装置を含んで構成されることを特徴とする。
また、請求項に記載のテキスト分類装置は、請求項に記載のテキスト索引語作成装置を含んで構成されることを特徴とする。
請求項ないし請求項に記載のテキスト索引語作成装置、全文検索装置およびテキスト分類装置は、いずれも、請求項に記載の頻度情報付き単語集合生成装置を含んで構成される。したがって、それらの装置においては、複合語など単語同定に曖昧性が多い言語のテキストが入力されても、同定の可能性のある単語をできるだけ漏らすことなく抽出することができ、検索または分類精度のよいテキスト索引語作成装置、全文検索装置またはテキスト分類装置を提供することができる。
以上、請求項1ないし請求項の発明によれば、複合語など単語同定に曖昧性が多い言語に対しても、同定の可能性のある単語をできるだけ漏らすことなく、その頻度情報を算出することが可能な頻度情報付き単語集合生成方法、プログラム、プログラム記憶媒体、および、頻度情報付き単語集合生成装置を提供することができる。
また、請求項ないし請求項の発明によれば、複合語など単語同定に曖昧性が多い言語のテキストが入力されても、同定の可能性のある単語をできるだけ漏らすことなく抽出することができ、検索または分類精度のよいテキスト索引語作成装置、全文検索装置またはテキスト分類装置を提供することができる。
以下、図面を参照して本発明の実施形態について詳しく説明する。
<第1の実施形態>
図1は、本発明の第1の実施形態に係る頻度情報付き単語集合生成装置の構成の例を示した図である。図1において、頻度情報付き単語集合生成装置1は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、形態素ラティス生成部10と、形態素/単語重要度計算部20と、頻度情報付き単語集合算出部30とを含んで構成される。
ここで、形態素ラティス生成部10、形態素/単語重要度計算部20、頻度情報付き単語集合算出部30のそれぞれの機能は、前記情報処理部が前記記憶部に記憶されたプログラムを実行することによって実現される。また、前記形態素ラティス生成部10、形態素/単語重要度計算部20、頻度情報付き単語集合算出部30の機能を実現するプログラムは、CD−ROM(Compact Disk Read Only Memory)などのコンピュータ読み取り可能な記憶媒体に記憶されたプログラムが、その記憶媒体の読取装置によって読み取られ、前記記憶部に記憶されたものである。
図1において、前記形態素ラティス生成部10は、テキスト記憶部40に記憶されているテキストを入力していわゆる形態素ラティス60を生成する。なお、形態素ラティスとは、入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、その同定された形態素の接続関係をグラフとして表わしたものである。形態素ラティスの例は、別途、図2を用いて説明する。
次に、前記形態素/単語重要度計算部20は、形態素ラティスの構成要素として取り出された形態素/単語に対して、所定の方法に基づき、その重要度を計算する。その計算方法については、後記して詳しく説明する。なお、重要度を従来技術の場合(図15参照)に対応付けると、最適解選択部520は、選択した最適解570に含まれる形態素/単語にのみ、重要度=1.0を付与している。それに対し、本実施形態では、形態素/単語重要度計算部20は、例えば、最適解に含まれるか否かに拘わらず、すべての形態素/単語に対して、その形態素/単語のある種の出現確率(例えば、後記する周辺確率)を計算し、その確率を重要度として付与する(図1の吹き出し70参照)。
次に、前記頻度情報付き単語集合算出部30は、形態素/単語重要度計算部20によって計算された重要度に基づき、各形態素/単語の頻度を算出する。この場合、重要度をそのまま頻度としてもよく、ある閾値を定め、重要度がその閾値以上の場合、頻度を1.0とし、その閾値以下の場合、頻度を0.0としてもよい。あるいは、重要度を頻度に変換する特定の関数を設定してもよい。そして、以上のようにして算出された頻度は、対応する単語とペアを形成し、単語と頻度のペアの集合80の元として、頻度情報付き単語集合記憶部50に記憶される。
図2は形態素ラティスの例を示した図である。図2の例は、「東京都に住む」というテキストが入力され、所定の辞書に基づき、形態素ラティス生成部10によって生成された形態素ラティスの例である。図2に示すように、入力されたテキストSの文頭および文末にそれぞれBOS(初期状態形態素b)およびEOS(終了状態形態素e)が加えられて形態素ラティスが生成されている。
図3は、図2の形態素ラティスの例において、BOSからEOSまでの経路をすべて示した図である。すなわち、「東京都に住む」というテキストは、図3に示すように、6通りの形態素の列として表現することができる。
従来技術においては、例えば、最小コスト法により、これら6通りの形態素の列から、テキストとして最も確からしい意味を有する形態素の列を、最適解として選択する。一方、本実施形態においては、形態素/単語重要度計算部20(図1参照)は、最適解を1つ選択することなしに、各形態素について形態素周辺確率を計算し、その形態素周辺確率をもって各形態素の重要度とする。
以下、形態素周辺確率の計算方法について説明する。その計算の過程においては、途中まで、最小コスト法と同様の概念を利用するので、まず、最小コスト法の概念および計算式について説明する。
最小コスト法で使用する記号および概念を次のように定義する。
m=<w,t>:形態素
ただし、wは、表層文字列(「東京」、「私」、「動く」など)、tは、対応する品詞(名詞、代名詞、動詞、など)である。ここでは、表層文字列を「単語」と定義する。
m∈D:形態素集合(一般には、辞書と呼ばれることが多い。)
b:初期状態形態素
e:終了状態形態素
π:m∈(D∪{b,e})→R:形態素生起コスト(形態素から実数値への写像)
ここでは、便宜的にπ(m)という実数値を返す関数として表記する。なお、Rは、実数値空間を示す。
a:m∈(D∪{b,e})×m∈(D∪{b,e})→R:形態素連接コスト(形態素のペアから実数値への写像)
ここでは、便宜的にa(m1,m2)という実数値を返す関数として表記する。
最小コスト法では、すなわち、形態素ラティス生成部10(図1参照)は、テキスト記憶部40において、入力テキストSが与えられると、まず、入力テキストSに対し、辞書Dにマッチする可能な形態素の列すべてを表現した形態素ラティスを作成する(図2参照)。そして、その入力テキストSの形態素ラティスに基づき、初期状態形態素bから終了状態形態素eまでの経路の集合ΦSを求める。そして、その経路の1つをpS∈ΦSと表記すると、pSは、(式1)に示すような形態素の系列として表現される。
S=(b,mps,1,mps,2,・・・,mps,|ps|,e) (式1)
ここで、mps,kは、経路pSのk番目の形態素であり、|pS|は、経路pS上にある形態素の個数(ただし、初期状態形態素bおよび終了状態形態素eは含まない)である。
次に、各経路pSについて、コストcost(pS)を(式2)によって定義する。
Figure 0004478042
すなわち、コストcost(pS)は、経路pS上にある形態素mの形態素生起コストπおよび形態素連接コストaの総和として定義される。
図4は、形態素生起コストπおよび形態素連接コストaの具体的な値の例を示した図である。なお、このような形態素生起コストπおよび形態素連接コストaの値は、通常、正しい出力結果が人手によって与えらえた学習データから算出する。学習データは、入力テキストSとそれに対応した正解の経路pSのペア集合Tとして定義される。
図5は、図3に示した図2の形態素ラティスの例における経路pSのコストを(式2)に従って計算した結果の例である。その計算においては、形態素生起コストπおよび形態素連接コストaの具体的な値は、図4に示した値を利用している。
従来の最小コスト法においては、このようにしてコストが求められた各経路pSの中から、最小コスト経路pS* を最も確からしい意味を有する形態素の列を選択さえすればよい。なお、コスト最小経路pS* を一般的に求めるアルゴリズムは、すでに確立されており、そのアルゴリズムの1つとして、例えば、動的計画法の一種であるViterbiアルゴリズムがある。
本実施形態においては、(式2)に従って求めた各経路pSのコストを全部利用し、そのコストに応じてその経路が出現する確率(以下、経路出現確率という)を計算する。ここで、経路出現確率がボルツマン分布に従うものとすると、入力テキストSについて経路pSが出現する経路出現確率P(pS|S)は、(式3)のように表わすことができる。
Figure 0004478042
(式3)において、τ∈R+(R+は正の実数値空間)は、逆温度定数であり、確率分布の鋭さを与える。すなわち、τ→0とすると、各経路の経路出現確率は、コストに依存せず均一になる。逆に、τ→∞とすると、最小コスト経路pS* の経路出現確率は1に、他の経路の経路出現確率は0に漸近する。
図6は、図2の形態素ラティスの例における6通りの経路について、(式3)に従ってその経路出現確率を計算した結果を示した図である。この計算においては、形態素生起コストπおよび形態素連接コストaの値は、図4で示した例の値を使用した。また、逆温度定数τ=1とした。
図6から分かるように、「東京都に住む」は、「東京・都・に・住む」のほかにも、「東・京都・に・住む」などであってもよいわけであり、本実施形態では、その可能性を経路出現確率として表現する。そして、これ以降の計算プロセスで、この経路出現確率を活用するようにしている。その結果、従来の最小コスト法では、最小コスト経路以外の経路に含まれる形態素は、その経路の出現確率が0であるとして捨てられていたが、本実施形態においては、最小コスト経路以外の経路に含まれる形態素であっても捨てられることはない。
次に、この経路出現確率P(pS|S)を用いて、形態素周辺確率P(m,i,j)を(式4)のように定義する。ここで、形態素周辺確率P(m,i,j)とは、入力テキストSのi文字目からj文字目まで(i<j)の形態素がmとなる確率である。
Figure 0004478042
(式4)において、Φ'S は、テキストSについての経路の集合ΦSに含まれる経路のうち、i文字目からj文字目までに形態素mが含まれる経路の集合である。従って、周辺確率P(m,i,j)は、i文字目からj文字目までに形態素mが含まれる経路の経路出現確率P(pS|S)を足し合わせたものとなっている。言い換えると、形態素周辺確率は、各経路の経路出現確率を考慮した上で、形態素mが位置i〜jにどれくらい出現しやすいかを示す確率値であるということができる。
次に、図6に示した経路出現確率を用いて、(式4)により形態素周辺確率を計算した例を以下に示す。
P(<都,接尾>,3,4|S=東京都に住む)=0.23102+0.06958+0.28217+0.08498
=0.66774
P(<京都,名詞>,2,4|S=東京都に住む)=0.25532+0.07690=0.33222
P(<に,助詞>,4,5|S=東京都に住む)=0.25532+0.23102+0.28217=0.76851
以上のようにして、形態素/単語重要度計算部20は、入力テキストSに対して形態素ラティス生成部10が生成した形態素ラティス60に含まれる形態素mすべてについて、形態素周辺確率P(m,i,j)を計算する。次に、このようにして計算された形態素周辺確率P(m,i,j)を用いて、(式5)に従って単語周辺確率P(t,i,j)を算出する。ここで、単語周辺確率P(m,i,j)とは、入力テキストSが与えられたときに、i文字目からj文字目までの単語がtとなる確率である。
Figure 0004478042
次に、頻度情報付き単語集合算出部30は、形態素/単語重要度計算部20が算出した単語周辺確率P(t,i,j)を用いて頻度情報付き単語集合を算出する。ここでは、各単語に対応付けてその単語の頻度情報を計算するわけであるが、単語周辺確率P(t,i,j)には、その単語の周辺を示すi,jの情報が含まれているので、まずは、i,jの情報を捨象するために、同一単語についての単語周辺確率P(t,i,j)の総和を求め、その総和をその単語の頻度情報とすることができる。あるいは、ある閾値を定め、単語の単語周辺確率P(t,i,j)の総和がその閾値以上の場合、頻度を1.0とし、その閾値以下の場合、頻度を0.0としてもよい。さらには、前記の単語周辺確率P(t,i,j)の総和を頻度に変換する特定の関数を設定してもよい。以上のようにして、各単語に対して、頻度情報を付すことができる。
以上のように、本実施形態において算出された単語およびその頻度情報には、従来には捨てられていた最小コスト経路以外の経路に出現する形態素/単語の情報が含まれることになるので、複合語など単語同定に曖昧性が多い言語に対しても、同定の可能性のある単語をできるだけ漏らすことなく、その頻度情報を算出することができる。
<第2の実施形態>
本発明の第2の実施形態は、第1の実施形態における形態素周辺確率P(m,i,j)の計算方法を一部変更したものである。
形態素周辺確率P(m,i,j)を計算するは、第1の実施形態に示したように、(式4)を用いればよい。しかしながら、入力テキストSの経路集合ΦSに含まれる経路pSの数は、入力テキストSの長さに対し指数関数的に増加する。そのため、入力テキストSの長さが長くなった場合には、形態素周辺確率P(m,i,j)を(式4)によって計算すると、計算時間も指数関数的に増加することになる。
そこで、本実施形態では、形態素周辺確率P(m,i,j)の計算を動的計画法の1つであるBaum Welchアルゴリズム(Forward Backwardアルゴリズムともいう)に基づき行う。Baum Welchアルゴリズムを用いることによって、入力テキストSが長い場合にも、計算時間が指数関数的に増加することを防止する。以下、Baum Welchアルゴリズムを用いた形態素周辺確率P(m,i,j)の計算方法について説明する。
Baum Welchアルゴリズムでは、まず、入力テキストSについて生成された形態素ラティスに含まれる各形態素mについて、(式6)〜(式10)によりα(m)、β(m)、Zを求める。
Figure 0004478042
ここで、(式8)および(式9)において、LT(m) は、形態素mに対し左から接続する形態素の集合、RT(m) は、形態素mに対し右から接続する形態素の集合である。また、これらの(式6)〜(式10)において注目すべきことは、α(m)およびβ(m)が再起的な定義になっていることである。
図7は、図2の形態素ラティスの例において、形態素mに対し左または右から接続する形態素の集合LT(m)、RT(m) の例を示した図である。図7に示すように、形態素<都,接尾>に対するLT(m) は、<京,名詞>と<東京,名詞>とを元とする集合であり、形態素<都,接尾>に対するRT(m) は、<に,助詞>と<に,動詞>とを元とする集合である。
以上のようにして求めたα(m)、β(m)、Zを用いると、入力テキストSについての形態素周辺確率P(m,i,j|S)は、(式11)によって計算することができる。
Figure 0004478042
図8は、(式6)〜(式10)におけるα(m)、β(m)を計算するプログラムの手続文を示した図、図9は、(式6)〜(式10)におけるα(m)、β(m)を計算するプログラムのフローチャートを示した図である。以下、図9に従って、α(m)、β(m)を計算するプログラムについて説明する。なお、図8については、(式6)〜(式10)の説明、または、図9のフローチャートの説明と重複するので、その説明を割愛する。
図9において、まず、初期値を設定する。すなわち、α(b)を1、β(e)を1とし、Lに入力された文(テキスト)の長さを設定する(ステップS10)。次に、文字の位置を示すカウンタiを0にセットする(ステップS11)。そして、カウンタiが文の長さLを越えたか否かを判定する(ステップS12)。その判定の結果、カウンタiがL以下であった場合には(ステップS12でYes)、文字の位置がiから始まるすべての形態素により集合Sを生成する(ステップS13)。
次に、集合Sが空であるか否かを判定する(ステップS14)。その判定の結果、集合Sが空でなかった場合には(ステップS14でNo)、集合Sから1つ形態素を取り出し、mとする(ステップS15)。そして、取り出した形態素mおよび(式7)に基づき、α(m)を計算し(ステップS16)、その形態素mを集合Sから取り除き(ステップS17)、ステップS14へ戻る。また、ステップS14の判定で、集合Sが空であった場合には(ステップS14でYes)、カウンタiに1加算して(ステップS18)、ステップS12へ戻る。
一方、ステップS12の判定で、カウンタiが文の長さLを越えた場合には(ステップS12でNo)、カウンタiにLをセットする(ステップS21)。そして、カウンタiが0以上であるか否かを判定する(ステップS22)。その判定の結果、カウンタiが0以上であった場合には(ステップS22でYes)、文字の位置がiで終わるすべての形態素により集合Sを生成する(ステップS23)。
次に、集合Sが空であるか否かを判定する(ステップS24)。その判定の結果、集合Sが空でなかった場合には(ステップS24でNo)、集合Sから1つ形態素を取り出し、mとする(ステップS25)。そして、取り出した形態素mおよび(式8)に基づき、β(m)を計算し(ステップS26)、その形態素mを集合Sから取り除き(ステップS27)、ステップS24へ戻る。また、ステップS24の判定で、集合Sが空であった場合には(ステップS14でYes)、カウンタiから1を減じて(ステップS28)、ステップS22へ戻る。
そして、ステップS22の判定で、カウンタiが0以上でなかった場合には(ステップS22でNo)、α(m)およびβ(m)を計算し終えたことになり、計算したα(m)およびβ(m)を出力して(ステップS29)、処理を終了する。
図10は、図2の形態素ラティスの例についてのα(m)の具体的な計算例を示した図、図11は、図2の形態素ラティスの例についてのβ(m)の具体的な計算例を示した図である。なお、図10および図11において、形態素の傍の数値は、その形態素について計算されたα(m)およびβ(m)を示したものである。
以上のようにして、α(m)およびβ(m)が計算されると、(式11)に従って形態素周辺確率P(m,i,j|S)を計算することができる。以下に、図10および図11に示したα(m)およびβ(m)を用い、(式11)に従って形態素周辺確率P(m,i,j|S)を計算した例を示す。
P(<都,接尾>,3,4|S=東京都に住む)=1.3473・0.71411・exp(0.1)/1.5924=0.66774
P(<京都,名詞>,2,4|S=東京都に住む)=0.67032・0.71411・exp(0.1)/1.5924=0.33222
P(<に,助詞>,4,5|S=東京都に住む)=1.6519・0.67032・exp(0.1)/1.5924=0.76851
これらの形態素周辺確率の値は、第1の実施形態で(式4)に基づき計算した値と同じになっている。
なお、以上のようにして形態素周辺確率が計算されると、第1の実施形態の場合と同様に、(式5)に従い、単語周辺確率を計算することができる。ただし、本実施形態の場合は、形態素周辺確率P(m,i,j|S)を表す式は(式11)である。ちなみに、その計算の具体例を1つ示すと、以下のようになる。
P(に,4,5|S=東京都に住む)
=1.6519・0.67032・exp(0.1)/1.5924+0.74224・0.30019・exp(0.1)・1.5924
=1.00
以上のように、本実施形態、つまり、図9のフローチャートによれば、計算時間を決定する処理のループは、入力テキストSの長さ(図9では、文の長さL)については、一重のループしかない。そのため、α(m)およびβ(m)の計算時間が指数関数的の増加することはない。従って、本実施形態においては、第1の実施形態に比べ、入力テキストSの長さが長くなった場合の計算時間を短縮することができる。
<第3の実施形態>
図12は、本発明の第3の実施形態に係るテキスト索引語作成装置の構成の例を示した図である。一般に、テキスト索引語作成装置は、複数のテキスト(テキスト文書)について索引語を抽出して、索引付けを行う装置である。
図12において、テキスト索引語作成装置2は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、頻度情報付き単語集合生成部201と、自動索引生成部202とを含んで構成される。ここで、頻度情報付き単語集合生成部201は、第1の実施形態または第2の実施形態における頻度情報付き単語集合生成装置1によって構成される。
図12において、テキスト集合記憶部203は、頻度情報付き単語集合生成部201への入力となる複数のテキストを記憶する。ここで、テキストとは、1つ以上の文の集合であり、そのテキストは、それぞれの内容、作成者、作成時などが異なった文書、または、それらの文書の一部に含まれるものとする。従って、複数のテキストとは、複数の異なる文書に含まれるテキスト、または、文書の複数の異なる部分に含まれるテキストを意味する。
前記頻度情報付き単語集合生成部201は、テキスト集合記憶部203に記憶されているテキストを1つ取り出し、そのテキストに対し、頻度情報付き単語集合を作成し、作成した頻度情報付き単語集合を頻度情報付き単語集合記憶部204に記憶する。頻度情報付き単語集合生成部201は、同様の処理をテキスト集合記憶部203に記憶されているすべてのテキストに対して行う。
次に、自動索引生成部202は、前記頻度情報付き単語集合記憶部204に記憶されている複数のテキストそれぞれの頻度情報付き単語集合に基づき、あらかじめ設定された索引語に対する重みを計算し、図12の吹き出し206に示すような各テキストに対する索引語の重みの行列を作成する。そして、このようにして作成された各テキストに対する索引語の重みの行列は、索引データ記憶部に記憶される。
なお、重みの具体的な計算方法については、索引語頻度、IDF(Inverse Document Frequency)など公知の計算方法を利用することができる。
以上、第3の実施形態によれば、頻度情報付き単語集合生成部201が最小コスト経路以外の経路に含まれる単語についてもその頻度情報を生成するので、自動索引生成部202は、単語同定に曖昧性がある複合語などについても、適切な重みを計算することができる。
<第4の実施形態>
図13は、本発明の第4の実施形態に係る全文検索装置の構成の例を示した図である。図13において、全文検索装置3は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、索引語作成処理部310と、検索処理部320とを含んで構成される。
前記索引語作成処理部310は、索引語作成部301を含んで構成される。ここで、索引語作成部301は、第3の実施形態におけるテキスト索引語作成装置2によって構成される。従って、索引語作成部301の入力となるテキスト集合記憶部203および出力となる検索データ記憶部205は、第3の実施形態において説明したものと同じものである。
また、前記索引語作成処理部310においては、まず、全文検索の対象となる複数のテキストを、テキスト集合記憶部203に記憶する。そして、索引語作成部301により、各テキストについて索引データを作成しておく、この場合、索引データは、所定の索引語に対する重みの行列206でなく、頻度情報付き単語集合であってもよい。
前記検索処理部320は、照合部302を備えている。照合部302は、検索要求の入力を受け付けて、その入力が単語集合つまりキーワードの集合であった場合には、その単語集合に含まれるキーワードと索引データとを照合することによって、テキスト集合記憶部203に記憶されているテキストそれぞれについて、キーワードの有無などを示す検索結果の情報を出力する。
また、前記検索処理部320は、さらに、索引語作成部301aを備えており、検索要求の入力として単語集合ではなく、テキストが添付されていた場合には、索引語作成部301aにより、頻度情報付き単語集合を作成する。そして、その頻度情報付き単語集合から頻度情報の値が大きい単語を選択し、単語集合つまりキーワードの集合とする。そして、その単語集合を照合部へ入力する。こうすることによって、単語集合を入力する代わりに、検索の基準とするテキストを入力することによって、全文検索を行うことができる。
以上、第4の実施形態によれば、検索対象となるテキストから生成される頻度情報付き単語集合が、最小コスト経路以外の経路に含まれる単語も含んでいるために、単語同定に曖昧性がある複合語があっても可能性のある単語を検索対象語とすることができる。そのため、検索キーワードの同定に曖昧性のある単語が設定されても、検索漏れの可能性を低減することができる。
<第5の実施形態>
図14は、本発明の第5の実施形態に係るテキスト分類装置の構成の例を示した図である。図14において、テキスト分類装置4は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、分類規則作成処理部410と、分類処理部420とを含んで構成される。
前記分類規則作成処理部410は、索引語作成部301と分類規則作成部401とを含んで構成される。ここで、索引語作成部301は、第3の実施形態におけるテキスト索引語索引装置2によって構成される。テキスト集合記憶部203には、分類規則を作成するための基準となる複数のテキストが記憶されており、索引語作成部301は、各々のテキストに対し、索引データつまり所定の索引語についての重み行列206(図12参照)を作成する。分類規則作成部401は、その索引データに基づき、分類規則を作成する。この分類規則の作成に当たっては、公知のナイーブベイズ、ブースティング、サポートベクトルマシンなどの分類規則学習法を利用することができる。分類規則作成部401によって作成された分類規則に係る情報は、分類規則記憶部403に記憶される。
分類処理部420は、索引語作成部301aと照合部402とを含んで構成される。索引語作成部301aは、分類すべきテキストが入力されると、そのテキストに対しても所定の索引語についての重み行列206(図12参照)からなる索引データを作成する。そして、照合部402は、その作成された索引データを分類規則記憶部403に記憶された分類規則と照合することによって、入力された文書のカテゴリを出力する。
以上、第5の実施形態によれば、索引語作成部301、301aによって作成される索引データは、最小コスト経路以外の経路に含まれる単語も含んだ頻度情報付き単語集合に基づき作成されるので、単語同定に曖昧性がある複合語があっても適切な索引データを作成することができる。
本発明の第1の実施形態に係る頻度情報付き単語集合生成装置の構成の例を示した図である。 形態素ラティスの例を示した図である。 図2の形態素ラティスの例において、BOSからEOSまでの経路をすべて示した図である。 形態素生起コストπおよび形態素連接コストaの具体的な値の例を示した図である。 図3に示した図2の形態素ラティスの例における経路pSのコストを(式2)に従って計算した結果の例である。 図2の形態素ラティスの例における6通りの経路について、(式3)に従ってその経路出現確率を計算した結果を示した図である。 図2の形態素ラティスの例おいて、形態素mに対し左または右から接続する形態素の集合LT(m)、RT(m) の例を示した図である。 (式6)〜(式10)におけるα(m)、β(m)を計算するプログラムの手続文を示した図である。 (式6)〜(式10)におけるα(m)、β(m)を計算するプログラムのフローチャートを示した図である。 図2の形態素ラティスの例についてのα(m)の具体的な計算例を示した図である。 図2の形態素ラティスの例についてのβ(m)の具体的な計算例を示した図である。 本発明の第3の実施形態に係るテキスト索引語作成装置の構成の例を示した図である。 本発明の第4の実施形態に係る全文検索装置の構成の例を示した図である。 本発明の第5の実施形態に係るテキスト分類装置の構成の例を示した図である。 従来、一般的に使用されている頻度情報付き単語集合生成装置の構成を示した図である。
符号の説明
1 頻度情報付き単語集合生成装置
2 テキスト索引語作成装置
3 全文検索装置
5 単語集合生成装置
10 形態素ラティス生成部
20 形態素/単語重要度計算部
30 頻度情報付き単語集合算出部
40 テキスト記憶部
50 頻度情報付き単語集合記憶部
60 形態素ラティス
201 頻度情報付き単語集合生成部
202 自動索引生成部
203 テキスト集合記憶部
204 頻度情報付き単語集合記憶部
205 索引データ記憶部
301,301a 索引語作成部
302 照合部
310 索引語作成処理部
320 検索処理部
401 分類規則作成部
402 照合部
403 分類規則記憶部
410 分類規則作成処理部
420 分類処理部
510 形態素ラティス生成部
520 最適解選択部
530 頻度情報付き単語集合算出部
540 テキスト記憶部
550 頻度情報付き単語集合記憶部
560 形態素ラティス
570 最適解


Claims (7)

  1. 情報処理部と記憶部とを少なくとも備えたコンピュータにおいて、入力されたテキストに対し、その入力されたテキストに含まれ得る単語について、その単語とその単語の頻度情報とのペアを元とした集合を生成する頻度情報付き単語集合生成方法であって、
    前記情報処理部が、
    前記入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、前記同定された形態素の接続関係をグラフとして表わした形態素ラティスを生成するステップと、
    前記形態素ラティスに含まれる形態素それぞれについて、その形態素が出現する確率である形態素出現確率を計算するステップと、
    前記形態素出現確率に対応して、それぞれの形態素の重要度を計算するステップと、
    前記計算した形態素の重要度に基づき、前記形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成するステップとを
    を実行し、
    前記形態素出現確率を計算するステップは、
    前記形態素ラティスにおける文頭から文末に至る各経路について、その経路に含まれる形態素の形態素生起コスト形態素連接コストとの総和である経路コストを計算するステップと、
    前記入力されたテキスト中に前記各経路が出現する経路出現確率がボルツマン分布に従うものとして、前記計算された経路コストに応じた各経路の経路出現確率を計算するステップと、
    記形態素ラティスに含まれる形態素それぞれについて、前記入力されたテキストの所定の文字位置範囲内に当該形態素が含まれる経路の前記経路出現確率を足し合わせたものを形態素周辺確率として計算し、前記計算た形態素周辺確率を前記形態素出現確率として出力するステップと
    を含んで構成されること
    を特徴とする頻度情報付き単語集合生成方法。
  2. 請求項1記載の頻度情報付き単語集合生成方法をコンピュータに実行させるためのプログラム。
  3. 請求項に記載のプログラムをコンピュータ読み取り可能な記憶媒体に記憶したことを特徴とするプログラム記憶媒体。
  4. 情報処理部と記憶部とを少なくとも備えたコンピュータからなり、入力されたテキストに対し、その入力されたテキストに含まれ得る単語について、その単語とその単語の頻度情報とのペアを元とした集合を生成する頻度情報付き単語集合生成装置であって、
    前記入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、前記同定された形態素の接続関係をグラフとして表わした形態素ラティスを生成する手段と、
    前記形態素ラティスに含まれる形態素それぞれについて、その形態素が出現する確率である形態素出現確率を計算する手段と、
    前記形態素出現確率に対応して、それぞれの形態素の重要度を計算する手段と、
    前記計算した形態素の重要度に基づき、前記形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成する手段とを
    備え、
    前記形態素出現確率を計算する手段は、
    前記形態素ラティスにおける文頭から文末に至る各経路について、その経路に含まれる形態素の形態素生起コスト形態素連接コストとの総和である経路コストを計算する手段と、
    前記入力されたテキスト中に前記各経路が出現する経路出現確率がボルツマン分布に従うものとして、前記計算された経路コストに応じた各経路の経路出現確率を計算する手段と、
    記形態素ラティスに含まれる形態素それぞれについて、前記入力されたテキストの所定の文字位置範囲内に当該形態素が含まれる経路の前記経路出現確率を足し合わせたものを形態素周辺確率として計算し、前記計算た形態素周辺確率を前記形態素出現確率として出力する手段と
    を含んで構成されること
    を特徴とする頻度情報付き単語集合生成装置。
  5. 請求項に記載の頻度情報付き単語集合生成装置を含んで構成されること
    を特徴とするテキスト索引語作成装置。
  6. 請求項に記載のテキスト索引語作成装置を含んで構成されること
    を特徴とする全文検索装置。
  7. 請求項に記載のテキスト索引語作成装置を含んで構成されること
    を特徴とするテキスト分類装置。
JP2005056598A 2005-03-01 2005-03-01 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 Expired - Fee Related JP4478042B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005056598A JP4478042B2 (ja) 2005-03-01 2005-03-01 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005056598A JP4478042B2 (ja) 2005-03-01 2005-03-01 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置

Publications (2)

Publication Number Publication Date
JP2006243976A JP2006243976A (ja) 2006-09-14
JP4478042B2 true JP4478042B2 (ja) 2010-06-09

Family

ID=37050350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005056598A Expired - Fee Related JP4478042B2 (ja) 2005-03-01 2005-03-01 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置

Country Status (1)

Country Link
JP (1) JP4478042B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5132270B2 (ja) * 2007-11-14 2013-01-30 楽天株式会社 情報処理装置および方法、並びにプログラム
JP6220761B2 (ja) * 2014-10-20 2017-10-25 日本電信電話株式会社 モデル学習装置、文字列変換装置、方法、及びプログラム
JP2017049930A (ja) * 2015-09-04 2017-03-09 株式会社東芝 文書解析装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2006243976A (ja) 2006-09-14

Similar Documents

Publication Publication Date Title
Şeker et al. Initial explorations on using CRFs for Turkish named entity recognition
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d&#39;enregistrement, programme et ordinateur
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
JP6077727B1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
EP1503295A1 (en) Text generation method and text generation device
US20210342534A1 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JP2004342104A (ja) テキストを圧縮するシステム、方法及びコンピュータ可読記憶媒体
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
Khoufi et al. Chunking Arabic texts using conditional random fields
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
JP5398638B2 (ja) 記号入力支援装置、記号入力支援方法、及びプログラム
JP2017129994A (ja) 文書き換え装置、方法、及びプログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP2002334076A (ja) テキスト処理方法
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP5744150B2 (ja) 発話生成装置、方法、及びプログラム
CN110008307B (zh) 一种基于规则和统计学习的变形实体识别方法和装置
KR20100072841A (ko) 대용어 복원 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100312

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees