JP4478042B2

JP4478042B2 - 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置

Info

Publication number: JP4478042B2
Application number: JP2005056598A
Authority: JP
Inventors: 拓工藤; 秀樹磯崎; 元塚田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-03-01
Filing date: 2005-03-01
Publication date: 2010-06-09
Anticipated expiration: 2025-03-01
Also published as: JP2006243976A

Description

本発明は、いわゆる形態素解析を応用した頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置に関する。

近年、コンピュータを用いて、自然言語で作成された文書の検索や自動分類などが盛んに行われている。その基礎となる技術は、一般に、形態素解析と呼ばれている。形態素解析とは、日本語などの自然言語で記述されたテキストを単語列に分解し、品詞を付与し、活用を処理（原形を出力）するコンピュータ処理の総称である。なお、ここでいうテキストとは、１つ以上の文の集合である。

形態素解析は、テキストを単語の集合に変換する目的で用いられる。一般的には、その変換と同時に、テキストを構成する単語について、それぞれの単語の出現頻度情報を算出する。このように、テキストを頻度情報付きの単語集合に変換する装置を頻度情報付き単語集合生成装置と呼ぶ。

図１５は、従来、一般的に使用されている頻度情報付き単語集合生成装置の構成を示した図である。図１５において、頻度情報付き単語集合生成装置５は、図示しない情報処理部と記憶部とを少なくとも含んだコンピュータによって構成され、その情報処理部の一部として、形態素ラティス生成部５１０、最適解選択部５２０、頻度情報付き単語集合算出部５３０を備える。

図１５において、形態素ラティス生成部５１０は、テキスト記憶部５４０に記憶されているテキストを入力していわゆる形態素ラティス５６０を生成する。なお、形態素ラティスとは、入力されたテキストを所定の辞書に従って形態素の列に分解し、可能な形態素のつながりをグラフとして表現したものである。形態素ラティス５６０の具体的な例は、本発明の実施形態において詳しく説明する。

次に、最適解選択部５２０は、形態素ラティス５６０から、入力されたテキストの意味に最も適した形態素の列、つまり、最適解５７０を選択する。その最適解５７０の選択にあたっては、最小コスト法などが利用される。最小コスト法においては、形態素の出現のしやすさ（形態素生起コスト）と２つの連続する形態素の出現のしやすさ（形態素連接コスト）との総和が最小になるような形態素の列を最適解５７０とする。

次に、頻度情報付き単語集合算出部５３０は、最適解選択部５２０によって選択された最適解５７０が示す形態素の列に基づき、入力されたテキストに含まれる各単語の頻度を算出する。すなわち、頻度情報付き単語集合算出部５３０は、単語と頻度のペアの集合５８０を頻度情報付き単語集合記憶部５５０に出力する。

なお、以上に説明した最小コスト法や頻度情報付き単語集合生成装置については、非特許文献１や非特許文献２にその例が開示されている。
金明哲、村上征勝、永田昌明、大津起夫、山西健司、共著、「統計科学のフロンティア（第１０巻）言語と心理の統計――ことばと行動の確率モデルによる分析」、岩波書店、２００３年、ｐ．６２−７３徳永健伸著、「言語と計算（第５巻）情報検索と言語処理」、東京大学出版会、１９９９年、ｐ．２６−２８

以上に示した頻度情報付き単語集合生成装置５においては、入力されたテキストは、前記最適解５７０、つまり、唯一の単語の列に分解され、その分解された単語に基づき単語の頻度が算出される。そのため、日本語のように複合名詞が頻出するような言語では、最適解５７０が必ずしも最適であるとは限らない。例えば、「本部長」は、「本・部長」または「本部・長」、「女子大生」は、「女子大・生」または「女子・大生」といった解釈が可能である。

また、形態素解析の辞書には解析精度を向上させる目的のために、しばしば長い複合語が登録されることがあるが、長い複合語を登録すればするほど、形態素解析の整合性が取りづらくなる。例えば、ある辞書においては、「成田空港」は一語として登録されているが、「宮崎空港」は登録されていないというようなことが多々見受けられる。

また、その形態素解析の結果（例えば、頻度情報付き単語集合）をテキスト全文検索の索引に用いた場合には、前記最適解に現れた単語のみが索引語として用いられるため、検索者が意図した検索を行うことができない場合がある。例えば、検索のもとになるテキストの形態素解析の結果、「成田空港」という複合語が取り出され、「成田」という単語が取り出されなかった場合には、「成田」という単語では検索が行われないことになる。

本発明は、以上のような複合語などの単語同定の曖昧性から生じる問題点を解決するためになされたものであり、本発明の第１の目的は、複合語など単語同定に曖昧性が多い言語に対して、同定の可能性のある単語をできるだけ漏らさずに抽出し、その頻度情報を算出することが可能な頻度情報付き単語集合生成方法、プログラム、プログラム記憶媒体、および、頻度情報付き単語集合生成装置を提供することにある。また、本発明の第２の目的は、複合語など単語同定に曖昧性が多い言語のテキストが入力されても、同定の可能性のある単語をできるだけ漏らさずに抽出することができ、検索または分類精度のよいテキスト索引語作成装置、全文検索装置またはテキスト分類装置を提供することにある。

請求項１に記載の頻度情報付き単語集合生成方法は、情報処理部と記憶部とを少なくとも備えたコンピュータにおいて、入力されたテキストに対し、その入力されたテキストに含まれ得る単語について、その単語とその単語の頻度情報とのペアを元とした集合を生成する頻度情報付き単語集合生成方法であって、前記情報処理部が、前記入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、前記同定された形態素の接続関係をグラフとして表わした形態素ラティスを生成するステップと、前記形態素ラティスに含まれる形態素それぞれについて、その形態素が出現する確率である形態素出現確率を計算するステップと、前記形態素出現確率に対応して、それぞれの形態素の重要度を計算するステップと、前記計算した形態素の重要度に基づき、前記形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成するステップとを実行し、前記形態素出現確率を計算するステップは、前記形態素ラティスにおける文頭から文末に至る各経路について、その経路に含まれる形態素の形態素生起コストと形態素連接コストとの総和である経路コストを計算するステップと、前記入力されたテキスト中に前記各経路が出現する経路出現確率がボルツマン分布に従うものとして、前記計算された経路コストに応じた各経路の経路出現確率を計算するステップと、前記形態素ラティスに含まれる形態素それぞれについて、前記入力されたテキストの所定の文字位置範囲内に当該形態素が含まれる経路の前記経路出現確率を足し合わせたものを形態素周辺確率として計算し、前記計算した形態素周辺確率を前記形態素出現確率として出力するステップとを含んで構成されることを特徴とする。

また、請求項２に記載のプログラムは、請求項１に記載の頻度情報付き単語集合生成方法をコンピュータに実行させるためのプログラムである。

また、請求項３に記載のプログラム記憶媒体は、請求項２に記載のプログラムをコンピュータ読み取り可能な記憶媒体に記憶したことを特徴とする。

また、請求項４に記載の頻度情報付き単語集合生成装置は、情報処理部と記憶部とを少なくとも備えたコンピュータからなり、入力されたテキストに対し、その入力されたテキストに含まれ得る単語について、その単語とその単語の頻度情報とのペアを元とした集合を生成する頻度情報付き単語集合生成装置であって、前記入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、前記同定された形態素の接続関係をグラフとして表わした形態素ラティスを生成する手段と、前記形態素ラティスに含まれる形態素それぞれについて、その形態素が出現する確率を表わす形態素出現確率を計算する手段と、前記形態素出現確率に対応して、それぞれの形態素の重要度を計算する手段と、前記計算した形態素の重要度に基づき、前記形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成する手段とを備え、前記形態素出現確率を計算する手段は、前記形態素ラティスにおける文頭から文末に至る各経路について、その経路に含まれる形態素の形態素生起コストと形態素連接コストとの総和である経路コストを計算する手段と、前記入力されたテキスト中に前記各経路が出現する経路出現確率がボルツマン分布に従うものとして、前記計算された経路コストに応じた各経路の経路出現確率を計算する手段と、前記形態素ラティスに含まれる形態素それぞれについて、前記入力されたテキストの所定の文字位置範囲内に当該形態素が含まれる経路の前記経路出現確率を足し合わせたものを形態素周辺確率として計算し、前記計算した形態素周辺確率を前記形態素出現確率として出力する手段とを含んで構成されることを特徴とする。

以上、請求項１ないし請求項４の発明によれば、入力されたテキストに対して生成された形態素ラティスにおける文頭から文末までの経路の出現確率を計算し、その経路の出現確率がボルツマン分布に従うものとして、形態素ラティスに含まれるすべての形態素に対してその出現確率を計算する。そのため、複合語など単語同定に曖昧性が多い言語に対しても、同定の可能性のある単語をできるだけ漏らすことなく、その頻度情報を算出することができる。

また、請求項５に記載のテキスト索引語作成装置は、請求項４に記載の頻度情報付き単語集合生成装置を含んで構成されることを特徴とする。

また、請求項６に記載の全文検索装置は、請求項５に記載のテキスト索引語作成装置を含んで構成されることを特徴とする。

また、請求項７に記載のテキスト分類装置は、請求項５に記載のテキスト索引語作成装置を含んで構成されることを特徴とする。

請求項５ないし請求項７に記載のテキスト索引語作成装置、全文検索装置およびテキスト分類装置は、いずれも、請求項４に記載の頻度情報付き単語集合生成装置を含んで構成される。したがって、それらの装置においては、複合語など単語同定に曖昧性が多い言語のテキストが入力されても、同定の可能性のある単語をできるだけ漏らすことなく抽出することができ、検索または分類精度のよいテキスト索引語作成装置、全文検索装置またはテキスト分類装置を提供することができる。

以上、請求項１ないし請求項４の発明によれば、複合語など単語同定に曖昧性が多い言語に対しても、同定の可能性のある単語をできるだけ漏らすことなく、その頻度情報を算出することが可能な頻度情報付き単語集合生成方法、プログラム、プログラム記憶媒体、および、頻度情報付き単語集合生成装置を提供することができる。

また、請求項５ないし請求項７の発明によれば、複合語など単語同定に曖昧性が多い言語のテキストが入力されても、同定の可能性のある単語をできるだけ漏らすことなく抽出することができ、検索または分類精度のよいテキスト索引語作成装置、全文検索装置またはテキスト分類装置を提供することができる。

以下、図面を参照して本発明の実施形態について詳しく説明する。

＜第１の実施形態＞
図１は、本発明の第１の実施形態に係る頻度情報付き単語集合生成装置の構成の例を示した図である。図１において、頻度情報付き単語集合生成装置１は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、形態素ラティス生成部１０と、形態素／単語重要度計算部２０と、頻度情報付き単語集合算出部３０とを含んで構成される。

ここで、形態素ラティス生成部１０、形態素／単語重要度計算部２０、頻度情報付き単語集合算出部３０のそれぞれの機能は、前記情報処理部が前記記憶部に記憶されたプログラムを実行することによって実現される。また、前記形態素ラティス生成部１０、形態素／単語重要度計算部２０、頻度情報付き単語集合算出部３０の機能を実現するプログラムは、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などのコンピュータ読み取り可能な記憶媒体に記憶されたプログラムが、その記憶媒体の読取装置によって読み取られ、前記記憶部に記憶されたものである。

図１において、前記形態素ラティス生成部１０は、テキスト記憶部４０に記憶されているテキストを入力していわゆる形態素ラティス６０を生成する。なお、形態素ラティスとは、入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、その同定された形態素の接続関係をグラフとして表わしたものである。形態素ラティスの例は、別途、図２を用いて説明する。

次に、前記形態素／単語重要度計算部２０は、形態素ラティスの構成要素として取り出された形態素／単語に対して、所定の方法に基づき、その重要度を計算する。その計算方法については、後記して詳しく説明する。なお、重要度を従来技術の場合（図１５参照）に対応付けると、最適解選択部５２０は、選択した最適解５７０に含まれる形態素／単語にのみ、重要度＝1.0を付与している。それに対し、本実施形態では、形態素／単語重要度計算部２０は、例えば、最適解に含まれるか否かに拘わらず、すべての形態素／単語に対して、その形態素／単語のある種の出現確率（例えば、後記する周辺確率）を計算し、その確率を重要度として付与する（図１の吹き出し７０参照）。

次に、前記頻度情報付き単語集合算出部３０は、形態素／単語重要度計算部２０によって計算された重要度に基づき、各形態素／単語の頻度を算出する。この場合、重要度をそのまま頻度としてもよく、ある閾値を定め、重要度がその閾値以上の場合、頻度を1.0とし、その閾値以下の場合、頻度を0.0としてもよい。あるいは、重要度を頻度に変換する特定の関数を設定してもよい。そして、以上のようにして算出された頻度は、対応する単語とペアを形成し、単語と頻度のペアの集合８０の元として、頻度情報付き単語集合記憶部５０に記憶される。

図２は形態素ラティスの例を示した図である。図２の例は、「東京都に住む」というテキストが入力され、所定の辞書に基づき、形態素ラティス生成部１０によって生成された形態素ラティスの例である。図２に示すように、入力されたテキストＳの文頭および文末にそれぞれＢＯＳ（初期状態形態素ｂ）およびＥＯＳ（終了状態形態素ｅ）が加えられて形態素ラティスが生成されている。

図３は、図２の形態素ラティスの例において、ＢＯＳからＥＯＳまでの経路をすべて示した図である。すなわち、「東京都に住む」というテキストは、図３に示すように、６通りの形態素の列として表現することができる。

従来技術においては、例えば、最小コスト法により、これら６通りの形態素の列から、テキストとして最も確からしい意味を有する形態素の列を、最適解として選択する。一方、本実施形態においては、形態素／単語重要度計算部２０（図１参照）は、最適解を１つ選択することなしに、各形態素について形態素周辺確率を計算し、その形態素周辺確率をもって各形態素の重要度とする。

以下、形態素周辺確率の計算方法について説明する。その計算の過程においては、途中まで、最小コスト法と同様の概念を利用するので、まず、最小コスト法の概念および計算式について説明する。

最小コスト法で使用する記号および概念を次のように定義する。
ｍ＝＜ｗ，ｔ＞：形態素
ただし、ｗは、表層文字列（「東京」、「私」、「動く」など）、tは、対応する品詞（名詞、代名詞、動詞、など）である。ここでは、表層文字列を「単語」と定義する。
ｍ∈Ｄ：形態素集合（一般には、辞書と呼ばれることが多い。）
ｂ：初期状態形態素
ｅ：終了状態形態素
π：ｍ∈（Ｄ∪｛ｂ，ｅ｝）→Ｒ：形態素生起コスト（形態素から実数値への写像）
ここでは、便宜的にπ（ｍ）という実数値を返す関数として表記する。なお、Ｒは、実数値空間を示す。
ａ：ｍ∈（Ｄ∪｛ｂ，ｅ｝）×ｍ∈（Ｄ∪｛ｂ，ｅ｝）→Ｒ：形態素連接コスト（形態素のペアから実数値への写像）
ここでは、便宜的にａ（ｍ₁，ｍ₂）という実数値を返す関数として表記する。

最小コスト法では、すなわち、形態素ラティス生成部１０（図１参照）は、テキスト記憶部４０において、入力テキストＳが与えられると、まず、入力テキストＳに対し、辞書Ｄにマッチする可能な形態素の列すべてを表現した形態素ラティスを作成する（図２参照）。そして、その入力テキストＳの形態素ラティスに基づき、初期状態形態素ｂから終了状態形態素ｅまでの経路の集合Φ_Sを求める。そして、その経路の1つをｐ_S∈Φ_Sと表記すると、ｐ_Sは、（式１）に示すような形態素の系列として表現される。
ｐ_S＝（ｂ，ｍ_ps,1，ｍ_ps,2，・・・，ｍ_ps,|ps|，ｅ）（式１）
ここで、ｍ_ps,kは、経路ｐ_Sのｋ番目の形態素であり、｜ｐ_S｜は、経路ｐ_S上にある形態素の個数（ただし、初期状態形態素ｂおよび終了状態形態素ｅは含まない）である。

次に、各経路ｐ_Sについて、コストcost(ｐ_S)を（式２）によって定義する。

すなわち、コストcost(ｐ_S)は、経路ｐ_S上にある形態素ｍの形態素生起コストπおよび形態素連接コストａの総和として定義される。

図４は、形態素生起コストπおよび形態素連接コストａの具体的な値の例を示した図である。なお、このような形態素生起コストπおよび形態素連接コストａの値は、通常、正しい出力結果が人手によって与えらえた学習データから算出する。学習データは、入力テキストＳとそれに対応した正解の経路ｐ_Sのペア集合Ｔとして定義される。

図５は、図３に示した図２の形態素ラティスの例における経路ｐ_Sのコストを（式２）に従って計算した結果の例である。その計算においては、形態素生起コストπおよび形態素連接コストａの具体的な値は、図４に示した値を利用している。

従来の最小コスト法においては、このようにしてコストが求められた各経路ｐ_Sの中から、最小コスト経路ｐ_S* を最も確からしい意味を有する形態素の列を選択さえすればよい。なお、コスト最小経路ｐ_S* を一般的に求めるアルゴリズムは、すでに確立されており、そのアルゴリズムの１つとして、例えば、動的計画法の一種であるViterbiアルゴリズムがある。

本実施形態においては、（式２）に従って求めた各経路ｐ_Sのコストを全部利用し、そのコストに応じてその経路が出現する確率（以下、経路出現確率という）を計算する。ここで、経路出現確率がボルツマン分布に従うものとすると、入力テキストＳについて経路ｐ_Sが出現する経路出現確率Ｐ(ｐ_S｜Ｓ)は、（式３）のように表わすことができる。

（式３）において、τ∈Ｒ⁺（Ｒ⁺は正の実数値空間）は、逆温度定数であり、確率分布の鋭さを与える。すなわち、τ→０とすると、各経路の経路出現確率は、コストに依存せず均一になる。逆に、τ→∞とすると、最小コスト経路ｐ_S* の経路出現確率は１に、他の経路の経路出現確率は０に漸近する。

図６は、図２の形態素ラティスの例における６通りの経路について、（式３）に従ってその経路出現確率を計算した結果を示した図である。この計算においては、形態素生起コストπおよび形態素連接コストａの値は、図４で示した例の値を使用した。また、逆温度定数τ＝１とした。

図６から分かるように、「東京都に住む」は、「東京・都・に・住む」のほかにも、「東・京都・に・住む」などであってもよいわけであり、本実施形態では、その可能性を経路出現確率として表現する。そして、これ以降の計算プロセスで、この経路出現確率を活用するようにしている。その結果、従来の最小コスト法では、最小コスト経路以外の経路に含まれる形態素は、その経路の出現確率が０であるとして捨てられていたが、本実施形態においては、最小コスト経路以外の経路に含まれる形態素であっても捨てられることはない。

次に、この経路出現確率Ｐ(ｐ_S｜Ｓ)を用いて、形態素周辺確率Ｐ(ｍ,ｉ,ｊ)を（式４）のように定義する。ここで、形態素周辺確率Ｐ(ｍ,ｉ,ｊ)とは、入力テキストＳのｉ文字目からｊ文字目まで（ｉ＜ｊ）の形態素がｍとなる確率である。

（式４）において、Φ'_Sは、テキストＳについての経路の集合Φ_Sに含まれる経路のうち、ｉ文字目からｊ文字目までに形態素ｍが含まれる経路の集合である。従って、周辺確率Ｐ(ｍ,ｉ,ｊ)は、ｉ文字目からｊ文字目までに形態素ｍが含まれる経路の経路出現確率Ｐ(ｐ_S｜Ｓ)を足し合わせたものとなっている。言い換えると、形態素周辺確率は、各経路の経路出現確率を考慮した上で、形態素ｍが位置ｉ〜ｊにどれくらい出現しやすいかを示す確率値であるということができる。

次に、図６に示した経路出現確率を用いて、（式４）により形態素周辺確率を計算した例を以下に示す。
Ｐ(<都,接尾>,3,4|Ｓ＝東京都に住む)＝0.23102＋0.06958＋0.28217＋0.08498
＝0.66774
Ｐ(<京都,名詞>,2,4|Ｓ＝東京都に住む)＝0.25532＋0.07690＝0.33222
Ｐ(<に,助詞>,4,5|Ｓ＝東京都に住む)＝0.25532＋0.23102＋0.28217＝0.76851

以上のようにして、形態素／単語重要度計算部２０は、入力テキストＳに対して形態素ラティス生成部１０が生成した形態素ラティス６０に含まれる形態素ｍすべてについて、形態素周辺確率Ｐ(ｍ,ｉ,ｊ)を計算する。次に、このようにして計算された形態素周辺確率Ｐ(ｍ,ｉ,ｊ)を用いて、（式５）に従って単語周辺確率Ｐ(ｔ,ｉ,ｊ)を算出する。ここで、単語周辺確率Ｐ(ｍ,ｉ,ｊ)とは、入力テキストＳが与えられたときに、ｉ文字目からｊ文字目までの単語がｔとなる確率である。

次に、頻度情報付き単語集合算出部３０は、形態素／単語重要度計算部２０が算出した単語周辺確率Ｐ(ｔ,ｉ,ｊ)を用いて頻度情報付き単語集合を算出する。ここでは、各単語に対応付けてその単語の頻度情報を計算するわけであるが、単語周辺確率Ｐ(ｔ,ｉ,ｊ)には、その単語の周辺を示すｉ，ｊの情報が含まれているので、まずは、ｉ，ｊの情報を捨象するために、同一単語についての単語周辺確率Ｐ(ｔ,ｉ,ｊ)の総和を求め、その総和をその単語の頻度情報とすることができる。あるいは、ある閾値を定め、単語の単語周辺確率Ｐ(ｔ,ｉ,ｊ)の総和がその閾値以上の場合、頻度を1.0とし、その閾値以下の場合、頻度を0.0としてもよい。さらには、前記の単語周辺確率Ｐ(ｔ,ｉ,ｊ)の総和を頻度に変換する特定の関数を設定してもよい。以上のようにして、各単語に対して、頻度情報を付すことができる。

以上のように、本実施形態において算出された単語およびその頻度情報には、従来には捨てられていた最小コスト経路以外の経路に出現する形態素／単語の情報が含まれることになるので、複合語など単語同定に曖昧性が多い言語に対しても、同定の可能性のある単語をできるだけ漏らすことなく、その頻度情報を算出することができる。

＜第２の実施形態＞
本発明の第２の実施形態は、第１の実施形態における形態素周辺確率Ｐ(ｍ,ｉ,ｊ)の計算方法を一部変更したものである。

形態素周辺確率Ｐ(ｍ,ｉ,ｊ)を計算するは、第１の実施形態に示したように、（式４）を用いればよい。しかしながら、入力テキストＳの経路集合Φ_Sに含まれる経路ｐ_Sの数は、入力テキストＳの長さに対し指数関数的に増加する。そのため、入力テキストＳの長さが長くなった場合には、形態素周辺確率Ｐ(ｍ,ｉ,ｊ)を（式４）によって計算すると、計算時間も指数関数的に増加することになる。

そこで、本実施形態では、形態素周辺確率Ｐ(ｍ,ｉ,ｊ)の計算を動的計画法の１つであるBaum Welchアルゴリズム（Forward Backwardアルゴリズムともいう）に基づき行う。Baum Welchアルゴリズムを用いることによって、入力テキストＳが長い場合にも、計算時間が指数関数的に増加することを防止する。以下、Baum Welchアルゴリズムを用いた形態素周辺確率Ｐ(ｍ,ｉ,ｊ)の計算方法について説明する。

Baum Welchアルゴリズムでは、まず、入力テキストＳについて生成された形態素ラティスに含まれる各形態素ｍについて、（式６）〜（式１０）によりα(ｍ)、β(ｍ)、Ｚを求める。

ここで、（式８）および（式９）において、ＬＴ(ｍ) は、形態素ｍに対し左から接続する形態素の集合、ＲＴ(ｍ) は、形態素ｍに対し右から接続する形態素の集合である。また、これらの（式６）〜（式１０）において注目すべきことは、α(ｍ)およびβ(ｍ)が再起的な定義になっていることである。

図７は、図２の形態素ラティスの例において、形態素ｍに対し左または右から接続する形態素の集合ＬＴ(ｍ)、ＲＴ(ｍ) の例を示した図である。図７に示すように、形態素＜都，接尾＞に対するＬＴ(ｍ) は、＜京，名詞＞と＜東京，名詞＞とを元とする集合であり、形態素＜都，接尾＞に対するＲＴ(ｍ) は、＜に，助詞＞と＜に，動詞＞とを元とする集合である。

以上のようにして求めたα(ｍ)、β(ｍ)、Ｚを用いると、入力テキストＳについての形態素周辺確率Ｐ(ｍ,ｉ,ｊ｜Ｓ)は、（式１１）によって計算することができる。

図８は、（式６）〜（式１０）におけるα(ｍ)、β(ｍ)を計算するプログラムの手続文を示した図、図９は、（式６）〜（式１０）におけるα(ｍ)、β(ｍ)を計算するプログラムのフローチャートを示した図である。以下、図９に従って、α(ｍ)、β(ｍ)を計算するプログラムについて説明する。なお、図８については、（式６）〜（式１０）の説明、または、図９のフローチャートの説明と重複するので、その説明を割愛する。

図９において、まず、初期値を設定する。すなわち、α(ｂ)を１、β(ｅ)を１とし、Ｌに入力された文（テキスト）の長さを設定する（ステップＳ１０）。次に、文字の位置を示すカウンタｉを０にセットする（ステップＳ１１）。そして、カウンタｉが文の長さＬを越えたか否かを判定する（ステップＳ１２）。その判定の結果、カウンタｉがＬ以下であった場合には（ステップＳ１２でＹｅｓ）、文字の位置がｉから始まるすべての形態素により集合Ｓを生成する（ステップＳ１３）。

次に、集合Ｓが空であるか否かを判定する（ステップＳ１４）。その判定の結果、集合Ｓが空でなかった場合には（ステップＳ１４でＮｏ）、集合Ｓから１つ形態素を取り出し、ｍとする（ステップＳ１５）。そして、取り出した形態素ｍおよび（式７）に基づき、α(ｍ)を計算し（ステップＳ１６）、その形態素ｍを集合Ｓから取り除き（ステップＳ１７）、ステップＳ１４へ戻る。また、ステップＳ１４の判定で、集合Ｓが空であった場合には（ステップＳ１４でＹｅｓ）、カウンタｉに１加算して（ステップＳ１８）、ステップＳ１２へ戻る。

一方、ステップＳ１２の判定で、カウンタｉが文の長さＬを越えた場合には（ステップＳ１２でＮｏ）、カウンタｉにＬをセットする（ステップＳ２１）。そして、カウンタｉが０以上であるか否かを判定する（ステップＳ２２）。その判定の結果、カウンタｉが０以上であった場合には（ステップＳ２２でＹｅｓ）、文字の位置がｉで終わるすべての形態素により集合Ｓを生成する（ステップＳ２３）。

次に、集合Ｓが空であるか否かを判定する（ステップＳ２４）。その判定の結果、集合Ｓが空でなかった場合には（ステップＳ２４でＮｏ）、集合Ｓから１つ形態素を取り出し、ｍとする（ステップＳ２５）。そして、取り出した形態素ｍおよび（式８）に基づき、β(ｍ)を計算し（ステップＳ２６）、その形態素ｍを集合Ｓから取り除き（ステップＳ２７）、ステップＳ２４へ戻る。また、ステップＳ２４の判定で、集合Ｓが空であった場合には（ステップＳ１４でＹｅｓ）、カウンタｉから１を減じて（ステップＳ２８）、ステップＳ２２へ戻る。

そして、ステップＳ２２の判定で、カウンタｉが０以上でなかった場合には（ステップＳ２２でＮｏ）、α(ｍ)およびβ(ｍ)を計算し終えたことになり、計算したα(ｍ)およびβ(ｍ)を出力して（ステップＳ２９）、処理を終了する。

図１０は、図２の形態素ラティスの例についてのα(ｍ)の具体的な計算例を示した図、図１１は、図２の形態素ラティスの例についてのβ(ｍ)の具体的な計算例を示した図である。なお、図１０および図１１において、形態素の傍の数値は、その形態素について計算されたα(ｍ)およびβ(ｍ)を示したものである。

以上のようにして、α(ｍ)およびβ(ｍ)が計算されると、（式１１）に従って形態素周辺確率Ｐ(ｍ,ｉ,ｊ｜Ｓ)を計算することができる。以下に、図１０および図１１に示したα(ｍ)およびβ(ｍ)を用い、（式１１）に従って形態素周辺確率Ｐ(ｍ,ｉ,ｊ｜Ｓ)を計算した例を示す。
Ｐ(<都,接尾>,3,4|Ｓ＝東京都に住む)＝1.3473・0.71411・exp(0.1)/1.5924＝0.66774
Ｐ(<京都,名詞>,2,4|Ｓ＝東京都に住む)＝0.67032・0.71411・exp(0.1)/1.5924＝0.33222
Ｐ(<に,助詞>,4,5|Ｓ＝東京都に住む)＝1.6519・0.67032・exp(0.1)/1.5924＝0.76851
これらの形態素周辺確率の値は、第１の実施形態で（式４）に基づき計算した値と同じになっている。

なお、以上のようにして形態素周辺確率が計算されると、第１の実施形態の場合と同様に、（式５）に従い、単語周辺確率を計算することができる。ただし、本実施形態の場合は、形態素周辺確率Ｐ(ｍ,ｉ,ｊ｜Ｓ)を表す式は（式１１）である。ちなみに、その計算の具体例を１つ示すと、以下のようになる。
Ｐ(に,4,5|Ｓ＝東京都に住む)
＝1.6519・0.67032・exp(0.1)/1.5924＋0.74224・0.30019・exp(0.1)・1.5924
＝1.00

以上のように、本実施形態、つまり、図９のフローチャートによれば、計算時間を決定する処理のループは、入力テキストＳの長さ（図９では、文の長さＬ）については、一重のループしかない。そのため、α(ｍ)およびβ(ｍ)の計算時間が指数関数的の増加することはない。従って、本実施形態においては、第１の実施形態に比べ、入力テキストＳの長さが長くなった場合の計算時間を短縮することができる。

＜第３の実施形態＞
図１２は、本発明の第３の実施形態に係るテキスト索引語作成装置の構成の例を示した図である。一般に、テキスト索引語作成装置は、複数のテキスト（テキスト文書）について索引語を抽出して、索引付けを行う装置である。

図１２において、テキスト索引語作成装置２は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、頻度情報付き単語集合生成部２０１と、自動索引生成部２０２とを含んで構成される。ここで、頻度情報付き単語集合生成部２０１は、第１の実施形態または第２の実施形態における頻度情報付き単語集合生成装置１によって構成される。

図１２において、テキスト集合記憶部２０３は、頻度情報付き単語集合生成部２０１への入力となる複数のテキストを記憶する。ここで、テキストとは、１つ以上の文の集合であり、そのテキストは、それぞれの内容、作成者、作成時などが異なった文書、または、それらの文書の一部に含まれるものとする。従って、複数のテキストとは、複数の異なる文書に含まれるテキスト、または、文書の複数の異なる部分に含まれるテキストを意味する。

前記頻度情報付き単語集合生成部２０１は、テキスト集合記憶部２０３に記憶されているテキストを１つ取り出し、そのテキストに対し、頻度情報付き単語集合を作成し、作成した頻度情報付き単語集合を頻度情報付き単語集合記憶部２０４に記憶する。頻度情報付き単語集合生成部２０１は、同様の処理をテキスト集合記憶部２０３に記憶されているすべてのテキストに対して行う。

次に、自動索引生成部２０２は、前記頻度情報付き単語集合記憶部２０４に記憶されている複数のテキストそれぞれの頻度情報付き単語集合に基づき、あらかじめ設定された索引語に対する重みを計算し、図１２の吹き出し２０６に示すような各テキストに対する索引語の重みの行列を作成する。そして、このようにして作成された各テキストに対する索引語の重みの行列は、索引データ記憶部に記憶される。

なお、重みの具体的な計算方法については、索引語頻度、ＩＤＦ（Inverse Document Frequency）など公知の計算方法を利用することができる。

以上、第３の実施形態によれば、頻度情報付き単語集合生成部２０１が最小コスト経路以外の経路に含まれる単語についてもその頻度情報を生成するので、自動索引生成部２０２は、単語同定に曖昧性がある複合語などについても、適切な重みを計算することができる。

＜第４の実施形態＞
図１３は、本発明の第４の実施形態に係る全文検索装置の構成の例を示した図である。図１３において、全文検索装置３は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、索引語作成処理部３１０と、検索処理部３２０とを含んで構成される。

前記索引語作成処理部３１０は、索引語作成部３０１を含んで構成される。ここで、索引語作成部３０１は、第３の実施形態におけるテキスト索引語作成装置２によって構成される。従って、索引語作成部３０１の入力となるテキスト集合記憶部２０３および出力となる検索データ記憶部２０５は、第３の実施形態において説明したものと同じものである。

また、前記索引語作成処理部３１０においては、まず、全文検索の対象となる複数のテキストを、テキスト集合記憶部２０３に記憶する。そして、索引語作成部３０１により、各テキストについて索引データを作成しておく、この場合、索引データは、所定の索引語に対する重みの行列２０６でなく、頻度情報付き単語集合であってもよい。

前記検索処理部３２０は、照合部３０２を備えている。照合部３０２は、検索要求の入力を受け付けて、その入力が単語集合つまりキーワードの集合であった場合には、その単語集合に含まれるキーワードと索引データとを照合することによって、テキスト集合記憶部２０３に記憶されているテキストそれぞれについて、キーワードの有無などを示す検索結果の情報を出力する。

また、前記検索処理部３２０は、さらに、索引語作成部３０１ａを備えており、検索要求の入力として単語集合ではなく、テキストが添付されていた場合には、索引語作成部３０１ａにより、頻度情報付き単語集合を作成する。そして、その頻度情報付き単語集合から頻度情報の値が大きい単語を選択し、単語集合つまりキーワードの集合とする。そして、その単語集合を照合部へ入力する。こうすることによって、単語集合を入力する代わりに、検索の基準とするテキストを入力することによって、全文検索を行うことができる。

以上、第４の実施形態によれば、検索対象となるテキストから生成される頻度情報付き単語集合が、最小コスト経路以外の経路に含まれる単語も含んでいるために、単語同定に曖昧性がある複合語があっても可能性のある単語を検索対象語とすることができる。そのため、検索キーワードの同定に曖昧性のある単語が設定されても、検索漏れの可能性を低減することができる。

＜第５の実施形態＞
図１４は、本発明の第５の実施形態に係るテキスト分類装置の構成の例を示した図である。図１４において、テキスト分類装置４は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、分類規則作成処理部４１０と、分類処理部４２０とを含んで構成される。

前記分類規則作成処理部４１０は、索引語作成部３０１と分類規則作成部４０１とを含んで構成される。ここで、索引語作成部３０１は、第３の実施形態におけるテキスト索引語索引装置２によって構成される。テキスト集合記憶部２０３には、分類規則を作成するための基準となる複数のテキストが記憶されており、索引語作成部３０１は、各々のテキストに対し、索引データつまり所定の索引語についての重み行列２０６（図１２参照）を作成する。分類規則作成部４０１は、その索引データに基づき、分類規則を作成する。この分類規則の作成に当たっては、公知のナイーブベイズ、ブースティング、サポートベクトルマシンなどの分類規則学習法を利用することができる。分類規則作成部４０１によって作成された分類規則に係る情報は、分類規則記憶部４０３に記憶される。

分類処理部４２０は、索引語作成部３０１ａと照合部４０２とを含んで構成される。索引語作成部３０１ａは、分類すべきテキストが入力されると、そのテキストに対しても所定の索引語についての重み行列２０６（図１２参照）からなる索引データを作成する。そして、照合部４０２は、その作成された索引データを分類規則記憶部４０３に記憶された分類規則と照合することによって、入力された文書のカテゴリを出力する。

以上、第５の実施形態によれば、索引語作成部３０１、３０１ａによって作成される索引データは、最小コスト経路以外の経路に含まれる単語も含んだ頻度情報付き単語集合に基づき作成されるので、単語同定に曖昧性がある複合語があっても適切な索引データを作成することができる。

本発明の第１の実施形態に係る頻度情報付き単語集合生成装置の構成の例を示した図である。形態素ラティスの例を示した図である。図２の形態素ラティスの例において、ＢＯＳからＥＯＳまでの経路をすべて示した図である。形態素生起コストπおよび形態素連接コストａの具体的な値の例を示した図である。図３に示した図２の形態素ラティスの例における経路ｐ_Sのコストを（式２）に従って計算した結果の例である。図２の形態素ラティスの例における６通りの経路について、（式３）に従ってその経路出現確率を計算した結果を示した図である。図２の形態素ラティスの例おいて、形態素ｍに対し左または右から接続する形態素の集合ＬＴ(ｍ)、ＲＴ(ｍ) の例を示した図である。（式６）〜（式１０）におけるα(ｍ)、β(ｍ)を計算するプログラムの手続文を示した図である。（式６）〜（式１０）におけるα(ｍ)、β(ｍ)を計算するプログラムのフローチャートを示した図である。図２の形態素ラティスの例についてのα(ｍ)の具体的な計算例を示した図である。図２の形態素ラティスの例についてのβ(ｍ)の具体的な計算例を示した図である。本発明の第３の実施形態に係るテキスト索引語作成装置の構成の例を示した図である。本発明の第４の実施形態に係る全文検索装置の構成の例を示した図である。本発明の第５の実施形態に係るテキスト分類装置の構成の例を示した図である。従来、一般的に使用されている頻度情報付き単語集合生成装置の構成を示した図である。

符号の説明

１頻度情報付き単語集合生成装置
２テキスト索引語作成装置
３全文検索装置
５単語集合生成装置
１０形態素ラティス生成部
２０形態素／単語重要度計算部
３０頻度情報付き単語集合算出部
４０テキスト記憶部
５０頻度情報付き単語集合記憶部
６０形態素ラティス
２０１頻度情報付き単語集合生成部
２０２自動索引生成部
２０３テキスト集合記憶部
２０４頻度情報付き単語集合記憶部
２０５索引データ記憶部
３０１，３０１ａ索引語作成部
３０２照合部
３１０索引語作成処理部
３２０検索処理部
４０１分類規則作成部
４０２照合部
４０３分類規則記憶部
４１０分類規則作成処理部
４２０分類処理部
５１０形態素ラティス生成部
５２０最適解選択部
５３０頻度情報付き単語集合算出部
５４０テキスト記憶部
５５０頻度情報付き単語集合記憶部
５６０形態素ラティス
５７０最適解

Claims

情報処理部と記憶部とを少なくとも備えたコンピュータにおいて、入力されたテキストに対し、その入力されたテキストに含まれ得る単語について、その単語とその単語の頻度情報とのペアを元とした集合を生成する頻度情報付き単語集合生成方法であって、
前記情報処理部が、
前記入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、前記同定された形態素の接続関係をグラフとして表わした形態素ラティスを生成するステップと、
前記形態素ラティスに含まれる形態素それぞれについて、その形態素が出現する確率である形態素出現確率を計算するステップと、
前記形態素出現確率に対応して、それぞれの形態素の重要度を計算するステップと、
前記計算した形態素の重要度に基づき、前記形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成するステップとを
を実行し、
前記形態素出現確率を計算するステップは、
前記形態素ラティスにおける文頭から文末に至る各経路について、その経路に含まれる形態素の形態素生起コストと形態素連接コストとの総和である経路コストを計算するステップと、
前記入力されたテキスト中に前記各経路が出現する経路出現確率がボルツマン分布に従うものとして、前記計算された経路コストに応じた各経路の経路出現確率を計算するステップと、
前記形態素ラティスに含まれる形態素それぞれについて、前記入力されたテキストの所定の文字位置範囲内に当該形態素が含まれる経路の前記経路出現確率を足し合わせたものを形態素周辺確率として計算し、前記計算した形態素周辺確率を前記形態素出現確率として出力するステップと
を含んで構成されること
を特徴とする頻度情報付き単語集合生成方法。
請求項１に記載の頻度情報付き単語集合生成方法をコンピュータに実行させるためのプログラム。
請求項２に記載のプログラムをコンピュータ読み取り可能な記憶媒体に記憶したことを特徴とするプログラム記憶媒体。
情報処理部と記憶部とを少なくとも備えたコンピュータからなり、入力されたテキストに対し、その入力されたテキストに含まれ得る単語について、その単語とその単語の頻度情報とのペアを元とした集合を生成する頻度情報付き単語集合生成装置であって、
前記入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、前記同定された形態素の接続関係をグラフとして表わした形態素ラティスを生成する手段と、
前記形態素ラティスに含まれる形態素それぞれについて、その形態素が出現する確率である形態素出現確率を計算する手段と、
前記形態素出現確率に対応して、それぞれの形態素の重要度を計算する手段と、
前記計算した形態素の重要度に基づき、前記形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成する手段とを
備え、
前記形態素出現確率を計算する手段は、
前記形態素ラティスにおける文頭から文末に至る各経路について、その経路に含まれる形態素の形態素生起コストと形態素連接コストとの総和である経路コストを計算する手段と、
前記入力されたテキスト中に前記各経路が出現する経路出現確率がボルツマン分布に従うものとして、前記計算された経路コストに応じた各経路の経路出現確率を計算する手段と、
前記形態素ラティスに含まれる形態素それぞれについて、前記入力されたテキストの所定の文字位置範囲内に当該形態素が含まれる経路の前記経路出現確率を足し合わせたものを形態素周辺確率として計算し、前記計算した形態素周辺確率を前記形態素出現確率として出力する手段と
を含んで構成されること
を特徴とする頻度情報付き単語集合生成装置。
請求項４に記載の頻度情報付き単語集合生成装置を含んで構成されること
を特徴とするテキスト索引語作成装置。
請求項５に記載のテキスト索引語作成装置を含んで構成されること
を特徴とする全文検索装置。
請求項５に記載のテキスト索引語作成装置を含んで構成されること
を特徴とするテキスト分類装置。