JP4747752B2

JP4747752B2 - 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム

Info

Publication number: JP4747752B2
Application number: JP2005267079A
Authority: JP
Inventors: 健二立石; 大久寿居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-09-14
Filing date: 2005-09-14
Publication date: 2011-08-17
Anticipated expiration: 2025-09-14
Also published as: JP2007079948A

Description

本発明は、カテゴリ付文書集合から専門用語を抽出する専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラムに関し、特に、１つの文書に対し複数のカテゴリが付与される文書集合からでも高い精度で専門用語の抽出が可能な専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラムに関する。

企業内で誰がどの技術、製品、顧客に詳しいといった社員の専門領域をデータベース化して検索できるような情報共有システムが求められている。このようなデータベースを人手で作成するのはコストが非常に高く、社内に大量に存在する報告文書や電子メール文書、Ｗｅｂ文書といった文書集合から自動でデータベースを構築できることが望ましい。そのためには、技術名、製品名、顧客名といった専門用語を文書から自動で抽出する技術が必要である。

そこで、カテゴリ付文書集合から専門用語を抽出する問題を考える。カテゴリ付文書とは、１つの文書に対して１つ以上のカテゴリが付与された文書を表し、例えば、その文書を記述した部門名や人物名が付与された報告書や、電子メールアドレスが付与された電子メール文書が該当する。また、例えば複数のカテゴリが付与される文書とは、複数の人物又は部門が共同して執筆した報告書や、宛先に複数のアドレスが指定された電子メール文書が該当する。

カテゴリ付文書から専門用語を抽出するには、少数のカテゴリと関連が深い用語を抽出すればよい。例えば、製品名、技術名、顧客名といった専門用語は、その専門用語が指す製品、技術、顧客を管理、担当する人や部門がある程度限られると考えられ、すなわち、専門用語を頻繁に用いるカテゴリの存在は少数であって、他のカテゴリではあまり用いられないと考えられる。従って、文書集合をとおして付与された全カテゴリに対して、少数のカテゴリにのみ関連が深い用語は専門用語である可能性が高いと考えられる。

少数のカテゴリと関連が深い用語を抽出する従来の方法として、カテゴリ数を用いる方法がある（例えば、非特許文献１参照。）。非特許文献１では、２つの分野のコーパスに対して、用語ｉが出現するカテゴリ数ＦＦ_ｉと総カテゴリ数Ｎを用いて用語ｉの重要度ＩＦＦ_ｉを計算し、その重要度ＩＦＦ_ｉに基づいて専門用語を抽出している。正確には、重要度ＩＦＦ_ｉを以下の式によって定義し、用語ｉが出現するカテゴリ数が少ないほど重要度が高くなるよう計算し、重要度ＩＦＦ_ｉが所定のしきい値以上の場合に専門用語と判定している。

重要度ＩＦＦ_ｉ＝ｌｏｇ（Ｎ／ＦＦ_ｉ）

すなわち、カテゴリ数を用いる方法は、専門用語らしさを示すスコアをカテゴリ数によって定義し、そのスコアに基づいて、出現カテゴリ数が少ない用語を専門用語と判定している。

また、特許文献１には、カテゴリ数を用いて用語を評価する方法を利用したカテゴリ別新出特徴語ランキング方法が記載されている。特許文献１に記載のカテゴリ別新出特徴語ランキング方法は、語句の出現カテゴリ数とカテゴリ別時間傾斜出現量に基づいてカテゴリ関連度を算出することにより、各カテゴリ内で特徴的な語であって、かつ最近登場するようになったタイムリーな用語を抽出する方法である。

また、少数のカテゴリと関連が深い用語を抽出する別の方法として、エントロピーを用いる方法がある。非特許文献２では、ある用語がどれくらい多くの文書に分散しているかを測定するためにエントロピーを用いる方法が記載されている。非特許文献１に記載の方法は、文書をカテゴリに置き換えて式を作成することにより今回の問題に適用可能である。つまり、用語のカテゴリに対する偏りをエントロピー関数を用いて計算し、計算した結果、偏りが大きい用語を専門用語として抽出することができる。すなわち、エントロピーを用いる方法では、専門用語らしさを示すスコアをエントロピーの値によって定義し、そのスコアに基づいて、偏りが大きい用語を専門用語と判定することができる。

また、少数のカテゴリと関連が深い用語を抽出するさらに別の方法として、カイ二乗値を用いる方法がある（例えば、非特許文献３参照。）。非特許文献３では、特定の分野を特色づける単語の見つけ方として、分野ごとに現れる全ての単語の出現頻度を求め、特定の分野にのみよく現れる単語を、ｘ^２分布による検定法の考え方を用いて調べる方法が記載されている。この方法によると、単語（用語）の分野（カテゴリ）に対する偏りをカイ二乗値を用いて計算し、偏りが大きい単語（用語）を特徴語（専門用語）として抽出することができる。すなわち、カイ二乗値を用いる方法では、専門用語らしさを示すスコアをカイ二乗値によって定義し、そのスコアに基づいて、偏りが大きい用語を専門用語と判定することができる。

図２０は、ある用語ＮＰの文書集合における分布を示した説明図である。図２０において、分布上の各点は用語ＮＰの出現を示し、各円は用語ＮＰが出現した文書に付与されたカテゴリを示している。また図２０では、用語ＮＰの各分布例において、カテゴリ数を用いた専門用語らしさを示すスコア（Ｓｃｏｒｅ１）と、エントロピーを用いた専門用語らしさを示すスコア（Ｓｃｏｒｅ２）と、カイ二乗値を用いた専門用語らしさを示すスコア（Ｓｃｏｒｅ３）とを示している。ここでは、カテゴリ数を用いたＳｃｏｒｅ１は、説明を単純にするためカテゴリ数をそのまま用いることとする。つまり、Ｓｃｏｒｅ１は、値が大きいほど偏りが小さく、値が小さいほど偏りが大きいことを表す。

図２０（ａ）は、カテゴリＣ１〜Ｃ８のいずれか１つのカテゴリが付与された文書集合における用語ＮＰの分布を例示している。図２０（ａ）に示す分布は、ある文書集合から用語ＮＰが総計１６回出現し、また、用語ＮＰがカテゴリＣ１〜Ｃ８の８つのカテゴリにおいて各２回出現したことを示している。つまり、用語ＮＰは、文書集合のうちカテゴリＣ１が付与された文書（１つ以上の文書）内から計２回、カテゴリＣ２〜Ｃ８が付与された文書内からそれぞれ計２回出現したことになる。この場合の専門用語らしさを示すスコアは、カテゴリ数を用いる方法ではＳｃｏｒｅ１＝８、エントロピーを用いる方法ではＳｃｏｒｅ２＝３、カイ二乗値を用いる方法ではＳｃｏｒｅ３＝０となる。

また、図２０（ｂ）は、カテゴリＣ１〜Ｃ９のいずれか１つのカテゴリが付与された文書集合における用語ＮＰの分布を例示している。図２０（ｂ）に示す分布は、ある文書集合から用語ＮＰが総計３２回出現し、また用語ＮＰは、全てカテゴリＣ１が付与された文書内から出現したことを示している。この場合の専門用語らしさを示すスコアは、カテゴリ数を用いる方法ではＳｃｏｒｅ１＝１、エントロピーを用いる方法ではＳｃｏｒｅ２＝０、カイ二乗値を用いる方法ではＳｃｏｒｅ３＝２５５．６８となる。

次に、エントロピーの計算方法について簡単に説明する。ここで、エントロピーとは、ある用語がどれくらい多くのカテゴリに分散しているかを示す値である。エントロピーは、下記式で定義され、値が大きいほどカテゴリに対する用語ＮＰの偏りが小さく、逆に、値が小さいほど、少ないカテゴリに用語ＮＰが偏って出現したことを表す。ここで、ｐ（Ｃ_ｊ｜ＮＰ）は、用語ＮＰのカテゴリＣ_ｊにおける出現確率であり、ｆ（Ｃ_ｊ｜ＮＰ）は、用語ＮＰのカテゴリＣ_ｊにおける出現頻度である。

図２０（ａ）に示す分布から割り出される用語ＮＰのエントロピーは、カテゴリＣ１〜Ｃ８の各カテゴリにおいて用語ＮＰがそれぞれ２回出現していることから、図２０（ａ）に示すＳｃｏｒｅ２（ＮＰ）の計算式となる。また、図２０（ｂ）に示す分布から割り出される用語ＮＰのエントロピーは、用語ＮＰがカテゴリＣ１で３２回、カテゴリＣ２〜Ｃ９で各０回出現していることから、図２０（ｂ）に示すＳｃｏｒｅ２（ＮＰ）の計算式となる。

次に、カイ二乗値の計算方法について簡単に説明する。ここで、カイ二乗値とは、カテゴリ毎の出現頻度が期待値からどの程度離れているかを示す値であって、期待値とは、「用語ＮＰの出現確率が全てのカテゴリを通じて等しい」と仮定したときの用語ＮＰの出現頻度である。カイ二乗値は、下記式で定義され、値が小さいほどカテゴリに対する用語ＮＰの偏りが小さく、逆に、値が大きいほど用語ＮＰが少ないカテゴリに偏って出現したことを表す。ここで、ｆ（Ｃ_ｊ｜ＮＰ）は、カテゴリＣ_ｊにおける用語ＮＰの出現頻度であり、Ｅ｛ｆ（Ｃ_ｊ｜ＮＰ）｝は、ｆ（Ｃ_ｊ｜ＮＰ）の期待値である。

図２０（ａ）に示す分布から割り出される用語ＮＰのカイ二乗値は、カテゴリＣ１〜Ｃ８の各カテゴリにおいて用語ＮＰがそれぞれ２回出現していること、期待値がＣ１〜Ｃ８における用語ＮＰの出現確率がどれも等しいとしてＥ｛ｆ（Ｃ_ｊ｜ＮＰ）｝＝（２×８）／８＝２となることから、図２０（ａ）に示すＳｃｏｒｅ３（ＮＰ）の計算式となる。また、図２０（ｂ）に示す分布から割り出される用語ＮＰのカイ二乗値は、用語ＮＰがカテゴリＣ１で３２回、カテゴリＣ２〜Ｃ９で各０回出現していること、期待値がＣ１〜Ｃ９における用語ＮＰの出現確率がとれも等しいとしてＥ｛ｆ（Ｃ_ｊ｜ＮＰ）｝＝３２／９＝３．５６となることから、図２０（ｂ）に示すＳｃｏｒｅ３（ＮＰ）の計算式となる。

特開２００５−１３５３１１号公報（段落００４４−００４６）内元清貴，関根聡，村田真樹，小作浩美，井佐原均，「異分野コーパスを用いた用語抽出」，Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition ，ｐ．４４４−４５０岸田和明，「情報検索の理論と技術」，勁草書房，ｐ．８４−８５長尾真，水谷幹男，池田浩之，「日本語文献における重要語の自動抽出」，情報処理，１９７６年，Ｖｏｌ．１７，Ｎｏ．２，ｐ．１１０−１１７

しかしながら、少数のカテゴリと関連が深い用語を抽出する従来の方法は、いずれも１つの文書に対して複数のカテゴリが付与される場合を想定しておらず、１つの文書に対して複数のカテゴリが付与される文書集合においては、少数のカテゴリと関連が深く専門用語となるべき用語であっても、専門用語らしさを示すスコアからは、偏りが小さく見積もられ、結果として専門用語とならない可能性がある。

ここで、図２０（ｃ）に示す分布を例にとる。図２０（ｃ）は、１つの文書に対してカテゴリＣ１〜Ｃ９のうち複数のカテゴリが付与された文書集合における用語ＮＰの分布を例示している。図２０（ｃ）に示す分布は、ある文書集合から用語ＮＰが総計３２回出現し、また、用語ＮＰがカテゴリＣ１〜Ｃ９の９つのカテゴリにおいて各８回出現したことを示している。つまり用語ＮＰは、文書集合のうちカテゴリＣ１が付与された文書（１つ以上の文書）内から計３２回、カテゴリＣ２〜Ｃ９が付与された文書内からはそれぞれ計８回出現したことになる。この例では、用語ＮＰが出現した文書には、少なくともカテゴリＣ１を含む複数のカテゴリが付与されていることがわかる。この場合の専門用語らしさを示すスコアは、カテゴリ数を用いる方法ではＳｃｏｒｅ１＝９、エントロピーを用いる方法ではＳｃｏｒｅ２＝２．９７２、カイ二乗値を用いる方法ではＳｃｏｒｅ３＝４７．９９となる。ちなみに、カイ二乗値を求める際の期待値Ｅ｛ｆ（Ｃ_ｊ｜ＮＰ）｝＝（３２＋８＊８）／９＝１０．６７である。

結果、いずれのスコアも、図２０（ｂ）に示すスコアと比べて偏りが小さく見積もられていることがわかる（Ｓｃｏｒｅ１，Ｓｃｏｒｅ２は値が大きく、Ｓｃｏｒｅ３は値が小さくなっている）。従って、専門用語か否かを判定するのに用いるしきい値によっては、分布（ｂ）では専門用語になるが、分布（ｃ）では専門用語とならない場合がある。しかし、分布（ｂ）も分布（ｃ）も、用語ＮＰが全てカテゴリＣ１に所属している点は同じであることから、用語ＮＰはカテゴリＣ１に深く関連していると解釈できるはずである。従って、（ｂ）と（ｃ）の結果が同じ程度になることが、精度の高い専門用語抽出のために必要である。

このように、従来の方法では、１つの文書に対して複数のカテゴリが付与される文書集合については考慮されておらず、無理に当てはめても、同一の文書を複数のカテゴリの頻度計算で使用することになり、正しい結果が得られない。つまり、用語ＮＰを含むある１つの文書に対してＣ１〜Ｃｎ（ｎは自然数）のｎ個のカテゴリが付与されるとすると、頻度計算上はｎ個の文書それぞれにＣ１〜Ｃｎのカテゴリが１つずつ付与されている場合と同じに扱われてしまい、１つの文書に付与されるカテゴリの数が多ければ多いほど、用語ＮＰが多くのカテゴリに偏りなく出現するという結果を導きだしてしまう。

本発明の目的は、１つの文書に対して複数のカテゴリが付与される文書集合に対しても高い精度で専門用語を抽出可能にすることである。

本発明における専門用語抽出装置は、１つの文書に対して１つ以上のカテゴリが付与されているカテゴリ付文書集合から専門用語を抽出する専門用語抽出装置であって、文書集合に含まれる文書内に出現する専門用語の候補となる単語列である候補単語列について、文書集合内におけるカテゴリ別の出現頻度であるカテゴリ別出現頻度を計算するカテゴリ別出現頻度計算手段と、カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列が専門用語か否かを判定し、判定結果に基づいて専門用語を抽出する専門用語抽出手段とを備え、カテゴリ別出現頻度計算手段は、候補単語列それぞれについて、カテゴリ別出現頻度が確定していないカテゴリおよび該カテゴリが付与されている文書を対象に、文書集合内における出現頻度であって１つの文書に出現した候補単語列がその文書に付与されたカテゴリの全てにおいて出現したとする出現頻度であるカテゴリ毎の出現頻度を算出し、算出されたカテゴリ毎の出現頻度に基づき１のカテゴリを選択して該カテゴリのカテゴリ別出現頻度を確定させる処理をカテゴリ別出現頻度が確定していないカテゴリが付与されている文書がなくなるまで繰り返すことによって、１つの文書につき１つのカテゴリのみを用いたカテゴリ別出現頻度を計算することを特徴とする。専門用語とは、例えば、少数のカテゴリと関連が深い用語である。

また、カテゴリ別出現頻度計算手段は、求めたカテゴリ毎の出現頻度に基づいて最大の出現頻度を持つ１のカテゴリを選択して該カテゴリのカテゴリ別出現頻度を確定させてもよい。

また、専門用語抽出手段は、カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列と各カテゴリとの関連の度合いを示すカテゴリ関連指数を計算するカテゴリ関連指数計算手段と、関連指数計算手段が計算したカテゴリ関連指数に基づいて、該候補単語列が専門用語か否かを判定する専門用語判定手段とを有していてもよい。カテゴリ関連指数とは、例えば、用語がどれくらい多くのカテゴリに分散しているかを示すエントロピーや、用語のカテゴリ別出現頻度が期待値からどの程度離れているかを示すカイ二乗値、所定の出現割合に達するに必要な最小のカテゴリ数を示すカテゴリ数の最小値、所定のカテゴリ数において最大の出現割合を示す出現割合の最大値である。

また、カテゴリ別出現頻度計算手段は、専門用語の候補となる単語列である候補単語列のカテゴリ別出現頻度を計算し、専門用語抽出手段は、カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、候補単語列がどれくらい多くのカテゴリに分散しているかを示すエントロピーを計算し、前記エントロピーが所定のしきい値以下である場合に、該候補単語列を専門用語と判定するエントロピー計算手段とを有していてもよい。

また、カテゴリ別出現頻度計算手段は、専門用語の候補となる単語列である候補単語列のカテゴリ別出現頻度を計算し、専門用語抽出手段は、カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、候補単語列のカテゴリ別出現頻度が期待値からどの程度離れているかを示すカイ二乗値を計算し、前記カイ二乗値が所定のしきい値以上である場合に、該候補単語列を専門用語と判定するカイ二乗値計算手段を有していてもよい。

また、カテゴリ別出現頻度計算手段は、専門用語の候補となる単語列である候補単語列のカテゴリ別出現頻度を計算し、専門用語抽出手段は、カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列の総出現頻度に対する出現割合が所定のしきい値ｍ１以上になるために必要な最小のカテゴリ数を示すカテゴリ数の最小値を計算し、前記カテゴリ数の最小値が所定のしきい値ｎ１以下である場合に、該候補単語列を専門用語と判定するカテゴリ数計算手段を有していてもよい。

また、カテゴリ別出現頻度計算手段は、専門用語の候補となる単語列である候補単語列のカテゴリ別出現頻度を計算し、専門用語抽出手段は、カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、候補単語列のカテゴリ数が所定のしきい値ｍ２以下となる総出現頻度に対する最大の出現割合を示す出現割合の最大値を計算し、前記出現割合の最大値が所定のしきい値ｎ２以上である場合に、該候補単語列を専門用語と判定する出現割合計算手段を有していてもよい。

また、本発明における専門用語抽出装置は、カテゴリ付文書集合から単語列を抽出し、抽出した各単語列に対する文書毎の出現頻度を単語列に対応づけて示す出現頻度索引と、各文書に付与されているカテゴリの種類を文書に対応づけて示すカテゴリ索引とを作成する索引作成手段と、前記索引作成手段が抽出した単語列の中から、所定の条件に合致する単語列を専門用語の候補である候補単語列として選定する候補単語列選定手段とを備え、カテゴリ別出現頻度算出手段は、前記候補単語列選定手段が選定した候補単語列それぞれについて、索引作成手段が作成した索引を用いてカテゴリ別出現頻度を算出してもよい。

また、本発明における専門用語抽出装置は、専門用語抽出手段によって抽出された専門用語を保存する専門用語記憶手段を備えていてもよい。

また、本発明における専門用語抽出方法は、１つの文書に対して１つ以上のカテゴリが付与されているカテゴリ付文書集合から専門用語を抽出する専門用語抽出方法であって、コンピュータが、文書集合に含まれる文書内に出現する専門用語の候補となる単語列である候補単語列それぞれについて、文書集合内におけるカテゴリ別の出現頻度であるカテゴリ別出現頻度が確定していないカテゴリおよび該カテゴリが付与されている文書を対象に、文書集合内における出現頻度であって１つの文書に出現した候補単語列がその文書に付与されたカテゴリの全てにおいて出現したとする出現頻度であるカテゴリ毎の出現頻度を算出し、算出されたカテゴリ毎の出現頻度に基づき１のカテゴリを選択して該カテゴリのカテゴリ別出現頻度を確定させる処理をカテゴリ別出現頻度が確定していないカテゴリが付与されている文書がなくなるまで繰り返すことによって、１つの文書につき１つのカテゴリのみを用いたカテゴリ別出現頻度を計算し、計算した候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列が専門用語か否かを判定し、判定結果に基づいて専門用語を抽出することを特徴とする。

本発明における専門用語抽出プログラムは、１つの文書に対してカテゴリが付与されているカテゴリ付文書集合から専門用語を抽出するための専門用語抽出プログラムであって、コンピュータに、文書集合に含まれる文書内に出現する専門用語の候補となる単語列である候補単語列それぞれについて、文書集合内におけるカテゴリ別の出現頻度であるカテゴリ別出現頻度が確定していないカテゴリおよび該カテゴリが付与されている文書を対象に、文書集合内における出現頻度であって１つの文書に出現した候補単語列がその文書に付与されたカテゴリの全てにおいて出現したとする出現頻度であるカテゴリ毎の出現頻度を算出し、算出されたカテゴリ毎の出現頻度に基づき１のカテゴリを選択して該カテゴリのカテゴリ別出現頻度を確定させる処理をカテゴリ別出現頻度が確定していないカテゴリが付与されている文書がなくなるまで繰り返すことによって、１つの文書につき１つのカテゴリのみを用いたカテゴリ別出現頻度を計算するカテゴリ別出現頻度計算処理、およびカテゴリ別出現頻度計算処理で計算した候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列が専門用語か否かを判定し、判定結果に基づいて専門用語を抽出する専門用語抽出処理を実行させることを特徴とする。

本発明によれば、１つの文書に複数のカテゴリが付与される文書集合に対しても、候補単語列それぞれについて算出したカテゴリ毎の出現頻度に基づき１のカテゴリを選択してカテゴリ別出現頻度を計算するので、１つの文書が複数のカテゴリの頻度計算に重複されることを防ぐことができ、従って、高い精度で専門用語を抽出可能である。

また、上記条件に基づいて計算するカテゴリ別出現頻度は、カテゴリ数による判定だけでなくエントロピーや、カイ二乗値、出現頻度による判定に用いることが可能であり、従来あるような文書集合から所定の用語の特徴量を抽出する技術にも適用可能である。

実施の形態１．
以下、本発明の実施の形態を図面を参照して説明する。図１は、本発明による専門用語抽出装置の構成例を示すブロック図である。図１に示す専門用語抽出装置は、プログラムに従って動作するデータ処理装置１（例えば、ＣＰＵ）と、情報を記憶する記憶装置２とを含む。専門用語抽出処理装置は、例えばパーソナルコンピュータである。データ処理装置１は、索引作成手段１０と、専門用語候補作成手段１１と、カテゴリ別頻度計算手段１２と、エントロピー計算手段１３とを備える。記憶装置２は、カテゴリ付文書記憶部２０と、索引記憶部２１と、専門用語候補記憶部２２と、カテゴリ別頻度記憶部２３と、専門用語記憶部２４とを備える。

カテゴリ付文書記憶部２０は、カテゴリが付与された文書群（文書集合）を保存する。以下、カテゴリが付与された文書をカテゴリ付文書という。ここで、カテゴリ付文書とは、１つの文書に１つ以上のカテゴリが付与された文書である。例えば、それを記述した部門名や人物名が付与された報告書や、電子メールアドレスが付与された電子メール文書が該当するが、特にこれらに限定したものではない。また、複数のカテゴリが付与される文書とは、例えば、複数の人物又は部門が共同して執筆した報告書や、宛先に複数のアドレスが指定された電子メール文書が該当する。図２は、カテゴリ付文書記憶部２０が記憶するカテゴリ付文書群を例示した説明図である。本実施の形態における専門用語抽出装置は、例えば、図２に示すカテゴリ付文書から「製品名」「技術名」「開発物」「機能名」「顧客名」といった用語を専門用語として抽出するために用いられる。なお、抽出する専門用語は、上記の用語に限定されず、あるカテゴリ（技術領域など）の専門家によって使用される用語であって、あくまで与えられた文書集合とカテゴリから決定されるものである。なお、日本語の文書を例にして説明するが、日本語に限定されず、専門用語抽出装置は、英語等の他の言語にも適用可能である。

カテゴリ付文書記憶部２０は、カテゴリ付文書群を、例えば図２（ａ）に示すように、文書ＩＤと文書内容とカテゴリとに対応づけて記憶してもよい。文書ＩＤとは、文書を識別するためのＩＤであって、１つの文書に対して１つのＩＤが与えられる。図２（ａ）は、カテゴリ付文書群として文書Ｄ１〜Ｄ９の９文書を記憶し、例えば文書Ｄ１にはカテゴリＣ１，Ｃ２，Ｃ３，Ｃ４が付与されていること等を示している。

索引作成手段１０は、カテゴリ付文書記憶部２０に記憶されたカテゴリ付文書を解析して単語列を抽出し、抽出した各単語列に対する文書毎の出現頻度と、各文書に付与されたカテゴリの種類を索引テーブルとして作成する。また、索引作成手段１０は、作成した索引テーブルを索引記憶部２１に保存する。ここで、単語列とは、文書を形態素解析して切り出した特定の品詞を持つ単語又は単語列を意味する。形態素解析とは、文を単語の単位に分割し、それぞれの単語に品詞情報を付与する手段である。例えば「情報検索を開始」という文を形態素解析するの入力とした場合、”単語”＝品詞、”情報”＝名詞、”検索”＝形容動詞語幹、”を”＝助詞、”開始”＝名詞といった結果が出力される。また、特定の品詞とは、名詞、形容動詞、サ変名詞、未知語が該当する。例えば上記文では、「情報＋検索」及び「開始」が単語列となる（＋は形態素の区切りの印を示す）。また、例えば図２（ａ）に示す文書では、「Ｅｘｐｒｅｓｓ＋サーバ」「ＮＥＣ（登録商標）」「水冷＋システム」「Ｗｅｂ＋発売」「電子＋カルテシステム」「特別＋保守＋サービス」「ＶａｌｕｅＳｔａｒ（登録商標）」「ＢＩＧＬＯＢＥ（登録商標）」の８つの単語列が含まれていることを示している。以下、この８つの単語列を順にＮＰ１〜ＮＰ８に置き換えて説明する。図２（ｂ）は、単語列をＮＰ１〜８の表記（表現ＩＤ）に置き換えた説明図であり、図２（ｃ）は、置き換えた関係を示す説明図である。

索引記憶部２１は、索引作成手段１０が作成した索引テーブルを記憶する。図３は、索引記憶部２１が記憶する索引テーブルを例示した説明図である。図３（ａ）が、単語列ＮＰ１〜ＮＰ８の文書毎の出現頻度を記憶する出現頻度索引テーブルの例であり、図３（ｂ）が、各文書毎のカテゴリの種類を記憶するカテゴリ索引テーブルの例である。また図３に示す索引テーブルは、図２に示すカテゴリ付文書群に対して索引テーブルを作成し、索引記憶部２１に記憶した結果例である。出現頻度索引テーブルは、例えば図３（ａ）に示すように、単語列と抽出元文書ＩＤと出現回数（頻度）とに対応づけて記憶してもよい。なお、図３（ａ）には、単語列を表現ＩＤに置き換えて記憶した例が示されている。カテゴリ索引テーブルは、例えば図３（ｂ）に示すように、文書ＩＤとカテゴリとを対応づけて記憶してもよい。

専門用語候補作成手段１１は、索引作成手段１０が抽出して出現頻度索引テーブルに登録した単語列のうち専門用語候補として適切な単語列を候補単語列として選定する。また、専門用語候補作成手段１１は、選定した候補単語列を専門用語候補記憶部２２に保存する。ここで、専門用語候補として適切な単語列とは、例えば２単語以上から構成される単語列が該当するが、この限りではなく、すべての単語列を適切な単語列として選定してもよい。専門用語候補記憶部２２は、専門用語候補作成手段１１が選定した候補単語列を記憶する。図４は、候補単語列の記憶例を示す説明図である。なお、図４は、図３（ａ）に示す出現頻度索引テーブルに登録されている単語列から全ての単語列（ＮＰ１〜ＮＰ８）を候補単語列として選定した例を示している。

カテゴリ別頻度計算手段１２は、専門用語候補作成手段１１が選定した候補単語列それぞれについて、１文書に複数のカテゴリが付与されている場合でもその中の一つのカテゴリのみを出現頻度の計算に用いるという条件の下で、カテゴリ別出現頻度を算出する。カテゴリ別頻度記憶部２３は、カテゴリ別頻度計算手段１２が算出した候補単語列それぞれのカテゴリ別出現頻度を記憶する。図５は、カテゴリ別出現頻度の記憶例を示す説明図である。図５に示すカテゴリ別出現頻度は、例えば候補単語列ＮＰ１が、カテゴリＣ１で３回、カテゴリＣ４で１回、その他のカテゴリで０回の計４回出現したこと等を示している。また、図５は、図４に示す候補単語列から図３に示す索引テーブルを参照して、カテゴリ別出現頻度を算出し、カテゴリ別頻度記憶部２３に記憶した結果例である。

エントロピー計算手段１３は、カテゴリ別頻度計算手段１２が算出した各候補単語列のカテゴリ別出現頻度に基づいて各候補単語列のエントロピーを計算し、計算したエントロピーに基づいて各候補単語列が専門用語であるか否かを判定する。また、エントロピー計算手段１３は、専門用語と判定した候補単語列を、抽出結果である専門用語として専門用語記憶部２４に記憶する。図６は、エントロピーの計算結果及び専門用語の判定結果の一例を示す説明図である。図６は、候補単語列ＮＰ４を除く他の候補単語列ＮＰ１〜ＮＰ３，ＮＰ５〜ＮＰ８が専門用語として抽出されたことを示している。

次に、図７を参照してカテゴリ別頻度計算手段１２が行う候補単語列のカテゴリ別出現頻度の算出方法について説明する。図７は、カテゴリ別出現頻度の算出方法を説明する説明図である。カテゴリ別出現頻度は、「１つの文書に複数のカテゴリが付与される場合でもその中の１つのカテゴリのみを出現頻度の起算に用いる」という条件に基づいて求める。ここでは、カテゴリ付文書群として、図２に示す文書群を例にし、候補単語列ＮＰ１についてのカテゴリ別出現頻度の計算方法について説明する。

カテゴリ別出現頻度の計算は、まず、与えられた文書群に付与された全てのカテゴリ及び候補単語列ＮＰ１が出現した全ての文書を認識することから行う。カテゴリの認識は、例えば、図３（ｂ）に示すようなカテゴリ索引テーブルを参照し、各文書に付与されたカテゴリを読み出し、重複しないよう記憶することで認識できる。以下、文書群に対して付与されたカテゴリの全種類を記憶した記憶領域をカテゴリバッファという。また、文書の認識は、例えば、図３（ａ）に示すような出現頻度索引テーブルを参照し、候補単語列ＮＰ１に対応づけられた文書ＩＤを読み出し、記憶することで認識できる。以下、所定の候補単語列について、その候補単語列が出現した全文書ＩＤを記憶した記憶領域を文書バッファという。なお、本実施の形態において、カテゴリバッファおよび文書バッファという表現を用いる場合には、その記憶領域に記憶された記憶内容を含めて指す場合もある。図７（ａ）に示す例では、文書集合に付与されたカテゴリとしてカテゴリＣ１〜Ｃ９、候補単語列ＮＰ１が出現した文書として文書Ｄ１，Ｄ２，Ｄ３を認識したことを示している。

次に、候補単語列のカテゴリ毎の出現頻度を求める。カテゴリ毎の出現頻度とは、１つ文書に出現した候補単語列がその文書に付加されたカテゴリ全てにおいて出現したとする出現頻度である。例えば、候補単語列ＮＰ１が出現した文書それぞれについて、その文書に付与されたカテゴリを読み出し、それぞれのカテゴリにおける出現回数に、その文書における候補単語列の出現回数を加算していくことで求めることができる。つまり、図３（ａ），（ｂ）に示す例のように、候補単語列ＮＰ１が２回出現する文書Ｄ１には４つのカテゴリ（Ｃ１，Ｃ２，Ｃ３，Ｃ４）が付与されていることから、カテゴリＣ１，Ｃ２，Ｃ３，Ｃ４における出現頻度にそれぞれ２回を加算する。文書Ｄ１についてカテゴリ毎の出現頻度を求めた段階では、カテゴリＣ１＝Ｃ２＝Ｃ３＝Ｃ４＝２となる。同様の動作を候補単語列ＮＰ１が出現した全ての文書（Ｄ１，Ｄ２，Ｄ３）について行うことによって、最終的には図７（ｂ）のＡＬＬで示すように、カテゴリ毎の出現頻度は、カテゴリＣ１＝３，Ｃ２＝２，Ｃ３＝３，Ｃ４＝３，Ｃ５＝１，Ｃ６＝Ｃ７＝Ｃ８＝０と求まる。これは、例えばカテゴリＣ１が付与された文書内から候補単語ＮＰ１が３回出現したことを示している。

次に、カテゴリ別出現頻度の起算に用いるカテゴリを１つに選択する。カテゴリの選択は、上記で求めたカテゴリ毎の出現頻度に基づいて最大の出現頻度を持つカテゴリを選択してもよい。または、専門性の高いカテゴリをあらかじめ重み付けしておき、重みに応じて定まる優先度に応じて選択することも可能である。ここでは、最大の出現頻度を持つカテゴリを選択する場合を例にとって説明する。ここで、同じ出現頻度を持つカテゴリが複数存在する場合は、どのカテゴリを選択してもよい。どのカテゴリを選択したとしても、専門用語の抽出精度に大きく影響しないからである。選択したカテゴリ及びその出現頻度は、カテゴリ別出現頻度として確定する。図７（ｂ）の例において出現頻度が最大であるＣ１，Ｃ３，Ｃ４からＣ１を選択した場合には、候補単語列ＮＰ１についてのカテゴリ別出現頻度として、カテゴリＣ１＝３が確定する。

次に、確定したカテゴリの出現頻度に用いた候補単語列を、他のカテゴリの出現頻度に用いないよう、出現頻度の算出対象から削除する。出現頻度の算出対象から削除するには、確定したカテゴリに基づいてカテゴリバッファおよび文書バッファを編集することによって実現できる。具体的は、カテゴリバッファから確定したカテゴリを削除し、削除したカテゴリが付与された文書を文書バッファから削除することで実現できる。例えば、カテゴリバッファから確定したカテゴリＣ１を削除すると、カテゴリバッファには、図７（ｃ）に示すように、カテゴリＣ２〜Ｃ９が残る。続いて、カテゴリＣ１が付与された文書Ｄ１，Ｄ２を文書バッファから削除すると、文書バッファには、文書Ｄ３が残る。その上で、カテゴリ別出現頻度に用いたカテゴリ及び文書を削除した残りのカテゴリ及び文書を対象に、出現頻度の算出対象となるカテゴリまたは文書がなくなるまで同様のカテゴリ別出現頻度の選択（確定）動作を繰り返す。つまり、カテゴリバッファのカテゴリ毎に文書バッファの文書内での候補単語列のカテゴリ毎の出現頻度を、カテゴリバッファまたは文書バッファが空になるまで求め、求めたカテゴリ毎の出現頻度に基づいてカテゴリ別出現頻度を確定する動作を繰り返す。なお、出現頻度の算出対象となる文書がなくなった場合は、選択されず残ったカテゴリのカテゴリ別出現頻度を０とする。

図７（ｄ）に示す例では、カテゴリバッファ及び文書バッファを編集した結果、文書バッファにはＤ３しか残っていないため、文書Ｄ３について求めたカテゴリ毎の出現頻度、カテゴリＣ４＝Ｃ５＝１，Ｃ２＝Ｃ３＝Ｃ６＝Ｃ７＝Ｃ８＝Ｃ９＝０が２回目のカテゴリ毎の出現頻度となる。ここでも新たに求めたカテゴリ毎の出現頻度を参照し、最大の出現頻度を持つカテゴリを選択し、選択したカテゴリ及びその出現頻度をカテゴリ別出現頻度として確定する。図７（ｄ）の例において出現頻度が最大であるＣ４，Ｃ５からＣ４を選択した場合を例にとると、この段階では、候補単語列ＮＰ１についてのカテゴリ別出現頻度として、カテゴリＣ１＝３，Ｃ４＝１が確定したことになる。つづいて、図７（ｅ）に示すように、カテゴリＣ４をカテゴリバッファから削除し、カテゴリＣ４が付加された文書Ｄ３を文書バッファから削除する。この時点で、文書バッファが空になるので、残ったカテゴリＣ２，Ｃ３，Ｃ５〜Ｃ９のカテゴリ別出現頻度を０に確定する。以上の方法によって、「１つの文書に複数のカテゴリが付与される場合でもその中の１つのカテゴリのみを出現頻度の起算に用いる」という条件に合致した候補単語列ＮＰ１についてのカテゴリ別出現頻度を求める。カテゴリ別頻度計算手段１２は、同様の動作を全ての候補単語列に対して行う。

次に、エントロピー計算手段１３が行うエントロピーの計算方法、専門用語の判定方法について説明する。エントロピー計算手段１３は、エントロピーを以下の式で定義する。ここで、ｐ（Ｃ_ｊ｜ＮＰ_ｉ）は、用語ＮＰ_ｉのカテゴリＣ_ｊにおける出現確率であり、ｆ（Ｃ_ｊ｜ＮＰ_ｉ）は、用語ＮＰ_ｊのカテゴリＣ_ｉにおける出現頻度である（ｊはカテゴリの種類を示す自然数、ｉは候補単語列の種類を示す自然数である。）。エントロピーが大きいほどカテゴリに対する候補単語列の分散（ばらつき）が大きく、逆にエントロピーが小さいほど、少ないカテゴリに候補単語列が偏って出現していることを表す。以下式によって求めるＥｎｔｏｒｐｙ（ＮＰ_ｉ）の値を、Ｓｃｏｒｅ２（ＮＰｉ）と表現する場合がある。

図６（ａ）は、図５に示すカテゴリ別出現頻度に対してエントロピーを計算した結果を示している。専門用語の判定方法は、計算したエントロピーが所定のしきい値以下である場合に、専門用語であると判定してもよい。ここで、しきい値を０．９５と仮定すると、エントロピー計算手段１３は、エントロピーが０．９５以下である候補単語列を専門用語と判定することができる。図６（ａ）に示す例では、候補単語列ＮＰ１〜ＮＰ３，ＮＰ５〜ＮＰ８が専門用語であると判定される。図６（ｂ）は、抽出結果である専門用語を記憶した専門用語記憶部２４の記憶例を示す説明図である。

次に、本実施の形態における専門用語抽出装置の動作について説明する。図８は、専門用語抽出装置の動作例を示すフローチャートである。ここでは、動作をわかりやすく説明するために、カテゴリ付文書群として図２に示す文書群がカテゴリ付文書記憶部２０に記憶されている場合を例にする。

まず、索引作成手段１０は、カテゴリ付文書記憶部２０に記憶されたカテゴリ付文書を解析して、文書内に出現する各単語列に対する文書毎の出現頻度と、各文書に付与されたカテゴリの種類とを導出し、導出した結果に基づいて、索引を作成する（ステップＳ１）。ここで、索引とは、出現頻度索引テーブル及びカテゴリ索引テーブルを指し、具体的には、文書群を解析した結果抽出された単語列全てについて、各文書の出現回数を単語列に対応させて示す索引、及び各文書にどのカテゴリが付与されているかを文書に対応させて示す索引である。また例えば、文書の解析は形態素解析を用いて行い、単語列の抽出は特定の品詞に基づく抽出を用いて行う。索引作成手段１０は、作成した索引を索引テーブルとして索引記憶部２１に記憶する。

次に、専門用語候補作成手段１１は、索引作成手段１０が抽出した単語列の中から専門用語として適切な単語列を候補単語列として選定する（ステップＳ２）。専門用語候補作成手段１１は、選定した候補単語列を専門用語候補記憶部２２に記憶する。専門用語として適切な単語列として、例えば２単語以上から構成される単語列を選定してもよい。また、全ての単語列を選定してもよい。

次に、カテゴリ別頻度計算手段１２は、専門用語候補作成手段１１が選定した候補単語列それぞれについて、カテゴリ別出現頻度を算出する（ステップＳ３）。カテゴリ別頻度計算手段１２は、算出したカテゴリ別出現頻度をカテゴリ別頻度記憶部２３に記憶する。カテゴリ別出現頻度の算出方法は、前述のように、「１文書に複数のカテゴリが付与されている場合でもその中の１つのカテゴリのみを出現頻度の計算に用いる」という条件に基づいて算出する。カテゴリ別頻度計算手段１２が行うカテゴリ別出現頻度の算出動作の詳細については、図９を用いて後述する。

次に、エントロピー計算手段１３は、カテゴリ別頻度計算手段１２が算出したカテゴリ別出現頻度に基づいて、各候補単語列のエントロピーを算出する（ステップＳ４）。エントロピー計算手段１３は、算出した各候補単語列のエントロピーに基づいて、各候補単語列が専門用語か否かを判定し（ステップＳ５）、専門用語と判定した候補単語列を専門用語記憶部２４に記憶する。候補単語列が専門用語か否かの判定は、エントロピーが所定のしきい値以下である場合に専門用語と判定し、それ以外の場合は一般用語と判定することによって行う。以上の動作を全ての候補単語列に対して行った結果、専門用語記憶部２４に記憶された単語列が、カテゴリ付文書群から抽出された専門用語である。

次に、図９のフローチャートを参照して、カテゴリ別頻度計算手段１２が行うカテゴリ別出現頻度の算出動作について説明する。図９は、カテゴリ別出現頻度の算出動作例を示すフローチャートである。まず、カテゴリ別頻度計算手段１２は、専門用語候補作成手段１１が選定した候補単語列の集合から、１つ候補単語列を選択する（ステップＳ３１）。カテゴリ別頻度計算手段１２は、例えば、図４に示すような専門用語候補記憶部２２に記憶された候補単語列からＮＰ１を選択する。なお、この選び方の順序は任意である。

次に、カテゴリ別頻度計算手段１２は、ステップＳ３１で選択した候補単語列に関するカテゴリバッファ及び文書バッファを作成する（ステップＳ３２）。例えば、カテゴリ別頻度計算手段１２は、記憶部上に所定の記憶領域をカテゴリバッファおよび文書バッファとして確保し、確保した各記憶領域にカテゴリバッファとして記憶すべきカテゴリの情報および文書バッファとして記憶すべき文書の情報を記憶する。以下、候補単語列として、ＮＰ１を選択した場合を例にする。カテゴリ別頻度計算手段１２は、例えば、図３（ｂ）に示すようなカテゴリ索引テーブルを参照し、各文書に付与されたカテゴリを読み出し、重複しないようカテゴリを記憶することでカテゴリバッファを作成してもよい。また例えば、図３（ａ）に示すような出現頻度索引テーブルを参照し、候補単語列ＮＰ１が出現した文書ＩＤを読み出し、重複しないよう文書ＩＤを記憶することで文書バッファを作成してもよい。例えば、図２に示す文書集合からは、候補単語列ＮＰ１について、カテゴリＣ１〜Ｃ９を記憶するカテゴリバッファおよび文書Ｄ１，Ｄ２，Ｄ３を記憶する文書バッファが作成される。なお、この時点で作成されるカテゴリバッファの記憶内容は各候補単語列に共通である。

次に、カテゴリ別頻度計算手段１２は、索引記憶部２１に記憶された索引（出現頻度索引テーブル及びカテゴリ索引テーブ）を参照して、カテゴリバッファにあるカテゴリ毎に文書バッファにある文書内での候補単語列の出現頻度を求める（ステップＳ３３）。カテゴリ別頻度計算手段１２は、例えば、文書バッファに記憶された各文書（候補単語列ＮＰ１が出現した各文書）について、その文書に付与されたカテゴリを読み出し、それぞれのカテゴリにそれぞれのカテゴリにおける出現回数に、その文書における候補単語列の出現回数を加算していくことで求めてもよい。例えば、図７（ａ）に示すカテゴリバッファ及び文書バッファからは、図７（ｂ）に示すカテゴリ毎の候補単語列ＮＰ１の出現頻度（Ａｌｌ）が求まる。図７（ｂ）は、例えばカテゴリＣ１が付与されている文書バッファにある文書内で候補単語列ＮＰ１が３回出現したことを示している。

次に、カテゴリ別頻度計算手段１２は、ステップＳ３３で求めたカテゴリ毎の出現頻度を参照して、最大の出現頻度を持つカテゴリを選択し、そのカテゴリの出現頻度をカテゴリ別出現頻度として出力する（ステップＳ３４）。カテゴリ別頻度計算手段１２は、出力したカテゴリ別出現頻度をカテゴリ別頻度記憶部２３に記憶する。ここで、カテゴリ毎の出現頻度が同じカテゴリが複数存在する場合は、どのカテゴリを選択してもよい。例えば、図７（ｂ）で示すカテゴリ毎の出現頻度の場合には、出現頻度が最大であるカテゴリＣ１，Ｃ３，Ｃ４のうち、どれを選択してもよい。ここで、例えばカテゴリＣ１を選択した場合には、カテゴリＣ１のカテゴリ別出現頻度＝３が確定したものとしてカテゴリ別頻度記憶部２３に記憶される。

次に、カテゴリ別頻度計算手段１２は、ステップＳ３４の選択動作に基づいて、カテゴリバッファと文書バッファを編集する（ステップＳ３５）。具体的には、選択したカテゴリをカテゴリバッファから削除し、文書バッファから選択したカテゴリが付与された文書ＩＤを削除する。この動作は、一度カテゴリ別出現頻度に登録された単語列を他のカテゴリのカテゴリ別出現頻度に用いないようにするためのである。例えば、図７（ｂ）に示すカテゴリ毎の出現頻度からカテゴリＣ１を選択した場合には、カテゴリバッファからカテゴリＣ１を削除し、カテゴリＣ１が付与された文書Ｄ１，Ｄ２を文書バッファから削除する。結果、図７（ｃ）に示すように、カテゴリバッファにはＣ２〜Ｃ９，文書バッファにはＤ３が残る。

ここで、カテゴリバッファと文書バッファのいずれかが空の場合（ステップＳ３６のＹｅｓ）は、ステップＳ３７に進む。そうでない場合（ステップＳ３６のＮｏ）は、編集したカテゴリバッファ及び文書バッファの記憶内容に基づいて、再度カテゴリバッファにあるカテゴリ毎に文書バッファにある文書内での候補単語列の出現頻度を求める（ステップＳ３３に戻る）。図７（ｃ）の例では、カテゴリバッファ、文書バッファとも空ではないため、カテゴリ毎の出現頻度を図７（ｄ）のように求める（ステップＳ３３）。次に、最大の出現頻度を持つカテゴリＣ４を選択し、カテゴリＣ４のカテゴリ別出現頻度＝１をカテゴリ別出現頻度として出力する（ステップＳ３４）。なお、最大の出現頻度を持つカテゴリとしてカテゴリＣ５を選択してもよい。次に、ステップＳ３４の選択動作に基づいて、カテゴリバッファと文書バッファを編集する（ステップＳ３５）。ここで、図７（ｅ）に示すように、文書バッファが空になったため、次のステップＳ３７へ進む。

カテゴリバッファと文書バッファのいずれかが空の場合（ステップＳ３６のＹｅｓ）は、未確定のカテゴリ（カテゴリバッファに残ったカテゴリ）のカテゴリ別出現頻度を０として出力する（ステップＳ３７）。図７（ｅ）の例では、カテゴリ別頻度計算手段１２は、カテゴリＣ２〜Ｃ９＝０をカテゴリ別頻度記憶部２３に記憶する。以上の動作によって、候補単語列ＮＰ１についてのカテゴリ別出現頻度の算出は完了する。次に、カテゴリ別頻度計算手段１２は、専門用語の候補としてあげられている候補単語列のうち、未選択の候補単語列が存在する場合（ステップＳ３８のＹｅｓ）には、その中から新たな候補単語列を１つ選択し（ステップＳ３１に戻る）、選択した候補単語列について、候補単語列ＮＰ１と同様にカテゴリ別出現頻度の算出動作を行う（ステップＳ３２〜Ｓ３７）。ここで、全ての候補単語列についてカテゴリ別出現頻度の算出を終えた場合、つまり、ステップＳ３１において全ての候補単語列を選択し終え、未選択の候補単語列が存在しない場合（ステップＳ３８のＮｏ）は、カテゴリ別頻度計算手段１２が行うカテゴリ別出現頻度の算出動作は完了する。この後は、前述したように、エントロピー計算手段１３が各候補単語列のエントロピーの算出動作を行う（ステップＳ４）。

以上のように、本実施の形態によれば、各文書に付与された１つ以上のカテゴリのうち、１つのカテゴリのみを用いてカテゴリ別出現頻度を算出することによって、１つの文書に複数のカテゴリが付与されうる文書集合に対しても、高い精度でエントロピーに基づく専門用語抽出を可能にする。例えば、図２０（ｃ）に示す分布において、カテゴリ別頻度記憶部２３が算出するカテゴリ別算出頻度は、図２０（ｂ）と同一の結果（Ｃ１＝３２，Ｃ２〜Ｃ９＝０）となる。従って、カテゴリ別出現頻度に基づいて計算されるエントロピーは、（ｂ）と（ｃ）とで同一のＳｃｏｒｅ２（ＮＰ）＝０となり、専門用語の抽出結果に差異が生じない。また、専門用語か否かの判定に用いるしきい値が１つですむ点は、後述の第３，４の実施の形態に比べて優位性がある。

なお、本実施の形態において、カテゴリ別出現頻度計算手段は、カテゴリ別頻度計算手段１２によって実現される。専門用語抽出手段、カテゴリ関連指数計算手段、専門用語判定手段およびエントロピー計算手段は、エントロピー計算手段１３によって実現される。カテゴリ別出現頻度記憶部は、カテゴリ別頻度記憶部２３によって実現される。索引作成手段は、索引作成手段１０によって実現される。候補単語列選定手段は、専門用語候補作成手段１１によって実現される。

実施の形態２．
以下、本発明の第２の実施の形態を図面を参照して説明する。図１０は、第２の実施の形態における専門用語抽出装置の構成例を示すブロック図である。図１０に示す専門用語抽出装置は、第１の実施の形態と同様、プログラムに従って動作するデータ処理装置１（例えば、ＣＰＵ）と、情報を記憶する記憶装置２とを含む。データ処理装置１は、索引作成手段１０と、専門用語候補作成手段１１と、カテゴリ別頻度計算手段１２と、カイ二乗値計算手段１４とを備える。記憶装置２は、カテゴリ付文書記憶部２０と、索引記憶部２１と、専門用語候補記憶部２２と、カテゴリ別頻度記憶部２３と、専門用語記憶部２４とを備える。図１に示した第１の実施の形態と比べて、エントロピー計算手段１３がカイ二乗値計算手段１４に変わっている点が異なる。なお、カイ二乗値計算手段１４以外は、第１の実施の形態と同様である。

カイ二乗値計算手段１４は、カテゴリ別頻度計算手段１２が算出した各候補単語列のカテゴリ別出現頻度に基づいて各候補単語列のカイ二乗値を計算し、計算したカイ二乗値に基づいて各候補単語列が専門用語であるか否かを判定する。また、カイ二乗値計算手段１４は、専門用語と判定した候補単語列を、抽出結果である専門用語として専門用語記憶部２４に記憶する。

次に、カイ二乗値計算手段１４が行うカイ二乗値の計算方法、専門用語の判定方法について説明する。カイ二乗値計算手段１４は、カイ二乗値を以下の式で定義する。ここで、ｆ（Ｃ_ｊ｜ＮＰ_ｉ）は、カテゴリＣ_ｊにおける候補単語列ＮＰ_ｉの出現頻度を、Ｅ｛ｆ（Ｃ_ｊ｜ＮＰ_ｉ）｝は、カテゴリＣ_ｊにおける候補単語列ＮＰ_ｉの出現頻度ｆ（Ｃ_ｊ｜ＮＰ_ｉ）の期待値（以下、単に期待値という。）を示している。カイ二乗値は、カテゴリ別の出現頻度が期待値からどの程度離れているかを示す値であって、カイ二乗値が小さいほどカテゴリに対する候補単語列の偏りが小さく（ばらつきが大きく）、逆にカイ二乗値が大きいほど候補単語列が少ないカテゴリに偏って出現していることを表す。以下式によって求めるｋａｉ２（ＮＰ_ｉ）の値を、Ｓｃｏｒｅ３（ＮＰｉ）と表現する場合もある。

図１１は、図５に示すカテゴリ別出現頻度に基づいて期待値Ｅ｛ｆ（Ｃ_ｊ｜ＮＰ_ｉ）｝を求めた結果を示す説明図である。図１１（ａ）において、Ｃ＿ａｌｌは上記式中のア）Σ_ｋｆ（Ｃ_ｋ｜ＮＰ_ｉ）の結果を示し、Ｎ＿ａｌｌは上記式中のイ）Σ_ｌｆ（Ｃ_ｊ｜ＮＰ_ｌ）の結果を示している。また、図１１（ｂ）が期待値Ｅ｛ｆ（Ｃ_ｊ｜ＮＰ_ｉ）｝の値を示している。例えば、カテゴリＣ１における候補単語列ＮＰ１の出現頻度の期待値（ｊ＝１，ｉ＝１の場合）は、Ｅ｛ｆ（Ｃ_１｜ＮＰ_１）｝＝４＊７／２３＝１．２１７となる。また例えば、カテゴリＣ４における候補単語列ＮＰ２の出現頻度の期待値（ｊ＝４，ｉ＝２の場合）は、Ｅ｛ｆ（Ｃ_４｜ＮＰ_２）｝＝２＊４／２３＝０．３４８となる。

図１２は、図１１に示す期待値からカイ二乗値を求めた結果を示す説明図である。ここで、例えば候補単語列ＮＰ１のカイ二乗値は、以下の計算式となる。なお、期待値が０の項は０として計算する。

図１２（ａ）は、図５に示すカテゴリ別出現頻度に対してカイ二乗値を計算した結果を示している。専門用語の判定方法は、計算したカイ二乗値が所定のしきい値以上である場合に、専門用語であると判定してもよい。ここで、しきい値を４と仮定すると、カイ二乗値計算手段１４は、カイ二乗値が４以上である候補単語列を専門用語と判定することができる。図１２（ａ）に示す例では、候補単語列ＮＰ１〜ＮＰ２，ＮＰ４〜ＮＰ９が専門用度であると判定される。図１２（ｂ）は、抽出結果である専門用語を記憶した専門用語記憶部２４の記憶例を示す説明図である。

次に、図１３を参照して第２の実施の形態における専門用語抽出装置の動作について説明する。図１３は、第２の実施の形態における専門用語抽出装置の動作例を示すフローチャートである。このうち、ステップＳ１〜Ｓ３の動作については、第１の実施の形態と同様であるため、説明を省略する。

カイ二乗値計算手段１４は、カテゴリ別頻度計算手段１２が算出したカテゴリ別出現頻度に基づいて各候補単語列のカイ二乗値を算出する（ステップＳ４２）。カイ二乗値計算手段１４は、算出した各候補単語列のカイ二乗値に基づいて、各候補単語列が専門用語か否かを判定し（ステップＳ５２）、専門用語と判定した候補単語列を専門用語記憶部２４に記憶する。候補単語列が専門用語か否かの判定は、カイ二乗値が所定のしきい値以上である場合に専門用語と判定し、それ以外の場合は一般用語と判定することによって行う。以上の動作を全ての候補単語列に対して行った結果、専門用語記憶部２４に記憶された単語列が、カテゴリ付文書群から抽出された専門用語である。

以上のように、本実施の形態によれば、各文書に付与された１つ以上のカテゴリのうち、１つのカテゴリのみを用いてカテゴリ別出現頻度を算出することによって、１つの文書に複数のカテゴリが付与されうる文書集合に対しても、高い精度でカイ二乗値に基づく専門用語抽出を可能とする。例えば、図２０（ｃ）に示す分布において、カテゴリ別頻度記憶部２３が算出するカテゴリ別算出頻度は、図２０（ｂ）と同一の結果（Ｃ１＝３２，Ｃ２〜Ｃ９＝０）となる。従って、カテゴリ別出現頻度に基づいて算出されるカイ二乗値は、（ｂ）と（ｃ）とで同一のＳｃｏｒｅ３（ＮＰ）＝２５５．６８となり、専門用語の抽出結果に差異が生じない。また、専門用語か否かの判定に用いるしきい値が１つですむ点は、後述の第３，４の実施の形態に比べて優位性がある。

なお、本実施の形態において、専門用語抽出手段、カテゴリ関連指数計算手段、専門用語判定手段およびカイ二乗値計算手段は、カイ二乗値計算手段１４によって実現される。

実施の形態３．
以下、本発明の第３の実施の形態を図面を参照して説明する。図１４は、第３の実施の形態における専門用語抽出装置の構成例を示すブロック図である。図１４に示す専門用語抽出装置は、第１の実施の形態と同様、プログラムに従って動作するデータ処理装置１（例えば、ＣＰＵ）と、情報を記憶する記憶装置２とを含む。データ処理装置１は、索引作成手段１０と、専門用語候補作成手段１１と、カテゴリ別頻度計算手段１２と、カテゴリ数計算手段１５とを備える。記憶装置２は、カテゴリ付文書記憶部２０と、索引記憶部２１と、専門用語候補記憶部２２と、カテゴリ別頻度記憶部２３と、専門用語記憶部２４とを備える。図１に示した第１の実施の形態と比べて、エントロピー計算手段１３がカテゴリ数計算手段１５に変わっている点が異なる。なお、カテゴリ数計算手段１５以外は、第１の実施の形態と同様である。

カテゴリ数計算手段１５は、カテゴリ別頻度計算手段１２が算出した各候補単語列のカテゴリ別出現頻度に基づいて、各候補単語列について、総出現頻度に対する出現割合がしきい値ｍ以上になるために必要な最小のカテゴリ数（以下、単にカテゴリ数の最小値という。）を計算し、計算したカテゴリ数の最小値に基づいて各候補単語列が専門用語であるか否かを判定する。また、カテゴリ数計算手段１５は、専門用語判定した候補単語列を、抽出結果である専門用語として専門用語記憶部２４に記憶する。

次に、カテゴリ数計算手段１５が行うカテゴリ数の最小値の計算方法、専門用語の判定方法について説明する。カテゴリ数の最小値を計算する方法は、候補単語列のカテゴリ別出現頻度の中から、カテゴリ別出現頻度が大きいカテゴリから順に選択していき、総出現頻度に対する出現割合が所定のしきい値ｍ以上になるまでカテゴリ数を加算することで求めることができる。カテゴリ数の最小値は、候補単語列の総出現頻度に対する出現割合が所定の出現割合を満たすのに必要なカテゴリ数を示す値であって、カテゴリ数の最小値が大きいほどカテゴリに対する候補単語列の偏りが小さく（ばらつきが大きく）、逆にカテゴリ数の最小値が大きいほど候補単語列が少ないカテゴリに偏って出現していることを表す。なお、総出現頻度は、図１１（ａ）におけるＣ＿ａｌｌと同値である。上記方法によって求める候補単語列ＮＰについてのカテゴリ数の最小値を、Ｓｃｏｒｅ１（ＮＰ）と表現する場合もある。

図１５は、図５に示すカテゴリ別出現頻度に基づいてカテゴリ数の最小値を求めた結果を示す説明図である。なお、図１５では、出現割合のしきい値ｍを０．６として計算している。専門用語の判定方法は、計算したカテゴリ数の最小値が所定のしきい値ｎ以下である場合に、専門用語であると判定してもよい。ここで、しきい値ｎを１と仮定すると、カテゴリ数計算手段１５は、カテゴリ数の最小値が１以下である候補単語列を専門用語として判定することができる。図１５（ａ）に示す例では、候補単語列ＮＰ１〜ＮＰ３，ＮＰ５〜ＮＰ９が専門用語であると判定される。図１５（ｂ）は、抽出結果である専門用語を記憶した専門用語記憶部２４の記憶例を示す説明図である。

次に、図１６を参照して第３の実施の形態における専門用語抽出装置の動作について説明する。図１６は、第３の実施の形態における専門用語抽出装置の動作例を示すフローチャートである。このうち、ステップＳ１〜Ｓ３の動作については、第１の実施の形態と同様であるため、説明を省略する。

カテゴリ数計算手段１５は、カテゴリ別頻度計算手段１２が算出したカテゴリ別出現頻度に基づいて、各候補単語列のカテゴリ数の最小値を算出する（ステップＳ４３）。カテゴリ数計算手段１５は、算出したカテゴリ数の最小値に基づいて、各候補単語列が専門用語か否かを判定し（ステップＳ５３）、専門用語と判定した候補単語列を専門用語記憶部２４に記憶する。

カテゴリ数の最小値の計算は、図１５（ａ）における候補単語列ＮＰ１を例にとると、候補単語列ＮＰ１の総出現頻度４に対する出現割合を、まず最もカテゴリ別出現頻度が大きいカテゴリＣ１を選択して確認する。カテゴリＣ１のカテゴリ別出現頻度が３であるため、出現割合は３／４＝０．７５となり、出現割合のしきい値ｍ（ここでは、０．６と仮定）以上となるため、カテゴリ数の最小値は、カテゴリＣ１を加算した１（カテゴリ数＝１）となる。また例えば、候補単語列ＮＰ４を例にとると、候補単語列ＮＰ４の総出現頻度４に対する出現割合を、まず最もカテゴリ別出現頻度が大きいカテゴリＣ４を選択して確認する。なお、ここではカテゴリＣ４と同値のカテゴリＣ６を選択してもよい。カテゴリＣ４のカテゴリ別出現頻度が２であるため、出現割合は２／４＝０．５となり、出現割合のしきい値ｍより小さいことが確認できる。続いて、次にカテゴリ別出現頻度が大きいカテゴリＣ６を加えた出現割合を確認する。カテゴリＣ６のカテゴリ別出現頻度が２であるため、出現割合は、（２＋２）／４＝１．０となり、出現割合のしきい値ｍ以上となるため、カテゴリ数の最小値は、カテゴリＣ４とＣ６を加算した２（カテゴリ数＝２）となる。

候補単語列が専門用語か否かの判定は、カテゴリ数の最小値が所定のしきい値ｎ以下である場合に専門用語と判定し、それ以外の場合は一般用語と判定することによって行う。以上の動作を全ての候補単語列に対して行った結果、専門用語記憶部２４に記憶された単語列が、カテゴリ付文書群から抽出された専門用語である。

以上のように、本実施の形態によれば、各文書に付与された１つ以上のカテゴリのうち、１つのカテゴリのみを用いてカテゴリ別出現頻度を算出することによって、１つの文書に複数のカテゴリが付与されうる文書集合に対しても、高い精度でカテゴリ数に基づく専門用語抽出を可能とする。例えば、図２０（ｃ）に示す分布において、カテゴリ別頻度記憶部２３が算出するカテゴリ別算出頻度は、図２０（ｂ）と同一の結果（Ｃ１＝３２，Ｃ２〜Ｃ９＝０）となる。従って、カテゴリ別出現頻度に基づいて算出されるカテゴリ数の最小値は、（ｂ）と（ｃ）とで同一のＳｃｏｒｅ１（ＮＰ）＝１となり、専門用語の抽出結果に差異が生じない。

なお、本実施の形態において、専門用語抽出手段、カテゴリ関連指数計算手段、専門用語判定手段およびカテゴリ数計算手段は、カテゴリ数計算手段１５によって実現される。

実施の形態４．
以下、本発明の第３の実施の形態を図面を参照して説明する。図１７は、第４の実施の形態における専門用語抽出装置の構成例を示すブロック図である。図１７に示す専門用語抽出装置は、第１の実施の形態と同様、プログラムに従って動作するデータ処理装置１（例えば、ＣＰＵ）と、情報を記憶する記憶装置２とを含む。データ処理装置１は、索引作成手段１０と、専門用語候補作成手段１１と、カテゴリ別頻度計算手段１２と、出現割合計算手段１６とを備える。記憶装置２は、カテゴリ付文書記憶部２０と、索引記憶部２１と、専門用語候補記憶部２２と、カテゴリ別頻度記憶部２３と、専門用語記憶部２４とを備える。図１に示した第１の実施の形態と比べて、エントロピー計算手段１３が出現割合計算手段１６に変わっている点が異なる。なお、出現割合計算手段１６以外は、第１の実施の形態と同様である。

出現割合計算手段１６は、カテゴリ別頻度計算手段１２が算出した各候補単語列のカテゴリ別出現頻度に基づいて、各候補単語列について、候補単語列のカテゴリ数がしきい値ｍ以下となる総出現頻度に対する最大の出現割合（以下、単に出現割合の最大値という。）を計算し、計算した出現割合の最大値に基づいて各候補単語列が専門用語であるか否かを判定する。また、出現割合計算手段１６は、専門用語判定した候補単語列を、抽出結果である専門用語として専門用語記憶部２４に記憶する。

次に、出現割合計算手段１６が行う出現割合の最大値の計算方法、専門用語の判定方法について説明する。出現割合の最大値を計算する方法は、候補単語列のカテゴリ別出現頻度の中から、カテゴリ別出現頻度が大きいカテゴリから順に選択していき、カテゴリ数が所定のしきい値ｍとなるまで、選択したカテゴリのカテゴリ別出現頻度を加算して総出現頻度に対する出現割合を求めることで求まる。出現割合の最大値は、所定のカテゴリ数における候補単語列の総出現頻度に対する最大の出現割合であって、出現割合の最大値が小さいほどカテゴリに対する候補単語列の偏りが小さく（ばらつきが大きく）、逆に出現割合の最大値が大きいほど候補単語列が少ないカテゴリに偏って出現していることを表す。なお、総出現頻度は、図１１（ａ）におけるＣ＿ａｌｌと同値である。上記方法によって求める候補単語列ＮＰについての出現頻度の最大値を、Ｓｃｏｒｅ４（ＮＰ）と表現する場合もある。

図１８は、図５に示すカテゴリ別出現頻度に基づいて出現割合の最大値を求めた結果を示す説明図である。図１５では、カテゴリ数のしきい値ｍを１として計算している。専門用語の判定方法は、計算した出現割合の最大値が所定のしきい値ｎ以上である場合に、専門用語であると判定してもよい。ここで、しきい値ｎを０．６と仮定すると、出現割合計算手段１６は、出現割合の最大値が１以下である候補単語列を専門用語として判定することができる。図１８（ａ）に示す例では、候補単語列ＮＰ１〜ＮＰ３，ＮＰ５〜ＮＰ９が専門用語であると判定される。図１８（ｂ）は、抽出結果である専門用語を記憶した専門用語記憶部２４の記憶例を示す説明図である。

次に、図１９を参照して第４の実施の形態における専門用語抽出装置の動作について説明する。図１９は、第４の実施の形態における専門用語抽出装置の動作例を示すフローチャートである。このうち、ステップＳ１〜Ｓ３の動作については、第１の実施の形態と同様であるため、説明を省略する。

出現割合計算手段１６は、カテゴリ別頻度計算手段１２が算出したカテゴリ別出現頻度に基づいて、各候補単語列の出現割合の最大値を算出する（ステップＳ４４）。出現割合計算手段１６は、算出した出現割合の最大値に基づいて、各候補単語列が専門用語か否かを判定し（ステップＳ５４）、専門用語と判定した候補単語列を専門用語記憶部２４に記憶する。

出現割合の最大値の計算は、図１８（ａ）における候補単語列ＮＰ１を例にとると、まず最もカテゴリ別出現頻度が大きいカテゴリＣ１を選択して候補単語列ＮＰ１の総出現頻度４に対する出現割合を確認する。カテゴリＣ１のカテゴリ別出現頻度が３であるため、出現割合は３／４＝０．７５となる。ここで、出現割合の求めるのに用いたカテゴリ数は、カテゴリ数のしきい値ｍ（ここでは、１と仮定する。）となるため、出現頻度の最大値は、カテゴリＣ１のカテゴリ別出現頻度から求めた０．７５となる。また例えば、カテゴリ数のしきい値ｍが２であった場合には、続いて、次にカテゴリ別出現頻度が大きいＣ４を加えた出現割合を求める。カテゴリＣ４のカテゴリ別出現頻度が１であるため、出現割合は、（３＋１）／４＝１．０となる。

候補単語列が専門用語か否かの判定は、出現割合の最大値が所定のしきい値ｎ以上である場合に専門用語と判定し、それ以外の場合は一般用語と判定することによって行う。以上の動作を全ての候補単語列に対して行った結果、専門用語記憶部２４に記憶された単語列が、カテゴリ付文書群から抽出された専門用語である。

以上のように、本実施の形態によれば、各文書に付与された１つ以上のカテゴリのうち、１つのカテゴリのみを用いてカテゴリ別出現頻度を算出することによって、１つの文書に複数のカテゴリが付与されうる文書集合に対しても、高い精度でカテゴリ別出現頻度に基づく専門用語抽出を可能とする。例えば、図２０（ｃ）に示す分布において、カテゴリ別頻度記憶部２３が算出するカテゴリ別算出頻度は、図２０（ｂ）と同一の結果（Ｃ１＝３２，Ｃ２〜Ｃ９＝０）となる。従って、カテゴリ別出現頻度に基づいて算出される出現割合の最大値は、（ｂ）と（ｃ）とで同一のＳｃｏｒｅ４（ＮＰ）＝１．０（この値は、カテゴリ数のしきい値ｍ＝１とした場合）となり、専門用語の抽出結果に差異が生じない。

なお、本実施の形態において、専門用語抽出手段、カテゴリ関連指数計算手段、専門用語判定手段および出現割合計算手段は、出現割合計算手段１６によって実現される。

本発明によれば、企業内で誰がどの技術,製品,顧客に詳しいといった社員の専門領域をデータベース化して検索しやすくする情報共有システムを構築する際に必要となる製品名、技術名、顧客名といった専門用語のデータベースの作成コストを低減するために利用できる。

本発明による専門用語抽出装置の構成例を示すブロック図。カテゴリ付き文書記憶部２０が記憶するカテゴリ付文書群を例示した説明図。索引記憶部２１が記憶する索引テーブルを例示した説明図。候補単語列の記憶例を示す説明図。カテゴリ別出現頻度の記憶例を示す説明図。エントロピーの計算結果及び専門用語の判定結果を示す説明図。カテゴリ別出現頻度の算出方法を説明する説明図。専門用語抽出装置の動作例を示すフローチャート。カテゴリ別出現頻度の算出動作例を示すフローチャート。第２の実施の形態における専門用語抽出装置の構成例を示すブロック図。カイ二乗値における期待値Ｅ｛ｆ（Ｃ_ｊ｜ＮＰ_ｉ）｝を求めた結果を示す説明図。カイ二乗値を求めた結果を示す説明図。第２の実施の形態における専門用語抽出装置の動作例を示すフローチャート。第３の実施の形態における専門用語抽出装置の構成例を示すブロック図。カテゴリ数の最小値を求めた結果を示す説明図。第３の実施の形態における専門用語抽出装置の動作例を示すフローチャート。第４の実施の形態における専門用語抽出装置の構成例を示すブロック図。出現割合の最大値を求めた結果を示す説明図。第４の実施の形態における専門用語抽出装置の動作例を示すフローチャート。ある用語ＮＰの文書集合における分布を示した説明図。

符号の説明

１データ処理装置
２記憶装置
１０索引作成手段
１１専門用語候補作成手段
１２カテゴリ別頻度計算手段
１３エントロピー計算手段
１４カイ二乗値計算手段
１５カテゴリ数計算手段
１６出現割合計算手段
２０カテゴリ付文書記憶部
２１索引記憶部
２２専門用語候補記憶部
２３カテゴリ別頻度記憶部
２４専門用語記憶部

Claims

１つの文書に対して１つ以上のカテゴリが付与されているカテゴリ付文書集合から専門用語を抽出する専門用語抽出装置であって、
前記文書集合に含まれる文書内に出現する専門用語の候補となる単語列である候補単語列について、前記文書集合内におけるカテゴリ別の出現頻度であるカテゴリ別出現頻度を計算するカテゴリ別出現頻度計算手段と、
前記カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列が専門用語か否かを判定し、前記判定結果に基づいて専門用語を抽出する専門用語抽出手段とを備え、
前記カテゴリ別出現頻度計算手段は、候補単語列それぞれについて、カテゴリ別出現頻度が確定していないカテゴリおよび該カテゴリが付与されている文書を対象に、前記文書集合内における出現頻度であって１つの文書に出現した候補単語列がその文書に付与されたカテゴリの全てにおいて出現したとする出現頻度であるカテゴリ毎の出現頻度を算出し、算出されたカテゴリ毎の出現頻度に基づき１のカテゴリを選択して該カテゴリのカテゴリ別出現頻度を確定させる処理をカテゴリ別出現頻度が確定していないカテゴリが付与されている文書がなくなるまで繰り返すことによって、１つの文書につき１つのカテゴリのみを用いたカテゴリ別出現頻度を計算する
ことを特徴とする専門用語抽出装置。
カテゴリ別出現頻度計算手段は、求めたカテゴリ毎の出現頻度に基づいて最大の出現頻度を持つ１のカテゴリを選択して該カテゴリのカテゴリ別出現頻度を確定させる
請求項１記載の専門用語抽出装置。
専門用語抽出手段は、
カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列と各カテゴリとの関連の度合いを示すカテゴリ関連指数を計算するカテゴリ関連指数計算手段と、
前記関連指数計算手段が計算したカテゴリ関連指数に基づいて、該候補単語列が専門用語か否かを判定する専門用語判定手段とを有する
請求項１または請求項２に記載の専門用語抽出装置。
専門用語抽出手段は、
カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、
前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、候補単語列がどれくらい多くのカテゴリに分散しているかを示すエントロピーを計算し、前記エントロピーが所定のしきい値以下である場合に、該候補単語列を専門用語と判定するエントロピー計算手段とを有する
請求項１から請求項３のうちのいずれか１項に記載の専門用語抽出装置。
専門用語抽出手段は、
カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、
前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、候補単語列のカテゴリ別出現頻度が期待値からどの程度離れているかを示すカイ二乗値を計算し、前記カイ二乗値が所定のしきい値以上である場合に、該候補単語列を専門用語と判定するカイ二乗値計算手段とを有する
請求項１から請求項３のうちのいずれか１項に記載の専門用語抽出装置。
専門用語抽出手段は、
カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、
前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列の総出現頻度に対する出現割合が所定のしきい値ｍ１以上になるために必要な最小のカテゴリ数を示すカテゴリ数の最小値を計算し、前記カテゴリ数の最小値が所定のしきい値ｎ１以下である場合に、該候補単語列を専門用語と判定するカテゴリ数計算手段とを有する
請求項１から請求項３のうちのいずれか１項に記載の専門用語抽出装置。
専門用語抽出手段は、
カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、
前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、候補単語列のカテゴリ数が所定のしきい値ｍ２以下となる総出現頻度に対する最大の出現割合を示す出現割合の最大値を計算し、前記出現割合の最大値が所定のしきい値ｎ２以上である場合に、該候補単語列を専門用語と判定する出現割合計算手段とを有する
請求項１から請求項３のうちのいずれか１項に記載の専門用語抽出装置。
カテゴリ付文書集合から単語列を抽出し、抽出した各単語列に対する文書毎の出現頻度を単語列に対応づけて示す出現頻度索引と、各文書に付与されているカテゴリの種類を文書に対応づけて示すカテゴリ索引とを作成する索引作成手段と、
前記索引作成手段が抽出した単語列の中から、所定の条件に合致する単語列を専門用語の候補である候補単語列として選定する候補単語列選定手段とを備え、
カテゴリ別出現頻度算出手段は、前記候補単語列選定手段が選定した候補単語列それぞれについて、索引作成手段が作成した索引を用いてカテゴリ別出現頻度を算出する
請求項１から請求項７のうちのいずれか１項に記載の専門用語抽出装置。
専門用語抽出手段によって抽出された専門用語を保存する専門用語記憶手段を備えた
請求項１から請求項８のうちのいずれか１項に記載の専門用語抽出装置。
１つの文書に対して１つ以上のカテゴリが付与されているカテゴリ付文書集合から専門用語を抽出する専門用語抽出方法であって、
コンピュータが、
前記文書集合に含まれる文書内に出現する専門用語の候補となる単語列である候補単語列それぞれについて、前記文書集合内におけるカテゴリ別の出現頻度であるカテゴリ別出現頻度が確定していないカテゴリおよび該カテゴリが付与されている文書を対象に、前記文書集合内における出現頻度であって１つの文書に出現した候補単語列がその文書に付与されたカテゴリの全てにおいて出現したとする出現頻度であるカテゴリ毎の出現頻度を算出し、算出されたカテゴリ毎の出現頻度に基づき１のカテゴリを選択して該カテゴリのカテゴリ別出現頻度を確定させる処理をカテゴリ別出現頻度が確定していないカテゴリが付与されている文書がなくなるまで繰り返すことによって、１つの文書につき１つのカテゴリのみを用いたカテゴリ別出現頻度を計算し、
計算した候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列が専門用語か否かを判定し、前記判定結果に基づいて専門用語を抽出する
ことを特徴とする専門用語抽出方法。
１つの文書に対してカテゴリが付与されているカテゴリ付文書集合から専門用語を抽出するための専門用語抽出プログラムであって、
コンピュータに、
前記文書集合に含まれる文書内に出現する専門用語の候補となる単語列である候補単語列それぞれについて、前記文書集合内におけるカテゴリ別の出現頻度であるカテゴリ別出現頻度が確定していないカテゴリおよび該カテゴリが付与されている文書を対象に、前記文書集合内における出現頻度であって１つの文書に出現した候補単語列がその文書に付与されたカテゴリの全てにおいて出現したとする出現頻度であるカテゴリ毎の出現頻度を算出し、算出されたカテゴリ毎の出現頻度に基づき１のカテゴリを選択して該カテゴリのカテゴリ別出現頻度を確定させる処理をカテゴリ別出現頻度が確定していないカテゴリが付与されている文書がなくなるまで繰り返すことによって、１つの文書につき１つのカテゴリのみを用いたカテゴリ別出現頻度を計算するカテゴリ別出現頻度計算処理、および
前記カテゴリ別出現頻度計算処理で計算した候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列が専門用語か否かを判定し、前記判定結果に基づいて専門用語を抽出する専門用語抽出処理
を実行させるための専門用語抽出プログラム。