JP2006085374A

JP2006085374A - 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体

Info

Publication number: JP2006085374A
Application number: JP2004268702A
Authority: JP
Inventors: Nobuyoshi Shimizu; 信義清水; Tomoyoshi Horisawa; 知義堀澤; Katsue Daicho; 克江大長
Original assignee: Keio University
Current assignee: Keio University
Priority date: 2004-09-15
Filing date: 2004-09-15
Publication date: 2006-03-30
Anticipated expiration: 2024-09-15
Also published as: JP4639388B2

Abstract

【課題】特定の分野についての文書を多数集約した文書データベースにおいて、各文書を特徴付ける重要語を精度よく特定し、各文書の内容を一瞥で把握できるようにする。
【解決手段】プログラムされたコンピュータが、特定分野に関するｎ個の文書を集約した文書データベース含まれる用語の全数ｍと、それぞれの用語Ｔ_ｊ（ｊ＝１，２，３，…，ｍ）を取得し、各用語Ｔ_ｊを識別管理するステップと、文書Ｄｉにおける用語Ｔｊに関する出現頻度Ｗ_ｉｊを所定の計算式により算出するステップと、用語Ｔ_ｊについての出現頻度Ｗ_ｉｊ値の分散Ｓ^２ _ｊを計算するステップと、文書Ｄ_ｉにおける用語Ｔ_ｊの出現回数をＵ_ｉｊとして、文書Ｄ_ｉにおける用語Ｔ_ｊの重要度Ｖ_ｉｊをＶ_ｉｊ＝Ｕ_ｉｊ×Ｓ^２ _ｊにより計算するステップと、用語Ｔ_ｊをＶ_ｉｊに基づいてリストアップした用語リストを作成して出力するステップとを実行する文書データベースにおける重要語抽出方法とした。
【選択図】図１

Description

この発明は、プログラムされたコンピュータにより、所定の学術分野など特定の分野についての文書を多数集約してなる文書データベースから重要語を抽出する方法に関する。

多数の文書を集約した文書データベースにおいて、文書間の相違を識別するために、データベース全体の中で特定の文書に偏って高頻度で出現する用語（重要語）を抽出する、という思想がある。重要語は、あらゆる文書に数多く出現する助詞や副詞などとは異なり、出現回数の絶対数こそ多くは無いが、特定の文書に限って他の文書より多く出現したり、その用語だけで文書の内容をある程度把握できたりする単語や連語である。

一般的に、データベースに含まれる用語について、それぞれが重要語であるか否かを判定するためには、その用語の出現頻度を用いる。出現頻度の算出方法としては、ｔｆ法、ｉｄｆ法、ｔｆ・ｉｄｆ法などが周知である。そして、これらの方法で算出された出現頻度を重要度とし、その重要度が大きい用語を重要語として定義する。また数値化された重要度に基づいて、特定の文書を検索するのに当たってデータベースに照会するキーワードが適切であるか否かを判定したり、各文書を特徴付ける重要語が何であるのかを特定したりする。なお、以下の非特許文献１に、重要語の抽出に関わる情報処理方法が記載されている。
長尾真、外５名著，「文字と音の情報処理」，第１刷，２０００年１月２１日，ｐ２９−ｐ３５

本発明者らは、所定の学術分野など、特定の分野についての文書を多数集約した文書データベースでは、特定の用語が特定の文書に限って高頻度で出現した場合でも、その用語がその特定の文書にとっての重要語となるとは限らない、ということを経験的に知見している。すなわち、上記重要度の算出方法では文書を特徴付ける適切なキーワードを特定することができない。

また、学術論文などの専門分野に関する文書では、その文書に含まれる用語の全てについて重要度と各用語の相関関係とを検討しないと、その内容を把握できない、ということも知見している。すなわち、学術的に特徴的なある用語が極めて少数の特定の文書に含まれていたとしても、その文書が全て同じ内容であるとは限らない。例えば、遺伝病などのヒトの遺伝形質に関する医学的・分子遺伝学的解説（エントリ）を集約した文書データベース「ＯＭＩＭ（Online Mendelian Inheritance in Man）」において、各エントリについての重要語を従来の出現頻度に基づく方法で抽出しようとすると、ＯＭＩＭにある各エントリは、もともと同一の学術分野に関するものであるから、複数のエントリで同じ用語を重要語として抽出してしまう。例えば、特定の遺伝子疾患について解説したエントリを検索するために、エントリを特徴付ける用語を従来の方法で算出した重要度に基づいて提示したとして、しかもその用語が特定の内容（疾患）を特徴付けるものであったとしても、その用語を含む複数のエントリが提示される可能性が高い。提示された複数のエントリはそれぞれ内容（疾患）が異なるため、研究者らは、調査したい疾患についてのエントリを探そうとすると、結局提示された全エントリに目を通さなければならず、目的とするエントリを見出すまで多大な労力と時間を要する。

本発明者らは、所定の学術分野など、特定の分野についての文書を多数集約した文書データベースにおいて、まず、個々の文書の重要語を精度よく特定できるように重要度の計算方法を検討した。そして、用語の出現頻度を算出した上で、さらにその出現頻度を使って重要度を求める特殊な計算式を見出した。また、その特殊な計算方法によって求めた重要度に基づいて、個々の文書の内容を一瞥するだけで把握できるように文書に含まれる用語の提示の仕方を検討し、それを見出した。

本発明は、これら知見に基づきなされたもので、その目的は、特定の分野についての文書を多数集約した文書データベースにおいて、各文書を特徴付ける重要語を精度よく特定できるとともに、各文書の内容を一瞥して把握できるようにするための重要語抽出方法を提供することにある。

上記目的を達成するための本発明は、プログラムされたコンピュータにより、所定の学術分野など特定の分野に関するｎ個の文書を集約した文書データベースを検索し、当該データベースに含まれる用語の重要度を算出して前記特定分野に関して重要性の高い用語を抽出する方法であって、
前記データベースに含まれる用語の全数ｍと、それぞれの用語Ｔ_ｊ（ｊ＝１，２，３，…，ｍ）を取得し、各用語Ｔ_ｊを識別管理する用語記憶ステップと、
文書Ｄｉにおける用語Ｔｊに関する出現頻度Ｗ_ｉｊを所定の計算式により算出する出現頻度計算ステップと、
用語Ｔ_ｊについての出現頻度Ｗ_ｉｊ値の分散Ｓ^２ _ｊを計算する分散計算ステップと、
文書Ｄ_ｉにおける用語Ｔ_ｊの出現回数をＵ_ｉｊとして、文書Ｄ_ｉにおける用語Ｔ_ｊの重要度Ｖ_ｉｊを
Ｖ_ｉｊ＝Ｕ_ｉｊ×Ｓ^２ _ｊ
により計算する重要度計算ステップと、
用語Ｔ_ｊをＶ_ｉｊに基づいてリストアップした用語リストを作成して出力するリスト作成ステップと、
を含んだ文書データベースにおける重要語抽出方法としている。

また、前記出現頻度計算ステップは、全文書における用語Ｔ_ｊの出現回数をＵ_ｊとし、文書Ｄ_ｉにおける用語Ｔ_ｊの出現回数をＵ_ｉｊとし、取得したｍ個の全用語についての出現回数の合計をＵとして、前記出現頻度Ｗ_ｉｊを
Ｗ_ｉｊ＝（Ｕ_ｉｊ／Ｕ_ｊ）×ｌｏｇ（Ｕ／Ｕ_ｊ）
の式により計算する文書データベースにおける重要語抽出方法とすれば、より好ましい。

上記重要語抽出方法に、次の要件（１）〜（４）のいずれかをさらに備えた文書データベースにおける重要語抽出方法も本発明の範囲である。

（１）利用者入力により文書Ｄ_ｉの指定を受け付けるステップを含み、前記リスト作成ステップは、指定された文書Ｄ_ｉに含まれる用語Ｔ_ｊを重要度に基づく順番でリストアップしたリストを作成する。

（２）リスト作成ステップは、文書Ｄ_ｉごとに用語リストを作成するとともに、利用者入力によりキーワードの指定を受け付けるステップと、当該キーワードに該当する用語が所定の重要度Ｖ_ｉｊとなる場合の文書Ｄ_ｉ用語リストを出力するステップとを含むこととしてもよい。

（３）特定の用語を収録した辞書データベースにアクセスするステップを含み、前記リスト作成ステップは、当該辞書データベースに存在する用語を前記用語リストに掲載しない。

（４）特定の用語と係数とを対応付けして記憶した係数データベースにアクセスするステップと、用語Ｔ_ｊの重要度Ｖ_ｉｊに対応の係数を乗算した値を新規の重要度とするステップとを含み、前記リスト作成ステップは、当該新規の重要度に基づいてリストを作成する。

また、上記いずれかの重要語抽出方法において、
前記文書データベースに含まれるｎ個の文書から１つ以上の文書Ｄ_ｈを抽出するステップと、
文書Ｄ_ｈに含まれる用語の全数ｘを取得するステップと、
前記用語リスト作成ステップにより作成された文書Ｄ_ｈについての用語リストに含まれる用語Ｔ_ｇ（ｇ＝１，２，３，…，ｘ）を出力するとともに、利用者入力により当該用語Ｔ_ｇから１つ以上の用語Ｔ_ｋ（ｋ＝１，２，３，…，≦ｘ）の指定を受け付けるステップと、
指定されたＴ_ｋの数ａを取得するステップと、
文書Ｄ_ｈにおける用語Ｔ_ｇについての重要度Ｖ_ｈｇに基づいてｙ個の用語Ｔ_ｆ（ｆ＝１，２，３，…，ｙ）を抽出するステップと、
用語の数ｙを可変設定しながら、用語Ｔ_ｆのうち、指定された用語Ｔ_ｋに一致する用語の数ｂを取得するステップと、
文書Ｄ_ｈについての用語抽出精度Ｚ_ｈを、
Ｚ_ｈ＝ｂ／ａ＋｛ｘ−（ａ＋ｙ−ｂ）｝／（ｘ-ａ）
の式により計算するステップと、
Ｚ_ｈの値が最大となるときのｘとｙを取得するとともに、当該ｘとｙとの関係を近似する関数ｙ＝ｆ（ｘ）を求めるステップと、
を含み、
前記リスト作成ステップは、前記関数ｙ＝ｆ（ｘ）に基づいて、ｘ_ｉ個の用語を含む文書Ｄ_iについての用語リストにリストアップする用語数ｙ_ｉをｙ_ｉ＝ｆ（ｘ_ｉ）により算出し、当該算出された用語数ｙ_ｉの用語を掲載した用語リストを再作成する
文書データベースにおける重要語抽出方法とすることもできる。

なお本発明は、コンピュータにより構成されて、上記方法に含まれているステップを実行する重要語抽出装置と、コンピュータにインストールされて、当該コンピュータに上記いずれかの方法に含まれているステップを実行させるコンピュータプログラム、および、そのコンピュータプログラムを記録したコンピュータにより読み取り可能なプログラム格納媒体にも及んでいる。

本発明の重要語抽出方法によれば、特定の分野についての文書を多数集約した文書データベースにおいて、各文書に含まれる用語からその文書を特徴付ける重要語を精度よく特定できるとともに、各文書の内容を一瞥して把握することができる。

＝＝＝重要語抽出方法の概略＝＝＝
本発明の一実施形態として、特定の分野についての文書を多数集約した文書データベースにアクセスするとともに、本発明の方法によって文書に含まれる重要語を抽出するようにプログラムされたコンピュータ（重要語抽出装置：以下、抽出装置）を例示する。本実施例の抽出装置によれば、重要語の抽出に際し、文書データベースにおける各文書に含まれる用語の重要度を特殊な計算式により測定し、その測定結果として、文書別に重要度の高い用語を順にリストアップした用語リストを作成して出力する。なお文書データベースは抽出装置に付帯していてもよいし、外部にあってもよい。また、リストの出力は、そのリスト自体を所定の記憶資源に記憶することであってもよいし、文書データベースの利用者に閲覧可能に出力することであってもよい。

＝＝＝文書データベース＝＝＝
本実施例において、抽出装置は、ＯＭＩＭを重要語の抽出対象としている。よく知られているように、ＯＭＩＭは、遺伝病などのヒトの遺伝形質に関する医学的・分子遺伝学的解説を集約した事典「ＭＩＭ（Mendelian Inheritance in Man）」を文書データベース化したものであり、ＯＭＩＭに含まれる論文（エントリ）数は、２００４年１月現在、１５，０００件以上にのぼる。そのエントリのうち、異なる遺伝子疾患についてのエントリが約４，５００件ある。このＯＭＩＭは、インターネット上のＷＷＷサーバーによってオンラインでの検索・閲覧が可能となっている。本実施例において、抽出装置は、インターネットを介してＯＭＩＭにアクセスする構成となっている。もちろん、抽出装置にＯＭＩＭが付帯する構成としてもよい。

＝＝＝重要度の計算＝＝＝
図１（Ａ）〜（Ｄ）に抽出装置における重要度の算出処理の概略を示した。抽出装置は、ＯＭＩＭの全エントリを対象として用語を抽出し、ｎ個の全エントリとｍ個の全用語を取得するとともに、各エントリに識別子Ｄ_ｉ（ｉ＝１，２，３，…，ｎ）を付与し、用語に識別子Ｔ_ｊ（ｊ＝１，２，３，…，ｍ）を付与し、ｎ個の全エントリとｍ個の全用語を識別管理する。また、各エントリごとに各用語Ｔｊの出現回数をカウントしてそれを記憶する。そして、ｎ行ｍ列の行列（マトリクス）を作成し、そのマトリクスの各交点（セル）に、エントリＤ_ｉにおける用語Ｔ_ｊの出現回数を格納する。したがって、セルの行列（ｉ、ｊ）を指定すれば、特定のエントリにおける特定の用語の出現回数がわかる。ここで、その特定のエントリＤ_ｉにおける特定の用語Ｔ_ｊの出現回数（用語出現回数）をＵ_ｉｊ、１列に含まれる各セルの出現回数合計、すなわち全エントリを通じての特定の用語Ｔ_ｊの出現回数（用語総出現回数数）をＵ_ｊとする（Ａ）。また、全エントリにおける全用語についての出現回数（全用語総出現回数）をＵとする。

つぎに、エントリＤ_ｉにおける用語Ｔ_ｊに関する出現頻度Ｗ_ｉｊを次の式（１）
Ｗ_ｉｊ＝（Ｕ_ｉｊ／Ｕ_ｊ）×ｌｏｇ（Ｕ／Ｕ_ｉｊ）…式（１）
により計算し、このＷ_ｉｊの値を各セルに格納する（Ｂ）。

本実施例では、さらに、用語Ｔ_ｊごとのＷ_ｉｊ値の分散値をＳ^２ _ｊを計算する（Ｃ）。
すなわち、各セルに出現頻度Ｗ_ｉｊを格納したマトリクス（Ｂ）において、各一列のＷ_ｉｊの平均値をＷとして、各列ごとに分散値Ｓ^２ _ｊを周知の以下の式（２）
Ｓ^２ _ｊ＝｛（Ｗ_１ｊ−Ｗ）^２＋（Ｗ_２ｊ−Ｗ）^２＋…＋（Ｗ_ｎｊ−Ｗ）^２｝／ｎ …式（２）により計算する（Ｃ）。

次に、Ｓ^２ _ｊに基づいて、エントリＤ_ｉにおける用語Ｔ_ｊの重要度Ｖ_ｉｊを次の式（３）
Ｖ_ｉｊ＝Ｕ_ｉｊ×Ｓ^２ _ｊ…式（３）
により計算し、その計算結果を対応する各セルに格納する（Ｄ）。

なお本実施例では、より重要度を高精度で算出するために、出現頻度を新規に見出した上記式（１）により算出しているが、出現頻度の算出については、従来のｔｆ法、ｉｄｆ法、ｔｆ・ｉｄｆ法を採用してもよい。本発明の思想は、重要度として出現頻度を採用する、という従来の概念を捨て、特定の文書における特定の用語について、その出現頻度の分散値と用語出現回数との乗算値を重要度とする点にある。

＝＝＝重要語の提示＝＝＝
抽出装置は、上記式（１）〜（３）により、特定のエントリにおける特定の用語の重要度を算出すると、その重要度に応じた順位でリストアップした用語リストをエントリ別に作成する。本実施例では、エントリごとに重要度の高い用語を順にリストアップした用語リストを作成して記憶する。

作成したリストは、例えば、抽出装置に付帯するディスプレイや、抽出装置にアクセス可能なコンピュータにて閲覧可能にして出力すればよい。それによって、特定のエントリについての用語がその重要度に応じて複数示され、研究者などの専門家がその用語リストを一瞥すれば、特定のエントリ中にある複数の用語の重要度とその相関関係がわかり、エントリの内容を確実に把握することができる。

図２に、ある特定のエントリ（エントリ番号＃１３７７５０）について、本実施例の方法に基づいて作成した用語リストを示した。エントリ＃１３７７５０のタイトルはGLAUCOMA, PRIMARY OPEN ANGLE, JUVENILE-ONSET, 1; JOAG（若年性開放隅角緑内障）という遺伝子疾患について記載されたエントリであり、図２には、エントリ＃１３７７５０において、重要度１２の高い用語（１１ａ，１１ｂ）が上から順にリストアップされたリスト１０が示されている。また、参考までに用語ごとの分散値１３もリスト１０に添えて示した。分散値が低い用語でも、特定のエントリにおいて出現回数が多いとそのエントリでは重要度の値が高くなり、その特定のエントリについての用語リストでは、上位にリストアップされる。したがって、特定のエントリにおいて重要語となり得る用語を確実に上位にリストアップすることができる。

なお、本実施例により算出した重要度の信頼性を証明するために、エントリ＃１３７７５０を実際に研究者などの専門家に読んでもらい、その専門家にエントリの内容を把握する上で実際に重要語として採用できる用語１１ａを指定してもらった。専門家が認めた重要語１１ａが抽出装置が作成したリスト１０の上位にリストアップされている。したがって、本実施例の方法に採用した重要度の計算方式は精度よく重要語を抽出するための指標となることが判明した。また、各エントリごとに用語を重要度順にリストアップしているので、エントリに含まれている複数の用語の相関がわかる。すなわち、複数の用語の重要度を比較することができ、抽出装置により作成された用語リスト中の上位の用語を一瞥すれば、そのエントリの内容を正確に認識することができる。

＝＝＝ユーザインタフェース＝＝＝
本実施例における抽出装置を利用者が実際に使用する場面でのユーザインタフェースとしては、エントリの指定入力を受け付けてそのエントリの用語リストを提示したり、キーワードの指定入力を受け付けて、キーワードに該当する用語の重要度が高い用語リストを提示したりする方式が考えられる。

また、利用者からのエントリやキーワードの指定入力を受け付けたり、その入力を起源とした用語抽出結果を提示したりする方式としては、抽出装置自体にキーボードやディスプレイなどのユーザインタフェースを備えさせ、そのユーザインタフェースを介して入出力する方式でもよいが、抽出装置にＷＷＷサーバーとしての機能を実装してインターネットに接続させておく方式も考えられる。そしてそのＷＷＷサーバー機能により、エントリやキーワードの指定入力を受け付けるためのフォームを含んだＷｅｂページを抽出装置に用意しておき、利用者はパーソナルコンピュータなどブラウザを実装したコンピュータ（ブラウザ端末）により、そのＷｅｂページを取り寄せ、そのページにて入力したエントリやキーワードを抽出装置に送付する。抽出装置は、指定のエントリの用語リストや、キーワードに該当する用語の重要度が高いエントリについての用語リストをＷｅｂページに作成してブラウザ端末に返送すればよい。

＝＝＝重要語抽出精度の向上について＝＝＝
図２に示したように、本実施例の計算式によって重要度を計算した場合、少数ではあるが、研究者にとってはさほど重要ではない用語１１ｂが用語リスト１０の上位にリストアップされている。そのような用語１１ｂも可能な限り排除できれば、より好ましい。そこで、用語リストから削除すべき用語を収録した辞書を用意しておき、作成した用語リストの中で、その辞書に記載されている用語については、リストから削除すればよい。本実施例が対象としているＯＭＩＭデーベースでは、人名、特有の変異名やマーカーなどを削除対象とすることができる。

＝＝＝重要語の重み付け＝＝＝
用語リストの下位にある用語でも実は研究者にとっては重要となり得る場合もある。そこで、データベースに含まれる用語について、あらかじめ重要度に乗算する係数を対応付けして所定のデータベースに記憶管理しておく。そして抽出装置が、あるエントリについての用語リストを提示する際、リスト中の各用語について、式（１）〜式（３）によって得られた重要度に、それぞれ対応の係数を乗算して重要度を更新し、その更新した重要度に基づいて用語リストを作成する。それによって、式（１）〜式（３）によって計算された重要度に基づいて下位にリストアップされた用語でも、実質的な重要度に見合うように上位にリストアップされる。それによって、研究者らは用語リストの下位の用語まで調べなくても、エントリの内容をより詳細に把握することができる。

なお、用語と係数との対応付けしたデータベースは抽出装置に付帯する内部データベースであってもよいし、抽出装置がアクセス可能な外部データベースであってもよい。また、各用語の係数を決定するためには、例えば、助詞や副詞など全く不要な用語については係数を０にしてリストに掲載されないようにしたり、医学辞書に掲載されている特定の種別の用語（遺伝子シンボル、器官、組織、症状、疾患など）については、分散値が低い割にはエントリの内容を確実に示唆する用語なので一律に高い係数を対応付けしておいてリストの上位にリストアップされるようにしたり、ＯＭＩＭのタイトルなど自動的に上位にリストアップされる用語については、確実にリストアップされる程度の所定の係数を一律に対応付けしたりするなど、用語に付与する係数は適宜に設定すればよい。

＝＝＝重要語の抽出数の最適化＝＝＝
当然のことながら、用語リストに全く不要な用語まで載せる必要はない。適当な数の用語さえリストアップされていれば、その用語だけでエントリの内容を把握することができる。もちろん、無駄な用語を含んだリストは当然データ量が大きく、その大容量データはそれを扱う抽出装置に過大な負荷を掛ける。しかし、リストアップする用語の数を全てのエントリについて一律に限定してしまえば、文書が長く用語の全数の多いエントリでは重要な用語がリストから欠落する可能性がある。したがって、エントリごとにリストアップする用語の数を最適化する必要がある。

ここで、その最適化のための手法を例示する。概略的には、あるエントリを研究者など用語の重要性を判断できる専門家に見てもらい、そのエントリ中から重要語を選出してもらう。そして、その選出した重要語と抽出装置が作成した用語リスト中の用語とを比較し、用語リスト中の用語と専門家が選出した実際の重要語との一致度に基づいて全てのエントリに適用できる法則を見出す。そして、その法則に従って用語リスト中に掲載する最適な用語数をエントリ別に決定する。

具体的には、抽出装置が、専門家などの利用者から、全エントリ中から適当な複数のエントリＤ_ｈの指定と、そのＤ_ｈに含まれる用語から利用者が選出した重要語Ｔ_ｋ（ｋ＝１，２，３，…）の指定とをユーザインタフェースを介して受け付け、指定されたＴ_ｋの数ａを指定のエントリＤ_ｈ別に取得する。

また抽出装置は、上記式（１）〜（３）に基づいて作成したエントリＤ_ｈについての用語リストについて、そのリストに含まれる用語の全数ｘと、リスト中の各用語Ｔ_ｇ（ｇ＝１，２，３，…，ｘ）とを取得する。次に、用語リスト中に掲載すべき用語の数をｙとし、用語Ｔ_ｇから重要度Ｄ_ｈｇに基づいてｙ個の用語Ｔ_ｆ（ｆ＝１，２，３，…，ｙ）をリストアップする。そして、用語Ｔ_ｆのうち利用者により指定された用語Ｔ_ｋに一致する用語の数ｂを取得する。

なお、ｙ個の用語の抽出に際しては、ｙの値自体を設定し、各用語Ｔ_ｇにおける重要度Ｖ_ｈｇの値が高い方から順にｙ番目までの用語を抽出してもよいし、重要度の値を可変設定し、その重要度の値以上の用語Ｔ_ｇをＴ_ｆとして抽出し、そのＴ_ｆの数をｙとするなど、ｙの値は重要度に基づいて適宜に可変設定すればよい。

つぎに、ｙの値を可変設定していきながら、文書Ｄ_ｈについてリストアップした用語Ｔ_ｆの精度Ｚ_ｈを次式（４）、
Ｚ_ｈ＝ｂ／ａ＋｛ｘ−（ａ＋ｙ−ｂ）｝／（ｘ-ａ）…式（４）
により計算し、Ｚ_ｈが最大値を取るときのｘとｙを取得し、このｘとｙとの関係を近似する関数ｙ＝ｆ（ｘ）を求める。

このｙ＝ｆ（ｘ）を他のエントリＤ_ｉにも適用し、全エントリＤ_ｉにおける用語リストにリストアップする用語数を決定する。すなわち、エントリＤ_iにｘ_ｉ個の用語が含まれている場合、そのエントリＤ_ｉについての用語リストに掲載する用語の数ｙ_ｉを上記関数
ｙ_ｉ＝ｆ（ｘ_ｉ）
により算出する。そして、エントリＤ_ｉについて、決定した用語数ｙ_ｉを含んだ用語リストを再作成する。

したがって、一度用語数が決定してしまえば、全エントリについての用語リストが作成されることになり、この作成済みの用語リストを参照可能に用意しておけば、データベース検索におけるクエリーを受け付けた際に、上記計算式（１）〜（３）による計算処理を再度行う必要が無くなる。抽出装置は作成済みの用語リストを参照して、クエリーに対する検索結果を提示すればよい。

なお、式（４）を求める過程で選出されたエントリＤ_ｈは、利用者入力により抽出されなくてもよい。抽出装置側であらかじめ設定されていてもいいし、ランダムなど適宜に抽出するようにしてもよい。もちろんＤ_ｈは、上記式（４）で表現される関数の信頼性は多少落ちるが、１つのエントリであってもよい。

＝＝＝適用例＝＝＝
本発明の重要語抽出方法は、当然のことながら、ＯＭＩＭに限らず特定の分野についての文書を集約したデータベースに適用することができる。また、データベースは論文集などの、文章を集約したものに限らず、例えば、各文書を特定の分野についての用語に関する説明や定義などの解説文などとし、データベースはその用語についての解説文を集約した辞書（辞典）・事典であってもよい。

本発明の実施例における重要語抽出方法の概念を説明する図である。上記方法により作成される用語リストの概略図である。

符号の説明

１０用語リスト
１１ａ，１１ｂ用語
１２重要度

Claims

プログラムされたコンピュータにより、所定の学術分野など特定の分野に関するｎ個の文書を集約した文書データベースを検索し、当該データベースに含まれる用語の重要度を算出して前記特定分野に関して重要性の高い用語を抽出する方法であって、
前記データベースに含まれる用語の全数ｍと、それぞれの用語Ｔ_ｊ（ｊ＝１，２，３，…，ｍ）を取得し、各用語Ｔ_ｊを識別管理する用語記憶ステップと、
文書Ｄｉにおける用語Ｔｊに関する出現頻度Ｗ_ｉｊを所定の計算式により算出する出現頻度計算ステップと、
用語Ｔ_ｊについての出現頻度Ｗ_ｉｊ値の分散Ｓ^２ _ｊを計算する分散計算ステップと、
文書Ｄ_ｉにおける用語Ｔ_ｊの出現回数をＵ_ｉｊとして、文書Ｄ_ｉにおける用語Ｔ_ｊの重要度Ｖ_ｉｊを
Ｖ_ｉｊ＝Ｕ_ｉｊ×Ｓ^２ _ｊ
により計算する重要度計算ステップと、
用語Ｔ_ｊをＶ_ｉｊに基づいてリストアップした用語リストを作成して出力するリスト作成ステップと、
を含んだ文書データベースにおける重要語抽出方法。
請求項１において、前記出現頻度計算ステップは、全文書における用語Ｔ_ｊの出現回数をＵ_ｊとし、文書Ｄ_ｉにおける用語Ｔ_ｊの出現回数をＵ_ｉｊとし、取得したｍ個の全用語についての出現回数の合計をＵとして、前記出現頻度Ｗ_ｉｊを
Ｗ_ｉｊ＝（Ｕ_ｉｊ／Ｕ_ｊ）×ｌｏｇ（Ｕ／Ｕ_ｊ）
の式により計算する文書データベースにおける重要語抽出方法。
請求項１または２において、利用者入力により文書Ｄ_ｉの指定を受け付けるステップを含み、前記リスト作成ステップは、指定された文書Ｄ_ｉに含まれる用語Ｔ_ｊを重要度計算ステップにより計算した重要度に基づく順番でリストアップしたリストを作成する、文書データベースにおける重要語抽出方法。
請求項１または２において、リスト作成ステップは、文書Ｄ_ｉごとに用語リストを作成するとともに、利用者入力によりキーワードの指定を受け付けるステップと、当該キーワードに該当する用語が所定の重要度Ｖ_ｉｊとなる場合の文書Ｄ_ｉ用語リストを出力するステップとを含む、文書データベースにおける重要語抽出方法。
請求項１または２において、特定の用語を収録した辞書データベースにアクセスするステップを含み、前記リスト作成ステップは、当該辞書データベースに存在する用語を前記用語リストに掲載しない、文書データベースにおける重要語抽出方法。
請求項１または２において、特定の用語と係数とを対応付けして記憶した係数データベースにアクセスするステップと、用語Ｔ_ｊの重要度Ｖ_ｉｊに対応の係数を乗算した値を新規の重要度とするステップとを含み、前記リスト作成ステップは、当該新規の重要度に基づいて用語リストを作成する文書データベースにおける重要語抽出方法。
請求項１〜６のいずれかにおいて、
前記文書データベースに含まれるｎ個の文書から１つ以上の文書Ｄ_ｈを抽出するステップと、
文書Ｄ_ｈに含まれる用語の全数ｘを取得するステップと、
前記用語リスト作成ステップにより作成された文書Ｄ_ｈについての用語リストに含まれる用語Ｔ_ｇ（ｇ＝１，２，３，…，ｘ）を出力するとともに、利用者入力により当該用語Ｔ_ｇから１つ以上の用語Ｔ_ｋ（ｋ＝１，２，３，…，≦ｘ）の指定を受け付けるステップと、
指定されたＴ_ｋの数ａを取得するステップと、
文書Ｄ_ｈにおける用語Ｔ_ｇについての重要度Ｖ_ｈｇに基づいてｙ個の用語Ｔ_ｆ（ｆ＝１，２，３，…，ｙ）を抽出するステップと、
用語の数ｙを可変設定しながら、用語Ｔ_ｆのうち、指定された用語Ｔ_ｋに一致する用語の数ｂを取得するステップと、
文書Ｄ_ｈについての用語抽出精度Ｚ_ｈを、
Ｚ_ｈ＝ｂ／ａ＋｛ｘ−（ａ＋ｙ−ｂ）｝／（ｘ-ａ）
の式により計算するステップと、
Ｚ_ｈの値が最大となるときのｘとｙを取得するとともに、当該ｘとｙとの関係を近似する関数ｙ＝ｆ（ｘ）を求めるステップと、
を含み、
前記リスト作成ステップは、前記関数ｙ＝ｆ（ｘ）に基づいて、ｘ_ｉ個の用語を含む文書Ｄ_iについての用語リストにリストアップする用語数ｙ_ｉをｙ_ｉ＝ｆ（ｘ_ｉ）により算出し、当該算出された用語数ｙ_ｉの用語を掲載した用語リストを再作成する、
文書データベースにおける重要語抽出方法。
コンピュータにより構成され、請求項１〜７のいずれかの方法に含まれているステップを実行する重要語抽出装置。
コンピュータにインストールされて、当該コンピュータに請求項１〜７のいずれかの方法に含まれているステップを実行させるコンピュータプログラム。
請求項９に記載のコンピュータプログラムを記録したコンピュータにより読み取り可能なプログラム格納媒体。