JP4467791B2

JP4467791B2 - 情報管理及び検索

Info

Publication number: JP4467791B2
Application number: JP2000522537A
Authority: JP
Inventors: ウイークス、リチャード
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1997-11-24
Filing date: 1998-11-18
Publication date: 2010-05-26
Anticipated expiration: 2018-11-18
Also published as: AU1167899A; CA2309499C; JP2001524717A; AU746743B2; WO1999027469A1; EP1032896A1; DE69804495T2; EP1032896B1; NZ504304A; CA2309499A1; DE69804495D1; ES2175813T3; US6338057B1

Description

【０００１】
発明の属する技術分野
この発明は、データ管理と検索用の方法と装置との分野に属し、特別な応用がデータ組内部でのキーデータアイテム（主要データ項目）を識別するための方法と装置との分野で見出されるものに関する。
【０００２】
従来の技術
近年の技術の進歩、なかでもCD-ROM、イントラネット、及びワールドワイドウェブ（ＷＷＷ）は電子形式で利用可能とされる情報資源の量を著しく増大させてしまった。
【０００３】
発明が解決しようとする課題
こういった増大する情報資源が関係する一つの問題はこういったシステムの個個のユーザに対して関心のあるデータ組（例えば雑誌記事、ニュース記事、技術開示及び他の情報）を位置決めとその識別とである。
【０００４】
情報検索ツールで探索エンジンとかウェブ案内といったものはユーザが関心をもつデータ組を位置決めすることを助ける一つの手段となっている。先を見越したツールとかサービスで次にあげる例もまた個個のユーザにとって関心がもたれる可能性のある情報を識別するために使用することができる。例は、ニュース群や、インターネットのwww.pointcast.comで利用可能なPOINTCAST^TMシステムとかJASPERエージェントのようなツール（出願人の未決国際特許出願）PCT/GB96/00132に詳細されており、この主題は本願でも参考に供するものとする）である。
【０００５】
この様な情報検索兼管理ツールが実効をあげるためには、要約が一組のキーワードかがこのツールによって位置決めされたいずれものデータ組用にしばしば同定されて、それによりユーザがこのキーワードの組を調べたり、要約を調べたりすることによりデータ組の主題についての印象を形成できる。
【０００６】
要約を生成する手段としてデータ組内部で発生するキーワードを要約用ツールは一般に使用する。キーワードは一般に“and”とか“with”等といった接続詞及び他のいわゆる低い値の単語、例えば“it”，“are”，“they”など要約用ツールによって調べられているデータ組の主題の指示になりそうもないすべてをはぎとって一般に識別されている。
【０００７】
また、キーワード（単語）とキーフレーズ（語句）とはまた情報検索と管理ツールによって異なる形式の情報についてのユーザの好みを示す手段としてだんだんと、使用されるようになっている。このような技術は“プロフィル形式（profiling）”として知られ、このプロフィルはユーザが関心のあるものとしてデータ組を表示するのに応答してツールにより自動的に生成でき、ユーザは例えばウェブページにブックマーク（しおりをつける）かウェブページからデータをダウンロードして表示を行なう。
【０００８】
最新のプロフィル形成用ツールもまた類似性マトリックスとクラスタ化技法を用いてユーザのプロフィルに関連性があるデータ組を識別する。JASPERツールで上記参照済のものはこの目的のためのプロフィル形成用技術を用いるこの種のツールの例である。
【０００９】
出願人の未決欧州特許出願、番号EP97306878.6には、ここで参照している主題のものであり、いくつかの継続している単語で成るキータームを識別するための手段を開示している。こういったキータームは類似性マトリックス内部で個別のキーワードとしても使用される。このことが“Information Technology（情報技術）”とか“World Wide Web（www）”といったターム（用語）を２つもしくは３つの別個のキーワードとしてではなく、それ自体が正しいものであるタームとして認識可能としている。
【００１０】
しかし、こういったキーワードとフレーズを識別するための技術は最適とは言えず、その理由に特定のデータ組についてのキーワードとフレーズを識別するために接続用単語と他の低い値の単語を除去してしまうことがあげられる。この技術は高い値だけを含む“information technology”のようなフレーズを識別するにすぎない。しかし、接続語もしばしば文脈情報の大きな役割を与えている。
【００１１】
例えば英語では、“bread and butter（パンとバター）”というフレーズは２つの意味をもっている。第１は食物に関係し、第２は人の生計もしくは人の生存手段である。同じように、英語では、ターム“bread and water（パンと水）”もまた食品と関係するとともに、第２の意味として、困難を含意するためによく用いられる。
【００１２】
情報検索もしくは管理ツールですべての接続単語をテキストのブロック内でキーワードとフレーズを識別するプロセスの際に除去してしまうものはフレーズ“bread and butter”と“bread and water”を“bread”，“butter”，“water”を含むキーワードのリストに減縮してしまう。このようなリストでは困難とか人の生計という第２の意味は失なわれている。
【００１３】
別な問題は“Bank of England（英蘭銀行）”，“Stratford on Avon（ストラットフォードオンエイボン）”といった名称とか、“black and white（黒と白）”，“on and off（オンとオフ）”といった用語がそれらの構成要素である高い値の単語に減縮されて、したがってツールにより戻される情報を変更することである。
【００１４】
課題を解決するための手段
この発明の第１の特徴によると、データ組を管理するための装置が提供されていて、入力としてデータ組を受領するための入力手段と、前記データ組内部で、いくつかの単語でなるいくつかの単語群を含み、前記データ組内部で第１の予め定めた分布パターンと適合する第１の組の単語を識別するのに適応された手段とがあり、ここで前記単語群内の前記単語は該データ組内で継続して発生するものであって、さらに前記第１の組内部で、いくつかの前記単語群を含み、前記データ組内部で第１の予め定めた分布パターンと適合する単語のサブセットを識別するのに適応された手段と、前記第１の組から単語の前記サブセットを除去し、それによって前記データ組の１組のキータームを形成するように適応されている手段と、少くとも１つの前記キータームを出力する出力手段とを有する装置となっている。
【００１５】
この発明の第２の特徴によると、データ組を管理する方法が提供されていて、そこには次の段階が含まれている：
１）データ組を入力として受領する段階と；
２）前記データ組内部の第１の分布パターンと適合する第１の組の単語を識別する段階、ただしこの第１の組はいくつかの単語のいくつかの単語群を含んでいて、前記単語群内の前記単語は該データ組内で継続して発生するものである、と；
３）前記第１の組で単語群のサブセットを識別する段階、ただしこのサブセットは前記データ組内部で第二の分布パターンに適合するものである、と；
４）前記第１の組から前記サブセットを除去してそれによりキータームの組を識別する段階と；
５）前記キータームを出力する段階とを含むデータ組を管理する方法である。
【００１６】
発明の実施の形態
このように、この発明の実施の形態は、受領したデータ組内部で、そのデータ組内部で第１のパターンによりいくつかの単語の単語群の第１の組を識別し、次にこの第１の組内部から単語群の第２のパターンを識別する。キータームは第２のパターンとは適合しない第１の組内部のいくつかの単語の群である。
【００１７】
データ組内部で、単語群のパターンを識別するというやり方は低い値の単語を取除かずにキータームが抽出できるようにする。これは接続語や他の値の低い単語がデータ組内部に保存できて、それにより“on and off”，“bread and water”及び“chief of staff（用員の主任）”といった用語（ターム）がそれ自体としてキータームとして識別できるようにする。
【００１８】
これが抽出されたキータームの品質を改善し、また任意の長さのキータームが識別されるようにする。
【００１９】
好ましいのは前記第１の分布パターンは前記第１の組内の各単語群が前記データ組内で少くとも２度発生することを求めており、また前記第２の分布パターンは前記サブセット内の各単語群が第１の組の内のより大きな単語群内部で発生する単語もしくは単語のストリングを含むことを求めているのがよい。
【００２０】
こうしてこの発明の実施態様はいずれもの繰返された単語と語句とを拾い出して、より長いものの中にすでに含まれていたいずれもの単語もしくは語句を取り除く。例えば、もし文書が“Internet search engines”を１度ならず参照しているとすると、全体の語句はキータームとなるが、しかし“Internet”と“search engine”とはそれ自体として取り除かれることになり、単一の語句のように“search”と“engine”であったのと同じになる。
【００２１】
好ましいのは、前記第１の特徴が前記単語群を修正するための手段を含み、それがある単語群内の第１の高い値の単語の前に発生する低い値の単語を取り除くように適用され、かつある単語群内の最後の高い値の単語の後に発生する低い値の単語を取り除くように適用されていることである。単一の、低い値の単語で成る単語群というささいな場合は、単語群自体が取り除かれる。
【００２２】
好ましいのは第２の特徴が次の段階を含むことである：
６）ある単語群内の第１の高い値の単語の前に発生する低い値の単語を取り除き、かつある単語群内の最後の高い値の単語の後に発生する低い値の単語を取り除く段階を含む。
【００２３】
単語群の前後から低い値の単語を取り除くことは、キーターム抽出器によって戻されて来る単語群の品質を改善する。
【００２４】
好ましいのは第１の特徴が前記第１の組内の前記単語群の各々をどのくらいの頻度で前記単語群の各々が前記第１の組で発生するかに従って重み付けをするための手段と、前記第１の組の中の少くとも第１の単語群についての前記重み付けを前記サブセット内の第２の単語群の重み付けに比例して修正するための手段と、前記両重み付けに依存して出力用の前記キータームを選ぶ手段とを含むことである。
【００２５】
好ましいのは、第２の特徴が次の段階を含むことである：
９）前記第１の組内の前記単語群の各々をどのくらいの頻度で前記単語群の各々が前記第１の組で発生するかに従って重み付けをする段階と；
１０）少くとも第１の単語群の前記重み付けを前記サブセット内の第２の単語群の重み付けに比例して修正する段階と；
１１）前記両重み付けに依存して出力用の前記キータームを選ぶ段階を含むことである。
【００２６】
この発生頻度による単語群の重み付けは識別されたキータームの順序付け機構を与えている。
【００２７】
サブセット内の用語（ターム）の重み付けによる重み付けを修正することは第１の組から除去された用語が残っている用語の重み付けに影響を与えられるようにし、このことで除去された用語がサブストリングを形成する。このようにしてデータ組内部でしばしば発生するサブストリングはキータームの識別に適切な影響を与えることができる。
【００２８】
こういった最も頻繁に発生するキータームがそのデータ組の情報内容に最も関連をもつとの仮定がされる。
【００２９】
好ましいのは第１の特徴がいずれかの単語群内のいずれかの単語を修正するための手段を含み、それがある単語からステムされた単語を作るためにいずれものプレフィックスを取り除くように適用され、かついずれものサフィックスを取り除くように適用されていることである。
【００３０】
好ましいのは第二の特徴が次の段階を含むことである：
７）いずれかの前記単語群内のいずれかの単語をその単語のプレフィックスもしくはサフィックスを取り除くことにより修正してステムされた単語を形成する段階。
【００３１】
プレフィックスとサフィックスとを取り除くことは各単語が中立形式に減縮されるようにし、それによってプレフィックスとサフィックスに依存しない重み付けが計算できる。
【００３２】
こうして繰返しはされるが異なるプレフィックス及び／又はサフィックスをもつものが同じ単語の繰返し発生として勘定できる。
【００３３】
好ましいのは第１の特徴が、前記ステムされた単語と関係する前記プレフィックスもしくはサフィックスを記憶するための手段を含み、それによって前記プレフィックスもしくはサフィックスを前記ステムされた単語に回復可能とすることである。
【００３４】
好ましいのは、第２の段階が次の段階を含むことである：
８）前記ステムされた単語と関係する前記プレフィックスもしくはサフィックスを記憶し、それによって前記プレフィックスもしくはサフィックスを前記ステムされた単語に回復可能とする段階。
【００３５】
ステムされた単語に対してプレフィックスとサフィックスを回復することはこの発明の実施形態の出力を形成するキータームの品質を改善する。
【００３６】
実施例
この発明の実施例を添付図面を参照して例として記述して行く。
【００３７】
この発明はデータ管理及び検索ツールの分野で特に価値があるものと思われる。ことに、データ組からキータームを抽出しかつこのようなキータームを使用することが求められているいずれものデータ管理兼検索ツールもこの発明から恩恵を受けることになる。例えばキータームがデータ管理ツール内部で使用できて、このツールには文書要約器、プロフィル形成用ツール、探索エンジン及び上述したJASPERツールのような予見的なデータ管理ツールがある。
【００３８】
一つの特殊応用では、この発明はキータームをデータ組から抽出するのに接続語とか他のいわゆる“低い値の単語（低値語）”をデータ組からはきとらずにできる。接続語と低値語とはキータームとフレーズの意味に対して細かい区別立て（subtlety、微妙なこと）をしばしばもたらす。接続語と低値語とを保持することにより、こういった細かい区別立ては維持される。これが先行技術のシステムと比較して抽出されたキータームとフレーズの品質を改善しており、それはキータームそれ自体のユーザの認識からもまたこのようなキータームを入力として用いる他のデータ管理ツールの動作の改良に関係しても言えることである。
【００３９】
一般に、自動的に抽出されたキータームは２つの主なやり方で使用できる。このキータームはデータ管理ツールにより使用されるかユーザに直接呈示される。データ管理ツールはキータームの呈示の品質については時にあまり関心を示さない。データ管理ツールは単語の一部を切り落した（ステムした）状態の単語を含んでいるキータームを、あるいは怪しげな大文字使用（dubious capitalisation）を有する単語を、ツールの出力にほとんど影響を与えずに受理することができる。（注：英語ではBank of England（英蘭銀行）は唯一の機関だが、bank of englandはイングランドのどの銀行でもよい。）
しかし、結果がユーザに直接呈示されることになるときには、大きな呈示値（文書の真の情報内容を示唆している高い値のユーザにとって明白な表現の用語を意味する）をもつキータームが必要とされる。例えば１つの癖の悪い（rogue）用語でも、例えば怪しげな大文字使用をしているものも、ツールの出力についての認識される品質に大きなインパクトを与えることができる。フレーズ（これは各種の大文字使用と単語の終り方をもって文書内に出現していてよい）がよくフォーマットを整えたものであることが好い。キータームは数が制限されているのが好く、呈示されているものが確かにユーザにとってより大きな値となるようにする。
【００４０】
図１を参照すると、情報管理兼検索ツールセットの模式的な表現が示されていて、この主な構成要素はファィルサーバ１３０上に置かれている。ツールセットはキーターム抽出器部品１００，JASPERエージェント１０５，ページメモリ１１０，プロフィルメモリ１１５，テキスト要約器１２０，網インターフェース１２２及び低値語と省略データベース１２５を備えている。
【００４１】
ファイルサーバ１３０は網インターフェース１２２を経由して経１４５と通信する。網１４５は例えば私的団体の網で例えばインターネットプロトコルを使用するもの、公衆交換電話網（ＰＳＴＮ）、あるいは公衆データ網であってよい。網１４５はルータ１４８を含んでいてインターネット１６０へのゲートウェイアクセスを提供できる。サーバ１３０上にある情報管理ツールのユーザは網１４５上のアクセスを得るのに適当なインターネットビューワ１３５を用いてそれができ、パーソナルコンピュータ上で実行している通常のインターネットブラウザ製品のように網１４５に、パーソナルコンピュータ自体もしくはワークステーションによって用意されているインターフェースで、リンクされる。
【００４２】
サーバ１３０内部に組込まれている情報管理ツールはインターネット１６０に網１４５と、そのルータ１４８と、インターネットルータ１５０とを経由してアクセスを取得できる。インターネットサービスプロバイダサーバ１５５はインターネット１６０上で必要に応じて適当なルータ１６５を経由してアクセスされる。
【００４３】
情報管理兼検索ツールセットは上述の図１の構成要素を使用してユーザインターフェース１４０のオペレータがインターネット１６０を経て情報の位置を決められるようにすることもあろう。
【００４４】
例えば、JASPERエージェント１０５はプロフィルメモリ１１５内に記憶されているユーザプロフィルにアクセスして、ユーザにとって関心がありそうなインターネット１６０上でアクセス可能な、文書についての夜通しの探索を実行するようにできる。JASPERエージェント１０５はページメモリ１１０内に検索した文書についての情報を記憶する。特定のユーザのプロフィルでプロフィルメモリ１１５から検索したものを用いて、JASPERエージェント１０５は次にページメモリ１１５をアクセスしてユーザのプロフィルにあるキータームとページメモリ１１０内に保存されている文書情報とを比較する。この発明のキーターム抽出器１００は、ユーザプロフィル内で使用するための用語の生成と、文書の関連を測るのに使用するための検索された文書からのキータームの抽出との両方に応用される。この実施例のJASPERエージェント１０５についての詳細は国際特許番号PCT GB96/00132を参照することとする。
【００４５】
キーターム抽出器１００は能動ツールであってよく、これがインターネットサービスプロバイダのファイルサーバ１５５からダウンロードされたページを連続して監視する。キーターム抽出器１００はそこでこういったキータームをJASPERエージェント１０５のような他のツールに送り、そこでは別な処理が別な動作が情報管理兼探索ツールセットによりダウンロードされたページに関してとられなければならないかどうかを判断する。
【００４６】
これに代わって、キーターム抽出器１００はJASPERエージェント１０５によるかあるいは要約用ツール１２０によってページメモリ１１０内で記憶のために選ばれているページに応答して呼び出されるようにしてよい。
【００４７】
いずれの場合もキーターム抽出器１００はそのページを解析してそこからキータームを抽出することになるが、これはオペレータの入力とは独立しているのがよい。
【００４８】
キータームは情報管理兼検索ツールにより特定の文書のヘッドライン要約として単純に記憶されて後日ユーザにより使用するようにすることもできる。
【００４９】
代りに、キータームはプロフィルツール（JASPERエージェント１０５内部にある）に送られて、このツールはこういったキータームを使用してユーザのプロフィルもしくは特定の文書用語（ターム）マトリックスあるいはその両方を更新することができるようにしてよい（このプロフィルツールもしくは文書用語マトリックスについての別な情報は国際特許出願番号PCT GB96/00132を参照できる）。
【００５０】
このキーターム（及びキーターム抽出器１００からの恐らくは何がしかの関係する処理結果）は要約を作成するツール１２０に送られ、そこには生成された要約内の一部もしくは全部が含まれることになる。
【００５１】
図２を見ると、キーターム抽出器装置１００の好ましい実施例における主要機能ブロックが示されている図である。各機能ブロックは処理の適当な部分を実施できるもので、この処理は以下に記述する。全体像を見ると、入力２００はテキストの部分を含んでいるデータ組を受領して、各データ組に識別器（ＩＤ）を割当て、各データ組をデータメモリ２０５内に記憶する。文（センテンス）識別器（ＩＤ）２１０は記憶されたデータ組に作用して含まれているテキストを文（複数）に分けてこの文を適切にデータメモリ２０５内に記憶する。第１の組識別器（ＩＤ）２１５は特定のデータ組と関係している記憶された文から第１の組の単語群を識別するように働く。第１の組ＩＤは適切な選択規準を第１の組の中へ包含するための単語群を選ぶために適用する。サブセット識別器（ＩＤ）２２０はいずれか適切な選択規準を用いて第１の組から単語群のサブセットを識別するように動作する。文ＩＤ２１０、第１の組ＩＤ２１５、及びサブセットＩＤ２２０は文カウンタ２２５と一緒に動作して、特定のデータ組内部で識別された文が必要に応じて走査できるようにする。減算器２３０は第１の組ＩＤ２１５から“＋”入力で第１の組を受けまたサブセットＩＤ２２０から対応するサブセットを“−”入力で受けるようにされている。減算器２３０は“減算”を実行して受けた第１の組の単語群から受けたサブセットの単語群を取り除いて一組のキータームを作り出して、出力２３５により出力されるようにすることができる。
【００５２】
この発明の実施例はテキスト情報を含んでいるデータ組の管理用ツールに応用することができ、ここでこの管理は少くともその一部があるデータ組内で１度ならず発生する単語シーケンスに頼っているものであり、またこの単語シーケンスは１度ならず発生する他のいずれかの単語シーケンスのサブストリングではないものとする。このような選択規準は次の例で示すことができる。例えば、大文字Ａ，Ｂ，Ｐ，Ｑなどは単語を表わすために使用され、これらの文字のストリングで文を表わすために使用されているとする。この例は以下の“文”を使用しており、受けたデータ組内部で識別されたものである：
ＡＢＣＤＥＦ−１
ＰＱＢＣＤＥ−２
ＢＥＦＣＤＰ−３
ＣＤＥＢＥＦ−４
これらの文から、単語群の第１の組は上のデータ組の中で複数回発生するという規準に従って選ぶことができる（このプロセスとその実施についてのより詳細は次に示す）：
ＢＣＤＥ（文１と２で２度発生している）
ＢＥＦ（文３と４で２度発生している）
ＣＤＥ（文１，２，４で３度発生している）
ＣＤ（文１，２，３，４で４度発生している）
ＥＦ（文１，３，４で３度発生している）
Ｐ（文２と３で２度発生している）
これらの組から、次のキータームが上述の第２の規準により第１の組から選ぶことができ、第２の規準は単語群が第１の組内のより長い単語群のサブストリングを形成しないというものである：
ＢＣＤＥ
ＢＥＦ
Ｐ
しかしここで注意したいのは、サブストリング‘ＣＤ’‘ＣＤＥ’及び‘ＥＦ’はキータームとして含まれてはいないことである。この理由はすべてがより大きなターム‘ＢＣＤＥ’もしくは‘ＢＥＦ’のサブストリングであることによる。しかしながら、もし例えばこのより大きなターム‘ＢＣＤＥ’が１度しか発生しないとすると、そのときは‘ＣＤＥ’はキータームとして特徴をもつことになる。
【００５３】
上で概説した２段プロセスの結果は、もしデータ組が次のシーケンスの中で次の用語を含んでいるとすると：
…Jasper agent…
…Jasper…
…agent…
…Jasper agent…
…Jasper…
…agent…
…Jasper…
…agent…
そのときは‘Jasperエージェント’がキータームとなり（‘tool set including a Jasper agent’のようなもっと長い用語にサブサム（部分の和）が作られないことを条件とする）、がしかし、‘Jasper’も‘agent’も単独ではキータームとなることはなく、これはどんなに多くの回数これらの用語が出現しても関係がないとされる。これが３つ全部をキータームとして代表させるのを避けていて、‘Jasper agent’だけを代表させることによって全部もしくは大部分の情報が保たれるという仮定に頼るものとなっている。
【００５４】
加えて、構成要素部分がデータ組内で発生する頻度を勘定に入れることによって、用語‘Jasper agent’についての代表的な重み付けが計算できる。例えば、もし‘Jasper agent’が頻繁にではなく出現し、また‘agent’が‘Jasper agent’と同じような頻度ではあるが用語‘Jasper agent’の方がより大きな頻度であるとすると、そのときは複合用語‘Jasper agent’はこの認識にあたりデータ組の他のキータームに対して重み付けをすることができる。
【００５５】
好ましい実施例では、情報管理ツールはユーザに呈示されたキータームに応答して、それらを例えば受入れるか拒否するか動作するように求めてよく、またインターフェースがキータームの部分要素を選ぶという機能を提供してもよい。このようなツールは例えばプロフィル形成用ツールであってよく、これが入力した用語を変更することによるユーザの個人的プロフィルユーザに精製できるようにする。
【００５６】
好ましい実施例はまたフルストップ（終止符）と他の句読点マークを使用して単語シーケンスに分け目を付けるようにできる。これが可能性のあるキータームの長さを制限するのに役立つ。
【００５７】
実施例はさらにサブセットの第１の組についての単語群の選択について別の規準を実施してもよいし両方を実施してもよい。好ましいのは単語群が先行するか後に続く低値語をもたないように選ばれることである。“低値語”には接続詞、副詞及び何らかの一般的な単語であり、例えばthey，are，it，has，of，in等々である。
【００５８】
ここで上の例に戻り、低値語を小文字で表わすとすると、文は次のようになる：
ａｂＣｄＥＦ−１
ＰＱｂＣｄＥ−２
ｂＥＦＣｄＰ−３
ＣｄＥｂＥＦ−４
ここで、これらの文から、頭と尾とに低値語をもたないキータームは：
ＣｄＥ文１と２
ＥＦ文１と３と４
Ｐ文２と３
ここで注意したいのは、‘ｂ’が用語“ｂＣｄＥ”の前から失なわれているが、中間の‘ｄ’は保存されていることである。したがって“bread and butter”といった用語と他の接続詞と低値語とを含んでいる用語とはキータームとしてリストされることになる。
【００５９】
全体の文がキータームとしてリストされないのが好い。しかしデータ組内である文が２度発生する場合には、上述の方法はキータームとしてそれを含むことになるが、文を分割するセンテンススプリッテングとキーターム制限技術が採用されないことを条件としている。
【００６０】
図３を参照すると、流れ図が示されいて、キーターム抽出器１００によって実施される段階の好ましいシーケンスを示している。これらの段階は以下に掲示されていて、それらの動作について補足説明が付けてある。
段階３００：テキストを入力する。
段階３０５：データ組を文に分ける。
段階３１０：各文を１又は複数の単語で成る単語群に分ける。
段階３１５：各単語群をとって頭と尾にある低値語を取り除く。
段階３２０：最長単語群を最初にして最短単語群に至る順序で記憶し、次に各単語のステム（茎切り）をしてケース（大文字か小文字か）を無視する（ステミングはプレフィックスとサフィックスを取り除くことを含む既知の技術である）。各ステムした単語とその取り除かれたプレフィックスとサフィックスとの間の関係を保存して、後で必要となるときにもとの単語の再生回復を可能とする。
段階３２５：各単語群に入力テキスト内での発生頻度と等しい初期重み付けを与えて、重み付け１の全単語群を無視する（換言すれば繰返されない単語群を無視する）。
段階３３０：単語群を上方に伝搬する：長さ（すなわち１単語のみの）のタームで始まり、上方に作用して、候補単語群を含む次に短いタームを見付ける。候補単語群の重み付けによりこの単語群の重み付けを増し、候補単語群を取り除く。候補単語群がより長い単語群のサブストリングであることがなくなるまで繰返す。
段階３３５：予め選んだ（すなわち構成可能な）最大許容長より長い単語群が残っていないことをチェックする。このようなより長い単語群が残っていれば、こういった単語群を‘分けられることになっている’リストに加えて、この‘分けられることになっている’リスト内の単語群に対して上の段階３１０から繰返す。この段階の条件が満足されるまで、あるいは最大単語群長がこれ以上減らなくなるまで繰返す。
段階３４０：各単語の重み付けをそれが含んでいる単語の数により除算することによりスケール合せをし、この単語群を減って行くスケールされた重み付け順序に従って種分けする。
段階３４５：これらの単語群から得られたキータームの数を制限する戦略を適用するとし、とくに最大重み付けをもつものから単語群の適切な数を一般に選ぶようにする。
段階３５０：単語群がユーザに呈示されることになる場合は、この単語群を‘実世界（real world）’に戻す写像をする。段階３２０で、可能性のある単語群がステムされ、ケース（大文字か小文字かを示す）情報が無視されて一番広幅の可能な概念上同等の単語群の組を一つの中立な代表形式に写像する。逆写像は大文字化と単語の終結部とを再生回復する。
【００６１】
ここで注意したいのは、段階３３０で候補単語群がより長い単語群のサブストリングとして識別される第１のインスタンスでのリストから取り除かれることである。リストの最頂部に向う全体で各サブストリングを伝搬し、かつ候補タームがサブストリングとなっている各単語群の重み付けを増加することは可能である。このプロセスはキータームを重み付けする代替手段として使用されるのが好ましい。しかし、保存されるタームの結果を変更はしない。
アルゴリズム詳細
図３と図４とを参照するとして、上のアルゴリズムでの選ばれた段階が図４に示したようなテキストを用いる特定の例を参照して記述されることになる。
段階３０５：フルストップでの文の分割−省略での分割をしないように注意する。段階３００での受理に続いて、入力テキストが次の文に分けられる（４００）：（省略データベース１２５がこの目的で使用できる）
This is wholemeal bread and butter.
It uses salted butter.
Salted butter is good.
Bread and butter is mainly bread.
段階３１０：単語群を識別する−ステージ１処理４１０はキータームエンジン４７０の制御下にあり、エンジン４７０はキーターム抽出器１００の機能部品として実現されているのがよく、この処理４１０は入力テキスト４００内で識別された文から１つまたは複数の単語で成る単語群を識別することにより始められる。ステミングをする前に単語群（４２０）は次のように識別される。
【００６２】
bread and butter is mainly bread
wholemeal bread and butter
butter is mainly bread
bread and butter
wholemeal bread
salted butter
bread
wholemeal
butter
salted
（単語群を識別する仕組みについては以下でさらに記述する。）
段階３２０：ステミングと大文字使用−現在の例では必要とされないがステージ１処理４１０はステミングを含むことができて、プレフィックスとサフィックスとをある単語群内の単語から取り除き、それによって各単語を中立の表現形式に減縮するようにできる。例えば、ステミングは“surfing the net”，“surf the net”及び“surfs the net”というフレーズを１つの代表的なフレーズ“surf the net”と減縮する。好ましいのは、プレフィックスとサフィックスとがこの中立形式と関係付けて記憶されて、段階３５０で再構築できるようにすることである。
【００６３】
ステージ１処理４１０はまた大文字使用化を含むことができ、（人物名のように）大文字で始まる必要がある単語と、それを必要としない単語（例えば文の始めにある単語）とを識別する。大部分のアクロニム（頭文字）は他の省略と同じように大文字を含んでいる。こういった大文字使用を必要とする単語を識別することはこういった単語を段階３５０によりこの形式で呈示されるようにする。
段階３２５：ステージ１処理４１０はまた初期重み付けを識別された単語群に割当ててステージ１出力を完成させて、次のようにする：
1 bread and butter is mainly bread
1 wholemeal bread and butter
1 butter is mainly bread
2 bread and butter
1 wholemeal bread
2 salted butter
2 bread
1 wholemeal
4 butter
2 salted
ステージ２処理４３０はキータームエンジン４７０の制御の下にあって、重み付け１のすべての単語群をステージ１出力４２０から取り除いて、ステージ２出力４４０として単語群の次の組を残す：
2 bread and butter
2 salted butter
2 bread
4 butter
2 salted
段階３３０：ステージ処理４５０もまたキータームエンジン４７０の制御下にあって、単語群を上方に伝搬し、サブストリングタームを取り除いて、次のようなキータームの出力４６０を結果する：
4 bread and butter （もとの２＋‘bread’からの２）
8 salted butter （もとの２＋‘salted’からの２と’bread’からの４）
用語‘bread and butter’からの値は‘butter’からの値‘４’だけ増えていないが、その理由は現在の方法が言うところは‘butter’が上方へ伝搬するのは２単語用語である‘salted butter’までであり、以後はそれが無視されるからであり、言い換えると、より長い単語群のサブストリングとして識別される最初の瞬間に単一用語‘butter’が無視されることによる。
【００６４】
別な立場からこれを見ると、長い方の単語郡内に含まれていると見付けられた単語群の重み付けはこのような長い方の単語群の１つについての重み付けに加えることだけができるのであり、短い方の単語群を含むこのような長い方の単語群の全ての単語群の重み付けに加えられない。ここで記述した方法では一番短い長い方の単語群の重み付けだけをそこに含まれている単語群の重み付けに比例して修正している。これが段落３２５の例であり、ステージ２で残っている単語群が長さが短くなる順序とされている。単語“butter”（重み付け４）を採り、リストを上へ見ていくと第１のすなわち一番短い単語群で“butter”を含むものは“salted butter”である。一度“butter”からの重み付けが“salted butter”内に吸収されてしまうと、もうリストの上には続いて行けず、また“bread and butter”に加えられることもできない。しかし、もし、例えば“bread and butter”の代わりに一番上位の単語群が“bread and salted butter”であるとするとそのときは“salted”（２）と“butter”（４）の重み付けを“salted butter”の重み付け（２）に加えて合計で８とした後に、“salted butter”（８）の合計の重み付けが、次に“bread and salted butter”の重み付けに（“bread”の重み付け（２）と一緒に）加えられて、“salted butter”もまた取除かれて２つではなく、１つの単語群だけが残ることになる。
段階３３５：長い単語群についての可能な分割。この例では必要としないが、通常の最大単語群長は約５もしくは約６語となる。しかし、この例では、もし最大受理可能単語群長が２と設定されていたとすると、“bread and butter”を分割するために段階３１０に戻る必要があることになる。
【００６５】
上述した図４の例については、単語分割は次の表１の別の段階で示されることになり、ステージ３処理４５０で始まる：
【表１】

【００６６】
長い単語群を分割する好い方法はより長い用語のサブストリング内部に含まれることにはなりそうもない群の中心に向っている単語を見付けることである。好ましい戦略は最初に（接続詞が）離節的な（disjunctive）性質をもつ単語を探すことである：例えば‘but’と‘or’を‘and’とか‘of’のような接続的用語を考慮する前に探す。
【００６７】
しかし、離節的な用語が存在せず、接続的用語だけが単語群内にある場合には、長い単語群と接続語で単語群の分割をすることという妥協を採用することが可能である。例えば、接続語をそのままとしておくことは１つもしくは２つの単語により単語群の長さを増大させるだけであり、この場合には長い単語群を保存するのが価値があることになる。
段階３４０：（上述の“非分割”単語群すなわち最大長６の単語群に立ち戻り）、単語群はその長さ、すなわち単語群内の単語群の数によってスケール合せがされる。これは次の結果を生む：
1.33 bread and butter （４割る３）
4.0 salted butter （８割る２）
これらの用語をスケールを合わせた重み付けで種分けすると結果は：
4.0 salted butter
1.33 bread and butter
この段階が含まれるのは、作られたキータームの信頼性を強化するために観測を介して見付けられたことであるによる。より長い用語が受取られてよいとする追加の重み付けに対する補償をするために、正規化が作用していると信じられている。この妥協は好ましいものとされ、全部ではないにしても若干のより長い用語は短い用語よりもデータ組の主題についてのより集中した情報を含んでいてよいからである。また、逆に、全部ではないとしても若干の短い用語は若干の長い用語よりもデータ組の主題についてもっと集中した情報を含んでいてよい。
段階３４５：キータームとして呈示される単語群の数を制限すること。この段階に対しては、広範囲の文書に対するキータームについての制限された数を作るという一組の戦略を備えることが好ましい。次のような戦略が単独であるいは何らかの組合せで使用できる。
【００６８】
・現在の用語についての組合せた合計の重み付けが全キーワードの組合せた合計の重み付けのうちの構成可能な割合に上昇するまで、継続する用語を表示する。この場合には次のような式となり：
Σ（表示された重み付け）＜＝Σ（全重み付け）／１．５
例えば次のような得点：
４３３２１１１
で最初の３つの用語だけが表示される。ここで式の中で第２のタームについての分母１．５は良い結果をもたらすことが見付かっている。１よりも大きな他の値を使うこともできる。
【００６９】
・隣りの用語の重み付けの比が構成可能な値以下となるまで継続する用語を表示する。この終結式は例えば：
（重み付け）（ｉ＋１）＜＝（重み付け）（ｉ）／２
例えば次のような得点：
４３３１１１１
で最初の３つの用語だけが表示される。この式の中で第２のタームについての分母２は良い結果をもたらすことが見付かっている。
【００７０】
・最初の用語の重み付けに対する用語重み付けの比が構成可能な値以下に落ちるまで継続する用語を表示する。この終結式は例えば：
（重み付け）（ｉ）＜＝（重み付け）（１）／３
例えば次の得点：
４３３１１１１
で最初の３つの用語だけが表示されることになる。
【００７１】
上の規則により許される継続する用語の表示を構成可能な最大に制限するが、等しい重み付けの用語の完全なブロックを含めるために必要な場合にはその数を越えられるとする。値７が有用であると見付けられていて、その理由はあるデータ組に対して７つのキータームを用意することによる。例えば次のような得点で最初の７つの用語が表示される：
10 ８７６６５５５５４４
・単一単語の用語をとくに取扱い、単一単語の用語が構成可能な位置にあるいはその後で出て来るときには継続する用語の表示を中継する。値３が有用であると見付けられている。次の例では複数の数がいずれもの用語の中で単語の数を表している。用語は重み付けによりランク付けされている。例えば次の組では最初の４つの用語だけがその重み付けとは無関係に表示されることになる：
１３４３１２４
・上記の制限とは無関係に最小数を表示するが、等しい重み付けの用語についての完全なブロックを含む必要があるときはその数を越えてもよい。値２が有用であることが見付かっている。例えば、次の得点では最初の４つの用語が表示される：
５２２２１１
段階３５０：もとの形式に用語を戻す写像−これは段階３２０から続くもので、単語を単語のステムした状態もしくはオペレータに呈示できる形式に戻す変更した大文字使用とするプロセスである。
【００７２】
例えば次のフレーズを含む文書を考える
Surfing the net （分の始めにある）
Surf the net
Surfs the nets
段階３２０でステミングをし、大文字、小文字を無視することは一般にこういった用語を次のように写像させることになる：
Surf the net
適当な記録が取り除かれたプレフィックスとサフィックスについて保存されたとすると、段階３５０はステムしたフレーズを表示用の単一の代表的なフレーズに戻す写像をしてよく、この表示には大文字小文字の差を解決することとどの終りを適用するかを選ぶこととを含んでいる。ここでセンスのある（賢い）選択は次のようになってよい：
Surfing the net
一般的な場合では、これは２段階で達成され、大文字，小文字の解決することとプレフィックス／サフィックス再構築とである。
大文字小文字の解決（ case resolution ）：一般に、小文字が好ましいが文の最初の文字が大文字である場合を除く。この場合はケース情報が信頼性がないと考えられる（これ以外の単語もまた何がしかの大文字を有していないことを条件とする）。
サフィックス再構築：一組の経験的に決められた規則が適用される。最初にリストが作られ、テキスト内で発生している特定の単語の終結部のすべてについてリストされる。この情報は前もって段階３２０で記憶されるようにできる。もし複数の終結部が存在すると、次の表２にリストした規則が整合が見付かるまで継続して適用される。
【００７３】
【表２】

【００７４】
ここで、^*-は裸の単語（なにもない単語bare word）も−ｓもともに存在しないことを条件とする。
【００７５】
整合が見付からないとすると、単語の一番長い形式（もしくは一番長い形式の一つ）が取上げられてよい。
【００７６】
図３の流れ図に概略を示した好ましいキーターム抽出プロセスをここで記述して、上述の要約例を用いて詳細を示すこととするが、ここでは文字が単語を表わしているとする。図３のプロセスの中の主要段階についての好ましい実施が詳細に記述され、こういった段階を応用することの効果を示すために要約例を用いている。
【００７７】
図３を見ると、段階３０５は困難なしに既知のテキスト走査技術を用いて省略データベース１２５を参照しかつ必要に応じて句読点についての標準的な規則を用いて分を識別している。段階３０５からの出力はこの例示では次の識別された文を上のように与えている：
ａｂＣｄＥＦ
ＰＱｂＣｄＥ
ｂＥＦＣｄＰ
ＣｄＥｂＥＦ
この例で使用された文はも、簡単のために同じ長さとしているが、図３の方法と以下に記述する特定の実施とは一般的な場合であって文が異なる長さのものでもよい場合に動作するように設計されている。
【００７８】
最初の文“ａｂＣｄＥＦ”が段階３１０で分割されて次のような単語群となる：
ａｂＣｄＥＦｂＣｄＥＦＣｄＥＦｄＥＦＥＦＦ
ａｂＣｄＥｂＣｄＥＣｄＥｄＥＥ
ａｂＣｄｂＣｄＣｄｄ
ａｂＣｂＣＣ
ａｂｂ
ａｂ
単語群の長さが減って行く順序に編成すると次のリストとなる：
ａｂＣｄＥＦ
ａｂＣｄＥ
ｂＣｄＥＦ
ａｂＣｄ
ｂＣｄＥ
ＣｄＥＦ
ａｂＣ
ｂＣｄ
ＣｄＥ
ｄＥＦ
ａｂ
ｂＣ
Ｃｄ
ｄＥ
ＥＦ
ａ
ｂ
Ｃ
ｄ
Ｅ
Ｆ
加えて図５を参照すると、流れ図が与えられていて、識別された文を単語群に分割する好ましいアルゴリズムを示していて、これは図３の段階３１０を実施している。この文分割アルゴリズムは上に示したのと同じような単語群のアレイを生成し、各単語群はアレイ変数“ＷＧ［Ｓ，ｋ，ｉ］”の要素の中に含まれていて、ここで“Ｓ”はある文を識別する数であり、“ｋ”は文Ｓ内部の単語の位置であってこの位置で単語群が始まるところであり、また“ｉ”は単語群の長さである。上の例では、文１“ａｂＣｄＥＦ”については、Ｓ＝１とＷＧ［１，１，１］＝‘ａ’，ＷＧ［１，１，２］＝‘ａｂ’，ＷＧ［１，２，１］＝‘ｂ’，ＷＧ［１，２，２］＝‘ｂｃ’，及びＷＧ［１，２，３］＝‘ｂＣｄ’である。図５のアルゴリズムはまた関数“ＷＳ（Ｓ，ｉ）”を用いて文Ｓのｉ番目の単語を戻している。上の例の文１についてはＷＳ（１，１）＝‘ａ’，でＷＳ（１，４）＝‘ｄ’である。
【００７９】
最初は、段階５００で、単語群アレイの各要素をナル（零）に設定し、文カウンタＳを零に初期化する。このアレイは予期される最大入力テキストを収容できる大きさであると仮定されている。
【００８０】
段階５０５で、文カウンタＳはインクレメントされ、最初に、図３の段階３０５から識別された第一の文を選び、単語位置カウンタｋを零に初期化する。段階５１０で、文Ｓが入力される。段階５１５で単語位置カウンタがインクレメントされ、最初は文Ｓの第一の単語の点にであり、そして単語群長“ｉ”が零に初期化される。単語群長“ｉ”が段階５２０でインクレメントされ、そして段階５２５では長さｉ−１の先に構築された単語群を用い、文Ｓの単語位置ｋで始まって新しい単語群が構築され、（ＷＧ［Ｓ，ｋ，０］はＳとｋとのすべての値に対してナル（零）であると仮定されている）。そこには次に続く単語が文中でその文に添付されていて単語位置ｉ＋ｋ−１で始まっている。関数“ＷＳ（Ｓ，ｉ）”は文Ｓ内で単語位置ｉに単語を戻す。段階５３０では、試験が実行されて、文Ｓからもっと長い単語群を構築するのに使用するためにいずれかの単語が残っているかどうかの検出が実行され、単語位置ｋから始まって、文Ｓの長さの知識を用いてそれが行われる。文の終りに到達していなければ、処理は段階５２０に戻り、単語群長ｉをインクレメントする。しかし、文の終りに到達していれば、段階５３５で単語位置カウンタｋが文Ｓの最終単語を指しているかどうかを試験が判断する。否であれば処理は段階５１５に戻り、文Ｓ内の新しい単語群についての単語位置が１つだけ進んで、長さ変数ｉが上のように零にリセットされる。しかしもし、文の終りが段階５３５で到達していなければ、段階５４０で最終文が処理されたかどうかを試験が判断する。否であれば処理は段階５０５に戻り、次の識別された文が選ばれる。もし段階５４０で全ての文が処理されていれば、このアルゴリズムと、したがって図３の段階３１０とは完了し、全ての可能性のある単語群についてのアレイＷＧ［］は段階３０５から識別された文から構築されたことになる。
【００８１】
図５のアルゴリズムをここで示した例での識別された文に適用することは次に示すように表３内の文の順序で配列された以下の単語群を作り出す。
【００８２】
【表３】

【００８３】
段階３１０の完了で、入力されたテキストの各文についての可能な単語群のすべてが識別されて、単語群アレイＷＧ［］内に読取られている。次の段階は図３の方法の段階３１５であり、これは“低い値”の単語を各単語群の始めと終りから取り除くことであり、低い値の単語（低値語）は‘is’，‘it’，‘are’，‘they’，‘and’などのような単語であり、キータームが抽出される対象のデータ組（例えばテキスト）の主題を反映する傾向をもたないものであり、とくにこういった単語が単語群内の先頭と後尾の位置で出現する場合に行なわれる。低値語は定値語と省略のデータベース１２５を参照して識別されてよい。
【００８４】
図６を参照すると、低値語を取り除くための好ましいアルゴリズムを示すようにした流れ図が用意されている。このアルゴリズムは次のような基礎の上にあって動作する。すなわち、単語群アレイの中に含まれているようになっている可能性のあるすべての単語群について、先頭もしくは後尾の低値語を備えたものも備えていないものもある単語群を含めて、低値語を取り除くことが他の単語群の１つで誤りを生じさせ易い複製物を単に生じさせるだけであるということである。したがって、単語群から先頭と後尾の低値語を実際に取り除くのではなく、図６のアルゴリズムはＷＧ［］アレイから先頭もしくは後尾の単語をもつすべての単語群を適当なアレイ要素をナル（零）に設定することによって単に除去することとする。この結果は先頭と後尾の低値語なしに可能とされる単語群のすべてを含んでいるようなアレイとなる。
【００８５】
図６を参照すると、アルゴリズムは段階６００で始まり、図５のアルゴリズム（段階３１０）から生じた単語群アレイを輸入することによって始まる。段階６０５で文カウンタＳを初期化した後に、このアルゴリズムは３つのネストされた解析ループを実行してＷＧ［］アレイの全部の要素を走査する。外側のループは段階６１０で始まり文カウンタをインクレメントし、最初は第一の識別された文を選び、単語群長ｉを初期化する。段階６１５では、中間ループの開始があり、単語群長がインクレメントされ、最初に長さ１をもつ単語群アレイ要素を選び、また単語位置カウンタｋが初期化される。段階６２０では、内側ループが開始され、単語位置カウンタｋがインクレメントされ、最初に文Ｓ内で第１の単語で始まる長さｉの単語群を選ぶ。段階６２５は選ばれた単語群ＷＧ［Ｓ，ｋ，ｉ］内のいずれかの先頭の低値語を求めて試験を行なう。なにも見付からなければ段階６３０でいずれかの後尾の低値語が探される。もしなにも見付からなければその単語群が保存されて、処理は次の単語群要素に移動して、上述の段階５３０と同じやり方で段階６４０により処理される。もし先頭もしくは後尾のどちらかの低値語が選ばれた単語群ＷＧ［Ｓ，ｋ，ｉ］の中で段階６２５または６３０でそれぞれ見付かるときには、段階６３５でその単語群要素がナル（零）に設定されて、このアレイから特定の単語群が除去されて、処理は段階６４０に進む。図５の段階５３０のように、段階６４０は長さｉの別な単語群が単語位置ｋで始まる文Ｓから文Ｓの長さの知識を用いて出て行ったかどうかを判断する。もしいずれかが残っていれば、そのときは内側ループ上の処理が段階６２０へ戻り、そこでは単語位置カウンタｋがインクレメントされる。段階６４０で何も残っていなければ、次に段階６４５が単語群長ｉが今では現在の文Ｓの長さに等しいかどうか、すなわちｉよりも大きい長さの単語群が存在しえないことを判断する。文Ｓの長さに等しくなければ中間ループ上の処理は段階６１５に戻り、そこで長さ変数ｉがインクレメントされて、次に長い単語群が解析できるようになる。一番長い単語群が段階６４５で今度は解析されてから、段階６５０では最終文についての試験がされる。もし文Ｓが最終でなければ、外側ループ上の処理は段階６１０に戻り、そうでなければアルゴリズムは段階６５５で終り、先頭と後尾の低値語をもつ単語群が単語群アレイから除去されてしまう。
【００８６】
図６のアルゴリズムを表３の単語群に適用すると次の表４が作られる。
【００８７】
【表４】

【００８８】
表４では先頭もしくは後尾に低値語をもち、１もしくは複数の低値語だけで成る単語群を重要でもないのに含んでいるものは除去されていて、表中ではブランクの空間として示されている。
【００８９】
図３のアルゴリズムにおける次の段階である段階３２０は長さに従って単語群を並べまた単語ステミング（stemming）を実施することである。記述されている特殊例では、長さによる単語群の順序付けは単語群アレイＷＧ［］の本質が与えられると、表示目的で必要とされる場合を除いて、特に必要とはされない。単語ステミングは単語からのプレフィックスとサフィックスとの取り除きである。例えば、ステミングのプロセスは単語群“surfing the net”と“surfs the net”を同じ単語群すなわち“surf the net”に減縮することである。これは両サフィックス“ing”と“s”とをそれぞれ単語“surf”の２つの発生から取り除くことである。
【００９０】
図７を参照すると、単語をステミングしかつステムされた単語といずれかのプレフィックスもしくはサフィックスで取り除かれたものとの間の関係を記録するための好ましいアルゴリズムを示すために用意された流れ図である。好ましいのは、実際に、図６と図７のアルゴリズムが組合せされることである。単語群のアレイを走査する方法は２つのアルゴリズムの間で同一である。図７のアルゴリズムは図６のアルゴリズム（段階３１５）の動作から生じた単語群アレイを輸入することにより段階７００で始まる。段階７０５で文カウンタＳを初期化することにより、アルゴリズムは３つのネストされた解析ループを実行してＷＧ［］アレイの要素のすべてを走査することは図６と同じであり、それぞれ段階７１０，７１５，７２０で始まり対応しているループの終り試験はそれぞれ段階７６５，７６０，７５５である。図７のアルゴリズムの内側走査ループ内部での処理は、単語カウンタｘを初期化した後、段階７２５で始まり、選ばれた単語群アレイ要素ＷＧ［Ｓ，ｋ，ｉ］がナル（零）に設定されていないことをチェックすることを伴う。もしそれがナルであると、処理は段階７５５での内側ループの終り試験まで直ちにとばして、単語群要素の別の処理はしない。もし段階７２５で、選ばれた単語群がナルでなければ、そのときには、段階７３０で単語カウンタｘがインクレメントされ、最初に選ばれた単語群の第１の単語を指すようにする。段階７３５は選ばれた単語ｘ内のプレフィックスとサフィックスの一方または両方についての試験がされる。もし何も検出されなければ、段階７５０で単語カウンタが選ばれた単語群長ｉと比較されて、その単語群の最終の単語が処理されているかどうか判断する。もし単語が文Ｓ内で処理されずに残っていると、そのときは処理は段階７３０に戻って単語ポインタｘをインクレメントして単語群の次の単語を選ぶようにする。もし段階７３５でいずれかのプレフィックスもしくはサフィックスが見付かると、そのときは段階７４０でそれが取り除かれて、段階７４５では記録が作られて、取り除かれたプレフィックスもしくはサフィックスを結果として生じたステムした単語と関係付けがされ、後の回復を可能とする。そこで処理は上述のように段階７５０に続く。
【００９１】
もし、段階７５０で、選ばれた単語群ＷＧ［Ｓ，ｋ，ｉ］のすべての単語が処理されているときは、内側のアレイ走査ループ試験が段階７５５に到達して、単語群アレイの残りのものが図６のアルゴリズムと同じように走査される。
【００９２】
全体の単語を表わすために単一の文字を用いて今の例示では、単語ステミングの結果を示すようにすることは不可能である。
【００９３】
図３の段階である次の段階は、残っている単語群の各々に重み付けを指定して、入力データ組のテキスト内に一度だけしか発生しない単語群を除去することである。この段階で指定される重み付けはそのデータ組内での単語群の発生の頻度に等しいのが好い。しかし他の尺度をこの段階で適用して単語群を重み付けし、単語群の除去のためのしきい値を設定するようにしてもよい。段階３２５と図８の以下のアルゴリズムとは好ましいキーターム抽出器１００の第１組識別器２１５の動作における段階を完結することができる。
【００９４】
図８を見ると、頻度により単語群に重み付けをし、入力データ組で１度しか発生しない単語群を除去するための好ましいアルゴリズムを示すために流れ図が呈示されている。図８のアルゴリズムは進行の際に、アレイからの特定の単語群の二重発生を除去して、完了の際に各個別の単語群の単一発生がアレイ内に残り、その重み付けの関係する記録を伴うようにしている。重み付けはアレイｆ［Ｓ，ｋ，ｉ］内に記録されていて、単語群アレイＷＧ［Ｓ，ｋ，ｉ］の各可能な対応する要素について一要素となっている。図８のアルゴリズムはまた、後の使用のために、一番長い残っている単語群を変数“ｍ”を用いて識別する。概略を述べると、図８のアルゴリズムは単語群アレイＷＧ［］を図６，７のアルゴリズムと同じやり方で走査することにより動作する。図5の走査は他と少し違っている。内側の走査用ループで特定の単語群要素ＷＧ［Ｓ，ｋ，ｉ］を選び、かつナルでないように設定したものの内部で、同じ長さｉをもつ残っている単語群、すなわち同じ文内でより大きなｋの値をもち、かつ後の文だけの中にあるものが整合する単語群についてチェックされる。整合が見付かった各々について、単語群ＷＧ［Ｓ，ｋ，ｉ］の重み付けがインクレメントされて、整合用単語群がナルに設定されて、重複するものが取り除かれる。
【００９５】
ここで走査する(scanning)は処理のために単語群アレイＷＧ［］の要素を選ぶ技術を意味している。図６ないし８の各流れ図では、３つのネストされたループがあって、内側ループ、中間ループ、および外側ループがある。図６については、内側ループが段階６２０ないし６４０で成り、中間ループが段階６１５ないし６４５、また外側ループが段階６１０ないし６５０で成る。同じようなネストされたループが図７と図８の各図中のアルゴリズムに対して使用されている。解くに図８では対応するループは内側が段階８０８ないし８３６、中間が段階８０６ないし８３８、または外側が段階８０４ないし８４０である。
【００９６】
各図では外側ループが処理すべき文を選んでいる。各選んだ文（Ｓ）については中間ループが解析されている単語群で長さ（ｉ）のものを設定し、内側ループは文Ｓ内部の異なる可能な単語位置（ｋ）の全てで始まる組の長さ（ｉ）の単語群を処理するように働く。単語長（ｉ）は次に中間ループにより進み（ｉ＋１）、文（Ｓ）の処理がその異なる可能な長さの全ての文内で可能とされる単語群が解析されてしまうまで進行する。外側ループは次に次の文を選んで同じ解析をその文について実行する。
【００９７】
図６ないし８の各アルゴリズムでは、単語群の選択に同じ基本的な方法を使っており、内側ループ内部で選ばれた単語群について実行される処理段階が違っていてもそうしている。
【００９８】
図８のアルゴリズムは段階８００で図７の処理から生じた単語群アレイＷＧ［］を輸入する事によって始まる。段階８０２では、重み付けアレイｆ［
］の各要素が零に初期化され、最大単語群長変数ｍと文カウンタＳとについても同様である。図５ないし７と同様にＷＧ［］は３つのループで走査され、図８の段階８０４，８０６，８０８でそれぞれ始まり、対応するループの終り試験を段階８４０，８３８，８３６にそれぞれ備えている。段階８０８で特定の単語群要素ＷＧ［Ｓ，ｋ，ｉ］を選ぶと、ナルについてのチェックが段階８１０で行なわれる。選ばれた要素がナルであれば、次の単語群要素が、もしあれば、ループの終り（エンドオブループ）段階８３６を経て選ばれる。
【００９９】
ナル（零）でない単語群要素ＷＧ［Ｓ，ｋ，ｉ］を段階８１０で選ぶと、段階８１２はこの要素に対する対応した重み付けを単位値に設定して２つの別な走査用変数ｘ，ｙを初期化する。変数ｘは文カウンタであり、現在及び後の文中の同じ長さの単語群がＷＧ［Ｓ，ｋ，ｉ］と整合するかについてチェックできるようにする。変数ｙは単語位置カウンタであり、ｋと等価なものである。変数ｘとｙとが初期化されて、Ｓとｋとの現在値がそれぞれ段階８１２により初期化される。段階８１４では、チェックがされて、長さｉの別な可能な単語群を求めて現在の文ｘ内で行なわれ、位置ｙよりも後の単語位置で始まる。もし何か残っていれば、そのときは段階８１６でｙが次の単語群のポイントまでインクレメントされる。もし段階８１８で、次の単語群がナルであれば、そのときは処理は段階８１４に戻って、同じ長さの別な単語群を探す。
【０１００】
段階８１８で、もし次の単語群がナルでないと、段階８２０では比較が選ばれた単語群ＷＧ［Ｓ，ｋ，ｉ］とされる。もし整合が見付からないと、処理は段階８１４に戻って、上のように、別の単語群を探す。しかし、段階８２０で整合が見付かると、段階８２２で単語群ＷＧ［Ｓ，ｋ，ｉ］の重み付けがインクレメントされて、整合用単語群要素ＷＧ［ｘ，ｙ，ｉ］がナルに設定され、カウントがされて、重複を除去するようにする。処理はそこで段階８１４に戻り、上のように同じ長さの別な単語群を探す。
【０１０１】
段階８１４で同じ長さｉの別な単語群が現在の文ｘ内に何も残っていなければ、そのときは段階８２４で判断がされて、最後の文が整合用単語群について探されたか、探されていないかについて決められる。もし探されることになる文が残っていれば、段階８２６で文カウンタｘがインクレメントされて、単語位置カウンタｙがリセットされ、次の文内で長さｉのすべての単語群が探索される。もし段階８２４で最後の文が探索されたときには、段階８２８で累積された重み付けｆ［ｘ，ｙ，ｉ］で単語群ＷＧ［ｘ，ｙ，ｉ］についてのものがチェックされる。これが単位値（１）よりも大きいときには、単語群は保存されて、段階８３２と８３４とがｍという値がこれまでに見付かった保存されている最長単語群を記録することを確実としてから段階８３６に進む。もし段階８２８で、単語群ＷＧ［ｘ，ｙ，ｉ］がデータ組内で１度だけしか発生していなければ、そのときはナルに設定され、それと関係する重み付けが零に設定される。処理は段階８３６に進んで、図６のアルゴリズムに関して上述したところにより、単語群アレイの走査を続ける。
【０１０２】
図８のアルゴリズムが完了すると、すなわち図３の段階３２５が完了すると、単語群アレイＷＧ［］は入力データ組内で１度ならず発生した各個別の単語群についての単一エントリィを含んでいて、各々は重み付けアレイｆ［］内に記録された対応する重み付けを備えている。単語群アレイと対応する重み付けアレイとは第１の組識別器２１５により生成された第１の組を構成できる。この好ましいアルゴリズムはまた一番長い生き延びている単語群の長さの記録を変数ｍとして生み出してもいて、これが主として次のアルゴリズムでプロセスの効率を高めるために使用される。
【０１０３】
この例を示すために、図８のアルゴリズムによる処理を完了すると表４が次のように生まれていて、対応する重み付けで“Ｗ”と示した欄に示したものを備えている。
【０１０４】
【表５】

【０１０５】
図３の次の段階である段階３３０は、より長い残っている単語群のサブストリングを形成する残っている単語群を除去し、こういったより長い単語群の対応する重み付けを含んでいた除去されたサブストリングの重み付けだけ増す。この段階はサブセット識別器２２０の選択規準の一部として実施することができる。この段階を達成するための処理は段階３２５からの残っている一番短い単語群によって始めて、単語群階層構造を通って上方に進み、すべてのより短いサブストリング単語群が除去されるまで進んで達成される。
【０１０６】
図９を見るとサブストリング単語群を除去し、それによって対応するより長い単語群の重み付けを増すための好ましいアルゴリズムを示す流れ図が示されている。概観すると、このアルゴリズムは一度に１単語長ｉで作業をし、長さｉ＝１のものから始まって１つインクレメントして作業をして行き長さｉ＝ｍとなるまで進む。長さｍよりも長い単語群については、何も残っていないので、面倒を見る必要がない。一番短かい残っている単語群ＷＧ［Ｓ，ｋ，ｉ］を見付けると、このアルゴリズムは次に長い長さで残っている単語群の全部を探索し、それを続けて、サブストリングとして単語群ＷＧ［Ｓ，ｋ，ｉ］を含んでいる単語群を見付けるまで進める。この点で、単語群ＷＧ［Ｓ，ｋ，ｉ］の重み付けを対応するより長い単語群の重み付けに加えてから、ＷＧ［Ｓ，ｋ，ｉ］をナルに設定する。処理は次の、最短の残っている単語群ＷＧ［Ｓ，ｋ，ｉ］で進行し、処理が長さｍの単語群に達するまで進み、その点でアルゴリズムが終り、処理すべき残されたより長い単語群がなにもないことになる。
【０１０７】
図９および図１０のアルゴリズムは段階９００で始まり、図８のアルゴリズム（図３の段階３２５）の完了で出力された単語群アレイＷＧ［］と、重み付けアレイｆ［］と値ｍを輸入する。段階９０２で単語群長変数ｉを初期化した後に、外側のループが段階９０４で始まって一度に１つの長さｉの単語群を処理し、それがｉの値をインクレメントすることにより始まり、最初は長さ１の単語群を解析する。試験が段階９０６で実行されて、現在の長さｉが図８から識別された一番長い残っている単語群の長さかどうか判断される。もしそうであれば、もっと長い単語群は何も残っておらず処理は段階９０８で終る。
【０１０８】
段階９０６で、もしもっと長い単語群が残っているとすると、文カウンタＳは段階９１０で初期化され、また段階９１２では２つのループの第１のものが長さｉの残っている単語群のすべての走査し始め、文カウンタＳをインクレメントする。段階９１４では、これが増大した処理効率のために含まれていて、チェックがされて現在の単語群長ｉが現在選ばれた文Ｓの長さよりも大きいかどうか判断される。単語群が文Ｓから長さｉで何も見付かりそうもないとすると、この文の処理は続ける必要はなく、その代りに段階９４６へとんで、次の文がもしあればそれを選ぶことにする。
【０１０９】
段階９１４でもしより長い単語群が文Ｓから可能であるとすると、そのときは段階９１６で単語位置カウンタｋが初期化されて、段階９１８で走査ループの第２のものが単語群位置カウンタｋをインクレメントすることにより開始される。段階９１８に続き特定の単語群要素ＷＧ［Ｓ，ｋ，ｉ］を選ぶと、その要素がナルかどうかチェックがされ（段階９２０）、段階９４４へとんだ処理ではもし要素がナルであると見付かるときには長さｉの次の単語群アレイ要素を選ぶことになる。
【０１１０】
もし段階９２０で現在選ばれた単語群がナルでなければ、処理は段階９２２で始まりサブストリングとしてＷＧ［Ｓ，ｋ，ｉ］を含んでいるものについてのより長い単語群が探査される。段階９２２は単語群長カウンタｊを初期化してＷＧ［Ｓ，ｋ，ｉ］の長さｉに等しくする。段階９２４では、ｊはインクレメントされて、次のより長い単語群を走査し始め、文カウンタｘが零に初期化される。各ｊの設定に対して、２つのループがここでは各文ｘから残っている単語群を探索し、段階９２６で始まって文カウンタｘをインクレメントし、最初は第１の文からＷＧ［］アレイ要素を探索し、また単語ポインタｙを初期化する。第２の探索ループは段階９２８で始まり、単語ポインタｙをインクレメントする。段階９３０では、現在探索されている単語群要素ＷＧ［ｘ，ｙ，ｊ］がナルについて試験される。ナルでなければ、段階９３２で単語群ＷＧ［ｘ，ｙ，ｊ］がサブストリングとして単語群ＷＧ［Ｓ，Ｋ，ｉ］を含むか否かを判断する。含んでいれば段階９３４でＷＧ［ｘ，ｙ，ｊ］についての重み付け頻度ｆ［ｘ，ｙ，ｊ］がＷＧ［Ｓ，ｋ，ｉ］の重み付けｆ［Ｓ，ｋ，ｉ］だけ増加されて、段階９３６では、単語群ＷＧ［Ｓ，ｋ，ｉ］がそれをナルに設定することにより除去されて、その重み付けが零に減る。処理は次に段階９４４に進んで、もし何か残っていれば、長さｉの次の単語群を選ぶことになる。
【０１１１】
もし段階９３０で現在探索された単語群要素ＷＧ［ｘ，ｙ，ｊ］がナルであるか、もし段階９３２で単語群要素ＷＧ［ｘ，ｙ，ｊ］がサブストリングとしてＷＧ［Ｓ，Ｋ，ｉ］を含んでいなければ、そのときは探索は長さｊの次の単語群に、もし何か残っているときには、移動することが段階９３８と９４０を介して行なわれ、これは上述の図５ないし８のアレイ走査段階と同様のやり方となっている。しかし、もし段階９４０に従って長さｊの残っている単語群のすべてが探索されてしまっているとし、さらに何れもサブストリングとして単語群ＷＧ［Ｓ，Ｋ，ｉ］を含んでいないことが見付かると、そのときは段階９４２で、試験が行なわれて、既知の最大単語群長ｍとｊを比較して、より長い単語群が探索されずに残っているかどうか判断がされる。もしｊがｍに等しければ、そのときはより長い単語群は探索対象として残ってはおらず、処理は段階９４４に進んで長さｉの次の単語群がもし残っていれば上述のように選ぶことになる。もし段階９４２で別のより長い単語群が探索のために残っていそうであれば、そのときは処理は段階９２４に戻って上述のように長さ変数ｊをインクレメントする。
【０１１２】
段階９４４と９４６は長さｉの各値について単語群アレイの走査を制御するがこれは上述した図５ないし８からの等しいアレイ走査と同じやり方である。図９および図１０のアルゴリズムが完了すると、キータームの最終組が単語群アレイＷＧ［］内に残り、重み付けアレイｆ［］内の対応する重み付けを備えている。これらのアレイは減算器２３０からの出力を構成できる。
【０１１３】
ここでとりあげた例示では、表５の内容について図９および図１０のアルゴリズムを実行した結果は次のようになる。
【０１１４】
【表６】

【０１１５】
単語群“ＣｄＥ”，“ＥＦ”及び“Ｐ”は今ではもとの文のキータームとして識別されていて、図３のキーターム抽出アルゴリズムの段階３３５及び３４５で適用されることになるオプションの別の規準の対象となる。
【０１１６】
図３の残りの段階３３５ないし３５５の実施は詳細には記述しないことにするが、直截的なやり方で実施できるものである。今とりあげている例でこれらの段階が実際にどのように適用されるかを示すことに徹すれば十分と思われる。
【０１１７】
上の表６の内容で始めると、図３の段階３００ないし３３０の動作の結果から、段階３３５は予め定めたしきい値を越える長さをもつ残っている単語群を除去するための拒絶規準を適用する。残っている単語群のうちのいずれもが現在の例ではこれを基に除去されないことになる。しかし実際には、例えば長さ６以上の単語群はこの段階で除去されることになる。
【０１１８】
段階３４０では、単語群の重み付けは、例えば単語群長によりスケール合せがされて、重み付けに従って呈示用に種分けされる。今の例示では、ＣｄＥの重み付けは３により除算され、ＥＦの重み付けは２で除算され、Ｐの重みつけは１で除算されて、次の順序のキータームのリストとなる：
5.5 ＥＦ
2.33 ＣｄＥ
2 Ｐ
段階３４５では、キータームの数が予め定めた規準に従って制限されてよく、例えばキータームによって行なわれる使用に依存するようにする。好ましいのは、この段階で除去されることになる何らかの用語があるとすると、そういった用語が低い方の全体の重み付けから選ぶようにできる。
【０１１９】
今の例ではキータームの数を制限する表はなく、３つが一般にオペレータによってもまたデータ管理ツールセットによっても管理されることになる用語の組は十分に小さいものとなっている。
【０１２０】
しかし、キータームのもっと長い組が識別されるときには、何らかの戦略で上述したものが、単独もしくは組合せて、適用できる。
【０１２１】
いったん、キータームの組が選ばれると、同じ用語を除去するためにシソーラスもしくは辞書あるいは同様の手段によってそれらが調べられるのが好ましい。
【０１２２】
例えば、キータームとして“during the premier’s visit（主演女優の訪問期間中に）”とduring the premier’s trip（主演女優の旅行期間中に）”が戻ってきたとして、シソーラスはこれらが相等の用語であるとシノニム（同義語）としてそれらの最終単語の相等性を基に認識することになる。
【０１２３】
したがって、キータームのリストが図３の段階３４５により制限されている場合には、同じようなキータームを識別して拒絶するというこのプロセスは段階３４５で拒絶された用語が好ましいのは、次の最高重み付けをもつ用語として再び任に当たることができるようにされるが、反復プロセスは次の用語がリストの内にすでに含まれているいずれかのキータームに似てはいないことを確保することが必要とはされる。
【０１２４】
データ組からキーフレーズを抽出する上述の方法は多数の情報管理及び検索ツールにより使用できる。
【０１２５】
上述のように、こういったものには、要約、Jasperエージェント及び予見的作用をもつツールでプロフィル作成技術を使用する他の形態のものを含んでいる。ツールの他の形態として検索（サーチ）エンジンがある。
【０１２６】
現在では、典型的なサーチエンジンはそこに登録されたサイトをサイトオペレータにより調査することによって動作する。
【０１２７】
このサーチエンジンは要約もしくはサイトについてのキーワードの組をそのデータベース内に記憶している。ユーザがサーチエンジンにアクセスして材料を探すときには、サーチエンジンは入力されたサーチ単語をデータベースに対して比較して、関連のサイトの位置決めをするようにする。
【０１２８】
この発明の一つの応用はキーフレーズ（語句）抽出器を使用してサーチエンジンにより調べられるサイトに関するキーワードについてのサーチエンジンデータベースを生成することである。
【０１２９】
別の応用は、テキスト要約器での使用である。ここでは、キーフレーズの組が上述のプロセスにより識別できる。こういったキーフレーズが一度識別されると、これらのキーフレーズを含んでいる文とパラグラフとがテキストから抽出できる。次にこれらの文／パラグラフがそこに含んでいるキーフレーズの数により重み付けできる。
【０１３０】
要約をそこで生成できるが、それはこういった文／パラグラフでしきい値重み付けを越えるものを再生するか、あるいは最高重み付けの順序で再生して、データ組の予め定めた百分率もしくは単語の順序で予め定めた数が要約内に含まれるようになるまで再生をすることによって生成される。
【０１３１】
情報管理もしくは検索ツールが、上述したJasperエージエントのような、プロフィル形成用技術を使用する場合には、ユーザプロフィルについてのキーターム、ドキュメントタームマトリックスもしくはキーワード類似性マトリックスが上述の方法により生成できる。
【図面の簡単な説明】
【図１】この発明の実施例によるキーターム抽出装置を組込んだ情報管理兼検索ツールセットの模式図。
【図２】好ましいキーターム抽出装置の主要基本部品を示す図。
【図３】この発明の好ましい実施形態によるキーターム抽出方法を示す流れ図。
【図４】特定例に対するキーターム抽出の好ましい方法の応用を示す図。
【図５】図３の段階３１０を実施するための好ましい処理段階を、より詳細に示す流れ図。
【図６】図３の段階３１５を実施するための好ましい処理段階を、より詳細に示す流れ図。
【図７】図３の段階３２０を実施するための好ましい処理段階を、より詳細に示す流れ図。
【図８】図３の段階３２５を実施するための好ましい処理段階を、より詳細に示す流れ図。
【図９】図３の段階３３０を実施するための好ましい処理段階を、より詳細に示す流れ図。
【図１０】図９とともに図３の段階３３０を実施するための好ましい処理段階を、より詳細に示す流れ図。

Claims

データ組を管理する装置であって：
データプロセッサと；
データメモリと；
前記データメモリへのデータ組を受信する入力手段とを有し、
前記データプロセッサは、
前記データメモリの中の受信データ組内において、前記受信データ組内で連続して出現する１以上の単語でなる１以上の単語群を含む第１の組の単語であって、前記受信データ組内で第１の予め定めた分布パターンと適合する前記第１の組の単語を識別する手段と；
前記１以上の単語群を含み、前記受信データ組内で第２の予め定めた分布パターンと適合する単語のサブセットを、前記第１の組内で識別する手段と；
前記第１の組から単語の前記サブセットを除去し、それによって前記受信データ組の１組のキータームを形成する手段と；
少くとも１つの前記キータームを前記データメモリへ出力する出力手段とを備え、
前記装置は、
データ組の主題を反映する傾向をもたない予め定めた単語リストを収めているデータメモリを更に備え、
前記データプロセッサは、
単語群の先頭の位置と後尾の位置との間に出現する前記データ組の主題を反映する傾向をもたない単語が取り除かれないように、単語群の先頭の位置に出現する、前記データ組の主題を反映する傾向をもたない予め定めた単語リスト中の単語と、単語群の後尾の位置に出現する、前記データ組の主題を反映する傾向をもたない予め定めた単語リスト中の単語のみを取り除いて、前記単語群を修正する手段を具備するように構成されている、装置。
前記第１の予め定めた分布パターンは、前記第１の組内の各単語群が前記受信データ組内で少くとも２度出現することを必要とする請求項１記載の装置。
前記第２の予め定めた分布パターンは、前記サブセット内の各単語群が前記第１の組内のより長い単語群内に出現する単語もしくは単語のストリングを含むことを必要とする請求項１又は２記載の装置。
ある単語からステムされた単語を形成するためにプレフィックスを取り除くように構成され、かつサフィックスを取り除くように構成されている、単語群内の単語を修正する手段を含む請求項１ないし３のいずれか１項記載の装置。
前記ステムされた単語に関連付けて前記プレフィックスもしくはサフィックスを記憶する手段を含み、それによって前記プレフィックスもしくはサフィックスを前記ステムされた単語に再生する請求項４記載の装置。
前記第１の組内の前記単語群の各々をどのくらいの頻度で前記単語群の各々が前記受信データ組に出現するかに従って重み付けをする手段と、
前記第１の組の中の少くとも第１の単語群の前記重み付けを前記サブセット内の第２の単語群の重み付けに比例して修正する手段と、
前記両重み付けに依存して出力用の前記キータームを選ぶ手段とを含む請求項１ないし５のいずれか１項記載の装置。
さらに前記重み付けと少くとも１つの予め定めた規則とに依り出力用のキータームを選ぶ手段を含む請求項６記載の装置。
１）データ組を入力として受信して、前記データ組をデータメモリに記憶するステップと；
２）前記データ組内で連続して出現する１以上の単語でなる１以上の単語群を含む第１の組の単語であって、前記データ組内で第１の分布パターンと適合する前記第１の組の単語を識別するステップと；
３）データ組の主題を反映する傾向をもたない予め定めた単語リストを収めているデータメモリから前記予め定めた単語リストにアクセスするステップと；
４）単語群の先頭の位置と後尾の位置との間に出現する前記データ組の主題を反映する傾向をもたない単語が取り除かれないように、単語群の先頭の位置に出現する、前記データ組の主題を反映する傾向をもたない予め定めた単語リスト中の単語と、単語群の後尾の位置に出現する、前記データ組の主題を反映する傾向をもたない予め定めた単語リスト中の単語のみを取り除くステップと；
５）前記データ組内で第２の分布パターンと適合する単語群のサブセットを前記第１の組内で識別するステップと；
６）前記第１の組から前記サブセットを除去してそれによりキータームの組を識別するステップと；
７）前記キータームをデータメモリに出力するステップとを含む、コンピュータが実施するデータ組を管理する方法。
前記第１の分布パターンは、前記第１の組内の各単語群が前記データ組内で２度以上出現することを必要とする請求項８記載の方法。
前記第２の分布パターンは、前記サブセット内の各単語群が第１の組内のより長い単語群のサブストリングを含むことを必要とする請求項８又は９記載の方法。
８）前記単語群内の単語をその単語からプレフィックスもしくはサフィックスを取り除くことにより修正してステムされた単語を形成するステップを含む請求項８ないし１０のいずれか１項記載の方法。
９）前記ステムされた単語に関連付けて前記取り除かれたプレフィックスもしくはサフィックスを記憶し、それによって前記プレフィックスもしくはサフィックスを前記ステムされた単語に再生するステップを含む請求項１１記載の方法。
１０）前記第１の組内の前記単語群の各々をどのくらいの頻度で前記単語群の各々が前記データ組に出現するかに従って重み付けをするステップと；
１１）前記第１の組内の少くとも第１の単語群の前記重み付けを前記サブセット内の第２の単語群の重み付けに比例して修正するステップと；
１２）前記両重み付けに依存して出力用の前記キータームを選ぶステップと；
を含む請求項８ないし１２のいずれか１項記載の方法。