JP4467791B2 - 情報管理及び検索 - Google Patents
情報管理及び検索 Download PDFInfo
- Publication number
- JP4467791B2 JP4467791B2 JP2000522537A JP2000522537A JP4467791B2 JP 4467791 B2 JP4467791 B2 JP 4467791B2 JP 2000522537 A JP2000522537 A JP 2000522537A JP 2000522537 A JP2000522537 A JP 2000522537A JP 4467791 B2 JP4467791 B2 JP 4467791B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- data set
- word group
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Description
発明の属する技術分野
この発明は、データ管理と検索用の方法と装置との分野に属し、特別な応用がデータ組内部でのキーデータアイテム(主要データ項目)を識別するための方法と装置との分野で見出されるものに関する。
【0002】
従来の技術
近年の技術の進歩、なかでもCD-ROM、イントラネット、及びワールドワイドウェブ(WWW)は電子形式で利用可能とされる情報資源の量を著しく増大させてしまった。
【0003】
発明が解決しようとする課題
こういった増大する情報資源が関係する一つの問題はこういったシステムの個個のユーザに対して関心のあるデータ組(例えば雑誌記事、ニュース記事、技術開示及び他の情報)を位置決めとその識別とである。
【0004】
情報検索ツールで探索エンジンとかウェブ案内といったものはユーザが関心をもつデータ組を位置決めすることを助ける一つの手段となっている。先を見越したツールとかサービスで次にあげる例もまた個個のユーザにとって関心がもたれる可能性のある情報を識別するために使用することができる。例は、ニュース群や、インターネットのwww.pointcast.comで利用可能なPOINTCASTTMシステムとかJASPERエージェントのようなツール(出願人の未決国際特許出願)PCT/GB96/00132に詳細されており、この主題は本願でも参考に供するものとする)である。
【0005】
この様な情報検索兼管理ツールが実効をあげるためには、要約が一組のキーワードかがこのツールによって位置決めされたいずれものデータ組用にしばしば同定されて、それによりユーザがこのキーワードの組を調べたり、要約を調べたりすることによりデータ組の主題についての印象を形成できる。
【0006】
要約を生成する手段としてデータ組内部で発生するキーワードを要約用ツールは一般に使用する。キーワードは一般に“and”とか“with”等といった接続詞及び他のいわゆる低い値の単語、例えば“it”,“are”,“they”など要約用ツールによって調べられているデータ組の主題の指示になりそうもないすべてをはぎとって一般に識別されている。
【0007】
また、キーワード(単語)とキーフレーズ(語句)とはまた情報検索と管理ツールによって異なる形式の情報についてのユーザの好みを示す手段としてだんだんと、使用されるようになっている。このような技術は“プロフィル形式(profiling)”として知られ、このプロフィルはユーザが関心のあるものとしてデータ組を表示するのに応答してツールにより自動的に生成でき、ユーザは例えばウェブページにブックマーク(しおりをつける)かウェブページからデータをダウンロードして表示を行なう。
【0008】
最新のプロフィル形成用ツールもまた類似性マトリックスとクラスタ化技法を用いてユーザのプロフィルに関連性があるデータ組を識別する。JASPERツールで上記参照済のものはこの目的のためのプロフィル形成用技術を用いるこの種のツールの例である。
【0009】
出願人の未決欧州特許出願、番号EP97306878.6には、ここで参照している主題のものであり、いくつかの継続している単語で成るキータームを識別するための手段を開示している。こういったキータームは類似性マトリックス内部で個別のキーワードとしても使用される。このことが“Information Technology(情報技術)”とか“World Wide Web(www)”といったターム(用語)を2つもしくは3つの別個のキーワードとしてではなく、それ自体が正しいものであるタームとして認識可能としている。
【0010】
しかし、こういったキーワードとフレーズを識別するための技術は最適とは言えず、その理由に特定のデータ組についてのキーワードとフレーズを識別するために接続用単語と他の低い値の単語を除去してしまうことがあげられる。この技術は高い値だけを含む“information technology”のようなフレーズを識別するにすぎない。しかし、接続語もしばしば文脈情報の大きな役割を与えている。
【0011】
例えば英語では、“bread and butter(パンとバター)”というフレーズは2つの意味をもっている。第1は食物に関係し、第2は人の生計もしくは人の生存手段である。同じように、英語では、ターム“bread and water(パンと水)”もまた食品と関係するとともに、第2の意味として、困難を含意するためによく用いられる。
【0012】
情報検索もしくは管理ツールですべての接続単語をテキストのブロック内でキーワードとフレーズを識別するプロセスの際に除去してしまうものはフレーズ“bread and butter”と“bread and water”を“bread”,“butter”,“water”を含むキーワードのリストに減縮してしまう。このようなリストでは困難とか人の生計という第2の意味は失なわれている。
【0013】
別な問題は“Bank of England(英蘭銀行)”,“Stratford on Avon(ストラットフォードオンエイボン)”といった名称とか、“black and white(黒と白)”,“on and off(オンとオフ)”といった用語がそれらの構成要素である高い値の単語に減縮されて、したがってツールにより戻される情報を変更することである。
【0014】
課題を解決するための手段
この発明の第1の特徴によると、データ組を管理するための装置が提供されていて、入力としてデータ組を受領するための入力手段と、前記データ組内部で、いくつかの単語でなるいくつかの単語群を含み、前記データ組内部で第1の予め定めた分布パターンと適合する第1の組の単語を識別するのに適応された手段とがあり、ここで前記単語群内の前記単語は該データ組内で継続して発生するものであって、さらに前記第1の組内部で、いくつかの前記単語群を含み、前記データ組内部で第1の予め定めた分布パターンと適合する単語のサブセットを識別するのに適応された手段と、前記第1の組から単語の前記サブセットを除去し、それによって前記データ組の1組のキータームを形成するように適応されている手段と、少くとも1つの前記キータームを出力する出力手段とを有する装置となっている。
【0015】
この発明の第2の特徴によると、データ組を管理する方法が提供されていて、そこには次の段階が含まれている:
1)データ組を入力として受領する段階と;
2)前記データ組内部の第1の分布パターンと適合する第1の組の単語を識別する段階、ただしこの第1の組はいくつかの単語のいくつかの単語群を含んでいて、前記単語群内の前記単語は該データ組内で継続して発生するものである、と;
3)前記第1の組で単語群のサブセットを識別する段階、ただしこのサブセットは前記データ組内部で第二の分布パターンに適合するものである、と;
4)前記第1の組から前記サブセットを除去してそれによりキータームの組を識別する段階と;
5)前記キータームを出力する段階とを含むデータ組を管理する方法である。
【0016】
発明の実施の形態
このように、この発明の実施の形態は、受領したデータ組内部で、そのデータ組内部で第1のパターンによりいくつかの単語の単語群の第1の組を識別し、次にこの第1の組内部から単語群の第2のパターンを識別する。キータームは第2のパターンとは適合しない第1の組内部のいくつかの単語の群である。
【0017】
データ組内部で、単語群のパターンを識別するというやり方は低い値の単語を取除かずにキータームが抽出できるようにする。これは接続語や他の値の低い単語がデータ組内部に保存できて、それにより“on and off”,“bread and water”及び“chief of staff(用員の主任)”といった用語(ターム)がそれ自体としてキータームとして識別できるようにする。
【0018】
これが抽出されたキータームの品質を改善し、また任意の長さのキータームが識別されるようにする。
【0019】
好ましいのは前記第1の分布パターンは前記第1の組内の各単語群が前記データ組内で少くとも2度発生することを求めており、また前記第2の分布パターンは前記サブセット内の各単語群が第1の組の内のより大きな単語群内部で発生する単語もしくは単語のストリングを含むことを求めているのがよい。
【0020】
こうしてこの発明の実施態様はいずれもの繰返された単語と語句とを拾い出して、より長いものの中にすでに含まれていたいずれもの単語もしくは語句を取り除く。例えば、もし文書が“Internet search engines”を1度ならず参照しているとすると、全体の語句はキータームとなるが、しかし“Internet”と“search engine”とはそれ自体として取り除かれることになり、単一の語句のように“search”と“engine”であったのと同じになる。
【0021】
好ましいのは、前記第1の特徴が前記単語群を修正するための手段を含み、それがある単語群内の第1の高い値の単語の前に発生する低い値の単語を取り除くように適用され、かつある単語群内の最後の高い値の単語の後に発生する低い値の単語を取り除くように適用されていることである。単一の、低い値の単語で成る単語群というささいな場合は、単語群自体が取り除かれる。
【0022】
好ましいのは第2の特徴が次の段階を含むことである:
6)ある単語群内の第1の高い値の単語の前に発生する低い値の単語を取り除き、かつある単語群内の最後の高い値の単語の後に発生する低い値の単語を取り除く段階を含む。
【0023】
単語群の前後から低い値の単語を取り除くことは、キーターム抽出器によって戻されて来る単語群の品質を改善する。
【0024】
好ましいのは第1の特徴が前記第1の組内の前記単語群の各々をどのくらいの頻度で前記単語群の各々が前記第1の組で発生するかに従って重み付けをするための手段と、前記第1の組の中の少くとも第1の単語群についての前記重み付けを前記サブセット内の第2の単語群の重み付けに比例して修正するための手段と、前記両重み付けに依存して出力用の前記キータームを選ぶ手段とを含むことである。
【0025】
好ましいのは、第2の特徴が次の段階を含むことである:
9)前記第1の組内の前記単語群の各々をどのくらいの頻度で前記単語群の各々が前記第1の組で発生するかに従って重み付けをする段階と;
10)少くとも第1の単語群の前記重み付けを前記サブセット内の第2の単語群の重み付けに比例して修正する段階と;
11)前記両重み付けに依存して出力用の前記キータームを選ぶ段階を含むことである。
【0026】
この発生頻度による単語群の重み付けは識別されたキータームの順序付け機構を与えている。
【0027】
サブセット内の用語(ターム)の重み付けによる重み付けを修正することは第1の組から除去された用語が残っている用語の重み付けに影響を与えられるようにし、このことで除去された用語がサブストリングを形成する。このようにしてデータ組内部でしばしば発生するサブストリングはキータームの識別に適切な影響を与えることができる。
【0028】
こういった最も頻繁に発生するキータームがそのデータ組の情報内容に最も関連をもつとの仮定がされる。
【0029】
好ましいのは第1の特徴がいずれかの単語群内のいずれかの単語を修正するための手段を含み、それがある単語からステムされた単語を作るためにいずれものプレフィックスを取り除くように適用され、かついずれものサフィックスを取り除くように適用されていることである。
【0030】
好ましいのは第二の特徴が次の段階を含むことである:
7)いずれかの前記単語群内のいずれかの単語をその単語のプレフィックスもしくはサフィックスを取り除くことにより修正してステムされた単語を形成する段階。
【0031】
プレフィックスとサフィックスとを取り除くことは各単語が中立形式に減縮されるようにし、それによってプレフィックスとサフィックスに依存しない重み付けが計算できる。
【0032】
こうして繰返しはされるが異なるプレフィックス及び/又はサフィックスをもつものが同じ単語の繰返し発生として勘定できる。
【0033】
好ましいのは第1の特徴が、前記ステムされた単語と関係する前記プレフィックスもしくはサフィックスを記憶するための手段を含み、それによって前記プレフィックスもしくはサフィックスを前記ステムされた単語に回復可能とすることである。
【0034】
好ましいのは、第2の段階が次の段階を含むことである:
8)前記ステムされた単語と関係する前記プレフィックスもしくはサフィックスを記憶し、それによって前記プレフィックスもしくはサフィックスを前記ステムされた単語に回復可能とする段階。
【0035】
ステムされた単語に対してプレフィックスとサフィックスを回復することはこの発明の実施形態の出力を形成するキータームの品質を改善する。
【0036】
実施例
この発明の実施例を添付図面を参照して例として記述して行く。
【0037】
この発明はデータ管理及び検索ツールの分野で特に価値があるものと思われる。ことに、データ組からキータームを抽出しかつこのようなキータームを使用することが求められているいずれものデータ管理兼検索ツールもこの発明から恩恵を受けることになる。例えばキータームがデータ管理ツール内部で使用できて、このツールには文書要約器、プロフィル形成用ツール、探索エンジン及び上述したJASPERツールのような予見的なデータ管理ツールがある。
【0038】
一つの特殊応用では、この発明はキータームをデータ組から抽出するのに接続語とか他のいわゆる“低い値の単語(低値語)”をデータ組からはきとらずにできる。接続語と低値語とはキータームとフレーズの意味に対して細かい区別立て(subtlety、微妙なこと)をしばしばもたらす。接続語と低値語とを保持することにより、こういった細かい区別立ては維持される。これが先行技術のシステムと比較して抽出されたキータームとフレーズの品質を改善しており、それはキータームそれ自体のユーザの認識からもまたこのようなキータームを入力として用いる他のデータ管理ツールの動作の改良に関係しても言えることである。
【0039】
一般に、自動的に抽出されたキータームは2つの主なやり方で使用できる。このキータームはデータ管理ツールにより使用されるかユーザに直接呈示される。データ管理ツールはキータームの呈示の品質については時にあまり関心を示さない。データ管理ツールは単語の一部を切り落した(ステムした)状態の単語を含んでいるキータームを、あるいは怪しげな大文字使用(dubious capitalisation)を有する単語を、ツールの出力にほとんど影響を与えずに受理することができる。(注:英語ではBank of England(英蘭銀行)は唯一の機関だが、bank of englandはイングランドのどの銀行でもよい。)
しかし、結果がユーザに直接呈示されることになるときには、大きな呈示値(文書の真の情報内容を示唆している高い値のユーザにとって明白な表現の用語を意味する)をもつキータームが必要とされる。例えば1つの癖の悪い(rogue)用語でも、例えば怪しげな大文字使用をしているものも、ツールの出力についての認識される品質に大きなインパクトを与えることができる。フレーズ(これは各種の大文字使用と単語の終り方をもって文書内に出現していてよい)がよくフォーマットを整えたものであることが好い。キータームは数が制限されているのが好く、呈示されているものが確かにユーザにとってより大きな値となるようにする。
【0040】
図1を参照すると、情報管理兼検索ツールセットの模式的な表現が示されていて、この主な構成要素はファィルサーバ130上に置かれている。ツールセットはキーターム抽出器部品100,JASPERエージェント105,ページメモリ110,プロフィルメモリ115,テキスト要約器120,網インターフェース122及び低値語と省略データベース125を備えている。
【0041】
ファイルサーバ130は網インターフェース122を経由して経145と通信する。網145は例えば私的団体の網で例えばインターネットプロトコルを使用するもの、公衆交換電話網(PSTN)、あるいは公衆データ網であってよい。網145はルータ148を含んでいてインターネット160へのゲートウェイアクセスを提供できる。サーバ130上にある情報管理ツールのユーザは網145上のアクセスを得るのに適当なインターネットビューワ135を用いてそれができ、パーソナルコンピュータ上で実行している通常のインターネットブラウザ製品のように網145に、パーソナルコンピュータ自体もしくはワークステーションによって用意されているインターフェースで、リンクされる。
【0042】
サーバ130内部に組込まれている情報管理ツールはインターネット160に網145と、そのルータ148と、インターネットルータ150とを経由してアクセスを取得できる。インターネットサービスプロバイダサーバ155はインターネット160上で必要に応じて適当なルータ165を経由してアクセスされる。
【0043】
情報管理兼検索ツールセットは上述の図1の構成要素を使用してユーザインターフェース140のオペレータがインターネット160を経て情報の位置を決められるようにすることもあろう。
【0044】
例えば、JASPERエージェント105はプロフィルメモリ115内に記憶されているユーザプロフィルにアクセスして、ユーザにとって関心がありそうなインターネット160上でアクセス可能な、文書についての夜通しの探索を実行するようにできる。JASPERエージェント105はページメモリ110内に検索した文書についての情報を記憶する。特定のユーザのプロフィルでプロフィルメモリ115から検索したものを用いて、JASPERエージェント105は次にページメモリ115をアクセスしてユーザのプロフィルにあるキータームとページメモリ110内に保存されている文書情報とを比較する。この発明のキーターム抽出器100は、ユーザプロフィル内で使用するための用語の生成と、文書の関連を測るのに使用するための検索された文書からのキータームの抽出との両方に応用される。この実施例のJASPERエージェント105についての詳細は国際特許番号PCT GB96/00132を参照することとする。
【0045】
キーターム抽出器100は能動ツールであってよく、これがインターネットサービスプロバイダのファイルサーバ155からダウンロードされたページを連続して監視する。キーターム抽出器100はそこでこういったキータームをJASPERエージェント105のような他のツールに送り、そこでは別な処理が別な動作が情報管理兼探索ツールセットによりダウンロードされたページに関してとられなければならないかどうかを判断する。
【0046】
これに代わって、キーターム抽出器100はJASPERエージェント105によるかあるいは要約用ツール120によってページメモリ110内で記憶のために選ばれているページに応答して呼び出されるようにしてよい。
【0047】
いずれの場合もキーターム抽出器100はそのページを解析してそこからキータームを抽出することになるが、これはオペレータの入力とは独立しているのがよい。
【0048】
キータームは情報管理兼検索ツールにより特定の文書のヘッドライン要約として単純に記憶されて後日ユーザにより使用するようにすることもできる。
【0049】
代りに、キータームはプロフィルツール(JASPERエージェント105内部にある)に送られて、このツールはこういったキータームを使用してユーザのプロフィルもしくは特定の文書用語(ターム)マトリックスあるいはその両方を更新することができるようにしてよい(このプロフィルツールもしくは文書用語マトリックスについての別な情報は国際特許出願番号PCT GB96/00132を参照できる)。
【0050】
このキーターム(及びキーターム抽出器100からの恐らくは何がしかの関係する処理結果)は要約を作成するツール120に送られ、そこには生成された要約内の一部もしくは全部が含まれることになる。
【0051】
図2を見ると、キーターム抽出器装置100の好ましい実施例における主要機能ブロックが示されている図である。各機能ブロックは処理の適当な部分を実施できるもので、この処理は以下に記述する。全体像を見ると、入力200はテキストの部分を含んでいるデータ組を受領して、各データ組に識別器(ID)を割当て、各データ組をデータメモリ205内に記憶する。文(センテンス)識別器(ID)210は記憶されたデータ組に作用して含まれているテキストを文(複数)に分けてこの文を適切にデータメモリ205内に記憶する。第1の組識別器(ID)215は特定のデータ組と関係している記憶された文から第1の組の単語群を識別するように働く。第1の組IDは適切な選択規準を第1の組の中へ包含するための単語群を選ぶために適用する。サブセット識別器(ID)220はいずれか適切な選択規準を用いて第1の組から単語群のサブセットを識別するように動作する。文ID210、第1の組ID215、及びサブセットID220は文カウンタ225と一緒に動作して、特定のデータ組内部で識別された文が必要に応じて走査できるようにする。減算器230は第1の組ID215から“+”入力で第1の組を受けまたサブセットID220から対応するサブセットを“−”入力で受けるようにされている。減算器230は“減算”を実行して受けた第1の組の単語群から受けたサブセットの単語群を取り除いて一組のキータームを作り出して、出力235により出力されるようにすることができる。
【0052】
この発明の実施例はテキスト情報を含んでいるデータ組の管理用ツールに応用することができ、ここでこの管理は少くともその一部があるデータ組内で1度ならず発生する単語シーケンスに頼っているものであり、またこの単語シーケンスは1度ならず発生する他のいずれかの単語シーケンスのサブストリングではないものとする。このような選択規準は次の例で示すことができる。例えば、大文字A,B,P,Qなどは単語を表わすために使用され、これらの文字のストリングで文を表わすために使用されているとする。この例は以下の“文”を使用しており、受けたデータ組内部で識別されたものである:
ABCDEF−1
PQBCDE−2
BEFCDP−3
CDEBEF−4
これらの文から、単語群の第1の組は上のデータ組の中で複数回発生するという規準に従って選ぶことができる(このプロセスとその実施についてのより詳細は次に示す):
BCDE (文1と2で2度発生している)
BEF (文3と4で2度発生している)
CDE (文1,2,4で3度発生している)
CD (文1,2,3,4で4度発生している)
EF (文1,3,4で3度発生している)
P (文2と3で2度発生している)
これらの組から、次のキータームが上述の第2の規準により第1の組から選ぶことができ、第2の規準は単語群が第1の組内のより長い単語群のサブストリングを形成しないというものである:
BCDE
BEF
P
しかしここで注意したいのは、サブストリング‘CD’‘CDE’及び‘EF’はキータームとして含まれてはいないことである。この理由はすべてがより大きなターム‘BCDE’もしくは‘BEF’のサブストリングであることによる。しかしながら、もし例えばこのより大きなターム‘BCDE’が1度しか発生しないとすると、そのときは‘CDE’はキータームとして特徴をもつことになる。
【0053】
上で概説した2段プロセスの結果は、もしデータ組が次のシーケンスの中で次の用語を含んでいるとすると:
…Jasper agent…
…Jasper…
…agent…
…Jasper agent…
…Jasper…
…agent…
…Jasper…
…agent…
そのときは‘Jasperエージェント’がキータームとなり(‘tool set including a Jasper agent’のようなもっと長い用語にサブサム(部分の和)が作られないことを条件とする)、がしかし、‘Jasper’も‘agent’も単独ではキータームとなることはなく、これはどんなに多くの回数これらの用語が出現しても関係がないとされる。これが3つ全部をキータームとして代表させるのを避けていて、‘Jasper agent’だけを代表させることによって全部もしくは大部分の情報が保たれるという仮定に頼るものとなっている。
【0054】
加えて、構成要素部分がデータ組内で発生する頻度を勘定に入れることによって、用語‘Jasper agent’についての代表的な重み付けが計算できる。例えば、もし‘Jasper agent’が頻繁にではなく出現し、また‘agent’が‘Jasper agent’と同じような頻度ではあるが用語‘Jasper agent’の方がより大きな頻度であるとすると、そのときは複合用語‘Jasper agent’はこの認識にあたりデータ組の他のキータームに対して重み付けをすることができる。
【0055】
好ましい実施例では、情報管理ツールはユーザに呈示されたキータームに応答して、それらを例えば受入れるか拒否するか動作するように求めてよく、またインターフェースがキータームの部分要素を選ぶという機能を提供してもよい。このようなツールは例えばプロフィル形成用ツールであってよく、これが入力した用語を変更することによるユーザの個人的プロフィルユーザに精製できるようにする。
【0056】
好ましい実施例はまたフルストップ(終止符)と他の句読点マークを使用して単語シーケンスに分け目を付けるようにできる。これが可能性のあるキータームの長さを制限するのに役立つ。
【0057】
実施例はさらにサブセットの第1の組についての単語群の選択について別の規準を実施してもよいし両方を実施してもよい。好ましいのは単語群が先行するか後に続く低値語をもたないように選ばれることである。“低値語”には接続詞、副詞及び何らかの一般的な単語であり、例えばthey,are,it,has,of,in等々である。
【0058】
ここで上の例に戻り、低値語を小文字で表わすとすると、文は次のようになる:
abCdEF−1
PQbCdE−2
bEFCdP−3
CdEbEF−4
ここで、これらの文から、頭と尾とに低値語をもたないキータームは:
CdE 文1と2
EF 文1と3と4
P 文2と3
ここで注意したいのは、‘b’が用語“bCdE”の前から失なわれているが、中間の‘d’は保存されていることである。したがって“bread and butter”といった用語と他の接続詞と低値語とを含んでいる用語とはキータームとしてリストされることになる。
【0059】
全体の文がキータームとしてリストされないのが好い。しかしデータ組内である文が2度発生する場合には、上述の方法はキータームとしてそれを含むことになるが、文を分割するセンテンススプリッテングとキーターム制限技術が採用されないことを条件としている。
【0060】
図3を参照すると、流れ図が示されいて、キーターム抽出器100によって実施される段階の好ましいシーケンスを示している。これらの段階は以下に掲示されていて、それらの動作について補足説明が付けてある。
段階300:テキストを入力する。
段階305:データ組を文に分ける。
段階310:各文を1又は複数の単語で成る単語群に分ける。
段階315:各単語群をとって頭と尾にある低値語を取り除く。
段階320:最長単語群を最初にして最短単語群に至る順序で記憶し、次に各単語のステム(茎切り)をしてケース(大文字か小文字か)を無視する(ステミングはプレフィックスとサフィックスを取り除くことを含む既知の技術である)。各ステムした単語とその取り除かれたプレフィックスとサフィックスとの間の関係を保存して、後で必要となるときにもとの単語の再生回復を可能とする。
段階325:各単語群に入力テキスト内での発生頻度と等しい初期重み付けを与えて、重み付け1の全単語群を無視する(換言すれば繰返されない単語群を無視する)。
段階330:単語群を上方に伝搬する:長さ(すなわち1単語のみの)のタームで始まり、上方に作用して、候補単語群を含む次に短いタームを見付ける。候補単語群の重み付けによりこの単語群の重み付けを増し、候補単語群を取り除く。候補単語群がより長い単語群のサブストリングであることがなくなるまで繰返す。
段階335:予め選んだ(すなわち構成可能な)最大許容長より長い単語群が残っていないことをチェックする。このようなより長い単語群が残っていれば、こういった単語群を‘分けられることになっている’リストに加えて、この‘分けられることになっている’リスト内の単語群に対して上の段階310から繰返す。この段階の条件が満足されるまで、あるいは最大単語群長がこれ以上減らなくなるまで繰返す。
段階340:各単語の重み付けをそれが含んでいる単語の数により除算することによりスケール合せをし、この単語群を減って行くスケールされた重み付け順序に従って種分けする。
段階345:これらの単語群から得られたキータームの数を制限する戦略を適用するとし、とくに最大重み付けをもつものから単語群の適切な数を一般に選ぶようにする。
段階350:単語群がユーザに呈示されることになる場合は、この単語群を‘実世界(real world)’に戻す写像をする。段階320で、可能性のある単語群がステムされ、ケース(大文字か小文字かを示す)情報が無視されて一番広幅の可能な概念上同等の単語群の組を一つの中立な代表形式に写像する。逆写像は大文字化と単語の終結部とを再生回復する。
【0061】
ここで注意したいのは、段階330で候補単語群がより長い単語群のサブストリングとして識別される第1のインスタンスでのリストから取り除かれることである。リストの最頂部に向う全体で各サブストリングを伝搬し、かつ候補タームがサブストリングとなっている各単語群の重み付けを増加することは可能である。このプロセスはキータームを重み付けする代替手段として使用されるのが好ましい。しかし、保存されるタームの結果を変更はしない。
アルゴリズム詳細
図3と図4とを参照するとして、上のアルゴリズムでの選ばれた段階が図4に示したようなテキストを用いる特定の例を参照して記述されることになる。
段階305:フルストップでの文の分割−省略での分割をしないように注意する。段階300での受理に続いて、入力テキストが次の文に分けられる(400):(省略データベース125がこの目的で使用できる)
This is wholemeal bread and butter.
It uses salted butter.
Salted butter is good.
Bread and butter is mainly bread.
段階310:単語群を識別する−ステージ1処理410はキータームエンジン470の制御下にあり、エンジン470はキーターム抽出器100の機能部品として実現されているのがよく、この処理410は入力テキスト400内で識別された文から1つまたは複数の単語で成る単語群を識別することにより始められる。ステミングをする前に単語群(420)は次のように識別される。
【0062】
bread and butter is mainly bread
wholemeal bread and butter
butter is mainly bread
bread and butter
wholemeal bread
salted butter
bread
wholemeal
butter
salted
(単語群を識別する仕組みについては以下でさらに記述する。)
段階320:ステミングと大文字使用−現在の例では必要とされないがステージ1処理410はステミングを含むことができて、プレフィックスとサフィックスとをある単語群内の単語から取り除き、それによって各単語を中立の表現形式に減縮するようにできる。例えば、ステミングは“surfing the net”,“surf the net”及び“surfs the net”というフレーズを1つの代表的なフレーズ“surf the net”と減縮する。好ましいのは、プレフィックスとサフィックスとがこの中立形式と関係付けて記憶されて、段階350で再構築できるようにすることである。
【0063】
ステージ1処理410はまた大文字使用化を含むことができ、(人物名のように)大文字で始まる必要がある単語と、それを必要としない単語(例えば文の始めにある単語)とを識別する。大部分のアクロニム(頭文字)は他の省略と同じように大文字を含んでいる。こういった大文字使用を必要とする単語を識別することはこういった単語を段階350によりこの形式で呈示されるようにする。
段階325:ステージ1処理410はまた初期重み付けを識別された単語群に割当ててステージ1出力を完成させて、次のようにする:
1 bread and butter is mainly bread
1 wholemeal bread and butter
1 butter is mainly bread
2 bread and butter
1 wholemeal bread
2 salted butter
2 bread
1 wholemeal
4 butter
2 salted
ステージ2処理430はキータームエンジン470の制御の下にあって、重み付け1のすべての単語群をステージ1出力420から取り除いて、ステージ2出力440として単語群の次の組を残す:
2 bread and butter
2 salted butter
2 bread
4 butter
2 salted
段階330:ステージ処理450もまたキータームエンジン470の制御下にあって、単語群を上方に伝搬し、サブストリングタームを取り除いて、次のようなキータームの出力460を結果する:
4 bread and butter (もとの2+‘bread’からの2)
8 salted butter (もとの2+‘salted’からの2と’bread’からの4)
用語‘bread and butter’からの値は‘butter’からの値‘4’だけ増えていないが、その理由は現在の方法が言うところは‘butter’が上方へ伝搬するのは2単語用語である‘salted butter’までであり、以後はそれが無視されるからであり、言い換えると、より長い単語群のサブストリングとして識別される最初の瞬間に単一用語‘butter’が無視されることによる。
【0064】
別な立場からこれを見ると、長い方の単語郡内に含まれていると見付けられた単語群の重み付けはこのような長い方の単語群の1つについての重み付けに加えることだけができるのであり、短い方の単語群を含むこのような長い方の単語群の全ての単語群の重み付けに加えられない。ここで記述した方法では一番短い長い方の単語群の重み付けだけをそこに含まれている単語群の重み付けに比例して修正している。これが段落325の例であり、ステージ2で残っている単語群が長さが短くなる順序とされている。単語“butter”(重み付け4)を採り、リストを上へ見ていくと第1のすなわち一番短い単語群で“butter”を含むものは“salted butter”である。一度“butter”からの重み付けが“salted butter”内に吸収されてしまうと、もうリストの上には続いて行けず、また“bread and butter”に加えられることもできない。しかし、もし、例えば“bread and butter”の代わりに一番上位の単語群が“bread and salted butter”であるとするとそのときは“salted”(2)と“butter”(4)の重み付けを“salted butter”の重み付け(2)に加えて合計で8とした後に、“salted butter”(8)の合計の重み付けが、次に“bread and salted butter”の重み付けに(“bread”の重み付け(2)と一緒に)加えられて、“salted butter”もまた取除かれて2つではなく、1つの単語群だけが残ることになる。
段階335:長い単語群についての可能な分割。この例では必要としないが、通常の最大単語群長は約5もしくは約6語となる。しかし、この例では、もし最大受理可能単語群長が2と設定されていたとすると、“bread and butter”を分割するために段階310に戻る必要があることになる。
【0065】
上述した図4の例については、単語分割は次の表1の別の段階で示されることになり、ステージ3処理450で始まる:
【表1】
【0066】
長い単語群を分割する好い方法はより長い用語のサブストリング内部に含まれることにはなりそうもない群の中心に向っている単語を見付けることである。好ましい戦略は最初に(接続詞が)離節的な(disjunctive)性質をもつ単語を探すことである:例えば‘but’と‘or’を‘and’とか‘of’のような接続的用語を考慮する前に探す。
【0067】
しかし、離節的な用語が存在せず、接続的用語だけが単語群内にある場合には、長い単語群と接続語で単語群の分割をすることという妥協を採用することが可能である。例えば、接続語をそのままとしておくことは1つもしくは2つの単語により単語群の長さを増大させるだけであり、この場合には長い単語群を保存するのが価値があることになる。
段階340:(上述の“非分割”単語群すなわち最大長6の単語群に立ち戻り)、単語群はその長さ、すなわち単語群内の単語群の数によってスケール合せがされる。これは次の結果を生む:
1.33 bread and butter (4割る3)
4.0 salted butter (8割る2)
これらの用語をスケールを合わせた重み付けで種分けすると結果は:
4.0 salted butter
1.33 bread and butter
この段階が含まれるのは、作られたキータームの信頼性を強化するために観測を介して見付けられたことであるによる。より長い用語が受取られてよいとする追加の重み付けに対する補償をするために、正規化が作用していると信じられている。この妥協は好ましいものとされ、全部ではないにしても若干のより長い用語は短い用語よりもデータ組の主題についてのより集中した情報を含んでいてよいからである。また、逆に、全部ではないとしても若干の短い用語は若干の長い用語よりもデータ組の主題についてもっと集中した情報を含んでいてよい。
段階345:キータームとして呈示される単語群の数を制限すること。この段階に対しては、広範囲の文書に対するキータームについての制限された数を作るという一組の戦略を備えることが好ましい。次のような戦略が単独であるいは何らかの組合せで使用できる。
【0068】
・現在の用語についての組合せた合計の重み付けが全キーワードの組合せた合計の重み付けのうちの構成可能な割合に上昇するまで、継続する用語を表示する。この場合には次のような式となり:
Σ(表示された重み付け)<=Σ(全重み付け)/1.5
例えば次のような得点:
4 3 3 2 1 1 1
で最初の3つの用語だけが表示される。ここで式の中で第2のタームについての分母1.5は良い結果をもたらすことが見付かっている。1よりも大きな他の値を使うこともできる。
【0069】
・隣りの用語の重み付けの比が構成可能な値以下となるまで継続する用語を表示する。この終結式は例えば:
(重み付け)(i+1)<=(重み付け)(i)/2
例えば次のような得点:
4 3 3 1 1 1 1
で最初の3つの用語だけが表示される。この式の中で第2のタームについての分母2は良い結果をもたらすことが見付かっている。
【0070】
・最初の用語の重み付けに対する用語重み付けの比が構成可能な値以下に落ちるまで継続する用語を表示する。この終結式は例えば:
(重み付け)(i)<=(重み付け)(1)/3
例えば次の得点:
4 3 3 1 1 1 1
で最初の3つの用語だけが表示されることになる。
【0071】
上の規則により許される継続する用語の表示を構成可能な最大に制限するが、等しい重み付けの用語の完全なブロックを含めるために必要な場合にはその数を越えられるとする。値7が有用であると見付けられていて、その理由はあるデータ組に対して7つのキータームを用意することによる。例えば次のような得点で最初の7つの用語が表示される:
10 8 7 6 6 5 5 5 5 4 4
・単一単語の用語をとくに取扱い、単一単語の用語が構成可能な位置にあるいはその後で出て来るときには継続する用語の表示を中継する。値3が有用であると見付けられている。次の例では複数の数がいずれもの用語の中で単語の数を表している。用語は重み付けによりランク付けされている。例えば次の組では最初の4つの用語だけがその重み付けとは無関係に表示されることになる:
1 3 4 3 1 2 4
・上記の制限とは無関係に最小数を表示するが、等しい重み付けの用語についての完全なブロックを含む必要があるときはその数を越えてもよい。値2が有用であることが見付かっている。例えば、次の得点では最初の4つの用語が表示される:
5 2 2 2 1 1
段階350:もとの形式に用語を戻す写像−これは段階320から続くもので、単語を単語のステムした状態もしくはオペレータに呈示できる形式に戻す変更した大文字使用とするプロセスである。
【0072】
例えば次のフレーズを含む文書を考える
Surfing the net (分の始めにある)
Surf the net
Surfs the nets
段階320でステミングをし、大文字、小文字を無視することは一般にこういった用語を次のように写像させることになる:
Surf the net
適当な記録が取り除かれたプレフィックスとサフィックスについて保存されたとすると、段階350はステムしたフレーズを表示用の単一の代表的なフレーズに戻す写像をしてよく、この表示には大文字小文字の差を解決することとどの終りを適用するかを選ぶこととを含んでいる。ここでセンスのある(賢い)選択は次のようになってよい:
Surfing the net
一般的な場合では、これは2段階で達成され、大文字,小文字の解決することとプレフィックス/サフィックス再構築とである。
大文字小文字の解決( case resolution ):一般に、小文字が好ましいが文の最初の文字が大文字である場合を除く。この場合はケース情報が信頼性がないと考えられる(これ以外の単語もまた何がしかの大文字を有していないことを条件とする)。
サフィックス再構築:一組の経験的に決められた規則が適用される。最初にリストが作られ、テキスト内で発生している特定の単語の終結部のすべてについてリストされる。この情報は前もって段階320で記憶されるようにできる。もし複数の終結部が存在すると、次の表2にリストした規則が整合が見付かるまで継続して適用される。
【0073】
【表2】
【0074】
ここで、*-は裸の単語(なにもない単語bare word)も−sもともに存在しないことを条件とする。
【0075】
整合が見付からないとすると、単語の一番長い形式(もしくは一番長い形式の一つ)が取上げられてよい。
【0076】
図3の流れ図に概略を示した好ましいキーターム抽出プロセスをここで記述して、上述の要約例を用いて詳細を示すこととするが、ここでは文字が単語を表わしているとする。図3のプロセスの中の主要段階についての好ましい実施が詳細に記述され、こういった段階を応用することの効果を示すために要約例を用いている。
【0077】
図3を見ると、段階305は困難なしに既知のテキスト走査技術を用いて省略データベース125を参照しかつ必要に応じて句読点についての標準的な規則を用いて分を識別している。段階305からの出力はこの例示では次の識別された文を上のように与えている:
abCdEF
PQbCdE
bEFCdP
CdEbEF
この例で使用された文はも、簡単のために同じ長さとしているが、図3の方法と以下に記述する特定の実施とは一般的な場合であって文が異なる長さのものでもよい場合に動作するように設計されている。
【0078】
最初の文“abCdEF”が段階310で分割されて次のような単語群となる:
abCdEF bCdEF CdEF dEF EF F
abCdE bCdE CdE dE E
abCd bCd Cd d
abC bC C
ab b
ab
単語群の長さが減って行く順序に編成すると次のリストとなる:
abCdEF
abCdE
bCdEF
abCd
bCdE
CdEF
abC
bCd
CdE
dEF
ab
bC
Cd
dE
EF
a
b
C
d
E
F
加えて図5を参照すると、流れ図が与えられていて、識別された文を単語群に分割する好ましいアルゴリズムを示していて、これは図3の段階310を実施している。この文分割アルゴリズムは上に示したのと同じような単語群のアレイを生成し、各単語群はアレイ変数“WG[S,k,i]”の要素の中に含まれていて、ここで“S”はある文を識別する数であり、“k”は文S内部の単語の位置であってこの位置で単語群が始まるところであり、また“i”は単語群の長さである。上の例では、文1“abCdEF”については、S=1とWG[1,1,1]=‘a’,WG[1,1,2]=‘ab’,WG[1,2,1]=‘b’,WG[1,2,2]=‘bc’,及びWG[1,2,3]=‘bCd’である。図5のアルゴリズムはまた関数“WS(S,i)”を用いて文Sのi番目の単語を戻している。上の例の文1についてはWS(1,1)=‘a’,でWS(1,4)=‘d’である。
【0079】
最初は、段階500で、単語群アレイの各要素をナル(零)に設定し、文カウンタSを零に初期化する。このアレイは予期される最大入力テキストを収容できる大きさであると仮定されている。
【0080】
段階505で、文カウンタSはインクレメントされ、最初に、図3の段階305から識別された第一の文を選び、単語位置カウンタkを零に初期化する。段階510で、文Sが入力される。段階515で単語位置カウンタがインクレメントされ、最初は文Sの第一の単語の点にであり、そして単語群長“i”が零に初期化される。単語群長“i”が段階520でインクレメントされ、そして段階525では長さi−1の先に構築された単語群を用い、文Sの単語位置kで始まって新しい単語群が構築され、(WG[S,k,0]はSとkとのすべての値に対してナル(零)であると仮定されている)。そこには次に続く単語が文中でその文に添付されていて単語位置i+k−1で始まっている。関数“WS(S,i)”は文S内で単語位置iに単語を戻す。段階530では、試験が実行されて、文Sからもっと長い単語群を構築するのに使用するためにいずれかの単語が残っているかどうかの検出が実行され、単語位置kから始まって、文Sの長さの知識を用いてそれが行われる。文の終りに到達していなければ、処理は段階520に戻り、単語群長iをインクレメントする。しかし、文の終りに到達していれば、段階535で単語位置カウンタkが文Sの最終単語を指しているかどうかを試験が判断する。否であれば処理は段階515に戻り、文S内の新しい単語群についての単語位置が1つだけ進んで、長さ変数iが上のように零にリセットされる。しかしもし、文の終りが段階535で到達していなければ、段階540で最終文が処理されたかどうかを試験が判断する。否であれば処理は段階505に戻り、次の識別された文が選ばれる。もし段階540で全ての文が処理されていれば、このアルゴリズムと、したがって図3の段階310とは完了し、全ての可能性のある単語群についてのアレイWG[ ]は段階305から識別された文から構築されたことになる。
【0081】
図5のアルゴリズムをここで示した例での識別された文に適用することは次に示すように表3内の文の順序で配列された以下の単語群を作り出す。
【0082】
【表3】
【0083】
段階310の完了で、入力されたテキストの各文についての可能な単語群のすべてが識別されて、単語群アレイWG[ ]内に読取られている。次の段階は図3の方法の段階315であり、これは“低い値”の単語を各単語群の始めと終りから取り除くことであり、低い値の単語(低値語)は‘is’,‘it’,‘are’,‘they’,‘and’などのような単語であり、キータームが抽出される対象のデータ組(例えばテキスト)の主題を反映する傾向をもたないものであり、とくにこういった単語が単語群内の先頭と後尾の位置で出現する場合に行なわれる。低値語は定値語と省略のデータベース125を参照して識別されてよい。
【0084】
図6を参照すると、低値語を取り除くための好ましいアルゴリズムを示すようにした流れ図が用意されている。このアルゴリズムは次のような基礎の上にあって動作する。すなわち、単語群アレイの中に含まれているようになっている可能性のあるすべての単語群について、先頭もしくは後尾の低値語を備えたものも備えていないものもある単語群を含めて、低値語を取り除くことが他の単語群の1つで誤りを生じさせ易い複製物を単に生じさせるだけであるということである。したがって、単語群から先頭と後尾の低値語を実際に取り除くのではなく、図6のアルゴリズムはWG[ ]アレイから先頭もしくは後尾の単語をもつすべての単語群を適当なアレイ要素をナル(零)に設定することによって単に除去することとする。この結果は先頭と後尾の低値語なしに可能とされる単語群のすべてを含んでいるようなアレイとなる。
【0085】
図6を参照すると、アルゴリズムは段階600で始まり、図5のアルゴリズム(段階310)から生じた単語群アレイを輸入することによって始まる。段階605で文カウンタSを初期化した後に、このアルゴリズムは3つのネストされた解析ループを実行してWG[ ]アレイの全部の要素を走査する。外側のループは段階610で始まり文カウンタをインクレメントし、最初は第一の識別された文を選び、単語群長iを初期化する。段階615では、中間ループの開始があり、単語群長がインクレメントされ、最初に長さ1をもつ単語群アレイ要素を選び、また単語位置カウンタkが初期化される。段階620では、内側ループが開始され、単語位置カウンタkがインクレメントされ、最初に文S内で第1の単語で始まる長さiの単語群を選ぶ。段階625は選ばれた単語群WG[S,k,i]内のいずれかの先頭の低値語を求めて試験を行なう。なにも見付からなければ段階630でいずれかの後尾の低値語が探される。もしなにも見付からなければその単語群が保存されて、処理は次の単語群要素に移動して、上述の段階530と同じやり方で段階640により処理される。もし先頭もしくは後尾のどちらかの低値語が選ばれた単語群WG[S,k,i]の中で段階625または630でそれぞれ見付かるときには、段階635でその単語群要素がナル(零)に設定されて、このアレイから特定の単語群が除去されて、処理は段階640に進む。図5の段階530のように、段階640は長さiの別な単語群が単語位置kで始まる文Sから文Sの長さの知識を用いて出て行ったかどうかを判断する。もしいずれかが残っていれば、そのときは内側ループ上の処理が段階620へ戻り、そこでは単語位置カウンタkがインクレメントされる。段階640で何も残っていなければ、次に段階645が単語群長iが今では現在の文Sの長さに等しいかどうか、すなわちiよりも大きい長さの単語群が存在しえないことを判断する。文Sの長さに等しくなければ中間ループ上の処理は段階615に戻り、そこで長さ変数iがインクレメントされて、次に長い単語群が解析できるようになる。一番長い単語群が段階645で今度は解析されてから、段階650では最終文についての試験がされる。もし文Sが最終でなければ、外側ループ上の処理は段階610に戻り、そうでなければアルゴリズムは段階655で終り、先頭と後尾の低値語をもつ単語群が単語群アレイから除去されてしまう。
【0086】
図6のアルゴリズムを表3の単語群に適用すると次の表4が作られる。
【0087】
【表4】
【0088】
表4では先頭もしくは後尾に低値語をもち、1もしくは複数の低値語だけで成る単語群を重要でもないのに含んでいるものは除去されていて、表中ではブランクの空間として示されている。
【0089】
図3のアルゴリズムにおける次の段階である段階320は長さに従って単語群を並べまた単語ステミング(stemming)を実施することである。記述されている特殊例では、長さによる単語群の順序付けは単語群アレイWG[ ]の本質が与えられると、表示目的で必要とされる場合を除いて、特に必要とはされない。単語ステミングは単語からのプレフィックスとサフィックスとの取り除きである。例えば、ステミングのプロセスは単語群“surfing the net”と“surfs the net”を同じ単語群すなわち“surf the net”に減縮することである。これは両サフィックス“ing”と“s”とをそれぞれ単語“surf”の2つの発生から取り除くことである。
【0090】
図7を参照すると、単語をステミングしかつステムされた単語といずれかのプレフィックスもしくはサフィックスで取り除かれたものとの間の関係を記録するための好ましいアルゴリズムを示すために用意された流れ図である。好ましいのは、実際に、図6と図7のアルゴリズムが組合せされることである。単語群のアレイを走査する方法は2つのアルゴリズムの間で同一である。図7のアルゴリズムは図6のアルゴリズム(段階315)の動作から生じた単語群アレイを輸入することにより段階700で始まる。段階705で文カウンタSを初期化することにより、アルゴリズムは3つのネストされた解析ループを実行してWG[ ]アレイの要素のすべてを走査することは図6と同じであり、それぞれ段階710,715,720で始まり対応しているループの終り試験はそれぞれ段階765,760,755である。図7のアルゴリズムの内側走査ループ内部での処理は、単語カウンタxを初期化した後、段階725で始まり、選ばれた単語群アレイ要素WG[S,k,i]がナル(零)に設定されていないことをチェックすることを伴う。もしそれがナルであると、処理は段階755での内側ループの終り試験まで直ちにとばして、単語群要素の別の処理はしない。もし段階725で、選ばれた単語群がナルでなければ、そのときには、段階730で単語カウンタxがインクレメントされ、最初に選ばれた単語群の第1の単語を指すようにする。段階735は選ばれた単語x内のプレフィックスとサフィックスの一方または両方についての試験がされる。もし何も検出されなければ、段階750で単語カウンタが選ばれた単語群長iと比較されて、その単語群の最終の単語が処理されているかどうか判断する。もし単語が文S内で処理されずに残っていると、そのときは処理は段階730に戻って単語ポインタxをインクレメントして単語群の次の単語を選ぶようにする。もし段階735でいずれかのプレフィックスもしくはサフィックスが見付かると、そのときは段階740でそれが取り除かれて、段階745では記録が作られて、取り除かれたプレフィックスもしくはサフィックスを結果として生じたステムした単語と関係付けがされ、後の回復を可能とする。そこで処理は上述のように段階750に続く。
【0091】
もし、段階750で、選ばれた単語群WG[S,k,i]のすべての単語が処理されているときは、内側のアレイ走査ループ試験が段階755に到達して、単語群アレイの残りのものが図6のアルゴリズムと同じように走査される。
【0092】
全体の単語を表わすために単一の文字を用いて今の例示では、単語ステミングの結果を示すようにすることは不可能である。
【0093】
図3の段階である次の段階は、残っている単語群の各々に重み付けを指定して、入力データ組のテキスト内に一度だけしか発生しない単語群を除去することである。この段階で指定される重み付けはそのデータ組内での単語群の発生の頻度に等しいのが好い。しかし他の尺度をこの段階で適用して単語群を重み付けし、単語群の除去のためのしきい値を設定するようにしてもよい。段階325と図8の以下のアルゴリズムとは好ましいキーターム抽出器100の第1組識別器215の動作における段階を完結することができる。
【0094】
図8を見ると、頻度により単語群に重み付けをし、入力データ組で1度しか発生しない単語群を除去するための好ましいアルゴリズムを示すために流れ図が呈示されている。図8のアルゴリズムは進行の際に、アレイからの特定の単語群の二重発生を除去して、完了の際に各個別の単語群の単一発生がアレイ内に残り、その重み付けの関係する記録を伴うようにしている。重み付けはアレイf[S,k,i]内に記録されていて、単語群アレイWG[S,k,i]の各可能な対応する要素について一要素となっている。図8のアルゴリズムはまた、後の使用のために、一番長い残っている単語群を変数“m”を用いて識別する。概略を述べると、図8のアルゴリズムは単語群アレイWG[ ]を図6,7のアルゴリズムと同じやり方で走査することにより動作する。図5の走査は他と少し違っている。内側の走査用ループで特定の単語群要素WG[S,k,i]を選び、かつナルでないように設定したものの内部で、同じ長さiをもつ残っている単語群、すなわち同じ文内でより大きなkの値をもち、かつ後の文だけの中にあるものが整合する単語群についてチェックされる。整合が見付かった各々について、単語群WG[S,k,i]の重み付けがインクレメントされて、整合用単語群がナルに設定されて、重複するものが取り除かれる。
【0095】
ここで走査する(scanning)は処理のために単語群アレイWG[ ]の要素を選ぶ技術を意味している。図6ないし8の各流れ図では、3つのネストされたループがあって、内側ループ、中間ループ、および外側ループがある。図6については、内側ループが段階620ないし640で成り、中間ループが段階615ないし645、また外側ループが段階610ないし650で成る。同じようなネストされたループが図7と図8の各図中のアルゴリズムに対して使用されている。解くに図8では対応するループは内側が段階808ないし836、中間が段階806ないし838、または外側が段階804ないし840である。
【0096】
各図では外側ループが処理すべき文を選んでいる。各選んだ文(S)については中間ループが解析されている単語群で長さ(i)のものを設定し、内側ループは文S内部の異なる可能な単語位置(k)の全てで始まる組の長さ(i)の単語群を処理するように働く。単語長(i)は次に中間ループにより進み(i+1)、文(S)の処理がその異なる可能な長さの全ての文内で可能とされる単語群が解析されてしまうまで進行する。外側ループは次に次の文を選んで同じ解析をその文について実行する。
【0097】
図6ないし8の各アルゴリズムでは、単語群の選択に同じ基本的な方法を使っており、内側ループ内部で選ばれた単語群について実行される処理段階が違っていてもそうしている。
【0098】
図8のアルゴリズムは段階800で図7の処理から生じた単語群アレイWG[ ]を輸入する事によって始まる。段階802では、重み付けアレイf[
]の各要素が零に初期化され、最大単語群長変数mと文カウンタSとについても同様である。図5ないし7と同様にWG[ ]は3つのループで走査され、図8の段階804,806,808でそれぞれ始まり、対応するループの終り試験を段階840,838,836にそれぞれ備えている。段階808で特定の単語群要素WG[S,k,i]を選ぶと、ナルについてのチェックが段階810で行なわれる。選ばれた要素がナルであれば、次の単語群要素が、もしあれば、ループの終り(エンドオブループ)段階836を経て選ばれる。
【0099】
ナル(零)でない単語群要素WG[S,k,i]を段階810で選ぶと、段階812はこの要素に対する対応した重み付けを単位値に設定して2つの別な走査用変数x,yを初期化する。変数xは文カウンタであり、現在及び後の文中の同じ長さの単語群がWG[S,k,i]と整合するかについてチェックできるようにする。変数yは単語位置カウンタであり、kと等価なものである。変数xとyとが初期化されて、Sとkとの現在値がそれぞれ段階812により初期化される。段階814では、チェックがされて、長さiの別な可能な単語群を求めて現在の文x内で行なわれ、位置yよりも後の単語位置で始まる。もし何か残っていれば、そのときは段階816でyが次の単語群のポイントまでインクレメントされる。もし段階818で、次の単語群がナルであれば、そのときは処理は段階814に戻って、同じ長さの別な単語群を探す。
【0100】
段階818で、もし次の単語群がナルでないと、段階820では比較が選ばれた単語群WG[S,k,i]とされる。もし整合が見付からないと、処理は段階814に戻って、上のように、別の単語群を探す。しかし、段階820で整合が見付かると、段階822で単語群WG[S,k,i]の重み付けがインクレメントされて、整合用単語群要素WG[x,y,i]がナルに設定され、カウントがされて、重複を除去するようにする。処理はそこで段階814に戻り、上のように同じ長さの別な単語群を探す。
【0101】
段階814で同じ長さiの別な単語群が現在の文x内に何も残っていなければ、そのときは段階824で判断がされて、最後の文が整合用単語群について探されたか、探されていないかについて決められる。もし探されることになる文が残っていれば、段階826で文カウンタxがインクレメントされて、単語位置カウンタyがリセットされ、次の文内で長さiのすべての単語群が探索される。もし段階824で最後の文が探索されたときには、段階828で累積された重み付けf[x,y,i]で単語群WG[x,y,i]についてのものがチェックされる。これが単位値(1)よりも大きいときには、単語群は保存されて、段階832と834とがmという値がこれまでに見付かった保存されている最長単語群を記録することを確実としてから段階836に進む。もし段階828で、単語群WG[x,y,i]がデータ組内で1度だけしか発生していなければ、そのときはナルに設定され、それと関係する重み付けが零に設定される。処理は段階836に進んで、図6のアルゴリズムに関して上述したところにより、単語群アレイの走査を続ける。
【0102】
図8のアルゴリズムが完了すると、すなわち図3の段階325が完了すると、単語群アレイWG[ ]は入力データ組内で1度ならず発生した各個別の単語群についての単一エントリィを含んでいて、各々は重み付けアレイf[ ]内に記録された対応する重み付けを備えている。単語群アレイと対応する重み付けアレイとは第1の組識別器215により生成された第1の組を構成できる。この好ましいアルゴリズムはまた一番長い生き延びている単語群の長さの記録を変数mとして生み出してもいて、これが主として次のアルゴリズムでプロセスの効率を高めるために使用される。
【0103】
この例を示すために、図8のアルゴリズムによる処理を完了すると表4が次のように生まれていて、対応する重み付けで“W”と示した欄に示したものを備えている。
【0104】
【表5】
【0105】
図3の次の段階である段階330は、より長い残っている単語群のサブストリングを形成する残っている単語群を除去し、こういったより長い単語群の対応する重み付けを含んでいた除去されたサブストリングの重み付けだけ増す。この段階はサブセット識別器220の選択規準の一部として実施することができる。この段階を達成するための処理は段階325からの残っている一番短い単語群によって始めて、単語群階層構造を通って上方に進み、すべてのより短いサブストリング単語群が除去されるまで進んで達成される。
【0106】
図9を見るとサブストリング単語群を除去し、それによって対応するより長い単語群の重み付けを増すための好ましいアルゴリズムを示す流れ図が示されている。概観すると、このアルゴリズムは一度に1単語長iで作業をし、長さi=1のものから始まって1つインクレメントして作業をして行き長さi=mとなるまで進む。長さmよりも長い単語群については、何も残っていないので、面倒を見る必要がない。一番短かい残っている単語群WG[S,k,i]を見付けると、このアルゴリズムは次に長い長さで残っている単語群の全部を探索し、それを続けて、サブストリングとして単語群WG[S,k,i]を含んでいる単語群を見付けるまで進める。この点で、単語群WG[S,k,i]の重み付けを対応するより長い単語群の重み付けに加えてから、WG[S,k,i]をナルに設定する。処理は次の、最短の残っている単語群WG[S,k,i]で進行し、処理が長さmの単語群に達するまで進み、その点でアルゴリズムが終り、処理すべき残されたより長い単語群がなにもないことになる。
【0107】
図9および図10のアルゴリズムは段階900で始まり、図8のアルゴリズム(図3の段階325)の完了で出力された単語群アレイWG[ ]と、重み付けアレイf[ ]と値mを輸入する。段階902で単語群長変数iを初期化した後に、外側のループが段階904で始まって一度に1つの長さiの単語群を処理し、それがiの値をインクレメントすることにより始まり、最初は長さ1の単語群を解析する。試験が段階906で実行されて、現在の長さiが図8から識別された一番長い残っている単語群の長さかどうか判断される。もしそうであれば、もっと長い単語群は何も残っておらず処理は段階908で終る。
【0108】
段階906で、もしもっと長い単語群が残っているとすると、文カウンタSは段階910で初期化され、また段階912では2つのループの第1のものが長さiの残っている単語群のすべての走査し始め、文カウンタSをインクレメントする。段階914では、これが増大した処理効率のために含まれていて、チェックがされて現在の単語群長iが現在選ばれた文Sの長さよりも大きいかどうか判断される。単語群が文Sから長さiで何も見付かりそうもないとすると、この文の処理は続ける必要はなく、その代りに段階946へとんで、次の文がもしあればそれを選ぶことにする。
【0109】
段階914でもしより長い単語群が文Sから可能であるとすると、そのときは段階916で単語位置カウンタkが初期化されて、段階918で走査ループの第2のものが単語群位置カウンタkをインクレメントすることにより開始される。段階918に続き特定の単語群要素WG[S,k,i]を選ぶと、その要素がナルかどうかチェックがされ(段階920)、段階944へとんだ処理ではもし要素がナルであると見付かるときには長さiの次の単語群アレイ要素を選ぶことになる。
【0110】
もし段階920で現在選ばれた単語群がナルでなければ、処理は段階922で始まりサブストリングとしてWG[S,k,i]を含んでいるものについてのより長い単語群が探査される。段階922は単語群長カウンタjを初期化してWG[S,k,i]の長さiに等しくする。段階924では、jはインクレメントされて、次のより長い単語群を走査し始め、文カウンタxが零に初期化される。各jの設定に対して、2つのループがここでは各文xから残っている単語群を探索し、段階926で始まって文カウンタxをインクレメントし、最初は第1の文からWG[ ]アレイ要素を探索し、また単語ポインタyを初期化する。第2の探索ループは段階928で始まり、単語ポインタyをインクレメントする。段階930では、現在探索されている単語群要素WG[x,y,j]がナルについて試験される。ナルでなければ、段階932で単語群WG[x,y,j]がサブストリングとして単語群WG[S,K,i]を含むか否かを判断する。含んでいれば段階934でWG[x,y,j]についての重み付け頻度f[x,y,j]がWG[S,k,i]の重み付けf[S,k,i]だけ増加されて、段階936では、単語群WG[S,k,i]がそれをナルに設定することにより除去されて、その重み付けが零に減る。処理は次に段階944に進んで、もし何か残っていれば、長さiの次の単語群を選ぶことになる。
【0111】
もし段階930で現在探索された単語群要素WG[x,y,j]がナルであるか、もし段階932で単語群要素WG[x,y,j]がサブストリングとしてWG[S,K,i]を含んでいなければ、そのときは探索は長さjの次の単語群に、もし何か残っているときには、移動することが段階938と940を介して行なわれ、これは上述の図5ないし8のアレイ走査段階と同様のやり方となっている。しかし、もし段階940に従って長さjの残っている単語群のすべてが探索されてしまっているとし、さらに何れもサブストリングとして単語群WG[S,K,i]を含んでいないことが見付かると、そのときは段階942で、試験が行なわれて、既知の最大単語群長mとjを比較して、より長い単語群が探索されずに残っているかどうか判断がされる。もしjがmに等しければ、そのときはより長い単語群は探索対象として残ってはおらず、処理は段階944に進んで長さiの次の単語群がもし残っていれば上述のように選ぶことになる。もし段階942で別のより長い単語群が探索のために残っていそうであれば、そのときは処理は段階924に戻って上述のように長さ変数jをインクレメントする。
【0112】
段階944と946は長さiの各値について単語群アレイの走査を制御するがこれは上述した図5ないし8からの等しいアレイ走査と同じやり方である。図9および図10のアルゴリズムが完了すると、キータームの最終組が単語群アレイWG[ ]内に残り、重み付けアレイf[ ]内の対応する重み付けを備えている。これらのアレイは減算器230からの出力を構成できる。
【0113】
ここでとりあげた例示では、表5の内容について図9および図10のアルゴリズムを実行した結果は次のようになる。
【0114】
【表6】
【0115】
単語群“CdE”,“EF”及び“P”は今ではもとの文のキータームとして識別されていて、図3のキーターム抽出アルゴリズムの段階335及び345で適用されることになるオプションの別の規準の対象となる。
【0116】
図3の残りの段階335ないし355の実施は詳細には記述しないことにするが、直截的なやり方で実施できるものである。今とりあげている例でこれらの段階が実際にどのように適用されるかを示すことに徹すれば十分と思われる。
【0117】
上の表6の内容で始めると、図3の段階300ないし330の動作の結果から、段階335は予め定めたしきい値を越える長さをもつ残っている単語群を除去するための拒絶規準を適用する。残っている単語群のうちのいずれもが現在の例ではこれを基に除去されないことになる。しかし実際には、例えば長さ6以上の単語群はこの段階で除去されることになる。
【0118】
段階340では、単語群の重み付けは、例えば単語群長によりスケール合せがされて、重み付けに従って呈示用に種分けされる。今の例示では、CdEの重み付けは3により除算され、EFの重み付けは2で除算され、Pの重みつけは1で除算されて、次の順序のキータームのリストとなる:
5.5 EF
2.33 CdE
2 P
段階345では、キータームの数が予め定めた規準に従って制限されてよく、例えばキータームによって行なわれる使用に依存するようにする。好ましいのは、この段階で除去されることになる何らかの用語があるとすると、そういった用語が低い方の全体の重み付けから選ぶようにできる。
【0119】
今の例ではキータームの数を制限する表はなく、3つが一般にオペレータによってもまたデータ管理ツールセットによっても管理されることになる用語の組は十分に小さいものとなっている。
【0120】
しかし、キータームのもっと長い組が識別されるときには、何らかの戦略で上述したものが、単独もしくは組合せて、適用できる。
【0121】
いったん、キータームの組が選ばれると、同じ用語を除去するためにシソーラスもしくは辞書あるいは同様の手段によってそれらが調べられるのが好ましい。
【0122】
例えば、キータームとして“during the premier’s visit(主演女優の訪問期間中に)”とduring the premier’s trip(主演女優の旅行期間中に)”が戻ってきたとして、シソーラスはこれらが相等の用語であるとシノニム(同義語)としてそれらの最終単語の相等性を基に認識することになる。
【0123】
したがって、キータームのリストが図3の段階345により制限されている場合には、同じようなキータームを識別して拒絶するというこのプロセスは段階345で拒絶された用語が好ましいのは、次の最高重み付けをもつ用語として再び任に当たることができるようにされるが、反復プロセスは次の用語がリストの内にすでに含まれているいずれかのキータームに似てはいないことを確保することが必要とはされる。
【0124】
データ組からキーフレーズを抽出する上述の方法は多数の情報管理及び検索ツールにより使用できる。
【0125】
上述のように、こういったものには、要約、Jasperエージェント及び予見的作用をもつツールでプロフィル作成技術を使用する他の形態のものを含んでいる。ツールの他の形態として検索(サーチ)エンジンがある。
【0126】
現在では、典型的なサーチエンジンはそこに登録されたサイトをサイトオペレータにより調査することによって動作する。
【0127】
このサーチエンジンは要約もしくはサイトについてのキーワードの組をそのデータベース内に記憶している。ユーザがサーチエンジンにアクセスして材料を探すときには、サーチエンジンは入力されたサーチ単語をデータベースに対して比較して、関連のサイトの位置決めをするようにする。
【0128】
この発明の一つの応用はキーフレーズ(語句)抽出器を使用してサーチエンジンにより調べられるサイトに関するキーワードについてのサーチエンジンデータベースを生成することである。
【0129】
別の応用は、テキスト要約器での使用である。ここでは、キーフレーズの組が上述のプロセスにより識別できる。こういったキーフレーズが一度識別されると、これらのキーフレーズを含んでいる文とパラグラフとがテキストから抽出できる。次にこれらの文/パラグラフがそこに含んでいるキーフレーズの数により重み付けできる。
【0130】
要約をそこで生成できるが、それはこういった文/パラグラフでしきい値重み付けを越えるものを再生するか、あるいは最高重み付けの順序で再生して、データ組の予め定めた百分率もしくは単語の順序で予め定めた数が要約内に含まれるようになるまで再生をすることによって生成される。
【0131】
情報管理もしくは検索ツールが、上述したJasperエージエントのような、プロフィル形成用技術を使用する場合には、ユーザプロフィルについてのキーターム、ドキュメントタームマトリックスもしくはキーワード類似性マトリックスが上述の方法により生成できる。
【図面の簡単な説明】
【図1】 この発明の実施例によるキーターム抽出装置を組込んだ情報管理兼検索ツールセットの模式図。
【図2】 好ましいキーターム抽出装置の主要基本部品を示す図。
【図3】 この発明の好ましい実施形態によるキーターム抽出方法を示す流れ図。
【図4】 特定例に対するキーターム抽出の好ましい方法の応用を示す図。
【図5】 図3の段階310を実施するための好ましい処理段階を、より詳細に示す流れ図。
【図6】 図3の段階315を実施するための好ましい処理段階を、より詳細に示す流れ図。
【図7】 図3の段階320を実施するための好ましい処理段階を、より詳細に示す流れ図。
【図8】 図3の段階325を実施するための好ましい処理段階を、より詳細に示す流れ図。
【図9】 図3の段階330を実施するための好ましい処理段階を、より詳細に示す流れ図。
【図10】 図9とともに図3の段階330を実施するための好ましい処理段階を、より詳細に示す流れ図。
Claims (13)
- データ組を管理する装置であって:
データプロセッサと;
データメモリと;
前記データメモリへのデータ組を受信する入力手段とを有し、
前記データプロセッサは、
前記データメモリの中の受信データ組内において、前記受信データ組内で連続して出現する1以上の単語でなる1以上の単語群を含む第1の組の単語であって、前記受信データ組内で第1の予め定めた分布パターンと適合する前記第1の組の単語を識別する手段と;
前記1以上の単語群を含み、前記受信データ組内で第2の予め定めた分布パターンと適合する単語のサブセットを、前記第1の組内で識別する手段と;
前記第1の組から単語の前記サブセットを除去し、それによって前記受信データ組の1組のキータームを形成する手段と;
少くとも1つの前記キータームを前記データメモリへ出力する出力手段とを備え、
前記装置は、
データ組の主題を反映する傾向をもたない予め定めた単語リストを収めているデータメモリを更に備え、
前記データプロセッサは、
単語群の先頭の位置と後尾の位置との間に出現する前記データ組の主題を反映する傾向をもたない単語が取り除かれないように、単語群の先頭の位置に出現する、前記データ組の主題を反映する傾向をもたない予め定めた単語リスト中の単語と、単語群の後尾の位置に出現する、前記データ組の主題を反映する傾向をもたない予め定めた単語リスト中の単語のみを取り除いて、前記単語群を修正する手段を具備するように構成されている、装置。 - 前記第1の予め定めた分布パターンは、前記第1の組内の各単語群が前記受信データ組内で少くとも2度出現することを必要とする請求項1記載の装置。
- 前記第2の予め定めた分布パターンは、前記サブセット内の各単語群が前記第1の組内のより長い単語群内に出現する単語もしくは単語のストリングを含むことを必要とする請求項1又は2記載の装置。
- ある単語からステムされた単語を形成するためにプレフィックスを取り除くように構成され、かつサフィックスを取り除くように構成されている、単語群内の単語を修正する手段を含む請求項1ないし3のいずれか1項記載の装置。
- 前記ステムされた単語に関連付けて前記プレフィックスもしくはサフィックスを記憶する手段を含み、それによって前記プレフィックスもしくはサフィックスを前記ステムされた単語に再生する請求項4記載の装置。
- 前記第1の組内の前記単語群の各々をどのくらいの頻度で前記単語群の各々が前記受信データ組に出現するかに従って重み付けをする手段と、
前記第1の組の中の少くとも第1の単語群の前記重み付けを前記サブセット内の第2の単語群の重み付けに比例して修正する手段と、
前記両重み付けに依存して出力用の前記キータームを選ぶ手段とを含む請求項1ないし5のいずれか1項記載の装置。 - さらに前記重み付けと少くとも1つの予め定めた規則とに依り出力用のキータームを選ぶ手段を含む請求項6記載の装置。
- 1)データ組を入力として受信して、前記データ組をデータメモリに記憶するステップと;
2)前記データ組内で連続して出現する1以上の単語でなる1以上の単語群を含む第1の組の単語であって、前記データ組内で第1の分布パターンと適合する前記第1の組の単語を識別するステップと;
3)データ組の主題を反映する傾向をもたない予め定めた単語リストを収めているデータメモリから前記予め定めた単語リストにアクセスするステップと;
4)単語群の先頭の位置と後尾の位置との間に出現する前記データ組の主題を反映する傾向をもたない単語が取り除かれないように、単語群の先頭の位置に出現する、前記データ組の主題を反映する傾向をもたない予め定めた単語リスト中の単語と、単語群の後尾の位置に出現する、前記データ組の主題を反映する傾向をもたない予め定めた単語リスト中の単語のみを取り除くステップと;
5)前記データ組内で第2の分布パターンと適合する単語群のサブセットを前記第1の組内で識別するステップと;
6)前記第1の組から前記サブセットを除去してそれによりキータームの組を識別するステップと;
7)前記キータームをデータメモリに出力するステップとを含む、コンピュータが実施するデータ組を管理する方法。 - 前記第1の分布パターンは、前記第1の組内の各単語群が前記データ組内で2度以上出現することを必要とする請求項8記載の方法。
- 前記第2の分布パターンは、前記サブセット内の各単語群が第1の組内のより長い単語群のサブストリングを含むことを必要とする請求項8又は9記載の方法。
- 8)前記単語群内の単語をその単語からプレフィックスもしくはサフィックスを取り除くことにより修正してステムされた単語を形成するステップを含む請求項8ないし10のいずれか1項記載の方法。
- 9)前記ステムされた単語に関連付けて前記取り除かれたプレフィックスもしくはサフィックスを記憶し、それによって前記プレフィックスもしくはサフィックスを前記ステムされた単語に再生するステップを含む請求項11記載の方法。
- 10)前記第1の組内の前記単語群の各々をどのくらいの頻度で前記単語群の各々が前記データ組に出現するかに従って重み付けをするステップと;
11)前記第1の組内の少くとも第1の単語群の前記重み付けを前記サブセット内の第2の単語群の重み付けに比例して修正するステップと;
12)前記両重み付けに依存して出力用の前記キータームを選ぶステップと;
を含む請求項8ないし12のいずれか1項記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP97309446 | 1997-11-24 | ||
EP97309446.9 | 1997-11-24 | ||
PCT/GB1998/003468 WO1999027469A1 (en) | 1997-11-24 | 1998-11-18 | Information management and retrieval |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001524717A JP2001524717A (ja) | 2001-12-04 |
JP4467791B2 true JP4467791B2 (ja) | 2010-05-26 |
Family
ID=8229632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000522537A Expired - Lifetime JP4467791B2 (ja) | 1997-11-24 | 1998-11-18 | 情報管理及び検索 |
Country Status (9)
Country | Link |
---|---|
US (1) | US6338057B1 (ja) |
EP (1) | EP1032896B1 (ja) |
JP (1) | JP4467791B2 (ja) |
AU (1) | AU746743B2 (ja) |
CA (1) | CA2309499C (ja) |
DE (1) | DE69804495T2 (ja) |
ES (1) | ES2175813T3 (ja) |
NZ (1) | NZ504304A (ja) |
WO (1) | WO1999027469A1 (ja) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7447626B2 (en) * | 1998-09-28 | 2008-11-04 | Udico Holdings | Method and apparatus for generating a language independent document abstract |
US7505974B2 (en) * | 1999-02-12 | 2009-03-17 | Gropper Robert L | Auto update utility for digital address books |
US6883000B1 (en) * | 1999-02-12 | 2005-04-19 | Robert L. Gropper | Business card and contact management system |
US6928404B1 (en) * | 1999-03-17 | 2005-08-09 | International Business Machines Corporation | System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies |
US20090307577A1 (en) * | 2001-08-28 | 2009-12-10 | Lee Eugene M | System for providing a binding cost for foreign filing a patent application |
US6678678B2 (en) * | 2000-03-09 | 2004-01-13 | Braodcom Corporation | Method and apparatus for high speed table search |
US6728701B1 (en) * | 2000-04-18 | 2004-04-27 | Claritech Corporation | Method and apparatus for database retrieval utilizing vector optimization |
DE10057634C2 (de) * | 2000-11-21 | 2003-01-30 | Bosch Gmbh Robert | Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit |
US7047420B2 (en) * | 2001-01-17 | 2006-05-16 | Microsoft Corporation | Exclusive encryption |
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US7043637B2 (en) * | 2001-03-21 | 2006-05-09 | Microsoft Corporation | On-disk file format for a serverless distributed file system |
US7062490B2 (en) * | 2001-03-26 | 2006-06-13 | Microsoft Corporation | Serverless distributed file system |
US6981138B2 (en) | 2001-03-26 | 2005-12-27 | Microsoft Corporation | Encrypted key cache |
ATE278989T1 (de) * | 2001-05-16 | 2004-10-15 | Exentis | Prozess zum extrahieren von schlüsselwörtern |
US6988124B2 (en) * | 2001-06-06 | 2006-01-17 | Microsoft Corporation | Locating potentially identical objects across multiple computers based on stochastic partitioning of workload |
US7478431B1 (en) * | 2002-08-02 | 2009-01-13 | Symantec Corporation | Heuristic detection of computer viruses |
US7024526B2 (en) * | 2002-10-31 | 2006-04-04 | Hitachi, Ltd. | Apparatus and method of null data skip remote copy |
US6917936B2 (en) * | 2002-12-18 | 2005-07-12 | Xerox Corporation | Method and apparatus for measuring similarity between documents |
US20050086234A1 (en) * | 2003-10-15 | 2005-04-21 | Sierra Wireless, Inc., A Canadian Corporation | Incremental search of keyword strings |
US20050114317A1 (en) * | 2003-11-26 | 2005-05-26 | Bhide Manish A. | Ordering of web search results |
US7587307B2 (en) * | 2003-12-18 | 2009-09-08 | Xerox Corporation | Method and apparatus for evaluating machine translation quality |
US20060074900A1 (en) * | 2004-09-30 | 2006-04-06 | Nanavati Amit A | Selecting keywords representative of a document |
TWI269193B (en) * | 2004-10-01 | 2006-12-21 | Inventec Corp | Keyword sector-index data-searching method and it system |
US7761286B1 (en) * | 2005-04-29 | 2010-07-20 | The United States Of America As Represented By The Director, National Security Agency | Natural language database searching using morphological query term expansion |
JP4772378B2 (ja) * | 2005-05-26 | 2011-09-14 | 株式会社東芝 | Webページから時系列データを生成する方法及び装置 |
US7536295B2 (en) * | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
US7542893B2 (en) * | 2006-05-10 | 2009-06-02 | Xerox Corporation | Machine translation using elastic chunks |
US20080071783A1 (en) * | 2006-07-03 | 2008-03-20 | Benjamin Langmead | System, Apparatus, And Methods For Pattern Matching |
US8015175B2 (en) * | 2007-03-16 | 2011-09-06 | John Fairweather | Language independent stemming |
US8812508B2 (en) * | 2007-12-14 | 2014-08-19 | Hewlett-Packard Development Company, L.P. | Systems and methods for extracting phases from text |
US8311795B2 (en) | 2008-01-11 | 2012-11-13 | International Business Machines Corporation | String pattern conceptualization from detection of related concepts by analyzing substrings with common prefixes and suffixes |
GB2456369A (en) * | 2008-01-11 | 2009-07-15 | Ibm | String pattern analysis for word or genome analysis |
US8572590B2 (en) * | 2008-09-17 | 2013-10-29 | Reservoir Labs, Inc. | Methods and apparatus for joint parallelism and locality optimization in source code compilation |
US9858053B2 (en) | 2008-02-08 | 2018-01-02 | Reservoir Labs, Inc. | Methods and apparatus for data transfer optimization |
US8661422B2 (en) * | 2008-02-08 | 2014-02-25 | Reservoir Labs, Inc. | Methods and apparatus for local memory compaction |
US8930926B2 (en) * | 2008-02-08 | 2015-01-06 | Reservoir Labs, Inc. | System, methods and apparatus for program optimization for multi-threaded processor architectures |
US8688619B1 (en) | 2009-03-09 | 2014-04-01 | Reservoir Labs | Systems, methods and apparatus for distributed decision processing |
WO2010127173A2 (en) * | 2009-04-30 | 2010-11-04 | Reservoir Labs, Inc. | System, apparatus and methods to implement high-speed network analyzers |
US9760634B1 (en) * | 2010-03-23 | 2017-09-12 | Firstrain, Inc. | Models for classifying documents |
US8892483B1 (en) | 2010-06-01 | 2014-11-18 | Reservoir Labs, Inc. | Systems and methods for planning a solution to a dynamically changing problem |
US8914601B1 (en) | 2010-10-18 | 2014-12-16 | Reservoir Labs, Inc. | Systems and methods for a fast interconnect table |
US9134976B1 (en) | 2010-12-13 | 2015-09-15 | Reservoir Labs, Inc. | Cross-format analysis of software systems |
JP5768492B2 (ja) | 2011-05-18 | 2015-08-26 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US8468145B2 (en) | 2011-09-16 | 2013-06-18 | Google Inc. | Indexing of URLs with fragments |
US8438155B1 (en) * | 2011-09-19 | 2013-05-07 | Google Inc. | Impressions-weighted coverage monitoring for search results |
US9489180B1 (en) | 2011-11-18 | 2016-11-08 | Reservoir Labs, Inc. | Methods and apparatus for joint scheduling and layout optimization to enable multi-level vectorization |
US9830133B1 (en) | 2011-12-12 | 2017-11-28 | Significs And Elements, Llc | Methods and apparatus for automatic communication optimizations in a compiler based on a polyhedral representation |
US9268566B2 (en) | 2012-03-15 | 2016-02-23 | International Business Machines Corporation | Character data match determination by loading registers at most up to memory block boundary and comparing |
US9588762B2 (en) * | 2012-03-15 | 2017-03-07 | International Business Machines Corporation | Vector find element not equal instruction |
US9459868B2 (en) | 2012-03-15 | 2016-10-04 | International Business Machines Corporation | Instruction to load data up to a dynamically determined memory boundary |
US9715383B2 (en) * | 2012-03-15 | 2017-07-25 | International Business Machines Corporation | Vector find element equal instruction |
US9280347B2 (en) | 2012-03-15 | 2016-03-08 | International Business Machines Corporation | Transforming non-contiguous instruction specifiers to contiguous instruction specifiers |
US9454367B2 (en) | 2012-03-15 | 2016-09-27 | International Business Machines Corporation | Finding the length of a set of character data having a termination character |
US9454366B2 (en) | 2012-03-15 | 2016-09-27 | International Business Machines Corporation | Copying character data having a termination character from one memory location to another |
US9710266B2 (en) | 2012-03-15 | 2017-07-18 | International Business Machines Corporation | Instruction to compute the distance to a specified memory boundary |
US9459867B2 (en) | 2012-03-15 | 2016-10-04 | International Business Machines Corporation | Instruction to load data up to a specified memory boundary indicated by the instruction |
US9459864B2 (en) * | 2012-03-15 | 2016-10-04 | International Business Machines Corporation | Vector string range compare |
US9798588B1 (en) | 2012-04-25 | 2017-10-24 | Significs And Elements, Llc | Efficient packet forwarding using cyber-security aware policies |
US10936569B1 (en) | 2012-05-18 | 2021-03-02 | Reservoir Labs, Inc. | Efficient and scalable computations with sparse tensors |
US9684865B1 (en) | 2012-06-05 | 2017-06-20 | Significs And Elements, Llc | System and method for configuration of an ensemble solver |
CN104050163B (zh) * | 2013-03-11 | 2017-08-25 | 广州帷策智能科技有限公司 | 内容推荐系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4342085A (en) * | 1979-01-05 | 1982-07-27 | International Business Machines Corporation | Stem processing for data reduction in a dictionary storage file |
US5325298A (en) * | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
US5940624A (en) * | 1991-02-01 | 1999-08-17 | Wang Laboratories, Inc. | Text management system |
JPH05324726A (ja) * | 1992-05-25 | 1993-12-07 | Fujitsu Ltd | 文書データ分類装置及び文書分類機能構築装置 |
JP3220885B2 (ja) * | 1993-06-18 | 2001-10-22 | 株式会社日立製作所 | キーワード付与システム |
US6081804A (en) * | 1994-03-09 | 2000-06-27 | Novell, Inc. | Method and apparatus for performing rapid and multi-dimensional word searches |
US5745602A (en) * | 1995-05-01 | 1998-04-28 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US5931907A (en) * | 1996-01-23 | 1999-08-03 | British Telecommunications Public Limited Company | Software agent for comparing locally accessible keywords with meta-information and having pointers associated with distributed information |
US5987446A (en) * | 1996-11-12 | 1999-11-16 | U.S. West, Inc. | Searching large collections of text using multiple search engines concurrently |
US5774888A (en) * | 1996-12-30 | 1998-06-30 | Intel Corporation | Method for characterizing a document set using evaluation surrogates |
US5924105A (en) * | 1997-01-27 | 1999-07-13 | Michigan State University | Method and product for determining salient features for use in information searching |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
US6044376A (en) * | 1997-04-24 | 2000-03-28 | Imgis, Inc. | Content stream analysis |
US6026398A (en) * | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
-
1998
- 1998-11-18 CA CA002309499A patent/CA2309499C/en not_active Expired - Fee Related
- 1998-11-18 DE DE69804495T patent/DE69804495T2/de not_active Expired - Lifetime
- 1998-11-18 JP JP2000522537A patent/JP4467791B2/ja not_active Expired - Lifetime
- 1998-11-18 ES ES98954628T patent/ES2175813T3/es not_active Expired - Lifetime
- 1998-11-18 NZ NZ504304A patent/NZ504304A/en unknown
- 1998-11-18 US US09/194,944 patent/US6338057B1/en not_active Expired - Lifetime
- 1998-11-18 EP EP98954628A patent/EP1032896B1/en not_active Expired - Lifetime
- 1998-11-18 WO PCT/GB1998/003468 patent/WO1999027469A1/en active IP Right Grant
- 1998-11-18 AU AU11678/99A patent/AU746743B2/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
AU1167899A (en) | 1999-06-15 |
CA2309499C (en) | 2007-06-19 |
JP2001524717A (ja) | 2001-12-04 |
AU746743B2 (en) | 2002-05-02 |
WO1999027469A1 (en) | 1999-06-03 |
EP1032896A1 (en) | 2000-09-06 |
DE69804495T2 (de) | 2002-10-31 |
EP1032896B1 (en) | 2002-03-27 |
NZ504304A (en) | 2002-03-01 |
CA2309499A1 (en) | 1999-06-03 |
DE69804495D1 (de) | 2002-05-02 |
ES2175813T3 (es) | 2002-11-16 |
US6338057B1 (en) | 2002-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4467791B2 (ja) | 情報管理及び検索 | |
JP3270783B2 (ja) | 複数の文書検索方法 | |
JP5740029B2 (ja) | 対話型サーチクエリーを改良するためのシステム及び方法 | |
JP3719415B2 (ja) | 情報検索方法、情報検索システム、およびプログラム | |
JP4467184B2 (ja) | 知識創造可能性を有するドキュメントの意味論的分析及び選択 | |
US7958128B2 (en) | Query-independent entity importance in books | |
US6571240B1 (en) | Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases | |
CA2581713C (en) | Presentation of search results based on document structure | |
US5940624A (en) | Text management system | |
JPH11102376A (ja) | 検索照会に関係のあるデータベースから抽出されたテキストを自動表示する方法および装置 | |
JP3198932B2 (ja) | 文書検索装置 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3693734B2 (ja) | 情報検索装置およびその情報検索方法 | |
JP2008203997A (ja) | 文書検索装置及びプログラム | |
AU668073B2 (en) | A text management system | |
RU2266560C1 (ru) | Способ поиска информации в политематических массивах неструктурированных текстов | |
EP1807781A1 (en) | Data processing system and method | |
JP2004506960A (ja) | 蓋然論マッチング・エンジン | |
JP3314720B2 (ja) | 文字列検索装置 | |
JP3438947B2 (ja) | 情報検索装置 | |
JP3161660B2 (ja) | キーワード検索方法 | |
JPH11259487A (ja) | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 | |
WO2001046838A1 (en) | Answer retrieval technique | |
JP2005189955A (ja) | 文書処理方法、文書処理装置、制御プログラム及び記録媒体 | |
EP1258815B1 (en) | A process for extracting keywords |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080930 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20081219 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090330 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091211 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100126 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100224 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140305 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |