JP3665480B2 - 文書整理装置および方法 - Google Patents

文書整理装置および方法 Download PDF

Info

Publication number
JP3665480B2
JP3665480B2 JP17674998A JP17674998A JP3665480B2 JP 3665480 B2 JP3665480 B2 JP 3665480B2 JP 17674998 A JP17674998 A JP 17674998A JP 17674998 A JP17674998 A JP 17674998A JP 3665480 B2 JP3665480 B2 JP 3665480B2
Authority
JP
Japan
Prior art keywords
keyword
document
relationship
keywords
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17674998A
Other languages
English (en)
Other versions
JP2000010996A (ja
Inventor
宏 津田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP17674998A priority Critical patent/JP3665480B2/ja
Priority to US09/266,863 priority patent/US7003442B1/en
Publication of JP2000010996A publication Critical patent/JP2000010996A/ja
Application granted granted Critical
Publication of JP3665480B2 publication Critical patent/JP3665480B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、情報処理装置に蓄えられた大量の文書ファイル群を、その内容に基づいて整理する文書整理装置およびその方法に関する。
【0002】
【従来の技術】
今日、コンピュータネットワークの発達により、大量のオンライン文書情報が溢れてきており、文書検索および文書整理に対する利用者の期待も大きくなっている。例えば、インターネットのホームページ検索サービスでは、大別して次の2種類のサービスまたはそれらの組合せが提供されている。
(a)ディレクトリサービス系
ホームページを階層的に分類して整理する。
(b)全文検索系
ロボット(検索プログラム)が集めたページの全文検索を行う。
【0003】
ある有名なディレクトリサービスでは、ディレクトリの作成にあたって、次のような方法を取っている。
1.ホームページ作成者が、ホームページを登録したいURL(uniform resource locator)を申請する。
【0004】
2.サービス提供者が、ホームページを階層カテゴリに分類して登録する。
3.階層カテゴリはサービス提供者独自のものであり、常に変化する。また、1つのホームページは複数のカテゴリに分類される。
【0005】
このサービスでは、サーファと呼ばれる十数名の専門家がディレクトリの作成や情報のメンテナンスを行っており、これにより、常に良質な情報を提供することができる。しかし、大量の文書を分類するための人手をコンスタントに確保するのは、実際には難しい。また、個人が受信した大量の電子メール等を分類するような場合、手作業でディレクトリの作成等を行うのは非常に煩雑である。そこで、コンピュータによる文書自動分類の研究が期待されている。
【0006】
従来、分類学(タクソノミ)では、情報が木構造により分類され、木の分岐において、各子ノードは互いに独立である。また、交叉分類は許されず、情報の配置位置は木構造上の1箇所に限られるという特徴がある。
【0007】
このようなタクソノミの方法を文書検索に用いる場合、文書が木構造により分類され、1つの文書へのパスはただ一つに限られる。しかし、利用者が分類者と同じような分類基準を持っているとは限らないので、文書に辿りつくのが困難な場合があり、必ずしも有効な方法とは言えない。
【0008】
そこで、分類を文書検索に利用する場合には、1つの文書に複数のカテゴリを与えることが考えられる。例えば、インターネットのディレクトリサービスのディレクトリ構造はそのようになっている。また、「文書情報分類方法および文書情報分類装置」(特開平8−153121)では、文書群のキーワードから階層的なカテゴリを作成し、文書を複数のカテゴリに格納している。
【0009】
ところで、文書自動分類の研究では、大別して次の2つのアプローチがある。どちらも、利点や欠点があり用途によって使い分けたり、両者を組み合わせたりする必要がある。
(a)クラスタリング
キーワードの統計/表層上の関係をベースにして、与えられた文書群をいくつかの適当なクラスに分割する。このアプローチの利点は、既存の分類にとらわれずに、元の文書群の特徴を反映した分類結果が得られることであり、欠点は、自動化の精度が低いことである。
(b)カテゴライゼーション
与えられた文書が既存の分類におけるどのカテゴリに当てはまるかを判別する。既存の分類としてはシソーラス(概念階層辞書)等があり、文書中のキーワードの分布等を手掛かりにして、その文書を近いカテゴリに当てはめていく。このアプローチの利点は、自動化の精度がクラスタリングより高いことであり、欠点は、分類結果が汎用的で、元の文書群の特徴を反映しないことである。
【0010】
インターネットのディレクトリサービスの多くでは、通常、既存の分類に対してカテゴライゼーションを人手で行う。そして、1つのクラスが大きくなった場合には、クラスを分割するクラスタリング操作を、やはり人手で行っている。
【0011】
例えば、上述の特開平8−153121のシステムは、文書に付加されたキーワードに基づいてクラスタリングを行うシステムである。また、キーワードによるクラスタリングの欠点を補うため、汎用のシソーラスを用い、意味属性の統計を利用して分類精度を上げる研究も報告されている(河合 敦夫,意味属性の学習結果にもとづく文書自動分類方式,情報処理学会論文誌,Vol.33, No.9, pp.1114-1122, 1992. )。
【0012】
【発明が解決しようとする課題】
しかしながら、上述した従来の文書分類システムには、次のような問題がある。
【0013】
まず、人手による分類は、ディレクトリを作成したり、運用したりする専門家を必要とし、一般の利用者が分類を行うことは難しい。また、ディレクトリのハイパーテキストのメンテナンスを人手で行う場合、管理者の手間が大きく、単純なミスも発生しやすい。
【0014】
また、タクソノミに従って文書を自動分類すると、通常、情報は1つのカテゴリにしか分類されない。この場合、利用者が分類者と同じような分類基準を持っていなければ、情報に辿りつくのが困難となることがある。また、クラスタリング、カテゴライゼーションともに完全な自動化は不可能であり、分類にゴミやもれがあると、利用者が情報に辿りつくのはさらに困難となる。
【0015】
さらに、上述の河合の報告によれば、クラスタリングの精度は60%ほどで、実用化にはほど遠い。また、カテゴライゼーションは、汎用的な分類にとどまり、元の文書群の特徴を反映しない。
【0016】
本発明の課題は、情報処理装置に蓄えられた大量の文書群を、その特徴に従って高い精度で自動的に分類する文書整理装置およびその方法を提供することである。
【0017】
【課題を解決するための手段】
図1は、本発明の文書整理装置の原理図である。図1の文書整理装置は、関係抽出手段1、生成手段2、および出力手段3を備え、文書群をキーワードに基づいて整理する。
【0018】
関係抽出手段1は、与えられたキーワードからキーワード間の階層関係4(実線)と連想関係5(破線)を抽出する。生成手段2は、階層関係4と連想関係5をリンクとして用いて、上記文書群にアクセスするためのディレクトリ情報を生成する。そして、出力手段3は、そのディレクトリ情報を出力する。
【0019】
関係抽出手段1により抽出される階層関係4は、キーワードの間の概念上の上下関係を表し、連想関係5は、階層関係ほど緊密ではないが、一方のキーワードから他方のキーワードが連想されるような比較的緩やかな関係を表す。この連想関係5により、階層関係4を持たないキーワード同士を関係付けることが可能になる。
【0020】
生成手段2は、階層関係4だけでなく連想関係5もリンクとして用いて、文書に付加されたキーワード間の関係を表すディレクトリ情報を生成し、文書を分類する。そして、出力手段3は、利用者が文書群にアクセスできるように、ディレクトリ情報を文書群の索引として提示する。
【0021】
文書群の分類結果を表すディレクトリ情報に連想関係5をリンクとして付加することにより、階層関係4だけでは得られなかったフレキシブルなアクセスが可能となる。したがって、文書群の特徴を分類に反映させることがより容易になり、高精度の分類結果が自動的に得られる。
【0022】
本発明の別の文書整理装置は、関係抽出手段1、生成手段2、および出力手段3を備え、文書群をキーワードに基づいて整理する。
関係抽出手段1は、キーワード対に関する統計情報を用いて、上記文書群の各文書に付加されたキーワードの中から、第1の閾値以上の共起出現頻度と第2の閾値以上の確信度を有するキーワード対を抽出し、抽出されたキーワード対のうち、第3の閾値より大きな確信度を有するキーワード対に階層関係を付与し、第3の閾値より小さな確信度を有するキーワード対に連想関係を付与する。生成手段2は、あるキーワードが付加された文書へのリンクと、そのキーワードと階層関係を有する別のキーワードへのリンクと、そのキーワードと連想関係を有する別のキーワードへのリンクとを含み、上記文書群にアクセスするためのディレクトリ情報を、キーワード毎に生成する。出力手段3は、そのディレクトリ情報を出力する。
例えば、図1の関係抽出手段1は、後述する図2のキーワード関係抽出器42に対応し、生成手段2は、図2のディレクトリファイル生成器43に対応し、出力手段3は、図2の表示装置14およびディレクトリアクセス部44に対応する。
【0023】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本発明においては、管理に要する人手を最小限にするために、管理者は、キーワードの階層関係の極一部だけを辞書や人手で文書整理装置に与える。文書整理装置は、それを元に統計処理および文字列処理を行って、キーワード間の関係を自動的に取り出し、ディレクトリファイルを自動生成する。また、既存の分類方法の精度上の限界を克服するために、文書の分類(階層関係)にはこだわらず、利用者が文書にアプローチするための多様なリンクを提供することをディレクトリの主眼とする。この文書整理装置の動作の概要は次のようになる。
【0024】
1.まず、入力文書にはその内容を表すキーワードが付与されているものとする。キーワード付与の方法としては、本発明とは独立に、任意の方法を用いることができる。例えば、キーワードを人手で付けてもよいし、文書内容からキーワード抽出技術により自動的に取り出してもよい。
【0025】
2.次に、管理者は、ディレクトリのトップとなるキーワード列、キーワードの同値関係、キーワードの階層(上下)関係、および不要キーワードのリストを、明示的に文書整理装置に与える。
【0026】
3.文書整理装置は、管理者が明示した不要キーワードのリストと、キーワード変換ルールに基づいて、文書に付与されたキーワードを整える(データクリーニング)。
【0027】
4.文書整理装置は、各キーワードを含む文書集合を計算し、管理者が同意語として明示した同値関係にある2つ以上のキーワードの文書集合をマージする。5.文書整理装置は、任意の2つのキーワードに対して、それらの文書集合の関係をもとに、キーワード間の関連性(同値関係/階層関係/連想関係)を計算する。
【0028】
6.文書整理装置は、管理者が明示した階層関係および計算により得られた階層関係を元に、管理者が与えたトップキーワードから特定のキーワードまでの最短距離のキーワード列を、そのキーワード(およびそれを有する文書)へのパスとして計算する。
【0029】
7.文書整理装置は、まだパスの付いていないキーワードについて、そのキーワードから最も少ない上位関連語列により辿りつけるパスの付いたキーワードを探索する。そして、得られたキーワードのパスに上位関連語列を付加したものを、元のキーワードのパスとする。
【0030】
8.それでもパスが付けられないキーワードについては、文書整理装置は、トップキーワードに“その他”を設け、その下位語として登録する。
9.文書整理装置は、単語読み付加器を用いて、キーワードに読みを与える。
【0031】
10.文書整理装置は、管理者が明示したキーワード間の階層関係、自動的に得られたキーワード間の関係、自動的に計算されたパス、キーワードの読み、およびキーワード分割装置(部分文字列切り出し器)を用いて、ディレクトリのハイパーテキストを作成する。
【0032】
11.利用者は、作成されたディレクトリを文書群の索引として用いて、次のような操作を行う。
・トップレベルから下位関連語を用いて文書の検索範囲を絞り込む。
【0033】
・上位関連語を用いて検索範囲を広げる。
・パスで現在位置を確認し、上位に飛ぶ。
・連想関係のキーワードを用いて別の概念に飛ぶ。
【0034】
・50音・アルファベット順索引を用いてキーワードを探す。
図2は、このような文書整理装置の構成図である。図2の文書整理装置は、処理装置11、二次記憶装置12、入力装置13、および表示装置14を備える。処理装置11は、例えば、CPU(中央処理装置)とメモリを含み、入力装置13は、キーボード、マウス等に対応し、表示装置14は、ディスプレイ等に対応する。
【0035】
また、二次記憶装置12は、電子化された文書群のデータ21と、ディレクトリ管理者が辞書等を用いて作成/管理する管理ファイル22を格納する。データ21の各文書には、それぞれ、複数のキーワードが付加されている。また、管理ファイル22には、同意語および不要語の集合31と、キーワードの概念上の階層関係を表すデータ32と、ディレクトリのトップとなるキーワードの集合33が含まれている。
【0036】
ここで、同意語とは、“コンピュータ”と“計算機”のように、互いに同意語関係にあるキーワードの集合を表し、不要語とは、差別用語のように、ディレクトリに用いたくないキーワードの集合を表す。また、階層関係としては、例えば、“コンピュータ”を上位語(上位関連語)として、“ハードウェア”、“ソフトウェア”等の下位語(下位関連語)を定義する情報が用いられる。
【0037】
また、処理装置11は、キーワード整形器41、キーワード関係抽出器42、ディレクトリファイル生成器43、ディレクトリアクセス部44、および検索部45を含む。これらは、例えば、プログラムにより記述されたソフトウェアコンポーネントに対応し、処理装置11の特定のプログラムコードセグメントに格納される。
【0038】
キーワード整形器41は、いわゆるデータクリーニングを行い、文書単語対51と文書メタ情報52を出力する。ここでは、文書データ21の中のゴミを取ったり、キーワードを統一したりする処理が行われる。文書単語対51は、整形後の文書とキーワードの対であり、文書メタ情報102は、文書の諸々の情報(URL、タイトル等)やキーワードの読み等の情報である。
【0039】
キーワード関係抽出器42は、データ32、51から、キーワード間の階層関係53、同値関係54、および連想関係55を計算する。これらの関係は、いずれも2つ以上のキーワード間になんらかの関連性があることを表している。
【0040】
階層関係53は、キーワードの間の概念上の上下関係を表すデータであり、同値関係54は、キーワードの間の概念上の同位関係を表すデータである。例えば、同意語の集合に含まれるキーワードは、互いに同値関係にある。また、連想関係55は、階層関係も同値関係も持たないキーワード間において、一方のキーワードから他方のキーワードが連想されるような関係を表すデータである。
【0041】
ディレクトリファイル生成器43は、データ33、52、53、54、55から、ハイパーテキスト形式のディレクトリファイル56を生成し、ディレクトリアクセス部44は、入力装置13から入力される利用者の指示に従って、ディレクトリファイル56の内容を表示装置14に表示したり、検索部45を起動したりする。
【0042】
検索部45は、利用者の指示に従って、ディレクトリファイル56や文書データ21の内容を全文検索する。文書データ21の全文検索では、文書の本文に含まれる任意の文字/単語列の検索が行われる。
【0043】
次に、図3から図5までを参照しながら、各種データのデータ構造について説明する。
図2の管理ファイル22に含まれるデータ31、32、33は、例えば、図3に示すような3つのテーブルに格納される。図3の同意語/不要語テーブル31は、[代表語ID,同意語または不要語のIDの集合]の組合せを表す。例えば、代表語ID=005のキーワードは、ID=010,021,022の他のキーワードと同意語の関係にあり、代表語IDが空(nil)のID集合(ID=077,082)は、不要語である。
【0044】
また、階層関係テーブル32は、[上位語ID,下位語IDの集合]の組合せを表す。例えば、上位語ID=002のキーワードは、階層関係における下位語としてID=004,008のキーワードを有する。また、トップキーワードIDリスト33は、トップディレクトリとして用いられるキーワードのIDの列(ID=001,008,...)を表す。
【0045】
また、図2の文書単語対51、階層関係53、同値関係54、連想関係55は、例えば、図4に示すような形式の2つのテーブルに格納される。図4の文書単語対テーブル61は、
[文書ID,キーワードIDの集合]
の組合せを格納し、キーワードテーブル62は、
[キーワードID(KID),キーワード,読み,上位語IDの集合(UP),下位語IDの集合(DOWN),連想語IDの集合(Rel),同値関係にあるキーワードIDの集合(Eq),パス,新規語フラグ(new)]
の組合せを格納する。
【0046】
ここで、上位語IDの集合と下位語IDの集合は階層関係53に対応し、連想語IDの集合は連想関係55に対応し、同値関係にあるキーワードIDの集合は同値関係54に対応する。また、新規語フラグは、キーワードが新規語に対応する場合は“1”となり、そうでない場合は“0”となる。
【0047】
例えば、文書単語対テーブル61の文書ID=000の文書には、ID=000,081のキーワードが付加されており、ID=000のキーワードは、キーワードテーブル62の“スポーツ”に相当する。
【0048】
このキーワードの読みとしては、“すぽーつ”が登録されており、その上位語としては、ID=008,022の2つのキーワードが登録されている。また、その下位語としては、ID=025のキーワードが登録されており、連想語としては、ID=038,087の2つのキーワードが登録されている。この段階では、同値関係にあるキーワードとパスは登録されておらず、新規語フラグ“1”は、“スポーツ”が新規語であることを表している。
【0049】
また、図2の文書メタ情報52は、図5に示すような文書情報テーブルの形式で格納される。この文書情報テーブル52は、
[文書ID,タイトル,説明,更新日時,一次情報へのリンク]
の組合せを格納する。
【0050】
ここで、説明は、文書の要約または最初の数行の記述に対応し、更新日時は、文書が最後に更新された日時を表し、一次情報へのリンクは、インターネット上の対応するURL等を表す。
【0051】
例えば、文書ID=001の文書のタイトルは“ニュースの読み方”であり、その説明は“comp,fj をmuleから...”であり、更新日時は“1998年2月10日15時38分”であり、一次情報へのリンクは“http://www.xxxx(URL)”である。
【0052】
次に、図6および図7を参照しながらキーワード整形器41の処理を詳細に説明する。
図6は、キーワード整形器41の構成図である。図6のキーワード整形器41は、サブコンポーネントとして、キーワード統一器71および単語読み付加器72を含む。キーワード統一器71は、与えられたキーワードの文字コードを統一し、単語読み付加器72は、与えられた単語の読みを生成する。
【0053】
このキーワード整形器41は、図7に示すような処理を行って、文書単語対51と文書情報テーブル52を生成する。文書単語対51は、図4に示したように、文書単語対テーブル61とキーワードテーブル62から成っている。
【0054】
まず、キーワード統一器71は、文書データ21の文書に付加されたすべてのキーワードについて、文字を統一する(ステップS10)。ここでは、キーワードに含まれる漢字コードを、例えば、EUCコードのような特定のコードに統一したり、半角のカタカナ/英数字を全角のカタカナ/英数字に統一したり、キーワード中の記号や空白を除去したりするような、文字単位でのキーワード統一処理が行われる。
【0055】
次に、キーワード整形器41は、1つの文書のキーワード情報のうち、キーワードIDとキーワードをキーワードテーブル62に追加し、読みと新規語フラグを付加する(ステップS11)。
【0056】
このとき、日本語のキーワードの読みについては、単語読み付加器72が生成した読みを設定し、英語のキーワードの読みについては、キーワード自身と同一に設定する。また、追加したキーワードが旧キーワードの集合73に登録されていれば、新規語フラグを“0”に設定し、旧キーワードの集合73に登録されていなければ、新規語フラグを“1”に設定する。旧キーワードの集合73は、前回のディレクトリ生成時に生成されたキーワードテーブル62のキーワードの集合を表す。
【0057】
次に、キーワード整形器41は、文書IDおよびキーワードIDを、文書メタ情報52およびキーワードテーブル62へのリンクとして文書単語対テーブル61に追加する(ステップS12)。このとき、対応する文書に関するデータを文書情報テーブル52に追加しておく。
【0058】
次に、文書データ21の中に未処理の文書があるかどうかを判定し(ステップS13)、そのような文書があれば、ステップS11以降の処理を繰り返す。そして、すべての文書について登録が完了すると、次に、同意語/不要語テーブル31の情報をキーワードテーブル62に追加する(ステップS14)。
【0059】
ここでは、テーブル31の代表語IDに対応するキーワードのフィールドEqに、その同意語として定義されたIDを追加し、不要語として定義されたIDをキーワードテーブル62のエントリからすべて消去する。また、同時に、文書単語対テーブル61から不要語のIDをすべて消去する。これにより、管理者が指定した同意語がキーワードテーブル62に登録され、不要語が文書単語対テーブル61およびキーワードテーブル62から消去される。
【0060】
次に、キーワードテーブル62のエントリとして、“コンピューター”と“コンピュータ”のように、語尾の文字“ー”が有るキーワードとそれが無いキーワードとが併存する場合には、それらを統一する(ステップS15)。ここでは、例えば、“コンピューター”のフィールドEqに“コンピュータ”のキーワードIDを登録することにより、これらの2つのキーワードを縮退させることができる。
【0061】
また、“コンピュータグラフィックス”と“コンピュータ”のように、あるキーワードとそれに含まれる他のキーワードに関しても統一し、それらのエントリが併存する場合には、一方のフィールドEqに他方のキーワードIDを登録する。
【0062】
次に、こうして生成されたキーワードテーブル62のキーワードのリストを、旧キーワードの集合73として保存し(ステップS16)、処理を終了する。旧キーワードの集合73は、次回のディレクトリ生成時に、前述のステップS11の処理で参照される。
【0063】
次に、図8から図15までを参照しながらキーワード関係抽出器42の処理を詳細に説明する。
図8は、キーワード関係抽出器42の構成図である。図8のキーワード関係抽出器42は、部分文字列切り出し器81、相関ルール抽出器82、ルール評価器83、およびマージャ84を含み、文書単語対51(図4の文書単語対テーブル61とキーワードテーブル62に対応)と管理者が与えた階層関係32から、階層関係53、同値関係54、および連想関係55を生成する。
【0064】
部分文字列切り出し器81は、複合語句のキーワードを適当な文字列に分割し、部分語関係のデータ85を生成する。データ85は、“情報検索”と“情報”/“検索”のように、キーワード間で一方が他方を含むような関係を表す。
【0065】
相関ルール抽出器82は、キーワードの出現頻度から、キーワード間の関係を表す相関ルール86を抽出する。ルール評価器83は、相関ルール86を評価し、それを階層関係、同値関係54、および連想関係55に分割する。マージャ84は、階層関係32、部分語関係85、およびルール評価器83が生成した階層関係を合わせて、階層関係53を生成する。
【0066】
図9は、キーワード関係抽出器42の処理のフローチャートである。まず、相関ルール抽出器82は、文書単語対テーブル61とキーワードテーブル62から相関ルール86を抽出し、それを相関ルールの集合ARとする(ステップS21)。
【0067】
次に、ルール評価器83は、ARに基づいてルール評価を行い、それを上位語関係up1、下位語関係down1、同値関係eq1、および連想関係rw1に分割する(ステップS22)。2つのキーワードw1、w2について、up1およびdown1は、“w1>w2”(w1はw2の上位語、またはw2はw1の下位語)のように記述され、eq1は“w1=w2”のように記述され、rw1は“w1〜w2”のように記述される。
【0068】
次に、ルール評価器83は、同値関係eq1をキーワードテーブル62のフィールドEqに登録する(ステップS23)。eq1は、“w1=w2”のようなキーワード間の関係の集合である。そこで、キーワードw1のフィールドEqのエントリに、キーワードw2のIDを追加する。
【0069】
次に、ルール評価器83は、連想関係rw1をキーワードテーブル62のフィールドRelに登録する(ステップS24)。rw1は、“w1〜w2”のようなキーワード間の関係の集合である。そこで、キーワードw1のフィールドRelのエントリに、キーワードw2のIDを追加する。
【0070】
次に、部分文字列切り出し器81は、キーワードテーブル62のキーワードの中から部分文字列を取り出し、それらの包含関係を表す部分語関係85を生成する(ステップS25)。そして、それを部分語関係の集合sr1とおく。sr1には、例えば、“コンピュータ”と“グラフィックス”が“コンピュータグラフィックス”の部分文字列であることが登録される。
【0071】
次に、マージャ84は、部分語関係sr1を参照し、キーワードkwが部分文字列w1 ,w2 ,...,wn を含んでいる場合、wi がkwの上位語(i=1,2,...,n)であるという階層関係に変換し、それを“wi >kw”と記述する(ステップS26)。こうして得られた階層関係の集合をsr2とする。
【0072】
次に、マージャ84は、管理者が定義した階層関係32にsr2をマージし、その結果得られた階層関係をHRとする(ステップS27)。ここで、ある階層関係S1に他の階層関係S2をマージするとは、S2の要素のうち、S1の各要素と矛盾しないものを新たにS1に加える操作を意味する。例えば、S2の要素“w1>w2”がS1になく、“w2>w1”という要素もS1にないとき、“w1>w2”がS1に加えられる。
【0073】
ここでは、階層関係32の方がsr2より優先されるため、sr2の要素のうち、階層関係32の要素と矛盾するものは、階層関係32に加えられない。例えば、階層関係32が、
{コンピュータ>ソフトウェア,コンピュータ>ハードウェア,ソフトウェア>グループウェア,グローバルネットワーク>ネットワーク}
であり、sr2が、
{コンピュータ>パーソナルコンピュータ,ネットワーク>グローバルネットワーク}
である場合、階層関係32にsr2をマージした結果は、
{コンピュータ>ソフトウェア,コンピュータ>ハードウェア,コンピュータ>パーソナルコンピュータ,ソフトウェア>グループウェア,グローバルネットワーク>ネットワーク}
となる。
【0074】
次に、マージャ84は、ステップS22で得られたdown1をHRにマージし、その結果を改めてHRとする(ステップS28)。これにより、文字列の包含関係により得られた階層関係sr2が、ルール評価により得られた階層関係down1よりも優先されることになる。
【0075】
次に、マージャ84は、HRの各要素“w1>w2”について、キーワードテーブル62のキーワードw1のレコードのフィールドDOWNに、キーワードw2のIDを追加する(ステップS29)。
【0076】
次に、マージャ84は、ステップS22で得られたup1をHRにマージし、その結果を改めてHRとする(ステップS30)。これにより、上位語関係もHRに含められる。
【0077】
次に、マージャ84は、HRの各要素“w1>w2”について、キーワードテーブル62のキーワードw2のレコードのフィールドUPに、キーワードw1のIDを追加して(ステップS31)、処理を終了する。
【0078】
図10は、図9のステップS21で行われる相関ルール抽出処理と、ステップS22で行われるルール評価処理のフローチャートである。ここで、与えられる入力データは、キーワード整形済みの文書単語対テーブル61とキーワードテーブル62である。
【0079】
まず、相関ルール抽出器82は、キーワードテーブル62の同値関係を参照して、文書毎に同値関係を解消したキーワードの集合を生成し、データマイニングの相関ルール抽出アルゴリズムを利用して、相関ルールを抽出する(ステップS41)。
【0080】
ここで、同値関係を解消したキーワードの集合とは、文書単語対テーブル61に文書と対応して登録されているキーワードに、それらのキーワードのフィールドEqに登録されたキーワードを加え、相異なるものだけを残したキーワードの集合を意味する。
【0081】
また、相関ルール抽出アルゴリズムによれば、キーワード対(H,B)に関する統計情報に基づき、文書とキーワード集合の対からH→Bという形式のルールが抽出される。ここで、H→Bというルールは、キーワード対(H,B)の共起出現頻度を表すサポートsup(H→B)および確信度conf(H→B)により特徴付けられる。これらの値は、次式により定義される。
sup(H→B)
=(H and Bを有する文書数)/全文書数
conf(H→B)
=(H and Bを有する文書数)/(Hを有する文書数)
ステップS41では、SupおよびCfを適当な閾値として、すべてのキーワードH、Bの組合せのうち、sup(H→B)≧Supおよびconf(H→B)≧Cfを満たすような、HとBの組合せをルールとして取り出す。
【0082】
次に、ルール評価器83は、このようにして取り出されたルールの集合を分割して、キーワード間の階層関係、同値関係、および連想関係を取り出す。これにより、各ルールに含まれるキーワード対の関係が自動推定される。
【0083】
ここでは、kwとwi (w i)をルールに含まれるキーワードIDとして、conf(kw→wi )の値をX軸に取り、conf(wi →kw)の値をY軸に取って、図11に示すような確信度のXY平面を考える。
【0084】
このとき、ルールの集合に含まれるkwとwi のすべての組合せについて、Cf≦conf(kw→wi )≦1、Cf≦conf(wi →kw)≦1が成り立つ。したがって、各wi について、点(X,Y)=(conf(kw→wi ),conf(wi →kw))をXY平面上にプロットすると、×印で示されるように、X軸、Y軸、直線X=Cf、直線X=1、直線Y=Cf、および直線Y=1で囲まれた領域内に点が分布することになる。
【0085】
そこで、適当な閾値をTx、Tyとして、直線X=TxとY=Tyによりこの領域を4つの部分領域91、92、93、94に分割し、それぞれの部分領域に含まれるwi に、kwとの間の階層関係、同値関係、および連想関係のいずれかを付与する。
ルール評価器83は、まず、変数kwを000(キーワードIDの最小値)とおく(ステップS42)。そして、kwを左辺または右辺に持つルールを要素とする集合をSとおき、変数Tx、Tyの初期値をそれぞれ1に設定する(ステップS43)。
【0086】
次に、Sの要素のうち、conf(kw→wi )>Txとなるようなルールに含まれるwi の数sx(S,Tx)を求め、それが一定値minx (min x)を越えるまで、Txの値を徐々に下げていく(ステップS44〜S47)。この処理により、図11の領域91、92を合わせた領域のキーワード数がminx 以上になるように、Txが決められる。ただし、Txは最小確信度Cfより下には下げないものとする。
【0087】
ここでは、まず、sx(S,Tx)をminx と比較し(ステップS44)、sx(S,Tx)がminx 以下であれば、Txの値を0.1だけ下げる(ステップS45)。そして、TxをCfと比較し(ステップS46)、TxがCfより大きければ、ステップS44以降の処理を繰り返す。そして、ステップS44においてsx(S,Tx)がminx を越えれば、ステップS48以降の処理に移る。また、ステップS46においてTxがCf以下となった場合は、Tx=Cfとおき(ステップS47)、ステップS48以降の処理に移る。
【0088】
次に、Sの要素のうち、conf(wi →kw)>Tyとなるようなルールに含まれるwi の数sy(S,Ty)を求め、その数が一定値miny (min y)を越えるまで、Tyの値を徐々に下げていく(ステップS48〜S51)。この処理により、図11の領域91、93を合わせた領域のキーワード数がminy 以上になるように、Tyが決められる。ただし、Tyは最小確信度Cfより下には下げないものとする。
【0089】
ここでは、まず、sy(S,Ty)をminy と比較し(ステップS48)、sy(S,Ty)がminy 以下であれば、Tyの値を0.1だけ下げる(ステップS49)。そして、TyをCfと比較し(ステップS50)、TyがCfより大きければ、ステップS48以降の処理を繰り返す。そして、ステップS48においてsy(S,Ty)がminy を越えれば、ステップS52以降の処理に移る。また、ステップS50においてTyがCf以下となった場合は、Ty=Cfとおき(ステップS51)、ステップS52以降の処理に移る。
【0090】
次に、図11に示したように、kwに関連する確信度を表す点(X,Y)=(conf(kw→wi ),conf(wi →kw))をXY平面上にプロットする(ステップS52)。
【0091】
このとき、右上の矩形領域91に属する各点は、X、Yの値が共に1に近く(大きく)、図12に示すように、wi の文書集合(wi をキーワードとして有する文書の集合)はkwの文書集合とほぼ重なると考えられる。このため、wi はkwと同値関係にあるものとみなされる。
【0092】
また、右下の矩形領域92に属する各点は、Xの値が1に近くYの値が小さいので、図13に示すように、wi の文書集合はkwの文書集合をほぼ含んでいると考えられる。このため、wi はkwの上位語であるものとみなされる。
【0093】
また、左上の矩形領域93に属する各点は、Yの値が1に近くXの値が小さいので、図14に示すように、wi の文書集合はkwの文書集合にほぼ含まれると考えられる。このため、wi はkwの下位語であるものとみなされる。
【0094】
また、左下の領域94に属する各点は、X,Yの値が共に小さいが最小確信度Cf以上であるので、wi の文書集合とkwの文書集合は、上述のような関係にはないが、図15に示すように、なんらかの関連性を持つと考えられる。このため、wi はkwの連想語であるものとみなされる。
【0095】
そこで、Sの要素を対応する4つのグループに分割し、領域91のwi については同値関係“kw=wi ”をeq1に加え、領域94のwi については連想関係“kw〜wi ”をrw1に加える。また、領域92のwi については上位語関係“wi >kw”をup1に加え、領域93のwi については、下位語関係“kw>wi ”をdown1に加える。こうして、kwに関するすべてのキーワード関係が抽出される。同値関係は、上位語関係および下位語関係とともに、広義の階層関係に属するとも考えられる。
【0096】
次に、ルール評価器83は、kwに1を加算して(ステップS53)、kwをキーワードIDの最大値maxkw(max kw)と比較する(ステップS54)。そして、kwがmaxkwを越えていなければ、ステップS43以降の処理を繰り返し、kwがmaxkwを越えると、処理を終了する。
【0097】
次に、図16から図19までを参照しながらディレクトリファイル生成器43の処理を詳細に説明する。
ディレクトリファイル生成器43は、キーワード関係抽出器42が生成した階層関係53、同値関係54、連想関係55、管理者が与えたトップキーワードIDリスト33、およびキーワード整形器41が生成した文書メタ情報52から、ディレクトリファイル56を生成する。
【0098】
ディレクトリファイル56は、図16に示すような3種類のハイパーテキストファイル101、102、103から成り、各ファイルの間には互いにリンクが張られている。
【0099】
図16において、ディレクトリトップファイル101は、ディレクトリの入口に対応するファイルであり、1つだけ設けられる。このファイル101には、キーワード検索の入力窓104、トップキーワード105(KL)、および50音・アルファベット順索引106が含まれている。トップキーワード105の各キーワードKLからは、ディレクトリ中間ファイル103へリンクが張られており、50音・アルファベット順索引106の各文字からは、50音・アルファベット順索引中間ファイル102へリンクが張られている。
【0100】
50音・アルファベット順索引中間ファイル102は、“あ行”、“か行”等キーワードの読みにより複数のファイルに分割される。各ファイルのキーワードKLからは、ディレクトリ中間ファイル103にリンクが張られている。
【0101】
ディレクトリ中間ファイル103は、キーワード毎に設けられ、ヘッダ107、パス108、上位関連語109、サブカテゴリ110、および文書リスト111の各部分から構成される。
【0102】
ヘッダ107には、ファイル103のタイトルとなるキーワードと、その同意語リストが記述され、パス108には、トップキーワードからそのキーワードまでの経路の1つがキーワード列として記述される。パス108の各キーワードKLからは、そのキーワードのディレクトリ中間ファイル103へリンクが張られている。
【0103】
また、上位関連語109には、上位キーワード列が記述され、サブカテゴリ110には、下位キーワード列が記述される。各キーワードKLからは、そのキーワードのディレクトリ中間ファイル103へリンクが張られている。
【0104】
文書リスト111には、そのキーワードと関連付けられた各文書のタイトルと内容が記述される。タイトルからは、文書の一次情報(URL等)へのリンクが張られている。また、各文書に付加されたキーワードのうち、そのファイルのキーワードと連想関係にあるものが連想語として記述され、各連想語からはそのディレクトリ中間ファイル103へリンクが張られている。検索窓112は、文書の内容を検索する際の入力窓である。
【0105】
なお、図16において、★印の付いたキーワードは新規語に対応する。この印は、図4のキーワードテーブル62のフィールドnewに“1”が設定されたキーワードに対して付加され、それらが新規語であることを強調している。
【0106】
図17は、ディレクトリファイル生成器43の処理のフローチャートである。ディレクトリファイル生成器43は、まず、ディレクトリトップファイル101を生成し、データ33のキーワードを領域105に記述する(ステップS61)。また、50音・アルファベット順索引中間ファイル102へのリンクを領域106に記述する。
【0107】
次に、50音・アルファベット順索引中間ファイル102を生成し、キーワードテーブル62に登録された読みを取得して、同一の読みで始まるキーワードを1つのファイル102にまとめる(ステップS62)。
【0108】
次に、トップキーワードから各キーワードまでの最短パスを計算し、それをキーワードテーブル62のパスのフィールドに登録する(ステップS63)。そして、キーワード毎にディレクトリ中間ファイル103を生成して(ステップS64)、処理を終了する。
【0109】
ステップS64では、キーワードテーブル62のフィールドEqに登録されたキーワードを領域107に記述し、計算された最短パスを領域108に記述し、キーワードテーブル62のフィールドUPに登録されたキーワードを領域109に記述し、フィールドDOWNに登録されたキーワードを領域110に記述する。
【0110】
また、文書単語対テーブル61から、ファイル103のタイトルキーワードが付加された文書のIDを取得し、文書情報テーブル52から、そのタイトル、説明、および一次情報へのリンクを取得する。そして、それらを領域111に記述する。このとき、キーワードテーブル62のフィールドRelに登録されたキーワードを、連想語として記述する。したがって、ファイル103の生成において、パス108だけが新規に作成される情報である。
【0111】
ここで、トップキーワードからあるキーワードまでのパスとしては、トップから階層関係だけを辿って到達するものだけでなく、それに連想関係を加えて到達するものも存在する。これは、前述のような階層関係の設定方法では、トップから階層関係だけで必ずしもすべてのキーワードに到達できるという保証がないためである。
【0112】
そもそも、パスはハイパーテキストにおいて利用者が迷子にならないための仕組みである。本実施形態においては、利用者は、パスを逆に辿ることで、あるキーワードからトップキーワードへ到達することができる。
【0113】
図18および図19は、図17のステップS63におけるパス生成処理のフローチャートである。ここでは、最初に階層関係だけでパスの生成を試み、パスが生成されなかったキーワードについては、連想関係も加えてパス生成を試みる。それでもトップと結びつけられないキーワードについては、便宜上、トップの直下に“その他”というカテゴリを生成し、そこに直接結びつける。
【0114】
ディレクトリファイル生成器43は、まず、トップキーワードIDリスト33の各キーワードについて、キーワードテーブル62のパスのフィールドに“top”を登録し(図18、ステップS71)、それらのトップキーワードのリストをS1とする(ステップS72)。
【0115】
次に、階層関係だけを辿ってパスを設定する(ステップS73〜S80)。ここでは、幅優先探索を行っており、各時点での最もパスが長いキーワードがS1に入っている。
【0116】
ディレクトリファイル生成器43は、まず、S1が空かどうかを判定し(ステップS73)、それが空でなければ、S1からキーワードwを取り出す(ステップS74)。そして、キーワードテーブル62において、キーワードwのフィールドDOWNに登録されたキーワード集合をS2とする(ステップS75)。
【0117】
次に、S2が空かどうかを判定し(ステップS76)、それが空でなければ、S2からキーワードuを取り出し(ステップS77)、そのパスのフィールドが空かどうかを調べる(ステップS78)。
【0118】
まだ、キーワードuのパスが設定されていなければ、wのパス+wをパスとして設定し、キーワードuをS3に加えて(ステップS79)、ステップS76以降の処理を繰り返す。S3は、パスが設定されたキーワードの集合を表し、最初は空に設定されている。ステップS78においてキーワードuのパスが既に設定されていれば、そのままステップS76以降の処理を繰り返す。
【0119】
そして、ステップS76においてS2が空になると、S3を改めてS1とおき、S3を空に設定して(ステップS80)、ステップS73以降の処理を繰り返す。これにより、キーワードの木構造のトップから下位に向かって、各ノードにパスが設定されていく。
【0120】
ステップS73においてS1が空になると、次に、キーワードテーブル62においてまだパスの設定されていないキーワードに対して、階層関係および連想関係を辿ってパスを設定する(ステップS81〜S89)。
【0121】
ディレクトリファイル生成器43は、まず、その時点でまだパスが設定されていないキーワードの集合をS4とし、S6を空に設定する(ステップS81)。次に、S4が空かどうかを判定し(ステップS82)、それが空でなければ、S4からキーワードvを取り出す。そして、キーワードテーブル62において、キーワードvのフィールドUP、DOWN、Relを合わせたキーワードの集合をS5とする(ステップS83)。
【0122】
次に、S5のキーワードでパスが設定されているもののうち、最短パスのキーワードをwとする(ステップS84)。S5のキーワードのパスがすべて空の場合には、wも空となる。
【0123】
次に、キーワードwが空かどうかを判定し(ステップS85)、それが空でなければ、wのパス+wをキーワードvのパスとして設定し、S6にキーワードvを加える(ステップS86)。そして、ステップS82以降の処理を繰り返す。また、キーワードwが空であれば、そのままステップS82以降の処理を繰り返す。
【0124】
そして、ステップS82においてS4が空になると、次に、S6が空かどうかを判定し(ステップS87)、それが空でなければ、ステップS81以降の処理を繰り返す。
【0125】
そして、ステップS87においてS6が空になると、それ以上処理を繰り返しても新たなパスは設定されないと判断し、その時点でまだパスが設定されていないキーワードの集合をS7とする(ステップS88)。そして、S7の各キーワードのパスのフィールドに、トップの直下のカテゴリ“その他”を設定し、処理を終了する。こうして、キーワードテーブル62のすべてのキーワードにパスが設定される。
【0126】
図16のようなディレクトリファイル56が生成されると、文書の分類登録が完了する。利用者は、ディレクトリアクセス部44および検索部45を介して、ディレクトリファイル56の必要な情報を取得することができる。
【0127】
ディレクトリアクセス部44への利用者からの入力としては、表示されたリンクのクリックと検索要求の2種類が考えられる。リンクがクリックされた場合は、ディレクトリアクセス部44は、対応するファイル102、103の内容を表示装置14に表示する。利用者は、図16のハイパーテキストによる索引を、次のように利用することができる。
【0128】
1.パス:ハイパーテキスト全体の中における現在位置が把握できる。迷子にならないための工夫である。
2.上位関連語:キーワードに関連する上位または広い概念のカテゴリとして、検索結果を広げるために用いられる。
【0129】
3.サブカテゴリ:キーワードの下位のカテゴリとして、検索結果を絞り込むために用いられる。
4.連想語:キーワードとの関連性は低いが、文書を通じて繋がっているカテゴリとして、ハイパーテキストのブラウジング、ジャンプ等に自由に用いられる。
【0130】
また、検索要求に関しては、ディレクトリトップファイル101の画面上の入力窓104からのキーワード検索と、ディレクトリ中間ファイル103の画面上の入力窓112からの文書内容検索の2種類がある。ディレクトリアクセス部44は、これらの検索を検索部45に指示し、その結果を受け取って表示装置14に表示する。
【0131】
キーワード検索の場合は、検索部45は、キーワードテーブル62を検索し、検索要求を満たすキーワードをリストアップする。そして、ディレクトリアクセス部44は、各キーワードのディレクトリ中間ファイル103へのリンクを、ディレクトリトップファイル101に付加する。文書内容検索の場合は、検索部45は、文書データ21の文書のうち、検索要求を満たす文書をリストアップし、ディレクトリアクセス部44は、それらのタイトルおよび内容のリストを表示する。
【0132】
例えば、利用者が“自動車のワックス”についての情報を探したいと思った場合、まず、“自動車”でキーワード検索を行って文書を絞り込み、次に、“ワックス”で文書内容を検索することで、検索結果のゴミを減らすことができる。
【0133】
単に“ワックス”を含む文書を検索しただけでは、床のワックスやスキーのワックスに関する文書等の不要な文書まで検索結果に含まれてしまう。また、“自動車”のような一般的な語は、往々にして、自動車関係の文書にはそのままの形で出現しないことが多いため、“自動車 AND ワックス”のような検索式でブール検索を行っても、良い結果が得られない場合も多い。
【0134】
以上説明したように、文書整理装置は、文書に付加されたキーワードの統計情報、文字列としての包含関係、および辞書等を用いて人手で与えた関係を統合して、ディレクトリを自動的に構築する。統計情報だけでは分類の精度は低く、既存の分類をベースにすると汎用的だが文書の特徴をうまく表現できない。本実施形態では、両者を組み合わせることで、汎用性を保ちつつ、分類の精度を向上させている。
【0135】
ディレクトリサービスにおいては、階層関係による分類以外に、上位関連語、連想語、50音・アルファベット順索引といった多様なリンクを最短パスやサブカテゴリとともに提示することで、文書への複数のパスが提供され、利用者のアクセスが支援される。したがって、このサービスでは、分類そのものより、利用者を文書にナビゲートする多くの手段を提供することに主眼が置かれている。
【0136】
また、管理者が同意語・不要語リストを明示的に与え、文書整理装置がその情報に従ってキーワードのリンクを追加・削除することで、管理者の意向をディレクトリに反映させることができる。また、管理者がキーワード間の階層関係を明示的に与え、文書整理装置がその情報に従ってディレクトリを生成することで、ハイパーテキストのリンク関係を調整することができる。
【0137】
また、文書整理装置は、今回入力されたキーワードを前回のキーワードと比較し、新規に登録されたキーワードを強調表示するため、管理者の手間をかけずに、利用者が新しい話題を把握するための手掛かりが提供される。
【0138】
また、文書整理装置は、文書のキーワードをそのままディレクトリのカテゴリとして用いるため、従来の自動分類とは違って、最初から分類ミスが生じない。さらに、文書本文の全文検索と、ディレクトリの分類とを融合することで、話題を絞りこんで検索することが可能となる。これにより、同音異議語による検索ゴミを減らすことができる。
【0139】
また、ディレクトリに含まれるキーワードの検索と文書内容の全文検索を組み合わせることで、利用者が特定の話題における文書から細かい情報を検索することが支援される。
【0140】
次に、図20から図24までを参照しながら、図2に示した文書整理装置を利用した文書整理システムの実施形態について説明する。今日のネットワーク環境においては、メールやニュースといった身の回りの文書が、コンピュータ上の文書フォルダに溜まっていることが多い。文書整理システムは、そのような文書群に対して本発明を応用し、文書整理を行う。
【0141】
図20は、このような文書整理システムの構成図である。図20の文書整理システムは、処理装置121、二次記憶装置122、キーワード抽出装置123、および利用者端末124を備える。例えば、処理装置121は、CPUとメモリを含み、利用者端末124は、入力装置と表示装置を含む。
【0142】
二次記憶装置122は、文書群のデータを含む文書フォルダ131と管理ファイル132を格納する。管理ファイル132には、同意語および不要語の集合133と、キーワードの階層関係を表すデータ134と、ディレクトリのトップとなるキーワードの集合135が含まれている。
【0143】
キーワード抽出装置123は、文書フォルダ131の各文書の形態素解析を行って、文書を単語に分割する。そして、中頻度の単語をキーワードとして取り出し、処理装置121に入力する。低頻度の単語では文書の特徴を表していない恐れがあり、高頻度の単語では他の文書にも多く現れる可能性がある。
【0144】
処理装置121は、キーワード整形器41、キーワード関係抽出器42、ディレクトリファイル生成器43、検索部45、WWW(world wide web)サーバ141を含む。
【0145】
キーワード整形器41、キーワード関係抽出器42、およびディレクトリファイル生成器43は、文書フォルダ131および管理ファイル132のデータと、キーワード抽出装置123からのキーワードとを用いて上述したような処理を行い、図16に示したような形式のディレクトリファイル142を生成する。
【0146】
また、WWWサーバ141は、図2のディレクトリアクセス部44に対応し、利用者からの指示に応じてディレクトリファイル142にアクセスする。利用者は、端末124に搭載されたWWWブラウザ143を通じて、WWWサーバ141に対する指示を入力し、ディレクトリにアクセスする。
【0147】
図21は、端末124上に表示されるディレクトリのトップ画面を示している。トップ画面の項目“コンピュータ”、“ソフトウェア”等は、管理者がトップキーワード135により与えたカテゴリに相当する。
【0148】
図22は、利用者がトップ画面または他の画面上のキーワードをクリックすることにより表示されるディレクトリの中間画面を示している。ここでは、“ホームページ”というキーワードのページが表示されている。
【0149】
右上のパス151は、トップ画面から“ホームページ”の中間画面に至るパスを表し、この中間画面はトップ画面の下位のキーワード“WWW”の下位に位置することが分かる。また、関連語152は、“ページ”、“インターネット”等が“ホームページ”の上位語であることを表し、サブトピック(サブカテゴリ)153は、“WWWページ”、“接続事業”、“HTML”等の12個のキーワードが“ホームページ”の下位語であることを表している。
【0150】
また、文書リスト154は、“ホームページ”に関連する39個の文書のそれぞれについて、タイトル、本文(一次情報)へのリンク、更新日、および連想語のリンクを示している。例えば、最初の文書タイトル“国立天文台のWWWページ”の下の括弧内に記述された“日本”、“電子メール”、および“代理投稿”が、“ホームページ”の連想語である。
【0151】
図23は、ディレクトリの50音・アルファベット順索引のトップ画面を示しており、図24は、その下の中間画面を示している。図24では、“れ”で始まるキーワードがリストアップされている。このような文書整理システムによれば、任意の文書を整理して格納することができる。
【0152】
また、本実施形態の文書整理装置は、他にも次のようなシステムに応用することができる。
(1)情報共有ツールのビュー
本出願人による先願である「文書共有整理システム、共有文書管理装置および文書アクセス装置」(特願平8−281940)では、ネットワークを通じてグループで文書情報を共有し、特定の文書のリストとしてビューを表示することができる。このビューの1つとして、文書整理装置が作成するディレクトリを表示することが考えられる。
(2)ネットワークニュース検索システム
本出願人による先願である「関連文書表示装置」(特願平10−82270)では、ネットワークニュースの検索システムが開示されている。ネットワークニュースにおけるニュースグループの整理に文書整理装置を応用することで、利用者のアクセス支援ができる。
【0153】
なお、以上説明した実施形態においては、管理者が管理ファイルを作成しているが、利用者自身が管理者の役割を兼ねることもあり得る。また、本発明は、文書のみならず、キーワードを付加されたあらゆる情報の分類・整理に応用することが可能である。例えば、画像や音声のファイルに適当なキーワードを付加しておき、それらの間の関係からディレクトリファイルを作成することができる。
【0154】
ところで、図2の文書整理装置は、図25に示すような情報処理装置(コンピュータ)を用いて構成することができる。図25の情報処理装置は、CPU161、メモリ162、入力装置163、出力装置164、外部記憶装置165、媒体駆動装置166、およびネットワーク接続装置167を備え、それらはバス168により互いに接続されている。
【0155】
メモリ162は、例えば、ROM(read only memory)、RAM(random access memory)等を含み、処理に用いられるプログラムとデータを格納する。CPU161は、メモリ162を利用してプログラムを実行することにより、必要な処理を行う。
【0156】
図2のキーワード整形器41、キーワード関係抽出器42、ディレクトリファイル生成器43、ディレクトリアクセス部44、および検索部45は、それぞれ、メモリ162の特定のプログラムコードセグメントにプログラムとして格納される。
【0157】
入力装置163は、例えば、キーボード、ポインティングデバイス、タッチパネル等であり、ユーザからの指示や情報の入力に用いられる。出力装置164は、例えば、ディスプレイやプリンタ等であり、利用者への問い合わせ、処理結果等の出力に用いられる。
【0158】
外部記憶装置165は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク(magneto-optical disk)装置等であり、図2の二次記憶装置12として用いられる。この外部記憶装置165に、上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ162にロードして使用することもできる。
【0159】
媒体駆動装置166は、可搬記録媒体169を駆動し、その記録内容にアクセスする。可搬記録媒体169としては、メモリカード、フロッピーディスク、CD−ROM(compact disk read only memory )、光ディスク、光磁気ディスク等、任意のコンピュータ読み取り可能な記録媒体が用いられる。この可搬記録媒体169に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ162にロードして使用することもできる。
【0160】
ネットワーク接続装置167は、LAN(local area network)等の任意のネットワーク(回線)を介して外部の装置と通信し、通信に伴うデータ変換を行う。また、必要に応じて、上述のプログラムとデータを外部の装置から受け取り、それらをメモリ162にロードして使用することもできる。
【0161】
図26は、図25の情報処理装置にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体169や外部のデータベース170に保存されたプログラムとデータは、メモリ162にロードされる。そして、CPU161は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。
【0162】
【発明の効果】
本発明によれば、情報処理装置に蓄えられた大量の文書群を、外部から与えられたカテゴリと自動的に抽出された文書群の特徴を併用して、高い精度で自動的に分類することができる。また、分類結果に従って、文書への多様なリンクを有するディレクトリが自動的に生成され、利用者によるアクセスが支援される。
【図面の簡単な説明】
【図1】本発明の文書整理装置の原理図である。
【図2】文書整理装置の構成図である。
【図3】管理ファイルのデータ構造を示す図である。
【図4】文書単語対テーブルとキーワードテーブルを示す図である。
【図5】文書メタ情報のデータ構造を示す図である。
【図6】キーワード整形器の構成図である。
【図7】キーワード整形器の処理のフローチャートである。
【図8】キーワード関係抽出器の構成図である。
【図9】キーワード関係抽出器の処理のフローチャートである。
【図10】相関ルール抽出/評価処理のフローチャートである。
【図11】ルール分割を示す図である。
【図12】第1の文書集合の関係を示す図である。
【図13】第2の文書集合の関係を示す図である。
【図14】第3の文書集合の関係を示す図である。
【図15】第4の文書集合の関係を示す図である。
【図16】ディレクトリファイルを示す図である。
【図17】ディレクトリファイル生成器の処理のフローチャートである。
【図18】パス生成処理のフローチャート(その1)である。
【図19】パス生成処理のフローチャート(その2)である。
【図20】文書整理システムの構成図である。
【図21】文書ディレクトリのトップ画面を示す図である。
【図22】文書ディレクトリの中間画面を示す図である。
【図23】文書50音・アルファベット順索引のトップ画面を示す図である。
【図24】文書50音・アルファベット順索引の中間画面を示す図である。
【図25】情報処理装置の構成図である。
【図26】記録媒体を示す図である。
【符号の説明】
1 関係抽出手段
2 生成手段
3 出力手段
4、32、53、134 階層関係
5、55 連想関係
11、121 処理装置
12、122 二次記憶装置
13 入力装置
14 表示装置
21 文書データ
22、132 管理ファイル
31、133 同意語/不要語
33、135 トップキーワード
41 キーワード整形器
42 キーワード関係抽出器
43 ディレクトリファイル生成器
44 ディレクトリアクセス部
45 検索部
51 文書単語対
52 文書メタ情報
54 同値関係
56、142 ディレクトリファイル
61 文書単語対テーブル
62 キーワードテーブル
71 キーワード統一器
72 単語読み付加器
73 旧キーワード
81 部分文字列切り出し器
82 相関ルール抽出器
83 ルール評価器
84 マージャ
85 部分語関係
86 相関ルール
91、92、93、94 領域
101 ディレクトリトップファイル
102 50音・アルファベット順索引中間ファイル
103 ディレクトリ中間ファイル
104、112 検索窓
105 キーワード
106 50音索引
107 ヘッダ
108、151 パス
109、152 上位関連語
110、153 サブカテゴリ
111、154 文書リスト
123 キーワード抽出装置
124 利用者端末
131 文書フォルダ
141 WWWサーバ
143 WWWブラウザ
161 CPU
162 メモリ
163 入力装置
164 出力装置
165 外部記憶装置
166 媒体駆動装置
167 ネットワーク接続装置
168 バス
169 可搬記録媒体
170 データベース

Claims (14)

  1. 文書群をキーワードに基づいて整理する文書整理装置であって、
    キーワード対に関する統計情報を用いて、前記文書群の各文書に付加されたキーワードの中から、第1の閾値以上の共起出現頻度と第2の閾値以上の確信度を有するキーワード対を抽出し、抽出されたキーワード対のうち、第3の閾値より大きな確信度を有するキーワード対に階層関係を付与し、該第3の閾値より小さな確信度を有するキーワード対に連想関係を付与する関係抽出手段と、
    あるキーワードが付加された文書へのリンクと、該あるキーワードと前記階層関係を有する別のキーワードへのリンクと、該あるキーワードと前記連想関係を有する別のキーワードへのリンクとを含み、前記文書群にアクセスするためのディレクトリ情報を、キーワード毎に生成する生成手段と、
    前記ディレクトリ情報を出力する出力手段と
    を備えることを特徴とする文書整理装置。
  2. 前記関係抽出手段は、前記文書群の各文書に付加されたキーワードから、前記第1の閾値以上の共起出現頻度と第2の閾値以上の確信度を有するキーワード対を含む相関ルールを抽出するルール抽出手段と、該キーワード対の確信度を用いて前記階層関係または連想関係を該キーワード対に付与するルール評価手段を含むことを特徴とする請求項1記載の文書整理装置。
  3. 外部から与えられたキーワード間の階層関係を入力する手段をさらに備え、前記関係抽出手段は、前記第3の閾値を用いて付与された階層関係と、入力された階層関係とをマージして、前記ディレクトリ情報を生成するために用いられる階層関係を生成することを特徴とする請求項1または2記載の文書整理装置。
  4. 前記関係抽出手段は、前記文書群の各文書に付加されたキーワードのそれぞれから部分文字列を切り出して、該部分文字列を該キーワードの上位語とする階層関係を付与し、前記第3の閾値を用いて付与された階層関係と、前記入力された階層関係と、該部分文字列を上位語とする階層関係とをマージして、前記ディレクトリ情報を生成するために用いられる階層関係を生成することを特徴とする請求項記載の文書整理装置。
  5. 前記生成手段は、トップキーワードのリストおよび50音・アルファベット順索引をさらに生成し、該トップキーワードのリストおよび50音・アルファベット順索引に含まれる各キーワードから前記ディレクトリ情報へのリンクを設定し、前記出力手段は、該トップキーワードのリストおよび50音・アルファベット順索引と前記ディレクトリ情報を、前記文書群にアクセスするための索引として出力することを特徴とする請求項1、2、3、または4記載の文書整理装置。
  6. 前記生成手段は、トップキーワードのリストに含まれるキーワードから前記階層関係と連想関係のリンクを辿ることで到達するキーワードまでのパスを計算し、得られたパスを到達先のキーワードのディレクトリ情報に設定することを特徴とする請求項記載の文書整理装置。
  7. 外部から与えられた同意語リストに基づいて、前記文書群の各文書に付加されたキーワードの間の同値関係を付加する手段をさらに備え、前記生成手段は、前記あるキーワードと該同値関係を有する別のキーワードを、前記ディレクトリ情報に付加することを特徴とする請求項1、2、3、4、5、または6記載の文書整理装置。
  8. 外部から与えられた不要語リストに基づいて、前記文書群の各文書に付加されたキーワードの中から不要なキーワードを削除する手段をさらに備え、前記生成手段は、削除されたキーワード以外のキーワードのディレクトリ情報を生成することを特徴とする請求項1、2、3、4、5、または6記載の文書整理装置。
  9. 前記文書群の各文書に付加されたキーワードを旧キーワードの集合と比較して、新規キーワードを同定する手段をさらに備え、前記出力手段は、該新規キーワードを強調して出力することを特徴とする請求項1、2、3、4、5、または6記載の文書整理装置。
  10. 前記ディレクトリ情報にアクセスするアクセス手段をさらに備え、利用者は、該ディレクトリ情報を介して前記文書群にアクセスすることを特徴とする請求項1、2、3、4、5、または6記載の文書整理装置。
  11. 前記ディレクトリ情報に含まれるキーワードを検索するキーワード検索手段と、前記文書群の文書の内容を検索する文書検索手段をさらに備え、利用者は、該キーワード検索手段および文書検索手段を用いて文書情報を取得することを特徴とする請求項1、2、3、4、5、または6記載の文書整理装置。
  12. 任意の情報をキーワードに基づいて整理する情報整理装置であって、
    キーワード対に関する統計情報を用いて、各情報に付加されたキーワードの中から、第1の閾値以上の共起出現頻度と第2の閾値以上の確信度を有するキーワード対を抽出し、抽出されたキーワード対のうち、第3の閾値より大きな確信度を有するキーワード対に階層関係を付与し、該第3の閾値より小さな確信度を有するキーワード対に連想関係を付与する関係抽出手段と、
    あるキーワードが付加された情報へのリンクと、該あるキーワードと前記階層関係を有する別のキーワードへのリンクと、該あるキーワードと前記連想関係を有する別のキーワードへのリンクとを含み、前記任意の情報にアクセスするためのディレクトリ情報を、キーワード毎に生成する生成手段と、
    前記ディレクトリ情報を出力する出力手段と
    を備えることを特徴とする情報整理装置。
  13. 文書群をキーワードに基づいて整理するコンピュータを、
    キーワード対に関する統計情報を用いて、前記文書群の各文書に付加されたキーワードの中から、第1の閾値以上の共起出現頻度と第2の閾値以上の確信度を有するキーワード対を抽出し、抽出されたキーワード対のうち、第3の閾値より大きな確信度を有するキーワード対に階層関係を付与し、該第3の閾値より小さな確信度を有するキーワード対に連想関係を付与する関係抽出手段と、
    あるキーワードが付加された文書へのリンクと、該あるキーワードと前記階層関係を有する別のキーワードへのリンクと、該あるキーワードと前記連想関係を有する別のキーワードへのリンクとを含み、前記文書群にアクセスするためのディレクトリ情報を、キーワード毎に生成する生成手段と、
    前記ディレクトリ情報を出力する出力手段として、
    機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  14. 文書群をキーワードに基づいて整理する文書整理方法であって、
    関係抽出手段が、キーワード対に関する統計情報を用いて、前記文書群の各文書に付加されたキーワードの中から、第1の閾値以上の共起出現頻度と第2の閾値以上の確信度を有するキーワード対を抽出し、抽出されたキーワード対のうち、第3の閾値より大きな確信度を有するキーワード対に階層関係を付与し、該第3の閾値より小さな確信度を有するキーワード対に連想関係を付与し、
    生成手段が、あるキーワードが付加された文書へのリンクと、該あるキーワードと前記階層関係を有する別のキーワードへのリンクと、該あるキーワードと前記連想関係を有する別のキーワードへのリンクとを含み、前記文書群にアクセスするためのディレクトリ情報を、キーワード毎に生成し、
    出力手段が、前記ディレクトリ情報を出力する
    ことを特徴とする文書整理方法。
JP17674998A 1998-06-24 1998-06-24 文書整理装置および方法 Expired - Fee Related JP3665480B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP17674998A JP3665480B2 (ja) 1998-06-24 1998-06-24 文書整理装置および方法
US09/266,863 US7003442B1 (en) 1998-06-24 1999-03-12 Document file group organizing apparatus and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17674998A JP3665480B2 (ja) 1998-06-24 1998-06-24 文書整理装置および方法

Publications (2)

Publication Number Publication Date
JP2000010996A JP2000010996A (ja) 2000-01-14
JP3665480B2 true JP3665480B2 (ja) 2005-06-29

Family

ID=16019145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17674998A Expired - Fee Related JP3665480B2 (ja) 1998-06-24 1998-06-24 文書整理装置および方法

Country Status (2)

Country Link
US (1) US7003442B1 (ja)
JP (1) JP3665480B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812504B2 (en) 2010-09-28 2014-08-19 Kabushiki Kaisha Toshiba Keyword presentation apparatus and method

Families Citing this family (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760746B1 (en) 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
US7188138B1 (en) 1999-03-22 2007-03-06 Eric Schneider Method, product, and apparatus for resource identifier registration and aftermarket services
US8037168B2 (en) 1999-07-15 2011-10-11 Esdr Network Solutions Llc Method, product, and apparatus for enhancing resolution services, registration services, and search services
US6338082B1 (en) 1999-03-22 2002-01-08 Eric Schneider Method, product, and apparatus for requesting a network resource
USRE43690E1 (en) 1999-03-22 2012-09-25 Esdr Network Solutions Llc Search engine request method, product, and apparatus
US9141717B2 (en) 1999-03-22 2015-09-22 Esdr Network Solutions Llc Methods, systems, products, and devices for processing DNS friendly identifiers
USRE44207E1 (en) 1999-09-01 2013-05-07 Esdr Network Solutions Llc Network resource access method, product, and apparatus
US6606659B1 (en) 2000-01-28 2003-08-12 Websense, Inc. System and method for controlling access to internet sites
JP2002202837A (ja) * 2000-12-28 2002-07-19 Canon Inc 情報処理装置およびデバイスリスト表示処理方法および記憶媒体
EP1244027A1 (de) * 2001-03-23 2002-09-25 Siemens Business Services GmbH & Co. OHG Methode zur Einordnung eines Dokuments in einen Dokumentenbestand
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2003208434A (ja) * 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
US20030101166A1 (en) 2001-11-26 2003-05-29 Fujitsu Limited Information analyzing method and system
US7194464B2 (en) 2001-12-07 2007-03-20 Websense, Inc. System and method for adapting an internet filter
US7035769B2 (en) * 2001-12-26 2006-04-25 Stmicroelectronics S.R.L. Design failure mode effect analysis (DFMEA)
US7243092B2 (en) * 2001-12-28 2007-07-10 Sap Ag Taxonomy generation for electronic documents
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
JP2004102678A (ja) * 2002-09-10 2004-04-02 Minolta Co Ltd データ管理装置及びデータ管理プログラム
JP4583003B2 (ja) * 2003-03-20 2010-11-17 富士通株式会社 検索処理方法及びプログラム
JP2004303160A (ja) * 2003-04-01 2004-10-28 Oki Electric Ind Co Ltd 情報抽出装置
JP2005196254A (ja) * 2003-12-26 2005-07-21 Fuji Xerox Co Ltd ディレクトリ構造形成装置及びその方法、ディレクトリサービスシステム
JP2005309727A (ja) * 2004-04-21 2005-11-04 Hitachi Ltd ファイルシステム
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
JP4557759B2 (ja) 2005-03-14 2010-10-06 株式会社東芝 情報処理装置、情報処理方法およびデータ更新方法
US7552398B2 (en) * 2005-05-24 2009-06-23 Palo Alto Research Center Incorporated Systems and methods for semantically zooming information
US7562085B2 (en) * 2005-05-24 2009-07-14 Palo Alto Research Center Incorporated Systems and methods for displaying linked information in a sorted context
US20070006129A1 (en) * 2005-06-01 2007-01-04 Opasmedia Oy Forming of a data retrieval, searching from a data retrieval system, and a data retrieval system
US8615800B2 (en) 2006-07-10 2013-12-24 Websense, Inc. System and method for analyzing web content
US8020206B2 (en) 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
JP4234740B2 (ja) * 2006-08-03 2009-03-04 株式会社東芝 キーワード提示装置、プログラムおよびキーワード提示方法
US9654495B2 (en) * 2006-12-01 2017-05-16 Websense, Llc System and method of analyzing web addresses
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US20090037487A1 (en) * 2007-07-27 2009-02-05 Fan David P Prioritizing documents
US8108392B2 (en) * 2007-10-05 2012-01-31 Fujitsu Limited Identifying clusters of words according to word affinities
US8086608B2 (en) * 2007-10-12 2011-12-27 International Business Machines Corporation Management of resource identifiers
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
TWI362595B (en) * 2007-12-20 2012-04-21 Inst Information Industry Collaborative tagging systems and methods for resources
US10733223B2 (en) * 2008-01-08 2020-08-04 International Business Machines Corporation Term-driven records file plan and thesaurus design
JP5290591B2 (ja) 2008-02-12 2013-09-18 キヤノン株式会社 文書管理装置、方法、プログラム、並びに、文書管理システム
JP4626662B2 (ja) * 2008-03-21 2011-02-09 ブラザー工業株式会社 データ保存装置及びコンピュータプログラム
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
EP2318955A1 (en) 2008-06-30 2011-05-11 Websense, Inc. System and method for dynamic and real-time categorization of webpages
US9342589B2 (en) 2008-07-30 2016-05-17 Nec Corporation Data classifier system, data classifier method and data classifier program stored on storage medium
JP5423676B2 (ja) * 2008-07-30 2014-02-19 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
JP5430128B2 (ja) * 2008-11-21 2014-02-26 三菱電機株式会社 URL変換装置、URL変換方法、URL変換プログラム及びWeb情報収集システム
WO2011004529A1 (ja) * 2009-07-06 2011-01-13 日本電気株式会社 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
US8738635B2 (en) * 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8706860B2 (en) 2011-06-30 2014-04-22 Amazon Technologies, Inc. Remote browsing session management
US8799412B2 (en) 2011-06-30 2014-08-05 Amazon Technologies, Inc. Remote browsing session management
US8577963B2 (en) 2011-06-30 2013-11-05 Amazon Technologies, Inc. Remote browsing session between client browser and network based browser
US9621406B2 (en) 2011-06-30 2017-04-11 Amazon Technologies, Inc. Remote browsing session management
JP5308593B2 (ja) * 2011-07-25 2013-10-09 楽天株式会社 ジャンル生成装置
US9037696B2 (en) 2011-08-16 2015-05-19 Amazon Technologies, Inc. Managing information associated with network resources
US9195768B2 (en) 2011-08-26 2015-11-24 Amazon Technologies, Inc. Remote browsing session management
US10089403B1 (en) 2011-08-31 2018-10-02 Amazon Technologies, Inc. Managing network based storage
JP5810792B2 (ja) * 2011-09-21 2015-11-11 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US8914514B1 (en) 2011-09-27 2014-12-16 Amazon Technologies, Inc. Managing network based content
US9152970B1 (en) 2011-09-27 2015-10-06 Amazon Technologies, Inc. Remote co-browsing session management
US9383958B1 (en) 2011-09-27 2016-07-05 Amazon Technologies, Inc. Remote co-browsing session management
US8589385B2 (en) 2011-09-27 2013-11-19 Amazon Technologies, Inc. Historical browsing session management
US10693991B1 (en) 2011-09-27 2020-06-23 Amazon Technologies, Inc. Remote browsing session management
US9641637B1 (en) 2011-09-27 2017-05-02 Amazon Technologies, Inc. Network resource optimization
US8849802B2 (en) 2011-09-27 2014-09-30 Amazon Technologies, Inc. Historical browsing session management
US9298843B1 (en) 2011-09-27 2016-03-29 Amazon Technologies, Inc. User agent information management
US9178955B1 (en) 2011-09-27 2015-11-03 Amazon Technologies, Inc. Managing network based content
US8615431B1 (en) 2011-09-29 2013-12-24 Amazon Technologies, Inc. Network content message placement management
CA2854886A1 (en) 2011-11-08 2013-05-16 Google Inc. Systems and methods for generating and displaying hierarchical search results
US9313100B1 (en) 2011-11-14 2016-04-12 Amazon Technologies, Inc. Remote browsing session management
US8972477B1 (en) 2011-12-01 2015-03-03 Amazon Technologies, Inc. Offline browsing session management
US9117002B1 (en) 2011-12-09 2015-08-25 Amazon Technologies, Inc. Remote browsing session management
US9009334B1 (en) 2011-12-09 2015-04-14 Amazon Technologies, Inc. Remote browsing session management
US9330188B1 (en) 2011-12-22 2016-05-03 Amazon Technologies, Inc. Shared browsing sessions
US8839087B1 (en) 2012-01-26 2014-09-16 Amazon Technologies, Inc. Remote browsing and searching
US8627195B1 (en) 2012-01-26 2014-01-07 Amazon Technologies, Inc. Remote browsing and searching
US9509783B1 (en) 2012-01-26 2016-11-29 Amazon Technlogogies, Inc. Customized browser images
US9092405B1 (en) 2012-01-26 2015-07-28 Amazon Technologies, Inc. Remote browsing and searching
US9087024B1 (en) 2012-01-26 2015-07-21 Amazon Technologies, Inc. Narration of network content
US9336321B1 (en) 2012-01-26 2016-05-10 Amazon Technologies, Inc. Remote browsing and searching
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US9037975B1 (en) 2012-02-10 2015-05-19 Amazon Technologies, Inc. Zooming interaction tracking and popularity determination
US9183258B1 (en) 2012-02-10 2015-11-10 Amazon Technologies, Inc. Behavior based processing of content
US9137210B1 (en) 2012-02-21 2015-09-15 Amazon Technologies, Inc. Remote browsing session management
US9374244B1 (en) 2012-02-27 2016-06-21 Amazon Technologies, Inc. Remote browsing session management
US10296558B1 (en) 2012-02-27 2019-05-21 Amazon Technologies, Inc. Remote generation of composite content pages
US9208316B1 (en) 2012-02-27 2015-12-08 Amazon Technologies, Inc. Selective disabling of content portions
US9460220B1 (en) 2012-03-26 2016-10-04 Amazon Technologies, Inc. Content selection based on target device characteristics
US9307004B1 (en) 2012-03-28 2016-04-05 Amazon Technologies, Inc. Prioritized content transmission
US9772979B1 (en) 2012-08-08 2017-09-26 Amazon Technologies, Inc. Reproducing user browsing sessions
US8943197B1 (en) 2012-08-16 2015-01-27 Amazon Technologies, Inc. Automated content update notification
US10152463B1 (en) 2013-06-13 2018-12-11 Amazon Technologies, Inc. System for profiling page browsing interactions
US9578137B1 (en) 2013-06-13 2017-02-21 Amazon Technologies, Inc. System for enhancing script execution performance
JP6364786B2 (ja) * 2014-01-24 2018-08-01 富士通株式会社 設計書管理プログラム、設計書管理方法および設計書管理装置
US9824160B2 (en) * 2014-06-02 2017-11-21 SynerScope B.V. Computer implemented method and device for accessing a data set
US9635041B1 (en) 2014-06-16 2017-04-25 Amazon Technologies, Inc. Distributed split browser content inspection and analysis
JP6545634B2 (ja) * 2016-04-04 2019-07-17 株式会社東芝 情報処理装置、情報処理方法およびプログラム
AU2017320475B2 (en) * 2016-09-02 2022-02-10 FutureVault Inc. Automated document filing and processing methods and systems
KR101804139B1 (ko) * 2017-02-15 2017-12-05 김진원 키워드 기반 데이터 관리 시스템 및 방법
JP2017107603A (ja) * 2017-03-10 2017-06-15 一般財団法人工業所有権協力センター 関連語統合プログラム
US10726095B1 (en) 2017-09-26 2020-07-28 Amazon Technologies, Inc. Network content layout using an intermediary system
US10664538B1 (en) 2017-09-26 2020-05-26 Amazon Technologies, Inc. Data security and data access auditing for network accessible content
US10671812B2 (en) * 2018-03-22 2020-06-02 Equifax Inc. Text classification using automatically generated seed data
WO2021146694A1 (en) * 2020-01-17 2021-07-22 nference, inc. Systems and methods for mapping a term to a vector representation in a semantic space

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
JPH05324726A (ja) * 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
JP3030533B2 (ja) * 1994-07-26 2000-04-10 篤 今野 情報分類装置
JP2729356B2 (ja) * 1994-09-01 1998-03-18 日本アイ・ビー・エム株式会社 情報検索システム及び方法
JP3669016B2 (ja) 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US6061675A (en) * 1995-05-31 2000-05-09 Oracle Corporation Methods and apparatus for classifying terminology utilizing a knowledge catalog
JPH09153049A (ja) * 1995-11-29 1997-06-10 Hitachi Ltd 文書分類支援方法及び装置
JP2940501B2 (ja) * 1996-12-25 1999-08-25 日本電気株式会社 ドキュメント分類装置及び方法
JP3001460B2 (ja) * 1997-05-21 2000-01-24 株式会社エヌイーシー情報システムズ 文書分類装置
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
JPH1153384A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812504B2 (en) 2010-09-28 2014-08-19 Kabushiki Kaisha Toshiba Keyword presentation apparatus and method

Also Published As

Publication number Publication date
US7003442B1 (en) 2006-02-21
JP2000010996A (ja) 2000-01-14

Similar Documents

Publication Publication Date Title
JP3665480B2 (ja) 文書整理装置および方法
US5899995A (en) Method and apparatus for automatically organizing information
US6356899B1 (en) Method for interactively creating an information database including preferred information elements, such as preferred-authority, world wide web pages
US8166030B2 (en) Information resource taxonomy
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US20010020238A1 (en) Document searching apparatus, method thereof, and record medium thereof
US20160147770A1 (en) Information theory based result merging for searching hierarchical entities across heterogeneous data sources
US20040215663A1 (en) Media agent
US20040148155A1 (en) System and method for generating a taxonomy from a plurality of documents
US20060059134A1 (en) Creating attachments and ranking users and attachments for conducting a search directed by a hierarchy-free set of topics
US11361036B2 (en) Using historical information to improve search across heterogeneous indices
US20050010559A1 (en) Methods for information search and citation search
JP2006525601A (ja) 概念ネットワーク
KR20120089560A (ko) 검색 결과 순위 지정을 위한 정적 관련성 특징으로서의 문서 길이
US20070162408A1 (en) Content Object Indexing Using Domain Knowledge
US20110307479A1 (en) Automatic Extraction of Structured Web Content
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
Boddu et al. Knowledge discovery and retrieval on World Wide Web using web structure mining
JP4094844B2 (ja) 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム
KR20000063488A (ko) 전자화된 문서의 의미적 지식 데이터베이스 자동구축장치와 방법 및 그 기록매체
EP2083364A1 (en) Method for retrieving a document, a computer-readable medium, a computer program product, and a system that facilitates retrieving a document
Yamamoto et al. An editable browser for reranking web search results
JP2006501545A (ja) オブジェクト分類のための顕著な特徴を自動的に判定する方法および装置
Koh et al. Deriving image-text document surrogates to optimize cognition

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050401

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080408

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090408

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090408

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100408

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110408

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110408

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120408

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees