JP4175001B2 - 文書データ検索装置 - Google Patents
文書データ検索装置 Download PDFInfo
- Publication number
- JP4175001B2 JP4175001B2 JP2002058065A JP2002058065A JP4175001B2 JP 4175001 B2 JP4175001 B2 JP 4175001B2 JP 2002058065 A JP2002058065 A JP 2002058065A JP 2002058065 A JP2002058065 A JP 2002058065A JP 4175001 B2 JP4175001 B2 JP 4175001B2
- Authority
- JP
- Japan
- Prior art keywords
- document data
- data
- document
- period
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/964—Database arrangement
- Y10S707/966—Distributed
- Y10S707/967—Peer-to-peer
- Y10S707/968—Partitioning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、作成日時または更新日時が異なる複数の文書データのなかから検索を行う装置およびプログラム、並びに方法に係り、特に、膨大なデータのなかから特徴のある部分を把握するのに好適であり、しかも抽出の確実性を向上するのが容易でかつユーザの要求に即応することができるデータ管理装置、文書データ検索装置、データ管理プログラムおよび文書データ検索プログラム、並びにデータ管理方法および文書データ検索方法に関する。
【0002】
【従来の技術】
企業等では、社員に業務日誌を提出させることにより業務の進捗状況を管理することがある。業務日誌による報告は、多くの場合、一人の上司が複数人の部下から提出された業務日誌に一つ一つ目を通してチェックしている。
しかし、上司も職務上の都合等により、提出されたすべての業務日誌に必ずしも毎日目を通すことはできない。また、仮にすべての業務日誌に目を通していても、制約された時間内においては、把握できる情報量にどうしても限りがある。したがって、チェックする業務日誌の量が膨大となった場合には、業務の進捗状況を効率的に管理することが大変難しくなる。
【0003】
このような場合、業務の進捗状況を効率的に管理するには、上司は、膨大な業務日誌から効率的に情報を得ることが必要である。そこで、まず、業務日誌の性質について検討してみる。業務日誌は、各社員の毎日の業務報告が主たる内容であるため、同一の社員が提出した業務日誌について作成日時の近い業務日誌同士を比較したときには、内容的に重複する部分が多いはずである。内容的に重複する部分について毎日目を通すのは非効率である。したがって、上司は、内容的に重複する部分については一度だけ把握し、その後の業務日誌については特徴のある部分(すなわち、変化のあった部分)だけを把握するようにすれば、比較的効率よく情報を得ることができる。
【0004】
この問題の一つの解法として、例えば、業務日誌を文書データとして文書データベース(以下、データベースのことを単にDBと略記する。)に蓄積し、文書DBのなかから特徴のある部分だけを検索できるような構成を提案することができる。
従来、複数の文書データのなかから検索を行う技術としては、例えば、特開平7-325832号公報に開示されている単語仕様パターンの時間的変化を利用した検索方法(以下、第1の従来例という。)があった。また、その関連技術としては、例えば、特開平6-324871号公報に開示されている推論装置(以下、第2の従来例という。)、および特開平5-53814号公報に開示されている事例ベース検索システム作成支援装置(以下、第3の従来例という。)があった。
【0005】
第1の従来例では、特徴データ抽出部は、あらかじめ、テキスト情報から単語使用パターンの時間的変化を表す特徴データを抽出する。ユーザが検索入力を行うと、入力処理部は、ユーザの検索入力を検索処理部で解釈できる表現形式に変換し、検索処理部に送る。検索処理部は、テキスト情報および特徴データを利用して検索を行い、検索結果は、出力処理部に送られユーザに表示される。特徴データとしては、例えば、テキスト情報における単語の出現確率等の各種統計量を用いることができる。
【0006】
これにより、時系列テキスト情報から抽出された特徴データを利用して、特定の分野・期間において話題となった単語および情報等の検索を可能とし、質の高いトレンド分析・動向分析を容易に行うことができる。
第2の従来例では、ルール格納部に格納されたルール、事例格納部に格納された事例および推論条件入力部から入力された推論条件を、論理ベクトル変換部が、各々、論理ベクトルである、ルールベクトル、事例ベクトルおよび条件ベクトルに変換する。不確定要素付加部がルールベクトルおよび事例ベクトルに不確定要素を付加し、それぞれ不確定ルールベクトルおよび不確定事例ベクトルとする。また、結果ベクトル演算部が不確定ルールベクトル、不確定事例ベクトルおよび条件ベクトルの論理積を結果ベクトルとする。論理命題変換部が結果ベクトルを不確定論理命題に変換する。不確定要素除去部が不確定論理命題から不確定要素を除去して確定論理命題とする。論理命題出力部が確定論理命題を出力する。
【0007】
これにより、推論効率の優れた知識獲得の負担が少ない推論を行うことができる。
第3の従来例は、事例を複数部分に分割して類似度検索が可能である。ベクトル分割部とサブベクトル類似度計算部が関連。サブベクトル化表現に伴う付加操作が可能である。また、漸増的にシステムの性能向上を行なっていくときに使う変更モニター機能および変更比較機能を実現している。
【0008】
これにより、事例ベース推論システム構築に必要な作成環境の必須機能を提供することができる。
【0009】
【発明が解決しようとする課題】
このように、第1の従来例にあっては、単語使用パターンの時間的変化を示す特徴データに基づいて検索を行うようになっているため、例えば、ユーザが入力した検索単語の使用頻度が高い文書データを抽出することができる。しかしながら、重複する内容が比較的多い文書データ群のなかで特徴のある部分を抽出しようとする場合、特徴のある部分に特定の単語が多数使用されていれば抽出も可能であるが、特定の単語が必ずしも多数使用されているとは限らない。したがって、特徴のある部分を抽出することには不向きであり、上記業務日誌の例にみるように、膨大な情報のなかから効率的に情報を得ることは難しい。
【0010】
また、第2の従来例を文書データの検索に応用した場合、専門家が構築したルールに基づいて検索を行うことになる。しかしながら、抽出の確実性を向上するには、専門家が構築したルールを多数蓄積することが必要であるが、一般に知識DBのルール蓄積は容易でない。さらに、ルール蓄積には時間を要するので、ユーザの要求に即応することが困難である。
【0011】
また、第3の従来例にあっては、事例属性ベクトルのみでは事例の特徴が平均化され、潜在的な適合事例を見逃してしまうところ、サブベクトルを利用して部分的な特徴を比較することで潜在的な適合事例を発見可能にしている。しかしながら、これは、あくまで事例の検索を高精度に行うことを追求した技術であって、重複する内容が比較的多い文書データ群のなかで特徴のある部分を抽出することには不向きであり、同様に、上記業務日誌の例にみるように、膨大な情報のなかから効率的に情報を得ることは難しい。
【0012】
これらのことは、上記業務日誌の例にみるような文書データの検索に限らず、膨大な情報のなかから効率的に情報を得ようとするあらゆる場合に想定される問題である。例えば、画像データ、音楽データその他のデータを管理するときにも起こり得るであろう。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、膨大なデータのなかから特徴のある部分を把握するのに好適であり、しかも抽出の確実性を向上するのが容易でかつユーザの要求に即応することができるデータ管理装置、文書データ検索装置、データ管理プログラムおよび文書データ検索プログラム、並びにデータ管理方法および文書データ検索方法を提供することを目的としている。
【0013】
【課題を解決するための手段】
〔発明1〕
上記目的を達成するために、発明1のデータ管理装置は、
複数のデータを管理する装置であって、
前記データの内容について類似度を示す特徴データを前記複数のデータから抽出する特徴データ抽出手段と、前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段とを備えることを特徴とする。
【0014】
このような構成であれば、特徴データ抽出手段により、データの内容について類似度を示す特徴データが複数のデータから抽出され、変化点特定手段により、抽出された特徴データに基づいて類似度の変化点が特定される。したがって、ユーザは、特定された変化点を参照することにより、膨大なデータのなかから特徴のある部分を比較的容易に把握することができる。
〔発明2〕
さらに、発明2のデータ管理装置は、発明1のデータ管理装置において、
前記データは、文書データであることを特徴とする。
【0015】
このような構成であれば、特徴データ抽出手段により、文書データの内容について類似度を示す特徴データが複数の文書データから抽出され、変化点特定手段により、抽出された特徴データに基づいて類似度の変化点が特定される。したがって、ユーザは、特定された変化点を参照することにより、膨大な文書データのなかから特徴のある部分を比較的容易に把握することができる。
〔発明3〕
一方、上記目的を達成するために、発明3の文書データ検索装置は、
作成日時または更新日時が異なる複数の文書データのなかから検索を行う装置であって、
前記複数の文書データを記憶するための文書データ記憶手段と、前記文書データの内容について類似度の時間的推移を示す特徴データを前記文書データ記憶手段の文書データから抽出する特徴データ抽出手段と、前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段と、前記変化点特定手段で特定した変化点をもとに前記文書データ記憶手段のなかから前記文書データを検索する文書データ検索手段とを備えることを特徴とする。
【0016】
このような構成であれば、特徴データ抽出手段により、文書データの内容について類似度の時間的推移を示す特徴データが文書データ記憶手段の文書データから抽出され、変化点特定手段により、抽出された特徴データに基づいて類似度の変化点が特定される。そして、文書データ検索手段により、特定された変化点をもとに文書データ記憶手段のなかから文書データが検索される。
【0017】
ここで、文書データ記憶手段は、文書データをあらゆる手段でかつあらゆる時期に記憶するものであり、文書データをあらかじめ記憶してあるものであってもよいし、文書データをあらかじめ記憶することなく、本装置の動作時に外部からの入力等によって文書データを記憶するようになっていてもよい。以下、発明13の文書データ検索プログラムにおいて同じである。
〔発明4〕
さらに、発明4の文書データ検索装置は、発明3の文書データ検索装置において、
前記文書データ検索手段は、前記変化点特定手段で特定した変化点またはその付近に属する文書データを前記文書データ記憶手段のなかから検索するようになっていることを特徴とする。
【0018】
このような構成であれば、文書データ検索手段により、特定された変化点またはその付近に属する文書データが文書データ記憶手段のなかから検索される。
〔発明5〕
さらに、発明5の文書データ検索装置は、発明3および4のいずれかの文書データ検索装置において、
前記変化点特定手段は、前記特徴データ抽出手段で抽出した特徴データに基づいて許容範囲を設定し、前記類似度の時間的推移のなかで前記許容範囲を超える点を前記変化点として特定するようになっていることを特徴とする。
【0019】
このような構成であれば、変化点特定手段により、抽出された特徴データに基づいて許容範囲が設定され、類似度の時間的推移のなかで許容範囲を超える点が変化点として特定される。
〔発明6〕
さらに、発明6の文書データ検索装置は、発明3ないし5のいずれかの文書データ検索装置において、
前記特徴データ抽出手段は、前記文書データ記憶手段の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、時系列上で隣接する期間文書データについて前記類似度を算出し、算出した類似度に基づいて前記特徴データを生成するようになっていることを特徴とする。
【0020】
このような構成であれば、特徴データ抽出手段により、文書データ記憶手段の文書データが所定期間ごとに区分され、各区分ごとに期間文書データが生成される。期間文書データは、一つの区分に属する文書データの内容を併合したものとして生成される。そして、時系列上で隣接する期間文書データについて類似度が算出され、算出された類似度に基づいて特徴データが生成される。
〔発明7〕
さらに、発明7の文書データ検索装置は、発明3ないし5のいずれかの文書データ検索装置において、
前記特徴データ抽出手段は、前記文書データ記憶手段の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、生成した期間文書データの相互について前記類似度を算出し、算出した類似度に基づいて前記特徴データを生成するようになっていることを特徴とする。
【0021】
このような構成であれば、特徴データ抽出手段により、文書データ記憶手段の文書データが所定期間ごとに区分され、各区分ごとに期間文書データが生成される。期間文書データは、一つの区分に属する文書データの内容を併合したものとして生成される。そして、生成された期間文書データの相互について類似度が算出され、算出された類似度に基づいて特徴データが生成される。
〔発明8〕
さらに、発明8の文書データ検索装置は、発明6および7のいずれかの文書データ検索装置において、
前記特徴データ抽出手段は、前記期間文書データの内容的な特徴を示す文書ベクトルを算出し、算出した文書ベクトルを比較することにより前記類似度を算出するようになっていることを特徴とする。
【0022】
このような構成であれば、特徴データ抽出手段により、期間文書データの内容的な特徴を示す文書ベクトルが算出され、算出された文書ベクトルが比較されることにより類似度が算出される。
〔発明9〕
さらに、発明9の文書データ検索装置は、発明8の文書データ検索装置において、
前記特徴データ抽出手段は、前記期間文書データを形態素解析し、各形態素ごとに前記期間文書データにおけるその形態素の出現頻度に応じた要素をベクトル量として有するベクトルを前記文書ベクトルとして生成するようになっていることを特徴とする。
【0023】
このような構成であれば、特徴データ抽出手段により、期間文書データが形態素解析され、各形態素ごとに期間文書データにおけるその形態素の出現頻度に応じた要素をベクトル量として有するベクトルが文書ベクトルとして生成される。比較対象となる期間文書データの間で共通しない形態素がいずれかの文書データに出現する場合は、いずれかの文書データに特徴のある部分が含まれている可能性が高い。したがって、このように、期間文書データにおける形態素の出現頻度に応じて類似度を算出することは、膨大な文書データのなかから特徴のある部分を検索するのに有効である。
〔発明10〕
さらに、発明10の文書データ検索装置は、発明6ないし9のいずれかの文書データ検索装置において、
前記特徴データ抽出手段は、前記各期間文書データに共通する内容を前記各期間文書データから除去し、除去を行った期間文書データに基づいて前記類似度を算出するようになっていることを特徴とする。
【0024】
このような構成であれば、特徴データ抽出手段により、各期間文書データに共通する内容が各期間文書データから除去され、除去が行われた期間文書データに基づいて類似度が算出される。
〔発明11〕
一方、上記目的を達成するために、発明11のデータ管理プログラムは、
複数のデータを管理するプログラムであって、
前記データの内容について類似度を示す特徴データを前記複数のデータから抽出する特徴データ抽出手段、および前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする。
【0025】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明1のデータ管理装置と同等の作用が得られる。
〔発明12〕
さらに、発明12のデータ管理プログラムは、発明11のデータ管理プログラムにおいて、
前記データは、文書データであることを特徴とする。
【0026】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明2のデータ管理装置と同等の作用が得られる。
〔発明13〕
一方、上記目的を達成するために、発明13の文書データ検索プログラムは、作成日時または更新日時が異なる複数の文書データのなかから検索を行うプログラムであって、
前記複数の文書データを記憶するための文書データ記憶手段を利用可能なコンピュータに対して、
前記文書データの内容について類似度の時間的推移を示す特徴データを前記文書データ記憶手段の文書データから抽出する特徴データ抽出手段、前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段、および前記変化点特定手段で特定した変化点をもとに前記文書データ記憶手段のなかから前記文書データを検索する文書データ検索手段として実現される処理を実行させるためのプログラムであることを特徴とする。
【0027】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明3のデータ管理装置と同等の作用が得られる。
〔発明14〕
一方、上記目的を達成するために、発明14のデータ管理方法は、
複数のデータを管理する方法であって、
前記データの内容について類似度を示す特徴データを前記複数のデータから抽出する特徴データ抽出ステップと、前記特徴データ抽出ステップで抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定ステップとを含むことを特徴とする。
〔発明15〕
さらに、発明15のデータ管理方法は、発明14のデータ管理方法において、
前記データは、文書データであることを特徴とする。
〔発明16〕
一方、上記目的を達成するために、発明16の文書データ検索方法は、
作成日時または更新日時が異なる複数の文書データのなかから検索を行う方法であって、
前記複数の文書データを文書データ記憶手段に記憶する文書データ記憶ステップと、前記文書データの内容について類似度の時間的推移を示す特徴データを前記文書データ記憶手段の文書データから抽出する特徴データ抽出ステップと、前記特徴データ抽出ステップで抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定ステップと、前記変化点特定ステップで特定した変化点をもとに前記文書データ記憶手段のなかから前記文書データを検索する文書データ検索ステップとを含むことを特徴とする。
【0028】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。図1ないし図9は、本発明に係るデータ管理装置、文書データ検索装置、データ管理プログラムおよび文書データ検索プログラム、並びにデータ管理方法および文書データ検索方法の実施の形態を示す図である。
【0029】
本実施の形態は、本発明に係るデータ管理装置、文書データ検索装置、データ管理プログラムおよび文書データ検索プログラム、並びにデータ管理方法および文書データ検索方法を、図1に示すように、コンピュータ100により、複数の文書データのなかから特徴のある文書データを検索する場合について適用したものである。
【0030】
まず、本発明を適用するコンピュータ100の構成を図1を参照しながら説明する。図1は、本発明を適用するコンピュータ100の構成を示すブロック図である。
コンピュータ100は、図1に示すように、制御プログラムに基づいて演算およびシステム全体を制御するCPU30と、所定領域にあらかじめCPU30の制御プログラム等を格納しているROM32と、ROM32等から読み出したデータやCPU30の演算過程で必要な演算結果を格納するためのRAM34と、外部装置に対してデータの入出力を媒介するI/F38とで構成されており、これらは、データを転送するための信号線であるバス39で相互にかつデータ授受可能に接続されている。
【0031】
I/F38には、外部装置として、ヒューマンインターフェースとしてデータの入力が可能なキーボードやマウス等からなる入力装置40と、画像信号に基づいて画面を表示する表示装置42と、文書データを格納する文書データ登録DB44とが接続されている。
文書データ登録DB44は、例えば、各社員ごとに業務日誌に関する文書データを格納するものである。したがって、文書データ登録DB44には、作成日時または更新日時が異なる複数の文書データが格納されている。
【0032】
CPU30は、マイクロプロセッシングユニットMPU等からなり、ROM32の所定領域に格納されている所定のプログラムを起動させ、そのプログラムに従って、図2および図6のフローチャートに示す文書ベクトル算出処理および文書データ検索処理をそれぞれ時分割で実行するようになっている。
初めに、文書ベクトル算出処理を図2を参照しながら詳細に説明する。図2は、文書ベクトル算出処理を示すフローチャートである。
【0033】
文書ベクトル算出処理は、文書データの検索に必要な文書ベクトルを算出する処理であって、CPU30において実行されると、図2に示すように、まず、ステップS100に移行するようになっている。
ステップS100では、文書データ登録DB44に新たな文書データが作成されたか否かを判定し、新たな文書データが作成されたと判定したとき(Yes)は、ステップS102に移行する。
【0034】
ステップS102では、基準日時から所定期間(例えば、1ヶ月)に属する文書データを文書データ登録DB44から読み出し、ステップS104に移行して、読み出した文書データの内容を併合した期間文書データを生成する。ステップS104では、例えば、社員が文書データを作成する間隔が1日単位で、上司が文書データをチェックする間隔が1ヶ月単位である場合は、図3(a),(b)に示すように、1月に作成された文書データであれば、それらを作成日時順に並び換えて単純に結合することにより1月分の期間文書データを生成する。また例えば、社員が文書データを作成する間隔が1ヶ月単位で、上司が文書データをチェックする間隔が同様に1ヶ月単位である場合は、図4に示すように、1月に文書データが1つしか作成されていないときは、それをそのまま1月分の期間文書データとし、1月に複数の文書データが作成されているときは、それらを結合することにより1月分の期間文書データを生成する。図3および図4は、期間文書データを生成する場合を示す図である。
【0035】
次いで、ステップS106に移行して、生成した期間文書データを文書データ登録DB44に格納し、ステップS108に移行して、文書データ登録DB44のすべての文書データについて期間文書データの生成が終了したか否かを判定し、期間文書データの生成が終了したと判定したとき(Yes)は、ステップS110に移行する。
【0036】
ステップS110では、すべての期間文書データを形態素解析し、いずれかの期間文書データに出現するすべての種類の形態素を取得し、ステップS112に移行して、先頭の期間文書データを文書データ登録DB44から読み出し、ステップS114に移行して、ステップS110で取得した各形態素ごとに、読み出した期間文書データにおけるその形態素の出現頻度を算出し、ステップS116に移行して、算出した出現頻度に応じた要素をベクトル量として有するベクトルを文書ベクトルとして算出する。ここで、文書ベクトルを算出する方法を図5を参照しながら説明する。図5は、文書ベクトルの構成を示す図である。
【0037】
まず、文書ベクトルは、図5に示すように、下式(1)によりn次元ベクトルとして表現することができる。一般的に、nは、すべての期間文書データを形態素解析したときに得られる重複しない単語数である。そして、各単語の重みWをTFIDF(Term Frequency & Inverse Document Frequency)によって求める。
【0038】
【数1】
TFIDFは、下式(2)により、期間文書データ内での単語の出現頻度(TF:Term Frequency)と、期間文書データ全体でのその単語が使われている期間文書データ数の頻度の逆数(IDF:Inverse Doxument Frequency)の積で求め、数値が大きいほど、その単語が重要であるということを表している。TFは、頻出する単語は重要であるという指標であり、下式(3)に示すように、ある期間文書データに単語が出現する頻度が増加すると大きくなる性質を持っている。IDFは、多くの期間文書データに出現する単語は重要でない、つまり、特定の期間文書データに出現する単語が重要であるという指標であり、下式(4)〜(6)に示すように、ある単語が使われている期間文書データ数が減少すると大きくなる性質を持っている。したがって、TFIDFの値は、頻出するが多くの期間文書データに出現する単語(接続詞、助詞など)や、特定の期間文書データにのみ出現するがその期間文書データでも頻度が小さい単語に対しては小さくなり、逆に、特定の期間文書データに高頻度で出現する単語に対しては大きくなる性質を持っている。TFIDFによって期間文書データ内の単語は数値化され、その数値を要素として期間文書データはベクトル化することができる。
【0039】
【数2】
【0040】
【数3】
【0041】
【数4】
【0042】
【数5】
【0043】
【数6】
次いで、ステップS118に移行して、算出した文書ベクトルを文書データ登録DB44に格納し、ステップS120に移行して、すべての期間文書データについてステップS112〜S118の処理が終了したか否かを判定し、すべての期間文書データについて処理が終了したと判定したとき(Yes)は、一連の処理を終了して元の処理に復帰させる。
【0044】
一方、ステップS120で、すべての期間文書データについてステップS112〜S118の処理が終了していないと判定したとき(No)は、ステップS122に移行して、次の期間文書データを文書データ登録DB44から読み出し、ステップS114に移行する。
一方、ステップS108で、文書データ登録DB44のすべての文書データについて期間文書データの生成が終了しないと判定したとき(No)は、ステップS124に移行して、次の所定期間に属する文書データを文書データ登録DB44から読み出し、ステップS104に移行する。
【0045】
一方、ステップS100で、文書データ登録DB44に新たな文書データが作成されないと判定したとき(No)は、ステップS126に移行して、文書データ登録DB44の文書データが更新されたか否かを判定し、文書データが更新されたと判定したとき(Yes)は、ステップS102に移行するが、そうでないと判定したとき(No)は、ステップS100に移行する。
【0046】
次に、文書データ検索処理を図6を参照しながら詳細に説明する。図6は、文書データ検索処理を示すフローチャートである。
文書データ検索処理は、時系列上で隣接する期間文書データについて類似度の変化点を特定し、特定した変化点に属する文書データを文書データ登録DB44のなかから検索する処理であって、CPU30において実行されると、図6に示すように、まず、ステップS200に移行するようになっている。
【0047】
ステップS200では、ユーザからの検索要求を入力したか否かを判定し、検索要求を入力したと判定したとき(Yes)は、ステップS202に移行するが、そうでないと判定したとき(No)は、検索要求を入力するまでステップS100で待機する。なお、ここでいう検索要求とは、検索キーワードや文章ではなく、検索すべきことをコンピュータ100に要求することである。
【0048】
ステップS202では、先頭の期間文書データの文書ベクトルを文書データ登録DB44から読み出し、ステップS204に移行して、読み出した文書ベクトルに係る期間文書データに時系列上で隣接する期間文書データ(時間的に新しい方に隣接する期間文書データ)の文書ベクトルを文書データ登録DB44から読み出し、ステップS206に移行する。
【0049】
ステップS206では、読み出した2つの文書ベクトルを用いてベクトル演算を行うことによりそれらに係る期間文書データの類似度を算出する。ベクトル演算による類似度の算出は、ベクトル検索技術と呼ばれるものであり、単語の重要度を反映して数値化するTFIDFと、それによってベクトル化した文書の類似度を計算するベクトル空間モデルとで成り立っている。例えば、読み出した2つの文書ベクトルを文書ベクトルD1,D2とした場合、類似度は、下式(7)により、文書ベクトルD1,D2同士がなす角の余弦値(0〜1)として算出することができる。
【0050】
【数7】
次いで、ステップS208に移行して、すべての文書ベクトルについてステップS204,S206の処理が終了したか否かを判定し、すべての文書ベクトルについて処理が終了したと判定したとき(Yes)は、ステップS210に移行する。
【0051】
ステップS210では、ステップS206で算出した1または複数の期間文書データの類似度に基づいて、それら期間文書データの内容について類似度の時間的推移を示す特徴データを生成する。特徴データは、図3の例を対象とした場合、図7に示すように、文書ベクトル同士がなす角の余弦値(0〜1)として生成される。図7は、特徴データを示す図である。
【0052】
次いで、ステップS211に移行して、生成した特徴データに基づいて類似度の変化点を特定する。具体的には、生成した特徴データに基づいて許容範囲を設定し、類似度の時間的推移のなかで許容範囲を超える点を変化点として特定する。例えば、図8に示すように、類似度の平均値および分散から限界線となる2つの水平線を求め、それら限界線で囲まれる領域を許容範囲として設定することができる。この場合、期間文書データPxの類似度がその許容範囲を超えているので、これを変化点として特定する。また例えば、図9に示すように、類似度の平均値および分散から類似度の推移曲線に沿った2つの近似曲線を求め、それら近似曲線で囲まれる領域を許容範囲として設定することもできる。この場合、同様に、期間文書データPxの類似度がその許容範囲を超えているので、これを変化点として特定する。図8および図9は、類似度の時間的推移を示すグラフである。
【0053】
次いで、ステップS212に移行して、特定した変化点またはその付近に属する文書データを文書データ登録DB44のなかから検索する。図3の例において、例えば、10月と11月の間に類似度の変化点が存在した場合は、10月から11月に移行した際に業務内容に変化があったことが分かるので、11月の業務日誌の文書データを若い日付順に検索していけばよい。
【0054】
次いで、ステップS214に移行して、検索により抽出した文書データを類似度の高い順に並び換えて文書データの一覧を生成し、ステップS216に移行して、生成した文書データの一覧を表示装置42に表示し、一連の処理を終了して元の処理に復帰させる。
一方、ステップS208で、すべての文書ベクトルについてステップS204,S206の処理が終了しないと判定したとき(No)は、ステップS218に移行して、次の期間文書データの文書ベクトルを文書データ登録DB44から読み出し、ステップS204に移行する。
【0055】
次に、本実施の形態の動作を説明する。
ある企業等では、社員に業務日誌を提出させることにより業務の進捗状況を管理している。業務日誌による報告は、一人の上司が複数人の部下から提出された業務日誌に一つ一つ目を通してチェックする。各社員は、日々の業務状況を記載した業務日報を文書データとして作成し、作成した文書データをメールに添付して上司に送付するとともに文書データ登録DB44に登録する。
【0056】
初めに、各社員が作成した文書データから文書ベクトルを作成する場合を説明する。
文書データが作成されると、ステップS100〜S106を経て、基準日時から所定期間(例えば、1ヶ月)に属する文書データが文書データ登録DB44から読み出され、読み出された文書データの内容を併合した期間文書データが生成され、生成された期間文書データが文書データ登録DB44に格納される。そして、ステップS102,S104を繰り返し経て、文書データ登録DB44のすべての文書データについて、期間文書データの生成および格納が行われる。
【0057】
すべての文書データについて期間文書データが生成されると、ステップS110を経て、すべての期間文書データが形態素解析され、いずれかの期間文書データに出現するすべての種類の形態素が取得される。次いで、ステップS112〜S118を経て、先頭の期間文書データが文書データ登録DB44から読み出され、取得された各形態素ごとに、読み出された期間文書データにおけるその形態素の出現頻度が算出され、算出された出現頻度に応じた要素をベクトル量として有するベクトルが文書ベクトルとして算出される。そして、ステップS114〜S118を繰り返し経て、すべての期間文書データについて、出現頻度の算出、並びに文書ベクトルの算出および格納が行われる。
【0058】
次に、上司が各社員から送付された文書データをチェックする場合を説明する。
上司は、文書データのチェックを行うに先立って検索要求を入力する。検索要求が入力されると、ステップS200〜S206を経て、先頭の期間文書データの文書ベクトルが文書データ登録DB44から読み出され、読み出された文書ベクトルに係る期間文書データに時系列上で隣接する期間文書データの文書ベクトルが文書データ登録DB44から読み出され、読み出された2つの文書ベクトルを用いてベクトル演算を行うことによりそれらに係る期間文書データの類似度が算出される。そして、ステップS204,S206を繰り返し経て、すべての文書ベクトルについて、隣接の文書ベクトルの読出および類似度の算出が行われる。
【0059】
すべての文書ベクトルについて類似度が算出されると、ステップS210,S211を経て、算出された1または複数の期間文書データの類似度に基づいて、それら期間文書データの内容について類似度の時間的推移を示す特徴データが生成され、生成された特徴データに基づいて類似度の変化点が特定される。次いで、ステップS212を経て、特定された変化点またはその付近に属する文書データが文書データ登録DB44のなかから検索される。その結果、該当の文書データが抽出されると、ステップS214,S216を経て、検索により抽出された文書データが類似度の高い順に並び換えられて文書データの一覧が生成され、生成された文書データの一覧が表示装置42に表示される。
【0060】
表示装置42に検索結果として表示された文書データは、類似度の変化点またはその付近に属する文書データであり、すなわち、業務内容に変化があったと思われる場合の文書データであるため、上司は、すべての文書データに目を通すことが困難な場合は、検索により抽出された文書データから優先的にチェックすればよい。これにより、チェックする業務日誌の量が膨大となった場合であっても、業務の進捗状況を効率的に管理することができる。
【0061】
このようにして、本実施の形態では、文書データの内容について類似度の時間的推移を示す特徴データを文書データ登録DB44の文書データから抽出し、抽出した特徴データに基づいて類似度の変化点を特定し、特定した変化点をもとに文書データ登録DB44のなかから文書データを検索するようになっている。
これにより、ユーザは、検索により抽出された文書データを参照することにより、膨大な文書データのなかから特徴のある部分を比較的容易に把握することができる。また、特徴データを複数の文書データから抽出するので、専門家が構築したルールを蓄積する場合に比して、抽出の確実性を向上するのが容易であり、しかもユーザの要求に比較的即応することができる。
【0062】
さらに、本実施の形態では、特定した変化点またはその付近に属する文書データを文書データ登録DB44のなかから検索するようになっている。
これにより、変化点またはその付近に属する文書データが検索されるので、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができる。
【0063】
さらに、本実施の形態では、抽出した特徴データに基づいて許容範囲を設定し、類似度の時間的推移のなかで許容範囲を超える点を変化点として特定するようになっている。
これにより、変化点の特定を画一的に行うことができるので、変化点の特定が比較的容易となる。
【0064】
さらに、本実施の形態では、文書データ登録DB44の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、時系列上で隣接する期間文書データについて類似度を算出し、算出した類似度に基づいて特徴データを生成するようになっている。
これにより、文書データの関係を時系列上にみたときに、ユーザは、特徴のある部分を比較的容易に把握することができる。
【0065】
さらに、本実施の形態では、期間文書データを形態素解析し、各形態素ごとに期間文書データにおけるその形態素の出現頻度に応じた要素をベクトル量として有するベクトルを文書ベクトルとして生成するようになっている。
これにより、期間文書データにおける形態素の出現頻度に応じて類似度が算出されるので、類似度を比較的実情に即したかたちで算出することができ、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができる。
【0066】
さらに、本実施の形態では、文書ベクトルの角度計算において、上式(7)に示すように、同じ次元同士の重みWが「0」でない部分だけを計算するようにした。
これにより、計算の省略化を図ることができる。
上記実施の形態において、文書データ登録DB44は、発明3、4、6、13または16の文書データ記憶手段に対応し、ステップS210は、発明1、3、5、6、8、9、11若しくは13の特徴データ抽出手段、または発明14若しくは16の特徴データ抽出ステップに対応している。また、ステップS211は、発明1、3ないし5、11若しくは13の変化点特定手段、または発明14若しくは16の変化点特定ステップに対応し、ステップS212は、発明3、4若しくは13の文書データ検索手段、または発明16の文書データ検索ステップに対応している。
【0067】
なお、上記実施の形態においては、文書データ登録DB44の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、時系列上で隣接する期間文書データについて類似度を算出し、算出した類似度に基づいて特徴データを生成するように構成したが、これに限らず、図10に示すように、文書データ登録DB44の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、生成した期間文書データの相互について類似度を算出し、算出した類似度に基づいて特徴データを生成するように構成してもよい。図10は、2次元分析により文書データを検索する場合を説明するための図である。
【0068】
上記実施の形態のように、隣り合う期間同士の比較だけの場合は、緩やかに変化している場合に定常状態に収まる可能性がでてくる。分析方法としては、多少コストがかかるが、図10に示すような2次元分析を行うと、緩やかな変化も検出することが可能となる。もちろん、2次元分析を行うに限らず、この発想を広げて3次元以上の多次元分析を行うこともできる。
【0069】
これにより、所定期間ごとに文書データの関係を相互にみたときに、ユーザは、特徴のある部分を比較的容易に把握することができる。
この場合において、文書データ登録DB44は、発明7の文書データ記憶手段に対応し、ステップS210は、発明7の特徴データ抽出手段に対応している。
【0070】
また、上記実施の形態においては、文書データ登録DB44の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、生成した期間文書データに基づいて類似度を算出するように構成したが、これに限らず、各期間文書データに共通する内容を各期間文書データから除去し、除去を行った期間文書データに基づいて類似度を算出するように構成してもよい。
【0071】
これにより、共通する内容を除去してから類似度が算出されるので、類似度を比較的実情に即したかたちで算出することができ、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができる。
この場合において、ステップS210は、発明10の特徴データ抽出手段に対応している。
【0072】
また、上記実施の形態においては、抽出した特徴データに基づいて許容範囲を設定し、類似度の時間的推移のなかで許容範囲を超える点を変化点として特定するように構成したが、これに限らず、図11に示すように、各期間文書データの文書ベクトルについて多次元ベクトル空間における軌跡を予測して予測範囲を設定し、予測範囲を超える文書ベクトルを変化点として特定するように構成してもよい。図11は、文書ベクトルの軌跡予測により変化点を特定する場合を説明するための図である。
【0073】
また、上記実施の形態において、図2および図6のフローチャートに示す処理を実行するにあたってはいずれも、ROM32にあらかじめ格納されている制御プログラムを実行する場合について説明したが、これに限らず、これらの手順を示したプログラムが記憶された記憶媒体から、そのプログラムをRAM34に読み込んで実行するようにしてもよい。
【0074】
ここで、記憶媒体とは、RAM、ROM等の半導体記憶媒体、FD、HD等の磁気記憶型記憶媒体、CD、CDV、LD、DVD等の光学的読取方式記憶媒体、MO等の磁気記憶型/光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
【0075】
また、上記実施の形態においては、本発明に係るデータ管理装置、文書データ検索装置、データ管理プログラムおよび文書データ検索プログラム、並びにデータ管理方法および文書データ検索方法を、図1に示すように、コンピュータ100により、複数の文書データのなかから特徴のある文書データを検索する場合について適用したが、これに限らず、本発明の主旨を逸脱しない範囲で他の場合にも適用可能である。例えば、インターネットその他のネットワークにおいて、複数の文書データのなかから特徴のある文書データを検索する検索サービスとして適用することもできる。
【0076】
【発明の効果】
以上説明したように、本発明に係る発明1または2のデータ管理装置によれば、ユーザは、特定された変化点を参照することにより、膨大なデータのなかから特徴のある部分を比較的容易に把握することができるという効果が得られる。また、特徴データを複数のデータから抽出するので、専門家が構築したルールを蓄積する場合に比して、抽出の確実性を向上するのが容易であり、しかもユーザの要求に比較的即応することができるという効果も得られる。
【0077】
さらに、本発明に係る発明2のデータ管理装置によれば、ユーザは、特定された変化点を参照することにより、膨大な文書データのなかから特徴のある部分を比較的容易に把握することができるという効果も得られる。
一方、本発明に係る発明3ないし10の文書データ検索装置によれば、ユーザは、検索により抽出された文書データを参照することにより、膨大な文書データのなかから特徴のある部分を比較的容易に把握することができるという効果が得られる。また、特徴データを複数の文書データから抽出するので、専門家が構築したルールを蓄積する場合に比して、抽出の確実性を向上するのが容易であり、しかもユーザの要求に比較的即応することができるという効果も得られる。
【0078】
さらに、本発明に係る発明4の文書データ検索装置によれば、変化点またはその付近に属する文書データが検索されるので、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができるという効果も得られる。
さらに、本発明に係る発明5の文書データ検索装置によれば、変化点の特定を画一的に行うことができるので、変化点の特定が比較的容易となるという効果が得られる。
【0079】
さらに、本発明に係る発明6の文書データ検索装置によれば、文書データの関係を時系列上にみたときに、ユーザは、特徴のある部分を比較的容易に把握することができるという効果も得られる。
さらに、本発明に係る発明7の文書データ検索装置によれば、所定期間ごとに文書データの関係を相互にみたときに、ユーザは、特徴のある部分を比較的容易に把握することができるという効果も得られる。
【0080】
さらに、本発明に係る発明9の文書データ検索装置によれば、期間文書データにおける形態素の出現頻度に応じて類似度が算出されるので、類似度を比較的実情に即したかたちで算出することができ、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができるという効果も得られる。
【0081】
さらに、本発明に係る発明10の文書データ検索装置によれば、共通する内容を除去してから類似度が算出されるので、類似度を比較的実情に即したかたちで算出することができ、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができるという効果も得られる。
一方、本発明に係る発明11または12のデータ管理プログラムによれば、発明1のデータ管理装置と同等の効果が得られる。
【0082】
さらに、本発明に係る発明12のデータ管理プログラムによれば、発明2のデータ管理装置と同等の効果も得られる。
一方、本発明に係る発明13の文書データ検索プログラムによれば、発明3のデータ管理装置と同等の効果が得られる。
一方、本発明に係る発明14または15のデータ管理方法によれば、発明1のデータ管理装置と同等の効果が得られる。
【0083】
さらに、本発明に係る発明15のデータ管理方法によれば、発明2のデータ管理装置と同等の効果も得られる。
一方、本発明に係る発明16の文書データ検索方法によれば、発明3のデータ管理装置と同等の効果が得られる。
【図面の簡単な説明】
【図1】 本発明を適用するコンピュータ100の構成を示すブロック図である。
【図2】 文書ベクトル算出処理を示すフローチャートである。
【図3】 期間文書データを生成する場合を示す図である。
【図4】 期間文書データを生成する場合を示す図である。
【図5】 文書ベクトルの構成を示す図である。
【図6】 文書データ検索処理を示すフローチャートである。
【図7】 特徴データを示す図である。
【図8】 類似度の時間的推移を示すグラフである。
【図9】 類似度の時間的推移を示すグラフである。
【図10】 2次元分析により文書データを検索する場合を説明するための図である。
【図11】 文書ベクトルの軌跡予測により変化点を特定する場合を説明するための図である。
【符号の説明】
100 コンピュータ
30 CPU
32 ROM
34 RAM
38 I/F
40 入力装置
42 表示装置
44 文書データ登録DB
Claims (5)
- 作成日時又は更新日時が異なる複数の文書データのなかから検索を行う文書データ検索装置であって、
前記複数の文書データを記憶するための文書データ記憶手段と、前記文書データの内容について類似度の時間的推移を示す特徴データを前記文書データ記憶手段の文書データから抽出する特徴データ抽出手段と、前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段と、前記変化点特定手段で特定した変化点又はその付近に属する文書データを前記文書データ記憶手段のなかから検索する文書データ検索手段とを備え、
前記特徴データ抽出手段は、前記文書データ記憶手段の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、時系列上で隣接する期間文書データについて前記類似度を算出し、算出した類似度に基づいて前記特徴データを生成することを特徴とする文書データ検索装置。 - 作成日時又は更新日時が異なる複数の文書データのなかから検索を行う文書データ検索装置であって、
前記複数の文書データを記憶するための文書データ記憶手段と、前記文書データの内容について類似度の時間的推移を示す特徴データを前記文書データ記憶手段の文書データから抽出する特徴データ抽出手段と、前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段と、前記変化点特定手段で特定した変化点又はその付近に属する文書データを前記文書データ記憶手段のなかから検索する文書データ検索手段とを備え、
前記特徴データ抽出手段は、前記文書データ記憶手段の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、生成した期間文書データの相互について前記類似度を算出し、算出した類似度に基づいて前記特徴データを生成することを特徴とする文書データ検索装置。 - 請求項1及び2のいずれかにおいて、
前記特徴データ抽出手段は、前記期間文書データの内容的な特徴を示す文書ベクトルを算出し、算出した文書ベクトルを比較することにより前記類似度を算出することを特徴とする文書データ検索装置。 - 請求項3において、
前記特徴データ抽出手段は、前記期間文書データを形態素解析し、各形態素ごとに前記期間文書データにおけるその形態素の出現頻度に応じた要素をベクトル量として有するベクトルを前記文書ベクトルとして生成することを特徴とする文書データ検索装置。 - 請求項1乃至4のいずれかにおいて、
前記特徴データ抽出手段は、前記各期間文書データに共通する内容を前記各期間文書データから除去し、除去を行った期間文書データに基づいて前記類似度を算出することを特徴とする文書データ検索装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002058065A JP4175001B2 (ja) | 2002-03-04 | 2002-03-04 | 文書データ検索装置 |
US10/373,810 US7035861B2 (en) | 2002-03-04 | 2003-02-27 | System and methods for providing data management and document data retrieval |
CN03106807A CN1442801A (zh) | 2002-03-04 | 2003-03-03 | 数据管理以及文件数据检索的装置、方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002058065A JP4175001B2 (ja) | 2002-03-04 | 2002-03-04 | 文書データ検索装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003256448A JP2003256448A (ja) | 2003-09-12 |
JP2003256448A5 JP2003256448A5 (ja) | 2005-09-02 |
JP4175001B2 true JP4175001B2 (ja) | 2008-11-05 |
Family
ID=27800135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002058065A Expired - Fee Related JP4175001B2 (ja) | 2002-03-04 | 2002-03-04 | 文書データ検索装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7035861B2 (ja) |
JP (1) | JP4175001B2 (ja) |
CN (1) | CN1442801A (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7333983B2 (en) * | 2000-02-03 | 2008-02-19 | Hitachi, Ltd. | Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored |
US20050149546A1 (en) * | 2003-11-03 | 2005-07-07 | Prakash Vipul V. | Methods and apparatuses for determining and designating classifications of electronic documents |
US7519565B2 (en) * | 2003-11-03 | 2009-04-14 | Cloudmark, Inc. | Methods and apparatuses for classifying electronic documents |
US9183600B2 (en) | 2013-01-10 | 2015-11-10 | International Business Machines Corporation | Technology prediction |
JP6638260B2 (ja) * | 2015-08-24 | 2020-01-29 | 富士電機株式会社 | 情報提供装置、情報提供方法、及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3525948B2 (ja) | 1994-05-31 | 2004-05-10 | 富士通株式会社 | 情報検索装置 |
JP4025443B2 (ja) * | 1998-12-04 | 2007-12-19 | 富士通株式会社 | 文書データ提供装置及び文書データ提供方法 |
EP1122651B1 (en) * | 2000-02-03 | 2010-05-19 | Hitachi, Ltd. | Method and apparatus for retrieving and delivering documents, and recording media storing a program therefor |
US6895552B1 (en) * | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
-
2002
- 2002-03-04 JP JP2002058065A patent/JP4175001B2/ja not_active Expired - Fee Related
-
2003
- 2003-02-27 US US10/373,810 patent/US7035861B2/en not_active Expired - Fee Related
- 2003-03-03 CN CN03106807A patent/CN1442801A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US7035861B2 (en) | 2006-04-25 |
CN1442801A (zh) | 2003-09-17 |
US20030187845A1 (en) | 2003-10-02 |
JP2003256448A (ja) | 2003-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5284990B2 (ja) | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム | |
US8234279B2 (en) | Streaming text data mining method and apparatus using multidimensional subspaces | |
JP5594145B2 (ja) | 検索装置、検索方法、及びプログラム | |
JP2003288362A (ja) | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 | |
KR101806452B1 (ko) | 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치 | |
Tsai et al. | Big Data Analytics. | |
US20220358379A1 (en) | System, apparatus and method of managing knowledge generated from technical data | |
JP2007219929A (ja) | 感性評価システム及び方法 | |
Rahman et al. | Text classification using the concept of association rule of data mining | |
JP2017097823A (ja) | 分散ネットワークで使用するための検索サーバ、端末装置、及び検索方法 | |
CN116420142A (zh) | 用于在语义地图的生成中重用数据项指纹的方法和系统 | |
Zhang et al. | A multi-level matching method with hybrid similarity for document retrieval | |
JP4175001B2 (ja) | 文書データ検索装置 | |
Kamruzzaman et al. | Text categorization using association rule and naive Bayes classifier | |
Basha et al. | An improved similarity matching based clustering framework for short and sentence level text | |
JP5716966B2 (ja) | データ分析装置、データ分析方法及びプログラム | |
EP4002152A1 (en) | Data tagging and synchronisation system | |
JP6065001B2 (ja) | データ検索装置、データ検索方法およびデータ検索用プログラム | |
Boyack et al. | An improved practical approach to forecasting exceptional growth in research | |
JP2008165572A (ja) | データ分類装置、データ分類プログラム | |
Shi et al. | Feature selection | |
Poyraz | Partial rdf schema retrieval | |
Cheng | A text mining based on refined feature selection to predict sentimental review | |
Belabbess et al. | Combining machine learning and semantics for anomaly detection | |
JP7106924B2 (ja) | クラスタ分析システム、クラスタ分析方法およびクラスタ分析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050225 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050225 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080620 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20080620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080729 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080811 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |