JP4175001B2

JP4175001B2 - 文書データ検索装置

Info

Publication number: JP4175001B2
Application number: JP2002058065A
Authority: JP
Inventors: 直樹萱原
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2002-03-04
Filing date: 2002-03-04
Publication date: 2008-11-05
Anticipated expiration: 2022-03-04
Also published as: US7035861B2; CN1442801A; US20030187845A1; JP2003256448A

Description

【０００１】
【発明の属する技術分野】
本発明は、作成日時または更新日時が異なる複数の文書データのなかから検索を行う装置およびプログラム、並びに方法に係り、特に、膨大なデータのなかから特徴のある部分を把握するのに好適であり、しかも抽出の確実性を向上するのが容易でかつユーザの要求に即応することができるデータ管理装置、文書データ検索装置、データ管理プログラムおよび文書データ検索プログラム、並びにデータ管理方法および文書データ検索方法に関する。
【０００２】
【従来の技術】
企業等では、社員に業務日誌を提出させることにより業務の進捗状況を管理することがある。業務日誌による報告は、多くの場合、一人の上司が複数人の部下から提出された業務日誌に一つ一つ目を通してチェックしている。
しかし、上司も職務上の都合等により、提出されたすべての業務日誌に必ずしも毎日目を通すことはできない。また、仮にすべての業務日誌に目を通していても、制約された時間内においては、把握できる情報量にどうしても限りがある。したがって、チェックする業務日誌の量が膨大となった場合には、業務の進捗状況を効率的に管理することが大変難しくなる。
【０００３】
このような場合、業務の進捗状況を効率的に管理するには、上司は、膨大な業務日誌から効率的に情報を得ることが必要である。そこで、まず、業務日誌の性質について検討してみる。業務日誌は、各社員の毎日の業務報告が主たる内容であるため、同一の社員が提出した業務日誌について作成日時の近い業務日誌同士を比較したときには、内容的に重複する部分が多いはずである。内容的に重複する部分について毎日目を通すのは非効率である。したがって、上司は、内容的に重複する部分については一度だけ把握し、その後の業務日誌については特徴のある部分（すなわち、変化のあった部分）だけを把握するようにすれば、比較的効率よく情報を得ることができる。
【０００４】
この問題の一つの解法として、例えば、業務日誌を文書データとして文書データベース（以下、データベースのことを単にＤＢと略記する。）に蓄積し、文書ＤＢのなかから特徴のある部分だけを検索できるような構成を提案することができる。
従来、複数の文書データのなかから検索を行う技術としては、例えば、特開平7-325832号公報に開示されている単語仕様パターンの時間的変化を利用した検索方法（以下、第１の従来例という。）があった。また、その関連技術としては、例えば、特開平6-324871号公報に開示されている推論装置（以下、第２の従来例という。）、および特開平5-53814号公報に開示されている事例ベース検索システム作成支援装置（以下、第３の従来例という。）があった。
【０００５】
第１の従来例では、特徴データ抽出部は、あらかじめ、テキスト情報から単語使用パターンの時間的変化を表す特徴データを抽出する。ユーザが検索入力を行うと、入力処理部は、ユーザの検索入力を検索処理部で解釈できる表現形式に変換し、検索処理部に送る。検索処理部は、テキスト情報および特徴データを利用して検索を行い、検索結果は、出力処理部に送られユーザに表示される。特徴データとしては、例えば、テキスト情報における単語の出現確率等の各種統計量を用いることができる。
【０００６】
これにより、時系列テキスト情報から抽出された特徴データを利用して、特定の分野・期間において話題となった単語および情報等の検索を可能とし、質の高いトレンド分析・動向分析を容易に行うことができる。
第２の従来例では、ルール格納部に格納されたルール、事例格納部に格納された事例および推論条件入力部から入力された推論条件を、論理ベクトル変換部が、各々、論理ベクトルである、ルールベクトル、事例ベクトルおよび条件ベクトルに変換する。不確定要素付加部がルールベクトルおよび事例ベクトルに不確定要素を付加し、それぞれ不確定ルールベクトルおよび不確定事例ベクトルとする。また、結果ベクトル演算部が不確定ルールベクトル、不確定事例ベクトルおよび条件ベクトルの論理積を結果ベクトルとする。論理命題変換部が結果ベクトルを不確定論理命題に変換する。不確定要素除去部が不確定論理命題から不確定要素を除去して確定論理命題とする。論理命題出力部が確定論理命題を出力する。
【０００７】
これにより、推論効率の優れた知識獲得の負担が少ない推論を行うことができる。
第３の従来例は、事例を複数部分に分割して類似度検索が可能である。ベクトル分割部とサブベクトル類似度計算部が関連。サブベクトル化表現に伴う付加操作が可能である。また、漸増的にシステムの性能向上を行なっていくときに使う変更モニター機能および変更比較機能を実現している。
【０００８】
これにより、事例ベース推論システム構築に必要な作成環境の必須機能を提供することができる。
【０００９】
【発明が解決しようとする課題】
このように、第１の従来例にあっては、単語使用パターンの時間的変化を示す特徴データに基づいて検索を行うようになっているため、例えば、ユーザが入力した検索単語の使用頻度が高い文書データを抽出することができる。しかしながら、重複する内容が比較的多い文書データ群のなかで特徴のある部分を抽出しようとする場合、特徴のある部分に特定の単語が多数使用されていれば抽出も可能であるが、特定の単語が必ずしも多数使用されているとは限らない。したがって、特徴のある部分を抽出することには不向きであり、上記業務日誌の例にみるように、膨大な情報のなかから効率的に情報を得ることは難しい。
【００１０】
また、第２の従来例を文書データの検索に応用した場合、専門家が構築したルールに基づいて検索を行うことになる。しかしながら、抽出の確実性を向上するには、専門家が構築したルールを多数蓄積することが必要であるが、一般に知識ＤＢのルール蓄積は容易でない。さらに、ルール蓄積には時間を要するので、ユーザの要求に即応することが困難である。
【００１１】
また、第３の従来例にあっては、事例属性ベクトルのみでは事例の特徴が平均化され、潜在的な適合事例を見逃してしまうところ、サブベクトルを利用して部分的な特徴を比較することで潜在的な適合事例を発見可能にしている。しかしながら、これは、あくまで事例の検索を高精度に行うことを追求した技術であって、重複する内容が比較的多い文書データ群のなかで特徴のある部分を抽出することには不向きであり、同様に、上記業務日誌の例にみるように、膨大な情報のなかから効率的に情報を得ることは難しい。
【００１２】
これらのことは、上記業務日誌の例にみるような文書データの検索に限らず、膨大な情報のなかから効率的に情報を得ようとするあらゆる場合に想定される問題である。例えば、画像データ、音楽データその他のデータを管理するときにも起こり得るであろう。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、膨大なデータのなかから特徴のある部分を把握するのに好適であり、しかも抽出の確実性を向上するのが容易でかつユーザの要求に即応することができるデータ管理装置、文書データ検索装置、データ管理プログラムおよび文書データ検索プログラム、並びにデータ管理方法および文書データ検索方法を提供することを目的としている。
【００１３】
【課題を解決するための手段】
〔発明１〕
上記目的を達成するために、発明１のデータ管理装置は、
複数のデータを管理する装置であって、
前記データの内容について類似度を示す特徴データを前記複数のデータから抽出する特徴データ抽出手段と、前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段とを備えることを特徴とする。
【００１４】
このような構成であれば、特徴データ抽出手段により、データの内容について類似度を示す特徴データが複数のデータから抽出され、変化点特定手段により、抽出された特徴データに基づいて類似度の変化点が特定される。したがって、ユーザは、特定された変化点を参照することにより、膨大なデータのなかから特徴のある部分を比較的容易に把握することができる。
〔発明２〕
さらに、発明２のデータ管理装置は、発明１のデータ管理装置において、
前記データは、文書データであることを特徴とする。
【００１５】
このような構成であれば、特徴データ抽出手段により、文書データの内容について類似度を示す特徴データが複数の文書データから抽出され、変化点特定手段により、抽出された特徴データに基づいて類似度の変化点が特定される。したがって、ユーザは、特定された変化点を参照することにより、膨大な文書データのなかから特徴のある部分を比較的容易に把握することができる。
〔発明３〕
一方、上記目的を達成するために、発明３の文書データ検索装置は、
作成日時または更新日時が異なる複数の文書データのなかから検索を行う装置であって、
前記複数の文書データを記憶するための文書データ記憶手段と、前記文書データの内容について類似度の時間的推移を示す特徴データを前記文書データ記憶手段の文書データから抽出する特徴データ抽出手段と、前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段と、前記変化点特定手段で特定した変化点をもとに前記文書データ記憶手段のなかから前記文書データを検索する文書データ検索手段とを備えることを特徴とする。
【００１６】
このような構成であれば、特徴データ抽出手段により、文書データの内容について類似度の時間的推移を示す特徴データが文書データ記憶手段の文書データから抽出され、変化点特定手段により、抽出された特徴データに基づいて類似度の変化点が特定される。そして、文書データ検索手段により、特定された変化点をもとに文書データ記憶手段のなかから文書データが検索される。
【００１７】
ここで、文書データ記憶手段は、文書データをあらゆる手段でかつあらゆる時期に記憶するものであり、文書データをあらかじめ記憶してあるものであってもよいし、文書データをあらかじめ記憶することなく、本装置の動作時に外部からの入力等によって文書データを記憶するようになっていてもよい。以下、発明１３の文書データ検索プログラムにおいて同じである。
〔発明４〕
さらに、発明４の文書データ検索装置は、発明３の文書データ検索装置において、
前記文書データ検索手段は、前記変化点特定手段で特定した変化点またはその付近に属する文書データを前記文書データ記憶手段のなかから検索するようになっていることを特徴とする。
【００１８】
このような構成であれば、文書データ検索手段により、特定された変化点またはその付近に属する文書データが文書データ記憶手段のなかから検索される。
〔発明５〕
さらに、発明５の文書データ検索装置は、発明３および４のいずれかの文書データ検索装置において、
前記変化点特定手段は、前記特徴データ抽出手段で抽出した特徴データに基づいて許容範囲を設定し、前記類似度の時間的推移のなかで前記許容範囲を超える点を前記変化点として特定するようになっていることを特徴とする。
【００１９】
このような構成であれば、変化点特定手段により、抽出された特徴データに基づいて許容範囲が設定され、類似度の時間的推移のなかで許容範囲を超える点が変化点として特定される。
〔発明６〕
さらに、発明６の文書データ検索装置は、発明３ないし５のいずれかの文書データ検索装置において、
前記特徴データ抽出手段は、前記文書データ記憶手段の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、時系列上で隣接する期間文書データについて前記類似度を算出し、算出した類似度に基づいて前記特徴データを生成するようになっていることを特徴とする。
【００２０】
このような構成であれば、特徴データ抽出手段により、文書データ記憶手段の文書データが所定期間ごとに区分され、各区分ごとに期間文書データが生成される。期間文書データは、一つの区分に属する文書データの内容を併合したものとして生成される。そして、時系列上で隣接する期間文書データについて類似度が算出され、算出された類似度に基づいて特徴データが生成される。
〔発明７〕
さらに、発明７の文書データ検索装置は、発明３ないし５のいずれかの文書データ検索装置において、
前記特徴データ抽出手段は、前記文書データ記憶手段の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、生成した期間文書データの相互について前記類似度を算出し、算出した類似度に基づいて前記特徴データを生成するようになっていることを特徴とする。
【００２１】
このような構成であれば、特徴データ抽出手段により、文書データ記憶手段の文書データが所定期間ごとに区分され、各区分ごとに期間文書データが生成される。期間文書データは、一つの区分に属する文書データの内容を併合したものとして生成される。そして、生成された期間文書データの相互について類似度が算出され、算出された類似度に基づいて特徴データが生成される。
〔発明８〕
さらに、発明８の文書データ検索装置は、発明６および７のいずれかの文書データ検索装置において、
前記特徴データ抽出手段は、前記期間文書データの内容的な特徴を示す文書ベクトルを算出し、算出した文書ベクトルを比較することにより前記類似度を算出するようになっていることを特徴とする。
【００２２】
このような構成であれば、特徴データ抽出手段により、期間文書データの内容的な特徴を示す文書ベクトルが算出され、算出された文書ベクトルが比較されることにより類似度が算出される。
〔発明９〕
さらに、発明９の文書データ検索装置は、発明８の文書データ検索装置において、
前記特徴データ抽出手段は、前記期間文書データを形態素解析し、各形態素ごとに前記期間文書データにおけるその形態素の出現頻度に応じた要素をベクトル量として有するベクトルを前記文書ベクトルとして生成するようになっていることを特徴とする。
【００２３】
このような構成であれば、特徴データ抽出手段により、期間文書データが形態素解析され、各形態素ごとに期間文書データにおけるその形態素の出現頻度に応じた要素をベクトル量として有するベクトルが文書ベクトルとして生成される。比較対象となる期間文書データの間で共通しない形態素がいずれかの文書データに出現する場合は、いずれかの文書データに特徴のある部分が含まれている可能性が高い。したがって、このように、期間文書データにおける形態素の出現頻度に応じて類似度を算出することは、膨大な文書データのなかから特徴のある部分を検索するのに有効である。
〔発明１０〕
さらに、発明１０の文書データ検索装置は、発明６ないし９のいずれかの文書データ検索装置において、
前記特徴データ抽出手段は、前記各期間文書データに共通する内容を前記各期間文書データから除去し、除去を行った期間文書データに基づいて前記類似度を算出するようになっていることを特徴とする。
【００２４】
このような構成であれば、特徴データ抽出手段により、各期間文書データに共通する内容が各期間文書データから除去され、除去が行われた期間文書データに基づいて類似度が算出される。
〔発明１１〕
一方、上記目的を達成するために、発明１１のデータ管理プログラムは、
複数のデータを管理するプログラムであって、
前記データの内容について類似度を示す特徴データを前記複数のデータから抽出する特徴データ抽出手段、および前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする。
【００２５】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明１のデータ管理装置と同等の作用が得られる。
〔発明１２〕
さらに、発明１２のデータ管理プログラムは、発明１１のデータ管理プログラムにおいて、
前記データは、文書データであることを特徴とする。
【００２６】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明２のデータ管理装置と同等の作用が得られる。
〔発明１３〕
一方、上記目的を達成するために、発明１３の文書データ検索プログラムは、作成日時または更新日時が異なる複数の文書データのなかから検索を行うプログラムであって、
前記複数の文書データを記憶するための文書データ記憶手段を利用可能なコンピュータに対して、
前記文書データの内容について類似度の時間的推移を示す特徴データを前記文書データ記憶手段の文書データから抽出する特徴データ抽出手段、前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段、および前記変化点特定手段で特定した変化点をもとに前記文書データ記憶手段のなかから前記文書データを検索する文書データ検索手段として実現される処理を実行させるためのプログラムであることを特徴とする。
【００２７】
このような構成であれば、コンピュータによってプログラムが読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、発明３のデータ管理装置と同等の作用が得られる。
〔発明１４〕
一方、上記目的を達成するために、発明１４のデータ管理方法は、
複数のデータを管理する方法であって、
前記データの内容について類似度を示す特徴データを前記複数のデータから抽出する特徴データ抽出ステップと、前記特徴データ抽出ステップで抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定ステップとを含むことを特徴とする。
〔発明１５〕
さらに、発明１５のデータ管理方法は、発明１４のデータ管理方法において、
前記データは、文書データであることを特徴とする。
〔発明１６〕
一方、上記目的を達成するために、発明１６の文書データ検索方法は、
作成日時または更新日時が異なる複数の文書データのなかから検索を行う方法であって、
前記複数の文書データを文書データ記憶手段に記憶する文書データ記憶ステップと、前記文書データの内容について類似度の時間的推移を示す特徴データを前記文書データ記憶手段の文書データから抽出する特徴データ抽出ステップと、前記特徴データ抽出ステップで抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定ステップと、前記変化点特定ステップで特定した変化点をもとに前記文書データ記憶手段のなかから前記文書データを検索する文書データ検索ステップとを含むことを特徴とする。
【００２８】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。図１ないし図９は、本発明に係るデータ管理装置、文書データ検索装置、データ管理プログラムおよび文書データ検索プログラム、並びにデータ管理方法および文書データ検索方法の実施の形態を示す図である。
【００２９】
本実施の形態は、本発明に係るデータ管理装置、文書データ検索装置、データ管理プログラムおよび文書データ検索プログラム、並びにデータ管理方法および文書データ検索方法を、図１に示すように、コンピュータ１００により、複数の文書データのなかから特徴のある文書データを検索する場合について適用したものである。
【００３０】
まず、本発明を適用するコンピュータ１００の構成を図１を参照しながら説明する。図１は、本発明を適用するコンピュータ１００の構成を示すブロック図である。
コンピュータ１００は、図１に示すように、制御プログラムに基づいて演算およびシステム全体を制御するＣＰＵ３０と、所定領域にあらかじめＣＰＵ３０の制御プログラム等を格納しているＲＯＭ３２と、ＲＯＭ３２等から読み出したデータやＣＰＵ３０の演算過程で必要な演算結果を格納するためのＲＡＭ３４と、外部装置に対してデータの入出力を媒介するＩ／Ｆ３８とで構成されており、これらは、データを転送するための信号線であるバス３９で相互にかつデータ授受可能に接続されている。
【００３１】
Ｉ／Ｆ３８には、外部装置として、ヒューマンインターフェースとしてデータの入力が可能なキーボードやマウス等からなる入力装置４０と、画像信号に基づいて画面を表示する表示装置４２と、文書データを格納する文書データ登録ＤＢ４４とが接続されている。
文書データ登録ＤＢ４４は、例えば、各社員ごとに業務日誌に関する文書データを格納するものである。したがって、文書データ登録ＤＢ４４には、作成日時または更新日時が異なる複数の文書データが格納されている。
【００３２】
ＣＰＵ３０は、マイクロプロセッシングユニットＭＰＵ等からなり、ＲＯＭ３２の所定領域に格納されている所定のプログラムを起動させ、そのプログラムに従って、図２および図６のフローチャートに示す文書ベクトル算出処理および文書データ検索処理をそれぞれ時分割で実行するようになっている。
初めに、文書ベクトル算出処理を図２を参照しながら詳細に説明する。図２は、文書ベクトル算出処理を示すフローチャートである。
【００３３】
文書ベクトル算出処理は、文書データの検索に必要な文書ベクトルを算出する処理であって、ＣＰＵ３０において実行されると、図２に示すように、まず、ステップＳ１００に移行するようになっている。
ステップＳ１００では、文書データ登録ＤＢ４４に新たな文書データが作成されたか否かを判定し、新たな文書データが作成されたと判定したとき(Yes)は、ステップＳ１０２に移行する。
【００３４】
ステップＳ１０２では、基準日時から所定期間（例えば、１ヶ月）に属する文書データを文書データ登録ＤＢ４４から読み出し、ステップＳ１０４に移行して、読み出した文書データの内容を併合した期間文書データを生成する。ステップＳ１０４では、例えば、社員が文書データを作成する間隔が１日単位で、上司が文書データをチェックする間隔が１ヶ月単位である場合は、図３（ａ），（ｂ）に示すように、１月に作成された文書データであれば、それらを作成日時順に並び換えて単純に結合することにより１月分の期間文書データを生成する。また例えば、社員が文書データを作成する間隔が１ヶ月単位で、上司が文書データをチェックする間隔が同様に１ヶ月単位である場合は、図４に示すように、１月に文書データが１つしか作成されていないときは、それをそのまま１月分の期間文書データとし、１月に複数の文書データが作成されているときは、それらを結合することにより１月分の期間文書データを生成する。図３および図４は、期間文書データを生成する場合を示す図である。
【００３５】
次いで、ステップＳ１０６に移行して、生成した期間文書データを文書データ登録ＤＢ４４に格納し、ステップＳ１０８に移行して、文書データ登録ＤＢ４４のすべての文書データについて期間文書データの生成が終了したか否かを判定し、期間文書データの生成が終了したと判定したとき(Yes)は、ステップＳ１１０に移行する。
【００３６】
ステップＳ１１０では、すべての期間文書データを形態素解析し、いずれかの期間文書データに出現するすべての種類の形態素を取得し、ステップＳ１１２に移行して、先頭の期間文書データを文書データ登録ＤＢ４４から読み出し、ステップＳ１１４に移行して、ステップＳ１１０で取得した各形態素ごとに、読み出した期間文書データにおけるその形態素の出現頻度を算出し、ステップＳ１１６に移行して、算出した出現頻度に応じた要素をベクトル量として有するベクトルを文書ベクトルとして算出する。ここで、文書ベクトルを算出する方法を図５を参照しながら説明する。図５は、文書ベクトルの構成を示す図である。
【００３７】
まず、文書ベクトルは、図５に示すように、下式（１）によりｎ次元ベクトルとして表現することができる。一般的に、ｎは、すべての期間文書データを形態素解析したときに得られる重複しない単語数である。そして、各単語の重みＷをＴＦＩＤＦ（Term Frequency & Inverse Document Frequency）によって求める。
【００３８】
【数１】

ＴＦＩＤＦは、下式（２）により、期間文書データ内での単語の出現頻度（ＴＦ：Term Frequency）と、期間文書データ全体でのその単語が使われている期間文書データ数の頻度の逆数（ＩＤＦ：Inverse Doxument Frequency）の積で求め、数値が大きいほど、その単語が重要であるということを表している。ＴＦは、頻出する単語は重要であるという指標であり、下式（３）に示すように、ある期間文書データに単語が出現する頻度が増加すると大きくなる性質を持っている。ＩＤＦは、多くの期間文書データに出現する単語は重要でない、つまり、特定の期間文書データに出現する単語が重要であるという指標であり、下式（４）〜（６）に示すように、ある単語が使われている期間文書データ数が減少すると大きくなる性質を持っている。したがって、ＴＦＩＤＦの値は、頻出するが多くの期間文書データに出現する単語（接続詞、助詞など）や、特定の期間文書データにのみ出現するがその期間文書データでも頻度が小さい単語に対しては小さくなり、逆に、特定の期間文書データに高頻度で出現する単語に対しては大きくなる性質を持っている。ＴＦＩＤＦによって期間文書データ内の単語は数値化され、その数値を要素として期間文書データはベクトル化することができる。
【００３９】
【数２】

【００４０】
【数３】

【００４１】
【数４】

【００４２】
【数５】

【００４３】
【数６】

次いで、ステップＳ１１８に移行して、算出した文書ベクトルを文書データ登録ＤＢ４４に格納し、ステップＳ１２０に移行して、すべての期間文書データについてステップＳ１１２〜Ｓ１１８の処理が終了したか否かを判定し、すべての期間文書データについて処理が終了したと判定したとき(Yes)は、一連の処理を終了して元の処理に復帰させる。
【００４４】
一方、ステップＳ１２０で、すべての期間文書データについてステップＳ１１２〜Ｓ１１８の処理が終了していないと判定したとき(No)は、ステップＳ１２２に移行して、次の期間文書データを文書データ登録ＤＢ４４から読み出し、ステップＳ１１４に移行する。
一方、ステップＳ１０８で、文書データ登録ＤＢ４４のすべての文書データについて期間文書データの生成が終了しないと判定したとき(No)は、ステップＳ１２４に移行して、次の所定期間に属する文書データを文書データ登録ＤＢ４４から読み出し、ステップＳ１０４に移行する。
【００４５】
一方、ステップＳ１００で、文書データ登録ＤＢ４４に新たな文書データが作成されないと判定したとき(No)は、ステップＳ１２６に移行して、文書データ登録ＤＢ４４の文書データが更新されたか否かを判定し、文書データが更新されたと判定したとき(Yes)は、ステップＳ１０２に移行するが、そうでないと判定したとき(No)は、ステップＳ１００に移行する。
【００４６】
次に、文書データ検索処理を図６を参照しながら詳細に説明する。図６は、文書データ検索処理を示すフローチャートである。
文書データ検索処理は、時系列上で隣接する期間文書データについて類似度の変化点を特定し、特定した変化点に属する文書データを文書データ登録ＤＢ４４のなかから検索する処理であって、ＣＰＵ３０において実行されると、図６に示すように、まず、ステップＳ２００に移行するようになっている。
【００４７】
ステップＳ２００では、ユーザからの検索要求を入力したか否かを判定し、検索要求を入力したと判定したとき(Yes)は、ステップＳ２０２に移行するが、そうでないと判定したとき(No)は、検索要求を入力するまでステップＳ１００で待機する。なお、ここでいう検索要求とは、検索キーワードや文章ではなく、検索すべきことをコンピュータ１００に要求することである。
【００４８】
ステップＳ２０２では、先頭の期間文書データの文書ベクトルを文書データ登録ＤＢ４４から読み出し、ステップＳ２０４に移行して、読み出した文書ベクトルに係る期間文書データに時系列上で隣接する期間文書データ（時間的に新しい方に隣接する期間文書データ）の文書ベクトルを文書データ登録ＤＢ４４から読み出し、ステップＳ２０６に移行する。
【００４９】
ステップＳ２０６では、読み出した２つの文書ベクトルを用いてベクトル演算を行うことによりそれらに係る期間文書データの類似度を算出する。ベクトル演算による類似度の算出は、ベクトル検索技術と呼ばれるものであり、単語の重要度を反映して数値化するＴＦＩＤＦと、それによってベクトル化した文書の類似度を計算するベクトル空間モデルとで成り立っている。例えば、読み出した２つの文書ベクトルを文書ベクトルＤ₁，Ｄ₂とした場合、類似度は、下式（７）により、文書ベクトルＤ₁，Ｄ₂同士がなす角の余弦値（０〜１）として算出することができる。
【００５０】
【数７】

次いで、ステップＳ２０８に移行して、すべての文書ベクトルについてステップＳ２０４，Ｓ２０６の処理が終了したか否かを判定し、すべての文書ベクトルについて処理が終了したと判定したとき(Yes)は、ステップＳ２１０に移行する。
【００５１】
ステップＳ２１０では、ステップＳ２０６で算出した１または複数の期間文書データの類似度に基づいて、それら期間文書データの内容について類似度の時間的推移を示す特徴データを生成する。特徴データは、図３の例を対象とした場合、図７に示すように、文書ベクトル同士がなす角の余弦値（０〜１）として生成される。図７は、特徴データを示す図である。
【００５２】
次いで、ステップＳ２１１に移行して、生成した特徴データに基づいて類似度の変化点を特定する。具体的には、生成した特徴データに基づいて許容範囲を設定し、類似度の時間的推移のなかで許容範囲を超える点を変化点として特定する。例えば、図８に示すように、類似度の平均値および分散から限界線となる２つの水平線を求め、それら限界線で囲まれる領域を許容範囲として設定することができる。この場合、期間文書データＰ_xの類似度がその許容範囲を超えているので、これを変化点として特定する。また例えば、図９に示すように、類似度の平均値および分散から類似度の推移曲線に沿った２つの近似曲線を求め、それら近似曲線で囲まれる領域を許容範囲として設定することもできる。この場合、同様に、期間文書データＰ_xの類似度がその許容範囲を超えているので、これを変化点として特定する。図８および図９は、類似度の時間的推移を示すグラフである。
【００５３】
次いで、ステップＳ２１２に移行して、特定した変化点またはその付近に属する文書データを文書データ登録ＤＢ４４のなかから検索する。図３の例において、例えば、１０月と１１月の間に類似度の変化点が存在した場合は、１０月から１１月に移行した際に業務内容に変化があったことが分かるので、１１月の業務日誌の文書データを若い日付順に検索していけばよい。
【００５４】
次いで、ステップＳ２１４に移行して、検索により抽出した文書データを類似度の高い順に並び換えて文書データの一覧を生成し、ステップＳ２１６に移行して、生成した文書データの一覧を表示装置４２に表示し、一連の処理を終了して元の処理に復帰させる。
一方、ステップＳ２０８で、すべての文書ベクトルについてステップＳ２０４，Ｓ２０６の処理が終了しないと判定したとき(No)は、ステップＳ２１８に移行して、次の期間文書データの文書ベクトルを文書データ登録ＤＢ４４から読み出し、ステップＳ２０４に移行する。
【００５５】
次に、本実施の形態の動作を説明する。
ある企業等では、社員に業務日誌を提出させることにより業務の進捗状況を管理している。業務日誌による報告は、一人の上司が複数人の部下から提出された業務日誌に一つ一つ目を通してチェックする。各社員は、日々の業務状況を記載した業務日報を文書データとして作成し、作成した文書データをメールに添付して上司に送付するとともに文書データ登録ＤＢ４４に登録する。
【００５６】
初めに、各社員が作成した文書データから文書ベクトルを作成する場合を説明する。
文書データが作成されると、ステップＳ１００〜Ｓ１０６を経て、基準日時から所定期間（例えば、１ヶ月）に属する文書データが文書データ登録ＤＢ４４から読み出され、読み出された文書データの内容を併合した期間文書データが生成され、生成された期間文書データが文書データ登録ＤＢ４４に格納される。そして、ステップＳ１０２，Ｓ１０４を繰り返し経て、文書データ登録ＤＢ４４のすべての文書データについて、期間文書データの生成および格納が行われる。
【００５７】
すべての文書データについて期間文書データが生成されると、ステップＳ１１０を経て、すべての期間文書データが形態素解析され、いずれかの期間文書データに出現するすべての種類の形態素が取得される。次いで、ステップＳ１１２〜Ｓ１１８を経て、先頭の期間文書データが文書データ登録ＤＢ４４から読み出され、取得された各形態素ごとに、読み出された期間文書データにおけるその形態素の出現頻度が算出され、算出された出現頻度に応じた要素をベクトル量として有するベクトルが文書ベクトルとして算出される。そして、ステップＳ１１４〜Ｓ１１８を繰り返し経て、すべての期間文書データについて、出現頻度の算出、並びに文書ベクトルの算出および格納が行われる。
【００５８】
次に、上司が各社員から送付された文書データをチェックする場合を説明する。
上司は、文書データのチェックを行うに先立って検索要求を入力する。検索要求が入力されると、ステップＳ２００〜Ｓ２０６を経て、先頭の期間文書データの文書ベクトルが文書データ登録ＤＢ４４から読み出され、読み出された文書ベクトルに係る期間文書データに時系列上で隣接する期間文書データの文書ベクトルが文書データ登録ＤＢ４４から読み出され、読み出された２つの文書ベクトルを用いてベクトル演算を行うことによりそれらに係る期間文書データの類似度が算出される。そして、ステップＳ２０４，Ｓ２０６を繰り返し経て、すべての文書ベクトルについて、隣接の文書ベクトルの読出および類似度の算出が行われる。
【００５９】
すべての文書ベクトルについて類似度が算出されると、ステップＳ２１０，Ｓ２１１を経て、算出された１または複数の期間文書データの類似度に基づいて、それら期間文書データの内容について類似度の時間的推移を示す特徴データが生成され、生成された特徴データに基づいて類似度の変化点が特定される。次いで、ステップＳ２１２を経て、特定された変化点またはその付近に属する文書データが文書データ登録ＤＢ４４のなかから検索される。その結果、該当の文書データが抽出されると、ステップＳ２１４，Ｓ２１６を経て、検索により抽出された文書データが類似度の高い順に並び換えられて文書データの一覧が生成され、生成された文書データの一覧が表示装置４２に表示される。
【００６０】
表示装置４２に検索結果として表示された文書データは、類似度の変化点またはその付近に属する文書データであり、すなわち、業務内容に変化があったと思われる場合の文書データであるため、上司は、すべての文書データに目を通すことが困難な場合は、検索により抽出された文書データから優先的にチェックすればよい。これにより、チェックする業務日誌の量が膨大となった場合であっても、業務の進捗状況を効率的に管理することができる。
【００６１】
このようにして、本実施の形態では、文書データの内容について類似度の時間的推移を示す特徴データを文書データ登録ＤＢ４４の文書データから抽出し、抽出した特徴データに基づいて類似度の変化点を特定し、特定した変化点をもとに文書データ登録ＤＢ４４のなかから文書データを検索するようになっている。
これにより、ユーザは、検索により抽出された文書データを参照することにより、膨大な文書データのなかから特徴のある部分を比較的容易に把握することができる。また、特徴データを複数の文書データから抽出するので、専門家が構築したルールを蓄積する場合に比して、抽出の確実性を向上するのが容易であり、しかもユーザの要求に比較的即応することができる。
【００６２】
さらに、本実施の形態では、特定した変化点またはその付近に属する文書データを文書データ登録ＤＢ４４のなかから検索するようになっている。
これにより、変化点またはその付近に属する文書データが検索されるので、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができる。
【００６３】
さらに、本実施の形態では、抽出した特徴データに基づいて許容範囲を設定し、類似度の時間的推移のなかで許容範囲を超える点を変化点として特定するようになっている。
これにより、変化点の特定を画一的に行うことができるので、変化点の特定が比較的容易となる。
【００６４】
さらに、本実施の形態では、文書データ登録ＤＢ４４の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、時系列上で隣接する期間文書データについて類似度を算出し、算出した類似度に基づいて特徴データを生成するようになっている。
これにより、文書データの関係を時系列上にみたときに、ユーザは、特徴のある部分を比較的容易に把握することができる。
【００６５】
さらに、本実施の形態では、期間文書データを形態素解析し、各形態素ごとに期間文書データにおけるその形態素の出現頻度に応じた要素をベクトル量として有するベクトルを文書ベクトルとして生成するようになっている。
これにより、期間文書データにおける形態素の出現頻度に応じて類似度が算出されるので、類似度を比較的実情に即したかたちで算出することができ、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができる。
【００６６】
さらに、本実施の形態では、文書ベクトルの角度計算において、上式（７）に示すように、同じ次元同士の重みＷが「０」でない部分だけを計算するようにした。
これにより、計算の省略化を図ることができる。
上記実施の形態において、文書データ登録ＤＢ４４は、発明３、４、６、１３または１６の文書データ記憶手段に対応し、ステップＳ２１０は、発明１、３、５、６、８、９、１１若しくは１３の特徴データ抽出手段、または発明１４若しくは１６の特徴データ抽出ステップに対応している。また、ステップＳ２１１は、発明１、３ないし５、１１若しくは１３の変化点特定手段、または発明１４若しくは１６の変化点特定ステップに対応し、ステップＳ２１２は、発明３、４若しくは１３の文書データ検索手段、または発明１６の文書データ検索ステップに対応している。
【００６７】
なお、上記実施の形態においては、文書データ登録ＤＢ４４の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、時系列上で隣接する期間文書データについて類似度を算出し、算出した類似度に基づいて特徴データを生成するように構成したが、これに限らず、図１０に示すように、文書データ登録ＤＢ４４の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、生成した期間文書データの相互について類似度を算出し、算出した類似度に基づいて特徴データを生成するように構成してもよい。図１０は、２次元分析により文書データを検索する場合を説明するための図である。
【００６８】
上記実施の形態のように、隣り合う期間同士の比較だけの場合は、緩やかに変化している場合に定常状態に収まる可能性がでてくる。分析方法としては、多少コストがかかるが、図１０に示すような２次元分析を行うと、緩やかな変化も検出することが可能となる。もちろん、２次元分析を行うに限らず、この発想を広げて３次元以上の多次元分析を行うこともできる。
【００６９】
これにより、所定期間ごとに文書データの関係を相互にみたときに、ユーザは、特徴のある部分を比較的容易に把握することができる。
この場合において、文書データ登録ＤＢ４４は、発明７の文書データ記憶手段に対応し、ステップＳ２１０は、発明７の特徴データ抽出手段に対応している。
【００７０】
また、上記実施の形態においては、文書データ登録ＤＢ４４の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、生成した期間文書データに基づいて類似度を算出するように構成したが、これに限らず、各期間文書データに共通する内容を各期間文書データから除去し、除去を行った期間文書データに基づいて類似度を算出するように構成してもよい。
【００７１】
これにより、共通する内容を除去してから類似度が算出されるので、類似度を比較的実情に即したかたちで算出することができ、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができる。
この場合において、ステップＳ２１０は、発明１０の特徴データ抽出手段に対応している。
【００７２】
また、上記実施の形態においては、抽出した特徴データに基づいて許容範囲を設定し、類似度の時間的推移のなかで許容範囲を超える点を変化点として特定するように構成したが、これに限らず、図１１に示すように、各期間文書データの文書ベクトルについて多次元ベクトル空間における軌跡を予測して予測範囲を設定し、予測範囲を超える文書ベクトルを変化点として特定するように構成してもよい。図１１は、文書ベクトルの軌跡予測により変化点を特定する場合を説明するための図である。
【００７３】
また、上記実施の形態において、図２および図６のフローチャートに示す処理を実行するにあたってはいずれも、ＲＯＭ３２にあらかじめ格納されている制御プログラムを実行する場合について説明したが、これに限らず、これらの手順を示したプログラムが記憶された記憶媒体から、そのプログラムをＲＡＭ３４に読み込んで実行するようにしてもよい。
【００７４】
ここで、記憶媒体とは、ＲＡＭ、ＲＯＭ等の半導体記憶媒体、ＦＤ、ＨＤ等の磁気記憶型記憶媒体、ＣＤ、ＣＤＶ、ＬＤ、ＤＶＤ等の光学的読取方式記憶媒体、ＭＯ等の磁気記憶型／光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
【００７５】
また、上記実施の形態においては、本発明に係るデータ管理装置、文書データ検索装置、データ管理プログラムおよび文書データ検索プログラム、並びにデータ管理方法および文書データ検索方法を、図１に示すように、コンピュータ１００により、複数の文書データのなかから特徴のある文書データを検索する場合について適用したが、これに限らず、本発明の主旨を逸脱しない範囲で他の場合にも適用可能である。例えば、インターネットその他のネットワークにおいて、複数の文書データのなかから特徴のある文書データを検索する検索サービスとして適用することもできる。
【００７６】
【発明の効果】
以上説明したように、本発明に係る発明１または２のデータ管理装置によれば、ユーザは、特定された変化点を参照することにより、膨大なデータのなかから特徴のある部分を比較的容易に把握することができるという効果が得られる。また、特徴データを複数のデータから抽出するので、専門家が構築したルールを蓄積する場合に比して、抽出の確実性を向上するのが容易であり、しかもユーザの要求に比較的即応することができるという効果も得られる。
【００７７】
さらに、本発明に係る発明２のデータ管理装置によれば、ユーザは、特定された変化点を参照することにより、膨大な文書データのなかから特徴のある部分を比較的容易に把握することができるという効果も得られる。
一方、本発明に係る発明３ないし１０の文書データ検索装置によれば、ユーザは、検索により抽出された文書データを参照することにより、膨大な文書データのなかから特徴のある部分を比較的容易に把握することができるという効果が得られる。また、特徴データを複数の文書データから抽出するので、専門家が構築したルールを蓄積する場合に比して、抽出の確実性を向上するのが容易であり、しかもユーザの要求に比較的即応することができるという効果も得られる。
【００７８】
さらに、本発明に係る発明４の文書データ検索装置によれば、変化点またはその付近に属する文書データが検索されるので、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができるという効果も得られる。
さらに、本発明に係る発明５の文書データ検索装置によれば、変化点の特定を画一的に行うことができるので、変化点の特定が比較的容易となるという効果が得られる。
【００７９】
さらに、本発明に係る発明６の文書データ検索装置によれば、文書データの関係を時系列上にみたときに、ユーザは、特徴のある部分を比較的容易に把握することができるという効果も得られる。
さらに、本発明に係る発明７の文書データ検索装置によれば、所定期間ごとに文書データの関係を相互にみたときに、ユーザは、特徴のある部分を比較的容易に把握することができるという効果も得られる。
【００８０】
さらに、本発明に係る発明９の文書データ検索装置によれば、期間文書データにおける形態素の出現頻度に応じて類似度が算出されるので、類似度を比較的実情に即したかたちで算出することができ、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができるという効果も得られる。
【００８１】
さらに、本発明に係る発明１０の文書データ検索装置によれば、共通する内容を除去してから類似度が算出されるので、類似度を比較的実情に即したかたちで算出することができ、ユーザは、膨大な文書データのなかから特徴のある部分をさらに容易に把握することができるという効果も得られる。
一方、本発明に係る発明１１または１２のデータ管理プログラムによれば、発明１のデータ管理装置と同等の効果が得られる。
【００８２】
さらに、本発明に係る発明１２のデータ管理プログラムによれば、発明２のデータ管理装置と同等の効果も得られる。
一方、本発明に係る発明１３の文書データ検索プログラムによれば、発明３のデータ管理装置と同等の効果が得られる。
一方、本発明に係る発明１４または１５のデータ管理方法によれば、発明１のデータ管理装置と同等の効果が得られる。
【００８３】
さらに、本発明に係る発明１５のデータ管理方法によれば、発明２のデータ管理装置と同等の効果も得られる。
一方、本発明に係る発明１６の文書データ検索方法によれば、発明３のデータ管理装置と同等の効果が得られる。
【図面の簡単な説明】
【図１】本発明を適用するコンピュータ１００の構成を示すブロック図である。
【図２】文書ベクトル算出処理を示すフローチャートである。
【図３】期間文書データを生成する場合を示す図である。
【図４】期間文書データを生成する場合を示す図である。
【図５】文書ベクトルの構成を示す図である。
【図６】文書データ検索処理を示すフローチャートである。
【図７】特徴データを示す図である。
【図８】類似度の時間的推移を示すグラフである。
【図９】類似度の時間的推移を示すグラフである。
【図１０】２次元分析により文書データを検索する場合を説明するための図である。
【図１１】文書ベクトルの軌跡予測により変化点を特定する場合を説明するための図である。
【符号の説明】
１００コンピュータ
３０ＣＰＵ
３２ＲＯＭ
３４ＲＡＭ
３８Ｉ／Ｆ
４０入力装置
４２表示装置
４４文書データ登録ＤＢ

Claims

作成日時又は更新日時が異なる複数の文書データのなかから検索を行う文書データ検索装置であって、
前記複数の文書データを記憶するための文書データ記憶手段と、前記文書データの内容について類似度の時間的推移を示す特徴データを前記文書データ記憶手段の文書データから抽出する特徴データ抽出手段と、前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段と、前記変化点特定手段で特定した変化点又はその付近に属する文書データを前記文書データ記憶手段のなかから検索する文書データ検索手段とを備え、
前記特徴データ抽出手段は、前記文書データ記憶手段の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、時系列上で隣接する期間文書データについて前記類似度を算出し、算出した類似度に基づいて前記特徴データを生成することを特徴とする文書データ検索装置。
作成日時又は更新日時が異なる複数の文書データのなかから検索を行う文書データ検索装置であって、
前記複数の文書データを記憶するための文書データ記憶手段と、前記文書データの内容について類似度の時間的推移を示す特徴データを前記文書データ記憶手段の文書データから抽出する特徴データ抽出手段と、前記特徴データ抽出手段で抽出した特徴データに基づいて前記類似度の変化点を特定する変化点特定手段と、前記変化点特定手段で特定した変化点又はその付近に属する文書データを前記文書データ記憶手段のなかから検索する文書データ検索手段とを備え、
前記特徴データ抽出手段は、前記文書データ記憶手段の文書データを所定期間ごとに区分し、各区分ごとにその区分に属する文書データの内容を併合した期間文書データを生成し、生成した期間文書データの相互について前記類似度を算出し、算出した類似度に基づいて前記特徴データを生成することを特徴とする文書データ検索装置。
請求項１及び２のいずれかにおいて、
前記特徴データ抽出手段は、前記期間文書データの内容的な特徴を示す文書ベクトルを算出し、算出した文書ベクトルを比較することにより前記類似度を算出することを特徴とする文書データ検索装置。
請求項３において、
前記特徴データ抽出手段は、前記期間文書データを形態素解析し、各形態素ごとに前記期間文書データにおけるその形態素の出現頻度に応じた要素をベクトル量として有するベクトルを前記文書ベクトルとして生成することを特徴とする文書データ検索装置。
請求項１乃至４のいずれかにおいて、
前記特徴データ抽出手段は、前記各期間文書データに共通する内容を前記各期間文書データから除去し、除去を行った期間文書データに基づいて前記類似度を算出することを特徴とする文書データ検索装置。