WO2007139039A1

WO2007139039A1 - 情報分類装置、情報分類方法、及び情報分類プログラム

Info

Publication number: WO2007139039A1
Application number: PCT/JP2007/060741
Authority: WO
Inventors: Itaru Hosomi
Original assignee: Nec Corporation
Priority date: 2006-05-26
Filing date: 2007-05-21
Publication date: 2007-12-06
Also published as: JP5126541B2; JPWO2007139039A1; US20090148048A1; EP2028598A1; EP2028598A4; US9025890B2

Abstract

　本発明が適用された表レコード推定装置は、入力したデータからテキストデータを抽出し、抽出したテキストデータから表（表データ）の要素となる一連のキーワードを取得する機能を有する表要素列抽出部と、該表要素列抽出部によって取得した個々のキーワードを分類ルール格納部に格納された対応情報に基づいてその種類別にラベル付けする機能を有する表要素ラベル化部と、該表要素ラベル化部によって種類別に付されたラベルの列から１単位レコードを構成するラベル順列を推定し、当該ラベル順列をレコード推定結果として出力する機能を有するラベル出現パタン推定部とを含む。

Description

明細書情報分類装置、情報分類方法、及び情報分類プログラム本発明は、 2 0 0 6年 5月 2 6日に提出された日本国特許出願第 2 0 0 6 - 1 4 6 1 4 8号及び 2 0 0 7年 5月 1 0日に提出された日本国特許出願第 2 0 0 7 - 1 2 5 6 1 2号に基づき、且つ、その優先権の恩恵を主張するものであり、その開示は、参照することによりここにその全体を組み入れる。技術分野

本発明は、潜在的に表形式となりうるキーワード列から個々のレコードを推定する情報分類装置、情報分類方法、及び情報分類プログラムに関する。背景技術

現在の一般的な企業に代表される殆どの組織には、人事情報や顧客情報、財務情報、設備情報などをそれぞれ 1件または複数件まとめて記載した文書が大量に存在する。今般、個人情報保護法の施行や日本版 S O X法（Sarbanes - Oxley ac t) 制定の動きなどにより、それら組織内文書の多くは以前より厳密に洗い出して分類し、管理.保護する必要性が高まってきている。 1個人のみに関する顧客情報や 1部門のみに関する財務情報が記載された文書に比べ、複数の顧客情報や財務情報がまとめて記載された文書は、漏洩や逸失による被害が一般的に大きいため、より重要な文書と考えられる場合が多い。また、顧客情報や財務情報などのような特定種類の情報を多数記載する場合、通常は表形式によって個々の情報が列挙されるため、表形式を用いた文書中から顧客情報や財務情報などを正しく検出できることは、情報管理上重要である。

しかし、表形式を用いた文書を構成する表データの記述方法は、文書ファイルのフォーマットや表の構成の仕方によって千差万別である。例えば、ある文書はマイクロソフト社の E x c e 1というソフトウエアが用いられることによって、 E x c e 1プック形式という専用の表形式で表データが記述される。一方、別のある文書は W e bブラウザで閲覧するために H TM L (Hyper Text Markup Lang uage) 形式という表形式で記述されるため、 H TM L専用のタグを使って表データが記述される。このように、文書中の表データはそれぞれのファイル形式専用の構造情報を用いて記述され、さらに個々の表データによっても要素の構成が異なる。

このため、様々な形式で記述された表データやレコードを文書から検出する従来の手法は、例えば特許文献 1 (特開 2 0 0 3 - 1 5 0 6 2 4号公報）に開示されている。特許文献 1には、 H TM L文書を対象とした場合は T A B L Eタグや T Rタグなどを手掛かりに表データの構造を解析し、同様に前述の E x c e 1などによる文書を対象とした場合はその E X c e 1などのソフトゥヱァ専用の構造解析方法を用いて表データを抽出する手法が開示されている。また、明確な表としての区切り線がなくテキストエディタで要素を列挙したような表データの記述方法もあるが、これは例えば特許文献 2 (特開平 9 _ 2 8 2 2 0 8号公報）に開示されている。特許文献 2には、表データを構成するレコードの先頭や末尾を識別するためのテキストデータのパタンを予め与えておくことで、個々のレコードを識別して表データの要素を抽出する手法が開示されている。

しかし、上記従来の手法は以下に示すような問題点を有する。

第 1の問題点は、様々なファイル形式に対応する表構造解析方法を予め個別に用意しておくことは、ファイル形式の詳細な仕様が公開されていない場合もあるため、一般に容易ではないことである。

第 2の問題点は、ファイルの拡張子が同じであっても文書を作成するソフトゥエアやファイル形式自体のパージョンが異なると、表データなどの構造記述方法が異なってくる場合があるということであり、さらに、将来の新たなファイル形式への対応をその都度行う必要があるということである。

第 3の問題点は、フアイル形式ではなくテキストデータの記述パタンを使つてレコードを検出する従来の方法は、ファイル形式には依存しないものの、予め個々の表データにおけるレコードの記述パタンを全て知っておく必要があるため. 多くの人やシステムによって記述された多種多様な表データを含む文書に当該従来の方法を適用することは困難であるということである。

本発明の例示的な目的は、データのフアイル形式や表データを構成するレコードの識別パタンが予め分からない場合でも、精度良く表データを構成する個々のレコードを推定する情報分類装置、情報分類方法、及び情報分類プログラムを提供することにある。発明の開示

本発明によれば、文字情報を含むデータの構成を解析する情報分類装置が提供される。この情報分類装置は、データの文字情報から所定の文字列を抽出する文字情報抽出部と、抽出した各文字列を、文字列の分類を表すラベルに置き換えることによって、文字列を一連のラベル列に変換するラベル化部と、ラベル列内に繰り返し出現するラベルの出現パタンを推定するラベル出現パタン推定部とを備える。

なお、上記の情報分類装置と、該情報分類装置と通信ネットワークを介して接続され、該通信ネットワークを通じて取得したデータを格納する少なくとも 1つのデータ蓄積部を含む情報分類システムを提供することができる。この場合、前記情報分類装置における前記文字情報抽出部は、前記データ蓄積部に格納された前記データの文字情報から所定の文字列を抽出する。

本発明によればまた、文字情報を含むデータの構成を解析する情報分類方法が提供される。この情報分類方法は、データの文字情報から所定の文字列を抽出し、抽出した各文字列を、文字列の分類を表すラベルに置き換えることによって、文字列を一連のラベル列に変換し、ラベル列内に繰り返し出現するラベルの出現パタンを推定する。

本発明によれば更に、コンピュータに、文字情報を含むデータの構成の解析を実行させるための情報分類プログラムが提供される。この情報分類プログラムは、コンピュータに、データの文字情報から所定の文字列を抽出する文字情報抽出処理と、抽出した各文字列を、文字列の分類を表すラベルに置き換えることによつて、文字列を一連のラベル列に変換するラベル化処理と、ラベル列内に繰り返し出現するラベルの出現パタンを推定するラベル出現パタン推定処理とを実行させる。

以上のような本発明によれば、ラベルの出現パタンに基づいて、文字情報を含むデータの構成を推定できる。つまり、本発明による情報分類装置について言えば、データの文字情報から所定の文字列を抽出する文字情報抽出部と、抽出した各文字列を、文字列の分類を表すラベルに置き換えることによって、文字列を一連のラベル列に変換するラベル化部と、ラベル列内に繰り返し出現するラベルの出現パタンを推定するラベル出現パタン推定部とを含む。これにより、データのファイル形式や表を構成するレコードの識別パタンが予め分からない場合や、個々のレコードの要素が部分的に欠損している不完全な表を対象とする場合や、

1レコードが複数行から構成されている場合においても、ラベルの出現パタンからデータの分類に基づいた構成を精度良く推定することができる。図面の簡単な説明

図 1は、本発明による情報分類装置の第 1の例示的な実施例である、表レコード推定装置の機能構成を示すプロック図である。

図 2は、図 1に示された表レコード推定装置のハードウエア構成を示すブロック図である。

図 3は、図 1に示された表レコード推定装置の動作を示すフローチャートである。

図 4は、図 1に示された表レコード推定装置の第 1の例において入力されるテキストデータに含まれる表データの例を示す説明図である。

図 5は、第 1の例におけるキーヮードの種類別ラベルの例を示す説明図である。図 6は、第 1の例において表データを構成するキーヮード列から置き換えたラベル列から表デ一タのレコード構成を表すラベル列を推定する一連の流れを示した説明図である。

図 7は、第 1の例において最終的なレコード推定結果の出力情報を説明する図である。

図 8は、図 1に示された表レコード推定装置の第 2の例において表データを構成するキーヮード列から置き換えたラベル列から表データのレコード構成を表すラベル列を推定する一連の流れを示した説明図である。

図 9は、図 1に示された表レコード推定装置の第 3の例において入力されるテキストデータに含まれる表データの例を示す説明図である。

図 1 0は、第 3の例におけるキーワードの種類別ラベルの例を示す説明図である。

図 1 1は、本発明の第 2の例示的な実施例において入力されるテキストデータの例を示す説明図である。

図 1 2は、本発明による情報分類装置の第 2の例示的な実施例である、情報角军析装置の構成を示すプロック図である。

図 1 3は、第 2の例示的な実施例におけるキーワード辞書の例を示す説明図である。

図 1 4は、第 2の例示的な実施例における分類ルールの例を示す説明図である。図 1 5は、第 2の例示的な実施例において入力されたテキストデータから抽出されたキーヮード列の例を示す説明図である。

図 1 6は、第 2の例示的な実施例において表データを構成するキーヮード列から置き換えたラベル列から表デ一タのレコード構成を表すラベル列を推定する一連の流れを示した説明図である。

図 1 7は、第 2の例示的な実施例における出力データの例を示す説明図である。図 1 8は、本発明による情報分類装置の第 3の例示的な実施例を示し、本発明による情報分類装置を用いて情報分類システムを構成した場合の構成例を示すブロック図である。

図 1 9は、第 2の例示的な実施例における表レコード推定部及びデータ分類部の別の動作例を示すフローチャートである。

図 2 0は、第 2の例示的な実施例における分類ルールの他の例を示す説明図である。図 2 1は、第 2の例示的な実施例において入力されるテキストデータの例を示す説明図である。

図 2 2は、第 2の例示的な実施例による分類結果の例を示す説明図である。例示的な実施例の説明

[第 1の例示的な実施例]

本発明の第 1の例示的な実施例を、図面を参照して説明する。

(第 1の例示的な実施例の構成）

図 1を参照すると、表レコード推定装置 1 0は、表要素列抽出部（表要素列抽出手段） 1と、表要素ラベル化部（表要素ラベル化手段） 2と、ラベル出現パタン推定部（ラベル出現パタン推定手段） 3と、分類ルール格納部（分類ルール格納手段） 4と、分割基準格納部（分割基準格納手段） 5とを備える。

ここで、表要素列抽出部 1は、データを入力してテキストデータを抽出する機能と、抽出したテキストデータから表（表データ）の要素となる一連のキーヮードを取得する機能を有する。なお、表要素列抽出部 1によってテキストデータを抽出されるデータは、例えば、表形式の文書や実行プログラムファイル等を対象として含んでいてもよく、データの種類に特に制限はない。

すなわち、表要素列抽出部 1は、入力されたデータから抽出したテキストデータを参照することによって、表（表データ）を構成しうる要素集合を当該テキストデータから抽出する機能を有する。

表要素列抽出部 1においてデータからテキストデータを抽出する方法としては、データからレイァゥト情報や表データの S線情報などの表示制御用情報（例えば H TM L文書におけるタグ情報）を取り除くことによってテキストデータを抽出する方法や、 A S C I Iや J I Sなど特定種類の文字コードに合致するバイナリデータを抽出する方法などがある。後者の方法では、対象とするデータはワードプロセッサやテキストエディタなどで作成された文書ファイルに限らず、テキストデータを内部に含みうる実行プログラムファイルなども対象とすることができる。

また、表要素列抽出部 1は、分割基準格納部 5に格納された分割基準に基づいて、抽出したキーヮードが同じ表データを構成するキーヮードであるか否かを判断する。表要素列抽出部 1は上述した文字情報抽出処理を実行するものであり、文字情報抽出手段と呼ばれても良!/、。

表要素ラベル化部 2は、表要素列抽出部 1によって取得した個々のキーヮードを分類ルール格納部 4に格納された対応情報に基づいてその種類別にラベル付けする機能を有する。

すなわち、表要素ラベル化部 2は、テキストデータから抽出された 1つの要素集合について、分類ルール格納部 4に格納された対応情報に基づいて各要素を種類別のラベルに置き換えることにより、当該要素集合を一連のラベル列に変換する機能を有する。表要素ラベル化部 2は上述したラベル化処理を実行するものであり、ラベルィヒ手段と呼ばれても良い。

ラベル出現パタン推定部 3は上述したラベル出現パタン推定処理を実行するものであり、表要素ラベル化部 2によって種類別に付されたラベルの列から 1単位レコードを構成するラベル順列を推定し、当該ラベル順列をレコード推定結果として出力する機能を有する。

すなわち、ラベル出現パタン推定部 3は、得られたラベル列から同一種類のラベルが出現する繰り返しパタンを検出し、 1回の繰り返しパタン分の単位ラベル列を 1単位の情報を表すレコードと判定する機能を有する。

分類ルール格納部 4は、各種のキーヮ一ドとラベルとの対応闋係を示す対応情報（分類ルール）を格納する機能を有する。分類ルール格納部 4は上述した対応情報格納処理を実行するものであり、対応情報格納手段と呼ばれても良レ、。

分割基準格納部 5は、抽出したキーヮードが同じ表データに属するか否かの基準を示す分割基準を格納する機能を有する。

図 2は、表レコード推定装置 1 0のハードウエア構成を示すブロック図である。図 2を参照すると、表レコード推定装置 1 0は、一般的なコンピュータと同様のハードウエア構成によって実現することができる。表レコード推定装置 10は、 CPU (C e n t r a l P r o c e s s i n g Un i t) 1 1、 RAM (R a n d om Ac c e s s M e m o r y) 等のメインメモリであり、データの作業領域やデータの一時退避領域に用いられる主記憶部 1 2を含む。表レコード推定装置 10はまた、液晶ディスプレイ、プリンタやスピーカ等の出力手段（まとめて提示部 13と呼ぶ）、キーボードやマウス、スキャナ等の入力手段（まとめて入力部 14と呼ぶ）を含む。表レコード推定装置 10は更に、周辺機器と接続してデータの送受信を行うインタフェース部 15、 ROM (Re a d On 1 y Memo r y) , 磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置である補助記憶部 16、上記各構成要素を相互に接続するシステムバス 17を備えている。

表レコード推定装置 10は、後述される動作を含む上記各機能を実現するプログラムを糸且み込んだ、、 LS I (L a r g e S c a l e I n t e g r a t i o n) 等のハードウエア部品からなる回路部品を実装して上記機能をハードウエア的に実現することは勿論として、上記した各構成要素の各機能を提供するプログラムを、コンピュータ上の C PU 1 1で実行することにより、ソフトウェア的に実現することができる。

すなわち、 CPUl 1は、補助記憶部 16に格納されているプログラムを、主記憶部 12にロードして実行し、表レコード推定装置 10の動作を制御することにより、上述した各機能をソフトウェア的に実現する。なお、プログラムは、 C PU1 1で読み出し可能な可搬型の記憶媒体に記憶されても良い。

後述される第 2の例示的な実施例や第 3の例示的な実施例における情報解析装置も、表レコード推定装置 10と同様のハードウェア構成を備えることによって、所定の機能をハードウユア的又はソフトウェア的に実現することができる。

(第 1の例示的な実施例の動作）

図 3は、表レコード推定装置 10の動作を説明するためのフローチャートである。

表レコード推定装置 1 0は、図 3に示すような手順で表のレコードを推定する。まず、表要素列抽出部 1が、入力されたデータからテキストデータを抽出し（ステツプ S 1 0 1 ) 、抽出したテキストデータから 1つの表データを構成する一連のキーワード列を、キーワード集合（部分文字列集合）として取得する（ステツプ S 1 0 2 ) 。

ステップ S 1 0 2におけるキーワード列の取得方法としては、例えば表要素列抽出部 1内の記憶部に予め用意した辞書に含まれるキーヮードと合致する文字列がテキストデータ中に見つかれば、その文字列を抽出する方法や、または、テキストデータの形態素解析を行ない、固有名詞のうち氏名や地名など文字情報の種類が特定できるものを全て抽出する方法がある。これらの方法の他にも、正規表現などで定義した一定のパタンに合致する文字列を抽出することで、電話番号やメールアドレス、会社名、学校名、特定の形式を持つ製品名などを取得する方法などがある。

また、 1つの表データを構成する範囲の上記キーワード列の区切りは、例えば、隣り合うキーワード間の距離で判断することができる。すなわち、分割基準として同じ表データに含まれるキーワード間の最大許容距離（容量）を 1 0 0バイトとすると、テキストデータから抽出されたあるキーワードとその次の抽出された別のキーワードとの間の距離がデータ長で 1 0 0パイト以内であれば、表要素列抽出部 1は、分割基準に基づいて、それら 2つのキーワードが同じ表データを構成する 1つのキーヮード集合（ 1つの部分文字列集合）であると判断する。

次に、表要素ラベル化部 2が、ステップ S 1 0 2で得られた 1つの表データを構成するキーヮード列を分類ルール格納部 4に格納された対応情報に基づいてそれぞれ種類別のラベルに置き換える（ステップ S 1 0 3 ) 。

分類ルール格納部 4において、例えば、キーワードの内、氏名は A、住所は B とレヽうように予めキーヮードの種類と対応するラベルを定義しておくと、表要素ラベル化部 2によって山田や鈴木といった名前は Aというラベルに、京都府や名古屋市といった地名は Bというラベルに置き換えられる。このような置換処理を全てのキーワードに適用すると、一連のキーワード列はステップ S 1 0 3においてラベル列となる。次に、表要素ラベル化部 2が、ステップ S 103で得られたラベル列の中で、隣り合うラベルが同じ種類のラベルであった場合、それらを 1つのラベルにまとめる（ステップ S 104) 。例えば、 AABBBCというラベル列はまとめられて AB Cというラベル列になる。

ここで、ステップ S 103で各キーワードをラベルに置き換える際、あるキーヮードを置き換えた場合のラベルが、当該キーヮードの直前のキーヮードの置き換え後のラベルと同じであれば、その当該キーヮードの置き換えた場合のラベルを削除することによって、表要素ラベルィヒ部 2がステップ S 103とステップ S 104を同時に処理できる。

以上のようにして、ステップ S 104によって 2つ以上同じ種類のラベルが連続しないラベル列ができると、ラベル出現パタン推定部 3が、そのラベル列の先頭からラベルを読み込んで（検出して）いき、既に検出したラベルと同一の種類のラベルを 2度目に検出したとき、その直前までの一連のラベルを候補レコードとして記憶する（ステップ S 105) 。例えば、「ABCABDCA ' · ·」というラベル列があった場合、先頭から A、 B、 Cと読み込み、次にまた Aを検出した時点で、その直前までのラベル列「ABC」を最初の候補レコードとする。その後、ラベル出現パタン推定部 3は、 2度目の Aから再ぴ、 Bと読み込むが、ここからはステップ S 105で記憶した候補レコード「ABC」と比較しながら読み込む。例えば、 ABの次に新たなラベル Dを検出すると、候補レコード上でも ABの次にラベル Dを挿入し、新たな候補レコードを「ABDC」として記憶する（ステップ S 106) 。

その後、ラベル出現パタン推定部 3は、例えば、 Dの次に Cを検出し、さらに 3度目の Aを検出すると、ステップ S 1 06で記憶した新たな候補レコード「A BDC」との差異は無いことを理由として、当該新たな候補レコード「ABD C」を上記のようにそのまま後段のステップで利用する。

以降、ラベル出現パタン推定部 3は、同様に最新の候補レコードとステップ S 104によつて得られたラベル列中のラベルを順に比較しながら、候捕レコードを更新していき、ステップ S 104によって得られたラベル列の最後まで読み込んだ結果得られた最新の候補レコードを、その表データのレコード構成を表すラベル列と推定（判定）する（ステップ S 1 0 7 ) 。

(第 1の例示的な実施例の効果）

第 1の例示的な実施例によれば、データのファイル形式や表データを構成するレコードの識別パタンが予め分からない場合でも、表データを構成する個々のレコードについての種類及び構成順序を精度良く推定することができるため、データ中から顧客情報や財務情報などの所定の情報を正しく検出することができる。その理由は、以下の通りである。表レコード推定装置 1 0が、入力されたデータからテキストデータを抽出し、抽出したテキストデータから一連のキーヮードを抽出する。この場合、様々なファイル形式に影響されず、しかも、予め個々の表データにおけるレコードの記述パタンを全て知っておくことを必要としない。そして、多くの人やシステムによって記述された多種多様な表データを含むデータから抽出した一連のキーヮードを、キーヮードの種類に対応付けられたラベルに置き換える。続いて、隣接する同一種類のラベルをまとめることによって生成したラベル列についての同一種類のラベルが繰り返し出現する繰り返しパタンに基づいて、 1回の繰り返しパタン分の単位ラベル列を 1単位の情報を表すレコードと判定する。

(第 1の例示的な実施例の第 1の例）

第 1の例示的な実施例の第 1の例を、図面を参照して説明する。第 1の例は、本発明を上記第 1の例示的な実施例に適用したものであり、第 1の例示的な実施例をより具体的な例によって説明するものである。なお、第 1の例の構成及び動作の概略は上記第 1の例示的な実施例の構成及び動作の概略と同様であるため、重複する部分については適宜省略して説明する。

(第 1の例の動作）

第 1の例において、あるデータ中に図 4に示すような表データ 4 0 1が記述されていたとする。前述の表要素列抽出部 1を用いて、この表データ 4 0 1を構成する文字列をテキストデータとして抽出し、さらに、図 5に示した氏名や地名などいずれかの種類に合致するキーワードを当該テキストデータから抽出する（図 3のステップ S 101〜S 102参照）。

さらに、図 5に示した各種のキーヮードとラベルとの対応関係を示す対応情報 501力例えば氏名であれば、ラベル Aを適用することで、抽出したキーヮード列を前述の表要素ラベルィヒ部 2によりラベル列に置き換える（図 3のステップ S 103参照）。

すなわち、図 4の表データ 401からは、表要素列抽出部 1によって、 2行目から、氏名（山田太郎）、氏名（山田花子）、地名（東京都）、地名（港区）、メーノレアドレス（ t a r o @ s amp 1 e. c om) というキーワード列が抽出され、 3行目から、氏名（田中次郎）、地名（大阪府）、地名（大阪市）、 ±也名

(北区）、電話番号 (06 -XXXX-XXXX) 、メールァドレス（t a n a k a @ a b c . n e t) とレヽぅキーワード列が抽出され、 4行目から、氏名（小林三郎）、氏名（小林良子）、電話番号（XX— XXXX— XXXX) というキ一ワード列が抽出される（図 3のステップ S 102参照）。続いて、図 5に示した対応情報 501に基づいて、表要素ラベル化部 2によって、これがラベル列

{AABB CABBBDCAAD} に置換される（図 3のステップ S 103参

"昭、ヽノ

図 6は、図 3に示したフローチャートに対応させ、表データを構成するキーヮ一ド列から置き換えたラベル列から表データのレコード構成を表すラベル列を推定する一連の流れを示した説明図である。

まず、図 4の表データから表要素列抽出部 1によって抽出されたキーワード列 (図 3のステップ S 102参照）が図 5に示した対応関係に基づいて表要素ラベル化部 2によって初期ラベル列（ステップ S 601) に置き換えられる（図 3のステップ S 1 03参照）。得られた初期ラベル列について、隣り合うラベルで同じ種類のラベルを 1つにまとめると（図 3のステップ S 1 04参照）、ラベル列 {ABCABDCAD} が得られる（ステップ S 602) 。

ラベル出現パタン推定部 3がこのステップ S 602で得られたラベル列 { A B CAB D CAD} を、上記第 1の例示的な実施例で説明した通り、先頭から順に読み込んでゆくと（図 3のステップ S 105参照）、最初の候補レコード「AB C」が得られる（ステップ S 6 0 3 ) 。さらに、上記第 1の例示的な実施例と同様にして（図 3のステップ S 1 0 6参照） 2つめの候補レコード「A B D C」が得られる（ステップ S 6 0 4 ) 。図 6のステップ S 6 0 4では、最初の候補レコード「A B C」に対して、 2つめの候補レコード「A B D C」にはあって最初の候補レコード「A B C」には無いラベル Dに対応する位置に NU L L値を示すァスタリスク「*」を配置している。以降、アスタリスク「*」表記のラベルは実際には存在しないが候捕レコードとの対応上要素が抜けているラベルを表すものとする。

次いで、図 6において、上記第 1の例示的な実施例と同様に、ステップ S 6 0 2で得られたラベル列の左端を先頭として 3度目のラベル Aから順にラベルを読み込むと、 Aの次には Dが検出される。この時の最新の候tレコードは「A B D C」であるため（ステップ S 6 0 4参照）、ラベル出現パタン推定部 3は、 3つめのレコードにラベル B相当の要素が欠如しているものと判断し、そのまま次のラベル Dをラベル列から検出された Dと対応付ける。なお、欠如していると判断されたラベル Bは、図 6において、前述の方針に従いァスタリスク「*」が仮のラベルとして記載されている。また、この例のラベル列は 2度目に検出された D で終了しているため、ラベル出現パタン推定部 3が、最新の候補レコード「A B D C」の最後のラベル Cも 3つめのレコードから欠如しているものと推定（判定）することから、前述の方針に従い図 6においてアスタリスク「*」で表現されている（ステップ S 6 0 5 ) 。

以上のステップにより、ラベル出現パタン推定部 3は、候補レコード「A B D C」を最終的なレコード推定結果とする {ステップ S 6 0 6 (図 3ステップ S 1 0 7参照） } 。

なお、推定結果のレコードは、ラベル出現パタン推定部 3によって、元のラベル列からその要素となるラベルを 1つも漏らすことなく、当該ラベル列を 1っ以上のレコードに分割する。

図 7は、最終的なレコード推定結果の出力情報を説明する図である。

図 7は、ステップ S 6 0 6において最終的なレコード推定結果とされた「A B D C」を、図 5に示した対応情報 5 0 1に基づきキーワードの種類に対応付けて示した出力情報 7 0 1を説明する図である。図 7を参照すると、出力情報 7 0 1 に基づいて表データのレコード構成を推定することができる。

(第 1の例の効果）

第 1の例による表レコード推定装置 1 0の動作にかかる一連の表レコード推定方法においては、テキストデータ上のキーワード列を、対応関係を示す対応情報に基づいてラベル列に 1対 1に置き換えることによって、 1次元のラベル列のみからレコードを推定する。このため、見かけ上の表データがどのような構造になつているかには依存することなく、また、キーワード列内において各種類のキーヮードが出現することもあれば出現しないこともあるような場合であっても、レコードを推定することができる。

第 1の例によれば、例えば、図 4に示した表データが 1行目に {氏名、連名、住所 } を、 2行目に {電話番号、メールアドレス } をそれぞれ記載した 2行 1組のレコード構成であつたとしても、そこから得られるラベル列は図 6のステップ S 6 0 1で得られるラベル列と同じであるため、表データの構造が相違してもレコード推定結果に影響しないという効果を奏する。

(第 1の例示的な実施例の第 2の例）

次に、第 1の例示的な実施例の第 2の例について説明する。第 2の例は、上記第 1の例の変形例であり、構成及び動作の概略が上記第 1の例示的な実施例の構成及び動作の概略と同様であるため、第 1の例と相違する点を中心に説明する。

(第 2の例の動作）

図 8は、図 6の変形例を示し、図 3に示したフローチャートに対応させ、表デ一タを構成するキーワード列から置き換えたラベル列から表データのレコード構成を表すラベル列を推定する一連の流れを示した説明図である。

まず、表要素列抽出部 1によって抽出されたキーワード列が図 5に示した対応関係に基づいて表要素ラベルイ匕部 2によって初期ラベル列に置き換えられ（ステップ S 8 0 1 ) 、得られた初期ラベル列について、隣り合うラベルで同じ種類のラベルを 1つにまとめると、ラベル列 { A B C B D C B D } が得られたとする (ステップ S 802) 。

ラベル出現パタン推定部 3は、ステップ S 802で得られたラベル列 {ABC BDCBD} を、上記第 1の例示的な実施例と同様に、先頭から順に読み込んでゆく。この場合、「A→B→C→B」と検出した時点で、「B」のラベルが「C」のラベルの後、「A」のラベルが検出されることなく再度出現しているため、既に検出したラベルと同一の種類のラベルを 2度目に検出したこととなる。この場合、ラベル出現パタン推定部 3は、その直前までの一連のラベル「AB C」を候補レコードとして記憶する（ステップ S 105参照）。すなわち、ラベル出現パタン推定部 3は、「ABCB」は「ABC」と「B」で異なるレコードに属すると判断し、最初の候補レコードを「ABC」と推定する（ステップ S 8 03) 。

この場合、図 6を参照し、ステップ S 803と同様にすると、ラベル出現パタン推定部 3は、候補レコード「ABDC」を最終的なレコード推定結果とする (ステップ S 804〜ステップ S 806) 。

(第 2の例の効果）

第 2の例による表レコード推定装置 10の動作にかかる一連の表レコード推定方法によれば、例えば、先頭の「A」のような、ラベル列を読み込む際に基準とするラベルがラベル列内の各レコードに常には出現しない場合であっても、第 1 の実施例と同様の効果を達成することができる。

(第 1の例示的な実施例の第 3の例）

第 1の例示的な実施例の第 3の例を、図面を参照して説明する。第 3の例は、第 1の例や第 2の例の変形例であり、入力する表データの構成をより上位の構成又はより下位の構成によって分類するものである。なお、第 3の例は、構成及び動作の概略が上記第 1の例示的な実施例の構成及び動作の概略と同様であるため、第 1の例や第 2の例と相違する点を中心に説明する。

(第 3の例の構成）

図 9は、図 4の変形例を示し、図 9に示す表データ 901は、「住所」について、「住所」のより下位の概念を示す分類として「都道府県」及び「市区町村」を対応付け、「メールアドレス」及ぴ「電話番号」について、「メールァドレス」及ぴ「電話番号」のより上位の概念としての分類である「連絡先」を対応付けたものである。また、図 1 0は、図 5の変形例を示し、図 1 0に示す対応情報 1 0 0 1は、「電話番号」（ラベル D ) 及ぴ「メールアドレス」（ラベル C ) について、「電話番号」（ラベル D) 及ぴ「メールアドレス」（ラベル C ) のより上位の概念としての分類である「連絡先」を示すラベル Xを対応付けたものである。このことは、「連絡先」（ラベル X) について、「連絡先」（ラベル X) のより下位の概念を示す分類として「電話番号」（ラベル D) 及ぴ「メールァドレス」（ラベル C ) を対応付けているともいえる。

(第 3の例の動作）

第 3の例において、図 6のステップ S 6 0 6や図 8のステップ S 8 0 6で示される推定結果「A B D C」は、図 9で示される表データ 9 0 1及ぴ図 1 0で示される対応情報 1 0 0 1に基づいて、「A B X」が最終的なレコード推定結果となる。

(第 3の例の効果）

第 3の例によれば、抽出したキーワードの種類について、抽出した複数のキーヮードの種類をまとめたより上位の概念を示す種類、又は抽出したキーヮードの種類を詳細に分類したより下位の概念を示す種類に階層的に任意に対応付けることができるため、入力したデータの構成を任意の階層によつて推定することができる。

[第 2の例示的な実施例]

本発明の第 2の例示的な実施例は、様々なファイル形式に対応する表構造解析方法を予め個別に用意しておく必要や、厳密に表データに対応するレコードの記述パタン等の体裁を持つ必要などがない。つまり、第 2の例示的な実施例は、図 1 1に示したような自然言語文や語句のリストのみからなるテキストデータ 1 1 0 1からでも、上記第 1の例と同様にレコードを推定できる。これを、以下に説明する。なお、第 2の例示的な実施例のうち、上記第 1の例示的な実施例や第 1 の例と重複する部分については適宜省略して説明する。 (第 2の例示的な実施例の構成）

図 1 2は、本発明による情報分類装置の第 2の例示的な実施例である、情報解析装置の構成を示すプロック図である。

図 1 2を参照すると、情報解析装置 2 0は、第 1の例示的な実施例で説明した表要素列抽出部 1と同様の機能を有する表要素列抽出部（文字情報抽出手段） 1 aと、第 1の例示的な実施例で説明した表要素ラベル化部 2及ぴラベル出現パタン推定部 3から構成される表レコード推定部 2 3とを含む。情報解析装置 2 0はまた、表レコード推定部 2 3によって推定されたレコードから得たキーヮードの種類の列を分類ルール格納部（対応情報格納手段） 4 aに格納されている分類ルールと照合してキーヮード列を分類する機能を有するデータ分類部 2 4とを含む。情報解析装置 2 0は更に、データ分類部 2 4によって分類された前記キーワード列が示す所定の結果を表示する機能を有する結果表示部（結果出力手段） 2 6と、分類ルールを格納する機能を有する分類ルール格納部 4 aと、第 1の例示的な実施例で説明した分割基準格納部 5とを備える。

表要素列抽出部 l aは、データ格納部（データ格納手段） 2 5に格納されている文書等のデータを参照し、参照したデータからテキストデータを抽出する機能を有するテキストデータ抽出部（テキストデータ抽出手段） 2 1を含む。表要素列抽出部 1 aはまた、テキストデータ抽出部 2 1によって抽出されたテキストデータからキーヮード辞書 2 7に格納されているキーヮード情報に基づいてキーヮ一ドを抽出してキーヮード列を生成する機能を有するキーヮード抽出部（キーヮード抽出手段） 2 2を含む。表要素列抽出部 1 aは更に、文書等のデータを格納する機能を有するデータ格納部 2 5と、抽出するキーワードを種類毎に定義付けたキーヮード情報を格納する機能を有するキーヮード辞書 2 7とを備える。キーワード辞書 2 7は抽出情報格納手段と呼ばれても良く、キーワード情報は抽出情報と呼ばれても良い。

キーワード辞書 2 7は、例えば、図 1 3に示すような構成で実現される。すなわち、キーワードの種類別に、氏名であれば "上田" や "加藤" といった名字及ぴ "太郎" や "花子" といった名前（図示せず）がキーワード辞書 2 7に記載され、これらのキーヮードに該当したテキスト文字列がキーワード抽出部 2 2によつてテキストデータから抽出される。

また、分類ルール格納部 4 aは、第 1の例示的な実施例における分類ルール格納部 4に格納されている分類ルルに加えて、例えば、図 1 4に示したような構成を有する分類ルール 1 4 0 1を格納することによって実現される。

図 1 4を参照すると、「自部門連絡先」という分類ルールは、所属に該当するキーワードが "製品開発部" であったレコードのみに合致する。一方、「他部門連絡先」という分類ノレールは、何らかの所属を含む（前述の例ではラベル Eを含む）ことを示す "所属！ = "NU L L " " という条件に加えて、所属に該当するキーワードが "製品開発部" ではないことを示す "所属！ = "製品開発部" " という条件を共に満たした場合のみに合致する。

情報解析装置 2 0は、図 1 4に示したような分類ルール 1 4 0 1に基づいて、抽出されたキーワードをラベルに置き換えることによって、後述する図 1 7に示すような、抽出したキーヮードのより詳細な分類を示す分類付きのレコード件数を表示することができる。

(第 2の例示的な実施例の動作）

情報解析装置 2 0は、まず、データ格納部 2 5に格納されているデータを、テキストデータ抽出部 2 1を用いて参照し、各デタからテキストデータを抽出する。テキストデータ抽出部 2 1におけるテキストデータの抽出方法としては、上述したように、データからレイァゥト情報や表データの S線情報などの表示制御用情報（例えば H TM L文書におけるタグ情報）を取り除くことによってテキストデータを抽出する方法や、 A S C I Iや J I Sなど特定種類の文字コードに合致するバイナリデータを抽出する方法などがある。後者の方法では、対象とするデータはヮードプロセッサやテキストエディタなどで作成された文書フアイルに限らず、テキストデータを内部に含みうる実行プログラムファイルなども対象とすることができる。

次いで、キーワード抽出部 2 2が、テキストデータ抽出部 2 1によって抽出されたテキストデータから、キーワード辞書 2 7に定義した特定種類のキーワードを抽出し、キーワード列を生成する。次いで、表レコード推定部 2 3力第 1の例示的な実施例における図 3などで説明した手順で各キーヮードのラベル化とレコード推定を行う。データ分類部 2 4は、表レコード推定部 2 3によって推定されたレコードから得たキーヮードの種類の列を分類ルール格納部 4 aの分類ルールと照合して所定の組み合わせに適合するものを適合文字情報として選択することによって前記キーヮード列の分類を行い、その結果を結果表示部 2 6で表示する。データ分類部 2 4は上述した文字情報分類処理を実行するものであり、文字情報分類手段と呼ばれても良!、。

第 2の例示的な実施例によれば、図 1 1に示したテキストデータ 1 1 0 1から、図 5に示したキーヮードの種類と対応するラベルの定義（対応関係を示す対応情報 5 0 1 ) に基づいて表要素列抽出部 1 aによってキーワードを抽出すると、図 1 5に示すようなキーヮードのリスト 1 5 0 1が得られる。

図 1 5に示すキーワードのリスト 1 5 0 1では、各行に、テキストデータから抽出したキーワード、当該キーワードの検出位置、当該キーワードと直前のキーワード間の距離をそれぞれこの順で記載している。なお、キーワードの抽出位置は、テキストデータの先頭からのバイト数及ぴキーワードの末尾のバイト数によつて表している。ただし、日本語文字 1文字は 2バイト、英数字記号 1文字は 1 ノィトとする。

ここで、分割基準を 1 0 0バイトとすると、図 1 1に示したテキストデータ 1 1 0 1及び図 1 5に示すキーヮードのリスト 1 5 0 1では、全てのキーヮード間の距離が 1 0 0バイト以下である。このため、表要素列抽出部 1 aは、「山田さん」に関する当該キーワードから「高橋さん」に関する当該キーワードの全てが同じ表データを構成するものとして判断する。

抽出したキーワード列を図 5に示した対応情報 5 0 1に基づいて表レコード推定部 2 3内の表要素ラベルィヒ部 2によってラベル列に置き換えた結果は、図 1 6 のステップ S 1 6 0 1に示されるようになる。ここから、先の例と同様に連続した同じラベルを 1つにまとめ（ステップ S 1 6 0 2 ) 、ラベル列の先頭から候補レコードの推定を開始し (ステップ S 1 6 0 3 ) 、ラベル列の最後まで到達すると（ステップ S I 604) 、最終的なレコード推定結果としてラベル列 {AB D} が得られる（ステップ S 1605) 。

ここで、表レコード推定部 23内のラベル出現パタン推定部 3は、推定した 1 レコード分のラベル列がステップ S 1604に示したような全ラベル列の中に幾つ含まれているかを数えることによって、当該表データが何レコード分の情報を持っているかを計算できる。

情報解析装置 20は、レコード推定結果に基づいて各レコードに実際に含まれているキーヮードのラベル（図 16のステップ S 1604の中で大文字のアルファベットで示したラベル）を分類すると、例えば、図 17に示したような分類結果 1 701を出力することができる。

情報解析装置 20は、入力されたテキストデータが図 1 1のようなものであつた場合、図 1 7の分類結果 1 701の 2行目に示した a b c. d o cのように、合計 6件の連絡先が検出されたという分類結果を出力することができる。

また、図 5に示した対応情報 501のキーワードの種類別ラベルには所属を示すラベル Eを定義している。第 2の例示的な実施例において、図 1 1に示すテキストデータ 1101とは別に入力されたテキストデータから氏名や地名などを示すラベルに加えて所属を示すラベルを含むラベル列（例えば「ABEC」）が得られた場合、情報解析装置 20は、図 1 7に示す分類結果 1701の 3行目や 4 行目のように、各レコード別に「自部門連絡先」や「他部門連絡先」、及び所属を示すラベルを含まない「その他連絡先」などの件数を表示することもできる。なお、上記第 3の例で説明したのと同様に、「自部門連絡先」及び「他部門連絡先」について、「自部門連絡先」及び「他部門連絡先」のより上位の概念としての分類である「連絡先」を対応付けてもよい。すなわち、例えば、「自部門連絡先」にラベル「Y」、「他部門連絡先」にラベル「Ζ」を対応付け、「自部門連絡先」（ラベル Υ) 及ぴ「他部門連絡先」（ラベル Ζ) について、「自部門連絡先」（ラベル Υ) 及び「他部門連絡先」（ラベル Ζ) のより上位の概念としての分類である「連絡先」を示すラベル Xを対応付けてもよい。このことは、上記第 3の例で説明したのと同様に、「連絡先」（ラベル X) について、「連絡先」 (ラベノレ X) のより下位の概念を示す分類として「自部門連絡先」（ラベル Y) 及び「他部門連絡先」（ラベル Z ) を対応付けているともいえる。

また、例えば、分割基準を 4 0バイトとした場合や、テキストデータ内の構成が変化する箇所とした場合などは、図 1 1に示したテキストデータ 1 1 0 1及び図 1 5に示すキーワードのリスト 1 5 0 1は、表要素列抽出部 1 aによって、山田さんに関する当該キーワードから中川さんに関する当該キーワードによって構成される表データと、藤井さんに関する当該キーワードから高橋さんに関する当該キーワードによって構成される表データとに分割される。

(第 2の例示的な実施例の別の動作）

図 1 9を参照して、本発明の第 2の例示的な実施例における、さらに別の動作について説明する。

図 1 9は、図 1 2に示された第 2の例示的な実施例における表レコード推定部 2 3およびデータ分類部 2 4の動作を示すフローチャートである。

図 1 9のフローチャートによれば、図 1、図 3に示した第 1の例示的な実施例における表レコード推定装置 1 0の動作と同様に、まず、入力されたデータからテキストデータを抽出する（ステップ S 1 0 1 ) 。続いて、抽出したテキストデータから 1つの表データを構成する一連のキーヮード列を取得する（ステップ 1 0 2 )

次に、表要素ラベル化部 2が、ステップ S 1 0 2で得られた 1つの表データを構成するキーヮード列を分類ルール格納部 4 aに格納された対応情報に基づいてそれぞれ種類別のラベルに置き換える（ステップ S 1 0 3 ) 。

ステップ S 1 0 3の後、ここでは図 3のフローチャートとは異なり、分類ル一ル格納部 4 aの分類ルールを参照して 1種類のラベルのみで成立するルールがあれば、そのルールに適合するラベルをラベル列から検出し、当該ラベルを当該ルールが示す分類の 1件とする（ステップ S 1 9 0 1 ) 。

例えば、分類ルール格納部 4 aの分類ルールが図 2 0に示したような 3種類のルール集合からなる分類ルール 2 0 0 1で構成されていたとする。分類ルールのうち、「その他連絡先」のルールは "連絡先！ = N U L L " と記載されている。これは「連絡先」に該当するラベルが 1つでも存在すれば、当該ラベルは「その他連絡先」に分類されることを意味する。このような「その他連絡先」のルールは、「連絡先」が図 1 0に示した対応情報 1 0 0 1のように定義されている場合、メールァドレスまたは電話番号のいずれか 1種類のみに相当するラベルのみで当該ルールを評価でき、それらのうちいずれか 1つでもあれば「その他連絡先」と判定される。ただし、メールアドレスまたは電話番号が他の分類ルールの判定条件にも含まれる場合は、判定条件により多くのラベルを必要とする分類ルールを優先することで、分類ルール 2 0 0 1における「他部門連絡先」や「自部門連絡先」に該当する情報も適切に抽出することができる。

ここで、ステップ S 1 0 1によって図 2 1に示すようなテキストデータ 2 1 0 1が抽出された場合、図 2 0の分類ルール 2 0 0 1により、末尾の 4つの連続したメールアドレスが「その他連絡先」のルールに適合するため、ステップ S 1 9 0 1によって当該ルールによる分類が行なわれる。

ステップ S 1 9 0 1の処理を終えると、図 3のステップ S 1 0 4と同様に、表要素ラベル化部 2が、ラベル列の中で隣り合うラベルが同じ種類のラベルであつた場合、それらを 1つのラベルにまとめる (ステップ S 1 9 0 2 ) 。ステップ S 1 9 0 2の後で行なわれるステップ S 1 0 5、 S 1 0 6、 S I 0 7は図 3のフロ一チャートの説明と同じであるため省略する。

ステップ S 1 0 7までの処理によって 1つの表を構成するキーワード列から一連のレコードの列が判定できると、全ラベル列を、判定した個々のレコードに対- 応する 1つ以上の部分ラベル列に分割する (ステップ S 1 9 0 3 )

ステップ S 1 9 0 3の処理を終えると、データ分類部 2 4が、分割した各部分ラベル列を分類ルール格納部 4 aの各ルールと照合し、適合したルールのうち最も多くのラベルが対応付いたルールによつて当該部分ラベル列をそれぞれ分類する（ステップ S 1 9 0 4 ) 。

図 1 0に示した対応情報 1 0 0 1及ぴ図 2 0に示した分類ルール 2 0 0 1を利用して、図 2 1に示したテキストデータ 2 1 0 1をステップ S 1 9 0 4までの処理により分類すると、図 2 2に示した表のようになる。図 2 2において、所属が「製品開発部」で氏名（田中）とその連絡先である電話番号及びメールアドレスを含んだ「自部門連絡先」 1件、所属が「製品開発部」ではなく「企画部」で氏名（山田）とその連絡先である電話番号を含んだ「他部門連絡先」 1件がそれぞれ検出できるほか、メールァドレスの上位の分類である連絡先のみがあれば成立する「その他連絡先」が計 4件検出できる。

(第 2の例示的な実施例の効果）

第 2の例示的な実施例によれば、自然言語文や語句の羅列からなるテキストデータから、特定種類のキーヮードの組合せを含んだ任意の情報をその件数と共に検出することが可能になる。すなわち、特定種類のキーワードの組合せについて、例えば、「自部門連絡先」や「他部門連絡先」など同一階層の複数の組合せを同時に検出することができる。また、「地名」が「東京都港区」及び「連絡先」が

「自部門連絡先」としての「製品開発部」など異なる種類、異なる階層のキーヮードの組合せに適合するものを同時に検出することができる。更に、分類ルール 1 4 0 1における「他部門連絡先」という分類ルールに関し、上記 "所属！ =

"NU L L " " 及び上記 "所属！ == "製品開発部" " という条件に加え、所属に該当するキーワードが " 「大阪府」 " であることを示す "所属 = "大阪府" " という条件を同時に満たす糸且合せを検出することができる。

以上のような情報解析装置 2 0を利用することにより、例えば、個人情報や商品情報の特徴をキーヮードの種類として定義した辞書を用意することにより、組織内の様々な文書（データ）から個人情報や商品情報を抽出し、その件数を洗い出すことで管理を容易にすることができる。従って、第 2の例示的な実施例による表レコード推定方法とこれを用いた情報解析装置は、企業などの組織内の資産管理や情報セキュリティ管理に有用である。また、様々な分割基準に基づいて、入力したテキストデータ 1 1 0 1から作成したキーワードのリスト 1 5 0 1から単一又は複数の表データを生成することができる。

[第 3の例示的な実施例]

本発明の第 3の例示的な実施例を以下に説明する。なお、第 3の例示的な実施例のうち、上記第 1、第 2の例示的な実施例や第 1の例と重複する部分については適宜省略して説明する。

図 1 8は、本発明による情報分類装置を用いて情報分類システムを構成した第 3の例示的な実施例を示すプロック図である。ここでは情報分類装置として情報解析装置 1 0 0を備えるほ力、データ蓄積装置 3 0 0を備える。

図 1 8を参照すると、情報解析装置 1 0 0は、メインメモリ 1 0 1と、 C P U 1 0 2と、データ記憶装置 1 0 3と、通信装置 1 0 4と、入力装置 1 0 6と、出力装置 1 0 7とを少なくとも備え、第 2の例示的な実施例における情報解析装置

2 0と同様の機能を有する。情報解析装置 1 0 0は、通信ネットワーク 2 0 0を介してデータ蓄積装置（データ蓄積手段） 3 0 0と接続される。データ蓄積装置

3 0 0は通信ネットワーク 2 0 0を通じて取得したデータを格納するものであつて、情報解析の対象として個人情報や商品情報を含みうるデータを蓄積することにより、図 1 2に示したデータ格納部 2 5と同様の機能を実現する。

図 1 8ではデータ蓄積装置 3 0 0を 1台のみ示したが、情報解析装置 1 0 0は 2台以上のデータ蓄積装置 3 0 0に接続されていても良い。すなわち、データは 2台以上のデータ蓄積装置に分散して蓄積されていても良い。さらには、情報解祈の対象となるデータの一部または全てが情報解析装置 1 0 0のデータ記憶装置 1 0 3に蓄積されていてもよい。

加えて、情報解析の対象となるデータは必ずしもワードプロセッサやテキストエディタなどで作成されたファイルのみに限らず、テキストデータを内部に含みうるあらゆるファイルであってもよく、例えば、実行プログラムファイルであつても良い。

また、データ蓄積装置 3 0 0は、必ずしも各データを長期間保持するものでなくともよく、例えば、 Eメール送信サーバとして機能する装置であってもよい。例えば、データ蓄積装置 3 0 0が Eメール送信サーバの一部として機能する場合、通信ネットワーク 2 0 0を介して 1つ以上の端末装置（図示せず）から送られてきた Eメールデータを他の端末装置や Eメール受信サーバ（図示せず）に送る前に、第 3の例示的な実施例における情報解析装置 1 0 0によって特定種類の情報が当該 Eメールデータに含まれているか否かを確認してもよい。次に、第 3の例示的な実施例における情報解析装置 100の構成要素について説明する。 CPU 102は、メインメモリ 1 01の記憶するプログラム 105に従って処理を実行する。プログラム 105は、図 1 2に示したテキストデータ抽出部 21、キーワード抽出部 22、表レコード推定部 23、データ分類部 24、及び結果表示部 26の処理を実行させる情報解析プログラムである。従って、これらの各部の動作は、 CPU 102によって実現される。なお、プログラム 10 5は、 C P U 102で読み出し可能な可搬型の記憶媒体に記憶されても良い。データ記憶装置 103は、少なくとも図 1 2に示したキーワード辞書 27、分類ルール格納部 4 aの対応情報 501及び分割基準を記憶する。また、前述したように情報解析の対象となるデータを記憶していても良く、その場合は C P U 1 02がデータ記憶装置 103に蓄積されたデータを参照する。

通信装置 104は、 CPU 102通信ネットワーク 200との間のインタフエースである。通信ネットワーク 200を介して通信装置 104がデータ蓄積装置 300にアクセスすることで、 CPU102はデータ蓄積装置 300に蓄積されているデータを参照する。

入力装置 106は、例えばキーボードゃマウスなどの情報入力装置であり、 C PU 102に対して処理の実行や停止、処理結果の表示を指示する。 CPU 10 2は、処理結果を出力装置 107に表示出力させる。また、情報解析装置 1 00 がプリンタ（図示せず）を備える場合、 CPU102はプリンタによって処理結果をプリント用紙に出力してもよい。

第 3の例示的な実施例は、情報解析装置 100を、図 1、図 2に示した表レコード推定装置 10と置き換えて情報分類システムを実現するようにしても良い。

(第 3の例示的な実施例の効果）

第 3の例示的な実施例によれば、情報解析装置 100が、通信ネットワーク 2 00を介してデータ蓄積装置 300と接続されるため、情報解析装置 100においてデータ蓄積装置を有する必要がない。また、情報解析装置 100が、通信ネットワーク 200を介して複数のデータ蓄積装置 300と接続できるため、災害や障害等に対し、可用性等が向上する。さらに、通信ネットワーク 200を介して端末装置から送られてきた Eメールデータを他の端末装置や Eメール受信サーパに送る前に、情報角军析装置 1 0 0によって特定種類の情報が当該 Eメールデータに含まれているか否かを確認できる等、ネットワークを介して送信又は受信される情報内に所定の情報が含まれているか否かを確認することができる。

以上説明してきたように、本発明によれば、文書等のデータのファイル形式や表データを構成するレコードの識別パタンが予め分からない場合でも、精度良く表データを構成する個々のレコードを推定できる。このことから、本発明は、組織内の W e bサーバやファイルサーバ、端末装置などに蓄積された様々な記述形式の大量のファイルから、個人情報や財務情報などを示すキーヮードの組を含んだファイルとそこに含まれる個人情報や財務情報の種類や件数を明らかにする組織内情報管理システムに適用でき、情報セキュリティ監査や情報資産管理の支援に有効である。本発明はまた、製品名、日付、価格、置き場所などのキーワードの組が多数含まれているデータを検出することによって、設備品情報を含んだ棚卸し用の文書を精度良く発見できるなど、データの内容に基づくデータ検索システムへの適用も可能である。

以下に、本発明にかかる情報分類装置、情報分類方法、情報分類プログラムの実施の態様を列挙する。

本発明の情報分類装置におけるラベル化部は、同一種類の隣り合う 2つ以上の文字列を 1つのラベルに置き換える。

本発明の情報分類装置は、更に、抽出した文字列の種類と文字列を置き換えるラベルとの対応関係を定義した対応情報を格納する対応情報格納部を含んでも良い。この場合、ラベノレ化部は、対応情報に基づいて、抽出した文字列を種類別にラベルに置き換える。

本発明の情報分類装置におけるラベル出現パタン推定部は、前後の出現パタン間で欠落したラベルを捕足しながら逐次的に当該出現パタンの推定を行なう。本発明の情報分類装置における文字情報抽出部は、データの文字情報から文字列を抽出するための抽出情報を格納する抽出情報格納部を含み、抽出情報に基づいて、データの文字情報から文字列を抽出する。本発明の情報分類装置は、更に、予め定めた分割基準を格納する分割基準格納部を含んでも良い。この場合、文字情報抽出部は、抽出情報に基づいて抽出した文字列の集合を、予め定めた分割基準に基づいて複数の部分文字列集合に分割し、ラベル化部は、部分文字列集合に含まれる文字列を種類別にラベルに置き換え、ラベル出現パタン推定部は、部分'文字列集合からラベル化部により置き換えられたラベル列を入力としてラベルの出現パタンを推定する。

本発明の情報分類装置においては、予め定めた分割基準として、データ内での隣接する文字列間の距離が規定値以上であるか否かを設定し、分割基準を満たすか否かに基づいて、各文字列を異なる部分文字列集合に含ませる力 \ 又は、各文字列を同一の部分文字列集合に含ませるようにしても良レ、。

本発明の情報分類装置においては、対応情報は、抽出した文字列について、分類した文字列の種類より上位の分類又はより下位の分類に関しても対応関係を定義されても良い。この場合、情報分類装置は更に、文字情報分類部を含んでも良レ、。文字情報分類部は、推定した出現パタンで表される各ラベルを、対応情報に基づいて置き換え前の各文字列の任意の分類又は該任意の分類より上位の分類あるいは該任意の分類より下位の分類に対応付け、所定の組合せに適合する適合文字情報を選択することによって、データから抽出した文字列を分類する。

本発明の情報分類装置における文字情報分類部は、単一種類の文字列で成立する分類条件があれば、ラベル化部において同一種類の隣り合う 2つ以上の文字列を 1つのラベルに置き換える処理の前に、ラベル列を当該分類条件と照合し、当該分類条件による分類を行なうようにしても良い。

本発明の情報分類装置における文字情報抽出部は、文字列として抽出するキーヮードを種類毎に定義付けたキーヮード情報を格納するキーヮード辞書を、前記抽出情報格納部として含んでも良い。この場合、文字情報抽出部は更に、文書等のデータを格納するデータ格納部と、データ格納部に格納されているデータを参照し、参照したデータからテキストデータを抽出するテキストデータ抽出部と、抽出されたテキストデータからキーヮード辞書に格納されているキーヮード情報に基づいてキーヮードを抽出してキーヮード列を文字列として生成するキーヮード抽出部とを含んでも良い。

本発明の情報分類装置は、更に、分類の結果を出力する結果出力部を備えても良い。

本発明の情報分類方法におけるラベル化処理においては、抽出した文字列の集合に含まれる同一種類の隣り合う 2つ以上の文字列を 1つのラベルに置き換えることによつて文字列を一連のラベル列に変換する。

本発明の情報分類方法は、更に、抽出した文字列の種類と文字列を置き換えるラベルとの対応関係を定義した対応情報を格納する対応情報格納処理を含んでも良い。この場合、ラベル化処理においては、対応情報に基づいて、抽出した文字列を種類別にラベルに置き換える。

本発明の情報分類方法におけるラベル出現パタン推定処理においては、前後の出現パタン間で欠落したラベルを補足しながら逐次的に当該出現パタンの推定を行なうようにしても良い。

本発明の情報分類方法においては、対応情報は、抽出した文字列について、分類した文字列の種類より上位の分類又はより下位の分類に関しても対応関係を定義されても良い。この場合、情報分類方法は更に、文字情報分類処理を含んでも良レ、。文字情報分類処理は、推定した出現パタンで表される各ラベルを、置き換え前の各文字列の任意の分類又は該任意の分類より上位の分類又は該任意の分類より下位の分類に対応付け、所定の組合せに適合する適合文字情報を選択することによって、データから抽出した文字列を分類する。

本発明の情報分類方法における文字情報分類処理においては、単一種類の文字列で成立する分類条件があれば、ラベル化処理において同一種類の隣り合う 2つ以上の文字列を 1つのラベルに置き換える処理の前に、ラベル列を当該分類条件と照合し、当該分類条件による分類を行なうようにしても良い。

本発明の情報分類方法は更に、分類の結果を出力する処理を含んでも良い。本発明による情報分類プログラムは、ラベルィヒ処理において、抽出した文字列の集合に含まれる同一種類の隣り合う 2つ以上の文字列を 1つのラベルに置き換えることによって文字列を一連のラベル列に変換する処理を実行させるようにしても良い。

本発明による情報分類プログラムは更に、抽出した文字列の種類と文字列を置き換えるラベルとの対応関係を定義した対応情報を格納する対応情報格納処理を実行させても良い。この場合、ラベルイ匕処理においては、対応情報に基づいて、抽出した文字列を種類別にラベルに置き換える処理を実行させる。

本発明による情報分類プログラムは、ラベル出現パタン推定処理において、前後の出現パタン間で欠落したラベルを補足しながら逐次的に当該出現パタンの推定を実行させるようにしても良い。

本発明による情報分類プログラムにおいては、対応情報は、抽出した文字列について、分類した文字列の種類より上位の分類又はより下位の分類に関しても対応関係を定義されても良い。この場合、情報分類プログラムは更に、文字情報分類処理を実行させても良い。文字情報分類処理においては、推定した出現パタンで表される各ラベルを、置き換え前の各文字列の任意の分類又は該任意の分類より上位の分類又は該任意の分類より下位の分類に対応付け、所定の組合せに適合する適合文字情報を選択することによって、データから抽出した文字列を分類する処理を実行させる。

本発明による情報分類プログラムは、文字情報分類処理において、単一種類の文字列で成立する分類条件があれば、ラベル化処理において同一種類の隣り合う

2つ以上の文字列を 1つのラベルに置き換える処理の前に、ラベル列を当該分類条件と照合し、当該分類条件による分類を行わせるようにしても良い。

本発明による情報分類プログラムは更に、分類の結果を出力する処理を実行させるようにしても良い。

以上、幾つかの例示的な実施例、例をあげて本発明を説明したが、本発明は必ずしも、上記の例示的な実施例、例に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。

Claims

請求の範囲

1 . 文字情報を含むデータの構成を解析する情報分類装置において、前記データの文字情報から所定の文字列を抽出する文字情報抽出手段と、抽出した各文字列を、文字列の分類を表すラベルに置き換えることによって、前記文字列を一連のラベル列に変換するラベル化手段と、

前記ラベル列内に繰り返し出現する前記ラベルの出現パタンを推定するラベル出現パタン推定手段と、

を含むことを特徴とする情報分類装置。

2 . 前記文字情報抽出手段は、前記文字列の分類毎に、出現順が定められた前記文字列を含む前記データから前記所定の文字列を抽出し、

前記ラベル化手段は、抽出した各文字列を所定の順序で種類別に前記ラベルに置き換えることによって、抽出した文字列を前記一連のラベル列に変換することを特徴とする請求項 1に記載の情報分類装置。

3 . 前記ラベル化手段は、同一種類の隣り合う 2つ以上の前記文字列を 1つの前記ラベルに置き換えることを特徴とする請求項 1又は 2に記載の情報分類装置。

4 . 更に、抽出した文字列の種類と前記文字列を置き換える前記ラベルとの対応閿係を定義した対応情報を格納する対応情報格納手段を含み、

前記ラベル化手段は、前記対応情報に基づいて、抽出した文字列を種類別に前記ラベルに置き換えることを特徴とする請求項 1〜 3のいずれか 1項に記載の情報分類装置。

5 . 前記ラベル出現パタン推定手段は、前後の出現パタン間で欠落したラベルを補足しながら逐次的に当該出現パタンの推定を行なうことを特徴とする請求項 1〜 4のいずれか 1項に記載の情報分類装置。

6 . 前記文字情報抽出手段は、前記データの文字情報から前記文字列を抽出するための抽出情報を格納する抽出情報格納手段を含み、前記抽出情報に基づいて、前記データの文字情報から前記文字列を抽出することを特徴とする請求項 1 〜 5のいずれか 1項に記載の情報分類装置。

7 . 更に、予め定めた分割基準を格納する分割基準格納手段を含み、前記文字情報抽出手段は、前記抽出情報に基づいて抽出した前記文字列の集合を、前記予め定めた分割基準に基づいて複数の部分文字列集合に分割し、前記ラベル化手段は、前記部分文字列集合に含まれる前記文字列を種類別に前記ラベルに置き換え、

前記ラベル出現パタン推定手段は、前記部分文字列集合から前記ラベル化手段により置き換えられたラベル列を入力としてラベルの出現パタンを推定することを特徴とする請求項 6に記載の情報分類装置。

8 . 前記予め定めた分割基準として、前記データ内での隣接する前記文字列間の距離が規定値以上であるか否かを設定し、

前記分割基準を満たすか否かに基づいて、各文字列を異なる部分文字列集合に含ませるか、又は、各文字列を同一の部分文字列集合に含ませることを特徴とする請求項 7に記載の情報分類装置。

9 . 前記対応情報は、抽出した前記文字列について、分類した文字列の種類より上位の分類又はより下位の分類に関しても対応関係を定義され、

更に、文字情報分類手段を含み、該文字情報分類手段は、推定した前記出現パタンで表される前記各ラベルを、前記対応情報に基づいて前記置き換え前の前記各文字列の任意の分類又は該任意の分類より上位の分類あるいは該任意の分類より下位の分類に対応付け、所定の組合せに適合する適合文字情報を選択することによって、前記データから抽出した前記文字列を分類することを特徴とする請求項 4に記載の情報分類装置。

1 0 . 前記文字情報分類手段は、単一種類の前記文字列で成立する分類条件があれば、前記ラベル化手段において同一種類の隣り合う 2つ以上の前記文字列を 1つの前記ラベルに置き換える処理の前に、前記ラベル列を当該分類条件と照合し、当該分類条件による分類を行なうことを特徴とする請求項 9に記載の情報分類装置。

1 1 . 前記文字情報抽出手段は、前記文字列として抽出するキーヮードを種類毎に定義付けたキーヮード情報を格納するキーヮード辞書を、前記抽出情報格納手段として含み、

前記文字情報抽出手段は更に、文書等のデータを格納するデータ格納手段と、前記データ格納手段に格納されているデータを参照し、参.照したデータからテキストデータを抽出するテキストデータ抽出手段と、抽出されたテキストデータから前記キーヮード辞書に格納されているキーヮード情報に基づいてキーヮードを抽出してキーワード列を前記文字列として生成するキーワード抽出手段と含むことを特徴とする請求項 6に記載の情報分類装置。

1 2 . 更に、前記分類の結果を出力する結果出力手段を含むことを特徴とする請求項 9又は 1 0に記載の情報分類装置。

1 3 . 請求項 1〜1 2のいずれか 1項に記載の情報分類装置と、

前記情報分類装置と通信ネットワークを介して接続され、該通信ネットワークを通じて取得したデータを格納する少なくとも 1つのデータ蓄積手段を含む情報分類システムであって、

前記情報分類装置における前記文字情報抽出手段は、前記データ蓄積手段に格納された前記データの文字情報から所定の文字列を抽出することを特徴とする情報分類システム。

1 4 . 文字情報を含むデータの構成を解析する情報分類方法であって、前記データの文字情報から所定の文字列を抽出する文字情報抽出処理と、抽出した各文字列を、前記文字列の分類を表すラベルに置き換えることによつて、前記文字列を一連のラベル列に変換するラベル化処理と、

前記ラベル列内に繰り返し出現する前記ラベルの出現パタンを推定するラベル出現パタン推定処理と、

を含むことを特徴とする情報分類方法。

1 5 . 前記ラベルィヒ処理においては、前記抽出した文字列の集合に含まれる同一種類の隣り合う 2つ以上の前記文字列を 1つの前記ラベルに置き換えることによつて前記文字列を前記一連のラベル列に変換することを特徴とする請求項 1 4に記載の情報分類方法。

1 6 . 更に、抽出した文字列の種類と前記文字列を置き換える前記ラベルとの対応関係を定義した対応情報を格納する対応情報格納処理を含み、前記ラベル化処理においては、前記対応情報に基づいて、抽出した文字列を種類別に前記ラベルに置き換えることを特徴とする請求項 1 4又は 1 5に記載の情報分類方法。

1 7 . 前記ラベル出現パタン推定処理においては、前後の出現パタン間で欠落したラベルを補足しながら逐次的に当該出現パタンの推定を行なうことを特徴とする請求項 1 4〜 1 6のいずれか 1項に記載の情報分類方法。

1 8 . 前記対応情報は、抽出した前記文字列について、分類した文字列の種類より上位の分類又はより下位の分類に関しても対応関係を定義され、

更に、文字情報分類処理を含み、該文字情報分類処理は、推定した前記出現パタンで表される前記各ラベルを、前記置き換え前の前記各文字列の任意の分類又は該任意の分類より上位の分類又は該任意の分類より下位の分類に対応付け、所定の組合せに適合する適合文字情報を選択することによって、前記データから抽出した前記文字列を分類することを特徴とする請求項 1 6に記載の情報分類方法。

1 9 . 前記文字情報分類処理においては、単一種類の前記文字列で成立する分類条件があれば、前記ラベル化処理において同一種類の隣り合う 2つ以上の前記文字列を 1つの前記ラベルに置き換える処理の前に、前記ラベル列を当該分類条件と照合し、当該分類条件による分類を行なうことを特徴とする請求項 1 8に記載の情報分類方法。

2 0 . 更に、前記分類の結果を出力する処理を含むことを特徴とする請求項 1 8又は 1 9に記載の情報分類方法。

2 1 . コンピュータに、文字情報を含むデータの構成の解析を実行させるための情報分類プログラムであって、

前記データの文字情報から所定の文字列を抽出する文字情報抽出処理と、抽出した前記各文字列を、前記文字列の分類を表すラベルに置き換えることによって、前記文字列を一連のラベル列に変換するラベル化処理と、

前記ラベル列内に繰り返し出現する前記ラベルの出現パタンを推定するラベル出現パタン推定処理と、を実行させるための情報分類プログラム。

2 2 . 前記ラベル化処理においては、前記抽出した文字列の集合に含まれる同一種類の隣り合う 2つ以上の前記文字列を 1つの前記ラベルに置き換えることによって前記文字列を一連のラベル列に変換する処理を実行させることを特徴とする請求項 2 1に記載の情報分類プログラム。

2 3 . 更に、抽出した文字列の種類と前記文字列を置き換える前記ラベルとの対応関係を定義した対応情報を格納する対応情報格納処理を実行させ、前記ラベル化処理においては、前記対応情報に基づいて、抽出した文字列を種類別に前記ラベルに置き換える処理を実行させることを特徴とする請求項 2 1又は 2 2に記載の情報分類プログラム。

2 4 . 前記ラベル出現パタン推定処理においては、前後の出現パタン間で欠落したラベルを補足しながら逐次的に当該出現パタンの推定を実行させることを特徴とする請求項 2；!〜 2 3のいずれか 1項に記載の情報分類プログラム。

2 5 . 前記対応情報は、抽出した前記文字列について、分類した文字列の種類より上位の分類又はより下位の分類に関しても対応関係を定義され、

更に、文字情報分類処理を実行させ、該文字情報分類処理においては、推定した前記出現パタンで表される前記各ラベルを、前記置き換え前の前記各文字列の任意の分類又は該任意の分類より上位の分類又は該任意の分類より下位の分類に対応付け、所定の組合せに適合する適合文字情報を選択することによって、前記データから抽出した前記文字列を分類する処理を実行させることを特徴とする請求項 2 1〜 2 4のいずれか 1項に記載の情報分類プログラム。

2 6 . 前記文字情報分類処理においては、単一種類の前記文字列で成立する分類条件があれば、前記ラベル化処理において同一種類の隣り合う 2つ以上の前記文字列を 1つの前記ラベルに置き換える処理の前に、前記ラベル列を当該分類条件と照合し、当該分類条件による分類を行わせることを特徴とする請求項 2 5 に記載の情報分類プログラム。

2 7 . 更に、前記分類の結果を出力する処理を実行させることを特徴とする請求項 2 5又は 2 6に記載の情報分類プロダラム。