JP2012098797A - 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ - Google Patents
構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ Download PDFInfo
- Publication number
- JP2012098797A JP2012098797A JP2010243910A JP2010243910A JP2012098797A JP 2012098797 A JP2012098797 A JP 2012098797A JP 2010243910 A JP2010243910 A JP 2010243910A JP 2010243910 A JP2010243910 A JP 2010243910A JP 2012098797 A JP2012098797 A JP 2012098797A
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- schema
- feature
- document
- xml
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】 本発明は、同一のスキーマが適用される複数の電子化された構造化文書を分類するためのルールを生成するための方法を提供する。当該方法は、スキーマを走査して、当該スキーマによって定義される1以上の変動部分を特定するステップと、当該特定された変動部分の特徴値を複数の構造化文書それぞれから取得し、当該取得された特徴値それぞれを当該特徴値が取得された構造化文書に関連付けるステップと、構造化文書に関連付けられた特徴値に基づいて、上記ルールを生成するステップとを含む。また、本発明は、同一のスキーマが適用される複数の電子化された構造化文書を分類するためのルールを生成するコンピュータ及びそのコンピュータ・プログラムを提供する。
【選択図】 図8
Description
を含む。当該ルールは、上記方法によって生成されたルールである。
コンピュータ(101)は、CPU(102)とメイン・メモリ(103)とを備えており、これらはバス(104)に接続されている。CPU(102)は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものであり、例えば、インテル社のCore i(商標)シリーズ、Core 2(商標)シリーズ、Atom(商標)シリーズ、Xeon(商標)シリーズ、Pentium(登録商標)シリーズ、Celeron(登録商標)シリーズ、AMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ又はSempron(商標)が使用されうる。バス(104)には、ディスプレイ・コントローラ(105)を介して、ディスプレイ(106)、例えば液晶ディスプレイ(LCD)が接続されうる。ディスプレイ(106)は、コンピュータの管理のために、通信回線を介してネットワークに接続されたコンピュータについての情報と、そのコンピュータ上で動作中のソフトウェアについての情報を、適当なグラフィック・インタフェースで表示するために使用される。バス(104)にはまた、SATA又はIDEコントローラ(107)を介して、ディスク(108)、例えばハードディスク又はシリコン・ディスクと、ドライブ(109)、例えばCD、DVD又はBDドライブとが接続されうる。バス(104)にはさらに、キーボード・マウスコントローラ(110)又はUSBバス(図示せず)を介して、キーボード(111)及びマウス(112)が接続されうる。
ドライブ(109)は、必要に応じて、CD−ROM、DVD−ROM又はBDからプログラムをディスク(108)にインストールするために使用される。
本発明の実施形態のコンピュータ(201)は、図1に示す例えばCPU(102)、メイン・メモリ(103)及び記憶装置(108)に加えて、特定部(211)、取得部(212)及びルール生成部(213)の各構成要素を備えている。また、コンピュータ(201)は、XMLスキーマ記憶部(221)、XML文書記憶部(222)及び特徴値テーブル(231)の各構成要素を備えうる。また、コンピュータ(201)は、ルール記憶部を備えうる。また、コンピュータ(201)は、分類部(241)、検索部(242)及び検査部(243)の少なくとも1つの構成要素をさらに備えうる。なお、コンピュータ(201)とは別のコンピュータ(図示せず)が、ルール記憶部(223)と、分類部(241)、検索部(242)及び検査部(243)の少なくとも1つとを備えていてもよい。なお、図1の機能ブロック図に示す各構成要素は、図1に例示したハードウェア構成を有するコンピュータ(101)において、ディスク(108)などに格納されたオペレーティング・システムやオーサリング・ソフトウェアなどのコンピュータ・プログラムをメイン・メモリ(103)上にロードした上でCPU(102)に読み込ませ、ハードウェア資源とソフトウェアを協働させることによって実現することができる。
図3のスキーマ(301)は、XMLスキーマの例である。このXMLスキーマは、下記図4に示す構造化文書(XML文書)を分類するためのルールを生成するために使用される。なお、スキーマ(301)において、各行左の数字(1〜13行)は、説明の便宜上付したものである。
ここで、スキーマにおいて、要素の出現回数(特徴値である)は、例えば、下記の属性で定義されうる:minOccursは要素の最小出現回数を表す;maxOccursは要素の最大出現回数を表す;及び、“unbounded”は、要素の最大出現回数の制限が無いことを表す。そして、出現回数の指定は、例えば、下記のように定義されうる。
minOccurs=”0”maxOccurs=”1” ; 0回又は1回
minOccurs=”A”maxOccurs=”B” ; A回以上B回以下
minOccurs=”0”maxOccurs=”B” ; 0回以上B回以下
minOccurs=”A”maxOccurs=”unbounded” ; A回以上
minOccurs=”0”maxOccurs=”unbounded” ; 0回以上
minOccurs=”0” ; 0回以上1回以下
maxOccurs=”unbounded” ; 1回以上
(指定なし) ; 1回(minOccursの定義が無い場合、1回出現するものとされる)
図4Aは、XML文書(451)の例である。
図4Bは、図4Aで示されるXML文書(451)(ファイル名:foo.xml)を木構造で表したものであり、要素”ルート(Root)”が親ノードであり(401)、要素”C”及び要素”A”が子ノードであり(411、412、413、414)、要素”D”が孫ノードである(421〜423、424〜426、427〜429)。要素”B”(子ノード)(415)は、存在しない(従って、図4Bでは、点線で示されている)。
図5の特徴値テーブル(501)は、図3で示されるスキーマが適用される場合の特徴名(521〜526)と、各XML文書(foo.xml, bar.xml, baz.xml)(511〜513)についての特徴値とを有する。
図5の特徴値テーブル(501)では、要素の繰り返し数である特徴値の特徴名として、XMLスキーマ(301)の要素定義を特定する表現が用いられている。よって、図4Aに示される構造化文書の場合において、要素名Root、A、B、C、及びDが、XMLスキーマ(301)の要素定義を特定するための特徴名としてそれぞれ使用されている。また、要素のテキスト部分のサイズである特徴値の特徴名は、例えば、当該要素の要素定義の最後に“/text()“を付したものを用いうる。よって、図4Aに示される構造化文書の場合において、各要素名Root、A、B、C、及びDに、“/text()“を付したRoot/text()、A/text()、B/text()、C/text()、及びD/text()を要素のテキスト部分のサイズを特定するための特徴値としてそれぞれ使用しうる。
bar.xml(512)(コードは図示せず)の上記各特徴名に対応する特徴値は、25、1、10、7、1(平均値である)及び10(平均値である)である。
baz.xml(513)(コードは図示せず)の上記各特徴名に対応する特徴値は、12、0、N/A、3、3(平均値である)及び4(平均値である)である。
ステップ601では、特定部(211)は、特徴名を列挙するためのアルゴリズムを開始する。
ステップ602では、特定部(211)は、XMLスキーマ記憶部(221)から対象のXMLスキーマ(例えば図3のスキーマ(301))をメモリ内にロードし、当該XMLスキーマの先頭から順にその内容を読み込む。
ステップ603では、特定部(211)は、上記XMLスキーマにおいて最初に出現する要素(<element>定義により特定される)を選択する。
ステップ604では、特定部(211)は、選択された<element>定義を特定するために使用される名称を当該選択された<element>定義の特徴名として、特徴値テーブル(231)内に記録する。
ステップ605では、特定部(211)は、選択された<element>定義が単純型要素である場合、当該選択された<element>定義が特定される名称の最後に“/text()“を追加した名称を、当該単純型要素のテキスト部分のサイズを表す特徴値の特徴名として、特徴値テーブル(231)内に記録する。
ステップ606では、特定部(211)は、メモリ上に読み込んだXMLスキーマ上に、特徴名を特徴値テーブル(231)内に記録していない<element>定義がまだ存在するかどうかを確認する。記録していない<element>定義がある場合、処理はステップ607に進む。一方、記録していない<element>定義がない場合、処理はステップ608に進む。
ステップ607では、特定部(211)は、特徴名が記録されていない最初の<element>定義を選択する。選択後、処理はステップ604に戻り、特定部(211)は、特徴名が記録されていない最初の<element>定義が特定される名称を当該<element>定義の特徴名として、特徴値テーブル(231)内に記録する。
ステップ608では、特定部(211)は、特徴名を列挙するためのアルゴリズムを終了する。処理は、ルールを生成するために、図7に示すフローチャートのアルゴリズムのステップ701に進む。
ステップ701では、取得部(212)は、特徴値を取得するためのアルゴリズムを開始する。
ステップ702では、取得部(212)は、XMLスキーマ記憶部(221)から対象のXMLスキーマ(例えば図3のスキーマ(301))をメモリ内にロードし、当該XMLスキーマの検証をしながら、XML文書記憶部(222)からロードしたXML文書の先頭からその内容を読み込む。
ステップ703では、取得部(212)は、読み込みがXML文書中の最初の要素に到達したら、ステップ704に進む。
ステップ704では、取得部(212)は、ステップ703で到達した要素についてのXMLスキーマ上の定義が単純型であるか、それ以外であるかを確認する。単純型要素である場合、ステップ705に進む。一方、単純型要素でない場合、ステップ706に進む。
ステップ705では、取得部(212)は、単純型要素のテキスト部分のサイズ又はそのサイズの平均値を特徴値テーブル(231)内に記録する。XMLスキーマ上の1つの<element>定義がXML文書の複数の部分に対応する場合があるので、特徴値の記録は複数回行われる場合がある。そのために、特徴値の記録時には、記録が行われた回数を同時に記録しておき、2回目以降の記録時には、それまでの平均値を上書き記録しうる。上記記録が終了すると、処理はステップ706に進む。
ステップ706では、取得部(212)は、ステップ704からの場合に、単純型要素でない要素のスキーマ上の<element>定義の特徴値のカウンタをインクリメントする。また、取得部(212)は、ステップ705からステップ706に進んだ場合に、単純型要素のスキーマ上の<element>定義の特徴値のカウンタをインクリメントする。
ステップ707では、取得部(212)は、XML文書中の次の要素に到達したら、処理はステップ707に進む。また、取得部(212)は、XML文書の最後に到達したら、処理はステップ707に進む。要素の繰り返しの終了は、(1)別の要素が現れるか又は(2)親要素の終了タグに到達することによって判別可能である。ステップ707では、上記(1)及び(2)の条件を同時にチェック可能なものとして、「次の要素に到達」としている。これは、例えば図4Aに示されている〈C〉(2行目)、〈D〉(3行目)、〈D〉(4行目)、〈D〉(5行目)、〈C〉(7行目)、〈D〉(8行目)、〈D〉(9行目)、〈D〉(10行目)、〈C〉(12行目)、〈D〉(13行目)、〈D〉(14行目)、〈D〉(15行目)、及び〈A〉(17行目)の各開始タグに到達するまでに、XML文書を読み進めることを意味する。
ステップ708では、取得部(212)は、1つ前の要素の繰り返しが終了かどうかを判定する。終了であれば、処理はステップ709に進む。一方、終了でなければ、処理はステップ710に進む。
ステップ709では、取得部(212)は、1つ前の要素のカウンタの値を特徴値として記録し、カウンタをリセットする。そして、処理はステップ710に進む。
ステップ710では、取得部は、XML文書中の文書末かどうかを判定する。次の要素に到達する前に文書末にきた場合、繰り返し数のカウンタを記録し、ステップ711に進む。一方、文書末でない場合、ステップ704に戻り、次の要素について、ステップ704〜710を繰り返す。
ステップ711では、取得部(212)は、特徴値を取得するためのアルゴリズムを終了する。処理は、ルールを作成するために、図8に示すフローチャートのアルゴリズムを開始する。
ステップ801では、ルール生成部(213)は、ルールを生成するためのアルゴリズムを開始する。
ステップ802では、ルール生成部(213)は、図7のフローチャートに従い得られた、複数のXML文書についての特徴値の集合を用意する。特徴値の当該集合は、例えば、特徴値テーブル(231)として用意されうる。
ステップ803では、ルール生成部(213)は、特徴値の集合を訓練データとして、データマイニングの手法により、ルールを作成する。ルール生成部(213)は、生成されたルールを、ルール記憶部(223)に格納する。
ステップ804では、ルール生成部(213)は、ルールを生成するためのアルゴリズムを終了する。
ステップ901では、分類部(241)は、XML文書を分類するためのアルゴリズムを開始する。
ステップ902では、取得部(212)は、図7に示すフローチャートに従い、分類対象であるXML文書から当該XML文書中の要素の特徴値を取得する。取得部(212)は、当該取得された特徴値を当該特徴値が取得されたXML文書に関連付ける。
ステップ903では、分類部(241)は、ルール記憶部(223)からルールをメモリ上にロードし、上記取得された特徴値を当該ルールに適用して、上記取得された特徴値を有するXML文書をルールに従い分類する。
ステップ904では、分類部(241)は、XML文書を分類するためのアルゴリズムを終了する。
ステップ1001では、検索部(242)は、特定のXML文書に類似しているXML文書を抽出するためのアルゴリズムを開始する。
ステップ1002では、取得部(212)は、図7に示すフローチャートに従い、特定のXML文書から当該XML文書中の要素の特徴値を取得する。取得部(212)は、当該取得された特徴値それぞれを当該特徴値が取得されたXML文書に関連付ける。
ステップ1003では、検索部(242)は、ルール記憶部(223)からルールをメモリ上にロードし、ステップ1002において取得された特徴値を当該ルールに適用して、第1の結果を取得する。
ステップ1004では、取得部(212)は、図7に示すフローチャートに従い、検索対象である複数のXML文書それぞれから当該XML文書中の要素の特徴値を取得する。取得部(212)は、当該取得された特徴値それぞれを当該特徴値が取得されたXML文書に関連付ける。
ステップ1005では、検索部(242)は、ルール記憶部(223)からルールをメモリ上にロードし、ステップ1004において取得された特徴値をXML文書ごとに当該ルールに適用して、各第2の結果を取得する。
ステップ1006では、検索部(242)は、ステップ1005からの各第2の結果をステップ1003からの第1の結果と比較して、特定の構造化文書に類似している構造化文書を抽出する。当該抽出によって、特定の構造化文書に類似している構造化文書が検索される。
ステップ1007では、検索部(242)は、特定のXML文書に類似しているXML文書を抽出するためのアルゴリズムを終了する。
ステップ1101では、検査部(243)は、特定のXML文書に類似しているXML文書を抽出するためのアルゴリズムを開始する。
ステップ1102では、取得部(212)は、図7に示すフローチャートに従い、特定のXML文書から当該XML文書中の要素の特徴値を取得する。取得部(212)は、当該取得された特徴値それぞれを当該特徴値が取得されたXML文書に関連付ける。
ステップ1103では、検査部(243)は、ルール記憶部(223)からルールをメモリ上にロードし、ステップ1002において取得された特徴値を当該ルールに適用して、第1の結果を取得する。
ステップ1104では、検査部(243)は、図7に示すフローチャートに従い、検査対象であるXML文書それぞれから当該XML文書中の要素の特徴値を取得する。取得部(212)は、当該取得された特徴値を当該特徴値が取得されたXML文書に関連付ける。
ステップ1105では、検査部(243)は、ルール記憶部(223)からルールをメモリ上にロードし、ステップ1004において取得された特徴値を当該ルールに適用して、第2の結果を取得する。
ステップ1106では、検査部(243)は、ステップ1105からの第2の結果をステップ1103からの第1の結果と比較して、検査対象である構造化文書が特定の構造化文書に類似しているかどうかを検査する。当該類似しているかどうかは、第2の結果と第1の結果が、例えば所定の割合(例えば80%以上)で共通又は類似することで判定されうる。所定の割合は、どの程度の類似度の文書であるかによって任意に設定しうる値である。
ステップ1107では、検査部(243)は、特定のXML文書に類似しているXML文書を抽出するためのアルゴリズムを終了する。
図6の特徴名を列挙するためのフローチャートにおいて、特徴値として、図3に示すスキーマの場合、XMLスキーマ上の<xs:element>タグ又は<xs:complex>タグなどの定義についての繰り返し数が使用されている。これらの定義に加えて、ノードが一意に定まる絶対ロケーション・パス(例えばXPath)表現についての特徴値を使用することが可能である。この絶対ロケーション・パスを使用することによって、<element>定義と比べて、より正確な分類を行うことが可能である。絶対ロケーション・パスは、子(child)基準点(Axes)とposition()との数値比較のみを用いた表現である。絶対ロケーション・パスの特徴は次の通りである:(1)1つのノードを必ず選択する(言い換えれば、複数のノードを選択しない);(2)あるノードを指す表現は一意に決まる;(3)最後のノードについては、position()は指定されない(なぜならば、繰り返し数が指定されるようにするためである)。絶対ロケーション・パスの例は、”/child::Root/child::C[position()=1]/child::D[position()=1]/text()”で表現されうる。この表現は、”/Root/C[1]/D[1]/text()”の省略形でも表されうる。絶対ロケーション・パスを使用することによって、繰り返し現れる要素に対して、個々の部分木の傾向が出現場所によって異なる場合の区別をすることが可能であり、またXMLスキーマ上の定義が再帰的に利用されている場合に、XMLスキーマ上の定義が再帰的に利用されている場合において、同じ定義に対応する部分であるけれども実際のXML文書上の出現場所が異なる(絶対パスが異なる)要素の区別をすることが可能である。
図12の特徴値テーブル(1201)は、特徴名(1221〜1223)と、各XML文書(foo.xml, bar.xml, baz.xml)(1211〜1213)についての特徴値とを有する。
図12の特徴値テーブル(1201)では、要素の繰り返し数である特徴値の特徴名として、Xpath表現が用いられている。よって、図12に示される構造化文書の場合において、Xpath表現/Root/C[1]/D(以下、「表現1」という),/Root/C[1]/D[1]/text()(以下、「表現2」という),/Root/C[3]/D[3]/text()(以下、「表現3」という)が、特徴名としてそれぞれ使用されている。なお、“/text()“は、上記したように、テキスト部分のサイズを表す特徴値の特徴名において、その最後に付されたものである。
bar.xml(1212)(コードは図示せず)の上記各特徴名に対応する特徴値はそれぞれ、1、10及びN/Aである。bar.xml(1212)において、要素D[3]は存在しないので、要素D[3]のテキスト部分のサイズは評価できない。
baz.xml(1213)(コードは図示せず)の上記各特徴名に対応する特徴値はそれぞれ、3、4及び4である。
子ノード(1321)のテキスト・サイズ(1331)は、数値が「1」であるからそのテキスト・サイズ(特徴値)は1である。子ノード(1322)のテキスト・サイズは、数値が「12」(1332)であるからそのテキスト・サイズ(特徴値)は2である。子ノード(1323)のテキスト・サイズは、数値が「113」(1333)であるからそのテキスト・サイズ(特徴値)は3である。子ノード(1327)のテキスト・サイズは、数値が「3333331」(1337)であるからそのテキスト・サイズ(特徴値)は7である。子ノード(1328)のテキスト・サイズは、数値が「33333332」(1338)であるからそのテキスト・サイズ(特徴値)は8である。子ノード(1329)のテキスト・サイズは、数値が「333333333」(1339)であるからそのテキスト・サイズは「9」(特徴値)である。従って、子ノードDの特徴値は、上記6つの特徴値の平均である(1+2+3+7+8+9)/6=5である。
図13において、各子ノードD(1321〜1323、1324〜1326、及び1327〜1329)は、その各親ノードC(1311、1312及び1313)から参照されている。すなわち、名称が同じCである親ノードから参照されている。しかしながら、図14において、子ノードDは、図14に示すように、ノードC(1411、1412及び1413)だけでなく、ノードCと名称の異なるノードB(1415)からも参照可能である。
図15では、下記のような都道府県の人口に関する情報を保存するためのスキーマを考える。
−要素定義
・都道府県:属性は都道府県名
・市区町村:属性は市区町村名
・勤労者:勤労者に関する情報をまとめるための要素
・高齢者:高齢者に関する情報をまとめるための要素
・人口割合:値として整数値を持つ
−構造
・“都道府県”は文書に一つ
・“勤労者”及び“高齢者”は“都道府県”の子要素
・“市区町村”は“人口区分”の子要素として、いくつでも可
・“人口割合”は“市区町村”の子要素として、必ず一つ
−「勤労者/市区町村/人口割合」
−「高齢者/市区町村/人口割合」
まず、クラスタ毎の1又は複数の代表文書についてタグ単位のオートマトンを図17に示すように作る。そして、選択されたfoo.xml及びbar.xmlのXML文書を先頭からそれぞれチェックし、異なる部分が現れた時点で分岐するようなオートマトンを作成する。オートマトンの作成手法の一つとして、本願出願人によって出願された日本国特許公開2006−24179号公報に記載の作成手法を使用しうる(特に、図32及び図33を参照)。
図18は、ODF文書として機密文書などの社外に流出させたくないXML文書(例えばオフィス・アプリケーションで作成されたXML文書)を木構造で表現したものである。当該木構造は、ルート(1801)及び子ノード(1802〜1813)からなる。子ノード(1802〜1813)は、例えば、スタイルのテンプレート(1803)、テキスト・ボックス(1808〜1810)、及び図形(1811〜1813)を包含する。
また、DLPのための類似文書の検出において、XML文書がODF文書とどの程度類似するかの数値を計算することも可能である。
特定のXML文書に類似しているXML文書を検索対象であるXML文書から抽出するための処理、及び、検査対象であるXML文書が特定のXML文書に類似しているかどうかを検査するための処理については、それぞれ図10及び図11の各フローチャートに示されているので参照されたい。
XML文書に対応する構文木を分割することによって、当該分割された部分記木それぞれをマルチコア・プロセッサによって並列処理をすることが可能である。この分割をする前に、図9に記載されたフローチャートに従いXML文書を予め分類する処理を行うことで、同じスキーマに属する複数のXML文書においてその構造が大きく異なるXML文書又はXML文書のグループがある場合であっても、効果的に構文木の分割をすることが可能になり、さらにマルチプロセッサによる高速化処理を実現することが可能になる。
ステップ1901では、コンピュータは、構文木の分割及びその分割された部分木の並列処理を開始する。
ステップ1902では、コンピュータは、図9に記載されたフローチャートに従い、例えば、一つのスキーマに属するある程度の量のXML文書の集合を事前にバッチ処理的にクラスタに分類する。
ステップ1903では、コンピュータは、ステップ1902により得られたクラスタの特徴値をクラスタ毎に取得し、メモリ内に記憶する。コンピュータは、取得した特徴値に基づいて、事前にクラスタ毎に適当な分割手法を予測しておく。
ステップ1904では、コンピュータは、新規のXML文書を処理する際に、当該新規のXML文書の冒頭部分から近いクラスタを判定して当該XML文書を分類し、そして、事前に予測しておいた分割手法によって、当該新規のXML文書の分割を行う。XML文書に対応する構文木の分割手法の一つとして、本願出願人によって出願された日本国特許出願2010−14356号(整理番号JP100028A)に記載の分割手法を使用しうる。特願2010−14356号に記載の内容は参照によって本明細書に取り込まれて、本明細書の一部をなす。
ステップ1905では、コンピュータは、分割された部分木毎に、マルチプロセッサによる並列処理を行う。
ステップ1906では、コンピュータは、構文木の分割及びその分割された部分木の並列処理を終了する。
Claims (19)
- コンピュータ処理によって、同一のスキーマが適用される複数の電子化された構造化文書を分類するためのルールを生成するための方法であって、前記コンピュータが、
前記スキーマを走査して、当該スキーマによって定義される1以上の変動部分を特定するステップと、
前記特定された変動部分の特徴値を前記複数の構造化文書それぞれから取得し、当該取得された特徴値それぞれを当該特徴値が取得された構造化文書に関連付けるステップと、
前記構造化文書に関連付けられた前記特徴値に基づいて、前記ルールを生成するステップと
を実行することを含む、前記方法。 - 前記変動部分を特定するステップが、前記スキーマによって定義される木構造に含まれる1以上の要素、又は前記スキーマによって定義される木構造に含まれる1以上の属性を特定するステップを含み、
前記関連付けるステップが、前記特定された要素又は属性の特徴値を前記複数の構造化文書それぞれから取得し、当該取得された特徴値それぞれを当該特徴値が取得された構造化文書に関連付けるステップを含む、請求項1に記載の方法。 - 前記特定された要素の特徴値が、前記木構造に含まれる要素の繰り返し数、前記木構造に含まれる単純型要素のテキスト部分のサイズ、前記木構造に含まれる、数値を表す単純型要素の数値、又は前記木構造に含まれる選択可能な要素に関連付けられた値である、請求項2に記載の方法。
- 前記特定された要素の特徴値が、前記スキーマ上で同じ一つの定義に属している少なくとも2以上のノードに含まれる要素の繰り返し数の平均値、前記スキーマ上で同じ一つの定義に属している少なくとも2以上のノードに含まれる単純型要素のテキスト部分のサイズの平均値、前記スキーマ上で同じ一つの定義に属している少なくとも2以上のノードに含まれる、数値を表す単純型要素の数値の平均値、又は前記スキーマ上で同じ一つの定義に属している少なくとも2以上のノードに含まれる選択可能な要素に関連付けられた値の平均値である、請求項2に記載の方法。
- 前記特定された属性の特徴値が、前記木構造に含まれる属性のある/なしに関連付けられた値、又は前記木構造に含まれる属性のテキスト部分のサイズである、請求項2に記載の方法。
- 前記コンピュータが、
前記特定された要素のうちの少なくとも1つの要素を木構造の絶対パスに関連付けるステップを実行することをさらに含み、
前記関連付けるステップが、前記絶対パスに関連付けられた要素の特徴値を前記複数の構造化文書から取得し、当該取得された特徴値それぞれを当該特徴値が取得された構造化文書に関連付けるステップを含む、
請求項2に記載の方法。 - 前記要素を特定するステップが、
前記スキーマを走査して、最初にある要素を選択するステップと、
前記選択された最初にある要素に、当該要素を特定するための名称を特徴名(以下、第1の特徴名)として付与するステップと
をさらに含む、請求項2に記載の方法。 - 前記関連付けるステップが、
前記構造化文書の前記第1の特徴名に、当該第1の特徴名に対応する特徴値を関連付けるステップをさらに含む、請求項7に記載の方法。 - 前記要素を特定するステップが、
前記スキーマを走査して、要素を特定するための名称である特徴名が記録されておらず且つ前記選択された要素の次に最初にある要素を選択するステップと、
前記選択された次に最初にある要素に、当該要素を特定するための名称を特徴名(以下、第2の特徴名)として付与するステップと
をさらに含む、請求項2に記載の方法。 - 前記関連付けるステップが、
前記構造化文書の前記第2の特徴名に、当該第2の特徴名に対応する特徴値を関連付けるステップをさらに含む、請求項9に記載の方法。 - 前記ルールを生成するステップが、前記構造化文書に関連付けられた特徴値を機械学習手法、データマイニング手法、又は統計的手法を使用してクラスタ化ルールを生成するステップを含む、請求項1に記載の方法。
- 前記クラスタ化ルールが、クラスタ分析、主成分分析、ベクトル量子化、自己組織化マップ、強化学習、教師なし学習、k−means法、又は期待値最大化法を使用して生成される、請求項11に記載の方法。
- 前記構造化文書が、XML、HTML、XHTML、SGML、ODF(Open Document Format)、OOXML(Office Open XML)のいずれかのようなメタ言語のフォーマットに従うものである、請求項1に記載の方法。
- 前記スキーマが、XMLスキーマ、文書型定義(DTD)、RELAX(Regular Language description for XML)、RELAX NG(RELAX Next Generation)、NVDL(Name space-based Validation Dispatching Language)、スキマトロン(Schemaron)のいずれかのようなスキーマ言語のフォーマットに従うものである、請求項1に記載の方法。
- コンピュータ処理によって、同一のスキーマが適用される複数の電子化された構造化文書を分類するための方法であって、コンピュータが、
分類対象である構造化文書から、1以上の変動部分の特徴値を取得するステップと、
前記取得された特徴値をルールに適用して、前記取得された特徴値を有する構造化文書を分類するステップであって、前記ルールは、前記分類対象である構造化文書の変数部分の特徴値に基づいて当該分類対象である構造化文書がどのクラスタ化された構造化文書の集合に属するかを決定するためのルールである、前記分類するステップと
を実行することを含む、前記方法。 - コンピュータ処理によって、同一のスキーマが適用される複数の電子化された構造化文書から、特定の構造化文書に類似している構造化文書を検索するための方法であって、前記コンピュータが、
前記特定の構造化文書から、1以上の変動部分の特徴値を取得し、当該取得された特徴値をルールに適用して第1の結果を得るステップと、
検索対象である複数の構造化文書それぞれから、1以上の変動部分の特徴値を取得し、当該取得された特徴値をXML文書ごとに前記ルールに適用して第2の結果を得るステップと、
XML文書ごとに、前記第2の結果を前記第1の結果と比較して、前記特定の構造化文書に類似している構造化文書を抽出するステップと
を実行することを含み、前記ルールは、前記特定の構造化文書又は前記検索対象である構造化文書の変数部分の特徴値に基づいて当該特定の構造化文書又は当該検索対象である構造化文書がどのクラスタ化された構造化文書の集合に属するかを決定するためのルールである、前記方法。 - コンピュータ処理によって、同一のスキーマが適用される電子化された構造化文書が特定の構造化文書に類似しているかどうかを検査するための方法であって、前記コンピュータが、
前記特定の構造化文書から、1以上の変動部分の特徴値を取得し、当該取得された特徴値をルールに適用して第1の結果を得るステップと、
検査対象である構造化文書から、1以上の変動部分の特徴値を取得し、当該取得された特徴値を前記ルールに適用して第2の結果を得るステップと、
前記第2の結果を前記第1の結果と比較して、前記検査対象である構造化文書が前記特定の構造化文書に類似しているかどうかを検査するステップと
を実行することを含み、前記ルールは、前記特定の構造化文書又は前記検査対象である構造化文書の変数部分の特徴値に基づいて当該特定の構造化文書又は当該検査対象である構造化文書がどのクラスタ化された構造化文書の集合に属するかを決定するためのルールである、前記方法。 - コンピュータに請求項1〜17のいずれか一項に記載の方法の各ステップを実行させるコンピュータ・プログラム。
- 同一のスキーマが適用される複数の電子化された構造化文書を分類するためのルールを生成するためのコンピュータであって、メモリと、前記メモリに接続されたプロセッサとを備えており、前記プロセッサに請求項1〜14に記載の方法の各ステップを実行させるプログラムを前記メモリに読み出して、前記ルールを生成する、前記コンピュータ。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010243910A JP5496853B2 (ja) | 2010-10-29 | 2010-10-29 | 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ |
US13/274,988 US8914370B2 (en) | 2010-10-29 | 2011-10-17 | Generating rules for classifying structured documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010243910A JP5496853B2 (ja) | 2010-10-29 | 2010-10-29 | 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012098797A true JP2012098797A (ja) | 2012-05-24 |
JP5496853B2 JP5496853B2 (ja) | 2014-05-21 |
Family
ID=45997819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010243910A Active JP5496853B2 (ja) | 2010-10-29 | 2010-10-29 | 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ |
Country Status (2)
Country | Link |
---|---|
US (1) | US8914370B2 (ja) |
JP (1) | JP5496853B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015022732A (ja) * | 2013-07-23 | 2015-02-02 | 富士通株式会社 | 分類パターン作成方法、分類パターン作成装置、および分類パターン作成プログラム |
KR101714270B1 (ko) * | 2015-12-10 | 2017-03-08 | 연세대학교 산학협력단 | Xml 스키마 변환 방법 및 장치 |
US10079894B2 (en) | 2009-07-22 | 2018-09-18 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US10339223B2 (en) | 2014-09-05 | 2019-07-02 | Nec Corporation | Text processing system, text processing method and storage medium storing computer program |
KR20190137009A (ko) * | 2018-05-31 | 2019-12-10 | 주식회사 마인즈랩 | 구조화된 학습 데이터의 전처리 방법 및 이를 이용한 인공 신경망 학습 방법 |
KR102254178B1 (ko) * | 2020-10-30 | 2021-05-20 | 주식회사 애자일소다 | 인공지능 모델 서비스를 위한 사용자 인터페이스를 이용한 테스트 장치 및 방법 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8983958B2 (en) * | 2009-12-21 | 2015-03-17 | Business Objects Software Limited | Document indexing based on categorization and prioritization |
US9292798B2 (en) | 2012-12-21 | 2016-03-22 | International Business Machines Corporation | Iterative active feature extraction |
US9298814B2 (en) | 2013-03-15 | 2016-03-29 | Maritz Holdings Inc. | Systems and methods for classifying electronic documents |
US11928606B2 (en) | 2013-03-15 | 2024-03-12 | TSG Technologies, LLC | Systems and methods for classifying electronic documents |
US9626528B2 (en) * | 2014-03-07 | 2017-04-18 | International Business Machines Corporation | Data leak prevention enforcement based on learned document classification |
US20150278386A1 (en) * | 2014-03-25 | 2015-10-01 | Syntel, Inc. | Universal xml validator (uxv) tool |
US20150324811A1 (en) * | 2014-05-08 | 2015-11-12 | Research Now Group, Inc. | Scoring Tool for Research Surveys Deployed in a Mobile Environment |
WO2016166760A1 (en) * | 2015-04-16 | 2016-10-20 | Docauthority Ltd. | Structural document classification |
CN107992458B (zh) * | 2016-10-26 | 2021-03-26 | 腾讯科技(北京)有限公司 | 表格规则的生成方法和装置、存储介质以及电子设备 |
US11734582B2 (en) | 2019-10-31 | 2023-08-22 | Sap Se | Automated rule generation framework using machine learning for classification problems |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001014326A (ja) * | 1999-06-29 | 2001-01-19 | Hitachi Ltd | 構造指定による類似文書の検索装置及び検索方法 |
JP2003308327A (ja) * | 2002-04-12 | 2003-10-31 | Mitsubishi Electric Corp | 構造化文書種別判定システム及び構造化文書種別判定方法 |
JP2005251175A (ja) * | 2004-02-04 | 2005-09-15 | Canon Inc | 分類情報の設定方法及びテレビ受信機 |
JP2005250820A (ja) * | 2004-03-04 | 2005-09-15 | Hitachi Ltd | ストレージシステムにおけるxml文書分類方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000003366A (ja) | 1998-06-11 | 2000-01-07 | Hitachi Ltd | 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体 |
JP4726275B2 (ja) | 2000-01-12 | 2011-07-20 | 株式会社ブリヂストン | 空気入りラジアルタイヤ |
JP3773426B2 (ja) | 2001-07-18 | 2006-05-10 | 株式会社日立製作所 | データマイニングにおける前処理方法及び前処理システム |
US7188107B2 (en) * | 2002-03-06 | 2007-03-06 | Infoglide Software Corporation | System and method for classification of documents |
JP2004118379A (ja) | 2002-09-25 | 2004-04-15 | Toshiba Corp | 構造化文書分析表示方法および構造化文書分析表示装置およびプログラム |
JP2004240231A (ja) | 2003-02-07 | 2004-08-26 | Hitachi Printing Solutions Ltd | 電子写真式印刷装置本体と現像装置の接続検出方式 |
US7165216B2 (en) * | 2004-01-14 | 2007-01-16 | Xerox Corporation | Systems and methods for converting legacy and proprietary documents into extended mark-up language format |
JP4247135B2 (ja) | 2004-02-10 | 2009-04-02 | 株式会社東芝 | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 |
US7370273B2 (en) * | 2004-06-30 | 2008-05-06 | International Business Machines Corporation | System and method for creating dynamic folder hierarchies |
US7539681B2 (en) | 2004-07-26 | 2009-05-26 | Sourcefire, Inc. | Methods and systems for multi-pattern searching |
NO20052215L (no) | 2005-05-06 | 2006-11-07 | Fast Search & Transfer Asa | Fremgangsmate til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter |
US20060288015A1 (en) * | 2005-06-15 | 2006-12-21 | Schirripa Steven R | Electronic content classification |
JP4992072B2 (ja) | 2005-08-16 | 2012-08-08 | 国立大学法人東京工業大学 | 複数のxml文書の類似性検出システム、および、複数のxml文書の統合システム |
JP4997749B2 (ja) * | 2005-12-07 | 2012-08-08 | 富士ゼロックス株式会社 | 文書処理方法、プログラム及びシステム |
US7974984B2 (en) * | 2006-04-19 | 2011-07-05 | Mobile Content Networks, Inc. | Method and system for managing single and multiple taxonomies |
JP4212615B2 (ja) | 2006-09-28 | 2009-01-21 | 株式会社東芝 | 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 |
-
2010
- 2010-10-29 JP JP2010243910A patent/JP5496853B2/ja active Active
-
2011
- 2011-10-17 US US13/274,988 patent/US8914370B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001014326A (ja) * | 1999-06-29 | 2001-01-19 | Hitachi Ltd | 構造指定による類似文書の検索装置及び検索方法 |
JP2003308327A (ja) * | 2002-04-12 | 2003-10-31 | Mitsubishi Electric Corp | 構造化文書種別判定システム及び構造化文書種別判定方法 |
JP2005251175A (ja) * | 2004-02-04 | 2005-09-15 | Canon Inc | 分類情報の設定方法及びテレビ受信機 |
JP2005250820A (ja) * | 2004-03-04 | 2005-09-15 | Hitachi Ltd | ストレージシステムにおけるxml文書分類方法 |
Non-Patent Citations (2)
Title |
---|
CSNG200700369002; 齋藤 裕明 他: '木編集距離を利用した木データの構造と内容の類似性を反映する分類手法' 電子情報通信学会技術研究報告 Vol.106,No.99(PRMU2006-40), 20060608, pp.7〜12., 社団法人電子情報通信学会 * |
JPN6014005630; 齋藤 裕明 他: '木編集距離を利用した木データの構造と内容の類似性を反映する分類手法' 電子情報通信学会技術研究報告 Vol.106,No.99(PRMU2006-40), 20060608, pp.7〜12., 社団法人電子情報通信学会 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10079894B2 (en) | 2009-07-22 | 2018-09-18 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US10469596B2 (en) | 2009-07-22 | 2019-11-05 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US11165869B2 (en) | 2009-07-22 | 2021-11-02 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
JP2015022732A (ja) * | 2013-07-23 | 2015-02-02 | 富士通株式会社 | 分類パターン作成方法、分類パターン作成装置、および分類パターン作成プログラム |
US10339223B2 (en) | 2014-09-05 | 2019-07-02 | Nec Corporation | Text processing system, text processing method and storage medium storing computer program |
KR101714270B1 (ko) * | 2015-12-10 | 2017-03-08 | 연세대학교 산학협력단 | Xml 스키마 변환 방법 및 장치 |
KR20190137009A (ko) * | 2018-05-31 | 2019-12-10 | 주식회사 마인즈랩 | 구조화된 학습 데이터의 전처리 방법 및 이를 이용한 인공 신경망 학습 방법 |
KR20210134588A (ko) * | 2018-05-31 | 2021-11-10 | 주식회사 마인즈랩 | 구조화된 학습 데이터의 전처리 방법 |
KR102329290B1 (ko) | 2018-05-31 | 2021-11-22 | 주식회사 마인즈랩 | 구조화된 학습 데이터의 전처리 방법 및 이를 이용한 인공 신경망 학습 방법 |
KR102408186B1 (ko) | 2018-05-31 | 2022-06-13 | 주식회사 마인즈랩 | 구조화된 학습 데이터의 전처리 방법 |
KR102254178B1 (ko) * | 2020-10-30 | 2021-05-20 | 주식회사 애자일소다 | 인공지능 모델 서비스를 위한 사용자 인터페이스를 이용한 테스트 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US8914370B2 (en) | 2014-12-16 |
JP5496853B2 (ja) | 2014-05-21 |
US20120109960A1 (en) | 2012-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5496853B2 (ja) | 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ | |
CN107644323B (zh) | 一种面向业务流的智能审核系统 | |
Falleri et al. | Fine-grained and accurate source code differencing | |
Zhou et al. | Where should the bugs be fixed? more accurate information retrieval-based bug localization based on bug reports | |
US8090724B1 (en) | Document analysis and multi-word term detector | |
US20170109657A1 (en) | Machine Learning-Based Model for Identifying Executions of a Business Process | |
US8195692B2 (en) | System and method for managing semantic and syntactic metadata | |
US20030088643A1 (en) | Method and computer system for isolating and interrelating components of an application | |
US20170109676A1 (en) | Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process | |
US10210249B2 (en) | Method and system of text synthesis based on extracted information in the form of an RDF graph making use of templates | |
US20170109668A1 (en) | Model for Linking Between Nonconsecutively Performed Steps in a Business Process | |
US20070198578A1 (en) | Patent mapping | |
US8234288B2 (en) | Method and device for generating reference patterns from a document written in markup language and associated coding and decoding methods and devices | |
US20070239653A1 (en) | User interface morph based on permissions | |
JP2003044491A (ja) | 知識分析システムならびに同システムにおける分析条件設定方法、分析条件保存方法および再分析処理方法 | |
JPWO2010038540A1 (ja) | テキストセグメントを有する文書から用語を抽出するためシステム | |
US20170109639A1 (en) | General Model for Linking Between Nonconsecutively Performed Steps in Business Processes | |
JP4042830B2 (ja) | コンテンツ属性情報正規化方法、情報収集・サービス提供システム、並びにプログラム格納記録媒体 | |
US20170109638A1 (en) | Ensemble-Based Identification of Executions of a Business Process | |
AU2013270517B2 (en) | Patent mapping | |
US20180121526A1 (en) | Method, apparatus, and computer-readable medium for non-structured data profiling | |
US20170109640A1 (en) | Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process | |
Pamungkas et al. | B-BabelNet: business-specific lexical database for improving semantic analysis of business process models | |
US7779005B2 (en) | Database management apparatus and method of managing database | |
JP2006323517A (ja) | テキスト分類装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130705 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140219 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20140219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5496853 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |