JP2000259660A

JP2000259660A - 属性抽出装置

Info

Publication number: JP2000259660A
Application number: JP11064504A
Authority: JP
Inventors: Kenichi Numata; 賢一沼田
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1999-03-11
Filing date: 1999-03-11
Publication date: 2000-09-22

Abstract

(57)【要約】【課題】構造化文書の多様な表現の差異を意識するこ
となく、簡易な指定で、構造化文書内の必要な属性を抽
出する。【解決手段】属性抽出部１ｃは、構造化文書１ａを読
み込み、スキーマ定義部１ｂに定義されている文字列パ
ターン及び属性名を有する属性スキーマの集合に従って
読み込んだ構造化文書１ａの照合を行い、適合した構造
化文書１ａの要素及びテキストを属性名として抽出し、
文字列パターンが構造化文書１ａの要素に適合した場合
には、適合した要素の内容を属性値として抽出し、文字
列パターンが構造化文書１ａテキストに適合した場合に
は、適合した第１テキストの祖先であり同時にこの第１
テキスト以外のテキストの祖先ともなる祖先要素を特定
し、この祖先要素を祖先とする要素のうち第１テキスト
が直接属する第１要素以外の要素、及び祖先要素を祖先
とするテキストのうち第１テキスト以外のテキストを属
性値として抽出することにより属性リスト１ｄを生成す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、構造化文書に記述
された情報から属性の集合を抽出する属性抽出装置に関
し、特に構造化文書中の要素名と要素属性とテキストか
ら、条件に適合する所望の属性の並びを抽出してグルー
プ化する属性抽出装置に関する。

【０００２】

【従来の技術】構造化文書とは、文書の章や段落などの
論理的な構成要素に対応して、文書データを木構造に階
層化した論理構造を持つ文書である。例えばＳＧＭＬ(S
tandard Generalized Markup Language; ISO8879/1986;
JIS X 4151/1992)、XML(Extensible Markup Language
1.0; W3C Recommendation 10-Feb-98)は、構造化文書に
関する国際規格である。

【０００３】構造化文書の利点は、文書中のテキストを
意味的にまとまった複数の部分構造に分解して、各部分
構造に対して意味付けを与えることができることであ
る。例えば、論文であれば表題、著者、著者所属、章、
節、段落、参考文献などの部分構造に分解することがで
きる。構造化文書はこれらの部分構造を要素として、要
素の階層構造によって表現される。特に、ＳＧＭＬお
よびＸＭＬにおいては、要素は文書データを開始タグと
終了タグによって囲んだものとして記述される。例え
ば”章”を表す要素であれば、開始タグは”＜章＞”、
終了タグは”＜／章＞”と表現され、章の内容がこの開
始タグと終了タグの間に記述される。

【０００４】図３６はＸＭＬ文書の一例である。図３６
において第１行はＸＭＬ宣言であり、この文書がＸＭＬ
の規格に適合した文書であることを宣言している。第２
行は文書型宣言であり、この文書中に出現可能な要素の
種類、各要素の出現順序、要素間の包含関係などを規定
する規則である文書型を指定している。図３６は、パー
ソナルコンピュータ（以後”ＰＣ”と略記する）の仕様
を記述した文書であり、第２行で宣言されている文書型
では、ＰＣの仕様を記述するためのタグを定義してい
る。図３６に示す文書はこの文書型に従ってＰＣの仕様
を記述したものであり、まず文書全体は”ＰＣ”という
要素からなる。要素”ＰＣ”は、”Ｐｒｏｄｕｃｔ−Ｎ
ａｍｅ”、”ＣＰＵ”、”ｍｅｍｏｒｙ”、”ＨＤ
Ｄ”、”ＣＤ−ＲＯＭ”という要素を含み、これらの要
素はそれぞれテキストを内容として持っている。

【０００５】ＳＧＭＬ文書においても、文書型に従った
論理構造を記述すると言う点においてはＸＭＬ文書と同
じである。文書型によって文書の各要素に意味付けがな
されていれば、この論理構造を有効に利用して、文書か
ら必要な情報を検索して抽出することができるようにな
る。例えば、図３６に示したＰＣの仕様を記述した文書
からメモリに関する情報を検索して抽出したい場合、”
ｍｅｍｏｒｙ”という要素を検索してその内容を抽出す
ればよい。

【０００６】しかしながら、同じ種類の情報をＸＭＬ文
書として表現する際にも、文書型が異なれば文書の表現
も異なってくる。例えばあるメーカーでＰＣの仕様を記
述する際に、文書型の定義でメモリを”ｍｅｍｏｒｙ”
という要素で表現していたとする。一方、別のメーカー
では別の文書型の定義でメモリを”ＲＡＭ”という要素
で表現しているかもしれない。例えば、図３７に示す文
書は、同じＰＣの仕様を記述した文書であるが、図３６
に示した文書の文書型とは異なる文書型に従って作成さ
れており、要素の名前が違っている。

【０００７】このように、異なる文書型に従って記述さ
れた構造化文書の構造の差異を吸収して、統一的な処理
を可能にする従来技術として、例えば、特開平８−３１
４９３３号公報「構造化文書の処理装置」に示される方
法がある。特開平８−３１４９３３号公報では、多くの
文書型に共通する構造を使って定義した共通文書型と呼
ばれる文書型を用意し、個別の文書型の各要素と共通文
書型の各要素の対応表を用意する。文書作成時には、個
別の文書型に共通文書型の要素を組み込んだ拡張個別文
書型と呼ばれる文書型を生成し、この拡張個別文書型に
沿って文書を作成する。また、共通文書型に拡張個別文
書型を組み込んだ拡張共通文書型を生成し、前記の共通
文書型と個別の文書型の要素対応表に基づいて、拡張個
別文書型に沿った文書を、拡張共通文書型に沿った文書
に変換する。

【０００８】この方法を用いることにより、拡張共通文
書型に従って抽出したい情報を指定すれば、全ての文書
を拡張共通文書型に従うように変換することによって、
その指定を全ての文書に適用することができる。このた
め、個別の文書型ごとに抽出したい情報を指定する必要
がなくなり、抽出したい情報を簡易に指定することが可
能となる。

【０００９】

【発明が解決しようとする課題】しかし、特開平８−３
１４９３３号公報に示される方法では、個別の文書型と
共通文書型の各要素の対応表を予め用意する必要がある
為、文書型の種類が増えれば増えるほど多大な人的コス
トが必要となるという問題点がある。

【００１０】さらに、構造化文書の表現の差異は、要素
名の違いだけに留まらない。例えば、図３８、図３９
は、ＰＣの仕様に関する同種の情報のＸＭＬによる別の
表現の例である。図３８では、ＰＣの部品を表す要素は
全て”ｐａｒｔｓ”として表現されており、要素に付随
する属性（以後これを要素属性と呼ぶ）によってＰＣの
部品の種別を表現している。一方、図３９では、部品の
種別は要素名でも要素属性でもなく、要素”ｃａｔｅｇ
ｏｒｙ”の内容であるテキストによって表現されてい
る。

【００１１】また、ＷｏｒｌｄＷｉｄｅＷｅｂでの
文書交換に広く用いられている文書記述言語の規格ＨＴ
ＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕ
ａｇｅ，ｖｅｒｓｉｏｎ４．０；Ｗ３ＣＲｅｃ
ｏｍｍｅｎｄａｔｉｏｎ１８−Ｄｅｃ−９７）で
は、利用できるタグが予め限定されているため独自のタ
グを定義することはできず、特開平８−３１４９３３号
公報に示される方法を適用することができないという問
題もある。

【００１２】本発明はこのような点に鑑みなされたもの
であり、構造化文書の多様な表現の差異を意識すること
なく、簡易な指定で、構造化文書内の必要な属性を抽出
できる属性抽出装置を提供することを目的とする。

【００１３】

【課題を解決するための手段】本発明では上記課題を解
決するために、構造化文書から属性の集合を抽出する属
性抽出装置において、前記構造化文書の属性を表す属性
名と、前記属性名に対応する文字列パターンと、を有す
る属性スキーマを定義するスキーマ定義手段と、前記構
造化文書を前記文字列パターンと照合することにより、
前記構造化文書の属性名及び属性値を抽出する属性抽出
手段と、を有することを特徴とする属性抽出装置が提供
される。

【００１４】ここで、スキーマ定義手段は、構造化文書
の属性を表す属性名と、属性名に対応する文字列パター
ンとを有する属性スキーマを定義し、属性抽出手段は、
構造化文書を文字列パターンと照合することにより、構
造化文書の属性名及び属性値を抽出する。

【００１５】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。まず、本発明における第１の実施
の形態について説明する。

【００１６】図１は、第１の実施の形態における属性抽
出装置１の原理構成図である。図１に示すように、属性
抽出装置１は、抽出する属性の集合をスキーマとして定
義するスキーマ定義部１ｂ及びスキーマ定義部１ｂで与
えられたスキーマ定義に従って属性の並びを抽出する属
性抽出部１ｃにより構成されており、属性抽出の対象と
なる構造化文書１ａを属性抽出部１ｃで処理することに
より、その処理結果である属性リスト１ｄを得ることが
できる。

【００１７】図２は、スキーマ定義部１ｂで定義される
スキーマの一例を示す図である。スキーマは１つ以上の
属性スキーマの並びとして定義される。図２において、
１つの行が１つの属性スキーマを表す。属性スキーマは
抽出時の属性名と属性名に適合させる文字列パターンの
組である。文字列パターンは、適合させる文字列そのも
のでもよいし、正規表現を用いてもよい。属性スキーマ
は指定された文字列パターンによって識別される。すな
わち、同一の文字列パターンを持つ属性スキーマが複数
存在することはないものとする。

【００１８】ここで図２に示したスキーマは、ＰＣに関
する属性を抽出するためのスキーマの例である。例え
ば、第１行目の属性スキーマは、文字列として”Ｍｏｄ
ｅｌ”、”モデル”、”Ｐｒｏｄｕｃｔ”のいずれかの
文字列に適合する要素またはテキストが対象文書に存在
した場合、”モデル”という属性名を持つ属性として抽
出することを表している。

【００１９】図３および図４は、属性抽出の対象となる
構造化文書１ａの例を示す図である。図３はＸＭＬ文書
の一例であり、図４はＨＴＭＬ文書の一例である。ＸＭ
Ｌは利用目的に即してタグを自由に定義することができ
るので、図３に示すように、ＰＣの仕様を記述するため
のタグを定義して、このタグを用いてＰＣの仕様を記述
することができる。一方、ＨＴＭＬでは利用できるタグ
が予め限定されているので、ＰＣの仕様を記述する際に
も、予め決められたタグを使って記述しなければならな
い。図４に示した文書では、ＨＴＭＬの表作成のタグを
使ってＰＣの仕様を記述している。

【００２０】次に、本形態の属性抽出装置１における構
造化文書１ａからの属性リスト１ｄ抽出処理について説
明する。図５は、属性リスト１ｄ抽出処理の一連の流れ
を示すフローチャートである。

【００２１】属性抽出部１ｃは、対象となる構造化文書
１ａを読み込み（ステップＳ１１）、読み込んだ構造化
文書１ａの構造を解析する（ステップＳ１２）。解析の
結果、構造化文書１ａの要素およびテキストをノードと
する木構造が形成される。

【００２２】次に、属性抽出部１ｃは、スキーマ定義部
１ｂで定義されたスキーマを読み込む（ステップＳ１
３）。ステップＳ１２で形成された構造化文書１ａの木
構造のルートの要素を読み込み（ステップＳ１４）、こ
のルートの要素を処理対象として要素の照合処理を行う
（ステップＳ１５）。要素の照合処理は木構造中のノー
ドを前順でたどりながら再帰的に処理を行って、要素名
の変換、要素の生成、削除などを行う。このとき変換さ
れた要素および生成された要素は、抽出すべき属性の情
報を保持している。この処理の詳細については後述す
る。

【００２３】木構造中の全てのノードが処理されると、
変換または生成された要素を抽出し、属性名と属性値の
組のリストとして出力する（ステップＳ１６）。次に、
図５のフローチャートのステップＳ１５に示した要素の
照合処理の詳細について説明する。

【００２４】図６は、要素の照合処理の流れを示すフロ
ーチャートである。要素の照合処理では、まず探索モー
ドを”属性名”に設定する（ステップＳ２１）。ここ
で、探索モードは”属性名”または”属性値”のいずれ
かの値を取るものとする。

【００２５】次に、処理対象となる要素の要素名の照合
を行う（ステップＳ２２）。この処理の詳細については
後述する。次に、処理対象となる要素に子ノードが存在
するかどうかを確認する（ステップＳ２３）。子ノード
がなければ処理を終了し、子ノードがあればそのうちの
１つを読み込む（ステップＳ２４）。前述のとおり、形
成された構造化文書１ａの木構造においてノードとなる
のは要素またはテキストである。そこで、ステップＳ２
４で読み込まれたノードが要素であるかテキストである
かを確認する（ステップＳ２５）。要素であれば、再帰
的に要素の照合処理を行う（ステップＳ２７）。一方、
子ノードがテキストであれば、テキストの照合処理を行
う（ステップＳ２７）。この処理の詳細については後述
する。

【００２６】ステップＳ２７の要素の照合処理、または
ステップＳ２６のテキストの照合処理が終了すると、探
索モードが検査される（ステップＳ２８）。探索モード
が”属性名”である場合は、ステップＳ２３に戻って子
ノードがさらにあるかどうかを確認する。探索モード
が”属性値”である場合には、属性値の抽出処理を行う
（ステップＳ２９）。この処理の詳細については後述す
る。

【００２７】次に、図６のフローチャートのステップＳ
２２に示した要素名の照合処理の詳細について説明す
る。図７は、要素名の照合処理の流れを示すフローチャ
ートである。

【００２８】まず、処理対象の要素の要素名を読み込み
（ステップＳ３１）、スキーマ定義部１ｂで定義された
スキーマから属性スキーマを１つ読み込む（ステップＳ
３２）。ステップＳ３１で読み込まれた要素名と、ステ
ップＳ３２で読み込まれた属性スキーマに指定された文
字列パターンが照合される（ステップＳ３３）。照合の
結果、要素名が文字列パターンに適合したかどうかが検
査され（ステップＳ３４）、もし要素名と文字列パター
ンが適合していれば、処理対象の要素の要素名を、ステ
ップＳ３２で読み込まれた属性スキーマに指定されてい
る抽出時の属性名に置き換えて（ステップＳ３６）、処
理を終了する。ステップＳ３４において、要素名と文字
列パターンが適合しないと判定されると、スキーマ中に
さらに属性スキーマが定義されているかどうかを検査し
（ステップＳ３５）、属性スキーマがまだあればステッ
プＳ３２に戻って次の属性スキーマを読み込む。もしそ
れ以上属性スキーマがなければ処理を終了する。

【００２９】次に、図６のフローチャートのステップＳ
２６に示したテキストの照合処理の詳細について説明す
る。図８は、テキストの照合処理の流れを示すフローチ
ャートである。

【００３０】まず、処理対象のテキストを読み込み（ス
テップＳ４１）、スキーマ定義部１ｂで定義されたスキ
ーマから属性スキーマを１つ読み込む（ステップＳ４
２）。ステップＳ４１で読み込まれたテキストと、ステ
ップＳ４２で読み込まれた属性スキーマに指定された文
字列パターンが照合される（ステップＳ４３）。照合の
結果、テキストが文字列パターンに適合したかどうかが
検査され（ステップＳ４４）、もしテキストと文字列パ
ターンが適合していれば、適合したテキストノードを後
の処理のために一時保存する（ステップＳ４６）。ステ
ップＳ４４において、テキストと文字列パターンが適合
しないと判定されると、スキーマ中にさらに属性スキー
マが定義されているかどうかを検査し（ステップＳ４
５）、属性スキーマがまだあればステップＳ４２に戻っ
て次の属性スキーマを読み込む。もしそれ以上属性スキ
ーマがなければ処理を終了する。

【００３１】ステップＳ４６の後、探索モードが”属性
値”に設定され（ステップＳ４７）、処理を終了する。
次に、図６のフローチャートのステップＳ２９に示した
属性値の抽出処理の詳細について説明する。

【００３２】図９は、属性値の抽出処理の流れを示すフ
ローチャートである。まず、この処理の呼び出し元であ
る図６に示したフローチャートで処理対象となっている
要素を読み込む（ステップＳ５１）。次に、図８に示し
たフローチャートのステップＳ４６で保存されたテキス
トノードを読み込む（ステップＳ５２）。ここで、属性
値の抽出処理が呼び出されるのは、探索モードが”属性
値”の場合のみであり、探索モードが”属性値”に設定
されるのは、図８に示したフローチャートのステップＳ
４７においてのみである。したがって、ステップＳ５２
に入るときには常にテキストノードが保存されているこ
とが保証される。

【００３３】次に、ステップＳ５１で読み込まれた要素
の下位にあるノードの中で、ステップＳ５２で読み込ま
れたテキストノードの次に出現するテキストノードを探
索する（ステップＳ５３）。次のテキストノードが存在
するかどうかを検査し（ステップＳ５４）、もしあれば
ステップＳ５１で読み込まれた要素の子ノードを１つ読
み込む（ステップＳ５５）。次のテキストノードが見つ
からなければ、処理を終了する。

【００３４】ステップＳ５５で子ノードが読み込まれる
と、そのノードがステップＳ５２で読み込まれたテキス
トノードを含むかどうかが検査される（ステップＳ５
６）。もし含んでいれば、テキストノードが適合した文
字列パターンを持つ属性スキーマに指定された抽出時の
属性名が取り出され、その属性名を要素名とする新たな
要素が生成される（ステップＳ５７）。もし、ステップ
Ｓ５５で読み込まれたノードが、ステップＳ５２で読み
込まれたテキストノードを含まなければ、ステップＳ５
７で生成された要素ノードの子ノードとして追加される
（ステップＳ６１）。ここで、ステップＳ５２で読み込
まれたテキストノードを含むノードは、常に他のノード
より前にあるので、ステップＳ５７を経ることなくステ
ップＳ６１に進むことはありえない。

【００３５】ステップＳ５７で新たな要素が生成される
と、呼び出し元の要素の子として挿入され（ステップＳ
５８）、元のノードは削除され（ステップＳ５９）、探
索モードが”属性名”に設定される（ステップＳ６
０）。

【００３６】ステップＳ６０またはステップＳ６１の処
理が終了すると、ステップＳ５１で読み込まれた要素の
子ノードの中で未処理のものが存在するかどうかを検査
する（ステップＳ６２）。もし未処理の子ノードが存在
すれば、ステップＳ５５へ戻って子ノードを読み込む。
全ての子ノードについて処理が終了したら、この処理を
終了する。

【００３７】次に、図３に示したＸＭＬ文書を対象とし
て、図２に示したスキーマ定義に従って属性リスト１ｄ
を抽出する場合の処理の流れを具体的に説明する。図５
に示すフローチャートにおいて、ステップＳ１１で図３
に示した対象文書を読み込み、ステップＳ１２で読み込
んだ文書の構造を解析する。図１０に解析の結果として
形成される木構造のモデルを示す。図１０のように木構
造は要素および要素内のテキストをノードとする。図１
０では、要素ノードを長方形枠で、テキストノードを楕
円枠でそれぞれ示してある。

【００３８】次に、ステップＳ１３で図２に示すスキー
マを読み込み、ステップＳ１４で、図１０に示す木構造
のルートノードすなわち要素”ＰＣ”を読み込み、ステ
ップＳ１５で要素の照合処理を行う。

【００３９】図６に示すフローチャートにおいて、ステ
ップＳ２１で探索モードを”属性名”に設定し、ステッ
プＳ２２で処理対象となるルート要素”ＰＣ”の要素名
の照合を行う。

【００４０】図７に示すフローチャートにおいて、ま
ず、処理対象の要素の要素名”ＰＣ”を読み込み（ステ
ップＳ３１）、図２に示すスキーマから属性スキーマ１
を読み込む（ステップＳ３２）。要素名”ＰＣ”と、属
性スキーマ１に指定された文字列パターン”（Ｍｏｄｅ
ｌ｜モデル｜Ｐｒｏｄｕｃｔ）”が照合され（ステップ
Ｓ３３）、適合したかどうかが検査され（ステップＳ３
４）、要素名と文字列パターンが適合しないので、スキ
ーマ中にさらに属性スキーマが定義されているかどうか
を検査し（ステップＳ３５）、属性スキーマがまだあれ
ばステップＳ３２に戻って次の属性スキーマを読み込
む。ここでは、図２に示す属性スキーマ２から属性スキ
ーマ４までが順次読み込まれ、いずれの文字列パターン
も要素名”ＰＣ”と適合しないので処理を終了する。

【００４１】次に、図６に示すフローチャートに戻り、
処理対象となる要素に子ノードが存在するかどうかを確
認する（ステップＳ２３）。ここで、要素”ＰＣ”には
子ノードとして４つの要素すなわち”Ｐｒｏｄｕｃｔ−
Ｎａｍｅ”、”ｃｅｎｔｒａｌ．ｐｒｏｃｅｓｓｏｒ．
ｕｎｉｔ”、”ｍｅｍｏｒｙ”、”ｄｉｓｋ”があるの
でそのうちの１つである要素”Ｐｒｏｄｕｃｔ−Ｎａｍ
ｅ”を読み込む（ステップＳ２４）。ステップＳ２４で
読み込まれたノードが要素であるかテキストであるかを
確認し（ステップＳ２５）、要素であるので、再帰的に
要素の照合処理を行う（ステップＳ２７）。

【００４２】再び図６に示すフローチャートにおいて、
まず探索モードを”属性名”に設定する（ステップＳ２
１）。次に、処理対象となる要素”Ｐｒｏｄｕｃｔ−Ｎ
ａｍｅ”の要素名の照合を行う（ステップＳ２２）。

【００４３】図７に示すフローチャートに戻り、処理対
象の要素の要素名”Ｐｒｏｄｕｃｔ−Ｎａｍｅ”を読み
込み（ステップＳ３１）、スキーマ定義部１ｂで定義さ
れた図２に示すスキーマから属性スキーマ１を読み込む
（ステップＳ３２）。要素名”Ｐｒｏｄｕｃｔ−Ｎａｍ
ｅ”と、属性スキーマ１に指定された文字列パターン”
（Ｍｏｄｅｌ｜モデル｜Ｐｒｏｄｕｃｔ）”が照合され
る（ステップＳ３３）。照合の結果、要素名が文字列パ
ターンに適合したかどうかが検査され（ステップＳ３
４）、要素名と文字列パターンが適合するので、処理対
象の要素の要素名”Ｐｒｏｄｕｃｔ−Ｎａｍｅ”を、属
性スキーマ１に指定されている抽出時の属性名”モデ
ル”に置き換えて（ステップＳ３６）、処理を終了す
る。

【００４４】再び図６に示すフローチャートに戻り、処
理対象となる要素に子ノードが存在するかどうかを確認
する（ステップＳ２３）。ここで、要素”モデル”には
子ノードとして１つのテキスト”ＦＯＯＰ２−４０
０”があるのでこれを読み込む（ステップＳ２４）。ス
テップＳ２４で読み込まれたノードが要素であるかテキ
ストであるかを確認し（ステップＳ２５）、テキストで
あるので、テキストの照合処理を行う（ステップＳ２
６）。

【００４５】次に図８に示すフローチャートにおいて、
処理対象のテキスト”ＦＯＯＰ２−４００”を読み込
み（ステップＳ４１）、属性スキーマ１を読み込む（ス
テップＳ４２）。テキスト”ＦＯＯＰ２−４００”と
属性スキーマ１に指定された文字列パターン”（Ｍｏｄ
ｅｌ｜モデル｜Ｐｒｏｄｕｃｔ）”が照合され（ステッ
プＳ４３）、照合の結果、テキストが文字列パターンに
適合したかどうかが検査され（ステップＳ４４）、テキ
ストと文字列パターンが適合しないので、スキーマ中に
さらに属性スキーマが定義されているかどうかを検査し
（ステップＳ４５）、属性スキーマがまだあればステッ
プＳ４２に戻って次の属性スキーマを読み込む。ここで
は、図２に示す属性スキーマ２から属性スキーマ４まで
が順次読み込まれ、いずれの文字列パターンもテキス
ト”ＦＯＯＰ２−４００”と適合しないので処理を終
了する。

【００４６】ステップＳ２６のテキストの照合処理が終
了すると、探索モードが検査される（ステップＳ２
８）。探索モードが”属性名”であるので、ステップＳ
２３に戻って子ノードがさらにあるかどうかを確認する
と、要素”モデル”にはこれ以上子ノードがないので処
理を終了する。

【００４７】ステップＳ２７の要素の照合処理が終了す
ると、探索モードが検査される（ステップＳ２８）。探
索モードが”属性名”であるので、ステップＳ２３に戻
って子ノードがさらにあるかどうかを確認すると、要
素”ＰＣ”には子ノードが３つ残っているので、これら
のノードすなわち要素”ｃｅｎｔｒａｌ．ｐｒｏｃｅｓ
ｓｏｒ．ｕｎｉｔ”、”ｍｅｍｏｒｙ”、”ｄｉｓｋ”
を順次処理する。

【００４８】図１１に、全てのノードについて要素の照
合処理が終了した状態の木構造を示す。図１１では、判
例に示すように、変換された要素を元の要素と区別して
示してある。

【００４９】全てのノードの処理が終わると、図５に示
すフローチャートに戻り、変換または生成された要素か
ら属性が抽出され、属性名と属性値の組のリストとして
出力される（ステップＳ１６）。図１２は図３に示すＸ
ＭＬ文書を対象として、図２に示すスキーマ定義に基づ
いて属性の抽出処理を行った結果として出力されるリス
トを示す図である。図１２では、属性名”ＲＡＭ”に対
して、元のＸＭＬ文書のタグを残したままで属性値とし
て抽出している。これは、元の文書のタグの意味をでき
るだけ失わないように属性値を抽出するためである。

【００５０】次に、図４に示したＨＴＭＬ文書を対象と
して、図２に示したスキーマ定義に従って属性リスト１
ｄを抽出する場合の処理の流れを具体的に説明する。図
５に示すフローチャートにおいて、ステップＳ１１で図
４に示した対象文書を読み込み、ステップＳ１２で読み
込んだ文書の構造を解析する。図１３に解析の結果とし
て形成される木構造のモデルを示す。ステップＳ１３で
図２に示すスキーマを読み込み、ステップＳ１４で、木
構造のルートノードすなわち要素”ｈｔｍｌ”を読み込
み、ステップＳ１５で要素の照合処理を行う。

【００５１】以後、ノード１１０１からノード１１０８
まで順次処理されるが、いずれも図２に示す各属性スキ
ーマの文字列パターンと適合しない。次に、ノード１１
０８の子ノード１１０９すなわち”Ｍｏｄｅｌ”につい
て、図８に示すフローチャートにおいて、テキストの照
合処理が行われる。

【００５２】まず処理対象のテキスト”Ｍｏｄｅｌ”を
読み込み（ステップＳ４１）、属性スキーマ１を読み込
む（ステップＳ４２）。テキスト”Ｍｏｄｅｌ”と属性
スキーマ１に指定された文字列パターン”（Ｍｏｄｅｌ
｜モデル｜Ｐｒｏｄｕｃｔ）”が照合され（ステップＳ
４３）、照合の結果、テキストが文字列パターンに適合
したかどうかが検査され（ステップＳ４４）、テキスト
と文字列パターンが適合するので、ステップＳ４６で、
このテキストノードを一時保存し、ステップＳ４７で探
索モードを”属性値”に設定して処理を終了する。

【００５３】ステップＳ２６のテキストの照合処理が終
了すると、探索モードが検査される（ステップＳ２
８）。探索モードが”属性値”であるので、ステップＳ
２９の属性値の抽出処理を行う。

【００５４】図９に示すフローチャートにおいて、ま
ず、この処理の呼び出し元である図６に示したフローチ
ャートで処理対象となっているノード１１０８を読み込
む（ステップＳ５１）。次に、図８に示したフローチャ
ートのステップＳ４６で保存されたテキストノード”Ｍ
ｏｄｅｌ”を読み込む（ステップＳ５２）。

【００５５】次に、ステップＳ５１で読み込まれたノー
ド１１０８の下位にあるノードの中で、ステップＳ５２
で読み込まれたテキストノードの次に出現するテキスト
ノードを探索する（ステップＳ５３）。次のテキストノ
ードが存在するかどうかを検査し（ステップＳ５４）、
次のテキストノードが見つからないので処理を終了す
る。

【００５６】ステップＳ２９の属性値の抽出処理が終了
すると、ステップＳ２３に戻って子ノードがさらにある
かどうかを確認し、ノード１１０８には子ノードが残っ
ていないので処理を終了する。

【００５７】ステップＳ２７のノード１１０８に対する
要素の照合処理が終了すると、探索モードが検査される
（ステップＳ２８）。探索モードが依然として”属性
値”であるので、ステップＳ２９の属性値の抽出処理を
行う。

【００５８】図９に示すフローチャートにおいて、ま
ず、この処理の呼び出し元である図６に示したフローチ
ャートで処理対象となっているノード１１０７すなわち
要素”ｔｒ”を読み込む（ステップＳ５１）。次に、図
８に示したフローチャートのステップＳ４６で保存され
たテキストノード”Ｍｏｄｅｌ”を読み込む（ステップ
Ｓ５２）。

【００５９】次に、ステップＳ５１で読み込まれたノー
ド１１０７の下位にあるノードの中で、ステップＳ５２
で読み込まれたテキストノードの次に出現するテキスト
ノードを探索する（ステップＳ５３）。次のテキストノ
ードが存在するかどうかを検査すると（ステップＳ５
４）、ノード１１１１すなわち”ＢＡＲＰ２−４０
０”がある。そこで、ノード１１０７の子ノードである
ノード１１０８を読み込む（ステップＳ５５）。

【００６０】ステップＳ５５で子ノードが読み込まれる
と、そのノードがステップＳ５２で読み込まれたテキス
トノード”Ｍｏｄｅｌ”を含むかどうかが検査される
（ステップＳ５６）。ノード１１０８はテキストノー
ド”Ｍｏｄｅｌ”を含むので、適合した文字列パター
ン”（Ｍｏｄｅｌ｜モデル｜Ｐｒｏｄｕｃｔ）”を持つ
属性スキーマ１に指定された抽出時の属性名”モデル”
が取り出され、その属性名を要素名とする新たな要素が
生成され（ステップＳ５７）、呼び出し元の要素であ
る”ｔｒ”の子として挿入され（ステップＳ５８）、ノ
ード１１０８が削除され（ステップＳ５９）、探索モー
ドとして”属性名”が設定される（ステップＳ６０）。

【００６１】ステップＳ６０の処理が終了すると、ステ
ップＳ５１で読み込まれたノード１１０７の子ノードの
中で未処理のものが存在するかどうかを検査する（ステ
ップＳ６２）。ここで未処理の子ノードであるノード１
１１０が存在するので、ステップＳ５５へ戻って子ノー
ドを読み込む。ノード１１１０はステップＳ５２で読み
込まれたテキストノード”Ｍｏｄｅｌ”を含まないの
で、ステップＳ５７で生成された要素ノード”モデル”
の子ノードとして追加される（ステップＳ６１）。ステ
ップＳ６１の処理が終了すると、ステップＳ５１で読み
込まれたノード１１０７の子ノードの中で未処理のもの
が存在するかどうかを検査する（ステップＳ６２）。こ
こで未処理の子ノードはもうないので、この処理を終了
する。

【００６２】ステップＳ２７のノード１１０７に対して
要素の照合処理が終了すると、探索モードが検査される
（ステップＳ２８）。探索モードが”属性名”に戻った
ので、ステップＳ２３に戻って子ノードがさらにあるか
どうかを確認すると、ノード１１０６には子ノードさら
に４つ（１１１２、１１１７、１１２２、１１２７）残
っているので、これらのノードを順次処理する。

【００６３】図１４に、全てのノードについて要素の照
合処理が終了した状態の木構造を示す。図１４では、判
例に示すように、生成された要素を元の要素と区別して
示してある。

【００６４】全ての子ノードの処理が終わると、図５に
示すフローチャートに戻り、変換または生成された要素
から属性が抽出され、属性名と属性値の組のリストとし
て出力される（ステップＳ１６）。図１５は図４に示す
ＨＴＭＬ文書を対象として、図２に示すスキーマ定義に
基づいて属性の抽出処理を行った結果として出力される
リストを示す図である。

【００６５】以上説明したように、本形態では、属性ス
キーマの集合として定義されたスキーマに従って属性名
を文書の要素及びテキストから抽出することとしたた
め、特定の利用目的のためにタグを定義して記述された
ＳＧＭＬ文書やＸＭＬ文書中の情報であっても、限定さ
れたタグの集合しか利用できないＨＴＭＬ文書中の情報
であっても、必要な属性を容易に抽出することができ
る。

【００６６】次に、本発明における第２の実施の形態に
ついて説明する。図１６は、第２の実施の形態における
属性抽出装置１０の原理構成図である。図１６に示すよ
うに、属性抽出装置１０は、抽出する属性の集合をスキ
ーマとして定義するスキーマ定義部１０ｂ、スキーマ定
義部１０ｂで与えられたスキーマ定義に従って属性の並
びを抽出する属性抽出部１０ｃ及び属性名と属性値を区
切る区切り文字を指定する区切り文字指定部１０ｅによ
り構成されており、属性抽出の対象となる構造化文書１
０ａを属性抽出部１０ｃで処理することにより、その処
理結果である属性リスト１０ｄを得ることができる。

【００６７】次に、本形態の属性抽出装置１０における
構造化文書１０ａからの属性リスト１０ｄ抽出処理につ
いて説明する。本形態では、属性の抽出処理全体、要素
の照合処理、要素名の照合処理および属性値の抽出処理
は、それぞれ第１の実施の形態における図５、図６、図
７、図９に示したフローチャートと同様であり、テキス
トの抽出処理だけが異なっている。

【００６８】図１７は、本形態におけるテキストの抽出
処理の流れを示すフローチャートである。また、図１８
に本形態において対象となる構造化文書１０ａの一例を
示す。図１８に示した文書はＨＴＭＬ文書であり、テキ
ストの中に区切り文字”：”が使用されている。

【００６９】ここで、図１８に示したＨＴＭＬ文書を対
象として、図２に示したスキーマ定義に従って属性リス
ト１０ｄを抽出する場合の処理の流れを具体的に説明す
る。まず、図５に示したフローチャートに沿って処理が
行われる。次に、図６、図７に示すフローチャートに沿
って、要素の照合処理および要素名の処理が行われる。
図１８に示したＨＴＭＬ文書を対象にした場合、図２に
示したスキーマの各属性スキーマの文字列パターンに適
合する要素名は存在しない。そこで、要素の照合処理お
よび要素名の照合処理については説明を省略する。

【００７０】図６に示したフローチャートのステップＳ
２６においてテキストの照合処理が呼び出されると、図
１７に示したフローチャートにおいて、まずテキストが
読み込まれる（ステップＳ４０１）。図１８に示したＨ
ＴＭＬ文書を対象としたとき、まず最初のテキストとし
て”ＢＡＲＰ２−４５０”が読み込まれる。

【００７１】次に、属性スキーマ１を読み込む（ステッ
プＳ４０２）。テキスト”ＢＡＲＰ２−４５０”と属性
スキーマ１に指定された文字列パターン”（Ｍｏｄｅｌ
｜モデル｜Ｐｒｏｄｕｃｔ）”が照合され（ステップＳ
４０３）、照合の結果、テキストが文字列パターンに適
合したかどうかが検査され（ステップＳ４０４）、テキ
ストと文字列パターンが適合しないので、スキーマ中に
さらに属性スキーマが定義されているかどうかを検査し
（ステップＳ４０５）、属性スキーマがまだあればステ
ップＳ４０２に戻って次の属性スキーマを読み込む。こ
こでは、図２に示す属性スキーマ２から属性スキーマ４
までが順次読み込まれ、いずれの文字列パターンもテキ
スト”ＢＡＲＰ２−４５０”と適合しないので処理を
終了する。

【００７２】図６に示したフローチャートのステップＳ
２６において次のテキストである”Ｍｏｄｅｌ：Ｂ
ＡＲＰ２−４５０”を対象としてテキストの照合処理
が呼び出されると、図１７に示したフローチャートにお
いて、まずテキスト”Ｍｏｄｅｌ：ＢＡＲＰ２−
４５０”が読み込まれる（ステップＳ４０１）。属性ス
キーマ１が読み込まれ（ステップＳ４０２）、テキス
ト”Ｍｏｄｅｌ：ＢＡＲＰ２−４５０”と属性ス
キーマ１に指定された文字列パターン”（Ｍｏｄｅｌ｜
モデル｜Ｐｒｏｄｕｃｔ）”が照合され（ステップＳ４
０３）、照合の結果、テキストが文字列パターンに適合
したかどうかが検査され（ステップＳ４０４）、テキス
トと文字列パターンが適合するので、ステップＳ４０６
に進む。

【００７３】ステップＳ４０６で、属性抽出部１０ｃ
は、区切り文字指定部１０ｅで指定された区切り文字が
テキストに含まれるかどうかを検査する。ここでは、区
切り文字指定部１０ｅにおいて、区切り文字”：”が予
め指定されているものとする。

【００７４】テキスト”Ｍｏｄｅｌ：ＢＡＲＰ２
−４５０”には、区切り文字”：”が存在するので、こ
のテキストの区切り文字より前の文字列”Ｍｏｄｅｌ”
を属性名とし、区切り文字より後ろの文字列”ＢＡＲ
Ｐ２−４５０”を属性値として抽出する（ステップＳ４
０７）。次に、属性名”Ｍｏｄｅｌ”を要素名とする新
たな要素を生成し（ステップＳ４０８）、この処理の呼
び出し元で処理対象となっていた要素である”ｌｉ”の
子として挿入する（ステップＳ４０９）。要素を生成す
る際に、ステップＳ４０７で抽出された属性値のテキス
ト”ＢＡＲＰ２−４５０”は、要素”Ｍｏｄｅｌ”の
内容となる。次に、テキストノード”Ｍｏｄｅｌ：
ＢＡＲＰ２−４５０”を削除し（ステップＳ４１
０）、処理を終了する。

【００７５】さらに、残りのテキストノード”ＣＰＵ
：Ｐ２４５０ＭＨｚ”、”ＲＡＭ：６４Ｍ
Ｂ”、”ＨａｒｄＤｉｓｋ：４．３ＧＢ”、”Ｃ
Ｄ−ＲＯＭ：３２ｘＡＴＡＰＩ”についても同様
にテキストの照合処理が行われ、属性が抽出される。抽
出される属性リスト１０ｄは属性値中のタグがないこと
を除いて図１５に示したものと同じである。

【００７６】以上説明したように、本形態では、区切り
文字指定部１０ｅの指定に従って、文書の要素、テキス
ト及び区切り文字で仕切られたテキストの一部を属性名
として抽出することとしたため、属性名と属性値が同一
のテキスト内に記述されている場合であっても、必要な
属性を同じように抽出することができる。

【００７７】次に、本発明における第３の実施の形態に
ついて説明する。図１９は、第３の実施の形態における
属性抽出装置２０の原理構成図である。図１９に示すよ
うに、属性抽出装置２０は、抽出する属性の集合をスキ
ーマとして定義するスキーマ定義部２０ｂ、スキーマ定
義部２０ｂで与えられたスキーマ定義に従って属性の並
びを抽出する属性抽出部２０ｃ、対象となる文書におけ
る要素の順位付けが記述されている要素順位指定記述２
０ｆ及び要素順位指定記述２０ｆに基づいて与えられた
２つの要素の順位を比較する要素順位比較部２０ｅによ
り構成されており、属性抽出の対象となる構造化文書２
０ａを属性抽出部２０ｃで処理することにより、その処
理結果である属性リスト２０ｄを得ることができる。

【００７８】次に、本形態の属性抽出装置２０における
構造化文書２０ａからの属性リスト２０ｄ抽出処理につ
いて説明する。本形態では、属性の抽出処理全体、要素
の照合処理、要素名の照合処理およびテキストの照合処
理は、それぞれ第１の実施の形態における図５、図６、
図７、図８に示したフローチャートと同様であり、属性
値の抽出処理だけが異なっている。なお、テキストの照
合処理については、第２の実施の形態において示した図
１７のフローチャートに沿って処理してもよい。

【００７９】図２０は、本形態における属性値の抽出処
理の流れを示すフローチャートである。また、図２１に
本形態において対象となる構造化文書２０ａの一例を示
す。図２１に示した文書はＨＴＭＬ文書であり、定義リ
ストを表す要素”ｄｌ”の子要素として、要素”ｄｔ”
（用語を表す）と”ｄｄ”（用語の定義を表す）が同じ
階層に混在して並んでいるという構造を持っている。

【００８０】図２２に、対象文書をＨＴＭＬ文書とした
場合の要素順位指定記述２０ｆの例を示す。図２２の要
素順位指定記述２０ｆは、ＨＴＭＬ文書に出現可能な要
素間で構造的に上位と下位の関係にあるものを列挙して
いる。例えばＨＴＭＬにおいて見出しを表現する”ｈ
１”、”ｈ２”、．．．等の要素は数字の小さいほうが
構造的に上位である。また、見出しを表す要素よりも段
落を表す要素”ｐ”の方が構造的に下位にある。このよ
うに対象文書に応じて要素間の構造的な上下関係を予め
指定しておくことにより、対象文書中における任意の２
つの要素について上下関係を比較することができる。な
お、同じ要素名の要素については上下の区別はないもの
とし、また、要素順位指定記述２０ｆから上下関係が計
算できない要素同士においても上下の区別はないものと
する。

【００８１】ここで、図２１に示したＨＴＭＬ文書を対
象として、図２に示したスキーマ定義に従って属性リス
ト２０ｄを抽出する場合の処理の流れを具体的に説明す
る。まず、図５に示したフローチャートに沿って処理が
行われる。次に、図６、図７に示すフローチャートに沿
って、要素の照合処理および要素名の処理が行われる。
図２１に示したＨＴＭＬ文書を対象にした場合、図２に
示したスキーマの各属性スキーマの文字列パターンに適
合する要素名は存在しない。そこで、要素の照合処理お
よび要素名の照合処理については説明を省略する。

【００８２】図６に示したフローチャートのステップＳ
２６においてテキストの照合処理が呼び出されると、図
８に示したフローチャートにおいて、まずテキストが読
み込まれる（ステップＳ４１）。図２１に示したＨＴＭ
Ｌ文書を対象としたとき、まず最初のテキストとして”
ＢＡＲＰ２−４５０”が読み込まれる。

【００８３】次に、属性スキーマ１を読み込む（ステッ
プＳ４２）。テキスト”ＢＡＲＰ２−４５０”と属性
スキーマ１に指定された文字列パターン”（Ｍｏｄｅｌ
｜モデル｜Ｐｒｏｄｕｃｔ）”が照合され（ステップＳ
４３）、照合の結果、テキストが文字列パターンに適合
したかどうかが検査され（ステップＳ４４）、テキスト
と文字列パターンが適合しないので、スキーマ中にさら
に属性スキーマが定義されているかどうかを検査し（ス
テップＳ４５）、属性スキーマがまだあればステップＳ
４２に戻って次の属性スキーマを読み込む。ここでは、
図２に示す属性スキーマ２から属性スキーマ４までが順
次読み込まれ、いずれの文字列パターンもテキスト”Ｂ
ＡＲＰ２−４５０”と適合しないので処理を終了す
る。

【００８４】図６に示したフローチャートのステップＳ
２６において次のテキストである”Ｍｏｄｅｌ”を対象
としてテキストの照合処理が呼び出されると、図８に示
したフローチャートにおいて、まず処理対象のテキス
ト”Ｍｏｄｅｌ”を読み込み（ステップＳ４１）、属性
スキーマ１を読み込む（ステップＳ４２）。テキスト”
Ｍｏｄｅｌ”と属性スキーマ１に指定された文字列パタ
ーン”（Ｍｏｄｅｌ｜モデル｜Ｐｒｏｄｕｃｔ）”が照
合され（ステップＳ４３）、照合の結果、テキストが文
字列パターンに適合したかどうかが検査され（ステップ
Ｓ４４）、テキストと文字列パターンが適合するので、
ステップＳ４６で、このテキストノードを一時保存し、
ステップＳ４７で探索モードを”属性値”に設定して処
理を終了する。

【００８５】図６に示したステップＳ２６のテキストの
照合処理が終了すると、探索モードが検査される（ステ
ップＳ２８）。探索モードが”属性値”であるので、ス
テップＳ２９の属性値の抽出処理を行う。

【００８６】図２０に示すフローチャートにおいて、ま
ず、この処理の呼び出し元である図６に示したフローチ
ャートで処理対象となっている要素”ｄｔ”を読み込む
（ステップＳ８１）。次に、図８に示したフローチャー
トのステップＳ４６で保存されたテキストノード”Ｍｏ
ｄｅｌ”を読み込む（ステップＳ８２）。

【００８７】次に、ステップＳ８１で読み込まれた要
素”ｄｔ”の下位にあるノードの中で、ステップＳ８２
で読み込まれたテキストノードの次に出現するテキスト
ノードを探索する（ステップＳ８３）。次のテキストノ
ードが存在するかどうかを検査し（ステップＳ８４）、
次のテキストノードが見つからないので処理を終了す
る。

【００８８】ステップＳ２９の属性値の抽出処理が終了
すると、ステップＳ２３に戻って子ノードがさらにある
かどうかを確認し、要素”ｄｔ”には子ノードが残って
いないので処理を終了する。

【００８９】ステップＳ２７の要素”ｄｔ”の照合処理
が終了すると、探索モードが検査される（ステップＳ２
８）。探索モードが依然として”属性値”であるので、
ステップＳ２９の属性値の抽出処理を行う。

【００９０】図２０に示すフローチャートにおいて、ま
ず、この処理の呼び出し元である図６に示したフローチ
ャートで処理対象となっている要素”ｄｌ”を読み込む
（ステップＳ８１）。次に、図８に示したフローチャー
トのステップＳ４６で保存されたテキストノード”Ｍｏ
ｄｅｌ”を読み込む（ステップＳ８２）。

【００９１】次に、ステップＳ８１で読み込まれた要
素”ｄｌ”の下位にあるノードの中で、ステップＳ８２
で読み込まれたテキストノードの次に出現するテキスト
ノードを探索する（ステップＳ８３）。次のテキストノ
ードが存在するかどうかを検査すると（ステップＳ８
４）、”ＢＡＲＰ２−４００”がある。そこで、要
素”ｄｌ”の子ノードである要素”ｄｔ”（第１子）を
読み込む（ステップＳ８５）。

【００９２】ステップＳ８５で子ノードが読み込まれる
と、そのノードがステップＳ８２で読み込まれたテキス
トノード”Ｍｏｄｅｌ”を含むかどうかが検査される
（ステップＳ８６）。要素”ｄｔ”（第１子）はテキス
トノード”Ｍｏｄｅｌ”を含むので、適合した文字列パ
ターン”（Ｍｏｄｅｌ｜モデル｜Ｐｒｏｄｕｃｔ）”を
持つ属性スキーマ１に指定された抽出時の属性名”モデ
ル”が取り出され、その属性名を要素名とする新たな要
素が生成される（ステップＳ９１）。生成された要素
は、この処理の呼び出し元で処理対象となっている要
素、すなわち”ｄｌ”の子として挿入され（ステップＳ
９２）、ノードすなわち要素”ｄｔ”（第１子）は削除
され（ステップＳ９３）、探索モードとして”属性名”
が設定される（ステップＳ９４）。

【００９３】ステップＳ９４の処理が終了すると、ステ
ップＳ８１で読み込まれた要素”ｄｌ”の子ノードの中
で未処理のものが存在するかどうかを検査する（ステッ
プＳ９０）。ここで未処理の子ノードである要素”ｄ
ｄ”（第２子）が存在するので、ステップＳ８５へ戻っ
て子ノードを読み込む。要素”ｄｄ”（第２子）はステ
ップＳ８２で読み込まれたテキストノード”Ｍｏｄｅ
ｌ”を含まないので、ステップＳ９１で生成された要素
ノード”モデル”の元の要素である”ｄｔ”（第１子）
と、要素”ｄｄ”（第２子）とを比較する（ステップＳ
８７）。

【００９４】ここで、図２２に示した要素順位指定記述
２０ｆに従って”ｄｔ”と”ｄｄ”を比較すると（ステ
ップＳ８８）、”ｄｔ”の方が上であるので、ステップ
Ｓ９１で生成された要素ノード”モデル”の子ノードと
して追加される（ステップＳ８９）。ステップＳ８９の
処理が終了すると、ステップＳ８１で読み込まれた要
素”ｄｌ”の子ノードの中で未処理のものが存在するか
どうかを検査する（ステップＳ９０）。ここで未処理の
子ノードである要素”ｄｔ”（第３子）が存在するの
で、ステップＳ８５へ戻って子ノードを読み込む。要
素”ｄｔ”（第３子）はステップＳ８２で読み込まれた
テキストノード”Ｍｏｄｅｌ”を含まないので、ステッ
プＳ９１で生成された要素ノード”モデル”の元の要素
である”ｄｔ”（第１子）と、要素”ｄｔ”（第３子）
とを比較する（ステップＳ８７）。

【００９５】ここで、要素”ｄｔ”（第１子）と要素”
ｄｔ”（第３子）は同じ要素なので順位は同じである。
したがって、ここで属性値の抽出処理を終了する。図６
に戻って、ステップＳ２９の属性値の抽出処理が終了し
た後、ステップＳ２３に戻って子ノードがさらにあるか
どうかを確認し、要素”ｄｌ”には子ノードが残ってい
るので、これらの子ノードを順次処理し、同様にして属
性を抽出する。

【００９６】図５に示すフローチャートに戻り、抽出さ
れた全ての属性が属性名と属性値の組のリストとして出
力される（ステップＳ１６）。抽出される属性リスト２
０ｄは属性値中のタグがないことを除いて図１５に示し
たものと同じである。

【００９７】以上説明したように、本形態では、要素順
位指定記述２０ｆにより指定された要素順位に従って要
素の順位付けを行うこととしたため、同一の階層に要素
が並んでいる箇所から属性を抽出する場合であっても、
属性間の区切りを識別して属性を抽出することができ
る。

【００９８】次に、本発明における第４の実施の形態に
ついて説明する。本形態における原理構成は、図１に示
した第１の実施の形態における原理構成と同じである。

【００９９】次に、本形態において、構造化文書からど
のように属性リストが抽出されるかについて説明する。
本形態では、属性の抽出処理全体、要素の照合処理およ
びテキストの照合処理は、それぞれ第１の実施の形態に
おける図５、図６、図８に示したフローチャートと同様
であり、要素名の照合処理および属性値の抽出処理だけ
が異なっている。なお、テキストの照合処理について
は、第２の実施の形態において示した図１７のフローチ
ャートに沿って処理してもよい。

【０１００】図２４は、本形態における要素名の照合処
理の流れを示すフローチャートであり、図２５は、属性
値の抽出処理の流れを示すフローチャートである。図２
４に示したフローチャートでは、図７に示したフローチ
ャートに対して、ステップＳ１０６からステップＳ１０
８までが新たに付け加えられている。すなわち、処理対
象の要素名と属性スキーマの属性名の文字列パターンが
適合した場合に、その属性スキーマが属性値の文字列パ
ターンを持つかどうかを検査し（ステップＳ１０６）、
もし属性値の文字列パターンを持たなければ、要素名を
抽出時の属性名に変換し（ステップＳ１０９）、処理を
終了する。属性スキーマが属性値の文字列パターンを持
つ場合には、要素の内容に含まれるテキストに対して照
合を行い（ステップＳ１０７）、適合したかどうかを検
査し（ステップＳ１０８）、適合した場合には要素名を
抽出時の属性名に変換し（ステップＳ１０９）、処理を
終了する。要素の内容に含まれるテキストに対して属性
値の文字列パターンが適合しない場合にはそのまま処理
を終了する。

【０１０１】図２５に示したフローチャートでは、図９
に示したフローチャートに対して、ステップＳ１２３か
らステップＳ１２６までが新たに付け加えられている。
すなわち、生成された要素に対して子ノードが追加され
た場合に、その属性スキーマが属性値の文字列パターン
を持つかどうかを検査し（ステップＳ１２３）、もし属
性値の文字列パターンを持たなければ処理を終了する。
属性スキーマが属性値の文字列パターンを持つ場合に
は、生成された要素の内容に含まれるテキストに対して
照合を行い（ステップＳ１２４）、適合したかどうかを
検査し（ステップＳ１２５）、適合した場合には処理を
終了する。要素の内容に含まれるテキストに対して属性
値の文字列パターンが適合しない場合には、生成された
要素を削除して（ステップＳ１２６）、処理を終了す
る。

【０１０２】ここで、図３および図４に示した構造化文
書を対象として、図２３に示したスキーマ定義に従って
属性リストを抽出する場合の処理の流れを具体的に説明
する。図２３に示したスキーマ定義では、属性スキーマ
２に対して、属性値の文字列パターンとして”４５０Ｍ
Ｈｚ”が指定されている。

【０１０３】図３に示したＸＭＬ文書の解析結果の木構
造（図１０）において、ノード１００４は属性スキーマ
２の文字列パターン”（ＣＰＵ｜ｐｒｏｃｅｓｓｏｒ｜
プロセッサ）”に適合するが、その内容であるテキス
ト”Ｐ２４００ＭＨｚ”は、属性値の文字列パター
ン”４５０ＭＨｚ”に適合しない。したがってこの要素
は属性として抽出されない。図２６にこの処理の結果と
して抽出される属性リストを示す。

【０１０４】また、図４に示したＨＴＭＬ文書の解析結
果の木構造（図１３）において、ノード１１１４は属性
スキーマ２の文字列パターン”（ＣＰＵ｜ｐｒｏｃｅｓ
ｓｏｒ｜プロセッサ）”に適合する。さらにノード１１
１６は属性の文字列パターン”４５０ＭＨｚ”に適合す
る。したがって、この処理の結果として抽出される属性
リストは、図１５に示したものと同じである。

【０１０５】以上説明したように、本形態では、属性名
及び属性値について文字列パターンを指定した属性スキ
ーマの集合としてスキーマを定義し、そのスキーマに従
って文書の要素及びテキストを属性名として抽出するこ
ととしたため、特定の属性値を持つ属性だけを効率よく
抽出することができる。

【０１０６】次に、本発明における第５の実施の形態に
ついて説明する。図２７は、第５の実施の形態における
属性抽出装置３０の原理構成図である。図２７に示すよ
うに、属性抽出装置３０は、抽出する属性の集合をスキ
ーマとして定義するスキーマ定義部３０ｂ、スキーマ定
義部３０ｂで与えられたスキーマ定義に従って属性の並
びを抽出する属性抽出部３０ｃ及び対象となる文書の種
類に応じて、読み飛ばし可能な要素の種類を指定した記
述である読み飛ばし可能要素記述３０ｅにより構成され
ており、属性抽出の対象となる構造化文書３０ａを属性
抽出部３０ｃで処理することにより、その処理結果であ
る属性リスト３０ｄを得ることができる。

【０１０７】本形態では、属性の抽出処理全体、要素名
の照合処理、テキストの照合処理および属性値の抽出処
理は、それぞれ第１の実施の形態における図５、図７、
図８、図９に示したフローチャートと同様であり、要素
の照合処理だけが異なっている。

【０１０８】図２８は、本形態における要素の照合処理
の流れを示すフローチャートである。図２８に示したフ
ローチャートでは、図６に示したフローチャートに対し
て、ステップＳ２０３が新たに付け加えられている。

【０１０９】図２９は、図２８に示したフローチャート
のステップＳ２０３の読み飛ばし可能要素の展開処理の
流れを示すフローチャートである。ここで読み飛ばし可
能な要素として、文書中の意味的に連続しているテキス
トを分割するような要素を指定する。このような要素を
ここではインライン要素と呼ぶ。例えばＨＴＭＬでは、
テキスト中のある部分を太字にするという指定の意味を
持った要素”Ｂ”や、フォントのサイズを指定するため
の要素”ＦＯＮＴ”、テキスト中にハイパーリンクを埋
めこむための要素”Ａ”などがインライン要素の例であ
る。

【０１１０】特に、文書中のテキストノードと属性スキ
ーマの文字列パターンとを照合するときに、インライン
要素がテキストを分割していると、適合すべきテキスト
が分割されているために適合しないという場合があり得
る。本実施の形態においては、このような可能性をなく
し、インライン要素が埋めこまれていても適切にテキス
トノードと属性スキーマの文字列パターンを照合できる
ようにする。

【０１１１】以下、図２９に示すフローチャートに沿っ
て、読み飛ばし可能要素の展開処理について説明する。
まず、図２８に示すフローチャートにおいて処理対象と
なった要素について、未処理の子ノードがあるかどうか
を検査する（ステップＳ２１１）。子ノードがあれば、
これをＸとして１つ読み込む（ステップＳ２１２）。次
に、Ｘが要素であるかテキストであるかを検査する（ス
テップＳ２１３）。要素でなければステップＳ２１１に
戻り、他の子ノードがあるかどうかを検査する。Ｘが要
素である場合はさらに、読み飛ばし可能要素指定記述３
０ｅを参照して、Ｘが読み飛ばし可能であるかどうかを
検査する（ステップＳ２１４）。読み飛ばし可能でなけ
ればステップＳ２１１に戻り、他の子ノードがあるかど
うかを検査する。Ｘが読み飛ばし可能である場合には、
Ｘが子ノードを持つかどうかを検査する（ステップＳ２
１５）。Ｘが子ノードを持たない場合はそのままＸを削
除し（ステップＳ２１７）、Ｘが子ノードを持つ場合
は、全ての子ノードの並びを順序を保ったままＸの直後
に移動してから（ステップＳ２１６）、ステップＳ２１
７でＸを削除する。ステップＳ２１７でＸを削除する
と、ステップＳ２１１に戻り、他の子ノードがあるかど
うかを検査する。全ての子ノードに対する処理が終了す
ると、処理結果として残っている子ノードの並びのう
ち、テキストノードが連続して並んでいる部分があれ
ば、これらのテキストノードを連結して１つのテキスト
ノードに変換し（ステップＳ２１８）、処理を終了す
る。

【０１１２】以上説明したように、本形態では、読み飛
ばし可能要素指定記述３０ｅに従い、読み飛ばし可能な
要素の展開処理を行うこととしたため、本来連続してい
るテキストがインライン要素によって分割されている場
合でも、インライン要素を削除してテキストを連結し、
要素内のテキストと属性スキーマに指定された属性名の
文字列パターンとを適切に照合することが可能になる。

【０１１３】次に、本発明における第６の実施の形態に
ついて説明する。図３０は、第６の実施の形態における
属性抽出装置４０の原理構成図である。図３０に示すよ
うに、属性抽出装置４０は、抽出する属性の集合をスキ
ーマとして定義するスキーマ定義部４０ｂ、スキーマ定
義部４０ｂで与えられたスキーマ定義に従って属性の並
びを抽出する属性抽出部４０ｃ及び文書中の各要素に要
素属性が付与されている場合に、要素属性を要素とテキ
ストの組に変換する要素属性変換部４０ｅにより構成さ
れており、属性抽出の対象となる構造化文書４０ａを属
性抽出部４０ｃで処理することにより、その処理結果で
ある属性リスト４０ｄを得ることができる。

【０１１４】本形態では、属性の抽出処理全体、要素名
の照合処理、テキストの照合処理および属性値の抽出処
理は、それぞれ第１の実施の形態における図５、図７、
図８、図９に示したフローチャートと同様であり、要素
の照合処理だけが異なっている。

【０１１５】図３１は、本形態における要素の照合処理
の流れを示すフローチャートである。図３１に示したフ
ローチャートでは、図６に示したフローチャートに対し
て、ステップＳ３０３が新たに付け加えられている。

【０１１６】図３２は、図３１に示したフローチャート
のステップＳ３０３における要素属性の展開処理の流れ
を示すフローチャートである。要素属性は、ＳＧＭＬお
よびＸＭＬにおいては各要素の開始タグに付属する形で
記述される。図３３に示した文書は、ＰＣの仕様を記述
したＸＭＬ文書の一例である。図３３に示したＸＭＬ文
書は、要素”ＰＣ”の内容として、”Ｐｒｏｄｕｃｔ−
Ｎａｍｅ”という要素１２０２が先頭にあり、”ｐａｒ
ｔｓ”という要素が複数（１２０２から１２０６）並ん
でいるという構造を持っている。ここで”ｐａｒｔｓ”
要素には、”ｔｙｐｅ”と”ｏｐｔｉｏｎ”の２種類の
要素属性が指定されている。”ｔｙｐｅ”要素属性は全
ての”ｐａｒｔｓ”要素に存在するが、”ｏｐｔｉｏ
ｎ”要素属性は１部の”ｐａｒｔｓ”要素（１２０４）
にのみ存在する。

【０１１７】以下、図３２に示すフローチャートに沿っ
て、要素属性の展開処理について説明する。まず、図
３１に示すフローチャートにおいて処理対象となった要
素について、要素属性があるかどうかを検査する（ステ
ップＳ３１１）。要素属性があれば、これを１つ読み込
む（ステップＳ３１２）。次に、要素属性の属性値を取
り出し、属性値を内容とするテキストノードを生成する
（ステップＳ３１３）。次に、要素属性の属性名を取り
出し、属性名を要素名とする要素を生成する（ステップ
Ｓ３１４）。ステップＳ３１３で生成したテキストノー
ドを、ステップＳ３１４で生成した要素の子として追加
する（ステップＳ３１５）。ステップＳ３１４で生成し
た要素を元の要素の子として追加する（ステップＳ３１
６）。要素とテキストに変換された要素属性を削除し
（ステップＳ３１７）、ステップＳ３１１に戻って他の
要素属性があるかどうかを検査する。全ての要素属性に
対する処理が終了すると、この処理を終了する。

【０１１８】次に、図３３に示したＸＭＬ文書を対象と
して、要素属性の変換処理の具体的な処理の流れを説明
する。図３１のフローチャートに示した要素の照合処理
は、文書中の各要素について再帰的に実行される。ここ
で今、例えば要素１２０４が処理の対象になったとす
る。図３１のステップＳ３０３において、要素属性の展
開処理が実行されると、図３２に示したフローチャート
において、まず要素１２０４に要素属性があるかどうか
が検査される（ステップＳ３１１）。要素１２０４に
は、要素属性”ｔｙｐｅ”と”ｏｐｔｉｏｎ”が存在す
るので、まず要素属性”ｔｙｐｅ”を読み込む（ステッ
プＳ３１２）。要素属性”ｔｙｐｅ”の属性値”ｍｅｍ
ｏｒｙ”に対するテキストノードを生成し（ステップＳ
３１３）、属性名”ｔｙｐｅ”を要素名とする要素を新
たに生成する（ステップＳ３１４）。ステップＳ３１３
で生成したテキストノードをステップＳ３１４で生成し
た要素の子として追加し（ステップＳ３１５）、ステッ
プＳ３１４で生成した要素を要素１２０４の子として先
頭に挿入する（ステップＳ３１６）。処理の終わった要
素属性”ｔｙｐｅ”が削除され（ステップＳ３１７）、
ステップＳ３１１に戻ってさらに要素属性があるかどう
かを検査する。

【０１１９】次に、要素１２０４には要素属性”ｏｐｔ
ｉｏｎ”が残っているので、これについても同様に処理
を行う。このようにして、文書中の全ての要素に対して
要素属性があるかどうかを検査し、要素属性がある場合
には新たな要素とテキストノードを生成して子として挿
入することにより、結果として図３３に示した文書は、
図３４に示すような文書を処理することと同じとなる。
したがって、図２に示したスキーマ定義に基づいて、図
５、図３１、図３２、図７、図８、図９のフローチャー
トに沿って処理を行うと、結果として図３５に示すよう
に属性リスト４０ｄが抽出される。

【０１２０】以上説明したように、本形態では、要素属
性変換部４０ｅによって、要素属性から要素及びテキス
トノードを生成することとしたため、対象となる構造化
文書４０ａの要素名および要素内のテキストからだけで
なく、要素属性からも必要な属性を抽出することができ
る。

【０１２１】なお、上記の処理機能は、コンピュータに
よって実現することができる。その場合、属性抽出装置
が有すべき機能の処理内容は、コンピュータで読み取り
可能な記録媒体に記録されたプログラムに記述してお
く。そして、このプログラムをコンピュータで実行する
ことにより、上記処理がコンピュータで実現される。コ
ンピュータで読み取り可能な記録媒体としては、磁気記
録装置や半導体メモリ等がある。市場に流通させる場合
には、ＣＤ−ＲＯＭ(Compact Disk Read Only Memory)
やフロッピーディスク等の可搬型記録媒体にプログラム
を格納して流通させたり、ネットワークを介して接続さ
れたコンピュータの記憶装置に格納しておき、ネットワ
ークを通じて他のコンピュータに転送することもでき
る。コンピュータで実行する際には、コンピュータ内の
ハードディスク装置等にプログラムを格納しておき、メ
インメモリにロードして実行する。

【０１２２】

【発明の効果】以上説明したように本発明では、属性ス
キーマの集合として定義されたスキーマに従って属性名
及び属性値を抽出することとしたため、構造化文書の多
様な表現に対して、これら多様な表現の違いを意識する
必要がなく、簡易な指定で必要な属性名及び属性値を抽
出することができる。

【０１２３】また、区切り文字指定手段の指定に従っ
て、区切り文字で仕切られたテキストの一部を属性名と
して抽出することとしたため、属性名と属性値が同一の
テキスト内に記述されている場合であっても、必要な属
性を同じように抽出することができる。

【０１２４】さらに、要素順位比較手段に従って要素の
順位付けを行うこととしたため、同一の階層に要素が並
んでいる箇所から属性を抽出する場合であっても、属性
間の区切りを識別して属性を抽出することができる。

【０１２５】また、属性名及び属性値について文字列パ
ターンを指定した属性スキーマの集合としてスキーマを
定義し、そのスキーマに従って文書の要素及びテキスト
を属性名として抽出することとしたため、特定の属性値
を持つ属性だけを効率よく抽出することができる。

【０１２６】さらに、予め指定された種類の要素を読み
飛ばして照合することとしたため、本来連続しているテ
キストがインライン要素によって分割されている場合で
も、インライン要素を削除してテキストを連結し、要素
内のテキストと属性スキーマに指定された属性名の文字
列パターンとを適切に照合することが可能になる。

【０１２７】また、要素属性変換手段によって、要素属
性から要素及びテキストノードを生成することとしたた
め、対象となる構造化文書の要素名および要素内のテキ
ストからだけでなく、要素属性からも必要な属性を抽出
することができる。

【図面の簡単な説明】

【図１】第１の実施の形態における属性抽出装置の原
理構成図である。

【図２】スキーマ定義部で定義されるスキーマの一例
を示す図である。

【図３】属性抽出の対象となる構造化文書の例を示す
図である。

【図４】属性抽出の対象となる構造化文書の例を示す
図である。

【図５】属性リスト抽出処理の一連の流れを示すフロ
ーチャートである。

【図６】要素の照合処理の流れを示すフローチャート
である。

【図７】要素名の照合処理の流れを示すフローチャー
トである。

【図８】テキストの照合処理の流れを示すフローチャ
ートである。

【図９】属性値の抽出処理の流れを示すフローチャー
トである。

【図１０】解析の結果として形成される木構造のモデ
ル図である。

【図１１】全てのノードについて要素の照合処理が終
了した状態の木構造図である。

【図１２】図３に示すＸＭＬ文書を対象として、図２
に示すスキーマ定義に基づいて属性の抽出処理を行った
結果として出力されるリストを示す図である。

【図１３】解析の結果として形成される木構造のモデ
ル図である。

【図１４】全てのノードについて要素の照合処理が終
了した状態の木構造図である。

【図１５】図４に示すＨＴＭＬ文書を対象として、図
２に示すスキーマ定義に基づいて属性の抽出処理を行っ
た結果として出力されるリストを示す図である。

【図１６】第２の実施の形態における属性抽出装置の
原理構成図である。

【図１７】第２の実施の形態におけるテキストの抽出
処理の流れを示すフローチャートである。

【図１８】第２の実施の形態において対象となる構造
化文書の一例を示す図である。

【図１９】第３の実施の形態における属性抽出装置の
原理構成図である。

【図２０】第３の実施の形態における属性値の抽出処
理の流れを示すフローチャートである。

【図２１】第３の実施の形態において対象となる構造
化文書の一例を示す図である。

【図２２】対象文書をＨＴＭＬ文書とした場合の要素
順位指定記述の例を示す図である。

【図２３】属性値文字列パターンを含むスキーマの一
例を表した図である。

【図２４】本形態における要素名の照合処理の流れを
示すフローチャートである。

【図２５】属性値の抽出処理の流れを示すフローチャ
ートである。

【図２６】処理の結果として抽出される属性リストを
示した図である。

【図２７】第５の実施の形態における属性抽出装置の
原理構成図である。

【図２８】第５の実施の形態における要素の照合処理
の流れを示すフローチャートである。

【図２９】図２８に示したフローチャートのステップ
Ｓ２０３の読み飛ばし可能要素の展開処理の流れを示す
フローチャートである。

【図３０】第６の実施の形態における属性抽出装置の
原理構成図である。

【図３１】第６の実施の形態における要素の照合処理
の流れを示すフローチャートである。

【図３２】図３１に示したフローチャートのステップ
Ｓ３０３における要素属性の展開処理の流れを示すフロ
ーチャートである。

【図３３】ＰＣの仕様を記述したＸＭＬ文書の一例を
示した図である。

【図３４】要素属性を展開した文書を示す図である。

【図３５】抽出される属性リストを示した図である。

【図３６】ＸＭＬ文書の一例を示す図である。

【図３７】ＸＭＬ文書の一例を示す図である。

【図３８】ＸＭＬ文書の一例を示す図である。

【図３９】ＸＭＬ文書の一例を示す図である。

【符号の説明】

１属性抽出装置１ａ構造化文書１ｂスキーマ定義部１ｃ属性抽出部１ｄ属性リスト１０ｅ区切り文字指定部２０ｅ要素順位比較部２０ｆ要素順位指定記述３０ｅ読み飛ばし可能要素記述４０ｅ要素属性変換部

Claims

【特許請求の範囲】

【請求項１】構造化文書から属性の集合を抽出する属
性抽出装置において、前記構造化文書の属性を表す属性名と、前記属性名に対
応する文字列パターンと、を有する属性スキーマを定義
するスキーマ定義手段と、前記構造化文書を前記文字列パターンと照合することに
より、前記構造化文書の属性名及び属性値を抽出する属
性抽出手段と、を有することを特徴とする属性抽出装置。
【請求項２】前記属性抽出手段は、前記構造化文書の
要素及びテキストを前記文字列パターンと照合して、適
合した前記要素及び前記テキストを前記属性名として抽
出し、前記文字列パターンが前記要素に適合した場合
には、適合した要素の内容を前記属性値として抽出し、前記文字列パターンが前記テキストに適合した場合に
は、前記適合した第１テキストの祖先であり同時に前記
第１テキスト以外のテキストの祖先ともなる祖先要素を
特定し、前記祖先要素を祖先とする要素のうち前記第１
テキストが直接属する第１要素以外の要素、及び前記祖
先要素を祖先とするテキストのうち前記第１テキスト以
外のテキストを前記属性値として抽出することを特徴と
する請求項１記載の属性抽出装置。
【請求項３】前記テキスト内において前記属性名と前
記属性値を区切る区切り文字を指定する区切り文字指定
手段を有し、前記属性抽出手段は、前記第１テキストが前記区切り文
字を含む場合には、前記第１テキストの前記区切り文字
の前に出現する文字列を属性名として抽出し、前記区切
り文字の後ろに出現する文字列を属性値として抽出する
ことを特徴とする請求項２記載の属性抽出装置。
【請求項４】予め指定された要素の順位付けに基づい
て2つの要素の順位を比較する要素順位比較手段を有
し、前記要素順位比較手段は、前記第１要素と、前記祖先要
素を祖先とする要素のうち前記第１要素以外の要素とを
比較し、前記属性抽出手段は、前記第1要素よりも順位が低い要
素を属性値として抽出し、前記第1要素よりも順位が高
いか同じである要素が出現した時点で属性値の抽出を中
止することを特徴とする請求項2記載の属性抽出装置。
【請求項５】前記スキーマ定義手段は、属性値の文字
列パターンを有する属性スキーマを定義することが可能
であり、前記属性抽出手段は、前記属性スキーマが前記属性値の
文字列パターンを有する場合には、抽出した前記属性値
に含まれる各テキストを前記属性値の文字列パターンと
照合し、適合した場合にのみ属性を抽出することを特徴
とする請求項２記載の属性抽出装置。
【請求項６】前記属性抽出手段は、前記文字列パター
ンと前記テキストを照合する際に、予め指定された種類
の要素を読み飛ばして照合することを特徴とする請求項
２記載の属性抽出装置。
【請求項７】要素属性の属性名を要素名とする新たな
要素を生成し、前記要素属性の属性値を前記新たな要素
に含まれるテキストとし、前記新たな要素を前記要素属
性が付与されていた前記要素の直下の要素として挿入す
る要素属性変換手段を有することを特徴とする請求項２
記載の属性抽出装置。