JP7125322B2

JP7125322B2 - 属性抽出装置および属性抽出方法

Info

Publication number: JP7125322B2
Application number: JP2018196380A
Authority: JP
Inventors: 絵理照屋; 和秀愛甲
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2022-08-24
Anticipated expiration: 2038-10-18
Also published as: US11645312B2; JP2020064482A; US20200125592A1

Description

本発明は、属性抽出装置および属性抽出方法に関する。

文書から得られる情報を利活用することを目的として、文書から有用な情報のみを抽出する、情報抽出と呼ばれる技術が発展している。

情報抽出の例と活用法として、以下のものがあげられる。例えば、製造現場等において、製造機械に関する故障レポートから、当該製造機械の故障の状況、原因、対処等の情報を自動抽出し、この抽出データに基づいて故障発生傾向の分析、評価等を行い、故障への早期対処や対処の最適化等を図るというものがある。

なお、上述の故障レポートは、製造機械における故障の状況や原因、対処などが自然言語で記載されたレポートである。

また他の例として、膨大な化学系論文から、各論文内で議論されている化学物質に関わる物性値などのデータを抽出し、ＭａｔｅｒｉａｌｓＩｎｆｏｒｍａｔｉｃｓの記述子として使用しようという試みがある。

ＭａｔｅｒｉａｌｓＩｎｆｏｒｍａｔｉｃｓとは、既存の実験データ等を用いて、所望の機能を持つ新物質を効率的に探索する取り組みのことである。

ＭａｔｅｒｉａｌｓＩｎｆｏｒｍａｔｉｃｓに利用されるデータの抽出例としては、以下のものがあげられる。例えば、「Ｍａｔｅｒｉａｌ－Ａ」という物質に関わる内容が議論された論文から、この「Ｍａｔｅｒｉａｌ－Ａ」に関わる情報として、「属性名：物質名、属性値：Ｍａｔｅｒｉａｌ－Ａ」、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」、「属性名：Ｂｏｉｌｉｎｇｐｏｉｎｔ、属性値：８００Ｋ」、といった属性名および属性値を抽出するといった状況を想定できる。

ここで、上述のような属性名と属性値の組を属性情報と称し、以後の説明にて用いることとする。

上述のデータ抽出を行うにあたり、抽出対象となる属性名をユーザが予め全て定義せずとも、各論文中に記載された化学物質に関わる情報を網羅的かつ自動的に抽出できることが望まれる。

こうしたニーズは、化学物質に関する議論の観点が論文ごとに異なるため、論文間での属性名の記載が多岐にわたり、当該属性名を始めから網羅的に定義するのが困難であるために生じる。

そこで、ユーザが全ての属性名を予め定義せずとも、属性名を抽出する方法として、例えば、入力された１つのインスタンスと少なくとも１つのシード属性とから、属性相関知識データベースに基づいて１つ以上の構文に合致するクエリを作成するクエリ作成手段と、前記クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するテキスト検索手段と、検索されたテキストに対して前記構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するテキスト照合手段とを備えることを特徴とする属性抽出装置（特許文献１参照）などが提案されている。

特開２０１１－２０４２２５号公報

ところが従来技術においては、属性抽出ルールに則る単語を属性名として抽出するのみで、抽出した属性名間の関連性は不明な状態である。

例えば、ある論文中に「ＴｈｅｍｅｌｔｉｎｇｐｏｉｎｔｏｆｔｈｅＭａｔｅｒｉａｌ－Ａｕｎｄｅｒｔｈｅｐｒｅｓｓｕｒｅｏｆ１０００ｈＰａｉｓ
５００Ｋ．」という文書があったとする。

また、これを従来技術に適用して処理し、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」、「属性名：Ｐｒｅｓｓｕｒｅ、属性値：１０００ｈＰａ」という属性情報が抽出されたとする。

この抽出結果を人間が参照した場合、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」、「属性名：Ｐｒｅｓｓｕｒｅ、属性値：１０００ｈＰａ」という２つの属性情報の間に関連があるとことは推測できる。しかし、既に述べたとおり、２つの属性情報が独立に抽出されているだけで、２つの属性情報が関連することは判明しない。また、属性情報の抽出対象が多数の論文とすれば、上述の２つの属性情報以外にも膨大な数の属性情報が抽出される結果となる。

このような状況で、ユーザは、「Ｍｅｌｔｉｎｇｐｏｉｎｔ」が「５００Ｋ」以上の物質の候補をＭａｔｅｒｉａｌｓＩｎｆｏｒｍａｔｉｃｓにより発見したいと考えた場合、「Ｍｅｌｔｉｎｇｐｏｉｎｔ」をＭａｔｅｒｉａｌｓＩｎｆｏｒｍａｔｉｃｓの記述子として選択する。

この場合、従来技術では、当該記述子に関連する情報を列挙し、ＭａｔｅｒｉａｌｓＩｎｆｏｍａｔｉｃｓのＡＩに対する入力情報を生成する。また、この場合「Ｍｅｌｔｉｎｇｐｏｉｎｔ」に関連する「Ｐｒｅｓｓｕｒｅ」も記述子として使用することが好ましい。

しかし、上述のユーザが「Ｍｅｌｔｉｎｇｐｏｉｎｔ」と関連する属性名として「Ｐｒｅｓｓｉｒｅ」があることに気付かない場合、従来技術では「Ｍｅｌｔｉｎｇｐｏｉｎｔ」と「Ｐｒｅｓｓｕｒｅ」との関連を示さない。そのため、「Ｐｒｅｓｓｕｒｅ」を記述子として追加することが困難である。

仮に「Ｐｒｅｓｓｕｒｅ」を記述子として追加することが出来ても、膨大な属性情報が抽出されるため、ユーザが「Ｐｒｅｓｓｕｒｅ」をＭａｔｅｒｉａｌｓＩｎｆｏｒｍａｔｉｃｓに使用する記述子として発見するのに多くの時間がかかりやすい。

そこで本発明の目的は、文書が含む属性情報のうち、ユーザ指定の属性情報と当該属性情報に付加価値を与えうる他の属性情報とを、精度良く効率的に提示する技術を提供することにある。

上記課題を解決する本発明の属性抽出装置は、文書を保持する記憶部と、前記文書で記載されている各属性情報の間に関し、当該文書における文書構造に基づいて所定の指標を算出する処理と、前記属性情報のうち所定属性情報と当該所定属性情報以外の他属性情報各々との間に関し、前記指標および所定の統計上の性質に基づいて、前記所定属性情報に対する前記他属性情報各々の重要度を算出する処理と、を実行する演算部と、を備えることを特徴とする。

また、本発明の属性抽出方法は、文書を保持する記憶部を備えた情報処理装置が、前記文書で記載されている各属性情報の間に関し、当該文書における文書構造に基づいて所定の指標を算出する処理と、前記属性情報のうち所定属性情報と当該所定属性情報以外の他属性情報各々との間に関し、前記指標および所定の統計上の性質に基づいて、前記所定属性情報に対する前記他属性情報各々の重要度を算出する処理と、を実行することを特徴とする。

また、本発明の属性抽出プログラムは、文書を保持する記憶部を備えた情報処理装置に、前記文書で記載されている各属性情報の間に関し、当該文書における文書構造に基づいて所定の指標を算出する処理と、前記属性情報のうち所定属性情報と当該所定属性情報以外の他属性情報各々との間に関し、前記指標および所定の統計上の性質に基づいて、前記所定属性情報に対する前記他属性情報各々の重要度を算出する処理と、を実行させることを特徴とする。

本発明によれば、文書が含む属性情報のうち、ユーザ指定の属性情報と当該属性情報に付加価値を与えうる他の属性情報とを、精度良く効率的に提示できる。

実施例１の計算機システムの構成の一例を示す図である。実施例１のデータ管理サーバの構成の一例を示す図である。実施例１の文書情報テーブルの一例を示す図である。実施例１の抽出属性情報リストテーブルの一例を示す図である。実施例１の属性名文書内関連度テーブルの一例を示す図である。実施例１の属性値文書内関連度テーブルの一例を示す図である。実施例１の文書構造関連度テーブルの一例を示す図である。実施例１の属性名候補毎属性情報間関連度テーブルの一例を示す図である。実施例１の属性間統計テーブルの一例を示す図である。実施例１の関連属性情報抽出のフローチャート図である。実施例１の属性情報抽出処理のフローチャート図である。実施例１の属性情報間関連度算出処理のフローチャート図である。実施例１の文書構造指標算出処理のフローチャート図である。実施例１の文書構造指標算出方法の一例を示した図である。実施例１の統計指標算出処理のフローチャート図である。実施例１のユーザ指定属性情報抽出処理のフローチャート図である。実施例１の高関連度属性情報算出処理を示す図である。実施例１の情報抽出対象文書選択画面の一例を示した図である。実施例１の属性情報検索画面を示す図である。実施例２の高関連度属性情報算出処理のフローチャート図である。実施例２の高関連度属性情報算出方法の一例を示した図である。実施例３のユーザ指定属性情報テーブルの一例を示す図である。実施例３の関連属性情報テーブルの一例を示す図である。実施例３のユーザ指定属性情報抽出処理のフローチャート図である。実施例３の属性情報表示画面を示す図である。

－－－実施例１－－－
実施例１においては、ＭａｔｅｒｉａｌｓＩｎｆｏｒｍａｔｉｃｓに用いる記述子のユーザ選択がなされる際、分析に有用となる属性情報を属性抽出装置がユーザに提示する状況を想定する。なお、上述の記述子は、例えば化学系論文から抽出された属性情報中より選択されるものである。こうした状況に対応する属性抽出装置を含む全体構成について以下に示す。

＜属性抽出装置を含む全体構成の概要＞
図１は、実施例１の計算機システムの構成の一例を示す図である。計算機システムは、データ管理サーバ１０、複数のクライント３０、４０、５０、およびそれらを通信されるためのネットワーク６０から構成される。なお、本発明における属性抽出装置には、主としてデータ管理サーバ１０が該当するが、適宜にクライアント３０～５０と協働する構成も想定可能であり、データ管理サーバおよびクライアント３０～５０のいずれもが、またはそれらの組み合わせが属性抽出装置であるといえる（以下同様）。

本実施例におけるデータ管理サーバ１０は、主記憶装置１１、記憶装置１２、ＣＰＵ１３、ネットワークＩ／Ｆ（Interface）１４、制御プログラム群１１０、および管理デー
タ群１１１を含む。なお、管理データ群１１１は、制御プログラム群１１０によって利用されるデータである。

このうち主記憶装置１１は、揮発性メモリで構成されたＲＡＭを想定する。また、記憶装置１２は、不揮発性メモリで構成されたＳＳＤ（Solid State Drive）やＨＤＤ（Hard Disk Drive）を想定する。

また、ＣＰＵ１３は、主記憶装置１１で保持する制御プログラム群１１０を実行し、必要な機能を実装する演算装置である。すなわち、制御プログラム群１１０、および管理データ群１１１が主記憶装置１１に展開され、ＣＰＵ１３によって制御プログラム群１１０が実行される。

また、ネットワークＩ／Ｆ１４は、ネットワーク６０にアクセスし、クライアント３０～５０とのデータ通信を可能とする通信装置に該当する。

また、制御プログラム群１１０は、クライント３０、４０、５０からの情報抽出リクエストに応じて、上述した例えば化学系論文等の文書から属性情報を抽出し、当該属性情報に関して適宜な処理（属性抽出方法）を行った結果をクライント３０、４０、５０へ返答する機能を有する。

一方、クライアント３０は、主記憶装置３１、ＣＰＵ３３、ネットワークＩ／Ｆ３４、文書データ登録プログラム３１０、および関連属性情報抽出プログラム３１１を含む。

このうち主記憶装置３１は、揮発性メモリで構成されたＲＡＭを想定する。また、ＣＰＵ１３は、主記憶装置３１で保持する文書データ登録プログラム３１０、関連属性情報抽出プログラム３１１を実行し、必要な機能を実装する演算装置である。すなわち、文書データ登録プログラム３１０および関連属性情報抽出プログラム３１１が主記憶装置３１に展開され、ＣＰＵ３３によってが実行される。

また、ネットワークＩ／Ｆ３４は、ネットワーク６０にアクセスし、データ管理サーバ１０とのデータ通信を可能とする通信装置に該当する。

上述の文書データ登録プログラム３１０は、属性情報の抽出対象となる文書をユーザに登録させるためのプログラムである。

また、関連属性情報抽出プログラム３１１は、上述の文書データ登録プログラム３１０によって登録された文書に含まれる属性情報を、網羅的に出力し、さらにはユーザから属性情報を指定させるためのプログラムである。

なお、文書データ登録プログラム３１０および関連属性情報抽出プログラム３１１の機能を一つに纏めた構成としてもよい。また、データ管理サーバ１０が文書データ登録プログラム３１０および関連属性情報抽出プログラム３１１の機能を有してもよい。

また、クライアント４０、および５０は、クライアント３０と同様の構成であるため、説明を省略する。

なお、データ管理サーバ１０と複数のクライアント３０、４０、５０とは、それぞれが有するネットワークＩ／Ｆ（例えばネットワークＩ／Ｆ１４、２４、３４）が接続されいるネットワーク６０を利用し、必要に応じてデータ通信を行う。

ネットワーク６０の種類としては、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、もしくはその他のいかなるネットワークを介して接続されていてもよい。

＜データ例＞
図２は、データ管理サーバ１０の主記憶装置１１が有する制御プログラム群１１０および管理データ群１２０の詳細を示した図である。

このうち制御プログラム群１１０は、属性情報抽出処理部１３３、属性情報間関連度算出処理部１１４、およびユーザ指定属性情報抽出処理部１１５を含む。

また管理データ群１２０は、文書情報テーブル１２１、文書構造関連度算出テーブル群１２２、属性情報間関連度テーブル１２３、抽出属性情報リストテーブル１２４、テーブル間関連度算出テーブル群１２５、および関連属性情報表示テーブル群１２６を含む。

また、文書構造関連度算出テーブル群１２２は、属性名文書内関連度テーブル１２２１、属性値文書内関連度テーブル１２２２、および、文書構造間関連度テーブル１２２３を含む。

またテーブル間関連度算出テーブル群１２５は、属性名候補毎属性情報間関連度テーブル１２５１、属性間統計テーブル１２５２を含む。

また関連属性情報表示テーブル群１２６は、ユーザ指定属性情報テーブル１２６１、および関連属性情報テーブル１２６２を含む。

図３は、実施例１における文書情報テーブル１２１の一例を示す図である。文書情報テーブル１２１は、ユーザが登録した文書の情報を管理するためのテーブルである。

また、この文書情報テーブル１２１における各レコードは、文書ＩＤ１２１１、文書名１２１２、および文書データ１２１３を含むものとなる。

このうち文書ＩＤ１２１１は、文書を一意に特定する識別子である。また、文書名１２１２は、当該文書の名前である。また、文書データ１２１３は、当該文書の中身である、テキストデータである。つまり、この文書情報テーブル１２１には、化学系論文等のそれぞれが格納されている。

また図４は、実施例１における抽出属性情報リストテーブル１２４の一例を示す図である。この抽出属性情報リストテーブル１２４は、上述の文書情報テーブル１２１にある文書から抽出した属性情報をストアするテーブルである。

この抽出属性情報リストテーブル１２４における各レコードは、属性情報ＩＤ１２４１、属性名１２４２、属性値１２４３、文書ＩＤ１２４４、セクション名１２４５、抽出場所ラベル１２４６、および属性情報重要度１２４７を含む。

このうち属性情報ＩＤ１２４１は、抽出した属性を一意に特定するための識別子である。また属性名１２４２は、抽出した属性の名称であり、例えば「属性名：Ｍａｔｅｒｉａｌ」、「属性名：Ｃｈｅｍｉｃａｌａｍｏｕｎｔ」、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ」などの値がストアされる。

また、属性値１２４３は、抽出した属性名に対する属性値であり、「属性名：Ｍａｔｅｒｉａｌ」に対して「属性値：Ｍａｔｅ－Ａ」、「属性名：Ｃｈｅｍｉｃａｌａｍｏｕｎｔ」に対して「属性値：１０ｍｏｌ」、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ」に対して「属性値：１００Ｋ」などの値がストアされる。

また、文書ＩＤ１２４４は、属性情報を抽出した文書の識別子であり、文書ＩＤ１２１１の列に記録された値のうち該当する一つを有する。

また、抽出場所ラベル１２４６は、属性情報を抽出した文書中の場所を特定するためのラベルである。この抽出場所ラベル１２４６の値としては、例えば該当文書における文頭から数えた該当の属性名までの単語数（や行数、列数）などを用いてもよい。

また、属性情報重要度１２４７は、属性情報ＩＤ１２４１に対応する属性情報の重要度を属性抽出方法により数値化したものとなる。

図５は、実施例１における属性名文書内関連度テーブル１２２１の一例を示す図である。属性名文書内関連度テーブル１２２１は、抽出属性情報リストテーブル１２４に記録された属性情報における属性名と他の属性情報における属性名との文書内における関連度を記すためのテーブルである。

この属性名文書内関連度テーブル１２２１における各レコードは、属性情報ＩＤ１２２１１、属性名１２２１２、属性情報候補ＩＤ１２２１３、属性名候補１２２１４、および属性名文書内関連度１２２１５を含む。

図５では属性名「Ｍａｔｅｒｉａｌ」と、属性名「Ｍａｔｅｒｉａｌ」、「Ｃｈｅｍｉｃａｌａｍｏｉｕｎｔ」、「Ｍｅｌｔｉｎｇｐｏｉｎｔ」、「Ｐｒｅｓｓｕｒｅ」との各関連度、および「Ｍｅｌｔｉｎｇｐｏｉｎｔ」と、属性名「Ｍａｔｅｒｉａｌ」、「Ｃｈｅｍｉｃａｌａｍｏｉｕｎｔ」、「Ｍｅｌｔｉｎｇｐｏｉｎｔ」、「Ｐｒｅｓｓｕｒｅ」との各関連度を示している。

このうち属性情報ＩＤ１２２１１および属性名１２２１２は、関連する属性情報を探索する際の関連元属性情報の識別子および属性名であり、抽出属性情報リストテーブル１２
４中のレコードにおける属性情報ＩＤ１２４１と属性名１２４２の値のペアに対応する。

また、属性情報候補ＩＤ１２２１３は、属性情報ＩＤ１２２１１と属性名１２２１２の値の組によって特定される属性情報に関連する属性名の候補が存在するとき、関連する属性名候補を特定するための識別子であり、関連する属性名候補と対応する抽出属性情報リストテーブル１２４中の属性情報ＩＤ１２４１の値を登録する。

また、属性名候補１２２１４は、関連する属性情報が有する属性名である。また、属性名文書内関連度１２２１５は、属性名１２２１２と属性名候補１２２１４との属性名の関連度である。

また、図６は実施例１における属性値文書内関連度テーブル１２２２の一例を示す図である。属性値文書内関連度テーブル１２２２は、ある属性情報における属性値と他の属性情報における属性値との文書内における関連度を記すテーブルである。

この属性値文書内関連度テーブル１２２２における各レコードは、属性情報ＩＤ１２２２１、属性値１２２２２、属性情報候補ＩＤ１２２２３、属性値候補１２２２４、および属性値文書内関連度１２２２５を含む。

図６に示す例では、属性値「Ｍａｔｅ－Ａ」と属性値「Ｍａｔｅ－Ａ」、「１０Ｍｏｌ」、「５００Ｋ」、「１０００ｈＰａ」との関連度および属性値「５００Ｋ」と属性値「Ｍａｔｅ－Ａ」、「１０Ｍｏｌ」、「５００Ｋ」、「１０００ｈＰａ」との関連度を示している。

また、属性情報ＩＤ１２２２１および属性値１２２２２は、それぞれ関連する属性情報を探索する際の関連元属性情報の識別子および属性値であり、抽出属性情報リストテーブル１２４中のレコードにおける属性情報ＩＤ１２４１と属性値１２４３の値のペアに相当する。

また、属性情報候補ＩＤ１２２２３は、属性情報ＩＤ１２２２１と属性値１２２２２の値の組によって特定される属性情報に関連する属性名の候補が存在するとき、関連する属性値候補を特定するための識別子であり、関連する属性値候補と対応する抽出属性情報リストテーブル１２４中の属性情報ＩＤ１２４１の値を登録する。また、属性値候補１２２２４は、関連する属性値候補である。属性名文書内関連度１２２２５は属性値１２２２２と属性値候補１２２２４との属性値の関連度である。

図７は実施例１における文書構造間関連度テーブル１２２３の一例を示す図である。文書構造間関連度テーブル１２２３は、ある属性情報と他の属性情報との関連度を記すためのテーブルである。

この文書構造間関連度テーブル１２２３における各レコードは、属性情報ＩＤ１２２３１、属性名１２２３２、属性値１２２３３、属性情報候補ＩＤ１２２３４、属性名候補１２２３５、属性値候補１２２３６、文書内関連度１２２３７、および属性情報間関連度１２２３８を含む。

図７の例では、属性情報「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」と、属性情報「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」、属性情報「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」と属性情報「属性名：Ｃｈｅｍｉｃａｌａｍｏｉｕｎｔ、属性値：１０Ｍｏｌ」、属性情報「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」と属性情報「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」、属
性情報「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」と属性情報「属性名：Ｐｒｅｓｓｕｒｅ、属性値：１０００ｈＰａ」などとの関連度を示している。

こうした文書構造間関連度テーブル１２２３のレコードにおける、属性情報ＩＤ１２２３１、属性名１２２３２、および属性値１２２３３は、関連する属性情報を探索する際の関連元属性情報の識別子、属性名、および属性値であり、それぞれが抽出属性情報リストテーブル１２４中のレコードにおける属性情報ＩＤ１２４１、属性名１２４２、属性値１２４３に対応する。

また、属性情報候補ＩＤ１２２３４は、属性情報ＩＤ１２２３１と属性名１２２３２と属性値１２２３３の値の組によって特定される属性情報に関連する、属性名と属性値の組の候補が存在するとき、関連する属性名と属性値の組の候補を特定するための識別子であり、関連する属性名と属性値の組の候補と対応する抽出属性情報リストテーブル１２４中の属性情報ＩＤ１２４１の値を登録する。

また、属性名候補１２２３５および属性値候補１２２３６は、それぞれ関連する属性情報の属性名および属性値である。また、文書内関連度１２２３７は、各レコードにおける属性名１２２３２、属性値１２２３３、属性名候補１２２３５、および属性値候補１２２３６に対する文書内の関連度である。

また、属性情報間関連度１２２３８は、属性情報ＩＤ１２２３１を持つ属性情報と、属候情報候補ＩＤ１２２３４を持つ属性情報との属性情報の関連度である。

また、図８は実施例１における属性名候補毎属性情報間関連度テーブル１２５１の一例を示す図である。

属性名候補毎属性情報間関連度テーブル１２５１における各レコードは、属性情報を一意に特定する属性情報ＩＤ１２５５１をキーとして、属性名１２５１２、属性値１２５１３、属性情報候補ＩＤ１２５１４、属性名候補１２５１５、属性値候補１２５１６、文書内関連度１２５１７といった値を含む。

また、属性名候補毎属性情報間関連度テーブル１２５１は、関連する属性情報を探索する際の関連元属性情報に対し、関連する属性名毎に区別するためのテーブルであり、それぞれの関連属性名候補ごとにテーブルを作成する。

図中のテーブル（Ａ）、（Ｂ）、（Ｃ）、（Ｄ）は、関連属性名候補ごとに作成されたテーブルである。このうち図８では、関連元属性情報の属性名として「Ｍｅｌｔｉｎｇｐｏｉｎｔ」、関連する属性名として、テーブル（Ａ）に「Ｍａｔｅｒｉａｌ」、テーブル（Ｂ）に「Ｃｈｅｍｉｃａｌａｍｏｕｎｔ」、テーブル（Ｃ）に「Ｐｒｅｓｓｕｒｅ」、テーブル（Ｄ）に「Ｂｏｉｌｉｎｇｐｏｉｎｔ」の場合を示している。

こうした属性名候補毎属性情報間関連度テーブル１２５１における属性情報ＩＤ１２５５１は、ある属性情報に関連する属性情報を検知する際において、関連する属性情報を見つけたい側の属性情報のＩＤである。

また、属性名１２５１２、属性値１２５１３、属性情報候補ＩＤ１２５１４、属性名候補１２５１５、属性値候補１２５１６、および文書内関連度１２５１７は、文書構造間関連度テーブル１２２３中のそれぞれ属性情報ＩＤ１２２３１、属性名１２２３２、属性値１２２３３、属性情報候補ＩＤ１２２３４、属性名候補１２２３５、属性値候補１２２３６、および文書内関連度１２２３７に対応する。

なお、属性名候補毎属性情報間関連度テーブル１２５１では、文書構造間関連度テーブル１２２３中に存在しない関連元属性情報と関連属性情報候補の組のレコードを含むため、その場合にはレコード中で表現できない箇所に対して無値を示すシンボルが登録される。無値を示すシンボルとしては、”＝”や”ＮＵＬＬ”などテーブル内に存在する他の有効値と区別がつくシンボルであれば何でもよい。

また図９は、実施例１における属性間統計テーブル１２５２の一例を示す図である。属性間統計テーブル１２５２は、文書構造間関連度テーブル１２２３に記録されたレコードを基に、属性名と属性名候補との各種統計値を有するテーブルである。

こうした属性間統計テーブル１２５２における各レコードは、属性名１２５２１、属性名候補１２５２２、属性値数指標１２５２３、分散指標１２５２４、平均単語間関連度指標１２５２５、および総合統計指標１２５２６を含む。

このうち属性名１２５２１および属性名候補１２５２２は、文書構造間関連度テーブル１２２３に記録されたレコード中の属性名１２２３２および属性名候補１２２３５の組に対応する。

また、属性値数指標１２５２３は、文書構造間関連度テーブル１２２３に記録されたレコード中において属性名１２２３２および属性名候補１２２３５の組のレコード値が同一であるレコード数を基に指標とするものである。

また、分散指標１２５２４は、文書構造間関連度テーブル１２２３に記録されたレコード中において属性名１２２３２および属性名候補１２２３５の組のレコード値が同一である複数のレコードを対象とし、属性値候補１２２３６のレコード値の分散を指標とするものである。

また、平均単語間関連度指標１２５２５は、文書構造間関連度テーブル１２２３に記録されたレコード中において属性名１２２３２および属性名候補１２２３５の組のレコード値が同一である複数のレコードを対象とし、文書内関連度１２２３７のレコード値の平均を指標とするものである。

また、総合統計指標１２５２６は、各レコードにおいて属性値数指標１２５２３、分散指標１２５２４、平均単語間関連度指標１２５２５を基に算出した、当該レコードの総合的な統計指標である。

＜フロー例＞
次に、実施例１における属性抽出方法のフロー例について説明する。図１０は、実施例１における関連属性情報抽出フローの一例を示した図である。具体的には、関連する属性情報を抽出する処理の流れを示すフローである。

なお、文書データ登録プログラム３１０は、属性情報抽出対象文書選択画面４００（図１８参照）で示されるユーザインターフェースを有し、関連属性情報抽出プログラム３１１は属性情報表示画面５００（図２５参照）で示されるユーザインターフェースを有するものとする。

ここでは、関連する属性情報を抽出する大まかな流れについて説明する。まず、ステップＳ１０の属性情報抽出処理において、属性情報抽出処理部１１３は、クライアント３０、４０、５０からネットワーク６０を介してデータ管理サーバ１０に送信された文書デー
タから属性情報の抽出を行う。

次にステップＳ２０の属性情報間関連度算出処理において、属性情報抽出処理部１１３は、上述のステップＳ１０において抽出された属性情報を用いて、属性情報間の関連度を算出する。それぞれの処理の詳細については、これ以降で説明する。

図１１は、実施例１における属性情報抽出処理（Ｓ１０）の詳細例を示したフロー図である。この場合、まず属性情報抽出処理部１１３は、ステップＳ１１において、ユーザの指令によりクライアント３０からネットワーク６０を介して情報抽出対象となる１つ以上の文書を受領する。

次に、ステップＳ１２における属性情報抽出処理部１１３は、上述のステップＳ１１で受領した文書から文書名、文書データを抽出し、これらに、ユニークな識別子を文書ＩＤとして付与した上で、文書情報テーブル１２２１に登録する。

次に、ステップＳ１３における属性情報抽出処理部１１３は、上述のステップＳ１２で抽出した文書データから属性情報を抽出するための所定の前処理を行う。

この前処理の内容としては、例えば、指示語や代名詞の特定や複合語の特定、形態解析等の自然言語を扱うための処理を想定し、必要に応じて適宜に採用・実行するものとする。この前処理自体は、従来技術を採用すればよい。

次に、ステップＳ１４における属性情報抽出処理部１１３は、上述のステップＳ１３で前処理を行った文書データから属性情報を抽出し、これを属性情報リストテーブル１２４に登録していく。

このステップＳ１４における属性情報抽出処理部１１３は、自然言語処理等による属性情報抽出を実施することで、属性名１２４２および属性値１２４３を抽出する。こうした抽出方法としては、ルールベースでの抽出手法や、属性名や属性値の文書構造上の特徴量を機械的に抽出し、その特徴量を用いて属性情報を抽出する手法など、適宜に採用すればよい。

また、属性情報抽出処理部１１３は、文書情報テーブル１２１を参照して、上述のように属性情報を抽出した文書のＩＤを、文書ＩＤ１２４４として登録する。また同様に、セクション名１２４５には、属性情報を抽出したセクションの名前を登録する。

また、抽出場所ラベル１２４６には、抽出された属性情報の場所を登録する。これは、文書からそれぞれの属性情報を抽出した場所を特定するためのラベルで、例えば文頭から数えた該当の属性名までの単語数などを用いてもよい。

また、属性情報重要度１２４７には、抽出された属性情報の文書中における重要度を数値化したものを登録する。これは、文書中で重要なポイントとして述べられている文書から抽出した属性情報を、優先的にユーザに提示するための措置に対応している。属性情報重要度の算出方法の例として、特定のセクションから抽出された属性情報を高くする（セクションによる指標）といったものがあげられる。

例えば、化学系論文からの情報抽出の場合、重要な情報は「Ａｂｓｔｒａｃｔ」や「Ｃｏｎｃｌｕｓｉｏｎ」などのセクションに記載されている傾向がある。そのため、「Ａｂｓｔｒａｃｔ」や「Ｃｏｎｃｌｕｓｉｏｎ」のセクションから抽出された属性情報の属性情報重要度を高くすることとなる。

また、特定の単語（例：ｉｍｐｏｒｔａｎｔ，ｅｘｔｒｅｍｅｌｙ、など）が属性情報の前後一定ホップ数内に存在した場合、その属性情報の属性情報重要度を高くする、としてもよい（単語による指標）。

さらに、同じ文書中で同じ属性名と属性値を持つ属性情報が多数抽出された場合、その属性情報の重要度を高くするとしてもよい（属性情報抽出回数による指標）。

上述のような前提における具体例として、ある属性情報の属性情報重要度を、属性情報重要度＝Ｓ＋Ｗ＋Ｎ、と計算する。

ここで、Ｓはセクションによる指標であり、特定のセクションから該当の属性情報間関連度が抽出された場合に「１」、それ以外を「０」とする。また、Ｗは単語による指標であり、特定の単語が属性情報の前後にあった場合に「１」、それ以外を「０」とする。また、Ｎは属性情報抽出回数による指標であり、Ｎはある文書中で該当の属性情報が抽出された回数でもよいし、値が「０」から「１」に収まるように、ある文書における単語の出現回数で規格化してもよい。こうした規格化の概念は以下に説明する種々の値に関して適宜に適用できるものとする。

より具体的には、ある属性情報が、該当文書中の特定セクションのうち１箇所から抽出されており、Ｓ＝１、該当文書中にて直前に特定単語が１回出現しており、Ｗ＝１、該当文書中での出現回数が３回であり、Ｎ＝３、であったとする。この場合、その属性情報の属性情報重要度は、１＋１＋３＝５、と算定出来る。ただし、全属性情報の間で、最大の属性情報重要度の値が、例えば「１０」であったとすれば、上述の重要度「５」を、この最大値「１０」で除算し、「０．５」と規格化してもよい。

ここで図１１のフローの説明に戻る。続いて、ステップＳ１５における属性情報抽出処理部１１３は、属性のフィルタリングを行う。

例えば、化学系論文からの情報抽出を例にすると、１つの論文中にて、ある特定の物質の名前（仮に「Ｍａｔｅ－Ａ」とする）が複数回登場する場合がある。その場合、属性情報として１つの論文から「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」が多数抽出され、それぞれが抽出属性情報リストテーブル１２４のレコードとして登録される。

このように１つの論文から同じ属性情報が多数抽出された場合に、それら属性情報それぞれの間で情報に差異はないことを踏まえ、冗長となるレコードを抽出属性情報リストテーブル１２４から削除すると好適である。

例えば、化学系論文からの情報抽出の場合、論文の「Ａｂｓｔｒａｃｔ」や「Ｃｏｎｃｌｕｓｉｏｎ」等の重要セクションで記載されている内容は、本文にも記載されている可能性が高い。そのため、「Ａｂｓｔｒａｃｔ」や「Ｃｏｎｃｌｕｓｉｏｎ」等から抽出された属性情報と同じ属性情報が本文中からも抽出されることとなる。そうした場合、全く同一の属性情報、すなわち冗長なレコードを、抽出属性情報リストテーブル１２４中から削除しても問題無く、データの管理や処理の効率かれすれば好適である。

最後に、ステップＳ１５における属性情報抽出処理部１１３は、冗長なレコードが削除された抽出属性情報リストテーブル１２４に対して、各レコードを一意に特定するための識別子である属性情報ＩＤを生成・登録し、処理を終了する。

次に、属性情報間関連度算出処理（Ｓ２０）についてより具体的に説明する。図１２は
、実施例１における属性情報間関連度算出処理（Ｓ２０）の一例を示したフロー図である。

この場合、まず、属性情報間関連度算出処理部１１４は、ステップＳ２１の文書構造指標算出処理において、該当文書の文書構造から関連する属性情報を特定する指標（文書構造指標）を算出する。文書構造指標とは、文書構造に基づいて算出した、属性情報間の関連度や属性情報の重要度などである。この処理の詳細については後述する。

次に、属性情報間関連度算出処理部１１４は、ステップＳ２２の統計指標算出処理において、上述の文書構造指標算出処理（Ｓ２１）で得た指標に基づくテーブル構造から、関連する属性情報を特定する指標（統計指標）を算出する。

統計指標とは、属性値の分散や相関などから算出した属性情報間の関連度である。この処理の詳細については後述する。

次に、属性情報間関連度算出処理部１１４は、ステップＳ２１において算出した文書構造指標とステップＳ２２において算出した統計指標とを用いて、属性情報間関連度を算出する。

属性情報間関連度は、例えば、文書構造間関連度テーブル１２２３における文書内関連度１２２３７の値と、属性間統計テーブル１２５２における総合統計指標の値との和または積を想定できる。この場合、文書構造間関連度テーブル１２２３に含まれる或るレコードの文書内関連度１２２３７の値と、当該レコードの属性名および属性名候補の値の組を持つ属性間統計テーブル１２５２内のレコードにおける総合統計指標の値とを対象とする。

この場合の属性情報間関連度算出処理部１１４は、本ステップでは算出した属性情報間関連度を、着目した文書構造間関連度テーブル１２２３に含まれるレコードの属性情報間関連度１２２３８の値として登録する。また、同様にして文書構造間関連度テーブル１２２３に含まれるすべてのレコードの属性情報間関連度１２２３８の値を登録する処理を実施する。

続いて、上述の文書構造指標算出処理（Ｓ２１）について説明する。図１３は、実施例１における文書構造指標算出処理（Ｓ２１）の一例を示したフロー図である。

この場合、まず、属性情報間関連度算出処理部１１４は、ステップＳ２１１において、上述の属性情報抽出処理（Ｓ２０）において抽出した属性名同士の関連度、すなわち属性名文書内関連度を算出し、属性名文書内関連度テーブル１２２１を作成する。

属性名候補の選択方法については、抽出属性情報リストテーブル１２４に記載された属性名を（例えば、未選択のものでテーブル先頭に近いものから。以下同様）一つ選択してその属性名が現れる文書ＩＤと同じ文書ＩＤを持つその他の属性名を全て属性名候補として網羅的に属性名候補とする方法を想定できる。または、抽出属性情報リストテーブル１２４に記載された属性値を一つ選択してその属性値が現れる文書ＩＤと同じ文書ＩＤを持ち、なおかつ同じセクション名を持つその他の属性値を全て属性名候補として網羅的に属性値候補とする方法、などを想定できる。

また、属性名同士の関連度の算出は、例えば属性名同士の共起確率等を用いて算出するとしてもよい。これは、関連性の高い属性名同士は、文書中でよく近くに出現する可能性が高いためである。

例えば、或る化学系論文において「Ｍｅｌｔｉｎｇｐｏｉｎｔ」という単語と、「Ｐｒｅｓｓｕｒｅ」という単語の関連性が高い場合、図１４に示すように、「Ｍｅｌｔｉｎｇｐｏｉｎｔ」と「Ｐｒｅｓｓｕｒｅ」が該当論文中の近い位置によく出現する傾向がある。このように、ある単語同士が共起して出現する確率を、当該属性名の関連度の算出に使用しても良い。

次に、属性情報間関連度算出処理部１１４は、ステップＳ２１２において、上述の属性情報抽出処理（Ｓ１０）において抽出した属性情報間の属性値の関連度すなわち属性値文書内関連度を算出し、属性値文書内関連度テーブル１２２２を作成する。

属性値候補の選択方法については、抽出属性情報リストテーブル１２４に記載された属性値を一つ選択し、その属性値が現れる文書ＩＤと同じ文書ＩＤを持つその他の属性値を全て属性名候補として網羅的に属性値候補とする方法を想定できる。または、抽出属性情報リストテーブル１２４に記載された属性値を一つ選択し、その属性値が現れる文書ＩＤと同じ文書ＩＤを持ち、なおかつ同じセクション名を持つその他の属性値を全て属性名候補として網羅的に属性値候補とする方法も想定できる。

また、属性値間の関連度の算出方法として、例えば属性値間の文書中での近さを用いた手法を採用できる。

例えば、図１４に示すような文書から、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値５００Ｋ」、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：６００Ｋ」，「属性名：Ｐｒｅｓｓｕｒｅ、属性値：１０００ｈＰａ」、「属性名：Ｐｒｅｓｓｕｒｅ、属性値：１５００ｈＰａ」という４つの属性情報が抽出されたとする。

その場合、関連のある属性情報は文書中の近くに記載されている可能性が高いことを踏まえ、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」と「属性名：Ｐｒｅｓｓｕｒｅ、属性値：１０００ｈＰａ」、および、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：６００Ｋ」と「属性名：Ｐｒｅｓｓｕｒｅ、属性値：１５００ｈＰａ」のペアがより関連すると考えられる。

また、属性値文書内関連度の算出方法として、文書の係り受けやルールベースの手法を用いてもよい。

次に、ステップＳ２１３における属性情報間関連度算出処理部１１４は、上述のステップＳ２１１にて作成された属性名文書内関連度テーブル１２２１、および上述のステップＳ２１２にて作成された属性値文書内関連度テーブル１２２２を用いて、文書内関連度を算出し、これを文書構造間関連度テーブル１２２３に登録する。

具体的に、属性情報間関連度算出処理部１１４は、同じ属性情報ＩＤと属性情報候補ＩＤを持つレコードを属性名文書内関連度テーブル１２２１および属性値文書内関連度テーブル１２２２のそれぞれから抽出する。また、属性情報間関連度算出処理部１１４は、抽出した２レコードに含まれる属性情報ＩＤ、属性名、属性値、属性情報候補ＩＤ、属性名候補、および属性値候補を、それぞれ属性情報ＩＤ１２２３１、属性名１２２３２、属性値１２２３３、属性情報候補ＩＤ１２２３４、属性名候補１２２３５、および属性値候補１２２３６に登録する。

また、属性情報間関連度算出処理部１１４は、抽出した２レコードに含まれる、属性名文書内関連度および属性値文書内関連度の値を元に、文書内関連度を算出し、文書構造間
関連度テーブル１２２３における文書内関連度１２２３７に登録する。文書内関連度の算出方法として、抽出された２レコードに含まれる、例えば属性名文書内関連度と属性値文書内関連度に重みをつけた和でもいいし、積をとってもよい。

また、ステップＳ２１４における属性情報間関連度算出処理部１１４は、抽出属性情報リストテーブル１２４における属性情報重要度１２４７に関する説明で既に述べたように、抽出属性情報リストテーブル１２４中の各レコード、すなわち属性名１２４２およびその属性値１２４３の組に関して、属性情報重要度＝Ｓ＋Ｗ＋Ｎ（Ｓ：セクションによる指標、Ｗ：単語による指標、Ｎ：属性情報抽出回数による指標）などとその重要度を算定し、これを属性情報重要度１２４７として登録する。

なお、文書構造間関連度テーブル１２２３の属性情報間関連度１２２３８については、すべてのレコードにおいて本フロー完了時点では空欄でよい。また、本フローの完了後、属性情報間関連度算出処理部１１４は、抽出属性情報リストテーブル１２４の全レコードを関連属性情報抽出プログラム３１１に送信する。

続いて、統計指標算出処理（Ｓ２２）の詳細について説明する。図１５は、実施例１における統計指標算出処理の一例を示したフロー図である。

この場合、まず、属性情報間関連度算出処理部１１４は、ステップＳ２２１にて、関連する属性情報を見つけたい属性情報に対し、上述のステップＳ２１３（図１３のフロー）で算出した文書内関連度が高い属性情報を、属性名ごとに収集し、属性名候補毎属性情報間関連度テーブル１２５１を生成する。

例えば、図８で例示する属性名候補毎属性情報間関連度テーブル１２５１のように、関連する属性情報を見つけたい属性名として「Ｍｅｌｔｉｎｇｐｏｉｎｔ」、これに関連する属性名として、「Ｍａｔｅｒｉａｌ」、「Ｃｈｅｍｉｃａｌａｍｏｕｎｔ」、「Ｐｒｅｓｓｕｒｅ」、「Ｂｏｉｌｉｎｇｐｏｉｎｔ」が収集され、それぞれのテーブルが生成される。

こうした属性名候補毎属性情報間関連度テーブル１２５１の作成方法としては、下記のような方法が考えられる。属性情報間関連度算出処理部１１４は、最初に、ユーザから指定を受けた属性情報（例：図２４のフローにおけるステップＳ３１２）から属性名を抽出し、文書構造間関連度テーブル１２２３において、抽出された属性名を含むレコードの中からすべての属性名候補を属性名候補群として抽出する。

また、属性情報間関連度算出処理部１１４は、属性名候補毎属性情報間関連度テーブル１２５１と同じスキーマ（列定義）を持つ空のテーブルを、上述の属性名候補群に所属する属性名の数だけ作成する。

次に、属性情報間関連度算出処理部１１４は、抽出属性情報リストテーブル１２４において、抽出された属性名を含むレコードを全て抽出して得られる属性情報ＩＤ、属性名、および属性値の列を、すべての空テーブルの属性情報ＩＤ１２５１１、属性名１２５１２、属性値１２５１３としてそれぞれ登録する。

なお、各テーブルに登録されたすべてのレコードは属性名候補１２５１５が空値である。そのため属性情報間関連度算出処理部１１４は、当該テーブルに対応する属性名候補の値を属性名候補１２５１５として登録する。

そして、属性情報間関連度算出処理部１１４は、各テーブルのすべてのレコードにおい
て、当該レコードの属性情報ＩＤ１２５１１、属性名１２５１２、属性値１２５１３、および属性名候補１２５１５の値の組を含むレコード（候補レコード）を文書構造間関連度テーブル１２２３中で探索し、見つかれば候補レコードに含まれる属性情報候補ＩＤ、属性値候補、および文書内関連度の値を、それぞれ当該レコードの属性情報候補ＩＤ１２５１４、属性値候補１２５１６、および文書内関連度１２５１７の値として登録する。

一方、候補レコードが見つからない場合、属性情報間関連度算出処理部１１４は、当該レコードの属性情報候補ＩＤ１２５１４、属性値候補１２５１６、および文書内関連度１２５１７の値に空値を示すシンボル（前述の通り”＝”や”ＮＵＬＬ”などでよい）を登録する。

なお、上記のテーブル作成例は一例であり、同様の属性名候補毎属性情報間関連度テーブル１２５１を作成できる他の方法を用いても構わない。

ここで図１５のフローの説明に戻る。続いて、属性情報間関連度算出処理部１１４は、ステップＳ２２２において、テーブル間関連度を示すための統計指標を、上述のステップＳ２２１にて作成したテーブルから算出し、属性間統計テーブル１２５２を作成する。

本ステップにおけるテーブル間関連度指標とは、属性名候補毎属性情報間関連度テーブル１２５１のテーブル構造から統計的に得られる指標である。この場合の属性情報間関連度算出処理部１１４は、例えば、下記の方法を用いて属性間統計テーブル１２５２を作成する。

まず、属性情報間関連度算出処理部１１４は、上述のステップＳ２２１にて作成した複数の属性名候補毎属性情報間関連度テーブル１２５１において、各テーブルの属性名および属性名候補の値を抽出し、それぞれを属性間統計テーブル１２５２の属性名１２５１２および属性名候補１２５２２の値として登録する。

また、属性情報間関連度算出処理部１１４は、属性間統計テーブル１２５２内の各レコードにおいて、属性値数指標１２５２３、分散指標１２５２４、平均単語間関連度指標１２５２５、および総合統計指標１２５２６の値を算出して登録する。

上述の属性値数指標とは、関連する属性情報の属性値が抽出された数を用いた指標である。関連する属性情報を見つけたい属性情報に対して、関連属性候補として多く属性値が抽出された属性名は、関連する属性情報を見つけたい属性情報に対して多くの付加情報を与えると考えられることから、属性値が抽出された数を指標とする。

例えば、図８における属性名候補毎属性情報間関連度テーブル１２５１の例において、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ」に対する関連属性候補の属性数が、例えば、「属性名：Ｍａｔｅｒｉａｌ」の属性数「５」、「属性名：Ｃｈｅｍｉｃａｌａｍｏｕｎｔ」の属性数「４」、「属性名：Ｐｒｅｓｓｕｒｅ」の属性数「５」、「属性名：Ｂｏｉｌｉｎｇｐｏｉｎｔ」の属性数「３」であったとする。その場合、属性情報間関連度算出処理部１１４は、属整数「５」の「属性名：Ｍａｔｅｒｉａｌ」、「属性名：Ｐｒｅｓｓｕｒｅ」の属性値数指標を高く、属性数「３」の「属性名：Ｂｏｉｌｉｎｇｐｏｉｎｔ」の属性値数指標を低くする。

こうした属性値数指標算出の例として、ある属性名ｉの属性値数指標Ｎ（ｉ）は、Ｎ（ｉ）＝Ｒ、で算出出来る。ここで、Ｒは属性値数である。

また、分散指標とは、関連する属性情報の属性値の分散を用いた指標である。関連する
属性情報を見つけたい属性情報に対して、関連属性情報候補として抽出された属性値の分散が大きいほど、関連する属性情報を見つけたい属性情報に多くの付加情報を与えると考えられることから、属性値の分散を指標とする。

例えば、図８における属性名候補毎属性情報間関連度テーブル１２５１の例では、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ」に対する関連属性情報候補の属性値が、例えば、「属性名：Ｍａｔｅｒｉａｌ」では全てばらばらであるため、分散指標が高い。また、「属性名：Ｃｈｅｍｉｃａｌａｍｏｕｎｔ」、「属性名：Ｐｒｅｓｓｕｒｅ」、「属性名：Ｂｏｉｌｉｎｇｐｏｉｎｔ」の中では、属性値の分散の大きい「属性名：Ｂｏｉｌｉｎｇｐｏｉｎｔ」の分散指標が高く、属性値の分散の小さい「属性名：Ｃｈｅｍｉｃａｌ
ａｍｏｕｎｔ」の分散指標が小さい。

こうした分散指標算出の例として、数値に対して、ある属性名ｉの分散指標Ｄ（ｉ）は、Ｄ（ｉ）＝ｄ（ｉ）、で算出できる。

また、平均単語間関連度指標とは、上述のステップＳ２１３で算出した文書内関連度の平均値を用いた指標である。関連する属性情報を見つけたい属性情報と、関連する属性情報候補の文書内関連度が平均的に高い属性情報は、より関連度が高いと考えられるため、平均的な文書内関連度を指標とする。

例えば、図８における属性名候補毎属性情報間関連度テーブル１２５１の例では、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ」に対する属性情報候補の文書内関連度が、平均的に高い「属性名：Ｍａｔｅｒｉａｌ」の平均単語間関連度指標を高く、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ」に対する関連属性候補の文書内関連度が平均的に低い「Ｃｈｅｍｉｃａｌａｍｏｕｎｔ」の平均単語間関連度指標を低くする。

平均単語間関連度指標算出の例として、ある属性名ｉの平均単語間関連度ＡＴＲ（ｉ）は、

として求めることができる。ここで、Ｒは属性値数でありａｒｔ（ｒ）は個々の属性情報の文書内関連度である。

この他の属性情報重要度指標として、上述のステップＳ１２４で算出した属性情報重要度の平均的な重要度を属性間統計テーブル１２５２の新たな指標として各レコードに加えても良い。

同様に、関連する属性情報を見つけたい属性情報の属性値と、関連する属性情報候補の属性値との相関の度合いを指標として加えても良い。

最後に、属性情報間関連度算出処理部１１４は、属性間統計テーブル１２５２内の各レコードにおいて、算出された複数の指標値を基に総合値を算出し、当該レコードの総合統計指標１２５２６の値として登録する。

ここで属性名ｉにおける総合統計指標Ｔ（ｉ）の算出の例として、
Ｔ（ｉ）＝ｗ１・Ｎ（ｉ）＋ｗ２・Ｄ（ｉ）＋ｗ３・ＡＴＲ（ｉ）
と計算できる。ここで、ｗ１，ｗ２，ｗ３はそれぞれの統計指標の重みである。また、総合値は、本ステップで算出したそれぞれのテーブル間関連度指標の積でもよい。

また図１６は、実施例１におけるユーザ指定属性情報抽出処理のフロー例を示した図である。このフローにおける処理は、属性名候補毎属性情報間関連度テーブル１２５１を関連属性情報抽出プログラム３１１へ送信するための処理が含まれている。なお、属性情報抽出対象文書選択画面４００（図１８）を介して、クライアント３０、４０、もしくは５０から、ユーザ指定の文書データがデータ管理サーバ１０に送信され、ステップＳ１０およびＳ２０が実行された状況にて、本フローが実施されることを想定する。

また、実施例１における文書データ登録プログラム３１０は、属性情報抽出対象文書選択画面４００（図１８参照）で示されるユーザインターフェースを有し、また、関連属性情報抽出プログラム３１１は、属性情報検索画面６００（図１９参照）で示されるユーザインターフェースを有するものとする。

この場合のクライアント３０（クライアントを代表させ説明する）の関連属性情報抽出プログラム３１１は、ステップＳ３２１において、データ管理サーバ１０上でのステップＳ２０の実施後に受信した抽出属性情報リストテーブル１２４の全レコードを基に、各レコードにおける属性名および属性値の値の組を抽出し、抽出された属性名毎に対応する属性値を網羅的に、属性情報検索画面６００における抽出属性一覧表示部６０１へ表示させる。

また、関連属性情報抽出プログラム３１１は、ステップＳ３２２において、属性情報検索画面６００に含まれる検索ボタン６０６の押下を受け、ユーザ選択属性名入力部６０２およびユーザ指定関連属性情報検索属性名入力部６０３に入力された各値（送信属性名群）を、データ管理サーバ１０のユーザ指定属性情報抽出処理部１１５に送信する。

一方、データ管理サーバ１０のユーザ指定属性情報抽出処理部１１５は、ステップＳ３２３において、クライアント３０から送信されてきたユーザ送信属性名群から、ユーザ選択属性名入力部６０２に入力された属性名（ユーザ選択属性名）をすべて取得し、すべてのユーザ選択属性名に対応する属性値を取得する。

例えば、ユーザ選択属性名としてユーザが入力した「属性名：Ｍａｔｅｒｉａｌ」、および、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ」を取得し、ユーザ指定属性情報抽出処理部１１５は「属性名：Ｍａｔｅｒｉａｌ」、および、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ」に対応する属性値として、「属性値：Ｍａｔｅ－Ａ」、「属性値：Ｍａｔｅ－Ｂ」や「属性値：５００Ｋ」、「属性値：６００Ｋ」を取得する。

次に、ステップＳ３２３において複数のユーザ選択属性名が送信されてきた場合（ステップＳ３２４：ＹＥＳ）、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３２５において、上述のステップＳ２１３で算出した文書構造関連度テーブル１２２３における文書内関連度１２２３７を参照し、ステップＳ３２３で送信されてきた複数の属性名のそれぞれの属性値の間で関係する属性値同士を見つける。

例えば、属性名Ａと属性名Ｂの２種のユーザ選択属性名が送信されてきた場合、ユーザ指定属性情報抽出処理部１１５は、文書構造関連度テーブル１２２３の属性名１２２３２、属性名候補１２２３５、文書内関連度１２２３７を参照し、属性名が属性名Ａと一致、属性名候補が属性名Ｂと一致、かつ文書内関連度が閾値以上のレコードを取得し、取得したレコードの属性値と属性値候補を、クライアント３０における属性情報検索画面６００の属性情報表示部６０５の同一レコードに表示する。

例えば、ステップＳ３２３においてユーザが「属性名：Ｍａｔｅｒｉａｌ」、および、
「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ」を入力し、「属性値：Ｍａｔｅ－Ａ」、「属性値：Ｍａｔｅ－Ｂ」や「属性値：５００Ｋ」、「属性値：６００Ｋ」を取得した場合、ユーザ指定属性情報抽出処理部１１５は、文書内関連度１２２３７を参照し、属性情報「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」と「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」間や、「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」と「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：６００Ｋ」間などの文書内関連度が閾値より大きな属性情報間を見つけ、それらの情報を属性情報表示部６０５の同一レコードに表示させる。

一方、ユーザがユーザ選択属性名ユーザ選択属性名を一つのみ入力した場合には（ステップＳ３２４：ＮＯ）、次に述べるステップＳ３２６に移る。

次に、クライアント３０の関連属性情報抽出プログラム３１１は、ステップＳ３２６において、ユーザがユーザ指定関連属性情報検索属性名入力部６０３にユーザ指定関連属性情報検索属性名を入力したことを受けて、ユーザ指定関連属性情報検索属性名入力部６０３に入力した値を、データ管理サーバ１０のユーザ指定属性情報抽出処理部１１５に送信する。ここで、ユーザ指定関連属性情報検索属性名に入力される属性名は、ユーザ選択属性名の中から指定される。

一方、データ管理サーバ１０のユーザ指定属性情報抽出処理部１１５は、ステップＳ３２７において、クライアント３０から送信されてきたユーザ指定関連属性情報検索属性名から、ユーザ指定関連属性情報検索属性名入力部６０３に入力されたユーザ指定関連属性情報検索属性名を取得する。

また、クライアント３０の関連属性情報抽出プログラム３１１は、ステップＳ３２８において、ユーザがユーザ指定テーブル指標入力部６０４おいてユーザ指定テーブル指標を選択したことを受けて、その選択結果をデータ管理サーバ１０のユーザ指定属性情報抽出処理部１１５に送信する。

ここで、ユーザ指定テーブル指標とは、ユーザが関連する属性情報を検索する指標であり、上述のステップＳ２２２において提示したようなテーブル指標（ユーザ指定テーブル指標とする）として、「属性値数指標」、「分散指標」、「平均単語間関連度指標」などがある。このステップにてユーザが関連する属性情報を検索する指標を選択することにより、データ管理サーバ１０としては、当該ユーザが求める関連属性情報により近い属性情報をクライアント３０にて表示させることが出来る。

一方、データ管理サーバ１０のユーザ指定属性情報抽出処理部１１５は、ステップＳ３２９において、クライアント３０から送信されてきたユーザ指定テーブル指標、例えば、「平均関連度」を取得する。

また、クライアント３０の関連属性情報抽出プログラム３１１は、ユーザが検索ボタン６０７を押下したことを受けて、当該ボタンが押された旨をデータ管理サーバ１０のユーザ指定属性情報抽出処理部１１５に送信し、ステップＳ３２１０において、上述のステップＳ３２７で取得したユーザ指定関連属性情報検索属性名、およびステップＳ３２９で得たユーザ指定テーブル指標を用い、高関連度属性情報算出処理を行って、ユーザ指定関連属性情報検索属性名と関連する属性情報を算出する。この処理の詳細については後述する。

上述のステップＳ３２１１において、ステップＳ３２１０にて算出したユーザ指定関連属性情報検索属性名と関連する属性情報を関連属性情報表示部６０７に関連度が高い順に
表示する。

例えば、ステップＳ３２１０における高関連度属性算出処理にて、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ」に関連する属性名として、「属性名：Ｐｒｅｓｓｕｒｅ」、「属性名：Ｅｌｅｃｔｒｉｃｃｕｒｒｅｎｔ」、「属性名：Ｍａｇｎｅｔｉｃｆｉｅｌｄ」、「属性名：Ｃｈｅｍｉｃａｌａｍｏｕｎｔ」などが決定された場合に、これらの属性名、および、属性値を属性群の関連度が高い順に表示する。

関連属性情報抽出プログラム３１１は、ステップＳ３２１２において、ユーザが関連属性情報を選択すると（ステップＳ３２１２：ＹＥＳ）、その選択結果をデータ管理サーバ１０のユーザ指定属性情報抽出処理部１１５に送信する。この場合のユーザ指定属性情報抽出処理部１１５は、ステップＳ３２１３において選択結果を受信する。

さらにユーザ指定属性情報抽出処理部１１５は、ユーザ選択属性名入力部６０２に、上述のようにユーザに選択された関連属性情報の列を追加する。

一方、ユーザが属性情報を選択しなかった場合（ステップＳ３２１２：ＮＯ）、後に述べるステップＳ３２１４に進む。

また、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３２１４において、ユーザが選択した属性情報を元に、高関連度な属性情報の算出方法を変更する。

例えば、高関連度な属性情報の算出方法の変更の仕方として、属性情報間関連度の算出の際に、総合統計指標算出時の各統計指標の重みを変えてもよいし、文書構造指標や統計指標のうち、ユーザが選択した属性情報に特徴的な指標の重みを上げてもよい。

次に、ユーザがユーザ指定関連属性情報検索属性名に関連する属性の選択継続を希望し（ステップＳ３２１３）、さらにユーザが他のユーザ指定属性情報の選択を希望する場合（ステップＳ３２１４）、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３２６に処理を戻す。

次に、ユーザがユーザ指定関連属性情報検索属性名に関連する属性の選択継続を希望し（ステップＳ３２１５：ＹＥＳ）、さらにユーザが他のユーザ指定属性情報の選択を希望する場合（ステップＳ３２１６：ＹＥＳ）、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３２６に処理を戻す。

一方、ユーザがユーザ指定関連属性情報検索属性名に関連する属性の選択継続を希望し（ステップＳ３２１５：ＹＥＳ）、さらにユーザが他のユーザ指定属性情報の選択を希望しない場合（ステップＳ３２１６：ＮＯ）、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３２９に処理を戻す。

また、ユーザがユーザ指定関連属性情報検索属性名に関連する属性の選択継続を希望しない場合（ステップＳ３２１５：ＮＯ）、ユーザ指定属性情報抽出処理部１１５は、処理を終了する。

図１７は、実施例１における高関連度属性情報算出処理（Ｓ３２１０）のフロー例を示した図である。本フローは、ステップＳ３２７にて取得したユーザ指定関連属性情報検索属性名、およびステップＳ３２９で得たユーザ指定テーブル指標を用いて、ユーザに提示するユーザ指定関連属性情報検索属性名に関連する属性情報を決定するフローである。

まず、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３２８１において、統計指標を算出する属性情報を抽出する。

この処理の目的は、統計指標の算出対象とする属性情報を、ある条件のもとで絞ることで、ユーザ指定関連属性情報検索属性名に対してより付加情報を与える属性情報を推薦できるようにすることである。

統計指標を算出する属性情報を絞る例として、上述のステップＳ２１３にて算出した文書内関連度１２２３７が所定の閾値以上の属性情報を選択する手法を想定できる。

例えば、一般的には属性情報間で関連性が少ないため、抽出されたほとんどの属性情報では文書内関連度が小さいが、ある特定の場合には属性情報間に高い関連性があり、そのため文書内関連度が高くなるといった場合に、すべての属性情報候補に対してテーブル関連度指標を算出し属性間関連度を評価すると、特定の場合に属性情報間関連度が高い属性情報があったとしても、最終的にユーザに関連する属性情報を提示するのに使用する属性間関連度は低くなってしまう。

しかし、文書内関連度が高い属性情報のみ取り扱うことで、ある特定の場合に属性情報間に高い関連性を持つ属性情報同士の属性情報間関連度を上げることができる。

上記の理由から文書内関連度１２２３７が閾値以上の属性情報のみを用いて統計指標を算出する。処理の流れとして、ユーザ指定属性情報抽出処理部１１５は、文書内関連度テーブル１２２３の文書内関連度１２２３７を参照し、ステップＳ３２７において取得したユーザ指定関連属性情報検索属性名と一致する属性名１２２３２を持つ属性情報と同一レコードの文書内関連度が所定の閾値以上の属性情報の属性情報候補ＩＤ、属性名候補１２２３５、属性値候補１２２３６、および文書内関連度１２２３７を保持する。

別のテーブル関連度指標を算出する属性情報を絞る例として、例えば、ステップＳ２１４にて算出した属性情報重要度が高い属性情報にのみテーブル間関連度を算出してもよい。

例えば、文書内関連度はそれほど大きくないが、文書中で重要視されている属性情報は、既存の属性情報に大きな付加情報を与える可能性がある。そのため、属性情報重要度が高い属性情報に絞ってテーブル間関連指標を算出することで、ユーザ指定属性情報により付加情報を与える属性情報をユーザに提示することができる。

処理の流れとして、ユーザ指定属性情報抽出処理部１１５は、属性情報リストテーブル１２４１の属性情報重要度１２４７を参照し、属性情報重要度が閾値以上の属性情報ＩＤを保持する。

さらに、文書内関連度テーブル１２２３の属性名１２２３２を参照し、ユーザ指定関連属性情報検索属性名と一致する属性名１２２３２を持ち、かつ同一レコードの属性情報候補ＩＤが前記属性情報重要度が閾値以上だった属性情報の属性情報ＩＤと一致する場合に、該当のレコードの属性情報候補ＩＤ、属性名候補１２２３５、属性値候補１２２３６、および文書内関連度１２２３７を保持する。

また、別の例として１つの文書中から同じ属性名であるが、異なる属性値をもつ属性情報が複数抽出され、それと関連する属性情報として、同じ属性名であるが異なる属性値を持つ属性情報が複数抽出された属性情報にのみテーブル関連度指標を算出する。

例えば、属性情報「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」と、それに関連する属性情報「属性名：Ｐｒｅｓｓｕｒｅ、属性名：１０００ｈＰａ」、および、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：６００Ｋ」と、それに関連する属性情報「属性名：Ｐｒｅｓｓｕｒｅ、属性名：１５００ｈＰａ」が１つの論文から抽出されたとする。

その場合、同じ属性名であるが異なる属性値を持つ属性情報である「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」と「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：６００Ｋ」を区別する属性情報として、別の、同じ属性名であるが異なる属性値を持つ属性情報「属性名：Ｐｒｅｓｓｕｒｅ、属性名：１０００ｈＰａ」、と「属性名：Ｐｒｅｓｓｕｒｅ、属性名：１０００ｈＰａ」が意味を持つと考えられる。

このため、異なる属性値を持つ属性情報が複数抽出され、それと関連する同じ属性名であるが異なる属性値を持つ属性情報が複数抽出された属性情報にのみテーブル間関連度を算出してもよい。

また、統計指標を算出する属性情報の例として、上記の組み合わせでもよいし、全ての属性情報候補に対して、統計指標を算出してもよい。またユーザがどのような条件に対して統計指標を算出するかを決めるステップがあってもよい。

また、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３２８２において、ステップＳ３２８１において保持した属性情報候補ＩＤ１２２３４、属性名候補１２２３５、属性値候補１２２３６、および文書内関連度１２２３７を用いて統計指標を算出し、これをもって属性名候補毎属性情報間関連度テーブル１２５１、および属性間統計テーブル１２５２を作成する。これらテーブルの作成の仕方は実施例１のステップＳ２２における統計指標算出処理と同等である。

さらに、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３２８３において、ステップＳ３２８２にて作成した属性間統計テーブル１２５２の総合統計指標１２５２１を参照し、総合統計指標を昇順に並べ替える。

以上の処理により、ユーザ指定関連属性情報検索属性名に付加情報を与える属性情報を優先的に並べ替え、ユーザのクライアント３０に表示させることで、ユーザの属性情報選択時間を短縮することができる。

ここで、属性情報抽出対象文書選択画面４００の具体的な構成について説明する。図１８は、実施例１における属性情報抽出対象文書選択画面４００の一例を示した図である。

属性情報抽出対象文書選択画面４００は、クライアント３０を操作するユーザが、属性情報抽出を行う文書を選択する画面である。

この属性情報抽出対象文書選択画面４００は、クライアント３０が保持する関連属性情報抽出プログラム３１１の一部であり、文書名表示部４０１、文書選択部４０２、文書選択終了ボタン４０３を含む。

このうち文書名表示部４０１は、情報抽出対象となる文書一覧を表示する欄である。また、文書選択部４０２は、属性情報抽出を行う文書をユーザが選択する欄である。また、文書選択終了ボタン４０３は、ユーザが文書選択を終了する際に押下する欄である。

この場合のユーザは、文書名表示部４０１に表示されている文書のうち、属性情報抽出
を行う文書を文書選択部４０２にて選択する。ユーザは、情報抽出を行う文書を全て選択し終わると、文書選択終了ボタン４０３を押下する。

本ボタンが押下されることにより、選択された１つまたは複数の文書データの情報は、ネットワーク６０を介してデータ管理サーバ１１に送信される。これにより、図１０のフローにおけるステップＳ１０およびＳ２０が実施される。このステップＳ２０の実施後、抽出属性情報リストテーブル１２４の全レコードは、データ管理サーバ１０からクライアント３０の関連属性情報抽出プログラム３１１に送信される。

また属性情報検索画面６００の具体的な構成について説明する。図１９は、実施例１における属性情報検索画面６００の一例を示した図である。

属性情報検索画面６００は、ユーザが指定した属性名と、それに関連する属性名候補を表示する画面である。

この属性情報検索画面６００は、抽出属性一覧表示部６０１、ユーザ選択属性名入力部６０２、ユーザ指定関連属性名入力部６０３、ユーザ指定テーブル指標入力部６０４、選択属性情報表示部６０５、検索ボタン６０６、および関連属性情報表示部６０７を含む。

このうち抽出属性情報表示部６０１は、入力された文書から抽出された属性情報の一覧を表示する欄である。また、ユーザ選択属性名入力部６０２は、入力された文書から抽出された属性情報のうち、ユーザが表示させたい属性情報の属性名を入力する欄である。

また、ユーザ指定関連属性名入力部６０３は、ユーザが入力した表示属性名のうち、関連する属性情報を検索したい属性名を入力する欄である。また、ユーザ指定テーブル指標入力部６０４は、指定属性名に関連する属性情報を検索する際に使用するテーブル指標を入力する欄である。

また、表示属性情報表示部６０５は、ユーザが入力した表示属性名と、表示属性名に対応する属性値を表示する欄である。また、検索ボタン６０６は、ユーザが関連属性情報を検索する際に押下するボタンである。

また、関連属性情報表示部６０７は、ユーザが入力した指定属性名と関連する属性情報を表示する欄である。ユーザが入力したテーブル指標を用いたテーブル間関連度が高い順に表示される。

例えば、データ管理サーバ１０は、ステップＳ３２３にてクライアント３０のユーザ選択属性名入力部６０２にユーザが入力したユーザ選択属性名を取得し、その情報を表示属性情報表示部６０５に表示させる。

また、ユーザがユーザ指定関連属性検索属性名入力部６０３にユーザ指定関連属性情報検索属性名を入力し、ユーザ指定テーブル指標入力部６０４にてユーザ指定テーブル指標選択し、さらに検索ボタン６０６を押すと、クライアント３０およびデータ管理サーバ１０は協働し、ステップＳ３２６からステップＳ３２８にて属性情報間関連度を算出し、高関連度な属性情報を関連度順に関連属性情報表示部６０７に表示する。

－－－実施例２－－－
実施例２では、属性情報検索画面６００におけるユーザ指定関連属性名入力部６０３に、複数のユーザ指定関連属性名が入力された場合、ユーザに優先的に表示する関連属性情報を決定する処理について説明する。本実施例では、実施例１における処理のうち高関連
度属性情報算出処理が変更される。

図２０は実施例２における、高関連度属性情報算出処理のフロー例を示した図である。この場合、まず、データ管理サーバ１０のユーザ指定属性情報抽出処理部１１５は、ユーザがクライアント３０で入力した複数のユーザ指定関連属性名のうち、あるひとつのユーザ指定関連属性名に関して、高関連度な属性をステップＳ３２８１Ｍ、ステップＳ３２８２、および、ステップＳ３２８３Ｍにおいて算出する。

こうしたステップＳ３２８１Ｍ、ステップＳ３２８２Ｍ、および、ステップＳ３２８３Ｍの処理内容は、実施例１におけるステップＳ３２８１、ステップＳ３２８２、および、ステップＳ３２８３と同等であるため、説明を割愛する。

ステップＳ３２８３Ｍの後、全てのユーザ指定関連属性名について高関連度な属性を算出していない場合（ステップＳ３２８４Ｍ：ＮＯ）、データ管理サーバ１０は、ステップＳ３２８１Ｍに処理を戻す。

一方、全てのユーザ指定関連属性名について高関連度な属性を算出した場合（ステップＳ３２８４Ｍ：ＹＥＳ）、データ管理サーバ１０は、ステップＳ３２８５Ｍに処理を移す。

ステップＳ３２８５Ｍにおけるデータ管理サーバ１０は、ステップＳ３２８４Ｍまでで算出したそれぞれユーザ指定関連属性名に対する高関連度な属性名から、ユーザに優先的に提示する属性情報を決定する。

例えば、図２１に示すようにユーザが２つのユーザ指定関連属性名として、ユーザ指定関連属性名１、および、ユーザ指定関連属性名２を入力し、これに関連する３つの関連属性として、関連属性１、関連属性２、および、関連属性３があり、それぞれのユーザ指定関連属性名と関連属性名間の属性情報間関連度が図示する通りだった場合に、ユーザに提示する属性情報の順番を決定する。

ユーザ指定属性情報抽出処理部１１５は、ユーザに提示する属性情報の順番として、例えば属性情報間関連度の和（平均値）が最も大きい順を想定する。例えば、図２１の場合、関連属性名１の属性情報間関連度の和（平均値）は１．０（０．５）、関連属性名２の属性情報間関連度の和（平均値）は１．２（０．６）、関連属性名３の属性情報間関連度の和（平均値）は０．９（０．４５）となるため、ユーザに提示する属性情報の順番を関連属性名２、関連属性名１、関連属性名３とする。

また、別の例として、属性情報間関連度の最大値の順でもよい。例えば、図２１の場合、関連属性名１の属性情報間関連度の最大値は０．９、関連属性名２の属性情報間関連度の和は０．６、関連属性名３の属性情報間関連度の和は０．８となるため、ユーザに提示する属性情報の順番を関連属性名１、関連属性名３、関連属性名２とする。さらに別の例として、属性情報間関連度の平均値の順でもよい。

また、ユーザに提示する属性情報の順番を決める指標が複数ある場合に、どの指標を用いて属性情報の順番を決めるかを決定するステップを有してもよい。

－－－実施例３－－－
実施例３では、化学系論文から特徴的な属性情報を抽出し、抽出された個々の属性情報間の関連度を算出することで、ユーザが指定したあるひとつの属性情報と関係する他の属性情報を提示する処理について述べる。この実施例３では、実施例１における処理のうち
ユーザ指定属性情報抽出処理が変更されるものとする。

図２２は、実施例３におけるユーザ指定属性情報テーブル１２６１の一例を示す図である。このユーザ指定属性情報テーブル１２６１は、ユーザが指定した属性情報に関わるデータを表示する際に使用するテーブルである。

このユーザ指定属性情報テーブル１２６１における各レコードは、属性情報ＩＤ１２６１１、属性名１２６１２、属性値１２６１３、文書ＩＤ１２６１４、抽出場所ラベル１２６１６、文書データ１２６１７を含む。

このうち属性情報ＩＤ１２６１１は、ユーザが入力した属性情報と一致した属性情報のＩＤである。また、属性名１２６１２は、ユーザが入力した属性情報と一致した属性情報の属性名である。

また、属性値１２６１３は、ユーザが入力した属性情報と一致した属性情報の属性値である。また、文書ＩＤ１２６１４は、属性情報ＤＩ１２６１１を持つ属性が抽出された文書のＩＤである。

また、文書名１２６１５は、属性情報ＩＤ１２６１１を持つ属性が抽出された文書の文書名である。また、抽出場所ラベル１２６１６は、属性情報ＩＤ１２６１１を持つ属性情報が抽出された場所のラベルである。

また、文書データ１２６１７は、属性情報ＩＤ１２６１７を持つ属性情報を抽出した周辺の文書である。

また図２３は、実施例３における関連属性情報テーブル１２６２の一例を示す図である。この関連属性情報テーブル１２６２は、ユーザが指定した属性情報に関連する属性情報を推薦する際に使用するテーブルである。

この関連属性情報テーブル１２６２における各レコードは、属性情報ＩＤ１２６２１、属性名１２６２２、属性値１２６２３、属性情報候補ＩＤ１２６２４、属性名候補１２６２５、属性値候補１２６２６、属性情報間関連度１２６２７、文書ＩＤ１２６２８、文書名１２６２９、抽出場所ラベル１２６２１０、および文書データ１２６２１１を含む。

このうち属性情報ＩＤ１２６２１は、関連する属性情報を探索する際の関連元属性情報のＩＤである。また、属性名１２６２２は、関連する属性情報を探索する際の関連元属性情報における属性名である。

また、属性値１２６２３は、関連する属性情報を探索する際の関連元属性情報における属性値である。また、属性情報候補ＩＤ１２６２４は、関連する属性情報を探索する際の関連元属性情報に関連する属性情報候補のＩＤである。

また、属性名候補１２６２５は、関連する属性情報を探索する際の関連元属性情報に関連する属性情報候補の属性名である。また、属性値候補１２６２６は、関連する属性情報を探索する際の関連元属性情報に関連する属性情報候補の属性値である。

また、属性情報間関連度１２６２７は、属性情報ＩＤ１２６２１と、属性情報候補Ｉ
Ｄ１２６２４を持つ属性情報との間の関連度である。また、文書ＩＤ１２６２８は、属性情報候補ＩＤ１２６２４を持つ属性情報を抽出した文書のＩＤである。

また、文書名１２６２９は、属性情報候補ＩＤ１２６２４を持つ属性情報を抽出した文書の文書名である。また、抽出場所ラベル１２６２１０は、属性情報候補ＩＤ１２６２４を持つ属性情報を抽出した場所のラベルである。

また、文書データ１２６２１１は、属性情報候補ＩＤ１２６２４を持つ属性情報を抽出した周辺の文書である。

図２４は、実施例３におけるユーザ指定属性情報抽出処理のフロー例を示した図である。本フローは、ステップＳ２０において算出した属性情報間の関連度を用いて、ユーザが選択した属性情報に関連する属性情報を抽出するフローである。具体的には、データ管理サーバ１０が、ユーザ指定属性情報テーブル１２６１および関連属性情報テーブル１２６２を、クライアント３０の関連属性情報抽出プログラム３１１へ送信するための処理である。

クライアント３０の関連属性情報抽出プログラム３１１は、ステップＳ３１０におい
て、データ管理サーバ１０上でのステップＳ２０の実施後に受信した、抽出属性情報リストテーブル１２４の全レコードを基に、各レコードにおける属性名および属性値の値の組を抽出し、抽出された属性名毎に対応する属性値を網羅的に、属性情報表示画面５００の抽出属性一覧表示部５０１（図２５参照）へ表示する。

続いて関連属性情報抽出プログラム３１１は、ステップＳ３１１において、ユーザが属性情報表示画面５００に含まれる検索ボタン５０３を押下したことを受け、ユーザ指定属性情報入力部５０２に入力された属性名および属性値を、データ管理サーバ１０のユーザ指定属性情報抽出処理部１１５に送信する。

一方、データ管理サーバ１０のユーザ指定属性情報抽出処理部１１５は、ステップＳ３１２において、クライアント３０から受信した属性名および属性値を取得する。

また、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３１３において、クライアント３０から送信されてきたユーザ指定属性情報に一致する属性情報を、抽出属性情報リストテーブル１２４内で検索する。

ユーザ指定属性情報と一致する属性情報がある場合（ステップＳ３１４：ＹＥＳ）、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３１５において、文書情報テーブル１２１および抽出属性情報リストテーブル１２４を参照し、クライアント３０から送信されてきたユーザ指定属性情報に一致する属性情報の属性情報ＩＤ、属性名、属性値、文書ＩＤ、文書名、抽出場所ラベル、文書データからなるレコードを取得し、ユーザ指定属性情報テーブル１２６１に追加する。

一方、ステップＳ３１３の結果、ユーザ指定属性情報と一致する属性情報が無かった場合（ステップＳ３１４：ＮＯ）、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３１６において、ユーザ指定属性情報に一致する属性情報がない旨をクライアント３０の属性情報表示画面５００に表示させ、処理を終了する。

また、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３１５にてユーザ指定属性情報と一致する属性情報を取得した後、ステップＳ３１７において、ステップＳ３１５にて作成した、ユーザ指定属性情報テーブル１２６１内の各レコード対して、当該レコードの属性名１２６１２および属性値１２６１３の値の組を含むすべてのレコードを、文書構造間関連度テーブル１２２３から抽出する。また、ユーザ指定属性情報抽出処理部１１５は、ここで抽出したレコードの中で、属性情報間関連度が所定の閾値以上のレコードだけ
取得し、ここで取得したレコードにおける属性情報候補ＩＤの値に対応するレコードを属性情報リストテーブル１２４から取得して関連属性情報テーブル１２６２に追加する。

例えば、ユーザがユーザ指定属性情報として「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」を入力した結果、「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」に対する属性間関連度が高い属性情報、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」や「属性名：ｄｅｎｓｉｔｙ、属性値：１９ｇ／ｃｍ３」などを取得する。

次に、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３１８において、ステップＳ３１７において選出された全ての属性情報に対して、属性間関連度が所定の閾値以上の属性情報を検索する。

例えば、上述の例のように、ユーザがユーザ指定属性情報として「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」を入力した結果、「属性名：Ｍａｔｅｒｉａｌ、属性値：Ｍａｔｅ－Ａ」に対する属性間関連度が高い属性情報、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」や「属性名：ｄｅｎｓｉｔｙ、属性値：１９ｇ／ｃｍ３」などを取得した場合において、「属性名：Ｍｅｌｔｉｎｇｐｏｉｎｔ、属性値：５００Ｋ」や「属性名：ｄｅｎｓｉｔｙ、属性値：１９ｇ／ｃｍ３」に対して属性間関連度が高い属性情報を検索、取得した結果を、関連属性情報テーブル１２６２に追加する。

続いて、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３１８において、上述のステップＳ３１７にて新たに取得した関連属性情報テーブル１２６２内のすべてのレコード属性名候補および属性値候補の値の組を、ステップＳ３１７でのユーザ指定属性情報と見立てて、ステップＳ３１７と同様に属性間関連度が高い属性情報を再度検索し、これで取得した結果を関連属性情報テーブル１２６２に追加する。

ステップＳ３１８にて関連属性情報テーブル１２６２にデータが追加されている場合（ステップＳ３１９：ＮＯ）、ステップＳ３１８に戻る。一方、そうでない場合（ステップＳ３１９：ＹＥＳ）、ユーザ指定属性情報抽出処理部１１５は、ステップＳ３１１０において、ユーザ指定属性情報テーブル１２６１および関連属性情報テーブル１２６２の全レコードを、クライアント３０の関連属性情報抽出プログラム３１１へ送信する。

一方、クライアント３０の関連属性情報抽出プログラム３１１は、ステップＳ３１１１において、データ管理サーバ１０から送信されてきたユーザ指定属性情報テーブル１２６１のレコード内容を基に、ユーザ指定属性情報に関して所定の強調表示（例：文字の色、サイズ、下線、網掛け、など）を施した文書データを、属性情報表示画面５００のユーザ指定属性情報表示部５０４に表示させる。

ユーザがユーザ指定属性情報表示部５０４にて、表示したい属性情報を選択した場合、関連属性情報抽出プログラム３１１は、ユーザが選択した属性情報に対する関連属性情報を、データ管理サーバ１０から送信されてきた関連属性情報テーブル１２６２より取得し、関連属性情報表示部５０５にグラフ表示する。

この他に、グラフ上に属性情報間の関連度を表示してもよい。またユーザが関連する属性情報の追加や削除を行う機能を有してもよい。また、ユーザが指定した属性情報と一致する属性情報が複数見つかった場合に、複数の結果をマージして表示する処理を有してもよい。

同様に、関連属性情報抽出プログラム３１１は、データ管理サーバ１０から送信されてきた関連属性情報テーブル１２６２より取得するレコードを加工し、属性情報間の関連度
が高い属性情報および関連属性情報表示部５０６に表示された属性情報周辺の文書と文書名を、それぞれ関連属性情報一覧表示部５０６および関連属性情報抽出情報表示部５０７にて表示する。

図２５は、実施例３における属性情報表示画面５００の一例を示した図である。属性情報表示画面５００は、ユーザが指定した属性情報と関連する属性情報を表示する画面である。

この属性情報検索画面５００は、抽出属性一覧表示部５０１、ユーザ指定属性情報入力部５０２、検索ボタン５０３、ユーザ指定属性情報表示部５０４、関連属性情報表示部５０５、関連属性情報一覧表示部５０６、関連属性情報抽出情報表示部５０７を含む。

このうち抽出属性一覧表示部５０１は、属性情報リストテーブル１２４の各レコードにおける属性名および属性値の値の組を関連属性情報抽出プログラム３１１が抽出し、その属性名毎に対応する属性値を網羅的に表示するインターフェイスである。

また、ユーザ指定属性情報入力部５０２は、ユーザが検索したい属性情報（ユーザ指定属性情報）を入力する欄であり、属性名と属性値を入力できる。

また、検索ボタン５０３は、ユーザが入力した属性情報に一致する属性情報およびユーザが入力した属性情報に関連する属性情報の検索を開始するボタンである。

また、ユーザ指定属性情報表示部５０４は、ユーザ指定属性情報テーブル１２６１を用いてユーザ指定属性情報入力部５０２にユーザが入力した属性情報を検索した結果を表示する欄である。

図２５の属性情報表示画面５００では、ユーザが入力した属性情報と一致する属性情報が抽出された周辺の文書や、文書名を表示している。また、ユーザが指定した属性情報と一致する属性情報が複数見つかった際、表示する属性情報を選択する欄を有する。

関連属性情報表示部５０５は、関連属性情報テーブル１２６１を用いてユーザが指定した属性情報に関連する属性情報を表示する欄である。ユーザがユーザ指定属性情報表示部５０４で選択した属性情報について、属性情報間関連度が高い属性情報を結びつけてグラフ表示する。

関連属性情報一覧表示部５０６は、ユーザが指定した属性情報に関連する属性情報の一覧を表示する欄である。ユーザがユーザ指定属し情報表示部５０４で選択した属性情報について、属性情報間関連度が高い属性情報の一覧を表示する。

関連属性情報抽出情報表示部５０７は、関連属性情報表示部５０６に表示された属性情報について、その属性情報が抽出された周辺の文書や文書名を表示する。

なお、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。

また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記録媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発
明を構成することになる。

このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ，ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードをネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。すべての構成が相互に接続されていてもよい。

以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。

こうした本実施形態によれば、文書が含む属性情報のうち、ユーザ指定の属性情報と当該属性情報に付加価値を与えうる他の属性情報とを、精度良く効率的に提示可能となる。このことは、当該ユーザが、膨大な属性情報の中から分析に使用する属性情報を効率良く発見することに貢献しうる。

本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の属性抽出装置において、前記演算部は、前記指標を算出するに際し、前記文書構造の特徴に基づき、前記各属性情報の間の関連度と前記各属性情報の重要度と、を算出するものである、としてもよい。

これによれば、ひいては、文書が含む属性情報のうち、ユーザ指定の属性情報と当該属性情報に付加価値を与えうる他の属性情報とを、さらに精度良く効率的に提示可能となる。このことは、当該ユーザが、膨大な属性情報の中から分析に使用する属性情報をさらに効率良く発見することに貢献しうる。

また、本実施形態の属性抽出装置において、前記演算部は、前記各属性情報の間における共起性および出現距離に基づいて前記関連度を算出するものである、としてもよい。

これによれば、属性情報間の関連度を効率的かつ精度良く特定可能となる。ひいては、文書が含む属性情報のうち、ユーザ指定の属性情報と当該属性情報に付加価値を与えうる他の属性情報とを、さらに精度良く効率的に提示可能となる。このことは、当該ユーザが、膨大な属性情報の中から分析に使用する属性情報をさらに効率良く発見することに貢献しうる。

また、本実施形態の属性抽出装置において、前記演算部は、前記文書における前記各属性情報の出現位置、出現頻度、および、予め定めた特定単語との位置関係、の少なくとも
いずれかに基づいて前記重要度を算出するものである、としてもよい。

これによれば、属性情報の重要度を効率的かつ精度良く特定可能となる。ひいては、文書が含む属性情報のうち、ユーザ指定の属性情報と当該属性情報に付加価値を与えうる他の属性情報とを、さらに精度良く効率的に提示可能となる。このことは、当該ユーザが、膨大な属性情報の中から分析に使用する属性情報をさらに効率良く発見することに貢献しうる。

また、本実施形態の属性抽出装置において、前記演算部は、前記指標に基づいて、前記重要度の算出対象とする属性情報の絞込を行うものである、としてもよい。

これによれば、重要度として適宜な算出対象を効率的に絞り込み、ひいては、文書が含む属性情報のうち、ユーザ指定の属性情報と当該属性情報に付加価値を与えうる他の属性情報とを、さらに精度良く効率的に提示可能となる。このことは、当該ユーザが、膨大な属性情報の中から分析に使用する属性情報をさらに効率良く発見することに貢献しうる。

また、本実施形態の属性抽出装置において、前記演算部は、ユーザによる指定属性情報を前記所定属性情報とし、当該指定属性情報以外の他属性情報各々との間に関し、前記重要度の算出を行うものである、としてもよい。

これによれば、ユーザが気になっている属性情報に関して重要度の算出を行うことが可能となる。ひいては、文書が含む属性情報のうち、ユーザ指定の属性情報と当該属性情報に付加価値を与えうる他の属性情報とを、さらに精度良く効率的に提示可能となる。このことは、当該ユーザが、膨大な属性情報の中から分析に使用する属性情報をさらに効率良く発見することに貢献しうる。

また、本実施形態の属性抽出装置において、前記演算部は、前記文書において所定数以上の同一属性情報が存在する場合、前記指標の算出対象として当該属性情報の重複を排除するものである、としてもよい。

これによれば、上述の指標の算出を効率化し、ひいては、文書が含む属性情報のうち、ユーザ指定の属性情報と当該属性情報に付加価値を与えうる他の属性情報とを、さらに精度良く効率的に提示可能となる。このことは、当該ユーザが、膨大な属性情報の中から分析に使用する属性情報をさらに効率良く発見することに貢献しうる。

１０データ管理サーバ
１１主記憶装置
１２記憶装置
１３ＣＰＵ
１４ネットワークＩ／Ｆ
３０クライアント
３１主記憶装置
３３ＣＰＵ
３４ネットワークＩ／Ｆ
６０ネットワーク
１１０制御プログラム群
１１１管理データ群
１１３属性情報抽出処理部
１１４属性情報間関連度算出処理部
１１５ユーザ指定属性情報抽出処理部
１２０管理データ群
１２１文書情報テーブル
１２２文書構造関連度算出テーブル群
１２２１属性名文書内関連度テーブル
１２２２属性値文書内関連度テーブル
１２２３文書構造間関連度テーブル
１２３属性情報間関連度テーブル
１２４抽出属性情報リストテーブル
１２５テーブル間関連度算出テーブル群
１２５１属性名候補毎属性情報間関連度テーブル
１２５２属性間統計テーブル
１２６関連属性情報表示テーブル群
１２６１ユーザ指定属性情報テーブル
１２６２関連属性情報テーブル
３１０文書データ登録プログラム
３１１関連属性情報抽出プログラム
４００属性情報抽出対象文書選択画面
５００属性情報表示画面
６００属性情報検索画面

Claims

文書を保持する記憶部と、
前記文書で記載されている各属性情報の間に関し、当該文書における文書構造に基づいて所定の指標を算出する処理と、前記属性情報のうち所定属性情報と当該所定属性情報以外の他属性情報各々との間に関し、前記指標および所定の統計上の性質に基づいて、前記所定属性情報に対する前記他属性情報各々の重要度を算出する処理と、を実行する演算部と、
を備える属性抽出装置。
前記演算部は、
前記指標を算出するに際し、前記文書構造の特徴に基づき、前記各属性情報の間の関連度と前記各属性情報の重要度と、を算出するものである、
ことを特徴とする請求項１に記載の属性抽出装置。
前記演算部は、
前記各属性情報の間における共起性および出現距離に基づいて前記関連度を算出するものである、
ことを特徴とする請求項２に記載の属性抽出装置。
前記演算部は、
前記文書における前記各属性情報の出現位置、出現頻度、および、予め定めた特定単語との位置関係、の少なくともいずれかに基づいて前記重要度を算出するものである、
ことを特徴とする請求項２に記載の属性抽出装置。
前記演算部は、
前記指標に基づいて、前記重要度の算出対象とする属性情報の絞込を行うものである、
ことを特徴とする請求項１に記載の属性抽出装置。
前記演算部は、
ユーザによる指定属性情報を前記所定属性情報とし、当該指定属性情報以外の他属性情報各々との間に関し、前記重要度の算出を行うものである、
ことを特徴とする請求項１に記載の属性抽出装置。
前記演算部は、
前記文書において所定数以上の同一属性情報が存在する場合、前記指標の算出対象として当該属性情報の重複を排除するものである、
ことを特徴とする請求項１に記載の属性抽出装置。
文書を保持する記憶部を備えた情報処理装置が、
前記文書で記載されている各属性情報の間に関し、当該文書における文書構造に基づいて所定の指標を算出する処理と、
前記属性情報のうち所定属性情報と当該所定属性情報以外の他属性情報各々との間に関し、前記指標および所定の統計上の性質に基づいて、前記所定属性情報に対する前記他属性情報各々の重要度を算出する処理と、
を実行することを特徴とする属性抽出方法。
文書を保持する記憶部を備えた情報処理装置に、
前記文書で記載されている各属性情報の間に関し、当該文書における文書構造に基づいて所定の指標を算出する処理と、
前記属性情報のうち所定属性情報と当該所定属性情報以外の他属性情報各々との間に関し、前記指標および所定の統計上の性質に基づいて、前記所定属性情報に対する前記他属性情報各々の重要度を算出する処理と、
を実行させることを特徴とする属性抽出プログラム。