JP2000137720A - 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体 - Google Patents

情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体

Info

Publication number
JP2000137720A
JP2000137720A JP10308399A JP30839998A JP2000137720A JP 2000137720 A JP2000137720 A JP 2000137720A JP 10308399 A JP10308399 A JP 10308399A JP 30839998 A JP30839998 A JP 30839998A JP 2000137720 A JP2000137720 A JP 2000137720A
Authority
JP
Japan
Prior art keywords
attribute
information
document set
document
target document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10308399A
Other languages
English (en)
Inventor
Toshinori Iwadera
俊哲 巖寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10308399A priority Critical patent/JP2000137720A/ja
Publication of JP2000137720A publication Critical patent/JP2000137720A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 大量の情報から各種情報間の相互の共通性,
差異性を表す特徴的な情報を抽出し,それら情報相互の
対応関係の一覧を可能にすることにより,必要十分な情
報を選択的に利用可能にする。 【解決手段】 属性表現抽出手段1は,対象文書集合中
に現れる特徴的な属性表現を抽出する。属性値抽出手段
2は,抽出された属性表現に対応する属性値を対象文書
集合中の各文書毎に抽出する。属性情報統合作表手段3
は,対象文書集合中から抽出された属性表現と,対象文
書集合中の各文書毎に抽出された属性表現に対応する属
性値とを用いて,対象文書集合中の各文書と属性表現と
属性値の3項目間の対応関係が一覧可能である表形式の
統合情報を作成する。統合情報出力手段4は,作成され
た表形式の統合情報を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,文書情報処理に用
いられる情報統合作表装置に関し,特に特定の単一の話
題について記述している複数の文書から構成される文書
集合の各文書から,当該話題に関連し,かつ,当該話題
中において特徴的に出現する属性表現を抽出し,かつ,
対象文書集合中の各文書から各属性表現に対応する属性
値を抽出して,各文書と各属性表現と属性値との対応関
係の一覧を与える表形式の統合情報を作成する情報統合
作表装置に関する。
【0002】
【従来の技術】近年,インターネットが,急速に普及し
ている。さらに,データ記録装置は,大容量化,低価格
化している。これに伴って,大量で多様な情報が,ネッ
トワークを介して容易に利用可能になっている。また,
WWW(World Wide Web)の普及とともに多くのユーザ
が相互に情報を生成し,利用することが行われている。
しかし,情報洪水といわれるように利用できる情報量が
飛躍的に増加するに従って,これらの情報の中から有益
な情報を見つけ出したり,取捨選択したりすることが困
難になってきている。
【0003】文書検索装置等によって得られた大量の情
報から,有益な情報を抽出するための従来技術として,
情報抽出技術,文書構造化技術等があり,これらの従来
技術において使用される代表的な手法としては,次の2
つが挙げられる。
【0004】1.パタンマッチングによる情報抽出手法 2.ヒューリスティックスを用いた情報抽出手法 次に,これらの技術の概要と問題点について述べる。
【0005】1.[従来技術1]パタンマッチングによ
る情報抽出手法 このパタンマッチングによる情報抽出手法は,ある単語
列をパタンとしてあらかじめ保持しておき,パタンマッ
チング処理によって情報を抽出する手法である。これ
は,特定の情報は,限られたパタンによって表現される
ことが多いという考え方に基づいている。
【0006】例えば,あらかじめ「<メーカ>は<製品
>の販売を開始した」というようなパタンを用意してお
くことにより,文書中からこのパタンにマッチする「○
×コンピュータは新型コンピュータの販売を開始し
た。」という文を抽出する。
【0007】2.[従来技術2]ヒューリスティックス
を用いた情報抽出手法 このヒューリスティックスを用いた情報抽出手法は,文
の文書中での位置情報,タイトルや見出しに出現する単
語,手がかり語句の有無を組み合わせて文の重要度を判
定し,重要と判定された文を抽出する手法である。
【0008】[従来技術1の問題点]上記の従来のパタ
ンマッチングによる情報抽出手法では,必要とするパタ
ンをあらかじめ用意しておくことが必要である。このた
め,パタンにマッチしない新たな情報の抽出を行うこと
ができないという問題点がある。
【0009】この技術を用いて属性情報を抽出するため
には,第一に,情報中にどのような属性が記述されてい
るか,第二に,それはどのようなパタンで記述されてい
るかを,あらかじめ確定しておく必要がある。
【0010】[従来技術2の問題点]また,上記従来の
ヒューリスティックスを用いた情報抽出手法も,前述し
たパタンマッチングによる情報抽出手法と同様に,あら
かじめヒューリスティックスを用意しておくことが必要
である。このため,新たな情報の抽出には,不向きであ
る。さらに,ある文書タイプで有効なヒューリスティッ
クスが別の文書タイプで有効であるとは限らない。例え
ば新聞記事などでは,位置情報が有効である。また,学
術論文では,手がかり語句によるヒューリスティックス
が有効である。インターネット上には,様々なタイプの
文書が混在しており,文書タイプを自動的に判定するこ
とが必要となる。しかし,現状では,文書タイプを判別
する有効な技術がないという問題点がある。また,タイ
トルや見出しが存在しない文書や,手がかり語句がほと
んど出現しない文書も多いため,ヒューリスティックス
が有効に働かないことが多いという問題点がある。
【0011】この技術を用いて何らかの有益な情報を文
書から抽出するためには,第一に,文書中にどのような
情報がどのような表現で記述されているか,第二に,そ
れはどのような位置,形式で出現するかを,あらかじめ
確定しておく必要がある。
【0012】
【発明が解決しようとする課題】前述したように,文書
検索装置等によって得られた大量の情報をすべて閲覧
し,有益な情報を探索して選別することは困難である。
したがって,適切な情報を効率的に利用するためには,
大量の情報から各種情報間の相互の共通性,差異性を表
す特徴的な情報を抽出し,それら情報相互の対応関係の
一覧を可能にすることにより,必要十分な情報を選択的
に利用可能にする技術が望まれる。
【0013】大量の文書の選択的利用を支援する手段の
一つとして,各文書からその文書を特徴付ける少量の情
報(属性情報)を抽出し,整理して提示する方法が考え
られる。例えば,書籍に関する情報において,1冊の著
書毎に1個の文書を構成している場合,各文書より,
「タイトル」,「著者」,「出版社」,「発行日」等の
属性に関する情報を抽出し,属性毎に整理して利用者に
提示することにより,必要な文書の選択的利用が可能と
なる。
【0014】膨大な数の文書を含む全体文書集合から構
成し得る部分文書集合を,あらかじめ想定することは困
難である。さらに,これらの文書集合の各文書間の共通
性,差異性を特徴付ける情報をあらかじめ作成すること
は困難である。そこで情報を選択的に利用するために,
任意の文書集合において,各文書をその集合中において
特徴付ける属性情報を自動的に抽出し,その特徴の文書
間の対応関係を一覧可能とする表形式の統合情報を提示
する技術が実現されれば,その有用性はきわめて大き
い。
【0015】このような情報統合作表の技術を実現する
にあたって,前述した[従来技術1],[従来技術2]
の技術は,任意の文書を対象とした場合,表現されてい
る情報,形式をあらかじめ定めることが不可能であるた
め,どちらの手法も適用することはできない。
【0016】本発明は,上記の点に鑑みなされたもの
で,あらかじめパタンやヒューリスティックスを用意す
ることなく,複数の文書から構成される文書集合に属す
る各文書から,各文書を特徴付ける属性情報を抽出し,
各文書と属性情報の対応関係を表現する1個の一覧表を
作成する情報統合作表装置を提供することを目的とす
る。
【0017】
【課題を解決するための手段】〔基本的な考え方〕本発
明が基づく基本的な考え方は,次の通りである。 (1)特定の話題中において使用される属性表現は,そ
の話題を特徴付ける表現であり,その話題中に頻出す
る。 (2)属性表現に対応する属性値は,文書中において属
性表現の近傍に表記されている。 (3)特定の話題中において使用される属性表現は,そ
の話題に関する文書中に共通に出現する。
【0018】例えば,文書検索装置を用いて,「桜の花
見」について検索を実行した結果得られる文書集合を
「対象文書集合」とした場合を想定する。この場合,対
象文書集合を特徴付ける情報は,「桜の花見」に関する
様々な情報である。例えば,これは,桜の種類,あるい
は,見頃や名所に関する情報であり,これらは,「見
頃」,「名所」,あるいは,「行き方」のような属性表
現とともに出現する。これらの属性表現に対応する属性
値である見頃や名所を具体的に示す「4月上旬」や「上
野公園」のような表現は,多くの場合,対応する属性表
現の近傍に表記される。こられの属性値は,各個別文書
毎に異なるが,これらの表現が見頃であることを明示す
る「見頃」やその場所を明示する「名所」のような表現
は,各個別文書に共通して出現する。
【0019】上記のような属性表現と対応する属性値の
特徴的な出現の仕方を利用することにより,特定の文書
集合中の各文書からその文書と対応させて属性表現と属
性値の組み合わせを抽出し,文書集合全体として1個の
表に統合することにより,特定文書集合中の各文書と各
属性値の対応関係の比較を容易にする一覧表を作成する
ことが可能となる。
【0020】〔本発明の基本的構成〕図1は本発明の原
理構成図,図2は本発明の原理を説明するための基本的
な処理の流れを示す図である。本発明による情報統合作
表処理の基本的な手順を,図1および図2に従って説明
する。 〔S1〕まず,属性表現抽出手段1は,対象文書集合を
特徴付け,各個別文書に共通に出現する属性表現を対象
文書集合全体から抽出して,属性表現リストを作成す
る。 〔S2〕次に,属性値抽出手段2は,対象文書集合中の
各個別文書毎に,属性表現リスト中の属性表現に対応す
る属性値を抽出し,文書別の属性表現と属性値を組み合
わせたリストを作成する。 〔S3〕属性情報統合作表手段3は,属性表現抽出手段
1と属性値抽出手段2の処理により各個別文書から得ら
れた属性表現と属性値の組み合わせを統合し,各個別文
書との対応関係を表す一覧表(文書−属性表現−属性値
対応リスト)を作成する。 〔S4〕統合情報出力手段4は,属性情報統合作表手段
3により作成された一覧表の統合情報を転送媒体等に出
力する。
【0021】この明細書において,「対象文書集合」と
は,情報統合作表処理の対象となる文書集合を指す。さ
らに,「個別文書」とは,「対象文書集合」中の各文書
を指す。「属性表現」とは,「対象文書集合」中から抽
出される表現であり,「対象文書集合」に特徴的に出現
する表現である。
【0022】この発明によると,複数の文書から構成さ
れる文書集合中の各文書を特徴付ける属性情報を適切に
抽出可能となり,さらに,これらの情報と各文書との対
応関係を一覧表の形式で構成することで文書間の共通
性,差異性を効率的に表現することが可能となる。ま
た,予め抽出に使用する知識等を用意する必要がなく,
様々な文書集合に適用可能である。
【0023】この発明による情報統合作表装置を構成す
る各手段を専用のハードウェア回路によって実現するこ
とができるし,プログラムされたコンピュータによって
実現することもできる。
【0024】
【発明の実施の形態】以下,図面を参照して本発明に係
る実施の形態について説明する。図3は,本発明に係る
一実施形態の情報統合作表装置のブロック図である。こ
の情報統合作表装置は,例えば,文書検索装置の一部を
構成し,検索された文書集合からその文書集合の各文書
に特徴的に出現する属性情報を抽出し,文書集合中の各
文書の共通性,差異性を明示することで利用者の文書情
報の利用を支援するものである。
【0025】以下,文書検索装置本体から出力された文
書集合中から属性情報を抽出し,これらの情報を統合す
る場合を想定して説明する。この情報統合作表装置は,
入力として文書集合を受信し,あらかじめ,提供されて
いる初期情報を用い,入力された文書集合を処理し,統
合情報を出力する。
【0026】図3に示す情報統合作表装置において,入
力記憶装置20は,本装置に与えられる対象文書集合が
一定の順序で記憶されているもの,転送媒体30は,本
装置の処理結果が与えられる通信チャネルまたは記録媒
体である。監視制御部10,対象文書集合入力部10
1,対象文書集合解析部102,属性表現抽出部10
3,属性値抽出部104,属性情報統合作表部105,
統合情報出力部106を総称して,処理部という。ま
た,対象文書集合解析結果記憶部201,属性表現記憶
部202,属性値記憶部203,統合情報記憶部204
を総称して,記憶部という。
【0027】以上の各種制御処理を実行する処理部と各
種データを記憶する記憶部は,以下のとおりである。
【0028】〔処理部〕 (a) 監視制御部10:各処理部を総合的に制御する。 (b) 対象文書集合入力部101:入力記憶装置20から
処理の対象文書集合を受け取る。 (c) 対象文書集合解析部102:対象文書集合入力部1
01に与えられた対象文書集合中の各文書を解析し,そ
の文書を構成する単語とその単語の出現頻度を算出す
る。 (d) 属性表現抽出部103:対象文書集合中に現れる特
徴的な属性表現を抽出する。 (e) 属性値抽出部104:属性表現抽出部103により
抽出された属性表現に対応する属性値を対象文書集合中
の各文書毎に抽出する。 (f) 属性情報統合作表部105:対象文書集合中から抽
出された属性表現と,その属性表現に対応する対象文書
集合中の各文書毎から抽出された属性値を用いて,対象
文書集合中の各文書と属性表現と属性値の対応関係が一
覧可能である表を作成する。 (g) 統合情報出力部106:属性情報統合作表部105
が作成した統合情報を転送媒体30に与える。
【0029】〔記憶部〕 (h) 対象文書集合解析結果記憶部201:対象文書集合
中の単語と各単語の出現頻度を対応づけて記憶する。 (i) 属性表現記憶部202:属性表現抽出部103によ
り抽出された属性表現を記憶する。 (j) 属性値記憶部203:属性値抽出部104により抽
出された属性値を,対応する属性表現とその抽出元であ
る各文書とともに対応づけて記憶する。 (k) 統合情報記憶部204:属性情報統合作表部105
により作成された,対象文書集合から抽出された属性表
現と属性値を統合し,それら各属性表現と値の組み合わ
せと各文書の対応関係を表す一覧表を記憶する。
【0030】ここで,処理部101−106の各処理部
と,記憶部201−204の各記憶部は,監視制御部1
0に接続される。各処理部は,例えばデジタル電子計算
機で構成され,それぞれCPUと,動作プログラムとそ
れを実行するためのデータを記録するROMと,ワーキ
ングメモリとして用いられるRAMとを備える。なお,
全処理部を1つのデジタル電子計算機で構成してもよ
い。
【0031】また,各記憶部201−204は,例えば
ハードディスクメモリなどのメモリによって構成され
る。本装置に与える対象文書集合を記憶する入力記憶装
置20は,半導体メモリ装置,あるいは,ハードディス
クやフロッピーディスク(登録商標)等によって実現す
ることができる。
【0032】以下,図3に示す各部について,さらに詳
しく説明する。対象文書集合解析結果記憶部201は,
対象文書集合解析部102の処理結果の1つとして得ら
れる対象文書集合の解析結果を記憶・保持する。対象文
書集合とは,本装置が接続される文書検索装置から転送
される文書集合である。対象文書集合の解析結果とは,
対象文書集合中の全文書に記述されている文章を形態素
解析し,各単語の表現と対象文書集合中での各単語の出
現頻度を対応づけたものである。対象文書集合の解析結
果は,単語表現,出現頻度の2つのカラムからなるテー
ブルとして表現,記憶・保持される。このテーブルにお
いて,各行は,各単語表現とその単語の出現頻度の対応
関係を表す。このテーブルは,各単語表現をキーとして
対応する行を検索できる構造をとる。
【0033】属性表現記憶部202は,属性表現抽出部
103の処理結果として得られる,対象文書集合中から
抽出された属性表現を記憶・保持する。ここに記憶され
る属性表現とは,対象文書集合に特徴的な表現であり,
対象文書集合中の各個別文書に共通に出現する表現であ
る。
【0034】属性値記憶部203は,属性値抽出部10
4の処理結果として得られる各個別文書から抽出された
属性値を,抽出元である個別文書毎に,対応する属性表
現とともに対応づけて記憶・保持する。個別文書とは,
前述した対象文書集合に含まれる各文書である。
【0035】統合情報記憶部204は,属性情報統合作
表部105の処理結果として得られる,各個別文書と各
属性表現とこれらに対応する属性値の対応関係を表す一
覧表を記憶・保持する。
【0036】監視制御部10は,処理部101−106
を制御し,データフローを統制するモジュールである。
【0037】対象文書集合入力部101では,監視制御
部10から転送された対象文書集合に対して対象文書集
合入力処理が実行される。この処理は,以降の処理の前
処理であり,入力された対象文書集合中の各文書から本
装置による処理に必要のない部分を除去する。また,以
降の処理で対応している文字コードへ変換される。例え
ば,HTML形式の文書の場合,HTMLタグが除去さ
れる。また,ワープロ文書の場合には,文字飾り等が除
去される。さらに,文書を構成している文字のコードが
まちまちである場合には,1つのコードに統一される。
処理結果は,監視制御部10へ出力される。
【0038】対象文書集合解析部102では,監視制御
部10から転送される対象文書集合入力処理結果に対し
て対象文書集合解析処理が実行される。この処理は,文
書毎に,その文書に記述されている文章を形態素解析
し,各単語の表現と各単語の出現頻度とを対応づけて記
録するものである。解析結果は,単語表現,出現頻度の
2つのカラムからなるテーブルとして監視制御部10へ
出力される。このテーブルにおいて,各行には,各単語
表現,および,その単語の出現頻度が記述される。ま
た,このテーブルは,各単語表現をキーとして対応する
すべての行を検索できる構造をとる。
【0039】属性表現抽出部103では,監視制御部1
0を介して与えられる対象文書集合解析結果に基づい
て,属性表現抽出処理が実行される。属性表現とは,対
象文書集合に特徴的な表現であり,対象文書集合中の各
個別文書に共通に出現する表現である。属性表現の抽出
は,例えば特願平10−230963号(「属性表現抽
出方法及び装置並びに属性表現抽出プログラムを記録し
た記録媒体」)で述べられている方法を用いて行う。こ
の方法では,まず,標準文書集合を解析してその解析結
果を得ておく。標準文書集合とは,ジャンル等に関係な
く任意に選択した数多くの文書の集合である。文書検索
システムにおいて検索可能な全文書を標準文書集合とし
てもよい。次に,標準文書集合と対象文書集合の解析結
果に基づいて,対象文書集合を標準文書集合に対して特
徴付ける情報を算出する。続いて,対象文書集合と個別
文書の解析結果に基づき,対象文書集合中の各個別文書
について,それらに共通する特徴情報を算出する。こう
して得た対象文書集合全体の特徴情報と各個別文書共通
の特徴情報により,対象文書集合に特徴的な属性表現を
抽出する。また,属性表現抽出部103では,属性表現
を網羅的に記録した属性表現辞書などを用い,これに記
載されている表現を属性表現として抽出してもよい。処
理結果は,監視制御部10へ出力する。
【0040】属性値抽出部104では,監視制御部10
を介して与えられる対象文書集合解析結果記憶部201
に記憶されている対象文書集合解析結果と属性表現記憶
部202に記憶されている属性表現抽出結果に対して,
対象文書集合中の各個別文書毎に属性値抽出処理が実行
される。処理結果は,対応する個別文書と関連づけた属
性値抽出処理結果として監視制御部10に出力される。
【0041】ここで抽出される属性値とは,上記の属性
表現抽出部103で抽出された属性表現に対応する値
で,さらに,対象文書集合中の各個別文書において,対
応する属性表現の近傍に現れる表現である。
【0042】個別文書毎に,次に示す手順に従って属性
値は,抽出される。 (1)処理対象になっている個別文書中に各単語毎に特
徴スコアを算出する。 (2)属性表現の近傍に存在するあらかじめ決められた
単語数の連続する単語列,あるいは,あらかじめ決めら
れた構造を構成する文字列を当該属性表現に対応する属
性値の候補とする。 (3)上記で,属性値の候補となった単語列の中で単語
列を構成する特徴スコアの平均が最大の単語列を対応す
る属性値として抽出する。
【0043】上記属性値の抽出手順中で使用される単語
の特徴スコアとは,単語の出現分布の特徴を表す数値で
ある。この数値は,特定の個別文書に出現する単語ほ
ど,大きな値となる。
【0044】この特徴スコアは,各単語毎にその単語の
出現頻度分布に対して,χ2乗検定の考え方を用いて算
出する。χ2乗検定は,「いくつかの群で,ある変数の
分布に差があるかどうか」を検定することができる。本
実施の形態では,この変数を文書中の単語とする。対象
文書集合中の全単語の出現総数と,個別文書中の全単語
の出現総数と,この値から計算される各単語の個別文書
中での出現頻度の期待値の分布と,実際に観測される各
単語の個別文書中での出現頻度の分布とから,χ2乗値
を算出する。この値が大きくなるほど分布に差があるこ
とになり,そのような単語ほど偏って出現していること
になり,個別文書中に特徴的な単語となる。本実施の形
態では,この値を用いて各単語の特徴スコアを算出す
る。
【0045】また,属性表現の近傍とは,文書中におい
て,属性表現の前後に出現するあらかじめ決められた個
数の単語のことである。
【0046】属性情報統合作表部105では,監視制御
部10から対象文書集合中の各個別文書毎に与えられる
属性表現とこれに対応する属性値を用いて,各個別文書
と属性表現と属性値の対応関係を表す一覧表を作成す
る。例えば,n個の個別文書からm個の属性表現が抽出
された場合に作成される表は,n行m列の2次元の表と
して作成することができる。この表において,各行は,
各個別文書に対応し,各列は,抽出された各属性表現に
対応する。この表において,各行と各列が交差している
各欄は,各個別文書における属性表現に対応する属性値
を表す。属性情報統合作表処理結果は,監視制御部10
に出力される。
【0047】統合情報出力部106では,監視制御部1
0から転送されてくる統合情報を監視制御部10を通し
て転送媒体30に出力する。
【0048】以下,図5に一部を示す対象文書集合が与
えられると想定した場合の一処理例を用いて,本装置の
動作を図4に示すフローチャートに基づいて説明する。
対象文書集合入力部101に,図5にその一部を示す対
象文書集合が与えられると,以下のような手順で処理が
行われる。
【0049】ステップS101:対象文書集合が入力さ
れると,対象文書集合入力部101では,対象文書集合
中の各文書から以後の処理で不要である部分が除去され
る。この対象文書集合入力処理の結果は,監視制御部1
0へ出力される。監視制御部10は,これを対象文書集
合解析部102へ転送する。
【0050】ステップS102:監視制御部10より,
対象文書集合入力処理結果が与えられると,対象文書集
合解析部102では,転送されてきた対象文書集合を解
析する。すなわち,各文書毎にその文書を記述している
文章を形態素解析し,対象文書集合中の単語表現とその
単語の出現頻度を求める。この結果の一部を図6に示
す。この結果は,監視制御部10に出力される。監視制
御部10は,対象文書集合解析結果を対象文書集合解析
結果記憶部201に記憶,保持する。
【0051】ステップS103:次に,監視制御部10
は,対象文書集合解析結果記憶部201に記憶されてい
る対象文書解析結果を属性表現抽出部103に転送す
る。属性表現抽出部103では,転送されてくる対象文
書集合解析結果に基づいて属性表現を抽出する。抽出さ
れた属性表現は,監視制御部10へ出力される。抽出結
果を図7に示す。監視制御部10は,抽出結果を属性表
現記憶部202に転送する。属性表現記憶部202は,
転送されてきた属性表現を記憶,保持する。
【0052】ステップS104:監視制御部10は,対
象文書集合解析結果記憶部201に記憶されている対象
文書集合解析結果とともに,属性表現記憶部202に記
憶されている属性表現を属性値抽出部104に転送す
る。属性値抽出部104では,監視制御部10から転送
されてきた対象文書集合解析結果と属性表現に基づい
て,対象文書集合中の各個別文書毎に,属性表現に対応
する属性値を抽出する。抽出された属性値は,監視制御
部10に出力される。
【0053】監視制御部10は,出力された属性値を抽
出元である個別文書を対応する属性表現とともに属性値
記憶部203に転送する。属性値記憶部203は,転送
されてくる抽出結果を記憶,保持する。属性値記憶部2
03に記憶,保持される抽出結果の一部を図8に示す。
【0054】ステップS105:次に,監視制御部10
は,属性値記憶部203に記憶されている属性値抽出結
果を属性情報統合作表部105に転送する。属性情報統
合作表部105は,個別文書毎に転送されてくる属性値
抽出結果を統合し,各属性表現と各個別文書と属性値の
対応関係を表す一覧表を作成する。作成された一覧表を
図9に示す。作成された一覧表は,監視制御部10に出
力される。監視制御部10は,出力された一覧表を統合
情報記憶部204に転送する。統合情報記憶部204
は,転送されてきた一覧表を記憶,保持する。
【0055】ステップS106:さらに,監視制御部1
0は,統合情報記憶部204に記憶されている属性情報
統合作表結果を転送媒体30に出力する。
【0056】以上の実施形態において,種々の定義値を
用いているが,これらの値は設計値であり,下記のよう
に必要に応じて変更してもよい。 (1)特徴スコアの算出にχ2乗検定の考え方を用いて
いるが,他の手法で算出してもよい。 (2)属性表現,属性値の抽出単位として単語を用いた
が,この単位は,文字や一定長の文字列でもよい。
【0057】
【発明の効果】以上説明したように,本発明によれば,
あらかじめ処理知識やパタンなどを用意することなく統
合情報を作成することができる。これにより,使用開始
時に想定したものと対象とする文書内容に差異が生じた
場合や新たな情報を含んでいる場合においても適切に属
性情報を抽出し,これらの情報を統合することが可能と
なる。また,任意の文書集合中の各文書間の共通性,差
異性を表現可能であり,文書検索装置の出力編集装置に
適用することにより,効率的に文書集合から適切な文書
を選択,閲覧,利用することが可能となる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の原理を説明するための基本的な処理の
流れを示す図である。
【図3】情報統合作表装置のブロック図である。
【図4】情報統合作表処理のフローチャートである。
【図5】対象文書集合の一部を示す図である。
【図6】対象文書集合解析結果の一部を示す図である。
【図7】属性表現の例を示す図である。
【図8】属性値抽出結果の一部を示す図である。
【図9】属性情報統合作表結果の一部を示す図である。
【符号の説明】
1 属性表現抽出手段 2 属性値抽出手段 3 属性情報統合作表手段 4 統合情報出力手段

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 文書データを記憶した入力記憶装置から
    読み出される複数の文書から構成される対象文書集合中
    から各文書毎に特徴的な属性情報を抽出し,それらを統
    合するための装置であって,上記対象文書集合中に現れ
    る特徴的な属性表現を抽出する属性表現抽出手段と,上
    記属性表現抽出手段により抽出された属性表現に対応す
    る属性値を,上記対象文書集合中の各文書毎に抽出する
    属性値抽出手段と,上記対象文書集合中から抽出された
    属性表現と,上記対象文書集合中の各文書毎に抽出され
    た属性表現に対応する属性値とを用いて,上記対象文書
    集合中の各文書と属性表現と属性値の対応関係が一覧可
    能である表形式の統合情報を作成する属性情報統合作表
    手段と,上記属性情報統合作表手段が作成した表形式の
    統合情報を,出力装置または外部記憶媒体に出力する統
    合情報出力手段とを備えることを特徴とする情報統合作
    表装置。
  2. 【請求項2】 文書データを記憶した入力記憶装置から
    読み出される複数の文書から構成される対象文書集合中
    から各文書毎に特徴的な属性情報を抽出し,それらを統
    合する情報統合作表方法であって,上記対象文書集合中
    に現れる特徴的な属性表現を抽出する過程と,抽出され
    た属性表現に対応する属性値を,上記対象文書集合中の
    各文書毎に抽出する過程と,上記対象文書集合中から抽
    出された属性表現と,上記対象文書集合中の各文書毎に
    抽出された属性表現に対応する属性値とを用いて,上記
    対象文書集合中の各文書と属性表現と属性値の対応関係
    が一覧可能である表形式の統合情報を作成する過程と,
    作成した表形式の統合情報を,出力装置または外部記憶
    媒体に出力する過程とを有することを特徴とする情報統
    合作表方法。
  3. 【請求項3】 文書データを記憶した入力記憶装置から
    読み出される複数の文書から構成される対象文書集合中
    から各文書毎に特徴的な属性情報を抽出し,それらを統
    合するための装置を計算機によって実現するためのプロ
    グラムを記録した記録媒体であって,上記対象文書集合
    中に現れる特徴的な属性表現を抽出する処理と,抽出さ
    れた属性表現に対応する属性値を,上記対象文書集合中
    の各文書毎に抽出する処理と,上記対象文書集合中から
    抽出された属性表現と,上記対象文書集合中の各文書毎
    に抽出された属性表現に対応する属性値とを用いて,上
    記対象文書集合中の各文書と属性表現と属性値の対応関
    係が一覧可能である表形式の統合情報を作成する処理
    と,作成した表形式の統合情報を,出力装置または外部
    記憶媒体に出力する処理とを,計算機に実行させるプロ
    グラムを記録したことを特徴とする情報統合作表プログ
    ラムを記録した記録媒体。
JP10308399A 1998-10-29 1998-10-29 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体 Pending JP2000137720A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10308399A JP2000137720A (ja) 1998-10-29 1998-10-29 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10308399A JP2000137720A (ja) 1998-10-29 1998-10-29 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000137720A true JP2000137720A (ja) 2000-05-16

Family

ID=17980603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10308399A Pending JP2000137720A (ja) 1998-10-29 1998-10-29 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000137720A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288190A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 要約装置、要約方法、ならびに、プログラム
JP2004030021A (ja) * 2002-06-24 2004-01-29 Oki Electric Ind Co Ltd 文書処理装置および方法
WO2008146807A1 (ja) 2007-05-31 2008-12-04 Nec Corporation オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
JP2011204225A (ja) * 2010-03-25 2011-10-13 Nec (China) Co Ltd 属性抽出装置および方法
JP2012123682A (ja) * 2010-12-09 2012-06-28 Fujitsu Ltd 文書管理プログラム、文書管理装置、及び文書管理方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288190A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 要約装置、要約方法、ならびに、プログラム
JP2004030021A (ja) * 2002-06-24 2004-01-29 Oki Electric Ind Co Ltd 文書処理装置および方法
WO2008146807A1 (ja) 2007-05-31 2008-12-04 Nec Corporation オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
US8244769B2 (en) 2007-05-31 2012-08-14 Nec Corporation System and method for judging properties of an ontology and updating same
JP2011204225A (ja) * 2010-03-25 2011-10-13 Nec (China) Co Ltd 属性抽出装置および方法
JP2012123682A (ja) * 2010-12-09 2012-06-28 Fujitsu Ltd 文書管理プログラム、文書管理装置、及び文書管理方法

Similar Documents

Publication Publication Date Title
JPH08241332A (ja) 全文登録語検索装置および方法
JP2005056039A (ja) 情報処理システムおよび方法、プログラム、並びに記録媒体
JP2001125894A5 (ja)
JP4014160B2 (ja) 情報処理装置、プログラム、及び記録媒体
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JP2000137720A (ja) 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体
JP2009086903A (ja) 検索サービス装置
JPH08255253A (ja) グラフ表示処理装置およびグラフ表示処理方法
JP3937741B2 (ja) 文書の標準化
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2000067054A (ja) 属性表現抽出方法及び装置並びに属性表現抽出プログラムを記録した記録媒体
JP2005011301A (ja) 文書処理装置及び文書処理プログラム
JP2004021746A (ja) 検索結果文字列表示方法およびシステム
JPH11338867A (ja) 文書要約方法及び装置及び文書要約プログラムを格納した記憶媒体
JP2002132789A (ja) 文書検索方法
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JPH11213008A (ja) テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法
JP2006344053A (ja) 特許明細書作成支援プログラム
JPH11345239A (ja) 文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP2005056042A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2004070376A (ja) 文書表示装置および方法
US20010037330A1 (en) Data input form retrieving system, data input form retrieving method, and computer-readable recording medium
JP4783401B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2004157830A (ja) 情報検索プログラム