JP2000003362A - 文書解析システム及び記録媒体 - Google Patents

文書解析システム及び記録媒体

Info

Publication number
JP2000003362A
JP2000003362A JP10168068A JP16806898A JP2000003362A JP 2000003362 A JP2000003362 A JP 2000003362A JP 10168068 A JP10168068 A JP 10168068A JP 16806898 A JP16806898 A JP 16806898A JP 2000003362 A JP2000003362 A JP 2000003362A
Authority
JP
Japan
Prior art keywords
document
document structure
pattern data
structure pattern
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10168068A
Other languages
English (en)
Inventor
Takako Fujioka
孝子 藤岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP10168068A priority Critical patent/JP2000003362A/ja
Publication of JP2000003362A publication Critical patent/JP2000003362A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 紙媒体出版物における文書を解析し、その文
書構造に関する情報を解析し、保持する文書解析システ
ムを提供すること。 【解決手段】 コンピュータ7には文書読取装置5、文
書構造インデクスデータベース9、文書構造パターンデ
ータベース11が設けられる。文書読取装置5は、紙媒
体に印刷された文書3のテキストを読取る。また、フロ
ッピーディスク12に保存された印刷用データをテキス
トに変換してコンピュータ7に入力させてもよい。文書
構造パターンデータベース11には文書構造パターンデ
ータ31が登録、保持される。文書構造インデクスデー
タベース9には文書構造インデクスデータ41が登録、
保持される。CD−ROM13にはコンピュータ7に文
書解析処理を行わせるためのプログラムが記録されてい
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書解析システム
及び記録媒体に関するものである。
【0002】
【従来の技術】昨今、パソコン等の普及により日常生活
において電子文書を扱うことが増えている。電子文書に
は、文書の中身を示す出現語情報と論理構造を示す体裁
情報に分けて保持するSGML等の標準化されたフォー
マットがあり、文書データの保持や再編集等が比較的自
由に行われる。電子文書が増えつつあるとはいえ、多く
の必要な情報は、今だ情報誌やカタログといった従来の
紙媒体出版物に印刷され、流通されている。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな紙媒体出版物に印刷される文書情報は、そのテキス
ト部が印刷前工程において電子データとして作成されて
も、様々な体裁で印刷され、すぐに廃棄されるため、電
子文書のように文書データとして保持する手段がなく、
再利用等が容易でない。
【0004】本発明はこのような問題に鑑みてなされた
もので、その目的とするところは、紙媒体出版物におけ
る文書をその構造と内容について解析し、文書構造に関
する情報をデータベースとして保持する文書解析システ
ム、及び、コンピュータを文書解析システムとして機能
させる記録媒体を提供することにある。
【0005】
【課題を解決するための手段】前述した目的を達成する
ために第1の発明は、文書を解析するための文書解析シ
ステムであって、文書構造要素と前記文書構造要素に対
応したインデクスからなる文書構造インデクスデータを
保持する文書構造インデクス保持手段と、文書構造パタ
ーンデータを保持する文書構造パターン保持手段と、対
象となる文書の段落ごとに文書構造パターンデータを抽
出する手段と、抽出された文書構造パターンデータを、
前記文書構造パターン保持手段の文書構造パターンデー
タと比較し、一致しない場合、この文書の文書構造要素
にインデクスを設けて、前記文書構造インデクス保持手
段に登録させる登録手段と、を具備することを特徴とす
る文書解析システムである。
【0006】第2の発明は、コンピュータを、文書構造
要素と前記文書構造要素に対応したインデクスからなる
文書構造インデクスデータを保持し、文書構造パターン
データを保持し、対象となる文書の段落ごとに文書構造
パターンデータを抽出し、抽出された文書構造パターン
データを、前記文書構造パターン保持手段の文書構造パ
ターンデータと比較し、一致しない場合、この文書の文
書構造要素にインデクスを設けて、前記文書構造インデ
クス保持手段に登録させるように機能させるためのプロ
グラムを記録する記録媒体である。
【0007】
【発明の実施の形態】以下、図面に基づいて本発明の実
施の形態を詳細に説明する。図1は、本実施の形態に係
る文書解析システム1の概略構成を示す図である。
【0008】図1において、コンピュータ7には文書読
取装置5、文書構造インデクスデータベース9、文書構
造パターンデータベース11が設けられる。文書読取装
置5は、紙媒体に印刷された文書3のテキストを読取る
ものであり、例えば、OCR等である。
【0009】また、文書3を印刷するための印刷用デー
タがある場合は、印刷用データを保存したフロッピーデ
ィスク12などの電子記録媒体からテキストデータを変
換してコンピュータ7に入力してもよい。CD−ROM
13にはコンピュータ7に後述するような文書解析処理
を行わせるためのプログラムが記録されている。
【0010】図2は、文書3のある1ページを示し、大
根のみそ汁の作り方を示す。この場合、「大根のみそ
汁」501が「料理タイトル」に相当し、「大根を切
る。油上げを切る。……」504が「手順」に相当す
る。また、501、502、503等の欄が段落とな
る。図3は、この文書の階層構造を示す説明図である。
【0011】図4は、文書構造パターンデータベース1
1に保持される文書構造パターンデータ31を示す。図
4に示すように、文書構造パターンデータ31は文書構
造要素303とそのパターン情報305からなる。文書
構造要素303とは、例えばその文書が料理の本であっ
たような場合、「タイトル」や「手順」等の各段落の内
容を示す名称である。
【0012】パターン情報305は、文書内に出現する
名詞の種類と出現頻度、及び文書内の類似段落数、総段
落数への割合と包含関係等の情報を有する。
【0013】図5は文書構造パターンデータ31の具体
例を示す図である。出現名詞種類703と出現頻度70
5とは、ある段落における名詞の出現頻度である。例え
ば文書構造要素303が「料理タイトル」の場合、出現
名詞種類703と出現頻度705は、「(a)食品を示
す出現名詞の出現頻度が全語数の50%以下、(b)料
理法を示す出現名詞が全語数の10%以下、…」といっ
た内容になっている。
【0014】図6は、文書3の各ページ3−1、3−
2、…等を示す。図5において、文書中の類似段落70
9とは、図6に示すように、各ページや同一ページ内に
おいて「タイトル」や「手順」等の類似する段落の数を
示す。総段落数とは、1文書内の段落数の合計である。
【0015】例えば、図2に示す文書3において、段落
は501から510まであり、総段落数は「10」段落
となり、その内類似する段落の数は、「タイトル」に当
たる段落が501と507の「2」段落、「手順」に当
たるのが504、506、509、510の「4」段
落、「材料」に当たるのが503、508の「2」段落
である。
【0016】図5において、文書中の段落の包含関係7
11は、上に属する可能性の要素の一覧713、下に属
する要素の可能性の一覧715等からなる。
【0017】図7は、文書構造インデクスデータベース
9を示し、文書構造インデクスデータベース9には、文
書構造インデクスデータ41が登録される。文書構造イ
ンデクスデータ41は、文書構造要素303とインデク
ス313とからなる。
【0018】次に、文書解析システム1が文書3を読み
込み、文書構造パターンデータ31及び文書構造インデ
クスデータ41をそれぞれのデータベースに登録する処
理について説明する。図8はその登録方法を示すフロー
チャートである。
【0019】文書3のテキストを読み取り、文書の段落
ごとにパターン情報305を抽出する(ステップ40
1)。次に、読み取った各段落のパターン情報305が
文書構造パターンデータベース11のパターン情報30
5に一致するかを判定する(ステップ402)。
【0020】すなわち、読取った段落テキストから名詞
の種類と頻度を計算して、文書構造パターンデータベー
ス11のパターン情報305のどの文書構造要素303
に該当するかを推定する。そして推定された文書構造要
素303に対して、類似段落数709をチェックし、ま
た前後の段落の推定結果が包含関係711の上下要素7
13、715のどれかと一致すれば文書構造パターンデ
ータベース11のパターン情報305に一致したとす
る。
【0021】なお、文書構造パターンデータ31は予め
幾つかの文書を解析し、登録させておくこともできる
が、文書3を読み出しながら解析、登録してもよい。
【0022】ステップ402において、読み取った各段
落のパターン情報305が文書構造パターンデータベー
ス11のいずれかのパターン情報305に一致しない場
合、文書構造要素303とインデクス313を新たに作
成し、文書構造インデクスデータベース9に登録する
(ステップ403)。図7に示すように、文書構造イン
デクスデータベース9には文書構造インデクスデータ4
1が階層的に登録される。
【0023】更に、パターン情報305を文書構造要素
303に対応させ、文書構造パターンデータベース11
に登録する(ステップ404)。
【0024】このようにして、文書構造パターンデータ
ベース11にはパターン情報305が蓄積され、文書構
造インデクスデータベース9には、文書構造要素303
とインデクス313が登録される。
【0025】このように本発明の実施の形態を用いれ
ば、文書3の文書構造を効率的に解析し、その情報を保
持することが可能である。以上説明したように作成され
た文書構造インデクスデータ41は、文書3をSGML
対応の文書としてデータ化する際に用いられるものであ
る。
【0026】
【発明の効果】以上、詳細に説明したように本発明によ
れば、紙媒体に印刷された文書の構造情報を効率よくデ
ータ化し、保持することができ、後に文書の再利用が容
易となる。
【図面の簡単な説明】
【図1】 本発明の1実施の形態に係る文書解析システ
ム1を示す図
【図2】 文書3の1ページを示す図
【図3】 文書3の階層構造を示す図
【図4】 文書構造パターンデータ31を示す図
【図5】 文書構造パターンデータ31の具体例を示す
【図6】 類似段落の説明図
【図7】 文書構造インデクスデータベース9を示す図
【図8】 文書解析システム1による解析処理を示すフ
ローチャート
【符号の説明】
1………文書解析システム 3………文書 5………文書読取装置 7………コンピュータ 9………文書構造インデクスデータベース 11………文書構造パターンデータベース 13………CD−ROM

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書を解析するための文書解析システム
    であって、 文書構造要素と前記文書構造要素に対応したインデクス
    からなる文書構造インデクスデータを保持する文書構造
    インデクス保持手段と、 文書構造パターンデータを保持する文書構造パターン保
    持手段と、 対象となる文書の段落ごとに文書構造パターンデータを
    抽出する手段と、 抽出された文書構造パターンデータを、前記文書構造パ
    ターン保持手段の文書構造パターンデータと比較し、一
    致しない場合、この文書の文書構造要素にインデクスを
    設けて、前記文書構造インデクス保持手段に登録させる
    登録手段と、 を具備することを特徴とする文書解析システム。
  2. 【請求項2】 前記文書構造パターンデータは、文書構
    造要素に対応して前記文書中の名詞の種類と出現頻度、
    及び前記文書中の段落数、他段落との包含関係を示すも
    のであることを特徴とする請求項1記載の文書解析シス
    テム。
  3. 【請求項3】 前記登録手段は、抽出された文書構造パ
    ターンデータを、前記文書構造パターン保持手段の文書
    構造パターンデータと比較し、一致しない場合、更にこ
    の文書の文書構造パターンデータを前記文書構造パター
    ン保持手段に登録させることを特徴とする請求項1記載
    の文書解析システム。
  4. 【請求項4】 コンピュータを、 文書構造要素と前記文書構造要素に対応したインデクス
    からなる文書構造インデクスデータを保持し、 文書構造パターンデータを保持し、 対象となる文書の段落ごとに文書構造パターンデータを
    抽出し、 抽出された文書構造パターンデータを、前記文書構造パ
    ターン保持手段の文書構造パターンデータと比較し、一
    致しない場合、この文書の文書構造要素にインデクスを
    設けて、前記文書構造インデクス保持手段に登録させる
    ように機能させるためのプログラムを記録する記録媒
    体。
JP10168068A 1998-06-16 1998-06-16 文書解析システム及び記録媒体 Pending JP2000003362A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10168068A JP2000003362A (ja) 1998-06-16 1998-06-16 文書解析システム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10168068A JP2000003362A (ja) 1998-06-16 1998-06-16 文書解析システム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2000003362A true JP2000003362A (ja) 2000-01-07

Family

ID=15861252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10168068A Pending JP2000003362A (ja) 1998-06-16 1998-06-16 文書解析システム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2000003362A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351895A (ja) * 2001-05-28 2002-12-06 Dainippon Printing Co Ltd 印刷製版データからの情報抽出装置
JP2011238221A (ja) * 2010-05-05 2011-11-24 Palo Alto Research Center Inc パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351895A (ja) * 2001-05-28 2002-12-06 Dainippon Printing Co Ltd 印刷製版データからの情報抽出装置
JP2011238221A (ja) * 2010-05-05 2011-11-24 Palo Alto Research Center Inc パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定

Similar Documents

Publication Publication Date Title
US8452132B2 (en) Automatic file name generation in OCR systems
JP2960340B2 (ja) データ検索方法及び装置
EP1679625B1 (en) Method and apparatus for structuring documents based on layout, content and collection
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
US20090123071A1 (en) Document processing apparatus, document processing method, and computer program product
CN100461173C (zh) 电子归档系统和电子归档方法
JPH08241332A (ja) 全文登録語検索装置および方法
Allen et al. Metadata and data structures for the historical newspaper digital library
Bia et al. The Miguel de Cervantes digital library: the Hispanic voice on the web
Hockey Evaluating electronic texts in the humanities
JP2000003362A (ja) 文書解析システム及び記録媒体
Catenazzi A study into electronic book design and production: Hyper-book and the hyper-book builder
JP2000163445A (ja) データベース管理システム
JP2000003360A (ja) 文書解析システム及び記録媒体
JP3448922B2 (ja) 電子文書記憶装置
WO2003073360A1 (en) 2-dimensional bar code print method with summary information
Taine Bibliographic data processing at the National Library of Medicine including a discussion led by Ralph T. Esterquest
Batts Pilot'bibliographies of Canadian ethnic literature:(German, Hungarian, Italian, Polish, Spanish).
JP2000099543A (ja) 情報検索装置
JP2000003361A (ja) 文書解析システム及び記録媒体
Williams Punched Cards: A Brief Tutorial.«
Zhang et al. Development of a video database system
Venezky Computer-aided humanities research at the University of Wisconsin
Taniguchi Expression-level bibliographic entity records: a trial on creation from pre-existing MARC records
Klein A Computer-Aided Personal Library Catalog