JPH044467A - 文書構造解析装置 - Google Patents

文書構造解析装置

Info

Publication number
JPH044467A
JPH044467A JP2106876A JP10687690A JPH044467A JP H044467 A JPH044467 A JP H044467A JP 2106876 A JP2106876 A JP 2106876A JP 10687690 A JP10687690 A JP 10687690A JP H044467 A JPH044467 A JP H044467A
Authority
JP
Japan
Prior art keywords
pattern
character string
section
sentence structure
document structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2106876A
Other languages
English (en)
Inventor
Takashi Hibi
孝 日比
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2106876A priority Critical patent/JPH044467A/ja
Publication of JPH044467A publication Critical patent/JPH044467A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野)  − 本発明は、機械翻訳等の文書処理システムにおいて、文
書の内容を解析する前処理としてその文書の構造を解析
するための文書構造解析装置に関するものである。
(従来の技術) 従来、このような分野の技術としては、自然言語処理研
究会資料46−6 (1984−:L2−7)(社)情
報処理学会、板本・有賀著rMuプロジェクI・におけ
る総合システムの基本設計JP、6に記載されるものが
あった。
従来、前記文献に記載されているように、文書の内容を
解析する文書処理システムでは、その前処理として、文
字列バタンからなるテキストを文単位に分割する操作が
必要になる。これを行う従来の文書構造解析装置では、
改行や句読点等の特定の記号を文の区切りとみなし、そ
こで文を分割をしている。つまり、入力文書を一文字ず
つ読み込み、区切り記号があったら、そこで文の終りと
判断することにより、−文の切出しを行っている。
(発明が解決しようとする課題) しかしながら、上記構成の装置では、改行や句読点等の
特定の記号を、文の区切りとみなしてそこで文を分割す
る方式であるなめ、文の分割が容易ではあるが、タイI
・ル等の句読点のないものを通常の文と区別することが
できないので、文の区切りを誤ることが多い。そのため
、人手による修正が必要となっていた。しかも、従来の
装置では、箇条書きの文やタイT・ルについている番号
を、文の一部とみなしてしまうこともある。このような
誤りがあると、その後の処理(例えば、文書の内容を解
析)を正しく行うことが困難になる。
本発明は前記従来技術が持っていた課題として、文の区
切り等における、文の区切りの誤り等の点について解決
した文書構造解析装置を提供するものである。
(課題を解決するための手段) 本発明は、前記課題を解決するために、入力文字列を文
単位に分割する文書構造解析装置において、この装置を
少なくとも、文字列パターンと文書構造の対応関係を記
憶するパターン記憶部と、前記文字列パターンと前記文
書構造の対応関係を登録するパターン登録部と、前記パ
ターン記憶部に記憶された文字列パターンと入力文字列
を照合して文書構造を抽出する文書構造抽出部とで、構
成したものである。
(作用) 本発明によれば、以上のように文書構造解析装置を構成
したので、オペレーターは予め文字列パターンと文書構
造の対応関係を、パターン登録部へ入力してパターン記
憶部に記憶しておく。解析すべき文字列が文書構造抽出
部に入力されると、文書構造抽出部では、パターン記憶
部に記憶された文字列パターンと入力文字列を照合して
文書構造を抽出する。
これにより、タイ1〜ル等の句読点のない文に対しても
、通常の文と明確に区別され、的確な文の区切りが行わ
れる。その上、箇条書きの文やタイ1〜ルについている
番号等を、文の一部とみなすような誤りがなくなり、高
精度な文書構造の抽出が行える。したがって、前記課題
を解決できるのである。
(実施例) 第1図は、本発明の実施例を示す文書構造解析装置の機
能ブロック図である。
この文書構造解析装置は、CPU (中央処理装置)に
よるプログラム制御等で構成される文書構造抽出部1を
有し、その文書構造抽出部1−には、半導体メモリ等で
構成されるパターン記憶部2及び文書構造記憶部3が接
続されている。パターン記憶部2には、パターン登録部
4が接続されている。
文字構造抽出部1は、入力文書から得られた入力文字列
とパターン記憶部2の内容とを照合し、入力文字列の文
書構造を抽出する機能を有している。パターン記憶部2
には、文字列パターンとその意味との対応関係が、正規
表現の記法を用いて記憶されている。このパターン記憶
部2の記憶内容は、パターン登録部4を用いて記憶され
る。文書構造記憶部3は、文書構造抽出部1で抽出され
た文書構造を記憶する機能を有している。
第2図は、パターン記憶部2に記憶されるパターン登録
の説明図である。
第2図に示すように、パターン記憶部2は、文字列パタ
ーンとその分割、及び意味記述のフィールド(部分1,
2・・・〉を有している。つまり、このパターン記憶部
2には、文字列パターンに対し、その文字列パターンが
どのように分割され、それぞれの部分1,2.・・、が
どのような意味を持つか、正規表現を用いて記述されて
いる。正規表現とは、コンピュータ等を用いて機械処理
するために、文字列パターンを特定の記号を用いて表現
するものである。
以上のように構成される文書構造解析装置の動作を、説
明する。
先ず、オペレーターは、キーボード等の入力装置を操作
し、例えば第2図に示すような文字列パターンと分割方
法、部分文字列の持つ意味をパターン登録部4に入力し
ておく、そのパターン登録部4に入力された内容は、パ
ターン記憶部2に記憶される。
例えば、第2図に示す「2.2 依存文法の方法」とい
う文書が、文書構造抽出部1に入力される。文書構造抽
出部1では、入力文書から得られた入力文字列とパター
ン記憶部2に記憶された文字列パターンとを、照合する
。入力文字列中の数字r2.2Jの部分1が節の番号で
あり、それに続く文字列「依存文法の方法」の部分2が
タイトルに対応する。これらの文字列パターンと入力文
字列とを照合すると、両者がマツチングする。文書構造
抽出部1でこのように照合が成功すると、入力文字列の
表わす構造が、パターン記憶部2に記憶された対応関係
から決定する。つまり、数字r2.2Jの部分1が節の
番号であり、文字列「依存文法の方法」の部分2が節の
タイトルであることが判定できる。
このようにして文の区切りやタイI・ルの情報等が、文
書構造抽出部1で判定されると、その判定結果が文書構
造記憶部3に記憶される。文書構造を文書構造記憶部3
に記憶するときには、文字列にその持つ意味を表わすフ
ィールドを付与することによって記憶する。即ち、文字
列をそれぞれの部分1,2に分割し、r2.2Jには番
号、「依存文法の方法」にはタイI・ルであることを示
すフィールド(タグ)を付けて文書構造記憶部3に記録
する。
文字列パターンを追加登録する場合、オペレーターは、
キーボーI・等の入力装置を操1ヤし、文字列パターン
と分割方法、部分文字列の持つ意味をパターン登録部4
に入力すればよい。すると、パターン登録部4では、こ
れを機械処理が容易な形式(正規表現〉にコード化し、
パターン記憶部2に格納する。これにより、新たに登録
した文字列パターンを、文書の構造抽出に利用できるよ
うになる。
本実施例では、文字列パターンとその文字列パターンの
表わす文書構造との関係をパターン記憶部2に予め記憶
しておき、文書構造抽出部1により、入力文字列とパタ
ーン記憶部2の内容とを比較照合して文書の構造を抽出
するようにした。そのなめ、精度が高く、効率的な文書
構造の抽出が行え、機械翻訳における煩雑な前処理等が
不要となり、その前処理等の負担の軽減により、文書処
理の性能を向上させることができる。
しかも、タイトルや番号等の情報が的確に判別されるの
で、その後の文書処理が極めて効率的に行える。さらに
、パターン登録部4を設けたので、オペレーターは新た
な文字列パターンを登録でき、異なる種類のフォーマツ
l〜(書式)の文書にも容易に対応することができる。
なお、本発明は図示の実施例に限定されず、例えば正規
表現以外の記法を用いて文字列パターンをパターン記憶
部2に記憶したり、あるいは第1図の装置に他の機能ブ
ロックを付加する等、種々の変形が可能である。
〈発明の効果〉 以上詳細に説明したように、本発明によれば、文書構造
抽出部により、入力文字列とパターン記憶部に記憶され
た文字列パターンとを照合して文書構造を抽出するよう
にしたので、精度が高く、効率の良い文書構造の抽出が
行える。そのなめ、機械翻訳における煩雑な前処理等が
不要となり、その前処理等の負担の減少により、文書処
理の性能を著しく向上させることができる。
しかも、タイI・ルや番号等の情報が的確に判別される
ので、その後の文書処理の性能の向上が期待できる。さ
らに、パターン登録部を有しているので、新たな文字列
パターンの登録が可能となり、異なる種類のフォーマ・
71”の文書等にも、容易に対応することができる。
【図面の簡単な説明】
第1図は本発明の実施例を示す文書構造解析装置の機能
ブロック図、第2図はパターン登録の説明図である。 1・・・文書構造抽出部、2・・・パターン記憶部、3
・・・文書構造記憶部、4・・・パターン登録部。

Claims (1)

    【特許請求の範囲】
  1. 文字列パターンと文書構造の対応関係を記憶するパター
    ン記憶部と、前記文字列パターンと前記文書構造の対応
    関係を登録するパターン登録部と、前記パターン記憶部
    に記憶された文字列パターンと入力文字列を照合して文
    書構造を抽出する文書構造抽出部とを、備えたことを特
    徴とする文書構造解析装置。
JP2106876A 1990-04-23 1990-04-23 文書構造解析装置 Pending JPH044467A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2106876A JPH044467A (ja) 1990-04-23 1990-04-23 文書構造解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2106876A JPH044467A (ja) 1990-04-23 1990-04-23 文書構造解析装置

Publications (1)

Publication Number Publication Date
JPH044467A true JPH044467A (ja) 1992-01-08

Family

ID=14444732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2106876A Pending JPH044467A (ja) 1990-04-23 1990-04-23 文書構造解析装置

Country Status (1)

Country Link
JP (1) JPH044467A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129605A (ja) * 1993-09-13 1995-05-19 Toshiba Corp 文書検索装置
JPH07152780A (ja) * 1993-11-30 1995-06-16 Nippon Telegr & Teleph Corp <Ntt> データベース自動作成装置
US7397513B2 (en) 2001-03-02 2008-07-08 Robert Bosch Gmbh Method for representing video data
JP2012212289A (ja) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129605A (ja) * 1993-09-13 1995-05-19 Toshiba Corp 文書検索装置
JPH07152780A (ja) * 1993-11-30 1995-06-16 Nippon Telegr & Teleph Corp <Ntt> データベース自動作成装置
US7397513B2 (en) 2001-03-02 2008-07-08 Robert Bosch Gmbh Method for representing video data
JP2012212289A (ja) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム

Similar Documents

Publication Publication Date Title
Grefenstette et al. What is a word, what is a sentence?: problems of Tokenisation
CN112084748A (zh) 一种文本比对方法
CN112818645A (zh) 一种化学信息抽取方法、装置、设备及存储介质
JP2019179470A (ja) 情報処理プログラム、情報処理方法、および情報処理装置
CN109344389B (zh) 一种汉盲对照双语语料库的构建方法和系统
JPH044467A (ja) 文書構造解析装置
Hollingsworth et al. Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining
JPH103483A (ja) 情報検索装置
JPH0877196A (ja) 文書情報抽出装置
JPH08115330A (ja) 類似文書検索方法および装置
JP3767180B2 (ja) 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
JP3470930B2 (ja) 自然語解析方法及び装置
JPH0750486B2 (ja) キ−ワ−ド抽出装置
JP7361525B2 (ja) 用語辞書作成装置、用語辞書作成方法、及びプログラム
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JP4922030B2 (ja) 文字列検索装置、方法及びプログラム
JPS62249269A (ja) 文書処理装置
JP3591109B2 (ja) キーワード設定装置
JP2995717B2 (ja) 形態素解析方法およびその装置
JPS60217487A (ja) 文字認識装置
Belaïd Future trends in retrospective document conversion
JP2650099B2 (ja) ドキュメント抽出装置
JP2575947B2 (ja) 文節切出し装置
JPH10283375A (ja) 全文検索装置および方法
JPH03129562A (ja) インデックス作成支援装置