JPH07249034A - 文字列抽出処理装置 - Google Patents

文字列抽出処理装置

Info

Publication number
JPH07249034A
JPH07249034A JP6041669A JP4166994A JPH07249034A JP H07249034 A JPH07249034 A JP H07249034A JP 6041669 A JP6041669 A JP 6041669A JP 4166994 A JP4166994 A JP 4166994A JP H07249034 A JPH07249034 A JP H07249034A
Authority
JP
Japan
Prior art keywords
character string
extraction
document
character
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6041669A
Other languages
English (en)
Inventor
Hiroshi Morohoshi
博司 諸星
Motoharu Yamazaki
元晴 山▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6041669A priority Critical patent/JPH07249034A/ja
Publication of JPH07249034A publication Critical patent/JPH07249034A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文書の文字列抽出処理に関し、文字列属性を
使用した適当な抽出条件の設定により、文字列の抽出が
できる文字列抽出処理装置を目的とする。 【構成】 所定の各種文字列属性を付与され得る文字列
を有する文書4について、文書4から文字列を抽出する
文字列抽出処理装置であって、抽出条件設定部1と、抽
出処理部2とを有し、抽出条件設定部1は、1個以上の
特定の該文字列属性の組合せからなる指定入力1組以上
を受け取って、各該文字列属性の組合せを各抽出条件4
として保持し、抽出処理部2は、文書4から、何れかの
抽出条件3の文字列属性の組合せを構成する、すべての
該文字列属性を設定されている文字列を検索し、当該文
字列を出力するように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書処理装置等で作成
した文書から、必要な文字列を抽出して出力するための
文字列抽出処理装置に関する。
【0002】
【従来の技術と発明が解決しようとする課題】いわゆる
ワードプロセッサ等と呼ばれる文書処理装置等で、文書
を作成することが広く行われている。
【0003】そのようにして作成された文書のデータ
は、良く知られているように、基本的には適当なコード
系により各文字を表すコードによって構成されるが、各
文字には文字サイズ、書体、色、網かけ、下線その他の
文字列属性が伴っている。
【0004】文字列属性は一般に、文書全体の文字に共
通な属性として、文書データ中の一定の個所にまとめて
指定されるものもあるが、1個以上の文字からなる文字
列について個別に指定することもできる。
【0005】文字列ごとに指定される文字列属性は、例
えば当該文字列を構成するコード列と関連付けると共
に、一般コードと区別できるように必要な制御文字コー
ドを設け、文書データ中で該当文字列と関連させて必要
な制御文字コードと属性指定情報とを挿入して設定され
ている。
【0006】このような文書について、文書中の文字列
を何等かのキーワードとしたり、目次、索引の資料とし
たり、その他処理に利用するために、文書から必要な文
字列を自動抽出する要求がある。
【0007】通常そのような機能では、文書作成時に文
書中の各必要な文字列を、それぞれ抽出対象文字列とし
て指定させ、文書処理装置ではその指定に応じて、それ
らの各文字列に抽出対象文字列を示す抽出制御文字を設
定しておく。
【0008】文書中の抽出制御文字は、文字列抽出処理
以外の場合には無視され、印刷等の出力にも現れないよ
うに制御されるが、文字列抽出の指示があると、抽出制
御文字が検索され、各抽出制御文字で指示される各文字
列をすべて出力する。
【0009】しかし、このような文字列抽出では、文書
作成中に絶えず抽出対象文字列を意識して、該当文字列
であれば抽出制御文字を付けるように操作しなければな
らないので煩雑である。
【0010】本発明は、抽出文字列であることを特定し
ないで作成された文書でも、文字列属性を使用した適当
な抽出条件の設定により、文字列の抽出ができる文字列
抽出処理装置を目的とする。
【0011】
【課題を解決するための手段】図1は、本発明の構成を
示すブロック図である。図は文字列抽出処理装置の構成
であり、所定の各種文字列属性を付与され得る文字列を
有する文書4について、文書4から文字列を抽出する文
字列抽出処理装置であって、抽出条件設定部1と、抽出
処理部2とを有する。
【0012】抽出条件設定部1は、1個以上の特定の該
文字列属性の組合せからなる指定入力1組以上を受け取
って、抽出条件3として保持する。抽出処理部2は、文
書4から、抽出条件3を満足する該文字列属性が設定さ
れている文字列を検索し、当該文字列を出力する。
【0013】
【作用】本発明により、文書から文字列の抽出を必要と
する場合には、その文字列に設定されている文字列属性
を抽出条件として指定すればよい。
【0014】従って、文書作成者は文字列抽出を意識す
る必要なく文書作成ができる。なお必要ならば、前記従
来のような予め抽出制御文字を設定して文字列を抽出す
る方法を、本発明の文字列抽出と併用するシステムとす
ることもできる。
【0015】
【実施例】図2は、本発明の処理の流れの一例を示す図
であり、図1の抽出条件設定部1は、図2の処理ステッ
プ10で文字列抽出要求で指定される抽出条件のための文
字列属性群を読み込む。
【0016】文字列属性群は、1個以上の組に分けら
れ、各組には1個以上の文字列属性が指定されている必
要がある。抽出条件設定部1は処理ステップ11で、読み
込んだ文字列属性群を、指定の組ごとに分けて、それぞ
れの組を一つの抽出条件3として保持する。
【0017】そこで、抽出処理部2は文字列抽出要求で
指定される文書4を先頭の文字列から順次処理するもの
とし、処理ステップ12で処理対象の文字列に指定されて
いるすべての文字列属性を取り出し、処理ステップ13
で、それらによって抽出条件3の何れかが満足されるか
を識別する。
【0018】ここで、或る文字列の文字列属性が或る抽
出条件3を満足するとは、その抽出条件3の文字列属性
の組を構成する文字列属性のすべてが、その文字列につ
いて文書から取り出した文字列属性の中にあることをい
うものとする。
【0019】なお、或る文字列の文字列属性が、複数の
異なる抽出条件3を同時に満足するような場合において
も、各文字列についての処理ステップ13の識別は、最初
に満足された抽出条件までで打ち切ることとする。
【0020】抽出条件を満足する場合には、処理ステッ
プ14で、文書から該当の文字列を読み出し、処理ステッ
プ15でその文字列を例えば適当な記憶媒体へ出力する。
ここで、読みだすべき該当の文字列とは、前記のように
文書から取り出して、抽出条件を満足するか識別した文
字列属性群の中の、抽出条件と一致した文字列属性すべ
てを設定されている文字が終わるまでの範囲の文字列で
ある。
【0021】処理ステップ13で何れの抽出条件3も満足
しなかった場合には、処理ステップ16で、前記と同様に
文書から該当文字列を読み込んで捨てる。この場合の読
み捨てる文字列の範囲は、処理ステップ13で抽出条件を
満足するか識別するために、文書から取り出した文字列
属性群の全属性を設定されている文字が終わるまでの範
囲の文字列である。
【0022】以上の後、処理ステップ17で文字列の読み
込みが文書の末尾まで達したか識別し、末尾でなければ
処理ステップ12に戻って、文書中の次の文字列について
前記のとおり処理する。
【0023】図3は、以上の処理による文字列抽出の簡
単な例を説明的に示す図であり、図3(a)のような文書
があったとする。この文書について、文字列属性の「網
かけ」指定と、「下線」指定とを抽出条件として入力す
ることにより、図3(b)の抽出条件が設定され、その結
果、その抽出条件を満足する文字列属性を持つ文字列と
して、図3(c)の抽出データを得る。
【0024】
【発明の効果】以上の説明から明らかなように本発明に
よれば、文書からの文字列抽出において、抽出対象の文
字列に予め特別の抽出制御文字を付加しておかなくて
も、一般に文書の表現力強化等のために設けられている
文字列属性から、必要な文字列に付されている文字列属
性を選んで抽出条件に指定することにより、文字列抽出
が可能になるので、文書作成者及び文字列抽出操作者の
負担を軽減するという著しい工業的効果がある。
【図面の簡単な説明】
【図1】 本発明の構成を示すブロック図
【図2】 本発明の処理の流れ図
【図3】 本発明の文字列抽出例を説明する図
【符号の説明】
1 抽出条件設定部 2 抽出処理部 3 抽出条件 4 文書 10〜17 処理ステップ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 9194−5L G06F 15/40 370 A

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 所定の各種文字列属性を付与され得る文
    字列を有する文書について、該文書から文字列を抽出す
    る文字列抽出処理装置であって、 抽出条件設定部(1)と、抽出処理部(2)とを有し、 該抽出条件設定部(1)は、1個以上の特定の該文字列属
    性の組合せからなる指定入力1組以上を受け取って、抽
    出条件(3)として保持し、 該抽出処理部(2)は、該文書(4)から、該抽出条件(3)を
    満足する該文字列属性が設定されている文字列を検索
    し、当該文字列を出力するように構成されていることを
    特徴とする文字列抽出処理装置。
JP6041669A 1994-03-14 1994-03-14 文字列抽出処理装置 Pending JPH07249034A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6041669A JPH07249034A (ja) 1994-03-14 1994-03-14 文字列抽出処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6041669A JPH07249034A (ja) 1994-03-14 1994-03-14 文字列抽出処理装置

Publications (1)

Publication Number Publication Date
JPH07249034A true JPH07249034A (ja) 1995-09-26

Family

ID=12614810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6041669A Pending JPH07249034A (ja) 1994-03-14 1994-03-14 文字列抽出処理装置

Country Status (1)

Country Link
JP (1) JPH07249034A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285106A (ja) * 1999-03-30 2000-10-13 Kenbunsha:Kk コンピュータによる文書変換システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285106A (ja) * 1999-03-30 2000-10-13 Kenbunsha:Kk コンピュータによる文書変換システム

Similar Documents

Publication Publication Date Title
JPS62245367A (ja) 文書処理装置
JP2001125894A5 (ja)
JP4054428B2 (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JP2005107931A (ja) 画像検索装置
JPH07249034A (ja) 文字列抽出処理装置
JPS6378228A (ja) 情報検索装置
JPS62106574A (ja) 文書画像フアイル登録検索方式
JPH08202711A (ja) 文書編集操作電子装置
JPH09330107A (ja) プログラマブルコントローラ用ラダー図作成cadシステムにおけるコメント付与方法
JPH09259132A (ja) 情報登録検索装置及びその方法
JPH03132874A (ja) 文書のファイリング方法
JP3166995B2 (ja) コメント付与方法及び文書処理装置
JP2601139B2 (ja) 文字列検索装置
JP2757769B2 (ja) 自動索引作成装置
JPH08202859A (ja) 電子ファイリング装置及びその方法
JP2739589B2 (ja) 情報検索装置
JPH07271869A (ja) 電子帳票検索システム
JPS61265662A (ja) 文書処理装置
JPH11143899A (ja) 登録文書処理装置及び方法並びに登録文書を処理するための処理プログラムを記憶した記憶媒体
JPH04158469A (ja) 文書作成装置
JPH08287064A (ja) 文字修飾調整方法
JPH0612454A (ja) 文書検索方法及び装置
JPH02297153A (ja) 文字処理装置
JPH07129554A (ja) 文書処理装置
JPH04230576A (ja) 項目選択装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030916