JPH1063649A - タグ付加文書作成方法および装置 - Google Patents

タグ付加文書作成方法および装置

Info

Publication number
JPH1063649A
JPH1063649A JP8215618A JP21561896A JPH1063649A JP H1063649 A JPH1063649 A JP H1063649A JP 8215618 A JP8215618 A JP 8215618A JP 21561896 A JP21561896 A JP 21561896A JP H1063649 A JPH1063649 A JP H1063649A
Authority
JP
Japan
Prior art keywords
tag
information
document
character string
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8215618A
Other languages
English (en)
Inventor
Shinichi Takahashi
真一 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NIIGATA NIPPON DENKI SOFTWARE KK
NEC Software Niigata Ltd
Original Assignee
NIIGATA NIPPON DENKI SOFTWARE KK
NEC Software Niigata Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NIIGATA NIPPON DENKI SOFTWARE KK, NEC Software Niigata Ltd filed Critical NIIGATA NIPPON DENKI SOFTWARE KK
Priority to JP8215618A priority Critical patent/JPH1063649A/ja
Publication of JPH1063649A publication Critical patent/JPH1063649A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 入力電子文書の特徴データを精細に抽出して
解析し、取得した論理構造を割り付けに用いると共に、
タグ付加に好適に利用してタグ付加作業が容易で軽減化
されるようにする。 【解決手段】 特徴抽出装置11は、入力された元の電
子文書1を構成する文字列から文字列情報および体裁情
報による特徴データを抽出し、この特徴データを特徴デ
ータ格納装置12において記憶して格納する。読み出さ
れた特徴データに基づき、特徴解析装置13では解析処
理を行って論理構造を生成する。解析結果に基づいて、
論理構造に適合した、つまり特徴データに適合したタグ
をタグデータ格納装置15から読み出し、タグ付加装置
14において、その特徴データに適合するタグを割り当
てて付加する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ワードプロセッサ
等で作成された電子文書のタグ付き文書作成方法および
装置に関する。
【0002】
【従来の技術】近年、インターネット/CALS等の普
及に伴い、電子文書をデータとして取り扱う情報処理能
力を高めるうえで、文書の特徴部とか要所をタグ付けす
る文書処理システムが急速に拡大してきている。タグ付
き文書を作成する場合、タグについての十分な知識が要
求され、タグ付加作業に相当な負担が強いられているの
が現状である。そのため、従来よりタグ付加作業の軽減
化や簡易化に向けて種々の提案がなされている。例え
ば、特開平7−44560号公報に記載された文書処理
装置における論理構造認識処理方式、特開平4−255
069号公報に記載された文書処理装置等が知られてい
る。
【0003】前者の方式によれば、予め定義された論理
構造の出現順序に関し、そのルールの情報を共通論理構
造テーブル化している。このテーブルに基づいて、マー
クアップされた入力文書データの文書タグの出現順序が
一致しているか否かを判定している。それによって、そ
の文書に固有の論理構造を抽出し、割り付け構造を生成
することで、文書処理の迅速化を図ることが開示されて
いる。
【0004】ここで、一般には、文書の内容は2つに大
別され、その一方の論理構造とは、章・節・段落等から
なるものをいい、他方の割り付け構造は、文書をページ
やフレーム等によって配置することをいっている。
【0005】また、後者の装置によれば、文書に固有の
構造情報に基づいて論理構造を抽出し、割り付け構造を
生成している。
【0006】
【発明が解決しようとする課題】ところで、例示した前
者の公報に記載された方式の場合、論理構造を抽出して
取得するために、文書の特徴の抽出が、予め定義された
固有のルール情報の共通論理構造テーブルに基づいて行
われている。そのため、精細性が求められる特徴の抽出
に制限が加わり、論理構造にタグを対応させるうえで、
十分な対応関係が取得できないといった問題がある。
【0007】また、後者の公報に記載された装置の場
合、文書の特徴を抽出して解析を行い、その結果取得し
た論理構造の情報を割り付けを行う目的にのみ取り扱っ
ている。そのため、折角取得した論理構造をタグ付けに
用いることが不可もしくは困難であり、タグ付加作業の
軽減に有効とは言い難い不具合がある。
【0008】したがって、本発明の目的は、文書の特徴
を精細に抽出して解析し、取得した論理構造を割り付け
に用いることは勿論、タグ付加に好適に利用可能とした
タグ付き文書作成方法および装置を提供することにあ
る。
【0009】
【課題を解決するための手段】本発明によるタグ付加文
書作成方法は、入力された電子文書を構成する文字列を
検索して、文字列情報および体裁情報による特徴データ
を抽出して解析処理を行った後、前記電子文書の論理構
造を生成し、この論理構造に対応してタグを付加するも
のである。
【0010】その装置は、特徴抽出装置と、特徴データ
格納装置と、特徴解析装置と、タグデータ格納装置と、
そしてタグ付加装置等によって制御部が構成されてい
る。特徴抽出装置では、入力装置から入力され電子文書
を構成する文字列から文字列情報および体裁情報による
特徴データを抽出し、この特徴データを特徴データ格納
装置が記憶して格納する。読み出された特徴データに基
づき、特徴解析装置では解析処理を行って論理構造を生
成する。解析結果に基づいて、論理構造に適合した、つ
まり特徴データに適合したタグをタグデータ格納装置か
ら読み出し、タグ付加装置では、その特徴データに適合
するタグを割り当てて付加する。
【0011】すなわち、入力された電子文書の特徴デー
タを、2つの文字列情報と体裁情報として抽出し、それ
ら2つの特徴データを解析することによって、より精細
な特徴抽出が可能となる。また、特徴データの解析結果
として取得した論理構造から適合するタグを容易かつ効
率的に自動付加することができる。そのため、従来から
のタグ付加作業を大幅に軽減できる。
【0012】
【発明の実施の形態】以下、本発明によるタグ付加文書
作成方法および装置の実施の形態について、図を参照し
て詳細に説明する。
【0013】図1は、実施の形態のタグ付加文書作成装
置のブロック図を示している。ワードプロセッサ等によ
りタグ付加を望む電子文書1が入力される入力装置10
を有し、既に作成済みの電子文書1の読み込みが可能で
ある。手動で論理構造を設定する場合、特徴情報とタグ
情報を割り付ける場合にも入力装置10が用いられる。
電子文書1中には、「文字列情報」と「体裁情報」が含
まれている。
【0014】文字列情報は、その文書先頭から段落を単
位として文書後尾まで文字列を検索を行うことで抽出さ
れる。文字列情報を抽出するためには、予め文字列が幾
つかのカテゴリに分類される。段落とは、改行までの文
字列のことを意味し、その文字列だけで見出し/本文に
なり得るものである。具体的には、段落の先頭文学から
文字列を獲得し、幾つかのカテゴリー(スペース/数字
/区切り/通常文字等)に分ける。このようにして、段
落最終文字まで検索して得られた文字列の出現規則が文
字列情報となる。
【0015】体裁情報は、ワーブロ文書用として設定さ
れた独自に保有する属性情報を取得して得られるもので
ある。具体的には、文字サイズや下線、太字、斜体とい
った文字単位にかかる文字属性情報とか、字下げやセン
タリンダといった段落単位にかかる段落属性情報があ
る。
【0016】また、タグ付加文書作成装置は特徴抽出装
置11を有し、入力装置10から送られてきた電子文書
1のデータに基づいて、前述の文字列情報と体裁情報に
よる2つの文書特徴を抽出するようになっている。ここ
では、電子文書1を改行等の区切り単位で検索して文字
列情報を抽出する機能を備えている。さらに、文字サイ
ズ、センタリング等のワープロ文書独自の情報を基に体
裁情報を抽出する機能を備えている。
【0017】また、特徴データ格納部12を有し、特徴
抽出装置11において抽出された文字列情報と体裁情報
からなる特徴データを記憶して格納するようになってい
る。ここでは、送られてきた特徴データを格納すると同
時に、前回の抽出済み特徴データを記録保存しておくこ
とで、解析処理の短縮化を図ることも可能である。
【0018】また、特徴解析装置13を有し、特徴抽出
装置11からの特徴データを基に解析が行われ、論理構
造を作成する部分である。論理構造とは、前項にて説明
した通りである。ここでは、特徴データ格納装置12に
格納されている特徴データ群に基づき、作成文書1の論
理構造を解析して作成することができる。手動で論理構
造を設定することも可能である。
【0019】また、タグ付加装置14を有し、特徴解析
装置13で解析された特徴データの結果に基づき、入力
後の元の電子文書1に自動的にタグを付加する部分であ
る。ここでは、次に説明するタグデータ格納装置15に
記憶格納されているタグ情報に基づき、解析結果の特徴
データに適合したタグを元の電子文書1に付加するよう
になっている。
【0020】タグデータ格納装置15を有し、タグ付加
の際の基本となるタグデータを記憶して格納している。
ここでは、タグ付加の特別な条件設定が何ら見い出せな
ければ、自動的にタグ名を作成して、その特徴データに
対応したタグを付加できるように機能する。なお、入力
装置10によって電子文書1を入力する際、予め特徴デ
ータと適合タグとの対応を設定をしておくことも可能で
あり、その場合、このタグデータ格納装置15では自由
なタグを設定することが可能である。
【0021】次に、以上の構成による実施の形態の動作
および作用について、図2のフローチャートを参照して
説明する。
【0022】まず、ステップS1(以下、単にS1とい
ったように表す)において、タグ付けを所望する例えば
図3に示すような電子文書1が、入力装置10からの入
力によって作成される。この電子文書1は、文字列情報
とワープロ独自の体裁情報とによる各データから構成さ
れている。
【0023】次に、入力された電子文書1は特徴抽出装
置11に送られ、その電子文書1の2つの特徴データと
して文字列情報と体裁情報が抽出される(S2)。ま
ず、文字列情報を抽出する場合、図4に示すように、予
めその電子文書1を構成する文字列を段落の先頭文字か
ら文字列を取得して、例えばカテゴリ1〜4(スペース
/数字/区切り/通常文字等)の4つに分類する。実際
には、それよりも多く細分類化することもできる。その
後、段落単位に電子文書1の文字列を先頭部分から後尾
部分まで検索する。このようにして、段落最終文字まで
検索して得られた文字列の出現規則が文字列情報とな
る。
【0024】本実施の形態では、段落1を順に検索した
結果、通常文字だけなので、C5という属性が割り当て
られる。段落2は、先頭が「1」で数字(C2)であ
り、次が「.」で区切り文字(C3)であり、次が「募
集要項」ですべて通常文字なので(C5)となる。合わ
せて(C2/C3/C5)という属性が割り当てられる。
【0025】他方、体裁情報を抽出する場合は、文字サ
イズや下線、太字、斜体といった文字単位にかかる文字
属性情報として、図3に示すように、例えばサイズ情報
(10P/15P/20P)、下線情報(あり/な
し)、割り付け情報(なし/センタリンダ)等が抽出さ
れる。字下げやセンタリンダといった段落単位にかかる
段落属性情報も抽出される。
【0026】このようにして抽出された文字列情報と体
裁情報は、入力された電子文書1の特徴データとして特
徴データ格納部12に格納され、記憶される。
【0027】次に、S3では、抽出して取得した文字列
情報と体裁情報の2つ特徴データに基づき、それらを特
徴データ格納部12から読み出して特徴解析装置13に
おいて解析を行う。
【0028】この場合、図4〜図6の各図に示すよう
に、まず文字列情報の出現する規則性に着目し、論理構
造が作成される。予めカテゴリのプライオリティを決め
ておき、それにしたがってツリー(Tree)構造を作
成する。今回は、Cl>C2>C3>C4と設定してお
く。論理構造は文字列の出現順、Cl>C2>C3>C
4のカテゴリ順で決定される。
【0029】文書先頭から解析処理が行われる。図7に
示すように、段落1はC4であるが、先頭段落なのでそ
のままとする。段落2は前段落のカテゴリの上に段落が
ないので、そのままとする。段落3は前段落よリカテゴ
リが下になるので、段落2の下に配置される。段落4、
5、6は段落3の下であり、かつそれら3つの段落4、
5、6は同一カテゴリであるから、段落3の下に並列に
配置される。段落7は、段落6より上位カテゴリであっ
て段落2と同位なので、段落2と並列に配置される。段
落8は、段落2−段落3と同様の関係にあるので、段落
7の下に配置される。段落9−段落10も、段落7−段
落8と同様に配置される。このように解析して、図7に
示す電子文書1の論理構造が得られる。
【0030】すなわち、文字列情報においては、ある程
度共通した特徴を有する文字列同士を単位にして、ダル
ーブ分けを行う。続いて、体裁情報を加味してダループ
分けを進める。それらグループ分けしたものをツリー構
造に置き換えていくことにより、電子文書1の論理構造
が生成される。
【0031】次に、体裁情報に着目して論理構造の修正
を行う。この場合、体裁情報にどの程度まで変更権限を
持たせるか決めておく。ただし、その場において使用者
が設定することも可能である。本実施の形態では、文書
先頭である段落1のみが文字サイズ20P、センタリン
ダと、他の段落とは異質の別の情報を持っており、1階
層上位に変更する。こうして、図8に示すような最終的
な論理構造を取得することができる。
【0032】ここで、図9に示すように、抽出した特徴
データに判別し易い名称を付けておくこともできる。例
えば、段落1は「表題」と付名し、段落2、段落7およ
び段落9は「見出し」と付名する。また、段落3、段落
8および段落10は「本文」と付名し、段落4、段落5
および段落6は「リスト」と付名する。
【0033】次に、タグ付加装置14においては、以上
のようにして取得した論理構造と、タグデータ格納部1
5から読み出して取得したタグ情報に基づき、元の電子
文書1に対してタグの付加処理が行われる(S4)。
【0034】この場合、ツリー構造のTopの部分から
順番にタグ名をくTag1>、くTag2>・・・とい
ったように割り当て、その構造に適合した文字列をタダ
で囲む。特に指定しなければ任意のタグ名が設定され
る。あらかじめ、特徴データとそれに適合したタグ名を
設定しておいて、タグデータ格納部15に格納しておけ
ば、特徴データに適合したタグ名の入力が可能である。
したがって、事前に入力装置10によって特徴データと
タグ情報の対応付けを手動で入力しておくこともでき
る。このようにすることによって、自分が付けたいタグ
名を例えば「表題」、「見出し」等として設定すること
ができる。
【0035】そして、S5においては、元の電子文書1
にタグを付加したタダ付加文書2を出力する。
【0036】なお、本発明を実現するにあたり、次の2
つの実施の形態が考えられる。その一つは、ワードプロ
セッサの一機能として、校正中のワープロ作成文書をそ
のままの状態でタグ付加文書として出力できる。また一
つは、コンバータ機能として、ワープロ作成文書を取り
込んでタグ付加文書に変換するので、一度に複数文書を
変換する場合に好適である。
【0037】また、応用例として、本発明は、予め設定
されたタグ名/構造を用意しておくことで、定型的なタ
グ付加文書作成にも利用できる(SCML文書、HTM
L文書等)。さらに、一度個人のワープロ作成文書の特
徴データを保存すれば、解析に要する時間を大幅に短縮
することが可能となる。
【0038】
【発明の効果】以上説明したように、本発明によるタグ
付加文書作成装置は、入力されたワープロ作成文書等の
電子文書に対して、文字列情報と体裁情報の2つの特徴
データを精細に抽出して解析を行うため、取得した論理
構造にタグを対応させるうえで、十分な対応関係を取得
してタグ付加文書を作成することができる。すなわち、
入力された電子文書の2つの特徴データを抽出して解析
処理することによって、より精細な特徴抽出が可能とな
り、論理構造から適合するタグを容易かつ効率的に自動
付加することができる。そのため、従来からのタグ付加
作業を大幅に軽減できる。
【図面の簡単な説明】
【図1】本発明の実施の形態におけるタグ付加文書作成
装置の構成を示すブロック図である。
【図2】実施の形態による処理の流れを説明するフロー
チャートである。
【図3】タグ付加用として例示されたワープロ作成文書
を示している。
【図4】元文書から文字列情報を抽出した例を示してい
る。
【図5】元文書から文字列情報を抽出した例を示してい
る。
【図6】元文書から体裁情報を抽出した例を示してい
る。
【図7】文字列情報/体栽情報から特徴データを解析し
た例を示している。
【図8】文字列情報/体栽情報から特徴データを解析し
た例を示している。
【図9】文字列情報/体栽情報から特徴データを解析し
た例を示している。
【図10】特徴データととタダとの対応例を示してい
る。
【図11】タグ付加処理の行われた電子文書の例を示し
ている。
【符号の説明】
1 入力電子文書 2 タグ付加文書 10 文書入力装置 11 特徴抽出装置 12 特徴データ格納装置 13 特徴解析装置 14 タグ付加装置 15 タグデータ格納装置

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】入力された電子文書を構成する文字列を検
    索して、文字列情報および体裁情報による特徴データを
    抽出して解析処理を行った後、前記電子文書の論理構造
    を生成し、この論理構造に対応してタグを付加すること
    を特徴とするタグ付加文書作成方法。
  2. 【請求項2】前記文字列情報は、予め前記文字列を幾つ
    かのカテゴリに分類し、段落を順に検索してその段落毎
    に属性を割り当てる処理を文書先頭から文書後尾まで行
    って抽出されることを特徴とする請求項1に記載のタグ
    付加文書作成方法。
  3. 【請求項3】前記論理構造は、前記文字列情報の出現順
    序とカテゴリ順で決定されることを特徴とする請求項1
    に記載のタグ付加文書作成方法。
  4. 【請求項4】前記体裁情報は、前記電子文書の作成用に
    設定された属性を取得し、サイズ情報、下線情報および
    割り付け情報によって抽出されることを特徴とする請求
    項1に記載のタグ付加文書作成方法。
  5. 【請求項5】前記体裁情報に変更権限をもたせることに
    よって、前記論理構造の修正を行うことを特徴とする請
    求項1または3に記載のタグ付加文書作成方法。
  6. 【請求項6】入力装置から入力され電子文書を構成する
    文字列の検索を行い、文字列情報および体裁情報による
    特徴データを抽出して解析処理を行い、生成された前記
    電子文書の論理構造に対応してタグを付加する制御部を
    備えたことを特徴とするタグ付加文書作成装置。
  7. 【請求項7】前記制御部は、 入力装置から入力され電子文書を構成する文字列から文
    字列情報および体裁情報による特徴データを抽出する特
    徴抽出装置と、 前記特徴抽出装置によって抽出された前記特徴データを
    記憶して格納する特徴データ格納装置と、 前記特徴データ格納装置から読み出された前記特徴デー
    タに基づき、解析処理を行って論理構造を生成する特徴
    解析装置と、 タグ付加の際の基本となるタグデータを記憶して格納す
    るタグデータ格納装置と、 前記特徴解析装置に格納された前記特徴データを読み出
    し、この特徴データに適合するタグを前記タグデータ格
    納装置から読み出して前記電子文書に付加するタグ付加
    装置と、を備えたことを特徴とする請求項6に記載のタ
    グ付き文書作成装置。
JP8215618A 1996-08-15 1996-08-15 タグ付加文書作成方法および装置 Pending JPH1063649A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8215618A JPH1063649A (ja) 1996-08-15 1996-08-15 タグ付加文書作成方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8215618A JPH1063649A (ja) 1996-08-15 1996-08-15 タグ付加文書作成方法および装置

Publications (1)

Publication Number Publication Date
JPH1063649A true JPH1063649A (ja) 1998-03-06

Family

ID=16675395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8215618A Pending JPH1063649A (ja) 1996-08-15 1996-08-15 タグ付加文書作成方法および装置

Country Status (1)

Country Link
JP (1) JPH1063649A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094855A (ja) * 2005-09-29 2007-04-12 Toshiba Corp 文書処理装置及び文書処理方法
JP2007219579A (ja) * 2006-02-14 2007-08-30 Profield Co Ltd ドキュメント変換装置、およびプログラム
JP2009048654A (ja) * 2008-10-07 2009-03-05 Profield Co Ltd ドキュメント変換装置、およびプログラム
JP2010165272A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理方法、情報処理装置、及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094855A (ja) * 2005-09-29 2007-04-12 Toshiba Corp 文書処理装置及び文書処理方法
JP2007219579A (ja) * 2006-02-14 2007-08-30 Profield Co Ltd ドキュメント変換装置、およびプログラム
JP2009048654A (ja) * 2008-10-07 2009-03-05 Profield Co Ltd ドキュメント変換装置、およびプログラム
JP2010165272A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理方法、情報処理装置、及びプログラム
US8584007B2 (en) 2009-01-19 2013-11-12 Sony Corporation Information processing method, information processing apparatus, and program

Similar Documents

Publication Publication Date Title
KR101265263B1 (ko) 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체
JP3690938B2 (ja) インデックスの作成装置および作成方法、ならびに記憶媒体
US10366154B2 (en) Information processing device, information processing method, and computer program product
CN110705503B (zh) 生成目录结构化信息的方法和装置
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
JPH09245043A (ja) 情報検索装置
EP3432161A1 (en) Information processing system and information processing method
JP2013016036A (ja) 文書部品生成方法及び計算機システム
JPH1063649A (ja) タグ付加文書作成方法および装置
JP2006065467A (ja) データ抽出定義情報生成装置およびデータ抽出定義情報生成方法
CN114218373A (zh) 一种大容量文本内容检索方法和系统
CN115203445A (zh) 多媒体资源搜索方法、装置、设备及介质
de Waal et al. Applying topic modeling to forensic data
JP2000268033A (ja) 情報列に対してタグ情報を付与するための方法および装置ならびに同方法が記録される記録媒体
JP4307287B2 (ja) メタデータ抽出装置
US11100099B2 (en) Data acquisition device, data acquisition method, and recording medium
JP2000339333A (ja) 自然言語検索支援システムおよび自然言語検索支援方法
JPH0991305A (ja) 情報処理方法及び装置
JP2009301511A (ja) 索引情報作成装置、索引情報作成方法及びプログラム
CN115759067A (zh) 敏感词的识别方法和敏感词树的构建方法
CN117194656A (zh) 一种多批次历史媒资数据分类入库处理方法
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP3014415B2 (ja) 文書処理方法及び装置
JPH01286020A (ja) プログラム検索方式
JP2967995B2 (ja) 文書処理装置および文書処理方法