JPH06223065A - 電子ドキュメントにおける自動リンク情報作成方法 - Google Patents

電子ドキュメントにおける自動リンク情報作成方法

Info

Publication number
JPH06223065A
JPH06223065A JP5011326A JP1132693A JPH06223065A JP H06223065 A JPH06223065 A JP H06223065A JP 5011326 A JP5011326 A JP 5011326A JP 1132693 A JP1132693 A JP 1132693A JP H06223065 A JPH06223065 A JP H06223065A
Authority
JP
Japan
Prior art keywords
file
document
contents
link information
constitution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5011326A
Other languages
English (en)
Inventor
Itoko Sekino
いと子 関野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Communication Systems Ltd
Original Assignee
NEC Communication Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Communication Systems Ltd filed Critical NEC Communication Systems Ltd
Priority to JP5011326A priority Critical patent/JPH06223065A/ja
Publication of JPH06223065A publication Critical patent/JPH06223065A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】従来の技術におけるリンク対象の言葉へのマー
クの人手による付与に起因する効率の悪さ,正確性,統
一性の低下を解決する。 【構成】PARSINGプログラム1は入力された文書
ファイル4の絶対ページを計算し、ページヘッダ行を作
成して文書ファイル4に付与し、フルテキストファイル
5として出力する。次に文書ファイル4中の他の文字と
書体が異なる強調文字部分を抽出し、ページヘッダ行と
共に構成ワークファイル6として出力する。構成ワーク
ファイル6をCOMPOSITプログラムに入力し、文
書構成を判定し、ページヘッダ行を更新し、構成ファイ
ル7として出力する。構成ファイル7とフルテキストフ
ァイル5をCONTENTSプログラム3に入力し、比
較して一致したフルテキストファイル5の文字列をリン
ク情報と共に目次ファイル8として出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は電子ドキュメントにおけ
る自動リンク情報作成方法に関し、特に電子的マークの
ついていないドキュメントの目次から本文への自動リン
ク情報を作成する電子ドキュメントにおける自動リンク
情報作成方法に関する。
【0002】
【従来の技術】従来の電子化されたドキュメントにおい
て、目次と本文とのリンク情報を自動的に作成する方法
では、あらかじめ何らかのマークがキーとなる言葉に付
与されている必要があった。
【0003】例えば、目次に「第1章」という言葉があ
ったとして、本文中の実際の第1章とリンクさせる場合
には、目次中および本文中の「第1章」という文字列に
リンクの対象であることを示す電子的なマークが付与さ
れていなければならない。
【0004】
【発明が解決しようとする課題】この従来の電子ドキュ
メントにおける自動リンク情報作成方法では、リンクの
対象となる文字列にあらかじめ電子的マークが付与され
ていることが前提となっていた。
【0005】従って、既に電子化されているドキュメン
トに一つ一つ人手により電子的マークを付けていくこと
になり、非常に効率が悪く、また、電子的マーク付けの
正確性や統一性の点においても品質が落ちるという問題
点があった。
【0006】
【課題を解決するための手段】本発明の電子ドキュメン
トにおける自動リンク情報作成方法は、電子化されたド
キュメントファイルからリンク対象となるキーワードを
抽出し、文書構成を判定し、前記抽出したキーワードと
前記文書構成とから前記リンク対象を選択して目次と本
文のリンク情報を自動的に作成することを特徴とする。
【0007】また、前記電子化されたドキュメント内の
項目のタイトル,章,扉等に前記本文とは異なる字体の
文字列を使用し、この文字列を前記キーワードとして出
力して前記目次中の文字列を前記ドキュメント中で探索
し、一致したものにリンクを付与し、このリンク情報を
リンク情報ファイルとして出力することを特徴とする。
【0008】
【実施例】次に、本発明について図面を参照して説明す
る。
【0009】図1は本発明の電子ドキュメントの自動リ
ンク情報作成方法の一実施例の処理の全体の流れを示す
図である。
【0010】本実施例は、PARSINGプログラム1
と、COMPOSITプログラム2と、CONTENT
Sプログラム3の3つのプログラムで成り立ち、ドキュ
メントの文書ファイル4を入力すると、最終出力ファイ
ルとしてリンク情報が入った目次ファイル8と、構成フ
ァイル7と、フルテキストファイル5とが生成される。
【0011】次に、本実施例の処理について図2,〜図
6を併用して説明する。
【0012】図2は図1における文書ファイルの一例を
示す図、図3は図1におけるフルテキストと構成ワーク
ファイルの一例を示すレイアウト図、図4は図1におけ
るCOMPOSITプログラムで作成された構成ファイ
ルの一例を示すレイアウト図、図5は図1におけるフル
テキストの目次部分と構成ファイルとの比較例を示す
図、図6は図1におけるCONTENTSプログラムで
作成された目次ファイルの出力例を示すレイアウト図で
ある。
【0013】まず文書ファイルの入力処理について説明
する。図1における文書ファイル4は図2に示すような
目次部分4aと、この目次に該当する本文4bとで構成
される。
【0014】本文4bでは項目のタイトル、見出し語の
「1.SYSTEM OUTLINE」,「GENER
AL」,「A.Application and Ca
pacity Range」は本文の他の文字の書体と
異なる書体を使用することによって区別される。
【0015】そして、図1に示すように、これら文書フ
ァイル4をPARSINGプログラム1のデータとして
入力する。
【0016】次に、フルテキストファイルの作成と強調
文字部分の抽出(PRASING)処理について説明す
る。
【0017】図1におけるPARSINGプログラム1
は入力された文書ファイル4の絶対ページを計算して、
ページの区切りとなるページヘッダ行を作成する。これ
を文書ファイル4の各ページの先頭に付与してフルテキ
ストファイル5として出力する。
【0018】次いで、文書ファイル中の他の文字と書体
の異なった強調文字部分をページごとに抽出し、各ペー
ジとのページヘッダ行と共に構成ワークファイル6とし
て出力する。
【0019】次に、フルテキスト5および構成ワークフ
ァイル6のページヘッダの形式について図3を参照して
説明する。
【0020】図3において、フルテキストファイル5で
は#Mマニュアル51,52の認識番号#Aは絶対ペー
ジを、認識番号#Rは相対ページを、認識番号#Tは総
ページを表す。また、構成ワークファイル6では、!M
マニュアル61,62の認識番号!Aは絶対ページを、
認識番号!Fはファイル出力名(フルテキストファイル
名)を表す。
【0021】次に、文書構成の判定(COMPOSI
T)処理について説明する。
【0022】図1におけるCOMPOSITプログラム
2はPARSINGプログラム1から出力された構成ワ
ークファイル6を入力データとし、テキスト行の内容か
らそのページが文書構成のどこにあたるか(例えば、C
ontents,Body)を判定する。
【0023】図4において、ページヘッダ行71の末尾
に構成情報を「!C構成情報」の形で付加して構成ファ
イル7として出力する。図4ではページヘッダ行71の
次に「CONTENTS」という文字列があるので、こ
のページは目次とする。
【0024】構成情報としては、「P」(Prefac
e)、「C」(Contents)、「B」(Bod
y)、「A」(Appendix)がある。図4では
「C」を付加している。そして、目次ページ以降のペー
ジは本文とし、行72には!C構成情報に「B」を付加
する。
【0025】次に、リンク情報の書込み(CONTEN
TS)処理について説明する。
【0026】図1に示すCONTENTSプログラム3
はCOMPOSITプログラム2から出力された構成フ
ァイル7およびPARSINGプログラム1で出力され
たフルテキストファイル5を入力データとし、フルテキ
ストファイル5の目次部分の文字列と構成ファイル7の
本文(!CBとマーキングされているところ)以降の文
字列とを比較し、一致した文字列をリンクの対象文字列
と判定する。
【0027】リンク対象の文字列の絶対ページ番号を構
成ファイル5のページヘッダ行から抽出し、図6に示す
ようにフルテキストファイル5の目次部分の文字列に付
与して目次ファイル8として出力する。
【0028】
【発明の効果】以上説明したように本発明は、ドキュメ
ント内の項目タイトルおよび見出し語に、本文と区別す
るために使われている特別な字体をキーワードとして目
次と本文の間にリンクを付与し、このリンク情報をファ
イルとして自動的に出力するようにしたので、電子的マ
ークが付与されていない文書ファイルの迅速なリンク情
報作成が可能となり、また人手によるマーク付与がなく
なるので、工数削減とリンク情報の正確性および統一性
の向上の面で大きな効果を有する。
【図面の簡単な説明】
【図1】電子ドキュメントの自動リンク情報作成方法の
一実施例の処理の全体の流れを示す図である。
【図2】図1における文書ファイルの一例を示す図であ
る。
【図3】図1におけるフルテキストと構成ワークファイ
ルの一例を示すレイアウト図である。
【図4】図1におけるCOMPOSITプログラムで作
成された構成ファイルの一例を示すレイアウト図であ
る。
【図5】図1におけるフルテキストの目次部分と構成フ
ァイルとの比較例を示す図である。
【図6】図1におけるCONTENTSプログラムで作
成された目次ファイルの出力例を示すレイアウト図であ
る。
【符号の説明】
1 PARSINGプログラム 2 COMPOSITプログラム 3 CONTENTSプログラム 4a 文書目次ファイルの目次部分 4b 文書ファイルの本文 5 フルテキストファイル(最終出力ファイル) 6 構成ワークファイル 7 構成ファイル(最終出力ファイル) 8 目次ファイル(最終出力ファイル) 51,52 #Mマニュアル 61,62 !Mマニュアル 71 ページヘッダ行 72 行

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 電子化されたドキュメントファイルから
    リンク対象となるキーワードを抽出し、文書構成を判定
    し、前記抽出したキーワードと前記文書構成とから前記
    リンク対象を選択して目次と本文のリンク情報を自動的
    に作成することを特徴とする電子ドキュメントにおける
    自動リンク情報作成方法。
  2. 【請求項2】 前記電子化されたドキュメント内の項目
    のタイトル,章,扉等に前記本文とは異なる字体の文字
    列を使用し、この文字列を前記キーワードとして出力し
    て前記目次中の文字列を前記ドキュメント中で探索し、
    一致したものにリンクを付与し、このリンク情報をリン
    ク情報ファイルとして出力することを特徴とする請求項
    1記載の電子ドキュメントにおける自動リンク情報作成
    方法。
JP5011326A 1993-01-27 1993-01-27 電子ドキュメントにおける自動リンク情報作成方法 Pending JPH06223065A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5011326A JPH06223065A (ja) 1993-01-27 1993-01-27 電子ドキュメントにおける自動リンク情報作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5011326A JPH06223065A (ja) 1993-01-27 1993-01-27 電子ドキュメントにおける自動リンク情報作成方法

Publications (1)

Publication Number Publication Date
JPH06223065A true JPH06223065A (ja) 1994-08-12

Family

ID=11774908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5011326A Pending JPH06223065A (ja) 1993-01-27 1993-01-27 電子ドキュメントにおける自動リンク情報作成方法

Country Status (1)

Country Link
JP (1) JPH06223065A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117948A (ja) * 1999-09-17 2001-04-27 Internatl Business Mach Corp <Ibm> インタネットベースのアプリケーション・プログラム・インタフェース(api)文書インタフェース

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62229461A (ja) * 1986-03-31 1987-10-08 Canon Inc 文書処理装置
JPH0395673A (ja) * 1989-09-08 1991-04-22 Matsushita Electric Ind Co Ltd 文章間リンク設定方法およびその装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62229461A (ja) * 1986-03-31 1987-10-08 Canon Inc 文書処理装置
JPH0395673A (ja) * 1989-09-08 1991-04-22 Matsushita Electric Ind Co Ltd 文章間リンク設定方法およびその装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117948A (ja) * 1999-09-17 2001-04-27 Internatl Business Mach Corp <Ibm> インタネットベースのアプリケーション・プログラム・インタフェース(api)文書インタフェース

Similar Documents

Publication Publication Date Title
US10796074B2 (en) Linking sources to copied text
US6138129A (en) Method and apparatus for providing automated searching and linking of electronic documents
JP2783558B2 (ja) 要約生成方法および要約生成装置
US6295542B1 (en) Method and apparatus for cross-referencing text
JPH07325827A (ja) ハイパーテキスト自動生成装置
US20020095443A1 (en) Method for automated generation of interactive enhanced electronic newspaper
EP1271355A2 (en) Auto-index method
JPH08329079A (ja) 構造化文書差分抽出方法および装置
US6907562B1 (en) Hypertext concordance
JPH0484271A (ja) 文書内情報検索装置
JP3594701B2 (ja) キーセンテンス抽出装置
JPH09198395A (ja) 文書検索装置
Rajitha et al. Sinhala and english document alignment using statistical machine translation
Yamada et al. Automatic wrapper generation for multilingual web resources
JPH06223065A (ja) 電子ドキュメントにおける自動リンク情報作成方法
Goweder et al. Identifying broken plurals in unvowelised arabic tex
JP3253657B2 (ja) 文書検索方法
JP2005190141A (ja) 情報区分装置、情報区分方法及び情報区分プログラム
Jayabal et al. Challenges in generating bookmarks from TOC entries in e-books
Chen et al. Automating index preparation
EP1072986A2 (en) System and method for extracting data from semi-structured text
Krottmaier Links to the Future
JP3302260B2 (ja) 文書処理システム
JP4044158B2 (ja) 符号照合装置及び符合照合方法
JPH08314958A (ja) 議会議事録検索システムにおけるデータ登録方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000201