JPH06223065A - 電子ドキュメントにおける自動リンク情報作成方法 - Google Patents
電子ドキュメントにおける自動リンク情報作成方法Info
- Publication number
- JPH06223065A JPH06223065A JP5011326A JP1132693A JPH06223065A JP H06223065 A JPH06223065 A JP H06223065A JP 5011326 A JP5011326 A JP 5011326A JP 1132693 A JP1132693 A JP 1132693A JP H06223065 A JPH06223065 A JP H06223065A
- Authority
- JP
- Japan
- Prior art keywords
- file
- document
- contents
- link information
- constitution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】従来の技術におけるリンク対象の言葉へのマー
クの人手による付与に起因する効率の悪さ,正確性,統
一性の低下を解決する。 【構成】PARSINGプログラム1は入力された文書
ファイル4の絶対ページを計算し、ページヘッダ行を作
成して文書ファイル4に付与し、フルテキストファイル
5として出力する。次に文書ファイル4中の他の文字と
書体が異なる強調文字部分を抽出し、ページヘッダ行と
共に構成ワークファイル6として出力する。構成ワーク
ファイル6をCOMPOSITプログラムに入力し、文
書構成を判定し、ページヘッダ行を更新し、構成ファイ
ル7として出力する。構成ファイル7とフルテキストフ
ァイル5をCONTENTSプログラム3に入力し、比
較して一致したフルテキストファイル5の文字列をリン
ク情報と共に目次ファイル8として出力する。
クの人手による付与に起因する効率の悪さ,正確性,統
一性の低下を解決する。 【構成】PARSINGプログラム1は入力された文書
ファイル4の絶対ページを計算し、ページヘッダ行を作
成して文書ファイル4に付与し、フルテキストファイル
5として出力する。次に文書ファイル4中の他の文字と
書体が異なる強調文字部分を抽出し、ページヘッダ行と
共に構成ワークファイル6として出力する。構成ワーク
ファイル6をCOMPOSITプログラムに入力し、文
書構成を判定し、ページヘッダ行を更新し、構成ファイ
ル7として出力する。構成ファイル7とフルテキストフ
ァイル5をCONTENTSプログラム3に入力し、比
較して一致したフルテキストファイル5の文字列をリン
ク情報と共に目次ファイル8として出力する。
Description
【0001】
【産業上の利用分野】本発明は電子ドキュメントにおけ
る自動リンク情報作成方法に関し、特に電子的マークの
ついていないドキュメントの目次から本文への自動リン
ク情報を作成する電子ドキュメントにおける自動リンク
情報作成方法に関する。
る自動リンク情報作成方法に関し、特に電子的マークの
ついていないドキュメントの目次から本文への自動リン
ク情報を作成する電子ドキュメントにおける自動リンク
情報作成方法に関する。
【0002】
【従来の技術】従来の電子化されたドキュメントにおい
て、目次と本文とのリンク情報を自動的に作成する方法
では、あらかじめ何らかのマークがキーとなる言葉に付
与されている必要があった。
て、目次と本文とのリンク情報を自動的に作成する方法
では、あらかじめ何らかのマークがキーとなる言葉に付
与されている必要があった。
【0003】例えば、目次に「第1章」という言葉があ
ったとして、本文中の実際の第1章とリンクさせる場合
には、目次中および本文中の「第1章」という文字列に
リンクの対象であることを示す電子的なマークが付与さ
れていなければならない。
ったとして、本文中の実際の第1章とリンクさせる場合
には、目次中および本文中の「第1章」という文字列に
リンクの対象であることを示す電子的なマークが付与さ
れていなければならない。
【0004】
【発明が解決しようとする課題】この従来の電子ドキュ
メントにおける自動リンク情報作成方法では、リンクの
対象となる文字列にあらかじめ電子的マークが付与され
ていることが前提となっていた。
メントにおける自動リンク情報作成方法では、リンクの
対象となる文字列にあらかじめ電子的マークが付与され
ていることが前提となっていた。
【0005】従って、既に電子化されているドキュメン
トに一つ一つ人手により電子的マークを付けていくこと
になり、非常に効率が悪く、また、電子的マーク付けの
正確性や統一性の点においても品質が落ちるという問題
点があった。
トに一つ一つ人手により電子的マークを付けていくこと
になり、非常に効率が悪く、また、電子的マーク付けの
正確性や統一性の点においても品質が落ちるという問題
点があった。
【0006】
【課題を解決するための手段】本発明の電子ドキュメン
トにおける自動リンク情報作成方法は、電子化されたド
キュメントファイルからリンク対象となるキーワードを
抽出し、文書構成を判定し、前記抽出したキーワードと
前記文書構成とから前記リンク対象を選択して目次と本
文のリンク情報を自動的に作成することを特徴とする。
トにおける自動リンク情報作成方法は、電子化されたド
キュメントファイルからリンク対象となるキーワードを
抽出し、文書構成を判定し、前記抽出したキーワードと
前記文書構成とから前記リンク対象を選択して目次と本
文のリンク情報を自動的に作成することを特徴とする。
【0007】また、前記電子化されたドキュメント内の
項目のタイトル,章,扉等に前記本文とは異なる字体の
文字列を使用し、この文字列を前記キーワードとして出
力して前記目次中の文字列を前記ドキュメント中で探索
し、一致したものにリンクを付与し、このリンク情報を
リンク情報ファイルとして出力することを特徴とする。
項目のタイトル,章,扉等に前記本文とは異なる字体の
文字列を使用し、この文字列を前記キーワードとして出
力して前記目次中の文字列を前記ドキュメント中で探索
し、一致したものにリンクを付与し、このリンク情報を
リンク情報ファイルとして出力することを特徴とする。
【0008】
【実施例】次に、本発明について図面を参照して説明す
る。
る。
【0009】図1は本発明の電子ドキュメントの自動リ
ンク情報作成方法の一実施例の処理の全体の流れを示す
図である。
ンク情報作成方法の一実施例の処理の全体の流れを示す
図である。
【0010】本実施例は、PARSINGプログラム1
と、COMPOSITプログラム2と、CONTENT
Sプログラム3の3つのプログラムで成り立ち、ドキュ
メントの文書ファイル4を入力すると、最終出力ファイ
ルとしてリンク情報が入った目次ファイル8と、構成フ
ァイル7と、フルテキストファイル5とが生成される。
と、COMPOSITプログラム2と、CONTENT
Sプログラム3の3つのプログラムで成り立ち、ドキュ
メントの文書ファイル4を入力すると、最終出力ファイ
ルとしてリンク情報が入った目次ファイル8と、構成フ
ァイル7と、フルテキストファイル5とが生成される。
【0011】次に、本実施例の処理について図2,〜図
6を併用して説明する。
6を併用して説明する。
【0012】図2は図1における文書ファイルの一例を
示す図、図3は図1におけるフルテキストと構成ワーク
ファイルの一例を示すレイアウト図、図4は図1におけ
るCOMPOSITプログラムで作成された構成ファイ
ルの一例を示すレイアウト図、図5は図1におけるフル
テキストの目次部分と構成ファイルとの比較例を示す
図、図6は図1におけるCONTENTSプログラムで
作成された目次ファイルの出力例を示すレイアウト図で
ある。
示す図、図3は図1におけるフルテキストと構成ワーク
ファイルの一例を示すレイアウト図、図4は図1におけ
るCOMPOSITプログラムで作成された構成ファイ
ルの一例を示すレイアウト図、図5は図1におけるフル
テキストの目次部分と構成ファイルとの比較例を示す
図、図6は図1におけるCONTENTSプログラムで
作成された目次ファイルの出力例を示すレイアウト図で
ある。
【0013】まず文書ファイルの入力処理について説明
する。図1における文書ファイル4は図2に示すような
目次部分4aと、この目次に該当する本文4bとで構成
される。
する。図1における文書ファイル4は図2に示すような
目次部分4aと、この目次に該当する本文4bとで構成
される。
【0014】本文4bでは項目のタイトル、見出し語の
「1.SYSTEM OUTLINE」,「GENER
AL」,「A.Application and Ca
pacity Range」は本文の他の文字の書体と
異なる書体を使用することによって区別される。
「1.SYSTEM OUTLINE」,「GENER
AL」,「A.Application and Ca
pacity Range」は本文の他の文字の書体と
異なる書体を使用することによって区別される。
【0015】そして、図1に示すように、これら文書フ
ァイル4をPARSINGプログラム1のデータとして
入力する。
ァイル4をPARSINGプログラム1のデータとして
入力する。
【0016】次に、フルテキストファイルの作成と強調
文字部分の抽出(PRASING)処理について説明す
る。
文字部分の抽出(PRASING)処理について説明す
る。
【0017】図1におけるPARSINGプログラム1
は入力された文書ファイル4の絶対ページを計算して、
ページの区切りとなるページヘッダ行を作成する。これ
を文書ファイル4の各ページの先頭に付与してフルテキ
ストファイル5として出力する。
は入力された文書ファイル4の絶対ページを計算して、
ページの区切りとなるページヘッダ行を作成する。これ
を文書ファイル4の各ページの先頭に付与してフルテキ
ストファイル5として出力する。
【0018】次いで、文書ファイル中の他の文字と書体
の異なった強調文字部分をページごとに抽出し、各ペー
ジとのページヘッダ行と共に構成ワークファイル6とし
て出力する。
の異なった強調文字部分をページごとに抽出し、各ペー
ジとのページヘッダ行と共に構成ワークファイル6とし
て出力する。
【0019】次に、フルテキスト5および構成ワークフ
ァイル6のページヘッダの形式について図3を参照して
説明する。
ァイル6のページヘッダの形式について図3を参照して
説明する。
【0020】図3において、フルテキストファイル5で
は#Mマニュアル51,52の認識番号#Aは絶対ペー
ジを、認識番号#Rは相対ページを、認識番号#Tは総
ページを表す。また、構成ワークファイル6では、!M
マニュアル61,62の認識番号!Aは絶対ページを、
認識番号!Fはファイル出力名(フルテキストファイル
名)を表す。
は#Mマニュアル51,52の認識番号#Aは絶対ペー
ジを、認識番号#Rは相対ページを、認識番号#Tは総
ページを表す。また、構成ワークファイル6では、!M
マニュアル61,62の認識番号!Aは絶対ページを、
認識番号!Fはファイル出力名(フルテキストファイル
名)を表す。
【0021】次に、文書構成の判定(COMPOSI
T)処理について説明する。
T)処理について説明する。
【0022】図1におけるCOMPOSITプログラム
2はPARSINGプログラム1から出力された構成ワ
ークファイル6を入力データとし、テキスト行の内容か
らそのページが文書構成のどこにあたるか(例えば、C
ontents,Body)を判定する。
2はPARSINGプログラム1から出力された構成ワ
ークファイル6を入力データとし、テキスト行の内容か
らそのページが文書構成のどこにあたるか(例えば、C
ontents,Body)を判定する。
【0023】図4において、ページヘッダ行71の末尾
に構成情報を「!C構成情報」の形で付加して構成ファ
イル7として出力する。図4ではページヘッダ行71の
次に「CONTENTS」という文字列があるので、こ
のページは目次とする。
に構成情報を「!C構成情報」の形で付加して構成ファ
イル7として出力する。図4ではページヘッダ行71の
次に「CONTENTS」という文字列があるので、こ
のページは目次とする。
【0024】構成情報としては、「P」(Prefac
e)、「C」(Contents)、「B」(Bod
y)、「A」(Appendix)がある。図4では
「C」を付加している。そして、目次ページ以降のペー
ジは本文とし、行72には!C構成情報に「B」を付加
する。
e)、「C」(Contents)、「B」(Bod
y)、「A」(Appendix)がある。図4では
「C」を付加している。そして、目次ページ以降のペー
ジは本文とし、行72には!C構成情報に「B」を付加
する。
【0025】次に、リンク情報の書込み(CONTEN
TS)処理について説明する。
TS)処理について説明する。
【0026】図1に示すCONTENTSプログラム3
はCOMPOSITプログラム2から出力された構成フ
ァイル7およびPARSINGプログラム1で出力され
たフルテキストファイル5を入力データとし、フルテキ
ストファイル5の目次部分の文字列と構成ファイル7の
本文(!CBとマーキングされているところ)以降の文
字列とを比較し、一致した文字列をリンクの対象文字列
と判定する。
はCOMPOSITプログラム2から出力された構成フ
ァイル7およびPARSINGプログラム1で出力され
たフルテキストファイル5を入力データとし、フルテキ
ストファイル5の目次部分の文字列と構成ファイル7の
本文(!CBとマーキングされているところ)以降の文
字列とを比較し、一致した文字列をリンクの対象文字列
と判定する。
【0027】リンク対象の文字列の絶対ページ番号を構
成ファイル5のページヘッダ行から抽出し、図6に示す
ようにフルテキストファイル5の目次部分の文字列に付
与して目次ファイル8として出力する。
成ファイル5のページヘッダ行から抽出し、図6に示す
ようにフルテキストファイル5の目次部分の文字列に付
与して目次ファイル8として出力する。
【0028】
【発明の効果】以上説明したように本発明は、ドキュメ
ント内の項目タイトルおよび見出し語に、本文と区別す
るために使われている特別な字体をキーワードとして目
次と本文の間にリンクを付与し、このリンク情報をファ
イルとして自動的に出力するようにしたので、電子的マ
ークが付与されていない文書ファイルの迅速なリンク情
報作成が可能となり、また人手によるマーク付与がなく
なるので、工数削減とリンク情報の正確性および統一性
の向上の面で大きな効果を有する。
ント内の項目タイトルおよび見出し語に、本文と区別す
るために使われている特別な字体をキーワードとして目
次と本文の間にリンクを付与し、このリンク情報をファ
イルとして自動的に出力するようにしたので、電子的マ
ークが付与されていない文書ファイルの迅速なリンク情
報作成が可能となり、また人手によるマーク付与がなく
なるので、工数削減とリンク情報の正確性および統一性
の向上の面で大きな効果を有する。
【図1】電子ドキュメントの自動リンク情報作成方法の
一実施例の処理の全体の流れを示す図である。
一実施例の処理の全体の流れを示す図である。
【図2】図1における文書ファイルの一例を示す図であ
る。
る。
【図3】図1におけるフルテキストと構成ワークファイ
ルの一例を示すレイアウト図である。
ルの一例を示すレイアウト図である。
【図4】図1におけるCOMPOSITプログラムで作
成された構成ファイルの一例を示すレイアウト図であ
る。
成された構成ファイルの一例を示すレイアウト図であ
る。
【図5】図1におけるフルテキストの目次部分と構成フ
ァイルとの比較例を示す図である。
ァイルとの比較例を示す図である。
【図6】図1におけるCONTENTSプログラムで作
成された目次ファイルの出力例を示すレイアウト図であ
る。
成された目次ファイルの出力例を示すレイアウト図であ
る。
1 PARSINGプログラム 2 COMPOSITプログラム 3 CONTENTSプログラム 4a 文書目次ファイルの目次部分 4b 文書ファイルの本文 5 フルテキストファイル(最終出力ファイル) 6 構成ワークファイル 7 構成ファイル(最終出力ファイル) 8 目次ファイル(最終出力ファイル) 51,52 #Mマニュアル 61,62 !Mマニュアル 71 ページヘッダ行 72 行
Claims (2)
- 【請求項1】 電子化されたドキュメントファイルから
リンク対象となるキーワードを抽出し、文書構成を判定
し、前記抽出したキーワードと前記文書構成とから前記
リンク対象を選択して目次と本文のリンク情報を自動的
に作成することを特徴とする電子ドキュメントにおける
自動リンク情報作成方法。 - 【請求項2】 前記電子化されたドキュメント内の項目
のタイトル,章,扉等に前記本文とは異なる字体の文字
列を使用し、この文字列を前記キーワードとして出力し
て前記目次中の文字列を前記ドキュメント中で探索し、
一致したものにリンクを付与し、このリンク情報をリン
ク情報ファイルとして出力することを特徴とする請求項
1記載の電子ドキュメントにおける自動リンク情報作成
方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5011326A JPH06223065A (ja) | 1993-01-27 | 1993-01-27 | 電子ドキュメントにおける自動リンク情報作成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5011326A JPH06223065A (ja) | 1993-01-27 | 1993-01-27 | 電子ドキュメントにおける自動リンク情報作成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06223065A true JPH06223065A (ja) | 1994-08-12 |
Family
ID=11774908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5011326A Pending JPH06223065A (ja) | 1993-01-27 | 1993-01-27 | 電子ドキュメントにおける自動リンク情報作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06223065A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117948A (ja) * | 1999-09-17 | 2001-04-27 | Internatl Business Mach Corp <Ibm> | インタネットベースのアプリケーション・プログラム・インタフェース(api)文書インタフェース |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62229461A (ja) * | 1986-03-31 | 1987-10-08 | Canon Inc | 文書処理装置 |
JPH0395673A (ja) * | 1989-09-08 | 1991-04-22 | Matsushita Electric Ind Co Ltd | 文章間リンク設定方法およびその装置 |
-
1993
- 1993-01-27 JP JP5011326A patent/JPH06223065A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62229461A (ja) * | 1986-03-31 | 1987-10-08 | Canon Inc | 文書処理装置 |
JPH0395673A (ja) * | 1989-09-08 | 1991-04-22 | Matsushita Electric Ind Co Ltd | 文章間リンク設定方法およびその装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117948A (ja) * | 1999-09-17 | 2001-04-27 | Internatl Business Mach Corp <Ibm> | インタネットベースのアプリケーション・プログラム・インタフェース(api)文書インタフェース |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10796074B2 (en) | Linking sources to copied text | |
US6138129A (en) | Method and apparatus for providing automated searching and linking of electronic documents | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
US6295542B1 (en) | Method and apparatus for cross-referencing text | |
JPH07325827A (ja) | ハイパーテキスト自動生成装置 | |
US20020095443A1 (en) | Method for automated generation of interactive enhanced electronic newspaper | |
EP1271355A2 (en) | Auto-index method | |
JPH08329079A (ja) | 構造化文書差分抽出方法および装置 | |
US6907562B1 (en) | Hypertext concordance | |
JPH0484271A (ja) | 文書内情報検索装置 | |
JP3594701B2 (ja) | キーセンテンス抽出装置 | |
JPH09198395A (ja) | 文書検索装置 | |
Rajitha et al. | Sinhala and english document alignment using statistical machine translation | |
Yamada et al. | Automatic wrapper generation for multilingual web resources | |
JPH06223065A (ja) | 電子ドキュメントにおける自動リンク情報作成方法 | |
Goweder et al. | Identifying broken plurals in unvowelised arabic tex | |
JP3253657B2 (ja) | 文書検索方法 | |
JP2005190141A (ja) | 情報区分装置、情報区分方法及び情報区分プログラム | |
Jayabal et al. | Challenges in generating bookmarks from TOC entries in e-books | |
Chen et al. | Automating index preparation | |
EP1072986A2 (en) | System and method for extracting data from semi-structured text | |
Krottmaier | Links to the Future | |
JP3302260B2 (ja) | 文書処理システム | |
JP4044158B2 (ja) | 符号照合装置及び符合照合方法 | |
JPH08314958A (ja) | 議会議事録検索システムにおけるデータ登録方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20000201 |