JP2000285116A - 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2000285116A
JP2000285116A JP11093750A JP9375099A JP2000285116A JP 2000285116 A JP2000285116 A JP 2000285116A JP 11093750 A JP11093750 A JP 11093750A JP 9375099 A JP9375099 A JP 9375099A JP 2000285116 A JP2000285116 A JP 2000285116A
Authority
JP
Japan
Prior art keywords
document
index
sub
word
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11093750A
Other languages
English (en)
Other versions
JP2000285116A5 (ja
Inventor
Naoyuki Nomura
直之 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP11093750A priority Critical patent/JP2000285116A/ja
Publication of JP2000285116A publication Critical patent/JP2000285116A/ja
Publication of JP2000285116A5 publication Critical patent/JP2000285116A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 索引となる語または語句に対して出力される
その出現位置情報を適正量に抑えることにより、操作者
による閲覧に適した索引を提供することを目的とする。 【解決手段】 索引を作成する対象となる文書を入力す
る入力部200と、入力部200により入力された文書
を所定の長さごとのサブ・ドキュメントに分割する分割
部201と、分割部201により分割されたサブ・ドキ
ュメントごとに索引となる語または語句の出現位置情報
を所定数のみ抽出する抽出部203と、抽出部203に
より抽出された語または語句の出現位置情報に基づいて
索引を作成する作成部204と、作成部204により作
成された索引を出力する出力部205と、を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書内の語または
語句に基づいて索引を自動作成する文書作成装置、文書
作成方法、およびその方法をコンピュータに実行させる
プログラムを記録したコンピュータ読み取り可能な記録
媒体に関する。
【0002】
【従来の技術】従来、論文・書籍等の文書に対する索引
の作成は、人手によりおこなわれていた。すなわち、索
引作成者が文書全体を読み、文書中から索引となるべき
語を抽出し、その語の出現位置(頁番号、行番号等)を
確認することにより、文書の索引を作成していた。この
ように索引作成の作業は極めて煩雑であり、文書量が増
大することにより索引作成の作業量が膨大となるため、
その索引作成作業をコンピュータにより自動、あるいは
半自動化する技術が提案されている。
【0003】その提案としては、たとえば、文書中から
形態素解析等の自然言語解析をおこなうことにより単語
や語句を切り出し、切り出された単語や語句の中からあ
らかじめ用意された索引語辞書や不要語辞書をもちいて
索引の対象となる語を選別し、それら索引の対象となる
語についてその出現箇所を個別にリストアップしてゆく
というものであった。
【0004】
【発明が解決しようとする課題】しかしながら、従来技
術においては、たとえば文書中に特定の語が大量に出現
している場合に、その語に対応づけて索引に収録される
出現箇所が膨大となってしまうという問題点があった。
【0005】これにより、索引として網羅的に表示、ま
たは印刷等されている大量の出現箇所の中から、操作者
が目的の箇所を探し出す作業は非常に煩雑になるという
問題点があった。
【0006】ここで、出現箇所が文書全体にわたってい
る場合は、その語は文書の意味内容等を端的に表す語で
はない(一般的に使用される語である)と判断し、不要
語辞書に登録することにより、索引への収録を排除する
ことも考えられる。
【0007】しかし、ある文書にのみ頻出し他の文書に
はあまり出現しないような語の場合は、重要語・特徴語
である可能性が高いため、索引に収録しておく必要があ
る。また、一文書内での出現傾向に特徴のある語(たと
えば、ある箇所に集中的に出現する語)も、複数の主題
を扱った文書から特定の主題を検索する際の便宜のた
め、索引には収録しておく必要があるため、上記のよう
に出現箇所が文書全体にわたっている語を不要語辞書に
登録することにより、索引への収録を排除すると、閲覧
に適した索引を作成することができないという問題点が
あった。
【0008】本発明は上述した従来技術による問題点を
解決するため、索引となる語または語句に対して出力さ
れるその出現位置情報を適正量に抑え、操作者による閲
覧に適した索引を作成することが可能な文書作成装置、
文書作成方法、およびその方法をコンピュータに実行さ
せるプログラムを記録したコンピュータ読み取り可能な
記録媒体を提供することを目的とする。
【0009】
【課題を解決するための手段】上述した課題を解決し、
目的を達成するため、請求項1の発明に係る文書作成装
置は、索引を作成する対象となる文書を入力する入力手
段と、前記入力手段により入力された文書を所定の長さ
ごとのサブ・ドキュメントに分割する分割手段と、前記
分割手段により分割されたサブ・ドキュメントごとに索
引となる語または語句の出現位置情報を所定数のみ抽出
する抽出手段と、前記文書における前記抽出手段により
抽出された語または語句の出現位置情報に基づいて索引
を作成する作成手段と、前記作成手段により作成された
索引を出力する出力手段と、を備えたことを特徴とす
る。
【0010】この請求項1の発明によれば、索引となる
語または語句に対して出力されるその出現位置情報を適
正量に抑えることができる。
【0011】また、請求項2の発明に係る文書作成装置
は、索引を作成する対象となる文書を入力する入力手段
と、前記入力手段により入力された文書を所定の長さご
とのサブ・ドキュメントに分割する分割手段と、前記分
割手段により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現回数を計数する計数手段と、
前記分割手段により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出する抽出手段と、前記文書における前記計数手段に
より計数された語または語句の出現回数および前記抽出
手段により抽出された語または語句の出現位置情報に基
づいて索引を作成する作成手段と、前記作成手段により
作成された索引を出力する出力手段と、を備えたことを
特徴とする。
【0012】この請求項2の発明によれば、索引となる
語または語句に対して、そのサブ・ドキュメントごとの
出現回数を出力することができる。
【0013】また、請求項3の発明に係る文書作成装置
は、請求項1または2に記載の発明において、前記抽出
手段が、索引となる語または語句が前記分割手段により
分割されたサブ・ドキュメント中に出現する箇所のう
ち、最初のものの出現位置情報のみを抽出することを特
徴とする。
【0014】この請求項3の発明によれば、索引となる
語または語句に対して出力される出現位置情報を一つの
サブ・ドキュメントに対して一つとすることができる。
【0015】また、請求項4の発明に係る文書作成装置
は、請求項1または2に記載の発明において、さらに、
前記作成手段により作成された索引を記憶する記憶手段
を設けたことを特徴とする。
【0016】この請求項4の発明によれば、索引となる
語または語句に対して記憶されるその出現位置情報を適
正量に抑えることができる。
【0017】また、請求項5の発明に係る文書作成方法
は、索引を作成する対象となる文書を入力する入力工程
と、前記入力工程により入力された文書を所定の長さご
とのサブ・ドキュメントに分割する分割工程と、前記分
割工程により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現位置情報を所定数のみ抽出す
る抽出工程と、前記文書における前記抽出工程により抽
出された語または語句の出現位置情報に基づいて索引を
作成する作成工程と、前記作成工程により作成された索
引を出力する出力工程と、を含むことを特徴とする。
【0018】この請求項5の発明によれば、索引となる
語または語句に対して出力されるその出現位置情報を適
正量に抑えることができる。
【0019】また、請求項6の発明に係る文書作成方法
は、索引を作成する対象となる文書を入力する入力工程
と、前記入力工程により入力された文書を所定の長さご
とのサブ・ドキュメントに分割する分割工程と、前記分
割工程により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現回数を計数する計数工程と、
前記分割工程により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出する抽出工程と、前記文書における前記計数工程に
より計数された語または語句の出現回数および前記抽出
工程により抽出された語または語句の出現位置情報に基
づいて索引を作成する作成工程と、前記作成工程により
作成された索引を出力する出力工程と、を含むことを特
徴とする。
【0020】この請求項6の発明によれば、索引となる
語または語句に対して、そのサブ・ドキュメントごとの
出現回数を出力することができる。
【0021】また、請求項7の発明に係る文書作成方法
は、請求項5または6に記載の発明において、前記抽出
工程が、索引となる語または語句が前記分割工程により
分割されたサブ・ドキュメント中に出現する箇所のう
ち、最初のものの出現位置情報のみを抽出することを特
徴とする。
【0022】この請求項7の発明によれば、索引となる
語または語句に対して出力されるその出現位置情報を一
つのサブ・ドキュメントに対して一つとすることができ
る。
【0023】また、請求項8の発明に係る文書作成方法
は、請求項5または6に記載の発明において、さらに、
前記作成工程により作成された索引を記憶する記憶工程
を含むことを特徴とする。
【0024】この請求項8の発明によれば、索引となる
語または語句に対して記憶されるその出現位置情報を適
正量に抑えることができる。
【0025】また、請求項9の発明に係る記録媒体は、
請求項5〜8に記載された方法をコンピュータに実行さ
せるプログラムを記録したため、これによって、請求項
5〜8の処理をコンピュータに実行させることが可能と
なる。
【0026】
【発明の実施の形態】以下に添付図面を参照して、この
発明に係る文書作成装置、文書作成方法、およびその方
法をコンピュータに実行させるプログラムを記録したコ
ンピュータ読み取り可能な記録媒体の好適な実施の形態
を詳細に説明する。
【0027】(実施の形態1)まず、この発明の実施の
形態1による文書作成装置のハードウエア構成について
説明する。図1は本実施の形態による文書作成装置のハ
ードウエア構成を示すブロック図である。
【0028】図1のブロック図において、101はシス
テム全体を制御するCPUを、102はブートプログラ
ム等を記憶したROMを、103はCPU101のワー
クエリアとして使用されるRAMを、104はCPU1
01の制御にしたがってHD(ハードディスク)105
に対するデータのリード/ライトを制御するHDD(ハ
ードディスク・ドライブ)を、105はHDD104の
制御で書き込まれたデータを記憶するHDを、それぞれ
示している。
【0029】また、106はCPU101の制御にした
がってFD(フロッピーディスク)207に対するデー
タのリード/ライトを制御するFDD(フロッピーディ
スク・ドライブ)を、107はFDD106の制御で書
き込まれたデータを記憶する着脱自在の記憶媒体である
FDを、108は、文書、画像、機能情報等のデータに
関するウインドウを表示するディスプレイを、それぞれ
示している。
【0030】また、109は通信回線110を介してネ
ットワークNETに接続され、そのネットワークNET
と内部のインターフェイスを司るインターフェイス(I
/F)を、111は文字、数値、各種指示等の入力のた
めのキーを備えたキーボードを、112はカーソルの移
動や範囲選択、あるいはウインドウの移動やサイズの変
更等をおこなうマウスを、それぞれ示している。
【0031】また、113は画像を光学的に読み取るス
キャナを、114はウインドウに表示された内容等を印
刷するプリンタを、115は、着脱可能な記録媒体であ
るCD−ROMを、116は、CD−ROM115に対
するデータのリードを制御するCD−ROMドライブ
を、それぞれ示している。また、各部はバス100によ
り接続されている。
【0032】つぎに、この発明の実施の形態1による文
書作成装置の機能的構成について説明する。図2は実施
の形態1による文書作成装置の機能的構成を示す機能ブ
ロック図である。図2のブロック図において、文書作成
装置は、入力部200と、分割部201と、抽出部20
3と、作成部204と、出力部205と、記憶部206
とを含む構成である。また、分割部201は、分割テー
ブル202を備えている。
【0033】入力部200は、索引作成の対象となる文
書を入力する。ここで、文書の入力はキーボード111
をもちいておこなってもよく、また、文書画像をスキャ
ナ113により読み取り、OCR機能によりテキスト化
したものであってもよく、あるいは文書データをネット
ワークNET経由でI/F109を介して他の情報処理
装置から受信するものであってもよい。
【0034】分割部201は、入力文書をその意味的ま
たは形式的特徴に基づいて、複数のサブ・ドキュメント
に分割する。ここで、サブ・ドキュメントとは一文書を
構成する複数の部分を意味する。
【0035】また、サブ・ドキュメントを分割する際の
分割点としては、たとえば、所定文字数、所定行数、所
定分数を一つのサブ・ドキュメントとしてもよく、ま
た、改行や字下げ、開始タグと終了タグ等文書の形式的
な特徴に基づいて切り出された、章・節・段落等の区切
れを一つのサブ・ドキュメントとしてもよい。さらに
は、文書の意味内容を解析して主題の変化点を求め、そ
の変化点を分割点として採用するようにしてもよい。
【0036】なお、分割点は、操作者が文書ごとに任意
に設定・変更できるようにしてもよい。その際、表示画
面上に表示させた文書中の所望箇所をマウス112等を
もちいて指定することにより、分割点の設定・変更をす
るようにしてもよい。
【0037】分割テーブル202は、分割部201によ
り分割されたサブ・ドキュメントの番号とその範囲とを
対応づけたテーブルである。図3は実施の形態1による
文書作成装置の分割部201の分割テーブル202の一
例を示す説明図である。
【0038】図3において、分割テーブル202は、サ
ブ・ドキュメントの番号とそのサブ・ドキュメントの範
囲をその長さ、すなわち、サブ・ドキュメントを構成す
る文字の数によって表現している。ただし、文書テーブ
ル202に格納する情報は、上記の内容に限定されるこ
とはなく、たとえばサブ・ドキュメントの開始文字およ
び終了文字が文書の先頭文字から何番目の文字であるか
によって表現するようにしてもよい。
【0039】抽出部203は、索引となる語または語句
の各々について、各々のサブ・ドキュメント中での出現
回数が所定回数未満のときは、当該サブ・ドキュメント
中でのすべての出現箇所、所定回数以上のときは、その
いずれかの出現箇所を選択して、それぞれ出現位置情報
を抽出する。
【0040】たとえば、同じ語が同じサブ・ドキュメン
ト中に二箇所以上出現する場合、そのうち最初に出現す
る箇所(初出箇所)の出現位置情報のみを抽出する。ま
た、三箇所以上出現する場合、何らかの手法によりサブ
・ドキュメント中の各文の重要度を判定し、注目する語
を含むもののうち重要度の高い文から順に二箇所選択し
て出現位置情報を抽出する。また、一定値以上の重要度
を持つ文での出現箇所のみを選択して、その出現位置情
報を抽出する等が考えられる。
【0041】何箇所以上出現した場合そのうち何箇所選
択するかを、操作者が任意に設定できるようにしてもよ
い。また出現箇所を一覧表示して、いずれを選択するか
を操作者に指示させるようにしてもよい。
【0042】なお、抽出部203で抽出される出現位置
情報とは、当該出現箇所の当該文書中での位置を表す情
報である。これはたとえば、サブ・ドキュメント番号と
当該サブ・ドキュメントの先頭文字からの文字数、頁数
と行数、章・節の見出しと段落番号(第何段落目か)、
等により表現される。
【0043】また、索引となる語または語句は、あらか
じめ用意された索引語辞書や不要語辞書等により決定し
てもよい。すなわち、索引作成対象の文書中から形態素
解析等により切り出された候補語または語句のうち、索
引語辞書に登録されているもの、あるいは不要語辞書に
登録されていないものを索引の見出し語とすることがで
きる。
【0044】ただし、この手法では対象文書の分野や性
質に沿った索引が作成できない可能性もあるので、切り
出された候補語の対象文書中での重要度を評価して、そ
の評価値が一定のしきい値を越えたもののみを索引の見
出し語として採用するようにしてもよい。
【0045】重要度の評価基準としては、たとえば文書
中でのその語の出現回数が考えられるが、同義語や類義
語、または部分一致する語等の出現回数を0.5回等と
してその語の出現回数に加算するなどの応用も考えられ
る(たとえば特開平8−221448号公報参照)。
【0046】また、TF×IDF法をもちいて、他の文
書中での出現頻度と比較して、その文書中での出現頻度
が特に高い語の評価値を高くするようにしてもよい。ま
た、出現回数でなくその対数値をもちいるようにしても
よい。また、上記手法のいずれをもちいるかをチェック
ボックス等により操作者が任意に選択できるようにして
もよい。
【0047】作成部204は、索引となる語または語句
と抽出部203により抽出された索引となる語または語
句の出現位置情報とを対応づけることにより索引を作成
する。また、出力部205は、作成部204により作成
された索引をディスプレイ108により表示する。図4
は、実施の形態1による文書作成装置の索引の出力の一
例を示す説明図である。
【0048】図4においては、語または語句を辞書順に
並べて表示している。すなわち、「コンピュータ」、
「半導体」、「プロトコル」という辞書順に並べて表示
されているのがわかる。ここで表示方法としては、出現
頻度順としたり、その語と関連の強い語(同義語や類義
語、共起語等)をそのすぐ下に付帯的に表示したり(具
体的には字下げを施したりすることができる。
【0049】また、文字の種類や大きさを変えたり、あ
るいはディレクトリ構成の表示に広く利用されている階
層表示(例:Windows95のエクスプローラ)を
応用する等して)してもよい。また、表示方法について
操作者が任意に切り替えられるようにするとさらによ
い。
【0050】なお、出現位置は通常その語と完全一致す
る語の出現位置であるが、部分一致する語の出現位置
も、文字の種類や大きさを変える等してあわせて表示す
るようにしてもよい。
【0051】また、索引のすべての見出し語とその出現
位置とを表示するのではなく、操作者により指定された
一または複数のサブ・ドキュメント中に出現する語、お
よび当該サブ・ドキュメント中での出現位置のみを表示
するようにしてもよい。通常、そこに出現する語はそこ
で記述されている内容を端的に表現しているため、サブ
・ドキュメントごとの索引を表示することで、文書の各
部分の主題の概略的な把握が可能となる。
【0052】なお、サブ・ドキュメントの指定は、たと
えばマウスクリックにより明示的におこなうことのほ
か、特段の指定を要さず、画面表示されているサブ・ド
キュメントを指定されたサブ・ドキュメントとみなすよ
うにしてもよい。
【0053】さらに、各語についてその重要度(評価
値)を表示し、操作者が任意に変更できるようにしても
よく、あるいは評価値としきい値との大小にかかわら
ず、絶対的にその語を索引の見出し語として採用または
不採用とすることを操作者が任意に指定できるようにし
てもよい。
【0054】さらに、採用・不採用の境界となるしきい
値をスライドバー等で視覚的に表現し、見出し語の分量
がどの程度になるかを確認しながら操作者がしきい値を
任意に変更できるようにしてもよい。
【0055】加えて、表示されている語またはその出現
位置をマウスクリックすることにより、ウインドウを分
割しまたは別個のウインドウを開いて、当該出現箇所の
近傍の原文を表示するとともに当該語を反転表示するよ
うにしてもよい。索引のウインドウで別の語または出現
位置が指定されたときは、それと連動して、その語また
は出現位置を含む箇所が原文のウインドウに表示される
よう制御する。
【0056】このときの各ウインドウの位置関係や表示
内容を記憶しておき、随時同じ状態を再現できるように
してもよい。なお出現位置として部分一致する語の出現
位置も表示しているときは、反転表示の色を変える等し
て区別するようにしてもよい。
【0057】また、別途ボタン等を設けて、語または語
句の原文中での出現箇所を前から、あるいは後ろから順
次移動できるようにしてもよい。この場合、操作者によ
っては、出現位置近傍の原文が順次参照できさえすれば
とくにその出現位置がどこであるかを正確に知る必要は
ないと考えることもあるので、索引表示時に索引となる
語または語句のみを表示しその出現位置情報は表示しな
いという設定ができるようにしてもよい。
【0058】なお、索引の出力は操作者の指示があった
ときにおこなうほか、索引作成対象となった文書が送信
されるときに、自動的に索引を添付するようにしてもよ
い。その際、送信の相手方によって、索引を添付するか
否かを変更するようにしてもよく、たとえば送信する文
書があらかじめ通知された送信先の興味・関心等に適合
するときは索引を添付する、過去に索引不要の旨を通知
してきた送信先に対しては索引を添付しない、等とする
ことが考えられる。
【0059】また、出力部205は、作成された索引を
ディスプレイ108に表示する代わりにまたは表示する
とともに、作成された索引をプリンタ114により印刷
したり、あるいはネットワークNETを経由して他の情
報処理装置に送信するようにしてもよい。また、記憶部
206は、作成部204により作成された索引を記憶す
る。
【0060】さらに、出力の際に初出箇所は太文字で、
語句を定義してしている箇所はイタリクスで表示するよ
うにしてもよい。語句を定義している箇所とは、「・・
とは、・・するものである」とうの簡単な構文テンプレ
ートをあらかじめ用意し、そのテンプレートにマッチン
グするか否かで判別するようするとよい。
【0061】また、定義・説明の頁が初出頁より後だっ
た場合に、警告を表示し、本文中の後方参照の表現を挿
入する。ここで、後方参照の表現とは、たとえば、「こ
の概念の説明は第2章第3節22頁第4段落を参照」等
である。
【0062】なお、入力部200、分割部201、抽出
部203、作成部204、出力部205および記憶部2
06は、それぞれROM102、RAM103またはハ
ードディスク105、フロッピーディスク107、CD
−ROM115等の記録媒体に記録されたプログラムに
記載された命令にしたがってCPU101等が命令処理
を実行することにより、各部の機能を実現するものであ
る。
【0063】つぎに、実施の形態1による文書作成装置
の動作について説明する。図5は本実施の形態による文
書作成装置の動作の手順を示すフローチャートである。
図5のフローチャートにおいて、まず、ステップS50
1において操作者からの指示を待ち、指示があった場合
(ステップS501肯定)は、つぎにステップS502
においてそれが索引を作成すべき旨の指示であるかどう
かを判断する(ステップS502)。
【0064】ステップS502において、索引を作成す
べき旨の指示である場合(ステップS502肯定)は、
ステップS503へ移行し、索引を作成すべき旨の指示
でない場合(ステップS502否定)は、ステップS5
07へ移行する。
【0065】ステップS503において、索引作成の対
象となる文書を入力する。なお、ステップS502とス
テップS503の順序は問わず、逆であってもよい。ま
た文書の入力が、索引作成の指示を兼ねる(すなわち、
文書入力と同時に自動的に索引を作成する)こととして
もよい。
【0066】つぎに、ステップS504において、入力
文書を複数のサブ・ドキュメントに分割する。なお、ス
テップS504における分割処理の詳細な内容について
は後述する。
【0067】つぎに、ステップS505において、索引
となる語または語句についてその出現位置情報を抽出す
る。なお、ステップS505における抽出処理の詳細な
内容についても後述する。
【0068】つぎに、ステップS506において、索引
となる語または語句とステップS505において抽出さ
れたその出現位置情報とを対応づけて索引を作成する。
【0069】つぎに、ステップS507において、入力
された指示が索引を出力すべき旨の指示であるかどうか
を判断する。ここで、索引を出力すべき旨の指示である
場合(ステップS507肯定)は、ステップS508に
おいて、ステップS506で作成した索引の内容を出力
し、その後、ステップS509へ移行する。
【0070】一方、ステップS507において、索引を
出力すべき旨の指示でない場合(ステップS507否
定)は、ステップS509において、入力された指示が
索引を記憶すべき旨の指示であるかどうかを判断する。
ここで、索引を記憶すべき旨の指示である場合(ステッ
プS509肯定)は、ステップS510において、ステ
ップS506で作成された索引の内容を記憶部206に
記憶し、索引を記憶すべき旨の指示でない場合(ステッ
プS509否定)は、何もせずに処理を終了する。
【0071】つぎに、図5に示した分割処理(ステップ
S504)の詳細な内容について説明する。図6は実施
の形態1による文書作成装置の分割処理の詳細な手順を
示すフローチャートである。ここでは、分割の一例とし
て、一段落を一つのサブ・ドキュメントとする例をもち
いて説明する。
【0072】図6のフローチャートにおいて、まず、ス
テップS601で、現在分割中、すなわち、現在その範
囲を調査中のサブ・ドキュメントを示す変数iに初期値
1を設定するとともに、ステップS602で、現在読み
込み中の文字が現在分割中のサブ・ドキュメントの先頭
文字から何文字目であるかを示す変数jに初期値1を設
定する。
【0073】つぎに、ステップS603において、文書
中から変数iと変数jにより示される一文字を読み込
む。そして、ステップS604において、読み込んだ一
文字が文書の終端を示す特殊記号であるかどうかを判定
する(ステップS604)。
【0074】ステップS604において、読み込んだ一
文字が終端記号である場合(ステップS604肯定)
は、分割処理を終了してリターンする。一方、読み込ん
だ一文字が終端記号でない場合(ステップS604否
定)は、ステップS605へ移行する。
【0075】ステップS605において、ステップS6
03で読み込んだ文字が改行記号であるかどうかを判断
する。ここで、読み込んだ文字が改行記号である場合
(ステップS605肯定)は、ステップS606へ移行
し、一方、読み込んだ文字が改行記号でない場合(ステ
ップS605否定)は、ステップS608へ移行する。
【0076】つぎに、ステップS606において、図3
に示した分割テーブル202の番号の項目に現在のiの
値を登録し、かつ、長さの項目に現在のjの値を登録す
る。さらに、ステップS607において、iを一つイン
クリメントした後、ステップS602へ移行し、以後、
ステップS602〜S607の処理を繰り返しおこな
う。
【0077】なお実際には、jの値が1のときは分割テ
ーブルには登録しない(すなわち、改行のみからなる段
落はサブ・ドキュメントとはしない)等の処理をおこな
ってもよいが、ここではその説明を省略する。
【0078】また、ステップS608においては、jを
一つインクリメントしてから、ステップS603へ移行
し、以後、ステップS603〜S608の処理を繰り返
しおこなう。
【0079】つぎに、図5に示した抽出処理(ステップ
S505)の詳細な内容について説明する。図7は実施
の形態1による文書作成装置の抽出処理の詳細な手順を
示すフローチャートである。
【0080】図6のフローチャートにおいて、まず、ス
テップS701で、現在処理中の索引となる語または語
句を示す変数iに初期値1を設定するとともに、ステッ
プS702において、現在処理中のサブ・ドキュメント
を示す変数jに初期値1を設定する。
【0081】つぎに、ステップS703において、変数
iにより示されるある語または語句が、変数jにより示
されるあるサブ・ドキュメント中に所定回数以上出現し
ているかどうかを判断する。ここで、所定回数以上出現
している場合(ステップS703肯定)は、ステップS
704へ移行し、一方、所定回数以上出現していない場
合(ステップS703否定)は、ステップS705へ移
行する。
【0082】つぎに、ステップS704において、当該
サブ・ドキュメント中の出現箇所のうちいずれかを選択
する。その後、ステップS705において、すべての出
現箇所または選択された出現箇所の出現位置情報を抽出
する。
【0083】つぎに、ステップS706において、jを
一つインクリメントする。その後、ステップS707に
おいて、jがサブ・ドキュメントの総数Jを越えたか否
かを判断する。ここで、越えた場合(ステップS707
肯定)は、ステップS708へ移行する。一方、越えて
いない場合(ステップS707否定)は、ステップS7
03へ移行し、以後、ステップS703〜S707の各
処理を繰り返しおこなう。
【0084】ステップS708において、iを一つイン
クリメントする。その後、ステップS709において、
iが語または語句の総数Iを越えたか否かを判断する。
ここで、iがIを越えた場合(ステップS709肯定)
は、抽出処理を終了してリターンする。一方、iがIを
越えていない場合(ステップS709否定)は、ステッ
プS702へ移行し、以後、ステップS702〜S70
9の各処理を繰り返す。
【0085】以上説明したように、実施の形態1によれ
ば、索引となる語または語句に対して出力されるその出
現位置情報が適正量に抑えられるため、見やすくかつ目
的箇所の発見が容易な索引を提供することが可能であ
る。
【0086】また、実施の形態1によれば、作成した索
引を一時的に出力するだけでなく、恒常的に記憶するこ
ととすれば、索引となる語または語句に対して記憶され
る出現位置情報が適正量に抑えられるため、容量が小さ
く扱いやすい索引を提供することが可能である。
【0087】(実施の形態2)さて、上述した実施の形
態1では、サブ・ドキュメントごとに索引となる語また
は語句の出現位置情報を所定数のみ抽出し、抽出した出
現位置情報に基づいて索引を作成するようにしたが、以
下に説明する実施の形態2のように、さらに、サブ・ド
キュメントごとに索引となる語または語句の出現回数を
計数し、計数した出現回数にも基づいて索引を作成する
ようにしてもよい。なお、この発明の実施の形態2によ
る文書作成装置のハードウエア構成については、図1に
示した実施の形態1と同様であるので、その説明を省略
する。
【0088】まず、この発明の実施の形態2による文書
作成装置の機能的構成について説明する。図28は実施
の形態1による文書作成装置の機能的構成を示す機能ブ
ロック図である。図8のブロック図において、入力部8
00、分割部801、分割テーブル802、抽出部80
3および記憶部806は、それぞれ図2に示した実施の
形態1の入力部200、分割部201、分割テーブル2
02、抽出部203および記憶部206と同様であるの
で詳細な説明を省略する。
【0089】計数部807は、索引となる語または語句
の各々について、各々のサブ・ドキュメント中における
出現箇所の個数を計数する。作成部804は、索引とな
る語または語句と計数部807により計数されたその出
現回数、および抽出部803により抽出されたその出現
位置情報とを対応づけて索引を作成する。
【0090】出力部805は、作成部804により作成
された索引をディスプレイにより表示、またはプリンタ
により印刷したり、あるいはネットワークを介して他の
装置に転送することができる。図9は、実施の形態2に
よる文書作成装置の索引の出力の一例を示す説明図であ
り、ディスプレイ108に表示した場合の出力例であ
る。
【0091】図9においては、出現位置の横の括弧内
に、サブ・ドキュメントごとの当該語の出現回数が表示
されている。なお、単純な出現回数でなく、当該サブ・
ドキュメント中に出現するすべての語の延べ回数で除算
した値を表示するようにしてもよい。
【0092】図10は、この発明の実施の形態2による
文書作成装置の動作について説明するフローチャートで
ある。図10のフローチャートにおいて、ステップS1
001〜S1004は実施の形態1のステップS501
〜S504と、ステップS1006は実施の形態1のス
テップS505と、およびステップS1008〜S10
11は実施の形態1のステップS507〜510と、そ
れぞれ同様であるので詳細な説明を省略する。
【0093】ステップS1005において、索引となる
語または語句の各々について、各々のサブ・ドキュメン
ト中での出現回数を計数する。そして、ステップS10
07において、当該語または語句、ステップS1005
で計数された出現回数、およびステップS1006で抽
出された出現位置情報とを対応づけて索引を作成する。
【0094】以上説明したように、実施の形態2によれ
ば、索引となる語または語句に対して出力される出現位
置情報が適正量に抑えられつつ、かつそのサブ・ドキュ
メントごとの出現回数があわせて出力されるため、見や
すくかつ目的箇所の発見が容易な索引を提供することが
可能である。
【0095】また、作成した索引を一時的に出力するだ
けでなく、恒常的に記憶することとすれば、通常は出現
位置よりも出現回数のほうが情報量が少ないため、すべ
ての出現箇所の位置を記憶するのに比べて、容量が小さ
く扱いやすい索引を提供することが可能である。
【0096】
【発明の効果】以上説明したように、請求項1の発明に
よれば、入力手段が、索引を作成する対象となる文書を
入力し、分割手段が、前記入力手段により入力された文
書を所定の長さごとのサブ・ドキュメントに分割し、抽
出手段が、前記分割手段により分割されたサブ・ドキュ
メントごとに索引となる語または語句の出現位置情報を
所定数のみ抽出し、作成手段が、前記文書における前記
抽出手段により抽出された語または語句の出現位置情報
に基づいて索引を作成し、出力手段が、前記作成手段に
より作成された索引を出力するので、索引となる語また
は語句に対して出力されるその出現位置情報が適正量に
抑えられ、これにより、操作者による閲覧に適した索引
を提供することが可能な文書作成装置が得られるという
効果を有する。
【0097】また、請求項2の発明によれば、入力手段
が、索引を作成する対象となる文書を入力し、分割手段
が、前記入力手段により入力された文書を所定の長さご
とのサブ・ドキュメントに分割し、計数手段が、前記分
割手段により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現回数を計数し、抽出手段が、
前記分割手段により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出し、作成手段が、前記文書における前記計数手段に
より計数された語または語句の出現回数および前記抽出
手段により抽出された語または語句の出現位置情報に基
づいて索引を作成し、出力手段が、前記作成手段により
作成された索引を出力するので、索引となる語または語
句に対して、そのサブ・ドキュメントごとの出現回数が
出力され、これにより、操作者による閲覧に適した索引
を提供することが可能な文書作成装置が得られるという
効果を有する。
【0098】また、請求項3の発明によれば、請求項1
または2に記載の発明において、抽出手段が、索引とな
る語または語句が前記分割手段により分割されたサブ・
ドキュメント中に出現する箇所のうち、最初のものの出
現位置情報のみを抽出するので、索引となる語または語
句に対して出力される出現位置情報を一つのサブ・ドキ
ュメントに対して一つとすることができ、これにより、
操作者による閲覧に適した索引を提供することが可能な
文書作成装置が得られるという効果を有する。
【0099】また、請求項4の発明によれば、請求項1
または2に記載の発明において、さらに、記憶手段が、
前記作成手段により作成された索引を記憶するので、索
引となる語または語句に対して記憶されるその出現位置
情報が適正量に抑えられ、これにより、すべての出現箇
所の位置を記憶する場合と比較し、容量が小さく扱いや
すい索引を提供することが可能な文書作成装置が得られ
るという効果を有する。
【0100】また、請求項5の発明によれば、入力工程
が、索引を作成する対象となる文書を入力し、分割工程
が、前記入力工程により入力された文書を所定の長さご
とのサブ・ドキュメントに分割し、抽出工程が、前記分
割工程により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現位置情報を所定数のみ抽出
し、作成工程が、前記文書における前記抽出工程により
抽出された語または語句の出現位置情報に基づいて索引
を作成し、出力工程が、前記作成工程により作成された
索引を出力するので、索引となる語または語句に対して
出力されるその出現位置情報が適正量に抑えられ、これ
により、操作者による閲覧に適した索引を提供すること
が可能な文書作成方法が得られるという効果を有する。
【0101】また、請求項6の発明によれば、入力工程
が、索引を作成する対象となる文書を入力し、分割工程
が、前記入力工程により入力された文書を所定の長さご
とのサブ・ドキュメントに分割し、計数工程が、前記分
割工程により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現回数を計数し、抽出工程が、
前記分割工程により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出し、作成工程が、前記文書における前記計数工程に
より計数された語または語句の出現回数および前記抽出
工程により抽出された語または語句の出現位置情報に基
づいて索引を作成し、出力工程が、前記作成工程により
作成された索引を出力するので、索引となる語または語
句に対して、そのサブ・ドキュメントごとの出現回数が
出力され、これにより、操作者による閲覧に適した索引
を提供することが可能な文書作成方法が得られるという
効果を有する。
【0102】また、請求項7の発明によれば、請求項5
または6に記載の発明において、前記抽出工程が、索引
となる語または語句が前記分割工程により分割されたサ
ブ・ドキュメント中に出現する箇所のうち、最初のもの
の出現位置情報のみを抽出するので、索引となる語また
は語句に対して出力される出現位置情報を一つのサブ・
ドキュメントに対して一つとすることができ、これによ
り、操作者による閲覧に適した索引を提供することが可
能な文書作成方法が得られるという効果を有する。
【0103】また、請求項8の発明によれば、請求項5
または6に記載の発明において、記憶工程が、前記作成
工程により作成された索引を記憶するので、索引となる
語または語句に対して記憶されるその出現位置情報が適
正量に抑えられ、これによって、すべての出現箇所の位
置を記憶する場合と比較し、容量が小さく扱いやすい索
引を提供することが可能な文書作成方法が得られるとい
う効果を有する。
【0104】また、請求項9の発明に係る記録媒体は、
請求項5〜8に記載された方法をコンピュータに実行さ
せるプログラムを記録したため、これによって、請求項
5〜8の処理をコンピュータに実行させることが可能と
なるという効果を有する。
【図面の簡単な説明】
【図1】この発明の実施の形態1による文書作成装置の
ハードウエア構成を示すブロック図である。
【図2】実施の形態1による文書作成装置の構成を機能
的に示すブロック図である。
【図3】実施の形態1による文書作成装置の分割部の分
割テーブルの一例である。
【図4】実施の形態1による文書作成装置の索引の出力
の一例である。
【図5】実施の形態1による文書作成装置の動作の手順
を示すフローチャートである。
【図6】実施の形態1による文書作成装置の分割処理の
手順を示すフローチャートである。
【図7】実施の形態1による文書作成装置の抽出処理の
手順を示すフローチャートである。
【図8】この発明の実施の形態2による文書作成装置の
構成を機能的に示すブロック図である。
【図9】実施の形態2による文書作成装置の索引の出力
の一例である。
【図10】実施の形態2による文書作成装置の動作の手
順を示すフローチャートである。
【符号の説明】
100 バス 101 CPU 102 ROM 103 RAM 104 HDD 105 HD 106 FDD 107 FD 108 ディスプレイ 109 I/F 110 通信回線 111 キーボード 112 マウス 113 スキャナ 114 プリンタ 115 CD−ROM 116 CD−ROMドライブ 200,800 入力部 201,801 分割部 202,802 分割テーブル 203,803 抽出部 204,804 作成部 205,805 出力部 206,806 記憶部 807 計数部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 索引を作成する対象となる文書を入力す
    る入力手段と、 前記入力手段により入力された文書を所定の長さごとの
    サブ・ドキュメントに分割する分割手段と、 前記分割手段により分割されたサブ・ドキュメントごと
    に索引となる語または語句の出現位置情報を所定数のみ
    抽出する抽出手段と、 前記文書における前記抽出手段により抽出された語また
    は語句の出現位置情報に基づいて索引を作成する作成手
    段と、 前記作成手段により作成された索引を出力する出力手段
    と、 を備えたことを特徴とする文書作成装置。
  2. 【請求項2】 索引を作成する対象となる文書を入力す
    る入力手段と、 前記入力手段により入力された文書を所定の長さごとの
    サブ・ドキュメントに分割する分割手段と、 前記分割手段により分割されたサブ・ドキュメントごと
    に索引となる語または語句の出現回数を計数する計数手
    段と、 前記分割手段により分割されたサブ・ドキュメントごと
    に索引となる語または語句の出現位置情報を所定数のみ
    抽出する抽出手段と、 前記文書における前記計数手段により計数された語また
    は語句の出現回数および前記抽出手段により抽出された
    語または語句の出現位置情報に基づいて索引を作成する
    作成手段と、 前記作成手段により作成された索引を出力する出力手段
    と、 を備えたことを特徴とする文書作成装置。
  3. 【請求項3】 前記抽出手段は、索引となる語または語
    句が前記分割手段により分割されたサブ・ドキュメント
    中に出現する箇所のうち、最初のものの出現位置情報の
    みを抽出することを特徴とする請求項1または2に記載
    の文書作成装置。
  4. 【請求項4】 さらに、前記作成手段により作成された
    索引を記憶する記憶手段を設けたことを特徴とする請求
    項1または2に記載の文書作成装置。
  5. 【請求項5】 索引を作成する対象となる文書を入力す
    る入力工程と、 前記入力工程により入力された文書を所定の長さごとの
    サブ・ドキュメントに分割する分割工程と、 前記分割工程により分割されたサブ・ドキュメントごと
    に索引となる語または語句の出現位置情報を所定数のみ
    抽出する抽出工程と、 前記文書における前記抽出工程により抽出された語また
    は語句の出現位置情報に基づいて索引を作成する作成工
    程と、 前記作成工程により作成された索引を出力する出力工程
    と、 を含んだことを特徴とする文書作成装置。
  6. 【請求項6】 索引を作成する対象となる文書を入力す
    る入力工程と、 前記入力工程により入力された文書を所定の長さごとの
    サブ・ドキュメントに分割する分割工程と、 前記分割工程により分割されたサブ・ドキュメントごと
    に索引となる語または語句の出現回数を計数する計数工
    程と、 前記分割工程により分割されたサブ・ドキュメントごと
    に索引となる語または語句の出現位置情報を所定数のみ
    抽出する抽出工程と、 前記文書における前記計数工程により計数された語また
    は語句の出現回数および前記抽出工程により抽出された
    語または語句の出現位置情報に基づいて索引を作成する
    作成工程と、 前記作成工程により作成された索引を出力する出力工程
    と、 を含んだことを特徴とする文書作成方法。
  7. 【請求項7】 前記抽出工程は、索引となる語または語
    句が前記分割工程により分割されたサブ・ドキュメント
    中に出現する箇所のうち、最初のものの出現位置情報の
    みを抽出することを特徴とする請求項5または6に記載
    の文書作成方法。
  8. 【請求項8】 さらに、前記作成工程により作成された
    索引を記憶する記憶工程を含んだことを特徴とする請求
    項5または6に記載の文書作成方法。
  9. 【請求項9】 前記請求項5〜8のいずれか一つに記載
    された方法をコンピュータに実行させるプログラムを記
    録したことを特徴とするコンピュータ読み取り可能な記
    録媒体。
JP11093750A 1999-03-31 1999-03-31 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JP2000285116A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11093750A JP2000285116A (ja) 1999-03-31 1999-03-31 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11093750A JP2000285116A (ja) 1999-03-31 1999-03-31 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2000285116A true JP2000285116A (ja) 2000-10-13
JP2000285116A5 JP2000285116A5 (ja) 2006-06-08

Family

ID=14091114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11093750A Pending JP2000285116A (ja) 1999-03-31 1999-03-31 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2000285116A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117407A (ja) * 2000-12-29 2008-05-22 Internatl Business Mach Corp <Ibm> 有損失インデックス圧縮装置
JP2010262379A (ja) * 2009-04-30 2010-11-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117407A (ja) * 2000-12-29 2008-05-22 Internatl Business Mach Corp <Ibm> 有損失インデックス圧縮装置
JP2010262379A (ja) * 2009-04-30 2010-11-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
US11790029B2 (en) System and method for converting the digital typesetting documents used in publishing to a device-specific format for electronic publishing
JP2862626B2 (ja) 電子辞書及び情報検索方法
US20030163790A1 (en) Solution data edit processing apparatus and method, and automatic summarization processing apparatus and method
JP4640591B2 (ja) 文書検索装置
JPH0877155A (ja) 情報処理装置及び情報処理方法
JP2000090119A (ja) 文書閲覧支援方法、記憶媒体及び文書閲覧支援システム
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
KR101423254B1 (ko) 도서의 목차 암기를 위한 이미지 목차 편집 시스템
JP4067603B2 (ja) 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP4719921B2 (ja) データ表示装置およびデータ表示プログラム
JP2000285116A (ja) 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4106470B2 (ja) 解データ編集処理装置および処理方法
JP3308153B2 (ja) マルチメディア情報高次元化表示システム
JP4030624B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP4025391B2 (ja) 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP4187213B2 (ja) 自動要約処理装置および自動要約処理方法
KR100885527B1 (ko) 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법
JP4452527B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JPH11149486A (ja) 電子辞書、検索装置及び情報検索方法
JP2928515B2 (ja) 訳語出力装置
JPS60254367A (ja) 文章分析装置
JPH0612548B2 (ja) 文書処理装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080421

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080603