JP2000285116A - 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体Info
- Publication number
- JP2000285116A JP2000285116A JP11093750A JP9375099A JP2000285116A JP 2000285116 A JP2000285116 A JP 2000285116A JP 11093750 A JP11093750 A JP 11093750A JP 9375099 A JP9375099 A JP 9375099A JP 2000285116 A JP2000285116 A JP 2000285116A
- Authority
- JP
- Japan
- Prior art keywords
- document
- index
- sub
- word
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
その出現位置情報を適正量に抑えることにより、操作者
による閲覧に適した索引を提供することを目的とする。 【解決手段】 索引を作成する対象となる文書を入力す
る入力部200と、入力部200により入力された文書
を所定の長さごとのサブ・ドキュメントに分割する分割
部201と、分割部201により分割されたサブ・ドキ
ュメントごとに索引となる語または語句の出現位置情報
を所定数のみ抽出する抽出部203と、抽出部203に
より抽出された語または語句の出現位置情報に基づいて
索引を作成する作成部204と、作成部204により作
成された索引を出力する出力部205と、を備える。
Description
語句に基づいて索引を自動作成する文書作成装置、文書
作成方法、およびその方法をコンピュータに実行させる
プログラムを記録したコンピュータ読み取り可能な記録
媒体に関する。
の作成は、人手によりおこなわれていた。すなわち、索
引作成者が文書全体を読み、文書中から索引となるべき
語を抽出し、その語の出現位置(頁番号、行番号等)を
確認することにより、文書の索引を作成していた。この
ように索引作成の作業は極めて煩雑であり、文書量が増
大することにより索引作成の作業量が膨大となるため、
その索引作成作業をコンピュータにより自動、あるいは
半自動化する技術が提案されている。
形態素解析等の自然言語解析をおこなうことにより単語
や語句を切り出し、切り出された単語や語句の中からあ
らかじめ用意された索引語辞書や不要語辞書をもちいて
索引の対象となる語を選別し、それら索引の対象となる
語についてその出現箇所を個別にリストアップしてゆく
というものであった。
術においては、たとえば文書中に特定の語が大量に出現
している場合に、その語に対応づけて索引に収録される
出現箇所が膨大となってしまうという問題点があった。
たは印刷等されている大量の出現箇所の中から、操作者
が目的の箇所を探し出す作業は非常に煩雑になるという
問題点があった。
る場合は、その語は文書の意味内容等を端的に表す語で
はない(一般的に使用される語である)と判断し、不要
語辞書に登録することにより、索引への収録を排除する
ことも考えられる。
はあまり出現しないような語の場合は、重要語・特徴語
である可能性が高いため、索引に収録しておく必要があ
る。また、一文書内での出現傾向に特徴のある語(たと
えば、ある箇所に集中的に出現する語)も、複数の主題
を扱った文書から特定の主題を検索する際の便宜のた
め、索引には収録しておく必要があるため、上記のよう
に出現箇所が文書全体にわたっている語を不要語辞書に
登録することにより、索引への収録を排除すると、閲覧
に適した索引を作成することができないという問題点が
あった。
解決するため、索引となる語または語句に対して出力さ
れるその出現位置情報を適正量に抑え、操作者による閲
覧に適した索引を作成することが可能な文書作成装置、
文書作成方法、およびその方法をコンピュータに実行さ
せるプログラムを記録したコンピュータ読み取り可能な
記録媒体を提供することを目的とする。
目的を達成するため、請求項1の発明に係る文書作成装
置は、索引を作成する対象となる文書を入力する入力手
段と、前記入力手段により入力された文書を所定の長さ
ごとのサブ・ドキュメントに分割する分割手段と、前記
分割手段により分割されたサブ・ドキュメントごとに索
引となる語または語句の出現位置情報を所定数のみ抽出
する抽出手段と、前記文書における前記抽出手段により
抽出された語または語句の出現位置情報に基づいて索引
を作成する作成手段と、前記作成手段により作成された
索引を出力する出力手段と、を備えたことを特徴とす
る。
語または語句に対して出力されるその出現位置情報を適
正量に抑えることができる。
は、索引を作成する対象となる文書を入力する入力手段
と、前記入力手段により入力された文書を所定の長さご
とのサブ・ドキュメントに分割する分割手段と、前記分
割手段により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現回数を計数する計数手段と、
前記分割手段により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出する抽出手段と、前記文書における前記計数手段に
より計数された語または語句の出現回数および前記抽出
手段により抽出された語または語句の出現位置情報に基
づいて索引を作成する作成手段と、前記作成手段により
作成された索引を出力する出力手段と、を備えたことを
特徴とする。
語または語句に対して、そのサブ・ドキュメントごとの
出現回数を出力することができる。
は、請求項1または2に記載の発明において、前記抽出
手段が、索引となる語または語句が前記分割手段により
分割されたサブ・ドキュメント中に出現する箇所のう
ち、最初のものの出現位置情報のみを抽出することを特
徴とする。
語または語句に対して出力される出現位置情報を一つの
サブ・ドキュメントに対して一つとすることができる。
は、請求項1または2に記載の発明において、さらに、
前記作成手段により作成された索引を記憶する記憶手段
を設けたことを特徴とする。
語または語句に対して記憶されるその出現位置情報を適
正量に抑えることができる。
は、索引を作成する対象となる文書を入力する入力工程
と、前記入力工程により入力された文書を所定の長さご
とのサブ・ドキュメントに分割する分割工程と、前記分
割工程により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現位置情報を所定数のみ抽出す
る抽出工程と、前記文書における前記抽出工程により抽
出された語または語句の出現位置情報に基づいて索引を
作成する作成工程と、前記作成工程により作成された索
引を出力する出力工程と、を含むことを特徴とする。
語または語句に対して出力されるその出現位置情報を適
正量に抑えることができる。
は、索引を作成する対象となる文書を入力する入力工程
と、前記入力工程により入力された文書を所定の長さご
とのサブ・ドキュメントに分割する分割工程と、前記分
割工程により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現回数を計数する計数工程と、
前記分割工程により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出する抽出工程と、前記文書における前記計数工程に
より計数された語または語句の出現回数および前記抽出
工程により抽出された語または語句の出現位置情報に基
づいて索引を作成する作成工程と、前記作成工程により
作成された索引を出力する出力工程と、を含むことを特
徴とする。
語または語句に対して、そのサブ・ドキュメントごとの
出現回数を出力することができる。
は、請求項5または6に記載の発明において、前記抽出
工程が、索引となる語または語句が前記分割工程により
分割されたサブ・ドキュメント中に出現する箇所のう
ち、最初のものの出現位置情報のみを抽出することを特
徴とする。
語または語句に対して出力されるその出現位置情報を一
つのサブ・ドキュメントに対して一つとすることができ
る。
は、請求項5または6に記載の発明において、さらに、
前記作成工程により作成された索引を記憶する記憶工程
を含むことを特徴とする。
語または語句に対して記憶されるその出現位置情報を適
正量に抑えることができる。
請求項5〜8に記載された方法をコンピュータに実行さ
せるプログラムを記録したため、これによって、請求項
5〜8の処理をコンピュータに実行させることが可能と
なる。
発明に係る文書作成装置、文書作成方法、およびその方
法をコンピュータに実行させるプログラムを記録したコ
ンピュータ読み取り可能な記録媒体の好適な実施の形態
を詳細に説明する。
形態1による文書作成装置のハードウエア構成について
説明する。図1は本実施の形態による文書作成装置のハ
ードウエア構成を示すブロック図である。
テム全体を制御するCPUを、102はブートプログラ
ム等を記憶したROMを、103はCPU101のワー
クエリアとして使用されるRAMを、104はCPU1
01の制御にしたがってHD(ハードディスク)105
に対するデータのリード/ライトを制御するHDD(ハ
ードディスク・ドライブ)を、105はHDD104の
制御で書き込まれたデータを記憶するHDを、それぞれ
示している。
がってFD(フロッピーディスク)207に対するデー
タのリード/ライトを制御するFDD(フロッピーディ
スク・ドライブ)を、107はFDD106の制御で書
き込まれたデータを記憶する着脱自在の記憶媒体である
FDを、108は、文書、画像、機能情報等のデータに
関するウインドウを表示するディスプレイを、それぞれ
示している。
ットワークNETに接続され、そのネットワークNET
と内部のインターフェイスを司るインターフェイス(I
/F)を、111は文字、数値、各種指示等の入力のた
めのキーを備えたキーボードを、112はカーソルの移
動や範囲選択、あるいはウインドウの移動やサイズの変
更等をおこなうマウスを、それぞれ示している。
キャナを、114はウインドウに表示された内容等を印
刷するプリンタを、115は、着脱可能な記録媒体であ
るCD−ROMを、116は、CD−ROM115に対
するデータのリードを制御するCD−ROMドライブ
を、それぞれ示している。また、各部はバス100によ
り接続されている。
書作成装置の機能的構成について説明する。図2は実施
の形態1による文書作成装置の機能的構成を示す機能ブ
ロック図である。図2のブロック図において、文書作成
装置は、入力部200と、分割部201と、抽出部20
3と、作成部204と、出力部205と、記憶部206
とを含む構成である。また、分割部201は、分割テー
ブル202を備えている。
書を入力する。ここで、文書の入力はキーボード111
をもちいておこなってもよく、また、文書画像をスキャ
ナ113により読み取り、OCR機能によりテキスト化
したものであってもよく、あるいは文書データをネット
ワークNET経由でI/F109を介して他の情報処理
装置から受信するものであってもよい。
たは形式的特徴に基づいて、複数のサブ・ドキュメント
に分割する。ここで、サブ・ドキュメントとは一文書を
構成する複数の部分を意味する。
分割点としては、たとえば、所定文字数、所定行数、所
定分数を一つのサブ・ドキュメントとしてもよく、ま
た、改行や字下げ、開始タグと終了タグ等文書の形式的
な特徴に基づいて切り出された、章・節・段落等の区切
れを一つのサブ・ドキュメントとしてもよい。さらに
は、文書の意味内容を解析して主題の変化点を求め、そ
の変化点を分割点として採用するようにしてもよい。
に設定・変更できるようにしてもよい。その際、表示画
面上に表示させた文書中の所望箇所をマウス112等を
もちいて指定することにより、分割点の設定・変更をす
るようにしてもよい。
り分割されたサブ・ドキュメントの番号とその範囲とを
対応づけたテーブルである。図3は実施の形態1による
文書作成装置の分割部201の分割テーブル202の一
例を示す説明図である。
ブ・ドキュメントの番号とそのサブ・ドキュメントの範
囲をその長さ、すなわち、サブ・ドキュメントを構成す
る文字の数によって表現している。ただし、文書テーブ
ル202に格納する情報は、上記の内容に限定されるこ
とはなく、たとえばサブ・ドキュメントの開始文字およ
び終了文字が文書の先頭文字から何番目の文字であるか
によって表現するようにしてもよい。
の各々について、各々のサブ・ドキュメント中での出現
回数が所定回数未満のときは、当該サブ・ドキュメント
中でのすべての出現箇所、所定回数以上のときは、その
いずれかの出現箇所を選択して、それぞれ出現位置情報
を抽出する。
ト中に二箇所以上出現する場合、そのうち最初に出現す
る箇所(初出箇所)の出現位置情報のみを抽出する。ま
た、三箇所以上出現する場合、何らかの手法によりサブ
・ドキュメント中の各文の重要度を判定し、注目する語
を含むもののうち重要度の高い文から順に二箇所選択し
て出現位置情報を抽出する。また、一定値以上の重要度
を持つ文での出現箇所のみを選択して、その出現位置情
報を抽出する等が考えられる。
択するかを、操作者が任意に設定できるようにしてもよ
い。また出現箇所を一覧表示して、いずれを選択するか
を操作者に指示させるようにしてもよい。
情報とは、当該出現箇所の当該文書中での位置を表す情
報である。これはたとえば、サブ・ドキュメント番号と
当該サブ・ドキュメントの先頭文字からの文字数、頁数
と行数、章・節の見出しと段落番号(第何段落目か)、
等により表現される。
じめ用意された索引語辞書や不要語辞書等により決定し
てもよい。すなわち、索引作成対象の文書中から形態素
解析等により切り出された候補語または語句のうち、索
引語辞書に登録されているもの、あるいは不要語辞書に
登録されていないものを索引の見出し語とすることがで
きる。
質に沿った索引が作成できない可能性もあるので、切り
出された候補語の対象文書中での重要度を評価して、そ
の評価値が一定のしきい値を越えたもののみを索引の見
出し語として採用するようにしてもよい。
中でのその語の出現回数が考えられるが、同義語や類義
語、または部分一致する語等の出現回数を0.5回等と
してその語の出現回数に加算するなどの応用も考えられ
る(たとえば特開平8−221448号公報参照)。
書中での出現頻度と比較して、その文書中での出現頻度
が特に高い語の評価値を高くするようにしてもよい。ま
た、出現回数でなくその対数値をもちいるようにしても
よい。また、上記手法のいずれをもちいるかをチェック
ボックス等により操作者が任意に選択できるようにして
もよい。
と抽出部203により抽出された索引となる語または語
句の出現位置情報とを対応づけることにより索引を作成
する。また、出力部205は、作成部204により作成
された索引をディスプレイ108により表示する。図4
は、実施の形態1による文書作成装置の索引の出力の一
例を示す説明図である。
並べて表示している。すなわち、「コンピュータ」、
「半導体」、「プロトコル」という辞書順に並べて表示
されているのがわかる。ここで表示方法としては、出現
頻度順としたり、その語と関連の強い語(同義語や類義
語、共起語等)をそのすぐ下に付帯的に表示したり(具
体的には字下げを施したりすることができる。
るいはディレクトリ構成の表示に広く利用されている階
層表示(例:Windows95のエクスプローラ)を
応用する等して)してもよい。また、表示方法について
操作者が任意に切り替えられるようにするとさらによ
い。
る語の出現位置であるが、部分一致する語の出現位置
も、文字の種類や大きさを変える等してあわせて表示す
るようにしてもよい。
位置とを表示するのではなく、操作者により指定された
一または複数のサブ・ドキュメント中に出現する語、お
よび当該サブ・ドキュメント中での出現位置のみを表示
するようにしてもよい。通常、そこに出現する語はそこ
で記述されている内容を端的に表現しているため、サブ
・ドキュメントごとの索引を表示することで、文書の各
部分の主題の概略的な把握が可能となる。
えばマウスクリックにより明示的におこなうことのほ
か、特段の指定を要さず、画面表示されているサブ・ド
キュメントを指定されたサブ・ドキュメントとみなすよ
うにしてもよい。
値)を表示し、操作者が任意に変更できるようにしても
よく、あるいは評価値としきい値との大小にかかわら
ず、絶対的にその語を索引の見出し語として採用または
不採用とすることを操作者が任意に指定できるようにし
てもよい。
値をスライドバー等で視覚的に表現し、見出し語の分量
がどの程度になるかを確認しながら操作者がしきい値を
任意に変更できるようにしてもよい。
位置をマウスクリックすることにより、ウインドウを分
割しまたは別個のウインドウを開いて、当該出現箇所の
近傍の原文を表示するとともに当該語を反転表示するよ
うにしてもよい。索引のウインドウで別の語または出現
位置が指定されたときは、それと連動して、その語また
は出現位置を含む箇所が原文のウインドウに表示される
よう制御する。
内容を記憶しておき、随時同じ状態を再現できるように
してもよい。なお出現位置として部分一致する語の出現
位置も表示しているときは、反転表示の色を変える等し
て区別するようにしてもよい。
句の原文中での出現箇所を前から、あるいは後ろから順
次移動できるようにしてもよい。この場合、操作者によ
っては、出現位置近傍の原文が順次参照できさえすれば
とくにその出現位置がどこであるかを正確に知る必要は
ないと考えることもあるので、索引表示時に索引となる
語または語句のみを表示しその出現位置情報は表示しな
いという設定ができるようにしてもよい。
ときにおこなうほか、索引作成対象となった文書が送信
されるときに、自動的に索引を添付するようにしてもよ
い。その際、送信の相手方によって、索引を添付するか
否かを変更するようにしてもよく、たとえば送信する文
書があらかじめ通知された送信先の興味・関心等に適合
するときは索引を添付する、過去に索引不要の旨を通知
してきた送信先に対しては索引を添付しない、等とする
ことが考えられる。
ディスプレイ108に表示する代わりにまたは表示する
とともに、作成された索引をプリンタ114により印刷
したり、あるいはネットワークNETを経由して他の情
報処理装置に送信するようにしてもよい。また、記憶部
206は、作成部204により作成された索引を記憶す
る。
語句を定義してしている箇所はイタリクスで表示するよ
うにしてもよい。語句を定義している箇所とは、「・・
とは、・・するものである」とうの簡単な構文テンプレ
ートをあらかじめ用意し、そのテンプレートにマッチン
グするか否かで判別するようするとよい。
た場合に、警告を表示し、本文中の後方参照の表現を挿
入する。ここで、後方参照の表現とは、たとえば、「こ
の概念の説明は第2章第3節22頁第4段落を参照」等
である。
部203、作成部204、出力部205および記憶部2
06は、それぞれROM102、RAM103またはハ
ードディスク105、フロッピーディスク107、CD
−ROM115等の記録媒体に記録されたプログラムに
記載された命令にしたがってCPU101等が命令処理
を実行することにより、各部の機能を実現するものであ
る。
の動作について説明する。図5は本実施の形態による文
書作成装置の動作の手順を示すフローチャートである。
図5のフローチャートにおいて、まず、ステップS50
1において操作者からの指示を待ち、指示があった場合
(ステップS501肯定)は、つぎにステップS502
においてそれが索引を作成すべき旨の指示であるかどう
かを判断する(ステップS502)。
べき旨の指示である場合(ステップS502肯定)は、
ステップS503へ移行し、索引を作成すべき旨の指示
でない場合(ステップS502否定)は、ステップS5
07へ移行する。
象となる文書を入力する。なお、ステップS502とス
テップS503の順序は問わず、逆であってもよい。ま
た文書の入力が、索引作成の指示を兼ねる(すなわち、
文書入力と同時に自動的に索引を作成する)こととして
もよい。
文書を複数のサブ・ドキュメントに分割する。なお、ス
テップS504における分割処理の詳細な内容について
は後述する。
となる語または語句についてその出現位置情報を抽出す
る。なお、ステップS505における抽出処理の詳細な
内容についても後述する。
となる語または語句とステップS505において抽出さ
れたその出現位置情報とを対応づけて索引を作成する。
された指示が索引を出力すべき旨の指示であるかどうか
を判断する。ここで、索引を出力すべき旨の指示である
場合(ステップS507肯定)は、ステップS508に
おいて、ステップS506で作成した索引の内容を出力
し、その後、ステップS509へ移行する。
出力すべき旨の指示でない場合(ステップS507否
定)は、ステップS509において、入力された指示が
索引を記憶すべき旨の指示であるかどうかを判断する。
ここで、索引を記憶すべき旨の指示である場合(ステッ
プS509肯定)は、ステップS510において、ステ
ップS506で作成された索引の内容を記憶部206に
記憶し、索引を記憶すべき旨の指示でない場合(ステッ
プS509否定)は、何もせずに処理を終了する。
S504)の詳細な内容について説明する。図6は実施
の形態1による文書作成装置の分割処理の詳細な手順を
示すフローチャートである。ここでは、分割の一例とし
て、一段落を一つのサブ・ドキュメントとする例をもち
いて説明する。
テップS601で、現在分割中、すなわち、現在その範
囲を調査中のサブ・ドキュメントを示す変数iに初期値
1を設定するとともに、ステップS602で、現在読み
込み中の文字が現在分割中のサブ・ドキュメントの先頭
文字から何文字目であるかを示す変数jに初期値1を設
定する。
中から変数iと変数jにより示される一文字を読み込
む。そして、ステップS604において、読み込んだ一
文字が文書の終端を示す特殊記号であるかどうかを判定
する(ステップS604)。
文字が終端記号である場合(ステップS604肯定)
は、分割処理を終了してリターンする。一方、読み込ん
だ一文字が終端記号でない場合(ステップS604否
定)は、ステップS605へ移行する。
03で読み込んだ文字が改行記号であるかどうかを判断
する。ここで、読み込んだ文字が改行記号である場合
(ステップS605肯定)は、ステップS606へ移行
し、一方、読み込んだ文字が改行記号でない場合(ステ
ップS605否定)は、ステップS608へ移行する。
に示した分割テーブル202の番号の項目に現在のiの
値を登録し、かつ、長さの項目に現在のjの値を登録す
る。さらに、ステップS607において、iを一つイン
クリメントした後、ステップS602へ移行し、以後、
ステップS602〜S607の処理を繰り返しおこな
う。
ーブルには登録しない(すなわち、改行のみからなる段
落はサブ・ドキュメントとはしない)等の処理をおこな
ってもよいが、ここではその説明を省略する。
一つインクリメントしてから、ステップS603へ移行
し、以後、ステップS603〜S608の処理を繰り返
しおこなう。
S505)の詳細な内容について説明する。図7は実施
の形態1による文書作成装置の抽出処理の詳細な手順を
示すフローチャートである。
テップS701で、現在処理中の索引となる語または語
句を示す変数iに初期値1を設定するとともに、ステッ
プS702において、現在処理中のサブ・ドキュメント
を示す変数jに初期値1を設定する。
iにより示されるある語または語句が、変数jにより示
されるあるサブ・ドキュメント中に所定回数以上出現し
ているかどうかを判断する。ここで、所定回数以上出現
している場合(ステップS703肯定)は、ステップS
704へ移行し、一方、所定回数以上出現していない場
合(ステップS703否定)は、ステップS705へ移
行する。
サブ・ドキュメント中の出現箇所のうちいずれかを選択
する。その後、ステップS705において、すべての出
現箇所または選択された出現箇所の出現位置情報を抽出
する。
一つインクリメントする。その後、ステップS707に
おいて、jがサブ・ドキュメントの総数Jを越えたか否
かを判断する。ここで、越えた場合(ステップS707
肯定)は、ステップS708へ移行する。一方、越えて
いない場合(ステップS707否定)は、ステップS7
03へ移行し、以後、ステップS703〜S707の各
処理を繰り返しおこなう。
クリメントする。その後、ステップS709において、
iが語または語句の総数Iを越えたか否かを判断する。
ここで、iがIを越えた場合(ステップS709肯定)
は、抽出処理を終了してリターンする。一方、iがIを
越えていない場合(ステップS709否定)は、ステッ
プS702へ移行し、以後、ステップS702〜S70
9の各処理を繰り返す。
ば、索引となる語または語句に対して出力されるその出
現位置情報が適正量に抑えられるため、見やすくかつ目
的箇所の発見が容易な索引を提供することが可能であ
る。
引を一時的に出力するだけでなく、恒常的に記憶するこ
ととすれば、索引となる語または語句に対して記憶され
る出現位置情報が適正量に抑えられるため、容量が小さ
く扱いやすい索引を提供することが可能である。
態1では、サブ・ドキュメントごとに索引となる語また
は語句の出現位置情報を所定数のみ抽出し、抽出した出
現位置情報に基づいて索引を作成するようにしたが、以
下に説明する実施の形態2のように、さらに、サブ・ド
キュメントごとに索引となる語または語句の出現回数を
計数し、計数した出現回数にも基づいて索引を作成する
ようにしてもよい。なお、この発明の実施の形態2によ
る文書作成装置のハードウエア構成については、図1に
示した実施の形態1と同様であるので、その説明を省略
する。
作成装置の機能的構成について説明する。図28は実施
の形態1による文書作成装置の機能的構成を示す機能ブ
ロック図である。図8のブロック図において、入力部8
00、分割部801、分割テーブル802、抽出部80
3および記憶部806は、それぞれ図2に示した実施の
形態1の入力部200、分割部201、分割テーブル2
02、抽出部203および記憶部206と同様であるの
で詳細な説明を省略する。
の各々について、各々のサブ・ドキュメント中における
出現箇所の個数を計数する。作成部804は、索引とな
る語または語句と計数部807により計数されたその出
現回数、および抽出部803により抽出されたその出現
位置情報とを対応づけて索引を作成する。
された索引をディスプレイにより表示、またはプリンタ
により印刷したり、あるいはネットワークを介して他の
装置に転送することができる。図9は、実施の形態2に
よる文書作成装置の索引の出力の一例を示す説明図であ
り、ディスプレイ108に表示した場合の出力例であ
る。
に、サブ・ドキュメントごとの当該語の出現回数が表示
されている。なお、単純な出現回数でなく、当該サブ・
ドキュメント中に出現するすべての語の延べ回数で除算
した値を表示するようにしてもよい。
文書作成装置の動作について説明するフローチャートで
ある。図10のフローチャートにおいて、ステップS1
001〜S1004は実施の形態1のステップS501
〜S504と、ステップS1006は実施の形態1のス
テップS505と、およびステップS1008〜S10
11は実施の形態1のステップS507〜510と、そ
れぞれ同様であるので詳細な説明を省略する。
語または語句の各々について、各々のサブ・ドキュメン
ト中での出現回数を計数する。そして、ステップS10
07において、当該語または語句、ステップS1005
で計数された出現回数、およびステップS1006で抽
出された出現位置情報とを対応づけて索引を作成する。
ば、索引となる語または語句に対して出力される出現位
置情報が適正量に抑えられつつ、かつそのサブ・ドキュ
メントごとの出現回数があわせて出力されるため、見や
すくかつ目的箇所の発見が容易な索引を提供することが
可能である。
けでなく、恒常的に記憶することとすれば、通常は出現
位置よりも出現回数のほうが情報量が少ないため、すべ
ての出現箇所の位置を記憶するのに比べて、容量が小さ
く扱いやすい索引を提供することが可能である。
よれば、入力手段が、索引を作成する対象となる文書を
入力し、分割手段が、前記入力手段により入力された文
書を所定の長さごとのサブ・ドキュメントに分割し、抽
出手段が、前記分割手段により分割されたサブ・ドキュ
メントごとに索引となる語または語句の出現位置情報を
所定数のみ抽出し、作成手段が、前記文書における前記
抽出手段により抽出された語または語句の出現位置情報
に基づいて索引を作成し、出力手段が、前記作成手段に
より作成された索引を出力するので、索引となる語また
は語句に対して出力されるその出現位置情報が適正量に
抑えられ、これにより、操作者による閲覧に適した索引
を提供することが可能な文書作成装置が得られるという
効果を有する。
が、索引を作成する対象となる文書を入力し、分割手段
が、前記入力手段により入力された文書を所定の長さご
とのサブ・ドキュメントに分割し、計数手段が、前記分
割手段により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現回数を計数し、抽出手段が、
前記分割手段により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出し、作成手段が、前記文書における前記計数手段に
より計数された語または語句の出現回数および前記抽出
手段により抽出された語または語句の出現位置情報に基
づいて索引を作成し、出力手段が、前記作成手段により
作成された索引を出力するので、索引となる語または語
句に対して、そのサブ・ドキュメントごとの出現回数が
出力され、これにより、操作者による閲覧に適した索引
を提供することが可能な文書作成装置が得られるという
効果を有する。
または2に記載の発明において、抽出手段が、索引とな
る語または語句が前記分割手段により分割されたサブ・
ドキュメント中に出現する箇所のうち、最初のものの出
現位置情報のみを抽出するので、索引となる語または語
句に対して出力される出現位置情報を一つのサブ・ドキ
ュメントに対して一つとすることができ、これにより、
操作者による閲覧に適した索引を提供することが可能な
文書作成装置が得られるという効果を有する。
または2に記載の発明において、さらに、記憶手段が、
前記作成手段により作成された索引を記憶するので、索
引となる語または語句に対して記憶されるその出現位置
情報が適正量に抑えられ、これにより、すべての出現箇
所の位置を記憶する場合と比較し、容量が小さく扱いや
すい索引を提供することが可能な文書作成装置が得られ
るという効果を有する。
が、索引を作成する対象となる文書を入力し、分割工程
が、前記入力工程により入力された文書を所定の長さご
とのサブ・ドキュメントに分割し、抽出工程が、前記分
割工程により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現位置情報を所定数のみ抽出
し、作成工程が、前記文書における前記抽出工程により
抽出された語または語句の出現位置情報に基づいて索引
を作成し、出力工程が、前記作成工程により作成された
索引を出力するので、索引となる語または語句に対して
出力されるその出現位置情報が適正量に抑えられ、これ
により、操作者による閲覧に適した索引を提供すること
が可能な文書作成方法が得られるという効果を有する。
が、索引を作成する対象となる文書を入力し、分割工程
が、前記入力工程により入力された文書を所定の長さご
とのサブ・ドキュメントに分割し、計数工程が、前記分
割工程により分割されたサブ・ドキュメントごとに索引
となる語または語句の出現回数を計数し、抽出工程が、
前記分割工程により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出し、作成工程が、前記文書における前記計数工程に
より計数された語または語句の出現回数および前記抽出
工程により抽出された語または語句の出現位置情報に基
づいて索引を作成し、出力工程が、前記作成工程により
作成された索引を出力するので、索引となる語または語
句に対して、そのサブ・ドキュメントごとの出現回数が
出力され、これにより、操作者による閲覧に適した索引
を提供することが可能な文書作成方法が得られるという
効果を有する。
または6に記載の発明において、前記抽出工程が、索引
となる語または語句が前記分割工程により分割されたサ
ブ・ドキュメント中に出現する箇所のうち、最初のもの
の出現位置情報のみを抽出するので、索引となる語また
は語句に対して出力される出現位置情報を一つのサブ・
ドキュメントに対して一つとすることができ、これによ
り、操作者による閲覧に適した索引を提供することが可
能な文書作成方法が得られるという効果を有する。
または6に記載の発明において、記憶工程が、前記作成
工程により作成された索引を記憶するので、索引となる
語または語句に対して記憶されるその出現位置情報が適
正量に抑えられ、これによって、すべての出現箇所の位
置を記憶する場合と比較し、容量が小さく扱いやすい索
引を提供することが可能な文書作成方法が得られるとい
う効果を有する。
請求項5〜8に記載された方法をコンピュータに実行さ
せるプログラムを記録したため、これによって、請求項
5〜8の処理をコンピュータに実行させることが可能と
なるという効果を有する。
ハードウエア構成を示すブロック図である。
的に示すブロック図である。
割テーブルの一例である。
の一例である。
を示すフローチャートである。
手順を示すフローチャートである。
手順を示すフローチャートである。
構成を機能的に示すブロック図である。
の一例である。
順を示すフローチャートである。
Claims (9)
- 【請求項1】 索引を作成する対象となる文書を入力す
る入力手段と、 前記入力手段により入力された文書を所定の長さごとの
サブ・ドキュメントに分割する分割手段と、 前記分割手段により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出する抽出手段と、 前記文書における前記抽出手段により抽出された語また
は語句の出現位置情報に基づいて索引を作成する作成手
段と、 前記作成手段により作成された索引を出力する出力手段
と、 を備えたことを特徴とする文書作成装置。 - 【請求項2】 索引を作成する対象となる文書を入力す
る入力手段と、 前記入力手段により入力された文書を所定の長さごとの
サブ・ドキュメントに分割する分割手段と、 前記分割手段により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現回数を計数する計数手
段と、 前記分割手段により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出する抽出手段と、 前記文書における前記計数手段により計数された語また
は語句の出現回数および前記抽出手段により抽出された
語または語句の出現位置情報に基づいて索引を作成する
作成手段と、 前記作成手段により作成された索引を出力する出力手段
と、 を備えたことを特徴とする文書作成装置。 - 【請求項3】 前記抽出手段は、索引となる語または語
句が前記分割手段により分割されたサブ・ドキュメント
中に出現する箇所のうち、最初のものの出現位置情報の
みを抽出することを特徴とする請求項1または2に記載
の文書作成装置。 - 【請求項4】 さらに、前記作成手段により作成された
索引を記憶する記憶手段を設けたことを特徴とする請求
項1または2に記載の文書作成装置。 - 【請求項5】 索引を作成する対象となる文書を入力す
る入力工程と、 前記入力工程により入力された文書を所定の長さごとの
サブ・ドキュメントに分割する分割工程と、 前記分割工程により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出する抽出工程と、 前記文書における前記抽出工程により抽出された語また
は語句の出現位置情報に基づいて索引を作成する作成工
程と、 前記作成工程により作成された索引を出力する出力工程
と、 を含んだことを特徴とする文書作成装置。 - 【請求項6】 索引を作成する対象となる文書を入力す
る入力工程と、 前記入力工程により入力された文書を所定の長さごとの
サブ・ドキュメントに分割する分割工程と、 前記分割工程により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現回数を計数する計数工
程と、 前記分割工程により分割されたサブ・ドキュメントごと
に索引となる語または語句の出現位置情報を所定数のみ
抽出する抽出工程と、 前記文書における前記計数工程により計数された語また
は語句の出現回数および前記抽出工程により抽出された
語または語句の出現位置情報に基づいて索引を作成する
作成工程と、 前記作成工程により作成された索引を出力する出力工程
と、 を含んだことを特徴とする文書作成方法。 - 【請求項7】 前記抽出工程は、索引となる語または語
句が前記分割工程により分割されたサブ・ドキュメント
中に出現する箇所のうち、最初のものの出現位置情報の
みを抽出することを特徴とする請求項5または6に記載
の文書作成方法。 - 【請求項8】 さらに、前記作成工程により作成された
索引を記憶する記憶工程を含んだことを特徴とする請求
項5または6に記載の文書作成方法。 - 【請求項9】 前記請求項5〜8のいずれか一つに記載
された方法をコンピュータに実行させるプログラムを記
録したことを特徴とするコンピュータ読み取り可能な記
録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11093750A JP2000285116A (ja) | 1999-03-31 | 1999-03-31 | 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11093750A JP2000285116A (ja) | 1999-03-31 | 1999-03-31 | 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000285116A true JP2000285116A (ja) | 2000-10-13 |
JP2000285116A5 JP2000285116A5 (ja) | 2006-06-08 |
Family
ID=14091114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11093750A Pending JP2000285116A (ja) | 1999-03-31 | 1999-03-31 | 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000285116A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008117407A (ja) * | 2000-12-29 | 2008-05-22 | Internatl Business Mach Corp <Ibm> | 有損失インデックス圧縮装置 |
JP2010262379A (ja) * | 2009-04-30 | 2010-11-18 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
-
1999
- 1999-03-31 JP JP11093750A patent/JP2000285116A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008117407A (ja) * | 2000-12-29 | 2008-05-22 | Internatl Business Mach Corp <Ibm> | 有損失インデックス圧縮装置 |
JP2010262379A (ja) * | 2009-04-30 | 2010-11-18 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790029B2 (en) | System and method for converting the digital typesetting documents used in publishing to a device-specific format for electronic publishing | |
JP2862626B2 (ja) | 電子辞書及び情報検索方法 | |
US20030163790A1 (en) | Solution data edit processing apparatus and method, and automatic summarization processing apparatus and method | |
JP4640591B2 (ja) | 文書検索装置 | |
JPH0877155A (ja) | 情報処理装置及び情報処理方法 | |
JP2000090119A (ja) | 文書閲覧支援方法、記憶媒体及び文書閲覧支援システム | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
KR101423254B1 (ko) | 도서의 목차 암기를 위한 이미지 목차 편집 시스템 | |
JP4067603B2 (ja) | 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
JP4719921B2 (ja) | データ表示装置およびデータ表示プログラム | |
JP2000285116A (ja) | 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4106470B2 (ja) | 解データ編集処理装置および処理方法 | |
JP3308153B2 (ja) | マルチメディア情報高次元化表示システム | |
JP4030624B2 (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 | |
JP4025391B2 (ja) | 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法 | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP4187213B2 (ja) | 自動要約処理装置および自動要約処理方法 | |
KR100885527B1 (ko) | 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법 | |
JP4452527B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JPH11149486A (ja) | 電子辞書、検索装置及び情報検索方法 | |
JP2928515B2 (ja) | 訳語出力装置 | |
JPS60254367A (ja) | 文章分析装置 | |
JPH0612548B2 (ja) | 文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060327 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080421 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080603 |