JP2003016052A - テキスト整形装置 - Google Patents

テキスト整形装置

Info

Publication number
JP2003016052A
JP2003016052A JP2001198570A JP2001198570A JP2003016052A JP 2003016052 A JP2003016052 A JP 2003016052A JP 2001198570 A JP2001198570 A JP 2001198570A JP 2001198570 A JP2001198570 A JP 2001198570A JP 2003016052 A JP2003016052 A JP 2003016052A
Authority
JP
Japan
Prior art keywords
text
pattern
phrase
paragraph
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001198570A
Other languages
English (en)
Inventor
Akio Yamashita
明男 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2001198570A priority Critical patent/JP2003016052A/ja
Publication of JP2003016052A publication Critical patent/JP2003016052A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 例えば改行を含まないテキスト中に改行を追
加して複数の段落に分けるテキスト整形装置を提供す
る。 【解決手段】 テキスト整形部2では、段落開始パター
ン語句特定条件記憶手段が段落の開始パターンに相当す
る語句を特定する段落開始パターン語句特定条件を記憶
し、改行追加手段が、段落開始パターン語句特定条件記
憶手段に記憶された段落開始パターン語句特定条件に基
づいて段落の開始パターンに相当する語句をテキスト中
で検出し、検出した語句の直前の位置に改行を追加す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストを整形す
るテキスト整形装置などに関し、特に、改行コードを含
まないテキスト中の文章を適切な単位のテキストブロッ
クから成る複数の段落に分割する技術や、表示上の1行
毎に改行コードが含まれるテキスト中の文章の段落を適
切な単位のテキストブロックから成る段落に調整する技
術に関する。
【0002】
【従来の技術】例えば検索エンジン用の従来のテキスト
抽出では、検索処理を簡便化するために、テキストとし
ての見た目を意識した整形処理が施されていなかった。
一例として、DocuWorksファイルから抽出され
るテキストは、改行コードが含まれない連続文字列から
構成される。全文検索を行う目的についてはこのような
テキストの仕様でも特に問題は生じないが、例えば検索
結果を全文表示するような場合には、改行の無い連続文
字列が表示されてしまってユーザにとって読みづらいと
いった不具合があり、このため、見易さという観点から
テキスト中の文章を幾つかの文字列ブロックへ変換する
ようなことが必要であると考えられる。
【0003】また、同様に、例えばDocuWorks
のテキスト選択並びにテキスト抽出のAPI(Applicat
ion Program Interface)を用いて抽出されるテキスト
には、オリジナルのアプリケーションファイルに存在し
ていた改行コードが含まれないこととなる。このため、
このようなテキストをメモ帳などのアプリケーションで
表示すると、当該テキストが改行の無い一連の文字列と
して表示されてしまい、上記と同様な不具合や上記と同
様な整形処理の必要性がある。
【0004】また、例えば米国アドービシステムズ社の
AcrobatReaderのテキスト選択を用いてP
DF(Portable Document Format)ファイルから抽出し
たテキストでは、表示上の改行位置にあたる文字の直後
に改行コードが挿入される。このようなテキストをメモ
帳などのアプリケーションで表示すると、段落とは関係
無く、単語の途中などであってもテキスト中で強制的に
改行がなされてしまう。このため、上記と同様に、ユー
ザにとって読みづらいといった不具合があり、見易さと
いう観点からテキスト中の文章を幾つかの文字列ブロッ
クへ変換するようなことが必要であると考えられる。
【0005】また、例えば光学式文字読取装置(OC
R:Optical Character Reader)では、文字などの読み
取りに関する設定として、改行コードを含まないテキス
トとして文字などを読み取るようにすることや、読み取
り対象となる文字などの紙上における各行の改行位置に
改行コードを挿入したテキストとして当該文字などを読
み取るようにすることが可能であり、このような読み取
りによっても、改行コードを含まないテキストや、表示
上の各行毎に改行コードを含んだテキストが生成され
る。
【0006】なお、改行コードを含まないテキストは、
例えば全文検索を行う場合に、改行コードを含まない分
だけデータ量が小さくなるという点や、テキストを構成
する各文字の座標を連続的に表すことが容易にできると
いう点において、有効なものである。また、表示上の各
行毎に改行コードを挿入したテキストは、例えば当該テ
キストをより大きい画面に表示出力するような場合にお
いても、改行位置を不変にすることができるという点に
おいて、テキストの利用状況に応じて有効なものであ
る。
【0007】また、以上のようなテキストに限られず、
同一のテキストを以前に処理したアプリケーションとは
異なるアプリケーションを用いて処理した場合などにお
いて、見易さという観点から改行の数が少ないテキスト
や、見易さという観点から改行の数が過剰であるテキス
トが生成されてしまうことがあり、上記と同様な不具合
が発生していた。
【0008】
【発明が解決しようとする課題】上述のように、従来の
全文検索用のテキスト抽出などでは、テキスト中に改行
が含まれないことや或いはテキスト中に過剰な改行が含
まれることなどによって、テキストがユーザにとって読
みづらくなってしまうといった不具合があり、見易さと
いう観点からテキスト中の文章を幾つかの文字列ブロッ
クへ変換するようなことが必要であった。
【0009】本発明は、このような従来の課題を解決す
るためになされたもので、例えば改行コードを含まない
テキスト中の文章を適切な単位のテキストブロックから
成る複数の段落に分割するテキスト整形装置や、例えば
表示上の1行毎に改行コードが含まれるテキスト中の文
章の段落を適切な単位のテキストブロックから成る段落
に調整するテキスト整形装置などを提供することを目的
とする。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、本発明に係るテキスト整形装置では、次のようにし
て、テキスト中に改行を追加する。すなわち、段落開始
パターン語句特定条件記憶手段が段落の開始パターン
(段落開始パターン)に相当する語句を特定する段落開
始パターン語句特定条件を記憶し、改行追加手段が段落
開始パターン語句特定条件記憶手段に記憶された段落開
始パターン語句特定条件に基づいて段落の開始パターン
に相当する語句をテキスト中で検出し、検出した語句の
直前の位置に改行を追加する。
【0011】従って、テキスト中で段落の開始パターン
に相当する語句の直前の位置に改行が追加されるため、
例えば改行コードを含まないテキスト中の文章を適切な
単位のテキストブロックから成る複数の段落に分割する
ことができ、これにより、テキストをユーザにとって見
易くすることや見易さの観点から扱い易くすることなど
ができる。
【0012】ここで、テキストとしては、種々なものが
用いられてもよく、例えば複数の文を含んでいる文章か
ら構成される文字の集合のようなものが用いられ、ま
た、例えば段落の開始パターンに相当する語句の直前に
改行が挿入されていない部分を含むようなものが用いら
れる。また、必ずしも改行を含まないテキストばかりで
なく、見易さの観点から改行の数が少ないようなテキス
トを用いることもできる。
【0013】また、テキスト中に改行を追加する態様と
しては、例えばテキストのデータ中に改行を表すコード
(改行コード)のデータを挿入する態様や、或いは、例
えばテキストのデータを加工するのではなく、テキスト
が表示出力などされる際に表示上において当該テキスト
中に改行が追加されるように制御する態様などを用いる
ことができる。
【0014】また、段落の開始パターンとしては、種々
なパターンが設定されてもよく、例えばそのパターンに
相当する語句によって文章の内容や文脈(流れ)などが
切り替わるであろうと予想されるようなパターンを用い
るのが好ましく、このようなパターンを用いることによ
り各段落毎にまとまりのあるテキスト内容とすることが
可能である。
【0015】具体的には、例えば特定の語句や、接続詞
や副詞や固有名詞などの特定の品詞に相当する語句や、
章番号や節番号に相当する「1.1」(なお、「」は単
に説明のために付加したものであり例えば段落の開始パ
ターンから除く)などの語句や、タイトルに相当する語
句などを段落の開始パターンとして設定することができ
る。
【0016】ここで、特定の語句としては、任意の語句
であってもよく、例えば会社名や人名や製品名や日付や
時間や日時などの固有名や、このような固有名に「は」
や「が」(上記と同様に、「」の部分は例えば段落の開
始パターンから除く)などの格助詞の語句を付加した語
句などを用いることができる。なお、会社名などとして
は、例えば「株式会社」(上記と同様に、「」の部分は
例えば段落の開始パターンから除く)などを含む語句を
会社名などとみなして検出することが可能である。ま
た、接続詞などに相当する語句としては、例えば「しか
し」や「だが」(上記と同様に、「」の部分は例えば段
落の開始パターンから除く)などのように逆説的な意味
を有する語句が用いられるのも好ましい。また、例えば
上記のような種々な語句の先頭に1文字分又は複数文字
分の空白(スペース)が付加されたようなもの(語句)
を段落の開始パターンとして用いることもできる。
【0017】また、段落の開始パターンや、当該開始パ
ターンに相当する語句には、例えばひらがなやカタカナ
や漢字やアルファベットなどから構成されるものばかり
でなく、記号や数字の番号や読点などの種々なものから
構成されるものが含まれてもよく、テキスト中に出現す
る可能性がある任意の語句を段落の開始パターンとして
用いることが可能である。
【0018】また、段落の開始パターンに相当する語句
としては、例えば当該開始パターンと一致する語句を特
定するような態様を用いることができるが、例えば設定
された範囲内で当該開始パターンと近似する語句をも特
定するような態様を用いることも可能である。ここで、
設定された範囲内の条件としては、例えば段落の開始パ
ターンを含む語句を特定する条件や、段落の開始パター
ンの所定の一部を含む語句を特定する条件や、辞書など
に基づいて段落の開始パターンと同様な意味を有する語
句を特定する条件などを用いることができる。
【0019】また、段落開始パターン語句特定条件とし
ては、種々な条件が用いられてもよく、例えば予め設定
されてもよく、ユーザにより随時設定が行われてもよ
く、また、設定内容がユーザにより変更可能な態様が用
いられてもよい。また、段落開始パターン語句特定条件
記憶手段としては、例えば段落開始パターン語句特定条
件の情報を記憶するメモリなどを用いて構成することが
できる。
【0020】また、改行追加手段により検出した語句の
直前の位置に改行を追加すると、検出した語句が改行位
置の直後の段落内における先頭となるが、例えば改行を
追加した位置に続けて1文字分又は複数文字分の空白を
追加するような態様を用いることもでき、このような態
様では、改行した次の文字の先頭部分を1文字分などの
空白で空けることができ、これにより、ユーザにとって
のテキストの見易さをより向上させることができる。
【0021】また、改行を追加する仕方としては、例え
ば1行分の改行を追加する仕方ばかりでなく、2行分又
は3行分以上の改行を追加するような仕方が用いられて
もよい。具体例として、章番号に対応する段落開始パタ
ーンに相当する語句の直前では2行分の改行を追加する
一方、章番号以外に対応する段落開始パターンに相当す
る語句の直前では1行分の改行を追加するようなことも
可能であり、これにより、テキスト中における段落や記
載内容の区切り目を明確化することができ、ユーザにと
ってテキストをより見易くすることができる。また、例
えば追加する改行数(或る位置で何行分の改行をする
か)をパラメータとして外部からユーザなどにより指定
することが可能な構成を用いることもできる。
【0022】また、本発明に係るテキスト整形装置で
は、文末パターン語句特定条件記憶手段が文末パターン
に相当する語句を特定する文末パターン語句特定条件を
記憶し、改行追加手段は、段落開始パターン語句特定条
件記憶手段に記憶された段落開始パターン語句特定条件
及び文末パターン語句特定条件記憶手段に記憶された文
末パターン語句特定条件に基づいて、文末パターンに相
当する語句の直後に位置する段落の開始パターンに相当
する語句をテキスト中で検出し、検出した語句の直前の
位置に改行を追加する。
【0023】従って、段落の開始パターンに相当する語
句であって且つ文末パターンに相当する語句の直後の位
置に存する語句の直前の位置に改行が追加されるため、
例えば文中に存する段落開始パターンに相当する語句の
直前に改行を追加してしまうことを防止することがで
き、これにより、文と文とをつなげる段落開始パターン
に相当する語句の位置で、テキストの段落分けを確実に
実行することができる。
【0024】ここで、文末パターンとしては、種々なパ
ターンが用いられてもよく、例えば「。」や「.」(な
お、「」は単に説明のために付加したものであり例えば
文末パターンから除く)などの句点を用いることがで
き、また、例えば句点が用いられていないテキストで
は、文末に置かれる語句であると予想される「ます」や
「です」(上記と同様に、「」の部分は例えば文末パタ
ーンから除く)などのような終止形の語句のパターンな
どを用いることができる。
【0025】また、文末パターン語句特定条件として
は、種々な条件が用いられてもよく、例えば予め設定さ
れてもよく、ユーザにより随時設定が行われてもよく、
また、設定内容がユーザにより変更可能な態様が用いら
れてもよい。また、文末パターン語句特定条件記憶手段
としては、例えば文末パターン語句特定条件の情報を記
憶するメモリなどを用いて構成することができる。
【0026】また、本発明に係るテキスト整形装置で
は、文末パターン語句特定条件記憶手段が文末パターン
に相当する語句を特定する文末パターン語句特定条件を
記憶し、段落内文字数閾値記憶手段が1つの段落内に含
める文字数に関する閾値(段落内文字数閾値)を記憶
し、改行追加手段は、更に、文末パターン語句特定条件
記憶手段に記憶された文末パターン語句特定条件及び段
落内文字数閾値記憶手段に記憶された段落内文字数閾値
に基づいて、段落内の最初の文字からの文字数が段落内
文字数閾値を超えた位置に存する文末パターンに相当す
る語句を検出し、検出した語句の直後の位置に改行を追
加する。
【0027】従って、上述のように段落の開始パターン
に相当する語句の直前の位置に改行が追加されることに
加えて、更に、段落内の最初の文字から計数した文字数
が段落内文字数閾値を超えた位置に存する文末パターン
に相当する語句の直後の位置に改行が追加されるため、
例えば段落の開始パターンに相当する語句が無いために
段落内の文字数が大きくなってしまうようなことを防止
することができ、テキストの段落分けをより適切に実行
することができる。
【0028】ここで、1つの段落内に含める文字数に関
する閾値としては、種々な数が用いられてもよく、例え
ば予め設定されてもよく、例えば外部から指定すること
が可能な構成とされてもよく、ユーザにより随時設定が
行われてもよく、また、設定内容がユーザにより変更可
能な態様が用いられてもよい。また、段落内文字数閾値
記憶手段としては、例えば段落内文字数閾値の情報を記
憶するメモリなどを用いて構成することができる。ま
た、文字の数は、種々な仕方で計数されてもよく、例え
ば文字には記号や数字の番号などの種々なものが含まれ
てもよい。
【0029】また、本発明に係るテキスト整形装置で
は、文末パターン語句特定条件記憶手段が文末パターン
に相当する語句を特定する文末パターン語句特定条件を
記憶し、段落内文数閾値記憶手段が1つの段落内に含め
る文数に関する閾値(段落内文数閾値)を記憶し、改行
追加手段は、更に、文末パターン語句特定条件記憶手段
に記憶された文末パターン語句特定条件及び段落内文数
閾値記憶手段に記憶された段落内文数閾値に基づいて、
1つの段落内の最初の文からの文数が段落内文数閾値を
超えた位置に存する文末パターンに相当する語句を検出
し、検出した語句の直後の位置に改行を追加する。
【0030】従って、上述のように段落の開始パターン
に相当する語句の直前の位置に改行が追加されることに
加えて、更に、段落内の最初の文から計数した文数が段
落内文数閾値を超えた位置に存する文末パターンに相当
する語句の直後の位置に改行が追加されるため、例えば
段落の開始パターンに相当する語句が無いために段落内
の文数が大きくなってしまうようなことを防止すること
ができ、テキストの段落分けをより適切に実行すること
ができる。
【0031】ここで、1つの段落内に含める文数に関す
る閾値としては、種々な数が用いられてもよく、例えば
予め設定されてもよく、例えば外部から指定することが
可能な構成とされてもよく、ユーザにより随時設定が行
われてもよく、また、設定内容がユーザにより変更可能
な態様が用いられてもよい。また、段落内文数閾値記憶
手段としては、例えば段落内文数閾値の情報を記憶する
メモリなどを用いて構成することができる。
【0032】また、文の数は、種々な仕方で計数されて
もよく、例えば1文に対して1つの「。」(なお、「」
は単に説明のために付加したものであり除く)が文末に
挿入されている場合には、当該「。」の数が文の数と一
致する。なお、上記した段落内文字数閾値による段落分
けと段落内文数閾値による段落分けとが併用されてもよ
い。
【0033】また、本発明に係るテキスト整形装置で
は、言語解析手段がテキストを言語解析し、改行追加手
段は、言語解析手段による言語解析結果に基づいて、段
落の開始パターンに相当する語句或いは文末パターンに
相当する語句を検出する。従って、テキストを言語解析
した結果に基づいて段落の開始パターンに相当する語句
や文末パターンに相当する語句を特定する構成により、
このような特定を容易にすることが可能である。
【0034】具体的には、言語解析を行うと、例えばテ
キスト中で単語の境界を認識することなどができ、これ
により、例えば接続詞などから構成される段落の開始パ
ターンに相当する語句を検出する精度が向上し、また、
例えば文末に句点が無いようなテキストにおいて文末パ
ターンに相当する語句を検出することが容易に可能とな
る。
【0035】ここで、言語解析としては、種々な解析が
用いられてもよく、例えば形態素解析や構文解析などを
用いることができる。また、例えば段落の開始パターン
に相当する語句と文末パターンに相当する語句とのいず
れか一方のみが言語解析結果に基づいて特定されてもよ
く、或いは、これらの両方が言語解析結果に基づいて特
定されてもよい。
【0036】また、本発明に係るテキスト整形装置で
は、改行追加手段は、テキストのデータ(テキストデー
タ)中に改行のデータ(改行データ)を挿入する態様に
より、テキスト中に改行を追加する。従って、例えばテ
キストデータ中に改行データを挿入したものへ当該テキ
ストデータを書き換えることが要求されるような場合
に、テキストデータ中で検出した語句のデータ(語句デ
ータ)の直前や直後の位置に改行データを挿入する態様
により、検出した語句の直前や直後の位置に改行を追加
することができる。
【0037】ここで、改行データは例えば改行を表すコ
ードのデータから構成され、語句データは例えば語句を
構成する1又は複数の文字を表すコードのデータから構
成され、テキストデータは例えばこのような改行データ
や語句データなどの集合体から構成される。
【0038】また、本発明に係るテキスト整形装置で
は、改行追加手段は、テキストを加工せずに、テキスト
が出力される際にテキスト中に改行が追加されるように
制御する態様により、テキスト中に改行を追加する。従
って、例えばテキストデータを書き換えずに出力される
際の見易さを良くすることが要求されるような場合に、
テキストが出力される際にテキスト中で検出した語句の
直前や直後の位置に出力結果において改行が追加される
ように制御する態様により、検出した語句の直前や直後
の位置に改行を追加することができる。
【0039】ここで、テキストを出力する仕方として
は、種々な仕方が用いられてもよく、例えばテキストを
画面に表示出力する仕方や、テキストを紙面に印刷出力
する仕方などを用いることができる。
【0040】また、本発明に係るテキスト整形装置で
は、テキストとして、ゼロ個の改行を含むテキスト(つ
まり、改行を含まないテキスト)が用いられる。従っ
て、例えば全文検索という目的には好ましい改行を含ま
ないテキストの全部又は一部を表示出力するような場合
に、当該テキスト中に改行を追加して段落分けすること
により、ユーザにとってテキストの見易さを向上させる
ことができる。
【0041】また、本発明に係るテキスト整形装置で
は、次のようにして、テキスト中から改行を削除する。
すなわち、改行パターン特定条件記憶手段が改行パター
ンに相当するパターンを特定する改行パターン特定条件
を記憶し、文末パターン語句特定条件記憶手段が文末パ
ターンに相当する語句を特定する文末パターン語句特定
条件を記憶し、改行削除手段が、改行パターン特定条件
記憶手段に記憶された改行パターン特定条件及び文末パ
ターン語句特定条件記憶手段に記憶された文末パターン
語句特定条件に基づいて、直前の位置に文末パターンに
相当する語句が存する位置以外の位置にあって改行パタ
ーンに相当するパターンを検出し、検出したパターンに
よる改行を削除する。
【0042】従って、テキスト中で文末パターンの直後
の位置以外の位置に存する改行が削除されるため、例え
ば表示上の1行毎に改行コードが含まれるテキスト中の
文章の段落を適切な単位のテキストブロックから成る段
落に調整することができ、これにより、テキストをユー
ザにとって見易くすることや見易さの観点から扱い易く
することなどができる。なお、文末パターンに相当する
語句の直後の位置に存する改行については、削除されて
もよいが、特に不要でなければ削除されなくてよい。
【0043】ここで、テキストとしては、種々なものが
用いられてもよく、例えば文末パターンの直後の位置以
外の位置に改行が挿入されている部分を含むようなもの
が用いられる。また、必ずしも表示上の1行毎に改行コ
ードが含まれるテキストばかりでなく、見易さの観点か
ら改行の数が過剰なテキストを用いることもできる。
【0044】また、テキスト中から改行を削除する態様
としては、例えばテキストのデータ中から改行を表すコ
ードのデータを削除する態様や、或いは、例えばテキス
トのデータを加工するのではなく、テキストが表示出力
などされる際に表示上において当該テキスト中から改行
が削除されるように制御する態様などを用いることがで
きる。
【0045】また、改行パターン特定条件としては、種
々な条件が用いられてもよく、例えばテキストデータ中
に含まれる改行コードのデータを改行パターンに相当す
るパターンのデータとして検出する条件などを用いるこ
とができる。また、改行パターン特定条件記憶手段とし
ては、例えば改行パターン特定条件の情報を記憶するメ
モリなどを用いて構成することができる。また、改行を
削除する仕方としては、例えば1行分の改行を削除する
仕方ばかりでなく、2行分又は3行分以上の改行を削除
するような仕方が用いられてもよい。
【0046】また、本発明に係るテキスト整形装置で
は、言語解析手段がテキストを言語解析し、改行削除手
段は、言語解析手段による言語解析結果に基づいて、前
記改行パターンに相当するパターン(つまり、直前の位
置に文末パターンに相当する語句が存する位置以外の位
置にあって改行パターンに相当するパターン)を検出す
る。従って、テキストを言語解析した結果に基づいて前
記改行パターンに相当するパターンを特定する構成によ
り、このような特定を容易にすることが可能である。
【0047】また、本発明に係るテキスト整形装置で
は、テキストとして、出力の際の各行の終了位置毎に改
行が設定されたテキストが用いられる。従って、例えば
利用状況に応じて定型による表示出力などの目的には好
ましいことがある上記のような表示上の1行毎に改行が
なされているテキストの全部又は一部を表示出力するよ
うな場合に、当該テキスト中に改行を追加して段落分け
することにより、ユーザにとってテキストの見易さを向
上させることができる。
【0048】また、本発明に係るテキスト検索出力装置
では、次のようにして、ゼロ個の改行を含む検索対象と
なるテキストから当該テキストの一部又は全部に対応す
るテキスト部分を検索し、検索したテキスト部分をユー
ザに対して出力する。すなわち、テキスト検索手段が検
索対象となるテキストからテキスト部分を検索し、改行
追加手段が検索されたテキスト部分が出力される際に当
該テキスト部分中の所定の位置に改行が追加されるよう
に制御する。
【0049】従って、テキスト検索では検索が行い易い
ように改行を含まないテキストを検索対象として用いる
ことができ、且つ、検索したテキスト部分を出力する際
にはユーザにとって見易いように改行を追加した態様で
当該テキスト部分を出力することができるため、テキス
ト検索の効率化を図ることができるとともに検索結果を
ユーザにとって見易い態様で出力することができる。
【0050】ここで、検索対象となるテキストから検索
されるテキスト部分としては、例えば検索対象となるテ
キストの一部が検索されてそのまま出力されてもよく、
或いは、検索された当該一部が加工されて要約などとし
て出力されてもよく、また、検索状況によっては、例え
ば検索対象となるテキストの全部が検索されてそのまま
出力されてもよく、或いは、検索された当該全部が加工
されて要約などとして出力されてもよい。
【0051】また、テキスト部分を出力する仕方として
は、種々な仕方が用いられてもよく、例えばテキスト部
分を画面に表示出力する仕方や、例えばテキスト部分を
紙面に印刷出力する仕方などのように、テキスト部分の
内容を可視的に出力するような仕方を用いることができ
る。また、検索対象となるテキストからテキスト部分を
検索する仕方としては、種々な仕方が用いられてもよ
く、例えばキーワードを用いて検索を行う仕方などを用
いることができる。
【0052】また、検索されたテキスト部分が出力され
る際に当該テキスト部分中に改行が追加されるように制
御する態様としては、例えばテキストデータ中に改行デ
ータを挿入したものへ当該テキストデータを書き換える
ことで出力の際に改行が追加されるようにする態様や、
或いは、例えばテキストデータを書き換えずに表示上で
のみ改行を追加する態様などを用いることができる。
【0053】また、テキスト部分中の所定の位置に改行
を追加する仕方としては、例えば上記した本発明に係る
テキスト整形装置と同様な仕方を適用することで段落開
始パターンに相当する語句などを特定して改行を追加す
る仕方を用いるのが好ましいが、例えば句点の直後に改
行を追加する仕方や、設定された文字数を超えた文末に
改行を追加する仕方や、設定された文数を超えた文末に
改行を追加する仕方などのように、他の仕方が用いられ
てもよい。
【0054】また、本発明に係るテキスト検索出力装置
には、更に具体的な機能手段として、例えば、検索対象
となるテキストのデータを記憶する検索対象テキスト記
憶手段や、ユーザなどにより検索条件を設定する検索条
件設定手段や、検索されたテキスト部分を検索対象とな
るテキストから抽出するテキスト部分抽出手段や、抽出
されたテキスト部分をそのまま或いは加工した態様で出
力するテキスト部分出力手段のうちの全部又は一部が備
えられてもよく、また、他の機能手段が備えられてもよ
い。
【0055】また、本発明では、以上に示したようなテ
キストを整形する方法などを提供する。なお、このよう
な本発明に係る方法は、例えばCPUやメモリ等を備え
たコンピュータなどにおいて実行される。例えば、本発
明に係るテキスト整形方法では、テキスト中に改行を追
加するに際して、段落の開始パターンに相当する語句を
特定する段落開始パターン語句特定条件を記憶するメモ
リに記憶された段落開始パターン語句特定条件に基づい
て段落の開始パターンに相当する語句をテキスト中で検
出し、検出した語句の直前の位置に改行を追加する。
【0056】また、本発明に係るテキスト整形方法で
は、テキスト中から改行を削除するに際して、改行パタ
ーンに相当するパターンを特定する改行パターン特定条
件を記憶するメモリに記憶された改行パターン特定条件
及び文末パターンに相当する語句を特定する文末パター
ン語句特定条件を記憶するメモリに記憶された文末パタ
ーン語句特定条件に基づいて、直前の位置に文末パター
ンに相当する語句が存する位置以外の位置にあって改行
パターンに相当するパターンを検出し、検出したパター
ンによる改行を削除する。
【0057】また、本発明に係るテキスト検索出力方法
では、ゼロ個の改行を含む検索対象となるテキストから
当該テキストの一部又は全部に対応するテキスト部分を
検索し、検索したテキスト部分をユーザに対して出力す
るに際して、検索されたテキスト部分が出力される際に
当該テキスト部分中の所定の位置に改行が追加されるよ
うに制御する。
【0058】また、本発明では、以上に示したようなテ
キストを整形する処理を実行させるプログラムなどを提
供する。例えば、本発明に係るプログラムは、テキスト
中に改行を追加する処理をコンピュータに実行させるに
際して、段落の開始パターンに相当する語句を特定する
段落開始パターン語句特定条件を記憶するメモリに記憶
された段落開始パターン語句特定条件に基づいて段落の
開始パターンに相当する語句をテキスト中で検出する処
理と、検出した語句の直前の位置に改行を追加する処理
とを当該コンピュータに実行させる。
【0059】また、本発明に係るプログラムは、テキス
ト中から改行を削除する処理をコンピュータに実行させ
るに際して、改行パターンに相当するパターンを特定す
る改行パターン特定条件を記憶するメモリに記憶された
改行パターン特定条件及び文末パターンに相当する語句
を特定する文末パターン語句特定条件を記憶するメモリ
に記憶された文末パターン語句特定条件に基づいて、直
前の位置に文末パターンに相当する語句が存する位置以
外の位置にあって改行パターンに相当するパターンを検
出する処理と、検出したパターンによる改行を削除する
処理とを当該コンピュータに実行させる。
【0060】また、本発明に係るプログラムは、ゼロ個
の改行を含む検索対象となるテキストから当該テキスト
の一部又は全部に対応するテキスト部分を検索する処理
と、検索したテキスト部分をユーザに対して出力する処
理とをコンピュータに実行させるに際して、検索された
テキスト部分が出力される際に当該テキスト部分中の所
定の位置に改行が追加されるように制御する処理を当該
コンピュータに実行させる。
【0061】
【発明の実施の形態】本発明の第1実施例に係るテキス
ト整形システムにより行われる改行追加の一例を説明す
る。図1には、本発明を適用したテキスト整形システム
の一構成例を示してあり、このテキスト整形システム
は、テキスト中に改行を追加するテキスト整形装置の機
能とテキスト中から改行を削除するテキスト整形装置の
機能との両方を有している。なお、このテキスト整形装
置により行われる改行削除については、後述する本発明
の第2実施例で説明する。
【0062】上記図1に示されるように、本例のテキス
ト整形システムには、入力されるテキストのデータをメ
モリに記憶する入力テキスト記憶部1と、入力テキスト
記憶部1に記憶されたテキストのデータを整形処理する
テキスト整形部2と、当該整形処理後のテキストのデー
タをメモリに記憶する出力テキスト記憶部3とが備えら
れている。
【0063】また、図2には、上記したテキスト整形部
2の更に詳しい構成例を示してあり、このテキスト整形
部2には、段落の開始パターンをメモリに記憶する段落
開始パターン記憶部11と、1つの段落内に含める文字
数に関する閾値をメモリに記憶する段落内文字数記憶部
12と、入力テキスト記憶部1から入力されるテキスト
データ中の位置をメモリに記憶する入力テキスト位置記
憶部13と、出力テキスト記憶部3へテキストデータと
して出力した文字の数を例えば段落毎(本例では、改行
毎)にメモリに記憶する出力文字数記憶部14と、テキ
ストデータの整形処理の制御などを行う制御部15とが
備えられている。ここで、テキストデータ中の位置とし
ては、例えば0、1、2、…、N−1といった値が記憶
され、Nは入力テキスト記憶部1から入力されるテキス
トデータを構成する文字の総数を表している。
【0064】また、図3には、上記した段落開始パター
ン記憶部11に記憶された段落開始パターンに相当する
語句の一例を示してあり、同図の例では、各段落開始パ
ターン毎に品詞などの種別の情報を記憶することが可能
なテーブルが用いられている。具体的には、同図の例で
は、「さらに」や「したがって」や「また、」(なお、
「」は単に説明のために付加したものであり除く)など
の接続詞や副詞である単語見出しが段落開始パターンと
して設定されている。なお、他の具体例として、「しか
し」、「だが」、「ところが」、「ところで」、「ま
ず」、「次に」、「さて」(上記と同様に、「」の部分
は除く)などの種々な語句を段落開始パターンとして用
いることが可能である。
【0065】このような構成により、本例のテキスト整
形システムでは、整形処理の対象となるテキストデータ
を入力テキスト記憶部1により記憶し、入力テキスト記
憶部1により記憶されたテキストデータをテキスト整形
部2により設定された整形ルールを参照して改行コード
を含むテキストデータへ整形して当該整形後のテキスト
データを出力テキスト記憶部3へ出力し、当該整形後の
テキストデータを出力テキスト記憶部3により記憶す
る。
【0066】次に、本例のテキスト整形システムにより
行われる改行追加処理の一例を示す。なお、本例では、
ホームページに記載された文書の内容をDocuWor
ks文書へ変換し、当該DocuWorks文書から抽
出したテキストのデータを整形処理する場合を示す。
【0067】ここで、図4には、DocuWorks文
書の内容の一例を示してあり、この文書では、改行が含
まれている。また、図5には、上記図4に示したDoc
uWorks文書から抽出されるテキストデータの内容
の一例を示してあり、このテキストデータでは全ての改
行コードがデータ中から削除されていて、改行が全く無
い文書となっている。本例のテキスト整形システムで
は、図5に示したテキストデータ中に改行コードを挿入
する整形処理を行う。
【0068】図6には、本例のテキスト整形部2により
行われるテキスト整形処理の手順の一例を示してある。
なお、本例では、入力テキスト記憶部1に記憶されたテ
キストデータを保持する変数としてinstrを使用
し、入力テキスト位置記憶部13に記憶された位置の値
を保持する変数としてinを使用し、出力テキスト記憶
部3へ出力した段落内の文字数(つまり、出力文字数記
憶部14に記憶される段落内の文字数の値)を保持する
変数としてparaoutを使用し、入力テキスト記憶
部1に記憶されたテキストデータを構成する文字の総数
を保持する変数としてNを使用し、段落内文字数記憶部
12に記憶された段落内文字数閾値を保持する変数とし
てlimitを使用する。
【0069】本例のテキスト整形処理では、まず、制御
部15は、入力テキスト記憶部1中のテキストデータを
変数instrに読み込み(ステップS1)、当該変数
instrの文字の総数を変数Nに設定し、変数in及
び変数paraoutの値をゼロ(0)に設定する(ス
テップS2)。次に、制御部15は、変数inの位置に
おける変数instrの文字が「。」や「.」(上記と
同様に、「」の部分は除く)などの所定の句点であるか
否かを判定する(ステップS3)。
【0070】この結果、所定の句点であると判定した場
合には、制御部15は、当該句点を出力テキスト記憶部
3に書き込み、変数paraoutの値を1だけ増加さ
せる(ステップS4)。その後、制御部15は、変数p
araoutの値が変数limitの値を超えたか否か
を判定し(ステップS5)、超えたと判定した場合には
改行コードを出力テキスト記憶部3に書き込み、変数p
araoutの値をゼロ(0)に設定する(ステップS
6)。そして、当該変数paraoutの設定が行われ
た場合(ステップS6)或いは前記判定結果として超え
ていないと判定した場合には(ステップS5)、制御部
15は、変数inの値を1だけ増加させた後に(ステッ
プS7)、変数inの値が変数Nの値を超えたか否かを
判定し(ステップS8)、超えていないと判定した場合
には再び上記した変数inの位置の文字が句点か否かを
判定する処理(ステップS3)へ移行して以上と同様な
処理を繰り返して実行する一方、超えたと判定した場合
には当該テキスト整形処理を終了させる。
【0071】また、上記した変数inの位置の文字が句
点であるか否かの判定結果として句点ではないと判定し
た場合には(ステップS3)、制御部15は、変数in
strにおける変数inの値の位置の文字から始まる任
意の文字列と段落開始パターン記憶部11に記憶された
段落開始パターンとが一致するか否かを照合する(ステ
ップS9)。
【0072】この照合の結果、設定された段落開始パタ
ーンと一致する文字列を検出した場合には、制御部15
は、改行コードを出力テキスト記憶部3へ出力し(ステ
ップS10)、当該一致した段落開始パターンに相当す
る文字列を出力テキスト記憶部3へ出力し(ステップS
11)、変数inの値を当該一致した段落開始パターン
に相当する文字列の文字数分だけ増加させ、変数par
aoutに当該一致した段落開始パターンに相当する文
字列の文字数を設定する(ステップS12)。一方、上
記の照合の結果(ステップS9)、変数inの位置の文
字から始まる文字列と段落開始パターンとが一致しない
と判定した場合には、変数instrにおける変数in
の値の位置の文字を出力テキスト記憶部3に記憶し、変
数paraoutの値を1だけ増加させる(ステップS
13)。
【0073】そして、上記の照合結果に応じたいずれか
の処理が終了すると(ステップS12、ステップS1
3)、制御部15は、変数inの値を1だけ増加させた
後に(ステップS7)、変数inの値が変数Nの値を超
えたか否かを判定し(ステップS8)、超えていないと
判定した場合には再び上記した変数inの位置の文字が
句点か否かを判定する処理(ステップS3)へ移行して
以上と同様な処理を繰り返して実行する一方、超えたと
判定した場合には当該テキスト整形処理を終了させる。
【0074】ここで、図7には、例えば段落内文字数閾
値を150(文字)に設定して、上記図5に示したテキ
ストのデータを入力テキストデータとして整形処理した
結果の一例を示してあり、この例では、段落開始パター
ンの語句と一致する「さらに」や「また、」(上記と同
様に、「」の部分は除く)の直前の位置に改行コードが
挿入されている。なお、同図の例では、それぞれの改行
挿入位置で、2行分の改行が行われている。
【0075】また、図8には、上記図5に示したテキス
ト中に含まれる各文を構成する文字の総数の一例を示し
てあり、本例では、「従来の」や「これは」(上記と同
様に、「」の部分は除く)という文頭の語句の直前の段
落内に含まれる文字数が150文字を超えているため、
これらの文頭の語句の直前においても改行コードが挿入
されている。
【0076】以上のように、本例のテキスト整形システ
ムでは、例えば段落の先頭に現れる特定のパターン(文
頭パターン)に応じて、入力テキストデータを先頭から
スキャンして当該特定のパターンを探索して発見された
特定パターンの前の位置に改行コードを挿入すること
や、また、例えば1つの段落内に含める文字数に関する
閾値に応じて、改行コード挿入後に段落内文字数閾値に
相当する文字数をスキャンした後に次の文末パターンが
発見された場合に当該文末パターンの後ろの位置に改行
コードを挿入することにより、改行コードを含まないテ
キストデータ中の適切な位置に改行コードを挿入して、
当該テキストデータを構成する文章を適切な複数の段落
に分割することができ、これにより、ユーザにとって当
該テキストデータの内容を読み易くすることができる。
【0077】また、好ましい態様として、例えば段落開
始パターンに相当する語句を探索する処理を行う前に、
テキストデータ中に存する文末パターンを探索して、文
末パターンの後ろに位置する段落開始パターンに相当す
る語句の前の位置に改行コードを挿入する構成とする
と、例えば段落開始パターンに相当する語句が文中に現
れた場合にはその位置に改行を挿入しないようにするこ
とができる。
【0078】ここで、本例では、段落開始パターン記憶
部11の機能により段落開始パターン語句特定条件記憶
部が構成されており、当該段落開始パターン記憶部11
に記憶された内容が段落パターン語句特定条件に相当す
る。また、本例では、段落内文字数記憶部12の機能に
より段落内文字数閾値記憶手段が構成されており、当該
段落内文字数記憶部12に記憶された閾値が段落内文字
数閾値に相当する。また、本例では、制御部15がテキ
スト中に改行を追加する機能により改行追加手段が構成
されている。
【0079】また、本例のテキスト整形システムでは、
好ましい態様として、例えば文末パターンに相当する語
句をメモリに記憶する文末パターン語句特定条件記憶手
段の機能が備えられており、当該記憶内容が文末パター
ン語句特定条件に相当する。また、本例では、1つの段
落内に含める文字数に関する閾値を用いて段落分けを行
ったが、例えば1つの段落内に含める文数に関する閾値
を用いて同様な段落分けを行うこともでき、この場合に
は、本例のテキスト整形システムには、例えば段落内文
数閾値をメモリに記憶する段落内文数閾値記憶手段の機
能が備えられる。
【0080】また、本例では、テキストのデータ中に改
行コードを挿入して当該テキストデータを書き換える場
合を示したが、例えばテキストデータを書き換える必要
が無く表示上のみにおいて改行が追加されればよいよう
な場合には、テキストデータの内容を画面に表示出力な
どする際に画面上でテキスト中の所定の位置で改行がな
されるようにすることができる。
【0081】なお、本例では、段落内に含まれる文字数
や文数が段落内文字数閾値や段落内文数閾値を超えた位
置に文末パターンに相当する語句があった場合に当該語
句の直後の位置に改行を追加する態様を示したが、例え
ば1つの段落内に含める文字数の上限値(或いは、文数
の上限値)を設定して、段落内に含まれる文字数(或い
は、文数)が段落内文字数上限値(或いは、段落内文数
上限値)以下となる範囲で最も多くの数の文字(或い
は、文)が当該段落内に含まれるようにする文末パター
ンに相当する語句の直後の位置に改行を追加する構成と
することも可能であり、具体的には、段落内文字数上限
値(或いは、段落内文数上限値)を超えてしまう文の1
つ前の文の文末の直後に改行を追加する。
【0082】次に、本発明の第2実施例に係るテキスト
整形システムにより行われる改行削除の一例を説明す
る。なお、本例のテキスト整形システムの構成は、例え
ば上記第1実施例で示したものと同様な構成であり、こ
こでは、詳しい説明を省略する。
【0083】図9には、上記図4に示したテキストデー
タの内容と同一の内容を有するPDFファイルのテキス
ト内容をAcrobatReaderにより画面上に表
示出力させた結果の一例を示してある。また、図10に
は、上記図9に示したPDFファイルのテキスト内容か
ら抽出したテキストデータの内容の一例を示してあり、
このテキストデータでは、上記図9に示した画面上にお
けるそれぞれの行末位置に相当する文字の直後に改行コ
ードが含まれてしまっている。具体的には、「コンテン
ツと」や「株式会社(本」や「画像を」や「実現しま」
(上記と同様に、「」の部分は除く)などの直後におい
ても改行コードが挿入されてしまっている。本例のテキ
スト整形システムでは、図10に示したテキスト中から
改行を削除する。
【0084】図11には、本例のテキスト整形システム
によりテキスト中から改行を削除する処理の手順の一例
を示してある。なお、本例では上記第1実施例で示した
のと同様な改行追加処理も行っており、同図に示した処
理手順では上記図6に示した処理手順と同様な処理手順
が含まれているため、同様な部分については説明を簡略
化する。
【0085】具体的には、ステップS23の処理及びス
テップS24の処理が加えられて、ステップS30の処
理からステップS23の処理へ戻るといった点以外につ
いては、上記図6に示した処理手順と同様である。そし
て、ステップS21、ステップS22の処理はそれぞれ
上記したステップS1、ステップS2の処理に対応し、
ステップS25〜ステップS35の処理はそれぞれ上記
したステップS3〜ステップS13の処理に対応する。
【0086】本例のテキスト整形処理では、まず、制御
部15は、変数instrの読み込みを行い(ステップ
S21)、変数Nの初期設定及び変数inの初期設定及
び変数paraoutの初期設定を行う(ステップS2
2)。次に、制御部15は、変数instrにおける変
数inの値の位置の文字が改行コードに相当して且つ当
該改行コードの直前の位置の文字が句点などの文末パタ
ーンに相当する語句ではない文字であるか否か、つま
り、文の途中に存在する改行コードであるか否かを判定
し(ステップS23)、このような改行コードである場
合には、変数inの値を当該改行コードの長さ分(例え
ば1行分の改行であれば1つ)だけ増加させ(ステップ
S24)、これにより、直前の位置に句点などの文末パ
ターンが存在しない改行コードについては出力テキスト
記憶部3に書き込まれずに削除される。
【0087】そして、制御部15は、変数inの位置の
文字が句点であるか否かを判定する処理(ステップS2
5)へ移行して、上記図6に示したステップS4〜ステ
ップS13の処理と同様な処理を実行することによりテ
キストデータ中の所定の位置に改行コードを挿入する処
理を行う(ステップS26〜ステップS35)。なお、
上述のように、本例のテキスト整形処理では、変数in
の値が変数Nの値を超えたか否かを判定した結果として
超えていないと判定した場合には(ステップS30)、
再び上記した改行削除の処理(ステップS23)へと移
行して以上と同様な処理を繰り返して実行する。
【0088】ここで、図12には、例えば段落内文字数
閾値を150(文字)に設定して、上記図10に示した
テキストのデータを入力テキストデータとして整形処理
した結果の一例を示してあり、この例では、段落開始パ
ターンの語句と一致する「さらに」や「また、」(上記
と同様に、「」の部分は除く)の直前の位置に改行コー
ドが挿入されているとともに、上記図10に示したテキ
スト上で改行直後の位置に相当している「併せて」や
「従来の」や「CadrCdr」(上記と同様に、「」
の部分は除く)の直前の位置に改行コードが挿入されて
いるだけで、文の途中の位置に挿入されていた改行コー
ドが削除されている。なお、上記図12に示したテキス
ト中に含まれる各文を構成する文字の総数の一例として
は、上記図8に示したのと同様である。
【0089】以上のように、本例のテキスト整形システ
ムでは、例えば表示上の1行毎に改行コードが含まれて
いて改行コードがほぼ一定文字数毎に挿入されているよ
うなテキストのデータに対して、改行コードをその付近
の文字との関係を勘案して削除することなどにより、テ
キスト中における改行コードの挿入位置を適切な位置へ
変更して、ユーザにとって読み易いテキストのデータを
得ることができる。
【0090】なお、本例では、改行削除処理と改行追加
処理との両方を実行する例を示し、具体的には、段落開
始パターンに相当する語句に係る探索を行う前に改行コ
ードに係る探索を行い、探索した改行コードの直前の文
字が文末パターンに相当する句点などではない場合には
その改行コードを無視して段落開始パターンに相当する
語句に係る探索を続けて実行することが行われている。
【0091】また、本例では、改行削除処理と改行追加
処理とを交互に行うような処理の手順を用いたが、例え
ばテキスト中に存する全ての改行を削除した後に上記第
1実施例に示したような改行追加処理を行うような処理
の手順を用いることも可能である。
【0092】ここで、本例のテキスト整形システムに
は、例えば改行パターンに相当するパターンとして改行
コードを特定するような改行パターン特定条件をメモリ
に記憶する改行パターン特定条件記憶手段の機能が備え
られている。また、本例では、制御部15がテキスト中
から改行を削除する機能により改行削除手段が構成され
ている。
【0093】次に、本例の第3実施例に係るテキスト整
形システムを説明する。なお、本例のテキスト整形シス
テムは、例えば上記第1実施例や上記第2実施例で示し
たテキスト整形システムに言語処理機能などを付加した
ものであり、改行追加処理や改行削除処理において言語
処理機能を利用することが可能なものである。
【0094】図13には、本例のテキスト整形システム
の構成例を示してあり、このテキスト整形システムに
は、入力テキスト記憶部21と、言語処理部22と、言
語処理結果記憶部23と、テキスト整形部24と、出力
テキスト記憶部25とが備えられている。ここで、入力
テキスト記憶部21やテキスト整形部24や出力テキス
ト記憶部25はそれぞれ、例えば上記図1に示したもの
1、2、3と同様な機能を有している。
【0095】本例のテキスト整形システムでは、入力テ
キスト記憶部21に記憶されたテキストデータの内容に
対して言語処理部22が例えば一般に知られている形態
素解析や構文解析などの言語処理を行い、当該テキスト
を構成する文章を単語とその品詞、及び構文構造に分解
する。そして、このような言語処理結果を言語処理結果
記憶部23によりメモリに記憶し、当該言語処理結果に
基づいてテキスト整形部24がテキストデータを整形処
理して当該整形処理後のテキストデータを出力テキスト
記憶部25へ出力する。
【0096】また、本例では、上記図3に示した段落開
始パターンに加えて、段落の開始パターンとして、例え
ば接続詞に相当する語句や、副詞の「併せて」(上記と
同様に、「」の部分は除く)などのような接続詞相当表
現に相当する語句や、企業名や製品名などの固有名詞に
相当する語句も段落開始パターン記憶部11に設定され
ている。なお、本例では、例えば形態素解析の結果に基
づいて、各単語の品詞などを特定することが可能であ
る。
【0097】また、例えば句点が含まれないテキストを
扱うような場合には、文末パターンに相当する語句とし
て構文的に文末である可能性が高い単語や記号などを設
定するのが好ましい。なお、本例では、例えば構文解析
の結果に基づいて、構文的に文末である可能性が高い単
語などを特定することが可能である。
【0098】図14には、例えば上記図5に示したテキ
ストデータに対して改行追加処理を行った結果の一例を
示してあり、会社名である「武士ゼロフウウ株式会社」
や、接続詞相当表現である「併せて」(上記と同様に、
「」の部分は除く)や、製品名である「CadrCd
r」(上記と同様に、「」の部分は除く)という語句の
直前においても、改行が追加されている。
【0099】以上のように、本例のテキスト整形システ
ムでは、テキストに対して言語解析処理を実行すること
で、当該言語解析結果である単語の品詞情報や主部情報
などの属性情報を段落開始パターンや文末パターンとし
て指定して段落開始パターンに相当する語句や文末パタ
ーンに相当する語句を検索することができ、これによ
り、このような語句の検索処理を確実化することや効率
化することができる。なお、本例では、言語処理部22
の機能により言語解析手段が構成されている。
【0100】ここで、本発明に係るテキスト整形装置な
どの構成としては、必ずしも以上に示したものに限られ
ず、種々な構成が用いられてもよい。また、本発明の適
用分野としては、必ずしも以上に示したものに限られ
ず、本発明は、種々な分野に適用することが可能なもの
である。
【0101】一例として、本発明に係るテキスト整形装
置は、ゼロ個の改行を含む検索対象となるテキストから
当該テキストの一部又は全部に対応するテキスト部分を
検索し、検索したテキスト部分をユーザに対して出力す
るテキスト検索出力装置に適用するのに適しており、こ
のようなテキスト検索出力装置では、検索対象となるテ
キストからテキスト部分を検索するテキスト検索手段の
機能や、検索されたテキスト部分が出力される際に当該
テキスト部分中の所定の位置に改行が追加されるように
制御する改行追加手段の機能を備える。
【0102】また、本発明に係るテキスト整形装置など
において行われる各種の処理としては、例えばプロセッ
サやメモリ等を備えたハードウエア資源においてプロセ
ッサがROM(Read Only Memory)に格納された制御プ
ログラムを実行することにより制御される構成が用いら
れてもよく、また、例えば当該処理を実行するための各
機能手段が独立したハードウエア回路として構成されて
もよい。また、本発明は上記の制御プログラムを格納し
たフロッピー(登録商標)ディスクやCD(Compact Di
sc)−ROM等のコンピュータにより読み取り可能な記
録媒体や当該プログラム(自体)として把握することも
でき、当該制御プログラムを記録媒体からコンピュータ
に入力してプロセッサに実行させることにより、本発明
に係る処理を遂行させることができる。
【0103】
【発明の効果】以上説明したように、本発明に係るテキ
スト整形装置などによると、段落の開始パターンに相当
する語句を特定する段落開始パターン語句特定条件を記
憶し、段落開始パターン語句特定条件に基づいて段落の
開始パターンに相当する語句をテキスト中で検出し、検
出した語句の直前の位置に改行を追加するようにしたた
め、テキストをユーザにとって見易くすることなどがで
きる。
【0104】また、本発明に係るテキスト整形装置など
では、文末パターンに相当する語句を特定する文末パタ
ーン語句特定条件を記憶し、1つの段落内に含める文字
数や文数に関する閾値を記憶し、文末パターン語句特定
条件及び閾値に基づいて、段落内の最初の文字や文から
の文字数や文数が閾値を超えた位置に存する文末パター
ンに相当する語句を検出し、検出した語句の直後の位置
に改行を追加するようにしたため、テキストの段落分け
をより適切に実行することができる。
【0105】また、本発明に係るテキスト整形装置など
では、テキストを言語解析した結果に基づいて、段落の
開始パターンに相当する語句や文末パターンに相当する
語句を検出するようにしたため、このような特定を容易
にすることが可能である。
【0106】また、本発明に係るテキスト整形装置など
によると、改行パターンに相当するパターンを特定する
改行パターン特定条件を記憶し、文末パターンに相当す
る語句を特定する文末パターン語句特定条件を記憶し、
改行パターン特定条件及び文末パターン語句特定条件に
基づいて、直前の位置に文末パターンに相当する語句が
存する位置以外の位置にあって改行パターンに相当する
パターンを検出し、検出したパターンによる改行を削除
するようにしたため、テキストをユーザにとって見易く
することなどができる。
【図面の簡単な説明】
【図1】 テキスト整形システムの構成例を示す図であ
る。
【図2】 テキスト整形部の構成例を示す図である。
【図3】 段落開始パターン記憶部の記憶内容の一例を
示す図である。
【図4】 DocuWorks文書の表示結果の一例を
示す図である。
【図5】 DocuWorks文書から抽出されるテキ
ストの一例を示す図である。
【図6】 テキスト整形部により行われる整形処理の手
順の一例を示すフローチャート図である。
【図7】 DocuWorks文書から抽出されるテキ
ストを整形処理した結果の一例を示す図である。
【図8】 DocuWorks文書から抽出されるテキ
ストの各文の文字数の一例を示す図である。
【図9】 PDFファイルの文書をAcrobatRe
aderで表示した結果の一例を示す図である。
【図10】 PDFファイルから抽出されるテキストの
一例を示す図である。
【図11】 テキスト整形部により行われる整形処理の
手順の一例を示すフローチャート図である。
【図12】 PDFファイルから抽出されるテキストを
整形処理した結果の一例を示す図である。
【図13】 テキスト整形システムの他の構成例を示す
図である。
【図14】 企業名、製品名、接続詞(相当語)を段落
開始パターンとした場合におけるテキストの整形処理結
果の一例を示す図である。
【符号の説明】
1、21・・入力テキスト記憶部、 2、24・・テキ
スト整形部、3、25・・出力テキスト記憶部、 11
・・段落開始パターン記憶部、12・・段落内文字数記
憶部、 13・・入力テキスト位置記憶部、14・・出
力文字数記憶部、 15・・制御部、 22・・言語処
理部、23・・言語処理結果記憶部、

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 テキスト中に改行を追加するテキスト整
    形装置であって、 段落の開始パターンに相当する語句を特定する段落開始
    パターン語句特定条件を記憶する段落開始パターン語句
    特定条件記憶手段と、 段落開始パターン語句特定条件記憶手段に記憶された段
    落開始パターン語句特定条件に基づいて段落の開始パタ
    ーンに相当する語句をテキスト中で検出し、検出した語
    句の直前の位置に改行を追加する改行追加手段と、 を備えたことを特徴とするテキスト整形装置。
  2. 【請求項2】 請求項1に記載のテキスト整形装置にお
    いて、 文末パターンに相当する語句を特定する文末パターン語
    句特定条件を記憶する文末パターン語句特定条件記憶手
    段を備え、 改行追加手段は、段落開始パターン語句特定条件記憶手
    段に記憶された段落開始パターン語句特定条件及び文末
    パターン語句特定条件記憶手段に記憶された文末パター
    ン語句特定条件に基づいて、文末パターンに相当する語
    句の直後に位置する段落の開始パターンに相当する語句
    をテキスト中で検出し、検出した語句の直前の位置に改
    行を追加することを特徴とするテキスト整形装置。
  3. 【請求項3】 請求項1に記載のテキスト整形装置にお
    いて、 文末パターンに相当する語句を特定する文末パターン語
    句特定条件を記憶する文末パターン語句特定条件記憶手
    段と、 1つの段落内に含める文字数に関する閾値を記憶する段
    落内文字数閾値記憶手段と、を備え、 改行追加手段は、更に、文末パターン語句特定条件記憶
    手段に記憶された文末パターン語句特定条件及び段落内
    文字数閾値記憶手段に記憶された段落内文字数閾値に基
    づいて、段落内の最初の文字からの文字数が段落内文字
    数閾値を超えた位置に存する文末パターンに相当する語
    句を検出し、検出した語句の直後の位置に改行を追加す
    ることを特徴とするテキスト整形装置。
  4. 【請求項4】 請求項1に記載のテキスト整形装置にお
    いて、 文末パターンに相当する語句を特定する文末パターン語
    句特定条件を記憶する文末パターン語句特定条件記憶手
    段と、 1つの段落内に含める文数に関する閾値を記憶する段落
    内文数閾値記憶手段と、を備え、 改行追加手段は、更に、文末パターン語句特定条件記憶
    手段に記憶された文末パターン語句特定条件及び段落内
    文数閾値記憶手段に記憶された段落内文数閾値に基づい
    て、段落内の最初の文からの文数が段落内文数閾値を超
    えた位置に存する文末パターンに相当する語句を検出
    し、検出した語句の直後の位置に改行を追加することを
    特徴とするテキスト整形装置。
  5. 【請求項5】 請求項1乃至請求項4のいずれか1項に
    記載のテキスト整形装置において、 テキストを言語解析する言語解析手段を備え、 改行追加手段は、言語解析手段による言語解析結果に基
    づいて、段落の開始パターンに相当する語句或いは文末
    パターンに相当する語句を検出することを特徴とするテ
    キスト整形装置。
  6. 【請求項6】 請求項1乃至請求項5のいずれか1項に
    記載のテキスト整形装置において、 改行追加手段は、テキストのデータ中に改行のデータを
    挿入する態様により、テキスト中に改行を追加すること
    を特徴とするテキスト整形装置。
  7. 【請求項7】 請求項1乃至請求項5のいずれか1項に
    記載のテキスト整形装置において、 改行追加手段は、テキストを加工せずに、テキストが出
    力される際にテキスト中に改行が追加されるように制御
    する態様により、テキスト中に改行を追加することを特
    徴とするテキスト整形装置。
  8. 【請求項8】 請求項1乃至請求項7のいずれか1項に
    記載のテキスト整形装置において、 テキストとして、ゼロ個の改行を含むテキストが用いら
    れることを特徴とするテキスト整形装置。
  9. 【請求項9】 テキスト中から改行を削除するテキスト
    整形装置であって、 改行パターンに相当するパターンを特定する改行パター
    ン特定条件を記憶する改行パターン特定条件記憶手段
    と、 文末パターンに相当する語句を特定する文末パターン語
    句特定条件を記憶する文末パターン語句特定条件記憶手
    段と、 改行パターン特定条件記憶手段に記憶された改行パター
    ン特定条件及び文末パターン語句特定条件記憶手段に記
    憶された文末パターン語句特定条件に基づいて、直前の
    位置に文末パターンに相当する語句が存する位置以外の
    位置にあって改行パターンに相当するパターンを検出
    し、検出したパターンによる改行を削除する改行削除手
    段と、 を備えたことを特徴とするテキスト整形装置。
  10. 【請求項10】 請求項9に記載のテキスト整形装置に
    おいて、 テキストを言語解析する言語解析手段を備え、 改行削除手段は、言語解析手段による言語解析結果に基
    づいて、前記改行パターンに相当するパターンを検出す
    ることを特徴とするテキスト整形装置。
  11. 【請求項11】 請求項9又は請求項10に記載のテキ
    スト整形装置において、 テキストとして、出力の際の各行の終了位置毎に改行が
    設定されたテキストが用いられることを特徴とするテキ
    スト整形装置。
  12. 【請求項12】 ゼロ個の改行を含む検索対象となるテ
    キストから当該テキストの一部又は全部に対応するテキ
    スト部分を検索し、検索したテキスト部分をユーザに対
    して出力するテキスト検索出力装置であって、 検索対象となるテキストからテキスト部分を検索するテ
    キスト検索手段と、 検索されたテキスト部分が出力される際に当該テキスト
    部分中の所定の位置に改行が追加されるように制御する
    改行追加手段と、 を備えたことを特徴とするテキスト検索出力装置。
  13. 【請求項13】 テキスト中に改行を追加するテキスト
    整形方法であって、 段落の開始パターンに相当する語句を特定する段落開始
    パターン語句特定条件を記憶するメモリに記憶された段
    落開始パターン語句特定条件に基づいて段落の開始パタ
    ーンに相当する語句をテキスト中で検出し、検出した語
    句の直前の位置に改行を追加する、 ことを特徴とするテキスト整形方法。
  14. 【請求項14】 テキスト中から改行を削除するテキス
    ト整形方法であって、 改行パターンに相当するパターンを特定する改行パター
    ン特定条件を記憶するメモリに記憶された改行パターン
    特定条件及び文末パターンに相当する語句を特定する文
    末パターン語句特定条件を記憶するメモリに記憶された
    文末パターン語句特定条件に基づいて、直前の位置に文
    末パターンに相当する語句が存する位置以外の位置にあ
    って改行パターンに相当するパターンを検出し、検出し
    たパターンによる改行を削除する、 ことを特徴とするテキスト整形方法。
  15. 【請求項15】 ゼロ個の改行を含む検索対象となるテ
    キストから当該テキストの一部又は全部に対応するテキ
    スト部分を検索し、検索したテキスト部分をユーザに対
    して出力するテキスト検索出力方法であって、 検索されたテキスト部分が出力される際に当該テキスト
    部分中の所定の位置に改行が追加されるように制御す
    る、 ことを特徴とするテキスト検索出力方法。
  16. 【請求項16】 テキスト中に改行を追加する処理をコ
    ンピュータに実行させるプログラムであって、 段落の開始パターンに相当する語句を特定する段落開始
    パターン語句特定条件を記憶するメモリに記憶された段
    落開始パターン語句特定条件に基づいて段落の開始パタ
    ーンに相当する語句をテキスト中で検出する処理と、 検出した語句の直前の位置に改行を追加する処理と、 を当該コンピュータに実行させることを特徴とするプロ
    グラム。
  17. 【請求項17】 テキスト中から改行を削除する処理を
    コンピュータに実行させるプログラムであって、 改行パターンに相当するパターンを特定する改行パター
    ン特定条件を記憶するメモリに記憶された改行パターン
    特定条件及び文末パターンに相当する語句を特定する文
    末パターン語句特定条件を記憶するメモリに記憶された
    文末パターン語句特定条件に基づいて、直前の位置に文
    末パターンに相当する語句が存する位置以外の位置にあ
    って改行パターンに相当するパターンを検出する処理
    と、 検出したパターンによる改行を削除する処理と、 を当該コンピュータに実行させることを特徴とするプロ
    グラム。
  18. 【請求項18】 ゼロ個の改行を含む検索対象となるテ
    キストから当該テキストの一部又は全部に対応するテキ
    スト部分を検索する処理と、検索したテキスト部分をユ
    ーザに対して出力する処理とをコンピュータに実行させ
    るプログラムであって、 検索されたテキスト部分が出力される際に当該テキスト
    部分中の所定の位置に改行が追加されるように制御する
    処理を当該コンピュータに実行させることを特徴とする
    プログラム。
JP2001198570A 2001-06-29 2001-06-29 テキスト整形装置 Pending JP2003016052A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001198570A JP2003016052A (ja) 2001-06-29 2001-06-29 テキスト整形装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001198570A JP2003016052A (ja) 2001-06-29 2001-06-29 テキスト整形装置

Publications (1)

Publication Number Publication Date
JP2003016052A true JP2003016052A (ja) 2003-01-17

Family

ID=19036000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001198570A Pending JP2003016052A (ja) 2001-06-29 2001-06-29 テキスト整形装置

Country Status (1)

Country Link
JP (1) JP2003016052A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142905A (ja) * 2012-12-27 2014-08-07 Dainippon Printing Co Ltd 文書表示装置、文書表示方法、文書表示システムおよびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142905A (ja) * 2012-12-27 2014-08-07 Dainippon Printing Co Ltd 文書表示装置、文書表示方法、文書表示システムおよびプログラム
JP2017199408A (ja) * 2012-12-27 2017-11-02 大日本印刷株式会社 文書表示装置、文書表示方法、文書表示システムおよびプログラム

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5579224A (en) Dictionary creation supporting system
EP0741364A1 (en) Automatic method of selecting multi-word key phrases from a document
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JPH0484271A (ja) 文書内情報検索装置
JP2005038395A (ja) データベース検索装置
JPH09198395A (ja) 文書検索装置
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JP2003016052A (ja) テキスト整形装置
JP2003030176A (ja) テキスト整形装置
JPS60254367A (ja) 文章分析装置
JPH0877196A (ja) 文書情報抽出装置
JP2004534980A (ja) 計算ユニットにおけるテキスト処理方法及び計算ユニット
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2002312401A (ja) 電子ファイリング装置及びその制御方法、記憶媒体並びにプログラム
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JP2009059138A (ja) 単語検索装置、方法及びプログラム
JP3187671B2 (ja) 電子辞書表示装置
JPH01214963A (ja) 辞書引き装置
JPH09212523A (ja) 全文検索方法
JPH03131960A (ja) 文字処理方法およびその装置
JP3847801B2 (ja) 文字処理装置及びその処理方法
JPS62245366A (ja) 文書処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060510

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060608