JPH1115826A - 文書解析装置及び方法 - Google Patents

文書解析装置及び方法

Info

Publication number
JPH1115826A
JPH1115826A JP9168882A JP16888297A JPH1115826A JP H1115826 A JPH1115826 A JP H1115826A JP 9168882 A JP9168882 A JP 9168882A JP 16888297 A JP16888297 A JP 16888297A JP H1115826 A JPH1115826 A JP H1115826A
Authority
JP
Japan
Prior art keywords
block
sentence
text
document
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9168882A
Other languages
English (en)
Inventor
Noriko Koyama
紀子 小山
Yukihiro Fukunaga
幸弘 福永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba AVE Co Ltd
Original Assignee
Toshiba Corp
Toshiba AVE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba AVE Co Ltd filed Critical Toshiba Corp
Priority to JP9168882A priority Critical patent/JPH1115826A/ja
Publication of JPH1115826A publication Critical patent/JPH1115826A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】複数のブロックに分割されてしまった文章を結
合して1文章として正しく解析できるようにする。 【解決手段】入力装置101により入力されたレイアウ
ト情報付き文書中の各テキストブロック毎に、そのブロ
ックとそのブロックに連続する可能性のある他の各テキ
ストブロックのそれぞれ末尾文と先頭文を結合した文を
レイアウト解析部102にて生成して形態素解析部19
1による形態素解析を行わせる。ブロック再構成部10
6は、1つのテキストブロックとそのブロックに連続す
る可能性のある他の各テキストブロックのそれぞれ末尾
文と先頭文を結合した文に対する形態素解析の結果得ら
れる各評価値をもとに、そのテキストブロックに連続す
ると判定されるテキストブロックを検出して、該当する
2ブロックを1つのブロックに再構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力されたレイア
ウト情報付き文書に含まれる複数のテキストブロックに
ついてその順序を決定するのに好適な文書解析装置及び
方法に関する。
【0002】
【従来の技術】文書解析装置の文書解析機能の1つに、
入力されたレイアウト情報付き文書のページ上に含まれ
る複数の文書データブロックについてその順序を決定す
る機能がある。ここで、文書データブロック(以下、単
にブロックと称する)とは、印刷イメージとした場合に
適当な空行(スペース行)等により分割される、文章、
図、表の1区画を指す。
【0003】従来の文書解析装置では、文書ページ上の
複数ブロックの順序を、単に位置情報からの推測(例え
ば位置的に近いブロックは連続しているといった推測)
で行うのが一般的であった。
【0004】
【発明が解決しようとする課題】しかしながら、文書ペ
ージ上の各ブロックの順序は必ずしも相互の位置関係だ
けできまるものではない。このため、上記した従来技術
においては、ブロックの配置状況によっては、本来は文
が連続するブロック間であっても連続しない順序とな
り、両ブロック内のテキストデータに対して文書検索や
翻訳などの文書解析を伴う処理を行おうとするとブロッ
ク渡りをする文が解析できない等の問題があった。
【0005】そこで、本発明は上記の問題を解決するた
めになされたものであり、レイアウト情報付き文書の各
テキストブロック毎に、そのブロックと他の各テキスト
ブロックのそれぞれ末尾文と先頭文を結合した文を形態
素解析し、その文の自然さを評価することにより、最も
自然なブロックの接続順を調査し、ブロック順を再配置
することにより、ブロックが連続したテキストの場合に
は通常の1ブロックのテキストデータとして解析が可能
な文書解析装置及び方法を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明は、入力されたレ
イアウト情報付き文書を形態素解析して単語単位に分割
する文書解析装置において、入力文字列を最も自然な単
語列に分割し、その単語列がどの程度自然な並びである
かを数値化した評価値により表す形態素解析処理を行う
形態素解析手段と、上記レイアウト情報付き文書中の各
テキストブロック毎に、そのテキストブロックの末尾文
を切り出すと共に、そのテキストブロック以外の全ての
テキストブロックの先頭文を順次切り出し、そのテキス
トブロックと他のテキストブロックとの各2ブロックの
組み合わせ毎に、上記切り出した末尾文及び先頭文を結
合した文字列を生成して当該文字列に対する上記形態素
解析手段による形態素解析処理を行わせるレイアウト解
析手段と、上記レイアウト情報付き文書中の各テキスト
ブロックについて、そのテキストブロックと他のテキス
トブロックとの各2ブロックの組み合わせ毎に上記レイ
アウト解析手段により生成された末尾文及び先頭文を結
合した文字列に対する上記形態素解析手段による形態素
解析処理で得られる各評価値をもとに、そのテキストブ
ロックに連続すると判定されるテキストブロックを検出
して、該当する2ブロックを1つのブロックに再構成す
るブロック再構成手段とを備えたことを特徴とする。
【0007】このような構成においては、レイアウト情
報付き文書の各テキストブロック毎に、そのブロックと
他の各テキストブロックのそれぞれ末尾文と先頭文を結
合した文が形態素解析され、その単語並びの自然度を調
べることによって、2ブロックにまたがる文であるか否
か、即ち該当する2ブロックが連続しているか否かが判
定されて、連続していると判定できた2ブロックについ
ては1つのブロックに再構成される。これにより、複数
のブロックに分割されてしまった文章を再度結合して1
文章として正しく解析することが可能となる。
【0008】ここで、レイアウト情報付き文書中の各ブ
ロックについての管理を容易にするために、レイアウト
解析手段により各ブロックに連続する番号(ブロック番
号)を付与し、連続していると判定できた2ブロックに
ついては、ブロック再構成手段により同一ブロック番号
(例えば先行するブロックに付与されていたブロック番
号)を再割り当てする構成とするとよい。また、再構成
された、即ち同一ブロック番号が再割り当てられた複数
ブロックは物理的には分離していることから、個々のブ
ロックを識別するために、それぞれ固有の識別番号、例
えばセグメント番号を割り当てると、管理しやすい。
【0009】この他、連続するブロックを検出するの
に、レイアウト情報付き文書中の各テキストブロック毎
に他の全てのテキストブロックと組み合わせ、その組み
合わせ毎に末尾文及び先頭文を結合した文字列を生成す
るのに代えて、レイアウト情報付き文書中の各テキスト
ブロック毎に、そのテキストブロックとの位置関係から
連続する可能性のある他の全てのテキストブロックを選
択して、そのテキストブロックと組み合わせ、その組み
合わせ毎に末尾文及び先頭文を結合した文字列を生成す
る構成とすることも可能である。この場合、連続しそう
もない2ブロックについて末尾文及び先頭文を切り出し
て結合し、形態素解析を行う無駄をなくすことができ
る。
【0010】更に、以上の構成の文書解析装置を用いて
文書検索装置を実現することも可能である。そのために
は、上記ブロック再構成手段による再構成後に各テキス
トブロック毎に、そのテキストブロックから順に1文を
抽出して形態素解析手段による形態素解析処理を行わせ
ることによって単語情報に分解する文書解析手段と、ユ
ーザ指定の検索単語を入力し、当該検索単語を上記文書
解析手段によって分解された単語情報より検索する文書
検索手段と、この文書検索手段により検索された単語を
含むページ、ブロックまたは文のイメージを展開して表
示するイメージ展開手段とを追加すればよい。
【0011】このような構成においては、複数ブロック
に分割されてしまった文章を再度結合して1文章として
形態素解析した結果の単語列を検索することにより、ブ
ロック間に分割されていた単語も見つけ出すことが可能
となる。また、文書検索手段により検索された単語を含
むページ、ブロックまたは文のイメージを展開して表示
する際には、上記検索された単語を他の単語とは異なる
表示形態で表示(強調表示)することで、検索された単
語をユーザに対して容易に視認可能に提示できる。
【0012】また、以上の構成の文書解析装置を用いて
文書翻訳装置を実現するならば、1つの文章が複数ブロ
ックに分割されていたとしても、複数ブロックに分割さ
れてしまった文章が再度結合されることから、正しい翻
訳処理が可能となる。
【0013】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。 [第1の実施形態]図1は本発明の文書解析装置の第1
の実施形態を示すブロック構成図である。
【0014】図1において、入力装置101は、印刷イ
メージとして再構成可能な情報付きの、例えば座標情報
付きの、イメージデータあるいは文字コード(文字デー
タ)を含んだ文書データ、即ちレイアウト情報付きの文
書データを入力するもので、例えばOCR(光学的文字
読取装置)等である。
【0015】入力装置101により入力された文書デー
タはレイアウト解析部102で、イメージデータと文字
データに区別された後、その座標から適当なブロックに
分割され、ブロックのデータ種別(イメージまたはテキ
スト)、当該ブロックの座標範囲(ここでは、左上端の
座標と右下端の座標とで示される座標範囲)、及びデー
タの実体(実データ)を格納したバッファへのポインタ
の各情報がレイアウトバッファ103に格納される。ま
た、データ種別がテキストの場合は、そのテキストの記
述方向(ここでは、縦書きまたは横書きの区別)を示す
情報も併せて格納される。ここで、上記データの実体
は、データ種別がテキストの場合はテキストバッファ1
04に、イメージの場合はイメージバッファ105にそ
れぞれ格納される。
【0016】レイアウト解析部102は、レイアウトバ
ッファ103への上記の情報格納動作を行うと、当該レ
イアウトバッファ103の中から連続する可能性のある
テキストブロックの組み合わせを取り出す。例えば、テ
キストブロックAに続く可能性のあるブロックB及びブ
ロックCの組み合わせA−B及びA−Cがあるならば、
その組み合わせA−B及びA−Cを取り出す。ここで、
連続する可能性があるか否かについては、後述するよう
にブロックの座標関係とテキストの方向から判断する。
この他、このテキストの連続判定は、同一ページ上のブ
ロックに限らず、連続するページの末尾ブロックと先頭
ブロックであってもよい。
【0017】次に、レイアウト解析部102は、連続す
る可能性ありと判定したブロックの組み合わせのうちの
先行するブロック(前方ブロック)の末尾となる文と後
続するブロック(後方ブロック)の先頭となる文を各々
のテキストより空白、句点などをキーワードとして切り
出し、結合した上で形態素解析部191に送る。
【0018】すると、形態素解析部191はまず、レイ
アウト解析部102から送られた文、即ち文字列を文字
列バッファ192に格納する。次に形態素解析部191
は、文字列バッファ192に格納された文字列から単語
となり得る文字の組み合わせを単語辞書195を参照し
検索する。この単語辞書195は、各種単語について、
その単語の表記、品詞、活用などの情報を登録したもの
である。
【0019】形態素解析部191は、検索した単語につ
いて、その構成文字位置に従って直後接する単語間で文
法的に接続可であるかを接続ルール196を参照し調査
する。更に形態素解析部191は、接続可能な単語を実
際に接続して文頭から文末までの単語系列を複数作成
し、評価ルール197に従って最も自然な単語列となる
1系列を選ぶ。そして形態素解析部191は、選んだ単
語系列(単語列)の自然度を示す評価点をレイアウ卜解
析部102に返す。
【0020】レイアウト解析部102は、形態素解析部
191から返された評価点を各ブロック間の連続可能性
評価値としてブロック再構成部106に渡す。ブロック
再構成部106では、評価値に従って連続する複数ブロ
ックを同一ブロックとしてグルーピングし、例えばブロ
ックA,B,Cが連続であった場合であれば、当該ブロ
ックA,B,Cをレイアウトバッファ103内でそれぞ
れブロックAのセグメント1,2,3とする。
【0021】入力装置101から入力された全てのデー
タについてのレイアウト解析が終了すると、文書解析部
107はレイアウトバッファ103に格納されたテキス
トデータをブロック単位にそれぞれ1文章と判断して順
次解析する。そのため文書解析部107は、1文章か
ら、句点、空白等、文の区切りを表す文字コードを抽出
することで、1文ずつ切り出して形態素解析部191に
送る。
【0022】これを受けて形態素解析部191は、先の
レイアウト解析時と同様にして入力された文を形態素解
析し、ここでは、評価点の他に系列を構成する各単語の
始点、表記、品詞などの単語情報を文書解析部107に
返す。文書解析部107は、形態素解析部191からの
単語情報を、解析対象とした文が含まれる(レイアウト
バッファ103に格納されている)ブロック、セグメン
トのブロック番号、セグメント番号と共に、単語情報バ
ッファ108に格納する。最後に文書解析部107は、
単語情報バッファ108に格納されている情報(解析情
報)を入力データ毎にまとめて出力装置109に出力す
る。ここで出力装置109は、CRTディスプレイ、液
晶ディスプレイ等の表示装置である。
【0023】次に、図1の構成の文書解析装置における
文書解析処理の具体的な手順について、図2のフローチ
ャートを参照して説明する。今、入力装置101より、
図4(a)に示すようなブロック配置をとるレイアウト
情報付き文書データが、OCR読み取り結果のデータと
して入力されたものとする(ステップ201)。この図
4(a)において破線で示される矩形領域はブロックを
示し、そのブロックに付されている数字はブロック番号
を示す。また、ハッチングが施されたブロック番号のブ
ロックはイメージ(I)のブロックであり、ハッチング
が施されていないブロック番号のブロックはテキスト
(T)のブロックであることを示す。ここでは、図4
(a)のブロック配置の文書データ(OCR読み取り結
果)は、第1ブロック乃至第14ブロックの14ブロッ
クからなり、そのうちの第6ブロック、第10ブロッ
ク、第12ブロックがイメージ(イメージブロック)
で、残りがテキスト(テキストブロック)である。ま
た、このテキストブロックの方向は、全て横書き(H)
であり、縦書き(V)のブロックは存在しないものとす
る。なお、OCR読み取り結果のデータ自体にはブロッ
ク番号は存在しない。入力装置101により入力された
図4(a)のブロック配置の文書データ(OCR読み取
り結果)は、出力装置109に表示出力される。
【0024】レイアウト解析部102は、入力装置10
1により図4(a)のようなブロック配置のレイアウト
情報付き文書データ(OCR読み取り結果)が入力され
ると(ステップ201)、そのデータ内容をチェックし
てブロック単位にブロック情報を生成し、レイアウトバ
ッファ103に格納する(ステップ202)。ここでは
レイアウト解析部102は、入力文書データを各ブロッ
ク毎に印刷イメージ化した際のページ番号、座標範囲に
加え、各ブロックに順次割り当てるブロック番号と、テ
キスト(T)であるかイメージ(I)であるかのデータ
種別、更にはテキストの場合には縦書き(V)であるか
横書き(I)であるかの記述方向を含むブロック情報を
生成する。このブロック情報には他に、データの実体
(実データ)を格納したバッファへのポインタが含まれ
ており、テキストブロックのデータの実体は、当該ブロ
ックのブロック情報中のポインタの指すテキストバッフ
ァ104に格納され、イメージブロックのデータの実体
は、当該ブロックのブロック情報中のポインタの指すイ
メージバッファ105に格納される。なお、各ブロック
に割り当てられるブロック番号には、全ページの全ブロ
ックに渡って連続する番号が用いられる。
【0025】図4(a)のようなブロック配置のレイア
ウト情報付き文書データ(OCR読み取り結果)が入力
された場合のレイアウトバッファ103におけるブロッ
ク情報格納例を図4(b)に示す。図4(b)の例のよ
うに、レイアウトバッファ103には、、各ブロック単
位で、ページ番号、ブロック番号、セグメント番号、デ
ータ種別(Iがイメージ、Tがテキスト)、座標範囲
((X1 ,Y1 )−(X2 ,Y2 ))、テキストブロッ
クの場合の縦書き(V)横書き(H)の別、実データが
格納されているバッファへのポインタからなるブロック
情報が格納される。ここでセグメント番号は、連続する
ブロックが検出されて、それらのブロックを1つのブロ
ックに再構成した場合に、個々のブロックをセグメント
として識別するために割り当てられる連続番号である。
但し図4(b)の状態は、連続するブロックの検出が行
われる前の段階であることから、全てのブロックのセグ
メント番号は先頭セグメント(初期値)を示す1とな
る。
【0026】レイアウト解析部102は、レイアウトバ
ッファ103にブロック情報を格納すると、ブロック番
号を代入するカウンタFnを初期値1に設定し(ステッ
プ203)、順にFnを進めながらレイアウトバッファ
103を参照することで、データ種別がテキストである
ブロックを探す(ステップ204)。もし、カウンタF
nの示すブロック番号のブロック、即ちFnブロックが
テキスト(テキストブロック)であった場合、レイアウ
ト解析部102は、対応するブロック情報中のポインタ
の指すテキストバッファ104に格納されている当該ブ
ロックのテキストデータから、当該ブロックの最後尾の
文(末尾文)を切り出す(ステップ205)。このブロ
ック内の最後尾の文は、句点や空白等、文の区切りとな
る文字コードを抽出することで切り出すことができる。
【0027】次にレイアウト解析部102は、Fnブロ
ックに連続する可能性のあるテキストデータのブロック
を探すために用意されるカウンタRnを初期値1に設定
する(ステップ206)。そしてレイアウト解析部10
2は、Rnを順次進めながら、Fnブロックに連続する
可能性のあるブロックを探す(ステップ207)。ここ
で連続可能性の有無の判定には、カウンタRnの示すブ
ロックがテキストで、記述方向がFnブロックと同一且
つ記述方向へのブロック幅がほぼ同値であるという判定
条件を適用する。この判定条件には、例えば記述方向が
横書きでFnブロックより下方に位置する場合には、間
に他のテキストブロックを挟んではならないなどの条件
も含まれる。
【0028】レイアウト解析部102は、カウンタRn
の示すブロック、即ちRnブロックが、Fnブロックに
連続する可能性があると判定した場合、先にFnブロッ
クの末尾文を取り出したのと同様にしてRnブロックの
先頭文を切り出す(ステップ208)。そしてレイアウ
ト解析部102は、先に切り出したFnブロックの末尾
文と今回切り出したRnブロックの先頭文を結合して形
態素解析部191に送る(ステップ209)。
【0029】形態素解析部191は、レイアウト解析部
102から送られた文を形態素に分割して、その文の自
然度を示す評価値を取得する形態素解析処理を行い、取
得した評価値を当該レイアウト解析部102に返す(ス
テップ210)。
【0030】ここで、上記した形態素解析部191によ
る形態素解析処理(ステップ210)の詳細を、図3の
フローチャートを参照して説明する。まず形態素解析部
191は、レイアウト解析部102から送られた文(を
構成する文字列)を入力して文字列バッファ192に格
納する(ステップ301)。次に形態素解析部191
は、文字列バッファ192に格納されている入力文字列
の各文字を始点とし文字列末尾方向に表記が入力と一致
する単語を、各種単語について、その単語の表記、品
詞、活用などの情報を登録した単語辞書195より検索
する(ステップ302)。そして形態素解析部191
は、この検索処理で得られた全ての単語について、各単
語単位で、始点(その単語の先頭文字の入力文字列にお
ける文字位置)、表記、品詞、活用、文字数の単語情報
を単語バッファ193に格納する(ステップ303)。
ここで、単語バッファ193に格納される単語(の単語
情報)には、例えば格納順に連続する単語番号が割り当
てられる。また、単語バッファ193には、上記した始
点、表記、品詞、活用、文字数を格納するための項目の
他に、対応する単語に接続可能な単語を格納するための
項目(接続可能単語項目)が用意されている。
【0031】次に形態素解析部191は、上記検索処理
で得られた単語バッファ193内の単語の1つを取り出
し、その単語(単語Aと呼ぶ)が、当該単語Aにつなが
る(単語バッファ193内の)次の単語、即ち単語Aの
始点+文字数で示される文字位置を始点とする単語(単
語Bと呼ぶ)と文法的に接続可能であるか否かを、両単
語A,Bの品詞及び活用と接続ルール196を参照して
調査し、接続可能であるならば、単語Aが格納されてい
る単語バッファ193の接続可能単語項目に単語Bの単
語番号を格納する(ステップ304)。ここでの接続ル
ール196は、各品詞または活用について、その品詞ま
たは活用がどの品詞または活用に接続可能かを記述した
ファイルである。
【0032】次に形態素解析部191は、文頭から始ま
る単語を順に単語バッファ193に格納されている接続
可能単語に従って再帰的に接続し、文末に達したところ
で完成した単語系列を系列バッファ194に格納する
(ステップ305,306)。このようにして、全ての
文頭から始まる単語に対して文末までの単語系列が系列
バッファ194内に完成すると、形態素解析部191
は、系列バッファ194内の各単語系列が日本語として
自然であるか否かを評価ルール197に従って調査し、
その自然度を数値で表した評価値を当該系列に対応付け
て系列バッファ194に格納する(ステップ307)。
最後に形態素解析部191は、最も評価値の高かった単
語系列の単語情報及び評価値からなる形態素解析結果を
レイアウト解析部102に出力する(ステップ30
8)。
【0033】以上が、形態素解析部191によるステッ
プ210の形態素解析処理の詳細である。さて、形態素
解析部191によるステップ210の形態素解析処理が
終了し、Fnブロックの末尾文とRnブロックの先頭文
を結合した文に対する(当該文の自然度の)評価値を含
む形態素解析結果がレイアウト解析部102に出力され
ると、レイアウト解析部102は以下の処理を行う。
【0034】まずレイアウト解析部102は、Fnブロ
ック(つまり前方ブロック)の末尾文とRnブロック
(つまり後方ブロック)の先頭文を結合した文に対する
評価値を、その両ブロックのブロック番号と共にブロッ
ク再構成部106に渡し、そのブロック番号対と評価値
の組からなる結合評価情報を結合評価バッファ111に
格納させる(ステップ211)。
【0035】図5に結合評価バッファ111における結
合評価情報格納例を示す。この図5では、ブロック番号
が7のブロック(第7ブロック)に連続する可能性のあ
るブロック番号が8のブロック(第8ブロック)とブロ
ック番号が9のブロック(第第9ブロック)での結合評
価の結果が格納されている例が示されている。
【0036】レイアウト解析部102は、結合評価バッ
ファ111に結合評価情報が格納されると、カウンタR
nを進め(ステップ212)、Fnブロックからの連続
可能性について調査する(ステップ207〜213)。
なお、図2のフローチャートでは、Rn=Fnの場合、
即ち同一ブロック同士の場合には、RnブロックはFn
ブロックに連続する可能性がないものとして、そのまま
カウンタRnが進められる(ステップ207,21
2)。
【0037】やがて、現在のFnブロックとの結合評価
を全てのブロックについて終了すると、レイアウト解析
部102はブロック再構成部106を起動する。すると
ブロック再構成部106は、結合評価バッファ111の
評価値を参照し、Fnブロックに連続するブロックが特
定できる場合には、そのブロックをFnブロックの連続
セグメントとして再配置し、レイアウトバッファ103
のデータを書き直すブロック再構成処理を行う(ステッ
プ214)。
【0038】このブロック再構成処理の具体例を図6を
参照して説明する。まず、図6(a)に、図4(a)に
示したブロック配置のレイアウト情報付き文書データを
入力した場合のブロック再構成前のレイアウトバッファ
103の(一部の)内容例を示す。また、図6(b)に
は第7ブロック(から切り出された当該ブロック)の末
尾文を示し、図6(c)、図6(d)にはそれぞれ第8
ブロック、第9ブロック(から切り出された当該ブロッ
ク)の先頭文を示す。
【0039】ここでは、第7ブロックに連続する可能性
があるブロックは、第8ブロックと第9ブロックの両者
であるとすると、(b)+(c)及び(b)+(d)な
る文を作成して、それぞれ形態素解析を行うと、評価値
は図5に示した値となる。この評価値から、ブロック再
構成部106は第7ブロックと第9ブロックが連続する
と判断し、レイアウトバッファ103の第9ブロックの
部分を、図6(e)に示すように、第7ブロックの第2
セグメントとして再構成する。
【0040】レイアウト解析部102は、Fnを進めな
がらすべてのテキストブロック間の連続性について調査
し、ブロック再構成部106によるブロック再構成を行
わせる(ステップ204〜216)。
【0041】このようにしてブロック再構成が完了する
と、レイアウト解析部102から文書解析部107に制
御が渡される。すると文書解析部107は1文ずつを形
態素解析する。具体的には、まず文書解析部107は、
レイアウトバッファ103(に格納されているブロック
情報)のブロック番号をカウントするためのカウンタB
nを初期値1に設定する(ステップ217)。もし、カ
ウンタBnの示すブロック番号のブロック、即ちBnブ
ロックがテキストデータである場合には(ステップ21
8)、文書解析部107はブロック内の文番号を知るた
めのカウンタTnを初期値1に設定し(ステップ21
9)、BnブロックのTn番目の文を切り出す(ステッ
プ220)。ここで、Bnブロックが先のブロック再構
成で同一ブロックに再構成されたものであるならば、そ
の際に付与されたセグメント番号には関係なくテキスト
データは連続であると見なされ、複数のセグメント間に
渡る文が切り出されることもある。
【0042】文書解析部107により切り出された文は
形態素解析部191に送られて、当該形態素解析部19
1の形態素解析により単語単位に分割される(ステップ
221)。形態素解析部191は、分割した各単語の情
報(即ち形態素情報)として、ブロック番号Bn、セグ
メント番号、(ブロック内の)文番号Tn、単語始点
(文字位置)、表記、品詞を含む情報を取得し、単語情
報バッファ108に順次格納する(ステップ222)。
この単語情報バッファ108における単語情報格納例を
図7に示す。図1の文書解析装置を例えば文書検索装置
に適用した場合には、オペレータ(ユーザ)の指示した
単語を単語情報バッファ108上で検索することにより
当該単語が含まれるブロック、セグメント、ブロック内
の文番号等が判明するため、出力装置109による表示
出力が可能となる。
【0043】文書解析部107は、全てのテキストブロ
ックの文に対して単語の抽出処理を行うためカウンタT
n及びBnを進めながら以上の処理を繰り返す(ステッ
プ218〜226)。 [第2の実施形態]図8は本発明の文書解析装置の第2
の実施形態を示すブロック構成図であり、図1と同一部
分には同一符号を付して説明を省略する。
【0044】図8の文書解析装置の特徴は、文書検索装
置を実現するために文書検索機能が付加されて、文書検
索装置をなしていることである。具体的には、図8の文
書解析装置(即ち文書検索装置)は、オペレータの指示
した単語を単語情報バッファ108から検索し、その検
索結果をもとにレイアウトバッファ103を参照するこ
とで、その単語が含まれるページ番号を取得する文書検
索部801と、取得したページ番号のページの印刷イメ
ージを展開するイメージ展開部802とが、図1の構成
の文書解析装置に付加されたものである。
【0045】図8の構成では、入力装置101から入力
されたレイアウト情報付きの文書データ(中のテキスト
ブロック)が文書解析部107において単語単位に分割
された後、オペレータが検索のキーとなる単語を図示せ
ぬ入力手段から指示入力すると、文書解析部107から
文書検索部801に制御が渡される。
【0046】すると文書検索部801は、オペレータの
指示した単語を単語情報バッファ108から検索し、当
該単語を含むブロックのブロック番号及びセグメント番
号を得る。次に文書検索部801は、両番号によりレイ
アウトバッファ103を調査することにより、両番号と
組をなして格納されているページ番号、即ちオペレータ
の指示した単語を含むページのページ番号を取得する。
【0047】イメージ展開部802は、文書検索部80
1が取得したページ番号のページのイメージ、テキスト
をそれぞれ印刷イメージとしてビットマップ状に展開す
る。このイメージ展開部802で展開された該当ページ
の印刷イメージデータは出力装置109上に検索結果と
して表示される。ここで、イメージ展開部802にて検
索単語を含むページの印刷イメージを展開する際には、
当該単語に高輝度あるいは下線などの文字属性(表示属
性)を与えるものとする。このようにすると、出力装置
109の表示画面上では、検索単語が高輝度あるいは下
線付きなど、他の単語とは異なる表示形態で強調表示さ
れるため、オペレータは自身が指示した検索単語を含む
ページが表示されていることを簡単に視認できる。な
お、オペレータにより、ページ出力モード、ブロック出
力モードなど、出力モードが選択設定可能な構成とし、
ページ出力モードが選択設定された場合には、上記した
ように検索単語が含まれるページを出力し、ブロック出
力モードが選択設定された場合には、検索単語を含むテ
キストブロックをレイアウトバッファ103より収集し
て出力するようにしてもよい。
【0048】次に、図8の文書解析装置(文書検索装
置)の動作を、図1の文書解析装置と異なる部分を中心
に、図9のフローチャートを参照して説明する。まず、
図8の文書解析装置では、図2中のステップ201〜2
26に相当するステップ901〜926により、前記第
1の実施形態で詳述したような入力文書データの解析処
理が行われて、当該文書データ(中のテキストブロッ
ク)が単語単位に分割され、対応する単語情報が全て単
語情報バッファ108に格納される。なお、図9のフロ
ーチャートでは、ステップ901(データ入力ステッ
プ)とステップ926(文書解析ループの終了判定ステ
ップ)の間のステップ902〜925については省略し
てあるため、必要があれば、図2中のステップ101〜
125を参照されたい。
【0049】さて、入力文書データの文書解析が終了
し、単語情報バッファ108への格納が終了すると、オ
ペレータは検索したい単語を入力する(ステップ92
7)。ここでは、検索単語の入力に代えて、検索終了を
指示入力することも可能であり、その際には処理終了と
なるが、本実施形態のように検索単語指定がされた場合
には、文書解析部107から文書検索部801に制御が
渡される。
【0050】文書検索部801はまず、単語情報バッフ
ァ108内の単語情報(の格納位置を指し示して当該単
語情報)を検索するためのカウンタWnを初期値1に設
定する(ステップ928,929)。次に文書検索部8
01は、単語情報バッファ108内のWn番目の単語情
報(以下、単語情報Wnと呼ぶ)の示す単語と検索単語
が一致するか否かを調査する(ステップ930)。も
し、一致する場合には、文書検索部801は単語情報W
nからブロック番号、セグメント番号を取得し、そのブ
ロック番号、セグメント番号からレイアウトバッファ1
03を参照することで、そのブロック番号、セグメント
番号のブロック、セグメントを持つページのページ番号
Pnを得る(ステップ931)。
【0051】イメージ展開部802は、レイアウトバッ
ファ103からページ番号Pnのページに属するテキス
ト、イメージの各ブロックの座標データと、そのブロッ
クのデータが格納されているテキストバッファ104、
イメージバッファ105へのポインタとを取得すること
で、そのブロックの印刷イメージをビットマップ状に展
開する(ステップ932)。この際、イメージ展開部8
02は、検索単語(に一致する単語)については、高輝
度表示あるいは下線付き表示(といった強調表示)とな
るような属性を付加する。イメージ展開部802により
作成された検索単語を含むページの印刷イメージは出力
装置109上に表示される(ステップ933)。
【0052】この状態で、オペレータにより検索単語を
含む次のページの表示が指示された場合には(ステップ
934)、文書検索部801は単語情報バッファ108
内をカウンタWnを進めながら順次検索し、見つかった
場合には該当ページの表示を終了指示があるまで行う
(ステップ927〜936)。
【0053】以上に述べた第1及び第2の実施形態で適
用した文書検索装置における処理手順は、プログラム読
み取り可能なパーソナルコンピュータ等のコンピュータ
に、当該処理手順を実行させるためのプログラムを記録
したCD−ROM、DVD−ROM、フロッピーディス
ク、メモリカード等の記録媒体に記録されているプログ
ラムを当該コンピュータで読み取り実行させることによ
り実現される。なお、プログラムを記録した記録媒体の
内容が、通信回線等を介してコンピュータにダウンロー
ドされるものであっても構わない。
【0054】また、以上に述べた第1及び第2の実施形
態では、入力データはOCRの認識結果のように各テキ
ストブロックの範囲が座標情報として得られるレイアウ
ト情報付き文書に対するブロック順の再構成を行う場合
について説明したが、各ブロックの位置関係が推定でき
る形式、例えばHTML(Hyper Text Markup Languag
e)形式の文書などでも、レイアウト情報付き文書とし
て適用可能である。このHTML文書に適用した場合、
その文書内のブロックを再構成することによって改ペー
ジや改段、あるいはイメージデータの挿入により文書が
分割されたテキストを再構成し、通常のテキストとして
文書解析を行うことが可能となる。
【0055】また、前記第2の実施形態では、前記第1
の実施形態における文書解析装置に文書検索機能を付加
して文書検索装置を実現する場合について説明したが、
文書検索機能に代えて翻訳機能を付加することで、文書
翻訳装置を実現することも可能である。この文書翻訳装
置では、1つの文章が複数ブロックに分割されていたと
しても、複数ブロックに分割されてしまった文章を再度
結合することができることから、正しい翻訳処理が可能
となる。
【0056】
【発明の効果】以上詳述したように本発明によれば、レ
イアウト情報付き文書の各テキストブロック毎に、その
ブロックと他の各テキストブロックのそれぞれ末尾文と
先頭文を結合した文を形態素解析し、その文の自然さを
評価することにより、最も自然なブロックの接続順を調
査し、ブロック順を再配置することにより、ブロックが
連続したテキストの場合には通常の1ブロックのテキス
トデータとして解析することができる。
【0057】したがって、このような文書解析機能を文
書検索装置に持たせた場合には、複数のブロックに分割
されてしまった文章を再度結合して1文章として解析し
た結果の単語列を対象に検索することで、ブロック間に
分割されていた単語も正しく見つけ出すことができる。
【図面の簡単な説明】
【図1】本発明の文書解析装置の第1の実施形態を示す
ブロック構成図。
【図2】図1の構成の文書解析装置の動作を説明するた
めのフローチャート。
【図3】図2中の形態素解析処理(ステップ210)の
詳細な手順を示すフローチャート。
【図4】OCR読み取り結果としてのレイアウト情報付
き文書データの示すブロック配置例と、当該文書データ
のレイアウトバッファ103におけるデータ格納例を示
す図。
【図5】図1中の結合評価バッファ111における結合
評価情報格納例を示す図。
【図6】図4に示したレイアウト情報付き文書データを
入力した場合のブロック再構成前後のレイアウトバッフ
ァ103の内容例を、先行するブロックの末尾文と、当
該ブロックに連続する可能性のある2つのブロックの先
頭文と共に示す図。
【図7】図1中の単語情報バッファ108における単語
情報格納例を示す図。
【図8】本発明の文書解析装置の第2の実施形態を示す
ブロック構成図。
【図9】図8の構成の文書検索装置の動作を、図1の文
書検索装置と異なる部分を中心に説明するためのフロー
チャート。
【符号の説明】
101…入力装置 102…レイアウト解析部 103…レイアウトバッファ 106…ブロック再構成部 107…文書解析部 108…単語情報バッファ 109…出力装置 111…結合評価バッファ 191…形態素解析部 801…文書検索部 802…イメージ展開部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力されたレイアウト情報付き文書を形
    態素解析して単語単位に分割する文書解析装置におい
    て、 入力された文字列を最も自然な単語列に分割し、その単
    語列がどの程度自然な並びであるかを数値化した評価値
    により表す形態素解析処理を行う形態素解析手段と、 前記レイアウト情報付き文書中の各テキストブロック毎
    に、そのテキストブロックの末尾文を切り出すと共に、
    そのテキストブロック以外の全てのテキストブロックの
    先頭文を順次切り出し、そのテキストブロックと他のテ
    キストブロックとの各2ブロックの組み合わせ毎に、前
    記切り出した末尾文及び先頭文を結合した文字列を生成
    して当該文字列に対する前記形態素解析手段による形態
    素解析処理を行わせるレイアウト解析手段と、 前記レイアウト情報付き文書中の各テキストブロックに
    ついて、そのテキストブロックと他のテキストブロック
    との各2ブロックの組み合わせ毎に前記レイアウト解析
    手段により生成された前記末尾文及び先頭文を結合した
    文字列に対する前記形態素解析手段による前記形態素解
    析処理で得られる各評価値をもとに、そのテキストブロ
    ックに連続すると判定されるテキストブロックを検出し
    て、該当する2ブロックを1つのブロックに再構成する
    ブロック再構成手段とを具備することを特徴とする文書
    解析装置。
  2. 【請求項2】 入力されたレイアウト情報付き文書を形
    態素解析して単語単位に分割する文書解析装置におい
    て、 入力された文字列を最も自然な単語列に分割し、その単
    語列がどの程度自然な並びであるかを数値化した評価値
    により表す形態素解析処理を行う形態素解析手段と、 前記レイアウト情報付き文書中の各テキストブロック毎
    に、そのテキストブロックの末尾文を切り出すと共に、
    そのテキストブロックとの位置関係から当該ブロックに
    連続する可能性のある他の全てのテキストブロックの先
    頭文を順次切り出し、そのテキストブロックと他のテキ
    ストブロックとの各2ブロックの組み合わせ毎に、前記
    切り出した末尾文及び先頭文を結合した文字列を生成し
    て当該文字列に対する前記形態素解析手段による形態素
    解析処理を行わせるレイアウト解析手段と、 前記レイアウト情報付き文書中の各テキストブロックに
    ついて、そのテキストブロックと当該ブロックに連続す
    る可能性のある他のテキストブロックとの各2ブロック
    の組み合わせ毎に前記レイアウト解析手段により生成さ
    れた前記末尾文及び先頭文を結合した文字列に対する前
    記形態素解析手段による前記形態素解析処理で得られる
    各評価値をもとに、そのテキストブロックに連続すると
    判定されるテキストブロックを検出して、該当する2ブ
    ロックを1つのブロックに再構成するブロック再構成手
    段とを具備することを特徴とする文書解析装置。
  3. 【請求項3】 入力されたレイアウト情報付き文書を形
    態素解析して単語単位に分割し、得られた単語の中から
    ユーザ指定の単語を検索する文書検索装置において、 入力された文字列を最も自然な単語列に分割し、その単
    語列がどの程度自然な並びであるかを数値化した評価値
    により表す形態素解析処理を行う形態素解析手段と、 前記レイアウト情報付き文書中の各テキストブロック毎
    に、そのテキストブロックの末尾文を切り出すと共に、
    そのテキストブロック以外の全てのテキストブロックの
    先頭文を順次切り出し、そのテキストブロックと他のテ
    キストブロックとの各2ブロックの組み合わせ毎に、前
    記切り出した末尾文及び先頭文を結合した文字列を生成
    して当該文字列に対する前記形態素解析手段による形態
    素解析処理を行わせるレイアウト解析手段と、 前記レイアウト情報付き文書中の各テキストブロックに
    ついて、そのテキストブロックと他のテキストブロック
    との各2ブロックの組み合わせ毎に前記レイアウト解析
    手段により生成された前記末尾文及び先頭文を結合した
    文字列に対する前記形態素解析手段による前記形態素解
    析処理で得られる各評価値をもとに、そのテキストブロ
    ックに連続すると判定されるテキストブロックを検出し
    て、該当する2ブロックを1つのブロックに再構成する
    ブロック再構成手段と、 前記ブロック再構成手段による再構成後に前記各テキス
    トブロック毎に、そのテキストブロックから順に1文を
    抽出して前記形態素解析手段による形態素解析処理を行
    わせることによって単語情報に分解する文書解析手段
    と、 ユーザ指定の検索単語を入力し、当該検索単語を前記文
    書解析手段によって分解された単語情報より検索する文
    書検索手段と、 前記文書検索手段により検索された単語を含むページ、
    ブロックまたは文のイメージを展開して表示するイメー
    ジ展開手段とを具備することを特徴とする文書検索装
    置。
  4. 【請求項4】 入力されたレイアウト情報付き文書を形
    態素解析して単語単位に分割し、得られた単語の中から
    ユーザ指定の単語を検索する文書検索装置において、 入力された文字列を最も自然な単語列に分割し、その単
    語列がどの程度自然な並びであるかを数値化した評価値
    により表す形態素解析処理を行う形態素解析手段と、 前記レイアウト情報付き文書中の各テキストブロック毎
    に、そのテキストブロックの末尾文を切り出すと共に、
    そのテキストブロックとの位置関係から当該ブロックに
    連続する可能性のある他の全てのテキストブロックの先
    頭文を順次切り出し、そのテキストブロックと他のテキ
    ストブロックとの各2ブロックの組み合わせ毎に、前記
    切り出した末尾文及び先頭文を結合した文字列を生成し
    て当該文字列に対する前記形態素解析手段による形態素
    解析処理を行わせるレイアウト解析手段と、 前記レイアウト情報付き文書中の各テキストブロックに
    ついて、そのテキストブロックと当該ブロックに連続す
    る可能性のある他のテキストブロックとの各2ブロック
    の組み合わせ毎に前記レイアウト解析手段により生成さ
    れた前記末尾文及び先頭文を結合した文字列に対する前
    記形態素解析手段による前記形態素解析処理で得られる
    各評価値をもとに、そのテキストブロックに連続すると
    判定されるテキストブロックを検出して、該当する2ブ
    ロックを1つのブロックに再構成するブロック再構成手
    段と、 前記ブロック再構成手段による再構成後に前記各テキス
    トブロック毎に、そのテキストブロックから順に1文を
    抽出して前記形態素解析手段による形態素解析処理を行
    わせることによって単語情報に分解する文書解析手段
    と、 ユーザ指定の検索単語を入力し、当該検索単語を前記文
    書解析手段によって分解された単語情報より検索する文
    書検索手段と、 ユーザ指定の検索単語を入力し、当該検索単語を前記文
    書解析手段によって分解された単語情報より検索する文
    書検索手段と、 前記文書検索手段により検索された単語を含むページ、
    ブロックまたは文のイメージを展開して表示するイメー
    ジ展開手段とを具備することを特徴とする文書検索装
    置。
  5. 【請求項5】 入力されたレイアウト情報付き文書を形
    態素解析して単語単位に分割する文書解析方法におい
    て、 前記レイアウト情報付き文書からテキストブロックを1
    ブロックずつ順次選択し、このテキストブロックを選択
    する都度、そのテキストブロックの末尾文を切り出すと
    共に、そのテキストブロックとの位置関係から当該ブロ
    ックに連続する可能性のある他の全てのテキストブロッ
    クの先頭文を順次切り出し、そのテキストブロックと他
    のテキストブロックとの各2ブロックの組み合わせ毎
    に、前記切り出した末尾文及び先頭文を結合した文字列
    を生成するステップと、 前記末尾文及び先頭文が結合された文字列を最も自然な
    単語列に分割し、その単語列がどの程度自然な並びであ
    るかを数値化した評価値により表す形態素解析処理を行
    うステップと、 前記レイアウト情報付き文書中の各テキストブロックに
    ついて、そのテキストブロックと他のテキストブロック
    との各2ブロックの組み合わせ毎に生成された前記末尾
    文及び先頭文を結合した文字列に対する前記形態素解析
    処理で得られる各評価値をもとに、そのテキストブロッ
    クに連続すると判定されるテキストブロックを検出し
    て、該当する2ブロックを1つのブロックに再構成する
    ステップとを具備することを特徴とする文書解析方法。
  6. 【請求項6】 入力されたレイアウト情報付き文書を形
    態素解析して単語単位に分割し、得られた単語の中から
    ユーザ指定の単語を検索する文書検索方法において、 前記レイアウト情報付き文書からテキストブロックを1
    ブロックずつ順次選択し、このテキストブロックを選択
    する都度、そのテキストブロックの末尾文を切り出すと
    共に、そのテキストブロックとの位置関係から当該ブロ
    ックに連続する可能性のある他の全てのテキストブロッ
    クの先頭文を順次切り出し、そのテキストブロックと他
    のテキストブロックとの各2ブロックの組み合わせ毎
    に、前記切り出した末尾文及び先頭文を結合した文字列
    を生成するステップと、 前記末尾文及び先頭文が結合された文字列を最も自然な
    単語列に分割し、その単語列がどの程度自然な並びであ
    るかを数値化した評価値により表す形態素解析処理を行
    うステップと、 前記レイアウト情報付き文書中の各テキストブロックに
    ついて、そのテキストブロックと他のテキストブロック
    との各2ブロックの組み合わせ毎に生成された前記末尾
    文及び先頭文を結合した文字列に対する前記形態素解析
    処理で得られる各評価値をもとに、そのテキストブロッ
    クに連続すると判定されるテキストブロックを検出し
    て、該当する2ブロックを1つのブロックに再構成する
    ステップと、 前記ブロック再構成後に、前記各テキストブロック毎
    に、そのテキストブロックから順に1文を抽出して前記
    形態素解析処理を行うことで単語情報に分解するステッ
    プと、 ユーザ指定の検索単語を入力し、当該検索単語を前記形
    態素解析処理により分解された単語情報より検索するス
    テップと、 前記検索した単語を含むページ、ブロックまたは文のイ
    メージを展開して表示するステップとを具備することを
    特徴とする文書検索方法。
  7. 【請求項7】 入力されたレイアウト情報付き文書から
    テキストブロックを1ブロックずつ順次選択し、このテ
    キストブロックを選択する都度、そのテキストブロック
    の末尾文を切り出すと共に、そのテキストブロックとの
    位置関係から当該ブロックに連続する可能性のある他の
    全てのテキストブロックの先頭文を順次切り出し、その
    テキストブロックと他のテキストブロックとの各2ブロ
    ックの組み合わせ毎に、前記切り出した末尾文及び先頭
    文を結合した文字列を生成するステップと、 前記末尾文及び先頭文が結合された文字列を最も自然な
    単語列に分割し、その単語列がどの程度自然な並びであ
    るかを数値化した評価値により表す形態素解析処理を行
    うステップと、 前記レイアウト情報付き文書中の各テキストブロックに
    ついて、そのテキストブロックと他のテキストブロック
    との各2ブロックの組み合わせ毎に生成された前記末尾
    文及び先頭文を結合した文字列に対する前記形態素解析
    処理で得られる各評価値をもとに、そのテキストブロッ
    クに連続すると判定されるテキストブロックを検出し
    て、該当する2ブロックを1つのブロックに再構成する
    ステップとを前記コンピュータに実行させるプログラム
    を記録したコンピュータ読取り可能な記録媒体。
JP9168882A 1997-06-25 1997-06-25 文書解析装置及び方法 Pending JPH1115826A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9168882A JPH1115826A (ja) 1997-06-25 1997-06-25 文書解析装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9168882A JPH1115826A (ja) 1997-06-25 1997-06-25 文書解析装置及び方法

Publications (1)

Publication Number Publication Date
JPH1115826A true JPH1115826A (ja) 1999-01-22

Family

ID=15876320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9168882A Pending JPH1115826A (ja) 1997-06-25 1997-06-25 文書解析装置及び方法

Country Status (1)

Country Link
JP (1) JPH1115826A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7647303B2 (en) 2004-09-02 2010-01-12 Canon Kabushiki Kaisha Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US8244035B2 (en) 2007-07-10 2012-08-14 Canon Kabushiki Kaisha Image processing apparatus and control method thereof
CN104077270A (zh) * 2013-03-29 2014-10-01 富士胶片株式会社 电子书制作装置、电子书系统以及电子书制作方法
JP2018195899A (ja) * 2017-05-15 2018-12-06 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7647303B2 (en) 2004-09-02 2010-01-12 Canon Kabushiki Kaisha Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US8244035B2 (en) 2007-07-10 2012-08-14 Canon Kabushiki Kaisha Image processing apparatus and control method thereof
CN104077270A (zh) * 2013-03-29 2014-10-01 富士胶片株式会社 电子书制作装置、电子书系统以及电子书制作方法
JP2014197341A (ja) * 2013-03-29 2014-10-16 富士フイルム株式会社 電子書籍制作装置、電子書籍システム、電子書籍制作方法及びプログラム
JP2018195899A (ja) * 2017-05-15 2018-12-06 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US11074418B2 (en) 2017-05-15 2021-07-27 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium
US11670067B2 (en) 2017-05-15 2023-06-06 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Similar Documents

Publication Publication Date Title
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP2783558B2 (ja) 要約生成方法および要約生成装置
JP2726568B2 (ja) 文字認識方法及び装置
EP0645720A2 (en) Dictionary creation supporting system
JPH08255155A (ja) 全文登録語検索装置および方法
JP3828379B2 (ja) テスト仕様生成支援装置、方法、プログラム及び記録媒体
JP4502114B2 (ja) データベース検索装置
JPH1115826A (ja) 文書解析装置及び方法
JPH103483A (ja) 情報検索装置
JP3941610B2 (ja) 情報抽出方法、情報抽出装置および情報抽出プログラム
JPH0877196A (ja) 文書情報抽出装置
JP2838984B2 (ja) 汎用参照装置
JP2947686B2 (ja) 翻訳支援システムにおける検索結果表示方式
JP3537260B2 (ja) リンク付文書検索表示システム
JPH11272666A (ja) 文書編集システム、方法、及び記録媒体
JPH11161666A (ja) ドキュメントデータ検索方法および装置、並びにドキュメント編集装置
JP2003223466A (ja) 特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体
JP2601139B2 (ja) 文字列検索装置
JPH09185629A (ja) 機械翻訳方法
JP3313482B2 (ja) キーワード作成装置
JPS6366665A (ja) 文書解析整形装置
JPH04281558A (ja) 文書検索方法および装置
JP3098076B2 (ja) 機械翻訳装置
JP2982076B2 (ja) 文章処理装置および方法
JPH04323770A (ja) 機械翻訳装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040625

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060829

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061027

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061219