JP2000067080A - 文書情報抽出方法および文書情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体 - Google Patents

文書情報抽出方法および文書情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体

Info

Publication number
JP2000067080A
JP2000067080A JP10246520A JP24652098A JP2000067080A JP 2000067080 A JP2000067080 A JP 2000067080A JP 10246520 A JP10246520 A JP 10246520A JP 24652098 A JP24652098 A JP 24652098A JP 2000067080 A JP2000067080 A JP 2000067080A
Authority
JP
Japan
Prior art keywords
document
keyword
extracting
layout information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10246520A
Other languages
English (en)
Inventor
Takashi Saito
高志 齋藤
Takahiro Uchiki
隆浩 打木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10246520A priority Critical patent/JP2000067080A/ja
Publication of JP2000067080A publication Critical patent/JP2000067080A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 レイアウト情報を加味したキーワードを抽出
することにより,信頼度の高いキーワード抽出および文
書検索を実現すること。 【解決手段】 文書画像を入力するステップS201
と,文書画像からレイアウト情報を抽出するステップS
202と,ステップS202で抽出した文字領域につい
て文字認識を行い文字コード列を取得するステップS2
03と,文字コード列から言語解析によりキーワードを
抽出し,複数のレイアウト情報に基づいてキーワードに
重み付けを行うステップS204と,を含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,蓄積された文書を
キーワードで管理・検索する際,レイアウト情報に従っ
てキーワードに重み付けを行う文書情報抽出方法および
文書情報抽出方法をコンピュータに実行させるプログラ
ムを記録した機械読み取り可能な記録媒体に関する。
【0002】
【従来の技術】従来,文書画像データを蓄積し,管理す
る場合,閲覧などの必要時にその検索要求に対し,キー
ワード検索の方法を採用することが多い。このキーワー
ドの付与などに関するものとしては,人間がタイトルな
どその文書の内容にふさわしいキーワードを判断して該
当する文書データに対して付与する第1の方法,文書画
像中の文字領域を抽出し,認識処理して得た文字列に対
して言語的解析を行ってキーワード相当の単語などを抽
出する第2の方法がある。あるいは,あらかじめキーワ
ードを抽出せずに,検索時に指定されたキーワードに対
して全文検索を行う第3の方法もある。
【0003】また,本発明に関連する参考技術文献とし
て,特開平6−348758号公報の文書情報検索装置
及び方法』が開示されている。なお,この公報は,キー
ワードとは別に画像の特徴を検索時に利用するものであ
るが,あくまでもキーワードとは並列のものであり,ま
た,未知の文書の検索時には利用しずらい情報である。
【0004】さらに,特開平7−319880号公報の
『キーワード抽出・検索装置』には,画像中の位置(タ
イトル,本文ブロックなど)による重要度によって抽出
したキーワードを選別する技術が開示されている。
【0005】
【発明が解決しようとする課題】しかしながら,上記に
示されるような従来の技術にあっては,まず,上記第3
の方法における全文検索は,あらかじめキーワードを検
出しておく必要がないかわりに,検索対象となるデータ
量が多いと検索に時間がかかる。また,一般的な単語で
検索しようとすると余分なものまでヒットしてしまうの
で,ノイズが増加するという問題点があった。
【0006】また,上記第1の方法において,人間がキ
ーワードを付与するには手間がかかる上,その都度,統
一性のないキーワード付けがなされる可能性が高く,結
局,キーワードとして信頼度が低くなるため,的確な文
書検索ができなくなる可能性が生じる。
【0007】さらに,全文に対して言語解析を行ってキ
ーワード相当の単語などを検出する第2の方法にあって
は,文字認識の際に誤りが生じることが少なくなく,ま
た,文書中に複数の記事があって,その重みが異なる場
合でも,その判断はつかず,同等にキーワード検出処理
がなされるため,キーワードの点数が実際の重要度と合
致しくなるという問題点があった。
【0008】また,特開平7−319880号公報の
『キーワード抽出・検索装置』にあっては,レイアウト
情報としてテキストブロックの種類だけを使用してお
り,フォントや文字サイズといった他のレイアウト特徴
が使用されないので,テキストブロックの種類の判別が
できない場合や間違えた場合にはキーワード抽出精度が
低下するという問題点があった。
【0009】本発明は,上記に鑑みてなされたものであ
って,レイアウト情報を加味したキーワードを抽出する
ことにより,信頼度の高いキーワード抽出および文書検
索を実現することを目的とする。
【0010】
【課題を解決するための手段】上記の目的を達成するた
めに,請求項1に係る文書情報抽出方法にあっては,文
書画像を入力する画像入力工程と,前記文書画像からレ
イアウト情報を抽出するレイアウト情報抽出工程と,前
記レイアウト情報抽出工程で抽出した文字領域について
文字認識を行い文字コード列を取得する文字認識工程
と,前記文字コード列から言語解析によりキーワードを
抽出し,複数のレイアウト情報に基づいてキーワードに
重み付けを行うキーワード抽出工程と,を含み,前記キ
ーワードの表示・閲覧により対象文書を抽出するもので
ある。
【0011】また,請求項2に係る文書情報抽出方法に
あっては,文書画像を入力する画像入力工程と,前記文
書画像からレイアウト情報を抽出するレイアウト情報抽
出工程と,前記レイアウト情報抽出工程で抽出した文字
領域について文字認識を行い文字コード列を取得する文
字認識工程と,前記文字コード列から言語解析によりキ
ーワードを抽出し,言語解析によるキーワード抽出時に
第1の重み付けを行い,複数のレイアウト情報に基づい
てキーワードに第2の重み付けを行い,前記第1の重み
付けに加えるキーワード抽出工程と,を含み,前記キー
ワードの表示・閲覧により対象文書を抽出するものであ
る。
【0012】また,請求項3に係る文書情報抽出方法に
あっては,書式付き文書データを入力する文書データ入
力工程と,前記書式付き文書データからレイアウト情報
を抽出するレイアウト情報抽出工程と,前記書式付き文
書データからキーワードを抽出し,該キーワードに前記
レイアウト情報による重み付けを行うキーワード抽出工
程と,を含み,前記キーワードの表示・閲覧により対象
文書を抽出するものである。
【0013】また,請求項4に係る文書情報抽出方法に
あっては,HTMLなどのタグ付き文書データを入力す
る文書データ入力工程と,前記タグ付き文書データから
レイアウト情報を抽出するレイアウト情報抽出工程と,
前記タグ付き文書データからキーワードを抽出し,該キ
ーワードに疑似レイアウト情報による重み付けを行うキ
ーワード抽出工程と,を含み,前記キーワードの表示・
閲覧により対象文書を抽出するものである。
【0014】また,請求項5に係る文書情報抽出方法に
あっては,請求項1ないし4のいずれか一つに記載の文
書情報抽出方法において,対象文書あるいは対象ページ
内の同一のキーワードが複数抽出された場合,複数のキ
ーワードの重み付け値は最高値を採用するものである。
【0015】また,請求項6に係る文書情報抽出方法に
あっては,請求項1ないし4のいずれか一つに記載の文
書情報抽出方法において,対象文書あるいは対象ページ
内の同一のキーワードが複数抽出された場合,複数のキ
ーワードの重み付け値は合計値を採用するものである。
【0016】また,請求項7に係る文書情報抽出方法に
あっては,請求項1ないし4のいずれか一つに記載の文
書情報抽出方法において,対象文書あるいは対象ページ
内の同一のキーワードが複数抽出された場合,複数のキ
ーワードの重み付け値は所定の単調増加関数に基づいて
算出するものである。
【0017】また,請求項8に係る文書情報抽出方法に
あっては,請求項1ないし4のいずれか一つに記載の文
書情報抽出方法において,重み付けされたキーワードに
よって検索する際に,設定変更可能な閾値以下の重み付
け値のキーワードを検索対象から除外するものである。
【0018】また,請求項9に係る文書情報抽出方法に
あっては,請求項1ないし4のいずれか一つに記載の文
書情報抽出方法において,前記文書画像あるいは前記文
書データを閲覧する際に,抽出されたキーワードを重み
付け値毎に並べて表示するものである。
【0019】また,請求項10に係る機械読み取り可能
な記録媒体にあっては,前記請求項1ないし9のいずれ
か一つに記載の文書情報抽出方法をコンピュータに実行
させるプログラムを記録したものである。
【0020】
【発明の実施の形態】以下,本発明の文書情報抽出方法
および文書情報抽出方法をコンピュータに実行させるプ
ログラムを記録した機械読み取り可能な記録媒体につい
て添付図面を参照し,詳細に説明する。
【0021】〔実施の形態1〕 (システムの構成)図1は,実施の形態1に係る文書情
報抽出方法を適用したシステム構成を示すブロック図で
ある。図において,101はCCD搭載のスキャナある
いはファクシミリ装置などを用い,文書を含む原稿を光
学的に2値画像として読み取り,入力する画像入力部で
ある。また,画像入力部101の具体的な手段として,
ネットワーク経由(後述するデータ通信部107によ
る)で別の機器から文書画像を取得するようにしてもよ
い。
【0022】また,102は画像入力部101で入力さ
れた文書画像の後述するレイアウト情報を抽出するレイ
アウト情報抽出部,103はレイアウト情報抽出部10
2において抽出された文字領域について文字認識処理を
行い文字コード列を得る文字認識部,104は文字認識
部103で抽出された文字コード列に対して言語解析に
よりキーワードを検出するキーワード検出部,105は
データ通信路,107は入力された文書画像やレイアウ
ト情報,文字認識結果などの各種データを記憶しておく
ためのデータ記憶部,108は本システム全体を所定の
制御プログラムに基づいて統括的に制御する制御部,1
09は外部機器とのデータ送受信などを行うデータ通信
部である。
【0023】(システムの動作)次に,以上のように構
成されたシステムにおける文書情報抽出方法について説
明する。図2は,本発明の実施の形態1に係る文書情報
抽出方法の手順を示すフローチャートである。まず,画
像入力部101によって文書情報抽出対象となる文書画
像を入力する(S201)。なお,この画像入力処理
は,スキャナやファクシミリを用いるか,あるいはデー
タ通信部109によりネットワーク経由で別の機器から
文書画像を取り込むことで行う。
【0024】続いて,ステップS201で入力された文
書画像からレイアウト情報抽出部102によってレイア
ウト情報を抽出する(S202)。なお,このレイアウ
ト情報としては,文字領域や図領域などの位置,その間
の相対関係,ページ全体の段組み状態といったブロック
単位の情報から,文字サイズやフォントといった行単
位,文字単位の情報まで様々な情報が含まれる。
【0025】ところで,レイアウト情報抽出処理とし
て,例えば先に本出願人により提案されている特願平9
−220426号の情報抽出部による処理を利用しても
よい。また,領域抽出や段組み検出のついては,本発明
者が先に提案している特開平9−44594号公報『文
書画像の領域分割方法および段組種類判別方法』を利用
すればよい。さらに,特願平8−134918号に記載
の方法を利用すれば領域間における相対情報を求めるこ
ともできる。また,フォント識別には特開平6−208
649号公報に記載の方法を利用すればよい。
【0026】続いて,ステップS202で抽出した文字
領域について文字認識処理を実行し,文字コード列を取
得する(S203)。さらに,上述の処理によって得ら
れた情報からキーワードを後述する処理により抽出する
(S204)。
【0027】図3は,図2におけるキーワード抽出処理
例を示すフローチャートである。まず,抽出した文字コ
ード列に対して言語解析によるキーワード検出を実行す
る(S301)。このとき抽出したキーワードには,キ
ーワードとしての重みを表す点数が付与されても,付与
されていなくても何れであってもよい。
【0028】続いて,レイアウト情報によるキーワード
への重み付けを実行する(S302)。一般にキーワー
ドとしてふさわしい単語はタイトル部や小見出し部など
に現れる可能性が高い。また,同じ単語でも,本文に相
当する部分と脚注やエピソードなどに相当する部分に現
れる場合では,その単語が当該文書のキーワードとして
ふさわしいかどうかの重みが変わってくる。また,本文
中でもキーワード相当部分は本文に使用されているフォ
ントに対して異なるフォント,例えば明朝体の本文に対
してタイトル部分にゴシックフォントが使用されたり,
あるいは(および)文字サイズを大きくするなどの強調
処理が施されていることが多い。
【0029】さて,上述のような文書において,言語解
析を行う時点では全て「文字領域」という一律的な扱い
になってしまっていたので,その差異を反映することが
できていなかった。
【0030】そこで,本発明では,抽出した複数のレイ
アウト情報によってキーワードに重み付け(点数付与)
を行う。例えば,タイトル部には10点,小見出し部に
は7点,本文中の場合には4点,脚注などの場合には1
点,というように重み付けとなる点数を付与する。ま
た,フォントや文字サイズについても同様の重み付け
(点数付与)を行う。
【0031】検索時には,上述のキーワードに対し,閾
値以下の点数のキーワードを無視するようにすること
で,高速で,かつノイズの少ない検索結果を得ることが
できる。なお,検索漏れの発生が懸念される場合には上
記閾値を適宜低めに設定すればよい。
【0032】また,上述のキーワードの重み付け(点数
付与)を行う際に,1文書あるいは1ページ中に同一キ
ーワードが複数出現する場合は,その中で最高の点数を
当該キーワードの点数としてもよい。また,点数の総和
を当該キーワードの点数としてもよいし,さらに何らか
の単調増加関数によって当該キーワードの点数を求める
ようにしてもよい。
【0033】また,本発明では,既に言語解析によるキ
ーワード検出の時点で各キーワードの点数は付与されて
いる。そして,その点数に上述のレイアウト情報に基づ
いて重み付けを行う。重み付けの方法としては,加点す
るのもよいし,あるいはレイアウト情報の重みを係数と
して乗算してもよい。
【0034】加点による重み付けを行う場合は,例えば
キーワードA(10),B(5)というのが言語解析の
結果求められていたとする(括弧内は点数)。この点数
にタイトル部には10点,小見出し部には7点,本文中
の場合には4点,脚注などの場合には1点,と先に述べ
たと同様にレイアウト情報による点数を加える。
【0035】ここで,キーワードAは脚注部分にあり,
キーワードBは小見出し部にあったとすると,最終的な
点数は脚注部分Aが(10+1)=(11),小見出し
部Bが(5+7)=(12)となり,Bの方が重要なキ
ーワード,つまり,この場合は小見出し部が重要なキー
ワードとなり,検索時やキーワード一覧表示時に優先さ
れる。
【0036】一方,レイアウト情報の重みを係数として
利用する場合は,タイトル部1.0,小見出し部0.
7,脚注部0.3などとし,上述の例では脚注部分Aが
10×0.3=3,小見出し部Bが5×0.7=3.5
となり,やはりBの方が重要なキーワード(この場合は
小見出し部)となる。
【0037】〔実施の形態2〕 (システムの構成)図4は,実施の形態2に係る文書情
報抽出方法を適用したシステム構成を示すブロック図で
ある。図において,401は例えば,インターネット上
の分散するデータ資源から文書を特定し,書式付き文書
データを取得する文書データ取得部である。
【0038】上記文書データとしては,RTF(Ric
h Text Format:米Microsoft社
が開発した書式を含む文書形式の1つであり,MS−D
OSやWindowsでの文書ファイルの標準形式,フ
ォントや表組みなどといった文章の付加的な情報も共通
化し,例えばワープロ・ソフト「word」や「Ami
Pro」などで使われている)などの書式付きフォーマ
ットや,HTML(Hyper Text Marku
p Language:WWW(worldwide
web:ハイパーテキストを使用したインターネットの
情報サービス)用の文書記述言語)などのタグ付き文書
を対象とする。
【0039】また,402は文書データ取得部401で
入力された書式付き文書データあるいはタグ付き文書デ
ータの中からレイアウト情報を抽出するレイアウト情報
抽出部,403はキーワードを検出するキーワード検出
部,404はデータ通信路,405は本システム全体を
所定の制御プログラムに基づいて統括的に制御する制御
部である。
【0040】また,407は例えば,TCP(Tran
smission ControlProtocol)
/IP(Internet Protocol)プロト
コルに従ってネットワーク通信を行うように構成された
データ通信部,408は入力された文書データやレイア
ウト情報などの各種データを記憶しておくためのデータ
記憶部である。
【0041】(システムの動作)次に,以上のように構
成されたシステムにおける文書情報抽出方法について説
明する。図5は,本発明の実施の形態2に係る文書情報
抽出方法の手順を示すフローチャートである。まず,文
書データ取得部401により,RTFなどの書式付きフ
ォーマットあるいはHTMLなどのタグ付き文書を対象
とした文書データを取得する(S501)。
【0042】続いて,上記文書データの中からレイアウ
ト情報を抽出する(S502)。書式付きデータの場合
は,文字領域の位置がデータとして存在し,かつフォン
ト情報や文字サイズなども記述されている。これらの情
報はそのままキーワード重み付けのためのレイアウト情
報として利用されると同時に,文書画像のときと同様に
タイトル部,小見出し部などの判別にも使用される。そ
の判別したタイトル部などの情報がまたキーワード重み
付けに利用される。
【0043】HTMLのタグは本来レイアウトを示すも
のではないが,ヘッダーレベルなどの意味合いではなく
レイアウト的な強調効果を狙ったものとして援用された
り,文字サイズなどの指定がなされる場合もある。これ
らの情報を疑似レイアウト情報として抽出する。そし
て,上記抽出したレイアウト情報は,前述の実施の形態
1と同様にキーワードの重み付けに利用する(S50
3)。
【0044】ところで,以上説明した各実施の形態にお
ける文書情報抽出動作は図1あるいは図4に示したシス
テムによって実行したが,この他に,文書情報抽出方法
をソフトウェアとして機械読み取り可能な記憶媒体に記
憶し,コンピュータ上で実行するようにしてもよい。
【0045】
【発明の効果】以上説明したように,本発明に係る文書
情報抽出方法(請求項1,2)によれば,複数のレイア
ウト情報に基づいてキーワードに重み付けを行い,レイ
アウト情報を加味したキーワードが入力された文書画像
から得られるので,信頼度の高いキーワード抽出および
文書検索が実現する。
【0046】また,本発明に係る文書情報抽出方法(請
求項3,4)によれば,複数のレイアウト情報に基づい
てキーワードに重み付けを行い,レイアウト情報を加味
したキーワードが入力された書式付き文書データあるい
はタグ付き文書データから得られるので,信頼度の高い
キーワード抽出および文書検索が実現する。
【0047】また,本発明に係る文書情報抽出方法(請
求項5,6,7)によれば,請求項1ないし4のいずれ
か一つにおいて,キーワードの重み付けを最適に設定
し,付与するため,抽出したキーワードへの重み付けの
信頼度が向上する。
【0048】また,本発明に係る文書情報抽出方法(請
求項8)によれば,重み付けされたキーワードによって
検索する際に,設定変更可能な閾値以下の重み付け値の
キーワードを検索対象から除外するため,レイアウト情
報を加味した信頼度の高いキーワード検索が実現する。
【0049】また,本発明に係る文書情報抽出方法(請
求項9)によれば,文書画像あるいは文書データを閲覧
する際に,抽出されたキーワードを重み付け値毎に並べ
て表示するため,レイアウト情報を加味した信頼度の高
いキーワード表示が実現する。
【0050】また,本発明に係る機械読み取り可能な記
録媒体(請求項10)によれば,請求項1ないし9のい
ずれか一つに記載の文書情報抽出方法をコンピュータに
実行させるプログラムを記録したことにより,請求項1
ないし9のいずれか一つに記載の動作をコンピュータに
よって実現することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る文書情報抽出方法
を適用したシステム構成を示すブロック図である。
【図2】本発明の実施の形態1に係る文書情報抽出方法
の手順を示すフローチャートである。
【図3】図2におけるキーワード抽出処理例を示すフロ
ーチャートである。
【図4】本発明の実施の形態2に係る文書情報抽出方法
を適用したシステム構成を示すブロック図である。
【図5】本発明の実施の形態2に係る文書情報抽出方法
の手順を示すフローチャートである。
【符号の説明】
101 画像入力部 102,402 レイアウト情報抽出部 103 文字認識部 104,403 キーワード検出部 107,408 データ記憶部 108,405 制御部 109,407 データ通信部 401 文書データ取得部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を入力する画像入力工程と,前
    記文書画像からレイアウト情報を抽出するレイアウト情
    報抽出工程と,前記レイアウト情報抽出工程で抽出した
    文字領域について文字認識を行い文字コード列を取得す
    る文字認識工程と,前記文字コード列から言語解析によ
    りキーワードを抽出し,複数のレイアウト情報に基づい
    てキーワードに重み付けを行うキーワード抽出工程と,
    を含み,前記キーワードの表示・閲覧により対象文書を
    抽出することを特徴とする文書情報抽出方法。
  2. 【請求項2】 文書画像を入力する画像入力工程と,前
    記文書画像からレイアウト情報を抽出するレイアウト情
    報抽出工程と,前記レイアウト情報抽出工程で抽出した
    文字領域について文字認識を行い文字コード列を取得す
    る文字認識工程と,前記文字コード列から言語解析によ
    りキーワードを抽出し,言語解析によるキーワード抽出
    時に第1の重み付けを行い,複数のレイアウト情報に基
    づいてキーワードに第2の重み付けを行い,前記第1の
    重み付けに加えるキーワード抽出工程と,を含み,前記
    キーワードの表示・閲覧により対象文書を抽出すること
    を特徴とする文書情報抽出方法。
  3. 【請求項3】 書式付き文書データを入力する文書デー
    タ入力工程と,前記書式付き文書データからレイアウト
    情報を抽出するレイアウト情報抽出工程と,前記書式付
    き文書データからキーワードを抽出し,該キーワードに
    前記レイアウト情報による重み付けを行うキーワード抽
    出工程と,を含み,前記キーワードの表示・閲覧により
    対象文書を抽出することを特徴とする文書情報抽出方
    法。
  4. 【請求項4】 HTMLなどのタグ付き文書データを入
    力する文書データ入力工程と,前記タグ付き文書データ
    からレイアウト情報を抽出するレイアウト情報抽出工程
    と,前記タグ付き文書データからキーワードを抽出し,
    該キーワードに疑似レイアウト情報による重み付けを行
    うキーワード抽出工程と,を含み,前記キーワードの表
    示・閲覧により対象文書を抽出することを特徴とする文
    書情報抽出方法。
  5. 【請求項5】 対象文書あるいは対象ページ内の同一の
    キーワードが複数抽出された場合,複数のキーワードの
    重み付け値は最高値を採用することを特徴とする請求項
    1ないし4のいずれか一つに記載の文書情報抽出方法。
  6. 【請求項6】 対象文書あるいは対象ページ内の同一の
    キーワードが複数抽出された場合,複数のキーワードの
    重み付け値は合計値を採用することを特徴とする請求項
    1ないし4のいずれか一つに記載の文書情報抽出方法。
  7. 【請求項7】 対象文書あるいは対象ページ内の同一の
    キーワードが複数抽出された場合,複数のキーワードの
    重み付け値は所定の単調増加関数に基づいて算出するこ
    とを特徴とする請求項1ないし4のいずれか一つに記載
    の文書情報抽出方法。
  8. 【請求項8】 重み付けされたキーワードによって検索
    する際に,設定変更可能な閾値以下の重み付け値のキー
    ワードを検索対象から除外することを特徴とする請求項
    1ないし4のいずれか一つに記載の文書情報抽出方法。
  9. 【請求項9】 前記文書画像あるいは前記文書データを
    閲覧する際に,抽出されたキーワードを重み付け値毎に
    並べて表示することを特徴とする請求項1ないし4のい
    ずれか一つに記載の文書情報抽出方法。
  10. 【請求項10】 前記請求項1ないし9のいずれか一つ
    に記載の文書情報抽出方法をコンピュータに実行させる
    プログラムを記録したことを特徴とする機械読み取り可
    能な記録媒体。
JP10246520A 1998-08-18 1998-08-18 文書情報抽出方法および文書情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体 Pending JP2000067080A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10246520A JP2000067080A (ja) 1998-08-18 1998-08-18 文書情報抽出方法および文書情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10246520A JP2000067080A (ja) 1998-08-18 1998-08-18 文書情報抽出方法および文書情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2000067080A true JP2000067080A (ja) 2000-03-03

Family

ID=17149628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10246520A Pending JP2000067080A (ja) 1998-08-18 1998-08-18 文書情報抽出方法および文書情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2000067080A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003208434A (ja) * 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
JP2008250887A (ja) * 2007-03-30 2008-10-16 Kyushu Institute Of Technology 情報抽出装置、その方法及びプログラム
JP2010134952A (ja) * 2010-01-20 2010-06-17 Seiko Epson Corp 画像データの管理

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003208434A (ja) * 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
JP2008250887A (ja) * 2007-03-30 2008-10-16 Kyushu Institute Of Technology 情報抽出装置、その方法及びプログラム
JP2010134952A (ja) * 2010-01-20 2010-06-17 Seiko Epson Corp 画像データの管理

Similar Documents

Publication Publication Date Title
US10372738B2 (en) Speculative search result on a not-yet-submitted search query
JP5740029B2 (ja) 対話型サーチクエリーを改良するためのシステム及び方法
US5542090A (en) Text retrieval method and system using signature of nearby words
US6178420B1 (en) Related term extraction apparatus, related term extraction method, and a computer-readable recording medium having a related term extraction program recorded thereon
US6654717B2 (en) Multi-language document search and retrieval system
US7236923B1 (en) Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
EP1178408A2 (en) Segmenter for a natural language processing system
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
US20100316301A1 (en) Method for extracting referential keys from a document
WO2012050743A2 (en) Language identification in multilingual text
EP1312039B1 (en) System and method for automatic preparation and searching of scanned documents
US20030177115A1 (en) System and method for automatic preparation and searching of scanned documents
WO2020086172A1 (en) Page stream segmentation
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10289240A (ja) 画像処理装置及びその制御方法
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP2000067080A (ja) 文書情報抽出方法および文書情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质
JPH10289241A (ja) 画像処理装置及びその制御方法
US7623714B2 (en) Form recognition system, method, program, and storage medium
JP2008071040A (ja) 企業名抽出方法およびプログラム
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
JP2002132789A (ja) 文書検索方法
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JP4010589B2 (ja) 文書検索システムおよび同システムに適用される検索文書提示方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060925

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061031