JPH08166970A - コード化したワードトークンを使用して文書画像をハイライトで強調する方法 - Google Patents
コード化したワードトークンを使用して文書画像をハイライトで強調する方法Info
- Publication number
- JPH08166970A JPH08166970A JP7249114A JP24911495A JPH08166970A JP H08166970 A JPH08166970 A JP H08166970A JP 7249114 A JP7249114 A JP 7249114A JP 24911495 A JP24911495 A JP 24911495A JP H08166970 A JPH08166970 A JP H08166970A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- token
- word token
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Abstract
画像をハイライトで強調し分類する。 【解決手段】 文書のハイライトによる強調及び分類
は、文書に現われる単語を表わすワードトークンを使用
して行なわれる。ある種の重要でないワードトークン
(S1200,1300)が最初に削除され、その後残
存する文書内の単語がその出現率に応じて順位化され
(S1400,1500)、この順位は、文書の主題を
示す頻出単語をハイライトで強調するために使用される
(S1600)。更に文書は、ワードトークンから見出
された文書プロフィールを利用して分類される(S16
00,1605)。
Description
で強調する方法に関し、特に、コード化したワードトー
クン(一連の文字からなる識別できる単語単位)を使用
して文書の論題に関する分類上の単語にハイライトで強
調する方法に関する。
できる文書データに変換する技術は周知である。
の検索単語(キーワード)もしくは熟語(フレーズ)を
自動的にハイライトで強調し、あるいは「マークアッ
プ」する技法あるいはシステムは実現されていない上
に、文書を特定の論題分類(トピックのカテゴリー)に
自動的に分類することも不可能である。文書がこのシス
テムにまわされる度に、当該文書固有の論題に対応する
何らかの検索単語を付与しなければならない。この検索
単語の付与は、オペレータが文書の検索単語に関するデ
ータをシステムに入力することによって行われなければ
ならない。
法を提供することを目的とするものである。
で強調された特定単語によってその文書の論題を読者が
容易に認識することができるようにした方法及び装置を
提供することである。
動詞、関係詞などの一般機能語(コモンファンクショ
ン)及び数字に対応するワードトークンを削除するため
に使用する削除トークンリストを提供することである。
訓練(トレーニング)用もしくは照合用データ間の「距
離」を比較することによって文書を自動的に分類する方
法及び装置を提供することを目的とするものである。
に、本発明は、文書の単語を表わす文字形状コード種
(クラス)よりなるワードトークン列により、文書画像
をハイライトで強調して該文書画像を分類する方法にお
いて、前記ワードトークン列から予め定められた文字形
状コード種を除去するステップと、前記ワードトークン
列から、パターンマッチング及びトークン削除リストを
使用して、予め定められた一般機能ワードトークンを削
除して短縮されたワードトークン列を作成するステップ
と、前記短縮ワードトークン列の各ワードトークンの繰
返出現率を判定するステップと、前記繰返出現率に順位
を与えるステップと、前記順位化された繰返出現率に基
づいて、n番目もしくはそれ以上の高い繰返出現率で出
現するワードトークンを判定するステップと、n番目も
しくはそれ以上の高い繰返出現率で出現するワードトー
クンをハイライトで強調するステップとにより構成した
ものである。
る文字字体(キャラクターシェイプ)コードもしくはコ
ード化された抽象的(アブストラクト)文字種(キャラ
クタークラス)よりなるワードトークン列が文書画像か
ら取り出される。ある種の文字字体コードは、このワー
ドトークン列から除去もしくは削除される。除去される
文字字体コードは、言語学的に重要な情報に関連しない
ものである。得られたワードトークン列は、統計的に構
築された削除(ストップ)トークンリストによって分析
される。この分析は、従来のパターン調和(パターンマ
ッチング)法を用いて、「一般機能(コモンファンクシ
ョン)」語から得られトークンを更に除去することを可
能にする。
ンの出現頻度、即ち繰返出現率を計算するために分析さ
れる。これらの率は、最も高い繰返出現率からn番目に
高い繰返出現率まで順位化され、文書をハイライトで強
調したりマークアップするために使用される。
読者に文書の論題(トピック)、主題(サブジェクト)
等を迅速に伝えることを可能にするような文書をマーク
アップするのに可能な種々のやり方をいう。文書の論題
に関連するある種の検索用単語は、それに対応する高い
繰返出現率をもつものである。
ば、ある種の数字単語を削除することを可能となる。
事を自動的に分類するために使用される文書あるいはト
ークンのプローフィールを作成するために使用すること
をも可能である。
された米国特許出願第08/047,514号及び08
/047,540号にその詳細が開示されたものと同一
ではないが、類似の走査装置が示されており、この走査
装置は、電荷蓄積装置(CCD)等を備えたスキャナー
110より構成される。このスキャナー110は、活字
タイプの文章列よりなる画像102を有する、例えば図
3に示されるような文書100を走査し、その原稿文書
100の画像を構成する複数の画素に関する位置と画像
濃度を表わすデジタルデータ信号を出力する。このデジ
タルデータ信号は、メモリー112に転送され、一時的
に又は永久に記憶される。デジタルデータ信号は、この
メモリー112から出力されると、汎用型デジタルコン
ピュータ114に入力される。一旦このデジタルコンピ
ュータ114に入力されると、デジタルデータ信号は、
まず最初に画像102の非文章部分を除去して文章部分
を残すことによって整理される。更に、スキャナー自体
により形成された、歪み等のような、疑似デジタルデー
タ信号を補正する。整理されたデジタルデータ信号は、
メモリー112に記憶するか、あるいは汎用コンピュー
タ114のメモリーに記憶する。あるいは、スキャナー
はスキャナー疑似信号(アーティファクト)を除去する
ような前処理を行うこともできる。
汎用デジタルコンピュータ114は、制御プログラムを
記憶するメモリー22と、メモリー112からデジタル
データ信号を入力し、文章部分に関する、あるワードト
ークン(一連の文字からなる識別できる単語単位)を表
わす信号を、文書をハイライトで強調しあるいは分類す
るための信号と共に出力する入出力回路24とにより構
成されている。汎用デジタルコンピュータ114は又、
デジタルデータ信号を記憶する画像メモリー26、デジ
タルデータ信号から結合構成要素(文字を構成する線分
などの要素)を生成する結合構成要素生成手段28、文
章の部分の行、単語及び文字区画の座標と各文字区画内
の各結合構成要素の場所とを判定する空間的特徴判定手
段30、文字区画を抽象的な文字コード種へ変換する文
字形態種別化(キャラクタタイプシィフィケーション)
手段32、ハイライト強調部34及び分類付与部36よ
り構成されている。制御プログラムメモリー22は、ロ
ム(ROM)22aあるいはラム(RAM)22bのい
ずれでもよい。
の結合構成要素の数を判定する計数手段320、現在対
象の文字区画内の少なくとも1以上の結合構成要素の上
端位置を位置決定する上端位置決定手段322、現在対
象の文字区画内の少なくとも1以上の結合構成要素の下
端位置を位置決定する下端位置決定手段324、現在対
象の文字区画内の少なくとも1以上の結合構成要素の高
さと幅を判定する結合構成要素寸法判定手段326、現
在対象の文字区画に対応する行の基線(ベースライン)
及びXラインの位置の少なくとも一方を記憶する行位置
記憶手段328、及び構成要素の上端位置、下端位置及
び高さの少なくとも1つを、基線位置、Xライン位置及
び構成要素幅の少なくとも1つと比較する比較手段33
0より構成される。勿論、結合構成要素生成手段28、
空間的特徴判定手段30及び文字形態種別化手段32の
各機能及びその対応手段は、その構成が前記実施形態と
等価であれば、独立した手段で実行することができる。
汎用コンピュータで実行されるこれらの手段は、特定目
的のコンピュータ又は対応する配線連結された別設の要
素回路でも一体化された回路であってもよい。
定手段30、及び文字形態種別化手段32は、一緒に作
用して、文書画像102の文章部分104を、米国特許
第08/047,540に説明されたように、ワードト
ークン列に変換する。各ワードトークンは、少なくとも
1つ(通常1つ以上)の、図4に示されるような、抽象
的にコード化された文字種より構成される。各抽象コー
ド化文字種は、活字形態の文字の種類を表わしている。
英語、フランス語、及びドイツ語で使用される書体のよ
うなヨーロッパ型書体に対して、抽象コード化文字と、
この抽象コード化文字が表わす活字文字が図5に示され
ている。文書画像102の文章部がすでにワードトーク
ンに変換されている場合、汎用コンピュータ114は、
メモリー22、入出力回路24、画像メモリー26、ハ
イライト強調部34及び分類付与部36のみで構成され
ればなお望ましい。
調部34は、或種の文字形態コードあるいは抽象化コー
ド文字種(意味のない記号など)をワードトークン列か
ら除去する除去手段220、図7に示されたリストに類
似した削除トークンリストを使用して、ある種の一般機
能ワードトークン(ファンクションワード)をワードト
ークン列から削除して短縮したワードトークン列を形成
する削除手段230より構成される。このハイライト強
調部34、更にワードトークン繰返出現率判定手段24
0、短縮ワードトークン列の最大頻出度のワードトーク
ンから得られる繰返出現率を順位化する順位化手段25
0、及び「n番目」もしくはそれ以上に高い繰返出現率
をもつワードトークンをハイライト、下線によって強調
し、さもなければマークアップするハイライト手段26
0より構成される。分類付与部36は、文書を既存の分
類に類別する分類付与手段265を含む。順位化手段2
50は、順位化された繰返出現率に基づいて、n番目も
しくはそれ以上に頻繁に出現するワードトークンを判定
する手段を含む。
をスキャナー110にかけて読み取り、シリアル又はパ
ラレルデジタルデータ信号を取り込む。デジタルデータ
信号は、原画像102の各画素に対応する複数の信号部
分により構成されている。画像102の各画素は、画像
102に関する位置と画像濃度を有する。従って、デジ
タルデータ信号の各信号部分は、対応する画素の位置と
画像濃度を表わすデータを含んでいる。
は、メモリー112に記憶される。メモリー112は、
RAM、フラッシュメモリー、ディスクメモリー等でも
良い。メモリーの形式にかかわらず、デジタルデータ信
号は、各信号部分に含まれた位置と画像濃度に応じてメ
モリー112に記憶される。勿論、デジタルデータ信号
は、中間に配置されるメモリー112ではなく汎用デジ
タルコンピュータ114に直接入力することもできる。
あるいは、メモリー112を汎用デジタルコンピュータ
114に内蔵させてもよい。いずれにしても、メモリー
112は、画像102を長期間保存するために利用され
るものである。
の入力が終了した場合又はこのシステムが、画像102
のデジタルデータ信号が文章データに変換しなければな
らないと判断した場合、画像102のデジタルデータ信
号は、メモリー112から汎用デジタルコンピュータ1
14へ出力される。
画像データ信号は、汎用デジタルコンピュータ114へ
出力され、そこで入出力手段24を通して画像メモリー
に入力される。ここでは、文章部分104の全体の字体
形式がヨーロッパ活字体であるとする。勿論、文章部分
104の全体の書体形式がヨーロッパ活字体であること
が解からなくても、本発明は、本明細書において引用す
る米国特許出願番号08/047,515に記載された
全体の書体形式を判定する方法及びその装置と組み合わ
せることができる。
6に全部記憶されてしまうと、このデジタルデータ信号
は、結合構成要素生成手段28によって処理可能とな
る。結合構成要素生成手段28は、画像102のデジタ
ルデータ信号を複数の結合構成要素に分割する。ここ
で、各結合構成要素は、1もしくは1以上の信号部分よ
り構成されるものである。各結合構成要素は、原画像1
02の或最低画像濃度を有し、連続した経路を構成して
いる画素に対応する信号部分よりなるものである。各字
体の文字は、一般に「Fuji」の「F」の場合のよう
に、1つの結合構成要素、もしくは、「Fuji」の
「j」あるいは「i」の場合のように、1つ以上の結合
構成要素に対応している。
データ信号から画像102の複数の結合構成要素を生成
すると、画像102に対応するデジタルデータ信号及び
結合構成要素生成手段28によって形成された結合要素
のリストは、画像メモリー26に記憶されると共に空間
的特徴判定手段30に入力される。
間隔(スペース)、文字区画(キャラクタセル)等の文
章(テキスト)部分の空間的特徴を決定する。各文字区
画は、隣接する空白間の行内で垂直方向に整列した結合
構成要素を含んでいる。例えば、「Fuji」の「i」
及び「j」の文字は、それぞれ二つの独立する結合構成
要素である。空間的特徴判定手段30は、一行の全垂直
整列結合構成要素を1つの文字区画へ分類する。文章部
分104の結合構成要素リストから文章部分104の空
間的特徴を決定する1つの方法および装置は、米国特許
出願08/047,514に開示されている。
間的特徴判定手段30から文字形態種別化手段32へ出
力される。文字形態種別化手段32は、文字区画内の1
つまたは複数の結合構成要素を、文字区画内の結合構成
要素種の数および場所に基づいて、複数の抽象化文字コ
ード種の1つへ変換する。抽象化文字コード種及び各抽
象的文字コード種に対応する活字書体文字のリストが図
5に示されている。図5に示されるように、抽象的文字
コード種が使用されている。各抽象的文字コード種は、
文字区画内の独立する結合構成要素の数、各文字区画の
独立する結合構成要素間の相対位置、文字区画内の結合
構成要素の位置に基づいて、1つないし1つ以上の文字
を代表している。
特許出願08/047,540に開示されている。
づくものであるから、非常にしっかりしており、非常に
薄い印刷の文書及び/あるいは走査が不十分な文書にさ
え耐えうるものである。すなわち、デジタルデータ信号
あるいは該デジタルデータ信号から形成された結合構成
要素は、文書の全ての文字を完全に表す必要がない。む
しろ、本発明は、単一の結合構成要素を2つあるいはそ
れ以上の結合構成要素に分離してしまうようなエラー、
2つあるいはそれ以上の結合構成要素を単一の結合構成
要素へ併合してしまうようなエラー、あるいは、同一行
上の結合構成要素を置き違えるといったエラーのような
通常の走査上起るエラーに耐えることが出来る。
つ以上の抽象的文字コード種よりなるワードドークン列
を形成するものである。これらのワードトークンは、そ
れぞれ文書をハイライトで強調し、文書を分類するハイ
ライト強調部34と分類付与部36に供給される。これ
らの二つの部分を以下に説明する。
である図9を参照すると、ワードトークン列は、ステッ
プS1100で、除去手段220に入力され、ステップ
S1200で処理されて、一般的に殆ど重要な言語情報
を含まない「.」、「!」、「−」、「,」、及
び「:」等の、さ程重要でない抽象的文字コード種、即
ち、文字形状コードがワードトークン列から除去され
る。一旦これらの形状コードが除去されると、ワードト
ークン列は、削除手段230へ転送され、ステップS1
300で図7に示されるような削除(ストップ)トーク
ンリストとパターンマッチングを使用して、図6に示さ
れるような対応する所定の「一般機能」語が削除され
る。一般に、「一般機能」語は前置詞、限定詞、接続
詞、代名詞、叙述詞を取りまとめたものであり、名詞、
動詞、目的語等の「有意語」とは区別される。両単語形
態(タイプ)にまたがる単語は、機能語と考えられ、そ
れなりに処理される。
基づけば、0.0005以上の繰返出現率を有する。そ
の結果として、これら一般機能語から図7に示されるよ
うな削除トークンリストが作成される。このリストで
は、繰返し出てくるワードトークンは、全て除去されて
いる。このようにして、最初に文章部分104から作ら
れた図4のワードトークン列に残存しているワードトー
クンは、削除手段230によって削除トークンリストと
比較され、削除トークンリストに現われたワードトーク
ンを削除して「有意語」のみからなる短縮ワードトーク
ンリスト列を作成する。
ップS1400で短縮ワードトークン列に現われる各異
なるワードトークンの繰返出現率を判定する判定手段2
40へ転送してもよい。本発明の他の実施形態では、ワ
ードトークン列を、ステップS1305で、最初にオプ
ションの削除手段235へ転送して図4の削除トークン
リストのもう1つの、あるいは別途用意されたリストを
使用して数字で表わした語を削除する。このオプション
の削除トークンリストは連鎖A*(この*印はA、A
A、AAA、AAAA等である)を含む。
ン列は、繰返出現率判定手段240へ転送され、その繰
返出現率が判定される。一旦繰返出現率が判定される
と、ステップS1500で、順位化(ランク付け)手段
250によって順位化される。順位化手段250は、ワ
ードトークンを順位化し最大出現頻度のものから出現頻
度がn番目(nは整数)までのワードトークンを判定す
る。
のワードトークンに対応する文章部分104の単語は、
図8に示されるように、ステップS1600でハイライ
トや下線、そうでなければマークアップにより強調され
る。この強調付与後の文章部分104は、表示装置20
0に表示される。この表示装置はCRT、複写印刷物、
LCD表示装置等、種々の表示装置のうちどれでもよ
い。これらの単語は、「n番目」もしくはそれ以上の順
位のものがハイライトで強調される。ここで、nは、例
えば、10のように順位を表わす。この場合、順位1
0、9、8、7等の、即ち、繰返出現率が10番目の単
語、繰返出現率が9番目の単語等がハイライトで強調さ
れる。
に関する経済記事は、「construction」と
いう単語を何度も使用している。単語「constru
ction」は、ワードトークンとして表わすことがで
きる。本発明は、単語「construction」に
関係づけられたワードトークンの出現率を計算し、該記
事から作成された短縮ワードトークン列に残存する全て
の他の単語の出現率に対して計算された出現率に順位を
つける。例えば、単語「construction」
は、この記事中では10番目に高い繰返出現率で使用さ
れている。本発明は、その後このワードトークンに対応
する単語をハイライトまたは下線で強調し、あるいは他
の方法でマークアップし、読者が単語「constru
ction」が記事全体の何処に位置するかを容易に見
極めることができるようにしている。同様に、単語「c
onstrucition」と同じ位頻繁に、例えば、
10番目に高いトークン出現率もしくはそれ以上、即
ち、9番目、8番目、7番目…の出現率で現れるワード
トークンに対応する記事中の全ての単語も、同様にハイ
ライトまたは下線で強調し、あるいは他の方法でマーク
アップし、読者がそれらの単語を容易に識別できるよう
にしている。
文書をワードトークンを使って分類ステップS1605
を付加的に含んでいる。ワードトークンは、特定の文書
のプロフィールを見出すために使用される。信頼出来る
検索データと統計的分析により、検索プロフィールを計
算し、分類手段265を使って大量の参考文書を大量の
既存分類へ類別することができる。特定の文書プロフィ
ールは、少くとも一つの照合プロフィールと比較してそ
の分類を判定する。
強調ステップS1600に付加的に使用してもよいし、
あるいは、ハイライトで強調ステップS1600から分
離して使用してもよい。即ち、分類ステップS1605
は、ハイライトで強調ステップS1600に置き換えて
使用してもよい。
概要が図10に示されている。
れているのは、その論題によって採られた複数の照合用
分類(リファレンス・カテゴリー)文書である。これら
の文書は、訓練用データとして、あるいは検索用(リフ
ァレンス)データとして使用できる。照合用データは、
照合用プロフィールを見出すために使用される。ステッ
プS3050において、システムは、プロフィール生成
を初期化(起動)し、ステップS3100でこれら文書
トークン画像に変換する。その後は、既に説明したステ
ップS3200〜3400を実行し、形成されたトーク
ンの繰返出現率を順位化する。引き続いて、ステップS
3500で、順位(ランク)をある数値に制限すること
によって、例えば、1から100迄の順位のみを照合用
分類順位化しトーマライズする。その結果の照合用プロ
フィールは、複数の照合用文書の分類(カテゴリー)を
表わしている。なお、照合用文書は基準となるサンプル
文書であり、これを利用して、基準となる照合用プロフ
ィールが作成される。
い、多数の照合用プロフィールを持てば、それだけ細か
い分類を行うことができる。
新しい文書である。この文書のプロフィールは、ステッ
プS2050〜2500で作成される。作成されたプロ
フィールは、文書のすべての識別が出来るトークンを順
位化する。
ィールの「距離」を計算する。プロフィールの「距離」
は、分類が未知の新しい文書のプロフィールと照合分類
プロフィールとの間の距離であって、カフナー及びトレ
ンケル(カフナー及びトレンケル、1994年)によっ
て提案された「置き違え(アウト・オブ・プレース)評
価法」によって得られる。この「評価」は、新プロフィ
ール内のトークンが既知プロフィールの内の、そのトー
クン位置、即ち、既知の照合分類のプロフィールからど
の位離れているかを判定する。新文書プロフィール内の
各トークンに関して、本システムは、既知の照合分類プ
ロフィール内の対応トークンを見出し、それが場所的に
どの位離れているかを計算する。この場所ずれ値を全て
合計すると当該分類に関する新文書の距離が得られる。
ステップS2700では、距離を比較して新文書に対し
「最も近い」分類を付与する。
っても可能である。順位の1つの違いを距離1とし、対
応あるトークンが照合用プロフィールに存在しなかった
場合は「100」とする。
用できる。
成されたトークンにより特定文書のトークンプロフィー
ルを判定する手段、特定文書のトークンプロフィールと
少なくとも1つの照合プロフィールとの間の少くとも一
つの距離を測定する手段、及びこの少くとも1つの測定
距離に基づいて当該特定文書を分類する手段より構成し
てもよい。
である。
変換された図3の文章部分を示す図である。
ンを得るために使用する文字抽象コード文字種あるいは
文字字体コードを示す図である。
語のリストを示す図である。
の関連削除トークンのリストを示す図である。
るいはマークアップされた文書の一例を示す図である。
ートである。
る。
段、32 文字形態種別化手段、34 ハイライト強調
部、36 分類付与部、100 文書、102文書画
像、110 スキャナー。
Claims (1)
- 【請求項1】 文書の単語を表わす文字形状コード種よ
りなるワードトークン列により、文書画像をハイライト
で強調する方法において、 前記ワードトークン列から予め定められた文字形状コー
ド種を除去するステップと、前記ワードトークン列か
ら、パターン調和法及び削除トークンリストを使用し
て、予め定められた一般機能ワードトークンを削除して
短縮されたワードトークン列を作成するステップと、前
記短縮ワードトークン列の各ワードトークンの繰返出現
率を判定するステップと、前記繰返出現率に順位を付
け、前記順位化された繰返出現率に基づいて、n番目も
しくはそれ以上の高い繰返出現率で出現するワードトー
クンを判断するステップと、n番目もしくはそれ以上の
高い繰返出現率で出現するワードトークンをハイライト
で強調するステップを有することを特徴とする文書画像
をハイライトで強調する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31903794A | 1994-10-06 | 1994-10-06 | |
US319037 | 1994-10-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08166970A true JPH08166970A (ja) | 1996-06-25 |
JP3647518B2 JP3647518B2 (ja) | 2005-05-11 |
Family
ID=23240611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24911495A Expired - Fee Related JP3647518B2 (ja) | 1994-10-06 | 1995-09-27 | コード化したワードトークンを使用して文書画像をハイライトで強調する装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5526443A (ja) |
JP (1) | JP3647518B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11288425A (ja) * | 1998-01-06 | 1999-10-19 | Fuji Xerox Co Ltd | 走り読みを容易にする方法、装置及びグラフィカルユーザインタフェース |
JP2010049650A (ja) * | 2008-08-25 | 2010-03-04 | Fujitsu Ltd | 検索方法および検索プログラム |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5745602A (en) * | 1995-05-01 | 1998-04-28 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
US5694523A (en) * | 1995-05-31 | 1997-12-02 | Oracle Corporation | Content processing system for discourse |
US5892842A (en) * | 1995-12-14 | 1999-04-06 | Xerox Corporation | Automatic method of identifying sentence boundaries in a document image |
US5850476A (en) * | 1995-12-14 | 1998-12-15 | Xerox Corporation | Automatic method of identifying drop words in a document image without performing character recognition |
US5848191A (en) * | 1995-12-14 | 1998-12-08 | Xerox Corporation | Automatic method of generating thematic summaries from a document image without performing character recognition |
US5754840A (en) * | 1996-01-23 | 1998-05-19 | Smartpatents, Inc. | System, method, and computer program product for developing and maintaining documents which includes analyzing a patent application with regards to the specification and claims |
US5983170A (en) * | 1996-06-25 | 1999-11-09 | Continuum Software, Inc | System and method for generating semantic analysis of textual information |
JP3427692B2 (ja) * | 1996-11-20 | 2003-07-22 | 松下電器産業株式会社 | 文字認識方法および文字認識装置 |
US5909510A (en) * | 1997-05-19 | 1999-06-01 | Xerox Corporation | Method and apparatus for document classification from degraded images |
US5960080A (en) * | 1997-11-07 | 1999-09-28 | Justsystem Pittsburgh Research Center | Method for transforming message containing sensitive information |
US6542888B2 (en) * | 1997-11-26 | 2003-04-01 | International Business Machines Corporation | Content filtering for electronic documents generated in multiple foreign languages |
US6533822B2 (en) | 1998-01-30 | 2003-03-18 | Xerox Corporation | Creating summaries along with indicators, and automatically positioned tabs |
US6269188B1 (en) | 1998-03-12 | 2001-07-31 | Canon Kabushiki Kaisha | Word grouping accuracy value generation |
US5991714A (en) * | 1998-04-22 | 1999-11-23 | The United States Of America As Represented By The National Security Agency | Method of identifying data type and locating in a file |
US6243501B1 (en) | 1998-05-20 | 2001-06-05 | Canon Kabushiki Kaisha | Adaptive recognition of documents using layout attributes |
US6253169B1 (en) * | 1998-05-28 | 2001-06-26 | International Business Machines Corporation | Method for improvement accuracy of decision tree based text categorization |
JP3849318B2 (ja) | 1998-09-10 | 2006-11-22 | 富士ゼロックス株式会社 | 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
AU1936900A (en) * | 1998-12-08 | 2000-06-26 | Mediadna, Inc. | A system and method of obfuscating data |
JP2000285140A (ja) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6349295B1 (en) * | 1998-12-31 | 2002-02-19 | Walker Digital, Llc | Method and apparatus for performing supplemental searches over a network |
US8095581B2 (en) | 1999-02-05 | 2012-01-10 | Gregory A Stobbs | Computer-implemented patent portfolio analysis method and apparatus |
US6493702B1 (en) | 1999-05-05 | 2002-12-10 | Xerox Corporation | System and method for searching and recommending documents in a collection using share bookmarks |
CN1156779C (zh) * | 1999-06-09 | 2004-07-07 | 株式会社理光 | 文献检索的方法和装置 |
US6950982B1 (en) | 1999-11-19 | 2005-09-27 | Xerox Corporation | Active annotation mechanism for document management systems |
US6820237B1 (en) | 2000-01-21 | 2004-11-16 | Amikanow! Corporation | Apparatus and method for context-based highlighting of an electronic document |
US7286998B2 (en) * | 2001-04-20 | 2007-10-23 | American Express Travel Related Services Company, Inc. | System and method for travel carrier contract management and optimization using spend analysis |
US20060253784A1 (en) * | 2001-05-03 | 2006-11-09 | Bower James M | Multi-tiered safety control system and methods for online communities |
US7856359B2 (en) * | 2001-07-02 | 2010-12-21 | American Express Travel Related Services Company, Inc. | System and method for airline purchasing program management |
US7069506B2 (en) * | 2001-08-08 | 2006-06-27 | Xerox Corporation | Methods and systems for generating enhanced thumbnails |
US6993726B2 (en) * | 2001-08-08 | 2006-01-31 | Xerox Corporation | Methods and systems for document navigation using enhanced thumbnails |
US6883138B2 (en) * | 2001-08-08 | 2005-04-19 | Xerox Corporation | Methods and systems for generating enhanced thumbnails usable for document navigation |
US7337396B2 (en) | 2001-08-08 | 2008-02-26 | Xerox Corporation | Methods and systems for transitioning between thumbnails and documents based upon thumbnail appearance |
US20050288974A1 (en) * | 2001-08-23 | 2005-12-29 | American Express Travel Related Services Company, Inc. | Travel service broker system and method |
US20040260581A1 (en) * | 2001-08-23 | 2004-12-23 | American Express Travel Related Services Company, Inc. | Travel market broker system |
US7539620B2 (en) * | 2002-07-02 | 2009-05-26 | American Express Travel Related Services Company, Inc. | System and method for facilitating transactions among consumers and providers of travel services |
US7499864B2 (en) * | 2002-01-25 | 2009-03-03 | American Express Travel Related Services Company, Inc. | Integrated travel industry system |
AUPR824601A0 (en) * | 2001-10-15 | 2001-11-08 | Silverbrook Research Pty. Ltd. | Methods and system (npw004) |
US7805323B2 (en) | 2002-01-25 | 2010-09-28 | American Express Travel Related Services Company, Inc. | System and method for processing trip requests |
US20040225640A1 (en) * | 2002-06-27 | 2004-11-11 | International Business Machines Corporation | Context searchable communications |
US8495503B2 (en) * | 2002-06-27 | 2013-07-23 | International Business Machines Corporation | Indicating the context of a communication |
AU2003900865A0 (en) * | 2003-02-26 | 2003-03-13 | Silverbrook Research Pty Ltd | Methods, systems and apparatus (NPW010) |
JP4014160B2 (ja) * | 2003-05-30 | 2007-11-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、プログラム、及び記録媒体 |
US20050005239A1 (en) * | 2003-07-03 | 2005-01-06 | Richards James L. | System and method for automatic insertion of cross references in a document |
US20050120300A1 (en) * | 2003-09-25 | 2005-06-02 | Dictaphone Corporation | Method, system, and apparatus for assembly, transport and display of clinical data |
CA2498728A1 (en) * | 2004-02-27 | 2005-08-27 | Dictaphone Corporation | A system and method for normalization of a string of words |
KR100755677B1 (ko) * | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
US8166412B2 (en) * | 2006-01-13 | 2012-04-24 | Adobe Systems Incorporated | Visual cue discernment on scattered data |
US20090138296A1 (en) * | 2007-11-27 | 2009-05-28 | Ebay Inc. | Context-based realtime advertising |
US20090196504A1 (en) * | 2008-02-04 | 2009-08-06 | Craig Sullender | Modified propagated last labeling system and method for connected components |
US8301619B2 (en) * | 2009-02-18 | 2012-10-30 | Avaya Inc. | System and method for generating queries |
US8260062B2 (en) * | 2009-05-07 | 2012-09-04 | Fuji Xerox Co., Ltd. | System and method for identifying document genres |
US8954434B2 (en) * | 2010-01-08 | 2015-02-10 | Microsoft Corporation | Enhancing a document with supplemental information from another document |
JP5642037B2 (ja) * | 2011-09-22 | 2014-12-17 | 株式会社東芝 | 検索装置、検索方法およびプログラム |
IN2013MU02217A (ja) * | 2013-07-01 | 2015-06-12 | Tata Consultancy Services Ltd | |
US9607009B2 (en) * | 2013-12-20 | 2017-03-28 | Google Inc. | Automatically branding topics using color |
US20170126605A1 (en) * | 2015-11-02 | 2017-05-04 | International Business Machines Corporation | Identifying and merging duplicate messages |
US10552539B2 (en) * | 2015-12-17 | 2020-02-04 | Sap Se | Dynamic highlighting of text in electronic documents |
EP3255556A1 (de) * | 2016-06-10 | 2017-12-13 | Renato Casutt | Schnell-lese-verfahren und -system für text |
US11074517B2 (en) * | 2018-05-25 | 2021-07-27 | International Business Machines Corporation | Predicting keywords in an application |
US11163833B2 (en) | 2018-09-06 | 2021-11-02 | International Business Machines Corporation | Discovering and displaying business artifact and term relationships |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4907283A (en) * | 1987-03-13 | 1990-03-06 | Canon Kabushiki Kaisha | Image processing apparatus |
US5384863A (en) * | 1991-11-19 | 1995-01-24 | Xerox Corporation | Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding |
US5375176A (en) * | 1993-04-19 | 1994-12-20 | Xerox Corporation | Method and apparatus for automatic character type classification of European script documents |
-
1995
- 1995-09-27 JP JP24911495A patent/JP3647518B2/ja not_active Expired - Fee Related
- 1995-11-09 US US08/556,436 patent/US5526443A/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11288425A (ja) * | 1998-01-06 | 1999-10-19 | Fuji Xerox Co Ltd | 走り読みを容易にする方法、装置及びグラフィカルユーザインタフェース |
JP2010049650A (ja) * | 2008-08-25 | 2010-03-04 | Fujitsu Ltd | 検索方法および検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3647518B2 (ja) | 2005-05-11 |
US5526443A (en) | 1996-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3647518B2 (ja) | コード化したワードトークンを使用して文書画像をハイライトで強調する装置 | |
JP3292388B2 (ja) | 文書画像の復号なしに文書を要約するための方法と装置 | |
JP3282860B2 (ja) | 文書上のテキストのデジタル画像を処理する装置 | |
JP3289968B2 (ja) | 電子的文書処理のための装置および方法 | |
CA2077313C (en) | Methods and apparatus for selecting semantically significant images in a document image without decoding image content | |
US5164899A (en) | Method and apparatus for computer understanding and manipulation of minimally formatted text documents | |
US8005300B2 (en) | Image search system, image search method, and storage medium | |
JP3232144B2 (ja) | 文章中の単語文節の出現頻度を求めるための装置 | |
EP0621542B1 (en) | Method and apparatus for automatic language determination of a script-type document | |
US5923792A (en) | Screen display methods for computer-aided data entry | |
JP2973944B2 (ja) | 文書処理装置および文書処理方法 | |
US5438628A (en) | Method for matching text images and documents using character shape codes | |
EP0779592B1 (en) | Automatic method of identifying drop words in a document image without performing OCR | |
JP2005242579A (ja) | 文書処理装置、文書処理方法、および文書処理プログラム | |
Lu et al. | Information retrieval in document image databases | |
JPH0721319A (ja) | 自動アジア言語決定装置 | |
US7099507B2 (en) | Method and system for extracting title from document image | |
JP2007122403A (ja) | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム | |
WO2007070010A1 (en) | Improvements in electronic document analysis | |
JP3598711B2 (ja) | 文書ファイリング装置 | |
JP4678712B2 (ja) | 言語識別装置、プログラム及び記録媒体 | |
JP2004171316A (ja) | Ocr装置及び文書検索システム及び文書検索プログラム | |
JP3157530B2 (ja) | 文字切り出し方法 | |
JPH07271829A (ja) | 文字形状コードを用いたテキスト画像と原稿とのマッチング方法 | |
Maderlechner et al. | Extraction of valid data sets in registers using recognition of invalidation lines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040628 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050209 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090218 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100218 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100218 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110218 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120218 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120218 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130218 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |