JPH05307595A - 文書画像の復号なしに文書中の文の出現頻度を調べるための方法およびその装置 - Google Patents
文書画像の復号なしに文書中の文の出現頻度を調べるための方法およびその装置Info
- Publication number
- JPH05307595A JPH05307595A JP4302724A JP30272492A JPH05307595A JP H05307595 A JPH05307595 A JP H05307595A JP 4302724 A JP4302724 A JP 4302724A JP 30272492 A JP30272492 A JP 30272492A JP H05307595 A JPH05307595 A JP H05307595A
- Authority
- JP
- Japan
- Prior art keywords
- word
- image
- document
- units
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Processing Or Creating Images (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Character Input (AREA)
Abstract
頻度を文書画像を復号することなく調べるための方法及
び装置を提供。 【構成】一枚またはそれ以上のシートのページ10また
はその他の触知可能な形態に含まれる文章の行7、表
題、図8または同様のものを含む原本文書5の電子化画
像上で本法が実施される。画像処理技術の第1の様相
は、各ページについて文書画像が在来の分析技術を用い
るか文字文書の場合には境界ボックス法が望ましく画像
単位を含む複号されていない情報に断片化20される。
ページ上の画像単位の位置・文書構造の決定25。不十
分な情報内容のものを識別30。選択された画像単位3
0で弁別されなかった画像単位が、画像単位の所定の画
像特性の評価に基づき決定されたものと比較42。これ
以外にどれとも適合しない等価クラスを識別50。対応
する等価クラスの順列が分析されて文の頻度が決定され
る。
Description
に装置の改良に関するもので、より特定すれば、単語ま
たは画像を第1に復号することなくまたは外部の参考辞
書を参照することなく、文書中の文の出現頻度を識別し
調べるための改良に関する。
おいて、処理する文書の属性でオペレータがしばしば知
ることを所望しているのは単語の一部または全部の出現
する頻度である。例えば、ソルトンとマクギル(Salton
and McGill )の「現代情報収集入門 (Introduction t
o Modern Information Retrieval) 」(マグロウヒル出
版(McGraw-Hill) 、1983年)、第2章、30ペー
ジ、36ページでは情報収集の内容には所定の術語の使
用頻度が文書の情報内容に相対するその術語の重要性と
相関しうることが示されている。単語の頻度情報はその
ため文書の自動要約および/または注釈に有用でありう
る。単語の頻度情報はまた位置の特定、目次作成、ファ
イル作成、並べ変え、または文書取り込みに有用でもあ
る。
編集である。例えば、ひとつの文章編集装置は文書内で
頻繁に出現する単語を分類し表示することによって文章
中に同一単語を頻繁に使用することを防止するように提
示している。選択した単語のリストとそれぞれの単語の
出現頻度数が文章の一部内で所定の文章位置について公
式化され、指定された単語とその位置がCRT画面上に
表示される。
での単語列すなわち文の頻度の知見が、自動文書要約に
も有用であると言う事である。文の頻度情報はまた文書
の位置特定、目次作成、ファイル作成、並べ変え、また
は取り込みに使用することができる。
が読み取り可能な形式へ変換する、例えば何らかの形態
の光学的文字認識(OCR)を使用して復号することに
よるなどして、ビットマップ化された単語単位の画像ま
たは場合によっては単語単位画像内の多数の文字が解読
され外部の文字ライブラリを参照する画像の符号表現へ
変換することによる電子化文章について実施されてき
た。復号された単語または文字列はこのあと付属する辞
書内部にある辞書の術語と比較される。こうした光学的
文字認識技術の欠点は、中間的な光学式文字認識段階で
計算エラーの大きな可能性が導入されることと実質的な
処理時間が必要となることで、単語単位の識別処理全体
の速度が低下することである。
文書画像中の同様の文の出現頻度を文書画像を復号する
ことなく調べるための方法およびその装置を提供するこ
とである。
り導入される可能性がある不必要なエラーを減少または
排除し、光学的文字認識アルゴリズムまたはビットマッ
プ相関法より効率的であると記述される形式の方法およ
びその装置を提供することである。
しうる、また並列化が可能と記述される形式の方法およ
びその装置を提供することである。
い文書画像中の文の出現頻度を調べるための方法が提示
される。本法によれば、文書画像は復号されていない情
報内容を有する画像単位内に入力されまた断片化され
る。画像単位のうちの選択したもののそれぞれについて
少なくともひとつの重要な形態的構造の画像特性が求め
られ、選択した画像単位と等価なクラスが同様な形態的
画像特性を有する画像単位を集合することにより識別さ
れる。選択した画像単位が文書画像中に出現する順序で
配置された選択された単位で考えうる全ての順序に対応
する等価クラスのラベルの順序が調べられ、また等価ク
ラスのラベルの順列がそのあと評価されて反復する下位
の順列の数が識別され、これによって等価クラスのラベ
ルの順列それぞれの頻度が決定される。
含む文書中の単語単位のことがあり、単語単位は、その
単語単位の形状の特徴を表わすような少なくともひとつ
の1次元信号、または、その単語単位を包囲する境界を
定義する画像関数であって境界内で検出された文字列の
端部を表わす端部関数が閉じた境界内の単一の独立変数
によってこれの全体領域にわたり定義されその単語単位
を構成する文字または文字列を個別に検出および/また
は識別がなされないように増加された画像関数のいずれ
かであるような、単語単位の単語形状表現を導出するこ
とによって評価されるのが望ましい。
性の組み合わせ、または導出した画像単位の形状の表現
を相互に比較することで決定されるのが望ましい。形態
的特性は画像単位の長さ、幅、字体、字種、字体の断
面、アセンダの数、デセンダの数、または同様なものを
含むことが出来る。本発明による特に有効な比較におい
て、上述の単語形状の表現の高さおよび幅の寸法だけが
比較される。それぞれの等価クラス内の単語単位は相互
にリンクされ、それぞれの出現頻度が決定されうるよう
に割り当てられる。
れていない走査文書画像を処理して文書画像中の文章の
頻度を調べるための装置が提示される。本装置は単語単
位の内容に基づかない形態的画像特性を用いることで文
章の頻度を計算するための文章頻度測定手段と、出力装
置を含む。単語および文章頻度測定手段はプログラム可
能なデジタル式コンピュータのこともある。
換することなしに、保存した文書画像から直接文書中の
文章の頻度を測定するための方法ならびにその装置を提
供する。本発明では、ビットマップを相関する必要のな
い、単語の画像単位の形態的画像特性を比較する内容に
依存しない画像認識技術を使用する。
定されるものではない。むしろ、例えばビットマップ・
ワークステーション(すなわちビットマップ式ディスプ
レイを装備したワークステーション)またはビットマッ
プおよび走査の双方を使用するシステムにおいて本開示
に詳述する方法ならびに装置の実現が等しく良好に動作
するものである。
可能であること、線形時間内の実行が可能であること、
およびASCIIコードなどの文字符号に文書を第一に
変換することなく単語のシーケンスの出現頻度情報を抽
出するために提供することが含まれる。また、本発明は
中間的な解釈処理、例えば光学的文字認識などによる潜
在的なエラーの導入を排除する。本法はOCRアルゴリ
ズムまたはビットマップ相関に基づく方法に比べ時間お
よび経費の点で有効である。
徴、利点は添付の図面ならびに請求の範囲を参照しつつ
以下の詳細な説明を読み進にしたがって当業者には明ら
かになろう。
文書の文字を文字符号に変換することなく、文書の文字
中の文節の出現頻度を調べるための方法の流れ図であ
る。
画像単位または文字を復号することなくまたは文書中の
画像単位または文字を文字符号に変換することなく文書
の文字中の文節の出現頻度を調べるための装置を示す。
に図示してあり、図1の方法を実行するための装置を図
2に示す。明確になすため、本発明は単一の文書の処理
を参照して詳述することとする。しかし、本発明は複数
の文書を含む文書の複合体の処理に適用可能であること
は理解されよう。
以上のシートまたは紙のページ10またはその他の触知
可能な形態に含まれる文章の行7、表題、図面、図8、
または同様のものを含むことがある原本文書5の電子化
画像上で本法が実行される。処理すべき電子化文書画像
は何らかの在来の方法、例えば、図示した光学式スキャ
ナ12および検出装置13、複写装置のスキャナ、点字
読み取り装置のスキャナ、ビットマップワークステーシ
ョン、電子ビームスキャナまたは同様なものなどの入力
手段によって生成される。このような手段は従来技術に
おいて公知であるからここでは詳細な説明を行なわな
い。例えばスキャナの検出装置13に由来する出力はデ
ジタル化されて文書の各ページについての文書画像を表
わすビットマップ画像データを生成し、このデータは例
えば専用または汎用のデジタル式コンピュータ16のメ
モリ15内に保存される。デジタルコンピュータ16は
プログラム命令を所定の手順で実行することにより機能
を実現するための実行処理手段を含む、例えば現在では
従来技術において公知のコンピュータなど、データ処理
システム内においてデータ駆動型処理を実行する形式の
ことがある。コンピュータ16からの出力は、例えばメ
モリまたは他の形態の保存装置、または図示したような
出力ディスプレイ17などの、例えば複写装置、CRT
ディスプレイ装置、印刷装置、ファクシミリ装置、また
は同様のものでありうる出力装置へ供給される。
第1に、参考にここでも含めている上述したカス(Cas
s) らの同時出願中の特許出願に述べられているように
調べられる。よって図1をここで参照すると、本発明の
画像処理技術の第1の様相は、各ページについて文書画
像が在来の画像分析技術を用いるかまたは文字文書の場
合には境界ボックス法を使用することが望ましい画像単
位を含む復号されていない情報に分割される(段階2
0)低レベルの文書画像分析よりなる。あるページ上の
画像単位の位置およびこれらの間の空間的関連性が次に
調べられる(段階25)。例えば、英語の文書画像は単
語内の文字間の間隔と単語間の間隔の相対的な差に基づ
いて単語画像単位に分割される。文章と段落の境界も同
様に確定できる。さらなる領域分割画像分析を実施し
て、ページの画像を図、表、脚注および同様なものなど
の補助的な文書の要素に対応するラベルのついた領域に
分割する物理的文書構造記述子を生成することが出来
る。図面の領域は例えば領域内の行に配置された画像単
位の相対的な欠如に基づいて文章領域と区別することが
出来る。この分割方法を使用することで、処理している
文書がどのように構成されているかの知識(例えば左か
ら右へ、上から下へ)および任意で、文書の様式、単語
画像について「読み取る順番」の順列などその他の入力
された情報も生成することが出来る。術語「画像単位」
は数字、文字、表意記号、シンボル、単語、文節または
その他の単位など確実に抽出できるものの画像から識別
可能な断片を定義するものとしてここでは使用すること
とする。有利なことに、文書の参照および評価の目的
で、文書画像が文字、シンボル、またはその他の要素例
えば単語などの意味上の最小単位を形成する組に分割さ
れる。こうした意味をなす単一の単位はひとつの単位を
構成する要素を分割する間隔よりも広い間隔で分割され
ていることが画像上の特徴をなしている。こうした意味
上の単一の単位を表わす画像単位は本論では今後「単語
単位」と称することにする。
されて、処理している文書の主たる内容の評価に有用で
あるためには不十分な情報内容を有する画像単位を識別
する。こうした画像単位には停止または機能語、すなわ
ち前置詞、冠詞、およびその他の広く文法規則上の役割
を演じ、情報の主題を担う名詞および動詞に対向する単
語が含まれる。好適な方法のひとつは形態的機能語検出
技術を使用することである。
位、例えば段階30において弁別されなかった画像単位
が、分類している画像単位を復号することなくまたは復
号した画像データを参照することなく、画像単位の所定
の画像特性の評価に基づいて評価される。評価は画像特
性の決定(段階41)および他の画像単位の決定された
画像特性とそれぞれの画像単位について決定された画像
特性の比較(段階42)が必須である。
めの好適な方法のひとつは、単語形状導出技術を使用す
ることである。少なくともひとつの、単語単位の形状の
特徴を示す1次元信号が誘導されるか、または単語単位
を包囲する境界を定義する画像関数が導出されて、単語
単位を構成する文字または文字列を個別に検出および/
または識別することなく閉じた境界内で単一の独立変数
により領域全体にわたって境界内で検出された文字列の
端部を表わす端部関数が定義されるように先の画像関数
が増加される。この処理の一環として、ページ上の文章
の基線(基線は文章行の上のデセンダを有さない文字の
下に延在する線である)が求められる。基線に沿った単
語単位の順位付けおよびそれぞれの文書画像のページ上
の基線の順位付けが文書画像中の単語単位の読み取り順
序を提供することは理解されよう。
(段階50)、それぞれの等価クラスが文書中の所定の
単語の例の大半または全てを含むように、それぞれの選
択した画像単位で求められた形態的特性または導出した
画像単位の形状表現が、上述したように(段階41)、
他の選択した画像単位の所定の形態的特性または導出し
た画像単位の形状表現と比較される。等価クラスは画像
単位識別子の類似性に基づいて文書中の画像単位を集合
させることにより、例えば単語画像を文字符号へ変換す
るかまたは他のもっと高いレベルでの解釈によるなどの
画像単位の内容の実際の復号を行なうことなく、形成さ
れる。多数の異なる比較方法のどれであっても使用する
ことが出来る。使用可能な技術のひとつは決断ネットワ
ークを使用して抽出した画像単位のラスタ画像を相関す
ることによるもので、こうした技術は本明細書で参考文
献に含めているケーシーら(Casey et al.)の「パター
ン分類のための決定ネットワークの監督されない構造
(Unsupervised Construction of Decision Networks for Pattern Classification
)」、IBM研究報告、1984年、と題する研究報
告に特徴が詳述されている。
使用しうる好適な技術は、単語形状比較技術である。
により異なるが、例えば異なる精密度の評価の相対的重
要性が実行可能である。例えば、有用な評価は、画像単
位の長さ、幅(高さ)または何らかのその他の測定寸法
(または導出した画像単位の形状表現、例えば文書画像
で最大の図面)や、文書中の画像単位の位置(文書画像
の選択された図面または文章を含む、例えば表題、冒頭
の図面、ひとつまたはそれ以上の文章または図面な
ど)、字体、字種、ひとつの画像単位中の同様な状態の
画素の続きである断面や、アセンダの数や、デセンダの
数や、平均画素密度や、凸部および凹部を含む上部線の
輪郭の長さや、凸部および凹部を含む基線輪郭の長さ
や、上述の分類要素の組み合わせを基準にとることがで
きる。文の出現頻度を決定する目的の充分な比較が導出
された画像単位の形状表現の長さと高さだけの比較によ
るものであることが解っている。こうした比較はとりわ
け高速で、高効率の文章出現頻度が得られ、多くの文章
文書用途において高信頼性で重要な文を抽出するのに充
分強力であることが証明されている。
について、それぞれのページが処理され、上述のように
データはメモリ15(図1参照)に保持される。データ
の全体性はこの後で処理することができる。
分類しうるひとつの方法は、直前に処理した画像単位/
形状表現と形成される場合にそれぞれの画像単位または
画像単位の形状表現を比較することによるもので、適合
が得られた場合、関連する画像単位が適合等価クラスで
識別される。これは、例えば、適合を示し適合等価クラ
スに付随するカウンターまたはレジスタを増加させる信
号を提供することで実行しうる。現在の画像単位がそれ
までに処理したどの画像単位とも適合しない場合、現在
の画像単位について新しい等価クラスが生成される。
0)、それぞれの等価クラス内の画像単位を相互に連結
でき、また夫々の等価クラスについて求める等価クラス
のラベルに割り当てることが出来る。それぞれの等価ク
ラスの寸法はそのクラス内の画像単位が文書画像中に出
現する頻度を表わす。
てた画像単位(文節)の可能な順列のすべてに対応する
等価クラスのラベルの順列が分析され、特定の等価クラ
スのラベルの順列が出現する頻度、したがって対応する
単語単位の文節が文書中に出現する頻度が求められる。
ここで用いているように、文節は文書中の読み取り順序
で評価された隣接する単語単位の何らかの順列である
(文節頻度の分析を導入する以前に停止または機能語が
弁別される必要はない)。したがって、文節には文書画
像(または分析のために選択されたこれの部分)中に含
まれる単語単位全体の順列よりなる主文節と主文節内に
含まれる副文節のすべてを含む。
反復する下位順列を求めるための従来の方法はどれも等
価ラベルの順序を評価するために使用可能である。代表
的な方法はクヌース(Knuth)による「コンピュータ・プ
ログラミング技法(The Art of Computer Programming)
」、第3巻に詳述されている。有利にも、文節内の単
語単位の出現頻度は、その文節の出現頻度と少なくとも
同じ大きさの出現頻度を有することになり、等価ラベル
順列の有用な予備的並べ換えは一度または二度しか出現
しない単語単位を含むあらゆる順列を排除することにな
る。同様に、当初の並べ換えは順列中の単語単位のそれ
ぞれが高い頻度の単語であるような順列を有利に検索す
る。
要約または分類などで意味的に重要な文節をどの頻繁な
文節から識別するかの決定は、例えば文書の長さおよび
様式などの変数と主題の種別(例えば技術文献対物語)
によって変化する。特定状況で存在する変数のすべてに
依存することで、比較的高い出現頻度を有する長さの短
い文節を選択するためまたは低い出現頻度を有する長さ
の長い文節を選択するためのいずれかに有利となること
がある。例えば、技術文献では、2または3語の文節で
少なくとも5回出現するものは文書の主題を表わす技術
的文節の傾向にあると求められた。最も有利な組合わせ
で頻繁な文節を選定するパラメータの選択が所定の用途
について経験的に有利に求められ、また選択パラメータ
は異なる用途のために調整しうるように設定可能となさ
れることは理解されよう。
は、出力のためであっても画像単位の内容が復号される
付帯要件のない画像単位の順列の処理、識別、比較、ま
たは操作である。より特定すれば、文節は復号すること
なく測定、処理され、また出力へ提供されて、基本的に
実際の画像単位の内容または文節の識別内容が決定され
る必要がない。よって、例えば、複写装置または電子印
刷装置などひとつの文書から別の文書へとASCIIま
たはその他の符号化/復号化の要件を考慮することな
く、直接画像を印刷または複製しうるような用途におい
て、画像単位文節が識別され、ひとつまたはそれ以上の
その画像単位の形態的画像特性を使用して処理される。
上述した比較処理においては、例えば、未定義の内容
で、注目する文書画像領域内にある選択された画像単位
が未定義の内容のこれも同一の文書内にある別の画像単
位と比較されている。これも内容を調べていない文節全
体が、例えば文書画像内の出現頻度の順番に重要な文節
のリストを生成することにおいて、光学的にまたは電子
的に、例えば複写装置の画像複製装置、電子的メモリ、
視覚的ディスプレイ、または同様なものなどへ出力とし
て供給されうる。
基づいて文書中の文の重要性を調べるために使用でき
る。よって、ある文節が出現する回数を用いて文節の階
層を構築でき、こうした階層は多くの用途で有用であ
る。しかし記述子は画像単位の内容を実際に復号するこ
となく求められていること、画像単位自体の選択された
画像記述子だけが使用されていることは特筆しうるもの
である。本法は当然のこととして上述の方法と同様の方
法で複数のページ長さの文書にも適用し得るものであ
る。
ているが、本開示が例として提示されるに過ぎないこと
と、部材の組み合わせおよび構成における多数の変化が
本発明の後述の請求の範囲を逸脱することなく当業者に
よってもたらされうることは理解されよう。
字を文字符号に変換することなく、文書文字中の文章の
出現頻度を調べるための方法の流れ図である。
または文字を復号することなくまたは文書中の画像単位
または文字を文字符号に変換することなく文書の文字中
の文節の出現頻度を調べるための装置を示す。
ージ、12 スキャナ、13 検出装置、15 メモ
リ、16 デジタルコンピュータ、17 出力ディスプ
レイ
Claims (10)
- 【請求項1】 復号していない電子化文書の文章画像中
の重要な単語順列の出現頻度を求めるための方法であっ
て、 上記文書画像の内容を復号することなく上記文書画像を
単語単位に断片化する段階と、 上記文書画像中の選択した単語単位の重要な形態的画像
特性を少なくとも一つ求める段階と、 上記文書画像中の上記選択した単語単位の等価クラス
を、同様な形態的画像特性を有する上記選択した画像単
位の等価クラスに集約してそれぞれの等価クラスがラベ
ルを割り当てられるように識別する段階と、 上記選択した単語単位が上記文書画像中に出現する順序
に配置した上記選択した単語単位のすべての順列に対応
する等価クラスラベルの順列を求める段階と、 上記等価クラスラベルの順列を評価してそれぞれの等価
クラスラベルの順列の頻度を求める段階を含んでなる方
法。 - 【請求項2】 上記単語単位の等価クラスを識別する段
階が決定ネットワークを使用して単語単位の形態的画像
特性を相関させることを含む請求項1に記載の方法。 - 【請求項3】 上記等価クラス識別段階が上記単語単位
の単語単位形状表現を比較することを含む請求項1に記
載の方法。 - 【請求項4】 上記単語単位の形状表現が単語単位の形
状を特徴付ける少なくともひとつの1次元信号を生成す
ることによって決定される請求項3に記載の方法。 - 【請求項5】 上記単語単位の形状表現は、上記単語単
位を包囲する境界を定義する画像関数を生成すること
で、また上記単語単位を構成する文字または文字列を個
別に検出および/または識別することなしに上記境界内
で検出された文字列の端部を表現する端部関数が上記閉
じた境界内の単一の独立変数によって全体領域について
決定されるように上記画像関数を増加させることによっ
て、決定される請求項3に記載の方法。 - 【請求項6】 上記単語単位の少なくともひとつの重要
な形態的画像特性を求める上記段階は、上記選択した画
像単位の少なくともひとつの寸法、字体、字種、アセン
ダ要素の数、デセンダ要素の数、画素密度、画素断面特
性、および輪郭の特性を求めることを含む請求項1に記
載の方法。 - 【請求項7】 上記単語形状表現の上記比較は上記単語
形状表現の長さおよび高さ寸法のみを比較する請求項3
に記載の方法。 - 【請求項8】 文書上の文章のデジタル画像を処理し
て、上記文章中の単語文節の出現頻度を求めるための装
置であって、 上記デジタル画像を復号することなく上記デジタル画像
を単語単位に断片化するための手段と、上記単語単位か
ら選択した単語単位の形態的画像特性を少なくとも一つ
求めるための手段と、 上記文書画像中の上記選択した単語単位の等価クラス
を、同様な形態的画像特性を有する上記選択した画像単
位の等価クラスに集約してそれぞれの等価クラスがラベ
ルを割り当てられるように識別するための手段と、 上記選択した単語単位が上記文書画像中に出現する順序
に配置した上記選択した単語単位のすべての順列に対応
する等価クラスラベルの順列を求めるための手段と、 上記等価クラスラベルの順列を評価してそれぞれの等価
クラスラベルの順列の頻度を求めるための手段と、 上記選択した等価クラスラベルの順列の相対的出現頻度
に応じた出力を生成するための出力装置を含む装置。 - 【請求項9】 上記形態的画像特性を求める手段が単語
単位の形状を特徴付ける1次元の信号を少なくとも一つ
生成するための手段を含む請求項8に記載の装置。 - 【請求項10】 上記形態的画像特性を調べる手段が、
上記単語単位を包囲する境界を定義する画像単位を生成
し、上記単語単位を構成する文字または文字列を個別に
検出および/または識別することなしに上記境界内で検
出された文字列の端部を表現する端部関数が上記閉じた
境界内の単一の独立変数によって全体領域について決定
されるように上記画像関数を増加させるための手段を含
む請求項8に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US794555 | 1991-11-19 | ||
US07/794,555 US5369714A (en) | 1991-11-19 | 1991-11-19 | Method and apparatus for determining the frequency of phrases in a document without document image decoding |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05307595A true JPH05307595A (ja) | 1993-11-19 |
JP3232144B2 JP3232144B2 (ja) | 2001-11-26 |
Family
ID=25162983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30272492A Expired - Lifetime JP3232144B2 (ja) | 1991-11-19 | 1992-11-12 | 文章中の単語文節の出現頻度を求めるための装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5369714A (ja) |
EP (1) | EP0544433B1 (ja) |
JP (1) | JP3232144B2 (ja) |
DE (1) | DE69225678T2 (ja) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69525401T2 (de) * | 1994-09-12 | 2002-11-21 | Adobe Systems, Inc. | Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind |
CA2154952A1 (en) * | 1994-09-12 | 1996-03-13 | Robert M. Ayers | Method and apparatus for identifying words described in a page description language file |
US5887081A (en) * | 1995-12-07 | 1999-03-23 | Ncr Corporation | Method for fast image identification and categorization of multimedia data |
KR100209411B1 (ko) * | 1996-05-10 | 1999-07-15 | 전주범 | 윤곽선 정보를 이용한 영상신호 처리 방법 |
US5956468A (en) * | 1996-07-12 | 1999-09-21 | Seiko Epson Corporation | Document segmentation system |
JP3427692B2 (ja) * | 1996-11-20 | 2003-07-22 | 松下電器産業株式会社 | 文字認識方法および文字認識装置 |
JP3008908B2 (ja) * | 1997-11-10 | 2000-02-14 | 日本電気株式会社 | 文字切り出し装置および文字切り出し方式 |
US6665841B1 (en) | 1997-11-14 | 2003-12-16 | Xerox Corporation | Transmission of subsets of layout objects at different resolutions |
US6562077B2 (en) | 1997-11-14 | 2003-05-13 | Xerox Corporation | Sorting image segments into clusters based on a distance measurement |
US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US7149347B1 (en) | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
US7027976B1 (en) * | 2001-01-29 | 2006-04-11 | Adobe Systems Incorporated | Document based character ambiguity resolution |
WO2002099739A1 (en) * | 2001-06-05 | 2002-12-12 | Matrox Electronic Systems Ltd. | Model-based recognition of objects using a calibrated image system |
WO2003063067A1 (en) * | 2002-01-24 | 2003-07-31 | Chatterbox Systems, Inc. | Method and system for locating positions in printed texts and delivering multimedia information |
US7561734B1 (en) * | 2002-03-02 | 2009-07-14 | Science Applications International Corporation | Machine learning of document templates for data extraction |
US20040133560A1 (en) * | 2003-01-07 | 2004-07-08 | Simske Steven J. | Methods and systems for organizing electronic documents |
US7734627B1 (en) | 2003-06-17 | 2010-06-08 | Google Inc. | Document similarity detection |
US8620083B2 (en) * | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US7207004B1 (en) * | 2004-07-23 | 2007-04-17 | Harrity Paul A | Correction of misspelled words |
US8229252B2 (en) | 2005-03-18 | 2012-07-24 | The Invention Science Fund I, Llc | Electronic association of a user expression and a context of the expression |
US7826687B2 (en) | 2005-03-18 | 2010-11-02 | The Invention Science Fund I, Llc | Including contextual information with a formed expression |
US8823636B2 (en) | 2005-03-18 | 2014-09-02 | The Invention Science Fund I, Llc | Including environmental information in a manual expression |
US7672512B2 (en) | 2005-03-18 | 2010-03-02 | Searete Llc | Forms for completion with an electronic writing device |
US7809215B2 (en) | 2006-10-11 | 2010-10-05 | The Invention Science Fund I, Llc | Contextual information encoded in a formed expression |
US8640959B2 (en) | 2005-03-18 | 2014-02-04 | The Invention Science Fund I, Llc | Acquisition of a user expression and a context of the expression |
US8102383B2 (en) | 2005-03-18 | 2012-01-24 | The Invention Science Fund I, Llc | Performing an action with respect to a hand-formed expression |
US8340476B2 (en) * | 2005-03-18 | 2012-12-25 | The Invention Science Fund I, Llc | Electronic acquisition of a hand formed expression and a context of the expression |
AU2005201758B2 (en) * | 2005-04-27 | 2008-12-18 | Canon Kabushiki Kaisha | Method of learning associations between documents and data sets |
US20080311551A1 (en) * | 2005-08-23 | 2008-12-18 | Mazer Corporation, The | Testing Scoring System and Method |
US7609891B2 (en) * | 2005-08-31 | 2009-10-27 | Sony Corporation | Evaluation of element distribution within a collection of images based on pixel scatterness |
JP4305431B2 (ja) * | 2005-09-06 | 2009-07-29 | ソニー株式会社 | 画像処理装置、マスク作成方法及びプログラム |
US7706613B2 (en) * | 2007-08-23 | 2010-04-27 | Kaspersky Lab, Zao | System and method for identifying text-based SPAM in rasterized images |
US7711192B1 (en) * | 2007-08-23 | 2010-05-04 | Kaspersky Lab, Zao | System and method for identifying text-based SPAM in images using grey-scale transformation |
US8111918B2 (en) * | 2008-10-20 | 2012-02-07 | Xerox Corporation | Segmentation for three-layer mixed raster content images |
US8649600B2 (en) | 2009-07-10 | 2014-02-11 | Palo Alto Research Center Incorporated | System and method for segmenting text lines in documents |
US8452086B2 (en) * | 2009-07-10 | 2013-05-28 | Palo Alto Research Center Incorporated | System and user interface for machine-assisted human labeling of pixels in an image |
US8442319B2 (en) * | 2009-07-10 | 2013-05-14 | Palo Alto Research Center Incorporated | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking |
US9003531B2 (en) * | 2009-10-01 | 2015-04-07 | Kaspersky Lab Zao | Comprehensive password management arrangment facilitating security |
US9223769B2 (en) | 2011-09-21 | 2015-12-29 | Roman Tsibulevskiy | Data processing systems, devices, and methods for content analysis |
JP5884560B2 (ja) * | 2012-03-05 | 2016-03-15 | オムロン株式会社 | 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム |
US9472037B2 (en) * | 2014-01-31 | 2016-10-18 | Ncr Corporation | Media item re-orientation |
US11200412B2 (en) * | 2017-01-14 | 2021-12-14 | Innoplexus Ag | Method and system for generating parsed document from digital document |
RU2685044C1 (ru) * | 2018-07-03 | 2019-04-16 | Федеральное государственное бюджетное учреждение "Институт теоретической и экспериментальной физики имени А.И. Алиханова Национального исследовательского центра "Курчатовский институт" (НИЦ "Курчатовский институт"- ИТЭФ) | Способ определения контекста слова и текстового файла |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2905927A (en) * | 1956-11-14 | 1959-09-22 | Stanley F Reed | Method and apparatus for recognizing words |
EP0120334B1 (en) * | 1983-03-01 | 1989-12-06 | Nec Corporation | Letter pitch detection system |
US4610025A (en) * | 1984-06-22 | 1986-09-02 | Champollion Incorporated | Cryptographic analysis system |
JPH0816918B2 (ja) * | 1989-04-18 | 1996-02-21 | シャープ株式会社 | 行抽出方法 |
JPH036659A (ja) * | 1989-06-03 | 1991-01-14 | Brother Ind Ltd | 文書処理装置 |
US5253307A (en) * | 1991-07-30 | 1993-10-12 | Xerox Corporation | Image analysis to obtain typeface information |
-
1991
- 1991-11-19 US US07/794,555 patent/US5369714A/en not_active Expired - Lifetime
-
1992
- 1992-11-12 JP JP30272492A patent/JP3232144B2/ja not_active Expired - Lifetime
- 1992-11-16 EP EP92310434A patent/EP0544433B1/en not_active Expired - Lifetime
- 1992-11-16 DE DE69225678T patent/DE69225678T2/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US5369714A (en) | 1994-11-29 |
EP0544433A2 (en) | 1993-06-02 |
DE69225678T2 (de) | 1998-12-03 |
EP0544433A3 (en) | 1993-12-22 |
EP0544433B1 (en) | 1998-05-27 |
DE69225678D1 (de) | 1998-07-02 |
JP3232144B2 (ja) | 2001-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3232144B2 (ja) | 文章中の単語文節の出現頻度を求めるための装置 | |
JP3282860B2 (ja) | 文書上のテキストのデジタル画像を処理する装置 | |
CA2077274C (en) | Method and apparatus for summarizing a document without document image decoding | |
EP0544431B1 (en) | Methods and apparatus for selecting semantically significant images in a document image without decoding image content | |
JP3289968B2 (ja) | 電子的文書処理のための装置および方法 | |
JP3232143B2 (ja) | 復号していない文書画像の修正版を自動的に作成するための装置 | |
EP1016033B1 (en) | Automatic language identification system for multilingual optical character recognition | |
JP2973944B2 (ja) | 文書処理装置および文書処理方法 | |
JPH08166970A (ja) | コード化したワードトークンを使用して文書画像をハイライトで強調する方法 | |
JPH07200745A (ja) | 少なくとも二つのイメージセクションの比較方法 | |
US5455871A (en) | Detecting function words without converting a scanned document to character codes | |
JPH08180068A (ja) | 電子ファイリング装置 | |
JP2559356B2 (ja) | 文書画像処理方法 | |
JP3384634B2 (ja) | 文字種識別方法 | |
Andreev et al. | Hausdorff distances for searching in binary text images | |
JPH0950488A (ja) | 異サイズ混在文字列の読取り方法 | |
JPH10198705A (ja) | 文書画像処理装置および文書画像処理方法および情報記録媒体 | |
JP3243389B2 (ja) | 文書識別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20010810 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080914 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080914 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090914 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100914 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100914 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110914 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120914 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120914 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130914 Year of fee payment: 12 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130914 Year of fee payment: 12 |