JPH1074250A - 文書処理装置、文書処理方法、および記憶媒体 - Google Patents

文書処理装置、文書処理方法、および記憶媒体

Info

Publication number
JPH1074250A
JPH1074250A JP8274732A JP27473296A JPH1074250A JP H1074250 A JPH1074250 A JP H1074250A JP 8274732 A JP8274732 A JP 8274732A JP 27473296 A JP27473296 A JP 27473296A JP H1074250 A JPH1074250 A JP H1074250A
Authority
JP
Japan
Prior art keywords
character
category
image
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8274732A
Other languages
English (en)
Other versions
JP2973944B2 (ja
Inventor
Katsuhiko Itonori
勝彦 糸乘
Masaharu Ozaki
正治 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP8274732A priority Critical patent/JP2973944B2/ja
Priority to US08/880,399 priority patent/US5943443A/en
Publication of JPH1074250A publication Critical patent/JPH1074250A/ja
Application granted granted Critical
Publication of JP2973944B2 publication Critical patent/JP2973944B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文書登録時に少ない計算機パワーでしかも高
速に登録処理が行なえるとともに、検索時には漏れの少
ない検索を実現することのできる文書ファイリングを提
供する。 【解決手段】 類似文字分類部11において、文字画像
をその画像特徴をもとに類似した文字ごとに類似文字カ
テゴリにあらかじめ分類し、分類されたカテゴリをその
代表となる画像特徴とともに記憶しておく。文書画像登
録時には、擬似文字認識部12において、そのテキスト
領域の各文字を認識せずに、文字認識を行なうよりも少
ない画像特徴をもとに文字カテゴリに分類し、各文字ご
とに識別されたカテゴリ列を入力画像とともに記憶して
おく。検索時には検索実行部13において、検索キーワ
ードの各文字を対応するカテゴリに変換し、変換された
カテゴリ列を一部に含む文書を検索結果として取り出
す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書を画像として
入力して蓄積する文書処理装置に関するものであり、特
に、文書画像中のテキスト内容を検索する検索機能を有
する文書処理装置に関するものである。
【0002】
【従来の技術】文書をイメージスキャナ等の画像入力装
置で画像に変換して電子的に蓄積し、後から検索するこ
とを可能とする文書ファイリング装置が実用化されてい
る。しかしながら、その多くは入力した画像1枚ごとに
キーワード等の検索のための属性を人手で付与しなけれ
ばならず、非常に労力を要していた。
【0003】本来、文書の検索ではテキスト内容による
フルテキスト検索が望ましい。しかし、これはDTP等
によって作成された電子文書に対しては可能であるが、
文書画像に対しては直接行なうことはできない。このた
め、例えば、特開昭62−44878号公報では、文書
中のテキスト部分に対して文字認識を行ない、コード化
されたテキスト内容でフルテキスト検索を可能にしてい
る。しかしながら、文字認識、特に多くの文字種を持つ
日本語などにおいては、一般的に数百次元の特徴量ベク
トルを求め、約3,000文字種以上の文字種の特徴量
との照合を行なうため、特徴ベクトルの照合処理に非常
に多大な計算機パワーが必要であった。また、文字認識
率も高くないため、検索すべきキーワードが誤認されて
しまう可能性があるという問題点があった。さらに特開
昭62−44878号公報では、文字認識処理中に得ら
れた各文字の候補を保持しておき、誤認による検索のも
れを減少させている。また、特開昭62−285189
号公報では、文字を認識後、形態素解析を利用して日本
語として妥当な文字列を得ることで、誤認識した文字の
修正を自動的に行なっている。特開平5−54197号
公報では、誤認識された文字を修正するために、漢字を
複数の代表文字によって置き換え、取り扱う字種を減ら
して確率遷移行列を利用して単語を同定している。しか
し、これらの文献に記載されている技術は、基本的には
文字認識処理を行なうために、文書登録時に多大な計算
機パワーを要し、最終的に得たいものが検索時に指定し
た単語を含む文書画像であるとするならば、文字認識さ
れた結果はほとんどが無駄なものとなってしまう。
【0004】田中他,「日本語文書画像に対する文字列
検索機能の実現」,情報処理学会情報メディア研究会資
料19−1,1995年1月では、各文字画像から得ら
れる特徴量を取り出して文字認識するのではなく、特徴
量をそのまま36bitのコードに変換する。次に検索
キーワード画像の特徴量を抽出して特徴量のマッチング
によって文字列検索を実現している。しかし、検索キー
ワードを画像として入力するか、あるいは文字フォント
イメージによって画像を生成する必要があり、フォント
の変動には弱いという欠点がある。
【0005】Reynar,J. et al,“Do
cument Reconstruction:A T
housand Words from One Pi
cture”,in Proc. of 4th An
nual Symposium on Documen
t Analysis and Informatio
n Retrieval, Las Vegas, A
pril 1995には、ヨーロッパ系言語(英語)の
テキスト画像中の文字をその大きさ、位置によって少数
のカテゴリに分類し、その並びによって単語として識別
しようとする試みが開示されている。また、米国特許第
5325444号明細書(1994)あるいは米国特許
第5438630号明細書(1995)には、“Wor
d Shape”などと呼ばれる単語単位での画像的な
特徴を用いて、OCRを用いずに特定の単語の出現頻度
を計測したり単語を同定する技術が開示されている。し
かしながら、日本語や中国語などの多くの文字種を含む
言語に対して、手がかりとするような特徴を直感的に設
定することは困難である。また、ヨーロッパ系の言語と
異なり、単語間のスペースが存在しないので単語単位で
画像中から直接得ることができない。このため、直接的
には開示されている手法を用いて日本語などのテキスト
を単語で識別することは困難であった。
【0006】また、特開平4−199467号公報に
は、誤認識しやすい文字種同士をグループ化し、グルー
プに対して文字コードを割り当てておき、検索時にもグ
ループを示す文字コードを用いて検索を行なうことが記
載されている。この文献の方法では、一度文字認識処理
を行なって文字コードを得た後、その文字コードをグル
ープを示す文字コードへ変換している。そのため、グル
ープ化によって検索漏れは防げるものの、文字認識のた
めの多大な計算機パワーおよび時間が必要であることに
は変わりはない。
【0007】また、特開平7−152774号公報に
は、検索条件式の検索文字列を、誤認識しやすい文字に
ついて複数の候補により展開し、検索を行なうことが記
載されている。さらに特開平6−103319号公報に
は、正常に変換できない文字が存在するとき、その文字
をあいまいなまま残しておき、あいまいなデータを対象
に検索を行なうことが記載されている。これらの文献に
記載されている技術によれば、いずれも検索漏れを減少
させることができる。しかし、これらの文献に記載され
ている技術においても、文字認識を行なうための多大な
計算機パワーおよび時間が必要となる。
【0008】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、文書登録時に少ない計算機
パワーでしかも高速に登録処理がおこなえるとともに、
検索時には漏れの少ない検索を実現することのできる文
書ファイリングを提供することを目的とするものであ
る。
【0009】
【課題を解決するための手段】請求項1に記載の発明
は、文書処理装置において、文字の画像特徴をもとに類
似した文字ごとに分類されたカテゴリを前記画像特徴と
対応づけて記憶しておく文字カテゴリ記憶手段と、入力
された文書画像中の文字ごとに画像を切り出すテキスト
領域抽出手段と、該テキスト領域抽出手段によって切り
出された各文字画像を所定の画像特徴をもとに前記文字
カテゴリ記憶手段に記憶されているカテゴリに分類する
擬似文字認識手段と、該擬似文字認識手段によって分類
された前記各文字画像のカテゴリを前記入力された文書
画像と対応づけて記憶しておく擬似文字認識結果記憶手
段と、検索時に入力された検索式中のキーワードの各文
字を前記文字カテゴリ記憶手段に記憶されている対応す
るカテゴリに変換するキーワード変換手段と、該キーワ
ード変換手段によってカテゴリに変換された検索式を満
たすカテゴリを有する文書画像を前記擬似文字認識結果
記憶手段から取り出す文書検索手段を具備することを特
徴とするものである。
【0010】請求項2に記載の発明は、請求項1に記載
の文書処理装置において、前記文字カテゴリ記憶手段に
記憶されているカテゴリは、文字画像の特徴ベクトルに
よるクラスタリングによって分類を行なったものである
ことを特徴とするものである。
【0011】請求項3に記載の発明は、請求項1に記載
の文書処理装置において、前記擬似文字認識結果記憶手
段内の文書画像に対応づけて記憶しているカテゴリは、
文書画像内において隣り合う2つの文字画像のカテゴリ
をキーとして該キーが出現する文書の識別子を記憶する
バイグラムテーブルとして記憶されており、前記文書検
索手段は、前記キーワード変換手段によって変換された
カテゴリを前記バイグラムテーブルから検索することを
特徴とするものである。
【0012】請求項4に記載の発明は、請求項1に記載
の文書処理装置において、前記文字カテゴリ記憶手段
は、1つの文字を複数のカテゴリに記憶している場合が
あり、前記キーワード変換手段は、1つの検索キーワー
ドに対して前記文字カテゴリ記憶手段内に記憶されてい
るすべてのカテゴリに変換することを特徴とするもので
ある。
【0013】請求項5に記載の発明は、請求項1に記載
の文書処理装置において、前記文字カテゴリ記憶手段
は、1つの文字を複数のカテゴリに記憶している場合が
あるとともにそれぞれのカテゴリに分類される確率を記
憶し、前記文書検索手段は、前記文字カテゴリ記憶手段
内の確率に応じて文書画像を前記擬似文字認識結果記憶
手段から取り出すことを特徴とするものである。
【0014】請求項6に記載の発明は、請求項1に記載
の文書処理装置において、前記テキスト領域抽出手段
は、複数の文字切り出し解釈が存在する場合は該解釈す
べてについて切り出しを行ない、前記擬似文字認識手段
は、前記テキスト領域抽出手段により切り出されたすべ
ての切り出し結果に対してカテゴリに分類し、擬似文字
認識結果記憶手段は、前記擬似文字認識手段により分類
されたすべてのカテゴリを前記文書画像に対応づけて記
憶することを特徴とするものである。
【0015】請求項7に記載の発明は、文書処理装置に
おいて、文字の画像特徴をもとに類似した文字ごとに分
類されたカテゴリを前記画像特徴と対応づけて記憶して
おく文字カテゴリ記憶手段と、単語とその単語の各文字
を前記カテゴリに置き換えたカテゴリ単語とを対応づけ
て記憶するカテゴリ単語辞書と、入力された文書画像中
の文字ごとに画像を切り出すテキスト領域抽出手段と、
該テキスト領域抽出手段によって切り出された各文字画
像を所定の画像特徴をもとに前記文字カテゴリ記憶手段
に記憶されているカテゴリに分類する擬似文字認識手段
と、該擬似文字認識手段によってカテゴリに分類された
カテゴリの列であるカテゴリ列を前記カテゴリ単語辞書
から検索するカテゴリ単語検索手段を具備することを特
徴とするものである。
【0016】請求項8に記載の発明は、請求項7に記載
の文書処理装置において、さらに、前記テキスト領域抽
出手段によって切り出された各文字画像を該文字画像の
外接矩形の大きさおよびその位置のいずれか1つ以上を
用いて句読点か否かを判断する句読点検出手段を具備
し、前記カテゴリ単語検索手段は、前記句読点検出手段
によって句読点と判断された文字画像間の文字画像に対
応する前記類似文字認識手段によって分類されたカテゴ
リ列を検索単位とすることを特徴とするものである。
【0017】請求項9に記載の発明は、請求項7に記載
の文書処理装置において、さらに、前記カテゴリ単語辞
書に記憶されているカテゴリ単語の品詞およびそのカテ
ゴリ単語に対応する単語間の接続関係を記憶する品詞接
続辞書を具備し、前記カテゴリ単語検索手段は、前記品
詞接続辞書に記憶されているカテゴリ単語の品詞および
該カテゴリ単語に対応する単語間の接続関係に基づいて
カテゴリ列を前記カテゴリ単語辞書から検索することを
特徴とするものである。
【0018】請求項10に記載の発明は、請求項7に記
載の文書処理装置において、さらに、前記カテゴリ単語
検索手段により検索されたカテゴリ列に対応する単語が
複数存在する場合に、該カテゴリ列に対応する文字画像
に対して文字認識を行なう文字認識手段を具備すること
を特徴とするものである。
【0019】請求項11に記載の発明は、請求項7に記
載の文書処理装置において、前記擬似文字認識手段は、
文字の画像特徴とカテゴリを代表する画像特徴が閾値内
の距離に存在する複数のカテゴリに分類する擬似文字認
識手段と、前記カテゴリ単語検索手段は、前記擬似文字
認識手段によって分類された複数のカテゴリの列であ
り、その複数のカテゴリの組合せであるカテゴリ列を前
記カテゴリ単語辞書から検索することを特徴とするもの
である。
【0020】請求項12に記載の発明は、文字の画像特
徴をもとに類似した文字ごとに分類されたカテゴリをそ
の画像特徴と対応づけて記憶しておく文字カテゴリ記憶
手段を具備した文書処理装置における文書処理方法にお
いて、入力された文書画像中の文字ごとに画像を切り出
し、切り出された各文字画像を所定の画像特徴をもとに
前記文字カテゴリ記憶手段に記憶されているカテゴリに
分類し、分類された前記各文字画像のカテゴリを前記入
力された文書画像と対応づけて記憶し、検索時に入力さ
れた検索式中のキーワードの各文字を前記文字カテゴリ
記憶手段に記憶されている対応するカテゴリに変換し、
カテゴリに変換された検索式を満たすカテゴリを有する
文書画像を取り出すことを特徴とするものである。
【0021】請求項13に記載の発明は、文字の画像特
徴をもとに類似した文字ごとに分類されたカテゴリを該
画像特徴と対応づけて記憶しておく文字カテゴリ記憶手
段と、単語とその単語の各文字を前記カテゴリに置き換
えたカテゴリ単語とを対応づけて記憶するカテゴリ単語
辞書を具備した文書処理装置における文書処理方法にお
いて、入力された文書画像中の文字ごとに画像を切り出
し、切り出された各文字画像を所定の画像特徴をもとに
前記文字カテゴリ記憶手段に記憶されているカテゴリに
分類し、カテゴリに分類されたカテゴリの列であるカテ
ゴリ列を前記カテゴリ単語辞書から検索することを特徴
とするものである。
【0022】請求項14に記載の発明は、コンピュータ
に実行させるプログラムおよび辞書を読取可能に記憶し
た記憶媒体において、前記辞書は、文字の画像特徴をも
とに類似した文字ごとに分類されたカテゴリを前記画像
特徴と対応づけて記憶しておく文字カテゴリ辞書であ
り、前記プログラムは、入力された文書画像中の文字ご
とに画像を切り出すテキスト領域抽出手段と、該テキス
ト領域抽出手段によって切り出された各文字画像を所定
の画像特徴をもとに前記文字カテゴリ辞書に記憶されて
いるカテゴリに分類する擬似文字認識処理と、該擬似文
字認識処理によって分類された前記各文字画像のカテゴ
リを前記入力された文書画像と対応づけて記憶しておく
擬似文字認識結果記憶処理と、検索時に入力された検索
式中のキーワードの各文字を前記文字カテゴリ辞書に記
憶されている対応するカテゴリに変換するキーワード変
換処理と、該キーワード変換処理によってカテゴリに変
換された検索式を満たすカテゴリを有する文書画像を前
記擬似文字認識結果記憶処理によって記憶されているも
のから取り出す文書検索処理を前記コンピュータに実行
させることを特徴とするものである。
【0023】請求項15に記載の発明は、コンピュータ
に実行させるプログラムおよび辞書を読取可能に記憶し
た記憶媒体において、前記辞書は、文字の画像特徴をも
とに類似した文字ごとに分類されたカテゴリを前記画像
特徴と対応づけて記憶しておく文字カテゴリ辞書と、単
語とその単語の各文字を前記カテゴリに置き換えたカテ
ゴリ単語とを対応づけて記憶するカテゴリ単語辞書であ
り、前記プログラムは、入力された文書画像中の文字ご
とに画像を切り出すテキスト領域抽出処理と、該テキス
ト領域抽出処理によって切り出された各文字画像を所定
の画像特徴をもとに前記文字カテゴリ辞書に記憶されて
いるカテゴリに分類する擬似文字認識処理と、該擬似文
字認識処理によってカテゴリに分類されたカテゴリの列
であるカテゴリ列を前記カテゴリ単語辞書から検索する
カテゴリ単語検索処理を前記コンピュータに実行させる
ことを特徴とするものである。
【0024】
【発明の実施の形態】図1は、本発明の文書処理装置の
第1の実施の形態を示す構成図である。図中、1はプロ
セッサ、2は表示装置、3はキーボード、4はマウス、
5はスキャナ、6はプリンタ、7は外部記憶装置、11
は類似文字分類部、12は擬似文字認識部、13は検索
実行部である。プロセッサ1には、操作を指示するため
のキーボード3、マウス4、結果を表示するためのディ
スプレイ2、文書を入力するためのイメージスキャナ
5、結果を印字出力するプリンタ6、プログラムや処理
のためのデータを保持する外部記憶装置7等が接続され
ている。プロセッサ1は、実際の処理を行なう部分であ
り、実際の処理は外部記憶装置7に蓄えられたソフトウ
エアによって実行される。プロセッサ1は、例えば通常
のコンピュータ本体等で構成される。外部記憶装置7と
しては、例えば高速アクセスが可能なハードディスク等
で構成することができる。外部記憶装置7は、文書画像
を大量に保持するために光ディスクなどの大容量デバイ
スを用いるような構成をとっても構わない。
【0025】プロセッサ1で行なわれる処理は、類似文
字分類部11、擬似文字認識部12、検索実行部13の
3つで構成される。類似文字分類部11は、対象となる
文字を、画像特徴を基にして類似文字から構成されるカ
テゴリに分類する。ここでは文書の登録の際に必要とな
る類似文字カテゴリテーブル、および検索の際に必要と
なる文字コード・カテゴリ対応テーブルを作成する。実
際の文書の登録および検索にはこれらの2つのテーブル
があればよいので、ここでの処理は文書画像の入力に先
だって行なわれるのみである。類似文字カテゴリテーブ
ルは、カテゴリを代表する文字の文字コード、実際にそ
れに属する複数の文字の文字コード、そのカテゴリを代
表する画像特徴ベクトルを対にして記憶しているもので
ある。文字コード・カテゴリ対応テーブルは、類似文字
カテゴリテーブルの逆引きテーブルであり、検索キーワ
ードを代表文字コード列に変換するために用いられる。
【0026】擬似文字認識部12は、入力された文書画
像からテキスト領域を抽出し、各領域内に含まれるそれ
ぞれの文字を類似文字カテゴリに分類して、その代表文
字コードを割り当て、これらを対応する文字の画像上の
位置とともに文書画像を外部記憶装置7に記憶する。
【0027】検索実行部13は、利用者に検索式の入力
を促し、入力がなされたならばその検索式に含まれるキ
ーワードを文字コード・カテゴリ対応テーブルによって
カテゴリの代表文字コード列に変換し、その変換された
キーワードのコード列を含む文書画像を取り出し、見つ
かったキーワードの位置とともに利用者に提示する。
【0028】以下、それぞれの処理の詳細について説明
する。図2は、類似文字分類部の処理の一例を示すフロ
ーチャートである。類似文字分類部11は、各類似文字
カテゴリに含まれる文字画像のトレーニングサンプルを
入力として、類似文字カテゴリテーブルおよび文字コー
ド・カテゴリ対応テーブルを作成する。トレーニングサ
ンプルは二値の文字画像とそれに対応する文字コードか
ら構成され、さまざまなフォント、二値化のしきい値の
異なるものなどをすべての文字種について用意する。
【0029】まず、S21において、前処理として各文
字画像の大きさの正規化を行なう。ここでは正規化され
た大きさを64×64(画素)としておく。次に特徴抽
出を行なう。ここではペリフェラル特徴を用いている。
図3は、ペリフェラル特徴の説明図である。ペリフェラ
ル特徴は、図3に示すように、文字の外接矩形のそれぞ
れの辺から走査し、白画素から黒画素に変化する点まで
の距離を特徴とするもので、最初に変化する位置と2度
目に変化する位置を取り出す。ここでは、水平および垂
直方向にそれぞれ8つの領域に分割して走査することと
し、8×4×2の合計64次元の特徴ベクトルを取り出
す。図3では、外接矩形の左辺から走査した場合を示し
ており、最初に白画素から黒画素に変化する点までの走
査軌跡を破線の矢印で示している。通常の文字認識では
さらに他の特徴量も併用して識別精度を向上させること
を行なっているが、ここでは少数の類似文字カテゴリに
分類するだけでよいので、少ない次元数の特徴ベクトル
で十分の精度が期待できる。なお、ペリフェラル特徴に
代えて、あるいはペリフェラル特徴とともに、他の特徴
を抽出して特徴ベクトルを形成してもよい。
【0030】トレーニングサンプルの各文字について特
徴ベクトルが得られたならば、S22において、同一の
文字種、すなわち「亜」ならば同じ「亜」であって異な
るフォントや二値化の異なるものなどについて特徴ベク
トルの平均をとり、各文字種ごとの代表ベクトルを作成
する。この代表ベクトル間の距離が特徴空間内で近いも
のが類似文字である。S23において、この代表ベクト
ルが近くに集まっているものをグループとしてまとめる
クラスタリング処理を行なう。クラスタリングは、例え
ば、Duda,Hart著,“Pattern Cla
ssification and Scene Ana
lysis”,Wiley−Interscience
社刊に記載されている方法などを用いることができる。
この方法はまず、初めに階層的クラスタリングを施し、
これを最初のクラスタの仮定としてクラスタごとの重心
と各特徴ベクトルとの自乗誤差の総和が最小になるよう
に最適化を行なうものである。
【0031】図4は、階層的クラスタリングの処理の一
例を示すフローチャートである。まずS31において、
所望のクラスタ数をm、文字種の総数をn、初期クラス
タをX={ci |i=1,...,n}とし、ci は類
似している文字種の代表特徴ベクトルが保持される。c
i の初期値として、各文字種の代表特徴ベクトルを1つ
ずつ入れる。S32において、現在のクラスタ数と所望
のクラスタ数mとを比較し、もし現在のクラスタの数が
mに等しければ、その時点のXをクラスタリングの結果
として処理を終わる。そうでない場合はS33へ進む。
S33において、特徴空間におけるクラスタの距離dが
最も小さい2つのクラスタの組を見つけ出し、これを一
つのクラスタに統合する。そしてS32へ戻る。
【0032】所望のクラスタ数mは任意に与えることが
できるが、ここでは仮に500に設定しておく。JIS
第一水準では約3,000字種が存在するため、1クラ
スタ当たり平均6字種が含まれることになる。この処理
の中で、クラスタ間の距離dを計算する方法としては種
々のものが考えられる。ここでは、2つのクラスタ内の
特徴ベクトルを1つずつ取り出して組を作り、その中で
最も近い位置にあるベクトルの組の距離を2つのクラス
タの距離とする方法を用いることにする。
【0033】この階層的クラスタリングの結果は最適な
クラスタリングとはいえないため、これを出発点とし
て、図2のS24においてクラスタの最適化を行なう。
最適化は各クラスタ内の特徴ベクトルの平均値と各特徴
ベクトルとの距離の二乗和をとり、すべてのクラスタに
ついての総和を判定関数とする。この判定関数の値が小
さいほどクラスタ内の特徴ベクトルが密集しており、よ
り良いクラスタリングであるといえる。これを最小とす
るようなクラスタリングを見つけることは一般的には困
難であるが、擬似的に最適化を施すことが可能である。
【0034】図5は、クラスタリングの最適化処理の一
例を示すフローチャートである。まずS41において、
任意の特徴ベクトルxを取り出す。そしてS42におい
て、特徴ベクトルxが現在属しているクラスタをci
して、そこに登録されている特徴ベクトルがxのみであ
るか否かを判定し、特徴ベクトルxのみである場合はS
41へ戻る。そうでない場合は、すべてのクラスタcj
に対して以下の計算を行なう。 (j≠iの時) a=nj /(nj +1)||x−mj ||2 (j=iの時) a=ni /(ni −1)||x−mi ||2 ただし、nj はcj に登録されている特徴ベクトルの個
数、mj はcj に属する特徴ベクトルの平均である。上
記の式は特徴ベクトルxをcj に移動させた時の判定関
数の変化量を示している。
【0035】S44において、S43で計算されたaの
値が最小となるjがi以外であるか否かを判定し、aの
値が最小となるjがi以外である場合はS45において
特徴ベクトルxをクラスタcj へ移動させる。
【0036】S46において、すべての特徴ベクトルに
ついてクラスタの移動ができなくなったか否かを判定
し、まだ移動が可能な場合には、S41へ戻って次の特
徴ベクトルをxとしてS42以下の処理を繰り返す。す
べての特徴ベクトルについてクラスタの移動ができなく
なった場合は、その時点でのクラスタを結果とし、処理
を終了する。
【0037】このようにして類似文字のクラスタリング
が行なわれる。この図5に示した処理において、S41
で任意の文字を取り出す際の方法をさまざまに変えて同
様の処理を施し、評価関数(各クラスタ内の特徴ベクト
ルの平均値と各特徴ベクトルとの距離の二乗和の総和)
を最小とするものを結果として採用する。
【0038】図2に戻り、S25において、それぞれの
クラスタに基づき、類似文字カテゴリテーブルを作成し
て記憶する。この類似文字カテゴリテーブルは、文書の
登録の際に用いられる。図6は、類似文字カテゴリテー
ブルの一例の説明図である。図6に一部示した類似文字
カテゴリテーブルは、各カテゴリごとに、属する文字の
文字コード、カテゴリ特徴の代表ベクトル、およびカテ
ゴリを代表する文字コードから構成されている。カテゴ
リ特徴ベクトルは属する文字の特徴ベクトルの平均であ
る。カテゴリを代表する文字コードはそのカテゴリに属
する文字の文字コードのうち、任意の1つが当てられ
る。図6では、文字コードの代わりに文字自体を記載し
ている。
【0039】さらに、S26において、検索処理で検索
キーワードを代表文字コード列に変換するために、類似
文字カテゴリテーブルの逆引きテーブルとして文字コー
ド・カテゴリ対応テーブルを同時に作成する。図7は、
文字コード・カテゴリ対応テーブルの一例の説明図であ
る。文字コード・カテゴリ対応テーブルは、図7に示す
ように、文字コードと、その文字コードに対応するカテ
ゴリの代表文字コードを組にして作成する。
【0040】次に、擬似文字認識部12において行なわ
れる文書の登録処理について述べる。図8は、擬似文字
認識部の処理の一例を示すフローチャートである。ま
ず、利用者は接続されているイメージスキャナ5などに
よって登録したい文書を画像として入力する。あるい
は、FAXやネットワークなどで伝送されて入力される
場合もある。ここではモノクロ二値画像を入力と想定し
ているが、グレースケールあるいはカラー文書として入
力し、擬似文字認識処理に対しての入力の際に、しきい
値処理によって二値画像に変換してもよい。入力された
二値画像に対して、まず前処理としてノイズ除去、スキ
ュー補正などが行なわれる。
【0041】S51において、二値画像の中に含まれる
文字領域が抽出される。この処理は例えば、秋山,増
田,「周辺分布、線密度、外接矩形特徴を併用した文書
画像の領域分割」,電子情報通信学会論文誌D−II,
Vol.J69,No.8などに開示されている周辺分
布による領域分割手法などを用いることができる。もち
ろん、領域分割処理方法としては多くの手法が提案され
ており、ここで述べる周辺分布に基づく手法に限ったも
のではないことはいうまでもない。図と判定された部分
は処理対象から除かれる。分割された文字ブロック領域
は矩形領域として順にブロックIDと呼ばれる番号が付
与され、メモリ内に保持される。
【0042】図9は、文字領域抽出結果の一例を示す説
明図である。図9(A)は入力された文書画像の一例を
示しており、ハッチングを施した部分が文字が並んだ行
を示しており、×を付した部分が図の領域である。例え
ば、このような二値の文書画像が入力されると、図9
(B)に太枠で示すような各文字ブロック領域と図表領
域に分割され、文字ブロック領域に対してブロックID
が付与される。図9(B)においてはブロックID1〜
6が付与されている。
【0043】図8に戻り、S52において、文字領域は
さらに行ごとに分割され、さらに文字ごとに分割され
る。この文字の切り出し処理についても種々の手法が提
案されており、いずれの手法を用いてもよい。
【0044】S53において、切り出された各文字画像
ごとに類似文字カテゴリの代表文字コードへ変換する。
図10は、代表文字コード列への変換処理の一例を示す
フローチャートである。まず、明らかに検索キーワード
になりえない句読点を取り出しておく。S61におい
て、文字画像が句読点であるか否かを判定する。句読点
の判定は、その文字画像の外接矩形の幅、高さがしきい
値Tw,Th以下であるもので、上端が文字行の中心よ
り下にあって、右に隣接する文字までの距離がしきい値
Trより大きいという条件を満たすものである。しきい
値Tw,Th,Trは日本語文字幅と高さがほぼ同一で
あるという条件から、文字行の高さをhとすると、例え
ば、Tw=Th=Tr=h/2と設定すればよい。句読
点と判定された文字については、S62において、文字
カテゴリとして句読点を示す“。”を割り当てる。
【0045】句読点でない場合、類似文字分類処理と全
く同様に、S63において大きさの正規化がなされ、画
像特徴が計算される。ここでは、類似文字分類処理時に
ペリフェラル特徴を抽出したので、それに合わせてペリ
フェラル特徴を計算する。次にS64において、この未
知文字の特徴ベクトルがどの類似文字カテゴリに属する
かを判定する。すなわち、未知文字の特徴ベクトルと類
似文字カテゴリの代表ベクトルとのユークリッド距離を
計算して比較する。代表ベクトルは、類似文字カテゴリ
テーブルに登録されているので、これを用いることがで
きる。S65において、計算されたユークリッド距離が
最も近いものをその文字カテゴリとして採用し、その代
表文字コードを結果として出力する。ここでは簡単のた
めに最短距離による識別方法を用いているが、この最短
距離による識別方法以外にもさまざまな識別手法が考え
られ、それらを用いることもできる。
【0046】図11は、代表文字コード列への変換処理
の結果の一例を示す説明図である。いま、入力された文
字画像が図11(A)に示すように「…文書画像解析
…」であった場合に、まず最初の文字画像「文」を切り
出し、特徴ベクトルを求める。次に類似文字カテゴリテ
ーブルに記憶されている各カテゴリの代表ベクトルとの
距離を求め、最短距離を持つカテゴリの代表文字コード
を割り当てる。例えば、図6に示すような類似文字カテ
ゴリテーブルが登録されているとき、順に文字画像すべ
てに対して代表文字コードへの変換を行なうと、この画
像はカテゴリの代表文字コード列「…父家画倶絹肝…」
に変換される。
【0047】ここでは通常の文字認識は行なっておら
ず、少ない次元の特徴ベクトルを用いて少数の文字カテ
ゴリとの照合を行なっているに過ぎない。類似文字カテ
ゴリテーブルには類似文字コードが登録されてはいる
が、文字認識を行なっていないのでこの類似文字コード
はこの時点では使用されない。
【0048】このように、代表文字コード列への変換処
理は、少数の文字カテゴリとの照合ですむため、大幅な
速度向上が実現できる。照合はユークリッド距離を用い
ており、計算量は特徴ベクトルの次元数と識別カテゴリ
の数にほぼ比例する。いま、識別する対象の文字種の数
を3,000、類似文字カテゴリの数を500とし、特
徴ベクトルの次元数を通常の文字認識の場合を300、
本手法の場合を64とすると、トータルで照合のための
計算量は1/28以下に抑えることができる。日本語の
文字認識の高速化手法として、少数次元の特徴ベクトル
を用いて近い文字種を数十から数百取り出しておき(大
分類)、さらに詳細な識別をさらに多次元の特徴ベクト
ルを用いて行なう(詳細分類)という階層的な識別手法
が知られている。このような手法での大分類処理で本手
法と同一次元数のベクトルを用いたと仮定しても、全文
字種(3,000)との照合が必要であり、さらに詳細
分類が必要となるので、トータルの計算量は1/6以下
になる。
【0049】図8に戻り、S53で得られた代表文字コ
ード列をそのまま検索処理の時にサーチするのでは効率
が悪いので、検索のためのインデックスを準備し、文書
を登録するごとにその内容を更新する。ここではbi−
gramによるインデックスを用い、S54においてb
i−gramテーブルへの登録を行なう。bi−gra
mは文字列の中の2つの連続する文字からなる部分文字
列を指す。すなわち、「父家画倶絹肝」という文字列の
場合には、bi−gram「父家」、「家画」、「画
倶」、「倶絹」、「絹肝」が得られる。これを代表文字
コード列について取り出し、テーブルのインデックスに
して、その文書画像IDとそのbi−gramの代表文
字コード列内の位置(すなわち、何文字目)を保存して
おく。
【0050】図12は、bi−gramテーブルの一例
の説明図である。図12には、上述の例で用いた「文書
画像解析」という文字列に対して得られた代表文字コー
ド列「父家画倶絹肝」のbi−gramテーブルを示し
ている。図12に示したbi−gramテーブルは2段
階で構成されており、bi−gramをキーとしてその
内容を示すテーブルへのポインタを格納する。ポインタ
によって示されるテーブルは、文書IDとその中のどの
領域かを示すブロックIDと文字位置との組からなるテ
ーブルとして構成され、入力された文書中の文字ブロッ
ク内に、対応するbi−gramが見つかるたびにその
エントリが追加されていく。bi−gramテーブルは
公知の技術、例えば、bi−gramをキーとするB−
treeまたはHashテーブルなどによって実現で
き、高速な検索を可能とすることができる。なお、最初
に句読点と判断されたものについてはbi−gramは
生成されない。
【0051】図8に戻り、S55において、S53で得
られた代表文字コード列を、文字ブロックごとにその画
像上の位置とともに代表文字コードテーブルとして、入
力画像とともに外部記憶装置7などに蓄える。図13
は、代表文字コードテーブルの一例を示す説明図であ
る。各代表文字コードと、その文字コードが画像上で占
める矩形位置を対にして記憶している。図13では、代
表文字コードの代わりに文字を記して示している。ま
た、文字コードが画像上で占める矩形位置は、(左上x
座標、左上y座標、幅、高さ)で表現している。以上の
処理によって入力された文書画像についての登録処理が
完了する。
【0052】最後に検索実行部13における検索処理に
ついて説明する。図14は、検索実行部の処理の一例を
示すフローチャートである。検索実行部13は、利用者
からの入力があるまで待っている。利用者がディスプレ
イ2を見ながら、例えばキーボード3で検索式を入力す
ると、検索実行部13はS71において入力された検索
式を読み込む。検索式としては、種々の形態が可能であ
るが、ここでは、検索キーワードを論理和、論理積、論
理否定などブール演算子で結合して構成されているもの
とする。
【0053】検索式を読み込むと、S72において検索
式を解析して検索式内のキーワードを取り出し、S73
において、検索式内のキーワードを文字コード・カテゴ
リ対応テーブルを参照してカテゴリの代表文字コード列
に変換する。具体例として、検索式が「文書画像*解
析」である場合について考える。ここで、*は論理積を
表わす。この検索式は「文書画像」という単語と「解
析」という単語を共に含む文書画像を検索せよという指
示を意味する。2つのキーワードに対応する代表文字コ
ード列は文字コード・カテゴリ対応テーブルを参照し
て、それぞれ「父家画倶」、「絹肝」に変換される。
【0054】次に、登録されている文書画像から得られ
た代表文字コード列の中に、この2つのキーワードから
変換された代表文字コード列を含むものがあるか否かを
調べ、あればその画像上の位置を記憶する。実際はS7
4においてキーワードに対応する代表文字コード列のb
i−gramを作成し、これをS75において前述のb
i−gramテーブルの中から検索し、対応する文書画
像のIDとそのbi−gramの出現位置を得る。3文
字以上の検索キーワードの場合は複数のbi−gram
が生成され、それぞれのbi−gramが同一文書の同
一文字ブロック中で連続して出現している必要がある。
したがって、同一の文書画像IDとブロックIDについ
てそのbi−gramの出現位置を前から順にトレース
し、連続していないものは結果から削除する。
【0055】上述の検索式の例では、キーワード「父家
画倶」からbi−gram「父家」、「家画」、「画
倶」が作成され、キーワード「絹肝」はそのままbi−
gram「絹肝」となる。例えば、図12に示すような
bi−gramテーブルが登録されているとする。まず
bi−gram「父家」が含まれる文書は、文書IDが
00001、00015、00023の4つである。こ
のうち、文書IDが00001の文書では、ブロックI
D1,2内の「父家」の位置のあとには「家画」という
bi−gramが連続していることがわかる。しかし、
文書IDが00015や00023の文書では、「家
画」というbi−gramは連続していない。したがっ
て、文書ID00001の文書が「父家画」という文字
列を含むことが分かる。同様の処理を「画倶」について
も調べて、最終的に「父家画倶」が含まれる文書の文書
IDが得られる。「絹肝」は2文字単語なのでこのbi
−gramテーブルを調べるだけでよい。こうして各検
索キーワードが出現している文書画像IDとその出現位
置が得られる。
【0056】最後にS76において検索式内の論理演算
を施す。すなわち、各検索キーワードを含む文書画像I
Dの集合に対して論理演算を行ない、最終的に検索式に
合致する文書画像IDの集合を得る。例えば、キーワー
ドに対応する代表文字コード列「父家画倶」、「絹肝」
を含む文書IDの集合がそれぞれ(00001,000
31,00202)、(00001,00054,00
202)であった場合に、論理積を施すと、(0000
1,00202)となる。すなわち、文書画像ID00
001の文書画像と、文書画像ID00202の文書画
像が、代表文字コード列「父家画倶」、「絹肝」の両方
を含んでいることになる。
【0057】S77において、このようにして得られた
結果に含まれる文書画像IDに対応する文書画像を例え
ば外部記憶装置7から取り出し、S78においてディス
プレイ2上に順に表示する。また、得られたブロックI
Dと文字位置をもとに、画像とともに記憶している画像
上の代表文字コードテーブルから文字の位置が分かるの
で、対応する文字をハイライト表示する。ハイライト表
示は白黒反転表示でもよいし、カラーディスプレイの場
合は分かりやすい色を用いても構わない。結果を見て利
用者が印刷指定をした場合は、文書画像をプリンタ6へ
出力すればよい。
【0058】次に、本発明の文書処理装置の第1の実施
の形態における第1の変形例について説明する。この第
1の変形例では、さらに検索の精度を上げるための改良
について述べる。伊藤他,「階層的印刷漢字認識システ
ムにおける字種を複数クラスタに登録する辞書構成
法」,電子情報通信学会論文誌D−II,Vol.J7
8−D−II,No.6,pp.896−905,19
95年6月でも示されているように、同一字種の特徴ベ
クトルを平均した代表ベクトルを用いてクラスタリング
を行なった場合には、実際の文字画像に対して正しく対
応するカテゴリに識別できない場合が存在する。これを
避けるために、上記の文献に開示されているε−com
ponent拡張法を用いることができる。すなわち、
文字種ごとの代表ベクトルを用いてクラスタリングした
後、テストサンプルの文字画像それぞれの特徴ベクトル
と各カテゴリの代表ベクトルとのユークリッド距離を調
べ、最短のものおよびその最短距離にスカラーパラメー
タεを加えた距離以内に存在するすべてのカテゴリにそ
の文字コードを類似文字として登録する。εの値は大き
くなればなるほど擬似文字認識の精度は向上するが、カ
テゴリあたりに含まれる文字コードが増加するため、検
索時に誤った結果を出力する可能性が増える。最適なε
の値を決定するために、まずテストサンプルとは別の未
知文字画像のセットを準備する。種々のεに対して拡張
された類似文字カテゴリを用いて擬似文字認識処理を行
ない、未知文字画像セットのすべての文字について識別
されたカテゴリに正しくその文字コードが含まれるよう
な最小の値にεをセットする。
【0059】このようにした場合、検索のための文字コ
ード・カテゴリ対応テーブルが1つの文字コードに対し
て複数の類似文字カテゴリが対応するようになる。図1
5は、複数のカテゴリへの分類を許容した場合の文字コ
ード・カテゴリ対応テーブルの一例の説明図である。図
15に示した例では、例えば文字「並」は、代表文字が
「亜」であるカテゴリと、代表文字が「平」であるカテ
ゴリの2つに分類されている。図15では示されていな
いが、1つの文字が3つ以上のカテゴリに分類されるこ
ともある。
【0060】このように1つの文字が複数のカテゴリに
分類されているため、検索式中のキーワードを代表文字
コード列に変換する際に、1つのキーワードに対して可
能な代表文字コード列が複数得られることになる。例え
ば、文字コード・カテゴリ対応テーブルが図15に示す
内容であるとき、文字「文」と「像」はそれぞれ「父、
交」と「倶、場」の2つのカテゴリに属している。この
場合、上述の検索式の例で用いたキーワード「文書画
像」は、4つの代表文字コード列「父家画倶」、「交家
画倶」、「父家画場」、「交家画場」に変換される。こ
れら4つの代表文字コード列の少なくとも1つを含む文
書をすべて取り出し、これら4つのキーワードの論理和
として内部的に処理すればよい。このような処理を行な
うことによって、若干の処理時間が増えるが、漏れのな
い検索を行なうことができる。
【0061】さらに1つの文字に対して複数のカテゴリ
が対応する場合、カテゴリの確からしさを合わせて保持
しておくことで、内部的に展開された4つのキーワード
の確からしさを示すことができる。例えば、文字「文」
が「父」カテゴリに識別される確率が0.7、「交」カ
テゴリに分類される確率が0.3であり、「像」も同様
に「倶」カテゴリに識別される確率が0.8、「場」カ
テゴリに識別される確率が0.2であるとする。この場
合、「父家画倶」は0.7×0.8=0.56、「交家
画倶」は0.3×0.8=0.24、「父家画場」は
0.7×0.2=0.14、「交家画場」は0.3×
0.2=0.06の確率で出現する。このように展開さ
れたキーワードを確からしい順に並べかえることによっ
て、検索された文書画像を確からしいものから順に利用
者に提示することも可能となる。各文字が対応するカテ
ゴリに分類される確からしさは、例えば、カテゴリの拡
張時に用いた未知文字画像セットの同一文字種の文字が
どれくらいの割合で対応するカテゴリに含まれたかを数
え上げることで計算できる。
【0062】次に、本発明の文書処理装置の第1の実施
の形態における第2の変形例について説明する。これま
では、文字切り出しの段階での誤りがなく、各文字が確
実に切り出されるものとしてきたが、現実には切り出し
時の誤りも多く発生する。日本語文字だけで構成される
場合は固定ピッチが想定できるが、英単語などが入るこ
とが想定される場合は、横書きテキストの場合はへんと
つくりに分離されることが往々にして起こる。もちろ
ん、読み取り時のかすれなどが原因で1つの文字が2つ
の文字に分かれたりすることも想定される。
【0063】いくつかの文字について可能な文字切り出
し位置が複数存在する場合は、その可能な切り出し結果
を保持した代表文字コード列を表現すればよい。このよ
うな場合を想定して以下のように代表文字コード列を表
現することを考える。これは実施例1で述べた代表文字
コードテーブルを次のように拡張することによって実現
する。
【0064】図16は、複数の文字切り出し解釈が存在
する場合の切り出し位置の具体例を示す説明図である。
いま、文字の切り出し処理の対象とする画像が図16
(A)に示されるような「文書印刷」であった場合を考
える。「文」、「書」については文字間の間隙しか存在
しないので、適切に文字を切り出すことができる。しか
し、「印」の文字中に1か所、「刷」の中に2か所、垂
直方向に白画素のみからなる切り出し位置候補が存在す
る。これら2文字の間も当然切り出し位置が存在するの
で、「印刷」からは図16(B)に示すように合計5つ
の部分文字(a1,a2,b1,b2,b3)が得られ
る。
【0065】これらについて、文字としての統合を試み
る。統合は部分文字を左から順に見ていき、幅のしきい
値を越えないものはすべて文字として見なすとする。幅
のしきい値としては、例えば行の高さhを用いることが
できる。この例では、文字「文」と統合できるものはな
いので、そのまま1文字として登録する。「書」も同様
である。文字「印」については、部分文字a1,a2を
2つの文字として扱う場合と1つの文字として扱う場合
の2つが可能な解釈がある。a2とb1を統合した場合
は幅のしきい値を越えるため、統合はなされない。した
がって、ここまでの2つの解釈を同じ文字画像領域に対
して保持する必要がある。同様にb1以降を順に見てい
くと、可能な解釈が([b1],[b2],[b
3]),([b1b2],[b3]),([b1],
[b2b3]),([b1b2b3])の4通りある。
ここで、[]は中の部分文字が1つの文字と見なされる
ことを示している。
【0066】図17は、複数の文字切り出し解釈が存在
する場合の切り出された文字列の関係の説明図である。
上述のようにして文字としての統合を試みた際の可能な
解釈の関係を図17に示している。図中の○は文字切り
出しの解釈の区切りであり、□は1つの文字として扱う
単位を示している。a1とa2については、上述のよう
な2通り、b1〜b3については4通りの解釈があるの
で、それらの各解釈にそって切り出した候補を並べて線
で結んで示している。この例では全部で8通りの解釈が
成り立つ。これらすべての解釈が保持される。
【0067】図18は、複数の切り出し解釈を許容した
場合の代表文字コードテーブルの一例の説明図である。
図17に示すような複数の解釈を表現するため、具体的
には図18に示すように、代表文字コードテーブルを基
本テーブルとサブテーブルに分割する。基本テーブルは
図13に示した代表文字コードテーブルを拡張し、複数
の文字切り出し解釈がある場合にその解釈を表現するサ
ブテーブルへのポインタを、画像上の位置を示していた
カラムに格納できるようにする。複数の解釈がある場
合、図18では基本テーブルの代表文字コードに0をセ
ットしている。サブテーブルは、ある切り出し位置から
見て右に文字と見なされる部分文字領域とその画像上の
位置、その後に接続するサブテーブルの番号によって構
成されている。
【0068】図16に示された文字「印」について考え
ると、文字切り出し位置は部分文字a1の左とa2の左
にある。サブテーブルは切り出し位置の左から順に番号
が付与される。すなわち、a1の左を切り出し位置とし
た場合に、可能な文字としての解釈は[a1]と[a1
a2]である。a1はa2の左の切り出し位置を共有し
ているので、[a1]に対してはサブテーブルの番号2
が格納されている。[a1a2]のほうはこれ以上接続
する文字はないので、0が格納されている。
【0069】次にa2の左の切り出し位置とした場合に
ついて、2番目のサブテーブルが作成される。この切り
出し位置の右における文字としての解釈は[a2]しか
存在しない。そのため、2番目のサブテーブルは[a
2]のみが登録され、その後に接続するものがないの
で、次テーブル番号には0がセットされる。
【0070】文字「刷」についても同様に3つのサブテ
ーブルが生成される。最初のサブテーブルは[b1],
[b1b2],[b1b2b3]の3つの解釈が、2番
目のサブテーブルは[b2],[b2b3]という解釈
が、3番目のサブテーブルには[b3]という解釈が生
成される。当然、それぞれに切り出された文字について
擬似文字認識処理が行なわれ、代表文字コードが割り当
てられ、サブテーブルの代表文字コードの欄に格納され
る。図18ではそれぞれの切り出された文字に対する代
表文字コードは{}で表現している。
【0071】図19は、複数の切り出し解釈を許容した
場合の代表文字コードテーブルの作成処理の一例を示す
フローチャートである。図18に示すような複数の切り
出し解釈を許容した場合の代表文字コードテーブルを作
成する際の処理の一例について説明する。まずS81に
おいて、初期値の設定を行なう。1行に含まれるk個の
部分文字領域をp1 ,p2 ,・・・,pk とし、そのリ
スト{p1 ,p2 ,・・・,pk }を変数Lにセットす
る。このとき、k個の部分文字領域は、左から右にソー
トされているものとする。また、現在処理中の文字の切
り出し解釈が複数存在するか否かを示すフラグSをFA
LSEに設定する。さらに、1文字として統合可能な部
分文字領域のリストCを空にする。さらに、現在のサブ
テーブル番号を示す変数nを1に、統合途中の部分文字
列の位置を示す変数mを1に、現在注目している部分文
字領域の位置を示す変数iを1に、それぞれセットす
る。
【0072】S82において、現在注目している部分文
字領域の位置が行末まで達したか否か、すなわちiとk
を比較し、i≦kであればS83に進み、まだ処理され
ていない最左にある部分文字領域pi を取り出し、リス
トCにpi をセットする。S84において、その部分文
字領域pi あるいはその部分文字領域pi を含む統合さ
れた部分文字領域と、その右に隣接する部分文字領域p
m+1 との統合を考え、統合した場合の文字幅を計算す
る。S85において、計算された文字幅が閾値を越えた
か否かを判定する。閾値を越えていない場合には、さら
に統合することが可能であるので、S86においてフラ
グSをTRUEとし、リストCにpm+1 を追加し、変数
mを1だけ増加させてS82へ戻る。この場合、変数i
の値は変化せず、変数mの値が変化しただけであるの
で、S84においてさらに右に隣接する部分文字領域の
統合が試みられることになる。このようにして、文字幅
が閾値を越えるまで処理が繰り返される。S85におい
て、統合した文字幅が閾値を越える場合には、S84に
おいて最後に試みられた統合は行なわず、S87へ進
む。このとき、pi からpm までは統合可能であること
になる。それまでに統合可能な部分文字領域のリスト
{pi ,・・・,pm }がリストCに格納されている。
【0073】S87において、リストCの要素がpi
みであるか否かを判定する。すなわち、複数の部分文字
領域が統合可能であるのか否かを判定する。複数存在す
る場合には、複数の部分文字領域について統合可能であ
るので、それらの部分文字領域からサブテーブルを作成
する。S88において、リストCに格納されている部分
文字領域の最左のものを含むすべての可能な統合文字領
域を、部分文字領域の個数の少ない順に番号nのサブテ
ーブルへ登録する。このとき、それぞれの統合文字領域
について、大きさを正規化し、特徴量を計算して代表文
字コードを割り当て、サブテーブルに登録する。また、
次テーブル番号は、変数nの値に統合文字領域中の部分
文字領域の個数を加えた値とし、サブテーブルの最後の
統合文字領域の次テーブル番号は0にセットする。この
ようにしてi番目の部分文字領域から始まる統合文字領
域について、サブテーブルが作成された。
【0074】S89において、次の部分文字領域から始
まる統合文字領域についての処理を行なうべく、変数i
を1だけ増加させ、注目する部分文字領域を次に移す。
それとともに、リストCを空にリセットし、サブテーブ
ルの番号を示す変数nを1だけ増加させ、変数mを変数
iの値とする。そして、S82へ戻り、次の部分文字領
域から部分文字領域の統合を試みる。
【0075】S87においてリストCの要素がpi のみ
であった場合、さらにS90においてフラグSを調べ
る。フラグSがFALSEの場合、pi は独立した文字
である可能性のある部分文字領域である。S91におい
て、その部分文字領域pi の大きさを正規化し、特徴量
を計算して代表文字コードを割り当て、基本テーブルに
登録する。そして、次の部分文字領域について処理を行
なうべく、変数iを1だけ増加させ、リストCを空にリ
セットする。そしてS82へ戻る。
【0076】S90においてフラグSがTRUEであっ
た場合、部分文字領域pi は、例えば、図16に示す例
におけるa2やb3のように、統合可能な部分文字領域
群の右端の部分文字領域である。この場合にはS93に
おいて、pi を正規化して特徴量を計算し、代表文字コ
ードを割り当ててn番目のサブテーブルを作成する。こ
の時の次テーブル番号は0である。この部分文字領域p
i は右に統合する部分文字領域は存在しないので、基本
テーブルの1つのエントリから連鎖するサブテーブルは
終了する。そのため、S94においてサブテーブルの番
号を示す変数nを1にリセットする。また、次の部分文
字領域を処理すべく、変数iを1だけ増加させ、リスト
Cを空にリセットし、フラグSをFALSEにリセット
する。また、変数mをiにセットする。そして、S82
へ戻り、新たに注目する部分文字領域からの処理を行な
う。
【0077】行の右端の部分文字領域まで処理が終了す
ると、i>kとなる。S82においてこの条件が判定さ
れると、それ以上の統合処理は不要である。S95にお
いてリストCが空か否かを判定し、空でない場合、リス
トCに残っている部分文字領域について、S87以降の
処理を行ない、基本テーブルあるいはサブテーブルを作
成する。リストCが空になると処理は終了する。このよ
うな処理によって、例えば、図18に示すような2層構
造の代表文字コードテーブルが作成される。作成された
代表文字コードテーブルは、入力された文書画像ととも
に登録される。
【0078】複数の文字切り出しの解釈を許容する場
合、検索のためのインデックスであるbi−gramテ
ーブルも複数の文字切り出しの解釈に対応できるように
拡張を行なう。すなわち、bi−gramテーブルの2
つの文字について、複数の文字切り出し解釈の1つであ
るか否か、そうであった場合に、どの文字切り出しの解
釈に属するのかを明示する必要がある。そこで、bi−
gramテーブルを以下のように拡張する。すなわち、
図12に示した個々のbi−gramに対して格納され
ている文書画像上の位置のテーブルのうち、文書ID、
ブロックIDは共通なのでそのままとし、第一文字、第
二文字それぞれに対して、その位置を(p,n,m)の
組で表わす。pはブロック内での文字位置、すなわち代
表文字コードテーブル内での位置、nは文字切り出し解
釈のサブテーブルの番号、mはサブテーブル内の位置を
それぞれ示す。
【0079】図20は、複数の切り出し解釈を許容した
場合のbi−gramテーブルの一例の説明図である。
切り出しの解釈が一通りである場合は、nは0にセット
され、mは無視される。図20においてbi−gram
「父家」の例はこれに該当する。
【0080】切り出しの解釈が複数あり、bi−gra
mの個々の文字がその中の1つである場合、nはサブテ
ーブルの番号、mはそのサブテーブル内での位置を示
す。図16に示した「印刷」の複数の文字切り出し候補
の例で、例えば、「印」の文字が2つに分離されたbi
−gram{[a1]}{[a2]}に対応する文字位
置は、(116,1,1),(116,2,1)とな
り、「印」「刷」が正確に切り出されたbi−gram
{[a1a2]}{[b1b2b3]}の文字位置は、
(116,1,2),(117,1,3)として格納さ
れる。このようにして、入力された文書画像の代表文字
コード列から作成されたbi−gramテーブルが登録
され、検索の際に使用される。
【0081】また、検索の際には、入力された検索式の
中のキーワードについて、文書画像の場合と同様にして
代表文字コード列のbi−gramを作成し、登録され
ているbi−gramテーブルの中から検索すればよ
い。キーワードは、例えばキーボード3等によって入力
されるので、検索実行部13は文字コードとして受け取
るため切り出し位置による複数の解釈は存在せず、一意
に決まる。文書画像から作成されたbi−gramテー
ブルには、正しく切り出された場合のbi−gramも
登録されているので、検索の際にはそのようなbi−g
ramとの一致が検出されることになる。
【0082】先に述べたように3文字以上のキーワード
に対して同一文書に連続して存在しているか否かの判定
する必要がある。いま2つのbi−gramが連続して
存在するか否かを判定する場合は、それらが同一文書I
D、同一文字ブロックIDを持ち、前のbi−gram
の終わりの文字の位置を示す(p,n,m)が、接続し
ているか否かを判定したいbi−gramの始めの文字
の位置と同一であればよい。このような場合に連続して
いると判定することができる。
【0083】なお、上述の第1の変形例で述べた複数の
カテゴリへの分類を許容した場合の構成と、第2の変形
例で述べた複数の文字切り出し解釈が存在する場合の構
成を組み合わせて構成することも可能である。
【0084】次に、本発明の第2の実施の形態について
説明する。上述のように、第1の実施の形態では、類似
文字のカテゴリの列に変換して単純なマッチングによっ
て検索を行なうので、文書中で単語として許容されない
ような文字列も検索してしまう可能性がある。この第2
の実施の形態では、このような単語として許容されない
ような文字列を含む文書が検索されないようにし、さら
に検索精度を向上させた例について説明する。
【0085】図21は、本発明の文書処理装置の第2の
実施の形態を示す構成図である。図中、図1と同様の部
分には同じ符号を付して説明を省略する。101は画像
入力部、102は画像表示部、103は類似文字分類
部、104はテキスト領域抽出部、105は擬似文字認
識部、106はカテゴリ単語検出部、107はカテゴリ
単語変換部、108は中央制御装置、109は記憶装
置、111は文字カテゴリ保持部、112は擬似文字認
識結果記憶部、113はカテゴリ単語辞書、114はコ
ード変換テーブルである。
【0086】画像入力部101は、例えば図1に示した
スキャナ5等で構成され、文書を画像として読み込む。
画像表示部102は、例えば図1に示したディスプレイ
2等で構成され、入力画像の表示や処理結果を確認する
ための表示などを行なう。類似文字分類部103は、図
1における類似文字分類部11と同様のものであり、対
象となる文字をその画像特徴をもとに類似文字からなる
カテゴリに分類する。テキスト領域抽出部104は、図
1における擬似文字認識部12の一部の機能を構成する
ものであり、文書画像中のテキスト領域を切り出し、さ
らに文字ごとに画像を切り出す。擬似文字認識部105
は、図1における擬似文字認識部12の一部の機能を構
成するものであり、各文字画像を類似する類似文字カテ
ゴリに分類し、その代表文字コードを割り当てる。カテ
ゴリ単語検出部106は、代表文字コード列から単語を
構成する代表文字コード列を抽出する。カテゴリ単語変
換部107は、カテゴリ単語を文字に変換する。中央制
御装置108は、装置全体を制御する。
【0087】さらに記憶装置109は、図1に示す外部
記憶装置7を含むものであり、中央制御装置108が装
置全体を制御するためのプログラム等を格納するととも
に、文字カテゴリ保持部111、擬似文字認識結果記憶
部112、カテゴリ単語辞書113、コード変換テーブ
ル114を含む。文字カテゴリ保持部111は、類似文
字分類部103で分類されたカテゴリと対応する画像特
徴を記憶する。例えば、上述の類似文字カテゴリテーブ
ルや、文字コード・カテゴリ対応テーブルなどを記憶す
る。擬似文字認識結果記憶部112は、擬似文字認識部
105で変換された代表文字コード列を保持する。カテ
ゴリ単語辞書113は、少なくとも単語を構成する代表
文字コード列と、品詞との対応関係を保持している。ま
た、その代表文字コード列で表現される1以上の文字単
語も保持する場合もある。さらに、品詞の接続関係を示
す品詞接続辞書を保持する。コード変換テーブル114
は、単語を表わす代表文字コード列と文字列との対応を
記録している。カテゴリ単語辞書113にカテゴリ単語
と対応づけて文字単語を保持している場合、コード変換
テーブル114をカテゴリ単語辞書113で代用するこ
とも可能である。
【0088】以下、それぞれの処理の詳細について説明
を行なう。まず、類似文字分類部103における処理
は、上述の第1の実施の形態と同様であるので、ここで
は説明を省略する。なお、類似文字分類部103で生成
される類似文字カテゴリテーブルおよび文字コード・カ
テゴリ対応テーブルは、文字カテゴリ保持部111に保
持される。類似文字分類部103は、解析する特徴量を
決めてしまえば、処理ごとに行なう必要がなく、別の装
置上で解析を行なって、その結果のみを文字カテゴリ保
持部111に格納して使用することもできる。文字カテ
ゴリ保持部111は、具体的には例えば図6に示すよう
な類似文字カテゴリテーブル、および、例えば図7に示
すような文字コード・カテゴリ対応テーブルを記憶す
る。
【0089】また、文字カテゴリ保持部111に記憶さ
れている類似文字カテゴリテーブルおよび文字コード・
カテゴリ対応テーブルを用いて、既存の単語辞書の文字
コードを代表文字コード列で置き換えることによって、
カテゴリ単語辞書113およびコード変換テーブル11
4を生成することができる。図22は、本発明の文書処
理装置の第2の実施の形態におけるカテゴリ単語辞書の
一例の説明図である。この例では、単語を示す代表文字
コード列と、その代表文字コード列で示される単語の品
詞と、その代表文字コード列で示される単語の文字列を
対応づけている。既存の単語辞書には、文字単語と品詞
とを対にして記憶しているものがあり、この文字単語に
対応する代表文字コード列を得て、並べ替えることによ
って図22に示すようなカテゴリ単語辞書113が得ら
れる。なお、図22に示すカテゴリ単語辞書113で
は、単語を示す代表文字コード列には、例えば活用変化
する単語について、語幹となる単語だけでなく、語尾に
ついても別に記憶している。そして、後述するように、
品詞接続辞書を内蔵し、語幹と語尾との接続関係を示
し、さらに接続される助動詞や助詞などを示すように構
成している。あるいは、活用形をすべて記憶させておい
てもよい。
【0090】図23は、本発明の文書処理装置の第2の
実施の形態におけるカテゴリ単語辞書の別の例の説明図
である。カテゴリ単語辞書113は、図22に示したよ
うなが代表文字コード列と、文字コードによる単語、そ
れと品詞の対応を示す表の形式のほかにも種々の形式で
表現することができる。例えば、照合処理を効率的に行
なうため、図23に示すような形式でカテゴリ単語辞書
113を構成することができる。このカテゴリ単語辞書
113は、例えば、青江,「トライとその応用」,情報
処理,Vol.34,No.2,1993.2に紹介さ
れているトライ(trie)を用い、各代表文字コード
で始まるカテゴリ単語を全て保持するようにトライを構
成している。そして、終端ノードまでたどることで、カ
テゴリ単語を抽出できる構造になっている。なお、図2
3では終端ノードを◎で示している。
【0091】図23に示した例では、例えば、「文
字」、「文学」、「文学者」、「文学青年」、「文
化」、「文化遺産」、「文化勲章」の7つの単語を照合
できるカテゴリ単語辞書113を示している。7つの単
語は、それぞれを代表文字コード列に直すと、「父
手」、「父羊」、「父羊君」、「父羊君牛」、「父
化」、「父化送屋」、「父化郵琴」となる。これらをそ
れぞれトライで表わすと、図23に示すようになる。文
字列の先頭から順に1文字ずつこのカテゴリ単語辞書1
13と照合し、終端記号◎までたどり着くような文字列
を単語として許容し、出力する。図23では上記の7つ
の単語のみを照合するようなトライを示しているが、実
際は全単語について代表文字コード列に変換してトライ
を生成し、これをカテゴリ単語辞書113とする。品詞
や文字単語などの対応する情報は、終端記号の部分に対
応づけておけばよい。あるいは、図22に示すような表
とともに、図23に示すようなトライによる辞書を併せ
持っていてもよい。もちろん、他のデータ構造によって
カテゴリ単語辞書113を構成してもよい。
【0092】また図24は、本発明の文書処理装置の第
2の実施の形態におけるコード変換テーブルの一例の説
明図である。このコード変換テーブル114は、特に代
表文字コード列と、その代表文字コード列に対応する単
語を組にして記憶している。ここでは品詞の情報も付加
されている。カテゴリ単語辞書113とコード変換テー
ブル114の保持するデータはほぼ同じであるので、実
際の処理では共有することが可能である。しかし、ここ
では説明を簡単にするために、別々のデータとして扱う
ことにする。
【0093】以上の処理は、文書画像から単語を切り出
すために必要なデータを準備するための処理であるの
で、別の装置上で以上の処理を行ない、得られた類似文
字カテゴリテーブル、文字コード・カテゴリ対応テーブ
ル、カテゴリ単語辞書113、コード変換テーブル11
4を予め作成し、それそれのデータのみを使用するよう
にしてもよい。
【0094】次に、文書の登録処理について説明する。
テキスト領域抽出部104は、画像入力部101で入力
された2値のディジタル画像を解析して文字領域を切り
出し、さらに各文字を切り出す。このテキスト領域抽出
部104の処理は、上述の第1の実施の形態における擬
似文字認識部12の処理の一部、すなわち図8に示した
フローチャートにおけるS51,S52の処理と同じで
あるので、ここでは説明を省略する。
【0095】擬似文字認識部105は、テキスト領域抽
出部104で切り出された文字領域ごとに処理を行な
う。この擬似文字認識部105の処理は、上述の第1の
実施の形態における擬似文字認識部12の処理の一部、
すなわち図8に示したフローチャートにおけるS53以
降の処理を行なうが、S54におけるbi−gramテ
ーブルへの登録処理は行なわない。
【0096】擬似文字認識部105は、テキスト領域抽
出部104で切り出された各文字画像ごとに、類似文字
カテゴリの代表文字コードへ変換する。この処理は、上
述の図10に示した処理と同じであるので説明を省略す
る。得られた代表文字コード列は、文字ブロックごとに
その画像上の位置と入力画像とともに擬似文字認識結果
記憶部112に記憶される。例えば上述の図13に示し
たように、代表文字コードと画像上で占める矩形位置を
(左上X座標,左上Y座標,幅,高さ)で表現し、記憶
しておくことができる。
【0097】カテゴリ単語検出部106は、擬似文字認
識部105で擬似文字認識結果記憶部112に格納され
た代表文字コード列から、カテゴリ単語辞書113との
照合を行なって、単語として認定される代表文字コード
列を抽出する。図25は、図26は、本発明の文書処理
装置の第2の実施の形態におけるカテゴリ単語検出部の
動作の一例を示すフローチャートである。なお、ここで
はカテゴリ単語辞書113は、図23で示したトライの
データ構造を有しているものとする。
【0098】まずS121において、擬似文字認識部1
05で検出した句読点をカテゴリ文字列から検出し、先
頭文字から句読点、あるいは句読点間の代表文字コード
列を1つの処理ユニットとして、擬似文字認識結果記憶
部112に記憶されている代表文字コード列を複数の処
理ユニットに分割する。以下、分割した処理ユニットを
順に処理してゆく。
【0099】S122において、未処理の処理ユニット
があるか否かを判定し、すべての処理ユニットが処理済
みであれば、カテゴリ単語検出部106の処理を終了す
る。未処理の処理ユニットが存在する場合には、S12
3において、ある未処理の処理ユニットを特定し、その
処理ユニットの文字数を変数Nに格納するとともに、変
数I,Jの値を1にセットする。変数Iは処理ユニット
中の処理対象の文字を示すために用いられる。また、変
数Jは、カテゴリ単語辞書113内のトライのノードの
階層を示すために用いられる。また、S124におい
て、変数Pに変数Iの値を代入するとともに、変数Tの
値を1にセットし、領域BUFFERをNULLにクリ
アする。変数Pは、選択した処理ユニット内で新たな単
語の検出を開始した文字位置を示し、変数Tは新たに検
出した単語の文字数を示すために用いられる。領域BU
FFERには、検出した単語が順に格納される。
【0100】S125において、選択した処理ユニット
のすべての文字が処理されたか否かを、変数Iが変数N
以内か否かで判定する。未処理の文字が存在する場合に
は、S127において、選択された処理ユニットのI番
目の文字を、カテゴリ単語辞書113のJ番目の階層の
全てのノードの内、処理ユニットのI−1番目の文字と
接続性のある全てのノードと照合する。このとき、終端
記号は全ての文字と一致するワイルドカードとして扱
う。ここで、S128において照合する文字があるか否
かを判定し、照合する文字がなければ、I番目までの文
字列は単語として許容されないので、現在の単語照合を
開始した文字の次の文字から照合をやり直す。すなわ
ち、S132において変数Pに格納されている単語の検
出開始文字位置に、変数Tに格納されている新たに単語
として検出された文字数を加算して、これから照合を開
始する文字位置を計算して変数Iに代入する。さらにS
134において、領域BUFFERに格納されているそ
れまでに検出した単語を記憶装置109に格納し、S1
35でカテゴリ単語辞書113の最初から照合を行なう
ように変数Jを1にセットして、S124へ戻る。S1
24で変数Pに変数Iの値が代入され、新たに単語の検
出を開始する位置を待避する。そして、新たに単語を検
出すべく、処理を続ける。
【0101】S128で照合した文字が、カテゴリ単語
辞書113のJ番目の階層の処理ユニットのI−1番目
の文字と接続性のあるノードとして存在する場合、さら
にS129において照合した文字に終端記号が含まれる
か否かを判定する。終端記号が含まれる場合、変数Iが
示す文字位置までに単語が含まれる可能性があるので、
S130において、検出された単語を領域BUFFER
に記憶し、単語長を変数Tに記憶する。
【0102】S127で照合した際に一致する文字は1
つに限らず、例えば、ある文字と終端記号の2つと一致
する場合がある。S131において、照合により一致し
た文字が終端記号だけであったか否かを判定し、終端記
号だけであれば、それ以上の長さの一致する単語はカテ
ゴリ単語辞書113中に存在しないので、S134にお
いて領域BUFFERに記憶されている、それまでに検
出した単語を記憶装置109に格納し、新たな単語を検
出すべく、S135で変数Jの値を1にセットしてカテ
ゴリ単語辞書113の先頭に階層を戻し、S124に戻
る。S124で変数Pに変数Iの値が代入され、新たに
単語の検出を開始する位置を待避する。そして、新たに
単語を検出すべく、処理を続ける。
【0103】S129において照合により一致した文字
中に終端記号を含まない場合、あるいは、S131にお
いて照合により一致した文字が終端記号のみでなかった
場合には、S133で次の文字の照合を行なうべく、変
数I,Jの値に1だけ加算し、S125へ戻る。
【0104】このような処理を繰り返してゆくと、終端
記号が現われるごとに単語が検出されて記憶装置109
に格納されてゆく。そして選択した処理ユニットのすべ
ての文字について処理が終わると、それをS125にお
いて検出し、領域BUFFERに格納されている単語を
記憶装置109に格納して、その処理ユニットについて
の処理を終了する。S122で未処理の処理ユニットが
存在すると判定された場合には、その未処理の処理ユニ
ットを選択し、上述のように1文字ずつ照合処理を行な
い、単語を検出してゆく。すべての処理ユニットについ
て処理が終了すると、カテゴリ単語検出部106の処理
を終了する。
【0105】具体例として、例えば図23に示したトラ
イを用いて代表文字コード列「父化送琴」を処理ユニッ
トとした照合を考える。最初に「父」の照合を行ない、
一致するので次の代表文字コード「化」の照合を行な
う。図23に示したトライの2番目の階層の「父」と接
続性のあるすべての代表文字コード「手」、「羊」、
「化」と照合を行なう。この照合により「化」が一致す
る。一致する代表文字コードの中に終端記号が含まれな
いので、さらに次の代表文字コード「送」についての照
合を行なう。すなわち3番目の階層の代表文字コードの
中で「化」と接続性のある終端記号、「送」、「郵」と
の照合を行なう。この場合、終端記号と「送」と一致す
る。終端記号を含むので「父化」が単語として検出さ
れ、領域BUFFERに格納される。しかし、一致した
代表文字コードは終端記号だけではなかったので、さら
に照合と続ける。次の代表文字コード「琴」と、4番目
の階層の代表文字コード中の「送」と接続性のある
「屋」との照合を行なう。しかし代表文字コードは一致
しないので、領域BUFFER内の単語「父化」が記憶
装置109に格納される。
【0106】次の単語の照合は、検出したカテゴリ単語
「父化」の次の文字「送」から始められる。このような
処理を処理ユニットの最後の文字まで行ない、さらに未
処理の処理ユニットがなくなるまで続ける。この処理に
より、カテゴリ単語辞書113内に存在し、文書中に出
現する全てのカテゴリ単語を記憶装置109に格納する
ことができる。
【0107】文書中には同一の単語が複数回出現するの
が一般的であるため、記憶装置109には同じカテゴリ
単語が重複して格納されることになる。重複したカテゴ
リ単語は、そのまま残してもよいし、1つ以外を削除し
てもよい。画像上での単語の出現場所を知りたい場合の
ために、擬似文字認識結果記憶部112に代表文字コー
ドとともに画像上の位置情報を記憶しているが、重複排
除する場合には、1つの単語に複数の位置情報を記憶す
るように構成すればよい。なお、この位置情報を用いて
単語の出現位置を表示する等の手法としては、周知の種
々の技術を用いることができ、ここではこれ以上の説明
は行なわない。
【0108】これまでの処理で、代表文字コードで表現
されたカテゴリ単語を抽出することができた。しかし、
これまでの処理では単に単語辞書に存在する単語を検出
しているのみで、必ずしも日本語の単語として許容でき
るものである保証はない。例えば、複合名詞を本来の名
詞の境界とは違う文字で分けて単語を抽出したり、付属
語との接続が誤っている単語を抽出する可能性がある。
そのため、以下で説明するように、単語間の品詞の接続
性を検証することで、このような言語として誤りを訂正
する。
【0109】例えば「将来、実現される技術である。」
という文を代表文字コード列で表わすと、例えば「均
糸。芸温される転術である。」となる。このうちの処理
ユニット「芸温される転術である」について、上述のよ
うにカテゴリ単語の検出を行なってゆくと、例えば、図
22に示したカテゴリ単語辞書113からカテゴリ単語
「芸温」が検出され、さらに「さ」、「れる」が検出さ
れる。カテゴリ単語「芸温」は、文字単語「実現」と
「差損」を、また、「さ」は「さ」(サ変動詞の語尾)
と「き」(下一段活用動詞の語幹)をそれぞれ含んでい
る。しかし、文脈を考えると、「実現」あるいは「差
損」という名詞の後に「き」という語幹を有する動詞が
続くのは、文法上おかしい。また、「差損」という名詞
には、使役の助動詞が続くことはない。したがって、
「実現」と「さ」の単語の組合せの解釈が正しい。同様
に、「さ」と「れる」の組み合わせも正しい。なお、こ
の場合の実際の品詞は、サ変動詞「実現する」と使役の
助動詞「れる」である。
【0110】このような単語抽出の誤りは、普通の文字
列の解析においても発生するが、曖昧性の多い代表文字
コード列の方が発生しやすいと考えられる。そのため、
単語を検出するたびに先に検出した単語との接続性を検
証することで、抽出する単語の精度を向上させることが
できる。
【0111】このような接続性の検証に、カテゴリ単語
辞書113に格納されている品詞接続辞書を用いること
ができる。図27は、本発明の文書処理装置の第2の実
施の形態における品詞接続辞書の一例の説明図である。
図27に示した品詞接続辞書は、連続する2つの単語の
品詞の接続関係を示したもので、先の単語の品詞を行
に、後の単語の品詞を列に対応づけて示している。表の
値は、 Lij=1 ; 行iの品詞は列jの品詞に接続可能 Lij=0 ; 行iの品詞は列jの品詞に接続不可能 であることを示している。カテゴリ単語を検出する度
に、例えば図27に示すような品詞接続辞書を用いて単
語間の接続関係を検証する。
【0112】しかしながら、カテゴリ単語は1つの代表
文字コード列で複数の文字単語を表現する可能性があ
る。したがって、実際の処理では、単語として抽出され
た代表文字コード列に対応する複数の文字単語の品詞全
てに対して接続性の検証を行ない、そのうちの1つでも
接続性が検証されれば、その代表文字コード列を単語と
して認定する。
【0113】図28は、本発明の文書処理装置の第2の
実施の形態における品詞接続関係の検証処理の一例を示
すフローチャートである。この処理の入力はカテゴリ単
語検出部106で検出されるカテゴリ単語であり、検出
されるたびに順次入力されて単語間の接続性を検証する
ものである。まず、S141において、処理ユニットで
最初に検出されたカテゴリ単語を入力し、変数WORD
1に代入する。そしてS142において、このカテゴリ
単語が取り得る品詞が、文節の先頭となりえるか否かを
調べる。このとき、カテゴリ単語が文節の先頭となりえ
る品詞の単語を含んでいなければ、このカテゴリ単語は
日本語として受理できないので、この代表文字コード列
を単語として拒絶する。
【0114】S142でカテゴリ単語が文節の先頭とな
りえると判定された場合、S143において、処理ユニ
ットから次のカテゴリ単語を入力し、変数WORD2に
格納する。そしてS144において、変数WORD1と
変数WORD2に格納された2つのカテゴリ単語の接続
性を、例えば図27に示したような品詞接続辞書を検索
して求める。このとき、2つのカテゴリ単語の取りえる
品詞のうち、接続関係の成立する品詞の組合せがない場
合、変数WORD1に格納されている最初のカテゴリ単
語は日本語として受理できないため、最初の単語は拒絶
される。2つのカテゴリ単語の取りえる品詞の組合せの
うち、接続関係の成立する品詞の組合せが存在している
時、S145において変数WORD1に格納されている
最初のカテゴリ単語を正しい単語として受理する。さら
に、S146において変数WORD2に格納されている
カテゴリ単語を変数WORD1に移す。S147で処理
ユニットの終端か否かを判定し、終端でなければS14
3に戻り、処理ユニットの残りのカテゴリ単語を順に入
力して、同様に単語間の品詞の接続性を検証する。
【0115】S145で受理されたカテゴリ単語は、ど
の品詞でカテゴリ単語が受理されたかを記憶装置109
に記憶しておくことで、あとのカテゴリ単語変換部10
7での出力をより正確にすることができる。単語として
拒絶された場合は、現在処理中の文節の先頭文字まで戻
り、再度、カテゴリ単語検出部106で単語の抽出を行
ない、別の単語候補を抽出する。
【0116】具体例を用いて、上述の処理の流れを説明
する。ここでは先に示した例「将来、実現される技術で
ある。」を用いて、「実現される」という文節内の品詞
を決定する様子を説明する。まず、代表文字コード列
「芸温される」の先頭の文字から順にカテゴリ単語辞書
113と照合し、単語の可能性のある代表文字コード列
「芸温」を得る。図22に示したカテゴリ単語辞書11
3の内容から、この代表文字コード列は「差損」(名
詞)、「実現」(名詞)、「実現」(サ変動詞語幹)の
いずれかである可能性がある。次に検出される代表文字
コード列は「さ」であり、「さ」(サ変動詞語尾・未然
形)または「き」(下一段動詞語幹)である可能性があ
る。図27に示した品詞接続辞書を参照すると、(名
詞)−(サ変動詞語尾)、(名詞)−(下一段動詞語
幹)の接続関係は存在しないので、この時点で最初の単
語の可能性のある代表文字コード列「芸温」は「実現」
(サ変動詞語幹)であることが分かる。そのため、代表
文字コード列「芸温」がカテゴリ単語として受理され
る。
【0117】次に検出される代表文字コード列は「れ
る」(助動詞)であるが、図27に示した品詞接続辞書
によると、語尾・未然形と接続可能なことが分かる。し
たがって、代表文字コード列「さ」はサ変動詞の活用語
尾であることが決定され、カテゴリ単語として受理され
る。さらに、図27に示した品詞接続辞書によると、助
動詞は文節終端となりえるので、代表文字コード列「れ
る」もカテゴリ単語として受理され、「芸温される」と
いう代表文字コード列は1つの文節として受理されるこ
とになり、サ変動詞の語幹「実現」が自立語として検出
される。
【0118】また、単語の切り出し位置が間違ってお
り、品詞の接続性が検証されない場合には、処理を行な
っている文節の先頭に戻り、切り出し位置を変えて、再
度、品詞の接続性の検証を行なう。以上の方法により、
複合名詞の単語の境界、あるいは言語的な単語の接続性
を保ち、単語を抽出することができる。
【0119】以上の処理により、少なくとも日本語とし
て受理できる接続関係をもつカテゴリ単語が検出され
た。次に受理されたカテゴリ単語を通常の文字で構成さ
れる単語に変換する。この処理は、カテゴリ単語変換部
107でコード変換テーブル114を用いて行なわれ
る。カテゴリ単語変換部107での処理は簡単である。
単語として受理されたカテゴリ単語をコード変換テーブ
ル114で検索し、対応するカテゴリ単語が取りえる全
ての文字単語を出力する。ただし、検索に用いられる単
語は自立語なので、先の品詞接続関係の検証処理で、自
立語として認定された単語だけを出力する。これによ
り、検索に有効な単語を得られるとともに、出力される
単語数を抑制することができる。
【0120】以上のようにして、文書画像から文字認識
処理のような計算機パワーを必要とする処理を用いるこ
となく、単語を抽出することができる。ここで検出され
た単語は、品詞の接続関係を検証しているために、文章
として成立しないような単語は含まれていないので、検
索に用いた場合、精度の高い検索が期待できる。なお、
この第2の実施の形態では、カテゴリ単語変換部107
で代表文字コード列を文字コード列に変換しているの
で、上述の第1の実施の形態に示したように検索式中の
キーワードを代表文字コード列に変換することなく、そ
のまま文字コード列によって検索を行なうことができ
る。
【0121】次に、本発明の文書処理装置の第2の実施
の形態における第1の変形例について説明する。ここで
は、上述の第1の実施の形態における第1の変形例と同
様に、擬似文字認識部105で文字画像を代表文字コー
ドに変換する際に、その精度を向上させた例を示してい
る。上述の例では、文字画像に対して各類似文字の代表
文字コードを割り当てる際に、図10のS65で説明し
たように、特徴空間で特徴量が最も近いものを選択する
最短距離識別法を用いている。しかし、実際の文字画像
の特徴量は、画像のかすれや歪みにより、類似文字のク
ラスタは互いに複雑に重複していることが多い。この場
合、最短距離識別法では誤識別を起こす可能性が高い。
【0122】図29は、代表文字コードの誤識別の一例
の説明図である。例えば、ある2次元の特徴量による空
間において、図29に示すように2つのクラスタa1と
a2が存在する場合を考える。xという未知文字は、本
来クラスタa1に属する文字である。しかし、最短距離
識別法では、未知文字xは距離の最も近いクラスタa2
に属していると判定される。このような誤識別は、2つ
のクラスタが重複しているとき、未知文字xの特徴量が
2つのクラスタの共通部分に存在する場合にも同様に発
生する。
【0123】このような誤識別の問題を解決するため
に、上述の第1の実施の形態における第1の変形例で
は、ε−component拡張法を用いて、1文字種
を複数の類似文字カテゴリに登録している。このように
して生成された類似文字カテゴリテーブルを用いてカテ
ゴリ単語辞書113を生成すると、1文字種が複数のカ
テゴリに属しているため、複数の異なる代表文字コード
列が同じ1つの文字単語を表わすことになる。例えば、
文字「画」がカテゴリ「画」に、文字「像」がカテゴリ
「倶」と「根」に登録されていると、単語「画像」は、
カテゴリ単語「画倶」と「画根」という2つの代表文字
コード列で表されることになる。このように1つの文字
単語に複数の異なる代表文字コード列が対応すると、結
果としてカテゴリ単語辞書113のサイズを増大させる
ことになる。このような、辞書サイズの増大は、カテゴ
リ単語辞書113の構成を複雑にするだけでなく、単語
の抽出速度にも影響を与える。
【0124】そのため、ここでは、類似文字分類部10
3では最短距離識別法を用いて、類似文字カテゴリテー
ブル41を生成し、これまでと同じカテゴリ単語辞書1
13を生成し、擬似文字認識部105での識別時には、
入力された文字画像の特徴量と各類似文字カテゴリのカ
テゴリ代表ベクトルとのユークリッド距離を計算して、
その距離の近い方からN番目までのカテゴリを入力文字
の文字カテゴリとして代表文字コードを出力する。ただ
し、距離に閾値Dtを設けて、閾値Dt以上離れている
文字カテゴリは、入力文字の文字カテゴリに採用しない
ようにして、1文字種に対応する文字カテゴリを絞りこ
むこともできる。
【0125】図30は、本発明の文書処理装置の第2の
実施の形態の第1の変形例におけるN=2とした場合の
代表文字コード列への変換の一例の説明図である。例え
ば、上述の方法で「自然言語処理」という文字列を代表
文字コード列に変換する場合を考える。ここでN=2と
した。また、「語」の文字には閾値Dt以内に最短距離
に存在する類似文字カテゴリのみが存在しているとす
る。
【0126】N=1、すなわち最短距離識別法により変
換された代表文字コード列は「自滅豆記肋喫」である。
例えば、第3文字目の代表文字コード「豆」のカテゴリ
には、文字「言」が含まれていないものとする。このと
き、「自滅豆記肋喫」という代表文字コード列からは、
文字列「自然言語処理」を再現することはできない。
【0127】N=2までの代表文字コード列を考える。
すなわち、距離が閾値Dt以内で次に距離的に近いカテ
ゴリを求める。これにより、文字「自」については代表
文字コード「吉」が、「然」については「恩」が、
「言」については「吉」が、「処」については「近」
が、「理」については「均」が、それぞれ得られる。文
字「言」が、このようにして得られた代表文字コード
「吉」のカテゴリに含まれていれば、文字列「自然言語
処理」を再現することが可能となる。
【0128】このようにして1つの文字に対して1以上
得られた代表文字コードからなるカテゴリ文字列から、
カテゴリ単語検出部106で単語を抽出する。カテゴリ
単語検出部106での処理は、上述の方法を変更するこ
となく、全ての代表文字コードをカテゴリ単語辞書11
3と照合して、単語として許容できる代表文字コード列
を記憶装置109に記憶する。すなわち、第1文字目に
「自」または「吉」という代表文字コードを取り、それ
に続く第2文字目に「滅」または「恩」という代表文字
コードが続くか否かを照合する。以下同様に終端記号を
検知するまで照合を続け、終端記号を検出したところ
で、それまで検出した代表文字コード列をカテゴリ単語
として記憶装置109に記憶する。このとき、処理途中
で複数のカテゴリ文字列が生成されるが、単語として続
く文字が存在しないところでその代表文字コード列は棄
却すればよい。
【0129】例えば、第2文字目までの照合で、「自
恩」、「自滅」、「吉滅」の3つの単語候補が存在して
いるとする。この時点で、カテゴリ単語辞書113上で
終端記号を検出して、単語として認定されている代表文
字コード列は「自滅」、「自恩」の2つであるとする。
次に続く代表文字コードは「豆」または「吉」である
が、「自恩」−「豆」あるいは「自恩」−「吉」と続く
単語が、照合用のカテゴリ単語辞書に存在しなければ、
以後の照合では、「自恩」で始まるカテゴリ単語の照合
は行なわない。次に4文字目「記」を照合すると、「吉
滅豆」−「記」あるいは「吉滅吉」−「記」と続く単語
が、照合用の単語辞書に存在しない場合、これまでの照
合では、カテゴリ「吉」で始まる代表文字コード列は終
端記号と照合して、単語として認定されている単語が存
在しないので、以後の照合処理では、カテゴリ「吉」で
始まる単語の候補を棄却する。さらに、処理を続け、第
7文字目まで照合すると、代表文字コード列「自滅吉記
肋喫」に続く文字は終端記号のみであった場合、代表文
字コード列「自滅吉記肋喫」を単語として認定する。
【0130】ここで、第1文字目「自」あるいは「吉」
から始まり、照合用の単語辞書で単語として認定された
単語は、「自恩」と「自滅吉記肋喫」である。しかし、
ここでは最長一致の原則を用いて、長い単語として検出
された代表文字コード列「自滅吉記肋喫」のみを単語候
補として残し、出力する。また、上述したように、検出
された単語が言語として許容できるかを、品詞接続辞書
との照合で検証し、言語として許容できるカテゴリ単語
列のみを出力する。
【0131】以上のように、1つの文字画像に対して、
複数の類似文字カテゴリを対応つけることで、より正確
に単語の抽出を行なうことが可能となる。このように、
文字画像のかすれや歪みによる文字特徴の変動により、
最短距離識別によるカテゴリ文字の選択では擬似文字認
識で誤りを起こす文字を、特徴の近い文字カテゴリを複
数選択することにより、擬似文字認識の誤りを最小限に
止めることができる。
【0132】次に、本発明の文書処理装置の第2の実施
の形態における第2の変形例について説明する。上述の
ように、この第2の実施の形態およびその第1の変形例
では、全文字種に対する詳細な識別処理を行なうことな
く、文書画像中から言語として許容できる単語を抽出す
ることができる。しかしながら、これまでは類似文字カ
テゴリの組合せとして単語を抽出しているので、曖昧性
が残り、1つの単語として抽出された代表文字コード列
に複数の文字単語が対応する場合がある。例えば、名詞
として許容された「琴記」というカテゴリ単語は、「単
語」と「筆記」の2つの文字単語が対応する。上述の構
成では、「単語」と「筆記」の2つの単語を文書画像に
書かれている自立語として抽出することになり、いずれ
の単語が文書画像中に記述されているかを判別すること
はできない。
【0133】このような問題を解決するために、この第
2の変形例では、各文字の特徴を詳細に調べて、文字を
一意に決定する。この場合、従来の文字認識のように約
3000文字種に対して、特徴量の比較を行なう必要は
なく、カテゴリ単語検出部106で検出されたカテゴリ
単語に対応する文字単語で使用されている文字との特徴
量の比較で済む。例えば、検出されたカテゴリ単語を3
つの文字単語と解釈できる時、詳細識別処理では、各文
字位置で3文字との特徴量の比較を行なえばよいことに
なる。
【0134】図31は、本発明の文書処理装置の第2の
実施の形態における第2の変形例を示す構成図である。
図中、図21と同様の部分には同じ符号を付して説明を
省略する。110は詳細識別部、115は詳細識別辞書
である。詳細識別部110は、入力された未知文字の詳
細な特徴量を抽出して、類似文字カテゴリ内の文字の特
徴量と比較し、文字種を一意に決定する。詳細識別辞書
115は、類似文字カテゴリごとに文字画像の詳細な特
徴を記憶する。
【0135】詳細識別部110と詳細識別辞書115に
ついてさらに説明する。詳細識別辞書115は、類似文
字分類部103で類似文字に分類された結果である類似
文字カテゴリテーブルを用いて作成される。詳細識別辞
書115を作成するために用いられる特徴量は、従来の
文字認識装置で用いられている特徴量を使用することが
できる。図32は、本発明の文書処理装置の第2の実施
の形態の第2の変形例において詳細識別辞書を作成する
ために用いる特徴量の一例の説明図である。使用する特
徴量として、例えば、特開平5−166008号公報に
記載されている方向属性を用いた特徴量を適用すること
ができる。この特徴量は、文字画像中の輪郭画素に対し
て、画素の連続性を複数の方向について計測したもの
で、文字を構成する線分の方向や複雑さを表わしてい
る。図32(A)に示した例では、「漢」という文字画
像の輪郭画素について、それぞれ左右方向、上下方向、
左上−右下の斜め方向、右上−左下の斜め方向について
連続性を示す画素数を計数し、最も計数値の大きい方向
を求めてその画素の方向属性とする。左右方向に最も計
数値が大きくなる輪郭画素を集めると図32(B)に示
す特徴が得られる。同様に、上下方向に最も計数値が大
きくなる輪郭画素を集めると図32(C)に示す特徴が
得られ、左上−右下の斜め方向では図32(D)、右上
−左下の斜め方向では図32(E)に示す特徴が得られ
る。このような方向属性の特徴を詳細識別辞書として格
納しておけばよい。
【0136】また、萩田他,「外郭方向寄与度特徴によ
る手書き漢字の識別」,電子情報通信学会論文誌D,V
ol.J66−D,No.10,pp1185−119
2,1983年10月で提案されている外郭方向寄与度
特徴を用いてもよい。類似文字分類部103で用いてい
るペリフェラル特徴が文字の外形を表わすのに対して、
これらの特徴量は、いずれも文字内部の線の複雑さ、方
向、接続性を表わし、文字のより詳細な特徴を表現して
いる。もちろん、その他の特徴を用いても、複数の特徴
量を組み合せて用いてもよい。
【0137】図33は、本発明の文書処理装置の第2の
実施の形態の第2の変形例における詳細識別辞書の作成
手順の一例を示すフローチャートである。なお、ここで
は使用する特徴量を詳細特徴として表現し、特定の特徴
量として述べることはしない。まずS151において、
類似文字カテゴリテーブルから1つの類似文字カテゴリ
を選択する。次にS152において、トレーニングサン
プルの画像から、選択した類似文字カテゴリに属してい
る文字種を表わす画像を取り出す。S153において、
S152で取り出した文字画像から文字種ごとに詳細特
徴を抽出し、S154において、詳細特徴の平均を算出
する。S155において、この特徴量を類似文字カテゴ
リごとにまとめて詳細識別辞書115に追加してゆく。
このような処理を各類似文字カテゴリごとに行なうこと
によって、詳細識別辞書115を生成する。
【0138】図34は、本発明の文書処理装置の第2の
実施の形態の第2の変形例における詳細識別辞書の一例
の説明図である。詳細識別辞書115は、例えば図34
に示すように、類似文字カテゴリごとに、そのカテゴリ
に属する文字コードとその詳細特徴量ベクトルにより構
成することができる。この詳細識別辞書115は、類似
文字カテゴリテーブルや、文字コード・カテゴリ対応テ
ーブル、カテゴリ単語辞書113、コード変換テーブル
114と同様に、別の装置上で予め用意しておいて、そ
れぞれのデータのみを使用するように構成することも可
能である。
【0139】上述のように、この第2の実施の形態で
は、言語として許容できるカテゴリ単語を代表文字コー
ド列から抽出し、カテゴリ単語変換部107により、最
終的に文字単語を得ている。このとき、1つのカテゴリ
単語に対して、複数の文字単語への変換が可能である場
合がある。このような時、詳細識別部110を呼び出し
て、各文字画像を詳細に識別し、一意に文字コードを決
定して文字単語を決定する。
【0140】詳細識別部110では、以下のような処理
により文字単語を決定する。いま、複数の単語に変換可
能なカテゴリ単語をScとし、カテゴリ単語Scの長さ
をL(Sc)で表わす。また、カテゴリ単語Scが変換
可能な文字単語数をNとし、第n(≦N)番目の候補単
語をSwnとする。ただし、候補単語として順番をつけ
ているが、番号が若いほど単語として成立しやすいなど
の意味はなく、単に辞書順で便宜上番号付けを行なって
いる。さらに、文字単語Swnのi番目の文字を同様に
Swn(i)と表わす。ここで、入力された未知文字X
と、ある文字Mとの特徴量の差をF(X,M)とすると
き、 An=Σi=0 L(Sc)F(X(i),Swn(i)) なる式の値Anが最小となる文字単語をカテゴリ変換部
107の最終的な結果として出力する。
【0141】この式から分かるように、実際には詳細識
別部110では、各カテゴリ内の全ての文字種との比較
を行なう必要はなく、単語として可能性のある候補単語
内の文字種とのみ比較を行なえばよい。最悪の場合で
も、1カテゴリに対する比較回数は、カテゴリ内の類似
文字数である。
【0142】ここで、特徴量の差の累積値を用いている
のは、各文字画像の詳細識別を行なって、各文字ごとに
最も確からしい文字を組み合せて単語を作った場合に、
文字画像のかすれや歪み等の影響で、候補単語以外の単
語(ときには、言語として許容できない単語)を生成す
ることが考えられるからである。少なくとも、カテゴリ
単語検出部107で検出されている単語は、言語的には
許容されている単語なので、カテゴリ単語検出部107
で検出された候補単語だけを識別対象とすることができ
る。
【0143】図35は、本発明の文書処理装置の第2の
実施の形態の第2の変形例における詳細識別部の処理の
一例を示すフローチャートである。上述の詳細識別部1
10における処理の一例を、図35を用いてさらに説明
する。まず、S161において、処理対象となるカテゴ
リ単語Scを選択し、そのカテゴリ単語Scに対応する
文字単語の候補数Nを計数する。また、そのカテゴリ単
語Scの長さL(Sc)をWとする。さらに、処理に使
用する記憶領域A[N]の確保と初期化を行なうととも
に、変数iを1に初期設定する。このとき、文字単語の
候補数Nが1のときは、処理対象から外され、そのまま
カテゴリ単語変換部107により文字単語へ変換が行な
われる。そして、処理対象となったカテゴリ単語Scを
文書画像中から切り出す。処理対象のカテゴリ単語Sc
の文書画像中での位置は、カテゴリ単語検出部106で
カテゴリ単語を切り出す際に位置情報を保存しておき、
これを参照することで知ることができる。
【0144】次に、S162において第i文字目の文字
画像を切り出す。カテゴリ単語内の各文字画像の位置
は、擬似文字認識部105において各文字画像を文字カ
テゴリに割当てる際に、同時に位置情報を保存してお
き、これを参照することで知ることができる。このよう
にして切り出した文字画像から、S163において、詳
細識別辞書115を作成した時と同じ特徴量を抽出す
る。これを特徴量Xとする。S164〜S167におい
て、抽出した特徴量と各候補単語の第i文字目の詳細特
徴量とを比較し、その差を候補単語ごとに記憶領域に累
積する。すなわち、S164で変数jを1にセットし、
S165において、S163で抽出した特徴量Xと第i
文字目の詳細特徴量Swj(i)の特徴量の差F(X,
Swj(i))を計算し、A[j]に累積する。S16
6で変数jを1だけ増加させ、S167で変数jの値が
文字単語候補数Nを越えたか否かを判定し、越えるまで
S165に戻って処理を続ける。これにより、記憶領域
A[1]〜A[N]にそれぞれ第1〜i文字目までの特
徴量の差が累積される。
【0145】さらに、S168で変数iに1を加え、S
169でカテゴリ単語の長さWと比較して変数iの値が
W以下の場合にS162へ戻り、処理を続ける。このよ
うにして、最後の文字までS162〜S169の処理を
繰り返すことによって、記憶領域A[1]〜A[N]に
は、各文字単語候補ごとに、各文字の特徴量の差の累積
値が格納される。
【0146】S170において、記憶領域A[1]〜A
[N]の値を比較し、最小値を持つ記憶領域のアドレス
Cを求める。S171において、このアドレスCに対応
する候補単語SwCを抽出し、その単語を最も確からし
い文字単語として出力する。
【0147】ここでは未知文字の特徴量と辞書の特徴量
との差の累積値を単語の評価関数として用いた例を示し
たが、辞書作成時に得られるトレーニングサンプルの詳
細特徴量の分散等の統計的な情報を用いて、統計的に未
知文字の確からしさを求めて、その値の累積を単語の評
価関数としてもよい。
【0148】以上のように、カテゴリ単語検出部107
で検出したカテゴリ単語を複数の文字単語に変換可能な
時、検出したカテゴリ単語に対して詳細識別を行なうこ
とで、正確に単語を抽出することができる。また、詳細
識別の対象を候補単語の文字の組合せに限定すること
で、カテゴリ単語検出部107で検出した、言語的に許
容できる単語を得られることが保証される。
【0149】次に、本発明の文書処理装置の第2の実施
の形態における第3の変形例について説明する。第2の
実施の形態における上述の各例では、文字切り出しの段
階での誤りがないものとしてきた。しかし、上述の第1
の実施の形態の第2の変形例でも説明したように、切り
出し段階での誤りは、現実には多く存在する。この第3
の変形例では、このような切り出しの誤りに対応する例
を示す。ここでは一例として、上述の第1の実施の形態
の第2の変形例と同様、図16に示した例について考え
る。
【0150】図36は、本発明の文書処理装置の第2の
実施の形態の第3の変形例における切り出された文字列
の関係の一例の説明図である。上述のように、図16
(A)に示した「文書印刷」の例の場合、「文」、
「書」については文字間の間隙しか存在しないが、
「印」の文字中に1か所、「刷」の中に2か所、垂直方
向に白画素のみからなる切り出し位置候補が存在すると
ともに、これら2文字の間も当然切り出し位置が存在す
るので、合計5つの部分文字(a1,a2,b1,b
2,b3)が得られる。これらについて、文字としての
統合を試みる。文字「文」、「書」と統合できるものは
ないので、そのまま1文字として、擬似文字認識部10
5において類似文字カテゴリの識別を行ない、代表文字
コード「父」、「君」に変換される。文字「印」につい
ては、部分文字a1,a2を2つの文字として扱う場合
と、1つの文字として扱う場合の2つの可能な解釈があ
る。a2とb1を統合した場合は幅のしきい値を越える
ため、統合はなされない。したがって、ここまでの2つ
の解釈を同じ文字画像領域に対して保持する必要があ
る。これらそれぞれについて、擬似文字認識部105に
おいて類似文字の識別を行なうと、部分文字a1は
「E」、部分文字a2は「P」、a1a2では「叩」と
いう代表文字コードに変換され、記憶装置109に格納
される。図36において、代表文字コードを括弧書きで
示している。また、図中の○は文字切り出しの解釈の区
切りである。
【0151】同様にb1以降を順に見ていくと、可能な
解釈が([b1],[b2],[b3]),([b1b
2],[b3]),([b1],[b2b3]),
([b1b2b3])の4通りあるので([]は中の部
分文字が1つの文字と見なされることを示す)、同様に
擬似文字認識部105で処理が行なわれる。[b1],
[b2],[b3],[b1b2],[b2b3],
[b1b2b3]はそれぞれ、「凧」、「1」、
「1」、「引」、「リ」、「刷」という代表文字コード
に変換される。これらすべての解釈を記憶装置109に
保持する。
【0152】このようにして求められた「印刷」に対応
する代表文字コード列を、ここでは「[EP,叩][凧
[11,リ],引1,刷]」のように表現する。[]内
は文字画像のある範囲内での切り出し解釈が複数ある場
合にそれを並べたものである。これは入れ子にすること
ができ、例えば「刷」の右部分の2本の垂直ストローク
を1つと見なす場合と、2つに見なす場合の2つが表現
できる。
【0153】カテゴリ単語辞書113を探索する場合
に、複数の切り出し解釈がある場合は、その範囲ごとに
それぞれの代表文字コード列がカテゴリ単語辞書113
に存在するか否かを調べ、可能性のあるものはすべて残
す。上記の例で、「印」という字に対しては、まず「E
P」、「叩」という代表文字コード列がカテゴリ単語辞
書113に存在するか否かを調べる。このとき、両者と
もに存在するとすれば、両者を存在する可能性のあるも
のとして保持する。次に文字「刷」に対しては、「E
P」、「叩」それぞれについて後に続く代表文字コード
として「凧」、「引」、「刷」があるので、接続可能か
否かをカテゴリ単語辞書113で調べる。ここでは、
「EP」は3つの候補どれとも接続せず、それ自身で単
語となり、「叩刷」の代表文字コード列はカテゴリ単語
辞書113中に存在するので、単語として取り出される
ので、後に続く単語を同様に照合し、品詞接続辞書によ
る接続性のチェックを行なうことになる。「EP」とい
う解釈については、これをひとつの単語と見なし、次の
文字から始まる単語の接続可能性を見る。ここでは接続
する可能性のある文字カテゴリは「凧」、「引」、
「刷」の3つで、それぞれのカテゴリから始まる単語を
取り出し、品詞接続関係を調べる。これらの単語は「E
P」との接続するものがないとすれば、「EP」という
解釈についての可能性が棄却され、「叩刷」が残ること
になる。
【0154】さらに複雑な場合の例として、「 NMRにお
ける」という文字列を考える。ここで、文字「N」、
「M」、「R」は半角文字である。そのため、これらの
英字については、隣接する英字と統合されて漢字として
認識される場合が想定される。さらに、「に」の文字中
に切り出し位置が1カ所存在する。
【0155】図37は、本発明の文書処理装置の第2の
実施の形態の第3の変形例における切り出された文字列
の関係の別の例の説明図である。想定される統合として
は、「NM」、「MR」、「R」と「に」の左側のスト
ロークが一つの文字として統合された場合が考えられ
る。3つの統合文字に対応する代表文字コードとして
「肌」、「狼」、「引」が得られたとする。また、文字
「に」は「に」という代表文字コードと、分離された部
分文字ごとに「1」と「こ」が得られたとする。する
と、文字切り出しの複数の解釈を許す代表文字コード列
は[N[M[Rに,引こ],[狼[に,1こ]]],
[肌[R[に,1こ],引こ]]]のように表現され
る。実際に照合される場合は代表文字コード列の表記の
中で[]で示される複数の切り出し解釈から、代表文字
コードをノード、遷移可能な代表文字コード間の接続を
アークとするようなカテゴリ遷移データを作成すること
ができる。
【0156】図37には、「NMRにお」という文字列
部分を対象にしたカテゴリ遷移データを示している。こ
のカテゴリ遷移データをもとに、先頭からカテゴリ単語
辞書113との照合を行なってゆく。例えばカテゴリ単
語辞書113中の単語として「NMR」(名詞)、
「肌」(名詞)、「肌引」(動詞語幹)という三つが照
合されたとする。これから後の単語との接続を品詞接続
辞書で照合する。例えば、「NMR」に対しては「に」
(格助詞)が接続可能で、「肌」については代表文字コ
ード「R」、「引」からはじまる単語には接続できず、
「肌引」に対しても代表文字コード「こ」から始まる単
語は接続しないことが分かれば、結果として「肌」、
「肌引」という単語候補は棄却され、「NMRに」が候
補として残る。このようにして、正しい切り出し位置の
候補が残ることになる。
【0157】図38は、図39は、本発明の文書処理装
置の第2の実施の形態の第3の変形例における切り出さ
れた文字列の統合処理の一例を示すフローチャートであ
る。まず、擬似文字認識部105で処理を行なう単位で
ある処理ユニットの代表文字コード列を、上述のような
カテゴリ遷移データに展開する。S181において、処
理ユニットの最初の位置を注目点として処理を開始す
る。
【0158】S182において、次の代表文字コードへ
の複数の遷移パスが存在するか否かを判定し、複数の遷
移パスが存在する場合には、S183において、参照す
る階層を1階層深くする。S184において、現在参照
している階層において可能な遷移パスを変数Pにセット
する。
【0159】S185において、変数Pの中でまだ処理
していない遷移パスが存在しているか否かを判定し、未
処理の遷移パスが存在する場合、S186において、そ
の中の1つに注目し、遷移パスの先の代表文字コードを
カテゴリ単語辞書と照合する。S187で照合に成功し
たか否かを判定し、照合に成功したらばさらにS188
において単語境界か否かを判定する。単語境界でなけれ
ばS182へ戻り、単語として取り出せるまでカテゴリ
単語辞書との照合を行なう。単語境界までの照合が成功
し、カテゴリ単語の候補が得られると、S189におい
て、直前に得られたカテゴリ単語候補との品詞の接続関
係を調べ、接続可能か否かを判断する。接続可能であれ
ば、それを残してゆく。S190で処理ユニットの最後
まで処理したか否かを判定し、処理ユニットの途中であ
れば次のカテゴリ単語を抽出すべくS182へ戻って処
理を続ける。処理ユニットの最後まで処理したらば、そ
れまでに得られたカテゴリ単語の列は1つの候補として
成り立つので、S191において得られたカテゴリ単語
の列を出力する。
【0160】S186でのカテゴリ単語辞書との照合に
失敗したとS187で判定された場合は、S193にお
いて、参照する階層を1階層浅くして途中の複数の解釈
が存在する位置まで戻り、S185からの他のパスにつ
いての照合を行なう。また、S189で品詞の接続が許
されていない場合も、それまで仮定してきた単語列の可
能性は棄却し、それ以降の遷移は処理対象外として処理
は行なわず、S193において参照する階層を1階層浅
くして途中の複数の解釈があるところまで戻り、S18
5からの処理を同様に続ける。さらに、処理ユニットの
最後まで処理し、S191でカテゴリ単語の列を出力し
た後も、他の可能性を判定すべく、S193に進んで1
階層浅くして途中の複数の解釈が存在する位置まで戻
り、S185に進んで処理を続ける。もちろん、可能性
のある他のカテゴリ単語列が得られた場合には、S19
1で出力される。
【0161】S185で変数Pの中に未処理の遷移パス
が存在しなくなると、S192においてトップの階層の
すべての遷移を調べたか否かを判定し、調べていない遷
移が存在する場合には、S193に進んで1階層浅くし
て途中の複数の解釈が存在する位置まで戻り、S185
で未処理の遷移パスを探して処理を続ける。トップの階
層のすべての遷移について処理が終了すれば、1つの処
理ユニットについて、与えられたカテゴリ遷移データの
すべてのパスについて処理が終了したことを示すので、
この統合処理を終了する。
【0162】このように分離した文字があり、複数のカ
テゴリ単語候補がある場合でも、単語としての可能性を
品詞の接続関係から減らしていくことができるので、非
常に高速にかつ精度よく、単語の抽出が可能となる。
【0163】上述の各実施の形態は、コンピュータプロ
グラムによっても実現することが可能である。その場
合、そのプログラムおよびそのプログラムが用いる辞
書、テーブルなどは、コンピュータが読み取り可能な記
憶媒体に記憶することも可能である。記憶媒体とは、コ
ンピュータのハードウェア資源に備えられている読取装
置に対して、プログラムの記述内容に応じて、磁気、
光、電気等のエネルギーの変化状態を引き起こして、そ
れに対応する信号の形式で、読取装置にプログラムの記
述内容を伝達できるものである。例えば、磁気ディス
ク、光ディスク、CD−ROM、コンピュータに内蔵さ
れるメモリ等である。
【0164】
【発明の効果】以上の説明から明らかなように、本発明
によれば、文書画像中の文字を文字コード列にまで識別
することなく、少数の類似文字のカテゴリに分類するだ
けでフルテキスト検索を実現している。本発明での類似
文字のカテゴリの識別は、通常の文字認識と比較しては
るかに少ない次元の特徴ベクトルを用いて行なってお
り、少数の類似文字のカテゴリに識別するだけで済むの
で、文書画像からキーワードとして使用できる自立語の
抽出と文書画像登録時の飛躍的な速度の向上が実現でき
るという効果がある。
【0165】この類似文字のカテゴリを元の文書画像の
属性として保持し、検索時には検索キーワードの各文字
を類似文字のカテゴリの列に変換して検索する。類似文
字のカテゴリには複数の文字が属しているため、キーワ
ードから変換された代表文字コード列に対応する文字列
は所望のキーワード以外のものも含まれる可能性があ
る。しかしながら、検索キーワードは通常複数文字で構
成され、しかも複数指定されるということを考えると所
望のキーワード以外のものが結果として得られることは
現実的には少ない。逆に、類似文字のカテゴリ分けの精
度は文書画像中の文字の誤認識等に比べて格段によいの
で、漏れの少ない検索を実現することができる。また、
通常のフルテキストサーチの手法がそのまま使用できる
ので、通常の電子文書の検索と同様に処理することがで
きるという効果もある。
【0166】また、類似文字のカテゴリの列から、カテ
ゴリ単語辞書をもとに単語として取り出すことによっ
て、無意味な文字列を検索する可能性を減少させ、さら
には品詞など単語間の接続性なども考慮することによっ
てさらに検索精度を向上させることができる。同じ類似
文字のカテゴリの列によって異なる複数の単語が表現さ
れることもあるが、このような場合にはカテゴリ内のい
ずれの文字であるかをさらに詳細な認識によって判断す
ればよい。カテゴリ単語が抽出された場合、その少なく
とも一部のカテゴリ単語について、カテゴリ単語に対応
する単語をキーワードとしておけば、検索キーワードに
は処理を行なわずに通常のデータベースで用いるキーワ
ード検索を用いることができるので、電子文書のデータ
と文書画像を同等に扱うことができるという効果があ
る。
【図面の簡単な説明】
【図1】 本発明の文書処理装置の第1の実施の形態を
示す構成図である。
【図2】 本発明の文書処理装置の第1の実施の形態に
おける類似文字分類部の処理の一例を示すフローチャー
トである。
【図3】 ペリフェラル特徴の説明図である。
【図4】 階層的クラスタリングの処理の一例を示すフ
ローチャートである。
【図5】 クラスタリングの最適化処理の一例を示すフ
ローチャートである。
【図6】 本発明の文書処理装置の第1の実施の形態に
おける類似文字カテゴリテーブルの一例の説明図であ
る。
【図7】 本発明の文書処理装置の第1の実施の形態に
おける文字コード・カテゴリ対応テーブルの一例の説明
図である。
【図8】 本発明の文書処理装置の第1の実施の形態に
おける擬似文字認識部の処理の一例を示すフローチャー
トである。
【図9】 本発明の文書処理装置の第1の実施の形態に
おける文字領域抽出結果の一例を示す説明図である。
【図10】 本発明の文書処理装置の第1の実施の形態
における代表文字コード列への変換処理の一例を示すフ
ローチャートである。
【図11】 本発明の文書処理装置の第1の実施の形態
における代表文字コード列への変換処理の結果の一例を
示す説明図である。
【図12】 本発明の文書処理装置の第1の実施の形態
におけるbi−gramテーブルの一例の説明図であ
る。
【図13】 本発明の文書処理装置の第1の実施の形態
における代表文字コードテーブルの一例を示す説明図で
ある。
【図14】 本発明の文書処理装置の第1の実施の形態
における検索実行部の処理の一例を示すフローチャート
である。
【図15】 本発明の文書処理装置の第1の実施の形態
の第1の変形例における複数のカテゴリへの分類を許容
した場合の文字コード・カテゴリ対応テーブルの一例の
説明図である。
【図16】 本発明の文書処理装置の第1の実施の形態
の第2の変形例における複数の文字切り出し解釈が存在
する場合の切り出し位置の具体例を示す説明図である。
【図17】 本発明の文書処理装置の第1の実施の形態
の第2の変形例における複数の文字切り出し解釈が存在
する場合の切り出された文字列の関係の説明図である。
【図18】 本発明の文書処理装置の第1の実施の形態
の第2の変形例における複数の切り出し解釈を許容した
場合の代表文字コードテーブルの一例の説明図である。
【図19】 本発明の文書処理装置の第1の実施の形態
の第2の変形例における複数の切り出し解釈を許容した
場合の代表文字コードテーブルの作成処理の一例を示す
フローチャートである。
【図20】 本発明の文書処理装置の第1の実施の形態
の第2の変形例における複数の切り出し解釈を許容した
場合のbi−gramテーブルの一例の説明図である。
【図21】 本発明の文書処理装置の第2の実施の形態
を示す構成図である。
【図22】 本発明の文書処理装置の第2の実施の形態
におけるカテゴリ単語辞書の一例の説明図である。
【図23】 本発明の文書処理装置の第2の実施の形態
におけるカテゴリ単語辞書の別の例の説明図である。
【図24】 本発明の文書処理装置の第2の実施の形態
におけるコード変換テーブルの一例の説明図である。
【図25】 本発明の文書処理装置の第2の実施の形態
におけるカテゴリ単語検出部の動作の一例を示すフロー
チャートである。
【図26】 本発明の文書処理装置の第2の実施の形態
におけるカテゴリ単語検出部の動作の一例を示すフロー
チャート(続き)である。
【図27】 本発明の文書処理装置の第2の実施の形態
における品詞接続辞書の一例の説明図である。
【図28】 本発明の文書処理装置の第2の実施の形態
における品詞接続関係の検証処理の一例を示すフローチ
ャートである。
【図29】 代表文字コードの誤識別の一例の説明図で
ある。
【図30】 本発明の文書処理装置の第2の実施の形態
の第1の変形例におけるN=2とした場合の代表文字コ
ード列への変換の一例の説明図である。
【図31】 本発明の文書処理装置の第2の実施の形態
における第2の変形例を示す構成図である。
【図32】 本発明の文書処理装置の第2の実施の形態
の第2の変形例において詳細識別辞書を作成するために
用いる特徴量の一例の説明図である。
【図33】 本発明の文書処理装置の第2の実施の形態
の第2の変形例における詳細識別辞書の作成手順の一例
を示すフローチャートである。
【図34】 本発明の文書処理装置の第2の実施の形態
の第2の変形例における詳細識別辞書の一例の説明図で
ある。
【図35】 本発明の文書処理装置の第2の実施の形態
の第2の変形例における詳細識別部の処理の一例を示す
フローチャートである。
【図36】 本発明の文書処理装置の第2の実施の形態
の第3の変形例における切り出された文字列の関係の一
例の説明図である。
【図37】 本発明の文書処理装置の第2の実施の形態
の第3の変形例における切り出された文字列の関係の別
の例の説明図である。
【図38】 本発明の文書処理装置の第2の実施の形態
の第3の変形例における切り出された文字列の統合処理
の一例を示すフローチャートである。
【図39】 本発明の文書処理装置の第2の実施の形態
の第3の変形例における切り出された文字列の統合処理
の一例を示すフローチャート(続き)である。
【符号の説明】
1…プロセッサ、2…表示装置、3…キーボード、4…
マウス、5…スキャナ、6…プリンタ、7…外部記憶装
置、11…類似文字分類部、12…擬似文字認識部、1
3…検索実行部、101…画像入力部、102…画像表
示部、103…類似文字分類部、104…テキスト領域
抽出部、105…擬似文字認識部、106…カテゴリ単
語検出部、107…カテゴリ単語変換部、108…中央
制御装置、109…記憶装置、110…詳細識別部、1
11…文字カテゴリ保持部、112…擬似文字認識結果
記憶部、113…カテゴリ単語辞書、114…コード変
換テーブル、115…詳細識別辞書。

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 文字の画像特徴をもとに類似した文字ご
    とに分類されたカテゴリを前記画像特徴と対応づけて記
    憶しておく文字カテゴリ記憶手段と、入力された文書画
    像中の文字ごとに画像を切り出すテキスト領域抽出手段
    と、該テキスト領域抽出手段によって切り出された各文
    字画像を所定の画像特徴をもとに前記文字カテゴリ記憶
    手段に記憶されているカテゴリに分類する擬似文字認識
    手段と、該擬似文字認識手段によって分類された前記各
    文字画像のカテゴリを前記入力された文書画像と対応づ
    けて記憶しておく擬似文字認識結果記憶手段と、検索時
    に入力された検索式中のキーワードの各文字を前記文字
    カテゴリ記憶手段に記憶されている対応するカテゴリに
    変換するキーワード変換手段と、該キーワード変換手段
    によってカテゴリに変換された検索式を満たすカテゴリ
    を有する文書画像を前記擬似文字認識結果記憶手段から
    取り出す文書検索手段を具備することを特徴とする文書
    処理装置。
  2. 【請求項2】 前記文字カテゴリ記憶手段に記憶されて
    いるカテゴリは、文字画像の特徴ベクトルによるクラス
    タリングによって分類を行なったものであることを特徴
    とする請求項1に記載の文書処理装置。
  3. 【請求項3】 前記擬似文字認識結果記憶手段内の文書
    画像に対応づけて記憶しているカテゴリは、文書画像内
    において隣り合う2つの文字画像のカテゴリをキーとし
    て該キーが出現する文書の識別子を記憶するバイグラム
    テーブルとして記憶されており、前記文書検索手段は、
    前記キーワード変換手段によって変換されたカテゴリを
    前記バイグラムテーブルから検索することを特徴とする
    請求項1に記載の文書処理装置。
  4. 【請求項4】 前記文字カテゴリ記憶手段は、1つの文
    字を複数のカテゴリに記憶している場合があり、前記キ
    ーワード変換手段は、1つの検索キーワードに対して前
    記文字カテゴリ記憶手段内に記憶されているすべてのカ
    テゴリに変換することを特徴とする請求項1に記載の文
    書処理装置。
  5. 【請求項5】 前記文字カテゴリ記憶手段は、1つの文
    字を複数のカテゴリに記憶している場合があるとともに
    それぞれのカテゴリに分類される確率を記憶し、前記文
    書検索手段は、前記文字カテゴリ記憶手段内の確率に応
    じて文書画像を前記擬似文字認識結果記憶手段から取り
    出すことを特徴とする請求項1に記載の文書処理装置。
  6. 【請求項6】 前記テキスト領域抽出手段は、複数の文
    字切り出し解釈が存在する場合は該解釈すべてについて
    切り出しを行ない、前記擬似文字認識手段は、前記テキ
    スト領域抽出手段により切り出されたすべての切り出し
    結果に対してカテゴリに分類し、擬似文字認識結果記憶
    手段は、前記擬似文字認識手段により分類されたすべて
    のカテゴリを前記文書画像に対応づけて記憶することを
    特徴とする請求項1に記載の文書処理装置。
  7. 【請求項7】 文字の画像特徴をもとに類似した文字ご
    とに分類されたカテゴリを前記画像特徴と対応づけて記
    憶しておく文字カテゴリ記憶手段と、単語とその単語の
    各文字を前記カテゴリに置き換えたカテゴリ単語とを対
    応づけて記憶するカテゴリ単語辞書と、入力された文書
    画像中の文字ごとに画像を切り出すテキスト領域抽出手
    段と、該テキスト領域抽出手段によって切り出された各
    文字画像を所定の画像特徴をもとに前記文字カテゴリ記
    憶手段に記憶されているカテゴリに分類する擬似文字認
    識手段と、該擬似文字認識手段によってカテゴリに分類
    されたカテゴリの列であるカテゴリ列を前記カテゴリ単
    語辞書から検索するカテゴリ単語検索手段を具備するこ
    とを特徴とする文書処理装置。
  8. 【請求項8】 さらに、前記テキスト領域抽出手段によ
    って切り出された各文字画像を該文字画像の外接矩形の
    大きさおよびその位置のいずれか1つ以上を用いて句読
    点か否かを判断する句読点検出手段を具備し、前記カテ
    ゴリ単語検索手段は、前記句読点検出手段によって句読
    点と判断された文字画像間の文字画像に対応する前記類
    似文字認識手段によって分類されたカテゴリ列を検索単
    位とすることを特徴とする請求項7に記載の文書処理装
    置。
  9. 【請求項9】 さらに、前記カテゴリ単語辞書に記憶さ
    れているカテゴリ単語の品詞およびそのカテゴリ単語に
    対応する単語間の接続関係を記憶する品詞接続辞書を具
    備し、前記カテゴリ単語検索手段は、前記品詞接続辞書
    に記憶されているカテゴリ単語の品詞および該カテゴリ
    単語に対応する単語間の接続関係に基づいてカテゴリ列
    を前記カテゴリ単語辞書から検索することを特徴とする
    請求項7に記載の文書処理装置。
  10. 【請求項10】 さらに、前記カテゴリ単語検索手段に
    より検索されたカテゴリ列に対応する単語が複数存在す
    る場合に、該カテゴリ列に対応する文字画像に対して文
    字認識を行なう文字認識手段を具備することを特徴とす
    る請求項7に記載の文書処理装置。
  11. 【請求項11】 前記擬似文字認識手段は、文字の画像
    特徴とカテゴリを代表する画像特徴が閾値内の距離に存
    在する複数のカテゴリに分類し、前記カテゴリ単語検索
    手段は、前記擬似文字認識手段によって分類された複数
    のカテゴリの列であり、その複数のカテゴリの組合せで
    あるカテゴリ列を前記カテゴリ単語辞書から検索するこ
    とを特徴とする請求項7に記載の文書処理装置。
  12. 【請求項12】 文字の画像特徴をもとに類似した文字
    ごとに分類されたカテゴリをその画像特徴と対応づけて
    記憶しておく文字カテゴリ記憶手段を具備した文書処理
    装置における文書処理方法において、入力された文書画
    像中の文字ごとに画像を切り出し、切り出された各文字
    画像を所定の画像特徴をもとに前記文字カテゴリ記憶手
    段に記憶されているカテゴリに分類し、分類された前記
    各文字画像のカテゴリを前記入力された文書画像と対応
    づけて記憶し、検索時に入力された検索式中のキーワー
    ドの各文字を前記文字カテゴリ記憶手段に記憶されてい
    る対応するカテゴリに変換し、カテゴリに変換された検
    索式を満たすカテゴリを有する文書画像を取り出すこと
    を特徴とする文書処理方法。
  13. 【請求項13】 文字の画像特徴をもとに類似した文字
    ごとに分類されたカテゴリを該画像特徴と対応づけて記
    憶しておく文字カテゴリ記憶手段と、単語とその単語の
    各文字を前記カテゴリに置き換えたカテゴリ単語とを対
    応づけて記憶するカテゴリ単語辞書を具備した文書処理
    装置における文書処理方法において、入力された文書画
    像中の文字ごとに画像を切り出し、切り出された各文字
    画像を所定の画像特徴をもとに前記文字カテゴリ記憶手
    段に記憶されているカテゴリに分類し、カテゴリに分類
    されたカテゴリの列であるカテゴリ列を前記カテゴリ単
    語辞書から検索することを特徴とする文書処理方法。
  14. 【請求項14】 コンピュータに実行させるプログラム
    および辞書を読取可能に記憶した記憶媒体において、前
    記辞書は、文字の画像特徴をもとに類似した文字ごとに
    分類されたカテゴリを前記画像特徴と対応づけて記憶し
    ておく文字カテゴリ辞書であり、前記プログラムは、入
    力された文書画像中の文字ごとに画像を切り出すテキス
    ト領域抽出手段と、該テキスト領域抽出手段によって切
    り出された各文字画像を所定の画像特徴をもとに前記文
    字カテゴリ辞書に記憶されているカテゴリに分類する擬
    似文字認識処理と、該擬似文字認識処理によって分類さ
    れた前記各文字画像のカテゴリを前記入力された文書画
    像と対応づけて記憶しておく擬似文字認識結果記憶処理
    と、検索時に入力された検索式中のキーワードの各文字
    を前記文字カテゴリ辞書に記憶されている対応するカテ
    ゴリに変換するキーワード変換処理と、該キーワード変
    換処理によってカテゴリに変換された検索式を満たすカ
    テゴリを有する文書画像を前記擬似文字認識結果記憶処
    理によって記憶されているものから取り出す文書検索処
    理を前記コンピュータに実行させることを特徴とする記
    憶媒体。
  15. 【請求項15】 コンピュータに実行させるプログラム
    および辞書を読取可能に記憶した記憶媒体において、前
    記辞書は、文字の画像特徴をもとに類似した文字ごとに
    分類されたカテゴリを前記画像特徴と対応づけて記憶し
    ておく文字カテゴリ辞書と、単語とその単語の各文字を
    前記カテゴリに置き換えたカテゴリ単語とを対応づけて
    記憶するカテゴリ単語辞書であり、前記プログラムは、
    入力された文書画像中の文字ごとに画像を切り出すテキ
    スト領域抽出処理と、該テキスト領域抽出処理によって
    切り出された各文字画像を所定の画像特徴をもとに前記
    文字カテゴリ辞書に記憶されているカテゴリに分類する
    擬似文字認識処理と、該擬似文字認識処理によってカテ
    ゴリに分類されたカテゴリの列であるカテゴリ列を前記
    カテゴリ単語辞書から検索するカテゴリ単語検索処理を
    前記コンピュータに実行させることを特徴とする記憶媒
    体。
JP8274732A 1996-06-26 1996-10-17 文書処理装置および文書処理方法 Expired - Fee Related JP2973944B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP8274732A JP2973944B2 (ja) 1996-06-26 1996-10-17 文書処理装置および文書処理方法
US08/880,399 US5943443A (en) 1996-06-26 1997-06-23 Method and apparatus for image based document processing

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-166147 1996-06-26
JP16614796 1996-06-26
JP8274732A JP2973944B2 (ja) 1996-06-26 1996-10-17 文書処理装置および文書処理方法

Publications (2)

Publication Number Publication Date
JPH1074250A true JPH1074250A (ja) 1998-03-17
JP2973944B2 JP2973944B2 (ja) 1999-11-08

Family

ID=26490627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8274732A Expired - Fee Related JP2973944B2 (ja) 1996-06-26 1996-10-17 文書処理装置および文書処理方法

Country Status (2)

Country Link
US (1) US5943443A (ja)
JP (1) JP2973944B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263333B1 (en) 1998-10-22 2001-07-17 International Business Machines Corporation Method for searching non-tokenized text and tokenized text for matches against a keyword data structure
CN100351839C (zh) * 2003-10-29 2007-11-28 株式会社日立制作所 文档检索·阅览方法以及文档检索·阅览装置
US7321880B2 (en) 2003-07-02 2008-01-22 International Business Machines Corporation Web services access to classification engines
US7412453B2 (en) 2002-12-30 2008-08-12 International Business Machines Corporation Document analysis and retrieval
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
WO2011016375A1 (en) * 2009-08-07 2011-02-10 Ricoh Company, Limited Image processing apparatus, image processing method, and computer program
US8160402B2 (en) 2007-07-23 2012-04-17 Sharp Kabushiki Kaisha Document image processing apparatus
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
JP2013117927A (ja) * 2011-12-05 2013-06-13 Sharp Corp 翻訳装置、翻訳方法及びコンピュータプログラム
JP2020013217A (ja) * 2018-07-13 2020-01-23 株式会社リコー 情報処理システム、画像ログ検索方法、情報処理装置及びプログラム

Families Citing this family (169)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6012069A (en) * 1997-01-28 2000-01-04 Dainippon Screen Mfg. Co., Ltd. Method and apparatus for retrieving a desired image from an image database using keywords
JP3008908B2 (ja) * 1997-11-10 2000-02-14 日本電気株式会社 文字切り出し装置および文字切り出し方式
US6269188B1 (en) 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
JP3696731B2 (ja) * 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6243501B1 (en) 1998-05-20 2001-06-05 Canon Kabushiki Kaisha Adaptive recognition of documents using layout attributes
US6169969B1 (en) * 1998-08-07 2001-01-02 The United States Of America As Represented By The Director Of The National Security Agency Device and method for full-text large-dictionary string matching using n-gram hashing
WO2000043909A1 (fr) * 1999-01-21 2000-07-27 Sony Corporation Procede et dispositif de traitement de documents et support d'enregistrement
WO2000051065A1 (en) * 1999-02-26 2000-08-31 Raf Technology, Inc. Method and system for identifying a reference region on an image of a dropped-out form
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
US6411724B1 (en) * 1999-07-02 2002-06-25 Koninklijke Philips Electronics N.V. Using meta-descriptors to represent multimedia information
US7194504B2 (en) * 2000-02-18 2007-03-20 Avamar Technologies, Inc. System and method for representing and maintaining redundant data sets utilizing DNA transmission and transcription techniques
US7509420B2 (en) * 2000-02-18 2009-03-24 Emc Corporation System and method for intelligent, globally distributed network storage
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB2364416B (en) * 2000-06-30 2004-10-27 Post Office Image processing for clustering related text objects
JP4674778B2 (ja) * 2000-08-31 2011-04-20 ヒューレット・パッカード・カンパニー 文字認識システム
US7254269B2 (en) * 2000-08-31 2007-08-07 Hewlett-Packard Development Company, L.P. Character recognition system
JP2002189747A (ja) * 2000-12-19 2002-07-05 Hitachi Ltd 文書情報の検索方法
US6735337B2 (en) * 2001-02-02 2004-05-11 Shih-Jong J. Lee Robust method for automatic reading of skewed, rotated or partially obscured characters
US20020169735A1 (en) * 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
US6681222B2 (en) * 2001-07-16 2004-01-20 Quip Incorporated Unified database and text retrieval system
US7194141B1 (en) * 2002-03-20 2007-03-20 Ess Technology, Inc. Image resolution conversion using pixel dropping
JP4452012B2 (ja) * 2002-07-04 2010-04-21 ヒューレット・パッカード・カンパニー 文書の特有性評価方法
US7079686B2 (en) * 2002-08-20 2006-07-18 Lexmark International, Inc. Systems and methods for content-based document image enhancement
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7508984B2 (en) * 2003-07-31 2009-03-24 Ricoh Company, Ltd. Language recognition method, system and software
JP4172584B2 (ja) * 2004-04-19 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字認識結果出力装置、文字認識装置、その方法及びプログラム
US7706617B2 (en) * 2005-03-30 2010-04-27 Carestream Health, Inc. Image indexer for indexing a plurality of images
JP4569397B2 (ja) * 2005-06-15 2010-10-27 富士ゼロックス株式会社 電子文書管理システム、画像形成装置、電子文書管理方法およびプログラム
JP4769031B2 (ja) * 2005-06-24 2011-09-07 マイクロソフト コーポレーション 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
FR2892847B1 (fr) * 2005-11-03 2007-12-21 St Microelectronics Sa Procede de memorisation de donnees dans un circuit de memoire pour automate de reconnaissance de caracteres de type aho-corasick et citcuit de memorisation correspondant.
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US7889932B2 (en) * 2006-03-02 2011-02-15 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US8630498B2 (en) * 2006-03-02 2014-01-14 Sharp Laboratories Of America, Inc. Methods and systems for detecting pictorial regions in digital images
US7792359B2 (en) 2006-03-02 2010-09-07 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US7603351B2 (en) * 2006-04-19 2009-10-13 Apple Inc. Semantic reconstruction
US8437054B2 (en) 2006-06-15 2013-05-07 Sharp Laboratories Of America, Inc. Methods and systems for identifying regions of substantially uniform color in a digital image
US7864365B2 (en) * 2006-06-15 2011-01-04 Sharp Laboratories Of America, Inc. Methods and systems for segmenting a digital image into regions
US7876959B2 (en) * 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
TWI322964B (en) * 2006-12-06 2010-04-01 Compal Electronics Inc Method for recognizing character
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
KR100843325B1 (ko) * 2007-02-07 2008-07-03 삼성전자주식회사 휴대 단말기의 텍스트 표시방법
US20080232682A1 (en) * 2007-03-19 2008-09-25 Kumar Eswaran System and method for identifying patterns
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20090041344A1 (en) * 2007-08-08 2009-02-12 Richard John Campbell Methods and Systems for Determining a Background Color in a Digital Image
CN101419661B (zh) * 2007-10-26 2011-08-24 国际商业机器公司 基于图像中的文本进行图像显示的方法和系统
US8121403B2 (en) 2007-10-30 2012-02-21 Sharp Laboratories Of America, Inc. Methods and systems for glyph-pixel selection
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US20100235780A1 (en) * 2009-03-16 2010-09-16 Westerman Wayne C System and Method for Identifying Words Based on a Sequence of Keyboard Events
US8260062B2 (en) * 2009-05-07 2012-09-04 Fuji Xerox Co., Ltd. System and method for identifying document genres
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8761512B1 (en) * 2009-12-03 2014-06-24 Google Inc. Query by image
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110238679A1 (en) * 2010-03-24 2011-09-29 Rovi Technologies Corporation Representing text and other types of content by using a frequency domain
CN102402693B (zh) * 2010-09-09 2014-07-30 富士通株式会社 处理包含字符的图像的方法和设备
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
EP2706466A4 (en) * 2011-05-02 2015-06-17 Fujitsu Ltd EXTRACTION PROCESS, INFORMATION PROCESSING, EXTRACTION PROGRAM, INFORMATION PROCESSING, EXTRACTION DEVICE AND INFORMATION PROCESSING DEVICE
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP5830996B2 (ja) * 2011-07-19 2015-12-09 富士ゼロックス株式会社 画像処理装置及びプログラム
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8687886B2 (en) 2011-12-29 2014-04-01 Konica Minolta Laboratory U.S.A., Inc. Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9323726B1 (en) * 2012-06-27 2016-04-26 Amazon Technologies, Inc. Optimizing a glyph-based file
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR101416586B1 (ko) * 2012-10-17 2014-07-08 주식회사 리얼타임테크 해쉬를 이용한 전문 기반 논리 연산 수행 방법
KR102579086B1 (ko) 2013-02-07 2023-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
RU2613847C2 (ru) 2013-12-20 2017-03-21 ООО "Аби Девелопмент" Выявление китайской, японской и корейской письменности
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI525606B (zh) * 2014-06-05 2016-03-11 和碩聯合科技股份有限公司 資訊提供方法、系統及字串提供系統
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP6690089B2 (ja) * 2016-04-25 2020-04-28 富士通株式会社 帳票認識方法、帳票認識装置、及び帳票認識プログラム
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10460035B1 (en) * 2016-12-26 2019-10-29 Cerner Innovation, Inc. Determining adequacy of documentation using perplexity and probabilistic coherence
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN111178363B (zh) * 2019-12-18 2024-02-20 北京旷视科技有限公司 文字识别方法、装置、电子设备以及可读存储介质
CN111985231B (zh) * 2020-08-07 2023-12-26 中移(杭州)信息技术有限公司 无监督角色识别方法、装置、电子设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0797373B2 (ja) * 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
US5265242A (en) * 1985-08-23 1993-11-23 Hiromichi Fujisawa Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
US5261009A (en) * 1985-10-15 1993-11-09 Palantir Corporation Means for resolving ambiguities in text passed upon character context
JPS62285189A (ja) * 1986-06-03 1987-12-11 Ricoh Co Ltd 文字認識後処理方式
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
JPH04199467A (ja) * 1990-11-29 1992-07-20 Matsushita Electric Ind Co Ltd 情報蓄積装置
US5440651A (en) * 1991-06-12 1995-08-08 Microelectronics And Computer Technology Corp. Pattern recognition neural network
JPH0554197A (ja) * 1991-08-29 1993-03-05 Sharp Corp 日本語文字認識装置
CA2077604C (en) * 1991-11-19 1999-07-06 Todd A. Cass Method and apparatus for determining the frequency of words in a document without document image decoding
JP3104355B2 (ja) * 1991-12-13 2000-10-30 富士ゼロックス株式会社 特徴抽出装置
EP0550131A2 (en) * 1991-12-31 1993-07-07 AT&T Corp. Graphical system for automated segmentation and recognition for image recognition systems
EP0555024B1 (en) * 1992-02-07 2000-05-17 Canon Kabushiki Kaisha Method and apparatus for pattern recognition
JPH06103319A (ja) * 1992-09-24 1994-04-15 Hitachi Ltd 文書ファイリングシステム
US5438630A (en) * 1992-12-17 1995-08-01 Xerox Corporation Word spotting in bitmap images using word bounding boxes and hidden Markov models
US5375176A (en) * 1993-04-19 1994-12-20 Xerox Corporation Method and apparatus for automatic character type classification of European script documents
JPH07152774A (ja) * 1993-11-30 1995-06-16 Hitachi Ltd 文書検索方法および装置
JP3986098B2 (ja) * 1994-08-16 2007-10-03 富士通株式会社 文字列検索方法及び文字列検索装置
JP3375766B2 (ja) * 1994-12-27 2003-02-10 松下電器産業株式会社 文字認識装置
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263333B1 (en) 1998-10-22 2001-07-17 International Business Machines Corporation Method for searching non-tokenized text and tokenized text for matches against a keyword data structure
US8015206B2 (en) 2002-12-30 2011-09-06 International Business Machines Corporation Document analysis and retrieval
US7412453B2 (en) 2002-12-30 2008-08-12 International Business Machines Corporation Document analysis and retrieval
US8015171B2 (en) 2002-12-30 2011-09-06 International Business Machines Corporation Document analysis and retrieval
US7321880B2 (en) 2003-07-02 2008-01-22 International Business Machines Corporation Web services access to classification engines
CN100351839C (zh) * 2003-10-29 2007-11-28 株式会社日立制作所 文档检索·阅览方法以及文档检索·阅览装置
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8160402B2 (en) 2007-07-23 2012-04-17 Sharp Kabushiki Kaisha Document image processing apparatus
US8208765B2 (en) 2007-07-23 2012-06-26 Sharp Kabushiki Kaisha Search and retrieval of documents indexed by optical character recognition
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP2011039675A (ja) * 2009-08-07 2011-02-24 Ricoh Co Ltd 画像処理装置、画像処理方法、及び、コンピュータプログラム
WO2011016375A1 (en) * 2009-08-07 2011-02-10 Ricoh Company, Limited Image processing apparatus, image processing method, and computer program
US8750638B2 (en) 2009-08-07 2014-06-10 Ricoh Company, Ltd. Image processing apparatus, image processing method, and computer program
JP2013117927A (ja) * 2011-12-05 2013-06-13 Sharp Corp 翻訳装置、翻訳方法及びコンピュータプログラム
JP2020013217A (ja) * 2018-07-13 2020-01-23 株式会社リコー 情報処理システム、画像ログ検索方法、情報処理装置及びプログラム

Also Published As

Publication number Publication date
US5943443A (en) 1999-08-24
JP2973944B2 (ja) 1999-11-08

Similar Documents

Publication Publication Date Title
JP2973944B2 (ja) 文書処理装置および文書処理方法
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
EP0844583B1 (en) Method and apparatus for character recognition
EP0439951B1 (en) Data processing
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
US6047251A (en) Automatic language identification system for multilingual optical character recognition
CA2077313C (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
KR100324847B1 (ko) 수신인명 리드장치와 우편물등 구분기 및 문자열 인식방법
JP3232144B2 (ja) 文章中の単語文節の出現頻度を求めるための装置
US6272242B1 (en) Character recognition method and apparatus which groups similar character patterns
KR100487386B1 (ko) 부수 모델에 기초한 초서체 한자 수기 주석의 검색법
JP3452774B2 (ja) 文字認識方法
US6621941B1 (en) System of indexing a two dimensional pattern in a document drawing
US6052480A (en) Pattern re-recognizing table generating device and pattern recognizing device to improve a reliability for a recognition of a pattern overlapping or intersecting a line in an image
EP2166488A2 (en) Handwritten word spotter using synthesized typed queries
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
Ma et al. Adaptive Hindi OCR using generalized Hausdorff image comparison
US7046847B2 (en) Document processing method, system and medium
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
US5940533A (en) Method for analyzing cursive writing
Amrouch et al. Decision Trees for handwritten Arabic words recognition

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070903

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080903

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090903

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees