JP3950535B2 - データ処理方法及び装置 - Google Patents

データ処理方法及び装置 Download PDF

Info

Publication number
JP3950535B2
JP3950535B2 JP33464997A JP33464997A JP3950535B2 JP 3950535 B2 JP3950535 B2 JP 3950535B2 JP 33464997 A JP33464997 A JP 33464997A JP 33464997 A JP33464997 A JP 33464997A JP 3950535 B2 JP3950535 B2 JP 3950535B2
Authority
JP
Japan
Prior art keywords
probability value
probability
language
value
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33464997A
Other languages
English (en)
Other versions
JPH10232866A (ja
Inventor
エルワーシー デービッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JPH10232866A publication Critical patent/JPH10232866A/ja
Application granted granted Critical
Publication of JP3950535B2 publication Critical patent/JP3950535B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/246Division of the character sequences into groups prior to recognition; Selection of dictionaries using linguistic properties, e.g. specific for English or German language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、データが属する分類を識別するためのデータ処理方法またはデータ処理装置に関する。
【0002】
【従来の技術】
データを種々の分類に分類でき、データが属する分類を識別できることが望ましい用途は多数ある。
【0003】
このような用途の1つに、例えば、手紙、メモおよび論文のような文書を選別してカタログ分類し、異なる位置に記憶する電子文書処理がある。従って文書を認識し、かつ識別してそれらを別に処理できるようなシステムを提供することが望ましい。
【0004】
更に、文書を選別もしくは分類できるように、主題によって認識できれば極めて有利であろう。
【0005】
データ分類の識別が必要な別の分野として、音声認識および光学式文字認識の分野がある。これらの双方のタイプのデータ処理では、処理を簡略化するためにデータを解析し、これを分類することが有利であろう。例えば、データを解析して科学または法律のような分野を判定したり、またはデータを解析して音声またはテキストの属する言語を判定することが可能であろう。
【0006】
自動言語識別の課題は既にP.シブンとA.L.スピッツ(P Sibun & A L Spitz)の両氏の論文によって提起されている(「言語判定:走査された文書画像からの自然言語処理」第4回応用自然言語処理学会の会報15〜21ページ。コンピュテーション言語学学会)。従来の光学式文字認識(OCR)では、言語モデルがOCRシステムの精度を高めることができる。しかし、言語モデルを利用するには、テキストの言語が判明していることが必要である。これは勿論、一般にテキストの認識なしでは不可能である。しかし、シブン氏とスピッツ氏の論文では、走査された画像中の語の簡単な表現であり、各文字の形状の概略的な記述である語形トークン(word shape token)を用いて正確な言語識別を達成可能であることが示されている。このように、“背が高い”文字(例えばh、kおよびl)を全て1つの分類に区分し、尻尾がある文字(例えばgやy)を全て第2の分類に区分し、点がある文字(例えばi)を全て第3の分類に区分し、小さい文字(例えばa、nおよびz)を第4の分類に区分する等が可能である。このようにして、フルスケールのOCRを必要とせずに低い誤差率で文字の形状認識を行うことが可能である。このような文字形状を利用して、シブン氏とスピッツ氏は線形判別解析(LDA:Linear Discriminate Analysis)に基づく統計モデルを用いて最も公算が高い言語を確定する言語識別子を開発した。試験用に収集された23言語に応用した場合、彼らの方法によって正しい言語が割当てられた文書数の割合は91%に達した。オランダ語/アフリカ語、およびフランス語/スペイン語/イタリア語/ポルトガル語/ルーマニア語のような関連言語では多くのエラーが発生した。シブン氏とスピッツ氏による方法の問題点の1つは、自動言語識別を行うためにテキストの全てを解析しなければならないことにある。シブン氏とスピッツ氏による方法のもう1つの問題点は、モデルからいずれかの言語を除去すると残りの言語の精度が低下する場合があることにある。
【0007】
別の方法がシブン氏とJ.C.レーナー氏(J C Reynar)によって提案されている(「刊行物の吟味」文書解析と情報検索に関する第5回年次シンポジウム会報、125ページから136ページ。ラスベガス、ネバタ大学)。この方法は単一文字の形状トークン(ユニグラム:unigrams)、または隣接する一対の文字の形状トークン(バイグラム:bigrams)の分布に関する統計の収集に基づいている。認識試験は各言語の試験セットおよびトレーニング・セット中のユニグラムまたはバイグラムの分布確率同士の関係性に基づいている。18言語での試験では、トレーニングおよび試験セット中のデータ行の数に応じてユニグラムは77%〜99%の精度を達成し、バイグラムでは90%〜100%の精度を達成している。この方法は、モデルから言語を除去しても影響されず、僅か3言語を含む試験では大幅に優れた精度を達成している。しかし、シブン氏とスピッツ氏による方法よりは度合いは低いものの、類似言語は依然として多くのエラー源になっている。
【0008】
【発明が解決しようとする課題】
本発明の目的は、データが属する分類を識別する際に従来技術よりもその分類精度を向上させたデータ処理方法と装置とを提供することにある。
【0009】
【課題を解決するための手段】
本発明の一態様によるデータ処理装置は以下の構成を備える。即ち、
複数の言語のうち、OCRデータが属する言語を識別するデータ処理装置であって、
前記OCRデータ内の単語或いは文節を、前記OCRデータが属する言語が識別されるまで、順次エレメントとして抽出する抽出手段と、
各エレメントが前記複数の言語の各々に属する確率値として、ベイズの法則に基づき予め算出された、所定の信頼範囲内において取り得る最低確率値と、所定の信頼範囲内において取り得る最高確率値と、最も公算が高い確率値である基本確率値とを保持する各言語の辞書と、
前記各言語の辞書に基づいて、前記抽出手段で抽出されたエレメントが、前記複数の言語それぞれに属する最低確率値と最高確率値と基本確率値とからなる確率値セットを判定する判定手段と、
前記複数の言語の各々について前記判定された確率値セットを累算していくことにより、前記複数の言語の各々について、最低確率値と最高確率値と基本確率値とからなる累算確率セットを算出する累算手段と、
前記累算手段で算出した複数の言語各々の累算確率セットについて、最も高い基本確率値を有する累算確率セットの前記基本確率値が所定の確率しきい値に達し、且つ、当該最も高い基本確率値を有する累算確率セットの最低確率値が2番目に高い基本確率値を有する累算確率セットの最高確率値以上であると判断した場合、当該最も高い基本確率値に対応する言語を、前記OCRデータが属する言語として識別する識別手段とを備える。
【0010】
また、本発明の一態様によるデータ処理装置は以下の構成を備える。即ち、
複数の言語のうち、OCRデータが属する言語を識別するデータ処理装置であって、
前記OCRデータ内の単語或いは文節を、前記OCRデータが属する言語が識別されるまで、順次エレメントとして抽出する抽出手段と、
各エレメントが前記複数の言語の各々に属する確率値として、ベイズの法則に基づき予め算出された、所定の信頼範囲内において取り得る最低確率値と、所定の信頼範囲内において取り得る最高確率値と、最も公算が高い確率値である基本確率値とを保持する各言語の辞書と、
前記各言語の辞書に基づいて、前記抽出手段で抽出されたエレメントが、前記複数の言語それぞれに属する最低確率値と最高確率値と基本確率値とからなる確率値セットを判定する判定手段と、
前記複数の言語の各々について前記判定された確率値セットを累算していくことにより、前記複数の言語の各々について、最低確率値と最高確率値と基本確率値とからなる累算確率セットを算出する累算手段と、
前記累算手段で算出した複数の言語各々の累算確率セットに基づいて、最も高い基本確率値を有する累算確率セットの最低確率値が2番目に高い基本確率値を有する累算確率セットの最高確率値よりも所定値以上高いと判断した場合、当該最も高い基本確率値に対応する言語を、前記OCRデータが属する言語として識別する識別手段とを備える。
【0011】
識別された分類は累算確率とともに出力され、データを更に処理するために利用できる。例えば、データが異なる分類に属し、異なる方法で処理する必要がある場合は、識別された分類を利用してデータで実行されるべき処理動作を選択することができる。
【0012】
本発明の一実施形態によれば、累算確率が所定の確率しきい値に達した場合は、その分類はデータが属する分類であるものと識別される。
【0013】
また、分類の累算確率が所定の確率しきい値に達し、かつその分類の累算確率が他の各々の分類の累算確率よりも所定量だけ大きい場合には、その分類を入力されたデータの属する分類として識別することができる。
【0014】
また、分類の累算確率が所定の確率しきい値に達しない場合は、最高の累算確率を有する分類の幾つかをデータがそれに属する可能性がある分類として識別することができる。
【0015】
また、一実施形態では、確率と累算確率の各々は、所定の信頼範囲内において取り得るであろう最低確率値、所定の信頼範囲内において取り得るであろう最高確率値、および最も公算が高い確率値である基本値を備え、分類の累算確率の基本値が前記所定の確率しきい値に達した場合、当該分類が入力されたデータの属する分類として識別される。また、分類の累算確率の基本値が前記所定の確率しきい値に達し、かつ分類の累算確率値の最低確率値が他の各分類の累算確率値の最高確率値以上である場合にのみ、分類を入力されたデータがそれに属する分類として識別してもよい。
【0016】
また、分類の累算確率の基本値が所定の確率しきい値に達しない場合は、累算確率の最高の基本値を有する分類の幾つかをデータがそれに属する可能性がある分類として識別することができる。
【0017】
また、最高の基本値を有する分類の累算確率の最低確率値が他の各分類の累算確率値の最大値確率値未満となる場合は、最高の基本値を有する分類の最低確率値以上である最高確率値を有する分類をデータが属する可能性がある分類として識別することができる。
【0018】
本発明の別の実施形態では、累算確率が他の各々の分類の累算確率よりも所定量だけ大きい場合には、その分類を入力されたデータがそれに属する分類として識別することができる。
【0019】
また、最高の累算確率と他の各分類の累算確率との差が前記所定量よりも大きくない場合は、最高の累算確率を有する分類の幾つかをデータが属する可能性がある分類として識別することができる。
【0020】
また、確率と累算確率の各々が、所定の信頼範囲内において取り得るであろう最低確率値、所定の信頼範囲内において取り得るであろう最高確率値、および最も公算が高い確率値である基本値を備え、分類の累算確率の基本値が他の分類の累算確率の基本値以上である場合は、その分類をデータが属する分類として識別することができる。
【0021】
また、分類の幾つかがデータが属する可能性がある分類として識別された場合、ユーザは可能性がある分類から1つの分類を手動的に選択することができる。
【0022】
また、識別の実施形態では、累算確率の最低確率値と最高確率値とが、当該累算確率の基本値からの2つ以上の標準偏差として計算される。それによって少なくとも95%の信頼度が得られる。
【0023】
入力されるエレメントは別個の順次エレメント、または別個の順次エレメント群であることができる。所定の確率値とは個々のエレメントまたはエレメント群がある分類に属する確率を定義する確率値である。
【0024】
データの特徴はデータの特徴を順次エレメントとしてコード化することによって抽出することができる。コード化によってデータ内の異なる特徴の数と比較して異なるエレメント数を減少することができる。
【0025】
あるいは、データの特徴を直接利用できる場合は、この特徴を備えたデータ内の各エレメントを識別することによって簡単に抽出することができる。
【0026】
各エレメントまたは順次エレメント群の出現頻度を判定することができ、この出現頻度は順次エレメントまたはエレメント群の確率値を計算するために利用できる。
【0027】
順次エレメントの所定の確率値は、全ての分類についてデータ入力内でのエレメントまたはエレメント群の出現確率を計算し、当該分類の出現確率をプリセットされたレベルに設定し、ある分類に出現するエレメントの確率を計算することによって計算できる。このような計算は、
p(l|t)={p(t|l)・p(l)}/p(t)
であるベイズの法則によって行うことができる。但し、
p(l|t)は所定のエレメントまたはエレメント群の分類の確率であり、
p(t|l)は所定の分類のエレメントの確率であり、
p(l)は分類の確率であり、
p(t)はエレメントまたはエレメント群の確率である。
【0028】
ある用途では、分類の出現確率は全ての分類について同一であり、従って計算では無視することができる。
【0029】
所定の確率値は、取り得るであろいう最低確率値と、取り得るであろう最高確率値と、最も公算が高い確率値を示す基本値を備える。最低確率値と最高確率値とを基本値の所定の信頼範囲内にある確率値として計算することができる。好適には、95%の高い信頼範囲が用いられ、従って最低確率値と最高確率値は正規分布の仮定に基づく基本値の2つ以上の標準偏差内にある。トレーニング・データを入力データ内に出現する公算があるエレメントの代表的な範囲を正当に含むように設計することも可能であるが、場合によっては、これはトレーニング・データが可能性がある全てのエレメントまたはエレメント群を含むことを確実にするには実際的ではない。このような環境では、トレーニング・データ内に出現しないエレメントまたはエレメント群の確率値は各分類毎に計算される。それによってトレーニング・データ内のいずれかのエレメントまたはエレメント群に対応しない入力エレメントまたはエレメント群の省略時の確率が得られる。
【0030】
本発明は異なる多くの種類のデータの分類に利用することができる。入力データは例えばOCRデータ、または音声認識データであることができ、このような認識中に通常生成される特徴ベトクルを演算してエレメントまたはエレメント群を構成することにより、データの特徴を抽出することができる。このようなシステム内のエレメントは個々の文字または音素であってよく、また、エレメント群は例えば語や発音であってよい。あるいは、特徴は語群または発音群のような高レベル構造であってもよいであろう。OCRデータの場合、エレメント群は更に例えばシブン氏とスピッツ氏が用いているバイグラム(bigrams)またはトリグラム(trigrams)であってもよい。データ処理によって例えば言語、またはテキストまたはスピーチの主題のような、データが属する任意の分類を識別することができる。
【0031】
本発明の方法を用いて、電子形式の文書の属する分類を識別することができ、このような文書の自動的な選別が可能になる。そのような文書は、例えば手紙、メモまたは論文のような文書の種類、または法律や科学のような主題別に分類することができる。文書の種類は例えば段落の位置および形状の双方または一方のような文書のレイアウトからも識別することができる。文書の主題は文書内のある語の出現を識別し、これらの語を種々の周知の分類中でのこれらの文書の出現確率と比較することによって識別することができる。文書の分類ではエレメント群はページであることができる。
【0032】
本発明は更に画像を分類できる画像またはパターン認識にも応用できる。
【0033】
このように本発明は、少なくとも一部が複数の分類に共通である複数の特徴を備えた広範な種類の入力データに応用できる。
【0034】
本発明によって、データの特徴は順次解析され、例えば確率しきい値を越えたといったような信頼性によって分類を識別することができた時点で、識別された分類を即座に出力することができる。このため、迅速な識別プロセスが可能である。このように、多くの場合、データの全てを解析する必要がないので、分類の識別プロセスはシブン氏とスピッツ氏の方法よりも著しく迅速である。
【0035】
本発明の別の利点は、識別された分類の判定は確率しきい値を越えた場合だけ出力されることにある。このように本発明の実施形態に基づいて、判定の信頼性が高い場合だけ判定が行われる。それによって、誤り範囲または信頼範囲内に幾つかの同類の分類があるので、シブン氏とスピッツ氏のシステムで生ずるような誤りである分類に関して判定が行われることが回避される。
【0036】
【発明の実施の形態】
次に本発明の実施形態を添付図面を参照して説明する。
【0037】
図1は本発明の一実施形態に基づく代表的なデータ処理システムを示している。データはパーソナル・コンピュータにおいてコンピュータ・プログラムが作動することにより処理される。後述するフローチャートに示す処理も、このコンピュータプログラムに従って実行される。コンピュータ・プログラムは内蔵のハードディスクドライブに記憶しておくことができ、またはフロッピー・ディスク3、或いは書き込み可能なCDのようなコンピュータ読出し可能な記憶媒体でコンピュータ1に転送することができる。処理用のデータはOCRデータの場合にはスキャナ(Scanner)2のような入力装置から入力することができる。しかし、データはモデム(図示せず)のような任意の適当な入力装置、またはフロッピー・ディスク3或いはCDのようなコンピュータ読出し可能な記憶媒体によっても入力することができる。処理対象のデータ処理結果及び識別結果は、例えばコンピュータ1のディスプレイ1a、或いはレーザ・プリンタ(Laser printer)4のような出力装置に出力することができる。更に、識別結果を利用して、データの処理方法を判定することもできる。異なる分類に属するデータを別々に処理する必要がある場合は、識別結果を利用して必要な別々の処理を適用することが可能である。このように、例えば入力データがOCRデータであり、識別されるべき分類がOCRデータの言語の種類である場合は、識別された言語の種類を利用して特定のライブラリまたはモデルを当該データのOCR処理に利用することができる。
【0038】
図2は図1のシステムの内部構成を概略的に示している。バス14はシステムの全ての素子を連結して、素子間での通信を可能にする。ディスプレイ装置(DISPLAY DEVICE)10がバス14に接続され、データの表示を可能にする。記憶装置(STORAGE DEVICE)16から検索可能であり、ランダムアクセスメモリ(RAM)13に一時的に記憶されているデータを処理するために中央処理装置11が備えられている。読出し専用メモリ(ROM)12も備えられ、これらは一般にこのシステムの基本入出力システム(bios)を含んでいる。データやコマンドを入力するためのキーボード(KEYBOARD)17が備えられている。入力装置(INPUT DEVICE)18は処理されるデータを入力し、出力装置(OUTPUT DEVICE)15は処理済のデータを出力する。
【0039】
図3は本発明の実施形態の基本動作のフローチャートである。ステップS1で、データがシステムに入力される。ステップS2で、データ内のエレメントを単に識別することによって、またはデータの特徴をエレメントとしてコード化することによってデータ・エレメントが抽出される。ステップS3で、抽出されたデータ・エレメントがデータ分類のために順次入力され、ステップS4で、入力されたエレメントを各分類のエレメントの所定の確率値と比較して、入力されたエレメントがその分類に属する確率を決定することにより、データが分類される。確率は累算されて各分類の累算確率が算出され、この累算確率からデータが属する分類を識別することができる。
【0040】
こうしてS4で得られた分類は、データの更なる処理のために利用できる。ステップS5で、識別された分類がデータ処理プロセスに入力され、ステップS6でデータが読出され、識別された分類に従って処理される。
【0041】
図4は本発明の一実施形態に基づく分類の識別の概略機能図である。データエレメント抽出部(Data Element Extractor)20で、データ・エレメントが抽出され、分類のための各々の確率ライブラリ21a、21b、21c...21Lのそれぞれに入力される。ある分類に属するエレメントのそれぞれの確率はそれぞれの確率ライブラリ21a、21b、21c…21L(Probability Library for Classification 1-L)からそれぞれの累算器22a、22b、22c…22L(Accumulator 1-L)に出力される。累算器22a、22b、22c…22Lは確率を累算し、それを累算確率の比較のために比較器(Comparator)23に出力して、累算確率信頼性を以て分類を識別できる場合にはその旨を判定する。
【0042】
ここでOCRデータの言語識別に応用される図5から図16を参照して本発明の特定の実施形態を説明する。
【0043】
図5は言語識別システムの概略機能図である。トークナイザ(Tokeniser)24は語トークン(word token)をなすエレメント群を構成するために、文字をトークナイズ(tokenize)してOCRデータの特徴を抽出する。このトークナイズとは、データをエレメント或いはエレメント群に分析する処理である。それにはシブン氏&スピッツ氏、およびシブン氏&レーナー氏の論文に記載されている方法を利用できる。ここで、トークンは、語彙辞書に格納されていることが予測される文字列の単位であり、単語或いは文節である。語トークンは次にOCRデータが属する言語のための各々の語彙辞書25a、25b、25c…25L(Lexicon 1-L)に入力される。語彙辞書25a、25b、25c…25Lは語トークンがその言語に属する所定の確率値を備える。語彙辞書25a、25b、25c…25Lから出力された確率値は、それぞれの累算器26a、26b、26c…26L(Accumulator 1-L)に入力され、そこで順次、語トークンが累算されて、累算確率が算出される。各累算器26a、26b、26c…26Lの累算確率は比較器(Comparator)26に入力され、この比較器26で確率が互いに、また所定のしきい値と比較されることによりその信頼性が判定され、OCRデータが属する言語として一意的に識別できるか否かが判定される。
【0044】
言語の識別を実行可能とするために、語彙辞書のトレーニング(学習)を行わなければならない。語彙辞書のトレーニングにおいては、正しい言語が判明している文書に対して先に述べたトークナイズの処理を実行し、その言語のトークンの頻度分布が生成される。次にその言語の確率分布が計算される。1つの言語の確率モデルを他の言語とは独立させることにより、各言語に同じ量のトレーニング・データを用いる必要はない。
【0045】
導出すべき確率は所定のトークンtが言語lの要素である確率であり、p(l|t)として記述する。すなわち所定のトークンが、与えられている言語である確率であり、ベイズの法則によれば、以下の式のようになる。
【0046】
【数1】
Figure 0003950535
【0047】
但し、p(t|l)は所定の言語lのトークンtの確率であり、p(l)は言語のアプリオリ(演繹的)な確率値であり、p(t)はトークンのアプリオリ(演繹的)な確率値である。トレーニング・データからp(t|l)、p(l)およびp(t)を見積もるには多くの方法がある。本発明の実施形態ではそのような方法の1つを用いる。
【0048】
全ての言語の確率が等しいものと仮定する。その場合、p(l)は任意のlと任意のtについてp(l|t)を計算する定数である。p(l|t)の絶対的な値は必要ないので、p(l)を式(1)から削除することができる。
【0049】
トレーニング・データからp(t|l)とp(t)の双方を計算する手順は次のとおりである。与えられたトークンtについて、mをトレーニング・データ中のそのトークンの頻度とし、nをトークンの総数とする。双方のカウントとも、p(t|l)については与えられた言語の総数であり、p(t)については全ての言語の総数である。基本確率(pBで表す)、低確率(pLで表す)、および高確率(pHで表す)と呼ばれる3つの確率が計算される。これらの確率は所定の信頼限度内でトークンが出現する確率を表している。このように、pLはそのトークンが取り得る最も低い確率であり、pHは最も高い確率であり、pBは通常、信頼範囲の中心、またはその近くにある確率値である。pBをどのように決めるかは、予めルールを定めておく。範囲全体を用いることもできるが、本実施形態ではp(t)について基本確率だけを用いている。
【0050】
確率計算はトレーニング・データ内でのトークンの出現頻度に応じて異なる。高頻度、中間頻度、低頻度およびゼロのそれぞれの範囲が用いられる。どの分類を用いるべきかの決定はmの値に基づいてなされる。高頻度計算は中間頻度計算よりも幾分か近似した形式であり、計算はギリギリまで少なくて済む。低頻度計算はより集約的な計算であるが、近似性は低い。ゼロ頻度補償はトレーニング・データにはないが、入力データに出現するかも知れないトークンの場合に用いられる。
【0051】
確率は二項分布に従うものと仮定する。これを正当化するのは各トークンの出現をトークンtであるか、tではない“事象(event)”として扱うことである。観察したトークンの頻度に基づいて、次にこの多くの“事象”、すなわちトークンの出現を導いたであろう二項分布の基礎となる確率が計算される。
【0052】
高頻度の場合、基礎となる確率pで二項分布のn回の試みでの平均“成功”数の標準的な結果は下記の式(2)によって得られる。
【0053】
【数2】
Figure 0003950535
【0054】
μを観察された出現数mに等しく設定すると、pは下記の式(3)から得られる。
【0055】
【数3】
Figure 0003950535
【0056】
出現数の標準偏差は下記の式(4)から算出される。
【0057】
【数4】
Figure 0003950535
【0058】
最低および最高の確率pLおよびpHを計算するため、基本値pBからのd個の標準偏差が導入され、下記の式(5)、(6)のようになる。
【0059】
【数5】
Figure 0003950535
【0060】
【数6】
Figure 0003950535
【0061】
この実施形態では、標準偏差dの数は2に設定され、それによって確率には95%の信頼性が得られる。
【0062】
中間頻度範囲のトークンの場合、式(5)の右項に低確率を代入することによって、すなわち、式(7)で示される計算によって、確率pLはより正確になる。
【0063】
【数7】
Figure 0003950535
【0064】
式(7)のpLの値は、確率値pLが低いものと仮定し、ひいては(1−pL)がほぼ1に等しいものと仮定することによって解くことができる。そこで、確率計算は、式(8)の二次方程式を解くことになる。
【0065】
【数8】
Figure 0003950535
【0066】
最初の場合のように、95%の信頼性を得るためにdを2と設定する。同様の理由から、確率値pHは下記の式(9)のようになる。
【0067】
【数9】
Figure 0003950535
【0068】
基本値は高確率の場合と同様に計算される。
【0069】
低頻度については、正確に二項展開を解く。二項分布を定義することは、基礎となる確率をp、全試行回数をn回とした確率分布からmの成功事象の確率を(10)式によって与える。
【0070】
【数10】
Figure 0003950535
【0071】
pの値は小さいので、(1−p)の項は1であると概算することができる。95%の信頼範囲の場合、方程式はp(m)=0.025、p(m)=0.5、およびp(m)=0.975について解かれ、pL、基本確率pBおよびpHがそれぞれ算出される。例えば基本確率については下記の式(11)のようになる。
【0072】
【数11】
Figure 0003950535
【0073】
また、未知の事象の確率計算のための特殊な場合、すなわちトレーニング・データにトークンが現れない場合にも対処しなければならない。これはいわゆる上記のゼロ確率である。低頻度の場合に用いられる方法は単純にm=0に従うことはできない。何故ならば、そうすると低確率(2.5%レベル)が高確率(97.5%)以上になる不合理な状況になるからである。その理由は方程式が下記の式(12)のように可約されるからである。
【0074】
【数12】
Figure 0003950535
【0075】
但しtは0.025または0.975であるしきい値である。その代わりに低い値と高い値を等しく設定する近似式が用いられ、これらはt=0.95とした、すなわちpについて計算された値で95%の信頼性があるポイントで式(12)から計算される。これはp(t)のゼロ確率の場合の計算と同様である。
【0076】
計算は対数を導入することによって、乗算の項を加算に変換し、べき乗計算及び根計算を乗算と除算とに変換することで最良に行われる。それによって数値の桁あふれ、および下位桁あふれの問題も回避することができる。
【0077】
ここでトレーニング動作で行われるステップを図6a、図6bおよび図6cのフローチャートを参照して詳細に説明する。但し、mはある言語に含まれる語の頻度であり、Mは全ての言語に含まれる語の頻度であり、nはある言語に含まれる全ての語の全頻度であり、Nは全ての言語に含まれる全ての語の全頻度である。
【0078】
ステップS10でNとMがゼロに設定される。ステップS11でトレーニング用の言語が選択され、ステップS12でmとnがゼロに設定される。ステップS13で最初の語トークンが読込まれ、ステップS14でその語トークンのカウントが増分される。ステップS15で語トークンがその言語の累算器テーブルに存在するか否かが判定される。勿論、最初の語トークンの場合がそうであるように、語トークンが累算器テーブルに存在しない場合は、ステップS16で、言語に含まれる語の頻度を1として、すなわちm=1として、当該語トークンが累算器テーブルに追加される。語トークンが累算器テーブル内にあるものと判定されると、ステップS17でその言語に含まれる語の頻度を表わすmのうちの前記語トークンに対応するmが1つ加算される。
【0079】
ステップS18で、語トークンが全体テーブルに存在するか否かが判定される。語トークンが存在しない場合は、語トークンが全体テーブルに追加され、当該語トークンに対応する頻度Mが1に設定される。全体テーブルに語のトークンが存在する場合は、語のトークンの頻度MがステップS20で増分される。次にステップS21で、他に語トークンがあるか否かが判定され、ある場合には処理はS13に戻って次の語トークンが読出される。ある言語の語トークンの全てが読出されたとステップS22で判定された場合は、トレーニング・データを読出すべきそれ以上の言語があるか否かが判定される。更に別の言語向けにトレーニング・データを読出すべき場合は、プロセスはS11に戻る。当該言語向けにそれ以上のトレーニング・データがない場合は、頻度m、M、n、およびNの値は全て決定されており、そこでプロセスは確率を判定するプロセスに進むことができる。
【0080】
図6bに示したステップS23からステップS29までのステップは全体テーブル内の各々の語トークンについて繰り返される。ステップS24で、言語に含まれる語トークンの全頻度(M)が10未満であるか否かが判定される。そうである場合は、ステップS25でp(m)が0.5に設定され、ステップS26で式(11)を用いて全体テーブル内の語トークンの確率が計算される。Mが10未満ではない場合は、ステップS27で全体テーブル内の語トークンの確率がM/Nから計算される。次にステップS28でM=0である場合の全体テーブル内の語のトークンの確率が下記の式(13)により計算される。
【0081】
【数13】
Figure 0003950535
【0082】
次にステップS24からS28が全体テーブル内の語の各々トークンについて反復されて確率値pL(t)、pB(t)およびpH(t)が算出される。
【0083】
次に処理は図6cに進み、そこで各累算器テーブル内の各々の語のトークンの確率が計算される。ステップS31からS38は1つの累算器テーブル内の各語トークンについて反復され、ステップS30からS41が各累算器テーブルについて反復される。ステップS32で、mが10未満であるか否かが判定され、そうである場合は、ステップS33でp(m)=0.025、0.5および0.975の場合に関して低確率、基本確率、および高確率がそれぞれ下記の式(14)によって計算される。
【0084】
【数14】
Figure 0003950535
【0085】
mが10未満でない場合、ステップS34でmが100000未満であるか否かが判定される。
【0086】
ステップS34でmが100000未満である場合は、ステップS35で基本確率が式(3)によって計算され、低確率が式(8)によって計算され、高確率が式(9)から計算される。但し、95%の信頼性向けにd=2とする。
【0087】
ステップS34でmが100000未満ではないものと判定されると、ステップS36で基本確率が式(3)によって計算され、低確率が下記の式(15)によって計算される。
【0088】
【数15】
Figure 0003950535
【0089】
更に高確率が下記の式(16)により計算される。
【0090】
【数16】
Figure 0003950535
【0091】
但し、95%の信頼性向けにd=2とする(式(15)と式(16)は式(5)および式(6)から導出されたものである)。
【0092】
ステップS37で、ステップS33、S35またはS36で示した確率値pL、pBおよびpHがそれぞれステップS26またはS27で計算されたpL(t)、pB(t)およびpH(t)で除算される。
【0093】
ステップS39で、m=0の場合の語トークンにおける確率pB(t|l)、pL(t|l)、およびpH(t|l)が、M=0のときのp(t)を用いて、下記の式(17)の如く計算される。
【0094】
【数17】
Figure 0003950535
【0095】
次にステップS40で確率がテーブルに記憶され、ステップS42でトレーニング手順が終了する。
【0096】
図6bおよび図6cでは確率計算のための頻度範囲を決定するためにMとmに特定の値が用いられているが、任意の適宜の値を選択することができる。図6cに示すように、ステップS34では高頻度範囲のしきい値としてmに設定される値は100000である。このように、実際には高頻度範囲の計算は用いられない。しかしながら、計算コストが不足するような場合もあり、その場合には減少した頻度のトークンにも高頻度計算を行ってもよい。
【0097】
図6a、図6bおよび図6cでは識別のトレーニング手順を説明したが、これらの変形も可能である。第1に、必ずしも二項分布を適用する必要はない。これはトークンが独立事象として取り扱われるという仮定に基づいた言語識別問題におけるデータに適している。同様の分類子が適用される他の状況では、他の確率分布の方がより適している場合もあろう。キーポイントは信頼範囲を計算し、かつ分布の特徴に応じて必要な場合には近似評価からより正確な評価に切換えることである。
【0098】
第2に、同じ手順を用いて、前述の基本確率だけではなく全体的な分布p(t)の信頼間隔を計算することができる。その場合にはベイズの法則にもとづく計算はp(t)とp(t|l)の双方を考慮に入れる必要がある。
【0099】
最後に、確率を評価する他の方法を用いることもできよう。可能性の1つは特に出現頻度の評価を修正するように設計されていて、トレーニング・データがサンプルであっても構わないグッド−チューリング評価(Good-Turing estimation)である。“簡単なグッド−チューリング”(SGT)と呼ばれるこの技術の実際的な実施については、WA.ゲール、S.サムソン共著の論文「簡単なグッド−チューリング評価」(定性言語学ジャーナル第2巻、第3部217〜237ページ)に詳細に記載されており、この論文では同様の問題を解決するための関連する可能性の幾つかも考察されている。前述の計算を行う前にSGTを利用することにより、mの値を平滑化することが可能である。
【0100】
トレーニング・データの結果は各言語の語彙辞書である。語彙辞書は言語に現れる各トークンの確率とともに、言語に関して周知のトークンの全てをリストした参照用テーブルからなっている。更に所定の言語についてトレーニング・データ内にはない何らかのトークン用に用いられるゼロ確率もある。確率が基本値を中心に最低から最高の範囲に及ぶことによって、トレーニング・データは言語の完全な記述ではなく言語のサンプルであっても構わない。
【0101】
ここで図7から図14を参照して言語識別の種々の実施形態を説明する。
【0102】
図7および図8のフローチャートは比較器に入力される累算確率値を算出するための別の方法を示している。ステップS50で累算器は初期化されてゼロに設定され、ステップS51で語トークンが読出される。ステップS52で確率pL(1|t)、pB(1|t)およびpH(1|t)を得るために、語トークンが語彙辞書で探索される。ステップS53で確率の対数が導入され、ステップS54で確率値が加算され、各言語毎の累算確率値のセット{aL,aB,aH}が算出される。ステップS55で累算確率値{aL,aB,aH}が比較器に送られる。ステップS56で“判定実行”フラグが設定されているか否かが判定される。既に判定がなされており、フラグが設定されている場合は、処理はステップS59で終了する。判定が未だなされておらず、フラグが設定されていない場合は、ステップS57で入力される他の語トークンがあるか否かが判定される。他の語トークンがある場合は、処理はステップS51に戻り、上記の累算プロセスを継続する。それ以上の他の語トークンがない場合は、ステップS58で“入力終わり”フラグが設定され、処理はステップS59で終了する。
【0103】
図8は補足的なステップS60が設けられている点で図7とは異なっている。図8の流れのステップS57において、読み出されるべきそれ以上の語トークンがある場合には、ステップS60で“累算器使用不能”フラグが設定されているか否かが判定される。図12を参照して後述するように、このフラグは語トークンが属する言語である公算がない言語について設定されることができる。累算器使用不能フラグが設定されている場合は、処理はステップS59で終了し、そうではない場合はステップS51で他の語トークンが読出される。
【0104】
図9から図13のフローチャートは累算器の出力から言語を識別するための比較器の別の動作方法を示している。
【0105】
図9では、ステップS61で累算確率のセット{aL,aB,aH}が累算器から読出される。ステップS62で、累積確率のセット{aL,aB,aH}が基本値aBの高い順に選別される。ステップS63で基本値がしきい値以上であるか否かが判定される。最高の基本値がしきい値以上である場合は、ステップS64で最高の基本値aBを有するセット内の低い値aLが、次に高い基本値aBを有するセット内の高い値aH以上であるか否かが判定される。そうである場合は、ステップS65で“判定実行”フラグが設定され、ステップS66で最高の累算確率基本値aBを有する言語が出力され、プロセスはステップS67で終了する。ステップS64で最高の基本値aBを有するセット内の低い値aLが、次に高い基本値aBのセット内の高い値aH以上ではないものと判定されると、ステップS68で“入力終わり”フラグが設定されているか否かが判定される。設定されている場合は、この方法では依然として最高の累積確率基本値aBを有する言語がステップS66で出力される。“入力終わり”フラグが設定されていない場合は、プロセスはステップS61に戻り、次の累積確率のセット{aL,aB,aH}が読み出される。また、ステップS63で最高の基本値aBがしきい値未満であることが判定されると、ステップS63で“入力終わり”フラグが設定されているか否かが判定される。“入力終わり”フラグが設定されている場合は、最高の累積確率基本値aBを有する言語がステップS66で出力され、設定されていない場合は処理はステップS61に戻る。
【0106】
図9のプロセスの実行は可能であるが、この処理では、別の言語と確率が重複する場合、すなわち最高の基本確率の言語が明確ではない場合に、言語の出力を妨げるという利点が得られない。
【0107】
図10では、ステップS68でしきい値を越えてはいるが、依然として確率が相互に重複しており、“入力終了”フラグが設定されている場合は、ステップS69で最高の基本値aBを有する言語と、この最高の基本値aBを有する言語の低い確率値よりも大きい値を持つ高い確率値を有する言語とが出力される。
【0108】
図11では、ステップS63でしきい値を超えず、ステップS70で“入力終了”フラグが設定されている場合に、ステップS71で判定が不能であり、処理がステップS67に戻る好適な方法が示されている。ステップS63でしきい値を超え、ステップS64で言語の確率が重複し、かつステップS68で“入力終了”フラグが設定されている場合には、ステップS69で最高の基本値aBを有する言語、および最高の基本値aBを有する言語の低い値aLより大きい値の高い値aHを有する言語が出力される。また、ステップS63でしきい値を超え、ステップS64で重複が示されない場合は、ステップS65で“判定実行”フラグが設定され、ステップS66で最高の累積確率基本値aBを有する言語が識別された言語として出力される。
【0109】
この図11の実施形態では、少なくともしきい値を超えるまでは言語を識別することができない。入力データの終端で依然として1つ以上の累積確率値に重複がある場合は、これらの言語は出力され、ユーザは出力された言語からマニュアルで言語を選択することができる。これに対して、しきい値を超え、確率の重複がない場合は、言語を識別することができる。
【0110】
図14a、図14bおよび図14cは4つの言語(英語、フランス語、ドイツ語またはイタリア語)のいずれか1つの中に存在し得るOCRデータから語トークンを順次読出す間のプロセスを図示している。図14aでは、累積確率はしきい値に達しておらず、従って言語は識別されない。図14bでは言語が英語である確率はしきい値を超えているが、言語がフランス語やイタリア語である確率は依然として重複している。この時点でそれ以上のデータがなくなった場合は、これらの3つの言語を入力データが属する可能性がある言語として識別されるであろう。図14cでは、言語が英語である確率が他の言語である確率と分離されており、従ってこの時点で入力データが属する言語を英語であると識別できることが分かる。
【0111】
図12は、ステップS63でしきい値を超えているものと判定され、しかしステップS64で確率が明確ではない場合、ステップS72で最高基本値aBと他の各セットの基本値aBとの差がしきい値以上であるか否かが判定される別の実施形態を示している。そうである場合は、ステップS74でしきい値範囲外の基本値aBを有する累積器に関して“累積器使用不能”フラグが設定される。このようにして、幾つかの言語の公算が最も高い場合、最も公算が低い言語用の累積器が使用不能にされることによって、それらの言語を処理対象から有効に除去する。従って、それによって公算が最も高い言語についてだけ累算が必要であるので、処理の必要性が軽減される。
【0112】
図9から図12では、ステップS63で用いられるしきい値は絶対しきい値である。しかし、しきい値は図13に示すように相対しきい値であってもよい。図13では、ステップS75で、最高の基本値aBを有するセット内の低い値aLが、次に高い基本値aBを有するセット内の高い値aH以上であり、その差がしきい値以上であるか否かが判定される。そうである場合は、ステップS65で“判定実行”フラグが設定され、ステップS66で最高の累積確率基本値aBを有する言語が出力される。
【0113】
このように、図13はステップS63およびS64とステップS75とが入れ代わっていることを除いては図9で示した処理と同様である。図13のステップは、ステップS68の肯定出力をステップS69に入力できるという点で図10と同様の態様に修正することができよう。すなわち、データが終了すると、最高の基本値aBを有する言語、および最高の基本値aBを有する言語の低い値aL以上の高い値aHを有する言語が出力される。あるいは、ステップS68の否定出力によりステップS71の結果、すなわち判定不能になることもあろう。
【0114】
このように、絶対しきい値、または差分しきい値のいずれかを設定でき、その結果、言語を判定、または識別できず、または幾つかの可能性がある言語を識別して、ユーザが手動的に言語を選択できるような多くの異なる方法がある。
【0115】
この技術の経験的な評価で、18の言語が欧州コーバス・イニシアチブのCD−ROM1から抽出され、1行から2000行のテキストを含むファイルに分割され、2000行のファイルが1つと、200行のファイルが1つと、それぞれ1行、5行、10行および20行の25のファイルとして分散された。トレーニング・データとして2000行および200行のファイルが用いられ、残りのファイルはテスト・データとして用いられた。ファイル内のテキストは走査された画像から抽出されたトークンをシミュレートするために、シブン&レーナー氏の技術と同じマッピングを用いて、語形トークンにマッピングされた。トークンは空白スペース文字で分離された文字列として定義された。それによって句読点は語の直ぐ後にづづく場合は語の一部として扱われ、その結果、データ内のノイズがある程度シミュレートされる。識別アルゴリズムは各テスト・ファイルで行われ、その結果は4つのカテゴリーの1つに分類された。
【0116】
1.単一言語である限定的な、正しい判定。
2.言語の限定的な判定ではないが、入力の終了時に最高の評価の言語が正しい判定である。
3.終了時に最高の評価の言語が正しい判定ではない、限定的ではない判定。
4.限定的ではあるが、その単一の言語が正しくない判定。
【0117】
最初の2つ(上記の1及び2)の数字の合計を総テスト数と比較すると、精度の数値が得られる。最初と最後(上記の1と4)の数字の合計を総数と比較すると、再現度の数値、すなわち限定的な判定に達したテスト数が得られる。
【0118】
しきい値Sがテキストの0、5、10および14である場合の1行、5行、10行、20行および全ての行を有するデータについての結果は表1および表2、および図15および図16に示されている。
【0119】
【表1】
Figure 0003950535
【0120】
【表2】
Figure 0003950535
【0121】
表、およびグラフから、しきい値Sが大きくなると精度が高まるが、再現度が低くなることが分かる。従って、Sの最適な値として、高率の再現率を確保しつつ、データの取り得る長さに対して合理的な精度をもたらす値を選択する必要がある。
【0122】
このように、前述の実施形態の説明から、本発明はOCRデータ用の言語の識別に最適であることがわかる。しかし、この方法は音声認識データにも同様に有効である。システムに順次入力できるエレメントまたはトークンを得るためにデータの特徴を抽出するだけでよい。
【0123】
この技術は例えばASCIIから読み出し可能なコンピュータ内のテキストに直接適用することができる。このようなテキストは圧縮コード化して、入力の数を縮減し、確率分布を圧縮することもでき、エレメントとしてシステムに直接入力することもできる。言い換えると、システムへの入力は単にASCII内の語からなり、語彙辞書は語のテーブルと、言語内で語が出現する確率とからなっている。
【0124】
入力システムとして用いられるべきデータの特徴、もしくはエレメントは優れた判定をもたらす特徴もしくはエレメントとして識別される必要がある。
【0125】
本発明では、エレメントは順次入力されなければならないが、エレメントを順次入力する順序は重要ではない。
【0126】
これまでの実施形態では語彙辞書は言語の為の語彙辞書であるが、テキストを主題分類に分類するための語彙辞書を用いることもできる、例えば詩、法律、または科学のような主題別の語彙辞書でもよい。それによってソフトウェアは、異なる主題について異なるライブラリを利用することができる。また、文書の異なる部分を異なるライブラリを用いて処理することもできる。
【0127】
ここで図17a〜図17dおよび図18を参照して本発明の別の実施形態を説明する。この実施形態は文書中のテキストの形状またはレイアウトを識別することによって文書の種類を識別することを指向している。図17aから図17dは文書上のテキストの段落の異なる構成を示している。テキストの段落は例えばページ上の位置によって簡単にコード化することができる。例えば、右、左および中央(R、LおよびC)の簡単なエレメントを用いてテキストの段落の位置を示すことができる。このように、図17aはR、L、Cとコード化され、図17bはC、Cと、また、図17cはC、C、Cと、また図17dはL、Rとコード化することができる。
【0128】
このように多くのページからなる文書を簡単な文書ページ・コードによって識別することができる。例えば、図17aは一般的な手紙のレイアウトである。
【0129】
図18は本発明の一実施形態に基づく文書認識システムの機能図である。文書の特徴が形状トークナイザ(Shape tokeniser)30によって抽出されて、形状トークン(shape tokens)が生成され、これが形状確率ライブラリ31a、31b、31c…31L(Shape probability library 1-L)に入力される。形状確率ライブラリ31a、31b、31c…31Lは形状トークンの所定の確率テーブルを含んでいる。各形状トークンの確率は形状確率ライブラリ31a、31b、31c…31Lからそれぞれの累算器32a、32b、32c…32L(Accumulator)に送られ、そこで確率が累算される。次に、累算確率は累算器32a、32b、32c…32Lから比較器(Comparator)33に送られ、そこで累積確率が比較されて、文書の分類を識別できるか否かが判定される。OCRデータの言語識別に関連して説明したトレーニング・プロセスおよび識別プロセスは文書識別にも等しく応用できる。
【0130】
上記の実施形態の説明から明らかであるように、本発明は、少なくとも1つを各分類の中に見出すことができる多数の特徴を備えたデータが属する分類を識別するためのデータ処理に応用できる。
【0131】
これまで本発明を特定の実施形態を参照して説明してきたが、本願の特許請求の範囲に記載の本発明の範囲から逸脱することなく修正が可能であることが専門家には明らかであろう。
【0132】
【発明の効果】
これまで説明してきたように、データの特徴が順次解析され、その分類が識別され、出力されるので、迅速な識別プロセスが可能であり、また、識別された分類の判定は確率しきい値を超えた場合だけ出力されるので、識別の信頼性も高い。
【図面の簡単な説明】
【図1】本発明の1実施形態に基づくデータ処理システムの概略図である。
【図2】図1のデータ処理システムの構成の概略図である。
【図3】本発明の1実施形態に基づくデーシ処理のための基本的ステップのフローチャートである。
【図4】本発明の1実施形態に基づくデーシ処理システムの概略機能図である。
【図5】本発明の1実施形態に基づく言語識別システムの概略機能図である。
【図6a】図5の言語識別システムの学習段階を示したフローチャートである。
【図6b】図5の言語識別システムの学習段階を示したフローチャートである。
【図6c】図5の言語識別システムの学習段階を示したフローチャートである。
【図7】本発明の1実施形態に基づく図5の語彙辞書と累算器の動作のフローチャートである。
【図8】本発明の別の実施形態に基づく図5の語彙辞書と累算器の動作のフローチャートである。
【図9】本発明の第1実施形態に基づく図5の比較器の動作のフローチャートである。
【図10】本発明の第2実施形態に基づく図5の比較器の動作のフローチャートである。
【図11】本発明の第3実施形態に基づく図5の比較器の動作のフローチャートである。
【図12】本発明の第4実施形態に基づく図5の比較器の動作のフローチャートである。
【図13】本発明の第5実施形態に基づく図5の比較器の動作のフローチャートである。
【図14a】未だしきい値を超えておらず、一意的な言語を識別できない、言語識別のための累積確率の概略図である。
【図14b】1つの言語である確率がしきい値を超えているが、未だ一意的な言語を識別できない、言語識別のための累積確率の概略図である。
【図14c】しきい値を超え、一意的な言語を識別可能である言語識別のための累積確率の概略図である。
【図15】異なるテスト・データのセットについてしきい値を変更した場合の識別精度を示したグラフである。
【図16】異なるテスト・データのセットについてしきい値を変更して言語を識別するシステムの能力を示したグラフである。
【図17a】文書のページにおけるテキストレイアウトの概略図である。
【図17b】文書のページにおけるテキストレイアウトの概略図である。
【図17c】文書のページにおけるテキストレイアウトの概略図である。
【図17d】文書のページにおけるテキストレイアウトの概略図である。
【図18】文書識別システムの概略機能図である。
【符号の説明】
1 コンピュータ
2 スキャナ
3 フロッピー・ディスク
4 レーザ・プリンタ
10 表示装置
11 中央処理装置
12 ROM
13 RAM
14 バス
15 出力装置
16 記憶装置
17 キーボード
21 ライブラリ
22 累算器
23 比較器
24 トークナイザ
25 語彙辞書
26 累算器

Claims (12)

  1. 複数の言語のうち、OCRデータが属する言語を識別するデータ処理装置であって、
    前記OCRデータ内の単語或いは文節を、前記OCRデータが属する言語が識別されるまで、順次エレメントとして抽出する抽出手段と、
    各エレメントが前記複数の言語の各々に属する確率値として、ベイズの法則に基づき予め算出された、所定の信頼範囲内において取り得る最低確率値と、所定の信頼範囲内において取り得る最高確率値と、最も公算が高い確率値である基本確率値とを保持する各言語の辞書と、
    前記各言語の辞書に基づいて、前記抽出手段で抽出されたエレメントが、前記複数の言語それぞれに属する最低確率値と最高確率値と基本確率値とからなる確率値セットを判定する判定手段と、
    前記複数の言語の各々について前記判定された確率値セットを累算していくことにより、前記複数の言語の各々について、最低確率値と最高確率値と基本確率値とからなる累算確率セットを算出する累算手段と、
    前記累算手段で算出した複数の言語各々の累算確率セットについて、最も高い基本確率値を有する累算確率セットの前記基本確率値が所定の確率しきい値に達し、且つ、当該最も高い基本確率値を有する累算確率セットの最低確率値が2番目に高い基本確率値を有する累算確率セットの最高確率値以上であると判断した場合、当該最も高い基本確率値に対応する言語を、前記OCRデータが属する言語として識別する識別手段とを備えることを特徴とするデータ処理装置。
  2. 複数の言語のうち、OCRデータが属する言語を識別するデータ処理装置であって、
    前記OCRデータ内の単語或いは文節を、前記OCRデータが属する言語が識別されるまで、順次エレメントとして抽出する抽出手段と、
    各エレメントが前記複数の言語の各々に属する確率値として、ベイズの法則に基づき予め算出された、所定の信頼範囲内において取り得る最低確率値と、所定の信頼範囲内において取り得る最高確率値と、最も公算が高い確率値である基本確率値とを保持する各言語の辞書と、
    前記各言語の辞書に基づいて、前記抽出手段で抽出されたエレメントが、前記複数の言語それぞれに属する最低確率値と最高確率値と基本確率値とからなる確率値セットを判定する判定手段と、
    前記複数の言語の各々について前記判定された確率値セットを累算していくことにより、前記複数の言語の各々について、最低確率値と最高確率値と基本確率値とからなる累算確率セットを算出する累算手段と、
    前記累算手段で算出した複数の言語各々の累算確率セットに基づいて、最も高い基本確率値を有する累算確率セットの最低確率値が2番目に高い基本確率値を有する累算確率セットの最高確率値よりも所定値以上高いと判断した場合、当該最も高い基本確率値に対応する言語を、前記OCRデータが属する言語として識別する識別手段とを備えることを特徴とするデータ処理装置
  3. 前記識別手段で識別された言語を出力する出力手段更に含むことを特徴とする請求項1または2に記載のデータ処理装置
  4. 前記識別された言語の出力は、データを更に処理するために利用されることを特徴とする請求項に記載のデータ処理装置
  5. 前記識別手段では、前記言語の累算確率セットの基本確率値が前記所定の確率しきい値に達しない場合は、前記最も高い基本確率に対応する言語前記OCRデータが属する可能性がある言語として識別することを特徴とする請求項に記載のデータ処理装置
  6. 前記識別手段は前記最も高い基本確率値を有する累積確率セットの最低確率値が前記2番目に高い基本確率値を有する累算確率値セットの最大確率値以上 ないと判断した場合は、当該最も高い基本確率値に対応する言語と、最も高い基本確率値を有する累積確率セットの最低確率値より高い値の最高確率値を有する言語と、前記OCRデータが属する可能性がある言語として識別することを特徴とする請求項に記載のデータ処理装置
  7. 可能性がある複数の言語からユーザに手動的に分類を選択させる選択手段を更に有することを特徴とする請求項5または6に記載のデータ処理装置
  8. 前記最低確率値と前記最高確率値の各々を累算確率の基本確率値からの2つ以上の標準偏差として計算することを特徴とする請求項1または2に記載のデータ処理装置
  9. 前記各言語の辞書に保持される前記確率値を判定するために、
    a)言語が既知のトレーニング・データの単語あるいは文節を、順次、エレメントとして抽出して入力する工程と、
    b)前記順次入力されたエレメント確率値を計算する工程と、
    c)前記計算された確率値を記憶する工程と
    d)各言語毎にa)からc)の工程を反復する工程とを実行する予備手段を更に含むことを特徴とする請求項1または2に記載のデータ処理装置
  10. 前記順次入力されたエレメント確率値を計算する工程が、各エレメント出現頻度を判定する工程を含むことを特徴とする請求項9に記載のデータ処理装置
  11. 前記確率値は、ベイズの法則を用いて、
    p(l|t)={p(t|l)・p(l)}/p(t)
    によって算出され、ここで、
    p(l|t)はエレメントtが言語lである確率であり、
    p(t|l)は言語lにおけるエレメントtの確率であり、
    p(1)は言語の確率であり、
    p(t)はエレメント確率であることを特徴とする請求項9または10に記載のデータ処理装置
  12. ある言語が占有されている確率は全ての言語について同一であり、従って計算では無視されることを特徴とする請求項11に記載のデータ処理装置
JP33464997A 1996-12-04 1997-12-04 データ処理方法及び装置 Expired - Fee Related JP3950535B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB9625284.6A GB9625284D0 (en) 1996-12-04 1996-12-04 A data processing method and apparatus for identifying a classification to which data belongs
GB96252846 1996-12-04

Publications (2)

Publication Number Publication Date
JPH10232866A JPH10232866A (ja) 1998-09-02
JP3950535B2 true JP3950535B2 (ja) 2007-08-01

Family

ID=10803980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33464997A Expired - Fee Related JP3950535B2 (ja) 1996-12-04 1997-12-04 データ処理方法及び装置

Country Status (4)

Country Link
US (1) US6125362A (ja)
EP (1) EP0847018B1 (ja)
JP (1) JP3950535B2 (ja)
GB (1) GB9625284D0 (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336109B2 (en) * 1997-04-15 2002-01-01 Cerebrus Solutions Limited Method and apparatus for inducing rules from data classifiers
US7194471B1 (en) * 1998-04-10 2007-03-20 Ricoh Company, Ltd. Document classification system and method for classifying a document according to contents of the document
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6295387B1 (en) * 1999-05-27 2001-09-25 Lockheed Martin Corporation Method and apparatus for determination of verified data
DE60019301T2 (de) * 1999-07-21 2006-03-09 Lucent Technologies Inc. Verbesserte text-zu-sprache umsetzung
DE19963812A1 (de) * 1999-12-30 2001-07-05 Nokia Mobile Phones Ltd Verfahren zum Erkennen einer Sprache und zum Steuern einer Sprachsyntheseeinheit sowie Kommunikationsvorrichtung
GB2362238A (en) 2000-05-12 2001-11-14 Applied Psychology Res Ltd Automatic text classification
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
US6662168B1 (en) * 2000-05-19 2003-12-09 International Business Machines Corporation Coding system for high data volume
US6757584B2 (en) * 2000-07-19 2004-06-29 Prudsys Ag Device and method for generating a classifier for automatically sorting objects
US6751614B1 (en) * 2000-11-09 2004-06-15 Satyam Computer Services Limited Of Mayfair Centre System and method for topic-based document analysis for information filtering
US20020128858A1 (en) * 2001-01-06 2002-09-12 Fuller Douglas Neal Method and system for population classification
US6640009B2 (en) * 2001-02-06 2003-10-28 International Business Machines Corporation Identification, separation and compression of multiple forms with mutants
US7191116B2 (en) * 2001-06-19 2007-03-13 Oracle International Corporation Methods and systems for determining a language of a document
US20060004732A1 (en) * 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
US7340466B2 (en) * 2002-02-26 2008-03-04 Kang Jo Mgmt. Limited Liability Company Topic identification and use thereof in information retrieval systems
US7716207B2 (en) * 2002-02-26 2010-05-11 Odom Paul S Search engine methods and systems for displaying relevant topics
JP3726263B2 (ja) * 2002-03-01 2005-12-14 ヒューレット・パッカード・カンパニー 文書分類方法及び装置
RU2251737C2 (ru) * 2002-10-18 2005-05-10 Аби Софтвер Лтд. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
US7386438B1 (en) * 2003-08-04 2008-06-10 Google Inc. Identifying language attributes through probabilistic analysis
US7184929B2 (en) * 2004-01-28 2007-02-27 Microsoft Corporation Exponential priors for maximum entropy models
JP4504702B2 (ja) * 2004-02-25 2010-07-14 株式会社リコー 文書処理装置、文書処理方法、および文書処理プログラム
JP2005255389A (ja) * 2004-03-15 2005-09-22 Fuji Photo Film Co Ltd プリンタ
US7865355B2 (en) * 2004-07-30 2011-01-04 Sap Aktiengesellschaft Fast text character set recognition
WO2006017495A2 (en) * 2004-08-02 2006-02-16 Market Central, Inc. Search engine methods and systems for generating relevant search results and advertisements
US8027832B2 (en) 2005-02-11 2011-09-27 Microsoft Corporation Efficient language identification
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
WO2007050646A2 (en) * 2005-10-24 2007-05-03 Capsilon Fsg, Inc. A business method using the automated processing of paper and unstructured electronic documents
WO2007064639A2 (en) * 2005-11-29 2007-06-07 Scientigo, Inc. Methods and systems for providing personalized contextual search results
US8290270B2 (en) * 2006-10-13 2012-10-16 Syscom, Inc. Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text
US9020811B2 (en) 2006-10-13 2015-04-28 Syscom, Inc. Method and system for converting text files searchable text and for processing the searchable text
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US9292737B2 (en) * 2008-01-18 2016-03-22 Mitek Systems, Inc. Systems and methods for classifying payment documents during mobile image processing
US10528925B2 (en) 2008-01-18 2020-01-07 Mitek Systems, Inc. Systems and methods for mobile automated clearing house enrollment
US9842331B2 (en) 2008-01-18 2017-12-12 Mitek Systems, Inc. Systems and methods for mobile image capture and processing of checks
US8983170B2 (en) 2008-01-18 2015-03-17 Mitek Systems, Inc. Systems and methods for developing and verifying image processing standards for mobile deposit
US20090287471A1 (en) * 2008-05-16 2009-11-19 Bennett James D Support for international search terms - translate as you search
US8160365B2 (en) * 2008-06-30 2012-04-17 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8261186B2 (en) * 2009-01-02 2012-09-04 Apple Inc. Methods for efficient cluster analysis
WO2011053325A1 (en) * 2009-10-31 2011-05-05 Hewlett-Packard Development Company, L.P. Determining probability that an object belongs to a topic using sample items selected from object and probability distribution profile of the topic
US10891475B2 (en) 2010-05-12 2021-01-12 Mitek Systems, Inc. Systems and methods for enrollment and identity management using mobile imaging
US20110289089A1 (en) * 2010-05-18 2011-11-24 Mariana Paul Thomas Negative space finder
US8543911B2 (en) 2011-01-18 2013-09-24 Apple Inc. Ordering document content based on reading flow
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
US9934218B2 (en) * 2011-12-05 2018-04-03 Infosys Limited Systems and methods for extracting attributes from text content
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9536139B2 (en) 2013-03-15 2017-01-03 Mitek Systems, Inc. Systems and methods for assessing standards for mobile image quality
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9372848B2 (en) * 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US10162811B2 (en) * 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
US10180935B2 (en) * 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
WO2019060353A1 (en) 2017-09-21 2019-03-28 Mz Ip Holdings, Llc SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES
CN109858006B (zh) * 2017-11-30 2021-04-09 亿度慧达教育科技(北京)有限公司 科目识别训练方法、装置
US11393272B2 (en) 2019-09-25 2022-07-19 Mitek Systems, Inc. Systems and methods for updating an image registry for use in fraud detection related to financial documents
US20240303598A1 (en) * 2021-11-02 2024-09-12 Koireader Technologies, Inc. System and methods for performing order cart audits

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3988715A (en) * 1975-10-24 1976-10-26 International Business Machines Corporation Multi-channel recognition discriminator
DE2931466C2 (de) * 1979-08-02 1981-07-30 Siemens AG, 1000 Berlin und 8000 München Meßgerät zur Ermittlung des Ortes eines Isolationsfehlers
US4654875A (en) * 1983-05-23 1987-03-31 The Research Foundation Of State University Of New York System to achieve automatic recognition of linguistic strings
US5251268A (en) * 1991-08-09 1993-10-05 Electric Power Research Institute, Inc. Integrated method and apparatus for character and symbol recognition
CA2158849C (en) * 1993-03-25 2000-09-05 Kevin Joseph Power Speech recognition with pause detection
US5377280A (en) * 1993-04-19 1994-12-27 Xerox Corporation Method and apparatus for automatic language determination of European script documents
US5660176A (en) * 1993-12-29 1997-08-26 First Opinion Corporation Computerized medical diagnostic and treatment advice system
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system

Also Published As

Publication number Publication date
US6125362A (en) 2000-09-26
EP0847018B1 (en) 2002-11-13
GB9625284D0 (en) 1997-01-22
EP0847018A1 (en) 1998-06-10
JPH10232866A (ja) 1998-09-02

Similar Documents

Publication Publication Date Title
JP3950535B2 (ja) データ処理方法及び装置
US7412093B2 (en) Hybrid apparatus for recognizing answer type
KR970008023B1 (ko) 사전검색장치
US8185376B2 (en) Identifying language origin of words
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
US7937263B2 (en) System and method for tokenization of text using classifier models
US7917350B2 (en) Word boundary probability estimating, probabilistic language model building, kana-kanji converting, and unknown word model building
KR100630886B1 (ko) 문자 스트링 식별
Vivaldi et al. Improving term extraction by system combination using boosting
CN112926345B (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
JPH11328317A (ja) 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
Lehal et al. A shape based post processor for Gurmukhi OCR
CN114298048A (zh) 命名实体识别方法及装置
Nagata Japanese OCR error correction using character shape similarity and statistical language model
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
CN112071304B (zh) 一种语意分析方法及装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
CN111488757B (zh) 用于对图像的识别结果进行分割的方法和设备及存储介质
JPH11328318A (ja) 確率テーブル作成装置、確率方式言語処理装置、認識装置、及び、記録媒体
KR100376032B1 (ko) 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법
JP3043625B2 (ja) 単語分類処理方法、単語分類処理装置及び音声認識装置
Bastrup et al. Language detection based on unigram analysis and decision trees
CN115688763A (zh) 一种单位名称一致性的判别方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041206

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20041206

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070423

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110427

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130427

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130427

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140427

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees