JPH10232866A

JPH10232866A - データ処理方法及び装置

Info

Publication number: JPH10232866A
Application number: JP9334649A
Authority: JP
Inventors: David Elworthy; エルワーシーデービッド
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-12-04
Filing date: 1997-12-04
Publication date: 1998-09-02
Anticipated expiration: 2017-12-04
Also published as: EP0847018A1; EP0847018B1; GB9625284D0; US6125362A; JP3950535B2

Abstract

(57)【要約】【課題】データが属する分類を識別する際に従来技術よ
りもその分類精度を向上させる。【解決手段】少なくとも幾つかが複数の分類に共通であ
る複数の特徴を備えたデータが属する分類を識別するデ
ータ処理方法と装置とを開示する。データの特徴は順次
エレメントとして抽出され、データが属する分類が識別
されるまで順次入力される。エレメントは各分類のエレ
メントの所定の確率値と比較されて、エレメントがある
分類に属する確率が判定される。確率は累算され、各分
類の累積確率が算出され、累積確率からデータが属する
分類が識別される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データが属する分類を
識別するためのデータ処理方法またはデータ処理装置に
関する。

【０００２】

【従来の技術】データを種々の分類に分類でき、データ
が属する分類を識別できることが望ましい用途は多数あ
る。

【０００３】このような用途の１つに、例えば、手紙、
メモおよび論文のような文書を選別してカタログ分類
し、異なる位置に記憶する電子文書処理がある。従って
文書を認識し、かつ識別してそれらを別に処理できるよ
うなシステムを提供することが望ましい。

【０００４】更に、文書を選別もしくは分類できるよう
に、主題によって認識できれば極めて有利であろう。

【０００５】データ分類の識別が必要な別の分野とし
て、音声認識および光学式文字認識の分野がある。これ
らの双方のタイプのデータ処理では、処理を簡略化する
ためにデータを解析し、これを分類することが有利であ
ろう。例えば、データを解析して科学または法律のよう
な分野を判定したり、またはデータを解析して音声また
はテキストの属する言語を判定することが可能であろ
う。

【０００６】自動言語識別の課題は既にＰ．シブンと
Ａ．Ｌ．スピッツ（P Sibun & A L Spitz）の両氏の論
文によって提起されている（「言語判定：走査された文
書画像からの自然言語処理」第４回応用自然言語処理学
会の会報１５〜２１ページ。コンピュテーション言語学
学会）。従来の光学式文字認識（ＯＣＲ）では、言語モ
デルがＯＣＲシステムの精度を高めることができる。し
かし、言語モデルを利用するには、テキストの言語が判
明していることが必要である。これは勿論、一般にテキ
ストの認識なしでは不可能である。しかし、シブン氏と
スピッツ氏の論文では、走査された画像中の語の簡単な
表現であり、各文字の形状の概略的な記述である語形ト
ークン（word shape token）を用いて正確な言語識別を
達成可能であることが示されている。このように、“背
が高い”文字（例えばｈ、ｋおよびｌ）を全て１つの分
類に区分し、尻尾がある文字（例えばｇやｙ）を全て第
２の分類に区分し、点がある文字（例えばｉ）を全て第
３の分類に区分し、小さい文字（例えばａ、ｎおよび
ｚ）を第４の分類に区分する等が可能である。このよう
にして、フルスケールのＯＣＲを必要とせずに低い誤差
率で文字の形状認識を行うことが可能である。このよう
な文字形状を利用して、シブン氏とスピッツ氏は線形判
別解析（ＬＤＡ：Linear Discriminate Analysis）に基
づく統計モデルを用いて最も公算が高い言語を確定する
言語識別子を開発した。試験用に収集された２３言語に
応用した場合、彼らの方法によって正しい言語が割当て
られた文書数の割合は９１％に達した。オランダ語／ア
フリカ語、およびフランス語／スペイン語／イタリア語
／ポルトガル語／ルーマニア語のような関連言語では多
くのエラーが発生した。シブン氏とスピッツ氏による方
法の問題点の１つは、自動言語識別を行うためにテキス
トの全てを解析しなければならないことにある。シブン
氏とスピッツ氏による方法のもう１つの問題点は、モデ
ルからいずれかの言語を除去すると残りの言語の精度が
低下する場合があることにある。

【０００７】別の方法がシブン氏とＪ．Ｃ．レーナー氏
（J C Reynar）によって提案されている（「刊行物の吟
味」文書解析と情報検索に関する第５回年次シンポジウ
ム会報、１２５ページから１３６ページ。ラスベガス、
ネバタ大学）。この方法は単一文字の形状トークン（ユ
ニグラム：unigrams）、または隣接する一対の文字の形
状トークン（バイグラム：bigrams）の分布に関する統
計の収集に基づいている。認識試験は各言語の試験セッ
トおよびトレーニング・セット中のユニグラムまたはバ
イグラムの分布確率同士の関係性に基づいている。１８
言語での試験では、トレーニングおよび試験セット中の
データ行の数に応じてユニグラムは７７％〜９９％の精
度を達成し、バイグラムでは９０％〜１００％の精度を
達成している。この方法は、モデルから言語を除去して
も影響されず、僅か３言語を含む試験では大幅に優れた
精度を達成している。しかし、シブン氏とスピッツ氏に
よる方法よりは度合いは低いものの、類似言語は依然と
して多くのエラー源になっている。

【０００８】

【発明が解決しようとする課題】本発明の目的は、デー
タが属する分類を識別する際に従来技術よりもその分類
精度を向上させたデータ処理方法と装置とを提供するこ
とにある。

【０００９】

【課題を解決するための手段】本発明の一態様によれ
ば、複数の特徴を備え、それら特徴の少なくとも一部が
複数の分類に共通であるデータが属する分類を識別する
ためのデータ処理方法であって、データの特徴を順次エ
レメントとして抽出し、データが属する分類が識別され
るまで順次エレメントとエレメント群とを順次に入力す
る工程と、各群またはエレメント群について、エレメン
トまたはエレメント群を各分類のエレメントまたはエレ
メント群の所定の確率値と比較して、エレメントまたは
エレメント群がある分類に属する確率を判定する工程
と、確前記率を累算して、各分類毎に累算確率を算出す
る工程と、前記累算確率からデータが属する分類を識別
する工程とからなる方法が提供される。

【００１０】本発明の第２の態様によれば、少なくとも
幾つかが複数の分類に共通である複数の特徴を備えたデ
ータが属する分類を識別するデータ処理装置であって、
データの特徴を順次エレメントとして抽出し、データが
属する分類が識別されるまで順次エレメントとエレメン
ト群とを順次に入力する入力手段と、各分類のエレメン
トまたはエレメント群の所定の確率値を記憶するための
記憶手段と、各エレメントまたはエレメント群を各分類
の前記所定の確率値と順次比較して、エレメントまたは
エレメント群がある分類に属する確率を判定するための
比較手段と、前記確率を累算して各分類毎に累算確率を
算出するための累算手段と、前記累算確率からデータが
属する分類を識別する識別手段と、を備えてなるデータ
処理装置が提供される。

【００１１】識別された分類は累算確率とともに出力さ
れ、データを更に処理するために利用できる。例えば、
データが異なる分類に属し、異なる方法で処理する必要
がある場合は、識別された分類を利用してデータで実行
されるべき処理動作を選択することができる。

【００１２】本発明の一実施形態によれば、累算確率が
所定の確率しきい値に達した場合は、その分類はデータ
が属する分類であるものと識別される。

【００１３】また、分類の累算確率が所定の確率しきい
値に達し、かつその分類の累算確率が他の各々の分類の
累算確率よりも所定量だけ大きい場合には、その分類を
入力されたデータの属する分類として識別することがで
きる。

【００１４】また、分類の累算確率が所定の確率しきい
値に達しない場合は、最高の累算確率を有する分類の幾
つかをデータがそれに属する可能性がある分類として識
別することができる。

【００１５】また、一実施形態では、確率と累算確率の
各々は、所定の信頼範囲内において取り得るであろう最
低確率値、所定の信頼範囲内において取り得るであろう
最高確率値、および最も公算が高い確率値である基本値
を備え、分類の累算確率の基本値が前記所定の確率しき
い値に達した場合、当該分類が入力されたデータの属す
る分類として識別される。また、分類の累算確率の基本
値が前記所定の確率しきい値に達し、かつ分類の累算確
率値の最低確率値が他の各分類の累算確率値の最高確率
値以上である場合にのみ、分類を入力されたデータがそ
れに属する分類として識別してもよい。

【００１６】また、分類の累算確率の基本値が所定の確
率しきい値に達しない場合は、累算確率の最高の基本値
を有する分類の幾つかをデータがそれに属する可能性が
ある分類として識別することができる。

【００１７】また、最高の基本値を有する分類の累算確
率の最低確率値が他の各分類の累算確率値の最大値確率
値未満となる場合は、最高の基本値を有する分類の最低
確率値以上である最高確率値を有する分類をデータが属
する可能性がある分類として識別することができる。

【００１８】本発明の別の実施形態では、累算確率が他
の各々の分類の累算確率よりも所定量だけ大きい場合に
は、その分類を入力されたデータがそれに属する分類と
して識別することができる。

【００１９】また、最高の累算確率と他の各分類の累算
確率との差が前記所定量よりも大きくない場合は、最高
の累算確率を有する分類の幾つかをデータが属する可能
性がある分類として識別することができる。

【００２０】また、確率と累算確率の各々が、所定の信
頼範囲内において取り得るであろう最低確率値、所定の
信頼範囲内において取り得るであろう最高確率値、およ
び最も公算が高い確率値である基本値を備え、分類の累
算確率の基本値が他の分類の累算確率の基本値以上であ
る場合は、その分類をデータが属する分類として識別す
ることができる。

【００２１】また、分類の幾つかがデータが属する可能
性がある分類として識別された場合、ユーザは可能性が
ある分類から１つの分類を手動的に選択することができ
る。

【００２２】また、識別の実施形態では、累算確率の最
低確率値と最高確率値とが、当該累算確率の基本値から
の２つ以上の標準偏差として計算される。それによって
少なくとも９５％の信頼度が得られる。

【００２３】入力されるエレメントは別個の順次エレメ
ント、または別個の順次エレメント群であることができ
る。所定の確率値とは個々のエレメントまたはエレメン
ト群がある分類に属する確率を定義する確率値である。

【００２４】データの特徴はデータの特徴を順次エレメ
ントとしてコード化することによって抽出することがで
きる。コード化によってデータ内の異なる特徴の数と比
較して異なるエレメント数を減少することができる。

【００２５】あるいは、データの特徴を直接利用できる
場合は、この特徴を備えたデータ内の各エレメントを識
別することによって簡単に抽出することができる。

【００２６】各エレメントまたは順次エレメント群の出
現頻度を判定することができ、この出現頻度は順次エレ
メントまたはエレメント群の確率値を計算するために利
用できる。

【００２７】順次エレメントの所定の確率値は、全ての
分類についてデータ入力内でのエレメントまたはエレメ
ント群の出現確率を計算し、当該分類の出現確率をプリ
セットされたレベルに設定し、ある分類に出現するエレ
メントの確率を計算することによって計算できる。この
ような計算は、ｐ（ｌ｜ｔ）＝｛ｐ（ｔ｜ｌ）・ｐ（ｌ）｝／ｐ（ｔ）であるベイズの法則によって行うことができる。但し、
ｐ（ｌ｜ｔ）は所定のエレメントまたはエレメント群の
分類の確率であり、ｐ（ｔ｜ｌ）は所定の分類のエレメ
ントの確率であり、ｐ（ｌ）は分類の確率であり、ｐ
（ｔ）はエレメントまたはエレメント群の確率である。

【００２８】ある用途では、分類の出現確率は全ての分
類について同一であり、従って計算では無視することが
できる。

【００２９】所定の確率値は、取り得るであろいう最低
確率値と、取り得るであろう最高確率値と、最も公算が
高い確率値を示す基本値を備える。最低確率値と最高確
率値とを基本値の所定の信頼範囲内にある確率値として
計算することができる。好適には、９５％の高い信頼範
囲が用いられ、従って最低確率値と最高確率値は正規分
布の仮定に基づく基本値の２つ以上の標準偏差内にあ
る。トレーニング・データを入力データ内に出現する公
算があるエレメントの代表的な範囲を正当に含むように
設計することも可能であるが、場合によっては、これは
トレーニング・データが可能性がある全てのエレメント
またはエレメント群を含むことを確実にするには実際的
ではない。このような環境では、トレーニング・データ
内に出現しないエレメントまたはエレメント群の確率値
は各分類毎に計算される。それによってトレーニング・
データ内のいずれかのエレメントまたはエレメント群に
対応しない入力エレメントまたはエレメント群の省略時
の確率が得られる。

【００３０】本発明は異なる多くの種類のデータの分類
に利用することができる。入力データは例えばＯＣＲデ
ータ、または音声認識データであることができ、このよ
うな認識中に通常生成される特徴ベトクルを演算してエ
レメントまたはエレメント群を構成することにより、デ
ータの特徴を抽出することができる。このようなシステ
ム内のエレメントは個々の文字または音素であってよ
く、また、エレメント群は例えば語や発音であってよ
い。あるいは、特徴は語群または発音群のような高レベ
ル構造であってもよいであろう。ＯＣＲデータの場合、
エレメント群は更に例えばシブン氏とスピッツ氏が用い
ているバイグラム（bigrams）またはトリグラム（trigr
ams）であってもよい。データ処理によって例えば言
語、またはテキストまたはスピーチの主題のような、デ
ータが属する任意の分類を識別することができる。

【００３１】本発明の方法を用いて、電子形式の文書の
属する分類を識別することができ、このような文書の自
動的な選別が可能になる。そのような文書は、例えば手
紙、メモまたは論文のような文書の種類、または法律や
科学のような主題別に分類することができる。文書の種
類は例えば段落の位置および形状の双方または一方のよ
うな文書のレイアウトからも識別することができる。文
書の主題は文書内のある語の出現を識別し、これらの語
を種々の周知の分類中でのこれらの文書の出現確率と比
較することによって識別することができる。文書の分類
ではエレメント群はページであることができる。

【００３２】本発明は更に画像を分類できる画像または
パターン認識にも応用できる。

【００３３】このように本発明は、少なくとも一部が複
数の分類に共通である複数の特徴を備えた広範な種類の
入力データに応用できる。

【００３４】本発明によって、データの特徴は順次解析
され、例えば確率しきい値を越えたといったような信頼
性によって分類を識別することができた時点で、識別さ
れた分類を即座に出力することができる。このため、迅
速な識別プロセスが可能である。このように、多くの場
合、データの全てを解析する必要がないので、分類の識
別プロセスはシブン氏とスピッツ氏の方法よりも著しく
迅速である。

【００３５】本発明の別の利点は、識別された分類の判
定は確率しきい値を越えた場合だけ出力されることにあ
る。このように本発明の実施形態に基づいて、判定の信
頼性が高い場合だけ判定が行われる。それによって、誤
り範囲または信頼範囲内に幾つかの同類の分類があるの
で、シブン氏とスピッツ氏のシステムで生ずるような誤
りである分類に関して判定が行われることが回避され
る。

【００３６】

【発明の実施の形態】次に本発明の実施形態を添付図面
を参照して説明する。

【００３７】図１は本発明の一実施形態に基づく代表的
なデータ処理システムを示している。データはパーソナ
ル・コンピュータにおいてコンピュータ・プログラムが
作動することにより処理される。後述するフローチャー
トに示す処理も、このコンピュータプログラムに従って
実行される。コンピュータ・プログラムは内蔵のハード
ディスクドライブに記憶しておくことができ、またはフ
ロッピー・ディスク３、或いは書き込み可能なＣＤのよ
うなコンピュータ読出し可能な記憶媒体でコンピュータ
１に転送することができる。処理用のデータはＯＣＲデ
ータの場合にはスキャナ（Scanner）２のような入力装
置から入力することができる。しかし、データはモデム
（図示せず）のような任意の適当な入力装置、またはフ
ロッピー・ディスク３或いはＣＤのようなコンピュータ
読出し可能な記憶媒体によっても入力することができ
る。処理対象のデータ処理結果及び識別結果は、例えば
コンピュータ１のディスプレイ１ａ、或いはレーザ・プ
リンタ（Laser printer）４のような出力装置に出力す
ることができる。更に、識別結果を利用して、データの
処理方法を判定することもできる。異なる分類に属する
データを別々に処理する必要がある場合は、識別結果を
利用して必要な別々の処理を適用することが可能であ
る。このように、例えば入力データがＯＣＲデータであ
り、識別されるべき分類がＯＣＲデータの言語の種類で
ある場合は、識別された言語の種類を利用して特定のラ
イブラリまたはモデルを当該データのＯＣＲ処理に利用
することができる。

【００３８】図２は図１のシステムの内部構成を概略的
に示している。バス１４はシステムの全ての素子を連結
して、素子間での通信を可能にする。ディスプレイ装置
（DISPLAY DEVICE）１０がバス１４に接続され、データ
の表示を可能にする。記憶装置（STORAGE DEVICE）１６
から検索可能であり、ランダムアクセスメモリ（ＲＡ
Ｍ）１３に一時的に記憶されているデータを処理するた
めに中央処理装置１１が備えられている。読出し専用メ
モリ（ＲＯＭ）１２も備えられ、これらは一般にこのシ
ステムの基本入出力システム（ｂｉｏｓ）を含んでい
る。データやコマンドを入力するためのキーボード（KE
YBOARD）１７が備えられている。入力装置（INPUT DEVI
CE）１８は処理されるデータを入力し、出力装置（OUTP
UT DEVICE）１５は処理済のデータを出力する。

【００３９】図３は本発明の実施形態の基本動作のフロ
ーチャートである。ステップＳ１で、データがシステム
に入力される。ステップＳ２で、データ内のエレメント
を単に識別することによって、またはデータの特徴をエ
レメントとしてコード化することによってデータ・エレ
メントが抽出される。ステップＳ３で、抽出されたデー
タ・エレメントがデータ分類のために順次入力され、ス
テップＳ４で、入力されたエレメントを各分類のエレメ
ントの所定の確率値と比較して、入力されたエレメント
がその分類に属する確率を決定することにより、データ
が分類される。確率は累算されて各分類の累算確率が算
出され、この累算確率からデータが属する分類を識別す
ることができる。

【００４０】こうしてＳ４で得られた分類は、データの
更なる処理のために利用できる。ステップＳ５で、識別
された分類がデータ処理プロセスに入力され、ステップ
Ｓ６でデータが読出され、識別された分類に従って処理
される。

【００４１】図４は本発明の一実施形態に基づく分類の
識別の概略機能図である。データエレメント抽出部（Da
ta Element Extractor）２０で、データ・エレメントが
抽出され、分類のための各々の確率ライブラリ２１ａ、
２１ｂ、２１ｃ．．．２１Ｌのそれぞれに入力される。
ある分類に属するエレメントのそれぞれの確率はそれぞ
れの確率ライブラリ２１ａ、２１ｂ、２１ｃ…２１Ｌ
（Probability Libraryfor Classification 1-L）から
それぞれの累算器２２ａ、２２ｂ、２２ｃ…２２Ｌ（Ac
cumulator 1-L）に出力される。累算器２２ａ、２２
ｂ、２２ｃ…２２Ｌは確率を累算し、それを累算確率の
比較のために比較器（Comparator）２３に出力して、累
算確率信頼性を以て分類を識別できる場合にはその旨を
判定する。

【００４２】ここでＯＣＲデータの言語識別に応用され
る図５から図１６を参照して本発明の特定の実施形態を
説明する。

【００４３】図５は言語識別システムの概略機能図であ
る。トークナイザ（Tokeniser）２４は語トークン（wor
d token）をなすエレメント群を構成するために、文字
をトークナイズ（tokenize）してＯＣＲデータの特徴を
抽出する。このトークナイズとは、データをエレメント
或いはエレメント群に分析する処理である。それにはシ
ブン氏＆スピッツ氏、およびシブン氏＆レーナー氏の論
文に記載されている方法を利用できる。ここで、トーク
ンは、語彙辞書に格納されていることが予測される文字
列の単位であり、単語或いは文節である。語トークンは
次にＯＣＲデータが属する言語のための各々の語彙辞書
２５ａ、２５ｂ、２５ｃ…２５Ｌ（Lexicon 1-L）に入
力される。語彙辞書２５ａ、２５ｂ、２５ｃ…２５Ｌは
語トークンがその言語に属する所定の確率値を備える。
語彙辞書２５ａ、２５ｂ、２５ｃ…２５Ｌから出力され
た確率値は、それぞれの累算器２６ａ、２６ｂ、２６ｃ
…２６Ｌ（Accumulator 1-L）に入力され、そこで順
次、語トークンが累算されて、累算確率が算出される。
各累算器２６ａ、２６ｂ、２６ｃ…２６Ｌの累算確率は
比較器（Comparator）２６に入力され、この比較器２６
で確率が互いに、また所定のしきい値と比較されること
によりその信頼性が判定され、ＯＣＲデータが属する言
語として一意的に識別できるか否かが判定される。

【００４４】言語の識別を実行可能とするために、語彙
辞書のトレーニング（学習）を行わなければならない。
語彙辞書のトレーニングにおいては、正しい言語が判明
している文書に対して先に述べたトークナイズの処理を
実行し、その言語のトークンの頻度分布が生成される。
次にその言語の確率分布が計算される。１つの言語の確
率モデルを他の言語とは独立させることにより、各言語
に同じ量のトレーニング・データを用いる必要はない。

【００４５】導出すべき確率は所定のトークンｔが言語
ｌの要素である確率であり、ｐ（ｌ｜ｔ）として記述す
る。すなわち所定のトークンが、与えられている言語で
ある確率であり、ベイズの法則によれば、以下の式のよ
うになる。

【００４６】

【数１】

【００４７】但し、ｐ（ｔ｜ｌ）は所定の言語ｌのトー
クンｔの確率であり、ｐ（ｌ）は言語のアプリオリ（演
繹的）な確率値であり、ｐ（ｔ）はトークンのアプリオ
リ（演繹的）な確率値である。トレーニング・データか
らｐ（ｔ｜ｌ）、ｐ（ｌ）およびｐ（ｔ）を見積もるに
は多くの方法がある。本発明の実施形態ではそのような
方法の１つを用いる。

【００４８】全ての言語の確率が等しいものと仮定す
る。その場合、ｐ（ｌ）は任意のｌと任意のｔについて
ｐ（ｌ｜ｔ）を計算する定数である。ｐ（ｌ｜ｔ）の絶
対的な値は必要ないので、ｐ（ｌ）を式（１）から削除
することができる。

【００４９】トレーニング・データからｐ（ｔ｜ｌ）と
ｐ（ｔ）の双方を計算する手順は次のとおりである。与
えられたトークンｔについて、ｍをトレーニング・デー
タ中のそのトークンの頻度とし、ｎをトークンの総数と
する。双方のカウントとも、ｐ（ｔ｜ｌ）については与
えられた言語の総数であり、ｐ（ｔ）については全ての
言語の総数である。基本確率（ｐBで表す）、低確率
（ｐLで表す）、および高確率（ｐHで表す）と呼ばれる
３つの確率が計算される。これらの確率は所定の信頼限
度内でトークンが出現する確率を表している。このよう
に、ｐLはそのトークンが取り得る最も低い確率であ
り、ｐHは最も高い確率であり、ｐBは通常、信頼範囲の
中心、またはその近くにある確率値である。ｐBをどの
ように決めるかは、予めルールを定めておく。範囲全体
を用いることもできるが、本実施形態ではｐ（ｔ）につ
いて基本確率だけを用いている。

【００５０】確率計算はトレーニング・データ内でのト
ークンの出現頻度に応じて異なる。高頻度、中間頻度、
低頻度およびゼロのそれぞれの範囲が用いられる。どの
分類を用いるべきかの決定はｍの値に基づいてなされ
る。高頻度計算は中間頻度計算よりも幾分か近似した形
式であり、計算はギリギリまで少なくて済む。低頻度計
算はより集約的な計算であるが、近似性は低い。ゼロ頻
度補償はトレーニング・データにはないが、入力データ
に出現するかも知れないトークンの場合に用いられる。

【００５１】確率は二項分布に従うものと仮定する。こ
れを正当化するのは各トークンの出現をトークンｔであ
るか、ｔではない“事象（event）”として扱うことで
ある。観察したトークンの頻度に基づいて、次にこの多
くの“事象”、すなわちトークンの出現を導いたであろ
う二項分布の基礎となる確率が計算される。

【００５２】高頻度の場合、基礎となる確率ｐで二項分
布のｎ回の試みでの平均“成功”数の標準的な結果は下
記の式（２）によって得られる。

【００５３】

【数２】

【００５４】μを観察された出現数ｍに等しく設定する
と、ｐは下記の式（３）から得られる。

【００５５】

【数３】

【００５６】出現数の標準偏差は下記の式（４）から算
出される。

【００５７】

【数４】

【００５８】最低および最高の確率ｐLおよびｐHを計算
するため、基本値ｐBからのｄ個の標準偏差が導入さ
れ、下記の式（５）、（６）のようになる。

【００５９】

【数５】

【００６０】

【数６】

【００６１】この実施形態では、標準偏差ｄの数は２に
設定され、それによって確率には９５％の信頼性が得ら
れる。

【００６２】中間頻度範囲のトークンの場合、式（５）
の右項に低確率を代入することによって、すなわち、式
（７）で示される計算によって、確率ｐLはより正確に
なる。

【００６３】

【数７】

【００６４】式（７）のｐLの値は、確率値ｐLが低いも
のと仮定し、ひいては（１−ｐL）がほぼ１に等しいも
のと仮定することによって解くことができる。そこで、
確率計算は、式（８）の二次方程式を解くことになる。

【００６５】

【数８】

【００６６】最初の場合のように、９５％の信頼性を得
るためにｄを２と設定する。同様の理由から、確率値ｐ
Hは下記の式（９）のようになる。

【００６７】

【数９】

【００６８】基本値は高確率の場合と同様に計算され
る。

【００６９】低頻度については、正確に二項展開を解
く。二項分布を定義することは、基礎となる確率をｐ、
全試行回数をｎ回とした確率分布からｍの成功事象の確
率を（１０）式によって与える。

【００７０】

【数１０】

【００７１】ｐの値は小さいので、（１−ｐ）の項は１
であると概算することができる。９５％の信頼範囲の場
合、方程式はｐ（ｍ）＝０．０２５、ｐ（ｍ）＝０．
５、およびｐ（ｍ）＝０．９７５について解かれ、ｐ
L、基本確率ｐBおよびｐHがそれぞれ算出される。例え
ば基本確率については下記の式（１１）のようになる。

【００７２】

【数１１】

【００７３】また、未知の事象の確率計算のための特殊
な場合、すなわちトレーニング・データにトークンが現
れない場合にも対処しなければならない。これはいわゆ
る上記のゼロ確率である。低頻度の場合に用いられる方
法は単純にｍ＝０に従うことはできない。何故ならば、
そうすると低確率（２．５％レベル）が高確率（９７．
５％）以上になる不合理な状況になるからである。その
理由は方程式が下記の式（１２）のように可約されるか
らである。

【００７４】

【数１２】

【００７５】但しｔは０．０２５または０．９７５であ
るしきい値である。その代わりに低い値と高い値を等し
く設定する近似式が用いられ、これらはｔ＝０．９５と
した、すなわちｐについて計算された値で９５％の信頼
性があるポイントで式（１２）から計算される。これは
ｐ（ｔ）のゼロ確率の場合の計算と同様である。

【００７６】計算は対数を導入することによって、乗算
の項を加算に変換し、べき乗計算及び根計算を乗算と除
算とに変換することで最良に行われる。それによって数
値の桁あふれ、および下位桁あふれの問題も回避するこ
とができる。

【００７７】ここでトレーニング動作で行われるステッ
プを図６ａ、図６ｂおよび図６ｃのフローチャートを参
照して詳細に説明する。但し、ｍはある言語に含まれる
語の頻度であり、Ｍは全ての言語に含まれる語の頻度で
あり、ｎはある言語に含まれる全ての語の全頻度であ
り、Ｎは全ての言語に含まれる全ての語の全頻度であ
る。

【００７８】ステップＳ１０でＮとＭがゼロに設定され
る。ステップＳ１１でトレーニング用の言語が選択さ
れ、ステップＳ１２でｍとｎがゼロに設定される。ステ
ップＳ１３で最初の語トークンが読込まれ、ステップＳ
１４でその語トークンのカウントが増分される。ステッ
プＳ１５で語トークンがその言語の累算器テーブルに存
在するか否かが判定される。勿論、最初の語トークンの
場合がそうであるように、語トークンが累算器テーブル
に存在しない場合は、ステップＳ１６で、言語に含まれ
る語の頻度を１として、すなわちｍ＝１として、当該語
トークンが累算器テーブルに追加される。語トークンが
累算器テーブル内にあるものと判定されると、ステップ
Ｓ１７でその言語に含まれる語の頻度を表わすｍのうち
の前記語トークンに対応するｍが１つ加算される。

【００７９】ステップＳ１８で、語トークンが全体テー
ブルに存在するか否かが判定される。語トークンが存在
しない場合は、語トークンが全体テーブルに追加され、
当該語トークンに対応する頻度Ｍが１に設定される。全
体テーブルに語のトークンが存在する場合は、語のトー
クンの頻度ＭがステップＳ２０で増分される。次にステ
ップＳ２１で、他に語トークンがあるか否かが判定さ
れ、ある場合には処理はＳ１３に戻って次の語トークン
が読出される。ある言語の語トークンの全てが読出され
たとステップＳ２２で判定された場合は、トレーニング
・データを読出すべきそれ以上の言語があるか否かが判
定される。更に別の言語向けにトレーニング・データを
読出すべき場合は、プロセスはＳ１１に戻る。当該言語
向けにそれ以上のトレーニング・データがない場合は、
頻度ｍ、Ｍ、ｎ、およびＮの値は全て決定されており、
そこでプロセスは確率を判定するプロセスに進むことが
できる。

【００８０】図６ｂに示したステップＳ２３からステッ
プＳ２９までのステップは全体テーブル内の各々の語ト
ークンについて繰り返される。ステップＳ２４で、言語
に含まれる語トークンの全頻度（Ｍ）が１０未満である
か否かが判定される。そうである場合は、ステップＳ２
５でｐ（ｍ）が０．５に設定され、ステップＳ２６で式
（１１）を用いて全体テーブル内の語トークンの確率が
計算される。Ｍが１０未満ではない場合は、ステップＳ
２７で全体テーブル内の語トークンの確率がＭ／Ｎから
計算される。次にステップＳ２８でＭ＝０である場合の
全体テーブル内の語のトークンの確率が下記の式（１
３）により計算される。

【００８１】

【数１３】

【００８２】次にステップＳ２４からＳ２８が全体テー
ブル内の語の各々トークンについて反復されて確率値ｐ
L（ｔ）、ｐB（ｔ）およびｐH（ｔ）が算出される。

【００８３】次に処理は図６ｃに進み、そこで各累算器
テーブル内の各々の語のトークンの確率が計算される。
ステップＳ３１からＳ３８は１つの累算器テーブル内の
各語トークンについて反復され、ステップＳ３０からＳ
４１が各累算器テーブルについて反復される。ステップ
Ｓ３２で、ｍが１０未満であるか否かが判定され、そう
である場合は、ステップＳ３３でｐ（ｍ）＝０．０２
５、０．５および０．９７５の場合に関して低確率、基
本確率、および高確率がそれぞれ下記の式（１４）によ
って計算される。

【００８４】

【数１４】

【００８５】ｍが１０未満でない場合、ステップＳ３４
でｍが１０００００未満であるか否かが判定される。

【００８６】ステップＳ３４でｍが１０００００未満で
ある場合は、ステップＳ３５で基本確率が式（３）によ
って計算され、低確率が式（８）によって計算され、高
確率が式（９）から計算される。但し、９５％の信頼性
向けにｄ＝２とする。

【００８７】ステップＳ３４でｍが１０００００未満で
はないものと判定されると、ステップＳ３６で基本確率
が式（３）によって計算され、低確率が下記の式（１
５）によって計算される。

【００８８】

【数１５】

【００８９】更に高確率が下記の式（１６）により計算
される。

【００９０】

【数１６】

【００９１】但し、９５％の信頼性向けにｄ＝２とする
（式（１５）と式（１６）は式（５）および式（６）か
ら導出されたものである）。

【００９２】ステップＳ３７で、ステップＳ３３、Ｓ３
５またはＳ３６で示した確率値ｐL、ｐBおよびｐHがそ
れぞれステップＳ２６またはＳ２７で計算されたｐL
（ｔ）、ｐB（ｔ）およびｐH（ｔ）で除算される。

【００９３】ステップＳ３９で、ｍ＝０の場合の語トー
クンにおける確率ｐB（ｔ｜ｌ）、ｐL（ｔ｜ｌ）、およ
びｐH（ｔ｜ｌ）が、Ｍ＝０のときのｐ（ｔ）を用い
て、下記の式（１７）の如く計算される。

【００９４】

【数１７】

【００９５】次にステップＳ４０で確率がテーブルに記
憶され、ステップＳ４２でトレーニング手順が終了す
る。

【００９６】図６ｂおよび図６ｃでは確率計算のための
頻度範囲を決定するためにＭとｍに特定の値が用いられ
ているが、任意の適宜の値を選択することができる。図
６ｃに示すように、ステップＳ３４では高頻度範囲のし
きい値としてｍに設定される値は１０００００である。
このように、実際には高頻度範囲の計算は用いられな
い。しかしながら、計算コストが不足するような場合も
あり、その場合には減少した頻度のトークンにも高頻度
計算を行ってもよい。

【００９７】図６ａ、図６ｂおよび図６ｃでは識別のト
レーニング手順を説明したが、これらの変形も可能であ
る。第１に、必ずしも二項分布を適用する必要はない。
これはトークンが独立事象として取り扱われるという仮
定に基づいた言語識別問題におけるデータに適してい
る。同様の分類子が適用される他の状況では、他の確率
分布の方がより適している場合もあろう。キーポイント
は信頼範囲を計算し、かつ分布の特徴に応じて必要な場
合には近似評価からより正確な評価に切換えることであ
る。

【００９８】第２に、同じ手順を用いて、前述の基本確
率だけではなく全体的な分布ｐ（ｔ）の信頼間隔を計算
することができる。その場合にはベイズの法則にもとづ
く計算はｐ（ｔ）とｐ（ｔ｜ｌ）の双方を考慮に入れる
必要がある。

【００９９】最後に、確率を評価する他の方法を用いる
こともできよう。可能性の１つは特に出現頻度の評価を
修正するように設計されていて、トレーニング・データ
がサンプルであっても構わないグッド−チューリング評
価（Good-Turing estimation）である。“簡単なグッド
−チューリング”（ＳＧＴ）と呼ばれるこの技術の実際
的な実施については、ＷＡ．ゲール、Ｓ．サムソン共著
の論文「簡単なグッド−チューリング評価」（定性言語
学ジャーナル第２巻、第３部２１７〜２３７ページ）に
詳細に記載されており、この論文では同様の問題を解決
するための関連する可能性の幾つかも考察されている。
前述の計算を行う前にＳＧＴを利用することにより、ｍ
の値を平滑化することが可能である。

【０１００】トレーニング・データの結果は各言語の語
彙辞書である。語彙辞書は言語に現れる各トークンの確
率とともに、言語に関して周知のトークンの全てをリス
トした参照用テーブルからなっている。更に所定の言語
についてトレーニング・データ内にはない何らかのトー
クン用に用いられるゼロ確率もある。確率が基本値を中
心に最低から最高の範囲に及ぶことによって、トレーニ
ング・データは言語の完全な記述ではなく言語のサンプ
ルであっても構わない。

【０１０１】ここで図７から図１４を参照して言語識別
の種々の実施形態を説明する。

【０１０２】図７および図８のフローチャートは比較器
に入力される累算確率値を算出するための別の方法を示
している。ステップＳ５０で累算器は初期化されてゼロ
に設定され、ステップＳ５１で語トークンが読出され
る。ステップＳ５２で確率ｐL（１｜ｔ）、ｐB（１｜
ｔ）およびｐH（１｜ｔ）を得るために、語トークンが
語彙辞書で探索される。ステップＳ５３で確率の対数が
導入され、ステップＳ５４で確率値が加算され、各言語
毎の累算確率値のセット｛ａL,ａB,ａH｝が算出され
る。ステップＳ５５で累算確率値｛ａL,ａB,ａH｝が比
較器に送られる。ステップＳ５６で“判定実行”フラグ
が設定されているか否かが判定される。既に判定がなさ
れており、フラグが設定されている場合は、処理はステ
ップＳ５９で終了する。判定が未だなされておらず、フ
ラグが設定されていない場合は、ステップＳ５７で入力
される他の語トークンがあるか否かが判定される。他の
語トークンがある場合は、処理はステップＳ５１に戻
り、上記の累算プロセスを継続する。それ以上の他の語
トークンがない場合は、ステップＳ５８で“入力終わ
り”フラグが設定され、処理はステップＳ５９で終了す
る。

【０１０３】図８は補足的なステップＳ６０が設けられ
ている点で図７とは異なっている。図８の流れのステッ
プＳ５７において、読み出されるべきそれ以上の語トー
クンがある場合には、ステップＳ６０で“累算器使用不
能”フラグが設定されているか否かが判定される。図１
２を参照して後述するように、このフラグは語トークン
が属する言語である公算がない言語について設定される
ことができる。累算器使用不能フラグが設定されている
場合は、処理はステップＳ５９で終了し、そうではない
場合はステップＳ５１で他の語トークンが読出される。

【０１０４】図９から図１３のフローチャートは累算器
の出力から言語を識別するための比較器の別の動作方法
を示している。

【０１０５】図９では、ステップＳ６１で累算確率のセ
ット｛ａL,ａB,ａH｝が累算器から読出される。ステッ
プＳ６２で、累積確率のセット｛ａL,ａB,ａH｝が基本
値ａBの高い順に選別される。ステップＳ６３で基本値
がしきい値以上であるか否かが判定される。最高の基本
値がしきい値以上である場合は、ステップＳ６４で最高
の基本値ａBを有するセット内の低い値ａLが、次に高い
基本値ａBを有するセット内の高い値ａH以上であるか否
かが判定される。そうである場合は、ステップＳ６５で
“判定実行”フラグが設定され、ステップＳ６６で最高
の累算確率基本値ａBを有する言語が出力され、プロセ
スはステップＳ６７で終了する。ステップＳ６４で最高
の基本値ａBを有するセット内の低い値ａＬが、次に高
い基本値ａBのセット内の高い値ａH以上ではないものと
判定されると、ステップＳ６８で“入力終わり”フラグ
が設定されているか否かが判定される。設定されている
場合は、この方法では依然として最高の累積確率基本値
ａBを有する言語がステップＳ６６で出力される。“入
力終わり”フラグが設定されていない場合は、プロセス
はステップＳ６１に戻り、次の累積確率のセット｛ａL,
ａB,ａH｝が読み出される。また、ステップＳ６３で最
高の基本値ａBがしきい値未満であることが判定される
と、ステップＳ６３で“入力終わり”フラグが設定され
ているか否かが判定される。“入力終わり”フラグが設
定されている場合は、最高の累積確率基本値ａBを有す
る言語がステップＳ６６で出力され、設定されていない
場合は処理はステップＳ６１に戻る。

【０１０６】図９のプロセスの実行は可能であるが、こ
の処理では、別の言語と確率が重複する場合、すなわち
最高の基本確率の言語が明確ではない場合に、言語の出
力を妨げるという利点が得られない。

【０１０７】図１０では、ステップＳ６８でしきい値を
越えてはいるが、依然として確率が相互に重複してお
り、“入力終了”フラグが設定されている場合は、ステ
ップＳ６９で最高の基本値ａBを有する言語と、この最
高の基本値ａBを有する言語の低い確率値よりも大きい
値を持つ高い確率値を有する言語とが出力される。

【０１０８】図１１では、ステップＳ６３でしきい値を
超えず、ステップＳ７０で“入力終了”フラグが設定さ
れている場合に、ステップＳ７１で判定が不能であり、
処理がステップＳ６７に戻る好適な方法が示されてい
る。ステップＳ６３でしきい値を超え、ステップＳ６４
で言語の確率が重複し、かつステップＳ６８で“入力終
了”フラグが設定されている場合には、ステップＳ６９
で最高の基本値ａBを有する言語、および最高の基本値
ａBを有する言語の低い値ａLより大きい値の高い値ａH
を有する言語が出力される。また、ステップＳ６３でし
きい値を超え、ステップＳ６４で重複が示されない場合
は、ステップＳ６５で“判定実行”フラグが設定され、
ステップＳ６６で最高の累積確率基本値ａBを有する言
語が識別された言語として出力される。

【０１０９】この図１１の実施形態では、少なくともし
きい値を超えるまでは言語を識別することができない。
入力データの終端で依然として１つ以上の累積確率値に
重複がある場合は、これらの言語は出力され、ユーザは
出力された言語からマニュアルで言語を選択することが
できる。これに対して、しきい値を超え、確率の重複が
ない場合は、言語を識別することができる。

【０１１０】図１４ａ、図１４ｂおよび図１４ｃは４つ
の言語（英語、フランス語、ドイツ語またはイタリア
語）のいずれか１つの中に存在し得るＯＣＲデータから
語トークンを順次読出す間のプロセスを図示している。
図１４ａでは、累積確率はしきい値に達しておらず、従
って言語は識別されない。図１４ｂでは言語が英語であ
る確率はしきい値を超えているが、言語がフランス語や
イタリア語である確率は依然として重複している。この
時点でそれ以上のデータがなくなった場合は、これらの
３つの言語を入力データが属する可能性がある言語とし
て識別されるであろう。図１４ｃでは、言語が英語であ
る確率が他の言語である確率と分離されており、従って
この時点で入力データが属する言語を英語であると識別
できることが分かる。

【０１１１】図１２は、ステップＳ６３でしきい値を超
えているものと判定され、しかしステップＳ６４で確率
が明確ではない場合、ステップＳ７２で最高基本値ａB
と他の各セットの基本値ａBとの差がしきい値以上であ
るか否かが判定される別の実施形態を示している。そう
である場合は、ステップＳ７４でしきい値範囲外の基本
値ａBを有する累積器に関して“累積器使用不能”フラ
グが設定される。このようにして、幾つかの言語の公算
が最も高い場合、最も公算が低い言語用の累積器が使用
不能にされることによって、それらの言語を処理対象か
ら有効に除去する。従って、それによって公算が最も高
い言語についてだけ累算が必要であるので、処理の必要
性が軽減される。

【０１１２】図９から図１２では、ステップＳ６３で用
いられるしきい値は絶対しきい値である。しかし、しき
い値は図１３に示すように相対しきい値であってもよ
い。図１３では、ステップＳ７５で、最高の基本値ａB
を有するセット内の低い値ａLが、次に高い基本値ａBを
有するセット内の高い値ａH以上であり、その差がしき
い値以上であるか否かが判定される。そうである場合
は、ステップＳ６５で“判定実行”フラグが設定され、
ステップＳ６６で最高の累積確率基本値ａBを有する言
語が出力される。

【０１１３】このように、図１３はステップＳ６３およ
びＳ６４とステップＳ７５とが入れ代わっていることを
除いては図９で示した処理と同様である。図１３のステ
ップは、ステップＳ６８の肯定出力をステップＳ６９に
入力できるという点で図１０と同様の態様に修正するこ
とができよう。すなわち、データが終了すると、最高の
基本値ａBを有する言語、および最高の基本値ａBを有す
る言語の低い値ａL以上の高い値ａHを有する言語が出力
される。あるいは、ステップＳ６８の否定出力によりス
テップＳ７１の結果、すなわち判定不能になることもあ
ろう。

【０１１４】このように、絶対しきい値、または差分し
きい値のいずれかを設定でき、その結果、言語を判定、
または識別できず、または幾つかの可能性がある言語を
識別して、ユーザが手動的に言語を選択できるような多
くの異なる方法がある。

【０１１５】この技術の経験的な評価で、１８の言語が
欧州コーバス・イニシアチブのＣＤ−ＲＯＭ１から抽出
され、１行から２０００行のテキストを含むファイルに
分割され、２０００行のファイルが１つと、２００行の
ファイルが１つと、それぞれ１行、５行、１０行および
２０行の２５のファイルとして分散された。トレーニン
グ・データとして２０００行および２００行のファイル
が用いられ、残りのファイルはテスト・データとして用
いられた。ファイル内のテキストは走査された画像から
抽出されたトークンをシミュレートするために、シブン
＆レーナー氏の技術と同じマッピングを用いて、語形ト
ークンにマッピングされた。トークンは空白スペース文
字で分離された文字列として定義された。それによって
句読点は語の直ぐ後にづづく場合は語の一部として扱わ
れ、その結果、データ内のノイズがある程度シミュレー
トされる。識別アルゴリズムは各テスト・ファイルで行
われ、その結果は４つのカテゴリーの１つに分類され
た。

【０１１６】１．単一言語である限定的な、正しい判
定。２．言語の限定的な判定ではないが、入力の終了時に最
高の評価の言語が正しい判定である。３．終了時に最高の評価の言語が正しい判定ではない、
限定的ではない判定。４．限定的ではあるが、その単一の言語が正しくない判
定。

【０１１７】最初の２つ（上記の１及び２）の数字の合
計を総テスト数と比較すると、精度の数値が得られる。
最初と最後（上記の１と４）の数字の合計を総数と比較
すると、再現度の数値、すなわち限定的な判定に達した
テスト数が得られる。

【０１１８】しきい値Ｓがテキストの０、５、１０およ
び１４である場合の１行、５行、１０行、２０行および
全ての行を有するデータについての結果は表１および表
２、および図１５および図１６に示されている。

【０１１９】

【表１】

【０１２０】

【表２】

【０１２１】表、およびグラフから、しきい値Ｓが大き
くなると精度が高まるが、再現度が低くなることが分か
る。従って、Ｓの最適な値として、高率の再現率を確保
しつつ、データの取り得る長さに対して合理的な精度を
もたらす値を選択する必要がある。

【０１２２】このように、前述の実施形態の説明から、
本発明はＯＣＲデータ用の言語の識別に最適であること
がわかる。しかし、この方法は音声認識データにも同様
に有効である。システムに順次入力できるエレメントま
たはトークンを得るためにデータの特徴を抽出するだけ
でよい。

【０１２３】この技術は例えばＡＳＣＩＩから読み出し
可能なコンピュータ内のテキストに直接適用することが
できる。このようなテキストは圧縮コード化して、入力
の数を縮減し、確率分布を圧縮することもでき、エレメ
ントとしてシステムに直接入力することもできる。言い
換えると、システムへの入力は単にＡＳＣＩＩ内の語か
らなり、語彙辞書は語のテーブルと、言語内で語が出現
する確率とからなっている。

【０１２４】入力システムとして用いられるべきデータ
の特徴、もしくはエレメントは優れた判定をもたらす特
徴もしくはエレメントとして識別される必要がある。

【０１２５】本発明では、エレメントは順次入力されな
ければならないが、エレメントを順次入力する順序は重
要ではない。

【０１２６】これまでの実施形態では語彙辞書は言語の
為の語彙辞書であるが、テキストを主題分類に分類する
ための語彙辞書を用いることもできる、例えば詩、法
律、または科学のような主題別の語彙辞書でもよい。そ
れによってソフトウェアは、異なる主題について異なる
ライブラリを利用することができる。また、文書の異な
る部分を異なるライブラリを用いて処理することもでき
る。

【０１２７】ここで図１７ａ〜図１７ｄおよび図１８を
参照して本発明の別の実施形態を説明する。この実施形
態は文書中のテキストの形状またはレイアウトを識別す
ることによって文書の種類を識別することを指向してい
る。図１７ａから図１７ｄは文書上のテキストの段落の
異なる構成を示している。テキストの段落は例えばペー
ジ上の位置によって簡単にコード化することができる。
例えば、右、左および中央（Ｒ、ＬおよびＣ）の簡単な
エレメントを用いてテキストの段落の位置を示すことが
できる。このように、図１７ａはＲ、Ｌ、Ｃとコード化
され、図１７ｂはＣ、Ｃと、また、図１７ｃはＣ、Ｃ、
Ｃと、また図１７ｄはＬ、Ｒとコード化することができ
る。

【０１２８】このように多くのページからなる文書を簡
単な文書ページ・コードによって識別することができ
る。例えば、図１７ａは一般的な手紙のレイアウトであ
る。

【０１２９】図１８は本発明の一実施形態に基づく文書
認識システムの機能図である。文書の特徴が形状トーク
ナイザ（Shape tokeniser）３０によって抽出されて、
形状トークン（shape tokens）が生成され、これが形状
確率ライブラリ３１ａ、３１ｂ、３１ｃ…３１Ｌ（Shap
e probability library 1-L）に入力される。形状確率
ライブラリ３１ａ、３１ｂ、３１ｃ…３１Ｌは形状トー
クンの所定の確率テーブルを含んでいる。各形状トーク
ンの確率は形状確率ライブラリ３１ａ、３１ｂ、３１ｃ
…３１Ｌからそれぞれの累算器３２ａ、３２ｂ、３２ｃ
…３２Ｌ（Accumulator）に送られ、そこで確率が累算
される。次に、累算確率は累算器３２ａ、３２ｂ、３２
ｃ…３２Ｌから比較器（Comparator）３３に送られ、そ
こで累積確率が比較されて、文書の分類を識別できるか
否かが判定される。ＯＣＲデータの言語識別に関連して
説明したトレーニング・プロセスおよび識別プロセスは
文書識別にも等しく応用できる。

【０１３０】上記の実施形態の説明から明らかであるよ
うに、本発明は、少なくとも１つを各分類の中に見出す
ことができる多数の特徴を備えたデータが属する分類を
識別するためのデータ処理に応用できる。

【０１３１】これまで本発明を特定の実施形態を参照し
て説明してきたが、本願の特許請求の範囲に記載の本発
明の範囲から逸脱することなく修正が可能であることが
専門家には明らかであろう。

【０１３２】

【発明の効果】これまで説明してきたように、データの
特徴が順次解析され、その分類が識別され、出力される
ので、迅速な識別プロセスが可能であり、また、識別さ
れた分類の判定は確率しきい値を超えた場合だけ出力さ
れるので、識別の信頼性も高い。

【図面の簡単な説明】

【図１】本発明の１実施形態に基づくデータ処理システ
ムの概略図である。

【図２】図１のデータ処理システムの構成の概略図であ
る。

【図３】本発明の１実施形態に基づくデーシ処理のため
の基本的ステップのフローチャートである。

【図４】本発明の１実施形態に基づくデーシ処理システ
ムの概略機能図である。

【図５】本発明の１実施形態に基づく言語識別システム
の概略機能図である。

【図６ａ】図５の言語識別システムの学習段階を示した
フローチャートである。

【図６ｂ】図５の言語識別システムの学習段階を示した
フローチャートである。

【図６ｃ】図５の言語識別システムの学習段階を示した
フローチャートである。

【図７】本発明の１実施形態に基づく図５の語彙辞書と
累算器の動作のフローチャートである。

【図８】本発明の別の実施形態に基づく図５の語彙辞書
と累算器の動作のフローチャートである。

【図９】本発明の第１実施形態に基づく図５の比較器の
動作のフローチャートである。

【図１０】本発明の第２実施形態に基づく図５の比較器
の動作のフローチャートである。

【図１１】本発明の第３実施形態に基づく図５の比較器
の動作のフローチャートである。

【図１２】本発明の第４実施形態に基づく図５の比較器
の動作のフローチャートである。

【図１３】本発明の第５実施形態に基づく図５の比較器
の動作のフローチャートである。

【図１４ａ】未だしきい値を超えておらず、一意的な言
語を識別できない、言語識別のための累積確率の概略図
である。

【図１４ｂ】１つの言語である確率がしきい値を超えて
いるが、未だ一意的な言語を識別できない、言語識別の
ための累積確率の概略図である。

【図１４ｃ】しきい値を超え、一意的な言語を識別可能
である言語識別のための累積確率の概略図である。

【図１５】異なるテスト・データのセットについてしき
い値を変更した場合の識別精度を示したグラフである。

【図１６】異なるテスト・データのセットについてしき
い値を変更して言語を識別するシステムの能力を示した
グラフである。

【図１７ａ】文書のページにおけるテキストレイアウト
の概略図である。

【図１７ｂ】文書のページにおけるテキストレイアウト
の概略図である。

【図１７ｃ】文書のページにおけるテキストレイアウト
の概略図である。

【図１７ｄ】文書のページにおけるテキストレイアウト
の概略図である。

【図１８】文書識別システムの概略機能図である。

【符号の説明】

１コンピュータ２スキャナ３フロッピー・ディスク４レーザ・プリンタ１０表示装置１１中央処理装置１２ＲＯＭ１３ＲＡＭ１４バス１５出力装置１６記憶装置１７キーボード２１ライブラリ２２累算器２３比較器２４トークナイザ２５語彙辞書２６累算器

Claims

【特許請求の範囲】

【請求項１】複数の特徴を備え、それらの特徴の少な
くとも一部が複数の分類に共通であるデータが属する分
類を識別するためのデータ処理方法であって、データの特徴を順次エレメントとして抽出し、データが
属する分類が識別されるまで順次エレメントとエレメン
ト群とを順次に入力する工程と、各群またはエレメント群について、エレメントまたはエ
レメント群を各分類のエレメントまたはエレメント群の
所定の確率値と比較して、エレメントまたはエレメント
群がある分類に属する確率を判定する工程と、前記確率を累算して、各分類毎に累算確率を構成する工
程と前記累算確率からデータが属する分類を識別する工
程とを備えることを特徴とするデータ処理方法。
【請求項２】識別された分類を出力する工程を含むこ
とを特徴とする請求項１に記載のデータ処理方法。
【請求項３】識別された分類毎に累算確率を出力する
工程を含むことを特徴とする請求項２に記載のデータ処
理方法。
【請求項４】識別された分類の出力を、データを更に
処理するために利用することを特徴とする請求項２また
は３に記載のデータ処理方法。
【請求項５】異なる分類に属するデータを別個に処理
することを必要とし、識別された分類の出力が該データ
に対して実行される処理を選択するのに用いられること
を特徴とする請求項４に記載のデータ処理方法。
【請求項６】前記累算確率が所定の確率しきい値に達
した場合に、その分類をデータが属する分類として識別
することを特徴とする請求項１乃至５のいずれかに記載
のデータ処理方法。
【請求項７】分類の累算確率が前記所定の確率しきい
値に達し、かつその分類の累算確率が他の各々の分類の
累算確率よりも所定量だけ大きい場合に、その分類を入
力されたデータの属する分類として識別することを特徴
とする請求項６に記載のデータ処理方法。
【請求項８】分類の累算確率が所定の確率しきい値に
達しない場合は、最高の累算確率を有する分類の幾つか
をデータの属する可能性がある分類として識別すること
を特徴とする請求項６に記載のデータ処理方法。
【請求項９】確率と累算確率の各々が、所定の信頼範
囲内において取り得るであろう最低確率値、所定の信頼
範囲内において取り得るであろう最高確率値、および最
も公算が高い確率値である基本値を備え、分類の累算確
率の前記基本値が前記所定の確率しきい値に達した場合
に、当該分類を入力されたデータがそれに属する分類と
して識別することを特徴とする請求項６に記載のデータ
処理方法。
【請求項１０】確率と累算確率の各々が、所定の信頼
範囲内で取り得るであろう最低確率値、所定の信頼範囲
内で取り得るであろう最高確率値、および最も公算が高
い確率値である基本値とを備え、分類の累算確率の前記
基本値が前記所定の確率しきい値に達し、かつ該分類の
累積確率の最低確率値が他の各分類の最高確率値以上で
ある場合は、該分類を入力されたデータが属する分類と
して識別することを特徴とする請求項６に記載のデータ
処理方法。
【請求項１１】前記分類の累算確率の基本値が前記所
定の確率しきい値に達しない場合は、累算確率の最高の
基本値を有する分類の幾つかをデータが属する可能性が
ある分類として識別することを特徴とする請求項９また
は１０に記載のデータ処理方法。
【請求項１２】最高の基本値を有する分類の累積確率
の最低値が他の各分類の累算確率値の最大値以上となら
ない場合は、該最高の基本値を有する分類の最低確率値
以上の値の最高確率値を有する分類をデータが属する可
能性がある分類として識別することを特徴とする請求項
９に記載のデータ処理方法。
【請求項１３】ある分類の累算確率が他の各分類の累
算確率よりも所定量だけ高い場合は、その分類をデータ
が属する分類であるものとして識別することを特徴とす
る請求項１から５のいずれかに記載のデータ処理方法。
【請求項１４】最高の累算確率が他の各累算確率より
も前記所定量だけ低い場合は、最高の累算確率を有する
分類の幾つかをデータが属する可能性がある分類として
識別することを特徴とする請求項１３に記載のデータ処
理方法。
【請求項１５】確率と累算確率の各々が、所定の信頼
範囲内において取り得るであろう最低確率値、所定の信
頼範囲内で取り得るであろう最高確率値、および最も公
算が高い確率値である基本値を備え、分類の累算確率の
基本値が他の各分類の累算確率の基本値以上である場合
は、その分類を入力されたデータが属する分類として識
別することを特徴とする請求項１３に記載のデータ処理
方法。
【請求項１６】可能性がある複数の分類からユーザが
手動的に分類を選択することを特徴とする請求項８、１
１、１２または１４のいずれかに記載のデータ処理方
法。
【請求項１７】前記最低確率値と前記最高確率値の各
々を累算確率の基本値からの２つ以上の標準偏差として
計算することを特徴とする請求項９、１０、１１、１２
または１５のいずれかに記載のデータ処理方法。
【請求項１８】前記順次エレメントを順次エレメント
群として入力することを特徴とする請求項１乃至１７の
のいずれかに記載のデータ処理方法。
【請求項１９】前記特徴を抽出する工程が、データの
特徴を順次エレメントとしてコード化する工程を備える
ことを特徴とする前記各請求項１乃至１８のいずれかに
記載のデータ処理方法。
【請求項２０】前記コード化する工程が、データ中の
多数の異なる特徴と比較された、より少数の異なるエレ
メントを生成するためにコード化する工程を備えること
を特徴とする請求項１９に記載のデータ処理方法。
【請求項２１】前記特徴を抽出する工程が、特徴をな
すデータ中の各エレメントを識別することからなること
を特徴とする請求項１乃至１８のいずれかに記載のデー
タ処理方法。
【請求項２２】前記所定の確率値を判定するために、ａ）分類が既知のトレーニング・データの特徴を順次エ
レメントとして抽出し、この順次エレメントを順次入力
する工程と、ｂ）前記順次エレメントの確率値を計算する工程と、ｃ）前記計算された確率値を記憶し、各分類毎にａ）か
らｃ）の工程を反復する工程とを備える予備工程を含む
ことを特徴とする請求項１乃至２１のいずれかに記載の
データ処理方法。
【請求項２３】順次エレメントまたはエレメント群の
確率値を計算する工程が、各エレメントまたは順次エレ
メント群の出現頻度を判定する工程を含むことを特徴と
する請求項２２に記載のデータ処理方法。
【請求項２４】確率値はベイズの法則を用いて確率値
が、ｐ（ｌ｜ｔ）＝｛ｐ（ｌ｜ｔ）・ｐ（ｌ）｝／ｐ（ｔ）によって算出され、ここで、ｐ（ｌ｜ｔ）は所定のエレメントまたはエレメント群の
分類の確率であり、ｐ（ｔ｜ｌ）は所定の分類のエレメントの確率であり、ｐ（１）は分類の確率であり、ｐ（ｔ）はエレメントまたはエレメント群の確率である
ことを特徴とする請求項２２または請求項２３に記載の
データ処理方法。
【請求項２５】前記順次エレメントの所定の確率値を
計算する工程が、全ての分類についてデータ入力内での
エレメントまたはエレメント群の出現確率を計算する工
程と、当該分類の出現確率をプリセットされたレベルに
設定する工程と、ある分類に出現するエレメントの確率
を計算する工程とを含むことを特徴とする請求項２２ま
たは請求項２３に記載のデータ処理方法。
【請求項２６】ある分類が占有されている確率は全て
の分類について同一であり、従って計算では無視される
ことを特徴とする請求項２５に記載のデータ処理方法。
【請求項２７】前記所定の確率値が、取り得るであろ
う最低確率値、取り得る最高確率値、および最も取り得
る公算が高い確率値である基本値を備え、前記最低確率
値と前記最高確率値は前記基本値の所定の信頼範囲内に
ある確率値として計算されることを特徴とする請求項２
２乃至２６のいずれかに記載のデータ処理方法。
【請求項２８】前記確率値を計算する工程が、トレー
ニング・データ内には出現しないエレメントまたはエレ
メント群の各分類の確率値を計算する工程を含むことを
特徴とする請求項２２から２７のいずれか１項に記載の
データ処理方法。
【請求項２９】請求項１乃至２８のいずれかに記載の
データ処理方法によってデータが属する分類を識別する
工程と、識別された分類に従ってデータを選別する工程とを備え
ることを特徴とするデータ選別方法。
【請求項３０】請求項１から２８のいずれかに記載の
データ処理方法に従ってデータが属する分類を識別する
工程と、識別された分類に従ってデータを処理する工程とを備え
ることを特徴とするデータ処理方法。
【請求項３１】少なくとも幾つかが複数の分類に共通
である複数の特徴を備えたデータが属する分類を識別す
るデータ処理装置であって、データの特徴を順次エレメントとして抽出し、データが
属する分類が識別されるまで順次エレメントとエレメン
ト群とを順次に入力する入力手段と、各分類のエレメントまたはエレメント群の所定の確率値
を記憶するための記憶手段と、各エレメントまたはエレメント群を各分類の前記所定の
確率値と順次比較して、エレメントまたはエレメント群
がある分類に属する確率を判定するための比較手段と、前記確率を累算して各分類毎に累算確率を算出するため
の累算手段と、前記累算確率からデータが属する分類を識別する識別手
段とを備えることを特徴とするデータ処理装置。
【請求項３２】前記累算確率を出力するための出力手
段を含むことを特徴とする請求項３１に記載のデータ処
理装置。
【請求項３３】前記出力手段が識別された分類の累算
確率を出力する用に構成されていることを特徴とする請
求項３２に記載のデータ処理装置。
【請求項３４】データを更に処理する処理手段を含む
ことを特徴とする請求項３２または３３に記載のデータ
処理装置。
【請求項３５】前記処理手段が異なる分類のデータに
ついて異なるデータ処理を行うとともに、前記識別され
た分類の結果に従ってデータを処理することを特徴とす
る請求項３４に記載のデータ処理装置。
【請求項３６】前記識別手段は、分類の累算確率が所
定の確率しきい値に達した場合、その分類をデータが属
する分類として識別するように構成されていることを特
徴とする請求項３１乃至３５のいずれかに記載のデータ
処理装置。
【請求項３７】前記識別手段は、分類の累算確率が前
記所定の確率しきい値に達し、かつその分類の累算確率
が他の各分類の累算確率よりも所定量だけ大きい場合
に、データが属する分類を識別するように構成されてい
ることを特徴とする請求項３６に記載のデータ処理装
置。
【請求項３８】前記識別手段は、分類の累算確率が所
定の確率しきい値に達しない場合に、最高の累算確率を
有する幾つかの分類をデータが属する可能性がある分類
として識別するように構成されていることを特徴とする
請求項３６に記載のデータ処理装置。
【請求項３９】確率および累算確率は各々、所定の信
頼範囲内において取り得るであろう最低確率値、所定の
信頼範囲内において取り得るであろう最高確率値、およ
び最も公算が高い確率値である基本値を備え、前記識別
手段は、分類の累算確率の前記基本値が前記所定の確率
しきい値に達し、かつ該分類の累算確率値の最低確率値
が、他の分類の累算確率の最高確率値より大きい場合に
は、当該分類を入力データが属する分類として識別する
ように構成されていることを特徴とする請求項３６に記
載のデータ処理装置。
【請求項４０】確率および累算確率は各々、所定の信
頼範囲内において取り得るであろう最低確率値、所定の
信頼範囲内において取り得るであろう最高確率値、およ
び最も公算が高い確率値である基本値を備え、前記識別
手段は、分類の累算確率の前記基本値が前記所定の確率
しきい値に達した場合、入力データが属する分類を識別
するように構成されていることを特徴とする請求項３６
に記載のデータ処理装置。
【請求項４１】前記識別手段は、分類の累算確率が前
記所定の確率しきい値に達しない場合は、累算確率の最
高の基本値を有する幾つかの分類をデータが属する可能
性がある分類として識別するように構成されていること
を特徴とする請求項３８または請求項４０に記載のデー
タ処理装置。
【請求項４２】最高の基本値を有する分類の累算確率
が各分類の累算確率値における最高確率値未満である場
合、前記識別手段は、該最高の基本値を有する分類の有
する最低確率値よりも大きい値の最高確率値を有する分
類をデータが属する可能性がある分類として識別するよ
うに構成されていることを特徴とする請求項３９に記載
のデータ処理装置。
【請求項４３】前記識別手段は、最高の累算確率を有
する分類の累算確率が他の各分類の累算確率よりも所定
量だけ大きい場合、その分類をデータが属する分類とし
て識別するように構成されていることを特徴とする請求
項３１乃至３５のいずれかに記載のデータ処理装置。
【請求項４４】前記識別手段は、最高の累算確率と他
の各累算確率との差が前記所定量よりも小さい場合は、
該最高の累算確率を有する幾つかの分類をデータが属す
る可能性がある分類として識別するように構成されてい
ることを特徴とする請求項４３に記載のデータ処理装
置。
【請求項４５】前記確率および累算確率は各々、所定
の信頼範囲内において取り得るであろう最低確率値、所
定の信頼範囲内において取り得るであろう最高確率値、
および最も公算が高い確率値である基本値を備え、前記
識別手段は、分類の累算確率の基本値が他の分類の累算
確率の基本値よりも前記所定量だけ大きく、かつ当該分
類の累算確率値の最低確率値が他の各分類の累算確率の
最大確率値以上である場合は、その分類をデータが属す
る分類として識別するように構成されていることを特徴
とする請求項４３に記載のデータ処理装置。
【請求項４６】可能性がある複数の分類から一つの分
類を選択するためのユーザが操作可能な選択手段を含む
ことを特徴とする請求項３８、４１、４２、または４４
項のいずれかに記載のデータ処理装置。
【請求項４７】前記記憶手段が、前記基本値と、累算
確率の基本値からの２つ以上の標準偏差として計算され
た前記最低確率値と前記最高確率値を記憶したことを特
徴とする請求項３９、４０、４１、４２、または４５の
いずれかに記載のデータ処理装置。
【請求項４８】前記入力手段は前記エレメントを順次
数値群として入力するように構成されたことを特徴とす
る請求項３１から４７のいずれかに記載のデータ処理装
置。
【請求項４９】前記入力手段が特徴を順次エレメント
としてコード化することによってデータの特徴を抽出す
るためのコード化手段を含むことを特徴とする請求項３
１から４８のいずれかに記載のデータ処理装置。
【請求項５０】前記コード化手段は特徴をコード化し
て、データ内の異なる値の数と比較して減少された異な
る数のエレメントを生成するように構成されていること
を特徴とする請求項４９に記載のデータ処理装置。
【請求項５１】前記入力手段は特徴を備えたデータ内
の各エレメントを識別することによってデータを特徴を
抽出するように構成されたことを特徴とする請求項３１
から４８のいずれかに記載のデータ処理装置。
【請求項５２】前記所定の確率値を計算し、前記記憶
手段に記憶するためのトレーニング手段を含み、該トレ
ーニング手段は前記入力手段によって入力されたトレー
ニング・データに応答して前記所定の確率値を計算し、
前記トレーニング・データは分類が既知であるデータか
らなることを特徴とする請求項３１乃至５１のいずれか
１項に記載のデータ処理装置。
【請求項５３】前記トレーニング手段が各エレメント
または順次エレメント群の占有の頻度を判定する手段を
含むことを特徴とする請求項５２に記載のデータ処理装
置。
【請求項５４】前記トレーニング手段は、ベイズの法
則を用いて、ｐ（ｌ｜ｔ）＝｛ｐ（ｔ｜ｌ）×ｐ（ｌ）｝／ｐ（ｔ）によって所定の確率値を計算するように構成され、ここ
で、ｐ（ｌ｜ｔ）は所定のエレメントまたはエレメント群の
分類の確率であり、ｐ（ｔ｜ｌ）は所定の分類のエレメントの確率であり、ｐ（ｌ）は分類の確率であり、ｐ（ｔ）はエレメントまたはエレメント群の確率である
ことを特徴とする請求項５２または請求項５３に記載の
データ処理装置。
【請求項５５】前記トレーニング手段が、全ての分類
について入力されるデータ内のエレメントの出現確率を
計算することにより順次エレメントの所定の確率値を計
算し、分類の出現確率をプリセットレベルに設定し、か
つある分類に出現するエレメントの確率を計算するよう
に構成されていることを特徴とする請求項５２または請
求項５３に記載のデータ処理装置。
【請求項５６】分類の出現確率が同一であるととも
に、前記トレーニング手段は分類の出現確率を無視する
ことによって前記所定の確率値を計算するように構成さ
れていることを特徴とする請求項５５に記載のデータ処
理装置。
【請求項５７】前記記憶手段が、取り得るであろう最
低確率値、取り得るであろう最高確率値、および最も公
算が高い確率値の基本値とを備える所定の確率値を記憶
し、前記トレーニング手段は最低確率値と最高確率値を
基本値の所定の信頼範囲内にある確率値として計算する
ように構成されていることを特徴とする請求項５２乃至
５６のいずれかに記載のデータ処理装置。
【請求項５８】前記トレーニング手段は、トレーニン
グ・データ内に出現しないエレメントまたはエレメント
群の各分類の確率値を計算するように構成されているこ
とを特徴とする請求項５２乃至５７のいずれかに記載の
データ処理装置。
【請求項５９】請求項３１乃至５８のいずれかに記載
のデータ処理装置と、識別された分類に従ってデータを選別するための選別手
段とを備えることを特徴とするデータ選別装置。
【請求項６０】識別された分類に従ってデータを処理
するための処理手段を含むことを特徴とする請求項３１
乃至５８のいずれかに記載のデータ処理装置。
【請求項６１】データ処理装置内のプロセッサが、少
なくとも幾つかが複数の分類に共通である複数の特徴を
備えたデータの属する分類を定義する信号を処理するた
めの、コンピュータ読出し可能な命令を有するコンピュ
ータ使用媒体において、前記命令が、前記プロセッサ
を、ａ）データの特徴を順次エレメントとして抽出し、かつ
データが属する分類が識別されるまで順次エレメントを
順次に入力するようにさせ、ｂ）各エレメントまたはエレメント群を各分類のエレメ
ントまたはエレメント群の所定の確率値と比較して、エ
レメントまたはエレメント群が分類に属する確率を判定
するようにさせ、ｃ）前記確率を累算して各分類の累算確率を算出するよ
うにさせ、ｄ）前記累算確率からデータが属する分類を識別するよ
うにさせることを特徴とするコンピュータ使用媒体。
【請求項６２】実質的に添付図面に示され、実質的に
発明の詳細な説明で添付図面を参照して記述されたデー
タ処理方法。
【請求項６３】実質的に添付図面に示され、実質的に
発明の詳細な説明で添付図面を参照して記述されたデー
タ処理装置。