JP7282989B2

JP7282989B2 - テキスト分類

Info

Publication number: JP7282989B2
Application number: JP2022561639A
Authority: JP
Inventors: フレデリックコレット，; ヴァンダナロイ，
Original assignee: キヤノンオイローパエヌ．ヴェー．
Priority date: 2020-04-10
Filing date: 2021-04-09
Publication date: 2023-05-29
Anticipated expiration: 2041-04-09
Also published as: CN115428041A; KR102572180B1; EP4133410A1; US20210319247A1; JP2023511791A; WO2021205007A1; KR20230008731A; US11551461B2

Description

本開示は、テキスト分類に関する。特に、本開示は、テキスト分類装置、光学式文字認識装置、テキスト分類方法、訓練方法及びプログラムに関する。

光学式文字認識（ＯＣＲ）は、画像に含まれるテキストをマシン符号化されたテキストに変換するために実行される。ＯＣＲソフトウェアを使用して分析されうる画像は、スキャンされた文書、文書の写真、シーンの写真、ビデオ記録、及び文書上に重ね合わされたテキストを含む。画像内の変換されうるテキストは、タイプされたテキスト、手書きのテキスト、及び印刷されたテキストを含む。マシン符号化されたテキストは、アスキー、ユニコード、及び絵文字のような電子通信のための任意の文字符号化標準を含む。

ＯＣＲが実行された後、検出された画像の属性を抽出することが可能である。しかし、ＯＣＲは計算集約的であるため、画像の属性に基づいてＯＣＲをカスタマイズすることの需要がある。したがって、ＯＣＲが実行される前にそのような属性のうちの１つ以上が知られているならば、ＯＣＲはより効率的に実行されうる。

「属性」という用語は、画像に関連付けられうる様々な変数を指すために使用されるが、「クラス」という用語は、画像について識別されるそのような変数の特定の値を指す。

属性の第１の例は、画像内のテキストの文字体系（script）である。文字体系属性について、文字体系クラスの例は、ラテン語である。

属性の第２の例は、画像内のテキストの方向である。方向クラスの例は、水平に対して０度、９０度、１８０度、及び２７０度付近の角度を有するテキストである。

属性はＯＣＲの前にユーザによって識別されることが可能であるが、これはユーザに負担をかける。よって、画像認識処理の一部として属性を記録できるテキスト分類ソフトウェアの需要がある。

テキスト分類ソフトウェアによる属性記録の効率の向上の需要がある。その結果、テキスト分類ソフトウェアは、プロセッサに対してより低い処理負担を課す。テキスト分類を実行するための処理リソースの低減は、これらのリソースがテキスト分類の精度を向上させるために費やされることを可能にし、それゆえ、ＯＣＲの精度及び効率は、個々の画像の分析のためにカスタマイズされる。結果はテキスト分類の速度及び精度を高めることになり、さらに、ＯＣＲの性能のための速度及び精度を高めることに寄与する。

フジイ文献（多言語ＯＣＲのためのシーケンス対ラベル言語体系識別、ａｒＸｉｖ：１７０８．０４６７１ｖ２、Ｙ．フジイ、Ｋ．ドリエセン、Ｊ．バカッシュ、Ａ．ハースト、及びＡ．Ｃ．ポパット）は、行レベル文字体系識別方法を記載する。符号化器は、行画像を特徴シーケンスに変換する。その後、要約器は、行を分類するためにシーケンスを集約する。文字体系コードのシーケンスからの行の支配的な文字体系が記録される。過半数は、行ごとに一意の文字体系ラベルを決定する。

フジイ文献によって提案された技術の問題は、任意の混合文字体系及び混合言語コンテンツを扱う多言語ＯＣＲシステムについて困難に遭遇することである。フジイ文献は、文字体系をより細かいレベルで検出することによって、又は行レベルのアプローチを維持し、複数の文字体系を考慮することによって、これが処理されうる可能性を残している。

したがって、画像内で識別されたテキストの行の分析に基づいて画像を分類するテキスト分類技術が必要とされる。属性の検出におけるエラーを排除することによって、テキスト分類の効率を高め、それにより、画像についての大域クラスを、必要とされるレベルの信頼性で識別できることが望まれる。

本開示の側面は、テキスト分類装置であって、画像をテキストの複数の行にセグメント化するように構成されたセグメント化部と、テキストの前記複数の行からテキストの行を選択するように構成された選択部と、テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部と、テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置を含む。

オプションとして、前記記録部は、テキストの前記選択された行について、クラスの前記シーケンス内のクラスのそれぞれに関連付けられた頻度と、前記大域クラスがクラスの前記シーケンスのうちの最高頻度のクラスに対応するかどうかを確立する前記信頼レベルと、を記録するように構成される。

オプションとして、前記選択部は、前記信頼レベルが閾値よりも下であるならば、テキストの別の行を選択するように構成され、前記識別部は、テキストの前記選択された行に対応するクラスの複数のシーケンスを識別するように構成され、前記記録部は、テキストの前記選択された行について、クラスの前記複数のシーケンスのうちのクラスに対応する前記大域クラスを記録するように構成される。

オプションとして、前記分類部は、前記信頼レベルが閾値よりも上であるならば、前記大域クラスに従って前記画像を分類するように構成される。

オプションとして、前記分類部は、前記信頼レベルが閾値よりも下であるならば、複数の大域クラスに従って前記画像を分類するように構成される。

オプションとして、前記選択部は、テキストの前記行のアスペクト比に基づいてテキストの前記行を選択するように構成される。

オプションとして、前記クラスは、前記テキストの文字体系に対応する。

オプションとして、前記クラスは、前記テキストの方向に対応する。

オプションとして、前記テキストの前記方向に基づいて、前記ユーザに提示される前に前記画像の前記方向が修正される。

オプションとして、前記クラスは、文字体系と、前記テキストの方向と、に対応する。

オプションとして、テキスト分類装置は、テキストの複数のサンプルを含むデータセットを使用して前記クラスを認識するように訓練されたニューラル・ネットワークをさらに備える。

オプションとして、前記データセットは、テキストの前記複数のサンプルの複数の方向を含む。

オプションとして、前記ニューラル・ネットワークは、テキストの前記行の画像認識を実行するように構成された畳み込みニューラル・ネットワークと、テキストの前記行のシーケンス認識を実行するように構成された再帰型ニューラル・ネットワークと、を含む。

オプションとして、前記記録部は、テキストの前記選択された行について、複数の大域クラスを記録するように構成され、前記複数の大域クラスのそれぞれの大域クラスは、クラスの前記シーケンスのうちのクラスに対応し、前記分類部は、前記複数の大域クラスのそれぞれの信頼レベルに基づいて、前記複数の大域クラスに従って前記画像を分類するように構成される。

オプションとして、前記装置は、前記識別されたクラスの前記頻度に基づいて前記信頼レベルを決定するための手段をさらに備える。オプションとして、最も高い頻度のクラス及び２番目に高い頻度のクラスの頻度に基づく。
別の側面によれば、テキスト分類装置であって、画像をテキストの複数の行にセグメント化するように構成されたセグメント化部と、テキストの前記複数の行からテキストの行を選択するように構成された選択部と、テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部と、テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置を備える光学式文字認識装置が提供される。

別の側面によれば、テキスト分類方法であって、画像をテキストの複数の行にセグメント化することと、テキストの前記複数の行からテキストの行を選択することと、テキストの前記選択された行に対応するクラスのシーケンスを識別することと、テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録することと、前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類することと、を有するテキスト分類方法が提供される。

別の側面によれば、テキストを分類するためのニューラル・ネットワークを訓練する、コンピュータで実施される方法であって、前記訓練は、テキストの前記文字体系及び方向に従ってグループ化された訓練データ項目の複数のグループを使用することを含む、方法が提供される。

オプションとして、訓練目的は、前記訓練データ内の文字を文字体系及び方向に関連付けることである。

オプションとして、前記訓練データ内のテキストの前記方向は、０度、９０度、１８０度、及び２７０度のテキストを含む。

別の側面によれば、請求項２２乃至２５に記載のコンピュータ・プログラム製品、コンピュータ可読媒体、又はコンピュータ・プログラムが提供される。

ここで、添付の図面を参照して、単なる例として、実施形態が説明される。
光学式文字認識装置を説明する模式図。データセットの文字を文字体系及び方向に関連付けるためにニューラル・ネットワークがどのように訓練されうるかを説明するフローチャート。画像分類を説明するフローチャート。、画像の行セグメント化を説明する模式図。、、、行分類に続く出力であるクラスのシーケンスを説明する図。、、、テキスト分類の対象となる画像サンプルを提供する図。、、画像サンプル（図７Ａ）を、行セグメント化（図７Ｂ）及びテキスト分類（図７Ｃ）についての画像結果と共に提供する図。

本開示の様々な実施形態、特徴及び側面が図面を参照して以下に詳細に記載される。以下に記載される実施形態のそれぞれは、単独で、又は必要に応じて若しくは単一の実施形態における個々の実施形態からの要素若しくは特徴の組合せが有益である複数の実施形態若しくはその特徴の組合せとして実施されうる。

図１は、テキスト分類装置１００と光学式文字認識部１６０とを備える光学式文字認識装置１を説明する模式図である。光学式認識装置１は、光学式文字認識（ＯＣＲ）を実行するように構成される。

テキスト分類装置１００は、セグメント化部１１０と、選択部１２０と、識別部１３０と、記録部１４０と、分類部１５０とを備える。セグメント化部１１０は、画像をテキストの複数の行にセグメント化するように構成される。選択部１２０は、テキストの複数の行からテキストの行を選択するように構成される。識別部１３０は、テキストの選択された行に対応するクラスのシーケンスを識別するように構成される。記録部１４０は、テキストの選択された行について、クラスのシーケンスのうちのクラスに対応する大域クラスを記録するように構成される。記録部１４０は、頻度の降順に配置されたクラスの大域リストを保持するように構成されている。これは、分析中の各行の内容で更新される。記録部１４０における最上位クラスは、画像の大域クラスについての現在の最良候補である。画像の最終的な分類は、分類部によって行われる。分類部１５０は、記録部１４０によって提供されたデータに基づいて、それゆえ大域クラスの信頼レベルに基づいて、画像を分類するように構成される。

テキスト分類装置１００は、ＯＣＲ部１６０によってＯＣＲが実行される前に、画像の属性を識別するように構成される。よって、テキスト分類装置１００によって識別された特定の属性に合わせたＯＣＲを実行するようにＯＣＲ部１６０を構成することによって、ＯＣＲ部１６０による処理需要が低減される。以下の属性のうちの１つ以上が最初に検出されたならば、ＯＣＲの効率が向上する。
‐テキストの文字体系（文字体系属性）、
‐テキストの言語（言語属性）、
‐テキストのフォント（フォント属性）、
‐テキストがイタリックであるかどうか（イタリック属性）、
‐テキストがボールドであるかどうか（ボールド属性）、
‐テキストが下線付きかどうか（下線属性）、
‐テキストの傾斜（傾斜属性）、
‐テキストの方向（方向属性）、及び
‐テキストのセグメント化された行が水平であるか垂直であるか（水平／垂直属性）。

文字体系属性について、文字体系クラスの例は、ラテン語、キリル語、アラビア語、韓国語、中国語、日本語、ヘブライ語、ギリシャ語、インド語、ベンガル語、デーヴァナーガリー語、タミル語、タイ語、モールス符号、及び点字文字である。

クラスは、複数のサブクラスを組み込むことが可能である。文字体系属性が中国語文字体系クラスとして識別されるならば、最初は、繁体字中国語サブクラスと簡体字中国語サブクラスとの間で区別は行われない。繁体字中国語サブクラス及び簡体字中国語サブクラスに書かれた表意文字の外観に重複が存在するため、テキスト分類ソフトウェアがこれらのサブクラスを区別することは困難である。代わりに、繁体字中国語及び簡体字中国語は、より広範な中国語文字体系として認識される。文字体系が簡体字中国語と繁体字中国語との混合であると仮定してＯＣＲが実行される。その後、文字頻度に基づくナイーブベイズ分類器を使用して、簡体字中国語又は繁体字中国語としてＯＣＲ結果が分類される。これは、ＯＣＲが行われた後に繁体字中国語サブクラスと簡体字中国語サブクラスとが区別されると、より正確であることが分かっているからである。

言語属性について、言語クラスの例は、英語、フランス語、及びスペイン語であり、これらについての文字体系属性は、ラテン語文字体系クラスに対応する。

傾斜属性について、これは画像の水平軸に対するテキストの角度を測定することによって記録される。角度は、度又はラジアンで測定される連続変数である。角度は許容範囲内で測定されてもよく、その結果、許容範囲内の傾斜を有するテキストが特定の傾斜クラスに関連付けられる。傾斜属性の評価は、画像を回転することによって、傾斜を除去するように画像の表示が修正されることを可能にする。文書は、従来、水平に対して０度、１８０度、９０度、及び２７０度の方向でテキストが提示される矩形ページ上に提示される。よって、方向属性は、傾斜属性の部分集合とみなされうる。

方向属性の場合、クラスの例は、０度、９０度、１８０度、及び２７０度であり、これらについて水平に対するテキストの方向を記録することが可能である。水平に対するテキストの角度は、許容範囲内で測定され、したがって、方向クラスの近傍内にあるテキストが分類される。さらに、方向属性が特定の０度、９０度、１８０度、及び２７０度のクラスに限定される必要はなく、代わりに、角度が連続変数であることを認識できるようにテキスト分類装置が構成されうる。

複数の属性の識別は、ＯＣＲの効率をさらに向上する。複数の属性は、画像の単一の属性分析において、又は複数の別個の属性分析ステップを実行することによって、一緒に識別されうる。組み合わせて検出される属性の例は以下を含む。
‐文字体系属性と方向属性との両方の識別、及び
‐方向属性と垂直／水平属性との両方の識別。

テキストの文字体系属性及び方向属性の記録は、単一のステップで実行される。よって、（文字体系、方向）属性の例は、（ラテン語、０度）クラスである。組み合わされた属性としての（文字体系、方向）属性の記録は、文字体系属性とび方向属性との両方を有するものとして指定されているテキストのサンプルを認識するようにテキスト分類装置を訓練することによって実現される。

文字体系属性の記録は、言語属性の記録の前に生じるステップである。例えば、文字体系属性がラテン語文字体系クラスに対応するという記録に続いて、言語属性の後続の評価は、言語属性が英語言語クラスに対応することを見出す。言語属性の検出前に文字体系属性を記録するは、言語属性記録ステップに課される処理負担を軽減する。文字体系クラスと言語クラスとの両方が知られると、検出された特定の言語クラスに制限された辞書が選択されうるため、ＯＣＲを実行する際の処理負担が軽減される。なお、言語クラスを記録する必要なく文字体系クラスを利用してＯＣＲが実行されうるため、言語クラスの記録は必須のステップではない。

画像分類は、異なるクラスを区別するように訓練されたニューラル・ネットワークを使用して画像を分析することによって実行される。ニューラル・ネットワークは、クラスのメンバの例を含むデータセットを使用してクラスを識別するように訓練される。ニューラル・ネットワークは、特定の文字体系クラスに属する文字を含むデータセットを使用して文字体系クラスを識別するように訓練される。ニューラル・ネットワークが単一のステップで文字体系クラスと方向クラスとの両方を認識するように訓練される特定の構成について、データセットは特定の文字体系クラスに属する文字を含み、これらの文字は、複数の異なる方向で入力される。

ニューラル・ネットワークは、複数の畳み込みネットワーク層及び再帰型ネットワーク層を備える。畳み込み層は画像が通過する第１の層であり、手元の問題の学習に寄与する画像の特定の特徴量を規定する様々なフィルタを計算する。その後、畳み込まれた画像は、文字のシーケンスを認識するＬＳＴＭ（ロング・ターム・ショート・メモリ）ベースの再帰型ネットワーク層を通過する。

ニューラル・ネットワークは、ラテン語クラス内の文字を含むテキスト・サンプルを使用してラテン語クラスを認識するように訓練される。データセットは、多種多様なフォントにおいて、個々の機械可読文字を識別するアルファベットを含む複数のフォント・サンプルを含む。これに代えて又はこれに加えて、データセットは、テキスト文書のライブラリを含む。テキスト・サンプルは複数の方向で入力され、ラテン語クラスは０度、９０度、１８０度、及び２７０度で入力される。この訓練は、他の特定の文字体系クラスに対して繰り返される。

多くの言語における典型的な文書は従来、英語のテキストの場合のように、ユーザによって左から右に読み取られる。他の言語では、典型的な文書は、アラビア語のテキストの場合のように、ユーザによって右から左に読み取られる。画像の左から右又は右から左に読み取られるテキストについて、テキストは水平行として提示され、行と個々の文字との両方は０度の方向を有する。

行テキストはユーザによって上から下に読み取られることがあり、これは、中国語のようないくつかの言語でより一般的に生じる。従来、水平行に沿って文書が読み取られる言語であっても、利用可能なスペースを有効に使用したり、テキストに注目を集めたりするなどの理由から、テキストが垂直に提示される場合がある。テキストの行がユーザによって下から上に読み取られることは稀である。画像の上から下又は下から上に読み取られるテキストについて、テキストは垂直行として提示され、行は９０度の方向を有し、個々の文字は０度の方向を有する。

訓練データセットは、テキストが従来提示される様々な方向に適応するためのサンプルを含む。訓練中、そして画像分析中も、両方向でテキスト分類を実行することによって、テキスト分類ソフトウェアの精度が向上する。よって、テキストの水平行は、テキスト分類ソフトウェアによって、左から右及び右から左の両方から読み取られる。同様に、テキストの垂直行は、テキスト分類ソフトウェアによって、上から下及び下から上の両方から読み取られる。よって、行の属性を記録するための画像分析は、特定の言語の読み取り慣習によって制約されない。したがって、テキストの行が水平方向を有すると識別されたならば、言語属性が英語クラスに対応するかアラビア語クラスに対応するかにかかわらず、テキスト分類は、テキストを左から右と右から左との両方から読み取ることによって属性分析を実行する。

文書が傾いて方向付けられているならば、これを検出することができ、したがって、画像の正しい方向が記録されうる。したがって、方位属性が９０度、１８０度、又は２７０度のクラスに対応するものとして記録されるならば、これは、画像が正しく方向付けられていないことを示し、したがって、記録された方向クラスを補償するために回転されるべきである。必要に応じて、テキスト認識ソフトウェアによって文書の回転が実行され、その結果、テキストは従来の方向でユーザに提示される。

図２は、データセットの文字を１つ以上の属性に関連付けるためにニューラル・ネットワークがどのように訓練されうるかを示すフローチャート（Ｓ２１０）である。

ステップＳ２１１において、テキストのサンプルを含むデータセットが編集され、各サンプルは、特定のクラスに対応するものとして識別される属性を有する。この例では、Ｓ２１１のデータセットは、特定の（文字体系、方向）クラスに属するものとしてそれぞれ識別されるテキストのサンプルを含む。

ステップＳ２１２において、ニューラル・ネットワークは、データセットのサンプルを各特定のクラスに関連付けるように訓練される。訓練されると、ニューラル・ネットワークは、異なるクラスを有するサンプルを区別できる。よって、テキスト分類装置１００は、訓練されたニューラル・ネットワークを利用して、以前に遭遇していない画像の属性を識別できるように構成される。

図３は、画像分類を示すフローチャートＳ２２０である。ステップＳ２２１において、画像は、テキストの複数の行にセグメント化される。図４Ａ及び図４Ｂは、画像セグメント化の例を示す。図４Ａでは、画像４００が水平行４０１～４１２にセグメント化される。図４Ｂでは、画像４５０が垂直行４５１～４５７にセグメント化される。テキストの行４０１～４１２、４５１～４５７は、セグメント化されたテキストを囲む境界ボックスによって示される。

この構成は、テキストの行４０１～４１２、４５１～４５７を個々の文字にセグメント化することを必要としない。例えば、個々の文字が同じ接続された構成要素に対応すること、筆記が結合されたフォントで書かれているか、連字、リガンド又は下線テキストを含むことに起因して、文字セグメント化は多くのテキスト画像にとって特に困難である。文字セグメント化を実行せずに行単位のレベルの分析を実行すると、テキスト分類の精度が向上する。

ステップＳ２２２において、テキストの複数の行が、テキスト認識が実行されるべき順序に並べられる。この目的は、分類が最も正確であると予想される行に対してテキスト分類が実行されるようにすることである。これは、画像が十分な信頼のレベルに分類されると属性分析が停止されるため、画像分類の実行時に処理負担を低減するのに役立つ。

順序は、テキストの行のアスペクト比に基づいて記録される。テキストの各行の境界ボックスは、長辺を短辺で除算したものに等しいアスペクト比を有する長方形である。アスペクト比が高いテキストほど多くの文字を含む可能性が高いため、テキストの行は、最大から最小へアスペクト比によって順序付けられる。

テキストの行に対応するセグメント化部１１０によってセグメント化された特徴の確率は、選択部１２０がアスペクト比の逆正接を計算する計算される。アスペクト比は、長方形の長辺を長方形の短辺で除算することによって計算されるため、１よりも大きい数である。「行の信頼性」測度は、アスペクト比の逆正接を取り、この結果をπ／２で除算することによって計算される。結果として、この数は０と１との間の確率測度を提供し、よって、検出された特徴がテキストの行に対応することの信頼性を示す。
行の信頼性＝ａｒｃｔａｎ（アスペクト比）×２／π

ａｒｃｔａｎ関数は、アスペクト比が増加することにつれて、行の信頼性の確率測度が単調増加するので有用である。アスペクト比は真に正の量であるため、この計算は０よりも大きい数をもたらす。ａｒｃｔａｎ関数はラジアンを使用して構成されているため、π／２での除算は、１未満の数を提供する。結果として、テキストの行が識別されたかどうかを識別するために確率測度が提供される。行であると識別された候補について、行の信頼性の測度が最大である対応する行を選択することによって、最大のアスペクト比を有する行が選択される。

ステップＳ２２３において、複数の行からテキストの行が選択される。最大のアスペクト比を有するテキストの行が選択される。テキストの更なる行を選択する必要があるならば、次に高い比を有するテキストの行が選択される。テキストの行の選択は、画像の大域クラスの識別が閾値信頼レベルを超えるまで、又はテキストのすべての行が分析されるまで続く。

ステップＳ２２４において、テキストの行に対応するクラスのシーケンスが識別される。認識されたシーケンスの例が図５Ａ～図５Ｄに示され、これらは、いくつかの例示的な文書から抽出された行サンプル５０１～５０４の模式図を示す。行サンプル５０１～５０４のそれぞれについて、（文字体系、方向）属性が検出され、（文字体系、方向）クラスのシーケンスの記録がもたらされる。

図５Ａの行５０１について、クラス５１１～５１５のシーケンスは、以下のように出力される。
（文字体系、方向）＝（ラテン語、０°）、（ラテン語、０°）、（句読文字、０°）、（ラテン語、１８０°）、及び（ラテン語、０°）。

図５Ｂの行５０２について、クラス５２１～５２５のシーケンスは、以下のように出力される。
（文字体系、方向）＝（キリル語、９０度）、（キリル語、９０度）、（キリル語、９０度）、（ラテン語、９０度）、及び（キリル語、９０度）。

図５Ｃの行５０３について、クラス５３１～５３５のシーケンスは、以下のように出力される。
（文字体系、方向）＝（韓国語、１８０度）、（韓国語、１８０度）、（中国語、１８０度）、（韓国語、１８０度）、及び（韓国語、１８０度）。

図５Ｄの行５０４について、クラス５４１～５４５のシーケンスは、以下のように出力される。
（文字体系、方向）＝（中国語、２７０度）、（中国語、２７０度）、（中国語、２７０度）、（中国語、２７０度）、及び（中国語、２７０度）。

図５Ａの行５０１のシーケンス５１３のメンバに関して、文字体系クラスは句読文字であると識別される。これは、画像の大域クラスの記録から句読文字、スペース、数字のような文字を排除することによって処理される。代替として、ニューラル・ネットワークは、句読文字分析が大域クラスの記録に寄与するように、異なる文字体系に使用される句読文字を区別するように訓練されうる。

図５Ａの行５０１におけるシーケンス５１４のメンバに関して、１８０度の方向クラスが誤って検出される。この正しくない方向が検出されることの考えられる理由は、文字対（ｕ、ｎ）、（ｐ、ｄ）、及び（Ｍ、Ｗ）のように、いくつかの文字対が逆方向で同じに見えることでありうる。これは、異なる方向で文字体系を認識するようにニューラル・ネットワークを訓練することによって緩和されえ、その結果、検出時に、ニューラル・ネットワークは文字対の存在を考慮に入れることができ、その結果、このような文字は大域クラスの検出から排除されうる。

図５Ｂの行５０２におけるシーケンス５２４のメンバに関して、ラテン語の文字体系クラスが誤って検出される。この正しくない文字体系の記録の考えられる理由は、多くの文字体系が互いに同一又は類似の文字を有することである。これは、異なる文字体系のどの文字が互いに類似しているかを認識するようにニューラル・ネットワークを訓練することによって緩和されえ、その結果、このような文字が大域クラスの検出から排除されうる。

図５Ｃの行５０３におけるシーケンス５３３のメンバに関して、中国語の文字体系クラスは正確に検出されているが、これは、追加のコンテキストを提供する中国語文字を含む韓国語文書に対応する。韓国語と同様に、多くの言語は一般に、他の言語の要素を含む。韓国語文字体系の検出に基づいてＯＣＲをカスタマイズする場合に、曖昧さの解消のために韓国語テキストが中国語文字を含むことが通常であるという事実が考慮される。同様に、追加のコンテキストを提供するために英語テキストが含まれることが非常に一般的であるため、すべての言語に対するＯＣＲのカスタマイズは、英語を読み取るようにカスタマイズされるようにも構成される。

文字体系及び言語記録部１４０は、当該事実を認識しており、同じページ内の中国語及びフランス語を処理するのと同じ方法で同じページ内の中国語及び韓国語を処理しない。同じページの中国語及びフランス語は、フランス語及び中国語が混在するページとして分類され、（予想される割合を有する）同じページの中国語及び韓国語は純粋な韓国語として分類される。この処理は、「曖昧さの解決」として知られている。

これは、対応する最大部分を有するすべての言語で受け入れられた外国語包含のテーブルを保持し、可能であればその当該外国語の文字を最良の言語に割り当てることによって行われる。最良の言語の文字数に対する外国語の文字数の比率が、許容される外国語のテーブルで指定された範囲内であるならば、包含は可能であるとみなされる。

図５Ｄの行５０４におけるシーケンス５４１～５４５のメンバに関して、後続の属性分析は、中国語文字体系クラスが繁体字中国語サブクラスに対応するか簡体字中国語サブクラスに対応するかを記録するが、それは文字体系属性分析段階の後にサブクラスを記録することがより正確であることが分かっているからである。

大域結果についての信頼レベルが閾値を超えるならば、特定の検出の誤りが排除されうる。よって、この誤りは、０度の十分な数の正しい結果が検出されたならば、大域クラスの最終結果に影響を与えない。

ステップＳ２２５において、選択された行について、各クラスの頻度が記録される。

図５Ａの行５０１について、
‐クラス（ラテン語、０度）について、３の頻度が記録され、
‐クラス（句読文字、０度）について、１の頻度が記録され、
‐クラス（ラテン語、１８０度）について、１の頻度が記録される。

図５Ｂの行５０２について、
‐クラス（キリル語、９０度）について、４の頻度が記録され、
‐クラス（ラテン語、９０度）について、１の頻度が記録される。

図５Ｃの行５０３について、
‐クラス（韓国語、１８０度）について、５の頻度が記録される。

図５Ｄの行５０４について、
‐クラス（中国語、２７０度）について、５の頻度が記録される。

ステップＳ２２６において、文書の大域クラスが、信頼性の要求されたレベルまで検出されたかどうかの評価が行われる。信頼レベルは、分析されたテキストの行のすべてに基づいて計算される。この信頼レベルは、記録部１４０によって記録される。

「大域クラス」は、画像に全体として関連付けられたクラスを識別する。大域クラスを評価するために使用される計算の詳細は、以下に提供される（図７Ｃの議論を参照されたい）。

ステップＳ２２７において、信頼レベルが閾値を超えるかどうかの評価が行われる。信頼レベルが閾値を超えるならば、処理はステップＳ２２８に進む。信頼レベルが閾値を超えないならば、処理はステップＳ２２３に戻り、テキストの行のすべてが分析されるまで、テキストの別の行が選択される。

テキストの行のすべてが分析されたならば、処理はステップＳ２２８に進み、テキストの行のすべてに利用可能な属性分析を利用する。信頼レベルが閾値を超えるならば、大域クラスが画像に関連付けられる。しかし、テキストの利用可能な行のすべてを分析した後、大域クラスが閾値を超えないならば、検出されたクラスをカバーするＯＣＲの幅広いカスタマイズを選択する必要がある。この評価は、画像がテキストの単一の行を含む状況に適用される。

ステップＳ２２８において、大域クラスの記録が行われる。大域クラスが高い信頼レベルで識別されるならば、これは、文書全体が属性の単一のクラスに関連付けられうることを示す。文書の大域クラスが画像に関連付けられ、大域クラスは特定の大域クラスに合わせてＯＣＲを実行するためにＯＣＲ部１０６によって使用される。結果として、特定の大域クラスについて画像分析が実行され、これは処理によって使用される計算リソースを低減する。

大域クラスが低い信頼レベルで識別されるならば、これは、属性分析における誤りを示すことができるか、又は複数のクラスに属するテキストを文書全体が含むことを示すことができる。この場合に、文書の大域クラスは、複数のクラスが検出されたことを識別する。この大域クラス情報は、画像に関連付けられ、ＯＣＲ部１０６によって、後続の分析のためにより広い範囲のクラスを利用してＯＣＲを実行するために使用される。その結果、ＯＣＲ部１５０によるＯＣＲ画像分析は、特定のクラスに限定されず、広範な画像分析が実行されることを保証する。

画像は、複数の大域クラスに関連付けられることが可能である。結果として、これは、複数のクラスを含む画像、又は適切な大域クラスを正確に識別することが不可能な画像の分類を可能にする。記録部１４０は、テキストの選択された行について、複数の大域クラスを記録するように構成され、複数の大域クラスの各大域クラスは、クラスのシーケンスのうちのクラスに対応する。分類部１５０は、複数の大域クラスのそれぞれの信頼レベルに基づいて、複数の大域クラスに従って画像を分類するように構成される。

文字体系及び方向分類の対象となった文字体系のサンプルが図６Ａ～図６Ｄに示される。

図６Ａは、（韓国語、０度）クラスに（文字体系、方向）属性を有するものとして識別されるテキストのサンプルを示す。

図６Ｂは、（キリル語、１８０度）クラスに（文字体系、方向）属性を有するものとして識別されるテキストのサンプルを示す。

図６Ｃは、（アラビア語、９０度）クラスに（文字体系、方向）属性を有するものとして識別されるテキストのサンプルを示す。

図６Ｄは、（ラテン語、２７０度）クラスに（文字体系、方向）属性を有するものとして識別されるテキストのサンプルを示す。

図７Ａ～Ｃは、特定の画像サンプルの画像分類を説明するのに役立つ。図７Ａは、キストの複数の行を含む文書の入力画像を示す。図７Ｂは、行セグメント化の結果を示し、行７０１～７０５は、それらのアスペクト比によって順序付けられている。最大のアスペクト比を有するものとして識別されるので、行７０１でテキスト分類が最初に実行される。更なるテキスト分類を実行する必要があるならば、行７０２が選択される。これは、信頼レベルが閾値を超えるか、又は行７０１～７０５のすべてがテキスト分類の対象となるまで続く。図７Ｂは、各行について、アスペクト比の逆正接として計算され、π／２で除算された行パラメータの信頼性についての値を含む。したがって、誤って特徴付けられた文書の断片、グラフィック、署名、ボックス、ノイズ、又は影のような、行ではない特徴を考慮から排除しながら、最大のアスペクト比を有する最も適切な行を選択することが可能である。

図７Ｃは、テキスト分類の結果を示す表を提供する。テキストの各行は、文字体系及び方向に従って行を分類するためのニューラル・ネットワークを通過する。結果のリストが形成され、リストの各要素はフィールド（文字体系、方向、頻度）を含む。このリストは、各結果について頻度の降順に並べられている。行が処理された後、最良の結果の頻度と２番目に良い結果の頻度との間のパーセンテージ差として規定される結果の信頼値が計算される。

結果の信頼性が、経験的に規定された閾値よりも大きかったならば、処理は停止し、画像は、最も高い頻度を有する（文字体系、方向）クラスに従って分類される。それ以外の場合に、テキストの行から次の行が処理され、新たな行からの結果で結果のリストが更新される。文字体系及び方向の結果が十分に高い信頼レベルで見つかるまで、又は行のすべてが処理されるまで、処理が続く。

図７Ｃの行１（特徴７０１）について、（文字体系、方向）属性は、１９の頻度を有する（キリル語、０度）クラス、及び１８の頻度を有する（ラテン語、０度）クラスにあるものとして識別される。これは評価される唯一の行であるため、行１（特徴７０１）は全体的な結果に寄与する。

信頼値は、パーセンテージ、すなわち（最も高い頻度のクラス－２番目に高い頻度のクラス）／２番目に高い頻度クラス、として計算される。

この式は、分類が終了したか否かの評価を可能にする。信頼値のこの計算の統計的有意性は、最も高い頻度のクラスが、識別された他のクラスよりもはるかに高いならば、それが選択されることである。１つの特定のクラスが他のクラスよりもはるかに高い信頼性で検出されるならば、信頼値は高くなり、他のクラスが大域クラスの評価から無視されることを可能にする。
‐行１について、（１９－１８）／１８＝５．５％。
‐行２について、（３５－２５）／２５＝４０％。
‐行３について、（５３－３４）／３４＝５５．８％。
‐行４について、（６３－４５）／４５＝４０％。
‐行５について、（７２－４５）／４５＝６０％。

本サンプルについて、信頼閾値は６０％の値に設定される。したがって、図７Ｃの行５について大域結果が記録された後、テキスト分類が終了し、（文字体系、方向）属性が６０％の信頼レベルで（キリル語、０度）大域クラスであると記録される大域結果を返す。

表の行は、テキストの追加の行を含むように分析が進行するにつれて、候補の（文字体系、方向）クラスのリストが維持され、このリストは信頼性の降順に並べらえることを示す。このリストは、より多くの行が処理されるにつれて更新される。すでに存在する候補は、新たな候補が追加される際に、自身の信頼性が増加することがわかる。最終的に、リストは、画像の少なくとも一部に見出された文字体系及び方向のすべての分析を提供する。

このリストから、最も高い信頼性に対応する結果が、画像の（文字体系、方向）大域クラスとして割り当てられる。ＯＣＲ部１０６は、この大域クラスについてカスタマイズされる。

最後に少数の候補が高い信頼性を有するならば、これらの（文字体系、方向）大域クラスの両方が返されうる。これは、クラスの混合が識別されたことを示す。この場合に、ＯＣＲ部１０６は、返された（文字体系、方向）大域クラスのすべてに従ってカスタマイズされうる。よって、行レベルでは、画像上に１つの行のみが存在しない限り、曖昧さの解決は行われない

例えば、文書がキリル語文字体系クラス及びラテン語文字体系クラスのテキストを含むならば、曖昧さの解決のために、異なる文字体系を区別するために個々の行をセグメント化する必要はない。これは、テキスト分類ソフトウェアがテキストの特定の行における複数の文字体系の存在を処理できるからである。個々のクラスのメンバの頻度は、大域クラスを記録するために、複数の行にわたって累積的に評価される。ＯＣＲ部のカスタマイズに有益であることが記録されるならば、画像は、複数の大域クラスに関連付けられうる。

本技術は、分析されたテキストの行からできるだけ多くの情報を利用し、それゆえ、テキスト分類の精度を向上する。これが実現されるのは、、収集されたデータのいずれも無視することなく、１つ以上の大域クラスの評価が累積頻度分析を利用するためである。例えば、図７Ａ～Ｃは、各行に関連する（文字体系、方向、頻度）クラス・データのすべてと、各識別されたクラスとを利用して識別される（文字体系、方向）大域クラスを示す。画像に関するより多くの情報を収集することにより、大域クラス記録の精度を高めることができる。これは、テキストのより少ない行の分析を実行することによって大域クラスの正確な記録が実現されるため、処理速度を向上させる。

また、上記の例は、上述の例の機能を実現するためにメモリ・デバイスに記録されたプログラムを読み出し実行するシステム又は装置（又はＣＰＵやＭＰＵのようなデバイス）のコンピュータによって、及び例えば上述の例の機能を実現するためにメモリ・デバイスに記録されたプログラムを読み出し実行することによって、システム又は装置のコンピュータによって実行されるステップを有する方法によって、実現されうる。このために、プログラムは例えば、ネットワークを介して、又はメモリ・デバイスとして機能する様々なタイプの記録媒体（例えば、非一時的なコンピュータ可読媒体のようなコンピュータ可読媒体）から、コンピュータに提供される。

本開示は例示的な実施形態を説明してきたが、いくつかの実施形態は開示された実施形態に限定されないことが理解されよう。実施形態は、本開示の主要な特徴から逸脱することなく、様々な形態で実施されうる。以下の特許請求の範囲はそのようなすべての変形及び均等な構造及び機能を包含するように、最も広い解釈が与えられるべきである。

Claims

テキスト分類装置であって、
画像をテキストの複数の行にセグメント化するように構成されたセグメント化部と、
テキストの前記複数の行からテキストの行を選択するように構成された選択部と、
テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部であって、各クラスは、文字体系と方向との両方を含む、識別部と、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置。
請求項１に記載のテキスト分類装置であって、
前記記録部は、テキストの前記選択された行について、
クラスの前記シーケンス内のクラスのそれぞれに関連付けられた頻度と、
前記大域クラスがクラスの前記シーケンスのうちの最高頻度のクラスに対応するかどうかを確立する前記信頼レベルと、を記録するように構成される、テキスト分類装置。
請求項１に記載のテキスト分類装置であって、
前記選択部は、前記信頼レベルが閾値よりも下であるならば、テキストの別の行を選択するように構成され、
前記識別部は、テキストの前記選択された行に対応するクラスの複数のシーケンスを識別するように構成され、
前記記録部は、テキストの前記選択された行について、クラスの前記複数のシーケンスのうちのクラスに対応する前記大域クラスを記録するように構成される、テキスト分類装置。
請求項１に記載のテキスト分類装置であって、
前記分類部は、前記信頼レベルが閾値よりも上であるならば、前記大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。
請求項１に記載のテキスト分類装置であって、
前記分類部は、前記信頼レベルが閾値よりも下であるならば、複数の大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。
請求項１に記載のテキスト分類装置であって、
前記選択部は、テキストの前記行のアスペクト比に基づいてテキストの前記行を選択するように構成される、テキスト分類装置。
請求項１に記載のテキスト分類装置であって、
前記テキストの前記方向に基づいて、ユーザに提示される前に画像の前記方向が修正される、テキスト分類装置。
請求項１に記載のテキスト分類装置であって、
テキストの複数のサンプルを含むデータセットを使用して前記クラスを認識するように訓練されたニューラル・ネットワークをさらに備える、テキスト分類装置。
請求項８に記載のテキスト分類装置であって、
前記データセットは、テキストの前記複数のサンプルの複数の方向を含む、テキスト分類装置。
請求項８に記載のテキスト分類装置であって、前記ニューラル・ネットワークは、
テキストの前記行の画像認識を実行するように構成された畳み込みニューラル・ネットワークと、
テキストの前記行のシーケンス認識を実行するように構成された再帰型ニューラル・ネットワークと、を含む、テキスト分類装置。
請求項１に記載のテキスト分類装置であって、
前記記録部は、テキストの前記選択された行について、複数の大域クラスを記録するように構成され、前記複数の大域クラスのそれぞれの大域クラスは、クラスの前記シーケンスのうちのクラスに対応し、
前記分類部は、前記複数の大域クラスのそれぞれの信頼レベルに基づいて、前記複数の大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。
光学式文字認識装置であって、
テキスト分類装置であって、
画像をテキストの複数の行にセグメント化するように構成されたセグメント化部と、
テキストの前記複数の行からテキストの行を選択するように構成された選択部と、
テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部であって、各クラスは、文字体系と方向との両方を含む、識別部と、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置と、
前記画像を分類する前記大域クラスを適用することによって、前記画像に対して光学式文字認識を実行するように構成された光学式文字認識部と、を備える、光学式文字認識装置。
テキスト分類方法であって、
画像をテキストの複数の行にセグメント化することと、
テキストの前記複数の行からテキストの行を選択することと、
テキストの前記選択された行に対応するクラスのシーケンスを識別することであって、各クラスは、文字体系と方向との両方を含む、ことと、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録することと、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類することと、を有するテキスト分類方法。
テキスト分類装置によって実行される場合に、前記テキスト分類装置にテキスト分類方法を実行させるプログラムであって、前記テキスト分類方法は、
画像をテキストの複数の行にセグメント化することと、
テキストの前記複数の行からテキストの行を選択することと、
テキストの前記選択された行に対応するクラスのシーケンスを識別することであって、各クラスは、文字体系と方向との両方を含む、ことと、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録することと、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類することと、を有する、プログラム。