JP2022095326A

JP2022095326A - 情報処理装置、その制御方法及びプログラム

Info

Publication number: JP2022095326A
Application number: JP2020208593A
Authority: JP
Inventors: 義高松本; Yoshitaka Matsumoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2022-06-28

Abstract

【課題】テキストデータを含んだ文書ファイルについて、ＯＣＲ処理の実行の必要性を効率的かつ高精度に判定することを目的とする。【解決手段】文書ファイル内に含まれているテキストデータに対して自然言語処理を実行し、その結果に基づいて、テキストデータが示す文字の文字精度を判定する。そして、文字精度が低い場合にはＯＣＲ処理が必要と判定し、文字精度が高い場合にはＯＣＲ処理が不要と判定する。【選択図】図５

Description

本発明は、ＯＣＲ処理の実行制御技術に関する。

従来より、文書画像に対してＯＣＲ処理を実施してテキストデータを抽出し、当該テキストデータをイメージ内の対応する位置に透明テキストとして埋め込むことで、任意の文字を検索可能な文書ファイルを作成する技術が普及している。このような、テキストデータを含んだ文書ファイルの代表的な例としては、サーチャブルＰＤＦ（Searchable Portable Document Format）形式の文書ファイルがある。

上記サーチャブルＰＤＦは、テキストデータを含まないイメージデータのみから成るＰＤＦ（以下、「イメージＰＤＦ」と呼ぶ。）と比べ、文書画像内の文字を検索・二次利用できるという点で利便性が高い。その一方、テキストデータが示す文字列の文字精度が低いと、十分な文字検索や二次利用ができないという問題があった。この点、文字精度の高いテキストデータを埋め込むための手法として、特許文献１がある。

特許文献１の手法では、まず、ユーザは文書画像のＯＣＲ結果が正しいか否かを目視でチェックする。ユーザが正しいと判断した場合は、情報処理装置はそのＯＣＲ結果を透明テキストとして埋め込んでサーチャブルＰＤＦを生成し保存する。一方、ユーザが、ＯＣＲ結果が誤っていると判断した場合は、情報処理装置は再度ＯＣＲ処理を実行し、新たにＯＣＲ結果を取得してユーザによるチェックをやり直す。このような手法により、文字精度の高いテキストデータを含んだサーチャブルＰＤＦの生成・保存を可能にしている。

特開２０１８－１８０９７７

しかしながら、上記特許文献１の手法は、再度のＯＣＲ処理の実行をユーザの目視によるチェックに掛からしめている為に作業効率が悪い。またユーザの手作業に依存するため見落としなども発生しやすい。

本件は、上記課題に鑑みてなされたものであり、文書ファイルについてのＯＣＲ処理の実行の必要性を効率的かつ高精度に判定できるようにすることを目的とする。

本開示に係る情報処理装置は、文字が記載された文書のイメージデータを少なくとも含む文書ファイルを取得する取得手段と、前記文書ファイルに前記文字を表すテキストデータが含まれる場合、当該テキストデータに対して自然言語処理を実行する第１処理手段と、前記自然言語処理の結果に基づいて、前記イメージデータに対する文字認識処理の要否を判定する第１判定手段と、を備えることを特徴とする。

本開示の技術によれば、文書ファイルについてのＯＣＲ処理の実行の必要性を効率的かつ高精度に判定することができる。

文書管理システムの構成の一例を表す図情報処理装置のハードウェア構成を示す図情報処理装置のソフトウェア構成を示す図サーチャブルＰＤＦの文書ファイルからのデータ抽出を説明する図ファイル編集処理の手順を示すフローチャート（ａ）及び（ｂ）は、固有表現抽出の一例を示す図変形例１の適用例を説明する図変形例２の適用例を説明する図

以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

［実施形態１］
＜文書管理システムの全体構成＞
図１は、本実施形態に係る、文書管理システムの構成の一例を表す図である。文書管理システムは、情報処理装置１０１及び１０２を有する。情報処理装置１０１と１０２は、ＬＡＮ１１０により相互に接続されて、通信可能である。

図１には、２つの情報処理装置１０１及び１０２が示されているが、情報処理装置の数は任意である。以下では、文書ファイルの編集処理を情報処理装置１０１で行い、ストレージとしての情報処理装置１０２に文書ファイルを送信して保存する業務フローを例として説明を行うものとする。ただし、システム構成は図１の例に限定されるものではなく、１台の情報処理装置がファイル編集とストレージの両機能を併有してもよいし、ファイル編集処理を複数の情報処理装置で分担してもよい。

また、本実施形態では保存処理の対象として、前述のサーチャブルＰＤＦ又はイメージＰＤＦのファイル形式を有する文書ファイルが入力される場合を例に説明を行うものとする。また、サーチャブルＰＤＦには、文書作成用のアプリケーションプラグラムで生成されたものの他、紙文書のスキャン画像のＯＣＲ結果を利用して生成されたものの２種類があるものとする。

＜ハードウェア構成＞
図２は、ファイル編集処理を担う情報処理装置１０１のハードウェア構成を示すブロック図である。情報処理装置１０１は、ＣＰＵ２０１、ＲＡＭ２０２、ＨＤＤ２０３、ネットワークＩ／Ｆ２０４、操作部Ｉ／Ｆ２０５、操作部２０６から構成される。

ＣＰＵ２０１は、ＨＤＤ２０３に記憶された様々な制御プログラム（後述のソフトウェア構成図で示す各種機能に対応するプログラム）を読み出して実行する。ＣＰＵ２０１はまた、情報処理装置１０１全体を、及び各部とのデータの授受を制御可能である。ＲＡＭ２０２は、ＣＰＵ２０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施形態では１つのＣＰＵ２１１が１つのメモリ（ＲＡＭ２０２又はＨＤＤ２０３）を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されない。例えば、複数のＣＰＵや複数のＲＡＭ又はＨＤＤを協働させて各処理を実行してもよい。ＨＤＤ２０３は、画像データや各種プログラムを記憶する大容量記憶部である。ネットワークＩ／Ｆ２０４は、情報処理装置１０１をＬＡＮ１１０に接続するインタフェースである。操作部Ｉ／Ｆ２０５は操作部２０６を各部と接続するインタフェースである。操作部２０６はユーザによる操作／入力／指示を受け付けてＣＰＵ２０１に伝達し、操作に必要な画面情報をユーザに表示する。

以上説明した情報処理装置１０１のハードウェア構成は一例であり、必要に応じてその他の構成を備えるものであってもよいし、一部の構成を有していなくてもよい。なお、ストレージ機能を担う情報処理装置１０２も、情報処理装置１０１と同様のハードウェア構成を有するものとする。

＜ソフトウェア構成＞
図３は、情報処理装置１０１においてファイル編集処理を実現するためのソフトウェア構成を示すブロック図である。情報処理装置１０１はソフトウェア３００がインストールされている。ソフトウェア３００は、ＬＡＮ１１０上のクライアントＰＣ（不図示）等から入力された文書ファイルが、文字検索可能なファイル形式のサーチャブルＰＤＦである場合、ファイル内のテキストデータに対して自然言語処理を行って、その結果に基づいて文字精度を判定する。そして、文字精度が所定のレベルに達しないと推測される場合には、サーチャブルＰＤＦに含まれるイメージデータに対してＯＣＲ処理を実行する。そして、ＯＣＲ処理で得られた文字列をテキストデータとしたサーチャブルＰＤＦを生成し、ストレージとしての情報処理装置１０２に送信して保存させる。このようなファイル編集処理を実現するためにソフトウェア３００は、メイン制御部３０１、ファイル入出力部３０２、データ抽出部３０３、ＯＣＲ処理部３０４、自然言語処理部３０５、文字精度判定部３０６を有する。なお、ソフトウェア３００が有する上記各機能部は、例えば、ファイル管理ソフト、画像編集ソフト、ワードプロセッサソフト、表計算ソフト、データベースソフト等の任意のソフトウェアに組み込まれていてもよい。以下、ソフトウェア３００の各機能部について説明する。

メイン制御部３０１は、他の機能部を統括的に制御する。ファイル入出力部３０２は、メイン制御部３０１の指示に基づき、編集処理の対象となる文書ファイルの入力を受け付けたり、編集された文書ファイルを情報処理装置１０２に出力したりする。

データ抽出部３０３は、ファイル入出力部３０２が受け付けた文書ファイルから、ファイル編集処理に必要なデータを抽出する処理を行う。例えば、入力された文書ファイルのファイル形式がサーチャブルＰＤＦの場合、イメージデータとテキストデータの両方の抽出を行う。図４は、サーチャブルＰＤＦの文書ファイルからのデータ抽出を説明する図である。サーチャブルＰＤＦの文書ファイル４０１には、イメージデータ４０２とテキストデータ４０３とが含まれている。図４に示すイメージデータ４０２は、「〒１００－９９９９」、「東京都港区１－１－１」、「品川株式会社」の３つの文字列をビットマップ画像の形式で表現している。テキストデータ４０３は、上記３つの文字列について、各文字列を構成する文字それぞれの文字コードやフォントといったテキスト情報４３１を、イメージデータ４０２上で各文字が存在する位置と対応付けて、透明テキストの形式で保持している。このようなイメージデータとテキストデータの両方が、サーチャブルＰＤＦの文書ファイルからは抽出されることになる。また、入力された文書ファイルのファイル形式がイメージＰＤＦの場合には、イメージデータのみが抽出されることになる。

ＯＣＲ処理部３０４は、データ抽出部３０３によって抽出されたイメージデータに対してＯＣＲ（Optical character recognition）処理を実行する。ＯＣＲ処理には、文書画像をＯＣＲに適した画像に修正する画像前処理、文書画像から文字の記載領域（文字ブロック）を抽出する処理、抽出された文字ブロックに含まれる各文字をその読み順（並び方向）に沿って識別する文字認識処理が含まれる。

自然言語処理部３０５は、データ抽出部３０３によって抽出されたテキストデータに対して、自然言語処理を実行する。自然言語処理では、テキストデータが表す文字列に対して形態素解析を行い、その結果に対して固有表現抽出を行って、人名、地名、組織名、日付表現、時間表現といった項目（固有表現分類）に分類する処理が行われる。例えば、前述の図４に示す「〒１００－９９９９東京都港区１－１－１品川株式会社」という文字列に自然言語処理を行う場合を考える。まず形態素解析で“〒１００－９９９９”、“東京都港区１－１－１”及び“品川株式会社”という３つの単語に分割される。次に分割された単語毎に固有表現を抽出し、それぞれの単語に当てはまる固有表現分類に分類する。いま、“〒１００－９９９９”については「郵便番号」、“東京都港区１－１－１”については「住所」、“品川株式会社”については「会社名」のように分類されることになる。このようにしてテキストデータの固有表現が抽出・分類される。この固有表現抽出は、例えば、大量の文書ファイルを計算機によって学習させることで実現可能である。本実施形態では、大量の文書ファイルを学習することで得られる学習データを用いて固有表現抽出を行うものとするが、固有表現抽出の方法はこれに限定されない。例えば、予め用意した辞書データと文字列とを比較して固有表現抽出を行ってもよい。

文字精度判定部３０６は、自然言語処理の結果に基づいて文字精度を判定する。より詳細には、自然言語処理による固有表現抽出の成功割合が高いほど文字精度が高いと判定する。

＜ファイル編集処理の詳細＞
図５は、上述のソフトウェア３００によって実現される、本実施形態に係る、ファイル編集処理の詳細手順を説明するフローチャートである。図５に示すフローは、情報処理装置１０１が、不図示のクライアントＰＣ等から文書ファイルをその保存指示と共に受信すると開始する。なお、以下の説明において記号「Ｓ」はステップを表す。

まず、Ｓ５０１では、ファイル入出力部３０２によって、処理対象となる文書ファイルが取得される。取得された文書ファイルは、ＲＡＭ２０２に格納される。

次に、Ｓ５０２では、データ抽出部３０３が、Ｓ５０１にて取得された処理対象の文書ファイルに含まれているデータを抽出する。ここで、前述のとおり、文書ファイルのファイル形式がサーチャブルＰＤＦの場合にはイメージデータとテキストデータが抽出され、イメージＰＤＦの場合にはイメージデータが抽出されることになる。抽出されたデータは、ＲＡＭ２０２に格納される。

次のＳ５０３では、データ抽出の結果に基づき、処理が振り分けられる。イメージデータに加えてテキストデータも抽出されていればＳ５０４に進み、イメージデータのみ抽出されていればＳ５０７に進む。処理対象の文書ファイルのファイル形式が、サーチャブルＰＤＦであればテキストデータも含まれているのでＳ５０４に進み、イメージＰＤＦであればテキストデータが含まれていないのでＳ５０７に進むことになる。

Ｓ５０４では、自然言語処理部３０５が、Ｓ５０２にて抽出されたテキストデータが示す文字列に対して上述の自然言語処理を実行する。自然言語処理によって得られた結果は、単語分割された各文字列と、当該各文字列それぞれに対応する固有表現分類の情報とが関連付けられてＲＡＭ２０２に格納される。

Ｓ５０５では、文字精度判定部３０６が、自然言語処理の結果に基づき、文字精度を判定する。ここで、具体例を用いて、本ステップにおける文字精度判定について説明する。まず、図６（ａ）に示す例では、形態素解析後の３つの文字列６０１～６０３のいずれについてもその固有表現分類６０４～６０６が得られており、固有表現抽出がすべて成功している。これに対し、図６（ｂ）に示す例では、形態素解析後の３つの文字列６１１～６１３のうち文字列６１３についてのみ固有表現分類６１４が得られており、残りの２つの文字列６１１と６１２については固有表現抽出に失敗している。そこで、固有表現抽出の成功割合について例えば７０％のような閾値を設け、成功割合が閾値以上であれば文字精度が高い、閾値未満であれば文字精度が低いといった具合に判定を行う。上述の図６（ａ）の例では成功割合が１００％（＝３分の３）なので文字精度が高いと判定され、図６（ｂ）の例では成功割合が３３％なの（≒３分の１）で文字精度が低いと判定されることになる。

次のＳ５０６では、Ｓ５０５における文字精度判定の結果に従って処理が振り分けられる。文字精度が低いと判定されていればイメージデータにＯＣＲ処理を行って新たなテキストデータを取得するべくＳ５０７に進む。一方、文字精度が高いと判定されていればＯＣＲ処理は不要なのでＳ５０９に進む。

Ｓ５０７では、ＯＣＲ処理部３０４が、Ｓ５０２にて抽出されたイメージデータに対してＯＣＲ処理を実行する。これにより、イメージデータに存在する文字ブロック毎に文字認識処理が実行され、文字コードやフォントの情報で構成されるテキストデータが取得される。ここでの文字認識処理としては、例えば文字ブロック内に存在する複数の文字における前後の接続関係から出現可能性の高い文字を判断する機能（言語モデル機能）を有するなど、認識精度の高い文字認識処理を行うことが望ましい。ＯＣＲ処理によって取得したテキストデータはＲＡＭ２０２に格納される。

Ｓ５０８では、メイン制御部３０１が、Ｓ５０７のＯＣＲ処理の結果に基づき、文字検索可能なファイル形式で文書ファイルを生成する。本実施形態では、ＯＣＲ処理によって得られたテキストデータを、イメージデータの対応する位置に透明テキストとして埋め込んだサーチャブルＰＤＦのファイル形式の文書ファイルが生成されることになる。

Ｓ５０９では、ファイル入出力部３０２が、メイン制御部３０１の指示の下、指定された文書ファイルをその保存指示と共に情報処理装置１０２に送信する。そして、情報処理装置１０２において、高精度に文字検索可能なサーチャブルＰＤＦの文書ファイルが保存・管理されることになる。

以上が、本実施形態に係る、ファイル編集処理の流れである。上述の図５のフローは、情報処理装置１０１内で全ての処理が完結することを前提に構成されているが、前述のとおりその機能の一部を別の情報処理装置で行うように構成してもよい。各機能部を別々の情報処理装置に分散配置することで各装置における負荷を軽減し、より高品質なサーチャブルＰＤＦを効率良く生成することが可能となる。なお、各機能部を分散した場合、情報処理装置同士はネットワークを介して処理データ等の授受を行うことになる。この場合のネットワークはイントラネットでもよいし、例えばＯＣＲ処理や自然言語処理の機能を担当する情報処理装置についてはクラウド上に配置し、処理データ等の授受をインターネット経由で行う構成でもよい。

＜変形例１＞
なお、上述の実施形態では、文書内の全ての文字列を対象に自然言語処理を行い、全ての文字列の文字精度を判定する内容となっている。しかしながら、現実の帳票等において、文書内の全ての文字列について適切な固有表現分類が存在するというケースは稀である。そこで、文書内の文字列の中から一部の文字列のみを選択してＳ５０４以降の各処理を実行する態様を変形例として説明する。図７は、見積書の文書ファイルのデータ構造を説明する図である。いま、紙文書である見積書７０１をスキャンして得られた文書画像にＯＣＲ処理をすることで、イメージデータ７０２とテキストデータ７０３とで構成される文書ファイルが得られている。このような帳票の文書ファイルを対象とする場合、文書名、発行日、発行元といった予めその配置が決まっている所定の文字列を選択して、自然言語処理と文字精度判定を行う。図７の例では、３つの文字ブロックに対応する文字列７１１～７１３（文書名を表す“見積書”、発行日を表す“２０１７／０９／１０”、及び発行元を表す“川崎株式会社”）に、自然言語処理と文字精度判定を適用することになる。どの文字列を選択するかは、例えば帳票の種別毎に、選択対象となる文字列のイメージデータ上における位置座標を予め定めておけばよい。これにより、帳票認識などの手法で帳票種別を特定することで任意の文字列を選択することが可能となる。また、例えばファイル名やフォルダパスといった文書ファイルのプロパティで使用されている文字列を選択対象としてもよい。さらには、例えばイメージデータが示す文書全体の画像領域のうち上部三分の一の領域といった特定の画像領域に存在する文字列を選択対象としてもよい。

＜変形例２＞
一般的に、文書内に存在する複数の文字のうちベースラインが同じで互いに近接する文字群は１つの文字ブロックとして扱われる。そのため、例えば図7に示す見積書７０１において、「東京都港区１－１－１」の部分は１つの文字ブロックとなり、一続きの文字列７２０に対応するテキスト情報がテキストデータとして得られることになる。しかしながら、サーチャブルＰＤＦを生成するソフトウェアの中には、例えば文字列の一部に特殊なフォントが使用されていると、当該一部について、本来のテキスト属性ではなくイメージ属性を持たせたテキストデータを生成するものがある。例えば、上述の「東京都港区１－１－１」について、“東京都港区”については文字コードやフォントで特定し、“１－１－１”についてはビットマップイメージで表現するといった具合である。このようにテキストデータの一部にイメージ属性のデータを含む場合、そのままでは本来の一続きの文字ブロック単位での自然言語処理及びそれに続く文字精度判定をすることができない。そこで、テキストデータにイメージ属性のデータが含まれるケースでは、当該部分的なイメージ属性のデータ（以下、「部分イメージ」と呼ぶ。）に対しＯＣＲ処理を実行し、その認識文字を結合して本来の一続きの文字ブロック単位で自然言語処理を行うようにすればよい。

ここで、図８を参照して具体例を説明する。いま、図８（ａ）に示すように、「東京都港区１－１－１」の文字列について、“東京都港区”に対応するテキスト情報８１１を有するテキストデータ８０１と、“１－１－１”に対応する部分イメージ８１１’を有するテキストデータ８０１’が得られている。そして、図８（ｂ）に示すように、“東京都港区”の文字列は、文書全体のイメージデータ７０２の左隅を原点（0,0）として、左上の座標（10，100）と右下の座標（110,120）の位置に存在している。また、“１－１－１”の文字列は、左上の座標（111,100）と右下の座標（140,120）の位置に存在している。このような位置関係にある場合、“東京都港区”の文字列と“１－１－１”の両文字列は、縦方向（Ｙ方向）の位置が同じで、かつ、横方向（Ｘ方向）に接していると判断できる。なお、座標の誤差許容範囲を設定し、許容範囲内にあれば隣接していると判断すればよい。そして、部分イメージで表される文字列が、テキスト情報の文字列に隣接していると判断された場合には、当該部分イメージ対してＯＣＲ処理を実行する。これにより、“１－１－１”の文字列についても文字コードやフォントから成るテキスト情報が得られることになる。そして、“１－１－１”について得られたテキスト情報を、“東京都港区”のテキスト情報と結合して、結合後のテキスト情報で表される文字列に対して自然言語処理を実行する。このような処理により、文字列の一部がイメージ属性のデータで表現されていても、本来の一続きの文字列に対して自然言語処理を行うことが可能となる。なお、ＯＣＲ処理で得られた文字列を結合する前に、結合後の文字列のパターンが固有表現分類に対応する所定の文字列パターンと一致するか否かを判定し、一致する場合にのみ結合を行うようにしてもよい。例えば、固有表現分類「住所」に対応する文字列パターンとしては、一方の文字列が漢字や平仮名といった文字で構成されており、もう一方の文字列が数字やハイフンといった記号で構成されていれば、「住所」の文字列パターンに一致すると判定できる。

＜変形例３＞
上述の実施形態では自然言語処理の結果に基づき文字精度を判定しているが、文書ファイルに付加されたメタデータに含まれる生成元ソフトウェア情報を参照して文字精度を推測することもできる。ここで、生成元ソフトウェア情報とは、当該文書ファイルを生成したソフトウェアを識別可能な情報であり、例えば、Ｍｉｃｒｏｓｏｆｔ（商標）のＯｆｆｉｃｅシリーズのアプリケーションプログラム名（Word、Excel、PowerPoint）などである。処理対象となるサーチャブルＰＤＦの文書ファイルが、上記のような所定の文書作成用プログラムを使って作成されていた場合、そこに含まれているテキストデータが表す文字列の文字精度に疑いを持つ必要はない。文書作成用プログラムによって作成されている場合、例えば片仮名の「ル」という文字が、誤って「ノ」と「レ」の2文字に分離して表現されるようなことは起こり得ないからである。そのため、生成元ソフト情報から文書作成用プログラムによって作成されていることが判明した場合、改めてＯＣＲ処理を行ってテキストデータの再取得を試みる必要はない。そこで、メタデータに含まれる生成元ソフト情報から、テキストデータの信頼性が高い（文字精度が一定レベル以上）と推測できる場合には、直ちにＯＣＲ不要と判断するようにしてもよい。一方、生成元ソフト情報をメタデータとして保持していない文書ファイルも存在する。また、生成元ソフト情報が分かってもそこから文字精度を推測できないこともあり得る。したがって、上述のような自然言語処理の結果に基づき文字精度を判定することが意味を持つことになる。なお、生成元ソフト情報を参照した文字精度の判定を行う場合には、自然言語処理の実行ステップの前段に組み込み、その判定結果によって自然言語処理の実行とその結果に基づく文字精度の判定の実行の要否を決定すればよい。本変形例の場合、必要な場合にだけ自然言語処理とその結果を用いた文字精度の判定を実行することになり、全体の処理時間を短縮できるので、文字精度判定における正確性及び文書ファイル生成の作業効率をさらに向上できる。

［その他の実施形態］
また、上述した自然言語処理によって得られた固有表現分類に基づき例えばファイル名を設定するなど、自然言語処理の結果を２次利用することで、文書ファイルを保存する際のユーザの利便性を向上させることもできる。手入力によるファイル名の設定は効率が悪く作業ミスも発生しやすいところ、自然言語処理の結果から文字精度が高いと判定された文字列を用いることで、信頼性の高いファイル名を自動で設定することができる。

また、本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

文字が記載された文書のイメージデータを少なくとも含む文書ファイルを取得する取得手段と、
前記文書ファイルに前記文字を表すテキストデータが含まれる場合、当該テキストデータに対して自然言語処理を実行する第１処理手段と、
前記自然言語処理の結果に基づいて、前記イメージデータに対する文字認識処理の要否を判定する第１判定手段と、
を備える情報処理装置。
前記第１処理手段は、前記自然言語処理として、前記テキストデータが表す文字列に対し固有表現抽出を実行し、
前記第1判定手段は、前記固有表現抽出の成功割合が閾値未満の場合は前記文字認識処理が必要と判定し、成功割合が閾値以上の場合は前記文字認識処理が不要と判定する、
ことを特徴とする請求項１に記載の情報処理装置。
前記第１処理手段は、前記テキストデータが表す文字列のうち一部の文字列について、前記固有表現抽出を行うことを特徴とする請求項２に記載の情報処理装置。
前記一部の文字列は、前記文書ファイルのプロパティに用いられている文字列であることを特徴とする請求項３に記載の情報処理装置。
前記一部の文字列は、前記イメージデータが示す文書全体の画像領域のうち特定の画像領域に存在する文字列であることを特徴とする請求項３に記載の情報処理装置。
前記一部の文字列は、前記イメージデータにおける所定の位置座標によって特定される文字列であることを特徴とする請求項３に記載の情報処理装置。
前記所定の位置座標は、前記文書の種別毎に予め定められていることを特徴とする請求項６に記載の情報処理装置。
前記第１処理手段は、前記テキストデータにイメージ属性のデータが含まれる場合、
前記イメージ属性のデータに対し文字認識処理を実行し、
前記文字認識処理によって得られた認識文字を、前記テキストデータに含まれるテキスト属性の文字と結合し、
前記結合によって得られた文字列に対して前記固有表現抽出を行う、
ことを特徴とする請求項２に記載の情報処理装置。
前記文書ファイルに生成元のソフトウェアを特定する情報が付加されており当該情報によって特定されるソフトウェアが所定の文書作成用アプリケーションプラグラムである場合、前記イメージデータに対する文字認識処理が不要であると判定する第２判定手段をさらに備えたことを特徴とする請求項１又は２に記載の情報処理装置。
前記第１処理手段は、前記第２判定手段が前記イメージデータに対する文字認識処理が不要と判定した場合、前記自然言語処理を実行しないことを特徴とする請求項９に記載の情報処理装置。
前記第１判定手段が前記イメージデータに対する文字認識処理が必要と判定した場合に、前記イメージデータに対する文字認識処理を行う第２処理手段をさらに備えることを特徴とする請求項１乃至１０のいずれか1項に記載の情報処理装置。
前記第２処理手段が行った文字認識処理によって得られた認識文字が表すテキストデータと、前記文書ファイルに含まれるイメージデータとを関連付けた新たな文書ファイルを生成する生成手段をさらに備えることを特徴とする請求項１１に記載の情報処理装置。
文字が記載された文書のイメージデータを少なくとも含む文書ファイルを取得する取得ステップと、
前記文書ファイルに前記文字を表すテキストデータが含まれる場合、当該テキストデータに対して自然言語処理を実行する処理ステップと、
前記自然言語処理の結果に基づいて、前記イメージデータに対する文字認識処理の要否を判定する判定ステップと、
を含むことを特徴とする情報処理方法。
コンピュータを、請求項１乃至１２のいずれか１項に記載の情報処理装置として機能させるためのプログラム。