JP2022095326A - 情報処理装置、その制御方法及びプログラム - Google Patents
情報処理装置、その制御方法及びプログラム Download PDFInfo
- Publication number
- JP2022095326A JP2022095326A JP2020208593A JP2020208593A JP2022095326A JP 2022095326 A JP2022095326 A JP 2022095326A JP 2020208593 A JP2020208593 A JP 2020208593A JP 2020208593 A JP2020208593 A JP 2020208593A JP 2022095326 A JP2022095326 A JP 2022095326A
- Authority
- JP
- Japan
- Prior art keywords
- character
- information processing
- processing
- document
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】テキストデータを含んだ文書ファイルについて、OCR処理の実行の必要性を効率的かつ高精度に判定することを目的とする。【解決手段】文書ファイル内に含まれているテキストデータに対して自然言語処理を実行し、その結果に基づいて、テキストデータが示す文字の文字精度を判定する。そして、文字精度が低い場合にはOCR処理が必要と判定し、文字精度が高い場合にはOCR処理が不要と判定する。【選択図】 図5
Description
本発明は、OCR処理の実行制御技術に関する。
従来より、文書画像に対してOCR処理を実施してテキストデータを抽出し、当該テキストデータをイメージ内の対応する位置に透明テキストとして埋め込むことで、任意の文字を検索可能な文書ファイルを作成する技術が普及している。このような、テキストデータを含んだ文書ファイルの代表的な例としては、サーチャブルPDF(Searchable Portable Document Format)形式の文書ファイルがある。
上記サーチャブルPDFは、テキストデータを含まないイメージデータのみから成るPDF(以下、「イメージPDF」と呼ぶ。)と比べ、文書画像内の文字を検索・二次利用できるという点で利便性が高い。その一方、テキストデータが示す文字列の文字精度が低いと、十分な文字検索や二次利用ができないという問題があった。この点、文字精度の高いテキストデータを埋め込むための手法として、特許文献1がある。
特許文献1の手法では、まず、ユーザは文書画像のOCR結果が正しいか否かを目視でチェックする。ユーザが正しいと判断した場合は、情報処理装置はそのOCR結果を透明テキストとして埋め込んでサーチャブルPDFを生成し保存する。一方、ユーザが、OCR結果が誤っていると判断した場合は、情報処理装置は再度OCR処理を実行し、新たにOCR結果を取得してユーザによるチェックをやり直す。このような手法により、文字精度の高いテキストデータを含んだサーチャブルPDFの生成・保存を可能にしている。
しかしながら、上記特許文献1の手法は、再度のOCR処理の実行をユーザの目視によるチェックに掛からしめている為に作業効率が悪い。またユーザの手作業に依存するため見落としなども発生しやすい。
本件は、上記課題に鑑みてなされたものであり、文書ファイルについてのOCR処理の実行の必要性を効率的かつ高精度に判定できるようにすることを目的とする。
本開示に係る情報処理装置は、文字が記載された文書のイメージデータを少なくとも含む文書ファイルを取得する取得手段と、前記文書ファイルに前記文字を表すテキストデータが含まれる場合、当該テキストデータに対して自然言語処理を実行する第1処理手段と、前記自然言語処理の結果に基づいて、前記イメージデータに対する文字認識処理の要否を判定する第1判定手段と、を備えることを特徴とする。
本開示の技術によれば、文書ファイルについてのOCR処理の実行の必要性を効率的かつ高精度に判定することができる。
以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。
[実施形態1]
<文書管理システムの全体構成>
図1は、本実施形態に係る、文書管理システムの構成の一例を表す図である。文書管理システムは、情報処理装置101及び102を有する。情報処理装置101と102は、LAN110により相互に接続されて、通信可能である。
<文書管理システムの全体構成>
図1は、本実施形態に係る、文書管理システムの構成の一例を表す図である。文書管理システムは、情報処理装置101及び102を有する。情報処理装置101と102は、LAN110により相互に接続されて、通信可能である。
図1には、2つの情報処理装置101及び102が示されているが、情報処理装置の数は任意である。以下では、文書ファイルの編集処理を情報処理装置101で行い、ストレージとしての情報処理装置102に文書ファイルを送信して保存する業務フローを例として説明を行うものとする。ただし、システム構成は図1の例に限定されるものではなく、1台の情報処理装置がファイル編集とストレージの両機能を併有してもよいし、ファイル編集処理を複数の情報処理装置で分担してもよい。
また、本実施形態では保存処理の対象として、前述のサーチャブルPDF又はイメージPDFのファイル形式を有する文書ファイルが入力される場合を例に説明を行うものとする。また、サーチャブルPDFには、文書作成用のアプリケーションプラグラムで生成されたものの他、紙文書のスキャン画像のOCR結果を利用して生成されたものの2種類があるものとする。
<ハードウェア構成>
図2は、ファイル編集処理を担う情報処理装置101のハードウェア構成を示すブロック図である。情報処理装置101は、CPU201、RAM202、HDD203、ネットワークI/F204、操作部I/F205、操作部206から構成される。
図2は、ファイル編集処理を担う情報処理装置101のハードウェア構成を示すブロック図である。情報処理装置101は、CPU201、RAM202、HDD203、ネットワークI/F204、操作部I/F205、操作部206から構成される。
CPU201は、HDD203に記憶された様々な制御プログラム(後述のソフトウェア構成図で示す各種機能に対応するプログラム)を読み出して実行する。CPU201はまた、情報処理装置101全体を、及び各部とのデータの授受を制御可能である。RAM202は、CPU201の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施形態では1つのCPU211が1つのメモリ(RAM202又はHDD203)を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されない。例えば、複数のCPUや複数のRAM又はHDDを協働させて各処理を実行してもよい。HDD203は、画像データや各種プログラムを記憶する大容量記憶部である。ネットワークI/F204は、情報処理装置101をLAN110に接続するインタフェースである。操作部I/F205は操作部206を各部と接続するインタフェースである。操作部206はユーザによる操作/入力/指示を受け付けてCPU201に伝達し、操作に必要な画面情報をユーザに表示する。
以上説明した情報処理装置101のハードウェア構成は一例であり、必要に応じてその他の構成を備えるものであってもよいし、一部の構成を有していなくてもよい。なお、ストレージ機能を担う情報処理装置102も、情報処理装置101と同様のハードウェア構成を有するものとする。
<ソフトウェア構成>
図3は、情報処理装置101においてファイル編集処理を実現するためのソフトウェア構成を示すブロック図である。情報処理装置101はソフトウェア300がインストールされている。ソフトウェア300は、LAN110上のクライアントPC(不図示)等から入力された文書ファイルが、文字検索可能なファイル形式のサーチャブルPDFである場合、ファイル内のテキストデータに対して自然言語処理を行って、その結果に基づいて文字精度を判定する。そして、文字精度が所定のレベルに達しないと推測される場合には、サーチャブルPDFに含まれるイメージデータに対してOCR処理を実行する。そして、OCR処理で得られた文字列をテキストデータとしたサーチャブルPDFを生成し、ストレージとしての情報処理装置102に送信して保存させる。このようなファイル編集処理を実現するためにソフトウェア300は、メイン制御部301、ファイル入出力部302、データ抽出部303、OCR処理部304、自然言語処理部305、文字精度判定部306を有する。なお、ソフトウェア300が有する上記各機能部は、例えば、ファイル管理ソフト、画像編集ソフト、ワードプロセッサソフト、表計算ソフト、データベースソフト等の任意のソフトウェアに組み込まれていてもよい。以下、ソフトウェア300の各機能部について説明する。
図3は、情報処理装置101においてファイル編集処理を実現するためのソフトウェア構成を示すブロック図である。情報処理装置101はソフトウェア300がインストールされている。ソフトウェア300は、LAN110上のクライアントPC(不図示)等から入力された文書ファイルが、文字検索可能なファイル形式のサーチャブルPDFである場合、ファイル内のテキストデータに対して自然言語処理を行って、その結果に基づいて文字精度を判定する。そして、文字精度が所定のレベルに達しないと推測される場合には、サーチャブルPDFに含まれるイメージデータに対してOCR処理を実行する。そして、OCR処理で得られた文字列をテキストデータとしたサーチャブルPDFを生成し、ストレージとしての情報処理装置102に送信して保存させる。このようなファイル編集処理を実現するためにソフトウェア300は、メイン制御部301、ファイル入出力部302、データ抽出部303、OCR処理部304、自然言語処理部305、文字精度判定部306を有する。なお、ソフトウェア300が有する上記各機能部は、例えば、ファイル管理ソフト、画像編集ソフト、ワードプロセッサソフト、表計算ソフト、データベースソフト等の任意のソフトウェアに組み込まれていてもよい。以下、ソフトウェア300の各機能部について説明する。
メイン制御部301は、他の機能部を統括的に制御する。ファイル入出力部302は、メイン制御部301の指示に基づき、編集処理の対象となる文書ファイルの入力を受け付けたり、編集された文書ファイルを情報処理装置102に出力したりする。
データ抽出部303は、ファイル入出力部302が受け付けた文書ファイルから、ファイル編集処理に必要なデータを抽出する処理を行う。例えば、入力された文書ファイルのファイル形式がサーチャブルPDFの場合、イメージデータとテキストデータの両方の抽出を行う。図4は、サーチャブルPDFの文書ファイルからのデータ抽出を説明する図である。サーチャブルPDFの文書ファイル401には、イメージデータ402とテキストデータ403とが含まれている。図4に示すイメージデータ402は、「〒100-9999」、「東京都港区1-1-1」、「品川株式会社」の3つの文字列をビットマップ画像の形式で表現している。テキストデータ403は、上記3つの文字列について、各文字列を構成する文字それぞれの文字コードやフォントといったテキスト情報431を、イメージデータ402上で各文字が存在する位置と対応付けて、透明テキストの形式で保持している。このようなイメージデータとテキストデータの両方が、サーチャブルPDFの文書ファイルからは抽出されることになる。また、入力された文書ファイルのファイル形式がイメージPDFの場合には、イメージデータのみが抽出されることになる。
OCR処理部304は、データ抽出部303によって抽出されたイメージデータに対してOCR(Optical character recognition)処理を実行する。OCR処理には、文書画像をOCRに適した画像に修正する画像前処理、文書画像から文字の記載領域(文字ブロック)を抽出する処理、抽出された文字ブロックに含まれる各文字をその読み順(並び方向)に沿って識別する文字認識処理が含まれる。
自然言語処理部305は、データ抽出部303によって抽出されたテキストデータに対して、自然言語処理を実行する。自然言語処理では、テキストデータが表す文字列に対して形態素解析を行い、その結果に対して固有表現抽出を行って、人名、地名、組織名、日付表現、時間表現といった項目(固有表現分類)に分類する処理が行われる。例えば、前述の図4に示す「〒100-9999東京都港区1-1-1品川株式会社」という文字列に自然言語処理を行う場合を考える。まず形態素解析で“〒100-9999”、“東京都港区1-1-1”及び“品川株式会社”という3つの単語に分割される。次に分割された単語毎に固有表現を抽出し、それぞれの単語に当てはまる固有表現分類に分類する。いま、“〒100-9999”については「郵便番号」、“東京都港区1-1-1”については「住所」、“品川株式会社”については「会社名」のように分類されることになる。このようにしてテキストデータの固有表現が抽出・分類される。この固有表現抽出は、例えば、大量の文書ファイルを計算機によって学習させることで実現可能である。本実施形態では、大量の文書ファイルを学習することで得られる学習データを用いて固有表現抽出を行うものとするが、固有表現抽出の方法はこれに限定されない。例えば、予め用意した辞書データと文字列とを比較して固有表現抽出を行ってもよい。
文字精度判定部306は、自然言語処理の結果に基づいて文字精度を判定する。より詳細には、自然言語処理による固有表現抽出の成功割合が高いほど文字精度が高いと判定する。
<ファイル編集処理の詳細>
図5は、上述のソフトウェア300によって実現される、本実施形態に係る、ファイル編集処理の詳細手順を説明するフローチャートである。図5に示すフローは、情報処理装置101が、不図示のクライアントPC等から文書ファイルをその保存指示と共に受信すると開始する。なお、以下の説明において記号「S」はステップを表す。
図5は、上述のソフトウェア300によって実現される、本実施形態に係る、ファイル編集処理の詳細手順を説明するフローチャートである。図5に示すフローは、情報処理装置101が、不図示のクライアントPC等から文書ファイルをその保存指示と共に受信すると開始する。なお、以下の説明において記号「S」はステップを表す。
まず、S501では、ファイル入出力部302によって、処理対象となる文書ファイルが取得される。取得された文書ファイルは、RAM202に格納される。
次に、S502では、データ抽出部303が、S501にて取得された処理対象の文書ファイルに含まれているデータを抽出する。ここで、前述のとおり、文書ファイルのファイル形式がサーチャブルPDFの場合にはイメージデータとテキストデータが抽出され、イメージPDFの場合にはイメージデータが抽出されることになる。抽出されたデータは、RAM202に格納される。
次のS503では、データ抽出の結果に基づき、処理が振り分けられる。イメージデータに加えてテキストデータも抽出されていればS504に進み、イメージデータのみ抽出されていればS507に進む。処理対象の文書ファイルのファイル形式が、サーチャブルPDFであればテキストデータも含まれているのでS504に進み、イメージPDFであればテキストデータが含まれていないのでS507に進むことになる。
S504では、自然言語処理部305が、S502にて抽出されたテキストデータが示す文字列に対して上述の自然言語処理を実行する。自然言語処理によって得られた結果は、単語分割された各文字列と、当該各文字列それぞれに対応する固有表現分類の情報とが関連付けられてRAM202に格納される。
S505では、文字精度判定部306が、自然言語処理の結果に基づき、文字精度を判定する。ここで、具体例を用いて、本ステップにおける文字精度判定について説明する。まず、図6(a)に示す例では、形態素解析後の3つの文字列601~603のいずれについてもその固有表現分類604~606が得られており、固有表現抽出がすべて成功している。これに対し、図6(b)に示す例では、形態素解析後の3つの文字列611~613のうち文字列613についてのみ固有表現分類614が得られており、残りの2つの文字列611と612については固有表現抽出に失敗している。そこで、固有表現抽出の成功割合について例えば70%のような閾値を設け、成功割合が閾値以上であれば文字精度が高い、閾値未満であれば文字精度が低いといった具合に判定を行う。上述の図6(a)の例では成功割合が100%(=3分の3)なので文字精度が高いと判定され、図6(b)の例では成功割合が33%なの(≒3分の1)で文字精度が低いと判定されることになる。
次のS506では、S505における文字精度判定の結果に従って処理が振り分けられる。文字精度が低いと判定されていればイメージデータにOCR処理を行って新たなテキストデータを取得するべくS507に進む。一方、文字精度が高いと判定されていればOCR処理は不要なのでS509に進む。
S507では、OCR処理部304が、S502にて抽出されたイメージデータに対してOCR処理を実行する。これにより、イメージデータに存在する文字ブロック毎に文字認識処理が実行され、文字コードやフォントの情報で構成されるテキストデータが取得される。ここでの文字認識処理としては、例えば文字ブロック内に存在する複数の文字における前後の接続関係から出現可能性の高い文字を判断する機能(言語モデル機能)を有するなど、認識精度の高い文字認識処理を行うことが望ましい。OCR処理によって取得したテキストデータはRAM202に格納される。
S508では、メイン制御部301が、S507のOCR処理の結果に基づき、文字検索可能なファイル形式で文書ファイルを生成する。本実施形態では、OCR処理によって得られたテキストデータを、イメージデータの対応する位置に透明テキストとして埋め込んだサーチャブルPDFのファイル形式の文書ファイルが生成されることになる。
S509では、ファイル入出力部302が、メイン制御部301の指示の下、指定された文書ファイルをその保存指示と共に情報処理装置102に送信する。そして、情報処理装置102において、高精度に文字検索可能なサーチャブルPDFの文書ファイルが保存・管理されることになる。
以上が、本実施形態に係る、ファイル編集処理の流れである。上述の図5のフローは、情報処理装置101内で全ての処理が完結することを前提に構成されているが、前述のとおりその機能の一部を別の情報処理装置で行うように構成してもよい。各機能部を別々の情報処理装置に分散配置することで各装置における負荷を軽減し、より高品質なサーチャブルPDFを効率良く生成することが可能となる。なお、各機能部を分散した場合、情報処理装置同士はネットワークを介して処理データ等の授受を行うことになる。この場合のネットワークはイントラネットでもよいし、例えばOCR処理や自然言語処理の機能を担当する情報処理装置についてはクラウド上に配置し、処理データ等の授受をインターネット経由で行う構成でもよい。
<変形例1>
なお、上述の実施形態では、文書内の全ての文字列を対象に自然言語処理を行い、全ての文字列の文字精度を判定する内容となっている。しかしながら、現実の帳票等において、文書内の全ての文字列について適切な固有表現分類が存在するというケースは稀である。そこで、文書内の文字列の中から一部の文字列のみを選択してS504以降の各処理を実行する態様を変形例として説明する。図7は、見積書の文書ファイルのデータ構造を説明する図である。いま、紙文書である見積書701をスキャンして得られた文書画像にOCR処理をすることで、イメージデータ702とテキストデータ703とで構成される文書ファイルが得られている。このような帳票の文書ファイルを対象とする場合、文書名、発行日、発行元といった予めその配置が決まっている所定の文字列を選択して、自然言語処理と文字精度判定を行う。図7の例では、3つの文字ブロックに対応する文字列711~713(文書名を表す“見積書”、発行日を表す“2017/09/10”、及び発行元を表す“川崎株式会社”)に、自然言語処理と文字精度判定を適用することになる。どの文字列を選択するかは、例えば帳票の種別毎に、選択対象となる文字列のイメージデータ上における位置座標を予め定めておけばよい。これにより、帳票認識などの手法で帳票種別を特定することで任意の文字列を選択することが可能となる。また、例えばファイル名やフォルダパスといった文書ファイルのプロパティで使用されている文字列を選択対象としてもよい。さらには、例えばイメージデータが示す文書全体の画像領域のうち上部三分の一の領域といった特定の画像領域に存在する文字列を選択対象としてもよい。
なお、上述の実施形態では、文書内の全ての文字列を対象に自然言語処理を行い、全ての文字列の文字精度を判定する内容となっている。しかしながら、現実の帳票等において、文書内の全ての文字列について適切な固有表現分類が存在するというケースは稀である。そこで、文書内の文字列の中から一部の文字列のみを選択してS504以降の各処理を実行する態様を変形例として説明する。図7は、見積書の文書ファイルのデータ構造を説明する図である。いま、紙文書である見積書701をスキャンして得られた文書画像にOCR処理をすることで、イメージデータ702とテキストデータ703とで構成される文書ファイルが得られている。このような帳票の文書ファイルを対象とする場合、文書名、発行日、発行元といった予めその配置が決まっている所定の文字列を選択して、自然言語処理と文字精度判定を行う。図7の例では、3つの文字ブロックに対応する文字列711~713(文書名を表す“見積書”、発行日を表す“2017/09/10”、及び発行元を表す“川崎株式会社”)に、自然言語処理と文字精度判定を適用することになる。どの文字列を選択するかは、例えば帳票の種別毎に、選択対象となる文字列のイメージデータ上における位置座標を予め定めておけばよい。これにより、帳票認識などの手法で帳票種別を特定することで任意の文字列を選択することが可能となる。また、例えばファイル名やフォルダパスといった文書ファイルのプロパティで使用されている文字列を選択対象としてもよい。さらには、例えばイメージデータが示す文書全体の画像領域のうち上部三分の一の領域といった特定の画像領域に存在する文字列を選択対象としてもよい。
<変形例2>
一般的に、文書内に存在する複数の文字のうちベースラインが同じで互いに近接する文字群は1つの文字ブロックとして扱われる。そのため、例えば図7に示す見積書701において、「東京都港区1-1-1」の部分は1つの文字ブロックとなり、一続きの文字列720に対応するテキスト情報がテキストデータとして得られることになる。しかしながら、サーチャブルPDFを生成するソフトウェアの中には、例えば文字列の一部に特殊なフォントが使用されていると、当該一部について、本来のテキスト属性ではなくイメージ属性を持たせたテキストデータを生成するものがある。例えば、上述の「東京都港区1-1-1」について、“東京都港区”については文字コードやフォントで特定し、“1-1-1”についてはビットマップイメージで表現するといった具合である。このようにテキストデータの一部にイメージ属性のデータを含む場合、そのままでは本来の一続きの文字ブロック単位での自然言語処理及びそれに続く文字精度判定をすることができない。そこで、テキストデータにイメージ属性のデータが含まれるケースでは、当該部分的なイメージ属性のデータ(以下、「部分イメージ」と呼ぶ。)に対しOCR処理を実行し、その認識文字を結合して本来の一続きの文字ブロック単位で自然言語処理を行うようにすればよい。
一般的に、文書内に存在する複数の文字のうちベースラインが同じで互いに近接する文字群は1つの文字ブロックとして扱われる。そのため、例えば図7に示す見積書701において、「東京都港区1-1-1」の部分は1つの文字ブロックとなり、一続きの文字列720に対応するテキスト情報がテキストデータとして得られることになる。しかしながら、サーチャブルPDFを生成するソフトウェアの中には、例えば文字列の一部に特殊なフォントが使用されていると、当該一部について、本来のテキスト属性ではなくイメージ属性を持たせたテキストデータを生成するものがある。例えば、上述の「東京都港区1-1-1」について、“東京都港区”については文字コードやフォントで特定し、“1-1-1”についてはビットマップイメージで表現するといった具合である。このようにテキストデータの一部にイメージ属性のデータを含む場合、そのままでは本来の一続きの文字ブロック単位での自然言語処理及びそれに続く文字精度判定をすることができない。そこで、テキストデータにイメージ属性のデータが含まれるケースでは、当該部分的なイメージ属性のデータ(以下、「部分イメージ」と呼ぶ。)に対しOCR処理を実行し、その認識文字を結合して本来の一続きの文字ブロック単位で自然言語処理を行うようにすればよい。
ここで、図8を参照して具体例を説明する。いま、図8(a)に示すように、「東京都港区1-1-1」の文字列について、“東京都港区”に対応するテキスト情報811を有するテキストデータ801と、“1-1-1”に対応する部分イメージ811’を有するテキストデータ801’が得られている。そして、図8(b)に示すように、“東京都港区”の文字列は、文書全体のイメージデータ702の左隅を原点(0,0)として、左上の座標(10,100)と右下の座標(110,120)の位置に存在している。また、“1-1-1”の文字列は、左上の座標(111,100)と右下の座標(140,120)の位置に存在している。このような位置関係にある場合、“東京都港区”の文字列と“1-1-1”の両文字列は、縦方向(Y方向)の位置が同じで、かつ、横方向(X方向)に接していると判断できる。なお、座標の誤差許容範囲を設定し、許容範囲内にあれば隣接していると判断すればよい。そして、部分イメージで表される文字列が、テキスト情報の文字列に隣接していると判断された場合には、当該部分イメージ対してOCR処理を実行する。これにより、“1-1-1”の文字列についても文字コードやフォントから成るテキスト情報が得られることになる。そして、“1-1-1”について得られたテキスト情報を、“東京都港区”のテキスト情報と結合して、結合後のテキスト情報で表される文字列に対して自然言語処理を実行する。このような処理により、文字列の一部がイメージ属性のデータで表現されていても、本来の一続きの文字列に対して自然言語処理を行うことが可能となる。なお、OCR処理で得られた文字列を結合する前に、結合後の文字列のパターンが固有表現分類に対応する所定の文字列パターンと一致するか否かを判定し、一致する場合にのみ結合を行うようにしてもよい。例えば、固有表現分類「住所」に対応する文字列パターンとしては、一方の文字列が漢字や平仮名といった文字で構成されており、もう一方の文字列が数字やハイフンといった記号で構成されていれば、「住所」の文字列パターンに一致すると判定できる。
<変形例3>
上述の実施形態では自然言語処理の結果に基づき文字精度を判定しているが、文書ファイルに付加されたメタデータに含まれる生成元ソフトウェア情報を参照して文字精度を推測することもできる。ここで、生成元ソフトウェア情報とは、当該文書ファイルを生成したソフトウェアを識別可能な情報であり、例えば、Microsoft(商標)のOfficeシリーズのアプリケーションプログラム名(Word、Excel、PowerPoint)などである。処理対象となるサーチャブルPDFの文書ファイルが、上記のような所定の文書作成用プログラムを使って作成されていた場合、そこに含まれているテキストデータが表す文字列の文字精度に疑いを持つ必要はない。文書作成用プログラムによって作成されている場合、例えば片仮名の「ル」という文字が、誤って「ノ」と「レ」の2文字に分離して表現されるようなことは起こり得ないからである。そのため、生成元ソフト情報から文書作成用プログラムによって作成されていることが判明した場合、改めてOCR処理を行ってテキストデータの再取得を試みる必要はない。そこで、メタデータに含まれる生成元ソフト情報から、テキストデータの信頼性が高い(文字精度が一定レベル以上)と推測できる場合には、直ちにOCR不要と判断するようにしてもよい。一方、生成元ソフト情報をメタデータとして保持していない文書ファイルも存在する。また、生成元ソフト情報が分かってもそこから文字精度を推測できないこともあり得る。したがって、上述のような自然言語処理の結果に基づき文字精度を判定することが意味を持つことになる。なお、生成元ソフト情報を参照した文字精度の判定を行う場合には、自然言語処理の実行ステップの前段に組み込み、その判定結果によって自然言語処理の実行とその結果に基づく文字精度の判定の実行の要否を決定すればよい。本変形例の場合、必要な場合にだけ自然言語処理とその結果を用いた文字精度の判定を実行することになり、全体の処理時間を短縮できるので、文字精度判定における正確性及び文書ファイル生成の作業効率をさらに向上できる。
上述の実施形態では自然言語処理の結果に基づき文字精度を判定しているが、文書ファイルに付加されたメタデータに含まれる生成元ソフトウェア情報を参照して文字精度を推測することもできる。ここで、生成元ソフトウェア情報とは、当該文書ファイルを生成したソフトウェアを識別可能な情報であり、例えば、Microsoft(商標)のOfficeシリーズのアプリケーションプログラム名(Word、Excel、PowerPoint)などである。処理対象となるサーチャブルPDFの文書ファイルが、上記のような所定の文書作成用プログラムを使って作成されていた場合、そこに含まれているテキストデータが表す文字列の文字精度に疑いを持つ必要はない。文書作成用プログラムによって作成されている場合、例えば片仮名の「ル」という文字が、誤って「ノ」と「レ」の2文字に分離して表現されるようなことは起こり得ないからである。そのため、生成元ソフト情報から文書作成用プログラムによって作成されていることが判明した場合、改めてOCR処理を行ってテキストデータの再取得を試みる必要はない。そこで、メタデータに含まれる生成元ソフト情報から、テキストデータの信頼性が高い(文字精度が一定レベル以上)と推測できる場合には、直ちにOCR不要と判断するようにしてもよい。一方、生成元ソフト情報をメタデータとして保持していない文書ファイルも存在する。また、生成元ソフト情報が分かってもそこから文字精度を推測できないこともあり得る。したがって、上述のような自然言語処理の結果に基づき文字精度を判定することが意味を持つことになる。なお、生成元ソフト情報を参照した文字精度の判定を行う場合には、自然言語処理の実行ステップの前段に組み込み、その判定結果によって自然言語処理の実行とその結果に基づく文字精度の判定の実行の要否を決定すればよい。本変形例の場合、必要な場合にだけ自然言語処理とその結果を用いた文字精度の判定を実行することになり、全体の処理時間を短縮できるので、文字精度判定における正確性及び文書ファイル生成の作業効率をさらに向上できる。
[その他の実施形態]
また、上述した自然言語処理によって得られた固有表現分類に基づき例えばファイル名を設定するなど、自然言語処理の結果を2次利用することで、文書ファイルを保存する際のユーザの利便性を向上させることもできる。手入力によるファイル名の設定は効率が悪く作業ミスも発生しやすいところ、自然言語処理の結果から文字精度が高いと判定された文字列を用いることで、信頼性の高いファイル名を自動で設定することができる。
また、上述した自然言語処理によって得られた固有表現分類に基づき例えばファイル名を設定するなど、自然言語処理の結果を2次利用することで、文書ファイルを保存する際のユーザの利便性を向上させることもできる。手入力によるファイル名の設定は効率が悪く作業ミスも発生しやすいところ、自然言語処理の結果から文字精度が高いと判定された文字列を用いることで、信頼性の高いファイル名を自動で設定することができる。
また、本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
Claims (14)
- 文字が記載された文書のイメージデータを少なくとも含む文書ファイルを取得する取得手段と、
前記文書ファイルに前記文字を表すテキストデータが含まれる場合、当該テキストデータに対して自然言語処理を実行する第1処理手段と、
前記自然言語処理の結果に基づいて、前記イメージデータに対する文字認識処理の要否を判定する第1判定手段と、
を備える情報処理装置。 - 前記第1処理手段は、前記自然言語処理として、前記テキストデータが表す文字列に対し固有表現抽出を実行し、
前記第1判定手段は、前記固有表現抽出の成功割合が閾値未満の場合は前記文字認識処理が必要と判定し、成功割合が閾値以上の場合は前記文字認識処理が不要と判定する、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記第1処理手段は、前記テキストデータが表す文字列のうち一部の文字列について、前記固有表現抽出を行うことを特徴とする請求項2に記載の情報処理装置。
- 前記一部の文字列は、前記文書ファイルのプロパティに用いられている文字列であることを特徴とする請求項3に記載の情報処理装置。
- 前記一部の文字列は、前記イメージデータが示す文書全体の画像領域のうち特定の画像領域に存在する文字列であることを特徴とする請求項3に記載の情報処理装置。
- 前記一部の文字列は、前記イメージデータにおける所定の位置座標によって特定される文字列であることを特徴とする請求項3に記載の情報処理装置。
- 前記所定の位置座標は、前記文書の種別毎に予め定められていることを特徴とする請求項6に記載の情報処理装置。
- 前記第1処理手段は、前記テキストデータにイメージ属性のデータが含まれる場合、
前記イメージ属性のデータに対し文字認識処理を実行し、
前記文字認識処理によって得られた認識文字を、前記テキストデータに含まれるテキスト属性の文字と結合し、
前記結合によって得られた文字列に対して前記固有表現抽出を行う、
ことを特徴とする請求項2に記載の情報処理装置。 - 前記文書ファイルに生成元のソフトウェアを特定する情報が付加されており当該情報によって特定されるソフトウェアが所定の文書作成用アプリケーションプラグラムである場合、前記イメージデータに対する文字認識処理が不要であると判定する第2判定手段をさらに備えたことを特徴とする請求項1又は2に記載の情報処理装置。
- 前記第1処理手段は、前記第2判定手段が前記イメージデータに対する文字認識処理が不要と判定した場合、前記自然言語処理を実行しないことを特徴とする請求項9に記載の情報処理装置。
- 前記第1判定手段が前記イメージデータに対する文字認識処理が必要と判定した場合に、前記イメージデータに対する文字認識処理を行う第2処理手段をさらに備えることを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。
- 前記第2処理手段が行った文字認識処理によって得られた認識文字が表すテキストデータと、前記文書ファイルに含まれるイメージデータとを関連付けた新たな文書ファイルを生成する生成手段をさらに備えることを特徴とする請求項11に記載の情報処理装置。
- 文字が記載された文書のイメージデータを少なくとも含む文書ファイルを取得する取得ステップと、
前記文書ファイルに前記文字を表すテキストデータが含まれる場合、当該テキストデータに対して自然言語処理を実行する処理ステップと、
前記自然言語処理の結果に基づいて、前記イメージデータに対する文字認識処理の要否を判定する判定ステップと、
を含むことを特徴とする情報処理方法。 - コンピュータを、請求項1乃至12のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020208593A JP2022095326A (ja) | 2020-12-16 | 2020-12-16 | 情報処理装置、その制御方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020208593A JP2022095326A (ja) | 2020-12-16 | 2020-12-16 | 情報処理装置、その制御方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022095326A true JP2022095326A (ja) | 2022-06-28 |
Family
ID=82163131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020208593A Pending JP2022095326A (ja) | 2020-12-16 | 2020-12-16 | 情報処理装置、その制御方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022095326A (ja) |
-
2020
- 2020-12-16 JP JP2020208593A patent/JP2022095326A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8155444B2 (en) | Image text to character information conversion | |
US8954839B2 (en) | Contract authoring system and method | |
Déjean et al. | A system for converting PDF documents into structured XML format | |
US10671805B2 (en) | Digital processing and completion of form documents | |
US20130181995A1 (en) | Handwritten character font library | |
RU2656581C2 (ru) | Редактирование содержимого электронного документа | |
US11830269B2 (en) | System for information extraction from form-like documents | |
US9436882B2 (en) | Automated redaction | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
US20150117721A1 (en) | Coordinate-Based Document Processing and Data Entry System and Method | |
WO2022132944A1 (en) | Generation and/or recommendation of tools for automating aspects of computer programming | |
US11630956B2 (en) | Extracting data from documents using multiple deep learning models | |
KR20150082097A (ko) | 클라우드 기반 폰트 서비스 시스템 | |
WO2014064803A1 (ja) | 文書処理プログラム、文書処理装置、文書処理システム、文書処理方法 | |
US20230351105A1 (en) | Systems and methods for enhanced document generation | |
CN115917613A (zh) | 文档中文本的语义表示 | |
US20160124813A1 (en) | Restoration of modified document to original state | |
US10643022B2 (en) | PDF extraction with text-based key | |
KR102296939B1 (ko) | 다중 모드를 지원하는 pdf 등의 전자문서를 관리하는 장치 및 방법 | |
CN112418813A (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
CN111241329A (zh) | 基于图像检索的古文字考释方法和装置 | |
US20230029752A1 (en) | Document readability enhancements | |
JP2022095326A (ja) | 情報処理装置、その制御方法及びプログラム | |
TWM590730U (zh) | 基於人工智慧之文件管理系統 | |
JP2018036843A (ja) | 装置、方法、及びプログラム |