JP7385075B1

JP7385075B1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7385075B1
Application number: JP2023106280A
Authority: JP
Inventors: 紗世嘉田; 敬史倉井; 莞太松山
Original assignee: 株式会社朝日新聞社
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-11-21
Anticipated expiration: 2043-06-28

Abstract

【課題】画像から認識された本文の連結精度を向上する情報処理装置、情報処理方法及びプログラムを提供する。【解決手段】制御部と、ネットワークを介して他の端末に任意の情報を送信又は受信する通信部と、記事ＤＢを含む記憶部と、を有する情報処理装置において、制御部は、記事画像を取得するＳ１と、記事画像から１以上の領域を取得し、１以上の領域の少なくとも１つを本文に分類するＳ２と、本文の文字を認識するＳ３と、連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結するＳ４と、記事毎に分類を付与するＳ５と、を含む動作を実行する。【選択図】図２６

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

従来、文書を構成する基礎要素の集合から方向の確定した行集合を抽出し、行同士の関連付けによる段抽出を実行する技術が知られている（例えば特許文献１）。この技術では、次の３つの条件を満たすように段要素の連結処理が行われる。
１）すべての行成分は唯一の段要素に属する。
２）各々の段要素の段領域は互いに重ならない。ここで，段領域は各々の段要素に属する行成分の外接矩形で定義される領域である。
３）段方向の確定した段要素に属する行要素は，段方向順に順序付けされ，段方向と垂直方向に重なる行要素が存在しないように互いに統合されている。

特開平11-2194072号公報

上記背景技術では、ある要素が他の複数要素に続く候補として重複し得ることは想定されていない。このため、連結精度には改善の余地がある。

かかる事情に鑑みてなされた本開示の目的は、画像から認識された本文の連結精度を向上することにある。

上記課題を解決するため、本実施形態に係る情報処理装置は、
制御部と通信部と記憶部とを含む情報処理装置であって、前記制御部は、
記事画像を取得することと、
前記記事画像から１以上の領域を取得することと、
前記１以上の領域の少なくとも１つを本文に分類することと、
前記本文の文字を認識することと、
連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することと、
を含む動作を実行する。

上記課題を解決するため、本実施形態に係る情報処理方法は、
制御部と通信部と記憶部とを含む情報処理装置による情報処理方法であって、
記事画像を取得することと、
前記記事画像から１以上の領域を取得することと、
前記１以上の領域の少なくとも１つを本文に分類することと、
前記本文の文字を認識することと、
連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することと、
を含む。

上記課題を解決するため、本実施形態に係るプログラムは、
コンピュータを、上記情報処理装置として機能させる。

本開示の一実施形態によれば、画像から認識された本文の連結精度を向上することができる。

情報処理装置の機能ブロック図である。物体検出モデルによる領域の取得及び分類を示す図である。画像処理を示す図である。図２及び図３の結果を利用した後の記事画像を示す図である。画像分類モデルによる領域の分類を示す図である。後処理を示す図である。中見出しを示す図である。領域の取得及び分類の結果サンプルを示す図である。本文の縦連結を示す図である。記事の種類を示す図である。罫線の取得を示す図である。箱組記事の種類を示す図である。箱組記事のグループ化を示す図である。箱組記事のグループ化の代替例を示す図である。本文の読み順を示す図である。横組記事における本文の読み順を示す図である。本文の連結を示す図である。重複排除の結果を示す図である。中見出しの再分類を示す図である。画像と絵解きとの関連付けを示す図である。画像及び絵解きと、記事との関連付けを示す図である。絵解きが無い画像を示す図である。絵解きと見出しとの類似度の判定を示す図である。領域の連結の結果サンプルを示す図である。記事ＤＢ(database)のデータ構造を示す図である。情報処理装置が実行する情報処理方法のフローチャートを示す図である。

以下、図面を用いて本発明の実施形態が説明される。図１は情報処理装置Ｄの機能ブロック図である。情報処理装置Ｄは制御部１と通信部２と記憶部３とを含む。

情報処理装置Ｄはサーバであってよい。情報処理装置Ｄは例えば、事業者専用の施設、又はデータセンタを含む共用の施設に設置されてよい。情報処理装置Ｄが実行する処理は、分散配置された複数の情報処理装置によって実行されてよい。

制御部１は、通信部２及び記憶部３の制御を行うとともに、情報処理装置Ｄの全体の動作に関する全ての制御を行う。制御部１は例えば、ＣＰＵ（Central Processing Unit）又はＭＰＵ（Micro Processing Unit）を含む１つ以上の汎用プロセッサを含む。制御部１は、特定の処理に特化した１つ以上の専用プロセッサを含んでよい。制御部１は、プロセッサを含む代わりに、１つ以上の専用回路を含んでもよい。専用回路は例えば、ＦＰＧＡ（Field-ProgrammableGate Array）、又はＡＳＩＣ（Application Specific Integrated Circuit）であってよい。制御部１は、ＥＣＵ（Electronic Control Unit）を含んでもよい。制御部１は通信部２を介して任意の情報を送受信する。

通信部２は、ネットワークに接続するための、１つ以上の有線又は無線ＬＡＮ（Local Area Network）規格に対応する通信モジュールを含む。通信部２は、ＬＴＥ（Long Term Evolution）、４Ｇ（4th Generation）、又は５Ｇ（5th Generation）を含む１つ以上の移動体通信規格に対応するモジュールを含んでよい。通信部２は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＡｉｒＤｒｏｐ（登録商標）、ＩｒＤＡ、ＺｉｇＢｅｅ（登録商標）、Ｆｅｌｉｃａ（登録商標）、又はＲＦＩＤを含む１つ以上の近距離通信の規格又は仕様に対応する通信モジュール等を含んでよい。通信部２は、ネットワークを介して他の端末に任意の情報を送信又は受信する。

記憶部３は、例えば半導体メモリ、磁気メモリ、光メモリ、又はこれらのうち少なくとも２種類の組み合わせが含まれるが、これらに限られない。半導体メモリは、例えば、ＲＡＭ又はＲＯＭである。ＲＡＭは、例えば、ＳＲＡＭ又はＤＲＡＭである。ＲＯＭは、例えば、ＥＥＰＲＯＭである。記憶部３は、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部３は、制御部１によって分析又は処理された結果の情報を記憶してよい。記憶部３は、情報処理装置Ｄの動作又は制御に関する各種情報等を記憶してよい。記憶部３は、システムプログラム、アプリケーションプログラム、及び組み込みソフトウェア等を記憶してよい。記憶部３は情報処理装置Ｄの外部に設けられて、情報処理装置Ｄからアクセスされてよい。記憶部３は、記事ＤＢ３１を含む。

以下、情報処理装置Ｄが実行する情報処理方法が詳細に説明される。

［１．領域の取得及び分類］
情報処理装置Ｄの記憶部３は記事画像を記憶する。記事画像は１以上の記事を含む。記事画像は、新聞又は雑誌等の紙面を撮像又は走査することによって得られてよい。制御部１は記事画像を取得する。図２に示されるように制御部１は、任意の物体検出モデルを用いて、記事画像から１以上の領域を取得（抽出）する。制御部１は、取得された各領域を例えば次の領域種類のいずれかに分類する。
・見出し
・画像
・絵解き（すなわち、対応する画像の内容を説明するキャプション）
・表
・広告
・面名欄

物体検出モデルは例えば、HJDatasetを用いて学習されたFaster R-CNN をFine-tuningしたものであってよい。物体検出モデルは、所定数の新聞紙面を学習したものであってよい。領域の取得及び分類の際の検出方法は任意である。

制御部１は、記事画像に対して画像処理を実行する。例えば制御部１は、図３のＡに示されるように、ノイズ処理と、記事画像の下部にある下広告を後述のＲＬＳＡ（Run Length Smoothing Algorithm）と輪郭抽出との対象外として設定する処理とを実行してよい。追加例として又は代替例として制御部１は、図３のＢに示されるように、ＲＬＳＡによるセグメンテーションを実行する。具体的には制御部１は、記事画像において隣接する白ピクセル数が閾値以下のとき、白ピクセルを黒ピクセルに置換する。実装には任意のＯＳＳが使用されてよい。ＲＬＳＡは、OpenCVでモルフォロジー変換を行った画像に適用されてよい。追加例として又は代替例として制御部１は、図３のＣに示されるように、OpenCVにより輪郭抽出を行い、輪郭の矩形領域を取得してよい。具体的には制御部１は、各領域の境界線を取得し、各境界線に外接する長方形を各領域につき１つずつ取得する。ここでの画像処理で利用されるＲＬＳＡ、ＯＳＳ及びOpenCVは一例であり、代替例として他の任意のアルゴリズム又はプログラムが利用されてよい。

記事画像に物体検出モデルのみを適用する場合、領域の検出漏れ又は領域の位置ずれが生じる場合がある。記事画像に画像処理のみを適用する場合、記事画像中の文字の間隔が異なるために、１つの見出しが複数の領域に分離して取得される場合がある。そこで制御部１は図４に示されるように、物体検出モデルの適用結果と画像処理の結果とを統合した記事画像を生成してもよい。統合方法は任意である。

制御部１は、画像分類モデルを用いて領域を分類する。画像分類モデルは、Swin TransformerをFine-tuningしたものであってよい。画像分類モデルの訓練においては、セグメンテーション画像が利用されてよい。

物体検出モデル及び画像処理に加えて画像分類モデルを使用した結果が図５に示される。この構成により、領域を上記領域種類（例えば、見出し、画像等）に分類することに加えて、本文（例えば本文領域５３）に分類することができる。

追加例として又は代替例として制御部１は、図５に示される記事画像に対し後処理を実行する。例えば制御部１は、誤って細分化された領域５１を１つの領域にまとめてよい。制御部１は、取得不要な領域５２を削除してよい。後処理が実行された後の記事画像が図６に示される。

制御部１は、物体検出モデル又は画像処理によって見出しとして取得及び分類された領域を見出し領域として確定してよい。制御部１は、見出し領域として確定されなかった領域のうち画像分類モデルによって見出し領域として取得された領域を特定する。制御部１は、特定された領域のうち、領域の大きさが所定値を超えるものを見出しとして確定し、領域の大きさが所定値以下のもの（例えば図７の領域７１及び領域７２）を中見出しとして確定してよい。

以上の処理によって取得及び分類された次の各領域が図８に示される。
・見出し（例えば領域８１）
・本文（例えば領域８２）
・画像（例えば領域８３）
・絵解き（例えば領域８４）
・表（例えば領域８５）
・広告（例えば領域８６）
・面名欄（例えば領域８７）

［２．文字認識］
制御部１は、取得及び分類された各領域に対し、ＯＣＲ（Optical Character Recognition/Reader）を用いて本文の文字を認識する。例えばＯＣＲエンジンとしてはGoogleのAPIが利用されてよい。制御部１は、文字認識の前にノイズの除去又は記事画像の加工を行い、精度向上を図ってよい。例えば制御部１は、各領域につきOpenCVを用いてごま塩ノイズを除去してよい。

文字認識の対象となる領域は文字領域又は本文領域のみに限定されてよい。これにより文脈から文字を推定することが可能であるため、文字認識の精度を向上させることができる。追加例として又は代替例として、制御部１はＯＣＲを用いて、見出し、絵解き、又は広告の文字を認識してよい。

制御部１は、各領域に関連付けて、認識された文字を記憶部３に記憶する。

図９に示されるように、制御部１は、本文領域において認識された文字を次の手順で連結する。
手順１．本文領域の画像を取得する
手順２．上述のＲＬＳＡを用いて、各行につき縦方向に画像を繋げる
手順３．各行の境界線を取得する
手順４．各境界線に外接する長方形を各行につき１つずつ取得する
手順５．右にある長方形から順番に、上から下へ並べる
追加例として又は代替例として、制御部１は上記手順１と手順２との間の時点で、対象領域の本文に重なっている見出し領域を白塗り（すなわちマスク）することで、対象領域の本文ではない文字の影響を排除してよい。

図９の例では、本文が縦書きの場合が説明される。しかし制御部１は、本文の書き方向が縦書きと横書きとのいずれであるかを、既存の機械学習モデル（例えばCRAFT）を用いて判定してよい。具体的には制御部１は、一文字毎の領域と、それらをつなぎ合わせた領域とを推定し、つなぎ合わされた複数の領域に縦長のものが多ければ本文が縦書きであると判定する。制御部１は、つなぎ合わされた複数の領域に横長のものが多ければ、本文が横書きであると判定する。制御部１は本文が横書きであると判定すると、上記手順５に代えて、上にある長方形から順番に、左から右へ並べる。

［３．領域の連結］
制御部１は、下記の方法で記事の種類を検出し、記事の種類に応じて１以上の本文を連結する。図１０に示されるように、例えば記事の種類は次の通りである。
・通常記事（図１０のＡ）
・箱組記事（図１０のＢ）
・横組記事（図１０のＣ）

具体的には制御部１は、OpenCV等を用いて、記事画像から罫線（すなわち直線）を検出する。一例として、罫線検出前の記事画像（図１１のＡ）と、罫線検出後の記事画像（図１１のＢ）とが示される。

（１）記事の種類の検出と、読み順の判定
（１－１）箱組記事
箱組記事は、箱型（すなわち長方形型）に配置された記事を示す。箱組記事は、記事が枠１２１で囲まれる種類（図１２のＡ）と、記事が枠に囲まれない種類（図１２のＢ）とに少なくとも分けられる。

箱組記事の１つ目の検出方法として、制御部１は、図１３に示される記事画像において枠の有無を判定する。例えば制御部１は、次の手順により枠の有無を判定してよい。
手順１．見出し及び本文を含め、取得された領域を全てマスク（白塗り）した画像を生成する（この場合、罫線のみが残された画像が生成される）
手順２．OpenCVにより輪郭抽出及び矩形検出を実行する
手順３．矩形の縦及び横の長さに応じてフィルタリングを実行する
制御部１は、枠を検出すると、枠で囲まれた領域１３１を箱組領域として検出する。箱組領域内の１以上の領域は、グループ化されて、１つの記事に関連付けられる。関連付けられた１以上の領域は、各箱組記事に関連付けて記憶部３に記憶される。

箱組記事の２つ目の検出方法として制御部１は、図１４に示される記事画像において、横罫線の有無を判定する。ここでの横罫線は、縦に並んだ複数の領域を区切る罫線を指す。制御部１は、ある本文領域と他の本文領域との間に横罫線が無いと判定すると、それら本文領域をグループ化して１つの箱組記事に関連付ける。この方法は、記事画像中に枠で囲まれた領域が無い場合に有効である。次いで制御部１は、それら本文領域を囲む罫線を検出すると、罫線を境界線とした箱組領域を検出し、箱組領域を箱組記事（ここでは参照符号１４１及び１４２）に関連付ける。制御部１は、各箱組領域内において、見出し領域を検出する。制御部１は、検出された見出しを箱組記事に関連付けて記憶部３に記憶する。

制御部１は、検出された各箱組記事内の本文領域につき、所定の読み順ルールに従って読み順を判定する。所定の読み順ルールは例えば次の通りである。
・縦書きの場合：左方向に読み進み、罫線、画像（ただし、高さが紙面の１段の高さよりも大きい画像）、見出し又は絵解きに突き当たると下段の領域の右端に飛ぶ。箱組記事内では、見出しを飛び越えて読む。
・横書きの場合、右方向に読み進み、罫線に突き当たると下段の領域に飛ぶ。

例えば図１５のＡに示される箱組記事の例では、左方向１５１に読み進み、絵解き１５２に突き当たると、下段の本文領域１５３に飛ぶ。制御部１は、図１５のＢに示されるように、箱組記事内の本文の読み順を次のように判定する。
領域０：読み順１番目
領域１：読み順２番目
領域２：読み順３番目
領域３：読み順４番目
領域４：読み順５番目
領域５：読み順６番目
領域６：読み順７番目

（１－２）横組記事
横組記事の検出方法として制御部１は、ＯＣＲでの文字認識により横書きと判定された１以上の本文を検出すると、箱組記事の検出方法と同一の方法により、１以上の本文をグループ化して１つの横組記事に関連付ける。更に制御部１は、横書きの箱組記事の場合での読み順の判定方法と同一の方法により、横組記事での本文の読み順を判定する。制御部１は、図１６に示されるように、横組記事の読み順を次のように判定する。
領域Ａ０：読み順１番目
領域Ａ１：読み順２番目
領域Ａ２：読み順３番目

（１－３）通常記事
制御部１は、記事画像において、箱組記事の領域と横組記事の領域とを除いた領域を通常記事の候補領域として検出する。制御部１は通常記事の候補領域において、本文の開始位置を探索する。開始位置は次のように判定されてよい。
・見出しの左側に本文がある場合：開始位置は見出しの左上にある本文の右上端
・見出しの左側に本文がない場合：開始位置は見出しの下段にある本文の右上端

制御部１は、所定の読み順ルールにしたがって、連続する可能性のある複数の本文を記事ごとに全て連結する。この場合、ある領域の本文が、他の複数の領域の本文に重複して連結されることが許される。図１７の例では、制御部１は次のように本文を連結する。
・領域Ａ０乃至Ａ２の本文と、領域Ｘ１乃至Ｘ６の本文とを連結する。
・領域Ｂ０の本文と、領域Ｘ１乃至Ｘ６の本文とを連結する。
・領域Ｃ０乃至Ｃ２の本文と、領域Ｘ４乃至Ｘ６の本文とを連結する。
・領域Ｄ０乃至Ｄ３の本文と、領域Ｘ４乃至Ｘ６の本文とを連結する。
・領域Ｅ０の本文と、領域Ｅ１の本文とを連結する。
・領域Ｇ０の本文と、領域Ｘ６の本文とを連結する。

上記の通り、領域Ｘ１乃至Ｘ６の本文は、他の複数の領域の本文に重複して連結される。制御部１は、領域Ｅ１と領域Ｆ０とのそれぞれに連続する可能性のある他の本文領域が存在しないと判定すると、領域Ｅ１と領域Ｆ０とのそれぞれにつき記事の本文が完成したと判定する。

制御部１は重複の排除処理を実行する。具体的には制御部１は、領域Ｘ１乃至Ｘ６のそれぞれにつき、直前の候補領域の本文のそれぞれが句点で終わっているか否かを判定する。例えば制御部１は、領域Ｘ１の直前の候補領域である領域Ａ２と領域Ｂ０とを参照し、領域Ａ２の本文が句点で終わっていることと、領域Ｂ０の本文が句点で終わっていないこととを検出する。制御部１は、領域Ｂ０の本文を、領域Ｘ１の直前の本文として判定する。制御部１は、重複がなくなるまで重複の排除処理を繰り返す。重複が排除された結果が図１８に示される。

重複の排除処理の追加例として又は代替例として制御部１は、例えばNext Sentence Prediction(BERTによるもの)を用いて直前の本文との文脈的つながりを判定し、重複領域の直前の本文を判定してよい。

図１９のＡに示されるように、通常記事において中見出しの一部（ここでは、領域１９１、１９２及び１９３）が見出しと判定され、１つの記事が複数の記事に分離することがある。分離を解消するために、制御部１は中見出しの分類を実行し、実行結果に対して再度、通常記事に対して行われる処理を実行してよい。具体的には、中見出しの分類は分類モデルを用いて実行されてよい。分類モデルは、次の手順によって構築されてよい。
手順１．見出し候補をspaCyにかけて品詞ごとに分解し、品詞ごとにカウントする。
手順２．見出し候補と後続文とを用いて、BERTで中見出しと見出しとを二値分類し、見出し候補が中見出しである確率を得る。
手順３．上記手順１及び２から得られた「中見出しに含まれる品詞」と「BERTから出力された確率」とをLightGBMに入力し、見出し候補が中見出しか見出しを判定する。
中見出しの分類結果が図１９のＢに示される。図１９のＢに示されるように、本文領域Ａ０乃至Ａ７がグループ化されて１つの通常記事に関連付けられる。すなわち本文領域Ａ０乃至Ａ７が同一の記事に属する。

制御部１は、いずれの記事にも属さない本文領域を取得して記憶部３に記憶してよい。

（２）画像と絵解きとの関連付け
制御部１は、画像と、画像の内容を説明する絵解きとをペアとして記事に関連付けて記憶する。関連付け方法は、記事が箱組記事の場合と、それ以外の場合とに分けられる。
（２－１）箱組記事
制御部１は、箱組記事であると判定された箱組領域内で画像と絵解きとを検出し、画像と絵解きとを箱組記事に関連付けて記憶部３に記憶する。
（２－２）箱組記事以外
画像と、対応する絵解きとのペアを、双方の間の距離のみから判定することは難しい場合がある。制御部１は、画像と絵解きとが罫線をまたいでペアになることはないというルールを利用して関連付けを実行する。具体的には制御部１は、図２０のＡに示される絵解き領域２０１の四方（すなわち上下左右）の罫線を取得する。取得された罫線が、矢印２０１Ａ、２０１Ｂ、２０１Ｃ、及び２０１Ｄによって示される。制御部１は、図２０のＢに示されるように、取得された罫線によって囲まれる長方形の領域２０２を取得する。制御部１は、領域２０２と重なる画像領域２０３を取得する。図２０のＣに示されるように制御部１は、絵解き領域２０１と画像領域２０３とをペアとして関連付ける。

ペアの関連付けの後、制御部１は、図２１のＡに示されるように、画像領域２０３の四方の罫線を取得する。取得された罫線が、矢印２１１Ａ、２１１Ｂ、２１１Ｃ及び２１１Ｄによって示される。図２１のＢに示されるように制御部１は、取得された罫線によって囲まれる長方形の領域２１２を取得する。制御部１は、領域２１２と重なる見出し領域（例えば見出し領域２１３）又は本文領域（例えば本文領域２１４）が関連付けられる１以上の記事を、絵解き領域２０１と画像領域２０３とのペアが関連付けられる記事の候補に設定する。制御部１は、候補が１つである場合、絵解き領域２０１と画像領域２０３とのペアを、当該候補の記事に関連付けて記憶部３に記憶する。

追加例として又は代替例として制御部１は、画像が関連付けられる本文中に「=写真=」又は「=写真」（図２２）との文字領域２２１を検出すると、画像に関連付けられる絵解きが存在しないと判定してよい。

追加例として又は代替例として制御部１は、絵解きが関連付けられる記事を、絵解きと見出しとの類似度から判定してよい。例えば類似度の判定には、Sentence-BERTが利用されてよい。図２３の例では制御部１は、絵解き２３１の「豊漁のメジマグロに大忙しの漁民...」と、見出し２３２の『「あしながさん」募る病気遺児へ寄金訴え」』とのベクトル間の距離を判定する。判定された距離は一例として０．９である。判定処理の実装には例えば次の技術が使用されてよい。
https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cdist.html
制御部１は、絵解き２３１の「豊漁のメジマグロに大忙しの漁民...」と、見出し２３３「メジマグロ記録的大量一度の網で35トン」とのベクトル間の距離が０．４であると判定する。判定された距離は一例として０．４である。制御部１は、絵解き２３１とのベクトル間の距離が小さい（すなわち絵解き２３１との類似度が高い）見出し２３３と、絵解き２３１とを同一の記事に関連付ける。

以上のように実行された領域の連結結果が図２４に示される。同一の記事に関連付けらる（すなわち同一の記事に属する）領域は、同一種類の線によって囲まれる。

［４．分類の付与］
制御部１は、領域の連結によって作成された記事のそれぞれにつき、見出しと本文とから、分類器を用いて１以上の分類を付与する。例えば分類器は、BERTをFine-tuningしたものであってよい。

図２５に示されるように制御部１は、各記事に関連付けて、見出し、本文、画像、位置、分類等を記憶部３に記憶する。追加例として又は代替例として制御部１は、各記事に関連付けて、絵解きを記憶部３に記憶してよい。制御部１は、記憶部３に記憶された情報を用いて、記事を電子的に生成することができる。

図２６に、情報処理装置Ｄにおいて実行される情報処理方法のフローチャートが示される。

Ｓ１にて情報処理装置Ｄの制御部１は、記事画像を取得する。Ｓ２にて制御部１は、記事画像から１以上の領域を取得して、１以上の領域を本文等に分類する。Ｓ３にて制御部１は、ＯＣＲにより、本文の文字を認識する。

Ｓ４にて制御部１は、領域を連結して、記事ごとにまとめる。Ｓ４は、連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することを含む。Ｓ５にて制御部１は、記事ごとに分類を付与する。

以上述べたように本実施形態によれば、情報処理装置Ｄの制御部１は、記事画像を取得することと、記事画像から１以上の領域を取得することと、１以上の領域の少なくとも１つを本文に分類することと、本文の文字を認識することと、連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することと、を含む。この構成により情報処理装置Ｄは、画像から認識された本文の連結精度を向上することができる。更に、例えば情報処理装置Ｄは、デジタル化されていない紙面から記事の情報を抽出し、データベースに保存して活用するという復刻を可能にすることができる。

また本実施形態によれば、制御部１の動作は、他の複数の本文に重複して連結された本文を検出すると、他の複数の本文のそれぞれにつき句点で終わっているか否かを判定し、句点で終わっていない本文を直前の本文として判定することを含む。この構成により情報処理装置Ｄは、直前の本文の判定精度を向上させることができる。

また本実施形態によれば、制御部１の動作は、他の複数の本文に重複して連結された本文を検出すると、文脈的つながりから直前の本文を判定することを含む。この構成により情報処理装置Ｄは、直前の本文の判定精度を向上させることができる。

また本実施形態によれば、制御部１の動作は、他の複数の本文に重複して連結された本文が存在しないと判定すると、記事の本文が完成したと判定することを含む。この構成により情報処理装置Ｄは、重複排除を確実に実行することができる。

また本実施形態によれば、制御部１の動作は、取得された記事画像において、物体検出モデルを用いて、見出し、画像、絵解き、表、広告及び面名欄の少なくとも１つの領域を取得及び分類することと、取得された記事画像において、画像処理を用いて本文領域を取得し、画像分類モデルを用いて本文領域を本文に分類することと、を含む。この構成により情報処理装置Ｄは、領域の取得及び分類の精度を向上させることができる。

また本実施形態によれば、制御部１の動作は、記事画像から罫線を取得することと、記事画像において、枠の有無と、横罫線の有無と、本文の書き方向と、の少なくとも１つから、箱組記事と横組記事と通常記事とのいずれかを検出することとを含む。この構成により情報処理装置Ｄは、記事の種類を的確に判定し、種類に応じた後続の処理を実行することができる。

また本実施形態によれば、制御部１の動作は、通常記事を検出すると、通常記事において、重複を許した連結を実行することを含む。この構成により情報処理装置Ｄは、記事の種類が通常記事である場合に限って連結処理を実行するので、処理負荷を低減することができる。

本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが可能であることに注意されたい。したがって、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段又は各ステップに含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップを１つに組み合わせたり、或いは分割したりすることが可能である。

例えば、上記の実施形態において、情報処理装置Ｄの機能又は処理の全部又は一部を実行するプログラムは、コンピュータで読取り可能な記録媒体に記録しておくことができる。コンピュータで読取り可能な記録媒体は、非一時的なコンピュータ読取可能な媒体を含み、例えば、磁気記録装置、光ディスク、光磁気記録媒体、又は半導体メモリである。プログラムの流通は、例えば、プログラムを記録したＤＶＤ（Digital Versatile Disc）又はＣＤ－ＲＯＭ（Compact Disc Read Only Memory）などの可搬型記録媒体を販売、譲渡、又は貸与することによって行う。またプログラムの流通は、プログラムをサーバのストレージに格納しておき、サーバから他のコンピュータにプログラムを送信することにより行ってもよい。またプログラムはプログラムプロダクトとして提供されてもよい。本開示は、プロセッサが実行可能なプログラムとしても実現可能である。

Ｄ情報処理装置

Claims

制御部と通信部と記憶部とを含む情報処理装置であって、前記制御部は、
記事画像を取得することと、
前記記事画像から１以上の領域を取得することと、
前記１以上の領域の少なくとも１つを本文に分類することと、
前記本文の文字を認識することと、
連続する可能性のある複数の本文を、読み順ルールにしたがって、重複を許して連結することと、
を含む動作を実行し、
前記動作は、
前記記事画像から罫線を取得することと、
前記記事画像において、枠の有無と、横罫線の有無と、本文の書き方向と、の少なくとも１つから、箱組記事と横組記事とその他の記事とのいずれかを検出することと、
を含み、
前記動作は、
前記その他の記事を検出すると、前記その他の記事において、前記重複を許した連結を実行し、
前記箱組記事又は前記横組記事を検出すると、前記箱組記事又は前記横組記事において、前記重複を許した連結を実行しない、
ことを含む、情報処理装置。
請求項１に記載の情報処理装置において、前記動作は、
他の複数の本文に重複して連結された本文を検出すると、前記他の複数の本文のそれぞれにつき句点で終わっているか否かを判定し、句点で終わっていない本文を直前の本文として判定することを含む、情報処理装置。
請求項１に記載の情報処理装置において、前記動作は、
他の複数の本文に重複して連結された本文を検出すると、文脈的つながりから直前の本文を判定することを含む、情報処理装置。
請求項１に記載の情報処理装置において、前記動作は、
他の複数の本文に重複して連結された本文が存在しないと判定すると、記事の本文が完成したと判定することを含む、情報処理装置。
請求項１に記載の情報処理装置において、前記動作は、
取得された前記記事画像において、物体検出モデルを用いて、見出し、画像、絵解き、表、広告及び面名欄の少なくとも１つの領域を取得及び分類することと、
取得された前記記事画像において、画像処理を用いて本文領域を取得し、画像分類モデルを用いて前記本文領域を本文に分類することと、
を含む、情報処理装置。
制御部と通信部と記憶部とを含む情報処理装置による情報処理方法であって、
記事画像を取得することと、
前記記事画像から１以上の領域を取得することと、
前記１以上の領域の少なくとも１つを本文に分類することと、
前記本文の文字を認識することと、
連続する可能性のある複数の本文を、読み順ルールにしたがって、重複を許して連結することと、
を含み、
前記記事画像から罫線を取得することと、
前記記事画像において、枠の有無と、横罫線の有無と、本文の書き方向と、の少なくとも１つから、箱組記事と横組記事とその他の記事とのいずれかを検出することと、
を含み、
前記その他の記事を検出すると、前記その他の記事において、前記重複を許した連結を実行し、
前記箱組記事又は前記横組記事を検出すると、前記箱組記事又は前記横組記事において、前記重複を許した連結を実行しない、
ことを含む、情報処理方法。
コンピュータを、請求項１に記載の情報処理装置として機能させるためのプログラム。
請求項５に記載の情報処理装置において、
前記動作は、前記物体検出モデル又は前記画像処理によって見出しとして取得及び分類された領域を見出し領域として確定し、前記見出し領域として確定されなかった領域のうち前記画像分類モデルによって見出し領域として取得された領域を特定し、特定された領域のうち、領域の大きさが所定値を超える領域を見出しとして確定し、領域の大きさが所定値以下の領域を中見出しとして確定することを含む、情報処理装置。
請求項５に記載の情報処理装置において、前記動作は、
見出し候補を品詞ごとに分解し、品詞ごとにカウントすることと、
見出し候補と後続文とを用いて、中見出しと見出しとを二値分類し、見出し候補が中見出しである確率を取得することと、
前記品詞と前記確率とから、前記見出し候補が中見出しと見出しとのどちらであるかを判定することと、
を含む、情報処理装置。
請求項５に記載の情報処理装置において、前記動作は、
前記本文領域を取得すると、取得された対象領域の本文に重なっている見出し領域を白塗りすることで、前記対象領域の本文ではない文字の影響を排除することを含む、情報処理装置。
請求項５に記載の情報処理装置において、前記動作は、
前記箱組記事を検出すると、前記箱組記事であると判定された箱組領域内で画像と絵解きとを検出し、前記画像と前記絵解きとを前記箱組記事に関連付けて記憶することと、
前記横組記事又は前記その他の記事を検出すると、絵解き領域の四方の罫線を取得し、取得された罫線によって囲まれる長方形の領域を取得し、前記長方形の領域と重なる画像領域を取得し、前記絵解き領域と前記画像領域とを関連付けて記憶することと、
を含む、情報処理装置。