JP7385075B1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP7385075B1 JP7385075B1 JP2023106280A JP2023106280A JP7385075B1 JP 7385075 B1 JP7385075 B1 JP 7385075B1 JP 2023106280 A JP2023106280 A JP 2023106280A JP 2023106280 A JP2023106280 A JP 2023106280A JP 7385075 B1 JP7385075 B1 JP 7385075B1
- Authority
- JP
- Japan
- Prior art keywords
- article
- area
- information processing
- image
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 65
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000004891 communication Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 11
- 238000010422 painting Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 25
- 238000000034 method Methods 0.000 description 22
- 238000012015 optical character recognition Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000269838 Thunnus thynnus Species 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000006002 Pepper Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006740 morphological transformation Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
Description
1)すべての行成分は唯一の段要素に属する。
2)各々の段要素の段領域は互いに重ならない。ここで,段領域は各々の段要素に属する行成分の外接矩形で定義される領域である。
3)段方向の確定した段要素に属する行要素は,段方向順に順序付けされ,段方向と垂直方向に重なる行要素が存在しないように互いに統合されている。
制御部と通信部と記憶部とを含む情報処理装置であって、前記制御部は、
記事画像を取得することと、
前記記事画像から1以上の領域を取得することと、
前記1以上の領域の少なくとも1つを本文に分類することと、
前記本文の文字を認識することと、
連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することと、
を含む動作を実行する。
制御部と通信部と記憶部とを含む情報処理装置による情報処理方法であって、
記事画像を取得することと、
前記記事画像から1以上の領域を取得することと、
前記1以上の領域の少なくとも1つを本文に分類することと、
前記本文の文字を認識することと、
連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することと、
を含む。
コンピュータを、上記情報処理装置として機能させる。
情報処理装置Dの記憶部3は記事画像を記憶する。記事画像は1以上の記事を含む。記事画像は、新聞又は雑誌等の紙面を撮像又は走査することによって得られてよい。制御部1は記事画像を取得する。図2に示されるように制御部1は、任意の物体検出モデルを用いて、記事画像から1以上の領域を取得(抽出)する。制御部1は、取得された各領域を例えば次の領域種類のいずれかに分類する。
・見出し
・画像
・絵解き(すなわち、対応する画像の内容を説明するキャプション)
・表
・広告
・面名欄
・見出し(例えば領域81)
・本文(例えば領域82)
・画像(例えば領域83)
・絵解き(例えば領域84)
・表(例えば領域85)
・広告(例えば領域86)
・面名欄(例えば領域87)
制御部1は、取得及び分類された各領域に対し、OCR(Optical Character Recognition/Reader)を用いて本文の文字を認識する。例えばOCRエンジンとしてはGoogleのAPIが利用されてよい。制御部1は、文字認識の前にノイズの除去又は記事画像の加工を行い、精度向上を図ってよい。例えば制御部1は、各領域につきOpenCVを用いてごま塩ノイズを除去してよい。
手順1.本文領域の画像を取得する
手順2.上述のRLSAを用いて、各行につき縦方向に画像を繋げる
手順3.各行の境界線を取得する
手順4.各境界線に外接する長方形を各行につき1つずつ取得する
手順5.右にある長方形から順番に、上から下へ並べる
追加例として又は代替例として、制御部1は上記手順1と手順2との間の時点で、対象領域の本文に重なっている見出し領域を白塗り(すなわちマスク)することで、対象領域の本文ではない文字の影響を排除してよい。
制御部1は、下記の方法で記事の種類を検出し、記事の種類に応じて1以上の本文を連結する。図10に示されるように、例えば記事の種類は次の通りである。
・通常記事(図10のA)
・箱組記事(図10のB)
・横組記事(図10のC)
(1-1)箱組記事
箱組記事は、箱型(すなわち長方形型)に配置された記事を示す。箱組記事は、記事が枠121で囲まれる種類(図12のA)と、記事が枠に囲まれない種類(図12のB)とに少なくとも分けられる。
手順1.見出し及び本文を含め、取得された領域を全てマスク(白塗り)した画像を生成する(この場合、罫線のみが残された画像が生成される)
手順2.OpenCVにより輪郭抽出及び矩形検出を実行する
手順3.矩形の縦及び横の長さに応じてフィルタリングを実行する
制御部1は、枠を検出すると、枠で囲まれた領域131を箱組領域として検出する。箱組領域内の1以上の領域は、グループ化されて、1つの記事に関連付けられる。関連付けられた1以上の領域は、各箱組記事に関連付けて記憶部3に記憶される。
・縦書きの場合:左方向に読み進み、罫線、画像(ただし、高さが紙面の1段の高さよりも大きい画像)、見出し又は絵解きに突き当たると下段の領域の右端に飛ぶ。箱組記事内では、見出しを飛び越えて読む。
・横書きの場合、右方向に読み進み、罫線に突き当たると下段の領域に飛ぶ。
領域0:読み順1番目
領域1:読み順2番目
領域2:読み順3番目
領域3:読み順4番目
領域4:読み順5番目
領域5:読み順6番目
領域6:読み順7番目
横組記事の検出方法として制御部1は、OCRでの文字認識により横書きと判定された1以上の本文を検出すると、箱組記事の検出方法と同一の方法により、1以上の本文をグループ化して1つの横組記事に関連付ける。更に制御部1は、横書きの箱組記事の場合での読み順の判定方法と同一の方法により、横組記事での本文の読み順を判定する。制御部1は、図16に示されるように、横組記事の読み順を次のように判定する。
領域A0:読み順1番目
領域A1:読み順2番目
領域A2:読み順3番目
制御部1は、記事画像において、箱組記事の領域と横組記事の領域とを除いた領域を通常記事の候補領域として検出する。制御部1は通常記事の候補領域において、本文の開始位置を探索する。開始位置は次のように判定されてよい。
・見出しの左側に本文がある場合:開始位置は見出しの左上にある本文の右上端
・見出しの左側に本文がない場合:開始位置は見出しの下段にある本文の右上端
・領域A0乃至A2の本文と、領域X1乃至X6の本文とを連結する。
・領域B0の本文と、領域X1乃至X6の本文とを連結する。
・領域C0乃至C2の本文と、領域X4乃至X6の本文とを連結する。
・領域D0乃至D3の本文と、領域X4乃至X6の本文とを連結する。
・領域E0の本文と、領域E1の本文とを連結する。
・領域G0の本文と、領域X6の本文とを連結する。
手順1.見出し候補をspaCyにかけて品詞ごとに分解し、品詞ごとにカウントする。
手順2.見出し候補と後続文とを用いて、BERTで中見出しと見出しとを二値分類し、見出し候補が中見出しである確率を得る。
手順3.上記手順1及び2から得られた「中見出しに含まれる品詞」と「BERTから出力された確率」とをLightGBMに入力し、見出し候補が中見出しか見出しを判定する。
中見出しの分類結果が図19のBに示される。図19のBに示されるように、本文領域A0乃至A7がグループ化されて1つの通常記事に関連付けられる。すなわち本文領域A0乃至A7が同一の記事に属する。
制御部1は、画像と、画像の内容を説明する絵解きとをペアとして記事に関連付けて記憶する。関連付け方法は、記事が箱組記事の場合と、それ以外の場合とに分けられる。
(2-1)箱組記事
制御部1は、箱組記事であると判定された箱組領域内で画像と絵解きとを検出し、画像と絵解きとを箱組記事に関連付けて記憶部3に記憶する。
(2-2)箱組記事以外
画像と、対応する絵解きとのペアを、双方の間の距離のみから判定することは難しい場合がある。制御部1は、画像と絵解きとが罫線をまたいでペアになることはないというルールを利用して関連付けを実行する。具体的には制御部1は、図20のAに示される絵解き領域201の四方(すなわち上下左右)の罫線を取得する。取得された罫線が、矢印201A、201B、201C、及び201Dによって示される。制御部1は、図20のBに示されるように、取得された罫線によって囲まれる長方形の領域202を取得する。制御部1は、領域202と重なる画像領域203を取得する。図20のCに示されるように制御部1は、絵解き領域201と画像領域203とをペアとして関連付ける。
https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cdist.html
制御部1は、絵解き231の「豊漁のメジマグロに大忙しの漁民...」と、見出し233「メジマグロ 記録的大量 一度の網で35トン」とのベクトル間の距離が0.4であると判定する。判定された距離は一例として0.4である。制御部1は、絵解き231とのベクトル間の距離が小さい(すなわち絵解き231との類似度が高い)見出し233と、絵解き231とを同一の記事に関連付ける。
制御部1は、領域の連結によって作成された記事のそれぞれにつき、見出しと本文とから、分類器を用いて1以上の分類を付与する。例えば分類器は、BERTをFine-tuningしたものであってよい。
Claims (11)
- 制御部と通信部と記憶部とを含む情報処理装置であって、前記制御部は、
記事画像を取得することと、
前記記事画像から1以上の領域を取得することと、
前記1以上の領域の少なくとも1つを本文に分類することと、
前記本文の文字を認識することと、
連続する可能性のある複数の本文を、読み順ルールにしたがって、重複を許して連結することと、
を含む動作を実行し、
前記動作は、
前記記事画像から罫線を取得することと、
前記記事画像において、枠の有無と、横罫線の有無と、本文の書き方向と、の少なくとも1つから、箱組記事と横組記事とその他の記事とのいずれかを検出することと、
を含み、
前記動作は、
前記その他の記事を検出すると、前記その他の記事において、前記重複を許した連結を実行し、
前記箱組記事又は前記横組記事を検出すると、前記箱組記事又は前記横組記事において、前記重複を許した連結を実行しない、
ことを含む、情報処理装置。 - 請求項1に記載の情報処理装置において、前記動作は、
他の複数の本文に重複して連結された本文を検出すると、前記他の複数の本文のそれぞれにつき句点で終わっているか否かを判定し、句点で終わっていない本文を直前の本文として判定することを含む、情報処理装置。 - 請求項1に記載の情報処理装置において、前記動作は、
他の複数の本文に重複して連結された本文を検出すると、文脈的つながりから直前の本文を判定することを含む、情報処理装置。 - 請求項1に記載の情報処理装置において、前記動作は、
他の複数の本文に重複して連結された本文が存在しないと判定すると、記事の本文が完成したと判定することを含む、情報処理装置。 - 請求項1に記載の情報処理装置において、前記動作は、
取得された前記記事画像において、物体検出モデルを用いて、見出し、画像、絵解き、表、広告及び面名欄の少なくとも1つの領域を取得及び分類することと、
取得された前記記事画像において、画像処理を用いて本文領域を取得し、画像分類モデルを用いて前記本文領域を本文に分類することと、
を含む、情報処理装置。 - 制御部と通信部と記憶部とを含む情報処理装置による情報処理方法であって、
記事画像を取得することと、
前記記事画像から1以上の領域を取得することと、
前記1以上の領域の少なくとも1つを本文に分類することと、
前記本文の文字を認識することと、
連続する可能性のある複数の本文を、読み順ルールにしたがって、重複を許して連結することと、
を含み、
前記記事画像から罫線を取得することと、
前記記事画像において、枠の有無と、横罫線の有無と、本文の書き方向と、の少なくとも1つから、箱組記事と横組記事とその他の記事とのいずれかを検出することと、
を含み、
前記その他の記事を検出すると、前記その他の記事において、前記重複を許した連結を実行し、
前記箱組記事又は前記横組記事を検出すると、前記箱組記事又は前記横組記事において、前記重複を許した連結を実行しない、
ことを含む、情報処理方法。 - コンピュータを、請求項1に記載の情報処理装置として機能させるためのプログラム。
- 請求項5に記載の情報処理装置において、
前記動作は、前記物体検出モデル又は前記画像処理によって見出しとして取得及び分類された領域を見出し領域として確定し、前記見出し領域として確定されなかった領域のうち前記画像分類モデルによって見出し領域として取得された領域を特定し、特定された領域のうち、領域の大きさが所定値を超える領域を見出しとして確定し、領域の大きさが所定値以下の領域を中見出しとして確定することを含む、情報処理装置。 - 請求項5に記載の情報処理装置において、前記動作は、
見出し候補を品詞ごとに分解し、品詞ごとにカウントすることと、
見出し候補と後続文とを用いて、中見出しと見出しとを二値分類し、見出し候補が中見出しである確率を取得することと、
前記品詞と前記確率とから、前記見出し候補が中見出しと見出しとのどちらであるかを判定することと、
を含む、情報処理装置。 - 請求項5に記載の情報処理装置において、前記動作は、
前記本文領域を取得すると、取得された対象領域の本文に重なっている見出し領域を白塗りすることで、前記対象領域の本文ではない文字の影響を排除することを含む、情報処理装置。 - 請求項5に記載の情報処理装置において、前記動作は、
前記箱組記事を検出すると、前記箱組記事であると判定された箱組領域内で画像と絵解きとを検出し、前記画像と前記絵解きとを前記箱組記事に関連付けて記憶することと、
前記横組記事又は前記その他の記事を検出すると、絵解き領域の四方の罫線を取得し、取得された罫線によって囲まれる長方形の領域を取得し、前記長方形の領域と重なる画像領域を取得し、前記絵解き領域と前記画像領域とを関連付けて記憶することと、
を含む、情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023106280A JP7385075B1 (ja) | 2023-06-28 | 2023-06-28 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023106280A JP7385075B1 (ja) | 2023-06-28 | 2023-06-28 | 情報処理装置、情報処理方法、及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023191854A Division JP7493665B1 (ja) | 2023-11-09 | 情報処理装置、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7385075B1 true JP7385075B1 (ja) | 2023-11-21 |
Family
ID=88833359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023106280A Active JP7385075B1 (ja) | 2023-06-28 | 2023-06-28 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7385075B1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000251067A (ja) | 1999-02-25 | 2000-09-14 | Sumitomo Metal Ind Ltd | 文書解析方法及び装置並びに記録媒体 |
JP2008191833A (ja) | 2007-02-02 | 2008-08-21 | Fujitsu Ltd | 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 |
JP2020144719A (ja) | 2019-03-08 | 2020-09-10 | 国立大学法人秋田大学 | 紙面領域分類装置及びそのプログラム |
WO2021084702A1 (ja) | 2019-10-31 | 2021-05-06 | 楽天株式会社 | 文書画像解析装置、文書画像解析方法およびプログラム |
JP6956920B1 (ja) | 2020-04-14 | 2021-11-02 | 楽天グループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
-
2023
- 2023-06-28 JP JP2023106280A patent/JP7385075B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000251067A (ja) | 1999-02-25 | 2000-09-14 | Sumitomo Metal Ind Ltd | 文書解析方法及び装置並びに記録媒体 |
JP2008191833A (ja) | 2007-02-02 | 2008-08-21 | Fujitsu Ltd | 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 |
JP2020144719A (ja) | 2019-03-08 | 2020-09-10 | 国立大学法人秋田大学 | 紙面領域分類装置及びそのプログラム |
WO2021084702A1 (ja) | 2019-10-31 | 2021-05-06 | 楽天株式会社 | 文書画像解析装置、文書画像解析方法およびプログラム |
JP6956920B1 (ja) | 2020-04-14 | 2021-11-02 | 楽天グループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
駱琴, 外2名,"ルールベースの適用による日本語新聞紙紙面の構造認識",電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1992年09月25日,第J75-D-II巻, 第9号,p.1514-1525 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10817741B2 (en) | Word segmentation system, method and device | |
CN113111871B (zh) | 文本识别模型的训练方法及装置、文本识别方法及装置 | |
US5774580A (en) | Document image processing method and system having function of determining body text region reading order | |
EP0163377B1 (en) | Pattern recognition system | |
Saha et al. | Multi-lingual scene text detection and language identification | |
CN110503054B (zh) | 文本图像的处理方法及装置 | |
Demilew et al. | Ancient Geez script recognition using deep learning | |
Wang et al. | Logo detection in document images based on boundary extension of feature rectangles | |
CN111460355B (zh) | 一种页面解析方法和装置 | |
JPH06501801A (ja) | 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置 | |
CN111241897B (zh) | 通过推断视觉关系的工业检验单数字化的系统和实现方法 | |
CN109635796B (zh) | 调查问卷的识别方法、装置和设备 | |
JP7385075B1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Julca-Aguilar et al. | Text/non-text classification of connected components in document images | |
CN111553361A (zh) | 一种病理切片标签识别方法 | |
CN113869304A (zh) | 视频的文字检测方法及装置 | |
JP7493665B1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Saitoh et al. | Document image segmentation and layout analysis | |
JP2023003887A (ja) | 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム | |
Qin et al. | Laba: Logical layout analysis of book page images in arabic using multiple support vector machines | |
US20220406083A1 (en) | Image processing apparatus, control method thereof, and storage medium | |
CN112825141B (zh) | 识别文本的方法、装置、识别设备和存储介质 | |
Elmore et al. | A morphological image preprocessing suite for ocr on natural scene images | |
JP2002312719A (ja) | 文字切り出し装置及び文字切り出し方法並びに文字切り出し用プログラム | |
Koponen et al. | Recent advancements in machine vision methods for product code recognition: A systematic review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230628 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7385075 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |