JP7432041B1 - 古文献の原文イメージのデジタル化のための電子装置および方法 - Google Patents

古文献の原文イメージのデジタル化のための電子装置および方法 Download PDF

Info

Publication number
JP7432041B1
JP7432041B1 JP2023078166A JP2023078166A JP7432041B1 JP 7432041 B1 JP7432041 B1 JP 7432041B1 JP 2023078166 A JP2023078166 A JP 2023078166A JP 2023078166 A JP2023078166 A JP 2023078166A JP 7432041 B1 JP7432041 B1 JP 7432041B1
Authority
JP
Japan
Prior art keywords
column
text
main text
group
ancient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023078166A
Other languages
English (en)
Other versions
JP2024025648A (ja
Inventor
イ、アラム
ミン、ギヒョン
カン、ヒョンソ
キム、コシク
キム、ジョンウン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220142352A external-priority patent/KR20240022376A/ko
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Application granted granted Critical
Publication of JP7432041B1 publication Critical patent/JP7432041B1/ja
Publication of JP2024025648A publication Critical patent/JP2024025648A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

【課題】古文献の原文イメージのデジタル化方法のための電子装置及び方法を提供する。【解決手段】方法は、古文献の原文イメージを対象にOCRにより個別漢字領域を検出して検出ボックスとして生成するステップS510と、個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分するステップS530と、区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第1グループと、複数の細注および本文を含む要素のグループである第2グループとにグループ化して区分するステップS540と、第2グループの要素を対象に本文領域と細注領域とにそれぞれ再分割するステップS550と、再分割結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成するステップS560と、を含む。【選択図】図5

Description

本発明は、古文献の原文イメージのデジタル化のための電子装置および方法に関する。
韓国国内の古文献保有量は2021年ベースで、国公立図書館と研究機関、地域別の博物館などを含めて計300万点に達する。1999年、国策事業の一環として韓国学資料のDB化が推進され、光学イメージングとデジタルデータ圧縮技術の発展により全体蔵書量の5%に達する原文イメージが部分的に公開されている。
古文献内の各個別字形までデジタル化する原文テキストサービスは原文イメージサービスに比べて文献の活用度が高いが、多様な書体の漢字が主となる古文献を対象にした人材ベースの個別字形認識および電算入力過程に多くの労力と費用が要求されるので、全体古文献保有量に比べてサービス構築規模が不十分なのが現状である。
本発明が解決しようとする課題は、人工知能ベースの光学文字認識ベースで検出および認識された個別漢字の位置および大きさ情報に基づいて、古文献の原文イメージを本文と細注とに区分し、これに関する書き順情報を生成して古文献のデジタルテキスト化を可能にする、古文献の原文イメージのデジタル化のための電子装置および方法を提供することを目的とする。
ただし、本発明が解決しようとする課題は上記の課題に限定されず、さらに他の課題が存在できる。
上述した課題を解決するための、本発明の第1態様による古文献の原文イメージのデジタル化方法は、古文献の原文イメージを対象にOCRにより個別漢字領域を検出して検出ボックスとして生成するステップと、前記個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分するステップと、前記区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第1グループと、複数の細注および本文を含む要素のグループである第2グループとにグループ化して区分するステップと、前記第2グループの要素を対象に本文領域と細注領域とにそれぞれ再分割するステップと、前記再分割結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成するステップとを含む。
また、本発明の第2態様による古文献の原文イメージのデジタル化のための電子装置は、古文献の原文イメージを対象にデジタルテキスト化を行うためのプログラムが格納されたメモリと、前記メモリに格納されたプログラムを実行させることにより、前記古文献の原文イメージを対象にOCRにより個別漢字領域を検出して検出ボックスとして生成し、前記個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分し、前記区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第1グループと、複数の細注および本文を含む要素のグループである第2グループとにグループ化して区分し、前記第2グループの要素を対象に本文領域と細注領域とにそれぞれ再分割した後、前記再分割結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成するプロセッサとを含む。
上述した課題を解決するための、本発明の他の態様によるコンピュータプログラムは、古文献の原文イメージのデジタル化方法を実行し、コンピュータ読取可能記録媒体に格納される。
本発明のその他の具体的な事項は詳細な説明および図面に含まれている。
本発明の一実施例は、古文献テキストの書き順割当のために原文イメージ全体にOCRを先に適用(bottom-up)した後、検出ボックスの座標を対象に投影プロファイルを分析(top-down)して群集化を進行させるハイブリッドライン分割方式を適用する。このような方式は、既存のOCRで提供される文字検出および認識情報の潜在力をより一層活用しながら古文献の原文テキスト制作の効率性を増加させることができる。
また、本発明の一実施例は、最終検証ステップで本文と細注とが混在した原文イメージ内でもラインの分割に成功し、個別字形の本文および細注の分類と、書き順の割当まで可能というメリットがある。
このような本発明の一実施例によれば、既存のOCR漢字検出および認識と、コーパスDBベースの翻訳モデルとを連結する接点として作用して、古文献の全自動翻訳を可能にする。
本発明の効果は以上に言及された効果に制限されず、言及されていないさらに他の効果は以下の記載から通常の技術者に明確に理解されるであろう。
光学文字認識ベースの古文献のデジタル化を行う一例を説明するための図である。 本文のみを含む右縦書きベースの古文献の書き順を説明するための図である。 本文と細注とが混用された右縦書きベースの古文献の書き順を説明するための図である。 ピクセルおよびポイント投影プロファイルによるライン分割性能を比較した結果を説明するための図である。 本発明の一実施例による電子装置を説明するための図である。 本発明の一実施例による古文献イメージのデジタル化方法のフローチャートである。 本発明の一実施例における古文献の原文イメージの傾き補正過程を説明するための図である。 本発明の一実施例における古文献の原文イメージに対する本文列および細注列の分離過程を説明するための図である。 本発明の一実施例における古文献の原文イメージに対する本文列および細注列の分離過程を説明するための図である。 本発明の一実施例における古文献の原文イメージに対する本文列および細注列の分離過程を説明するための図である。 本発明の一実施例において本文列および細注列を対象に本文と細注を含むか否かによるグループに区分する過程を説明するための図である。 本発明の一実施例において第2グループの要素を対象に本文領域と細注領域とを区分する内容を説明するための図である。 本発明の一実施例において古文献の原文イメージをデジタルテキスト化した一例を示す図である。
本発明の利点および特徴、そしてそれらを達成する方法は、添付した図面と共に詳細に後述する実施例を参照すれば明確になる。しかし、本発明は以下に開示される実施例に制限されるものではなく、互いに異なる多様な形態で実現可能であり、単に本実施例は本発明の開示が完全となるようにし、本発明の属する技術分野における通常の技術者に本発明の範疇を完全に知らせるために提供されるものであり、本発明は請求項の範疇によってのみ定義される。
本明細書で使われた用語は実施例を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数形は、文言で特に言及しない限り、複数形も含む。明細書で使われる「含む(comprises)」および/または「含む(comprising)」は、言及された構成要素のほか、1つ以上の他の構成要素の存在または追加を排除しない。明細書全体にわたって同一の図面符号は同一の構成要素を指し示し、「および/または」は、言及された構成要素のそれぞれおよび1つ以上のすべての組み合わせを含む。たとえ、「第1」、「第2」などが多様な構成要素を述べるために使われるが、これらの構成要素は、これらの用語によって制限されないことはもちろんである。これらの用語は単に1つの構成要素を他の構成要素と区別するために使うものである。したがって、以下に言及される第1構成要素は本発明の技術的思想内で第2構成要素であってもよいことはもちろんである。
他に断りがなければ、本明細書で使われるすべての用語(技術および科学的用語を含む)は、本発明の属する技術分野における通常の技術者に共通して理解できる意味で使われるであろう。また、一般的に使われる辞書に定義されている用語は、明らかに特に断りがない限り、理想的または過度に解釈されない。
以下、当業者の理解のために本発明が提案された背景について先に述べてから、本発明の実施例について述べる。
最近、イメージの内部に含まれたテキストを自動的に検出および認識する人工知能ベースの光学文字認識(Optical Character Recognition、OCR)技術が古文献のデジタル化のための代案として浮上しており、代表的な国家事業の実績には、韓国古典翻訳院で成功させた『承政院日記』の機械翻訳がある。
図1は、光学文字認識ベースの古文献のデジタル化を行う一例を説明するための図である。
図1のように、OCRアルゴリズムは、スキャンされた図書内の各字形に対する位置(x、y)と大きさ(w、h)情報を含むバウンディングボックス(bounding box、110)を形成(または検出)し、字形の種類を推論(または認識)した後、ラベルファイルに記録する。当該結果物は個別漢字に対する独立した情報のみを提供するだけで、それらの連続的な集合である語句と文章を構成することはできず、後続のステップである翻訳の過程に集中的に用いられるためには、人材ベースの書き順の手動割当が要求されているのが現状である。このように、手動的な後処理は全体古文献のデジタル化過程のボトルネックとして作用して作業時間および費用を増加させ、これによってOCR技術の潜在力が十分に活用されていない。
図2Aは、本文のみを含む右縦書きベースの古文献の書き順を説明するための図である。図2Bは、本文と細注とが混用された右縦書きベースの古文献の書き順を説明するための図である。
一方、漢字文化圏の影響を受けた韓国の古文献は、大部分の記録が漢字で残されているだけでなく、図2Aのように、右列から上から下へ書かれた後、左へ列を移していく右縦書きの形式210に従う。古文献の構造のうち、細注は、図2Bのように、本文の単一列で比較的小さいサイズの字が2つの列に分化される部分をいい、これは先の本文に対する補充説明である注釈の役割をする。
既存の人材ベースの古文献のデジタル化過程では、限られた時間的、経済的資源の下で細注を除いて本文だけを翻訳する場合も多かった。しかし、歴史学の研究において細注が重要な情報を伝達する場合もあるので、これを含む効率的な完訳に対する技術的発展が必要である。
代表例として、1454年に編纂された『新増東国輿地勝覧』の独島(于山島)と茂陵島(鬱陵島)に対する記録の中で、「2つの島は互いに距離が遠くなく、天気がよければ眺めることができる(二島相去不遠、風日清明、則可望見)」という文章が細注で発見され、大韓民国の独島領有権の主張に強い根拠として提示されている。
また、図2Aの本文だけが含まれた原文イメージとは異なり、図2Bの細注が混合された原文イメージは、矢印のように書き順の方向が多少あいまいである。一般的に、右縦書きの書き順の進行中に細注が出現する場合、細注群集220内に右側の細注列(右細注)を優先的に読んだ後、左側の細注列(左細注)に移動しなければならず、図2Bの例の場合、書き順が「癸巳先生三十三歳四月」にならなければならない。
しかし、単純に右縦書き原則のみに基づいて、右→左(x軸)または上→下(y軸)の順に整列される場合、結果はそれぞれ「先生三癸巳四月十三歳」、「癸巳先十生三三歳四月」で誤読が発生する。甚だしくは、イメージ内の文字の行/列の整列が完璧でない場合、その結果の予測がなおさら難しく、細注がない図2Aの場合も、同様の問題が発生しうる。
このような理由から、原文イメージ内の行(横書きの場合)または列(縦書きの場合)を分割するライン分割と各分割要素内の文字の書き順を割当てるアルゴリズムに関する、次のような様々な研究が行われた。
原文イメージのライン分割は、大きく、トップダウン(top-down)とボトムアップ(bottom-up)の方式に分けられる。前者の場合、イメージ全体を対象に区画を設定する推論を、後者の場合、事前に検出された個別文字の位置情報に基づいて群集化を実行する。
当初のトップダウンライン分割方式である投影プロファイル(projection profile)手法は、バイナリイメージ内のピクセルが一軸に投影されたヒストグラムを分析して、ピクセル密度が閾値より低い部分に境界線を形成する[R.Ptak,et al.,「Projection-based text line segmentation with a variable threshold」、Int.J.Appl.Math.Comput.Sci.,vol.27,pp.195、2017]。このような手法は、行/列間の距離が近いほど閾値を高く設定しなければならず、誤差率が増加する傾向を示す。
以降、ディープラーニングベースのライン分割モデルの開発に関する研究が活発に行われたが[O.Mechi,et al.,「Text line segmentation in historical document images using an adaptive U-Net architecture」、2019ICDAR,pp.369]、事前学習DBの構築過程で要求される人材ベースのラベリングの非効率性が指摘され、これを避けるために開発された非指導学習ベースモデルの場合、原文の整形度が少しだけ下がってもライン分割の正確度が大きく低下するというデメリットがあった[B.K.Barakat,et al.,「Unsupervised deep learning for text line segmentation」、25th ICPR、2021.]。
ボトムアップライン分割の代表的なケースとして、韓国国内では、OCRで検出された各文字の中心座標を対象に文書の左下端からの幾何学的距離を比較して書き順を定める試みがあったが、細注などの不整形構造には対応することができなかった[リュ・ジュンファン、et al.,「古文書の草書領域の検出および翻訳のための検出結果ナンバリング」、ICROS2019,pp.140]。
このようなボトムアップベースの書き順の割当は人の認知には多少直観的であり得るが、数学的演算処理では、各文字のx、yの2つの位置情報に対して総合的な優先順位を判別(degree of freedom=2)することが難しい。
これに着目して、本発明の一実施例は、OCRで検出された文字の座標(bottom-up)を第1軸(例えば、x軸)に投影した後、投影プロファイル分析(top-down)を適用するハイブリッド(hybrid)方式のライン分割を提供することを特徴とする。本発明の一実施例において、分割された各ライン要素は、例えば、x軸の位置情報が排除されたy軸の情報(degree of freedom=1)のみに基づいて、内部書き順を明瞭に割当てることができる。
図3は、ピクセルおよびポイント投影プロファイルによるライン分割性能を比較した結果を説明するための図である。
図3は、既存の文字ピクセル投影(pixel projection、310)と、本発明の一実施例におけるOCR検出ボックスの中心座標投影(point projection、320)によるライン分割過程を端的に比較したことを示す図である。
文字ピクセル投影手法は、4つの代表列の間の3つの区間と細注だけで構成された3列の中央に対して確実なピクセル低密度区間(<密度閾値、330)を表現する。しかし、第2、第4列のように本文と細注とが混合された場合、各細注列(本文、右細注、左細注)要素の投影が重なり、これを分離することが難しい。
これに対し、本発明の一実施例における中心座標投影は、画期的に増加した文字ボックス座標投影体の解像度により明確な群集化が確認され、群集間の距離が特定の閾値以上に広がる箇所340にライン分割を実行することができる。
以下、図4を参照して、本発明の一実施例による古文献の原文イメージのデジタル化のための電子装置(400、以下、電子装置)について説明する。
図4は、本発明の一実施例による電子装置400を説明するための図である。
本発明の一実施例による電子装置400は、入力部410と、通信部420と、表示部430と、メモリ440と、プロセッサ450とを含む。
入力部410は、電子装置400のユーザ入力に対応して入力データを発生させる。ユーザ入力は、電子装置400が処理しようとするデータに関するユーザ入力を含むことができる。
入力部410は、少なくとも1つの入力手段を含む。入力部410は、キーボード(key board)、キーパッド(key pad)、ドームスイッチ(dome switch)、タッチパネル(touch panel)、タッチキー(touch key)、マウス(mouse)、メニューボタン(menu button)などを含むことができる。
通信部420は、内部構成間のデータを送受信したり、外部サーバなどの外部装置との通信を行う。一実施例として、通信部420は、外部装置、インターネット網などを介して古文献の原文イメージを受信し、デジタルテキストの生成結果をユーザ端末、インターネット網などで送ることができる。このような通信部420は、有線通信モジュールおよび無線通信モジュールをすべて含むことができる。有線通信モジュールは、電力線通信装置、電話線通信装置、ケーブルホーム(MoCA)、イーサネット(Ethernet)、IEEE1294、統合有線ホームネットワークおよびRS-485制御装置で実現できる。また、無線通信モジュールは、WLAN(wireless LAN)、Bluetooth、HDR WPAN、UWB、ZigBee、Impulse Radio、60GHz WPAN、Binary-CDMA、無線USB技術および無線HDMI技術、その他、5G(5th generation communication)、LTE-A(long term evolution-advanced)、LTE(long term evolution)、Wi-Fi(wireless fidelity)などの機能を実現するためのモジュールで構成されてもよい。
表示部430は、電子装置400の動作による表示データを表示する。表示部430は、液晶ディスプレイ(LCD;liquid crystal display)、発光ダイオード(LED;light emitting diode)ディスプレイ、有機発光ダイオード(OLED;organic LED)ディスプレイ、マイクロ電子機械システム(MEMS;micro electro mechanical systems)ディスプレイおよび電子ペーパー(electronic paper)ディスプレイを含む。表示部430は、入力部410と結合されてタッチスクリーン(touch screen)で実現できる。
メモリ440には、古文献の原文イメージを対象にデジタルテキスト化を行うためのプログラムが格納される。ここで、メモリ440は、電源が供給されなくても格納された情報を保持し続ける不揮発性記憶装置および揮発性記憶装置を通称するものである。例えば、メモリ440は、コンパクトフラッシュ(compact flash;CF)カード、SD(secure digital)カード、メモリスティック(memory stick)、ソリッドステートドライブ(solid-state drive;SSD)およびマイクロ(micro)SDカードなどのようなNANDフラッシュメモリ(NAND flash memory)、ハードディスクドライブ(hard disk drive;HDD)などのようなマグネチックコンピュータ記憶装置、およびCD-ROM、DVD-ROMなどのような光学ディスクドライブ(optical disc drive)などを含むことができる。
プロセッサ450は、プログラムなどのソフトウェアを実行して、電子装置400の少なくとも1つの他の構成要素(例:ハードウェアまたはソフトウェア構成要素)を制御することができ、多様なデータ処理または演算を行うことができる。
以下、図5~図10を参照して、本発明の一実施例による電子装置400によって行われる古文献イメージのデジタル化方法(以下、古文献イメージのデジタル化方法)について説明する。
図5は、本発明の一実施例による古文献イメージのデジタル化方法のフローチャートである。一方、本発明の説明では、右縦書きの書き順ベースの古文献を中心に説明するが、必ずしもこれに限定されるものではない。
本発明の一実施例はまず、古文献の原文イメージを対象にOCRにより個別漢字領域を検出して検出ボックスとして生成する(S510)。S510ステップでは、検出された個別漢字領域に対する字形認識やデータ辞書を準備する過程が行われる。
次に、個別漢字領域が検出された古文献の原文イメージを対象に傾き補正(Tilt Correction)を行う(S520)。
本発明の一実施例で提案されたライン分割の基本アルゴリズムである投影プロファイルは、縦書きテキストの中心座標をx軸に投影したパターンを分析するので、隣り合う列間の重なりを最小化するために、縦書きの方向がx軸の垂直に近くなければならない。したがって、当該条件を満足するために、本発明の一実施例は、原文イメージの傾きを補正する前処理過程を行う。
図6は、本発明の一実施例における古文献の原文イメージの傾き補正過程を説明するための図である。
一実施例として、S520ステップでは、古文献の原文イメージの上端から各文字被写体を対象に仮想の複数の平行光610を投射する。すなわち、本発明の一実施例における傾き補正過程は、各文字が被写体として作用して原文イメージの下端に影を生成するシナリオを想定する。
その後、平行光の投射時に生成される底面の影幅620を算出し、底面の影幅が最小値630を有する状態でのイメージの回転角度を取得する。すなわち、原文イメージの傾き(θ)に応じて底面の影幅620が変化し、各列の整列が最適化された場合、図6の右のように、影幅は最小値(630、MS:Minimum Shade)を有する。
また、本発明の一実施例において、被写体の設定は、文字自体ではない、OCRで検出された文字の中心座標を左右に所定幅640だけ拡張する方法を使用する。
傾き補正対象の原文イメージは、回転行列(rotation matrix)により中心座標を基準として回転し、累積された各回転角度(θ)別の影幅グラフの多項式カーブフィッティング(curve fitting)により傾き補正における最適な回転角度(θopt)が決定される。
このように取得したイメージの回転角度に基づいて、OCRで検出された文字の中心座標もすべて回転変換された後、S530ステップの後に行われるライン分割アルゴリズムの入力として用いられる。
次に、個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分する(S530)。
傾き補正済みの古文献の原文イメージ内の検出ボックスは、テキストの右縦書き読みの容易性のために、優先的にそれぞれの代表列に区分される。整形性が高い古文献の場合、図3のように、代表列が縦列として確実に表示されるが、保管状態が良くなくて区分が薄れたり、元の制作時に境界が表記されない場合もある。したがって、本発明の一実施例では、垂直区分線に依存せず、テキストの配置の様相だけで代表列を分離することを特徴とする。
図7A~図7Cは、本発明の一実施例における古文献の原文イメージに対する本文列および細注列の分離過程を説明するための図である。
一方、本発明の説明では、一次的に、古文献の原文イメージを対象に本文列および細注列に区分する過程を中分類単位に区分するものと称するが、必ずしもこれに限定されるものではない。
一実施例として、古文献の原文イメージ内の検出ボックスの座標値に基づいて、x軸またはy軸に投影させた投影情報710を生成する。
その後、投影情報内の隣り合う2点の間隔が予め設定された閾値を超える場合、古文献の原文イメージに対する列または行分離720を行う。
その後、列または行分離が行われた群集を本文列および細注列のいずれか1つに区分する。
ここで、x軸ベースで投影および列分離を行うことは、右縦書きベースの古文献、y軸ベースで投影および行分離を行うことは、左横書きベースの古文献に適用可能である。
図7Aを参照すれば、原文イメージ内の文字別の検出ボックスの座標は、x軸に投影されて点で表されたものである。隣り合う2点間の間隔が予め設定した閾値を超える場合、列が分離されたと判断し、その中間地点で列を分離する(720、点線で表記)。そして、それぞれの分離された群集は、本文や細注のみを含む個別の中分類(本文列、細注列)に区分される。
また、本発明の一実施例は、列または行が分離された群集領域に対する大きさの平均値を算出し、群集領域の大きさの平均値を二元化して本文列および細注列を区分することができる。
すなわち、それぞれの中分類に対して検出ボックスの大きさの平均を算出し、図7Bのように分布を二分化して本文列と細注列に区分される中分類を生成する。この時、中分類を二元化する前に、群集領域に対する大きさの平均値の相対標準偏差(RSD)が予め設定された閾値未満の場合、二分化過程なしにすべてのテキストを本文列に区分することができる(730)。
次に、区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第1グループと、複数の細注および本文を含む要素のグループである第2グループとにグループ化して区分する(S540)。
この時、本発明の説明では、二次的に、本文列および細注列を対象に、第1グループと、第2グループとに区分する過程を大分類単位に区分するものと称するが、必ずしもこれに限定されるものではない。
図8は、本発明の一実施例において本文列および細注列を対象に本文と細注を含むか否かによるグループに区分する過程を説明するための図である。
中分類の種類(本文列および細注列)を区分して各中分類の中心座標に応じてx軸に投影する時、図8の下段のような結果810を確認することができる。このような中分類の列挙は、本文および細注のみを含む要素の単一大分類である第1グループ820と、複数の細注および本文を含む要素のグループである第2グループ830とにグループ化して区分される。この時、第2グループ830の場合、一例として、「右細注-本文-左細注」の組み合わせで構成された細本細大分類であり得る。
一実施例として、細本細大分類の群集化の条件は、次の通りである。第一、本文列の左右に細注列が隣り合って位置し、第二、本文列の中心から所定の閾値距離未満に左右側に位置した細注列が存在する場合、第2グループに区分することができる。この時、第2グループ内で本文右側の細注列中分類は右細注、左側の細注列中分類は左細注に区分する。また、細本細の群集化に含まれない残りのすべての中分類は、単一大分類である第1グループに割当てられる。
一方、第1グループと第2グループとの間の書き順は、左方向から右方向とする第1方向の順序に従いかつ、第1および第2グループ間の内部書き順には影響を及ぼさない。すなわち、大分類間の書き順は、図8に記載の順番と同じく右→左の書き順に従い、相互間の内部書き順には影響を及ぼさない独立した個体である。
次に、第2グループの要素を対象に本文領域と細注領域にそれぞれ再分割する(S550)。
図9は、本発明の一実施例において、第2グループの要素を対象に本文領域と細注領域とを区分する内容を説明するための図である。
本文または細注要素のみを含む単一大分類である第1グループ内の書き順は、単純にy座標によって上下の順序で割当てることができる。しかし、図2Bのように、第2グループ内の書き順の配順は、最後に追加的な区分過程が必要である。ここで、本発明の説明では、三次的に、細本細大分類を対象に、本文領域と細注領域とに区分する過程を小分類単位に区分するものと称するが、必ずしもこれに限定されるものではない。
一実施例として、第2グループに含まれた要素に対する検出ボックスの中心座標をy軸に投影させた投影情報910を生成する。
その後、投影情報において本文と細注との間の切替が発生する地点920を基準として上下区分して本文領域と細注領域とに区分する。
細分類の境界は、各大分類内ですべての検出ボックスの中心座標のy軸の投影後、本文と細注との間の切替が行われる箇所に設定され、上下に分離された区画を小分類に割当てる。
この時、本文領域と細注領域との間の書き順は、上方向から下方向とする第2方向の順序に従う。そして、細注領域内の単一の書き順は、右細注を基準として第2方向の順序による書き順の後、左細注を基準とする第2方向の順序の書き順を有するように設定される(930)。
すなわち、図9に示された順番のとおり、基本的に上方向から下方向への順序に従う。そして、細注小分類の場合、点線で表記されたように右細注の内部を上→下の順に先に読んだ後、左細注へ移動する。
このように、古文献の原文イメージを対象に中分類、大分類および小分類に区分した後、再分割の結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成する(S560)。
図10は、本発明の一実施例において古文献の原文イメージをデジタルテキスト化した一例を示す図である。
上述したS530~S550ステップによる小、中、大分類の群集化により古文献の原文イメージ内にOCRが検出された漢字テキストのライン分割後、各テキスト別の書き順は、最終的に次の規則のように定義される。
1)大分類は右→左の順に割当
2)細本細大分類内の小分類は上→下の順に割当
3)細注小分類は右細注→左細注の順に割当
4)以下、明示されていない下位個別文字の書き順は右縦書きの基本法則に従う
図10を参照すれば、上段の原文イメージは、ライン分割に用いられたS510ステップにおけるOCR検出結果1010を示したものであり、下段は、デジタルテキスト化1020を経て、最終的に出力された原文テキストの結果を示したものである。
書き順によって原文イメージから抽出された字形は、本文1022の場合と、細注1021の場合とが区分されるように表記される。図面にて、本文1022は括弧のない字で表記し、細注1021は括弧で表記した。また、各大分類は行分離で区分される。
一方、OCRでクラス以外の個体として認識された字形は「?」で処理され、OCRの制限的な漢字認識の正確度によって少数の字形に対する誤認識を含むこともある。
一方、上述した説明において、ステップS510~ステップS560は、本発明の実施形態により、追加的なステップにさらに分割されたり、より少ないステップに組み合わされてもよい。また、一部のステップは、必要に応じて省略されてもよく、ステップ間の順序が変更されてもよい。これとともに、その他省略された内容であっても、図4に記述された内容と、図5~図10に記述された内容とは、それぞれ相互適用可能である。
以上、上述した本発明の一実施例による古文献の原文イメージのデジタル化方法は、ハードウェアであるコンピュータと結合されて実行されるために、プログラム(またはアプリケーション)で実現されて媒体に格納可能である。
上述したプログラムは、前記コンピュータがプログラムを読込んでプログラムで実現された前記方法を実行させるために、前記コンピュータのプロセッサ(CPU)が前記コンピュータの装置インターフェースを介して読出されるC、C++、JAVA、Ruby、機械語などのコンピュータ言語でコード化されたコード(Code)を含むことができる。このようなコードは、前記方法を実行する必要な機能を定義した関数などに関連する機能的なコード(Functional Code)を含むことができ、前記機能を前記コンピュータのプロセッサが所定の手順どおりに実行させるのに必要な実行手順関連制御コードを含むことができる。また、このようなコードは、前記機能を前記コンピュータのプロセッサが実行させるのに必要な追加情報やメディアが前記コンピュータの内部または外部メモリのどの位置(アドレス)で参照されるべきかに対するメモリ参照関連コードをさらに含むことができる。さらに、前記コンピュータのプロセッサが前記機能を実行させるために、遠隔(Remote)にある何らかの他のコンピュータやサーバなどと通信が必要な場合、コードは前記コンピュータの通信モジュールを用いて遠隔にある何らかの他のコンピュータやサーバなどとどのように通信すべきか、通信時にどのような情報やメディアを送受信すべきかなどに関する通信関連コードをさらに含むことができる。
前記格納される媒体は、レジスタ、キャッシュ、メモリなどのように短い瞬間にデータを格納する媒体ではなく、半永久的にデータを格納し、機器によって読取(reading)可能な媒体を意味する。具体的には、前記格納される媒体の例には、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ記憶装置などがあるが、これらに限定されない。すなわち、前記プログラムは、前記コンピュータが接続できる多様なサーバ上の多様な記録媒体またはユーザの前記コンピュータ上の多様な記録媒体に格納される。また、前記媒体は、ネットワークで連結されたコンピュータシステムに分散して、分散方式でコンピュータが読出可能なコードが格納される。
上述した本発明の説明は例示のためのものであり、本発明の属する技術分野における通常の知識を有する者は、本発明の技術的思想や必須の特徴を変更することなく他の具体的な形態に容易に変形可能であることを理解するであろう。そのため、以上に記述した実施例はすべての面で例示的であり、限定的ではないと理解しなければならない。例えば、単一形で説明されている各構成要素は分散して実施されてもよいし、同様に、分散したと説明されている構成要素も結合された形態で実施されてもよい。
本発明の範囲は、上記の詳細な説明よりは後述する特許請求の範囲によって示され、特許請求の範囲の意味および範囲、そしてその均等概念から導出されるすべての変更または変形された形態が本発明の範囲に含まれると解釈されなければならない。
400:電子装置
410:入力部
420:通信部
430:表示部
440:メモリ
450:プロセッサ

Claims (18)

  1. 電子装置によって行われる方法において、
    古文献の原文イメージを対象にOCRにより個別漢字領域を検出して検出ボックスとして生成するステップと、
    前記個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分するステップと、
    前記区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第1グループと、複数の細注および本文を含む要素のグループである第2グループとにグループ化して区分するステップと、
    前記第2グループの要素を対象に本文領域と細注領域とにそれぞれ再分割するステップと、
    前記再分割結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成するステップとを含む、
    古文献の原文イメージのデジタル化方法。
  2. 前記個別漢字領域が検出された古文献の原文イメージを対象に傾き補正を行うステップをさらに含む、
    請求項1に記載の古文献の原文イメージのデジタル化方法。
  3. 前記個別漢字領域が検出された古文献の原文イメージを対象に傾き補正を行うステップは、
    前記古文献の原文イメージの上端から各文字被写体を対象に仮想の複数の平行光を投射するステップと、
    前記平行光の投射時に生成される底面の影幅を算出するステップと、
    前記底面の影幅が最小値を有する状態でのイメージの回転角度を取得するステップと、
    前記取得したイメージの回転角度に基づいて、前記傾き補正を行うステップとを含む、
    請求項2に記載の古文献の原文イメージのデジタル化方法。
  4. 前記個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分するステップは、
    前記古文献の原文イメージ内の検出ボックスを座標値に基づいて、x軸またはy軸に投影させた投影情報を生成するステップと、
    前記投影情報内の隣り合う2点の間隔が予め設定された閾値を超える場合、前記古文献の原文イメージに対する列または行分離を行うステップと、
    前記列または行分離が行われた群集を本文列および細注列のいずれか1つに区分するステップとを含む、
    請求項1に記載の古文献の原文イメージのデジタル化方法。
  5. 前記列または行分離が行われた群集を本文列および細注列のいずれか1つに区分するステップは、
    前記列または行分離が行われた群集それぞれの領域(以下、群集領域)に対する大きさの平均値を算出するステップと、
    前記群集領域の大きさの平均値を二元化して前記本文列および細注列を区分するステップとを含む、
    請求項4に記載の古文献の原文イメージのデジタル化方法。
  6. 前記列または行分離が行われた群集を本文列および細注列のいずれか1つに区分するステップは、
    前記群集領域の大きさの平均値を二元化して前記本文列および細注列を区分するステップの前に、前記群集領域に対する大きさの平均値の相対標準偏差が予め設定された閾値未満の場合、本文列に区分するステップをさらに含む、
    請求項5に記載の古文献の原文イメージのデジタル化方法。
  7. 前記区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第1グループと、複数の細注および本文を含む要素のグループである第2グループとにグループ化して区分するステップは、
    前記本文列の左右側に細注列が存在しかつ、前記本文列の中心から所定の閾値距離未満に前記左右側に位置した細注列が存在する場合、前記第2グループに区分するものである、
    請求項1に記載の古文献の原文イメージのデジタル化方法。
  8. 前記第1グループと第2グループとの間の書き順は、左方向から右方向とする第1方向の順序に従いかつ、前記第1および第2グループ間の内部書き順には影響を及ぼさないものである、
    請求項7に記載の古文献の原文イメージのデジタル化方法。
  9. 前記第2グループの要素を対象に本文領域と細注領域とにそれぞれ再分割するステップは、
    前記第2グループに含まれた要素に対する前記検出ボックスの中心座標をy軸に投影させた投影情報を生成するステップと、
    前記投影情報において本文と細注との間の切替が発生する地点を基準として上下区分して本文領域および細注領域に区分するステップとを含む、
    請求項7に記載の古文献の原文イメージのデジタル化方法。
  10. 前記本文領域と細注領域との間の書き順は、上方向から下方向とする第2方向の順序に従いかつ、前記細注領域内の単一の書き順は、右細注を基準として前記第2方向の順序による書き順の後、前記左細注を基準とする前記第2方向の順序の書き順を有するように設定されるものである、
    請求項9に記載の古文献の原文イメージのデジタル化方法。
  11. 古文献の原文イメージを対象にデジタルテキスト化を行うためのプログラムが格納されたメモリと、
    前記メモリに格納されたプログラムを実行させることにより、
    前記古文献の原文イメージを対象にOCRにより個別漢字領域を検出して検出ボックスとして生成し、前記個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分し、前記区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第1グループと、複数の細注および本文を含む要素のグループである第2グループとにグループ化して区分し、前記第2グループの要素を対象に本文領域と細注領域とにそれぞれ再分割した後、前記再分割結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成するプロセッサとを含む、
    古文献の原文イメージのデジタル化のための電子装置。
  12. 前記プロセッサは、前記個別漢字領域が検出された古文献の原文イメージを対象に傾き補正を行い、
    前記古文献の原文イメージの上端から各文字被写体を対象に仮想の複数の平行光を投射し、前記平行光の投射時に生成される底面の影幅を算出し、前記底面の影幅が最小値を有する状態でのイメージの回転角度を取得した後、前記取得したイメージの回転角度に基づいて、前記傾き補正を行うものである、
    請求項11に記載の古文献の原文イメージのデジタル化のための電子装置。
  13. 前記プロセッサは、前記古文献の原文イメージ内の検出ボックスを座標値に基づいて、x軸またはy軸に投影させた投影情報を生成し、前記投影情報内の隣り合う2点の間隔が予め設定された閾値を超える場合、前記古文献の原文イメージに対する列または行分離を行い、前記列または行分離が行われた群集を本文列および細注列のいずれか1つに区分するものである、
    請求項11に記載の古文献の原文イメージのデジタル化のための電子装置。
  14. 前記プロセッサは、前記列または行分離が行われた群集それぞれの領域(以下、群集領域)に対する大きさの平均値を算出し、前記群集領域に対する大きさの平均値の相対標準偏差が予め設定された閾値未満の場合、本文列に区分し、前記群集領域の大きさの平均値を二元化して前記本文列および細注列を区分するものである、
    請求項13に記載の古文献の原文イメージのデジタル化のための電子装置。
  15. 前記プロセッサは、前記本文列の左右側に細注列が存在しかつ、前記本文列の中心から所定の閾値距離未満に前記左右側に位置した細注列が存在する要素の場合、前記第2グループに区分するものである、
    請求項11に記載の古文献の原文イメージのデジタル化のための電子装置。
  16. 前記プロセッサは、前記第2グループに含まれた要素に対する前記検出ボックスの中心座標をy軸に投影させた投影情報を生成し、前記投影情報において本文と細注との間の切替が発生する地点を基準として上下区分して本文領域および細注領域に区分するものである、
    請求項15に記載の古文献の原文イメージのデジタル化のための電子装置。
  17. 前記本文領域と細注領域との間の書き順は、上方向から下方向とする第2方向の順序に従いかつ、前記細注領域内の単一の書き順は、右細注を基準として前記第2方向の順序による書き順の後、前記左細注を基準とする前記第2方向の順序の書き順を有するように設定されるものである、
    請求項16に記載の古文献の原文イメージのデジタル化のための電子装置。
  18. 前記第1グループと第2グループとの間の書き順は、左方向から右方向とする第1方向の順序に従いかつ、前記第1および第2グループ間の内部書き順には影響を及ぼさないものである、
    請求項15に記載の古文献の原文イメージのデジタル化のための電子装置。
JP2023078166A 2022-08-11 2023-05-10 古文献の原文イメージのデジタル化のための電子装置および方法 Active JP7432041B1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220100652 2022-08-11
KR10-2022-0100652 2022-08-11
KR10-2022-0142352 2022-10-31
KR1020220142352A KR20240022376A (ko) 2022-08-11 2022-10-31 고문헌 원문이미지의 디지털화를 위한 전자장치 및 방법

Publications (2)

Publication Number Publication Date
JP7432041B1 true JP7432041B1 (ja) 2024-02-15
JP2024025648A JP2024025648A (ja) 2024-02-26

Family

ID=89852832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023078166A Active JP7432041B1 (ja) 2022-08-11 2023-05-10 古文献の原文イメージのデジタル化のための電子装置および方法

Country Status (1)

Country Link
JP (1) JP7432041B1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018142286A (ja) 2017-02-28 2018-09-13 シナノケンシ株式会社 電子図書製作用プログラム
KR101937398B1 (ko) 2017-10-20 2019-01-10 김학선 고문서의 이미지 데이터에서의 문자 추출 시스템 및 이를 이용한 문자 추출 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018142286A (ja) 2017-02-28 2018-09-13 シナノケンシ株式会社 電子図書製作用プログラム
KR101937398B1 (ko) 2017-10-20 2019-01-10 김학선 고문서의 이미지 데이터에서의 문자 추출 시스템 및 이를 이용한 문자 추출 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹宇 外1名,文字寸法の違いに着目したOCR認字率の改善法,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2001年03月02日,第100巻 第678号,pp.17~22

Also Published As

Publication number Publication date
JP2024025648A (ja) 2024-02-26

Similar Documents

Publication Publication Date Title
US20210034850A1 (en) System and method of character recognition using fully convolutional neural networks with attention
US10936862B2 (en) System and method of character recognition using fully convolutional neural networks
CN109614944B (zh) 一种数学公式识别方法、装置、设备及可读存储介质
Jayadevan et al. Offline recognition of Devanagari script: A survey
Das et al. Handwritten Bangla character recognition using a soft computing paradigm embedded in two pass approach
Yadav et al. Optical character recognition for Hindi language using a neural-network approach
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
Park et al. Automatic detection and recognition of Korean text in outdoor signboard images
CN110178139B (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
Nguyen et al. Attempts to recognize anomalously deformed Kana in Japanese historical documents
US20100189316A1 (en) Systems and methods for graph-based pattern recognition technology applied to the automated identification of fingerprints
Pareek et al. Gujarati handwritten character recognition from text images
JPH06348904A (ja) 手書き字号の認識システム及び認識方法
KR102122561B1 (ko) 문서 이미지 상에서 글자를 인식하기 위한 방법
US8559718B1 (en) Defining a layout of text lines of CJK and non-CJK characters
Al Abodi et al. An effective approach to offline Arabic handwriting recognition
US11837001B2 (en) Stroke attribute matrices
Nguyen et al. Nom document digitalization by deep convolution neural networks
Vajda et al. A method for camera-based interactive whiteboard reading
JP2015099566A (ja) 特徴算出装置、方法及びプログラム
JP7432041B1 (ja) 古文献の原文イメージのデジタル化のための電子装置および方法
Jin et al. Printed Arabic document recognition system
JPH08320914A (ja) 表認識方法および装置
KR20240022376A (ko) 고문헌 원문이미지의 디지털화를 위한 전자장치 및 방법
Gaikwad et al. Devanagari handwritten characters recognition using DCT, geometric and hue moments feature extraction techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240202

R150 Certificate of patent or registration of utility model

Ref document number: 7432041

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150