JP7432041B1

JP7432041B1 - 古文献の原文イメージのデジタル化のための電子装置および方法

Info

Publication number: JP7432041B1
Application number: JP2023078166A
Authority: JP
Inventors: イ、アラム; ミン、ギヒョン; カン、ヒョンソ; キム、コシク; キム、ジョンウン
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2022-08-11
Filing date: 2023-05-10
Publication date: 2024-02-15
Anticipated expiration: 2043-05-10
Also published as: JP2024025648A

Abstract

【課題】古文献の原文イメージのデジタル化方法のための電子装置及び方法を提供する。【解決手段】方法は、古文献の原文イメージを対象にＯＣＲにより個別漢字領域を検出して検出ボックスとして生成するステップＳ５１０と、個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分するステップＳ５３０と、区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第１グループと、複数の細注および本文を含む要素のグループである第２グループとにグループ化して区分するステップＳ５４０と、第２グループの要素を対象に本文領域と細注領域とにそれぞれ再分割するステップＳ５５０と、再分割結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成するステップＳ５６０と、を含む。【選択図】図５

Description

本発明は、古文献の原文イメージのデジタル化のための電子装置および方法に関する。

韓国国内の古文献保有量は２０２１年ベースで、国公立図書館と研究機関、地域別の博物館などを含めて計３００万点に達する。１９９９年、国策事業の一環として韓国学資料のＤＢ化が推進され、光学イメージングとデジタルデータ圧縮技術の発展により全体蔵書量の５％に達する原文イメージが部分的に公開されている。

古文献内の各個別字形までデジタル化する原文テキストサービスは原文イメージサービスに比べて文献の活用度が高いが、多様な書体の漢字が主となる古文献を対象にした人材ベースの個別字形認識および電算入力過程に多くの労力と費用が要求されるので、全体古文献保有量に比べてサービス構築規模が不十分なのが現状である。

本発明が解決しようとする課題は、人工知能ベースの光学文字認識ベースで検出および認識された個別漢字の位置および大きさ情報に基づいて、古文献の原文イメージを本文と細注とに区分し、これに関する書き順情報を生成して古文献のデジタルテキスト化を可能にする、古文献の原文イメージのデジタル化のための電子装置および方法を提供することを目的とする。

ただし、本発明が解決しようとする課題は上記の課題に限定されず、さらに他の課題が存在できる。

上述した課題を解決するための、本発明の第１態様による古文献の原文イメージのデジタル化方法は、古文献の原文イメージを対象にＯＣＲにより個別漢字領域を検出して検出ボックスとして生成するステップと、前記個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分するステップと、前記区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第１グループと、複数の細注および本文を含む要素のグループである第２グループとにグループ化して区分するステップと、前記第２グループの要素を対象に本文領域と細注領域とにそれぞれ再分割するステップと、前記再分割結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成するステップとを含む。

また、本発明の第２態様による古文献の原文イメージのデジタル化のための電子装置は、古文献の原文イメージを対象にデジタルテキスト化を行うためのプログラムが格納されたメモリと、前記メモリに格納されたプログラムを実行させることにより、前記古文献の原文イメージを対象にＯＣＲにより個別漢字領域を検出して検出ボックスとして生成し、前記個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分し、前記区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第１グループと、複数の細注および本文を含む要素のグループである第２グループとにグループ化して区分し、前記第２グループの要素を対象に本文領域と細注領域とにそれぞれ再分割した後、前記再分割結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成するプロセッサとを含む。

上述した課題を解決するための、本発明の他の態様によるコンピュータプログラムは、古文献の原文イメージのデジタル化方法を実行し、コンピュータ読取可能記録媒体に格納される。

本発明のその他の具体的な事項は詳細な説明および図面に含まれている。

本発明の一実施例は、古文献テキストの書き順割当のために原文イメージ全体にＯＣＲを先に適用（ｂｏｔｔｏｍ－ｕｐ）した後、検出ボックスの座標を対象に投影プロファイルを分析（ｔｏｐ－ｄｏｗｎ）して群集化を進行させるハイブリッドライン分割方式を適用する。このような方式は、既存のＯＣＲで提供される文字検出および認識情報の潜在力をより一層活用しながら古文献の原文テキスト制作の効率性を増加させることができる。

また、本発明の一実施例は、最終検証ステップで本文と細注とが混在した原文イメージ内でもラインの分割に成功し、個別字形の本文および細注の分類と、書き順の割当まで可能というメリットがある。

このような本発明の一実施例によれば、既存のＯＣＲ漢字検出および認識と、コーパスＤＢベースの翻訳モデルとを連結する接点として作用して、古文献の全自動翻訳を可能にする。

本発明の効果は以上に言及された効果に制限されず、言及されていないさらに他の効果は以下の記載から通常の技術者に明確に理解されるであろう。

光学文字認識ベースの古文献のデジタル化を行う一例を説明するための図である。本文のみを含む右縦書きベースの古文献の書き順を説明するための図である。本文と細注とが混用された右縦書きベースの古文献の書き順を説明するための図である。ピクセルおよびポイント投影プロファイルによるライン分割性能を比較した結果を説明するための図である。本発明の一実施例による電子装置を説明するための図である。本発明の一実施例による古文献イメージのデジタル化方法のフローチャートである。本発明の一実施例における古文献の原文イメージの傾き補正過程を説明するための図である。本発明の一実施例における古文献の原文イメージに対する本文列および細注列の分離過程を説明するための図である。本発明の一実施例における古文献の原文イメージに対する本文列および細注列の分離過程を説明するための図である。本発明の一実施例における古文献の原文イメージに対する本文列および細注列の分離過程を説明するための図である。本発明の一実施例において本文列および細注列を対象に本文と細注を含むか否かによるグループに区分する過程を説明するための図である。本発明の一実施例において第２グループの要素を対象に本文領域と細注領域とを区分する内容を説明するための図である。本発明の一実施例において古文献の原文イメージをデジタルテキスト化した一例を示す図である。

本発明の利点および特徴、そしてそれらを達成する方法は、添付した図面と共に詳細に後述する実施例を参照すれば明確になる。しかし、本発明は以下に開示される実施例に制限されるものではなく、互いに異なる多様な形態で実現可能であり、単に本実施例は本発明の開示が完全となるようにし、本発明の属する技術分野における通常の技術者に本発明の範疇を完全に知らせるために提供されるものであり、本発明は請求項の範疇によってのみ定義される。

本明細書で使われた用語は実施例を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数形は、文言で特に言及しない限り、複数形も含む。明細書で使われる「含む（ｃｏｍｐｒｉｓｅｓ）」および／または「含む（ｃｏｍｐｒｉｓｉｎｇ）」は、言及された構成要素のほか、１つ以上の他の構成要素の存在または追加を排除しない。明細書全体にわたって同一の図面符号は同一の構成要素を指し示し、「および／または」は、言及された構成要素のそれぞれおよび１つ以上のすべての組み合わせを含む。たとえ、「第１」、「第２」などが多様な構成要素を述べるために使われるが、これらの構成要素は、これらの用語によって制限されないことはもちろんである。これらの用語は単に１つの構成要素を他の構成要素と区別するために使うものである。したがって、以下に言及される第１構成要素は本発明の技術的思想内で第２構成要素であってもよいことはもちろんである。

他に断りがなければ、本明細書で使われるすべての用語（技術および科学的用語を含む）は、本発明の属する技術分野における通常の技術者に共通して理解できる意味で使われるであろう。また、一般的に使われる辞書に定義されている用語は、明らかに特に断りがない限り、理想的または過度に解釈されない。

以下、当業者の理解のために本発明が提案された背景について先に述べてから、本発明の実施例について述べる。

最近、イメージの内部に含まれたテキストを自動的に検出および認識する人工知能ベースの光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）技術が古文献のデジタル化のための代案として浮上しており、代表的な国家事業の実績には、韓国古典翻訳院で成功させた『承政院日記』の機械翻訳がある。

図１は、光学文字認識ベースの古文献のデジタル化を行う一例を説明するための図である。

図１のように、ＯＣＲアルゴリズムは、スキャンされた図書内の各字形に対する位置（ｘ、ｙ）と大きさ（ｗ、ｈ）情報を含むバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘ、１１０）を形成（または検出）し、字形の種類を推論（または認識）した後、ラベルファイルに記録する。当該結果物は個別漢字に対する独立した情報のみを提供するだけで、それらの連続的な集合である語句と文章を構成することはできず、後続のステップである翻訳の過程に集中的に用いられるためには、人材ベースの書き順の手動割当が要求されているのが現状である。このように、手動的な後処理は全体古文献のデジタル化過程のボトルネックとして作用して作業時間および費用を増加させ、これによってＯＣＲ技術の潜在力が十分に活用されていない。

図２Ａは、本文のみを含む右縦書きベースの古文献の書き順を説明するための図である。図２Ｂは、本文と細注とが混用された右縦書きベースの古文献の書き順を説明するための図である。

一方、漢字文化圏の影響を受けた韓国の古文献は、大部分の記録が漢字で残されているだけでなく、図２Ａのように、右列から上から下へ書かれた後、左へ列を移していく右縦書きの形式２１０に従う。古文献の構造のうち、細注は、図２Ｂのように、本文の単一列で比較的小さいサイズの字が２つの列に分化される部分をいい、これは先の本文に対する補充説明である注釈の役割をする。

既存の人材ベースの古文献のデジタル化過程では、限られた時間的、経済的資源の下で細注を除いて本文だけを翻訳する場合も多かった。しかし、歴史学の研究において細注が重要な情報を伝達する場合もあるので、これを含む効率的な完訳に対する技術的発展が必要である。

代表例として、１４５４年に編纂された『新増東国輿地勝覧』の独島（于山島）と茂陵島（鬱陵島）に対する記録の中で、「２つの島は互いに距離が遠くなく、天気がよければ眺めることができる（二島相去不遠、風日清明、則可望見）」という文章が細注で発見され、大韓民国の独島領有権の主張に強い根拠として提示されている。

また、図２Ａの本文だけが含まれた原文イメージとは異なり、図２Ｂの細注が混合された原文イメージは、矢印のように書き順の方向が多少あいまいである。一般的に、右縦書きの書き順の進行中に細注が出現する場合、細注群集２２０内に右側の細注列（右細注）を優先的に読んだ後、左側の細注列（左細注）に移動しなければならず、図２Ｂの例の場合、書き順が「癸巳先生三十三歳四月」にならなければならない。

しかし、単純に右縦書き原則のみに基づいて、右→左（ｘ軸）または上→下（ｙ軸）の順に整列される場合、結果はそれぞれ「先生三癸巳四月十三歳」、「癸巳先十生三三歳四月」で誤読が発生する。甚だしくは、イメージ内の文字の行／列の整列が完璧でない場合、その結果の予測がなおさら難しく、細注がない図２Ａの場合も、同様の問題が発生しうる。

このような理由から、原文イメージ内の行（横書きの場合）または列（縦書きの場合）を分割するライン分割と各分割要素内の文字の書き順を割当てるアルゴリズムに関する、次のような様々な研究が行われた。

原文イメージのライン分割は、大きく、トップダウン（ｔｏｐ－ｄｏｗｎ）とボトムアップ（ｂｏｔｔｏｍ－ｕｐ）の方式に分けられる。前者の場合、イメージ全体を対象に区画を設定する推論を、後者の場合、事前に検出された個別文字の位置情報に基づいて群集化を実行する。

当初のトップダウンライン分割方式である投影プロファイル（ｐｒｏｊｅｃｔｉｏｎｐｒｏｆｉｌｅ）手法は、バイナリイメージ内のピクセルが一軸に投影されたヒストグラムを分析して、ピクセル密度が閾値より低い部分に境界線を形成する［Ｒ．Ｐｔａｋ，ｅｔａｌ．，「Ｐｒｏｊｅｃｔｉｏｎ－ｂａｓｅｄｔｅｘｔｌｉｎｅｓｅｇｍｅｎｔａｔｉｏｎｗｉｔｈａｖａｒｉａｂｌｅｔｈｒｅｓｈｏｌｄ」、Ｉｎｔ．Ｊ．Ａｐｐｌ．Ｍａｔｈ．Ｃｏｍｐｕｔ．Ｓｃｉ．，ｖｏｌ．２７，ｐｐ．１９５、２０１７］。このような手法は、行／列間の距離が近いほど閾値を高く設定しなければならず、誤差率が増加する傾向を示す。

以降、ディープラーニングベースのライン分割モデルの開発に関する研究が活発に行われたが［Ｏ．Ｍｅｃｈｉ，ｅｔａｌ．，「ＴｅｘｔｌｉｎｅｓｅｇｍｅｎｔａｔｉｏｎｉｎｈｉｓｔｏｒｉｃａｌｄｏｃｕｍｅｎｔｉｍａｇｅｓｕｓｉｎｇａｎａｄａｐｔｉｖｅＵ－Ｎｅｔａｒｃｈｉｔｅｃｔｕｒｅ」、２０１９ＩＣＤＡＲ，ｐｐ．３６９］、事前学習ＤＢの構築過程で要求される人材ベースのラベリングの非効率性が指摘され、これを避けるために開発された非指導学習ベースモデルの場合、原文の整形度が少しだけ下がってもライン分割の正確度が大きく低下するというデメリットがあった［Ｂ．Ｋ．Ｂａｒａｋａｔ，ｅｔａｌ．，「Ｕｎｓｕｐｅｒｖｉｓｅｄｄｅｅｐｌｅａｒｎｉｎｇｆｏｒｔｅｘｔｌｉｎｅｓｅｇｍｅｎｔａｔｉｏｎ」、２５ｔｈＩＣＰＲ、２０２１．］。

ボトムアップライン分割の代表的なケースとして、韓国国内では、ＯＣＲで検出された各文字の中心座標を対象に文書の左下端からの幾何学的距離を比較して書き順を定める試みがあったが、細注などの不整形構造には対応することができなかった［リュ・ジュンファン、ｅｔａｌ．，「古文書の草書領域の検出および翻訳のための検出結果ナンバリング」、ＩＣＲＯＳ２０１９，ｐｐ．１４０］。

このようなボトムアップベースの書き順の割当は人の認知には多少直観的であり得るが、数学的演算処理では、各文字のｘ、ｙの２つの位置情報に対して総合的な優先順位を判別（ｄｅｇｒｅｅｏｆｆｒｅｅｄｏｍ＝２）することが難しい。

これに着目して、本発明の一実施例は、ＯＣＲで検出された文字の座標（ｂｏｔｔｏｍ－ｕｐ）を第１軸（例えば、ｘ軸）に投影した後、投影プロファイル分析（ｔｏｐ－ｄｏｗｎ）を適用するハイブリッド（ｈｙｂｒｉｄ）方式のライン分割を提供することを特徴とする。本発明の一実施例において、分割された各ライン要素は、例えば、ｘ軸の位置情報が排除されたｙ軸の情報（ｄｅｇｒｅｅｏｆｆｒｅｅｄｏｍ＝１）のみに基づいて、内部書き順を明瞭に割当てることができる。

図３は、ピクセルおよびポイント投影プロファイルによるライン分割性能を比較した結果を説明するための図である。

図３は、既存の文字ピクセル投影（ｐｉｘｅｌｐｒｏｊｅｃｔｉｏｎ、３１０）と、本発明の一実施例におけるＯＣＲ検出ボックスの中心座標投影（ｐｏｉｎｔｐｒｏｊｅｃｔｉｏｎ、３２０）によるライン分割過程を端的に比較したことを示す図である。

文字ピクセル投影手法は、４つの代表列の間の３つの区間と細注だけで構成された３列の中央に対して確実なピクセル低密度区間（＜密度閾値、３３０）を表現する。しかし、第２、第４列のように本文と細注とが混合された場合、各細注列（本文、右細注、左細注）要素の投影が重なり、これを分離することが難しい。

これに対し、本発明の一実施例における中心座標投影は、画期的に増加した文字ボックス座標投影体の解像度により明確な群集化が確認され、群集間の距離が特定の閾値以上に広がる箇所３４０にライン分割を実行することができる。

以下、図４を参照して、本発明の一実施例による古文献の原文イメージのデジタル化のための電子装置（４００、以下、電子装置）について説明する。

図４は、本発明の一実施例による電子装置４００を説明するための図である。

本発明の一実施例による電子装置４００は、入力部４１０と、通信部４２０と、表示部４３０と、メモリ４４０と、プロセッサ４５０とを含む。

入力部４１０は、電子装置４００のユーザ入力に対応して入力データを発生させる。ユーザ入力は、電子装置４００が処理しようとするデータに関するユーザ入力を含むことができる。

入力部４１０は、少なくとも１つの入力手段を含む。入力部４１０は、キーボード（ｋｅｙｂｏａｒｄ）、キーパッド（ｋｅｙｐａｄ）、ドームスイッチ（ｄｏｍｅｓｗｉｔｃｈ）、タッチパネル（ｔｏｕｃｈｐａｎｅｌ）、タッチキー（ｔｏｕｃｈｋｅｙ）、マウス（ｍｏｕｓｅ）、メニューボタン（ｍｅｎｕｂｕｔｔｏｎ）などを含むことができる。

通信部４２０は、内部構成間のデータを送受信したり、外部サーバなどの外部装置との通信を行う。一実施例として、通信部４２０は、外部装置、インターネット網などを介して古文献の原文イメージを受信し、デジタルテキストの生成結果をユーザ端末、インターネット網などで送ることができる。このような通信部４２０は、有線通信モジュールおよび無線通信モジュールをすべて含むことができる。有線通信モジュールは、電力線通信装置、電話線通信装置、ケーブルホーム（ＭｏＣＡ）、イーサネット（Ｅｔｈｅｒｎｅｔ）、ＩＥＥＥ１２９４、統合有線ホームネットワークおよびＲＳ－４８５制御装置で実現できる。また、無線通信モジュールは、ＷＬＡＮ（ｗｉｒｅｌｅｓｓＬＡＮ）、Ｂｌｕｅｔｏｏｔｈ、ＨＤＲＷＰＡＮ、ＵＷＢ、ＺｉｇＢｅｅ、ＩｍｐｕｌｓｅＲａｄｉｏ、６０ＧＨｚＷＰＡＮ、Ｂｉｎａｒｙ－ＣＤＭＡ、無線ＵＳＢ技術および無線ＨＤＭＩ技術、その他、５Ｇ（５ｔｈｇｅｎｅｒａｔｉｏｎｃｏｍｍｕｎｉｃａｔｉｏｎ）、ＬＴＥ－Ａ（ｌｏｎｇｔｅｒｍｅｖｏｌｕｔｉｏｎ－ａｄｖａｎｃｅｄ）、ＬＴＥ（ｌｏｎｇｔｅｒｍｅｖｏｌｕｔｉｏｎ）、Ｗｉ－Ｆｉ（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ）などの機能を実現するためのモジュールで構成されてもよい。

表示部４３０は、電子装置４００の動作による表示データを表示する。表示部４３０は、液晶ディスプレイ（ＬＣＤ；ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）、発光ダイオード（ＬＥＤ；ｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅ）ディスプレイ、有機発光ダイオード（ＯＬＥＤ；ｏｒｇａｎｉｃＬＥＤ）ディスプレイ、マイクロ電子機械システム（ＭＥＭＳ；ｍｉｃｒｏｅｌｅｃｔｒｏｍｅｃｈａｎｉｃａｌｓｙｓｔｅｍｓ）ディスプレイおよび電子ペーパー（ｅｌｅｃｔｒｏｎｉｃｐａｐｅｒ）ディスプレイを含む。表示部４３０は、入力部４１０と結合されてタッチスクリーン（ｔｏｕｃｈｓｃｒｅｅｎ）で実現できる。

メモリ４４０には、古文献の原文イメージを対象にデジタルテキスト化を行うためのプログラムが格納される。ここで、メモリ４４０は、電源が供給されなくても格納された情報を保持し続ける不揮発性記憶装置および揮発性記憶装置を通称するものである。例えば、メモリ４４０は、コンパクトフラッシュ（ｃｏｍｐａｃｔｆｌａｓｈ；ＣＦ）カード、ＳＤ（ｓｅｃｕｒｅｄｉｇｉｔａｌ）カード、メモリスティック（ｍｅｍｏｒｙｓｔｉｃｋ）、ソリッドステートドライブ（ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ；ＳＳＤ）およびマイクロ（ｍｉｃｒｏ）ＳＤカードなどのようなＮＡＮＤフラッシュメモリ（ＮＡＮＤｆｌａｓｈｍｅｍｏｒｙ）、ハードディスクドライブ（ｈａｒｄｄｉｓｋｄｒｉｖｅ；ＨＤＤ）などのようなマグネチックコンピュータ記憶装置、およびＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭなどのような光学ディスクドライブ（ｏｐｔｉｃａｌｄｉｓｃｄｒｉｖｅ）などを含むことができる。

プロセッサ４５０は、プログラムなどのソフトウェアを実行して、電子装置４００の少なくとも１つの他の構成要素（例：ハードウェアまたはソフトウェア構成要素）を制御することができ、多様なデータ処理または演算を行うことができる。

以下、図５～図１０を参照して、本発明の一実施例による電子装置４００によって行われる古文献イメージのデジタル化方法（以下、古文献イメージのデジタル化方法）について説明する。

図５は、本発明の一実施例による古文献イメージのデジタル化方法のフローチャートである。一方、本発明の説明では、右縦書きの書き順ベースの古文献を中心に説明するが、必ずしもこれに限定されるものではない。

本発明の一実施例はまず、古文献の原文イメージを対象にＯＣＲにより個別漢字領域を検出して検出ボックスとして生成する（Ｓ５１０）。Ｓ５１０ステップでは、検出された個別漢字領域に対する字形認識やデータ辞書を準備する過程が行われる。

次に、個別漢字領域が検出された古文献の原文イメージを対象に傾き補正（ＴｉｌｔＣｏｒｒｅｃｔｉｏｎ）を行う（Ｓ５２０）。

本発明の一実施例で提案されたライン分割の基本アルゴリズムである投影プロファイルは、縦書きテキストの中心座標をｘ軸に投影したパターンを分析するので、隣り合う列間の重なりを最小化するために、縦書きの方向がｘ軸の垂直に近くなければならない。したがって、当該条件を満足するために、本発明の一実施例は、原文イメージの傾きを補正する前処理過程を行う。

図６は、本発明の一実施例における古文献の原文イメージの傾き補正過程を説明するための図である。

一実施例として、Ｓ５２０ステップでは、古文献の原文イメージの上端から各文字被写体を対象に仮想の複数の平行光６１０を投射する。すなわち、本発明の一実施例における傾き補正過程は、各文字が被写体として作用して原文イメージの下端に影を生成するシナリオを想定する。

その後、平行光の投射時に生成される底面の影幅６２０を算出し、底面の影幅が最小値６３０を有する状態でのイメージの回転角度を取得する。すなわち、原文イメージの傾き（θ）に応じて底面の影幅６２０が変化し、各列の整列が最適化された場合、図６の右のように、影幅は最小値（６３０、ＭＳ：ＭｉｎｉｍｕｍＳｈａｄｅ）を有する。

また、本発明の一実施例において、被写体の設定は、文字自体ではない、ＯＣＲで検出された文字の中心座標を左右に所定幅６４０だけ拡張する方法を使用する。

傾き補正対象の原文イメージは、回転行列（ｒｏｔａｔｉｏｎｍａｔｒｉｘ）により中心座標を基準として回転し、累積された各回転角度（θ）別の影幅グラフの多項式カーブフィッティング（ｃｕｒｖｅｆｉｔｔｉｎｇ）により傾き補正における最適な回転角度（θ_ｏｐｔ）が決定される。

このように取得したイメージの回転角度に基づいて、ＯＣＲで検出された文字の中心座標もすべて回転変換された後、Ｓ５３０ステップの後に行われるライン分割アルゴリズムの入力として用いられる。

次に、個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分する（Ｓ５３０）。

傾き補正済みの古文献の原文イメージ内の検出ボックスは、テキストの右縦書き読みの容易性のために、優先的にそれぞれの代表列に区分される。整形性が高い古文献の場合、図３のように、代表列が縦列として確実に表示されるが、保管状態が良くなくて区分が薄れたり、元の制作時に境界が表記されない場合もある。したがって、本発明の一実施例では、垂直区分線に依存せず、テキストの配置の様相だけで代表列を分離することを特徴とする。

図７Ａ～図７Ｃは、本発明の一実施例における古文献の原文イメージに対する本文列および細注列の分離過程を説明するための図である。

一方、本発明の説明では、一次的に、古文献の原文イメージを対象に本文列および細注列に区分する過程を中分類単位に区分するものと称するが、必ずしもこれに限定されるものではない。

一実施例として、古文献の原文イメージ内の検出ボックスの座標値に基づいて、ｘ軸またはｙ軸に投影させた投影情報７１０を生成する。

その後、投影情報内の隣り合う２点の間隔が予め設定された閾値を超える場合、古文献の原文イメージに対する列または行分離７２０を行う。

その後、列または行分離が行われた群集を本文列および細注列のいずれか１つに区分する。

ここで、ｘ軸ベースで投影および列分離を行うことは、右縦書きベースの古文献、ｙ軸ベースで投影および行分離を行うことは、左横書きベースの古文献に適用可能である。

図７Ａを参照すれば、原文イメージ内の文字別の検出ボックスの座標は、ｘ軸に投影されて点で表されたものである。隣り合う２点間の間隔が予め設定した閾値を超える場合、列が分離されたと判断し、その中間地点で列を分離する（７２０、点線で表記）。そして、それぞれの分離された群集は、本文や細注のみを含む個別の中分類（本文列、細注列）に区分される。

また、本発明の一実施例は、列または行が分離された群集領域に対する大きさの平均値を算出し、群集領域の大きさの平均値を二元化して本文列および細注列を区分することができる。

すなわち、それぞれの中分類に対して検出ボックスの大きさの平均を算出し、図７Ｂのように分布を二分化して本文列と細注列に区分される中分類を生成する。この時、中分類を二元化する前に、群集領域に対する大きさの平均値の相対標準偏差（ＲＳＤ）が予め設定された閾値未満の場合、二分化過程なしにすべてのテキストを本文列に区分することができる（７３０）。

次に、区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第１グループと、複数の細注および本文を含む要素のグループである第２グループとにグループ化して区分する（Ｓ５４０）。

この時、本発明の説明では、二次的に、本文列および細注列を対象に、第１グループと、第２グループとに区分する過程を大分類単位に区分するものと称するが、必ずしもこれに限定されるものではない。

図８は、本発明の一実施例において本文列および細注列を対象に本文と細注を含むか否かによるグループに区分する過程を説明するための図である。

中分類の種類（本文列および細注列）を区分して各中分類の中心座標に応じてｘ軸に投影する時、図８の下段のような結果８１０を確認することができる。このような中分類の列挙は、本文および細注のみを含む要素の単一大分類である第１グループ８２０と、複数の細注および本文を含む要素のグループである第２グループ８３０とにグループ化して区分される。この時、第２グループ８３０の場合、一例として、「右細注－本文－左細注」の組み合わせで構成された細本細大分類であり得る。

一実施例として、細本細大分類の群集化の条件は、次の通りである。第一、本文列の左右に細注列が隣り合って位置し、第二、本文列の中心から所定の閾値距離未満に左右側に位置した細注列が存在する場合、第２グループに区分することができる。この時、第２グループ内で本文右側の細注列中分類は右細注、左側の細注列中分類は左細注に区分する。また、細本細の群集化に含まれない残りのすべての中分類は、単一大分類である第１グループに割当てられる。

一方、第１グループと第２グループとの間の書き順は、左方向から右方向とする第１方向の順序に従いかつ、第１および第２グループ間の内部書き順には影響を及ぼさない。すなわち、大分類間の書き順は、図８に記載の順番と同じく右→左の書き順に従い、相互間の内部書き順には影響を及ぼさない独立した個体である。

次に、第２グループの要素を対象に本文領域と細注領域にそれぞれ再分割する（Ｓ５５０）。

図９は、本発明の一実施例において、第２グループの要素を対象に本文領域と細注領域とを区分する内容を説明するための図である。

本文または細注要素のみを含む単一大分類である第１グループ内の書き順は、単純にｙ座標によって上下の順序で割当てることができる。しかし、図２Ｂのように、第２グループ内の書き順の配順は、最後に追加的な区分過程が必要である。ここで、本発明の説明では、三次的に、細本細大分類を対象に、本文領域と細注領域とに区分する過程を小分類単位に区分するものと称するが、必ずしもこれに限定されるものではない。

一実施例として、第２グループに含まれた要素に対する検出ボックスの中心座標をｙ軸に投影させた投影情報９１０を生成する。

その後、投影情報において本文と細注との間の切替が発生する地点９２０を基準として上下区分して本文領域と細注領域とに区分する。

細分類の境界は、各大分類内ですべての検出ボックスの中心座標のｙ軸の投影後、本文と細注との間の切替が行われる箇所に設定され、上下に分離された区画を小分類に割当てる。

この時、本文領域と細注領域との間の書き順は、上方向から下方向とする第２方向の順序に従う。そして、細注領域内の単一の書き順は、右細注を基準として第２方向の順序による書き順の後、左細注を基準とする第２方向の順序の書き順を有するように設定される（９３０）。

すなわち、図９に示された順番のとおり、基本的に上方向から下方向への順序に従う。そして、細注小分類の場合、点線で表記されたように右細注の内部を上→下の順に先に読んだ後、左細注へ移動する。

このように、古文献の原文イメージを対象に中分類、大分類および小分類に区分した後、再分割の結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成する（Ｓ５６０）。

図１０は、本発明の一実施例において古文献の原文イメージをデジタルテキスト化した一例を示す図である。

上述したＳ５３０～Ｓ５５０ステップによる小、中、大分類の群集化により古文献の原文イメージ内にＯＣＲが検出された漢字テキストのライン分割後、各テキスト別の書き順は、最終的に次の規則のように定義される。
１）大分類は右→左の順に割当
２）細本細大分類内の小分類は上→下の順に割当
３）細注小分類は右細注→左細注の順に割当
４）以下、明示されていない下位個別文字の書き順は右縦書きの基本法則に従う

図１０を参照すれば、上段の原文イメージは、ライン分割に用いられたＳ５１０ステップにおけるＯＣＲ検出結果１０１０を示したものであり、下段は、デジタルテキスト化１０２０を経て、最終的に出力された原文テキストの結果を示したものである。

書き順によって原文イメージから抽出された字形は、本文１０２２の場合と、細注１０２１の場合とが区分されるように表記される。図面にて、本文１０２２は括弧のない字で表記し、細注１０２１は括弧で表記した。また、各大分類は行分離で区分される。

一方、ＯＣＲでクラス以外の個体として認識された字形は「？」で処理され、ＯＣＲの制限的な漢字認識の正確度によって少数の字形に対する誤認識を含むこともある。

一方、上述した説明において、ステップＳ５１０～ステップＳ５６０は、本発明の実施形態により、追加的なステップにさらに分割されたり、より少ないステップに組み合わされてもよい。また、一部のステップは、必要に応じて省略されてもよく、ステップ間の順序が変更されてもよい。これとともに、その他省略された内容であっても、図４に記述された内容と、図５～図１０に記述された内容とは、それぞれ相互適用可能である。

以上、上述した本発明の一実施例による古文献の原文イメージのデジタル化方法は、ハードウェアであるコンピュータと結合されて実行されるために、プログラム（またはアプリケーション）で実現されて媒体に格納可能である。

上述したプログラムは、前記コンピュータがプログラムを読込んでプログラムで実現された前記方法を実行させるために、前記コンピュータのプロセッサ（ＣＰＵ）が前記コンピュータの装置インターフェースを介して読出されるＣ、Ｃ＋＋、ＪＡＶＡ、Ｒｕｂｙ、機械語などのコンピュータ言語でコード化されたコード（Ｃｏｄｅ）を含むことができる。このようなコードは、前記方法を実行する必要な機能を定義した関数などに関連する機能的なコード（ＦｕｎｃｔｉｏｎａｌＣｏｄｅ）を含むことができ、前記機能を前記コンピュータのプロセッサが所定の手順どおりに実行させるのに必要な実行手順関連制御コードを含むことができる。また、このようなコードは、前記機能を前記コンピュータのプロセッサが実行させるのに必要な追加情報やメディアが前記コンピュータの内部または外部メモリのどの位置（アドレス）で参照されるべきかに対するメモリ参照関連コードをさらに含むことができる。さらに、前記コンピュータのプロセッサが前記機能を実行させるために、遠隔（Ｒｅｍｏｔｅ）にある何らかの他のコンピュータやサーバなどと通信が必要な場合、コードは前記コンピュータの通信モジュールを用いて遠隔にある何らかの他のコンピュータやサーバなどとどのように通信すべきか、通信時にどのような情報やメディアを送受信すべきかなどに関する通信関連コードをさらに含むことができる。

前記格納される媒体は、レジスタ、キャッシュ、メモリなどのように短い瞬間にデータを格納する媒体ではなく、半永久的にデータを格納し、機器によって読取（ｒｅａｄｉｎｇ）可能な媒体を意味する。具体的には、前記格納される媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク、光データ記憶装置などがあるが、これらに限定されない。すなわち、前記プログラムは、前記コンピュータが接続できる多様なサーバ上の多様な記録媒体またはユーザの前記コンピュータ上の多様な記録媒体に格納される。また、前記媒体は、ネットワークで連結されたコンピュータシステムに分散して、分散方式でコンピュータが読出可能なコードが格納される。

上述した本発明の説明は例示のためのものであり、本発明の属する技術分野における通常の知識を有する者は、本発明の技術的思想や必須の特徴を変更することなく他の具体的な形態に容易に変形可能であることを理解するであろう。そのため、以上に記述した実施例はすべての面で例示的であり、限定的ではないと理解しなければならない。例えば、単一形で説明されている各構成要素は分散して実施されてもよいし、同様に、分散したと説明されている構成要素も結合された形態で実施されてもよい。

本発明の範囲は、上記の詳細な説明よりは後述する特許請求の範囲によって示され、特許請求の範囲の意味および範囲、そしてその均等概念から導出されるすべての変更または変形された形態が本発明の範囲に含まれると解釈されなければならない。

４００：電子装置
４１０：入力部
４２０：通信部
４３０：表示部
４４０：メモリ
４５０：プロセッサ

Claims

電子装置によって行われる方法において、
古文献の原文イメージを対象にＯＣＲにより個別漢字領域を検出して検出ボックスとして生成するステップと、
前記個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分するステップと、
前記区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第１グループと、複数の細注および本文を含む要素のグループである第２グループとにグループ化して区分するステップと、
前記第２グループの要素を対象に本文領域と細注領域とにそれぞれ再分割するステップと、
前記再分割結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成するステップとを含む、
古文献の原文イメージのデジタル化方法。
前記個別漢字領域が検出された古文献の原文イメージを対象に傾き補正を行うステップをさらに含む、
請求項１に記載の古文献の原文イメージのデジタル化方法。
前記個別漢字領域が検出された古文献の原文イメージを対象に傾き補正を行うステップは、
前記古文献の原文イメージの上端から各文字被写体を対象に仮想の複数の平行光を投射するステップと、
前記平行光の投射時に生成される底面の影幅を算出するステップと、
前記底面の影幅が最小値を有する状態でのイメージの回転角度を取得するステップと、
前記取得したイメージの回転角度に基づいて、前記傾き補正を行うステップとを含む、
請求項２に記載の古文献の原文イメージのデジタル化方法。
前記個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分するステップは、
前記古文献の原文イメージ内の検出ボックスを座標値に基づいて、ｘ軸またはｙ軸に投影させた投影情報を生成するステップと、
前記投影情報内の隣り合う２点の間隔が予め設定された閾値を超える場合、前記古文献の原文イメージに対する列または行分離を行うステップと、
前記列または行分離が行われた群集を本文列および細注列のいずれか１つに区分するステップとを含む、
請求項１に記載の古文献の原文イメージのデジタル化方法。
前記列または行分離が行われた群集を本文列および細注列のいずれか１つに区分するステップは、
前記列または行分離が行われた群集それぞれの領域（以下、群集領域）に対する大きさの平均値を算出するステップと、
前記群集領域の大きさの平均値を二元化して前記本文列および細注列を区分するステップとを含む、
請求項４に記載の古文献の原文イメージのデジタル化方法。
前記列または行分離が行われた群集を本文列および細注列のいずれか１つに区分するステップは、
前記群集領域の大きさの平均値を二元化して前記本文列および細注列を区分するステップの前に、前記群集領域に対する大きさの平均値の相対標準偏差が予め設定された閾値未満の場合、本文列に区分するステップをさらに含む、
請求項５に記載の古文献の原文イメージのデジタル化方法。
前記区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第１グループと、複数の細注および本文を含む要素のグループである第２グループとにグループ化して区分するステップは、
前記本文列の左右側に細注列が存在しかつ、前記本文列の中心から所定の閾値距離未満に前記左右側に位置した細注列が存在する場合、前記第２グループに区分するものである、
請求項１に記載の古文献の原文イメージのデジタル化方法。
前記第１グループと第２グループとの間の書き順は、左方向から右方向とする第１方向の順序に従いかつ、前記第１および第２グループ間の内部書き順には影響を及ぼさないものである、
請求項７に記載の古文献の原文イメージのデジタル化方法。
前記第２グループの要素を対象に本文領域と細注領域とにそれぞれ再分割するステップは、
前記第２グループに含まれた要素に対する前記検出ボックスの中心座標をｙ軸に投影させた投影情報を生成するステップと、
前記投影情報において本文と細注との間の切替が発生する地点を基準として上下区分して本文領域および細注領域に区分するステップとを含む、
請求項７に記載の古文献の原文イメージのデジタル化方法。
前記本文領域と細注領域との間の書き順は、上方向から下方向とする第２方向の順序に従いかつ、前記細注領域内の単一の書き順は、右細注を基準として前記第２方向の順序による書き順の後、前記左細注を基準とする前記第２方向の順序の書き順を有するように設定されるものである、
請求項９に記載の古文献の原文イメージのデジタル化方法。
古文献の原文イメージを対象にデジタルテキスト化を行うためのプログラムが格納されたメモリと、
前記メモリに格納されたプログラムを実行させることにより、
前記古文献の原文イメージを対象にＯＣＲにより個別漢字領域を検出して検出ボックスとして生成し、前記個別漢字領域が検出された古文献の原文イメージを対象に本文列および細注列にそれぞれ区分し、前記区分された本文列および細注列を対象に、本文または細注のみを含む要素のグループである第１グループと、複数の細注および本文を含む要素のグループである第２グループとにグループ化して区分し、前記第２グループの要素を対象に本文領域と細注領域とにそれぞれ再分割した後、前記再分割結果に応じて、書き順が整列された漢字を本文および細注に区分されたデジタルテキストとして生成するプロセッサとを含む、
古文献の原文イメージのデジタル化のための電子装置。
前記プロセッサは、前記個別漢字領域が検出された古文献の原文イメージを対象に傾き補正を行い、
前記古文献の原文イメージの上端から各文字被写体を対象に仮想の複数の平行光を投射し、前記平行光の投射時に生成される底面の影幅を算出し、前記底面の影幅が最小値を有する状態でのイメージの回転角度を取得した後、前記取得したイメージの回転角度に基づいて、前記傾き補正を行うものである、
請求項１１に記載の古文献の原文イメージのデジタル化のための電子装置。
前記プロセッサは、前記古文献の原文イメージ内の検出ボックスを座標値に基づいて、ｘ軸またはｙ軸に投影させた投影情報を生成し、前記投影情報内の隣り合う２点の間隔が予め設定された閾値を超える場合、前記古文献の原文イメージに対する列または行分離を行い、前記列または行分離が行われた群集を本文列および細注列のいずれか１つに区分するものである、
請求項１１に記載の古文献の原文イメージのデジタル化のための電子装置。
前記プロセッサは、前記列または行分離が行われた群集それぞれの領域（以下、群集領域）に対する大きさの平均値を算出し、前記群集領域に対する大きさの平均値の相対標準偏差が予め設定された閾値未満の場合、本文列に区分し、前記群集領域の大きさの平均値を二元化して前記本文列および細注列を区分するものである、
請求項１３に記載の古文献の原文イメージのデジタル化のための電子装置。
前記プロセッサは、前記本文列の左右側に細注列が存在しかつ、前記本文列の中心から所定の閾値距離未満に前記左右側に位置した細注列が存在する要素の場合、前記第２グループに区分するものである、
請求項１１に記載の古文献の原文イメージのデジタル化のための電子装置。
前記プロセッサは、前記第２グループに含まれた要素に対する前記検出ボックスの中心座標をｙ軸に投影させた投影情報を生成し、前記投影情報において本文と細注との間の切替が発生する地点を基準として上下区分して本文領域および細注領域に区分するものである、
請求項１５に記載の古文献の原文イメージのデジタル化のための電子装置。
前記本文領域と細注領域との間の書き順は、上方向から下方向とする第２方向の順序に従いかつ、前記細注領域内の単一の書き順は、右細注を基準として前記第２方向の順序による書き順の後、前記左細注を基準とする前記第２方向の順序の書き順を有するように設定されるものである、
請求項１６に記載の古文献の原文イメージのデジタル化のための電子装置。
前記第１グループと第２グループとの間の書き順は、左方向から右方向とする第１方向の順序に従いかつ、前記第１および第２グループ間の内部書き順には影響を及ぼさないものである、
請求項１５に記載の古文献の原文イメージのデジタル化のための電子装置。