JP2022049001A

JP2022049001A - イメージから認識したテキストを階層化する方法、システム、およびコンピュータプログラム

Info

Publication number: JP2022049001A
Application number: JP2021147615A
Authority: JP
Inventors: ジンモク; Mo Ku Jin; チャンギュチェー; Chang Kyu Choi; ジュヒョクムン; Juhyeok Mun; ピルフンチャン; Pil Hoon Jang
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-09-15
Filing date: 2021-09-10
Publication date: 2022-03-28
Also published as: KR20220036165A; KR102530657B1

Abstract

【課題】イメージから認識されたテキストを階層化する方法、システム、およびコンピュータプログラムを提供する。【解決手段】イメージから認識されたテキストを階層化する方法は、イメージ内のテキスト領域の間の視覚的区分領域に基づいて少なくとも１つのテキスト領域をクラスタリングすることによって自然語処理単位を構成する段階、および前記自然語処理単位を学習データとするディープラーニング基盤の学習モデルを構築する段階を含む。【選択図】図３

Description

以下の説明は、テキスト認識結果を階層化する技術に関する。

モバイル端末やカメラ製造会社はもちろん、サービスの構築が可能な移動通信社やポータル会社、ソリューション会社、およびコンテンツ会社などでは、イメージ内のテキストを認識し、これを活用して多様なサービスを提供する技術を開発している。

カメラで取得した自然映像（ｎａｔｕｒａｌｓｃｅｎｅｉｍａｇｅ）に存在する特定の文字情報（ｓｃｅｎｅｔｅｘｔ）を抽出して認識した後、これをリアルタイムで翻訳したり情報検索などに活用したりすることができるようになった。

関連技術の一例として、特許文献１（公開日２００１年１２月１２日）には、映像内の文字を認識し、認識された文字に対する翻訳を提供する翻訳機能を備えたビデオカメラが開示されている。

韓国公開特許第１０－２００１－０１０９８６１号公報

イメージから認識したテキストを階層的テキスト構造化（ＨＴＳ：ｈｉｅｒａｒｃｈｉｃａｌｔｅｘｔｓｔｒｕｃｔｕｒｉｎｇ）によって階層化するための方法およびシステムを提供する。

単語（ｗｏｒｄ）単位のテキスト認識結果を文章や文段に再構成するための方法およびシステムを提供する。

テキストライン、視覚的区分、およびスタイルを基準に階層的テキスト構造化を実行するための方法およびシステムを提供する。

コンピュータシステムが実行する方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記方法は、前記少なくとも１つのプロセッサにより、イメージ内のテキスト領域の間の視覚的区分領域に基づいて少なくとも１つのテキスト領域をクラスタリングすることによって自然語処理単位を構成する段階、および前記少なくとも１つのプロセッサにより、前記自然語処理単位を学習データとするディープラーニング基盤の学習モデルを構築する段階を含む方法を提供する。

一側面によると、前記自然語処理単位を構成する段階は、前記視覚的区分領域として、前記テキスト領域の区分が可能なライン、図形、イメージ、背景、間隔、記号、数字のうちの少なくとも１つを利用して前記テキスト領域をクラスタリングしてよい。

他の側面によると、前記自然語処理単位を構成する段階は、前記イメージから認識された単語単位のテキスト領域に該当する単語要素の集合をライン単位のテキスト領域に該当する線形クラスタとして構成する段階を含んでよい。

また他の側面によると、前記線形クラスタとして構成する段階は、同一線上に位置しながら視覚的区分領域が存在しない、連続する単語要素の集合を１つの線形クラスタとして構成してよい。

また他の側面によると、前記自然語処理単位を構成する段階は、前記線形クラスタの集合を文段単位のテキスト領域に該当する仮想クラスタとして構成する段階をさらに含んでよい。

また他の側面によると、前記仮想クラスタとして構成する段階は、視覚的区分領域が存在しない、連続する線形クラスタの集合を１つの仮想クラスタとして構成してよい。

また他の側面によると、前記仮想クラスタとして構成する段階は、前記線形クラスタに含まれたテキストスタイルに基づいて、少なくとも１つの線形クラスタを前記仮想クラスタとして構成してよい。

また他の側面によると、前記自然語処理単位を構成する段階は、前記仮想クラスタの集合を相関関係のテキスト領域に該当する相関クラスタとして構成する段階をさらに含んでよい。

また他の側面によると、前記相関クラスタとして構成する段階は、完成した文章や句（ｐｈｒａｓｅ）に該当する、連続する仮想クラスタの集合を１つの相関クラスタとして構成してよい。

さらに他の側面によると、前記単語要素は、前記単語単位のテキスト領域を示すポリゴン座標情報を含み、前記線形クラスタ、前記仮想クラスタ、および前記相関クラスタは、該当のクラスタを構成する子ノードの集合情報を含んでよい。

前記方法を前記コンピュータシステムに実行させるためにコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、イメージ内のテキスト領域の間の視覚的区分領域に基づいて少なくとも１つのテキスト領域をクラスタリングすることによって自然語処理単位を構成する過程、および前記自然語処理単位を学習データとするディープラーニング基盤の学習モデルを構築する過程を処理するコンピュータシステムを提供する。

本発明の実施形態によると、イメージから認識された単語単位のテキストを文章や文段に再構成する階層的テキスト構造化により、自然語処理のための学習モデルの学習データを生成することができる。

本発明の実施形態によると、階層的テキスト構造化による学習データによってディープラーニング基盤の学習モデルを構築することができ、これにより、より完結した構造の自然語処理単位を設定することができ、機械翻訳、情報検索、質疑応答、文書要約などのような多様な分野における自然語処理性能を高めることができる。

本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、コンピュータシステムが実行することのできる方法の例を示したフローチャートである。本発明の一実施形態における、階層的テキスト構造化過程の例を示した図である。本発明の一実施形態における、階層的テキスト構造化過程の例を示した図である。本発明の一実施形態における、階層的テキスト構造化過程の例を示した図である。本発明の一実施形態における、階層的テキスト構造化過程の例を示した図である。本発明の一実施形態における、階層的テキスト構造化過程の例を示した図である。本発明の一実施形態における、視覚的区分領域の例を示した図である。本発明の一実施形態における、視覚的区分領域の例を示した図である。本発明の一実施形態における、視覚的区分領域の例を示した図である。本発明の一実施形態における、単語単位のテキスト（ＷＥ）を線形クラスタ（ＬＣ）としてクラスタリングする過程を説明するための例示図である。本発明の一実施形態における、単語単位のテキスト（ＷＥ）を線形クラスタ（ＬＣ）としてクラスタリングする過程を説明するための例示図である。本発明の一実施形態における、線形クラスタ（ＬＣ）を仮想クラスタ（ＶＣ）としてクラスタリングする過程を説明するための例示図である。本発明の一実施形態における、線形クラスタ（ＬＣ）を仮想クラスタ（ＶＣ）としてクラスタリングする過程を説明するための例示図である。本発明の一実施形態における、仮想クラスタ（ＶＣ）を相関クラスタ（ＣＣ）としてクラスタリングする過程を説明するための例示図である。本発明の一実施形態における、仮想クラスタ（ＶＣ）を相関クラスタ（ＣＣ）としてクラスタリングする過程を説明するための例示図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、テキスト認識結果を階層化する技術に関する。本明細書において具体的に開示される事項を含む実施形態は、イメージから認識されたテキストを階層的テキスト構造化（ＨＴＳ）により、より完結した構造の単位で階層化することができる。

図１は、本発明の一実施形態における、コンピュータシステムの例を示したブロック図である。例えば、本発明の実施形態に係るテキスト階層化システムは、図１に示されたコンピュータシステム１００によって実現されてよい。

図１に示すように、コンピュータシステム１００は、本発明の実施形態に係るテキスト階層化方法を実行するための構成要素として、メモリ１１０、プロセッサ１２０、通信インタフェース１３０、および入力／出力インタフェースを含んでよい。

メモリ１１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ１１０とは区分される別の永続的記録装置としてコンピュータシステム１００に含まれてもよい。また、メモリ１１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ１１０とは別のコンピュータ読み取り可能な記録媒体からメモリ１１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース１３０を通じてメモリ１１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１６０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム１００のメモリ１１０にロードされてよい。

プロセッサ１２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ１１０または通信インタフェース１３０によって、プロセッサ１２０に提供されてよい。例えば、プロセッサ１２０は、メモリ１１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース１３０は、ネットワーク１６０を介してコンピュータシステム１００が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータシステム１００のプロセッサ１２０がメモリ１１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース１３０の制御にしたがってネットワーク１６０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１６０を経てコンピュータシステム１００の通信インタフェース１３０を通じてコンピュータシステム１００に受信されてよい。通信インタフェース１３０を通じて受信された信号や命令、データなどは、プロセッサ１２０やメモリ１１０に伝達されてよく、ファイルなどは、コンピュータシステム１００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

通信方式が限定されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

入力／出力インタフェース１４０は、入力／出力装置１５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース１４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置１５０は、コンピュータシステム１００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータシステム１００は、図１の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図に示す必要はない。例えば、コンピュータシステム１００は、上述した入力／出力装置１５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

図２は、本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図であり、図３は、本発明の一実施形態における、コンピュータシステムが実行することのできるテキスト階層化方法の例を示したフローチャートである。

図２に示すように、プロセッサ１２０は、線形クラスタリング部２１０、仮想クラスタリング部２２０、および相関クラスタリング部２３０を含んでよい。このようなプロセッサ１２０の構成要素は、少なくとも１つのプログラムコードによって提供される制御命令にしたがってプロセッサ１２０によって実行される、互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、プロセッサ１２０が単語単位のテキストをクラスタリングすることによって線形クラスタを構成するようにコンピュータシステム１００を制御するために動作する機能的表現として、線形クラスタリング部２１０が使用されてよい。

プロセッサ１２０およびプロセッサ１２０の構成要素は、図３のテキスト階層化方法が含む段階３１０～３３０を実行してよい。例えば、プロセッサ１２０およびプロセッサ１２０の構成要素は、メモリ１１０が含むオペレーティングシステムのコードと、上述した少なくとも１つのプログラムコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、少なくとも１つのプログラムコードは、テキスト階層化方法を処理するために実現されたプログラムのコードに対応してよい。

テキスト階層化方法は、図に示した順に発生しないこともあるし、段階のうちの一部が省略されたり追加の過程がさらに含まれたりすることもある。

プロセッサ１２０は、テキスト階層化方法のためのプログラムファイルに記録されたプログラムコードをメモリ１１０にロードしてよい。例えば、テキスト階層化方法のためのプログラムファイルは、永続的記録装置に記録されていてよく、プロセッサ１２０は、バスを介して永続的記録装置に記録されたプログラムファイルからプログラムコードがメモリ１１０にロードされるようにコンピュータシステム１００を制御してよい。このとき、プロセッサ１２０およびプロセッサ１２０が含む線形クラスタリング部２１０、仮想クラスタリング部２２０、および相関クラスタリング部２３０それぞれは、メモリ１１０にロードされたプログラムコードのうちの対応する部分の命令を実行して以後の段階３１０～３３０を実行するためのプロセッサ１２０の互いに異なる機能的表現であってよい。段階３１０～３３０の実行のために、プロセッサ１２０およびプロセッサ１２０の構成要素は、制御命令による演算を直接処理してもよいし、コンピュータシステム１００を制御してもよい。

プロセッサ１２０は、ＯＣＲ（ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）などによってイメージから認識したテキストのテキストライン、視覚的区分、およびスタイルに基づいて階層的テキスト構造化を実行してよい。プロセッサ１２０は、階層的テキスト構造化により、自然語処理のための学習データを単語単位、ライン単位、文段単位で生成してよく、このような学習データを学習するためのディープラーニングモデル（例えば、ＵＮｅｔ、ＧＮＮ（ｇｒａｐｈｎｅｕｒａｌｎｅｔｗｏｒｋ）など）を構築してよい。言い換えれば、プロセッサ１２０は、イメージ翻訳品質などの自然語処理性能を高めるために、階層的テキスト構造化により、単語単位のテキスト認識結果をより完結した構造の自然語処理単位に階層化して学習することができる。

段階３１０で、線形クラスタリング部２１０は、イメージから認識された単語単位のテキストを示す単語要素（ｗｏｒｄｅｌｅｍｅｎｔ、以下「ＷＥ」とする）の集合を線形クラスタ（ｌｉｎｅａｒｃｌｕｓｔｅｒ、以下「ＬＣ」とする）として構成してよい。ＷＥは、ＯＣＲなどによって認識された単語単位のテキスト領域を意味するものであって、４～１６点を含むポリゴン座標情報を有する。線形クラスタリング部２１０は、ＷＥの間の視覚的区分領域に基づいて少なくとも１つのＷＥをクラスタリングすることによってライン単位のテキスト領域を示すＬＣを構成してよい。ＬＣは、同一線上に位置する、連続するＷＥの集合を意味するものであって、ポリゴン座標情報を有さない。一般的に、ＬＣは、ライン単位のテキスト領域を意味するが、同一線上にあってもＷＥの間に視覚的区分領域が存在する場合は、互いに異なるＬＣとして分離して構成されてよい。また、テキストスタイルが互いに異なったとしても、同一線上にあって視覚的区分領域が存在しない場合は、１つのＬＣとして構成されてよい。テキストスタイルは、テキストのフォント（ｆｏｎｔ）、サイズ（ｓｉｚｅ）、ボールド（ｂｏｌｄ）、イタリック（ｉｔａｌｉｃ）などの書体情報を含んでよい。視覚的区分領域については、以下で詳しく説明する。

段階３２０で、仮想クラスタリング部２２０は、ＬＣの間の視覚的区分領域に基づいて少なくとも１つのＬＣをクラスタリングすることによって文段単位のテキスト領域を示す仮想クラスタ（ｖｉｓｕａｌｃｌｕｓｔｅｒ、以下「ＶＣ」とする）を構成してよい。ＶＣは、視覚的区分領域が存在しない、連続するＬＣの集合を意味するものであって、ポリゴン座標情報を有さない。１つのＶＣ内には、複数の連続する文章が存在してよい。隣接するＬＣのテキストスタイル（フォント、サイズ、ボールド、イタリックなど）が異なる場合は、視覚的区分領域が存在しない、連続するＬＣであっても、互いに異なるＶＣとして分離してよい。例えば、テキストサイズが互いに異なるＬＣの場合は、それぞれのＶＣとして構成されてよい。互いに隣接するＬＣがそれぞれ互いに異なる１つのスタイルだけで構成される場合は、視覚的区分領域が存在しない、連続するＬＣであっても、互いに異なるＶＣとして分離してよい。ただし、ＬＣ内に２つ以上の異なるスタイルが混ざっている場合、視覚的区分領域が存在せずに連続していれば、１つのＶＣとしてよい。

段階３３０で、相関クラスタリング部２３０は、隣接するＶＣの視覚的区分領域に基づいて少なくとも１つのＶＣをクラスタリングすることによって相関関係のテキスト領域を示す相関クラスタ（ｃｏｒｒｅｌａｔｉｏｎｃｌｕｓｔｅｒ、以下「ＣＣ」とする）を構成してよい。ＣＣは、視覚的区分領域が存在しない、連続するＶＣの集合を意味するものであって、ポリゴン座標情報を有さない。ＣＣは、連続する句（ｐｈｒａｓｅ）や文章に該当するＶＣの集合であって、互いに隣接するＶＣに限り１つのＣＣとしてよい。

プロセッサ１２０は、単語単位のテキスト認識結果を文章や文段に再構成したＬＣ、ＶＣ、ＣＣのうちの少なくとも１つを、自然語処理のためのディープラーニングモデルの学習データとして活用してよい。

図４～８は、本発明の一実施形態における、階層的テキスト構造化過程の例を示した図である。

図４を参照すると、ＷＥ４０は、ＯＣＲなどによって認識された単語単位のテキストで定義されてよい。

図５を参照すると、プロセッサ１２０は、同一線上に位置するＷＥ４０の集合をＬＣ５０として束ねてよい。プロセッサ１２０は、同一線上に位置したとしてもＷＥ４０の間に視覚的区分領域が存在する場合は、互いに異なるＬＣ５０として分離し、テキストスタイルが互いに異なっても同一線上に位置して視覚的区分領域が存在しない場合は、１つのＬＣ５０として構成してよい。

図６を参照すると、プロセッサ１２０は、視覚的区分がなくて互いに隣接するＬＣ５０の集合をＶＣ６０として束ねてよい。例えば、視覚的区分がなくて互いに隣接するＬＣ５０に対し、テキストサイズが異なる場合は互いに異なるＶＣ６０として分離し、テキストサイズが同じ場合は１つのＶＣ６０として束ねてよい。プロセッサ１２０は、視覚的区分がなくて互いに隣接していてもそれぞれ互いに異なる１つのスタイルだけで構成されたＬＣ５０の場合は、互いに異なるＶＣ６０として分離し、ＬＣ５０内に２つ以上の異なるスタイルが混ざっている場合に、視覚的区分領域が存在せずに連続していれば、１つのＶＣ６０として構成してよい。

１つのＷＥ４０が、１つのＬＣ５０と１つのＶＣ６０を構成してもよい。例えば、互いに隣接するＷＥ４０が同一水平線上にあったとしても、線などによって視覚的に区分されていれば、互いに異なるＬＣ５０とＶＣ６０とに分離してよい。

図７を参照すると、プロセッサ１２０は、互いに隣接するＶＣ６０のうち、連続する句や文章に該当するＶＣの集合をＣＣ７０として束ねてよい。

したがって、テキストを階層化したタイプは、ＷＥ４０、ＬＣ５０、ＶＣ６０、ＣＣ７０に区分されるようになる。

ＬＣ５０、ＶＣ６０、ＣＣ７０は、ポリゴン座標情報を有さず、図８に示したＬＣ５０、ＶＣ６０、ＣＣ７０のデータフォーマットは、表１のとおりとなる。テキストフィルタは、子ノード（ｃｈｉｌｄｎｏｄｅ）のテキストを空間（ｓｐａｃｅ）として合わせた結果である。言い換えれば、ＣＣ７０の子ノードはＶＣ６０となり、ＶＣ６０の子ノードはＬＣ５０となり、ＬＣ５０の子ノードはＷＥ４０となる。ＷＥ４０はポリゴン座標情報を有する反面、ＬＣ５０、ＶＣ６０、ＣＣ７０は、座標情報の代わりに該当のクラスタを構成する子ノードの集合情報を有する。

図９～１１は、本発明の一実施形態における、視覚的区分領域の例を示した図である。

階層的テキスト構造化の基準となる視覚的区分領域は、次のように定義されてよい。視覚的区分領域は、テキスト領域がラインや図形、イメージなどによって区分される場合、テキスト領域が互いに異なる背景によって区分される場合、テキスト領域の間隔が不規則的な場合に分けられてよい。

図９を参照すると、プロセッサ１２０は、テキスト領域（ＷＥ４０、ＬＣ５０、ＶＣ６０）がテーブルライン９０１やボックスのような各種図形９０２によって区分される場合、視覚的に区分されると判断する。言い換えれば、ライン９０１や図形９０２、イメージなどを視覚的区分領域として活用してよい。例えば、互いに隣接するＬＣ５０の集合がライン９０１や図形９０２によって区分されなければ１つのＶＣ６０として束ね、ライン９０１や図形９０２によって区分されれば互いに異なるＶＣ６０として束ねてよい。

図１０を参照すると、プロセッサ１２０は、テキスト領域が互いに異なる背景１００１、１００２によって区分される場合、視覚的に区分されると判断する。言い換えれば、テキスト背景１００１、１００２を視覚的区分領域として活用してよい。例えば、互いに隣接するＬＣ５０の背景が同じであれば１つのＶＣ６０として束ね、互いに異なる背景として区分されれば互いに異なるＶＣ６０として束ねてよい。

図１１を参照すると、プロセッサ１２０は、テキスト領域の間隔１１０１、１１０２、１１０３、１１０４を確認してよく、このようなテキスト領域の間隔１１０１、１１０２、１１０３、１１０４が不規則な場合、視覚的に区分されると判断する。言い換えれば、テキスト領域の不規則な間隔を視覚的区分領域として活用してよい。互いに隣接するＬＣ５０の間隔が規則的であれば、１つのＶＣ６０として束ねる。この反面、ＬＣ５０の間隔が規則的であったのに変化する、すなわち、不規則になる部分を視覚的に区分される境界として見なし、該当の境目を基準に以前ＬＣ５０と以後ＬＣ５０を互いに異なるＶＣ６０として分離してよい。

上述した視覚的区分領域の他にも、文頭記号やナンバリングなど、テキスト領域を区分するために利用される多様な書式や要素が適用されてもよい。

図１２～１３は、本発明の一実施形態における、ＷＥ４０をＬＣ５０としてクラスタリングする過程を説明するための例示図である。

プロセッサ１２０は、基本的に、視覚的区分方式を利用して少なくとも１つのＷＥ４０をＬＣ５０としてクラスタリングしてよい。

視覚的区分方式の他にも、次のような規則にしたがってクラスタリングを実行する。

図１２に示すように、ＷＥ４０の間隔が一定の字数以上であるときには、それぞれ異なるＬＣ５０としてクラスタリングする。例えば、字間が２字以上ある以前ＷＥ４０の集合と以後ＷＥ４０の集合は、互いに異なるＬＣ５０として束ねてよい。

図１３に示すように、同一水平線上に位置するＷＥ４０の集合を１つのＬＣ５０としてクラスタリングする。ＷＥ４０が、サイズ、フォント、ボールド、イタリックなどのようなテキストスタイルが異なっても、同一線上に位置すれば、１つのＬＣ５０としてクラスタリングする。一方、プロセッサ１２０は、同一線上に位置しないＷＥ４０は、互いに異なるＬＣ５０として分離して構成する。

図１４～１５は、本発明の一実施形態における、ＬＣ５０をＶＣ６０としてクラスタリングする過程を説明するための例示図である。

プロセッサ１２０は、基本的に、視覚的区分方式を利用して少なくとも１つのＬＣ５０をＶＣ６０としてクラスタリングしてよい。

プロセッサ１２０は、視覚的区分領域が存在しない、連続するＬＣ５０が複数ある場合、より近くに位置するＬＣ５０をＶＣ６０としてクラスタリングする。

図１４に示すように、プロセッサ１２０は、ＬＣ５０の間隔が一定以上（例えば、２列以上）の場合には、それぞれのＬＣ５０を互いに異なるＶＣ６０としてクラスタリングする。

また、図１５を参照すると、プロセッサ１２０は、ＬＣ５０の一部の領域が重なる場合、例えば、１字以上が重なる場合には、互いに隣接するＬＣ５０の集合として見なし、同じＶＣ６０としてクラスタリングする。

また、互いに隣接するＬＣ５０がそれぞれ互いに異なる１つのスタイル（フォント、サイズ、ボールド、イタリックなど）だけで構成されている場合には、視覚的区分がない、連続するＬＣ５０であったとしても、それぞれ異なるＶＣ６０としてクラスタリングする。ただし、ＬＣ５０内に複数の異なるスタイルが混ざっている場合、視覚的区分がなく連続していれば、同じＶＣ６０としてクラスタリングする。例えば、ＬＣ１、ＬＣ２、ＬＣ３に区分されたＬＣ５０に対し、連続するＬＣ１とＬＣ２は視覚的区分がなく、連続するＬＣ２とＬＣ３は視覚的区分がなければ、ＬＣ１とＬＣ３が連続せずにテキストスタイルが異なったとしても、ＬＣ１とＬＣ２およびＬＣ３は推移関係（ｔｒａｎｓｉｔｉｖｅｒｅｌａｔｉｏｎ）として見なし、ＶＣ６０としてクラスタリングする。

図１６～１７は、本発明の一実施形態における、ＶＣ６０をＣＣ７０としてクラスタリングする過程を説明するための例示図である。

プロセッサ１２０は、基本的に、視覚的区分方式を利用して少なくとも１つのＶＣ６０をＣＣ７０としてクラスタリングしてよい。

プロセッサ１２０は、コンピュータシステム１００の内部に構築されるか別のシステムに構築され、コンピュータシステム１００と連動可能な辞書データベース（図示せず）に基づいてＶＣ６０それぞれの内部テキストを検索し、検索されたテキストがそれ自体で意味を持つか完成した句として判断される場合は、ＣＣ７０としてクラスタリングしない。

一方、プロセッサ１２０は、ＶＣ６０それぞれのテキストが完成した意味を持つものであったとしても、２つ以上のＶＣ６０のテキストの組み合わせが固有名詞に該当する場合は、該当のＶＣ６０の集合を１つのＣＣ７０としてクラスタリングする、例えば、プロセッサ１２０は、図１６に示すように、視覚的区分方式により、ＶＣ６０が「ｔｏｙ」、「ｓｔｏｒｙ」、「４」に区分された場合、「ｔｏｙ」と「ｓｔｏｒｙ」がそれ自体で意味を持つものであったとしても、結合する文章が固有名詞「ｔｏｙｓｔｏｒｙ」を意味するため、「ｔｏｙ」と「ｓｔｏｒｙ」を１つのＣＣ７０として束ねてよい。

図１７を参照すると、プロセッサ１２０は、互いに異なる背景やテキストスタイルによってＶＣ６０が「ｍａｄｅｗｉｔｈ」、「１００％」、「ｎａｔｕｒａｌ」、「ｉｎｇｒｅｄｉｅｎｔｓ」に区分される場合、これを完成した意味の文章ではなく断絶する文章と判断し、完成した文章や句に該当するＶＣ６０の集合として「ｍａｄｅｗｉｔｈ」、「１００％」、「ｎａｔｕｒａｌ」、「ｉｎｇｒｅｄｉｅｎｔｓ」を１つのＣＣ７０として束ねてよい。

したがって、プロセッサ１２０は、イメージのテキスト認識結果を文章や文段に階層化することができ、これを自然語処理のためのディープラーニングモデルの学習データとして活用することができる。

イメージ翻訳の場合、イメージのＯＣＲ結果に対して階層的テキスト構造化（ＨＴＳ）を適用させてイメージ内のテキストを完結した構造の単位に再構成した後、原文を削除し、再構成された各単位を翻訳した文章（翻訳文）を該当の原文が削除された位置にレンダリングしてよい。イメージ内のテキストに対し、翻訳のための自然語処理単位を階層的テキスト構造化によってより完結した構造の単位に再構成することにより、より優れた品質のイメージ翻訳結果を提供することができる。

このように、本発明の実施形態によると、イメージから認識された単語単位のテキストを文章や文段に再構成する階層的テキスト構造化により、自然語処理のための学習モデルの学習データを生成することができる。階層的テキスト構造化による学習データによってディープラーニング基盤の学習モデルを構築することができ、これにより、完結した構造の単位を設定することができ、機械翻訳、情報検索、質疑応答、文書要約などのような多様な分野で自然語処理性能を高めることができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体も挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

１２０：プロセッサ
２１０：線形クラスタリング部
２２０：仮想クラスタリング部
２３０：相関クラスタリング部

Claims

コンピュータシステムが実行する方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記方法は、
前記少なくとも１つのプロセッサにより、イメージ内のテキスト領域の間の視覚的区分領域に基づいて少なくとも１つのテキスト領域をクラスタリングすることによって自然語処理単位を構成する段階、および
前記少なくとも１つのプロセッサにより、前記自然語処理単位を学習データとするディープラーニング基盤の学習モデルを構築する段階
を含む、方法。
前記自然語処理単位を構成する段階は、
前記視覚的区分領域として、前記テキスト領域の区分が可能なライン、図形、イメージ、背景、間隔、記号、数字のうちの少なくとも１つを利用して前記テキスト領域をクラスタリングすること
を特徴とする、請求項１に記載の方法。
前記自然語処理単位を構成する段階は、
前記イメージから認識された単語単位のテキスト領域に該当する単語要素の集合をライン単位のテキスト領域に該当する線形クラスタとして構成する段階
を含む、請求項１に記載の方法。
前記線形クラスタとして構成する段階は、
同一線上に位置しながら視覚的区分領域が存在しない、連続する単語要素の集合を１つの線形クラスタとして構成すること
を特徴とする、請求項３に記載の方法。
前記自然語処理単位を構成する段階は、
前記線形クラスタの集合を文段単位のテキスト領域に該当する仮想クラスタとして構成する段階
をさらに含む、請求項３に記載の方法。
前記仮想クラスタとして構成する段階は、
視覚的区分領域が存在しない、連続する線形クラスタの集合を１つの仮想クラスタとして構成すること
を特徴とする、請求項５に記載の方法。
前記仮想クラスタとして構成する段階は、
前記線形クラスタに含まれたテキストスタイルに基づいて、少なくとも１つの線形クラスタを前記仮想クラスタとして構成すること
を特徴とする、請求項５に記載の方法。
前記自然語処理単位を構成する段階は、
前記仮想クラスタの集合を相関関係のテキスト領域に該当する相関クラスタとして構成する段階
をさらに含む、請求項５に記載の方法。
前記相関クラスタとして構成する段階は、
完成した文章や句（ｐｈｒａｓｅ）に該当する、連続する仮想クラスタの集合を１つの相関クラスタとして構成すること
を特徴とする、請求項８に記載の方法。
前記単語要素は、前記単語単位のテキスト領域を示すポリゴン座標情報を含み、
前記線形クラスタ、前記仮想クラスタ、および前記相関クラスタは、該当のクラスタを構成する子ノードの集合情報を含むこと
を特徴とする、請求項８に記載の方法。
請求項１～１０のうちのいずれか一項に記載の方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
イメージ内のテキスト領域の間の視覚的区分領域に基づいて少なくとも１つのテキスト領域をクラスタリングすることによって自然語処理単位を構成する過程、および
前記自然語処理単位を学習データとするディープラーニング基盤の学習モデルを構築する過程
を処理する、コンピュータシステム。
前記少なくとも１つのプロセッサは、
前記視覚的区分領域として、前記テキスト領域の区分が可能なライン、図形、イメージ、背景、間隔、記号、数字のうちの少なくとも１つを利用して前記テキスト領域をクラスタリングすること
を特徴とする、請求項１２に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記イメージから認識された単語単位のテキスト領域に該当する単語要素の集合をライン単位のテキスト領域に該当する線形クラスタとして構成すること
を特徴とする、請求項１２に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
同一線上に位置しながら視覚的区分領域が存在しない、連続する単語要素の集合を１つの線形クラスタとして構成すること
を特徴とする、請求項１４に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記線形クラスタの集合を文段単位のテキスト領域に該当する仮想クラスタとして構成すること
を特徴とする、請求項１４に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
視覚的区分領域が存在しない、連続する線形クラスタの集合を１つの仮想クラスタとして構成すること
を特徴とする、請求項１６に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記線形クラスタに含まれたテキストスタイルに基づいて、少なくとも１つの線形クラスタを前記仮想クラスタとして構成すること
を特徴とする、請求項１６に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記仮想クラスタの集合を相関関係のテキスト領域に該当する相関クラスタとして構成すること
を特徴とする、請求項１６に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
完成した文章や句に該当する、連続する仮想クラスタの集合を１つの相関クラスタとして構成すること
を特徴とする、請求項１９に記載のコンピュータシステム。