JP7669162B2

JP7669162B2 - 画像内の文字色と背景色を抽出して提供する方法、システム、およびコンピュータプログラム

Info

Publication number: JP7669162B2
Application number: JP2021040014A
Authority: JP
Inventors: スンフンペク
Original assignee: Line Plus Corp
Current assignee: Line Plus Corp
Priority date: 2020-03-30
Filing date: 2021-03-12
Publication date: 2025-04-28
Anticipated expiration: 2041-03-12
Also published as: JP2021163482A; KR20210121515A; US11568631B2; US20210303905A1; KR102422221B1

Description

以下の説明は、画像内の文字検出および翻訳機能を提供する技術に関する。

一般的に、文字認識技術は、カメラが撮影した画像に含まれる文字を背景から分離して特徴を抽出した後、予め格納された文字の特徴パターンと比較し、最も類似するパターンの文字を認識結果として提供する。

このような一般的な文字認識技術は、限定された範囲の文字や数字を使用する、例えば、自動車のナンバープレートや郵便番号などの認識には高い文字認識率を示し、実用化されている。

一方、世界には多様な言語が存在するが、他国の言語を理解するには限界があるため、理解できない言語を理解可能な言語に翻訳して提供する自動翻訳システムの研究が活発化している。

例えば、特許文献１（公開日２０２０年１月３０日）には、外国語で記載された画像に対して翻訳サービスを提供する技術が開示されている。

韓国公開特許第１０－２０２０－０００９２０５号公報

画像に対して文字検出および翻訳機能を提供するにあたり、翻訳結果領域を該当の画像にオーバーレイ（ｏｖｅｒｌａｙ）させて提供する。

画像内の文字検出領域から文字色と背景色を抽出し、抽出された文字色と背景色を翻訳結果領域の文字と背景に適用する。

コンピュータシステムが実行する方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記方法は、前記少なくとも１つのプロセッサが、与えられた画像内で文字が含まれた第１領域を検出する段階、前記少なくとも１つのプロセッサが、前記第１領域で前記文字を代表する文字代表色と前記第１領域の背景を代表する背景代表色を抽出する段階、および前記少なくとも１つのプロセッサが、前記文字に対する翻訳結果が含まれた第２領域を前記画像の上にオーバーレイさせるが、このとき、前記第２領域の文字色と背景色として前記文字代表色と前記背景代表色を適用する段階を含む方法を提供する。

一側面によると、前記検出する段階は、ＯＣＲ（ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅａｄｅｒ）を利用して前記第１領域を検出してよい。

他の側面によると、前記抽出する段階は、前記第１領域の各ピクセルに対するヒストグラムを抽出する段階、前記第１領域の色分布に基づいて文字基本色と背景基本色を抽出する段階、前記第１領域の各ピクセルに対する前記ヒストグラムと前記文字基本色との距離値に基づき前記文字代表色を選定する段階、および前記第１領域の各ピクセルに対する前記ヒストグラムと前記背景基本色との距離値に基づき前記背景代表色を選定する段階を含んでよい。

また他の側面によると、前記抽出する段階は、画像透視変換（ｉｍａｇｅｐｅｒｓｐｅｃｔｉｖｅｔｒａｎｓｆｏｒｍ）アルゴリズムを利用して前記第１領域を一定の形態に変換する段階をさらに含んでよい。

また他の側面によると、前記抽出する段階は、前記ヒストグラムを大きさ順に整列する段階をさらに含んでよい。

また他の側面によると、前記ヒストグラムを抽出する段階は、前記第１領域の各ピクセルに対して色成分（ｃｏｌｏｒｃｈａｎｎｅｌ）の組み合わせによる３Ｄヒストグラムを抽出する段階を含んでよい。

また他の側面によると、前記ヒストグラムを抽出する段階は、前記第１領域のすべてのピクセル値を特定の倍数に量子化（ｑｕａｎｔｉｚａｔｉｏｎ）する段階を含んでよい。

また他の側面によると、前記文字基本色と前記背景基本色を抽出する段階は、Ｋ－平均（ｍｅａｎ）アルゴリズムを利用して前記第１領域の色分布を２つの色にクラスタリングする段階、前記第１領域のフレーム領域を対象に前記２つの色の色ごとにピクセルの数を合算する段階、および前記２つの色のうちでピクセルの数が多い色を前記背景基本色として選定し、残りの色を前記文字基本色として選定する段階を含んでよい。

また他の側面によると、前記文字代表色と前記背景代表色を選定する段階は、前記文字基本色との距離値が閾値（ｔｈｒｅｓｈｏｌｄ）以下のピクセルの色を前記文字代表色として選定する段階、および前記背景基本色との距離値が前記閾値以下のピクセルの色を前記背景代表色として選定する段階を含んでよい。

また他の側面によると、前記文字代表色と前記背景代表色を選定する段階は、前記閾値以下のピクセルが存在しない場合、前記閾値を増加させる段階を含んでよい。

また他の側面によると、前記方法は、前記少なくとも１つのプロセッサが、画像オブジェクトの代表色を抽出し、前記画像オブジェクトと関連するＵＩを構成する色として適用する段階をさらに含んでよい。

また他の側面によると、前記方法は、前記少なくとも１つのプロセッサが、アイコンの代表色を抽出し、背景テーマ色として適用する段階をさらに含んでよい。

さらに他の側面によると、前記方法は、前記少なくとも１つのプロセッサが、動画の以前フレームと現在フレームそれぞれから代表色を抽出し、前記以前フレームの代表色と前記現在フレームの代表色との差によって場面の変わり目を感知する段階をさらに含んでよい。

前記方法を前記コンピュータシステムに実行させるために非一時的なコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、与えられた画像内で文字が含まれた第１領域を検出する文字検出部、前記第１領域で前記文字を代表する文字代表色と前記第１領域の背景を代表する背景代表色を抽出する色抽出部、および前記文字に対する翻訳結果が含まれた第２領域を前記画像の上にオーバーレイさせるが、このとき、前記第２領域の文字色と背景色として前記文字代表色と前記背景代表色を適用して提供する翻訳結果提供部を含む、コンピュータシステムを提供する。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。本発明の一実施形態における、画像内の文字検出および翻訳機能に対する使用シナリオの例を示した図である。本発明の一実施形態における、色抽出過程の具体的な例を示した図である。本発明の一実施形態における、ヒストグラム抽出過程を説明するための例示図である。本発明の一実施形態における、基本色選定過程を説明するための例示図である。本発明の一実施形態における、基本色選定過程を説明するための例示図である。本発明の一実施形態における、基本色選定過程を説明するための例示図である。本発明の一実施形態における、ヒストグラム整列過程を説明するための例示図である。本発明の一実施形態における、代表色選定過程を説明するための例示図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、画像内の文字検出および翻訳機能を提供する技術に関する。

本明細書で具体的に開示される事項を含む実施形態は、画像に対して文字検出および翻訳機能を提供するにあたり、文字検出領域で抽出された文字色と背景色からなる翻訳結果領域を該当の画像にオーバーレイさせて提供することにより、原本画像と最も類似する色が適用されるようになり、翻訳結果領域に対する違和感を最小限にすることができる。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレット、ゲームコンソール、ウェアラブルデバイス、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）デバイス、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）デバイス、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）デバイスなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することのできる多様な物理的なコンピュータシステムのうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０それぞれは、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０に第１サービスを提供するシステムであってよく、サーバ１６０もネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０に第２サービスを提供するシステムであってよい。より具体的な例として、サーバ１５０は、複数の電子機器１１０、１２０、１３０、１４０においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス（一例として、画像ベースの翻訳サービスなど）を第１サービスとして複数の電子機器１１０、１２０、１３０、１４０に提供してよい。他の例として、サーバ１６０は、上述したアプリケーションのインストールおよび実行のためのファイルを複数の電子機器１１０、１２０、１３０、１４０に配布するサービスを第２サービスとして提供してよい。

図２は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図２では、電子機器に対する例として電子機器１１０の内部構成およびサーバ１５０の内部構成について説明する。また、他の電子機器１２０、１３０、１４０やサーバ１６０も、上述した電子機器１１０またはサーバ１５０と同一または類似の内部構成を有してよい。

電子機器１１０およびサーバ１５０は、メモリ２１１、２２１、プロセッサ２１２、２２２、通信モジュール２１３、２２３、および入力／出力インタフェース２１４、２２４を含んでよい。メモリ２１１、２２１は、非一時的なコンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ディスクドライブ、ＳＳＤ（ｓｏｌｉｄｓｔａｔｅｄｒｉｖｅ）、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭ、ＳＳＤ、フラッシュメモリ、ディスクドライブのような永続的大容量記録装置は、メモリ２１１、２２１とは区分される別の永続的記録装置として電子機器１１０やサーバ１５０に含まれてもよい。また、メモリ２１１、２２１には、オペレーティングシステムと、少なくとも１つのプログラムコード（一例として、電子機器１１０においてインストールされて実行されるブラウザや、特定のサービスの提供のために電子機器１１０にインストールされたアプリケーションなどのためのコード）が記録されてよい。このようなソフトウェア構成要素は、メモリ２１１、２２１とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール２１３、２２３を通じてメモリ２１１、２２１にロードされてもよい。例えば、少なくとも１つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム（一例として、上述したサーバ１６０）がネットワーク１７０を介して提供するファイルによってインストールされるコンピュータプログラム（一例として、上述したアプリケーション）に基づいてメモリ２１１、２２１にロードされてよい。

プロセッサ２１２、２２２は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１１、２２１または通信モジュール２１３、２２３によって、プロセッサ２１２、２２２に提供されてよい。例えば、プロセッサ２１２、２２２は、メモリ２１１、２２１のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信モジュール２１３、２２３は、ネットワーク１７０を介して電子機器１１０とサーバ１５０とが互いに通信するための機能を提供してもよいし、電子機器１１０および／またはサーバ１５０が他の電子機器（一例として、電子機器１２０）または他のサーバ（一例として、サーバ１６０）と通信するための機能を提供してもよい。一例として、電子機器１１０のプロセッサ２１２がメモリ２１１のような記録装置に記録されたプログラムコードにしたがって生成した要求が、通信モジュール２１３の制御にしたがってネットワーク１７０を介してサーバ１５０に伝達されてよい。これとは逆に、サーバ１５０のプロセッサ２２２の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール２２３とネットワーク１７０を経て電子機器１１０の通信モジュール２１３を通じて電子機器１１０に受信されてよい。例えば、通信モジュール２１３を通じて受信されたサーバ１５０の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ２１２やメモリ２１１に伝達されてよく、コンテンツやファイルなどは、電子機器１１０がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

入力／出力インタフェース２１４は、入力／出力装置２１５とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を、出力装置は、ディスプレイ、スピーカ、触覚フィードバックデバイスなどのような装置を含んでよい。他の例として、入力／出力インタフェース２１４は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２１５は、電子機器１１０と１つの装置で構成されてもよい。また、サーバ１５０の入力／出力インタフェース２２４は、サーバ１５０に接続するかサーバ１５０が含むことのできる入力または出力のための装置（図示せず）とのインタフェースのための手段であってよい。より具体的な例として、電子機器１１０のプロセッサ２１２がメモリ２１１にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ１５０や電子機器１２０が提供するデータを利用して構成されるサービス画面やコンテンツが、入力／出力インタフェース２１４を通じてディスプレイに表示されてよい。

また、他の実施形態において、電子機器１１０およびサーバ１５０は、図２の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図に示す必要はない。例えば、電子機器１１０は、上述した入力／出力装置２１５のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器１１０がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力／出力ポート、振動のための振動器などのような多様な構成要素が、電子機器１１０にさらに含まれるように実現されてよい。

以下では、画像内の文字色と背景色を抽出して提供する方法およびシステムの具体的な実施形態について説明する。

図３は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図であり、図４は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。

本実施形態に係るサーバ１５０は、画像ベースの翻訳サービスを提供するプラットフォームの役割を担うものである。サーバ１５０には、コンピュータで実現された翻訳結果提供システムが構成されてよい。サーバ１５０は、クライアント（ｃｌｉｅｎｔ）である複数の電子機器１１０、１２０、１３０、１４０を対象に画像ベースの翻訳サービスを提供するものであり、電子機器１１０、１２０、１３０、１４０上にインストールされた専用アプリケーションやサーバ１５０と関連するウェブ／モバイルサイトに接続することにより、画像に対する文字検出および翻訳機能を提供してよい。特に、サーバ１５０は、画像内の文字検出領域で抽出された文字色と背景色からなる翻訳結果領域を該当の画像にオーバーレイさせて提供してよい。

サーバ１５０のプロセッサ２２２は、図４に係る翻訳結果提供方法を実行するための構成要素として、図３に示すように、文字検出部３１０、色抽出部３２０、および翻訳結果提供部３３０を含んでよい。実施形態によって、プロセッサ２２２の構成要素は、選択的にプロセッサ２２２に含まれても除外されてもよい。また、実施形態によって、プロセッサ２２２の構成要素は、プロセッサ２２２の機能の表現のために分離されても併合されてもよい。

このようなプロセッサ２２２およびプロセッサ２２２の構成要素は、図４の翻訳結果提供方法が含む段階Ｓ４１０～Ｓ４３０を実行するようにサーバ１５０を制御してよい。例えば、プロセッサ２２２およびプロセッサ２２２の構成要素は、メモリ２２１が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。

ここで、プロセッサ２２２の構成要素は、サーバ１５０に記録されたプログラムコードが提供する命令にしたがってプロセッサ２２２によって実行される、互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、サーバ１５０が画像から文字を検出するように上述した命令にしたがってサーバ１５０を制御するプロセッサ２２２の機能的表現として、文字検出部３１０が利用されてよい。

プロセッサ２２２は、サーバ１５０の制御と関連する命令がロードされたメモリ２２１から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、プロセッサ２２２が以下で説明する段階Ｓ４１０～Ｓ４３０を実行するように制御するための命令を含んでよい。以下で説明する段階Ｓ４１０～Ｓ４３０は、図４に示した順とは異なる順に実行されることもあるし、段階Ｓ４１０～Ｓ４３０のうちの一部が省略されたり追加の過程が含まれたりすることもある。

以下で説明する実施形態では、図４の翻訳結果提供方法がサーバ１５０側で実行されるものと説明しているが、これに限定されてはならず、翻訳結果提供方法が含む段階Ｓ４１０～Ｓ４３０のうちの少なくとも一部が電子機器１１０で実行されることも可能である。

図４を参照すると、段階Ｓ４１０で、文字検出部３１０は、電子機器１１０がアップロードした画像を対象に、画像内から文字に該当する領域（以下、「文字検出領域」とする）を検出してよい。プロセッサ２２２は、画像ベースの文字翻訳機能を提供するものであって、ＯＣＲ（ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅａｄｅｒ）のような文字認識技術を利用して画像内から翻訳対象となる文字部分を検出してよい。文字検出部３１０は、画像内の文字部分を四角形の枠領域で指定してよく、このとき、文字検出領域に対する画像上の座標値を含む文字枠情報を出力してよい。例えば、文字枠情報は、左上座標、右上座標、左下座標、右下座標を含んでよい。

他の例として、上述した文字検出機能が電子機器１１０で実行されるときに、文字検出部３１０は、電子機器１１０から、画像とともに文字検出結果として文字枠情報を受信してよい。

段階Ｓ４２０で、色抽出部３２０は、文字検出領域から、文字を代表する色（以下、「文字代表色」とする）と背景を代表する色（以下、「背景代表色」とする）を抽出してよい。色抽出部３２０は、画像内の特定の領域、すなわち、文字検出領域に対する一連の画像プロセス過程により、最適な文字代表色と背景代表色を導き出してよい。色抽出部３２０には画像と該当の画像内の文字検出領域の座標が入力され、色抽出対象領域として該当の座標の領域を調査しながら文字代表色と背景代表色を抽出してよい。具体的な色抽出過程については、以下で詳しく説明する。

段階Ｓ４３０で、翻訳結果提供部３３０は、画像内の文字に対する翻訳結果が含まれた領域（以下、「翻訳結果領域」とする）を該当の画像の上にオーバーレイさせて提供してよい。翻訳結果提供部３３０は翻訳エンジンを含んでよく、翻訳エンジンを利用して、画像から検出された文字を事前に定められた翻訳言語に翻訳してよい。このとき、翻訳エンジンは、統計による機械翻訳またはニューラルネットワークによる機械翻訳を提供するものであってよく、ディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）などの機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）方式で学習して形成されたものであってよい。実施形態によっては、サーバ１５０と連動可能な他のサーバ（一例として、サーバ１６０）で翻訳を実行することも可能であるが、この場合、画像から検出された文字に対する翻訳の要請がサーバ１６０に伝達されてよく、サーバ１６０はサーバ１６０に含まれた翻訳エンジンによって翻訳を行った後、翻訳結果を翻訳結果提供部３３０に提供してよい。翻訳結果提供部３３０は、原本画像の上に翻訳結果領域をオーバーレイさせてよく、これにより、電子機器１１０のユーザは、翻訳結果領域が含まれた画像を確認することができる。

特に、翻訳結果提供部３３０は、画像の上に翻訳結果領域をオーバーレイさせて表示するにあたり、段階Ｓ４２０で抽出された文字代表色と背景代表色を翻訳結果領域の文字色と背景色に適用してよい。翻訳結果提供部３３０は、画像内の文字検出領域の文字を代表する色と背景を代表する色を、画像の上にオーバーレイさせる翻訳結果領域の文字色と背景色として利用してよい。

一例として、図５を参照すると、色抽出部３２０には、画像５００に対する画像ファイルと文字検出領域５０１の座標値を含む文字枠情報が入力されてよく、このとき、文字枠情報に基づいて画像５００内の文字検出領域５０１を調査し、一連の画像処理によって文字代表色と背景代表色を抽出してよい。これにより、翻訳結果提供部３３０は、画像５００の上にオーバーレイされる翻訳結果領域５０２の文字色と背景色を、文字検出領域５０１から抽出された文字代表色と背景代表色で表示してよい。画像５００にオーバーレイされる翻訳結果領域５０２は、文字および背景色と同じように、その位置と大きさも文字検出領域５０１と同じように構成されてよい。

したがって、翻訳結果提供部３３０は、原本画像５００と最も類似する（文字と背景）色を翻訳結果領域５０２に適用することにより、翻訳結果領域５０２に対する違和感を最小限にすることができる。

他の例として、上述した翻訳結果提供機能が電子機器１１０で実行されるときには、電子機器１１０は、サーバ１５０から、翻訳結果とともに文字代表色と背景代表色を受信して翻訳結果領域を画像の上にオーバーレイさせるが、翻訳結果領域に文字代表色と背景代表色を適用して表示してよい。

図６は、本発明の一実施形態における、色抽出過程の具体的な例を示した図である。

図６を参照すると、色抽出部３２０には、画像５００に対して、画像ファイル６０１と文字検出領域５０１の座標値を含む文字枠情報６０２とが入力されてよい。

色抽出部３２０は、画像ファイル６０１から色抽出のための領域を探索するものであって、文字枠情報６０２に基づいて文字検出領域５０１を探索してよい（Ｓ６１）。ユーザが入力した画像ファイル６０１と文字枠情報６０２が色抽出部３２０に入力され、文字枠情報６０２に対応する文字検出領域５０１を色抽出が必要な関心領域として設定してよい。このとき、色抽出部３２０は、画像透視変換（ｉｍａｇｅｐｅｒｓｐｅｃｔｉｖｅｔｒａｎｓｆｏｒｍ）アルゴリズムを利用して文字検出領域５０１を長方形状に変換してよい。透視変換アルゴリズムは、傾きや捩じれのある領域を所望する形状（例えば、長方形状）に変換するコンピュータビジョンアルゴリズムに該当するものである。

色抽出部３２０は、文字検出領域５０１を対象に３Ｄヒストグラムを抽出してよい（Ｓ６２）。従来の２Ｄヒストグラムは、それぞれの色成分（Ｒ、Ｇ、Ｂ）に対して計算を行うため、色の組み合わせの分布を把握するのには不適であるが、３Ｄヒストグラムは、色の組み合わせが１つの要素となり、その個数が総合される。例えば、図７に示すように、色抽出部３２０は、文字検出領域５０１のすべてのピクセルに対して色の組み合わせに対するヒストグラムを抽出してよい。

実施形態によっては、色抽出部３２０は、３Ｄヒストグラムを抽出するときの計算量を減らすために、すべてのピクセル値を特定の倍数に量子化（ｑｕａｎｔｉｚａｔｉｏｎ）して処理してよい。例えば、Ｒ：１２３、Ｇ：２３４、Ｂ：５であるピクセルのヒストグラムを求めるとき、Ｒ：１２３、Ｇ：２３４、Ｂ：５をＲ：１２４、Ｇ：２３６、Ｂ：８のように４の倍数単位に変更してよい。これにより、量子化を経る場合にヒストグラムを抽出するための計算量と時間を短縮することができる。

再び図６を参照すると、色抽出部３２０は、文字検出領域５０１内に分布するすべての色のうちから優勢となる２つの基本色を抽出してよい（Ｓ６３）。一例として、図８を参照すると、色抽出部３２０は、Ｋ－平均（ｍｅａｎ）アルゴリズムを利用して、文字検出領域５０１に該当する原本画像の色分布を２つの色にクラスタリングしてよい。クラスタリング結果として文字検出領域５０１の原本画像と同じ大きさの画像が生成され、該当の画像には一種のラベル（ｌａｂｅｌ）値が含まれる。２つの色にクラスタリングする場合、１または２のラベルが含まれる。

色抽出部３２０は、２つの基本色のうちの１つを背景基本色として選定し、残りの１つを文字基本色として選定してよい。一例として、図９を参照すると、色抽出部３２０は、文字検出領域５０１をなす四面のフレーム領域９１を検索しながら、ラベルが１であるピクセルの数とラベルが２であるピクセルの数をそれぞれ合算する。このとき、ピクセルの１つの大きさのフレーム領域９１を検索することはもちろん、事前に定められた大きさ、すなわち、２つ以上のピクセルの大きさのフレーム領域９１を検索することも可能である。文字検出領域５０１をなす四面のフレーム領域９１を検索することの他に、四面のうちの一部のフレーム領域（例えば、左上、左下、右上、右下など）を検索することも可能である。色抽出部３２０は、合算されたピクセルの数がより多いラベルの色を背景基本色として選定し、残りを文字基本色として選定してよい。文字検出領域５０１のフレーム領域９１を検索して背景基本色を選定する理由は、フレーム領域９１には文字に該当するピクセルよりも背景に該当するピクセルの数が多いと予測されるためである。フレーム領域９１に最も多く分布する色を背景基本色として選定する方法の他にも、フレーム領域９１内の事前に定められた特定の位置のピクセルの色を背景基本色として選定することも可能である。例えば、図１０に示すように、フレーム領域９１のうちの左枠の最初のピクセル１０２の色を背景基本色として選定してもよい。また、フレーム領域９１のうちの右枠の最初のピクセル、左枠の最後のピクセル、右枠の最後のピクセル、上枠の中央のピクセル、下枠の中央のピクセルなどの色を背景基本色として選定してもよい。

再び図６を参照すると、色抽出部３２０は、段階６２で抽出されたヒストグラムを整列してよい（Ｓ６４）。図１１に示すように、色抽出部３２０は、３Ｄヒストグラムを大きさ順に整列してよく、このとき、整列されたヒストグラムは、文字色用ヒストグラムと背景色用ヒストグラムとして利用されてよい。

再び図６を参照すると、色抽出部３２０は、段階Ｓ６３で抽出された基本色と段階Ｓ６４で整列されたヒストグラムに基づき、背景代表色と文字代表色を選定してよい（Ｓ６５）。色抽出部３２０は、段階Ｓ６４で整列されたヒストグラムと段階Ｓ６３で抽出された基本色を使用して色距離（ｃｏｌｏｒｄｉｓｔａｎｃｅ）値を求め、これに基づいて最善の色を選択してよい。一例として、色距離を求める方法としてユークリッド方法を利用してよく、ユークリッド方法によってヒストグラムの色の組み合わせと基本色との距離を求めてよい。

図１２に示すように、色抽出部３２０は、文字基本色と背景基本色それぞれに対し、ヒストグラムの整列順にヒストグラムの色の組み合わせと基本色との距離を計算する。色抽出部３２０は、文字基本色との距離が最も短いか事前に定められた閾値（ｔｈｒｅｓｈｏｌｄ）（例えば、４０）以下のピクセルの色１２１を文字代表色として選定し、背景基本色との距離が最も短いか閾値以下のピクセルの色１２２を背景代表色として選定してよい。代表色の特性は、画像内で多くの色分布を示し、基本色と類似の色を有する。基本色との距離が閾値以下のピクセルが見つからない場合は閾値を増加させ、上述した過程を再度実行する。

したがって、色抽出部３２０は、文字検出領域の原本画像に対するヒストグラムと支配的な基本色を利用することにより、該当の画像に最適な文字代表色と背景代表色を得ることができる。

本発明に係る色抽出方法は、与えられた画像内の文字を翻訳して提供する環境の他にも、多様な環境での活用可能である。一例として、電子機器１１０で撮影中のリアルタイム映像内の文字を翻訳し、適した色を探索して翻訳結果の上にオーバーレイさせてよい。他の例として、画像オブジェクトの代表となる色を探索し、該当のオブジェクトと関連するＵＩ（ｕｓｅｒｉｎｔｅｒｆａｃｅ）を構成する色として活用してよい。例えば、電子機器１１０の画面に表示されるアイコンの代表となる色を探索し、背景テーマ色などとして活用してよい。このとき、アイコンの代表となる２つの色により、アイコンの外郭領域と類似する色とそうでない色が抽出されてよい。また他の例として、本発明に係る色抽出方法は、動画内の場面の変わり目を感知するための用途として活用されてもよい。例えば、以前フレームと現在フレームそれぞれから代表色を抽出し、フレームの代表色の差が一定の大きさ以上になる場合に場面が切り換わったと判断してよい。さらに、代表色を抽出する方法によって場面の変わり目として判断される時点を、付加コンテンツ（例えば、広告など）の挿入位置として設定してよい。

このように、本発明の実施形態によると、画像内の文字に対する翻訳結果を該当の画像にオーバーレイさせて提供するにあたり、文字検出領域から文字代表色と背景代表色を抽出し、抽出された文字代表色と背景代表色を翻訳結果領域の文字と背景に適用することにより、画像上の翻訳結果領域に対する違和感を最小限にすることができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

２２２：プロセッサ
３１０：文字検出部
３２０：色抽出部
３３０：翻訳結果提供部

Claims

コンピュータシステムが実行する方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記方法は、
前記少なくとも１つのプロセッサが、与えられた画像内で文字が含まれた第１領域を検出する段階、
前記少なくとも１つのプロセッサが、前記第１領域で前記文字を代表する文字代表色と前記第１領域の背景を代表する背景代表色を抽出する段階、および
前記少なくとも１つのプロセッサが、前記文字に対する翻訳結果が含まれた第２領域を前記画像の上にオーバーレイさせるが、このとき、前記第２領域の文字色と背景色として前記文字代表色と前記背景代表色を適用する段階
を含み、
前記抽出する段階は、
前記第１領域の各ピクセルに対するヒストグラムを抽出する段階、
前記第１領域の色分布に基づき文字基本色を抽出する段階、および
前記第１領域の各ピクセルに対する前記ヒストグラムと前記文字基本色との距離値に基づき前記文字代表色を選定する段階、
を含む、方法。
前記検出する段階は、
ＯＣＲを利用して前記第１領域を検出する、請求項１に記載の方法。
前記第１領域で前記文字を代表する前記文字代表色と前記第１領域の背景を代表する前記背景代表色を抽出する段階は、
前記第１領域の前記色分布に基づき背景基本色を抽出する段階、および
前記第１領域の各ピクセルに対する前記ヒストグラムと前記背景基本色との距離値に基づき前記背景代表色を選定する段階
を含む、請求項１に記載の方法。
前記第１領域で前記文字を代表する前記文字代表色と前記第１領域の背景を代表する前記背景代表色を抽出する段階は、
画像透視変換アルゴリズムを利用して前記第１領域を一定の形態に変換する段階
をさらに含む、請求項１に記載の方法。
前記第１領域で前記文字を代表する前記文字代表色と前記第１領域の背景を代表する前記背景代表色を抽出する段階は、
前記ヒストグラムを大きさ順に整列する段階
をさらに含む、請求項１に記載の方法。
前記ヒストグラムを抽出する段階は、
前記第１領域の各ピクセルに対して色成分の組み合わせによる３Ｄヒストグラムを抽出する段階
を含む、請求項１に記載の方法。
前記ヒストグラムを抽出する段階は、
前記第１領域のすべてのピクセル値を特定の倍数に量子化する段階
を含む、請求項１に記載の方法。
前記文字基本色を抽出する段階と前記背景基本色を抽出する段階は、
Ｋ－平均アルゴリズムを利用して前記第１領域の前記色分布を２つの色にクラスタリングする段階、
前記第１領域のフレーム領域を対象に前記２つの色の色ごとにピクセルの数を合算する段階、および
前記２つの色のうちでピクセルの数が多い色を前記背景基本色として選定し、残りの色を前記文字基本色として選定する段階
を含む、請求項３に記載の方法。
前記文字代表色を選定する段階と前記背景代表色を選定する段階は、
前記文字基本色との距離値が閾値以下のピクセルの色を前記文字代表色として選定する段階、および
前記背景基本色との距離値が前記閾値以下のピクセルの色を前記背景代表色として選定する段階
を含む、請求項３に記載の方法。
前記文字代表色を選定する段階と前記背景代表色を選定する段階は、
前記閾値以下のピクセルが存在しない場合、前記閾値を増加させる段階
を含む、請求項９に記載の方法。
前記方法は、
前記少なくとも１つのプロセッサが、画像オブジェクトの代表色を抽出し、前記画像オブジェクトと関連するＵＩを構成する色として適用する段階
をさらに含む、請求項１に記載の方法。
前記方法は、
前記少なくとも１つのプロセッサが、アイコンの代表色を抽出し、背景テーマ色として適用する段階
をさらに含む、請求項１に記載の方法。
前記方法は、
前記少なくとも１つのプロセッサが、動画に対して以前フレームと現在フレームそれぞれから代表色を抽出し、前記以前フレームの代表色と前記現在フレームの代表色との差によって場面の変わり目を感知する段階
をさらに含む、請求項１に記載の方法。
請求項１～１３のうちのいずれか一項に記載の方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
与えられた画像内で文字が含まれた第１領域を検出する文字検出部、
前記第１領域で前記文字を代表する文字代表色と前記第１領域の背景を代表する背景代表色を抽出する色抽出部、および
前記文字に対する翻訳結果が含まれた第２領域を前記画像の上にオーバーレイさせるが、このとき、前記第２領域の文字色と背景色として前記文字代表色と前記背景代表色を適用して提供する翻訳結果提供部
を含み、
前記色抽出部は、
前記第１領域の各ピクセルに対するヒストグラムを抽出し、
前記第１領域の色分布に基づき文字基本色を抽出し、
前記第１領域の各ピクセルに対する前記ヒストグラムと前記文字基本色との距離値に基づき前記文字代表色を選定する、
コンピュータシステム。
前記色抽出部は、
前記第１領域の前記色分布に基づき背景基本色を抽出し、
前記第１領域の各ピクセルに対する前記ヒストグラムと前記背景基本色との距離値に基づき前記背景代表色を選定する
請求項１５に記載のコンピュータシステム。
前記色抽出部は、
前記第１領域の各ピクセルに対して色成分の組み合わせによる３Ｄヒストグラムを抽出する
請求項１５に記載のコンピュータシステム。
前記色抽出部は、
前記第１領域のすべてのピクセル値を特定の倍数に量子化する
請求項１５に記載のコンピュータシステム。
前記色抽出部は、
Ｋ－平均アルゴリズムを利用して前記第１領域の色分布を２つの色にクラスタリングし、
前記第１領域のフレーム領域を対象に前記２つの色の色ごとにピクセルの数を合算し、
前記２つの色のうちでピクセルの数が多い色を前記背景基本色として選定し、残りの色を前記文字基本色として選定する
請求項１６に記載のコンピュータシステム。
前記色抽出部は、
前記文字基本色との距離値が閾値以下のピクセルの色を前記文字代表色として選定し、
前記背景基本色との距離値が前記閾値以下のピクセルの色を前記背景代表色として選定する
請求項１６に記載のコンピュータシステム。