JP7329281B1

JP7329281B1 - 情報処理装置、方法、プログラム、およびシステム

Info

Publication number: JP7329281B1
Application number: JP2022123560A
Authority: JP
Inventors: 顕曽佐
Original assignee: 株式会社オレンジ
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2023-08-18
Anticipated expiration: 2042-08-02
Also published as: JP2024021066A; JP2024020975A

Abstract

【課題】翻訳コミックの作成業務を効率化する。【解決手段】本開示の一態様のプログラムは、コンピュータを、第１コミック画像からテキストが記載された領域であるテキスト領域を特定する手段、第１コミック画像において、特定されたテキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第１テキスト領域が、前記第１コミック画像に応じた第１画素群に置き換わった第２コミック画像を生成する手段、第２コミック画像に、対象テキストの翻訳結果である翻訳テキストを配置し、第３コミック画像を生成する手段、として機能させる。【選択図】図４

Description

本開示は、情報処理装置、方法、プログラム、およびシステムに関する。

ある言語で作成されたコミックを、他の言語使用者に提供するために、翻訳コミックを作成することがある。質の高い翻訳コミックを作成するにあたり、文章の翻訳に加え、写植作業のやり直しおよびそれに伴う背景の補完等を行う必要がある。コミックに含まれる文章は膨大であり、これらの作業を全て人力で行うことは非効率である。

特許文献１には、原文を翻訳して翻訳文を生成し、検出された吹出部の範囲に基づいて、原文削除漫画の吹出部に当該翻訳文を挿入して翻訳漫画を生成する技術が開示されている。

特開2003-022269号公報

コミックは、絵と文字との高度な融合である。また、言語間で、文字の記載順序（縦書き、横書き）、および同等の情報量を表現するために必要な文字数、などが異なり得る。故に、コミックに含まれる文字列を単に翻訳して置き換えただけでは、制作者の意図した表現との乖離が生じ、翻訳コミックの品質が低下するおそれがある。

特許文献１に記載の技術では吹出部に翻訳文を挿入している。しかしながら、コミックは吹き出しの外に配置される文字列を含む場合があり、かかる文字列に対して当該技術をそのまま適用することはできない。

本開示の目的は、翻訳コミックの作成業務を効率化することである。

本開示の一態様のプログラムは、コンピュータを、第１コミック画像からテキストが記載された領域であるテキスト領域を特定する手段、第１コミック画像において、特定されたテキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第１テキスト領域が、第１コミック画像に応じた第１画素群に置き換わった第２コミック画像を生成する手段、第２コミック画像に、対象テキストの翻訳結果である翻訳テキストを配置し、第３コミック画像を生成する手段、として機能させる。

本実施形態の情報処理システムの構成を示すブロック図である。本実施形態のクライアント装置の構成を示すブロック図である。本実施形態のサーバの構成を示すブロック図である。本実施形態の一態様の説明図である。本実施形態のテキストデータベースのデータ構造を示す図である。本実施形態の情報処理のフローチャートである。本実施形態の情報処理において取得される入力コミック画像の例を示す図である。本実施形態の情報処理において取得される中間コミック画像の例を示す図である。本実施形態の情報処理において取得される出力コミック画像の例を示す図である。変形例１の辞書データベースのデータ構造を示す図である。変形例１の情報処理のフローチャートである。

以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。

（１）情報処理システムの構成
情報処理システムの構成について説明する。図１は、本実施形態の情報処理システムの構成を示すブロック図である。

図１に示すように、情報処理システム１は、クライアント装置１０と、サーバ３０とを備える。
クライアント装置１０及びサーバ３０は、ネットワーク（例えば、インターネット又はイントラネット）ＮＷを介して接続される。

クライアント装置１０は、サーバ３０にリクエストを送信する情報処理装置の一例である。クライアント装置１０は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。クライアント装置１０は、例えば、以下のユーザによって使用され得る。
・コミックの出版者（出版会社の構成員を含む）
・コミックの翻訳者（翻訳会社の構成員を含む）
・コミックの制作者（制作会社の構成員を含む）
・コミックの取次者（出版取次会社または電子取次会社の構成員を含む）

サーバ３０は、クライアント装置１０から送信されたリクエストに応じたレスポンスをクライアント装置１０に提供する情報処理装置の一例である。サーバ３０は、例えば、サーバコンピュータである。

（１－１）クライアント装置の構成
クライアント装置の構成について説明する。図２は、本実施形態のクライアント装置の構成を示すブロック図である。

図２に示すように、クライアント装置１０は、記憶装置１１と、プロセッサ１２と、入出力インタフェース１３と、通信インタフェース１４とを備える。クライアント装置１０は、ディスプレイ２１に接続される。

記憶装置１１は、プログラム及びデータを記憶するように構成される。記憶装置１１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

プログラムは、例えば、以下のプログラムを含む。
・ＯＳ（Operating System）のプログラム
・情報処理を実行するアプリケーション（例えば、ウェブブラウザ、翻訳コミック作成支援用のアプリケーション）のプログラム

データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ（つまり、情報処理の実行結果）

プロセッサ１２は、記憶装置１１に記憶されたプログラムを起動することによって、クライアント装置１０の機能を実現するコンピュータである。プロセッサ１２は、例えば、以下の少なくとも１つである。
・ＣＰＵ（Central Processing Unit）
・ＧＰＵ（Graphic Processing Unit）
・ＡＳＩＣ（Application Specific Integrated Circuit）
・ＦＰＧＡ（Field Programmable Array）

入出力インタフェース１３は、クライアント装置１０に接続される入力デバイスから情報（例えばユーザの指示）を取得し、かつ、クライアント装置１０に接続される出力デバイスに情報（例えば画像信号）を出力するように構成される。

入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ２１、スピーカ、又は、それらの組合せである。

通信インタフェース１４は、クライアント装置１０と外部装置（例えばサーバ３０）との間の通信を制御するように構成される。

ディスプレイ２１は、画像（静止画、または動画）を表示するように構成される。ディスプレイ２１は、例えば、液晶ディスプレイ、または有機ＥＬディスプレイである。

（１－２）サーバの構成
サーバの構成について説明する。図３は、本実施形態のサーバの構成を示すブロック図である。

図３に示すように、サーバ３０は、記憶装置３１と、プロセッサ３２と、入出力インタフェース３３と、通信インタフェース３４とを備える。

記憶装置３１は、プログラム及びデータを記憶するように構成される。記憶装置３１は、例えば、ＲＯＭ、ＲＡＭ、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

プログラムは、例えば、以下のプログラムを含む。
・ＯＳのプログラム
・情報処理を実行するアプリケーションのプログラム

データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果

プロセッサ３２は、記憶装置３１に記憶されたプログラムを起動することによって、サーバ３０の機能を実現するコンピュータである。プロセッサ３２は、例えば、以下の少なくとも１つである。
・ＣＰＵ
・ＧＰＵ
・ＡＳＩＣ
・ＦＰＧＡ

入出力インタフェース３３は、サーバ３０に接続される入力デバイスから情報（例えばユーザの指示）を取得し、かつ、サーバ３０に接続される出力デバイスに情報（例えば画像信号）を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。

通信インタフェース３４は、サーバ３０と外部装置（例えばクライアント装置１０）との間の通信を制御するように構成される。

（２）実施形態の一態様
本実施形態の一態様について説明する。図４は、本実施形態の一態様の説明図である。

図４に示すように、サーバ３０は、コミック画像Ｃ１０を取得する。図４の例では、コミック画像Ｃ１０は１コマ分の画像であるが、サーバ３０は任意の単位（例えば、任意の数のコマ、ページ、話、または巻）分の画像を取得可能である。コミック画像Ｃ１０は、翻訳前の言語（以下、「原言語」という）のテキストＴ１０ａ，Ｔ１０ｂが記載されたテキスト領域を含む。

サーバ３０は、コミック画像Ｃ１０からテキスト領域を特定する。各テキスト領域は、オブジェクト（例えばテキストボックスなどのテキストオブジェクト）として特定される。テキストオブジェクトは、例えばオブジェクトの属性情報（例えば、位置（座標）、傾き、サイズ、および形状、など）に加えて、テキストの情報（例えばテキストの内容、およびテキストの書式、など）を含むことができる。

サーバ３０は、特定したテキスト領域のうち、翻訳テキストによって置き換えられる対象となる（言い換えると、コミック画像Ｃ１０の翻訳版を作成する過程で削除される対象となる）テキストＴ１０ａ，Ｔ１０ｂ（「対象テキスト」の例）が記載されたテキスト領域が別の画素群に置き換わったコミック画像Ｃ１１を生成する。サーバ３０は、コミック画像Ｃ１０に基づいて、コミック画像Ｃ１１を生成する。一例として、サーバ３０は、後述する学習済みモデルをコミック画像Ｃ１０に基づく入力データに適用することで、コミック画像Ｃ１１を生成する。この学習済みモデルは、例えば、テキスト領域が取り除かれる前のコミック画像に基づく学習用の入力データと、当該テキスト領域を取り除いた後に存在すると予想される背景を人間が例えば画像編集アプリケーションを操作して補完することで作成されたコミック画像に基づく教師データとを含む学習データセットを用いた教師あり学習により構築され得る。

コミック画像Ｃ１１では、コミック画像Ｃ１０のテキストＴ１０ａ，Ｔ１０ｂが記載されたテキスト領域に対応する部分が、単なる空白等ではなく、コミック画像Ｃ１０に応じた画素群に置き換わっている。故に、コミック画像Ｃ１１は、コミック画像Ｃ１０が有していた絵としての品質を維持できる。例えば、読者が、画素群を単体で、またはその周囲の画素とともに見た場合に、違和感を覚えにくい。

サーバ３０は、コミック画像Ｃ１１に、テキストＴ１０ａ，Ｔ１０ｂの翻訳結果（機械翻訳または人による翻訳結果）である翻訳テキストＴ１２ａ，Ｔ１２ｂを配置することで、コミック画像Ｃ１２を生成する。サーバ３０は、テキストＴ１０ａ，Ｔ１０ｂが記載されたテキスト領域の位置に基づいて、翻訳テキストＴ１２ａ，Ｔ１２ｂの配置を決定する。一例として、サーバ３０は、テキストＴ１０ａ，Ｔ１０ｂが記載されたテキスト領域（オブジェクト）の持つ位置情報を、翻訳テキストＴ１２ａ，Ｔ１２ｂが記載されたテキスト領域の位置情報として引き継がせるが、両者を完全に一致させる必要はない。

このように、本実施形態のサーバ３０は、コミック画像Ｃ１０のうち翻訳テキストによって置き換えられる対象となるテキストＴ１０ａ，Ｔ１０ｂが記載されたテキスト領域が当該コミック画像Ｃ１０に応じた画素群に置き換わったコミック画像Ｃ１１を生成する。そして、サーバ３０は、コミック画像Ｃ１１に、テキストＴ１０ａ，Ｔ１０ｂの翻訳結果である翻訳テキストＴ１２ａ，Ｔ１２ｂを配置することで、コミック画像Ｃ１２を生成する。これにより、コミック画像Ｃ１２において、コミック画像Ｃ１０ではテキストＴ１０ａ，Ｔ１０ｂによって遮蔽されていた画素が、翻訳テキストＴ１２ａ，Ｔ１２ｂによって遮蔽されず露出したとしても、当該画素は読者に違和感を与えにくい。つまり、サーバ３０によれば、オリジナルのコミックではテキストによって遮蔽されていたが翻訳コミックでは翻訳テキストによって遮蔽されず露出する部分が生じたとしても、当該部分が人の手を要することなく自動的に補完されるので、翻訳コミックの作成業務を効率化することができる。

（３）データベース
本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置３１に記憶される。

（３－１）テキストデータベース
本実施形態のテキストデータベースについて説明する。図５は、本実施形態のテキストデータベースのデータ構造を示す図である。

テキストデータベースには、テキスト情報を表すレコードが登録される。テキスト情報は、翻訳前のコミック作品に登場するテキスト（以下、原テキストという）に関する情報である。
テキストデータベースは、コミック作品毎に構築されてもよいし、複数のコミック作品に亘って構築されてもよい。

図５に示すように、テキストデータベースは、「テキストＩＤ」フィールドと、「登場ページ」フィールドと、「原テキスト」フィールドと、「翻訳テキスト」フィールドと、「書式」フィールドと、「配置態様」フィールドと、「置換対象」フィールドと、を含む。各フィールドは、互いに関連付けられている。

「テキストＩＤ」フィールドには、テキストＩＤが格納される。テキストＩＤは、レコードに対応する原テキストを識別する情報である。

「登場ページ」フィールドには、登場ページ情報が格納される。登場ページ情報は、レコードに対応する原テキストが記載されているページに関する情報である。

「原テキスト」フィールドには、原テキスト情報が格納される。原テキスト情報は、レコードに対応する原テキストの内容を示す。

「翻訳テキスト」フィールドには、翻訳テキスト情報が格納される。翻訳テキスト情報は、レコードに対応する原テキストの翻訳結果の内容を示す。

「書式」フィールドには、書式情報が格納される。書式情報は、レコードに対応する原テキストの書式に関する情報である。テキストの書式については後述する。なお、各レコードには、レコードに対応する原テキストの翻訳テキストの書式に関する情報も格納されてよい。

「配置態様」フィールドには、配置態様情報が格納される。配置態様情報は、レコードに対応する原テキストの配置態様に関する情報である。テキストの配置態様については後述する。なお、各レコードには、レコードに対応する原テキストの翻訳テキストの配置態様に関する情報も格納されてよい。

「置換対象」フィールドには、置換対象フラグが格納される。置換対象フラグは、レコードに対応する原テキストが後述する対象テキストであるか否かを示す。

（４）情報処理
本実施形態の情報処理について説明する。図６は、本実施形態の情報処理のフローチャートである。図７は、本実施形態の情報処理において取得される入力コミック画像の例を示す図である。図８は、本実施形態の情報処理において取得される中間コミック画像の例を示す図である。図９は、本実施形態の情報処理において取得される出力コミック画像の例を示す図である。

本実施形態の情報処理は、例えばクライアント装置１０がユーザ（一例としてコミックの出版者）からの指示に基づいてサーバ３０に出力コミック画像の生成を要求することで、開始し得る。

図６に示すように、サーバ３０は、コミック画像の取得（Ｓ１３０）を実行する。
具体的には、サーバ３０は、入力コミック画像を取得する。入力コミック画像は、例えば第１言語（原言語）で作成されたコミックを構成する。サーバ３０は、クライアント装置１０から送信された入力コミック画像を受信してもよいし、記憶装置３１に予め保存されている入力コミック画像を読み出してもよいし、外部装置（例えばスキャナ）に保存されている入力コミック画像の送信を要求してもよい。

一例として、サーバ３０は、図７に示す入力コミック画像Ｃ２０を取得する。図７の入力コミック画像Ｃ２０は、１ページ分の画像に相当する。入力コミック画像Ｃ２０は、コマ割りされた絵と、テキストＴ２１～Ｔ２８と、吹き出し領域Ｂ２４，Ｂ２７とを含む。

テキストＴ２１，Ｔ２２，Ｔ２５，Ｔ２８は、標準的なフォントで、吹き出し外（例えばキャラクタまたは背景等の絵の上）に配置されている。かかるテキストは、典型的には、キャプション、またはキャラクタの思考もしくは台詞、または効果音等を表現する。

テキストＴ２３，Ｔ２６は、装飾的もしくは独特の種類、または基準値を超える大きさのフォント（つまり標準的でないフォント）で、吹き出し外に配置されている。かかるテキストは、典型的には効果音またはオノマトペ等を表現する。

テキストＴ２４，Ｔ２７はそれぞれ、吹き出し領域Ｂ２４，Ｂ２７によって囲われている。かかるテキストは、典型的にはキャラクタの台詞または思考等を表現する。

ステップＳ１３０の後に、サーバ３０は、テキスト領域の特定（Ｓ１３１）を実行する。
具体的には、サーバ３０は、ステップＳ１３０において取得した入力コミック画像に対して画像解析を行い、テキスト領域を特定する。図７の例では、サーバ３０は、テキストＴ２１～Ｔ２８が記載されている領域をそれぞれ特定する。なお、画像解析は、学習済みモデルによる推論の実行を含み得る。

ステップＳ１３１の後に、サーバ３０は、吹き出し領域の特定（Ｓ１３２）を実行する。
具体的には、サーバ３０は、ステップＳ１３０において取得した入力コミック画像に対して画像解析を行い、吹き出し領域を特定する。なお、画像解析は、学習済みモデルによる推論の実行を含み得る。一例として、サーバ３０は、入力コミック画像に対してエッジ検出を行い、エッジによって形成される閉領域を吹き出し領域として特定してもよい。また、サーバ３０は、ステップＳ１３１において特定したテキスト領域の周囲に探索範囲を制限してもよい。図７の例では、サーバ３０は、吹き出し領域Ｂ２４，Ｂ２７をそれぞれ特定する。
なお、ステップＳ１３１とステップＳ１３２は、逆の順序で実行されてもよいし、並列的に実行されてもよい。

ステップＳ１３２の後に、サーバ３０は、テキストの解析（Ｓ１３３）を実行する。
具体的には、サーバ３０は、ステップＳ１３１において特定したテキスト領域に記載されているテキストを抽出する。第１例として、サーバ３０は、ＯＣＲ（Optical Character Recognition）（ＡＩＯＣＲを含み得る）処理を行うことで、テキストを抽出してもよい。第２例として、サーバ３０は、入力コミック画像に基づく入力データに学習済みモデルを適用することで、テキストを抽出してもよい。つまり、例えば、コミック画像に基づく学習用の入力データと、当該コミック画像に含まれるテキストに基づく教師データとを含む学習データセットを用いた教師あり学習により構築され得る。かかる学習済みモデルによれば、例えばＯＣＲ処理では抽出が困難な、特殊なフォントで記載されたテキスト、描き文字に相当するテキスト、などが抽出可能となる。

サーバ３０は、抽出したテキストの属性を推定する。テキストの属性は、テキストの書式、テキスト（オブジェクト）の配置態様、テキストのソース、またはそれらの組み合わせを含む。

テキストの書式は、例えば以下の少なくとも１つを含むことができる。
・フォントサイズ
・フォントの種類
・フォントカラー
・行間
・文字間
・横書き／縦書き設定
・装飾（例えば、縁取、塗りつぶし、など）の有無

テキストの配置態様は、例えば以下の少なくとも１つを含むことができる。
・テキストの位置（一例として、テキスト、または当該テキストを構成する文字列もしくは文字の代表点（例えば中心点）の位置）
・テキストの傾き（一例として、テキストを構成する文字の記載方向がコミック画像の上下方向または左右方向に対してどれだけ傾いているか）
・テキストオブジェクトのサイズ
・テキストオブジェクトの形状

テキストのソースは、例えば、抽出したテキストがキャラクタに由来する（例えば、キャラクタの台詞、または思考に相当する）か、または効果音もしくはオノマトペに由来する（つまり、非言語の音、または動きの言語的表現に相当するか）、を表す。このほか、テキストのソースとして、動物の鳴き声に由来するテキスト、説明用のテキスト、等がさらに判別されてよい。

サーバ３０は、解析結果に基づいて、テキストデータベース（図５）に新規レコードを追加する。すなわち、サーバ３０は、新規のテキストＩＤと、入力コミック画像に対応する登場ページ情報と、抽出したテキストに対応する原テキスト情報と、上記推定結果に基づく書式情報および配置態様情報を含むレコードを生成し、テキストデータベースに追加する。

ステップＳ１３３の後に、サーバ３０は、テキスト種別の判定（Ｓ１３４）を実行する。
具体的には、サーバ３０は、ステップＳ１３３において抽出したテキストを、以下のいずれかの種別として判定する。
・翻訳テキストによって置き換えられる対象となるテキスト（以下、「対象テキスト」という）
・翻訳テキストによって置き換えられる対象とならないテキスト（以下、「非対象テキスト」という）

サーバ３０は、判定結果に基づいて、テキストデータベース（図５）において対応するレコードに含まれる置換対象フラグを設定する。

後述するように、対象テキストは、図６の情報処理によって生成される出力コミック画像において維持されない（つまり、対応する翻訳テキストと置き換わる）。他方、非対象テキストは、出力コミック画像において維持される（一例として、対応する翻訳テキストと併存する）。

テキスト種別の判定（Ｓ１３４）の第１例として、サーバ３０は、クライアント装置１０のユーザからの指示に応じて各テキストの種別を判定する。例えば、クライアント装置１０は、サーバ３０から抽出されたテキストの情報を取得し、当該情報に基づく画面をディスプレイ２１に表示する。ユーザは、対象テキストを指定するユーザ指示、または非対象テキストを指定するユーザ指示を、クライアント装置１０に対して行う。

テキスト種別の判定（Ｓ１３４）の第２例として、サーバ３０は、基準値以下のサイズのフォントを使用していると推定されたテキストを、対象テキストとして判定する。サーバ３０は、基準値を超えるサイズのフォントを使用していると推定されたテキストを非対象テキストと判定する。

テキスト種別の判定（Ｓ１３４）の第３例として、サーバ３０は、キャラクタに由来すると推定されたテキストを、対象テキストとして判定する。サーバ３０は、効果音またはオノマトペに由来すると推定されたテキストを非対象テキストと判定する。

テキスト種別の判定（Ｓ１３４）の第４例として、サーバ３０は、基準値以下のサイズのフォントを使用し、かつキャラクタに由来すると推定されたテキストを、対象テキストとして判定する。サーバ３０は、基準値を超えるサイズのフォントを使用し、かつ効果音またはオノマトペに由来すると推定されたテキストを非対象テキストと判定する。

図７の例では、サーバ３０は、テキストＴ２１～Ｔ２２，Ｔ２４～Ｔ２５，Ｔ２７～Ｔ２８を対象テキストと判定する。他方、サーバ３０は、テキストＴ２３，Ｔ２６を非対象テキストと判定する。

ステップＳ１３４の後に、サーバ３０は、中間コミック画像の生成（Ｓ１３５）を実行する。
具体的には、サーバ３０は、ステップＳ１３０において取得した入力コミック画像のうち、ステップＳ１３４において判定した対象テキストが記載されたテキスト領域が別の画素群に置き換わった中間コミック画像を当該入力コミック画像に基づいて生成する。なお、中間コミック画像は、１つの画像（ファイル）であってもよいし、入力コミック画像のうち対象テキストが記載されたテキスト領域の上記画素群が重ねて配置された画像（つまり、レイヤー化された複数の画像）であってもよい。また、サーバ３０は、必要な画素群を生成し、入力コミック画像上に配置することで中間コミック画像を構成してもよいし、生成した画素群と入力コミック画像を１つの画像として合成することで中間コミック画像を生成してもよい。

一例として、サーバ３０は、入力コミック画像に基づく入力データに学習済みモデルを適用することで、中間コミック画像を生成してもよい。ステップＳ１３５において使用可能な学習済みモデルは、テキスト領域の下にコミック画像の一部が描画されていたと仮定した場合に、当該一部を構成する画素群にふさわしい値を、入力コミック画像に基づいて推論する。例えば、テキスト領域が取り除かれる前の学習用のコミック画像に基づく学習用の入力データと、当該テキスト領域を取り除いた後に存在すると予想される背景を人間が例えば画像編集アプリケーションを操作して補完することで作成されたコミック画像に基づく教師データとを含む学習データセットを用いた教師あり学習により構築され得る。或いは、学習用のコミック画像に相当する教師データと、当該コミック画像の一部の領域を別の画素群（例えば、テキスト領域、または空白）に置き換えたコミック画像に基づく学習用の入力データとを含む学習データセットを用いた教師あり学習を行うことでこのような学習済みモデルを構築することができる。なお、学習済みモデルの入出力データは、コミック画像の全体に相当せずともよい。例えば、学習済みモデルの入力データは、テキスト領域の周囲の画素群に限られてもよいし、学習済みモデルの出力データは、テキスト領域を置き換えるための画素群に限られてもよい。

一例として、サーバ３０は、図８に示す中間コミック画像Ｃ３０を生成する。図８の中間コミック画像Ｃ３０は、コマ割りされた絵と、テキストＴ２３，Ｔ２６と、吹き出し領域Ｂ２４，Ｂ２７とを含む。

中間コミック画像Ｃ３０では、入力コミック画像Ｃ２０に含まれていたテキストＴ２１～Ｔ２８のうち非対象テキストと判定されたテキストＴ２３，Ｔ２６が維持されている。他方、中間コミック画像Ｃ３０では、入力コミック画像Ｃ２０に含まれていたテキストＴ２１～Ｔ２８のうち対象テキストと判定されたテキストＴ２１～Ｔ２２，Ｔ２４～Ｔ２５，Ｔ２７～Ｔ２８が記載されていたテキスト領域は、別の画素群に置き換わっている。

ステップＳ１３５の後に、サーバ３０は、翻訳テキストの配置（Ｓ１３７）を実行する。
具体的には、サーバ３０は、ステップＳ１３５において生成した中間コミック画像に対して、ステップＳ１３３において抽出したテキストに対応する翻訳テキストを配置する。これにより、サーバ３０は、出力コミック画像を生成する。

なお、出力コミック画像は、画像（つまり、中間コミック画像）と、当該画像上に配置されたテキストオブジェクトとの組み合わせであってもよい。つまり、出力コミック画像は、翻訳テキストの内容、書式、配置態様等を編集可能な状態で生成されてもよい。この場合に、サーバ３０は、クライアント装置１０のユーザからの指示（例えば作業完了指示）に応じて、画像およびテキストオブジェクトを１つの画像ファイルとして統合してもよい。

サーバ３０は、テキストに対して自ら機械翻訳処理を行うことで翻訳テキストを生成してもよいし、外部装置から翻訳テキストを取得してもよい。外部装置は、サーバ３０からテキストを取得し、当該テキストに対して機械翻訳処理を行ってもよいし、当該テキストを翻訳者に対して提示し当該翻訳者から翻訳テキストの入力を受け付けてもよい。さらに、クライアント装置１０のユーザ（例えば翻訳者）は、配置された翻訳テキストを必要に応じて編集することができる。サーバ３０は、翻訳テキストの生成または編集に応じて、テキストデータベース（図５）における対応するレコードに含まれる翻訳テキスト情報を更新する。

サーバ３０は、翻訳前のテキストの書式または配置態様に基づいて、翻訳テキストの書式または配置態様を制御する。

第１例として、サーバ３０は、翻訳テキストの書式を、当該翻訳テキストに対応する対象テキストの書式と一致させる。また、サーバ３０は、翻訳テキスト（オブジェクト）の位置（画像内の座標）、傾き、またはサイズを、当該翻訳テキストに対応する対象テキスト（オブジェクト）の位置、傾き、またはサイズに基づいて決定する。

第２例として、サーバ３０は、翻訳前のテキストが縦書きの言語（例えば日本語）であって、横書きの言語（例えば英語）のテキストへ翻訳される場合に、翻訳テキストを１文字ずつ、または１単語ずつ縦方向に配置してもよい。これにより、翻訳前のテキストのレイアウトを大きく崩すことなく、翻訳テキストを読みやすい態様で配置することができる。なお、翻訳テキストを１単語ずつ縦方向に配置する例において、サーバ３０は、単語を構成する文字数が閾値を超える場合には、ハイフネーションにより単語を分割することで一行を構成する文字数が過度に多くならないようにしてもよい。

第３例として、サーバ３０は、ステップＳ１３２において特定された吹き出し領域に、対象テキストが記載されたテキスト領域が配置されている場合に、当該対象テキストに対応する翻訳テキストが当該吹き出し領域をはみ出さない範囲で当該翻訳テキストの書式および配置態様を制御する。例えば、サーバ３０は、翻訳テキスト（オブジェクト）が吹き出し領域に収まるように位置およびサイズを設定し、設定されたオブジェクトに翻訳テキストが収まる範囲でフォントサイズを最大化する。ただし、一部の翻訳テキストのフォントサイズが他の翻訳テキストに比べて極端に大きくならないよう、フォントサイズに上限が設けられてよい。

第４例として、上記第３例とは逆に、サーバ３０は、ステップＳ１３２において特定された吹き出し領域に、対象テキストが記載されたテキスト領域が配置されている場合に、当該対象テキストに対応する翻訳テキストが当該吹き出し領域をはみ出すことを許容したうえで当該翻訳テキストの書式および配置態様を制御する。例えば、サーバ３０は、翻訳テキスト（オブジェクト）のサイズが吹き出し領域よりも大きくなるように（例えば、翻訳テキストを記載するテキストボックスが吹き出し領域をはみ出すように）位置およびサイズを設定し、設定されたオブジェクトに翻訳テキストが収まる範囲でフォントサイズを最大化する。これにより、例えばスマートフォンなどの小画面のデバイスでコミックを閲覧する場合にも、翻訳テキストの判読性を確保することができる。

第５例として、サーバ３０は、学習済みモデルを用いて翻訳テキストの書式および配置態様を決定する。この学習済みモデルは、例えば、以下の情報のうち少なくとも１つに基づく入力データに適用され、翻訳テキストの最適な書式または配置態様を推論する。
・入力コミック画像または中間コミック画像
・翻訳前のテキストが記載されたテキスト領域が配置されている吹き出し領域の特定結果
・翻訳前のテキストの属性の推定結果
・翻訳前のテキストの種別の判定結果
・翻訳テキスト
このような学習済みモデルは、例えば、学習用のコミック画像に基づいて生成した学習用の入力データと、当該学習用のコミック画像に含まれる対象テキストに対応する翻訳テキストの書式または配置態様を人間が最適化した結果を示す教師データとを含む学習データセットを用いた教師あり学習を行うことで構築することができる。

一例として、サーバ３０は、図９に示す出力コミック画像Ｃ４０を生成する。図９の出力コミック画像Ｃ４０は、コマ割りされた絵と、テキストＴ２３，Ｔ２６，Ｔ４１～Ｔ４８と、吹き出し領域Ｂ２４，Ｂ２７とを含む。

テキストＴ４１～テキストＴ４８は、それぞれテキストＴ２１～Ｔ２８に対応する翻訳テキストである。

非対象テキストに相当するテキストＴ２３，Ｔ２６は、出力コミック画像Ｃ４０において維持されている。テキストＴ４３，Ｔ４６は、対応するテキストＴ２３，Ｔ２６の周囲に配置される。

サーバ３０は、ステップＳ１３７を以て、図６の情報処理を終了する。
なお、サーバ３０は、図６の情報処理を終了する前に、ステップＳ１３７において生成した出力コミック画像を外部装置（例えばクライアント装置１０）へ送信してもよい。

（５）小括
以上説明したように、本実施形態のサーバ３０は、入力コミック画像からテキスト領域を特定し、入力コミック画像のうち対象テキストが記載されたテキスト領域が入力コミック画像に応じた画素群に置き換わった中間コミック画像を生成し、当該中間コミック画像に翻訳テキストを配置し、出力コミック画像を生成する。これにより、入力コミック画像の翻訳版に相当する出力コミック画像を効率的に作成することができる。また、対象テキストが記載されたテキスト領域が入力コミック画像から取り除かれることにより露出する部分が生じたとしても、当該部分が読者に与える違和感を抑制することができる。

画素群は、入力コミック画像において、対象テキストが記載されたテキスト領域によって遮蔽されていた背景の予測結果に相当してもよい。これにより、周囲の見た目と調和した画素群によりテキスト領域が置き換わるので、読者に与える違和感をいっそう抑制することができる。

サーバ３０は、入力コミック画像に基づく入力データに学習済みモデルを適用することで、中間コミック画像を生成してもよい。これにより、テキスト領域が入力コミック画像の内容にふさわしい画素群に置き換わった中間コミック画像を生成することができる。

サーバ３０は、特定されたテキスト領域に記載されているテキストの属性に基づいて、当該テキストが対象テキストであるか否かを判定してもよい。これにより、画素群による置き換え（補完）に適さないテキスト（例えば広範囲な補完が必要となるテキスト）を対象テキストから除外することができる。例えば、サーバ３０は、テキストが効果音またはオノマトペに由来する場合、またはテキストのフォントサイズが基準値を超える場合に、当該テキストが対象テキストでないと判定してもよい。これにより、原作者の個性が反映されやすい擬音語または擬態語に相当するテキストを維持したり、フォントサイズの大きいテキストに対して補完を行うことで目立つ粗が生じるのを防いだりすることができる。

サーバ３０は、対象テキストの書式または配置態様の少なくとも１つを推定し、当該推定結果に基づいて、翻訳テキストの書式または配置態様の少なくとも１つを制御してもよい。これにより、出力コミック画像における翻訳テキストの表現が、入力コミック画像における対象テキストの表現（原作者が何らかの意図を込めて決定した書式または配置態様）と乖離するのを抑制することができる。

サーバ３０は、入力コミック画像からテキストを囲う吹き出し領域を特定し、当該吹き出し領域に対象テキストが記載されたテキスト領域が配置されている場合に、翻訳テキストが当該吹き出し領域をはみ出すことを許容しながら当該翻訳テキストの書式または配置態様の少なくとも１つを制御してもよい。これにより、例えばスマートフォンなどの小画面のデバイスでコミックを閲覧する場合にも、翻訳テキストの判読性を確保することができる

（６）変形例
本実施形態の変形例について説明する。

（６－１）変形例１
変形例１について説明する。変形例１は、コミック作品毎に固有表現と訳語とを関連付ける辞書情報を管理する例である。

（６－１－１）データベース
変形例１のデータベースについて説明する。以下のデータベースは、記憶装置３１に記憶される。

（６－１－１－１）辞書データベース
変形例１の辞書データベースについて説明する。図１０は、変形例１の辞書データベースのデータ構造を示す図である。

辞書データベースには、辞書情報が格納される。辞書情報は、コミック作品に出現した固有表現と、当該固有表現に対して割り当てられた訳語とを関連付ける。辞書データベースは、コミック作品別に管理される。例えば、各辞書データベースは、コミック作品を識別する識別子に関連付けられてよい。

図１０に示すように、辞書データベースは、「固有表現ＩＤ」フィールドと、「原表現」フィールドと、「訳語」フィールドと、「初出位置」フィールドと、「カテゴリ」フィールドと、「出現回数」フィールドとを含む。各フィールドは、互いに関連付けられている。

「固有表現ＩＤ」フィールドには、固有表現ＩＤが格納される。固有表現ＩＤは、辞書情報に対応する固有表現を識別する。

「原表現」フィールドには、原表現情報が格納される。原表現情報は、同一レコード内の固有表現ＩＤによって特定される固有表現（以下、「対象固有表現」という）の原言語での表現に関する情報である。一例として、原表現情報は、対象固有表現を原言語で表記したテキストであってよい。

「訳語」フィールドには、訳語情報が格納される。訳語情報は、対象固有表現の翻訳語の言語（以下、「目的言語」という）での表現（すなわち訳語）に関する情報である。一例として、訳語情報は、対象固有表現を目的言語で表記したテキストであってよい。訳語情報は、例えば人間の翻訳者によって指定される。

「初出位置」フィールドには、初出位置情報が格納される。初出位置情報は、対象固有表現の初出位置に関する情報である。初出位置情報は、例えば、巻数、話数、ページ数、コマ数、またはそれらの組み合わせで表現されてよい。

「カテゴリ」フィールドには、カテゴリ情報が格納される。カテゴリ情報は、対象固有表現が属するカテゴリに関する情報である。一例として、カテゴリは、キャラクタ名、組織名、地名、などを含むことができる。

「出現回数」フィールドには、出現回数情報が格納される。出現回数情報は、対象固有表現の出現した回数に関する情報である。

（６－１－２）情報処理
変形例１の情報処理について説明する。図１１は、変形例１の情報処理のフローチャートである。

変形例１の情報処理は、例えばクライアント装置１０がユーザ（一例としてコミックの出版者）からの指示に基づいてサーバ３０に出力コミック画像の生成を要求することで、開始し得る。

図１１に示すように、サーバ３０は本実施形態の情報処理と同様に、コミック画像の取得（Ｓ１３０）、テキスト領域の特定（Ｓ１３１）、吹き出し領域の特定（Ｓ１３２）、およびテキストの解析（Ｓ１３３）を実行する。

また、ステップＳ１３３の後に、サーバ３０は本実施形態の情報処理と同様に、テキスト種別の判定（Ｓ１３４）、および中間コミック画像の生成（Ｓ１３５）を実行する。他方、サーバ３０は、これらステップＳ１３４～Ｓ１３５の処理と並行して、以下に説明するステップＳ２３４～Ｓ２３６の処理を実行する。

ステップＳ１３３の後に、サーバ３０は、固有表現の抽出（Ｓ２３４）を実行する。
具体的には、サーバ３０は、ステップＳ１３３において抽出したテキストを単語単位に分解する。テキストが日本語などの分かち書きされない言語に対応する場合には、サーバ３０はテキストに対して形態素解析処理を行ってよい。

サーバ３０は、各単語を汎用辞書データベースと照合する。ここで、汎用辞書データベースには、一般的な単語（例えば、普通名詞、著名な固有名詞、等）とその訳語とを関連付ける汎用情報が格納される。汎用辞書データベースは、コミック作品に関わらず共通に使用される。サーバ３０は、汎用辞書データベースに該当するレコードが格納されていない単語を固有表現として抽出する。

サーバ３０は、抽出した固有表現が処理対象のコミック作品において初出である場合に、辞書データベースに新規レコードを追加する。新規レコードには、新規の固有表現ＩＤと、固有表現の抽出結果に応じた原表現情報と、固有表現の抽出位置に応じた初出位置情報と、出現回数が１回であることを示す出現回数情報とが格納される。他方、サーバ３０は、抽出した固有表現が、処理対象のコミック作品において既出である場合には該当するレコードの出現回数情報を更新する。

ステップＳ２３４の後に、サーバ３０は、訳語の取得（Ｓ２３５）を実行する。
具体的には、サーバ３０は、ステップＳ２３４において抽出した固有表現に対応し、かつ訳語情報が格納されていない固有表現の訳語を取得する。なお、ステップＳ２３４において固有表現が抽出されなかった場合に、ステップＳ２３５～Ｓ２３６は省略可能である。

一例として、サーバ３０は、固有表現情報（少なくとも原表現情報）をクライアント装置１０へ送信し、クライアント装置１０は固有表現情報をユーザ（例えば翻訳者）に提示する。例えば、クライアント装置１０は、固有表現情報に基づく画面をディスプレイ２１に表示する。画面に表示される情報には、固有表現が登場する場面のコミック画像が含まれてもよい。固有表現が登場する場面のコミック画像は、例えば、テキストデータベース（図５）において、当該固有表現が抽出された原テキストに対応するレコードに含まれる登場ページ情報および配置態様（位置）情報に基づいて特定可能である。クライアント装置１０は、ユーザから固有表現に対する訳語の指定を受け付ける。クライアント装置１０は、指定された訳語を特定可能な情報をサーバ３０へ送信する。

なお、クライアント装置１０は、さらに、ユーザから固有表現に対するカテゴリの指定を受け付けてもよい。この場合に、クライアント装置１０は、指定されたカテゴリを特定可能な情報をサーバ３０へ送信する。

ステップＳ２３５の後に、サーバ３０は、辞書情報の更新（Ｓ２３６）を実行する。
具体的には、サーバ３０は、ステップＳ２３５において取得した訳語情報を辞書データベース（図１０）に格納する。また、サーバ３０は、ステップＳ２３５においてカテゴリ情報を取得した場合には、当該カテゴリ情報を辞書データベース（図１０）に格納してもよい。

ステップＳ２３４～Ｓ２３６の処理を実行することで、ステップＳ１３０において取得した入力コミック画像におけるテキストに含まれる固有表現に対して適切な訳語を割り当てることができる。

ステップＳ１３５およびステップＳ２３６の後に、サーバ３０は、翻訳テキストの配置（Ｓ２３７）を実行する。
具体的には、サーバ３０は、ステップＳ１３５において生成した中間コミック画像に対して、ステップＳ１３３において抽出したテキストに対応する翻訳テキストを配置する。これにより、サーバ３０は、出力コミック画像を生成する。

一例として、サーバ３０または外部装置は、ステップＳ１３０において取得した入力コミック画像の属する特定のコミック作品に対応する辞書データベース（図１０）を参照し、機械翻訳のための学習済みモデルの追加学習を行うことで、当該特定のコミック作品に特化した派生モデルを作成する。サーバ３０または外部装置は、テキストに対して上記派生モデルを用いた機械翻訳処理を行うことで翻訳テキストを生成する。さらに、クライアント装置１０のユーザ（例えば翻訳者）は、配置された翻訳テキストを必要に応じて編集することができる。サーバ３０は、翻訳テキストの生成または編集に応じて、テキストデータベース（図５）における対応するレコードに含まれる翻訳テキスト情報を更新する。

別の例として、サーバ３０は、ステップＳ１３０において取得した入力コミック画像の属する特定のコミック作品に対応する辞書データベース（図１０）を参照し、テキストに含まれる固有表現を対応する訳語に置き換えることで中間テキストを生成する。サーバ３０は、中間テキストに対して自ら機械翻訳処理を行うことで翻訳テキストを生成してもよいし、外部装置から翻訳テキストを取得してもよい。外部装置は、サーバ３０から中間テキストを取得し、当該中間テキストに対して機械翻訳処理を行ってもよいし、当該中間テキストを翻訳者に対して提示し当該翻訳者から翻訳テキストの指定を受け付けてもよい。さらに、クライアント装置１０のユーザ（例えば翻訳者）は、配置された翻訳テキストを必要に応じて編集することができる。サーバ３０は、翻訳テキストの生成または編集に応じて、テキストデータベース（図５）における対応するレコードに含まれる翻訳テキスト情報を更新する。

さらなる別の例として、サーバ３０、または外部装置が、入力コミック画像の属する特定のコミック作品に対応する辞書データベース（図１０）を参照して、テキストに対する機械翻訳処理を行ってもよい。また、外部装置が、テキストおよび関連する辞書情報を翻訳者に対して提示し当該翻訳者から翻訳テキストの指定を受け付けてもよい。

サーバ３０は、翻訳前のテキストの書式または配置態様に基づいて、翻訳テキストの書式または配置態様を制御する。翻訳テキストの書式または配置態様を制御の具体例は、本実施形態の情報処理と同様である。

サーバ３０は、機械翻訳の実行範囲中の原テキストに含まれる全ての固有表現について、訳語の入力完了、または入力された訳語の確認完了を伝える操作を、クライアント装置１０を介してユーザから受け付けたことに応じて、これらの原テキストの機械翻訳を開始してもよい。これにより、固有表現の訳語の指定漏れにより、不適切な翻訳テキストが生成され、作業効率が低下するのを防ぐことができる。

サーバ３０は、ステップＳ２３７を以て、図１１の情報処理を終了する。
なお、サーバ３０は、図１１の情報処理を終了する前に、ステップＳ２３７において生成した出力コミック画像を外部装置（例えばクライアント装置１０）へ送信してもよい。

（６－１－３）小括
以上説明したように、変形例１のサーバ３０は、特定されたテキスト領域に記載されたテキストに含まれる固有表現を抽出し、抽出された固有表現に対する訳語を取得してもよい。サーバ３０は、固有表現と、当該固有表現に対して取得された訳語とを関連付ける辞書情報をコミック作品別に管理してもよい。これにより、コミック作品に特有の固有表現に対して適切かつ一貫した訳語を割り当てることができる。

翻訳テキストは、機械翻訳のための第１学習済みモデルの追加学習を入力コミック画像が属する特定のコミック作品に対応する辞書情報に基づいて行うことで作成された第２学習済みモデルを用いて、対象テキストに対して機械翻訳を行うことで生成されたテキストであってよい。これにより、固有表現を含んだテキストであっても、適切な翻訳テキストを効率的に生成することができる。

サーバ３０は、特定されたテキスト領域に記載されたテキストの機械翻訳を、入力コミック画像に関して抽出された全ての固有表現に対応する訳語が取得された後に行ってもよい。これにより、固有表現の訳語が定まらないまま機械翻訳が行われ、適切でない翻訳テキストが配置されるのを防止することができる。

（７）その他の変形例
記憶装置１１は、ネットワークＮＷを介して、クライアント装置１０と接続されてもよい。ディスプレイ２１は、クライアント装置１０と一体化されてもよい。記憶装置３１は、ネットワークＮＷを介して、サーバ３０と接続されてもよい。

上記説明では情報処理システム１を、クライアント／サーバ型のシステムによって実装する例を示した。しかしながら、情報処理システム１は、スタンドアロン型のコンピュータ、またはピア・ツー・ピア型のシステムによって実装することもできる。

上記説明では、各情報処理において各ステップを特定の順序で実行する例を示したが、各ステップの実行順序は、依存関係がない限りは説明した例に制限されない。上記の情報処理の各ステップは、クライアント装置１０及びサーバ３０の何れでも実行可能である。

上記説明において、テキスト領域（テキストオブジェクト）が画素群に置き換わる例を示した。テキスト領域は、例えば楕円形（円形を含み得る）または多角形（例えば矩形、または矩形の組み合わせ）であってもよいし、当該テキスト領域に記載されたテキストを構成する各文字を縁取りした領域であってもよい。各文字を縁取りした領域をテキスト領域とすることで、画素値に置き換わる範囲を最小化することができる。すなわち、画素群による補完が読者に与える違和感をいっそう抑制することができる。

サーバ３０（または他の装置であってもよい）は、出力コミック画像を、特定の閲覧環境で閲覧するためのコミック画像へと変換してもよい。特定の閲覧環境とは、例えば、コミック画像の閲覧に用いるデバイスの種別（例えばスマートフォン）、またはデバイスの画面サイズ、解像度、もしくは向き、などであってよい。一例として、サーバ３０は、特定の閲覧環境に対応するルールに従って、翻訳テキストの書式もしくは配置態様、または当該翻訳テキストを囲う吹き出し領域の書式もしくは配置態様の少なくとも１つを調整してもよい。これにより、出力コミック画像を特定の閲覧環境に対して最適化することができる。特定の閲覧環境に対応するルールとして、例えば以下の少なくとも１つが定められ得る。
・使用可能なフォントサイズ
・フォントカラーの使用可否

上記説明では、サーバ３０が、固有表現を自動抽出する例を示した。しかしながら、人間（例えば出版者）がコミック作品に登場する固有表現をリスト化してもよい。或いは、人間が作成した固有表現リストを、上記自動抽出により補完してもよい。一例として、サーバ３０は、人間が作成した固有表現に基づいて、各固有表現の初出位置情報または出現回数情報を生成してもよい。

以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

１：情報処理システム
１０：クライアント装置
１１：記憶装置
１２：プロセッサ
１３：入出力インタフェース
１４：通信インタフェース
２１：ディスプレイ
３０：サーバ
３１：記憶装置
３２：プロセッサ
３３：入出力インタフェース
３４：通信インタフェース

Claims

コンピュータを、
第１コミック画像からテキストが記載された領域であるテキスト領域を特定する手段、
特定された前記テキスト領域に記載されているテキストの属性に基づいて、当該テキストが翻訳テキストによって置き換えられる対象となる対象テキストであるか否かを判定する手段、
前記第１コミック画像において、特定された前記テキスト領域のうち前記対象テキストが記載された第１テキスト領域が、前記第１コミック画像において前記第１テキスト領域によって遮蔽されていた背景の予測結果に相当する第１画素群に置き換わった第２コミック画像を生成する手段、
前記第２コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第３コミック画像を生成する手段、
として機能させ、
前記判定する手段は、前記テキストのフォントが特定の種別でない場合、または前記テキストのフォントサイズが基準値を超える場合に、当該テキストが対象テキストでないと判定する、
プログラム。
コンピュータを、
第１コミック画像からテキストが記載された領域であるテキスト領域を特定する手段、
前記第１コミック画像において、特定された前記テキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第１テキスト領域が、前記第１コミック画像において前記第１テキスト領域によって遮蔽されていた背景の予測結果に相当する第１画素群に置き換わった第２コミック画像を生成する手段、
前記第２コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第３コミック画像を生成する手段、
として機能させ、
前記第１画素群によって置き換えられる前記第１テキスト領域は、当該第１テキスト領域に記載されたテキストを構成する各文字を縁取りした領域である、
プログラム。
前記第２コミック画像を生成する手段は、前記第１コミック画像に基づく入力データに学習済みモデルを適用することで、前記第２コミック画像を生成する、
請求項１または請求項２に記載のプログラム。
前記コンピュータを、
前記対象テキストの書式または配置態様の少なくとも１つを推定する手段、
前記対象テキストの書式または配置態様の少なくとも１つの推定結果に基づいて、前記翻訳テキストの書式または配置態様の少なくとも１つを制御する手段、
として機能させる、請求項１または請求項２に記載のプログラム。
前記コンピュータを、前記第１コミック画像からテキストを囲う吹き出し領域を特定する手段、として機能させ、
前記制御する手段は、特定された前記吹き出し領域に前記第１テキスト領域が配置されている場合に、前記翻訳テキストを記載するオブジェクトのサイズを前記吹き出し領域よりも大きくなるように設定し、かつ前記対象テキストを記載するオブジェクトの位置情報の推定結果を前記翻訳テキストを記載するオブジェクトの位置情報として引き継がせる、
請求項４に記載のプログラム。
前記コンピュータを、
特定された前記テキスト領域に記載されたテキストに含まれる固有表現を抽出する手段、
抽出された前記固有表現に対する訳語を取得する手段、
前記固有表現と、当該固有表現に対して取得された訳語とを関連付ける辞書情報をコミック作品別に管理する手段、
として機能させ、
前記第１コミック画像は、特定のコミック作品の一部分を構成し、
前記翻訳テキストは、テキストの機械翻訳を行うことのできる第１学習済みモデルに前記特定のコミック作品に対応する辞書情報を学習することで作成された派生モデルである第２学習済みモデルを用いて、前記対象テキストに対して機械翻訳を行うことで生成されたテキストである、
請求項１または請求項２に記載のプログラム。
前記コンピュータを、特定された前記テキスト領域に記載されたテキストの機械翻訳を、前記第１コミック画像に関して抽出された全ての固有表現に対応する訳語が取得された後に行う手段、としてさらに機能させる、
請求項６に記載のプログラム。
コンピュータが、
第１コミック画像からテキストが記載された領域であるテキスト領域を特定するステップと、
特定された前記テキスト領域に記載されているテキストの属性に基づいて、当該テキストが翻訳テキストによって置き換えられる対象となる対象テキストであるか否かを判定するステップと、
前記第１コミック画像において、特定された前記テキスト領域のうち前記対象テキストが記載された第１テキスト領域が、前記第１コミック画像において前記第１テキスト領域によって遮蔽されていた背景の予測結果に相当する第１画素群に置き換わった第２コミック画像を生成するステップと、
前記第２コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第３コミック画像を生成するステップと
を実行し、
前記判定するステップでは、前記テキストのフォントが特定の種別でない場合、または前記テキストのフォントサイズが基準値を超える場合に、当該テキストが対象テキストでないと判定する、
方法。
コンピュータが、
第１コミック画像からテキストが記載された領域であるテキスト領域を特定するステップと、
前記第１コミック画像において、特定された前記テキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第１テキスト領域が、前記第１コミック画像において前記第１テキスト領域によって遮蔽されていた背景の予測結果に相当する第１画素群に置き換わった第２コミック画像を生成するステップと、
前記第２コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第３コミック画像を生成するステップと
を実行し、
前記第１画素群によって置き換えられる前記第１テキスト領域は、当該第１テキスト領域に記載されたテキストを構成する各文字を縁取りした領域である、
方法。
第１コミック画像からテキストが記載された領域であるテキスト領域を特定する手段と、
特定された前記テキスト領域に記載されているテキストの属性に基づいて、当該テキストが翻訳テキストによって置き換えられる対象となる対象テキストであるか否かを判定する手段と、
前記第１コミック画像において、特定された前記テキスト領域のうち前記対象テキストが記載された第１テキスト領域が、前記第１コミック画像において前記第１テキスト領域によって遮蔽されていた背景の予測結果に相当する第１画素群に置き換わった第２コミック画像を生成する手段と、
前記第２コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第３コミック画像を生成する手段と
を具備し、
前記判定する手段は、前記テキストのフォントが特定の種別でない場合、または前記テキストのフォントサイズが基準値を超える場合に、当該テキストが対象テキストでないと判定する、
情報処理装置。
第１コミック画像からテキストが記載された領域であるテキスト領域を特定する手段と、
前記第１コミック画像において、特定された前記テキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第１テキスト領域が、前記第１コミック画像において前記第１テキスト領域によって遮蔽されていた背景の予測結果に相当する第１画素群に置き換わった第２コミック画像を生成する手段と、
前記第２コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第３コミック画像を生成する手段と
を具備し、
前記第１画素群によって置き換えられる前記第１テキスト領域は、当該第１テキスト領域に記載されたテキストを構成する各文字を縁取りした領域である、
情報処理装置。
第１情報処理装置と第２情報処理装置とを具備するシステムであって、
前記第１情報処理装置は、
第１コミック画像からテキストが記載された領域であるテキスト領域を特定する手段と、
特定された前記テキスト領域に記載されているテキストの属性に基づいて、当該テキストが翻訳テキストによって置き換えられる対象となる対象テキストであるか否かを判定する手段と、
前記第１コミック画像において、特定された前記テキスト領域のうち前記対象テキストが記載された第１テキスト領域が、前記第１コミック画像において前記第１テキスト領域によって遮蔽されていた背景の予測結果に相当する第１画素群に置き換わった第２コミック画像を生成する手段と、
前記第２コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第３コミック画像を生成する手段と、
前記第３コミック画像を前記第２情報処理装置へ送信する手段とを備え、
前記判定する手段は、前記テキストのフォントが特定の種別でない場合、または前記テキストのフォントサイズが基準値を超える場合に、当該テキストが対象テキストでないと判定する、
システム。
第１情報処理装置と第２情報処理装置とを具備するシステムであって、
前記第１情報処理装置は、
第１コミック画像からテキストが記載された領域であるテキスト領域を特定する手段と、
前記第１コミック画像において、特定された前記テキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第１テキスト領域が、前記第１コミック画像において前記第１テキスト領域によって遮蔽されていた背景の予測結果に相当する第１画素群に置き換わった第２コミック画像を生成する手段と、
前記第２コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第３コミック画像を生成する手段と、
前記第３コミック画像を前記第２情報処理装置へ送信する手段とを備え、
前記第１画素群によって置き換えられる前記第１テキスト領域は、当該第１テキスト領域に記載されたテキストを構成する各文字を縁取りした領域である、
システム。