JP2018533089A

JP2018533089A - デジタルグラフィックノベルのコンピュータ支援ナビゲーション

Info

Publication number: JP2018533089A
Application number: JP2017556862A
Authority: JP
Inventors: ハートレル，グレッグ・ドン; ゴーシュ，デバジット; ボーン−ベイル，マシュー; リブリン，ジョン・マイケル; コンボイ，ガース; グ，シンシン; トシェフ，アレキサンダー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-09-23
Filing date: 2016-08-09
Publication date: 2018-11-08
Anticipated expiration: 2036-08-09
Also published as: EP3353681A1; JP6613317B2; WO2017052819A1; CN107533571A; US20170083196A1

Abstract

デジタルグラフィックノベルコンテンツを受信し、機械学習モデルを適用してデジタルグラフィックノベルコンテンツの特徴を予測する。予測された特徴は、複数のパネルの場所と複数のパネルの読み順とを含む。デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルが作成される。提示メタデータは、複数のパネルの場所と読み順とに基づいてデジタルグラフィックノベルコンテンツを提示すべき態様を示す。パッケージ化デジタルグラフィックノベルは、提示メタデータ中に示される態様に従って提示されるように書籍リーダに与えられる。

Description

１．技術分野
本明細書中に記載の主題は概してデジタルグラフィックノベルに関し、特にデジタルグラフィックノベルコンテンツの自動化または半自動化ナビゲーションを提供することに関する。

２．背景情報
電子書籍（「ｅブック」）は、国際デジタル出版フォーラム電子出版（ＥＰＵＢ）標準およびポータブルドキュメントフォーマット（ＰＤＦ）などのさまざまな形式で提供されている。ｅブックは、専用の書籍リーダ（reading device）、汎用移動体装置、タブレットコンピュータ、ラップトップコンピュータ、およびデスクトップコンピュータなどのさまざまな装置を用いて読むことができる。各々の装置は、ｅブックをユーザに表示する読書ソフトウェア（「ｅリーダ」）を含む。

グラフィックノベルは、伝統的に印刷媒体を通じて配布される目で見る物語の形態である。しかしながら、発行者は、特に電話機およびタブレットなどのｅリーダを用いたデジタル消費向けにこのコンテンツを提供することがますます多くなっている。典型的なｅリーダが提供するナビゲーションツールは、主として、テキストベースのｅブックを念頭に置いて開発された。その結果、デジタルグラフィックノベルを読むのにこれらのｅリーダを用いると、高満足度のユーザ経験が提供されないことがある。

要約
以上および他の課題は、方法、電子装置、および一時的でないコンピュータ読み取り可能記憶媒体によって対処される。１つの実施形態では、方法は、デジタルグラフィックノベルコンテンツを受信することと、機械学習モデルを適用することによってデジタルグラフィックノベルコンテンツの特徴を予測することとを含む。予測された特徴は、複数のパネルの場所と複数のパネルの読み順とを含む。方法は、デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成することも含む。提示メタデータは、複数のパネルの場所とその読み順とに基づいてデジタルグラフィックノベルコンテンツを提示すべき態様を示す。方法はさらに、提示メタデータ中に示される態様に従ってデジタルグラフィックノベルコンテンツを提示するために書籍リーダにパッケージ化デジタルグラフィックノベルを提供することを含む。

１つの実施形態では、電子装置は、実行可能なコンピュータプログラムコードを記憶する一時的でないコンピュータ読み取り可能記憶媒体と、コードを実行するための１つ以上のプロセッサとを含む。実行可能なコンピュータプログラムコードは、デジタルグラフィックノベルコンテンツを受信し、かつ機械学習モデルを適用することによってデジタルグラフィックノベルコンテンツの特徴を予測するための命令を含む。予測された特徴は、複数のパネルの場所と複数のパネルの読み順とを含む。コードは、デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成するための命令も含む。提示メタデータは、複数のパネルの場所とその読み順とに基づいてデジタルグラフィックノベルコンテンツを提示すべき態様を示す。コードはさらに、提示メタデータ中に示される態様に従ってデジタルグラフィックノベルコンテンツを提示するために書籍リーダにパッケージ化デジタルグラフィックノベルを提供するための命令を含む。

１つの実施形態では、一時的でないコンピュータ読み取り可能記憶媒体は、デジタルグラフィックノベルコンテンツを受信し、かつ機械学習モデルを適用することによってデジタルグラフィックノベルコンテンツの特徴を予測するための命令を含む、実行可能なコンピュータプログラムコードを記憶する。予測される特徴は、複数のパネルの場所と複数のパネルの読み順とを含む。コードは、デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成するための命令も含む。提示メタデータは、複数のパネルの場所とその読み順とに基づいてデジタルグラフィックノベルコンテンツを提示すべき態様を示す。コードはさらに、提示メタデータに示される態様に従ってデジタルグラフィックノベルコンテンツを提示するために書籍リーダにパッケージ化デジタルグラフィックノベルを提供するための命令を含む。

１つの実施形態に従う、グラフィックノベルにコンピュータ支援ナビゲーションを提供するのに好適な、ネットワーク化コンピューティング環境を示す高レベルブロック図である。１つの実施形態に従う、図１のネットワーク化コンピューティング環境で用いるためのコンピュータの例を示す高レベルブロック図である。図１に示されるグラフィックノベルコーパス（corpus）の１つの実施形態を示す高レベルブロック図である。図１に示されるグラフィックノベル分析システムの１つの実施形態を示す高レベルブロック図である。図１に示されるグラフィックノベル配信システムの１つの実施形態を示す高レベルブロック図である。図１に示される書籍リーダ（reader device）の１つの実施形態を示す高レベルブロック図である。１つの実施形態に従う、デジタルグラフィックノベル内でのコンピュータ支援ナビゲーションを提供する方法を示すフローチャートである。１つの実施形態に従う、図７の方法で用いるための予測モデルを構築する方法を示すフローチャートである。１つの実施形態に従う、フィードバックに基づいて予測を検証する方法を示すフローチャートである。

詳細な説明
発行者は、デジタルに入手可能なグラフィックノベルコンテンツの量を増やしている。１９世紀にまで遡るグラフィックノベル、漫画本、およびコミックストリップの幅広い印刷全集も存在する。ある歴史家は、ローマのトラヤヌスの円柱およびバイユーのタペストリーなどの古代文明が作った芸術作品が本質的には同じ芸術の形態であると議論すらしている。便宜上、本明細書中では、話の流れのある一連の順序付けられた画像を備える任意のそのようなコンテンツを指すのにグラフィックノベルという用語を用いる。

グラフィックノベルを読むことは、テキストベースの書籍を読むこととは異なる。現地に特有の読み順で（たとえば、英語圏の国では左から右へおよび上から下へ）読まれるテキストを主に通じて物語を語るよりもむしろ、グラフィックノベルの話は、（パネルとも称される）順序付けられた画像と吹き出しとの組合せを通して伝えられる。場合によっては、吹き出しは複数のパネルに重なる。さらに、ある事例（たとえば、多くの日本語のグラフィックノベル）では、テキストは右から左に読まれる。その結果、電子装置上に効果的にグラフィックノベルを表示することには特定の課題がある。すなわち、画面の大きさが異なる、テキストベースの書籍向けに開発されたナビゲーション技術はユーザがどのようにグラフィックノベルを読むかを反映しない、パネルおよび吹き出しが読まれる順序は左から右または上から下でないことがある、所与の画像の他の画像に対する文脈が重要であり得るなどである。

システム概要
図（図）および以下の説明は例示のためにのみある実施形態を説明する。当業者は、以下の説明から、本明細書中に記載の原則から逸脱することなく、本明細書中に示される構造および方法の代替的な実施形態を用い得ることを容易に認識するであろう。ここでいくつかの実施形態を参照し、その例を添付の図に示す。実践可能な場合はどこでも、図で同様のまたは同じ参照番号を用いることがあり、同様のまたは同じ機能性を示すことがあることを注記する。

図１は、デジタルグラフィックノベルにコンピュータ支援ナビゲーションを提供するのに好適なネットワーク化コンピューティング環境１００の１つの実施形態を示す。示されるように、環境１００は、グラフィックノベルコーパス１１０、グラフィックノベル分析システム１２０、グラフィックノベル配信システム１３０、および書籍リーダ１８０を含み、そのすべてはネットワーク１７０を介して接続される。ネットワーク化コンピューティング環境１００の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載のものとは異なる態様で構成要素間で機能を分散させてもよい。

グラフィックノベルコーパス１１０は、グラフィックノベルのデジタル表示を記憶する。デジタル表示は、ＥＰＵＢまたはＰＤＦなどの任意の適切な形式を用いることができる。さまざまな実施形態では、デジタル表示は、発行者および著者によって予め作られて、既存の印刷済グラフィックノベルをスキャンすることによって作成されて、またはこれらの技術の組合せを用いてコンパイルされて、提供される。グラフィックノベルコーパス１１０を図３を参照して以下に詳細に説明する。

グラフィックノベル分析システム１２０は、機械学習技術を適用してデジタルグラフィックノベル内の特徴を同定するためのモデルを構築しかつ適用する。１つの実施形態では、特徴は、パネルおよび吹き出しの場所と意図される読み順とを含む。他の実施形態では、特徴は、付加的にまたは代替的に、描かれるキャラクタ、描かれるオブジェクト（たとえば、扉、武器など）、イベント（たとえば、プロット、キャラクタ間の関係など）、雰囲気、１つのパネルと次のパネルとの間の所望の視覚的遷移（たとえば、パン、ズームアウト、およびズームインなど）、描かれる天気、ジャンル、右から左への（ＲＴＬ）読み方、広告などを含む。ある事例では、デジタルグラフィックノベルのある特徴の同定を用いて他の同定を補助する。たとえば、１つの実施形態では、グラフィックノベル分析システム１２０が、特定のデジタルグラフィックノベルの読み方がＲＴＬであると判断すると、これを用いて、これも右から左へ流れる可能性があるパネルの順序の識別を向上させる。これらの特徴の多くはグラフィックノベルに独特のものである。たとえば、テキストベースの書籍には著者がいるが、作画者はおらず、グラフィックノベルコンテンツの画像の中に描かれるキャラクタまたはオブジェクトを同定することは、同じものをテキスト中に同定することとは大きく異なる。同様に、テキストベースの書籍のページは左から右および上から下に読まれる一方で、グラフィックノベルは典型的に、順に読まれるページあたりのいくつかのパネルとパネルあたりのいくつかの吹き出しとを含有し、意図される読み順は、読み手の注意がページのあちこちに飛ぶことを求める。グラフィックノベル分析システム１２０を図４を参照して以下に詳細に説明する。

グラフィックノベル配信システム１３０は、コーパス１１０からのグラフィックノベルコンテンツと、グラフィックノベルコンテンツをどのように提示すべきかを示す提示メタデータとを含むパッケージ化グラフィックノベルを作成する。１つの実施形態では、提示メタデータは、同定される特徴と、同定される特徴の場所と、グラフィックノベル分析システム１２０が出力するようなパネル／吹き出しの意図される読み順とを含む。提示メタデータは特徴を同定するので、異なる態様でデジタルグラフィックノベルを提示するよう異なる書籍リーダ１８０を構成することができる。たとえば、ある書籍リーダ１８０は、順序立てて各パネルの全体を提示し、予め定められた時間（たとえば１０秒）後に遷移させ得る一方で、別のものは、ユーザ入力（たとえば画面のタップ）に応答してある吹き出しから次の吹き出しへパンし得る。別の実施形態では、グラフィックノベル配信システム１３０は、グラフィックノベル分析システム１２０からの出力を処理して、推奨される提示態様を判断する。この実施形態では、提示メタデータは、順序付けられた提示命令の一覧（たとえば、パネル１を全画面表示し、次にパネル２にパンし、かつ吹き出し１にズームインし、次にパネル２を全画面表示するようにズームアウトし、次に吹き出し２にズームインするなど）を含む。他の実施形態では、提示メタデータは、パネル同士の間の遷移、含むべき音響効果、直線状よりもむしろポップアップとして提示すべき広告などの、提示の付加的なまたは異なる態様を示す。グラフィックノベル配信システム１３０を図５を参照して以下に詳細に説明する。

書籍リーダ１８０は、デスクトップＰＣ、ラップトップ、スマートフォン、タブレット、専用書籍リーダなどの、デジタルグラフィックノベルをユーザに提示することができる任意のコンピューティングデバイスであることができる。書籍リーダ１８０を３つだけ示すが、実際には、ネットワーク１７０を用いて環境１００の他の構成要素と通信することができる多数の（たとえば何百万台もの）書籍リーダ１８０が存在する。１つの実施形態では、クライアント装置１８０は、グラフィックノベル配信システム１３０からパッケージ化デジタルグラフィックノベルを受信し、含まれる提示メタデータに従ってこれをユーザに提示する。例示的な書籍リーダ１８０を図６を参照して以下に詳細に説明する。

ネットワーク１７０は、ネットワーク化コンピューティング環境１００の構成要素が互いと通信できるようにする。１つの実施形態では、ネットワーク１７０は、標準的な通信技術および／またはプロトコルを用い、インターネットを含むことができる。このように、ネットワーク１７０は、イーサネット（登録商標）、８０２．１１、マイクロ波アクセスに関する世界的相互運用（ＷｉＭＡＸ）、２Ｇ／３Ｇ／４Ｇ移動体通信プロトコル、デジタル加入者線（ＤＳＬ）、非対称転送モード（ＡＴＭ）、インフィニバンド（InfiniBand）、ＰＣＩエクスプレスアドバンストスイッチングなどの技術を用いたリンクを含むことができる。同様に、ネットワーク１７０上で用いられるネットワーク化プロトコルは、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、シンプルメール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）などを含むことができる。ネットワーク１１０上で交換されるデータを、２値形態の画像データを含む技術および／または形式（たとえば、ポータブルネットワークグラフィック（Portable Network Graphics）（ＰＮＧ））、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張可能マークアップ言語（ＸＭＬ）などを用いて表示することができる。さらに、リンクのうちすべてまたは一部を、セキュアソケットレイヤ（ＳＳＬ）、トランスポート層セキュリティ（ＴＬＳ）、仮想私設ネットワーク（ＶＰＮ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ）などの従来の暗号化技術を用いて暗号化することができる。別の実施形態では、ネットワーク１７０上のエンティティは、上述のものの代わりにまたは上述のものに加えて、カスタムおよび／または専用データ通信技術を用いることができる。

図２は、ネットワーク化コンピューティング環境１００で用いるのに好適なコンピュータ２００の１つの実施形態を示す高レベルブロック図である。チップセット２０４に結合される少なくとも１つのプロセッサ２０２を示す。チップセット２０４は、メモリコントローラハブ２５０と入出力（Ｉ／Ｏ）コントローラハブ２５５とを含む。メモリ２０６とグラフィックアダプタ２１３とはメモリコントローラハブ２５０に結合され、表示装置２１８はグラフィックアダプタ２１３に結合される。記憶装置２０８、キーボード２１０、ポインティングデバイス２１４、およびネットワークアダプタ２１６は、Ｉ／Ｏコントローラハブ２５５に結合される。コンピュータ２００の他の実施形態は、異なるアーキテクチャを有する。たとえば、メモリ２０６は、ある実施形態ではプロセッサ２０２に直接に結合される。

記憶装置２０８は、ハードドライブ、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、ＤＶＤ、または固体状態メモリデバイスなどの１つ以上の一時的でないコンピュータ読み取り可能記憶媒体を含む。メモリ２０６は、プロセッサ２０２が用いる命令およびデータを保持する。ポインティングデバイス２１４は、キーボード２１０と組合せて用いられてデータをコンピュータシステム２００に入力する。グラフィックアダプタ２１３は、表示装置２１８上に画像および他の情報を表示させる。ある実施形態では、表示装置２１８は、ユーザ入力および選択を受けるためのタッチ画面能力を含む。ネットワークアダプタ２１６は、コンピュータシステム２００をネットワーク１１０に結合する。コンピュータ２００のある実施形態は、図２に示されるものとは異なるまたはそれに付加的な構成要素を有する。たとえば、グラフィックノベル分析システム１２０を、本明細書中に記載の機能を提供するようにともに動作する複数のコンピュータ２００から形成することができる。別の例として、クライアント装置１８０はスマートフォンであることができ、画面上キーボード２１０およびポインティングデバイス２１４機能性を提供するタッチ画面を含むことができる。

コンピュータ２００は、本明細書中に記載される機能性を提供するためのコンピュータプログラムモジュールを実行するように適合される。本明細書中で用いるように、「モジュール」という用語は、特定される機能性を提供するのに用いられるコンピュータプログラム命令または他の論理を指す。このように、モジュールを、ハードウェア、ファームウェア、またはソフトウェア、またはその組合せで実現することができる。１つの実施形態では、実行可能なコンピュータプログラム命令から形成されるプログラムモジュールは、記憶装置２０８上に記憶され、メモリ２０６中にロードされ、かつプロセッサ２０２によって実行される。

例示的なシステム
図３は、グラフィックノベルコーパス１１０の１つの実施形態を示す。示されるように、グラフィックノベルコーパス１１０は、グラフィックノベルコンテンツ３１０と発行者メタデータ３２０とを含む。グラフィックノベルコーパス１１０の他の実施形態は、異なるまたは付加的な構成要素を含む。たとえば、グラフィックノベルコンテンツ３１０と発行者メタデータ３２０とを別個のエンティティとして示すが、コンテンツとメタデータとの両方に単一のデータ記憶を用いてもよい。

グラフィックノベルコンテンツ３１０は、コーパス１１０中のグラフィックノベルのページの画像を含み、１つ以上の一時的でないコンピュータ読み取り可能記憶媒体上に記憶される。前述のように、発行者および著者が直接にグラフィックノベルコンテンツ３１０を提供することができる、または既存の印刷済グラフィックノベルをスキャンすることによってグラフィックノベルコンテンツ３１０を入手することができる。１つの実施形態では、グラフィックノベルコンテンツ３１０は、完全なグラフィックノベルのＰＤＦ文書を含み、ＰＤＦの各ページはグラフィックノベルのページの画像を含む。これに代えて、ＰＤＦの各ページは、単一のパネルまたは見開き２ページなどの、グラフィックノベルの１ページ超または未満を含んでもよい。別の実施形態では、グラフィックノベルコンテンツ３１０は、固定レイアウトＥＰＵＢファイルとして記憶される。当業者は、グラフィックノベルコンテンツ３１０を記憶することができる他の形式を認めるであろう。

発行者メタデータ３２０は、題名、発行日、著者、発行者、シリーズ、主要キャラクタなどのグラフィックノベルについての情報を含む、グラフィックノベル発行者または著者が提供するメタデータである。既存の印刷済グラフィックノベルをスキャンすることによってグラフィックノベルコンテンツ３２０を生成する実施形態では、発行者メタデータが存在しないことがある。これに代えて、印刷済グラフィックノベルをスキャンする個人またはエンティティは、（たとえば、スキャンのプロセスの一部として電子形態でタイピングすることによって）発行者メタデータ３２０を提供することができる。

図４は、グラフィックノベル分析システム１２０の１つの実施形態を示す。示されるように、グラフィックノベル分析システム１２０は、トレーニングモジュール４１０、予測モジュール４２０、検証モジュール４３０、および予測モデル記憶４４０を含む。グラフィックノベル分析システム１２０の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載されるのとは異なる態様で構成要素間で機能を分散させてもよい。たとえば、グラフィックノベル分析システム１２０は、予測モデル記憶４４０を含まなくてもよく、代わりにグラフィックノベルコーパス１１０に予測モデルを記憶する。別の例として、クラウドソーシングによるフィードバックを用いる実施形態では、検証モジュール４３０によるものである機能性の一部またはすべてをユーザ装置１８０のフィードバックモジュール６２０によって提供してもよい。

トレーニングモジュール４１０は、グラフィックノベルのトレーニングセットから機械学習モデルを構築する。デジタルグラフィックノベルコンテンツに適用されると、モデルは、その中に含まれる特徴を予測する。１つの実施形態では、トレーニングモジュール４１０は、ランダムにコーパス１１０からデジタルグラフィックノベルのサブセットを選択してトレーニングセットとして用いる。他の実施形態では、サブセットは発行者メタデータ３２０に基づく。たとえば、トレーニングモジュール４１０は、１つ以上の特徴（たとえば、作画者、発行者、キャラクタなど）についてのある範囲の値を含めて、初期モデルが未知のグラフィックノベル中のそれらの特徴を正確に同定する確率を上昇させるようにサブセットを選択し得る。１つのそのような実施形態では、発行者メタデータを用いて、グラフィックノベルであるデジタル刊行物を同定し、（たとえば、ダウンロード数に基づいて）人気のあるグラフィックノベルのセットを同定し、右から左への読み方を含むか否かに基づいて（たとえば、発行者メタデータに基づいて）当該セットを２つの群に分割し、各群からいくつかのグラフィックノベルをランダムに選択することによってサブセットをポピュレートする。さらなる実施形態では、トレーニングセットを手作業で選択してトレーニングモジュール４１０に与える。また別の実施形態では、トレーニングデータを参加ユーザからクラウドソーシングして、これによりトレーニングセットは、参加ユーザが読むことを選ぶ、コーパス１１０からのデジタルグラフィックノベルとなる。

トレーニングモジュール４１０は、教師トレーニング段階で用いるためのトレーニングセットを準備する。１つの実施形態では、トレーニングモジュール４１０は、トレーニングセット中のデジタルグラフィックノベルから（たとえば、個別のページに対応する）原画像を抽出する。他の実施形態では、トレーニングモジュール４１０は画像処理を行なう。１つのそのような実施形態では、トレーニングモジュール４１０は、各々の原画像の寸法を測り、トレーニングセット中の各々の画像が均一な大きさとなるようにリサイズ演算を適用する。トレーニングモジュール４１０は、（たとえば、スキャンの際の誤差により）画像が傾いているかどうかも判断し、必要に応じて傾き補正を適用する。他の実施形態では、自動コントラスト機能を適用する、均一平均明るさへ正規化する、自動カラーバランシングを行なうなどの、付加的なまたは異なる画像処理を現画像に適用する。

トレーニングセットがどのように準備されても、トレーニングモジュール４１０はこれを用いて初期特徴同定モデルを構築する。実施形態の１つの組では、トレーニングモジュール４１０は、教師トレーニング段階で初期モデルを構築する。１つのそのような実施形態では、人のオペレータは、グラフィックノベルのページの画像を見せられ、パネルおよび吹き出しの場所および順序を示すよう促される。たとえば、オペレータは、ポインティングデバイスを用いて各パネルの周を順序立ててなぞり、ボタンを選択して吹き出しに移動し、各々の吹き出しの周を順になぞり得る。別の実施形態では、オペレータは、閉じたセット（たとえば、描かれているかもしれないキャラクタの一覧）から画像に含まれる他の特徴を選択するようにも依頼される。さらなる実施形態では、オペレータは、自由形式を用いてタグを付与することができる。（たとえば、クラウドソーシングを用いる）また別の実施形態では、オペレータは単に、従来のリーダを用いて行なうようにデジタルグラフィックノベルを読む。オペレータは、スクロール、ズーム、およびページめくりなどのナビゲーションコマンドを用いてグラフィックノベルを読み、トレーニングモジュール４１０は、オペレータが発するナビゲーションコマンドを記録する。同じグラフィックノベルを読みながら複数のオペレータが行なうナビゲーションの選択を集めることにより、トレーニングモジュール４１０は、将来の読み手がどのようなコンテンツの提示のされ方をより好むであろうかについての予測モデルを構築することができる。用いられる正確な方法論に拘らず、結果的に、同定された特徴を示すメタデータと対にされた一連の画像が得られる。

１つの実施形態では、モデルが同定する特徴は、グラフィックノベルコンテンツの表示がどのようにパネル同士の間でまたはパネル内で遷移すべきかを含む。デジタルグラフィックノベルコンテンツの性質に依存して、１つのパネルから次のパネルに即座に切替える、１つのパネルから別のパネルにクロスフェードする、１つのパネルから別のパネルにパンする、パネル内の吹き出し同士の間でパンする、（たとえば、吹き出しなどの）対象の特徴にズームインまたはズームアウトするなどのさまざまな遷移が適切であり得る。たとえば、パネルが単に場面を設定する全景を含むが対話を含まない場合は、これを全画面に表示することが適切かもしれない。これに対し、対話を含むパネルは、最初にパネル全体を表示し、次に最初の吹き出しにズームインし、第２の吹き出しにパンし、次に第３の吹き出しにパンするなどによって、提示されてもよい。別の例として、フレーム中に描写される雰囲気が切迫したアクション満載である場合、遷移は、表示されているビューを「揺らす」または書籍リーダ１８０を振動させることに係るかもしれない。

実施形態の別のセットでは、初期モデルの一部またはすべてを発行者メタデータから構築する。１つのそのような実施形態では、トレーニングセットは、描かれるキャラクタ、著者、作画者などのある特徴を同定する発行者メタデータを既に含むデジタルグラフィックノベルを含む。このように、トレーニングモジュール４１０は、印刷済グラフィックノベルをスキャンすることによって作製されるものなどの、対象の特徴を同定する発行者メタデータを含まないデジタルグラフィックノベルに適用することができる発行者メタデータからモデルを構築することができる。

トレーニングモジュール４１０は、一連の画像と、対にされたメタデータとから初期モデルを構築する。ある実施形態では、モデルは、１つ以上の層の中のノードのセットからなる人工神経回路網である。各ノードは、所与の特徴が入力された画像の中に存在するか否かを予測するように構成され、各層の中のノードは、先の層の中のノードよりも低レベルの抽象度に対応する。たとえば、第１の層の中のノードは、入力された画像が１ページまたは２ページに対応するか否かを判断してもよく、第２の層の中のノードは各ページ中のパネルを同定してもよく、第３の層の中のノードは各パネルの中の吹き出しを同定してもよい。同様に、第１の層のノードはキャラクタの存在を判断してもよく、第２の層のノードはキャラクタのアイデンティティを判断してもよく、第３の層のノードは、（たとえば、キャラクタのアーク中の特に重要なイベントの前または後の）そのキャラクタの特定の時代を判断してもよい。１つの実施形態では、モデルを構築する際にも発行者メタデータを用いる。たとえば、特定のヒーローの存在は、異なる発行者のグラフィックノベルで典型的に見られる異なる悪役よりもむしろ、そのヒーローの強敵が存在する可能性を高める。他の実施形態では、グラフィックモデルなどの他の種類のモデルを用いる。当業者は、一連の画像と対にされたメタデータとから構築されて他の画像の特徴を予測することができる他の種類のモデルを認識し得る。

１つの実施形態では、トレーニングモジュール４１０は、２段階プロセスを用いて初期モデルを構築する。第１の段階では、入力された画像は、対象の特徴を含むための候補である、画像中の固定された数の（たとえば１００の）領域を同定する神経回路網を通される。第２の段階では、同定された領域は、対象の特徴のアイデンティティの予測と予測の正しさの対応の確率とを生成する第２の神経回路網を通される。トレーニングモジュール４１０は次に、予測された特徴のセットを、入力された画像について人が同定した特徴のセットに変形するコストを算出する。

モデルを更新するため、トレーニングモジュール４１０は、算出された変形コストに基づいて逆伝播アルゴリズムを適用する。アルゴリズムは、神経回路網を通してコスト情報を伝播させ、ノードの重み付けを調整して、入力された画像の特徴を同定する将来的な試みに関連付けられるコストを低減する。たとえば、人が提供する特徴が、特定のキャラクタが画像の中に存在することを含みかつキャラクタが８０％の確実さで存在すると神経回路網が予測する場合、相違（または誤差）は２０％である。１つの実施形態では、トレーニングモジュール４１０は、コストを最小化するように、傾斜降下法を適用して、各ノードに適用される重み付けを繰返し調整する。ノードの重み付けは少量ずつ調整され、結果的に得られる変形コストの低減（または増大）を用いて、コスト関数の傾斜（すなわち、ノードの重み付けに対してコストが変化する率）を算出する。トレーニングモジュール４１０は次に、（傾斜が方向を変えるコスト関数中の変曲点が示す）極少を見出すまで、傾斜が示す方向のノードの重み付けをさらに調整する。換言すると、ノード重み付けは、神経回路網が学習して時間とともにより正確な予測を生成するように調整される。

予測モジュール４２０は、トレーニングセットの一部ではなかったグラフィックノベルコーパス１１０からの未トレーニング画像に機械学習モデルを適用する。機械学習モデルは、未トレーニング画像中に含まれる特徴の予測を生成する。１つの実施形態では、未トレーニング画像は数値マッピングに変換される。数値マッピングは、各々が画像の性質を表わす一連の整数値を含む。たとえば、マップ中の整数は、さまざまな色の優位性、縦方向または横方向に色が変化する平均的頻度、平均明るさなどを表わし得る。別の実施形態では、マッピングは、画像中のオブジェクトの座標、確率などの連続した量を表わす実数値を含む。当業者は、画像を数値マッピングに変換可能なさまざまなやり方を認識するであろう。

１つの実施形態では、予測モジュール４２０は、数値マッピングを入力として神経回路網に与える。第１の層で開始して、ノードは、入力された画像（たとえば、数値マップまたはその一部）に基づいて入力されたデータを受信する。各々のノードは、それが受信する入力データを分析して、それが検出する特徴が入力された画像の中に存在する可能性があるか否かを判断する。特徴が存在すると判断すると、ノードは活性化する。活性化されたノードは、活性化されたノードの重み付けに基づいて入力データを修正し、修正された入力データを神経回路網の次の層の１つ以上のノードに送る。神経回路網中の終端ノードが活性化されると、神経回路網は、その終端ノードに対応する特徴が入力画像の中に存在するという予測を出力する。１つの実施形態では、神経回路網を通じて取った経路に沿って各ノードに割当てられる重み付けに基づいて予測の正しさの百分率確度が予測に割当てられる。

検証モジュール４３０は、予測モジュール４２０が生成する画像の予測された特徴をユーザに提示し、ユーザは、予測された特徴の精度を示す検証情報を与える。１つの実施形態では、検証モジュール４３０は、正しいという確率が比較的低いもの、または特に重要であると考えられるもの（たとえば、主要キャラクタのアイデンティティ）などの、特に関心のある特徴をユーザに提示する。検証モジュール４３０は次に、提示された予測された特徴の精度を確認するようユーザを促す。たとえば、検証モジュール４３０は、画面上に予測された特徴（たとえば、キャラクタ、パネル、または吹き出し）を囲む輪郭線をつけて入力画像を表示し、１つは予測を正しいとして確認するものと、１つは予測が誤っていることを示すものとの２つのコントロールを与えてもよい。このように、検証情報は、予測が正しいか誤っているかの２値の指示である。他の実施形態では、検証モジュール４３０は、ユーザが、どのようにまたはなぜ予測が誤っているかを示す付加的な検証情報を与えるまたは修正された特徴情報を与えることができるようにするさらなるコントロールを提供する。たとえば、パネルの場所を予測する場合、検証モジュール４３０は、予測されたパネルの輪郭線のセグメントをユーザが「ドラッグアンドドロップ」して画像中のパネルの場所をより正確に反映できるようにしてもよい。

検証モジュール４３０は、ユーザが提供する検証情報に基づいて予測を生成するのに用いられるモデルを更新する。１つの実施形態では、検証モジュール４３０は、トレーニングモジュール４１０を参照して上述したのと同様の逆伝播アルゴリズムおよび傾斜降下法を用いてモデルを更新する。別の実施形態では、検証モジュール４３０は、トレーニングモジュール４１０に否定例（すなわち、以前に予測された特徴を含まないと確認された画像）を与え、トレーニングモジュールは、これらの否定例を用いて、さらなるトレーニングを行なう。換言すると、トレーニングモジュール４１０は、ある特徴を含まないことがわかっている画像に基づいてもモデルを構築することができる。

予測モデル記憶４４０は、トレーニングモジュールが生成しかつ検証モジュール４３０が更新した予測モデルを記憶する１つ以上のコンピュータ読み取り可能記憶媒体を含む。１つの実施形態では、予測モデル記憶４４０は、グラフィックノベル分析システム１２０内のハードドライブである。他の実施形態では、予測モデル記憶４４０は、クラウド記憶設備にまたはグラフィックノベルコーパス１１０の一部としてなど、どこかに位置する。

図５は、グラフィックノベル配信システム１３０の１つの実施形態を示す。示されるように、グラフィックノベル配信システム１３０は、パッケージ化モジュール５１０、編集モジュール５２０、および配信データ記憶５３０を含む。グラフィックノベル配信システム１３０の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載するのとは異なる態様で機能を構成要素間に分散させてもよい。たとえば、編集モジュール５２０を省略してもよい。

パッケージ化モジュール５１０は、分析システム１２０が行なう分析に基づいてグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成する。提示メタデータは、機械学習モデルが出力する特徴予測から生成される。前述のように、さまざまな実施形態では、提示メタデータは、特徴ならびに対応の場所および読み順（適切な場合）の一覧、パンおよびズーム命令などのどのようにグラフィックノベルコンテンツを提示すべきかに関する具体的な命令、または両者の組合せを含む。

１つの実施形態では、パッケージ化モジュール５１０は、一連の順序付けられた画像（たとえば、グラフィックノベルのページあたり１枚の画像）と各画像に対応する提示メタデータとを含む、パッケージ化デジタルグラフィックノベル（たとえば、ＰＤＦ、またはＥＰＵＢ領域ベースナビゲーション１．０標準に準拠するものなどの固定レイアウトＥＰＵＢファイル）を作成する。所与の画像のメタデータは、デジタルグラフィックノベル分析システム１２０が同定するその画像の特徴を同定し、パネルおよび吹き出しの場所と読み順とを含む。他の実施形態では、特徴は、代替的にまたは付加的に、キャラクタ、雰囲気、天気、オブジェクト、作画者、著者、発行の年または時代などを含む。

さらなる実施形態では、提示メタデータは、特徴のうちいくつかまたはすべてを明示的に同定するよりもむしろ、どのように書籍リーダ１８０が画像を提示すべきかを記述する。たとえば、提示メタデータは、吹き出しの場所および順序を同定する代わりに、所望の順にユーザの注意が吹き出しに向けられるように、ズームレベルの変更のセットおよび閲覧窓の中心を記述することができる。提示のさまざまな方法を図６を参照して以下に詳細に説明する。

編集モジュール５２０を含む実施形態では、これは、ユーザ（たとえば、著者または発行者）がパッケージ化デジタルグラフィックノベルに含まれる提示メタデータを見直すおよび改定するツールを提供する。１つのそのような実施形態では、編集モジュール５２０は、ユーザがデジタルグラフィックノベル中の画像を選択しかつ閲覧できるようにするブラウザを提供する。ユーザが画像を選択すると、ブラウザは、提示メタデータが画像中に存在することを示す特徴と、適切な場合は画像内のこれらの特徴の場所とを表示する。たとえば、編集モジュール５２０は、異なる色で輪郭が描かれた各パネルを表示し、パネルの順を示す鍵を提供してもよい。同様に、同定されたキャラクタの輪郭線を描いてもよく、キャラクタの名前を示す鍵を与えてもよい。これに代えて、編集モジュール５２０は、具体的な場所を同定することなく画像内の同定されたキャラクタの一覧を与えてもよい。特定の提示方法に拘らず、編集モジュール５２０は、ユーザがそれを用いて（たとえば、マウスを用いて画像の区域をなぞって、また可能な特徴のドロップダウンリストからその区域中に描かれるものを選択することによって）付加的な特徴を追加することができる、または（たとえば、一覧中の同定されたキャラクタの名前の上をクリックして代替的な名前を与えることによって）同定された特徴を自動的に編集することができる、１つ以上のツールを提供する。ある実施形態では、ユーザが行なった提示メタデータに対する編集はグラフィックノベル分析システム１２０に与えられ、グラフィックノベル分析システムはそれらをフィードバックとして用いて、編集されたフィードバックを生成した予測モデルを更新する。このように、そのような実施形態では、編集モジュール５２０は、二次的な検証モジュール４３０として働くか、または検証モジュールをすべて置換える。

配信データ記憶５３０は、パッケージ化デジタルグラフィックノベルを記憶する１つ以上のコンピュータ読み取り可能媒体である。ある実施形態では、配信データ記憶５３０は、デジタルグラフィックノベル配信システムのための機能を提供するサーバファームに位置する。１つのそのような実施形態では、配信システムは、（たとえば、ユーザプロファイルの一部として提供されるような）ユーザの興味と、提示メタデータが同定するグラフィックノベルの特徴との間の相関に基づいてデジタルグラフィックノベルをユーザに勧める。たとえば、ユーザがあるラインのデジタルグラフィックノベルに特定の興味を有する場合、配信システム５３０は、同じキャラクタのうちいくつかを含む異なるラインからのデジタルグラフィックノベルを勧めることがある。

以上の説明に加えて、本明細書中に記載のシステム、プログラム、または特徴がユーザ情報（たとえば、ユーザの興味、社会的ネットワーク、社会的行為または活動、職業、嗜好、現在の場所などについての情報）の収集を可能にし得るか否か、およびいつ可能にし得るかの両方についての選択をユーザが行なえるようにするコントロールをユーザに提供してもよい。コンテンツまたは通信がサーバ（たとえば、グラフィックノベル配信システム１３０）からユーザの書籍リーダ１８０に送られるか否かをユーザが制御できるようにするコントロールもユーザに提供してもよい。さらに、あるデータを、それを記憶するまたは用いる前に１つ以上のやり方で処理してもよく、これにより個人を特定できる情報が除去される。たとえば、ユーザについての個人を特定できる情報を判断することができないようにユーザのアイデンティティを処理してもよく、または、ユーザの特定の場所を判断することができないように、（市、郵便番号、または州レベルなどの）場所情報が得られるユーザの地理的場所を一般化してもよい。このように、ユーザは、ユーザについてのどの情報が収集されるか、その情報がどのように用いられるか、およびどの情報がユーザに提供されるかについてのコントロールを有してもよい。

１つの実施形態では、グラフィックノベル配信システム１３０は、著作権を侵害するデジタルグラフィックノベルを同定するためのツールも提供する。デジタルグラフィックノベルが特定のキャラクタを含有すると機械学習モデルが誤って予測すると、そのことは、実際に描かれるキャラクタが特定のキャラクタの著作権侵害になると示してしまうことがある。たとえば、競合する発行者が意図的に特定のキャラクタとほぼ同一のキャラクタを作成すると、機械学習モデルは、それを特定のキャラクタであると当初は予測する可能性がある（モデルがフィードバックを介して更新されるまで、および複製が特に甚だしい場合は、そのときですら２つを区別することが難しくなるかもしれない）。１つの実施形態では、中程度の範囲の確実さ（たとえば５０％から７０％）内の予測が潜在的な侵害としてフラグ付けされる。というのも、この範囲は、同一性についての十分な類似度が存在するが、予測においてはかなりの程度の不確実さが存在するという相違も十分あることを示すからである。フラグ付けされたキャラクタは次に、人（たとえば、被侵害の恐れがある著作権所有者の従業員）に送られて検討される。

図６は、書籍リーダ１８０の１つの実施形態を示す。示されるように、書籍リーダ１８０は、グラフィックノベル表示モジュール６１０、フィードバックモジュール６２０、およびローカルデータ記憶６３０を含む。書籍リーダ１８０の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載のものとは異なる態様で構成要素間で機能を分散させてもよい。たとえば、ある実施形態では、フィードバックモジュール６２０が省略される。

表示モジュール６１０は、それを用いてパッケージ化モジュール５１０によってパッケージ化された提示メタデータに基づいてデジタルグラフィックノベルコンテンツをユーザに提示する。さまざまな実施形態では、提示メタデータは、デジタルグラフィックノベルのページ上のパネルの場所および順序を示し、表示モジュール６１０は示された順序でパネルを提示する。１つのそのような実施形態では、表示モジュール６１０は、まず、書籍リーダ１８０の画面上に（提示メタデータ中に示されるような）最初のパネルを表示する。ユーザ入力（たとえば、画面をタップする、または「次パネル」アイコンを選択する）に応答して、表示モジュール６１０は、提示メタデータから次にどのパネルを表示すべきかを判断し、画面上の表示をその第２のパネルに遷移させる。（たとえば、画面をタップする、または「次パネル」アイコンを選択することによって）前に進むようにユーザが要求するたびに、表示モジュール６１０は提示メタデータを調べて、どのパネルを次に表示すべきかを判断し、それに応じて画面上の表示を更新する。パネルを順次提示するためのこの方法により、各パネルが全画面表示されるようになり、これは、画面が小さな書籍リーダ１８０では特に有用である。

他の実施形態では、１つのパネルから次のパネルへページを跨いでパンする、またはズームアウトして全ページを簡潔に表示し、次に次パネルにズームインするなどの、パネル同士の間の異なる遷移を用いる。そのような遷移は、次のパネルがどのように全体として話にフィットするかに関する文脈上の情報を読み手に与える。１つの実施形態では、１つのパネルと次のパネルとの間の望ましい遷移の選択は、機械学習モデルが予測する特徴であり、提示メタデータが、パネルの各々の対の間で用いるべき遷移を同定する。前述のように、対象の特徴にズームインし、対話の箇所で吹き出し同士の間をパンするなどのパネル内での遷移を提示メタデータ中にも規定することができる。別の実施形態では、用いられる遷移は、（たとえば、お気に入りメニューを介して）ユーザが選択可能である。

１つの実施形態では、表示モジュール６１０は、提示メタデータがパネルの場所および順序を示していないか、または合計ページ面積のしきい値部分（たとえば７５％）未満に対応するパネルについての場所および順序しか示さない場合に用いられるデフォルト表示モードを含む。たとえば、合計ページ面積のしきい値量未満が（提示メタデータに示されるような）パネルに対応する場合、表示モジュール６１０はまず全ページを表示し、次に各々のパネルにズームインする。別の例として、合計ページ面積のしきい値量未満がパネルに対応する場合、表示モジュール６１０は、まず全ページを表示し、どのようにページをナビゲートするかをユーザが選択できるようにする、ズームおよびスクロールのためのユーザコントロールを提供する。

ある実施形態では、表示モジュール６１０は、提示メタデータが示すように、吹き出しの場所および順序に従ってデジタルグラフィックノベルを提示する。１つのそのような実施形態では、表示モジュール６１０は、提示メタデータに示される順序で各々の吹き出しを表示し、テキストの読みやすさと文脈を与えるのに十分な量の周囲イメージを提供することとのバランスを取るズームレベルを選択する。表示モジュール６１０は、用いるズームレベルを選択することができる、またはこれを提示メタデータに含めることができる。表示モジュール６１０は、ユーザ入力（たとえば、画面をタップすること、または「次の吹き出し」コントロールを選択すること）に応答して、（提示メタデータに示されるように）１つの吹き出しから次の吹き出しへ進む。別の実施形態では、提示メタデータは、まず画面上に全パネル（またはページ）を提示し、次に各々の吹き出しに順次ズームインするよう表示モジュール６１０に指示する。

また別の実施形態では、完全なパネルまたはページを画面上に表示し、（順序またはユーザ選択に基づいて）選択された吹き出しに対応する画像の区域のみを拡大する。まず、表示モジュール６１０は、画面にズームすることなく全パネルを表示する。読み手が「次の吹き出し」コントロールを選択すると、（提示メタデータが示すような）第１の吹き出しを含む画像の区域が拡大され、読み手は、（たとえばスクロールバーを用いて）その吹き出しの中のテキストを読み進むことができる。しかしながら、吹き出しを含まない画像の残余は拡大されないままである。このように、読み手は、１つのビューと別のビューとの間を切換える必要なく、テキストを読み、パネル中の画像の残余が与える文脈情報を得ることができる。

デジタルグラフィックノベルの特徴を同定する提示メタデータを含めることにより、高度な正確さでの自動インデックス付けも可能になる。たとえば、１つの実施形態では、表示モジュール６１０は、デジタルグラフィックノベル中の所与のキャラクタのあらゆる登場を示し、（たとえば、特定のインデックスエントリー上をクリックすることによって）各々のインスタンスへの迅速なナビゲーションを可能にするインデックスパネルを与える。別の実施形態では、表示モジュール６１０は、１つ以上のフィールドに基づいてユーザが探索することができる自動インデックスを与える。たとえば、野球のバットも含む雨中の２つの特定のキャラクタの画像を見つけたいと読み手が思っている場合、読み手は、各々の項目を探索用語として入力することができ、表示モジュール６１０は、（それが存在すると仮定して）即座に画像を表示するか、または（たとえば、１つよりも多くが存在する場合は）可能な画像の一覧を与える。

さらに、表示モジュール６１０のさまざまな実施形態は、デジタルグラフィックノベルの読み手の経験を向上させる付加的な機能性を提供する。１つの実施形態では、提示メタデータは、広告であるパネルまたはページを示す。コンテンツの残余とともに順に広告を表示するよりもむしろ、表示モジュール６１０は広告を分離し、グラフィックノベルの冒頭または終わりに、最初はデジタルグラフィックノベルの背後に現われるがしかし閉じられると残るポップアップウィンドウの中に、読み手に送られる電子メールの中になど、別の態様でこれを提示する。広告が表示される態様を、提示メタデータの中に示すことができる、または（たとえばユーザ設定に基づいて）表示モジュール６１０によって決めることができる。表示モジュール６１０は、製品のウェブサイトへのリンクまたは製品を購入できるオンライン店舗などの、広告された製品についてのさらなる情報へのアクセスもユーザに提供してもよい。

ある実施形態では、表示モジュール６１０は、表示されたパネルに関連して音響効果または効果音楽を提供する。１つのそのような実施形態では、提示メタデータは、特定の音響効果および演奏すべき曲を示す。別のそのような実施形態では、提示メタデータは、パネルの雰囲気を示し、表示モジュール６１０は、（たとえばユーザの好みに基づいて）適切な音楽を選択する。また別のそのような実施形態では、提示メタデータは、パネル中に描かれるオブジェクト（たとえばマシンガン）を示し、表示モジュール６１０は、適切な音響効果（たとえばマシンガンが発砲される音）を選択する。当業者は、デジタルグラフィックノベルの表示を機械学習モデルが同定する特徴に基づいてカスタマイズすることができる他の態様を認識し得る。

フィードバックモジュール６２０はインターフェイスを提供し、ユーザは、これを用いて、デジタルグラフィックノベルの提示に関するフィードバックを提供することができる。さまざまな実施形態では、フィードバックモジュール６２０は、提示に関する問題を報告するのにユーザが選択することができる表示装置の画面上の仮想ボタンを設ける。たとえば、表示モジュール６１０がパネルまたは吹き出しを誤った順で提示する場合、ユーザは、ボタンを押して、正しい順を記述する短いフィードバック書式を完成させることができる。１つのそのような実施形態では、提示メタデータはローカルに更新されるので、ユーザが再びデジタルグラフィックノベルを読むときには、パネルおよび吹き出しがユーザが同定するような正しい順で提示される。別のそのような実施形態では、フィードバックモジュール６２０は、提示メタデータを全システムにわたって更新すべきか否かを判断する見直しのために、グラフィックノベル配信システム１３０の管理者にフィードバックを送る。また別の実施形態では、フィードバックをグラフィックノベル分析システム１２０に与え、グラフィックノベル分析システムは、これを用いて、まず特徴を同定した予測モデルを更新する。

ローカルデータ記憶６３０は、デジタルグラフィックノベル、デジタルグラフィックノベルコンテンツ、および提示メタデータを表示するためのソフトウェアを記憶する１つ以上のコンピュータ読み取り可能媒体である。１つの実施形態では、ユーザは、提示メタデータを含むパッケージ化デジタルグラフィックノベルをオンライン市場からローカルデータ記憶６３０にダウンロードする。提示モジュール６１０は次に、ローカルデータ記憶６３０からパッケージ化デジタルグラフィックノベルにアクセスする。別の実施形態では、パッケージ化デジタルグラフィックノベルは、（たとえばクラウドサーバに）遠隔に記憶され、表示モジュール６１０はネットワーク１７０を介してこれにアクセスする。

例示的な方法
図７は、デジタルグラフィックノベル内でのコンピュータ支援ナビゲーションを提供する方法７００の１つの実施形態を示す。図７は、方法７００のステップをネットワーク化コンピューティング環境１００のさまざまな構成要素によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。

図７に示される実施形態では、方法７００は、トレーニングモジュール４１０がデジタルグラフィックノベルの特徴を予測的に同定するためのモデルを構築すること７１０で開始する。前述のように、モデルはまず、教師学習段階で構築され７１０、その間に人のオペレータがコーパス１１０から選択されるデジタルグラフィックノベルのサブセット中の特徴を同定する。モデルを構築する７１０ための方法８００の１つの実施形態を図８を参照して以下に詳細に説明する。

予測モジュール４２０は、デジタルグラフィックノベルコンテンツにモデルを適用して７２０、その中に含まれる特徴を予測する。１つの実施形態では、特徴は、デジタルグラフィックノベル内のパネルおよび吹き出しの場所と順序とを含む。他の実施形態では、予測モジュール４２０は、好ましい遷移、描かれるオブジェクト、作画者、著者、描かれるキャラクタ、天気、雰囲気、あらすじ、テーマ、広告などの異なるまたは付加的な特徴を同定する。

検証モジュール４３０は、人による見直しに基づいてモデルが行なう予測を検証する７３０。１つの実施形態では、検証７３０は、モデルの初期トレーニングの一部として行なわれる。別の実施形態では、読み手から検証フィードバックがクラウドソーシングされ、受けたフィードバックに基づいて連続してまたは周期的にモデルが更新される。たとえば、検証モジュール４３０は、１ヶ月の期間にわたってクラウドソーシングされたフィードバックを集め、次に期間の終わりに更新モデルを発生させてもよい。モデルを検証する７３０および更新するための方法９００の１つの実施形態を図９を参照して以下に詳細に説明する。

パッケージ化モジュール５１０は、グラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成する７４０。提示メタデータは、検証モジュール４３０から受信した検証済予測（または予測モジュール４２０から直接に受信した予測）に基づいて、パッケージ化モジュール５１０によって生成される。前述のように、提示メタデータは、予測に基づいて特徴を同定する、または特定的な提示命令を与えることができる、または両方の方策の組合せを用いることができる。１つの実施形態では、提示メタデータは、モデルが予測するような特徴の場所と（適切な場合は）順序とを示す。別の実施形態では、提示メタデータは、モデルが生成する予測された特徴に基づいて、デジタルグラフィックノベルのための推奨される提示の態様を示す。たとえば、推奨される提示の態様は、グラフィックノベルコンテンツに対する表示窓の中心の位置を変更する、ズームレベルを変更する、ならびに音響効果および効果音楽などの他の提示要素を用いる、ための指令の一覧であってもよい。

パッケージ化デジタルグラフィックノベルは、提示メタデータが示す態様に従う提示のために書籍リーダ１８０に提供される７５０。１つの実施形態では、提示メタデータは、特徴の場所と順序とを示し、デジタルグラフィックノベルを提示する正確な態様は、（たとえば、ユーザの閲覧の好みに基づいて）書籍リーダ１８０によってローカルに決められる。このように、異なる書籍リーダ１８０は、同じデジタルグラフィックノベルを異なるように提示する７５０ことができる。別の実施形態では、提示メタデータは、デジタルグラフィックノベルを提示すべき態様を記述する命令を含む。結果的に、書籍リーダ１８０は、提示メタデータが指令するようにデジタルグラフィックノベルを提示する。

図８は、予測モデルを構築するための方法８００の１つの実施形態を示す。図８は、方法８００のステップをトレーニングモジュール４１０によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。

図８に示される実施形態では、方法８００は、トレーニングモジュール４１０が、コーパス１１０からデジタルグラフィックノベルのサブセットを同定して８１０、トレーニングセットとして用いることで開始する。上述のように、図４を参照して、サブセットは、ランダムに選択されても、または特性の所望の混合（たとえば、さまざまな異なる発行者および著者、さまざまなキャラクタなど）を有するように選ばれてもよい。

図８に戻って、トレーニングモジュール４１０は、トレーニングセット中のデジタルグラフィックノベルから（たとえば、個別のページに対応する）原画像を抽出する８２０。１つの実施形態では、トレーニングに備えて原画像を処理する。たとえば、均一の寸法を有するように原画像をリサイズすることができ、トレーニングセットにわたる均一性を与えるために明るさおよびコントラストの設定を変更することができる。

行なわれる任意の前処理に拘らず、トレーニングモジュール４１０は、教師トレーニング段階を開始して８３０、原画像の特徴を同定する。上述のように、図４を参照して、教師トレーニング段階では、人のオペレータが、処理された画像（または、処理が行なわれなかった場合には原画像）の特徴を同定する。このように、教師トレーニング段階の終結時に、トレーニングモジュール４１０は、各々が画像が含む特徴を示す対応のメタデータと対にされた画像のセットを有する。

教師トレーニング段階の間に生成されるトレーニングセットおよび対応のメタデータに基づいて、トレーニングモジュール４１０は、デジタルグラフィックノベルの特徴を予測的に同定するためのモデルを作成する８４０。１つの実施形態では、モデルは、パネルの場所および順序と、描かれるキャラクタのアイデンティティとを予測的に同定する神経回路網である。モデルはトレーニングセットから構築されたので、トレーニングセット中のデジタルグラフィックノベルのうち任意のもの（または少なくとも大部分）が提供されると、これは、パネル場所、パネル順序、および描かれるキャラクタを正確に同定する。このように、同じ神経回路網が以前にそれが未適用のデジタルグラフィックノベルに適用されると、パネルと描かれるキャラクタとを成功裏に同定する確率が合理的に高くなる。モデルを成功裏に作成すると８４０、トレーニングモジュール４１０はこれを予測モデル記憶４４０に記憶する８５０。

図９は、フィードバックに基づいて予測を検証する方法９００の１つの実施形態を示す。図９は、方法９００のステップを予測モジュール４２０および検証モジュール４３０によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順で行なう、または異なるステップを行なうことがある。

図９に示される実施形態では、方法９００は、予測モジュール４２０が分析対象の画像を受信すること９１０で開始する。予測モジュール４２０は、予測モデルを画像（たとえば、図８の方法を用いて生成されたもの）に適用して９２０、画像特徴の１つ以上の予測を発生させる。明瞭さのため、画像中のパネルの場所、パネルの順序、および各々のパネルに描かれるキャラクタについての予測をモデルが生成する実施形態を参照して図９の残余を説明する。明細書の残余に鑑みて、当業者は、多数の他の特徴および特徴の組合せに関する予測をモデルが生成し得ることを認識するであろう。

検証モジュール４３０は、予測モジュールが行なった予測が正しいか否かを示すフィードバックを取得する９３０。前述のように、フィードバックは、開発の際にモデルをトレーニングするという作業を課されたオペレータからのものであることができる、または実用化の後にユーザからクラウドソーシングされることができる。１つの実施形態では、フィードバックは２値であり、予測が正しいか誤っているかを示す。他の実施形態では、フィードバックは、予測が誤っていた場合の訂正も含む。たとえば、予測されたフレームの場所が誤っている場合、フィードバックはフレームの正しい場所を示すことができる。同様に、フィードバックは、フレームの正しい順序を与えることができる。さらに、モデルがキャラクタを誤って同定すると、フィードバックは正しいキャラクタ同定を与えることができる。

取得される９３０フィードバックの具体的な性質に拘らず、検証モジュール４３０は、これを用いてモデルを更新する９４０。図４を参照して上述したように、１つの実施形態では、傾斜降下法を用いる逆伝播アルゴリズムを用いてモデルを更新する。このように、フィードバックの量が多くなる（accounted for）につれて、モデルが生成する予測の精度が時間とともに向上する。

付加的な考察
以上の説明のある部分は、アルゴリズム的プロセスまたは動作の観点で実施形態を説明する。これらのアルゴリズム的説明および表示は、データ処理技術分野の当業者によって一般的に用いられて、その成果（work）の実態を効果的に他の当業者に伝える。これらの動作は、機能的、計算的、または論理的に説明されるが、プロセッサまたは均等の電気回路による実行のための命令、マイクロコードなどを備えるコンピュータプログラムによって実現されることが理解される。さらに、普遍性を失わなければ、時には、機能的動作のこれらの配置をモジュールと称することが好都合であることもわかっている。記載される動作およびその関連のモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはその任意の組合せで具現化されてもよい。

本明細書中で用いるように、「１つの実施形態」または「実施形態」に対する任意の参照は、実施形態に関連して説明される特定の要素、特徴、構造、または特性が少なくとも１つの実施形態に含まれることを意味する。「１つの実施形態では」という句が明細書中のさまざまな場所に現われても、必ずしもすべてが同じ実施形態を参照するわけではない。

「結合される」および「接続される」という表現をそれらの派生語とともに用いてある実施形態を説明することがある。これらの用語は、互いに対する同義語として意図されるものではないことを理解すべきである。たとえば、２つ以上の要素が互いと直接に物理的または電気的に接していることを示すのに、「接続される」という用語を用いてある実施形態を説明することがある。別の例では、２つ以上の要素が互いと直接に物理的または電気的に接していることを示すのに、「結合される」という用語を用いてある実施形態を説明することがある。しかしながら、「結合される」という用語は、２つ以上の要素が互いと直接に接しているのではなく、依然として互いと協働するまたは相互作用することも意味することがある。実施形態はこの文脈において限定されない。

本明細書中で用いるように、「備える」、「備えている」、「含む」、「含んでいる」、「有する」、「有している」という用語、またはその任意の他の変形は、非排他的含有をカバーすることが意図される。たとえば、要素の一覧を備えるプロセス、方法、物品、または機器は、それらの要素のみに必ずしも限定されるのではなく、明示的に列挙されないまたはそのようなプロセス、方法、物品、または機器に内在的でない他の要素を含むことがある。さらに、そうでないと明示的に述べていなければ、「または」は、排他的なまたはではなく、包括的なまたはを指す。たとえば、条件ＡまたはＢは、Ａが真であり（または存在し）Ｂが偽である（または存在しない）、Ａが偽であり（または存在せず）Ｂが真である（または存在する）、およびＡとＢとの両者が真である（または存在する）のうち任意の１つによって満たされる。

さらに、「ａ」または「ａｎ」の使用は、本明細書中の実施形態の要素および構成要素を記載するのに用いられる。これは、便宜上、開示の一般的な意味を与えるためにのみ行なわれる。この記載は、１つまたは少なくとも１つを含むように解釈されるべきであり、反対の意味であるということが自明でなければ単数形は複数も含む。

この開示を読むと、当業者は、インデックス付けされたｅブック注釈を与えるためのシステムおよびプロセスのためのさらに付加的な代替的構造および機能設計を認めるであろう。このように、特定の実施形態および適用例を示しかつ記載したが、記載される主題は、本明細書中に開示される正確な構成および構成要素に限定されるのではなく、当業者には明らかであろうさまざまな修正、変更、および変形が本明細書中に開示される方法および機器の配置、動作、および詳細においてなされてもよいことを理解すべきである。発明の範囲は、以下の請求項によってのみ限定されるものである。

Claims

書籍リーダにデジタルグラフィックノベルコンテンツを提供する、コンピュータで実現される方法であって、
デジタルグラフィックノベルコンテンツを受信することと、
機械学習モデルを適用することによって前記デジタルグラフィックノベルコンテンツの特徴を予測することとを備え、予測された前記特徴は、複数のパネルの場所と前記複数のパネルの読み順とを含み、さらに
前記デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成することを備え、前記提示メタデータは、前記複数のパネルの前記場所と読み順とに基づいて前記デジタルグラフィックノベルコンテンツを提示すべき態様を示し、さらに
前記提示メタデータ中に示される前記態様に従って前記デジタルグラフィックノベルコンテンツを提示するために前記パッケージ化デジタルグラフィックノベルを前記書籍リーダに提供することを備える、コンピュータで実現される方法。
前記機械学習モデルを構築することをさらに備え、前記構築することは、
コーパスからのデジタルグラフィックノベルのサブセットを同定してトレーニングセットとして用いることと、
前記トレーニングセット中のデジタルグラフィックノベルから画像を抽出することと、
教師トレーニング段階を開始して前記画像の特徴を同定することと、
前記教師トレーニング段階の間に同定された前記特徴に基づいて前記機械学習モデルを作成することとを備える、請求項１に記載のコンピュータで実現される方法。
前記コンピュータで実現される方法は、
前記デジタルグラフィックノベルコンテンツから画像を抽出することと、
前記画像を表わす数値マップを発生させることとをさらに備え、
前記機械学習モデルは、前記数値マップを入力として取り、かつ対象の特徴に対応する可能性がある前記画像内の複数の候補領域を出力する第１の人工神経回路網を含み、前記デジタルグラフィックノベルコンテンツの前記予測された特徴は候補領域に基づく、請求項１に記載のコンピュータで実現される方法。
前記機械学習モデルは、前記候補領域を入力として受け、かつ１つ以上の予測された特徴と、各々の予測された特徴ごとの前記予測の正しさの対応の確率とを出力する第２の人工神経回路網をさらに含む、請求項３に記載のコンピュータで実現される方法。
前記予測された特徴は第１のパネルと第２のパネルとの間の推奨される遷移をさらに備え、前記提示メタデータは前記推奨される遷移の指示を含む、請求項１に記載のコンピュータで実現される方法。
前記予測された特徴は、右から左に読まれることが意図されるコンテンツの含有をさらに備え、前記複数のパネルの前記読み順は、右から左に読まれることが意図されるコンテンツの前記含有に基づいて予測される、請求項１に記載のコンピュータで実現される方法。
前記予測された特徴は、パネル内の複数の吹き出しの場所と前記複数の吹き出しの読み順とをさらに備え、前記提示メタデータ中に示される、前記デジタルグラフィックノベルコンテンツを提示すべき前記態様は、前記複数の吹き出しの前記場所と順序とにさらに基づく、請求項１に記載のコンピュータで実現される方法。
デジタルグラフィックノベルコンテンツを書籍リーダに提供するための電子装置であって、前記電子装置は、
実行可能なコンピュータプログラムコードを記憶する一時的でないコンピュータ読み取り可能記憶媒体を備え、前記実行可能なコンピュータプログラムコードは、デジタルグラフィックノベルコンテンツを受信し、かつ機械学習モデルを適用することによって前記デジタルグラフィックノベルコンテンツの特徴を予測するための命令を含み、予測された前記特徴は複数のパネルの場所と前記複数のパネルの読み順とを含み、前記実行可能なコンピュータプログラムコードはさらに
前記デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成するための命令を含み、前記提示メタデータは、前記複数のパネルの前記場所と読み順とに基づいて前記デジタルグラフィックノベルコンテンツを提示すべき態様を示し、前記実行可能なコンピュータプログラムコードはさらに
前記提示メタデータ中に示される前記態様に従って前記デジタルグラフィックノベルコンテンツを提示するために前記パッケージ化デジタルグラフィックノベルを前記書籍リーダに提供するための命令を含み、前記電子装置はさらに
前記コンピュータプログラムコードを実行するための１つ以上のプロセッサを備える、電子装置。
前記実行可能なコンピュータプログラムコードは、前記機械学習モデルを構築するための命令をさらに含み、前記構築することは、
コーパスからのデジタルグラフィックノベルのサブセットを同定してトレーニングセットとして用いることと、
前記トレーニングセット中のデジタルグラフィックノベルから画像を抽出することと、
教師トレーニング段階を開始して前記画像の特徴を同定することと、
前記教師トレーニング段階の間に同定された前記特徴に基づいて前記機械学習モデルを作成することとを備える、請求項８に記載の電子装置。
前記実行可能なコンピュータプログラムコードは、前記デジタルグラフィックノベルコンテンツから画像を抽出し、かつ前記画像を表わす数値マップを発生させるための命令をさらに含み、
前記機械学習モデルは、第１の人工神経回路網および第２の人工神経回路網を含み、前記第１の人工神経回路網は、前記数値マップを入力として取りかつ対象の特徴に対応する可能性がある前記画像内の複数の候補領域を出力し、前記デジタルグラフィックノベルコンテンツの前記予測された特徴は候補領域に基づき、前記第２の人工神経回路網は、前記候補領域を入力として受け、かつ１つ以上の予測された特徴と各々の予測された特徴ごとの前記予測の正しさの対応の確率とを出力する、請求項８に記載の電子装置。
前記予測された特徴は第１のパネルと第２のパネルとの間の推奨される遷移をさらに備え、前記提示メタデータは前記推奨される遷移の指示を含む、請求項８に記載の電子装置。
前記予測された特徴は、右から左に読まれることが意図されるコンテンツの含有をさらに備え、前記複数のパネルの前記読み順は、右から左に読まれることが意図されるコンテンツの含有に基づいて予測される、請求項８に記載の電子装置。
前記予測された特徴は、パネル内の複数の吹き出しの場所と前記複数の吹き出しの読み順とをさらに備え、前記提示メタデータ中に示される、前記デジタルグラフィックノベルコンテンツを提示すべき前記態様は、前記複数の吹き出しの前記場所と順序とにさらに基づく、請求項８に記載の電子装置。
デジタルグラフィックノベルコンテンツを書籍リーダに提供するための実行可能なコンピュータプログラムコードを記憶する一時的でないコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラムコードは、デジタルグラフィックノベルコンテンツを受信し、かつ機械学習モデルを適用することによって前記デジタルグラフィックノベルコンテンツの特徴を予測するための命令を備え、前記予測された特徴は複数のパネルの場所と前記複数のパネルの読み順とを含み、前記コンピュータプログラムコードは、
前記デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成するための命令をさらに備え、前記提示メタデータは、前記複数のパネルの前記場所と読み順とに基づいて前記デジタルグラフィックノベルコンテンツを提示すべき態様を示し、前記コンピュータプログラムコードは、
前記提示メタデータ中に示される前記態様に従って前記デジタルグラフィックノベルコンテンツを提示するために前記パッケージ化デジタルグラフィックノベルを前記書籍リーダに提供するための命令をさらに備える、一時的でないコンピュータ読み取り可能記憶媒体。
前記コンピュータプログラムコードは、前記機械学習モデルを構築するための命令をさらに備え、前記構築することは、
コーパスからのデジタルグラフィックノベルのサブセットを同定してトレーニングセットとして用いることと、
前記トレーニングセット中のデジタルグラフィックノベルから画像を抽出することと、
教師トレーニング段階を開始して前記画像の特徴を同定することと、
前記教師トレーニング段階の間に同定された前記特徴に基づいて前記機械学習モデルを作成することとを備える、請求項１４に記載の一時的でないコンピュータ読み取り可能記憶媒体。
前記コンピュータプログラムコードは、前記デジタルグラフィックノベルコンテンツから画像を抽出し、かつ前記画像を表わす数値マップを発生するための命令をさらに備え、
前記機械学習モデルは、前記数値マップを入力として取り、かつ対象の特徴に対応する可能性がある前記画像内の複数の候補領域を出力する第１の人工神経回路網を含み、前記デジタルグラフィックノベルコンテンツの前記予測された特徴は候補領域に基づく、請求項１４に記載の一時的でないコンピュータ読み取り可能記憶媒体。
前記機械学習モデルは、前記候補領域を入力として受け、かつ１つ以上の予測された特徴と各々の予測された特徴ごとの前記予測の正しさの対応の確率とを出力する第２の人工神経回路網をさらに含む、請求項１６に記載の一時的でないコンピュータ読み取り可能記憶媒体。
前記予測された特徴は第１のパネルと第２のパネルとの間の推奨される遷移をさらに備え、前記提示メタデータは前記推奨される遷移の指示を含む、請求項１４に記載の一時的でないコンピュータ読み取り可能記憶媒体。
前記予測された特徴は、右から左に読まれることが意図されるコンテンツの含有をさらに備え、前記複数のパネルの前記読み順は、右から左に読まれることが意図されるコンテンツの含有に基づいて予測される、請求項１４に記載の一時的でないコンピュータ読み取り可能記憶媒体。
前記予測された特徴は、パネル内の複数の吹き出しの場所と前記複数の吹き出しの読み順とをさらに備え、前記提示メタデータ中に示される、前記デジタルグラフィックノベルコンテンツを提示すべき前記態様は、前記複数の吹き出しの前記場所と順序とにさらに基づく、請求項１４に記載の一時的でないコンピュータ読み取り可能記憶媒体。