JP2020047227A

JP2020047227A - フォトブック作製システム及びサーバ装置

Info

Publication number: JP2020047227A
Application number: JP2018177699A
Authority: JP
Inventors: 亜紗実横山; Asami Yokoyama; 宮本　大輔; Daisuke Miyamoto; 大輔宮本
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2020-03-26

Abstract

【課題】所定のユーザのみがスマートスピーカに話しかけることでフォトブックの編集や注文を行えるようにする。【解決手段】本実施形態に係るフォトブック作製システムは、サーバ装置と、音声の出力及びユーザの発話の集音を行うスマートスピーカと、を備える。前記サーバ装置は、前記ユーザの音声データを格納する記憶部と、前記ユーザの音声指示に基づいて前記記憶部内にアルバムを作成するアルバム作成部と、ユーザ端末から受信したデータを前記アルバムに格納する画像受信部と、前記ユーザの音声がフォトブックの作製指示及びアルバムの指定である場合に、前記記憶部に格納された前記音声データを用いて、ユーザの音声認証を行う音声認証部と、前記アルバムに格納された画像の中から複数の画像を選択する画像選択部と、選択された画像を用いてフォトブックデータを生成する編集処理部と、を有する。【選択図】図１

Description

本発明は、フォトブック作製システム及びサーバ装置に関する。

デジタルカメラやスマートフォン等で撮影した画像を、ネットワーク上にアップロードして保存することが行われている。また、アップロードした画像をプリントして、フォトブックやポスター等の印画物を作製するサービスが知られている（例えば特許文献１参照）。

従来、アップロードした画像を用いてフォトブックを注文する場合、パーソナルコンピュータやスマートフォンを操作して画像の選択、配置、コメントの入力等を行っていた。

近年、対話型の音声操作に対応したＡＩアシスタントを利用可能なスマートスピーカが普及している。ユーザがスマートスピーカに話しかけることで、検索エンジンを用いた調べ物、ニュースの読み上げ、音楽や動画の再生、家電の操作など、様々なアクションを実行できる。

特開２００５−３３９２１４号公報

本発明は、所定のユーザのみがスマートスピーカに話しかけることでフォトブックの編集や注文を行うことができるフォトブック作製システム及びサーバ装置を提供することを課題とする。

本発明によるフォトブック作製システムは、ユーザ端末から受信した画像データを保存するサーバ装置と、前記サーバ装置と通信可能に接続され、音声の出力及びユーザの発話の集音を行うスマートスピーカと、を備え、前記サーバ装置は、前記スマートスピーカを介して入力されたユーザの音声を理解し、ユーザに対する応答文を生成し、前記スマートスピーカを介して前記応答文を前記ユーザへ出力する対話処理部と、前記ユーザの音声データを格納する記憶部と、前記ユーザの音声が、画像データを保存する領域となるアルバムの作成指示である場合に、前記記憶部内にアルバムを作成するアルバム作成部と、前記ユーザ端末から受信したデータを前記アルバムに格納する画像受信部と、前記ユーザの音声がフォトブックの作製指示、及びフォトブックに使用する画像が格納されたアルバムの指定である場合に、前記記憶部に格納された前記音声データを用いて、ユーザの音声認証を行う音声認証部と、前記アルバムに格納された画像の中から複数の画像を選択する画像選択部と、選択された画像を用いてフォトブックデータを生成する編集処理部と、を有するものである。

本発明の一態様では、前記サーバ装置は、指定されたアルバムが複数ユーザのユーザ端末から受信した画像を格納するものである場合、フォトブックの作製指示を受け付けると、他ユーザのユーザ端末にフォトブックが作製されることを通知する共有ユーザ問合せ部をさらに備える。

本発明の一態様では、前記共有ユーザ問合せ部は、フォトブック作製の可否を問い合わせ、前記画像選択部は、フォトブックの作製を許可しなかった他ユーザのユーザ端末から受信した画像を選択しない。

本発明の一態様では、前記サーバ装置は、前記フォトブックデータのプレビュー画面を前記ユーザ端末へ送信する。

本発明によるサーバ装置は、音声の出力及びユーザの発話の集音を行うスマートスピーカと通信可能に接続されたサーバ装置であって、前記スマートスピーカを介して入力されたユーザの音声を理解し、ユーザに対する応答文を生成し、前記スマートスピーカを介して前記応答文を前記ユーザへ出力する対話処理部と、前記ユーザの音声データを格納する記憶部と、前記ユーザの音声が、画像データを保存する領域となるアルバムの作成指示である場合に、前記記憶部内にアルバムを作成するアルバム作成部と、ユーザ端末から受信したデータを前記アルバムに格納する画像受信部と、ユーザ端末から受信した画像データを保存する記憶部と、前記ユーザの音声がフォトブックの作製指示、及びフォトブックに使用する画像が格納されたアルバムの指定である場合に、前記記憶部に格納された前記音声データを用いて、ユーザの音声認証を行う音声認証部と、前記指定されたアルバムに格納された画像の中から複数の画像を選択する画像選択部と、前記画像選択部により選択された画像を用いてフォトブックデータを生成する編集処理部と、を備えるものである。

本発明によれば、音声認証により登録音声と一致したユーザのみが、スマートスピーカに話しかけることで、フォトブックの編集や注文を行うことができる。

本発明の実施形態に係るフォトブック作製システムの概略図である。アルバム作成指示の例を示す図である。フォトブック作製指示の例を示す図である。フォトブックのプレビュー画面の例を示す図である。フォトブック編集指示の例を示す図である。フォトブック編集指示の例を示す図である。フォトブック編集指示の例を示す図である。フォトブックの最終確認画面の例を示す図である。フォトブック作製システムのブロック構成図である。変形例によるユーザ端末の例を示す図である。

以下、本発明の実施の形態を図面に基づいて説明する。

図１に示すように、本発明の実施形態に係るフォトブック作製システムは、サーバ装置１及びスマートスピーカ２を備える。サーバ装置１は、インターネット等の通信ネットワークを介して、スマートスピーカ２及びユーザ端末３，７と通信可能となっている。

ユーザ端末３，７は、スマートフォン、タブレット端末等である。ユーザ端末３はユーザＡが所有する端末であり、ユーザ端末７はユーザＢが所有する端末である。サーバ装置１には、ユーザＡ，Ｂからアップロードされた画像データが保存されている。スマートスピーカ２は、通信機能と対話型音声操作のアシスタント機能とを有するスピーカであり、ユーザＡの自宅等に設置されている。

スマートスピーカ２及びユーザ端末３には、サーバ装置１から、ユーザＡを識別する同一の識別情報（ユーザＩＤ）が付与されている。従って、サーバ装置１は、スマートスピーカ２及びユーザ端末３が、同一のユーザＡが使用するものであることを認識している。上述した画像のアップロードは、ユーザ端末３から行われてもよいし、同じユーザＩＤでログインした他の端末から行われてもよい。

サーバ装置１は、画像解析機能を有し、ユーザからアップロードされた画像の解析を行う。画像解析は、例えば、画像内の物体やテキストの検出、公序良俗に反するおそれのある画像の検出、著作権を侵害する可能性のある画像の検出である。例えば、サーバ装置１はウェブ上で類似している画像を検索して、著作権侵害の有無を判定する。サーバ装置１は、公序良俗に反する画像や著作権を侵害する可能性のある画像については、フォトブックに使用すべきでない不適切画像と判定し、その他の画像についてはフォトブックに使用可能な画像と判定する。

本実施形態において、ユーザＡは、スマートスピーカ２に話しかけることで、アップロードした画像を格納するためのアルバム（フォルダ）を作成する。また、ユーザＡは、スマートスピーカ２に話しかけることで、フォトブックに使用する画像が格納されているアルバムを指定し、フォトブックの編集を行い、ユーザ端末３に表示されるプレビュー画面を確認する。

ユーザＡの自宅に設置されたスマートスピーカ２は、ユーザＡの家族など、ユーザＡ以外も使用することができ、他ユーザが、ユーザＡ作成のアルバムを利用してフォトブックを注文できてしまうことが好ましくない場合がある。そのため、音声認証を行い、ユーザＡ作成のアルバムを利用してフォトブックを作製することを指示する者がユーザＡであるか否かを確認する。

音声認証を行うために、事前に（例えばアルバム作成時に）、ユーザＡの音声を登録する。例えば、図２に示すように、ユーザＡは「ＯＫ、スピーカ」のような所定のウェイクワード（コマンドワード）でスマートスピーカ２に呼びかけ、アシスタント機能を起動させる。続いて、ユーザＡはアルバムを作成するようにスマートスピーカ２に話かける。例えば「１２月の旅行のアルバムを作って」と話しかける。

スマートスピーカ２は、ウェイクワード以降のユーザの発話の音声データをサーバ装置１へ送信する。サーバ装置１は、ユーザの発話文を解釈し、アルバムを作成する。サーバ装置１は、アルバムを作成すると、音声登録を要求する応答文（音声データ）を生成してスマートスピーカ２へ送信する。スマートスピーカ２は、音声登録を行うように、音声を出力する。例えば、スマートスピーカ２は「あなたの音声を登録するので、キーワードを３回喋ってください」という音声を出力する。

ユーザＡがキーワードを喋ると、スマートスピーカ２は、音声データをサーバ装置１へ送信する。サーバ装置１は、ユーザＡの音声を登録する。

ユーザＡは、ユーザ端末３等を用いて、作成したアルバムに画像を登録する。登録する画像は、ユーザ端末３の内蔵カメラで撮影したものでもよいし、別のデジタルカメラで撮影したものでもよい。

ユーザは、スマートスピーカ２に話しかけることでフォトブックの編集を行い、ユーザ端末３に表示されるプレビュー画面を確認できる。

例えば、図３に示すように、ユーザは「ＯＫ、スピーカ」のような所定のウェイクワード（コマンドワード）でスマートスピーカ２に呼びかけ、アシスタント機能を起動させる。続いて、ユーザはフォトブックを作製するようにスマートスピーカ２に話かける。例えば「フォトブック作って」と話しかける。

サーバ装置１は、ユーザの発話文を解釈し、フォトブックの作製処理を開始する。サーバ装置１は、どのアルバムを使用してフォトブックを作製するかユーザＡに問い合わせる質問文を生成して、スマートスピーカ２へ送信する。例えば、スマートスピーカ２は「どのアルバムを使いますか」という音声を出力する。

ユーザＡが「１２月の旅行のアルバムを使って」とスマートスピーカ２に返答すると、スマートスピーカ２はユーザＡの音声データをサーバ装置１へ送信する。サーバ装置１は、指定されたアルバムに音声が登録されているため、音声認証を行うためにキーワードを話すことを要求する応答文を生成してスマートスピーカ２へ送信する。例えば、スマートスピーカ２は「音声認証を行うので、キーワードを１回喋ってください」という音声を出力する。

ユーザＡがスマートスピーカ２にキーワードを話しかけると、スマートスピーカ２はユーザＡの音声データをサーバ装置１へ送信する。サーバ装置１は、受信した音声データと、登録されている音声データとの特徴を比較する。例えば、サウンドスペクトログラムや、これと等価な音声特徴を用いて、音声認証を行う。音声特徴が一致し、ユーザＡの認証が行われると、サーバ装置１は、フォトブックの作製処理を開始する。音声特徴が一致しない場合、サーバ装置１は、音声が不一致である応答文を生成して、スマートスピーカ２から出力させる。

音声認証は、上述したようなキーワード方式でもよいし、通常の会話（自由発話）から照合するフリーワード方式でもよい。

フォトブック作製処理では、サーバ装置１は、指定されたアルバムに保存されている画像から、フォトブックに好適な画像を選択し、フォトブックのテンプレートに配置する。

サーバ装置１は、選択した画像をレイアウトしてフォトブックデータを作成すると、応答文（音声データ）を生成してスマートスピーカ２へ送信する。スマートスピーカ２は、フォトブックデータをユーザ端末３から確認するように音声を出力する。例えば、スマートスピーカ２は「スマートフォンの通知を確認してください」という音声を出力する。

ユーザ端末３には、サーバ装置１からフォトブックデータが生成されたことを通知するメッセージが届いている。ユーザがメッセージにタッチすると、ユーザ端末３はサーバ装置１からフォトブックのプレビュー画面を取得する。例えば、図４に示すように、ユーザ端末３のタッチパネル３Ａにフォトブックのプレビュー画面が表示される。

例えば、プレビュー画面の下部には、複数ページの画像がサムネイル表示され、画面上部には、選択したページの画像が大きく表示される。ページ切替ボタンＢ１、Ｂ２を押して、サムネイル表示するページを切り替えることができる。

発話により選択ページを切り替えることもできる。例えば、ユーザが「５ページ見せて」とスマートスピーカ２に話かける。サーバ装置１は、スマートスピーカ２を介してユーザの発話文を取得して解釈し、プレビュー画面の選択ページを５ページに切り替える。

発話によりページ順の入れ替えを行うことができる。例えば、図５に示すように、ユーザが「２ページと３ページを入れ替えて」とスマートスピーカ２に話しかける。サーバ装置１は、スマートスピーカ２を介してユーザの発話文を取得して解釈し、２ページの画像と３ページの画像とを入れ替え、プレビュー画面を更新する。ページ入れ替えの音声指示には、少なくとも「入れ替え」というワードと、入れ替え対象の２つのページ番号が含まれている必要がある。

サーバ装置１は、ページ入れ替え後、応答文を生成してスマートスピーカ２へ送信する。スマートスピーカ２は「ページを入れ替えました」のように、ページを入れ替えたことを知らせる音声を出力する。

ユーザが単に「ページを入れ替えて」とスマートスピーカ２に話しかけた場合、サーバ装置１は、所定の行動選択規則に基づいて、入れ替えるページを質問する応答文を生成してスマートスピーカ２へ送信する。あるいはまた、「“３ページと４ページを入れ替える”のように指示してください」と、所定の言葉の順番で指示を出すように知らせる音声をスマートスピーカ２から出力してもよい。

プレビュー画面のページ入れ替えボタンＢ３を押し、入れ替えるページをドラッグアンドドロップすることでも、ページ順の入れ替えを行うことができる。

フォトブックに使用する画像を変更する場合は、発話により画像の変更を指示する。例えば、図６に示すように、ユーザが「６ページの写真を変更」とスマートスピーカ２に話しかける。サーバ装置１は、スマートスピーカ２を介してユーザの発話文を取得して解釈し、画像の一覧画面をユーザ端末３へ送信する。サーバ装置１は、画像一覧画面の送信後、応答文を生成してスマートスピーカ２へ送信する。スマートスピーカ２は「端末の画面から写真を選んでください」等の音声を出力する。

ユーザが単に「写真を変更」とスマートスピーカ２に話しかけた場合、サーバ装置１は、所定の行動選択規則に基づいて、どのページの画像を変更するか質問する応答文を生成してスマートスピーカ２へ送信する。

ユーザが、ユーザ端末３を操作して画像一覧画面から画像を選択すると、サーバ装置１は画像を変更し、フォトブックデータ及びプレビュー画面を更新する。

画像の一覧画面には、ユーザが指定したアルバムにアップロードされた全ての画像が含まれる。すなわち、サーバ装置１の画像解析により、フォトブックに使用すべきでないと判定された不適切画像も含まれる。ユーザが一覧画面から不適切画像を選択した場合、サーバ装置１は、画像の出所を質問する応答文を生成してスマートスピーカ２へ送信する。例えば、スマートスピーカ２は「６ページの写真にキャラクターコンテンツが含まれますが、ご自身で撮影された写真ですか」のような音声を出力する。

ユーザが「はい、そうです」のような肯定的な返答をした場合、サーバ装置１は、選択した画像の使用を承認する応答文を生成し、スマートスピーカ２へ送信する。一方、ユーザが「いいえ」のような否定的な応答をした場合、サーバ装置１はこの画像の使用には問題があることを説明する応答文を生成してスマートスピーカ２から音声を出力し、ユーザ端末３の表示を画像一覧画面に戻す。

プレビュー画面の画像変更ボタンＢ４（図４参照）を押して画像一覧画面を表示させ、画像一覧画面から画像を選択することでも、画像の変更を行うことができる。

サーバ装置１は、画像を選択してフォトブックデータを作成する際に、選択した画像に対し、コメント（又はタイトル）を生成して付与できる。サーバ装置１は、画像解析により検出された画像内の物体やテキスト、フォトブックの目的等に基づいて、コメントを生成する。例えば、サーバ装置１は、特徴的な物体が検出された画像に対してコメントを生成して付与する。

図７に示すように、コメントを付与したページを表示する場合、サーバ装置１は、コメントを生成・付与したこと及びコメント内容を知らせる応答文を生成してスマートスピーカ２へ送信する。スマートスピーカ２は、コメントを音声で読み上げる。ユーザは、スマートスピーカ２から出力される音声を聞いて、コメントを確認する。

コメントを変更する場合は、発話によりコメントの変更を指示する。例えば、図７に示すように、ユーザが「コメント変更」とスマートスピーカ２に話しかけ、続いて変更後のコメントを発話する。サーバ装置１は、スマートスピーカ２を介してユーザの発話文を取得して解釈し、現在表示している画像のコメントを変更し、フォトブックデータ及びプレビュー画面を更新する。

サーバ装置１は、コメント変更後、応答文を生成してスマートスピーカ２へ送信する。スマートスピーカ２は「コメントを変更しました」のように、コメントを変更したことを知らせる音声を出力する。

プレビュー画面のコメント変更ボタンを押し、ユーザ端末３のタッチキーを操作してコメントを入力することでも、コメントの変更を行うことができる。

ユーザがフォトブックのプレビュー画面を一通り確認して「注文します」等の所定のワードを発するか、又はプレビュー画面の確定ボタンＢ５（図４参照）を押すと、サーバ装置１は最終確認画面を生成してユーザ端末３へ送信し、応答文を生成してスマートスピーカ２へ送信する。スマートスピーカ２は「端末画面で、写真とコメントの最終確認をお願いします」等の音声を出力する。

ユーザ端末３には、図８に示すような最終確認画面ＦＣが表示される。例えば、画面の下部には、各ページの画像選択者、コメント作成者、コメント内容を含む編集一覧が表示され、画面の上部には選択したページが表示される。編集一覧の画像選択者及びコメント作成者における“ＡＩ自動選択”、“ＡＩ自動作成”は、サーバ装置１に相当する。

上述したように、サーバ装置１は、画像の選択、配置、コメントの作成等を自動で行う。そのため、図８に示すように、編集一覧では、サーバ装置１が画像を選択し、かつコメントもサーバ装置１が作成したか又はコメントの無いページについては、ページ番号を強調表示する。これらのページは、ユーザが見落としている可能性があるためである。

ユーザが画像を選択（変更、入れ替え）したり、コメントを作成したりしたページは、既にユーザが目を通しているページであるため、強調表示する必要はない。

ユーザが、強調表示されているページを確認した後、「注文します」等の所定のワードを発するか、又は最終確認画面の確定ボタンＢ７を押すと、サーバ装置１は決済画面を生成してユーザ端末３へ送信し、応答文を生成してスマートスピーカ２へ送信する。スマートスピーカ２は「決済処理に進みます。ここからは端末より入力をお願いします」等の音声を出力する。決済画面では、フォトブックの配送先やクレジットカード番号の入力が必要となり、スマートスピーカ２を用いた音声入力より、ユーザ端末３の操作による手入力の方が好ましい。

サーバ装置１は、ユーザ（ユーザ端末３）から決済情報が入力され、フォトブックの注文を受け付けると、フォトブックデータ及び注文内容を工場５へ送信する。

工場５に設置されたプリンタ（図示略）は、受信したフォトブックデータに基づいて印画処理を行い、フォトブック６を作製する。工場５で作製されたフォトブック６は、ユーザへ配送される。

工場５へ送信されるフォトブックデータを考査端末４へ送信し、考査端末４で人手による考査を行ってもよい。これにより、サーバ装置１の画像解析で見落とした不適切画像を検出できる。

このように、本実施形態によれば、ユーザの音声認証を行うことで、事前に登録されたユーザのみが、スマートスピーカ２を介して、音声によりフォトブックの作製を指示できる。また、自動レイアウトされた画像のページ順の入れ替えや、自動作成されたコメントの変更も、スマートスピーカ２を介して音声指示により行うことができる。

サーバ装置１は、ユーザからアップロードされた画像の解析を行い、公序良俗に反するおそれがある画像や著作権を侵害するおそれがある画像等の不適席画像を予め特定している。サーバ装置１は、フォトブックの作製にあたり、不適切画像以外の、フォトブックでの使用に問題無い画像から画像を選択できる。

画像変更処理において、ユーザにより、画像一覧画面から不適切画像が選択された場合、スマートスピーカ２を介してユーザに画像の出所等を質問し、問題無いことが確認されると、フォトブックに使用する。

ユーザＡがサーバ装置１に作成したアルバムを、他ユーザと共有できるようにしてもよい。例えば、ユーザＡがアルバムにアクセスするためのＵＲＬ等を含むメッセージ（Ｅメール等）をユーザＢのユーザ端末７に通知し、招待する。ユーザＢは、ユーザ端末７を用いて、このアルバムに画像をアップロードできるようになる。

ユーザＡがフォトブック作製にあたり指定したアルバムが、ユーザＢとの共有アルバムである場合、サーバ装置１は、ユーザＡの音声認証後、図３に示すように、ユーザ端末７に対し、ユーザＡが共有アルバムの画像を用いてフォトブックを作製しようとしていることを通知するメッセージを送信してもよい。また、ユーザＢが、メッセージに含まれる許可ボタンＴ１を押すと、フォトブック作製処理を開始するようにしてもよい。ユーザＢが不許可ボタンＴ２を押した場合、サーバ装置１は、許可されなかったことをスマートスピーカ２から音声で出力する。ユーザＢが不許可ボタンＴ２を押した場合、サーバ装置１は、ユーザＡがアップロードした画像のみを使用してフォトブックデータを生成してもよいし、フォトブック作製処理を中止してもよい。

図９は、フォトブック作製システムのブロック構成図である。図９に示すように、スマートスピーカ２は、制御部２０、集音部（マイク）２１、音声出力部（スピーカ）２２及び通信部２３を有する。

制御部２０は、音声認識の機能を有し、集音部２１を介して所定のウェイクワードが入力されると、ウェイクワード以降の音声を、通信部２３を用いてサーバ装置１へ送信する。

音声出力部２２は、通信部２３を介してサーバ装置１から受信した応答文の音声データを出力する。

サーバ装置１は、対話処理部１０及びフォトブック編集部１００を備える。

対話処理部１０は、ユーザからの音声指示を理解し、ユーザに対する適切な応答文を生成するものであり、入力理解部１１、対話管理部１２及び出力生成部１３を有する。入力理解部１１は、スマートスピーカ２から受け取ったユーザの発話文からユーザの意図（タスク）を推定する意図推定と、人名や地名等の固有名詞、日付、時間等の表現を発話文から抽出する固有表現抽出の機能を有する。

対話管理部１２は、入力理解部１１から受け取った結果情報をデータベースに相当する内部状態に書き込んで更新する内部状態更新と、内部状態及び対話戦略（行動選択規則）に基づいて次の行動を選択する行動選択の機能を有する。

出力生成部１３は、対話管理部１２の行動選択が出した指示に合う応答文を生成し、スマートスピーカ２へ送信する。

対話処理部１０は、フォトブック編集部１００と連携し、フォトブック編集部１００の処理結果を応答文に反映させることができる。

フォトブック編集部１００は、画像ＤＢ、ユーザ情報ＤＢ、音声ＤＢ、解析結果ＤＢ、フォトブックデータＤＢ、及び注文内容ＤＢを有する記憶部１１０を備える。各ＤＢ（データベース）は、異なる記憶装置に設けられていてもよい。

ＣＰＵ（中央処理装置）が記憶部１１０に記憶されているプログラムを実行することで、アルバム作成部１０１、画像受信部１０２、画像解析部１０３、音声認証部１０４、共有ユーザ問合せ部１０５、画像選択部１０６、編集処理部１０７、コメント生成部１０８及び注文処理部１０９の機能が実現される。

アルバム作成部１０１は、対話処理部１０がユーザの発話からアルバムの作成というタスクを抽出すると、画像ＤＢ内にアルバムを作成する。また、アルバム作成部１０１は、各アルバムに対し、画像をアップロード可能なユーザの情報をユーザ情報ＤＢに格納する。例えば、アルバムを作成したユーザＡや、ユーザＡが招待したユーザＢが画像をアップロードできるユーザとなる。

また、アルバム作成部１０１は、アルバム作成を指示したユーザに対し、音声の登録を要求し、ユーザが発したキーワードの音声を音声ＤＢに格納する。

画像受信部１０２は、ユーザ端末３（又はユーザ端末７）からアップロードされた画像データを受信し、画像ＤＢのアルバムに格納する。

画像解析部１０３は、ユーザ端末３からアップロードされた画像の解析を行う。画像解析は、例えば、画像内の物体やテキストの検出、公序良俗に反するおそれのある画像の検出、著名人や有名キャラクター等が写った著作権を侵害する可能性のある画像の検出である。画像解析部１０３は、公序良俗に反する画像や著作権を侵害する可能性のある画像については、フォトブックに使用すべきでない不適切画像と判定し、判定結果を画像ＤＢ内の画像データに紐付ける。画像解析部１０３は、画像毎に、画像から検出した物体やテキスト、画像データに含まれる撮影日情報、撮影場所情報等をタグとして解析結果ＤＢに格納する。

音声認証部１０４は、対話処理部１０がユーザの発話からフォトブックの作製というタスクを抽出し、フォトブック作製に使用するアルバムが指定されると、音声認証を行う。音声認証部１０４は、指定されたアルバムを作成したユーザの音声を音声ＤＢから取り出し、フォトブック作製を指示するユーザの音声と特徴を比較して、認証を行う。

共有ユーザ問合せ部１０５は、フォトブック作製にあたり指定されたアルバムが他ユーザと共有しているものである場合、フォトブック作製の可否を他ユーザに問い合わせる。

画像選択部１０６は、指定されたアルバムからフォトブックに好適な画像を選択する。

編集処理部１０７は、画像選択部１０６により選択された画像を所定のテンプレートに配置し、フォトブックデータを生成し、プレビュー画面をユーザ端末３へ送信する。生成したフォトブックデータは、フォトブックデータＤＢに格納される。

編集処理部１０７は、対話処理部１０がユーザの発話からページの入れ替えというタスクを抽出すると、ページを入れ替えて、フォトブックデータ及びプレビュー画面を更新する。

編集処理部１０７は、対話処理部１０がユーザの発話から画像の変更というタスクを抽出すると、指定アルバム内の画像を用いて画像一覧画面を作成し、ユーザ端末３へ送信する。画像一覧画面を介して画像が選択されると、編集処理部１０７は、画像を変更してフォトブックデータ及びプレビュー画面を更新する。

画像一覧画面から不適切画像が選択された場合、不適切画像が選択されたことを対話処理部１０に通知する。対話処理部１０は、不適切画像の出所等を問う質問文を生成し、スマートスピーカ２から出力させる。

編集処理部１０７は、対話処理部１０がユーザの発話からコメントの変更というタスクを抽出すると、ユーザから音声入力されたコメントに変更し、フォトブックデータ及びプレビュー画面を更新する。

また、編集処理部１０７は、図８に示すような最終確認画面ＦＣを作成する。

コメント生成部１０８は、フォトブックに使用している画像に対して、コメントを自動生成し、付与する。各画像には、画像解析により画像から検出された物体やテキスト、画像データに含まれる撮影日情報、撮影場所情報等がタグとして付与されている。コメント生成部１０８はこれらのタグを用いて、コメントを生成する。

注文処理部１０９は、ユーザ端末３から、フォトブックのプリント冊数等の注文を受け付ける。注文処理部１０９が決済情報の入力を受け付けて決済処理を行うと、プリント注文が完了する。注文処理部１０９はフォトブックのプリント冊数や配送先住所等を含む注文内容を注文内容ＤＢに格納する。

プリント注文されたフォトブックデータと、注文内容とが工場５へ送信され、フォトブック６が製造される。

このように、本実施形態によれば、ユーザの音声認証を行うことで、事前に登録されたユーザのみがスマートスピーカ２に話しかけることで、フォトブックの編集や注文を行うことができる。

ユーザ端末３はスマートフォンやタブレット端末に限定されず、図１０に示すような大画面のテレビ（ディスプレイ）３Ａ及びコントローラ３Ｂであってもよい。これにより、複数人で大型ディスプレイに表示されたプレビュー画面を確認しながら、事前登録されたユーザがスマートスピーカ２に話しかけてフォトブックの編集を行うことができる。

上記実施形態において、アルバムを共有するユーザＢからフォトブック作製の許可が得られなかった場合、サーバ装置１は、ユーザＡがアップロードした画像のみを使用してフォトブックデータを生成してもよいし、フォトブック作製処理を中止してもよい。

ユーザＢが許可をした後、最終的に使用されたユーザＢのアップロード画像をユーザ端末７に通知してもよい。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１サーバ装置
２スマートスピーカ
３，７ユーザ端末
４考査端末
５工場
６フォトブック

Claims

ユーザ端末から受信した画像データを保存するサーバ装置と、
前記サーバ装置と通信可能に接続され、音声の出力及びユーザの発話の集音を行うスマートスピーカと、
を備え、
前記サーバ装置は、
前記スマートスピーカを介して入力されたユーザの音声を理解し、ユーザに対する応答文を生成し、前記スマートスピーカを介して前記応答文を前記ユーザへ出力する対話処理部と、
前記ユーザの音声データを格納する記憶部と、
前記ユーザの音声が、画像データを保存する領域となるアルバムの作成指示である場合に、前記記憶部内にアルバムを作成するアルバム作成部と、
前記ユーザ端末から受信したデータを前記アルバムに格納する画像受信部と、
前記ユーザの音声がフォトブックの作製指示、及びフォトブックに使用する画像が格納されたアルバムの指定である場合に、前記記憶部に格納された前記音声データを用いて、ユーザの音声認証を行う音声認証部と、
前記アルバムに格納された画像の中から複数の画像を選択する画像選択部と、
選択された画像を用いてフォトブックデータを生成する編集処理部と、
を有することを特徴とするフォトブック作製システム。
前記サーバ装置は、指定されたアルバムが複数ユーザのユーザ端末から受信した画像を格納するものである場合、フォトブックの作製指示を受け付けると、他ユーザのユーザ端末にフォトブックが作製されることを通知する共有ユーザ問合せ部をさらに備えることを特徴とする請求項１に記載のフォトブック作製システム。
前記共有ユーザ問合せ部は、フォトブック作製の可否を問い合わせ、
前記画像選択部は、フォトブックの作製を許可しなかった他ユーザのユーザ端末から受信した画像を選択しないことを特徴とする請求項２に記載のフォトブック作製システム。
前記サーバ装置は、前記フォトブックデータのプレビュー画面を前記ユーザ端末へ送信することを特徴とする請求項１乃至３のいずれか１項に記載のフォトブック作製システム。
音声の出力及びユーザの発話の集音を行うスマートスピーカと通信可能に接続されたサーバ装置であって、
前記スマートスピーカを介して入力されたユーザの音声を理解し、ユーザに対する応答文を生成し、前記スマートスピーカを介して前記応答文を前記ユーザへ出力する対話処理部と、
前記ユーザの音声データを格納する記憶部と、
前記ユーザの音声が、画像データを保存する領域となるアルバムの作成指示である場合に、前記記憶部内にアルバムを作成するアルバム作成部と、
ユーザ端末から受信したデータを前記アルバムに格納する画像受信部と、
ユーザ端末から受信した画像データを保存する記憶部と、
前記ユーザの音声がフォトブックの作製指示、及びフォトブックに使用する画像が格納されたアルバムの指定である場合に、前記記憶部に格納された前記音声データを用いて、ユーザの音声認証を行う音声認証部と、
前記指定されたアルバムに格納された画像の中から複数の画像を選択する画像選択部と、
前記画像選択部により選択された画像を用いてフォトブックデータを生成する編集処理部と、
を備えるサーバ装置。