JP2016058798A

JP2016058798A - 情報処理装置、制御方法および制御プログラム

Info

Publication number: JP2016058798A
Application number: JP2014181711A
Authority: JP
Inventors: 健一黒武者; Kenichi Kuromusha; 嘉人西川; Yoshito Nishikawa; 嘉男猪飼; Yoshio Inokai; 徹竹井; Toru Takei; 和嵩木村; Kazutaka Kimura; 完太鈴木; Kanta Suzuki
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2014-09-05
Filing date: 2014-09-05
Publication date: 2016-04-21
Anticipated expiration: 2034-09-05
Also published as: US20160072466A1; US9705460B2; JP6312564B2

Abstract

【課題】利用者の利便性を向上する情報処理装置、制御方法および制御プログラムを提供する。【解決手段】情報処理装置は、利用者に関連する情報に基づいて、利用者が使用する端末装置の音量に関連する音量操作を学習する学習部と、学習部の学習結果に応じて、端末装置がコンテンツに含まれる音声を再生する際の再生態様を決定する決定部と、決定部が決定した再生態様でコンテンツに含まれる音声を制御する制御部とを有する。情報処理装置（配信サーバ１０）は、利用者Ａが音量操作を行わずとも、利用者Ａが望む音量で音声を出力し、利用者の利便性を向上する。【選択図】図１

Description

本発明は、情報処理装置、制御方法および制御プログラムに関する。

近年、インターネットを介した情報配信が盛んに行われている。このような情報配信の一例として、音声を用いたブランディングのため、企業や商品等に関するサウンドロゴ等の音声や音声付の動画像を広告コンテンツとして利用者の端末装置に送信し、ウェブページの表示とともに音声や動画像の再生を行わせる技術が知られている。また、コンテンツを再生する際に、利用者の視線が向けられている場合にのみ音声の再生を行う技術や、周囲の騒音に応じて、音量を調節する技術等が知られている。

特開２０１４−１１０４５３号公報特開２００４−０６２１２１号公報

しかしながら、上記の従来技術では、利用者の利便性を向上させることができない場合がある。例えば、上記の従来技術では、利用者の視線が向けられている際に所定の音量でコンテンツの再生を行うに過ぎないので、利用者が音量を消音状態に設定し忘れた場合に、電車の中等で音声を出力してしまう恐れがある。

本願は、上記に鑑みてなされたものであって、利用者の利便性を向上させる情報処理装置、制御方法および制御プログラムを提供することを目的とする。

本願に係る情報処理装置は、利用者に関連する情報に基づいて、当該利用者が使用する端末装置の音量に関連する音量操作を学習する学習部と、前記学習部の学習結果に応じて、前記端末装置がコンテンツに含まれる音声を再生する際の再生態様を決定する決定部と、前記決定部が決定した再生態様で前記コンテンツに含まれる音声を制御する制御部とを有することを特徴とする。

実施形態の一態様によれば、利用者の利便性を向上させるという効果を奏する。

図１は、実施形態に係る配信サーバの一例を示す図である。図２は、実施形態に係る配信システムの構成例を示す図である。図３は、実施形態に係る配信サーバの構成例を示す図である。図４は、実施形態に係るログ情報データベースの一例を示す図である。図５は、実施形態に係る属性情報データベースの一例を示す図である。図６は、実施形態に係る学習結果データベースの一例を示す図である。図７は、実施形態に係る配信情報データベースに格納された情報の一例を示す図である。図８は、実施形態にかかる配信サーバが実行する学習処理の一例を示すフローチャートである。図９は、実施形態に係る配信サーバが実行する決定処理および制御処理の一例を示すフローチャートである。図１０は、配信サーバの機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、制御方法および制御プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、制御方法および制御プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．配信サーバの一例〕
まず、図１を用いて、実施形態において情報処理装置の一例である配信サーバの一例について説明する。図１は、実施形態に係る配信サーバの一例を示す図である。なお、以下の説明では、配信装置の一例である配信サーバ１０によって、利用者Ａの情報を収集する収集処理、端末装置１００の利用者Ａの情報を用いて端末装置１００がコンテンツに含まれる音声を再生する際の再生態様を決定する決定処理と、決定処理によって決定された再生態様でコンテンツに含まれる音声の制御をおこなう制御処理とを実行する処理の一例を示す。

なお、図１に示す例では、端末装置１００の利用者の一例として、利用者Ａを記載したが、実施形態は、これに限定されるものではなく、情報処理装置は、任意の数の端末装置および任意の数の利用者について収集処理、決定処理および制御処理を実行することができる。

また、以下の説明では、配信サーバ１０は、端末装置１００が広告に関するコンテンツを再生する際の音量を制御する処理の一例について説明するが、実施形態は、これに限定されるものではなく、音声が含まれるコンテンツであれば、音声のみのコンテンツや映画などの動画コンテンツ等任意のコンテンツについて後述する処理を適用することができる。

なお、コンテンツは、広告だけではなく、ボランティアの募集、公共広告、公共に対する通知、その他任意のコンテンツであってもよい。すなわち、コンテンツは、利用者に興味を抱かせ、かかるコンテンツに含まれる情報またはかかるコンテンツと関連するコンテンツ（例えば、ランディングページ等）に含まれる情報を広く知らせるものであれば、文字、図形、記号、ハイパーリンク、その他任意のコンテンツを適用可能である。

また、コンテンツは、音声商標等、企業や広告対象商品を想起させる任意の音声、すなわちサウンドロゴが含まれもよい。また、コンテンツは、人間あるいは音声合成技術により作成された言語の音声、すなわちナレーションが含まれてもよい。また、コンテンツは、ＢＧＭ等、他の音声を修飾または補助する背景音や、利用者の操作やコンテンツ上の演出時に出力される効果音が含まれてもよい。また、コンテンツは、音声を含む動画像に限定されるものではなく、例えば、音声と静止画像との組み合わせ、ゲーム等音声を含む任意のコンテンツ、ライブ映像等、音声を含む任意のコンテンツが適用可能である。また、コンテンツは、利用者により投稿された動画像コンテンツや、映画やアニメ等の無償または有料のコンテンツであってもよい。

配信サーバ１０は、端末装置１００に対して音声を含むコンテンツの配信を行うウェブサーバ等の情報処理装置である。例えば、配信サーバ１０は、インターネット等のネットワークＮを介して、利用者Ａが使用する端末装置１００からコンテンツの配信要求を受信すると、音声を含む動画像であるコンテンツを端末装置１００へ送信する。

端末装置１００は、スマートフォンやタブレット等のスマートデバイスであり、３Ｇ（Generation）やＬＴＥ（Long Term Evolution）等の無線通信網を介して任意のサーバ装置と通信を行うことができる携帯端末装置である。また、端末装置１００は、後述するように、液晶ディスプレイ等の表示面を有する。なお、端末装置１００には、タッチパネルが採用されているものとする。すなわち、端末装置１００の利用者は、指や専用ペンで表示面をタッチすることにより各種操作を行う。

なお、端末装置１００は、デスクトップ型のＰＣ（Personal Computer）やノート型のＰＣ、ネットブック、サーバ装置などの情報処理装置であってもよい。また、端末装置１００は、端末装置１００に設置された画面ではなく、他の情報表示装置に情報を表示する機能を有していてもよい。また、端末装置１００は、マウスやキーボードなどの情報入力装置を介して各種操作を受け付けてもよい。

ここで、端末装置１００は、利用者の操作によりウェブページなどのウェブコンテンツを表示する場合は、ウェブコンテンツの配信を行うサーバに対してウェブコンテンツの配信要求を送信する。かかる場合、端末装置１００は、ウェブコンテンツの配信を受け付けると、ウェブコンテンツ内に配置される動画像等のコンテンツの配信要求を配信サーバ１０に送信する。

かかる場合、配信サーバ１０は、コンテンツを端末装置１００に配信する。そして、端末装置１００は、配信サーバ１０から受け付けたコンテンツをウェブエージ内に配置し、所定の条件に従って、コンテンツの再生を行う。例えば、端末装置１００は、利用者が表示されたコンテンツをタップしたりカーソルをコンテンツの表示位置と合わせる等、コンテンツの選択操作を行った場合や、コンテンツのサムネイルのうち所定の領域が画面内に表示された場合等には、コンテンツの再生を行う。すなわち、端末装置１００は、コンテンツに含まれる音声データを出力するとともに、コンテンツに含まれる動画像の再生を行う。また、端末装置１００は、コンテンツの再生中に利用者がコンテンツの選択操作を行った場合や、コンテンツのうち所定の領域が画面外まで移動した場合は、コンテンツの再生を一時的に停止する。

〔２．配信サーバ１０が実行する処理〕
ここで、従来技術では、端末装置１００は、動画像や音声コンテンツ等、音声を含むコンテンツの再生を行う際、利用者が予め設定した音量に従って、音声の再生を行っていた。例えば、端末装置１００は、画像解析等により利用者の視線を検知し、利用者の視線が画面内に向けられている場合にのみ、利用者が予め設定した音量で、音声の再生を行った。また、端末装置１００は、周囲の騒音が所定の閾値よりも大きい場合には、所定の音量で音声の再生を行った。

しかしながら、上述した従来技術では、利用者の利便性が悪化する場合がある。例えば、従来技術では、利用者が音量を消音状態に設定していない場合には、電車の中や公共の場所等で音声を出力してしまう場合がある。また、着信時等の音量とコンテンツ再生時の音量とを個別に設定する端末装置では、利用者が着信時等の音量を消音状態に設定していたとしても、コンテンツ再生時に音声を出力してしまう場合がある。

また、ウェブページ上に音声を含む動画コンテンツを配置し、動画コンテンツが画面内に表示された場合には、動画コンテンツの再生を自動で開始する技術やウェブページの表示とともに音声を再生する技術が広がりを見せており、従来技術では、不適切な対応で音声を再生する事象が増えると予測される。

そこで、配信サーバ１０は、以下の処理を実行する。まず、配信サーバ１０は、端末装置１００を使用する利用者Ａの情報を収集し、収集した利用者Ａの情報に基づいて、利用者Ａが使用する端末装置１００の音量に関連する音量操作を学習する学習処理を実行する。また、配信サーバ１０は、学習処理の学習結果に応じて、端末装置１００がコンテンツに含まれる音声を再生する際の再生態様を決定する決定処理を実行する。そして、配信サーバ１０は、決定処理で決定した再生態様でコンテンツに含まれる音声を制御する制御処理を実行する。

〔２−１．利用者Ａの情報について〕
ここで、配信サーバ１０が学習処理で用いる利用者Ａの情報の一例について説明する。配信サーバ１０は、利用者Ａの情報として、利用者Ａの属性を示す属性情報や、利用者Ａと関連付けられる任意のログ情報を収集する。例えば、ログ情報には、端末装置１００やウェアラブルデバイス等、利用者Ａが使用する情報処理装置が取得可能なログ情報や、その他任意のサーバが収集したログであって、利用者Ａと関連付けられる任意のログが含まれる。具体的な例を挙げると、ログ情報には、利用者がウェブ上で行った検索や閲覧サイトの履歴を示すログ、任意の商品についての資料請求を行った旨を示すログ、ウェブ上の掲示板やウェブログ等で行われた発言の履歴を示すログ等が含まれる。すなわち、ログ情報には、インターネットを通じて取得可能な利用者Ａの行動の履歴、インターネットを通じて利用者Ａが入力した情報等、取得可能な任意の情報が含まれる。

また、ログ情報には、ＧＰＳ（Global Positioning System）やiBeacon等を用いて端末装置１００や利用者Ａが使用するウェアラブルデバイス等が取得した位置の履歴を示すログ、利用者のクレジットカードやウェブ上の銀行口座等の使用履歴、利用者が購入した商品の履歴等が含まれてもよい。すなわち、ログ情報には、利用者の現実世界における行動の履歴、いわゆるライフログが含まれてもよい。

また、ログ情報には、端末装置１００に対する操作に関連するログ、端末装置１００の音量を操作する音量操作のログ、端末装置１００の傾き等、端末装置１００が有する各種センサが取得した端末装置１００の物理的な状態に関連するログ、フェリカ（登録商標）等端末装置１００が有する機能の使用履歴を示すログ、端末装置１００が接続したネットワークを示すログ、端末装置１００が近距離無線通信やインターネットを介して行った周囲の端末装置との通信履歴を示すログ、端末装置１００が表示したウェブコンテンツの種別や内容等、端末装置１００が有する任意の機能の履歴を示すログ、すなわち、端末装置１００におけるログ情報が含まれていてもよい。

また、属性情報には、利用者Ａが予め登録した年齢、性別、収入、家族構成など、利用者Ａや利用者Ａに関連する任意の情報が含まれてもよい。また、属性情報には、ログ情報、クレジットカードや銀行口座等の使用履歴、ポイントの付与または使用の履歴、利用者Ａが購入した商品の履歴、登録済みの属性情報から推定された利用者を示す属性情報が含まれてもよい。

このように、配信サーバ１０は、利用者Ａに関連する任意の情報を利用者Ａの情報として収集する。なお、配信サーバ１０は、利用者Ａの情報を任意の手法で取得することができる。例えば、配信サーバ１０は、ＨＴＴＰクッキー（Hyper Text Transfer Protocol Cookie）により、上述した各種情報を、端末装置１００や、端末装置１００がアクセスした任意のサーバから取得してもよい。また、例えば、配信サーバ１０は、利用者Ａの情報を収集するログサーバやその他任意のサーバ等から取得してもよい。

〔２−２．学習処理について〕
続いて、配信サーバ１０が実行する学習処理の一例について説明する。配信サーバ１０は、利用者情報を収集すると、収集した利用者情報に基づいて、端末装置１００の音量に関連する操作である音量操作を学習する学習処理を実行する。具体的には、配信サーバ１０は、収集したログ情報や属性情報に基づいて、端末装置１００に対する音量操作のパターンを学習する。例えば、配信サーバ１０は、ログ情報から音量を増加させる操作、減少させる操作、消音させる操作、音量の設定値を指定する操作、音量の設定値を示す情報等の音量操作を抽出する。すなわち、音量操作とは、音量を設定する操作だけではなく、音量の設定値そのものを含む概念である。

そして、配信サーバ１０は、抽出した音量操作が行われた時刻、音量操作と前後して取得されたログ情報の共通性、音量の増加、減少または消音させる周期性、属性情報から予測される利用者の性質等から、端末装置１００における音量操作と任意の条件との間に生じる共起性の学習を行う。この結果、配信サーバ１０は、時刻、位置、端末装置１００に対する操作、端末装置１００が有する機能の使用、利用者の属性情報から予測される利用者の性質等に基づく所定の条件と、かかる条件が満たされる状態において行われる音声操作とを関連付けた学習結果を生成する。

以下、配信サーバ１０が実行する学習処理の一例について説明する。例えば、配信サーバ１０は、取得した利用者Ａの情報から端末装置１００の状況と音量操作とを特定し、特定した端末装置１００の状況とかかる状況における音量操作とを関連付けて学習する。具体的な例を挙げると、配信サーバ１０は、端末装置１００の傾きを示すログ情報や端末装置１００に対する操作を示すログ情報等に基づいて、利用者Ａが横たわっている状態や利用者Ａが座っている状態等、利用者Ａの状況を特定し、特定した状況における音量操作を学習する。なお、利用者Ａの状況とは、利用者Ａが置かれている状況であり、利用者Ａの姿勢や血圧、利用者Ａの位置、利用者Ａが乗車している乗り物、利用者Ａの周囲の雑音の大きさ等、利用者Ａの生体的な情報、利用者Ａの地理的な情報、利用者Ａの周囲の情報等であってもよい。

そして、配信サーバ１０は、利用者Ａの状況と、状況ごとに学習した音量操作とを関連付けた学習結果を作成する。なお、配信サーバ１０は、上述した例以外にも、ログ情報や属性情報から特定することができる利用者Ａの状態であれば、任意の状態ごとに音量操作の学習を行ってよい。

また、他の例では、配信サーバ１０は、取得した利用者Ａの情報から端末装置１００に対する操作と音量操作とを特定し、特定した端末装置１００に対する操作と音量操作とを関連付けて学習する。具体的な例を挙げると、配信サーバ１０は、端末装置１００における通話履歴、ゲーム、メディアプレイヤー、メッセンジャー等のアプリケーションの起動、その他任意の操作を特定し、かかる操作が行われた際の音量操作もしくはかかる操作が行われた際と前後して行われた音量操作を学習する。そして、配信サーバ１０は、特定した操作と、操作ごとに学習した音量操作とを関連付けた学習結果を作成する。なお、配信サーバ１０は、例えば、第１の操作が行われた後で第２の操作が行われた際の音量操作等、複数の操作の組合せごとに音量操作を学習してもよい。

また、他の例では、配信サーバ１０は、取得した利用者Ａの情報から利用者Ａの位置と音量操作とを特定し、特定した位置と音量操作とを関連付けて学習する。具体的な例を挙げると、配信サーバ１０は、ログ情報から端末装置１００の位置や利用者Ａの位置を特定し、特定した位置における音量操作を学習する。そして、配信サーバ１０は、特定した位置と、位置ごとに学習した音量操作とを関連付けた学習結果を作成する。なお、配信サーバ１０は、位置に係るログ情報を取得した装置ごとに、音量操作の学習を行ってもよい。

また、他の例では、配信サーバ１０は、取得した利用者Ａの情報から端末装置１００が接続するネットワークと音量操作とを特定し、特定したネットワークと、かかるネットワークに端末装置１００が接続する際の音量操作とを関連付けて学習する。具体的な例を挙げると、配信サーバ１０は、端末装置１００が広域通信網に接続する際にアクセスするアクセスポイント、Ｗｉ−Ｆｉネットワーク、端末装置１００がネットワークＮにアクセスする際のゲートウェイサーバのＩＰ（Internet Protocol）アドレス等、端末装置１００が接続したネットワークをログ情報から特定する。また、配信サーバ１０は、特定したネットワークに接続する際の音量操作を学習する。そして、配信サーバ１０は、ネットワークと、ネットワークごとに学習した音量操作とを関連付けた学習結果を作成する。

また、他の例では、配信サーバ１０は、端末装置１００を用いた入退場の履歴と音量操作とを特定し、特定した入退場の履歴と音量操作とを関連付けて学習する。例えば、配信サーバ１０は、フェリカ（登録商標）等、端末装置１００が有する非接触型の通信機能の使用履歴から、駅の改札の入退場、バス等の公共交通機関の乗車や降車、ビル等の施設への入退場等の履歴を特定する。また、配信サーバ１０は、特定した入退場の履歴ごとに音量操作を学習する。そして、配信サーバ１０は、入退場等の履歴ごとに学習した音量操作と、入退場等の履歴とを関連付けた学習結果を作成する。例えば、配信サーバ１０は、フェリカ（登録商標）等の機能を用いて駅の改札を入場した際と前後して行われた音量操作を学習し、駅の改札を入場した旨と、学習した音量操作とを関連付けた学習結果を作成する。

なお、配信サーバ１０は、上述した学習処理以外にも、任意の条件とかかる条件における音量操作とを関連付けて学習することができる。例えば、配信サーバ１０は、所定の時間帯ごとに音量操作を学習してもよい。また、配信サーバ１０は、例えば、端末装置１００の使用履歴、端末装置１００が再生するコンテンツ、端末装置１００が表示するウェブページ、端末装置１００の物理的な状態、端末装置１００の周囲に位置する他の端末装置における音量等と関連付けて音量操作を学習することができる。すなわち、配信サーバ１０は、端末装置１００や利用者Ａに係る任意の条件ごとに、音量操作を学習することができる。

〔２−３．決定処理について〕
続いて、配信サーバ１０が実行する決定処理の一例について説明する。例えば、配信サーバ１０は、コンテンツの配信要求を受信した場合は、学習処理の結果学習した学習結果に応じて、コンテンツに含まれる音声を再生する際の再生態様を決定する。より具体的には、配信サーバ１０は、コンテンツの配信要求を受信すると、利用者Ａの情報を用いて、コンテンツを配信する際の端末装置１００や利用者Ａの状態等の条件を特定する。そして、配信サーバ１０は、学習結果から、特定した状態と関連付けられた音量操作を特定し、特定した音量操作に応じて、コンテンツに含まれる音声を再生する際の再生態様を決定する。

例えば、配信サーバ１０は、コンテンツの配信要求を受信すると、配信要求受信時から所定の時間内に取得された利用者Ａの情報を特定し、特定した利用者Ａの情報から端末装置１００の状況を特定する。そして、配信サーバ１０は、特定した端末装置１００の状況と関連付けられた音量操作を学習結果から特定し、特定した学習結果に基づいて、再生態様を決定する。例えば、配信サーバ１０は、特定した音量操作が示す端末装置１００の音量を特定し、特定した音量でコンテンツの音声を再生させる再生態様を決定する。

また、他の例では、配信サーバ１０は、配信要求受信時から所定の時間内に行われた端末装置１００に対する操作を特定する。そして、配信サーバ１０は、特定した端末装置１００の操作と関連付けられた音量操作を学習結果から特定し、特定した学習結果に基づいて、再生態様を決定する。

また、他の例では、配信サーバ１０は、配信要求受信時から所定の時間内における利用者Ａの位置を特定する。そして、配信サーバ１０は、特定した利用者Ａの位置と関連付けられた音量操作を学習結果から特定し、特定した学習結果に基づいて、再生態様を決定する。

また、他の例では、配信サーバ１０は、配信要求受信時において端末装置１００が接続するネットワークを特定する。そして、配信サーバ１０は、特定した端末装置１００が接続するネットワークと関連付けられた音量操作を学習結果から特定し、特定した学習結果に基づいて、再生態様を決定する。

また、他の例では、配信サーバ１０は、配信要求受信時から所定の時間内に行われた端末装置１００を用いた入退場の履歴を特定する。そして、配信サーバ１０は、特定した端末装置１００を用いた入退場の履歴と関連付けられた音量操作を学習結果から特定し、特定した学習結果に基づいて、再生態様を決定する。

なお、配信サーバ１０は、上述した学習処理以外にも、コンテンツの配信要求を受信した際における端末装置１００または利用者Ａに係る任意の条件について、かかる条件と関連付けて学習された音量操作に応じて、再生態様を決定することができる。例えば、配信サーバ１０は、配信要求を受信した際における条件として、端末装置１００の使用履歴、端末装置１００が再生するコンテンツ、端末装置１００が表示するウェブページ、端末装置１００の物理的な状態、端末装置１００の周囲に位置する他の端末装置における音量等を特定し、特定した条件と関連付けられた音量操作に応じて、再生態様を決定してもよい。また、配信サーバ１０は、配信要求受信時の時刻を含む時間帯と関連付けられた音量操作に応じて、再生態様を決定してもよい。

〔２−４．制御処理について〕
次に、配信サーバ１０が実行する制御処理について説明する。例えば、配信サーバ１０は、決定処理によって再生態様が決定された場合は、決定した再生態様でコンテンツに含まれる音声を制御する制御処理を実行する。具体例を説明すると、配信サーバ１０は、決定した再生態様でコンテンツに含まれる音声を端末装置１００に再生させる再生指示を生成する。そして、配信サーバ１０は、生成した再生指示とコンテンツとを端末装置１００に送信する。この結果、端末装置１００は、受信したコンテンツに含まれる音声を再生指示に従って再生する。例えば、端末装置１００は、受信したコンテンツの音声を、再生指示が示す音量で再生する。

また、他の例では、配信サーバ１０は、端末装置１００がコンテンツの再生を行った際に、決定した再生態様で音声が再生されるように、コンテンツに含まれる音声を編集し、音声を編集したコンテンツを端末装置１００に送信してもよい。例えば、配信サーバ１０は、受信したコンテンツの音声を再生指示が示す音量に調整し、音量を調整したコンテンツを端末装置１００に送信してもよい。

〔２−５．配信サーバ１０が実行する処理の一例について〕
次に、図１を用いて、配信サーバ１０が実行する選定処理の一例を説明する。なお、以下の説明では、配信サーバ１０は、音量操作を時間帯と関連付けて学習し、コンテンツの配信要求を受け付けた時刻と関連付けられた音量操作に応じて、再生態様を決定する例について説明する。また、以下の説明では、配信サーバ１０は、音量操作として、設定後の音量を「０」〜「５」までの６段階で示すログ情報や、音量を「０」に設定するログ情報を受信する例について説明する。なお音量「０」は消音状態を示し、音量「５」は最大音量を示すものとする。

まず、配信サーバ１０が有するログ情報データベース１４について説明する。ログ情報データベース１４には、配信サーバ１０が収集したログ情報と、利用者を識別する利用者ＩＤと、ログ情報が取得された時刻とが対応付けて登録される。

例えば、図１に示す例では、ログ情報データベース１４には、利用者Ａを識別する利用者ＩＤ「利用者Ａ」と対応付けて、位置を示すログ情報「位置：位置Ａ」と、時刻「2014/05/13/21：00」とを対応付けたエントリが登録されている。すなわち、ログ情報データベース１４には、時刻「2014/05/13/21：00」において、利用者Ａが「位置Ａ」に所在した旨を示すログ情報が登録されている。

また、図１に示す例では、ログ情報データベース１４には、利用者ＩＤ「利用者Ａ」と、端末装置１００に対する操作を示すログ情報「操作：再生開始」と時刻「2014/05/13/21：01」とが対応付けて登録されている。すなわち、ログ情報データベース１４には、時刻「2014/05/13/21：01」において、利用者Ａが所定のコンテンツの再生を指示する操作「再生開始」を端末装置１００に対して行った旨を示すログ情報が登録されている。

また、図１に示す例では、ログ情報データベース１４には、利用者ＩＤ「利用者Ａ」と、音量操作を示すログ情報「操作：音量設定（５）」と時刻「2014/05/13/21：01」とが対応付けて登録されている。すなわち、ログ情報データベース１４には、時刻「2014/05/13/21：01」において、利用者Ａが音量を「５」に設定する音量操作を端末装置１００に対して行った旨を示すログ情報が登録されている。また、図１に示す例では、ログ情報データベース１４には、コンテンツの再生を停止させる操作を示すログ情報「操作：再生停止」や、音量を消音状態に設定する音量操作を示すログ情報「操作：消音設定」が利用者ＩＤおよび時刻と対応付けて登録されている。

続いて、配信サーバ１０が有する属性情報データベース１５について説明する。属性情報データベース１５には、配信サーバ１０があらかじめ収集した利用者の属性情報が登録されている。例えば、属性情報データベース１５には、利用者ＩＤ「利用者Ａ」と、利用者Ａが女性である旨を示す属性情報「性別：女性」とが対応付けて登録されている。

続いて、配信サーバ１０が有する学習結果データベース１６について説明する。学習結果データベース１６には、学習処理の結果、生成された学習結果として、利用者ＩＤと、音量操作と、時間帯とが対応付けて登録されている。例えば、図１に示す例では、利用者ＩＤ「利用者Ａ」と音量操作「音量設定（５）」と時間帯「21：01〜10：01」とが対応付けて登録されている。また、図１に示す例では、利用者ＩＤ「利用者Ａ」と音量操作「消音設定」と時間帯「11：16〜11：45」とが対応付けて登録されている。

続いて、配信サーバ１０が実行する処理の一例を説明する。まず、配信サーバ１０は、端末装置１００からログ情報を収集し、収集したログ情報をログ情報データベース１４に登録する（ステップＳ１）。例えば、配信サーバ１０は、ログ情報データベース１４に、ログ情報と関連する利用者を識別する利用者ＩＤと、ログ情報と、ログ情報を端末装置１００が取得した時刻とを対応付けて格納する。

続いて、配信サーバ１０は、利用者Ａに関するログ情報や利用者Ａの属性情報に基づいて、音量操作の学習を行う学習処理を実行する（ステップＳ２）。例えば、配信サーバ１０は、利用者ＩＤ「利用者Ａ」と対応付けられたログ情報から音量操作に関するログ情報と時刻とを抽出する。続いて、配信サーバ１０は、音量操作が行われてから次の音量操作が行われるまでの時間帯を特定する。そして、配信サーバ１０は、利用者ＩＤ「利用者Ａ」と、音量操作と、かかる音量操作が行われてから次の音量操作が行われるまでの時間帯とを対応付けて学習結果データベース１６に登録する。

例えば、配信サーバ１０は、音量操作「操作：音量設定（５）」が行われた時刻「21：01」から、音量操作「操作：音量設定（４）」が行われた時刻「10：01」までの時間帯「21：01〜10：01」を特定する。そして、配信サーバ１０は、と特定した時間帯「21：01〜10：01」と音量操作「音量設定（５）」とを対応付けた学習結果を学習結果データベース１６に登録する。また、配信サーバ１０は、音量操作「操作：消音設定」が行われた時刻「11：16」から、次の音量操作が行われた時刻、例えば「11：45」までの時間帯「11：16〜11：45」を特定する。そして、配信サーバ１０は、と特定した時間帯「11：16〜11：45」と音量操作「消音設定」とを対応付けた学習結果を学習結果データベース１６に登録する。

続いて、配信サーバ１０は、コンテンツの配信要求を端末装置１００から受信する（ステップＳ３）。かかる場合、配信サーバ１０は、学習結果に基づいて、コンテンツに含まれる音声の再生態様を決定する決定処理を実行する（ステップＳ４）。例えば、配信サーバ１０は、配信要求を受信した時刻が「11：20」である場合は、かかる時刻を含む時間帯「11：16〜11：45」と対応付けられた音量操作「消音設定」を特定する。この結果、配信サーバ１０は、コンテンツに含まれる音声を消音状態で再生させる再生態様を決定する。

また、他の例では、配信サーバ１０は、配信要求を受信した時刻が「22：00」である場合は、かかる時刻を含む時間帯「21：01〜10：01」と対応付けられた音量操作「音量設定（５）」を特定する。そして、配信サーバ１０は、コンテンツに含まれる音声を音量「５」で再生させる再生態様を決定する。

続いて、配信サーバ１０は、決定した再生態様でコンテンツに含まれる音声を制御する制御処理を実行する（ステップＳ５）。例えば、配信サーバ１０は、消音状態でコンテンツの再生を行うよう指示する再生指示を生成する。そして、配信サーバ１０は、コンテンツと、再生指示とを端末装置１００に送信する（ステップＳ６）。この結果、端末装置１００は、コンテンツに含まれる音声を再生指示に従って再生する（ステップＳ７）。

このように、配信サーバ１０は、端末装置１００を使用する利用者Ａの情報を収集し、収集した利用者Ａの情報に基づいて、利用者Ａが使用する端末装置１００の音量に関連する音量操作を学習する。また、配信サーバ１０は、学習処理の学習結果に応じて、端末装置１００がコンテンツに含まれる音声を再生する際の再生態様を決定する。そして、配信サーバ１０は、決定処理で決定した再生態様でコンテンツに含まれる音声を制御する。

このため、配信サーバ１０は、利用者の利便性を向上させることができる。例えば、配信サーバ１０は、利用者Ａが、通勤時等の所定の時間帯において電車に乗り、端末装置１００の音量を消音状態に設定した旨を学習する。かかる場合、配信サーバ１０は、通勤時等の所定の時間帯において音声を含むコンテンツを配信する場合は、コンテンツの音声を消音状態に制御する。この結果、配信サーバ１０は、通勤時等の所定の時間帯において電車に乗る際に、利用者が端末装置１００の音量を消音状態に設定し忘れたとしても、コンテンツに含まれる音声を消音状態にすることができる。

また、配信サーバ１０は、利用者Ａが音量を「５」に設定した時間帯においては、利用者Ａが自宅など音声を出力してもよい場所にいると判断できるため、コンテンツに含まれる音声を音量「５」に制御する。このため、配信サーバ１０は、利用者Ａが自宅など音声を出力してもよい場所にいると判断できる場合には、広告に関する動画コンテンツの音声等、利用者に対して聞かせたい音声を出力することができる。

なお、配信サーバ１０は、上述した各種処理を端末装置ごと、または、利用者ごとに行ってもよい。例えば、配信サーバ１０は、端末装置のＩＰアドレス、端末装置に付されたＩＤ、クッキー等の技術を用いて、端末装置を区別し、端末装置ごとに上述した各種処理を実行してもよい。

以下、上記した選定処理を実現する配信サーバ１０の機能構成の一例について説明する。

〔３．配信システムの構成〕
まず、図２を用いて、実施形態に係る配信サーバ１０を有する配信システムの構成について説明する。図２は、実施形態に係る配信システムの構成例を示す図である。図２に示すように、配信システムは、配信サーバ１０と、複数の端末装置１００〜１０３と、広告主端末１１０と、ウェブサーバ１２０とを含む。配信サーバ１０、端末装置１００〜１０３、広告主端末１１０、ウェブサーバ１２０は、ネットワークＮを介して有線または無線により通信可能に接続される。なお、図２に示す配信システムには、他にも複数台の端末装置１００や、複数台の広告主端末１１０や、複数台のウェブサーバ１２０や、複数台の配信サーバ１０が含まれてもよい。

端末装置１００は、ウェブページを閲覧する利用者によって利用される情報処理装置である。例えば、端末装置１００は、スマートフォン等の携帯電話機や、タブレット端末や、ＰＤＡ（Personal Digital Assistant）や、デスクトップ型ＰＣ（Personal Computer）や、ノート型ＰＣ等である。端末装置１００は、利用者による操作にしたがって、ウェブサーバ１２０からウェブページを取得し、取得したウェブページを表示する。また、端末装置１００は、ウェブページに後述するコンテンツの取得命令が含まれる場合には、配信サーバ１０にコンテンツの配信要求を送信し、音声を含むコンテンツを取得する。そして、端末装置１００は、取得したコンテンツをウェブページ内の所定の位置に配置し、条件に応じてコンテンツの再生を行う。

広告主端末１１０は、広告主によって利用される情報処理装置である。例えば、広告主端末１１０は、デスクトップ型ＰＣや、ノート型ＰＣや、タブレット端末や、携帯電話機や、ＰＤＡ等である。広告主端末１１０は、広告主による操作にしたがって、コンテンツを配信サーバ１０に入稿する。例えば、広告主端末１１０は、コンテンツとして、音声を含む動画像または音声の広告コンテンツや、かかるコンテンツと対応するコンテンツ（例えば、ランディングページ）を取得するためのＵＲＬ（Uniform Resource Locator）などを配信サーバ１０に入稿する。

なお、広告主は、広告コンテンツの入稿を代理店に依頼する場合がある。この場合、配信サーバ１０に広告コンテンツを入稿するのは代理店となる。以下では、「広告主」といった表記は、広告主だけでなく代理店を含む概念であり、「広告主端末」といった表記は、広告主端末１１０だけでなく代理店によって利用される代理店装置を含む概念であるものとする。

なお、配信サーバ１０は、配信サーバ１０が配信するコンテンツが広告コンテンツではなく利用者等によって投稿された動画像や音声等である場合は、利用者が使用する任意の利用者端末からコンテンツの登録を受け付ける。また、配信サーバ１０は、コンテンツホルダー等、コンテンツの配信を統括する会社の端末からコンテンツの登録を受付けてもよい。

ウェブサーバ１２０は、端末装置１００にウェブページを配信するサーバ等である。例えば、ウェブサーバ１２０は、ポータルサイト、ニュースサイト、オークションサイト、天気予報サイト、ショッピングサイト、ファイナンス（株価）サイト、路線検索サイト、地図提供サイト、旅行サイト、飲食店紹介サイト、ウェブブログなどに関連する各種情報が配置されたポータルサイトであるウェブページを端末装置１００に配信する。なお、ウェブサーバ１２０は、各種情報がタイル状に配置され、タイルごとに情報の更新などが行われるウェブページを端末装置１００へ送信するサーバであってもよい。

ここで、ウェブサーバ１２０によって配信されるウェブページには、ウェブページに配置されるコンテンツの取得命令が含まれる。例えば、ウェブページを形成するＨＴＭＬファイル等には、配信サーバ１０のＵＲＬ等が取得命令として記述される。この場合、端末装置１００は、ＨＴＭＬファイル等に記述されているＵＲＬにアクセスすることで、配信サーバ１０からコンテンツを取得する。なお、かかるＵＲＬは、ポータルサイト等のウェブページに配置される広告の取得命令として記述されていてもよく、動画配信サイト等のウェブページに配置されるコンテンツの取得命令として記述されていてもよい。

配信サーバ１０は、各種コンテンツの配信を行うサーバ等である。なお、配信サーバ１０は、後述する配信サーバ１０の機能構成を実現するクラウドシステムであってもよい。配信サーバ１０は、端末装置１００からコンテンツの配信要求を受信すると、端末装置１００に対して送信するコンテンツを選択し、選択したコンテンツの配信を行う。また、端末装置１００は、上述した学習処理、決定処理、制御処理を実行し、端末装置１００がコンテンツに含まれる音声を再生する際の態様を制御する。

〔４．配信サーバの構成〕
次に、図３を用いて、実施形態に係る配信サーバ１０の構成について説明する。図３は、実施形態に係る配信サーバの構成例を示す図である。図３に示すように、配信サーバ１０は、ネットワークＮを介して、端末装置１００および広告主端末１１０とデータの送受信を行う。

ここで、配信サーバ１０は、図３に示すように、通信部１１、記憶部１２、制御部１３を有する。なお、配信サーバ１０の内部構成は、図３に示した構成に限られず、上述した選定処理を行う構成であれば他の構成であってもよい。

通信部１１は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１は、ネットワークＮと有線または無線で接続され、端末装置１００、広告主端末１１０との間で情報の送受信を行う。

記憶部１２は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２は、ログ情報データベース１４、属性情報データベース１５、学習結果データベース１６、配信情報データベース１７を記憶する。

制御部１３は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、配信サーバ１０内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

また、制御部１３は、配信サーバ１１０内部の記憶装置に記憶されている制御プログラムがＲＡＭを作業領域として実行されることにより、受付部１８、収集部１９、学習部２０、決定部２１、音声制御部２２として動作する。

〔４−１．ログ情報データベースの一例〕
続いて、記憶部１２が記憶する情報の一例について説明する。ログ情報データベース１４は、利用者のログ情報が登録されるデータベースである。例えば、図４は、実施形態に係るログ情報データベースの一例を示す図である。図４に示す例では、ログ情報データベース１４には、利用者ＩＤと、ログ情報と、時刻とが対応付けて格納されている。

例えば、図４に示す例では、ログ情報データベース１４には、利用者ＩＤ「利用者Ａ」と対応付けて、以下のログ情報と時刻とが対応付けて格納されている。例えば、ログ情報データベース１４には、端末装置１００が接続するネットワークを示すログ情報「ネットワーク：広域ネットワークA」と時刻「2014/05/13/20：55」、端末装置１００の位置を示すログ情報「位置：位置A」と時刻「2014/05/13/21：00」等が対応付けて登録されている。また、ログ情報データベース１４には、端末装置１００が音声を含むコンテンツの再生を開始した旨のログ情報「操作：再生開始」と時刻「2014/05/13/21：01」、音量操作であるログ情報「操作：音量設定（５）」と時刻「2014/05/13/21：01」等が対応付けて登録されている。

また、ログ情報データベース１４には、端末装置１００がコンテンツの再生を停止した旨を示すログ情報「操作：再生停止」と時刻「2014/05/14/11：15」、音量を消音状態に設定した旨を示す音量操作であるログ情報「操作：消音設定」と時刻「2014/05/14/11：16」等が対応付けて登録されている。また、ログ情報データベース１４には、配信サーバ１０が配信するコンテンツとは別に端末装置１００がコンテンツ（例えば、ウェブページ）を表示した旨を示すログ情報「閲覧：ウェブコンテンツA」と時刻「2014/05/14/12：16」、端末装置１００が有するフェリカ（登録商標）等の機能を用いて駅の改札に入場した旨を示すログ情報「機能：改札入場」と時刻「2014/05/14/21：15」、駅の改札を出場した旨を示すログ情報「機能：改札出場」と時刻「2014/05/14/22：30」等が対応付けて登録されている。

なお、上述したログ情報以外にも、ログ情報データベース１４には、端末装置１００や利用者Ａの位置、端末装置１００に対する操作、音量操作、端末装置１００の物理的な状態、端末装置１００が有する機能の履歴等、任意のログ情報が登録されているものとする。

〔４−２．属性情報データベースの一例〕
続いて、属性情報データベース１５に登録されている情報の一例について説明する。図５は、実施形態にかかる属性情報データベースの一例を示す図である。図５に示す例では、属性情報データベース１５には、利用者ＩＤと、利用者の属性情報とが対応付けて登録されている。例えば、図５に示す例では、属性情報データベース１５には、利用者Ａの利用者ＩＤ「利用者Ａ」と、利用者Ａが女性である旨を示す属性情報「性別：女性」、年齢が３０代である旨を示す属性情報「年齢：３０代」と、職業が会社員である旨を示す属性情報「職業：会社員」と、趣味が音楽鑑賞である旨を示す属性情報「趣味：音楽鑑賞」と、住所を示す属性情報「住所：ＸＸＸＸ」とが対応付けて登録されている。

なお、属性情報データベース１５には、上述した属性情報以外にも、利用者の属性を示す任意の属性情報が登録されているものとする。また、属性情報データベース１５に登録される属性情報は、利用者によってあらかじめ登録された属性情報であってもよく、また、利用者に係るログ情報等から推定された利用者の属性情報が登録されていてもよい。

〔４−３．学習結果データベースの一例〕
続いて、学習結果データベース１６に登録されている情報の一例について説明する。図６は、実施形態に係る学習結果データベースの一例を示す図である。図６に示す例では、学習結果データベース１６には、利用者ＩＤと、音量操作と、時間帯と、条件とが対応付けて登録されている。ここで、条件とは、音量操作と関連付けて学習が行われた各種条件である。

例えば、図６に示す例では、学習結果データベース１６には、利用者Ａの利用者ＩＤ「利用者Ａ」と、音量操作「音量操作（５）」と時間帯「21：01〜10：01」とが対応付けて登録され、利用者Ａの利用者ＩＤ「利用者Ａ」と、音量操作「消音設定」と時間帯「11：16〜11：45」とが対応付けて登録されている。また、学習結果データベース１６には、利用者ＩＤ「利用者Ａ」と、音量操作「音量操作（５）」と、条件「再生開始」とが対応付けて登録されている。また、学習結果データベース１６には、音量操作「消音設定」と、条件「改札入場」とが対応付けて登録され、利用者ＩＤ「利用者Ａ」と、音量操作「消音設定」と、条件「Ｗｉ−ＦｉネットワークＢ」とが対応付けて登録されている。

〔４−４．配信情報データベースの一例〕
続いて、配信情報データベース１７に登録されている情報の一例について説明する。図７は、実施形態に係る配信情報データベースに格納された情報の一例を示す図である。図７に示した例では、配信情報データベース１７は、広告主ＩＤ、広告コンテンツ、インプレッション数、インプレッション保証数、対価といった項目を有する。なお、配信情報データベース１７は、コンテンツと利用者とのマッチングを行うための情報や、ＣＴＲ（Click Through Rate）といった情報をさらに記憶してもよい。

「広告主ＩＤ」は、広告主または広告主端末１１０を識別するための識別情報を示す。「広告コンテンツ」は、広告主端末１１０から入稿されたコンテンツ、すなわち、広告に係るコンテンツを示す。図７では「広告コンテンツ」に「Ｃ２０」〜「Ｃ６０」といった概念的な情報が格納される例を示したが、実際には、音声を含む動画像、音声と画像、音声とテキストデータ、音声を含むゲーム形式の広告等、音声を含む任意のコンテンツやかかるコンテンツが所在するＵＲＬ、または、これらの格納場所を示すファイルパス名などが格納される。

「インプレッション数」は、広告コンテンツが表示された回数を示す。また、「インプレッション保証数」は、対価に対して補償されている広告コンテンツの表示回数を示す。また、「対価」は、「インプレション保証数」だけ広告コンテンツが表示された際に広告主から支払われる報酬を示す。すなわち、配信サーバ１０は、広告に係るコンテンツをインプレッション保証型で配信するサーバである。

すなわち、図７では、広告主ＩＤ「Ｂ１０」によって識別される広告主が、コンテンツＣ２０〜Ｃ４０を入稿した例を示している。また、図７では、コンテンツ「Ｃ２０」のインプレッション数が「１００００」であり、インプレッション保証数が「２００００」であり、インプレッション保証数だけコンテンツ「Ｃ２０」が表示された際の課金額が「ａａａ」である例を示している。

ここで、配信情報データベース１７には、広告コンテンツとして、各コンテンツを再生する際にどのような再生態様で再生するかを指示する再生制御指示が登録される。例えば、再生制御指示には、コンテンツＣ２０を配置する位置、コンテンツＣ２０の再生を開始する条件、コンテンツＣ２０を再生させる際に上述した決定処理および制御処理によって音量の制御を実行させるか否かの条件、どのような再生態様で再生させるかの指示、どのような状態でどのような再生態様が決定されるかを示す指示、ランディングページのＵＲＬ等の情報が含まれているものとする。

なお、広告コンテンツが選択される度に課金が行われるクリック課金形式で広告に係るコンテンツを配信する場合は、配信情報データベース１７には、コンテンツが選択された回数や、コンテンツが選択された際の課金額等が登録される。また、配信要求を受信した際に、入札形式で広告コンテンツを選択し、選択した広告コンテンツを配信する場合は、配信情報データベース１７には、１インプレッションあたりの報酬として広告主が設定した広告料金である入札価格や、ＣＴＲ等が登録される。

〔４−５．制御部が実行する処理の一例〕
図３に戻り、制御部１３が有する受付部１８、収集部１９、学習部２０、決定部２１、音声制御部２２が実行する処理の内容について説明する。

受付部１８は、広告主端末１１０からコンテンツの入稿を受け付ける。例えば、受付部１８は、インプレッション保証数と広告コンテンツの入稿を受け付ける。また、受付部１８は、コンテンツと再生制御指示とを受付ける。かかる場合、受付部１８は、コンテンツおよび再生制御指示を、広告主ＩＤと、受付けたインプレッション保証数とともに配信情報データベース１７に登録する。なお、受付部１８は、広告主端末１１０ではなく、配信サーバ１０が提供する各種サービスの提供主によって設定されるインプレッション保証数や対価を配信情報データベース１７に登録してもよい。

収集部１９は、利用者Ａの情報を収集する。例えば、収集部１９は、端末装置１００や、図示を省略した各種ログサーバ等から、利用者Ａに係るログ情報と、ログ情報が取得された時刻を収集し、収集したログ情報と時刻とを利用者ＩＤ「利用者Ａ」と対応付けてログ情報データベース１４に登録する。また、収集部１９は、利用者Ａが登録した属性情報を端末装置１００や外部のサーバ等から収集し、収集した属性情報と利用者ＩＤ「利用者Ａ」とを対応付けて属性情報データベース１５に登録する。なお、収集部１９は、利用者ＩＤ「利用者Ａ」と対応付けられたログ情報から利用者Ａの属性情報を推定し、推定した属性情報を属性情報データベース１５に登録してもよい。

学習部２０は、利用者Ａの情報に基づいて、利用者Ａが使用する端末装置１００の音量に関連する音量操作を学習する。具体的には、学習部２０は、利用者ＩＤ「利用者Ａ」と対応付けられたログ情報に基づいて、所定の条件における音量操作を特定し、所定の条件と特定した音量操作とを関連付けた学習結果を学習結果データベース１６に格納する。

例えば、学習部２０は、端末装置１００の状況と関連付けて音量操作を学習する。すなわち、学習部２０は、ログ情報から端末装置１００の状況を特定し、特定した状況における音量操作を特定する。そして、学習部２０は、特定した状況と、音量操作とを対応付けて学習結果データベース１６に格納する。ここで、端末装置１００の状況には、端末装置１００への操作、位置、端末装置１００が接続するネットワーク、端末装置１００を用いた入退場等、ログ情報から特定可能な任意の状況が適用可能である。

以下、学習部２０が実行する処理の具体例を説明する。例えば、学習部２０は、端末装置１００に対する操作履歴と関連付けて音量操作を学習する。例えば、学習部２０は、端末装置１００に対する操作に関するログ情報を特定する。また、学習部２０は、特定したログ情報から、操作の種別ごとに、かかる操作の後で共通する音量操作が行われているか否かを判定する。そして、学習部２０は、操作の後で共通する音量操作が行われている場合は、かかる操作を条件とし、共通して行われている音量操作と条件とを対応付けた学習結果を学習結果データベース１６に登録する。

例えば、図４に示す例では、ログ情報「操作：再生開始」の後で、音量操作「操作：音量設定（５）」または音量操作「操作：音量設定（４）」が行われている。このため、学習部２０は、条件「再生開始」と音量操作「音量設定（５）」とを対応付けた学習結果、または、条件「再生開始」と音量操作「音量設定（４）」とを対応付けた学習結果を学習結果データベース１６に登録する。なお、学習部２０は、ログ情報「操作：再生開始」の後で、音量操作「操作：音量設定（５）」または音量操作「操作：音量設定（４）」のどちらが多く行われているかに応じて、学習結果として登録する音量操作を特定してもよい。

また、学習部２０は、端末装置１００の位置と関連付けて音量操作を学習する。例えば、学習部２０は、ログ情報から位置を示すログ情報を特定する。また、学習部２０は、特定したログ情報が示す位置において行われた音量操作を特定する。そして、学習部２０は、特定した位置と音量操作とを対応付けた学習結果を学習結果データベース１６に登録する。

例えば、図４に示す例では、位置を示すログ情報「位置：位置Ａ」が取得されてから１分後に音量操作「操作：音量設定（５）」が行われており、位置を示すログ情報「位置：位置Ｂ」が取得されてから５６分後に音量操作「操作：消音設定」が行われている。ここで、音量操作「操作：音量設定（５）」については、位置を示すログ情報「位置：位置Ａ」が取得されてから１分後に行われているため、位置と関連付けた学習を行ってもよいと予測されるが、音量操作「操作：消音設定」については、位置を示すログ情報「位置：位置Ｂ」が取得されてから５６分後に行われているため、位置と関連付けた学習が適切ではない蓋然性が高い。

そこで、学習部２０は、位置を示すログ情報が取得されてから所定の時間（例えば、２０分）が経過した後の音量操作については、学習結果から除外する。この結果、例えば、学習部２０は、条件「位置：位置Ａ」と音量操作「音量設定（５）」とを対応付けた学習結果のみを学習結果データベース１６に登録する。

また、学習部２０は、端末装置１００が接続するネットワークと関連付けて音量操作を学習する。例えば、学習部２０は、ログ情報から端末装置１００が接続するネットワークを示すログ情報を特定し、特定したネットワークに接続している際に行われた音量操作を特定する。そして、学習部２０は、特定したネットワークと、かかるネットワークに端末装置１００が接続する際に行われた音量操作とを対応付けた学習結果を学習結果データベース１６に登録する。

例えば、図４に示す例では、ログ情報「ネットワーク：広域ネットワークＡ」が取得されてから、ログ情報「ネットワーク：Ｗｉ−ＦｉネットワークＢ」が取得されるまでの間に、音量操作「操作：音量設定（５）」、「操作：音量設定（４）」、「操作：消音設定」が行われている。一方、ログ情報「ネットワーク：Ｗｉ−ＦｉネットワークＢ」が取得されてから、ログ情報「ネットワーク：広域ネットワークＡ」が取得されるまでの間は、音量操作「操作：消音設定」のみが行われている。かかる場合、学習部２０は、端末装置１００が「広域ネットワークＡ」に接続している際に適切な音量設定を判断することはできないものの、端末装置１００が「Ｗｉ−ＦｉネットワークＢ」に接続している間は、端末装置１００の音量を「消音設定」にしてよいと判断できる。そこで、学習部２０は、条件「Ｗｉ−ＦｉネットワークＢ」と音量操作「消音設定」とを対応付けた学習結果を学習結果データベース１６に登録する。

また、学習部２０は、端末装置１００を用いた入退場の履歴と関連付けて音量操作を学習する。例えば、学習部２０は、ログ情報から端末装置１００を用いた入退場の履歴を示すログ情報を特定し、かかるログ情報が示す入退場と前後して行われた音量操作を特定する。そして、学習部２０は、特定した入退場の履歴を示すログ情報を条件として、特定した音量操作と条件とを対応付けた学習結果を学習結果データベース１６に登録する。

例えば、図４に示す例では、ログ情報「機能：改札入場」が取得された後、すぐに、ログ情報「操作：消音設定」が取得されている。このため、学習部２０は、条件「改札入場」と音量操作「消音設定」とを対応付けた学習結果を学習結果データベース１６に登録する。

なお、学習部２０は、上述した条件以外にも、任意の条件と関連付けて音量操作を学習できる。例えば、学習部２０は、音量操作が行われた時間帯を特定し、特定した時間帯とかかる時間帯において行われた音量操作とを対応付けた学習結果を学習結果データベース１６に登録してもよい。

決定部２１は、学習部２０の学習結果に応じて、端末装置１００がコンテンツに含まれる音声を再生する際の再生態様を決定する。具体的には、決定部２１は、端末装置１００から配信要求を受信すると、ログ情報データベース１４を参照し、配信要求を受信してから所定の期間内に取得されたログ情報を特定する。また、決定部２１は、特定したログ情報からコンテンツ配信時における端末装置１００や利用者Ａが満たす条件を特定し、特定した条件と関連付けられた音量操作を学習結果データベース１６から特定する。そして、決定部２１は、特定した音量操作に応じて、再生態様を決定する。

例えば、決定部２１は、端末装置１００がコンテンツを取得する際の端末装置１００の状況を特定し、特定した端末装置１００の状況と関連付けられた音量操作を学習結果データベース１６から特定する。そして、決定部２１は、特定した音量操作でコンテンツに含まれる音声を再生させる再生態様を決定する。

また、例えば、決定部２１は、端末装置１００がコンテンツを取得する際に行われた操作を特定し、特定した操作と関連付けられた音量操作を学習結果データベース１６から特定する。そして、決定部２１は、特定した音量操作でコンテンツに含まれる音声を再生させる再生態様を決定する。例えば、決定部２１は、端末装置１００がコンテンツを取得する際にログ情報「操作：再生開始」が取得されている場合は、条件「再生開始」と関連付けられた音量操作「音量操作（５）」を学習結果データベース１６から特定し、特定した音量操作に応じて、再生態様を決定する。

また、例えば、決定部２１は、端末装置１００がコンテンツを取得する際の端末装置１００の位置を特定し、特定した位置と関連付けられた音量操作を学習結果データベース１６から特定する。そして、決定部２１は、特定した音量操作でコンテンツに含まれる音声を再生させる再生態様を決定する。

また、例えば、決定部２１は、端末装置１００がコンテンツを取得する際に接続するネットワークを特定し、特定したネットワークと関連付けられた音量操作を学習結果データベース１６から特定する。そして、決定部２１は、特定した音量操作でコンテンツに含まれる音声を再生させる再生態様を決定する。例えば、決定部２１は、端末装置１００がコンテンツを取得する際にログ情報「ネットワーク：Ｗｉ−ＦｉネットワークＢ」が取得されている場合は、条件「Ｗｉ−ＦｉネットワークＢ」と関連付けられた音量操作「消音設定」を学習結果データベース１６から特定し、特定した音量操作に応じて、再生態様を決定する。

また、例えば、決定部２１は、端末装置１００がコンテンツを取得する際と前後して行われた入退場を特定し、特定した入退場と関連付けられた音量操作を学習結果データベース１６から特定する。そして、決定部２１は、特定した音量操作でコンテンツに含まれる音声を再生させる再生態様を決定する。例えば、決定部２１は、端末装置１００がコンテンツを取得する際にログ情報「機能：改札入場」が取得されている場合は、条件「改札入場」と関連付けられた音量操作「消音設定」を学習結果データベース１６から特定し、特定した音量操作に応じて、再生態様を決定する。

なお、決定部２１は、上述した条件以外にも、端末装置１００がコンテンツを取得する際の任意の条件と関連付けられた音量操作に応じて、再生態様を決定してもよい。例えば、決定部２１は、配信要求を受信した際の時刻を含む時間帯と対応付けられた音量操作を学習結果データベース１６から特定する。そして、決定部２１は、特定した音量操作に応じて、再生態様を決定してもよい。

また、決定部２１は、端末装置１００がコンテンツを取得する際と前後して行われた入退場の履歴に応じて、再生態様を決定してもよい。例えば、端末装置１００を用いて駅の改札を入場した旨のログ情報が取得されてから、駅の改札を出場した旨のログ情報が取得されるまでの間は、音声を「消音設定」にしてもよいと予測される。そこで、決定部２１は、配信要求を受信する前にログ情報「機能：改札入場」が取得されており、かつ、ログ情報「機能：改札出場」が取得されていない場合には、学習結果にかかわらず、音声を「消音設定」で再生させる再生態様を決定してもよい。

音声制御部２２は、決定部２１が決定した再生態様でコンテンツに含まれる音声を制御する制御部である。例えば、音声制御部２２は、配信要求を受信すると、配信対象となるコンテンツを配信情報データベース１７から取得する。より具体的には、音声制御部２２は、配信情報データベース１７に登録された広告にかかるコンテンツから、各コンテンツのインプレッション数とインプレッション保証数とに応じて、各コンテンツのインプレッション数がインプレッション保証数よりも多くなるように、配信対象となるコンテンツの選択を行う。なお、音声制御部２２は、端末装置１００を有する利用者とのマッチングや、端末装置１００の状態に応じたマッチングを考慮したコンテンツの選択を行ってもよい。

続いて、音声制御部２２は、配信情報データベース１７から取得したコンテンツに含まれる音声を、決定部２１が決定した再生態様で再生させる再生指示を生成する。そして、音声制御部２２は、取得したコンテンツと再生指示とを端末装置１００に送信する。

なお、音声制御部２２は、決定部２１が決定した再生態様で音声が再生されるよう、配信情報データベース１７から取得したコンテンツの音声を編集し、音声を編集したコンテンツを端末装置１００に送信してもよい。すなわち、音声制御部２２は、決定部２１が決定した再生態様でコンテンツに含まれる音声が再生されるのであれば、任意の制御方法を採用することができる。

〔５．変形例〕
上記した実施形態に係る配信サーバ１０は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、配信サーバ１０の他の実施形態について説明する。なお、以下に説明する配信サーバ１０が実行する処理のうち、学習処理に対応する処理は、学習部２０によって実行され、決定処理に対応する処理は、決定部２１によって実行され、制御処理に対応する処理は、音声制御部２２によって実行されるものとする。

〔５−１．コンテンツの種別に応じた処理〕
例えば、配信サーバ１０は、ログ情報から、配信サーバ１０から配信されたコンテンツを端末装置１００が再生してから所定の期間内に行われた音量操作を特定し、特定した音量操作と、配信サーバ１０から配信されたコンテンツの種別とを関連付けた学習結果を生成する。また、配信サーバ１０は、端末装置１００から配信要求を受信すると、配信情報データベース１７から配信対象となるコンテンツを選択する。そして、配信サーバ１０は、選択したコンテンツの種別と関連付けられた音量操作を特定し、特定した音量操作に応じて再生態様を決定する。

例えば、配信サーバ１０は、配信サーバ１０から配信されたコンテンツの種別が利用者によって投稿された動画像である際に、音量操作「操作：音量設定（５）」が多く行われている場合は、コンテンツの種別「利用者投稿画像」と音量操作「音量設定（５）」とを関連付けた学習結果を生成する。また、配信サーバ１０は、配信サーバ１０から配信されたコンテンツの種別がウェブページ内に配置される広告に関する動画像コンテンツである際に、音量操作「操作：消音設定」が多く行われている場合は、コンテンツの種別「広告コンテンツ」と音量操作「消音設定」とを関連付けた学習結果を生成する。

かかる場合、配信サーバ１０は、配信要求を受信した際に配信対象として選択したコンテンツの種別が、利用者によって投稿された動画像である場合は、「音量設定（５）」で音声を再生させる再生態様を決定し、選択したコンテンツの種別が、広告に関する動画像コンテンツである場合は、「消音設定」で音声を再生させる再生態様を決定する。

なお、配信サーバ１０は、登録された広告に関するコンテンツのうち、登録主が音声の制御を許可したコンテンツを配信する場合は、学習結果に応じた再生態様を決定し、登録主が音声の制御を許可していないコンテンツを配信する場合は、かかるコンテンツのみの配信を行ってもよい。また、他の例では、端末装置１００は、受信したコンテンツが広告に関連するコンテンツである場合には、学習結果に応じた再生態様を決定し、受信したコンテンツがゲームや広告以外の動画像等である場合は、再生態様を決定せずにコンテンツのみを配信してもよい。

このように、配信サーバ１０は、コンテンツの種別に応じて、コンテンツに含まれる音声の再生態様を決定する。このため、配信サーバ１０は、利用者の利便性を向上させることができる。

〔５−２．表示コンテンツに応じた処理〕
また、配信サーバ１０は、配信サーバ１０が配信するコンテンツとは個別に端末装置１００が表示するコンテンツ（以下、表示コンテンツと記載する）の種別と関連付けて音量操作を学習し、配信サーバ１０がコンテンツを配信する際に端末装置１００が表示する表示コンテンツと関連付けられた音量操作に応じて、再生態様を決定してもよい。例えば、配信サーバ１０は、ログ情報から、端末装置１００が表示するウェブコンテンツの種別ごとに、かかるウェブコンテンツを表示する際と前後して行われた音量操作を特定する。そして、配信サーバ１０は、特定した音量操作とウェブコンテンツの種別とを関連付けた学習結果を生成する。

例えば、配信サーバ１０は、サッカーや野球に関連するウェブページ等、スポーツに関連するウェブコンテンツが表示されている際と前後して、音量操作「操作：音量設定（５）」が多く行われている場合は、表示コンテンツの種別「スポーツ」と音量操作「音量設定（５）」とを関連付けた学習結果を生成する。また、配信サーバ１０は、ポータルサイトやニュースサイト等、ニュースに関連するウェブコンテンツが表示されている際と前後して、音量操作「操作：消音設定」が多く行われている場合は、表示コンテンツの種別「ニュース」と音量操作「消音設定」とを関連付けた学習結果を生成する。

かかる場合、配信サーバ１０は、端末装置１００から配信要求を受信した場合は、クッキー等の技術を用いて、端末装置１００が表示する表示コンテンツの種別を特定する。そして、配信サーバ１０は、特定した表示コンテンツの種別が「スポーツ」である場合は、「音量設定（５）」で音量を再生させる再生態様を決定し、特定した表示コンテンツの種別が「ニュース」である場合は、「消音設定」で音量を再生させる再生態様を決定する。そして、配信サーバ１０は、コンテンツを配信するとともに、決定した再生態様で音声を出力するよう制御する。

このように、配信サーバ１０は、表示コンテンツの種別と関連付けて音量操作を学習し、コンテンツの配信時に端末装置１００が表示する表示コンテンツの種別と関連付けられた音量操作に応じた再生態様を決定する。このため、配信サーバ１０は、利用者の利便性を向上させることができる。

〔５−３．端末の物理的な状態に応じた処理〕
また、配信サーバ１０は、ログ情報から、端末装置１００の物理的な状態と関連付けて音量操作を学習し、端末装置１００がコンテンツを取得する際の端末装置１００の物理的な状態と関連付けられた音量操作に応じて、再生態様を決定してもよい。

例えば、配信サーバ１０は、端末装置１００の傾き、加速度、温度、音量、明度等に基づいて、端末装置１００を利用する利用者の状態を推定することができると考えられる。より具体的な例を説明すると、配信サーバ１０は、端末装置１００の傾きが所定の閾値よりも大きい場合には、利用者が寝ころんだ状態で端末装置１００を使用しているものと推定できる。また、例えば、配信サーバ１０は、端末装置１００に係る加速度や衝撃が所定のパターンにある程度合致する場合には、利用者が移動しているものと推定できる。また、例えば、配信サーバ１０は、ＧＰＳ（Global Positioning System）やｉＢｅａｃｏｎ等を用いて特定した位置や、端末装置１００の移動速度等から、利用者の位置や利用者の移動手段を推定することができる。具体例を説明すると、配信サーバ１０は、利用者の位置の近傍に線路が存在し、かつ、利用者の移動速度が所定の閾値よりも速い場合には、利用者が電車に乗車していると推定できる。

そこで、配信サーバ１０は、ログ情報から、端末装置１００の傾き、加速度、温度、音量、明度等、端末装置１００の物理的な状態ごとに、かかる状態で行われた音量操作を端末装置１００の物理的な状態と関連付けて学習する。そして、配信サーバ１０は、配信要求を受信した際の端末装置１００の物理的な状態を特定し、特定した物理的な状態と関連付けられた音量操作に応じて、再生態様を決定する。すなわち、配信サーバ１０は、端末装置１００の物理的な状態から推定される利用者の状態ごとに、かかる状態における音量操作を学習し、コンテンツ配信時の端末装置１００の物理的な状態から推定される利用者の状態と関連付けられた音量操作に応じて、再生態様を決定する。

例えば、配信サーバ１０は、端末装置１００が測定した周囲の騒音の大きさごとに音量操作を学習し、コンテンツ配信時に測定された端末装置１００の周囲の騒音の大きさと関連付けられた音量操作に応じて、再生態様を決定してもよい。この結果、配信サーバ１０は、利用者の利便性を向上させることができる。

〔５−４．周囲の端末の設定に応じた処理〕
また、配信サーバ１０は、端末装置１００の周囲に存在する他の端末装置の音量と関連付けて音量操作を学習し、端末装置１００がコンテンツを取得する際に端末装置１００の周囲に存在する他の端末装置の音量と関連付けられた音量操作に応じて、再生態様を決定してもよい。

例えば、端末装置１００は、周囲の端末装置が音を所定の音量で出力する状態である場合には、音を出力しても周囲に迷惑をかけることはないと予測される。そこで、配信サーバ１０は、例えば、端末装置１００の位置を示すログ情報と、他の端末装置の位置を示すログ情報とを比較し、端末装置１００が所在した位置ごとに、端末装置１００の周囲に位置する他の端末装置を特定する。また、配信サーバ１０は、端末装置１００が所在した位置ごとに、特定した他の端末装置の音量をかかる他の端末装置のログ情報から特定する。また、配信サーバ１０は、端末装置１００が所在した位置ごとに、かかる位置に端末装置１００が所在した際の音量操作を特定する。

そして、配信サーバ１０は、端末装置１００が所在した位置ごとに、特定した他の端末装置の音量と、特定した端末装置１００の音量操作とを関連付けた学習結果を生成する。その後、配信サーバ１０は、配信要求を受信すると、端末装置１００の周囲に位置する他の端末装置の音量を特定し、特定した音量と関連付けられた端末装置１００の音量操作に応じて、再生態様を決定する。

この結果、配信サーバ１０は、例えば周囲の他の端末装置が音声を出力しているので、端末装置１００が音声を出力するように行われた音量操作や、周囲の他の端末装置が音声を出力していないので、端末装置１００が音を出力しないよう行われた音量操作を学習できる。そして、配信サーバ１０は、コンテンツの配信時に端末装置１００の周囲に位置する他の端末装置における音量と関連付けられた音量操作に応じて、再生態様を決定する。このため、配信サーバ１０は、周囲の他の端末装置に合わせた音量でコンテンツの再生を行わせることができるので、利用者の利便性を向上させることができる。

なお、配信サーバ１０は、周囲の他の端末装置のうち、音声を消音状態にしていない端末装置の割合や、各端末装置が設定している音量に基づく条件と、端末装置１００の音量操作とを関連付けて学習してもよい。また、配信サーバ１０は、所定の時間帯ごとに、端末装置１００の音量操作と、周囲の他の端末装置における音量とを関連付けて学習してもよい。また、配信サーバ１０は、ＳＮＳ（Social Networking Service）を利用して、端末装置１００の周囲に位置する他の端末装置の状態や設定を収集し、収集した状態や設定ごとに、音量操作を学習してもよい。また、配信サーバ１０は、ＳＮＳに対して、端末装置１００の近距離に位置する他の端末装置が投稿した情報ごとに、音量操作を学習してもよい。

〔５−５．その他の条件について〕
また、配信サーバ１０は、上述した各種条件を組み合わせた条件と、音量操作とを関連付けて学習してもよい。例えば、配信サーバ１０は、所定の時間帯と入退場の履歴との組み合わせごとに音量操作を学習し、端末装置１００から配信要求を受信した際における時間帯と、配信要求の受信と前後して取得された入退場の履歴との組み合わせに関連付けられた音量操作に応じて、再生態様を決定してもよい。

また、配信サーバ１０は、利用者の属性情報を考慮した条件ごとに、音量操作の学習を行ってもよい。例えば、配信サーバ１０は、利用者の性別、年齢、職業、趣味、住所等の属性情報に基づく条件と上述した任意の条件との組合せに関連付けられた音量操作に応じて、再生態様の決定を行ってもよい。

また、配信サーバ１０は、上述した条件以外にも、任意の条件と関連付けて音量操作の学習を行ってよい。例えば、配信サーバ１０は、コンテンツの登録主である広告主の意向や、配信サーバ１０が提供するサービスの提供主の意向に応じた条件ごとに、音量操作の学習を行うことができる。また、例えば、配信サーバ１０は、利用者がＳＮＳ等に投稿した情報を解析し、音楽に関する投稿であるか、ニュースに関する投稿であるか等、投稿の内容の種別と関連付けて、係る投稿を行った際の音量操作を学習する。そして、配信サーバ１０は、配信要求の受信と前後して利用者が投稿した情報の内容の種別と関連付けられた音量操作に応じて、再生態様を決定してもよい。

また、配信サーバ１０は、ログ情報から、所定の条件が満たされた際に行われた音量操作そのものを学習結果とせず、かかる音量操作を統計的に解析することで得られる音量操作を学習結果としてもよい。例えば、配信サーバ１０は、所定の条件が満たされた際に行われた音量操作を全て特定し、特定した音量操作の内容、結果、音量操作が行われた時刻等に応じて、かかる条件が満たされた状態に対して最適な音量操作を特定する。そして、配信サーバ１０は、かかる条件と関連付けて、特定した最適な音量操作を学習結果としてもよい。すなわち、配信サーバ１０は、利用者の情報から音量操作の学習を行うのであれば、任意の形態の学習を行うことができる。

また、配信サーバ１０は、利用者の生体的な情報（いわゆるバイオロジックデータ）と関連付けて音量操作を学習し、学習結果に応じた再生態様を決定してもよい。例えば、配信サーバ１０は、利用者Ａが使用するウェアラブルデバイスから心拍数や血圧等のバイオロジックデータを収集し、収集したバイオロジックデータと関連付けて音量操作を学習する。そして、配信サーバ１０は、配信要求取得時において利用者Ａから収集したバイオロジックデータと関連付けられた音量操作に応じて、再生態様を決定してもよい。

〔５−６．再生態様について〕
上述した例では、配信サーバ１０は、再生態様として、コンテンツに含まれる音声を再生する際の音量を決定したが、実施形態はこれに限定されるものではない。例えば、配信サーバ１０は、フェードイン等、徐々に音量が変わる再生態様を決定してもよい。より具体的な例を説明すると、配信サーバ１０は、学習結果から特定された音量操作が「消音設定」である場合は、コンテンツに含まれる音声を消音状態で再生させる再生態様を決定してもよく、コンテンツに含まれる音声を徐々に上昇させる態様（すなわち、フェードイン）で再生させる再生態様を決定してもよい。

また、例えば、配信サーバ１０は、学習結果から特定された音量操作が「消音設定」であり、かつ、配信対象となるコンテンツが広告に係るコンテンツである場合には、フェードインで音声を再生させる再生態様を決定してもよい。このような処理を実行することで、配信サーバ１０は、コンテンツに含まれる音声が大音量で突然出力されるといった不適切な態様での音声の再生を防ぐことができる結果、利用者の機嫌を損なうことなく、利用者に対して試聴させたい音声を含むコンテンツの再生を行わせることができる。

また、配信サーバ１０は、適切な態様で音声を出力することができるのであれば、任意の再生態様を決定してもよい。例えば、配信サーバ１０は、段階的に音量を上昇させる再生態様を決定してもよい。また、配信サーバ１０は、周囲に伝播しづらい周波数帯の音声を所定の音量で出力し、その後、徐々に所定の音量で出力する周波数帯を増やす再生態様を決定してもよい。

〔５−７．音声種別ごとの決定処理について〕
上述した例では、配信サーバ１０は、コンテンツの再生時に、コンテンツに含まれる音声の出力態様を制御した。しかしながら、実施形態は、これに限定されるものではない。例えば、コンテンツに含まれる音声には、サウンドロゴ、背景音、効果音、ナレーション等、複数種別の音声が含まれる場合がある。かかる音声の中には、コンテンツの登録を行った登録主（例えば、広告主）が利用者に対して聞かせたい音声や、利用者に聞こえなくなってもよい音声等が含まれると考えられる。

そこで、配信サーバ１０は、コンテンツの音声に複数の音声が含まれる場合は、各音声の種別に応じて、各音声の再生態様をそれぞれ決定してもよい。例えば、配信サーバ１０は、広告主端末１１０からコンテンツに含まれる音声を音声の種別ごとに登録を受け付ける。より具体的な例を説明すると、配信サーバ１０は、コンテンツに含まれる動画像の再生時において同時に再生する音声データとして、サウンドロゴが含まれる音声データ、背景音が含まれる音声データ、ナレーションが含まれる音声データの登録を受け付ける。

かかる場合、配信サーバ１０は、受信した音声データの種別ごとに、再生態様を決定する。例えば、配信サーバ１０は、サウンドロゴが含まれる音声データを再生する際の再生態様として、学習結果にかかわらず、音声データを所定の音量（例えば、利用者又は広告主が設定した音量）で再生する再生態様を決定する。また、端末装置１００は、背景音が含まれる音声データを再生する際の再生態様を、コンテンツ配信時の条件と関連付けられた音量操作に応じて決定する。また、端末装置１００は、コンテンツ配信時の条件と関連付けられた音量操作が「消音状態」である場合は、ナレーションが含まれる音声データを再生する際の再生態様として、かかる音声データをフェードインまたは消音状態で再生させる再生態様を決定する。

なお、配信サーバ１０は、登録された音声を音声解析することで、サウンドロゴが含まれる範囲を時間的に切り出し、かかる範囲の音声をサウンドロゴが含まれる音声データとしてもよい。また、配信サーバ１０は、音の周波数特性等を用いて、ナレーションと背景音とを分割し、それぞれの音声データを作成してもよい。

このように、配信サーバ１０は、音声の種別ごとに再生態様を決定するので、より適切な態様でコンテンツに含まれる音声を再生させることができる。なお、配信サーバ１０は、コンテンツの種別等に応じて、ＢＧＭやサウンドロゴであってもフェードイン又は消音状態で再生させる再生態様を決定してもよい。

〔５−８．一時停止後における決定処理について〕
なお、配信サーバ１０は、端末装置１００がコンテンツの再生を一時停止した場合は、再度決定処理で決定した再生態様で音声を制御してもよく、再生を一時停止した際の再生態様に従って音声の再生を制御してもよい。例えば、配信サーバ１０は、利用者の操作や、コンテンツの表示位置に応じた自動制御により、コンテンツの再生が一時停止した場合は、端末装置１００から取得される新たなログ情報に基づいて、再生態様を新たに決定し、コンテンツの再生再開時に、新たに決定した再生態様で音声を再生するよう制御してもよい。

例えば、配信サーバ１０は、再生が一時停止したコンテンツの種別、一時停止するまでの再生時間、一時停止した後で端末装置１００に対して行われた操作や端末装置１００の位置等に応じて、再生態様を新たに決定してもよい。そして、配信サーバ１０は、再生態様を新たに決定した場合は、コンテンツの再生再開時に、新たに決定した再生態様でコンテンツに含まれる音声を再生させる再生指示を端末装置１００に送信してもよい。この結果、配信サーバ１０は、電車内などで音声が出力され、利用者があわてて操作を行った際に、コンテンツの音声が何度も出力されるといった不適切な態様で音声を出力することを防ぐことができる。

〔５−９．学習結果について〕
なお、上述した配信サーバ１０は、ログ情報や属性情報に基づいて学習した学習結果を生成した。しかしながら、実施形態は、これに限定されるものではない。例えば、配信サーバ１０は、予め定められた学習結果を学習結果データベース１６に登録し、登録した学習結果に応じて、再生態様を決定してもよい。具体的な例を説明すると、配信サーバ１０は、条件「改札入場」と音量操作「消音状態」とが関連付けられた学習結果の登録を広告主端末１１０から受付けると、受付けた学習結果を更新できない情報として学習結果データベース１６に登録する。かかる場合においては、配信サーバ１０は、配信要求を受信した際に、利用者が端末装置１００を用いて駅の改札内に入場していた場合は、ログ情報に基づく学習結果にかかわらず、コンテンツに含まれる音声の再生態様を「消音状態」にすることができる。

〔６．配信サーバ１０の処理フロー〕
次に、図８、図９を用いて、配信サーバ１０が実行する学習処理、決定処理、制御処理の流れの一例について説明する。まず、図８を用いて、配信サーバ１０が実行する学習処理の一例を説明する。図８は、実施形態にかかる配信サーバが実行する学習処理の一例を示すフローチャートである。

まず、配信サーバ１０は、端末装置１００等から、各種ログ情報を収集する（ステップＳ１０１）。次に、配信サーバ１０は、利用者の属性情報を収集する（ステップＳ１０２）。そして、配信サーバ１０は、ログ情報と属性情報とを用いて、音量操作の学習を行い（ステップＳ１０３）、学習結果を学習結果データベース１６に登録して（ステップＳ１０４）、処理を終了する。

次に、図９を用いて、配信サーバ１０が実行する決定処理および制御処理の流れの一例を説明する。図９は、実施形態に係る配信サーバが実行する決定処理および制御処理の一例を示すフローチャートである。

まず、配信サーバ１０は、端末装置１００からコンテンツの配信要求を受信したか否かを判定し（ステップＳ２０１）、受信していない場合は（ステップＳ２０１：Ｎｏ）、再度ステップＳ２０１を実行する。そして、配信サーバ１０は、端末装置１００からコンテンツの配信要求を受信した場合は（ステップＳ２０１：Ｙｅｓ）、配信対象となるコンテンツを選択し（ステップＳ２０２）、配信要求受信時における利用者や端末装置１００の条件をログ情報から特定する（ステップＳ２０３）。

そして、配信サーバ１０は、特定した条件と関連付けられた音量操作を学習結果から特定する（ステップＳ２０４）。続いて、配信サーバ１０は、特定した音量操作に応じて、再生態様を決定する（ステップＳ２０５）。そして、配信サーバ１０は、コンテンツと、決定した再生態様で音声を再生させる再生指示とを端末装置１００に配信し（ステップＳ２０６）、処理を終了する。

〔７．変形例〕
上記した実施形態に係る配信サーバ１０は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、配信サーバ１０の他の実施形態について説明する。

〔７−１．コンテンツの種別〕
上述した配信サーバ１０は、コンテンツとして、広告主が登録した広告に関するコンテンツを配信した。しかしながら、実施形態はこれに限定されるものではなく、配信サーバ１０は、任意のコンテンツに対して学習処理、決定処理および制御処理を適用することができる。例えば、配信サーバ１０は、広告以外にも、例えばゲームや利用者の操作を受付けるウェブページ等、任意のコンテンツに対して上述した各種処理を適用することができる。より具体的な例を説明すると、配信サーバ１０は、ゲームの実行時や、フラッシュやＣＳＳ（Cascading Style Sheets）等の技術により作成されたインタラクティブ形式のウェブページの配信を行う際に、上述した各種処理を実行することで、利用者の利便性を向上させてもよい。

また、配信サーバ１０は、音声のみが含まれるコンテンツの再生時に、上述した各種処理を実行することで、利用者の利便性を向上させてもよい。

〔７−２．ログについて〕
配信サーバ１０は、実際に表示されたコンテンツや、決定処理によって決定された再生態様でコンテンツの再生が行われた際に、利用者による操作のログを取ってもよい。例えば、配信サーバ１０は、決定処理によって決定された再生態様でコンテンツの再生が行われた際に、利用者が音量を変更する操作を行ったか否か、音声を変更する操作の内容といった旨を示すログを取得する。一方で、配信サーバ１０は、コンテンツの再生が行われたか否か、コンテンツの再生時間、一時停止が行われたか否か、一時停止が行われたタイミング等のログを取得する。

このように配信サーバ１０が取得したログは、各広告コンテンツのＣＴＲの更新や、インプレッション数の更新、広告主に広告効果を報告する際等に有用なログとなる。また、配信サーバ１０が取得したログは、配信対象となるコンテンツに対して設定されるランディングページに配置されるコンテンツの変更に用いられてもよい。例えば、配信サーバ１０は、利用者がコンテンツを選択した場合は、ランディングページを配信するサーバに対して、各種ログを通知し、かかるログの内容に応じて異なるランディングページの配信を行わせてもよい。

また、配信サーバ１０は、ログの履歴に基づいて再生態様を決定してもよい。例えば、配信サーバ１０は、各コンテンツごとに、コンテンツに係るログの内容と関連付けて音量操作を学習し、コンテンツの配信を受付けると、所定の期間内に取得されたログの内容と関連付けられた音量操作に応じて再生態様を決定してもよい。

なお、配信サーバ１０は、クリック課金形式や入札形式で広告主への課金を行う場合は、上述したログに基づいて、広告主に対する課金額を変更してもよい。例えば、配信サーバ１０は、上述した各種処理を実行させた際の課金額と、各種処理を行わずに所定の音量で再生させた際の課金額とに差分を設けてもよい。

〔７−３．動作主体について〕
上記した実施形態では、配信サーバ１０が学習処理、決定処理、制御処理を実行する例について記載した。しかしながら、実施形態は、これに限定されるものではない。例えば、上述した学習処理、決定処理、制御処理は、端末装置１００によって実行されてもよい。また、例えば、学習処理については配信サーバ１０によって実行され、決定処理および制御処理については、端末装置１００が実行してもよい。例えば、端末装置１００は、配信サーバ１０に学習結果の問い合わせを行うことで決定処理を実行してもよい。

〔７−４．装置構成〕
また、上記実施形態では、配信サーバ１０とウェブサーバ１２０とが含まれる例を示したが、配信サーバ１０とウェブサーバ１２０とは１個の装置として形成されてもよい。また、上記実施形態では、配信サーバ１０から端末装置１００にコンテンツが配信される例を示したが、実施形態はこれに限定されるものではなく、例えば、配信サーバ１０に代えてコンテンツの配信を行うコンテンツ配信サーバがコンテンツの配信を行い、配信サーバ１０が再生指示の配信を行う態様であってもよい。

〔７−５．端末装置の操作記録〕
また、上述してきた配信サーバ１０は、コンテンツが配置されているウェブページに対して、利用者がどれだけ端末装置１００を操作したかという記録を収集してもよい。具体的には、配信サーバ１０は、コンテンツが配置されているウェブページに対して利用者が行うスクロール操作等を記録する。

また、配信サーバ１０は、コンテンツに対するタップ操作（すなわち、選択操作）や、ウェブページをリロードした回数や、コンテンツを特定する情報について端末装置１００からの発信操作（例えば、ＳＮＳへの書き込みなど）など、利用者が行う種々の操作を収集してもよい。

かかる場合、配信サーバ１０は、収集した操作履歴に関する情報を集計し、かかる情報について分析した情報をさらに取得する。例えば、配信サーバ１０は、上述した各種処理を伴うコンテンツとかかる各種処理を伴わないコンテンツとについて、スクロール操作の回数やＣＴＲなどの広告効果の指標を比較した情報などを取得する。

ここで、上述した各種処理を伴うコンテンツが表示されるウェブページに対する操作履歴は、広告効果を示す指標となりうる。すなわち、上述した各種処理を伴うコンテンツが表示されるウェブページにおいては、利用者によってコンテンツ自体がクリックされることによりコンテンツ先のウェブページが表示されることのみならず、かかるウェブページに対して利用者がどれだけスクロール操作を行ったかという操作履歴自体が利用者のコンテンツへの興味を示す指標といえる。

例えば、配信サーバ１０は、利用者がスクロール操作を行った回数、スクロール操作が行われた量、スクロール操作が行われた時刻や時間、スクロール操作が行われてからコンテンツが選択されたか否か等を比較することで、上述した各種処理を伴うコンテンツを表示した際に、関心をどれくらい発生させたかを示す指標を提供することができる。したがって、配信サーバ１０は、広告主端末１１０に操作履歴に関する情報を送信することにより、実施形態に係るコンテンツの表示されるウェブページに対する広告効果の指標を示すレポートとすることができる。なお、配信サーバ１０は、広告主端末１１０に操作履歴に関する情報をそのまま送信してもよい。

これにより、配信サーバ１０は、上述した各種処理を用いて、広告に係るコンテンツを広く知らしめる処理の有用性を示すことができる。

〔７−６．その他〕
上述した配信サーバ１０は、利用者Ａの情報に基づいて端末装置１００における音量操作を学習し、学習結果に応じて、端末装置１００がコンテンツに含まれる音声を再生する際の再生態様を決定した。しかしながら、実施形態は、これに限定されるものではない。例えば、配信サーバ１０は、他のサーバ等が作成した学習結果のモデルを用いて、決定処理および制御処理のみを実行してもよい。すなわち、配信サーバ１０は、利用者Ａに関連する情報に基づいて学習された端末装置１００の音量に関連する音量操作のモデルを用いて、コンテンツの配信要求時における利用者Ａの状況に対応する音量操作を特定し、特定した音量操作に応じて、再生態様を決定する。そして、配信サーバ１０は、決定した再生態様でコンテンツに含まれる音声を制御してもよい。

例えば、図示を省略した学習サーバは、利用者Ａの属性情報やログ情報を取得し、取得した属性情報やログ情報を用いて、端末装置１００における音量操作の学習を行い、学習結果をモデルとして配信サーバ１０に送信する。より具体的には、学習サーバは、取得した属性情報やログ情報から、利用者Ａの状況と関連付けて、端末装置１００における音量操作を学習し、利用者Ａの状況と音量操作とを関連付けたモデルを作成する。そして、学習サーバは、作成したモデルを配信サーバ１０に送信する。

一方、配信サーバ１０は、端末装置１００から配信要求を受付けると、ログ情報等から利用者Ａの状況を特定する。また、配信サーバ１０は、特定した利用者Ａの状況をモデルにあてはめ、利用者Ａの状況と対応する音量操作を特定する。そして、配信サーバ１０は、特定した音量操作に応じて、再生態様を決定する。その後、配信サーバ１０は、決定した再生態様で、コンテンツに含まれる音声を制御する。なお、かかる決定処理および制御処理は、例えば、図３に示す決定部２１および音声制御部２２により実現される。

なお、上述した処理は、配信サーバ１０ではなく、端末装置１００によって実現されてもよい。すなわち、端末装置１００は、学習サーバや配信サーバ１０によって作成された学習結果をモデルとして取得する。また、端末装置１００は、配信要求を送信する際、所定の方法で端末装置１００の物理的な状況等に基づいて、利用者Ａの状況を特定する。そして、端末装置１００は、取得したモデルから、利用者Ａの状況と対応する音量操作を特定し、特定した音量操作に応じた再生態様を決定する。その後、端末装置１００は、決定した再生態様でコンテンツに含まれる音声を再生してもよい。

ここで、配信サーバ１０が使用するモデルには、利用者Ａ、広告主、配信サーバ１０が提供するサービスの提供主等によってあらかじめ設定されたモデルが含まれていてもよい。例えば、配信サーバ１０が使用するモデルには、駅改札の入場履歴と、消音状態またはフェードインで音声を再生させる再生態様とがあらかじめ対応付けられていてもよい。かかるモデルを使用する場合、配信サーバ１０は、配信要求を受付けてから所定の時間内に、ログ情報「機能：改札入場」が取得された場合は、消音状態またはフェードインで音声を再生させる再生態様を決定してもよい。

〔７−７．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図３に示した決定部２１および音声制御部２２は統合されてもよい。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔７−８．プログラム〕
また、上記してきた実施形態に係る配信サーバ１０は、例えば図１０に示すような構成のコンピュータ１０００によって実現される。以下、配信サーバ１０を例に挙げて説明する。図１０は、配信サーバの機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、およびメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、ネットワークＮを介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、係るプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る配信サーバ１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３の機能を実現する。また、ＨＤＤ１４００には、記憶部１２内のデータ、すなわちログ情報データベース１４、属性情報データベース１５、学習結果データベース１６、配信情報データベース１７が格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置からこれらのプログラムを取得してもよい。

なお、コンピュータ１０００が実施形態に係る端末装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３と同様の機能を実現し、端末装置１００に上述した学習処理、決定処理、制御処理を実行させてもよい。また、ＨＤＤ１４００には、記憶部１２と同様のデータが格納される。

〔８．効果〕
上述したように、配信サーバ１０は、利用者Ａの情報に基づいて、利用者Ａが使用する端末装置１００の音量に関連する音量操作を学習する。また、配信サーバ１０は、学習処理の学習結果に応じて、端末装置１００がコンテンツに含まれる音声を再生する際の再生態様を決定する。そして、配信サーバ１０は、決定した再生態様でコンテンツに含まれる音声を制御する。このため、配信サーバ１０は、利用者Ａが音量操作を行わずとも、利用者Ａが望む態様で音声を出力させることができるので、利用者の利便性を向上させることができる。

特に、本発明は、ニュースサイト等原則として音声が出力されないウェブページ（すなわち、記事）に音声を含む広告コンテンツを表示する記事内広告に最適である。例えば、利用者は、ニュースサイト等の記事を閲覧する際には、音声が出力されないと予測すると考えられる。しかしながら、動画コンテンツ等音声を含むコンテンツが広告コンテンツとして配信される態様が増えるに従い、利用者が記事等を閲覧する際に、予期せず音声が出力されてしまうといった状況が予測される。一方、配信サーバ１０は、記事内広告として配信されるコンテンツの音声を決定した再生態様で再生するよう制御するので、例えば、利用者が音を聞かない前提で記事の閲覧を行うと想定して再生態様を決定した場合は、不適切な態様での音声の再生を防ぐことができる。

なお、本発明は、利用者が投稿した動画像の配信サイトや、有料或いは無料の動画コンテンツ等を配信する配信サイト等、利用者が音を聞く前提の状態で広告コンテンツや動画コンテンツ等の配信を受付ける際にも有用である。

また、配信サーバ１０は、端末装置１００の状況と関連付けて音量操作を学習し、端末装置１００がコンテンツを取得する際の端末装置１００の状況と関連付けられた音量操作に応じて、再生態様を決定する。このため、配信サーバ１０は、傾きや操作履歴等、端末装置１００の状態に基づく音量操作に応じた再生態様を決定することができるので、利用者の利便性を向上させることができる。

また、配信サーバ１０は、端末装置１００に対する操作履歴と関連付けて音量操作を学習し、端末装置１００がコンテンツを取得する際に行われた操作と関連付けられた音量操作に応じて、再生態様を決定する。すなわち、配信サーバ１０は、端末装置１００に対する操作履歴のパターンに応じた音量操作を学習し、コンテンツ配信時における操作履歴のパターンに対応する音量操作に応じた再生態様を決定する。このため、例えば、配信サーバ１０は、利用者Ａが音量操作を行わずとも、各種操作が行われた後における音声の再生態様を適切に決定できるので、利用者の利便性を向上させることができる。

また、配信サーバ１０は、端末装置１００の位置と関連付けて音量操作を学習し、端末装置１００がコンテンツを取得する際の位置と関連付けられた音量操作に応じて、再生態様を決定する。このため、例えば、配信サーバ１０は、利用者Ａが音量操作を行わずとも、端末装置１００が職場等に位置する場合は、消音状態とし、端末装置１００が利用者Ａの自宅等に位置する場合は、音声を出力するといった再生態様を決定できるので、利用者の利便性を向上させることができる。

また、配信サーバ１０は、端末装置１００が接続するネットワークと関連付けて音量操作を学習し、端末装置１００がコンテンツを取得する際に接続するネットワークと関連付けられた音量操作に応じて、再生態様を決定する。このため、例えば、配信サーバ１０は、利用者Ａが音量操作を行わずとも、端末装置１００が職場等の公共ネットワークに接続する場合は、消音状態とし、端末装置１００が利用者Ａの自宅等のプライベートなネットワークに接続する場合は、音声を出力するといった再生態様を決定できるので、利用者の利便性を向上させることができる。

また、配信サーバ１０は、端末装置１００が再生したコンテンツの種別と関連付けて音量操作を学習し、端末装置１００に対して配信されるコンテンツの種別と関連付けられた音量操作に応じて、当該コンテンツに含まれる音声を再生する際の再生態様を決定する。このため、例えば、配信サーバ１０は、利用者Ａが音量操作を行わずとも、配信するコンテンツが広告にかかるコンテンツであるか、他の利用者が投稿した動画像等であるかに応じて、コンテンツの音声を再生する際の再生態様を決定できるので、利用者の利便性を向上させることができる。

また、配信サーバ１０は、端末装置１００がコンテンツとは個別に表示する表示コンテンツの種別と関連付けて音量操作を学習し、端末装置１００がコンテンツを取得する際に当該コンテンツとは個別に表示する表示コンテンツの種別と関連付けられた音量操作に応じて、再生態様を決定する。このため、例えば、配信サーバ１０は、利用者Ａが音量操作を行わずとも、端末装置１００がスポーツに関するウェブページを表示している場合は、コンテンツの音声を出力し、端末装置１００がニュースに関するウェブページを表示している場合は、消音状態とするといった再生態様を決定できるので、利用者の利便性を向上させることができる。

また、配信サーバ１０は、端末装置１００の物理的な状態と関連付けて音量操作を学習し、端末装置１００がコンテンツを取得する際の端末装置１００の物理的な状態と関連付けられた音量操作に応じて、再生態様を決定する。このため、例えば、配信サーバ１０は、利用者Ａが音量操作を行わずとも、電車の中等で利用者Ａが立って端末装置１００を操作している場合には、コンテンツの音声を消音状態とし、利用者Ａが寝ころんで端末装置１００を操作している場合は、音声を出力するといった再生態様を決定できるので、利用者の利便性を向上させることができる。

また、配信サーバ１０は、端末装置１００の周囲に存在する他の端末装置の音量と関連付けて音量操作を学習し、端末装置１００がコンテンツを取得する際に当該端末装置１００の周囲に存在する他の端末装置の音量と関連付けられた音量操作に応じて、再生態様を決定する。このため、例えば、配信サーバ１０は、利用者Ａが音量操作を行わずとも、端末装置１００の周囲の他の端末装置が音声を出力する場合は、コンテンツの音声を出力とし、他の端末装置が音声を出力しない場合は、消音状態にするといった再生態様を決定できるので、利用者の利便性を向上させることができる。

また、配信サーバ１０は、端末装置１００を用いた入退場の履歴と関連付けて音量操作を学習し、端末装置１００がコンテンツを取得する際の入退場の履歴と関連づけられた音量操作に応じて、再生態様を決定する。このため、例えば、配信サーバ１０は、利用者Ａが音量操作を行わずとも、駅の改札内や会社等の施設に入場した場合は、コンテンツの音声を消音状態とし、駅の改札や施設から出場した場合は、音声を出力するといった再生態様を決定できるので、利用者の利便性を向上させることができる。

また、配信サーバ１０は、コンテンツに複数の音声が含まれる場合は、各音声の種別に応じて、各音声の再生態様をそれぞれ決定する。このため、配信サーバ１０は、適切な態様で、コンテンツに含まれる音声を再生できる。

また、配信サーバ１０は、コンテンツに含まれる音声の種別がサウンドロゴである場合は、再生態様として、当該サウンドロゴを所定の音量で再生する態様を決定する。このため、配信サーバ１０は、コンテンツに含まれるサウンドロゴを利用者に試聴させることができる。

また、配信サーバ１０は、コンテンツに含まれる音声の種別が背景音である場合は、学習結果に応じて再生態様を決定する。ここで、背景音は、サウンドロゴやナレーションと比較して、周囲の人に対してあまり気づきを生じさせる音声ではないと考えられる。このため、配信サーバ１０は、不適切な態様での音声の再生を防ぎつつ、利用者に対して音量を変更する機会を提供できる。

また、配信サーバ１０は、コンテンツに含まれる音声の種別がナレーションである場合は、再生態様として、消音状態とする態様、または、徐々に音量を上昇させる態様を決定する。ここで、ナレーションは、サウンドロゴや背景音と比較して、周囲の人に対して気づきを生じさせる音声であると考えられる。このため、配信サーバ１０は、不適切な態様での音声の再生を防ぎつつ、利用者に対して音量を変更する機会を提供できる。

また、配信サーバ１０は、利用者Ａに関連する情報に基づいて学習された端末装置１００の音量に関連する音量操作のモデルから、コンテンツの配信要求時における利用者Ａの状況に対応する音量操作を特定し、特定した音量操作に応じて、再生態様を決定する。そして、配信サーバ１０は、決定した再生態様でコンテンツに含まれる音声を制御する。このため、配信サーバ１０は、利用者Ａが音量操作を行わずとも、利用者Ａが望む態様で音声を出力させることができるので、利用者の利便性を向上させることができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、決定部は、決定手段や決定回路に読み替えることができる。

１０配信サーバ
１１通信部
１２記憶部
１３制御部
１４ログ情報データベース
１５属性情報データベース
１６学習結果データベース
１７配信情報データベース
１８受付部
１９収集部
２０学習部
２１決定部
２２音声制御部
１００〜１０３端末装置

Claims

利用者に関連する情報に基づいて、当該利用者が使用する端末装置の音量に関連する音量操作を学習する学習部と、
前記学習部の学習結果に応じて、前記端末装置がコンテンツに含まれる音声を再生する際の再生態様を決定する決定部と、
前記決定部が決定した再生態様で前記コンテンツに含まれる音声を制御する制御部と
を有することを特徴とする情報処理装置。
前記学習部は、前記端末装置の状況と関連付けて前記音量操作を学習し、
前記決定部は、前記端末装置が前記コンテンツを取得する際の前記端末装置の状況と関連付けられた前記音量操作に応じて、前記再生態様を決定する
ことを特徴とする請求項１に記載の情報処理装置。
前記学習部は、前記端末装置に対する操作履歴と関連付けて前記音量操作を学習し、
前記決定部は、前記端末装置が前記コンテンツを取得する際に行われた操作と関連付けられた前記音量操作に応じて、前記再生態様を決定する
ことを特徴とする請求項１または２に記載の情報処理装置。
前記学習部は、前記端末装置の位置と関連付けて前記音量操作を学習し、
前記決定部は、前記端末装置が前記コンテンツを取得する際の位置と関連付けられた前記音量操作に応じて、前記再生態様を決定する
ことを特徴とする請求項１〜３のうちいずれか１つに記載の情報処理装置。
前記学習部は、前記端末装置が接続するネットワークと関連付けて前記音量操作を学習し、
前記決定部は、前記端末装置が前記コンテンツを取得する際に接続するネットワークと関連付けられた前記音量操作に応じて、前記再生態様を決定する
ことを特徴とする請求項１〜４のうちいずれか１つに記載の情報処理装置。
前記学習部は、前記端末装置が再生したコンテンツの種別と関連付けて前記音量操作を学習し、
前記決定部は、前記端末装置に対して配信されるコンテンツの種別と関連付けられた前記音量操作に応じて、当該コンテンツに含まれる音声を再生する際の再生態様を決定する
ことを特徴とする請求項１〜５のうちいずれか１つに記載の情報処理装置。
前記学習部は、前記端末装置が前記コンテンツとは個別に表示する表示コンテンツの種別と関連付けて前記音量操作を学習し、
前記決定部は、前記端末装置が前記コンテンツを取得する際に当該コンテンツとは個別に表示する表示コンテンツの種別と関連付けられた前記音量操作に応じて、前記再生態様を決定する
ことを特徴とする請求項１〜６のうちいずれか１つに記載の情報処理装置。
前記学習部は、前記端末装置の物理的な状態と関連付けて前記音量操作を学習し、
前記決定部は、前記端末装置が前記コンテンツを取得する際の前記端末装置の物理的な状態と関連付けられた前記音量操作に応じて、前記再生態様を決定する
ことを特徴とする請求項１〜７のうちいずれか１つに記載の情報処理装置。
前記学習部は、前記端末装置の周囲に存在する他の端末装置の音量と関連付けて前記音量操作を学習し、
前記決定部は、前記端末装置が前記コンテンツを取得する際に当該端末装置の周囲に存在する他の端末装置の音量と関連付けられた前記音量操作に応じて、前記再生態様を決定する
ことを特徴とする請求項１〜８のうちいずれか１つに記載の情報処理装置。
前記学習部は、前記端末装置を用いた入退場の履歴と関連付けて前記音量操作を学習し、
前記決定部は、前記端末装置が前記コンテンツを取得する際の前記入退場の履歴と関連づけられた前記音量操作に応じて、前記再生態様を決定する
ことを特徴とする請求項１〜９のうちいずれか１つに記載の情報処理装置。
前記決定部は、前記コンテンツに複数の音声が含まれる場合は、各音声の種別に応じて、各音声の前記再生態様をそれぞれ決定することを特徴とする請求項１〜１０のうちいずれか１つに記載の情報処理装置。
前記決定部は、前記コンテンツに含まれる音声の種別がサウンドロゴである場合は、前記再生態様として、当該サウンドロゴを所定の音量で再生する態様を決定することを特徴とする請求項１１に記載の情報処理装置。
前記決定部は、前記コンテンツに含まれる音声の種別が背景音である場合は、前記学習部の学習結果に応じて、前記再生態様を決定することを特徴とする請求項１１または１２に記載の情報処理装置。
前記決定部は、前記コンテンツに含まれる音声の種別がナレーションである場合は、前記再生態様として、当該ナレーションを消音状態とする態様又は音量を徐々に上昇させる態様を決定することを特徴とする請求項１１〜１３のうちいずれか１つに記載の情報処理装置。
利用者に関連する情報に基づき学習された前記利用者が使用する端末装置の音量に関連する音量操作のモデルから、コンテンツの配信要求時における前記利用者の状況に対応する音量操作を特定し、特定した音量操作に応じて、前記端末装置がコンテンツに含まれる音声を再生する際の再生態様を決定する決定部と、
前記決定部が決定した再生態様で前記コンテンツに含まれる音声を制御する制御部と
を有することを特徴とする情報処理装置。
情報処理装置が実行する制御方法であって、
利用者に関連する情報に基づいて、当該利用者が使用する端末装置の音量に関連する音量操作を学習する学習工程と、
前記学習工程の学習結果に応じて、前記端末装置がコンテンツに含まれる音声を再生する際の再生態様を決定する決定工程と、
前記決定工程で決定した再生態様で前記コンテンツに含まれる音声を制御する制御工程と
を含むことを特徴とする制御方法。
コンピュータに、
利用者に関連する情報に基づいて、当該利用者が使用する端末装置の音量に関連する音量操作を学習する学習手順と、
前記学習手順の学習結果に応じて、前記端末装置がコンテンツに含まれる音声を再生する際の再生態様を決定する決定手順と、
前記決定手順で決定した再生態様で前記コンテンツに含まれる音声を制御する制御手順と
を実行させることを特徴とする制御プログラム。