JP2023127364A

JP2023127364A - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP2023127364A
Application number: JP2022031117A
Authority: JP
Inventors: 香池松; Kaori Ikematsu
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2023-09-13

Abstract

【課題】対象となる物体にスマートデバイス（又はスピーカーとマイクのペア）を取り付けてアクティブ音響センシングで当該物体の変形を推定する。【解決手段】情報処理装置は、利用者が変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令部と、前記所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて前記所定の物体の変形を推定する推定部と、所定の物体の変形の推定結果に基づく前記利用者の入力に応じて応答を出力する応答部と、を備える。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

腕にスピーカーとマイクを張り付けて手のジェスチャーを認識するアクティブ音響センシングの技術が開示されている。

アクティブ音響センシングを用いた手のジェスチャー認識手法の検討，情報処理学会研究報告，2016/8/6，［2021年11月22日検索］，インターネット＜URL：https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=171767&item_no=1&attribute_id=1&file_no=1＞

しかしながら、上記の従来技術では、単にジェスチャーの認識を行っているに過ぎず、利用者に対して更なるサービスを提供する余地がある。例えば、市販のぬいぐるみやクッション等の柔らかい物体に利用者が体重や力を加えることによって、柔らかい物体が折り曲げられて変形することがある。このような変形を検知することができれば、様々な目的に利用することができる。

本願は、上記に鑑みてなされたものであって、対象となる物体にスマートデバイス（又はスピーカーとマイクのペア）を取り付けてアクティブ音響センシングで当該物体の変形を検知することを目的とする。

本願に係る情報処理装置は、利用者が変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令部と、前記所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて前記所定の物体の変形を推定する推定部と、所定の物体の変形の推定結果に基づく前記利用者の入力に応じて応答を出力する応答部と、を備えることを特徴とする。

実施形態の一態様によれば、対象となる物体にスマートデバイス（又はスピーカーとマイクのペア）を取り付けてアクティブ音響センシングで当該物体の変形を検知することができる。

図１は、実施形態に係る情報処理方法の概要を示す説明図である。図２は、実施形態に係る情報処理システムの構成例を示す図である。図３は、実施形態に係る端末装置の構成例を示す図である。図４は、実施形態に係るサーバ装置の構成例を示す図である。図５は、利用者情報データベースの一例を示す図である。図６は、履歴情報データベースの一例を示す図である。図７は、変形情報データベースの一例を示す図である。図８は、実施形態に係る処理手順を示すフローチャートである。図９は、ハードウェア構成の一例を示す図である。

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と記載する）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．情報処理方法の概要〕
まず、図１を参照し、実施形態に係る情報処理装置が行う情報処理方法の概要について説明する。図１は、実施形態に係る情報処理方法の概要を示す説明図である。なお、図１では、対象となる物体にスマートデバイス（又はスピーカーとマイクのペア）を取り付けてアクティブ音響センシングで当該物体の変形を検知する場合を例に挙げて説明する。

図１に示すように、情報処理システム１は、端末装置１０とサーバ装置１００とを含む。端末装置１０とサーバ装置１００とは、ネットワークＮ（図２参照）を介して有線又は無線で互いに通信可能に接続される。本実施形態では、端末装置１０は、サーバ装置１００と連携する。

端末装置１０は、利用者Ｕ（ユーザ）により使用されるスマートフォンやタブレット端末等のスマートデバイスであり、４Ｇ（Generation）やＬＴＥ（Long Term Evolution）等の無線通信網を介して任意のサーバ装置と通信を行うことができる携帯端末装置である。また、端末装置１０は、液晶ディスプレイ等の画面であって、タッチパネルの機能を有する画面を有し、利用者Ｕから指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、コンテンツ等の表示データに対する各種の操作を受付ける。なお、画面のうち、コンテンツが表示されている領域上で行われた操作を、コンテンツに対する操作としてもよい。また、端末装置１０は、スマートデバイスのみならず、デスクトップＰＣ（Personal Computer）やノートＰＣ等の情報処理装置であってもよい。

サーバ装置１００は、各利用者Ｕの端末装置１０と連携し、各利用者Ｕの端末装置１０に対して、各種アプリケーション（以下、アプリ）等に対するＡＰＩ（Application Programming Interface）サービス等と、各種データを提供する情報処理装置であり、コンピュータやクラウドシステム等により実現される。

また、サーバ装置１００は、各利用者Ｕの端末装置１０に対して、オンラインで何らかのＷｅｂサービスを提供する情報処理装置であってもよい。例えば、サーバ装置１００は、Ｗｅｂサービスとして、インターネット接続、検索サービス、ＳＮＳ（Social Networking Service）、電子商取引（ＥＣ：Electronic Commerce）、電子決済、オンラインゲーム、オンラインバンキング、オンライントレーディング、宿泊・チケット予約、動画・音楽配信、ニュース、地図、ルート検索、経路案内、路線情報、運行情報、天気予報等のサービスを提供してもよい。実際には、サーバ装置１００は、上記のようなＷｅｂサービスを提供する各種サーバと連携し、Ｗｅｂサービスを仲介してもよいし、Ｗｅｂサービスの処理を担当してもよい。

なお、サーバ装置１００は、利用者Ｕに関する利用者情報を取得可能である。例えば、サーバ装置１００は、利用者Ｕの性別、年代、居住地域といった利用者Ｕの属性に関する情報を取得する。そして、サーバ装置１００は、利用者Ｕを示す識別情報（利用者ＩＤ等）とともに利用者Ｕの属性に関する情報を記憶して管理する。

また、サーバ装置１００は、利用者Ｕの端末装置１０から、あるいは利用者ＩＤ等に基づいて各種サーバ等から、利用者Ｕの行動を示す各種の履歴情報（ログデータ）を取得する。例えば、サーバ装置１００は、利用者Ｕの位置や日時の履歴である位置履歴を端末装置１０から取得する。また、サーバ装置１００は、利用者Ｕが入力した検索クエリの履歴である検索履歴を検索サーバ（検索エンジン）から取得する。また、サーバ装置１００は、利用者Ｕが閲覧したコンテンツの履歴である閲覧履歴をコンテンツサーバから取得する。また、サーバ装置１００は、利用者Ｕの商品購入や決済処理の履歴である購入履歴（決済履歴）を電子商取引サーバや決済処理サーバから取得する。また、サーバ装置１００は、利用者Ｕのマーケットプレイスへの出品の履歴である出品履歴や販売履歴を電子商取引サーバや決済処理サーバから取得してもよい。また、サーバ装置１００は、利用者Ｕの投稿の履歴である投稿履歴を口コミの投稿サービスを提供する投稿サーバやＳＮＳサーバから取得する。

〔１－１．アクティブ音響センシングを用いた物体の変形の推定〕
本実施形態では、ぬいぐるみやクッション等の柔らかい物体にスマートフォン等のスマートデバイス（又はスピーカーとマイクのペア）を取り付けて、アクティブ音響センシング技術を用いて柔らかい物体の変形を推定する。また、物体の変形に基づく利用者の入力を推定して、入力に応じた処理（又は制御）を実施する。ここでは、ぬいぐるみを例に説明する。

図１に示すように、サーバ装置１００は、ネットワークＮ（図２参照）を介して、各利用者Ｕが着座したぬいぐるみＴの中（又は表面）に取り付けた端末装置１０又はスピーカーＳＫから音を出力するように命令（指示）を出す（ステップＳ１）。命令（指示）は、データであってもよいし、信号であってもよい。なお、スピーカーＳＫが端末装置１０から独立している場合には、サーバ装置１００は、スピーカーＳＫに直接、音を出力するように命令を出してもよい。

次に、利用者Ｕの端末装置１０は、サーバ装置１００からの命令を受けて、ぬいぐるみＴの中（又は表面）に取り付けた端末装置１０又はスピーカーＳＫから音を出力する（ステップＳ２）。例えば、スピーカーＳＫは、アクティブ音響センシングに利用可能な振動スピーカーである。なお、スピーカーＳＫは端末装置１０の筐体の表面に外付けされていてもよいし、端末装置１０の筐体に内蔵・搭載されていてもよい。

次に、利用者Ｕの端末装置１０は、ぬいぐるみＴの中（又は表面）に取り付けた端末装置１０又はマイクＭＫでその音を取得する（ステップＳ３）。例えば、マイクＭＫは、アクティブ音響センシングに利用可能なピエゾマイクである。なお、マイクＭＫは端末装置１０の筐体の表面に外付けされていてもよいし、端末装置１０の筐体に内蔵・搭載されていてもよい。

また、音を出力する端末装置１０（スピーカーＳＫとしての端末装置１０）と、音を取得する端末装置１０（マイクＭＫとしての端末装置１０）とは、異なる端末装置１０（別々の端末装置１０）であってもよい。すなわち、スピーカー用の端末装置１０とマイク用の端末装置１０との２台の端末装置１０を用いてもよい。

次に、利用者Ｕの端末装置１０は、ネットワークＮ（図２参照）を介して、マイクＭＫで取得した音に関する情報をサーバ装置１００へ送信する（ステップＳ４）。なお、マイクＭＫが端末装置１０から独立している場合には、マイクＭＫが直接、取得した音に関する情報をサーバ装置１００へ送信してもよい。

次に、サーバ装置１００は、各利用者Ｕの端末装置１０から、マイクＭＫで取得した音に関する情報を受信し、アクティブ音響センシングを用いて、ぬいぐるみＴの変形を推定する（ステップＳ５）。すなわち、サーバ装置１００は、利用者Ｕが体重や力を加えることでぬいぐるみＴが変形した状態で取得された音から、アクティブ音響センシングを用いて、ぬいぐるみＴの変形を推定する。このとき、サーバ装置１００は、ぬいぐるみＴが変形した状態ごとに取得された音から、アクティブ音響センシングを用いて、ぬいぐるみＴの各変形を推定してもよい。また、サーバ装置１００は、ぬいぐるみＴの変形として、ぬいぐるみＴの変形パターンを推定してもよいし、ぬいぐるみＴの変形後の形状を推定してもよい。このように、サーバ装置１００は、アクティブ音響センシングを用いて、ぬいぐるみＴの様々な変形の発生を検知することができる。

次に、サーバ装置１００は、推定されたぬいぐるみＴの変形に基づく利用者Ｕの入力を推定する（ステップＳ６）。ここでは、ぬいぐるみＴの変形と、利用者Ｕの入力とが対応付けられている。ぬいぐるみＴの変形と、利用者Ｕの入力とは、サーバ装置１００が自動的に対応付けてもよいし、利用者Ｕが手動で対応付けてもよい。サーバ装置１００は、推定されたぬいぐるみＴの変形に対応する利用者Ｕの入力を推定する。

次に、サーバ装置１００は、推定された利用者Ｕの入力に応じた処理（又は制御）を実施する（ステップＳ７）。例えば、サーバ装置１００は、推定された利用者Ｕの入力に応じた応答を出力する。

具体的には、サーバ装置１００は、ぬいぐるみＴの中（又は表面）に取り付けた端末装置１０又はマイクＭＫから、推定された利用者Ｕの入力に応じた音声を出力する。あるいは、サーバ装置１００は、利用者の入力（ぬいぐるみＴの変形）と家電やＡＶ機器（Audio Visual）等のリモコン操作（ボタン操作）とを対応付けておき、推定された利用者Ｕの入力に応じて家電やＡＶ機器等の制御信号を出力し、これらの操作／制御を行ってもよい。

このとき、サーバ装置１００は、利用者Ｕを示す識別情報（利用者ＩＤ等）等に基づいて利用者Ｕを特定している場合、利用者Ｕの位置情報、属性情報又は履歴情報に応じて、ぬいぐるみＴの変形に対応する利用者Ｕの「入力」やその入力に応じた「応答」の内容を変更してもよい。すなわち、１つの「変形」に対して、さらに利用者Ｕの位置情報、属性情報又は履歴情報に応じて異なる「入力」や「応答」を設定してもよい。例えば、サーバ装置１００は、ぬいぐるみＴの変形が同じであっても、利用者Ｕが自宅にいる場合と外出中の場合とで、その変形に対応する「入力」や「応答」の内容を変更してもよい。

なお、サーバ装置１００は、ぬいぐるみＴの変形ごとの音の特徴（特性）に基づいて、ぬいぐるみＴの変形を推定してもよい。このとき、サーバ装置１００は、ぬいぐるみＴの変形ごとの音の特徴を学習したモデルを構築（生成、更新）し、モデルを用いてぬいぐるみＴの変形を推定する。ぬいぐるみＴが変形すると、ぬいぐるみＴの音響特性が変わる。

例えば、サーバ装置１００は、ぬいぐるみＴに端末装置１０（又はスピーカーとマイクのペア）を取り付けた状態でスピーカーＳＫから出力された音（出力音）の特徴とマイクＭＫで取得された音（取得音）の特徴とを学習してモデルを構築する。このとき、サーバ装置１００は、取得音の特徴（又は出力音の特徴と取得音の特徴との両方）を学習してモデルを構築する。あるいは、サーバ装置１００は、出力音と取得音との差分を学習してモデルを構築する。

すなわち、ぬいぐるみ等にスマートフォン等を取り付けて、利用者がぬいぐるみ等に体重や力を加えて変形させている間に、サーバ装置１００が、ぬいぐるみ等に取り付けたスマートフォン等で音の出力と取得を行い、取得音の特徴（又は出力音と取得音の差分の特徴）を学習したモデルを構築する。

また、サーバ装置１００は、ぬいぐるみＴの変形後の形状の取得音の特徴を学習してモデルを構築し、モデルを用いてぬいぐるみＴの変形を推定してもよい。あるいは、サーバ装置１００は、ぬいぐるみＴの元の形状の取得音の特徴と、ぬいぐるみＴの変形後の形状の取得音の特徴との差分を学習してモデルを構築し、モデルを用いてぬいぐるみＴの変形を推定してもよい。ぬいぐるみＴの元の形状と変形後の形状とで、ぬいぐるみＴの音響特性が変わる。なお、ぬいぐるみＴの元の形状とは、利用者がぬいぐるみＴに体重や力を加えていない状態（変形していない状態）でのぬいぐるみＴの形状を示す。

また、サーバ装置１００は、ぬいぐるみＴへの端末装置１０（又はスピーカーとマイクのペア）の設置位置（取付場所）ごとに、上記の音の特徴を学習したモデルを構築し、モデルを用いてぬいぐるみＴの変形を推定してもよい。具体的には、サーバ装置１００は、ぬいぐるみＴへの設置位置とぬいぐるみＴの変形ごとの音の特徴との組を学習したモデルを構築し、モデルを用いてぬいぐるみＴの変形を推定してもよい。ぬいぐるみＴのどの箇所（場所、部分、部位）に端末装置１０（又はスピーカーとマイクのペア）を取り付けるかに応じても音響特性が変わる。また、設置位置がぬいぐるみＴの外側か内側かによっても音響特性が変わる。

また、サーバ装置１００は、ぬいぐるみＴに取り付けた端末装置１０（又はスピーカーとマイクのペア）の種別（機種、型番等）ごとに、上記の音の特徴を学習したモデルを構築し、モデルを用いてぬいぐるみＴの変形を推定してもよい。音を出力又は取得する機器の違いによっても音響特性が変わる。

また、サーバ装置１００は、ぬいぐるみＴごとに、上記の音の特徴を学習してモデルを構築してもよい。具体的には、サーバ装置１００は、ぬいぐるみＴの種別（型番、素材、大きさ等）ごとに、上記の音の特徴を学習してモデルを構築してもよい。例えば、サーバ装置１００は、利用者Ｕに対象となるぬいぐるみを選んでもらって、そのぬいぐるみの「型番」と「設置位置」と「音」とを入力すると「変形」を出力するモデルを構築してもよい。

また、サーバ装置１００は、ユーザキャリブレーションを行うと好ましい。具体的には、サーバ装置１００は、ある程度（所定の段階）までは不特定多数のユーザのデータで学習してユーザ全体のモデルを構築し、個々のユーザのデータが十分に蓄積された時点で、ユーザごとにキャリブレーション（calibration）して個々のユーザのモデルを構築する。例えば、サーバ装置１００は、ユーザ全体のグローバルモデルを構築し、グローバルモデルを元にユーザごとのローカルモデルを構築してもよい。

このとき、サーバ装置１００は、フェデレーテッドラーニング（Federated Learning：連合学習）の技術を利用してモデルを構築するようにしてもよい。例えば、サーバ装置１００は、各ユーザにグローバルモデルを提供し、グローバルモデルを元にユーザごとに学習させてローカルモデルを構築させ、そのパラメータの差分等を取得するようにしてもよい。

また、例えば、ぬいぐるみＴに限らず、クッションや枕等に端末装置１０（又はスピーカーとマイクのペア）を取り付けて、サーバ装置１００が、クッションや枕等の変形と音の特徴とを学習してモデルを構築し、モデルを用いて音からクッションや枕等の変形を推定するようにしてもよい。

すなわち、クッションや枕等にスマートフォン等を取り付けて、サーバ装置１００が、利用者がクッションや枕等に体重や力を加えて変形させている間に、取得音の特徴（又は出力音と取得音の差分の特徴）を学習したモデルを構築する。

また、サーバ装置１００は、ぬいぐるみやクッション等の柔らかい物体の素材の消耗具合を推測してもよい。例えば、クッション素材に端末装置１０（又はスピーカーとマイクのペア）を取り付けて、サーバ装置１００は、クッション素材の消耗具合と音の特徴とを学習してモデルを構築し、モデルを用いて音からクッション素材の消耗具合を推定するようにしてもよい。

このように、本実施形態では、サーバ装置１００は、アクティブ音響センシング技術を用いてぬいぐるみ等の変形を推定して、ぬいぐるみ等の変形に応じて利用者の入力を推定し、入力に応じた応答を出力する。すなわち、サーバ装置１００は、利用者が変形させることが可能な所定の物体（ぬいぐるみ等）に端末装置が設けられた際にマイクが取得した取得音が有する特性に応じて、利用者が所定の物体に対して行った入力を推定する。言い換えれば、サーバ装置１００は、対象（ぬいぐるみ等）を介した音を取得して、取得された音に基づいて対象の変形を推定し、推定された変形から入力を推定して応答を出力する。

なお、サーバ装置１００は、音を取得する際、対象（ぬいぐるみ等）に応じて適当な波長の音を取得するようにしてもよい。また、サーバ装置１００は、反射音を取得するため、端末装置１０又はスピーカーＳＫに対して、異なる周波数セットを、間隔をあけながら複数セット出力するように指示してもよい。

また、サーバ装置１００は、ぬいぐるみの中にスマホを入れた状態で、利用者Ｕにぬいぐるみに対する様々な入力（手を握る、ひねる、なでる等）を行わせながら、出力音と取得音の特徴を学習してモデルを構築し、各利用者Ｕの端末装置１０にモデルを配信する。利用者Ｕの端末装置１０は、モデルを用いて入力を推定し、推定された入力に対応する情報処理を行う。例えば、端末装置１０は、利用者Ｕがぬいぐるみと握手（手を握る＋手を振る）した場合、モデルを用いて握手の際の変形であると推定し、握手を検知する。そして、端末装置１０は、「握手」という利用者Ｕの入力に応じて、ぬいぐるみの中から「こんにちは」や「ありがとう」等の音声を出力する。このとき、端末装置１０は、「手を握る」及び「手を振る」等の個々の状態の変形を推定し、それぞれの変形に応じて複数の入力を推定してもよい。なお、学習や、モデルを用いた情報処理は、クラウド側で処理してもよい。

本実施形態によれば、ぬいぐるみやクッション等の柔らかい物体にスマートデバイス（又はスピーカーとマイクのペア）を取り付けて（又は内蔵して）アクティブ音響センシングを行うことにより、これらの変形（部分的な押し込み、全体的な圧縮、ねじり、曲げ等）を検出できる。また、各変形（又は各変形後の形状）に家電操作等のコマンド（照明や電源のＯＮ／ＯＦＦ、オーディオの音量調整等）を割り当てることで、これらの変形により入力を行うことも可能になる。

具体的には、対象となるぬいぐるみやクッション等の所定の物体に、所定の波長の音を含む出力音を出力可能なスピーカーＳＫと、スピーカーＳＫが出力した出力音を取得可能なマイクＭＫを取り付ける。そして、サーバ装置１００が、所定の物体に取り付けたマイクＭＫが取得した音（取得音）が有する特性に応じて、所定の物体の変形を推定する。

なお、実際には、上記の実施形態において、サーバ装置１００の代わりに、離れた場所にある他の端末装置１０や、対象となる利用者Ｕの端末装置１０自体を用いてもよい。すなわち、処置の主体はサーバ装置１００に限らず、他の端末装置１０や、対象となる利用者Ｕの端末装置１０自体が、アクティブ音響センシングを用いて、ぬいぐるみＴの変形を推定してもよい。

また、ぬいぐるみやクッション等は一例に過ぎない。実際には、ぬいぐるみやクッション等に限らず、枕や敷布団やマット、あるいはオフィスチェアやソファの座面や背もたれ等にスマートデバイス（又はスピーカーとマイクのペア）を取り付けて（又は内蔵して）アクティブ音響センシングを行うことにより、これらの物体の変形を推定し、推定された変形に対応する利用者Ｕの入力を推定し、推定された入力に応じた処理や制御を実施してもよい。

〔２．情報処理システムの構成例〕
次に、図２を用いて、実施形態に係るサーバ装置１００が含まれる情報処理システム１の構成について説明する。図２は、実施形態に係る情報処理システム１の構成例を示す図である。図２に示すように、実施形態に係る情報処理システム１は、端末装置１０とサーバ装置１００とを含む。これらの各種装置は、ネットワークＮを介して、有線又は無線により通信可能に接続される。ネットワークＮは、例えば、ＬＡＮ（Local Area Network）や、インターネット等のＷＡＮ（Wide Area Network）である。

また、図２に示す情報処理システム１に含まれる各装置の数は図示したものに限られない。例えば、図２では、図示の簡略化のため、端末装置１０を１台のみ示したが、これはあくまでも例示であって限定されるものではなく、２台以上であってもよい。

端末装置１０は、利用者Ｕによって使用される情報処理装置である。例えば、端末装置１０は、スマートフォンやタブレット端末等のスマートデバイス、フィーチャーフォン、ＰＣ（Personal Computer）、ＰＤＡ（Personal Digital Assistant）、通信機能を備えたゲーム機やＡＶ機器、カーナビゲーションシステム、スマートウォッチやヘッドマウントディスプレイ等のウェアラブルデバイス（Wearable Device）、スマートグラス等である。

また、かかる端末装置１０は、ＬＴＥ（Long Term Evolution）、４Ｇ（4th Generation）、５Ｇ（5th Generation：第５世代移動通信システム）等の無線通信網や、Ｂｌｕｅｔｏｏｔｈ（登録商標）、無線ＬＡＮ（Local Area Network）等の近距離無線通信を介してネットワークＮに接続し、サーバ装置１００と通信することができる。

サーバ装置１００は、例えばＰＣやブレードサーバ（blade server）等のコンピュータ、あるいはメインフレーム又はワークステーション等である。なお、サーバ装置１００は、クラウドコンピューティングにより実現されてもよい。

〔３．端末装置の構成例〕
次に、図３を用いて、端末装置１０の構成について説明する。図３は、端末装置１０の構成例を示す図である。図３に示すように、端末装置１０は、通信部１１と、表示部１２と、入力部１３と、測位部１４と、センサ部２０と、制御部３０（コントローラ）と、記憶部４０とを備える。

（通信部１１）
通信部１１は、ネットワークＮ（図２参照）と有線又は無線で接続され、ネットワークＮを介して、サーバ装置１００との間で情報の送受信を行う。例えば、通信部１１は、ＮＩＣ（Network Interface Card）やアンテナ等によって実現される。

（表示部１２）
表示部１２は、位置情報等の各種情報を表示する表示デバイスである。例えば、表示部１２は、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）や有機ＥＬディスプレイ（Organic Electro-Luminescent Display）である。また、表示部１２は、タッチパネル式のディスプレイであるが、これに限定されるものではない。

（入力部１３）
入力部１３は、利用者Ｕから各種操作を受け付ける入力デバイスである。例えば、入力部１３は、文字や数字等を入力するためのボタン等を有する。なお、入力部１３は、入出力ポート（I/O port）やＵＳＢ（Universal Serial Bus）ポート等であってもよい。また、表示部１２がタッチパネル式のディスプレイである場合、表示部１２の一部が入力部１３として機能する。また、入力部１３は、利用者Ｕから音声入力を受け付けるマイク等であってもよい。マイクはワイヤレスであってもよい。

（測位部１４）
測位部１４は、ＧＰＳ（Global Positioning System）の衛星から送出される信号（電波）を受信し、受信した信号に基づいて、自装置である端末装置１０の現在位置を示す位置情報（例えば、緯度及び経度）を取得する。すなわち、測位部１４は、端末装置１０の位置を測位する。なお、ＧＰＳは、ＧＮＳＳ（Global Navigation Satellite System）の一例に過ぎない。

また、測位部１４は、ＧＰＳ以外にも、種々の手法により位置を測位することができる。例えば、測位部１４は、位置補正等のための補助的な測位手段として、下記のように、端末装置１０の様々な通信機能を利用して位置を測位してもよい。

（Ｗｉ－Ｆｉ測位）
例えば、測位部１４は、端末装置１０のＷｉ－Ｆｉ（登録商標）通信機能や、各通信会社が備える通信網を利用して、端末装置１０の位置を測位する。具体的には、測位部１４は、Ｗｉ－Ｆｉ通信等を行い、付近の基地局やアクセスポイントとの距離を測位することにより、端末装置１０の位置を測位する。

（ビーコン測位）
また、測位部１４は、端末装置１０のＢｌｕｅｔｏｏｔｈ（登録商標）機能を利用して位置を測位してもよい。例えば、測位部１４は、Ｂｌｕｅｔｏｏｔｈ（登録商標）機能によって接続されるビーコン（beacon）発信機と接続することにより、端末装置１０の位置を測位する。

（地磁気測位）
また、測位部１４は、予め測定された構造物の地磁気のパターンと、端末装置１０が備える地磁気センサとに基づいて、端末装置１０の位置を測位する。

（ＲＦＩＤ測位）
また、例えば、端末装置１０が駅改札や店舗等で使用される非接触型ＩＣカードと同等のＲＦＩＤ（Radio Frequency Identification）タグの機能を備えている場合、もしくはＲＦＩＤタグを読み取る機能を備えている場合、端末装置１０によって決済等が行われた情報とともに、使用された位置が記録される。測位部１４は、かかる情報を取得することで、端末装置１０の位置を測位してもよい。また、位置は、端末装置１０が備える光学式センサや、赤外線センサ等によって測位されてもよい。

測位部１４は、必要に応じて、上述した測位手段の一つ又は組合せを用いて、端末装置１０の位置を測位してもよい。

（センサ部２０）
センサ部２０は、端末装置１０に搭載又は接続される各種のセンサを含む。なお、接続は、有線接続、無線接続を問わない。例えば、センサ類は、ウェアラブルデバイスやワイヤレスデバイス等、端末装置１０以外の検知装置であってもよい。図３に示す例では、センサ部２０は、加速度センサ２１と、ジャイロセンサ２２と、気圧センサ２３と、気温センサ２４と、音センサ２５と、光センサ２６と、磁気センサ２７と、画像センサ（カメラ）２８とを備える。

なお、上記した各センサ２１～２８は、あくまでも例示であって限定されるものではない。すなわち、センサ部２０は、各センサ２１～２８のうちの一部を備える構成であってもよいし、各センサ２１～２８に加えてあるいは代えて、湿度センサ等その他のセンサを備えてもよい。

加速度センサ２１は、例えば、３軸加速度センサであり、端末装置１０の移動方向、速度、及び、加速度等の端末装置１０の物理的な動きを検知する。ジャイロセンサ２２は、端末装置１０の角速度等に基づいて３軸方向の傾き等の端末装置１０の物理的な動きを検知する。気圧センサ２３は、例えば端末装置１０の周囲の気圧を検知する。

端末装置１０は、上記した加速度センサ２１やジャイロセンサ２２、気圧センサ２３等を備えることから、これらの各センサ２１～２３等を利用した歩行者自律航法（ＰＤＲ：Pedestrian Dead-Reckoning）等の技術を用いて端末装置１０の位置を測位することが可能になる。これにより、ＧＰＳ等の測位システムでは取得することが困難な屋内での位置情報を取得することが可能になる。

例えば、加速度センサ２１を利用した歩数計により、歩数や歩くスピード、歩いた距離を算出することができる。また、ジャイロセンサ２２を利用して、利用者Ｕの進行方向や視線の方向、体の傾きを知ることができる。また、気圧センサ２３で検知した気圧から、利用者Ｕの端末装置１０が存在する高度やフロアの階数を知ることもできる。

気温センサ２４は、例えば端末装置１０の周囲の気温を検知する。音センサ２５は、例えば端末装置１０の周囲の音を検知する。光センサ２６は、端末装置１０の周囲の照度を検知する。磁気センサ２７は、例えば端末装置１０の周囲の地磁気を検知する。画像センサ２８は、端末装置１０の周囲の画像を撮像する。

上記した気圧センサ２３、気温センサ２４、音センサ２５、光センサ２６及び画像センサ２８は、それぞれ気圧、気温、音、照度を検知したり、周囲の画像を撮像したりすることで、端末装置１０の周囲の環境や状況等を検知することができる。また、端末装置１０の周囲の環境や状況等から、端末装置１０の位置情報の精度を向上させることが可能になる。

（制御部３０）
制御部３０は、例えば、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ、入出力ポート等を有するマイクロコンピュータや各種の回路を含む。また、制御部３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路等のハードウェアで構成されてもよい。制御部３０は、送信部３１と、受信部３２と、処理部３３とを備える。

（送信部３１）
送信部３１は、例えば入力部１３を用いて利用者Ｕにより入力された各種情報や、端末装置１０に搭載又は接続された各センサ２１～２８によって検知された各種情報、測位部１４によって測位された端末装置１０の位置情報等を、通信部１１を介してサーバ装置１００へ送信することができる。

（受信部３２）
受信部３２は、通信部１１を介して、サーバ装置１００から提供される各種情報や、サーバ装置１００からの各種情報の要求を受信することができる。

（処理部３３）
処理部３３は、表示部１２等を含め、端末装置１０全体を制御する。例えば、処理部３３は、送信部３１によって送信される各種情報や、受信部３２によって受信されたサーバ装置１００からの各種情報を表示部１２へ出力して表示させることができる。

本実施形態では、処理部３３は、ぬいぐるみやクッション等に取り付けた端末装置１０又はスピーカーＳＫから音（出力音）を出力し、ぬいぐるみやクッション等に取り付けた端末装置１０又はマイクＭＫで音（取得音）を取得する。このとき、処理部３３は、受信部３２がサーバ装置１００や他の端末装置１０から受信したスピーカーＳＫから音を出力する旨の命令に応じて、スピーカーＳＫから音を出力してもよい。また、処理部３３は、送信部３１からサーバ装置１００や他の端末装置１０へ、マイクＭＫで取得した音に関する情報を送信してもよい。

（記憶部４０）
記憶部４０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク等の記憶装置によって実現される。かかる記憶部４０には、各種プログラムや各種データ等が記憶される。

〔４．サーバ装置の構成例〕
次に、図４を用いて、実施形態に係るサーバ装置１００の構成について説明する。図４は、実施形態に係るサーバ装置１００の構成例を示す図である。図４に示すように、サーバ装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。また、通信部１１０は、ネットワークＮ（図２参照）と有線又は無線で接続される。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ＨＤＤ、ＳＳＤ、光ディスク等の記憶装置によって実現される。図４に示すように、記憶部１２０は、利用者情報データベース１２１と、履歴情報データベース１２２と、変形情報データベース１２３とを有する。

（利用者情報データベース１２１）
利用者情報データベース１２１は、利用者Ｕに関する利用者情報を記憶する。例えば、利用者情報データベース１２１は、利用者Ｕの属性等の種々の情報を記憶する。図５は、利用者情報データベース１２１の一例を示す図である。図５に示した例では、利用者情報データベース１２１は、「利用者ＩＤ（Identifier）」、「年齢」、「性別」、「自宅」、「勤務地」、「興味」といった項目を有する。

「利用者ＩＤ」は、利用者Ｕを識別するための識別情報を示す。なお、「利用者ＩＤ」は、利用者Ｕの連絡先（電話番号、メールアドレス等）であってもよいし、利用者Ｕの端末装置１０を識別するための識別情報であってもよい。

また、「年齢」は、利用者ＩＤにより識別される利用者Ｕの年齢を示す。なお、「年齢」は、利用者Ｕの具体的な年齢（例えば３５歳など）を示す情報であってもよいし、利用者Ｕの年代（例えば３０代など）を示す情報であってもよい。あるいは、「年齢」は、利用者Ｕの生年月日を示す情報であってもよいし、利用者Ｕの世代（例えば８０年代生まれなど）を示す情報であってもよい。また、「性別」は、利用者ＩＤにより識別される利用者Ｕの性別を示す。

また、「自宅」は、利用者ＩＤにより識別される利用者Ｕの自宅の位置情報を示す。なお、図５に示す例では、「自宅」は、「ＬＣ１１」といった抽象的な符号を図示するが、緯度経度情報等であってもよい。また、例えば、「自宅」は、地域名や住所であってもよい。

また、「勤務地」は、利用者ＩＤにより識別される利用者Ｕの勤務地（学生の場合は学校）の位置情報を示す。なお、図５に示す例では、「勤務地」は、「ＬＣ１２」といった抽象的な符号を図示するが、緯度経度情報等であってもよい。また、例えば、「勤務地」は、地域名や住所であってもよい。

また、「興味」は、利用者ＩＤにより識別される利用者Ｕの興味を示す。すなわち、「興味」は、利用者ＩＤにより識別される利用者Ｕが関心の高い対象を示す。例えば、「興味」は、利用者Ｕが検索エンジンに入力して検索した検索クエリ（キーワード）等であってもよい。なお、図５に示す例では、「興味」は、各利用者Ｕに１つずつ図示するが、複数であってもよい。

例えば、図５に示す例において、利用者ＩＤ「Ｕ１」により識別される利用者Ｕの年齢は、「２０代」であり、性別は、「男性」であることを示す。また、例えば、利用者ＩＤ「Ｕ１」により識別される利用者Ｕは、自宅が「ＬＣ１１」であることを示す。また、例えば、利用者ＩＤ「Ｕ１」により識別される利用者Ｕは、勤務地が「ＬＣ１２」であることを示す。また、例えば、利用者ＩＤ「Ｕ１」により識別される利用者Ｕは、「スポーツ」に興味があることを示す。

ここで、図５に示す例では、「Ｕ１」、「ＬＣ１１」及び「ＬＣ１２」といった抽象的な値を用いて図示するが、「Ｕ１」、「ＬＣ１１」及び「ＬＣ１２」には、具体的な文字列や数値等の情報が記憶されるものとする。以下、他の情報に関する図においても、抽象的な値を図示する場合がある。

なお、利用者情報データベース１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、利用者情報データベース１２１は、利用者Ｕの端末装置１０に関する各種情報を記憶してもよい。また、利用者情報データベース１２１は、利用者Ｕのデモグラフィック（人口統計学的属性）、サイコグラフィック（心理学的属性）、ジオグラフィック（地理学的属性）、ベヘイビオラル（行動学的属性）等の属性に関する情報を記憶してもよい。例えば、利用者情報データベース１２１は、氏名、家族構成、出身地（地元）、職業、職位、収入、資格、居住形態（戸建、マンション等）、車の有無、通学・通勤時間、通学・通勤経路、定期券区間（駅、路線等）、利用頻度の高い駅（自宅・勤務地の最寄駅以外）、習い事（場所、時間帯等）、趣味、興味、ライフスタイル等の情報を記憶してもよい。

（履歴情報データベース１２２）
履歴情報データベース１２２は、利用者Ｕの行動を示す履歴情報（ログデータ）に関する各種情報を記憶する。図６は、履歴情報データベース１２２の一例を示す図である。図６に示した例では、履歴情報データベース１２２は、「利用者ＩＤ」、「位置履歴」、「検索履歴」、「閲覧履歴」、「購入履歴」、「投稿履歴」といった項目を有する。

「利用者ＩＤ」は、利用者Ｕを識別するための識別情報を示す。また、「位置履歴」は、利用者Ｕの位置や移動の履歴である位置履歴を示す。また、「検索履歴」は、利用者Ｕが入力した検索クエリの履歴である検索履歴を示す。また、「閲覧履歴」は、利用者Ｕが閲覧したコンテンツの履歴である閲覧履歴を示す。また、「購入履歴」は、利用者Ｕによる購入の履歴である購入履歴を示す。また、「投稿履歴」は、利用者Ｕによる投稿の履歴である投稿履歴を示す。なお、「投稿履歴」は、利用者Ｕの所有物に関する質問を含んでいてもよい。

例えば、図６に示す例において、利用者ＩＤ「Ｕ１」により識別される利用者Ｕは、「位置履歴＃１」の通りに移動し、「検索履歴＃１」の通りに検索し、「閲覧履歴＃１」の通りにコンテンツを閲覧し、「購入履歴＃１」の通りに所定の店舗等で所定の商品等を購入し、「投稿履歴」の通りに投稿したことを示す。

ここで、図６に示す例では、「Ｕ１」、「位置履歴＃１」、「検索履歴＃１」、「閲覧履歴＃１」、「購入履歴＃１」及び「投稿履歴＃１」といった抽象的な値を用いて図示するが、「Ｕ１」、「位置履歴＃１」、「検索履歴＃１」、「閲覧履歴＃１」、「購入履歴＃１」及び「投稿履歴＃１」には、具体的な文字列や数値等の情報が記憶されるものとする。

なお、履歴情報データベース１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、履歴情報データベース１２２は、利用者Ｕの所定のサービスの利用履歴等を記憶してもよい。また、履歴情報データベース１２２は、利用者Ｕの実店舗の来店履歴又は施設の訪問履歴等を記憶してもよい。また、履歴情報データベース１２２は、利用者Ｕの端末装置１０を用いた決済（電子決済）での決済履歴等を記憶してもよい。

（変形情報データベース１２３）
変形情報データベース１２３は、物体の変形の推定結果に関する各種情報を記憶する。図７は、変形情報データベース１２３の一例を示す図である。図７に示した例では、変形情報データベース１２３は、「利用者ＩＤ」、「物体」、「設置位置」、「出力音」、「取得音」、「変形」、「入力」、「応答」といった項目を有する。

「利用者ＩＤ」は、利用者Ｕを識別するための識別情報を示す。また、「物体」は、利用者Ｕが変形させることが可能な所定の物体であって、端末装置１０（又はスピーカーとマイクのペア）が取り付けられた物体を示す。例えば、物体は、ぬいぐるみやクッション等の柔らかい物体である。

また、「設置位置」は、所定の物体において、端末装置１０（又はスピーカーとマイクのペア）を取り付けた箇所（場所、部分、部位）を示す。なお、設置位置は、所定の物体の外側か内側かを示す情報であってもよい。また、設置位置は、所定の物体に関する３次元空間の座標位置であってもよい。また、設置位置は、スピーカーを取り付けた箇所（スピーカーの位置）とマイクを取り付けた箇所（マイクの位置）とを個別に示す情報であってもよい。

また、「出力音」は、所定の物体の所定の箇所（設置位置）に取り付けた端末装置１０又はスピーカーＳＫから出力された音（出力音）の特徴を示す。また、「取得音」は、所定の物体の所定の位置に取り付けた端末装置１０又はマイクＮＫで取得された音（取得音）の特徴を示す。

また、「変形」は、利用者Ｕが体重や力を加えたことによる所定の物体の変形を示す。ぬいぐるみＴの変形は、取得音の特徴（又は出力音と取得音の差分の特徴）に紐づけられている。なお、「変形」は、ぬいぐるみＴの変形パターンを示す情報であってもよいし、ぬいぐるみＴの変形後の形状を示す情報であってもよい。

また、「入力」は、所定の物体の変形に対応付けられた入力を示す。例えば、入力は、家電やＡＶ機器等のリモコン操作（ボタン操作）等であってもよい。また、「応答」は、入力に対する応答を示す。例えば、応答は、音声出力であってもよいし、家電やＡＶ機器等の操作／制御等であってもよい。

なお、「変形」、「入力」、「応答」の各項目の内容は、任意に変更可能である。すなわち、「変形」、「入力」、「応答」の組合せを自由に変更してもよい。また、１つの「変形」に対して、さらに利用者Ｕの位置情報、属性情報又は履歴情報に応じて異なる「入力」や「応答」を設定してもよい。例えば、利用者Ｕの「位置情報」と「属性情報」と「履歴情報」のうち少なくとも１つと「変形」との組ごとに、「入力」及び「応答」を設定してもよい。

例えば、図７に示す例において、利用者ＩＤ「Ｕ１」により識別される利用者Ｕが所定の物体「ぬいぐるみ」を変形させた際に、その「ぬいぐるみ」の「設置位置＃１」に取り付けた端末装置１０又はスピーカーＳＫから「出力音＃１」で示される音を出力し、その「ぬいぐるみ」の「設置位置＃１」に取り付けた端末装置１０又はマイクＭＫで「取得音＃１」で示される音を取得し、アクティブ音響センシングの結果、利用者Ｕが体重や力を加えて「ぬいぐるみ」を変形させた状態「変形＃１」を推定し、推定された「変形＃１」に基づく「入力＃１」に応じた「応答＃１」を出力したことを示す。

ここで、図７に示す例では、「Ｕ１」、「設置位置＃１」、「出力音＃１」、「取得音＃１」、「変形＃１」、「入力＃１」及び「応答＃１」といった抽象的な値を用いて図示するが、「Ｕ１」、「設置位置＃１」、「出力音＃１」、「取得音＃１」、「変形＃１」、「入力＃１」及び「応答＃１」には、具体的な文字列や数値等の情報が記憶されるものとする。

なお、変形情報データベース１２３は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、変形情報データベース１２３は、取得音の特徴（又は出力音と取得音の差分の特徴）を学習して構築したモデルを記憶してもよい。また、変形情報データベース１２３は、所定の物体の種別（型番、素材、大きさ等）に関する情報等を記憶してもよい。また、変形情報データベース１２３は、所定の物体に取り付けた端末装置１０（又はスピーカー及びマイク）の種別に関する情報等を記憶してもよい。

（制御部１３０）
図４に戻り、説明を続ける。制御部１３０は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等によって、サーバ装置１００の内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭ等の記憶領域を作業領域として実行されることにより実現される。図４に示す例では、制御部１３０は、取得部１３１と、命令部１３２と、推定部１３３と、学習部１３４と、応答部１３５と、提供部１３６とを有する。

（取得部１３１）
取得部１３１は、利用者Ｕにより入力された検索クエリを取得する。例えば、取得部１３１は、利用者Ｕが検索エンジン等に検索クエリを入力してキーワード検索を行った際に、通信部１１０を介して、当該検索クエリを取得する。すなわち、取得部１３１は、通信部１１０を介して、利用者Ｕにより検索エンジンやサイト又はアプリの検索窓に入力されたキーワードを取得する。

また、取得部１３１は、通信部１１０を介して、利用者Ｕに関する利用者情報を取得する。例えば、取得部１３１は、利用者Ｕの端末装置１０から、利用者Ｕを示す識別情報（利用者ＩＤ等）や、利用者Ｕの位置情報、利用者Ｕの属性情報等を取得する。また、取得部１３１は、利用者Ｕのユーザ登録時に、利用者Ｕを示す識別情報や、利用者Ｕの属性情報等を取得してもよい。そして、取得部１３１は、利用者情報を、記憶部１２０の利用者情報データベース１２１に登録する。

また、取得部１３１は、通信部１１０を介して、利用者Ｕの行動を示す各種の履歴情報（ログデータ）を取得する。例えば、取得部１３１は、利用者Ｕの端末装置１０から、あるいは利用者ＩＤ等に基づいて各種サーバ等から、利用者Ｕの行動を示す各種の履歴情報を取得する。そして、取得部１３１は、各種の履歴情報を、記憶部１２０の履歴情報データベース１２２に登録する。

（命令部１３２）
命令部１３２は、通信部１１０を介して、利用者Ｕが変形させることが可能な所定の物体に取り付けたスピーカーＳＫから音を出力する命令を出す。所定の物体は、変形させることが可能な所定の物体である。例えば、物体は、ぬいぐるみやクッション等の柔らかい物体である。例えば、命令部１３２は、通信部１１０を介して、ぬいぐるみやクッション等に取り付けた端末装置１０又はスピーカーＳＫから音を出力する命令を出す。

（推定部１３３）
推定部１３３は、所定の物体に取り付けたマイクＭＫで取得した音に基づいて、アクティブ音響センシングを用いて所定の物体の変形を推定する。例えば、推定部１３３は、所定の物体の変形ごとの音の特徴に基づいて、所定の物体の変形を推定する。

さらに、推定部１３３は、推定された所定の物体の変形に基づいて、利用者Ｕが所定の物体を変形させることにより行った入力を推定する。このとき、推定部１３３は、推定された所定の物体の変形と、利用者Ｕの位置情報、属性情報又は履歴情報とに基づいて、利用者Ｕが所定の物体を変形させることにより行った入力を推定してもよい。すなわち、推定部１３３は、所定の物体の変形が同じであっても、利用者Ｕの位置情報、属性情報又は履歴情報に応じて異なる入力を推定してもよい。

（学習部１３４）
学習部１３４は、所定の物体の変形ごとの音の特徴を学習してモデルを構築する。このとき、推定部１３３は、モデルを用いて所定の物体の変形を推定する。

例えば、学習部１３４は、利用者Ｕが所定の物体を変形させた状態でマイクＭＫで取得された取得音の特徴、又はスピーカーＳＰから出力された出力音の特徴とマイクＭＫで取得された取得音の特徴との両方を学習してモデルを構築する。

あるいは、学習部１３４は、利用者Ｕが所定の物体を変形させた状態でスピーカーＳＰから出力された出力音の特徴とマイクＭＫで取得された取得音の特徴との差分を学習してモデルを構築する。

また、学習部１３４は、所定の物体にスピーカーＳＰ及びマイクＭＫを取り付けた箇所ごとに、所定の物体の変形ごとの音の特徴を学習してモデルを構築する。

このとき、学習部１３４は、所定の物体の種別ごとに、所定の物体の変形ごとの音の特徴を学習してモデルを構築する。

また、学習部１３４は、所定の物体の素材の消耗具合と、マイクＭＫで取得された取得音の特徴とを学習してモデルを構築する。

（応答部１３５）
応答部１３５は、所定の物体の変形の推定結果に基づく利用者Ｕの入力に応じて応答を出力する。例えば、応答部１３５は、所定の物体の変形の推定結果に基づく利用者Ｕの入力に応じて所定の音声を出力する。あるいは、応答部１３５は、所定の物体の変形の推定結果に基づく利用者Ｕの入力に応じて家電やＡＶ機器等の制御信号を出力し、これらの操作／制御を行う。

また、応答部１３５は、所定の物体の変形が同じであっても、利用者の位置情報、属性情報又は履歴情報に応じて異なる入力が推定された場合、推定された利用者Ｕの入力に応じた応答を出力することで、所定の物体の変形が同じであっても、利用者Ｕの位置情報、属性情報又は履歴情報の違いに応じて異なる入力に応じた応答を出力する。

（提供部１３６）
提供部１３６は、通信部１１０を介して、利用者Ｕの入力の対象となる家電やＡＶ機器又は他の端末装置やサーバ装置等に、応答部１２６から出力された応答に関する情報を提供する。あるいは、提供部１３６は、通信部１１０を介して、利用者Ｕの端末装置１０又はマイクＭＫに、応答部１２６から出力された応答に関する情報を提供する。例えば、応答に関する情報が音声の場合、提供部１３６は、通信部１１０を介して、利用者Ｕの端末装置１０又はマイクＭＫに、音声データや音声の出力指示等を提供する。

〔５．処理手順〕
次に、図８を用いて実施形態に係る端末装置１０及びサーバ装置１００による処理手順について説明する。図８は、実施形態に係る処理手順を示すフローチャートである。なお、以下に示す処理手順は、端末装置１０の制御部３０及びサーバ装置１００の制御部１３０によって繰り返し実行される。

図８に示すように、サーバ装置１００の命令部１３２は、通信部１１０を介して、ぬいぐるみやクッション等に取り付けた端末装置１０又はスピーカーＳＫに対して、ぬいぐるみやクッション等に取り付けた端末装置１０又はスピーカーＳＫから音を出力する命令を出す（ステップＳ１０１）。このとき、ぬいぐるみやクッション等に取り付けた端末装置１０又はスピーカーＳＫは、音を出力する。

続いて、サーバ装置１００の推定部１３３は、通信部１１０を介して、ぬいぐるみやクッション等に取り付けた端末装置１０又はマイクＭＫで取得した音を受信する（ステップＳ１０２）。このとき、ぬいぐるみやクッション等に取り付けた端末装置１０又はマイクＭＫは、スピーカーＳＫから出力された音を取得し、取得音に関する情報をサーバ装置１００に送信する。

続いて、サーバ装置１００の推定部１３３は、ぬいぐるみやクッション等に取り付けた端末装置１０又はマイクＭＫで取得した音に基づいて、アクティブ音響センシングを用いてぬいぐるみＴの変形を推定する（ステップＳ１０３）。このとき、サーバ装置１００の推定部１３３は、後述するモデルを用いてぬいぐるみＴの変形を推定する。

続いて、サーバ装置１００の学習部１３４は、ぬいぐるみＴの変形ごとの音の特徴を学習したモデルを構築（生成、更新）する（ステップＳ１０４）。

続いて、サーバ装置１００の学習部１３４は、ぬいぐるみＴへの端末装置１０（又はスピーカーとマイクのペア）の設置位置（取付場所）ごとに、ぬいぐるみＴの変形ごとの音の特徴を学習したモデルを構築する（ステップＳ１０５）。

続いて、サーバ装置１００の学習部１３４は、ぬいぐるみＴごとに、ぬいぐるみＴの変形ごとの音の特徴を学習したモデルを構築する（ステップＳ１０６）。

続いて、サーバ装置１００の学習部１３４は、ユーザキャリブレーションを行う（ステップＳ１０７）。具体的には、学習部１３４は、ある程度（所定の段階）までは不特定多数のユーザのデータで学習してユーザ全体のモデルを構築し、個々のユーザのデータが十分に蓄積された時点で、ユーザごとにキャリブレーション（calibration）して個々のユーザのモデルを構築する。そして、サーバ装置１００の推定部１３３は、モデルを用いてぬいぐるみＴの変形を推定する。

続いて、サーバ装置１００の応答部１３５は、所定の物体の変形の推定結果に基づく利用者Ｕの入力に応じて応答を出力する（ステップＳ１０８）。このとき、サーバ装置１００の推定部１３３は、推定された所定の物体の変形に基づいて、利用者Ｕが所定の物体を変形させることにより行った入力を推定する。応答部１３５は、推定された利用者Ｕの入力に応じた応答を出力する。

続いて、サーバ装置１００の提供部１３６は、通信部１１０を介して、利用者Ｕの入力の対象となる家電やＡＶ機器又は他の端末装置やサーバ装置等に、応答部１２６から出力された応答に関する情報を提供する（ステップＳ１０９）。あるいは、提供部１３６は、通信部１１０を介して、利用者Ｕの端末装置１０又はマイクＭＫに、各物体の変形の推定結果に関する情報を提供する。例えば、提供部１３６は、通信部１１０を介して、利用者Ｕの端末装置１０又はマイクＭＫに、応答部１３５から出力された応答に関する情報を提供する。

〔６．変形例〕
上述した端末装置１０及びサーバ装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。

上記の実施形態において、サーバ装置１００が実行している処理の一部又は全部は、実際には、端末装置１０が実行してもよい。例えば、スタンドアローン（Stand-alone）で（端末装置１０単体で）処理が完結してもよい。この場合、端末装置１０に、上記の実施形態におけるサーバ装置１００の機能が備わっているものとする。また、上記の実施形態では、端末装置１０はサーバ装置１００と連携しているため、利用者Ｕから見れば、サーバ装置１００の処理も端末装置１０が実行しているように見える。すなわち、他の観点では、端末装置１０は、サーバ装置１００を備えているともいえる。

また、上記の実施形態において、ぬいぐるみ等の所定の物体にスピーカーＳＫとマイクＭＫとをそれぞれ複数取り付けてもよい。スピーカーＳＫとマイクＭＫの数は同数でなくてもよい。スピーカーＳＫとマイクＭＫは、それぞれ端末装置１０でもよい。例えば、ぬいぐるみやクッション等に取り付けた端末装置１０や１つのスピーカーＳＫから出力された音を、ぬいぐるみやクッション等の複数の箇所に取り付けたマイクＮＫのそれぞれで取得するようにしてもよい。反対に、ぬいぐるみやクッション等の複数の箇所に取り付けた端末装置１０やスピーカーＳＫから出力された音を、ぬいぐるみやクッション等に取り付けた端末装置１０や１つのマイクＮＫで取得するようにしてもよい。なお、複数のスピーカーＳＫから同時に音を出力するとマイクＭＫが適切に音を取得できない場合は、それぞれのスピーカーＳＫから音を出力するタイミングをずらしてもよい。このとき、サーバ装置１００は、どのスピーカーＳＫから出力した音を、どのマイクＭＫで取得したかによって、ぬいぐるみＴの変形を推定するようにしてもよい。

また、上記の実施形態において、ぬいぐるみ等の所定の物体に、１対のスピーカーＳＫとマイクＭＫとのペア（組）を複数設置してもよい。この場合、スピーカーＳＫとマイクＭＫの数は同数である。スピーカーＳＫとマイクＭＫは、それぞれ端末装置１０でもよい。例えば、オフィスチェアの背もたれと座面とのそれぞれにスピーカーＳＫとマイクＭＫとのペアを設置してもよい。なお、複数のスピーカーＳＫから同時に音を出力するとマイクＭＫが適切に音を取得できない場合は、それぞれのスピーカーＳＫから音を出力するタイミングをずらしてもよい。

また、上記の実施形態において、サーバ装置１００は、ぬいぐるみＴの変形の履歴を履歴情報として記憶してもよい。例えば、サーバ装置１００は、ぬいぐるみＴの変形の履歴を追跡し、一定期間、又は所定の時間帯に、ぬいぐるみＴを変形させている利用者Ｕを検出し、その利用者Ｕに対して通常とは異なる応答を出力してもよい。すなわち、サーバ装置１００は、一定期間の変形の継続、又は所定の時間帯におけるぬいぐるみＴの変形を通常とは異なる入力と推定し、その入力に応じて通常とは異なる応答を出力してもよい。

また、上記の実施形態において、サーバ装置１００は、ぬいぐるみＴの変形に対応する利用者Ｕの「入力」や、入力に応じた「応答」を、利用者Ｕの位置情報、属性情報又は履歴情報によって変更してもよい。例えば、サーバ装置１００は、ぬいぐるみＴの変形が同じであっても、利用者Ｕの位置や年齢や性別等（さらに、利用者Ｕの所定のサービスの利用履歴や操作履歴等）に応じて、その変形に対応する利用者Ｕの「入力」や、入力に応じた「応答」を変更してもよい。また、サーバ装置１００は、ぬいぐるみＴの変形が同じであっても、利用者Ｕが自宅にいる場合と外出中の場合とで、その変形に対応する「入力」や「応答」の内容を変更してもよい。

〔７．効果〕
上述してきたように、本願に係る情報処理装置（端末装置１０及びサーバ装置１００）は、利用者Ｕが変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令部１３２と、所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて所定の物体の変形を推定する推定部１３３と、所定の物体の変形の推定結果に基づく利用者Ｕの入力に応じて応答を出力する応答部１３５と、を備える。

推定部１３３は、さらに、推定された所定の物体の変形に基づいて、利用者Ｕが所定の物体を変形させることにより行った利用者Ｕの入力を推定する。応答部１３５は、推定された利用者Ｕの入力に応じた応答を出力する。

推定部１３３は、所定の物体の変形ごとの音の特徴に基づいて、所定の物体の変形を推定する。

本願に係る情報処理装置は、所定の物体の変形ごとの音の特徴を学習してモデルを構築する学習部１３４をさらに備える。推定部１３３は、モデルを用いて所定の物体の変形を推定する。

学習部１３４は、利用者Ｕが所定の物体を変形させた状態でマイクＭＫで取得された取得音の特徴、又はスピーカーＳＰから出力された出力音の特徴とマイクＭＫで取得された取得音の特徴との両方を学習してモデルを構築する。

学習部１３４は、利用者Ｕが所定の物体を変形させた状態でスピーカーから出力された出力音の特徴とマイクで取得された取得音の特徴との差分を学習してモデルを構築する。

学習部１３４は、所定の物体にスピーカー及びマイクを取り付けた箇所ごとに、所定の物体の変形ごとの音の特徴を学習してモデルを構築する。

学習部１３４は、所定の物体の種別ごとに、所定の物体の変形ごとの音の特徴を学習してモデルを構築する。

学習部１３４は、所定の物体の素材の消耗具合と、マイクＭＫで取得された取得音の特徴とを学習してモデルを構築する。

推定部１３３は、さらに、推定された所定の物体の変形と、利用者Ｕの位置情報、属性情報又は履歴情報とに基づいて、利用者Ｕが所定の物体を変形させることにより行った入力を推定する。応答部１３５は、推定された利用者Ｕの入力に応じた応答を出力することで、所定の物体の変形が同じであっても、利用者Ｕの位置情報、属性情報又は履歴情報の違いに応じて異なる入力に応じた応答を出力する。

上述した各処理のいずれかもしくは組合せにより、本願に係る情報処理装置は、対象となる物体にスマートデバイス（又はスピーカーとマイクのペア）を取り付けてアクティブ音響センシングで当該物体の変形を推定することができる。

〔８．ハードウェア構成〕
また、上述した実施形態に係る端末装置１０やサーバ装置１００は、例えば図９に示すような構成のコンピュータ１０００によって実現される。以下、サーバ装置１００を例に挙げて説明する。図９は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力Ｉ／Ｆ（Interface）１０６０、入力Ｉ／Ｆ１０７０、ネットワークＩ／Ｆ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置１０３０は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等により実現される。

一次記憶装置１０４０は、ＲＡＭ（Random Access Memory）等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等により実現される。二次記憶装置１０５０は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置１０５０は、ＵＳＢ（Universal Serial Bus）メモリやＳＤ（Secure Digital）メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置１０５０は、クラウドストレージ（オンラインストレージ）やＮＡＳ（Network Attached Storage）、ファイルサーバ等であってもよい。

出力Ｉ／Ｆ１０６０は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインターフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力Ｉ／Ｆ１０７０は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置１０２０から情報を受信するためのインターフェースであり、例えば、ＵＳＢ等により実現される。

また、出力Ｉ／Ｆ１０６０及び入力Ｉ／Ｆ１０７０はそれぞれ出力装置１０１０及び入力装置１０２０と無線で接続してもよい。すなわち、出力装置１０１０及び入力装置１０２０は、ワイヤレス機器であってもよい。

また、出力装置１０１０及び入力装置１０２０は、タッチパネルのように一体化していてもよい。この場合、出力Ｉ／Ｆ１０６０及び入力Ｉ／Ｆ１０７０も、入出力Ｉ／Ｆとして一体化していてもよい。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。

ネットワークＩ／Ｆ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力Ｉ／Ｆ１０６０や入力Ｉ／Ｆ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００がサーバ装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、コンピュータ１０００の演算装置１０３０は、ネットワークＩ／Ｆ１０８０を介して他の機器から取得したプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ１０００の演算装置１０３０は、ネットワークＩ／Ｆ１０８０を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。

〔９．その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

例えば、上述したサーバ装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１情報処理システム
１０端末装置
ＳＫスピーカー
ＭＫマイク
１００サーバ装置
１１０通信部
１２０記憶部
１２１利用者情報データベース
１２２履歴情報データベース
１２３変形情報データベース
１３０制御部
１３１取得部
１３２命令部
１３３推定部
１３４学習部
１３５応答部
１３６提供部

Claims

利用者が変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令部と、
前記所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて前記所定の物体の変形を推定する推定部と、
所定の物体の変形の推定結果に基づく前記利用者の入力に応じて応答を出力する応答部と、
を備えることを特徴とする情報処理装置。
前記推定部は、さらに、推定された前記所定の物体の変形に基づいて、前記利用者が前記所定の物体を変形させることにより行った前記利用者の入力を推定し、
前記応答部は、推定された前記利用者の入力に応じた応答を出力する
ことを特徴とする請求項１に記載の情報処理装置。
前記推定部は、前記所定の物体の変形ごとの音の特徴に基づいて、前記所定の物体の変形を推定する
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記所定の物体の変形ごとの音の特徴を学習してモデルを構築する学習部と、
をさらに備え、
前記推定部は、前記モデルを用いて前記所定の物体の変形を推定する
ことを特徴とする請求項１～３のうちいずれか１つに記載の情報処理装置。
前記学習部は、前記利用者が前記所定の物体を変形させた状態で前記マイクで取得された取得音の特徴、又は前記スピーカーから出力された出力音の特徴と前記マイクで取得された取得音の特徴との両方を学習してモデルを構築する
ことを特徴とする請求項４に記載の情報処理装置。
前記学習部は、前記利用者が前記所定の物体を変形させた状態で前記スピーカーから出力された出力音の特徴と前記マイクで取得された取得音の特徴との差分を学習してモデルを構築する
ことを特徴とする請求項４又は５に記載の情報処理装置。
前記学習部は、前記所定の物体に前記スピーカー及び前記マイクを取り付けた箇所ごとに、前記所定の物体の変形ごとの音の特徴を学習してモデルを構築する
ことを特徴とする請求項４～６のうちいずれか１つに記載の情報処理装置。
前記学習部は、前記所定の物体の種別ごとに、前記所定の物体の変形ごとの音の特徴を学習してモデルを構築する
ことを特徴とする請求項４～７のうちいずれか１つに記載の情報処理装置。
前記学習部は、所定の物体の素材の消耗具合と、前記マイクで取得された取得音の特徴とを学習してモデルを構築する
ことを特徴とする請求項４～８のうちいずれか１つに記載の情報処理装置。
前記推定部は、さらに、推定された前記所定の物体の変形と、前記利用者の位置情報、属性情報又は履歴情報とに基づいて、前記利用者が前記所定の物体を変形させることにより行った入力を推定し、
前記応答部は、推定された前記利用者の入力に応じた応答を出力することで、前記所定の物体の変形が同じであっても、前記利用者の位置情報、属性情報又は履歴情報の違いに応じて異なる入力に応じた応答を出力する
ことを特徴とする請求項１～９のうちいずれか１つに記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
利用者が変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令工程と、
前記所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて前記所定の物体の変形を推定する推定工程と、
を含むことを特徴とする情報処理方法。
利用者が変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令手順と、
前記所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて前記所定の物体の変形を推定する推定手順と、
をコンピュータに実行させるための情報処理プログラム。