JP2023127364A - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP2023127364A
JP2023127364A JP2022031117A JP2022031117A JP2023127364A JP 2023127364 A JP2023127364 A JP 2023127364A JP 2022031117 A JP2022031117 A JP 2022031117A JP 2022031117 A JP2022031117 A JP 2022031117A JP 2023127364 A JP2023127364 A JP 2023127364A
Authority
JP
Japan
Prior art keywords
user
predetermined object
deformation
sound
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022031117A
Other languages
English (en)
Inventor
香 池松
Kaori Ikematsu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2022031117A priority Critical patent/JP2023127364A/ja
Publication of JP2023127364A publication Critical patent/JP2023127364A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Length Measuring Devices Characterised By Use Of Acoustic Means (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】対象となる物体にスマートデバイス(又はスピーカーとマイクのペア)を取り付けてアクティブ音響センシングで当該物体の変形を推定する。【解決手段】情報処理装置は、利用者が変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令部と、前記所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて前記所定の物体の変形を推定する推定部と、所定の物体の変形の推定結果に基づく前記利用者の入力に応じて応答を出力する応答部と、を備える。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
腕にスピーカーとマイクを張り付けて手のジェスチャーを認識するアクティブ音響センシングの技術が開示されている。
アクティブ音響センシングを用いた手のジェスチャー認識手法の検討,情報処理学会研究報告,2016/8/6,[2021年11月22日検索],インターネット <URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=171767&item_no=1&attribute_id=1&file_no=1>
しかしながら、上記の従来技術では、単にジェスチャーの認識を行っているに過ぎず、利用者に対して更なるサービスを提供する余地がある。例えば、市販のぬいぐるみやクッション等の柔らかい物体に利用者が体重や力を加えることによって、柔らかい物体が折り曲げられて変形することがある。このような変形を検知することができれば、様々な目的に利用することができる。
本願は、上記に鑑みてなされたものであって、対象となる物体にスマートデバイス(又はスピーカーとマイクのペア)を取り付けてアクティブ音響センシングで当該物体の変形を検知することを目的とする。
本願に係る情報処理装置は、利用者が変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令部と、前記所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて前記所定の物体の変形を推定する推定部と、所定の物体の変形の推定結果に基づく前記利用者の入力に応じて応答を出力する応答部と、を備えることを特徴とする。
実施形態の一態様によれば、対象となる物体にスマートデバイス(又はスピーカーとマイクのペア)を取り付けてアクティブ音響センシングで当該物体の変形を検知することができる。
図1は、実施形態に係る情報処理方法の概要を示す説明図である。 図2は、実施形態に係る情報処理システムの構成例を示す図である。 図3は、実施形態に係る端末装置の構成例を示す図である。 図4は、実施形態に係るサーバ装置の構成例を示す図である。 図5は、利用者情報データベースの一例を示す図である。 図6は、履歴情報データベースの一例を示す図である。 図7は、変形情報データベースの一例を示す図である。 図8は、実施形態に係る処理手順を示すフローチャートである。 図9は、ハードウェア構成の一例を示す図である。
以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と記載する)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.情報処理方法の概要〕
まず、図1を参照し、実施形態に係る情報処理装置が行う情報処理方法の概要について説明する。図1は、実施形態に係る情報処理方法の概要を示す説明図である。なお、図1では、対象となる物体にスマートデバイス(又はスピーカーとマイクのペア)を取り付けてアクティブ音響センシングで当該物体の変形を検知する場合を例に挙げて説明する。
図1に示すように、情報処理システム1は、端末装置10とサーバ装置100とを含む。端末装置10とサーバ装置100とは、ネットワークN(図2参照)を介して有線又は無線で互いに通信可能に接続される。本実施形態では、端末装置10は、サーバ装置100と連携する。
端末装置10は、利用者U(ユーザ)により使用されるスマートフォンやタブレット端末等のスマートデバイスであり、4G(Generation)やLTE(Long Term Evolution)等の無線通信網を介して任意のサーバ装置と通信を行うことができる携帯端末装置である。また、端末装置10は、液晶ディスプレイ等の画面であって、タッチパネルの機能を有する画面を有し、利用者Uから指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、コンテンツ等の表示データに対する各種の操作を受付ける。なお、画面のうち、コンテンツが表示されている領域上で行われた操作を、コンテンツに対する操作としてもよい。また、端末装置10は、スマートデバイスのみならず、デスクトップPC(Personal Computer)やノートPC等の情報処理装置であってもよい。
サーバ装置100は、各利用者Uの端末装置10と連携し、各利用者Uの端末装置10に対して、各種アプリケーション(以下、アプリ)等に対するAPI(Application Programming Interface)サービス等と、各種データを提供する情報処理装置であり、コンピュータやクラウドシステム等により実現される。
また、サーバ装置100は、各利用者Uの端末装置10に対して、オンラインで何らかのWebサービスを提供する情報処理装置であってもよい。例えば、サーバ装置100は、Webサービスとして、インターネット接続、検索サービス、SNS(Social Networking Service)、電子商取引(EC:Electronic Commerce)、電子決済、オンラインゲーム、オンラインバンキング、オンライントレーディング、宿泊・チケット予約、動画・音楽配信、ニュース、地図、ルート検索、経路案内、路線情報、運行情報、天気予報等のサービスを提供してもよい。実際には、サーバ装置100は、上記のようなWebサービスを提供する各種サーバと連携し、Webサービスを仲介してもよいし、Webサービスの処理を担当してもよい。
なお、サーバ装置100は、利用者Uに関する利用者情報を取得可能である。例えば、サーバ装置100は、利用者Uの性別、年代、居住地域といった利用者Uの属性に関する情報を取得する。そして、サーバ装置100は、利用者Uを示す識別情報(利用者ID等)とともに利用者Uの属性に関する情報を記憶して管理する。
また、サーバ装置100は、利用者Uの端末装置10から、あるいは利用者ID等に基づいて各種サーバ等から、利用者Uの行動を示す各種の履歴情報(ログデータ)を取得する。例えば、サーバ装置100は、利用者Uの位置や日時の履歴である位置履歴を端末装置10から取得する。また、サーバ装置100は、利用者Uが入力した検索クエリの履歴である検索履歴を検索サーバ(検索エンジン)から取得する。また、サーバ装置100は、利用者Uが閲覧したコンテンツの履歴である閲覧履歴をコンテンツサーバから取得する。また、サーバ装置100は、利用者Uの商品購入や決済処理の履歴である購入履歴(決済履歴)を電子商取引サーバや決済処理サーバから取得する。また、サーバ装置100は、利用者Uのマーケットプレイスへの出品の履歴である出品履歴や販売履歴を電子商取引サーバや決済処理サーバから取得してもよい。また、サーバ装置100は、利用者Uの投稿の履歴である投稿履歴を口コミの投稿サービスを提供する投稿サーバやSNSサーバから取得する。
〔1-1.アクティブ音響センシングを用いた物体の変形の推定〕
本実施形態では、ぬいぐるみやクッション等の柔らかい物体にスマートフォン等のスマートデバイス(又はスピーカーとマイクのペア)を取り付けて、アクティブ音響センシング技術を用いて柔らかい物体の変形を推定する。また、物体の変形に基づく利用者の入力を推定して、入力に応じた処理(又は制御)を実施する。ここでは、ぬいぐるみを例に説明する。
図1に示すように、サーバ装置100は、ネットワークN(図2参照)を介して、各利用者Uが着座したぬいぐるみTの中(又は表面)に取り付けた端末装置10又はスピーカーSKから音を出力するように命令(指示)を出す(ステップS1)。命令(指示)は、データであってもよいし、信号であってもよい。なお、スピーカーSKが端末装置10から独立している場合には、サーバ装置100は、スピーカーSKに直接、音を出力するように命令を出してもよい。
次に、利用者Uの端末装置10は、サーバ装置100からの命令を受けて、ぬいぐるみTの中(又は表面)に取り付けた端末装置10又はスピーカーSKから音を出力する(ステップS2)。例えば、スピーカーSKは、アクティブ音響センシングに利用可能な振動スピーカーである。なお、スピーカーSKは端末装置10の筐体の表面に外付けされていてもよいし、端末装置10の筐体に内蔵・搭載されていてもよい。
次に、利用者Uの端末装置10は、ぬいぐるみTの中(又は表面)に取り付けた端末装置10又はマイクMKでその音を取得する(ステップS3)。例えば、マイクMKは、アクティブ音響センシングに利用可能なピエゾマイクである。なお、マイクMKは端末装置10の筐体の表面に外付けされていてもよいし、端末装置10の筐体に内蔵・搭載されていてもよい。
また、音を出力する端末装置10(スピーカーSKとしての端末装置10)と、音を取得する端末装置10(マイクMKとしての端末装置10)とは、異なる端末装置10(別々の端末装置10)であってもよい。すなわち、スピーカー用の端末装置10とマイク用の端末装置10との2台の端末装置10を用いてもよい。
次に、利用者Uの端末装置10は、ネットワークN(図2参照)を介して、マイクMKで取得した音に関する情報をサーバ装置100へ送信する(ステップS4)。なお、マイクMKが端末装置10から独立している場合には、マイクMKが直接、取得した音に関する情報をサーバ装置100へ送信してもよい。
次に、サーバ装置100は、各利用者Uの端末装置10から、マイクMKで取得した音に関する情報を受信し、アクティブ音響センシングを用いて、ぬいぐるみTの変形を推定する(ステップS5)。すなわち、サーバ装置100は、利用者Uが体重や力を加えることでぬいぐるみTが変形した状態で取得された音から、アクティブ音響センシングを用いて、ぬいぐるみTの変形を推定する。このとき、サーバ装置100は、ぬいぐるみTが変形した状態ごとに取得された音から、アクティブ音響センシングを用いて、ぬいぐるみTの各変形を推定してもよい。また、サーバ装置100は、ぬいぐるみTの変形として、ぬいぐるみTの変形パターンを推定してもよいし、ぬいぐるみTの変形後の形状を推定してもよい。このように、サーバ装置100は、アクティブ音響センシングを用いて、ぬいぐるみTの様々な変形の発生を検知することができる。
次に、サーバ装置100は、推定されたぬいぐるみTの変形に基づく利用者Uの入力を推定する(ステップS6)。ここでは、ぬいぐるみTの変形と、利用者Uの入力とが対応付けられている。ぬいぐるみTの変形と、利用者Uの入力とは、サーバ装置100が自動的に対応付けてもよいし、利用者Uが手動で対応付けてもよい。サーバ装置100は、推定されたぬいぐるみTの変形に対応する利用者Uの入力を推定する。
次に、サーバ装置100は、推定された利用者Uの入力に応じた処理(又は制御)を実施する(ステップS7)。例えば、サーバ装置100は、推定された利用者Uの入力に応じた応答を出力する。
具体的には、サーバ装置100は、ぬいぐるみTの中(又は表面)に取り付けた端末装置10又はマイクMKから、推定された利用者Uの入力に応じた音声を出力する。あるいは、サーバ装置100は、利用者の入力(ぬいぐるみTの変形)と家電やAV機器(Audio Visual)等のリモコン操作(ボタン操作)とを対応付けておき、推定された利用者Uの入力に応じて家電やAV機器等の制御信号を出力し、これらの操作/制御を行ってもよい。
このとき、サーバ装置100は、利用者Uを示す識別情報(利用者ID等)等に基づいて利用者Uを特定している場合、利用者Uの位置情報、属性情報又は履歴情報に応じて、ぬいぐるみTの変形に対応する利用者Uの「入力」やその入力に応じた「応答」の内容を変更してもよい。すなわち、1つの「変形」に対して、さらに利用者Uの位置情報、属性情報又は履歴情報に応じて異なる「入力」や「応答」を設定してもよい。例えば、サーバ装置100は、ぬいぐるみTの変形が同じであっても、利用者Uが自宅にいる場合と外出中の場合とで、その変形に対応する「入力」や「応答」の内容を変更してもよい。
なお、サーバ装置100は、ぬいぐるみTの変形ごとの音の特徴(特性)に基づいて、ぬいぐるみTの変形を推定してもよい。このとき、サーバ装置100は、ぬいぐるみTの変形ごとの音の特徴を学習したモデルを構築(生成、更新)し、モデルを用いてぬいぐるみTの変形を推定する。ぬいぐるみTが変形すると、ぬいぐるみTの音響特性が変わる。
例えば、サーバ装置100は、ぬいぐるみTに端末装置10(又はスピーカーとマイクのペア)を取り付けた状態でスピーカーSKから出力された音(出力音)の特徴とマイクMKで取得された音(取得音)の特徴とを学習してモデルを構築する。このとき、サーバ装置100は、取得音の特徴(又は出力音の特徴と取得音の特徴との両方)を学習してモデルを構築する。あるいは、サーバ装置100は、出力音と取得音との差分を学習してモデルを構築する。
すなわち、ぬいぐるみ等にスマートフォン等を取り付けて、利用者がぬいぐるみ等に体重や力を加えて変形させている間に、サーバ装置100が、ぬいぐるみ等に取り付けたスマートフォン等で音の出力と取得を行い、取得音の特徴(又は出力音と取得音の差分の特徴)を学習したモデルを構築する。
また、サーバ装置100は、ぬいぐるみTの変形後の形状の取得音の特徴を学習してモデルを構築し、モデルを用いてぬいぐるみTの変形を推定してもよい。あるいは、サーバ装置100は、ぬいぐるみTの元の形状の取得音の特徴と、ぬいぐるみTの変形後の形状の取得音の特徴との差分を学習してモデルを構築し、モデルを用いてぬいぐるみTの変形を推定してもよい。ぬいぐるみTの元の形状と変形後の形状とで、ぬいぐるみTの音響特性が変わる。なお、ぬいぐるみTの元の形状とは、利用者がぬいぐるみTに体重や力を加えていない状態(変形していない状態)でのぬいぐるみTの形状を示す。
また、サーバ装置100は、ぬいぐるみTへの端末装置10(又はスピーカーとマイクのペア)の設置位置(取付場所)ごとに、上記の音の特徴を学習したモデルを構築し、モデルを用いてぬいぐるみTの変形を推定してもよい。具体的には、サーバ装置100は、ぬいぐるみTへの設置位置とぬいぐるみTの変形ごとの音の特徴との組を学習したモデルを構築し、モデルを用いてぬいぐるみTの変形を推定してもよい。ぬいぐるみTのどの箇所(場所、部分、部位)に端末装置10(又はスピーカーとマイクのペア)を取り付けるかに応じても音響特性が変わる。また、設置位置がぬいぐるみTの外側か内側かによっても音響特性が変わる。
また、サーバ装置100は、ぬいぐるみTに取り付けた端末装置10(又はスピーカーとマイクのペア)の種別(機種、型番等)ごとに、上記の音の特徴を学習したモデルを構築し、モデルを用いてぬいぐるみTの変形を推定してもよい。音を出力又は取得する機器の違いによっても音響特性が変わる。
また、サーバ装置100は、ぬいぐるみTごとに、上記の音の特徴を学習してモデルを構築してもよい。具体的には、サーバ装置100は、ぬいぐるみTの種別(型番、素材、大きさ等)ごとに、上記の音の特徴を学習してモデルを構築してもよい。例えば、サーバ装置100は、利用者Uに対象となるぬいぐるみを選んでもらって、そのぬいぐるみの「型番」と「設置位置」と「音」とを入力すると「変形」を出力するモデルを構築してもよい。
また、サーバ装置100は、ユーザキャリブレーションを行うと好ましい。具体的には、サーバ装置100は、ある程度(所定の段階)までは不特定多数のユーザのデータで学習してユーザ全体のモデルを構築し、個々のユーザのデータが十分に蓄積された時点で、ユーザごとにキャリブレーション(calibration)して個々のユーザのモデルを構築する。例えば、サーバ装置100は、ユーザ全体のグローバルモデルを構築し、グローバルモデルを元にユーザごとのローカルモデルを構築してもよい。
このとき、サーバ装置100は、フェデレーテッドラーニング(Federated Learning:連合学習)の技術を利用してモデルを構築するようにしてもよい。例えば、サーバ装置100は、各ユーザにグローバルモデルを提供し、グローバルモデルを元にユーザごとに学習させてローカルモデルを構築させ、そのパラメータの差分等を取得するようにしてもよい。
また、例えば、ぬいぐるみTに限らず、クッションや枕等に端末装置10(又はスピーカーとマイクのペア)を取り付けて、サーバ装置100が、クッションや枕等の変形と音の特徴とを学習してモデルを構築し、モデルを用いて音からクッションや枕等の変形を推定するようにしてもよい。
すなわち、クッションや枕等にスマートフォン等を取り付けて、サーバ装置100が、利用者がクッションや枕等に体重や力を加えて変形させている間に、取得音の特徴(又は出力音と取得音の差分の特徴)を学習したモデルを構築する。
また、サーバ装置100は、ぬいぐるみやクッション等の柔らかい物体の素材の消耗具合を推測してもよい。例えば、クッション素材に端末装置10(又はスピーカーとマイクのペア)を取り付けて、サーバ装置100は、クッション素材の消耗具合と音の特徴とを学習してモデルを構築し、モデルを用いて音からクッション素材の消耗具合を推定するようにしてもよい。
このように、本実施形態では、サーバ装置100は、アクティブ音響センシング技術を用いてぬいぐるみ等の変形を推定して、ぬいぐるみ等の変形に応じて利用者の入力を推定し、入力に応じた応答を出力する。すなわち、サーバ装置100は、利用者が変形させることが可能な所定の物体(ぬいぐるみ等)に端末装置が設けられた際にマイクが取得した取得音が有する特性に応じて、利用者が所定の物体に対して行った入力を推定する。言い換えれば、サーバ装置100は、対象(ぬいぐるみ等)を介した音を取得して、取得された音に基づいて対象の変形を推定し、推定された変形から入力を推定して応答を出力する。
なお、サーバ装置100は、音を取得する際、対象(ぬいぐるみ等)に応じて適当な波長の音を取得するようにしてもよい。また、サーバ装置100は、反射音を取得するため、端末装置10又はスピーカーSKに対して、異なる周波数セットを、間隔をあけながら複数セット出力するように指示してもよい。
また、サーバ装置100は、ぬいぐるみの中にスマホを入れた状態で、利用者Uにぬいぐるみに対する様々な入力(手を握る、ひねる、なでる等)を行わせながら、出力音と取得音の特徴を学習してモデルを構築し、各利用者Uの端末装置10にモデルを配信する。利用者Uの端末装置10は、モデルを用いて入力を推定し、推定された入力に対応する情報処理を行う。例えば、端末装置10は、利用者Uがぬいぐるみと握手(手を握る+手を振る)した場合、モデルを用いて握手の際の変形であると推定し、握手を検知する。そして、端末装置10は、「握手」という利用者Uの入力に応じて、ぬいぐるみの中から「こんにちは」や「ありがとう」等の音声を出力する。このとき、端末装置10は、「手を握る」及び「手を振る」等の個々の状態の変形を推定し、それぞれの変形に応じて複数の入力を推定してもよい。なお、学習や、モデルを用いた情報処理は、クラウド側で処理してもよい。
本実施形態によれば、ぬいぐるみやクッション等の柔らかい物体にスマートデバイス(又はスピーカーとマイクのペア)を取り付けて(又は内蔵して)アクティブ音響センシングを行うことにより、これらの変形(部分的な押し込み、全体的な圧縮、ねじり、曲げ等)を検出できる。また、各変形(又は各変形後の形状)に家電操作等のコマンド(照明や電源のON/OFF、オーディオの音量調整等)を割り当てることで、これらの変形により入力を行うことも可能になる。
具体的には、対象となるぬいぐるみやクッション等の所定の物体に、所定の波長の音を含む出力音を出力可能なスピーカーSKと、スピーカーSKが出力した出力音を取得可能なマイクMKを取り付ける。そして、サーバ装置100が、所定の物体に取り付けたマイクMKが取得した音(取得音)が有する特性に応じて、所定の物体の変形を推定する。
なお、実際には、上記の実施形態において、サーバ装置100の代わりに、離れた場所にある他の端末装置10や、対象となる利用者Uの端末装置10自体を用いてもよい。すなわち、処置の主体はサーバ装置100に限らず、他の端末装置10や、対象となる利用者Uの端末装置10自体が、アクティブ音響センシングを用いて、ぬいぐるみTの変形を推定してもよい。
また、ぬいぐるみやクッション等は一例に過ぎない。実際には、ぬいぐるみやクッション等に限らず、枕や敷布団やマット、あるいはオフィスチェアやソファの座面や背もたれ等にスマートデバイス(又はスピーカーとマイクのペア)を取り付けて(又は内蔵して)アクティブ音響センシングを行うことにより、これらの物体の変形を推定し、推定された変形に対応する利用者Uの入力を推定し、推定された入力に応じた処理や制御を実施してもよい。
〔2.情報処理システムの構成例〕
次に、図2を用いて、実施形態に係るサーバ装置100が含まれる情報処理システム1の構成について説明する。図2は、実施形態に係る情報処理システム1の構成例を示す図である。図2に示すように、実施形態に係る情報処理システム1は、端末装置10とサーバ装置100とを含む。これらの各種装置は、ネットワークNを介して、有線又は無線により通信可能に接続される。ネットワークNは、例えば、LAN(Local Area Network)や、インターネット等のWAN(Wide Area Network)である。
また、図2に示す情報処理システム1に含まれる各装置の数は図示したものに限られない。例えば、図2では、図示の簡略化のため、端末装置10を1台のみ示したが、これはあくまでも例示であって限定されるものではなく、2台以上であってもよい。
端末装置10は、利用者Uによって使用される情報処理装置である。例えば、端末装置10は、スマートフォンやタブレット端末等のスマートデバイス、フィーチャーフォン、PC(Personal Computer)、PDA(Personal Digital Assistant)、通信機能を備えたゲーム機やAV機器、カーナビゲーションシステム、スマートウォッチやヘッドマウントディスプレイ等のウェアラブルデバイス(Wearable Device)、スマートグラス等である。
また、かかる端末装置10は、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation:第5世代移動通信システム)等の無線通信網や、Bluetooth(登録商標)、無線LAN(Local Area Network)等の近距離無線通信を介してネットワークNに接続し、サーバ装置100と通信することができる。
サーバ装置100は、例えばPCやブレードサーバ(blade server)等のコンピュータ、あるいはメインフレーム又はワークステーション等である。なお、サーバ装置100は、クラウドコンピューティングにより実現されてもよい。
〔3.端末装置の構成例〕
次に、図3を用いて、端末装置10の構成について説明する。図3は、端末装置10の構成例を示す図である。図3に示すように、端末装置10は、通信部11と、表示部12と、入力部13と、測位部14と、センサ部20と、制御部30(コントローラ)と、記憶部40とを備える。
(通信部11)
通信部11は、ネットワークN(図2参照)と有線又は無線で接続され、ネットワークNを介して、サーバ装置100との間で情報の送受信を行う。例えば、通信部11は、NIC(Network Interface Card)やアンテナ等によって実現される。
(表示部12)
表示部12は、位置情報等の各種情報を表示する表示デバイスである。例えば、表示部12は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機ELディスプレイ(Organic Electro-Luminescent Display)である。また、表示部12は、タッチパネル式のディスプレイであるが、これに限定されるものではない。
(入力部13)
入力部13は、利用者Uから各種操作を受け付ける入力デバイスである。例えば、入力部13は、文字や数字等を入力するためのボタン等を有する。なお、入力部13は、入出力ポート(I/O port)やUSB(Universal Serial Bus)ポート等であってもよい。また、表示部12がタッチパネル式のディスプレイである場合、表示部12の一部が入力部13として機能する。また、入力部13は、利用者Uから音声入力を受け付けるマイク等であってもよい。マイクはワイヤレスであってもよい。
(測位部14)
測位部14は、GPS(Global Positioning System)の衛星から送出される信号(電波)を受信し、受信した信号に基づいて、自装置である端末装置10の現在位置を示す位置情報(例えば、緯度及び経度)を取得する。すなわち、測位部14は、端末装置10の位置を測位する。なお、GPSは、GNSS(Global Navigation Satellite System)の一例に過ぎない。
また、測位部14は、GPS以外にも、種々の手法により位置を測位することができる。例えば、測位部14は、位置補正等のための補助的な測位手段として、下記のように、端末装置10の様々な通信機能を利用して位置を測位してもよい。
(Wi-Fi測位)
例えば、測位部14は、端末装置10のWi-Fi(登録商標)通信機能や、各通信会社が備える通信網を利用して、端末装置10の位置を測位する。具体的には、測位部14は、Wi-Fi通信等を行い、付近の基地局やアクセスポイントとの距離を測位することにより、端末装置10の位置を測位する。
(ビーコン測位)
また、測位部14は、端末装置10のBluetooth(登録商標)機能を利用して位置を測位してもよい。例えば、測位部14は、Bluetooth(登録商標)機能によって接続されるビーコン(beacon)発信機と接続することにより、端末装置10の位置を測位する。
(地磁気測位)
また、測位部14は、予め測定された構造物の地磁気のパターンと、端末装置10が備える地磁気センサとに基づいて、端末装置10の位置を測位する。
(RFID測位)
また、例えば、端末装置10が駅改札や店舗等で使用される非接触型ICカードと同等のRFID(Radio Frequency Identification)タグの機能を備えている場合、もしくはRFIDタグを読み取る機能を備えている場合、端末装置10によって決済等が行われた情報とともに、使用された位置が記録される。測位部14は、かかる情報を取得することで、端末装置10の位置を測位してもよい。また、位置は、端末装置10が備える光学式センサや、赤外線センサ等によって測位されてもよい。
測位部14は、必要に応じて、上述した測位手段の一つ又は組合せを用いて、端末装置10の位置を測位してもよい。
(センサ部20)
センサ部20は、端末装置10に搭載又は接続される各種のセンサを含む。なお、接続は、有線接続、無線接続を問わない。例えば、センサ類は、ウェアラブルデバイスやワイヤレスデバイス等、端末装置10以外の検知装置であってもよい。図3に示す例では、センサ部20は、加速度センサ21と、ジャイロセンサ22と、気圧センサ23と、気温センサ24と、音センサ25と、光センサ26と、磁気センサ27と、画像センサ(カメラ)28とを備える。
なお、上記した各センサ21~28は、あくまでも例示であって限定されるものではない。すなわち、センサ部20は、各センサ21~28のうちの一部を備える構成であってもよいし、各センサ21~28に加えてあるいは代えて、湿度センサ等その他のセンサを備えてもよい。
加速度センサ21は、例えば、3軸加速度センサであり、端末装置10の移動方向、速度、及び、加速度等の端末装置10の物理的な動きを検知する。ジャイロセンサ22は、端末装置10の角速度等に基づいて3軸方向の傾き等の端末装置10の物理的な動きを検知する。気圧センサ23は、例えば端末装置10の周囲の気圧を検知する。
端末装置10は、上記した加速度センサ21やジャイロセンサ22、気圧センサ23等を備えることから、これらの各センサ21~23等を利用した歩行者自律航法(PDR:Pedestrian Dead-Reckoning)等の技術を用いて端末装置10の位置を測位することが可能になる。これにより、GPS等の測位システムでは取得することが困難な屋内での位置情報を取得することが可能になる。
例えば、加速度センサ21を利用した歩数計により、歩数や歩くスピード、歩いた距離を算出することができる。また、ジャイロセンサ22を利用して、利用者Uの進行方向や視線の方向、体の傾きを知ることができる。また、気圧センサ23で検知した気圧から、利用者Uの端末装置10が存在する高度やフロアの階数を知ることもできる。
気温センサ24は、例えば端末装置10の周囲の気温を検知する。音センサ25は、例えば端末装置10の周囲の音を検知する。光センサ26は、端末装置10の周囲の照度を検知する。磁気センサ27は、例えば端末装置10の周囲の地磁気を検知する。画像センサ28は、端末装置10の周囲の画像を撮像する。
上記した気圧センサ23、気温センサ24、音センサ25、光センサ26及び画像センサ28は、それぞれ気圧、気温、音、照度を検知したり、周囲の画像を撮像したりすることで、端末装置10の周囲の環境や状況等を検知することができる。また、端末装置10の周囲の環境や状況等から、端末装置10の位置情報の精度を向上させることが可能になる。
(制御部30)
制御部30は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM、入出力ポート等を有するマイクロコンピュータや各種の回路を含む。また、制御部30は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路等のハードウェアで構成されてもよい。制御部30は、送信部31と、受信部32と、処理部33とを備える。
(送信部31)
送信部31は、例えば入力部13を用いて利用者Uにより入力された各種情報や、端末装置10に搭載又は接続された各センサ21~28によって検知された各種情報、測位部14によって測位された端末装置10の位置情報等を、通信部11を介してサーバ装置100へ送信することができる。
(受信部32)
受信部32は、通信部11を介して、サーバ装置100から提供される各種情報や、サーバ装置100からの各種情報の要求を受信することができる。
(処理部33)
処理部33は、表示部12等を含め、端末装置10全体を制御する。例えば、処理部33は、送信部31によって送信される各種情報や、受信部32によって受信されたサーバ装置100からの各種情報を表示部12へ出力して表示させることができる。
本実施形態では、処理部33は、ぬいぐるみやクッション等に取り付けた端末装置10又はスピーカーSKから音(出力音)を出力し、ぬいぐるみやクッション等に取り付けた端末装置10又はマイクMKで音(取得音)を取得する。このとき、処理部33は、受信部32がサーバ装置100や他の端末装置10から受信したスピーカーSKから音を出力する旨の命令に応じて、スピーカーSKから音を出力してもよい。また、処理部33は、送信部31からサーバ装置100や他の端末装置10へ、マイクMKで取得した音に関する情報を送信してもよい。
(記憶部40)
記憶部40は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置によって実現される。かかる記憶部40には、各種プログラムや各種データ等が記憶される。
〔4.サーバ装置の構成例〕
次に、図4を用いて、実施形態に係るサーバ装置100の構成について説明する。図4は、実施形態に係るサーバ装置100の構成例を示す図である。図4に示すように、サーバ装置100は、通信部110と、記憶部120と、制御部130とを有する。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。また、通信部110は、ネットワークN(図2参照)と有線又は無線で接続される。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、HDD、SSD、光ディスク等の記憶装置によって実現される。図4に示すように、記憶部120は、利用者情報データベース121と、履歴情報データベース122と、変形情報データベース123とを有する。
(利用者情報データベース121)
利用者情報データベース121は、利用者Uに関する利用者情報を記憶する。例えば、利用者情報データベース121は、利用者Uの属性等の種々の情報を記憶する。図5は、利用者情報データベース121の一例を示す図である。図5に示した例では、利用者情報データベース121は、「利用者ID(Identifier)」、「年齢」、「性別」、「自宅」、「勤務地」、「興味」といった項目を有する。
「利用者ID」は、利用者Uを識別するための識別情報を示す。なお、「利用者ID」は、利用者Uの連絡先(電話番号、メールアドレス等)であってもよいし、利用者Uの端末装置10を識別するための識別情報であってもよい。
また、「年齢」は、利用者IDにより識別される利用者Uの年齢を示す。なお、「年齢」は、利用者Uの具体的な年齢(例えば35歳など)を示す情報であってもよいし、利用者Uの年代(例えば30代など)を示す情報であってもよい。あるいは、「年齢」は、利用者Uの生年月日を示す情報であってもよいし、利用者Uの世代(例えば80年代生まれなど)を示す情報であってもよい。また、「性別」は、利用者IDにより識別される利用者Uの性別を示す。
また、「自宅」は、利用者IDにより識別される利用者Uの自宅の位置情報を示す。なお、図5に示す例では、「自宅」は、「LC11」といった抽象的な符号を図示するが、緯度経度情報等であってもよい。また、例えば、「自宅」は、地域名や住所であってもよい。
また、「勤務地」は、利用者IDにより識別される利用者Uの勤務地(学生の場合は学校)の位置情報を示す。なお、図5に示す例では、「勤務地」は、「LC12」といった抽象的な符号を図示するが、緯度経度情報等であってもよい。また、例えば、「勤務地」は、地域名や住所であってもよい。
また、「興味」は、利用者IDにより識別される利用者Uの興味を示す。すなわち、「興味」は、利用者IDにより識別される利用者Uが関心の高い対象を示す。例えば、「興味」は、利用者Uが検索エンジンに入力して検索した検索クエリ(キーワード)等であってもよい。なお、図5に示す例では、「興味」は、各利用者Uに1つずつ図示するが、複数であってもよい。
例えば、図5に示す例において、利用者ID「U1」により識別される利用者Uの年齢は、「20代」であり、性別は、「男性」であることを示す。また、例えば、利用者ID「U1」により識別される利用者Uは、自宅が「LC11」であることを示す。また、例えば、利用者ID「U1」により識別される利用者Uは、勤務地が「LC12」であることを示す。また、例えば、利用者ID「U1」により識別される利用者Uは、「スポーツ」に興味があることを示す。
ここで、図5に示す例では、「U1」、「LC11」及び「LC12」といった抽象的な値を用いて図示するが、「U1」、「LC11」及び「LC12」には、具体的な文字列や数値等の情報が記憶されるものとする。以下、他の情報に関する図においても、抽象的な値を図示する場合がある。
なお、利用者情報データベース121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、利用者情報データベース121は、利用者Uの端末装置10に関する各種情報を記憶してもよい。また、利用者情報データベース121は、利用者Uのデモグラフィック(人口統計学的属性)、サイコグラフィック(心理学的属性)、ジオグラフィック(地理学的属性)、ベヘイビオラル(行動学的属性)等の属性に関する情報を記憶してもよい。例えば、利用者情報データベース121は、氏名、家族構成、出身地(地元)、職業、職位、収入、資格、居住形態(戸建、マンション等)、車の有無、通学・通勤時間、通学・通勤経路、定期券区間(駅、路線等)、利用頻度の高い駅(自宅・勤務地の最寄駅以外)、習い事(場所、時間帯等)、趣味、興味、ライフスタイル等の情報を記憶してもよい。
(履歴情報データベース122)
履歴情報データベース122は、利用者Uの行動を示す履歴情報(ログデータ)に関する各種情報を記憶する。図6は、履歴情報データベース122の一例を示す図である。図6に示した例では、履歴情報データベース122は、「利用者ID」、「位置履歴」、「検索履歴」、「閲覧履歴」、「購入履歴」、「投稿履歴」といった項目を有する。
「利用者ID」は、利用者Uを識別するための識別情報を示す。また、「位置履歴」は、利用者Uの位置や移動の履歴である位置履歴を示す。また、「検索履歴」は、利用者Uが入力した検索クエリの履歴である検索履歴を示す。また、「閲覧履歴」は、利用者Uが閲覧したコンテンツの履歴である閲覧履歴を示す。また、「購入履歴」は、利用者Uによる購入の履歴である購入履歴を示す。また、「投稿履歴」は、利用者Uによる投稿の履歴である投稿履歴を示す。なお、「投稿履歴」は、利用者Uの所有物に関する質問を含んでいてもよい。
例えば、図6に示す例において、利用者ID「U1」により識別される利用者Uは、「位置履歴#1」の通りに移動し、「検索履歴#1」の通りに検索し、「閲覧履歴#1」の通りにコンテンツを閲覧し、「購入履歴#1」の通りに所定の店舗等で所定の商品等を購入し、「投稿履歴」の通りに投稿したことを示す。
ここで、図6に示す例では、「U1」、「位置履歴#1」、「検索履歴#1」、「閲覧履歴#1」、「購入履歴#1」及び「投稿履歴#1」といった抽象的な値を用いて図示するが、「U1」、「位置履歴#1」、「検索履歴#1」、「閲覧履歴#1」、「購入履歴#1」及び「投稿履歴#1」には、具体的な文字列や数値等の情報が記憶されるものとする。
なお、履歴情報データベース122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、履歴情報データベース122は、利用者Uの所定のサービスの利用履歴等を記憶してもよい。また、履歴情報データベース122は、利用者Uの実店舗の来店履歴又は施設の訪問履歴等を記憶してもよい。また、履歴情報データベース122は、利用者Uの端末装置10を用いた決済(電子決済)での決済履歴等を記憶してもよい。
(変形情報データベース123)
変形情報データベース123は、物体の変形の推定結果に関する各種情報を記憶する。図7は、変形情報データベース123の一例を示す図である。図7に示した例では、変形情報データベース123は、「利用者ID」、「物体」、「設置位置」、「出力音」、「取得音」、「変形」、「入力」、「応答」といった項目を有する。
「利用者ID」は、利用者Uを識別するための識別情報を示す。また、「物体」は、利用者Uが変形させることが可能な所定の物体であって、端末装置10(又はスピーカーとマイクのペア)が取り付けられた物体を示す。例えば、物体は、ぬいぐるみやクッション等の柔らかい物体である。
また、「設置位置」は、所定の物体において、端末装置10(又はスピーカーとマイクのペア)を取り付けた箇所(場所、部分、部位)を示す。なお、設置位置は、所定の物体の外側か内側かを示す情報であってもよい。また、設置位置は、所定の物体に関する3次元空間の座標位置であってもよい。また、設置位置は、スピーカーを取り付けた箇所(スピーカーの位置)とマイクを取り付けた箇所(マイクの位置)とを個別に示す情報であってもよい。
また、「出力音」は、所定の物体の所定の箇所(設置位置)に取り付けた端末装置10又はスピーカーSKから出力された音(出力音)の特徴を示す。また、「取得音」は、所定の物体の所定の位置に取り付けた端末装置10又はマイクNKで取得された音(取得音)の特徴を示す。
また、「変形」は、利用者Uが体重や力を加えたことによる所定の物体の変形を示す。ぬいぐるみTの変形は、取得音の特徴(又は出力音と取得音の差分の特徴)に紐づけられている。なお、「変形」は、ぬいぐるみTの変形パターンを示す情報であってもよいし、ぬいぐるみTの変形後の形状を示す情報であってもよい。
また、「入力」は、所定の物体の変形に対応付けられた入力を示す。例えば、入力は、家電やAV機器等のリモコン操作(ボタン操作)等であってもよい。また、「応答」は、入力に対する応答を示す。例えば、応答は、音声出力であってもよいし、家電やAV機器等の操作/制御等であってもよい。
なお、「変形」、「入力」、「応答」の各項目の内容は、任意に変更可能である。すなわち、「変形」、「入力」、「応答」の組合せを自由に変更してもよい。また、1つの「変形」に対して、さらに利用者Uの位置情報、属性情報又は履歴情報に応じて異なる「入力」や「応答」を設定してもよい。例えば、利用者Uの「位置情報」と「属性情報」と「履歴情報」のうち少なくとも1つと「変形」との組ごとに、「入力」及び「応答」を設定してもよい。
例えば、図7に示す例において、利用者ID「U1」により識別される利用者Uが所定の物体「ぬいぐるみ」を変形させた際に、その「ぬいぐるみ」の「設置位置#1」に取り付けた端末装置10又はスピーカーSKから「出力音#1」で示される音を出力し、その「ぬいぐるみ」の「設置位置#1」に取り付けた端末装置10又はマイクMKで「取得音#1」で示される音を取得し、アクティブ音響センシングの結果、利用者Uが体重や力を加えて「ぬいぐるみ」を変形させた状態「変形#1」を推定し、推定された「変形#1」に基づく「入力#1」に応じた「応答#1」を出力したことを示す。
ここで、図7に示す例では、「U1」、「設置位置#1」、「出力音#1」、「取得音#1」、「変形#1」、「入力#1」及び「応答#1」といった抽象的な値を用いて図示するが、「U1」、「設置位置#1」、「出力音#1」、「取得音#1」、「変形#1」、「入力#1」及び「応答#1」には、具体的な文字列や数値等の情報が記憶されるものとする。
なお、変形情報データベース123は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、変形情報データベース123は、取得音の特徴(又は出力音と取得音の差分の特徴)を学習して構築したモデルを記憶してもよい。また、変形情報データベース123は、所定の物体の種別(型番、素材、大きさ等)に関する情報等を記憶してもよい。また、変形情報データベース123は、所定の物体に取り付けた端末装置10(又はスピーカー及びマイク)の種別に関する情報等を記憶してもよい。
(制御部130)
図4に戻り、説明を続ける。制御部130は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等によって、サーバ装置100の内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAM等の記憶領域を作業領域として実行されることにより実現される。図4に示す例では、制御部130は、取得部131と、命令部132と、推定部133と、学習部134と、応答部135と、提供部136とを有する。
(取得部131)
取得部131は、利用者Uにより入力された検索クエリを取得する。例えば、取得部131は、利用者Uが検索エンジン等に検索クエリを入力してキーワード検索を行った際に、通信部110を介して、当該検索クエリを取得する。すなわち、取得部131は、通信部110を介して、利用者Uにより検索エンジンやサイト又はアプリの検索窓に入力されたキーワードを取得する。
また、取得部131は、通信部110を介して、利用者Uに関する利用者情報を取得する。例えば、取得部131は、利用者Uの端末装置10から、利用者Uを示す識別情報(利用者ID等)や、利用者Uの位置情報、利用者Uの属性情報等を取得する。また、取得部131は、利用者Uのユーザ登録時に、利用者Uを示す識別情報や、利用者Uの属性情報等を取得してもよい。そして、取得部131は、利用者情報を、記憶部120の利用者情報データベース121に登録する。
また、取得部131は、通信部110を介して、利用者Uの行動を示す各種の履歴情報(ログデータ)を取得する。例えば、取得部131は、利用者Uの端末装置10から、あるいは利用者ID等に基づいて各種サーバ等から、利用者Uの行動を示す各種の履歴情報を取得する。そして、取得部131は、各種の履歴情報を、記憶部120の履歴情報データベース122に登録する。
(命令部132)
命令部132は、通信部110を介して、利用者Uが変形させることが可能な所定の物体に取り付けたスピーカーSKから音を出力する命令を出す。所定の物体は、変形させることが可能な所定の物体である。例えば、物体は、ぬいぐるみやクッション等の柔らかい物体である。例えば、命令部132は、通信部110を介して、ぬいぐるみやクッション等に取り付けた端末装置10又はスピーカーSKから音を出力する命令を出す。
(推定部133)
推定部133は、所定の物体に取り付けたマイクMKで取得した音に基づいて、アクティブ音響センシングを用いて所定の物体の変形を推定する。例えば、推定部133は、所定の物体の変形ごとの音の特徴に基づいて、所定の物体の変形を推定する。
さらに、推定部133は、推定された所定の物体の変形に基づいて、利用者Uが所定の物体を変形させることにより行った入力を推定する。このとき、推定部133は、推定された所定の物体の変形と、利用者Uの位置情報、属性情報又は履歴情報とに基づいて、利用者Uが所定の物体を変形させることにより行った入力を推定してもよい。すなわち、推定部133は、所定の物体の変形が同じであっても、利用者Uの位置情報、属性情報又は履歴情報に応じて異なる入力を推定してもよい。
(学習部134)
学習部134は、所定の物体の変形ごとの音の特徴を学習してモデルを構築する。このとき、推定部133は、モデルを用いて所定の物体の変形を推定する。
例えば、学習部134は、利用者Uが所定の物体を変形させた状態でマイクMKで取得された取得音の特徴、又はスピーカーSPから出力された出力音の特徴とマイクMKで取得された取得音の特徴との両方を学習してモデルを構築する。
あるいは、学習部134は、利用者Uが所定の物体を変形させた状態でスピーカーSPから出力された出力音の特徴とマイクMKで取得された取得音の特徴との差分を学習してモデルを構築する。
また、学習部134は、所定の物体にスピーカーSP及びマイクMKを取り付けた箇所ごとに、所定の物体の変形ごとの音の特徴を学習してモデルを構築する。
このとき、学習部134は、所定の物体の種別ごとに、所定の物体の変形ごとの音の特徴を学習してモデルを構築する。
また、学習部134は、所定の物体の素材の消耗具合と、マイクMKで取得された取得音の特徴とを学習してモデルを構築する。
(応答部135)
応答部135は、所定の物体の変形の推定結果に基づく利用者Uの入力に応じて応答を出力する。例えば、応答部135は、所定の物体の変形の推定結果に基づく利用者Uの入力に応じて所定の音声を出力する。あるいは、応答部135は、所定の物体の変形の推定結果に基づく利用者Uの入力に応じて家電やAV機器等の制御信号を出力し、これらの操作/制御を行う。
また、応答部135は、所定の物体の変形が同じであっても、利用者の位置情報、属性情報又は履歴情報に応じて異なる入力が推定された場合、推定された利用者Uの入力に応じた応答を出力することで、所定の物体の変形が同じであっても、利用者Uの位置情報、属性情報又は履歴情報の違いに応じて異なる入力に応じた応答を出力する。
(提供部136)
提供部136は、通信部110を介して、利用者Uの入力の対象となる家電やAV機器又は他の端末装置やサーバ装置等に、応答部126から出力された応答に関する情報を提供する。あるいは、提供部136は、通信部110を介して、利用者Uの端末装置10又はマイクMKに、応答部126から出力された応答に関する情報を提供する。例えば、応答に関する情報が音声の場合、提供部136は、通信部110を介して、利用者Uの端末装置10又はマイクMKに、音声データや音声の出力指示等を提供する。
〔5.処理手順〕
次に、図8を用いて実施形態に係る端末装置10及びサーバ装置100による処理手順について説明する。図8は、実施形態に係る処理手順を示すフローチャートである。なお、以下に示す処理手順は、端末装置10の制御部30及びサーバ装置100の制御部130によって繰り返し実行される。
図8に示すように、サーバ装置100の命令部132は、通信部110を介して、ぬいぐるみやクッション等に取り付けた端末装置10又はスピーカーSKに対して、ぬいぐるみやクッション等に取り付けた端末装置10又はスピーカーSKから音を出力する命令を出す(ステップS101)。このとき、ぬいぐるみやクッション等に取り付けた端末装置10又はスピーカーSKは、音を出力する。
続いて、サーバ装置100の推定部133は、通信部110を介して、ぬいぐるみやクッション等に取り付けた端末装置10又はマイクMKで取得した音を受信する(ステップS102)。このとき、ぬいぐるみやクッション等に取り付けた端末装置10又はマイクMKは、スピーカーSKから出力された音を取得し、取得音に関する情報をサーバ装置100に送信する。
続いて、サーバ装置100の推定部133は、ぬいぐるみやクッション等に取り付けた端末装置10又はマイクMKで取得した音に基づいて、アクティブ音響センシングを用いてぬいぐるみTの変形を推定する(ステップS103)。このとき、サーバ装置100の推定部133は、後述するモデルを用いてぬいぐるみTの変形を推定する。
続いて、サーバ装置100の学習部134は、ぬいぐるみTの変形ごとの音の特徴を学習したモデルを構築(生成、更新)する(ステップS104)。
続いて、サーバ装置100の学習部134は、ぬいぐるみTへの端末装置10(又はスピーカーとマイクのペア)の設置位置(取付場所)ごとに、ぬいぐるみTの変形ごとの音の特徴を学習したモデルを構築する(ステップS105)。
続いて、サーバ装置100の学習部134は、ぬいぐるみTごとに、ぬいぐるみTの変形ごとの音の特徴を学習したモデルを構築する(ステップS106)。
続いて、サーバ装置100の学習部134は、ユーザキャリブレーションを行う(ステップS107)。具体的には、学習部134は、ある程度(所定の段階)までは不特定多数のユーザのデータで学習してユーザ全体のモデルを構築し、個々のユーザのデータが十分に蓄積された時点で、ユーザごとにキャリブレーション(calibration)して個々のユーザのモデルを構築する。そして、サーバ装置100の推定部133は、モデルを用いてぬいぐるみTの変形を推定する。
続いて、サーバ装置100の応答部135は、所定の物体の変形の推定結果に基づく利用者Uの入力に応じて応答を出力する(ステップS108)。このとき、サーバ装置100の推定部133は、推定された所定の物体の変形に基づいて、利用者Uが所定の物体を変形させることにより行った入力を推定する。応答部135は、推定された利用者Uの入力に応じた応答を出力する。
続いて、サーバ装置100の提供部136は、通信部110を介して、利用者Uの入力の対象となる家電やAV機器又は他の端末装置やサーバ装置等に、応答部126から出力された応答に関する情報を提供する(ステップS109)。あるいは、提供部136は、通信部110を介して、利用者Uの端末装置10又はマイクMKに、各物体の変形の推定結果に関する情報を提供する。例えば、提供部136は、通信部110を介して、利用者Uの端末装置10又はマイクMKに、応答部135から出力された応答に関する情報を提供する。
〔6.変形例〕
上述した端末装置10及びサーバ装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。
上記の実施形態において、サーバ装置100が実行している処理の一部又は全部は、実際には、端末装置10が実行してもよい。例えば、スタンドアローン(Stand-alone)で(端末装置10単体で)処理が完結してもよい。この場合、端末装置10に、上記の実施形態におけるサーバ装置100の機能が備わっているものとする。また、上記の実施形態では、端末装置10はサーバ装置100と連携しているため、利用者Uから見れば、サーバ装置100の処理も端末装置10が実行しているように見える。すなわち、他の観点では、端末装置10は、サーバ装置100を備えているともいえる。
また、上記の実施形態において、ぬいぐるみ等の所定の物体にスピーカーSKとマイクMKとをそれぞれ複数取り付けてもよい。スピーカーSKとマイクMKの数は同数でなくてもよい。スピーカーSKとマイクMKは、それぞれ端末装置10でもよい。例えば、ぬいぐるみやクッション等に取り付けた端末装置10や1つのスピーカーSKから出力された音を、ぬいぐるみやクッション等の複数の箇所に取り付けたマイクNKのそれぞれで取得するようにしてもよい。反対に、ぬいぐるみやクッション等の複数の箇所に取り付けた端末装置10やスピーカーSKから出力された音を、ぬいぐるみやクッション等に取り付けた端末装置10や1つのマイクNKで取得するようにしてもよい。なお、複数のスピーカーSKから同時に音を出力するとマイクMKが適切に音を取得できない場合は、それぞれのスピーカーSKから音を出力するタイミングをずらしてもよい。このとき、サーバ装置100は、どのスピーカーSKから出力した音を、どのマイクMKで取得したかによって、ぬいぐるみTの変形を推定するようにしてもよい。
また、上記の実施形態において、ぬいぐるみ等の所定の物体に、1対のスピーカーSKとマイクMKとのペア(組)を複数設置してもよい。この場合、スピーカーSKとマイクMKの数は同数である。スピーカーSKとマイクMKは、それぞれ端末装置10でもよい。例えば、オフィスチェアの背もたれと座面とのそれぞれにスピーカーSKとマイクMKとのペアを設置してもよい。なお、複数のスピーカーSKから同時に音を出力するとマイクMKが適切に音を取得できない場合は、それぞれのスピーカーSKから音を出力するタイミングをずらしてもよい。
また、上記の実施形態において、サーバ装置100は、ぬいぐるみTの変形の履歴を履歴情報として記憶してもよい。例えば、サーバ装置100は、ぬいぐるみTの変形の履歴を追跡し、一定期間、又は所定の時間帯に、ぬいぐるみTを変形させている利用者Uを検出し、その利用者Uに対して通常とは異なる応答を出力してもよい。すなわち、サーバ装置100は、一定期間の変形の継続、又は所定の時間帯におけるぬいぐるみTの変形を通常とは異なる入力と推定し、その入力に応じて通常とは異なる応答を出力してもよい。
また、上記の実施形態において、サーバ装置100は、ぬいぐるみTの変形に対応する利用者Uの「入力」や、入力に応じた「応答」を、利用者Uの位置情報、属性情報又は履歴情報によって変更してもよい。例えば、サーバ装置100は、ぬいぐるみTの変形が同じであっても、利用者Uの位置や年齢や性別等(さらに、利用者Uの所定のサービスの利用履歴や操作履歴等)に応じて、その変形に対応する利用者Uの「入力」や、入力に応じた「応答」を変更してもよい。また、サーバ装置100は、ぬいぐるみTの変形が同じであっても、利用者Uが自宅にいる場合と外出中の場合とで、その変形に対応する「入力」や「応答」の内容を変更してもよい。
〔7.効果〕
上述してきたように、本願に係る情報処理装置(端末装置10及びサーバ装置100)は、利用者Uが変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令部132と、所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて所定の物体の変形を推定する推定部133と、所定の物体の変形の推定結果に基づく利用者Uの入力に応じて応答を出力する応答部135と、を備える。
推定部133は、さらに、推定された所定の物体の変形に基づいて、利用者Uが所定の物体を変形させることにより行った利用者Uの入力を推定する。応答部135は、推定された利用者Uの入力に応じた応答を出力する。
推定部133は、所定の物体の変形ごとの音の特徴に基づいて、所定の物体の変形を推定する。
本願に係る情報処理装置は、所定の物体の変形ごとの音の特徴を学習してモデルを構築する学習部134をさらに備える。推定部133は、モデルを用いて所定の物体の変形を推定する。
学習部134は、利用者Uが所定の物体を変形させた状態でマイクMKで取得された取得音の特徴、又はスピーカーSPから出力された出力音の特徴とマイクMKで取得された取得音の特徴との両方を学習してモデルを構築する。
学習部134は、利用者Uが所定の物体を変形させた状態でスピーカーから出力された出力音の特徴とマイクで取得された取得音の特徴との差分を学習してモデルを構築する。
学習部134は、所定の物体にスピーカー及びマイクを取り付けた箇所ごとに、所定の物体の変形ごとの音の特徴を学習してモデルを構築する。
学習部134は、所定の物体の種別ごとに、所定の物体の変形ごとの音の特徴を学習してモデルを構築する。
学習部134は、所定の物体の素材の消耗具合と、マイクMKで取得された取得音の特徴とを学習してモデルを構築する。
推定部133は、さらに、推定された所定の物体の変形と、利用者Uの位置情報、属性情報又は履歴情報とに基づいて、利用者Uが所定の物体を変形させることにより行った入力を推定する。応答部135は、推定された利用者Uの入力に応じた応答を出力することで、所定の物体の変形が同じであっても、利用者Uの位置情報、属性情報又は履歴情報の違いに応じて異なる入力に応じた応答を出力する。
上述した各処理のいずれかもしくは組合せにより、本願に係る情報処理装置は、対象となる物体にスマートデバイス(又はスピーカーとマイクのペア)を取り付けてアクティブ音響センシングで当該物体の変形を推定することができる。
〔8.ハードウェア構成〕
また、上述した実施形態に係る端末装置10やサーバ装置100は、例えば図9に示すような構成のコンピュータ1000によって実現される。以下、サーバ装置100を例に挙げて説明する。図9は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置1030は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等により実現される。
一次記憶装置1040は、RAM(Random Access Memory)等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等により実現される。二次記憶装置1050は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置1050は、USB(Universal Serial Bus)メモリやSD(Secure Digital)メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置1050は、クラウドストレージ(オンラインストレージ)やNAS(Network Attached Storage)、ファイルサーバ等であってもよい。
出力I/F1060は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力I/F1070は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置1020から情報を受信するためのインターフェースであり、例えば、USB等により実現される。
また、出力I/F1060及び入力I/F1070はそれぞれ出力装置1010及び入力装置1020と無線で接続してもよい。すなわち、出力装置1010及び入力装置1020は、ワイヤレス機器であってもよい。
また、出力装置1010及び入力装置1020は、タッチパネルのように一体化していてもよい。この場合、出力I/F1060及び入力I/F1070も、入出力I/Fとして一体化していてもよい。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。
ネットワークI/F1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力I/F1060や入力I/F1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000がサーバ装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器から取得したプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。
〔9.その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
例えば、上述したサーバ装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 情報処理システム
10 端末装置
SK スピーカー
MK マイク
100 サーバ装置
110 通信部
120 記憶部
121 利用者情報データベース
122 履歴情報データベース
123 変形情報データベース
130 制御部
131 取得部
132 命令部
133 推定部
134 学習部
135 応答部
136 提供部

Claims (12)

  1. 利用者が変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令部と、
    前記所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて前記所定の物体の変形を推定する推定部と、
    所定の物体の変形の推定結果に基づく前記利用者の入力に応じて応答を出力する応答部と、
    を備えることを特徴とする情報処理装置。
  2. 前記推定部は、さらに、推定された前記所定の物体の変形に基づいて、前記利用者が前記所定の物体を変形させることにより行った前記利用者の入力を推定し、
    前記応答部は、推定された前記利用者の入力に応じた応答を出力する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記推定部は、前記所定の物体の変形ごとの音の特徴に基づいて、前記所定の物体の変形を推定する
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記所定の物体の変形ごとの音の特徴を学習してモデルを構築する学習部と、
    をさらに備え、
    前記推定部は、前記モデルを用いて前記所定の物体の変形を推定する
    ことを特徴とする請求項1~3のうちいずれか1つに記載の情報処理装置。
  5. 前記学習部は、前記利用者が前記所定の物体を変形させた状態で前記マイクで取得された取得音の特徴、又は前記スピーカーから出力された出力音の特徴と前記マイクで取得された取得音の特徴との両方を学習してモデルを構築する
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記学習部は、前記利用者が前記所定の物体を変形させた状態で前記スピーカーから出力された出力音の特徴と前記マイクで取得された取得音の特徴との差分を学習してモデルを構築する
    ことを特徴とする請求項4又は5に記載の情報処理装置。
  7. 前記学習部は、前記所定の物体に前記スピーカー及び前記マイクを取り付けた箇所ごとに、前記所定の物体の変形ごとの音の特徴を学習してモデルを構築する
    ことを特徴とする請求項4~6のうちいずれか1つに記載の情報処理装置。
  8. 前記学習部は、前記所定の物体の種別ごとに、前記所定の物体の変形ごとの音の特徴を学習してモデルを構築する
    ことを特徴とする請求項4~7のうちいずれか1つに記載の情報処理装置。
  9. 前記学習部は、所定の物体の素材の消耗具合と、前記マイクで取得された取得音の特徴とを学習してモデルを構築する
    ことを特徴とする請求項4~8のうちいずれか1つに記載の情報処理装置。
  10. 前記推定部は、さらに、推定された前記所定の物体の変形と、前記利用者の位置情報、属性情報又は履歴情報とに基づいて、前記利用者が前記所定の物体を変形させることにより行った入力を推定し、
    前記応答部は、推定された前記利用者の入力に応じた応答を出力することで、前記所定の物体の変形が同じであっても、前記利用者の位置情報、属性情報又は履歴情報の違いに応じて異なる入力に応じた応答を出力する
    ことを特徴とする請求項1~9のうちいずれか1つに記載の情報処理装置。
  11. 情報処理装置が実行する情報処理方法であって、
    利用者が変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令工程と、
    前記所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて前記所定の物体の変形を推定する推定工程と、
    を含むことを特徴とする情報処理方法。
  12. 利用者が変形させることが可能な所定の物体に取り付けたスピーカーから音を出力する命令を出す命令手順と、
    前記所定の物体に取り付けたマイクで取得した音に基づいて、アクティブ音響センシングを用いて前記所定の物体の変形を推定する推定手順と、
    をコンピュータに実行させるための情報処理プログラム。
JP2022031117A 2022-03-01 2022-03-01 情報処理装置、情報処理方法及び情報処理プログラム Pending JP2023127364A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022031117A JP2023127364A (ja) 2022-03-01 2022-03-01 情報処理装置、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022031117A JP2023127364A (ja) 2022-03-01 2022-03-01 情報処理装置、情報処理方法及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2023127364A true JP2023127364A (ja) 2023-09-13

Family

ID=87971563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022031117A Pending JP2023127364A (ja) 2022-03-01 2022-03-01 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2023127364A (ja)

Similar Documents

Publication Publication Date Title
JP7174782B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2024010474A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2023127364A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2023027548A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7388744B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2023127363A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7407152B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7459021B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7317901B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2023127393A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7122432B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7168640B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7353328B2 (ja) 端末装置、情報処理方法及び情報処理プログラム
JP7145247B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7459026B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7453199B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2024042231A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2023133012A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2023043772A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2023170207A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2024025997A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2023028857A (ja) 情報処理システム
JP2023179929A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2023120696A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2023179878A (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20231026