JP7389070B2

JP7389070B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP7389070B2
Application number: JP2021009844A
Authority: JP
Inventors: 順日置; 英男長谷川; 新太郎大崎; 洋明佐々木; 昌彦宇井
Original assignee: Toyota Motor Corp; Toyota Mapmaster Inc
Current assignee: Toyota Motor Corp; Toyota Mapmaster Inc
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2023-11-29
Anticipated expiration: 2041-01-25
Also published as: CN114792245A; JP2022113535A; US20220237624A1

Description

本開示は、施設の来客状況を把握するための技術に関する。

特許文献１には、店舗の状況を特定し出力する情報処理装置に関する技術が開示されている。特許文献１に開示の技術では、情報処理装置が、店舗に設置されたマイクにより生成された音声データを店舗生情報として取得する。情報処理装置は、取得した音声データに基づき店舗のうるささを特定する。また、情報処理装置は、特定した店舗のうるささを店舗の状況として出力する。

国際公開第２０１８／１６８１１９

本開示の目的は、所定の施設における来客状況を把握することを可能とすることである。

本発明の第１の態様に係る情報処理装置は、
所定の施設内において集音された音データを取得することと、
前記所定の施設内における人の発話によって生じた音声データを前記音データから抽出することと、
前記音声データに基づいて前記所定の施設における来客状況を評価することと、
を実行する制御部を備える。

本発明の第２の態様に係る情報処理方法は、
コンピュータによって実行される情報処理方法であって、
所定の施設内において集音された音データを取得することと、
前記所定の施設内における人の発話によって生じた音声データを前記音データから抽出することと、
前記音声データに基づいて前記所定の施設における来客状況を評価することと、
を含む。

本発明の第３の態様に係るプログラムは、
所定の施設内において集音された音データを取得することと、
前記所定の施設内における人の発話によって生じた音声データを前記音データから抽出することと、
前記音声データに基づいて前記所定の施設における来客状況を評価することと、
をコンピュータに実行させる。

本開示によれば、所定の施設における来客状況を把握することが可能となる。

情報提供システムの概略構成を示す図である。第１実施形態に係る管理サーバおよびユーザ端末それぞれの機能構成の一例を概略的に示すブロック図である。店舗情報のテーブル構成の一例を示す図である。第１実施形態に係る情報処理のフローを示すフローチャートである。第２実施形態に係る管理サーバの機能構成の一例を概略的に示すブロック図である。第２実施形態の変形例に係る管理サーバの機能構成の一例を概略的に示すブロック図である。店舗情報データベースに格納に格納されている店舗情報のテーブル構成の一例を示す図である。第３実施形態に係る管理サーバの機能構成の一例を概略的に示すブロック図である。ユーザ端末において指定店舗についての合成データが出力されたときの様子の一例を示す図である。第３実施形態に係る情報処理のフローを示すフローチャートである。

本開示に係る情報処理装置は制御部を備える。制御部は、所定の施設内において集音された音データを取得する。ここで、所定の施設は、ユーザが利用することを検討中の施設であってもよい。音データは、所定の施設内に設置されたマイク等によって集音される。所定の施設内において集音された音データには、所定の施設内における人の発話によって生じた音声データ（以下、単に「音声データ」と称する場合もある。）が含まれる。ただし、音データには、音声データ以外の音に関するデータ（以下、「背景音データ」と称する場合もある。）も含まれる。背景音データは、例えば、所定の施設内での作業に伴って生じた音または外部から所定の施設内に流れ込んだ音のデータである。

そこで、制御部は、取得された音データから音声データを抽出する。そして、制御部は、抽出された音声データに基づいて所定の施設における来客状況を評価する。

上記のとおり、制御部によって抽出される音声データは、所定の施設内における人（すなわち、所定の施設内に存在する来客）の発話によって生じた音声に関するデータである。そのため、音声データは、所定の施設内において集音された音データそのものよりも、所定の施設における来客状況との相関が高い。そのため、例えば、音声データによれば、所定の施設内における人の発話に起因するうるささを評価することができる。また、音声データによれば、所定の施設における客層を評価することができる。

また、所定の施設における来客状況を評価するために、所定の施設内を撮像した画像データを用いることが考えられる。しかしながら、所定の施設内に存在する来客のプライバシーの保護を考慮すると、所定の施設内の画像を撮像することは好ましくない。これに対し、音声データを用いることで、所定の施設内を撮像した画像データを用いることなく、所定の施設における来客状況を評価することができる。そのため、所定の施設内に存在する来客のプライバシーの保護を図ることがきる。

したがって、本開示によれば、所定の施設における来客状況を把握することが可能となる。

以下、本開示の具体的な実施形態について図面に基づいて説明する。本実施形態に記載されている構成部品の寸法、材質、形状、および、その相対配置等は、特に記載がない限りは本開示の技術的範囲をそれらのみに限定する趣旨のものではない。

＜第１実施形態＞
（システムの概略）
図１は、本実施形態に係る情報提供システムの概略構成を示す図である。情報提供システムは、店舗の来客状況をユーザに提供するためのシステムである。情報提供システム１は、ユーザ端末１００、管理サーバ３００、および複数の店舗それぞれに設置されたマイク２００を含んで構成される。ここで、マイク２００が設置されている各店舗は飲食店である。

情報提供システム１においては、ユーザ端末１００、管理サーバ３００、および各マイク２００がネットワークＮ１によって相互に接続される。ネットワークＮ１としては、例えば、インターネット等の世界規模の公衆通信網であるＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、または携帯電話等の電話通信網が採用されてもよい。

各マイク２００は店舗内おいて集音する。また、マイク２００は、集音した音データをネットワークＮ１を介して管理サーバ３００に送信することができる。ユーザ端末１００は、ユーザが所持または操作している端末である。ユーザ端末１００としては、スマートフォン、タブレットコンピュータ、またはウェアラブル端末を例示することができる。ユーザ端末１００は、ユーザによって指定された店舗を示す指定情報をネットワークＮ１を介して管理サーバ３００に送信することができる。なお、以下においては、ユーザによって指定された店舗を「指定店舗」と称する場合もある。

管理サーバ３００は、店舗の来客状況を評価しユーザに提供するためのサーバ装置である。管理サーバ３００は、一般的なコンピュータを含んで構成される。管理サーバ３００を構成するコンピュータは、プロセッサ３０１、主記憶部３０２、補助記憶部３０３、および通信インターフェース（通信Ｉ／Ｆ）３０４を有する。

ここで、プロセッサ３０１は、例えば、ＣＰＵ（Central Processing Unit）またはＤ
ＳＰ（Digital Signal Processor）である。主記憶部３０２は、例えば、ＲＡＭ（Random
Access Memory）である。補助記憶部３０３は、例えば、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、またはフラッシュメモリである。また、補助記憶部３０３
は、リムーバブルメディア（可搬記録媒体）を含んでもよい。ここで、リムーバブルメディアは、例えば、ＵＳＢメモリ、ＳＤカード、または、ＣＤ－ＲＯＭ、ＤＶＤディスク、若しくはブルーレイディスクのようなディスク記録媒体である。通信Ｉ／Ｆ３０４は、例えば、ＬＡＮ（Local Area Network）インターフェースボード、または無線通信のための無線通信回路である。

補助記憶部３０３には、オペレーティングシステム（ＯＳ）、各種プログラム、および各種情報テーブル等が格納されている。そして、プロセッサ３０１が、補助記憶部３０３に記憶されたプログラムを主記憶部３０２にロードして実行することによって、後述するような、店舗の来客状況を評価する制御および評価結果をユーザに提供するための制御が実現される。ただし、管理サーバ３００における一部または全部の機能はＡＳＩＣやＦＰＧＡのようなハードウェア回路によって実現されてもよい。なお、管理サーバ３００は、必ずしも単一の物理的構成によって実現される必要はなく、互いに連携する複数台のコンピュータによって構成されてもよい。なお、本実施形態においては、管理サーバ３００が、本開示に係る「情報処理装置」に相当する。

管理サーバ３００は、指定店舗に設置されたマイク２００から音データを受信する。そして、管理サーバ３００は、受信した音データに基づいて指定店舗の来客状況を評価する。なお、管理サーバ３００において実行される来客状況の評価方法の詳細については後述する。

そして、管理サーバ３００は、評価結果として得られた指定店舗の来客状況を店舗情報としてネットワークＮ１を介してユーザ端末１００に送信する。ユーザ端末１００は、管理サーバ３００から受信した店舗情報を出力する。これにより、ユーザは、自身が指定した指定店舗の来客状況を把握することができる。

（機能構成）
次に、情報提供システム１を構成する管理サーバ３００およびユーザ端末１００それぞれの機能構成について図２に基づいて説明する。図２は、本実施形態に係る管理サーバ３００およびユーザ端末１００それぞれの機能構成の一例を概略的に示すブロック図である。

（管理サーバ）
管理サーバ３００は通信部３１０および制御部３２０を有している。通信部３１０は、管理サーバ３００をネットワークＮ１に接続する機能を有する。通信部３１０は通信Ｉ／Ｆ３０４によって実現することができる。制御部３２０は、管理サーバ３００を制御するための演算処理を行う機能を有する。制御部３２０は、プロセッサ３０１によって実現することができる。

制御部３２０は、ユーザ端末１００から送信された指定情報を通信部３１０を用いて受信する処理を行う。指定情報には、指定店舗を特定するための識別情報である店舗IＤが
含まれている。また、制御部３２０は、ユーザ端末１００から受信した指定情報に示されている指定店舗に設置されたマイク２００に対して通信部３１０を用いて依頼情報を送信する処理を行う。依頼情報は、指定店舗内においてマイク２００によって集音された音データの送信を依頼するための情報である。また、制御部３２０は、依頼情報を受信したマイク２００から送信された音データを通信部３１０を用いて受信する処理を行う。これにより、管理サーバ３００は、指定店舗に設置されたマイク２００によって集音された音データを受信することができる。

また、制御部３２０は、取得部３２１、抽出部３２２、および評価部３２３を機能部として含んでいる。取得部３２１は、マイク２００から通信部３１０を介して受信した指定店舗の音データを取得する。ここで、指定店舗の音データには、指定店舗内に存在する人の発話によって生じた音声データおよび背景音データが含まれている。

抽出部３２２は、取得部３２１が取得した指定店舗の音データから音声データを抽出するために抽出処理を実行する。抽出処理においては、音データから音声データを抽出する方法として公知のどのような方法を採用してもよい。例えば、抽出処理は、音データを音声データと背景音データとに分離することで音声データを抽出する処理であってもってもよい。また、抽出処理は、音データから背景音データを削除することで音声データを抽出する処理であってもってもよい。

そして、評価部３２３は、抽出部３２２が抽出した指定店舗の音声データに基づいて、指定店舗の来客状況を評価するための評価処理を実行する。具体的には、評価部３２３は、来客状況として、指定店舗内における人の発話に起因するうるささ（以下、単に「うるささ」と称する場合もある。）、および、指定店舗における客層（以下、単に「客層」と称する場合もある。）を評価する。うるささは、例えば、音の大きさのレベルで表すことができる。うるささは、音声データにおける音の大きさ等に基づいて評価することができる。また、客層は、例えば、指定店舗内に存在する人々（来客）の男女比または年齢層毎の比率で表すことができる。客層は、音声データに含まれる個々人の音声に基づいて個々人の性別および年齢を推定することで評価することができる。

そして、制御部３２０は、評価部３２３による評価結果に基づいて指定店舗についての店舗情報を生成する。図３は、店舗情報のテーブル構成の一例を示す図である。図３に示すように、店舗情報は、店舗ＩＤフィールドおよび来客状況フィールドを有する。店舗ＩＤフィールドには、指定店舗の店舗IＤが入力される。来客状況フィールドには、評価部
３２３によって評価されたうるささおよび客層が入力される。さらに、制御部３２０は、生成した指定店舗についての店舗情報を通信部３１０を用いてユーザ端末１００に送信する処理を行う。

（ユーザ端末）
ユーザ端末１００は、通信部１１０、制御部１２０、および入出力部１３０を有している。通信部１１０は、ユーザ端末１００をネットワークＮ１に接続する機能を有する。通信部１１０は、ユーザ端末１００が備える通信インターフェースによって実現することができる。通信部１１０は、例えば、３Ｇ（３ｒｄＧｅｎｅｒａｔｉｏｎ）、またはＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）等の移動体通信サービスを利用して、ネットワークＮ１経由で管理サーバ３００を含む他の装置と通信を行うことができる。

制御部１２０は、ユーザ端末１００を制御するための演算処理を行う機能を有する。制御部１２０は、ユーザ端末１００が備えるプロセッサによって実現することができる。入出力部１３０は、ユーザによって行われる入力操作を受け付ける機能、および、ユーザに提示する情報を出力する機能を有する。例えば、入出力部１３０はタッチパネルディスプレイおよびスピーカを含んで構成される。

制御部１２０は、ユーザが入出力部１３０を介して指定店舗を指定すると、指定店舗を示す指定情報を生成する。なお、ユーザは、入出力部１３０に含まれるタッチパネルディスプレイに表示される地図上において指定店舗を指定してもよい。そして、制御部１２０は、生成した指定情報を通信部１１０を用いて管理サーバ３００に送信する処理を行う。また、制御部１２０は、管理サーバ３００から送信された指定店舗についての店舗情報を通信部１１０を用いて受信する処理を行う。

制御部１２０は、管理サーバ３００から店舗情報を受信すると、入出力部１３０を用いて店舗情報を出力する。これにより、ユーザは、指定店舗の来客状況としてうるささおよび客層を把握することが可能となる。

（情報処理）
次に、管理サーバ３００において、指定店舗の来客状況をユーザに提供するために実行される情報処理のフローについて図４に基づいて説明する。図４は、本実施形態に係る情報処理のフローを示すフローチャートである。本フローは、管理サーバ３００の制御部３２０によって実行される。

本フローでは、先ずＳ１０１において、ユーザ端末１００から送信された指定情報が受信される。次に、Ｓ１０２において、指定店舗に設置されたマイク２００に対して依頼情報が送信される。このとき、Ｓ１０１で受信された指定情報に基づいて指定店舗が特定される。次に、Ｓ１０３において、指定店舗に設置されたマイク２００から受信した指定店舗の音データが取得される。

次に、Ｓ１０４において抽出処理が実行される。これにより、Ｓ１０３で取得された指定店舗の音データから音声データが抽出される。次に、Ｓ１０５において評価処理が実行される。これにより、Ｓ１０４で抽出された音声データにもとづいて指定店舗のうるささおよび客層が評価される。Ｓ１０５において評価処理が実行されると、その評価結果に基
づいて指定店舗についての店舗情報が生成される。次に、Ｓ１０６において、指定店舗についての店舗情報がユーザ端末１００に送信される。その結果、ユーザ端末１００において、指定店舗についての店舗情報が出力される。

上記のように、情報提供システム１においては、指定店舗の来客状況の評価が、画像データではなく、音声データを用いて行われる。そのため、各店舗において、来客が含まれる画像を撮像する必要がない。したがって、店舗内に存在する来客のプライバシーの保護を図ることができる。また、店舗から管理サーバ３００に画像データを送信する場合に比べて、送信するデータの容量を小さくすることができる。

また、指定店舗内における人の発話によって生じた音声データは、マイク２００によって集音された音データそのものよりも、指定店舗における来客状況との相関が高い。そのため、上記のように、音声データに基づいて、指定店舗における人の発話によるうるささおよび客層を評価することができる。

また、本実施形態では、管理サーバ３００が、ユーザ端末１００から指定情報を受信したタイミングで、指定店舗の音データを取得し、指定店舗の来客状況の評価を行う。そのため、ユーザは、ユーザ端末１００において指定店舗を指定したタイミングにおける来客状況をリアルタイムで把握することができる。

＜第２実施形態＞
本実施形態における情報提供システムの概略構成は第１実施形態と同様である。ただし、本実施形態においては、管理サーバ３００の機能構成が第１実施形態とは一部異なっている。

図５は、本実施形態に係る管理サーバ３００の機能構成の一例を概略的に示すブロック図である。図５に示すように、本実施形態では、管理サーバ３００が、通信部３１０および制御部３２０に加え、店舗情報データベース（店舗情報ＤＢ）３３０を有している。

本実施形態では、管理サーバ３００が、各店舗に設置されたマイク２００から定期的に音データを受信する。また、制御部３２０は、定期的に受信した各店舗の音データに基づいて抽出処理および評価処理を実行する。このときに実行される抽出処理および評価処理は第１実施形態と同様である。したがって、各店舗の音データから抽出された音声データに基づいて、各店舗の人の発話によるうるささおよび客層が評価される。

さらに、制御部３２０は、評価処理における評価結果に基づいて各店舗についての店舗情報を生成する。そして、生成された各店舗についての店舗情報が店舗情報ＤＢ３３０に格納される。なお、店舗情報ＤＢ３３０は、管理サーバ３００における補助記憶部３０３によって実現することができる。また、本実施形態においては、店舗情報ＤＢ３３０が、本開示に係る「記憶部」に相当する。

このとき、管理サーバ３００においては、各店舗のマイク２００から定期的に受信した音データに基づいて抽出処理および評価処理が実行されるため、各店舗における来客状況が時間帯毎に評価されることができる。そこで、店舗情報ＤＢ３３０は、各店舗についての時間帯毎の来客状況が店舗情報として記憶される。

そして、ユーザ端末１００から指定情報を受信すると、制御部３２０は、指定店舗についての店舗情報を店舗情報ＤＢ３３０から取得する。また、制御部３２０は、取得した指定店舗についての店舗情報をユーザ端末１００に送信する。このとき、ユーザ端末１００には、指定店舗についての時間帯毎の来客状況を示す店舗情報が送信される。これにより
、ユーザは、指定店舗における時間帯毎の来客状況を把握することができる。

（変形例）
次に、本実施形態の変形例について説明する。図６は、本変形例に係る管理サーバ３００の機能構成の一例を概略的に示すブロック図である。図６に示すように、本変形例では、管理サーバ３００が、通信部３１０、制御部３２０、および店舗情報ＤＢ３３０を有している。また、制御部３２０は、取得部３２１、抽出部３２２、および評価部３２３に加え、決定部３２４を機能部として含んでいる。

決定部３２４は、各店舗の雰囲気に関する属性（以下、単に「属性」と称する場合もある。）を決定するための決定処理を実行する。ここで、店舗の属性は、例えば、店舗の利用に適した利用シーンとして規定されていてもよい。店舗の属性として規定され得る利用シーンとしては、「デート」、「ビジネス上の会食」、「友人との食事」、「大人数での宴会」、または「子供連れでの食事」等を例示することができる。決定部３２４は、各店舗についての来客状況の評価結果に基づいて各店舗の属性を決定する。つまり、決定部３２４は、各店舗の人の発話によるうるささおよび客層に基づいて各店舗の属性を決定することができる。

制御部３２０は、各店舗の属性を来客状況と共に店舗情報として店舗情報ＤＢ３３０に格納する。図７は、店舗情報ＤＢ３３０に格納されている店舗情報のテーブル構成の一例を示す図である。図７に示すように、店舗情報は、店舗ＩＤフィールドおよび来客状況フィールドに加え、属性フィールドを有する。属性フィールドには、決定部３２４によって決定された属性が入力される。

そして、本変形例においては、ユーザは、ユーザ端末１００において、特定の店舗の指定に代えて、店舗の属性を指定することができる。ユーザが入出力部１３０を介して店舗の属性を指定すると、指定された属性を示す指定情報がユーザ端末１００から管理サーバ３００に送信される。

管理サーバ３００においては、ユーザ端末１００から指定情報を受信すると、制御部３２０は、指定情報に示された属性と合致する属性を有する店舗についての店舗情報を店舗情報ＤＢ３３０から取得する。また、制御部３２０は、取得した店舗情報をユーザ端末１００に送信する。これにより、ユーザは、所望の属性に応じた属性を有する店舗、および、その店舗における来客状況を把握することができる。

＜第３実施形態＞
本実施形態における情報提供システムの概略構成は第１実施形態と同様である。ただし、本実施形態においては、管理サーバ３００の機能構成が第１実施形態とは一部異なっている。

図８は、本実施形態に係る管理サーバ３００の機能構成の一例を概略的に示すブロック図である。図８に示すように、本実施形態では、管理サーバ３００が、通信部３１０および制御部３２０を有している。そして、制御部３２０が、取得部３２１、抽出部３２２、および評価部３２３に加え、非言語化部３２５および合成部３２６を機能部として含んでいる。

管理サーバ３００においては、抽出部３２２が抽出処理を実行する。これにより、取得部３２１が取得した指定店舗の音データから音声データが抽出される。このときの抽出処理は、音データを音声データと背景音データとに分離する処理である。また、評価部３２３は、抽出部３２２が抽出した指定店舗の音声データに基づいて評価処理を実行する。

その一方で、非言語化部３２５が、指定店舗の音声データに対して非言語化処理を施す。上記のとおり、音声データは、指定店舗内に存在する人の発話によって生じた音声についてのデータである。そのため、音声データは、指定店舗内に存在する人が発した言語データとなっている。非言語化処理は、この音声データを、音の特性を維持しつつ非言語化する処理である。つまり、非言語化処理は、元々の音声データが有する音の大きさ、音程、および音色を維持しつつ、音声データを、言語データとは異なる音のデータに変換する処理である。このような非言語化処理が施された音声データが出力された場合、元々の音声データに含まれていた人の発話の内容を聞き取ることができない状態で、元々の音声データが有する音の特性と同様の特性を有する音データが出力される。非言語化処理は、公知のどのような方法で実現されてもよい。なお、本実施形態においては、非言語化処理が、本開示に係る「措定の処理」に相当する。

さらに、合成部３２６が、指定店舗の音データに含まれていた背景音データと、非言語化処理が施された音声データとを合成するための合成処理を実行する。合成処理においては、背景音データと非言語化処理が施された音声データとを合成する方法として公知のどのような方法を採用してもよい。そして、合成部３２６が合成処理によって生成した合成データが指定店舗の店舗情報と共に管理サーバ３００からユーザ端末１００に送信される。

ユーザ端末１００においては、管理サーバ３００から店舗情報と共に合成データを受信すると、制御部１２０が、入出力部１３０を用いて店舗情報および合成データを出力する。図９は、ユーザ端末１００において指定店舗についての合成データが出力されたときの様子の一例を示す図である。図９においては、ユーザ端末１００における入出力部１３０に含まれるタッチパネルディスプレイ１００ａに、ユーザが指定店舗を指定した地図が表示されている。この場合、タッチパネルディスプレイ１００ａに指定店舗を含む地図が表示された状態で、入出力部１３０に含まれるスピーカ１００ｂから指定店舗についての合成データが出力される。なお、このときに、タッチパネルディスプレイ１００ａにおいて、指定店舗についての店舗情報が地図に重畳された状態で表示されてもよい。

ユーザ端末１００において、店舗情報に加え、指定店舗についての合成データが出力されることで、ユーザは、指定店舗の状況を音として把握することができる。これにより、ユーザは、指定店舗の来客状況を自分自身の感覚で判断することが可能となる。一方で、ユーザは、合成データから、元々の音声データに含まれていた人の発話の内容を聞き取ることはできない。そのため、指定店舗内に存在する来客のプライバシーの保護を図ることができる。

（情報処理）
次に、管理サーバ３００において、指定店舗の来客状況および合成データをユーザに提供するために実行される情報処理のフローについて図１０に基づいて説明する。図１０は、本実施形態に係る情報処理のフローを示すフローチャートである。本フローは、管理サーバ３００の制御部３２０によって実行される。なお、本フローにおけるＳ１０１からＳ１０５において実行される処理は、図４に示すフローにおける同一参照番号のステップにおいて実行される処理と同様である。そのため、これらのステップについての説明は省略する。

本フローでは、Ｓ１０５の次にＳ２０６の処理が実行される。Ｓ２０６では、Ｓ１０４で抽出された音声データに対して非言語化処理が施される。次に、Ｓ２０７において合成処理が実行される。これにより、Ｓ２０６で非言語化処理が施された音声データと、指定店舗の背景音データとが合成された合成データが生成される。なお、制御部３２０におい
て、Ｓ１０５における評価処理と、Ｓ２０６およびＳ２０７の処理とが並行で実行されてもよい。次に、Ｓ２０８において、指定店舗についての店舗情報および合成データがユーザ端末１００に送信される。その結果、ユーザ端末１００において指定店舗についての店舗情報および合成データが出力される。

なお、上記第１から第３実施形態においては、飲食店である店舗が本開示に係る「所定の施設」に相当する。ただし、本開示に係る「所定の施設」は飲食店に限られるものではない。例えば、上記第１から第３実施形態に係る情報提供システムを、シェアオフィスにおける来客状況をユーザに提供するためのシステムに適用することもできる。このような情報提供システムによれば、ユーザは、他のユーザによるオフィスの利用状況を把握することが可能となる。また、上記第１から第３実施形態に係る情報提供システムを、飲食店またはシェアオフィス以外の、ユーザが利用することを検討中の施設における来客状況を評価しユーザに提供するためのシステムに適用することもできる。

＜その他の実施形態＞
上記の実施形態はあくまでも一例であって、本開示はその要旨を逸脱しない範囲内で適宜変更して実施し得る。また、本開示において説明した処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

また、１つの装置が行うものとして説明した処理が、複数の装置によって分担して実行されてもよい。あるいは、異なる装置が行うものとして説明した処理が、１つの装置によって実行されても構わない。コンピュータシステムにおいて、各機能をどのようなハードウェア構成（サーバ構成）によって実現するかは柔軟に変更可能である。

本開示は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する１つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクドライブ（ＨＤＤ）等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤディスク、ブルーレイディスク等）など任意のタイプのディスク、読み込み専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カード、フラッシュメモリ、または光学式カードのような、電子的命令を格納するために適した任意のタイプの媒体を含む。

１・・・情報提供システム
１００・・ユーザ端末
１１０、３１０・・通信部
１２０、３２０・・制御部
１３０・・入出力部
２００・・マイク
３００・・管理サーバ

Claims

所定の施設内において集音された音データを取得することと、
前記所定の施設内における人の発話によって生じた音声データを前記音データから抽出することと、
前記音声データに基づいて前記所定の施設における来客状況を評価することと、
を実行する制御部を備え、
前記所定の施設が、ユーザによって指定された施設であって、
前記制御部が、
前記来客状況を前記ユーザに関連するユーザ端末に送信することをさらに実行し、
前記制御部は、
前記音声データに対して、音の特性を維持しつつ非言語化する所定の処理を施すことと、
前記音データから前記音声データを除いたデータと、前記所定の処理が施された前記音声データとを合成することと、
前記合成されたデータを前記ユーザ端末に送信することと、
をさらに実行する、情報処理装置。
前記来客状況が、前記所定の施設内における人の発話に起因するうるささを含む、
請求項１に記載の情報処理装置。
前記来客状況が、前記所定の施設における客層を含む、
請求項１または２に記載の情報処理装置。
前記制御部が、
前記来客状況の評価結果に基づいて前記所定の施設の雰囲気に関する属性を決定することをさらに実行する、
請求項１から３のいずれか一項に記載の情報処理装置。
前記音声データに基づいて評価された前記所定の施設についての時間帯毎の前記来客状況を記憶する記憶部をさらに備え、
前記制御部が、前記記憶部に記憶された前記所定の施設についての時間帯毎の前記来客状況を前記ユーザ端末に送信する、
請求項１に記載の情報処理装置。
前記所定の施設が、前記ユーザ端末に表示される地図上おいて前記ユーザによって指定された施設であって、
前記ユーザ端末において、前記情報処理装置から受信した前記所定の施設についての前記合成されたデータが、前記地図が表示された状態で出力される、
請求項１に記載の情報処理装置。
前記所定の施設は飲食店である、
請求項１から６のいずれか一項に記載の情報処理装置。
前記所定の施設はシェアオフィスである、
請求項１から６のいずれか一項に記載の情報処理装置。
コンピュータによって実行される情報処理方法であって、
所定の施設内において集音された音データを取得することと、
前記所定の施設内における人の発話によって生じた音声データを前記音データから抽出することと、
前記音声データに基づいて前記所定の施設における来客状況を評価することと、
を含み、
前記所定の施設が、ユーザによって指定された施設であって、
前記来客状況を前記ユーザに関連するユーザ端末に送信することをさらに含み、
前記音声データに対して、音の特性を維持しつつ非言語化する所定の処理を施すことと、
前記音データから前記音声データを除いたデータと、前記所定の処理が施された前記音声データとを合成することと、
前記合成されたデータを前記ユーザ端末に送信することと、
をさらに含む、情報処理方法。
前記来客状況が、前記所定の施設内における人の発話に起因するうるささを含む、
請求項９に記載の情報処理方法。
前記来客状況が、前記所定の施設における客層を含む、
請求項９または１０に記載の情報処理方法。
前記来客状況の評価結果に基づいて前記所定の施設の雰囲気に関する属性を決定することをさらに含む、
請求項９から１１のいずれか一項に記載の情報処理方法。
前記音声データに基づいて評価された前記所定の施設についての時間帯毎の前記来客状況を記憶部に記憶することをさらに含み、
前記記憶部に記憶された前記所定の施設についての時間帯毎の前記来客状況を前記ユーザ端末に送信する、
請求項９に記載の情報処理方法。
所定の施設内において集音された音データを取得することと、
前記所定の施設内における人の発話によって生じた音声データを前記音データから抽出することと、
前記音声データに基づいて前記所定の施設における来客状況を評価することと、
をコンピュータに実行させ、
前記所定の施設が、ユーザによって指定された施設であって、
前記来客状況を前記ユーザに関連するユーザ端末に送信することをさらに前記コンピュータに実行させ、
前記音声データに対して、音の特性を維持しつつ非言語化する所定の処理を施すことと、
前記音データから前記音声データを除いたデータと、前記所定の処理が施された前記音声データとを合成することと、
前記合成されたデータを前記ユーザ端末に送信することと、
をさらに前記コンピュータに実行させる、プログラム。