JP7006176B2

JP7006176B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7006176B2
Application number: JP2017225161A
Authority: JP
Inventors: 祥敬犬塚
Original assignee: Gourmet Navigator Inc
Current assignee: Gourmet Navigator Inc
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2022-01-24
Anticipated expiration: 2037-11-22
Also published as: JP2019095609A

Description

本技術は、情報処理装置、情報処理方法及びプログラムに関し、認識した音声の発話者のグループ化の技術に関する。

特許文献１には、飲食店や小売店における接客時の会話の比率と顧客満足度の関連性を把握するための技術が開示されている。特許文献１では、接客時の会話が会話取得部（マイクなど）により取得されている。特許文献２には、ユーザが行動をともにしているグループを認証するための専用のシステムが開示されている。

上述のような従来技術は、会話取得や音声認識を行うデバイスが、取得した音声の中に複数の人物の声が含まれていても、その人物同士の関連性を把握できていない。そのため、人物同士の関連性に応じた情報の告知等を行うことができなかった。

特開２０１１－２３８０２８号公報特開２００４－３６２０４５号公報

会話音声を認識し、自然言語解析により発話者間の人間関係を正確に推定するには、通常は、複雑で高度な情報処理を必要とする。したがって、会話の参加者同士の関連性を把握するためには煩雑なシステムが必要である。

上述の実情に鑑み、本発明は、集音装置により集音された会話に参加している人物同士の人間関係を把握可能にすることを目的とする。

上記目的を達成する本発明に係る一態様は、記憶部と制御部を備える。
上記記憶部は、声紋データを含む顧客データをあらかじめ記憶する。
上記制御部は、１つ以上の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出し、抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化し、グループ化した上記複数の音声データの各々を上記記憶部の記憶する声紋データと照合して音声の発話者を特定する。

これにより、集音装置に集められた複数人の会話の中から、複数の音声を抽出し、グループ化することによって、人間関係の把握ができるようになる。

上記記憶部は、店舗に関連する１以上の所定の人物の声紋データを記憶してもよく、また、上記制御部は、上記グループ化した上記複数の音声データのうち、上記記憶部に記憶されている上記所定の人物の声紋データに一致するものがあれば、当該音声データをグループ化された上記複数の音声データから除いてもよい。

これにより、接客する店員の声を拾ってグループに入れてしまうことを防げるため、グループ化の精度を向上させることができる。

上記制御部は、上記所定の条件として、交互に発話しているという条件を満たした複数の音声データを１のグループにグループ化してもよい。

会話は複数の人物により交互に発話するのが通常であるため、これにより、グループ化の精度を向上させることができる。

上記集音装置は、複数であって、各々に集音装置識別子が割り当てられていてもよく、また、この場合、上記制御部は、上記グループ化した上記複数の音声データと、複数の上記集音装置のうち１つの集音装置識別子とを関連付けて、当該関連付けを上記記憶部に記憶してもよい。

これにより、各音声データには、その音声を集音して情報処理装置に入力ないし送信した集音装置の識別子が関連付けられて記憶されることになり、情報処理装置が、各音声データがいつ、どこで集音されたものであるのか、把握することができるようになる。

さらに、集音装置の各々に集音装置識別子が割り当てられている構成の場合、複数の上記集音装置は、各々が指向性を持った集音を行ってもよく、また、この場合、上記制御部は、複数の上記集音装置の各々の集音データから抽出した音声データのうち、各集音装置の指向性に基づいて１の集音装置に向けて発せられた音声を認定し、認定した音声に係る音声データを１のグループにグループ化してもよい。

例えばテーブルの中心に１の集音装置が置かれた場合、同一グループの発話は当該１の集音装置に向けて発せられると考えられる。したがって、これにより、グループ化の精度を向上させることができる。

上記制御部は、上記所定の条件として、所定の音量以上であることを満たした複数の音声データを１のグループにグループ化してもよい。

例えばテーブルの中心に１の集音装置が置かれた場合、当該１の集音装置が集音する１のグループの発話に係る音声データの音量は、他の集音装置が集音する当該１のグループの発話に係る音声データの音量よりも大きくなると考えられるため、これにより、グループ化の精度を向上させることができる。

上記制御部は、同じ時間帯に集音された複数の音声データを１のグループにグループ化してもよい。

これにより、グループ化の精度を向上させることができる。

上記制御部は、異なる時間帯に集音された複数の音声データを１のグループにグループ化しないこととしてもよい。

従業員は、通常の来店客が店舗に滞在する時間を越えて店舗内にいるため、異なる時間帯にまたがって集音された同一の声紋をもつ音声は、従業員のものである可能性がある。したがって、上記構成により、誤ったグループ化を防ぐことができ、グループ化の精度を高めることが可能となる。

上記制御部は、上記記憶部の記憶する声紋データと照合して特定された発話者に対して、メッセージを生成し、送信してもよい。

次の来店時に利用可能なクーポンなどを含むメッセージは、送信先によっては適切な場合と適切でない場合がある。上記構成により、把握した人間関係を踏まえた、発話者にとって有益で適切なメッセージの送信が可能になる。

上記制御部は、グループ化した複数の音声データのうち、発話時間が最も長い音声の発話者に対して、上記メッセージを送信してもよい。

発話時間がもっとも長い音声に係る発話者は、グループの中でも会話をリードし、次の来店時に利用可能なクーポンなどを含むメッセージへの感度が高い可能性がある。上記構成により、そのような発話者に対して有益なメッセージをピンポイントで送信することができる。

上記制御部は、グループ化した複数の音声データのうち、所定のキーワードを含む音声データの発話者に上記メッセージを送信してもよい。

上記制御部は、複数の上記音声データのうち、上記声紋データが上記記憶部に記憶されている音声データに対応する音声の発話者に対して、他の発話者の顧客登録を促すメッセージを生成し、送信してもよい。

これにより、声紋データが記憶されておらず顧客登録がまだ済んでいない発話者に、顧客登録を促すメッセージを、顧客登録済みの発話者に対して送信することができる。

上記目的は、本発明のもう一つの態様に係る、以下の情報処理方法によっても達成される。
１つ以上の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出し、抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化し、グループ化した前記複数の音声データの各々を、あらかじめ記憶した声紋データと照合し、照合された前記声紋データに関連付けられる顧客データに基づいて音声の発話者を特定する情報処理方法。

上記目的は、本発明のもう一つの態様に係る、以下のプログラムによっても達成される。
コンピュータに、１つ以上の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出する処理と、抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化する処理と、グループ化した前記複数の音声データの各々を、あらかじめ記憶した声紋データと照合する処理と、照合された前記声紋データに関連付けられる顧客データに基づいて音声の発話者を特定する処理を実行させるプログラム。

以上に説明したように、本発明によれば、集音装置により集音された会話に参加している人物同士の人間関係が把握可能になる。

本発明に係る一実施形態のシステム構成を示す図である。上記実施形態に係る情報処理装置のハードウェア構成例を示す図である。上記実施形態に係る記憶部が記憶する各種データの構成例を示す図である。上記実施形態に係る顧客情報データベースの構成例を示す図である。上記実施形態におけるグループ情報データベースの構成例を示す図である。上記実施形態に係る情報処理装置の情報処理の流れを示す図である。上記実施形態における音声データの抽出について説明するための模式図である。上記実施形態におけるメッセージの表示例を示す図である。

以下、図面を参照しながら、本発明の実施形態を説明する。

＜第１の実施形態＞
［システムの構成］
図１は、本実施形態に係る店舗運営支援システム１の構成を示した図である。同図に示すように、本実施形態に係る店舗運営支援システム１は、情報処理装置１００と集音装置２００を含む。図１には複数のテーブルそれぞれの上に設置された集音装置２００ａ，２００ｂ，２００ｃ，２００ｄが示されている。

本実施形態に係る制御部が内部に構成される情報処理装置１００は、汎用のコンピュータにより構成することができる。情報処理装置１００は、図１では運営支援対象の飲食店の店舗内に設置されているが、これは一例であって、店舗外に設置されてもよく、設置場所は任意である。

集音装置２００は、例えばマイクロフォン（不図示）等を備える構成である。本実施形態の集音装置２００の集音機構は、指向性を有し、自装置に向かって発せられた音声に対して感度よく反応する。集音装置２００は通信機構（不図示）も備え、集音データを情報処理装置１００に送信する。送受信の方式は何でもよく、例えば、無線のローカルエリアネットワークが利用できる。集音装置２００は複数でもよく、各集音装置２００には集音装置識別子（集音部ＩＤ）２０１が割り当てられている。図１には、集音装置２００ａ，２００ｂ，２００ｃ，２００ｄにそれぞれ対応する集音装置識別子２０１ａ，２０１ｂ，２０１ｃ，２０１ｄが示されている。

［情報処理装置のハードウェア構成］
図２は、情報処理装置１００のハードウェア構成を示した図である。同図に示すように、情報処理装置１００は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３、入出力インタフェース１５、及び、これらを互いに接続するバス１４を備える。

ＣＰＵ１１は、必要に応じてＲＡＭ１３等に適宜アクセスし、各種演算処理を行いながら各ブロック全体を統括的に制御する。ＲＯＭ１２は、ＣＰＵ１１に実行させるＯＳ（Operating System）、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。ＲＡＭ１３は、ＣＰＵ１１の作業用領域等として用いられ、ＯＳ、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。

入出力インタフェース１５には、表示部１６、操作受付部１７、記憶部１８、通信部１９等が接続される。表示部１６は、例えばＬＣＤ（Liquid Crystal Display）、ＯＥＬＤ（Organic Electro-Luminescence Display）、ＣＲＴ（Cathode Ray Tube）等を用いた表示デバイスである。操作受付部１７は、例えばマウス等のポインティングデバイス、キーボード、その他の入力装置である。なお、表示部１６と操作受付部１７を液晶タッチパネルにより一つにまとめてもよい。

記憶部１８は、例えばＨＤＤ（Hard Disk Drive）や、フラッシュメモリ（ＳＳＤ；Solid State Drive）、その他の固体メモリ等の不揮発性メモリである。当該記憶部１８には、上記ＯＳや各種アプリケーション、各種データが記憶される。

通信部１９は、例えばＮＩＣ（Network Interface Card）や無線ＬＡＮ等の無線通信用の各種モジュールである。通信部１９により本端末の他端末とのデータの送受信が可能になる。

なお、上述のハードウェア構成を採用することで、店舗内の音声を集音する機能から分離されることになり、音声データのグループ化や音声を発話した利用者同士の関係の解析に情報処理資源の多くを割り当てることができる。

また、ＣＰＵ１１はＲＯＭ１２に記憶されているソフトウェアプログラムをロードすることにより本実施形態の制御部を構成する。記憶部１８は本実施形態の第１の記憶部として機能する。ＲＡＭ１３は本実施形態の第２の記憶部として機能する。通信部１９は本実施形態の入力部として機能する。

［記憶部のデータ内容］
記憶部１８が記憶する各種データのうち、本実施形態の構成及び動作に関係するものについて説明する。

図３は、記憶部１８が記憶する各種データの構成例を示す図である。図３に示すように、記憶部１８は、顧客データベース１８１と、グループ情報データベース１８２と、メッセージデータベース１８３と、店舗データベース１８４を有している。各データベースは相互に関連付けがなされており、全体として一つのリレーショナルデータベースとして構築されている。なお、これは説明のための便宜的な一例であり、他の実施形態においてはリレーショナルデータベースとしなくてもよい。また、データベースと呼べるような規模のものではなく、単純な記憶テーブルのようなものでもよい。

顧客データベース１８１は、１の店舗又は同じブランドを共有する店舗群の顧客（カスタマー）の情報を記憶するデータベースである。グループ情報データベース１８２は、図１の店舗に来店した利用者（ユーザ）をグループ化した状態で記憶するデータベースである。メッセージデータベース１８３は、顧客ないし利用者に送信するメッセージのテンプレート情報を記憶するデータベースである。店舗データベース１８４は、各店舗の店舗属性情報と、それぞれの店舗属性情報に紐付けられた集音装置識別子２０１を記憶する。集音装置識別子２０１は、集音装置２００のそれぞれに割り当てられているものである。なお、１の店舗が、別々の集音部識別子（集音部ＩＤ）の割り当てられた複数の集音装置２００を有していてもよい。店舗運営支援システム１ないし情報処理装置１００は、個々の集音装置２００を集音装置識別子２０１で識別する。

ここで、本実施形態における、顧客（カスタマー）と、利用者（ユーザ）と、従業員等（従業員など所定の人物）の定義について述べる。利用者（ユーザ）は、店舗運営支援システム１が運営を支援する１の店舗の来店客とする。顧客（カスタマー）は、店舗運営支援システム１に顧客識別子を登録している利用者である。顧客が顧客識別子の登録をすることを顧客登録という。顧客登録の際に同時に声紋データの登録が行われてもよい。顧客登録は利用者（ユーザ）が店舗への来店前に行っても、来店後に店舗内にある端末（不図示）で行ってもよい。従業員等（従業員など所定の人物）は、前記店舗でホール係等として働く従業員である。本実施形態においては、従業員等も顧客データベース１８１に顧客情報４０を持つ。他の実施形態においては、顧客データベース１８１ではない他のデータベースに従業員情報を記憶させてもよい。

顧客データベース１８１の記憶内容の構成例を図４に示す。図示のように、顧客データベース１８１には、顧客情報４０が顧客（カスタマー）ごとに記憶されている。顧客情報４０は、各々、少なくとも、顧客識別子４１を有する。顧客情報４０はさらに、顧客識別子４１ごとに声紋データ４２、基本情報４３、アクセス情報４４、グループ識別子４５を有する。

声紋データ４２は、顧客識別子４１に紐付けられる個人の声の調音の特徴をデータ化したものである。店舗運営支援システム１が声紋データ４２を取得する方法については限定しないが、例えば、顧客登録時に所有するスマートフォンのマイクに向けて吹き込まれた音声を利用してもよい。声紋データ４２は個人ごとに異なり、個人の認証に利用できるものとする。

基本情報４３は、顧客識別子４１に紐付けられる個人の名前や好みの料理のジャンルなどの情報である。アクセス情報４４は、顧客識別子４１に紐付けられる個人に、店舗運営支援システム１がアクセスする際に利用する情報である。例えば、メールアドレスなどが典型例として挙げられるがその他の形式の情報でもよく、本実施形態では、ソーシャル・ネットワーキング・サービスの個人ＩＤとする。

グループ識別子４５は、後述するグループ情報データベース１８２が記憶する複数のグループ情報５０の各々にユニークな識別子である。後述するように、あるグループのグループ情報５０と同グループに属する顧客とのリレーション（紐付け）はグループ情報５０が有するが、本実施形態では顧客情報４０もグループ識別子４５を持ち、これにより冗長性を高め、ロバストなリレーショナルデータベース構成としている。図４に示すように、顧客情報４０はグループ識別子４５を複数有してもよい。顧客情報４０に係る顧客（カスタマー）が、異なる機会に別々のグループ（会社の同僚グループ、近所の友達グループ、地元の同級生グループなど）で来店した場合には、異なる複数のグループ識別子４５が、その顧客情報４０に紐付けられることになる。

声紋データ４２、基本情報４３、アクセス情報４４には欠落があってもよいが、本実施形態においては声紋データ４２が欠落していると個人の特定ができず、アクセス情報４４が欠落しているとメッセージが受信できない。

グループ情報データベース１８２の記憶内容の構成例を図５に示す。グループ情報データベース１８２は、図示のようなグループ情報５０を含む。グループ情報は、本実施形態における制御部として機能するＣＰＵ１１により、グループごとに生成される。

グループ情報を生成する場合、ＣＰＵ１１は、まず、１のグループ識別子４５が割り当てられたグループ情報５０を生成する。次に、ＣＰＵ１１は、グループで来店した複数の顧客それぞれに対応する顧客情報４０に、そのグループ識別子４５を追加する。

グループ情報５０は、１人以上の利用者（ユーザ）の識別子を含む。仮に、利用者（ユーザ）が顧客データベース１８１に登録されている顧客（カスタマー）でもある場合、ＣＰＵ１１又はグループ情報データベース１８２は、グループ情報５０に登録する識別子として、その利用者に新規な識別子を割り当てず、図４に示した顧客識別子４１を利用する。

図５中には、２人の顧客（カスタマー）が含まれていたグループの例が示されており、グループ情報５０は、顧客識別子４１ａと顧客識別子４１ｂと暫定顧客識別子５０１を含む。暫定顧客識別子５０１は、未だ顧客情報を店舗運営支援システム１に登録していない利用者（ユーザ）にテンポラリに割り当てられた識別子である。

［情報処理］
図６に、本実施形態に係る情報処理装置１００の情報処理の流れを示す。図示のように本実施形態の情報処理のフローにおいては、まず、各集音装置２００から、集音データが情報処理装置１００に入力される（ステップ１０１）。集音装置２００は、自装置のマイクロフォンなどの集音機構が拾った音声を集音データとして情報処理装置１００に送信、入力する。

次に、ＣＰＵ１１は、集音データから複数人の音声に係る音声データをそれぞれ抽出する（ステップ１０２）。図７を参照すると、この処理の理解のための模式図が示されている。図７において、横軸は時間軸である。図中の楕円は発話の一まとまりを模式的に示したものである。そうすると、ステップ１０１で入力される集音データは、例えば、Ｖ０のように示せる。Ｖ０には集音装置２００の集めた人声が分類や分別等をすることなく、集められる。

Ｖ０に示すような集音データに対して、ＣＰＵ１１は、例えば、声の調音の特徴や音の指向性の特徴に基づいて、各発話をいくつかのパターンに分類する。図７では、一例として、５種類のパターンに分類できた例が示されている。図７中の楕円は人の発話を示すこととしたが、実際には、集音データに物音やＢＧＭが含まれてもよい。

１のパターンに分類された複数の発話に係る時系列に沿った一連のデータを音声データと呼ぶ。図７において、集音データＶ０からは音声データＶ１～Ｖ５が抽出されている。

ＣＰＵ１１は、声紋データ４２を登録するときのように、調音の特徴により各発話を分類し、同じパターンに分類された複数の発話を１人の人物により発話されたものとする。図７には、集音データに含まれていた全部の発話が、Ｖ１～Ｖ５の５人に分類された例が示されている。この時点では、各発話が５人の異なる人物によりなされたことまでは判明しているが、各人の関係は不明である。また、この時点では、発話者の中に顧客（カスタマー）がいるか否かも不明である。

そこで、ＣＰＵ１１は、音声データのグループ化を行う（ステップ１０３）。このステップにおけるグループ化は、所定の条件を満たす音声データ同士を１のグループにグループ化するというものである。

ＣＰＵ１１は、所定の条件として、交互に発話しているという条件を満たした複数の音声データを１のグループにグループ化する。ＣＰＵ１１は例えば、２つの音声データを時間軸に沿って重ねたとき、発話同士が重なる割合が低いようなペアを見つけた場合、その２つの音声データを１のグループにグループ化する。図７中の例では、例えば、音声データＶ１と音声データＶ２のペアや、音声データＶ３と音声データＶ４のペアが該当する。これに対して、音声データＶ１と音声データＶ３のペアや、音声データＶ２と音声データＶ４のペアは、発話同士が重なる割合が所定の割合を超える場合があり、交互に発話しているという条件を満たさない。

あるいは、ＣＰＵ１１は、所定の条件として、所定の音量以上であることを満たした複数の音声データを１のグループにグループ化してもよい。図１に示すように、集音装置２００が各テーブルに一つ配置されるような場合であれば、ＣＰＵ１１は、一定以上の割合で所定の音量以上であるような音声データを１のグループにグループ化する。これにより、グループ化が実現できる。

前述のように、本実施形態においては、複数の集音装置２００が、各々が指向性を持った集音を行っている。そこで、ＣＰＵ１１は、複数の集音装置２００の各々の集音データから抽出した音声データのうち、各集音装置２００の指向性に基づいて１の集音装置２００に向けて発せられた音声を認定し、その上で、認定した音声に係る音声データを１のグループにグループ化してもよい。

このほかに、ＣＰＵ１１は、同じ時間帯に集音された複数の音声データを１のグループにグループ化してもよい。同じ時間帯に集音された複数の音声データは、ＣＰＵ１１により、グループ化されやすくなるものとしてもよい。これにより、グループ化が実現する。

これとは逆に、ＣＰＵ１１は、異なる時間帯に集音された複数の音声データを１のグループにグループ化しないこととしてもよい。あるいは、そのような音声データ同士はグループ化されにくくなるものとしてもよい。これにより、誤ったグループ化を防げる。なお、この機能は設定によりオン／オフ可能である。

ここまでに述べたステップ１０３のグループ化の手段は、互いに組み合わせることによって相乗効果が生じる。例えば、時間的に交互に発話されているようなペアでありなおかつ、所定の音量以上で集音されているような音声データのペアであれば、グループ化するというような組み合わせを行う。これにより、隣のテーブルのグループの音声が収集されていたとしても、精度よく、自テーブルの顧客のグループ化が可能になる。

また、従業員は、通常の来店客が店舗に滞在する時間を越えて店舗内にいるため、異なる時間帯にまたがって集音された同一の声紋をもつ音声は、従業員のものである可能性がある。したがって、上記構成により、誤ったグループ化を防ぐことができ、グループ化の精度を高めることが可能となる。なお、上述のようにこの機能は設定によりオン／オフ可能であるため、従業員が顧客として店に訪れた場合には、適切にグループ化することができる。

続いて、ＣＰＵ１１は、ステップ１０３でグループ化された音声データの各々と、顧客データベース１８１に記憶されている声紋データ４２とを照合する（ステップ１０４）。照合の結果、顧客（カスタマー）として登録されているような声を発話している音声データがあれば、そのような発話者を特定する。

なお、本実施形態においては、記憶部１８が、従業員等の声紋データを記憶している。ＣＰＵ１１は、グループ化した複数の音声データのうち、顧客データベース１８１等、記憶部１８に記憶されている従業員等の声紋データに一致するものがあれば、当該音声データをグループ化された複数の音声データから除いてもよい。

例えば、図７の音声データＶ５が従業員の声紋データと一致したとすると、音声データＶ５が音声データＶ１の属するグループと同一のグループに入っていたとしても、除外される。これにより、接客する店員の声を拾ってグループに入れてしまうことを防げる。

さらに、この場合は、従業員等の声紋データが、勤務時間帯ではない時間帯に収集されている場合は、来店客として当該従業員が来た可能性があるので、ＣＰＵ１１はその声紋データをグループ化の対象から除かないようにする。これにより、客として来店した従業員もグループ化することができ、グループ化の精度が向上する。

あるいは、従業員に係る音声データをグループから除外する制御は、設定によりオン／オフ可能としてもよい。この場合、従業員が顧客として店に訪れた場合には、適切にグループ化することができる。

続いて、ＣＰＵ１１は、グループ化された音声データに係る音声の発話者の中から、メッセージの送信先を選定する（ステップ１０５）。選定の方法として、本実施形態では、第１に、記憶部１８の記憶する声紋データ４２と照合して特定された発話者を優先的に選定する。記憶部１８の記憶する声紋データ４２と照合して特定された発話者は、顧客情報４０を顧客データベース１８１に持っており、顧客情報４０にはアクセス情報４４が記録されているため、メッセージの到達性が高いためである。

第２の選定方法として、グループ化した複数の音声データのうち、発話時間が最も長い音声の発話者が選定されるようにしてもよい。発話時間が最も長いような発話者は、例えばグループ内の中心人物、飲み会の発起人や幹事、あるいは、グループにおける年長者であったり、上司であったりして、発言力が強い場合がある。有力な人物にメッセージが届くと、グループの他のメンバーへのメッセージの到達性も高いと考えられる。

第３の選定方法として、ＣＰＵ１１が単語認識をして、グループ化した複数の音声データのうち、所定のキーワードを含む音声データの発話者が選定されるようにしてもよい。飲み会においては幹事が、グループ内の他のメンバーに飲み物の追加を促すような言葉を言うケースが多い。したがって発話にそのようなキーワードを含む場合、幹事であると推定できる。上司の立場でしか言わないような単語が発話の中に含まれていたら、その発話者は上司であると推定できる。飲み会の幹事をつとめたような人物に次回の来店時に使えるクーポンを含むメッセージが届くと、メッセージの受信者にとっても有益である。

また別の、第４の選定方法として、複数の音声データのうち、声紋データが記憶部１８に記憶されている発話者が選定されるようにしてもよい。つまり、ＣＰＵ１１は、声紋データが記憶されておらず顧客登録がまだ済んでいない発話者に、顧客登録を促すメッセージを、顧客登録済みの発話者に対して送信する。声紋データが登録されているユーザに対して、未登録ユーザに顧客登録を促すメッセージを送信すると、未登録ユーザにとって有益である。

上述のようなメッセージ送信先を選定した後、ＣＰＵ１１は、メッセージを生成し、選定されたメッセージ送信先に生成したメッセージを送信する。メッセージ生成の際には、メッセージデータベース１８３に記憶されているテンプレートが用いられる。

図８に、制御部１００が送信するメッセージの一例を示す。図８は、グループ内で積極的に会話をリードしていた、つまり、発話時間が長かったグループの中心人物に対して、次の週末のおすすめ店舗を紹介するメッセージの一例である。なお、メッセージは図８に示した例に限られず、クーポン等のインセンティブを与えるような内容であってもよい。本実施形態におけるメッセージは、電子メール、モバイルデバイスで利用可能な各種アプリケーション内で送受信可能なショートメッセージ、クーポン等を提示する飲食店情報提供サイトへ誘導するＵＲＩ（Uniform Resource Indicator）などを含む。

以上に説明した本実施形態によれば、来店した顧客の音声を収集し、収集した音声の時間や音量により顧客をグループ化し、グループ化されたメンバーの中で、特に音声が収集された時間が長いようなメンバーに優先的にメッセージを配信する。メッセージの配信先として適切な対象が選定される。

また、本実施形態によれば、店舗運営支援システム１が、いつ、どこで、誰が、誰と時間を共にしたのかという情報を把握でき、適切な人物に、その人物にとって有益な情報を送信することができる。ここで、グループが「どこで」時間を共に過ごしたかという情報は、集音装置識別子２０１により把握される。「誰が」に係る情報は、声紋データと集音データとの照合によりもたらされる。「誰と」に係る情報は、グループ識別子４５により把握される。

［変形例］
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム又は装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるネットワーク上のサーバも、本発明の範疇に含まれる。

なお、上記実施形態において、未登録ユーザについては暫定顧客識別子５０１が割り当てられるが、この暫定顧客識別子５０１の割り当ての際にさらに、ＣＰＵ１１が暫定顧客識別子５０１を顧客識別子４１とみなして当該未登録ユーザに係る顧客情報４０を生成してもよい。暫定顧客識別子５０１の割り当ては、グループ情報５０の生成のときである。

この場合、ＣＰＵ１１はグループ情報５０の生成のときに未登録ユーザを検出すると、当該未登録ユーザについて暫定顧客識別子５０１を割り当て、さらに、当該未登録ユーザの顧客情報４０を生成する。当該未登録ユーザの顧客情報４０は、生成時点では基本情報４３とアクセス情報４４を欠くが、アクセス情報４４には暫定的に当該未登録ユーザの音声を集音した集音装置２００を特定する情報を入れてもよい。集音装置２００を特定する情報としては、例えば、集音装置識別子２０１や、ＭＡＣアドレス（Media Access Control address）がある（集音装置識別子２０１をＭＡＣアドレスとしてもよい）。

この場合、本実施形態の一連の情報処理において、メッセージ送信先にグループ内の未登録ユーザが選定される場合（図６、ＳＴ１０５）、情報処理装置１００は、グループが飲食店の店舗から退出する帰り際などのタイミングで、未登録ユーザの音声を集音した集音装置２００（グループに一番近い場所にある）に基本情報４３やアクセス情報４４の登録を促すメッセージを生成し、送信することができる（図６、ＳＴ１０６）。

１…店舗運営支援システム
１１…ＣＰＵ
１８…記憶部
１９…通信部
１８１…顧客情報データベース
１８２…グループ情報データベース
１８３…メッセージデータベース
１００…情報処理装置
２００…集音装置
２０１…集音装置識別子（集音部ＩＤ）

Claims

声紋データを含む顧客データと、店舗に関連する１以上の所定の人物の声紋データとをあらかじめ記憶した記憶部と、
１つ以上の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出し、
抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化し、
グループ化した前記複数の音声データの各々を前記記憶部の記憶する声紋データと照合して音声の発話者を特定し、
前記グループ化した前記複数の音声データのうち、前記記憶部に記憶されている前記所定の人物の声紋データに一致するものがあれば、当該音声データをグループ化された前記複数の音声データから除く
制御部
を備える情報処理装置。
請求項１に記載の情報処理装置であって、
前記制御部は、前記所定の条件として、交互に発話しているという条件を満たした複数の音声データを１のグループにグループ化する
情報処理装置。
請求項１又は２に記載の情報処理装置であって、
複数の前記集音装置は、各々が指向性を持った集音を行い、
前記制御部は、複数の前記集音装置の各々の集音データから抽出した音声データのうち、各集音装置の指向性に基づいて１の集音装置に向けて発せられた音声を認定し、認定した音声に係る音声データを１のグループにグループ化する
情報処理装置。
請求項１から３のいずれかに記載の情報処理装置であって、
前記制御部は、前記所定の条件として、所定の音量以上であることを満たした複数の音声データを１のグループにグループ化する
情報処理装置。
請求項１から４のいずれかに記載の情報処理装置であって、
前記制御部は、一日を所定時間毎に区切った複数の時間帯のうち同じ時間帯に集音された複数の音声データを１のグループにグループ化する
情報処理装置。
請求項１から５のいずれかに記載の情報処理装置であって、
前記制御部は、一日を所定時間毎に区切った複数の時間帯のうち異なる時間帯に集音された複数の音声データを１のグループにグループ化しない
情報処理装置。
請求項１から６のいずれかに記載の情報処理装置であって、
前記制御部は、前記記憶部の記憶する声紋データと照合して特定された発話者に対して、メッセージを生成し、送信する
情報処理装置。
請求項７に記載の情報処理装置であって、
前記制御部は、グループ化した複数の音声データのうち、所定のキーワードを含む音声データの発話者に前記メッセージを送信する
情報処理装置。
請求項７又は８に記載の情報処理装置であって、
前記制御部は、複数の前記音声データのうち、前記声紋データが前記記憶部に記憶されている音声データに対応する音声の発話者に対して、他の発話者の顧客登録を促すメッセージを生成し、送信する
情報処理装置。
声紋データを含む顧客データをあらかじめ記憶した記憶部と、
各々に集音装置識別子が割り当てられた複数の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出し、
抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化し、
グループ化した前記複数の音声データの各々を前記記憶部の記憶する声紋データと照合して音声の発話者を特定し、
前記グループ化した前記複数の音声データと、前記複数の集音装置のうち１つの集音装置識別子とを関連付けて、当該関連付けを前記記憶部に記憶する
制御部を備える情報処理装置。
声紋データを含む顧客データをあらかじめ記憶した記憶部と、
１つ以上の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出し、
抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化し、
グループ化した前記複数の音声データの各々を前記記憶部の記憶する声紋データと照合して音声の発話者を特定し、
前記グループ化した複数の音声データのうち、発話時間が最も長い音声の発話者を特定する
制御部を備える情報処理装置。
１つ以上の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出し、
抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化し、
グループ化した前記複数の音声データの各々を、あらかじめ記憶した声紋データと照合し、
照合された前記声紋データに関連付けられる顧客データに基づいて音声の発話者を特定し、
前記グループ化した前記複数の音声データのうち、店舗に関連する１以上の所定の人物の声紋データに一致するものがあれば、当該音声データをグループ化された前記複数の音声データから除く
情報処理方法。
各々に集音装置識別子が割り当てられた複数の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出し、
抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化し、
グループ化した前記複数の音声データの各々を、あらかじめ記憶した声紋データと照合し、
照合された前記声紋データに関連付けられる顧客データに基づいて音声の発話者を特定し、
前記グループ化した前記複数の音声データと、前記複数の集音装置のうち１つの集音装置識別子とを関連付けて、当該関連付けを記憶する
情報処理方法。
１つ以上の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出し、
抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化し、
グループ化した前記複数の音声データの各々を、あらかじめ記憶した声紋データと照合し、
照合された前記声紋データに関連付けられる顧客データに基づいて音声の発話者を特定し、
前記グループ化した複数の音声データのうち、発話時間が最も長い音声の発話者を特定する
情報処理方法。
コンピュータに、
１つ以上の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出するステップと、
抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化するステップと、
グループ化した前記複数の音声データの各々を、あらかじめ記憶した声紋データと照合するステップと、
照合された前記声紋データに関連付けられる顧客データに基づいて音声の発話者を特定するステップと、
前記グループ化した前記複数の音声データのうち、店舗に関連する１以上の所定の人物の声紋データに一致するものがあれば、当該音声データをグループ化された前記複数の音声データから除くステップと
を実行させるプログラム。
コンピュータに、
各々に集音装置識別子が割り当てられた複数の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出するステップと、
抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化するステップと、
グループ化した前記複数の音声データの各々を、あらかじめ記憶した声紋データと照合するステップと、
照合された前記声紋データに関連付けられる顧客データに基づいて音声の発話者を特定するステップと、
前記グループ化した前記複数の音声データと、前記複数の集音装置のうち１つの集音装置識別子とを関連付けて、当該関連付けを記憶するステップと
を実行させるプログラム。
コンピュータに、
１つ以上の集音装置で集音された集音データから複数人の音声に係る音声データをそれぞれ抽出するステップと、
抽出した音声データのうち、所定の条件を満たした複数の音声データをグループ化するステップと、
グループ化した前記複数の音声データの各々を、あらかじめ記憶した声紋データと照合するステップと、
照合された前記声紋データに関連付けられる顧客データに基づいて音声の発話者を特定するステップと、
前記グループ化した複数の音声データのうち、発話時間が最も長い音声の発話者を特定するステップと
を実行させるプログラム。