JP2021018664A

JP2021018664A - 情報処理システム、情報処理方法、及びプログラム

Info

Publication number: JP2021018664A
Application number: JP2019134713A
Authority: JP
Inventors: 尚史福江; Naofumi Fukue
Original assignee: TIS Inc
Current assignee: TIS Inc
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2021-02-15
Anticipated expiration: 2039-07-22
Also published as: JP7258686B2

Abstract

【課題】スピーカからユーザに対して能動的に音声出力させることができないため、会議などを円滑に進行させるには不十分である。【解決手段】マイクロフォンとスピーカとを備えるスピーカ装置を使用するユーザに関するユーザ情報を取得する取得部と、前記取得部で取得された前記ユーザ情報に基づいて、所定の応答内容を特定する応答内容特定部と、前記スピーカ装置に前記所定の応答内容に沿って音声出力させるべく、前記応答内容特定部で特定された前記所定の応答内容に基づく音声情報を、前記スピーカ装置に送信する送信部と、を備える。【選択図】図２

Description

本発明は、情報処理システム、情報処理方法、及びプログラムに関する。

画像センサで検知された画像情報に基づいてスピーカに音声出力させるか否かを決定する決定装置が開示されている（特許文献１）。

特開２０１９−３５８９７号公報

特許文献１には、ユーザの居住内に設けられたスピーカにおける音声出力のタイミングを画像情報に基づいて決定する決定装置が開示されている。また、特許文献１に記載の決定装置は、音声情報が途切れたタイミングにおいてスピーカに音声出力させる。特許文献１の決定装置によれば居住内の状況に応じてスピーカに音声出力させることができる。しかしながら、特許文献１に記載の決定装置では、スピーカからユーザに対して能動的に音声出力させることができないため、会議などを円滑に進行させるには不十分であるという問題があった。

本発明の目的は、上記のような問題に鑑みてなされたものであり、スピーカを使用するユーザのユーザ情報に基づいて能動的に音声出力するシステムを提供することにある。

本発明の一態様に係る情報処理システムは、マイクロフォンとスピーカとを備えるスピーカ装置を使用するユーザに関するユーザ情報を取得するユーザ情報取得部と、前記ユーザ情報取得部で取得された前記ユーザ情報に基づいて、所定の応答内容を特定する応答内容特定部と、前記スピーカ装置に前記所定の応答内容に沿って音声出力させるべく、前記特定部で特定された前記所定の応答内容に基づく音声情報を、前記スピーカ装置に送信する送信部と、を備える。

本発明の一態様に係る情報処置方法は、コンピュータが、マイクロフォンとスピーカとを備えるスピーカ装置を使用するユーザに関するユーザ情報を取得するユーザ情報取得ステップと、前記ユーザ情報取得ステップで取得された前記ユーザ情報に基づいて、所定の応答内容を特定する応答内容特定ステップと、前記スピーカ装置に前記所定の応答内容に沿って音声出力させるべく、前記応答内容特定ステップで特定された前記所定の応答内容に基づく音声情報を、前記スピーカ装置に送信する送信ステップと、を実現する。

本発明の一態様に係るプログラムは、コンピュータに、マイクロフォンとスピーカとを備えるスピーカ装置を使用するユーザに関するユーザ情報を取得させることと、前記ユーザ情報に基づいて、所定の応答内容を特定させることと、前記スピーカ装置に前記所定の応答内容に沿って音声出力させるべく、特定された前記所定の応答内容に基づく音声情報を、前記スピーカ装置に送信させることと、を実現させる。

本発明によれば、ユーザ情報に基づき能動的にユーザに対して音声出力することで、ユーザの発言を促すことができる。

音声通知システムの構成の一例を示す図である。音声通知システムにおける処理の概要を示す図である。応答サーバ装置の機能構成の一例を示す図である。スピーカ情報テーブルの一例を示す図である。ユーザ情報テーブルの一例を示す図である。議事録情報テーブルの一例を示す図である。画像情報テーブルの一例を示す図である。応答内容テーブルの一例を示す図である。ユーザ情報を取得する方法の一例を示す図である。ユーザ情報を取得する方法の他の例を示す図である。スピーカ装置の機能構成の一例を示す図である。ユーザ端末装置の機能構成の一例を示す図である。応答サーバ装置の処理の一例を示すフロー図である。コンピュータのハードウェア構成の一例を示す図である。応答サーバ装置の処理の他の例を示すフロー図である。

以下に、本発明の一実施形態における音声通知システム１について、図面を参照して詳細に説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。即ち、本発明は、その趣旨を逸脱しない範囲で種々変形し、又は各実施例を組み合わせる等して実施することができる。また、以下の図面の記載において、同一または類似の部分には同一または類似の符号を付して表している。
＝＝構成＝＝

図１は、音声通知システム１の構成の一例を示す図である。図１に示すように、音声通知システム１は、例えば、応答サーバ装置１０、スピーカ装置２０、ユーザ端末装置３０を含む。なお、応答サーバ装置１０とスピーカ装置２０の機能を一のシステムで実現してもよい。また、応答サーバ装置１０とスピーカ装置２０のそれぞれの機能を、他の複数の装置で実現してもよい。以下、音声通知システム１の各構成要素について説明する。

応答サーバ装置１０は、スピーカ装置２０に所定の音声情報を送信することで、ユーザに対してスピーカ装置２０から能動的に発話させる装置である。応答サーバ装置１０は、例えばサーバコンピュータなどの情報処理装置で構成され、ネットワーク２００を介して、スピーカ装置２０、ユーザ端末装置３０と接続される。応答サーバ装置１０と他の装置との間の各種データの送受信については後述する。

なお、音声通知システム１には音声認識サーバ装置（不図示）が含まれていてもよい。この場合、応答サーバ装置１０は、音声認識サーバ装置において様々な従来技術を用いてユーザの音声を認識して、ユーザの音声を解析して所定の応答を実行する際の、バックエンドとして機能する。すなわち、後述するスピーカ装置２０は、応答サーバ装置１０が提供する機能をＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）で呼び出すことで、応答サーバ装置１０の機能を利用してもよい。以下では音声認識サーバ装置の有する機能については適宜省略して説明する。

スピーカ装置２０は、ユーザからの音声を取得し、該音声を音声情報に変換して応答サーバ装置１０に送信する装置である。また、スピーカ装置２０から取得した音声情報に基づき発話する。スピーカ装置２０は所謂スマートスピーカである。ここで、以下説明の理解を助けるために、スピーカ装置２０のハードウェア構成の一例について説明する。スピーカ装置２０は、例えば、音声を検出して電気信号に変換するマイクロフォン、応答サーバ装置１０から取得する音声情報を音声出力するスピーカ、外部の装置と通信するための通信モジュール、視覚的にスピーカ装置２０のステータスを示す表示部、各種操作指示を行うための操作ボタン、サポートオペレータと通信するためのサポートボタン、各構成要素を制御する制御部を備える。なお、サポートボタンの機能については後述する。スピーカ装置２０については、様々の種類のものが存在し、例えば、複数マイクロフォン及び複数スピーカを有するものや、上面の外周部に等間隔にマイクロフォンを配設したものや、側面の外周部に等間隔にスピーカを配設したものなどが存在し、その仕様が限定されるものではない。

ユーザ端末装置３０は、ユーザの端末装置であり例えばスマートフォンである。ユーザ端末装置３０は、ネットワーク２００を介して応答サーバ装置１０に接続され、応答サーバ装置１０から送信される各種情報を、図１３に示す表示装置１０７に表示する。ユーザは、ユーザ端末装置３０を用いて応答サーバ装置１０に各種要求を行う。なお、ユーザ端末装置３０は近距離無線通信にてスピーカ装置２０に接続されてもよい。
＝＝音声通知システム１の概要＝＝

図２は、音声通知システム１における処理の概要を示す図である。図２を参照して、音声通知システム１の動作の概要を説明する。

まず、Ｓ１において、スピーカ装置２０は、スピーカ装置２０を識別するためのスピーカ情報を応答サーバ装置１０に送信する。これにより応答サーバ装置１０においてスピーカ装置２０の設置場所や機能などを把握できる。

次に、Ｓ２において、ユーザ端末装置３０は、スピーカ装置２０を介してまたは応答サーバ装置１０に直接、ユーザ端末装置３０を識別するためのユーザ情報を送信する。これにより応答サーバにおいてユーザ端末装置３０がどのスピーカ装置２０と関連付けられているかを特定される。

次に、Ｓ３において、応答サーバ装置１０は、スピーカ情報とユーザ情報とに基づいて、所定の条件で特定された音声情報をスピーカ装置２０に送信する。これにより、スピーカ装置２０は、ユーザがスピーカ装置２０に対して発話する前に、ユーザにとって適切なタイミングで適切な内容の音声を、スピーカ装置２０からユーザに対して発話する。スピーカ装置２０から出力される音声の内容やタイミングなどについては後述する。

次に、Ｓ４において、応答サーバ装置１０はスピーカ装置２０を介してユーザの音声を音声情報として取得し、該音声情報に基づき特定された音声情報をスピーカ装置２０に送信する。これによりユーザにはスピーカ装置２０を介して音声にて様々な情報が提供される。提供される情報については後述する。
＝＝音声通知システム１の構成＝＝

以下、応答サーバ装置１０、スピーカ装置２０、ユーザ端末装置３０が備える機能について説明する。なお、以下説明においては、理解を容易にするために、一例として、予約管理システム（不図示）にて予約済の会議において、ユーザが所定の会議室に設置されたスピーカ装置２０の使用を想定する。
＜＜応答サーバ装置１０＞＞

図３を参照して、応答サーバ装置１０の機能構成について説明する。図３は、応答サーバ装置１０の機能構成の一例を示す図である。図３に示すとおり、応答サーバ装置１０は、記憶部１１、スピーカ情報取得部１２ａ、ユーザ情報取得部１２ｂ、予約情報取得部１２ｃ、認識部１３、議事録特定部１４、画像特定部１５、応答内容特定部１６、分析部１７、送信部１８の機能を有する。応答サーバ装置１０が有する機能は、図１３に示すプロセッサ１０１が、記憶装置１０３に記憶されたコンピュータプログラムを読み込み、実行し、応答サーバ装置１０の各構成を制御すること等により実現される。

記憶部１１は、例えば、スピーカ情報テーブル１１ａ、ユーザ情報テーブル１１ｂ、議事録情報テーブル１１ｃ、画像情報テーブル１１ｄ、応答内容テーブル１１ｅを有する。各テーブルは一例を示すものであり、その内容が特に限定されるものではない。

スピーカ情報テーブル１１ａは、スピーカ情報を格納したテーブルである。図４に示すように、スピーカ情報テーブル１１ａのデータ構造は、例えばスピーカＩＤなどの適宜な項目を主キーとして、設置場所、仕様などのデータから成るレコードの集合体である。ここで、スピーカＩＤとはスピーカを識別する識別符号である。識別符号はユニークな番号であればよい。設置場所とは該スピーカ装置２０が設置されている場所であり例えば会議室番号などである。仕様とは該スピーカ装置２０の機能仕様である。スピーカ情報テーブル１１ａの内容は例えば応答サーバ装置１０の管理者により適宜更新される。応答サーバ装置１０はスピーカ情報テーブル１１ａを参照することでスピーカ装置２０を特定できる。

ユーザ情報テーブル１１ｂは、ユーザ情報を格納したテーブルである。図５に示すように、ユーザ情報テーブル１１ｂのデータ構造は、例えばユーザＩＤなどの適宜な項目を主キーとして、氏名、役職などのデータから成るレコードの集合体である。ここで、ユーザＩＤとはユーザを識別する識別符号であり、例えば、ユニークな任意の番号、携帯番号、ＭＡＣ（ＭｅｄｉａＡｃｃｅｓｓＣｏｎｔｒｏｌ）アドレス、ＢＤ（Ｂｌｕｅｔｏｏｔｈ（登録商標）Ｄｅｖｉｃｅ）アドレスなどである。氏名とはユーザの氏名を示す。役職とはユーザの役職を示す。ユーザ情報テーブル１１ｂの内容は例えば応答サーバ装置１０の管理者により適宜更新される。応答サーバ装置１０はユーザ情報テーブル１１ｂを参照することでスピーカ装置２０を使用するユーザを特定できる。

議事録情報テーブル１１ｃは、過去の議事録を示す議事録情報を格納したテーブルである。図６に示すように、議事録情報テーブル１１ｃのデータ構造は、例えば議事録ＩＤなどの適宜な項目を主キーとして、議事録内容、会議ＩＤなどのデータから成るレコードの集合体である。ここで、議事録ＩＤとは議事録を識別する識別符号である。議事録内容とは過去の会議における議事録の内容を記録したデータである。会議ＩＤは該議事録に対応する会議を識別する識別符号である。議事録情報テーブル１１ｃの内容は会議終了時に自動的に更新される。応答サーバ装置１０は議事録情報テーブル１１ｃを参照することで会議に対応する過去の会議における議事録をユーザに提示することができるため、円滑な会議運営を実現できる。

画像情報テーブル１１ｄは、例えば円滑な会議運営に要する画像を格納したテーブルである。図７に示すように、画像情報テーブル１１ｄのデータ構造は、例えば画像ＩＤなどの適宜な項目を主キーとして、画像（動画含む）などのデータから成るレコードの集合体である。ここで、画像とは静止画像または動画像などである。画像には会議で使用されるプレゼンテーション資料などが含まれていてもよい。画像情報テーブル１１ｄの内容は例えば応答サーバ装置１０の管理者により適宜更新される。応答サーバ装置１０は画像情報テーブル１１ｄを参照することで会議に対応する画像をユーザに提示することができるため、円滑な会議運営を実現できる。

応答内容テーブル１１ｅは、例えばユーザ情報や音声情報に対応する応答内容を格納したテーブルである。図８に示すように、応答内容テーブル１１ｅのデータ構造は、例えば応答内容ＩＤなどの適宜な項目を主キーとして、スピーカＩＤ、ユーザＩＤ、画像ＩＤ、議事録ＩＤ、キーワード、応答内容などのデータから成るレコードの集合体である。具体的には、応答内容ＩＤには画像ＩＤや議事録ＩＤなど関連付けられている。例えば、応答サーバ装置１０は、所定の会議において使用されるスピーカ装置２０のスピーカＩＤ、会議室で特定されたユーザ端末装置３０のユーザＩＤなどを特定し、それに対応する応答内容ＩＤを特定する。これにより応答内容ＩＤに対応する応答内容を特定する。ここで、応答内容とは、会議、音声情報、ユーザ情報に対応する単文または複文である。応答内容には、音声、画像、議事録などが示され、スピーカ装置２０に送信する応答内容が示される。また、キーワードとは、音声情報を変換したテキスト情報における単語などである。応答サーバ装置１０は、キーワードに基づいて応答内容を特定することもできる。応答内容テーブル１１ｅの内容は例えば応答サーバ装置１０の管理者により適宜更新される。応答サーバ装置１０は、応答内容テーブル１１ｅを参照することで、会議またはユーザに対応する音声をスピーカ装置２０から出力させることができ、円滑な会議運営を実現できる。

スピーカ情報取得部１２ａは、スピーカ装置２０から送信されたスピーカ情報を取得する。取得されたスピーカ情報はスピーカ情報テーブル１１ａに格納される。

ユーザ情報取得部１２ｂは、所定のスピーカ装置２０を使用するユーザ端末装置３０から送信されたユーザ情報を取得する。ユーザ情報には例えばユーザが使用するスピーカ装置２０のスピーカ情報が関連付けられている。ここで、ユーザ情報取得部１２ｂは、ユーザ情報を、ユーザ端末装置３０から直接に取得してもよいし、スピーカ装置２０を介して取得してもよい。

具体的には、図９Ａに示すように、応答サーバ装置１０がユーザ端末装置３０から直接、ユーザ情報を取得する場合、例えば、会議室に掲示されるＱＲコード（登録商標）または表示装置３００に表示されるＱＲコードをユーザ端末装置３０の読取機能で読み取ることで、ユーザ情報に該ＱＲコードに含まれるスピーカ情報が付加され、該ユーザ情報が応答サーバ装置１０に送信される。

また、図９Ｂに示すように、応答サーバ装置１０がスピーカ装置２０を介してユーザ情報を取得する場合、例えば、ユーザ端末装置３０はユーザ情報として自己のＭＡＣアドレスまたはＢＤアドレスをスピーカ装置２０に送信することで、ユーザ情報とスピーカ情報とが関連付けられ、それらの情報が応答サーバ装置１０に送信される。

予約情報取得部１２ｃは、予約管理システム（不図示）から、会議室の予約状況を示す予約情報を取得する。予約情報には、例えば、日時、利用者、会議室、利用目的に関する情報が含まれる。これにより、応答サーバ装置１０は、例えば、いつ、どのユーザが、どの会議室を、どのような目的で使用するかを特定できる。

認識部１３は、ユーザ情報取得部１２ｂで取得されたユーザ情報に基づき、スピーカ情報テーブル１１ａを参照して、ユーザ端末装置３０とユーザが使用するスピーカ装置２０とを関連付けて認識する。これにより、応答サーバ装置１０は、どのユーザがどこの会議室でどのスピーカを使用する状況であるかを特定できる。ここで、応答サーバ装置１０は、認識部１３で認識されたユーザ情報に対応するユーザにつき、スピーカ装置２０に接続された表示装置３００に出力してもよい。これにより会議における参加者の出席状況を把握できる。

議事録特定部１４は、後述する応答内容特定部１６で議事録を使用すると特定された場合、応答内容特定部の応答内容に応じて、議事録情報テーブル１１ｃを参照して、過去の会議で作成された所定の議事録を特定する。議事録特定部１４は、送信部１８を介して特定された所定の議事録をスピーカ装置２０に接続された表示装置３００に出力してもよい。これにより、ユーザは表示装置３００に出力された以前の会議の議事録を確認できるため会議を円滑に進行できる。

画像特定部１５は、後述する応答内容特定部１６で画像を使用すると特定された場合、応答内容特定部の応答内容に応じて、画像情報テーブル１１ｄを参照して、所定の画像を特定する。画像特定部１５は、送信部１８を介して特定された所定の画像をスピーカ装置２０に接続された表示装置３００に出力してもよい。これにより会議における議論を円滑に進行できる。

応答内容特定部１６は、応答内容テーブル１１ｅを参照して、スピーカ情報と関連付くユーザ情報に基づいて、応答内容を特定する。具体的に述べると、ユーザ情報に基づいて会議室に存在するユーザを特定し、該ユーザに対する適当な応答内容を特定する。例えば、予約情報に基づき特定される会議に参加する予定のユーザが、会議室に入室した際に、ユーザ情報取得部１２ｂで取得されるユーザ情報に基づいて、応答内容テーブル１１ｅを参照して、例えば該ユーザの名前を確認する応答内容を特定する。特定された応答内容に基づき生成される音声情報を、送信部１８を介してスピーカ装置２０に送信する。これによりスピーカ装置２０を介して能動的にユーザに向けて音声を出力できる。

応答内容特定部１６は、その後、例えば取得されたユーザ情報と予約情報とに基づいて、会議に参加予定のユーザが揃ったことが特定された時点で、応答内容テーブル１１ｅを参照して、参加者の氏名を確認する応答内容を特定する。さらに、例えば会議の終了時間が迫っていることが特定された時点で、応答内容テーブル１１ｅを参照して、会議室の利用時間を延長するか否かを問い合わせる応答内容を特定する。特定された応答内容に基づき生成される音声情報をスピーカ装置２０に送信する。

また、応答内容特定部１６は、特定された応答内容に基づいて、過去の議事録を示す議事録情報または会議に対応する画像を使用するか否かを判定する。

分析部１７は、会議においてユーザが発言した音声に関する音声情報を分析する。具体的に述べると、例えば、分析部１７は音声情報に基づいて会議の参加者が使用した感情を分析する。分析部１７は、例えば感情を示すタグ付きコーパスに基づいて、分類器を学習させる。分析部１７は、ユーザの音声情報をテキスト情報に変換し、例えば所定の自然言語解析手法を用いて単語（形態素）に分解する。該単語を分類器に入力することで音声情報に含まれる感情が分析される。

分析部１７は、例えば感情を分析した結果に基づいて会議に点数を付与する機能を有していてもよい。例えば、会議全体につきプラスの感情、例えば「喜び」「楽しみ」「期待」などの感情の割合が相対的に多い場合は点数を高く評価し、例えば「嫌悪」「絶望」「落胆」などの感情の割合が相対的に多い場合は点数を低く評価する。評価した結果を示す情報をスピーカ装置２０に送信するよう、処理を実行させる。これにより会議の内容を改善する動機をユーザに与える。すなわち応答サーバ装置１０はスピーカ装置２０を介して会議に能動的に参加し、会議の効率化を図ることができる。

また、分析部１７は、例えば感情を分析した結果に基づいて会議の雰囲気に適当な音楽を出力する。例えば、会議全体につきマイナスの感情、例えば「嫌悪」「絶望」「落胆」などの感情の割合が相対的に多い場合は心が明るくなるようなジャズ音楽に関する情報をスピーカ装置２０に送信し、例えば「怒り」などの感情の割合が相対的に多い場合は心が落ち着くようなクラシック音楽に関する情報をスピーカ装置２０に送信するよう、処理を実行させる。これにより会議の内容を改善する動機をユーザに与える。すなわち応答サーバ装置１０はスピーカ装置２０を介して会議の雰囲気を能動的に改善するよう機能し、会議の効率化を図ることができる。

また、分析部１７は、例えば、ユーザ情報テーブル１１ｂを参照して、ユーザの音声情報を分析することで、役職の高いユーザの発言が相対的に多いと分析された場合、前述の応答内容特定部１６において、役職の高いユーザの発言を控える応答内容を特定し、該応答内容に基づき生成される音声情報をスピーカ装置２０に送信するよう、処理を実行させる。これにより会議を活発化し多様な意見を抽出できる。

送信部１８は、音声情報など各種情報をスピーカ装置２０に送信する。
＜＜スピーカ装置２０＞＞

次に、図１０を参照して、スピーカ装置２０の機能構成について説明する。図１０は、スピーカ装置２０の機能構成の一例を示す図である。図１０に示すとおり、スピーカ装置２０は、送受信部２１、表示制御部２２、およびサポート部２３の機能を有する。スピーカ装置２０が有する機能は、図１３に示す、スピーカ装置２０の制御部（プロセッサ１０１）が、記憶装置１０３に記憶されたコンピュータプログラムを読み込み、実行し、スピーカ装置２０の各構成を制御すること等により実現される。

送受信部２１は、スピーカ装置２０におけるデータの送受信を制御する。例えば、送受信部２１は、上述したマイクロフォンに入力された音声に関する音声情報を応答サーバ装置１０などの外部装置に送信する。また、送受信部２１は、応答サーバ装置１０などの外部装置からの各種情報を受信する。

表示制御部２２は、スピーカ装置２０が備える、またはスピーカ装置２０に接続された表示装置１０７（表示装置３００）の表示を制御する。例えば、表示制御部２２は、管理者の設定操作に必要な各種の画面（ユーザインタフェース）を生成し、表示装置１０７へ表示することを制御する。

サポート部２３は、上述したサポートボタンが押下されたことを契機に、スピーカ装置２０に不具合が生じたことを示すサポート情報を生成する。サポート部２３は、送受信部２１を介してサポート情報をサポートセンター（不図示）に送信する。これにより、スピーカ装置２０に不具合が生じた場合、管理者が迅速に障害対応できる。
＜＜ユーザ端末装置３０＞＞

次に、図１１を参照して、ユーザ端末装置３０の機能構成について説明する。図１１は、ユーザ端末装置３０の機能構成の一例を示す図である。図１１に示すとおり、ユーザ端末装置３０は、入力部３１、送受信部３２、および表示制御部３３の機能を有する。ユーザ端末装置３０が有する機能は、図１３に示す、ユーザ端末装置３０の制御部（プロセッサ１０１）が、記憶装置１０３に記憶されたコンピュータプログラムを読み込み、実行し、ユーザ端末装置３０の各構成を制御すること等により実現される。

入力部３１は、ユーザによるユーザ端末装置３０に対する操作に応じて各種の情報を受け付ける。例えば、入力部３１は、ユーザによる操作に応じて、応答サーバ装置１０にアクセスするための入力を受け付ける。

送受信部３２は、ユーザ端末装置３０におけるデータの送受信を制御する。例えば、送受信部３２は、入力部３１により入力された情報を応答サーバ装置１０などの外部装置に送信する。また、送受信部３２は、応答サーバ装置１０などの外部装置からの通知や各種情報を受信する。

表示制御部３３は、ユーザ端末装置３０が備える、またはユーザ端末装置３０に接続された表示装置１０７の表示を制御する。例えば、表示制御部３３は、管理者の各種操作に必要な各種の画面（ユーザインタフェース）を生成し、表示装置１０７へ表示することを制御する。
＝＝動作フロー＝＝

図１２は、応答サーバ装置１０の処理の一例を示すフロー図である。図１２を参照して、応答サーバ装置１０により実行される処理の一例を説明する。

まず、Ｓ１００において、応答サーバ装置１０はスピーカ装置２０からスピーカ情報を取得する。

次に、Ｓ１０１において、応答サーバ装置１０はユーザ端末装置３０またはスピーカ装置２０からユーザ情報を取得する。これにより応答サーバ装置１０はユーザがいずれの会議室にいるか認識できる。

次に、Ｓ１０２において、応答サーバ装置１０はユーザ情報に基づき予約管理システムから予約情報を取得する。これにより応答サーバ装置１０はユーザが存在する会議室の予約状況を認識できる。

次に、Ｓ１０３において、応答サーバ装置１０は、予約情報に基づいて、会議目的に応じた応答内容を特定する。特定された応答内容に基づき、議事録情報テーブル１１ｃまたは画像情報テーブル１１ｄを参照して、会議目的に応じた議事録情報または画像情報を特定する。

次に、Ｓ１０４において、応答サーバ装置１０は、応答内容テーブル１１ｅを参照して、ユーザ情報に基づく応答内容を特定する。

次に、Ｓ１０５において、応答サーバ装置１０は、特定された応答内容に関する音声情報をスピーカ装置２０に送信する。例えば、スピーカ装置２０を介して、会議の冒頭に参加者の氏名を読み上げて出席確認をすることや、会議の目的を音声通知することなどを実行する。これによりスピーカ装置２０からユーザに対して能動的に発話するため、会議を円滑に進行できる。

次に、Ｓ１０６において、応答サーバ装置１０は、議事録情報と画像情報とをスピーカ装置２０に送信する。スピーカ装置２０は取得した議事録情報と画像情報を表示装置３００に出力する。例えば、スピーカ装置２０を介して表示装置３００に前回の議事録を表示し、会議の目的に応じた写真やグラフなどを表示する。これにより応答サーバ装置１０は会議を円滑に進行するために過去の議事録と会議に要する画像をユーザに提供できる。

次に、Ｓ１０７において、応答サーバ装置１０は会議が終了したか否かを判定する。具体的に述べると、応答サーバ装置１０は所定の時間になると会議が終了されたか否かを問いかける音声情報をスピーカ装置２０に送信する。例えば、スピーカ装置２０から「会議時間が終了します。延長しますか？」という音声を出力する。スピーカ装置２０から出力された音声に応じてユーザからの応答を示す音声情報を、スピーカ装置２０を介して取得する。例えば、スピーカ装置２０を介して、ユーザから「３０分延長してください」という音声情報を取得すると、応答サーバ装置１０は送信部１８を介して予約管理システムに対して会議室の予約時間を３０分延長する延長情報を送信する。その後、応答サーバ装置１０は、ユーザの音声情報に基づいて、応答内容テーブル１１ｅを参照して、会議が終了したか否かを判定する。

会議が終了したと判定した場合（Ｓ１０７：ＮＯ）、Ｓ１０４から処理を繰り返す。これによりユーザの音声情報に応じた応答内容を特定する。

会議が終了したと判定した場合（Ｓ１０７：ＹＥＳ）、会議内容を分析する（Ｓ１０８）。分析結果をスピーカ装置２０に送信する。これによりユーザそれぞれが会議において改善すべき点を把握できる。例えば、「本日の会議は７０点です」や「Ｂ部長話しすぎです」という音声を出力する。
＝＝音声通知システム１のハードウェア構成＝＝

図１３を参照して、応答サーバ装置１０、スピーカ装置２０およびユーザ端末装置３０をコンピュータ１００により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。また、スピーカ装置２０における一部のハードウェア構成については上述したとおりである。

図１３は、コンピュータのハードウェア構成の一例を示す図である。図１３に示すように、コンピュータ１００は、プロセッサ１０１と、メモリ１０２と、記憶装置１０３と、入力Ｉ／Ｆ部１０４と、データＩ／Ｆ部１０５と、通信Ｉ／Ｆ部１０６、及び表示装置１０７を含む。

プロセッサ１０１は、メモリ１０２に記憶されているプログラムを実行することによりコンピュータ１００における各種の処理を制御する制御部である。

メモリ１０２は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の記憶媒体である。メモリ１０２は、プロセッサ１０１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。

記憶装置１０３は、例えばハードディスクドライブ（ＨＤＤ）やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置１０３は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。

入力Ｉ／Ｆ部１０４は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ部１０４の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力Ｉ／Ｆ部１０４は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のインタフェースを介してコンピュータ１００に接続されても良い。

データＩ／Ｆ部１０５は、コンピュータ１００の外部からデータを入力するためのデバイスである。データＩ／Ｆ部１０５の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データＩ／Ｆ部１０５は、コンピュータ１００の外部に設けられることも考えられる。その場合、データＩ／Ｆ部１０５は、例えばＵＳＢ等のインタフェースを介してコンピュータ１００へと接続される。

通信Ｉ／Ｆ部１０６は、コンピュータ１００の外部の装置と有線又は無線により、インターネットＮを介したデータ通信を行うためのデバイスである。通信Ｉ／Ｆ部１０６は、コンピュータ１００の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ部１０６は、例えばＵＳＢ等のインタフェースを介してコンピュータ１００に接続される。

表示装置１０７は、各種情報を表示するためのデバイスである。表示装置１０７の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置１０７は、コンピュータ１００の外部に設けられても良い。その場合、表示装置１０７は、例えばディスプレイケーブル等を介してコンピュータ１００に接続される。また、入力Ｉ／Ｆ部１０４としてタッチパネルが採用される場合には、表示装置１０７は、入力Ｉ／Ｆ部１０４と一体化して構成することが可能である。
＝＝他の実施形態＝＝

応答内容特定部１６は、例えば会議室の予約管理を行ってもよい。例えば、応答内容特定部１６は、予約情報に基づいて、応答内容テーブル１１ｅを参照して、スピーカ装置２０を介して会議室にユーザがいるか否かを問いかける応答内容を特定する。これにつき、図１４を参照して具体的に述べると、まず、応答サーバ装置１０は予約管理システムから予約情報を取得する（Ｓ２００）。次に、応答サーバ装置１０は、現時点において会議室が予約されているか否かを判定する（Ｓ２０１）。会議室が予約されていると判定した場合（Ｓ２０１：ＹＥＳ）、スピーカ装置２０から音声情報を取得することで、会議室に人がいるか否かを判定する（Ｓ２０２）。会議室に人がいると判定した場合（Ｓ２０２：ＹＥＳ）、応答内容特定部１６は、予約情報に基づいて、応答内容テーブル１１ｅを参照して、会議室を予約した人の氏名を問いかける応答内容（「あなたは誰ですか？」など）を特定し、送信部１８を介して該応答内容に関する音声情報をスピーカ装置２０に送信する（Ｓ２０３）。一方、会議室に人がいないと判定した場合（Ｓ２０２：ＮＯ）、応答内容特定部１６は誰かがいるかを問いかける応答内容（「誰かいますか？」など）を特定し、送信部１８を介して該応答内容に関する音声情報をスピーカ装置２０に送信する。ここで、スピーカ装置２０からの問いかけに対して返答がなかった場合、予約管理システムの予約をキャンセルする（Ｓ２０４）。また、会議室が予約されていない場合（Ｓ２０１：ＮＯ）、スピーカ装置２０から音声情報を取得することで、会議室に人がいるか否かを判定する（Ｓ２０５）。会議室に人がいると判定した場合（Ｓ２０５：ＹＥＳ）、応答内容特定部１６は予約するか否かを問いかける応答内容（「予約しますか？」など）を特定し、送信部１８を介して該応答内容に関する音声情報をスピーカ装置２０に送信する（Ｓ２０６）。これにより応答サーバ装置１０は会議室の予約状況に対して能動的に機能するため、会議室の有効活用を図ることができる。

応答サーバ装置１０は、プレゼン特定実行部（不図示）の機能をさらに有していてもよい。プレゼン特定実行部は、例えばクラウド上で公開されているプレゼン資料データベース（不図示）を参照し、ユーザ情報に基づき応答内容特定部１６で特定された応答内容に基づいて、プレゼン資料を特定する。例えば、応答内容における所定のキーワードを特定し、該キーワードに関するプレゼン資料を特定する。プレゼン特定実行部は、送信部１８を介して、特定されたプレゼン資料に関する情報をスピーカ装置２０に送信するとともに、プレゼン資料に記載されているテキスト情報を音声情報に変換し、該音声情報をスピーカ装置２０に送信する。これにより応答サーバ装置１０はスピーカ装置２０を介してユーザに対して能動的にプレゼン資料を提供するとともに、プレゼン資料の内容につき音声案内することができるため、会議の効率化を図ることができる。

また、プレゼン特定実行部（不図示）は、予約情報に基づいて、会議室の利用目的におけるキーワードを特定し、該キーワードに関するプレゼン資料を特定してもよい。プレゼン特定実行部は、送信部１８を介して特定されたプレゼン資料に関する情報をスピーカ装置２０に送信する。そして、プレゼン資料に記載されているテキスト情報を音声情報に変換し、送信部１８を介して該音声情報をスピーカ装置２０に送信する。これにより応答サーバ装置１０において会議の目的に適したプレゼン資料を自動的に特定されるため、会議を円滑に進行できる。

応答内容特定部１６は、例えばスピーカ装置２０を介してプレゼン実行中におけるユーザの質問に応答する応答内容を特定する機能を有していてもよい。まず、応答内容特定部１６は質問に関する音声情報をテキスト情報に変換する。次に、応答内容特定部１６は該テキスト情報に対応する応答内容を応答内容テーブル１１ｅから取得する。具体的に述べると、例えばテキスト情報を解析してキーワードを抽出する。抽出されたキーワードに基づいて、応答内容テーブル１１ｅを検索するとともに、質問の種別（人名、地名、数量など）を特定する。検索により応答内容テーブル１１ｅから抽出された応答内容の中から、特定された質問の種別に対応する言葉を特定することで、回答を特定する。これにより応答サーバ装置１０は能動的にプレゼンを実行するとともに、ユーザの質問に対する回答をも行うため会議を円滑に進行できる。

応答サーバ装置１０は、例えば会議の議事録を作成する議事録作成部（不図示）の機能をさらに有していてもよい。議事録作成部は、例えばスピーカ装置２０を介して取得したユーザの音声情報をテキスト情報に変換し、所定の様式に議事録として該テキスト情報を入力する。テキスト情報が入力された所定の様式を示す情報をユーザ端末装置３０に送信するよう、処理を実行させる。これによりユーザにおいて議事録作成にかかる作業を軽減できる。

応答サーバ装置１０は、例えばユーザ端末装置３０からユーザ情報を取得することに代えてスピーカ装置２０で取得するユーザの音声をユーザ情報として取得してもよい。この場合、応答サーバ装置１０はユーザごとの声紋に関する声紋情報を格納する声紋情報データベース（不図示）を備え、取得した音声情報と声紋情報とを照合してユーザを特定する。これによりユーザ端末装置３０を所持していないユーザを認識できるため、音声通知システム１の確実な運用を実現できる。

応答サーバ装置１０は、例えばユーザ端末装置３０からユーザ情報を取得することに代えてカメラ装置（不図示）から取得するユーザの顔に関する顔情報をユーザ情報として取得してもよい。この場合、応答サーバ装置１０はユーザごとの顔情報を格納する顔情報データベース（不図示）を備え、取得した顔情報と顔情報データベースに格納されている顔情報とを照合してユーザを特定する。これによりユーザ端末装置３０を所持していないユーザを認識できるため、音声通知システム１の確実な運用を実現できる。

応答サーバ装置１０は、例えば各種機能を実行するタイミングを計る計時部（不図示）をさらに有していてもよい。計時部において所定の時間や所定の時間経過を計ることで、応答サーバ装置１０は所定の時間に所定の機能を実行し所定の時間経過時に所定の機能を実行することができる。これにより応答サーバ装置１０は適切なタイミングで能動的に機能を発揮できるため、会議を円滑に進行できる。

上記において、スピーカ装置２０は会議室に設置されているものとして説明したがこれに限定されない。スピーカ装置２０を不特定多数のユーザが利用する場所に設置できる。これにより、音声通知システム１は、例えば、個人宅、集合住宅のエントランス、お店、集会場など様々な場所において、能動的にユーザに対して発話する。様々な場所でユーザに対して能動的に音声出力することで、ユーザの発言を促すことができる。

なお、述した実施の形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明はその趣旨を逸脱することなく変更、改良され得るとともに、本発明にはその等価物も含まれる。

１…音声通知システム、１０…応答サーバ装置、１１…記憶部、１２ａ…スピーカ情報取得部、１２ｂ…ユーザ情報取得部、１２ｃ…予約情報取得部、１３…認識部、１４…議事録特定部、１５…画像特定部、１６…応答内容特定部、１７…分析部、１８…送信部、２０…スピーカ装置、３０…ユーザ端末装置

Claims

マイクロフォンとスピーカとを備えるスピーカ装置を使用するユーザに関するユーザ情報を取得する取得部と、
前記取得部で取得された前記ユーザ情報に基づいて、所定の応答内容を特定する応答内容特定部と、
前記スピーカ装置に前記所定の応答内容に沿って音声出力させるべく、前記応答内容特定部で特定された前記所定の応答内容に基づく音声情報を、前記スピーカ装置に送信する送信部と、
を備えることを特徴とする情報処理システム。
前記取得部は、前記ユーザの端末装置から、前記ユーザ情報を取得する
ことを特徴とする請求項１に記載の情報処理システム。
前記取得部は、前記スピーカ装置から、前記スピーカ装置にアクセスした、前記ユーザの端末装置に関する前記ユーザ情報を取得する
ことを特徴とする請求項１に記載の情報処理システム。
前記取得部は、前記スピーカ装置から、前記ユーザの音声に関する前記ユーザ情報を取得する
ことを特徴とする請求項１乃至請求項３のいずれか一項に記載の情報処理システム。
前記ユーザの音声に関する前記ユーザ情報に基づいて、前記ユーザの発言を分析する分析部と、
前記送信部は、前記分析部で分析された結果に関する分析情報を、前記スピーカ装置に送信する
ことを特徴とする請求項４に記載の情報処理システム。
前記応答内容特定部で特定された前記所定の応答内容に基づいて、所定の画像を特定する画像特定部をさらに備え、
前記送信部は、前記スピーカ装置に、前記スピーカ装置に接続された表示装置に前記所定の画像を出力させるべく、前記所定の画像に関する画像情報を送信する
ことを特徴とする請求項１乃至請求項５の何れか一項に記載の情報処理システム。
前記取得部は、前記ユーザ情報に基づいて、会議の予約を管理する予約管理システムから、前記会議の予約状況に関する予約情報を取得し、
前記応答内容特定部は、前記予約情報に基づいて、所定の応答内容を特定する
ことを特徴とする請求項１乃至請求項６の何れか一項に記載の情報処理システム。
前記応答内容特定部で特定された応答内容に基づいて、過去の議事録に関する議事録情報を保持する過去データベースから、所定の議事録情報を特定する議事録特定部をさらに備え、
前記送信部は、前記スピーカ装置に、前記スピーカ装置に接続された表示装置に前記議事録を出力させるべく、前記議事録情報を送信する
ことを特徴とする請求項１乃至請求項７の何れか一項に記載の情報処理システム。
前記取得部は、前記ユーザの音声に関する前記ユーザ情報を取得し、
前記応答内容特定部は、前記ユーザ情報に基づいて、所定の応答内容を特定し、
前記所定の応答内容に基づいて、所定のデータベースから、プレゼン資料を示すプレゼン資料情報を特定するプレゼン特定実行部
をさらに備え、
前記送信部は、前記スピーカ装置に、前記スピーカ装置に接続された表示装置に前記プレゼン資料を出力させるべく、前記プレゼン資料情報を送信する
ことを特徴とする請求項１乃至請求項８の何れか一項に記載の情報処理システム。
前記スピーカ装置
をさらに備えることを特徴とする請求項１乃至請求項９に記載の情報処理システム。
コンピュータが、
マイクロフォンとスピーカとを備えるスピーカ装置を使用するユーザに関するユーザ情報を取得する取得ステップと、
前記取得ステップで取得された前記ユーザ情報に基づいて、所定の応答内容を特定する応答内容特定ステップと、
前記スピーカ装置に前記所定の応答内容に沿って音声出力させるべく、前記応答内容特定ステップで特定された前記所定の応答内容に基づく音声情報を、前記スピーカ装置に送信する送信ステップと、
を実現する情報処理方法。
コンピュータに、
マイクロフォンとスピーカとを備えるスピーカ装置を使用するユーザに関するユーザ情報を取得させることと、
前記ユーザ情報に基づいて、所定の応答内容を特定させることと、
前記スピーカ装置に前記所定の応答内容に沿って音声出力させるべく、特定された前記所定の応答内容に基づく音声情報を、前記スピーカ装置に送信させることと、
を実現させるプログラム。