JP2023106865A

JP2023106865A - 情報処理装置、情報処理システム、及びプログラム

Info

Publication number: JP2023106865A
Application number: JP2022007840A
Authority: JP
Inventors: 晴紀村田; Haruki Murata; 裕也加藤; Hironari Kato
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2023-08-02
Also published as: US20230238018A1

Abstract

【課題】ユーザ同士のやり取りに適した環境音を出力する情報処理装置、情報処理システム及びプログラムを提供する。
【解決手段】情報処理システムにおいて、情報処理装置１０は、会話を行う複数のユーザの活動情報を取得する取得部と、活動情報に基づいて音データを生成する生成部と、音データに応じた環境音を出力装置に出力させる音出力制御部と、を有する。
【選択図】図５

Description

本発明は、情報処理装置、情報処理システム、及びプログラムに関する。

複数のユーザが部屋等に集まって又は通信ネットワークを介して会話を行う会議などにおいて、会議を円滑に進めるためにＢＧＭ（Background Music）などの環境音を活用する技術は、従来から知られている。

また、ユーザの気分および／または挙動情報に基づいた環境バックグラウンドノイズの修正のための技術が知られている（例えば特許文献１参照）。

しかしながら、例えば会議などのユーザ同士のやり取り（インタラクション）が発生する場合に、ユーザ同士のインタラクションに適した環境音を出力する技術は、知られていない。なお、特許文献１は、ユーザ同士のインタラクションに適した環境音を出力する技術について記載されているものではない。

本発明の実施の形態は、ユーザ同士のやり取りに適した環境音を出力する情報処理装置を提供することを目的とする。

上記した課題を解決するために、本願請求項１は、会話を行う複数のユーザの活動情報を取得する取得手段と、前記活動情報に基づいて音データを生成する生成手段と、前記音データに応じた環境音を出力装置に出力させる音出力制御手段と、を有する情報処理装置であることを特徴とする。

本発明の実施の形態によれば、ユーザ同士のやり取りに適した環境音を出力することができる。

本実施形態に係る情報処理システムの一例の構成図である。本実施形態に係る会議室の一例について説明するための図である。本実施形態に係るコンピュータの一例のハードウェア構成図である。本実施形態に係るスマートフォンの一例のハードウェア構成図である。本実施形態に係る情報処理システムの一例の機能構成図である。予約情報の一例の構成図である。音源情報の一例の構成図である。音数情報の一例の構成図である。拍数情報の一例の構成図である。音色情報の一例の構成図である。メロディ情報の一例の構成図である。本実施形態に係る情報処理システムの処理手順を示した一例のフローチャートである。音データを生成する処理の一例のフローチャートである。音数情報の一例の構成図である。拍数情報の一例の構成図である。音色情報の一例の構成図である。音データを生成する処理の一例のフローチャートである。本実施形態に係る情報処理システムの一例の構成図である。本実施形態に係る情報処理システムの一例の機能構成図である。音色情報の一例の構成図である。本実施形態に係る情報処理システムの処理手順を示した一例のフローチャートである。音データを生成する処理の一例のフローチャートである。

以下、本発明の実施形態について図面を参照しながら説明する。なお、本実施形態ではユーザ同士のやり取りが発生する例として、会議室の中にいる複数のユーザが会話を行う例、及びオンライン会議中の複数のユーザが通信ネットワークを介して会話を行う例について説明するが、会議に限定するものではない。本実施形態は、セミナー、打ち合わせ、議論、会話、プレゼンテーション、又はブレインストーミングなど、ユーザ同士のやり取りが発生する様々な場面に適用できる。

［第１の実施形態］
＜システム構成＞
図１は、本実施形態に係る情報処理システムの一例の構成図である。図２は本実施形態に係る会議室の一例について説明するための図である。図１の情報処理システム１は、情報処理装置１０、映像表示装置１２、センサ装置１４、スピーカ１６、カメラ１８、マイク２０、及び情報処理端末２２がインターネットやＬＡＮなどのネットワークＮを介して通信可能に有線又は無線接続されている。

会議室には、映像表示装置１２、センサ装置１４、スピーカ１６、カメラ１８、マイク２０、及び情報処理端末２２が設けられている。なお、会議室には環境依存情報の少なくとも一部を取得して情報処理装置１０に通知する温度センサ、湿度センサ、照度センサ等が設けられてもよい。また、図１では情報処理装置１０が会議室の外に設けられている例を示したが、会議室の中に設けられていてもよい。

例えば会議室に入るユーザはビーコン等の電波を発信するタグを持つ。会議室のセンサ装置１４は会議室にいるユーザのタグから発信される電波を、ユーザの位置情報を検知するための信号として受信し、情報処理装置１０に通知する。センサ装置１４はユーザの位置情報を検知するための信号を出力できる測位システムのセンサであればよい。計測対象側のタグは、専用タグ、スマートフォン、又は各種ＢＬＥ（Bluetooth Low Energy）センサなどである。情報処理装置１０は一つ以上のセンサ装置１４から通知されたユーザの位置情報を検知するための信号に基づき、会議室にいるユーザの位置情報をそれぞれ検知する。なお、上記で説明したタグは発信装置の一例であって、ユーザの位置情報を検知するための信号を発信する装置であればタグの形態でなくともよい。

情報処理端末２２は会議室にいるユーザが操作するデバイスである。例えば情報処理端末２２は、ノートＰＣ（Personal Computer）、携帯電話、スマートフォン、タブレット端末、ゲーム機、ＰＤＡ（Personal Digital Assistant）、デジタルカメラ、ウェアラブルＰＣ、デスクトップＰＣ、会議室の専用のデバイス等である。情報処理端末２２はユーザが会議室に持ち込んだものであってもよいし、会議室に備え付けられているものであってもよい。

また、情報処理端末２２は測位システムによる計測対象であってもよい。例えば会議室のセンサ装置１４は、情報処理端末２２のタグから発信される電波を受信し、情報処理装置１０に通知してもよい。センサ装置１４は、例えば図２に示すように、情報処理端末２２を操作するユーザの会議室の中における位置情報を検知するための信号を、情報処理装置１０に通知できる。なお、タグは情報処理端末２２が内蔵する形態であっても、それ以外の形態であってもよい。さらに、情報処理端末２２はユーザの心拍を計測するセンサが設けられていてもよく、計測したユーザの心拍を情報処理装置１０に通知してもよい。

会議室のカメラ１８は会議室を撮影し、撮影した映像データを出力信号として情報処理装置１０に送信する。カメラ１８は、例えばＫｉｎｅｃｔ（登録商標）のビデオカメラを利用できる。Ｋｉｎｅｃｔ（登録商標）のビデオカメラは、距離画像センサ、赤外線センサ、及びアレイマイクを有するビデオカメラの一例である。距離画像センサ、赤外線センサ、及びアレイマイクを有するビデオカメラを利用する場合は、ユーザの動き及び姿勢を認識できる。

会議室のマイク２０は、ユーザの声を電気信号に変換する。マイク２０はユーザの声から変換した電気信号を、出力信号として情報処理装置１０に送信する。なお、会議室のマイク２０に替えて、又は会議室のマイク２０と共に、情報処理端末２２のマイクを利用してもよい。

会議室のスピーカ１６は、電気信号を物理信号に変えて環境音などの音を出力する。スピーカ１６は情報処理装置１０の制御により環境音などの音を出力する。なお、会議室のスピーカ１６に替えて、又は会議室のスピーカ１６と共に、情報処理端末２２のスピーカを利用してもよい。会議室のマイク２０及び情報処理端末２２のマイクは、入力装置の一例である。会議室のスピーカ１６及び情報処理端末２２のスピーカは、出力装置の一例である。

会議室にある複数台の映像表示装置１２の一例はプロジェクタであって、図２に示すような会議室を仕切る面に画像を情報処理装置１０の制御により表示できる。会議室を仕切る面は、例えば前壁、後壁、右壁、左壁、床、及び天井などである。なお、映像表示装置１２は画像を表示する表示装置の一例であって、少なくとも画像を表示する機能を有する表示装置であれば適用可能である。

なお、図２の会議室の形状は一例であって、他の形状であってもよい。また、上述したように会議室は壁、床、天井等の全ての面が必ずしも仕切られている必要はなく、一部の面が仕切られていないオープンな会議室であってもよい。また、会議室は複数のユーザが中にいる同一の空間の一例であって、例えばセミナーや講義を行う部屋、ミーティングスペース、イベントスペースなど、様々な空間が含まれる。このように、本実施形態で説明する空間とは複数のユーザがいる場所や部屋を含む概念である。

情報処理装置１０は、センサ装置１４から通知された信号により検知したユーザの位置情報、カメラ１８からの出力信号、及びマイク２０からの出力信号などに基づき、会議室にいるユーザ同士のやり取り（会話、会議などのインタラクション）に適した環境音を後述のように出力する。

なお、図１に示す情報処理システム１の構成は一例である。情報処理装置１０は単一のコンピュータ又は複数台のコンピュータにより実現してもよく、又、クラウドサービスを利用して実現してもよい。また、情報処理装置１０は、例えば、プロジェクタ、電子黒板機能を有する表示装置、デジタルサイネージ等の出力装置、ＨＵＤ（Head Up Display）装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、自動車（Connected Car）、ノートＰＣ、携帯電話、スマートフォン、タブレット端末、ゲーム機、ＰＤＡ、デジタルカメラ、ウェアラブルＰＣまたはデスクトップＰＣ等であってもよい。

＜ハードウェア構成＞
《コンピュータ》
情報処理装置１０は、例えば図３に示すハードウェア構成のコンピュータ５００により実現される。また、情報処理端末２２はＰＣである場合、例えば図３に示すハードウェア構成のコンピュータ５００により実現される。

図３は、本実施形態に係るコンピュータの一例のハードウェア構成図である。図３に示されているように、コンピュータ５００はＣＰＵ（Central Processing Unit）５０１、ＲＯＭ（Read Only Memory）５０２、ＲＡＭ（Random Access Memory）５０３、ＨＤ５０４、ＨＤＤ（Hard Disk Drive）コントローラ５０５、ディスプレイ５０６、外部機器接続Ｉ／Ｆ（Interface）５０８、ネットワークＩ／Ｆ５０９、データバス５１０、キーボード５１１、ポインティングデバイス５１２、ＤＶＤ－ＲＷ（Digital Versatile Disk Rewritable）ドライブ５１４、メディアＩ／Ｆ５１６を備えている。

これらのうち、ＣＰＵ５０１は、コンピュータ５００全体の動作を制御する。ＲＯＭ５０２は、ＩＰＬ等のＣＰＵ５０１の駆動に用いられるプログラムを記憶する。ＲＡＭ５０３は、ＣＰＵ５０１のワークエリアとして使用される。ＨＤ５０４は、プログラム等の各種データを記憶する。ＨＤＤコントローラ５０５は、ＣＰＵ５０１の制御にしたがってＨＤ５０４に対する各種データの読み出し又は書き込みを制御する。

ディスプレイ５０６は、カーソル、メニュー、ウインドウ、文字、又は画像などの各種情報を表示する。外部機器接続Ｉ／Ｆ５０８は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、ＵＳＢ（Universal Serial Bus）メモリやプリンタ等である。ネットワークＩ／Ｆ５０９は、ネットワークＮを利用してデータ通信をするためのインターフェースである。データバス５１０は、ＣＰＵ５０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

キーボード５１１は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス５１２は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。ＤＶＤ－ＲＷドライブ５１４は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ５１３に対する各種データの読み出し又は書き込みを制御する。なお、ＤＶＤ－ＲＷに限らず、ＤＶＤ－Ｒ等であってもよい。メディアＩ／Ｆ５１６は、フラッシュメモリ等の記録メディア５１５に対するデータの読み出し又は書き込み（記憶）を制御する。

《スマートフォン》
情報処理端末２２は例えば図４に示すハードウェア構成のスマートフォン６００により実現してもよい。なお、情報処理端末２２がノートＰＣ、携帯電話、スマートフォン、タブレット端末、ゲーム機、ＰＤＡ、デジタルカメラ、ウェアラブルＰＣ、デスクトップＰＣ、会議室の専用のデバイス等の場合であっても、図４に示すハードウェア構成と同様のハードウェア構成で実現されてもよい。また、図４に示すハードウェア構成の一部を備えていなくともよい一方で、図４に示すハードウェア構成に対して一部の構成が追加されていてもよい。

図４は本実施形態に係るスマートフォンの一例のハードウェア構成図である。図４に示されているように、スマートフォン６００は、ＣＰＵ６０１、ＲＯＭ６０２、ＲＡＭ６０３、ＥＥＰＲＯＭ６０４、ＣＭＯＳセンサ６０５、撮像素子Ｉ／Ｆ６０６、加速度・方位センサ６０７、メディアＩ／Ｆ６０９、ＧＰＳ受信部６１１を備えている。

これらのうち、ＣＰＵ６０１は、スマートフォン６００全体の動作を制御する。ＲＯＭ６０２は、ＣＰＵ６０１やＩＰＬ等のＣＰＵ６０１の駆動に用いられるプログラムを記憶する。ＲＡＭ６０３は、ＣＰＵ６０１のワークエリアとして使用される。ＥＥＰＲＯＭ６０４は、ＣＰＵ６０１の制御にしたがって、スマートフォン用プログラム等の各種データの読み出し又は書き込みを行う。

ＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサ６０５は、ＣＰＵ６０１の制御に従って被写体（主に自画像）を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、ＣＭＯＳセンサ６０５ではなく、ＣＣＤ（Charge Coupled Device）センサ等の撮像手段であってもよい。撮像素子Ｉ／Ｆ６０６は、ＣＭＯＳセンサ６０５の駆動を制御する回路である。加速度・方位センサ６０７は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。

メディアＩ／Ｆ６０９は、フラッシュメモリ等の記録メディア６０８に対するデータの読み出し又は書き込み（記憶）を制御する。ＧＰＳ受信部６１１は、ＧＰＳ衛星からＧＰＳ信号を受信する。

また、スマートフォン６００は、遠距離通信回路６１２、ＣＭＯＳセンサ６１３、撮像素子Ｉ／Ｆ６１４、マイク６１５、スピーカ６１６、音入出力Ｉ／Ｆ６１７、ディスプレイ６１８、外部機器接続Ｉ／Ｆ６１９、近距離通信回路６２０、近距離通信回路６２０のアンテナ６２０ａ、及びタッチパネル６２１を備えている。

これらのうち、遠距離通信回路６１２は、ネットワークＮを介して、他の機器と通信する回路である。ＣＭＯＳセンサ６１３は、ＣＰＵ６０１の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子Ｉ／Ｆ６１４は、ＣＭＯＳセンサ６１３の駆動を制御する回路である。マイク６１５は、声や音を電気信号に変える内蔵型の回路である。スピーカ６１６は、電気信号を物理振動に変えて環境音、音楽、又は音声などの音を生み出す内蔵型の回路である。

音入出力Ｉ／Ｆ６１７は、ＣＰＵ６０１の制御に従ってマイク６１５及びスピーカ６１６との間で音信号の入出力を処理する回路である。ディスプレイ６１８は、被写体の画像や各種アイコン等を表示する液晶や有機ＥＬ（Electro Luminescence）などの表示手段の一種である。

外部機器接続Ｉ／Ｆ６１９は、各種の外部機器を接続するためのインターフェースである。近距離通信回路６２０は、ＮＦＣ（Near Field Communication）やＢｌｕｅｔｏｏｔｈ（登録商標）等の通信回路である。タッチパネル６２１は、ユーザがディスプレイ６１８を押下することで、スマートフォン６００を操作する入力手段の一種である。

また、スマートフォン６００は、バスライン６１０を備えている。バスライン６１０は図４に示されているＣＰＵ６０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

＜機能構成＞
本実施形態に係る情報処理システム１は、例えば図５に示すような機能構成により実現される。図５は本実施形態に係る情報処理システムの一例の機能構成図である。図５の機能構成は、本実施形態の説明に不要な構成について適宜省略している。

図５の情報処理装置１０は、映像表示制御部３０、取得部３２、生成部３４、音出力制御部３６、認証処理部３８、ユーザ検知部４０、通信部４２、及び記憶部５０を有する構成である。記憶部５０は、後述の予約情報５２、音源情報５４、音数情報５６、拍数情報５８、音色情報６０、及びメロディ情報６２を記憶している。

センサ装置１４は出力信号送信部７０を有する構成である。スピーカ１６は出力部１１０を有する構成である。カメラ１８は出力信号送信部８０を有する構成である。マイク２０は出力信号送信部９０を有する構成である。情報処理端末２２は出力信号送信部１００及び出力部１０２を有する構成である。

センサ装置１４の出力信号送信部７０は、会議室の中にいる複数のユーザを検知するための信号を出力信号として情報処理装置１０に送信する。カメラ１８の出力信号送信部８０は、会議室の中を撮影した撮影結果を出力信号として情報処理装置１０に送信する。マイク２０の出力信号送信部９０は、会議室の中にいる複数のユーザの声から変換した電気信号を出力信号として情報処理装置１０に送信する。

また、情報処理端末２２の出力信号送信部１００は、その情報処理端末２２を操作するユーザの声からマイク６１５が変換した電気信号を出力信号として情報処理装置１０に送信する。情報処理端末２２の出力部１０２は、情報処理装置１０から受信した音データに応じて環境音などの音を出力する。スピーカ１６の出力部１１０は、情報処理装置１０から受信した音データに応じて環境音などの音を出力する。

なお、図５に示した出力信号送信部７０、８０、９０、及び１００は、入力装置の一例である。出力部１０２及び１１０は、出力装置の一例である。

情報処理装置１０の通信部４２は、センサ装置１４の出力信号送信部７０から、ユーザの位置情報を検知するための信号を受信する。通信部４２はカメラ１８の出力信号送信部８０から会議室の中を撮影した撮影結果を出力信号として受信する。通信部４２はマイク２０の出力信号送信部９０から、会議室の中にいる複数のユーザの声から変換した電気信号を出力信号として受信する。通信部４２は情報処理端末２２の出力信号送信部１００から、情報処理端末２２を操作するユーザの声からマイク６１５が変換した電気信号を出力信号として受信する。また、通信部４２は情報処理端末２２がユーザから受け付けた操作信号を受信する。

ユーザ検知部４０は、センサ装置１４から受信したユーザの位置情報を検知するための信号から、会議室の中にいるユーザを検知する。また、ユーザ検知部４０は会議室の中にいるユーザの位置情報を検知する。認証処理部３８は、会議室の中にいるユーザの認証処理を行う。映像表示制御部３０は映像表示装置１２が表示する映像を制御する。

取得部３２は、会議室の中にいるユーザの活動情報を取得する。取得部３２が取得するユーザの活動情報の一例は、会議室の中にいる複数のユーザの発話量である。また、取得部３２が取得するユーザの活動情報の一例は、会議室の中にいる複数のユーザの発話者変更頻度である。また、取得部３２が取得するユーザの活動情報の一例は、会議室の中で連続して所定時間以上、話し続けているユーザの情報である。発話量、発話者変更頻度、及び話し続けているユーザの情報は、マイク２０又はマイク６１５の出力信号から計測できる。

また、取得部３２は会議室の内部又は外部の環境依存情報を取得する。取得部３２が取得する環境依存情報の一例は、天気、気温、温度、湿度、照度、機器の動作音、騒音、又は時間帯などである。例えば取得部３２はインターネット等で公開されている天気、気温などの環境依存情報を、環境依存情報を提供する外部のサーバに対して要求を送信することで外部サーバから取得してもよい。外部サーバから取得する際にＡＰＩ（Application Programming Interface）が提供されていればＡＰＩを使用して取得してもよい。取得部３２は会議室の中にいるユーザの心拍の情報をユーザの活動情報の一例として取得してもよい。

生成部３４は、会議室の中にいる複数のユーザの活動情報と、会議室の内部又は外部の環境依存情報と、に基づいて、後述するように音データを生成する。生成部３４は、環境依存情報を使用せず、会議室の中にいる複数のユーザの活動情報に基づいて、後述するように音データを生成してもよい。音出力制御部３６は、生成した音データに応じた環境音を情報処理端末２２の出力部１０２又はスピーカ１６の出力部１１０に出力させるように制御する。

記憶部５０は、例えば図６～図１１に示すような予約情報５２、音源情報５４、音数情報５６、拍数情報５８、音色情報６０、及びメロディ情報６２をテーブル形式で記憶している。

なお、予約情報５２、音源情報５４、音数情報５６、拍数情報５８、音色情報６０、及びメロディ情報６２は、必ずしも図６～図１１に示すテーブル形式である必要はなく、同様の情報を記憶して管理できていればよい。

図６は予約情報の一例の構成図である。図６の予約情報は項目として、予約ＩＤ、部屋ＩＤ、予約時間、及び参加ユーザを有する。予約ＩＤは予約情報を識別する識別情報の一例である。部屋ＩＤは予約情報により予約されている会議室の識別情報の一例である。予約時間は予約情報により予約されている会議の日時情報の一例である。参加ユーザは予約情報により予約されている会議の参加者情報の一例である。

例えば図６の例では、第１のレコードとして、予約時間が「２０２２／０１／１２１３：００～１４：００」であり、参加ユーザが「ユーザ１、ユーザ２、ユーザ３、ユーザ４」である部屋ＩＤ「ｒｏｏｍ００１」で開催予定の会議の予定情報が登録されている。

図７は音源情報の一例の構成図である。図７の音源情報は項目として、予約ＩＤ、複数の時間帯Ａ～Ｄ、及び複数の時間帯Ａ～Ｄの割り当て音源を有する。予約ＩＤは予約情報を識別する識別情報の一例である。複数の時間帯Ａ～Ｄは会議の予約時間を４つに分けた時間帯の情報の一例である。例えば図７の例では、第１のレコードの時間帯として、時間帯Ａ「１３：００～１３：１０」と時間帯Ｂ「１３：１０～１３：３０」と時間帯Ｃ「１３：３０～１３：５０」と時間帯Ｄ「１３：５０～１４：００」とに分けている。例えば図７は予約時間を時間帯Ａ「１７％」と時間帯Ｂ「３３％」と時間帯Ｃ「３３％」と時間帯Ｄ「１７％」となるように分けた例である。図７は一例であって、複数の時間帯の数及び割合を限定するものではない。

また、複数の時間帯Ａ～Ｄには音源セットが割り当てられる。音源セットは複数の時間帯Ａ～Ｄに自動で割り当てられるようにしてもよいし、会議の管理者などが割り当てるようにしてもよい。

図８は音数情報の一例の構成図である。図８の音数情報は項目として、音数クラス、発話量、及び音数を有する。音数クラスはクラス分けのための識別情報の一例である。発話量は、会議室の中にいるユーザの発話の頻度を表した情報の一例である。図８では一例として、会議室の中にいるユーザの少なくとも一人が発話している状態（会議室に発話者がいる状態）が、所定時間（例えば直近６０秒など）の間で何秒であったかで発話量を表している。音数は環境音において重ねて使用する音の数を表している。

図８の音数情報によれば、会議室に発話者がいる状態が長いほど、音数クラスが上がるため、環境音で重ねて使用する音の数が多くなる。図８の音数情報によれば、会議室に発話者がいる状態が短いほど、音数クラスが下がるため、環境音で重ねて使用する音の数が少なくなる。

図９は拍数情報の一例の構成図である。図９の拍数情報は項目として、拍数クラス、発話者変更頻度、及び拍数を有する。拍数クラスは、クラス分けのための識別情報の一例である。発話者変更頻度は、会議室の中の複数のユーザの会話の活発度を、発話者の変更頻度で表した情報の一例である。図９では一例として、発話者の変更頻度を、所定時間（例えば直近６０秒など）の間で発話者が変更した回数により表している。拍数は環境音で使用するビート（Ｂｅａｔ）を表している。

図９の拍数情報によれば、発話者の変更頻度が高いほど、拍数クラスが上がるため、環境音の拍数が増加する。図９の拍数情報によれば、発話者の変更頻度が低いほど、拍数クラスが下がるため、環境音の拍音が減少する。

図１０は、音色情報の一例の構成図である。図１０の音色情報は項目として、音色クラス、天気情報、及び音色を有する。音色クラスは、クラス分けのための識別情報の一例である。天気情報は、会議室の外部の環境依存情報の一例である。図１０の例では、会議室の外部の天気を例えば晴れ、曇り、雨などで表している。音色は環境音で使用する音色を表している。

図１０の音色情報によれば、会議室の外部の天気によって、環境音で使用する音色を変更できる。なお、図７に示した時間帯Ａ～Ｄの全てで、図１０の音色情報によって音色を変更してもよいし、時間帯Ａ～Ｄの一部（例えば時間帯Ａ及びＤなど）で、図１０の音色情報によって音色を変更してもよい。

図１１はメロディ情報の一例の構成図である。図１１のメロディ情報は項目として、参加ユーザ及びメロディを有する。参加ユーザは、予約情報により予約されている会議の参加者を表した情報の一例である。メロディは環境音で参加ユーザごとに割り当てたリフレイン（繰り返し）演奏に使用するメロディを示す情報の一例である。

図１１のメロディ情報によれば、会議に参加している特定のユーザが連続して発話している状態が所定時間以上となった場合に、発話しているユーザに割り当てたメロディを環境音で使用できる。

＜処理＞
本実施形態に係る情報処理システム１は、例えば図１２に示すような手順で会議室に環境音を出力する。図１２は、本実施形態に係る情報処理システムの処理手順を示した一例のフローチャートである。

ステップＳ１００において、本実施形態に係る情報処理システム１では、会議の主催者などのユーザが事前準備を行う。事前準備は、情報処理装置１０の記憶部５０において記憶される図６の予約情報の登録、図７の音源情報の設定、図８の音数情報の設定、図９の拍数情報の設定、図１０の音色情報の設定、及び図１１のメロディ情報の設定などである。これらの情報の登録や設定は、ユーザが情報処理端末２２を用いて情報処理装置１０にアクセスし、情報処理装置１０の通信部４２が情報処理端末２２からの操作情報を受信することで、記憶部５０に記憶される各種情報を変更、追加又は削除の何れかの処理を実行できる。なお、図７の音源情報の設定、図８の音数情報の設定、図９の拍数情報の設定、図１０の音色情報の設定、及び図１１のメロディ情報の設定は、図６の予約情報の登録に基づき、情報処理装置１０が自動で設定してもよい。

ステップＳ１０２において、本実施形態に係る情報処理システム１では、図６の予約情報に従って会議が開始されたことを情報処理装置１０が判断する。会議の開始の判断は、会議の主催者などのユーザが情報処理端末２２に対して入力した操作入力に基づく情報を情報処理装置１０の通信部４２が受信し、受信した情報に基づいて判断してもよいし、会議室の中にいるユーザやユーザの動きを検知することで判断してもよい。また、ユーザが発生した音声に対応するマイク２０又はマイク６１５の出力信号に基づいて情報処理装置１０が判断してもよい。なお、ここでは会議の開始を判断しているが、セミナー、打ち合わせ、議論、会話、プレゼンテーション又はブレインストーミングなど、ユーザのやり取りが開始されたことを判断してもよい。

ステップＳ１０４において、本実施形態に係る情報処理システム１では、取得部３２が会議室の中にいる複数のユーザの活動情報を取得する。ステップＳ１０４で取得部３２が取得するユーザの活動情報は、例えば会議室の中にいる複数のユーザの発話量、発話者変更頻度、会議室の中で連続して所定時間以上、話し続けているユーザの情報である。

ステップＳ１０６において、本実施形態に係る情報処理システム１では、取得部３２が会議室の内部又は外部の環境依存情報を取得する。ここでは、取得部３２が外部サーバからＡＰＩを使用して会議室の外部の天気情報を取得するものとして説明するが、それ以外の方法によって天気情報を取得してもよい。

ステップＳ１０８において、本実施形態に係る情報処理システム１では、ステップＳ１０４で取得した会議室の中にいる複数のユーザの活動情報と、ステップＳ１０６で取得した天気情報と、に基づいて、生成部３４が例えば図１３に示すような手順で音データを生成する。

図１３は音データを生成する処理の一例のフローチャートである。ステップＳ２００において、生成部３４は図６の予約情報及び図７の音源情報に基づき、会議の予約時間の時間帯Ａ～Ｄに対して割り当てる音源セットを決定する。

ステップＳ２０２において、生成部３４は図８の音数情報に基づき、会議室の中にいる複数のユーザの発話量から、環境音で重ねて使用する音の数を決定する。ステップＳ２０４において、生成部３４は図９の拍数情報に基づき、会議室の中にいる複数のユーザの発話者変更頻度から、環境音で使用する拍数を決定する。ステップＳ２０６において、生成部３４は図１０の音色情報に基づき、会議室の外部の天気情報から、環境音で使用する音色を決定する。

また、ステップＳ２０８において、生成部３４は会議に参加している特定のユーザが連続して発話している状態が所定時間以上となった場合に、その特定のユーザをリフレイン演奏するユーザと判定する。生成部３４は図１１のメロディ情報に基づき、リフレイン演奏するユーザに割り当てたメロディを決定する。

ステップＳ２１０において、生成部３４は決定した音源セット、音数、拍数、音色、及びメロディに基づいて音データを生成する。なお、音データを生成する処理は作曲処理であってもよいし、音源セット、音数、拍数、音色、及びメロディの組み合わせに対応する音データの選択処理であってもよい。

図１２のステップＳ１１０に戻り、音出力制御部３６はステップＳ１０８で生成した音データに応じた環境音を情報処理端末２２の出力部１０２又はスピーカ１６の出力部１１０に出力させるように制御する。環境音は、サウンド、ミュージック、音声、ホワイトノイズなどの音を含む。なお、複数のスピーカ１６から個別の音を出力できる場合は、会議室の中にいる複数のユーザごとに、個別の環境音を出力してもよい。

このように、本実施形態に係る情報処理システム１では、複数のユーザが中にいる会議室に、ユーザ同士の会話の状況などに応じて変化する環境音を出力できる。ステップＳ１０８の音データの生成に使用する音源セット、音数、拍数、音色、及びメロディを、会議室の中にいるユーザの状況に適した環境音が出力されるように設定しておくことで、本実施形態に係る情報処理システム１は会議室のユーザ同士のやり取りに適した環境音を出力できる。

例えば本実施形態に係る情報処理システム１は、会議室の中にいる複数のユーザの発話量及び発話者変更頻度が大きいほど会議の参加ユーザの緊張度が高いと仮定して、緊張している複数のユーザに適した環境音を会議室に出力できる。本実施形態に係る情報処理システム１は、会議室の中にいる複数のユーザの発話量及び発話者変更頻度が小さいほど会議の参加ユーザのリラックス度が高いと仮定して、リラックスしている複数のユーザに適した環境音を会議室に出力できる。

ステップＳ１０４～Ｓ１１２の処理は会議が終了するまで繰り返される。会議が終了すると、ステップＳ１１４の処理に進み、音出力制御部３６は情報処理端末２２の出力部１０２又はスピーカ１６の出力部１１０からの環境音の出力を終了する。

［第２の実施形態］
第１の実施形態はユーザの活動情報の一例として、会議室の中にいる複数のユーザの発話量、及び会議室の中にいる複数のユーザの発話者変更頻度を説明した。第２の実施形態はユーザの活動情報が、会議室の中にいる複数のユーザの姿勢の変化量、及び会議室の中にいる複数のユーザの姿勢変更頻度の例である。ユーザの活動情報は、会議室の中にいる複数のユーザの発話量、会議室の中にいる複数のユーザの発話者変更頻度、会議室の中にいる複数のユーザの姿勢の変化量、及び会議室の中にいる複数のユーザの姿勢変更頻度であってもよい。

会議室の中にいる複数のユーザの姿勢の変化量は、カメラ１８が撮影した映像データに対する画像処理により認識されたユーザの姿勢バウンディングボックスの体積の変化量から計測できる。例えば姿勢バウンディングボックスは、ユーザが存在する位置をＫｉｎｅｃｔ（登録商標）のビデオカメラから３次元の点群で取得し、その３次元の点群の境界又は囲みボックスから決定できる。

会議室の中にいる複数のユーザの姿勢変更頻度は、カメラ１８が撮影した映像データに対する画像処理により認識されたユーザの姿勢バウンディングボックスの体積が所定割合以上、変化した回数から計測できる。

第２の実施形態に係る情報処理システム１では、音数情報５６、拍数情報５８、及び音色情報６０を、例えば図１４～図１６に示すように構成する。図１４は音数情報の一例の構成図である。図１５は拍数情報の一例の構成図である。図１６は、音色情報の一例の構成図である。

図１４の音数情報は項目として、音数クラス、姿勢情報、及び音数を有する。音数クラスはクラス分けのための識別情報の一例である。姿勢情報は会議室の中の複数のユーザの姿勢の変化量を表した情報の一例である。図１４では一例として、会議室の中にいる複数のユーザの直近６０秒の姿勢バウンディングボックスの体積の変化量で、姿勢情報を表している。音数は環境音において重ねて使用する音の数を表している。

図１４の音数情報によれば、会議室の中にいる複数のユーザの姿勢の変化量が大きいほど、音数クラスが上がるため、環境音で重ねて使用する音の数が多くなる。図１４の音数情報によれば、会議室の中にいる複数のユーザの姿勢の変化量が小さいほど、音数クラスが下がるため、環境音で重ねて使用する音の数が少なくなる。

図１５の拍数情報は項目として、拍数クラス、姿勢変更頻度、及び拍数を有する。拍数クラスは、クラス分けのための識別情報の一例である。姿勢変更頻度は、会議室の中の複数のユーザの姿勢の変更頻度を表した情報の一例である。図１５では一例として、会議室の中の複数のユーザの姿勢の変更頻度を、会議室の中にいる複数のユーザの直近６０秒の姿勢バウンディングボックスの体積が所定割合以上、変化した回数により表している。拍数は環境音で使用するビート（Ｂｅａｔ）を表している。

図１５の拍数情報によれば、会議室の中の複数のユーザの姿勢の変更頻度が高いほど拍数クラスが上がるため、環境音の拍数が増加する。図１５の拍数情報によれば、会議室の中の複数のユーザの姿勢の変更頻度が低いほど、拍数クラスが下がるため、環境音の拍音が減少する。

図１６の音色情報は項目として、音色クラス、気温情報、及び音色を有する。音色クラスは、クラス分けのための識別情報の一例である。気温情報は、会議室の外部又は内部の環境依存情報の一例である。図１６は、会議室の外部又は内部の気温を低い、普通、及び高いで表す情報の一例である。音色は環境音で使用する音色を表している。

図１６の音色情報によれば、会議室の外部又は内部の気温によって、環境音で使用する音色を変更できる。

第２の実施形態に係る情報処理システム１は、前述の図１２に示したような手順で会議室に環境音を出力する。ステップＳ１００において、第２の実施形態に係る情報処理システム１では、会議の主催者などのユーザが事前準備を行う。事前準備は、情報処理装置１０の記憶部５０において記憶される図６の予約情報の登録、図７の音源情報の設定、図１４の音数情報の設定、図１５の拍数情報の設定、図１６の音色情報の設定、及び図１１のメロディ情報の設定などである。これらの情報の登録や設定は、ユーザが情報処理端末２２を用いて情報処理装置１０にアクセスし、情報処理装置１０の通信部４２が情報処理端末２２からの操作情報を受信することで、記憶部５０に記憶される各種情報を変更、追加又は削除の何れかの処理を実行できる。

なお、図７の音源情報の設定、図１４の音数情報の設定、図１５の拍数情報の設定、図１６の音色情報の設定、及び図１１のメロディ情報の設定は、図６の予約情報の登録に基づき、情報処理装置１０が自動で設定してもよい。

ステップＳ１０２において、第２の実施形態に係る情報処理システム１では、図６の予約情報に従って会議が開始されたことを情報処理装置１０が判断する。会議の開始の判断は、会議の主催者などのユーザが情報処理端末２２に対して入力した操作入力に基づく情報を情報処理装置１０の通信部４２が受信し、受信した情報に基づいて判断してもよい。会議の開始の判断は、会議室の中にいるユーザやユーザの動きを検知することで判断してもよい。また、ユーザが発生した音声に対応するマイク２０又はマイク６１５の出力信号に基づいて情報処理装置１０が判断してもよい。なお、ここでは会議の開始を判断しているが、セミナー、打ち合わせ、議論、会話、プレゼンテーション又はブレインストーミングなど、ユーザのやり取りが開始されたことを判断してもよい。ステップＳ１０４において、第２の実施形態に係る情報処理システム１では、取得部３２が会議室の中にいる複数のユーザの活動情報を取得する。第２の実施形態のステップＳ１０４で取得部３２が取得するユーザの活動情報は、例えば会議室の中にいる複数のユーザの姿勢の変化量、及び会議室の中にいる複数のユーザの姿勢変更頻度、会議室の中で連続して所定時間以上、話し続けているユーザの情報である。

ステップＳ１０６において、第２の実施形態に係る情報処理システム１では、取得部３２が会議室の内部又は外部の環境依存情報を取得する。ここでは、取得部３２が会議室の外部又は内部の気温情報を取得するものとして説明する。

ステップＳ１０８において、第２の実施形態に係る情報処理システム１では、ステップＳ１０４で取得した会議室の中にいる複数のユーザの活動情報と、ステップＳ１０６で取得した気温情報と、に基づいて、生成部３４が例えば図１７に示すような手順で音データを生成する。

図１７は音データを生成する処理の一例のフローチャートである。ステップＳ３００において、生成部３４は図６の予約情報及び図７の音源情報に基づき、会議の予約時間の時間帯Ａ～Ｄに対して割り当てる音源セットを決定する。

ステップＳ３０２において生成部３４は図１４の音数情報に基づき、会議室の中にいる複数のユーザの姿勢情報から、環境音で重ねて使用する音の数を決定する。ステップＳ３０４において、生成部３４は図１５の拍数情報に基づき、会議室の中にいる複数のユーザの姿勢変更頻度から、環境音で使用する拍数を決定する。ステップＳ３０６において、生成部３４は図１６の音色情報に基づき、会議室の外部又は内部の気温情報から、環境音で使用する音色を決定する。

また、ステップＳ３０８において、生成部３４は会議に参加している特定のユーザが連続して発話している状態が所定時間以上となった場合に、その特定のユーザをリフレイン演奏するユーザと判定する。生成部３４は図１１のメロディ情報に基づき、リフレイン演奏するユーザに割り当てたメロディを決定する。

ステップＳ３１０において、生成部３４は決定した音源セット、音数、拍数、音色、及びメロディに基づいて音データを生成する。図１２のステップＳ１１０に戻り、音出力制御部３６はステップＳ１０８で生成した音データに応じた環境音を情報処理端末２２の出力部１０２又はスピーカ１６の出力部１１０に出力させるように制御する。

このように、第２の実施形態に係る情報処理システム１では、複数のユーザが中にいる会議室に、複数のユーザの姿勢の変化の状況などに応じて変化する環境音を出力することができる。

ステップＳ１０８の音データの生成に使用する音源セット、音数、拍数、音色、及びメロディを、会議室の中にいる複数のユーザの姿勢の変化の状況に適した環境音が出力されるように設定しておくことにより、第２の実施形態に係る情報処理システム１は会議室のユーザ同士のやり取りに適した環境音を出力できる。例えば第２の実施形態に係る情報処理システム１は、会議室の中にいる複数のユーザの姿勢の変化量が大きいほど会議の参加ユーザの緊張度が高いと仮定して、緊張度の高い複数のユーザに適した環境音を会議室に出力できる。

［第３の実施形態］
第１の実施形態に係る情報処理システム１は、会議室の中にいる複数のユーザが会話を行う例を示した。第３の実施形態に係る情報処理システム２はオンライン会議中の複数のユーザが会話を行う例について説明する。

＜システム構成＞
図１８は、本実施形態に係る情報処理システムの一例の構成図である。図１８の情報処理システム２は、情報処理装置１０、及び情報処理端末２２がインターネットやＬＡＮなどのネットワークＮを介して通信可能に有線又は無線接続されている。

情報処理端末２２は複数のユーザがオンライン会議に参加する為に使用するデバイスである。例えば情報処理端末２２は、ノートＰＣ、携帯電話、スマートフォン、タブレット端末、ゲーム機、ＰＤＡ、デジタルカメラ、ウェアラブルＰＣ、デスクトップＰＣ、会議室の専用のデバイス等である。

情報処理端末２２のマイクは、ユーザの声を電気信号に変換する。情報処理端末２２のマイクは、ユーザの声から変換した電気信号を、出力信号として情報処理装置１０に送信する。情報処理端末２２のスピーカは、電気信号を物理信号に変えて環境音などの音を出力する。情報処理端末２２のスピーカは、情報処理装置１０の制御により環境音などの音を出力する。情報処理端末２２のマイクは、入力装置の一例である。情報処理端末２２のスピーカは、出力装置の一例である。

情報処理装置１０は、情報処理端末２２のマイクからの出力信号などに基づき、オンライン会議中のユーザ同士のやり取り（会話、会議などのインタラクション）に適した環境音を後述のように出力する。

なお、図１８に示す情報処理システム２の構成は一例である。情報処理装置１０は単一のコンピュータ又は複数台のコンピュータにより実現してもよく、又、クラウドサービスを利用して実現してもよい。

情報処理装置１０は、プロジェクタ、電子黒板機能を有する表示装置、デジタルサイネージ等の出力装置、ＨＵＤ装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、自動車、ノートＰＣ、携帯電話、スマートフォン、タブレット端末、ゲーム機、ＰＤＡ、デジタルカメラ、ウェアラブルＰＣ、又はデスクトップＰＣ等であってもよい。

本実施形態に係る情報処理システム２は、例えば図１９に示すような機能構成により実現される。図１９は本実施形態に係る情報処理システムの一例の機能構成図である。図１９の機能構成は、第３の実施形態の説明に不要な構成について適宜省略している。

図１９の情報処理装置１０は、映像表示制御部３０、取得部３２、生成部３４、音出力制御部３６、認証処理部３８、通信部４２、及び記憶部５０を有する構成である。記憶部５０は、予約情報５２、音源情報５４、音数情報５６、拍数情報５８、音色情報６０、及びメロディ情報を記憶している。

情報処理端末２２の出力信号送信部１００は情報処理端末２２を操作するユーザの声からマイク６１５が変換した電気信号を出力信号として情報処理装置１０に送信する。情報処理端末２２の出力部１０２は、情報処理装置１０から受信した音データに応じて環境音などの音を出力する。なお、図１９に示した出力信号送信部１００は、入力装置の一例である。出力部１０２は、出力装置の一例である。

情報処理装置１０の通信部４２は、情報処理端末２２の出力信号送信部１００から、情報処理端末２２を操作するユーザの声からマイク６１５が変換した電気信号を出力信号として受信する。また、通信部４２は情報処理端末２２がユーザから受け付けた操作信号を受信する。

認証処理部３８は、情報処理端末２２を操作するユーザの認証処理を行う。映像表示制御部３０はオンライン会議において情報処理端末２２が表示する共有画面などの映像を制御する。

取得部３２はオンライン会議中のユーザの活動情報を取得する。取得部３２が取得するユーザの活動情報の一例はオンライン会議中の複数のユーザの発話量である。また、取得部３２が取得するユーザの活動情報の一例は、オンライン会議中の複数のユーザの発話者変更頻度である。また、取得部３２が取得するユーザの活動情報の一例は、オンライン会議中に連続して所定時間以上、話し続けているユーザの情報である。発話量、発話者変更頻度、及び話し続けているユーザの情報は、マイク６１５の出力信号から計測できる。

また、取得部３２は情報処理端末２２の付近の天気、気温、温度、湿度、照度、機器の動作音、騒音、又は時間帯などの環境依存情報を取得する。生成部３４は、オンライン会議中の複数のユーザの活動情報と、情報処理端末２２の付近の環境依存情報と、に基づいて、後述するように音データを生成する。生成部３４は、環境依存情報を使用せず、オンライン会議中の複数のユーザの活動情報に基づいて、後述するように音データを生成してもよい。音出力制御部３６は、生成した音データに応じた環境音を情報処理端末２２の出力部１０２に出力させるように制御する。

記憶部５０は、例えば図６～図９、図１１、及び図２０に示す予約情報５２、音源情報５４、音数情報５６、拍数情報５８、音色情報６０、及びメロディ情報６２をテーブル形式で記憶している。

予約情報５２、音源情報５４、音数情報５６、拍数情報５８、及びメロディ情報６２は第１の実施形態と一部を除いて同一であるため、同一部分の説明を省略する。

図６の予約情報の部屋ＩＤは予約情報により予約されているオンライン会議の識別情報の一例である。予約時間は予約情報により予約されているオンライン会議の日時情報の一例である。参加ユーザは予約情報により予約されているオンライン会議の参加者情報の一例である。図７の音源情報の複数の時間帯Ａ～Ｄはオンライン会議の予約時間を４つに分けた時間帯の情報の一例である。

図８は音数情報の発話量は、オンライン会議中のユーザの発話の頻度を表した情報の一例である。図８では一例として、オンライン会議中のユーザの少なくとも一人が発話している状態が、所定時間（例えば直近６０秒など）の間で何秒であったかで発話量を表している。

図９は拍数情報の発話者変更頻度は、オンライン会議中の複数のユーザの会話の活発度を、発話者の変更頻度で表した情報の一例である。図９では一例として、オンライン会議における発話者の変更頻度を、所定時間（例えば直近６０秒など）の間で発話者が変更した回数により表している。

図２０は、音色情報の一例の構成図である。図２０の音色情報は項目として、音色クラス、画面変化量、及び音色を有する。音色クラスは、クラス分けのための識別情報の一例である。画面変化量は、オンライン会議中の複数のユーザが操作する情報処理端末２２の画面の変化頻度を表した情報の一例である。図２０では一例として、オンライン会議中の複数のユーザが操作する情報処理端末２２の画面の変化頻度を、オンライン会議中の複数のユーザが操作する情報処理端末２２の直近６０秒の画面が所定割合以上、変化した回数により表している。音色は環境音で使用する音色を表している。図２０の音色情報によれば、オンライン会議中の複数のユーザが操作する情報処理端末２２の画面の変化頻度によって、環境音で使用する音色を変更できる。

図１１のメロディ情報の参加ユーザは、予約情報により予約されているオンライン会議の参加者を表した情報の一例である。図１１のメロディ情報によれば、オンライン会議中の特定のユーザが連続して発話している状態が所定時間以上となった場合に、発話しているユーザに割り当てたメロディを環境音で使用できる。

第３の実施形態に係る情報処理システム２は、例えば図２１に示すような手順でオンライン会議中のユーザの情報処理端末２２に環境音を出力する。図２１は、本実施形態に係る情報処理システムの処理手順を示した一例のフローチャートである。

ステップＳ４００において、第３の実施形態に係る情報処理システム２では、オンライン会議の主催者などのユーザが事前準備を行う。事前準備は、情報処理装置１０の記憶部５０において記憶される図６の予約情報の登録、図７の音源情報の設定、図８の音数情報の設定、図９の拍数情報の設定、図２０の音色情報の設定、及び図１１のメロディ情報の設定などである。これらの情報の登録や設定は、ユーザが情報処理端末２２を用いて情報処理装置１０にアクセスし、情報処理装置１０の通信部４２が情報処理端末２２からの操作情報を受信することで、記憶部５０に記憶される各種情報を変更、追加又は削除の何れかの処理を実行できる。なお、図７の音源情報の設定、図８の音数情報の設定、図９の拍数情報の設定、図２０の音色情報の設定、及び図１１のメロディ情報の設定は、図６の予約情報の登録に基づき、情報処理装置１０が自動で設定してもよい。

ステップＳ４０２において、第３の実施形態に係る情報処理システム２では、図６の予約情報に従ってオンライン会議が開始されたことを情報処理装置１０が判断する。オンライン会議の開始の判断は、オンライン会議の主催者などのユーザが情報処理端末２２に対して入力した操作入力に基づく情報を情報処理装置１０の通信部４２が受信し、受信した情報に基づいて判断してもよいし、図６の予約情報の予約時間に従って自動的に開始してもよい。

ステップＳ４０４において、第３の実施形態に係る情報処理システム２では、取得部３２がオンライン会議中の複数のユーザの活動情報を取得する。ステップＳ４０４で取得部３２が取得するユーザの活動情報は、オンライン会議中の複数のユーザの発話量、発話者変更頻度、オンライン会議中に連続して所定時間以上、話し続けているユーザの情報などである。また、ステップＳ４０４で取得部３２が取得するユーザの活動情報は、オンライン会議中の複数のユーザが操作する情報処理端末２２の画面変化量である。

ステップＳ４０６において、第２の実施形態に係る情報処理システム２では、ステップＳ４０４で取得したオンライン会議中の複数のユーザの活動情報に基づいて、生成部３４が例えば図２２に示すような手順で音データを生成する。

図２２は音データを生成する処理の一例のフローチャートである。ステップＳ５００において、生成部３４は図６の予約情報及び図７の音源情報に基づき、オンライン会議の予約時間の時間帯Ａ～Ｄに対して割り当てる音源セットを決定する。

ステップＳ５０２において、生成部３４は図８の音数情報に基づき、オンライン会議中の複数のユーザの発話量から、環境音で重ねて使用する音の数を決定する。ステップＳ４０４において、生成部３４は図９の拍数情報に基づき、オンライン会議中の複数のユーザの発話者変更頻度から、環境音で使用する拍数を決定する。

ステップＳ５０６において、生成部３４は図２０の音色情報に基づき、オンライン会議中のユーザの情報処理端末２２の画面変化量から、環境音で使用する音色を決定する。

また、ステップＳ５０８において、生成部３４はオンライン会議に参加している特定のユーザが連続して発話している状態が所定時間以上となった場合に、その特定のユーザをリフレイン演奏するユーザと判定する。生成部３４は図１１のメロディ情報に基づき、リフレイン演奏するユーザに割り当てたメロディを決定する。また、ステップＳ５１０において、生成部３４は決定した音源セット、音数、拍数、音色、及びメロディに基づいて音データを生成する。

図２１のステップＳ４０８に戻り、音出力制御部３６はステップＳ４０６で生成した音データに応じた環境音を、オンライン会議中の複数のユーザの情報処理端末２２の出力部１０２に出力させるように制御する。

このように、第３の実施形態に係る情報処理システム２では、複数のユーザが参加しているオンライン会議において、ユーザ同士の会話の状況などに応じて変化する環境音を出力できる。

ステップＳ４０６の音データの生成に使用する音源セット、音数、拍数、音色、及びメロディを、オンライン会議中のユーザの状況に適した環境音が出力されるように設定しておくことで、第３の実施形態に係る情報処理システム２はオンライン会議中のユーザ同士のやり取りに適した環境音を出力できる。

例えば第２の実施形態に係る情報処理システム２は、オンライン会議中の複数のユーザの発話量及び発話者変更頻度が大きいほどオンライン会議の参加ユーザの緊張度が高いと仮定して、緊張度の高い複数のユーザに適した環境音をオンライン会議に出力できる。

ステップＳ４０４～Ｓ４１０の処理はオンライン会議が終了するまで繰り返される。オンライン会議が終了すると、ステップＳ４１２の処理に進み、音出力制御部３６は情報処理端末２２の出力部１０２の出力部１１０からの環境音の出力を終了する。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。なお、本実施形態で説明した情報処理システム１及び２は一例であって、用途や目的に応じて様々なシステム構成例があることは言うまでもない。

上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）や従来の回路モジュール等のデバイスを含むものとする。

実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、情報処理装置１０はサーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。

さらに、情報処理装置１０は、開示された処理ステップを様々に組み合わせることもできる。情報処理装置１０の各要素は、1つの装置にまとめられていてもよいし、複数の装置に分けられていてもよい。また、情報処理装置１０が行う各処理は、情報処理端末２２で行うようにしてもよい。また、ユーザの活動情報は、例えば会議室の中にいるユーザの人数、ユーザの心拍、などであってもよい。

１、２情報処理システム
１０情報処理装置
１６スピーカ
１８カメラ
２０マイク
２２情報処理端末
３２取得部
３４生成部
３６音出力制御部
５０記憶部
５２予約情報
５４音源情報
５６音数情報
５８拍数情報
６０音色情報
６２メロディ情報
７０、８０、９０、１００出力信号送信部
１０２、１１０出力部
Ｎネットワーク

特表２０１８－５１２６０７号公報

Claims

会話を行う複数のユーザの活動情報を取得する取得手段と、
前記活動情報に基づいて音データを生成する生成手段と、
前記音データに応じた環境音を出力装置に出力させる音出力制御手段と、
を有する情報処理装置。
前記取得手段は、同一の空間の中にいる前記複数のユーザの発話量及び姿勢情報の少なくとも一方を前記活動情報として取得する
請求項１記載の情報処理装置。
前記取得手段は、通信ネットワークを介して会話を行う前記複数のユーザの発話量を前記活動情報として取得する
請求項１記載の情報処理装置。
前記取得手段は、前記複数のユーザの発話者変更頻度、前記複数のユーザが操作する情報処理端末の画面変化量、前記複数のユーザの人数、前記複数のユーザの心拍の少なくとも一つを前記活動情報として取得する
請求項２又は３記載の情報処理装置。
前記取得手段は、前記同一の空間の内部又は外部の環境依存情報を更に取得し、
前記生成手段は、前記活動情報及び前記環境依存情報に基づいて前記音データを生成する
請求項２記載の情報処理装置。
前記取得手段は、マイクからの出力信号に基づいて計測された前記複数のユーザの発話量を前記複数のユーザの前記活動情報として取得する
請求項２又は３記載の情報処理装置。
前記取得手段は、カメラからの出力信号に基づいて認識された前記複数のユーザの姿勢情報を前記複数のユーザの前記活動情報として取得する
請求項２記載の情報処理装置。
前記生成手段は、前記活動情報に基づいて前記複数のユーザの状況を判定し、前記状況に応じた環境音を前記出力装置に出力させるための前記音データを生成する
請求項１乃至７の何れか一項に記載の情報処理装置。
前記生成手段は、前記複数のユーザが時間を決めて会話を行う場合において、前記活動情報に基づいて生成する前記音データを前記時間の経過により変化させる
請求項１乃至８の何れか一項に記載の情報処理装置。
前記音出力制御手段は、前記複数のユーザがいる空間に設置されたスピーカ、及び前記複数のユーザが操作する情報処理端末の少なくとも一方を前記出力装置として、前記音データに応じた環境音を出力させる
請求項１乃至９の何れか一項に記載の情報処理装置。
前記音出力制御手段は、前記複数のユーザがいる空間に出力する前記環境音を、前記空間の部分によって変化させる
請求項２記載の情報処理装置。
前記生成手段は、前記活動情報に基づいて、音数、拍数、音色、及びメロディの少なくとも一つが異なる前記音データを生成する
請求項１乃至１１の何れか一項に記載の情報処理装置。
会話を行う複数のユーザの活動情報を取得する取得手段と、
前記活動情報に基づいて音データを生成する生成手段と、
前記音データに応じた環境音を出力装置に出力させる音出力制御手段と、
を有する情報処理システム。
入力装置、情報処理装置、及び出力装置を有する情報処理システムであって、
前記入力装置は、
会話を行う複数のユーザの活動に関する出力信号を前記情報処理装置に送信する出力信号送信手段、
を有し、
前記情報処理装置は、
前記出力信号に基づいて前記複数のユーザの活動情報を取得する取得手段と、
前記活動情報に基づいて音データを生成する生成手段と、
前記音データに応じた環境音を出力装置に出力させる音出力制御手段と、
を有し、
前記出力装置は、
前記環境音を出力する出力手段
を有する情報処理システム。
情報処理装置に、
会話を行う複数のユーザの活動情報を取得する取得手順、
前記活動情報に基づいて音データを生成する生成手順、
前記音データに応じた環境音を出力装置に出力させる音出力制御手順、
を実行させるためのプログラム。