JP2023106865A - 情報処理装置、情報処理システム、及びプログラム - Google Patents

情報処理装置、情報処理システム、及びプログラム Download PDF

Info

Publication number
JP2023106865A
JP2023106865A JP2022007840A JP2022007840A JP2023106865A JP 2023106865 A JP2023106865 A JP 2023106865A JP 2022007840 A JP2022007840 A JP 2022007840A JP 2022007840 A JP2022007840 A JP 2022007840A JP 2023106865 A JP2023106865 A JP 2023106865A
Authority
JP
Japan
Prior art keywords
information
information processing
users
output
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022007840A
Other languages
English (en)
Inventor
晴紀 村田
Haruki Murata
裕也 加藤
Hironari Kato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2022007840A priority Critical patent/JP2023106865A/ja
Priority to US18/049,369 priority patent/US20230238018A1/en
Publication of JP2023106865A publication Critical patent/JP2023106865A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • H04N21/8113Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/458Scheduling content for creating a personalised stream, e.g. by combining a locally stored advertisement with an incoming stream; Updating operations, e.g. for OS modules ; time-related management operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4661Deriving a combined profile for a plurality of end-users of the same client, e.g. for family members within a home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/201User input interfaces for electrophonic musical instruments for movement interpretation, i.e. capturing and recognizing a gesture or a specific kind of movement, e.g. to control a musical instrument
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/351Environmental parameters, e.g. temperature, ambient light, atmospheric pressure, humidity, used as input for musical purposes
    • G10H2220/355Geolocation input, i.e. control of musical parameters based on location or geographic position, e.g. provided by GPS, WiFi network location databases or mobile phone base station position databases
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/391Angle sensing for musical purposes, using data from a gyroscope, gyrometer or other angular velocity or angular movement sensing device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/395Acceleration sensing or accelerometer use, e.g. 3D movement computation by integration of accelerometer data, angle sensing with respect to the vertical, i.e. gravity sensing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • G10H2220/455Camera input, e.g. analyzing pictures from a video camera and using the analysis results as control data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2038Call context notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Neurosurgery (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】ユーザ同士のやり取りに適した環境音を出力する情報処理装置、情報処理システム及びプログラムを提供する。【解決手段】情報処理システムにおいて、情報処理装置10は、会話を行う複数のユーザの活動情報を取得する取得部と、活動情報に基づいて音データを生成する生成部と、音データに応じた環境音を出力装置に出力させる音出力制御部と、を有する。【選択図】図5

Description

本発明は、情報処理装置、情報処理システム、及びプログラムに関する。
複数のユーザが部屋等に集まって又は通信ネットワークを介して会話を行う会議などにおいて、会議を円滑に進めるためにBGM(Background Music)などの環境音を活用する技術は、従来から知られている。
また、ユーザの気分および/または挙動情報に基づいた環境バックグラウンドノイズの修正のための技術が知られている(例えば特許文献1参照)。
しかしながら、例えば会議などのユーザ同士のやり取り(インタラクション)が発生する場合に、ユーザ同士のインタラクションに適した環境音を出力する技術は、知られていない。なお、特許文献1は、ユーザ同士のインタラクションに適した環境音を出力する技術について記載されているものではない。
本発明の実施の形態は、ユーザ同士のやり取りに適した環境音を出力する情報処理装置を提供することを目的とする。
上記した課題を解決するために、本願請求項1は、会話を行う複数のユーザの活動情報を取得する取得手段と、前記活動情報に基づいて音データを生成する生成手段と、前記音データに応じた環境音を出力装置に出力させる音出力制御手段と、を有する情報処理装置であることを特徴とする。
本発明の実施の形態によれば、ユーザ同士のやり取りに適した環境音を出力することができる。
本実施形態に係る情報処理システムの一例の構成図である。 本実施形態に係る会議室の一例について説明するための図である。 本実施形態に係るコンピュータの一例のハードウェア構成図である。 本実施形態に係るスマートフォンの一例のハードウェア構成図である。 本実施形態に係る情報処理システムの一例の機能構成図である。 予約情報の一例の構成図である。 音源情報の一例の構成図である。 音数情報の一例の構成図である。 拍数情報の一例の構成図である。 音色情報の一例の構成図である。 メロディ情報の一例の構成図である。 本実施形態に係る情報処理システムの処理手順を示した一例のフローチャートである。 音データを生成する処理の一例のフローチャートである。 音数情報の一例の構成図である。 拍数情報の一例の構成図である。 音色情報の一例の構成図である。 音データを生成する処理の一例のフローチャートである。 本実施形態に係る情報処理システムの一例の構成図である。 本実施形態に係る情報処理システムの一例の機能構成図である。 音色情報の一例の構成図である。 本実施形態に係る情報処理システムの処理手順を示した一例のフローチャートである。 音データを生成する処理の一例のフローチャートである。
以下、本発明の実施形態について図面を参照しながら説明する。なお、本実施形態ではユーザ同士のやり取りが発生する例として、会議室の中にいる複数のユーザが会話を行う例、及びオンライン会議中の複数のユーザが通信ネットワークを介して会話を行う例について説明するが、会議に限定するものではない。本実施形態は、セミナー、打ち合わせ、議論、会話、プレゼンテーション、又はブレインストーミングなど、ユーザ同士のやり取りが発生する様々な場面に適用できる。
[第1の実施形態]
<システム構成>
図1は、本実施形態に係る情報処理システムの一例の構成図である。図2は本実施形態に係る会議室の一例について説明するための図である。図1の情報処理システム1は、情報処理装置10、映像表示装置12、センサ装置14、スピーカ16、カメラ18、マイク20、及び情報処理端末22がインターネットやLANなどのネットワークNを介して通信可能に有線又は無線接続されている。
会議室には、映像表示装置12、センサ装置14、スピーカ16、カメラ18、マイク20、及び情報処理端末22が設けられている。なお、会議室には環境依存情報の少なくとも一部を取得して情報処理装置10に通知する温度センサ、湿度センサ、照度センサ等が設けられてもよい。また、図1では情報処理装置10が会議室の外に設けられている例を示したが、会議室の中に設けられていてもよい。
例えば会議室に入るユーザはビーコン等の電波を発信するタグを持つ。会議室のセンサ装置14は会議室にいるユーザのタグから発信される電波を、ユーザの位置情報を検知するための信号として受信し、情報処理装置10に通知する。センサ装置14はユーザの位置情報を検知するための信号を出力できる測位システムのセンサであればよい。計測対象側のタグは、専用タグ、スマートフォン、又は各種BLE(Bluetooth Low Energy)センサなどである。情報処理装置10は一つ以上のセンサ装置14から通知されたユーザの位置情報を検知するための信号に基づき、会議室にいるユーザの位置情報をそれぞれ検知する。なお、上記で説明したタグは発信装置の一例であって、ユーザの位置情報を検知するための信号を発信する装置であればタグの形態でなくともよい。
情報処理端末22は会議室にいるユーザが操作するデバイスである。例えば情報処理端末22は、ノートPC(Personal Computer)、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)、デジタルカメラ、ウェアラブルPC、デスクトップPC、会議室の専用のデバイス等である。情報処理端末22はユーザが会議室に持ち込んだものであってもよいし、会議室に備え付けられているものであってもよい。
また、情報処理端末22は測位システムによる計測対象であってもよい。例えば会議室のセンサ装置14は、情報処理端末22のタグから発信される電波を受信し、情報処理装置10に通知してもよい。センサ装置14は、例えば図2に示すように、情報処理端末22を操作するユーザの会議室の中における位置情報を検知するための信号を、情報処理装置10に通知できる。なお、タグは情報処理端末22が内蔵する形態であっても、それ以外の形態であってもよい。さらに、情報処理端末22はユーザの心拍を計測するセンサが設けられていてもよく、計測したユーザの心拍を情報処理装置10に通知してもよい。
会議室のカメラ18は会議室を撮影し、撮影した映像データを出力信号として情報処理装置10に送信する。カメラ18は、例えばKinect(登録商標)のビデオカメラを利用できる。Kinect(登録商標)のビデオカメラは、距離画像センサ、赤外線センサ、及びアレイマイクを有するビデオカメラの一例である。距離画像センサ、赤外線センサ、及びアレイマイクを有するビデオカメラを利用する場合は、ユーザの動き及び姿勢を認識できる。
会議室のマイク20は、ユーザの声を電気信号に変換する。マイク20はユーザの声から変換した電気信号を、出力信号として情報処理装置10に送信する。なお、会議室のマイク20に替えて、又は会議室のマイク20と共に、情報処理端末22のマイクを利用してもよい。
会議室のスピーカ16は、電気信号を物理信号に変えて環境音などの音を出力する。スピーカ16は情報処理装置10の制御により環境音などの音を出力する。なお、会議室のスピーカ16に替えて、又は会議室のスピーカ16と共に、情報処理端末22のスピーカを利用してもよい。会議室のマイク20及び情報処理端末22のマイクは、入力装置の一例である。会議室のスピーカ16及び情報処理端末22のスピーカは、出力装置の一例である。
会議室にある複数台の映像表示装置12の一例はプロジェクタであって、図2に示すような会議室を仕切る面に画像を情報処理装置10の制御により表示できる。会議室を仕切る面は、例えば前壁、後壁、右壁、左壁、床、及び天井などである。なお、映像表示装置12は画像を表示する表示装置の一例であって、少なくとも画像を表示する機能を有する表示装置であれば適用可能である。
なお、図2の会議室の形状は一例であって、他の形状であってもよい。また、上述したように会議室は壁、床、天井等の全ての面が必ずしも仕切られている必要はなく、一部の面が仕切られていないオープンな会議室であってもよい。また、会議室は複数のユーザが中にいる同一の空間の一例であって、例えばセミナーや講義を行う部屋、ミーティングスペース、イベントスペースなど、様々な空間が含まれる。このように、本実施形態で説明する空間とは複数のユーザがいる場所や部屋を含む概念である。
情報処理装置10は、センサ装置14から通知された信号により検知したユーザの位置情報、カメラ18からの出力信号、及びマイク20からの出力信号などに基づき、会議室にいるユーザ同士のやり取り(会話、会議などのインタラクション)に適した環境音を後述のように出力する。
なお、図1に示す情報処理システム1の構成は一例である。情報処理装置10は単一のコンピュータ又は複数台のコンピュータにより実現してもよく、又、クラウドサービスを利用して実現してもよい。また、情報処理装置10は、例えば、プロジェクタ、電子黒板機能を有する表示装置、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、自動車(Connected Car)、ノートPC、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA、デジタルカメラ、ウェアラブルPCまたはデスクトップPC等であってもよい。
<ハードウェア構成>
《コンピュータ》
情報処理装置10は、例えば図3に示すハードウェア構成のコンピュータ500により実現される。また、情報処理端末22はPCである場合、例えば図3に示すハードウェア構成のコンピュータ500により実現される。
図3は、本実施形態に係るコンピュータの一例のハードウェア構成図である。図3に示されているように、コンピュータ500はCPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、HD504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、データバス510、キーボード511、ポインティングデバイス512、DVD-RW(Digital Versatile Disk Rewritable)ドライブ514、メディアI/F516を備えている。
これらのうち、CPU501は、コンピュータ500全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。
ディスプレイ506は、カーソル、メニュー、ウインドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F509は、ネットワークNを利用してデータ通信をするためのインターフェースである。データバス510は、CPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
キーボード511は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ514は、着脱可能な記録媒体の一例としてのDVD-RW513に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
《スマートフォン》
情報処理端末22は例えば図4に示すハードウェア構成のスマートフォン600により実現してもよい。なお、情報処理端末22がノートPC、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA、デジタルカメラ、ウェアラブルPC、デスクトップPC、会議室の専用のデバイス等の場合であっても、図4に示すハードウェア構成と同様のハードウェア構成で実現されてもよい。また、図4に示すハードウェア構成の一部を備えていなくともよい一方で、図4に示すハードウェア構成に対して一部の構成が追加されていてもよい。
図4は本実施形態に係るスマートフォンの一例のハードウェア構成図である。図4に示されているように、スマートフォン600は、CPU601、ROM602、RAM603、EEPROM604、CMOSセンサ605、撮像素子I/F606、加速度・方位センサ607、メディアI/F609、GPS受信部611を備えている。
これらのうち、CPU601は、スマートフォン600全体の動作を制御する。ROM602は、CPU601やIPL等のCPU601の駆動に用いられるプログラムを記憶する。RAM603は、CPU601のワークエリアとして使用される。EEPROM604は、CPU601の制御にしたがって、スマートフォン用プログラム等の各種データの読み出し又は書き込みを行う。
CMOS(Complementary Metal Oxide Semiconductor)センサ605は、CPU601の制御に従って被写体(主に自画像)を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、CMOSセンサ605ではなく、CCD(Charge Coupled Device)センサ等の撮像手段であってもよい。撮像素子I/F606は、CMOSセンサ605の駆動を制御する回路である。加速度・方位センサ607は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。
メディアI/F609は、フラッシュメモリ等の記録メディア608に対するデータの読み出し又は書き込み(記憶)を制御する。GPS受信部611は、GPS衛星からGPS信号を受信する。
また、スマートフォン600は、遠距離通信回路612、CMOSセンサ613、撮像素子I/F614、マイク615、スピーカ616、音入出力I/F617、ディスプレイ618、外部機器接続I/F619、近距離通信回路620、近距離通信回路620のアンテナ620a、及びタッチパネル621を備えている。
これらのうち、遠距離通信回路612は、ネットワークNを介して、他の機器と通信する回路である。CMOSセンサ613は、CPU601の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子I/F614は、CMOSセンサ613の駆動を制御する回路である。マイク615は、声や音を電気信号に変える内蔵型の回路である。スピーカ616は、電気信号を物理振動に変えて環境音、音楽、又は音声などの音を生み出す内蔵型の回路である。
音入出力I/F617は、CPU601の制御に従ってマイク615及びスピーカ616との間で音信号の入出力を処理する回路である。ディスプレイ618は、被写体の画像や各種アイコン等を表示する液晶や有機EL(Electro Luminescence)などの表示手段の一種である。
外部機器接続I/F619は、各種の外部機器を接続するためのインターフェースである。近距離通信回路620は、NFC(Near Field Communication)やBluetooth(登録商標)等の通信回路である。タッチパネル621は、ユーザがディスプレイ618を押下することで、スマートフォン600を操作する入力手段の一種である。
また、スマートフォン600は、バスライン610を備えている。バスライン610は図4に示されているCPU601等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
<機能構成>
本実施形態に係る情報処理システム1は、例えば図5に示すような機能構成により実現される。図5は本実施形態に係る情報処理システムの一例の機能構成図である。図5の機能構成は、本実施形態の説明に不要な構成について適宜省略している。
図5の情報処理装置10は、映像表示制御部30、取得部32、生成部34、音出力制御部36、認証処理部38、ユーザ検知部40、通信部42、及び記憶部50を有する構成である。記憶部50は、後述の予約情報52、音源情報54、音数情報56、拍数情報58、音色情報60、及びメロディ情報62を記憶している。
センサ装置14は出力信号送信部70を有する構成である。スピーカ16は出力部110を有する構成である。カメラ18は出力信号送信部80を有する構成である。マイク20は出力信号送信部90を有する構成である。情報処理端末22は出力信号送信部100及び出力部102を有する構成である。
センサ装置14の出力信号送信部70は、会議室の中にいる複数のユーザを検知するための信号を出力信号として情報処理装置10に送信する。カメラ18の出力信号送信部80は、会議室の中を撮影した撮影結果を出力信号として情報処理装置10に送信する。マイク20の出力信号送信部90は、会議室の中にいる複数のユーザの声から変換した電気信号を出力信号として情報処理装置10に送信する。
また、情報処理端末22の出力信号送信部100は、その情報処理端末22を操作するユーザの声からマイク615が変換した電気信号を出力信号として情報処理装置10に送信する。情報処理端末22の出力部102は、情報処理装置10から受信した音データに応じて環境音などの音を出力する。スピーカ16の出力部110は、情報処理装置10から受信した音データに応じて環境音などの音を出力する。
なお、図5に示した出力信号送信部70、80、90、及び100は、入力装置の一例である。出力部102及び110は、出力装置の一例である。
情報処理装置10の通信部42は、センサ装置14の出力信号送信部70から、ユーザの位置情報を検知するための信号を受信する。通信部42はカメラ18の出力信号送信部80から会議室の中を撮影した撮影結果を出力信号として受信する。通信部42はマイク20の出力信号送信部90から、会議室の中にいる複数のユーザの声から変換した電気信号を出力信号として受信する。通信部42は情報処理端末22の出力信号送信部100から、情報処理端末22を操作するユーザの声からマイク615が変換した電気信号を出力信号として受信する。また、通信部42は情報処理端末22がユーザから受け付けた操作信号を受信する。
ユーザ検知部40は、センサ装置14から受信したユーザの位置情報を検知するための信号から、会議室の中にいるユーザを検知する。また、ユーザ検知部40は会議室の中にいるユーザの位置情報を検知する。認証処理部38は、会議室の中にいるユーザの認証処理を行う。映像表示制御部30は映像表示装置12が表示する映像を制御する。
取得部32は、会議室の中にいるユーザの活動情報を取得する。取得部32が取得するユーザの活動情報の一例は、会議室の中にいる複数のユーザの発話量である。また、取得部32が取得するユーザの活動情報の一例は、会議室の中にいる複数のユーザの発話者変更頻度である。また、取得部32が取得するユーザの活動情報の一例は、会議室の中で連続して所定時間以上、話し続けているユーザの情報である。発話量、発話者変更頻度、及び話し続けているユーザの情報は、マイク20又はマイク615の出力信号から計測できる。
また、取得部32は会議室の内部又は外部の環境依存情報を取得する。取得部32が取得する環境依存情報の一例は、天気、気温、温度、湿度、照度、機器の動作音、騒音、又は時間帯などである。例えば取得部32はインターネット等で公開されている天気、気温などの環境依存情報を、環境依存情報を提供する外部のサーバに対して要求を送信することで外部サーバから取得してもよい。外部サーバから取得する際にAPI(Application Programming Interface)が提供されていればAPIを使用して取得してもよい。取得部32は会議室の中にいるユーザの心拍の情報をユーザの活動情報の一例として取得してもよい。
生成部34は、会議室の中にいる複数のユーザの活動情報と、会議室の内部又は外部の環境依存情報と、に基づいて、後述するように音データを生成する。生成部34は、環境依存情報を使用せず、会議室の中にいる複数のユーザの活動情報に基づいて、後述するように音データを生成してもよい。音出力制御部36は、生成した音データに応じた環境音を情報処理端末22の出力部102又はスピーカ16の出力部110に出力させるように制御する。
記憶部50は、例えば図6~図11に示すような予約情報52、音源情報54、音数情報56、拍数情報58、音色情報60、及びメロディ情報62をテーブル形式で記憶している。
なお、予約情報52、音源情報54、音数情報56、拍数情報58、音色情報60、及びメロディ情報62は、必ずしも図6~図11に示すテーブル形式である必要はなく、同様の情報を記憶して管理できていればよい。
図6は予約情報の一例の構成図である。図6の予約情報は項目として、予約ID、部屋ID、予約時間、及び参加ユーザを有する。予約IDは予約情報を識別する識別情報の一例である。部屋IDは予約情報により予約されている会議室の識別情報の一例である。予約時間は予約情報により予約されている会議の日時情報の一例である。参加ユーザは予約情報により予約されている会議の参加者情報の一例である。
例えば図6の例では、第1のレコードとして、予約時間が「2022/01/12 13:00~14:00」であり、参加ユーザが「ユーザ1、ユーザ2、ユーザ3、ユーザ4」である部屋ID「room001」で開催予定の会議の予定情報が登録されている。
図7は音源情報の一例の構成図である。図7の音源情報は項目として、予約ID、複数の時間帯A~D、及び複数の時間帯A~Dの割り当て音源を有する。予約IDは予約情報を識別する識別情報の一例である。複数の時間帯A~Dは会議の予約時間を4つに分けた時間帯の情報の一例である。例えば図7の例では、第1のレコードの時間帯として、時間帯A「13:00~13:10」と時間帯B「13:10~13:30」と時間帯C「13:30~13:50」と時間帯D「13:50~14:00」とに分けている。例えば図7は予約時間を時間帯A「17%」と時間帯B「33%」と時間帯C「33%」と時間帯D「17%」となるように分けた例である。図7は一例であって、複数の時間帯の数及び割合を限定するものではない。
また、複数の時間帯A~Dには音源セットが割り当てられる。音源セットは複数の時間帯A~Dに自動で割り当てられるようにしてもよいし、会議の管理者などが割り当てるようにしてもよい。
図8は音数情報の一例の構成図である。図8の音数情報は項目として、音数クラス、発話量、及び音数を有する。音数クラスはクラス分けのための識別情報の一例である。発話量は、会議室の中にいるユーザの発話の頻度を表した情報の一例である。図8では一例として、会議室の中にいるユーザの少なくとも一人が発話している状態(会議室に発話者がいる状態)が、所定時間(例えば直近60秒など)の間で何秒であったかで発話量を表している。音数は環境音において重ねて使用する音の数を表している。
図8の音数情報によれば、会議室に発話者がいる状態が長いほど、音数クラスが上がるため、環境音で重ねて使用する音の数が多くなる。図8の音数情報によれば、会議室に発話者がいる状態が短いほど、音数クラスが下がるため、環境音で重ねて使用する音の数が少なくなる。
図9は拍数情報の一例の構成図である。図9の拍数情報は項目として、拍数クラス、発話者変更頻度、及び拍数を有する。拍数クラスは、クラス分けのための識別情報の一例である。発話者変更頻度は、会議室の中の複数のユーザの会話の活発度を、発話者の変更頻度で表した情報の一例である。図9では一例として、発話者の変更頻度を、所定時間(例えば直近60秒など)の間で発話者が変更した回数により表している。拍数は環境音で使用するビート(Beat)を表している。
図9の拍数情報によれば、発話者の変更頻度が高いほど、拍数クラスが上がるため、環境音の拍数が増加する。図9の拍数情報によれば、発話者の変更頻度が低いほど、拍数クラスが下がるため、環境音の拍音が減少する。
図10は、音色情報の一例の構成図である。図10の音色情報は項目として、音色クラス、天気情報、及び音色を有する。音色クラスは、クラス分けのための識別情報の一例である。天気情報は、会議室の外部の環境依存情報の一例である。図10の例では、会議室の外部の天気を例えば晴れ、曇り、雨などで表している。音色は環境音で使用する音色を表している。
図10の音色情報によれば、会議室の外部の天気によって、環境音で使用する音色を変更できる。なお、図7に示した時間帯A~Dの全てで、図10の音色情報によって音色を変更してもよいし、時間帯A~Dの一部(例えば時間帯A及びDなど)で、図10の音色情報によって音色を変更してもよい。
図11はメロディ情報の一例の構成図である。図11のメロディ情報は項目として、参加ユーザ及びメロディを有する。参加ユーザは、予約情報により予約されている会議の参加者を表した情報の一例である。メロディは環境音で参加ユーザごとに割り当てたリフレイン(繰り返し)演奏に使用するメロディを示す情報の一例である。
図11のメロディ情報によれば、会議に参加している特定のユーザが連続して発話している状態が所定時間以上となった場合に、発話しているユーザに割り当てたメロディを環境音で使用できる。
<処理>
本実施形態に係る情報処理システム1は、例えば図12に示すような手順で会議室に環境音を出力する。図12は、本実施形態に係る情報処理システムの処理手順を示した一例のフローチャートである。
ステップS100において、本実施形態に係る情報処理システム1では、会議の主催者などのユーザが事前準備を行う。事前準備は、情報処理装置10の記憶部50において記憶される図6の予約情報の登録、図7の音源情報の設定、図8の音数情報の設定、図9の拍数情報の設定、図10の音色情報の設定、及び図11のメロディ情報の設定などである。これらの情報の登録や設定は、ユーザが情報処理端末22を用いて情報処理装置10にアクセスし、情報処理装置10の通信部42が情報処理端末22からの操作情報を受信することで、記憶部50に記憶される各種情報を変更、追加又は削除の何れかの処理を実行できる。なお、図7の音源情報の設定、図8の音数情報の設定、図9の拍数情報の設定、図10の音色情報の設定、及び図11のメロディ情報の設定は、図6の予約情報の登録に基づき、情報処理装置10が自動で設定してもよい。
ステップS102において、本実施形態に係る情報処理システム1では、図6の予約情報に従って会議が開始されたことを情報処理装置10が判断する。会議の開始の判断は、会議の主催者などのユーザが情報処理端末22に対して入力した操作入力に基づく情報を情報処理装置10の通信部42が受信し、受信した情報に基づいて判断してもよいし、会議室の中にいるユーザやユーザの動きを検知することで判断してもよい。また、ユーザが発生した音声に対応するマイク20又はマイク615の出力信号に基づいて情報処理装置10が判断してもよい。なお、ここでは会議の開始を判断しているが、セミナー、打ち合わせ、議論、会話、プレゼンテーション又はブレインストーミングなど、ユーザのやり取りが開始されたことを判断してもよい。
ステップS104において、本実施形態に係る情報処理システム1では、取得部32が会議室の中にいる複数のユーザの活動情報を取得する。ステップS104で取得部32が取得するユーザの活動情報は、例えば会議室の中にいる複数のユーザの発話量、発話者変更頻度、会議室の中で連続して所定時間以上、話し続けているユーザの情報である。
ステップS106において、本実施形態に係る情報処理システム1では、取得部32が会議室の内部又は外部の環境依存情報を取得する。ここでは、取得部32が外部サーバからAPIを使用して会議室の外部の天気情報を取得するものとして説明するが、それ以外の方法によって天気情報を取得してもよい。
ステップS108において、本実施形態に係る情報処理システム1では、ステップS104で取得した会議室の中にいる複数のユーザの活動情報と、ステップS106で取得した天気情報と、に基づいて、生成部34が例えば図13に示すような手順で音データを生成する。
図13は音データを生成する処理の一例のフローチャートである。ステップS200において、生成部34は図6の予約情報及び図7の音源情報に基づき、会議の予約時間の時間帯A~Dに対して割り当てる音源セットを決定する。
ステップS202において、生成部34は図8の音数情報に基づき、会議室の中にいる複数のユーザの発話量から、環境音で重ねて使用する音の数を決定する。ステップS204において、生成部34は図9の拍数情報に基づき、会議室の中にいる複数のユーザの発話者変更頻度から、環境音で使用する拍数を決定する。ステップS206において、生成部34は図10の音色情報に基づき、会議室の外部の天気情報から、環境音で使用する音色を決定する。
また、ステップS208において、生成部34は会議に参加している特定のユーザが連続して発話している状態が所定時間以上となった場合に、その特定のユーザをリフレイン演奏するユーザと判定する。生成部34は図11のメロディ情報に基づき、リフレイン演奏するユーザに割り当てたメロディを決定する。
ステップS210において、生成部34は決定した音源セット、音数、拍数、音色、及びメロディに基づいて音データを生成する。なお、音データを生成する処理は作曲処理であってもよいし、音源セット、音数、拍数、音色、及びメロディの組み合わせに対応する音データの選択処理であってもよい。
図12のステップS110に戻り、音出力制御部36はステップS108で生成した音データに応じた環境音を情報処理端末22の出力部102又はスピーカ16の出力部110に出力させるように制御する。環境音は、サウンド、ミュージック、音声、ホワイトノイズなどの音を含む。なお、複数のスピーカ16から個別の音を出力できる場合は、会議室の中にいる複数のユーザごとに、個別の環境音を出力してもよい。
このように、本実施形態に係る情報処理システム1では、複数のユーザが中にいる会議室に、ユーザ同士の会話の状況などに応じて変化する環境音を出力できる。ステップS108の音データの生成に使用する音源セット、音数、拍数、音色、及びメロディを、会議室の中にいるユーザの状況に適した環境音が出力されるように設定しておくことで、本実施形態に係る情報処理システム1は会議室のユーザ同士のやり取りに適した環境音を出力できる。
例えば本実施形態に係る情報処理システム1は、会議室の中にいる複数のユーザの発話量及び発話者変更頻度が大きいほど会議の参加ユーザの緊張度が高いと仮定して、緊張している複数のユーザに適した環境音を会議室に出力できる。本実施形態に係る情報処理システム1は、会議室の中にいる複数のユーザの発話量及び発話者変更頻度が小さいほど会議の参加ユーザのリラックス度が高いと仮定して、リラックスしている複数のユーザに適した環境音を会議室に出力できる。
ステップS104~S112の処理は会議が終了するまで繰り返される。会議が終了すると、ステップS114の処理に進み、音出力制御部36は情報処理端末22の出力部102又はスピーカ16の出力部110からの環境音の出力を終了する。
[第2の実施形態]
第1の実施形態はユーザの活動情報の一例として、会議室の中にいる複数のユーザの発話量、及び会議室の中にいる複数のユーザの発話者変更頻度を説明した。第2の実施形態はユーザの活動情報が、会議室の中にいる複数のユーザの姿勢の変化量、及び会議室の中にいる複数のユーザの姿勢変更頻度の例である。ユーザの活動情報は、会議室の中にいる複数のユーザの発話量、会議室の中にいる複数のユーザの発話者変更頻度、会議室の中にいる複数のユーザの姿勢の変化量、及び会議室の中にいる複数のユーザの姿勢変更頻度であってもよい。
会議室の中にいる複数のユーザの姿勢の変化量は、カメラ18が撮影した映像データに対する画像処理により認識されたユーザの姿勢バウンディングボックスの体積の変化量から計測できる。例えば姿勢バウンディングボックスは、ユーザが存在する位置をKinect(登録商標)のビデオカメラから3次元の点群で取得し、その3次元の点群の境界又は囲みボックスから決定できる。
会議室の中にいる複数のユーザの姿勢変更頻度は、カメラ18が撮影した映像データに対する画像処理により認識されたユーザの姿勢バウンディングボックスの体積が所定割合以上、変化した回数から計測できる。
第2の実施形態に係る情報処理システム1では、音数情報56、拍数情報58、及び音色情報60を、例えば図14~図16に示すように構成する。図14は音数情報の一例の構成図である。図15は拍数情報の一例の構成図である。図16は、音色情報の一例の構成図である。
図14の音数情報は項目として、音数クラス、姿勢情報、及び音数を有する。音数クラスはクラス分けのための識別情報の一例である。姿勢情報は会議室の中の複数のユーザの姿勢の変化量を表した情報の一例である。図14では一例として、会議室の中にいる複数のユーザの直近60秒の姿勢バウンディングボックスの体積の変化量で、姿勢情報を表している。音数は環境音において重ねて使用する音の数を表している。
図14の音数情報によれば、会議室の中にいる複数のユーザの姿勢の変化量が大きいほど、音数クラスが上がるため、環境音で重ねて使用する音の数が多くなる。図14の音数情報によれば、会議室の中にいる複数のユーザの姿勢の変化量が小さいほど、音数クラスが下がるため、環境音で重ねて使用する音の数が少なくなる。
図15の拍数情報は項目として、拍数クラス、姿勢変更頻度、及び拍数を有する。拍数クラスは、クラス分けのための識別情報の一例である。姿勢変更頻度は、会議室の中の複数のユーザの姿勢の変更頻度を表した情報の一例である。図15では一例として、会議室の中の複数のユーザの姿勢の変更頻度を、会議室の中にいる複数のユーザの直近60秒の姿勢バウンディングボックスの体積が所定割合以上、変化した回数により表している。拍数は環境音で使用するビート(Beat)を表している。
図15の拍数情報によれば、会議室の中の複数のユーザの姿勢の変更頻度が高いほど拍数クラスが上がるため、環境音の拍数が増加する。図15の拍数情報によれば、会議室の中の複数のユーザの姿勢の変更頻度が低いほど、拍数クラスが下がるため、環境音の拍音が減少する。
図16の音色情報は項目として、音色クラス、気温情報、及び音色を有する。音色クラスは、クラス分けのための識別情報の一例である。気温情報は、会議室の外部又は内部の環境依存情報の一例である。図16は、会議室の外部又は内部の気温を低い、普通、及び高いで表す情報の一例である。音色は環境音で使用する音色を表している。
図16の音色情報によれば、会議室の外部又は内部の気温によって、環境音で使用する音色を変更できる。
第2の実施形態に係る情報処理システム1は、前述の図12に示したような手順で会議室に環境音を出力する。ステップS100において、第2の実施形態に係る情報処理システム1では、会議の主催者などのユーザが事前準備を行う。事前準備は、情報処理装置10の記憶部50において記憶される図6の予約情報の登録、図7の音源情報の設定、図14の音数情報の設定、図15の拍数情報の設定、図16の音色情報の設定、及び図11のメロディ情報の設定などである。これらの情報の登録や設定は、ユーザが情報処理端末22を用いて情報処理装置10にアクセスし、情報処理装置10の通信部42が情報処理端末22からの操作情報を受信することで、記憶部50に記憶される各種情報を変更、追加又は削除の何れかの処理を実行できる。
なお、図7の音源情報の設定、図14の音数情報の設定、図15の拍数情報の設定、図16の音色情報の設定、及び図11のメロディ情報の設定は、図6の予約情報の登録に基づき、情報処理装置10が自動で設定してもよい。
ステップS102において、第2の実施形態に係る情報処理システム1では、図6の予約情報に従って会議が開始されたことを情報処理装置10が判断する。会議の開始の判断は、会議の主催者などのユーザが情報処理端末22に対して入力した操作入力に基づく情報を情報処理装置10の通信部42が受信し、受信した情報に基づいて判断してもよい。会議の開始の判断は、会議室の中にいるユーザやユーザの動きを検知することで判断してもよい。また、ユーザが発生した音声に対応するマイク20又はマイク615の出力信号に基づいて情報処理装置10が判断してもよい。なお、ここでは会議の開始を判断しているが、セミナー、打ち合わせ、議論、会話、プレゼンテーション又はブレインストーミングなど、ユーザのやり取りが開始されたことを判断してもよい。ステップS104において、第2の実施形態に係る情報処理システム1では、取得部32が会議室の中にいる複数のユーザの活動情報を取得する。第2の実施形態のステップS104で取得部32が取得するユーザの活動情報は、例えば会議室の中にいる複数のユーザの姿勢の変化量、及び会議室の中にいる複数のユーザの姿勢変更頻度、会議室の中で連続して所定時間以上、話し続けているユーザの情報である。
ステップS106において、第2の実施形態に係る情報処理システム1では、取得部32が会議室の内部又は外部の環境依存情報を取得する。ここでは、取得部32が会議室の外部又は内部の気温情報を取得するものとして説明する。
ステップS108において、第2の実施形態に係る情報処理システム1では、ステップS104で取得した会議室の中にいる複数のユーザの活動情報と、ステップS106で取得した気温情報と、に基づいて、生成部34が例えば図17に示すような手順で音データを生成する。
図17は音データを生成する処理の一例のフローチャートである。ステップS300において、生成部34は図6の予約情報及び図7の音源情報に基づき、会議の予約時間の時間帯A~Dに対して割り当てる音源セットを決定する。
ステップS302において生成部34は図14の音数情報に基づき、会議室の中にいる複数のユーザの姿勢情報から、環境音で重ねて使用する音の数を決定する。ステップS304において、生成部34は図15の拍数情報に基づき、会議室の中にいる複数のユーザの姿勢変更頻度から、環境音で使用する拍数を決定する。ステップS306において、生成部34は図16の音色情報に基づき、会議室の外部又は内部の気温情報から、環境音で使用する音色を決定する。
また、ステップS308において、生成部34は会議に参加している特定のユーザが連続して発話している状態が所定時間以上となった場合に、その特定のユーザをリフレイン演奏するユーザと判定する。生成部34は図11のメロディ情報に基づき、リフレイン演奏するユーザに割り当てたメロディを決定する。
ステップS310において、生成部34は決定した音源セット、音数、拍数、音色、及びメロディに基づいて音データを生成する。図12のステップS110に戻り、音出力制御部36はステップS108で生成した音データに応じた環境音を情報処理端末22の出力部102又はスピーカ16の出力部110に出力させるように制御する。
このように、第2の実施形態に係る情報処理システム1では、複数のユーザが中にいる会議室に、複数のユーザの姿勢の変化の状況などに応じて変化する環境音を出力することができる。
ステップS108の音データの生成に使用する音源セット、音数、拍数、音色、及びメロディを、会議室の中にいる複数のユーザの姿勢の変化の状況に適した環境音が出力されるように設定しておくことにより、第2の実施形態に係る情報処理システム1は会議室のユーザ同士のやり取りに適した環境音を出力できる。例えば第2の実施形態に係る情報処理システム1は、会議室の中にいる複数のユーザの姿勢の変化量が大きいほど会議の参加ユーザの緊張度が高いと仮定して、緊張度の高い複数のユーザに適した環境音を会議室に出力できる。
ステップS104~S112の処理は会議が終了するまで繰り返される。会議が終了すると、ステップS114の処理に進み、音出力制御部36は情報処理端末22の出力部102又はスピーカ16の出力部110からの環境音の出力を終了する。
[第3の実施形態]
第1の実施形態に係る情報処理システム1は、会議室の中にいる複数のユーザが会話を行う例を示した。第3の実施形態に係る情報処理システム2はオンライン会議中の複数のユーザが会話を行う例について説明する。
<システム構成>
図18は、本実施形態に係る情報処理システムの一例の構成図である。図18の情報処理システム2は、情報処理装置10、及び情報処理端末22がインターネットやLANなどのネットワークNを介して通信可能に有線又は無線接続されている。
情報処理端末22は複数のユーザがオンライン会議に参加する為に使用するデバイスである。例えば情報処理端末22は、ノートPC、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA、デジタルカメラ、ウェアラブルPC、デスクトップPC、会議室の専用のデバイス等である。
情報処理端末22のマイクは、ユーザの声を電気信号に変換する。情報処理端末22のマイクは、ユーザの声から変換した電気信号を、出力信号として情報処理装置10に送信する。情報処理端末22のスピーカは、電気信号を物理信号に変えて環境音などの音を出力する。情報処理端末22のスピーカは、情報処理装置10の制御により環境音などの音を出力する。情報処理端末22のマイクは、入力装置の一例である。情報処理端末22のスピーカは、出力装置の一例である。
情報処理装置10は、情報処理端末22のマイクからの出力信号などに基づき、オンライン会議中のユーザ同士のやり取り(会話、会議などのインタラクション)に適した環境音を後述のように出力する。
なお、図18に示す情報処理システム2の構成は一例である。情報処理装置10は単一のコンピュータ又は複数台のコンピュータにより実現してもよく、又、クラウドサービスを利用して実現してもよい。
情報処理装置10は、プロジェクタ、電子黒板機能を有する表示装置、デジタルサイネージ等の出力装置、HUD装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、自動車、ノートPC、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA、デジタルカメラ、ウェアラブルPC、又はデスクトップPC等であってもよい。
本実施形態に係る情報処理システム2は、例えば図19に示すような機能構成により実現される。図19は本実施形態に係る情報処理システムの一例の機能構成図である。図19の機能構成は、第3の実施形態の説明に不要な構成について適宜省略している。
図19の情報処理装置10は、映像表示制御部30、取得部32、生成部34、音出力制御部36、認証処理部38、通信部42、及び記憶部50を有する構成である。記憶部50は、予約情報52、音源情報54、音数情報56、拍数情報58、音色情報60、及びメロディ情報を記憶している。
情報処理端末22の出力信号送信部100は情報処理端末22を操作するユーザの声からマイク615が変換した電気信号を出力信号として情報処理装置10に送信する。情報処理端末22の出力部102は、情報処理装置10から受信した音データに応じて環境音などの音を出力する。なお、図19に示した出力信号送信部100は、入力装置の一例である。出力部102は、出力装置の一例である。
情報処理装置10の通信部42は、情報処理端末22の出力信号送信部100から、情報処理端末22を操作するユーザの声からマイク615が変換した電気信号を出力信号として受信する。また、通信部42は情報処理端末22がユーザから受け付けた操作信号を受信する。
認証処理部38は、情報処理端末22を操作するユーザの認証処理を行う。映像表示制御部30はオンライン会議において情報処理端末22が表示する共有画面などの映像を制御する。
取得部32はオンライン会議中のユーザの活動情報を取得する。取得部32が取得するユーザの活動情報の一例はオンライン会議中の複数のユーザの発話量である。また、取得部32が取得するユーザの活動情報の一例は、オンライン会議中の複数のユーザの発話者変更頻度である。また、取得部32が取得するユーザの活動情報の一例は、オンライン会議中に連続して所定時間以上、話し続けているユーザの情報である。発話量、発話者変更頻度、及び話し続けているユーザの情報は、マイク615の出力信号から計測できる。
また、取得部32は情報処理端末22の付近の天気、気温、温度、湿度、照度、機器の動作音、騒音、又は時間帯などの環境依存情報を取得する。生成部34は、オンライン会議中の複数のユーザの活動情報と、情報処理端末22の付近の環境依存情報と、に基づいて、後述するように音データを生成する。生成部34は、環境依存情報を使用せず、オンライン会議中の複数のユーザの活動情報に基づいて、後述するように音データを生成してもよい。音出力制御部36は、生成した音データに応じた環境音を情報処理端末22の出力部102に出力させるように制御する。
記憶部50は、例えば図6~図9、図11、及び図20に示す予約情報52、音源情報54、音数情報56、拍数情報58、音色情報60、及びメロディ情報62をテーブル形式で記憶している。
予約情報52、音源情報54、音数情報56、拍数情報58、及びメロディ情報62は第1の実施形態と一部を除いて同一であるため、同一部分の説明を省略する。
図6の予約情報の部屋IDは予約情報により予約されているオンライン会議の識別情報の一例である。予約時間は予約情報により予約されているオンライン会議の日時情報の一例である。参加ユーザは予約情報により予約されているオンライン会議の参加者情報の一例である。図7の音源情報の複数の時間帯A~Dはオンライン会議の予約時間を4つに分けた時間帯の情報の一例である。
図8は音数情報の発話量は、オンライン会議中のユーザの発話の頻度を表した情報の一例である。図8では一例として、オンライン会議中のユーザの少なくとも一人が発話している状態が、所定時間(例えば直近60秒など)の間で何秒であったかで発話量を表している。
図9は拍数情報の発話者変更頻度は、オンライン会議中の複数のユーザの会話の活発度を、発話者の変更頻度で表した情報の一例である。図9では一例として、オンライン会議における発話者の変更頻度を、所定時間(例えば直近60秒など)の間で発話者が変更した回数により表している。
図20は、音色情報の一例の構成図である。図20の音色情報は項目として、音色クラス、画面変化量、及び音色を有する。音色クラスは、クラス分けのための識別情報の一例である。画面変化量は、オンライン会議中の複数のユーザが操作する情報処理端末22の画面の変化頻度を表した情報の一例である。図20では一例として、オンライン会議中の複数のユーザが操作する情報処理端末22の画面の変化頻度を、オンライン会議中の複数のユーザが操作する情報処理端末22の直近60秒の画面が所定割合以上、変化した回数により表している。音色は環境音で使用する音色を表している。図20の音色情報によれば、オンライン会議中の複数のユーザが操作する情報処理端末22の画面の変化頻度によって、環境音で使用する音色を変更できる。
図11のメロディ情報の参加ユーザは、予約情報により予約されているオンライン会議の参加者を表した情報の一例である。図11のメロディ情報によれば、オンライン会議中の特定のユーザが連続して発話している状態が所定時間以上となった場合に、発話しているユーザに割り当てたメロディを環境音で使用できる。
第3の実施形態に係る情報処理システム2は、例えば図21に示すような手順でオンライン会議中のユーザの情報処理端末22に環境音を出力する。図21は、本実施形態に係る情報処理システムの処理手順を示した一例のフローチャートである。
ステップS400において、第3の実施形態に係る情報処理システム2では、オンライン会議の主催者などのユーザが事前準備を行う。事前準備は、情報処理装置10の記憶部50において記憶される図6の予約情報の登録、図7の音源情報の設定、図8の音数情報の設定、図9の拍数情報の設定、図20の音色情報の設定、及び図11のメロディ情報の設定などである。これらの情報の登録や設定は、ユーザが情報処理端末22を用いて情報処理装置10にアクセスし、情報処理装置10の通信部42が情報処理端末22からの操作情報を受信することで、記憶部50に記憶される各種情報を変更、追加又は削除の何れかの処理を実行できる。なお、図7の音源情報の設定、図8の音数情報の設定、図9の拍数情報の設定、図20の音色情報の設定、及び図11のメロディ情報の設定は、図6の予約情報の登録に基づき、情報処理装置10が自動で設定してもよい。
ステップS402において、第3の実施形態に係る情報処理システム2では、図6の予約情報に従ってオンライン会議が開始されたことを情報処理装置10が判断する。オンライン会議の開始の判断は、オンライン会議の主催者などのユーザが情報処理端末22に対して入力した操作入力に基づく情報を情報処理装置10の通信部42が受信し、受信した情報に基づいて判断してもよいし、図6の予約情報の予約時間に従って自動的に開始してもよい。
ステップS404において、第3の実施形態に係る情報処理システム2では、取得部32がオンライン会議中の複数のユーザの活動情報を取得する。ステップS404で取得部32が取得するユーザの活動情報は、オンライン会議中の複数のユーザの発話量、発話者変更頻度、オンライン会議中に連続して所定時間以上、話し続けているユーザの情報などである。また、ステップS404で取得部32が取得するユーザの活動情報は、オンライン会議中の複数のユーザが操作する情報処理端末22の画面変化量である。
ステップS406において、第2の実施形態に係る情報処理システム2では、ステップS404で取得したオンライン会議中の複数のユーザの活動情報に基づいて、生成部34が例えば図22に示すような手順で音データを生成する。
図22は音データを生成する処理の一例のフローチャートである。ステップS500において、生成部34は図6の予約情報及び図7の音源情報に基づき、オンライン会議の予約時間の時間帯A~Dに対して割り当てる音源セットを決定する。
ステップS502において、生成部34は図8の音数情報に基づき、オンライン会議中の複数のユーザの発話量から、環境音で重ねて使用する音の数を決定する。ステップS404において、生成部34は図9の拍数情報に基づき、オンライン会議中の複数のユーザの発話者変更頻度から、環境音で使用する拍数を決定する。
ステップS506において、生成部34は図20の音色情報に基づき、オンライン会議中のユーザの情報処理端末22の画面変化量から、環境音で使用する音色を決定する。
また、ステップS508において、生成部34はオンライン会議に参加している特定のユーザが連続して発話している状態が所定時間以上となった場合に、その特定のユーザをリフレイン演奏するユーザと判定する。生成部34は図11のメロディ情報に基づき、リフレイン演奏するユーザに割り当てたメロディを決定する。また、ステップS510において、生成部34は決定した音源セット、音数、拍数、音色、及びメロディに基づいて音データを生成する。
図21のステップS408に戻り、音出力制御部36はステップS406で生成した音データに応じた環境音を、オンライン会議中の複数のユーザの情報処理端末22の出力部102に出力させるように制御する。
このように、第3の実施形態に係る情報処理システム2では、複数のユーザが参加しているオンライン会議において、ユーザ同士の会話の状況などに応じて変化する環境音を出力できる。
ステップS406の音データの生成に使用する音源セット、音数、拍数、音色、及びメロディを、オンライン会議中のユーザの状況に適した環境音が出力されるように設定しておくことで、第3の実施形態に係る情報処理システム2はオンライン会議中のユーザ同士のやり取りに適した環境音を出力できる。
例えば第2の実施形態に係る情報処理システム2は、オンライン会議中の複数のユーザの発話量及び発話者変更頻度が大きいほどオンライン会議の参加ユーザの緊張度が高いと仮定して、緊張度の高い複数のユーザに適した環境音をオンライン会議に出力できる。
ステップS404~S410の処理はオンライン会議が終了するまで繰り返される。オンライン会議が終了すると、ステップS412の処理に進み、音出力制御部36は情報処理端末22の出力部102の出力部110からの環境音の出力を終了する。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。なお、本実施形態で説明した情報処理システム1及び2は一例であって、用途や目的に応じて様々なシステム構成例があることは言うまでもない。
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、情報処理装置10はサーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
さらに、情報処理装置10は、開示された処理ステップを様々に組み合わせることもできる。情報処理装置10の各要素は、1つの装置にまとめられていてもよいし、複数の装置に分けられていてもよい。また、情報処理装置10が行う各処理は、情報処理端末22で行うようにしてもよい。また、ユーザの活動情報は、例えば会議室の中にいるユーザの人数、ユーザの心拍、などであってもよい。
1、2 情報処理システム
10 情報処理装置
16 スピーカ
18 カメラ
20 マイク
22 情報処理端末
32 取得部
34 生成部
36 音出力制御部
50 記憶部
52 予約情報
54 音源情報
56 音数情報
58 拍数情報
60 音色情報
62 メロディ情報
70、80、90、100 出力信号送信部
102、110 出力部
N ネットワーク
特表2018-512607号公報

Claims (15)

  1. 会話を行う複数のユーザの活動情報を取得する取得手段と、
    前記活動情報に基づいて音データを生成する生成手段と、
    前記音データに応じた環境音を出力装置に出力させる音出力制御手段と、
    を有する情報処理装置。
  2. 前記取得手段は、同一の空間の中にいる前記複数のユーザの発話量及び姿勢情報の少なくとも一方を前記活動情報として取得する
    請求項1記載の情報処理装置。
  3. 前記取得手段は、通信ネットワークを介して会話を行う前記複数のユーザの発話量を前記活動情報として取得する
    請求項1記載の情報処理装置。
  4. 前記取得手段は、前記複数のユーザの発話者変更頻度、前記複数のユーザが操作する情報処理端末の画面変化量、前記複数のユーザの人数、前記複数のユーザの心拍の少なくとも一つを前記活動情報として取得する
    請求項2又は3記載の情報処理装置。
  5. 前記取得手段は、前記同一の空間の内部又は外部の環境依存情報を更に取得し、
    前記生成手段は、前記活動情報及び前記環境依存情報に基づいて前記音データを生成する
    請求項2記載の情報処理装置。
  6. 前記取得手段は、マイクからの出力信号に基づいて計測された前記複数のユーザの発話量を前記複数のユーザの前記活動情報として取得する
    請求項2又は3記載の情報処理装置。
  7. 前記取得手段は、カメラからの出力信号に基づいて認識された前記複数のユーザの姿勢情報を前記複数のユーザの前記活動情報として取得する
    請求項2記載の情報処理装置。
  8. 前記生成手段は、前記活動情報に基づいて前記複数のユーザの状況を判定し、前記状況に応じた環境音を前記出力装置に出力させるための前記音データを生成する
    請求項1乃至7の何れか一項に記載の情報処理装置。
  9. 前記生成手段は、前記複数のユーザが時間を決めて会話を行う場合において、前記活動情報に基づいて生成する前記音データを前記時間の経過により変化させる
    請求項1乃至8の何れか一項に記載の情報処理装置。
  10. 前記音出力制御手段は、前記複数のユーザがいる空間に設置されたスピーカ、及び前記複数のユーザが操作する情報処理端末の少なくとも一方を前記出力装置として、前記音データに応じた環境音を出力させる
    請求項1乃至9の何れか一項に記載の情報処理装置。
  11. 前記音出力制御手段は、前記複数のユーザがいる空間に出力する前記環境音を、前記空間の部分によって変化させる
    請求項2記載の情報処理装置。
  12. 前記生成手段は、前記活動情報に基づいて、音数、拍数、音色、及びメロディの少なくとも一つが異なる前記音データを生成する
    請求項1乃至11の何れか一項に記載の情報処理装置。
  13. 会話を行う複数のユーザの活動情報を取得する取得手段と、
    前記活動情報に基づいて音データを生成する生成手段と、
    前記音データに応じた環境音を出力装置に出力させる音出力制御手段と、
    を有する情報処理システム。
  14. 入力装置、情報処理装置、及び出力装置を有する情報処理システムであって、
    前記入力装置は、
    会話を行う複数のユーザの活動に関する出力信号を前記情報処理装置に送信する出力信号送信手段、
    を有し、
    前記情報処理装置は、
    前記出力信号に基づいて前記複数のユーザの活動情報を取得する取得手段と、
    前記活動情報に基づいて音データを生成する生成手段と、
    前記音データに応じた環境音を出力装置に出力させる音出力制御手段と、
    を有し、
    前記出力装置は、
    前記環境音を出力する出力手段
    を有する情報処理システム。
  15. 情報処理装置に、
    会話を行う複数のユーザの活動情報を取得する取得手順、
    前記活動情報に基づいて音データを生成する生成手順、
    前記音データに応じた環境音を出力装置に出力させる音出力制御手順、
    を実行させるためのプログラム。
JP2022007840A 2022-01-21 2022-01-21 情報処理装置、情報処理システム、及びプログラム Pending JP2023106865A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022007840A JP2023106865A (ja) 2022-01-21 2022-01-21 情報処理装置、情報処理システム、及びプログラム
US18/049,369 US20230238018A1 (en) 2022-01-21 2022-10-25 Information processing apparatus, information processing system, information processing method, and non-transitory recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022007840A JP2023106865A (ja) 2022-01-21 2022-01-21 情報処理装置、情報処理システム、及びプログラム

Publications (1)

Publication Number Publication Date
JP2023106865A true JP2023106865A (ja) 2023-08-02

Family

ID=87314518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022007840A Pending JP2023106865A (ja) 2022-01-21 2022-01-21 情報処理装置、情報処理システム、及びプログラム

Country Status (2)

Country Link
US (1) US20230238018A1 (ja)
JP (1) JP2023106865A (ja)

Also Published As

Publication number Publication date
US20230238018A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
JP7379907B2 (ja) 情報処理装置、情報処理プログラム、情報処理システム、情報処理方法
JP6503557B2 (ja) 情報処理装置、情報処理方法およびプログラム
US9407866B2 (en) Joining an electronic conference in response to sound
US7636365B2 (en) Smart digital modules and smart digital wall surfaces combining the same, and context aware interactive multimedia system using the same and operation method thereof
US9426551B2 (en) Distributed wireless speaker system with light show
WO2014192552A1 (ja) 表示制御装置、表示制御方法及びコンピュータプログラム
CN111402844B (zh) 歌曲合唱的方法、装置及系统
CN110798327B (zh) 消息处理方法、设备及存储介质
EP3972236A1 (en) Communication terminal, image communication system, method for displaying image, and carrier means
CN111628925A (zh) 歌曲交互方法、装置、终端及存储介质
JP2023131635A (ja) 表示システム、表示方法、撮像装置、プログラム
JP2023130837A (ja) 機器システム、音量の調整方法、第二の機器、第一の機器
CN112086081A (zh) 合唱方法、终端及计算机存储介质
JP2023106865A (ja) 情報処理装置、情報処理システム、及びプログラム
JP2023130822A (ja) 機器システム、撮像装置、表示方法
US11677836B2 (en) Server apparatus, communication system and communication method
CN113727124B (zh) 直播处理方法、装置、电子设备及存储介质
US20200177405A1 (en) Computer system, method for assisting in web conference speech, and program
JP6701887B2 (ja) 情報処理システム、情報処理方法およびプログラム
CN111599328B (zh) 歌曲合成方法、装置、设备及存储介质
JP7400531B2 (ja) 情報処理システム、情報処理装置、プログラム、情報処理方法及び部屋
US20220201424A1 (en) Wireless control device, and wireless control system
JP2024008632A (ja) 情報処理システム、表示方法、プログラム、記録情報作成システム
JP2023172683A (ja) デバイス、情報処理システム、情報処理方法、及びプログラム
JP2024126918A (ja) 通信管理システム、通信システム、通信管理方法、及びプログラム