JP2018170714A - 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム - Google Patents

情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム Download PDF

Info

Publication number
JP2018170714A
JP2018170714A JP2017068440A JP2017068440A JP2018170714A JP 2018170714 A JP2018170714 A JP 2018170714A JP 2017068440 A JP2017068440 A JP 2017068440A JP 2017068440 A JP2017068440 A JP 2017068440A JP 2018170714 A JP2018170714 A JP 2018170714A
Authority
JP
Japan
Prior art keywords
subject
information
information processing
video
situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017068440A
Other languages
English (en)
Inventor
隆史 園田
Takashi Sonoda
隆史 園田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017068440A priority Critical patent/JP2018170714A/ja
Priority to US15/918,055 priority patent/US11227148B2/en
Publication of JP2018170714A publication Critical patent/JP2018170714A/ja
Priority to JP2021183024A priority patent/JP7306439B2/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Alarm Systems (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】映像を見ている人が現場の臨場感を共有すること。【解決手段】情報処理装置であって、映像取得部と、被写体情報収集部と、状況認識部と、表示部と、を備える。映像取得部は、所定エリアを撮像する撮像部から映像を取得する。被写体情報収集部は、撮像された映像に写っている被写体の被写体情報を収集する。状況認識部は、被写体の映像および被写体情報に基づいて、被写体の状況を認識する。表示部は、認識された状況を識別可能に表示する。【選択図】 図1

Description

本発明は、情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システムに関する。
上記技術分野において、特許文献1には、取得した映像情報に基づいて、映像情報に映し出されている者に関する感情情報を取得し、取得した音声情報に基づいて、文脈情報を取得する。そして、取得した感情情報および文脈情報に基づいて、メディア表現文書情報を生成する技術が開示されている。また、特許文献2には、魚眼レンズと無指向性マイクロフォンとを用いて、音源位置方向(話者方向)を判定し、音源位置方向の画像(話者人物像)を切り出して映像信号を生成する技術が開示されている。
特開2007−299255号公報 特開平11−331827号公報
しかしながら、上記文献に記載の技術では、映像を見ている人が現場の臨場感を共有することができなかった。
本発明の目的は、上述の課題を解決する技術を提供することにある。
上記目的を達成するため、本発明に係る情報処理装置は、
所定エリアを撮像する撮像手段から映像を取得する映像取得手段と、
撮像された映像に写っている被写体の被写体情報を収集する被写体情報収集手段と、
前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識手段と、
認識された前記状況を識別可能に表示する表示手段と、
を備えた。
上記目的を達成するため、本発明に係る情報処理方法は、
所定エリアを撮像する撮像手段から映像を取得する映像取得ステップと、
撮像された映像に写っている被写体の被写体情報を収集する被写体情報収集ステップと、
前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識ステップと、
認識された前記状況を識別可能に表示する表示ステップと、
を含む。
上記目的を達成するため、本発明に係る情報処理プログラムは、
所定エリアを撮像する撮像手段から映像を取得する映像取得ステップと、
撮像された映像に写っている被写体の被写体情報を収集する被写体情報収集ステップと、
前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識ステップと、
認識された前記状況を識別可能に表示する表示ステップと、
をコンピュータに実行させる。
上記目的を達成するため、本発明に係る情報処理システムは、
所定エリアの映像を撮像する撮像手段と、
前記撮像手段により撮像された所定エリアの映像に含まれる被写体の被写体情報を収集する被写体情報収集手段と、
前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識手段と、
認識された前記状況を識別可能に表示する表示手段と、
を備えた。
本発明によれば、映像を見ている人が現場の臨場感を共有することができる。
本発明の第1実施形態に係る情報処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る情報処理システムの構成を説明するための図である。 本発明の第2実施形態に係る情報処理システムに含まれる情報処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る情報処理システムに含まれる情報処理装置が有する状況テーブルの一例を示す図である。 本発明の第2実施形態に係る情報処理システムに含まれる情報処理装置のハードウェア構成を示す図である。 本発明の第2実施形態に係る情報処理システムに含まれる情報処理装置の処理手順を説明するフローチャートである。 本発明の第3実施形態に係る情報処理システムの構成を説明するための図である。
以下に、本発明を実施するための形態について、図面を参照して、例示的に詳しく説明記載する。ただし、以下の実施の形態に記載されている、構成、数値、処理の流れ、機能要素などは一例に過ぎず、その変形や変更は自由であって、本発明の技術範囲を以下の記載に限定する趣旨のものではない。
[第1実施形態]
本発明の第1実施形態としての情報処理装置100について、図1を用いて説明する。情報処理装置100は、撮像された映像に写っている被写体の状況を認識して表示する装置である。
図1に示すように、情報処理装置100は、映像取得部101と、被写体情報収集部102と、状況認識部103と、表示部104と、を含む。
映像取得部101は、所定エリアを撮像する撮像手段から映像を取得する。被写体情報収集部102は、撮像された映像に写っている被写体の被写体情報を収集する。状況認識部103は、被写体の映像および被写体情報に基づいて、被写体の状況を認識する。表示部104は、認識された状況を識別可能に表示する。
本実施形態によれば、映像を見ている人が現場の臨場感を共有することができる。
[第2実施形態]
次に本発明の第2実施形態に係る情報処理システムについて、図2乃至図6を用いて説明する。図2は、本実施形態に係る情報処理システムの構成の一例を説明するための図である。
情報処理システム200は、情報処理装置210、表示部220およびカメラ230を含む。また、情報処理システム200は、図示しない、音声情報取得センサ(マイク)やバイタルデータ取得センサ、環境情報取得センサなどの各種センサを含む。
情報処理システム200は、例えば、人が多く集まる集会やコンサート、病院、刑務所、一般家庭などにおいて、映像に写る被写体の状況を認識し、認識した状況を識別可能に表示することにより、映像を見ている人が現場の臨場感を共有することができるシステムである。また、情報処理システムは、カメラに写っている人の感情を表現するシステムであり、喜怒哀楽以上の感情を表現するシステムである。さらに、情報処理システム200は、多くの人が集まっているようなイベント会場や、設備の整っている病院ではなく、設備の整っていない在宅医療、多くの囚人をコントロールしなければならない刑務所、デモ行進などにも適用可能なシステムである。
情報処理装置210は、カメラ230が撮像した所定エリアの映像を取得し、取得した映像に写っている被写体の被写体情報を取得する。被写体情報は、例えば、音声情報やバイタルデータ、動作情報、表情情報などである。音声情報は、例えば、被写体の声や声紋、発話内容などである。バイタルデータは、例えば、体温や心拍、脈拍、空腹、のどの渇き、吐き気、尿意、痛み、瞳孔、脳波、指紋、呼吸数、発汗量、虹彩などを含む。動作情報は、例えば、被写体の動きに関する情報であり、被写体の行動などである。表情情報は、被写体の表情、顔の動き、目の動きなどである。
また、情報処理装置210は、被写体の周辺環境の情報を取得する。周辺環境情報は、例えば、被写体のいる場所の温度や湿度、震度、雑音の大きさ、照度、輝度、水位、水量、速度、角度、位置、熟成度、時間などである。
そして、情報処理装置210は、取得した映像および被写体情報に基づいて、被写体の状況を認識する。被写体の状況は、例えば、被写体の感情や心の動き、身体状態などである。
表示部220は、表示領域221にカメラ230で撮像した映像と共に、被写体のバイタイルデータなどをグラフ化などして表示する。グラフなどは、例えば、カメラ230で撮像した映像に重畳して表示(例えば、AR(Augmented Reality)表示)し、カメラ230の映像を見ている人が視覚的に分かるように表示してもよい。
また、表示部220は、表示領域222に被写体の状況や感情を表示する。被写体の感情などは、例えば、テキストや絵文字などで表示されるが、被写体の感情の表示方法は、これらには限定されない。
さらに、表示部220は、表示領域223に被写体の会話情報として会話内容や発話内容を表示する。会話情報は、例えば、テキスト表示されるが、発話者ごとにテキストの大きさやフォントなどを変更してもよい。また、声の大きさに応じてテキストの大きさを変更してもよい。さらに、発話者ごとにテキストに色を付けてもよく、テキスト表示の方法は、これらには限定されない。
また、表示部220は、表示領域225に周辺環境情報を表示する。周辺環境情報は、温度、湿度、震度、雑音の大きさ、照度、輝度、水位、水量、速度、角度、位置、熟成度、時間などであり、これらの情報が表示される。なお、表示部220に表示する各種情報は、必要に応じてONまたはOFFすることができる。
情報処理システム200は、例えば、カメラ230で撮像した映像中に写っている被写体の状況などに変化があった場合、映像を見ている人物などにアラートを報知してもよい。
図3は、本実施形態に係る情報処理システムに含まれる情報処理装置の構成を示すブロック図である。情報処理装置210は、映像取得部301、被写体情報収集部302、周辺環境情報取得部303、状況認識部304、表示部305およびアラート報知部306を有する。
映像取得部301は、カメラ230などの撮像デバイスが撮像した所定エリアの映像を取得する。カメラ230は、例えば、施設に取り付けられた防犯カメラや監視カメラなどが代表的であるが、これらには限定されない。
被写体情報収集部302は、カメラ230で撮像した映像に写っている被写体の被写体情報を収集する。被写体情報収集部302は、映像取得部301が取得した映像から、人物などの被写体を抽出し、抽出した被写体の被写体情報を収集する。被写体情報は、例えば、被写体の音声情報や生体情報、動作情報、表情情報である。音声情報は、被写体の声や声量、声紋、発話内容、会話内容などである。音声情報は、カメラ230に取り付けられたマイクや、施設に取り付けられたマイク、被写体の所持するスマートフォンなどの携帯端末のマイクから取得される。
また、生体情報は、いわゆるバイタルデータなどと呼ばれるものであり、例えば、体温、心拍、脈拍、空腹、のどの渇き、吐き気、尿意、痛み、呼吸数、脳波、発汗量などである。生体情報は、例えば、被写体が身に着けている時計型なメガネ型、肌着型などのウェアラブルデバイスや、医療機器などから取得されるが、生体情報の取得方法はこれには限定されない。
動作情報は、被写体の動きに関する情報であり、被写体がどのような動きをしているかに関する情報である。動作情報は、例えば、被写体が歩いているのか、座っているのか、走っているのか、止まっているのか、腕を動かしているのかなどに関する情報であるが、これらには限定されない。
さらに、表情情報は、被写体の表情や人相などに関する情報である。表情情報は、例えば、被写体の表情が、笑った表情か、怒った表情かなどに関する情報であるが、これらには限定されない。
これらの他にも被写体情報として、被写体の背格好や服装、性別、年齢、身長、髪型、メガネの有無などを含めてもよい。
周辺環境情報取得部303は、カメラ230で撮像した映像中の被写体の周辺環境に関する情報を取得する。周辺環境情報は、例えば、温度、湿度、震度、雑音の大きさ、照度、輝度、水位、水量、速度、角度、位置、熟成度、時間などである。周辺環境情報は、例えば、被写体が所持するスマートフォンやスマートウォッチなどの携帯端末や、被写体のいる施設に設置されたセンサ、その他のセンサ、赤外線カメラ、サーモグラフィーなどから取得されるが、取得方法はこれらには限定されない。
状況認識部304は、被写体の映像や被写体情報、被写体情報の変化情報などに基づいて、被写体の状況を認識する。例えば、体温や心拍などのバイタルデータの値と、バイタルデータの変化情報から、状況認識部304は、被写体の感情や心の動きなどを認識する。
また、状況認識部304は、バイタルデータ以外にも、温度や湿度、震度、雑音の大きさ、照度、輝度などの環境に関するパラメータを測定可能なセンサからの情報などから、被写体の状況を認識する。これらの情報によっても、被写体の感情や心の動きは推移するもと考えられ、これを踏まえて、状況認識部304は、被写体の状況を認識する。また、この他にも、状況認識部304は、被写体の表情の変化や動作の変化、発汗量の変化、音声の変化、環境情報の変化などに基づいて、被写体の状況を認識する。
表示部305は、認識された状況を識別可能に表示する。例えば、表示部305は、認識した状況や感情、心の動きをテキストを含む何らかの形式で表現する。表示部305は、例えば、被写体が怒っている場合には、怒っていることが分かる形式で、被写体が平常心でいる場合には、平常心であることが分かる形式で、これらの状況を表現する。表示部305は、カメラ230が撮像した映像に、例えば、被写体の状況や被写体の発話内容、バイタイルデータ、周辺環境情報などを重畳して表示してもよい。
アラート報知部306は、認識した状況に基づいて、アラートを報知する。アラート報知部306は、例えば、表示部220を見ている人物などにアラートを報知する。アラート報知部306は、例えば、映像中の被写体である人物のバイタイルデータなどに異常を示す変化が現れた場合、その旨のアラートを報知してもよい。また、被写体の感情に変化があった場合、例えば、平常心であった被写体が突然激高した場合や、椅子に座っていた被写体が急な意識低下に見舞われた場合などに、その旨のアラートを報知してもよい。
アラートは、例えば、画面の点滅、アラートの内容を示すアイコンなどの表示、アラート内容を示すテキストの表示、アラーム音の発報、表示部220の振動、ランプの点滅、などにより行われる。
なお、被写体の状況や感情、環境の変化などから、次に起こりうることを予測して、予防策や対策を報知して、例えば、映像を見ている人が、これらの予防策や対策などを実施してもよい。
図4は、本実施形態に係る情報処理システムに含まれる情報処理装置が有する状況テーブルの一例を示す図である。状況テーブル401は、被写体ID(Identifier)411に対応付けて、被写体情報412、周辺環境情報413、状況414およびアラート415を記憶する。
被写体ID411は、カメラ230が撮像した所定エリアの映像中の被写体を識別する識別子である。被写体情報412は、被写体に関する情報であり、例えば、被写体の生体情報や動作情報、音声情報、表情情報などである。周辺環境情報413は、被写体の周辺環境の情報であり、例えば、温度や湿度、震度、雑音の大きさ、照度、輝度などである。状況414は、被写体の状況を表し、例えば、被写体の感情や心の動きなどを表す。アラート415は、報知するアラートの内容である。
図5は、本実施形態に係る情報処理システムに含まれる情報処理装置210のハードウェア構成を説明するブロック図である。CPU(Central Processing Unit)510は、演算制御用のプロセッサであり、プログラムを実行することで図3の情報処理装置203の機能構成部を実現する。CPU510は複数のプロセッサを有し、異なるプログラムやモジュール、タスク、スレッドなどを並行して実行してもよい。ROM(Read Only Memory)520は、初期データおよびプログラムなどの固定データおよびその他のプログラムを記憶する。また、ネットワークインタフェース530は、ネットワークを介して他の装置などと通信する。なお、CPU510は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPU(Graphics Processing Unit)を含んでもよい。また、ネットワークインタフェース530は、CPU510とは独立したCPUを有して、RAM(Random Access Memory)540の領域に送受信データを書き込みあるいは読み出しするのが望ましい。また、RAM540とストレージ550との間でデータを転送するDMAC(Direct Memory Access Controller)を設けるのが望ましい(図示なし)。さらに、入出力インタフェース560は、CPU510とは独立したCPUを有して、RAM540の領域に入出力データを書き込みあるいは読み出しするのが望ましい。したがって、CPU510は、RAM540にデータが受信あるいは転送されたことを認識してデータを処理する。また、CPU510は、処理結果をRAM540に準備し、後の送信あるいは転送はネットワークインタフェース530やDMAC、あるいは入出力インタフェース560に任せる。
RAM540は、CPU510が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM540には、本実施形態の実現に必要なデータを記憶する領域が確保されている。被写体ID541は、カメラ230により撮像された映像中の被写体を識別するデータである。被写体情報542は、被写体に関する情報である。周辺環境情報543は、被写体の周辺環境に関する情報である。被写体状況544は、被写体の状況に関するデータである。アラート内容545は、報知するアラートに関するデータである。これらのデータや情報は、例えば、状況テーブル401から展開される。
入出力データ546は、入出力インタフェース560を介して入出力されるデータである。送受信データ547は、ネットワークインタフェース530を介して送受信されるデータである。また、RAM540は、各種アプリケーションモジュールを実行するためのアプリケーション実行領域548を有する。
ストレージ550には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。ストレージ550は、状況テーブル401を格納する。状況テーブル401は、図4に示した、被写体ID411と、状況414などとの関係を管理するテーブルである。
ストレージ550は、さらに、映像取得モジュール551、被写体情報収集モジュール552、周辺環境情報取得モジュール553、状況認識モジュール554、表示モジュール555およびアラート報知モジュール556を格納する。
映像取得モジュール551は、カメラ230で撮像した所定エリアの映像を取得するモジュールである。被写体情報収集モジュール552は、カメラ230で撮像した映像中の被写体の情報を収集するモジュールである。周辺環境情報取得モジュール553は、被写体の周辺環境の情報を取得するモジュールである。状況認識モジュール554は、被写体の映像や被写体情報、周辺環境情報に基づいて、被写体の状況を認識する。表示モジュール555は、認識された被写体の状況を識別可能に表示するモジュールである。アラート報知モジュール556は、認識された状況に基づいて、アラートを報知するモジュールである。これらのモジュール551〜556は、CPU510によりRAM540のアプリケーション実行領域548に読み出され、実行される。制御プログラム557は、情報処理装置210の全体を制御するためのプログラムである。
入出力インタフェース560は、入出力機器との入出力データをインタフェースする。入出力インタフェース560には、表示部561、操作部562、が接続される。また、入出力インタフェース560には、さらに、記憶媒体564が接続されてもよい。さらに、音声出力部であるスピーカ563や、音声入力部であるマイク(図示せず)、あるいは、GPS位置判定部が接続されてもよい。なお、図5に示したRAM540やストレージ550には、情報処理装置210が有する汎用の機能や他の実現可能な機能に関するプログラムやデータは図示されていない。
図6は、本実施形態に係る情報処理装置210の処理手順を説明するフローチャートである。このフローチャートは、図5のCPU510がRAM540を使用して実行し、図3の情報処理装置210の機能構成部を実現する。
ステップS601において、情報処理装置210は、カメラ230が撮像した所定エリアの映像を取得する。ステップS603において、情報処理装置210は、撮像された映像中の被写体の被写体情報を収集する。ステップS605において、情報処理装置210は、被写体の周辺環境の情報である周辺環境情報を取得する。ステップS607において、情報処理装置210は、被写体の映像、被写体情報および周辺環境情報に基づいて、被写体の状況を認識する。
ステップS609において、情報処理装置210は、認識した状況を表示する。ステップS611において、情報処理装置210は、認識した情報に基づいて、アラートの報知が必要か否かを判断する。アラートの報知が必要ない場合(ステップS611のNO)、情報処理装置210は、処理を終了する。アラートの報知が必要な場合(ステップS611のYES)、情報処理装置210は、ステップS613へ進む。ステップS613において、情報処理装置210は、所定の報知方法でアラートを報知する。
本実施形態によれば、映像を見ている人が現場の臨場感や現場の状況を共有することができる。また、映像を見ている人が、被写体の状況を把握したり、共有したりすることができる。さらにまた、途中から映像を見た人物であっても、現場の臨場感などを共有することができる。さらに、アラートを報知するので、映像を見ている人がアラートに従って現場で起こっている事態に対して対処することができる。
[第3実施形態]
次に本発明の第3実施形態に係る情報処理システムについて、図7を用いて説明する。図7は、本実施形態に係る情報処理システムの構成を説明するための図である。本実施形態に係る情報処理システムは、上記第2実施形態と比べると、会議システムに情報処理システムを適用した点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
情報処理システム(会議システム)700は、マイクスピーカ付端末701,702から会議における参加者の発話や会話などの音声情報を取得する。また、情報処理システム700は、各種センサ703から、会議中の映像や、会議参加者のバイタイルデータや、会議室内の環境データなどを取得する。
情報処理システム700は、マイクスピーカ付端末701,702のマイクからの音声情報をもとに、声紋認識などにより話者を特定する。または、カメラからの映像の情報をもとに、顔認証などにより話者を特定する。あるいは、声紋認証と顔認証とを組み合わせて話者を特定してもよい。
また、例えば、1つのマイクスピーカ付端末701を会議参加者で共有している場合には、各種センサ703として360度カメラや魚眼レンズ付カメラなどの映像を合わせて総合的に判断することで、より高い精度で話者を特定できる。例えば、カメラの映像から会議参加者の口の動きの認証や、顔認証、発言者の方向の特定などを行い、マイクで収集した音声から声紋などを判定するなど、複数の情報を総合的に判断することにより、各発話や会話に対して、より高い精度で話者を特定することができる。
情報処理システム700は、例えば、マイクスピーカ付端末701,702や各種センサ703からの情報をもとに、特定した話者と発言内容(発話内容)とをセットでテキスト化する。なお、テキスト化は端末704にインストールされたアプリケーションで行ってもよい。このように、端末704にインストールされたアプリケーションでテキスト化を行うと、ネットワークを経由する前の音声情報を入力とすることができるので、テキスト化の精度を上げることができる。
そして、情報処理システム700は、会話解析(発話解析)を行い、会議中の情景を思い浮かべられるような会話の付加情報(力強い、弱い、笑、怒り、悲しみなど)も合わせてテキストで表現する。このようにすることにより、マイクやスピーカなしで会議に参加している人物も会議の内容、臨場感などを共有することができる。
また、情報処理システム700は、マイク、スピーカ以外にも、各種センサ703、例えば、温度、湿度、雑音、奇声、バイタル情報、計測器などの変化や動きを付加することで、会議室以外の場所においても、その場所にいない人が臨場感を共有できる。
また、マイクやスピーカの無い環境において、端末704を用いて、テキストで会議に参加している人物がテキスト入力した内容を音声合成で各参加者のスピーカに流してもよい。
会議室以外の場所としては、例えば、設備の整っている病院ではなく、在宅医療などの設備の不十分な環境においても、その場にいない人が臨場感を共有することができる。
その他に、情報処理システム700は、話者特定ができているので、テキスト化した内容を会議の議事録として記録することができる。また、情報処理システム700は、記録した議事録を会議参加者にメールなどで送信することにより、アクティブなフォローをすることができる。
また、発話内容などをテキスト化するのでテキスト化した内容をリアルタイムまたは事後的に翻訳することもできる。これにより、議事録入手希望者の希望する言語の議事録を作成することも可能となる。
さらに、情報処理システム700は、テキスト化された発話内容を解析することにより、発話内容に応じたアクションを自動的に行うことができる。情報処理システム700は、商品の発注や各種調整、検索、回答、アラーム、発信、停止などを自動的に行うことができる。情報処理システム700は、例えば、「302号室にタオルを至急運ぶ」といった内容のアラートを担当者に対して報知することができる。
本実施形態によれば、会議に参加していない人も、会議現場の臨場感を共有することができる。また、途中から会議に参加した場合でも、会議現場の臨場感などを共有することができる。さらに、設備の整っている病院ではなく、在宅医療などの設備の不十分な環境においても、映像を見ている人物が、被写体の状況や現場の臨場感を共有することができる。また、コンサートや刑務所、デモ行進などのように多くの人が集まるような状況において、その場にいない人物や、映像を見ている人物が参加者の状況や現場の臨場感を共有することができる。
[他の実施形態]
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。
[実施形態の他の表現]
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
所定エリアを撮像する撮像手段から映像を取得する映像取得手段と、
撮像された映像に写っている被写体の被写体情報を収集する被写体情報収集手段と、
前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識手段と、
認識された前記状況を識別可能に表示する表示手段と、
を備えた情報処理装置。
(付記2)
前記被写体の周辺環境の情報である周辺環境情報を取得する周辺環境情報取得手段をさらに備え、
前記状況認識手段は、さらに、前記周辺環境情報に基づいて、前記被写体の状況を認識する付記1に記載の情報処理装置。
(付記3)
前記周辺環境情報は、温度、湿度、震度、雑音の大きさ、照度および輝度のうち少なくとも1つを含む付記2に記載の情報処理装置。
(付記4)
認識された前記状況に基づいて、アラートを報知するアラート報知手段をさらに備える付記1乃至3のいずれか1項に記載の情報処理装置。
(付記5)
前記被写体情報は、前記被写体の音声情報、生体情報、動作情報および表情情報のうち少なくとも1つを含む付記1乃至4のいずれか1項に記載の情報処理装置。
(付記6)
生体情報は、体温、心拍、脈拍、空腹、のどの渇き、吐き気、尿意、痛み、呼吸数、脳波、発汗量のうち少なくとも1つを含む付記5に記載の情報処理装置。
(付記7)
前記状況は、少なくとも前記被写体の感情を含む付記1乃至6のいずれか1項に記載の情報処理装置。
(付記8)
前記表示手段は、前記状況を表すテキストを表示する付記1乃至7のいずれか1項に記載の情報処理装置。
(付記9)
所定エリアを撮像する撮像手段から映像を取得する映像取得ステップと、
撮像された映像に写っている被写体の被写体情報を収集する被写体情報収集ステップと、
前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識ステップと、
認識された前記状況を識別可能に表示する表示ステップと、
を含む情報処理方法。
(付記10)
所定エリアを撮像する撮像手段から映像を取得する映像取得ステップと、
撮像された映像に写っている被写体の被写体情報を収集する被写体情報収集ステップと、
前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識ステップと、
認識された前記状況を識別可能に表示する表示ステップと、
をコンピュータに実行させる情報処理プログラム。
(付記11)
所定エリアの映像を撮像する撮像手段と、
前記撮像手段により撮像された所定エリアの映像に含まれる被写体の被写体情報を収集する被写体情報収集手段と、
前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識手段と、
認識された前記状況を識別可能に表示する表示手段と、
を備えた情報処理システム。

Claims (10)

  1. 所定エリアを撮像する撮像手段から映像を取得する映像取得手段と、
    撮像された映像に写っている被写体の被写体情報を収集する被写体情報収集手段と、
    前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識手段と、
    認識された前記状況を識別可能に表示する表示手段と、
    を備えた情報処理装置。
  2. 前記被写体の周辺環境の情報である周辺環境情報を取得する周辺環境情報取得手段をさらに備え、
    前記状況認識手段は、さらに、前記周辺環境情報に基づいて、前記被写体の状況を認識する請求項1に記載の情報処理装置。
  3. 前記周辺環境情報は、温度、湿度、震度、雑音の大きさ、照度および輝度のうち少なくとも1つを含む請求項2に記載の情報処理装置。
  4. 前記被写体情報は、前記被写体の音声情報、生体情報、動作情報および表情情報のうち少なくとも1つを含む請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 生体情報は、体温、心拍、脈拍、空腹、のどの渇き、吐き気、尿意、痛み、呼吸数、脳波、発汗量のうち少なくとも1つを含む請求項4に記載の情報処理装置。
  6. 前記状況は、少なくとも前記被写体の感情を含む請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記表示手段は、前記状況を表すテキストを表示する請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 所定エリアを撮像する撮像手段から映像を取得する映像取得ステップと、
    撮像された映像に写っている被写体の被写体情報を収集する被写体情報収集ステップと、
    前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識ステップと、
    認識された前記状況を識別可能に表示する表示ステップと、
    を含む情報処理方法。
  9. 所定エリアを撮像する撮像手段から映像を取得する映像取得ステップと、
    撮像された映像に写っている被写体の被写体情報を収集する被写体情報収集ステップと、
    前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識ステップと、
    認識された前記状況を識別可能に表示する表示ステップと、
    をコンピュータに実行させる情報処理プログラム。
  10. 所定エリアの映像を撮像する撮像手段と、
    前記撮像手段により撮像された所定エリアの映像に含まれる被写体の被写体情報を収集する被写体情報収集手段と、
    前記被写体の映像および前記被写体情報に基づいて、前記被写体の状況を認識する状況認識手段と、
    認識された前記状況を識別可能に表示する表示手段と、
    を備えた情報処理システム。
JP2017068440A 2017-03-30 2017-03-30 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム Pending JP2018170714A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017068440A JP2018170714A (ja) 2017-03-30 2017-03-30 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム
US15/918,055 US11227148B2 (en) 2017-03-30 2018-03-12 Information processing apparatus, information processing method, information processing program, and information processing system
JP2021183024A JP7306439B2 (ja) 2017-03-30 2021-11-10 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017068440A JP2018170714A (ja) 2017-03-30 2017-03-30 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021183024A Division JP7306439B2 (ja) 2017-03-30 2021-11-10 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム

Publications (1)

Publication Number Publication Date
JP2018170714A true JP2018170714A (ja) 2018-11-01

Family

ID=63670778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017068440A Pending JP2018170714A (ja) 2017-03-30 2017-03-30 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム

Country Status (2)

Country Link
US (1) US11227148B2 (ja)
JP (1) JP2018170714A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022031086A (ja) * 2020-08-05 2022-02-18 株式会社インタラクティブソリューションズ 音声に基づいて画像を変更するためのシステム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733448B2 (en) * 2018-03-15 2020-08-04 Microsoft Technology Licensing, Llc Machine learning of context data for social and contextual scene inferences

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11331827A (ja) * 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
CN101789990A (zh) * 2009-12-23 2010-07-28 宇龙计算机通信科技(深圳)有限公司 一种在通话过程中判断对方情绪的方法及移动终端
JP2010210804A (ja) * 2009-03-09 2010-09-24 Nikon Corp カメラ
JP2012156647A (ja) * 2011-01-24 2012-08-16 Nikon Corp デジタルカメラおよびカメラ付き電子機器
JP2013129914A (ja) * 2011-11-22 2013-07-04 National Institute Of Advanced Industrial Science & Technology マグネシウム合金板材の製造方法並びにマグネシウム合金板材及びそれを用いたプレス成形体
JP2013239914A (ja) * 2012-05-15 2013-11-28 Nikon Corp 撮像装置
US20140247343A1 (en) * 2013-03-04 2014-09-04 Alex C. Chen Method and apparatus for sensing and displaying information
WO2016170810A1 (ja) * 2015-04-23 2016-10-27 ソニー株式会社 情報処理装置、制御方法、およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299255A (ja) 2006-05-01 2007-11-15 Hitachi Systems & Services Ltd メディア表現文書情報生成システム
US10956956B2 (en) * 2012-08-17 2021-03-23 Ebay Inc. System, method, and computer readable medium for recommendations based on wearable sensors
US9019174B2 (en) * 2012-10-31 2015-04-28 Microsoft Technology Licensing, Llc Wearable emotion detection and feedback system
JP6122735B2 (ja) * 2013-08-28 2017-04-26 ヤフー株式会社 情報処理装置、判定方法および判定プログラム
US9459889B2 (en) * 2014-05-19 2016-10-04 Qualcomm Incorporated Systems and methods for context-aware application control
US10142598B2 (en) * 2014-05-30 2018-11-27 Sony Corporation Wearable terminal device, photographing system, and photographing method
JP2016062239A (ja) * 2014-09-17 2016-04-25 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US11006162B2 (en) * 2015-08-31 2021-05-11 Orcam Technologies Ltd. Systems and methods for analyzing information collected by wearable systems

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11331827A (ja) * 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP2010210804A (ja) * 2009-03-09 2010-09-24 Nikon Corp カメラ
CN101789990A (zh) * 2009-12-23 2010-07-28 宇龙计算机通信科技(深圳)有限公司 一种在通话过程中判断对方情绪的方法及移动终端
JP2012156647A (ja) * 2011-01-24 2012-08-16 Nikon Corp デジタルカメラおよびカメラ付き電子機器
JP2013129914A (ja) * 2011-11-22 2013-07-04 National Institute Of Advanced Industrial Science & Technology マグネシウム合金板材の製造方法並びにマグネシウム合金板材及びそれを用いたプレス成形体
JP2013239914A (ja) * 2012-05-15 2013-11-28 Nikon Corp 撮像装置
US20140247343A1 (en) * 2013-03-04 2014-09-04 Alex C. Chen Method and apparatus for sensing and displaying information
WO2016170810A1 (ja) * 2015-04-23 2016-10-27 ソニー株式会社 情報処理装置、制御方法、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022031086A (ja) * 2020-08-05 2022-02-18 株式会社インタラクティブソリューションズ 音声に基づいて画像を変更するためのシステム
JP7168239B2 (ja) 2020-08-05 2022-11-09 株式会社インタラクティブソリューションズ 音声に基づいて画像を変更するためのシステム

Also Published As

Publication number Publication date
US11227148B2 (en) 2022-01-18
US20180285632A1 (en) 2018-10-04

Similar Documents

Publication Publication Date Title
US11257266B2 (en) Intelligent augmented reality (IAR) platform-based communication system via servers
CN109074117B (zh) 提供基于情绪的认知助理系统、方法及计算器可读取媒体
Zhou et al. Tackling mental health by integrating unobtrusive multimodal sensing
US9891884B1 (en) Augmented reality enabled response modification
WO2020148920A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN112016367A (zh) 一种情绪识别系统、方法及电子设备
US11216704B2 (en) Recognition system using multimodality dataset
JP2019175108A (ja) 感情情報管理サーバ装置、感情情報管理方法、プログラム、端末装置及び情報通信システム
Kim et al. Beginning of a new standard: Internet of Media Things
US11227148B2 (en) Information processing apparatus, information processing method, information processing program, and information processing system
TW201826167A (zh) 一種表情反饋方法及智慧機器人
WO2018173948A1 (ja) サービス提供システム
JP7306439B2 (ja) 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム
JP7306152B2 (ja) 感情推定装置、感情推定方法、プログラム、情報提示装置、情報提示方法及び感情推定システム
JP2020052748A (ja) サーバ装置、情報処理方法、プログラム、端末装置及び情報通信システム
CN116868163A (zh) 医疗智能系统和方法
US20210142047A1 (en) Salient feature extraction using neural networks with temporal modeling for real time incorporation (sentri) autism aide
El Kaliouby et al. iSET: interactive social-emotional toolkit for autism spectrum disorder
CN113921098A (zh) 一种医疗服务评价方法和系统
Ochs et al. From emotions to interpersonal stances: Multi-level analysis of smiling virtual characters
JP2008306586A (ja) 情況推定方法、情況推定プログラム及びネットワークシステム
JP3936295B2 (ja) データベース作成装置
WO2023119526A1 (ja) ウェアラブルデバイスおよび行動評価システム
US20240233940A1 (en) Interactive medical communication device
US11935329B2 (en) Video analysis program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210316

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210810