JP2022128366A - 人工ニューラルネットワークを用いた動作認識のテレビ会議方法 - Google Patents

人工ニューラルネットワークを用いた動作認識のテレビ会議方法 Download PDF

Info

Publication number
JP2022128366A
JP2022128366A JP2021060898A JP2021060898A JP2022128366A JP 2022128366 A JP2022128366 A JP 2022128366A JP 2021060898 A JP2021060898 A JP 2021060898A JP 2021060898 A JP2021060898 A JP 2021060898A JP 2022128366 A JP2022128366 A JP 2022128366A
Authority
JP
Japan
Prior art keywords
neural network
information
artificial neural
computer
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021060898A
Other languages
English (en)
Inventor
ナンフィ キム
Nan Hee Kim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rsupport Co Ltd
Original Assignee
Rsupport Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rsupport Co Ltd filed Critical Rsupport Co Ltd
Publication of JP2022128366A publication Critical patent/JP2022128366A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

【課題】人工ニューラルネットワークを用いた動作認識のテレビ会議方法を提供する。【解決手段】インターネットを介して相互に接続されたコンピュータ10によって行われるテレビ会議に関し、複数の正規化した画像情報、及びそれに対応する動作情報35に基づいて、人工ニューラルネットワークの機械学習を行い、これを活用して、コンピュータ10の音声入出力等の設定を自動で変更することができるようにしたものである。本発明によれば、テレビ会議の進行過程におけるユーザの意図を迅速、かつ、正確に把握し、これをコンピュータ10の入出力設定に反映して入力音量及び出力音量を最適化することができる。【選択図】図5

Description

本発明は、インターネットを介して相互に接続されたコンピュータ10によって行われるテレビ会議において、複数の正規化した画像情報、及びそれに対応する動作情報35に基づいて、人工ニューラルネットワークの機械学習を行い、これを活用して、コンピュータ10の音声入出力等の設定を自動で変更することができるようにした人工ニューラルネットワークを用いた動作認識のテレビ会議方法に関する。
インターネット通信の速度及びパーソナルコンピュータ10の性能の向上によって、専用通信線、高価な映像設備、及び信号処理システムを構築しなくても、インターネット及びパーソナルコンピュータ10を介した多者間でのテレビ会議が可能になり、テレビ会議に参加するコンピュータ10に搭載されたブラウザが、テレビ会議を目的として開設されたウェブページ21にアクセスする方式によって、テレビ会議が進行され、ユーザの便宜性を飛躍的に向上させている(例えば、特許文献1参照。)。
また、高速移動無線通信網、無線LAN等の無線網の普及が拡大され、無線網へのアクセス及び高速・大容量の情報処理が可能なスマートフォン、タブレットPC等の携帯型情報通信機器の使用が普遍化されることによって、コンピュータ10及びインターネットに基づくテレビ会議を行うに当たり、時間的・空間的な制約が著しく少なくなっている。
すなわち、デスクトップ型のパーソナルコンピュータ10を使用した、事務室、会議室等の固定された空間で行われた従来のテレビ会議に限られることなく、無線網へのアクセスが可能な様々な携帯型情報通信機器がテレビ会議に使用されることによって、家庭だけでなく、公共場所、野外等の様々な環境においてテレビ会議が行われるようになった。
大韓民国特許第1771400号公報
前述されたように、テレビ会議を行うときの時間的・空間的な制約が少なくなり、様々な場所においてテレビ会議を行うに当たり、コンピュータ10を介したテレビ会議を行う際の、コンピュータ10への入力音量及びコンピュータ10からの出力音量、すなわち、音声入出力等の設定の変更及び調整(以下、「設定調整」という。)を迅速、かつ、弾力的に行うことが求められる。
ところで、インターネットを介して相互に接続されたコンピュータ10によって行われるテレビ会議において伝送される主要な情報は、映像情報及び音声情報であり、このうち音声情報は、入力側だけでなく、出力側において周辺状況による相当程度の影響を受ける。
そこで、テレビ会議を行うに当たり、コンピュータ10への入力音量及びコンピュータ10からの出力音量である音声入出力の設定調整は、基本的にキーボード、マウス、タッチスクリーン等のコンピュータ10の入力装置を操作することによって行われるが、このような伝統的な方式の設定調整は、次のような問題点を有する。
まず、前述されたように、テレビ会議が行われる場所が、固定された事務室、会議室等に限られることなく多様に変化し、特に、移動中であったり、多目的施設等の混雑した場所であったりしてもテレビ会議を行うことができるので、迅速、かつ、弾力的に、しかも、繰返しの設定調整が頻繁に要求され、そのたびに、ユーザは、コンピュータ10の入力装置を操作しなければならず、作業が煩わしい。
特に、スマートフォン、タブレットPC等の携帯型の情報通信機器がテレビ会議参加コンピュータ10として活用される場合、タッチスクリーンが大部分を占めている携帯型の情報通信機器の入力装置の特性上、テレビ会議の進行中に、タッチスクリーンへのタッチ操作が要求されるが、タッチスクリーンは、入力装置及び出力装置の機能を兼備するので、設定調整を行う操作の過程においてコンピュータ10の画面を変更することが不可避である。
このような設定調整を行う操作の過程においてコンピュータ10の画面を変更するのは、ユーザにとって煩わしいだけでなく、テレビ会議の進行時に伝送される映像情報を円滑に伝達するのが困難であり、テレビ会議の参加者間における円滑な疎通を妨げ、テレビ会議に集中するのが困難になってしまう。
本発明は、上記問題点に鑑みてなされたものであり、人工ニューラルネットワークを用いたテレビ会議方法において、複数の学習用の正規画像情報33及び動作情報35が人工ニューラルネットワーク40に入力され、機械学習が行われる分類学習ステップ(S10)と、テレビ会議参加コンピュータ10に入力された原始画像情報31が正規画像情報33に変換される正規化ステップ(S20)と、前記正規画像情報33が人工ニューラルネットワーク40に入力され、人工ニューラルネットワーク40から動作情報35が出力される分類導出ステップ(S31)と、前記動作情報35によって、コンピュータ10に搭載された会議プログラムの設定が変更される設定変更ステップ(S32)と、から成ることを特徴とする人工ニューラルネットワークを用いたテレビ会議方法である。
また、前記人工ニューラルネットワーク40は、抽出領域41及び接続領域42で構成される畳み込みニューラルネットワークであり、最終出力層からは、動作情報35が確率値として導出されることを特徴とする人工ニューラルネットワークを用いたテレビ会議方法である。
本発明によれば、テレビ会議の進行過程におけるユーザの意図を迅速、かつ、正確に把握し、これをコンピュータ10の入出力設定に反映して入力音量及び出力音量等を最適化することができる。
特に、このようなコンピュータ10の設定の最適化は、ユーザが装置を直接操作しなくても、自動で行われて、ユーザの便宜を確保することができ、テレビ会議を行うときの音声入出力等の設定調整を迅速、かつ、弾力的に行うことができる。
本発明の実施の形態におけるテレビ会議システム及び構成要素の構成要素間の接続状態の例を示す図である。 本発明の実施の形態におけるデスクトップ型のコンピュータの画面の例を示す図である。 本発明の実施の形態における携帯型の情報通信機器が使用されたときのコンピュータの画面の例を示す図である。 本発明の実施の形態における動作認識状態におけるデスクトップ型のコンピュータの画面の例を示す図である。 本発明の実施の形態における携帯型の情報通信機器が使用されたときの動作認識状態におけるコンピュータの画面の例を示す図である。 本発明の実施の形態における人工ニューラルネットワークの動作を示すフローチャートである。 本発明の実施の形態における人工ニューラルネットワークの構築及び活用方式を説明するための図である。 本発明の実施の形態におけるコンピュータの映像情報の前処理過程の例を示す図である。 本発明の実施の形態における人工ニューラルネットワークの構造を示す図である。 本発明の実施の形態における人工ニューラルネットワークの接続領域の構造を示す図である。
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。
図1に示されるように、本発明の人工ニューラルネットワークを用いた動作認識のテレビ会議方法を実行するための会議システムは、基本的に、映像撮影機能(撮像機能)及び音声入出力機能を備えた複数のコンピュータ10を備え、各コンピュータ10はインターネットを介して相互に接続される。
また、図1において仮想線で示されるように、会議システムにウェブページ21又はサーバ(会議サーバ)20を配設し、テレビ会議に参加するコンピュータ10が、ウェブページ21又はサーバ20を介して接続されるようにすることもできる。
本発明によるコンピュータ10として、カメラ及び音声入出力装置が装着され、撮影及び音声入出力が可能な、通常のデスクトップ型のコンピュータ10又はラップトップ型のコンピュータ10だけでなく、図1に示されるように、撮像機能を備え、インターネットへのアクセスが可能なスマートフォン、タブレットPC等の様々な情報通信機器を用いることができる。
その他のテレビ会議方法と同様に、本発明におけるテレビ会議に参加するコンピュータ10間の主な送受信情報は、映像情報及び音声情報であり、これらの情報は、コンピュータ10間に開設された通信路(Session)を介して伝送されるが、映像情報及び音声情報の入出力及び伝送を行う会議プログラムが各コンピュータ10に搭載され、実行されることによって、テレビ会議が行われる。
このような会議プログラムは、映像情報及び音声情報の送受信機能を備えたブラウザ(Browser)、映像情報及び音声情報の送受信プラグイン(Plug-in)が設置されたブラウザ、テレビ会議を目的とした通信路の開設及び情報の送受信を行うために別途配設されたアプリケーション等の様々な形式を有してもよい。
特に、図1において仮想線で示されるように、サーバ20に接続されたウェブページ21を備えた会議システムにおいては、コンピュータ10の会議プログラムがウェブページ21を介してサーバ20にアクセスされる方式が用いられるので、会議プログラムとしては、前述されたブラウザが使用される。この場合、ブラウザは、一般のインターネットユーザフレンドリーなプログラムであるので、会議プログラムとして前記ブラウザを使用することによってユーザの便宜性を向上させることができる。
図2は本発明によるデスクトップ型のコンピュータ10の画面を例示したものであり、図に示されるように、デスクトップ型のコンピュータ10が使用される場合、コンピュータ10の画面には、テレビ会議の相手の参加者の映像である映像情報が出力されるとともに、画面の一部に小型画面が形成され、該小型画面に当該コンピュータ10の撮像装置(カメラ)によって撮影された、当該コンピュータ10を操作するユーザの映像である映像情報がピクチャ・イン・ピクチャ(PIP:Picture In Picture)方式で出力される。
また、画面の所定の隅部分、本実施の形態においては、左下端部分に、コンピュータ10から出力される音量である出力音量を設定調整するための出力手段であるGUI(Graphical User Interface)が表示され、ユーザは、キーボード、マウス等の入力装置(操作部材)を操作し、GUIを介して出力音量を手動で設定調整することができる。コンピュータ10に入力される音量である入力音量も、ユーザが入力装置を操作し、各種の入力手段を介して手動で設定調整することができる。本発明においては、更に、後述される人工ニューラルネットワーク40(図7)を介して入力音量及び出力音量が自動で設定調整される。
図3は本発明による携帯型のコンピュータ10の画面を例示したものであり、図に示されるように、携帯型の情報通信機器がコンピュータ10として使用される場合、コンピュータ10の画面には、テレビ会議の相手の参加者の映像である映像情報が出力されるとともに、相手の参加者の映像情報が出力された領域に隣接させて形成された小型画面に、当該コンピュータ10の撮像装置によって撮影された、当該コンピュータ10を操作するユーザの映像である映像情報が出力される。
なお、携帯型のコンピュータ10の画面の一部に小型画面を形成し、該小型画面に当該コンピュータ10を操作するユーザの映像情報をピクチャ・イン・ピクチャ方式で出力することもできる。
コンピュータ10における前記小型画面に隣接する部分に、ボタン等の入力装置から成る操作部が配設される。ユーザは、操作部の入力装置を操作することによって、入力音量及び出力音量を手動で設定調整することができる。なお、コンピュータ10の画面に出力音量を設定調整するためのGUIを表示し、操作部としてのタッチスクリーンを操作し、GUIを介して出力音量を手動で設定調整することもできる。
このように、本発明においては、従来のテレビ会議と同様に、ユーザがキーボード、マウス、タッチスクリーン等の入力装置を操作することによって、入力音量及び出力音量を手動で設定調整することができるが、人工ニューラルネットワーク40によって入力音量及び出力音量を自動で設定調整することもできる。
すなわち、ユーザがコンピュータ10の入力装置を操作しなくても、ユーザの映像情報が人工ニューラルネットワーク40に入力されることによって、後述される動作情報35(図7)が導出され、会議プログラムは、人工ニューラルネットワーク40において動作情報35を使用し、入力音量及び出力音量を自動で設定調整する。このような人工ニューラルネットワーク40による入力音量及び出力音量の設定調整には、会議プログラムが、ユーザの映像情報を人工ニューラルネットワーク40に周期的に入力し、周期的に導出された動作情報35が反映させられる。
図4及び5は、ユーザの映像情報に基づいて、人工ニューラルネットワーク40がユーザの動作を認識して動作情報35を導出し、入力音量及び出力音量を自動で設定調整する状況を示す。
図4においては、ユーザが耳を傾けるポーズを取ることによって、出力音量が自動で設定調整されて音量が大きくされる動作認識状態の例が示され、図5においては、ユーザが口の前で人差し指を立てるポーズを取ることによって、出力音量が設定調整されて音声が消去される動作認識状態の例が示される。
前述されたように、本発明における会議プログラムは、テレビ会議に参加するコンピュータ10間の通信路の開設、映像情報及び音声情報の入出力、送受信等を行うプログラムであり、図1に示されるように各コンピュータ10がインターネットを介してサーバ20に接続される場合、学習された人工ニューラルネットワーク40がインターネットを介して各コンピュータ10に構築されるが、各コンピュータ10がインターネットを介することなく通信路によって直接接続される場合は、個別のコンピュータ10に、学習された人工ニューラルネットワーク40を構築する必要がある。その場合、人工ニューラルネットワーク40は、会議プログラムに含まれるサブプログラム又はプログラムモジュールの形態、会議プログラムと映像情報及び動作情報35を共有する別途のプログラムの形態等の様々な形態を有することができる。
また、図1に示されるように各コンピュータ10がインターネットを介してサーバ20に接続される場合、人工ニューラルネットワーク40をサーバ20に構築することによって、各コンピュータ10の電算資源が消耗されるのを防止することができる。さらに、テレビ会議の進行過程において伝送される映像情報及び音声情報の通信路は、各コンピュータ10間で直結されるが、サーバ20に構築された人工ニューラルネットワーク40への映像情報の送信及び人工ニューラルネットワーク40からの動作情報35の受信に限り、別途の通信路が接続されるようにしてもよい。
すなわち、本発明においてテレビ会議を行うための会議プログラムは、すべて個別のコンピュータ10に搭載されるが、学習された人工ニューラルネットワーク40は、個別のコンピュータ10に構築されてもよいし、コンピュータ10とインターネットを介して接続されたサーバ20にだけ構築されてもよい。
ただし、人工ニューラルネットワーク40が構築される箇所にかかわらず、人工ニューラルネットワーク40と会議プログラムとは相互緊密に接続され、人工ニューラルネットワーク40に入力される映像情報及び人工ニューラルネットワーク40から導出される動作情報35に対しては、会議プログラムと人工ニューラルネットワーク40との間で円滑な共有が保障される。
本発明における人工ニューラルネットワーク40は、既に学習された人工ニューラルネットワーク40と学習中の人工ニューラルネットワーク40とに分けられるが、これらの状態別の人工ニューラルネットワーク40は、構造上、同一の人工ニューラルネットワーク40と言える。前述された会議プログラムと共有する動作情報35を導出する人工ニューラルネットワーク40は、既に学習された人工ニューラルネットワーク40であって、入力音量及び出力音量を自動で設定調整するために必要な動作情報35を推定して導出するためには、図6のステップS10で示されるように、人工ニューラルネットワーク40の機械学習の過程を先行させる必要がある。
すなわち、本発明においては、まず、図7の上段部分及び中段部分に示されるように、複数の学習用の正規画像情報33及び学習用の動作情報35が人工ニューラルネットワーク40に入力され、機械学習として分類学習ステップが行われる(S10)。
初期の人工ニューラルネットワーク40の原型と言えるパーセプトロン(Perceptron)以来、機械学習を行う人工ニューラルネットワーク40の基本的な動作においては、事件の発生の有無又は結果の正誤が判断されるようになっている。すなわち、複数の学習用情報があらかじめ構築されて人工ニューラルネットワーク40に入力され、出力値が検定されて人工ニューラルネットワーク40の層間の重み付けが修正される。
そのために、人工ニューラルネットワーク40は、多数のメモリセルから成る、入力層(Input Layer)、隠れ層(Hidden Layer)及び出力層(Output Layer)を備え、各層が網状に接続され、情報の順伝播(フィードフォワード)及び逆伝播(バックプロパゲーション)が繰り返えされて、動作情報35の導出結果の誤差が0に収斂するように機械学習が行われる。
入力層、隠れ層及び出力層は、いずれも、図7に示されるように、縦方向に配列された多数のメモリセルで構成され、入力層のメモリセルに入力された情報は、隠れ層を構成するメモリセルを介して最終的に出力層に出力される。図7においては、隠れ層が単一の層で示されているが、隠れ層を多数の層によって構成することもでき、それぞれの層間における情報の伝達においては、重み付けが与えられた状態で順伝播が行われ、前述された機械学習の有無又は正誤の判断による逆伝播の処理によって前記重み付けが修正されることにより、動作情報35の導出結果の誤差が減少させられる。
本発明において、学習用情報としては、図7の上段部に示されるように、学習用の正規画像情報33及び学習用の動作情報35が使用される。学習用の正規画像情報33は、テレビ会議の参加者を想定した人のポーズが撮影された映像情報であり、学習用の動作情報35は、参加者の動作を特定する情報であって、それぞれの学習用の正規画像情報33に与えられるラベリング(Labeling)情報の特性を有するとともに、複数の動作分類のうちの一つが選ばれる択一的な特性を有する。
例えば、テレビ会議の参加者のポーズのうちの認識対象となるポーズを、通常の仕草から成る意味のないポーズ、並びに特別の仕草から成る、耳を傾けるポーズ、口を塞ぐポーズ及び耳を塞ぐポーズの三つの意味のあるポーズとして想定すると、人工ニューラルネットワーク40の出力層が四つのメモリセルによって構成されるので、学習用の動作情報35は、出力層を構成するメモリセルのうちの一つに、メモリセルの値として1を与え、出力層の残りのメモリセルに、メモリセルの値として0を与える。
図8は、映像情報の前処理(Preprocessing)過程を示す図であって、映像情報の前処理は、機械学習としての分類学習ステップ(S10)を行うための学習用の正規画像情報33である学習用の映像情報を構築するときだけでなく、後述される既に学習された人工ニューラルネットワーク40を稼動するときに同様に行われる。
人工ニューラルネットワーク40の機械学習、特に、本発明のような映像情報に基づく機械学習においては、映像情報が有する特性を十分に反映した結果が導出されるようにしなければならず、このため、学習中の人工ニューラルネットワーク40に入力される学習用の映像情報だけでなく、既に学習された人工ニューラルネットワーク40に入力される映像情報に対しても適切な前処理が必要である。
機械学習において必要となる学習用の映像情報の特性は、その映像情報が表示する事物又は状況についての情報と言えるが、仮に、人工ニューラルネットワーク40によって処理される複数の学習用の映像情報が、それぞれの解像度、コントラスト等の外的な要素において極端に異なると、機械学習の過程の全体が歪曲されて不正確な動作情報35が導出されてしまう。
したがって、本発明においては、人工ニューラルネットワーク40に入力される映像情報を所定の規格、すなわち、一定の解像度及びコントラストを有するように調整する前処理が行われる。特に、本発明において処理される映像情報は、テレビ会議に参加する参加者の動作に対する映像情報であるので、前記前処理においては、映像情報内の動作を表示する要素である動作表示要素を除いた不要な要素が除去される。
映像情報の前処理過程においては、図8に示されるように、原始画像情報31から人物要素以外の背景要素が除去されることによって抽出画像情報32が抽出(生成)され、該抽出画像情報32の解像度を一定の解像度に調整することによって正規画像情報33が生成される。すなわち、原始画像情報31が正規画像情報に変換される(S20)。そして、正規画像情報33は、学習用の映像情報として、又は動作情報35を導出するための導出用の映像情報として利用される。
図8に示すような映像情報の前処理過程において、人物と背景が混在した原始画像情報31から背景要素を除去して抽出画像情報32を抽出する処理は、通常のイメージプロセッシング技術が用いられて自動で行われる。また、抽出画像情報32から正規画像情報33を生成する処理においては、前述された解像度の調整が行われるだけでなく、情報量を収縮するために二進化処理等が行われてもよい。
このように、複数の学習用の正規画像情報33及び学習用の動作情報35が人工ニューラルネットワーク40に入力されて機械学習が行われる分類学習ステップ(S10)は、図9に示すような構造の人工ニューラルネットワーク40によって行われてもよい。
図9に示される人工ニューラルネットワーク40は、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)であり、抽出領域(Extraction Stack)41及び接続領域(Connected Network)42が順次連結されることによって構成される。
自然言語処理等に活用される一般のニューラルネットワークは、完全接続型(Fully Connected)構造を有するニューラルネットワークであり、入力層のメモリセルが一列で配置されるので、映像情報を入力する場合、映像情報を構成する多次元的情報が一次元的情報に単純化されてしまい、映像情報の特性が薄められるか、又は無視されるという致命的な短所を有する。
本発明において活用される畳み込みニューラルネットワークは、前述された完全接続型構造を有するニューラルネットワークの問題点を改善するために構築されたものであり、順伝播及び逆伝播の過程において映像情報の特性を有意に維持することができるように、図9に示されるように、畳み込み層(Convolution Layer)及びプーリング層(Pooling Layer)が繰り返される抽出領域41、及び該抽出領域41から抽出された情報が入力される接続領域42を備え、該接続領域42から最終的に動作情報35が結果として導出される。
畳み込みニューラルネットワーク(CNN)である本発明の人工ニューラルネットワーク40において、抽出領域41の畳み込み層は、正規画像情報33を構成する行列情報に対して畳み込み演算を行い、映像情報の特性を最大限維持しながら情報量を減縮する処理を行うものであり、これにより、正規画像情報33内の人物の位置、方向等の外的な要素の変動によって映像情報が歪曲されるのを抑えながら効率的な機械学習を行うことができる。
畳み込み層と順次繰り返して連結されるプーリング層は、畳み込み演算を行うことによって生成された行列情報から、所定の領域内の代表性を有する情報を抽出して、次元が縮小した行列情報を構築する処理を行う。プーリング層から抽出される所定の領域内の代表性を有する情報としては、最大値又は平均値が用いられる。
このように、畳み込み層及びプーリング層が繰り返される本発明の畳み込みニューラルネットワークにおいて、抽出領域41の最初の畳み込み層に入力された正規画像情報33は、結局、最終のプーリング層を通過した後、行列情報が一連の単一値情報に変換され、変換された情報は、図9に示されるように平坦化(Flatten)処理が施され、完全接続型ニューラルネットワークの入力層を構成する、一列に配置されたメモリセルに入力される。
図9に示されるように、入力層と出力層との間に隠れ層が配設される接続領域42においては、処理情報の順伝播が行われることによって、最終の出力層から動作情報35が結果として導出される。ここで、導出される動作情報35は、映像情報内の人物の意味のあるポーズを特定するための前述された学習用の動作情報35と同じ性格の情報である。そして、順伝播の結果として出力層から導出された動作情報35と、正規画像情報33に当初与えられた動作情報35とが比較され、その正誤に基づいて、逆伝播を介して各層間の重み付きが調整され、複数の学習用の正規画像情報33及び学習用の動作情報35に対して前述された過程が繰り返されることによって、本発明の人工ニューラルネットワーク40における機械学習、すなわち、分類学習ステップ(S10)が行われる。
図10は、図9に示した本発明の人工ニューラルネットワーク40における接続領域42を抜粋して示したものであり、入力層、二つの隠れ層、及び出力層を構成するメモリセルが網状に連結されて、情報の順伝播及び逆伝播が行われる。最終結果を導出する出力層と隠れ層との間の活性化関数(Activation Function)としては、ソフトマックス関数(Softmax Function)が用いられる。
主として分類処理を行うのに活用されるソフトマックス関数は、図10に示されるように、最終の出力層を構成するそれぞれのメモリセルに確率値を与え、この場合、出力層を構成するそれぞれのメモリセルには0~1の値が与えられ、出力層の全体のメモリセルの合算値は1となる。
ソフトマックス関数が適用される接続領域42における出力層においては、当初設定された動作情報35に符合するように層間の重み付けが調整されながら、択一的に一つのメモリセルに、最大限1に近接した値が導出され、残りのメモリセルに、最大限0に近接した値が導出されるように機械学習が行われる。既に学習された人工ニューラルネットワーク40が本格的に活用される、後述される分類導出ステップ(S31)においては、0以上、かつ、1以下の確率値で導出された出力層のメモリセルの情報に基づいて、最大値の確率値を出力するメモリセルに対応する動作情報35を選択する方式で、当初入力された正規画像情報33の特性が把握される。
このように、分類学習ステップ(S10)が行われることによって、本発明の人工ニューラルネットワーク40が、学習された人工ニューラルネットワーク40として構築され、前述されたように、会議に参加するコンピュータ10がサーバ20を介することなく直接接続され、コンピュータ10に搭載された会議プログラムが独立して挙動する場合、学習された人工ニューラルネットワーク40は、会議プログラムに含まれるサブプログラム又はプログラムモジュールの形態、又は会議プログラムと映像情報及び動作情報35を共有する別途のプログラムの形態を有し、個別のコンピュータ10に独立して構築される。
また、図1に示されるように、テレビ会議に参加するコンピュータ10間の映像情報及び音声情報の伝送がサーバ20によって中継される場合、コンピュータ10とサーバ20との間に一回性又は間欠的な通信路が開設されて、人工ニューラルネットワーク40への映像情報及び動作情報35の伝送が行われる場合等は、人工ニューラルネットワーク40をサーバ20にだけ構築してもよい。
機械学習としての分類学習ステップ(S10)が終了し、学習された人工ニューラルネットワーク40が構築されると、これを活用してテレビ会議の参加者の意味のあるポーズに符合する動作情報35が導出され、これに基づいて、入力音量及び出力音量の設定調整等が変更される一連の過程が行われるが、図6に示されるように、まず、動作情報35の導出過程として、テレビ会議に参加するコンピュータ10に入力された原始画像情報31が正規画像情報33に変換される正規化ステップ(S20)が行われる。
正規化ステップ(S20)において、テレビ会議に参加するコンピュータ10に入力される原始画像情報31は、当該コンピュータ10に装着されたカメラによって撮影された映像情報であり、テレビ会議の参加者である当該コンピュータ10のユーザの人物要素と周辺の背景要素とを含み、図8の左側に示した形態を有する。
コンピュータ10に装着されたカメラによって最初に撮影された原始画像情報31は、図8に示されるように、背景要素が除去され、人物要素だけが抽出された抽出画像情報32に修正された後、一定の解像度又はコントラストに調整され、最終的に正規画像情報33に変換される。このような正規化ステップ(S20)は、通常の様々なイメージプロセッシング技法が用いられ、会議プログラムによって行われる。
すなわち、原始画像情報31が正規画像情報33に変換される正規化ステップ(S20)は、ユーザの操作がなくても、個別のコンピュータ10に搭載された会議プログラムによって自動で行われる。そのために、会議プログラムには、原始画像情報31から人物要素を抽出し、その解像度を調整するためのイメージプロセッシング機能が与えられる。
正規化ステップ(S20)が終了し、原始画像情報31が正規画像情報33に変換されて生成されると、生成された正規画像情報33が人工ニューラルネットワーク40に入力され、人工ニューラルネットワーク40から動作情報35が導出される分類導出ステップ(S31)が行われる。
分類導出ステップ(S31)においては、図8に示される正規化ステップ(S20)によって原始画像情報31から変換された正規画像情報33が、図9に示されるように、既に学習された人工ニューラルネットワーク40に入力され、人工ニューラルネットワーク40が稼動されて、結果として動作情報35が導出される。前述されたように、本発明の人工ニューラルネットワーク40の最終層である接続領域42の出力層においては、それぞれのメモリセルごとに確率値が出力されるので、最大の確率値を有するメモリセルに対応する動作情報35が分類導出ステップ(S31)の実行結果として導出される。
次に、本発明の人工ニューラルネットワーク40において、分類学習ステップ(S10)及び分類導出ステップ(S31)が実行されるときの出力層のメモリセルについて、図7を用いて説明する。図7は、四つのポーズを区分する人工ニューラルネットワーク40が想定されたものであり、出力層に四つのメモリセルが与えられ、機械学習の進行過程である分類学習ステップ(S10)においては、出力層のメモリセルに択一的に1が与えられ、残りのメモリセルに0が与えられるが、既に学習された人工ニューラルネットワーク40の活用過程である分類導出ステップ(S31)においては、出力層のメモリセルに0~1の値が与えられ、動作情報35が結果として導出される。
例えば、参加者のポーズを、意味のないポーズ、耳を傾けるポーズ、口を塞ぐポーズ及び耳を塞ぐポーズから成る四つのポーズとして想定すると、分類学習ステップ(S10)においては、動作情報35を導出する出力層の四つのメモリセルに順次択一的に1が与えられ、学習用の正規画像情報33が意味のないポーズであれば、出力層の第1段のメモリセルに1が与えられ、残りのメモリセルに0が与えられ、学習用の正規画像情報33が耳を傾けるポーズであれば、出力層の第2段に1が与えられ、残りに0が与えられ、口を塞ぐポーズであれば、出力層の第3段に1が与えられ、耳を塞ぐポーズであれば、出力層の第4段に1が与えられる方式で機械学習が行われる。そして、既に学習された人工ニューラルネットワーク40が活用される分類導出ステップ(S31)においては、出力層の各段別のメモリセルのうちの、最大確率値が出力された段に対応する動作情報35が採用され、図7の下段部に示された出力層のメモリセルにおいては、第3段に最大の確率値が出力されたことから、前述されたポーズの分類によれば、該当正規画像情報33は、口を塞ぐポーズに分類される。
このように、分類導出ステップ(S31)によってテレビ会議の参加者のポーズに対する分類が終了すると、導出された動作情報35によって、会議プログラムの設定が変更される設定変更ステップ(S32)が行われ、会議プログラムが実行されるコンピュータ10の入力音量及び出力音量が適宜設定調整される。
このような設定変更ステップ(S32)も、個別のコンピュータ10に搭載された会議プログラムによって行われるものであり、前述されたように個別のコンピュータ10に構築され、又はコンピュータ10と接続されたサーバ20に構築された、既に学習された人工ニューラルネットワーク40から導出された動作情報35によって、テレビ会議参加者のポーズが把握されると、該当意図に符合する入力音量及び出力音量の設定調整が会議プログラムに変更適用される。
10 コンピュータ
20 サーバ
21 ウェブページ
31 原始画像情報
32 抽出画像情報
33 正規画像情報
35 動作情報
40 人工ニューラルネットワーク
41 抽出領域
42 接続領域
S10 分類学習ステップ
S20 正規化ステップ
S31 分類導出ステップ
S32 設定変更ステップ
本発明は、上記問題点に鑑みてなされたものであり、人工ニューラルネットワークを用いたテレビ会議方法において、テレビ会議参加コンピュータ10に入力された原始画像情報31から抽出画像情報32が抽出され、抽出画像情報32の解像度が一定の解像度に調整されて正規画像情報33が生成される正規化ステップと、正規化ステップで生成された複数の学習用の正規画像情報33及び学習用の動作情報35が人工ニューラルネットワーク40に入力され、機械学習が行われる分類学習ステップと、前記正規化ステップで生成された、動作情報35の出力用の正規画像情報33が、前記分類学習ステップで機械学習が行われた人工ニューラルネットワーク40に入力され、人工ニューラルネットワーク40から、テレビ会議の参加者の動作を認識する動作情報35が出力される分類導出ステップと、前記人工ニューラルネットワーク40から出力された動作情報35によって、コンピュータ10に搭載された会議プログラムの設定が変更される設定変更ステップと、からなることを特徴とする人工ニューラルネットワークを用いたテレビ会議方法である。

Claims (2)

  1. 人工ニューラルネットワークを用いたテレビ会議方法であって、
    複数の学習用の正規画像情報(33)及び動作情報(35)が人工ニューラルネットワーク(40)に入力され、機械学習が行われる分類学習ステップ(S10)と、
    テレビ会議参加コンピュータ(10)に入力された原始画像情報(31)が正規画像情報(33)に変換される正規化ステップ(S20)と、
    前記正規画像情報(33)が人工ニューラルネットワーク(40)に入力され、人工ニューラルネットワーク(40)から動作情報(35)が出力される分類導出ステップ(S31)と、
    前記動作情報(35)によって、コンピュータ(10)に搭載された会議プログラムの設定が変更される設定変更ステップ(S32)と、からなることを特徴とする人工ニューラルネットワークを用いたテレビ会議方法。
  2. 人工ニューラルネットワーク(40)は、抽出領域(41)及び接続領域(42)で構成される畳み込みニューラルネットワークであり、最終出力層からは、動作情報(35)が確率値として導出されることを特徴とする請求項1に記載の人工ニューラルネットワークを用いたテレビ会議方法。
JP2021060898A 2021-02-22 2021-03-31 人工ニューラルネットワークを用いた動作認識のテレビ会議方法 Pending JP2022128366A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210023308A KR20220138430A (ko) 2021-02-22 2021-02-22 인공신경망을 이용한 동작 인식 화상회의 방법
KR10-2021-0023308 2021-02-22

Publications (1)

Publication Number Publication Date
JP2022128366A true JP2022128366A (ja) 2022-09-01

Family

ID=83061297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021060898A Pending JP2022128366A (ja) 2021-02-22 2021-03-31 人工ニューラルネットワークを用いた動作認識のテレビ会議方法

Country Status (2)

Country Link
JP (1) JP2022128366A (ja)
KR (1) KR20220138430A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010541398A (ja) * 2007-09-24 2010-12-24 ジェスチャー テック,インコーポレイテッド 音声及びビデオ通信のための機能向上したインタフェース
JP2012100185A (ja) * 2010-11-05 2012-05-24 Panasonic Corp テレビ会議システム、テレビ会議方法、プログラムおよび記録媒体
CN104767861A (zh) * 2015-04-01 2015-07-08 山东共达电声股份有限公司 一种调节会议电话音频的方法及装置
JP2017187850A (ja) * 2016-04-01 2017-10-12 株式会社リコー 画像処理システム、情報処理装置、プログラム
JP2017195629A (ja) * 2012-08-03 2017-10-26 アルカテル−ルーセント ビデオ会議中の参加者の映像ミュートを可能にするための方法および装置
JP2019194788A (ja) * 2018-05-02 2019-11-07 日本電信電話株式会社 学習装置、認識装置、学習方法及びコンピュータプログラム
JP2020144551A (ja) * 2019-03-05 2020-09-10 株式会社デンソーテン 制御装置および制御方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010541398A (ja) * 2007-09-24 2010-12-24 ジェスチャー テック,インコーポレイテッド 音声及びビデオ通信のための機能向上したインタフェース
JP2012100185A (ja) * 2010-11-05 2012-05-24 Panasonic Corp テレビ会議システム、テレビ会議方法、プログラムおよび記録媒体
JP2017195629A (ja) * 2012-08-03 2017-10-26 アルカテル−ルーセント ビデオ会議中の参加者の映像ミュートを可能にするための方法および装置
CN104767861A (zh) * 2015-04-01 2015-07-08 山东共达电声股份有限公司 一种调节会议电话音频的方法及装置
JP2017187850A (ja) * 2016-04-01 2017-10-12 株式会社リコー 画像処理システム、情報処理装置、プログラム
JP2019194788A (ja) * 2018-05-02 2019-11-07 日本電信電話株式会社 学習装置、認識装置、学習方法及びコンピュータプログラム
JP2020144551A (ja) * 2019-03-05 2020-09-10 株式会社デンソーテン 制御装置および制御方法

Also Published As

Publication number Publication date
KR20220138430A (ko) 2022-10-13

Similar Documents

Publication Publication Date Title
KR102380222B1 (ko) 비디오 회의에서의 감정 인식
US8154578B2 (en) Multi-camera residential communication system
US8159519B2 (en) Personal controls for personal video communications
US8253770B2 (en) Residential video communication system
US8154583B2 (en) Eye gazing imaging for video communications
US8063929B2 (en) Managing scene transitions for video communication
EP1592198B1 (en) Systems and methods for real-time audio-visual communication and data collaboration
US20070120966A1 (en) Speaker predicting apparatus, speaker predicting method, and program product for predicting speaker
AU2009212965A1 (en) Displaying dynamic caller identity during point- to-point and multipoint audio/videoconference
KR102566072B1 (ko) 인물 위치 완속 조정형 화상회의 방법
WO2024078359A1 (zh) 一种多模态的智慧教室边缘计算控制系统
EP3466057A1 (en) Information processing apparatus, conference system, and control method of information processing apparatus
US20210312143A1 (en) Real-time call translation system and method
JP2022128366A (ja) 人工ニューラルネットワークを用いた動作認識のテレビ会議方法
US20150163259A1 (en) Detecting active region in collaborative computing sessions using voice information
KR102494800B1 (ko) 인공신경망을 이용한 화상회의 방법
US20220208216A1 (en) Two-way communication support system and storage medium
KR20230116605A (ko) 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램
CN117296308A (zh) 用于基于网络的通信的智能内容显示
KR20220061763A (ko) 화상 회의를 제공하는 전자 장치 및 화상 회의를 제공하는 방법
CN106851380A (zh) 一种基于智能电视的信息处理方法和装置
CN114040145B (zh) 一种视频会议人像显示方法、系统、终端及存储介质
US20230269468A1 (en) Autonomous video conferencing system with virtual director assistance
KR102201324B1 (ko) 스마트 단말기를 이용한 회의 운영 방법
US11830120B2 (en) Speech image providing method and computing device for performing the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220824

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221220