JP2022128366A

JP2022128366A - 人工ニューラルネットワークを用いた動作認識のテレビ会議方法

Info

Publication number: JP2022128366A
Application number: JP2021060898A
Authority: JP
Inventors: ナンフィキム; Nan Hee Kim
Original assignee: Rsupport Co Ltd
Current assignee: Rsupport Co Ltd
Priority date: 2021-02-22
Filing date: 2021-03-31
Publication date: 2022-09-01
Also published as: KR20220138430A

Abstract

【課題】人工ニューラルネットワークを用いた動作認識のテレビ会議方法を提供する。【解決手段】インターネットを介して相互に接続されたコンピュータ１０によって行われるテレビ会議に関し、複数の正規化した画像情報、及びそれに対応する動作情報３５に基づいて、人工ニューラルネットワークの機械学習を行い、これを活用して、コンピュータ１０の音声入出力等の設定を自動で変更することができるようにしたものである。本発明によれば、テレビ会議の進行過程におけるユーザの意図を迅速、かつ、正確に把握し、これをコンピュータ１０の入出力設定に反映して入力音量及び出力音量を最適化することができる。【選択図】図５

Description

本発明は、インターネットを介して相互に接続されたコンピュータ１０によって行われるテレビ会議において、複数の正規化した画像情報、及びそれに対応する動作情報３５に基づいて、人工ニューラルネットワークの機械学習を行い、これを活用して、コンピュータ１０の音声入出力等の設定を自動で変更することができるようにした人工ニューラルネットワークを用いた動作認識のテレビ会議方法に関する。

インターネット通信の速度及びパーソナルコンピュータ１０の性能の向上によって、専用通信線、高価な映像設備、及び信号処理システムを構築しなくても、インターネット及びパーソナルコンピュータ１０を介した多者間でのテレビ会議が可能になり、テレビ会議に参加するコンピュータ１０に搭載されたブラウザが、テレビ会議を目的として開設されたウェブページ２１にアクセスする方式によって、テレビ会議が進行され、ユーザの便宜性を飛躍的に向上させている（例えば、特許文献１参照。）。

また、高速移動無線通信網、無線ＬＡＮ等の無線網の普及が拡大され、無線網へのアクセス及び高速・大容量の情報処理が可能なスマートフォン、タブレットＰＣ等の携帯型情報通信機器の使用が普遍化されることによって、コンピュータ１０及びインターネットに基づくテレビ会議を行うに当たり、時間的・空間的な制約が著しく少なくなっている。

すなわち、デスクトップ型のパーソナルコンピュータ１０を使用した、事務室、会議室等の固定された空間で行われた従来のテレビ会議に限られることなく、無線網へのアクセスが可能な様々な携帯型情報通信機器がテレビ会議に使用されることによって、家庭だけでなく、公共場所、野外等の様々な環境においてテレビ会議が行われるようになった。

大韓民国特許第１７７１４００号公報

前述されたように、テレビ会議を行うときの時間的・空間的な制約が少なくなり、様々な場所においてテレビ会議を行うに当たり、コンピュータ１０を介したテレビ会議を行う際の、コンピュータ１０への入力音量及びコンピュータ１０からの出力音量、すなわち、音声入出力等の設定の変更及び調整（以下、「設定調整」という。）を迅速、かつ、弾力的に行うことが求められる。

ところで、インターネットを介して相互に接続されたコンピュータ１０によって行われるテレビ会議において伝送される主要な情報は、映像情報及び音声情報であり、このうち音声情報は、入力側だけでなく、出力側において周辺状況による相当程度の影響を受ける。

そこで、テレビ会議を行うに当たり、コンピュータ１０への入力音量及びコンピュータ１０からの出力音量である音声入出力の設定調整は、基本的にキーボード、マウス、タッチスクリーン等のコンピュータ１０の入力装置を操作することによって行われるが、このような伝統的な方式の設定調整は、次のような問題点を有する。

まず、前述されたように、テレビ会議が行われる場所が、固定された事務室、会議室等に限られることなく多様に変化し、特に、移動中であったり、多目的施設等の混雑した場所であったりしてもテレビ会議を行うことができるので、迅速、かつ、弾力的に、しかも、繰返しの設定調整が頻繁に要求され、そのたびに、ユーザは、コンピュータ１０の入力装置を操作しなければならず、作業が煩わしい。

特に、スマートフォン、タブレットＰＣ等の携帯型の情報通信機器がテレビ会議参加コンピュータ１０として活用される場合、タッチスクリーンが大部分を占めている携帯型の情報通信機器の入力装置の特性上、テレビ会議の進行中に、タッチスクリーンへのタッチ操作が要求されるが、タッチスクリーンは、入力装置及び出力装置の機能を兼備するので、設定調整を行う操作の過程においてコンピュータ１０の画面を変更することが不可避である。

このような設定調整を行う操作の過程においてコンピュータ１０の画面を変更するのは、ユーザにとって煩わしいだけでなく、テレビ会議の進行時に伝送される映像情報を円滑に伝達するのが困難であり、テレビ会議の参加者間における円滑な疎通を妨げ、テレビ会議に集中するのが困難になってしまう。

本発明は、上記問題点に鑑みてなされたものであり、人工ニューラルネットワークを用いたテレビ会議方法において、複数の学習用の正規画像情報３３及び動作情報３５が人工ニューラルネットワーク４０に入力され、機械学習が行われる分類学習ステップ（Ｓ１０）と、テレビ会議参加コンピュータ１０に入力された原始画像情報３１が正規画像情報３３に変換される正規化ステップ（Ｓ２０）と、前記正規画像情報３３が人工ニューラルネットワーク４０に入力され、人工ニューラルネットワーク４０から動作情報３５が出力される分類導出ステップ（Ｓ３１）と、前記動作情報３５によって、コンピュータ１０に搭載された会議プログラムの設定が変更される設定変更ステップ（Ｓ３２）と、から成ることを特徴とする人工ニューラルネットワークを用いたテレビ会議方法である。

また、前記人工ニューラルネットワーク４０は、抽出領域４１及び接続領域４２で構成される畳み込みニューラルネットワークであり、最終出力層からは、動作情報３５が確率値として導出されることを特徴とする人工ニューラルネットワークを用いたテレビ会議方法である。

本発明によれば、テレビ会議の進行過程におけるユーザの意図を迅速、かつ、正確に把握し、これをコンピュータ１０の入出力設定に反映して入力音量及び出力音量等を最適化することができる。

特に、このようなコンピュータ１０の設定の最適化は、ユーザが装置を直接操作しなくても、自動で行われて、ユーザの便宜を確保することができ、テレビ会議を行うときの音声入出力等の設定調整を迅速、かつ、弾力的に行うことができる。

本発明の実施の形態におけるテレビ会議システム及び構成要素の構成要素間の接続状態の例を示す図である。本発明の実施の形態におけるデスクトップ型のコンピュータの画面の例を示す図である。本発明の実施の形態における携帯型の情報通信機器が使用されたときのコンピュータの画面の例を示す図である。本発明の実施の形態における動作認識状態におけるデスクトップ型のコンピュータの画面の例を示す図である。本発明の実施の形態における携帯型の情報通信機器が使用されたときの動作認識状態におけるコンピュータの画面の例を示す図である。本発明の実施の形態における人工ニューラルネットワークの動作を示すフローチャートである。本発明の実施の形態における人工ニューラルネットワークの構築及び活用方式を説明するための図である。本発明の実施の形態におけるコンピュータの映像情報の前処理過程の例を示す図である。本発明の実施の形態における人工ニューラルネットワークの構造を示す図である。本発明の実施の形態における人工ニューラルネットワークの接続領域の構造を示す図である。

以下、本発明の実施の形態について図面を参照しながら詳細に説明する。

図１に示されるように、本発明の人工ニューラルネットワークを用いた動作認識のテレビ会議方法を実行するための会議システムは、基本的に、映像撮影機能（撮像機能）及び音声入出力機能を備えた複数のコンピュータ１０を備え、各コンピュータ１０はインターネットを介して相互に接続される。

また、図１において仮想線で示されるように、会議システムにウェブページ２１又はサーバ（会議サーバ）２０を配設し、テレビ会議に参加するコンピュータ１０が、ウェブページ２１又はサーバ２０を介して接続されるようにすることもできる。

本発明によるコンピュータ１０として、カメラ及び音声入出力装置が装着され、撮影及び音声入出力が可能な、通常のデスクトップ型のコンピュータ１０又はラップトップ型のコンピュータ１０だけでなく、図１に示されるように、撮像機能を備え、インターネットへのアクセスが可能なスマートフォン、タブレットＰＣ等の様々な情報通信機器を用いることができる。

その他のテレビ会議方法と同様に、本発明におけるテレビ会議に参加するコンピュータ１０間の主な送受信情報は、映像情報及び音声情報であり、これらの情報は、コンピュータ１０間に開設された通信路（Ｓｅｓｓｉｏｎ）を介して伝送されるが、映像情報及び音声情報の入出力及び伝送を行う会議プログラムが各コンピュータ１０に搭載され、実行されることによって、テレビ会議が行われる。

このような会議プログラムは、映像情報及び音声情報の送受信機能を備えたブラウザ（Ｂｒｏｗｓｅｒ）、映像情報及び音声情報の送受信プラグイン（Ｐｌｕｇ－ｉｎ）が設置されたブラウザ、テレビ会議を目的とした通信路の開設及び情報の送受信を行うために別途配設されたアプリケーション等の様々な形式を有してもよい。

特に、図１において仮想線で示されるように、サーバ２０に接続されたウェブページ２１を備えた会議システムにおいては、コンピュータ１０の会議プログラムがウェブページ２１を介してサーバ２０にアクセスされる方式が用いられるので、会議プログラムとしては、前述されたブラウザが使用される。この場合、ブラウザは、一般のインターネットユーザフレンドリーなプログラムであるので、会議プログラムとして前記ブラウザを使用することによってユーザの便宜性を向上させることができる。

図２は本発明によるデスクトップ型のコンピュータ１０の画面を例示したものであり、図に示されるように、デスクトップ型のコンピュータ１０が使用される場合、コンピュータ１０の画面には、テレビ会議の相手の参加者の映像である映像情報が出力されるとともに、画面の一部に小型画面が形成され、該小型画面に当該コンピュータ１０の撮像装置（カメラ）によって撮影された、当該コンピュータ１０を操作するユーザの映像である映像情報がピクチャ・イン・ピクチャ（ＰＩＰ：ＰｉｃｔｕｒｅＩｎＰｉｃｔｕｒｅ）方式で出力される。

また、画面の所定の隅部分、本実施の形態においては、左下端部分に、コンピュータ１０から出力される音量である出力音量を設定調整するための出力手段であるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）が表示され、ユーザは、キーボード、マウス等の入力装置（操作部材）を操作し、ＧＵＩを介して出力音量を手動で設定調整することができる。コンピュータ１０に入力される音量である入力音量も、ユーザが入力装置を操作し、各種の入力手段を介して手動で設定調整することができる。本発明においては、更に、後述される人工ニューラルネットワーク４０（図７）を介して入力音量及び出力音量が自動で設定調整される。

図３は本発明による携帯型のコンピュータ１０の画面を例示したものであり、図に示されるように、携帯型の情報通信機器がコンピュータ１０として使用される場合、コンピュータ１０の画面には、テレビ会議の相手の参加者の映像である映像情報が出力されるとともに、相手の参加者の映像情報が出力された領域に隣接させて形成された小型画面に、当該コンピュータ１０の撮像装置によって撮影された、当該コンピュータ１０を操作するユーザの映像である映像情報が出力される。

なお、携帯型のコンピュータ１０の画面の一部に小型画面を形成し、該小型画面に当該コンピュータ１０を操作するユーザの映像情報をピクチャ・イン・ピクチャ方式で出力することもできる。

コンピュータ１０における前記小型画面に隣接する部分に、ボタン等の入力装置から成る操作部が配設される。ユーザは、操作部の入力装置を操作することによって、入力音量及び出力音量を手動で設定調整することができる。なお、コンピュータ１０の画面に出力音量を設定調整するためのＧＵＩを表示し、操作部としてのタッチスクリーンを操作し、ＧＵＩを介して出力音量を手動で設定調整することもできる。

このように、本発明においては、従来のテレビ会議と同様に、ユーザがキーボード、マウス、タッチスクリーン等の入力装置を操作することによって、入力音量及び出力音量を手動で設定調整することができるが、人工ニューラルネットワーク４０によって入力音量及び出力音量を自動で設定調整することもできる。

すなわち、ユーザがコンピュータ１０の入力装置を操作しなくても、ユーザの映像情報が人工ニューラルネットワーク４０に入力されることによって、後述される動作情報３５（図７）が導出され、会議プログラムは、人工ニューラルネットワーク４０において動作情報３５を使用し、入力音量及び出力音量を自動で設定調整する。このような人工ニューラルネットワーク４０による入力音量及び出力音量の設定調整には、会議プログラムが、ユーザの映像情報を人工ニューラルネットワーク４０に周期的に入力し、周期的に導出された動作情報３５が反映させられる。

図４及び５は、ユーザの映像情報に基づいて、人工ニューラルネットワーク４０がユーザの動作を認識して動作情報３５を導出し、入力音量及び出力音量を自動で設定調整する状況を示す。

図４においては、ユーザが耳を傾けるポーズを取ることによって、出力音量が自動で設定調整されて音量が大きくされる動作認識状態の例が示され、図５においては、ユーザが口の前で人差し指を立てるポーズを取ることによって、出力音量が設定調整されて音声が消去される動作認識状態の例が示される。

前述されたように、本発明における会議プログラムは、テレビ会議に参加するコンピュータ１０間の通信路の開設、映像情報及び音声情報の入出力、送受信等を行うプログラムであり、図１に示されるように各コンピュータ１０がインターネットを介してサーバ２０に接続される場合、学習された人工ニューラルネットワーク４０がインターネットを介して各コンピュータ１０に構築されるが、各コンピュータ１０がインターネットを介することなく通信路によって直接接続される場合は、個別のコンピュータ１０に、学習された人工ニューラルネットワーク４０を構築する必要がある。その場合、人工ニューラルネットワーク４０は、会議プログラムに含まれるサブプログラム又はプログラムモジュールの形態、会議プログラムと映像情報及び動作情報３５を共有する別途のプログラムの形態等の様々な形態を有することができる。

また、図１に示されるように各コンピュータ１０がインターネットを介してサーバ２０に接続される場合、人工ニューラルネットワーク４０をサーバ２０に構築することによって、各コンピュータ１０の電算資源が消耗されるのを防止することができる。さらに、テレビ会議の進行過程において伝送される映像情報及び音声情報の通信路は、各コンピュータ１０間で直結されるが、サーバ２０に構築された人工ニューラルネットワーク４０への映像情報の送信及び人工ニューラルネットワーク４０からの動作情報３５の受信に限り、別途の通信路が接続されるようにしてもよい。

すなわち、本発明においてテレビ会議を行うための会議プログラムは、すべて個別のコンピュータ１０に搭載されるが、学習された人工ニューラルネットワーク４０は、個別のコンピュータ１０に構築されてもよいし、コンピュータ１０とインターネットを介して接続されたサーバ２０にだけ構築されてもよい。

ただし、人工ニューラルネットワーク４０が構築される箇所にかかわらず、人工ニューラルネットワーク４０と会議プログラムとは相互緊密に接続され、人工ニューラルネットワーク４０に入力される映像情報及び人工ニューラルネットワーク４０から導出される動作情報３５に対しては、会議プログラムと人工ニューラルネットワーク４０との間で円滑な共有が保障される。

本発明における人工ニューラルネットワーク４０は、既に学習された人工ニューラルネットワーク４０と学習中の人工ニューラルネットワーク４０とに分けられるが、これらの状態別の人工ニューラルネットワーク４０は、構造上、同一の人工ニューラルネットワーク４０と言える。前述された会議プログラムと共有する動作情報３５を導出する人工ニューラルネットワーク４０は、既に学習された人工ニューラルネットワーク４０であって、入力音量及び出力音量を自動で設定調整するために必要な動作情報３５を推定して導出するためには、図６のステップＳ１０で示されるように、人工ニューラルネットワーク４０の機械学習の過程を先行させる必要がある。

すなわち、本発明においては、まず、図７の上段部分及び中段部分に示されるように、複数の学習用の正規画像情報３３及び学習用の動作情報３５が人工ニューラルネットワーク４０に入力され、機械学習として分類学習ステップが行われる（Ｓ１０）。

初期の人工ニューラルネットワーク４０の原型と言えるパーセプトロン（Ｐｅｒｃｅｐｔｒｏｎ）以来、機械学習を行う人工ニューラルネットワーク４０の基本的な動作においては、事件の発生の有無又は結果の正誤が判断されるようになっている。すなわち、複数の学習用情報があらかじめ構築されて人工ニューラルネットワーク４０に入力され、出力値が検定されて人工ニューラルネットワーク４０の層間の重み付けが修正される。

そのために、人工ニューラルネットワーク４０は、多数のメモリセルから成る、入力層（ＩｎｐｕｔＬａｙｅｒ）、隠れ層（ＨｉｄｄｅｎＬａｙｅｒ）及び出力層（ＯｕｔｐｕｔＬａｙｅｒ）を備え、各層が網状に接続され、情報の順伝播（フィードフォワード）及び逆伝播（バックプロパゲーション）が繰り返えされて、動作情報３５の導出結果の誤差が０に収斂するように機械学習が行われる。

入力層、隠れ層及び出力層は、いずれも、図７に示されるように、縦方向に配列された多数のメモリセルで構成され、入力層のメモリセルに入力された情報は、隠れ層を構成するメモリセルを介して最終的に出力層に出力される。図７においては、隠れ層が単一の層で示されているが、隠れ層を多数の層によって構成することもでき、それぞれの層間における情報の伝達においては、重み付けが与えられた状態で順伝播が行われ、前述された機械学習の有無又は正誤の判断による逆伝播の処理によって前記重み付けが修正されることにより、動作情報３５の導出結果の誤差が減少させられる。

本発明において、学習用情報としては、図７の上段部に示されるように、学習用の正規画像情報３３及び学習用の動作情報３５が使用される。学習用の正規画像情報３３は、テレビ会議の参加者を想定した人のポーズが撮影された映像情報であり、学習用の動作情報３５は、参加者の動作を特定する情報であって、それぞれの学習用の正規画像情報３３に与えられるラベリング（Ｌａｂｅｌｉｎｇ）情報の特性を有するとともに、複数の動作分類のうちの一つが選ばれる択一的な特性を有する。

例えば、テレビ会議の参加者のポーズのうちの認識対象となるポーズを、通常の仕草から成る意味のないポーズ、並びに特別の仕草から成る、耳を傾けるポーズ、口を塞ぐポーズ及び耳を塞ぐポーズの三つの意味のあるポーズとして想定すると、人工ニューラルネットワーク４０の出力層が四つのメモリセルによって構成されるので、学習用の動作情報３５は、出力層を構成するメモリセルのうちの一つに、メモリセルの値として１を与え、出力層の残りのメモリセルに、メモリセルの値として０を与える。

図８は、映像情報の前処理（Ｐｒｅｐｒｏｃｅｓｓｉｎｇ）過程を示す図であって、映像情報の前処理は、機械学習としての分類学習ステップ（Ｓ１０）を行うための学習用の正規画像情報３３である学習用の映像情報を構築するときだけでなく、後述される既に学習された人工ニューラルネットワーク４０を稼動するときに同様に行われる。

人工ニューラルネットワーク４０の機械学習、特に、本発明のような映像情報に基づく機械学習においては、映像情報が有する特性を十分に反映した結果が導出されるようにしなければならず、このため、学習中の人工ニューラルネットワーク４０に入力される学習用の映像情報だけでなく、既に学習された人工ニューラルネットワーク４０に入力される映像情報に対しても適切な前処理が必要である。

機械学習において必要となる学習用の映像情報の特性は、その映像情報が表示する事物又は状況についての情報と言えるが、仮に、人工ニューラルネットワーク４０によって処理される複数の学習用の映像情報が、それぞれの解像度、コントラスト等の外的な要素において極端に異なると、機械学習の過程の全体が歪曲されて不正確な動作情報３５が導出されてしまう。

したがって、本発明においては、人工ニューラルネットワーク４０に入力される映像情報を所定の規格、すなわち、一定の解像度及びコントラストを有するように調整する前処理が行われる。特に、本発明において処理される映像情報は、テレビ会議に参加する参加者の動作に対する映像情報であるので、前記前処理においては、映像情報内の動作を表示する要素である動作表示要素を除いた不要な要素が除去される。

映像情報の前処理過程においては、図８に示されるように、原始画像情報３１から人物要素以外の背景要素が除去されることによって抽出画像情報３２が抽出（生成）され、該抽出画像情報３２の解像度を一定の解像度に調整することによって正規画像情報３３が生成される。すなわち、原始画像情報３１が正規画像情報に変換される（Ｓ２０）。そして、正規画像情報３３は、学習用の映像情報として、又は動作情報３５を導出するための導出用の映像情報として利用される。

図８に示すような映像情報の前処理過程において、人物と背景が混在した原始画像情報３１から背景要素を除去して抽出画像情報３２を抽出する処理は、通常のイメージプロセッシング技術が用いられて自動で行われる。また、抽出画像情報３２から正規画像情報３３を生成する処理においては、前述された解像度の調整が行われるだけでなく、情報量を収縮するために二進化処理等が行われてもよい。

このように、複数の学習用の正規画像情報３３及び学習用の動作情報３５が人工ニューラルネットワーク４０に入力されて機械学習が行われる分類学習ステップ（Ｓ１０）は、図９に示すような構造の人工ニューラルネットワーク４０によって行われてもよい。

図９に示される人工ニューラルネットワーク４０は、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）であり、抽出領域（ＥｘｔｒａｃｔｉｏｎＳｔａｃｋ）４１及び接続領域（ＣｏｎｎｅｃｔｅｄＮｅｔｗｏｒｋ）４２が順次連結されることによって構成される。

自然言語処理等に活用される一般のニューラルネットワークは、完全接続型（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）構造を有するニューラルネットワークであり、入力層のメモリセルが一列で配置されるので、映像情報を入力する場合、映像情報を構成する多次元的情報が一次元的情報に単純化されてしまい、映像情報の特性が薄められるか、又は無視されるという致命的な短所を有する。

本発明において活用される畳み込みニューラルネットワークは、前述された完全接続型構造を有するニューラルネットワークの問題点を改善するために構築されたものであり、順伝播及び逆伝播の過程において映像情報の特性を有意に維持することができるように、図９に示されるように、畳み込み層（ＣｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）及びプーリング層（ＰｏｏｌｉｎｇＬａｙｅｒ）が繰り返される抽出領域４１、及び該抽出領域４１から抽出された情報が入力される接続領域４２を備え、該接続領域４２から最終的に動作情報３５が結果として導出される。

畳み込みニューラルネットワーク（ＣＮＮ）である本発明の人工ニューラルネットワーク４０において、抽出領域４１の畳み込み層は、正規画像情報３３を構成する行列情報に対して畳み込み演算を行い、映像情報の特性を最大限維持しながら情報量を減縮する処理を行うものであり、これにより、正規画像情報３３内の人物の位置、方向等の外的な要素の変動によって映像情報が歪曲されるのを抑えながら効率的な機械学習を行うことができる。

畳み込み層と順次繰り返して連結されるプーリング層は、畳み込み演算を行うことによって生成された行列情報から、所定の領域内の代表性を有する情報を抽出して、次元が縮小した行列情報を構築する処理を行う。プーリング層から抽出される所定の領域内の代表性を有する情報としては、最大値又は平均値が用いられる。

このように、畳み込み層及びプーリング層が繰り返される本発明の畳み込みニューラルネットワークにおいて、抽出領域４１の最初の畳み込み層に入力された正規画像情報３３は、結局、最終のプーリング層を通過した後、行列情報が一連の単一値情報に変換され、変換された情報は、図９に示されるように平坦化（Ｆｌａｔｔｅｎ）処理が施され、完全接続型ニューラルネットワークの入力層を構成する、一列に配置されたメモリセルに入力される。

図９に示されるように、入力層と出力層との間に隠れ層が配設される接続領域４２においては、処理情報の順伝播が行われることによって、最終の出力層から動作情報３５が結果として導出される。ここで、導出される動作情報３５は、映像情報内の人物の意味のあるポーズを特定するための前述された学習用の動作情報３５と同じ性格の情報である。そして、順伝播の結果として出力層から導出された動作情報３５と、正規画像情報３３に当初与えられた動作情報３５とが比較され、その正誤に基づいて、逆伝播を介して各層間の重み付きが調整され、複数の学習用の正規画像情報３３及び学習用の動作情報３５に対して前述された過程が繰り返されることによって、本発明の人工ニューラルネットワーク４０における機械学習、すなわち、分類学習ステップ（Ｓ１０）が行われる。

図１０は、図９に示した本発明の人工ニューラルネットワーク４０における接続領域４２を抜粋して示したものであり、入力層、二つの隠れ層、及び出力層を構成するメモリセルが網状に連結されて、情報の順伝播及び逆伝播が行われる。最終結果を導出する出力層と隠れ層との間の活性化関数（ＡｃｔｉｖａｔｉｏｎＦｕｎｃｔｉｏｎ）としては、ソフトマックス関数（ＳｏｆｔｍａｘＦｕｎｃｔｉｏｎ）が用いられる。

主として分類処理を行うのに活用されるソフトマックス関数は、図１０に示されるように、最終の出力層を構成するそれぞれのメモリセルに確率値を与え、この場合、出力層を構成するそれぞれのメモリセルには０～１の値が与えられ、出力層の全体のメモリセルの合算値は１となる。

ソフトマックス関数が適用される接続領域４２における出力層においては、当初設定された動作情報３５に符合するように層間の重み付けが調整されながら、択一的に一つのメモリセルに、最大限１に近接した値が導出され、残りのメモリセルに、最大限０に近接した値が導出されるように機械学習が行われる。既に学習された人工ニューラルネットワーク４０が本格的に活用される、後述される分類導出ステップ（Ｓ３１）においては、０以上、かつ、１以下の確率値で導出された出力層のメモリセルの情報に基づいて、最大値の確率値を出力するメモリセルに対応する動作情報３５を選択する方式で、当初入力された正規画像情報３３の特性が把握される。

このように、分類学習ステップ（Ｓ１０）が行われることによって、本発明の人工ニューラルネットワーク４０が、学習された人工ニューラルネットワーク４０として構築され、前述されたように、会議に参加するコンピュータ１０がサーバ２０を介することなく直接接続され、コンピュータ１０に搭載された会議プログラムが独立して挙動する場合、学習された人工ニューラルネットワーク４０は、会議プログラムに含まれるサブプログラム又はプログラムモジュールの形態、又は会議プログラムと映像情報及び動作情報３５を共有する別途のプログラムの形態を有し、個別のコンピュータ１０に独立して構築される。

また、図１に示されるように、テレビ会議に参加するコンピュータ１０間の映像情報及び音声情報の伝送がサーバ２０によって中継される場合、コンピュータ１０とサーバ２０との間に一回性又は間欠的な通信路が開設されて、人工ニューラルネットワーク４０への映像情報及び動作情報３５の伝送が行われる場合等は、人工ニューラルネットワーク４０をサーバ２０にだけ構築してもよい。

機械学習としての分類学習ステップ（Ｓ１０）が終了し、学習された人工ニューラルネットワーク４０が構築されると、これを活用してテレビ会議の参加者の意味のあるポーズに符合する動作情報３５が導出され、これに基づいて、入力音量及び出力音量の設定調整等が変更される一連の過程が行われるが、図６に示されるように、まず、動作情報３５の導出過程として、テレビ会議に参加するコンピュータ１０に入力された原始画像情報３１が正規画像情報３３に変換される正規化ステップ（Ｓ２０）が行われる。

正規化ステップ（Ｓ２０）において、テレビ会議に参加するコンピュータ１０に入力される原始画像情報３１は、当該コンピュータ１０に装着されたカメラによって撮影された映像情報であり、テレビ会議の参加者である当該コンピュータ１０のユーザの人物要素と周辺の背景要素とを含み、図８の左側に示した形態を有する。

コンピュータ１０に装着されたカメラによって最初に撮影された原始画像情報３１は、図８に示されるように、背景要素が除去され、人物要素だけが抽出された抽出画像情報３２に修正された後、一定の解像度又はコントラストに調整され、最終的に正規画像情報３３に変換される。このような正規化ステップ（Ｓ２０）は、通常の様々なイメージプロセッシング技法が用いられ、会議プログラムによって行われる。

すなわち、原始画像情報３１が正規画像情報３３に変換される正規化ステップ（Ｓ２０）は、ユーザの操作がなくても、個別のコンピュータ１０に搭載された会議プログラムによって自動で行われる。そのために、会議プログラムには、原始画像情報３１から人物要素を抽出し、その解像度を調整するためのイメージプロセッシング機能が与えられる。

正規化ステップ（Ｓ２０）が終了し、原始画像情報３１が正規画像情報３３に変換されて生成されると、生成された正規画像情報３３が人工ニューラルネットワーク４０に入力され、人工ニューラルネットワーク４０から動作情報３５が導出される分類導出ステップ（Ｓ３１）が行われる。

分類導出ステップ（Ｓ３１）においては、図８に示される正規化ステップ（Ｓ２０）によって原始画像情報３１から変換された正規画像情報３３が、図９に示されるように、既に学習された人工ニューラルネットワーク４０に入力され、人工ニューラルネットワーク４０が稼動されて、結果として動作情報３５が導出される。前述されたように、本発明の人工ニューラルネットワーク４０の最終層である接続領域４２の出力層においては、それぞれのメモリセルごとに確率値が出力されるので、最大の確率値を有するメモリセルに対応する動作情報３５が分類導出ステップ（Ｓ３１）の実行結果として導出される。

次に、本発明の人工ニューラルネットワーク４０において、分類学習ステップ（Ｓ１０）及び分類導出ステップ（Ｓ３１）が実行されるときの出力層のメモリセルについて、図７を用いて説明する。図７は、四つのポーズを区分する人工ニューラルネットワーク４０が想定されたものであり、出力層に四つのメモリセルが与えられ、機械学習の進行過程である分類学習ステップ（Ｓ１０）においては、出力層のメモリセルに択一的に１が与えられ、残りのメモリセルに０が与えられるが、既に学習された人工ニューラルネットワーク４０の活用過程である分類導出ステップ（Ｓ３１）においては、出力層のメモリセルに０～１の値が与えられ、動作情報３５が結果として導出される。

例えば、参加者のポーズを、意味のないポーズ、耳を傾けるポーズ、口を塞ぐポーズ及び耳を塞ぐポーズから成る四つのポーズとして想定すると、分類学習ステップ（Ｓ１０）においては、動作情報３５を導出する出力層の四つのメモリセルに順次択一的に１が与えられ、学習用の正規画像情報３３が意味のないポーズであれば、出力層の第１段のメモリセルに１が与えられ、残りのメモリセルに０が与えられ、学習用の正規画像情報３３が耳を傾けるポーズであれば、出力層の第２段に１が与えられ、残りに０が与えられ、口を塞ぐポーズであれば、出力層の第３段に１が与えられ、耳を塞ぐポーズであれば、出力層の第４段に１が与えられる方式で機械学習が行われる。そして、既に学習された人工ニューラルネットワーク４０が活用される分類導出ステップ（Ｓ３１）においては、出力層の各段別のメモリセルのうちの、最大確率値が出力された段に対応する動作情報３５が採用され、図７の下段部に示された出力層のメモリセルにおいては、第３段に最大の確率値が出力されたことから、前述されたポーズの分類によれば、該当正規画像情報３３は、口を塞ぐポーズに分類される。

このように、分類導出ステップ（Ｓ３１）によってテレビ会議の参加者のポーズに対する分類が終了すると、導出された動作情報３５によって、会議プログラムの設定が変更される設定変更ステップ（Ｓ３２）が行われ、会議プログラムが実行されるコンピュータ１０の入力音量及び出力音量が適宜設定調整される。

このような設定変更ステップ（Ｓ３２）も、個別のコンピュータ１０に搭載された会議プログラムによって行われるものであり、前述されたように個別のコンピュータ１０に構築され、又はコンピュータ１０と接続されたサーバ２０に構築された、既に学習された人工ニューラルネットワーク４０から導出された動作情報３５によって、テレビ会議参加者のポーズが把握されると、該当意図に符合する入力音量及び出力音量の設定調整が会議プログラムに変更適用される。

１０コンピュータ
２０サーバ
２１ウェブページ
３１原始画像情報
３２抽出画像情報
３３正規画像情報
３５動作情報
４０人工ニューラルネットワーク
４１抽出領域
４２接続領域
Ｓ１０分類学習ステップ
Ｓ２０正規化ステップ
Ｓ３１分類導出ステップ
Ｓ３２設定変更ステップ

本発明は、上記問題点に鑑みてなされたものであり、人工ニューラルネットワークを用いたテレビ会議方法において、テレビ会議参加コンピュータ１０に入力された原始画像情報３１から抽出画像情報３２が抽出され、抽出画像情報３２の解像度が一定の解像度に調整されて正規画像情報３３が生成される正規化ステップと、正規化ステップで生成された複数の学習用の正規画像情報３３及び学習用の動作情報３５が人工ニューラルネットワーク４０に入力され、機械学習が行われる分類学習ステップと、前記正規化ステップで生成された、動作情報３５の出力用の正規画像情報３３が、前記分類学習ステップで機械学習が行われた人工ニューラルネットワーク４０に入力され、人工ニューラルネットワーク４０から、テレビ会議の参加者の動作を認識する動作情報３５が出力される分類導出ステップと、前記人工ニューラルネットワーク４０から出力された動作情報３５によって、コンピュータ１０に搭載された会議プログラムの設定が変更される設定変更ステップと、からなることを特徴とする人工ニューラルネットワークを用いたテレビ会議方法である。

Claims

人工ニューラルネットワークを用いたテレビ会議方法であって、
複数の学習用の正規画像情報（３３）及び動作情報（３５）が人工ニューラルネットワーク（４０）に入力され、機械学習が行われる分類学習ステップ（Ｓ１０）と、
テレビ会議参加コンピュータ（１０）に入力された原始画像情報（３１）が正規画像情報（３３）に変換される正規化ステップ（Ｓ２０）と、
前記正規画像情報（３３）が人工ニューラルネットワーク（４０）に入力され、人工ニューラルネットワーク（４０）から動作情報（３５）が出力される分類導出ステップ（Ｓ３１）と、
前記動作情報（３５）によって、コンピュータ（１０）に搭載された会議プログラムの設定が変更される設定変更ステップ（Ｓ３２）と、からなることを特徴とする人工ニューラルネットワークを用いたテレビ会議方法。
人工ニューラルネットワーク（４０）は、抽出領域（４１）及び接続領域（４２）で構成される畳み込みニューラルネットワークであり、最終出力層からは、動作情報（３５）が確率値として導出されることを特徴とする請求項１に記載の人工ニューラルネットワークを用いたテレビ会議方法。