JP7231301B2 - オンライン会議サポートシステムおよびオンライン会議サポートプログラム - Google Patents

オンライン会議サポートシステムおよびオンライン会議サポートプログラム Download PDF

Info

Publication number
JP7231301B2
JP7231301B2 JP2022519156A JP2022519156A JP7231301B2 JP 7231301 B2 JP7231301 B2 JP 7231301B2 JP 2022519156 A JP2022519156 A JP 2022519156A JP 2022519156 A JP2022519156 A JP 2022519156A JP 7231301 B2 JP7231301 B2 JP 7231301B2
Authority
JP
Japan
Prior art keywords
advice
user
online conference
voice
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022519156A
Other languages
English (en)
Other versions
JPWO2022091970A5 (ja
JPWO2022091970A1 (ja
Inventor
圭司 田谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JPWO2022091970A1 publication Critical patent/JPWO2022091970A1/ja
Publication of JPWO2022091970A5 publication Critical patent/JPWO2022091970A5/ja
Application granted granted Critical
Publication of JP7231301B2 publication Critical patent/JP7231301B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Description

本発明は、オンライン会議システムの使用者に対して会議中の映像や音声に基づき種々のサポートを行うオンライン会議サポートシステムおよびオンライン会議サポートプログラムに関するものである。
近年、インターネット等のネットワークを利用したオンライン会議システムが多く利用されている。オンライン会議システムでは、各利用者はカメラやマイクを用いて映像や音声を双方に送受信して画面上での会議を行うことができる。このようなオンライン会議システムは、会議のみならず、セミナー、面接、お見合いなど、対面に代わるツールとして広く利用される。
オンライン会議システムでは、画面上の映像や音声だけでは把握しにくい部分も生じ得る。特許文献1には、発言する出席者に対する評価ばかりでなく、会議に参加する他の出席者の態度をも含めて評価することができる会議品質評価装置が開示される。特許文献2には、面接において面接志望者に対する非言語情報に基づく評価を支援するシステムが開示される。
特開2013-008114号公報 特開2018-060374号公報
庄境 誠(旭化成株式会社),"使い勝手の良い音声インターフェイスの実現",情報処理 Vol.51 No.11 Nov. 2010,p.1401-1409 ITmedia NEWS,"オンライン授業の集中度をAIで測定 生徒の視線や表情を解析 リモート指導を効率化",[online],2020年6月25日 15時24分 公開,(2020年10月5日検索),インターネットURL<https://www.itmedia.co.jp/news/articles/2006/25/news104.html>
オンライン会議システムは、場所を問わずに会議を行うことができるため、非常に利便性が高い。その一方、映像や音声をネットワークで送信して画面やスピーカから出力するため、システムの使用者は対面での会議とは異なる注意を払う必要がある。
本発明は、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステムおよびオンライン会議サポートプログラムを提供することを目的とする。
本発明の一態様は、カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートシステムであって、カメラで取り込んだ使用者の画像を解析する画像解析部と、マイクで取り込んだ使用者の音声を解析する音声解析部と、画像解析部および音声解析部の少なくともいずれかで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成部と、アドバイス生成部で生成されたアドバイスを使用者のディスプレイに出力するアドバイス出力部と、を備えたオンライン会議サポートシステムである。
本発明の他の一態様は、カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートプログラムであって、コンピュータに、カメラで取り込んだ使用者の画像を解析する画像解析ステップと、マイクで取り込んだ使用者の音声を解析する音声解析ステップと、画像解析ステップおよび音声解析ステップの少なくともいずれかで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成ステップと、アドバイス生成ステップで生成したアドバイスを使用者のディスプレイに出力するアドバイス出力ステップと、を実行させるオンライン会議サポートプログラムである。
このようなオンライン会議システムおよびオンライン会議サポートプログラムの構成によれば、オンライン会議システムの使用者は、対面とは異なりオンライン会議システムを利用する上で必要な情報に関するアドバイスを自動的に得られるようになる。
本発明によれば、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステムおよびオンライン会議サポートプログラムを提供することが可能になる。
第1実施形態に係るオンライン会議サポートシステムが適用される情報処理装置を例示する図である。 第1実施形態に係るオンライン会議サポートシステムのブロック図である。 第1実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 使用者が正面を見ているときの状態を示す模式図である。 使用者が下を向いているときの状態を示す模式図である。 第2実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 第3実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 第4実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 第5実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 第6実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 カメラの高さおよび座る位置のアドバイスを例示する模式図である。 ディスプレイに表示するガイドラインを例示する模式図である。 進行に関する情報の表示例を示す模式図である。 複数のディスプレイを用いた場合を例示する模式図である。
以下、本発明の実施形態を図面に基づいて説明する。なお、以下の説明では、同一の部材には同一の符号を付し、一度説明した部材については適宜その説明を省略する。
(第1実施形態)
図1Aおよび図1Bは、第1実施形態に係るオンライン会議サポートシステムの構成を例示する図である。図1Aにはオンライン会議サポートシステム1が適用される情報処理装置100の例が示され、図1Bにはオンライン会議サポートシステム1のブロック図が示される。
本実施形態に係るオンライン会議サポートシステム1は、情報処理装置100を使用するオンライン会議システムにおいて、使用者に対するサポートを行うシステムである。図1Aに示すように、オンライン会議システムで適用される情報処理装置100は、カメラ101、マイク102、スピーカ103およびディスプレイ104を有する。
情報処理装置100としては、ノート型コンピュータ、デスクトップ型コンピュータ、タブレット端末および携帯電話である。なお、情報処理装置100として、カメラ101、マイク102、スピーカ103およびディスプレイ104を個別に用意した装置構成であってもよい。また、マイク102およびスピーカ103は一体型のヘッドセットであってもよい。また、スピーカ103はディスプレイ104の筐体に組み込まれていてもよい。
オンライン会議システムでは、使用者側の情報処理装置100と、相手側の情報処理装置100とをネットワークNで接続し、双方で音声および画像を送受して会議を行う。オンライン会議システムの参加者は3人以上であってもよい。オンライン会議システムでは、画像として静止画および動画を取り扱うことができる。動画とは、特定時間内に特定回数の画像が変化することを示す。例えば、10秒に1回(1秒間に0.1回)~1秒間に120回画像が変化していく情報のことをいう。
本実施形態に係るオンライン会議サポートシステム1の利用者は、オンライン会議システムの参加者のうち少なくとも1人である。説明の便宜上、本実施形態に係るオンライン会議サポートシステム1を利用する者を「使用者」または「自分」と称し、「使用者」とオンラインで会議を行う者を「相手方」と称することにする。また、カメラ101で取得する使用者の画像には、使用者の背景の画像(使用者側の画像)を含むものとする。
オンライン会議を行っている状態では、情報処理装置100のディスプレイ104に自分(使用者)の画像と相手方の画像とが映し出され、それぞれの音声がオンライン会議の参加者の情報処理装置100へ送られる。また、所定の操作によって画面の共有やファイルの送受信を行うことができる。
例えば、図1Aに示す例では、Aさん(第1の相手方)、Bさん(第2の相手方)、Cさん(第3の相手方)と自分(使用者)がそれぞれ異なる場所にいて、各自がカメラ101、マイク102、スピーカ103およびディスプレイ104を有した情報処理装置100を所持し、インターネットやイントラネット等のネットワークNを介して、画像や音声が送受信される。各参加者はネットワークNに接続された情報処理装置100を用いて互いにリアルタイムで情報を送受信しながらオンライン会議を進めていく。なお、オンライン会議においては、必ずしも参加者全員の画像がディスプレイ104に映し出される必要はないし、必ずしも参加者全員の音声がマイク102で入力される必要もない。
本実施形態に係るオンライン会議サポートシステム1は、このようなオンライン会議システムにおいてオンライン会議を進めていく際に、使用者に対して各種のアドバイスを自動的に生成し、出力することで、オンライン会議を円滑に進めていくサポートを行う。
図1Bに示すように、本実施形態に係るオンライン会議サポートシステム1は、画像解析部10、音声解析部20、アドバイス生成部30およびアドバイス出力部40を備える。画像解析部10は、情報処理装置100のカメラ101で取り込んだ使用者の画像を解析する部分である。画像解析部10には複数のカメラ101が接続されていてもよい。
音声解析部20は、情報処理装置100のマイク102で取り込んだ使用者の音声を解析する部分である。音声解析部20には複数のマイク102が接続されていてもよい。なお、画像解析部10および音声解析部20は、画像および音声の少なくとものいずれかを解析する情報解析部として設けられていてもよい。
アドバイス生成部30は、画像解析部10および音声解析部20で解析した結果に基づき使用者に対するアドバイスを生成する部分である。アドバイス出力部40は、アドバイス生成部30で生成されたアドバイスを使用者(自分)のディスプレイ104に出力する部分である。アドバイス出力部40には複数のディスプレイ104が接続されていてもよい。
第1実施形態に係るオンライン会議サポートシステム1では、オンライン会議中に使用者の情報処理装置100のカメラ101で取得した画像情報を用いて、ディスプレイ104に映し出される使用者の顔の向きや視線、目線の向きを画像解析部10で判別する。例えば視線が正面を向いていなければ、アドバイス生成部30において顔の向きや視線に関するアドバイス(顔や目線を上げるように、下げるように、カメラ101の方を見るように、など)をテキストやイラスト、写真などによるメッセージとして生成し、アドバイス出力部40によってそのアドバイスを使用者のディスプレイ104に表示する。アドバイスはディスプレイ104のアドバイスウインドウ104Wに表示される。この際、音や音声、振動などによりアドバイスを使用者に伝えるようにしてもよい。音や音声、振動によるアドバイスでは、使用者がディスプレイ104を見ていない場合でもアドバイスがあることを認識させることができる。
(情報処理方法)
図2は、第1実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS101>
カメラ101による撮像処理を行う。すなわち、自分(使用者)の情報処理装置(コンピュータ等)に付属、または、USB(Universal Serial Bus)等の端子、もしくは無線によって接続されたカメラ101によって使用者の画像を取り込む。
<ステップS102>
画像解析部10による目線または顔の向きの検出処理を行う。画像解析部10は、カメラ101で取り込んだ使用者の画像から、使用者の目線または顔の向きを検出し、その後、検出した目線や顔の向きから視線の向きを検出する。視線の向きを検出する方法は、例えば下記のような流れで行われる。
(1)対象者の顔を検出する。
(2)目、鼻、口、顔の輪郭などの顔の部位を検出する。
(3)顔の中心点を検出する。
(4)顔の中心方向の向きを検出する。
(5)目と瞳、まぶた、目尻を検出する。
(6)これらの情報を用いて、顔と目の向きのベクトルを検出する。
(7)視線のプロット先を検出する。
この(7)による視線のプロット先が視線情報(目線と顔の向き)となる。なお、目線の向きと顔の向きとは別々の情報として検出されてもよいし、同一に検出されてもよい。
これらの処理は、AI(人工知能)、マシンラーニング、ディープラーニングなどの処理を用いてもよい。
ステップS102における視線の向きの検出方法の別の例について示す。
(1)対象者の顔を検出する。
(2)目、鼻、口、顔の輪郭などの顔の部位を検出する。
(3)顔の中心点を検出する。
(4)顔の中心方向の向きを検出する。
(5)目と瞳、まぶた、目尻を検出する。
(6)これらの情報を用いて、視線の角度を検出する。角度は正面を向いている時を中心として、上下左右方向の角度θ1(ディスプレイ104の画面平面内での角度)と、その上下左右に対して奥行き方向の角度θ2(ディスプレイ104の画面平面の法線に対する角度)とを持つ。角度θ1、θ2の表し方を図4に示す。また、角度は立体角の考え方を用いることもできる。
この(6)による視線の角度が視線情報(目線と顔の向き)となる。なお、目線の向きと顔の向きとは別々の情報として検出されてもよいし、同一に検出されてもよい。
これらの処理は、AI(人工知能)、マシンラーニング、ディープラーニングなどの処理を用いてもよい。
また、上記視線のプロットや視線の角度を割り出す際にあらかじめ基準となる画像を用意(記憶)してもよい。その場合は、下記のような方法が考えられる。
・予めディスプレイ104の中央に表示されたガイドラインGL(図11参照)に顔や目の位置をあわせ、このときにカメラ101で得られた画像の情報を、ディスプレイ104の中央を見ている場合の基準とする。
・カメラ101のほうを向いてもらい、このときにカメラ101で得られた画像の情報の情報を基準とする。
・ディスプレイ104の画面の四隅を順番に見てもらい、それぞれの隅を見た際にカメラ101で得られた画像の情報をディスプレイ104の端を見ている場合の基準とする。
・顔や視線を意図的に上下左右にむけさせ、その際にカメラ101で取り込まれた画像の情報から、顔の向きの基準や顔の可動範囲の基準の情報を得る。
などである。
これらは、1つで行ってもよいし、複数を組み合わせてもよい。
また、ディスプレイ104の端を見るなどの情報はアドバイスウインドウ104Wを生成する場所の情報に用いてもよい。
また、一定時間における視線の角度の値の統計(視線の角度の変化の分布)を求め、その統計から視線の中心および視線の端を想定して視線範囲の基準として利用するようにしてもよい。この場合、想定された視線範囲において利用者の視線の角度がどの位置にあるのかを計測すればよい。
また、ディスプレイ104と使用者の顔との距離を測定できるセンサを用いてもよい。センサを用いるとより、ディスプレイ104と使用者の顔との正確な距離がわかる。
距離を測定するセンサがなくとも、映し出される顔の大きさからディスプレイ104と使用者の顔との距離を割り出してもよい。
ディスプレイ104と使用者の顔との距離が分かると、視線のプロット先や角度からディスプレイ104上のどの位置を見ているかを正確に求めることができる。
上記に示した視線の先のプロットや角度を割り出す際は、カメラ101で取り込んだ画像の情報をベースに行うことになる。使用するカメラ101からの画像にはいくつかの方法がある。その方法を下記に挙げる。
・カメラ101から出力された信号が、オンライン会議システムに入力される前の画像を用いる方法。
・カメラ101から出力された信号がオンライン会議システムに入力され、オンライン会議システム上で扱われる画像を使用する方法。例えば、ディスプレイ104に表示するための画像を使用する方法が挙げられる。
・画像処理ソフトウエア(例:Snap Camera)の画像を使用する方法。
これらはどれか1つを用いてもよいし、複数を用いてもよい。
<ステップS103>
アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、画像解析部10で解析した使用者の視線情報に基づき、使用者がカメラ101の方を向いているかどうかや、正面を向いているかを判断し、もし使用者がカメラ101の方や正面を向いていない場合にはアドバイスを生成する。例えば、上記(7)で検出した視線のプロット先が、予め設定された基準となる視線のプロット先から閾値を超えてずれている場合、アドバイス生成部30によってアドバイスを自動的に生成する。アドバイス生成部30は、アドバイスとしてテキストやイラスト、写真などで使用者にカメラ101の方や正面を向くようなメッセージを生成する。
ここで、ステップS102からステップS103までの処理の具体例を以下に示す。
(1)視線のプロット先を検出する。
(2)検出した視線のプロット先と、自分が映っているカメラ映像(自分が映っているディスプレイ104の画面)とを比較する。
(3)プロット先を自分が映っているディスプレイ104の画面の中で画面中央からどの程度離れているかを計測する。この計測は、先に示した基準とする画像の情報を利用すればよい。例えば、ディスプレイ104の中央を向いている場合の基準の画像と、ディスプレイ104の隅を見ている場合の基準の画像とから、視線のプロット先に対応したディスプレイ104上の視線の位置を計測する。
(4)ディスプレイ104の画面中央からの距離の計測は、画面の画角全体の何%と計算してもよいし、解像度に応じて何画素(何ピクセル)分と定義してもよい。また、想定された視線範囲に対して中央から何%と計算してもよい。
(5)仮に視線のプロット先が画面中央にあった場合はアドバイスを出さない。
(6)同じように画角中央から画面全体の例えば20%以下ならアドバイスを出さないなどを取り決める。逆に、例えば20%以上の距離が離れていた場合は、カメラの方に視線を向けるようアドバイスを生成する。この20%という割合は予め任意に決めることができる。また、ディスプレイ104の画面の外に視線がある場合は100%以上の数字をだすこともある。
(7)アドバイスを出す際、視線のプロット先が画角の一定距離から離れている時間を計測し、ある一定時間以上の場合のみアドバイスを表示する。例えば5秒以上、画角中央から20%以上離れている場合はアドバイスを生成する判断をし、画角中央から20%以上離れていても5秒未満であればアドバイスを出さないようにする。この時間の設定は予め任意に決めることができる。
なお、ステップS102からステップS103までの処理の具体例として、上記のように視線のプロット先からディスプレイ104上の視線のずれの距離を計測しなくても、ディスプレイ104の中央を見ている場合の画像や、カメラ101を見ている場合の画像を基準として、その基準の画像から視線や顔の向きがずれていることを一定時間以上継続した場合にアドバイスを生成すると判断してもよい。
<ステップS104>
アドバイス出力部40は、アドバイスを使用者のディスプレイ104に出力する。すなわち、アドバイス出力部40は、アドバイス生成部30で生成したアドバイス(テキストやイラストなどのメッセージ)を使用者のディスプレイ104に出力する。
アドバイス生成部30がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になり得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイスの生成と表示は10秒間行われ、その後30秒間はアドバイスを表示しない期間を設けるようにしてもよい。
また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。
図3は、使用者が正面を見ているときの状態を示す模式図である。
図4は、使用者が下を向いているときの状態を示す模式図である。
図3に示す状態では、視線のベクトルは正面を向いている。一方、図4に示す状態では、視線のベクトルは下を向いている。
画像解析部10は、カメラ101で取得した使用者の画像からカメラ101の画角中心に対する使用者の視線の方向を解析する。すなわち、画像解析部10は、図3および図4に示すようにカメラ101で取り込んだ使用者の顔の画像から視線のベクトルを検出し、使用者の画角中心に対する視線の方向を解析する。
アドバイス生成部30は、画像解析部10で解析した使用者の視線の方向が画角中心に対して予め設定した範囲を超えてずれている場合に、視線をカメラ101に向けるアドバイスを生成する。また、視線がずれている時間が一定時間を越えている場合にアドバイスを生成するようにしてもよい。アドバイス出力部40は、アドバイス生成部30で生成したアドバイスを使用者のディスプレイ104に表示する。
例えば、図1に示すように、ディスプレイ104のアドバイスウインドウ104Wに「カメラを見て!」のようなテキストメッセージを表示する。これにより、使用者は、自分の顔の画像の視線の方向がカメラ101からずれていることを認識でき、カメラ101の方向を見るように視線を修正することができる。
画像解析部10は、カメラ101で取得した使用者の画像からカメラ101の画角中心に対する使用者の顔の向き解析してもよい。例えば、図2のステップS102の処理で顔の向きのベクトルを検出し、カメラ101の画角中心に対する使用者の顔の向きのベクトルのずれを検出する。
アドバイス生成部30は、画像解析部10で解析した使用者の顔の向きが画角中心に対して予め設定した範囲を超えてずれている場合に、顔をカメラ101に向けるアドバイスを生成する。また、顔の向きがずれている時間が一定時間を越えている場合にアドバイスを生成するようにしてもよい。アドバイス出力部40は、アドバイス生成部30で生成したアドバイスを使用者のディスプレイ104に表示する。
例えば、ディスプレイ104のアドバイスウインドウ104Wに、「顔を上げて!」のようなテキストメッセージを表示する。これにより、例えば視線はカメラ101に向いていても、顔がカメラ101に向けられていない場合、顔をカメラ101の方向に向けるよう修正することができる。
ディスプレイ104にアドバイスを表示する際、アドバイス出力部40は、画像解析部10で解析した視線の延長上付近となるディスプレイ104の位置にアドバイスを出力するようにしてもよい。例えば、画像解析部10で解析した視線の方向が使用者の向きで左下であった場合、ディスプレイ104の左下付近にアドバイスウインドウ104Wを表示して、そこにアドバイスを出力する。これにより、使用者が見ている方向(視線の延長上)に近いディスプレイ104の位置にアドバイスが表示され、使用者に迅速に気付かせることができる。
オンライン会議において、対話を行う相手への印象を良くすることができない課題に対する一つの要因は、ディスプレイ104の中心とカメラ101の位置とが離れていることである。ディスプレイ104で対話を行う相手の顔や資料をみていると、ディスプレイ104の方向には向いているもののカメラ101の方を向いていないため、正面を向いているようにならず、目線や顔を伏せたような状態に映ったり、上から見上げるような印象を与えるよう映ったりすることが起こり得る。また、正面に実際の人がいない状況であったり、慣れないテレビ会議の状況に表情が硬くなったり、印象が悪くなるということもおこる。
本実施形態によれば、視線や顔の向きをカメラ101で取り込んだ画像から解析し、アドバイスをディスプレイ104に自動的に表示することから、使用者に視線や顔の向きがずれていることを迅速に指摘することができる。これにより、オンライン会議システムなどの映像や音声の対話装置を使い、面接やお見合い、会議、セミナーなどの際に、視線や顔の向きのずれといったオンライン会議で生じやすい課題をいち早く修正でき、対話を行う相手への印象を良くすることができる。
なお、オンライン会議中に使用者側のディスプレイ104の画面に表示される内容を相手方と共有する場合もある。このような画面共有の状態になった場合、アドバイス出力部40はアドバイスを相手方の情報処理装置100のディスプレイ104には表示させない処理を行ってもよい。具体的には、画面共有の状態になった場合、アドバイスウインドウ104Wを共有された画面の外(共有ウインドウの外)に表示する処理が挙げられる。アドバイス出力部40は、オンライン会議システムで画面共有の状態が設定された段階でアドバイスの出力を一旦停止し、画面共有の状態が解除された段階でアドバイスの出力を再開するようにしてもよい。これにより、画面共有の状態であってもアドバイスが必要な使用者のみにアドバイスが表示されることになる。
また、アドバイス出力部40は、出力したアドバイスをネットワークNを介して記憶装置(ファイルサーバなど)に送信(保存)する処理を行ってもよい。これにより、オンライン会議が終了したあとで、使用者がオンライン会議の内容を記憶装置から読み出し、どのような状況のときにアドバイスが表示されたのかを振り返ることが可能となる。
また、ステップS103の判断において、使用者がカメラ101の方や正面を向いている場合にアドバイスを生成するようにしてもよい。例えば、使用者がカメラ101の方や正面を向いている場合、「正面を向いています。そのままどうぞ。」などのメッセージをアドバイスウインドウ104Wに表示したり、メッセージではなくディスプレイ104の所定位置にアイコン(例えば、青丸表示や青枠表示)を出力したりして、使用者の顔の向きに問題がない状態であることを知らせるようにしてもよい。
また、使用者がカメラ101の方や正面を向いている場合、向いていない場合のそれぞれに対応したアドバイスを出力するようにしてもよい。
(第2実施形態)
第2実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、画像解析部10がカメラ101で取得した使用者の画像情報を用いて、使用者の表情を解析する。表情の解析には、例えば、Microsoft社から提供されるFace APIなどを用いてもよい。その情報を元に、画像解析部10で使用者の表情の判断を行い、必要な時には表情の修正を促すようなアドバイスをアドバイス生成部30で生成し、アドバイス出力部40によってアドバイスを出力する。
例えば、オンラインでの面接やお見合いの際、笑顔ではない期間が長ければ、笑顔になるように促す。会議中に怒りの表情がみられたら、平常な顔にもどるようにうながす。交渉などの時には驚きの表情をださないように促すなどである。その場が、面接や、お見合い、会議、交渉など、どのような場であるかといった情報を事前に入力しておいてもよいし、会話の内容から音声解析部20で判断してもよい。
(情報処理方法)
図5は、第2実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS201>
カメラ101による撮像処理を行う。すなわち、自分(使用者)の情報処理装置(コンピュータ等)に付属、または、USB等の端子、もしくは無線によって接続されたカメラ101によって使用者の画像を取り込む。
<ステップS202>
画像解析部10による表情の検出処理を行う。画像解析部10は、カメラ101で取り込んだ使用者の画像から、使用者の表情を検出する。
表情の検出処理に関しては、アクションユニット(AU)と呼ばれる眉を下げる、眉の内側を上げる、眉の外側を上げる、上瞼を上げる、瞼を緊張させる、頬を上げる、瞼を閉じる、まばたく、ウインクする、鼻にしわを寄せる、上唇を上げる、下唇を上げる、唇端を下げる、唇を開く(は下げない)、顎を下げて唇を開く、口を大きく開く、下唇を下げる、唇を横に引っ張る、えくぼを作る、鼻唇溝を深める、唇端を引っ張りあげる、唇端を鋭く上げて頬を膨らます、唇をすぼめる、唇を突き出す、唇を固く閉じる、唇を押さえつける、唇を噛むなどの動作を検出し、その上で、例えば、頬をあげて、唇端を引っ張りあげるの組みあわせであれば、笑顔(喜び)を表すといった方法で検出していく。これらの手法には、ディープラーニングやAIの仕組みを用いてもよい。
<ステップS203>
アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、画像解析部10で解析した使用者の表情の情報に基づき、表情に関するアドバイスを与えたほうがよと判断した場合にはアドバイスを生成する。アドバイス生成部30は、画像解析部10の解析結果に基づき、テキストやイラスト、写真などで使用者に表情に関するメッセージを生成する。
表情の認識とアドバイス生成部30が行う判断の具体例を以下に示す。
ここでは、例えば、Amazon Rekognitionのサービスを利用した流れを示す。
(Amazon Rekognitionに関しては以下のURLを参照)
https://aws.amazon.com/jp/about-aws/whats-new/2019/08/amazon-rekognition-improves-face-analysis/
https://ledge.ai/2019-05-30-12904310615cefa2e89a156/
上記のアクションユニット(AU)を用いたAIが組み込まれたAmazon Rekognitionのサービスを用いると、画像より、SMILING:笑顔、HAPPY:幸せ、ANGRY:怒り、SURPRISED:驚き、SAD:悲しい、CALM:穏やか、CONFUSED:混乱などの情報が出力される。
この情報を元に、例えば、SMILING:笑顔の数字が予め設定された一定割合以下であって、予め設定された時間以上続いた場合には、アドバイスを生成する。数字の一例をあげると50%以下である時間が5分続いた場合には、笑顔になるようなアドバイスを生成する、などである。
他にも、ANGRY:怒りの数値が予め設定された一定数値を超えた場合は、平常心を取り戻すようなアドバイスを生成する。
<ステップS204>
アドバイス出力部40は、アドバイスを使用者のディスプレイ104に出力する。すなわち、アドバイス出力部40は、アドバイス生成部30で生成したアドバイス(テキストやイラストなどのメッセージ)を使用者のディスプレイ104に出力する。例えば、使用者の表情が硬いと判断した場合には表情を和らげるようなアドバイスを使用者のディスプレイ104に表示する。
アドバイス生成部30がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になる得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイスの生成と表示は10秒間行われ、その後30秒間はアドバイスを表示しない期間を設けるようにしてもよい。
また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。
また、例えば、1分~30分といった時間の期間内に、現れることが望ましいと考えられる例えば笑顔の回数などを1回~100回などと規定しておき、その期間内に規定の回数の表情が現れなければ、笑顔など特定の表情をするように、イラストやテキストなどで促すようにしてもよい。
また、ステップS203の判断において、使用者の表情が笑顔や穏やかな場合にアドバイスを生成するようにしてもよい。例えば、使用者の表情が笑顔である場合、「良い表情です。」のメッセージをアドバイスウインドウ104Wに表示したり、メッセージではなくディスプレイ104の所定位置にアイコン(例えば、青丸表示や青枠表示)を出力したりして、使用者の表情に問題がない状態であることを知らせるようにしてもよい。
また、使用者の表情が好ましい場合、好ましくない場合のそれぞれに対応したアドバイスを出力するようにしてもよい。
本実施形態のようなアドバイス出力は、特にディスプレイ104に表示される自分の画像のウィンドウサイズが小さい場合、自分の映り方の確認し難いために有効である。
(第3実施形態)
第3実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、画像解析部10がカメラ101で取得した使用者の画像情報を用いて、使用者の表情を解析するとともに、相手方の情報処理装置100のカメラ101で取得した相手方の画像情報を用いて、使用者の情報処理装置100の画像解析部10が相手方の表情を解析する。表情の解析には、例えば、Microsoft社から提供されるFace APIなどを用いてもよい。第3実施形態では、使用者の表情の解析結果と、相手方の表情の解析結果とに基づき、使用者の情報処理装置100のディスプレイ104にアドバイスを出力する。
例えば、相手方の表情に笑顔が多く、使用者の表情に笑顔が少ない場合には、使用者に笑顔を返すようなアドバイスを出力する。また、相手方が真剣な表情をしているときは、使用者にも真剣な表情を返すようなアドバイスを出力する。また、相手方が真剣な表情をしているときに使用者に笑顔が見受けられる場合には、笑顔をやめるように促すアドバイスを出力する。
(情報処理方法)
図6は、第3実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS301>
カメラ101による撮像処理を行う。すなわち、自分(使用者)の情報処理装置(コンピュータ等)に付属、または、USB等の端子、もしくは無線によって接続されたカメラ101によって使用者の画像を取り込む。
<ステップS302>
画像解析部10による使用者の表情の検出処理を行う。画像解析部10は、カメラ101で取り込んだ使用者の画像から、使用者の表情を検出する。表情の検出処理は第2実施形態と同様である。
<ステップS303>
相手方の情報処理装置100のカメラ101による撮像処理を行う。相手方のカメラ101で撮像した相手方の画像はネットワークを介して使用者の情報処理装置100に送られる。
<ステップS304>
画像解析部10による相手方の表情の検出処理を行う。画像解析部10は、相手方の情報処理装置100からネットワークNを介して送られた相手方の画像から、相手方の表情を検出する。表情の検出処理は第2実施形態と同様である。
<ステップS305>
アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、画像解析部10で解析した使用者の表情の情報および相手方の表情の情報に基づき、表情に関するアドバイスを与えたほうがよいと判断した場合にはアドバイスを生成する。アドバイス生成部30は、画像解析部10の解析結果に基づき、テキストやイラスト、写真などで使用者に表情に関するメッセージを生成する。
表情の認識とアドバイス生成部30が行う判断の具体例を以下に示す。
第2実施形態と同様の方法で、SMILING:笑顔、HAPPY:幸せ、ANGRY:怒り、SURPRISED:驚き、SAD:悲しい、CALM:穏やか、CONFUSED:混乱といった情報が識別される。
この表情の認識を双方の画像で行い、表情の組み合わせが行われる。この組み合わせの中には、表情のどの数字も低い、いわゆる「無表情」の状態も含まれる。
例えば、一方が笑顔であり、他方が無表情の時間が一定時間続いた場合には無表情の側に笑顔になることを促すアドバイスを生成する。この場合、一例を挙げると、一方の側はSMILING:笑顔の割合が60%以上であり、他方の側の無表情はどの数値も30%以下である状態が30秒続いた場合にアドバイスを生成する。
<ステップS306>
アドバイス出力部40は、アドバイスを使用者のディスプレイ104に出力する。すなわち、アドバイス出力部40は、アドバイス生成部30で生成したアドバイス(テキストやイラストなどのメッセージ)を使用者のディスプレイ104に出力する。
アドバイス生成部30がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になり得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイス生成と表示は10秒間行われ、その後30秒間はアドバイスを表示しない期間を設けるようにしてもよい。
また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。
オンライン会議を行っている状態で、例えば、相手方が嫌悪や怒り、疑問などの表情を表したときには、使用者の発言が相手の意図にそぐわない可能性や、意図が伝わっていない可能性があると考えられる。使用者の情報処理装置100の画像解析部10は、相手方の画像から相手方の表情を読み取り、使用者の情報処理装置100のディスプレイ104に状況に適したアドバイスを出力する。例えば、使用者に疑問点がないかを聞いてみる、発言の訂正を促すなどのメッセージを表示してもよい。
また、画像解析部10は、相手方の笑顔の回数と、自分(使用者)の笑顔の回数とを比較し、例えば1.2倍以上などある一定以上の比率差がある場合には、アドバイス生成部30によって自分(使用者)に笑顔を促すイラストやメッセージを生成し、アドバイス出力部40によってディスプレイ104に表示するようにしてもよい。逆に、自分の側に笑顔が多く、相手に笑顔が少ないときは、自分の笑顔も押さえて、真剣な会話になるように促すアドバイスを表示するようにしてもよい。
また、笑顔だけではなく、怒りや嫌悪、恐怖、悲しみ、驚きなどの表情や、声のトーン、くびをかしげる、頷く、眉をつり上げるなどの動作から、相互の理解度や感情のずれを把握し、コミュニケーションが円滑になるようなアドバイスを生成してもよい。
(第4実施形態)
第4実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、画像解析部10が相手方の情報処理装置100のカメラ101で取得した相手方の画像情報を用いて、相手方の表情を解析する。表情の解析は第2実施形態と同様である。その情報を元に、画像解析部10で相手方の表情の判断を行い、その判断結果に応じて使用者の情報処理装置100のディスプレイ104にアドバイスを出力する。
例えば、相手方の表情に笑顔がある場合や、うなずいているなどの場合は、相手方に対して良い印象を与えていることを示すメッセージ(「その調子」「このままつづけて」など)を使用者の情報処理装置100のディスプレイ104に表示する。また、相手方の表情が曇っている場合や、首をかしげている場合は、使用者の情報処理装置100のディスプレイ104に注意を促すメッセージ(「理解してもらえていないかも」「理解できているか聞いてみて」など)を表示する。
(情報処理方法)
図7は、第4実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS401>
相手方の情報処理装置100のカメラ101による撮像処理を行う。相手方のカメラ101で撮像した相手方の画像はネットワークを介して使用者の情報処理装置100に送られる。
<ステップS402>
画像解析部10による相手方の表情の検出処理を行う。画像解析部10は、相手方の情報処理装置100からネットワークを介して送られた相手方の画像から、相手方の表情を検出する。表情の検出処理は第2実施形態と同様である。
<ステップS403>
アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、画像解析部10で解析した相手方の表情の情報に基づき、表情に関するアドバイスを与えたほうがよと判断した場合にはアドバイスを生成する。アドバイス生成部30は、画像解析部10の解析結果に基づき、テキストやイラスト、写真などで使用者に表情に関するメッセージを生成する。
相手方の表情の検出に関しては、第2実施形態と同様なアクションユニットと、以下の処理とを組み合わせる。例えば、頷くなどの行為に関しては、顔の特定の位置、例えば顎や目の位置が、0.1秒から5秒などといった特定時間内に上下にゆれたことを判別することにより判断する。また、例えば、首をかしげる行為に関しては、顔の輪郭をとらえた上で、顔の中心線を決め、それが会議開始時より1°~30°など特定の角度傾いた場合に首をかげていると判断する。
表情の認識とアドバイス生成部30が行う判断の具体例を以下に示す。
第2実施形態と同様の方法で、SMILING:笑顔、HAPPY:幸せ、ANGRY:怒り、SURPRISED:驚き、SAD:悲しい、CALM:穏やか、CONFUSED:混乱といった情報が識別される。
例えば、相手方が無表情の時間が一定時間続いた場合には、話の話題を変えることを促すようなアドバイスを生成する。この場合、一例を挙げると、相手方の表情はどの数値が30%以下である状態が30秒続いた場合にアドバイスを生成する。
このような表情の検出を行った上で、相手方がうなずいている場合には、こちらの意見に同意を示している、または理解を示していると判断し、良い印象を与えているメッセージ(「その調子」「このままつづけて」など)をアドバイス生成部30で生成し、アドバイス出力部40によってディスプレイ104に表示する。また、首をかしげている場合は、疑問を持っている、または同意していないと判断し、注意を促すメッセージ(「理解してもらえていないかも」「理解できているか聞いてみて」など)を表示するようにしてもよい。
(第5実施形態)
第5実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、音声解析部20がマイク102で取得した使用者の音声情報を用いて、話すスピードを解析する。そして、使用者の音声の解析結果に基づき、使用者の情報処理装置100のディスプレイ104にアドバイスを出力する。
例えば、使用者の話すスピードが速すぎる、または遅すぎるなどを解析し、その解析結果に基づいて話すスピードをコントロールするためのアドバイスを出力する。アドバイスは、テキストやイラスト、写真などのメッセージとしてディスプレイ104に表示される(「もっとゆっくり話して」「もっと丁寧に話して」「もう少しスピードアップ」など)。話のスピード以外にも抑揚、滑舌などを判別して、それを修正するメッセージを提示することも含む。滑舌/スピード/抑揚の善し悪しを判別するには、音声をテキストに変換するソフトウエアの精度を用いてもよい。
(情報処理方法)
図8は、第5実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS501>
マイク102による集音処理を行う。すなわち、自分(使用者)の情報処理装置(コンピュータ等)に付属、またはUSB等の端子、もしくは無線によって接続されたマイク102により音声(使用者の声やノイズ成分を含む使用者側の音声情報)を入手する。
<ステップS502>
音声解析部20による使用者の音声の解析処理を行う。音声解析部20は、マイク102で取り込んだ使用者の音声から、話し方のスピード、抑揚、滑舌などの使用者音声情報を検出する。そして、音声解析部20は、使用者の音声を解析した使用者音声情報と、予め設定された基準音声情報とを比較して音声比較情報を求める。
話し方のスピード、抑揚、滑舌などの使用者音声情報および音声比較情報に関しては、例えば次のように検出する。例えば、滑舌に関しては5母音間の距離を判定し、その距離が一定以上近ければ、滑舌が悪い(音声比較情報)とする。また。スピードに関しては単位時間あたりのモーラ数(一定の時間的長さをもった音の分節単位)などを基準にする方法などがある。また、抑揚に関しては、例えば、音声の波形(使用者音声情報)から、その大きさと周波数を読み取り、一定値内かどうか(音声比較情報)で判断していく。
<ステップS503>
アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、音声解析部20で解析した使用者音声情報に基づき、話し方に関するアドバイスを与えたほうがよいと判断した場合にはアドバイスを生成する。アドバイス生成部30は、画像解析部10の解析結果に基づき、テキストやイラスト、写真などで使用者に話し方に関するメッセージを生成する。
ここで、ステップS502からステップS503までの処理の具体例を以下に示す。
滑舌を例にした場合には、
(1)5母音間の距離を判定する。
(2)予め決められた5母音間の距離と、得られた5母音間の距離を比較する。
例えば、予め1秒と決められていれば、1秒未満か、1秒以上を判定する。
(3)予め決められた5母音間の距離以下であれば、アドバイスを生成する。
このとき、今回の例では距離を時間として表したが、周波数などを使用してもよい。
また、得られた5母音間の距離を予め決められた距離と比較する場合、一定時間の平均を利用したり、連続して複数回距離が短い場合のみアドバイスを生成したりするなどを行ってもよい。
また、話すスピードにあたるモーラ数や、抑揚に関して音の大きさと周波数の場合も同じで、予め決められた規定の数字と、平均や連続する回数との比較を行いながら、アドバイスを生成していくことが挙げられる。
<ステップS504>
アドバイス出力部40は、アドバイスを使用者のディスプレイ104に出力する。すなわち、アドバイス出力部40は、アドバイス生成部30で生成したアドバイス(テキストやイラストなどのメッセージ)を使用者のディスプレイ104に出力する。
アドバイス生成部30がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になり得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイスの生成と表示は10秒間行われ、その後30秒間はアドバイスを表示しない期間を設けるようにしてもよい。
また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。
第5実施形態では、例えば、事前にインプットした、規定のスピード範囲、規定の滑舌範囲、規定の抑揚範囲かを判断して、規定の範囲内でない場合は、修正を促すメッセージを生成する。その際、メッセージを出し続けるのではなく、1回のメッセージから次のメッセージまでの期間を決めておいてもよい。
また、既存の音声認識システムでは、言葉を音素に分けて、その音素がどの言葉に近いかを判別し、一番近い音素を、正しい音素と判断するシステムが用いられている。例えば、「か」と発音したときに、「か」50%、「あ」30%、「さ」20%であれば、「か」と認識したと見なすなどである。ある音素を判別する際、確率を表すパーセントが、複数近かったり、多くの候補がでたりする状況であれば、相手も聞き取れないと判断して、修正を促すメッセージを生成するようにしてもよい。
また、ステップS503の判断において、使用者の話し方のスピード、抑揚、滑舌などの使用者音声情報が音声比較情報に対して適正は範囲に入っている場合にアドバイスを生成するようにしてもよい。例えば、使用者の話し方が適切なスピードであった場合、「聞き取りやすい話し方です。」などのメッセージをアドバイスウインドウ104Wに表示したり、メッセージではなくディスプレイ104の所定位置にアイコン(例えば、青丸表示や青枠表示)を出力したりして、使用者の話し方に問題がない状態であることを知らせるようにしてもよい。
また、使用者の話し方が好ましい場合、好ましくない場合のそれぞれに対応したアドバイスを出力するようにしてもよい。
(第6実施形態)
第6実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、音声解析部20が相手方の情報処理装置100のマイク102で取得した相手方の音声情報を用いて、その音声情報をテキストに変換し、アドバイス生成部30がそのテキストをアドバイスとして生成する。アドバイス出力部40は、テキストを使用者の情報処理装置100のディスプレイ104に出力する。これにより、オンライン会議において相手方との会話や質問の聞き逃しを抑制することができる。
また、このときに相手方が話した内容を全てテキスト化しては表示するのではなく、一部の情報のみテキスト化してもよい。例えば、専門用語や重要となるキーワードのみをテキスト化して表示するなどである。また、予め設定されたデータベース(例えば、専門用語などを辞書登録したデータベース)に基づき抽出された用語を強調表示するアドバイスを生成してもよい。さらに、抽出された用語をインターネット検索して、用語の意味をアドバイスとして生成、表示したり、検索結果から関連する用語などを同時に表示したりしてもよい。
(情報処理方法)
図9は、第6実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS601>
相手方の情報処理装置100のマイク102による音声の取得処理を行う。すなわち、相手方のパーソナルコンピュータ等に付属、またはUSB等の端子、もしくは無線を用いて接続されたマイク102により相手方の音声を入手する。
<ステップS602>
音声解析部20による相手方の音声情報の検出処理を行う。音声解析部20は、相手方の情報処理装置100からネットワークを介して送られた相手方の音声情報をテキスト化する。この際、音声情報の全てをテキスト化してもよいし、音声情報からキーワードとなる言葉を抽出してテキスト化してもよい。
音声認識に関しては、音響分析において、入力された音声データの音の強弱や周波数、音と音の間隔、時系列などさまざまな特徴量を抽出し、音響モデルで扱いやすい(コンピュータが認識しやすい)データに変換する。次に、音響モデルでは、音響分析により抽出された特徴量が、どの記号(音素や単語)にどれほど近いのかを学習したパターンと照らし合わせ、整合率を計算する。たとえば、「ありがとう」と音声を入力した場合、音声分析により抽出された特徴量を用いて「A-R-I-G-A-T-O-U」という音素になるように、音声を正しい文字にマッチングさせる。さらに、言語モデルでは、膨大な量のデータから単語のつながりを予測判定し、より正確な文章を組み立て、あらかじめ蓄積したデータから使用する単語の出現率を算出し、単語を文章化する言語モデルで主に利用されるモデルが「隠れマルコフモデル」である。これは、ある文字列に続く直後の文字の出現しやすさをパターン化し、それらの出現確率を定義している。膨大なデータから単語を連結させる確率を出し、文脈が正しくなるように単語を文章化する。さらに、発音辞書では、音声の最小単位の”音素”ごとにモデル化されている膨大なデータベースから、音の組み合わせをピックアップし、「単語」として認識させる。これらは、ディープラーニングやAIなどの技術を用いても良い。
<ステップS603>
アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、音声解析部20でテキスト化した音声情報に基づき、そのテキストをアドバイスとして生成する判断を行う。
アドバイス生成部30でテキスト全文を表示する場合、ディスプレイ104の画面上の指定の場所や、資料や相手の画像など何らかのソフトウエアやアプリケーションを表示していない場所に相手方の話した内容を表示していくことが好ましい。その際、カメラ部分に近い場所や、自分の視線が自分のカメラ画像中央を向くような場所に表示させるなども可能である。
また、アドバイス生成部30でキーワードのみ抽出する場合は下記のような方法が考えられる。
(1)専門用語辞典や専門用語集などを事前に収集、もしくはインターネット上のサービスを指定することにより得ることができる状態にしていく。
(2)それらの情報と比較し、当てはまる場合には、テキスト表示をする。
その際に、その前後の言葉を記憶しておき、その前後の言葉と一緒に、もしくは、その文節や文章単位で表示してもよい。
アドバイス生成部30でキーワードのみ抽出する場合のもう一つの方法は下記のようなものが挙げられる。
(1)予め、一般的に使われる「私」や「御社」などの専門用語に当たらないであろう情報を抽出しておく。
(2)この情報と比較し、上記専門用語に当てはまらないであろう単語を除去し、残った部分を専門用語として、アドバイス生成すると判断する。
その際に、その専門用語にあたる前後の言葉を記憶しておき、その前後の言葉と一緒に、もしくは、その文節や文章単位で表示してもよい。
さらに、専門用語だけではなく、会話をなり立たせる上で重要な言葉や文節を抽出することもできる。例えば、疑問形であると考えられる「~ですか?」という言葉や、文章の終わりの抑揚などを抽出する。
相手方からの疑問形は、自分が答える必要があると考えられるため、その前後の言葉を記憶しておき、アドバイスの生成が必要であると判断してもよい。
一例として、疑問形を抽出する例を挙げる。
(1)音声を常にテキスト変換しておき、常に例えば直近5分間分を記憶しておく。
(2)音声の抑揚(音声信号の周波数や大きさ)を読み取る。
(3)音声の抑揚や、音声の語尾の言葉の状態から疑問文かどうかを判断する。
(4)疑問文であった場合は、その疑問文の前にさかのぼり、文章の切れ目を探す。
(5)その切れ目から、疑問文の語尾までの情報をテキストにアドバイス生成として表示する。
このとき、その疑問文に対する答えが検索可能なのであれば、検索して表示してもよいし、模範解答を集めておき、それを同時に表示してもよい。
<ステップS604>
アドバイス出力部40は、アドバイスを使用者のディスプレイ104に出力する。すなわち、アドバイス出力部40は、アドバイス生成部30で生成したアドバイス(テキスト化された情報)を使用者のディスプレイ104に出力する。
例えば、相手方の音声ついて音声認識されたテキストデータをそのまま表示してもよいし、事前に一般的な会話で使われる言葉(たとえば、「はじめまして」や「御社」、「さて」など)を登録しておき、それをのぞいた専門用語のみを表示してもよい。また、疑問形(たとえば、語尾があがる、「~ですか?」などの言葉)を認識し、その疑問文のみを表示しても良い。
また、専門用語などは、アドバイス生成部30がその言葉をインターネットで自動的に検索し、アドバイス出力部40がその検索結果をディスプレイ104に表示するようにしてもよい。
(第7実施形態)
第7実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、音声解析部20が相手方の情報処理装置100のマイク102で取得した相手方の音声情報を用いて、質問にあたる部分を抽出する。アドバイス生成部30は、音声解析部20で抽出された質問に対する応答をアドバイスとして生成する。相手方の質問に対する応答は、事前に登録されたものであってもよいし、ネットワーク上にある答えの例(模範解答、一般解答など)であってもよい。アドバイス出力部40は、アドバイス生成部30によって生成されたアドバイス(質問に対する応答)を使用者のディスプレイ104に出力する。これにより、オンライン会議の進行中に相手方から出された質問に対して、使用者はディスプレイ104に表示されたアドバイスを参照して応答することができる。
処理の流れの一例を以下に挙げる。
(1)前記の方法で、質問に当たる部分を抽出する。(例えば「志望動機は何ですか?」など)
(2)その質問に対する単語や文脈から質問内容を把握する。(志望動機を聞かれていると把握する)
(3)予め志望動機と紐付けて入力された言葉をアドバイスとして表示する。
処理の流れの別の一例を以下に挙げる。
(1)前記の方法で、質問に当たる部分を抽出する。(例えば「量子コンピュータの仕組みはどんなものですか?」など)
(2)それに対して、インターネット上で、全文もしくは、単語を検索する。(例えば、「量子コンピュータ」と「仕組み」を検索する)
(3)その結果をテキスト、またはWebサイトのリンクで表示する。
オンライン会議において、対話相手からの質問に的確に答えることができないことや、相手の質問の意味が理解できない、でてくる単語が理解できない、といったことが起こりえる。本実施形態によれば、相手方との会話を解析して質問や用語に対するアドバイスを自動的に表示でき、円滑な会議を行うことができる。
(第8実施形態)
第8実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、音声解析部20が相手方の情報処理装置100のマイク102で取得した相手方の音声情報を用いて時間に関する情報を検出する。アドバイス生成部30は、音声解析部20で検出した時間に関する情報に基づくアドバイスを生成する。アドバイス出力部40は、アドバイス生成部30によって生成されたアドバイスを使用者のディスプレイ104に出力する。
時間に関する情報は、音声解析部20で解析された相手方の音声に時間に関する内容、例えば、「10分で話してください」「5、6分で話してください」などの時間に関する内容を含む音声の情報である。アドバイス生成部30は、音声解析部20で読み取った時間に関する情報をもとに、カウントダウンまたはカウントアップする時間情報をアドバイスとして生成する。アドバイス出力部40は、カウントダウンまたはカウントアップする時間情報をディスプレイ104に表示する。アドバイス出力部40は、時間情報を音や音声で出力してもよい。
処理の流れの一例を以下に挙げる。
(1)相手側の音声からを分析して、時間の情報を抽出する。(例えば、「5分で話してください」から、「5分」という情報を抽出する。)
(2)その時間を、ディスプレイ104の画面上に表示する。
(3)その時間から、例えば、1秒ごとにカウントダウンしてディスプレイ104に表示していく。(4分59秒、4分58秒、…など)
(4)0秒になった時点でディスプレイ104に表示されるカウントダウンの表示の色を変えるなどによって知らせる。
これにより、指定された時間内に話を終えることを意識させることができる。
(第9実施形態)
第9実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムを用いたオンライン会議の事前準備として、カメラ101によって取得した画像を用いて最適なセッティングの指導を行う。
事前のセッティングを行う方法としては下記が挙げられる。
(1)図10に示すように、ディスプレイ上にパソコンの高さなどの配置例が表示される。
配置例はカメラの高さや向き、座る位置、カメラやパソコンからの距離などである。最適なカメラ101の高さや向きなどは、カメラ101で取り込んだ画像を解析して顔の映る範囲、視線から導き出したカメラ101の高さや向きの方向性(例えば、「もう少しカメラの位置を高くして」や「もう少しカメラを離して」など)を示すことができる。
(2)図11に示すように、ディスプレイ104にガイドラインGLと、カメラに映った自分の画像を重ね合わせる。そのガイドラインGLにあった配置が推奨される配置となる。顔や体の輪郭のガイドだけではなく、目や鼻、口の位置が示されてもよい。
(3)周囲の明るさや、顔の明るさなど、全体の明るさやコントラストを最適にするようなメッセージやイラスト、写真などが表示される。
(4)周囲の明るさや、顔の明るさなど、全体の明るさやコントラストを最適にするよう画像を調整する。
(第10実施形態)
第10実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムを用いたオンライン会議の事前準備として、面接や相手の情報を入力する。例えば、企業名や、相手の好きなもの、好きなこと、嫌いなこと、嫌いなもの、氏名、出身値、今の住まい、興味のあることなどである。その情報を元に事前もしくは、会議や面接、お見合いなどの実行中に情報がディスプレイ104に表示される。
例えば、面接の際、企業名を入力しておけば、よくその企業がする質問や、業務内容などが表示される。また、お見合いの際に相手のすきなものを入力しておけば、それに関する情報がディスプレイ104の画面に表示されていくなどである。
オンライン会議においては、対話相手に考えているとおりに話を伝えることができない場合や、当初予定していた話が思い出せなかったり、緊張のために言葉に出てこなかったりといったことが起こり得る。本実施形態によれば、事前準備した情報がディスプレイ104に適宜のタイミングで表示されるため、このような問題を解消してオンライン会議を円滑に進めることができるようになる。
(第11実施形態)
第11実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムを用いたオンライン会議の事前準備として、オンラインでの会話中に行う予定の質問をあらかじめ入力しておき、実際の会話中にその情報が表示される。
表示されるタイミングは、はじめから表示されていてもよいし、本人がディスプレイ104の画面上をクリックしたタイミングで表示させてもよい。また、予め時間を入力しておき、その時間になったタイミングで表示させてもよい。また、別の方法としては相手の質問を促す音声を認識して、認識した結果に応じて表示させてもよい。
(第12実施形態)
第12実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムを用いたオンライン会議の事前準備として、予め進行に関する情報を入力しておく。進行に関する情報としては、例えば、何分の予定で会議を行うという時間情報や、どの順番で何分頃に行うという手順に関する情報である。
図12は、進行に関する情報の表示例を示す模式図である。
実際のオンラインでの会話中に、情報処理装置100の時間情報、またはインターネットを介した時間情報を照らし合わせて、残り時間や次に行うことの情報がディスプレイ104のアドバイスウインドウ104Wに表示される。例えば、アドバイスウインドウ104Wには、時間情報(例えば、会議の残り時間や会議の手順およびその残り時間など)が表示される。
(第13実施形態)
第13実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、使用者の情報処理装置100のディスプレイ104にアドバイスを表示するタイミングを調整する。
例えば、会話中に使用者のディスプレイ104にテキストやイラスト等でアドバイス表示されると、そちらの方に視線が行き、考えや会話が中断してしまう恐れがある。これを防ぐために、音声解析部20によって音声を解析した結果を利用し、音声のやりとり、つまり会話が少ない期間に、会話をしている期間と比較して多くのアドバイスをアドバイス生成部30で生成し、アドバイス出力部40によってそのアドバイスを出力する。これにより、会話を中断させることなく、ディスプレイ104のアドバイスを見ることができるようになる。
音声のやりとりの少ない期間に関しては、ノイズレベルの音声信号を除去した上で、例えば、0.5秒から1分といったある特定期間閾値を超える音声信号がない、または数が少ない場合に音声のやりとりが少ないと判断することができる。
(第14実施形態)
第14実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、ディスプレイ104に表示されるテキストを、予め設定された言語で表示する。すなわち、ディスプレイ104には、表示すべきテキストとその翻訳文との少なくともいずれかが表示される。
第14実施形態に係るオンライン会議サポートシステム1において、図1Bに示す音声解析部20は、マイク102で取り込んだ使用者の音声や、ネットワークNを介して送られる相手方の音声を認識してテキスト化する。テキスト化された音声は、アドバイス生成部30において予め設定された言語に自動的に翻訳される。翻訳言語は1つであってもよいし、複数であってもよい。
アドバイス生成部30で翻訳された言語は、アドバイス出力部40によってディスプレイ104に表示される。アドバイス出力部40は、翻訳された言語のみをディスプレイ104に表示してもよいし、翻訳前の言語と翻訳された言語との両方をディスプレイ104に表示してもよい。
(第15実施形態)
第15実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、複数のディスプレイ104を接続して使う場合、使用者の視線の位置に合わせて、その視線の先のディスプレイ104にテキストなどのアドバイスを出力する。
図13は、複数のディスプレイを用いた場合を例示する模式図である。
使用者は、複数のディスプレイ104を並列に配置したり、ノート型コンピュータ(情報処理装置100)にディスプレイ104を接続したりして、マルチディスプレイを構築することがある。この場合、第15実施形態に係るオンライン会議サポートシステム1では、図1Bに示す画像解析部10において、カメラ101で取り込んだ使用者の画像から、使用者の視線の向きを検出する。
アドバイス生成部30は、所定のアドバイスを生成するとともに、予め設定された視線の向きとディスプレイ104の位置との関係から、視線の向きに合ったディスプレイ104を選択する処理を行う。アドアイス出力部40は、アドバイス生成部30で選択されたディスプレイ104にアドバイスウインドウ104Wを出力する。これにより、マルチディスプレイを構築した場合であっても、使用者の視線の向きに合ったディスプレイ104にアドバイスウインドウ104Wを表示させることができる。
(第16実施形態)
第16実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、複数のカメラ101を接続して使う場合、使用者の視線の位置に合わせて、その視線の先のカメラ101での撮像に自動的に切り換える処理を行う。
第16実施形態に係るオンライン会議サポートシステム1では、図1Bに示す画像解析部10において、複数のカメラ101で取り込んだ使用者の画像のそれぞれから使用者の視線の向き検出する。
アドバイス生成部30は、検出した使用者の視線の向きに合った(視線の向きが最も正面に近い)カメラ101を選択する処理を行う。オンライン会議サポートシステム1は、アドバイス生成部30で選択されたカメラ101の映像を、ネットワークNを介して相手先に送信する。
例えば、図13に示すマルチディスプレイ構成において、それぞれのディスプレイ104の中央上にカメラ101が設けられている場合、使用者がノート型コンピュータ(情報処理装置100)のディスプレイ104に表示された資料を見ているときはノート型コンピュータ(情報処理装置100)のカメラ101で撮影された画像が自動的に選択され、使用者がノート型コンピュータ(情報処理装置100)に接続された別のディスプレイ104を見ているときはこのディスプレイ104に設けられたカメラ101で撮影された画像が自動的に選択される。このようなカメラ101の自動切り替えによって、複数のカメラ101を用いた場合であっても、使用者の視線の向きに合ったカメラ104が自動的に選択されて、常に正面を向いた映像を相手方に送ることができる。
(第17実施形態)
第17実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、使用者がその方向に指さす、顔を向ける、といった特定の動作(ジェスチャーなど)をすることで、その特定の動作に応じてカメラ101の撮像領域をズームしたり、パンしたり、フォーカスを合わせたりする動作を行う。
例えば、使用者はホワイトボード、黒板、資料の付箋で示された箇所などを説明したい場合、カメラ101でその箇所を撮像して相手方に送りたいことがある。この場合、第17実施形態に係るオンライン会議サポートシステム1では、図1Bに示す画像解析部10において、予め設定された特定の動作を検出すると、カメラ101の撮像領域を制御する。
例えば、カメラ101で取り込んだ使用者の画像から、使用者が指さす動作を検知した場合、その指さす位置にカメラ101をズームしたり、パンしたり、フォーカスを合わせたりする。ズームやパンは電式的に行ってもよいし、機械的に行ってもよい。また、カメラ101で取り込んだ使用者の画像から、使用者の顔の向きを検出し、検出した顔の向きにカメラ101をパンしてもよい。
これにより、例えば、使用者の背景にホワイトボードが配置され、そこに使用者が説明書きなどを書き込んだ場合、使用者の顔の向きや、指さしの動作によって、カメラ101の撮像領域が自動的に注目させた位置に制御される。使用者の特定の動作は、指さしに限定されず、予め設定された特定のジェスチャーによって各種の制御(カメラ101の撮像の制御、オンライン会議サポートシステム1の動作制御など)を行うようにしてもよい。
また、カメラ101で取り込んだ使用者の特定の動作に加え、マイク102で取り込んだ使用者の音声から特定のキーワード(例えば、「ここをズーム」、「ここにパン」、「ここにフォーカス」という言葉)を認識した場合、カメラ101の撮像領域の制御を行うようにしてもよい。
(付加機能)
前述の各実施形態に係るオンライン会議サポートシステム1においては、下記のような機能の少なくともいずれかを付加してもよい。
(1)テキストやイラストなどの表示、音声や振動による通知は、オンラインでの会議/面接/面談/お見合いの途中で、かつ、表情や音声が認識された直後(例えば、30秒以内)に行われる。
(2)テキストやイラストなどの表示、音声や振動による通知は、オンラインでの会議/面接/面談/お見合いの途中で、かつ、会話や会議の妨げにならない、会話がなされていない、または、画像が動いていない期間に行われる(例えば、0.1秒から10分)。
(3)会議の事前準備として、会議開催前(オンラインで相手と繋がる前)に、音声や顔の位置、表情を認識してアドバイスを与える。
(4)会議の振り返りや反省として、会議開催後(オンラインで相手との通信が途切れた後)にアドバイスを与える。
(5)カメラ101で取り込んだ画像から背景に映っている物を抽出し、会議に適さないと思われる物が映っている場合にアドバイスを与える。例えば、背景の画像から文字を抽出した場合、「背景に○○の文字が映っています。」などのメッセージを出力する。また、背景の画像から動きのある物を抽出した場合、「背景に動いているものが映っています。」などのメッセージを出力する。例えば、会議中に部屋にペットが入り込んで背景に映り込んだ場合、このようなメッセージを出力して使用者に認識させることができる。
(6)マイク102で取り込んだ音声情報からノイズ成分を抽出し、ある一定レベル以上のノイズ成分が一定時間以上続く場合、「ノイズ音が含まれています。」などのメッセージを出力する。
(オンライン会議サポートプログラム)
上記説明したオンライン会議サポートシステム1は、オンライン会議サポートプログラムとして適用可能である。オンライン会議サポートプログラムは、コンピュータに以下のステップを実行させる。
(1)カメラ101で取り込んだ使用者の画像を解析する画像解析ステップ
(2)マイク102で取り込んだ使用者の音声を解析する音声解析ステップ
(3)画像解析ステップおよび音声解析ステップで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成ステップ
(4)アドバイス生成ステップで生成したアドバイスを使用者のディスプレイ104に出力するアドバイス出力ステップ
オンライン会議サポートプログラムは、各種の情報処理装置(コンピュータ、タブレット端末、携帯電話等)で実行されるアプリケーションソフトウェアとして構成することができる。オンライン会議サポートプログラムは、媒体に記憶されていてもよいし、ネットワークを介して配信されてもよい。オンライン会議サポートプログラムは、オンライン会議を行うアプリケーションソフトウェアに組み込まれてもよいし、プラグインなどで後から追加で組み込むことができるようになっていてもよい。
以上説明したように、本実施形態によれば、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステム1およびオンライン会議サポートプログラムを提供することが可能になる。
なお、上記に本実施形態およびその適用例を説明したが、本発明はこれらの例に限定されるものではない。例えば、本実施形態に係るオンライン会議サポートシステム1を構成する画像解析部10、音声解析部20、アドバイス生成部30およびアドバイス出力部40の少なくともいずれかは情報処理装置100の外部に設けられ、ネットワークNを介して情報処理装置100と接続される構成になっていてもよい。また、前述の各実施形態またはその適用例に対して、当業者が適宜、構成要素の追加、削除、設計変更を行ったものや、各実施形態の特徴を適宜組み合わせたものも、本発明の要旨を備えている限り、本発明の範囲に包含される。
本発明に係るオンライン会議サポートシステム1およびオンライン会議サポートプログラムは、オンライン会議のほか、オンライン面接、オンラインセミナー、オンライン授業、オンライン商談など、オンラインで使用者および相手方の双方で情報の送受信を行うシステムに好適に利用可能である。
1…オンライン会議サポートシステム
10…画像解析部
20…音声解析部
30…アドバイス生成部
40…アドバイス出力部
100…情報処理装置
101…カメラ
102…マイク
103…スピーカ
104…ディスプレイ
104W…アドバイスウインドウ
GL…ガイドライン
N…ネットワーク

Claims (22)

  1. カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートシステムであって、
    前記カメラで取り込んだ前記使用者の画像を解析する画像解析部と、
    前記マイクで取り込んだ前記使用者の音声を解析する音声解析部と、
    前記画像解析部および前記音声解析部の少なくともいずれかで解析した結果に基づき前記使用者に対するアドバイスを生成するアドバイス生成部と、
    前記アドバイス生成部で生成された前記アドバイスを前記使用者の前記ディスプレイに出力するアドバイス出力部と、
    を備え、
    前記画像解析部は、前記使用者の前記画像から前記カメラの画角中心に対する前記使用者の顔の向きまたは前記使用者の視線の方向を解析し、
    前記アドバイス生成部は、前記画像解析部で解析した前記使用者の顔の向きまたは前記使用者の視線の方向が一定時間を超えて前記カメラの画角中心に対して予め設定した範囲を外れている場合、前記カメラの方向を向くようアドバイスを生成することを特徴とするオンライン会議サポートシステム。
  2. 前記アドバイス生成部は、前記画像解析部で解析した前記使用者の顔の向きまたは前記使用者の視線の方向に基づきオンライン会議の相手方に与える印象に応じたアドバイスを生成する、請求項1記載のオンライン会議サポートシステム。
  3. 前記画像解析部は、前記使用者の前記画像から前記カメラの画角中心に対する前記使用者の視線の方向を解析し、
    前記アドバイス出力部は、前記画像解析部で解析した前記視線の延長上付近となる前記ディスプレイの位置に前記アドバイスを出力する、請求項記載のオンライン会議サポートシステム。
  4. カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートシステムであって、
    前記カメラで取り込んだ前記使用者の画像を解析する画像解析部と、
    前記マイクで取り込んだ前記使用者の音声を解析する音声解析部と、
    前記画像解析部および前記音声解析部の少なくともいずれかで解析した結果に基づき前記使用者に対するアドバイスを生成するアドバイス生成部と、
    前記アドバイス生成部で生成された前記アドバイスを前記使用者の前記ディスプレイに出力するアドバイス出力部と、
    を備え、
    前記画像解析部は、前記使用者の前記画像から前記使用者の表情を解析し、
    前記アドバイス生成部は、前記画像解析部で解析した前記使用者の表情から笑顔ではないと判定された時間が予め設定された時間以上続いた場合、笑顔を促すアドバイスを生成することを特徴とするオンライン会議サポートシステム。
  5. カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートシステムであって、
    前記カメラで取り込んだ前記使用者の画像を解析する画像解析部と、
    前記マイクで取り込んだ前記使用者の音声を解析する音声解析部と、
    前記画像解析部および前記音声解析部の少なくともいずれかで解析した結果に基づき前記使用者に対するアドバイスを生成するアドバイス生成部と、
    前記アドバイス生成部で生成された前記アドバイスを前記使用者の前記ディスプレイに出力するアドバイス出力部と、
    を備え、
    前記画像解析部は、前記使用者の前記画像から前記使用者の表情を解析し、
    前記アドバイス生成部は、前記画像解析部で解析した前記使用者の表情から怒りの表情であると判定された場合、平常な顔に戻るようアドバイスを生成することを特徴とするオンライン会議サポートシステム。
  6. 前記アドバイス生成部は、前記画像解析部で解析した前記使用者の表情が笑顔や穏やかな場合に、良い表情であることを示すアドバイスを生成する、請求項4または請求項5に記載のオンライン会議サポートシステム。
  7. 前記画像解析部は、オンラインで送信される相手方の画像から前記相手方の表情を解析し、
    前記アドバイス生成部は、前記画像解析部で解析した前記使用者の表情と、前記相手方の表情との相違に基づくアドバイスを生成する、請求項4または請求項5に記載のオンライン会議サポートシステム。
  8. 前記音声解析部は、前記使用者の音声を解析した使用者音声情報と、予め設定された基準音声情報とを比較して音声比較情報を求め、
    前記アドバイス生成部は、前記音声解析部で求めた前記音声比較情報に基づくアドバイスを生成する、請求項1記載のオンライン会議サポートシステム。
  9. 前記音声解析部は、オンラインで送信される相手方の音声から前記音声に対応したテキストデータを解析し、
    前記アドバイス生成部は、前記音声解析部で解析した前記テキストデータを前記アドバイスとして生成する、請求項1記載のオンライン会議サポートシステム。
  10. 前記アドバイス生成部は、前記音声解析部で解析した前記テキストデータから予め設定されたデータベースに基づき抽出された用語を強調表示するアドバイスを生成する、請求項記載のオンライン会議サポートシステム。
  11. 前記情報処理装置は、前記使用者からの入力を受け付ける入力手段を有し、
    前記アドバイス生成部は、前記入力手段で入力された前記用語の意味をインターネットで検索して、検索結果をアドバイスとして生成する、請求項10記載のオンライン会議サポートシステム。
  12. 前記音声解析部は、前記使用者の音声から話している内容が質問であるか否かを解析し、
    前記アドバイス生成部は、前記音声解析部で解析した音声の内容が質問であった場合、前記質問に対する回答をインターネット検索して、検索結果をアドバイスとして生成する、請求項1記載のオンライン会議サポートシステム。
  13. 前記音声解析部は、前記使用者の音声から前記使用者の会話時間を解析し、
    前記アドバイス生成部は、前記会話時間に基づくカウントアップ時間またはカウントダウン時間をアドバイスとして生成する、請求項1記載のオンライン会議サポートシステム。
  14. 前記アドバイス出力部は、前記音声解析部によって解析した前記使用者と相手方との音声のやりとりが少ない期間または音声のやりとりが途絶えた期間に、アドバイス出力をする、請求項1記載のオンライン会議サポートシステム。
  15. 前記画像解析部は、オンライン会議における前記カメラの最適な撮影領域と撮影位置とを示すガイドを前記ディスプレイに表示し、
    前記アドバイス生成部は、前記カメラで取得した前記使用者の画像の領域および位置と前記ガイドとの比較結果に基づき前記使用者に対するアドバイスを生成する、請求項1記載のオンライン会議サポートシステム。
  16. 前記画像解析部は、前記カメラで取得した前記使用者の画像に基づき画質を解析する、請求項1記載のオンライン会議サポートシステム。
  17. 前記情報処理装置は、前記使用者からの入力を受け付ける入力手段を有し、
    前記アドバイス生成部は、前記入力手段で受け付けた前記使用者の会議に使用する事前の情報を、会議における所定のタイミングでアドバイスとして生成する、請求項1記載のオンライン会議サポートシステム。
  18. オンライン会議中に前記使用者の前記ディスプレイに表示される内容を相手方と共有した際、前記アドバイス出力部は前記アドバイスを前記相手方のディスプレイに表示させない処理を行う、請求項1記載のオンライン会議サポートシステム。
  19. 前記アドバイス出力部は、出力した前記アドバイスをネットワークを介して記憶装置に送信する処理を行う、請求項1記載のオンライン会議サポートシステム。
  20. カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートプログラムであって、
    コンピュータに、
    前記カメラで取り込んだ前記使用者の画像から前記カメラの画角中心に対する前記使用者の顔の向きまたは前記使用者の視線の方向を解析する画像解析ステップと、
    前記マイクで取り込んだ前記使用者の音声を解析する音声解析ステップと、
    前記画像解析ステップおよび前記音声解析ステップの少なくともいずれかで解析した結果に基づき前記使用者に対するアドバイスを生成する処理において、前記画像解析ステップで解析した前記使用者の顔の向きまたは前記使用者の視線の方向が一定時間を超えて前記カメラの画角中心に対して予め設定した範囲を外れている場合、前記カメラの方向を向くようアドバイスを生成するアドバイス生成ステップと、
    を実行させることを特徴とするオンライン会議サポートプログラム。
  21. カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートプログラムであって、
    コンピュータに、
    前記カメラで取り込んだ前記使用者の画像から前記使用者の表情を解析する画像解析ステップと、
    前記マイクで取り込んだ前記使用者の音声を解析する音声解析ステップと、
    前記画像解析ステップおよび前記音声解析ステップの少なくともいずれかで解析した結果に基づき前記使用者に対するアドバイスを生成する処理において、前記画像解析ステップで解析した前記使用者の表情から笑顔ではないと判定された時間が予め設定された時間以上続いた場合、笑顔を促すアドバイスを生成するアドバイス生成ステップと、
    前記アドバイス生成ステップで生成した前記アドバイスを前記使用者の前記ディスプレイに出力するアドバイス出力ステップと、
    を実行させることを特徴とするオンライン会議サポートプログラム。
  22. カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートプログラムであって、
    コンピュータに、
    前記カメラで取り込んだ前記使用者の画像ら前記カメラの画角中心に対する前記使用者の視線の方向を解析する画像解析ステップと、
    前記マイクで取り込んだ前記使用者の音声を解析する音声解析ステップと、
    前記画像解析ステップおよび前記音声解析ステップの少なくともいずれかで解析した結果に基づき前記使用者に対するアドバイスを生成する処理において、前記画像解析ステップで解析した前記使用者の表情から怒りの表情であると判定された場合、平常な顔に戻るようアドバイスを生成するアドバイス生成ステップと、
    前記アドバイス生成ステップで生成した前記アドバイスを前記使用者の前記ディスプレイに出力するアドバイス出力ステップと、
    を実行させることを特徴とするオンライン会議サポートプログラム。
JP2022519156A 2020-10-28 2021-10-22 オンライン会議サポートシステムおよびオンライン会議サポートプログラム Active JP7231301B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020180257 2020-10-28
JP2020180257 2020-10-28
PCT/JP2021/039102 WO2022091970A1 (ja) 2020-10-28 2021-10-22 オンライン会議サポートシステムおよびオンライン会議サポートプログラム

Publications (3)

Publication Number Publication Date
JPWO2022091970A1 JPWO2022091970A1 (ja) 2022-05-05
JPWO2022091970A5 JPWO2022091970A5 (ja) 2022-10-11
JP7231301B2 true JP7231301B2 (ja) 2023-03-01

Family

ID=81383874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022519156A Active JP7231301B2 (ja) 2020-10-28 2021-10-22 オンライン会議サポートシステムおよびオンライン会議サポートプログラム

Country Status (2)

Country Link
JP (1) JP7231301B2 (ja)
WO (1) WO2022091970A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185393A (ja) 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置
JP2006186933A (ja) 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置
JP2012054897A (ja) 2010-09-03 2012-03-15 Sharp Corp 会議システム、情報処理装置、及び情報処理方法
JP2016019045A (ja) 2014-07-04 2016-02-01 沖電気工業株式会社 情報処理装置、情報処理方法、プログラムおよび情報処理システム
JP2019029984A (ja) 2017-07-27 2019-02-21 大日本印刷株式会社 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム
JP2020047087A (ja) 2018-09-20 2020-03-26 いすゞ自動車株式会社 車両用監視装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185393A (ja) 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置
JP2006186933A (ja) 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置
JP2012054897A (ja) 2010-09-03 2012-03-15 Sharp Corp 会議システム、情報処理装置、及び情報処理方法
JP2016019045A (ja) 2014-07-04 2016-02-01 沖電気工業株式会社 情報処理装置、情報処理方法、プログラムおよび情報処理システム
JP2019029984A (ja) 2017-07-27 2019-02-21 大日本印刷株式会社 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム
JP2020047087A (ja) 2018-09-20 2020-03-26 いすゞ自動車株式会社 車両用監視装置

Also Published As

Publication number Publication date
WO2022091970A1 (ja) 2022-05-05
JPWO2022091970A1 (ja) 2022-05-05

Similar Documents

Publication Publication Date Title
JP6042015B1 (ja) オンライン面接評価装置、方法およびプログラム
CN115413348B (zh) 用于自动验证和量化面试问题回答的系统和方法
JP5195106B2 (ja) 画像修正方法、画像修正システム、及び画像修正プログラム
US20140129207A1 (en) Augmented Reality Language Translation
Iwasaki et al. The challenges of multimodality and multi-sensoriality: Methodological issues in analyzing tactile signed interaction
US20050131744A1 (en) Apparatus, system and method of automatically identifying participants at a videoconference who exhibit a particular expression
JP2018124604A (ja) 接客支援システム、接客支援装置及び接客支援方法
JP2005124160A (ja) 会議支援システム、情報表示装置、プログラム、及び制御方法
US20220327309A1 (en) METHODS, SYSTEMS, and MACHINE-READABLE MEDIA FOR TRANSLATING SIGN LANGUAGE CONTENT INTO WORD CONTENT and VICE VERSA
JP7279494B2 (ja) 会議支援装置、および会議支援システム
JP2016103081A (ja) 会話分析装置、会話分析システム、会話分析方法及び会話分析プログラム
KR102263154B1 (ko) 스마트 미러 기반 얼굴 감성 표현 시스템 및 그 운용방법
JP2020173714A (ja) 対話支援装置、対話支援システム、及び対話支援プログラム
KR102412823B1 (ko) 번역 기능을 제공하는 실시간 양방향 온라인 회의 시스템
JP2000184345A (ja) マルチモーダルコミュニケーション支援装置
JP4077656B2 (ja) 発言者特定映像装置
Berke Displaying confidence from imperfect automatic speech recognition for captioning
JP7231301B2 (ja) オンライン会議サポートシステムおよびオンライン会議サポートプログラム
US20050131697A1 (en) Speech improving apparatus, system and method
CN116018789A (zh) 在线学习中用于对学生注意力进行基于上下文的评估的方法、系统和介质
JP2010086356A (ja) 意識関与度測定装置、意識関与度測定方法および意識関与度測定プログラム
JP7096626B2 (ja) 情報抽出装置
JP7197957B2 (ja) 反応解析システムおよび反応解析装置
KR102278162B1 (ko) 사용자와 상호작용하는 스피치 보조 로봇의 동작 방법
KR20160122869A (ko) 로봇 팔을 이용한 언어 변환이 가능한 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220518

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230209

R150 Certificate of patent or registration of utility model

Ref document number: 7231301

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150