JP7361961B1

JP7361961B1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7361961B1
Application number: JP2023001538A
Authority: JP
Inventors: 俊英川満
Original assignee: TIS Inc
Current assignee: TIS Inc
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-10-16
Anticipated expiration: 2043-01-10

Abstract

【課題】オンラインプレゼンテーションにおいて、プレゼンテーションを受ける出席者の感情をより精度よく推定する。【解決手段】本情報処理装置は、第１の出席者による第２の出席者へのオンラインプレゼンテーションの動画を取得する動画取得部と、上記動画から上記第１の出席者に係る情報を除外した除外後データを生成する除外部と、上記除外後データを基に、上記第２の出席者の感情を推定する推定部と、上記オンラインプレゼンテーションの画面に、推定した上記第２の出席者の上記感情を示す符号を出力する出力部と、を備える。【選択図】図５

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

近年、商談やプレゼンテーション等をオンラインで行う、いわゆるオンラインプレゼンテーションが広く利用されている。顧客の声や動画を基に顧客の感情を分析する技術も提案されている（特許文献１、２参照）。

特開２０２０－１８４２１６号公報特開２０１８－０６８６１８号公報

オンラインプレゼンテーションにおいて取得される動画には、顧客だけではなく、顧客に製品等の説明をする営業担当者も含まれる。そのため、オンラインプレゼンテーションで取得された動画をそのまま用いて感情の推定を行ってしまうと、推定対象ではない営業担当者も含まれてしまうため、顧客の感情の推定精度が低下する虞がある。

開示の技術の１つの側面は、オンラインプレゼンテーションにおいて、プレゼンテーションを受ける出席者の感情をより精度よく推定できる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

開示の技術の１つの側面は、次のような情報処理装置によって例示される。本情報処理装置は、第１の出席者による第２の出席者へのオンラインプレゼンテーションの動画を取得する動画取得部と、上記動画から上記第１の出席者に係る情報を除外した除外後データを生成する除外部と、上記除外後データを基に、上記第２の出席者の感情を推定する推定部と、上記オンラインプレゼンテーションの画面に、推定した上記第２の出席者の上記感情を示す符号を出力する出力部と、を備える。

本情報処理装置によれば、オンラインプレゼンテーションに出席する第１の出席者及び第２の出席者のうち、プレゼンテーションを行う第１の出席者に係る情報を除外して感情が推定される。第１の出席者を除外して感情が推定されるため、第２の出席者の感情の推定精度をより高いものとすることができる。

本情報処理装置は、次の特徴を備えてもよい。上記第１の出席者を撮影した画像データを記憶する記憶部をさらに備え、上記除外部は、上記記憶部に記憶された上記画像データを基に、上記第１の出席者に係る情報を除外した除外後映像データを生成し、上記推定部は、上記除外後映像データを基に上記第２の出席者の上記感情を推定する。このような情報処理装置によれば、映像を基にした第２の出席者の感情の推定精度をより高いものとすることができる。

本情報処理装置は、次の特徴を備えてもよい。上記第１の出席者の音声データを記憶する記憶部をさらに備え、上記除外部は、上記記憶部に記憶された上記音声データを基に、上記第１の出席者に係る情報を除外した除外後音声データを生成し、上記推定部は、上記
除外後音声データを基に上記第２の出席者の上記感情を推定する。このような情報処理装置によれば、音声データを基にした第２の出席者の感情の推定精度をより高いものとすることができる。

本情報処理装置は、次の特徴を備えてもよい。上記除外後音声データからテキストデータを抽出するテキスト抽出部をさらに備え、上記推定部は、上記テキストデータを基に上記第２の出席者の上記感情を推定する。このような情報処理装置によれば、テキストデータが除外後音声データから抽出されるため、テキストデータを基にした第２の出席者の感情の推定精度をより高いものとすることができる。

本情報処理装置は、次の特徴を備えてもよい。上記第１の出席者を撮影した画像データ、及び、上記第１の出席者の音声データを記憶する記憶部をさらに備え、上記除外部は、上記記憶部に記憶された上記画像データを基に、上記第１の出席者に係る情報を除外した除外後映像データを生成し、上記記憶部に記憶された上記音声データを基に、上記第１の出席者に係る情報を除外した除外後音声データを生成する。また、上記情報処理装置は、上記除外後音声データからテキストデータを抽出するテキスト抽出部をさらに備える。そして、上記推定部は、上記除外後映像データを基に上記第２の出席者の第１の感情を推定し、上記除外後音声データを基に上記第２の出席者の第２の感情を推定し、上記テキストデータを基に上記第２の出席者の第３の感情を推定し、上記第１の感情、上記第２の感情及び上記第３の感情を基に、上記第２の出席者の上記感情を推定する。このような情報処理装置によれば、映像、音声及びテキストデータを複合的に活用して第２の出席者の感情を推定できるため、感情の推定精度をより高めることができる。

本情報処理装置は、次の特徴を備えてもよい。上記動画取得部は、上記オンラインプレゼンテーションが実行されている間に所定間隔で上記動画を取得し、上記出力部は、上記オンラインプレゼンテーションの画面に出力した上記第２の出席者の上記感情を示す上記符号を上記所定間隔で更新する。このような情報処理装置によれば、オンラインプレゼンテーション中に第２の出席者の感情を示す符号が出力されるため、第２の出席者の反応を考慮したプレゼンテーションを第１の出席者に促すことができる。

本情報処理装置は、次の特徴を備えてもよい。上記出力部は、上記オンラインプレゼンテーションの終了後に、上記第２の出席者の上記感情の時系列変化を基にした上記オンラインプレゼンテーションの評価をさらに出力する。また、上記出力部は、上記オンラインプレゼンテーションの終了後に、上記第２の出席者の上記感情の時系列変化をさらに出力してもよい。このような情報処理装置によれば、オンラインプレゼンテーションにおける第２の出席者の反応が一目で把握させることができる。

本情報処理装置は、次の特徴を備えてもよい。過去に実施された上記オンラインプレゼンテーションにおいてプレゼンテーションを受ける第３の出席者の感情の時系列変化を記憶する記憶部をさらに備え、上記出力部は、上記第３の出席者の上記感情の時系列変化と上記第２の出席者の上記感情の時系列変化とを対応付けて出力する。このような情報処理装置によれば、過去に行われたオンラインプレゼンテーションと今回行われたオンラインプレゼンテーションにおける出席者の反応を容易に比較することができる。

以上説明した技術は、情報処理方法及び情報処理プログラムとして把握することも可能である。

開示の技術によれば、オンラインプレゼンテーションにおいて、プレゼンテーションを受ける出席者の感情をより精度よく推定できる。

図１は、実施形態に係るオンライン商談支援システムの一例を示す図である。図２は、支援装置のハードウェア構成の一例を示す図である。図３は、営業端末のハードウェア構成の一例を示す図である。図４は、顧客端末のハードウェア構成の一例を示す図である。図５は、実施形態に係る支援装置の処理ブロックの一例を示す図である。図６は、動画取得部によって取得される動画の一画面（オンライン商談画面）を例示する図である。図７は、営業端末のディスプレイに表示されるオンライン商談画面の一例を示す図である。図８は、営業端末のディスプレイに表示される評価結果画面の一例を示す図である。図９は、実施形態に係る支援装置の処理フローの一例を示す図である。図１０は、感情推定部による感情の推定処理の処理フローの一例を示す第１の図である。図１１は、感情推定部による感情の推定処理の処理フローの一例を示す第２の図である。図１２は、感情推定部による感情の推定処理の処理フローの一例を示す第３の図である。図１３は、感情推定部による感情の推定処理の処理フローの一例を示す第４の図である。図１４は、評価部による総合評価の算出処理の処理フローの一例を示す図である。

＜実施形態＞
以下、図面を参照して実施形態についてさらに説明する。図１は、実施形態に係るオンライン商談支援システム５００の一例を示す図である。オンライン商談支援システム５００は、支援装置１、営業端末２、顧客端末３１、３２、３３及びネットワークＮ１を備える。支援装置１、営業端末２及び顧客端末３は、ネットワークＮ１によって通信可能に接続される。

オンライン商談支援システム５００では、顧客端末３１、３２、３３及び営業端末２を利用したオンライン商談が行われる。オンライン商談では、顧客Ｃ１１、Ｃ１２、Ｃ１３に対して、例えば、営業担当者Ｅ１が製品やサービスをオンラインで説明する。支援装置１は、商談に係る音及び動画をネットワークＮ１を介して取得する。顧客端末３１、３２、３３を区別しないときは、顧客端末３とも称する。顧客Ｃ１１、Ｃ１２、Ｃ１３を区別しないときは、顧客Ｃ１０とも称する。営業担当者Ｅ１は、「第１の出席者」の一例である。オンライン商談は、「オンラインプレゼンテーション」の一例である。

顧客端末３は、顧客Ｃ１０によって利用される情報処理装置である。顧客Ｃ１０は、顧客端末３を利用してオンライン商談に参加する。営業端末２は、営業担当者Ｅ１によって利用される情報処理装置である。営業担当者Ｅ１は、営業端末２を利用してオンライン商談に参加する。顧客Ｃ１０は、「第２の出席者」の一例である。

支援装置１は、営業端末２及び顧客端末３１、３２、３３によって行われるオンライン商談の音及び動画をネットワークＮ１を介して取得する。支援装置１は、取得した音及び動画を基に、顧客端末３を利用する顧客Ｃ１０の感情を分析する。支援装置１は、「情報
処理装置」の一例である。

＜ハードウェア構成＞
図２は、支援装置１のハードウェア構成の一例を示す図である。支援装置１は、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）１０１、主記憶部１０２、補助記憶部１０３、通信部１０４、ディスプレイ１０５及び接続バスＢ１を備える。ＣＰＵ１０１、主記憶部１０２、補助記憶部１０３、通信部１０４及びディスプレイ１０５は、接続バスＢ１によって相互に接続される。

ＣＰＵ１０１は、マイクロプロセッサーユニット（ＭＰＵ）、プロセッサーとも呼ばれる。ＣＰＵ１０１は、単一のプロセッサーに限定される訳ではなく、マルチプロセッサー構成であってもよい。また、単一のソケットで接続される単一のＣＰＵ１０１がマルチコア構成を有していてもよい。ＣＰＵ１０１が実行する処理のうち少なくとも一部は、ＣＰＵ１０１以外のプロセッサー、例えば、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ（ＤＳＰ）、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＧＰＵ）、数値演算プロセッサー、ベクトルプロセッサー、画像処理プロセッサー等の専用プロセッサーで行われてもよい。また、ＣＰＵ１０１が実行する処理のうち少なくとも一部は、集積回路（ＩＣ）、その他のデジタル回路によって実行されてもよい。また、ＣＰＵ１０１の少なくとも一部にアナログ回路が含まれてもよい。集積回路は、ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ（ＬＳＩ）、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）を含む。ＰＬＤは、例えば、Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ（ＦＰＧＡ）を含む。ＣＰＵ１０１は、プロセッサーと集積回路との組み合わせであってもよい。組み合わせは、例えば、マイクロコントローラーユニット（ＭＣＵ）、Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ（ＳｏＣ）、システムＬＳＩ、チップセットなどと呼ばれる。支援装置１では、ＣＰＵ１０１が補助記憶部１０３に記憶されたプログラムを主記憶部１０２の作業領域に展開し、プログラムの実行を通じて周辺装置の制御を行う。これにより、支援装置１は、所定の目的に合致した処理を実行することができる。主記憶部１０２及び補助記憶部１０３は、ＣＰＵ１０１が読み取り可能な記録媒体である。

主記憶部１０２は、ＣＰＵ１０１から直接アクセスされる記憶部として例示される。主記憶部１０２は、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）及びＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）を含む。

補助記憶部１０３は、各種のプログラム及び各種のデータを読み書き自在に記録媒体に格納する。補助記憶部１０３は外部記憶装置とも呼ばれる。補助記憶部１０３には、オペレーティングシステム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ＯＳ）、各種プログラム、各種テーブル等が格納される。ＯＳは、通信部１０４を介して接続される外部装置等とのデータの受け渡しを行う通信インターフェースプログラムを含む。外部装置等には、例えば、コンピューターネットワーク等で接続された、他の情報処理装置及び外部記憶装置が含まれる。なお、補助記憶部１０３は、例えば、ネットワーク上のコンピューター群であるクラウドシステムの一部であってもよい。

補助記憶部１０３は、例えば、ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ（ＥＰＲＯＭ）、ソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ、ＳＳＤ）、ハードディスクドライブ（ＨａｒｄＤｉｓｋＤｒｉｖｅ、ＨＤＤ）等である。また、補助記憶部１０３は、例えば、ＣｏｍｐａｃｔＤｉｓｃ（ＣＤ）ドライブ装置、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）ドライブ装置、Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃ（ＢＤ）ドライブ装置等である。また、補助記憶部１０３は
、ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ（ＮＡＳ）あるいはＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ（ＳＡＮ）によって提供されてもよい。

通信部１０４は、例えば、ネットワークＮ１とのインターフェースである。通信部１０４は、ネットワークＮ１を介して営業端末２及び顧客端末３と通信を行う。

ディスプレイ１０５は、ＣＰＵ１０１で処理されるデータや主記憶部１０２に記憶されるデータを表示する。ディスプレイ１０５は、例えば、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ（ＬＣＤ）、ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ（ＰＤＰ）、無機Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ（ＥＬ）パネル、有機ＥＬパネルである。

つづいて、営業端末２のハードウェア構成について説明する。図３は、営業端末２のハードウェア構成の一例を示す図である。営業端末２は、ＣＰＵ２０１、主記憶部２０２、補助記憶部２０３、通信部２０４、ディスプレイ２０５、スピーカー２０６、マイクロフォン２０７、カメラ２０８及び接続バスＢ２を備える。ＣＰＵ２０１、主記憶部２０２、補助記憶部２０３、通信部２０４、ディスプレイ２０５、スピーカー２０６、マイクロフォン２０７及びカメラ２０８は、接続バスＢ２によって相互に接続される。

ＣＰＵ２０１、主記憶部２０２、補助記憶部２０３、通信部２０４及びディスプレイ２０５は、支援装置１のＣＰＵ１０１、主記憶部１０２、補助記憶部１０３、通信部１０４及びディスプレイ１０５と同様の構成であるため、その説明を省略する。スピーカー２０６は、音を出力する装置である。スピーカー２０６は、例えば、オンライン商談の相手となる顧客Ｃ１０の声等の音を出力する。マイクロフォン２０７は、音の入力を受け付ける装置である。マイクロフォン２０７は、例えば、営業担当者Ｅ１の声取得に用いられるマイクロフォンである。カメラ２０８は、例えば、営業担当者Ｅ１を撮影するデジタルカメラである。

つづいて、顧客端末３のハードウェア構成について説明する。図４は、顧客端末３のハードウェア構成の一例を示す図である。顧客端末３は、ＣＰＵ３０１、主記憶部３０２、補助記憶部３０３、通信部３０４、ディスプレイ３０５、スピーカー３０６、マイクロフォン３０７、カメラ３０８及び接続バスＢ３を備える。ＣＰＵ３０１、主記憶部３０２、補助記憶部３０３、通信部３０４、ディスプレイ３０５、スピーカー３０６、マイクロフォン３０７、カメラ３０８及び接続バスＢ３は、営業端末２のＣＰＵ２０１、主記憶部２０２、補助記憶部２０３、通信部２０４、ディスプレイ２０５、スピーカー２０６、マイクロフォン２０７、カメラ２０８及び接続バスＢ２と同様の構成であるため、その説明を省略する。

＜支援装置１の処理ブロック＞
図５は、実施形態に係る支援装置１の処理ブロックの一例を示す図である。支援装置１は、動画取得部１１、映像抽出部１２、音声抽出部１３、除外部１４、テキスト抽出部１５、感情推定部１６、評価部１７、出力部１８及び担当者データベース１９を備える。支援装置１は、主記憶部１０２に実行可能に展開されたコンピュータープログラムをＣＰＵ１０１が実行することで、上記支援装置１の、動画取得部１１、映像抽出部１２、音声抽出部１３、除外部１４、テキスト抽出部１５、感情推定部１６、評価部１７、出力部１８及び担当者データベース１９等の各部としての処理を実行する。

担当者データベース１９には、営業担当者Ｅ１の顔を撮影した画像及び営業担当者Ｅ１の音声とが対応付けられて記憶される。担当者データベース１９には、営業担当者Ｅ１の顔の映像と音声とを含む動画が記憶されてもよい。担当者データベース１９は、例えば、補助記憶部１０３に構築される。

動画取得部１１は、ネットワークＮ１を介して、営業端末２及び顧客端末３を用いて行われるオンライン商談における所定時間分の動画を取得する。所定時間分の動画の取得には、例えば、オンライン商談に使用されるオンラインミーティングシステムのＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ（ＡＰＩ）を用いることができる。取得される動画には、例えば、営業端末２のカメラ２０８及びカメラ３０８によって撮影された営業担当者Ｅ１の映像と音声、及び、顧客端末３のカメラ３０８及びマイクロフォン３０７によって撮影された顧客Ｃ１０の映像と音声、が含まれる。

図６は、動画取得部１１によって取得される動画の一画面（オンライン商談画面Ｄ１）を例示する図である。オンライン商談画面Ｄ１は、ユーザ表示領域Ｗ１、Ｗ２、Ｗ３、Ｗ４を含む。ユーザ表示領域Ｗ１は、顧客Ｃ１１の顔が表示される領域である。ユーザ表示領域Ｗ２は、顧客Ｃ１２の顔が表示される領域である。ユーザ表示領域Ｗ３は、顧客Ｃ１３の顔が表示される領域である。ユーザ表示領域Ｗ４は、営業担当者Ｅ１の顔が表示される領域である。ここで、顧客Ｃ１２はカメラ３０８による撮影をオフにしているため、ユーザ表示領域Ｗ２には顧客Ｃ１２の顔が表示されていない。また、顧客Ｃ１２は、マイクロフォン２０７もオフにしているものとする。このように、動画取得部１１によって取得される動画には、オンライン商談に参加する顧客Ｃ１１、顧客Ｃ１３、営業担当者Ｅ１の顔や音声が含まれる。その一方で、オンライン商談に参加していても顔や音声が動画取得部１１によって取得される動画に含まれない顧客Ｃ１２も存在し得る。

映像抽出部１２は、動画取得部１１によって取得された動画から映像を抽出する。音声抽出部１３は、動画取得部１１によって取得された動画から音声を抽出する。

除外部１４は、映像抽出部１２によって抽出された映像から営業担当者Ｅ１の顔を除外する。除外部１４は、例えば、担当者データベース１９に記憶された顔の特徴量を基に、映像抽出部１２によって抽出された映像から営業担当者Ｅ１の顔を除外する。除外部１４用いる顔の特徴量としては、例えば、Ｈａａｒ－ｌｉｋｅ特徴量、ＪｏｉｎｔＨａａｒ－ｌｉｋｅ特徴量、及び、Ｓｐａｒｓｅ特徴量を挙げることができる。以下、本明細書において、映像抽出部１２によって抽出された映像から営業担当者Ｅ１の顔を除外した映像を「除外後映像データ」とも称する。

また、除外部１４は、音声抽出部１３によって抽出された音声から営業担当者Ｅ１の音声を除外する。除外部１４は、例えば、音声抽出部１３によって抽出された音声に対する周波数解析の結果と、担当者データベース１９に記憶された音声に対する周波数解析の結果と、を用いて、音声抽出部１３によって抽出された音声から営業担当者Ｅ１の音声を除外する。除外部１４による周波数解析としては、例えば、メルスペクトログラムを採用することができる。以下、本明細書において、音声抽出部１３によって抽出された音声から営業担当者Ｅ１の音声を除外した音声を「除外後音声データ」とも称する。

テキスト抽出部１５は、除外後音声データから、除外後音声データを文字情報に変換したテキストを抽出する。除外後音声データからテキストを抽出する方法としては、公知の様々な方法を採用することができる。

感情推定部１６は、除外後映像データ、除外後音声データ及びテキストの夫々を用いて、顧客Ｃ１０の感情を推定する。感情推定部１６は、除外後映像データを基に、顧客Ｃ１０の感情を推定する。感情推定部１６は、除外後音声データを基に、顧客Ｃ１０の感情を推定する。また、感情推定部１６は、テキスト抽出部１５によって抽出されたテキストを基に、顧客Ｃ１０の感情を推定する。除外後映像データ、除外後音声データ及びテキストの夫々を用いて顧客Ｃ１０の感情を推定する方法としては、公知の様々な方法を採用する
ことができる。

感情推定部１６は、除外後映像データ、除外後音声データ及びテキストの夫々を用いて推定された顧客Ｃ１０の感情の推定結果を組み合わせて分析し、顧客Ｃ１０の感情を推定する。感情推定部１６は、除外後映像データ、除外後音声データ及びテキストを組み合わせて分析することで、より高い精度で顧客Ｃ１０の感情を推定することができる。感情推定部１６による顧客Ｃ１０の感情の推定は、オンライン商談中において所定期間毎に行われる。感情推定部１６による感情の推定結果は、例えば、補助記憶部１０３に記憶される。

なお、オンライン商談では、カメラ３０８をオフにして顔が表示されないようにする場合も考えられる。このような場合、感情推定部１６は、除外後音声データ及びテキストを用いて、顧客Ｃ１０の感情を推定する。なお、マイクロフォン２０７がオフにされ、カメラ３０８がオフされた顧客Ｃ１０が存在する場合には、感情推定部１６は、当該顧客Ｃ１０を感情の推定の対象から除外してもよい。

評価部１７は、感情推定部１６によって推定された顧客Ｃ１０の感情を基に、オンライン商談の総合評価を行う。オンライン商談の総合評価は、例えば、１００点を満点とした点数によって示される。

出力部１８は、感情推定部１６による顧客Ｃ１０の感情の推定結果や評価部１７によるオンライン商談の評価を営業端末２に出力することで、営業端末２のディスプレイ２０５に表示させる。図７は、営業端末２のディスプレイ２０５に表示されるオンライン商談画面Ｄ２の一例を示す図である。オンライン商談画面Ｄ２は、顧客Ｃ１０の夫々の感情の推定結果を示す感情アイコン画像Ｇ１、Ｇ２、Ｇ３がオンライン商談画面Ｄ１に対して表示させたものである。感情アイコン画像Ｇ１、Ｇ２、Ｇ３のオンライン商談画面Ｄ１への表示には、例えば、オンライン商談に使用されるオンラインミーティングシステムのＡＰＩを用いることができる。

感情推定部１６による感情の推定結果は、例えば、感情アイコン画像Ｇ１、Ｇ２、Ｇ３によって示される。感情アイコン画像Ｇ１は、顧客Ｃ１１の感情の推定結果を示すアイコン画像である。感情アイコン画像Ｇ２は、顧客Ｃ１２の感情の推定を行わなかったことを示すアイコン画像である。感情アイコン画像Ｇ３は、顧客Ｃ１３の感情の推定結果を示すアイコン画像である。なお、営業担当者Ｅ１は感情推定部１６による感情の推定対象から除外されているため、感情の推定結果を示すアイコン画像は表示されない。出力部１８は、感情推定部１６による感情の推定が行われる度に、オンライン商談画面Ｄ１に表示させる感情アイコン画像Ｇ１、Ｇ２、Ｇ３を更新する。感情アイコン画像Ｇ１、Ｇ２、Ｇ３は、「符号」の一例である。

図８は、営業端末２のディスプレイ２０５に表示される評価結果画面Ｒ１の一例を示す図である。評価結果画面Ｒ１では、クライアントの名称や案件名といった情報の他に、総合評価Ｒ１１、タイムラインＲ１２を含む。タイムラインＲ１２は、議事表示領域Ｒ１３、感情変化表示領域Ｒ１４及び参考案件表示領域Ｒ１５を含む。評価結果画面Ｒ１は、例えば、オンライン商談の終了後に、営業担当者Ｅ１等の指示に応じて出力される。

総合評価Ｒ１１には、評価部１７によって評価されたオンライン商談の評価結果が出力される。図８では、評価結果が１００点満点中の点数で表示されているが、評価結果は１００点満点中の点数に限られず、３段階、５段階、１０段階等の様々な評価が採用されてもよい。

タイムラインＲ１２には、オンライン商談の議事及び顧客Ｃ１０の感情の変化が時系列に表示される。議事表示領域Ｒ１３には、オンライン商談の動画を切り出した画像及び音声から抽出されたテキストが時系列順に表示される。感情変化表示領域Ｒ１４には、顧客Ｃ１１、Ｃ１２、Ｃ１３の感情の時系列変化が表示される。参考案件表示領域Ｒ１５には、過去に行われたオンライン商談のうち、商談が合意した案件における感情の変化が時系列順に表示される。

＜処理フロー＞
図９は、実施形態に係る支援装置１の処理フローの一例を示す図である。以下、図９を参照して、支援装置１の処理フローについて説明する。

ステップＳ１では、動画取得部１１は、営業端末２及び顧客端末３を用いて行われるオンライン商談における所定時間分の動画を取得する。ステップＳ２では、映像抽出部１２は、ステップＳ１で取得された動画から映像を抽出する。ステップＳ３では、音声抽出部１３は、ステップＳ１で取得された動画から音声を抽出する。

ステップＳ４では、除外部１４は、ステップＳ２で抽出した映像から、営業担当者Ｅ１の顔を除外する。また、除外部１４は、ステップＳ３で抽出した音声から、営業担当者Ｅ１の音声を除外する。ステップＳ５では、テキスト抽出部１５は、ステップＳ４で営業担当者Ｅ１の音声が除外された除外後音声データからテキストを抽出する。

ステップＳ６では、感情推定部１６は、ステップＳ４で営業担当者Ｅ１の顔が除外された除外後映像データ、営業担当者Ｅ１の音声が除外された除外後音声データ及びステップＳ５で抽出されたテキストを用いて、顧客Ｃ１０の感情の推定を行う。

ステップＳ７では、出力部１８は、ステップＳ６で推定された感情を出力する。出力された感情は、例えば、図７に例示するように感情アイコン画像Ｇ１、Ｇ２、Ｇ３によってオンライン商談画面Ｄ２に表示される。オンライン商談が終了した場合（ステップＳ８でＹＥＳ）、処理は終了される。オンライン商談が終了していない場合（ステップＳ８でＮＯ）、処理はステップＳ１に進められる。

図１０から図１３は、感情推定部１６による感情の推定処理の処理フローの一例を示す図である。図１０では、映像に基づく顧客Ｃ１０の感情の推定処理の処理フローの一例が示される。図１１では、音声に基づく顧客Ｃ１０の感情の推定処理の処理フローの一例が示される。図１２では、テキストに基づく顧客Ｃ１０の感情の推定処理の処理フローの一例が示される。図１３では、映像に基づいた感情の推定結果と、音声に基づいた感情の推定結果と、テキストに基づいて感情の推定結果を組み合わせる処理の処理フローの一例が示される。図１０から図１３の処理は、例えば、図９のステップＳ６の処理の詳細を例示するものである。

まず、図１０を参照して、映像に基づく顧客Ｃ１０の感情の推定処理の処理フローについて説明する。ステップＳ２１では、感情推定部１６は、図９のステップＳ４で営業担当者Ｅ１が除外された除外後映像データを基に、顧客Ｃ１０の感情を分類する。感情推定部１６は、例えば、「Ｈａｐｐｙ」、「Ｅｘｃｉｔｅｄ」、「Ｎｏｒｍａｌ」、「Ｓａｄ」、「Ａｎｇｒｙ」の５つの感情夫々に対する顧客Ｃ１０の感情の割合を推定する。割合は例えば、０から１までの数値で示される。ここでは、例えば、「Ｈａｐｐｙ」に対する割合が「０．１」、「Ｅｘｃｉｔｅｄ」に対する割合が「０．７」、「Ｎｏｒｍａｌ」に対する割合が「０．５」、「Ｓａｄ」に対する割合が「０．７」、「Ａｎｇｒｙ」に対する割合が「０．８」であったものとする。映像を基にした感情の推定には、公知の様々な技術を採用できる。

ステップＳ２２では、感情推定部１６は、ステップＳ２１で行った感情の分類を基に、顧客Ｃ１０の感情を数値化した感情数値を算出する。数値化では、例えば、ステップＳ２１で分類された各感情の割合に所定の重み付け係数を乗算した上で、各感情の数値を加算することで行われる。

重み付け係数は、例えば、「Ｈａｐｐｙ」の重み付け係数が「１」、「Ｅｘｃｉｔｅｄ」の重み付け係数が「０．５」、「Ｓａｄ」の重み付け係数が「－０．５」、「Ａｎｇｒｙ」の重み付け係数が「－１」である。ステップＳ２１で分類した各感情の割合と重みづけ係数を乗算すると、「Ｈａｐｐｙ」に重み付け係数を乗算した値は「０．１」、「Ｅｘｃｉｔｅｄ」に重み付け係数を乗算した値は「０．３５」、「Ｓａｄ」に重み付け係数を乗算した値は「－０．３５」、「Ａｎｇｒｙ」に重み付け係数を乗算した値は「－０．８」となる。

感情推定部１６は、重みづけ係数を乗算した各値（「０．１」、「０．３５」、「－０．３５」、「－０．８」）と、「Ｎｏｒｍａｌ」の値「０．５」を加算することで、顧客Ｃ１０の感情を示す感情数値「－０．２」を得る。ステップＳ２２で算出される感情数値は、「第１の感情」の一例である。

つづいて、図１１を参照して、音声に基づく顧客Ｃ１０の感情の推定処理の処理フローについて説明する。ステップＳ３１では、感情推定部１６は、図９のステップＳ４で営業担当者Ｅ１が除外された除外後音声データを基に、顧客Ｃ１０の感情を分類する。ここで、除外後音声データと、顧客Ｃ１１、Ｃ１２、Ｃ１３との対応付けは、例えば、音声の発声タイミングと映像における口の動きとで対応付けることができる。すなわち、感情推定部１６は、音声が発声したタイミングで口が動いている顧客Ｃ１０が、当該音声の発言者であると判定する。そして、感情推定部１６は、発言者であると判定した顧客Ｃ１０の感情を音声を基に分類する。感情を分類する処理は、除外後映像データを除外後音声データに置き換えることを除いて、図１０のステップＳ２１と同様である。

ステップＳ３２では、感情推定部１６は、ステップＳ３２で行った感情の分類を基に、顧客Ｃ１０の感情を数値化した感情数値を算出する。数値化の処理は、図１０のステップＳ２２と同様である。ここでは、感情推定部１６は、顧客Ｃ１０の感情を示す感情数値「０．６」を得たものとする。ステップＳ３２で算出された感情数値は、「第２の感情」の一例である。

つづいて、図１２を参照して、音声から抽出したテキストに基づく顧客Ｃ１０の感情の推定処理の処理フローについて説明する。ステップＳ４１では、感情推定部１６は、図９のステップＳ５で抽出されたテキストから１センテンスを抽出する。

ステップＳ４２では、感情推定部１６は、ステップＳ４１で抽出したセンテンスに対して、感情分析を行う。感情推定部１６は、センテンスに対する感情分析では、肯定的か否定的かの２値の分析を行う。感情推定部１６は、例えば、肯定的な場合は「１」、否定的な場合は「－１」と数値化する。

全センテンスに対する感情の推定が終了した場合（ステップＳ４３でＹＥＳ）、処理はステップＳ４４に進められる。全センテンスに対する感情の推定が終了していない場合（ステップＳ４３でＮＯ）、処理はステップＳ４１に進められる。

ステップＳ４４では、感情推定部１６は、感情分析を行った各センテンスの数値の平均値である感情数値を算出する。ここでは、感情数値が「０．２」になったものとする。ス
テップＳ４４で算出された感情数値は、「第３の感情」の一例である。

つづいて、図１３を参照して、映像に基づいた感情の推定結果と、音声に基づいた感情の推定結果と、テキストに基づいた感情の推定結果を組み合わせる処理の処理フローについて説明する。ステップＳ５１では、感情推定部１６は、図１０のステップＳ２２で算出した感情数値と、図１１のステップＳ３２で算出した感情数値を統合する。ここでは、感情推定部１６は、図１０のステップＳ２２で算出した感情数値と、図１１のステップＳ３２で算出した感情数値の平均値を算出するものとする。ここでは、図１０のステップＳ２２で算出した感情数値「－０．２」と、図１１のステップＳ３２で算出した感情数値「０．６」との平均値「０．２」が算出される。

ステップＳ５２では、感情推定部１６は、ステップＳ５１で算出した平均値と、図１２のステップＳ４４で算出した感情数値との平均値である顧客感情数値を算出する。ここでは、ステップＳ５１で算出された平均値「０．２」と図１２のステップＳ４４で算出された感情数値「０．２」との平均値「０．２」が顧客感情数値として算出される。なお、顧客感情数値は「－１」から「＋１」までの範囲であり、「－１」に近付くほど顧客Ｃ１０の感情は否定的であり、「＋１」に近付くほど顧客Ｃ１０の感情は肯定的であるものとする。また、顧客感情数値が「０」の場合は、肯定的でも否定的でもなく顧客Ｃ１０の感情は通常であるものとする。

なお、ステップＳ５１及びＳ５２の統合する処理において平均値が算出されたが、図１０のステップＳ２２で算出した感情数値、図１１のステップＳ３２で算出した感情数値、及び、図１２のステップＳ４４で算出された感情数値の夫々について、所定の重み付け係数を乗算してから、平均値が算出されてもよい。所定の重み付け係数は、例えば、複数回実施されたオンライン商談の結果を教師データとした機械学習によって決定されてもよい。

図１４は、評価部１７による総合評価の算出処理の処理フローの一例を示す図である。以下、図１４を参照して、評価部１７による総合評価の算出処理の処理フローの一例について説明する。

ステップＳ６１では、評価部１７は、所定時間毎に算出された顧客Ｃ１０の顧客感情数値の平均値を算出する。ステップＳ６２では、評価部１７は、ステップＳ６１で算出された平均値を基に総合評価を算出する。

ここで、ステップＳ６１で算出された平均点が「１」のときに総合評価１００点とし、ステップＳ６１で算出された平均点が「－１」のときに総合評価０点とし、平均点が「１」から「－１」までの間を均等に総合評価と対応付ける。例えば、ステップＳ６１で算出された平均点が「０」の場合には、総合評価は「５０点」となる。

＜実施形態の作用効果＞
オンライン商談の動画には、顧客Ｃ１０の顔及び音声に加えて、営業担当者Ｅ１の顔及び音声も含まれる。そのため、オンライン商談の動画をそのまま用いて感情の推定を行うと、営業担当者Ｅ１の感情の推定も行われてしまうため、顧客Ｃ１０の感情の推定精度が低下する。本実施形態では、オンライン商談の動画から抽出した映像及び音声から、営業担当者Ｅ１を除外して感情の推定が行われる。そのため、本実施形態によれば、顧客Ｃ１０の感情の推定精度の低下が抑制される。

本実施形態では、オンライン商談中に取得される所定時間分の動画を基に顧客Ｃ１０の感情が推定され、推定された顧客Ｃ１０の感情はオンライン商談画面Ｄ２に表示される。
そのため、本実施形態によれば、オンライン商談中に顧客Ｃ１０の感情の推定結果を営業担当者Ｅ１に確認させることができる。

本実施形態では、所定間隔で感情推定部１６による感情の推定が行われ、推定が行われる度にディスプレイ２０５に表示される感情アイコン画像Ｇ１、Ｇ２、Ｇ３も更新される。そのため、オンライン商談中において、顧客Ｃ１１、Ｃ１２、Ｃ１３の感情の動きを略リアルタイムで営業担当者Ｅ１に把握させることができる。

本実施形態では、音声の発声タイミングと映像における口の動きとで発言した顧客Ｃ１０を特定し、特定した顧客Ｃ１０の感情を当該音声を用いて分類する。そのため、本実施形態によれば、音声を基に顧客Ｃ１０の夫々の感情を分類することができる。

本実施形態では、評価結果画面Ｒ１において、オンライン商談の動画を切り出した画像、音声から抽出されたテキスト及び感情推定部１６による感情の推定結果が時系列順に表示される。また、顧客Ｃ１０の感情の推定結果に基づいた総合評価も評価結果画面Ｒ１に表示される。そのため、本実施形態によれば、オンライン商談の概要が一目で把握できるようになる。

＜変形例＞
以上説明した実施形態では、顧客Ｃ１１、Ｃ１２、Ｃ１３の夫々の感情がオンライン商談画面Ｄ２に出力されたが、顧客Ｃ１０全体の感情がオンライン商談画面Ｄ２に出力されてもよい。

以上説明した実施形態では、担当者データベース１９に記憶された営業担当者Ｅ１の顔を撮影した画像及び営業担当者Ｅ１の音声データを用いて、映像及び音声中の営業担当者Ｅ１が特定されたが、営業担当者Ｅ１の特定は他の方法によってもよい。例えば、担当者データベース１９には営業担当者Ｅ１の顔の画像データを記憶しておき、映像中の営業担当者Ｅ１を特定する。そして、特定された営業担当者Ｅ１の口の動きと音声の発声タイミングとを基に、営業担当者Ｅ１の発言であるか否かが判定されてもよい。

以上説明した実施形態では、支援装置１と営業端末２とが異なる装置であったが、営業端末２に支援装置１が統合されてもよい。すなわち、営業端末２が、図５に例示する各処理ブロックを実装してもよい。

以上で開示した実施形態や変形例はそれぞれ組み合わせることができる。

＜コンピューターが読み取り可能な記録媒体＞
コンピューターその他の機械、装置（以下、コンピューター等）に上記いずれかの機能を実現させる情報処理プログラムをコンピューター等が読み取り可能な記録媒体に記録することができる。そして、コンピューター等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。

ここで、コンピューター等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピューター等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピューター等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＣＤ－ＲＯＭ）、ＣｏｍｐａｃｔＤｉｓｃ－Ｒｅｃｏｒｄａｂｌｅ（ＣＤ－Ｒ）、ＣｏｍｐａｃｔＤｉｓｃ－ＲｅＷｒｉｔｅｒａｂｌｅ（ＣＤ－ＲＷ）、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）、ブルーレイディスク（ＢＤ）、ＤｉｇｉｔａｌＡｕｄｉｏＴａｐ
ｅ（ＤＡＴ）、８ｍｍテープ、フラッシュメモリー、外付け型のハードディスクドライブやＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ（ＳＳＤ）等がある。また、コンピューター等に固定された記録媒体として内蔵型のハードディスクドライブ、ＳＳＤやＲＯＭ等がある。

１・・支援装置
２・・営業端末
３・・顧客端末
１１・・動画取得部
１２・・映像抽出部
１３・・音声抽出部
１４・・除外部
１５・・テキスト抽出部
１６・・感情推定部
１７・・評価部
１８・・出力部
１９・・担当者データベース
３１・・顧客端末
３２・・顧客端末
３３・・顧客端末
１０１・・ＣＰＵ
１０２・・主記憶部
１０３・・補助記憶部
１０４・・通信部
１０５・・ディスプレイ
２０１・・ＣＰＵ
２０２・・主記憶部
２０３・・補助記憶部
２０４・・通信部
２０５・・ディスプレイ
２０６・・スピーカー
２０７・・マイクロフォン
２０８・・カメラ
３０１・・ＣＰＵ
３０２・・主記憶部
３０３・・補助記憶部
３０４・・通信部
３０５・・ディスプレイ
３０６・・スピーカー
３０７・・マイクロフォン
３０８・・カメラ
５００・・オンライン商談支援システム
Ｂ１・・接続バス
Ｂ２・・接続バス
Ｂ３・・接続バス
Ｅ１・・営業担当者
Ｃ１０・・顧客
Ｃ１１・・顧客
Ｃ１２・・顧客
Ｃ１３・・顧客
Ｄ１・・オンライン商談画面
Ｄ２・・オンライン商談画面
Ｒ１・・評価結果画面
Ｒ１１・・総合評価
Ｒ１２・・タイムライン
Ｒ１３・・議事表示領域
Ｒ１４・・感情変化表示領域
Ｒ１５・・参考案件表示領域
Ｇ１・・感情アイコン画像
Ｇ２・・感情アイコン画像
Ｇ３・・感情アイコン画像
Ｎ１・・ネットワーク
Ｗ１・・ユーザ表示領域
Ｗ２・・ユーザ表示領域
Ｗ３・・ユーザ表示領域
Ｗ４・・ユーザ表示領域

Claims

第１の出席者による第２の出席者へのオンラインプレゼンテーションの動画を取得する動画取得部と、
前記動画から前記第１の出席者に係る情報を除外した除外後データを生成する除外部と、
前記除外後データを基に、前記第２の出席者の感情を推定する推定部と、
前記オンラインプレゼンテーションの画面に、推定した前記第２の出席者の前記感情を示す符号を出力する出力部と、を備える、
情報処理装置。
前記情報処理装置は、前記第１の出席者を撮影した画像データを記憶する記憶部をさらに備え、
前記除外部は、前記記憶部に記憶された前記画像データを基に、前記第１の出席者に係る情報を除外した除外後映像データを生成し、
前記推定部は、前記除外後映像データを基に前記第２の出席者の前記感情を推定する、
請求項１に記載の情報処理装置。
前記情報処理装置は、前記第１の出席者の音声データを記憶する記憶部をさらに備え、
前記除外部は、前記記憶部に記憶された前記音声データを基に、前記第１の出席者に係る情報を除外した除外後音声データを生成し、
前記推定部は、前記除外後音声データを基に前記第２の出席者の前記感情を推定する、
請求項１に記載の情報処理装置。
前記情報処理装置は、前記除外後音声データからテキストデータを抽出するテキスト抽出部をさらに備え、
前記推定部は、前記テキストデータを基に前記第２の出席者の前記感情を推定する、
請求項３に記載の情報処理装置。
前記情報処理装置は、前記第１の出席者を撮影した画像データ、及び、前記第１の出席者の音声データを記憶する記憶部をさらに備え、
前記除外部は、
前記記憶部に記憶された前記画像データを基に、前記第１の出席者に係る情報を除外した除外後映像データを生成し、
前記記憶部に記憶された前記音声データを基に、前記第１の出席者に係る情報を除外した除外後音声データを生成し、
前記情報処理装置は、前記除外後音声データからテキストデータを抽出するテキスト抽出部をさらに備え、
前記推定部は、
前記除外後映像データを基に前記第２の出席者の第１の感情を推定し、
前記除外後音声データを基に前記第２の出席者の第２の感情を推定し、
前記テキストデータを基に前記第２の出席者の第３の感情を推定し、
前記第１の感情、前記第２の感情及び前記第３の感情を基に、前記第２の出席者の前記感情を推定する、
請求項１に記載の情報処理装置。
前記動画取得部は、前記オンラインプレゼンテーションが実行されている間に所定間隔で前記動画を取得し、
前記出力部は、前記オンラインプレゼンテーションの画面に出力した前記第２の出席者の前記感情を示す前記符号を前記所定間隔で更新する、
請求項１から５のいずれか一項に記載の情報処理装置。
前記出力部は、前記オンラインプレゼンテーションの終了後に、前記第２の出席者の前記感情の時系列変化を基にした前記オンラインプレゼンテーションの評価をさらに出力する、
請求項６に記載の情報処理装置。
前記出力部は、前記オンラインプレゼンテーションの終了後に、前記第２の出席者の前記感情の時系列変化をさらに出力する、
請求項７に記載の情報処理装置。
過去に実施された前記オンラインプレゼンテーションにおいてプレゼンテーションを受ける第３の出席者の感情の時系列変化を記憶する記憶部をさらに備え、
前記出力部は、前記第３の出席者の前記感情の時系列変化と前記第２の出席者の前記感情の時系列変化とを対応付けて出力する、
請求項８に記載の情報処理装置。
第１の出席者による第２の出席者へのオンラインプレゼンテーションの動画を取得する動画取得処理と、
前記動画から前記第１の出席者に係る情報を除外した除外後データを生成する除外処理と、
前記除外後データを基に、前記第２の出席者の感情を推定する推定処理と、
前記オンラインプレゼンテーションの画面に、推定した前記第２の出席者の前記感情を示す符号を出力する出力処理と、をコンピュータが実行する、
情報処理方法。
第１の出席者による第２の出席者へのオンラインプレゼンテーションの動画を取得する動画取得処理と、
前記動画から前記第１の出席者に係る情報を除外した除外後データを生成する除外処理と、
前記除外後データを基に、前記第２の出席者の感情を推定する推定処理と、
前記オンラインプレゼンテーションの画面に、推定した前記第２の出席者の前記感情を示す符号を出力する出力処理と、をコンピュータに実行させる、
情報処理プログラム。