JP7204337B2 - 会議支援装置、会議支援システム、会議支援方法及びプログラム - Google Patents

会議支援装置、会議支援システム、会議支援方法及びプログラム Download PDF

Info

Publication number
JP7204337B2
JP7204337B2 JP2018086539A JP2018086539A JP7204337B2 JP 7204337 B2 JP7204337 B2 JP 7204337B2 JP 2018086539 A JP2018086539 A JP 2018086539A JP 2018086539 A JP2018086539 A JP 2018086539A JP 7204337 B2 JP7204337 B2 JP 7204337B2
Authority
JP
Japan
Prior art keywords
unit
conference
person
importance
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018086539A
Other languages
English (en)
Other versions
JP2019192092A (ja
Inventor
英貴 大平
恭一 岡本
賢司 古川
卓靖 藤谷
脩太 彌永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2018086539A priority Critical patent/JP7204337B2/ja
Publication of JP2019192092A publication Critical patent/JP2019192092A/ja
Application granted granted Critical
Publication of JP7204337B2 publication Critical patent/JP7204337B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明の実施形態は、会議支援装置、会議支援システム、会議支援方法及びプログラム
に関する。
従来より、会議の議事録として参加者の発言内容に加え、参加者の顔の表情を記録する
技術がある。また、喜び、怒り、緊張といった参加者の感情を共に記録することで、ある
発言内容に対して、他の参加者が同意しているか否かを推定可能にする技術が知られてい
る。しかしながら、参加者個人の表情・感情を記録するだけでは、どの人物がどの人物に
注目しているか等、参加者の関係は記録できない。そのため、どの人物に対する発言なの
か、あるいは参加者がスクリーンに注目していたのか、それとも発言者に注目していたの
か、といった情報は記録できない。
特開2003-66991号公報 特許第4458888号公報
本発明が解決しようとする課題は、会議参加者の注目している方向を判断することで、
どの人物に対する発言なのか、参加者の関心を集めた人物あるいは物は何かを記録可能に
する会議支援装置、会議支援システム、会議支援方法及びプログラムを提供することであ
る。
上記課題を達成するために、実施形態の会議支援システムは、受信した前記画像から人物を検出する人物検出部と、前記人物検出部の検出結果に基づいて会議参加者の位置および位置関係を判定する人物位置判定部と、前記人物検出部の検出結果および人物位置判定部の判定結果に基づいて各会議参加者が注目している方向を判定する注目方向判定部と、前記注目方向判定部の判定結果に基づいて、前記判定結果により特定される会議のフェーズに応じた算出方法により、各発言の重要度を算出する重要度算出部と、を備える。
第一の実施形態に係る会議支援システムのブロック図。 第一の実施形態に係る会議支援システムの動作。 第一の実施形態に係る画像取得装置100の設置方法の一例。 第一の実施形態に係る人物位置判定部320の人物位置および人物間の位置関係の判定イメージの一例。 第一の実施形態に係る議事録データの一例。 第二の実施形態に係る会議支援システムのブロック図。 第二の実施形態に係る会議支援システムの動作。 第三の実施形態に係る会議支援システムのブロック図。 第三の実施形態に係る会議支援システムの動作。 第三の実施形態に係る人物の重要度を含めて発言の重要度を算出した議事録データの一例。 第四の実施形態に係る会議支援システムのブロック図。 第四の実施形態に係る会議支援システムの動作。 第四の実施形態に係る議事録データの一例。 第四の実施形態に係る書き起こしに一部失敗した議事録データの一例。
以下、発明を実施するための実施形態について説明する。
(第一の実施形態)
図1は、第一の実施形態に係る会議支援システムのブロック図である。本実施形態の会
議支援システムは、画像取得装置100および音声取得装置200と会議支援装置300
がネットワークを介して接続される。
画像取得装置100は、例えばカメラや赤外線センサ等であり、会議の参加者等の画像
を取得する画像取得部110を備える。音声取得装置200は、例えばマイク等であり、
会議の音声を取得する音声取得部210を備える。
会議支援装置300は、人物検出部310、人物位置判定部320、注目方向判定部3
30、音声書き起こし部340、重要度計算部350、議事録作成部360、を備える。
人物検出部310は、画像取得部110により取得した画像中から人物を検出する。人
物位置判定部320は、人物検出部310にて検出した人物の位置あるいは人物間の位置
関係を判定する。注目方向判定部330は、人物検出部310および人物位置判定部32
0の結果を参照し、各人物が注目している方向を判定する。音声書き起こし部340は、
音声取得部210により取得した音声データをテキストデータ化する。
重要度計算部350は、注目方向判定部330での判定結果等に基づいて、発言の重要
度を計算する。議事録作成部360は、発言の重要度等も含めて議事録データを作成する
続いて、図2を用いて本実施形態に係る会議支援システムの動作を説明する。まず、画
像取得装置100の画像取得部110は、会議参加者の画像を取得する(S201)。画
像取得装置100は、例えばカメラ、赤外線センサ、画像撮影機能付きの端末等である。
取得される画像は、カラー画像、グレー画像、距離画像等である。カラー画像やグレー画
像については、ビデオカメラ、ネットワークカメラなどから取得することができる。距離
画像については、赤外線センサ等をはじめとする距離センサから取得可能である。
図3は、本実施形態に係る画像取得装置100の設置方法の一例を示している。図3で
は、できるだけ多くの会議参加者が撮影可能なように、画像取得装置100を机の上に設
置している。ここで、全ての参加者が撮影可能な位置に画像取得装置100を設置するこ
とが望ましい。また、画像取得装置100は一台に限らず複数台設けても良い。画像取得
装置100を複数台設ける場合は、取得した画像データに撮像時刻および画像取得装置の
識別ID等を付随させることにより、撮影結果をマージ可能にすると良い。
次に、人物検出部310は、取得した画像の中から人物領域を特定する(S202)。
本実施形態では、公知の検出技術を用いることで画像中から人物領域(顔領域)を検出す
る。人物検出は、画像中の色、輝度値、輝度勾配等を使用することで実現できる。例えば
、色を用いて人物を検出する場合、取得画像から抽出した色が、人の肌の色であれば人の
顔と判定し、肌の色でない場合は背景と判定するように設計する。輝度値や輝度勾配を用
いて人物を検出する場合、取得画像から抽出した輝度値や輝度勾配と、予め登録されてい
る人物の輝度値や輝度勾配との差を算出し、差が小さい場合は人物と判定し、差が大きい
場合は背景と判定するように設計しても良い。
続いて、人物位置判定部320は、人物の位置および人物間の位置関係を判定する(S
203)。本実施形態では、公知の検出技術を用いることで各人物の座標を検出する。人
物の位置は、画像座標系や、カメラ座標系などで表現される。画像座標系で表現する場合
は、人物検出した画像座標が人物位置となる。カメラ座標系で表現する場合は、人物検出
した画像座標と、画像座標系から世界座標系へ変換する行列とを掛け合わせた結果が人物
位置となる。距離画像の場合は、人物検出したカメラ座標が人物位置となる。
図4は、本実施形態に係る人物位置判定部320の人物位置および人物間の位置関係の
判定イメージの一例である。本実施形態では、会議室の空間に対する人物の位置を特定し
、識別情報であるアルファベットを付与する。また、本実施形態では、机やスクリーン等
、会議室の備品の配置も加味する。会議室の備品の配置は、予め登録しておいても良いし
、人物検出部310によって、画像から特定しても良い。
次に、注目方向判定部330は、各人物が注目している方向を判定する(S204)。
本実施形態では、公知の技術を利用し、画像中から検出した顔の向きから各人物の注目方
向を判定する。あるいは、目線の方向から判定する。人物の顔の向きについては、顔領域
の輝度値や輝度勾配を入力、顔方向を出力とした回帰式を予め用意し、取得画像中の顔領
域から抽出した輝度値や輝度勾配を回帰式に当てはめることで算出する。または、取得画
像の画像パターンと予め用意した顔方向ごとの画像パターンとを比較し、パターンの差分
が最も小さい顔方向を選択することで実現する。画像パターンは輝度勾配でもよいし、輝
度値でも良いし、距離画像でも良い。目線の方向については、色情報や輝度勾配情報を使
って画像中の白目の領域と黒目の位置とを検出した後、白目の領域中の黒目の位置関係か
ら算出する。なお、画像はオンラインでリアルタイムに処理してもよいし、図示しない記
憶部に保存した後にオフラインで処理してもよい。
また、音声取得装置200の音声取得部210は、会議中の音声を取得する(S205
)。音声取得装置200は、例えばマイク、音声録音機能付きの端末等である。音声デー
タのファイル形式は問わない。また、音声取得装置は、できるだけ多くの会議参加者の発
言を取得可能なように設置する。また、音声取得装置200は一台に限らず複数台設けて
も良い。音声取得装置200を複数台設ける場合は、取得した音声データに撮像時刻およ
び音声取得装置の識別ID等を付随させることにより、結果をマージ可能にすると良い。
また、指向性のマイクを使用することで音声の方向を取得し、注目方向判定部330にお
ける注目方向の判定や発言者の特定等に使用しても良い。なお、画像取得装置100の画
像取得部110と合体させることで、画像撮影機能および音声録音機能付きの装置として
も良い。
次に、音声書き起こし部340は、取得した音声データをテキストデータ化する(S2
06)。本実施形態では、公知の音声認識技術を用い、例えば、音声データに対して音声
区間検出、スペクトル分析等の音声解析処理を行い、テキストデータ化する。音声データ
から発言内容を書き起こす音声書き起こしは、取得音声データの音声パターンと予め用意
した各単語の音声パターンとを比較し、パターンの差分が最も小さい単語を選択すること
で実現することができる。音声パターンは音の波形でも良いし、音声の周波数でも良い。
なお、音声データはオンラインでリアルタイムに処理してもよいし、図示しない記憶部に
保存した後にオフラインで処理してもよい。
続いて、重要度計算部350は、会議の参加者の発言の重要度を計算する(S207)
。本実施形態では、注目方向判定部330での判定結果に基づいて、人物あるいは特定の
場所を注目している会議参加者の数に基づいて重要度を判定する。また、音声取得部21
0にて取得した音声データを参照し、発言の音量の大小を発言の重要度に反映しても良い
。人物や特定の場所を注目している参加者の数と、音量との重み付き和を発言の重要度と
しても良い。
次に、議事録作成部360は、議事録データを作成する(S208)。本実施形態では
、作成した議事録を表として出力する。図5は、本実施形態に係る議事録データの一例で
ある。この例では、発言した「時刻」、「発言者」、「発言内容」、各参加者の「注目方
向」、「発言の重要度」を記載する欄を備える。「時刻」は、人物を検出したり、各参加
者の注目方向を判定した画像に附随した時刻データ、あるいは発言内容を書き起こした音
声データに附随した時刻データを参照し、記録する。ここで、画像や音声データに附随し
た時刻ではなく、会議支援装置300が画像や音声データを受信した時刻を格納する等、
各参加者間での条件が合致しており、およその発言時刻を特定できるものであれば、どの
時刻を使用しても構わない。
「発言者」は、記録された発言時刻に対応する画像から検出した人物あるいは人物の位
置に基づいて、特定した発言者を記録する。例えば、人物の検出時に公知の技術を利用し
て、口の開閉状態を検出することで発言者を特定する。あるいは、各参加者の注目方向か
ら、発言者を推定する。または、記録された発言時刻に対応する音声データの声紋から発
言者を区別・推定する。指向性のマイクを使用することで音声の方向を判定し、音声の方
向と画像中の人物の位置との関係から判定しても良い。
「発言内容」は、記録された発言時刻に対応する音声データを書き起こしたテキストデ
ータを記録する。「注目方向」は、記録された発言時刻に対応する画像から判定された注
目方向から、注目している人物や物を判定し、会議参加者毎に記録する。なお、本実施形
態では「発言者」の特定を行わなくとも、各参加者の「注目方向」を記録すればよい。
発言の重要度は、会議参加者の注目方向が「人物」である数を発言の重要度としてカウ
ントし、記録する。本実施形態では、 会議を「プレゼンのフェーズ」「議論のフェーズ
」の2種類に分類し、「議論のフェーズ」の方が発言の重要度を高く設定する。「プレゼ
ンのフェーズ」では、参加者がスクリーンあるいは手元の資料に注目すると考えられ、発
言内容も資料に沿ったものであることが考えられる。そのため、参加者の注目方向がスク
リーンあるいは手元等である場合は、プレゼンのフェーズであると判断可能であり、発言
の重要度を「0」とする。一方、「議論のフェーズ」では、参加者同士が目を合わせたり
、発言者に注目すると考えられるため、参加者の注目方向が他の人物である場合は議論の
フェーズであると判断でき、参加者の注目方向が「人物」である数を発言の重要度とする
。ここで、他の参加者が発言者を注目している場合に、発言の重要度が高くなるよう設定
しても良い。また、音声データの音量の大小と組み合わせたり、重み付けをして発言の重
要度を算出しても良い。なお、発言の重要度は、参加者の注目方向から会議中の重要な発
言を数値に反映できれば、どんな方法でも構わない。また、発言の重要度を含めていれば
、議事録データの出力形式は問わない。
以上で、会議支援システムの一連の動作フローは終了である。なお、本実施形態におい
て、以上の処理は画像取得部110および音声取得部210より画像や音声データが入力
される度に行う。あるいは、図示しない記憶部を設けることで、画像および音声データの
収集が終了した後に、議事録データを出力しても良い。会議が終了したか否かは、画像取
得部110あるいは音声取得部210からの入力信号が途絶えたとき、例えば、画像取得
装置100または音声取得装置200の電源がOFFにされた場合に会議が終了したと判
定しても良い。あるいは、取得した画像や音声データから出席者の動きが変わったと推定
できるとき、会議が終了したと判断しても良い。例えば、参加者全員が立ち上がった場合
や、会議室の中を片づけていると判断した場合、音声データの内容が世間話になった場合
等である。
本実施形態によれば、会議参加者の注目している方向を判断し重要度として算出するこ
とで、どの位置にいる人物に対する発言なのか、参加者の関心を集めた人物の位置あるい
は物の位置はどこかを議事録に反映可能となる。
(第二の実施形態)
第二の実施形態では、発言者を特定する機能を追加する。図6は、第二の実施形態にお
ける会議支援システムのブロック図である。第一の実施形態と同一のモジュールは同一番
号を付与している。本実施形態において、会議支援装置600は、さらに発言者特定部6
10を備える。発言者特定部610は、人物検出部310および人物位置判定部320で
の結果に基づいて会議参加者の口の位置を推定し、口の開閉状態から発言者の特定を行う
。あるいは、注目方向判定部330にて判定した参加者の注目方向から発言者を推定して
も良い。音声取得装置200として指向性のマイクを使用、音声の方向を判定し、音声の
方向と画像中の人物の位置との関係から判定しても良い。
図7は、本実施形態に係る会議支援システムの動作フローである。第一の実施形態と同
一のステップは、同一のステップ番号を付与している。異なる点は、取得した画像より人
物領域を特定し(S202)、人物の位置および位置関係を判定した(S203)後に、
発言者を特定する(S701)ステップである。なお、発言者の特定は、人物の位置およ
び位置判定(S203)より先に行っても良い。また、注目方向判定部330にて判定し
た会議参加者の注目方向から発言者を特定する場合、参加者の注目方向を判定した(S2
04)後に、発言者を特定する。なお、本実施形態では、音声取得装置200を用意しな
くても良く、その場合は発言内容を記録せず、人物の口の開閉状態や参加者の注目方向か
ら発言者を特定する。
本実施形態によれば、発言者を特定し、会議参加者の注目している方向を判断し重要度
として算出することで、どの人物に対する発言なのか、参加者の関心を集めた人物や物は
何なのか、あるいは発言は何なのかを議事録に反映可能となる。
(第三の実施形態)
第三の実施形態では、参加者を特定する機能を追加する。図8は、第三の実施形態にお
ける会議支援システムのブロック図である。第一および第二の実施形態と同一のモジュー
ルは同一番号を付与している。本実施形態において、会議支援装置800は、さらに、参
加者特定部810および記憶部820を備える。参加者特定部810は、予め記憶部82
0に記憶した顔辞書データとの照合処理を行うことで、会議参加者を特定する。記憶部8
20に記憶されている顔辞書データとは、会議参加者の識別情報(参加者ID等)と当該
参加者の顔の特徴量とを関連づけて記憶したものである。顔の照合処理については公知技
術が存在し、例えば、取得した画像の画像パターンと予め記憶した参加者の画像パターン
とを比較し、パターンの差分が最も小さい人物を選択することで実現可能である。参加者
の画像パターンは、顔や上半身の輝度勾配でも良いし、顔や上半身の輝度値でも良いし、
顔や上半身の距離画像でも良い。なお、予め記憶部820に参加者の声紋データを記憶し
ておき、取得した音声データと照合することにより参加者を特定しても良い。
図9は、本実施形態に係る会議支援システムの動作フローである。第一および第二の実
施形態と同一のステップは、同一のステップ番号を付与している。異なる点は、取得した
画像より人物領域を特定し(S202)後に、会議参加者を特定する(S901)ステッ
プである。なお、人物の位置および位置判定した(S203)、あるいは、参加者の注目
方向を判定した(S204)後に、参加者を特定しても良い。
本実施形態によれば、会議に参加した人物の氏名等、人物を特定する情報を議事録に残
すことが可能である。また、定例会議等において、参加者特定部810は、予め登録され
ている参加者と実際に特定された参加者との差分から、欠席者を判定し、議事録に反映す
ることも可能である。さらに、人物毎に予め人物の重要度を設定しておき、設定した人物
の重要度に基づいて発言の重要度の算出を行うことで、より詳細な発言の重要度算出を行
うことができる。例えば、参加者の役職等によって重み付けをしたり、予め会議のキーマ
ンを記憶しておくことで、キーマンの発言の重要度を高く設定することができる。あるい
は、キーマンが注目している人物の発言の重要度を高くしても良い。当該人物が注目され
た参加者の人数・回数等に基づいて、会議毎に人物の重要度の算出を行っても良い。
図10は、本実施形態に係る人物の重要度を含めて発言の重要度を算出した議事録デー
タの一例である。この例では、参加者毎に人物の重要度を算出しており、数値は、注目方
向の各参加者の欄にかっこ書きで示している。本実施形態では、人物の重要度および発言
内容の重要度を以下の式で計算する。
人物の重要度 = 自分の全ての発言中に参加者が人物に注目している数 + 会議全体
で自分が注目を集めた数×2(重み)
発言内容の重要度 =人物の重要度×当該発言中に参加者が人物に注目している数
例えば、Bさんの人物の重要度を算出する。Bさんの発言は「2017/2/1/15:23:10」の
「1週間ください。」であり、参加者が、スクリーン等ではなく、人物に注目している数
は「5」である。また、会議全体を通して、Bさん自身が注目を集めている回数は、「20
17/2/1/15:23:05」の「Eさん」の発言で「1」、「2017/2/1/15:23:10」の「Bさん」の
発言で「3」、「2017/2/1/15:23:15」の「Eさん」の発言で「1」であり、計「5」で
ある。つまり、Bさんの人物の重要度は、5+5×2で「15」と算出することができる
。続いて、Bさんの発言である「2017/2/1/15:23:10」の発言の重要度を算出する。Bさ
んの人物の重要度は「15」であり、当該発言中に参加者が、スクリーン等ではなく人物
に注目している数は「5」であるので、当該発言の重要度は、15×5で「75」と算出
される。
本実施形態によれば、各参加者が注目された人数・回数等に基づいて、より実情に合っ
た発言の重要度算出を行うことができる。
(第四の実施形態)
第四の実施形態では、参加者の発言が「アクションアイテム」であるかを判定する機能
を追加する。ここで、「アクションアイテム」とは、「誰がいつまでに何を行うか」示し
たものであり、例えば、特定の人物が課された課題や、期限付きの改善点等を指す。「ア
クションアイテム」に該当する発言は重要度が高いだけでなく、内容、期限、対象者を分
かりやすく記録する必要がある。
図11は、第四の実施形態における会議支援システムのブロック図である。第一および
第二および第三の実施形態と同一のモジュールは同一番号を付与している。本実施形態に
おいて、会議支援装置1100は、さらに、アクションアイテム判定部1110を備える
。アクションアイテム判定部1110は、音声書き起こし部340での書き起こし結果に
基づいて、各発言が「アクションアイテム」に該当するか否か判定する。本実施形態では
、テキストデータ化した発言内容を形態素解析して、人物名や未来の日時、期間を示す単
語等を特定する。また、検出された音声の音量、特定の表現の有無、音声データに含まれ
る語彙の品詞や回数等を参照し、公知の技術を用いて発言の発話機能を判定したり、話題
を抽出する等、前後の会話の流れや文脈に基づいてアクションアイテムを判定しても良い
。例えば、発話機能が質問であると判定された場合および予め記憶された話題が含まれる
場合、アクションアイテムに関連すると判定される。あるいは、トリガーとなる単語や文
等が含まれる場合、例えば「お願いします」という文が含まれる場合に、アクションアイ
テムと判定されても良い。
図12は、本実施形態に係る会議支援システムの動作フローである。第一および第二お
よび第三の実施形態と同一のステップは、同一のステップ番号を付与している。異なる点
は、取得した音声データをテキストデータに書き起こした(S206)後に、アクション
アイテムを判定する(S1201)ステップである。
図13は、本実施形態に係る議事録データの一例である。この例では、発言の重要度と
共にアクションアイテムを記載している。例えば、「2017/2/1/15:23:05」の「Eさん」
の発言内容は、「APIの関数名を修正できますか?」である。アクションアイテム判定部
1110は、当該発言の発話機能が「質問」であるため、アクションアイテムであると判
定し、アクションアイテムの欄に「Eさんの発言:APIの関数名の修正について。」と格
納する。次に、「2017/2/1/15:23:10」の「Bさん」の発言内容は、「1週間ください。」
である。アクションアイテム判定部1110は、「一週間」という期間を示す単語を含ん
でいるため、アクションアイテムであると判定し、アクションアイテムの欄に「Bさんの
発言:1週間(2/8まで)で行う」と格納する。続いて、「2017/2/1/15:23:15」の「Eさん
」の発言内容は、「すみませんが、お願いします。」である。アクションアイテム判定部
1110は、トリガーとなる「お願いします」という文を含んでいるため、アクションア
イテムであると判定し、前の発言内容と合わせて「TODO:APIの関数名の修正(Eさんより
)、2/8までに行う(担当:Bさん)」と格納する。なお、発言内容に人物名が含まれていな
い場合でも、発言者が注目する人物がアクションアイテムの対象者であると判定しても良
い。アクションアイテムの内容、期限、対象者等を特定することができれば、どのような
方法を用いても良い。
本実施形態によれば、発言がアクションアイテムであるか否かを判定することで、発言
の重要度と共に「誰がいつまでに何を行うか」を強調して議事録に残すことができる。な
お、本実施形態は音声の書き起こしに失敗した場合にも有効である。音声の書き起こしが
失敗したか否かは、公知技術を使用し、例えば、音声書き起こし部340が取得音声デー
タの音声パターンと予め用意した各単語の音声パターンとの差分が閾値を超えるかどうか
で判定しても良いし、前後の発言内容との脈絡から外れているかどうかで判定しても良い
図14は、本実施形態に係る書き起こしに一部失敗した議事録データの一例である。こ
の例では、「2017/2/1/15:23:05」と「2017/2/1/15:23:10」の発言内容の書き起こしと発
言者の特定に失敗している。ここで、アクションアイテム判定部1110は、各会議参加
者の注目方向に基づいて、「EさんとBさんのやりとり」であることを推定する。また、
書き起こすことができた「2017/2/1/15:23:15」の「Eさん」の発言内容は、「すみませ
んが、お願いします。」である。アクションアイテム判定部1110は、トリガーとなる
「お願いします」という文を含んでいるため、アクションアイテムであると判定し、推定
した内容と合わせて「TODO:詳細はEさんに聞く(担当:Bさん)」という形で格納する
本実施形態によれば、発言内容の書き起こしに失敗したとしても、人物の関係性や書き
起こすことができた発言内容に基づいて、アクションアイテムを判断し、重要な箇所が分
かる形で議事録を残すことが可能である。また、誤った内容を議事録に残す危険性を減ら
し、書き起こしに失敗した箇所を再度聞き直すことができるように、議事録を残すことが
できる。
なお、上記の実施形態に記載した手法は、コンピュータに実行させることのできるプロ
グラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、
光ディスク(CD-ROM、DVD等)、光磁気ディスク(MO)、半導体メモリ等の記憶媒体に格
納して頒布することもできる。
ここで、記憶媒体としては、プログラムを記憶でき、且つコンピュータが読み取り可能
な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコン
ピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト
、ネットワークソフト等のMW(ミドルウェア)等が本実施形態を実現するための各処理の
一部を実行しても良い。
さらに、本実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LAN
やインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶
した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から本実施形態における処理が実行される
場合も本実施形態における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
なお、本実施形態におけるコンピュータとは、記憶媒体に記憶されたプログラムに基づ
き、本実施形態における各処理を実行するものであって、パソコン等の1つからなる装置
、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
また、本実施形態の各記憶装置は1つの記憶装置で実現しても良いし、複数の記憶装置
で実現しても良い。
そして、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含
まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態の機能を実現す
ることが可能な機器、装置を総称している。
以上、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示
したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は
、その他の様々な形態で実施されることが可能であり、説明の要旨を逸脱しない範囲で、
種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の
範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含
まれる。
100…画像取得装置
110…画像取得部
200…音声取得装置
210…音声取得部
300…第一の実施形態に係る会議支援装置
310…人物検出部
320…人物位置判定部
330…注目方向判定部
340…音声書き起こし部
350…重要度計算部
360…議事録作成部
600…第二の実施形態に係る会議支援装置
610…発言者特定部
800…第三の実施形態に係る会議支援装置
810…参加者特定部
820…記憶部
1100…第四の実施形態に係る会議支援装置
1110…アクションアイテム判定部

Claims (13)

  1. 画像を取得する端末より画像を受信し、会議参加者の発言の重要度を算出する会議支援装置であって、
    受信した前記画像から人物を検出する人物検出部と、
    前記人物検出部の検出結果に基づいて会議参加者の位置および位置関係を判定する人物位置判定部と、
    前記人物検出部の検出結果および人物位置判定部の判定結果に基づいて各会議参加者が注目している方向を判定する注目方向判定部と、
    前記注目方向判定部の判定結果に基づいて、前記判定結果により特定される会議のフェーズに応じた算出方法により、各発言の重要度を算出する重要度算出部と、
    を備える、会議支援装置。
  2. 画像および音声データを取得する端末より画像および音声データを受信し、会議参加者の発言の重要度を算出する会議支援装置であって、
    受信した前記画像から人物を検出する人物検出部と、
    前記人物検出部の検出結果に基づいて会議参加者の位置および位置関係を判定する人物位置判定部と、
    前記人物検出部の検出結果および人物位置判定部の判定結果に基づいて各会議参加者が注目している方向を判定する注目方向判定部と、
    受信した前記音声データまたはおよび前記注目方向判定部の判定結果に基づいて、前記注目方向判定部の前記判定結果により特定される会議のフェーズに応じた算出方法により、各発言の重要度を算出する重要度算出部と、
    を備える、会議支援装置。
  3. 前記会議支援装置は、
    取得した前記音声データを音声認識し、テキストデータ化する音声書き起こし部と、
    前記重要度算出部の算出結果と前記音声書き起こし部の書き起こし結果とを対応付けて議事録データを出力する議事録作成部と、
    を備える、請求項2に記載の会議支援装置。
  4. 前記会議支援装置は、
    取得した前記画像より発言者を特定する発言者特定部を備え、
    前記議事録作成部は、
    前記発言者特定部の特定結果と前記音声書き起こし部の書き起こし結果と前記重要度算出部の算出結果とを対応付けて出力する、
    求項3に記載の会議支援装置。
  5. 前記会議支援装置は、
    会議参加者の識別情報と顔辞書データとを関連付けて記憶する記憶部と、
    前記人物検出部により検出した人物と、前記記憶部に記憶された顔辞書データとの照合処理を行い、会議参加者を特定する参加者特定部と、
    を備える、請求項に記載の会議支援装置。
  6. 前記記憶部は、会議参加者を記憶し、前記参加者特定部は、会議参加者の特定結果および記憶部に記憶された会議参加者に基づいて会議の欠席者を特定する、
    請求項5に記載の会議支援装置。
  7. 記重要度出部は、
    前記人物位置判定部の判定結果またはおよび前記注目方向判定部の判定結果に基づき、人物の重要度を算出し、算出した前記人物の重要度に基づいて、発言の重要度を算出する、
    請求項1ないし請求項6いずれか1項に記載の会議支援装置。
  8. 前記重要度算出部は、前記判定結果によって表される前記会議参加者の注目方向がスクリーンまたは手元である場合、前記会議をプレゼンの前記フェーズと判断し前記発言の重要度を0として算出し、前記判定結果によって表される前記会議参加者の注目方向が他の人物である場合、前記会議を議論の前記フェーズと判断し、該人物を注目している前記会議参加者の数を前記発言の重要度として算出する、請求項1ないし請求項7のいずれか1項に記載の会議支援装置。
  9. 前記会議支援装置は、
    前記注目方向判定部の判定結果またはおよび前記音声書き起こし部の書き起こし結果に基づいて、各発言がアクションアイテムであるか否かを判定するアクションアイテム判定部を備え、
    前記議事録作成部は、
    前記アクションアイテム判定部の判定結果に基づいて議事録データを出力する、
    請求項に記載の会議支援装置。
  10. 前記記憶部は、単語と各単語の音声パターンとを関連付けて記憶し、
    前記音声書き起こし部は、前記記憶部に記憶された各単語の音声パターンに基づいて、各発言内容の書き起こしに失敗したか否か判定し、
    前記議事録作成部は、前記アクションアイテム判定部の判定結果に対応させて、前記発言内容の書き起こし失敗箇所を分かるように出力する、
    請求項に記載の会議支援装置。
  11. 画像および音声データを取得し、会議参加者の発言の重要度を算出する会議支援システムであって、
    画像および音声データを取得する取得部と、
    受信した前記画像から人物を検出する人物検出部と、前記人物検出部の検出結果に基づいて会議参加者の位置および位置関係を判定する人物位置判定部と、
    前記人物検出部の検出結果および人物位置判定部の判定結果に基づいて各会議参加者が注目している方向を判定する注目方向判定部と、
    受信した前記音声データまたはおよび前記注目方向判定部の判定結果に基づいて、前記注目方向判定部の前記判定結果により特定される会議のフェーズに応じた算出方法により、各発言の重要度を算出する重要度算出部と、
    を備える、会議支援システム。
  12. 画像および音声データを取得する端末より画像および音声データを受信し、会議参加者の発言の重要度を算出する会議支援方法であって、
    受信した前記画像から人物を検出するステップと、
    前記人物の検出結果に基づいて会議参加者の位置および位置関係を判定するステップと、
    前記人物の検出結果および人物位置の判定結果に基づいて各会議参加者が注目している方向を判定するステップと、
    受信した前記音声データまたはおよび前記方向の判定結果に基づいて、前記方向の前記判定結果により特定される会議のフェーズに応じた算出方法により、各発言の重要度を算出するステップと、
    を備える、会議支援方法。
  13. 画像および音声データを取得する端末より画像および音声データを受信し、会議参加者の発言の重要度を算出する会議支援装置によって実行されるプログラムであって、
    受信した前記画像から人物を検出する人物検出機能と、
    前記人物検出機能における検出結果に基づいて会議参加者の位置および位置関係を判定する人物位置判定機能と、
    前記人物検出機能における検出結果および人物位置判定機能における判定結果に基づいて各会議参加者が注目している方向を判定する注目方向判定機能と、
    受信した前記音声データまたはおよび前記注目方向判定機能における判定結果に基づいて、前記注目方向判定機能の前記判定結果により特定される会議のフェーズに応じた算出方法により、各発言の重要度を算出する重要度算出機能と、
    をコンピュータに実現させる、会議支援プログラム。
JP2018086539A 2018-04-27 2018-04-27 会議支援装置、会議支援システム、会議支援方法及びプログラム Active JP7204337B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018086539A JP7204337B2 (ja) 2018-04-27 2018-04-27 会議支援装置、会議支援システム、会議支援方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018086539A JP7204337B2 (ja) 2018-04-27 2018-04-27 会議支援装置、会議支援システム、会議支援方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019192092A JP2019192092A (ja) 2019-10-31
JP7204337B2 true JP7204337B2 (ja) 2023-01-16

Family

ID=68390241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018086539A Active JP7204337B2 (ja) 2018-04-27 2018-04-27 会議支援装置、会議支援システム、会議支援方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7204337B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7163968B2 (ja) * 2020-02-27 2022-11-01 日本電気株式会社 サーバ装置、会議支援システム、会議支援方法及びプログラム
CN112468762B (zh) * 2020-11-03 2024-04-02 视联动力信息技术股份有限公司 一种发言方的切换方法、装置、终端设备和存储介质
KR102365611B1 (ko) * 2021-08-25 2022-02-23 오정섭 음성인식을 이용한 회의 관리 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250830A (ja) 2007-03-30 2008-10-16 Toshiba Corp 出欠確認システムおよび出欠確認方法
JP2009288567A (ja) 2008-05-29 2009-12-10 Ricoh Co Ltd 議事録作成装置、議事録作成方法、議事録作成プログラム、議事録作成システム
WO2011033598A1 (ja) 2009-09-19 2011-03-24 株式会社 東芝 会議支援装置
JP2013031009A (ja) 2011-07-28 2013-02-07 Fujitsu Ltd 情報処理装置、ダイジェスト生成方法、及びダイジェスト生成プログラム
JP2017215931A (ja) 2016-02-02 2017-12-07 株式会社リコー 会議支援システム、会議支援装置、会議支援方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250830A (ja) 2007-03-30 2008-10-16 Toshiba Corp 出欠確認システムおよび出欠確認方法
JP2009288567A (ja) 2008-05-29 2009-12-10 Ricoh Co Ltd 議事録作成装置、議事録作成方法、議事録作成プログラム、議事録作成システム
WO2011033598A1 (ja) 2009-09-19 2011-03-24 株式会社 東芝 会議支援装置
JP2013031009A (ja) 2011-07-28 2013-02-07 Fujitsu Ltd 情報処理装置、ダイジェスト生成方法、及びダイジェスト生成プログラム
JP2017215931A (ja) 2016-02-02 2017-12-07 株式会社リコー 会議支援システム、会議支援装置、会議支援方法及びプログラム

Also Published As

Publication number Publication date
JP2019192092A (ja) 2019-10-31

Similar Documents

Publication Publication Date Title
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
US9672829B2 (en) Extracting and displaying key points of a video conference
WO2020233068A1 (zh) 会议音频控制方法、系统、设备及计算机可读存储介质
Tao et al. Gating neural network for large vocabulary audiovisual speech recognition
US9286889B2 (en) Improving voice communication over a network
US8347247B2 (en) Visualization interface of continuous waveform multi-speaker identification
WO2019140161A1 (en) Systems and methods for decomposing a video stream into face streams
JP7204337B2 (ja) 会議支援装置、会議支援システム、会議支援方法及びプログラム
CN111833876A (zh) 会议发言控制方法、系统、电子设备及存储介质
JP6999734B2 (ja) オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
TW201543467A (zh) 語音輸入方法、裝置和系統
US20170287482A1 (en) Identifying speakers in transcription of multiple party conversations
Tao et al. End-to-end audiovisual speech activity detection with bimodal recurrent neural models
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
JP2019095552A (ja) 音声解析システム、音声解析装置、および音声解析プログラム
JP5030868B2 (ja) 会議音声録音システム
KR20220081120A (ko) 인공 지능 콜센터 시스템 및 그 시스템 기반의 서비스 제공 방법
CN111223487B (zh) 一种信息处理方法及电子设备
Rothkrantz Lip-reading by surveillance cameras
JP2006279111A (ja) 情報処理装置、情報処理方法およびプログラム
JP4775961B2 (ja) 映像を用いた発音の推定方法
US11404064B2 (en) Information processing apparatus and speech analysis method
JP2021076715A (ja) 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム
US11978456B2 (en) System, method and programmed product for uniquely identifying participants in a recorded streaming teleconference
JP6718623B2 (ja) 猫型会話ロボット

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220630

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221228

R150 Certificate of patent or registration of utility model

Ref document number: 7204337

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150