JP2016032261A

JP2016032261A - 集中度推定装置、方法及びプログラム

Info

Publication number: JP2016032261A
Application number: JP2014155020A
Authority: JP
Inventors: 建鋒徐; Kenho Jo; 茂之酒澤; Shigeyuki Sakasawa
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-07-30
Filing date: 2014-07-30
Publication date: 2016-03-07
Anticipated expiration: 2034-07-30
Also published as: JP6397250B2

Abstract

【課題】会議等の業務上のやりとりにおける参加者の集中度を、業務上の人間関係を考慮することにより高精度に推定する集中度推定装置を提供する。
【解決手段】入力部5は、複数の参加者間での業務上のやりとりを音声及び／又は映像として記録した評価対象データより音声及び／又は映像に基づく特徴量として、各参加者の各時刻における活動に関する特徴量を抽出する。判定部6は、複数の参加者の各々が業務上作成するテキスト情報に基づいて参加者間の業務関係を求める、及び／又は、参加者間の職位関係を求めることで、当該求めた業務関係及び／又は職位関係を各参加者の外部要素となす。推定部7は、求めた特徴量と外部要素とに基づいて、やりとりにおける各参加者の各時刻における集中度を推定する。
【選択図】図１

Description

本発明は、遠隔開催される場合を含む会議の分析等に好適な、業務上のやりとりにおける複数参加者の属性・状態・活動を分析することによって、参加者の集中度を推定する集中度推定装置、方法及びプログラムに関する。

会議（特に、遠隔開催される場合の会議）の生産性を高める上での基礎的な状況理解のために、会議の参加者のアテンション（集中）度合いの推定技術が重要である。当該技術には、以下のようなものがある。

各参加者の注意が会議に向いているかどうかを解析するために、特許文献１のようにセンサーを利用する集中度が計測される技術が開発されたが、会議参加者に負担（着用など）がかかる問題がある。更に、センサーの影響で会議参加のストレスが貯まる可能性も増える。よって、非接続型のセンサー（例えば、カメラ）から音声、目線や頭の姿勢などで推定技術が望ましい。このような技術として、特許文献２，３や非特許文献１がある。

特許文献２では、カメラからユーザの頭部の上下方向の動きに基づいてユーザの会議への集中度を判定する。また、特許文献３では、センサーや映像、音声などからの参加者の生体情報に基づいて心的状態を推定し、会議を離脱したかどうかを前記心的状態に基づいて判断する。更に、推定精度を向上するために、非特許文献１では発表資料、会話関係などコンテキスト情報を推定し、利用している。

特開1997-262216号公報特開2010-141843号公報特開2006-323547号公報

Ba, S.O.; Odobez, J., "Multiperson Visual Focus of Attention from Head Pose and Meeting Contextual Cues," Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.33, no.1, pp.101,116, Jan. 2011 Bengio, Y.; Frasconi, P., "Input-output HMMs for sequence processing," Neural Networks, IEEE Transactions on , vol.7, no.5, pp.1231,1249, Sep 1996

しかしながら、前記の従来技術は映像、音声、頭の動作またはコンテキスト情報を始め、会議で入手できる情報のみを利用し、参加者が会議に集中しているかどうかを推定する。ここで、現実の会議、特に仕事の会議では、参加者同士の相互関係によって集中度合いが左右される。例えば、相槌（あいづち）について、同じ相槌でも、相手が変わると、深層での集中の度合いが異なる。このような集中度に対する相互関係の影響は、従来技術の手法によって映像や音声、頭の動作、コンテキスト情報のみで推定することが困難である。

そこで、相互関係の情報を利用して、集中度をより高精度に推定することが望まれる。相互関係の一例として、参加者同士の職位関係を利用し、集中度の推定精度を向上させることが望まれる。同様に、相互関係の一例として、業務関係や共通興味がある参加者同士の会話等のやりとりではより高い集中度を持つ可能性が高いので、このような情報を活用して集中度の推定精度を向上させることが望まれる。

上記従来技術の課題に鑑み、本発明は、会議等の業務上のやりとりにおける参加者の集中度を、業務上の人間関係を考慮することにより高精度に推定することが可能な、集中度推定装置、方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、複数の参加者間での業務上のやりとりを音声及び／又は映像として記録した評価対象データより、当該やりとりにおける各参加者の各時刻における集中度を推定する集中度推定装置であって、前記評価対象データより、音声及び／又は映像に基づく特徴量として、各参加者の各時刻における活動に関する特徴量を抽出する入力部と、前記複数の参加者の各々が業務上作成するテキスト情報に基づいて参加者間の業務関係を求める、及び／又は、参加者間の職位関係を求めることで、当該求めた業務関係及び／又は職位関係を各参加者の外部要素となす判定部と、前記特徴量と前記外部要素とに基づいて、前記やりとりにおける各参加者の各時刻における集中度を推定する推定部と、を備えることを特徴とする。

また、本発明は、複数の参加者間での業務上のやりとりを音声及び／又は映像として記録した評価対象データより、当該やりとりにおける各参加者の各時刻における集中度を推定する集中度推定方法であって、前記評価対象データより、音声及び／又は映像に基づく特徴量として、各参加者の各時刻における活動に関する特徴量を抽出する入力段階と、前記複数の参加者の各々が業務上作成するテキスト情報に基づいて参加者間の業務関係を求める、及び／又は、参加者間の職位関係を求めることで、当該求めた業務関係及び／又は職位関係を各参加者の外部要素となす判定段階と、前記特徴量と前記外部要素とに基づいて、前記やりとりにおける各参加者の各時刻における集中度を推定する推定段階と、を備えることを特徴とする。

さらに、本発明は、コンピュータを前記集中度推定装置として機能させるプログラムであることを特徴とする。

本発明によれば、各参加者について、その活動を表す特徴量に加え、さらに、その業務関係及び／又は職位関係に基づいて集中度を推定するので、業務上の人間関係を考慮することにより集中度を高精度に推定することができる。

一実施形態に係る集中度推定装置の機能ブロック図である。一実施形態に係る集中度推定装置による集中度推定のフローチャートである。隠れマルコフモデル（HMM）を示す図である。隠れマルコフモデルに外部要素を導入して拡張した入力・出力隠れマルコフモデル（Input-output HMM）を示す図である。学習用入力部及び入力部において会議を記録する例を、遠隔会議の場合について模式的に示す図である。参加者の興味キーワード及びその頻度の抽出例を表形式で示す図である。参加者同士の間でグラフとして構築された業務関係の例を示す図である。職位関係の例を示す図である。複数人の主観評価でラベリングを行うための点数と状態の対応関係の例を表形式で示す図である。

図１は、一実施形態に係る集中度推定装置の機能ブロック図である。集中度推定装置1は、学習用入力部2、学習用判定部3、学習部4、入力部5、判定部6及び推定部7を備える。また、図２は、一実施形態に係る集中度推定装置1による集中度推定のフローチャートである。以下、当該フローチャートを参照しながら、図１の各部の概要を説明する。

ステップS1では、学習用入力部2、学習用判定部3及び学習部4により、学習用データを用いてモデル構築を行ってから、ステップS2へ進む。当該構築に際して、各部2,3,4は以下の処理を行う。

まず、ステップS1にて、学習用入力部2は、音声及び／又は映像等で構成される学習用の会議データを解析して、音声有無、表情、頭の姿勢、モーションという4種類のパラメータ（以下、特徴量と呼ぶ）を会議進行に沿った各時刻において各参加者につき求め、学習部4に渡す。

また、ステップS1にて、学習用判定部3は、学習用入力部2が上記解析した学習用の会議データにおける参加者について、職位関係、業務関係、共通興味という3種類の情報（以下、外部要素と呼ぶ）を求め、学習部4に渡す。ここで、外部要素を当該求める際の入力としては、当該参加者の間でやりとりされたメール等のテキストが用いられる。

さらに、ステップS1にて、学習部4は、学習用入力部2から受け取った会議進行に沿った各時刻の各参加者の特徴量と、学習用判定部3から受け取った各参加者に関する外部要素と、を用いて学習を行うことにより、評価対象の会議データについて、会議進行に沿った各時刻の各参加者の集中度を求めるためのモデルを構築し、当該モデルを推定部7に渡す。

ここで、ステップS1において学習部4が当該学習を行うことが可能なように、学習用入力部2で解析した学習用の会議データにおいては、会議進行に沿った各時刻の各参加者について、その集中度が教師データとしてマニュアル等で予めラベリングされている（付与されている）。学習部4では当該予めラベリングされた集中度の情報を用いて学習を行い、モデルを構築する。

ステップS2では、ステップS1で構築されたモデルを用いて、入力部5、判定部6及び推定部7が、評価対象となる会議データについて、会議進行に沿った各時刻の各参加者の集中度を推定して、フローは終了する。当該推定に際して、各部5,6,7は以下の処理を行う。

まず、ステップS2にて、入力部5は、音声及び／又は映像等で構成される評価対象の会議データを対象として、学習用入力部2が学習用の会議データを対象として行った処理と同様の処理を行う。すなわち、評価対象の会議データより、各時刻の各参加者の特徴量（音声有無、表情、頭の姿勢及びモーションという4つのパラメータ）を求めるという、学習用入力部2と同様の処理を行う。入力部5は、評価対象の会議データにつき当該求めた特徴量を推定部7に渡す。

また、ステップS2にて、判定部6は、入力部5が上記解析した評価対象の会議データにおける参加者について、学習用判定部3と同様の処理により、その外部要素（職位関係、業務関係及び共通興味という3つの情報）を求め、その結果を推定部7に渡す。外部要素を当該求める際には、評価対象の会議データにおける参加者間でやりとりされたメール等のテキストが入力として利用される。

さらに、ステップS2にて、推定部7は、入力部5から得た特徴量と、判定部6から得た外部要素と、に対して学習部4から得たモデルを適用することにより、入力部5に入力された評価対象の会議データについて、会議進行に沿った各時刻の各参加者の集中度を推定する。

以上、図１及び図２を参照して、図１の各部の処理の概要を説明することで、本発明の概要を説明した。以下、図１の当該各部の処理に関する詳細を説明する。

まず、学習部4において学習し、推定部7において利用するモデルについて説明する。本発明においては、参加者のそれぞれに対してInput-output HMMというモデルを採用することができる。当該モデルは前掲の非特許文献２に開示されており、周知の従来の隠れマルコフモデル(HMM; Hidden Markov Model)を、外部要素を考慮可能なように拡張したモデルである。

まず、従来の隠れマルコフモデルを簡単に説明する。隠れマルコフモデルは、図３に示すように、出力変数の系列を観測するモデルである。ただし、その出力変数を生成するためにモデルがたどった状態の列は分からない。隠れマルコフモデルの分析は、観測されたデータから状態の列を復元しようとする。

図３に示すように、観測できない状態集合S={s₁, s₂, …, s_N}から状態の列X={x_t=s_i, t=1, 2, …, T}が出力される。そして、Xに対応する観測できる出力変数の列がY={y_t, t=1, 2, …, T}である。隠れマルコフモデル(HMM)では、遷移確率P_i,j≡P(x_t=s_j/x_t-1=s_i)の集合Aと、出力確率P(y_t/x_t=s_i)の集合φと、初期確率P_i≡P(x₁=s_i)と、の集合πがHMMモデルを支配するパラメータの集合θ={π, A, φ}となる。

また、HMMモデルが観測できる出力変数の列Yから、モデルパラメータの集合θ={π, A, φ}を推定するアルゴリズムはバウム・ウェルチアルゴリズム（Baum-Welch algorithm）が一般的である。

さらに、モデルパラメータの集合θ={π, A, φ}が既知の時に、与えられた出力変数の列Yの可能性（尤度）が最も高い状態列（最尤状態列）Xを計算するアルゴリズムはビタビアルゴリズム（Viterbi algorithm）が一般的である。

次に、Input-output HMMモデルを説明する。Input-output HMMモデルは従来のHMMモデルの拡張版であり、外部要素が導入されている。図４のように外部要素u_tを導入し、時刻ｔの状態x_tと観察された出力変数y_tはその外部要素u_tに依存する。具体的には、遷移確率P_i,jと出力確率Pがそれぞれ下記の式(1),(2)のように、外部要素u_tによる条件付き確率になる。モデルの学習方法などの詳細に関しては前掲の非特許文献２に記載されている。
P_i,j≡P(x_t=s_j/x_t-1=s_i, u_t-1) …(1)
P(y_t/x_t=s_i, u_t) …(2)

但し、u_tは時刻tの外部要素である。当該外部要素u_tは、本発明においては前述のように、その具体的な内容が、学習用判定部3及び判定部6において、参加者同士の職位関係、業務関係及び共通興味として求められる。

最後に、Input-output HMMモデルを本発明に適用する際の、各変数等（状態集合S及び出力変数y_t）の設定の例を説明する。

まず、状態集合Sは、最終的な出力として推定部7において推定結果を得る集中度と同様に定義することができる。例えば、推定部7において推定される集中度を、「とても集中している」、「集中している」、「集中していない」、「不明」という４種類に定義して、当該4種類のいずれであるかを推定する場合、状態集合Sも下記の式(3)のように、当該4種類で構成する。
S=｛とても集中している(s₄), 集中している(s₃), 集中していない(s₂), 不明(s₁)｝ …(3)

なお、以降、本発明の説明においては、集中度を上記の式(3)のように、4種類のいずれに該当するかとして定義した場合を例として説明を行うが、その他の定義も可能であり、集中度をInput-output HMMモデルにおける離散的な状態集合Sに属する元のそれぞれに対応するものとして定義すればよい。例えば、種類が違えば集中の度合いも違うという前提のもとで、集中度が任意の2以上のn種類のいずれに該当するかという定義が可能である。n=2なら例えば、S={集中している, 集中していない又は不明}という定義が可能である。

また、出力変数y_tは以下の式(4)のように、学習用入力部2及び入力部5で求める特徴量（音声有無、表情、頭の姿勢及びモーションという4つのパラメータ）のそれぞれを要素とするベクトルとして求める。なお、当該特徴量すなわち当該ベクトルの各要素を具体的に取得する手法については、学習用入力部2及び入力部5の詳細説明の際に後述する。

ただし、上記の式(4)にて、各要素は次の通りである。a_tは音声の有無であり、「有」又は「無」に応じて例えばそれぞれa_t=0又は1のように、2値を割り当てればよい。h_tは頭の姿勢であり、例えばh_t =（Pitch状態(ピッチ状態), yaw状態(ヨー状態), roll状態(ロール状態)）とすればよい。f_tは顔の表情であり、所定種類の各表情のいずれに該当するか、例えば、pos(ポジティブ；肯定的)、neg（ネガティブ；否定的）及びneutral(ニュートラル；中間的)のいずれに該当するかf_t∈{pos, neg, neutral}とすればよい。m_tは体のモーションであり、会議の場合であれば取得可能な上半身のモーションとすればよい。なお、以上のa_t、h_t、f_t、m_t間は独立であるとする。

上記式(4)にて、頭の姿勢の出力確率は以下の式(5)のガウス分布で表すことができる。
P(h_t/x_t=s_i, u_t)=N(h_t; μ_i(u_t), Σ_i(u_t)) …(5)
但し、h_tは頭の姿勢（Pitch状態, yaw状態, roll状態）であり、μ_i(u_t)は状態s_iの時の平均の頭の姿勢であり、Σ_i(u_t)はガウス分布の分散である。

また、上記式(4)にて、体のモーション（会議の場合、上半身モーション）の出力確率は以下の式(6)のガウス分布で表すことができる。
P(m_t/x_t=s_i, u_t)=N(m_t; δ_i(u_t), Ψ_i(u_t)) …(6)
但し、m_tは例えば各関節位置（後述）のモーション（会議の場合、上半身モーション）であり、δ_i(u_t)は状態s_iの時の平均のモーションであり、Ψ_i(u_t)はガウス分布の分散である。

次に、上記の式(4)に示す特徴量、すなわち、出力変数y_tを取得する、学習用入力部2及び入力部5の説明を行う。前述のように当該両部2,5の処理は共通である。以下、当該共通の特徴量取得処理を説明する。

当該特徴量の取得に際して、利用できる具体的なデバイスはカメラとマイク、またはKinect（登録商標）、またはGoogle Glass（登録商標）などが挙げられる。例えば、Kinectを利用する場合、次のように取得することができる。Kinectで映像、音声、深度データを収録する。

そして、以下のURL等に開示のように、Microsoft（登録商標）が提供しているSDK（ソフトウェア開発キット）により、Kinectの当該収録データから頭のPitch状態, yaw状態, roll状態という姿勢h_tを取得すると共に、顔のパーツAU(Action Unit)（AU0〜AU5）を追跡することができる。更に、表情f_tは顔のパーツAUで判定する。例えば、AU4 （Lip Corner Depressor）を利用すると、0=neutral、-1=pos、+1=negと判定することができる。
[URL] http://msdn.microsoft.com/en-us/library/jj130970.aspx

また、Kinectの音声データで対象者の発言有無a_tを判定する。まず、音量が閾値を超えると、発言有りと判定し、越えなければ、発言無しと判定する。次に、発言の有りの場合において、声紋の照合に基づく周知の話者照合技術を利用することで、いずれの参加者の発言であるかを判定する。この場合、参加者ごとに予め判定用の参照声紋データを登録しておく。

なお、発言者の特定については、発言者ごとにマイクを持っておかせ、その音量の相対差から行う方法も可能である。すなわち、各時刻において、最大音量が入力されているマイクが、当該時刻における発言者のマイクであるとして、発言者を特定してもよい。

また、以下のURL等に開示されているように、Microsoftが提供しているSDKでKinectのデータから人の各関節位置におけるモーションm_tを取得することができる。会議の場合は下半身のモーションを取りにくいが、重要ではないので、Seatedのモード（座っているモード）で上半身のモーションのみを取得すればよい。
[URL] http://msdn.microsoft.com/en-us/library/hh973077.aspx

なお、前述の式(4)の各要素として頭の姿勢h_t及びモーションm_tを取得する際は、それぞれ、その平均及び分散を与えることで特定されるガウス分布として状態を取得した。当該ガウス分布は、頭の姿勢h_t及びモーションm_tの各状態につき、その値が一定の時間区間において取る各値の頻度を累積したものとして求めればよい。なお、当該「一定の時間区間」は、本発明における補足的事項（１）として後述する「区間」である。

なお、以上の頭の姿勢h_t、表情f_t、モーションm_tについても、いずれの参加者のものであるかを区別する必要があるが、各参加者の顔を予め登録しておき、映像に対して周知の顔認識技術を適用することにより、いずれの参加者であるかを特定すればよい。また、上記の話者照合技術の結果を利用して、話者照合がなされた際に口が動いている人物として、頭の姿勢h_t、表情f_t、モーションm_tに関して該当参加者が誰であるかを特定してもよい。

なお、以上の説明より明らかであるが、学習用入力部2及び入力部5では、上記のような特徴量を求めるために、それぞれ学習用の会議データ及び評価対象の会議データを取得するに際して、会議が行われている現場を映像、音声、深度データ等として記録する。

図５は、当該記録する例を、会議が遠隔で開催される場合、すなわち、複数の会場に分かれて開催される場合について模式的に示す図である。図５の例では、場所L1には3名、場所L2には5名の参加者がそれぞれ存在している。そして、場所L1の様子はカメラC1で撮影され、且つ、マイクM1で録音されている。場所L2の様子はカメラC2で撮影され、且つ、マイクM2で録音されている。当該両カメラC1,C2及び両マイクM1,M2の記録を、学習用入力部2及び入力部5は取得して、上記のような特徴量を求める。

また、図５では不図示であるが、場所L1,L2等のように遠隔地に分かれて会議を行う場合は、異なる場所の参加者同士が互いに意思疎通することで会議が進行可能なように、スピーカ及びディスプレイのような意思疎通用のデバイスも会場に設置しておく。

なお、図５では記録用デバイスがマイク及びカメラの例を示したが、Kinectその他の記録用デバイスを用いる場合も全く同様である。また、求める特徴量の種類や、特徴量を求める実施形態によっては、会場ごとではなく、参加者ごとに記録デバイスを用意しておいてもよい。例えば前述のように、最大音量に基づいて発言者を特定するために、マイクは参加者ごとに用意しておいてもよい。

次に、学習用判定部3及び判定部6の説明を行う。前述のように当該各部3,6は、処理対象とするデータは異なるが、処理内容は共通である。すなわち、処理対象として、学習用判定部3では学習用入力部2に入力された会議データにおける会議の参加者に関するテキスト等を処理対象とし、判定部6では入力部5に入力された会議データにおける会議の参加者に関するテキスト等を処理対象とする。

以下、当該各部3,6の共通の処理内容を説明する。前述のように、各部3,6はそれぞれが処理対象とする会議データの参加者の各々につき、その外部要素（業務関係、共通興味及び職位関係という3つの情報）を求める。当該外部要素の各々は具体的にはそれぞれ以下（１）〜（３）のように求められる。

（１）まず、共通興味については、各参加者が参加した会議に関連する業務におけるテキスト情報より、興味対象を表すキーワードを抽出することによって、求めることができる。会議が仕事に関するものであれば、テキスト情報としては、業務上作成するもの、例えば当該仕事において利用しているメール、週報（週ごとの業務報告）などを利用することができる。

具体的には、まず、ある参加者の週報やメール等のテキスト情報からキーワードを抽出する。そのキーワードを事前に用意した興味のキーワードデータベースと照合し、その参加者の興味対象を表しているキーワードを全て選出する。そして、該当興味対象のキーワードの出現頻度を重みとして保存することにより、該当興味の強さを示す情報とする。

図６に、参加者の興味キーワード及びその頻度の抽出例を表形式で示す。なお、当該抽出された情報は、「共通」興味ではなく各参加者の「個別」興味としての意味合いを有するが、後述する学習部4及び推定部7にて実際に利用される際に、会議における話題に当該「個別」興味が該当するかが調べられることで、「共通」興味としての意味合いを有するようになる。

（２）また、業務関係をグラフとして構築する。当該グラフを構築するために入力として用いる情報は、上記の共通興味を求める際に用いた入力と共通であり、メールや週報といった業務上作成されるテキスト情報を利用することができる。

具体的にはまず、対応する会議における参加者全員を当該グラフにおけるノードとする。そして、対象者のそれぞれにつき、別の参加者との間で重みつきのエッジを作る。ここで、入力としてのテキスト情報である対象者のメールの宛先や、週報やメールから抽出したキーワードに当該会議の参加者の名前がある場合、対象者とその参加者間にエッジを作る。さらに、当該エッジを作る回数（すなわち、該当参加者の名前が抽出された回数）をエッジの重みとして保存し、該当対象者と参加者との間における業務関係の強さを示す情報とする。

なお、ある対象者のテキスト情報からは名前が抽出されなかった参加者については、当該対象者と参加者との間にはエッジは設けない。（重み「0」のエッジが設けられるものとしてもよい。）これは、特に業務関係が存在しないことを意味している。

図７に、参加者同士の間でグラフとして構築された業務関係の例を示す。例えばOさんについては、Sさんとの間に「29」、Nさんとの間に「9」、Kさんとの間に「10」、Xさんとの間に「6」の重みが付与されたエッジが存在する。このように、業務上のメール等のテキスト情報を解析することにより、参加者同士の間で業務上のやりとりがどの程度頻繁に行われているかを表す情報として、業務関係を算出することができる。

なお、以上の（１）の共通興味と（２）の業務関係とについては、さらに次の処理を行う。すなわち、後述する学習部4及び推定部7における入力として利用可能なように、共通興味における各興味キーワードの頻度と、業務関係におけるエッジの重みと、をそれぞれ二値化する。例えば、平均値その他を用いた閾値判定によって、強弱に分ける方法が可能である。

ここで一般には、二値化に限らず、2以上の任意整数nによってn段階に分けることで、n値化するようにしてもよい。二値化の場合、後述する学習部4におけるモデル学習を簡素に行うことができる。

（３）最後に、会議の参加者全員の職位関係を求める。職位関係は例えば、木構造として表現することができる。例えば、グループリーダー（上司）とサブチーム（各々の部下）のような定型的な関係を、木構造における親ノード及び子ノードとしてシンプルに表現することができる。職位関係は変化しない静止的なものであり、事前知識としてデータベースの中に保存する。

図８に、職位関係の例を示す。ここでは、Sさんがグループリーダー（上司）であり、その他の人がそのサブチームのメンバー（部下）であるという職位関係が示されている。

こうして、会議の参加者から任意に抽出した2名の参加者につき、職位関係の情報を参照することで、所定種類のうちのどの関係に当該2名が該当するか、という情報を得ることができる。例えば、任意のAさんとBさんとについて、「Aさんが上司でBさんが部下」、「Aさんが部下でBさんが上司」、「AさんとBさんとは同僚（同一職位）」、「AさんとBさんとは別チームに属し、直接の上下関係はない」の4通りのいずれの関係にあるか、といった情報を得ることができる。

次に、学習部5の説明を行う。学習部5では、教師データからモデルのパラメータ集合θ={π, A, φ}を学習する。前述のように教師データは、予め各時刻tにおいて各参加者の集中度が付与された会議データを学習用入力部2にて解析することで、各時刻tの特徴量を抽出したものに対してさらに、学習用判定部3の得た結果に基づいて当該各時刻tにおける外部要素を紐付けたデータである。

ここで、学習自体は周知の次の手法によって可能である。すなわち、モデルが出力した配列から、モデルパラメータを推定するアルゴリズムとして周知のバウム・ウェルチアルゴリズム（Baum-Welch algorithm）を利用することができる。バウム・ウェルチアルゴリズムは以下の2段階から成る。

段階１．各状態について、前向き確率と後向き確率を計算する。
段階２．それに基づき、遷移-出力対の値の頻度を決定し、出力変数の列全体の確率でそれを割る。これは特定の遷移-出力対の回数の期待値を計算することに相当する。特定の遷移が見つかる度に出力変数の列全体の確率で割った遷移の商の値が上がっていき、それが遷移の新たな値となる。

また、教師データとして、学習用の会議データに対してその各時刻tにおいて各参加者の集中度を付与（ラベリング）するには、例えば次の２つの手法が可能である。なお、前述の式(3)で説明した4種類の状態集合Sを用いる場合を例として、ラベリングを説明する。

第一手法では、学習用の会議データの会議に参加した参加者自身の手により、状態集合Sのいずれの状態に該当するかのラベリングを行う。すなわち、「とても集中している」、「集中している」、「集中していない」、「不明」という４種類でラベリングする。このため、各参加者は自分自身が参加した会議の会議データを視聴して、各時刻tにおいて自分自身がどのような状態にあるかを自身で判定し、当該判定した情報によってラベリングが行われる。

第二手法では、第一手法と同じく人手により各時刻tの各参加者の集中度のラベリングを行うが、参加者が自分自身を評価するのではなく、複数人の主観評価でラベリングする。すなわち、前記４種類のラベリングを点数化し、評価した複数人の平均点数を四捨五入して、当該点数に対応する状態のラベリングを行う。

ここで、点数と種類の対応関係は例えば図９に表形式で示すような所定の対応関係を予め設定しておき、当該対応関係を用いてラベリングを行えばよい。図９の対応関係の例で、例えば6人の評価者がある参加者のある時刻tの集中度を評価した場合に、「とても集中している」が1人、「集中している」が3人、「集中していない」が1人、「不明」が1人となった場合、平均点数は「{2*1+1*3+(-1)*1+0*1}/6=4/6=0.666…」であるので、四捨五入して「1点」となり、「集中している」の状態にラベリングが行われることとなる。

さらに、教師データにおいて、前述のように各時刻tの各参加者に関して、学習用判定部3の得た結果に基づいて外部要素を紐付ける必要がある。具体的には次の（１）〜（３）ようにすればよい。

（１）業務関係については、各時刻tの各参加者について、当該時刻tにおける発言者との間の業務関係を前述のグラフを参照して求めることで、紐付ける。なお、各時刻tの発言者が誰であるかについては、前述の学習用入力部2で説明した声紋照合手法等により特定可能であり、その際に特定された結果を参照すればよい。

なお、注目している参加者自身が発言者である場合、当該業務関係の紐付け処理は「自分自身」を紐付けてもよいし、業務関係の紐付け自体を省略するようにしてもよい。ただし、業務関係の紐付けを省略する場合、当該時刻tにおける当該発言者自身である参加者について、推定部7で推定する集中度は、最高度合いの集中度とする。学習部4にて学習させる際にマニュアルにより紐付ける集中度についても、同様に最高度合いの集中度とすることができる。

（２）職位関係についても同様に、各時刻tの各参加者について、当該時刻tにおける発言者との間の職位関係を前述の木構造の情報等を参照して求めることで、紐付ける。なお、注目している参加者自身が発言者である場合、上記の業務関係について説明したのと同様とすることができる。

（３）共通興味については、各時刻tの各参加者について、当該時刻tにおける発言内容に当該参加者の興味キーワードあるいはその関連語（別表現など）が含まれるか否かを特定して、当該興味キーワードに関しての興味の強さを紐付ければよい。

具体的には、学習用判定部3で前述のように取得した対象者の関心キーワード（当該キーワードには興味の強弱が紐付けられている）と、Kinect等のデバイスで取得した音声を音声認識した結果とを比較し、共通興味の有無を判定する。音声認識結果と全く同じ言葉または意味が近い言葉があれば、該当キーワードに紐付けられた強弱の分だけ、共通興味があると判定し、教師データに当該興味の強さを紐付ける。なお、当該紐付けられる興味の強さとは、前述の図６で説明したような頻度を二値化等したものである。

ここで、意味が近い言葉の有無を判定する基準としては、所定データベースとして類義語辞典を用意しておき、当該辞典を参照することにより判定を行えばよい。取得音声の認識結果を類義語辞典で拡張して、単一の興味キーワードと照合してもよいし、単一の取得音声認識結果と、類義語辞典で拡張された興味キーワードとを照合してもよいし、当該両方を実施してもよい。

次に、推定部7の説明を行う。推定部7では、前述のように、各時刻ｔの各参加者につき入力部5で解析された特徴量に、判定部6で得た外部要素を紐付けたものを入力として、学習部4にて構築されたモデルを適用することで、各時刻tの各参加者の集中度を推定する。

具体的には、モデルパラメータθ={π, A, φ}が既知の時に、与えられた配列を出力した可能性（尤度）が最も高い状態列（最尤状態列）を計算する一般的な周知のアルゴリズムとして、ビタビアルゴリズム（Viterbi algorithm）を適用することで、集中度を推定することができる。

なお、上記の「既知のモデルパラメータ」θ={π, A, φ}は、学習部4で構築されることで既知となっている。また、上記の「与えられた配列」は、各参加者につきそれぞれ会議進行の時刻tに沿って定義される配列として、対応する特徴量及び外部要素を与えた配列となる。こうして、各参加者につきその集中度が、会議進行に沿った時系列として推定されることとなる。

なお、各時刻tの各参加者について、判定部6で得た外部要素を紐付ける際は、前述の学習用判定部3が教師データにおいて外部要素（業務関係、職位関係及び共通興味）を紐付けたのと全く同様にすればよい。

以上、本発明の集中度推定装置1によれば、音声や表情、頭の姿勢とモーションに、参加者の職位関係や業務関係、共通興味など外部要素を加えることにより、参加者の集中度をより精度高く推定することができる。

以下、本発明における補足的事項（１）〜（５）を説明する。

（１）学習部4及び推定部7では各参加者の各時刻tの集中度を推定するためのモデルを利用するが、当該各時刻tは、利用しているInput-Output HMMモデルより明らかなように、t=1, 2, 3, …といった離散的なものである。

従って、以上説明したような学習用入力部2及び入力部5で求める特徴量は、当該離散的な各時刻tに対応するように、連続的な会議データを一定間隔(例えば数秒ごとなど)で区切った各区間内より抽出しておく。学習部4及び推定部7においてはそれぞれ、学習用判定部3及び判定部6で得られた外部要素を紐付ける処理を行うが、この際も、各時刻tに対応する区間を用いて当該処理を行う。例えば、会議において誰がどのような発言をしているかという解析は、当該区間を対象として行うこととなる。

なお、上記のように区間を対象として単語を抽出する際は、ある発言者が継続して発言している期間（ある発言者に関して音声有無が継続して「有」と判定される期間）においては、当該期間内のいずれかの箇所で抽出された単語は、当該期間内の全体に渡って抽出され続けたものとみなすようにしてもよい。これにより、発言された単語が興味対象として実質的に有効と考えられる範囲を扱うことができる。

（２）学習用入力部2及び入力部5で求める特徴量は、式(4)で説明したような4種類の全てを用いてもよいし、当該4種類の中から任意に選ばれた一部分のみを用いるようにしてもよい。いずれの場合も、映像及び／又は音声として構成される会議データより、各参加者の各時刻における活動を表すものとしての特徴量を抽出することができる。

（３）学習用判定部3及び判定部6で求める外部要素は、職位関係、業務関係、共通興味の3種類の全てとしてもよいし、当該3種類の中から任意に選ばれた一部分のみを用いるようにしてもよい。なお、人間関係に関する情報を明示的に取得するという観点からは、職位関係又は業務関係のうちの少なくとも一方を含めて外部要素とすることが好ましい。

（４）本発明では、集中度を推定する元となるデータを会議データとしたが、同様の処理によってより一般に、会議に限らず、複数の参加者間での業務上のやりとりを音声及び／又は映像として記録したデータにおいて、各参加者の集中度を推定することが可能である。そしてこの際、業務上の人間関係を考慮することにより高精度に集中度を推定することが可能である。

（５）本発明はコンピュータを集中度推定装置1として機能させるプログラムとしても提供可能である。当該コンピュータは、CPU(中央演算装置)、メモリ及び各種I/Fといった周知のハードウェアで構成することができ、CPUがプログラムを実行することで集中度推定装置1の各部として機能する。

1…集中度推定装置、2…学習用入力部、3…学習用判定部、4…学習部、5…入力部、6…判定部、7…推定部

Claims

複数の参加者間での業務上のやりとりを音声及び／又は映像として記録した評価対象データより、当該やりとりにおける各参加者の各時刻における集中度を推定する集中度推定装置であって、
前記評価対象データより、音声及び／又は映像に基づく特徴量として、各参加者の各時刻における活動に関する特徴量を抽出する入力部と、
前記複数の参加者の各々が業務上作成するテキスト情報に基づいて参加者間の業務関係を求める、及び／又は、参加者間の職位関係を求めることで、当該求めた業務関係及び／又は職位関係を各参加者の外部要素となす判定部と、
前記特徴量と前記外部要素とに基づいて、前記やりとりにおける各参加者の各時刻における集中度を推定する推定部と、を備えることを特徴とする集中度推定装置。
前記推定部は、前記特徴量と前記外部要素とに、外部要素を考慮するように拡張された、特徴量を出力変数の系列とし集中度を状態列とする隠れマルコフモデルのモデルを適用することで、前記やりとりにおける各参加者の各時刻における集中度を推定することを特徴とする請求項１に記載の集中度推定装置。
各参加者の各時刻における集中度が予め付与されており、複数の参加者間での業務上のやりとりを音声及び／又は映像として記録された学習用データを用いることで、前記推定部にて適用するモデルを学習で構築する学習部をさらに備えることを特徴とする請求項２に記載の集中度推定装置。
前記判定部は、さらに、前記複数の参加者の各々が業務上作成するテキスト情報を解析することにより、各参加者の興味を表す所定キーワード及びその頻度を、共通興味として求め、当該共通興味を含めて前記外部要素となすことを特徴とする請求項１ないし３のいずれかに記載の集中度推定装置。
前記判定部は、前記複数の参加者の各々が業務上作成するテキスト情報を解析して、参加者間の業務上のアクセス頻度を求めることにより、前記業務関係を求めることを特徴とする請求項１ないし４のいずれかに記載の集中度推定装置。
前記入力部は、各参加者の各時刻における活動に関する特徴量を、音声有無、表情、頭の姿勢、体のモーション、からなる群より選択したものとして、抽出することを特徴とする請求項１ないし５のいずれかに記載の集中度推定装置。
前記業務上のやりとりが会議におけるものであることを特徴とする請求項１ないし６のいずれかに記載の集中度推定装置。
複数の参加者間での業務上のやりとりを音声及び／又は映像として記録した評価対象データより、当該やりとりにおける各参加者の各時刻における集中度を推定する集中度推定方法であって、
前記評価対象データより、音声及び／又は映像に基づく特徴量として、各参加者の各時刻における活動に関する特徴量を抽出する入力段階と、
前記複数の参加者の各々が業務上作成するテキスト情報に基づいて参加者間の業務関係を求める、及び／又は、参加者間の職位関係を求めることで、当該求めた業務関係及び／又は職位関係を各参加者の外部要素となす判定段階と、
前記特徴量と前記外部要素とに基づいて、前記やりとりにおける各参加者の各時刻における集中度を推定する推定段階と、を備えることを特徴とする集中度推定方法。
コンピュータを請求項１ないし７のいずかに記載の集中度推定装置として機能させることを特徴とするプログラム。