JP2019105729A

JP2019105729A - 人物評価装置、プログラム、及び、方法

Info

Publication number: JP2019105729A
Application number: JP2017237950A
Authority: JP
Inventors: 武士阿野; Takeshi Ano
Original assignee: Colorchips Co Ltd; Take&see Co Ltd
Current assignee: Colorchips Co Ltd; Take&see Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2019-06-27
Anticipated expiration: 2037-12-12
Also published as: JP6927495B2

Abstract

【課題】人物評価の対象となる被検者の音声に基づいて、あるいは、被検者の動画像及び音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供できる人物評価装置を提供する。【解決手段】この人物評価装置は、被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する音声処理部と、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う音声解析部とを備える。【選択図】図１

Description

本発明は、人物を評価するために用いられる人物評価装置、並びに、そのような人物評価装置において用いられる人物評価プログラム及び人物評価方法等に関する。

例えば、企業が新たな社員を採用する際には、多数の応募者の人物評価を行って採用すべき応募者を選考するために、採用担当者が多大な労力と時間を費やしている。また、採用担当者によって評価基準が異なることもあり、応募者の人物評価のために客観的な評価基準を設けることが要望されている。そこで、応募者の人物評価を行う際に参考となる情報が応募者の音声又は動画像に基づいて得られれば、採用担当者の選考業務が効率化されると共に、評価基準の客観性を向上させることができる。

一方、電話やインターネットを介して不特定多数の人とコミュニケーションをとる場合においても、コミュニケーションの相手が信頼できるか否かを判断できるツールが求められている。関連する技術として、特許文献１には、コミュニケーションの相手が信頼できるか否かを判断できる仕組みのないコミュニティーにおいて、利用者が安心してコミュニケーションを行うための人物評価装置が開示されている。

この人物評価装置は、統一された評価尺度に準じた評価内容ごとに、学習用データに含まれる特徴語と該特徴語に対するスコアとが対応付けられた辞書を構築する辞書構築手段と、学習用データを構成する複数のユーザーのデータ（例えば、記事）及び上記辞書を参照することにより、複数のユーザーの識別情報及び基礎値に基づくユーザー単位の評価を行う評価手段とを備えている。

辞書には、統一された評価尺度を用いて、学習用データ中の特徴語と、その出現頻度に応じたスコアとが、評価内容ごとに登録されている。また、学習用データを構成するデータに対する評価は、上記辞書を参照しながら、ユーザーの識別情報に基づいて行われる。従って、特許文献１によれば、ユーザーが入力するデータが集まるインターネットコミュニティーの利用者に関して、データ単位のみならず人単位で高精度な評価を行うことができる。

特開２００６−１９０１９６号公報（段落０００２−０００８、図１）

特許文献１において人物評価を行うためには、複数のユーザーが作成した記事等が必要となる。しかしながら、例えば、ユーザーが作成した記事にユーザー本来の思想や思考が反映されていない場合や、ユーザーが記事を作成する際に他人の記事を盗用したような場合には、正確な人物評価を行うことができない。

そこで、上記の点に鑑み、本発明の第１の目的は、人物評価の対象となる被検者の音声に基づいて、あるいは、被検者の動画像及び音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供できる人物評価装置を提供することである。さらに、本発明の第２の目的は、そのような人物評価装置において用いられる人物評価プログラム及び人物評価方法等を提供することである。

以上の課題の少なくとも一部を解決するため、本発明の第１の観点に係る人物評価装置は、被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する音声処理部と、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う音声解析部とを備える。

また、本発明の第１の観点に係る人物評価プログラムは、被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する手順（ａ）と、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う手順（ｂ）とをＣＰＵに実行させる。

また、本発明の第１の観点に係る人物評価方法は、被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成するステップ（ａ）と、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行うステップ（ｂ）とを備える。

本発明の第１の観点によれば、被検者の音声を収録して得られる音声データからデータブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成して、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行うことにより、人物評価の対象となる被検者の音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供することができる。

本発明の第２の観点に係る人物評価装置は、本発明の第１の観点に係る人物評価装置において、被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、複数の特徴点の座標を求める画像処理部と、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行う画像解析部と、音声解析部による評価結果と画像解析部による評価結果とに基づいて被検者の人物評価を行う総合評価部とをさらに備える。

また、本発明の第２の観点に係る人物評価プログラムは、本発明の第１の観点に係る人物評価プログラムにおいて、被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、複数の特徴点の座標を求める手順（ｃ）と、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行う手順（ｄ）と、手順（ｂ）における評価結果と手順（ｄ）における評価結果とに基づいて被検者の人物評価を行う手順（ｅ）とをさらにＣＰＵに実行させる。

また、本発明の第２の観点に係る人物評価方法は、本発明の第１の観点に係る人物評価方法において、被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、複数の特徴点の座標を求めるステップ（ｃ）と、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行うステップ（ｄ）と、ステップ（ｂ）における評価結果とステップ（ｄ）における評価結果とに基づいて被検者の人物評価を行うステップ（ｅ）とをさらに備える。

本発明の第２の観点によれば、被検者の顔を撮像して得られる動画像データから被検者の顔において認識される複数の特徴点の座標を求めて、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行うことにより、人物評価の対象となる被検者の動画像及び音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供することができる。

本発明の一実施形態に係る人物評価装置の構成例を示すブロック図。音声データによって表される音声波形の例を示す図。声紋データによって表される音圧分布の例を示す図。声紋データに基づく音声の評価例を説明するための図。第１の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図。第１の軸を回転中心とする被検者の顔の動きによる第１の三角形と第２の三角形との高さの比の変化を説明するための図。第２の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図。第２の軸を回転中心とする被検者の顔の動きによる第１の三角形と第２の三角形との面積比の変化を説明するための図。第３の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図。評価期間における被検者の顔の向きを表す量の分散値の確率分布の例を示す図。被検者の人物評価を行うために用いられるマッピングエリアの例を示す図。本発明の一実施形態に係る人物評価方法を示すフローチャート。動画像データの処理フローの例を示すフローチャート（前半）。動画像データの処理フローの例を示すフローチャート（後半）。

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。
＜人物評価装置＞
図１は、本発明の一実施形態に係る人物評価装置の構成例を示すブロック図である。人物評価装置としては、例えば、パーソナルコンピューター、タブレット端末、又は、スマートフォン等を使用することができる。以下においては、一例として、人物評価装置としてパーソナルコンピューターを使用する場合について説明する。

図１に示すように、この人物評価装置は、操作部１０と、表示部２０と、入出力インターフェース３０と、ネットワークインターフェース４０と、ＣＰＵ（中央演算装置）５０と、メモリー６０と、格納部７０とを含んでいる。入出力インターフェース３０〜格納部７０は、バスラインを介して互いに接続されている。なお、図１に示す構成要素の一部を省略又は変更しても良いし、あるいは、図１に示す構成要素に他の構成要素を付加しても良い。

操作部１０は、キーボードやマウス等で構成され、各種の命令やデータを入力するために用いられる。表示部２０は、例えば、ＬＣＤ（液晶表示装置）等を含み、操作画面や評価画面等を表示する。入出力インターフェース３０は、操作部１０及び表示部２０に接続されており、操作部１０を用いて入力される各種の命令やデータをＣＰＵ５０又はメモリー６０に供給し、ＣＰＵ５０によって生成される表示データを表示部２０に供給する。

また、入出力インターフェース３０は、外部から音声データ又は動画像データを入力したり、ＵＳＢ（ユニバーサルシリアルバス）メモリー等の周辺機器との間でデータのシリアル転送を行うことが可能である。さらに、入出力インターフェース３０は、アナログの音声信号又は画像信号をデジタルの音声データ又は動画像データに変換するアナログ／デジタル変換器を含んでも良い。

ネットワークインターフェース４０は、ＣＰＵ５０をＬＡＮ又はインターネット等のネットワークに接続する。ＣＰＵ５０は、格納部７０に格納されているソフトウェアに従って、各種の演算やデータ処理を行う。メモリー６０は、入出力インターフェース３０から供給される各種の命令やデータ、ネットワークインターフェース４０から供給されるデータ、及び、ＣＰＵ５０によって生成又は処理されるデータ等を一時的に記憶する。

格納部７０は、各種のデータや、ＣＰＵ５０に動作を行わせるための各種のソフトウェア等を記録媒体に格納する。記録媒体としては、内蔵のハードディスクの他に、外付けハードディスク、フレキシブルディスク、ＭＯ、ＭＴ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、又は、各種のメモリー等を用いることができる。

ここで、ＣＰＵ５０とソフトウェア（人物評価プログラムを含む）とによって、音声処理部５１と、音声解析部５２と、画像処理部５３と、画像解析部５４と、総合評価部５５とが、機能ブロックとして構成される。

図１に示す人物評価装置には、人物評価の対象となる被検者の音声を収録して得られる音声データが供給される。あるいは、被検者の顔を撮像して得られる動画像データが音声データと共に供給される。その場合には、動画像データと音声データとが結合されていても良い。あるいは、入出力インターフェース３０のアナログ／デジタル変換器が、人物評価装置に供給されるアナログの音声信号又は画像信号をデジタルの音声データ又は動画像データに変換しても良い。

例えば、マイクロフォン、携帯電話機（スマートフォン等）、タブレット端末、ビデオカメラ、又は、スカイプ（Skype）等を用いて得られる音声データ又は動画像データ等が、リアルタイムで人物評価装置に供給されても良い。あるいは、音声レコーダー又はビデオムービー等に予め記録された音声データ又は動画像データ等が、バッチ処理で人物評価装置に供給されても良い。

＜音声処理＞
入出力インターフェース３０又はネットワークインターフェース４０等から供給される音声データ又は動画像データは、生データ格納部７１に格納される。音声処理部５１は、生データ格納部７１から音声データを読み出して音声データを取得する。

図２は、音声データによって表される音声波形の例を示す図である。図２において、横軸は、時間［秒］を表しており、縦軸は、音声波形の振幅を表している。例えば、音声評価のために、収録開始後５秒〜３５秒の３０秒間の評価期間における音声を表す音声データが用いられる。なお、音声データにおける音声波形の振幅は、ピーク値等に基づいて正規化されても良い。

図１に示す音声処理部５１は、人物評価の対象となる被検者の音声を収録して得られる音声データを単位時間（例えば、約０．０７秒）当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する。なお、音声データのデータブロックは、一般的には、音声データのフレームに相当するものであるが、本願においては、画像データのフレームと区別するために、音声データについてはデータブロックという用語が用いられる。

図３は、声紋データによって表される音圧分布の例を示す図である。図３において、横軸は、２×時間［秒］を表す時間軸であり、縦軸は、周波数を対数表示で表す周波数軸である。図３においては、各々の周波数領域における明度が音圧［ｄＢ］を表しており、音圧が高い周波数領域ほど白に近く表示されている。あるいは、時間軸及び周波数軸に直交する音圧軸が音圧［ｄＢ］を表す３次元表示が用いられても良い。

ここで、音声データに基づいて声紋データを生成する手法の一例について説明する。図１に示す音声処理部５１は、音声データによって表される音声波形にハミング窓をかけることにより、時系列の音声データを所定の時間毎に区切って、時間軸に沿った複数のデータブロックを作成する。例えば、サンプリング周波数が約４４ｋＨｚである場合に、１つのデータブロックが、２０４８サンプルの音声データを含んでいる。なお、連続する２つのデータブロックの各々が、オーバーラップする複数のサンプルを含んでも良い。

次に、音声処理部５１は、データブロック毎に音声データをフーリエ変換することにより、複数の周波数成分を抽出する。例えば、音声処理部５１は、音声データに高速フーリエ変換（ＦＦＴ）処理を施しても良い。フーリエ変換によって求められる周波数成分は複素数であるので、音声処理部５１は、各々の周波数成分の絶対値を求める。

音声処理部５１は、それらの周波数成分の絶対値に、オクターブ毎の周波数領域の窓、又は、メル尺度（音高の知覚的尺度）に基づいて定められた周波数領域の窓をかけて積分することにより、各窓の周波数帯域における積分値を求め、さらに、積分値の対数をとって音圧［ｄＢ］を求める。それにより、周波数領域の窓が２０個であれば、２０個の周波数帯域における音圧が得られる。

＜音声解析＞
音声処理部５１は、このようにして生成された声紋データを声紋データ格納部７２に格納する。音声解析部５２は、声紋データ格納部７２から声紋データを読み出して、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う。

例えば、音声解析部５２は、いずれかの周波数領域において音圧が閾値を超えるか否かに応じてデータブロックを分類し、さらに、いずれかの周波数領域において音圧が閾値を超えるデータブロックを、音圧が閾値を超えて極大となる周波数帯域の数に応じて分類する。

図４は、声紋データに基づく音声の評価例を説明するための図である。図４（Ａ）〜図４（Ｄ）は、４種類の声紋データによって表される音圧分布の例を示している。図３及び図４において、各データブロックにおける黒い周波数領域は、音圧が閾値（例えば、１５ｄＢ）以下の周波数領域であり、その周波数成分が無声又はノイズであると判定される。

図４（Ａ）及び図４（Ｂ）に示すように、被検者が流暢に話して音声の途切れが少ない場合には、いずれかの周波数領域において音圧が閾値を超えるデータブロックの割合が大きくなる。特に、図４（Ａ）に示すように、被検者の音声において倍音の伸びが豊かで声紋の縞模様が多く、輪郭がはっきりして明るく良く通る声質の場合には、音圧が閾値を超えて極大となる周波数帯域が多くなる。

一方、図４（Ｃ）及び図４（Ｄ）に示すように、被検者が言葉に詰まって音声が途切れがちな場合には、全ての周波数領域において音圧が閾値以下であるデータブロックの割合が大きくなる。特に、図４（Ｄ）に示すように、被検者の音声において倍音の伸びが不足して声紋の縞模様が少なく、輪郭がぼけたような暗くてこもった声質の場合には、音圧が閾値を超えて極大となる周波数帯域が少なくなる。

そこで、音声解析部５２は、全ての周波数領域において音圧が閾値以下であるデータブロックに対して得点Ｓ０を与え、いずれかの周波数領域において音圧が閾値を超えるデータブロックに対して、全ての周波数領域において音圧が閾値以下であるデータブロックの得点Ｓ０よりも高い得点を与える。

さらに、音声解析部５２は、いずれかの周波数領域において音圧が閾値を超えるデータブロックについて、音圧が閾値を超えて極大となる周波数帯域の数を求める。図３及び図４を参照すると、各データブロックにおいて、ある周波数領域の明るさがその上下両側の周波数領域の明るさよりも明るい場合には、その周波数領域において音圧が極大となっている。

あるいは、時間軸及び周波数軸に直交する音圧軸が音圧［ｄＢ］を表す３次元表示が用いられる場合に、各データブロックにおいて、ある周波数領域の音圧がその上下両側の周波数領域の音圧よりも高く、音圧が高音圧側に凸である場合には、その周波数領域において音圧が極大となっている。

音声解析部５２は、いずれかの周波数領域において音圧が閾値を超えるデータブロックの内で、音圧が閾値を超えて極大となる周波数帯域の数が所定の値以下であるデータブロックに対して得点Ｓ１を与え、音圧が閾値を超えて極大となる周波数帯域の数が所定の値を超えるデータブロックに対して得点Ｓ１よりも高い得点Ｓ２を与える。

次に、音声解析部５２は、所定数のデータブロックの得点の合計値又は平均値に基づいて被検者の音声に関するランクを判定する。例えば、得点Ｓ０のデータブロックの数Ｎ０と、得点Ｓ１のデータブロックの数Ｎ１と、得点Ｓ２のデータブロックの数Ｎ２とを用いて、所定数（Ｎ個）のデータブロックの得点の平均値ＡＶＥが、次式（１）によって表される。
ＡＶＥ＝（Ｓ０×Ｎ０＋Ｓ１×Ｎ１＋Ｓ２×Ｎ２）／Ｎ・・・（１）
ここで、Ｎ０〜Ｎ２はゼロ以上の整数であり、Ｎは３以上の整数であって、次式（２）が成立する。
Ｎ＝Ｎ０＋Ｎ１＋Ｎ２・・・（２）
例えば、式（１）において、Ｓ０＝０、Ｓ１＝１、Ｓ２＝３〜５としても良い。

音声解析部５２は、所定数のデータブロックの得点の合計値又は平均値を、予め設定された少なくとも１つの基準値と比較して、被検者の音声に関するランクを判定しても良い。そのために、学習データ格納部７３には、例えば、インターシップ応募者等の疑似被検者の音声を収録して得られた音声データと、実際に評価者がその音声を評価して判定したランク等を表す評価データとが、判定学習データとして予め格納されている。音声解析部５２は、判定学習データを用いて機械学習を行うＡＩ（人工知能）として機能することにより、判定学習データに近い判定結果が得られるように少なくとも１つの基準値を設定して、被検者の音声に関するランクを判定しても良い。

例えば、音声解析部５２は、被検者の音声を４段階で評価する場合に、平均値ＡＶＥを第１〜第３の基準値と比較する。音声解析部５２は、平均値ＡＶＥが第１の基準値以下の場合に、その被検者の音声をランクＲＡ０（極めて悪い音声）と判定し、平均値ＡＶＥが第１の基準値よりも大きく第２の基準値以下の場合に、その被検者の音声をランクＲＡ１（悪い音声）と判定する。また、音声解析部５２は、平均値ＡＶＥが第２の基準値よりも大きく第３の基準値以下の場合に、その被検者の音声をランクＲＡ２（普通の音声）と判定し、平均値ＡＶＥが第３の基準値よりも大きい場合に、その被検者の音声をランクＲＡ３（良い音声）と判定する。

なお、評価期間に相当する音声データにおいて音声が収録されている期間が一定の期間（例えば１５秒）に達しないような場合には、音声解析部５２は、その被検者の音声をランクＲＡ０と判定しても良い。音声解析部５２は、このようにして得られた音声評価結果を表す音声評価データを評価データ格納部７４に格納する。

＜画像処理＞
生データ格納部７１に動画像データが格納された場合には、画像処理部５３が、生データ格納部７１から動画像データを読み出して動画像データを取得する。例えば、動画像データは、１秒間に２４フレームの画像を表しており、視覚的評価のために、撮像開始後５秒〜６０秒の５５秒間の評価期間における画像を表す動画像データが用いられる。

画像処理部５３は、被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、複数の特徴点の座標を求める。ここで、画像処理の一種である顔認識処理の一例について説明する。

まず、画像処理部５３は、１フレームの動画像データによって表される画像（以下においては、「入力画像」ともいう）における被検者の顔の位置を検出する。例えば、画像処理部５３は、ＯｐｅｎＣＶ等のソフトウェアを用いて、被検者の顔の位置や領域等を検出することができる。

次に、画像処理部５３は、１フレームの動画像データと、学習データ格納部７３に予め格納されている顔認識学習データとを用いて、入力画像における被検者の顔を認識する。この顔認識処理においては、例えば、アクティブ・アピアランス・モデル（ＡＡＭ）が用いられる。その後、画像処理部５３は、被検者の顔を認識できたか否かを判定する。

被検者の顔を認識できた場合に、画像処理部５３は、被検者の顔において認識される複数の特徴点を抽出し、入力画像における複数の特徴点の座標を求める。さらに、画像処理部５３は、複数の特徴点の座標を、フレーム番号と共に座標データ格納部７５に格納する。なお、画像処理部５３は、入力画像における複数の特徴点の座標をピクセル番号として求めても良い。

＜顔認識処理の詳細＞
学習データ格納部７３には、例えば、標準的な人間の顔又はその模型等を用いて予め撮影された画像を表す画像データと、その画像において設定された複数の特徴点の座標とが、顔認識学習データとして予め格納されている。画像処理部５３は、顔認識学習データに基づいて、被検者の顔を撮像して得られる画像データに顔認識処理を施すことにより、被検者の顔から複数の特徴点を抽出し、それらの特徴点の座標を求める。

上記の顔認識処理において用いることができるアクティブ・アピアランス・モデルとは、対象となる物体の画像を形状（shape）とテクスチャー（appearance）とに分けて、それぞれを主成分分析（principal component analysis）によって次元圧縮することにより、少ないパラメーターで対象の形状の変化とテクスチャーの変化とを表現できるようにしたモデルである。形状及びテクスチャーの情報は、低次元のパラメーターで表現することができる。

アクティブ・アピアランス・モデルにおいて、全特徴点を並べた形状ベクトルｘは、予め顔認識学習データから求められた平均形状ベクトルｕと、平均形状ベクトルｕからの偏差を主成分分析して得られる固有ベクトル行列Ｐ_ｓとを用いて、次式（３）によって表される。
ｘ＝ｕ＋Ｐ_ｓｂ_ｓ・・・（３）
ここで、ｂ_ｓは、パラメーターベクトルであり、形状パラメーターと呼ばれる。

また、正規化されたテクスチャーの輝度値を並べたアピアランスベクトルｇは、予め顔認識学習データから求められた平均アピアランスベクトルｖと、平均アピアランスベクトルｖからの偏差を主成分分析して得られる固有ベクトル行列Ｐ_ｇとを用いて、次式（４）によって表される。
ｇ＝ｖ＋Ｐ_ｇｂ_ｇ・・・（４）
ここで、ｂ_ｇは、パラメーターベクトルであり、アピアランスパラメーターと呼ばれる。形状パラメーターｂ_ｓ及びアピアランスパラメーターｂ_ｇは、平均からの変化を表すパラメーターであり、これらを変化させることによって、形状及びアピアランスを変化させることができる。

また、形状とアピアランスとの間に相関があることから、形状パラメーターｂ_ｓ及びアピアランスパラメーターｂ_ｇをさらに主成分分析することにより、形状とアピアランスとの両方を制御する低次元のパラメーターベクトル（以下においては、「結合パラメーター」ともいう）ｃを用いて、形状ベクトルｘ（ｃ）及びテクスチャーベクトルｇ（ｃ）が、次式（５）及び（６）によって表される。
ｘ（ｃ）＝ｕ＋Ｐ_ｓＷ_ｓ ^−１Ｑ_ｓｃ・・・（５）
ｇ（ｃ）＝ｖ＋Ｐ_ｇＱ_ｇｃ・・・（６）
ここで、Ｗ_ｓは、形状ベクトルとアピアランスベクトルとの単位の違いを正規化する行列であり、Ｑ_ｓは、形状に関する固有ベクトル行列であり、Ｑ_ｇは、アピアランスに関する固有ベクトル行列である。このようにして、結合パラメーターｃを制御することによって、形状とアピアランスとを同時に扱い、対象の変化を表現することが可能となる。

次に、対象が、画像中のどこに、どんなサイズで、どんな向きで存在するかという広域的な変化に関するパラメーター（以下においては、「姿勢パラメーター」ともいう）ｑを考慮する。姿勢パラメーターｑは、次式（７）によって表される。
ｑ＝[roll scale trans_x trans_y] ・・・（７）
ここで、rollは、画像平面に対するモデルの回転角度を表し、scaleは、モデルのサイズを表し、trans_x及びtrans_yは、それぞれｘ軸方向及びｙ軸方向におけるモデルの平行移動量を表している。

アクティブ・アピアランス・モデルにおいて、モデルの探索とは、モデルを結合パラメーターｃ及び姿勢パラメーターｑによって局所的及び広域的に変化させて対象の画像を生成し、生成された画像と入力画像とを比較して、誤差が最小となるような結合パラメーターｃ及び姿勢パラメーターｑを求めることである。アクティブ・アピアランス・モデルによれば、対象の方向の変化に対して頑健かつ高速に特徴点を抽出することが可能である。

具体的には、ある結合パラメーターｃ'及び姿勢パラメーターｑ'に対して、結合パラメーターｃ'から得られる形状パラメーターｂ_ｓ'と姿勢パラメーターｑ'とによって形状Ｘを変形する関数をＷ（Ｘ；ｑ'，ｂ_ｓ'）とする。また、入力画像Ｉｍｇと形状Ｘとが与えられたときに形状Ｘ内の輝度値を求める関数をＩ（Ｉｍｇ，Ｘ）とすると、モデルの探索における誤差値Ｅｒは、次式（８）によって表される。
Ｅｒ＝［（ｖ＋Ｐ_ｇＱ_ｇｃ'）−Ｉ（Ｉｍｇ，Ｗ（Ｘ；ｑ'，ｂ_ｓ'））］^２
・・・（８）

例えば、被検者の顔を構成するＫ個の形状Ｘ（１）、Ｘ（２）、・・・、Ｘ（Ｋ）についてそれぞれの誤差値が求められる場合に（Ｋは自然数）、それぞれの誤差値をＥｒ（１）、Ｅｒ（２）、・・・、Ｅｒ（Ｋ）とすると、顔認識処理における認識誤差を表す指標であるフィット率Ｆｒは、次式（９）によって表される。
Ｆｒ＝（Ｅｒ（１）＋Ｅｒ（２）＋・・・＋Ｅｒ（Ｋ））／Ｋ・・・（９）
従って、誤差値Ｅｒ又はフィット率Ｆｒが小さくなるような結合パラメーターｃ及び姿勢パラメーターｑを決定することにより、高精度な顔認識処理を行うことができる。

次に、画像処理部５３は、入力画像における顔認識の結果として求められた被検者の顔のフィット率が予め設定された閾値以下であるか否かを判定する。画像処理部５３は、フィット率が閾値以下である場合に、被検者の顔を認識できたと判定し、フィット率が閾値を超えた場合に、被検者の顔を認識できなかったと判定する。

＜画像解析＞
画像解析部５４は、座標データ格納部７５から所定数のフレームにおける複数の特徴点の座標を読み出して、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行う。動画像データが１秒間に２４フレームの画像を表す場合に、所定数のフレームは、１秒間に相当する２４フレームでも良い。

例えば、画像解析部５４は、動画像データによって表される被検者の画像における特定の部位の位置に基づいて定められる第１の軸、第１の軸に略直交する第２の軸、又は、第１及び第２の軸に略直交する第３の軸を回転中心とする被検者の顔の動き量を算出しても良い。その場合に、被検者の顔の動き量は、所定数のフレームにおける被検者の顔の向きの変化に基づいて算出される。

図５は、第１の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図である。この例において、第１の軸は、被検者の右目頭と左目頭とを結ぶ線（図中のＸ軸）に平行な軸である。例えば、第１の軸を回転中心とする被検者の顔の動き量を算出するために、被検者の右目頭と左目頭との中点に位置する特徴点Ｐ０と、被検者の鼻の右端に位置する特徴点Ｐ１と、被検者の鼻の左端に位置する特徴点Ｐ２と、被検者の右口角と左口角との中点に位置する特徴点Ｐ３とが用いられる。

図５に示すように、特徴点Ｐ０〜Ｐ２によって図中上側の第１の三角形が形成され、特徴点Ｐ１〜Ｐ３によって図中下側の第２の三角形が形成される。ビデオカメラ等の撮像素子から見た第１の三角形と第２の三角形との面積又は高さの比の値が、第１の軸を回転中心とする動きにおける被検者の顔の向きを表す量として用いられる。

図６は、第１の軸を回転中心とする被検者の顔の動きによる第１の三角形と第２の三角形との高さの比の変化を説明するための図である。図６の左側に示すように、被検者がビデオカメラ等の撮像素子の前面に顔を向けている場合に、撮像素子から見た第１の三角形の高さＨ１と第２の三角形の高さＨ２との比の値Ｈ１／Ｈ２がＡであるものとする。

一方、図６の右側に示すように、被検者がうなずく等してビデオカメラ等の撮像素子の前面よりも下側に顔を向けている場合には、第２の三角形が第１の三角形よりも撮像素子の前面から遠くなると共に角度が変化するので、撮像素子から見た第１の三角形の高さＨ１'と第２の三角形の高さＨ２'との比の値Ｈ１'／Ｈ２'がＡ'（Ａ'＞Ａ）になる。なお、画像解析部５４は、第１の三角形及び第２の三角形の高さ等をピクセル数として求めても良い。それにより、距離の算出が簡単になる。

図７は、第２の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図である。この例において、第２の軸は、被検者の右目頭と左目頭との中点と右口角と左口角との中点とを結ぶ線（図中のＹ軸）に平行な軸である。例えば、第２の軸を回転中心とする被検者の顔の動き量を算出するために、被検者の鼻の右端に位置する特徴点Ｐ１と、被検者の鼻の左端に位置する特徴点Ｐ２と、被検者の右口角に位置する特徴点Ｐ４と、被検者の左口角に位置する特徴点Ｐ５と、被検者の右目頭に位置する特徴点Ｐ６と、被検者の左目頭に位置する特徴点Ｐ７とが用いられる。

図７に示すように、特徴点Ｐ１、Ｐ４、Ｐ６によって図中左側の第１の三角形が形成され、特徴点Ｐ２、Ｐ５、Ｐ７によって図中右側の第２の三角形が形成される。ビデオカメラ等の撮像素子から見た第１の三角形と第２の三角形との面積の比の値が、第２の軸を回転中心とする動きにおける被検者の顔の向きを表す量として用いられる。

図８は、第２の軸を回転中心とする被検者の顔の動きによる第１の三角形と第２の三角形との面積比の変化を説明するための図である。図８の左側に示すように、被検者がビデオカメラ等の撮像素子の前面に顔を向けている場合に、撮像素子から見た第１の三角形の面積Ｓ１と第２の三角形の面積Ｓ２との比の値Ｓ１／Ｓ２がＢであるものとする。

一方、図８の右側に示すように、被検者がビデオカメラ等の撮像素子の前面よりも右側に顔を向けている場合には、第１の三角形が第２の三角形よりも撮像素子の前面から遠くなると共に角度が変化するので、撮像素子から見た第１の三角形の面積Ｓ１'と第２の三角形の面積Ｓ２'との比の値Ｓ１'／Ｓ２'がＢ'（Ｂ'＜Ｂ）になる。

図９は、第３の軸を回転中心とする被検者の顔の動き量を算出するために用いられる画像の例を示す図である。この例において、第３の軸は、図中のＸ軸及びＹ軸に直交するＺ軸に平行な軸である。例えば、第３の軸を回転中心とする被検者の顔の動き量を算出するために、被検者の右目頭に位置する特徴点Ｐ６と、被検者の左目頭に位置する特徴点Ｐ７とが用いられる。

図９に示すように、被検者の右目頭に位置する特徴点Ｐ６と左目頭に位置する特徴点Ｐ７とを結ぶ線（図中の実線）と、Ｘ軸に平行な線（図中の破線）とがなす角度θ、又は、角度θの三角関数値（ｓｉｎθ、ｃｏｓθ、ｔａｎθ等）が、第３の軸を回転中心とする動きにおける被検者の顔の向きを表す量として用いられる。

再び図１を参照すると、画像解析部５４は、所定数のフレームにおける被検者の顔の向きを表す量の分散値を被検者の顔の動き量として算出し、評価期間における分散値の確率分布に基づいて被検者の視覚的評価に関するランクを判定する。例えば、１つの分散値を算出するために２４フレームを１ブロックとして扱う場合に、連続する２つのブロックの各々が、オーバーラップする１２フレームを含んでも良い。

所定数（Ｌ個）のフレームについて、Ｘ軸に平行な第１の軸を回転中心とする動きにおける被検者の顔の向きを表す量Ｘ（ｉ）の分散値Ｖ_Ｘは、次式（１０）で定義される（Ｌは２以上の整数）。
Ｖ_Ｘ＝（１／Ｌ）Σ（Ｘ（ｉ）−Ｅ_Ｘ）^２・・・（１０）
ここで、ｉ＝１〜Ｌであり、Ｅ_Ｘは、Ｌ個のフレームにおけるＸ（ｉ）の平均値である。

例えば、評価期間における２４×５５フレームの動画像データに基づいて、複数の分散値Ｖ_Ｘが得られる。画像解析部５４は、評価期間における複数の分散値Ｖ_Ｘを、その大きさに応じてＭ個の階級に分類することにより（Ｍは２以上の整数）、第ｊ番目の階級に属する分散値Ｖ_Ｘ（ｊ）の存在確率Ｐ_Ｘ（ｊ）を求める（ｊ＝１〜Ｍ）。

同様に、Ｌ個のフレームについて、Ｙ軸に平行な第２の軸を回転中心とする動きにおける被検者の顔の向きを表す量Ｙ（ｉ）の分散値Ｖ_Ｙは、次式（１１）で定義される。
Ｖ_Ｙ＝（１／Ｌ）Σ（Ｙ（ｉ）−Ｅ_Ｙ）^２・・・（１１）
ここで、ｉ＝１〜Ｌであり、Ｅ_Ｙは、Ｌ個のフレームにおけるＹ（ｉ）の平均値である。画像解析部５４は、評価期間における複数の分散値Ｖ_Ｙを、その大きさに応じてＭ個の階級に分類することにより、第ｊ番目の階級に属する分散値Ｖ_Ｙ（ｊ）の存在確率Ｐ_Ｙ（ｊ）を求める（ｊ＝１〜Ｍ）。

また、Ｌ個のフレームについて、Ｚ軸に平行な第３の軸を回転中心とする動きにおける被検者の顔の向きを表す量Ｚ（ｉ）の分散値Ｖ_Ｚは、次式（１２）で定義される。
Ｖ_Ｚ＝（１／Ｌ）Σ（Ｚ（ｉ）−Ｅ_Ｚ）^２・・・（１２）
ここで、ｉ＝１〜Ｌであり、Ｅ_Ｚは、Ｌ個のフレームにおけるＺ（ｉ）の平均値である。画像解析部５４は、評価期間における複数の分散値Ｖ_Ｚを、その大きさに応じてＭ個の階級に分類することにより、第ｊ番目の階級に属する分散値Ｖ_Ｚ（ｊ）の存在確率Ｐ_Ｚ（ｊ）を求める（ｊ＝１〜Ｍ）。

図１０は、評価期間における被検者の顔の向きを表す量の分散値の確率分布の例を示す図である。図１０において、横軸は、３種類の分散値Ｖ_Ｘ（ｊ）、Ｖ_Ｙ（ｊ）、Ｖ_Ｚ（ｊ）を階級値５０刻みで表しており、縦軸は、その存在確率Ｐ_Ｘ（ｊ）、Ｐ_Ｙ（ｊ）、Ｐ_Ｚ（ｊ）を表している。なお、３種類の分散値を１つの図に表示するために、３種類の分散値は位置をずらして表示されている。それらの内の少なくとも１種類の分散値が、被検者の顔の動き量として用いられる。

図１に示す画像解析部５４は、例えば、評価期間に相当する動画像データにおいて被検者の顔の特徴点の座標を求めることができた割合が一定の割合（例えば６０％）に達しない場合に、その被検者の画像をランクＲＶ０（未評価）と判定する。一方、画像解析部５４は、被検者の顔の特徴点の座標を求めることができた割合が一定の割合以上である場合に、被検者の顔の動き量に応じて、その被検者の画像をランクＲＶ１以上の複数のランクのいずれかに分類する。

一般に、被検者が言葉に詰まって考えながら話す場合には、顔の動きが止まりがちになり、被検者が説得力を持って流暢に話す場合には、顔の動きが活発になる。そこで、画像解析部５４は、被検者の顔の動き量が所定の基準量よりも総体的に小さければ、その被検者の画像をランクＲＶ１（小さい動き）と判定し、被検者の顔の動き量が基準量よりも総体的に大きければ、その被検者の画像をランクＲＶ２（大きい動き）と判定しても良い。

例えば、画像解析部５４は、少なくとも１種類の分散値の確率分布を、予め設定された基準量の確率分布と比較して、被検者の視覚的評価に関するランクを判定しても良い。そのために、学習データ格納部７３には、例えば、インターシップ応募者等の疑似被検者の顔を撮像して得られた動画像データと、実際に評価者がその画像を評価して判定したランク等を表す評価データとが、判定学習データとして予め格納されている。画像解析部５４は、判定学習データを用いて機械学習を行うＡＩ（人工知能）として機能することにより、判定学習データに近い判定結果が得られるように基準量の確率分布や比較方法を設定して、被検者の視覚的評価に関するランクを判定しても良い。

あるいは、画像解析部５４は、少なくとも１つの階級に属する分散値Ｖ_Ｘ（ｊ）、Ｖ_Ｙ（ｊ）、Ｖ_Ｚ（ｊ）の合計値又は平均値を被検者の顔の動き量として求め、被検者の顔の動き量が所定の基準量よりも小さければ、その被検者の画像をランクＲＶ１（小さい動き）と判定し、被検者の顔の動き量が基準量よりも大きければ、その被検者の画像をランクＲＶ２（大きい動き）と判定しても良い。

なお、評価期間に相当する動画像データにおいて被検者の顔が録画されている期間が一定の期間（例えば１５秒）に達しないような場合には、画像解析部５４は、その被検者の画像をランクＲＶ０と判定しても良い。画像解析部５４は、このようにして得られた視覚的評価結果を表す視覚的評価データを評価データ格納部７４に格納する。

＜総合評価＞
同一被検者の音声評価データ及び視覚的評価データが評価データ格納部７４に格納された場合に、総合評価部５５は、評価データ格納部７４から音声評価データ及び視覚的評価データを読み出して、音声解析部５２による評価結果と画像解析部５４による評価結果とに基づいて被検者の人物評価を行う。例えば、総合評価部５５は、音声評価における複数のランクと視覚的評価における複数のランクとに基づいて２次元状に配列された複数のマッピングエリアを用いて被検者の人物評価を行う。

図１１は、被検者の人物評価を行うために用いられるマッピングエリアの例を示す図である。図１１に示すように、音声評価は、ランクＲＡ０（極めて悪い音声）と、ランクＲＡ１（悪い音声）と、ランクＲＡ２（普通の音声）と、ランクＲＡ３（良い音声）とに分かれている。一方、視覚的評価は、ランクＲＶ０（未評価）と、ランクＲＶ１（小さい動き）と、ランクＲＶ２（大きい動き）とに分かれている。

例えば、音声評価がランクＲＡ０又はＲＡ１であるエリア０〜５と、音声評価がランクＲＡ２であって視覚的評価がランクＲＶ１であるエリア７とが、不合格エリアに設定される。なお、音声評価がランクＲＡ２であっても視覚的評価がランクＲＶ０であるエリア６は、さらなる人間チェックが必要とされる人間チェックエリアに設定される。一方、音声評価がランクＲＡ２であって視覚的評価がランクＲＶ２であるエリア８と、音声評価がランクＲＡ３であるエリア９〜１１とは、合格エリアに設定される。

図１に示す総合評価部５５は、音声評価データによって表される被検者の音声に関するランクと、視覚的評価データによって表される被検者の視覚的評価に関するランクとに基づいて、図１１に示すエリア０〜１１の内の１つを選択することにより、被検者の人物評価を行う。総合評価部５５は、このようにして得られた人物評価結果を表す人物評価データを評価データ格納部７４に格納する。

＜人物評価方法＞
次に、本発明の一実施形態に係る人物評価装置において用いられる人物評価方法について、図１〜図１２を参照しながら説明する。図１２は、本発明の一実施形態に係る人物評価方法を示すフローチャートである。なお、互いに独立な処理については、それらを並列に行っても良い。

図１２に示すステップＳ１１において、音声処理部５１が、被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する。

ステップＳ１２において、音声解析部５２が、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行う。それにより、被検者の音声に関するランクが判定される。

ステップＳ１３において、画像処理部５３が、被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、複数の特徴点の座標を求める。

ステップＳ１４において、画像解析部５４が、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行う。それにより、被検者の視覚的評価に関するランクが判定される。

ステップＳ１５において、総合評価部５５が、ステップＳ１２における評価結果とステップＳ１４における評価結果とに基づいて被検者の人物評価を行う。その際に、総合評価部５５は、例えば、図１１に示すようなマッピングエリアを用いて、被検者の音声に関するランクと被検者の視覚的評価に関するランクとに基づいて被検者の人物評価を行う。

＜動画像データの処理フロー＞
図１３及び図１４は、動画像データの処理フローの例を示すフローチャートである。この例において、動画像データは、１秒間に２４フレームの画像を表している。
図１３に示すステップＳ２１において、画像処理部５３が、被検者の視覚的評価のために人物評価装置に供給される動画像データを格納する生データ格納部７１から、撮像開始後５秒〜６０秒の５５秒間の評価期間における画像を表す動画像データを取得して、フレーム番号ｎを１に設定する。

ステップＳ２２において、画像処理部５３が、第ｎフレームの動画像データに対して顔認識処理を施すことにより、被検者の顔において認識される複数の特徴点を抽出し、それらの特徴点の座標を求める。さらに、ステップＳ２３において、画像処理部５３が、複数の特徴点の座標を、フレーム番号と共に座標データ格納部７５に格納する。

ステップＳ２４において、画像処理部５３が、フレーム番号ｎが１３２０（＝２４×５５）であるか、又は、第ｎフレームが動画像データの最終フレームであるか否かを判定する。フレーム番号ｎが１３２０よりも小さく、第ｎフレームが動画像データの最終フレームでない場合には、画像処理部５３が、フレーム番号ｎをインクリメントして（ｎ＋１）とし、処理がステップＳ２２に戻る。一方、フレーム番号ｎが１３２０であるか、又は、第ｎフレームが動画像データの最終フレームである場合には、処理がステップＳ２５〜Ｓ２７のいずれかに移行する。あるいは、ステップＳ２５〜Ｓ２７が順次処理されても良いし、並列処理されても良い。

ステップＳ２５において、画像解析部５４が、座標データ格納部７５から各フレームにおける複数の特徴点の座標を読み出して、第１の軸を回転中心とする被検者の顔の動き量を算出するために必要な第１の三角形及び第２の三角形の面積又は高さをフレーム毎に求める。その後、処理がステップＳ２８（図１４）に移行する。

ステップＳ２６において、画像解析部５４が、座標データ格納部７５から各フレームにおける複数の特徴点の座標を読み出して、第２の軸を回転中心とする被検者の顔の動き量を算出するために必要な第１の三角形及び第２の三角形の面積をフレーム毎に求める。その後、処理がステップＳ２８（図１４）に移行する。

ステップＳ２７において、画像解析部５４が、座標データ格納部７５から各フレームにおける複数の特徴点の座標を読み出して、第３の軸を回転中心とする被検者の顔の動き量を算出するために、被検者の顔の向きを表す量として、左右の目頭を結ぶ線の角度等をフレーム毎に求める。その後、処理がステップＳ２９（図１４）に移行する。

図１４に示すステップＳ２８において、画像解析部５４が、被検者の顔の向きを表す量として、第１の三角形と第２の三角形との面積又は高さの比の値をフレーム毎に求める。その後、処理がステップＳ２９に移行する。

ステップＳ２９において、画像解析部５４が、２４フレーム（１秒間）における被検者の顔の向きを表す量の分散値を被検者の顔の動き量として算出する。さらに、ステップＳ３０において、画像解析部５４が、評価期間（５５秒間）において得られる複数の分散値を、その大きさに応じて複数の階級に分類することにより、各々の分散値の存在確率を求める。

ステップＳ３１において、画像解析部５４が、評価期間における分散値の確率分布に基づいて被検者の視覚的評価に関するランクを判定する。それにより、評価期間に相当する動画像データにおいて被検者の顔の特徴点の座標を求めることができた割合が一定の割合以上である場合に、被検者の顔の動き量に応じて、その被検者の画像が複数のランクのいずれかに分類される。

以上説明したように、本発明の一実施形態によれば、被検者の音声を収録して得られる音声データからデータブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成して、複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて被検者の音声に関する評価を行うことにより、人物評価の対象となる被検者の音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供することができる。

さらに、被検者の顔を撮像して得られる動画像データから被検者の顔において認識される複数の特徴点の座標を求めて、所定数のフレームにおける複数の特徴点の座標に基づいて被検者の顔の動き量を算出し、評価期間における被検者の顔の動き量の統計処理に基づいて被検者の視覚的な評価を行うことにより、人物評価の対象となる被検者の動画像及び音声に基づいて、被検者の人物評価を行う際に参考となる情報を提供することができる。

以上説明した実施形態における判定方法は一例である。本発明は、それらの実施形態に限定されるものではなく、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。

本発明は、人物を評価するために用いられる人物評価装置等において利用することが可能である。

１０…操作部、２０…表示部、３０…入出力インターフェース、４０…ネットワークインターフェース、５０…ＣＰＵ、５１…音声処理部、５２…音声解析部、５３…画像処理部、５４…画像解析部、５５…総合評価部、６０…メモリー、７０…格納部、７１…生データ格納部、７２…声紋データ格納部、７３…学習データ格納部、７４…評価データ格納部、７５…座標データ格納部

Claims

被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する音声処理部と、
前記複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて前記被検者の音声に関する評価を行う音声解析部と、
を備える人物評価装置。
前記音声解析部が、いずれかの周波数領域において音圧が閾値を超えるか否かに応じてデータブロックを分類し、さらに、いずれかの周波数領域において音圧が閾値を超えるデータブロックを、音圧が閾値を超えて極大となる周波数帯域の数に応じて分類する、請求項１記載の人物評価装置。
前記音声解析部が、いずれかの周波数領域において音圧が閾値を超えるデータブロックに対して、全ての周波数領域において音圧が閾値以下であるデータブロックの得点よりも高い得点を与え、音圧が閾値を超えて極大となる周波数帯域の数が所定の値を超えるデータブロックに対して、音圧が閾値を超えて極大となる周波数帯域の数が所定の値以下であるデータブロックの得点よりも高い得点を与えて、所定数のデータブロックの得点の合計値又は平均値に基づいて前記被検者の音声に関するランクを判定する、請求項１又は２記載の人物評価装置。
前記被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、前記被検者の顔において認識される複数の特徴点を抽出し、前記複数の特徴点の座標を求める画像処理部と、
所定数のフレームにおける前記複数の特徴点の座標に基づいて前記被検者の顔の動き量を算出し、評価期間における前記被検者の顔の動き量の統計処理に基づいて前記被検者の視覚的な評価を行う画像解析部と、
をさらに備える、請求項１〜３のいずれか１項記載の人物評価装置。
前記画像解析部が、前記動画像データによって表される前記被検者の画像における特定の部位の位置に基づいて定められる第１の軸、前記第１の軸に略直交する第２の軸、又は、前記第１及び第２の軸に略直交する第３の軸を回転中心とする前記被検者の顔の動き量を算出する、請求項４記載の人物評価装置。
前記画像解析部が、前記所定数のフレームにおける前記被検者の顔の向きを表す量の分散値を前記被検者の顔の動き量として算出し、前記評価期間における前記分散値の確率分布に基づいて前記被検者の視覚的評価に関するランクを判定する、請求項４又は５記載の人物評価装置。
前記音声解析部による評価結果と前記画像解析部による評価結果とに基づいて前記被検者の人物評価を行う総合評価部をさらに備える、請求項４〜６のいずれか１項記載の人物評価装置。
被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成する手順（ａ）と、
前記複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて前記被検者の音声に関する評価を行う手順（ｂ）と、
をＣＰＵに実行させる人物評価プログラム。
前記被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、前記被検者の顔において認識される複数の特徴点を抽出し、前記複数の特徴点の座標を求める手順（ｃ）と、
所定数のフレームにおける前記複数の特徴点の座標に基づいて前記被検者の顔の動き量を算出し、評価期間における前記被検者の顔の動き量の統計処理に基づいて前記被検者の視覚的な評価を行う手順（ｄ）と、
手順（ｂ）における評価結果と手順（ｄ）における評価結果とに基づいて前記被検者の人物評価を行う手順（ｅ）と、
をさらにＣＰＵに実行させる、請求項８記載の人物評価プログラム。
被検者の音声を収録して得られる音声データを単位時間当りのデータブロック毎にフーリエ変換し、データブロック毎に複数の周波数帯域における音圧分布を表す声紋データを生成するステップ（ａ）と、
前記複数の周波数帯域における音圧の大きさ及び広がりに応じてデータブロックを分類し、所定数のデータブロックの分類結果に基づいて前記被検者の音声に関する評価を行うステップ（ｂ）と、
を備える人物評価方法。
前記被検者の顔を撮像して得られる動画像データに対してフレーム毎に顔認識処理を施すことにより、前記被検者の顔において認識される複数の特徴点を抽出し、前記複数の特徴点の座標を求めるステップ（ｃ）と、
所定数のフレームにおける前記複数の特徴点の座標に基づいて前記被検者の顔の動き量を算出し、評価期間における前記被検者の顔の動き量の統計処理に基づいて前記被検者の視覚的な評価を行うステップ（ｄ）と、
ステップ（ｂ）における評価結果とステップ（ｄ）における評価結果とに基づいて前記被検者の人物評価を行うステップ（ｅ）と、
をさらに備える、請求項１０記載の人物評価方法。