JP2018063352A

JP2018063352A - フレーム選択装置、フレーム選択方法及びプログラム

Info

Publication number: JP2018063352A
Application number: JP2016201600A
Authority: JP
Inventors: 貴之岩本; Takayuki Iwamoto; 剛黒木; Takeshi Kuroki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-10-13
Filing date: 2016-10-13
Publication date: 2018-04-19

Abstract

【課題】発声者の雰囲気を表す適切な画像を選択することができるフレーム選択装置を提供することを課題とする。【解決手段】フレーム選択装置は、発声者の画像及び音声を取得する発声者情報取得部（１１０）と、前記発声者情報取得部により取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴を記憶するフレーム記憶部（１３０）と、前記フレーム記憶部に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択するフレーム選択部（１４０）と、前記フレーム選択部により選択されたフレームに対応する画像と前記対象の発声区間中の音声を出力する出力部（１５０乃至１７０）とを有する。【選択図】図１

Description

本発明は、フレーム選択装置、フレーム選択方法及びプログラムに関する。

動画中の発声シーンを記録し、記録内容を表示する方法が知られている。例えば、特許文献１には、撮像手段より撮像された発言者のサムネイル顔画像を生成し、音声認識により文字符号化列に変換された、一区切りされた発言内容のヘッダーとして、発言に付加して表示する方法が開示されている。また、特許文献２には、会議において発言者の発言内容と当該発言が挙がったときの発言者を含めた会議の出席者の推定された感情とを記録した議事録を生成する方法が開示されている。

特開２００６−２３５７１２号公報特許第４４５８８８８号公報

しかし、特許文献１では、発言者が発言をしている際には表情が変化をするため、発言の雰囲気やニュアンスを伝えるための好適な表情の静止画像を選ぶ方法が必要である。また、特許文献２では、特定の感情にカテゴライズされない非言語的情報や、発言者個人に固有の非言語的情報をとらえることはできない。また、感情の表出が乏しい個人に対しては、感情を推定することが困難である。

本発明の目的は、発声者の雰囲気を表す適切な画像を選択することができるフレーム選択装置、フレーム選択方法及びプログラムを提供することである。

本発明のフレーム選択装置は、発声者の画像及び音声を取得する発声者情報取得部と、前記発声者情報取得部により取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴を記憶するフレーム記憶部と、前記フレーム記憶部に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択するフレーム選択部と、前記フレーム選択部により選択されたフレームに対応する画像と前記対象の発声区間中の音声を出力する出力部とを有する。

本発明によれば、発声者の雰囲気を表す適切な画像を選択することができる。

フレーム選択装置の構成例を示す図である。データ構造を示す図である。フレーム選択装置の処理を示すフローチャートである。特徴量空間を示す図である。第１の実施形態の処理を示すフローチャートである。第１の実施形態の出力画面を示す図である。第２の実施形態の使用状況を示す図である。スコアの比較方法を説明するための図である。第２の実施形態の処理を示すフローチャートである。第２の実施形態の処理を示すフローチャートである。第２の実施形態の出力画面を示す図である。第３の実施形態の出力画面を示す図である。

（第１の実施形態）
図１は、本発明の第１の実施形態によるフレーム選択装置１００の構成例を示す図である。フレーム選択装置１００は、会議中の議事録を自動で生成する会議議事録生成装置である。フレーム選択装置１００は、発声者情報取得部１１０と、音声認識部１２０と、フレーム記憶部１３０と、フレーム選択部１４０と、音声出力部１５０と、画像出力部１６０と、テキスト出力部１７０とを有する。

発声者情報取得部１１０は、会議の参加者（発声者）の顔画像及び音声を含む動画に加えて、参加者の脈拍、心電、発汗、体温等の生体情報を取得する。なお、発声者情報取得部１１０は、最小限の構成として、顔画像と音声のみを取得してもよい。

発声者情報取得部１１０は、会議の参加者の顔画像をデジタルカメラによって取得する。会議参加者の顔が撮像可能であるように、例えば、参加者が囲む机の中央に全周囲映像を撮影するカメラを配置する場合や、部屋の複数地点に複数のカメラを配置する場合がある。複数のカメラを使う場合、それらのカメラの映像にはタイムスタンプがあり、撮影後に同期が取れるようになっている。発声者情報取得部１１０は、撮影後の映像に対して顔検出処理を行い、顔部分の画像を切り出す。また、発声者情報取得部１１０は、一人の人物に対して複数の角度からの画像がある場合、最も正面向きに近い顔画像を選択する。

また、発声者情報取得部１１０は、参加者の会議中の音声を、デジタルカメラに付随するマイクロフォン、又は、部屋の各所に配置されたマイクロフォンにより録音する。また、通信手段を用いて行われる遠隔会議の場合、発声者情報取得部１１０は、画像及び音声を、会議の出席者一人一人が使用している、ｗｅｂカメラ及びヘッドセットによって取得してもよい。この場合、発声者情報取得部１１０は、特別な認識処理を行うことなく、発声者の画像と音声との対応付けが可能である。

音声認識部１２０は、発声者情報取得部１１０により取得された音声に対して音声認識処理を行い、発声者情報取得部１１０により取得された音声を発声毎にテキストデータに変換する。

フレーム記憶部１３０は、音声認識部１２０により認識された発声に対応するテキストデータと、発声者のＩＤと、発声者情報取得部１１０の発声区間に対応する音声と、発声者情報取得部１１０の発声区間に対応する発声者の一連の画像とを関連付けて記憶する。以下では、フレームとは、ある時刻ｔに撮像された画像と、それに紐付いた音声情報、及び生体情報のことと定義する。すなわち、フレーム記憶部１３０は、発声区間毎に、その発声のテキストデータと、発声者のＩＤと、発声区間中の複数のフレームを記憶する。

図２は、フレーム記憶部１３０に記憶されるデータ２００の例を示す図である。データ２００は、発声番号（発声Ｎｏ．）、発声者ＩＤ、１つの発声に対応するテキストデータ、発声区間に対応する発声者の一連の画像、発声区間に対応する音声を含む。例えば、発声Ｎｏ.１２は、発声者ＩＤが２番の発声であり、そのテキストデータは「それはいいアイデアだね」である。発声Ｎｏ.１２を発声している区間に対応するＮ₁₂枚の画像は、画像１２＿２＿１乃至１２＿２＿Ｎ₁₂である。音声１２＿２＿１乃至１２＿２＿Ｎ₁₂は、発声Ｎｏ.１２の画像に対応する音声である。例えば、時刻ｔ＝０からｔ＝１の間に取得された音声情報は、時刻ｔ＝０の時に撮像された画像１２＿２＿１と対応付けられ、音声１２＿２＿１として記憶される。すなわち、画像１２＿２＿１と音声１２＿２＿１の組みが１つのフレームである。フレーム記憶部１３０は、発声者情報取得部１１０により取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴を記憶する。

図２では、生体情報は省略されているが、生体情報を取得した場合は、音声情報と同様の対応付けにより、１つのフレームに組み込むことが可能である。その場合、フレーム記憶部１３０は、発声者情報取得部１１０により取得された発声者の画像、音声及び生体情報を基に、発声区間中の発声者の画像、音声及び生体情報を含む複数のフレームの履歴を記憶する。

発声者情報取得部１１０は、予め参加者の顔画像と音声を登録しておき、顔認証及び声紋認証等の個人認証技術を用いて発声者を同定することにより、発声者のＩＤを付与可能である。また、本実施形態では、発声者情報取得部１１０は、それぞれの発声を発声者の個人名に紐づける必要はなく、同一人物の発声に同じ発声者ＩＤを付与すればよい。従って、発声者情報取得部１１０は、事前に個人の登録を行わずとも、会議中の全てのフレームを取得後に、画像及び音声の特徴の類似度に応じてフレームをクラスタリングし、それぞれのクラスタに属するフレームには同一の発声者ＩＤを付与してもよい。このようなクラスタリングには、下記の文献１に記載のself tuning spectral clustering等を用いることができる。また、前述のように、会議の出席者一人一人がｗｅｂカメラ及びヘッドセットを使用している場合、発声者情報取得部１１０は、特別な認識処理を行うことなく、発声者の画像と音声との対応付けが可能である。

（文献１）Lihi Zelnik-manor, Pietro Perona, "Self-tuning spectral clustering", Advances in Neural Information Processing Systems 17, 2004

図３は、フレーム選択装置１００の処理を示すフローチャートであり、発声者情報取得部１１０により取得された情報がフレーム記憶部１３０に記憶されるまでの処理を示す。まず、ステップＳ１０１では、発声者情報取得部１１０は、会議参加者の顔画像と音声を含む発声者情報を取得する。また、この時、発声者情報取得部１１０は、同時に生体情報も取得することが可能である。次に、ステップＳ１０２では、音声認識部１２０は、発声者情報取得部１１０により取得された音声を発声毎のテキストデータに変換する。次に、ステップＳ１０３では、フレーム記憶部１３０は、ステップＳ１０１において取得された発声者情報、及びステップＳ１０２において変換されたテキストデータを、発声者ＩＤに紐づけて記憶する。なお、ステップＳ１０２では、音声認識部１２０は、会議終了後に全ての音声を対象として変換を行ってもよいし、音声入力時に逐次、変換を行ってもよい。同様に、ステップＳ１０３でも、フレーム記憶部１３０は、予め参加者の顔画像と音声が登録してあれば、新たな発声が入力される毎に逐次的に処理をすることもできるし、会議中の全ての発声者情報の入力が終了してから処理を行うこともできる。

図１において、フレーム選択部１４０は、フレーム記憶部１３０に記憶されたフレームの中から、各発声を代表するフレームを選択する。以下、発声者ＩＤが２番の人物による発声を例として説明する。まず、フレーム選択部１４０は、発声者ＩＤが２番の人物に関連するフレーム全ての画像及び音声の特徴量をクラスタリングする。画像の特徴量を抽出する方法としては、例えば、下記の文献２に記載の方法のように、各フレームの顔画像データから顔特徴点を検出し、検出された顔特徴点周辺の画像パッチを切り出し、Gabor特徴量に変換をする方法がある。また、フレーム選択部１４０は、各フレームに対応する音声データをMel Frequency Cepstrum Coefficient（MFCC）等の音響特徴量に変換をする。

（文献２）Gwen Littlewort, Jacob Whitehill, Tingfan Wu, Ian Fasel, Mark Frank, Javier Movellan, and Marian Bartlett. The Computer Expression Recognition Toolbox (CERT). FG2011, 2011

フレーム選択部１４０は、変換した画像及び音声の特徴量を結合することにより、一つのフレームに対応した特徴ベクトルを生成する。また、フレーム選択部１４０は、それぞれ得られた画像特徴と音声特徴を主成分分析を用いて結合することもできる。下記の文献３には、形状データとテクスチャデータを結合した特徴表現を得る方法が記載されているが、それと同様の方法で、フレーム選択部１４０は、画像特徴と音声特徴を関連付けた新たな特徴表現を生成することができる。

（文献３）T.F. Cootes, G. J. Edwards, and C. J. Taylor. Active appearance models. ECCV, 2:484-498, 1998

発声者ＩＤが２番の画像特徴をｆ、音声特徴をｇとする。ｆ及びｇは、それぞれの主成分を用いて、式（１）のように表すことができる。
ｆ≒ｆ₀＋Ｖ_f×ｐ_f
ｇ≒ｇ₀＋Ｖ_g×ｐ_g ・・・（１）

ここで、ｆ₀は、履歴にある全ての画像特徴の平均である。ｇ₀は、履歴にある全ての音声特徴の平均である。Ｖ_fは、画像特徴の主成分ベクトルである。Ｖ_gは、音声特徴の主成分ベクトルである。ｐ_fは、画像特徴の主成分に対する係数である。ｐ_gは、音声特徴の主成分に対する係数である。ｐ_fの次元がｆの次元よりも小さく、ｐ_gの次元がｇの次元よりも小さくなるように、Ｖ_f及びＶ_gは元のデータの分散の９５％を説明できる次元に打ち切られている。ここで、ｐ_f及びｐ_gを結合したベクトルをｐとする。フレーム選択部１４０は、履歴にある全てのフレームをｐに変換した後に、ｐに関して再び主成分分析を行い、以下の式（２）の主成分ベクトルＱによる表現を生成する。
ｐ≒Ｑ×ｃ・・・（２）

式（１）の場合と同様に、係数ｃの次元がｐの次元よりも小さくなるように、主成分ベクトルＱは打ち切りがされている。

また、フレーム選択部１４０は、下記の文献４に記載のbimodal Deep Autoencoderのように、事前に得られた画像特徴と音声特徴によりDeep Autoencoderを学習してもよい。その場合、フレーム選択部１４０は、認識対象とする画像と音声を入力した際の中間層の出力を、入力画像と入力音声の特徴量表現として扱うことができる。

（文献４）J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee, A.Y. Ng., Multimodal Deep Learning, International Conference on Machine Learning, 2011

フレーム選択部１４０は、これらの処理により、画像特徴と音声特徴を関連付けた新な特徴を生成すると同時に、より小さな次元での特徴表現が可能となる。

図４は、発声者ＩＤが２番の人物のフレームを特徴量空間３００で表現した図である。特徴量空間３００は、顔特徴量（画像特徴量）の軸と音声特徴量の軸で表現される。図４の三角形で示されたデータ３１０乃至３１３は、発声Ｎｏ.が１２番の発声「それはいいアイデアだね」に対応するフレームを特徴量に変換した、特徴量空間３００上の点である。図４の丸で示されたデータは、その他の発声に対応するフレームを特徴量に変換した、特徴量空間３００上の点である。フレーム選択部１４０は、画像の特徴量と音声の特徴量を基に複数のフレームの履歴をクラスタリングすることにより、クラスタ３２０乃至３５０を生成する。クラスタ３２０乃至３５０は、発声者ＩＤが２番の人物のフレームを特徴量空間３００上でクラスタリングすることによって得られたクラスタである。特徴量は、画像と音声の特徴に基づいているので、例えば、クラスタ３２０とクラスタ３３０のように同じ表情の画像だが声色が異なるクラスタや、逆に、声色は同じだが表情が異なるようなクラスタも生成されうる。

クラスタ代表３２１乃至３５１は、クラスタ３２０乃至３５０の代表となるデータ点である。フレーム選択部１４０は、クラスタ代表として、クラスタの中心となるデータを選ぶこともできるし、逆に、クラスタ中心から最も離れたデータを選ぶこともできる。

また、フレーム選択部１４０は、テキストデータの内容をさらに、特徴量空間３００上の特徴として加えてもよい。例えば、フレーム選択部１４０は、発声に対応するテキストデータを形態素解析方法によって単語に分解し、予め登録してあるポジティブな単語とネガティブな単語が含まれる個数を特徴量とすることができる。例えば、「いい」という単語がポジティブな単語として登録されている場合、発声Ｎｏ.が１２番の発声「それはいいアイデアだね」の中にはポジティブな単語が１つ含まれている。発声Ｎｏ.が１２番の発声に含まれる他の単語は中立的な意味であるため、ネガティブな単語の数は０個である。この時のテキストデータの特徴量は、例えば、ポジティブ単語数及びネガティブ単語数として、（１，０）で表現することができる。

また、テキストデータの特徴量は、単一の発声だけでなく、連続する発声に対応するテキストデータに含まれるポジティブな単語とネガティブな単語の数を特徴としてもよい。例えば、発声Ｎｏ.が１２番乃至１５番には、「いい」、「面白い」、「価値はある」というポジティブな意味の単語が３つ、「問題だ」というネガティブな意味の単語が１つ含まれるため、テキストデータの特徴量を（３，１）で表すことができる。この時、発声Ｎｏ.が１２番乃至１５番に対応するテキストデータの特徴量は、全て（３，１）になる。これは、その時間帯の会話が全体としてポジティブであったかネガティブであったかを表現した特徴量である。

これらの音声、画像、テキストデータの特徴に加えて、発声者情報として、発声者の生体情報を取得した場合には、フレーム選択部１４０は、取得した生体情報を適切な特徴量に変換して、フレームを表す特徴量に加えることができる。その場合、フレーム選択部１４０は、画像の特徴量と音声の特徴量とテキストデータの特徴量と生体情報の特徴量を基に複数のフレームの履歴をクラスタリングすることにより、クラスタを生成する。

音声、画像、テキストデータ及び生体情報を結合した特徴量は、部分空間への投射又は埋め込みを用いて生成することができる。また、音声、画像、テキストデータ及び生体情報を結合した特徴量は、ニューラルネットワークを用いて生成することができる。

図５は、フレーム選択装置１００のフレーム選択方法を示すフローチャートであり、発声Ｎｏ.が１２番の発声を代表するフレームの選択方法を示す。まず、ステップＳ１０４では、フレーム選択部１４０は、各クラスタのクラスタ代表と、発声に含まれるデータとの距離を計算する。図４の場合、フレーム選択部１４０は、クラスタ３２０，３３０，３４０，３５０のクラスタ代表３２１，３３１，３４１，３５１とデータ３１０乃至３１３との距離をそれぞれ計算する。

次に、ステップＳ１０５では、フレーム選択部１４０は、上記の計算された距離を基に、最小の距離を取るデータ３１０乃至３１３とクラスタ代表３２１，３３１，３４１，３５１の組みを選ぶ。次に、ステップＳ１０６では、フレーム選択部１４０は、ステップＳ１０５で選択された組みのいずれかに対応するフレームを代表フレームとして選択する。図４の場合、データ３１０とクラスタ代表３２１の距離が最も近い。この時、代表フレームとしては、例えば、データ３１０に対応するフレームを選択することができる。このように選択することで、発声Ｎｏ.が１２番の発声中のフレームから最も代表的なフレームを選択することができる。また、データ３１０の代わりにクラスタ代表３２１に対応するフレームを代表フレームとして選択することもできる。この場合、発声中のフレーム、すなわちデータ３１０に対応するフレームに表れている表情や声色が微細でわかりにくいものであった場合にも、発声者に特有な表情や声色でかつデータ３１０に近い代表的なフレームを選択することができる。

フレーム選択部１４０は、フレーム記憶部１３０に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択する。ステップＳ１０５では、フレーム選択部１４０は、フレーム記憶部１３０に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタと対象の発声区間中の複数のフレームとの間の距離が最も近い第１のクラスタと第１のフレームの組みを探索する。例えば、第１のクラスタはクラスタ３２０であり、第１のフレームはデータ３１０に対応するフレームである。ステップＳ１０６では、フレーム選択部１４０は、その探索された第１のフレーム（データ３１０に対応するフレーム）を選択、又はその探索された第１のクラスタの中のフレーム（クラスタ代表３２１に対応するフレーム）を選択する。

最後に、ステップＳ１０７では、画像出力部１６０、音声出力部１５０及びテキスト出力部１７０は、フレーム選択部１４０により選択されたフレームに対応する画像と、対象の発声区間中の音声及び音声のテキストデータをそれぞれ出力する。例えば、画像出力部１６０及びテキスト出力部１７０は、画像及び音声のテキストデータを表示する。音声出力部１５０は、音声を再生する。

音声出力部１５０は、発声に対応する音声を出力する。例えば、発声Ｎｏ.の１２番が対象であれば、音声出力部１５０は、発声Ｎｏ.が１２番の発声区間に発声された一連の音声、すなわち音声１２＿２＿１乃至１２＿２＿Ｎ₁₂を出力する。

画像出力部１６０は、フレーム選択部１４０により選択されたフレームに対応する顔画像を出力する。例えば、フレーム選択部１４０によってデータ３１０に対応するフレームが選択された場合、画像出力部１６０は、データ３１０に対応するフレームの顔画像を出力する。また、データ３１０に対応する顔画像ではなく、データ３１０に最も近いクラスタ３２０のクラスタ代表３２１に対応するフレームの顔画像を出力することもできる。

さらに、画像出力部１６０は、下記の文献５に記載の方法を用いて、データ３１０に対応するフレームの顔画像を基にして得られた顔の変形データを、ＣＧキャラクタ（コンピュータグラフィック画像）に適用して表示することもできる。

（文献５）Chen Cao, Qiming Hou, Kun Zhou. Displaced Dynamic Expression Regression for Real-time Facial Tracking and Animation. ACM Transactions on Graphics (SIGGRAPH), 2014

また、画像出力部１６０は、データ３１０に対応するフレームの顔画像に対して、モーフィング技術を用いて、表情の強調や修正をしてから、その補正画像を表示してもよい。テキスト出力部１７０は、発声Ｎｏ.が１２番に対応するフレームのテキストデータ「それはいいアイデアだね」を出力（表示）する。以上のように、画像出力部１６０は、フレーム選択部１４０により選択されたフレームの画像に対応する補正画像又はコンピュータグラフィック画像を出力してもよい。

図６は、音声出力部１５０、画像出力部１６０、テキスト出力部１７０が出力する出力画面４００の表示例を示す図である。画像４１０乃至４４０は、それぞれ発声Ｎｏ.が１２番乃至１５番に対応する。画像出力部１６０は、フレーム選択部１４０により選択されたフレームに基づいて、画像４１０乃至４４０を表示する。画像４１０、画像４２０及び画像４４０は、発声者の顔画像であり、前述のように、発声中の顔画像から表示することもできるし、選択されたクラスタ代表の代表画像を用いることもできる。また、画像４３０は、発声者の顔画像から得られた顔形状データを別のキャラクタに適用して表示したものである。また、画像４１０がクリックされると、音声出力部１５０は、発声Ｎｏ.が１２番の「それはいいアイデアだね」を発声した際の音声を再生することができる。

（第２の実施形態）
図７は、本発明の第２の実施形態によるフレーム選択装置１００の使用例を示す図である。フレーム選択装置１００は、モバイルデバイス５１０及びリストバンド５２０を有する。本実施形態では、スマートフォン等のモバイルデバイス５１０で会話をしている際の会話ログの生成を行うフレーム選択装置１００の説明を行う。以下、本実施形態が第１の実施形態と異なる点を説明する。

使用者５３０は、モバイルデバイス５１０を用いて、使用者５３０の友人とビデオ映像と音声により会話を行っている。モバイルデバイス５１０は、ディスプレイとスピーカーを有し、通話相手の映像がディスプレイに表示され、同時に音声を聞くことができる。ディスプレイは画像出力部１６０及びテキスト出力部１７０に対応し、スピーカーは音声出力部１５０に対応する。

モバイルデバイス５１０は、デジタルカメラとマイクロフォンを有し、使用者５３０の顔画像と音声が同時に取得できる。デジタルカメラとマイクロフォンは、発声者情報取得部１１０に対応する。リストバンド５２０は、発声者情報取得部１１０に対応し、脈拍（生体情報）を計測することができる。リストバンド５２０は、脈拍のデータを、無線通信手段を用いて、モバイルデバイス５１０に送信する。モバイルデバイス５１０は、脈拍のデータを、使用者５３０の顔画像と音声に対応付けて保存する。また、モバイルデバイス５１０は、使用者毎のログインにより使用され、それぞれの使用者の過去の会話時の顔画像と音声データと脈拍の履歴を個別に、モバイルデバイス５１０本体、又はネットワーク上のストレージに保存する。

モバイルデバイス５１０及びリストバンド５２０の構成は、図１のフレーム選択装置１００の構成と同様である。以下、本実施形態が第１の実施形態と異なる部分に関して説明を行う。

フレーム記憶部１３０は、モバイルデバイス５１０の使用者５３０及び使用者５３０と通話をした人物の過去の会話時の顔画像と音声データと脈拍の履歴を、図２のデータ２００と同様の形式で保存する。また、フレーム記憶部１３０は、通話時に新しく取得されるデータも同様の形式で逐次保存する。

フレーム選択部１４０は、使用者５３０の過去の履歴データに基づいて、図４に示すようなクラスタ３２０，３３０，３４０，３５０を生成する。次に、フレーム選択部１４０は、例えば、クラスタ３２０のデータをポジティブサンプル、それ以外のデータをネガティブサンプルとするような識別器を学習する。識別器としては、例えばSupport Vector Machine（ＳＶＭ）等を用いることができる。フレーム選択部１４０は、他のクラスタに関しても同様に、それぞれのクラスタに対応する識別器を学習する。識別器の学習は、通話開始前に行っておくことが可能である。

通話が開始されると、発声者情報取得部１１０は、使用者５３０の音声、顔画像、及び脈拍を取得する。フレーム記憶部１３０は、その取得された使用者５３０の音声、顔画像、及び脈拍を保存する。フレーム選択部１４０は、その音声、顔画像、及び脈拍の特徴量を抽出し、特徴量空間３００上のデータを生成する。例えば、新規に取得された発声に対応するデータが特徴量空間３００においてデータ３１０乃至３１３であったとする。フレーム選択部１４０は、データ３１０に対して、クラスタ３２０乃至３５０に対応する識別器のそれぞれのスコアＳＣＲを算出する。スコアＳＣＲは、例えば、式（３）のように、ＳＶＭのdecision functionの値を基にsigmoid関数によって疑似確率として表すことで得られる。ここで、Ａ及びＢは係数であり、ｆ（ｘ）はＳＶＭのdecision functionである。
ＳＣＲ＝１／｛１＋ｅｘｐ（Ａ×ｆ（ｘ）＋Ｂ）｝・・・（３）

図８は、クラス３２０の識別器、クラスタ３３０の識別器、クラスタ３４０の識別器及びクラスタ３５０の識別器により算出されたデータ３１０乃至３１３のスコアＳＣＲの例を示す図である。この場合、クラスタ３２０に対応する識別器が算出したデータ３１０のスコアが最も高いため、フレーム選択部１４０は、データ３１０とクラスタ３２０の対をまず選択する。そして、フレーム選択部１４０は、データ３１０に対応するフレーム、又はデータ３１０が属すると判定されたクラスタ、この例ではクラスタ３２０、のクラスタ代表３２１に対応するフレームを選択する。

図９は、本実施形態によるフレーム選択装置１００のフレーム選択方法を示すフローチャートである。発声者情報取得部１１０は、図３のステップＳ１０１乃至Ｓ１０３と同様に、通話者５３０の過去の通話における映像、音声、及び脈拍を取得する。フレーム記憶部１３０は、発声者情報取得部１１０により取得された映像、音声、及び脈拍を関連付けて記憶している。

ステップＳ２０１では、フレーム選択部１４０は、フレーム記憶部１３０に記憶されている過去の履歴をクラスタ化し、各クラスタの識別器を学習する。次に、ステップＳ２０２では、モバイルデバイス５１０は、使用者５３０による通話を開始する。次に、ステップＳ２０３では、モバイルデバイス５１０及びリストバンド５２０は、使用者５３０の顔画像、音声、及び脈拍を取得する。次に、ステップＳ２０４では、フレーム選択部１４０は、発声区間中のデータに対して、各クラスタに対応する識別器のそれぞれのスコアを算出する。次に、ステップＳ２０５では、フレーム選択部１４０は、ステップＳ２０４で得られたスコアが、発声区間中で最大となるデータに対応するフレーム、又はそのスコアに対応するクラスタのクラスタ代表に対応するフレームのいずれかを選択する。最後に、ステップＳ２０６では、画像出力部１６０、音声出力部１５０及びテキスト出力部１７０は、ステップＳ２０５において選択されたフレームに対応する顔画像と、対象の発声区間中の音声及びテキストデータを出力する。顔画像及びテキストデータは、画面に表示される。

以上のように、ステップＳ２０１では、フレーム選択部１４０は、フレーム記憶部１３０に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの識別器を学習する。ステップＳ２０４では、フレーム選択部１４０は、対象の発声区間中の複数のフレームに対する複数のクラスタの識別器のスコアを算出する。ステップＳ２０５では、フレーム選択部１４０は、そのスコアが最大となる第１のフレームと第１のクラススタの組みを探索する。例えば、第１のフレームはデータ３１０に対応するフレームであり、第１のクラスタはクラスタ３２０である。そして、フレーム選択部１４０は、その探索された第１のフレーム（データ３１０に対応するフレーム）を選択、又はその探索された第１のクラスタの中のフレーム（クラスタ代表３２１に対応するフレーム）を選択する。

（第３の実施形態）
本発明の第３の実施形態によるフレーム選択装置１００を説明する。フレーム選択部１４０は、ＳＶＭによる識別ではなく、k Nearest Neighbor法（ｋＮＮ法）を用いて、データが属しているクラスタの判別を行うことができる。フレーム選択部１４０は、ＳＶＭを使う場合と異なり、事前に識別器を学習しておく必要がない。まず、フレーム選択部１４０は、データ３１０がどのクラスタに属するかをｋＮＮ法により判定する。次に、フレーム選択部１４０は、データ３１０が属すると判定されたクラスタの中で最も近いサンプルデータとの距離をデータ３１０のスコアとする。フレーム選択部１４０は、同様の処理を、残りのデータ３１１乃至３１３にも行い、それぞれのデータのスコアを算出する。この場合、スコアは小さい方がよい値である。最後に、フレーム選択部１４０は、データ３１０乃至３１３のスコアを比較し、最もよいスコア、すなわち最小となるスコアに対応するデータと、そのスコアに対応するサンプルデータを決定する。図４の例では、データ３１０とサンプルデータ３２２は、スコアが最も良いデータとサンプルデータの対である。

第３の実施形態では、フレーム選択部１４０は、データ３１０に対応するフレームを選択し出力する。また、フレーム選択部１４０は、データ３１０が属すると判定されたクラスタ、この例ではクラスタ３２０、のクラスタ代表３２１に対応するフレームを選択することもできる。さらに、フレーム選択部１４０は、クラスタ３２０の中で最もデータ３１０と距離が近いサンプルデータ３２２に対応するフレームを選択することもできる。また、フレーム選択部１４０は、これらの候補となるフレームの顔画像を、下記の文献６に記載の画質判定方法によって、画質を判定し、最も画質のよい顔画像に対応するフレームを選択することもできる。

（文献６）A. Mittal, A. K. Moorthy and A. C. Bovik, "No-Reference Image Quality Assessment in the Spatial Domain", IEEE Transactions on ImageProcessing, 2012

図１０は、本実施形態によるフレーム選択装置１００のフレーム選択方法を示すフローチャートである。発声者情報取得部１１０は、図３のステップＳ１０１乃至Ｓ１０３と同様に、通話者５３０の過去の通話における映像、音声、及び脈拍を取得する。フレーム記憶部１３０は、発声者情報取得部１１０により取得された映像、音声、及び脈拍を関連付けて記憶している。

ステップＳ３０１では、フレーム選択部１４０は、使用者５３０の過去の履歴をクラスタリングしておく。次に、ステップＳ３０２では、モバイルデバイス５１０は、使用者５３０による通話を開始する。次に、ステップＳ３０３では、モバイルデバイス５１０及びリストバンド５２０は、使用者５３０の顔画像、音声、及び脈拍を取得する。次に、ステップＳ３０４では、フレーム選択部１４０は、発声区間中のデータのそれぞれが属するクラスタをｋＮＮ法により求める。ステップＳ３０５では、フレーム選択部１４０は、発声区間中のデータのうちでスコアが最も良いデータに対応するフレーム、又はそれに対応するクラスタ内のデータに対応するフレーム、又はそのクラスタのクラスタ代表に対応するフレームのいずれかを選択する。最後に、ステップＳ３０６では、画像出力部１６０、音声出力部１５０及びテキスト出力部１７０は、ステップＳ３０５において選択されたフレームに対応する顔画像と、対象の発声区間中の音声及びテキストデータを出力する。顔画像及びテキストデータは、画面に表示される。

以上のように、ステップＳ３０４では、フレーム選択部１４０は、フレーム記憶部１３０に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの中で、対象の発声区間中の複数のフレームがそれぞれ属するクラスタを判別する。ステップＳ３０５では、複数のフレームと複数のフレームがそれぞれ属するクラスタとの距離が最も近い第１のフレームと第１のクラスタの組みを探索する。例えば、第１のフレームはデータ３１０に対応するフレームであり、第１のクラスタはクラスタ３２０である。フレーム選択部１４０は、その探索された第１のフレーム（データ３１０に対応するフレーム）を選択、又はその探索された第１のクラスタの中のフレーム（データ３２２又はクラスタ代表３２１に対応するフレーム）を選択する。

図１１は、画像出力部１６０及びテキスト出力部１７０により表示される表示画面６００の例を示す図である。画像出力部１６０は、画像６１０及び６２０を表示する。画像６１０は、使用者５３０が「今、時間ある？」を発声している際の代表的な顔画像である。また、画像６２０は、通話相手が「どうしたの、急に？」を発声している際の代表的な顔画像である。例えば、通話相手のモバイルデバイス５１０もフレーム選択装置１００を備えていれば、通話相手のモバイルデバイス５１０が選択した顔画像を使用者５３０のモバイルデバイス５１０に送信する。これにより、使用者５３０のモバイルデバイス５１０は、通話相手の画像６２０を得ることができる。また、過去に通話したことのある通話相手であれば、使用者５３０のモバイルデバイス５１０は、その履歴を記録しておき、使用者５３０の顔画像を選択したのと同様の手順で、通話相手の顔画像を選択することができる。

（第４の実施形態）
本発明の第４の実施形態によるフレーム選択装置１００は、インタビュー動画等を紙芝居的に伝えることにより、データ容量削減効果を得ることができる。フレーム選択装置１００は、インタビュー等の人物同士が対話をしているような動画から、発声中の様子を代表するような画像を選択し、テキストデータ化した発声と発声時の音声とを共に提示する。このように、動画全てではなく、発声を代表する静止画を選択することで、データ容量を削減し、通信環境が悪い状況やデータ容量が少ないデバイス等でも、対話の雰囲気を損なうことなく、コンテンツを楽しめる。

本実施形態のフレーム選択装置１００の構成は、図１のフレーム選択装置１００の構成と同様である。以下、本実施形態が第１乃至第３の実施形態と異なる部分に関して説明を行う。

発声者情報取得部１１０は、デジタルカメラとマイクロフォンを有し、映像と音声を取得する。また、発声者情報取得部１１０は、事前に撮影された音声付き動画を入力してもよい。

フレーム記憶部１３０は、第１の実施形態と同様に、図２のデータ２００のように、発声者ＩＤ、発声に対応するテキストデータ、発声区間に対応する音声、発声区間に対応する一連の画像を記憶する。フレーム記憶部１３０は、発声者の画像に加えて、発声者を含む画面全体の全体画像を記憶する。

フレーム選択部１４０は、第１の実施形態と同様の方法でフレームの選択を行う。すなわち、フレーム選択部１４０は、発声者の画像、発声区間の音声、発声に対応するテキストデータの特徴量を特徴量空間３００上のデータとして表し、発声中のフレームの中で代表的なフレームを選択する。

音声出力部１５０、画像出力部１６０及びテキスト出力部１７０は、フレーム選択部１４０により選択されたフレームに対応する全体画像と、対象の発声区間中の音声及びテキストデータを出力する。図１２は、表示画面７００の一例を示す図である。画像出力部１６０は、発声者を含む全体画像を表示画面７００に表示する。テキスト出力部１７０は、対象の発声区間中の音声のテキストデータを表示画面７００に表示する。音声出力部１５０は、対象の発声区間中の音声を再生する。テキストデータと音声は、両方出力することもできるし、いずれか片方のみを出力してもよい。

第１〜第４の実施形態によれば、発言の雰囲気を表す、発言者個人に固有の非言語的情報を伝える好適な画像を選択することができる。また、特定の感情にカテゴライズされない、発声者個人に特有の非言語的表現を含んだ画像を選択することができ、発声の真意を正しく伝えることができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

なお、上記実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１００フレーム選択装置、１１０発声者情報取得部、１２０音声認識部、１３０フレーム記憶部、１４０フレーム選択部、１５０音声出力部、１６０画像出力部、１７０テキスト出力部

Claims

発声者の画像及び音声を取得する発声者情報取得部と、
前記発声者情報取得部により取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴を記憶するフレーム記憶部と、
前記フレーム記憶部に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択するフレーム選択部と、
前記フレーム選択部により選択されたフレームに対応する画像と前記対象の発声区間中の音声を出力する出力部と
を有することを特徴とするフレーム選択装置。
前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタと対象の発声区間中の複数のフレームとの間の距離が最も近い第１のクラスタと第１のフレームの組みを探索し、前記探索された第１のフレームを選択することを特徴とする請求項１に記載のフレーム選択装置。
前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタと対象の発声区間中の複数のフレームとの間の距離が最も近い第１のクラスタと第１のフレームの組みを探索し、前記探索された第１のクラスタの中のフレームを選択することを特徴とする請求項１に記載のフレーム選択装置。
前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの識別器を学習し、対象の発声区間中の複数のフレームに対する前記複数のクラスタの識別器のスコアを算出し、前記スコアが最大となる第１のフレームと第１のクラススタの組みを探索し、前記探索された第１のフレームを選択することを特徴とする請求項１に記載のフレーム選択装置。
前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの識別器を学習し、対象の発声区間中の複数のフレームに対する前記複数のクラスタの識別器のスコアを算出し、前記スコアが最大となる第１のフレームと第１のクラススタの組みを探索し、前記探索された第１のクラスタの中のフレームを選択することを特徴とする請求項１に記載のフレーム選択装置。
前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの中で、対象の発声区間中の複数のフレームがそれぞれ属するクラスタを判別し、前記複数のフレームと前記複数のフレームがそれぞれ属するクラスタとの距離が最も近い第１のフレームと第１のクラススタの組みを探索し、前記探索された第１のフレームを選択することを特徴とする請求項１に記載のフレーム選択装置。
前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの中で、対象の発声区間中の複数のフレームがそれぞれ属するクラスタを判別し、前記複数のフレームと前記複数のフレームがそれぞれ属するクラスタとの距離が最も近い第１のフレームと第１のクラススタの組みを探索し、前記探索された第１のクラスタの中のフレームを選択することを特徴とする請求項１に記載のフレーム選択装置。
前記フレーム選択部は、画像の特徴量と音声の特徴量を基に前記複数のフレームの履歴をクラスタリングすることを特徴とする請求項２乃至７のいずれか１項に記載のフレーム選択装置。
前記発声者情報取得部は、発声者の画像、音声及び生体情報を取得し、
前記フレーム記憶部は、前記発声者情報取得部により取得された発声者の画像、音声及び生体情報を基に、発声区間中の発声者の画像、音声及び生体情報を含む複数のフレームの履歴を記憶し、
前記フレーム選択部は、画像の特徴量と音声の特徴量と生体情報の特徴量を基に前記複数のフレームの履歴をクラスタリングすることを特徴とする請求項２乃至７のいずれか１項に記載のフレーム選択装置。
前記フレーム記憶部は、前記発声者の画像の他に、前記発声者を含む全体画像を含むフレームを記憶し、
前記出力部は、前記フレーム選択部により選択されたフレームの全体画像を出力することを特徴とする請求項１乃至９のいずれか１項に記載のフレーム選択装置。
前記出力部は、画像を表示し、音声を再生し、音声のテキストデータを表示することを特徴とする請求項１乃至１０のいずれか１項に記載のフレーム選択装置。
前記出力部は、前記フレーム選択部により選択されたフレームの画像に対応する補正画像又はコンピュータグラフィック画像を出力することを特徴とする請求項１乃至１１のいずれか１項に記載のフレーム選択装置。
発声者情報取得部が、発声者の画像及び音声を取得する発声者情報取得ステップと、
フレーム記憶部が、前記取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴を記憶するフレーム記憶ステップと、
フレーム選択部が、前記フレーム記憶部に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択するフレーム選択ステップと、
出力部が、前記選択されたフレームに対応する画像と前記対象の発声区間中の音声を出力する出力ステップと
を有することを特徴とするフレーム選択方法。
発声者の画像及び音声を取得する発声者情報取得ステップと、
前記取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴をフレーム記憶部に記憶するフレーム記憶ステップと、
前記フレーム記憶部に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択するフレーム選択ステップと、
前記選択されたフレームに対応する画像と前記対象の発声区間中の音声を出力する出力ステップと
をコンピュータに実行させるためのプログラム。