JP2018063352A - フレーム選択装置、フレーム選択方法及びプログラム - Google Patents
フレーム選択装置、フレーム選択方法及びプログラム Download PDFInfo
- Publication number
- JP2018063352A JP2018063352A JP2016201600A JP2016201600A JP2018063352A JP 2018063352 A JP2018063352 A JP 2018063352A JP 2016201600 A JP2016201600 A JP 2016201600A JP 2016201600 A JP2016201600 A JP 2016201600A JP 2018063352 A JP2018063352 A JP 2018063352A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- image
- speaker
- unit
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】発声者の雰囲気を表す適切な画像を選択することができるフレーム選択装置を提供することを課題とする。【解決手段】フレーム選択装置は、発声者の画像及び音声を取得する発声者情報取得部(110)と、前記発声者情報取得部により取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴を記憶するフレーム記憶部(130)と、前記フレーム記憶部に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択するフレーム選択部(140)と、前記フレーム選択部により選択されたフレームに対応する画像と前記対象の発声区間中の音声を出力する出力部(150乃至170)とを有する。【選択図】図1
Description
本発明は、フレーム選択装置、フレーム選択方法及びプログラムに関する。
動画中の発声シーンを記録し、記録内容を表示する方法が知られている。例えば、特許文献1には、撮像手段より撮像された発言者のサムネイル顔画像を生成し、音声認識により文字符号化列に変換された、一区切りされた発言内容のヘッダーとして、発言に付加して表示する方法が開示されている。また、特許文献2には、会議において発言者の発言内容と当該発言が挙がったときの発言者を含めた会議の出席者の推定された感情とを記録した議事録を生成する方法が開示されている。
しかし、特許文献1では、発言者が発言をしている際には表情が変化をするため、発言の雰囲気やニュアンスを伝えるための好適な表情の静止画像を選ぶ方法が必要である。また、特許文献2では、特定の感情にカテゴライズされない非言語的情報や、発言者個人に固有の非言語的情報をとらえることはできない。また、感情の表出が乏しい個人に対しては、感情を推定することが困難である。
本発明の目的は、発声者の雰囲気を表す適切な画像を選択することができるフレーム選択装置、フレーム選択方法及びプログラムを提供することである。
本発明のフレーム選択装置は、発声者の画像及び音声を取得する発声者情報取得部と、前記発声者情報取得部により取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴を記憶するフレーム記憶部と、前記フレーム記憶部に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択するフレーム選択部と、前記フレーム選択部により選択されたフレームに対応する画像と前記対象の発声区間中の音声を出力する出力部とを有する。
本発明によれば、発声者の雰囲気を表す適切な画像を選択することができる。
(第1の実施形態)
図1は、本発明の第1の実施形態によるフレーム選択装置100の構成例を示す図である。フレーム選択装置100は、会議中の議事録を自動で生成する会議議事録生成装置である。フレーム選択装置100は、発声者情報取得部110と、音声認識部120と、フレーム記憶部130と、フレーム選択部140と、音声出力部150と、画像出力部160と、テキスト出力部170とを有する。
図1は、本発明の第1の実施形態によるフレーム選択装置100の構成例を示す図である。フレーム選択装置100は、会議中の議事録を自動で生成する会議議事録生成装置である。フレーム選択装置100は、発声者情報取得部110と、音声認識部120と、フレーム記憶部130と、フレーム選択部140と、音声出力部150と、画像出力部160と、テキスト出力部170とを有する。
発声者情報取得部110は、会議の参加者(発声者)の顔画像及び音声を含む動画に加えて、参加者の脈拍、心電、発汗、体温等の生体情報を取得する。なお、発声者情報取得部110は、最小限の構成として、顔画像と音声のみを取得してもよい。
発声者情報取得部110は、会議の参加者の顔画像をデジタルカメラによって取得する。会議参加者の顔が撮像可能であるように、例えば、参加者が囲む机の中央に全周囲映像を撮影するカメラを配置する場合や、部屋の複数地点に複数のカメラを配置する場合がある。複数のカメラを使う場合、それらのカメラの映像にはタイムスタンプがあり、撮影後に同期が取れるようになっている。発声者情報取得部110は、撮影後の映像に対して顔検出処理を行い、顔部分の画像を切り出す。また、発声者情報取得部110は、一人の人物に対して複数の角度からの画像がある場合、最も正面向きに近い顔画像を選択する。
また、発声者情報取得部110は、参加者の会議中の音声を、デジタルカメラに付随するマイクロフォン、又は、部屋の各所に配置されたマイクロフォンにより録音する。また、通信手段を用いて行われる遠隔会議の場合、発声者情報取得部110は、画像及び音声を、会議の出席者一人一人が使用している、webカメラ及びヘッドセットによって取得してもよい。この場合、発声者情報取得部110は、特別な認識処理を行うことなく、発声者の画像と音声との対応付けが可能である。
音声認識部120は、発声者情報取得部110により取得された音声に対して音声認識処理を行い、発声者情報取得部110により取得された音声を発声毎にテキストデータに変換する。
フレーム記憶部130は、音声認識部120により認識された発声に対応するテキストデータと、発声者のIDと、発声者情報取得部110の発声区間に対応する音声と、発声者情報取得部110の発声区間に対応する発声者の一連の画像とを関連付けて記憶する。以下では、フレームとは、ある時刻tに撮像された画像と、それに紐付いた音声情報、及び生体情報のことと定義する。すなわち、フレーム記憶部130は、発声区間毎に、その発声のテキストデータと、発声者のIDと、発声区間中の複数のフレームを記憶する。
図2は、フレーム記憶部130に記憶されるデータ200の例を示す図である。データ200は、発声番号(発声No.)、発声者ID、1つの発声に対応するテキストデータ、発声区間に対応する発声者の一連の画像、発声区間に対応する音声を含む。例えば、発声No.12は、発声者IDが2番の発声であり、そのテキストデータは「それはいいアイデアだね」である。発声No.12を発声している区間に対応するN12枚の画像は、画像12_2_1乃至12_2_N12である。音声12_2_1乃至12_2_N12は、発声No.12の画像に対応する音声である。例えば、時刻t=0からt=1の間に取得された音声情報は、時刻t=0の時に撮像された画像12_2_1と対応付けられ、音声12_2_1として記憶される。すなわち、画像12_2_1と音声12_2_1の組みが1つのフレームである。フレーム記憶部130は、発声者情報取得部110により取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴を記憶する。
図2では、生体情報は省略されているが、生体情報を取得した場合は、音声情報と同様の対応付けにより、1つのフレームに組み込むことが可能である。その場合、フレーム記憶部130は、発声者情報取得部110により取得された発声者の画像、音声及び生体情報を基に、発声区間中の発声者の画像、音声及び生体情報を含む複数のフレームの履歴を記憶する。
発声者情報取得部110は、予め参加者の顔画像と音声を登録しておき、顔認証及び声紋認証等の個人認証技術を用いて発声者を同定することにより、発声者のIDを付与可能である。また、本実施形態では、発声者情報取得部110は、それぞれの発声を発声者の個人名に紐づける必要はなく、同一人物の発声に同じ発声者IDを付与すればよい。従って、発声者情報取得部110は、事前に個人の登録を行わずとも、会議中の全てのフレームを取得後に、画像及び音声の特徴の類似度に応じてフレームをクラスタリングし、それぞれのクラスタに属するフレームには同一の発声者IDを付与してもよい。このようなクラスタリングには、下記の文献1に記載のself tuning spectral clustering等を用いることができる。また、前述のように、会議の出席者一人一人がwebカメラ及びヘッドセットを使用している場合、発声者情報取得部110は、特別な認識処理を行うことなく、発声者の画像と音声との対応付けが可能である。
(文献1)Lihi Zelnik-manor, Pietro Perona, "Self-tuning spectral clustering", Advances in Neural Information Processing Systems 17, 2004
図3は、フレーム選択装置100の処理を示すフローチャートであり、発声者情報取得部110により取得された情報がフレーム記憶部130に記憶されるまでの処理を示す。まず、ステップS101では、発声者情報取得部110は、会議参加者の顔画像と音声を含む発声者情報を取得する。また、この時、発声者情報取得部110は、同時に生体情報も取得することが可能である。次に、ステップS102では、音声認識部120は、発声者情報取得部110により取得された音声を発声毎のテキストデータに変換する。次に、ステップS103では、フレーム記憶部130は、ステップS101において取得された発声者情報、及びステップS102において変換されたテキストデータを、発声者IDに紐づけて記憶する。なお、ステップS102では、音声認識部120は、会議終了後に全ての音声を対象として変換を行ってもよいし、音声入力時に逐次、変換を行ってもよい。同様に、ステップS103でも、フレーム記憶部130は、予め参加者の顔画像と音声が登録してあれば、新たな発声が入力される毎に逐次的に処理をすることもできるし、会議中の全ての発声者情報の入力が終了してから処理を行うこともできる。
図1において、フレーム選択部140は、フレーム記憶部130に記憶されたフレームの中から、各発声を代表するフレームを選択する。以下、発声者IDが2番の人物による発声を例として説明する。まず、フレーム選択部140は、発声者IDが2番の人物に関連するフレーム全ての画像及び音声の特徴量をクラスタリングする。画像の特徴量を抽出する方法としては、例えば、下記の文献2に記載の方法のように、各フレームの顔画像データから顔特徴点を検出し、検出された顔特徴点周辺の画像パッチを切り出し、Gabor特徴量に変換をする方法がある。また、フレーム選択部140は、各フレームに対応する音声データをMel Frequency Cepstrum Coefficient(MFCC)等の音響特徴量に変換をする。
(文献2)Gwen Littlewort, Jacob Whitehill, Tingfan Wu, Ian Fasel, Mark Frank, Javier Movellan, and Marian Bartlett. The Computer Expression Recognition Toolbox (CERT). FG2011, 2011
フレーム選択部140は、変換した画像及び音声の特徴量を結合することにより、一つのフレームに対応した特徴ベクトルを生成する。また、フレーム選択部140は、それぞれ得られた画像特徴と音声特徴を主成分分析を用いて結合することもできる。下記の文献3には、形状データとテクスチャデータを結合した特徴表現を得る方法が記載されているが、それと同様の方法で、フレーム選択部140は、画像特徴と音声特徴を関連付けた新たな特徴表現を生成することができる。
(文献3)T.F. Cootes, G. J. Edwards, and C. J. Taylor. Active appearance models. ECCV, 2:484-498, 1998
発声者IDが2番の画像特徴をf、音声特徴をgとする。f及びgは、それぞれの主成分を用いて、式(1)のように表すことができる。
f≒f0+Vf×pf
g≒g0+Vg×pg ・・・(1)
f≒f0+Vf×pf
g≒g0+Vg×pg ・・・(1)
ここで、f0は、履歴にある全ての画像特徴の平均である。g0は、履歴にある全ての音声特徴の平均である。Vfは、画像特徴の主成分ベクトルである。Vgは、音声特徴の主成分ベクトルである。pfは、画像特徴の主成分に対する係数である。pgは、音声特徴の主成分に対する係数である。pfの次元がfの次元よりも小さく、pgの次元がgの次元よりも小さくなるように、Vf及びVgは元のデータの分散の95%を説明できる次元に打ち切られている。ここで、pf及びpgを結合したベクトルをpとする。フレーム選択部140は、履歴にある全てのフレームをpに変換した後に、pに関して再び主成分分析を行い、以下の式(2)の主成分ベクトルQによる表現を生成する。
p≒Q×c ・・・(2)
p≒Q×c ・・・(2)
式(1)の場合と同様に、係数cの次元がpの次元よりも小さくなるように、主成分ベクトルQは打ち切りがされている。
また、フレーム選択部140は、下記の文献4に記載のbimodal Deep Autoencoderのように、事前に得られた画像特徴と音声特徴によりDeep Autoencoderを学習してもよい。その場合、フレーム選択部140は、認識対象とする画像と音声を入力した際の中間層の出力を、入力画像と入力音声の特徴量表現として扱うことができる。
(文献4)J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee, A.Y. Ng., Multimodal Deep Learning, International Conference on Machine Learning, 2011
フレーム選択部140は、これらの処理により、画像特徴と音声特徴を関連付けた新な特徴を生成すると同時に、より小さな次元での特徴表現が可能となる。
図4は、発声者IDが2番の人物のフレームを特徴量空間300で表現した図である。特徴量空間300は、顔特徴量(画像特徴量)の軸と音声特徴量の軸で表現される。図4の三角形で示されたデータ310乃至313は、発声No.が12番の発声「それはいいアイデアだね」に対応するフレームを特徴量に変換した、特徴量空間300上の点である。図4の丸で示されたデータは、その他の発声に対応するフレームを特徴量に変換した、特徴量空間300上の点である。フレーム選択部140は、画像の特徴量と音声の特徴量を基に複数のフレームの履歴をクラスタリングすることにより、クラスタ320乃至350を生成する。クラスタ320乃至350は、発声者IDが2番の人物のフレームを特徴量空間300上でクラスタリングすることによって得られたクラスタである。特徴量は、画像と音声の特徴に基づいているので、例えば、クラスタ320とクラスタ330のように同じ表情の画像だが声色が異なるクラスタや、逆に、声色は同じだが表情が異なるようなクラスタも生成されうる。
クラスタ代表321乃至351は、クラスタ320乃至350の代表となるデータ点である。フレーム選択部140は、クラスタ代表として、クラスタの中心となるデータを選ぶこともできるし、逆に、クラスタ中心から最も離れたデータを選ぶこともできる。
また、フレーム選択部140は、テキストデータの内容をさらに、特徴量空間300上の特徴として加えてもよい。例えば、フレーム選択部140は、発声に対応するテキストデータを形態素解析方法によって単語に分解し、予め登録してあるポジティブな単語とネガティブな単語が含まれる個数を特徴量とすることができる。例えば、「いい」という単語がポジティブな単語として登録されている場合、発声No.が12番の発声「それはいいアイデアだね」の中にはポジティブな単語が1つ含まれている。発声No.が12番の発声に含まれる他の単語は中立的な意味であるため、ネガティブな単語の数は0個である。この時のテキストデータの特徴量は、例えば、ポジティブ単語数及びネガティブ単語数として、(1,0)で表現することができる。
また、テキストデータの特徴量は、単一の発声だけでなく、連続する発声に対応するテキストデータに含まれるポジティブな単語とネガティブな単語の数を特徴としてもよい。例えば、発声No.が12番乃至15番には、「いい」、「面白い」、「価値はある」というポジティブな意味の単語が3つ、「問題だ」というネガティブな意味の単語が1つ含まれるため、テキストデータの特徴量を(3,1)で表すことができる。この時、発声No.が12番乃至15番に対応するテキストデータの特徴量は、全て(3,1)になる。これは、その時間帯の会話が全体としてポジティブであったかネガティブであったかを表現した特徴量である。
これらの音声、画像、テキストデータの特徴に加えて、発声者情報として、発声者の生体情報を取得した場合には、フレーム選択部140は、取得した生体情報を適切な特徴量に変換して、フレームを表す特徴量に加えることができる。その場合、フレーム選択部140は、画像の特徴量と音声の特徴量とテキストデータの特徴量と生体情報の特徴量を基に複数のフレームの履歴をクラスタリングすることにより、クラスタを生成する。
音声、画像、テキストデータ及び生体情報を結合した特徴量は、部分空間への投射又は埋め込みを用いて生成することができる。また、音声、画像、テキストデータ及び生体情報を結合した特徴量は、ニューラルネットワークを用いて生成することができる。
図5は、フレーム選択装置100のフレーム選択方法を示すフローチャートであり、発声No.が12番の発声を代表するフレームの選択方法を示す。まず、ステップS104では、フレーム選択部140は、各クラスタのクラスタ代表と、発声に含まれるデータとの距離を計算する。図4の場合、フレーム選択部140は、クラスタ320,330,340,350のクラスタ代表321,331,341,351とデータ310乃至313との距離をそれぞれ計算する。
次に、ステップS105では、フレーム選択部140は、上記の計算された距離を基に、最小の距離を取るデータ310乃至313とクラスタ代表321,331,341,351の組みを選ぶ。次に、ステップS106では、フレーム選択部140は、ステップS105で選択された組みのいずれかに対応するフレームを代表フレームとして選択する。図4の場合、データ310とクラスタ代表321の距離が最も近い。この時、代表フレームとしては、例えば、データ310に対応するフレームを選択することができる。このように選択することで、発声No.が12番の発声中のフレームから最も代表的なフレームを選択することができる。また、データ310の代わりにクラスタ代表321に対応するフレームを代表フレームとして選択することもできる。この場合、発声中のフレーム、すなわちデータ310に対応するフレームに表れている表情や声色が微細でわかりにくいものであった場合にも、発声者に特有な表情や声色でかつデータ310に近い代表的なフレームを選択することができる。
フレーム選択部140は、フレーム記憶部130に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択する。ステップS105では、フレーム選択部140は、フレーム記憶部130に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタと対象の発声区間中の複数のフレームとの間の距離が最も近い第1のクラスタと第1のフレームの組みを探索する。例えば、第1のクラスタはクラスタ320であり、第1のフレームはデータ310に対応するフレームである。ステップS106では、フレーム選択部140は、その探索された第1のフレーム(データ310に対応するフレーム)を選択、又はその探索された第1のクラスタの中のフレーム(クラスタ代表321に対応するフレーム)を選択する。
最後に、ステップS107では、画像出力部160、音声出力部150及びテキスト出力部170は、フレーム選択部140により選択されたフレームに対応する画像と、対象の発声区間中の音声及び音声のテキストデータをそれぞれ出力する。例えば、画像出力部160及びテキスト出力部170は、画像及び音声のテキストデータを表示する。音声出力部150は、音声を再生する。
音声出力部150は、発声に対応する音声を出力する。例えば、発声No.の12番が対象であれば、音声出力部150は、発声No.が12番の発声区間に発声された一連の音声、すなわち音声12_2_1乃至12_2_N12を出力する。
画像出力部160は、フレーム選択部140により選択されたフレームに対応する顔画像を出力する。例えば、フレーム選択部140によってデータ310に対応するフレームが選択された場合、画像出力部160は、データ310に対応するフレームの顔画像を出力する。また、データ310に対応する顔画像ではなく、データ310に最も近いクラスタ320のクラスタ代表321に対応するフレームの顔画像を出力することもできる。
さらに、画像出力部160は、下記の文献5に記載の方法を用いて、データ310に対応するフレームの顔画像を基にして得られた顔の変形データを、CGキャラクタ(コンピュータグラフィック画像)に適用して表示することもできる。
(文献5)Chen Cao, Qiming Hou, Kun Zhou. Displaced Dynamic Expression Regression for Real-time Facial Tracking and Animation. ACM Transactions on Graphics (SIGGRAPH), 2014
また、画像出力部160は、データ310に対応するフレームの顔画像に対して、モーフィング技術を用いて、表情の強調や修正をしてから、その補正画像を表示してもよい。テキスト出力部170は、発声No.が12番に対応するフレームのテキストデータ「それはいいアイデアだね」を出力(表示)する。以上のように、画像出力部160は、フレーム選択部140により選択されたフレームの画像に対応する補正画像又はコンピュータグラフィック画像を出力してもよい。
図6は、音声出力部150、画像出力部160、テキスト出力部170が出力する出力画面400の表示例を示す図である。画像410乃至440は、それぞれ発声No.が12番乃至15番に対応する。画像出力部160は、フレーム選択部140により選択されたフレームに基づいて、画像410乃至440を表示する。画像410、画像420及び画像440は、発声者の顔画像であり、前述のように、発声中の顔画像から表示することもできるし、選択されたクラスタ代表の代表画像を用いることもできる。また、画像430は、発声者の顔画像から得られた顔形状データを別のキャラクタに適用して表示したものである。また、画像410がクリックされると、音声出力部150は、発声No.が12番の「それはいいアイデアだね」を発声した際の音声を再生することができる。
(第2の実施形態)
図7は、本発明の第2の実施形態によるフレーム選択装置100の使用例を示す図である。フレーム選択装置100は、モバイルデバイス510及びリストバンド520を有する。本実施形態では、スマートフォン等のモバイルデバイス510で会話をしている際の会話ログの生成を行うフレーム選択装置100の説明を行う。以下、本実施形態が第1の実施形態と異なる点を説明する。
図7は、本発明の第2の実施形態によるフレーム選択装置100の使用例を示す図である。フレーム選択装置100は、モバイルデバイス510及びリストバンド520を有する。本実施形態では、スマートフォン等のモバイルデバイス510で会話をしている際の会話ログの生成を行うフレーム選択装置100の説明を行う。以下、本実施形態が第1の実施形態と異なる点を説明する。
使用者530は、モバイルデバイス510を用いて、使用者530の友人とビデオ映像と音声により会話を行っている。モバイルデバイス510は、ディスプレイとスピーカーを有し、通話相手の映像がディスプレイに表示され、同時に音声を聞くことができる。ディスプレイは画像出力部160及びテキスト出力部170に対応し、スピーカーは音声出力部150に対応する。
モバイルデバイス510は、デジタルカメラとマイクロフォンを有し、使用者530の顔画像と音声が同時に取得できる。デジタルカメラとマイクロフォンは、発声者情報取得部110に対応する。リストバンド520は、発声者情報取得部110に対応し、脈拍(生体情報)を計測することができる。リストバンド520は、脈拍のデータを、無線通信手段を用いて、モバイルデバイス510に送信する。モバイルデバイス510は、脈拍のデータを、使用者530の顔画像と音声に対応付けて保存する。また、モバイルデバイス510は、使用者毎のログインにより使用され、それぞれの使用者の過去の会話時の顔画像と音声データと脈拍の履歴を個別に、モバイルデバイス510本体、又はネットワーク上のストレージに保存する。
モバイルデバイス510及びリストバンド520の構成は、図1のフレーム選択装置100の構成と同様である。以下、本実施形態が第1の実施形態と異なる部分に関して説明を行う。
フレーム記憶部130は、モバイルデバイス510の使用者530及び使用者530と通話をした人物の過去の会話時の顔画像と音声データと脈拍の履歴を、図2のデータ200と同様の形式で保存する。また、フレーム記憶部130は、通話時に新しく取得されるデータも同様の形式で逐次保存する。
フレーム選択部140は、使用者530の過去の履歴データに基づいて、図4に示すようなクラスタ320,330,340,350を生成する。次に、フレーム選択部140は、例えば、クラスタ320のデータをポジティブサンプル、それ以外のデータをネガティブサンプルとするような識別器を学習する。識別器としては、例えばSupport Vector Machine(SVM)等を用いることができる。フレーム選択部140は、他のクラスタに関しても同様に、それぞれのクラスタに対応する識別器を学習する。識別器の学習は、通話開始前に行っておくことが可能である。
通話が開始されると、発声者情報取得部110は、使用者530の音声、顔画像、及び脈拍を取得する。フレーム記憶部130は、その取得された使用者530の音声、顔画像、及び脈拍を保存する。フレーム選択部140は、その音声、顔画像、及び脈拍の特徴量を抽出し、特徴量空間300上のデータを生成する。例えば、新規に取得された発声に対応するデータが特徴量空間300においてデータ310乃至313であったとする。フレーム選択部140は、データ310に対して、クラスタ320乃至350に対応する識別器のそれぞれのスコアSCRを算出する。スコアSCRは、例えば、式(3)のように、SVMのdecision functionの値を基にsigmoid関数によって疑似確率として表すことで得られる。ここで、A及びBは係数であり、f(x)はSVMのdecision functionである。
SCR=1/{1+exp(A×f(x)+B)} ・・・(3)
SCR=1/{1+exp(A×f(x)+B)} ・・・(3)
図8は、クラス320の識別器、クラスタ330の識別器、クラスタ340の識別器及びクラスタ350の識別器により算出されたデータ310乃至313のスコアSCRの例を示す図である。この場合、クラスタ320に対応する識別器が算出したデータ310のスコアが最も高いため、フレーム選択部140は、データ310とクラスタ320の対をまず選択する。そして、フレーム選択部140は、データ310に対応するフレーム、又はデータ310が属すると判定されたクラスタ、この例ではクラスタ320、のクラスタ代表321に対応するフレームを選択する。
図9は、本実施形態によるフレーム選択装置100のフレーム選択方法を示すフローチャートである。発声者情報取得部110は、図3のステップS101乃至S103と同様に、通話者530の過去の通話における映像、音声、及び脈拍を取得する。フレーム記憶部130は、発声者情報取得部110により取得された映像、音声、及び脈拍を関連付けて記憶している。
ステップS201では、フレーム選択部140は、フレーム記憶部130に記憶されている過去の履歴をクラスタ化し、各クラスタの識別器を学習する。次に、ステップS202では、モバイルデバイス510は、使用者530による通話を開始する。次に、ステップS203では、モバイルデバイス510及びリストバンド520は、使用者530の顔画像、音声、及び脈拍を取得する。次に、ステップS204では、フレーム選択部140は、発声区間中のデータに対して、各クラスタに対応する識別器のそれぞれのスコアを算出する。次に、ステップS205では、フレーム選択部140は、ステップS204で得られたスコアが、発声区間中で最大となるデータに対応するフレーム、又はそのスコアに対応するクラスタのクラスタ代表に対応するフレームのいずれかを選択する。最後に、ステップS206では、画像出力部160、音声出力部150及びテキスト出力部170は、ステップS205において選択されたフレームに対応する顔画像と、対象の発声区間中の音声及びテキストデータを出力する。顔画像及びテキストデータは、画面に表示される。
以上のように、ステップS201では、フレーム選択部140は、フレーム記憶部130に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの識別器を学習する。ステップS204では、フレーム選択部140は、対象の発声区間中の複数のフレームに対する複数のクラスタの識別器のスコアを算出する。ステップS205では、フレーム選択部140は、そのスコアが最大となる第1のフレームと第1のクラススタの組みを探索する。例えば、第1のフレームはデータ310に対応するフレームであり、第1のクラスタはクラスタ320である。そして、フレーム選択部140は、その探索された第1のフレーム(データ310に対応するフレーム)を選択、又はその探索された第1のクラスタの中のフレーム(クラスタ代表321に対応するフレーム)を選択する。
(第3の実施形態)
本発明の第3の実施形態によるフレーム選択装置100を説明する。フレーム選択部140は、SVMによる識別ではなく、k Nearest Neighbor法(kNN法)を用いて、データが属しているクラスタの判別を行うことができる。フレーム選択部140は、SVMを使う場合と異なり、事前に識別器を学習しておく必要がない。まず、フレーム選択部140は、データ310がどのクラスタに属するかをkNN法により判定する。次に、フレーム選択部140は、データ310が属すると判定されたクラスタの中で最も近いサンプルデータとの距離をデータ310のスコアとする。フレーム選択部140は、同様の処理を、残りのデータ311乃至313にも行い、それぞれのデータのスコアを算出する。この場合、スコアは小さい方がよい値である。最後に、フレーム選択部140は、データ310乃至313のスコアを比較し、最もよいスコア、すなわち最小となるスコアに対応するデータと、そのスコアに対応するサンプルデータを決定する。図4の例では、データ310とサンプルデータ322は、スコアが最も良いデータとサンプルデータの対である。
本発明の第3の実施形態によるフレーム選択装置100を説明する。フレーム選択部140は、SVMによる識別ではなく、k Nearest Neighbor法(kNN法)を用いて、データが属しているクラスタの判別を行うことができる。フレーム選択部140は、SVMを使う場合と異なり、事前に識別器を学習しておく必要がない。まず、フレーム選択部140は、データ310がどのクラスタに属するかをkNN法により判定する。次に、フレーム選択部140は、データ310が属すると判定されたクラスタの中で最も近いサンプルデータとの距離をデータ310のスコアとする。フレーム選択部140は、同様の処理を、残りのデータ311乃至313にも行い、それぞれのデータのスコアを算出する。この場合、スコアは小さい方がよい値である。最後に、フレーム選択部140は、データ310乃至313のスコアを比較し、最もよいスコア、すなわち最小となるスコアに対応するデータと、そのスコアに対応するサンプルデータを決定する。図4の例では、データ310とサンプルデータ322は、スコアが最も良いデータとサンプルデータの対である。
第3の実施形態では、フレーム選択部140は、データ310に対応するフレームを選択し出力する。また、フレーム選択部140は、データ310が属すると判定されたクラスタ、この例ではクラスタ320、のクラスタ代表321に対応するフレームを選択することもできる。さらに、フレーム選択部140は、クラスタ320の中で最もデータ310と距離が近いサンプルデータ322に対応するフレームを選択することもできる。また、フレーム選択部140は、これらの候補となるフレームの顔画像を、下記の文献6に記載の画質判定方法によって、画質を判定し、最も画質のよい顔画像に対応するフレームを選択することもできる。
(文献6)A. Mittal, A. K. Moorthy and A. C. Bovik, "No-Reference Image Quality Assessment in the Spatial Domain", IEEE Transactions on ImageProcessing, 2012
図10は、本実施形態によるフレーム選択装置100のフレーム選択方法を示すフローチャートである。発声者情報取得部110は、図3のステップS101乃至S103と同様に、通話者530の過去の通話における映像、音声、及び脈拍を取得する。フレーム記憶部130は、発声者情報取得部110により取得された映像、音声、及び脈拍を関連付けて記憶している。
ステップS301では、フレーム選択部140は、使用者530の過去の履歴をクラスタリングしておく。次に、ステップS302では、モバイルデバイス510は、使用者530による通話を開始する。次に、ステップS303では、モバイルデバイス510及びリストバンド520は、使用者530の顔画像、音声、及び脈拍を取得する。次に、ステップS304では、フレーム選択部140は、発声区間中のデータのそれぞれが属するクラスタをkNN法により求める。ステップS305では、フレーム選択部140は、発声区間中のデータのうちでスコアが最も良いデータに対応するフレーム、又はそれに対応するクラスタ内のデータに対応するフレーム、又はそのクラスタのクラスタ代表に対応するフレームのいずれかを選択する。最後に、ステップS306では、画像出力部160、音声出力部150及びテキスト出力部170は、ステップS305において選択されたフレームに対応する顔画像と、対象の発声区間中の音声及びテキストデータを出力する。顔画像及びテキストデータは、画面に表示される。
以上のように、ステップS304では、フレーム選択部140は、フレーム記憶部130に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの中で、対象の発声区間中の複数のフレームがそれぞれ属するクラスタを判別する。ステップS305では、複数のフレームと複数のフレームがそれぞれ属するクラスタとの距離が最も近い第1のフレームと第1のクラスタの組みを探索する。例えば、第1のフレームはデータ310に対応するフレームであり、第1のクラスタはクラスタ320である。フレーム選択部140は、その探索された第1のフレーム(データ310に対応するフレーム)を選択、又はその探索された第1のクラスタの中のフレーム(データ322又はクラスタ代表321に対応するフレーム)を選択する。
図11は、画像出力部160及びテキスト出力部170により表示される表示画面600の例を示す図である。画像出力部160は、画像610及び620を表示する。画像610は、使用者530が「今、時間ある?」を発声している際の代表的な顔画像である。また、画像620は、通話相手が「どうしたの、急に?」を発声している際の代表的な顔画像である。例えば、通話相手のモバイルデバイス510もフレーム選択装置100を備えていれば、通話相手のモバイルデバイス510が選択した顔画像を使用者530のモバイルデバイス510に送信する。これにより、使用者530のモバイルデバイス510は、通話相手の画像620を得ることができる。また、過去に通話したことのある通話相手であれば、使用者530のモバイルデバイス510は、その履歴を記録しておき、使用者530の顔画像を選択したのと同様の手順で、通話相手の顔画像を選択することができる。
(第4の実施形態)
本発明の第4の実施形態によるフレーム選択装置100は、インタビュー動画等を紙芝居的に伝えることにより、データ容量削減効果を得ることができる。フレーム選択装置100は、インタビュー等の人物同士が対話をしているような動画から、発声中の様子を代表するような画像を選択し、テキストデータ化した発声と発声時の音声とを共に提示する。このように、動画全てではなく、発声を代表する静止画を選択することで、データ容量を削減し、通信環境が悪い状況やデータ容量が少ないデバイス等でも、対話の雰囲気を損なうことなく、コンテンツを楽しめる。
本発明の第4の実施形態によるフレーム選択装置100は、インタビュー動画等を紙芝居的に伝えることにより、データ容量削減効果を得ることができる。フレーム選択装置100は、インタビュー等の人物同士が対話をしているような動画から、発声中の様子を代表するような画像を選択し、テキストデータ化した発声と発声時の音声とを共に提示する。このように、動画全てではなく、発声を代表する静止画を選択することで、データ容量を削減し、通信環境が悪い状況やデータ容量が少ないデバイス等でも、対話の雰囲気を損なうことなく、コンテンツを楽しめる。
本実施形態のフレーム選択装置100の構成は、図1のフレーム選択装置100の構成と同様である。以下、本実施形態が第1乃至第3の実施形態と異なる部分に関して説明を行う。
発声者情報取得部110は、デジタルカメラとマイクロフォンを有し、映像と音声を取得する。また、発声者情報取得部110は、事前に撮影された音声付き動画を入力してもよい。
フレーム記憶部130は、第1の実施形態と同様に、図2のデータ200のように、発声者ID、発声に対応するテキストデータ、発声区間に対応する音声、発声区間に対応する一連の画像を記憶する。フレーム記憶部130は、発声者の画像に加えて、発声者を含む画面全体の全体画像を記憶する。
フレーム選択部140は、第1の実施形態と同様の方法でフレームの選択を行う。すなわち、フレーム選択部140は、発声者の画像、発声区間の音声、発声に対応するテキストデータの特徴量を特徴量空間300上のデータとして表し、発声中のフレームの中で代表的なフレームを選択する。
音声出力部150、画像出力部160及びテキスト出力部170は、フレーム選択部140により選択されたフレームに対応する全体画像と、対象の発声区間中の音声及びテキストデータを出力する。図12は、表示画面700の一例を示す図である。画像出力部160は、発声者を含む全体画像を表示画面700に表示する。テキスト出力部170は、対象の発声区間中の音声のテキストデータを表示画面700に表示する。音声出力部150は、対象の発声区間中の音声を再生する。テキストデータと音声は、両方出力することもできるし、いずれか片方のみを出力してもよい。
第1〜第4の実施形態によれば、発言の雰囲気を表す、発言者個人に固有の非言語的情報を伝える好適な画像を選択することができる。また、特定の感情にカテゴライズされない、発声者個人に特有の非言語的表現を含んだ画像を選択することができ、発声の真意を正しく伝えることができる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
なお、上記実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
100 フレーム選択装置、110 発声者情報取得部、120 音声認識部、130 フレーム記憶部、140 フレーム選択部、150 音声出力部、160 画像出力部、170 テキスト出力部
Claims (14)
- 発声者の画像及び音声を取得する発声者情報取得部と、
前記発声者情報取得部により取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴を記憶するフレーム記憶部と、
前記フレーム記憶部に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択するフレーム選択部と、
前記フレーム選択部により選択されたフレームに対応する画像と前記対象の発声区間中の音声を出力する出力部と
を有することを特徴とするフレーム選択装置。 - 前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタと対象の発声区間中の複数のフレームとの間の距離が最も近い第1のクラスタと第1のフレームの組みを探索し、前記探索された第1のフレームを選択することを特徴とする請求項1に記載のフレーム選択装置。
- 前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタと対象の発声区間中の複数のフレームとの間の距離が最も近い第1のクラスタと第1のフレームの組みを探索し、前記探索された第1のクラスタの中のフレームを選択することを特徴とする請求項1に記載のフレーム選択装置。
- 前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの識別器を学習し、対象の発声区間中の複数のフレームに対する前記複数のクラスタの識別器のスコアを算出し、前記スコアが最大となる第1のフレームと第1のクラススタの組みを探索し、前記探索された第1のフレームを選択することを特徴とする請求項1に記載のフレーム選択装置。
- 前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの識別器を学習し、対象の発声区間中の複数のフレームに対する前記複数のクラスタの識別器のスコアを算出し、前記スコアが最大となる第1のフレームと第1のクラススタの組みを探索し、前記探索された第1のクラスタの中のフレームを選択することを特徴とする請求項1に記載のフレーム選択装置。
- 前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの中で、対象の発声区間中の複数のフレームがそれぞれ属するクラスタを判別し、前記複数のフレームと前記複数のフレームがそれぞれ属するクラスタとの距離が最も近い第1のフレームと第1のクラススタの組みを探索し、前記探索された第1のフレームを選択することを特徴とする請求項1に記載のフレーム選択装置。
- 前記フレーム選択部は、前記フレーム記憶部に記憶されている複数のフレームの履歴をクラスタリングした複数のクラスタの中で、対象の発声区間中の複数のフレームがそれぞれ属するクラスタを判別し、前記複数のフレームと前記複数のフレームがそれぞれ属するクラスタとの距離が最も近い第1のフレームと第1のクラススタの組みを探索し、前記探索された第1のクラスタの中のフレームを選択することを特徴とする請求項1に記載のフレーム選択装置。
- 前記フレーム選択部は、画像の特徴量と音声の特徴量を基に前記複数のフレームの履歴をクラスタリングすることを特徴とする請求項2乃至7のいずれか1項に記載のフレーム選択装置。
- 前記発声者情報取得部は、発声者の画像、音声及び生体情報を取得し、
前記フレーム記憶部は、前記発声者情報取得部により取得された発声者の画像、音声及び生体情報を基に、発声区間中の発声者の画像、音声及び生体情報を含む複数のフレームの履歴を記憶し、
前記フレーム選択部は、画像の特徴量と音声の特徴量と生体情報の特徴量を基に前記複数のフレームの履歴をクラスタリングすることを特徴とする請求項2乃至7のいずれか1項に記載のフレーム選択装置。 - 前記フレーム記憶部は、前記発声者の画像の他に、前記発声者を含む全体画像を含むフレームを記憶し、
前記出力部は、前記フレーム選択部により選択されたフレームの全体画像を出力することを特徴とする請求項1乃至9のいずれか1項に記載のフレーム選択装置。 - 前記出力部は、画像を表示し、音声を再生し、音声のテキストデータを表示することを特徴とする請求項1乃至10のいずれか1項に記載のフレーム選択装置。
- 前記出力部は、前記フレーム選択部により選択されたフレームの画像に対応する補正画像又はコンピュータグラフィック画像を出力することを特徴とする請求項1乃至11のいずれか1項に記載のフレーム選択装置。
- 発声者情報取得部が、発声者の画像及び音声を取得する発声者情報取得ステップと、
フレーム記憶部が、前記取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴を記憶するフレーム記憶ステップと、
フレーム選択部が、前記フレーム記憶部に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択するフレーム選択ステップと、
出力部が、前記選択されたフレームに対応する画像と前記対象の発声区間中の音声を出力する出力ステップと
を有することを特徴とするフレーム選択方法。 - 発声者の画像及び音声を取得する発声者情報取得ステップと、
前記取得された発声者の画像及び音声を基に、発声区間中の発声者の画像及び音声を含む複数のフレームの履歴をフレーム記憶部に記憶するフレーム記憶ステップと、
前記フレーム記憶部に記憶されている複数のフレームの中から対象の発声区間に対応するフレームを選択するフレーム選択ステップと、
前記選択されたフレームに対応する画像と前記対象の発声区間中の音声を出力する出力ステップと
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016201600A JP2018063352A (ja) | 2016-10-13 | 2016-10-13 | フレーム選択装置、フレーム選択方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016201600A JP2018063352A (ja) | 2016-10-13 | 2016-10-13 | フレーム選択装置、フレーム選択方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018063352A true JP2018063352A (ja) | 2018-04-19 |
Family
ID=61966694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016201600A Pending JP2018063352A (ja) | 2016-10-13 | 2016-10-13 | フレーム選択装置、フレーム選択方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018063352A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023105887A1 (ja) * | 2021-12-07 | 2023-06-15 | 株式会社Abelon | 情報処理装置、情報処理方法、および記録媒体 |
-
2016
- 2016-10-13 JP JP2016201600A patent/JP2018063352A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023105887A1 (ja) * | 2021-12-07 | 2023-06-15 | 株式会社Abelon | 情報処理装置、情報処理方法、および記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
JP6042015B1 (ja) | オンライン面接評価装置、方法およびプログラム | |
JP4604173B2 (ja) | 遠隔会議・教育システム | |
WO2019206186A1 (zh) | 唇语识别方法及其装置、增强现实设备以及存储介质 | |
JP2016051081A (ja) | 音源分離装置、及び音源分離方法 | |
JP2007147762A (ja) | 発話者予測装置および発話者予測方法 | |
JP2012014394A (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
JP7279494B2 (ja) | 会議支援装置、および会議支援システム | |
WO2010010736A1 (ja) | 会議画像生成方法、会議システム、サーバ装置及び会議装置等 | |
JP2011186521A (ja) | 感情推定装置および感情推定方法 | |
JP2010176544A (ja) | 会議支援装置 | |
JP2006279111A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2010109898A (ja) | 撮影制御装置、撮影制御方法及びプログラム | |
JP7204337B2 (ja) | 会議支援装置、会議支援システム、会議支援方法及びプログラム | |
JP4775961B2 (ja) | 映像を用いた発音の推定方法 | |
JP2018063352A (ja) | フレーム選択装置、フレーム選択方法及びプログラム | |
JP2021076715A (ja) | 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム | |
JP7420166B2 (ja) | 音声認識システム、音声認識方法、及び音声処理装置 | |
JP7347511B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP2023117068A (ja) | 音声認識装置、音声認識方法、音声認識プログラム、音声認識システム | |
CN115731917A (zh) | 语音数据处理方法、模型训练方法、装置及存储介质 | |
JP7396590B2 (ja) | 発話者判別方法、発話者判別プログラム、及び、発話者判別装置 | |
TWI712032B (zh) | 語音轉換虛擬臉部影像的方法 | |
CN105096943B (zh) | 信号处理的方法与装置 |