JP7483532B2

JP7483532B2 - キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム

Info

Publication number: JP7483532B2
Application number: JP2020115682A
Authority: JP
Inventors: 勇太萩尾; 豊金子
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2024-05-15
Anticipated expiration: 2040-07-03
Also published as: JP2022013256A

Description

本発明は、ロボットが発話するキーワードを抽出するための装置、方法及びプログラムに関する。

従来、人と一緒にテレビなどを視聴するロボットが番組の内容に沿った発話をする技術が研究されている。このようなロボットは、番組情報から所定の規則に従って、キーワードを抽出している。

例えば、特許文献１では、番組の字幕文からキーワードを抽出する手法が提案されている。また、非特許文献１では、映像から物体を検出すると同時に、検出した物体の顕著性を推定し、物体の顕著性に応じてキーワードを抽出する手法が提案されている。
また、これらの手法の他、例えば、音声認識、人物認識、オブジェクト認識、文字認識などのクラウドサービスも並列して利用することにより、適切なキーワードを抽出する試みが行われている。

特開２０１８－１９００７７号公報

萩尾勇太他，"人とロボットの共時視聴実験に向けたコミュニケーションロボットの設計と試作"，２０１９年映像情報メディア学会年次大会．

しかしながら、複数の方法により抽出されたキーワードのうち、どのキーワードが番組内容に適しているかを判断することは難しく、従来は、得られたキーワードの中からランダムに利用されていた。
また、顕著性を利用することで番組の内容に適した物体が選択されることが期待できるものの、検出可能な物体の種類は、数百クラス程度に限られており、この結果、同じキーワードばかりが抽出され、同じ発話文ばかりが生成されてしまう。

本発明は、映像と関連したキーワードを適切に抽出できるキーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラムを提供することを目的とする。

本発明に係るキーワード抽出装置は、映像に伴う入力文から、キーワードデータベースに登録されている単語をキーワード候補語として抽出するキーワード候補語抽出部と、前記入力文における前記キーワード候補語をマスクしたマスク文を生成するマスク文生成部と、前記マスク文において、マスクされた箇所の前記キーワード候補語を推定した単語毎の推定値を学習モデルにより算出するマスク推定部と、前記映像から検出された物体のクラス名を出力する物体決定部と、前記マスク推定部により算出された前記マスクされた箇所の前記単語毎の推定値に基づいて、前記クラス名と前記マスクされた箇所それぞれの前記キーワード候補語との関連度スコアを算出する関連度スコア算出部と、前記関連度スコアが最も高い前記キーワード候補語を、前記映像に関連するキーワードとして出力するキーワード出力部と、を備える。

前記マスク推定部は、前記マスク文に過去の入力文を加えた文章において、前記推定値を算出してもよい。

前記マスク文生成部は、前記入力文に含まれる前記キーワード候補語の一つのみをマスクしたマスク文を、当該キーワード候補語の数だけ生成し、前記マスク推定部は、前記マスク文を一つのみ含む文章において、前記単語毎の推定値を算出してもよい。

前記マスク文生成部は、前記映像から物体が検出されるタイミングで、直近の前記入力文から前記マスク文を生成してもよい。

前記キーワード出力部は、前記関連度スコアの最大値が所定の閾値に満たない場合、前記映像に関連するキーワードを出力しなくてもよい。

前記キーワード抽出装置は、学習モデルにより前記映像の各画素に対して、顕著性スコアを付与する顕著性推定部を備え、前記物体決定部は、前記映像から検出された複数の物体のうち、前記顕著性スコアに基づく評価が最も高い領域にある物体のクラス名を出力してもよい。

前記キーワード抽出装置は、ユーザの視点位置の座標が付加されたカメラ画像を、前記映像と照合することにより、前記映像の各画素に対して、所定の分布の注視点スコアを付与する視点位置推定部を備え、前記物体決定部は、前記映像から検出された複数の物体のうち、前記注視点スコアに基づく評価が最も高い領域にある物体のクラス名を出力してもよい。

前記関連度スコア算出部は、前記クラス名に対する分散表現ベクトルと、前記推定値が上位の所定数の単語それぞれの分散表現ベクトルとのコサイン類似度を算出し、平均値を前記関連度スコアとして算出してもよい。

前記関連度スコア算出部は、前記クラス名に対応して予め登録されている複数の代表オブジェクト名それぞれについて同一単語の前記推定値を取得し、平均値を前記関連度スコアとして算出してもよい。

本発明に係るキーワード抽出方法は、映像に伴う入力文から、キーワードデータベースに登録されている単語をキーワード候補語として抽出するキーワード候補語抽出ステップと、前記入力文における前記キーワード候補語をマスクしたマスク文を生成するマスク文生成ステップと、前記マスク文において、マスクされた箇所の前記キーワード候補語を推定した単語毎の推定値を学習モデルにより算出するマスク推定ステップと、前記映像から検出された物体のクラス名を出力する物体決定ステップと、前記マスク推定部により算出された前記マスクされた箇所の前記単語毎の推定値に基づいて、前記クラス名と前記マスクされた箇所それぞれの前記キーワード候補語との関連度スコアを算出する関連度スコア算出ステップと、前記関連度スコアが最も高い前記キーワード候補語を、前記映像に関連するキーワードとして出力するキーワード出力ステップと、をコンピュータが実行する。

本発明に係るキーワード抽出プログラムは、前記キーワード抽出装置としてコンピュータを機能させるためのものである。

本発明によれば、映像と関連したキーワードを適切に抽出できる。

第１実施形態におけるキーワード抽出装置の機能構成を示す図である。第１実施形態におけるキーワード抽出方法の流れを例示するフローチャートである。第１実施形態におけるキーワード候補語と検出された物体との関係を例示する図である。第１実施形態における関連度スコアによるキーワードの決定手順を例示する図である。第２実施形態におけるキーワード抽出方法の流れを例示するフローチャートである。第３実施形態におけるキーワード抽出装置の機能構成を示す図である。

［第１実施形態］
以下、本発明の第１実施形態について説明する。
第１実施形態では、人間と一緒にテレビなどの映像を伴う放送番組を視聴するロボットなどに組み込まれ、発話生成に利用されるキーワード抽出装置１を提供する。
キーワード抽出装置１は、放送番組の映像から検出された物体の中から最も顕著性の高い物体を抽出すると共に、音声又は字幕文などからキーワード候補語を抽出し、最も顕著性の高い物体とキーワード候補語との関連度スコアをランキングすることで、映像と関連のあるキーワードを出力する。

図１は、本実施形態におけるキーワード抽出装置１の機能構成を示す図である。
キーワード抽出装置１は、制御部及び記憶部の他、各種インタフェースを備えた情報処理装置であり、記憶部に格納されたソフトウェア（キーワード抽出プログラム）を制御部が実行することにより、本実施形態の各種機能が実現される。

キーワード抽出装置１の制御部は、キーワード候補語抽出部１１と、マスク文生成部１２と、マスク推定部１３と、顕著性推定部１４と、物体検出部１５と、高顕著性物体決定部１６（物体決定部）と、関連度スコア算出部１７と、キーワード出力部１８とを備える。

また、キーワード抽出装置１の記憶部は、キーワード抽出プログラムの他、キーワードデータベース（ＤＢ）２１と、入力文メモリ２２と、単語推定モデル２３と、顕著性推定モデル２４と、物体検出モデル２５と、分散表現ベクトルデータベース（ＤＢ）２６とを備える。

キーワード候補語抽出部１１は、映像に伴って入力された字幕文、又はテレビ音声の認識結果などの入力文を単語に分割する。その後、キーワード候補語抽出部１１は、分割した単語群の中に、予め用意しておいたキーワードＤＢ２１に登録されている単語が存在するかを確認し、存在する場合、この単語を「キーワード候補語」として抽出し、入力文と対応付けて入力文メモリ２２に格納する。

マスク文生成部１２は、後段のマスク推定部１３に対する入力の上限（例えば、５１２語）以内で入力文メモリ２２から直近の入力文を含む文章を取り出し、直近の入力文におけるキーワード候補語を所定の文字列（例えば、［ＭＡＳＫ］）に置き換えることでマスクしたマスク文を生成する。
なお、この処理は、物体検出部１５の処理と同期したタイミングで定期的に（例えば、５秒程度の周期で）実行される。

このとき、マスク文生成部１２は、直近の入力文に含まれるキーワード候補語の一つのみをマスクしたマスク文を生成し、入力文にキーワード候補語が複数存在する場合は、その数だけ複数パターンの変換を行い、複数のマスク文を生成する。
その後、マスク文生成部１２は、複数の入力文からなる文章、キーワード候補語、及びマスク文をマスク推定部１３に提供する。

マスク推定部１３は、マスク文を含む文章において、マスクされた箇所のキーワード候補語を推定した単語毎の推定値を、学習済みの単語推定モデル２３により算出する。
単語推定モデル２３は、例えば、予め事前学習を行ったＢＥＲＴモデルであってよく、事前学習タスクである「ＭａｓｋｅｄＬＭ」により、マスクされた文章中の単語が周りの文章から推定される。なお、ＢＥＲＴモデルは、次の文献Ａで提案されており、推定結果は、モデルのボキャブラリに含まれる各単語（例えば、３００００語程度）の推定値（０～１の値であり、全ての単語の推定値を合計すると１）のリストとなる。

文献Ａ：Ｊ．Ｄｅｖｌｉｎｅｔａｌ．， “ＢＥＲＴ：Ｐｒｅ－ｔｒａｉｎｉｎｇｏｆＤｅｅｐＢｉｄｉｒｅｃｔｉｏｎａｌＴｒａｎｓｆｏｒｍｅｒｓｆｏｒＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ”，ＮＡＡＣＬ－ＨＬＴ２０１９．

ここで、マスク推定部１３は、複数のマスク文が入力された場合に、各マスク文を順に処理する。
すなわち、マスク推定部１３は、マスク文を一つのみ含む文章において、マスク箇所を推定した単語毎の推定値を算出する。

顕著性推定部１４は、入力映像のキャプチャ画像に対して、予め学習済みの顕著性推定モデル２４を利用して顕著性推定処理を実行する。
顕著性推定モデル２４は、例えば、文献Ｂで提案されている生理学的なモデルを計算機実装した手法、又は文献Ｃで提案されているディープラーニングを用いた手法が適用可能であり、出力として、キャプチャ画像の各画素に対して０～１の範囲で推定された顕著性スコアが付与される。

文献Ｂ：Ｌ．Ｉｔｔｉｅｔａｌ．， “Ａｍｏｄｅｌｏｆｓａｌｉｅｎｃｙ－ｂａｓｅｄｖｉｓｕａｌａｔｔｅｎｔｉｏｎｆｏｒｒａｐｉｄｓｃｅｎｅａｎａｌｙｓｉｓ”，ＰＡＭＩ１９９８．
文献Ｃ：Ｑ．Ｈｏｕｅｔａｌ．， “ＤｅｅｐｌｙＳｕｐｅｒｖｉｓｅｄＳａｌｉｅｎｔＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＳｈｏｒｔＣｏｎｎｅｃｔｉｏｎｓ”，ＰＡＭＩ２０１９．

物体検出部１５は、入力映像のキャプチャ画像に対して、予め学習済みの物体検出モデル２５を利用して物体検出処理を定期的に（例えば、５秒程度の周期で）実行する。
物体検出モデル２５は、例えば、文献Ｄ、Ｅ、Ｆで提案されている学習手法が適用可能であり、出力として、検出された複数の物体それぞれの座標情報（矩形領域）と、物体のカテゴリを示すクラス名（例えば、人間、犬、ケーキなど）が得られる。

文献Ｄ：Ｓ．Ｒｅｎｅｔａｌ．， “ＦａｓｔｅｒＲ－ＣＮＮ：ＴｏｗａｒｄｓＲｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ”，ＮＩＰＳ２０１５．
文献Ｅ：Ｊ．Ｒｅｄｍｏｎｅｔａｌ．， “ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ：Ｕｎｉｆｉｅｄ，Ｒｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ”，ＣＶＰＲ２０１６．
文献Ｆ：Ｗ．Ｌｉｕｅｔａｌ．， “ＳＳＤ：ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ”，ＥＣＣＶ２０１６．

高顕著性物体決定部１６は、顕著性推定部１４による推定結果と、物体検出部１５による検出結果とを利用し、映像から検出された複数の物体のうち、顕著性スコアに基づく評価が最も高い領域にある顕著性が最も高い物体を決定する。
具体的には、高顕著性物体決定部１６は、検出された物体の矩形領域内の画素の顕著性スコアの平均値を算出し、算出値が最も高い物体を「高顕著性物体」として決定し、この物体のクラス名を出力する。

関連度スコア算出部１７は、マスク推定部１３により算出されたマスクされた箇所の単語毎の推定値に基づいて、高顕著性物体決定部１６から出力されたクラス名とマスクされた箇所それぞれのキーワード候補語との関連度スコアを算出する。すなわち、関連度スコア算出部１７は、キーワード候補語の中から高顕著性物体と最も関連が深い単語を選択するための関連度スコアを算出する。

具体的には、関連度スコア算出部１７は、予め学習済みの分散表現ベクトルＤＢ２６を参照し、高顕著性物体のクラス名を変換した分散表現ベクトルと、推定値が上位の所定数（例えば、１０個程度）の単語それぞれを変換した分散表現ベクトルとのコサイン類似度を算出する。そして、関連度スコア算出部１７は、算出されたコサイン類似度の平均値を、高顕著性物体とキーワード候補語との関連度スコアとする。
なお、単語の分散表現としては、Ｗｏｒｄ２Ｖｅｃ又はＦａｓｔＴｅｘｔなどの既存の手法を用いることができる。

キーワード出力部１８は、関連度スコア算出部１７により算出された関連度スコアが最も高いキーワード候補語を、入力映像に関連するキーワードとして出力する。
ここで、キーワード出力部１８は、関連度スコアの最大値が所定の閾値に満たない場合、映像に関連するキーワードを出力しないこととしてよい。

図２は、本実施形態におけるキーワード抽出方法の流れを例示するフローチャートである。
この例では、テレビ番組などを構成する字幕及び映像がそれぞれ、ステップＳ１及びＳ５において並列に入力される。

ステップＳ１において、キーワード抽出装置１に制御部は、再生中の番組の字幕文を入力文として取得する。

ステップＳ２において、キーワード候補語抽出部１１は、字幕文を単語に分割する。
ステップＳ３において、キーワード候補語抽出部１１は、分割された単語の中からキーワード候補語を抽出する。
ステップＳ４において、キーワード候補語抽出部１１は、字幕文とキーワード候補語とを入力文メモリ２２に格納する。その後、処理はステップＳ１に戻る。

ステップＳ５において、キーワード抽出装置１に制御部は、再生中の番組の映像データを取得する。
ステップＳ６において、制御部は、取得した映像データから画像をキャプチャする。

ステップＳ７において、物体検出部１５は、キャプチャ画像の中から物体を検出する処理を実行する。
ステップＳ８において、制御部は、物体が検出されたか否かを判定する。この判定がＹＥＳの場合、ステップＳ９及びＳ１２が並列実行され、判定がＮＯの場合、処理はステップＳ５に戻る。

ステップＳ９において、マスク文生成部１２は、入力文メモリ２２から字幕文を取り出し、キーワード候補語のそれぞれをマスクした複数パターンのマスク文のリストを作成する。
ステップＳ１０において、マスク推定部１３は、マスク文においてマスクされている単語を推定する。
ステップＳ１１において、関連度スコア算出部１７は、推定値が上位の所定数の単語を選択し、これらの単語を分散表現ベクトルに変換する。その後、処理はステップＳ１５に移る。

ステップＳ１２において、顕著性推定部１４は、キャプチャ画像の各画素の顕著性推定処理を行い、顕著性スコアを付与する。
ステップＳ１３において、高顕著性物体決定部１６は、検出された物体のうち、最も顕著性が高い高顕著性物体を決定する。
ステップＳ１４において、関連度スコア算出部１７は、決定された高顕著性物体のクラス名を分散表現ベクトルに変換する。

ステップＳ１５において、関連度スコア算出部１７は、推定された単語それぞれの分散表現ベクトルと、高顕著性物体のクラス名の分散表現ベクトルとのコサイン類似度を算出し、平均値を関連度スコアとする。
ステップＳ１６において、キーワード出力部１８は、関連度スコアが最大となったマスク箇所のキーワード候補語を、高顕著性物体と関連したキーワードとして決定し出力する。

図３は、本実施形態におけるキーワード候補語と検出された物体との関係を例示する図である。
この例では、番組のキャプチャ画像から２つの物体が検出され、それぞれ「人間」及び「ケーキ」というクラス名が得られている。

また、このとき、番組の字幕から「田中さんの今日の昼食はフレンチトーストです。」という入力文が取得されている。この字幕文からは、「田中」及び「フレンチトースト」の２つのキーワード候補語が抽出されている。

ここで、字幕文から得られるキーワード候補語は具体的な名称であるが、一方、検出された物体のクラス名はより抽象的であるため、両者の名称は一致しないことが多い。
そこで、「ケーキ」が高顕著性物体である場合に、対応する具体的なキーワードが「田中」であるのか「フレンチトースト」であるのかが関連度スコアによって決定される。

図４は、本実施形態における関連度スコアによるキーワードの決定手順を例示する図である。
字幕文「田中さんの今日の昼食はフレンチトーストです。」のキーワード候補語の一つである「田中」をマスクしたマスク文と、「フレンチトースト」をマスクしたマスク文とが生成され、それぞれのマスク箇所の単語が推定される。

「田中」の箇所では、例えば、「佐藤」、「鈴木」、「渡辺」といった単語の推定値が高く算出され、「フレンチトースト」の箇所では、例えば、「弁当」、「おにぎり」、「サンドイッチ」といった単語の推定値が高く算出される。
このとき、高顕著性物体の「ケーキ」は、「佐藤」、「鈴木」、「渡辺」などとの類似度よりも、「弁当」、「おにぎり」、「サンドイッチ」などとの類似度の方が高いため、該当するマスク箇所のキーワード候補語である「フレンチトースト」が番組映像と関連したキーワードとして決定される。

本実施形態によれば、キーワード抽出装置１は、入力文におけるキーワード候補語をマスクした際に推定される単語の推定値に基づいて、映像から検出される物体のクラス名とキーワード候補語との関連度スコアを算出する。
これにより、キーワード抽出装置１は、字幕文などの入力文から映像に関連した重要な単語をキーワードとして適切に抽出できる。

キーワード抽出装置１は、直近のマスク文に過去の入力文を加えた文章でマスク箇所を推定する。
これにより、例えば、「今日は［ＭＡＳＫ］を注文しました。」というマスク文では、マスク箇所の推定が難しいのに対して、「美味しそうな中華料理屋があったので入ります。」という入力文を加えた文章を用いることにより、マスク箇所が食べ物であること、さらに具体的に中華料理の単語であることが精度良く推定される。
このように、キーワード抽出装置１は、推定結果の精度を向上でき、検出された物体との関連度を適切に評価できる。

キーワード抽出装置１は、キーワード候補語の一つのみをマスクした文章において、マスク箇所の単語を推定することにより、マスク箇所に対する推定結果の精度を向上でき、検出された物体との関連度を適切に評価できる。

キーワード抽出装置１は、物体を検出したタイミングと同期して、映像に伴う直近の入力文からマスク文を生成することにより、関連度の高いキーワードを適切に抽出できる。

キーワード抽出装置１は、関連度スコアの最大値が閾値に満たない場合にキーワードを出力しないことにより、入力文が映像と関連しない場合に、不適切なキーワードを出力することを抑制できる。

キーワード抽出装置１は、映像の各画素に対して、顕著性スコアを付与し、この顕著性スコアに基づく評価が最も高い領域にある物体を高顕著性物体として決定する。
これにより、キーワード抽出装置１は、映像の中で最も顕著性の高い物体に関連した重要なキーワードを適切に出力できる。

キーワード抽出装置１は、物体のクラス名と推定された単語とを分散表現ベクトルに変換することで、コサイン類似度により関連度スコアを算出する。
これにより、キーワード抽出装置１は、適切な関連度スコアを効率的に算出できる。

［第２実施形態］
以下、本発明の第２実施形態について説明する。
第２実施形態では、第１実施形態と比べて、関連度スコア算出部１７の機能が異なり、分散表現ベクトルＤＢ２６に代えて代表オブジェクトデータベース（ＤＢ）２７が設けられる。

物体検出部１５により検出される各クラスに対し、このクラスに属している物体（オブジェクト）名が予め用意され、代表オブジェクトＤＢ２７に登録されている。
例えば、「動物」というクラスには、犬、猫、馬、羊、…などの代表オブジェクトが複数（例えば、１０件程度）登録されている。

関連度スコア算出部１７は、高顕著性物体として選択されたクラスに属する複数の代表オブジェクト名それぞれについて、マスク推定部１３による同一単語の推定値を取得し、平均値を高顕著性物体とキーワード候補語との関連度スコアとして算出する。

関連度スコア算出部１７は、この演算をキーワード候補語それぞれに対して実行することで、キーワード候補語毎の関連度スコアをランキングし、出力部は、関連度スコアが最大のキーワード候補語を出力する。

図５は、本実施形態におけるキーワード抽出方法の流れを例示するフローチャートである。
ステップＳ１からＳ１０までは、第１実施形態（図２）と同一であり、映像から物体が検出されたことに応じて、字幕文のマスクされたキーワード候補語それぞれに対する単語が推定される。
ステップＳ１０の後、処理はステップＳ１５ａに移る。

ステップＳ１２において、顕著性推定部１４は、キャプチャ画像の各画素の顕著性推定処理を行い、顕著性スコアを付与する。
ステップＳ１３において、高顕著性物体決定部１６は、検出された物体のうち、最も顕著性が高い高顕著性物体を決定する。
ステップＳ１４ａにおいて、関連度スコア算出部１７は、決定された高顕著性物体のクラスに属する代表オブジェクトを抽出する。

ステップＳ１５ａにおいて、関連度スコア算出部１７は、マスクされた単語の推定値から、各代表オブジェクトと同一の単語の推定値を抽出し、平均値を関連度スコアとする。
ステップＳ１６において、キーワード出力部１８は、関連度スコアが最大となったマスク箇所のキーワード候補語を、注視物体と関連したキーワードとして決定し出力する。

本実施形態によれば、キーワード抽出装置１は、検出された物体のクラス名に対応して予め登録されている複数の代表オブジェクト名それぞれについて、同一単語の推定値を取得し平均値を関連度スコアとして算出する。
したがって、キーワード抽出装置１は、物体検出における各クラスを、単語推定モデルのボキャブラリに含まれる代表オブジェクトにより予め特徴付けることにより、単語の推定値を用いて適切に関連度を評価できる。

［第３実施形態］
以下、本発明の第３実施形態について説明する。
第３実施形態のキーワード抽出装置１ａは、第１実施形態における顕著性推定手法の代わりに、ユーザの注視点を利用する。顕著性スコアは、一般的にユーザの注視が集まりやすい点を推定した結果である一方、アイトラッカを用いてユーザの注視点を推定することで、キーワード抽出装置１ａは、実際にユーザが注目している物体に関連したキーワードを抽出する。

図６は、本実施形態におけるキーワード抽出装置１ａの機能構成を示す図である。
第３実施形態では、第１実施形態の顕著性推定部１４が視点検出部１４ａ及び視点位置推定部１４ｂに、高顕著性物体決定部１６が注視物体決定部１６ａ（物体決定部）に、それぞれ置き換わっている。

視点検出部１４ａは、ユーザ（番組視聴者）が装着したアイトラッカから、ユーザの視点位置を検出する。なお、視点位置は、眼球を赤外線カメラで撮影し、その動きから視点位置を推定する方法など、様々な従来手法により検出できる。
視点検出部１４ａは、アイトラッカに搭載されたカメラの映像に視点位置の座標情報が付加されたデータを、検出結果として視点位置推定部１４ｂに提供する。

視点位置推定部１４ｂは、視点検出部１４ａから取得したユーザの視点位置の座標が付加されたカメラ映像を、番組映像と照合することにより、番組映像の各画素に対して、所定の分布の注視点スコアを付与する。

ここで、カメラ映像は、番組映像が提示されるテレビなどの枠外も含んだ、ユーザの視野に近い映像であるため、ユーザの視点が番組映像上のどこに位置しているか、又は番組映像を見ていないかを推定する必要がある。
視点位置推定部１４ｂは、まず、番組映像とアイトラッカのカメラ映像とを、それぞれキャプチャし、アイトラッカのカメラ映像内における番組映像の領域を推定する。領域の推定には、例えば、文献Ｇで提案されているＯＲＢ特徴量など、画像の拡大、縮小及び回転に対応した画像特徴量が用いられる。

文献Ｇ：Ｅ．Ｒｕｂｌｅｅｅｔａｌ．， “ＯＲＢ：ＡｎｅｆｆｉｃｉｅｎｔａｌｔｅｒｎａｔｉｖｅｔｏＳＩＦＴｏｒＳＵＲＦ”，ＩＣＣＶ２０１１．

カメラ映像内に番組映像が存在し、番組映像の領域を検出できた場合、視点位置推定部１４ｂは、検出した領域の画像をホモグラフィ変換により矩形に変換する。また、視点位置推定部１４ｂは、視点位置の座標も同様にホモグラフィ変換後の矩形上にマッピングし、この点を中心とした正規分布に従った注視点スコアを各画素に与える。
これにより、番組映像における各画素の注視点スコアが０～１の範囲で推定された結果が得られる。

注視物体決定部１６ａは、視点位置推定部１４ｂによる推定結果と、物体検出部１５による検出結果とを利用し、映像から検出された複数の物体のうち、注視点スコアに基づく評価が最も高い領域にあり、ユーザに注視されていると推定される物体を決定する。
具体的には、注視物体決定部１６ａは、第１実施形態の高顕著性物体決定部１６と同様に、検出された物体の矩形領域内の画素の注視点スコアの平均値を算出し、算出値が最も高い物体を「注視物体」として決定し、この物体のクラス名を出力する。

関連度スコア算出部１７は、マスク推定部１３により算出されたマスクされた箇所の単語毎の推定値に基づいて、注視物体決定部１６ａから出力されたクラス名とマスクされた箇所それぞれのキーワード候補語との関連度スコアを算出する。すなわち、関連度スコア算出部１７は、キーワード候補語の中から注視物体と最も関連が深い単語を選択するための関連度スコアを算出する。

関連度スコアの具体的な算出方法については、第１実施形態における分散表現ベクトルＤＢ２６を利用したコサイン類似度による手法、又は第２実施形態における代表オブジェクトＤＢ２７を利用した代表オブジェクトによる手法のいずれも適用可能である。

なお、本実施形態におけるキーワード抽出方法の流れは、第１実施形態（図２）又は第２実施形態（図５）のステップＳ１２における顕著性推定を視点位置推定に、ステップＳ１３の高顕著性物体の決定を注視物体の決定に、それぞれ置き換えたものとなる。

本実施形態によれば、キーワード抽出装置１ａは、映像内の顕著性スコアに代えて、ユーザの視点位置を推定することで注視点スコアを付与する。
これにより、キーワード抽出装置１は、ユーザが実際に注視している物体に関連した重要なキーワードを適切に出力できる。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

前述の実施形態では、キーワード抽出装置１は、ロボットに組み込まれるものとして説明したが、これには限られず、ロボットの外部に配置され、ロボットと有線又は無線にて、あるいはネットワークを介して通信接続されてもよい。
また、各種のデータベース及び学習モデルなどは、キーワード抽出装置１が備える構成としたが、これには限られず、クラウドなどの外部サーバに配置されてもよい。

本実施形態では、主にキーワード抽出装置１の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、キーワードを抽出するための方法、又はプログラムとして構成されてもよい。

さらに、キーワード抽出装置１の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。

ここでいう「コンピュータシステム」とは、ＯＳや周辺機器などのハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。

さらに「コンピュータで読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１、１ａキーワード抽出装置
１１キーワード候補語抽出部
１２マスク文生成部
１３マスク推定部
１４顕著性推定部
１４ａ視点検出部
１４ｂ視点位置推定部
１５物体検出部
１６高顕著性物体決定部
１６ａ注視物体決定部
１７関連度スコア算出部
１８キーワード出力部
２１キーワードデータベース
２２入力文メモリ
２３単語推定モデル
２４顕著性推定モデル
２５物体検出モデル
２６分散表現ベクトルデータベース
２７代表オブジェクトデータベース

Claims

映像に伴う入力文から、キーワードデータベースに登録されている単語をキーワード候補語として抽出するキーワード候補語抽出部と、
前記入力文における前記キーワード候補語をマスクしたマスク文を生成するマスク文生成部と、
前記マスク文において、マスクされた箇所の前記キーワード候補語を推定した単語毎の推定値を学習モデルにより算出するマスク推定部と、
前記映像から検出された物体のクラス名を出力する物体決定部と、
前記マスク推定部により算出された前記マスクされた箇所の前記単語毎の推定値に基づいて、前記クラス名と前記マスクされた箇所それぞれの前記キーワード候補語との関連度スコアを算出する関連度スコア算出部と、
前記関連度スコアが最も高い前記キーワード候補語を、前記映像に関連するキーワードとして出力するキーワード出力部と、を備えるキーワード抽出装置。
前記マスク推定部は、前記マスク文に過去の入力文を加えた文章において、前記推定値を算出する請求項１に記載のキーワード抽出装置。
前記マスク文生成部は、前記入力文に含まれる前記キーワード候補語の一つのみをマスクしたマスク文を、当該キーワード候補語の数だけ生成し、
前記マスク推定部は、前記マスク文を一つのみ含む文章において、前記単語毎の推定値を算出する請求項１又は請求項２に記載のキーワード抽出装置。
前記マスク文生成部は、前記映像から物体が検出されるタイミングで、直近の前記入力文から前記マスク文を生成する請求項１から請求項３のいずれかに記載のキーワード抽出装置。
前記キーワード出力部は、前記関連度スコアの最大値が所定の閾値に満たない場合、前記映像に関連するキーワードを出力しない請求項１から請求項４のいずれかに記載のキーワード抽出装置。
学習モデルにより前記映像の各画素に対して、顕著性スコアを付与する顕著性推定部を備え、
前記物体決定部は、前記映像から検出された複数の物体のうち、前記顕著性スコアに基づく評価が最も高い領域にある物体のクラス名を出力する請求項１から請求項５のいずれかに記載のキーワード抽出装置。
ユーザの視点位置の座標が付加されたカメラ画像を、前記映像と照合することにより、前記映像の各画素に対して、所定の分布の注視点スコアを付与する視点位置推定部を備え、
前記物体決定部は、前記映像から検出された複数の物体のうち、前記注視点スコアに基づく評価が最も高い領域にある物体のクラス名を出力する請求項１から請求項５のいずれかに記載のキーワード抽出装置。
前記関連度スコア算出部は、前記クラス名に対する分散表現ベクトルと、前記推定値が上位の所定数の単語それぞれの分散表現ベクトルとのコサイン類似度を算出し、平均値を前記関連度スコアとして算出する請求項１から請求項７のいずれかに記載のキーワード抽出装置。
前記関連度スコア算出部は、前記クラス名に対応して予め登録されている複数の代表オブジェクト名それぞれについて同一単語の前記推定値を取得し、平均値を前記関連度スコアとして算出する請求項１から請求項７のいずれかに記載のキーワード抽出装置。
映像に伴う入力文から、キーワードデータベースに登録されている単語をキーワード候補語として抽出するキーワード候補語抽出ステップと、
前記入力文における前記キーワード候補語をマスクしたマスク文を生成するマスク文生成ステップと、
前記マスク文において、マスクされた箇所の前記キーワード候補語を推定した単語毎の推定値を学習モデルにより算出するマスク推定ステップと、
前記映像から検出された物体のクラス名を出力する物体決定ステップと、
前記マスク推定ステップにおいて算出された前記マスクされた箇所の前記単語毎の推定値に基づいて、前記クラス名と前記マスクされた箇所それぞれの前記キーワード候補語との関連度スコアを算出する関連度スコア算出ステップと、
前記関連度スコアが最も高い前記キーワード候補語を、前記映像に関連するキーワードとして出力するキーワード出力ステップと、をコンピュータが実行するキーワード抽出方法。
請求項１から請求項９のいずれかに記載のキーワード抽出装置としてコンピュータを機能させるためのキーワード抽出プログラム。