JP7483532B2 - キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム - Google Patents
キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム Download PDFInfo
- Publication number
- JP7483532B2 JP7483532B2 JP2020115682A JP2020115682A JP7483532B2 JP 7483532 B2 JP7483532 B2 JP 7483532B2 JP 2020115682 A JP2020115682 A JP 2020115682A JP 2020115682 A JP2020115682 A JP 2020115682A JP 7483532 B2 JP7483532 B2 JP 7483532B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- sentence
- mask
- video
- masked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 61
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000004364 calculation method Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 28
- 238000001514 detection method Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 210000001508 eye Anatomy 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、これらの手法の他、例えば、音声認識、人物認識、オブジェクト認識、文字認識などのクラウドサービスも並列して利用することにより、適切なキーワードを抽出する試みが行われている。
また、顕著性を利用することで番組の内容に適した物体が選択されることが期待できるものの、検出可能な物体の種類は、数百クラス程度に限られており、この結果、同じキーワードばかりが抽出され、同じ発話文ばかりが生成されてしまう。
以下、本発明の第1実施形態について説明する。
第1実施形態では、人間と一緒にテレビなどの映像を伴う放送番組を視聴するロボットなどに組み込まれ、発話生成に利用されるキーワード抽出装置1を提供する。
キーワード抽出装置1は、放送番組の映像から検出された物体の中から最も顕著性の高い物体を抽出すると共に、音声又は字幕文などからキーワード候補語を抽出し、最も顕著性の高い物体とキーワード候補語との関連度スコアをランキングすることで、映像と関連のあるキーワードを出力する。
キーワード抽出装置1は、制御部及び記憶部の他、各種インタフェースを備えた情報処理装置であり、記憶部に格納されたソフトウェア(キーワード抽出プログラム)を制御部が実行することにより、本実施形態の各種機能が実現される。
なお、この処理は、物体検出部15の処理と同期したタイミングで定期的に(例えば、5秒程度の周期で)実行される。
その後、マスク文生成部12は、複数の入力文からなる文章、キーワード候補語、及びマスク文をマスク推定部13に提供する。
単語推定モデル23は、例えば、予め事前学習を行ったBERTモデルであってよく、事前学習タスクである「Masked LM」により、マスクされた文章中の単語が周りの文章から推定される。なお、BERTモデルは、次の文献Aで提案されており、推定結果は、モデルのボキャブラリに含まれる各単語(例えば、30000語程度)の推定値(0~1の値であり、全ての単語の推定値を合計すると1)のリストとなる。
すなわち、マスク推定部13は、マスク文を一つのみ含む文章において、マスク箇所を推定した単語毎の推定値を算出する。
顕著性推定モデル24は、例えば、文献Bで提案されている生理学的なモデルを計算機実装した手法、又は文献Cで提案されているディープラーニングを用いた手法が適用可能であり、出力として、キャプチャ画像の各画素に対して0~1の範囲で推定された顕著性スコアが付与される。
文献C: Q. Hou et al., “Deeply Supervised Salient Object Detection with Short Connections”, PAMI 2019.
物体検出モデル25は、例えば、文献D、E、Fで提案されている学習手法が適用可能であり、出力として、検出された複数の物体それぞれの座標情報(矩形領域)と、物体のカテゴリを示すクラス名(例えば、人間、犬、ケーキなど)が得られる。
文献E: J. Redmon et al., “You Only Look Once: Unified, Real-Time Object Detection”, CVPR2016.
文献F: W. Liu et al. , “SSD: Single Shot MultiBox Detector”, ECCV2016.
具体的には、高顕著性物体決定部16は、検出された物体の矩形領域内の画素の顕著性スコアの平均値を算出し、算出値が最も高い物体を「高顕著性物体」として決定し、この物体のクラス名を出力する。
なお、単語の分散表現としては、Word2Vec又はFastTextなどの既存の手法を用いることができる。
ここで、キーワード出力部18は、関連度スコアの最大値が所定の閾値に満たない場合、映像に関連するキーワードを出力しないこととしてよい。
この例では、テレビ番組などを構成する字幕及び映像がそれぞれ、ステップS1及びS5において並列に入力される。
ステップS3において、キーワード候補語抽出部11は、分割された単語の中からキーワード候補語を抽出する。
ステップS4において、キーワード候補語抽出部11は、字幕文とキーワード候補語とを入力文メモリ22に格納する。その後、処理はステップS1に戻る。
ステップS6において、制御部は、取得した映像データから画像をキャプチャする。
ステップS8において、制御部は、物体が検出されたか否かを判定する。この判定がYESの場合、ステップS9及びS12が並列実行され、判定がNOの場合、処理はステップS5に戻る。
ステップS10において、マスク推定部13は、マスク文においてマスクされている単語を推定する。
ステップS11において、関連度スコア算出部17は、推定値が上位の所定数の単語を選択し、これらの単語を分散表現ベクトルに変換する。その後、処理はステップS15に移る。
ステップS13において、高顕著性物体決定部16は、検出された物体のうち、最も顕著性が高い高顕著性物体を決定する。
ステップS14において、関連度スコア算出部17は、決定された高顕著性物体のクラス名を分散表現ベクトルに変換する。
ステップS16において、キーワード出力部18は、関連度スコアが最大となったマスク箇所のキーワード候補語を、高顕著性物体と関連したキーワードとして決定し出力する。
この例では、番組のキャプチャ画像から2つの物体が検出され、それぞれ「人間」及び「ケーキ」というクラス名が得られている。
そこで、「ケーキ」が高顕著性物体である場合に、対応する具体的なキーワードが「田中」であるのか「フレンチトースト」であるのかが関連度スコアによって決定される。
字幕文「田中さんの今日の昼食はフレンチトーストです。」のキーワード候補語の一つである「田中」をマスクしたマスク文と、「フレンチトースト」をマスクしたマスク文とが生成され、それぞれのマスク箇所の単語が推定される。
このとき、高顕著性物体の「ケーキ」は、「佐藤」、「鈴木」、「渡辺」などとの類似度よりも、「弁当」、「おにぎり」、「サンドイッチ」などとの類似度の方が高いため、該当するマスク箇所のキーワード候補語である「フレンチトースト」が番組映像と関連したキーワードとして決定される。
これにより、キーワード抽出装置1は、字幕文などの入力文から映像に関連した重要な単語をキーワードとして適切に抽出できる。
これにより、例えば、「今日は[MASK]を注文しました。」というマスク文では、マスク箇所の推定が難しいのに対して、「美味しそうな中華料理屋があったので入ります。」という入力文を加えた文章を用いることにより、マスク箇所が食べ物であること、さらに具体的に中華料理の単語であることが精度良く推定される。
このように、キーワード抽出装置1は、推定結果の精度を向上でき、検出された物体との関連度を適切に評価できる。
これにより、キーワード抽出装置1は、映像の中で最も顕著性の高い物体に関連した重要なキーワードを適切に出力できる。
これにより、キーワード抽出装置1は、適切な関連度スコアを効率的に算出できる。
以下、本発明の第2実施形態について説明する。
第2実施形態では、第1実施形態と比べて、関連度スコア算出部17の機能が異なり、分散表現ベクトルDB26に代えて代表オブジェクトデータベース(DB)27が設けられる。
例えば、「動物」というクラスには、犬、猫、馬、羊、…などの代表オブジェクトが複数(例えば、10件程度)登録されている。
ステップS1からS10までは、第1実施形態(図2)と同一であり、映像から物体が検出されたことに応じて、字幕文のマスクされたキーワード候補語それぞれに対する単語が推定される。
ステップS10の後、処理はステップS15aに移る。
ステップS13において、高顕著性物体決定部16は、検出された物体のうち、最も顕著性が高い高顕著性物体を決定する。
ステップS14aにおいて、関連度スコア算出部17は、決定された高顕著性物体のクラスに属する代表オブジェクトを抽出する。
ステップS16において、キーワード出力部18は、関連度スコアが最大となったマスク箇所のキーワード候補語を、注視物体と関連したキーワードとして決定し出力する。
したがって、キーワード抽出装置1は、物体検出における各クラスを、単語推定モデルのボキャブラリに含まれる代表オブジェクトにより予め特徴付けることにより、単語の推定値を用いて適切に関連度を評価できる。
以下、本発明の第3実施形態について説明する。
第3実施形態のキーワード抽出装置1aは、第1実施形態における顕著性推定手法の代わりに、ユーザの注視点を利用する。顕著性スコアは、一般的にユーザの注視が集まりやすい点を推定した結果である一方、アイトラッカを用いてユーザの注視点を推定することで、キーワード抽出装置1aは、実際にユーザが注目している物体に関連したキーワードを抽出する。
第3実施形態では、第1実施形態の顕著性推定部14が視点検出部14a及び視点位置推定部14bに、高顕著性物体決定部16が注視物体決定部16a(物体決定部)に、それぞれ置き換わっている。
視点検出部14aは、アイトラッカに搭載されたカメラの映像に視点位置の座標情報が付加されたデータを、検出結果として視点位置推定部14bに提供する。
視点位置推定部14bは、まず、番組映像とアイトラッカのカメラ映像とを、それぞれキャプチャし、アイトラッカのカメラ映像内における番組映像の領域を推定する。領域の推定には、例えば、文献Gで提案されているORB特徴量など、画像の拡大、縮小及び回転に対応した画像特徴量が用いられる。
これにより、番組映像における各画素の注視点スコアが0~1の範囲で推定された結果が得られる。
具体的には、注視物体決定部16aは、第1実施形態の高顕著性物体決定部16と同様に、検出された物体の矩形領域内の画素の注視点スコアの平均値を算出し、算出値が最も高い物体を「注視物体」として決定し、この物体のクラス名を出力する。
これにより、キーワード抽出装置1は、ユーザが実際に注視している物体に関連した重要なキーワードを適切に出力できる。
また、各種のデータベース及び学習モデルなどは、キーワード抽出装置1が備える構成としたが、これには限られず、クラウドなどの外部サーバに配置されてもよい。
11 キーワード候補語抽出部
12 マスク文生成部
13 マスク推定部
14 顕著性推定部
14a 視点検出部
14b 視点位置推定部
15 物体検出部
16 高顕著性物体決定部
16a 注視物体決定部
17 関連度スコア算出部
18 キーワード出力部
21 キーワードデータベース
22 入力文メモリ
23 単語推定モデル
24 顕著性推定モデル
25 物体検出モデル
26 分散表現ベクトルデータベース
27 代表オブジェクトデータベース
Claims (11)
- 映像に伴う入力文から、キーワードデータベースに登録されている単語をキーワード候補語として抽出するキーワード候補語抽出部と、
前記入力文における前記キーワード候補語をマスクしたマスク文を生成するマスク文生成部と、
前記マスク文において、マスクされた箇所の前記キーワード候補語を推定した単語毎の推定値を学習モデルにより算出するマスク推定部と、
前記映像から検出された物体のクラス名を出力する物体決定部と、
前記マスク推定部により算出された前記マスクされた箇所の前記単語毎の推定値に基づいて、前記クラス名と前記マスクされた箇所それぞれの前記キーワード候補語との関連度スコアを算出する関連度スコア算出部と、
前記関連度スコアが最も高い前記キーワード候補語を、前記映像に関連するキーワードとして出力するキーワード出力部と、を備えるキーワード抽出装置。 - 前記マスク推定部は、前記マスク文に過去の入力文を加えた文章において、前記推定値を算出する請求項1に記載のキーワード抽出装置。
- 前記マスク文生成部は、前記入力文に含まれる前記キーワード候補語の一つのみをマスクしたマスク文を、当該キーワード候補語の数だけ生成し、
前記マスク推定部は、前記マスク文を一つのみ含む文章において、前記単語毎の推定値を算出する請求項1又は請求項2に記載のキーワード抽出装置。 - 前記マスク文生成部は、前記映像から物体が検出されるタイミングで、直近の前記入力文から前記マスク文を生成する請求項1から請求項3のいずれかに記載のキーワード抽出装置。
- 前記キーワード出力部は、前記関連度スコアの最大値が所定の閾値に満たない場合、前記映像に関連するキーワードを出力しない請求項1から請求項4のいずれかに記載のキーワード抽出装置。
- 学習モデルにより前記映像の各画素に対して、顕著性スコアを付与する顕著性推定部を備え、
前記物体決定部は、前記映像から検出された複数の物体のうち、前記顕著性スコアに基づく評価が最も高い領域にある物体のクラス名を出力する請求項1から請求項5のいずれかに記載のキーワード抽出装置。 - ユーザの視点位置の座標が付加されたカメラ画像を、前記映像と照合することにより、前記映像の各画素に対して、所定の分布の注視点スコアを付与する視点位置推定部を備え、
前記物体決定部は、前記映像から検出された複数の物体のうち、前記注視点スコアに基づく評価が最も高い領域にある物体のクラス名を出力する請求項1から請求項5のいずれかに記載のキーワード抽出装置。 - 前記関連度スコア算出部は、前記クラス名に対する分散表現ベクトルと、前記推定値が上位の所定数の単語それぞれの分散表現ベクトルとのコサイン類似度を算出し、平均値を前記関連度スコアとして算出する請求項1から請求項7のいずれかに記載のキーワード抽出装置。
- 前記関連度スコア算出部は、前記クラス名に対応して予め登録されている複数の代表オブジェクト名それぞれについて同一単語の前記推定値を取得し、平均値を前記関連度スコアとして算出する請求項1から請求項7のいずれかに記載のキーワード抽出装置。
- 映像に伴う入力文から、キーワードデータベースに登録されている単語をキーワード候補語として抽出するキーワード候補語抽出ステップと、
前記入力文における前記キーワード候補語をマスクしたマスク文を生成するマスク文生成ステップと、
前記マスク文において、マスクされた箇所の前記キーワード候補語を推定した単語毎の推定値を学習モデルにより算出するマスク推定ステップと、
前記映像から検出された物体のクラス名を出力する物体決定ステップと、
前記マスク推定ステップにおいて算出された前記マスクされた箇所の前記単語毎の推定値に基づいて、前記クラス名と前記マスクされた箇所それぞれの前記キーワード候補語との関連度スコアを算出する関連度スコア算出ステップと、
前記関連度スコアが最も高い前記キーワード候補語を、前記映像に関連するキーワードとして出力するキーワード出力ステップと、をコンピュータが実行するキーワード抽出方法。 - 請求項1から請求項9のいずれかに記載のキーワード抽出装置としてコンピュータを機能させるためのキーワード抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020115682A JP7483532B2 (ja) | 2020-07-03 | 2020-07-03 | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020115682A JP7483532B2 (ja) | 2020-07-03 | 2020-07-03 | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022013256A JP2022013256A (ja) | 2022-01-18 |
JP7483532B2 true JP7483532B2 (ja) | 2024-05-15 |
Family
ID=80169585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020115682A Active JP7483532B2 (ja) | 2020-07-03 | 2020-07-03 | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7483532B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7455338B2 (ja) * | 2022-07-13 | 2024-03-26 | ダイキン工業株式会社 | 情報処理方法、情報処理装置及びコンピュータプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020074111A (ja) | 2019-12-24 | 2020-05-14 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
-
2020
- 2020-07-03 JP JP2020115682A patent/JP7483532B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020074111A (ja) | 2019-12-24 | 2020-05-14 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
Non-Patent Citations (3)
Title |
---|
三木 一弘,BERTを用いた英文空所補充問題の一解法,第12回データ工学と情報マネジメントに関するフォーラム (第18回日本データベース学会年次大会) [online] ,電子情報通信学会 日本データベース学会 情報処理学会,2020年03月04日,DEIM2020 G2-4,Internet<URL:https://proceedings-of-deim.github.io/DEIM2020/papers/G2-4.pdf> |
柳 凛太郎,画像内の物体に着目した画像検索に関する検討,映像情報メディア学会技術報告,(一社)映像情報メディア学会,2020年02月20日,第44巻, 第6号,pp.377~381 |
萩尾 勇太,人と一緒にテレビを視聴するコミュニケーションロボットの試作と検証,電子情報通信学会技術研究報告[online],一般社団法人電子情報通信学会,2020年02月26日,第119巻, 第446号,pp.7~12,Internet<URL:https://www.ieice.org/ken/user/index.php?cmd=download&p=0eco&t=IEICE-CNR&l=57df8fa478d645fb26045e2762d2ba89277851794f79f693de48961f1887ea26&lang=> |
Also Published As
Publication number | Publication date |
---|---|
JP2022013256A (ja) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7179183B2 (ja) | ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム | |
WO2022161298A1 (zh) | 信息生成方法、装置、设备、存储介质及程序产品 | |
Schauerte et al. | Focusing computational visual attention in multi-modal human-robot interaction | |
US20130086105A1 (en) | Voice directed context sensitive visual search | |
WO2020108234A1 (zh) | 图像索引生成方法、图像搜索方法、装置、终端及介质 | |
US11392213B2 (en) | Selective detection of visual cues for automated assistants | |
US11302361B2 (en) | Apparatus for video searching using multi-modal criteria and method thereof | |
US9525841B2 (en) | Imaging device for associating image data with shooting condition information | |
JP6362085B2 (ja) | 画像認識システム、画像認識方法およびプログラム | |
KR101996371B1 (ko) | 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램 | |
CN113392273A (zh) | 视频播放方法、装置、计算机设备及存储介质 | |
JP2010224715A (ja) | 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体 | |
US20220138489A1 (en) | Method of live video event detection based on natural language queries, and an apparatus for the same | |
JP2014523019A (ja) | 動的ジェスチャー認識方法および認証システム | |
Sharma et al. | Audio-visual automatic group affect analysis | |
JP7483532B2 (ja) | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム | |
JP6855737B2 (ja) | 情報処理装置、評価システムおよびプログラム | |
US20210166685A1 (en) | Speech processing apparatus and speech processing method | |
CN115665508A (zh) | 视频摘要生成的方法、装置、电子设备及存储介质 | |
EP3686755B1 (en) | Automatic reference finding in audiovisual scenes | |
KR102148021B1 (ko) | 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치 | |
Hisham et al. | ESMAANI: A Static and Dynamic Arabic Sign Language Recognition System Based on Machine and Deep Learning Models | |
Teixeira et al. | Silent speech interaction for ambient assisted living scenarios | |
Tapu et al. | Face recognition in video streams for mobile assistive devices dedicated to visually impaired | |
JP6192224B2 (ja) | 注目キーワード情報抽出装置およびそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230602 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240501 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7483532 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |