JP2020013427A - 説明文章生成装置、対象情報表現システム、及び説明文章生成方法 - Google Patents

説明文章生成装置、対象情報表現システム、及び説明文章生成方法 Download PDF

Info

Publication number
JP2020013427A
JP2020013427A JP2018136333A JP2018136333A JP2020013427A JP 2020013427 A JP2020013427 A JP 2020013427A JP 2018136333 A JP2018136333 A JP 2018136333A JP 2018136333 A JP2018136333 A JP 2018136333A JP 2020013427 A JP2020013427 A JP 2020013427A
Authority
JP
Japan
Prior art keywords
image
explanatory sentence
target
attention
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018136333A
Other languages
English (en)
Inventor
貴之 板持
Takayuki Itamochi
貴之 板持
祥孝 牛久
Yoshitaka Ushiku
祥孝 牛久
幹大 田中
Mikihiro Tanaka
幹大 田中
育郎 佐藤
Ikuro Sato
育郎 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
University of Tokyo NUC
Original Assignee
Denso Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp, University of Tokyo NUC filed Critical Denso Corp
Priority to JP2018136333A priority Critical patent/JP2020013427A/ja
Publication of JP2020013427A publication Critical patent/JP2020013427A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 現実空間にいて画像を見ていない者が当該注目対象を容易に特定できる説明文章を生成する。【解決手段】 説明文章生成装置30であって、画像90の全体から全体特徴量vgを抽出する全体特徴量抽出部33と、画像90から顕著性マップ95を抽出する顕著性マップ抽出部34と、画像90における注目対象91を含む注目領域92から部分特徴量vlを抽出する部分特徴量抽出部31と、注目領域92に近いほど重い重みを生成する重み生成部32と、単語列の最後の単語xtに基づいて、次単語の第1特徴量htを出力するとともに、次単語を求めるために画像90を参照する度合いを示すパラメータStを出力するRNN部351と、全体特徴量vg、部分特徴量vl、パラメータSt、重み94、顕著性マップ95、及び第1特徴量htに基づいて、次単語の第2特徴量ctを出力するアテンションネットワーク部352と、第1特徴量htと第2特徴量ctとを合成することで、次単語の合成特徴量ytを得る合成部353とを備えている。【選択図】 図1

Description

本発明は、画像中の特定の対象を説明する説明文章を生成する説明文章生成装置、それを用いた対象情報表現システム、及び説明文章生成方法に関する。
車載カメラを用いた危険歩行者の注意喚起や監視カメラによる不審者監視等、画像に基づいて所定の事態を検知するシステムでは、検知した事態をいかにしてユーザ(ドライバー、警備員等)に伝えるかが課題となる。特に、車載カメラや監視カメラの場合は、検知した事態の対象が現実空間のどこにどのような状態で存在するかを伝えることで初めてユーザがそれに伴った行動をとることができる。
車載カメラを用いた危険歩行者の注意喚起の場合、ヘッドアップディスプレイ(HUD)を用いて、画像において危険と判断された歩行者上に枠を出す手法が提案されている。しかしながら、HUDでは、ドライバの視界を奪ってしまうというデメリットがある。したがって、ドライバの視界を奪わず、分かりやすい形で対象を特定する情報をドライバに伝える手段が望まれる。
また、監視カメラを用いた監視システムによる不審者監視では、多くの場合、監視カメラで不審者を発見した場合に、現場で不審者に対応する人(駅員ないし警備員)に当該不審者の情報を適切に伝える必要がある。例えば、駅のホームに設置された監視カメラで不審者(ふらついている酔っ払いなど)を見つけた場合には、監視カメラの監視員ないし監視システムから、現場のホームに向かう警備員に「〜〜の近くにいる男性が酔っぱらっている」等の対象者を一意に識別する説明を無線等で連絡することになる。この口頭による説明においてどのような説明文章で伝えるかはその説明を行う人に依存しており、自動的に明確な説明で伝える手法は提案されていない。
高度運転支援システムや監視システムでは、物体認識技術が用いられる(例えば、特許文献1)。しかし、これらの技術では、物体や歩行者の種類分類と、その位置を特定するにすぎず、利用者に特定の物体や歩行者を伝える手段としては、画像上で枠を囲う等、画像用いるものであり、特定の物体や歩行者を伝えるために運転手の視界を奪うことになってしまう。
車の運転時等、運転手の視界を奪わず情報を通知する手段として、音声によるナビゲーションシステムが存在する(例えば、特許文献2)。しかし、このようなナビゲーションシステムでは、GPSで得た現在位置情報と既に準備されたDBとを照合しているにすぎず、道路にいる歩行者のように、その位置が時々刻々と変化する対象の情報を伝えることはできない。
また、歩行者認識を行って、危険な歩行者が認識された場合、その歩行者に対して危険である旨の通知を行うシステムも提案されている(例えば、特許文献3)。しかしながら、このシステムでは、あくまで歩行者への通知しか行わず、危険と判断された歩行者をドライバに伝えるものではない。また、このシステムを実現するために、車と歩行者が対になるデバイスを保持している必要がある。
さらに、運転の操作情報等を用いて、交通イベント(急ブレーキなど)を複数抽出し、イベント間を結合して文脈記述を生成することによって現在の状況を文章でドライバに伝えるシステムも知られている(例えば、特許文献4)。しかし、このシステムでは、事象を説明することが主目的であり、歩行者を同定するものではない。また、このシステムでは、生成される記述のパターンも限定されている。
また、監視システムとしては、監視カメラの映像を用いて不審者を特定し、自動的に継続監視を行うシステムがある(例えば、特許文献5)。しかし、その監視映像を見ていない人には、特定された不審者がどのような人か分からず、その不審者の元へ警察官などが駆けつける際、その情報の伝達は監視映像を見ている人の表現能力に委ねられるという問題点があった。
特開2013−109457号公報 特開2010−256106号公報 特開2002−245595号公報 特開2015−230694号公報 特開2007−68195号公報
Ruotian Luo and Gregory Shakhnarovich: Comprehension-guided referring expressions, arXiv:1701.03439v1 [cs.CV] 12 Jan 2017 Junhua Mao, Jonathan Huang, Alexander Toshev, Oana Camburu, Alan Yuille, and Kevin Murphy: Generation and Comprehension of Unambiguous Object Descriptions, arXiv:1511.02283v3 [cs.CV] 11 Apr 2016
画像中の特定の対象を説明する説明文章を生成する説明文章生成装置が知られている。この装置では、画像中の対象となる人物や物体を、他の人物や物体と判別できるような説明文章を生成する(例えば、非特許文献1及び非特許文献2)。しかし、この装置で生成される説明文章は、あくまでも画像において対象が存在する領域を説明するための文章であり、例えば、「画像の一番左の人」等の説明文章が生成されることもある。この説明文章の場合、画像そのものを見ることができない車のドライバや監視カメラの映像を見ていない警備員等が説明文章に基づいて現実空間で対象を特定するのには向いていない。
本発明は、上記背景に鑑みてなされたものであり、画像中の注目対象を説明する説明文章を生成する説明文章生成装置において、現実空間にいて画像を見ていない者が注目対象を容易に特定できる説明文章を生成することを目的とする。
本発明の一態様の説明文章生成装置は、画像(90)中の注目対象(91)を説明する単語列からなる説明文章を生成する説明文章生成装置(30)であって、前記画像の全体から全体特徴量(vg)を抽出する全体特徴量抽出部(33)と、前記画像の顕著性度合いを示す顕著性マップ(95)を抽出する顕著性マップ抽出部(34)と、前記画像における前記注目対象を含む注目領域(92)から部分特徴量(vl)を抽出する部分特徴量抽出部(31)と、前記注目領域に近いほど重い重みを生成する重み生成部(32)と、既に出力された単語列の最後の単語(xt)に基づいて、当該最後の単語に続く次単語の第1特徴量(ht)を出力するとともに、前記次単語を求めるために前記画像を参照する度合いを示すパラメータ(St)を出力するRNN部(351)と、前記全体特徴量と、前記部分特徴量と、前記第2特徴量と、前記重みと、前記顕著性マップと、前記第1特徴量とに基づいて、前記次単語の第2特徴量(ct)を出力するアテンションネットワーク部(352)と、前記第1特徴量と前記第2特徴量とを合成することで、前記次単語の合成特徴量(yt)を得る合成部(353)とを備えている。
この構成により、画像中の注目対象について、その周辺の顕著な物体や人物を交えた単語列で分かり易く当該特定の対象を説明する説明文章を作成できる。
本発明の一態様の対象情報表現システムは、撮影によって前記画像を取得するカメラ(10)と、前記画像から前記注目対象を検出して、前記注目領域を特定する注目領域特定装置(20)と、上記の説明文章生成装置(30)と、前記説明文章生成装置(30)で生成された前記説明文章を出力する説明文章出力装置(40)とを備えている。
本発明の一態様の対象情報表現方法は、画像(90)中の注目対象を説明する単語列からなる説明文章を生成する対象情報表現方法であって、前記画像の全体から全体特徴量(Vg)を抽出する全体特徴量抽出ステップと、前記画像の顕著性度合いを示す顕著性マップ(95)を抽出する顕著性マップ抽出ステップと、前記画像における前記注目対象を含む注目領域(92)から部分特徴量(vl)を抽出する部分特徴量抽出ステップと、前記注目領域(92)に近いほど重い重みを生成する重み生成ステップと、既に出力された単語列の最後の単語に基づいて、当該最後の単語に続く次単語の第1特徴量(ht)を出力するとともに、前記次単語を求めるために前記画像を参照する度合いを示すパラメータ(St)を出力するRNN演算ステップと、前記全体特徴量(vg)と、前記部分特徴量(vl)と、前記パラメータ(St)と、前記重み(94)と、前記顕著性マップ(95)と、前記第1特徴量(ht)とに基づいて、前記次単語の第2特徴量(ct)を出力するアテンション演算ステップと、前記第1特徴量(ht)と前記第2特徴量(ct)とを合成することで、前記次単語の合成特徴量(yt)を得る合成ステップとを備え、前記合成特徴量に基づいて決定した前記次単語を前記最後の単語として、前記RNN演算ステップ、前記アテンション演算ステップ、及び前記合成ステップを繰り返すことで、1単語ずつ前記説明文章を構成する。
図1は、対象情報表現システムの構成を示すブロック図である。 図2は、カメラの撮影によって得られた画像の例を示す図である。 図3は、画像から特定された注目領域を示す図である。 図4は、注目領域の画像を示す図である。 図5は、注目領域の特徴量抽出を説明する図である。 図6は、重みを可視化した図である。 図7は、全体画像の特徴量抽出を説明する図である。 図8は、顕著性マップを可視化した図である。 図9は、説明文章生成部の構成を示すブロック図である。 図10は、アテンションネットワーク部の構成を示す図である。 図11は、説明文章の選択を説明する図である。 図12は、対象情報表現システムを車両の予防安全システムに応用した例を示す図である。 図13は、対象情報表現システムを車両の予防安全システムに応用した例の予防安全方法のフロー図である。 図14は、対象情報表現システムを駅の監視システムに応用した例を示す図である。
以下、本発明に係る説明文章生成装置、対象情報表現方法、及び対象情報表現方プログラムの実施の形態について図面を参照しながら説明する。図1は、対象情報表現システムの構成を示すブロック図である。図1に示すように、対象情報表現システム100は、カメラ10と、注目領域特定装置20と、説明文章生成装置30と、説明文章出力装置40とを備えている。
図2は、カメラの撮影によって得られた画像の例を示す図である。カメラ10は、現実空間を撮影して画像を生成する。この例において、画像90は、街頭を撮影して得られたものである。
図3は、画像から特定された注目領域を示す図であり、図4は、注目領域の画像を示す図である。注目領域特定装置20は、カメラ10の撮影によって得られた画像90を取得して、画像90から注目対象91を検出し、注目対象91を含む注目領域92を特定する。
注目領域特定装置20は、目的に応じて既存の任意の方法によって注目対象91を検出し、注目領域を特定する。この例では、注目対象91は横断歩道を渡ろうとしている金髪の女性である。注目領域92は、注目対象91を含む矩形の領域として特定される。以下では、注目領域92の画像を部分画像93といい、画像90を全体画像ともいう。
説明文章生成装置30は、注目領域特定装置20で検出された注目対象91を表現するための複数の単語の列からなる説明文章を生成する。説明文章生成装置30は、部分特徴量抽出部31と、重み生成部32と、全体特徴量抽出部33と、顕著性マップ抽出部34と、説明文章生成部35と、説明文章選択部36とを備えている。
図5は、注目領域の特徴量抽出を説明する図である。部分特徴量抽出部31は、注目領域特定装置20から注目領域の部分画像を受けて、注目領域92を複数の部分領域(「バウンディングボックス」ともいう。)に分けて、各部分領域について部分特徴量vlを抽出する。本実施の形態では、部分特徴量抽出部31は、部分画像93を横2縦4の8部分領域に分割し、各部分領域について、部分特徴量vlとして2048次元の特徴量ベクトルを抽出する。
また、本実施の形態では、部分特徴量抽出部31は、ResNet(K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of CVPR, pages 770-778, 2016. arxiv.org/abs/1512.03385.を参照)を利用して各部分領域の部分特徴量vlを抽出する。なお、特徴量抽出の手法は、各部分領域の特徴量ベクトルを抽出できるものであればよく、例えば、ニューラルネットワークやHoGによって特徴量を抽出してもよい。また、分割部分領域数や各部分領域の特徴ベクトルの次元等のパラメータは任意に変更可能である。
図6は、重みを可視化した図である。重み生成部32は、各画素について重み94を設定する。具体的には、重み生成部32は、注目領域特定装置20から注目領域92の大きさおよび全体画像における位置の情報を取得して、注目領域92を中心とするガウス分布によって重み94を生成する。すなわち、重み生成部32は、注目領域92に近いほど重みが重くなるように重み94を生成する。重み生成部32は、部分領域ごとに各画素の重みの平均をとることで、部分領域ごとの重みを求める。なお、重み生成部32は、部分領域中の画素の重みの最大値あるいは中央値を当該部分領域の重みとする等の手法で部分領域ごとの重みを求めてもよい。
図7は、全体画像の特徴量抽出を説明する図である。全体特徴量抽出部33は、カメラ10から全体画像90を受けて、全体画像90を複数の部分領域に分けて、各部分領域について全体特徴量vgを抽出する。本実施の形態では、全体特徴量抽出部33は、全体画像90を横8縦4の32部分領域に分割し、各部分領域について、全体特徴量vgとして2048次元の特徴量ベクトルを抽出する。ここで、全体画像90の各部分領域から抽出される特徴ベクトルの次元数と、部分画像93の各部分領域から抽出される特徴ベクトルの次元数とは同じである。
また、本実施の形態では、全体特徴量抽出部33は、ResNetを利用して各部分領域の全体特徴量vgを抽出する。なお、特徴量抽出の手法は、各部分領域の特徴量ベクトルを抽出できるものであればよく、例えば、ニューラルネットワークやHoGによって特徴量を抽出してもよい。また、分割部分領域数や各部分領域の特徴ベクトルの次元等のパラメータは任意に変更可能である。ただし、上述のように、全体画像90の各部分領域から抽出される特徴ベクトルの次元数と、部分画像93の各部分領域から抽出される特徴ベクトルの次元数は同一とする。
図8は、顕著性マップを可視化した図である。顕著性マップ生成部34は、カメラ10から全体画像90を取得して、全体画像90に対して既存の画像処理やニューラルネットワーク等の手法を用いて、画像中の各画素の顕著性度合いを計算する。本実施の形態では、顕著性マップ生成部34は、Ittiらの手法(L. Itti, C. Koch, E. Niebur, A Model of Saliency-Based Visual Attention for Rapid Scene Analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 11, pp. 1254-1259, Nov 1998.を参照)を用いて顕著性マップ95を生成する。
顕著性マップ95は、画素ごとの顕著性度合いを示す係数として生成され、例えば、明るい部分や赤い部分等の人の目につきやすい部分の顕著性が高くなるように生成される。顕著性マップ生成部34は、部分領域ごとに各画素の顕著性度合いの平均を取ることで、部分領域ごとに顕著性度合いの係数を求める。さらに係数を二値化し、顕著であると判定された部分領域のみを考慮するようにしてもよい。なお、顕著性マップ生成部34は、部分領域中の画素の顕著性度合いの最大値あるいは中央値を採用することで部分領域ごとの顕著性度合いの係数を求めてもよい。
図1に戻って、部分特徴量抽出部31、重み生成部32、全体特徴量抽出部33、及び顕著性マップ生成部34は、それぞれ、抽出ないし生成した部分画像の部分特徴量vl、重み94、全体画像の全体特徴量vg、及び顕著性マップ95を説明文章生成部35に出力する。説明文章生成部35はこれらの情報を用いて、対象92を説明する説明文章を生成する。
図9は、説明文章生成部の構成を示すブロック図である。説明文章生成部35は、再帰性ニューラルネットワーク部(以下、「RNN部」という。)351と、アテンションネットワーク部352と、合成部353とを備えている。説明文章生成部35で生成される説明文章は、複数の単語の列からなる。図9に示すように、説明文章生成部35は、RNN部351、アテンションネットワーク部352、合成部353の順で処理が行われるが、これらの処理は説明文章中の1単語を生成するごとに行われる。よって、生成される単語数分だけ処理が繰り返される。
RNN部351は、対象言語(例えば、英語、日本語、中国語等)の文法情報を学習している。RNN部351には、それまでに生成された単語列の最後の単語xtが入力され、文法的に見た場合に次に続くべき単語(以下、「次単語」ともいう。)の特徴量St、htを出力する。ここで、特徴量Stは、次単語を求めるために画像の情報を参照する度合いを示すパラメータである。
また、特徴量htは、次単語の候補のスコアである。例えば、次単語の候補として、bus、car、person、・・・がある場合に、特徴量htは(bus:0.51,car:0,24,person:0.01,・・・)のような次単語の候補のスコアを要素とするベクトルで表現される。なお、特徴量Stと特徴量htとは同じ次元及び同じ値であってもよい。ただし、特徴量Stは、画像の全体特徴量vg及び部分特徴量vlと同じ次元である。
RNN部351から出力される特徴量St、htは、アテンションネットワーク部352に入力される。また、アテンションネットワーク部352には、部分特徴量抽出部31、重み生成部32、全体特徴量抽出部33、及び顕著性マップ生成部34からそれぞれ部分画像の部分特徴量vl、重み94、全体画像の全体特徴量vg、及び顕著性マップ95が入力される。
図10は、アテンションネットワーク部の構成を示す図である。アテンションネットワーク部352は、RNN部351から入力された特徴量Stと、部分特徴量抽出部31から入力された部分特徴量vlと、全体特徴量抽出部33から入力された全体特徴量vgとを並列に並べてニューラルネットワークを用いて各部分領域の注目スコアを計算する。なお、演算手法はニューラルネットワークには限らない。
このとき、全体画像の全体特徴量vgについては、重み94及び顕著性マップ95でフィルタリング(即ち、重み付け)を行う。上述のように、重み94は注目領域92に近いほど重み係数が大きく、顕著性マップ95は顕著な部分領域ほど顕著性度合いの係数が大きいので、注目対象91の近くであって、かつ、顕著な物体に注目することができる。
図9に戻って、合成部353は、アテンションネットワークの出力ctと、RNN部351の出力htとを合成して、各単語のスコアytを出力する。すなわち、合成部353の出力ytも、例えば(bus:0.76,car:0.18,person:0.02,・・・)のような次単語の候補のスコアを要素とするベクトルで表現される。
説明文章生成部35は、合成部353で得られた次単語の候補のスコアに基づいて、次単語を決定する。決定された次単語は、それまでに決定された単語列の最後の単語として、RNN部351に入力され、RNN部351、アテンションネットワーク部352、及び合成部353にて上記の処理が行われる。説明文章生成部35は、これを説明文章の最後の単語に至るまで繰り返すことにより、説明文章を生成する。
説明文章生成部35の上記の構成により、画像中の注目領域92の情報とRNN部351における文法情報の両方を加味したうえで単語スコアytを出力できる。また、アテンションネットワーク部352では、注目領域92の位置(即ち座標)に基づく重み94と顕著性マップ95とを用いているため、注目対象周辺の顕著性度合いが高い部分のスコアが高くなり、その部分を表現する単語のスコアが高くなることが期待できる。
図1に戻って、説明文章選択部36は、複数の候補説明文章の中から注目対象を表現する説明文章を選択する。説明文章生成部35は、1単語ずつ、出力し得る単語すべてにスコアをつけて文章を生成する。例えば、1単語目の単語スコアy1と2単語目の単語スコアy2は以下のようになる。
y1=(a:0.75,the:0.16,woman:0.04,blond:0.005,・・・)
y2=(a:0.01,the:0.02,woman:0.24,blond:0.45,・・・)
説明文章生成部35は、スコアの高い順に複数個の単語を選んでいくことにより、スコアが高い順に複数の候補説明文章を生成する。そして、説明文章選択部36では、生成された複数の候補説明文章のうちの最も適切な説明文章を選択して、最終的な出力とする。
図11は、説明文章の選択を説明する図である。いま、図11に例示するように、以下の3つの候補説明文章が説明文章生成部35から得られたとする。
1.A woman walking on the road.
2.A blond hair woman in front of a red bus.
3.A blue shirt man.
説明文章選択部36は、画像90について、既存の検出システムを用いて複数の対象を検出する。図11の例では、検出システムを用いて歩行者を検出した結果、対象A〜Gが検出されている。これらの対象A〜Gの中には、上記の説明文章の生成のための処理において注目対象91とされていた対象Cも含まれている。説明文章選択部36は、各候補説明文章について、当該候補説明文章が最もよく表している対象を選択する。この選択には、Luoらの手法(非特許文献1を参照)やMaoらの手法(非特許文献2を参照)を用いることができる。
図11の例では、候補説明文章1が最もよく表している対象として、対象Aが選ばれ、候補説明文章2が最もよく表している対象として、対象Cが選ばれ、候補説明文章3が最もよく表している対象として、対象Dが選ばれている。本実施の形態の例において、注目対象は対象Cであるので、説明文章選択部36は、対象Cを最もよく表している候補説明文章2を最終的な説明文章として選択して出力する。
図1に戻って、説明文章出力装置40は、説明文章選択部36で最終的に選択された説明文章を受けて、この説明文章を出力する。説明文章出力装置40は、例えば、説明文章を読み上げる音声の形式で説明文章を出力してよい。
以上のように、本実施の形態の対象情報表現システム100ないし説明文章生成装置30によれば、注目対象を特定するための説明文章を生成するにあたって、当該注目対象自体の特徴を表現するだけでなく、当該注目対象の周りの物体や人物等にも注目をして注目対象を表現する説明文章を生成するので、この説明文章を頼りに当該注目対象を同定することが容易になる。
さらに、本実施の形態の対象情報表現システム100ないし説明文章生成装置30は、注目対象に近い対象を重くする重み付けをし、顕著性度合いの高い対象を重視するので、注目対象の近くの目につきやすい物体や人物を参照して注目対象を表現する説明文章を生成できる。
以下、本発明の実施の形態の対象情報表現システム100の応用例を説明する。
図12は、対象情報表現システムを車両の予防安全システムに応用した例を示す図である。この例では、図1に示す対象情報表現システム100のすべての構成が車両51に備えられている。また、カメラ10は、車両51の前方に向けられており、車両51の前方の画像を取得する。車両51の正面方向に歩行者52がおり、車両51の左前方に歩行者53がある。また、歩行者52の近くには木54がある。歩行者52と歩行者53は、いずれも同様の色の服を着ており、同性であり、いずれも道路を横断するという行動をしている。
対象情報表現システム100が、注目領域特定装置20にて歩行者52を注目対象として検出して、説明文章生成装置30にて歩行者52を同定するための説明文章を生成して、説明文章出力装置40で説明文章の音声読み上げを行うとすると、この説明文章は、歩行者53と区別して歩行者52を特定する文章であることが望ましい。
仮に、歩行者52自体の特徴を表現するのみであると、例えば、「グレーの服を着た、道路を横断している、男性」のように、歩行者53との区別が困難な説明文章となる。本実施の形態の説明文章生成装置30では、上記のとおり、注目対象を周辺の目立つ物体と関連付けて表現する説明文章を生成する。例えば、図12の例では、「木のそばで、道路を横断している、男性」という説明文章が生成される。これにより、歩行者53とは区別して歩行者52を特定できる説明文章がユーザに提供されることになる。
図13は、対象情報表現システムを車両の予防安全システムに応用した例の予防安全方法のフロー図である。このフローは、図1に示す対象情報表現システム100において実行される。カメラ10は車両51に前方を向けて取り付けられている。まず、カメラ10が車外(即ち、車両の前方)の画像90を撮影する(ステップS131)。次に、注目領域特定装置20は、画像90に対して歩行者認識を行い、画像90に映っている歩行者を検出する(ステップS132)。画像90に複数の歩行者がある場合には、注目領域特定装置20は、それらのすべての歩行者を検出する。
次に、注目領域特定装置20は、検出した複数の歩行者の各々について、衝突余裕時間(Time To Collision:TTC)を計算する(ステップS133)。次に、注目領域特定装置20は、TTCが所定の閾値Taより小さい歩行者がいるかを判断し(ステップS134)、そのような歩行者がいる場合には(ステップS134でYES)、緊急ブレーキを発動させて(ステップS135)、処理を終了する。
TTCが閾値Taより小さい歩行者がいない場合には、注目領域特定装置20は、TTCが閾値Taより大きく閾値Tbより小さい歩行者、即ち、直ちに緊急ブレーキを発動させる必要はないが注意を要する歩行者がいるかを判断する(ステップS136)。そのような歩行者がいない場合には(ステップS136でNO)、処理を終了する。そのような歩行者がいる場合には(ステップS136でYES)、注目領域特定装置20は、TTCが最も小さい歩行者を注目対象として特定して、当該歩行者を囲む矩形の注目領域を設定する(ステップS137)。
注目領域特定装置20にて注目領域92が設定されると、説明文章生成装置30は、上記の手順で注目対象91とされた歩行者を説明する説明文章を生成する(ステップS138)。説明文章が生成されると、説明文章出力装置40は、説明文章を音声に変換して(ステップS139)、その音声を出力する(ステップS140)。説明文章出力装置40は、車内に備えられたスピーカを含む。ドライバを含む乗員は、このスピーカから出力される音声を聞くことができる。
この予防安全方法によれば、カメラ10にて撮影された画像から注意を要する歩行者を検出して、そのような歩行者を特定する説明文章を生成し、それを音声で出力するので、ドライバは、注意を要すると判断された歩行者を特定する説明文章を音声で聞くことができる。
図14は、対象情報表現システムを駅の監視システムに応用した例を示す図である。この監視システムは、駅に設置された監視カメラ71と、監視装置70と、説明文章生成装置30と、インカム装置72とを備えている。監視カメラ71は、図1に示す対象情報表現システム100のカメラ10に相当し、監視装置70は、対象領域特定部20に相当し、インカム装置72は、説明文章出力装置40に相当する。
監視カメラ71は、駅に設置される。図14の例では、監視カメラ71は駅のホームの柱に設置されている。監視装置70は、監視カメラ71によって撮影された画像において駅員が対応する必要がある人物や事象を注目対象として特定する。監視装置70は、画像認識技術を用いて、自動的に注目対象を特定してよい。あるいは、注目対象は、監視装置70を用いて画像を目視しているオペレータによって特定されてもよい。
図14の例では、奥側のホームで酔ってふらついている客81が監視カメラ71によって撮影されて、注目対象として特定されている。この場合に、駅員83が携帯するインカム装置83にこの酔っ払い客81を特定する説明文章を音声で出力する必要がある。このとき、この説明文章は、例えば、同じく監視カメラ71によって撮影されている客82と区別が容易なように、酔っ払い客81を説明する文章であることが望ましい。
そこで、説明文章生成装置30は、上記の構成によって酔っ払い客81を説明するのに、周囲の目立つ物の情報を利用する。この説明文章生成装置30によって、図14の例では、例えば「青いベンチの近くにいる、酔っぱらった、男性」という説明文章が生成される。そして、駅員83のインカム装置72では、この説明文章が音声として出力され、駅員83に伝えられる。駅員83は、この音声を頼りに、現場において、注目対象ではない客82と区別して、注目対象となっている酔っ払い客81を容易に特定できる。
100 対象情報表現システム、10 カメラ、20 注目領域特定装置、
30 説明文章生成装置、31 部分特徴量抽出部、32 重み生成部、
33 全体特徴量抽出部、34 顕著性マップ抽出部、35 説明文章生成部、
36 説明文章選択部、40 説明文章出力装置、351 RNN部、
352 アテンションネットワーク部、353 合成部

Claims (5)

  1. 画像(90)中の注目対象(91)を説明する単語列からなる説明文章を生成する説明文章生成装置(30)であって、
    前記画像の全体から全体特徴量(vg)を抽出する全体特徴量抽出部(33)と、
    前記画像の顕著性度合いを示す顕著性マップ(95)を抽出する顕著性マップ抽出部(34)と、
    前記画像における前記注目対象を含む注目領域(92)から部分特徴量(vl)を抽出する部分特徴量抽出部(31)と、
    前記注目領域に近いほど重い重みを生成する重み生成部(32)と、
    既に出力された単語列の最後の単語(xt)に基づいて、当該最後の単語に続く次単語の第1特徴量(ht)を出力するとともに、前記次単語を求めるために前記画像を参照する度合いを示すパラメータ(St)を出力するRNN部(351)と、
    前記全体特徴量と、前記部分特徴量と、前記第2特徴量と、前記重みと、前記顕著性マップと、前記第1特徴量とに基づいて、前記次単語の第2特徴量(ct)を出力するアテンションネットワーク部(352)と、
    前記第1特徴量と前記第2特徴量とを合成することで、前記次単語の合成特徴量(yt)を得る合成部(353)と、
    を備えた説明文章生成装置。
  2. 前記合成特徴量に基づいて、複数の前記候補説明文章を生成し、
    さらに、前記画像から前記注目対象を含む複数の対象を検出して、前記複数の候補説明文章が最もよく表している対象を特定し、最もよく表している対象として前記注目対象が特定された前記候補説明文章を、前記説明文章として選択する説明文章選択部(36)を備えた、請求項1に記載の説明文章生成装置。
  3. 前記アテンションネットワーク部は、前記全体特徴量と前記部分特徴量と前記パラメータとを並列に並べて各部分領域の注目スコアを計算し、
    前記全体特徴量に対して、前記重み及び前記顕著性マップでフィルタリングを行う、請求項1又は2に記載の説明文章生成装置。
  4. 撮影によって前記画像を取得するカメラ(10)と、
    前記画像から前記注目対象を検出して、前記注目領域を特定する注目領域特定装置(20)と、
    請求項1〜3のいずれかに記載の説明文章生成装置(30)と、
    前記説明文章生成装置(30)で生成された前記説明文章を出力する説明文章出力装置(40)と、
    を備えた対象情報表現システム(100)。
  5. 画像(90)中の注目対象を説明する単語列からなる説明文章を生成する説明文章生成方法であって、
    前記画像の全体から全体特徴量(Vg)を抽出する全体特徴量抽出ステップと、
    前記画像の顕著性度合いを示す顕著性マップ(95)を抽出する顕著性マップ抽出ステップと、
    前記画像における前記注目対象を含む注目領域(92)から部分特徴量(vl)を抽出する部分特徴量抽出ステップと、
    前記注目領域(92)に近いほど重い重みを生成する重み生成ステップと、
    既に出力された単語列の最後の単語(xt)に基づいて、当該最後の単語に続く次単語の第1特徴量(ht)を出力するとともに、前記次単語を求めるために前記画像を参照する度合いを示すパラメータ(St)を出力するRNN演算ステップと、
    前記全体特徴量(vg)と、前記部分特徴量(vl)と、前記パラメータ(St)と、前記重み(94)と、前記顕著性マップ(95)と、前記第1特徴量(ht)とに基づいて、前記次単語の第2特徴量(ct)を出力するアテンション演算ステップと、
    前記第1特徴量(ht)と前記第2特徴量(ct)とを合成することで、前記次単語の合成特徴量(yt)を得る合成ステップと、
    を備え、
    前記合成特徴量に基づいて決定した前記次単語を前記最後の単語として、前記RNN演算ステップ、前記アテンション演算ステップ、及び前記合成ステップを繰り返すことで、1単語ずつ前記説明文章を構成する説明文章生成方法。
JP2018136333A 2018-07-20 2018-07-20 説明文章生成装置、対象情報表現システム、及び説明文章生成方法 Pending JP2020013427A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018136333A JP2020013427A (ja) 2018-07-20 2018-07-20 説明文章生成装置、対象情報表現システム、及び説明文章生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018136333A JP2020013427A (ja) 2018-07-20 2018-07-20 説明文章生成装置、対象情報表現システム、及び説明文章生成方法

Publications (1)

Publication Number Publication Date
JP2020013427A true JP2020013427A (ja) 2020-01-23

Family

ID=69170116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018136333A Pending JP2020013427A (ja) 2018-07-20 2018-07-20 説明文章生成装置、対象情報表現システム、及び説明文章生成方法

Country Status (1)

Country Link
JP (1) JP2020013427A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657170A (zh) * 2021-07-20 2021-11-16 西安理工大学 一种增加图像文本描述多样性方法
JP2023537978A (ja) * 2020-08-13 2023-09-06 ベンタナ メディカル システムズ, インコーポレイテッド デジタル病理学のためのアクティブラーニングシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023537978A (ja) * 2020-08-13 2023-09-06 ベンタナ メディカル システムズ, インコーポレイテッド デジタル病理学のためのアクティブラーニングシステム
CN113657170A (zh) * 2021-07-20 2021-11-16 西安理工大学 一种增加图像文本描述多样性方法
CN113657170B (zh) * 2021-07-20 2024-02-06 西安理工大学 一种增加图像文本描述多样性方法

Similar Documents

Publication Publication Date Title
US11823398B2 (en) Information processing apparatus, control method, and program
KR101716646B1 (ko) 국부이진패턴을 이용한 객체 검출 인식 방법 및 장치
KR101839827B1 (ko) 원거리 동적 객체에 대한 얼굴 특징정보(연령, 성별, 착용된 도구, 얼굴안면식별)의 인식 기법이 적용된 지능형 감시시스템
US20240062558A1 (en) Systems and methods for detecting symptoms of occupant illness
US11682297B2 (en) Real-time scene mapping to GPS coordinates in traffic sensing or monitoring systems and methods
CN110580808B (zh) 一种信息处理方法、装置、电子设备及智能交通系统
JP2000244897A (ja) 状態認識システムおよび状態認識表示生成方法
JP2017146711A (ja) 画像処理装置、警告装置、画像処理システム、画像処理方法
KR101692688B1 (ko) 모드 변경 로봇 및 그 제어방법
US12094252B2 (en) Occlusion-aware prediction of human behavior
KR20140039927A (ko) 복수 개의 촬영영상으로부터 이벤트를 검출하는 장치 및 방법
JP2021511556A (ja) 高速物体認識用のシルエットの使用
KR20210100937A (ko) 이종 센서 융합을 이용한 행동 분석 장치
JP2020013427A (ja) 説明文章生成装置、対象情報表現システム、及び説明文章生成方法
US20190347473A1 (en) Suspiciousness degree estimation model generation device
Söveny et al. Blind guide-A virtual eye for guiding indoor and outdoor movement
KR101413620B1 (ko) 영상 분석을 통한 영상 텍스트화 장치
CN111832450A (zh) 基于图像识别的持刀检测方法
Minhas et al. X-EYE: A bio-smart secure navigation framework for visually impaired people
US20240071092A1 (en) Object detection in driver assistance system
JP2020052476A (ja) オブジェクト検出装置およびオブジェクト検出プログラム
KR102234768B1 (ko) 다기능 차량 검지 시스템 및 방법
KR102290353B1 (ko) 객체 인식을 이용한 무단횡단 경보 시스템 및 방법
Xu et al. A machine learning approach for detecting cell phone usage
Karamchandani et al. Development of Machine Learning Model for Assistance of Visually Impaired