JP7502051B2 - Information processing device - Google Patents

Information processing device Download PDF

Info

Publication number
JP7502051B2
JP7502051B2 JP2020040999A JP2020040999A JP7502051B2 JP 7502051 B2 JP7502051 B2 JP 7502051B2 JP 2020040999 A JP2020040999 A JP 2020040999A JP 2020040999 A JP2020040999 A JP 2020040999A JP 7502051 B2 JP7502051 B2 JP 7502051B2
Authority
JP
Japan
Prior art keywords
visual
unit
image
information processing
attention concentration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020040999A
Other languages
Japanese (ja)
Other versions
JP2021144308A (en
Inventor
晃司 柴田
俊明 井上
友二 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Priority to JP2020040999A priority Critical patent/JP7502051B2/en
Publication of JP2021144308A publication Critical patent/JP2021144308A/en
Application granted granted Critical
Publication of JP7502051B2 publication Critical patent/JP7502051B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、移動体から外部を撮像した画像に基づいて所定の処理を行う情報処理装置に関する。 The present invention relates to an information processing device that performs a predetermined process based on an image captured from a moving object.

例えば交通事故の発生リスクが高い地点(事故リスク地点)の情報を運転者等に提供することで交通事故のリスクを低減するようなことが提案されている。この場合の事故リスク地点の設定は、交通量等の交通環境の物理的な属性や時刻や天候等の自然現象の依存した推測と、現実に事故が発生した地点と、の両面を考慮して行っていた。 For example, it has been proposed to reduce the risk of traffic accidents by providing drivers with information about locations where there is a high risk of traffic accidents occurring (accident risk locations). In this case, the accident risk locations are set by taking into consideration both predictions that are dependent on physical attributes of the traffic environment, such as traffic volume, and natural phenomena, such as the time of day and weather, as well as locations where accidents have actually occurred.

特許文献1には、走行環境がどの程度目が疲れやすい状況であるかを自車両の進行方向を撮像した画像から推定するために、自車両の進行方向における撮像画像を取得し、撮像画像中において、運転者が生理的に注視してしまう位置を推定し、撮像画像中において、運転者が自車両を運転する際に視認すべき位置を推定し、注視してしまう位置と視認すべき位置との位置関係に基づいて、視認負荷量を推定することが記載されている。 Patent Document 1 describes a method for estimating the degree to which the driving environment is likely to cause eye fatigue from an image captured in the direction of travel of the vehicle, by acquiring an image captured in the direction of travel of the vehicle, estimating the position in the captured image at which the driver will naturally gaze, estimating the position in the captured image that the driver should look at when driving the vehicle, and estimating the visual load based on the positional relationship between the position at which the driver will gaze and the position that should be looked at.

特許第5482737号公報Patent No. 5482737

特許文献1に記載した方法を用いて抽出された視認負荷量に基づいて当該映像が表すシーンの安全やリスクに係る指標を算出することもできる。しかしながら、特許文献1に記載の方法では、画像内に含まれる標識や歩行者といった物体に視線が無意識に集中しやすいという文脈的な注意状態は反映できないため、実際の運転者の視認状態とのズレが生じる場合があり、算出精度の向上の余地がある。 It is also possible to calculate an index relating to the safety and risk of the scene depicted in the video based on the visual load extracted using the method described in Patent Document 1. However, the method described in Patent Document 1 cannot reflect the contextual attention state in which the gaze tends to be unconsciously focused on objects such as signs and pedestrians contained in the image, and therefore there may be a discrepancy with the actual visual state of the driver, leaving room for improvement in the calculation accuracy.

本発明が解決しようとする課題としては、精度良く安全やリスクに係る指標を算出することを特徴とすることが一例として挙げられる。 One example of the problem that the present invention aims to solve is the accurate calculation of indicators related to safety and risk.

上記課題を解決するために、請求項1に記載の発明は、移動体から外部を撮像した画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得する取得部と、予め定めた規則に従って前記画像における基準視線位置を設定する視線位置設定部と、前記視覚顕著性分布情報と前記基準視線位置とに基づいて前記画像における視覚的注意の集中度を算出する視覚的注意集中度算出部と、を備え、前記視覚的注意集中度算出部は、視覚顕著性分布情報を構成する各画素の値と、前記各画素の位置と前記基準視線位置の座標位置とのベクトル誤差と、に基づいて、前記視覚顕著性分布情報上に設定した前記基準視線位置の座標からの全画素の座標の前記ベクトル誤差と前記画素の値との関係を重みづけした上で合計したものの逆数により前記視覚的注意の集中度を算出する、ことを特徴としている。 In order to solve the above problem, the invention described in claim 1 comprises an acquisition unit that acquires visual saliency distribution information obtained by estimating the level of visual saliency in an image based on an image of the outside taken from a moving body, a gaze position setting unit that sets a reference gaze position in the image according to a predetermined rule, and a visual attention concentration level calculation unit that calculates a degree of visual attention concentration in the image based on the visual saliency distribution information and the reference gaze position, wherein the visual attention concentration level calculation unit calculates the degree of visual attention concentration in the image based on the visual saliency distribution information and the reference gaze position, based on the value of each pixel that constitutes the visual saliency distribution information and the vector error between the position of each pixel and the coordinate position of the reference gaze position, and calculates the degree of visual attention concentration by the inverse of the sum of the weighted relationship between the vector error of the coordinates of all pixels from the coordinates of the reference gaze position set on the visual saliency distribution information and the value of the pixel.

請求項に記載の発明は、移動体から外部を撮像した画像に基づいて所定の情報処理を行う情報処理装置で実行される情報処理方法であって、前記画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得する取得工程と、予め定めた規則に従って前記画像における基準視線位置を設定する視線位置設定工程と、前記視覚顕著性分布情報と前記基準視線位置とに基づいて前記画像における視覚的注意の集中度を算出する視覚的注意集中度算出工程と、を含み、前記視覚的注意集中度算出工程は、視覚顕著性分布情報を構成する各画素の値と、前記各画素の位置と前記基準視線位置の座標位置とのベクトル誤差と、に基づいて、前記視覚顕著性分布情報上に設定した前記基準視線位置の座標からの全画素の座標の前記ベクトル誤差と前記画素の値との関係を重みづけした上で合計したものの逆数により前記視覚的注意の集中度を算出する、ことを特徴としている。 The invention described in claim 4 is an information processing method executed by an information processing device that performs predetermined information processing based on an image captured of the outside from a moving body, and includes an acquisition step of acquiring visual saliency distribution information obtained by estimating the level of visual saliency in the image based on the image, a gaze position setting step of setting a reference gaze position in the image in accordance with a predetermined rule, and a visual attention concentration level calculation step of calculating a degree of visual attention concentration in the image based on the visual saliency distribution information and the reference gaze position, wherein the visual attention concentration level calculation step calculates the degree of visual attention concentration by the reciprocal of a weighted sum of the vector errors of the coordinates of all pixels from the coordinates of the reference gaze position set on the visual saliency distribution information and the values of the pixels based on a value of each pixel constituting the visual saliency distribution information and a vector error between the position of each pixel and a coordinate position of the reference gaze position .

請求項に記載の発明は、請求項に記載の情報処理方法をコンピュータにより実行さ
せることを特徴としている。
The invention as set forth in claim 5 is characterized in that the information processing method as set forth in claim 4 is executed by a computer.

請求項に記載の発明は、請求項に記載の情報処理プログラムを格納したことを特徴としている。 The sixth aspect of the present invention is characterized in that the information processing program according to the fifth aspect is stored.

本発明の第1の実施例にかかる情報処理装置の機能構成図である。1 is a functional configuration diagram of an information processing device according to a first embodiment of the present invention; 図1に示された視覚顕著性抽出手段の構成を例示するブロック図である。FIG. 2 is a block diagram illustrating a configuration of a visual saliency extraction unit shown in FIG. 1 . (a)は判定装置へ入力する画像を例示する図であり、(b)は(a)に対し推定される、視覚顕著性マップを例示する図である。FIG. 2A is a diagram illustrating an example of an image input to a determination device, and FIG. 2B is a diagram illustrating an example of a visual saliency map estimated for FIG. 図1に示された視覚顕著性抽出手段の処理方法を例示するフローチャートである。2 is a flow chart illustrating a processing method of the visual saliency extraction means shown in FIG. 1 . 非線形写像部の構成を詳しく例示する図である。FIG. 2 is a diagram illustrating in detail an example of the configuration of a nonlinear mapping unit. 中間層の構成を例示する図である。FIG. 2 is a diagram illustrating a configuration of an intermediate layer. (a)および(b)はそれぞれ、フィルタで行われる畳み込み処理の例を示す図である。13A and 13B are diagrams illustrating an example of convolution processing performed by a filter. (a)は、第1のプーリング部の処理を説明するための図であり、(b)は、第2のプーリング部の処理を説明するための図であり、(c)は、アンプーリング部の処理を説明するための図である。FIG. 1A is a diagram for explaining the processing of a first pooling unit, FIG. 1B is a diagram for explaining the processing of a second pooling unit, and FIG. 1C is a diagram for explaining the processing of an unpooling unit. ベクトル誤差の説明図である。FIG. 11 is an explanatory diagram of a vector error. 図1に示された画像入力部に入力された画像と、その画像から取得された視覚顕著性マップの例である。2 is an example of an image input to the image input unit shown in FIG. 1 and a visual saliency map obtained from the image. 視覚的注意集中度の時間的変化の例を示したグラフである。11 is a graph showing an example of a change in visual attention concentration level over time. 図1に示された情報処理装置の動作のフローチャートである。2 is a flowchart of an operation of the information processing device shown in FIG. 1 . 本発明の第2の実施例にかかる情報処理装置が対象とする交差点の例を示した図である。FIG. 11 is a diagram showing an example of an intersection targeted by an information processing device according to a second embodiment of the present invention. 図13に示された交差点について理想視線を設定して視覚的注意集中度を算出した図である。FIG. 14 is a diagram showing calculations of visual attention concentration levels by setting an ideal line of sight for the intersection shown in FIG. 13. 図14に示された視覚的注意集中度の時間的変化を示したグラフである。15 is a graph showing a change over time in the visual attention concentration level shown in FIG. 14. 図15に示された視覚的注意集中度について右左折時と直進時で比を算出した結果のグラフである。16 is a graph showing the results of calculating the ratio of the visual attention concentration level shown in FIG. 15 when turning right or left and when going straight. 本発明の第2の実施例にかかる情報処理装置の動作のフローチャートである。10 is a flowchart of an operation of an information processing apparatus according to a second embodiment of the present invention. 第2の実施例の変形例が対象とするカーブの例である。This is an example of a curve that is the subject of a modification of the second embodiment.

以下、本発明の一実施形態にかかる情報処理装置を説明する。本発明の一実施形態にかかる情報処理装置は、取得部が、移動体から外部を撮像した画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得し、視線位置設定部が、予め定めた規則に従って画像における基準視線位置を設定する。そして、視覚的注意集中度算出部が、視覚顕著性分布情報と視線位置とに基づいて画像における視覚的注意の集中度を算出する。このようにすることにより、視覚顕著性分布情報を用いるため、画像内に含まれる標識や歩行者といった物体に視線が無意識に集中しやすいという文脈的な注意状態を反映することができる。したがって、精度良く安全やリスクに係る指標を算出することが可能となる。 An information processing device according to one embodiment of the present invention will be described below. In the information processing device according to one embodiment of the present invention, an acquisition unit acquires visual saliency distribution information obtained by estimating the level of visual saliency in an image based on an image of the outside captured from a moving body, and a gaze position setting unit sets a reference gaze position in the image according to a predetermined rule. Then, a visual attention concentration calculation unit calculates the visual attention concentration level in the image based on the visual saliency distribution information and the gaze position. In this way, since the visual saliency distribution information is used, it is possible to reflect a contextual attention state in which the gaze tends to be unconsciously focused on objects such as signs and pedestrians contained in the image. Therefore, it is possible to accurately calculate indicators related to safety and risk.

また、視覚的注意集中度算出部は、視覚顕著性分布情報を構成する各画素の値と、各画素の位置と基準視線位置の座標位置とのベクトル誤差と、に基づいて視覚的注意の集中度を算出してもよい。このようにすることにより、視覚顕著性が高い位置と基準視線位置との差に応じた値が視覚的注意の集中度として算出される。したがって、例えば、視覚顕著性が高い位置と基準視線位置との距離に応じて視覚的注意の集中度の値が変化するようにすることができる。 The visual attention concentration calculation unit may also calculate the visual attention concentration level based on the value of each pixel constituting the visual saliency distribution information and the vector error between the position of each pixel and the coordinate position of the reference gaze position. In this way, a value according to the difference between a position of high visual saliency and the reference gaze position is calculated as the visual attention concentration level. Therefore, for example, the value of the visual attention concentration level can be changed according to the distance between the position of high visual saliency and the reference gaze position.

また、視覚的注意の集中度の時間的変化に基づいて当該画像の示す地点におけるリスクに関する情報を出力する出力部を備えてもよい。このようにすることにより、例えば視覚的注意の集中度の時間的変化が大きい地点を事故リスク地点等として出力することが可能となる。 The system may also include an output unit that outputs information about the risk at the location indicated by the image based on the change over time in the degree of visual attention concentration. In this way, it is possible to output, for example, a location where the change over time in the degree of visual attention concentration is large as an accident risk location, etc.

また、取得部は、画像を写像処理可能な中間データに変換する入力部と、中間データを写像データに変換する非線形写像部と、写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部と、を備え、非線形写像部は、中間データに対し特徴の抽出を行う特徴抽出部と、特徴抽出部で生成されたデータのアップサンプルを行うアップサンプル部と、を備えてもよい。このようにすることにより、小さな計算コストで、視覚顕著性を推定することができる。また、このようにして推定した視覚顕著性は、文脈的な注意状態を反映したものとなる。 The acquisition unit may also include an input unit that converts the image into intermediate data that can be mapped, a nonlinear mapping unit that converts the intermediate data into mapped data, and an output unit that generates saliency estimation information indicating a saliency distribution based on the mapped data, and the nonlinear mapping unit may include a feature extraction unit that extracts features from the intermediate data, and an upsampling unit that upsamples the data generated by the feature extraction unit. In this way, visual saliency can be estimated with low computational cost. Furthermore, the visual saliency estimated in this way reflects the contextual attention state.

また、本発明の一実施形態にかかる情報処理方法は、取得工程で、移動体から外部を撮像した画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得し、視線位置設定工程で、予め定めた規則に従って画像における基準視線位置を設定する。そして、視覚的注意集中度算出工程で、視覚顕著性分布情報と視線位置とに基づいて画像における視覚的注意の集中度を算出する。このようにすることにより、視覚顕著性分布情報を用いるため、画像内に含まれる標識や歩行者といった物体に視線が無意識に集中しやすいという文脈的な注意状態を反映することができる。したがって、精度良く安全やリスクに係る指標を算出することが可能となる。 In addition, in an information processing method according to one embodiment of the present invention, in an acquisition step, visual saliency distribution information is acquired based on an image of the outside taken from a moving body, and the visual saliency distribution information is obtained by estimating the level of visual saliency in the image, and in a gaze position setting step, a reference gaze position in the image is set according to predetermined rules. Then, in a visual attention concentration calculation step, the visual attention concentration level in the image is calculated based on the visual saliency distribution information and the gaze position. In this manner, the use of visual saliency distribution information makes it possible to reflect a contextual attention state in which the gaze tends to be unconsciously focused on objects such as signs and pedestrians contained in the image. Therefore, it becomes possible to accurately calculate indicators related to safety and risk.

また、上述した情報処理方法を、コンピュータにより実行させている。このようにすることにより、コンピュータを用いて視覚顕著性を推測した視覚顕著性分布情報を用いるため、画像内に含まれる標識や歩行者といった物体に視線が無意識に集中しやすいという文脈的な注意状態を反映することができる。したがって、精度良く安全やリスクに係る指標を算出することが可能となる。 The above-mentioned information processing method is also executed by a computer. In this way, visual saliency distribution information that estimates visual saliency using a computer is used, so it is possible to reflect the contextual attention state in which the gaze tends to be unconsciously focused on objects such as signs and pedestrians contained in an image. This makes it possible to calculate safety and risk-related indicators with high accuracy.

また、上述した情報処理プログラムをコンピュータ読み取り可能な記憶媒体に格納してもよい。このようにすることにより、当該プログラムを機器に組み込む以外に単体でも流通させることができ、バージョンアップ等も容易に行える。 The above-mentioned information processing program may also be stored on a computer-readable storage medium. In this way, the program can be distributed as a standalone program in addition to being incorporated into a device, and version upgrades, etc., can be easily performed.

本発明の第1の実施例にかかる情報処理装置を図1~図12を参照して説明する。本実施例にかかる情報処理装置は、例えば自動車等の移動体に設置されるに限らず、事業所等に設置されるサーバ装置等で構成してもよい。即ち、リアルタイムに解析する必要はなく、走行後等に解析を行ってもよい。 An information processing device according to a first embodiment of the present invention will be described with reference to Figs. 1 to 12. The information processing device according to this embodiment is not limited to being installed in a moving object such as an automobile, but may be configured as a server device or the like installed in a business establishment or the like. In other words, analysis does not need to be performed in real time, and analysis may be performed after driving, etc.

図1に示したように、情報処理装置1は、画像入力部2と、視覚顕著性演算部3と、視線座標設定部4と、ベクトル誤差演算部5と、出力部6と、を備えている。 As shown in FIG. 1, the information processing device 1 includes an image input unit 2, a visual saliency calculation unit 3, a gaze coordinate setting unit 4, a vector error calculation unit 5, and an output unit 6.

画像入力部2は、例えばカメラなどで撮像された画像(例えば動画像)が入力され、その画像を画像データとして出力する。なお、入力された動画像は、例えばフレーム毎等の時系列に分解された画像データとして出力する。画像入力部2に入力される画像として静止画を入力してもよいが、時系列に沿った複数の静止画からなる画像群として入力するのが好ましい。 Image input unit 2 receives input of an image (e.g., a moving image) captured by, for example, a camera, and outputs the image as image data. The input moving image is output as image data broken down into a time series, for example, for each frame. Although still images may be input as images to be input to image input unit 2, it is preferable to input them as an image group consisting of multiple still images in a time series.

画像入力部2に入力される画像は、例えば車両の進行方向が撮像された画像が挙げられる。つまり、移動体から外部を連続的に撮像した画像とする。この画像はいわゆるパノラマ画像や複数カメラを用いて取得した画像等の水平方向に180°や360°等進行方向以外が含まれる画像であってもよい。また、画像入力部2には入力されるのは、カメラで撮像された画像に限らず、ハードディスクドライブやメモリカード等の記録媒体から読み出した画像であってもよい。 The images input to the image input unit 2 include, for example, images captured in the direction of travel of the vehicle. In other words, images are images captured continuously of the outside from a moving body. These images may be images that include angles other than the direction of travel, such as 180° or 360° in the horizontal direction, such as so-called panoramic images or images captured using multiple cameras. Furthermore, images input to the image input unit 2 are not limited to images captured by a camera, and may also be images read from a recording medium such as a hard disk drive or memory card.

視覚顕著性演算部3は、画像入力部2から画像データが入力され、後述する視覚顕著性推定情報として視覚顕著性マップを出力する。即ち、視覚顕著性演算部3は、移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性マップ(視覚顕著性分布情報)を取得する取得部として機能する。 The visual saliency calculation unit 3 receives image data from the image input unit 2 and outputs a visual saliency map as visual saliency estimation information described below. In other words, the visual saliency calculation unit 3 functions as an acquisition unit that acquires a visual saliency map (visual saliency distribution information) obtained by estimating the level of visual saliency based on an image captured of the outside from a moving body.

図2は、視覚顕著性演算部3の構成を例示するブロック図である。本実施例に係る視覚顕著性演算部3は、入力部310、非線形写像部320、出力部330および記憶部390を備える。入力部310は、画像を写像処理可能な中間データに変換する。非線形写像部320は、中間データを写像データに変換する。出力部330は、写像データに基づき顕著性分布を示す顕著性推定情報を生成する。そして、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322とを備える。記憶部390は、画像入力部2から入力された画像データや後述するフィルタの係数等が保持されている。以下に詳しく説明する。 Figure 2 is a block diagram illustrating the configuration of the visual saliency calculation unit 3. The visual saliency calculation unit 3 according to this embodiment includes an input unit 310, a nonlinear mapping unit 320, an output unit 330, and a storage unit 390. The input unit 310 converts an image into intermediate data that can be subjected to mapping processing. The nonlinear mapping unit 320 converts the intermediate data into mapping data. The output unit 330 generates saliency estimation information indicating a saliency distribution based on the mapping data. The nonlinear mapping unit 320 includes a feature extraction unit 321 that extracts features from the intermediate data, and an upsampling unit 322 that upsamples the data generated by the feature extraction unit 321. The storage unit 390 holds image data input from the image input unit 2, filter coefficients described later, and the like. This will be described in detail below.

図3(a)は、視覚顕著性演算部3へ入力する画像を例示する図であり、図3(b)は、図3(a)に対し推定される、視覚顕著性分布を示す画像を例示する図である。本実施例に係る視覚顕著性演算部3は、画像における各部分の視覚顕著性を推定する装置である。視覚顕著性とは例えば、目立ちやすさや視線の集まりやすさを意味する。具体的には視覚顕著性は、確率等で示される。ここで、確率の大小は、たとえばその画像を見た人の視線がその位置に向く確率の大小に対応する。 Figure 3(a) is a diagram illustrating an example of an image input to the visual saliency calculation unit 3, and Figure 3(b) is a diagram illustrating an example of an image showing a visual saliency distribution estimated for Figure 3(a). The visual saliency calculation unit 3 according to this embodiment is a device that estimates the visual saliency of each part in an image. Visual saliency means, for example, how easily something stands out or how easily it attracts attention. Specifically, visual saliency is expressed as a probability or the like. Here, the magnitude of the probability corresponds, for example, to the probability that the gaze of a person viewing the image will be directed to that position.

図3(a)と図3(b)とは、互いに位置が対応している。そして、図3(a)において、視覚顕著性が高い位置ほど、図3(b)において輝度が高く表示されている。図3(b)のような視覚顕著性分布を示す画像は、出力部330が出力する視覚顕著性マップの一例である。本図の例において、視覚顕著性は、256階調の輝度値で可視化されている。出力部330が出力する視覚顕著性マップの例については詳しく後述する。 Figure 3(a) and Figure 3(b) correspond to each other in terms of position. In Figure 3(a), the higher the visual saliency is at a position, the higher the luminance is displayed in Figure 3(b). The image showing the visual saliency distribution as in Figure 3(b) is an example of a visual saliency map output by the output unit 330. In this example, visual saliency is visualized with 256 gradations of luminance values. An example of a visual saliency map output by the output unit 330 will be described in detail later.

図4は、本実施例に係る視覚顕著性演算部3の動作を例示するフローチャートである。図4に示したフローチャートは、コンピュータによって実行される情報処理方法の一部であって、入力ステップS110、非線形写像ステップS120、および出力ステップS130を含む。入力ステップS110では、画像が写像処理可能な中間データに変換される。非線形写像ステップS120では、中間データが写像データに変換される。出力ステップS130では、写像データに基づき顕著性分布を示す視覚顕著性推定情報(視覚顕著性分布情報)が生成される。ここで、非線形写像ステップS120は、中間データに対し特徴の抽出を行う特徴抽出ステップS121と、特徴抽出ステップS121で生成されたデータのアップサンプルを行うアップサンプルステップS122とを含む。 Figure 4 is a flowchart illustrating the operation of the visual saliency calculation unit 3 according to this embodiment. The flowchart shown in Figure 4 is a part of an information processing method executed by a computer, and includes an input step S110, a nonlinear mapping step S120, and an output step S130. In the input step S110, an image is converted into intermediate data that can be subjected to mapping processing. In the nonlinear mapping step S120, the intermediate data is converted into mapping data. In the output step S130, visual saliency estimation information (visual saliency distribution information) indicating a saliency distribution is generated based on the mapping data. Here, the nonlinear mapping step S120 includes a feature extraction step S121 in which features are extracted from the intermediate data, and an upsampling step S122 in which the data generated in the feature extraction step S121 is upsampled.

図2に戻り、視覚顕著性演算部3の各構成要素について説明する。入力ステップS110において入力部310は、画像を取得し、中間データに変換する。入力部310は、画像データを画像入力部2から取得する。そして入力部310は、取得した画像を中間データに変換する。中間データは非線形写像部320が受け付け可能なデータであれば特に限定されないが、たとえば高次元テンソルである。また、中間データはたとえば、取得した画像に対し輝度を正規化したデータ、または、取得した画像の各画素を、輝度の傾きに変換したデータである。入力ステップS110において入力部310は、さらに画像のノイズ除去や解像度変換等を行っても良い。 Returning to FIG. 2, each component of the visual saliency calculation unit 3 will be described. In the input step S110, the input unit 310 acquires an image and converts it into intermediate data. The input unit 310 acquires image data from the image input unit 2. The input unit 310 then converts the acquired image into intermediate data. The intermediate data is not particularly limited as long as it is data that can be accepted by the nonlinear mapping unit 320, and is, for example, a high-dimensional tensor. The intermediate data is, for example, data in which the luminance of the acquired image is normalized, or data in which each pixel of the acquired image is converted into a luminance gradient. In the input step S110, the input unit 310 may further perform noise removal and resolution conversion of the image.

非線形写像ステップS120において、非線形写像部320は入力部310から中間データを取得する。そして、非線形写像部320において中間データが写像データに変換される。ここで、写像データは例えば高次元テンソルである。非線形写像部320で中間データに施される写像処理は、たとえばパラメータ等により制御可能な写像処理であり、関数、汎関数、またはニューラルネットワークによる処理であることが好ましい。 In the nonlinear mapping step S120, the nonlinear mapping unit 320 acquires intermediate data from the input unit 310. The intermediate data is then converted to mapping data in the nonlinear mapping unit 320. Here, the mapping data is, for example, a high-dimensional tensor. The mapping process applied to the intermediate data in the nonlinear mapping unit 320 is, for example, a mapping process that can be controlled by parameters, etc., and is preferably processing using a function, functional, or neural network.

図5は、非線形写像部320の構成を詳しく例示する図であり、図6は、中間層323の構成を例示する図である。上記した通り、非線形写像部320は、特徴抽出部321およびアップサンプル部322を備える。特徴抽出部321において特徴抽出ステップS121が行われ、アップサンプル部322においてアップサンプルステップS122が行われる。また、本図の例において、特徴抽出部321およびアップサンプル部322の少なくとも一方は、複数の中間層323を含むニューラルネットワークを含んで構成される。ニューラルネットワークにおいては、複数の中間層323が結合されている。 Figure 5 is a diagram illustrating in detail the configuration of the nonlinear mapping unit 320, and Figure 6 is a diagram illustrating the configuration of the intermediate layer 323. As described above, the nonlinear mapping unit 320 includes a feature extraction unit 321 and an upsampling unit 322. The feature extraction step S121 is performed in the feature extraction unit 321, and the upsampling step S122 is performed in the upsampling unit 322. In the example shown in this figure, at least one of the feature extraction unit 321 and the upsampling unit 322 is configured to include a neural network including multiple intermediate layers 323. In the neural network, multiple intermediate layers 323 are connected.

特にニューラルネットワークは畳み込みニューラルネットワークであることが好ましい。具体的には、複数の中間層323のそれぞれは、一または二以上の畳み込み層324を含む。そして、畳み込み層324では、入力されたデータに対し複数のフィルタ325による畳み込みが行われ、複数のフィルタ325の出力に対し活性化処理が施される。 In particular, it is preferable that the neural network is a convolutional neural network. Specifically, each of the multiple intermediate layers 323 includes one or more convolutional layers 324. In the convolutional layer 324, the input data is convolved by multiple filters 325, and activation processing is performed on the output of the multiple filters 325.

図5の例において、特徴抽出部321は、複数の中間層323を含むニューラルネットワークを含んで構成され、複数の中間層323の間に第1のプーリング部326を備える。また、アップサンプル部322は、複数の中間層323を含むニューラルネットワークを含んで構成され、複数の中間層323の間にアンプーリング部328を備える。さらに、特徴抽出部321とアップサンプル部322とは、オーバーラッププーリングを行う第2のプーリング部327を介して互いに接続されている。 In the example of FIG. 5, the feature extraction unit 321 is configured to include a neural network including multiple intermediate layers 323, and includes a first pooling unit 326 between the multiple intermediate layers 323. The upsampling unit 322 is configured to include a neural network including multiple intermediate layers 323, and includes an unpooling unit 328 between the multiple intermediate layers 323. Furthermore, the feature extraction unit 321 and the upsampling unit 322 are connected to each other via a second pooling unit 327 that performs overlap pooling.

なお、本図の例において各中間層323は、二以上の畳み込み層324からなる。ただし、少なくとも一部の中間層323は、一の畳み込み層324のみからなってもよい。互いに隣り合う中間層323は、第1のプーリング部326、第2のプーリング部327およびアンプーリング部328のいずれかで区切られる。ここで、中間層323に二以上の畳み込み層324が含まれる場合、それらの畳み込み層324におけるフィルタ325の数は互いに等しいことが好ましい。 In the example shown in this figure, each intermediate layer 323 is composed of two or more convolutional layers 324. However, at least some of the intermediate layers 323 may be composed of only one convolutional layer 324. Adjacent intermediate layers 323 are separated by either a first pooling unit 326, a second pooling unit 327, or an unpooling unit 328. Here, when an intermediate layer 323 includes two or more convolutional layers 324, it is preferable that the number of filters 325 in those convolutional layers 324 is equal to each other.

本図では、「A×B」と記された中間層323は、B個の畳み込み層324からなり、各畳み込み層324は、各チャネルに対しA個の畳み込みフィルタを含むことを意味している。このような中間層323を以下では「A×B中間層」とも呼ぶ。たとえば、64×2中間層323は、2個の畳み込み層324からなり、各畳み込み層324は、各チャネルに対し64個の畳み込みフィルタを含むことを意味している。 In this diagram, the intermediate layer 323 marked "A×B" is composed of B convolution layers 324, meaning that each convolution layer 324 includes A convolution filters for each channel. Such an intermediate layer 323 is also referred to below as an "A×B intermediate layer." For example, a 64×2 intermediate layer 323 is composed of two convolution layers 324, meaning that each convolution layer 324 includes 64 convolution filters for each channel.

本図の例において、特徴抽出部321は、64×2中間層323、128×2中間層323、256×3中間層323、および、512×3中間層323をこの順に含む。また、アップサンプル部322は、512×3中間層323、256×3中間層323、128×2中間層323、および64×2中間層323をこの順に含む。また、第2のプーリング部327は、2つの512×3中間層323を互いに接続している。なお、非線形写像部320を構成する中間層323の数は特に限定されず、たとえば画像データの画素数に応じて定めることができる。 In the example shown in this figure, the feature extraction unit 321 includes a 64x2 intermediate layer 323, a 128x2 intermediate layer 323, a 256x3 intermediate layer 323, and a 512x3 intermediate layer 323, in this order. The upsampling unit 322 includes a 512x3 intermediate layer 323, a 256x3 intermediate layer 323, a 128x2 intermediate layer 323, and a 64x2 intermediate layer 323, in this order. The second pooling unit 327 connects the two 512x3 intermediate layers 323 to each other. The number of intermediate layers 323 constituting the nonlinear mapping unit 320 is not particularly limited, and can be determined, for example, according to the number of pixels of the image data.

なお、本図は非線形写像部320の構成の一例であり、非線形写像部320は他の構成を有していても良い。たとえば、64×2中間層323の代わりに64×1中間層323が含まれても良い。中間層323に含まれる畳み込み層324の数が削減されることで、計算コストがより低減される可能性がある。また、たとえば、64×2中間層323の代わりに32×2中間層323が含まれても良い。中間層323のチャネル数が削減されることで、計算コストがより低減される可能性がある。さらに、中間層323における畳み込み層324の数とチャネル数との両方を削減しても良い。 Note that this diagram is an example of the configuration of the nonlinear mapping unit 320, and the nonlinear mapping unit 320 may have other configurations. For example, a 64×1 intermediate layer 323 may be included instead of the 64×2 intermediate layer 323. Reducing the number of convolutional layers 324 included in the intermediate layer 323 may further reduce the computational cost. Also, for example, a 32×2 intermediate layer 323 may be included instead of the 64×2 intermediate layer 323. Reducing the number of channels in the intermediate layer 323 may further reduce the computational cost. Furthermore, both the number of convolutional layers 324 and the number of channels in the intermediate layer 323 may be reduced.

ここで、特徴抽出部321に含まれる複数の中間層323においては、第1のプーリング部326を経る毎にフィルタ325の数が増加することが好ましい。具体的には、第1の中間層323aと第2の中間層323bとが、第1のプーリング部326を介して互いに連続しており、第1の中間層323aの後段に第2の中間層323bが位置する。そして、第1の中間層323aは、各チャネルに対するフィルタ325の数がN1である畳み込み層324で構成されており、第2の中間層323bは、各チャネルに対するフィルタ
325の数がN2である畳み込み層324で構成されている。このとき、N2>N1が成り立つことが好ましい。また、N2=N1×2が成り立つことがより好ましい。
Here, in the multiple intermediate layers 323 included in the feature extraction unit 321, it is preferable that the number of filters 325 increases each time the first pooling unit 326 is passed through. Specifically, the first intermediate layer 323a and the second intermediate layer 323b are continuous with each other via the first pooling unit 326, and the second intermediate layer 323b is located behind the first intermediate layer 323a. The first intermediate layer 323a is composed of a convolution layer 324 in which the number of filters 325 for each channel is N1, and the second intermediate layer 323b is composed of a convolution layer 324 in which the number of filters 325 for each channel is N2. At this time, it is preferable that N2>N1 holds. It is more preferable that N2=N1×2 holds.

また、アップサンプル部322に含まれる複数の中間層323においては、アンプーリング部328を経る毎にフィルタ325の数が減少することが好ましい。具体的には、第3の中間層323cと第4の中間層323dとが、アンプーリング部328を介して互いに連続しており、第3の中間層323cの後段に第4の中間層323dが位置する。そして、第3の中間層323cは、各チャネルに対するフィルタ325の数がN3である畳み込み層324で構成されており、第4の中間層323dは、各チャネルに対するフィルタ325の数がN4である畳み込み層324で構成されている。このとき、N4<N3が成り立つことが好ましい。また、N3=N4×2が成り立つことがより好ましい。 In addition, in the multiple intermediate layers 323 included in the upsampling unit 322, it is preferable that the number of filters 325 decreases each time the unpooling unit 328 is passed through. Specifically, the third intermediate layer 323c and the fourth intermediate layer 323d are continuous with each other via the unpooling unit 328, and the fourth intermediate layer 323d is located after the third intermediate layer 323c. The third intermediate layer 323c is composed of a convolution layer 324 in which the number of filters 325 for each channel is N3, and the fourth intermediate layer 323d is composed of a convolution layer 324 in which the number of filters 325 for each channel is N4. At this time, it is preferable that N4<N3 holds. It is more preferable that N3=N4×2 holds.

特徴抽出部321では、入力部310から取得した中間データから勾配や形状など、複数の抽象度を持つ画像特徴を中間層323のチャネルとして抽出する。図6は、64×2
中間層323の構成を例示している。本図を参照して、中間層323における処理を説明する。本図の例において、中間層323は第1の畳み込み層324aと第2の畳み込み層324bとで構成されており、各畳み込み層324は64個のフィルタ325を備える。第1の畳み込み層324aでは、中間層323に入力されたデータの各チャネルに対して、フィルタ325を用いた畳み込み処理が施される。たとえば入力部310へ入力された画像がRGB画像である場合、3つのチャネルh (i=1..3)のそれぞれに対して処理が施される。また、本図の例において、フィルタ325は64種の3×3フィルタであり、すなわち合計64×3種のフィルタである。畳み込み処理の結果、各チャネルiに対して、64個の結果h i,j(i=1..3,j=1..64)が得られる。
The feature extraction unit 321 extracts image features with multiple levels of abstraction, such as gradients and shapes, from the intermediate data acquired from the input unit 310 as channels for the intermediate layer 323.
The configuration of the intermediate layer 323 is illustrated. The processing in the intermediate layer 323 will be described with reference to this figure. In the example of this figure, the intermediate layer 323 is composed of a first convolution layer 324a and a second convolution layer 324b, and each convolution layer 324 has 64 filters 325. In the first convolution layer 324a, convolution processing using the filter 325 is performed on each channel of data input to the intermediate layer 323. For example, when the image input to the input unit 310 is an RGB image, processing is performed on each of the three channels h 0 i (i = 1..3). In addition, in the example of this figure, the filter 325 is 64 types of 3 × 3 filters, that is, a total of 64 × 3 types of filters. As a result of the convolution processing, 64 results h 0 i,j (i = 1..3, j = 1..64) are obtained for each channel i.

次に、複数のフィルタ325の出力に対し、活性化部329において活性化処理が行われる。具体的には、全チャネルの対応する結果jについて、対応する要素毎の総和に活性化処理が施される。この活性化処理により、64チャネルの結果h (i=1..64
)、すなわち、第1の畳み込み層324aの出力が、画像特徴として得られる。活性化処理は特に限定されないが、双曲関数、シグモイド関数、および正規化線形関数の少なくともいずれかを用いる処理が好ましい。
Next, the outputs of the multiple filters 325 are subjected to activation processing in an activation unit 329. Specifically, for the corresponding results j of all channels, activation processing is performed on the sum of each corresponding element. By this activation processing, the results h 1 i (i=1..64) of 64 channels are generated.
), that is, the output of the first convolution layer 324a is obtained as the image feature. The activation process is not particularly limited, but it is preferable to use at least one of a hyperbolic function, a sigmoid function, and a rectified linear function.

さらに、第1の畳み込み層324aの出力データを第2の畳み込み層324bの入力データとし、第2の畳み込み層324bにて第1の畳み込み層324aと同様の処理を行って、64チャネルの結果h (i=1..64)、すなわち第2の畳み込み層324bの出力が、画像特徴として得られる。第2の畳み込み層324bの出力がこの64×2中間層323の出力データとなる。 Furthermore, the output data of the first convolution layer 324a is used as input data for the second convolution layer 324b, which performs the same processing as the first convolution layer 324a to obtain the 64-channel result h2i ( i =1..64), i.e., the output of the second convolution layer 324b, as the image feature. The output of the second convolution layer 324b becomes the output data of this 64×2 intermediate layer 323.

ここで、フィルタ325の構造は特に限定されないが、3×3の二次元フィルタであることが好ましい。また、各フィルタ325の係数は独立に設定可能である。本実施例において、各フィルタ325の係数は記憶部390に保持されており、非線形写像部320がそれを読み出して処理に用いることができる。ここで、複数のフィルタ325の係数は機械学習を用いて生成、修正された補正情報に基づいて定められてもよい。たとえば、補正情報は、複数のフィルタ325の係数を、複数の補正パラメータとして含む。非線形写像部320は、この補正情報をさらに用いて中間データを写像データに変換することができる。記憶部390は視覚顕著性演算部3に備えられていてもよいし、視覚顕著性演算部3の外部に設けられていてもよい。また、非線形写像部320は補正情報を、通信ネットワークを介して外部から取得しても良い。 Here, the structure of the filter 325 is not particularly limited, but it is preferable that the filter 325 is a two-dimensional filter of 3×3. The coefficients of each filter 325 can be set independently. In this embodiment, the coefficients of each filter 325 are stored in the memory unit 390, and the nonlinear mapping unit 320 can read them and use them for processing. Here, the coefficients of the multiple filters 325 may be determined based on correction information generated and corrected using machine learning. For example, the correction information includes the coefficients of the multiple filters 325 as multiple correction parameters. The nonlinear mapping unit 320 can further use this correction information to convert the intermediate data into mapping data. The memory unit 390 may be provided in the visual saliency calculation unit 3, or may be provided outside the visual saliency calculation unit 3. The nonlinear mapping unit 320 may also obtain the correction information from outside via a communication network.

図7(a)および図7(b)はそれぞれ、フィルタ325で行われる畳み込み処理の例を示す図である。図7(a)および図7(b)では、いずれも3×3畳み込みの例が示されている。図7(a)の例は、最近接要素を用いた畳み込み処理である。図7(b)の例は、距離が二以上の近接要素を用いた畳み込み処理である。なお、距離が三以上の近接要素を用いた畳み込み処理も可能である。フィルタ325は、距離が二以上の近接要素を用いた畳み込み処理を行うことが好ましい。より広範囲の特徴を抽出することができ、視覚顕著性の推定精度をさらに高めることができるからである。 7(a) and 7(b) are diagrams showing examples of convolution processing performed by the filter 325. In both of Figs. 7(a) and 7(b), examples of 3x3 convolution are shown. The example in Fig. 7(a) is convolution processing using nearest neighbor elements. The example in Fig. 7(b) is convolution processing using nearby elements with a distance of two or more. Note that convolution processing using nearby elements with a distance of three or more is also possible. It is preferable that the filter 325 performs convolution processing using nearby elements with a distance of two or more. This is because it is possible to extract a wider range of features and further improve the estimation accuracy of visual saliency.

以上、64×2中間層323の動作について説明した。他の中間層323(128×2中間層323、256×3中間層323、および、512×3中間層323等)の動作についても、畳み込み層324の数およびチャネルの数を除いて、64×2中間層323の動作と同じである。また、特徴抽出部321における中間層323の動作も、アップサンプル部322における中間層323の動作も上記と同様である。 The above describes the operation of the 64×2 intermediate layer 323. The operation of the other intermediate layers 323 (such as the 128×2 intermediate layer 323, the 256×3 intermediate layer 323, and the 512×3 intermediate layer 323) is the same as that of the 64×2 intermediate layer 323, except for the number of convolutional layers 324 and the number of channels. In addition, the operation of the intermediate layer 323 in the feature extraction unit 321 and the operation of the intermediate layer 323 in the upsampling unit 322 are also the same as above.

図8(a)は、第1のプーリング部326の処理を説明するための図であり、図8(b)は、第2のプーリング部327の処理を説明するための図であり、図8(c)は、アンプーリング部328の処理を説明するための図である。 Figure 8(a) is a diagram for explaining the processing of the first pooling unit 326, Figure 8(b) is a diagram for explaining the processing of the second pooling unit 327, and Figure 8(c) is a diagram for explaining the processing of the unpooling unit 328.

特徴抽出部321において、中間層323から出力されたデータは、第1のプーリング部326においてチャネル毎にプーリング処理が施された後、次の中間層323に入力される。第1のプーリング部326ではたとえば、非オーバーラップのプーリング処理が行われる。図8(a)では、各チャネルに含まれる要素群に対し、2×2の4つの要素30を1つの要素30に対応づける処理を示している。第1のプーリング部326ではこのような対応づけが全ての要素30に対し行われる。ここで、2×2の4つの要素30は互いに重ならないよう選択される。本例では、各チャネルの要素数が4分の1に縮小される。なお、第1のプーリング部326において要素数が縮小される限り、対応づける前後の要素30の数は特に限定されない。 In the feature extraction unit 321, the data output from the intermediate layer 323 is subjected to pooling processing for each channel in the first pooling unit 326, and then input to the next intermediate layer 323. In the first pooling unit 326, for example, non-overlapping pooling processing is performed. FIG. 8(a) shows a process of associating four 2×2 elements 30 with one element 30 for the element group included in each channel. In the first pooling unit 326, such association is performed for all elements 30. Here, the four 2×2 elements 30 are selected so that they do not overlap with each other. In this example, the number of elements in each channel is reduced to one-fourth. Note that, as long as the number of elements is reduced in the first pooling unit 326, the number of elements 30 before and after the association is not particularly limited.

特徴抽出部321から出力されたデータは、第2のプーリング部327を介してアップサンプル部322に入力される。第2のプーリング部327では、特徴抽出部321からの出力データに対し、オーバーラッププーリングが施される。図8(b)では、一部の要素30をオーバーラップさせながら、2×2の4つの要素30を1つの要素30に対応づける処理を示している。すなわち、繰り返される対応づけにおいて、ある対応づけにおける2×2の4つの要素30のうち一部が、次の対応づけにおける2×2の4つの要素30にも含まれる。本図のような第2のプーリング部327では要素数は縮小されない。なお、第2のプーリング部327において対応づける前後の要素30の数は特に限定されない。 The data output from the feature extraction unit 321 is input to the upsampling unit 322 via the second pooling unit 327. In the second pooling unit 327, overlap pooling is performed on the output data from the feature extraction unit 321. FIG. 8(b) shows a process of matching four 2×2 elements 30 to one element 30 while overlapping some of the elements 30. That is, in repeated matching, some of the four 2×2 elements 30 in a certain matching are also included in the four 2×2 elements 30 in the next matching. The number of elements is not reduced in the second pooling unit 327 as shown in this figure. Note that the number of elements 30 before and after matching in the second pooling unit 327 is not particularly limited.

第1のプーリング部326および第2のプーリング部327で行われる各処理の方法は特に限定されないが、たとえば、4つの要素30の最大値を1つの要素30とする対応づけ(max pooling)や4つの要素30の平均値を1つの要素30とする対応づけ(average pooling)が挙げられる。 The method of each process performed by the first pooling unit 326 and the second pooling unit 327 is not particularly limited, but examples include matching in which the maximum value of four elements 30 is matched to one element 30 (max pooling) and matching in which the average value of four elements 30 is matched to one element 30 (average pooling).

第2のプーリング部327から出力されたデータは、アップサンプル部322における中間層323に入力される。そして、アップサンプル部322の中間層323からの出力データはアンプーリング部328においてチャネル毎にアンプーリング処理が施された後、次の中間層323に入力される。図8(c)では、1つの要素30を複数の要素30に拡大する処理を示している。拡大の方法は特に限定されないが、1つの要素30を2×2の4つの要素30へ複製する方法が例として挙げられる。 The data output from the second pooling unit 327 is input to the intermediate layer 323 in the upsampling unit 322. The output data from the intermediate layer 323 of the upsampling unit 322 is subjected to unpooling processing for each channel in the unpooling unit 328, and then input to the next intermediate layer 323. Figure 8(c) shows the process of expanding one element 30 to multiple elements 30. The method of expansion is not particularly limited, but one example is a method of duplicating one element 30 to four elements 30 (2 x 2).

アップサンプル部322の最後の中間層323の出力データは写像データとして非線形写像部320から出力され、出力部330に入力される。出力ステップS130において出力部330は、非線形写像部320から取得したデータに対し、たとえば正規化や解像度変換等を行うことで視覚顕著性マップを生成し、出力する。視覚顕著性マップはたとえば、図3(b)に例示したような視覚顕著性を輝度値で可視化した画像(画像データ)である。また、視覚顕著性マップはたとえば、ヒートマップのように視覚顕著性に応じて色分けされた画像であっても良いし、視覚顕著性が予め定められた基準より高い視覚顕著領域を、その他の位置とは識別可能にマーキングした画像であっても良い。さらに、視覚顕著性推定情報は画像等として示されたマップ情報に限定されず、視覚顕著領域を示す情報を列挙したテーブル等であっても良い。 The output data of the last intermediate layer 323 of the upsampling unit 322 is output from the nonlinear mapping unit 320 as mapping data and input to the output unit 330. In the output step S130, the output unit 330 generates and outputs a visual saliency map by performing, for example, normalization or resolution conversion on the data acquired from the nonlinear mapping unit 320. The visual saliency map is, for example, an image (image data) in which visual saliency is visualized by brightness values, as shown in FIG. 3B. The visual saliency map may also be, for example, an image that is colored according to visual saliency, such as a heat map, or an image in which visual saliency areas with visual saliency higher than a predetermined standard are marked in a manner that makes them distinguishable from other positions. Furthermore, the visual saliency estimation information is not limited to map information shown as an image or the like, and may be a table or the like that lists information indicating visual saliency areas.

視線座標設定部4は、後述する理想視線を視覚顕著性マップ上に設定する。理想視線とは、障害物や自分以外の交通参加者がいないという理想的な交通環境下で自動車の運転者が進行方向に沿って向ける視線をいう。画像データや視覚顕著性マップ上では(x,y)座標として取り扱う。なお、本実施例では理想視線は固定値とするが、移動体の停止距離に影響する速度や道路の摩擦係数の関数として扱ってもよいし、設定された経路情報を利用して決定されてもよい。即ち、視線座標設定部4は、予め定めた規則に従って画像における理想視線(基準視線位置)を設定する視線位置設定部として機能する。 The gaze coordinate setting unit 4 sets the ideal gaze, which will be described later, on the visual saliency map. The ideal gaze is the gaze that a driver of a vehicle directs along the direction of travel in an ideal traffic environment in which there are no obstacles or other traffic participants other than the driver himself. It is handled as (x, y) coordinates on the image data and visual saliency map. Note that in this embodiment, the ideal gaze is a fixed value, but it may be handled as a function of the speed or road friction coefficient that affects the stopping distance of a moving object, or may be determined using set route information. In other words, the gaze coordinate setting unit 4 functions as a gaze position setting unit that sets the ideal gaze (reference gaze position) in the image according to predetermined rules.

ベクトル誤差演算部4は、視覚顕著性演算部3が出力した視覚顕著性マップ及び当該視覚顕著性マップや画像に対して視線座標設定部5が設定した理想視線に基づいてベクトル誤差を算出し、そのベクトル誤差に基づいて視覚的注意の集中度を示す後述の視覚的注意集中度Psを演算する。即ち、ベクトル誤差演算部4は、視覚顕著性分布情報と視線位置とに基づいて画像における視覚的注意の集中度を算出する視覚的注意集中度算出部として機能する。 The vector error calculation unit 4 calculates a vector error based on the visual saliency map output by the visual saliency calculation unit 3 and the ideal gaze set by the gaze coordinate setting unit 5 for the visual saliency map and image, and calculates a visual attention concentration level Ps (described below) indicating the degree of visual attention concentration based on the vector error. In other words, the vector error calculation unit 4 functions as a visual attention concentration level calculation unit that calculates the degree of visual attention concentration in an image based on visual saliency distribution information and gaze position.

ここで、本実施例におけるベクトル誤差について図9を参照して説明する。図9は、視覚顕著性マップの例を示したものである。この視覚顕著性マップはH画素×V画素の256階調の輝度値で示されており、図3と同様に視覚顕著性が高い画素ほど輝度が高く表示されている。図9において、理想視線の座標(x,y)=(xim,yim)としたとき、視覚顕著性マップ内の任意の座標(k,m)の画素とのベクトル誤差を算出する。視覚顕著性マップにおいて輝度が高い座標と理想視線の座標とが離れている場合は、注視すべき位置と実際に注視し易い位置とが離れることを意味し、視覚的注意が散漫になり易い画像といえる。一方、輝度が高い座標と理想視線の座標とが近い場合は、注視すべき位置と実際に注視し易い位置とが近いことを意味し、注視すべき位置に視覚的注意が集中し易い画像といえる。 Here, the vector error in this embodiment will be described with reference to FIG. 9. FIG. 9 shows an example of a visual saliency map. This visual saliency map is shown with 256 gradation brightness values of H pixels x V pixels, and as in FIG. 3, pixels with higher visual saliency are displayed with higher brightness. In FIG. 9, when the coordinates (x, y) of the ideal gaze are set to ( xim , yim ), a vector error between the pixel and any coordinate (k, m) in the visual saliency map is calculated. When the coordinates of the ideal gaze with high brightness in the visual saliency map are far from each other, it means that the position to be gazed upon and the position that is actually easy to gaze upon are far from each other, and it can be said that the image is likely to distract visual attention. On the other hand, when the coordinates of the ideal gaze with high brightness are close to each other, it means that the position to be gazed upon and the position that is actually easy to gaze upon are close to each other, and it can be said that the image is likely to concentrate visual attention on the position to be gazed upon.

次に、ベクトル誤差演算部4における視覚的注意集中度Psの算出方法について説明する。本実施例では、視覚的注意集中度Psは次の(1)式により算出される。

Figure 0007502051000001
Next, a description will be given of a method for calculating the visual attention concentration level Ps in the vector error calculation unit 4. In this embodiment, the visual attention concentration level Ps is calculated by the following formula (1).
Figure 0007502051000001

(1)式において、Vvcはピクセル深度(輝度値)、fは重みづけ関数、derrはベクトル誤差を示している。この重みづけ関数は、例えばVvcの値を示す画素から理想視線の座標までの距離に基づいて重み設定される関数である。αは輝点1点の視覚顕著性マップ(リファレンスヒートマップ)における、輝点の座標と理想視線の座標が一致したときの視覚的注意集中度Psが1となるような係数である。 In formula (1), V vc is pixel depth (luminance value), f w is weighting function, and d err is vector error. This weighting function is a function that is weighted based on the distance from a pixel indicating the value of V vc to the coordinates of the ideal gaze. α is a coefficient that makes the visual attention concentration level Ps equal to 1 when the coordinates of a bright point and the coordinates of the ideal gaze match in a visual saliency map (reference heat map) of one bright point.

即ち、ベクトル誤差演算部5(視覚的注意集中度算出部)は、視覚顕著性マップ(視覚顕著性分布情報)を構成する各画素の値と、各画素の位置と理想視線(基準視線位置)の座標位置とのベクトル誤差と、に基づいて視覚的注意の集中度を算出している。 That is, the vector error calculation unit 5 (visual attention concentration calculation unit) calculates the degree of visual attention concentration based on the value of each pixel that constitutes the visual saliency map (visual saliency distribution information) and the vector error between the position of each pixel and the coordinate position of the ideal gaze (reference gaze position).

このようにして得られた視覚的注意集中度Psは、視覚顕著性マップ上に設定した理想視線の座標からの全画素の座標のベクトル誤差と輝度値の関係を重みづけした上で合計したものの逆数である。この視覚的注意集中度Psは、理想視線の座標から視覚顕著性マップの輝度が高い分布が離れていると低い値が算出される。即ち、視覚的注意集中度Psは、理想視線に対する集中度ともいえる。 The visual attention concentration level Ps obtained in this way is the reciprocal of the weighted sum of the relationship between the vector error and brightness value of the coordinates of all pixels from the coordinates of the ideal gaze set on the visual saliency map. This visual attention concentration level Ps is calculated as a low value when the distribution of high brightness on the visual saliency map is far from the coordinates of the ideal gaze. In other words, the visual attention concentration level Ps can also be said to be the concentration level with respect to the ideal gaze.

図10に画像入力部2に入力された画像と、その画像から取得された視覚顕著性マップの例を示す。図10(a)は入力画像、(b)は視覚顕著性マップである。このような、図10において、理想視線の座標を例えば前方を走行するトラック等の道路上に設定すると、その場合における視覚的注意集中度Psが算出される。 Figure 10 shows an example of an image input to the image input unit 2 and a visual saliency map obtained from that image. Figure 10 (a) is the input image, and (b) is the visual saliency map. In Figure 10, if the coordinates of the ideal line of sight are set on the road, for example, on a truck traveling ahead, the visual attention concentration level Ps in that case is calculated.

出力部6は、ベクトル誤差演算部5で算出された視覚的注意集中度Psに基づいて当該視覚的注意集中度Psが算出された画像が示すシーンについてのリスクに関する情報を出力する。リスクに関する情報としては、例えば、視覚的注意集中度Psに所定の閾値を設け、算出された視覚的注意集中度Psが閾値以下の場合はリスクが高いシーンであるとの情報を出力する。例えば図10で算出された視覚的注意集中度Psが閾値以下の場合はリスクが高いシーンであると判定し、リスク有(またはリスク高)といった情報を出力することができる。 The output unit 6 outputs information regarding risk for the scene shown by the image for which the visual attention concentration level Ps was calculated based on the visual attention concentration level Ps calculated by the vector error calculation unit 5. For example, the information regarding risk may be such that a predetermined threshold is set for the visual attention concentration level Ps, and information is output indicating that the scene is high risk if the calculated visual attention concentration level Ps is equal to or below the threshold. For example, if the visual attention concentration level Ps calculated in FIG. 10 is equal to or below the threshold, it may be determined that the scene is high risk, and information such as "risk present (or high risk)" may be output.

また、出力部6は、ベクトル誤差演算部5で算出された視覚的注意集中度Psの時間的変化に基づいてリスクに関する情報を出力してもよい。図11に視覚的注意集中度Psの時間的変化の例を示す。図11は、12秒間の動画像における視覚的注意集中度Psの変化を示している。図11において、約6.5秒~約7秒の間で視覚的注意集中度Psが急激に変化している。これは、例えば自車両の前方に他車両が割り込んだ場合等である。 The output unit 6 may also output information related to risk based on the change over time in the visual concentration level Ps calculated by the vector error calculation unit 5. Figure 11 shows an example of the change over time in the visual concentration level Ps. Figure 11 shows the change in the visual concentration level Ps in a 12-second video. In Figure 11, the visual concentration level Ps changes suddenly between approximately 6.5 seconds and approximately 7 seconds. This occurs, for example, when another vehicle cuts in front of the vehicle.

図11に示したように、視覚的注意集中度Psの短時間当たりの変化率や変化値を予め定めた閾値と比較することによりリスクが高いシーンであると判定し、リスク有(またはリスク高)を示す情報を出力してもよい。また、例えば一旦下がった視覚的注意集中度Psが上がる等の変化のパターンによりリスクの有無(高低)を判定してもよい。 As shown in FIG. 11, a scene may be determined to be high risk by comparing the rate of change per short period of time or the change value of the visual concentration level Ps with a predetermined threshold, and information indicating the presence of risk (or high risk) may be output. In addition, the presence or absence of risk (high or low) may be determined based on a pattern of change, for example, the visual concentration level Ps decreasing once and then increasing.

次に、上述した構成の情報処理装置1における動作(情報処理方法)について、図12のフローチャートを参照して説明する。また、このフローチャートを情報処理装置1として機能するコンピュータで実行されるプログラムとして構成することで情報処理プログラムとすることができる。また、この情報処理プログラムは、情報処理装置1が有するメモリ等に記憶するに限らず、メモリカードや光ディスク等の記憶媒体に格納してもよい。 Next, the operation (information processing method) of the information processing device 1 configured as described above will be described with reference to the flowchart in FIG. 12. In addition, this flowchart can be configured as a program executed by a computer that functions as the information processing device 1 to become an information processing program. In addition, this information processing program is not limited to being stored in a memory or the like possessed by the information processing device 1, but may also be stored in a storage medium such as a memory card or optical disk.

まず、画像入力部2が、入力された画像を画像データとして視覚顕著性演算部3に出力する(ステップS11)。本ステップでは、画像入力部2に入力された画像データを画像フレーム等の時系列に分解して視覚顕著性演算部3へ入力している。また、本ステップでノイズ除去や幾何学変換などの画像処理を施してもよい。 First, the image input unit 2 outputs the input image as image data to the visual saliency calculation unit 3 (step S11). In this step, the image data input to the image input unit 2 is decomposed into a time series such as image frames, and input to the visual saliency calculation unit 3. In this step, image processing such as noise removal and geometric transformation may also be performed.

次に、視覚顕著性演算部3が、視覚顕著性マップを取得する(ステップS12)。視覚顕著性マップは、視覚顕著性演算部3において、上述した方法により図3(b)に示したような視覚顕著性マップを時系列に出力する。 Next, the visual saliency calculation unit 3 acquires a visual saliency map (step S12). The visual saliency calculation unit 3 outputs the visual saliency map in time series as shown in FIG. 3(b) by the method described above.

一方、ステップS12と並行して、視線座標設定部4が、理想視線の座標を設定する(ステップS13)。この座標は、上述したように前方注視等の固定位置とする。 Meanwhile, in parallel with step S12, the gaze coordinate setting unit 4 sets the coordinates of the ideal gaze (step S13). As described above, these coordinates are fixed positions such as forward gaze.

次に、ベクトル誤差演算部5が、視覚顕著性マップ及び理想視線から視覚的注意集中度Psを算出する(ステップS14)。即ち、上述したように、理想視線の座標と、視覚顕著性マップの座標とのベクトル誤差を算出し、そのベクトル誤差と、各画素の値と、に基づいて(1)式により視覚的注意集中度Psを算出する。 Next, the vector error calculation unit 5 calculates the visual attention concentration level Ps from the visual saliency map and the ideal gaze (step S14). That is, as described above, the vector error between the coordinates of the ideal gaze and the coordinates of the visual saliency map is calculated, and the visual attention concentration level Ps is calculated using formula (1) based on the vector error and the value of each pixel.

次に、出力部6が、リスク情報を出力する(ステップS15)。本ステップでは、上述したように、算出された1つの視覚的注意集中度Psあるいは時間的変化に基づいてリスク情報を出力する。 Next, the output unit 6 outputs risk information (step S15). In this step, as described above, risk information is output based on one calculated visual attention concentration level Ps or a change over time.

以上の説明から明らかなように、ステップS12が取得工程、ステップS13視線位置設定工程、ステップS14が視覚的注意集中度算出工程としてそれぞれ機能する。 As is clear from the above explanation, step S12 functions as an acquisition process, step S13 functions as a gaze position setting process, and step S14 functions as a visual attention concentration calculation process.

本実施例によれば、情報処理装置1は、視覚顕著性演算部3が、移動体から外部を撮像した画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性マップを取得し、視線座標設定部4が、予め定めた固定位置に理想視線の座標を設定する。そして、ベクトル誤差演算部5が、視覚顕著性マップと理想視線とに基づいて画像における視覚的注意集中度Psを算出する。このようにすることにより、視覚顕著性マップを用いるため、画像内に含まれる標識や歩行者といった物体に視線が無意識に集中しやすいという文脈的な注意状態を反映することができる。したがって、精度良く安全やリスクに係る指標を算出することが可能となる。 According to this embodiment, the information processing device 1 acquires a visual saliency map obtained by estimating the level of visual saliency in an image captured from a moving object using an image of the outside world, and the gaze coordinate setting unit 4 sets the coordinates of an ideal gaze at a predetermined fixed position. Then, the vector error calculation unit 5 calculates the visual attention concentration level Ps in the image based on the visual saliency map and the ideal gaze. In this way, the use of the visual saliency map makes it possible to reflect a contextual attention state in which the gaze tends to be unconsciously focused on objects such as signs and pedestrians contained in the image. Therefore, it becomes possible to accurately calculate indicators related to safety and risk.

また、ベクトル誤差演算部5は、視覚顕著性マップを構成する各画素の値と、各画素の位置と理想視線の座標位置とのベクトル誤差と、に基づいて視覚的注意集中度Psを算出している。このようにすることにより、視覚顕著性が高い位置と理想視線との差に応じた値が視覚的注意集中度Psとして算出される。したがって、例えば、視覚顕著性が高い位置と理想視線との距離に応じて視覚的注意集中度Psの値が変化するようにすることができる。 The vector error calculation unit 5 also calculates the visual attention concentration level Ps based on the value of each pixel constituting the visual saliency map and the vector error between the position of each pixel and the coordinate position of the ideal gaze. In this way, a value according to the difference between a position of high visual saliency and the ideal gaze is calculated as the visual attention concentration level Ps. Therefore, for example, it is possible to make the value of the visual attention concentration level Ps change depending on the distance between the position of high visual saliency and the ideal gaze.

また、視覚的注意集中度Psの時間的変化に基づいて当該画像の示す地点におけるリスク情報を出力する出力部6を備えている。このようにすることにより、例えば視覚的注意集中度Psの時間的変化が大きい地点を事故リスク地点等として出力することが可能となる。また、当該リスク情報は、視覚的注意集中度Psの時間的変化から、ヒヤリハットに係る情報として出力されてもよい。 The system also includes an output unit 6 that outputs risk information at the location indicated by the image based on the change over time in the visual concentration level Ps. In this way, it is possible to output, for example, a location where the change over time in the visual concentration level Ps is large as an accident risk location, etc. The risk information may also be output as information related to near misses based on the change over time in the visual concentration level Ps.

また、視覚顕著性演算部3は、画像を写像処理可能な中間データに変換する入力部310と、中間データを写像データに変換する非線形写像部320と、写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部330と、を備え、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322と、を備えている。このようにすることにより、小さな計算コストで、視覚顕著性を推定することができる。また、このようにして推定した視覚顕著性は、文脈的な注意状態を反映したものとなる。 The visual saliency calculation unit 3 also includes an input unit 310 that converts an image into intermediate data that can be mapped, a nonlinear mapping unit 320 that converts the intermediate data into mapped data, and an output unit 330 that generates saliency estimation information indicating a saliency distribution based on the mapped data. The nonlinear mapping unit 320 includes a feature extraction unit 321 that extracts features from the intermediate data, and an upsampling unit 322 that upsamples the data generated by the feature extraction unit 321. In this way, visual saliency can be estimated with low calculation cost. Furthermore, the visual saliency estimated in this way reflects the contextual attention state.

次に、本発明の第2の実施例にかかるリスク情報出力装置を図13~図16を参照して説明する。なお、前述した第1の実施例と同一部分には、同一符号を付して説明を省略する。 Next, a risk information output device according to a second embodiment of the present invention will be described with reference to Figures 13 to 16. Note that parts that are the same as those in the first embodiment described above will be given the same reference numerals and descriptions thereof will be omitted.

本実施例は、ブロック構成等は図1と同様である。つまり、情報処理装置1が本実施例にかかるリスク情報出力装置として機能する。画像入力部2から入力される画像は、交差点へ進入する画像であること、出力部6におけるリスクの判定方法等が異なる。 In this embodiment, the block configuration and the like are the same as in FIG. 1. In other words, the information processing device 1 functions as a risk information output device according to this embodiment. The image input from the image input unit 2 is an image of entering an intersection, and the method of risk determination in the output unit 6 is different.

本実施例におけるリスク情報が出力される対象となる交差点の例を図13に示す。図13は、四叉路(十字路)を構成する交差点である。この交差点において、A方向、B方向、C方向からそれぞれ進入する場合における交差点方向(進行方向)の画像をそれぞれ示す。つまり、図13に示した画像は、A方向、B方向、C方向をそれぞれ交差点に進入する際の道路である進入路とした場合の画像である。 Figure 13 shows an example of an intersection for which risk information is output in this embodiment. Figure 13 shows an intersection that is a four-way intersection (crossroads). Images of the intersection direction (travel direction) when entering from directions A, B, and C are shown. In other words, the image shown in Figure 13 is an image when directions A, B, and C are each considered to be the approach roads when entering the intersection.

図13に示した画像に対して、第1の実施例で説明したように視覚顕著性マップをそれぞれ取得する。そして、画像について、直進、右折、左折の各進行方向について理想視線を設定し、それぞれの理想視線について視覚的注意集中度Psを算出する(図14)。つまり、交差点に進入後抜け出す道路となる退出路毎に、画像における理想視線(基準視線位置)をそれぞれ設定して、それぞれの理想視線に対する視覚的注意集中度Psをベクトル誤差演算部5が算出している。 For the image shown in Figure 13, a visual saliency map is obtained as described in the first embodiment. Then, for the image, an ideal gaze is set for each traveling direction of going straight, turning right, and turning left, and the visual attention concentration level Ps is calculated for each ideal gaze (Figure 14). In other words, for each exit road that is the road to exit after entering the intersection, an ideal gaze (reference gaze position) in the image is set, and the vector error calculation unit 5 calculates the visual attention concentration level Ps for each ideal gaze.

ここで、各進入路から交差点に進入する際の視覚的注意集中度Psの時間的変化を図15に示す。このような時間的変化はベクトル誤差演算部5の算出結果に基づくものである。図15のグラフは縦軸に視覚的注意集中度Ps、横軸に時間を示し、太線は直進、細線は左折、破線は右折の各進行方向に理想視線を設定した場合をそれぞれ示している。そして、図15(a)はA方向から進入する場合、図15(b)はB方向から進入する場合、図15(c)はC方向から進入する場合をそれぞれ示している。 Figure 15 shows the change over time in visual concentration level Ps when entering an intersection from each approach road. Such changes over time are based on the calculation results of the vector error calculation unit 5. The graph in Figure 15 shows visual concentration level Ps on the vertical axis and time on the horizontal axis, with the thick line indicating a straight line, the thin line indicating a left turn, and the dashed line indicating a right turn when the ideal line of sight is set for each direction of travel. Figure 15(a) shows the case of entering from direction A, Figure 15(b) shows the case of entering from direction B, and Figure 15(c) shows the case of entering from direction C.

図15によれば、交差点に接近する際には、視覚的注意集中度Psが低下する傾向にあるが、図15(b)のように交差点の直近で急激に低下する場合もある。また、図15によれば、直進するために前をまっすぐ見たと仮定したときの視覚的注意集中度Psよりも、右折や左折のために視線を左右いずれかに向けたと仮定したときの視覚的注意集中度Psが低い傾向となった。 According to FIG. 15, visual concentration level Ps tends to decrease when approaching an intersection, but in some cases it drops sharply just before the intersection as in FIG. 15(b). Also, according to FIG. 15, visual concentration level Ps tends to be lower when it is assumed that the driver looks left or right to turn right or left than when it is assumed that the driver looks straight ahead to go straight.

次に、図15で算出された視覚的注意集中度Psの時間的変化を利用して右又は左方向の視覚的注意集中度Psと直進方向の視覚的注意集中度Psとの比を出力部6で算出する。算出した比の変化を図16に示す。図16のグラフは縦軸に比、横軸に時間を示し、太線は左折/直進比(L/C)、細線は右折/直進比(R/C)を示している。そして、図16(a)はA方向から進入する場合、図16(b)はB方向から進入する場合、図16(c)はC方向から進入する場合をそれぞれ示している。例えば図16(a)のIALはPSLA(A方向左視覚的注意集中度)/PSCA(A方向直進視覚的注意集中度)を示し、IARはPSRA(A方向右視覚的注意集中度)/PSCA(A方向直進視覚的注意集中度)を示している。図16(b)のIBL、IBR、図16(c)のICL、ICRも進入方向が異なるのみで意味は同じである。 Next, the output unit 6 calculates the ratio of the visual attention concentration level Ps in the right or left direction to the visual attention concentration level Ps in the straight direction by utilizing the change over time of the visual attention concentration level Ps calculated in FIG. 15. The change of the calculated ratio is shown in FIG. 16. In the graph of FIG. 16, the vertical axis indicates the ratio and the horizontal axis indicates the time, the thick line indicates the left turn/straight-going ratio (L/C), and the thin line indicates the right turn/straight-going ratio (R/C). FIG. 16(a) shows the case of entering from the A direction, FIG. 16(b) shows the case of entering from the B direction, and FIG. 16(c) shows the case of entering from the C direction. For example, I AL in FIG. 16(a) indicates PS LA (left visual attention concentration level in the A direction)/PS CA (straight-going visual attention concentration level in the A direction), and I AR indicates PS RA (right visual attention concentration level in the A direction)/PS CA (straight-going visual attention concentration level in the A direction). I BL and I BR in FIG. 16B and I CL and I CR in FIG. 16C have the same meaning but differ in the approach direction.

図16によれば、IALやIARといった視覚的注意集中度の比が1より小さいときは、直進するために視線を運ぶときより右左折するときに視線を運ぶときの方が運転者の集中度(=視覚的注意集中度Ps)が落ちる交差点であることを表しているといえる。逆に比が1より大きいときは、直進するときの視線で運転者の集中度が落ちる交差点であることを表しているといえる。 According to Fig. 16, when the ratio of visual attention concentration levels such as I AL and I AR is smaller than 1, it can be said that the intersection is one where the driver's concentration level (= visual attention concentration level Ps) is lower when the driver looks to turn right or left than when the driver looks to go straight. Conversely, when the ratio is larger than 1, it can be said that the intersection is one where the driver's concentration level is lower when the driver looks to go straight.

したがって、出力部6では、上記のような視覚的注意集中度Psの時間的変化や視覚的注意集中度Psの比に基づいて対象とする交差点のリスクの状態を判定して、判定結果をリスクに関する情報として出力することが可能となる。 Therefore, the output unit 6 can determine the risk state of the target intersection based on the temporal change in the visual attention concentration level Ps and the ratio of the visual attention concentration levels Ps as described above, and output the determination result as information related to the risk.

次に、本実施例にかかる情報処理装置1における動作(情報処理方法)について、図17のフローチャートを参照して説明する。 Next, the operation (information processing method) of the information processing device 1 according to this embodiment will be described with reference to the flowchart in FIG. 17.

まず、画像入力部2が、入力された画像を画像データとして視覚顕著性演算部3に出力する(ステップS21)。本ステップでは、図13のように、交差点の各進入路から交差点方向へ進入する画像を取得する。このとき、画像だけでなく位置情報や時刻情報も同時に取得するとよい。位置情報によってどの方向からの進入かが把握でき、時刻情報により朝昼夜等の時間帯ごとに分析が可能となることや交差点への進入速度を算出することも可能となる。 First, the image input unit 2 outputs the input image to the visual saliency calculation unit 3 as image data (step S21). In this step, as shown in FIG. 13, images of vehicles approaching the intersection from each approach road are acquired. At this time, it is advisable to acquire not only the images but also location information and time information at the same time. The location information makes it possible to determine the direction of approach, and the time information makes it possible to analyze by time period, such as morning, afternoon, and night, and also to calculate the approach speed to the intersection.

次に、視覚顕著性演算部3が、視覚顕著性マップを取得する(ステップS22)。各進入路からの画像に基づいて視覚顕著性マップを取得する。一方、ステップS22と並行して、視線座標設定部4が、理想視線の座標を設定する(ステップS23)。ステップS23における理想視線は、図14のように、各進行方向(退出路)に設定する。 Next, the visual saliency calculation unit 3 acquires a visual saliency map (step S22). The visual saliency map is acquired based on images from each entry road. Meanwhile, in parallel with step S22, the gaze coordinate setting unit 4 sets the coordinates of the ideal gaze (step S23). The ideal gaze in step S23 is set for each travel direction (exit road), as shown in FIG. 14.

次に、ベクトル誤差演算部5が、視覚顕著性マップ及び理想視線から視覚的注意集中度Psを算出する(ステップS24)。本ステップでは、図14に示したように理想視線が設定された退出路毎に視覚的注意集中度Psを算出する。また、視覚的注意集中度Psは、図15に示したように時系列に算出する。 Next, the vector error calculation unit 5 calculates the visual attention concentration level Ps from the visual saliency map and the ideal line of sight (step S24). In this step, the visual attention concentration level Ps is calculated for each exit route for which the ideal line of sight is set, as shown in FIG. 14. In addition, the visual attention concentration level Ps is calculated in time series, as shown in FIG. 15.

次に、出力部6が、ステップS24で算出された視覚的注意集中度Psに基づいて当該交差点のリスクを判定する(ステップS25)。例えば、視覚的注意集中度Psが交差点の接近段階で急激に変化することが、複数方向からの進入路であった場合はリスク有(あるいはリスク高)の交差点と判定する。または、上述した比が交差点の接近段階で1より小さいことが複数方向からの進入路であった場合はリスク有(あるいはリスク高)の交差点と判定する。また、これらの条件の両方が成立した場合にリスク有(あるいはリスク高)の交差点と判定してもよい。さらには、上記条件を満たすのが複数回あった場合にリスク有(あるいはリスク高)の交差点と判定してもよい。複数回とは、同じ交差点について異なる時間に(あるいは異なる車両で)撮像された画像に基づいて本フローチャートを複数回実行したことをいう。 Next, the output unit 6 judges the risk of the intersection based on the visual attention concentration level Ps calculated in step S24 (step S25). For example, if the visual attention concentration level Ps changes suddenly when approaching the intersection and the intersection is an approach road from multiple directions, the intersection is judged to be risky (or high risk). Alternatively, if the above-mentioned ratio is smaller than 1 when approaching the intersection and the intersection is an approach road from multiple directions, the intersection is judged to be risky (or high risk). Alternatively, the intersection may be judged to be risky (or high risk) if both of these conditions are met. Furthermore, the intersection may be judged to be risky (or high risk) if the above conditions are met multiple times. "Multiple times" refers to the execution of this flowchart multiple times based on images taken of the same intersection at different times (or by different vehicles).

そして、出力部6は、ステップS25の判定結果をリスク情報として出力する(ステップS26)。 Then, the output unit 6 outputs the judgment result of step S25 as risk information (step S26).

以上の説明から明らかなように、ステップS22が取得工程、ステップS23視線位置設定工程、ステップS24が視覚的注意集中度算出工程、ステップS25、S26が出力工程としてそれぞれ機能する。 As is clear from the above explanation, step S22 functions as an acquisition process, step S23 functions as a gaze position setting process, step S24 functions as a visual attention concentration calculation process, and steps S25 and S26 function as output processes.

本実施例によれば、情報処理装置1は、視覚顕著性演算部3が、交差点に進入する際の道路である進入路毎の画像から、当該画像内における視覚顕著性の高低を推測して得られた視覚顕著性マップを進入路毎に取得し、視線座標設定部4が、視覚顕著性マップについて、交差点に進入後抜け出す道路となる退出路毎に、画像における理想視線の座標をそれぞれ設定する。そして、ベクトル誤差演算部5、視覚顕著性マップと理想視線とに基づいて画像における退出路毎の視覚的注意集中度Psを算出して、出力部6が、退出路毎に算出された視覚的注意集中度Psに基づいて交差点におけるリスク情報を出力する。このようにすることにより、対象とする交差点についてリスクを評価してリスク情報を出力することができる。 According to this embodiment, the information processing device 1 has a visual saliency calculation unit 3 that obtains a visual saliency map for each entry road, which is a road used when entering an intersection, by estimating the level of visual saliency in the image from the image of each entry road, and a gaze coordinate setting unit 4 that sets the coordinates of the ideal gaze in the image for each exit road, which is a road used to exit the intersection after entering, for the visual saliency map. Then, the vector error calculation unit 5 calculates the visual attention concentration level Ps for each exit road in the image based on the visual saliency map and the ideal gaze, and the output unit 6 outputs risk information at the intersection based on the visual attention concentration level Ps calculated for each exit road. In this way, it is possible to evaluate the risk for a target intersection and output risk information.

また、出力部6は、退出路のうち、直進する退出路の視覚的注意集中度Psと右折または左折する退出路の視覚的注意集中度Psとの比に基づいてリスク情報を出力している。このようにすることにより、直進する際と右左折する際でどちらに注意が向かい易いかを評価して、評価結果を出力することができる。 The output unit 6 also outputs risk information based on the ratio of the visual attention concentration level Ps of the exit route going straight to the visual attention concentration level Ps of the exit route turning right or left. In this way, it is possible to evaluate which direction the driver's attention is more likely to be directed to, going straight or turning right or left, and output the evaluation result.

また、出力部6は、視覚的注意集中度Psの時間的変化に基づいてリスク情報を出力してもよい。このようにすることにより、例えば視覚的注意集中度Psが急激に変化する場合等を検出してリスク情報を出力することができる。 The output unit 6 may also output risk information based on a change over time in the visual concentration level Ps. In this way, it is possible to detect, for example, a sudden change in the visual concentration level Ps and output risk information.

なお、第2の実施例において、例えば図14では、A方向から交差点に進入する場合は、右折(B方向へ向かう)の視覚的注意集中度Psが低下する。B方向から交差点に進入する場合は、右左折(A方向又はC方向へ向かう)の視覚的注意集中度Psが低下する。C方向から交差点に進入する場合は、右折の視覚的注意集中度Psが低下する。 In the second embodiment, for example, in FIG. 14, when entering the intersection from direction A, the visual attention concentration level Ps for turning right (toward direction B) decreases. When entering the intersection from direction B, the visual attention concentration level Ps for turning right or left (toward direction A or C) decreases. When entering the intersection from direction C, the visual attention concentration level Ps for turning right decreases.

この場合、例えばA方向から右折する経路と、B方向から左折する経路は、いずれも視覚的注意集中度Psが他の経路よりも低下する経路であり、さらに進入路と退出路とを入れ替えた場合に同じ経路となる。したがって、この交差点においては、この経路はリスク有(またはリスク高)といったリスクに関する情報を出力するようにしてもよい。 In this case, for example, the route turning right from direction A and the route turning left from direction B are both routes in which the visual attention concentration level Ps is lower than other routes, and furthermore, they become the same route when the entry road and exit road are swapped. Therefore, at this intersection, information regarding risk, such as "risky (or high risk)" for this route, may be output.

また、第2の実施例は、交差点について説明したが、この考え方を道路上のカーブに適用することもできる。図18を参照して説明する。 In addition, while the second example describes an intersection, this concept can also be applied to curves on a road. This will be explained with reference to Figure 18.

図18は、カーブしている道路の例である。この道路は、D方向(図下側)から左カーブとして通行する場合と、E方向(図左側)から右カーブとして通行する場合がある。ここで、例えばD方向からカーブに進入する場合、道路の湾曲方向である左方向に理想視線を設定するだけでなく、道路が直進していたと仮定した場合の方向(D’方向)にも理想視線を設定し、それぞれ視覚的注意集中度Psを算出する。E方向からカーブに進入する場合も同様に、道路の湾曲方向である右方向に理想視線を設定するだけでなく、道路が直進していたと仮定した場合の方向(E’方向)にも理想視線を設定し、それぞれ視覚的注意集中度Psを算出する。 Figure 18 is an example of a curved road. This road can be driven on as a left curve from direction D (bottom of the figure), or as a right curve from direction E (left side of the figure). Here, for example, when entering a curve from direction D, an ideal line of sight is not only set to the left, which is the direction in which the road curves, but also to the direction in which the road would have been if it had been going straight (direction D'), and a visual attention concentration level Ps is calculated for each. Similarly, when entering a curve from direction E, an ideal line of sight is not only set to the right, which is the direction in which the road curves, but also to the direction in which the road would have been if it had been going straight (direction E'), and a visual attention concentration level Ps is calculated for each.

そして、算出された視覚的注意集中度Psに基づいて交差点と同様に時系列の変化や比等に基づいてリスクを判定すればよい。 Then, based on the calculated visual attention concentration level Ps, risk can be determined based on time series changes, ratios, etc., in the same way as at intersections.

なお、図18のようにカーブの曲率が大きい場合は、直進方向のみでなく、カーブの湾曲方向と逆向きにも仮想的な理想視線を設定してもよい。図18であれば、D方向から進入する場合であれば、D’方向だけでなくE’方向にも理想視線を設定して視覚的注意集中度Psを算出してもよい。つまり、カーブの湾曲方向と異なる方向に理想視線を設定すればよい。 When the curvature of the curve is large as in Figure 18, the virtual ideal line of sight may be set not only in the straight-ahead direction but also in the direction opposite to the curvature of the curve. In Figure 18, if the vehicle is entering from direction D, the ideal line of sight may be set not only in direction D' but also in direction E' to calculate the visual attention concentration level Ps. In other words, the ideal line of sight may be set in a direction different from the curvature of the curve.

即ち、視覚顕著性演算部3が、道路上のカーブに進入する際の画像から、当該画像内における視覚顕著性の高低を推測して得られた視覚顕著性マップを取得し、視線座標設定部4が、視覚顕著性マップについて、カーブの湾曲方向及び湾曲方向と異なる方向に、画像における理想視線の座標をそれぞれ設定する。そして、ベクトル誤差演算部5が、視覚顕著性マップと理想視線とに基づいて画像における湾曲方向と湾曲方向と異なる方向の視覚的注意集中度Psを算出し、出力部6が、退出路毎に算出された視覚的注意集中度Psに基づいてカーブにおけるリスク情報を出力している。 That is, the visual saliency calculation unit 3 obtains a visual saliency map obtained by estimating the level of visual saliency in an image taken when entering a curve on a road, and the gaze coordinate setting unit 4 sets the coordinates of the ideal gaze in the image in the curvature direction of the curve and in a direction different from the curvature direction for the visual saliency map. Then, the vector error calculation unit 5 calculates the visual attention concentration level Ps in the curvature direction and in a direction different from the curvature direction in the image based on the visual saliency map and the ideal gaze, and the output unit 6 outputs risk information on the curve based on the visual attention concentration level Ps calculated for each exit route.

このようにすることにより、対象とするカーブについてリスクを評価してリスクに関する情報を出力することができる。 By doing this, it is possible to evaluate the risk for the target curve and output information related to the risk.

また、本発明は上記実施例に限定されるものではない。即ち、当業者は、従来公知の知見に従い、本発明の骨子を逸脱しない範囲で種々変形して実施することができる。かかる変形によってもなお本発明の情報処理装置を具備する限り、勿論、本発明の範疇に含まれるものである。 Furthermore, the present invention is not limited to the above-mentioned embodiment. In other words, a person skilled in the art can implement the present invention by modifying it in various ways in accordance with conventional knowledge without departing from the gist of the present invention. As long as the information processing device of the present invention is still included even after such modifications, it is of course included in the scope of the present invention.

1 情報処理装置(リスク情報出力装置)
2 画像入力部
3 視覚顕著性演算部(取得部)
4 視線座標設定部(視線位置設定部)
5 ベクトル誤差演算部(視覚的注意集中度算出部)
6 出力部
1. Information processing device (risk information output device)
2 Image input unit 3 Visual saliency calculation unit (acquisition unit)
4. Gaze coordinate setting unit (gaze position setting unit)
5. Vector error calculation unit (visual attention concentration calculation unit)
6 Output section

Claims (6)

移動体から外部を撮像した画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得する取得部と、
予め定めた規則に従って前記画像における基準視線位置を設定する視線位置設定部と、
前記視覚顕著性分布情報と前記基準視線位置とに基づいて前記画像における視覚的注意の集中度を算出する視覚的注意集中度算出部と、
を備え
前記視覚的注意集中度算出部は、視覚顕著性分布情報を構成する各画素の値と、前記各画素の位置と前記基準視線位置の座標位置とのベクトル誤差と、に基づいて、前記視覚顕著性分布情報上に設定した前記基準視線位置の座標からの全画素の座標の前記ベクトル誤差と前記画素の値との関係を重みづけした上で合計したものの逆数により前記視覚的注意の集中度を算出する、
ことを特徴とする情報処理装置。
an acquisition unit that acquires visual saliency distribution information obtained by estimating the level of visual saliency in an image captured from a moving object;
a gaze position setting unit that sets a reference gaze position in the image according to a predetermined rule;
a visual attention concentration degree calculation unit that calculates a visual attention concentration degree in the image based on the visual saliency distribution information and the reference gaze position;
Equipped with
the visual attention concentration level calculation unit calculates the visual attention concentration level by the reciprocal of a weighted sum of the vector errors of the coordinates of all pixels from the coordinates of the reference gaze position set on the visual saliency distribution information and the values of the pixels, based on a value of each pixel constituting the visual saliency distribution information and a vector error between the position of each pixel and a coordinate position of the reference gaze position;
23. An information processing apparatus comprising:
前記視覚的注意集中度の時間的変化に基づいて当該画像の示す地点におけるリスクに関する情報を出力する出力部を備えることを特徴とする請求項1に記載の情報処理装置。 The information processing device according to claim 1 , further comprising an output unit that outputs information relating to a risk at a location indicated by the image based on a temporal change in the degree of visual attention concentration. 前記取得部は、
前記画像を写像処理可能な中間データに変換する入力部と、
前記中間データを写像データに変換する非線形写像部と、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部と、を備え、
前記非線形写像部は、前記中間データに対し特徴の抽出を行う特徴抽出部と、前記特徴抽出部で生成されたデータのアップサンプルを行うアップサンプル部と、を備える、
ことを特徴とする請求項1からのうちいずれか一項に記載の情報処理装置。
The acquisition unit is
an input unit for converting the image into intermediate data that can be subjected to mapping processing;
a nonlinear mapping unit that converts the intermediate data into mapping data;
an output unit that generates saliency estimation information indicating a saliency distribution based on the mapping data,
The nonlinear mapping unit includes a feature extraction unit that extracts features from the intermediate data, and an upsampling unit that upsamples data generated by the feature extraction unit.
3. The information processing apparatus according to claim 1 , wherein the information processing apparatus further comprises: a first input section;
移動体から外部を撮像した画像に基づいて所定の情報処理を行う情報処理装置で実行される情報処理方法であって、
前記画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得する取得工程と、
予め定めた規則に従って前記画像における基準視線位置を設定する視線位置設定工程と、
前記視覚顕著性分布情報と前記基準視線位置とに基づいて前記画像における視覚的注意の集中度を算出する視覚的注意集中度算出工程と、
を含み、
前記視覚的注意集中度算出工程は、視覚顕著性分布情報を構成する各画素の値と、前記各画素の位置と前記基準視線位置の座標位置とのベクトル誤差と、に基づいて、前記視覚顕著性分布情報上に設定した前記基準視線位置の座標からの全画素の座標の前記ベクトル誤差と前記画素の値との関係を重みづけした上で合計したものの逆数により前記視覚的注意の集中度を算出する、
ことを特徴とする情報処理方法。
An information processing method executed by an information processing device that performs predetermined information processing based on an image captured from a moving object of the outside, comprising:
an acquisition step of acquiring visual saliency distribution information obtained by estimating the level of visual saliency in the image based on the image;
a gaze position setting step of setting a reference gaze position in the image according to a predetermined rule;
a visual attention concentration calculation step of calculating a visual attention concentration level in the image based on the visual saliency distribution information and the reference gaze position;
Including,
the visual attention concentration degree calculation step calculates the visual attention concentration degree by the reciprocal of a weighted sum of the vector errors of coordinates of all pixels from the coordinates of the reference gaze position set on the visual saliency distribution information and the values of the pixels, based on the values of each pixel constituting the visual saliency distribution information and the vector errors between the positions of the pixels and the coordinate positions of the reference gaze position;
23. An information processing method comprising:
請求項に記載の情報処理方法をコンピュータにより実行させることを特徴とする情報処理プログラム。 5. An information processing program for causing a computer to execute the information processing method according to claim 4 . 請求項に記載の情報処理プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。 6. A computer-readable storage medium storing the information processing program according to claim 5 .
JP2020040999A 2020-03-10 Information processing device Active JP7502051B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020040999A JP7502051B2 (en) 2020-03-10 Information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020040999A JP7502051B2 (en) 2020-03-10 Information processing device

Publications (2)

Publication Number Publication Date
JP2021144308A JP2021144308A (en) 2021-09-24
JP7502051B2 true JP7502051B2 (en) 2024-06-18

Family

ID=

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013009825A (en) 2011-06-29 2013-01-17 Denso Corp Visual confirmation load amount estimation device, drive support device and visual confirmation load amount estimation program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013009825A (en) 2011-06-29 2013-01-17 Denso Corp Visual confirmation load amount estimation device, drive support device and visual confirmation load amount estimation program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
加藤大貴 他1名,Dilated-CNNを用いた顕著性マップの生成,第24回 画像センシングシンポジウム,画像センシング技術研究会,2018年06月13日,IS2-15

Similar Documents

Publication Publication Date Title
JP7332726B2 (en) Detecting Driver Attention Using Heatmaps
US9384401B2 (en) Method for fog detection
KR20130012629A (en) Augmented reality system for head-up display
JP2023526329A (en) Scenario Identification for Validation and Training of Machine Learning Based Models for Autonomous Vehicles
JP7194130B2 (en) A method and apparatus for detecting emergency vehicles in real time and planning driving routes to deal with situations expected to be caused by emergency vehicles.
CN111091038A (en) Training method, computer readable medium, and method and apparatus for detecting vanishing points
KR20200043391A (en) Image processing, image processing method and program for image blur correction
WO2021163516A1 (en) Lane detection and distance estimation using single-view geometry
CN115705780A (en) Associating perceived and mapped lane edges for localization
JP7255608B2 (en) DISPLAY CONTROLLER, METHOD, AND COMPUTER PROGRAM
JP6891926B2 (en) Vehicle systems, methods performed on vehicle systems, and driver assistance systems
JP2024019588A (en) Map data generation device
JP2024060029A (en) Situation Output Device
JP2016143364A (en) Position identification equipment, position identification method, and program
WO2020208804A1 (en) Display control device, display control method, and display control program
KR20180047149A (en) Apparatus and method for risk alarming of collision
JP7502051B2 (en) Information processing device
CN113492756A (en) Method, device, equipment and storage medium for displaying vehicle external information
JP2024045550A (en) Risk information output device
JP2007280203A (en) Information presenting device, automobile and information presenting method
JP2010257234A (en) Information exhibition device for vehicle
WO2016096446A1 (en) Foreground-background differentiation in a vehicle
KR102181589B1 (en) method and system of providing augmented reality using automobile front view camera
JP2021144308A (en) Information processor
JP2024061803A (en) Judging device