JP2021157247A - Determination device - Google Patents

Determination device Download PDF

Info

Publication number
JP2021157247A
JP2021157247A JP2020054202A JP2020054202A JP2021157247A JP 2021157247 A JP2021157247 A JP 2021157247A JP 2020054202 A JP2020054202 A JP 2020054202A JP 2020054202 A JP2020054202 A JP 2020054202A JP 2021157247 A JP2021157247 A JP 2021157247A
Authority
JP
Japan
Prior art keywords
image
unit
visual
determination
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020054202A
Other languages
Japanese (ja)
Inventor
友二 伊藤
Tomoji Ito
友二 伊藤
俊明 井上
Toshiaki Inoue
俊明 井上
晃司 柴田
Koji Shibata
晃司 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2020054202A priority Critical patent/JP2021157247A/en
Publication of JP2021157247A publication Critical patent/JP2021157247A/en
Priority to JP2024036556A priority patent/JP2024061803A/en
Pending legal-status Critical Current

Links

Images

Abstract

To determine the possibility of occurrence of a safety problem such as an accident or a near-miss caused by a psychological burden.SOLUTION: In a determination device 1, a visual saliency calculation part 3, on the basis of an image of the outside photographed from a moving body, acquires a visual saliency map obtained by estimating the high/low level of visual saliency in the image, and a visual line coordinate setting part 4 sets a coordinate of an ideal visual line. Then, a vector error calculation part 5 calculates a visual attention concentration degree Ps in the image on the basis of the visual saliency map and the ideal visual line. A determination part 6 determines the possibility of occurrence of a safety problem such as a near-miss during running of the moving body on the basis of a temporal change amount in the visual attention concentration degree Ps.SELECTED DRAWING: Figure 1

Description

本発明は、移動体から外部を撮像した画像に基づいて所定の判定処理を行う判定装置に関する。 The present invention relates to a determination device that performs a predetermined determination process based on an image obtained by capturing an image of the outside from a moving body.

例えばドライブレコーダにおいては、車両の加速度に基づいて事故又はヒヤリハット等の発生を検出して、その発生前後の画像を記録している。 For example, in a drive recorder, the occurrence of an accident or a hilarious hat is detected based on the acceleration of the vehicle, and images before and after the occurrence are recorded.

特許文献1には、事故やヒヤリハットといったイベントを高精度に検出し、イベントの発生の原因を特定することができることができるドライブレコーダ装置の発明が記載されている。特許文献1に記載の発明では、加速度の変化量が加速側で発生した場合、制御部21は、アクセル開度の変化量が運転者の判断によって操作したと判断される一定値以下であるか否かを判別し、アクセル開度の変化量が一定値以下である場合、外部エネルギーによるイベントであると判断する。一方、アクセル開度の変化量が一定値を越える場合、制御部21は、運転手の判断によるイベントであると判断する。この場合、制御部21は、ヒヤリハットの事例として、イベント情報、各種センサで収集したデータ、および映像情報を記録部26に記録する。 Patent Document 1 describes an invention of a drive recorder device capable of detecting an event such as an accident or a hilarious hat with high accuracy and identifying the cause of the occurrence of the event. In the invention described in Patent Document 1, when the amount of change in acceleration occurs on the acceleration side, is the amount of change in accelerator opening of the control unit 21 equal to or less than a certain value determined to be operated by the driver's judgment? Whether or not it is determined, and if the amount of change in the accelerator opening is equal to or less than a certain value, it is determined that the event is due to external energy. On the other hand, when the amount of change in the accelerator opening exceeds a certain value, the control unit 21 determines that the event is determined by the driver. In this case, the control unit 21 records the event information, the data collected by various sensors, and the video information in the recording unit 26 as an example of the hearing hat.

特開2012−164131号公報Japanese Unexamined Patent Publication No. 2012-164131

加速度のみで事故やヒヤリハットと判定すると、急制動を伴わない例えば突然の車両の横からの侵入によるヒヤリハットや、漫然状態におけるヒヤリハットを検知することはできない。 If it is determined that an accident or a hiyari hat is based only on acceleration, it is not possible to detect a hiyari hat that is not accompanied by sudden braking, for example, due to a sudden intrusion from the side of a vehicle, or a hiyari hat in a loose state.

特許文献1に記載された発明では、アクセルの開度も判断の基準となっているため、急制動を伴わない例えば突然の車両の横からの侵入によるヒヤリハットや、漫然状態におけるヒヤリハットを検知することはできない。 In the invention described in Patent Document 1, since the opening degree of the accelerator is also a criterion for determination, it is possible to detect a hilarious hat caused by a sudden intrusion of a vehicle from the side without sudden braking, or a hilarious hat in a loose state. Can't.

本発明が解決しようとする課題としては、心理的負担がかかったことにより生じる事故やヒヤリハットといった安全上の問題が発生した疑いを判定することが一例として挙げられる。 As an example of the problem to be solved by the present invention, it is possible to determine the suspicion that a safety problem such as an accident or a hiyari hat caused by a psychological burden has occurred.

上記課題を解決するために、請求項1に記載の発明は、移動体から外部を撮像した画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得する取得部と、予め定めた規則に従って前記画像における基準視線位置を設定する視線位置設定部と、前記視覚顕著性分布情報と前記視線位置とに基づいて前記画像における視覚的注意の集中度を算出する視覚的注意集中度算出部と、前記視覚的注意の集中度の時間的な変化量に基づいて、前記移動体の走行中に安全上の問題が発生した疑いがあると判定する判定部と、を備えることを特徴としている。 In order to solve the above problem, the invention according to claim 1 is based on an image obtained by capturing an image of the outside from a moving body, and the visual saliency distribution information obtained by estimating the level of visual saliency in the image. The degree of concentration of visual attention in the image based on the acquisition unit for acquiring the image, the line-of-sight position setting unit for setting the reference line-of-sight position in the image according to a predetermined rule, and the visual saliency distribution information and the line-of-sight position. Judgment that there is a suspicion that a safety problem has occurred while the moving object is running, based on the visual attention concentration calculation unit that calculates It is characterized by having a part and.

請求項5に記載の発明は、移動体から外部を撮像した画像に基づいて所定の判定処理を行う判定装置で実行される判定方法であって、前記画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得する取得工程と、予め定めた規則に従って前記画像における基準視線位置を設定する視線位置設定工程と、前記視覚顕著性分布情報と前記視線位置とに基づいて前記画像における視覚的注意の集中度を算出する視覚的注意集中度算出工程と、前記視覚的注意の集中度の時間的な変化量に基づいて、前記移動体の走行中に安全上の問題が発生した疑いがあると判定する判定工程と、を含むことを特徴としている。 The invention according to claim 5 is a determination method executed by a determination device that performs a predetermined determination process based on an image obtained by capturing an image of the outside from a moving body, and is visually remarkable in the image based on the image. An acquisition step of acquiring visual saliency distribution information obtained by estimating the level of sexuality, a line-of-sight position setting step of setting a reference line-of-sight position in the image according to a predetermined rule, the visual saliency distribution information and the above. The moving body is traveling based on the visual attention concentration calculation step of calculating the concentration of visual attention in the image based on the line-of-sight position and the temporal change amount of the concentration of visual attention. It is characterized by including a determination step of determining that there is a suspicion that a safety problem has occurred.

請求項6に記載の発明は、請求項5に記載の判定方法をコンピュータにより実行させることを特徴としている。 The invention according to claim 6 is characterized in that the determination method according to claim 5 is executed by a computer.

請求項7に記載の発明は、請求項6に記載の判定プログラムを格納したことを特徴としている。 The invention according to claim 7 is characterized in that the determination program according to claim 6 is stored.

本発明の第1の実施例にかかる判定装置を有するシステムの概略構成図である。It is a schematic block diagram of the system which has the determination apparatus which concerns on 1st Embodiment of this invention. 図1に示された判定装置の機能構成図である。It is a functional block diagram of the determination device shown in FIG. 図1に示された視覚顕著性演算部の構成を例示するブロック図である。It is a block diagram which illustrates the structure of the visual saliency calculation part shown in FIG. (a)は判定装置へ入力する画像を例示する図であり、(b)は(a)に対し推定される、視覚顕著性マップを例示する図である。(A) is a diagram exemplifying an image to be input to the determination device, and (b) is a diagram exemplifying a visual saliency map estimated with respect to (a). 図1に示された視覚顕著性演算部の処理方法を例示するフローチャートである。It is a flowchart which illustrates the processing method of the visual saliency calculation part shown in FIG. 非線形写像部の構成を詳しく例示する図である。It is a figure which exemplifies the structure of the nonlinear mapping part in detail. 中間層の構成を例示する図である。It is a figure which illustrates the structure of the intermediate layer. (a)および(b)はそれぞれ、フィルタで行われる畳み込み処理の例を示す図である。(A) and (b) are diagrams showing an example of a convolution process performed by a filter, respectively. (a)は、第1のプーリング部の処理を説明するための図であり、(b)は、第2のプーリング部の処理を説明するための図であり、(c)は、アンプーリング部の処理を説明するための図である。(A) is a diagram for explaining the processing of the first pooling unit, (b) is a diagram for explaining the processing of the second pooling unit, and (c) is a diagram for explaining the processing of the second pooling unit. It is a figure for demonstrating the process of. ベクトル誤差の説明図である。It is explanatory drawing of a vector error. 図1に示された画像入力部に入力された画像と、その画像から取得された視覚顕著性マップの例である。This is an example of an image input to the image input unit shown in FIG. 1 and a visual saliency map acquired from the image. 視覚的注意集中度の時間的変化の例を示したグラフである。It is a graph which showed the example of the temporal change of the degree of visual attention concentration. 図1に示された判定装置の動作のフローチャートである。It is a flowchart of the operation of the determination device shown in FIG. 判定装置の出力の画面例である。This is a screen example of the output of the judgment device.

以下、本発明の一実施形態にかかる判定装置を説明する。本発明の一実施形態にかかる判定装置は、取得部が、移動体から外部を撮像した画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得し、視線位置設定部が、予め定めた規則に従って画像における基準視線位置を設定する。そして、視覚的注意集中度算出部が、視覚顕著性分布情報と視線位置とに基づいて画像における視覚的注意の集中度を算出する。そして、判定部が、視覚的注意の集中度の時間的な変化量に基づいて、移動体の走行中に安全上の問題が発生した疑いがあると判定する。このようにすることにより、視覚顕著性分布情報を用いるため、画像内に含まれる標識や歩行者といった物体に視線が無意識に集中しやすいという文脈的な注意状態の時間的な変化量に基づいて安全上の問題が発生した疑いがあると判定することができる。したがって、画像のみで心理的負担がかかったことにより生じる事故やヒヤリハットといった安全上の問題が発生した疑いを判定することができる。 Hereinafter, a determination device according to an embodiment of the present invention will be described. In the determination device according to the embodiment of the present invention, the acquisition unit estimates the visual saliency distribution information in the image based on the image obtained by capturing the outside from the moving body, and obtains the visual saliency distribution information. Acquired, the line-of-sight position setting unit sets the reference line-of-sight position in the image according to a predetermined rule. Then, the visual attention concentration calculation unit calculates the concentration of visual attention in the image based on the visual saliency distribution information and the line-of-sight position. Then, the determination unit determines that there is a suspicion that a safety problem has occurred while the moving body is traveling, based on the amount of change in the degree of concentration of visual attention over time. By doing so, since the visual saliency distribution information is used, it is based on the amount of temporal change in the contextual attention state that the line of sight tends to be unconsciously focused on an object such as a sign or a pedestrian included in the image. It can be determined that a safety problem has occurred. Therefore, it is possible to determine the suspicion that a safety problem such as an accident or a hiyari hat caused by a psychological burden is caused only by the image.

また、視覚的注意集中度算出部は、視覚顕著性分布情報を構成する各画素の値と、各画素の位置と基準視線位置の座標位置とのベクトル誤差と、に基づいて視覚的注意の集中度を算出してもよい。このようにすることにより、視覚顕著性が高い位置と基準視線位置との差に応じた値が視覚的注意の集中度として算出される。したがって、例えば、視覚顕著性が高い位置と基準視線位置との距離に応じて視覚的注意の集中度の値が変化するようにできる。 In addition, the visual attention concentration calculation unit concentrates visual attention based on the value of each pixel constituting the visual saliency distribution information and the vector error between the position of each pixel and the coordinate position of the reference line-of-sight position. The degree may be calculated. By doing so, a value corresponding to the difference between the position where the visual prominence is high and the reference line-of-sight position is calculated as the degree of concentration of visual attention. Therefore, for example, the value of the degree of concentration of visual attention can be changed according to the distance between the position where the visual prominence is high and the reference line-of-sight position.

また、判定部の判定結果に関する情報を出力する出力部を備えてもよい。このようにすることにより、判定結果や判定結果に基づく情報等を外部に表示等して伝達することができる。 Further, an output unit that outputs information regarding the determination result of the determination unit may be provided. By doing so, it is possible to display and transmit the determination result and the information based on the determination result to the outside.

また、画像は、移動体が備えるセンサにより移動体の急制動加速度が検出されたことにより得られたものであってもよい。このようにすることにより、例えばドライブレコーダ等において、急制動の検出に基づいて抽出された画像について、さらにヒヤリハット等の判定をすることができるため、人手による手間を省くことができる。 Further, the image may be obtained by detecting the sudden braking acceleration of the moving body by the sensor provided in the moving body. By doing so, for example, in a drive recorder or the like, the image extracted based on the detection of sudden braking can be further determined to be a hilarious hat or the like, so that manual labor can be saved.

また、取得部は、画像を写像処理可能な中間データに変換する入力部と、中間データを写像データに変換する非線形写像部と、写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部と、を備え、非線形写像部は、中間データに対し特徴の抽出を行う特徴抽出部と、特徴抽出部で生成されたデータのアップサンプルを行うアップサンプル部と、を備えてもよい。このようにすることにより、小さな計算コストで、視覚顕著性を推定することができる。また、このようにして推定した視覚顕著性は、文脈的な注意状態を反映したものとなる。 In addition, the acquisition unit generates an input unit that converts an image into intermediate data that can be mapped, a non-linear mapping unit that converts intermediate data into mapping data, and saliency estimation information that shows a saliency distribution based on the mapping data. The non-linear mapping unit may include an output unit, a feature extraction unit that extracts features from intermediate data, and an upsample unit that upsamples the data generated by the feature extraction unit. By doing so, the visual prominence can be estimated at a small calculation cost. Moreover, the visual saliency estimated in this way reflects the contextual attention state.

また、本発明の一実施形態にかかる情報処理方法は、取得工程で、移動体から外部を撮像した画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得し、視線位置設定工程で、予め定めた規則に従って画像における基準視線位置を設定する。そして、視覚的注意集中度算出工程で、視覚顕著性分布情報と視線位置とに基づいて画像における視覚的注意の集中度を算出する。そして、判定工程で、視覚的注意の集中度の時間的な変化量に基づいて、移動体の走行中に安全上の問題が発生した疑いがあると判定する。このようにすることにより、視覚顕著性分布情報を用いるため、画像内に含まれる標識や歩行者といった物体に視線が無意識に集中しやすいという文脈的な注意状態の時間的な変化量に基づいて安全上の問題が発生した疑いがあると判定することができる。したがって、画像のみで心理的負担がかかったことにより生じる事故やヒヤリハットといった安全上の問題が発生した疑いを判定することができる。 Further, the information processing method according to the embodiment of the present invention is obtained by estimating the high and low visual saliency in the image based on the image obtained by capturing the outside from the moving body in the acquisition step. Distribution information is acquired, and in the line-of-sight position setting step, the reference line-of-sight position in the image is set according to a predetermined rule. Then, in the visual attention concentration calculation step, the concentration of visual attention in the image is calculated based on the visual saliency distribution information and the line-of-sight position. Then, in the determination step, it is determined that there is a suspicion that a safety problem has occurred while the moving body is traveling, based on the amount of change in the degree of concentration of visual attention over time. By doing so, since the visual saliency distribution information is used, it is based on the amount of temporal change in the contextual attention state that the line of sight tends to be unconsciously focused on an object such as a sign or a pedestrian included in the image. It can be determined that a safety problem has occurred. Therefore, it is possible to determine the suspicion that a safety problem such as an accident or a hiyari hat caused by a psychological burden is caused only by the image.

また、上述した情報処理方法を、コンピュータにより実行させている。このようにすることにより、コンピュータを用いて安全上の問題が発生した疑いがあると判定することができる。したがって、画像のみで精度良く事故やヒヤリハットといった安全上の問題が発生した疑いを判定することができる。 Further, the above-mentioned information processing method is executed by a computer. By doing so, it is possible to determine that there is a suspicion that a safety problem has occurred using a computer. Therefore, it is possible to accurately determine the suspicion that a safety problem such as an accident or a hiyari hat has occurred using only the image.

また、上述した情報処理プログラムをコンピュータ読み取り可能な記憶媒体に格納してもよい。このようにすることにより、当該プログラムを機器に組み込む以外に単体でも流通させることができ、バージョンアップ等も容易に行える。 Further, the above-mentioned information processing program may be stored in a computer-readable storage medium. By doing so, the program can be distributed as a single unit in addition to being incorporated in the device, and version upgrades and the like can be easily performed.

本発明の一実施例にかかる判定装置を図1〜図14を参照して説明する。本実施例にかかる判定装置は、例えば自動車等の移動体に設置されるに限らず、事業所等に設置されるサーバ装置等で構成してもよい(図1を参照)。即ち、リアルタイムに解析する必要はなく、走行後等に解析を行ってもよい。 A determination device according to an embodiment of the present invention will be described with reference to FIGS. 1 to 14. The determination device according to this embodiment is not limited to being installed in a moving body such as an automobile, for example, and may be configured by a server device or the like installed in a business establishment or the like (see FIG. 1). That is, it is not necessary to analyze in real time, and the analysis may be performed after running or the like.

図1は、判定装置をサーバ装置で構成した例である。図1では、車両Vに搭載されているドライブレコーダ10において、加速度センサ等の車両挙動検出部11によって急制動や急加速、その他の衝撃等により大きな加速度が検出された場合に、その前後の所定期間の画像(動画像)をインターネット等のネットワークNを介して判定装置1に送信している。なお、図2に示した車両挙動検出部11は、加速度センサに限らず、車両Vに搭載されているABS(Anti-lock Braking System)や横滑り防止装置等であってもよい。これらの装置(センサ)が作動したことをトリガとして前後の所定期間の画像を送信あるいは保存すればよい。このような急制動等が検出された画像を後述する処理の対象とすることで、ある程度絞られた画像に対して処理を実行することができ、処理を行う時間(処理量)を削減することができる。なお、図1のような通信で送信する形態に限らず、サーバ装置1に接続されたハードディスクドライブやメモリカード等の記録媒体から読み出した画像であってもよい。また、判定装置はサーバ装置に限らず、判定手段等が組み込まれた車載機器や、自宅や事業所のPC端末であってもよいし、これらの機器とサーバとで処理を分散するように構成されていてもよい。 FIG. 1 is an example in which the determination device is configured as a server device. In FIG. 1, when a drive recorder 10 mounted on a vehicle V detects a large acceleration due to sudden braking, sudden acceleration, or other impact by a vehicle behavior detection unit 11 such as an acceleration sensor, predetermined values before and after the detection are detected. The image (moving image) of the period is transmitted to the determination device 1 via the network N such as the Internet. The vehicle behavior detection unit 11 shown in FIG. 2 is not limited to the acceleration sensor, but may be an ABS (Anti-lock Braking System) mounted on the vehicle V, an electronic stability control system, or the like. Images for a predetermined period before and after may be transmitted or stored with the activation of these devices (sensors) as a trigger. By targeting an image in which such sudden braking is detected as a processing target described later, it is possible to execute processing on an image narrowed down to some extent and reduce the processing time (processing amount). Can be done. The image is not limited to the form of transmission by communication as shown in FIG. 1, and may be an image read from a recording medium such as a hard disk drive or a memory card connected to the server device 1. Further, the determination device is not limited to the server device, but may be an in-vehicle device incorporating a determination means or the like, or a PC terminal at home or office, and is configured to distribute processing between these devices and the server. It may have been done.

図2に示したように、判定装置1は、画像入力部2と、視覚顕著性演算部3と、視線座標設定部4と、ベクトル誤差演算部5と、判定部6と、を備えている。 As shown in FIG. 2, the determination device 1 includes an image input unit 2, a visual saliency calculation unit 3, a line-of-sight coordinate setting unit 4, a vector error calculation unit 5, and a determination unit 6. ..

画像入力部2は、例えば上述したドライブレコーダ等のカメラなどで撮像された画像(例えば動画像)が入力され、その画像を画像データとして出力する。なお、入力された動画像は、例えばフレーム毎等の時系列に分解された画像データとして出力する。画像入力部2に入力される画像として静止画を入力してもよいが、時系列に沿った複数の静止画からなる画像群として入力するのが好ましい。 The image input unit 2 inputs, for example, an image (for example, a moving image) captured by a camera such as the drive recorder described above, and outputs the image as image data. The input moving image is output as image data decomposed in time series such as for each frame. A still image may be input as an image to be input to the image input unit 2, but it is preferable to input as an image group composed of a plurality of still images in chronological order.

画像入力部2に入力される画像は、例えば車両の進行方向が撮像された画像が挙げられる。つまり、移動体から外部を連続的に撮像した画像とする。この画像はいわゆるパノラマ画像や複数カメラを用いて取得した画像等の水平方向に180°や360°等進行方向以外が含まれる画像であってもよい。また、画像入力部2には入力されるのは、カメラで撮像された画像に限らず、上述したようにハードディスクドライブやメモリカード等の記録媒体から読み出した画像であってもよい。 Examples of the image input to the image input unit 2 include an image in which the traveling direction of the vehicle is captured. That is, the image is obtained by continuously capturing the outside from the moving body. This image may be an image including a so-called panoramic image, an image acquired by using a plurality of cameras, or the like, which includes a direction other than the traveling direction such as 180 ° or 360 ° in the horizontal direction. Further, what is input to the image input unit 2 is not limited to the image captured by the camera, but may be an image read from a recording medium such as a hard disk drive or a memory card as described above.

視覚顕著性演算部3は、画像入力部2から画像データが入力され、後述する視覚顕著性推定情報として視覚顕著性マップを出力する。即ち、視覚顕著性演算部3は、移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性マップ(視覚顕著性分布情報)を取得する取得部として機能する。 The visual saliency calculation unit 3 receives image data from the image input unit 2 and outputs a visual saliency map as visual saliency estimation information described later. That is, the visual saliency calculation unit 3 is a acquisition unit that acquires a visual saliency map (visual saliency distribution information) obtained by estimating the height of the visual saliency based on an image obtained by capturing the outside from a moving body. Function.

図3は、視覚顕著性演算部3の構成を例示するブロック図である。本実施例に係る視覚顕著性演算部3は、入力部310、非線形写像部320、出力部330および記憶部390を備える。入力部310は、画像を写像処理可能な中間データに変換する。非線形写像部320は、中間データを写像データに変換する。出力部330は、写像データに基づき顕著性分布を示す顕著性推定情報を生成する。そして、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322とを備える。記憶部390は、画像入力部2から入力された画像データや後述するフィルタの係数等が保持されている。以下に詳しく説明する。 FIG. 3 is a block diagram illustrating the configuration of the visual saliency calculation unit 3. The visual saliency calculation unit 3 according to this embodiment includes an input unit 310, a non-linear mapping unit 320, an output unit 330, and a storage unit 390. The input unit 310 converts the image into intermediate data that can be mapped. The non-linear mapping unit 320 converts the intermediate data into mapping data. The output unit 330 generates saliency estimation information showing a saliency distribution based on the mapping data. The nonlinear mapping unit 320 includes a feature extraction unit 321 that extracts features from the intermediate data, and an upsampling unit 322 that upsamples the data generated by the feature extraction unit 321. The storage unit 390 holds the image data input from the image input unit 2, the coefficient of the filter described later, and the like. This will be described in detail below.

図4(a)は、視覚顕著性演算部3へ入力する画像を例示する図であり、図4(b)は、図4(a)に対し推定される、視覚顕著性分布を示す画像を例示する図である。本実施例に係る視覚顕著性演算部3は、画像における各部分の視覚顕著性を推定する装置である。視覚顕著性とは例えば、目立ちやすさや視線の集まりやすさを意味する。具体的には視覚顕著性は、確率等で示される。ここで、確率の大小は、たとえばその画像を見た人の視線がその位置に向く確率の大小に対応する。 FIG. 4 (a) is a diagram illustrating an image to be input to the visual saliency calculation unit 3, and FIG. 4 (b) is an image showing a visual saliency distribution estimated with respect to FIG. 4 (a). It is a figure which exemplifies. The visual saliency calculation unit 3 according to the present embodiment is a device that estimates the visual saliency of each part in the image. Visual prominence means, for example, the ease of conspicuousness and the ease of gathering eyes. Specifically, the visual prominence is indicated by a probability or the like. Here, the magnitude of the probability corresponds to, for example, the magnitude of the probability that the line of sight of the person who sees the image points to the position.

図4(a)と図4(b)とは、互いに位置が対応している。そして、図4(a)において、視覚顕著性が高い位置ほど、図4(b)において輝度が高く表示されている。図4(b)のような視覚顕著性分布を示す画像は、出力部330が出力する視覚顕著性マップの一例である。本図の例において、視覚顕著性は、256階調の輝度値で可視化されている。出力部330が出力する視覚顕著性マップの例については詳しく後述する。 The positions of FIGS. 4 (a) and 4 (b) correspond to each other. Then, in FIG. 4A, the higher the visual prominence is, the higher the brightness is displayed in FIG. 4B. The image showing the visual saliency distribution as shown in FIG. 4B is an example of the visual saliency map output by the output unit 330. In the example of this figure, the visual saliency is visualized by the luminance value of 256 gradations. An example of the visual saliency map output by the output unit 330 will be described in detail later.

図5は、本実施例に係る視覚顕著性演算部3の動作を例示するフローチャートである。図5に示したフローチャートは、コンピュータによって実行される判定方法の一部であって、入力ステップS110、非線形写像ステップS120、および出力ステップS130を含む。入力ステップS110では、画像が写像処理可能な中間データに変換される。非線形写像ステップS120では、中間データが写像データに変換される。出力ステップS130では、写像データに基づき顕著性分布を示す視覚顕著性推定情報(視覚顕著性分布情報)が生成される。ここで、非線形写像ステップS120は、中間データに対し特徴の抽出を行う特徴抽出ステップS121と、特徴抽出ステップS121で生成されたデータのアップサンプルを行うアップサンプルステップS122とを含む。 FIG. 5 is a flowchart illustrating the operation of the visual saliency calculation unit 3 according to the present embodiment. The flowchart shown in FIG. 5 is part of a determination method performed by a computer and includes an input step S110, a non-linear mapping step S120, and an output step S130. In the input step S110, the image is converted into intermediate data that can be mapped. In the nonlinear mapping step S120, the intermediate data is converted into mapping data. In the output step S130, visual saliency estimation information (visual saliency distribution information) showing a saliency distribution is generated based on the mapping data. Here, the nonlinear mapping step S120 includes a feature extraction step S121 for extracting features from the intermediate data and an upsampling step S122 for upsampling the data generated in the feature extraction step S121.

図3に戻り、視覚顕著性演算部3の各構成要素について説明する。入力ステップS110において入力部310は、画像を取得し、中間データに変換する。入力部310は、画像データを画像入力部2から取得する。そして入力部310は、取得した画像を中間データに変換する。中間データは非線形写像部320が受け付け可能なデータであれば特に限定されないが、たとえば高次元テンソルである。また、中間データはたとえば、取得した画像に対し輝度を正規化したデータ、または、取得した画像の各画素を、輝度の傾きに変換したデータである。入力ステップS110において入力部310は、さらに画像のノイズ除去や解像度変換等を行っても良い。 Returning to FIG. 3, each component of the visual saliency calculation unit 3 will be described. In the input step S110, the input unit 310 acquires an image and converts it into intermediate data. The input unit 310 acquires image data from the image input unit 2. Then, the input unit 310 converts the acquired image into intermediate data. The intermediate data is not particularly limited as long as it is data that can be accepted by the nonlinear mapping unit 320, but is, for example, a high-dimensional tensor. Further, the intermediate data is, for example, data in which the brightness of the acquired image is normalized, or data in which each pixel of the acquired image is converted into a slope of the brightness. In the input step S110, the input unit 310 may further perform image noise removal, resolution conversion, and the like.

非線形写像ステップS120において、非線形写像部320は入力部310から中間データを取得する。そして、非線形写像部320において中間データが写像データに変換される。ここで、写像データは例えば高次元テンソルである。非線形写像部320で中間データに施される写像処理は、たとえばパラメータ等により制御可能な写像処理であり、関数、汎関数、またはニューラルネットワークによる処理であることが好ましい。 In the nonlinear mapping step S120, the nonlinear mapping unit 320 acquires intermediate data from the input unit 310. Then, the non-linear mapping unit 320 converts the intermediate data into mapping data. Here, the mapping data is, for example, a high-dimensional tensor. The mapping process applied to the intermediate data by the nonlinear mapping unit 320 is, for example, a mapping process that can be controlled by a parameter or the like, and is preferably a function, a functional, or a neural network process.

図6は、非線形写像部320の構成を詳しく例示する図であり、図7は、中間層323の構成を例示する図である。上記した通り、非線形写像部320は、特徴抽出部321およびアップサンプル部322を備える。特徴抽出部321において特徴抽出ステップS121が行われ、アップサンプル部322においてアップサンプルステップS122が行われる。また、本図の例において、特徴抽出部321およびアップサンプル部322の少なくとも一方は、複数の中間層323を含むニューラルネットワークを含んで構成される。ニューラルネットワークにおいては、複数の中間層323が結合されている。 FIG. 6 is a diagram illustrating the configuration of the nonlinear mapping unit 320 in detail, and FIG. 7 is a diagram illustrating the configuration of the intermediate layer 323. As described above, the nonlinear mapping unit 320 includes a feature extraction unit 321 and an upsampling unit 322. The feature extraction step S121 is performed in the feature extraction unit 321, and the upsample step S122 is performed in the upsample unit 322. Further, in the example of this figure, at least one of the feature extraction unit 321 and the upsampling unit 322 is configured to include a neural network including a plurality of intermediate layers 323. In the neural network, a plurality of intermediate layers 323 are connected.

特にニューラルネットワークは畳み込みニューラルネットワークであることが好ましい。具体的には、複数の中間層323のそれぞれは、一または二以上の畳み込み層324を含む。そして、畳み込み層324では、入力されたデータに対し複数のフィルタ325による畳み込みが行われ、複数のフィルタ325の出力に対し活性化処理が施される。 In particular, the neural network is preferably a convolutional neural network. Specifically, each of the plurality of intermediate layers 323 includes one or more convolutional layers 324. Then, in the convolution layer 324, the input data is convolved by the plurality of filters 325, and the outputs of the plurality of filters 325 are activated.

図6の例において、特徴抽出部321は、複数の中間層323を含むニューラルネットワークを含んで構成され、複数の中間層323の間に第1のプーリング部326を備える。また、アップサンプル部322は、複数の中間層323を含むニューラルネットワークを含んで構成され、複数の中間層323の間にアンプーリング部328を備える。さらに、特徴抽出部321とアップサンプル部322とは、オーバーラッププーリングを行う第2のプーリング部327を介して互いに接続されている。 In the example of FIG. 6, the feature extraction unit 321 is configured to include a neural network including a plurality of intermediate layers 323, and includes a first pooling unit 326 between the plurality of intermediate layers 323. Further, the upsampling unit 322 is configured to include a neural network including a plurality of intermediate layers 323, and an amplifiering unit 328 is provided between the plurality of intermediate layers 323. Further, the feature extraction unit 321 and the upsampling unit 322 are connected to each other via a second pooling unit 327 that performs overlap pooling.

なお、本図の例において各中間層323は、二以上の畳み込み層324からなる。ただし、少なくとも一部の中間層323は、一の畳み込み層324のみからなってもよい。互いに隣り合う中間層323は、第1のプーリング部326、第2のプーリング部327およびアンプーリング部328のいずれかで区切られる。ここで、中間層323に二以上の畳み込み層324が含まれる場合、それらの畳み込み層324におけるフィルタ325の数は互いに等しいことが好ましい。 In the example of this figure, each intermediate layer 323 is composed of two or more convolutional layers 324. However, at least a part of the intermediate layer 323 may consist of only one convolution layer 324. The intermediate layers 323 adjacent to each other are separated by one of a first pooling portion 326, a second pooling portion 327, and an amplifiering portion 328. Here, when the intermediate layer 323 includes two or more convolution layers 324, it is preferable that the number of filters 325 in the convolution layers 324 is equal to each other.

本図では、「A×B」と記された中間層323は、B個の畳み込み層324からなり、各畳み込み層324は、各チャネルに対しA個の畳み込みフィルタを含むことを意味している。このような中間層323を以下では「A×B中間層」とも呼ぶ。たとえば、64×2中間層323は、2個の畳み込み層324からなり、各畳み込み層324は、各チャネルに対し64個の畳み込みフィルタを含むことを意味している。 In this figure, the intermediate layer 323 marked "AxB" is composed of B convolution layers 324, meaning that each convolution layer 324 includes A convolution filters for each channel. .. Such an intermediate layer 323 will also be referred to as an "A × B intermediate layer" below. For example, the 64 × 2 intermediate layer 323 consists of two convolution layers 324, meaning that each convolution layer 324 includes 64 convolution filters for each channel.

本図の例において、特徴抽出部321は、64×2中間層323、128×2中間層323、256×3中間層323、および、512×3中間層323をこの順に含む。また、アップサンプル部322は、512×3中間層323、256×3中間層323、128×2中間層323、および64×2中間層323をこの順に含む。また、第2のプーリング部327は、2つの512×3中間層323を互いに接続している。なお、非線形写像部320を構成する中間層323の数は特に限定されず、たとえば画像データの画素数に応じて定めることができる。 In the example of this figure, the feature extraction unit 321 includes a 64 × 2 intermediate layer 323, a 128 × 2 intermediate layer 323, a 256 × 3 intermediate layer 323, and a 512 × 3 intermediate layer 323 in this order. Further, the upsampling unit 322 includes 512 × 3 intermediate layer 323, 256 × 3 intermediate layer 323, 128 × 2 intermediate layer 323, and 64 × 2 intermediate layer 323 in this order. Further, the second pooling portion 327 connects two 512 × 3 intermediate layers 323 to each other. The number of intermediate layers 323 constituting the nonlinear mapping unit 320 is not particularly limited, and can be determined according to, for example, the number of pixels of the image data.

なお、本図は非線形写像部320の構成の一例であり、非線形写像部320は他の構成を有していても良い。たとえば、64×2中間層323の代わりに64×1中間層323が含まれても良い。中間層323に含まれる畳み込み層324の数が削減されることで、計算コストがより低減される可能性がある。また、たとえば、64×2中間層323の代わりに32×2中間層323が含まれても良い。中間層323のチャネル数が削減されることで、計算コストがより低減される可能性がある。さらに、中間層323における畳み込み層324の数とチャネル数との両方を削減しても良い。 Note that this figure is an example of the configuration of the nonlinear mapping unit 320, and the nonlinear mapping unit 320 may have another configuration. For example, the 64 × 1 intermediate layer 323 may be included instead of the 64 × 2 intermediate layer 323. By reducing the number of convolution layers 324 included in the intermediate layer 323, the calculation cost may be further reduced. Further, for example, the 32 × 2 intermediate layer 323 may be included instead of the 64 × 2 intermediate layer 323. By reducing the number of channels in the intermediate layer 323, the calculation cost may be further reduced. Further, both the number of convolution layers 324 and the number of channels in the intermediate layer 323 may be reduced.

ここで、特徴抽出部321に含まれる複数の中間層323においては、第1のプーリング部326を経る毎にフィルタ325の数が増加することが好ましい。具体的には、第1の中間層323aと第2の中間層323bとが、第1のプーリング部326を介して互いに連続しており、第1の中間層323aの後段に第2の中間層323bが位置する。そして、第1の中間層323aは、各チャネルに対するフィルタ325の数がN1である畳み込み層324で構成されており、第2の中間層323bは、各チャネルに対するフィルタ
325の数がN2である畳み込み層324で構成されている。このとき、N2>N1が成り立つことが好ましい。また、N2=N1×2が成り立つことがより好ましい。
Here, in the plurality of intermediate layers 323 included in the feature extraction unit 321, it is preferable that the number of filters 325 increases each time the first pooling unit 326 is passed. Specifically, the first intermediate layer 323a and the second intermediate layer 323b are continuous with each other via the first pooling portion 326, and the second intermediate layer is behind the first intermediate layer 323a. 323b is located. The first intermediate layer 323a is composed of a convolution layer 324 in which the number of filters 325 for each channel is N1, and the second intermediate layer 323b is a convolution layer in which the number of filters 325 for each channel is N2. It is composed of layers 324. At this time, it is preferable that N2> N1 holds. Further, it is more preferable that N2 = N1 × 2 holds.

また、アップサンプル部322に含まれる複数の中間層323においては、アンプーリング部328を経る毎にフィルタ325の数が減少することが好ましい。具体的には、第3の中間層323cと第4の中間層323dとが、アンプーリング部328を介して互いに連続しており、第3の中間層323cの後段に第4の中間層323dが位置する。そして、第3の中間層323cは、各チャネルに対するフィルタ325の数がN3である畳み込み層324で構成されており、第4の中間層323dは、各チャネルに対するフィルタ325の数がN4である畳み込み層324で構成されている。このとき、N4<N3が成り立つことが好ましい。また、N3=N4×2が成り立つことがより好ましい。 Further, in the plurality of intermediate layers 323 included in the upsample unit 322, it is preferable that the number of filters 325 decreases each time the amplifier ring unit 328 is passed through. Specifically, the third intermediate layer 323c and the fourth intermediate layer 323d are continuous with each other via the amplifiering portion 328, and the fourth intermediate layer 323d is located after the third intermediate layer 323c. To position. The third intermediate layer 323c is composed of a convolution layer 324 in which the number of filters 325 for each channel is N3, and the fourth intermediate layer 323d is a convolution layer in which the number of filters 325 for each channel is N4. It is composed of layers 324. At this time, it is preferable that N4 <N3 holds. Further, it is more preferable that N3 = N4 × 2 holds.

特徴抽出部321では、入力部310から取得した中間データから勾配や形状など、複数の抽象度を持つ画像特徴を中間層323のチャネルとして抽出する。図7は、64×2
中間層323の構成を例示している。本図を参照して、中間層323における処理を説明する。本図の例において、中間層323は第1の畳み込み層324aと第2の畳み込み層324bとで構成されており、各畳み込み層324は64個のフィルタ325を備える。第1の畳み込み層324aでは、中間層323に入力されたデータの各チャネルに対して、フィルタ325を用いた畳み込み処理が施される。たとえば入力部310へ入力された画像がRGB画像である場合、3つのチャネルh (i=1..3)のそれぞれに対して処理が施される。また、本図の例において、フィルタ325は64種の3×3フィルタであり、すなわち合計64×3種のフィルタである。畳み込み処理の結果、各チャネルiに対して、64個の結果h i,j(i=1..3,j=1..64)が得られる。
The feature extraction unit 321 extracts image features having a plurality of abstractions such as gradients and shapes from the intermediate data acquired from the input unit 310 as channels of the intermediate layer 323. FIG. 7 shows 64 × 2.
The configuration of the intermediate layer 323 is illustrated. The processing in the intermediate layer 323 will be described with reference to this figure. In the example of this figure, the intermediate layer 323 is composed of a first convolution layer 324a and a second convolution layer 324b, and each convolution layer 324 includes 64 filters 325. In the first convolution layer 324a, each channel of the data input to the intermediate layer 323 is subjected to a convolution process using the filter 325. For example, when the image input to the input unit 310 is an RGB image, processing is performed on each of the three channels h 0 i (i = 1.3). Further, in the example of this figure, the filter 325 is 64 types of 3 × 3 filters, that is, a total of 64 × 3 types of filters. As a result of the convolution process, 64 results h 0 i, j (i = 1..3, j = 1...64) are obtained for each channel i.

次に、複数のフィルタ325の出力に対し、活性化部329において活性化処理が行われる。具体的には、全チャネルの対応する結果jについて、対応する要素毎の総和に活性化処理が施される。この活性化処理により、64チャネルの結果h (i=1..64
)、すなわち、第1の畳み込み層324aの出力が、画像特徴として得られる。活性化処理は特に限定されないが、双曲関数、シグモイド関数、および正規化線形関数の少なくともいずれかを用いる処理が好ましい。
Next, the activation process is performed on the output of the plurality of filters 325 in the activation unit 329. Specifically, for the corresponding result j of all channels, the activation process is applied to the sum of the corresponding elements. This activation treatment resulted in 64 channels h 1 i (i = 1..64).
), That is, the output of the first convolution layer 324a is obtained as an image feature. The activation process is not particularly limited, but a process using at least one of a hyperbolic function, a sigmoid function, and a rectified linear function is preferable.

さらに、第1の畳み込み層324aの出力データを第2の畳み込み層324bの入力データとし、第2の畳み込み層324bにて第1の畳み込み層324aと同様の処理を行って、64チャネルの結果h (i=1..64)、すなわち第2の畳み込み層324bの出力が、画像特徴として得られる。第2の畳み込み層324bの出力がこの64×2中間層323の出力データとなる。 Further, the output data of the first convolution layer 324a is used as the input data of the second convolution layer 324b, and the second convolution layer 324b performs the same processing as that of the first convolution layer 324a, resulting in 64 channels. The output of 2 i (i = 1..64), i.e., the second convolution layer 324b, is obtained as an image feature. The output of the second convolution layer 324b becomes the output data of the 64 × 2 intermediate layer 323.

ここで、フィルタ325の構造は特に限定されないが、3×3の二次元フィルタであることが好ましい。また、各フィルタ325の係数は独立に設定可能である。本実施例において、各フィルタ325の係数は記憶部390に保持されており、非線形写像部320がそれを読み出して処理に用いることができる。ここで、複数のフィルタ325の係数は機械学習を用いて生成、修正された補正情報に基づいて定められてもよい。たとえば、補正情報は、複数のフィルタ325の係数を、複数の補正パラメータとして含む。非線形写像部320は、この補正情報をさらに用いて中間データを写像データに変換することができる。記憶部390は視覚顕著性演算部3に備えられていてもよいし、視覚顕著性演算部3の外部に設けられていてもよい。また、非線形写像部320は補正情報を、通信ネットワークを介して外部から取得しても良い。 Here, the structure of the filter 325 is not particularly limited, but a 3 × 3 two-dimensional filter is preferable. Further, the coefficient of each filter 325 can be set independently. In this embodiment, the coefficient of each filter 325 is stored in the storage unit 390, and the nonlinear mapping unit 320 can read it out and use it for processing. Here, the coefficients of the plurality of filters 325 may be determined based on the correction information generated and corrected by using machine learning. For example, the correction information includes the coefficients of the plurality of filters 325 as a plurality of correction parameters. The nonlinear mapping unit 320 can further use this correction information to convert intermediate data into mapping data. The storage unit 390 may be provided in the visual saliency calculation unit 3 or may be provided outside the visual saliency calculation unit 3. Further, the nonlinear mapping unit 320 may acquire the correction information from the outside via the communication network.

図8(a)および図8(b)はそれぞれ、フィルタ325で行われる畳み込み処理の例を示す図である。図8(a)および図8(b)では、いずれも3×3畳み込みの例が示されている。図8(a)の例は、最近接要素を用いた畳み込み処理である。図8(b)の例は、距離が二以上の近接要素を用いた畳み込み処理である。なお、距離が三以上の近接要素を用いた畳み込み処理も可能である。フィルタ325は、距離が二以上の近接要素を用いた畳み込み処理を行うことが好ましい。より広範囲の特徴を抽出することができ、視覚顕著性の推定精度をさらに高めることができるからである。 8 (a) and 8 (b) are diagrams showing an example of the convolution process performed by the filter 325, respectively. In both FIGS. 8 (a) and 8 (b), an example of 3 × 3 convolution is shown. The example of FIG. 8A is a convolution process using the closest element. The example of FIG. 8B is a convolution process using proximity elements having a distance of two or more. It should be noted that a convolution process using proximity elements having a distance of three or more is also possible. The filter 325 preferably performs a convolution process using proximity elements having a distance of two or more. This is because a wider range of features can be extracted and the accuracy of estimating visual saliency can be further improved.

以上、64×2中間層323の動作について説明した。他の中間層323(128×2中間層323、256×3中間層323、および、512×3中間層323等)の動作についても、畳み込み層324の数およびチャネルの数を除いて、64×2中間層323の動作と同じである。また、特徴抽出部321における中間層323の動作も、アップサンプル部322における中間層323の動作も上記と同様である。 The operation of the 64 × 2 intermediate layer 323 has been described above. The operation of the other intermediate layers 323 (128 × 2 intermediate layer 323, 256 × 3 intermediate layer 323, 512 × 3 intermediate layer 323, etc.) is also 64 ×, excluding the number of convolution layers 324 and the number of channels. 2 The operation is the same as that of the intermediate layer 323. Further, the operation of the intermediate layer 323 in the feature extraction unit 321 and the operation of the intermediate layer 323 in the upsampling unit 322 are the same as described above.

図9(a)は、第1のプーリング部326の処理を説明するための図であり、図9(b)は、第2のプーリング部327の処理を説明するための図であり、図9(c)は、アンプーリング部328の処理を説明するための図である。 9 (a) is a diagram for explaining the processing of the first pooling unit 326, and FIG. 9 (b) is a diagram for explaining the processing of the second pooling unit 327, and FIG. 9 (b) is a diagram for explaining the processing of the second pooling unit 327. (C) is a diagram for explaining the processing of the amplifier ring unit 328.

特徴抽出部321において、中間層323から出力されたデータは、第1のプーリング部326においてチャネル毎にプーリング処理が施された後、次の中間層323に入力される。第1のプーリング部326ではたとえば、非オーバーラップのプーリング処理が行われる。図9(a)では、各チャネルに含まれる要素群に対し、2×2の4つの要素30を1つの要素30に対応づける処理を示している。第1のプーリング部326ではこのような対応づけが全ての要素30に対し行われる。ここで、2×2の4つの要素30は互いに重ならないよう選択される。本例では、各チャネルの要素数が4分の1に縮小される。なお、第1のプーリング部326において要素数が縮小される限り、対応づける前後の要素30の数は特に限定されない。 The data output from the intermediate layer 323 in the feature extraction unit 321 is input to the next intermediate layer 323 after the pooling process is performed for each channel in the first pooling unit 326. In the first pooling unit 326, for example, a non-overlapping pooling process is performed. FIG. 9A shows a process of associating four 2 × 2 elements 30 with one element 30 for an element group included in each channel. In the first pooling unit 326, such a correspondence is made for all the elements 30. Here, the four elements 30 of 2 × 2 are selected so as not to overlap each other. In this example, the number of elements in each channel is reduced to a quarter. As long as the number of elements in the first pooling unit 326 is reduced, the number of elements 30 before and after the association is not particularly limited.

特徴抽出部321から出力されたデータは、第2のプーリング部327を介してアップサンプル部322に入力される。第2のプーリング部327では、特徴抽出部321からの出力データに対し、オーバーラッププーリングが施される。図9(b)では、一部の要素30をオーバーラップさせながら、2×2の4つの要素30を1つの要素30に対応づける処理を示している。すなわち、繰り返される対応づけにおいて、ある対応づけにおける2×2の4つの要素30のうち一部が、次の対応づけにおける2×2の4つの要素30にも含まれる。本図のような第2のプーリング部327では要素数は縮小されない。なお、第2のプーリング部327において対応づける前後の要素30の数は特に限定されない。 The data output from the feature extraction unit 321 is input to the upsampling unit 322 via the second pooling unit 327. In the second pooling unit 327, overlap pooling is applied to the output data from the feature extraction unit 321. FIG. 9B shows a process of associating four 2 × 2 elements 30 with one element 30 while overlapping some elements 30. That is, in the repeated association, a part of the 2 × 2 four elements 30 in one association is also included in the 2 × 2 four elements 30 in the next association. The number of elements is not reduced in the second pooling unit 327 as shown in this figure. The number of elements 30 before and after being associated with the second pooling unit 327 is not particularly limited.

第1のプーリング部326および第2のプーリング部327で行われる各処理の方法は特に限定されないが、たとえば、4つの要素30の最大値を1つの要素30とする対応づけ(max pooling)や4つの要素30の平均値を1つの要素30とする対応づけ(average pooling)が挙げられる。 The method of each processing performed by the first pooling unit 326 and the second pooling unit 327 is not particularly limited, but for example, a mapping (max pooling) in which the maximum value of the four elements 30 is set as one element 30 or 4 An association (average pooling) in which the average value of one element 30 is set as one element 30 can be mentioned.

第2のプーリング部327から出力されたデータは、アップサンプル部322における中間層323に入力される。そして、アップサンプル部322の中間層323からの出力データはアンプーリング部328においてチャネル毎にアンプーリング処理が施された後、次の中間層323に入力される。図9(c)では、1つの要素30を複数の要素30に拡大する処理を示している。拡大の方法は特に限定されないが、1つの要素30を2×2の4つの要素30へ複製する方法が例として挙げられる。 The data output from the second pooling unit 327 is input to the intermediate layer 323 in the upsampling unit 322. Then, the output data from the intermediate layer 323 of the upsample unit 322 is input to the next intermediate layer 323 after the amplifiering process is performed for each channel in the amplifiering unit 328. FIG. 9C shows a process of expanding one element 30 to a plurality of elements 30. The method of enlargement is not particularly limited, and an example is a method of duplicating one element 30 into four 2 × 2 elements 30.

アップサンプル部322の最後の中間層323の出力データは写像データとして非線形写像部320から出力され、出力部330に入力される。出力ステップS130において出力部330は、非線形写像部320から取得したデータに対し、たとえば正規化や解像度変換等を行うことで視覚顕著性マップを生成し、出力する。視覚顕著性マップはたとえば、図4(b)に例示したような視覚顕著性を輝度値で可視化した画像(画像データ)である。また、視覚顕著性マップはたとえば、ヒートマップのように視覚顕著性に応じて色分けされた画像であっても良いし、視覚顕著性が予め定められた基準より高い視覚顕著領域を、その他の位置とは識別可能にマーキングした画像であっても良い。さらに、視覚顕著性推定情報は画像等として示されたマップ情報に限定されず、視覚顕著領域を示す情報を列挙したテーブル等であっても良い。 The output data of the last intermediate layer 323 of the upsampling unit 322 is output from the nonlinear mapping unit 320 as mapping data and input to the output unit 330. In the output step S130, the output unit 330 generates and outputs a visual saliency map by performing, for example, normalization or resolution conversion on the data acquired from the nonlinear mapping unit 320. The visual saliency map is, for example, an image (image data) in which the visual saliency as illustrated in FIG. 4B is visualized by a luminance value. Further, the visual saliency map may be an image color-coded according to the visual saliency, such as a heat map, or a visual saliency region having a visual saliency higher than a predetermined reference can be set at other positions. May be an image marked so as to be identifiable. Further, the visual prominence estimation information is not limited to the map information shown as an image or the like, and may be a table or the like listing information indicating the visually prominent region.

視線座標設定部4は、後述する理想視線を視覚顕著性マップ上に設定する。理想視線とは、障害物や自分以外の交通参加者がいないという理想的な交通環境下で自動車の運転者が進行方向に沿って向ける視線をいう。画像データや視覚顕著性マップ上では(x,y)座標として取り扱う。なお、本実施例では理想視線は固定値とするが、移動体の停止距離に影響する速度や道路の摩擦係数の関数として扱ってもよいし、設定された経路情報を利用して決定されてもよい。また、理想視点を算出する方法として現走行路に対応する消失点を利用してもよい。その際に、自車両速度を検知して、理想視点を消失点と自車位置との間の2秒後や3秒後に設定してもよい。即ち、視線座標設定部4は、予め定めた規則に従って画像における理想視線(基準視線位置)を設定する視線位置設定部として機能する。 The line-of-sight coordinate setting unit 4 sets an ideal line-of-sight, which will be described later, on the visual saliency map. The ideal line of sight is the line of sight that the driver of a vehicle directs along the direction of travel in an ideal traffic environment where there are no obstacles or traffic participants other than himself / herself. It is treated as (x, y) coordinates on image data and visual saliency maps. In this embodiment, the ideal line of sight is a fixed value, but it may be treated as a function of the speed affecting the stopping distance of the moving body or the friction coefficient of the road, or it is determined by using the set route information. May be good. Further, as a method of calculating the ideal viewpoint, the vanishing point corresponding to the current driving road may be used. At that time, the speed of the own vehicle may be detected and the ideal viewpoint may be set 2 seconds or 3 seconds after the vanishing point and the position of the own vehicle. That is, the line-of-sight coordinate setting unit 4 functions as a line-of-sight position setting unit that sets an ideal line-of-sight (reference line-of-sight position) in an image according to a predetermined rule.

ベクトル誤差演算部5は、視覚顕著性演算部3が出力した視覚顕著性マップ及び当該視覚顕著性マップや画像に対して視線座標設定部4が設定した理想視線に基づいてベクトル誤差を算出し、そのベクトル誤差に基づいて視覚的注意の集中度を示す後述する視覚的注意集中度Psを演算する。即ち、ベクトル誤差演算部5は、視覚顕著性分布情報と視線位置とに基づいて画像における視覚的注意の集中度を算出する視覚的注意集中度算出部として機能する。 The vector error calculation unit 5 calculates the vector error based on the visual saliency map output by the visual saliency calculation unit 3 and the ideal line of sight set by the line-of-sight coordinate setting unit 4 for the visual saliency map and the image. Based on the vector error, the visual attention concentration Ps described later, which indicates the concentration of visual attention, is calculated. That is, the vector error calculation unit 5 functions as a visual attention concentration calculation unit that calculates the concentration of visual attention in the image based on the visual saliency distribution information and the line-of-sight position.

ここで、本実施例におけるベクトル誤差について図10を参照して説明する。図10は、視覚顕著性マップの例を示したものである。この視覚顕著性マップはH画素×V画素の256階調の輝度値で示されており、図4と同様に視覚顕著性が高い画素ほど輝度が高く表示されている。図10において、理想視線の座標(x,y)=(xim,yim)としたとき、視覚顕著性マップ内の任意の座標(k,m)の画素とのベクトル誤差を算出する。視覚顕著性マップにおいて輝度が高い座標と理想視線の座標とが離れている場合は、注視すべき位置と実際に注視し易い位置とが離れることを意味し、視覚的注意が散漫になり易い画像といえる。一方、輝度が高い座標と理想視線の座標とが近い場合は、注視すべき位置と実際に注視し易い位置とが近いことを意味し、注視すべき位置に視覚的注意が集中し易い画像といえる。 Here, the vector error in this embodiment will be described with reference to FIG. FIG. 10 shows an example of a visual saliency map. This visual saliency map is shown by the brightness values of 256 gradations of H pixels × V pixels, and as in FIG. 4, the higher the visual saliency of the pixels, the higher the brightness is displayed. In FIG. 10, when the coordinates of the ideal line of sight (x, y) = (x im , y im ), the vector error with the pixels of arbitrary coordinates (k, m) in the visual saliency map is calculated. When the coordinates with high brightness and the coordinates of the ideal line of sight are separated from each other in the visual saliency map, it means that the position to be gazed at and the position where it is actually easy to gaze are separated, and the image tends to distract the visual attention. It can be said that. On the other hand, when the coordinates with high brightness and the coordinates of the ideal line of sight are close to each other, it means that the position to be watched is close to the position where it is easy to actually watch, and the image is such that the visual attention is easily focused on the position to be watched. I can say.

次に、ベクトル誤差演算部5における視覚的注意集中度Psの算出方法について説明する。本実施例では、視覚的注意集中度Psは次の(1)式により算出される。

Figure 2021157247
Next, a method of calculating the visual attention concentration Ps in the vector error calculation unit 5 will be described. In this embodiment, the visual attention concentration Ps is calculated by the following equation (1).
Figure 2021157247

(1)式において、Vvcはピクセル深度(輝度値)、fは重みづけ関数、derrはベクトル誤差を示している。この重みづけ関数は、例えばVvcの値を示す画素から理想視線の座標までの距離に基づいて重み設定される関数である。αは輝点1点の視覚顕著性マップ(リファレンスヒートマップ)における、輝点の座標と理想視線の座標が一致したときの視覚的注意集中度Psが1となるような係数である。 In equation (1), V vc is the pixel depth (luminance value), f w is the weighting function, and derr is the vector error. This weighting function is, for example, a function in which weights are set based on the distance from the pixel indicating the value of Vvc to the coordinates of the ideal line of sight. α is a coefficient such that the visual attention concentration Ps becomes 1 when the coordinates of the bright spot and the coordinates of the ideal line of sight match in the visual saliency map (reference heat map) of one bright spot.

即ち、ベクトル誤差演算部5(視覚的注意集中度算出部)は、視覚顕著性マップ(視覚顕著性分布情報)を構成する各画素の値と、各画素の位置と理想視線(基準視線位置)の座標位置とのベクトル誤差と、に基づいて視覚的注意の集中度を算出している。 That is, the vector error calculation unit 5 (visual attention concentration calculation unit) includes the value of each pixel constituting the visual saliency map (visual saliency distribution information), the position of each pixel, and the ideal line of sight (reference line of sight position). The degree of concentration of visual attention is calculated based on the vector error with the coordinate position of.

このようにして得られた視覚的注意集中度Psは、視覚顕著性マップ上に設定した理想視線の座標からの全画素の座標のベクトル誤差と輝度値の関係を重みづけした上で合計したものの逆数である。この視覚的注意集中度Psは、理想視線の座標から視覚顕著性マップの輝度が高い分布が離れていると低い値が算出される。即ち、視覚的注意集中度Psは、理想視線に対する集中度ともいえる。 The visual attention concentration Ps obtained in this way is the sum of the weighted relationship between the vector error of the coordinates of all the pixels and the brightness value from the coordinates of the ideal line of sight set on the visual saliency map. It is the reciprocal. A low value of this visual attention concentration Ps is calculated when the distribution with high brightness of the visual saliency map is separated from the coordinates of the ideal line of sight. That is, the visual attention concentration Ps can be said to be the concentration with respect to the ideal line of sight.

図11に画像入力部2に入力された画像と、その画像から取得された視覚顕著性マップの例を示す。図11(a)は入力画像、(b)は視覚顕著性マップである。このような、図11において、理想視線の座標を例えば前方を走行するトラック等の道路上に設定すると、その場合における視覚的注意集中度Psが算出される。 FIG. 11 shows an example of an image input to the image input unit 2 and a visual saliency map acquired from the image. FIG. 11A is an input image, and FIG. 11B is a visual saliency map. As described above, in FIG. 11, when the coordinates of the ideal line of sight are set on a road such as a truck traveling ahead, the visual attention concentration Ps in that case is calculated.

判定部6は、ベクトル誤差演算部5で算出された視覚的注意集中度Psの時間的変化に基づいて画像入力部2から入力された画像が事故又はヒヤリハット等の移動体の走行中に安全上の問題が発生した疑いがあるか判定する。判定後は、その判定結果等を外部へ出力する。 In the determination unit 6, the image input from the image input unit 2 based on the temporal change of the visual attention concentration Ps calculated by the vector error calculation unit 5 is for safety reasons during an accident or traveling of a moving object such as a hiyari hat. Determine if you suspect that the problem has occurred. After the judgment, the judgment result and the like are output to the outside.

図12に視覚的注意集中度Psの時間的変化の例を示す。図12は、12秒間の動画像における視覚的注意集中度Psの変化を示している。図12において、約6.5秒〜約7秒の間で視覚的注意集中度Psが急激に変化している。これは、例えば自車両の前方に他車両が割り込んだ場合等であり、このような変化を検出することでヒヤリハットとなる事象を検出することができる。 FIG. 12 shows an example of the temporal change of the visual attention concentration Ps. FIG. 12 shows the change in the visual attention concentration Ps in the moving image for 12 seconds. In FIG. 12, the visual attention concentration Ps changes abruptly between about 6.5 seconds and about 7 seconds. This is, for example, when another vehicle interrupts the front of the own vehicle, and by detecting such a change, it is possible to detect an event that causes a hiatus.

図12に示したように、視覚的注意集中度Psの短時間当たりの変化率や変化値などの変化量を予め定めた閾値等と比較することによりヒヤリハット等の疑いがある画像を抽出することができる。 As shown in FIG. 12, an image suspected of being a hilarious hat or the like is extracted by comparing the amount of change such as the rate of change or the change value of the visual attention concentration Ps per short time with a predetermined threshold value or the like. Can be done.

次に、上述した構成の判定装置1における動作(判定方法)について、図13のフローチャートを参照して説明する。また、このフローチャートを判定装置1として機能するコンピュータで実行されるプログラムとして構成することで判定プログラムとすることができる。また、この判定プログラムは、判定装置1が有するメモリ等に記憶するに限らず、メモリカードや光ディスク等の記憶媒体に格納してもよい。 Next, the operation (determination method) in the determination device 1 having the above-described configuration will be described with reference to the flowchart of FIG. Further, the determination program can be obtained by configuring this flowchart as a program executed by a computer functioning as the determination device 1. Further, this determination program is not limited to being stored in the memory or the like of the determination device 1, and may be stored in a storage medium such as a memory card or an optical disk.

まず、画像入力部2が、入力された画像を画像データとして視覚顕著性演算部3に出力する(ステップS11)。本ステップでは、画像入力部2に入力された画像データを画像フレーム等の時系列に分解して視覚顕著性演算部3へ入力している。また、本ステップでノイズ除去や幾何学変換などの画像処理を施してもよい。 First, the image input unit 2 outputs the input image as image data to the visual saliency calculation unit 3 (step S11). In this step, the image data input to the image input unit 2 is decomposed into time series such as an image frame and input to the visual saliency calculation unit 3. In addition, image processing such as noise removal and geometric transformation may be performed in this step.

次に、視覚顕著性演算部3が、視覚顕著性マップを取得する(ステップS12)。視覚顕著性マップは、視覚顕著性演算部3において、上述した方法により図4(b)に示したような視覚顕著性マップを時系列に出力する。 Next, the visual saliency calculation unit 3 acquires the visual saliency map (step S12). As for the visual saliency map, the visual saliency calculation unit 3 outputs the visual saliency map as shown in FIG. 4B in chronological order by the method described above.

一方、ステップS12と並行して、視線座標設定部4が、理想視線の座標を設定する(ステップS13)。この座標は、上述したように本実施例では前方注視等の固定位置とする。 On the other hand, in parallel with step S12, the line-of-sight coordinate setting unit 4 sets the coordinates of the ideal line-of-sight (step S13). As described above, this coordinate is a fixed position such as forward gaze in this embodiment.

次に、ベクトル誤差演算部5が、視覚顕著性マップ及び理想視線から視覚的注意集中度Psを算出する(ステップS14)。即ち、上述したように、理想視線の座標と、視覚顕著性マップの座標とのベクトル誤差を算出し、そのベクトル誤差と、各画素の値と、に基づいて(1)式により視覚的注意集中度Psを算出する。 Next, the vector error calculation unit 5 calculates the visual attention concentration Ps from the visual saliency map and the ideal line of sight (step S14). That is, as described above, the vector error between the coordinates of the ideal line of sight and the coordinates of the visual saliency map is calculated, and the visual attention is focused by the equation (1) based on the vector error and the value of each pixel. Calculate the degree Ps.

次に、判定部6が、ベクトル誤差演算部5で算出された視覚的注意集中度Psの時間的変化に基づいて画像入力部2から入力された画像が移動体の走行中に安全上の問題が発生した疑いがあるか判定する(ステップS15)。 Next, the determination unit 6 causes a safety problem while the moving body is traveling with the image input from the image input unit 2 based on the temporal change of the visual attention concentration Ps calculated by the vector error calculation unit 5. Is suspected to have occurred (step S15).

次に、判定部6が、ステップS16の判定結果を出力する(ステップS16)。本ステップでは、単に判定結果を出力するに限らず、その結果を表示装置等に表示させたり、画像入力部2から入力された画像に判定結果に応じたラベルを付加する等の処理を行ってもよい。あるいは、画像入力部2から入力された画像のうち安全上の問題が発生した疑いがあると判定された画像のみを特定の記憶装置(特定の記憶領域)に保存するといった処理を行ってもよい。即ち、判定部6は、判定結果に関する情報を出力する出力部として機能する。 Next, the determination unit 6 outputs the determination result of step S16 (step S16). In this step, the determination result is not only output, but the result is displayed on a display device or the like, and a label corresponding to the determination result is added to the image input from the image input unit 2. May be good. Alternatively, a process may be performed such that only the images input from the image input unit 2 that are determined to have a safety problem are stored in a specific storage device (specific storage area). .. That is, the determination unit 6 functions as an output unit that outputs information regarding the determination result.

以上の説明から明らかなように、ステップS12が取得工程、ステップS13視線位置設定工程、ステップS14が視覚的注意集中度算出工程、ステップS15が判定工程、としてそれぞれ機能する。 As is clear from the above description, step S12 functions as an acquisition step, step S13 a line-of-sight position setting step, step S14 a visual attention concentration calculation step, and step S15 a determination step.

ここで、上述した判定装置1における判定結果を表示する画像の例について図14を参照して説明する。図14に示した画像は判定部6により生成され、所定の表示装置に表示される。図14に示した画像50は、走行画像表示領域51と、視覚的注意集中度表示領域52と、を備えている。 Here, an example of an image displaying the determination result in the determination device 1 described above will be described with reference to FIG. The image shown in FIG. 14 is generated by the determination unit 6 and displayed on a predetermined display device. The image 50 shown in FIG. 14 includes a traveling image display area 51 and a visual attention concentration display area 52.

走行画像表示領域51は、ドライブレコーダ等により撮像された車両の走行画像が表示される。走行画像表示領域51には、消失点VPと、視覚顕著性マップVMと、視線推定位置GEと、検知物体枠OFと、水平線及び奥行距離推定線HDと、白線推定WLと、ヒヤリハット判定枠HFと、が表示可能となっている。 In the traveling image display area 51, a traveling image of the vehicle captured by a drive recorder or the like is displayed. In the traveling image display area 51, the vanishing point VP, the visual saliency map VM, the line-of-sight estimation position GE, the detection object frame OF, the horizon and depth distance estimation line HD, the white line estimation WL, and the hiyari hat determination frame HF And can be displayed.

消失点VPは、後述する白線推定WL等から推定してもよいし、オプティカルフロー等を用いて推定してもよい。視覚顕著性マップVMは、走行画像表示領域51に表示されている画像についての視覚顕著性マップ(ヒートマップ)を当該画像に重ねて表示させている。なお、図14では、ヒートマップ上の輝度の高い部分のみが視認できるが実際は輝度の低い部分も含め走行画像に重ねられている。つまり、走行画像において視線が向かい易い部分を表示している。 The vanishing point VP may be estimated from the white line estimation WL or the like described later, or may be estimated by using an optical flow or the like. The visual saliency map VM displays a visual saliency map (heat map) of the image displayed in the traveling image display area 51 overlaid on the image. In FIG. 14, only the high-luminance portion on the heat map can be visually recognized, but in reality, the low-luminance portion is also superimposed on the traveling image. That is, the portion of the traveling image in which the line of sight is easily directed is displayed.

視線推定位置GEは、本実施例では、ヒートマップ上で輝度が最も高い位置を視線位置と推定している。検知物体枠OFは、走行画像において周知のアルゴリズムによる物体検知の結果検知された物体を囲む枠として表示される。なお、本実施例における物体検知では、検出する物体の種類(車両、人間等)を指定し、指定された種類に属する物体のみが検知される。物体検知処理は、判定部6で行ってもよいし、図1には図示されていない他のブロックで行ってもよい。 In this embodiment, the line-of-sight estimated position GE estimates the position with the highest brightness on the heat map as the line-of-sight position. The detected object frame OF is displayed as a frame surrounding an object detected as a result of object detection by a well-known algorithm in a traveling image. In the object detection in this embodiment, the type of the object to be detected (vehicle, human, etc.) is specified, and only the object belonging to the specified type is detected. The object detection process may be performed by the determination unit 6 or may be performed by another block (not shown in FIG. 1).

水平線及び奥行距離推定線HDは、走行画像における水平線と奥行距離を示している。白線推定WLは、走行画像内の白線等の区画線を認識して示している。ヒヤリハット判定枠HFは、走行画像表示領域51の四辺に沿うような枠状に形成され、判定部6によりヒヤリハット等の安全上の問題が発生した疑いがあると判定された場合に表示される。または、ヒヤリハット判定枠HFは常時青色等の枠として表示され、安全上の問題が発生した疑いがあると判定された場合は赤色等で表示される等表示色を変更したり、点滅させるなどとしてもよい。 The horizon and the depth distance estimation line HD indicate the horizon and the depth distance in the traveling image. The white line estimation WL recognizes and indicates a division line such as a white line in the traveling image. The hiyari hat determination frame HF is formed in a frame shape along the four sides of the traveling image display area 51, and is displayed when it is determined by the determination unit 6 that a safety problem such as a hiyari hat has occurred. Alternatively, the hiyari hat judgment frame HF is always displayed as a frame such as blue, and when it is judged that a safety problem has occurred, it is displayed in red etc., or the display color is changed or blinked. May be good.

視覚的注意集中度表示領域52は、走行画像表示領域51の右側に設けられている。視覚的注意集中度表示領域52は、ベクトル誤差演算部5で演算された視覚的注意集中度Psをバーグラフ状に表示する。図14では、符号52aが視覚的注意集中度Psを示すバーである。視覚的注意集中度Psが大きな値を示しているときはバー52aが高くなり、視覚的注意集中度Psが小さな値を示しているときはバー52aが低くなる。つまり、バー52aが高い位置では、集中度が高い(集中)傾向であり、バー52aが低い位置では、集中度が低い(分散)傾向であるといえる。 The visual attention concentration display area 52 is provided on the right side of the traveling image display area 51. The visual attention concentration display area 52 displays the visual attention concentration Ps calculated by the vector error calculation unit 5 in a bar graph shape. In FIG. 14, reference numeral 52a is a bar indicating the degree of visual attention concentration Ps. When the visual attention concentration Ps shows a large value, the bar 52a becomes high, and when the visual attention concentration Ps shows a small value, the bar 52a becomes low. That is, it can be said that the position where the bar 52a is high tends to have a high degree of concentration (concentration), and the position where the bar 52a is low tends to have a low degree of concentration (dispersion).

視覚的注意集中度表示領域52のバー52aの高さは、視覚顕著性マップがフレーム単位で取得されることから、画像の再生時間の推移とともに変化する。そのため、例えばバー52aの高さが急激に高くなるようなシーンは、視覚的注意の集中度が分散から集中へ急速に変化したことを示し、このバー52aによっても、判定部6による安全上の問題が発生した疑いがあることを視覚的に表示することができる。 The height of the bar 52a of the visual attention concentration display area 52 changes with the transition of the reproduction time of the image because the visual saliency map is acquired in frame units. Therefore, for example, a scene in which the height of the bar 52a suddenly increases indicates that the degree of concentration of visual attention has changed rapidly from dispersion to concentration, and this bar 52a also indicates that the determination unit 6 is safe. It is possible to visually indicate that there is a suspicion that a problem has occurred.

本実施例によれば、判定装置1は、視覚顕著性演算部3が、移動体から外部を撮像した画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性マップを取得し、視線座標設定部4が、理想視線の座標を設定する。そして、ベクトル誤差演算部5が、視覚顕著性マップと理想視線とに基づいて画像における視覚的注意集中度Psを算出する。判定部6が、視覚的注意集中度Psの時間的な変化量に基づいて、ヒヤリハット等の移動体の走行中に安全上の問題が発生した疑いがあると判定する。このようにすることにより、視覚顕著性マップを用いるため、画像内に含まれる標識や歩行者といった物体に視線が無意識に集中しやすいという文脈的な注意状態の時間的な変化量に基づいてヒヤリハット等の安全上の問題が発生した疑いがあると判定することができる。したがって、画像のみで心理的負担がかかったことにより生じる事故やヒヤリハットといった安全上の問題が発生した疑いを判定することができる。 According to the present embodiment, the determination device 1 is obtained by the visual saliency calculation unit 3 estimating the level of visual saliency in the image based on the image obtained by capturing the outside from the moving body. The sex map is acquired, and the line-of-sight coordinate setting unit 4 sets the coordinates of the ideal line-of-sight. Then, the vector error calculation unit 5 calculates the visual attention concentration Ps in the image based on the visual saliency map and the ideal line of sight. Based on the amount of change over time in the visual attention concentration Ps, the determination unit 6 determines that there is a suspicion that a safety problem has occurred while the moving object such as a hiyari hat is running. By doing so, since the visual saliency map is used, the hiyari hat is based on the amount of temporal change in the contextual attention state that the line of sight tends to be unconsciously focused on objects such as signs and pedestrians contained in the image. It can be determined that there is a suspicion that a safety problem such as the above has occurred. Therefore, it is possible to determine the suspicion that a safety problem such as an accident or a hiyari hat caused by a psychological burden is caused only by the image.

また、ベクトル誤差演算部5は、視覚顕著性マップを構成する各画素の値と、各画素の位置と理想視線の座標位置とのベクトル誤差と、に基づいて視覚的注意集中度Psを算出している。このようにすることにより、視覚顕著性が高い位置と理想視線との差に応じた値が視覚的注意集中度Psとして算出される。したがって、例えば、視覚顕著性が高い位置と理想視線との距離に応じて視覚的注意集中度Psの値が変化するようにすることができる。 Further, the vector error calculation unit 5 calculates the visual attention concentration Ps based on the value of each pixel constituting the visual saliency map and the vector error between the position of each pixel and the coordinate position of the ideal line of sight. ing. By doing so, a value corresponding to the difference between the position where the visual prominence is high and the ideal line of sight is calculated as the visual attention concentration Ps. Therefore, for example, the value of the visual attention concentration Ps can be changed according to the distance between the position where the visual prominence is high and the ideal line of sight.

また、判定部6は、判定結果に関する情報を出力している。このようにすることにより、判定結果や判定結果に基づく情報等を外部に表示等して伝達することができる。 Further, the determination unit 6 outputs information regarding the determination result. By doing so, it is possible to display and transmit the determination result and the information based on the determination result to the outside.

また、画像入力部2に入力される画像は、移動体が備えるセンサにより急制動が検出されたこと、例えば移動体の加速度が基準値以上であることにより得られたものであってもよい。このようにすることにより、例えばドライブレコーダ等において、加速度に基づいて抽出された画像について、さらにヒヤリハット等の判定をすることができるため、従来人手により急制動が事故やヒヤリハットに係るものか、事故やヒヤリハット以外の要因(例えば、移動体が段差を超えたことによるもの、荒い運転によるもの)であるかを判別していた手間をより省くことができる。また、急制動の場合に加えて、急な運転操作(別言すれば危険挙動)の場合を含めてもよい。例えば、横方向の加速度から何かをよける操作や、白線からのはみ出し走行に気づいて戻す操作等に関連するヒヤリハットが発生した可能性があるとして画像を抽出してもよい。また、急加速をさらに含んでもよい。例えば、高速道路における漫然運転により速度の低下に気づいて急加速をした可能性があるとして、画像を抽出してもよい。 Further, the image input to the image input unit 2 may be obtained by detecting sudden braking by a sensor included in the moving body, for example, when the acceleration of the moving body is equal to or higher than a reference value. By doing so, for example, in a drive recorder or the like, it is possible to further determine a hiyari hat or the like with respect to the image extracted based on the acceleration. It is possible to further save the trouble of determining whether the cause is a factor other than the above-mentioned or the hiyari hat (for example, the cause of the moving body crossing a step or the cause of rough driving). Further, in addition to the case of sudden braking, the case of sudden driving operation (in other words, dangerous behavior) may be included. For example, the image may be extracted on the assumption that a hilarious hat may have occurred related to an operation of avoiding something from the lateral acceleration, an operation of noticing the running out of the white line and returning the image, and the like. It may also include further rapid acceleration. For example, the image may be extracted on the assumption that the vehicle may have noticed a decrease in speed due to casual driving on a highway and suddenly accelerated.

また、視覚顕著性演算部3は、画像を写像処理可能な中間データに変換する入力部310と、中間データを写像データに変換する非線形写像部320と、写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部330と、を備え、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322と、を備えている。このようにすることにより、小さな計算コストで、視覚顕著性を推定することができる。また、このようにして推定した視覚顕著性は、文脈的な注意状態を反映したものとなる。 Further, the visual saliency calculation unit 3 includes an input unit 310 that converts an image into intermediate data that can be mapped, a nonlinear mapping unit 320 that converts the intermediate data into mapping data, and a remarkableness that shows a saliency distribution based on the mapping data. The non-linear mapping unit 320 includes an output unit 330 for generating sex estimation information, and the non-linear mapping unit 320 up-samples the feature extraction unit 321 that extracts features from the intermediate data and the data generated by the feature extraction unit 321. A sample unit 322 and a sample unit 322 are provided. By doing so, the visual prominence can be estimated at a small calculation cost. Moreover, the visual saliency estimated in this way reflects the contextual attention state.

また、本発明は上記実施例に限定されるものではない。即ち、当業者は、従来公知の知見に従い、本発明の骨子を逸脱しない範囲で種々変形して実施することができる。かかる変形によってもなお本発明の判定装置を具備する限り、勿論、本発明の範疇に含まれるものである。 Further, the present invention is not limited to the above examples. That is, those skilled in the art can carry out various modifications according to conventionally known knowledge within a range that does not deviate from the gist of the present invention. Even with such a modification, as long as the determination device of the present invention is still provided, it is, of course, included in the category of the present invention.

1 判定装置
2 画像入力部
3 視覚顕著性演算部(取得部)
4 視線座標設定部(視線位置設定部)
5 ベクトル誤差演算部(視覚的注意集中度算出部)
6 判定部
1 Judgment device 2 Image input unit 3 Visual prominence calculation unit (acquisition unit)
4 Line-of-sight coordinate setting unit (line-of-sight position setting unit)
5 Vector error calculation unit (visual attention concentration calculation unit)
6 Judgment unit

Claims (8)

移動体から外部を撮像した画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得する取得部と、
予め定めた規則に従って前記画像における基準視線位置を設定する視線位置設定部と、
前記視覚顕著性分布情報と前記視線位置とに基づいて前記画像における視覚的注意の集中度を算出する視覚的注意集中度算出部と、
前記視覚的注意の集中度の時間的な変化量に基づいて、前記移動体の走行中に安全上の問題が発生した疑いがあると判定する判定部と、
を備えることを特徴とする判定装置。
An acquisition unit that acquires visual saliency distribution information obtained by estimating the level of visual saliency in the image based on an image of the outside taken from a moving body.
A line-of-sight position setting unit that sets a reference line-of-sight position in the image according to a predetermined rule,
A visual attention concentration calculation unit that calculates the concentration of visual attention in the image based on the visual saliency distribution information and the line-of-sight position.
Based on the amount of change in the degree of concentration of visual attention over time, a determination unit that determines that a safety problem may have occurred while the moving body is running, and a determination unit.
A determination device comprising.
前記視覚的注意集中度算出部は、視覚顕著性分布情報を構成する各画素の値と、前記各画素の位置と前記基準視線位置の座標位置とのベクトル誤差と、に基づいて前記視覚的注意の集中度を算出することを特徴とする請求項1に記載の判定装置。 The visual attention concentration calculation unit is based on the value of each pixel constituting the visual saliency distribution information and the vector error between the position of each pixel and the coordinate position of the reference line-of-sight position. The determination device according to claim 1, wherein the degree of concentration of the above is calculated. 前記判定部の判定結果に関する情報を出力する出力部を備えることを特徴とする請求項1または2に記載の判定装置。 The determination device according to claim 1 or 2, further comprising an output unit that outputs information regarding the determination result of the determination unit. 前記画像は、前記移動体が備えるセンサにより前記移動体の急制動が検出されたことにより得られたものであることを特徴とする請求項1から3のうちいずれか一項に記載の判定装置。 The determination device according to any one of claims 1 to 3, wherein the image is obtained by detecting sudden braking of the moving body by a sensor included in the moving body. .. 前記取得部は、
前記画像を写像処理可能な中間データに変換する入力部と、
前記中間データを写像データに変換する非線形写像部と、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部と、を備え、
前記非線形写像部は、前記中間データに対し特徴の抽出を行う特徴抽出部と、前記特徴抽出部で生成されたデータのアップサンプルを行うアップサンプル部と、を備える、
ことを特徴とする請求項1から4のうちいずれか一項に記載の判定装置。
The acquisition unit
An input unit that converts the image into intermediate data that can be mapped,
A non-linear mapping unit that converts the intermediate data into mapping data,
It is provided with an output unit that generates saliency estimation information showing a saliency distribution based on the mapping data.
The nonlinear mapping unit includes a feature extraction unit that extracts features from the intermediate data, and an upsample unit that upsamples the data generated by the feature extraction unit.
The determination device according to any one of claims 1 to 4, wherein the determination device is characterized by the above.
移動体から外部を撮像した画像に基づいて所定の判定処理を行う判定装置で実行される判定方法であって、
前記画像に基づいて、その画像内における視覚顕著性の高低を推測して得られた視覚顕著性分布情報を取得する取得工程と、
予め定めた規則に従って前記画像における基準視線位置を設定する視線位置設定工程と、
前記視覚顕著性分布情報と前記視線位置とに基づいて前記画像における視覚的注意の集中度を算出する視覚的注意集中度算出工程と、
前記視覚的注意の集中度の時間的な変化量に基づいて、前記移動体の走行中に安全上の問題が発生した疑いがあると判定する判定工程と、
を含むことを特徴とする判定方法。
It is a judgment method executed by a judgment device that performs a predetermined judgment process based on an image obtained by capturing an image of the outside from a moving body.
An acquisition step of acquiring visual saliency distribution information obtained by estimating the level of visual saliency in the image based on the image, and
A line-of-sight position setting step of setting a reference line-of-sight position in the image according to a predetermined rule, and
A visual attention concentration calculation step for calculating the concentration of visual attention in the image based on the visual saliency distribution information and the line-of-sight position.
Based on the amount of change in the degree of concentration of visual attention over time, a determination step of determining that there is a suspicion that a safety problem has occurred while the moving body is running, and a determination step.
A determination method characterized by including.
請求項6に記載の判定方法をコンピュータにより実行させることを特徴とする判定プログラム。 A determination program, characterized in that the determination method according to claim 6 is executed by a computer. 請求項7に記載の判定プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。 A computer-readable storage medium comprising storing the determination program according to claim 7.
JP2020054202A 2020-03-25 2020-03-25 Determination device Pending JP2021157247A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020054202A JP2021157247A (en) 2020-03-25 2020-03-25 Determination device
JP2024036556A JP2024061803A (en) 2020-03-25 2024-03-11 Judging device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020054202A JP2021157247A (en) 2020-03-25 2020-03-25 Determination device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024036556A Division JP2024061803A (en) 2020-03-25 2024-03-11 Judging device

Publications (1)

Publication Number Publication Date
JP2021157247A true JP2021157247A (en) 2021-10-07

Family

ID=77917754

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020054202A Pending JP2021157247A (en) 2020-03-25 2020-03-25 Determination device
JP2024036556A Pending JP2024061803A (en) 2020-03-25 2024-03-11 Judging device

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024036556A Pending JP2024061803A (en) 2020-03-25 2024-03-11 Judging device

Country Status (1)

Country Link
JP (2) JP2021157247A (en)

Also Published As

Publication number Publication date
JP2024061803A (en) 2024-05-08

Similar Documents

Publication Publication Date Title
JP5482737B2 (en) Visual load amount estimation device, driving support device, and visual load amount estimation program
JP3760068B2 (en) Image recognition device
EP2851841A2 (en) System and method of alerting a driver that visual perception of pedestrian may be difficult
JP2009116742A (en) Onboard image processor, image processing method, and program
Paone et al. Baseline face detection, head pose estimation, and coarse direction detection for facial data in the SHRP2 naturalistic driving study
CN107527000A (en) The apparatus and method that the concentration degree of driver is monitored using eyes tracking
WO2012024730A1 (en) Sensor data processing
US11878698B2 (en) Display control device, display control method, and storage medium storing display control program
JP4826355B2 (en) Vehicle surrounding display device
JP2024060029A (en) Situation Output Device
US20160300360A1 (en) Image processing apparatus and computer-readable storage medium
US20120189161A1 (en) Visual attention apparatus and control method based on mind awareness and display apparatus using the visual attention apparatus
WO2019021500A1 (en) Occupant number sensing system, occupant number sensing method, and program
CN108256487B (en) Driving state detection device and method based on reverse dual-purpose
JP5697587B2 (en) Vehicle fire detection device
JP2024019588A (en) Map data generation device
JP2021157247A (en) Determination device
CN116012822B (en) Fatigue driving identification method and device and electronic equipment
JP2019211921A (en) Object recognition system and object recognition method
JP2021144309A (en) Risk information output device
JP2021144312A (en) Determination apparatus
JP2021144308A (en) Information processor
JP2021077249A (en) Determination device
JP2021144311A (en) Information processor
CN116152790B (en) Safety belt detection method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240220