JP2021077249A - Determination device - Google Patents

Determination device Download PDF

Info

Publication number
JP2021077249A
JP2021077249A JP2019205195A JP2019205195A JP2021077249A JP 2021077249 A JP2021077249 A JP 2021077249A JP 2019205195 A JP2019205195 A JP 2019205195A JP 2019205195 A JP2019205195 A JP 2019205195A JP 2021077249 A JP2021077249 A JP 2021077249A
Authority
JP
Japan
Prior art keywords
unit
determination
image
visual saliency
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019205195A
Other languages
Japanese (ja)
Inventor
井上 俊明
Toshiaki Inoue
俊明 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2019205195A priority Critical patent/JP2021077249A/en
Publication of JP2021077249A publication Critical patent/JP2021077249A/en
Priority to JP2024020183A priority patent/JP2024045532A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

To detect an object that can be missed visually.SOLUTION: A determination device 1 generates a visual saliency map obtained by estimating the level of visual saliency from image data which visual saliency extraction means 3 obtained by taking an image of the outside from such a mobile body as a vehicle. The type of an object to be detected is set in object region detection means 4, and the set type of the object is detected from the image data. Oversight determination means 5 determines an oversight of the object detected by the object region detection means 4 on the basis of the visual saliency map.SELECTED DRAWING: Figure 1

Description

本発明は、移動体から外部を撮像した画像に基づいて見落とし可能性判定を行う判定装置に関する。 The present invention relates to a determination device that determines the possibility of oversight based on an image obtained by capturing an image of the outside from a moving body.

従来、移動体として例えば自車両の運転者等に対して様々な注意喚起を行うことが提案されている。例えば、特許文献1には、視認度推定部と、視認完了時間算出部と、視認判定部と、を含む道路標識視認判定システムが記載されている。 Conventionally, it has been proposed to give various warnings to, for example, the driver of the own vehicle as a moving body. For example, Patent Document 1 describes a road sign visibility determination system including a visibility estimation unit, a visibility completion time calculation unit, and a visibility determination unit.

特許文献1について詳しく説明すると、視認度推定部が、道路標識の内容に基づいて当該道路標識の複雑さを算出し、算出した前記道路標識の複雑さに応じた当該道路標識の視認度を推定する。次に、視認完了時間算出部が、運転者から道路標識までの距離を算出し、車両の速度、道路標識の視認度、及び算出した運転者から道路標識までの距離を用いて運転者による当該道路標識の視認に要する視認完了時間を算出する。そして、視認判定部が、車両の位置情報と、道路標識情報と、運転者の視線の方向を含む視線情報とに基づいて運転者が道路標識を連続して注視している注視時間を算出し、注視時間と視認完了時間とに基づいて運転者が道路標識の内容を認識したか否かを判定する。 Explaining Patent Document 1 in detail, the visibility estimation unit calculates the complexity of the road sign based on the content of the road sign, and estimates the visibility of the road sign according to the calculated complexity of the road sign. To do. Next, the visual recognition completion time calculation unit calculates the distance from the driver to the road sign, and the driver uses the speed of the vehicle, the visibility of the road sign, and the calculated distance from the driver to the road sign. Calculate the visibility completion time required to visually recognize the road sign. Then, the visual recognition determination unit calculates the gaze time at which the driver continuously gazes at the road sign based on the position information of the vehicle, the road sign information, and the line-of-sight information including the direction of the driver's line of sight. , It is determined whether or not the driver recognizes the content of the road sign based on the gaze time and the visual recognition completion time.

特開2017−111469号公報Japanese Unexamined Patent Publication No. 2017-11469

特許文献1に記載の道路標識視認判定システムは、道路標識が対象であり、他の車両や歩行者等の移動体については何ら考慮されていない。通常、道路上には他の移動体(自動車、バイク、自転車、歩行者等)もあるため、これらの見落しについても注意喚起をすることが望ましい。また、特許文献1に記載の道路標識視認判定システムは、運転者の視線を検出する必要があり、そのため視線を検出するための設備を車内に取り付けなければならない。 The road sign visual determination system described in Patent Document 1 targets road signs, and does not consider moving objects such as other vehicles and pedestrians. Usually, there are other moving objects (cars, motorcycles, bicycles, pedestrians, etc.) on the road, so it is desirable to call attention to these oversights. Further, the road sign visual recognition determination system described in Patent Document 1 needs to detect the line of sight of the driver, and therefore, equipment for detecting the line of sight must be installed in the vehicle.

本発明が解決しようとする課題としては、視覚的に見落とす可能性のある物体を検出することが一例として挙げられる。 One example of the problem to be solved by the present invention is to detect an object that may be visually overlooked.

上記課題を解決するために、移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する生成部と、検出対象とする物体の種類を設定する設定部と、前記画像から設定された種類の物体を検出する物体検出部と、前記物体検出部が検出した物体について、前記視覚顕著性分布情報に基づいて見落とし可能性判定を行う判定部と、を備えることを特徴としている。 In order to solve the above problems, a generator that generates visual saliency distribution information obtained by estimating the height of visual saliency based on an image of the outside taken from a moving body, and a type of object to be detected. A determination unit for setting the above, an object detection unit for detecting an object of the type set from the image, and a determination for determining the possibility of oversight of an object detected by the object detection unit based on the visual saliency distribution information. It is characterized by having a part and.

請求項6に記載の発明は、移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する生成部と、検出対象とする物体の種類を設定する設定部と、前記画像の撮像範囲を含む領域の前記設定部に設定された種類の物体を検出する物体検出部と、前記物体検出部が検出した物体について、前記視覚顕著性分布情報に基づいて見落とし可能性判定を行う判定部と、を備えることを特徴としている。 The invention according to claim 6 is a generation unit that generates visual saliency distribution information obtained by estimating the level of visual saliency based on an image of an external image taken from a moving body, and an object to be detected. The visual saliency distribution of the setting unit for setting the type, the object detection unit for detecting an object of the type set in the setting unit in the area including the imaging range of the image, and the object detected by the object detection unit. It is characterized by including a determination unit that determines the possibility of oversight based on information.

請求項7に記載の発明は、移動体から外部を撮像した画像に基づいて見落とし可能性判定を行う判定装置で実行される判定方法であって、前記画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する生成工程と、検出対象とする物体の種類を設定する設定工程と、前記画像から設定された種類の物体を検出する物体検出工程と、前記物体検出工程で検出した物体について、前記視覚顕著性分布情報に基づいて見落とし可能性判定を行う判定工程と、を含むことを特徴としている。 The invention according to claim 7 is a determination method executed by a determination device that determines the possibility of oversight based on an image obtained by capturing an image of the outside from a moving body, and estimates the level of visual prominence based on the image. A generation step of generating visual saliency distribution information obtained in the above process, a setting step of setting the type of an object to be detected, an object detection step of detecting an object of the set type from the image, and the object. The object detected in the detection step is characterized by including a determination step of determining the possibility of oversight based on the visual saliency distribution information.

請求項8に記載の発明は、請求項7に記載の判定方法をコンピュータにより実行させることを特徴としている。 The invention according to claim 8 is characterized in that the determination method according to claim 7 is executed by a computer.

請求項9に記載の発明は、請求項8に記載の判定プログラムを格納したことを特徴としている。 The invention according to claim 9 is characterized in that the determination program according to claim 8 is stored.

請求項10に記載の発明は、移動体から外部を撮像した画像に基づいて見落とし可能性判定を行う判定装置で実行される判定方法であって、前記画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する生成工程と、検出対象とする物体の種類を設定する設定工程と、前記画像の撮像範囲を含む領域の前記設定工程で設定された種類の物体を検出する物体検出工程と、前記物体検出工程で検出した物体について、前記視覚顕著性分布情報に基づいて見落とし可能性判定を行う判定工程と、を含むことを特徴としている。 The invention according to claim 10 is a determination method executed by a determination device that determines the possibility of oversight based on an image obtained by capturing an image of the outside from a moving body, and estimates the level of visual prominence based on the image. The generation step of generating the visual saliency distribution information obtained in the above process, the setting step of setting the type of the object to be detected, and the type of object set in the setting step of the region including the imaging range of the image. It is characterized by including an object detection step for detecting an object, and a determination step for determining the possibility of oversight of an object detected in the object detection step based on the visual saliency distribution information.

請求項11に記載の発明は、請求項10に記載の判定方法をコンピュータにより実行させることを特徴としている。 The invention according to claim 11 is characterized in that the determination method according to claim 10 is executed by a computer.

請求項12に記載の発明は、請求項11に記載の判定プログラムを格納したことを特徴としている。 The invention according to claim 12 is characterized in that the determination program according to claim 11 is stored.

本発明の一実施例にかかる判定装置の機能構成図である。It is a functional block diagram of the determination apparatus which concerns on one Example of this invention. 図1に示された視覚顕著性抽出手段の構成を例示するブロック図である。It is a block diagram which illustrates the structure of the visual saliency extraction means shown in FIG. (a)は判定装置へ入力する画像を例示する図であり、(b)は(a)に対し推定される、視覚顕著性マップを例示する図である。(A) is a diagram exemplifying an image input to the determination device, and (b) is a diagram exemplifying a visual saliency map estimated with respect to (a). 図1に示された視覚顕著性抽出手段の処理方法を例示するフローチャートである。It is a flowchart which illustrates the processing method of the visual saliency extraction means shown in FIG. 非線形写像部の構成を詳しく例示する図である。It is a figure which exemplifies the structure of the nonlinear mapping part in detail. 中間層の構成を例示する図である。It is a figure which illustrates the structure of the intermediate layer. (a)および(b)はそれぞれ、フィルタで行われる畳み込み処理の例を示す図である。(A) and (b) are diagrams showing an example of a convolution process performed by a filter, respectively. (a)は、第1のプーリング部の処理を説明するための図であり、(b)は、第2のプーリング部の処理を説明するための図であり、(c)は、アンプーリング部の処理を説明するための図である。(A) is a diagram for explaining the processing of the first pooling unit, (b) is a diagram for explaining the processing of the second pooling unit, and (c) is a diagram for explaining the processing of the second pooling unit. It is a figure for demonstrating the process of. 図1に示された判定手段の動作のフローチャートである。It is a flowchart of the operation of the determination means shown in FIG. 物体領域検出手段から出力される領域情報を例示した図である。It is a figure which illustrated the area information output from the object area detecting means.

以下、本発明の一実施形態にかかる判定装置を説明する。本発明の一実施形態にかかる判定装置は、生成部が移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する。一方、設定部で検出対象とする物体の種類が設定され、物体検出部で画像から設定された種類の物体を検出する。そして、判定部では、物体検出部が検出した物体について、視覚顕著性分布情報に基づいて見落とし可能性判定を行う。このようにすることにより、視覚顕著性分布情報と物体検出とを組みわせて見落とし可能性を判定することができる。したがって、視覚的に見落とす可能性のある物体を検出することができる。また、移動体から外部を撮像した画像のみで見落とし可能性の判定ができるので、例えばドライブレコーダ等の画像から判定可能であり、視線検出等も不要となる。 Hereinafter, a determination device according to an embodiment of the present invention will be described. The determination device according to the embodiment of the present invention generates visual saliency distribution information obtained by estimating the level of visual saliency based on an image obtained by an image of the outside from a moving body. On the other hand, the type of the object to be detected is set by the setting unit, and the object detection unit detects the set type of object from the image. Then, the determination unit determines the possibility of oversight of the object detected by the object detection unit based on the visual saliency distribution information. By doing so, it is possible to determine the possibility of oversight by combining the visual saliency distribution information and the object detection. Therefore, it is possible to detect an object that may be visually overlooked. Further, since the possibility of oversight can be determined only by the image obtained by capturing the outside from the moving body, the determination can be made from the image of, for example, a drive recorder, and the line-of-sight detection or the like becomes unnecessary.

また、判定部は、物体検出部が検出した物体について、視覚顕著性分布情報と対比して見落とし可能性判定を行ってもよい。このようにすることにより、視覚顕著性分布情報の分布と撮像された画像とを対比することにより、見落とし可能性を判定することができる。 In addition, the determination unit may determine the possibility of oversight of the object detected by the object detection unit by comparing it with the visual saliency distribution information. By doing so, the possibility of oversight can be determined by comparing the distribution of the visual saliency distribution information with the captured image.

また、判定部は、物体検出部が検出した物体について、視覚顕著性が高いと判定された領域と重ならない物体は見落とされる可能性が高いと判定してもよい。このようにすることにより、画像中で視覚顕著性が高くない部分に位置する物体が見落とし易いと判定することができる。 Further, the determination unit may determine that the object detected by the object detection unit is likely to be overlooked if the object does not overlap with the region determined to have high visual prominence. By doing so, it can be determined that an object located in a portion of the image where the visual prominence is not high is easily overlooked.

また、生成部は、画像を写像処理可能な中間データに変換する入力部と、中間データを写像データに変換する非線形写像部と、写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部と、を備え、非線形写像部は、中間データに対し特徴の抽出を行う特徴抽出部と、特徴抽出部で生成されたデータのアップサンプルを行うアップサンプル部と、を備えてもよい。このようにすることにより、小さな計算コストで、視覚顕著性を推定することができる。 In addition, the generation unit generates an input unit that converts an image into intermediate data that can be mapped, a non-linear mapping unit that converts intermediate data into mapping data, and saliency estimation information that shows a saliency distribution based on the mapping data. The non-linear mapping unit may include an output unit, a feature extraction unit that extracts features from the intermediate data, and an upsample unit that upsamples the data generated by the feature extraction unit. By doing so, the visual prominence can be estimated at a small calculation cost.

また、判定部における判定結果を提示する提示部を備えてもよい。このようにすることにより、判定結果を運転者に提示して見落とし可能性を警告することができる。 In addition, a presentation unit that presents the determination result in the determination unit may be provided. By doing so, it is possible to present the determination result to the driver and warn the driver of the possibility of oversight.

また、本発明の他の実施形態にかかる判定装置は、生成部が移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する。一方、設定部で検出対象とする物体の種類が設定され、物体検出部で画像の撮像範囲を含む領域の設定部に設定された種類の物体を検出する。そして、判定部では、物体検出部が検出した物体について、視覚顕著性分布情報に基づいて見落とし可能性判定を行う。このようにすることにより、視覚顕著性分布情報と物体検出とを組みわせて見落とし可能性を判定することができる。したがって、視覚的に見落とす可能性のある物体を検出することができる。また、物体検出は画像によらなくてもよく、例えばライダ(LiDAR:Light Detection and Ranging)等の他のセンサの物体検出結果を利用することができる。 In addition, the determination device according to another embodiment of the present invention generates visual saliency distribution information obtained by estimating the level of visual saliency based on an image obtained by an image of the outside from a moving body. On the other hand, the type of the object to be detected is set by the setting unit, and the object detection unit detects the type of object set in the setting unit of the area including the image capturing range of the image. Then, the determination unit determines the possibility of oversight of the object detected by the object detection unit based on the visual saliency distribution information. By doing so, it is possible to determine the possibility of oversight by combining the visual saliency distribution information and the object detection. Therefore, it is possible to detect an object that may be visually overlooked. Further, the object detection does not have to be based on an image, and the object detection result of another sensor such as a lidar (LiDAR: Light Detection and Ranging) can be used.

また、本発明の一実施形態にかかる判定方法は、生成工程で移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する。一方、設定工程で検出対象とする物体の種類が設定され、物体検出工程で画像から設定された種類の物体を検出する。そして、判定工程では、物体検出工程で検出した物体について、視覚顕著性分布情報に基づいて見落とし可能性判定を行う。このようにすることにより、視覚顕著性分布情報と物体検出とを組みわせて見落とし可能性を判定することができる。したがって、視覚的に見落とす可能性のある物体を検出することができる。また、移動体から外部を撮像した画像のみで見落とし可能性の判定ができるので、例えばドライブレコーダ等の画像から判定可能であり、視線検出等も不要となる。 In addition, the determination method according to the embodiment of the present invention generates visual saliency distribution information obtained by estimating the level of visual saliency based on an image obtained by capturing the outside from a moving body in the generation step. On the other hand, the type of the object to be detected is set in the setting process, and the object of the type set from the image is detected in the object detection process. Then, in the determination step, the possibility of oversight is determined based on the visual saliency distribution information for the object detected in the object detection step. By doing so, it is possible to determine the possibility of oversight by combining the visual saliency distribution information and the object detection. Therefore, it is possible to detect an object that may be visually overlooked. Further, since the possibility of oversight can be determined only by the image obtained by capturing the outside from the moving body, the determination can be made from the image of, for example, a drive recorder, and the line-of-sight detection or the like becomes unnecessary.

また、上述した判定方法を、コンピュータにより実行させている。このようにすることにより、コンピュータを用いて、視覚顕著性分布情報と物体検出とを組みわせて見落とし可能性を判定することができる。したがって、視覚的に見落とす可能性のある物体を検出することができる。 Further, the above-mentioned determination method is executed by a computer. By doing so, it is possible to determine the possibility of oversight by combining the visual saliency distribution information and the object detection using a computer. Therefore, it is possible to detect an object that may be visually overlooked.

また、上述した判定プログラムをコンピュータ読み取り可能な記憶媒体に格納してもよい。このようにすることにより、当該プログラムを機器に組み込む以外に単体でも流通させることができ、バージョンアップ等も容易に行える。 Further, the determination program described above may be stored in a computer-readable storage medium. By doing so, the program can be distributed as a single unit in addition to being incorporated in the device, and version upgrades and the like can be easily performed.

また、本発明の他の実施形態にかかる判定方法は、生成工程で移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する。一方、設定工程で検出対象とする物体の種類が設定され、物体検出工程で画像の撮像範囲を含む領域の設定部に設定された種類の物体を検出する。そして、判定工程では、物体検出工程で検出した物体について、視覚顕著性分布情報に基づいて見落とし可能性判定を行う。このようにすることにより、視覚顕著性分布情報と物体検出とを組みわせて見落とし可能性を判定することができる。したがって、視覚的に見落とす可能性のある物体を検出することができる。また、物体検出は画像によらなくてもよく、例えばライダ等の他のセンサの物体検出結果を利用することができる。 In addition, the determination method according to another embodiment of the present invention generates visual saliency distribution information obtained by estimating the level of visual saliency based on an image obtained by capturing the outside from a moving body in the generation step. On the other hand, the type of the object to be detected is set in the setting process, and the object of the type set in the setting unit of the region including the imaging range of the image is detected in the object detection process. Then, in the determination step, the possibility of oversight is determined based on the visual saliency distribution information for the object detected in the object detection step. By doing so, it is possible to determine the possibility of oversight by combining the visual saliency distribution information and the object detection. Therefore, it is possible to detect an object that may be visually overlooked. Further, the object detection does not have to be based on an image, and the object detection result of another sensor such as a rider can be used.

また、上述した判定方法を、コンピュータにより実行させている。このようにすることにより、コンピュータを用いて、視覚顕著性分布情報と物体検出とを組みわせて見落とし可能性を判定することができる。したがって、視覚的に見落とす可能性のある物体を検出することができる。 Further, the above-mentioned determination method is executed by a computer. By doing so, it is possible to determine the possibility of oversight by combining the visual saliency distribution information and the object detection using a computer. Therefore, it is possible to detect an object that may be visually overlooked.

また、上述した判定プログラムをコンピュータ読み取り可能な記憶媒体に格納してもよい。このようにすることにより、当該プログラムを機器に組み込む以外に単体でも流通させることができ、バージョンアップ等も容易に行える。 Further, the determination program described above may be stored in a computer-readable storage medium. By doing so, the program can be distributed as a single unit in addition to being incorporated in the device, and version upgrades and the like can be easily performed.

本発明の一実施例にかかる判定装置を図1〜図10を参照して説明する。本実施例にかかる判定装置は、例えば自動車等の移動体に設置されている。但し、図1に示した構成の全てを移動体に搭載するに限らない。少なくとも後述する情報提示手段6のみを移動体に設置すれば、他の手段は例えばサーバ装置等で構成し、サーバ装置と移動体間で通信するように構成してもよい。 A determination device according to an embodiment of the present invention will be described with reference to FIGS. 1 to 10. The determination device according to this embodiment is installed in a moving body such as an automobile. However, not all of the configurations shown in FIG. 1 are mounted on the moving body. If at least only the information presenting means 6 described later is installed in the mobile body, the other means may be configured by, for example, a server device or the like, and may be configured to communicate between the server device and the mobile body.

図1に示したように、判定装置1は、入力手段2と、視覚顕著性抽出手段3と、物体領域検出手段4と、見落とし判定手段5と、情報提示手段6と、を備えている。 As shown in FIG. 1, the determination device 1 includes an input means 2, a visual prominence extraction means 3, an object area detection means 4, an oversight determination means 5, and an information presenting means 6.

入力手段2は、例えばカメラなどで撮像された画像(静止画像又は動画像)が入力され、その画像を画像データとして出力する。なお、入力された画像が動画像の場合は、例えばフレーム毎等の時系列に分解された画像データとして出力する。入力手段2に入力される画像は、例えば車両の進行方向が撮像された画像が挙げられるが、いわゆるパノラマ画像等の水平方向に180°や360°等進行方向以外が含まれる画像であってもよい。また、入力手段2には入力されるのは、カメラで撮像された画像に限らず、ハードディスクドライブやメモリカード等の記録媒体から読み出した画像であってもよい。 The input means 2 inputs an image (still image or moving image) captured by, for example, a camera, and outputs the image as image data. If the input image is a moving image, it is output as time-series decomposed image data such as for each frame. The image input to the input means 2 includes, for example, an image in which the traveling direction of the vehicle is captured, but even if the image includes a direction other than the traveling direction such as 180 ° or 360 ° in the horizontal direction such as a so-called panoramic image. Good. Further, what is input to the input means 2 is not limited to the image captured by the camera, but may be an image read from a recording medium such as a hard disk drive or a memory card.

視覚顕著性抽出手段3は、入力手段2から画像データが入力され、後述する視覚顕著性推定情報として視覚顕著性マップを出力する。即ち、視覚顕著性抽出手段3は、移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性マップ(視覚顕著性分布情報)を生成する生成部として機能する。 The visual saliency extracting means 3 inputs image data from the input means 2 and outputs a visual saliency map as the visual saliency estimation information described later. That is, the visual saliency extracting means 3 serves as a generation unit that generates a visual saliency map (visual saliency distribution information) obtained by estimating the height of the visual saliency based on an image obtained by capturing the outside from a moving body. Function.

図2は、視覚顕著性抽出手段3の構成を例示するブロック図である。本実施例に係る視覚顕著性抽出手段3は、入力部310、非線形写像部320、出力部330および記憶部390を備える。入力部310は、画像を写像処理可能な中間データに変換する。非線形写像部320は、中間データを写像データに変換する。出力部330は、写像データに基づき顕著性分布を示す顕著性推定情報を生成する。そして、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322とを備える。記憶部390は、入力手段2から入力された画像データや後述するフィルタの係数等が保持されている。以下に詳しく説明する。 FIG. 2 is a block diagram illustrating the configuration of the visual prominence extraction means 3. The visual prominence extraction means 3 according to the present embodiment includes an input unit 310, a non-linear mapping unit 320, an output unit 330, and a storage unit 390. The input unit 310 converts the image into intermediate data that can be mapped. The non-linear mapping unit 320 converts the intermediate data into mapping data. The output unit 330 generates saliency estimation information showing a saliency distribution based on the mapping data. The nonlinear mapping unit 320 includes a feature extraction unit 321 that extracts features from the intermediate data, and an upsampling unit 322 that upsamples the data generated by the feature extraction unit 321. The storage unit 390 holds the image data input from the input means 2, the coefficient of the filter described later, and the like. This will be described in detail below.

図3(a)は、視覚顕著性抽出手段3へ入力する画像を例示する図であり、図3(b)は、図3(a)に対し推定される、視覚顕著性分布を示す画像を例示する図である。本実施例に係る視覚顕著性抽出手段3は、画像における各部分の視覚顕著性を推定する装置である。視覚顕著性とは例えば、目立ちやすさや視線の集まりやすさを意味する。具体的には視覚顕著性は、確率等で示される。ここで、確率の大小は、たとえばその画像を見た人の視線がその位置に向く確率の大小に対応する。 FIG. 3 (a) is a diagram illustrating an image to be input to the visual saliency extracting means 3, and FIG. 3 (b) is an image showing a visual saliency distribution estimated with respect to FIG. 3 (a). It is a figure which exemplifies. The visual saliency extracting means 3 according to the present embodiment is a device for estimating the visual saliency of each part in the image. Visual prominence means, for example, the ease of conspicuousness and the ease of gathering eyes. Specifically, the visual prominence is indicated by a probability or the like. Here, the magnitude of the probability corresponds to, for example, the magnitude of the probability that the line of sight of the person who sees the image points to the position.

図3(a)と図3(b)とは、互いに位置が対応している。そして、図3(a)において、視覚顕著性が高い位置ほど、図3(b)において輝度が高く表示されている。図3(b)のような視覚顕著性分布を示す画像は、出力部330が出力する視覚顕著性マップの一例である。本図の例において、視覚顕著性は、256階調の輝度値で可視化されている。出力部330が出力する視覚顕著性マップの例については詳しく後述する。 The positions of FIGS. 3 (a) and 3 (b) correspond to each other. Then, in FIG. 3A, the higher the visual prominence is, the higher the brightness is displayed in FIG. 3B. The image showing the visual saliency distribution as shown in FIG. 3B is an example of the visual saliency map output by the output unit 330. In the example of this figure, the visual prominence is visualized by the luminance value of 256 gradations. An example of the visual saliency map output by the output unit 330 will be described in detail later.

図4は、本実施例に係る視覚顕著性抽出手段3の動作を例示するフローチャートである。図4に示したフローチャートは、コンピュータによって実行される判定方法の一部であって、入力ステップS110、非線形写像ステップS120、および出力ステップS130を含む。入力ステップS110では、画像が写像処理可能な中間データに変換される。非線形写像ステップS120では、中間データが写像データに変換される。出力ステップS130では、写像データに基づき顕著性分布を示す視覚顕著性推定情報が生成される。ここで、非線形写像ステップS120は、中間データに対し特徴の抽出を行う特徴抽出ステップS121と、特徴抽出ステップS121で生成されたデータのアップサンプルを行うアップサンプルステップS122とを含む。 FIG. 4 is a flowchart illustrating the operation of the visual prominence extraction means 3 according to the present embodiment. The flowchart shown in FIG. 4 is part of a determination method performed by a computer and includes an input step S110, a non-linear mapping step S120, and an output step S130. In the input step S110, the image is converted into intermediate data that can be mapped. In the nonlinear mapping step S120, the intermediate data is converted into mapping data. In output step S130, visual saliency estimation information showing a saliency distribution is generated based on the mapping data. Here, the nonlinear mapping step S120 includes a feature extraction step S121 for extracting features from the intermediate data and an upsampling step S122 for upsampling the data generated in the feature extraction step S121.

図2に戻り、視覚顕著性抽出手段3の各構成要素について説明する。入力ステップS110において入力部310は、画像を取得し、中間データに変換する。入力部310は、画像データを入力手段2から取得する。そして入力部310は、取得した画像を中間データに変換する。中間データは非線形写像部320が受け付け可能なデータであれば特に限定されないが、たとえば高次元テンソルである。また、中間データはたとえば、取得した画像に対し輝度を正規化したデータ、または、取得した画像の各画素を、輝度の傾きに変換したデータである。入力ステップS110において入力部310は、さらに画像のノイズ除去や解像度変換等を行っても良い。 Returning to FIG. 2, each component of the visual saliency extracting means 3 will be described. In the input step S110, the input unit 310 acquires an image and converts it into intermediate data. The input unit 310 acquires image data from the input means 2. Then, the input unit 310 converts the acquired image into intermediate data. The intermediate data is not particularly limited as long as it is data that can be accepted by the nonlinear mapping unit 320, but is, for example, a high-dimensional tensor. Further, the intermediate data is, for example, data in which the brightness of the acquired image is normalized, or data in which each pixel of the acquired image is converted into a slope of the brightness. In the input step S110, the input unit 310 may further perform image noise removal, resolution conversion, and the like.

非線形写像ステップS120において、非線形写像部320は入力部310から中間データを取得する。そして、非線形写像部320において中間データが写像データに変換される。ここで、写像データは例えば高次元テンソルである。非線形写像部320で中間データに施される写像処理は、たとえばパラメータ等により制御可能な写像処理であり、関数、汎関数、またはニューラルネットワークによる処理であることが好ましい。 In the nonlinear mapping step S120, the nonlinear mapping unit 320 acquires intermediate data from the input unit 310. Then, the non-linear mapping unit 320 converts the intermediate data into mapping data. Here, the mapping data is, for example, a high-dimensional tensor. The mapping process applied to the intermediate data by the nonlinear mapping unit 320 is, for example, a mapping process that can be controlled by a parameter or the like, and is preferably a function, a functional, or a neural network process.

図5は、非線形写像部320の構成を詳しく例示する図であり、図6は、中間層323の構成を例示する図である。上記した通り、非線形写像部320は、特徴抽出部321およびアップサンプル部322を備える。特徴抽出部321において特徴抽出ステップS121が行われ、アップサンプル部322においてアップサンプルステップS122が行われる。また、本図の例において、特徴抽出部321およびアップサンプル部322の少なくとも一方は、複数の中間層323を含むニューラルネットワークを含んで構成される。ニューラルネットワークにおいては、複数の中間層323が結合されている。 FIG. 5 is a diagram illustrating the configuration of the nonlinear mapping unit 320 in detail, and FIG. 6 is a diagram illustrating the configuration of the intermediate layer 323. As described above, the nonlinear mapping unit 320 includes a feature extraction unit 321 and an upsampling unit 322. The feature extraction step S121 is performed in the feature extraction unit 321, and the upsample step S122 is performed in the upsample unit 322. Further, in the example of this figure, at least one of the feature extraction unit 321 and the upsampling unit 322 is configured to include a neural network including a plurality of intermediate layers 323. In the neural network, a plurality of intermediate layers 323 are connected.

特にニューラルネットワークは畳み込みニューラルネットワークであることが好ましい。具体的には、複数の中間層323のそれぞれは、一または二以上の畳み込み層324を含む。そして、畳み込み層324では、入力されたデータに対し複数のフィルタ325による畳み込みが行われ、複数のフィルタ325の出力に対し活性化処理が施される。 In particular, the neural network is preferably a convolutional neural network. Specifically, each of the plurality of intermediate layers 323 includes one or more convolutional layers 324. Then, in the convolution layer 324, the input data is convolved by the plurality of filters 325, and the outputs of the plurality of filters 325 are activated.

図5の例において、特徴抽出部321は、複数の中間層323を含むニューラルネットワークを含んで構成され、複数の中間層323の間に第1のプーリング部326を備える。また、アップサンプル部322は、複数の中間層323を含むニューラルネットワークを含んで構成され、複数の中間層323の間にアンプーリング部328を備える。さらに、特徴抽出部321とアップサンプル部322とは、オーバーラッププーリングを行う第2のプーリング部327を介して互いに接続されている。 In the example of FIG. 5, the feature extraction unit 321 is configured to include a neural network including a plurality of intermediate layers 323, and includes a first pooling unit 326 between the plurality of intermediate layers 323. Further, the upsampling unit 322 is configured to include a neural network including a plurality of intermediate layers 323, and an amplifiering unit 328 is provided between the plurality of intermediate layers 323. Further, the feature extraction unit 321 and the upsampling unit 322 are connected to each other via a second pooling unit 327 that performs overlap pooling.

なお、本図の例において各中間層323は、二以上の畳み込み層324からなる。ただし、少なくとも一部の中間層323は、一の畳み込み層324のみからなってもよい。互いに隣り合う中間層323は、第1のプーリング部326、第2のプーリング部327およびアンプーリング部328のいずれかで区切られる。ここで、中間層323に二以上の畳み込み層324が含まれる場合、それらの畳み込み層324におけるフィルタ325の数は互いに等しいことが好ましい。 In the example of this figure, each intermediate layer 323 is composed of two or more convolutional layers 324. However, at least a part of the intermediate layer 323 may consist of only one convolution layer 324. The intermediate layers 323 adjacent to each other are separated by one of a first pooling portion 326, a second pooling portion 327, and an amplifiering portion 328. Here, when the intermediate layer 323 includes two or more convolution layers 324, it is preferable that the number of filters 325 in the convolution layers 324 is equal to each other.

本図では、「A×B」と記された中間層323は、B個の畳み込み層324からなり、各畳み込み層324は、各チャネルに対しA個の畳み込みフィルタを含むことを意味している。このような中間層323を以下では「A×B中間層」とも呼ぶ。たとえば、64×2中間層323は、2個の畳み込み層324からなり、各畳み込み層324は、各チャネルに対し64個の畳み込みフィルタを含むことを意味している。 In this figure, the intermediate layer 323 marked "AxB" is composed of B convolution layers 324, which means that each convolution layer 324 includes A convolution filters for each channel. .. Such an intermediate layer 323 will also be referred to as an "A × B intermediate layer" below. For example, the 64 × 2 intermediate layer 323 consists of two convolution layers 324, meaning that each convolution layer 324 includes 64 convolution filters for each channel.

本図の例において、特徴抽出部321は、64×2中間層323、128×2中間層323、256×3中間層323、および、512×3中間層323をこの順に含む。また、アップサンプル部322は、512×3中間層323、256×3中間層323、128×2中間層323、および64×2中間層323をこの順に含む。また、第2のプーリング部327は、2つの512×3中間層323を互いに接続している。なお、非線形写像部320を構成する中間層323の数は特に限定されず、たとえば画像データの画素数に応じて定めることができる。 In the example of this figure, the feature extraction unit 321 includes a 64 × 2 intermediate layer 323, a 128 × 2 intermediate layer 323, a 256 × 3 intermediate layer 323, and a 512 × 3 intermediate layer 323 in this order. Further, the upsampling unit 322 includes 512 × 3 intermediate layer 323, 256 × 3 intermediate layer 323, 128 × 2 intermediate layer 323, and 64 × 2 intermediate layer 323 in this order. Further, the second pooling unit 327 connects two 512 × 3 intermediate layers 323 to each other. The number of intermediate layers 323 constituting the nonlinear mapping unit 320 is not particularly limited, and can be determined according to, for example, the number of pixels of the image data.

なお、本図は非線形写像部320の構成の一例であり、非線形写像部320は他の構成を有していても良い。たとえば、64×2中間層323の代わりに64×1中間層323が含まれても良い。中間層323に含まれる畳み込み層324の数が削減されることで、計算コストがより低減される可能性がある。また、たとえば、64×2中間層323の代わりに32×2中間層323が含まれても良い。中間層323のチャネル数が削減されることで、計算コストがより低減される可能性がある。さらに、中間層323における畳み込み層324の数とチャネル数との両方を削減しても良い。 Note that this figure is an example of the configuration of the nonlinear mapping unit 320, and the nonlinear mapping unit 320 may have another configuration. For example, a 64x1 intermediate layer 323 may be included instead of the 64x2 intermediate layer 323. By reducing the number of convolution layers 324 included in the intermediate layer 323, the calculation cost may be further reduced. Further, for example, a 32 × 2 intermediate layer 323 may be included instead of the 64 × 2 intermediate layer 323. By reducing the number of channels in the intermediate layer 323, the calculation cost may be further reduced. Further, both the number of convolution layers 324 and the number of channels in the intermediate layer 323 may be reduced.

ここで、特徴抽出部321に含まれる複数の中間層323においては、第1のプーリング部326を経る毎にフィルタ325の数が増加することが好ましい。具体的には、第1の中間層323aと第2の中間層323bとが、第1のプーリング部326を介して互いに連続しており、第1の中間層323aの後段に第2の中間層323bが位置する。そして、第1の中間層323aは、各チャネルに対するフィルタ325の数がN1である畳み込み層324で構成されており、第2の中間層323bは、各チャネルに対するフィルタ
325の数がN2である畳み込み層324で構成されている。このとき、N2>N1が成り立つことが好ましい。また、N2=N1×2が成り立つことがより好ましい。
Here, in the plurality of intermediate layers 323 included in the feature extraction unit 321, it is preferable that the number of filters 325 increases each time the first pooling unit 326 is passed. Specifically, the first intermediate layer 323a and the second intermediate layer 323b are continuous with each other via the first pooling portion 326, and the second intermediate layer is behind the first intermediate layer 323a. 323b is located. The first intermediate layer 323a is composed of a convolution layer 324 in which the number of filters 325 for each channel is N1, and the second intermediate layer 323b is a convolution layer in which the number of filters 325 for each channel is N2. It is composed of layers 324. At this time, it is preferable that N2> N1 holds. Further, it is more preferable that N2 = N1 × 2 holds.

また、アップサンプル部322に含まれる複数の中間層323においては、アンプーリング部328を経る毎にフィルタ325の数が減少することが好ましい。具体的には、第3の中間層323cと第4の中間層323dとが、アンプーリング部328を介して互いに連続しており、第3の中間層323cの後段に第4の中間層323dが位置する。そして、第3の中間層323cは、各チャネルに対するフィルタ325の数がN3である畳み込み層324で構成されており、第4の中間層323dは、各チャネルに対するフィルタ325の数がN4である畳み込み層324で構成されている。このとき、N4<N3が成り立つことが好ましい。また、N3=N4×2が成り立つことがより好ましい。 Further, in the plurality of intermediate layers 323 included in the upsample unit 322, it is preferable that the number of filters 325 decreases each time the amplifier ring unit 328 is passed through. Specifically, the third intermediate layer 323c and the fourth intermediate layer 323d are continuous with each other via the amplifiering portion 328, and the fourth intermediate layer 323d is located after the third intermediate layer 323c. To position. The third intermediate layer 323c is composed of a convolution layer 324 in which the number of filters 325 for each channel is N3, and the fourth intermediate layer 323d is a convolution layer in which the number of filters 325 for each channel is N4. It is composed of layers 324. At this time, it is preferable that N4 <N3 holds. Further, it is more preferable that N3 = N4 × 2 holds.

特徴抽出部321では、入力部310から取得した中間データから勾配や形状など、複数の抽象度を持つ画像特徴を中間層323のチャネルとして抽出する。図6は、64×2
中間層323の構成を例示している。本図を参照して、中間層323における処理を説明する。本図の例において、中間層323は第1の畳み込み層324aと第2の畳み込み層324bとで構成されており、各畳み込み層324は64個のフィルタ325を備える。第1の畳み込み層324aでは、中間層323に入力されたデータの各チャネルに対して、フィルタ325を用いた畳み込み処理が施される。たとえば入力部310へ入力された画像がRGB画像である場合、3つのチャネルh (i=1..3)のそれぞれに対して処理が施される。また、本図の例において、フィルタ325は64種の3×3フィルタであり、すなわち合計64×3種のフィルタである。畳み込み処理の結果、各チャネルiに対して、64個の結果h i,j(i=1..3,j=1..64)が得られる。
The feature extraction unit 321 extracts image features having a plurality of abstractions such as gradients and shapes from the intermediate data acquired from the input unit 310 as channels of the intermediate layer 323. FIG. 6 shows 64 × 2.
The configuration of the intermediate layer 323 is illustrated. The processing in the intermediate layer 323 will be described with reference to this figure. In the example of this figure, the intermediate layer 323 is composed of a first convolution layer 324a and a second convolution layer 324b, and each convolution layer 324 includes 64 filters 325. In the first convolution layer 324a, each channel of the data input to the intermediate layer 323 is subjected to a convolution process using the filter 325. For example, when the image input to the input unit 310 is an RGB image, processing is performed on each of the three channels h 0 i (i = 1.3). Further, in the example of this figure, the filter 325 is 64 types of 3 × 3 filters, that is, a total of 64 × 3 types of filters. As a result of the convolution process, 64 results h 0 i, j (i = 1..3, j = 1...64) are obtained for each channel i.

次に、複数のフィルタ325の出力に対し、活性化部329において活性化処理が行われる。具体的には、全チャネルの対応する結果jについて、対応する要素毎の総和に活性化処理が施される。この活性化処理により、64チャネルの結果h (i=1..64
)、すなわち、第1の畳み込み層324aの出力が、画像特徴として得られる。活性化処理は特に限定されないが、双曲関数、シグモイド関数、および正規化線形関数の少なくともいずれかを用いる処理が好ましい。
Next, the activation process is performed on the output of the plurality of filters 325 in the activation unit 329. Specifically, for the corresponding result j of all channels, the activation process is applied to the sum of the corresponding elements. This activation treatment resulted in 64 channels h 1 i (i = 1..64).
), That is, the output of the first convolution layer 324a is obtained as an image feature. The activation process is not particularly limited, but a process using at least one of a hyperbolic function, a sigmoid function, and a rectified linear function is preferable.

さらに、第1の畳み込み層324aの出力データを第2の畳み込み層324bの入力データとし、第2の畳み込み層324bにて第1の畳み込み層324aと同様の処理を行って、64チャネルの結果h (i=1..64)、すなわち第2の畳み込み層324bの出力が、画像特徴として得られる。第2の畳み込み層324bの出力がこの64×2中間層323の出力データとなる。 Further, the output data of the first convolution layer 324a is used as the input data of the second convolution layer 324b, and the second convolution layer 324b performs the same processing as that of the first convolution layer 324a, resulting in 64 channels. The output of 2 i (i = 1..64), i.e., the second convolution layer 324b, is obtained as an image feature. The output of the second convolution layer 324b becomes the output data of the 64 × 2 intermediate layer 323.

ここで、フィルタ325の構造は特に限定されないが、3×3の二次元フィルタであることが好ましい。また、各フィルタ325の係数は独立に設定可能である。本実施例において、各フィルタ325の係数は記憶部390に保持されており、非線形写像部320がそれを読み出して処理に用いることができる。ここで、複数のフィルタ325の係数は機械学習を用いて生成、修正された補正情報に基づいて定められてもよい。たとえば、補正情報は、複数のフィルタ325の係数を、複数の補正パラメータとして含む。非線形写像部320は、この補正情報をさらに用いて中間データを写像データに変換することができる。記憶部390は視覚顕著性抽出手段3に備えられていてもよいし、視覚顕著性抽出手段3の外部に設けられていてもよい。また、非線形写像部320は補正情報を、通信ネットワークを介して外部から取得しても良い。 Here, the structure of the filter 325 is not particularly limited, but a 3 × 3 two-dimensional filter is preferable. Further, the coefficient of each filter 325 can be set independently. In this embodiment, the coefficient of each filter 325 is stored in the storage unit 390, and the nonlinear mapping unit 320 can read it out and use it for processing. Here, the coefficients of the plurality of filters 325 may be determined based on the correction information generated and corrected by using machine learning. For example, the correction information includes the coefficients of the plurality of filters 325 as a plurality of correction parameters. The nonlinear mapping unit 320 can further use this correction information to convert intermediate data into mapping data. The storage unit 390 may be provided in the visual saliency extracting means 3, or may be provided outside the visual saliency extracting means 3. Further, the nonlinear mapping unit 320 may acquire the correction information from the outside via the communication network.

図7(a)および図7(b)はそれぞれ、フィルタ325で行われる畳み込み処理の例を示す図である。図7(a)および図7(b)では、いずれも3×3畳み込みの例が示されている。図7(a)の例は、最近接要素を用いた畳み込み処理である。図7(b)の例は、距離が二以上の近接要素を用いた畳み込み処理である。なお、距離が三以上の近接要素を用いた畳み込み処理も可能である。フィルタ325は、距離が二以上の近接要素を用いた畳み込み処理を行うことが好ましい。より広範囲の特徴を抽出することができ、視覚顕著性の推定精度をさらに高めることができるからである。 7 (a) and 7 (b) are diagrams showing an example of the convolution process performed by the filter 325, respectively. In both FIGS. 7 (a) and 7 (b), an example of 3 × 3 convolution is shown. The example of FIG. 7A is a convolution process using the closest element. The example of FIG. 7B is a convolution process using proximity elements having a distance of two or more. It should be noted that a convolution process using proximity elements having a distance of three or more is also possible. The filter 325 preferably performs a convolution process using proximity elements having a distance of two or more. This is because a wider range of features can be extracted and the accuracy of estimating visual saliency can be further improved.

以上、64×2中間層323の動作について説明した。他の中間層323(128×2中間層323、256×3中間層323、および、512×3中間層323等)の動作についても、畳み込み層324の数およびチャネルの数を除いて、64×2中間層323の動作と同じである。また、特徴抽出部321における中間層323の動作も、アップサンプル部322における中間層323の動作も上記と同様である。 The operation of the 64 × 2 intermediate layer 323 has been described above. The operation of the other intermediate layers 323 (128 × 2 intermediate layer 323, 256 × 3 intermediate layer 323, 512 × 3 intermediate layer 323, etc.) is also 64 ×, excluding the number of convolution layers 324 and the number of channels. 2 The operation is the same as that of the intermediate layer 323. Further, the operation of the intermediate layer 323 in the feature extraction unit 321 and the operation of the intermediate layer 323 in the upsample unit 322 are the same as described above.

図8(a)は、第1のプーリング部326の処理を説明するための図であり、図8(b)は、第2のプーリング部327の処理を説明するための図であり、図8(c)は、アンプーリング部328の処理を説明するための図である。 FIG. 8A is a diagram for explaining the processing of the first pooling unit 326, and FIG. 8B is a diagram for explaining the processing of the second pooling unit 327, and FIG. 8B is a diagram for explaining the processing of the second pooling unit 327. (C) is a diagram for explaining the processing of the amplifiering unit 328.

特徴抽出部321において、中間層323から出力されたデータは、第1のプーリング部326においてチャネル毎にプーリング処理が施された後、次の中間層323に入力される。第1のプーリング部326ではたとえば、非オーバーラップのプーリング処理が行われる。図8(a)では、各チャネルに含まれる要素群に対し、2×2の4つの要素30を1つの要素30に対応づける処理を示している。第1のプーリング部326ではこのような対応づけが全ての要素30に対し行われる。ここで、2×2の4つの要素30は互いに重ならないよう選択される。本例では、各チャネルの要素数が4分の1に縮小される。なお、第1のプーリング部326において要素数が縮小される限り、対応づける前後の要素30の数は特に限定されない。 The data output from the intermediate layer 323 in the feature extraction unit 321 is input to the next intermediate layer 323 after the pooling process is performed for each channel in the first pooling unit 326. In the first pooling unit 326, for example, a non-overlapping pooling process is performed. FIG. 8A shows a process of associating four 2 × 2 elements 30 with one element 30 for an element group included in each channel. In the first pooling unit 326, such a correspondence is made for all the elements 30. Here, the four elements 30 of 2 × 2 are selected so as not to overlap each other. In this example, the number of elements in each channel is reduced to a quarter. As long as the number of elements in the first pooling unit 326 is reduced, the number of elements 30 before and after the association is not particularly limited.

特徴抽出部321から出力されたデータは、第2のプーリング部327を介してアップサンプル部322に入力される。第2のプーリング部327では、特徴抽出部321からの出力データに対し、オーバーラッププーリングが施される。図8(b)では、一部の要素30をオーバーラップさせながら、2×2の4つの要素30を1つの要素30に対応づける処理を示している。すなわち、繰り返される対応づけにおいて、ある対応づけにおける2×2の4つの要素30のうち一部が、次の対応づけにおける2×2の4つの要素30にも含まれる。本図のような第2のプーリング部327では要素数は縮小されない。なお、第2のプーリング部327において対応づける前後の要素30の数は特に限定されない。 The data output from the feature extraction unit 321 is input to the upsampling unit 322 via the second pooling unit 327. In the second pooling unit 327, overlap pooling is applied to the output data from the feature extraction unit 321. FIG. 8B shows a process of associating four 2 × 2 elements 30 with one element 30 while overlapping some elements 30. That is, in the repeated association, a part of the 2 × 2 four elements 30 in one association is also included in the 2 × 2 four elements 30 in the next association. The number of elements is not reduced in the second pooling unit 327 as shown in this figure. The number of elements 30 before and after being associated with the second pooling unit 327 is not particularly limited.

第1のプーリング部326および第2のプーリング部327で行われる各処理の方法は特に限定されないが、たとえば、4つの要素30の最大値を1つの要素30とする対応づけ(max pooling)や4つの要素30の平均値を1つの要素30とする対応づけ(average pooling)が挙げられる。 The method of each processing performed by the first pooling unit 326 and the second pooling unit 327 is not particularly limited, but for example, a mapping (max pooling) in which the maximum value of the four elements 30 is set as one element 30 or 4 An association (average pooling) in which the average value of one element 30 is set as one element 30 can be mentioned.

第2のプーリング部327から出力されたデータは、アップサンプル部322における中間層323に入力される。そして、アップサンプル部322の中間層323からの出力データはアンプーリング部328においてチャネル毎にアンプーリング処理が施された後、次の中間層323に入力される。図8(c)では、1つの要素30を複数の要素30に拡大する処理を示している。拡大の方法は特に限定されないが、1つの要素30を2×2の4つの要素30へ複製する方法が例として挙げられる。 The data output from the second pooling unit 327 is input to the intermediate layer 323 in the upsampling unit 322. Then, the output data from the intermediate layer 323 of the upsample unit 322 is input to the next intermediate layer 323 after the amplifiering process is performed for each channel in the amplifiering unit 328. FIG. 8C shows a process of expanding one element 30 to a plurality of elements 30. The method of enlargement is not particularly limited, and an example is a method of duplicating one element 30 into four 2 × 2 elements 30.

アップサンプル部322の最後の中間層323の出力データは写像データとして非線形写像部320から出力され、出力部330に入力される。出力ステップS130において出力部330は、非線形写像部320から取得したデータに対し、たとえば正規化や解像度変換等を行うことで視覚顕著性マップを生成し、出力する。視覚顕著性マップはたとえば、図3(b)に例示したような視覚顕著性を輝度値で可視化した画像(画像データ)である。また、視覚顕著性マップはたとえば、ヒートマップのように視覚顕著性に応じて色分けされた画像であっても良いし、視覚顕著性が予め定められた基準より高い視覚顕著領域を、その他の位置とは識別可能にマーキングした画像であっても良い。さらに、視覚顕著性推定情報は画像等として示されたマップ情報に限定されず、視覚顕著領域を示す情報を列挙したテーブル等であっても良い。 The output data of the last intermediate layer 323 of the upsampling unit 322 is output as mapping data from the nonlinear mapping unit 320 and input to the output unit 330. In the output step S130, the output unit 330 generates and outputs a visual saliency map by performing, for example, normalization or resolution conversion on the data acquired from the nonlinear mapping unit 320. The visual saliency map is, for example, an image (image data) in which the visual saliency as illustrated in FIG. 3B is visualized by a luminance value. Further, the visual saliency map may be an image color-coded according to the visual saliency, such as a heat map, or a visual saliency region having a visual saliency higher than a predetermined reference can be set at other positions. May be an image marked so as to be identifiable. Further, the visual prominence estimation information is not limited to the map information shown as an image or the like, and may be a table or the like listing information indicating the visually prominent region.

物体領域検出手段4は、入力手段2から入力された画像データと検出する物体の種類を指定する物体指定情報とに基づいて画像データ内における指定された物体を検出(検出)する。物体領域検出手段4で行う物体検出方法は、例えばSSD(Single Shot multiple Detector)といった周知の方法を用いればよく、特に限定されない。物体指定情報は、例えば検出すべき物体のラベルとすることができる。また、物体指定情報は、物体領域検出手段4の内部情報として保持してもよい。物体指定情報に指定される物体のラベルは、例えば、自動車、バイク、自転車や歩行者等の移動体が挙げられるが、道路標示や道路標識を含めてもよい。 The object area detecting means 4 detects (detects) a designated object in the image data based on the image data input from the input means 2 and the object designation information that specifies the type of the object to be detected. The object detection method performed by the object area detection means 4 may be a well-known method such as SSD (Single Shot multiple Detector), and is not particularly limited. The object designation information can be, for example, a label of an object to be detected. Further, the object designation information may be retained as internal information of the object area detecting means 4. The label of the object specified in the object designation information includes, for example, a moving body such as an automobile, a motorcycle, a bicycle, or a pedestrian, but may include a road marking or a road sign.

物体領域検出手段4は、検出結果を画像上の領域(検出領域)を示す領域情報として出力する。この領域情報が示す領域は物体の形状に沿ったものでなくてもよく、当該物体を含む例えば矩形状や円状の領域であってもよい。 即ち、物体領域検出手段4は、検出対象とする物体の種類を設定する設定部として機能するとともに、画像から設定された種類の物体を検出する物体検出部として機能する。 The object area detecting means 4 outputs the detection result as area information indicating an area (detection area) on the image. The region indicated by this region information does not have to follow the shape of the object, and may be, for example, a rectangular or circular region including the object. That is, the object area detecting means 4 functions as a setting unit for setting the type of the object to be detected, and also functions as an object detecting unit for detecting the type of the object set from the image.

見落とし判定手段5は、視覚顕著性抽出手段3が出力した視覚顕著性マップと、物体領域検出手段4が検出した物体領域情報とを対比して、予め定めた判定基準情報に基づいて見落とされる可能性がある物体を判定して、その判定結果を見落とし物体情報として出力する。判定基準情報は、見落としと判定するための基準とする情報であり、例えば特定の閾値(スカラー値又はベクトル値)とすることができる。また、この判定基準情報は、見落とし判定手段5の内部情報として保持してもよい。見落とし判定手段5が出力する見落とし物体情報としては、例えば見落とし物体を含む矩形状の領域情報あるいは画素座標を示す情報とすることができる。即ち、見落とし判定手段5は、物体領域検出手段4(物体検出部)が検出した物体について、視覚顕著性マップ(視覚顕著性分布情報)に基づいて見落とし可能性判定を行う判定部として機能する。 The oversight determination means 5 may be overlooked based on a predetermined determination criterion information by comparing the visual saliency map output by the visual saliency extracting means 3 with the object area information detected by the object area detection means 4. An object with a property is determined, and the determination result is overlooked and output as object information. The determination standard information is information that is used as a reference for determining oversight, and can be, for example, a specific threshold value (scalar value or vector value). Further, this determination standard information may be retained as internal information of the oversight determination means 5. The overlooked object information output by the overlooked determination means 5 can be, for example, rectangular area information including the overlooked object or information indicating pixel coordinates. That is, the oversight determination means 5 functions as a determination unit that determines the possibility of oversight of an object detected by the object area detection means 4 (object detection unit) based on the visual saliency map (visual saliency distribution information).

情報提示手段6は、見落とし判定手段5が出力した物体見落とし情報を提示する。情報提示手段としては、物体見落とし情報を表示する表示装置で構成することができる。この表示装置は、例えはヘッドアップディスプレイやメータ内など運転者の視認しやすい位置に設置されているのが望ましい。 The information presenting means 6 presents the object oversight information output by the oversight determination means 5. The information presenting means can be configured by a display device that displays overlooked object information. It is desirable that this display device is installed at a position that is easy for the driver to see, such as in a head-up display or a meter.

次に、上述した構成の判定装置1における動作(判定方法)について、図9のフローチャートを参照して説明する。また、このフローチャートを判定装置1として機能するコンピュータで実行されるプログラムとして構成することで判定プログラムとすることができる。また、この判定プログラムは、判定装置1が有するメモリ等に記憶するに限らず、メモリカードや光ディスク等の記憶媒体に格納してもよい。 Next, the operation (determination method) in the determination device 1 having the above-described configuration will be described with reference to the flowchart of FIG. Further, the determination program can be obtained by configuring this flowchart as a program executed by a computer functioning as the determination device 1. Further, this determination program is not limited to being stored in the memory or the like of the determination device 1, and may be stored in a storage medium such as a memory card or an optical disk.

まず、入力手段2が、入力された画像を画像データとして視覚顕著性抽出手段3及び物体領域検出手段4に出力する(ステップS210)。本ステップでは、入力手段2に入力された画像データを動画像の場合は時系列に分解して視覚顕著性抽出手段3及び物体領域検出手段4へ入力している。また、本ステップでノイズ除去や幾何学変換などの画像処理を施してもよい。 First, the input means 2 outputs the input image as image data to the visual saliency extracting means 3 and the object area detecting means 4 (step S210). In this step, in the case of a moving image, the image data input to the input means 2 is decomposed in time series and input to the visual prominence extracting means 3 and the object area detecting means 4. In addition, image processing such as noise removal and geometric transformation may be performed in this step.

次に、視覚顕著性抽出手段3が、視覚顕著性マップを抽出する(ステップS220)。視覚顕著性マップは、視覚顕著性抽出手段3において、上述した方法により図3(b)に示したような視覚顕著性マップを出力する。 Next, the visual saliency extracting means 3 extracts the visual saliency map (step S220). The visual saliency map outputs the visual saliency map as shown in FIG. 3B by the method described above in the visual saliency extracting means 3.

ステップS220と並行して物体領域検出手段4が、領域情報を出力する(ステップS230)。領域情報は、物体領域検出手段4において、入力手段2から入力された画像データに対して、物体指定情報に基づいて当該画像データ内に存在する物体の領域を検出して領域情報として出力する。図10に領域情報の例を示す。図10は、図3(a)に示した画像データに領域情報を付加したものである。図10に示したように、領域情報は、検出された物体を含む領域を示す領域部41、42と、検出された物体の種類や名称等を示すラベル名43、44と、から構成されている。 In parallel with step S220, the object area detecting means 4 outputs the area information (step S230). The area information is output as area information by detecting the area of the object existing in the image data based on the object designation information with respect to the image data input from the input means 2 in the object area detecting means 4. FIG. 10 shows an example of area information. FIG. 10 shows the image data shown in FIG. 3A with region information added. As shown in FIG. 10, the area information is composed of the area portions 41 and 42 indicating the area including the detected object and the label names 43 and 44 indicating the type and name of the detected object. There is.

領域部41は、図示したように矩形状の枠で示されている。図10では、物体として検出された「犬」を含むように枠が示されている。領域部42も同様に、図示したように矩形状の枠で示されている。図10では、物体として検出された「車」を含むように枠が示されている。なお、領域部41、42の形状は、矩形に限らず円や楕円等であってもよい。 The region portion 41 is shown by a rectangular frame as shown. In FIG. 10, the frame is shown to include the "dog" detected as an object. Similarly, the region portion 42 is also shown by a rectangular frame as shown. In FIG. 10, the frame is shown to include the "car" detected as an object. The shapes of the regions 41 and 42 are not limited to rectangles, but may be circles, ellipses, or the like.

ラベル名43は、図示したように領域部41に隣接するように示されている。図10では、検出された物体のラベル名である「犬」が示されている。ラベル名44は、図示したように領域部42に隣接するように示されている。図10では、検出された物体のラベル名である「車」が示されている。 The label name 43 is shown adjacent to the region portion 41 as shown. In FIG. 10, "dog", which is the label name of the detected object, is shown. The label name 44 is shown adjacent to the region portion 42 as shown. In FIG. 10, the label name of the detected object, "car", is shown.

図9の説明に戻る。次に、見落とし判定を行う(ステップS240)。見落とし判定は、見落とし判定手段5において、視覚顕著性抽出手段3が出力した視覚顕著性マップと、物体領域検出手段4が出力した領域情報と、から判定基準情報に基づいて領域情報に含まれる物体から視認的に見落とされる可能性のある物体を選択し、見落とし判定情報として出力する。 Returning to the description of FIG. Next, an oversight determination is performed (step S240). The oversight determination is an object included in the area information based on the determination reference information from the visual saliency map output by the visual saliency extracting means 3 and the area information output by the object area detection means 4 in the oversight determination means 5. Select an object that may be visually overlooked from the above and output it as oversight judgment information.

例えば、図3に例示した画像において、図3(a)で「犬」と「車」が検出された場合に、図3(b)の視覚顕著性マップにおいて右側中央に位置する輝度が高い部分が判定基準情報を超えて視覚顕著性が高いと判定されたとすると、この視覚顕著性が高いと判定された領域を図3(a)に重ねた場合に重なる領域にある物体である「犬」は見落とす可能性は低い。一方で、視覚顕著性が高いと判定された領域を図3(a)に重ねた場合に重ならない領域にある物体である「車」は見落とす可能性は高いと判定される。即ち、見落とし判定手段5(判定部)は、物体領域検出手段4(物体検出部)が検出した物体について、視覚顕著性マップ(視覚顕著性分布情報)において視覚顕著性が高いと判定された領域と重ならない物体は見落とされる可能性が高いと判定している。 For example, in the image illustrated in FIG. 3, when a "dog" and a "car" are detected in FIG. 3 (a), a portion having a high brightness located in the center on the right side in the visual saliency map of FIG. 3 (b). If it is determined that the visual luminosity is high beyond the judgment criterion information, the "dog" which is an object in the overlapping region when the region determined to have the high visual luminance is overlapped with FIG. 3 (a). Is unlikely to be overlooked. On the other hand, when the regions determined to have high visual prominence are overlapped with FIG. 3A, it is determined that there is a high possibility that the "car", which is an object in the regions that do not overlap, will be overlooked. That is, the oversight determination means 5 (determination unit) determines that the object detected by the object area detection means 4 (object detection unit) has high visual saliency in the visual saliency map (visual saliency distribution information). It is judged that objects that do not overlap with are likely to be overlooked.

上述した見落とし判定手段5における判定方法の詳細について説明する。物体領域検出手段4で検出された各物体に対して、以下の(1)式を用いて視覚顕著性の平均値が判定基準情報として得た閾値以下の場合に見落とし可能性ありと判定する。

Figure 2021077249
The details of the determination method in the oversight determination means 5 described above will be described. For each object detected by the object area detecting means 4, it is determined that there is a possibility of oversight when the average value of the visual saliency is equal to or less than the threshold value obtained as the determination reference information by using the following equation (1).
Figure 2021077249

(1)式において、area(obj)は物体iの面積、(x,y)∈objは物体i内の全画素の座標、sal(x,y)は座標(x,y)の視覚顕著性の値、Thは閾値を示す。 In equation (1), area (obj i ) is the area of the object i, (x, y) ∈ obj i is the coordinates of all pixels in the object i, and sal (x, y) is the visual of the coordinates (x, y). The value of saliency, Th, indicates a threshold.

そして、見落とし物体を提示する(ステップS250)。本実施例では、例えば見落とされる可能性のある物体に対応する領域部やラベル名は赤色等、他の物体に対応する領域部やラベル名よりも目立つ色や書体等で表示するといったことが挙げられる。例えば図10に示した「車」が見落とされる可能性のある物体と判定された場合は、領域部41とラベル名43を赤色で表示する。あるいは、例えば見落とされる可能性のある物体のみ領域部41やラベル名43を表示してもよい。 Then, the overlooked object is presented (step S250). In this embodiment, for example, the area portion or label name corresponding to an object that may be overlooked is displayed in red or the like, and the area portion or label name corresponding to another object is displayed in a color or typeface that is more conspicuous than the label name. Be done. For example, when the "car" shown in FIG. 10 is determined to be an object that may be overlooked, the area portion 41 and the label name 43 are displayed in red. Alternatively, for example, the area portion 41 or the label name 43 may be displayed only for an object that may be overlooked.

本実施例によれば、判定装置1は、視覚顕著性抽出手段3が車両等の移動体から外部を撮像した画像データから視覚顕著性の高低を推測して得られた視覚顕著性マップを生成する。一方、物体領域検出手段4には検出対象とする物体の種類が設定され、画像データから設定された種類の物体を検出する。そして、見落とし判定手段5では、物体領域検出手段4が検出した物体について、視覚顕著性マップに基づいて見落とし判定を行う。このようにすることにより、視覚顕著性マップと物体検出とを組みわせて見落としを判定することができる。したがって、視覚的に見落とす可能性のある物体を検出することができる。また、移動体から外部を撮像した画像のみで見落としの判定ができるので、例えばドライブレコーダやADAS(先進運転システム)用の車載カメラ等で撮像された画像から判定可能であり、視線検出等も不要となる。 According to this embodiment, the determination device 1 generates a visual saliency map obtained by estimating the height of the visual saliency from the image data obtained by the visual saliency extracting means 3 capturing the outside from a moving body such as a vehicle. To do. On the other hand, the type of the object to be detected is set in the object area detecting means 4, and the set type of object is detected from the image data. Then, the oversight determination means 5 performs an oversight determination on the object detected by the object area detection means 4 based on the visual saliency map. By doing so, the oversight can be determined by combining the visual saliency map and the object detection. Therefore, it is possible to detect an object that may be visually overlooked. In addition, since the oversight can be determined only by the image of the outside captured from the moving body, it can be determined from the image captured by the drive recorder, the in-vehicle camera for ADAS (advanced driver assistance system), etc. It becomes.

また、見落とし判定手段5は、物体領域検出手段4が検出した物体について、視覚顕著性マップと対比して見落とし判定を行っている。このようにすることにより、視覚顕著性マップと撮像した画像とを対比することにより、見落としを判定することができる。 Further, the oversight determination means 5 makes an oversight determination by comparing the object detected by the object area detection means 4 with the visual saliency map. By doing so, the oversight can be determined by comparing the visual saliency map with the captured image.

また、見落とし判定手段5は、物体領域検出手段4が検出した物体について、視覚顕著性が高いと判定された領域と重ならない物体は見落とされる可能性が高いと判定している。このようにすることにより、画像中で視覚顕著性が高くない部分に位置する物体が見落とし易いと判定することができる。 Further, the oversight determination means 5 determines that there is a high possibility that the object detected by the object area detection means 4 will be overlooked if the object does not overlap with the region determined to have high visual prominence. By doing so, it can be determined that an object located in a portion of the image where the visual prominence is not high is easily overlooked.

また、視覚顕著性抽出手段3は、画像を写像処理可能な中間データに変換する入力部310と、中間データを写像データに変換する非線形写像部320と、写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部330と、を備え、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322と、を備えている。このようにすることにより、小さな計算コストで、視覚顕著性を推定することができる。 Further, the visual saliency extracting means 3 includes an input unit 310 that converts an image into intermediate data that can be mapped, a nonlinear mapping unit 320 that converts the intermediate data into mapping data, and a remarkableness that shows a saliency distribution based on the mapping data. The non-linear mapping unit 320 includes an output unit 330 for generating sex estimation information, and the non-linear mapping unit 320 up-samples the feature extraction unit 321 that extracts features from the intermediate data and the data generated by the feature extraction unit 321. A sample unit 322 and a sample unit 322 are provided. By doing so, the visual prominence can be estimated at a small calculation cost.

また、見落とし判定手段5における判定結果を提示する情報提示手段6を備えている。このようにすることにより、判定結果を運転者に提示して見落とし可能性を警告することができる。 Further, the information presenting means 6 for presenting the determination result in the oversight determination means 5 is provided. By doing so, it is possible to present the determination result to the driver and warn the driver of the possibility of oversight.

なお、上述した実施例において、物体領域検出手段4については、入力手段2からの画像データに基づいて物体検出をしなくてもよい。例えば、ライダ等の他のセンサにより検出された結果を利用してもよい。この場合、他のセンサの物体検出範囲は画像データの撮像範囲と同じ範囲であることが好ましく、少なくとも画像データの撮像範囲を含むようにする必要がる。 In the above-described embodiment, the object area detecting means 4 does not have to detect the object based on the image data from the input means 2. For example, the result detected by another sensor such as a rider may be used. In this case, the object detection range of the other sensor is preferably the same range as the image data imaging range, and must include at least the image data imaging range.

また、本発明は上記実施例に限定されるものではない。即ち、当業者は、従来公知の知見に従い、本発明の骨子を逸脱しない範囲で種々変形して実施することができる。かかる変形によってもなお本発明の判定装置を具備する限り、勿論、本発明の範疇に含まれるものである。 Further, the present invention is not limited to the above examples. That is, those skilled in the art can carry out various modifications according to conventionally known knowledge within a range that does not deviate from the gist of the present invention. Even with such a modification, as long as the determination device of the present invention is still provided, it is, of course, included in the category of the present invention.

1 判定装置
2 入力手段
3 視覚顕著性抽出手段(生成部)
4 物体領域検出手段(設定部、物体検出部)
5 見落とし判定手段(判定部)
6 情報提示手段(提示部)
1 Judgment device 2 Input means 3 Visual prominence extraction means (generation unit)
4 Object area detection means (setting unit, object detection unit)
5 Oversight judgment means (judgment unit)
6 Information presentation means (presentation section)

Claims (12)

移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する生成部と、
検出対象とする物体の種類を設定する設定部と、
前記画像から設定された種類の物体を検出する物体検出部と、
前記物体検出部が検出した物体について、前記視覚顕著性分布情報に基づいて見落とし可能性判定を行う判定部と、
を備えることを特徴とする判定装置。
A generator that generates visual saliency distribution information obtained by estimating the level of visual saliency based on an image of the outside taken from a moving body, and
A setting unit that sets the type of object to be detected, and
An object detection unit that detects an object of the set type from the image,
A determination unit that determines the possibility of oversight of an object detected by the object detection unit based on the visual saliency distribution information.
A determination device comprising.
前記判定部は、前記物体検出部が検出した物体について、前記視覚顕著性分布情報と対比して見落とし可能性判定を行うことを特徴とする請求項1に記載の判定装置。 The determination device according to claim 1, wherein the determination unit determines the possibility of oversight of an object detected by the object detection unit in comparison with the visual saliency distribution information. 前記判定部は、前記物体検出部が検出した物体について、前記視覚顕著性分布情報において視覚顕著性が高いと判定された領域と重ならない物体は見落とされる可能性が高いと判定することを特徴とする請求項2に記載の判定装置。 The determination unit is characterized in that, regarding an object detected by the object detection unit, it is highly likely that an object that does not overlap with a region determined to have high visual saliency in the visual saliency distribution information is likely to be overlooked. The determination device according to claim 2. 前記生成部は、
前記画像を写像処理可能な中間データに変換する入力部と、
前記中間データを写像データに変換する非線形写像部と、
前記写像データに基づき顕著性分布を示す顕著性推定情報を生成する出力部と、を備え、
前記非線形写像部は、前記中間データに対し特徴の抽出を行う特徴抽出部と、前記特徴抽出部で生成されたデータのアップサンプルを行うアップサンプル部と、を備える、
ことを特徴とする請求項1から3のうちいずれか一項に記載の判定装置。
The generator
An input unit that converts the image into intermediate data that can be mapped,
A non-linear mapping unit that converts the intermediate data into mapping data,
It includes an output unit that generates saliency estimation information showing a saliency distribution based on the mapping data.
The nonlinear mapping unit includes a feature extraction unit that extracts features from the intermediate data, and an upsample unit that upsamples the data generated by the feature extraction unit.
The determination device according to any one of claims 1 to 3, wherein the determination device is characterized by the above.
前記判定部における判定結果を提示する提示部を備えることを特徴とする請求項1から4のうちいずれか一項に記載の判定装置。 The determination device according to any one of claims 1 to 4, further comprising a presentation unit that presents a determination result in the determination unit. 移動体から外部を撮像した画像に基づいて視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する生成部と、
検出対象とする物体の種類を設定する設定部と、
前記画像の撮像範囲を含む領域の前記設定部に設定された種類の物体を検出する物体検出部と、
前記物体検出部が検出した物体について、前記視覚顕著性分布情報に基づいて見落とし可能性判定を行う判定部と、
を備えることを特徴とする判定装置。
A generator that generates visual saliency distribution information obtained by estimating the level of visual saliency based on an image of the outside taken from a moving body, and
A setting unit that sets the type of object to be detected, and
An object detection unit that detects an object of the type set in the setting unit in the area including the imaging range of the image, and an object detection unit.
A determination unit that determines the possibility of oversight of an object detected by the object detection unit based on the visual saliency distribution information.
A determination device comprising.
移動体から外部を撮像した画像に基づいて見落とし可能性判定を行う判定装置で実行される判定方法であって、
前記画像から視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する生成工程と、
検出対象とする物体の種類を設定する設定工程と、
前記画像から設定された種類の物体を検出する物体検出工程と、
前記物体検出工程で検出した物体について、前記視覚顕著性分布情報に基づいて見落とし可能性判定を行う判定工程と、
を含むことを特徴とする判定方法。
It is a judgment method executed by a judgment device that judges the possibility of oversight based on an image of the outside taken from a moving body.
A generation step of generating visual saliency distribution information obtained by estimating the height of visual saliency from the image, and
A setting process for setting the type of object to be detected, and
An object detection process that detects an object of the type set from the image, and
A determination step of determining the possibility of oversight of an object detected in the object detection step based on the visual saliency distribution information, and a determination step.
A determination method characterized by including.
請求項7に記載の判定方法をコンピュータにより実行させることを特徴とする判定プログラム。 A determination program, characterized in that the determination method according to claim 7 is executed by a computer. 請求項8に記載の判定プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。 A computer-readable storage medium comprising storing the determination program according to claim 8. 移動体から外部を撮像した画像に基づいて見落とし可能性判定を行う判定装置で実行される判定方法であって、
前記画像から視覚顕著性の高低を推測して得られた視覚顕著性分布情報を生成する生成工程と、
検出対象とする物体の種類を設定する設定工程と、
前記画像の撮像範囲を含む領域の前記設定工程で設定された種類の物体を検出する物体検出工程と、
前記物体検出工程で検出した物体について、前記視覚顕著性分布情報に基づいて見落とし可能性判定を行う判定工程と、
を含むことを特徴とする判定装置。
It is a judgment method executed by a judgment device that judges the possibility of oversight based on an image of the outside taken from a moving body.
A generation step of generating visual saliency distribution information obtained by estimating the height of visual saliency from the image, and
A setting process for setting the type of object to be detected, and
An object detection step of detecting an object of the type set in the setting step of the region including the imaging range of the image, and an object detection step.
A determination step of determining the possibility of oversight of an object detected in the object detection step based on the visual saliency distribution information, and a determination step.
A determination device comprising.
請求項10に記載の判定方法をコンピュータにより実行させることを特徴とする判定プログラム。 A determination program, characterized in that the determination method according to claim 10 is executed by a computer. 請求項11に記載の判定プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。 A computer-readable storage medium comprising storing the determination program according to claim 11.
JP2019205195A 2019-11-13 2019-11-13 Determination device Pending JP2021077249A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019205195A JP2021077249A (en) 2019-11-13 2019-11-13 Determination device
JP2024020183A JP2024045532A (en) 2019-11-13 2024-02-14 Judgment device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019205195A JP2021077249A (en) 2019-11-13 2019-11-13 Determination device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024020183A Division JP2024045532A (en) 2019-11-13 2024-02-14 Judgment device

Publications (1)

Publication Number Publication Date
JP2021077249A true JP2021077249A (en) 2021-05-20

Family

ID=75898076

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019205195A Pending JP2021077249A (en) 2019-11-13 2019-11-13 Determination device
JP2024020183A Pending JP2024045532A (en) 2019-11-13 2024-02-14 Judgment device

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024020183A Pending JP2024045532A (en) 2019-11-13 2024-02-14 Judgment device

Country Status (1)

Country Link
JP (2) JP2021077249A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075856A (en) * 2007-09-20 2009-04-09 Toyota Central R&D Labs Inc Information presentation device for vehicle
JP2012247847A (en) * 2011-05-25 2012-12-13 Denso Corp Information transmission control device for vehicle and information transmission control device
JP2014127032A (en) * 2012-12-26 2014-07-07 Clarion Co Ltd Outside view recognition device for vehicles

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075856A (en) * 2007-09-20 2009-04-09 Toyota Central R&D Labs Inc Information presentation device for vehicle
JP2012247847A (en) * 2011-05-25 2012-12-13 Denso Corp Information transmission control device for vehicle and information transmission control device
JP2014127032A (en) * 2012-12-26 2014-07-07 Clarion Co Ltd Outside view recognition device for vehicles

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GEORGE LEIFMAN: "Learning Gaze Transitions from Depth to Improve Video Saliency Estimation", 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, JPN6023035750, 2017, ISSN: 0005143771 *
谷繁 龍之介: "運転時の人間の視野特性を考慮した歩行者の見落としやすさ推定手法", 電子情報通信学会論文誌 D, vol. 99, no. 1, JPN6023035749, 1 January 2016 (2016-01-01), JP, pages 56 - 66, ISSN: 0005143772 *

Also Published As

Publication number Publication date
JP2024045532A (en) 2024-04-02

Similar Documents

Publication Publication Date Title
JP3760068B2 (en) Image recognition device
US9113049B2 (en) Apparatus and method of setting parking position based on AV image
JP5482737B2 (en) Visual load amount estimation device, driving support device, and visual load amount estimation program
CN110751012B (en) Target detection evaluation method and device, electronic equipment and storage medium
KR100816377B1 (en) Method and Apparatus for Recognizing Parking Slot Marking by Using Hough Transformation and Parking Assist System Using Same
JP4364275B2 (en) Image processing method, image processing apparatus, and computer program
US9826166B2 (en) Vehicular surrounding-monitoring control apparatus
CN105716567A (en) Method for determining the distance between an object and a motor vehicle by means of a monocular imaging device
JP2007323578A (en) Vehicle periphery monitoring device
JP6313724B2 (en) Image processing apparatus and computer-readable storage medium
JP4826355B2 (en) Vehicle surrounding display device
JP5155204B2 (en) White line detector
JP2021077249A (en) Determination device
JP2010239448A (en) Device for recognizing road sign
JP2021157248A (en) State output device
JP2021144312A (en) Determination apparatus
WO2022123654A1 (en) Information processing device and information processing method
JP2021051348A (en) Object distance estimation apparatus and object distance estimation method
JP2021157247A (en) Determination device
JP7405570B2 (en) Visual load estimation device
JP6624312B2 (en) Display device, control method, program, and storage medium
JP7502051B2 (en) Information processing device
EP4304191A2 (en) Camera system, method for controlling the same, and computer program
AU2021107425A4 (en) Obstacle detection system in hybrid classification of heterogeneous environment using data mining techniques and method thereof
JP2020184146A (en) Saliency estimation device, saliency estimation method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231114