JP2024083601A - Detection support device, learning device, detection support method, learning method, and program - Google Patents
Detection support device, learning device, detection support method, learning method, and program Download PDFInfo
- Publication number
- JP2024083601A JP2024083601A JP2024066632A JP2024066632A JP2024083601A JP 2024083601 A JP2024083601 A JP 2024083601A JP 2024066632 A JP2024066632 A JP 2024066632A JP 2024066632 A JP2024066632 A JP 2024066632A JP 2024083601 A JP2024083601 A JP 2024083601A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- gaze
- image
- learning
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004458 analytical method Methods 0.000 claims abstract description 76
- 230000000007 visual effect Effects 0.000 claims description 183
- 238000004364 calculation method Methods 0.000 claims description 44
- 238000013135 deep learning Methods 0.000 claims description 41
- 238000013526 transfer learning Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 abstract description 45
- 230000008569 process Effects 0.000 abstract description 22
- 230000004438 eyesight Effects 0.000 abstract description 11
- 238000012360 testing method Methods 0.000 description 20
- 230000007547 defect Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000013461 design Methods 0.000 description 11
- 238000013136 deep learning model Methods 0.000 description 8
- 210000004556 brain Anatomy 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 241000282412 Homo Species 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000016776 visual perception Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 210000000857 visual cortex Anatomy 0.000 description 3
- 239000004566 building material Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007230 neural mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】コンテンツ画像に対する、人間の視覚による処理プロセスを、プロセッサ上の処理として実行する。【解決手段】所定の柄を繰り返し配置することにより生成されるコンテンツ画像に生じる、前記コンテンツ画像における柄の連続性による想定外のパターンの有無の検出を支援する検出支援装置であって、前記コンテンツ画像を取得するコンテンツ画像取得部と、視線特徴学習モデルを用いて前記コンテンツ画像から前記パターンを検出する際の視線の特徴である視線特徴を推定し、推定した前記視線特徴を前記コンテンツ画像における画素ごとに示す視線特徴画像を生成する視線特徴画像生成部と、前記視線特徴画像を表示する解析結果出力部と、を備え、前記視線特徴学習モデルは、学習用の前記コンテンツ画像と、当該学習用の前記コンテンツ画像から前記パターンを検出した人間の前記視線特徴との対応関係を学習した学習済モデルである。【選択図】図6[Problem] A processing process based on human vision for a content image is executed as processing on a processor. [Solution] A detection support device that supports the detection of the presence or absence of an unexpected pattern due to the continuity of a pattern in a content image generated by repeatedly arranging a predetermined pattern includes a content image acquisition unit that acquires the content image, a gaze feature image generation unit that uses a gaze feature learning model to estimate gaze features that are characteristics of the gaze when detecting the pattern from the content image and generates a gaze feature image showing the estimated gaze features for each pixel in the content image, and an analysis result output unit that displays the gaze feature image, and the gaze feature learning model is a trained model that has learned the correspondence between the content image for learning and the gaze features of a person who detected the pattern from the content image for learning. [Selected Figure] Figure 6
Description
本発明は、人間がコンテンツ画像の不具合を検出し易くなるように支援する検出支援装置、検出支援方法、及びプログラムに関する。 The present invention relates to a detection support device, a detection support method, and a program that help people to more easily detect defects in content images.
建装材の分野においては、古くから、意匠性が重要な付加価値とされており、たとえば木目や抽象柄等の意匠が施された化粧シートが、建築の内外装および家具、調度品等に接着して使用されている。このような化粧シートの意匠には、所定の柄を単位として、その柄を繰り返し配置することにより、所定の柄を同調させたものがある。 In the field of building materials, design has long been considered an important added value, and decorative sheets with designs such as wood grain or abstract patterns are used by adhering them to the interior and exterior of buildings, furniture, and other furnishings. Some designs for such decorative sheets are created by repeating a certain pattern as a unit, resulting in a certain pattern being synchronized.
このような所定の柄を同調させた意匠(以下、コンテンツ画像、或いは視覚コンテンツなどと称する)においては、柄の連続性が想定外のパターンや影を作り出してしまい、意匠性が損なわれてしまう不具合が発生することがある。このような不具合は、単体の柄を設計する段階では検出することができず、単体の柄を繰り返し配置した画像が作成され、その画像を、ある距離だけ離れた位置から観察して初めて検出されることが多い。これは、画像を観察した人物が、柄が繰り返されたコンテンツ画像上に、なんらかの空間的な規則性(パターン)を、視覚的に感知するためと考えられる。 In designs where such predetermined patterns are synchronized (hereafter referred to as content images or visual content), the continuity of the patterns can create unexpected patterns or shadows, resulting in defects that impair the design. Such defects cannot be detected at the stage of designing a single pattern, and are often only detected when an image is created in which a single pattern is repeatedly arranged, and this image is observed from a certain distance away. This is thought to be because a person observing an image visually senses some kind of spatial regularity (pattern) in the content image where the pattern is repeated.
一般に、訓練をした人間(熟練者)と訓練をしていない人間(非熟練者)とでは、同じ意匠のコンテンツ画像に対して検出することができる視覚的な特徴に差異が生じる。これは、人間が検出することができる視覚的な特徴が、コンテンツ画像の物理的な特性だけでなく、観察する人間の視覚の特性が大きく影響するためと考えられる。 In general, there are differences in the visual features that trained humans (experts) and untrained humans (non-experts) can detect in content images of the same design. This is thought to be because the visual features that humans can detect are greatly influenced not only by the physical characteristics of the content image, but also by the visual characteristics of the human observer.
つまり、熟練者は、このようなコンテンツ画像の外観上の不具合を検出することが可能であるが、非熟練者は、係る不具合を検出できないことが少なくない。これは、熟練者が、訓練によってコンテンツ画像に対する不具合の検出方法を習得したためと考えられる。つまり、熟練者は、視覚情報処理過程において、コンテンツ画像に対する特有の見方や、特有の処理方法を確立していると考えられる。このような特有の見方を定量化することができれば、非熟練者であっても、負担の大きい訓練を経ずに、このようなコンテンツ画像の不具合を検出できるようになると考えられる。 In other words, while an expert is able to detect defects in the appearance of such content images, an unskilled person is often unable to detect such defects. This is thought to be because an expert has learned how to detect defects in content images through training. In other words, an expert is thought to have established a unique way of looking at content images and a unique method of processing them during the visual information processing process. If such unique ways of looking at content images could be quantified, even an unskilled person would be able to detect defects in such content images without undergoing burdensome training.
人間の視覚の基本的な処理方法を真似た処理を、プロセッサ上に再現することでコンテンツ画像に対する人間の見方を、装置が行う処理として、ある程度再現することができる。例えば、人間の視覚は、眼から光の情報を入力して網膜に二次元状の明るさを示す情報と、色を示す情報とを抽出する。そして、人間の視覚は、抽出した情報を脳の視覚野に送信する。脳の視覚野においては、視覚から得た明るさ等の情報に基づいて、明るさの強度、空間的な不連続性(エッジ)、連続性(勾配)、色情報の色度表現(赤、緑、青の三原色表現や、赤-緑/黄-青などの反対色表現)などが、個別に処理される。 By reproducing on a processor a process that mimics the basic processing method of human vision, it is possible to reproduce to a certain extent the way humans see content images as processing performed by a device. For example, human vision receives light information from the eye and extracts two-dimensional information indicating brightness and color on the retina. Human vision then transmits the extracted information to the visual cortex of the brain. In the visual cortex of the brain, the intensity of brightness, spatial discontinuity (edges), continuity (gradients), chromaticity representation of color information (representation of the three primary colors red, green, and blue, and opponent color representations such as red-green/yellow-blue), and other factors are processed individually based on the brightness and other information obtained from vision.
さらに、脳の視覚野においては、処理したそれらの空間的な対比(中心部と周辺部間)や、方向の連続性/不連続性などが処理され、さらにはそれらの組み合わせが処理されて、…、というように、処理結果を用いて更に処理を繰返すことで、段階的に、より高次で複雑なパターンが処理される。これらの各処理を逐次プロセッサ上に実現できれば、人間の視覚と同じ種類の情報が処理できるとともに、ある回路(処理)は強く、別のある回路は弱く作用するように制御することが可能になる。 Furthermore, in the visual cortex of the brain, the spatial contrast (between the center and periphery) and directional continuity/discontinuity of the processed information are processed, and then combinations of these are processed, and so on. By repeating further processing using the results of the processing, increasingly higher-level and more complex patterns are processed in stages. If each of these processes could be realized sequentially on a processor, it would be possible to process the same type of information as human vision, and it would be possible to control certain circuits (processing) to act strongly and others to act weakly.
一方、例えば、目利きに長けた経験豊かな人物(熟練者)が、ある対象物を見て、その不具合に気付くプロセスに着目して、その観察のプロセスを真似て、プロセッサ上に再現することを考える。すなわち、経験知などと呼はれるような一定の訓練を経て人が獲得していく知識や感覚を、プロセッサ上に再現できれば、非熟練者であっても、プロセッサによる処理結果を用いて熟練者と同様の処理を実現することが可能になる。 On the other hand, for example, one could focus on the process by which an experienced person with a good eye (an expert) looks at an object and notices a defect, and imagine replicating that observation process on a processor. In other words, if the knowledge and intuition that people acquire through a certain amount of training, known as experiential knowledge, could be reproduced on a processor, even an unskilled person would be able to use the results of the processor's processing to achieve the same results as an expert.
本発明は、このような事情に鑑みてなされたもので、その目的は、コンテンツ画像に対する、人間の視覚による処理プロセスを、プロセッサ上の処理として実行することができる検出支援装置、学習装置、検出支援方法、学習方法、及びプログラムを提供することである。 The present invention has been made in consideration of the above circumstances, and its purpose is to provide a detection support device, a learning device, a detection support method, a learning method, and a program that can execute the human visual processing process for content images as processing on a processor.
上述した課題を解決するために、本発明の一態様である検出支援装置は、所定の柄を繰り返し配置することにより生成されるコンテンツ画像に生じる、前記コンテンツ画像における柄の連続性による想定外のパターンの有無の検出を支援する検出支援装置であって、前記コンテンツ画像を取得するコンテンツ画像取得部と、視線特徴学習モデルを用いて前記コンテンツ画像から前記パターンを検出する際の視線の特徴である視線特徴を推定し、推定した前記視線特徴を前記コンテンツ画像における画素ごとに示す視線特徴画像を生成する視線特徴画像生成部と、前記視線特徴画像を表示する解析結果出力部と、を備え、前記視線特徴学習モデルは、学習用の前記コンテンツ画像と、当該学習用の前記コンテンツ画像から前記パターンを検出した人間の前記視線特徴との対応関係を学習した学習済モデルである。 In order to solve the above-mentioned problems, a detection support device according to one aspect of the present invention is a detection support device that supports the detection of the presence or absence of unexpected patterns that arise in a content image generated by repeatedly arranging a predetermined pattern, due to the continuity of the pattern in the content image, and includes a content image acquisition unit that acquires the content image, a gaze feature image generation unit that uses a gaze feature learning model to estimate gaze features that are characteristics of the gaze when detecting the pattern from the content image and generates a gaze feature image showing the estimated gaze features for each pixel in the content image, and an analysis result output unit that displays the gaze feature image, and the gaze feature learning model is a trained model that has learned the correspondence between the content image for learning and the gaze features of a person who detected the pattern from the content image for learning.
上述した課題を解決するために、本発明の一態様である学習装置は、所定の柄を繰り返し配置することにより生成されるコンテンツ画像に生じる、前記コンテンツ画像における柄の連続性による想定外のパターンの有無の検出を支援する検出支援装置が用いる視線特徴学習モデルを生成する学習装置であって、前記視線特徴学習モデルは、学習用の前記コンテンツ画像と、当該学習用の前記コンテンツ画像から前記パターンを検出した人間の視線の特徴である視線特徴との対応関係を学習した学習済モデルであり、前記視線特徴学習モデルを生成する手法として、深層学習、または、既存の学習モデルを用いた転移学習のいずれかを選択可能に構成され、選択された手法を用いて前記視線特徴学習モデルを生成する深層学習部、を備える。 In order to solve the above-mentioned problems, a learning device according to one aspect of the present invention is a learning device that generates a gaze feature learning model used by a detection support device that supports detection of the presence or absence of unexpected patterns due to the continuity of patterns in a content image generated by repeatedly arranging a predetermined pattern, the gaze feature learning model being a trained model that has learned the correspondence between the content image for learning and gaze features that are characteristics of the gaze of a person who detected the pattern from the content image for learning, and is configured to be able to select either deep learning or transfer learning using an existing learning model as a method for generating the gaze feature learning model, and includes a deep learning unit that generates the gaze feature learning model using the selected method.
上述した課題を解決するために、本発明の一態様である検出支援方法は、所定の柄を繰り返し配置することにより生成されるコンテンツ画像に生じる、前記コンテンツ画像における柄の連続性による想定外のパターンの有無の検出を支援する検出支援装置であるコンピュータが行う検出支援方法であって、コンテンツ画像取得部が、前記コンテンツ画像を取得し、視線特徴画像生成部が、視線特徴学習モデルを用いて前記コンテンツ画像から前記パターンを検出する際の視線の特徴である視線特徴を推定し、推定した前記視線特徴を前記コンテンツ画像における画素ごとに示す視線特徴画像を生成し、解析結果出力部が、前記視線特徴画像を表示し、前記視線特徴学習モデルは、学習用の前記コンテンツ画像と、当該学習用の前記コンテンツ画像から前記パターンを検出した人間の前記視線特徴との対応関係を学習した学習済モデルである。 In order to solve the above-mentioned problems, a detection support method that is one aspect of the present invention is a detection support method performed by a computer that is a detection support device that supports the detection of the presence or absence of unexpected patterns that arise in a content image generated by repeatedly arranging a predetermined pattern due to the continuity of the pattern in the content image, in which a content image acquisition unit acquires the content image, a gaze feature image generation unit estimates gaze features that are characteristics of the gaze when detecting the pattern from the content image using a gaze feature learning model, generates a gaze feature image that shows the estimated gaze features for each pixel in the content image, an analysis result output unit displays the gaze feature image, and the gaze feature learning model is a learned model that has learned the correspondence between the content image for learning and the gaze features of a person who detected the pattern from the content image for learning.
上述した課題を解決するために、本発明の一態様である学習方法は、所定の柄を繰り返し配置することにより生成されるコンテンツ画像に生じる、前記コンテンツ画像における柄の連続性による想定外のパターンの有無の検出を支援する検出支援装置が用いる視線特徴学習モデルを生成する学習装置であるコンピュータが行う学習方法であって、前記視線特徴学習モデルは、学習用の前記コンテンツ画像と、当該学習用の前記コンテンツ画像から前記パターンを検出した人間の視線の特徴である視線特徴との対応関係を学習した学習済モデルであり、深層学習部が、前記視線特徴学習モデルを生成する手法として、深層学習、または、既存の学習モデルを用いた転移学習のいずれかを選択可能に構成され、選択された手法を用いて前記視線特徴学習モデルを生成する。 In order to solve the above-mentioned problems, a learning method that is one aspect of the present invention is a learning method performed by a computer that is a learning device that generates a gaze feature learning model used by a detection support device that supports the detection of the presence or absence of unexpected patterns due to the continuity of patterns in a content image generated by repeatedly arranging a predetermined pattern, the gaze feature learning model is a trained model that has learned the correspondence between the content image for learning and gaze features that are characteristics of the gaze of a person who detected the pattern from the content image for learning, and a deep learning unit is configured to be able to select either deep learning or transfer learning using an existing learning model as a method for generating the gaze feature learning model, and generates the gaze feature learning model using the selected method.
本発明の一態様であるプログラムは、コンピュータを、上記検出支援装置として機能させるためのプログラムである。 One aspect of the present invention is a program for causing a computer to function as the above-mentioned detection assistance device.
本発明の一態様であるプログラムは、コンピュータを、上記学習装置として機能させるためのプログラムである。 One aspect of the present invention is a program for causing a computer to function as the above-mentioned learning device.
以上説明したように、本発明によれば、コンテンツ画像に対する、人間の視覚による処理プロセスを、プロセッサ上の処理として実行することができる。 As described above, according to the present invention, the processing of content images based on human vision can be executed as processing on a processor.
以下、実施形態の検出支援装置を、図面を参照して説明する。 The detection support device according to the embodiment will be described below with reference to the drawings.
<第1の実施形態>
まず、第1の実施形態について説明する。
人間が、視覚的に得た情報からある判断をしたり、違和感を覚えたりする働きは、人間の脳の視覚神経機構の処理に依拠している。現在、脳の処理の比較的初期の段階については、その処理過程が判ってきている。そこで、その処理過程をモデル化した処理を行う装置として、検出支援装置100を考える。検出支援装置100が視覚神経機構の処理を実行することにより、人間の脳における視覚の情報処理を、より正確に再現することが可能となる。
First Embodiment
First, the first embodiment will be described.
The ability of humans to make certain judgments or feel something is wrong based on information obtained visually is dependent on the processing of the visual nerve mechanism in the human brain. Currently, the relatively early stages of brain processing are becoming clear. Therefore, the
本実施形態の検出支援装置100は、処理の対象として、例えば、基準画像と検査画像とを用いる。基準画像は、熟練者により不具合が検出された画像である。検査画像は、熟練者による加工が施されて当該不具合が解消された画像である。
The
基準画像と検査画像とを対象とすることにより、検出支援装置100が、両画像における熟練者と非熟練者の見え方の差異を、人間の視知覚の神経機構の処理過程をモデル化したコンテンツ特徴量の差異として捕捉することができる。すなわち、検出支援装置100が、両画像における見え方の差異を、いくつかの指標毎に、わかりやすく提示することで、基準画像に比べて検査画像のどのような性質がどの程度異なるのかを示し、非熟練者であっても不具合が検出し易くなるように支援する。
By targeting a reference image and a test image, the
なお、以下では、処理の対象とする画像(コンテンツ画像)が、静止画像である場合を例に説明するが、これに限定されることはない。コンテンツ画像は、動画像や、映像等であってもよい。 Note that, in the following, an example will be described in which the image to be processed (content image) is a still image, but this is not limited to this. The content image may also be a moving image, video, etc.
図1は、本発明の第1の実施形態の検出支援装置100の構成例を示すブロック図である。検出支援装置100は、例えば、コンテンツ画像選択部101と、視覚特徴選択部102と、視覚特徴画像生成部103と、画像特徴選択部104と、コンテンツ特徴量算出部105と、解析方法選択部106と、解析部107と、コンテンツ画像DB(データベース)108と、視覚特徴DB109と、視覚特徴画像記憶部110と、画像特徴DB111と、コンテンツ特徴量記憶部112と、解析方法DB113と、解析結果記憶部114と、解析結果出力部115とを備える。コンテンツ画像選択部101は、「コンテンツ取得部」の一例である。
FIG. 1 is a block diagram showing an example of the configuration of a
コンテンツ画像選択部101は、コンテンツ画像を取得する。コンテンツ画像は、所定の柄が繰り返し配置されることにより生成された意匠が表現されている画像である。コンテンツ画像は、例えば、建装材として用いられる壁紙などの化粧シートの意匠を示す画像である。
The content
コンテンツ画像選択部101は、コンテンツ画像DB108に記憶された複数のコンテンツ画像の中から、ユーザ等により選択された画像を、コンテンツ画像として取得する。ユーザ等による選択の方法は、任意の方法であってよい。例えば、コンテンツ画像選択部101は、コンテンツ画像DB108を参照してコンテンツ画像を表示部(不図示)に表示させる。コンテンツ画像選択部101は、マウスやキーボード等の外部入力装置がユーザ等により操作されることにより選択された画像を、コンテンツ画像として取得する。
The content
なお、コンテンツ画像は、コンテンツ画像DB108に記憶されたものに限定されることはなく、例えば、可搬型メモリや、スキャナ、或いは通信ネットワークなど任意の入力手段を介して検出支援装置100により取得されたものであってもよい。
The content images are not limited to those stored in the
視覚特徴選択部102は、視覚特徴を選択する。
視覚特徴は、人間の脳の処理の比較的初期の段階で視覚により認識され得る特徴であり、例えば、輝度、色度、コントラスト、勾配、エッジ、オプティカルフロー等である。
視覚特徴は、輝度、色度、赤緑色度、黄青色度、方向、輝度勾配、色度勾配、赤緑勾配、黄青勾配、方向勾配、輝度コントラスト、色度コントラスト、赤緑コントラスト、黄青コントラスト、方向コントラストなどを含む。
また、視覚特徴は、人の目の惹き易さを表す指標であってもよい。人の目の惹き易さを表す指標としては、視覚的注意モデル、視線予測モデル、顕著性モデル、またはサリエンシーモデルと呼ばれるものがある。例えば、非特許文献1や非特許文献2や非特許文献3等の方法を用いることができる。
視覚特徴選択部102は、例えば、視覚特徴DB109に記憶された複数の視覚特徴の中から、ユーザ等により選択された視覚特徴を選択する。
The visual
Visual features are features that can be recognized by vision at a relatively early stage of human brain processing, such as luminance, chromaticity, contrast, gradient, edges, optical flow, and the like.
The visual features include luminance, chromaticity, red-green chromaticity, yellow-blue chromaticity, orientation, luminance gradient, chromaticity gradient, red-green gradient, yellow-blue gradient, orientation gradient, luminance contrast, chromaticity contrast, red-green contrast, yellow-blue contrast, orientation contrast, and the like.
The visual feature may be an index representing the ease with which a person's eye is attracted. Examples of the index representing the ease with which a person's eye is attracted include a visual attention model, a gaze prediction model, a saliency model, and a saliency model. For example, the methods described in Non-Patent Document 1, Non-Patent Document 2, Non-Patent Document 3, and the like can be used.
The visual
視覚特徴画像生成部103は、コンテンツ画像に視覚特徴を適用することにより、視覚特徴画像を生成する。視覚特徴画像は、コンテンツ画像における視覚特徴を示す画像であり、例えば、コンテンツ画像における画素ごとに算出した視覚特徴の度合い(視覚特徴量)を、当該画素の位置座標に対応させた画像である。ここで用いられるコンテンツ画像は、コンテンツ画像選択部101により選択された画像である。ここで用いられる視覚特徴は、視覚特徴選択部102により選択された視覚特徴である。視覚特徴画像生成部103は、生成した視覚特徴画像を、視覚特徴画像記憶部110に記憶させる。
The visual feature
画像特徴選択部104は、画像特徴を選択する。画像特徴は、既知の画像処理の技法を用いて抽出する画像上の特徴であり、例えば、同じ柄を複数配置して形成された模様における空間的な規則性(パターン)を抽出可能なテクスチャ特徴である。テクスチャ特徴としては、例えば、コントラスト、相関、角度2次モーメント、或は一様性等がある。
The image
画像特徴選択部104は、例えば、画像特徴DB111に記憶された複数の画像特徴の中から、ユーザ等による選択操作により選択された画像特徴を選択する。画像特徴選択部104は、取得した画像特徴をコンテンツ特徴量算出部105に出力する。
The image
コンテンツ特徴量算出部105は、コンテンツ特徴量を算出する。コンテンツ特徴量は、コンテンツ画像の見え方に関する特徴の度合いを示す指標であって、例えば、視覚特徴画像に画像特徴を適用することにより算出される、視覚特徴画像における画像上の特徴を統計的に示す統計量である。
The content
コンテンツ特徴量は、例えば、視覚特徴として輝度が選択され、画像特徴としてコントラストが選択された場合、コンテンツ画像において、人間の視覚に認識され得る輝度の状態がいかなるコントラストを形成しているかを示す値となる。ここで用いられる視覚特徴画像は、視覚特徴画像生成部103により生成された画像である。ここで用いられる画像特徴は、画像特徴選択部104により選択された画像特徴である。
For example, if brightness is selected as the visual feature and contrast is selected as the image feature, the content feature amount is a value that indicates what kind of contrast is formed by the brightness state that can be recognized by human vision in the content image. The visual feature image used here is an image generated by the visual feature
コンテンツ特徴量算出部105は、算出したコンテンツ特徴量を、解析部107に出力する。また、コンテンツ特徴量算出部105は、算出したコンテンツ特徴量を、コンテンツ特徴量記憶部112に記憶させる。
The content feature
なお、コンテンツ特徴量は、視覚特徴の度合い(視覚特徴量)であってもよい。この場合、コンテンツ特徴量算出部105は、例えば、(画像特徴を用いることなく)視覚特徴画像を用いて、コンテンツ特徴量を算出する。
The content feature amount may be the degree of visual features (visual feature amount). In this case, the content feature
解析方法選択部106は、解析方法を選択する。解析方法は、コンテンツ特徴量を提示する方法であり、例えば、コンテンツ特徴量を示すグラフの種別を示す情報である。グラフの種別としては、例えば、折れ線グラフ、棒線グラフ、円グラフ、レーダチャート等がある。
The analysis
解析方法選択部106は、例えば、解析方法DB113に記憶された複数の画像特徴の中から、ユーザ等による選択操作により選択された画像特徴を選択する。画像特徴選択部104は、取得した画像特徴をコンテンツ特徴量算出部105に出力する。
The analysis
解析部107は、コンテンツ特徴量に解析方法を適用することにより、コンテンツ画像におけるコンテンツ特徴量を提示するための情報を生成する。解析部107は、生成した情報を解析結果記憶部114に記憶させる。また、解析部107は、生成した情報を、解析結果出力部115に出力する。
The
コンテンツ画像DB108は、コンテンツ画像を記憶する。コンテンツ画像DB108には、例えば、コンテンツ画像を一意に示す識別情報に対応付けられたコンテンツ画像が記憶される。コンテンツ画像は、例えば、マウスやキーボード等の外部入力装置、或いは、可搬型メモリや、スキャナ、或いは通信ネットワークなど任意の入力手段を介して検出支援装置100により取得され、コンテンツ画像DB108に記憶される。
The
コンテンツ画像DB108には、基準画像とその基準画像を加工した検査画像とが対応付けられて記憶されていてもよいし、コンテンツ画像の種別に応じて分類された状態で、コンテンツ画像が記憶されていてもよい。コンテンツ画像の種別とは、例えば、柄の組み合わせ方法や、化粧シートとして作成される場合にシート表面に凹凸が有るか否かなどにより区分される。
In the
視覚特徴DB109は、視覚特徴を記憶する。視覚特徴DB109には、例えば、視覚特徴を一意に示す識別情報に対応付けられた知覚特徴が記憶される。知覚特徴は、例えば、外部入力装置、或いは、入力手段を介して検出支援装置100により取得され、視覚特徴DB109に記憶される。
The
視覚特徴画像記憶部110は、視覚特徴画像生成部103により生成された視覚特徴画像を記憶する。視覚特徴画像記憶部110には、例えば、視覚特徴画像を一意に示す識別情報に対応付けられた視覚特徴画像、当該視覚特徴画像の生成に用いられたコンテンツ画像の識別情報、及び当該視覚特徴画像の生成に用いられた視覚特徴の識別情報などが記憶される。
The visual feature
画像特徴DB111は、画像特徴を記憶する。画像特徴DB111には、例えば、画像特徴を一意に示す識別情報に対応付けられた画像特徴が記憶される。画像特徴は、例えば、外部入力装置、或いは、入力手段を介して検出支援装置100により取得され、画像特徴DB111に記憶される。
Image feature DB111 stores image features. For example, image features associated with identification information that uniquely indicates the image feature are stored in image feature DB111. The image features are acquired by the
コンテンツ特徴量記憶部112は、コンテンツ特徴量算出部105により算出されたコンテンツ特徴量を記憶する。コンテンツ特徴量記憶部112には、例えば、コンテンツ特徴量を一意に識別する識別情報に対応付けられたコンテンツ特徴量、当該コンテンツ特徴量の算出に用いられた視覚特徴画像の識別情報、及び当該コンテンツ特徴量の算出に用いられた画像特徴の識別情報などが記憶される。
The content
解析方法DB113は、解析方法を記憶する。解析方法DB113には、例えば、解析方法を一意に示す識別情報に対応付けられた解析方法が記憶される。解析方法は、例えば、外部入力装置、或いは、入力手段を介して検出支援装置100により取得され、解析方法DB113に記憶される。
The analysis method DB113 stores analysis methods. For example, the analysis method DB113 stores an analysis method associated with identification information that uniquely indicates the analysis method. The analysis method is acquired by the
解析結果記憶部114は、解析部107による解析結果(コンテンツ特徴量を提示するための情報)を記憶する。解析結果記憶部114には、例えば、解析結果を一意に示す識別情報に対応付けられた解析結果、その解析に用いられたコンテンツ特徴量の識別情報、及びその解析に用いられた解析方法などが記憶される。
The analysis
解析結果出力部115は、解析部107による解析結果(コンテンツ特徴量を提示するための情報)を出力する。解析結果出力部115は、例えば、表示部(不図示)に解析結果を出力し、解析結果を表示部に表示させる。
The analysis
図2は、本発明の第1の実施形態の検出支援装置100が行う処理の流れを示すフローチャートである。
ステップS10:
検出支援装置100は、コンテンツ画像選択部101によりコンテンツ画像を選択する。コンテンツ画像選択部101は、コンテンツ画像DB108を参照することによりコンテンツ画像を選択し、選択したコンテンツ画像を視覚特徴画像生成部103に出力する。
ステップS11:
検出支援装置100は、視覚特徴選択部102により視覚特徴を選択する。視覚特徴選択部102は、視覚特徴DB109を参照することにより視覚特徴を選択し、選択した視覚特徴を、視覚特徴画像生成部103に出力する。
ステップS12:
検出支援装置100は、視覚特徴画像生成部103により視覚特徴画像を生成する。視覚特徴画像生成部103は、ステップS10にて選択されたコンテンツ画像における、ステップS11にて選択された知覚特徴を算出することにより視覚特徴画像を生成する。視覚特徴画像生成部103は、生成した視覚特徴画像を、コンテンツ特徴量算出部105に出力する。
FIG. 2 is a flowchart showing a flow of processing performed by the
Step S10:
The
Step S11:
The
Step S12:
The
ステップS13:
検出支援装置100は、画像特徴選択部104により画像特徴を選択する。画像特徴選択部104は、画像特徴DB111を参照することにより画像特徴を選択し、選択した画像特徴を、コンテンツ特徴量算出部105に出力する。
ステップS14:
検出支援装置100は、コンテンツ特徴量算出部105により、コンテンツ画像におけるコンテンツ特徴量を算出する。コンテンツ特徴量算出部105は、ステップS12にて生成された視覚特徴画像における、ステップS13にて選択された画像特徴を算出することによりコンテンツ特徴量を算出する。
ステップS15:
検出支援装置100は、解析方法選択部106により解析方法を選択する。解析方法選択部106は、解析方法DB113を参照することにより解析方法を選択し、選択した解析方法を、解析部107に出力する。
ステップS16:
検出支援装置100は、解析部107により解析(コンテンツ画像の特徴量を提示するための情報の生成)を行う。解析部107は、ステップS14にて算出されたコンテンツ画像の特徴量を、ステップS15にて選択された解析方法にて示す情報を生成する。解析部107は、生成した情報を、解析結果記憶部114、及び解析結果出力部115に出力する。
Step S13:
The
Step S14:
The
Step S15:
The
Step S16:
The
ステップS17:
検出支援装置100は、解析結果記憶部114に、ステップS16にて解析された解析結果(コンテンツ画像の特徴量を提示するための情報)を記憶させる。
ステップS18:
検出支援装置100は、解析結果出力部115により、ステップS16にて解析された解析結果(コンテンツ画像の特徴量を提示するための情報)を、表示部(不図示)などに出力する。
Step S17:
The
Step S18:
The
図3は、本発明の第1の実施形態の基準画像及び検査画像の例を示す図である。図3では、左側に基準画像、右側に検査画像が示されている。
図3に示す通り、例えば、基準画像と検査画像とは、同一の意匠と思われるほどによく類似して見える。基準画像と検査画像とは、ほとんど差異がないようにも思われる。しかしながら、熟練者であれば、基準画像に不具合を検出し、検出した内容に基づいて基準画像を検査画像のように加工する。
本実施形態では、検出支援装置100により基準画像と検査画像との各々を、人間の視知覚による見え方の差異を、コンテンツ特徴量の差異として可視化して提示することが可能である。つまり、検出支援装置100は、基準画像に比べて検査画像のどのような性質がどの程度異なるのかを、数値で示すことができる。こうすることで、一見ほとんど差異がないようにも思われる両画像の差異を、熟練者でない者が認識できるように支援する。
3 is a diagram showing an example of a reference image and an inspection image according to the first embodiment of the present invention, in which the reference image is shown on the left and the inspection image is shown on the right.
As shown in Figure 3, for example, the reference image and the test image look so similar that they seem to be the same design. There seems to be almost no difference between the reference image and the test image. However, an expert can detect defects in the reference image and process the reference image to look like the test image based on the detected defects.
In this embodiment, the
図4は、本発明の第1の実施形態の視覚特徴画像の例を示す図である。図4では、視覚特徴としてコントラストが選択された場合の例を示している。 Figure 4 is a diagram showing an example of a visual feature image in the first embodiment of the present invention. Figure 4 shows an example in which contrast is selected as the visual feature.
図4では、左側に基準画像における視覚特徴画像の例、右側に検査画像における視覚特徴画像の例を示しており、基準画像及び検査画像の各々についてスケール毎に三つの視覚特徴画像を示している。スケールは、視覚特徴(この例では、コントラスト)を算出する空間の大きさ(画像サイズ)を示す指標であって、上方向に細かい(コントラストを算出する画像サイズが小さい)スケール値、下方向に粗い(同画像サイズが大きい)スケール値を示している。三つの視覚特徴画像は、基準画像及び検査画像に対して、1×1は基準画像を縦横に1枚ずつ連結した(1枚分)場合、2×2は縦横に2枚ずつ連結した(4枚分)場合、3×3は縦横に3枚ずつ連結した(9枚分)場合の視覚特徴画像を、それぞれ示している。 In Figure 4, an example of a visual feature image in a reference image is shown on the left, and an example of a visual feature image in a test image is shown on the right, with three visual feature images shown for each scale for the reference image and test image. The scale is an index that indicates the size of the space (image size) in which the visual feature (in this example, contrast) is calculated, with finer scale values (smaller image size for calculating contrast) shown upwards and coarser scale values (larger image size) shown downwards. The three visual feature images, 1x1, indicate the visual feature image when one reference image is connected vertically and horizontally (one image), 2x2, indicate the visual feature image when two images are connected vertically and horizontally (four images), and 3x3, indicate the visual feature image when three images are connected vertically and horizontally (nine images).
つまり、図4の上段には、スケール値を8(「scl8」と記載)として算出した場合における、基準画像及び検査画像の各々の視覚特徴画像を、左から順に(1×1)、(2×2)、(3×3)の画像サイズで示している。同様に、図4の上段には、スケール値を16(「scl16」と記載)として算出した場合における、基準画像及び検査画像の各々の視覚特徴画像を、左から順に(1×1)、(2×2)、(3×3)の画像サイズで示している。図4の上段には、スケール値を8(「scl8」と記載)として算出した場合における、基準画像及び検査画像の各々の視覚特徴画像を、左から順に(1×1)、(2×2)、(3×3)の画像サイズで示している。 That is, the top row of FIG. 4 shows the visual feature images of the reference image and the test image with image sizes of (1×1), (2×2), and (3×3) from the left when the scale value is calculated as 8 (denoted as "scl8"). Similarly, the top row of FIG. 4 shows the visual feature images of the reference image and the test image with image sizes of (1×1), (2×2), and (3×3) from the left when the scale value is calculated as 16 (denoted as "scl16"). The top row of FIG. 4 shows the visual feature images of the reference image and the test image with image sizes of (1×1), (2×2), and (3×3) from the left when the scale value is calculated as 8 (denoted as "scl8").
図4に示すように、基準画像から生成した視覚特徴画像と、検査画像から生成した視覚特徴画像とは、例えば、スケール8における(1×1)に対応する両画像や、スケール16における(1×1)に対応する視覚特徴画像を見比べれば、図3の基準画像及び検査画像を見比べた場合と比較して、差異があるように思われる。 As shown in Figure 4, when comparing the visual feature image generated from the reference image and the visual feature image generated from the test image, for example, when comparing the two images corresponding to (1 x 1) on scale 8 and the visual feature image corresponding to (1 x 1) on scale 16, there appears to be a difference compared to when comparing the reference image and test image in Figure 3.
視覚特徴画像に差異が認められる場合、基準画像及び検査画像の両画像において、視覚特徴(この例では、コントラスト)に、差異があることを示している。つまり、両画像を視覚特徴画像に変換することで、両画像における視覚特徴に起因する見え方の差異を強調することが可能である。 When differences are found in the visual feature images, it indicates that there is a difference in the visual features (in this example, contrast) between the reference image and the test image. In other words, by converting both images into visual feature images, it is possible to emphasize the difference in appearance caused by the visual features in both images.
図5Aは、本発明の第1の実施形態の解析結果を示す図である。図5Aでは、解析方法として折れ線グラフが選択された場合の例を示している。 Figure 5A is a diagram showing the analysis results of the first embodiment of the present invention. Figure 5A shows an example in which a line graph is selected as the analysis method.
図5Aでは、スケール値ごとに三つの折れ線グラフを示している。それぞれの折れ線グラフは、基準画像及び検査画像における視覚特徴画像の相関差分を4方向について示している。四方向は、画像に設定した所定の基準軸から、それぞれ0[deg]、45[deg]、90[deg]、及び135[deg]の方向である。三つの折れ線グラフは、左から順に(1×1)、(2×2)、(3×3)の画像サイズにおける相関差分を示している。 Figure 5A shows three line graphs for each scale value. Each line graph shows the correlation difference of the visual feature images in the reference image and the test image in four directions. The four directions are 0 [deg], 45 [deg], 90 [deg], and 135 [deg] from a predetermined reference axis set in the image. From the left, the three line graphs show the correlation difference for image sizes of (1x1), (2x2), and (3x3).
図5Bは、図5Aに示す複数の相関差分のうち、スケール8における(2×2)の相関差分を示している。
図5Bに示すように、例えば、スケール8における(2×2)における、0[deg]、及び90[deg]の方向の相関差分が、他の方向の相関差分と比較して大きな値を示す傾向にある。
FIG. 5B shows a (2×2) correlation difference at scale 8 out of the multiple correlation differences shown in FIG. 5A.
As shown in FIG. 5B, for example, in a (2×2) scale of 8, the correlation differences in the directions of 0 degrees and 90 degrees tend to exhibit larger values than the correlation differences in other directions.
視覚特徴に比較的大きな差異が示される箇所には、両画像に、比較的大きな差異があることが示されている。つまり、両画像を視覚特徴画像に変換して、その視覚特徴を示すことで、両画像における視覚特徴に起因する差異を定量的に示すことが可能である。 In areas where relatively large differences in visual features are shown, it is shown that there are relatively large differences between the two images. In other words, by converting both images into visual feature images and showing the visual features, it is possible to quantitatively show the differences caused by the visual features in both images.
図5Cは、本発明の第1の実施形態の解析結果を示す図である。図5Cでは、解析方法としてレーダチャートが選択された場合の例を示している。 Figure 5C is a diagram showing the analysis results of the first embodiment of the present invention. Figure 5C shows an example in which a radar chart is selected as the analysis method.
図5Cでは、スケール値ごとに三つのレーダチャートを示している。それぞれのレーダチャートは、基準画像及び検査画像におけるコンテンツ特徴量(この例では、視覚特徴画像のコントラスト)を八方向について示している。八方向は、画像の中心から上下左右、及び、右上、左上、左下、右下のそれぞれの方向である。三つのレーダチャートは、左から順に(1×1)、(2×2)、(3×3)の画像サイズにおける相関差分を示している。 Figure 5C shows three radar charts for each scale value. Each radar chart shows the content features (in this example, the contrast of the visual feature image) in the reference image and the test image in eight directions. The eight directions are up, down, left, right, and top right, top left, bottom left, and bottom right from the center of the image. From the left, the three radar charts show the correlation difference for image sizes of (1x1), (2x2), and (3x3).
図5Cに示すように、例えば、スケール32における(1×1)における、基準画像の全方向のコントラストが、検査画像のコントラストと比較して大きな値を示す傾向にある。 As shown in FIG. 5C, for example, the contrast in all directions of the reference image at (1×1) scale 32 tends to be greater than the contrast of the test image.
コンテンツ特徴量に比較的大きな差異が示される箇所には、両画像に、比較的大きな差異があることが示されている。つまり、両画像におけるコンテンツ特徴量を示すことで、両画像における見え方の差異を定量的に示すことが可能である。 Where relatively large differences in content features are shown, it is shown that there are relatively large differences between the two images. In other words, by showing the content features of both images, it is possible to quantitatively show the differences in appearance between the two images.
以上説明したように、第1の実施形態の検出支援装置100は、コンテンツ画像選択部101(「コンテンツ画像取得部」の一例)と、コンテンツ特徴量算出部105とを備える。コンテンツ画像選択部101は、コンテンツ画像に関する情報を取得する。コンテンツ特徴量算出部105は、コンテンツ画像に、視覚特徴を適用することにより、コンテンツ特徴量を算出する。これにより、第1の実施形態の検出支援装置100によれば、コンテンツ画像に、人間の視覚により認識され得る特徴である視覚特徴を適用することができるため、人間の視覚による処理プロセスを、プロセッサ上の処理として実行することができる。
As described above, the
また、第1の実施形態の検出支援装置100は、視覚特徴画像生成部103をさらに備えてもよい。視覚特徴画像生成部103は、視覚特徴画像を生成する。視覚特徴画像は、コンテンツ画像における画素ごとの視覚特徴の度合いである視覚特徴量を、前記画素に対応づけた画像である。これにより、第1の実施形態の検出支援装置100によれば、視覚特徴をコンテンツ画像の画素に対応付けて示すことができ、コンテンツ画像におけるどの箇所がどのような視覚特徴量であるのかを、判りやすく示すことができる。
The
また、第1の実施形態の検出支援装置100では、視覚特徴画像生成部103は、輝度、色度、コントラスト、エッジ、オプティカルフロー、及び歪度の中から選択された少なくとも一つを、視覚特徴として用いて、視覚特徴画像を生成する。これにより、第1の実施形態の検出支援装置100によれば、既存の画像処理の技法のうち、視覚による見え方に類似する技法を利用してより精度よく、視覚特徴画像を生成することができる。
In addition, in the
また、第1の実施形態の検出支援装置100では、視覚特徴画像生成部103は、コンテンツ画像に対する人間の目の認識し易さを表す認識指標を、視覚特徴として用いて、視覚特徴画像を生成する。これにより、第1の実施形態の検出支援装置100によれば、人間の目の認識に、より近づくように視覚特徴画像を生成することができる。
In addition, in the
また、第1の実施形態の検出支援装置100では、認識指標には、視覚的注意モデル、視線予測モデル、顕著性モデル、及びサリエンシーモデルのうち、少なくとも一つが含まれる。これにより、第1の実施形態の検出支援装置100によれば、既存のモデルを用いて、より精度よく視覚特徴画像を生成することができる。
In addition, in the
また、第1の実施形態の検出支援装置100では、コンテンツ特徴量算出部105は、視覚特徴画像に、画像特徴を適用することにより、コンテンツ特徴量を算出する。これにより、第1の実施形態の検出支援装置100によれば、視覚特徴画像を画像処理の技法を用いて、視覚特徴により示される特徴の度合いを統計的に処理することができ、より定量的にコンテンツ特徴量を示すことができる。
In addition, in the
なお、人の脳機能の解明が進むにしたがって、視覚により認識され得る特徴が数多く発見されつつあり、それらの特徴を視覚特徴に含めてもよい。 As our understanding of human brain functions progresses, many features that can be recognized visually are being discovered, and these features may also be included in visual features.
<第2の実施形態>
以下、第2の実施形態について、図面を参照して説明する。本実施形態の検出支援装置100Aは、熟練者がコンテンツ画像の不具合を検出する際の視線を疑似的に提示する点において、上述した実施形態と相違する。検出支援装置100Aは、熟練者の視線を提示することにより、不具合の検出を支援し、非熟練者であっても不具合を検出し易くなるようにすることができる。本実施形態においては、第1の実施形態と異なる構成についてのみ説明し、第1の実施形態による図1の構成と同様の構成については同一の符号を付し、特に必要な場合を除いてその説明を省略する。
Second Embodiment
The second embodiment will be described below with reference to the drawings. The
図6は、第2の実施形態による検出支援装置100Aの構成例を示すブロック図である。検出支援装置100Aは、例えば、視線特徴学習モデル選択部116と、視線特徴画像生成部117と、視線特徴学習モデルDB118と、コンテンツ特徴量算出部105Aとを備える。検出支援装置100Aは、視覚特徴選択部102、及び視覚特徴画像生成部103を備えない。
FIG. 6 is a block diagram showing an example configuration of a
以下、本実施形態においては、コンテンツ画像を静止画像として説明するが、第1の実施形態と同様に、動画像、映像等の他のコンテンツ画像に適用されてもよい。 In the following, in this embodiment, the content image is described as a still image, but similar to the first embodiment, this may be applied to other content images such as moving images and video.
視線特徴学習モデル選択部116は、視線特徴学習モデルを選択する。視線特徴学習モデルは、機械学習の手法により生成された、コンテンツ画像における視線特徴を推定するモデルである。視線特徴は、熟練者がコンテンツ画像の不具合を検出する際の視線に関する特徴を示す情報であって、例えば、後述する視線特徴画像、或いはコンテンツ画像の領域ごとに視認される度合いを統計的に示す情報である。
The gaze feature learning
視線特徴学習モデルは、例えば、互いに異なる複数の学習用のコンテンツ画像(学習用コンテンツ画像)の各々に、それぞれの学習用コンテンツ画像を視認した熟練者の視線特徴の実績を対応付けた学習データを用いて機械学習を実行することにより生成される。 The gaze feature learning model is generated, for example, by performing machine learning using learning data in which each of a number of different learning content images (learning content images) is associated with the gaze feature records of an expert who viewed each learning content image.
視線特徴を取得する手段としては、市販の専用の視線計測機(例えば、身体装着型計測機であるTobii社のTobii Pro Glasse2や、据え置き型計測機である Tobii Pro X2,X3等)を用いても良く、もしくは民生カメラと視線推定手法の組み合わせで計算する方法を用いても良い。視線特徴は、一般的に一定のサンプリングタイムで計測した視点の座標が時系列で格納されており、これを画像上の座標に変換して使用する。 The means for acquiring gaze features may be a commercially available dedicated gaze measurement device (for example, Tobii's Tobii Pro Glasse 2, which is a body-worn measurement device, or the Tobii Pro X2, X3, which is a stationary measurement device), or a calculation method that combines a consumer camera with a gaze estimation method may be used. Gaze features are generally stored in chronological order as the coordinates of the viewpoint measured at a fixed sampling time, and these are converted into coordinates on the image for use.
ここで用いられる機械学習の手法は、任意の手法であってよいが、例えば、深層ニューラルネットワークなどの推定モデルを用いて行われる。深層ニューラルネットは、例えば、入力層、出力層、及びその中間を多層の畳み込み層とプーリング層により接続された構成を備える。そして、多層ニューラルネットワークの入力層に学習用コンテンツ画像を入力した場合における、当該多層ニューラルネットワークの出力層から出力される情報が、その学習用コンテンツ画像に対応付けられた視線特徴となるように学習が繰返されることにより、各層を結合する結合係数やバイアス値が決定される。推定モデルの結合係数やバイアス値が決定されることにより、視線特徴学習モデルが生成される。 The machine learning method used here may be any method, but is performed, for example, using an estimation model such as a deep neural network. A deep neural network, for example, has an input layer, an output layer, and a configuration in which the layers are connected by multiple convolutional layers and pooling layers in between. When a learning content image is input to the input layer of the multilayer neural network, learning is repeated so that the information output from the output layer of the multilayer neural network becomes the gaze feature associated with the learning content image, and the coupling coefficients and bias values that couple each layer are determined. A gaze feature learning model is generated by determining the coupling coefficients and bias values of the estimation model.
視線特徴学習モデル選択部116は、例えば、視線特徴学習モデルDB118に記憶された複数の視線特徴学習モデルの中から、ユーザ等による選択操作により選択された視線特徴学習モデルを選択する。視線特徴学習モデル選択部116は、取得した視線特徴学習モデルを視線特徴画像生成部117に出力する。
The gaze feature learning
視線特徴画像生成部117は、コンテンツ画像に、視線特徴学習モデルにより推定された視線特徴を適用することにより、視線特徴画像を生成する。視線特徴画像は、コンテンツ画像における視線特徴の度合いを示す画像である。視線特徴から視線特徴画像を得る方法としては、例えば、計測時間内の画像上の視点の蓄積を確率分布として近似してヒートマップを出力する方法が用いられる。
The gaze feature
視線特徴画像は、視線特徴を、1枚の画像に情報を縮約させた画像である。ここで、情報の縮約方法としては、例えば、コンテンツ画像における画素毎の視線分布を計数して2次元ヒストグラムを構成し、ヒストグラムの山を、2次元正規分布を用いて近似表現して、強度[0,1]の範囲の実数値で表現する方法(一般にヒートマップと呼ばれる)等がある。 A gaze feature image is an image in which gaze features are condensed into information in a single image. Here, one method of condensing information is, for example, to count the gaze distribution for each pixel in the content image to create a two-dimensional histogram, and then to approximate the peaks of the histogram using a two-dimensional normal distribution and express the intensity as real values in the range [0, 1] (commonly called a heat map).
視線特徴画像生成部117により用いられるコンテンツ画像は、コンテンツ画像選択部101により選択された画像である。視線特徴画像生成部117により用いられる視線特徴は、視線特徴学習モデル選択部116により選択された視線特徴学習モデルに、コンテンツ画像選択部101により選択されたコンテンツ画像を入力させることにより推定されたものである。視線特徴画像生成部117は、生成した視線特徴画像を、コンテンツ特徴量算出部105Aに出力する。
The content image used by the gaze feature
視線特徴学習モデルDB118は、視線特徴学習モデルを記憶する。視線特徴学習モデルDB118には、例えば、視線特徴学習モデルを一意に示す識別情報に対応付けられた視線特徴学習モデルが記憶される。視線特徴学習モデルは、例えば、外部の学習サーバなどにより生成され、外部入力装置、或いは、入力手段を介して検出支援装置100により取得され、解析方法DB113に記憶される。視線特徴学習モデルDB118には、コンテンツ画像の種別に応じたモデルが記憶されていてもよい。これにより、コンテンツ画像の種別により、熟練者の見方が異なる場合であっても、その種別に応じたモデルを選択することができ、より精度よく視線特徴を推定させることが可能となる。
The gaze feature learning model DB118 stores gaze feature learning models. The gaze feature learning model DB118 stores, for example, gaze feature learning models associated with identification information that uniquely indicates the gaze feature learning model. The gaze feature learning model is generated, for example, by an external learning server, acquired by the
コンテンツ特徴量算出部105Aは、視線特徴画像に画像特徴を適用することによりコンテンツ特徴量を算出する。本実施形態のコンテンツ特徴量は、例えば、視線特徴画像における画像上の特徴を統計的に示す統計量である。
The content feature
コンテンツ特徴量は、例えば、画像特徴としてコントラストが選択された場合、コンテンツ画像において、熟練者の視線がいかなるコントラストを形成しているかを示す値となる。ここで用いられる視線特徴画像は、視線特徴画像生成部117により生成された画像である。ここで用いられる画像特徴は、画像特徴選択部104により選択された画像特徴である。
For example, when contrast is selected as an image feature, the content feature amount is a value indicating what kind of contrast the expert's gaze forms in the content image. The gaze feature image used here is an image generated by the gaze feature
なお、コンテンツ特徴量は、視線特徴の度合いであってもよく、この場合、コンテンツ特徴量は、視線特徴画像そのものである。 The content feature amount may be the degree of gaze feature, in which case the content feature amount is the gaze feature image itself.
図7は、本実施形態による検出支援装置100Aが行なう処理の動作例を示すフローチャートである。図7のステップS23、及びS25~S28の各々に示す処理については、図2のステップS13、及びS15~S18の各々に示す処理と同様であるため、その説明を省略する。
Figure 7 is a flowchart showing an example of the processing performed by the
ステップS20:
検出支援装置100Aは、コンテンツ画像選択部101により選択したコンテンツ画像を視線特徴画像生成部117に出力する。
ステップS21:
検出支援装置100Aは、視線特徴学習モデル選択部116により視線特徴学習モデルを選択する。視線特徴学習モデル選択部116は、視線特徴学習モデルDB118を参照することにより視線特徴学習モデルを選択し、選択した視線特徴学習モデルを、視線特徴画像生成部117に出力する。
ステップS22:
検出支援装置100Aは、視線特徴画像生成部117により視線特徴画像を生成する。視線特徴画像生成部117は、ステップS20にて選択されたコンテンツ画像における視線特徴を、ステップS21にて選択された視線特徴学習モデルを用いて推定することにより視線特徴画像を生成する。視線特徴画像生成部117は、生成した視線特徴画像を、コンテンツ特徴量算出部105Aに出力する。
ステップS24:
検出支援装置100Aは、コンテンツ特徴量算出部105Aにより、コンテンツ画像におけるコンテンツ特徴量を算出する。コンテンツ特徴量算出部105Aは、ステップS22にて生成された視線特徴画像における、ステップS23にて選択された画像特徴を算出することによりコンテンツ特徴量を算出する。
Step S20:
The
Step S21:
The
Step S22:
Step S24:
The
以上説明したように、第2の実施形態の検出支援装置100Aでは、コンテンツ特徴量算出部105Aが、コンテンツ画像に、前記コンテンツ画像を視認する視線の特徴を示す視線特徴を適用することにより、コンテンツ特徴量を算出する。これにより、第2の実施形態の検出支援装置100Aによれば、上述した効果と同様の効果を奏する。
As described above, in the
また、第2の実施形態の検出支援装置100Aでは、視線特徴画像生成部117を更に備える。視線特徴画像生成部117は、コンテンツ画像における画素ごとの視線特徴を、前記画素の位置座標に対応させた視線特徴画像を生成する。コンテンツ特徴量算出部105Aは、視線特徴画像を用いてコンテンツ特徴量を算出する。これにより、第2の実施形態の検出支援装置100Aによれば、上述した効果と同様の効果を奏する。
The
また、第2の実施形態の検出支援装置100Aでは、視線特徴は、コンテンツ画像と、当該コンテンツ画像における視線特徴の実績とを対応付けた学習データを用いて機械学習を実行することにより生成された視線特徴学習モデルを用いて推定される。これにより、第2の実施形態の検出支援装置100Aによれば、コンテンツ画像における熟練者の視線特徴を、過去の実績に基づいてより精度よく推定することが可能である。
In addition, in the
図8は、実施形態の学習装置200の構成例を示すブロック図である。学習装置200は、視線特徴学習モデルを生成する装置である。
学習装置200は、例えば、学習用コンテンツ画像取得部201と、視線情報取得部202と、学習用視線特徴画像生成部203と、深層学習部204と、学習用コンテンツ画像DB205と、視線情報記憶部206と、視線特徴画像記憶部207と、視線特徴学習モデルDB208とを備える。
8 is a block diagram showing an example of the configuration of a
The
学習用コンテンツ画像取得部201は、学習用コンテンツ画像を取得する。学習用コンテンツ画像は、推定モデルに機械学習を実行する際に用いられる学習データであって、推定モデルの入力層に入力(設定)する情報である。
The learning content
学習用コンテンツ画像取得部201は、学習用コンテンツ画像DB205に記憶された複数の学習用コンテンツ画像の中から、学習量に応じてユーザ等により選択された画像の集合を、学習用コンテンツ画像の集合として取得する。ユーザ等による選択の方法は、任意の方法であってよい。学習用コンテンツ画像取得部201は、取得した学習用コンテンツ画像を、学習用視線特徴画像生成部203に出力する。
The learning content
視線情報取得部202は、視線情報(視線特徴)を取得する。視線情報は、学習用コンテンツ画像に対する熟練者の視線に関する情報であって、例えば、学習用コンテンツ画像を視認する熟練者の視線の時系列変化を示す情報である。視線情報取得部202は、例えば、視線情報記憶部206に記憶された複数の視覚特徴の中から、学習用コンテンツ画像に対応する視線情報を選択する。視線情報取得部202は、取得した視線情報を、学習用視線特徴画像生成部203に出力する。
The gaze
学習用視線特徴画像生成部203は、学習用コンテンツ画像に、視線情報を適用することにより、学習用視線特徴画像を生成する。学習用視線特徴画像を生成する方法は、視線特徴画像生成部117が視線特徴画像を生成する方法と同様であるため、その説明を省略する。学習用視線特徴画像生成部203は、生成した学習用視線特徴画像を、深層学習部204に出力すると共に、視線特徴画像記憶部207に記憶させる。
The learning gaze characteristic
深層学習部204は、学習用視線特徴画像を学習データとした学習(深層学習)を行うことにより、視線特徴学習モデルを生成する。深層学習部204は、生成した視線特徴学習モデルを視線特徴学習モデルDB208に記憶させる。
The
図9は、本実施形態による学習装置200が行なう処理の動作例を示すフローチャートである。図9では、深層学習による視線特徴学習モデルを生成する処理の動作の流れが示される。
ステップS50:
学習装置200は、学習用コンテンツ画像取得部201により、学習用コンテンツ画像を取得する。学習用コンテンツ画像取得部201は、学習用コンテンツ画像を多数取得することが好ましい。一般に、学習データ(学習用コンテンツ画像)を数多くバリエーション豊富に揃えることで良い学習効果が得られるためである。
ステップS51:
学習装置200は、視線情報取得部202により、学習用コンテンツ画像に対応する視線情報を取得する。
ステップS52:
学習装置200は、学習用視線特徴画像生成部203により、ステップS50で取得した学習用コンテンツ画像に、ステップS51で取得した視線情報を適用することにより、学習用視線特徴画像を生成する。
ステップS53:
学習装置200は、ステップS50で取得した学習用コンテンツ画像の全てにおいて、学習用視線特徴画像を生成したか否かを判定する。学習装置200は、学習用コンテンツ画像の全てにおいて、学習用視線特徴画像を生成した場合には、ステップS54に示す処理を実行する。学習装置200は、学習用コンテンツ画像の全てにおいて、学習用視線特徴画像を生成していない場合には、ステップS51に示す処理に戻る。
ステップS54:
学習装置200は、学習用視線特徴画像を学習データとして深層学習を実行することにより、視線特徴学習モデルを生成する。
9 is a flowchart showing an example of the operation of the process performed by the
Step S50:
Step S51:
Step S52:
The
Step S53:
Step S54:
The
図10は、本実施形態による学習装置200が行なう処理の動作例を示すフローチャートである。図10では、深層学習による視線特徴学習モデル(以下、単に学習モデルともいう)について転移学習を行うことで新たな学習モデルを生成する処理の動作の流れが示される。
ステップS60:
学習装置200は、深層学習部204により、推定モデルの入力層及び出力層を構成する。推定モデルは、中間層(プーリング層及び畳み込み層)が多層構造の深層学習モデルである。入力層には、学習用コンテンツ画像における各画素の情報が入力される。出力層は、正規化する全結合層である。この出力層は、「1」あるいは「0」との間の小数点の数値を出力する構成となっている。
ステップS61:
深層学習部204は、深層学習を用いて新たな学習モデルを生成するか、あるいは既存の汎用的な学習モデルを用いた転移学習により新たな学習モデルを生成するか、を判定する。深層学習部204は、例えば、検出支援装置100Aによる学習モデルの選択が実行される際に、係る判定を行う。
Fig. 10 is a flowchart showing an example of the operation of the process performed by the
Step S60:
The
Step S61:
The
例えば、深層学習部204は、学習用コンテンツ画像を多量に用意できる状況において、視線特徴学習モデルを生成する場合を考える。この場合、各学習用コンテンツ画像に対して、熟練者の視線情報を取得し、正解コンテンツ集合(学習データ)を生成する。その後、深層学習部204は、学習用コンテンツ画像の集合と、正解コンテンツ集合とを用いて、深層学習モデル(推定モデル)を機械学習により学習させ、つまり、新規の学習により視線特徴学習モデルを生成する。
一方、深層学習部204は、学習用コンテンツ画像を多量に用意できない状況において、視線特徴学習モデルを生成する場合、すでに深層学習により生成された、他の学習用コンテンツ画像に対応する視線特徴学習モデルを転移学習させることにより、視線特徴学習モデルを生成する。なお、学習用コンテンツ画像が多量に用意できる状況であるか否かは、例えば、学習用コンテンツ画像DB205に記憶された学習用コンテンツ画像の数に応じて、或いはユーザの選択操作に応じて判定される。
深層学習部204は、新規の学習により視線特徴学習モデルを生成する場合、ステップS65に示す処理を実行する。学習装置200は、転移学習により視線特徴学習モデルを生成する場合、ステップS62に示す処理を実行する。
For example, consider a case where the
On the other hand, when generating a gaze feature learning model in a situation where a large amount of learning content images cannot be prepared, the
When generating a gaze feature learning model by new learning, the
ステップS62:
深層学習部204は、視線特徴学習モデルDB208に記憶されている学習モデルの中から、所定の学習モデルを選択する。例えば、深層学習部204は、ユーザにより選択された学習用コンテンツ画像の集合に対して、他の学習用コンテンツ画像の集合に対して学習済みの学習モデルを選択する。深層学習部204は、選択した学習モデルを転移学習に用いる深層学習モデルとして取得する。
ステップS63:
深層学習部204は、ステップS62で転移学習に用いるために読み出した深層学習モデルから、入力層からユーザが指定あるいは予め指定されている中間層(適合層)までを、転移学習モデルとして抽出する。そして、深層学習部204は、深層学習モデルから、上記適合層以降の中間層を抽出し、上記転移学習モデルの適合層に接続し、かつ出力層を接続することにより、転移学習用深層学習モデルを構成する。
ステップS64:
深層学習部204は、学習対象モデル(上記転移学習用深層学習モデルあるいは上記深層学習モデル)の入力層に、学習用コンテンツ画像における熟練者の視線情報に基づき注目度が高いと判断される画素を入力した場合に、出力層から注目度が高いことを示す「1」に近い数値が出力されるように、各ネットワークの層の重みパラメタの最適化処理を行う。また、深層学習部204は、学習対象モデルの入力層に、学習用コンテンツ画像における熟練者の注目度が低いと判断される画素を入力した場合に、出力層から注目度が低いことを示す「0」に近い数値が出力されるよう最適化処理を行う。すなわち、深層学習部204は、学習用コンテンツ画像に対し、クラス分類の機械学習を行い、学習結果として、視線特徴画像を生成する。
Step S62:
The
Step S63:
The
Step S64:
The
このとき、深層学習部204は、生成した学習モデルに対し、学習用コンテンツとは異なる学習用コンテンツ画像の集合と、それらの画像に対する熟練者の視線情報である正解データ集合との組を入力し、生成した学習モデルに対して学習テストを行うようにしてもよい。
この場合、深層学習部204は、学習用コンテンツ画像の集合を、学習モデルに入力した際、出力層の出力する数値が予め設定した第1閾値以上となり、かつ、出力層の出力する数値が予め設定した第2閾値以下となった場合、この学習モデルを視線特徴学習モデルDB208に記憶し、視線特徴学習モデルとする。
一方、深層学習部204は、上記学習テストにおいて、熟練者の視線が集中する画素に対して学習モデルの出力層の出力する数値が予め設定した第1閾値未満、あるいは検査員の視線が集中しにくい画素に対して、学習対象モデルの出力層の出力する数値が予め設定した第2閾値以上である場合、この学習モデルを視線特徴学習モデルDB208に記憶せずに、学習モデルの再学習を行う。
At this time, the
In this case, when the
On the other hand, if, in the above-mentioned learning test, the value output by the output layer of the learning model for a pixel on which the expert's gaze is focused is less than a preset first threshold, or the value output by the output layer of the model to be learned for a pixel on which the inspector's gaze is not easily focused is equal to or greater than a preset second threshold, the
ステップS65:
深層学習部204は、ステップS64で生成した学習モデルから、多層構造の中間層におけるプーリング層及び畳み込み層の出力パラメタ、活性化関数の種類と出力されるパラメタなどの各々を、学習モデルのパラメタとして抽出する。
Step S65:
From the learning model generated in step S64, the
ステップS66:
深層学習部204は、生成した学習モデルと、抽出した学習モデルパラメタとを視線特徴学習モデルDB208に記憶させる(登録処理)。
Step S66:
The
<第3の実施形態>
次に第3の実施形態について説明する。本実施形態では、視覚特徴と視線特徴とを用いて、コンテンツ特徴量を算出する点において、上述した実施形態と相違する。これにより、本実施形態の検出支援装置100Bは、人間の視知覚の情報処理に類似した処理を施すこと、及び人間の視線情報を利用することができ、コンテンツ画像の見え方について、より詳細な情報を提示することができる。本実施形態においては、上述した実施形態と異なる構成についてのみ説明し、上述した実施形態の構成と同様の構成については同一の符号を付し、特に必要な場合を除いてその説明を省略する。
Third Embodiment
Next, a third embodiment will be described. This embodiment differs from the above-mentioned embodiment in that a content feature amount is calculated using visual features and gaze features. As a result, the
図11は、第3の実施形態による検出支援装置100Bの構成例を示すブロック図である。検出支援装置100Bは、例えば、視覚特徴視線特徴算出部119と、コンテンツ特徴量算出部105Bとを備える。
FIG. 11 is a block diagram showing an example of the configuration of a
以下、本実施形態においては、コンテンツ画像を静止画像として説明するが、第1の実施形態と同様に、動画像、映像等の他のコンテンツ画像に適用されてもよい。 In the following, in this embodiment, the content image is described as a still image, but similar to the first embodiment, this may be applied to other content images such as moving images and video.
視覚特徴視線特徴算出部119は、視覚特徴画像と視線特徴画像とを用いて、視覚特徴視線特徴を算出する。視覚特徴視線特徴は、視覚特徴と視線特徴との双方の度合いを示す情報である。視覚特徴視線特徴算出部119は、例えば、視覚特徴と視線特徴との間で演算を行うことにより、視覚特徴視線特徴を算出する。ここでの演算には、例えば、視覚特徴と視線特徴との論理積(AND)、論理和(OR)、排他的論理和(XOR)等の各種論理演算や、Winners take all演算や、ビット演算、四則演算等が含まれる。
The visual feature/gaze
視覚特徴視線特徴算出部119は、視覚特徴と視線特徴との間で演算を行う際に、特徴ごと、或いは画素ごとに重みづけを行ってもよい。
When performing calculations between visual features and gaze features, the visual feature/gaze
視覚特徴視線特徴算出部119により用いられる視覚特徴画像は、視覚特徴画像生成部103により生成された画像である。視覚特徴視線特徴算出部119により用いられる視線特徴画像は、視線特徴画像生成部117により生成された画像である。視覚特徴視線特徴算出部119は、生成した視覚特徴視線特徴を、コンテンツ特徴量算出部105Aに出力する。
The visual feature image used by the visual feature
コンテンツ特徴量算出部105Bは、視覚特徴視線特徴に画像特徴を適用することによりコンテンツ特徴量を算出する。本実施形態のコンテンツ特徴量は、例えば、視覚特徴視線特徴における画像上の特徴を統計的に示す統計量である。
The content feature
コンテンツ特徴量は、例えば、画像特徴としてコントラストが選択された場合、コンテンツ画像において、視覚特徴視線特徴がいかなるコントラストを形成しているかを示す値となる。ここで用いられる視覚特徴視線特徴は、視覚特徴視線特徴算出部119により生成された情報である。ここで用いられる画像特徴は、画像特徴選択部104により選択された画像特徴である。
なお、コンテンツ特徴量は、視覚特徴視線特徴そのものであってもよい。
For example, when contrast is selected as the image feature, the content feature amount is a value indicating what kind of contrast the visual feature/gaze feature forms in the content image. The visual feature/gaze feature used here is information generated by the visual feature/gaze
The content feature amount may be the visual feature or the gaze feature itself.
図12は、本実施形態による検出支援装置100Bが行なう処理の動作例を示すフローチャートである。図12のステップS31、S32、S36、及びS38~S41の各々に示す処理については、図2のステップS11、S12、S13、及びS15~S18の各々に示す処理と同様であるため、その説明を省略する。また、図12のステップS33、S34に示す処理については、図2のステップS21、S22に示す処理と同様であるため、その説明を省略する。
Figure 12 is a flowchart showing an example of the operation of the processing performed by the
ステップS30:
検出支援装置100Bは、コンテンツ画像選択部101により取得したコンテンツ画像を、視覚特徴画像生成部103、及び視線特徴画像生成部117に出力する。
ステップS35:
検出支援装置100Bは、視覚特徴視線特徴算出部119により、S32で生成した視覚特徴画像、及びステップS34で生成した視覚特徴画像を用いて、視覚特徴視線特徴を算出し、算出した視覚特徴視線特徴をコンテンツ特徴量算出部105Bに出力する。
ステップS37:
検出支援装置100Bは、コンテンツ特徴量算出部105Bにより、ステップS35で算出した視覚特徴視線特徴に、画像特徴を適用することにより、コンテンツ特徴量を算出する。
Step S30:
The
Step S35:
The
Step S37:
以上説明したように、第3の実施形態の検出支援装置100Bは、視覚特徴視線特徴算出部119を備える。視覚特徴視線特徴算出部119は、視覚特徴画像と視線特徴画像とを用いて、視覚特徴視線特徴を算出する。これにより、第3の実施形態の検出支援装置100Bによれば、人間の視知覚の情報処理に類似した処理を施すこと、及び人間の視線情報を利用することができ、コンテンツ画像の見え方について、より詳細な情報を提示することができる。
As described above, the
なお、本発明における検出支援装置100(100A、100B)の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて実行することにより処理を行なってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
In addition, a program for realizing all or part of the functions of the detection assistance device 100 (100A, 100B) of the present invention may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed to perform processing. Note that the term "computer system" here includes hardware such as an OS and peripheral devices.
Additionally, "computer system" includes a WWW system equipped with a homepage providing environment (or display environment). Furthermore, "computer-readable recording medium" refers to portable media such as flexible disks, optical magnetic disks, ROMs, and CD-ROMs, as well as storage devices such as hard disks built into computer systems. Furthermore, "computer-readable recording medium" also includes devices that hold a program for a certain period of time, such as volatile memory (RAM) within a computer system that becomes a server or client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 The above program may also be transmitted from a computer system in which the program is stored in a storage device or the like to another computer system via a transmission medium, or by transmission waves in the transmission medium. Here, the "transmission medium" that transmits the program refers to a medium that has the function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The above program may also be one that realizes part of the above-mentioned functions. Furthermore, it may be a so-called difference file (difference program) that can realize the above-mentioned functions in combination with a program already recorded in the computer system.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 Although several embodiments of the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These embodiments can be implemented in various other forms, and various omissions, substitutions, and modifications can be made without departing from the gist of the invention. These embodiments and their modifications are within the scope of the invention and its equivalents as set forth in the claims, as well as the scope and gist of the invention.
100、100A、100B…検出支援装置
101…コンテンツ画像選択部
102…視覚特徴選択部
103…視覚特徴画像生成部
104…画像特徴選択部
105、105A、105B…コンテンツ特徴量算出部
106…解析方法選択部
107…解析部
108…コンテンツ画像DB
109…視覚特徴DB
110…視覚特徴画像記憶部
111…画像特徴DB
112…コンテンツ特徴量記憶部
113…解析方法DB
114…解析結果記憶部
115…解析結果出力部
116…視線特徴学習モデル選択部
117…視線特徴画像生成部
118…視線特徴学習モデルDB
119…視覚特徴視線特徴算出部
109...Visual feature DB
110: Visual feature image storage unit 111: Image feature DB
112: Content feature amount storage unit 113: Analysis method DB
114: Analysis result storage unit 115: Analysis result output unit 116: Gaze feature learning model selection unit 117: Gaze feature image generation unit 118: Gaze feature learning model DB
119...visual feature and gaze feature calculation unit
Claims (10)
前記コンテンツ画像を取得するコンテンツ画像取得部と、
視線特徴学習モデルを用いて前記コンテンツ画像から前記パターンを検出する際の視線の特徴である視線特徴を推定し、推定した前記視線特徴を前記コンテンツ画像における画素ごとに示す視線特徴画像を生成する視線特徴画像生成部と、
前記視線特徴画像を表示する解析結果出力部と、
を備え、
前記視線特徴学習モデルは、学習用の前記コンテンツ画像と、当該学習用の前記コンテンツ画像から前記パターンを検出した人間の前記視線特徴との対応関係を学習した学習済モデルである、
検出支援装置。 A detection support device that supports detection of the presence or absence of an unexpected pattern due to continuity of a pattern in a content image generated by repeatedly arranging a predetermined pattern, the detection support device comprising:
a content image acquisition unit for acquiring the content image;
a gaze feature image generating unit that estimates gaze features that are characteristics of a gaze when detecting the pattern from the content image by using a gaze feature learning model, and generates a gaze feature image that indicates the estimated gaze features for each pixel in the content image;
an analysis result output unit that displays the gaze feature image;
Equipped with
The gaze feature learning model is a trained model that has learned a correspondence between the content image for learning and the gaze feature of a person who detected the pattern from the content image for learning.
Detection aids.
前記視覚特徴画像と前記視線特徴画像とを用いて、前記視覚特徴と前記視線特徴を演算した演算結果を視覚特徴視線特徴として算出する視覚特徴視線特徴算出部と、
をさらに備え、
前記解析結果出力部は、前記視覚特徴視線特徴を、前記コンテンツ画像における前記パターンを検出する際の視線および視覚の特徴として出力する、
請求項1に記載の検出支援装置。 a visual feature image generating unit for generating a visual feature image representing a visual feature, which is a feature of brightness or color, from the content image;
a visual feature gaze feature calculation unit that calculates the visual feature and the gaze feature using the visual feature image and the gaze feature image, and calculates a result of the calculation as a visual feature gaze feature;
Further equipped with
The analysis result output unit outputs the visual feature/gaze feature as a gaze and visual feature when detecting the pattern in the content image.
The detection assistance device according to claim 1 .
請求項2に記載の検出支援装置。 the visual feature image generating unit generates the visual feature image by further using a recognition index representing an ease of recognition of the content image by a human eye as the visual feature.
The detection assistance device according to claim 2 .
請求項3に記載の検出支援装置。 The recognition indices include at least one of a visual attention model, a gaze prediction model, a saliency model, and a saliency model.
The detection assistance device according to claim 3 .
前記視線特徴学習モデルは、学習用の前記コンテンツ画像と、当該学習用の前記コンテンツ画像から前記パターンを検出した人間の視線の特徴である視線特徴との対応関係を学習した学習済モデルであり、
前記視線特徴学習モデルを生成する手法として、深層学習、または、既存の学習モデルを用いた転移学習のいずれかを選択可能に構成され、選択された手法を用いて前記視線特徴学習モデルを生成する深層学習部、
を備える学習装置。 A learning device that generates a gaze feature learning model to be used by a detection support device that supports detection of the presence or absence of an unexpected pattern due to the continuity of a pattern in a content image generated by repeatedly arranging a predetermined pattern, the device comprising:
the gaze feature learning model is a trained model that has learned a correspondence relationship between the content image for learning and a gaze feature that is a feature of the gaze of a person who detected the pattern from the content image for learning,
a deep learning unit configured to be able to select either deep learning or transfer learning using an existing learning model as a method for generating the gaze feature learning model, and to generate the gaze feature learning model using the selected method;
A learning device comprising:
前記深層学習部は、前記学習用コンテンツ画像データベースに記憶された前記学習用の前記コンテンツ画像の数に応じて、深層学習、または、既存の学習モデルを用いた転移学習のいずれを選択するか判定する、
請求項5に記載の学習装置。 a learning content image database for storing the learning content image;
The deep learning unit determines whether to select deep learning or transfer learning using an existing learning model depending on the number of the content images for learning stored in the learning content image database.
The learning device according to claim 5 .
コンテンツ画像取得部が、前記コンテンツ画像を取得し、
視線特徴画像生成部が、視線特徴学習モデルを用いて前記コンテンツ画像から前記パターンを検出する際の視線の特徴である視線特徴を推定し、推定した前記視線特徴を前記コンテンツ画像における画素ごとに示す視線特徴画像を生成し、
解析結果出力部が、前記視線特徴画像を表示し、
前記視線特徴学習モデルは、学習用の前記コンテンツ画像と、当該学習用の前記コンテンツ画像から前記パターンを検出した人間の前記視線特徴との対応関係を学習した学習済モデルである、
検出支援方法。 A detection support method performed by a computer, which is a detection support device, for supporting detection of the presence or absence of an unexpected pattern due to the continuity of a pattern in a content image generated by repeatedly arranging a predetermined pattern, the method comprising:
a content image acquisition unit acquires the content image;
a gaze feature image generating unit that estimates gaze features that are characteristics of a gaze when detecting the pattern from the content image using a gaze feature learning model, and generates a gaze feature image that indicates the estimated gaze features for each pixel in the content image;
an analysis result output unit displays the gaze feature image;
The gaze feature learning model is a trained model that has learned a correspondence between the content image for learning and the gaze feature of a person who detected the pattern from the content image for learning.
Detection aid methods.
前記視線特徴学習モデルは、学習用の前記コンテンツ画像と、当該学習用の前記コンテンツ画像から前記パターンを検出した人間の視線の特徴である視線特徴との対応関係を学習した学習済モデルであり、
深層学習部が、前記視線特徴学習モデルを生成する手法として、深層学習、または、既存の学習モデルを用いた転移学習のいずれかを選択可能に構成され、選択された手法を用いて前記視線特徴学習モデルを生成する、
学習方法。 A learning method performed by a computer, which is a learning device, for generating a gaze feature learning model used by a detection support device that supports detection of the presence or absence of an unexpected pattern due to the continuity of a pattern in a content image generated by repeatedly arranging a predetermined pattern, the method comprising:
the gaze feature learning model is a trained model that has learned a correspondence relationship between the content image for learning and a gaze feature that is a feature of the gaze of a person who detected the pattern from the content image for learning,
The deep learning unit is configured to be able to select either deep learning or transfer learning using an existing learning model as a method for generating the gaze feature learning model, and generates the gaze feature learning model using the selected method.
How to learn.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024066632A JP2024083601A (en) | 2019-06-18 | 2024-04-17 | Detection support device, learning device, detection support method, learning method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019112677A JP7476487B2 (en) | 2019-06-18 | 2019-06-18 | Detection support device, detection support method, and program |
JP2024066632A JP2024083601A (en) | 2019-06-18 | 2024-04-17 | Detection support device, learning device, detection support method, learning method, and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019112677A Division JP7476487B2 (en) | 2019-06-18 | 2019-06-18 | Detection support device, detection support method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024083601A true JP2024083601A (en) | 2024-06-21 |
Family
ID=73837079
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019112677A Active JP7476487B2 (en) | 2019-06-18 | 2019-06-18 | Detection support device, detection support method, and program |
JP2024066632A Pending JP2024083601A (en) | 2019-06-18 | 2024-04-17 | Detection support device, learning device, detection support method, learning method, and program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019112677A Active JP7476487B2 (en) | 2019-06-18 | 2019-06-18 | Detection support device, detection support method, and program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7476487B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5306940B2 (en) * | 2009-08-11 | 2013-10-02 | 日本放送協会 | Moving image content evaluation apparatus and computer program |
JP5771127B2 (en) * | 2011-11-15 | 2015-08-26 | 日本放送協会 | Attention level estimation device and program thereof |
JP7062890B2 (en) * | 2017-07-10 | 2022-05-17 | 凸版印刷株式会社 | Content generator, content generation method and program |
-
2019
- 2019-06-18 JP JP2019112677A patent/JP7476487B2/en active Active
-
2024
- 2024-04-17 JP JP2024066632A patent/JP2024083601A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP7476487B2 (en) | 2024-05-01 |
JP2020204941A (en) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7180004B2 (en) | MEDICAL IMAGE SEGMENTATION METHOD, MEDICAL IMAGE SEGMENTATION APPARATUS, ELECTRONIC DEVICE, AND COMPUTER PROGRAM | |
US11747898B2 (en) | Method and apparatus with gaze estimation | |
Abramoff et al. | Automated segmentation of the optic disc from stereo color photographs using physiologically plausible features | |
JP6955303B2 (en) | Medical image processing equipment and methods and programs | |
Wang et al. | Human visual system-based fundus image quality assessment of portable fundus camera photographs | |
CN108549886A (en) | A kind of human face in-vivo detection method and device | |
Petrović et al. | Objective evaluation of signal-level image fusion performance | |
CN100566655C (en) | Be used to handle image to determine the method for picture characteristics or analysis candidate | |
Legg et al. | Feature neighbourhood mutual information for multi-modal image registration: an application to eye fundus imaging | |
Lavoué et al. | Quality assessment in computer graphics | |
CN106780436B (en) | Medical image display parameter determination method and device | |
JP2019091454A (en) | Data analysis processing device and data analysis processing program | |
US9679216B2 (en) | Morphological automatic triangle orientation detection | |
US11615508B2 (en) | Systems and methods for consistent presentation of medical images using deep neural networks | |
KR20110133416A (en) | Video processing method for 3d display based on multi-thread scheme | |
WO2015174548A1 (en) | Image diagnosis assistance apparatus, control method thereof, and program | |
CN109478316A (en) | The enhancing of real-time adaptive shadow and highlight | |
Qureshi et al. | A comprehensive performance evaluation of objective quality metrics for contrast enhancement techniques | |
JP7476487B2 (en) | Detection support device, detection support method, and program | |
EP3074844A1 (en) | Estimating gaze from un-calibrated eye measurement points | |
JP2022096883A (en) | Evaluation system, method for evaluation, and program | |
JP6527765B2 (en) | Wrinkle state analyzer and method | |
Guo et al. | Objective image fusion evaluation method for target recognition based on target quality factor | |
Sathananthavathi et al. | Improvement of thin retinal vessel extraction using mean matting method | |
Tang et al. | Feature comparison and analysis for new challenging research fields of image quality assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240417 |