JP7257227B2 - Information processing method and information processing system - Google Patents
Information processing method and information processing system Download PDFInfo
- Publication number
- JP7257227B2 JP7257227B2 JP2019075031A JP2019075031A JP7257227B2 JP 7257227 B2 JP7257227 B2 JP 7257227B2 JP 2019075031 A JP2019075031 A JP 2019075031A JP 2019075031 A JP2019075031 A JP 2019075031A JP 7257227 B2 JP7257227 B2 JP 7257227B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- image
- unit
- information processing
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本開示は、情報処理方法及び情報処理システムに関する。 The present disclosure relates to an information processing method and an information processing system.
機械学習のためのデータセット(以下、訓練用データセット又は学習用データセットとも称する。)の構築等において、十分な量のデータ(以下、訓練用データ又は学習用データとも称する。)を準備する方法として、合成画像を生成する方法が提案されている。例えば、特許文献1には、複数個の異なる種類のセンサを併用し、これらのセンサから得られる情報に基づいてCG(Computer Graphics)画像を生成することによって学習のサンプル数を増加させるシミュレーションシステム等が開示されている。また、例えば、特許文献2には、背景画像と色彩及び明度の少なくともいずれかが類似した部分を有する物体を撮影した画像と背景画像との差分画像を学習用データとして用いる画像処理装置等が開示されている。
Prepare a sufficient amount of data (hereinafter also referred to as training data or learning data) in the construction of a data set for machine learning (hereinafter also referred to as a training data set or learning data set). As a method, a method of generating a composite image has been proposed. For example,
上記従来技術では、生成される訓練用データが、機械学習により訓練されるモデル(以下、訓練モデル又は学習モデルとも称する。)の個々にとって有益であるとは限らない。したがって、上記従来技術では、個々のモデルの訓練効率を向上させることが難しい。 In the above conventional technology, the generated training data is not necessarily useful for each model trained by machine learning (hereinafter also referred to as training model or learning model). Therefore, it is difficult to improve the training efficiency of each individual model with the above conventional technology.
そこで、本開示は、機械学習により訓練されるモデルの個々の訓練効率を向上させることができる情報処理方法及び情報処理システムを提供する。 Accordingly, the present disclosure provides an information processing method and an information processing system that can improve individual training efficiency of models trained by machine learning.
本開示の非限定的で例示的な一態様に係る情報処理方法は、コンピュータを用いて、センシングデータを取得し、前記センシングデータ上の認識対象データを合成する合成部分を決定し、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、前記合成データが有する前記特徴と同一又は類似の前記特徴を有する対応データを前記モデルの訓練用データとして決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う。 An information processing method according to a non-limiting exemplary aspect of the present disclosure uses a computer to acquire sensing data, determine a synthesis part for synthesizing recognition target data on the sensing data, and (2) generating synthetic data by synthesizing recognition target data having features that are the same or similar to features perceived by human sensory organs possessed by the sensing data; It is inputting to a model trained using learning to acquire recognition result data, and determining corresponding data having the same or similar feature as the feature of the synthetic data as training data for the model. A second decision, which is to decide whether or not to make the first decision, is made using the correct data including at least the synthesized part and the recognition result data, and when the first decision is made, the second decision is made. If so, the first determination is made.
なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD-ROM(Compact Disc-Read Only Memory)等の不揮発性の記録媒体を含む。本開示の一態様の付加的な恩恵及び有利な点は本明細書及び図面から明らかとなる。この恩恵及び/又は有利な点は、本明細書及び図面に開示した様々な態様及び特徴により個別に提供され得るものであり、その1以上を得るために全てが必要ではない。 The general or specific aspects described above may be realized by a system, apparatus, method, integrated circuit, computer program, or recording medium such as a computer-readable recording disk. , may be implemented in any combination of a computer program and a recording medium. Computer-readable recording media include non-volatile recording media such as CD-ROMs (Compact Disc-Read Only Memory). Additional benefits and advantages of aspects of the disclosure will be apparent from the specification and drawings. This benefit and/or advantage may be provided individually by the various aspects and features disclosed in the specification and drawings, and not all are required to obtain one or more thereof.
本開示に係る情報処理方法等によれば、機械学習により訓練されるモデルの個々の訓練効率を向上させることができる。 According to the information processing method and the like according to the present disclosure, it is possible to improve the training efficiency of each model trained by machine learning.
本開示の一態様の概要は以下のとおりである。 A summary of one aspect of the present disclosure follows.
本開示の一態様に係る情報処理方法は、センシングデータを取得し、前記センシングデータ上の認識対象データを合成する合成部分を決定し、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う。このとき、前記センシングデータが有する前記特徴は、前記センシングデータの要素の統計的特徴であってもよい。また、前記センシングデータが有する前記特徴は、前記センシングデータの定性的特徴であってもよい。 An information processing method according to an aspect of the present disclosure acquires sensing data, determines a synthesis portion for synthesizing recognition target data on the sensing data, and inserts a human sensory organ possessed by the sensing data into the synthesis portion. Synthesizing recognition target data having features identical or similar to perceived features to generate synthetic data, and inputting the synthetic data to a model trained using machine learning to recognize a recognition target. obtaining recognition result data and making at least the synthesis portion a second decision of determining whether to make a first decision of determining training data for the model based on the synthesis data; If it is determined in the second decision that the first decision is to be made by using the correct data and the recognition result data, the first decision is made. At this time, the features of the sensing data may be statistical features of elements of the sensing data. Further, the features of the sensing data may be qualitative features of the sensing data.
上記態様によれば、例えば、センシングデータが画像である場合、画像上の所望の合成部分に認識対象(例えば、物体)データを合成するため、合成部分(例えば、物体合成位置)の座標及び物体の種類等を示すアノテーションを、合成データ(ここでは、合成画像)に新たに付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、上記態様によれば、画像上の所望の位置及びサイズで物体データを合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル(以下、認識モデルとも呼ぶ)に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、上記態様によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。それにより、学習モデルの個々の訓練効率が向上する。例えば、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間で向上させることができる。また、上記態様によれば、画像が有する人の感覚器により知覚される特徴(例えば、視覚的特徴)と同一又は類似の特徴(つまり、視覚的特徴)を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された画像(以下、撮影画像)である場合は、撮影画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して機械学習により訓練された学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。なお、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体とは、例えば、画像の要素(例えば、画像パラメタ)の統計的特徴である画像の色味又はエッジなどが同一又は類似している物体であってもよく、画像の定性的特徴である雨又は雪などの気象条件、気象条件による路面の状態、及びオクルージョンなどが同一又は類似している物体であってもよい。当該物体は、上記特徴を有することにより、画像に馴染みやすいため、物体合成位置に当該物体を合成して生成される合成画像は自然な画像となる。 According to the above aspect, for example, when the sensing data is an image, in order to synthesize the recognition target (for example, object) data with a desired synthesized portion on the image, the coordinates of the synthesized portion (for example, object synthesis position) and the object There is no need to add a new annotation indicating the type of the composite data (here, the composite image) to the composite data. Therefore, the time required for a series of information processing for creating correct answer data can be shortened. Further, according to the above aspect, in order to synthesize the object data at a desired position and size on the image, information such as the coordinates of the object synthesis position is input to the learning model (hereinafter also referred to as the recognition model) of the synthesized image. It can be used as the correct data for the case. Therefore, by comparing the output data obtained by inputting a synthetic image in which an object is synthesized at the object synthesis position to the learning model and the correct data, it is possible to identify a synthetic image with low recognition accuracy in the learning model. . As a result, based on a synthetic image with low recognition accuracy in the learning model, the synthetic image or an image similar to the synthetic image can be used as training data for the learning model. Therefore, the individual training efficiency of the learning model can be improved. In other words, if data that is not useful for machine learning is mixed, it becomes difficult for the machine learning process to converge. Machine learning processing becomes easier to converge. This improves the individual training efficiency of the learning model. For example, the recognition accuracy of the learning model can be improved in a shorter period of time than when all the generated synthetic images are used as training data for the learning model. Further, according to the above aspect, an object having a feature (i.e., visual feature) that is the same as or similar to a feature (i.e., visual feature) perceived by a human sensory organ possessed by the image is synthesized at the object synthesis position. Therefore, when the image is an image actually photographed by a camera or the like (hereinafter referred to as a photographed image), a natural synthesized image close to the photographed image can be obtained. Therefore, a learning model that has been trained by machine learning using the synthesized image as training data can obtain recognition accuracy that is closer to the recognition accuracy obtained when the photographed image is used as training data. An object having visual features identical or similar to the visual features possessed by an image is, for example, a statistical feature of an image element (e.g., image parameter), which is the same or similar to the color tone or edge of an image. It may also be an object that has the same or similar weather conditions such as rain or snow, road conditions due to weather conditions, occlusion, etc., which are qualitative features of the image. Since the object has the above-described characteristics, the object easily blends in with the image, so that the synthesized image generated by synthesizing the object at the object synthesis position is a natural image.
例えば、本開示の一態様に係る情報処理方法は、前記第1の決定では、前記合成データを前記モデルの訓練用データとして決定してもよい。 For example, in the information processing method according to an aspect of the present disclosure, in the first determination, the synthesized data may be determined as training data for the model.
上記態様によれば、学習モデルでの認識精度が低いと判定された合成画像を訓練用データとして使用することができる。そのため、学習モデルでの認識精度が高いデータ、すなわち訓練用データとしては不要なデータを訓練用データとして蓄積することが抑制される。したがって、データを蓄積するためのコストが削減される。言い換えると、学習モデルでの認識精度が低いシーンの画像を重点的に訓練用データとして蓄積することができるため、認識精度の低いシーンに対する効率的な学習が可能となる。そのため、学習モデルの認識精度がより向上される。 According to the above aspect, it is possible to use a synthesized image determined to have low recognition accuracy in the learning model as training data. Therefore, accumulation of data with high recognition accuracy in the learning model, ie, data unnecessary as training data, as training data is suppressed. Therefore, the cost for accumulating data is reduced. In other words, since images of scenes with low recognition accuracy in the learning model can be accumulated as training data intensively, efficient learning for scenes with low recognition accuracy is possible. Therefore, the recognition accuracy of the learning model is further improved.
例えば、本開示の一態様に係る情報処理方法は、前記第1の決定では、前記合成データが有する前記特徴と同一又は類似の前記特徴を有する対応データを前記モデルの訓練用データとして決定してもよい。このとき、前記合成データが有する前記特徴は、前記合成データの要素の統計的特徴であってもよい。また、前記合成データが有する前記特徴は、前記合成データの定性的特徴であってもよい。 For example, in the information processing method according to one aspect of the present disclosure, in the first determination, correspondence data having the same or similar feature as the feature of the synthesized data is determined as training data for the model. good too. At this time, the features possessed by the synthetic data may be statistical features of elements of the synthetic data. Further, the features possessed by the synthetic data may be qualitative features of the synthetic data.
上記態様によれば、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定するため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。なお、対応画像が撮影画像の場合は、合成画像を訓練用データとしたときに比べて学習効果を向上させることができる。また、視覚的特徴が合成画像の要素(例えば、画像パラメタ)の統計的特徴である場合は、統計学的な観点から訓練用データの数及びバリエーションを効率よく増やすことができる。また、視覚的特徴が合成画像の定性的特徴である場合は、定量化しづらい特徴を有する訓練用データの数及びバリエーションを効率よく増やすことができる。 According to the above aspect, since corresponding images having visual features that are the same as or similar to the visual features of the synthesized image are determined as training data, images of scenes with low recognition accuracy in the learning model and images similar to the images are determined. Images of the scene can be used as training data. Therefore, it is possible to efficiently increase the number and variations of training data for scenes with low recognition accuracy. Note that when the corresponding image is a photographed image, the learning effect can be improved compared to when the synthetic image is used as training data. Also, if the visual features are statistical features of the elements of the synthesized image (for example, image parameters), the number and variation of training data can be efficiently increased from a statistical point of view. Also, when the visual features are qualitative features of the synthesized image, the number and variation of training data having features that are difficult to quantify can be efficiently increased.
例えば、本開示の一態様に係る情報処理方法では、前記センシングデータは、画像であり、前記認識対象は、物体であり、前記合成部分は、前記画像上の物体データを合成する物体合成位置であり、前記合成データは、前記物体合成位置に、前記画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して生成される合成画像であり、前記認識結果データは、前記合成画像を前記モデルに入力して取得される物体認識結果データであり、前記第1の決定は、前記合成画像に基づいて前記モデルの訓練用データを決定することであり、前記第2の決定は、少なくとも前記物体合成位置を含む正解データと前記物体認識結果データとを用いて行われてもよい。例えば、前記第1の決定は、前記合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を前記モデルの訓練用データとして決定することであり、前記合成画像が有する視覚的特徴は、前記合成画像における前記物体の態様であり、前記対応画像が有する視覚的特徴は、前記物体が有する属性と同一又は類似の属性を有する対応物体の態様であってもよい。この場合、前記態様は、前記物体の前記合成画像上における位置であってもよい。また、前記態様は、前記物体の姿勢であってもよい。 For example, in the information processing method according to one aspect of the present disclosure, the sensing data is an image, the recognition target is an object, and the synthesis part is an object synthesis position where object data on the image is synthesized. wherein the synthesized data is a synthesized image generated by synthesizing object data having visual features identical or similar to those of the image at the object synthesis position, and the recognition result data includes: Object recognition result data obtained by inputting the synthetic image to the model, the first determination is determining training data for the model based on the synthetic image, and the second determination is The determination may be made using correct data including at least the object synthesis position and the object recognition result data. For example, the first determination is to determine, as training data for the model, a corresponding image having visual features that are the same as or similar to the visual features of the synthetic image, and the visual features of the synthetic image are The feature may be the aspect of the object in the synthesized image, and the visual feature of the corresponding image may be the aspect of the corresponding object having the same or similar attribute as that of the object. In this case, the aspect may be the position of the object on the composite image. Further, the aspect may be a posture of the object.
上記態様によれば、合成画像が有する視覚的特徴が合成画像における物体の態様であるため、例えば、合成画像上の物体の位置又は物体の姿勢などの物体の態様の違いにより学習モデルでの物体の認識精度が低いと判定された合成画像に基づいて訓練用データが決定される。これにより、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。このような訓練用データを用いて構築される認識モデルは、画像から物体を認識する精度が向上される。 According to the above aspect, the visual feature of the synthesized image is the aspect of the object in the synthesized image. Training data is determined based on the synthesized image determined to have low recognition accuracy. As a result, images of scenes with low recognition accuracy in the learning model and images of scenes similar to the images can be used as training data. Therefore, it is possible to efficiently increase the number and variations of training data for scenes with low recognition accuracy. A recognition model constructed using such training data has improved accuracy in recognizing an object from an image.
例えば、本開示の一態様に係る情報処理方法では、合成部分は、さらに画像上に合成される物体データのサイズを含んでもよい。 For example, in the information processing method according to one aspect of the present disclosure, the composite portion may further include the size of the object data composited on the image.
上記態様によれば、当該画像にとってより違和感の少ない合成データを得ることができる。 According to the above aspect, it is possible to obtain synthesized data that gives less discomfort to the image.
例えば、本開示の一態様に係る情報処理方法では、前記合成データが有する前記特徴と同一又は類似の前記特徴を有するデータを、前記対応データとして、前記合成データとは異なるセンシングデータから選出又は生成してもよい。 For example, in the information processing method according to one aspect of the present disclosure, data having the same or similar characteristics as the characteristics of the synthesized data is selected or generated as the corresponding data from sensing data different from the synthesized data. You may
上記態様によれば、撮影画像を訓練用データとして使用することができる。そのため、合成画像を訓練用データとして使用する場合に比べて、より高い学習効果が得られる。なお、撮影画像の選出は、画像が取得される度に所定の条件に基づいて記録するか否かを判定することであってもよく、取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、メモリ又はデータベース等に格納された撮影画像から所定の条件を満たす撮影画像を検索して抽出することであってもよい。また、上記態様によれば、対応画像を撮影画像から生成することができる。具体的には、認識モデルでの認識精度が低いシーンの画像及び当該シーンに類似する画像を撮影画像から生成することができる。これにより、撮影画像をそのまま対応画像として使用できない場合であっても対応画像を生成することができるため、訓練用データの数及びバリエーションを容易に増やすことができる。 According to the above aspect, the captured image can be used as training data. Therefore, a higher learning effect can be obtained than when synthetic images are used as training data. It should be noted that the selection of the photographed image may be performed by determining whether or not to record based on a predetermined condition every time an image is acquired. may be sampled, or a photographed image satisfying a predetermined condition may be retrieved and extracted from photographed images stored in a memory, database, or the like. Further, according to the above aspect, the corresponding image can be generated from the captured image. Specifically, an image of a scene with low recognition accuracy in the recognition model and an image similar to the scene can be generated from the captured image. Accordingly, even if the captured image cannot be used as the corresponding image as it is, the corresponding image can be generated, so that the number and variations of the training data can be easily increased.
例えば、本開示の一態様に係る情報処理方法では、GAN(Generative Adversarial Network)モデルを用いて前記合成部分に前記認識対象データを合成してもよい。 For example, in the information processing method according to an aspect of the present disclosure, the recognition target data may be combined with the combined portion using a GAN (Generative Adversarial Network) model.
上記態様によれば、所望の位置に所望の物体を合成しつつ、撮影画像に近い、より自然な合成画像を得ることができる。このような合成画像を訓練用データとして使用することにより、学習モデルでの物体の認識精度を高めることができる。 According to the above aspect, it is possible to obtain a more natural synthesized image close to the photographed image while synthesizing the desired object at the desired position. By using such a synthesized image as training data, it is possible to improve the object recognition accuracy of the learning model.
例えば、本開示の一態様に係る情報処理方法では、さらに、前記第1の決定を行うと前記第2の決定において決定された場合、前記学習モデルのユーザに通知を行ってもよい。このとき、前記通知は、決定された前記訓練用データを用いた前記モデルの訓練の要請に関する通知であってもよい。また、本開示の一態様に係る情報処理方法では、さらに、決定された前記訓練用データを用いた前記モデルの訓練を実行し、前記通知は、前記訓練の完了に関する通知であってもよい。 For example, in the information processing method according to an aspect of the present disclosure, the user of the learning model may be further notified when it is determined in the second determination that the first determination is made. At this time, the notification may be a notification regarding a request for training the model using the determined training data. Further, in the information processing method according to an aspect of the present disclosure, training of the model using the determined training data may be performed, and the notification may be notification regarding completion of the training.
上記態様によれば、合成画像に基づいて学習モデルの訓練用データが決定された場合、学習モデルのユーザに通知が行われるため、ユーザは学習モデルで物体を認識しにくいシーンがあることを把握することができる。また、上記通知が学習モデルの訓練の要請に関する通知である場合、ユーザは、学習モデルの訓練を行うタイミングを決定することができる。また、上記通知が訓練の完了に関する通知である場合、ユーザは、訓練により学習モデルが更新されたことを知ることができる。 According to the above aspect, when the training data for the learning model is determined based on the synthesized image, the user of the learning model is notified, so that the user can understand that there are scenes in which it is difficult for the learning model to recognize objects. can do. Further, when the notification is a notification regarding a request for learning model training, the user can determine the timing for training the learning model. Also, if the notification is a notification regarding the completion of training, the user can know that the learning model has been updated by training.
また、本開示の一態様に係る情報処理システムは、センシングデータを取得する第1取得部と、前記センシングデータ上の認識対象データを合成する合成部分を決定する第1決定部と、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部と、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得する第2取得部と、前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う第2決定部と、を備える。 Further, an information processing system according to an aspect of the present disclosure includes a first acquisition unit that acquires sensing data, a first determination unit that determines a synthesis part for synthesizing recognition target data on the sensing data, and the synthesis part a generation unit for generating synthetic data by synthesizing recognition target data having features identical or similar to features perceived by human sensory organs contained in the sensing data; a second acquisition unit that acquires recognition result data by inputting it to a model trained using machine learning, and a first determination that determines training data for the model based on the synthetic data. making a second decision, which is to decide whether or not to perform, using the correct data including at least the synthesized portion and the recognition result data; and a second decision unit that makes the first decision if the decision is made.
上記態様によれば、例えば、センシングデータが画像である場合、画像上の所望の合成部分に認識対象(例えば、物体)データを合成するため、合成部分(例えば、物体合成位置)の座標及び物体の種類等を示すアノテーションを、合成データ(ここでは、合成画像)に新たに付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、上記態様によれば、画像上の所望の位置及びサイズで物体データを合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル(以下、認識モデルとも呼ぶ)に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。これにより、学習モデルの個々の訓練効率が向上する。例えば、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間に効率よく向上させることができる。また、上記態様によれば、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された撮影画像である場合は、撮像画像近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して機械学習により訓練された学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。 According to the above aspect, for example, when the sensing data is an image, in order to synthesize the recognition target (for example, object) data with a desired synthesized portion on the image, the coordinates of the synthesized portion (for example, object synthesis position) and the object There is no need to add a new annotation indicating the type of the composite data (here, the composite image) to the composite data. Therefore, the time required for a series of information processing for creating correct answer data can be shortened. Further, according to the above aspect, in order to synthesize the object data at a desired position and size on the image, information such as the coordinates of the object synthesis position is input to the learning model (hereinafter also referred to as the recognition model) of the synthesized image. It can be used as the correct data for the case. Therefore, by comparing the output data obtained by inputting a synthetic image in which an object is synthesized at the object synthesis position to the learning model and the correct data, it is possible to identify a synthetic image with low recognition accuracy in the learning model. . As a result, based on a synthetic image with low recognition accuracy in the learning model, the synthetic image or an image similar to the synthetic image can be used as training data for the learning model. Therefore, the individual training efficiency of the learning model can be improved. In other words, if data that is not useful for machine learning is mixed, it becomes difficult for the machine learning process to converge. Therefore, the machine learning process can easily converge. This improves the individual training efficiency of the learning model. For example, the recognition accuracy of the learning model can be efficiently improved in a shorter period of time than when all the generated synthetic images are used as training data for the learning model. Further, according to the above aspect, since an object having visual features identical or similar to those of the image is synthesized at the object synthesis position, if the image is a photographed image actually photographed by a camera or the like, , a natural composite image close to the captured image can be obtained. Therefore, a learning model that has been trained by machine learning using the synthesized image as training data can obtain recognition accuracy that is closer to the recognition accuracy obtained when the photographed image is used as training data.
なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD-ROM等の不揮発性の記録媒体を含む。 The general or specific aspects described above may be realized by a system, apparatus, method, integrated circuit, computer program, or recording medium such as a computer-readable recording disk. , may be implemented in any combination of a computer program and a recording medium. Computer-readable recording media include, for example, non-volatile recording media such as CD-ROMs.
以下、本開示の実施の形態に係る情報処理方法及び情報処理システムについて、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ(工程)、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、以下の実施の形態の説明において、略平行、略直交のような「略」を伴った表現が、用いられる場合がある。例えば、略平行とは、完全に平行であることを意味するだけでなく、実質的に平行である、すなわち、例えば数%程度の差異を含むことも意味する。他の「略」を伴った表現についても同様である。また、以下の実施の形態の説明において、2つの要素が類似することは、例えば、2つの要素の間で半分以上の部分又は主要な部分が同じであること、あるいは、2つの要素が共通の性質を有すること等を意味する。また、各図は模式図であり、必ずしも厳密に図示されたものではない。さらに、各図において、実質的に同一の構成要素に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。 Hereinafter, an information processing method and an information processing system according to embodiments of the present disclosure will be specifically described with reference to the drawings. It should be noted that the embodiments described below are all comprehensive or specific examples. Numerical values, shapes, components, arrangement positions and connection forms of components, steps (processes), order of steps, and the like shown in the following embodiments are examples, and are not intended to limit the present disclosure. In addition, among the constituent elements in the following embodiments, constituent elements that are not described in independent claims representing the highest concept will be described as arbitrary constituent elements. In addition, in the following description of the embodiments, there are cases where expressions with "substantially" such as substantially parallel and substantially orthogonal are used. For example, "substantially parallel" means not only being completely parallel, but also being substantially parallel, that is, including a difference of, for example, several percent. The same applies to expressions with other "abbreviations". In addition, in the following description of the embodiments, two elements being similar means, for example, that half or more of the parts or main parts are the same between the two elements, or that the two elements are common It means having a property, etc. Each figure is a schematic diagram and is not necessarily strictly illustrated. Furthermore, in each drawing, substantially the same components are denoted by the same reference numerals, and redundant description may be omitted or simplified.
(実施の形態)
[実施の形態に係る情報処理システムの構成及び動作]
実施の形態に係る情報処理システムの構成及び動作について図1及び図2を参照して説明する。図1は、本実施の形態に係る情報処理システム100の構成の一例を示すブロック図である。図2は、本実施の形態に係る情報処理方法のフローを示すフローチャートである。
(Embodiment)
[Configuration and operation of information processing system according to embodiment]
The configuration and operation of an information processing system according to an embodiment will be described with reference to FIGS. 1 and 2. FIG. FIG. 1 is a block diagram showing an example of the configuration of an
図1に示すように、情報処理システム100は、画像取得部10と、画像上の物体合成位置を決定する合成位置決定部20と、合成画像生成部30と、合成画像を学習モデル(以下、認識モデル)に入力して得られる出力データを取得する出力データ取得部40と、認識モデルの学習用データを決定する決定部50と、を備える。
As shown in FIG. 1, an
なお、画像取得部10は、センシングデータを取得する第1取得部の一例である。例えば、センシングデータは、画像である。また、合成位置決定部20は、センシングデータ上の認識対象データを合成する合成部分(ここでは、物体合成位置)を決定する第1決定部の一例である。例えば、認識対象は、物体である。また、合成画像生成部30は、合成部分にセンシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部の一例である。例えば、合成部分は、画像上の物体データを合成する物体合成位置であり、合成データは、合成画像である。また、出力データ取得部40は、合成データを、認識対象を認識するように機械学習を用いて訓練されたモデル(以下、認識モデル又は学習モデルとも呼ぶ)に入力して認識結果データを取得する第2取得部の一例である。例えば、認識結果データは、合成画像を認識モデルに入力して取得される物体認識結果データである。
Note that the
図1及び図2に示すように、画像取得部10は、撮影された画像を取得する(図2のS10)。取得するとは、例えば、撮像装置によって撮影された画像(以下、撮影画像とも呼ぶ)を取得することであってもよく、画像を撮像することにより撮影画像を取得することであってもよい。前者の場合、画像取得部10は、例えば、受信部であり、撮像装置によって撮影された画像を通信により受信する。また、後者の場合、画像取得部10は、例えば、カメラなどの撮像部であり、画像を撮像する。
As shown in FIGS. 1 and 2, the
合成位置決定部20は、画像取得部10で取得された画像上の、物体データを合成する位置である物体合成位置を決定する(図2のS20)。画像に合成される物体は、例えば、人、動物及び車両等の移動可能な物体、並びに、植物及び道路付属物等の不動な物体を含む。物体データを合成する画像上の位置は、任意に決定される。物体合成位置は、さらに、画像上に合成される物体データのサイズを含んでもよい。
The compositing
合成画像生成部30は、物体合成位置に、撮影画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して合成画像を生成する(図2のS30)。撮影画像が有する視覚的特徴は、撮影画像の要素(以下、画像パラメタともいう)の統計的特徴である。画像パラメタの統計的特徴とは、例えば、画像の色調、明るさ、及びエッジ等が挙げられる。また、撮影画像が有する視覚的特徴は、撮影画像の定性的特徴である。画像の定性的特徴とは、数値化が難しい画像の特徴であり、例えば、雨又は雪などの気象条件、気象条件に伴う路面の状態(例えば、路面が雨で濡れた状態)、オクルージョン等が挙げられる。
The composite
合成画像生成部30は、例えば、GAN(Generative Adversarial Network)モデルを用いて物体合成位置に物体を合成する。これにより、得られる合成画像では、合成された物体と背景との色調及び明るさ、つまり、撮影画像上に合成された物体と当該撮影画像との画像パラメタの統計的特徴が同一又は類似になる。そのため、所望の位置に所望の物体を合成しつつ、撮影画像に近い、より自然な合成画像を得ることができる。なお、GANを用いた合成画像の生成方法については、後述する。また、GANは一例であって、合成画像の生成方法については、特に限定されない。合成画像の生成方法は、より自然な撮影画像に近い合成画像を得ることができる方法であればよい。
The synthesized
出力データ取得部40は、合成画像生成部30で得られた合成画像を認識モデルに入力することにより得られる物体認識結果データ(つまり、認識モデルの出力データ)を取得する(図2のS40)。
The output
決定部50は、正解データと出力データとを用いて、第1の決定を行うか否かを決定することである第2の決定を行う。より具体的には、決定部50は、合成画像に基づいて認識モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を、少なくとも物体合成位置を含む正解データと出力データとを用いて行う(図2のS50)。正解データは、例えば、物体合成位置の領域を示す座標、物体の種類、物体の姿勢などの情報を含む。決定部50は、当該正解データと出力データとの差分の大きさに基づいて、物体合成位置に合成された物体を認識する精度(以下、物体の認識精度)を判定する。決定部50は、第1の決定を行うと第2の決定において決定された場合、第1の決定を行う(図2のS60)。より具体的には、決定部50は、認識モデルにおける物体の認識精度が所定の閾値よりも低い場合、認識モデルに入力された合成画像及び当該合成画像と同一又は類似する画像を認識モデルの訓練用データとして決定する。
The
以上のように、情報処理システム100は、訓練用データを用いて認識モデルに学習させることによって、物体の認識精度が向上された認識モデルを構築する。本実施の形態では、認識モデルは、Deep Learning(深層学習)等のニューラルネットワークを用いた機械学習モデルであるが、他の学習モデルであってもよい。例えば、他の学習モデルは、Support Vector Machine、 Boosting、Random Forest、又は、Genetic Programming等を用いた機械学習モデルであってもよい。
As described above, the
以下、図3~図5を参照して、本実施の形態に係る情報処理システム100において、撮影画像が取得されてから合成画像が生成されるまでの手順の一例を説明する。図3は、画像取得部10で取得された撮影画像を示す図である。図4は、合成位置決定部20で画像上の物体合成位置が決定された撮影画像を示す図である。図5は、合成画像生成部30で物体合成位置に物体を合成することにより生成された合成画像を示す図である。ここでは、GANモデルを用いて物体を物体合成位置に合成する例を説明する。
An example of the procedure from acquisition of a photographed image to generation of a composite image in the
画像取得部10は、図3に示す撮影画像を取得する。この撮影画像は、例えば、車載カメラで撮影された画像である。
The
次いで、図4に示すように、合成位置決定部20は、撮影画像上に物体を合成する物体合成位置A及び物体合成位置Bを決定する。物体合成位置A及び物体合成位置Bはそれぞれ任意に決定された位置である。GANモデルでは、撮影画像上の物体合成位置A及び物体合成位置Bにノイズを発生させる。
Next, as shown in FIG. 4, the compositing
次いで、図5に示すように、合成画像生成部30は、ノイズが発生された物体合成位置A及び物体合成位置Bのそれぞれに、異なるジェネレータを有する画像を合成する。異なるジェネレータを有する画像とは、例えば、性別、年齢、服装、及び姿勢等の異なる人物の画像、自転車等の乗り物を運転する人物の画像、並びに、乗用車等の傍に人物が立っている画像等が挙げられる。これらのジェネレータに基づいて所定の物体合成位置に所定の物体が合成される。例えば、図5に示すように、物体合成位置Aには、歩行者A1が合成され、物体合成位置Bには自転車を運転する人物B1が合成される。
Next, as shown in FIG. 5, the synthetic
なお、GANモデルでは、物体合成位置に合成された物体が人物として認識され得るかを判定し、かつ、物体合成位置に合成された物体が背景に馴染んでいるかを判定する。例えば、合成された物体が人物として認識されると判定されたとしても、当該物体が背景に馴染んでいないと判定された場合は、ジェネレータを調整し、再度、物体合成位置に物体を合成する。これにより、合成画像全体として元の撮影画像に近い自然な画像を得ることができる。 In the GAN model, it is determined whether the object synthesized at the object synthesis position can be recognized as a person, and whether the object synthesized at the object synthesis position blends in with the background. For example, even if it is determined that the synthesized object is recognized as a person, when it is determined that the object is not familiar with the background, the generator is adjusted and the object is synthesized again at the object synthesis position. As a result, a natural image close to the original photographed image can be obtained as the entire synthesized image.
このように、本実施の形態では、撮影画像上の所望の物体合成位置に物体を合成するため、物体合成位置の座標及び物体の種類等を示すアノテーションを、合成画像に付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、本実施の形態では、撮影画像上の所望の物体合成位置に物体を合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル(認識モデルとも呼ぶ)に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。それにより、学習モデルの個々の訓練効率が向上する。例えば、学習モデルの認識精度をより短時間で向上させることができる。 As described above, in the present embodiment, since an object is synthesized at a desired object synthesis position on a captured image, annotations indicating the coordinates of the object synthesis position, the type of the object, and the like need not be added to the synthesized image. Therefore, the time required for a series of information processing for creating correct answer data can be shortened. Further, in the present embodiment, in order to synthesize an object at a desired object synthesis position on a captured image, information such as the coordinates of the object synthesis position is input to a learning model (also called a recognition model) of the synthesized image. It can be used as correct answer data. Therefore, by comparing the output data obtained by inputting a synthetic image in which an object is synthesized at the object synthesis position to the learning model and the correct data, it is possible to identify a synthetic image with low recognition accuracy in the learning model. . As a result, based on a synthetic image with low recognition accuracy in the learning model, the synthetic image or an image similar to the synthetic image can be used as training data for the learning model. Therefore, the individual training efficiency of the learning model can be improved compared to the case of using all generated synthetic images as training data for the learning model. In other words, if data that is not useful for machine learning is mixed, it becomes difficult for the machine learning process to converge. Therefore, the machine learning process can easily converge. This improves the individual training efficiency of the learning model. For example, the recognition accuracy of the learning model can be improved in a shorter time.
また、本実施の形態では、画像が有する人の感覚器により知覚される特徴(ここでは、視覚的特徴)と同一又は類似の特徴(つまり、視覚的特徴)を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された撮影画像である場合は、撮影画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して学習を行った学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。 In addition, in the present embodiment, an object having features (visual features) that are the same as or similar to features (here, visual features) perceived by human sensory organs in the image is synthesized at the object synthesis position. Therefore, when the image is a photographed image actually photographed by a camera or the like, a natural synthesized image close to the photographed image can be obtained. Therefore, a learning model that has been trained using the composite image as training data can obtain a recognition accuracy that is closer to the recognition accuracy obtained when the photographed image is used as training data.
以上のように、情報処理システム100は、画像を取得する画像取得部10と、画像上の物体合成位置を決定する合成位置決定部20と、物体合成位置に、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成する合成画像生成部30と、合成画像を学習モデルに入力することにより得られる学習モデルの出力データを取得する出力データ取得部40と、合成画像に基づいて学習モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも物体合成位置を含む正解データと出力データとを用いて行い、第1の決定を行うと第2の決定において決定された場合、第1の決定を行う決定部50と、を備える。このとき、当該画像が有する視覚的特徴は、当該画像の画像パラメタの統計的特徴である。また、当該画像が有する視覚的特徴は、当該画像の定性的特徴である。
As described above, the
また、本実施の形態に係る情報処理方法は、画像を取得し(S10)、画像上の物体合成位置を決定し(S20)、物体合成位置に、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成し(S30)、合成画像を学習モデルに入力することにより得られる学習モデルの出力データを取得し(S40)、合成画像に基づいて学習モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも物体合成位置を含む正解データと出力データとを用いて行い(S50)、第1の決定を行うと第2の決定において決定された場合、第1の決定を行う(S60)。 Further, the information processing method according to the present embodiment acquires an image (S10), determines an object compositing position on the image (S20), and adds a visual feature identical or similar to that of the image to the object compositing position. A synthetic image is generated by synthesizing objects having visual characteristics (S30), output data of the learning model obtained by inputting the synthetic image to the learning model is obtained (S40), and learning is performed based on the synthetic image. A second decision, which is to decide whether or not to make a first decision, which is to decide training data for the model, is made using the correct data including at least the object synthesis position and the output data (S50) , if it is determined in the second determination that the first determination is to be made, then the first determination is made (S60).
これにより、画像上の所望の物体合成位置に物体が合成されるため、物体合成位置の座標などの情報を学習モデルの正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。これにより、学習モデルの個々の訓練効率が向上する。例えば、全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間に効率よく向上させることができる。また、本実施の形態では、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された画像である場合は、撮像画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して学習を行った学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。 As a result, the object is synthesized at the desired object synthesis position on the image, so information such as the coordinates of the object synthesis position can be used as correct data for the learning model. Therefore, by comparing the output data obtained by inputting a synthetic image in which an object is synthesized at the object synthesis position to the learning model and the correct data, it is possible to identify a synthetic image with low recognition accuracy in the learning model. . As a result, based on a synthetic image with low recognition accuracy in the learning model, the synthetic image or an image similar to the synthetic image can be used as training data for the learning model. Therefore, the individual training efficiency of the learning model can be improved. In other words, if data that is not useful for machine learning is mixed, it becomes difficult for the machine learning process to converge. Therefore, the machine learning process can easily converge. This improves the individual training efficiency of the learning model. For example, the recognition accuracy of the learning model can be efficiently improved in a shorter period of time than when all synthesized images are used as training data for the learning model. In addition, in the present embodiment, an object having the same or similar visual features as the visual features of the image is synthesized at the object synthesis position. A natural synthesized image close to the captured image can be obtained. Therefore, a learning model that has been trained using the composite image as training data can obtain a recognition accuracy that is closer to the recognition accuracy obtained when the photographed image is used as training data.
なお、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体とは、例えば、画像の画像パラメタの統計的特徴である画像の色味又はエッジなどが同一又は類似している物体であってもよく、画像の定性的特徴である雨又は雪などの気象条件、気象条件による路面の状態、及びオクルージョンなどが同一又は類似している物体であってもよい。当該物体は、上記特徴を有することにより、画像に馴染みやすいため、物体合成位置に当該物体を合成して生成される合成画像は自然な画像となる。 An object having visual features that are the same as or similar to the visual features of an image is, for example, an object that has the same or similar color tone or edge of the image, which are statistical features of the image parameters of the image. It may also be an object having the same or similar weather conditions such as rain or snow, road conditions due to weather conditions, occlusion, etc., which are qualitative features of the image. Since the object has the above-described characteristics, the object easily blends in with the image, so that the synthesized image generated by synthesizing the object at the object synthesis position is a natural image.
(変形例1)
[変形例1に係る情報処理システムの構成]
実施の形態の変形例1に係る情報処理システムについて図6を参照して説明する。図6は、変形例1に係る情報処理システム100の構成の一例を示すブロック図である。
(Modification 1)
[Configuration of information processing system according to modification 1]
An information processing system according to
なお、実施の形態に係る情報処理システム100において、画像取得部10は、画像を取得する受信部及び画像を撮像する撮像部のいずれであってもよい例を説明したが、変形例1では、画像取得部10は、撮影された画像を受信する受信部である例を説明する。
In the
変形例1に係る情報処理システム100は、撮像部210と、認識部220とを含む認識処理部200と、認識モデル更新部300と、を備える。
An
変形例1に係る情報処理システム100は、撮像部210によって撮影された画像(以下、撮影画像とも呼ぶ)に画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成し、当該合成画像内に合成された物体にアノテーションを付与し、認識モデルを構築するための訓練用データを決定する。さらに、情報処理システム100は、合成画像に基づいて決定した訓練用データを用いて、画像から物体を検出するための認識モデルを構築する。認識モデルの構築には、後述する学習モデルが適用される。訓練用データは、認識モデルが学習するために(言い換えると、認識モデルが機械学習を用いて訓練されるために)使用するデータである。訓練用データは、合成画像と、合成画像内の物体の種別及び動作などの内容、物体の位置及び領域等の情報とを含む。
The
認識処理部200は、認識モデル更新部300が訓練により構築した認識モデルを、認識部220の認識モデル受信部3で受信する。認識モデル受信部3で受信された認識モデルは、認識モデル更新部4に入力されて更新される。認識モデルが更新されると、更新情報提示部5は、認識モデルが更新された旨の通知を提示する。当該通知の提示は、音声であってもよく、画面に画像として表示されてもよい。また、認識部220は、撮像部210で撮影された画像に含まれる物体を認識する。なお、認識処理部200は、物体の認識結果を音声又は画像として出力してユーザに知らせてもよい。
The
以降において、認識処理部200が、移動体、具体的には、自動車等に搭載され、認識モデル更新部300が、自動車から離れた位置にあるサーバに搭載されるとして、説明する。自動車の認識処理部200と、サーバとは、無線通信を介して接続され、例えば、インターネット等の通信網を介して互いに無線通信する。認識処理部200と認識モデル更新部300とは、無線通信を介して、情報を送受信する。上記無線通信には、Wi-Fi(登録商標)(Wireless Fidelity)などの無線LAN(Local Area Network)が適用されてもよく、その他の無線通信が適用されてもよい。サーバは、コンピュータ等の情報処理装置であってもよい。サーバは、1つ以上のサーバを含んでもよく、クラウドシステムを構成してもよい。
In the following description, it is assumed that the
情報処理システム100は、通信回路等の無線通信装置を備えてもよく、サーバが備える無線通信装置を利用してもよい。認識処理部200は、通信回路等の無線通信装置を備えてもよく、自動車が備える無線通信装置を利用してもよい。なお、認識処理部200と認識モデル更新部300とは、無線通信を介して接続されず、有線通信を介して接続されてもよく、不揮発性メモリ等の記録媒体を介して、互いに情報を授受してもよい。
The
また、自動車に搭載されるコンピュータが処理可能であれば、認識モデル更新部300が自動車に搭載されてもよい。この場合、認識モデル更新部300と認識処理部200とは一体化されてもよい。そして、認識モデル更新部300は、無線通信、有線通信又は記録媒体を介して、自動車の外部と、情報を授受してもよい。
In addition, the recognition
さらに、図6を参照して、変形例1に係る情報処理システム100の認識処理部200及び認識モデル更新部300の詳細な構成を説明する。なお、以降において、認識モデル更新部300が、合成画像を生成するためにGANモデルを使用する例を説明する。
Furthermore, with reference to FIG. 6, detailed configurations of the
変形例1に係る情報処理システム100では、認識処理部200は、撮像部210と認識部220とを備える。
In the
撮像部210は、例えば、カメラであり、画像撮像部1と画像送信部2とを備える。撮像部210で撮影された画像は、画像送信部2を介して認識モデル更新部300の画像取得部110に送信される。
The
認識部220は、例えば、撮像部210で撮影された画像に含まれる人物等の物体を認識する。認識部220は、認識モデル受信部3と認識モデル更新部4と更新情報提示部5とを備える。認識モデル受信部3は、認識モデル更新部300で更新された認識モデルを受信して認識モデル更新部4に出力する。認識モデル更新部4は、認識モデル受信部3から出力された認識モデルを格納することにより、認識モデルを更新する。更新情報提示部5は、ディスプレイ及び/又はスピーカで構成されてよく、第1の決定を行うと第2の決定において決定された場合、認識モデルのユーザに通知を行う。例えば、更新情報提示部5は、所定量の訓練用データが訓練用データ保持部160に格納された場合、決定された訓練用データを用いた認識モデルの訓練の要請に関する通知を行う。また、例えば、更新情報提示部5は、訓練部170において、決定された訓練用データを用いた認識モデルの訓練が実行された場合、訓練の完了に関する通知を行う。また、更新情報提示部5は、認識部220に保持された認識モデルが訓練済みの認識モデルに更新されたことをユーザに提示してもよい。さらに、更新情報提示部5は、例えば、更新された認識モデルと更新前の認識モデルとの違い、及び、更新されたことにより得られる効果等の更新情報をユーザに提示してもよい。なお、ディスプレイは、液晶パネル、有機又は無機EL(Electro Luminescence)などの表示パネルで構成されてもよい。
The
認識モデル更新部300は、画像取得部110、サンプリング部112、合成位置設定部120、画像合成部130、検知処理部140、データ利用判定部150、訓練部170、認識モデル送信部180、訓練用データ保持部160及び認識モデル保持部142を備える。
The recognition
画像取得部110は、撮像部210から送信された画像を取得する。画像取得部110は、取得した画像をサンプリング部112に出力する。
The
サンプリング部112は、画像取得部110から出力された画像を受信し、受信した画像の中から、例えば、周期的に画像をサンプリングして、サンプリングした画像を合成位置設定部120に出力する。
The
合成位置設定部120は、実施の形態における合成位置決定部20(図1参照)の一例であり、サンプリング部112でサンプリングされた画像上の物体合成位置を任意に設定する。
The compositing
画像合成部130は、実施の形態における合成画像生成部30(図1参照)の一例であり、合成位置設定部120で設定された物体合成位置に物体を合成する。このとき、物体の合成方法としては、GANモデルを用いる。なお、GANモデルについては、実施の形態にて説明したため、ここでの説明を省略する。
The
検知処理部140は、実施の形態における出力データ取得部40(図1参照)の一例であり、画像合成部130で合成された合成画像を認識モデル保持部142に出力して得られる認識モデルの出力データを取得する。より具体的には、検知処理部140は、認識モデル保持部142に保持された認識モデルに合成画像を入力することにより得られる認識モデルの出力データを取得する。検知処理部140は、取得した出力データをデータ利用判定部150に出力する。
The
データ利用判定部150は、実施の形態における決定部50(図1参照)の一例であり、少なくとも物体合成位置を含む正解データと出力データとを用いて、合成画像に基づいて認識モデルの訓練用データを決定することである第1の決定を行うか否かの第2の決定を行う。データ利用判定部150は、正解データと出力データとの差分により判定された認識モデルの認識精度が所定の閾値よりも高い場合、第1の決定を行わないとする第2の決定を行う。より具体的には、この場合、データ利用判定部150は、認識モデルに入力された合成画像を、認識モデルによって認識される画像であると判定し、当該合成画像に基づいて認識モデルの訓練用データを決定しないとの第2の決定を行う。データ利用判定部150は、第2の決定に応じて、当該合成画像に基づいて認識モデルの訓練用データを決定しない。
The data
一方、データ利用判定部150は、認識モデルの認識精度が所定の閾値よりも低い場合、第1の決定を行うとする第2の決定を行う。より具体的には、データ利用判定部150は、認識モデルに入力された合成画像を、認識モデルによって物体が認識されにくい画像であると判定し、当該合成画像に基づいて認識モデルの訓練用データを決定するとの第2の決定を行う。データ利用判定部150は、第2の決定に応じて、当該合成画像を訓練用データとして決定する。また、データ利用判定部150は、当該合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定する。対応画像は、訓練用データ保持部160に格納されている画像から選出されてもよく、生成されてもよい。データ利用判定部150は、訓練用データとして決定された画像を、訓練用データ保持部160に新規訓練用データとして格納する。
On the other hand, when the recognition accuracy of the recognition model is lower than the predetermined threshold value, the data
ここで、合成画像が有する視覚的特徴は、当該合成画像の画像パラメタの統計的特徴である。また、合成画像が有する視覚的特徴は、当該合成画像の定性的特徴である。なお、画像パラメタの統計的特徴及び定性的特徴については、実施の形態に記載の内容と同様であるため、ここでの説明を省略する。 Here, the visual features of the composite image are statistical features of the image parameters of the composite image. Also, the visual features of the composite image are qualitative features of the composite image. Note that the statistical features and qualitative features of the image parameters are the same as those described in the embodiment, so descriptions thereof will be omitted here.
また、合成画像が有する視覚的特徴は、合成画像における物体の態様であり、対応画像が有する視覚的特徴は、物体が有する属性と同一又は類似の属性を有する対応物体の態様である。例えば、当該態様は、物体の合成画像上における位置である。より具体的には、物体の合成画像上の位置は、物体が占める領域の座標である。また、例えば、当該態様は、物体の姿勢である。 Also, the visual feature of the synthesized image is the aspect of the object in the synthesized image, and the visual feature of the corresponding image is the aspect of the corresponding object having the same or similar attributes as the object has. For example, the aspect is the position of the object on the composite image. More specifically, the position of the object on the composite image is the coordinates of the area occupied by the object. Also, for example, the aspect is the posture of an object.
なお、物体が有する属性とは、物体が有する性質であり、例えば、物体の種類、形、色、材質等が挙げられる。より具体的には、物体の種類が人物である場合、性別、体格、年齢、肌の色、服装、持ち物、姿勢、年齢、表情なども物体が有する属性に含まれてもよい。また、物体の種類が自動車である場合、車種、形状、ボディの色、窓ガラスの色なども物体が有する属性に含まれてもよい。 Note that the attributes of an object are properties of the object, such as the type, shape, color, and material of the object. More specifically, when the type of object is a person, the attributes of the object may include gender, physique, age, skin color, clothing, belongings, posture, age, facial expression, and the like. Further, when the type of object is an automobile, the attributes of the object may include the vehicle type, shape, body color, window glass color, and the like.
訓練用データ保持部160は、新規訓練用データ、及び、訓練用データとして事前に保持された種々の画像を含む事前保持DB(Data Base)などを格納している。訓練用データ保持部160は、上記のデータの他に、背景の情報、物体の情報、天候などの環境の情報などを格納し、かつ、格納した情報を取り出すことができる。訓練用データ保持部160は、例えば、RAM(Random Access Memory)、フラッシュメモリなどの半導体メモリ、ハードディスクドライブ、又は、SSD(Solid State Drive)等の記憶装置によって実現される。
The training
訓練用データ保持部160は、データ利用判定部150が学習モデルの訓練用データに決定した合成画像に対して、画像上の画像合成位置の情報と、当該合成画像とを対応付けて格納する。また、訓練用データ保持部160は、データ利用判定部150が合成画像に基づいて訓練用データに決定した対応画像に対して、合成画像上に合成された物体に対応する対応物体の対応画像上の位置の情報と、当該対応画像とを対応付けて格納する。
The training
訓練用データ保持部160は、データ利用判定部150が訓練用データとして決定した合成画像と同一又は類似の画像を要求するコマンドをデータ利用判定部150から受信したことに応じて、訓練用データ保持部160に格納された新規訓練用データ及び事前保持DBから所望の画像をデータ利用判定部150に出力する。また、訓練用データ保持部160は、訓練用データを要求するコマンドを訓練部170から受信したことに応じて、訓練用データ保持部160に格納された新規訓練用データ及び事前保持DBから所期の画像を訓練部170に出力する。
The training
認識モデル保持部142は、認識部220が有する認識モデルと同一の認識モデルを格納している。認識モデル保持部142は、画像合成部130で生成された合成画像を認識モデルに入力して得られた出力データを検知処理部140に出力する。認識モデル保持部142は、訓練部170で訓練された認識モデルを取得し、認識モデル保持部142に格納することにより更新する。
The recognition
訓練部170は、データ利用判定部150で決定された訓練用データを用いた認識モデルの訓練を実行する。例えば、訓練部170は、訓練用データ保持部160に所定量の新規訓練用データが格納されると、訓練用データ保持部160から訓練用データを読み出し、それらの訓練用データを訓練部170に格納された認識モデルに入力して認識モデルの訓練を実行する。訓練部170は、機械学習を用いて訓練された認識モデルを認識モデル保持部142及び認識モデル送信部180に出力する。
The
認識モデル送信部180は、訓練部170で訓練された認識モデルを、認識処理部200の認識部220に送信する。認識部220の認識モデル受信部3は、訓練された認識モデルを受信すると、認識モデル更新部4に当該認識モデルを出力する。
The recognition
[変形例1に係る情報処理システムの動作]
変形例1に係る情報処理システム100の動作について、図7を参照して説明する。図7は、変形例1に係る情報処理方法のフローを示すフローチャートである。
[Operation of information processing system according to modification 1]
The operation of the
図7に示すように、変形例1に係る情報処理システム100では、ステップS10において、画像取得部110は、撮像部210で撮影された画像を取得する。画像取得部110は、取得した画像をサンプリング部112に出力する。
As shown in FIG. 7, in the
次いで、ステップS101において、サンプリング部112は、画像取得部110から出力された画像を受信し、受信した画像の中から、例えば、周期的に画像をサンプリングする。サンプリング部112は、サンプリングした画像を合成位置設定部120に出力する。
Next, in step S101, the
次いで、ステップS20において、合成位置設定部120は、サンプリング部112から出力された画像を受信し、受信した画像上の物体合成位置を任意に決定する。合成位置設定部120は、物体合成位置が決定された画像を画像合成部130に出力する。
Next, in step S20, the compositing
次いで、ステップS30において、画像合成部130は、物体合成位置に物体を合成して合成画像を生成する。画像合成部130は、例えばGANモデルを用いて、画像上の物体合成位置に物体を合成する。画像合成部130は、生成した合成画像を検知処理部140に出力する。
Next, in step S30, the
次いで、ステップS40において、検知処理部140は、画像合成部130から出力された合成画像を受信し、当該合成画像を認識モデル保持部142に格納されている認識モデルに入力して出力データを取得する。検知処理部140は、取得した出力データをデータ利用判定部150に出力する。
Next, in step S40, the
次いで、ステップS50において、データ利用判定部150は、合成画像の正解データと、合成画像を認識モデルに入力して得られた出力データとを用いて、第1の決定を行うか否かを決定することである第2の決定を行う。なお、第1の決定は、合成画像に基づいて訓練用データを決定することである。第1の決定を行わないと第2の決定において決定された場合(ステップS501でNO)、当該合成画像に基づく訓練用データを決定する情報処理方法のフローを終了する。一方、第1の決定を行うと第2の決定において決定された場合(ステップS501でYES)、ステップS60において、データ利用判定部150は、第1の決定を行う。このとき、データ利用判定部150は、合成画像に基づいて訓練用データを決定する。データ利用判定部150は、当該合成画像を認識モデルの訓練用データとして決定する。また、データ利用判定部150は、当該合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を認識モデルの訓練用データとして決定する。次いで、ステップS601において、データ利用判定部150は、訓練用データとして決定された画像を、訓練用データとして訓練用データ保持部160に格納する。
Next, in step S50, the data
訓練用データ保持部160に所定量の訓練用データが格納されると、ステップS70において、訓練部170は、決定された訓練用データを用いた認識モデルの訓練を実行する。
When a predetermined amount of training data is stored in the training
次いで、ステップS80において、訓練部170は、機械学習を用いて訓練された認識モデルを認識モデル保持部142及び認識モデル送信部180に出力する。認識モデル保持部142は、訓練部170から出力された訓練済みの認識モデルを格納することにより更新する。また、認識モデル送信部180は、訓練部170から出力された訓練済みの認識モデルを認識処理部200の認識部220に送信する。
Next, in step S<b>80 , the
なお、認識モデル送信部180から送信された訓練済みの認識モデルは、認識部220の認識モデル受信部3で受信され、認識モデル更新部4に出力される。認識モデル更新部4は、認識モデル受信部3から受信した訓練済みの認識モデルを格納することにより認識モデルを更新する。また、更新情報提示部5は、認識モデル受信部3において、訓練済みの認識モデルが受信された場合、ユーザに訓練の完了に関する通知を行う。
The trained recognition model transmitted from the recognition
[変形例1の効果等]
上述したような変形例1に係る情報処理システム100及び情報処理方法によれば、実施の形態に記載した効果に加え、以下の効果を有する。
[Effects of
According to the
変形例1に係る情報処理方法は、第1の決定では、合成画像を認識モデルの訓練用データとして決定する。
In the first determination, the information processing method according to
これにより、学習モデルでの認識精度が低いと判定された合成画像を訓練用データとして使用することができる。そのため、学習モデルでの認識精度が高いデータ、すなわち訓練用データとしては不要なデータを訓練用データとして蓄積することが抑制される。したがって、データを蓄積するためのコストが削減される。言い換えると、学習モデルでの認識精度が低いシーンの画像を重点的に訓練用データとして蓄積することができるため、認識精度の低いシーンに対する効率的な学習が可能となる。そのため、学習モデルの認識精度がより向上される。 As a result, it is possible to use, as training data, a synthesized image determined to have low recognition accuracy in the learning model. Therefore, accumulation of data with high recognition accuracy in the learning model, ie, data unnecessary as training data, as training data is suppressed. Therefore, the cost for accumulating data is reduced. In other words, since images of scenes with low recognition accuracy in the learning model can be accumulated as training data intensively, efficient learning for scenes with low recognition accuracy is possible. Therefore, the recognition accuracy of the learning model is further improved.
また、変形例1に係る情報処理方法は、第1の決定では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を認識モデルの訓練用データとして決定する。このとき、合成画像が有する視覚的特徴は、当該合成画像の画像パラメタの統計的特徴である。また、合成画像が有する視覚的特徴は、当該合成画像の定性的特徴である。
In the first determination, the information processing method according to
このように、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定するため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。なお、対応画像が撮影画像の場合は、合成画像を訓練用データとしたときに比べて学習効果を向上させることができる。また、視覚的特徴が合成画像の画像パラメタの統計的特徴である場合は、統計学的な観点から訓練用データの数及びバリエーションを効率よく増やすことができる。また、視覚的特徴が合成画像の定性的特徴である場合は、定量化しづらい特徴を有する訓練用データの数及びバリエーションを効率よく増やすことができる。 In this way, since corresponding images having visual features that are the same as or similar to the visual features of the synthesized image are determined as training data, images of scenes with low recognition accuracy in the learning model and scenes similar to those images are used. images can be used as training data. Therefore, it is possible to efficiently increase the number and variations of training data for scenes with low recognition accuracy. Note that when the corresponding image is a photographed image, the learning effect can be improved compared to when the synthetic image is used as training data. Also, if the visual features are statistical features of the image parameters of the synthesized image, the number and variation of training data can be efficiently increased from a statistical point of view. Also, when the visual features are qualitative features of the synthesized image, the number and variation of training data having features that are difficult to quantify can be efficiently increased.
また、変形例1に係る情報処理方法では、合成画像が有する視覚的特徴は、当該合成画像における物体の態様であり、対応画像が有する視覚的特徴は、物体が有する属性と同一又は類似の属性を有する対応物体の態様である。この場合、当該態様は、物体の合成画像上における位置である。また、当該態様は、前記物体の姿勢である。
Further, in the information processing method according to
これにより、例えば、合成画像上の物体の位置又は物体の姿勢などの物体の態様の違いにより学習モデルでの物体の認識精度が低いと判定された場合、合成画像に基づいて訓練用データが決定される。そのため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。これにより、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。このような訓練用データを用いて構築される認識モデルは、画像から物体を認識する精度が向上される。 As a result, for example, when it is determined that the object recognition accuracy of the learning model is low due to differences in the object's mode, such as the position or orientation of the object on the composite image, the training data is determined based on the composite image. be done. Therefore, an image of a scene with low recognition accuracy in the learning model and an image of a scene similar to the image can be used as training data. This makes it possible to efficiently increase the number and variation of training data for scenes with low recognition accuracy. A recognition model constructed using such training data has improved accuracy in recognizing an object from an image.
また、変形例1に係る情報処理方法では、さらに、第1の決定を行うと第2の決定において決定された場合、認識モデルのユーザに通知を行う。このとき、当該通知は、例えば、決定された訓練用データを用いた認識モデルの訓練の要請に関する通知である。また、変形例1に係る情報処理方法では、さらに、決定された訓練用データを用いた認識モデルの訓練を実行し、当該通知は、訓練の完了に関する通知である。
Further, in the information processing method according to
これにより、合成画像に基づいて学習モデルの訓練用データが決定された場合、学習モデルのユーザに通知が行われるため、ユーザは学習モデルで物体を認識しにくいシーンがあることを把握することができる。また、上記通知が学習モデルの訓練の要請に関する通知である場合、ユーザは、学習モデルの訓練を行うタイミングを決定することができる。また、上記通知が訓練の完了に関する通知である場合、ユーザは、訓練により学習モデルが更新されたことを知ることができる。 As a result, when the training data for the learning model is determined based on the synthesized image, the user of the learning model is notified, so that the user can understand that there are scenes in which it is difficult for the learning model to recognize objects. can. Further, when the notification is a notification regarding a request for learning model training, the user can determine the timing for training the learning model. Also, if the notification is a notification regarding the completion of training, the user can know that the learning model has been updated by training.
(変形例2)
[変形例2に係る情報処理システムの構成]
実施の形態の変形例2に係る情報処理システムについて図8を参照して説明する。図8は、変形例2に係る情報処理システム100の構成の一例を示すブロック図である。
(Modification 2)
[Configuration of information processing system according to modification 2]
An information processing system according to
なお、実施の形態の変形例1に係る情報処理システム100において、サンプリング部112は、画像取得部110で取得された画像の中から周期的に画像をサンプリングして合成位置設定部120に出力する例を説明した。変形例2では、サンプリング部112は、さらに、画像取得部110で取得された画像のうち、所定の条件に適合する画像をサンプリングして訓練用データとして訓練用データ保持部160に格納する例を説明する。以下、変形例2に係る情報処理システム100について、変形例1に係る情報処理システム100と異なる点を中心に説明する。
Note that in the
変形例2に係る情報処理システム100では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から選出してもよい。なお、撮影画像の選出は、画像取得部110で取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、訓練用データ保持部160に格納された撮影画像から所望の撮影画像を検索して抽出することであってもよい。サンプリング部112は、画像取得部110で取得された画像の中から周期的に画像をサンプリングして合成位置設定部120に出力する。さらに、サンプリング部112は、画像取得部110で取得された画像のうち、所定の条件に適合する画像をサンプリングして訓練用データとして訓練用データ保持部160に格納する。ここで、所定の条件とは、認識モデルでの物体の認識精度が低いシーンに基づく条件であり、例えば、物体の種類、物体の位置、物体の態様、照光状態、気象条件、気候、建物の配置、道路条件などから構成される。例えば、所定の条件は、データ利用判定部150が合成画像に基づいて訓練用データを決定する、つまり第1の決定を行う、と第2の決定を行った場合、当該合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように構成される。これにより、サンプリング部112は、認識モデルで物体の認識精度の低い画像と同一又は類似の画像を訓練用データとしてサンプリングするように、当該所定の条件を更新する。
In the
データ利用判定部150は、第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように所定の条件を設定し、当該条件をサンプリング部112に出力する。
When the data
また、変形例2に係る情報処理システム100は、類似シーン検索部190を備える点で上記実施の形態及び変形例1に係る情報処理システム100と異なる。類似シーン検索部190は、例えば、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、訓練用データ保持部160に格納された撮影画像から選出する。合成画像が有する視覚的特徴と同一又は類似の視覚的特徴とは、例えば、画像上の物体合成位置、画像の背景、人物の姿勢など合成された物体の態様、画像の色味及びエッジなどの画像パラメタの統計学的特徴、及び、気象条件、路面の濡れ、及び、オクルージョンなどの定性的特徴などである。当該撮影画像は、サンプリング部112により選出されて新規訓練用データとして格納された撮影画像であってもよく、事前保持DBに含まれる撮影画像であってもよい。なお、事前保持DBは、情報処理システムがデフォルトとして保持している様々なシーンの画像を有する。様々なシーンの画像とは、例えば、気候が異なる地域で撮影された画像、天候、路面の状態、風景などの異なる画像、画像上の物体の位置、物体の種類、姿勢などの物体の態様が異なる画像などである。さらに、当該撮影画像は、例えば、画像取得部110が取得した画像を一時的に保持するための記憶部を備える場合、当該記憶部に一時的に保持される画像から選出されてもよい。
Further, the
[変形例2に係る情報処理システムの動作]
変形例2に係る情報処理システム100の動作について、図9を参照して説明する。図9は、変形例2に係る情報処理方法のフローの一例を示すフローチャートである。
[Operation of information processing system according to modification 2]
The operation of the
実施の形態の変形例1に係る情報処理システム100において、サンプリング部112は、画像取得部110が取得した画像から周期的に画像をサンプリングして、当該画像を合成位置設定部120に出力する。実施の形態の変形例2に係る情報処理システム100では、サンプリング部112は上記動作に加え、画像取得部110が取得した画像のうち、所定の条件に適合する画像をサンプリングし、当該画像を訓練用データとして訓練用データ保持部160に格納する。類似シーン検索部190は、訓練用データ保持部160に新規訓練用データとして格納されている撮影画像、及び、事前保持DBに格納されている撮影画像から、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を選出する。変形例2に係る情報処理システム100では、これらの撮影画像を含む画像群を訓練用データとして使用して、認識モデルを構築する。以下、変形例2について、実施の形態及び変形例1と異なる点を中心に説明する。
In the
具体的には、ステップS101において、サンプリング部112は、変形例1におけるステップS101と同様の動作に加え、所定の条件に適合する画像を、ステップS10において取得された画像からサンプリングして、当該画像を訓練用データ保持部160に格納する。次いで、情報処理システム100は、ステップS20~S60までの動作を、実施の形態及び変形例1と同様に行う。図示していないが、変形例2では、データ利用判定部150は、第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように所定の条件を設定し、当該条件をサンプリング部112に出力する。当該条件をサンプリング部112が受信すると、サンプリング部112は、所定の条件をサンプリング部112に格納することにより更新する。
Specifically, in step S101, the
次いで、ステップS602において、類似シーン検索部190は、第1の決定を行うとの第2の決定が実行された場合の合成画像と同一又は類似の画像を、対応画像として、訓練用データ保持部160に格納されている撮影画像から検索し、所望の撮影画像を訓練用データとして選出する。次いで、情報処理システム100は、ステップS70及びS80の動作を、変形例1と同様に行う。
Next, in step S602, the similar
[変形例2の効果等]
上述したような変形例2に係る情報処理システム100及び情報処理方法によれば、実施の形態及び変形例1に記載の効果に加え、以下の効果を有する。
[Effects of
According to the
変形例2に係る情報処理方法では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から選出する。なお、撮影画像の選出は、画像取得部110で取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、訓練用データ保持部160などのメモリ及びデータベース等に格納された撮影画像から所望の撮影画像を検索して抽出することであってもよい。
In the information processing method according to
これにより、撮影画像を訓練用データとして使用することができる。そのため、合成画像を訓練用データとして使用する場合に比べて、より高い学習効果が得られる。なお、撮影画像の選出は、画像が取得される度に所定の条件に基づいて記録するか否かを判定することであってもよく、取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、メモリ又はデータベース等に格納された撮影画像から所定の条件を満たす撮影画像を検索して抽出することであってもよい。 This allows the captured images to be used as training data. Therefore, a higher learning effect can be obtained than when synthetic images are used as training data. It should be noted that the selection of the photographed image may be performed by determining whether or not to record based on a predetermined condition every time an image is acquired. may be sampled, or a photographed image satisfying a predetermined condition may be retrieved and extracted from photographed images stored in a memory, database, or the like.
(変形例3)
[変形例3に係る情報処理システムの構成]
実施の形態の変形例3に係る情報処理システムについて図10を参照して説明する。図10は、変形例3に係る情報処理システム100の構成の一例を示すブロック図である。
(Modification 3)
[Configuration of information processing system according to modification 3]
An information processing system according to
なお、実施の形態の変形例2に係る情報処理システム100は、類似シーン検索部190を備える。類似シーン検索部190は、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像と同一又は類似の画像を、訓練用データ保持部160に格納されている撮影画像から検索し、所望の撮影画像を訓練用データとして選出する。変形例3に係る情報処理システム100は、類似シーン検索部190を備えず、類似シーン加工部192を備える。以下、変形例3に係る情報処理システムについて、変形例2に係る情報処理システム100と異なる点を中心に説明する。
変形例3に係る情報処理システム100では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から生成してもよい。
In the
類似シーン加工部192は、例えば、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、訓練用データ保持部160に格納された撮影画像から生成する。
For example, when the data
[変形例3に係る情報処理システムの動作]
変形例3に係る情報処理システム100の動作について、図11を参照して説明する。図11は、変形例3に係る情報処理方法のフローの一例を示すフローチャートである。
[Operation of information processing system according to modification 3]
The operation of the
実施の形態の変形例2に係る情報処理システムにおいて、類似シーン検索部190は、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像、つまり、合成画像に類似する画像を、訓練用データ保持部160に格納された撮影画像から選出する。実施の形態の変形例3に係る情報処理システムにおいて、類似シーン加工部192は、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像、つまり、合成画像に類似する画像を、訓練用データ保持部160に格納された撮影画像から生成する。以下、変形例3について、実施の形態、並びに、変形例1及び変形例2と異なる点を中心に説明する。
In the information processing system according to
具体的には、ステップS603において、類似シーンの撮影画像、つまり、第1の決定を行うとの第2の決定が実行された場合の合成画像に類似するシーンの画像を、対応画像として、当該合成画像とは異なる、訓練用データ保持部160に格納された撮影画像を加工して生成する。
Specifically, in step S603, a photographed image of a similar scene, that is, an image of a scene similar to the synthesized image when the second determination of making the first determination is made is used as the corresponding image. The captured image stored in the training
[変形例3の効果等]
上述したような変形例3に係る情報処理システム100及び情報処理方法によれば、実施の形態及び変形例1に記載の効果に加え、以下の効果を有する。
[Effects of
According to the
変形例3に係る情報処理方法では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から生成する。
In the information processing method according to
これにより、対応画像を撮影画像から生成することができる。具体的には、認識モデルでの物体の認識精度が低いシーンの画像及び当該シーンに類似する画像を撮影画像から生成することができる。これにより、撮影画像をそのまま対応画像として使用できない場合であっても対応画像を生成することができるため、訓練用データの数及びバリエーションを容易に増やすことができる。 Thereby, the corresponding image can be generated from the captured image. Specifically, an image of a scene in which the object recognition accuracy in the recognition model is low and an image similar to the scene can be generated from the captured image. Accordingly, even if the captured image cannot be used as the corresponding image as it is, the corresponding image can be generated, so that the number and variations of the training data can be easily increased.
[その他の変形例]
以上のように、本出願において開示する技術の例示として、実施の形態及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態の変形例又は他の実施の形態にも適用可能である。また、実施の形態及び変形例で説明する各構成要素を組み合わせて、新たな実施の形態又は変形例とすることも可能である。
[Other Modifications]
As described above, the embodiments and modifications have been described as examples of the technology disclosed in the present application. However, the technology in the present disclosure is not limited to these, and can be applied to modifications, replacements, additions, omissions, etc. of the embodiments or other embodiments as appropriate. Moreover, it is also possible to combine each component described in the embodiment and modification to form a new embodiment or modification.
実施の形態及び変形例に係る情報処理システム100は、自動車に適用されるとした。情報処理システムは、センシングデータから認識対象を認識するシステムであれば、いかなるシステムに適用されてもよい。例えば、情報処理システムは、住居又はオフィスなどの建物における人の行動又は状態を観測するシステムに適用されてもよい。この場合、認識処理部200はカメラ等のセンサモジュールに搭載され、認識モデル更新部300は、センサモジュールに搭載されてもよく、サーバ等のセンサモジュールと分離した装置に搭載されてもよい。
It is assumed that the
また、上記実施の形態においては処理の対象が画像である例を説明したが、処理の対象は画像以外のセンシングデータであってもよい。例えば、マイクロフォンから出力される音声データ、LiDAR等のレーダから出力される点群データ、圧力センサから出力される圧力データ、温度センサ又は湿度センサから出力される温度データ又は湿度データ、香りセンサから出力される香りデータなどの正解データが取得可能なセンシングデータであれば、処理の対象とされてよい。例えば、センシングデータが音声データである場合は、音声データの要素は、周波数及び振幅などであり、音声データの要素の統計的特徴は、周波数帯及び音圧などであり、音声データの定性的特徴は、騒音及び背景音などである。 Further, in the above embodiment, an example in which the object of processing is an image has been described, but the object of processing may be sensing data other than an image. For example, audio data output from a microphone, point cloud data output from a radar such as LiDAR, pressure data output from a pressure sensor, temperature data or humidity data output from a temperature sensor or humidity sensor, output from an aroma sensor Sensing data from which correct data such as scent data obtained from the sensor can be acquired may be processed. For example, when the sensing data is voice data, the elements of the voice data are frequency and amplitude, the statistical features of the elements of voice data are the frequency band and sound pressure, and the qualitative features of the voice data. are noise and background sounds.
なお、本開示の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD-ROM等の不揮発性の記録媒体を含む。 It should be noted that general or specific aspects of the present disclosure may be realized by a system, apparatus, method, integrated circuit, computer program, or recording medium such as a computer-readable recording disk. It may be realized by any combination of circuits, computer programs and recording media. Computer-readable recording media include, for example, non-volatile recording media such as CD-ROMs.
例えば、実施の形態及び変形例に係る情報処理システム100に含まれる各構成要素は典型的には集積回路であるLSI(大規模集積回路、Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
For example, each component included in the
なお、実施の形態及び変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。 In addition, in the embodiments and modifications, each component may be implemented by dedicated hardware or by executing a software program suitable for each component. Each component may be realized by reading and executing a software program recorded in a recording medium such as a hard disk or a semiconductor memory by a program execution unit such as a CPU or processor.
また、上記構成要素の一部又は全部は、脱着可能なIC(Integrated Circuit)カード又は単体のモジュールから構成されてもよい。ICカード又はモジュールは、マイクロプロセッサ、ROM、RAM等から構成されるコンピュータシステムである。ICカード又はモジュールは、上記のLSI又はシステムLSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカード又はモジュールは、その機能を達成する。これらICカード及びモジュールは、耐タンパ性を有するとしてもよい。 Also, some or all of the above components may be composed of a detachable IC (Integrated Circuit) card or a single module. An IC card or module is a computer system composed of a microprocessor, ROM, RAM and the like. An IC card or module may include the above LSI or system LSI. The IC card or module achieves its function by the microprocessor operating according to the computer program. These IC cards and modules may be tamper-resistant.
なお、上記方法は、MPU、CPU、プロセッサ、LSIなどの回路、ICカード又は単体のモジュール等によって、実現されてもよい。 The above method may be realized by MPU, CPU, processor, circuit such as LSI, IC card, single module, or the like.
また、本開示の技術は、ソフトウェアプログラム又はソフトウェアプログラムからなるデジタル信号によって実現されてもよく、プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。 Also, the technology of the present disclosure may be realized by a software program or a digital signal composed of the software program, or may be a non-transitory computer-readable recording medium on which the program is recorded.
なお、上記プログラム及び上記プログラムからなるデジタル信号は、コンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、SSD、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリ等に記録したものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、記録媒体に記録して移送されることにより、又はネットワーク等を経由して移送されることにより、独立した他のコンピュータシステムにより実施されてもよい。 The program and a digital signal comprising the program are computer-readable recording media such as flexible discs, hard disks, SSDs, CD-ROMs, MOs, DVDs, DVD-ROMs, DVD-RAMs, BDs (Blu-ray (registered trademark) disc), a semiconductor memory, or the like. Further, the program and the digital signal comprising the program may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, data broadcasting, or the like. In addition, the program and the digital signal comprising the program may be implemented by another independent computer system by being recorded on a recording medium and transferred, or by being transferred via a network or the like. .
また、上記で用いた序数、数量等の数字は、全て本開示の技術を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。また、構成要素間の接続関係は、本開示の技術を具体的に説明するために例示するものであり、本開示の機能を実現する接続関係はこれに限定されない。 In addition, all numbers such as ordinal numbers and numbers used above are examples for specifically describing the technology of the present disclosure, and the present disclosure is not limited to the numbers exemplified. Also, the connection relationship between the components is an example for specifically describing the technology of the present disclosure, and the connection relationship for realizing the function of the present disclosure is not limited to this.
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを1つの機能ブロックとして実現したり、1つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。 Also, the division of functional blocks in the block diagram is an example, and a plurality of functional blocks can be realized as one functional block, one functional block can be divided into a plurality of functional blocks, and some functions can be moved to other functional blocks. may Moreover, single hardware or software may process the functions of a plurality of functional blocks having similar functions in parallel or in a time-sharing manner.
本開示は、学習モデルの個々の訓練効率を向上させることができるため、例えば、自動運転システム、交通管理システム、防犯システム、及び、製造管理システム等の技術に利用可能である。 INDUSTRIAL APPLICABILITY The present disclosure can improve the efficiency of training individual learning models, and is therefore applicable to technologies such as automatic driving systems, traffic management systems, crime prevention systems, and manufacturing management systems.
1 画像撮像部
2 画像送信部
3 認識モデル受信部
4 認識モデル更新部
5 更新情報提示部
10 画像取得部
20 合成位置決定部
30 合成画像生成部
40 出力データ取得部
50 決定部
100 情報処理システム
110 画像取得部
112 サンプリング部
120 合成位置設定部
130 画像合成部
140 検知処理部
142 認識モデル保持部
150 データ利用判定部
160 訓練用データ保持部
170 訓練部
180 認識モデル送信部
190 類似シーン検索部
192 類似シーン加工部
200 認識処理部
210 撮像部
220 認識部
300 認識モデル更新部
1
Claims (16)
センシングデータを取得し、
前記センシングデータ上の認識対象データを合成する合成部分を決定し、
前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、
前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、
前記合成データが有する前記特徴と同一又は類似の前記特徴を有する対応データを前記モデルの訓練用データとして決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、
前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う、
情報処理方法。 using a computer
Acquire sensing data,
determining a synthesis part for synthesizing the recognition target data on the sensing data;
generating synthetic data by synthesizing recognition target data having features identical or similar to features perceived by human sensory organs possessed by the sensing data to the synthetic part;
obtaining recognition result data by inputting the synthetic data into a model trained using machine learning to recognize a recognition target;
A second decision that is to decide whether to make a first decision that is to decide corresponding data having the same or similar features as the features that the synthetic data has as training data for the model. is performed using the correct data including at least the synthetic part and the recognition result data,
If determined in the second decision to make the first decision, making the first decision;
Information processing methods.
請求項1に記載の情報処理方法。 The features possessed by the sensing data are statistical features of elements of the sensing data,
The information processing method according to claim 1 .
請求項1に記載の情報処理方法。 The features possessed by the sensing data are qualitative features of the sensing data,
The information processing method according to claim 1 .
請求項1に記載の情報処理方法。 wherein the features possessed by the synthetic data are statistical features of elements of the synthetic data;
The information processing method according to claim 1 .
請求項1に記載の情報処理方法。 wherein the features possessed by the synthetic data are qualitative features of the synthetic data;
The information processing method according to claim 1 .
センシングデータを取得し、
前記センシングデータ上の認識対象データを合成する合成部分を決定し、
前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、
前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、
前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、
前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行い、
前記センシングデータは、画像であり、
前記認識対象は、物体であり、
前記合成部分は、前記画像上の物体データを合成する物体合成位置であり、
前記合成データは、前記物体合成位置に、前記画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して生成される合成画像であり、
前記認識結果データは、前記合成画像を前記モデルに入力して取得される物体認識結果データであり、
前記第1の決定は、前記合成画像に基づいて前記モデルの訓練用データを決定することであり、
前記第2の決定は、少なくとも前記物体合成位置を含む正解データと前記物体認識結果データとを用いて行われ、
前記第1の決定は、前記合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を前記モデルの訓練用データとして決定することであり、
前記合成画像が有する視覚的特徴は、前記合成画像における前記物体の態様であり、
前記対応画像が有する視覚的特徴は、前記物体が有する属性と同一又は類似の属性を有する対応物体の態様である、
情報処理方法。 using a computer
Acquire sensing data,
determining a synthesis part for synthesizing the recognition target data on the sensing data;
generating synthetic data by synthesizing recognition target data having features identical or similar to features perceived by human sensory organs possessed by the sensing data to the synthetic part;
obtaining recognition result data by inputting the synthetic data into a model trained using machine learning to recognize a recognition target;
a first decision is to determine training data for the model based on the synthetic data; a second decision is to determine whether to make correct data including at least the synthetic portion; data and
if determined in the second decision to make the first decision, making the first decision;
The sensing data is an image,
The recognition target is an object,
the combining portion is an object combining position for combining object data on the image;
The synthesized data is a synthesized image generated by synthesizing object data having visual features identical or similar to those of the image at the object synthesis position,
The recognition result data is object recognition result data obtained by inputting the synthesized image into the model,
the first determination is to determine training data for the model based on the synthetic image;
the second determination is performed using correct data including at least the object synthesis position and the object recognition result data;
The first determination is to determine, as training data for the model, a corresponding image having visual features that are the same as or similar to the visual features of the synthesized image,
The visual feature of the synthetic image is the aspect of the object in the synthetic image,
The visual features of the corresponding image are aspects of the corresponding object having the same or similar attributes as those of the object.
Information processing methods.
請求項6に記載の情報処理方法。 wherein the aspect is the position of the object on the composite image,
The information processing method according to claim 6 .
請求項6に記載の情報処理方法。 wherein the aspect is a pose of the object;
The information processing method according to claim 6 .
請求項6~8のいずれか一項に記載の情報処理方法。 the composite portion further includes a size of object data to be composited onto the image;
The information processing method according to any one of claims 6 to 8 .
請求項1、4、5のいずれか一項に記載の情報処理方法。 selecting or generating the corresponding data from sensing data different from the synthetic data;
The information processing method according to any one of claims 1, 4 and 5.
請求項1~10のいずれか一項に記載の情報処理方法。 Synthesizing the recognition target data to the synthesis part using a GAN (Generative Adversarial Network) model;
The information processing method according to any one of claims 1 to 10 .
請求項1~11のいずれか一項に記載の情報処理方法。 further notifying a user of the model if the second decision determines to make the first decision;
The information processing method according to any one of claims 1 to 11 .
前記通知は、前記訓練の完了に関する通知である、
請求項12に記載の情報処理方法。 Furthermore, training the model using the determined training data,
wherein the notification is a notification regarding completion of the training;
The information processing method according to claim 12 .
請求項12に記載の情報処理方法。 the notification is a notification regarding a request for training the model using the determined training data;
The information processing method according to claim 12 .
前記センシングデータ上の認識対象データを合成する合成部分を決定する第1決定部と、
前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部と、
前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得する第2取得部と、
前記合成データが有する前記特徴と同一又は類似の前記特徴を有する対応データを前記モデルの訓練用データとして決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う第2決定部と、
を備える、
情報処理システム。 a first acquisition unit that acquires sensing data;
a first determination unit that determines a synthesis part for synthesizing recognition target data on the sensing data;
a generating unit that synthesizes recognition target data having features that are the same as or similar to features perceived by human sensory organs in the sensing data to the synthesizing portion to generate synthesized data;
a second acquisition unit that acquires recognition result data by inputting the synthesized data to a model trained using machine learning to recognize a recognition target;
A second decision that is to decide whether to make a first decision that is to decide corresponding data having the same or similar features as the features that the synthetic data has as training data for the model. using the correct data including at least the synthesized part and the recognition result data, and if it is determined in the second determination that the first determination is performed, a second determination unit that performs the first determination and,
comprising
Information processing system.
前記センシングデータ上の認識対象データを合成する合成部分を決定する第1決定部と、a first determination unit that determines a synthesis part for synthesizing recognition target data on the sensing data;
前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部と、a generating unit that synthesizes recognition target data having features that are the same as or similar to features perceived by human sensory organs in the sensing data to the synthesizing portion to generate synthesized data;
前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得する第2取得部と、 a second acquisition unit that acquires recognition result data by inputting the synthesized data to a model trained using machine learning to recognize a recognition target;
前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う第2決定部と、a first decision is to determine training data for the model based on the synthetic data; a second decision is to determine whether to make correct data including at least the synthetic portion; a second determination unit that performs the first determination if the second determination determines that the first determination is performed using data;
を備え、with
前記センシングデータは、画像であり、The sensing data is an image,
前記認識対象は、物体であり、The recognition target is an object,
前記合成部分は、前記画像上の物体データを合成する物体合成位置であり、the combining portion is an object combining position for combining object data on the image;
前記合成データは、前記物体合成位置に、前記画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して生成される合成画像であり、The synthesized data is a synthesized image generated by synthesizing object data having visual features identical or similar to those of the image at the object synthesis position,
前記認識結果データは、前記合成画像を前記モデルに入力して取得される物体認識結果データであり、The recognition result data is object recognition result data obtained by inputting the synthesized image into the model,
前記第1の決定は、前記合成画像に基づいて前記モデルの訓練用データを決定することであり、the first determination is to determine training data for the model based on the synthetic image;
前記第2の決定は、少なくとも前記物体合成位置を含む正解データと前記物体認識結果データとを用いて行われ、the second determination is performed using correct data including at least the object synthesis position and the object recognition result data;
前記第1の決定は、前記合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を前記モデルの訓練用データとして決定することであり、 The first determination is to determine, as training data for the model, a corresponding image having visual features that are the same as or similar to the visual features of the synthesized image,
前記合成画像が有する視覚的特徴は、前記合成画像における前記物体の態様であり、The visual feature of the synthetic image is the aspect of the object in the synthetic image,
前記対応画像が有する視覚的特徴は、前記物体が有する属性と同一又は類似の属性を有する対応物体の態様である、The visual features of the corresponding image are aspects of the corresponding object having the same or similar attributes as those of the object.
情報処理システム。Information processing system.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19191911.7A EP3624008A1 (en) | 2018-08-29 | 2019-08-15 | Information processing method and information processing system |
US16/543,022 US11893082B2 (en) | 2018-08-29 | 2019-08-16 | Information processing method and information processing system |
CN201910768238.1A CN110874641A (en) | 2018-08-29 | 2019-08-20 | Information processing method and information processing system |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018159833 | 2018-08-29 | ||
JP2018159833 | 2018-08-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020038605A JP2020038605A (en) | 2020-03-12 |
JP7257227B2 true JP7257227B2 (en) | 2023-04-13 |
Family
ID=69738091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019075031A Active JP7257227B2 (en) | 2018-08-29 | 2019-04-10 | Information processing method and information processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7257227B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004213567A (en) | 2003-01-08 | 2004-07-29 | Ntt Docomo Inc | Image learning device and its learning method |
JP2016143354A (en) | 2015-02-04 | 2016-08-08 | エヌ・ティ・ティ・コムウェア株式会社 | Learning device, learning method and program |
JP2017045441A (en) | 2015-08-28 | 2017-03-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Image generation method and image generation system |
WO2017145960A1 (en) | 2016-02-24 | 2017-08-31 | 日本電気株式会社 | Learning device, learning method, and recording medium |
US20180189951A1 (en) | 2017-01-04 | 2018-07-05 | Cisco Technology, Inc. | Automated generation of pre-labeled training data |
WO2020195015A1 (en) | 2019-03-27 | 2020-10-01 | 日本電気株式会社 | Image processing device, image processing method, and non-transitory computer readable medium having program stored thereon |
-
2019
- 2019-04-10 JP JP2019075031A patent/JP7257227B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004213567A (en) | 2003-01-08 | 2004-07-29 | Ntt Docomo Inc | Image learning device and its learning method |
JP2016143354A (en) | 2015-02-04 | 2016-08-08 | エヌ・ティ・ティ・コムウェア株式会社 | Learning device, learning method and program |
JP2017045441A (en) | 2015-08-28 | 2017-03-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Image generation method and image generation system |
WO2017145960A1 (en) | 2016-02-24 | 2017-08-31 | 日本電気株式会社 | Learning device, learning method, and recording medium |
US20180189951A1 (en) | 2017-01-04 | 2018-07-05 | Cisco Technology, Inc. | Automated generation of pre-labeled training data |
WO2020195015A1 (en) | 2019-03-27 | 2020-10-01 | 日本電気株式会社 | Image processing device, image processing method, and non-transitory computer readable medium having program stored thereon |
Non-Patent Citations (1)
Title |
---|
秋本直郁、外3名,大域的整合性を考慮したカラー調整と画像補完による自然な画像合成,情報処理学会研究報告,2018年05月10日,Vol.2018-CVIM-212 No.8 |
Also Published As
Publication number | Publication date |
---|---|
JP2020038605A (en) | 2020-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108140032B (en) | Apparatus and method for automatic video summarization | |
KR101535579B1 (en) | Augmented reality interaction implementation method and system | |
US11893082B2 (en) | Information processing method and information processing system | |
JP6056853B2 (en) | Electronics | |
TWI695641B (en) | Positioning a terminal device based on deep learning | |
CN104065869A (en) | Method for displaying image combined with playing audio in an electronic device | |
KR20190026927A (en) | A message sharing method for sharing image data reflecting the status of each user via a chat room. A message sharing method and a computer program for executing the method | |
US11016787B2 (en) | Vehicle controlling system and controlling method thereof | |
US11431887B2 (en) | Information processing device and method for detection of a sound image object | |
CN112200041B (en) | Video motion recognition method and device, storage medium and electronic equipment | |
WO2022218185A1 (en) | Method for plant disease diagnosis and plant disease diagnosis system | |
JP2022520498A (en) | Image processing methods, devices, storage media and electronic devices | |
JP2023036778A (en) | Image processing apparatus and image processing method | |
CN111292734B (en) | Voice interaction method and device | |
CN107977391A (en) | Paint this recognition methods, device, system and electronic equipment | |
WO2023065989A1 (en) | Plant disease and insect pest diagnosis method and system, and readable storage medium | |
JPWO2019193781A1 (en) | Emotion estimation device, emotion estimation method and program | |
US11720321B2 (en) | Vehicle and control method thereof | |
US20190289360A1 (en) | Display apparatus and control method thereof | |
JP7257227B2 (en) | Information processing method and information processing system | |
CN109986553B (en) | Active interaction robot, system, method and storage device | |
US20110044530A1 (en) | Image classification using range information | |
US20200118037A1 (en) | Learning apparatus, estimation apparatus, learning method, and program | |
JP6620304B2 (en) | Program, group prediction apparatus, and group prediction method | |
CN111126493A (en) | Deep learning model training method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7257227 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |