JP2020038605A - Information processing method and information processing system - Google Patents
Information processing method and information processing system Download PDFInfo
- Publication number
- JP2020038605A JP2020038605A JP2019075031A JP2019075031A JP2020038605A JP 2020038605 A JP2020038605 A JP 2020038605A JP 2019075031 A JP2019075031 A JP 2019075031A JP 2019075031 A JP2019075031 A JP 2019075031A JP 2020038605 A JP2020038605 A JP 2020038605A
- Authority
- JP
- Japan
- Prior art keywords
- data
- image
- information processing
- unit
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本開示は、情報処理方法及び情報処理システムに関する。 The present disclosure relates to an information processing method and an information processing system.
機械学習のためのデータセット(以下、訓練用データセット又は学習用データセットとも称する。)の構築等において、十分な量のデータ(以下、訓練用データ又は学習用データとも称する。)を準備する方法として、合成画像を生成する方法が提案されている。例えば、特許文献1には、複数個の異なる種類のセンサを併用し、これらのセンサから得られる情報に基づいてCG(Computer Graphics)画像を生成することによって学習のサンプル数を増加させるシミュレーションシステム等が開示されている。また、例えば、特許文献2には、背景画像と色彩及び明度の少なくともいずれかが類似した部分を有する物体を撮影した画像と背景画像との差分画像を学習用データとして用いる画像処理装置等が開示されている。
In constructing a data set for machine learning (hereinafter also referred to as a training data set or a learning data set) or the like, a sufficient amount of data (hereinafter also referred to as training data or learning data) is prepared. As a method, a method of generating a composite image has been proposed. For example,
上記従来技術では、生成される訓練用データが、機械学習により訓練されるモデル(以下、訓練モデル又は学習モデルとも称する。)の個々にとって有益であるとは限らない。したがって、上記従来技術では、個々のモデルの訓練効率を向上させることが難しい。 In the above related art, the generated training data is not always useful for each model trained by machine learning (hereinafter, also referred to as a training model or a learning model). Therefore, it is difficult to improve the training efficiency of each model with the above-mentioned conventional technology.
そこで、本開示は、機械学習により訓練されるモデルの個々の訓練効率を向上させることができる情報処理方法及び情報処理システムを提供する。 Thus, the present disclosure provides an information processing method and an information processing system that can improve the efficiency of individual training of a model trained by machine learning.
本開示の非限定的で例示的な一態様に係る情報処理方法は、センシングデータを取得し、前記センシングデータ上の認識対象データを合成する合成部分を決定し、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う。 An information processing method according to a non-limiting, exemplary aspect of the present disclosure obtains sensing data, determines a synthesis part for synthesizing recognition target data on the sensing data, and sets the sensing data to the synthesis part. Generating synthetic data by synthesizing recognition target data having the same or similar characteristics as characteristics perceived by the human sensory organs, and training the synthesized data using machine learning to recognize the recognition target. Inputting the obtained model to obtain recognition result data, and determining whether or not to make a first determination of determining training data of the model based on the composite data. The decision is made using the correct answer data including at least the synthesized part and the recognition result data, and when the first decision is made in the second decision, the first decision is made. Performs constant.
なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD−ROM(Compact Disc−Read Only Memory)等の不揮発性の記録媒体を含む。本開示の一態様の付加的な恩恵及び有利な点は本明細書及び図面から明らかとなる。この恩恵及び/又は有利な点は、本明細書及び図面に開示した様々な態様及び特徴により個別に提供され得るものであり、その1以上を得るために全てが必要ではない。 Note that the above comprehensive or specific aspects may be realized by a recording medium such as a system, an apparatus, a method, an integrated circuit, a computer program or a computer-readable recording disk, and the system, the apparatus, the method, and the integrated circuit. , A computer program and a recording medium. The computer-readable recording medium includes a non-volatile recording medium such as a CD-ROM (Compact Disc-Read Only Memory). Additional benefits and advantages of one aspect of the disclosure will be apparent from the description and drawings. This benefit and / or advantage can be provided individually by the various aspects and features disclosed herein and in the drawings, and not all are required to achieve one or more of the above.
本開示に係る情報処理方法等によれば、機械学習により訓練されるモデルの個々の訓練効率を向上させることができる。 According to the information processing method and the like according to the present disclosure, it is possible to improve the efficiency of individual training of a model trained by machine learning.
本開示の一態様の概要は以下のとおりである。 The outline of one embodiment of the present disclosure is as follows.
本開示の一態様に係る情報処理方法は、センシングデータを取得し、前記センシングデータ上の認識対象データを合成する合成部分を決定し、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う。このとき、前記センシングデータが有する前記特徴は、前記センシングデータの要素の統計的特徴であってもよい。また、前記センシングデータが有する前記特徴は、前記センシングデータの定性的特徴であってもよい。 An information processing method according to an aspect of the present disclosure obtains sensing data, determines a synthesis portion that synthesizes recognition target data on the sensing data, and, in the synthesis portion, by a human sensory organ that the sensing data has. Generating synthesized data by synthesizing recognition target data having the same or similar characteristics as the perceived characteristics, and inputting the synthesized data to a model trained using machine learning to recognize the recognition target Obtaining recognition result data and determining whether or not to make a first decision to determine training data for the model based on the combined data, at least a second decision to determine whether to make the It is performed using the correct answer data and the recognition result data, and if the first determination is made in the second determination, the first determination is performed. At this time, the feature of the sensing data may be a statistical feature of an element of the sensing data. Further, the feature of the sensing data may be a qualitative feature of the sensing data.
上記態様によれば、例えば、センシングデータが画像である場合、画像上の所望の合成部分に認識対象(例えば、物体)データを合成するため、合成部分(例えば、物体合成位置)の座標及び物体の種類等を示すアノテーションを、合成データ(ここでは、合成画像)に新たに付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、上記態様によれば、画像上の所望の位置及びサイズで物体データを合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル(以下、認識モデルとも呼ぶ)に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、上記態様によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。それにより、学習モデルの個々の訓練効率が向上する。例えば、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間で向上させることができる。また、上記態様によれば、画像が有する人の感覚器により知覚される特徴(例えば、視覚的特徴)と同一又は類似の特徴(つまり、視覚的特徴)を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された画像(以下、撮影画像)である場合は、撮影画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して機械学習により訓練された学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。なお、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体とは、例えば、画像の要素(例えば、画像パラメタ)の統計的特徴である画像の色味又はエッジなどが同一又は類似している物体であってもよく、画像の定性的特徴である雨又は雪などの気象条件、気象条件による路面の状態、及びオクルージョンなどが同一又は類似している物体であってもよい。当該物体は、上記特徴を有することにより、画像に馴染みやすいため、物体合成位置に当該物体を合成して生成される合成画像は自然な画像となる。 According to the above aspect, for example, when the sensing data is an image, the coordinates of the combining portion (for example, the object combining position) and the object are combined to combine the recognition target (for example, object) data with the desired combining portion on the image. It is not necessary to newly add an annotation indicating the type or the like to the composite data (here, the composite image). Therefore, the time required for a series of information processing for creating the correct answer data can be reduced. According to the above aspect, in order to synthesize object data at a desired position and size on an image, information such as coordinates of an object synthesis position is input to a learning image (hereinafter, also referred to as a recognition model) of the synthesized image. It can be used as correct answer data in the case. Therefore, by comparing the output data obtained by inputting the synthesized image in which the object is synthesized at the object synthesis position into the learning model with the correct answer data, it is possible to specify the synthesized image with low recognition accuracy in the learning model. . This makes it possible to use the synthesized image or an image similar to the synthesized image as training data of the learning model based on the synthesized image with low recognition accuracy in the learning model. Therefore, the efficiency of individual training of the learning model can be improved. In other words, if data that is not useful for machine learning is mixed, it is difficult for the processing of machine learning to converge, but according to the above aspect, data that is useful for machine learning is specified and used as training data. Machine learning processing is likely to converge. Thereby, the efficiency of individual training of the learning model is improved. For example, the recognition accuracy of the learning model can be improved in a shorter time than when all generated synthetic images are used as training data for the learning model. According to the above aspect, an object having the same or similar feature (that is, visual feature) as a feature (for example, visual feature) perceived by a human sensory organ included in the image is synthesized at the object synthesis position. Therefore, when the image is an image actually captured by a camera or the like (hereinafter, a captured image), a natural composite image close to the captured image can be obtained. Therefore, a learning model trained by machine learning using the synthetic image as training data can obtain recognition accuracy closer to the recognition accuracy when the captured image is used as training data. Note that an object having the same or similar visual feature as an image has, for example, the same or similar color or edge of an image, which is a statistical feature of an element (for example, an image parameter) of the image. It may be an object having the same or similar weather conditions, such as rain or snow, which are qualitative features of the image, the state of the road surface due to the weather conditions, and occlusion. Since the object has the above characteristics, it is easy to adapt to the image. Therefore, a synthesized image generated by synthesizing the object at the object synthesis position is a natural image.
例えば、本開示の一態様に係る情報処理方法は、前記第1の決定では、前記合成データを前記モデルの訓練用データとして決定してもよい。 For example, in the information processing method according to an aspect of the present disclosure, in the first determination, the composite data may be determined as training data of the model.
上記態様によれば、学習モデルでの認識精度が低いと判定された合成画像を訓練用データとして使用することができる。そのため、学習モデルでの認識精度が高いデータ、すなわち訓練用データとしては不要なデータを訓練用データとして蓄積することが抑制される。したがって、データを蓄積するためのコストが削減される。言い換えると、学習モデルでの認識精度が低いシーンの画像を重点的に訓練用データとして蓄積することができるため、認識精度の低いシーンに対する効率的な学習が可能となる。そのため、学習モデルの認識精度がより向上される。 According to the above aspect, it is possible to use a synthesized image determined to have low recognition accuracy in the learning model as training data. Therefore, accumulation of data with high recognition accuracy in the learning model, that is, data unnecessary as training data, as training data is suppressed. Therefore, the cost for storing data is reduced. In other words, since images of scenes with low recognition accuracy in the learning model can be accumulated as training data, efficient learning can be performed on scenes with low recognition accuracy. Therefore, the recognition accuracy of the learning model is further improved.
例えば、本開示の一態様に係る情報処理方法は、前記第1の決定では、前記合成データが有する前記特徴と同一又は類似の前記特徴を有する対応データを前記モデルの訓練用データとして決定してもよい。このとき、前記合成データが有する前記特徴は、前記合成データの要素の統計的特徴であってもよい。また、前記合成データが有する前記特徴は、前記合成データの定性的特徴であってもよい。 For example, in the information processing method according to an aspect of the present disclosure, in the first determination, correspondence data having the same or similar feature as the feature of the composite data is determined as training data of the model. Is also good. At this time, the characteristic of the composite data may be a statistical characteristic of an element of the composite data. Further, the characteristic of the composite data may be a qualitative characteristic of the composite data.
上記態様によれば、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定するため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。なお、対応画像が撮影画像の場合は、合成画像を訓練用データとしたときに比べて学習効果を向上させることができる。また、視覚的特徴が合成画像の要素(例えば、画像パラメタ)の統計的特徴である場合は、統計学的な観点から訓練用データの数及びバリエーションを効率よく増やすことができる。また、視覚的特徴が合成画像の定性的特徴である場合は、定量化しづらい特徴を有する訓練用データの数及びバリエーションを効率よく増やすことができる。 According to the above aspect, since the corresponding image having the same or similar visual feature as the visual feature of the composite image is determined as the training data, an image of a scene with low recognition accuracy in the learning model and a similar image are used. The image of the scene to be used can be used as training data. Therefore, the number and variations of training data for a scene with low recognition accuracy can be efficiently increased. When the corresponding image is a photographed image, the learning effect can be improved as compared with the case where the synthetic image is used as training data. When the visual feature is a statistical feature of an element (for example, an image parameter) of the composite image, the number and variations of the training data can be efficiently increased from a statistical viewpoint. When the visual features are qualitative features of the composite image, the number and variations of training data having features that are difficult to quantify can be efficiently increased.
例えば、本開示の一態様に係る情報処理方法では、前記センシングデータは、画像であり、前記認識対象は、物体であり、前記合成部分は、前記画像上の物体データを合成する物体合成位置であり、前記合成データは、前記物体合成位置に、前記画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して生成される合成画像であり、前記認識結果データは、前記合成画像を前記モデルに入力して取得される物体認識結果データであり、前記第1の決定は、前記合成画像に基づいて前記モデルの訓練用データを決定することであり、前記第2の決定は、少なくとも前記物体合成位置を含む正解データと前記物体認識結果データとを用いて行われてもよい。例えば、前記第1の決定は、前記合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を前記モデルの訓練用データとして決定することであり、前記合成画像が有する視覚的特徴は、前記合成画像における前記物体の態様であり、前記対応画像が有する視覚的特徴は、前記物体が有する属性と同一又は類似の属性を有する対応物体の態様であってもよい。この場合、前記態様は、前記物体の前記合成画像上における位置であってもよい。また、前記態様は、前記物体の姿勢であってもよい。 For example, in the information processing method according to an aspect of the present disclosure, the sensing data is an image, the recognition target is an object, and the combining portion is an object combining position for combining object data on the image. The synthesized data is a synthesized image generated by synthesizing object data having the same or similar visual characteristics as the visual characteristics of the image at the object synthesis position, and the recognition result data is The first image is object recognition result data obtained by inputting the composite image to the model, and the first determination is to determine training data of the model based on the composite image. The determination may be performed using correct data including at least the object synthesis position and the object recognition result data. For example, the first determination is to determine a corresponding image having the same or similar visual feature as the visual feature of the composite image as training data of the model, and the visual determination of the composite image is The feature may be an aspect of the object in the composite image, and the visual feature of the corresponding image may be an aspect of a corresponding object having the same or similar attribute as the attribute of the object. In this case, the aspect may be a position of the object on the composite image. Further, the aspect may be a posture of the object.
上記態様によれば、合成画像が有する視覚的特徴が合成画像における物体の態様であるため、例えば、合成画像上の物体の位置又は物体の姿勢などの物体の態様の違いにより学習モデルでの物体の認識精度が低いと判定された合成画像に基づいて訓練用データが決定される。これにより、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。このような訓練用データを用いて構築される認識モデルは、画像から物体を認識する精度が向上される。 According to the above aspect, since the visual feature of the composite image is the aspect of the object in the composite image, for example, the object in the learning model depends on the aspect of the object such as the position of the object on the composite image or the posture of the object. The training data is determined based on the synthesized image determined to have low recognition accuracy. Thus, an image of a scene with low recognition accuracy in the learning model and an image of a scene similar to the image can be used as training data. Therefore, the number and variations of training data for a scene with low recognition accuracy can be efficiently increased. A recognition model constructed using such training data has improved accuracy in recognizing an object from an image.
例えば、本開示の一態様に係る情報処理方法では、合成部分は、さらに画像上に合成される物体データのサイズを含んでもよい。 For example, in the information processing method according to an aspect of the present disclosure, the combining portion may further include the size of the object data combined on the image.
上記態様によれば、当該画像にとってより違和感の少ない合成データを得ることができる。 According to the above aspect, it is possible to obtain combined data with less discomfort for the image.
例えば、本開示の一態様に係る情報処理方法では、前記合成データが有する前記特徴と同一又は類似の前記特徴を有するデータを、前記対応データとして、前記合成データとは異なるセンシングデータから選出又は生成してもよい。 For example, in the information processing method according to an aspect of the present disclosure, data having the same or similar feature as the feature of the combined data is selected or generated as the corresponding data from sensing data different from the combined data. May be.
上記態様によれば、撮影画像を訓練用データとして使用することができる。そのため、合成画像を訓練用データとして使用する場合に比べて、より高い学習効果が得られる。なお、撮影画像の選出は、画像が取得される度に所定の条件に基づいて記録するか否かを判定することであってもよく、取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、メモリ又はデータベース等に格納された撮影画像から所定の条件を満たす撮影画像を検索して抽出することであってもよい。また、上記態様によれば、対応画像を撮影画像から生成することができる。具体的には、認識モデルでの認識精度が低いシーンの画像及び当該シーンに類似する画像を撮影画像から生成することができる。これにより、撮影画像をそのまま対応画像として使用できない場合であっても対応画像を生成することができるため、訓練用データの数及びバリエーションを容易に増やすことができる。 According to the above aspect, the captured image can be used as training data. Therefore, a higher learning effect can be obtained as compared with the case where the synthesized image is used as training data. Note that the selection of the captured image may be to determine whether or not to record the image based on a predetermined condition each time the image is acquired, and to select an image based on a predetermined condition from the acquired images. May be sampled, or a captured image satisfying a predetermined condition may be searched for and extracted from a captured image stored in a memory or a database. According to the above aspect, the corresponding image can be generated from the captured image. Specifically, an image of a scene with low recognition accuracy in the recognition model and an image similar to the scene can be generated from the captured image. Accordingly, the corresponding image can be generated even when the captured image cannot be used as the corresponding image as it is, so that the number and variations of the training data can be easily increased.
例えば、本開示の一態様に係る情報処理方法では、GAN(Generative Adversarial Network)モデルを用いて前記合成部分に前記認識対象データを合成してもよい。 For example, in the information processing method according to an aspect of the present disclosure, the recognition target data may be combined with the combining portion using a GAN (Generative Adversary Network) model.
上記態様によれば、所望の位置に所望の物体を合成しつつ、撮影画像に近い、より自然な合成画像を得ることができる。このような合成画像を訓練用データとして使用することにより、学習モデルでの物体の認識精度を高めることができる。 According to the above aspect, it is possible to obtain a more natural synthesized image close to a captured image while synthesizing a desired object at a desired position. By using such a synthesized image as training data, it is possible to improve the recognition accuracy of the object in the learning model.
例えば、本開示の一態様に係る情報処理方法では、さらに、前記第1の決定を行うと前記第2の決定において決定された場合、前記学習モデルのユーザに通知を行ってもよい。このとき、前記通知は、決定された前記訓練用データを用いた前記モデルの訓練の要請に関する通知であってもよい。また、本開示の一態様に係る情報処理方法では、さらに、決定された前記訓練用データを用いた前記モデルの訓練を実行し、前記通知は、前記訓練の完了に関する通知であってもよい。 For example, in the information processing method according to an aspect of the present disclosure, when the first determination is made and the second determination is made, the user of the learning model may be notified. At this time, the notification may be a notification regarding a request for training of the model using the determined training data. In the information processing method according to an aspect of the present disclosure, the model may be further trained using the determined training data, and the notification may be a notification regarding completion of the training.
上記態様によれば、合成画像に基づいて学習モデルの訓練用データが決定された場合、学習モデルのユーザに通知が行われるため、ユーザは学習モデルで物体を認識しにくいシーンがあることを把握することができる。また、上記通知が学習モデルの訓練の要請に関する通知である場合、ユーザは、学習モデルの訓練を行うタイミングを決定することができる。また、上記通知が訓練の完了に関する通知である場合、ユーザは、訓練により学習モデルが更新されたことを知ることができる。 According to the above aspect, when the training data of the learning model is determined based on the composite image, the user of the learning model is notified, so that the user grasps that there is a scene in which the learning model has difficulty in recognizing the object. can do. In addition, when the notification is a notification regarding a request for training of a learning model, the user can determine a timing for performing training of the learning model. In addition, when the notification is a notification regarding the completion of the training, the user can know that the learning model has been updated by the training.
また、本開示の一態様に係る情報処理システムは、センシングデータを取得する第1取得部と、前記センシングデータ上の認識対象データを合成する合成部分を決定する第1決定部と、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部と、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得する第2取得部と、前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う第2決定部と、を備える。 In addition, the information processing system according to an aspect of the present disclosure includes a first acquisition unit that acquires sensing data, a first determination unit that determines a combining unit that combines recognition target data on the sensing data, and the combining unit. A generating unit that generates synthetic data by synthesizing recognition target data having the same or similar characteristics as characteristics perceived by a human sensory organ included in the sensing data, and recognizing the recognition target with the synthetic data. A second acquisition unit that acquires recognition result data by inputting to a model trained using machine learning, and a first determination that is to determine training data of the model based on the combined data. A second decision to determine whether or not to perform is performed using the correct answer data including at least the synthesized part and the recognition result data, and the first determination is performed when the first determination is performed. If it is determined in the determination of 2, and a second determination unit to perform the first determination.
上記態様によれば、例えば、センシングデータが画像である場合、画像上の所望の合成部分に認識対象(例えば、物体)データを合成するため、合成部分(例えば、物体合成位置)の座標及び物体の種類等を示すアノテーションを、合成データ(ここでは、合成画像)に新たに付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、上記態様によれば、画像上の所望の位置及びサイズで物体データを合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル(以下、認識モデルとも呼ぶ)に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。これにより、学習モデルの個々の訓練効率が向上する。例えば、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間に効率よく向上させることができる。また、上記態様によれば、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された撮影画像である場合は、撮像画像近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して機械学習により訓練された学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。 According to the above aspect, for example, when the sensing data is an image, the coordinates of the combining portion (for example, the object combining position) and the object are combined to combine the recognition target (for example, object) data with the desired combining portion on the image. It is not necessary to newly add an annotation indicating the type or the like to the composite data (here, the composite image). Therefore, the time required for a series of information processing for creating the correct answer data can be reduced. According to the above aspect, in order to synthesize object data at a desired position and size on an image, information such as coordinates of an object synthesis position is input to a learning image (hereinafter, also referred to as a recognition model) of the synthesized image. It can be used as correct answer data in the case. Therefore, by comparing the output data obtained by inputting the synthesized image in which the object is synthesized at the object synthesis position into the learning model with the correct answer data, it is possible to specify the synthesized image with low recognition accuracy in the learning model. . This makes it possible to use the synthesized image or an image similar to the synthesized image as training data of the learning model based on the synthesized image with low recognition accuracy in the learning model. Therefore, the efficiency of individual training of the learning model can be improved. In other words, if data that is not useful for machine learning is mixed, it is difficult for the processing of machine learning to converge, but according to the present embodiment, data that is useful for machine learning is specified and used as training data. Therefore, the machine learning process is easily converged. Thereby, the efficiency of individual training of the learning model is improved. For example, the recognition accuracy of the learning model can be improved more efficiently in a shorter time than when all the generated synthesized images are used as training data for the learning model. According to the above aspect, in order to combine an object having the same or similar visual feature as the visual feature of the image at the object combining position, if the image is a captured image actually captured by a camera or the like, Thus, it is possible to obtain a natural synthesized image close to the captured image. Therefore, a learning model trained by machine learning using the synthetic image as training data can obtain recognition accuracy closer to the recognition accuracy when the captured image is used as training data.
なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD−ROM等の不揮発性の記録媒体を含む。 Note that the above comprehensive or specific aspects may be realized by a recording medium such as a system, an apparatus, a method, an integrated circuit, a computer program or a computer-readable recording disk, and the system, the apparatus, the method, and the integrated circuit. , A computer program and a recording medium. The computer-readable recording medium includes, for example, a non-volatile recording medium such as a CD-ROM.
以下、本開示の実施の形態に係る情報処理方法及び情報処理システムについて、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ(工程)、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、以下の実施の形態の説明において、略平行、略直交のような「略」を伴った表現が、用いられる場合がある。例えば、略平行とは、完全に平行であることを意味するだけでなく、実質的に平行である、すなわち、例えば数%程度の差異を含むことも意味する。他の「略」を伴った表現についても同様である。また、以下の実施の形態の説明において、2つの要素が類似することは、例えば、2つの要素の間で半分以上の部分又は主要な部分が同じであること、あるいは、2つの要素が共通の性質を有すること等を意味する。また、各図は模式図であり、必ずしも厳密に図示されたものではない。さらに、各図において、実質的に同一の構成要素に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。 Hereinafter, an information processing method and an information processing system according to an embodiment of the present disclosure will be specifically described with reference to the drawings. Each of the embodiments described below shows a comprehensive or specific example. Numerical values, shapes, components, arrangement positions and connection forms of components, steps (processes), order of steps, and the like shown in the following embodiments are examples, and are not intended to limit the present disclosure. In addition, among the components in the following embodiments, components not described in the independent claims indicating the highest concept are described as arbitrary components. In the following description of the embodiments, expressions with “substantially” such as substantially parallel or substantially orthogonal may be used. For example, substantially parallel means not only completely parallel, but also substantially parallel, that is, including, for example, a difference of about several percent. The same applies to expressions with other “abbreviations”. In the following description of the embodiments, the similarity of two elements means that, for example, a half or more part or a main part is the same between two elements, or that two elements are common. It means having properties. Each drawing is a schematic diagram and is not necessarily strictly illustrated. Further, in each of the drawings, substantially the same components are denoted by the same reference numerals, and redundant description may be omitted or simplified in some cases.
(実施の形態)
[実施の形態に係る情報処理システムの構成及び動作]
実施の形態に係る情報処理システムの構成及び動作について図1及び図2を参照して説明する。図1は、本実施の形態に係る情報処理システム100の構成の一例を示すブロック図である。図2は、本実施の形態に係る情報処理方法のフローを示すフローチャートである。
(Embodiment)
[Configuration and Operation of Information Processing System According to Embodiment]
The configuration and operation of the information processing system according to the embodiment will be described with reference to FIGS. FIG. 1 is a block diagram illustrating an example of a configuration of an
図1に示すように、情報処理システム100は、画像取得部10と、画像上の物体合成位置を決定する合成位置決定部20と、合成画像生成部30と、合成画像を学習モデル(以下、認識モデル)に入力して得られる出力データを取得する出力データ取得部40と、認識モデルの学習用データを決定する決定部50と、を備える。
As shown in FIG. 1, the
なお、画像取得部10は、センシングデータを取得する第1取得部の一例である。例えば、センシングデータは、画像である。また、合成位置決定部20は、センシングデータ上の認識対象データを合成する合成部分(ここでは、物体合成位置)を決定する第1決定部の一例である。例えば、認識対象は、物体である。また、合成画像生成部30は、合成部分にセンシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部の一例である。例えば、合成部分は、画像上の物体データを合成する物体合成位置であり、合成データは、合成画像である。また、出力データ取得部40は、合成データを、認識対象を認識するように機械学習を用いて訓練されたモデル(以下、認識モデル又は学習モデルとも呼ぶ)に入力して認識結果データを取得する第2取得部の一例である。例えば、認識結果データは、合成画像を認識モデルに入力して取得される物体認識結果データである。
The
図1及び図2に示すように、画像取得部10は、撮影された画像を取得する(図2のS10)。取得するとは、例えば、撮像装置によって撮影された画像(以下、撮影画像とも呼ぶ)を取得することであってもよく、画像を撮像することにより撮影画像を取得することであってもよい。前者の場合、画像取得部10は、例えば、受信部であり、撮像装置によって撮影された画像を通信により受信する。また、後者の場合、画像取得部10は、例えば、カメラなどの撮像部であり、画像を撮像する。
As shown in FIGS. 1 and 2, the
合成位置決定部20は、画像取得部10で取得された画像上の、物体データを合成する位置である物体合成位置を決定する(図2のS20)。画像に合成される物体は、例えば、人、動物及び車両等の移動可能な物体、並びに、植物及び道路付属物等の不動な物体を含む。物体データを合成する画像上の位置は、任意に決定される。物体合成位置は、さらに、画像上に合成される物体データのサイズを含んでもよい。
The combining
合成画像生成部30は、物体合成位置に、撮影画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して合成画像を生成する(図2のS30)。撮影画像が有する視覚的特徴は、撮影画像の要素(以下、画像パラメタともいう)の統計的特徴である。画像パラメタの統計的特徴とは、例えば、画像の色調、明るさ、及びエッジ等が挙げられる。また、撮影画像が有する視覚的特徴は、撮影画像の定性的特徴である。画像の定性的特徴とは、数値化が難しい画像の特徴であり、例えば、雨又は雪などの気象条件、気象条件に伴う路面の状態(例えば、路面が雨で濡れた状態)、オクルージョン等が挙げられる。
The synthetic
合成画像生成部30は、例えば、GAN(Generative Adversarial Network)モデルを用いて物体合成位置に物体を合成する。これにより、得られる合成画像では、合成された物体と背景との色調及び明るさ、つまり、撮影画像上に合成された物体と当該撮影画像との画像パラメタの統計的特徴が同一又は類似になる。そのため、所望の位置に所望の物体を合成しつつ、撮影画像に近い、より自然な合成画像を得ることができる。なお、GANを用いた合成画像の生成方法については、後述する。また、GANは一例であって、合成画像の生成方法については、特に限定されない。合成画像の生成方法は、より自然な撮影画像に近い合成画像を得ることができる方法であればよい。
The synthetic
出力データ取得部40は、合成画像生成部30で得られた合成画像を認識モデルに入力することにより得られる物体認識結果データ(つまり、認識モデルの出力データ)を取得する(図2のS40)。
The output
決定部50は、正解データと出力データとを用いて、第1の決定を行うか否かを決定することである第2の決定を行う。より具体的には、決定部50は、合成画像に基づいて認識モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を、少なくとも物体合成位置を含む正解データと出力データとを用いて行う(図2のS50)。正解データは、例えば、物体合成位置の領域を示す座標、物体の種類、物体の姿勢などの情報を含む。決定部50は、当該正解データと出力データとの差分の大きさに基づいて、物体合成位置に合成された物体を認識する精度(以下、物体の認識精度)を判定する。決定部50は、第1の決定を行うと第2の決定において決定された場合、第1の決定を行う(図2のS60)。より具体的には、決定部50は、認識モデルにおける物体の認識精度が所定の閾値よりも低い場合、認識モデルに入力された合成画像及び当該合成画像と同一又は類似する画像を認識モデルの訓練用データとして決定する。
The
以上のように、情報処理システム100は、訓練用データを用いて認識モデルに学習させることによって、物体の認識精度が向上された認識モデルを構築する。本実施の形態では、認識モデルは、Deep Learning(深層学習)等のニューラルネットワークを用いた機械学習モデルであるが、他の学習モデルであってもよい。例えば、他の学習モデルは、Support Vector Machine、 Boosting、Random Forest、又は、Genetic Programming等を用いた機械学習モデルであってもよい。
As described above, the
以下、図3〜図5を参照して、本実施の形態に係る情報処理システム100において、撮影画像が取得されてから合成画像が生成されるまでの手順の一例を説明する。図3は、画像取得部10で取得された撮影画像を示す図である。図4は、合成位置決定部20で画像上の物体合成位置が決定された撮影画像を示す図である。図5は、合成画像生成部30で物体合成位置に物体を合成することにより生成された合成画像を示す図である。ここでは、GANモデルを用いて物体を物体合成位置に合成する例を説明する。
Hereinafter, with reference to FIG. 3 to FIG. 5, an example of a procedure from acquisition of a captured image to generation of a composite image in the
画像取得部10は、図3に示す撮影画像を取得する。この撮影画像は、例えば、車載カメラで撮影された画像である。
The
次いで、図4に示すように、合成位置決定部20は、撮影画像上に物体を合成する物体合成位置A及び物体合成位置Bを決定する。物体合成位置A及び物体合成位置Bはそれぞれ任意に決定された位置である。GANモデルでは、撮影画像上の物体合成位置A及び物体合成位置Bにノイズを発生させる。
Next, as shown in FIG. 4, the combining
次いで、図5に示すように、合成画像生成部30は、ノイズが発生された物体合成位置A及び物体合成位置Bのそれぞれに、異なるジェネレータを有する画像を合成する。異なるジェネレータを有する画像とは、例えば、性別、年齢、服装、及び姿勢等の異なる人物の画像、自転車等の乗り物を運転する人物の画像、並びに、乗用車等の傍に人物が立っている画像等が挙げられる。これらのジェネレータに基づいて所定の物体合成位置に所定の物体が合成される。例えば、図5に示すように、物体合成位置Aには、歩行者A1が合成され、物体合成位置Bには自転車を運転する人物B1が合成される。
Next, as illustrated in FIG. 5, the combined
なお、GANモデルでは、物体合成位置に合成された物体が人物として認識され得るかを判定し、かつ、物体合成位置に合成された物体が背景に馴染んでいるかを判定する。例えば、合成された物体が人物として認識されると判定されたとしても、当該物体が背景に馴染んでいないと判定された場合は、ジェネレータを調整し、再度、物体合成位置に物体を合成する。これにより、合成画像全体として元の撮影画像に近い自然な画像を得ることができる。 In the GAN model, it is determined whether or not the object synthesized at the object synthesis position can be recognized as a person, and whether the object synthesized at the object synthesis position is familiar with the background. For example, even if it is determined that the synthesized object is recognized as a person, if it is determined that the object is not familiar with the background, the generator is adjusted and the object is synthesized again at the object synthesis position. As a result, a natural image close to the original captured image can be obtained as the entire composite image.
このように、本実施の形態では、撮影画像上の所望の物体合成位置に物体を合成するため、物体合成位置の座標及び物体の種類等を示すアノテーションを、合成画像に付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、本実施の形態では、撮影画像上の所望の物体合成位置に物体を合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル(認識モデルとも呼ぶ)に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。それにより、学習モデルの個々の訓練効率が向上する。例えば、学習モデルの認識精度をより短時間で向上させることができる。 As described above, in the present embodiment, since an object is synthesized at a desired object synthesis position on a captured image, it is not necessary to add an annotation indicating the coordinates of the object synthesis position and the type of the object to the synthesized image. Therefore, the time required for a series of information processing for creating the correct answer data can be reduced. Further, in the present embodiment, in order to synthesize an object at a desired object synthesis position on a captured image, information such as coordinates of the object synthesis position is input to a learning model (also referred to as a recognition model). It can be used as correct answer data. Therefore, by comparing the output data obtained by inputting the synthesized image in which the object is synthesized at the object synthesis position into the learning model with the correct answer data, it is possible to specify the synthesized image with low recognition accuracy in the learning model. . This makes it possible to use the synthesized image or an image similar to the synthesized image as training data of the learning model based on the synthesized image with low recognition accuracy in the learning model. Therefore, the training efficiency of each of the learning models can be improved as compared with the case where all the generated synthetic images are used as training data of the learning model. In other words, if data that is not useful for machine learning is mixed, it is difficult for the processing of machine learning to converge, but according to the present embodiment, data that is useful for machine learning is specified and used as training data. Therefore, the machine learning process is easily converged. Thereby, the efficiency of individual training of the learning model is improved. For example, the recognition accuracy of the learning model can be improved in a shorter time.
また、本実施の形態では、画像が有する人の感覚器により知覚される特徴(ここでは、視覚的特徴)と同一又は類似の特徴(つまり、視覚的特徴)を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された撮影画像である場合は、撮影画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して学習を行った学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。 Further, in the present embodiment, an object having the same or similar feature (that is, visual feature) as a feature (here, visual feature) perceived by a human sensory organ of an image is synthesized at the object synthesis position. Therefore, when the image is a photographed image actually photographed by a camera or the like, a natural composite image close to the photographed image can be obtained. Therefore, the learning model that has performed learning using the composite image as training data can obtain recognition accuracy closer to the recognition accuracy when the captured image is used as training data.
以上のように、情報処理システム100は、画像を取得する画像取得部10と、画像上の物体合成位置を決定する合成位置決定部20と、物体合成位置に、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成する合成画像生成部30と、合成画像を学習モデルに入力することにより得られる学習モデルの出力データを取得する出力データ取得部40と、合成画像に基づいて学習モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも物体合成位置を含む正解データと出力データとを用いて行い、第1の決定を行うと第2の決定において決定された場合、第1の決定を行う決定部50と、を備える。このとき、当該画像が有する視覚的特徴は、当該画像の画像パラメタの統計的特徴である。また、当該画像が有する視覚的特徴は、当該画像の定性的特徴である。
As described above, the
また、本実施の形態に係る情報処理方法は、画像を取得し(S10)、画像上の物体合成位置を決定し(S20)、物体合成位置に、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成し(S30)、合成画像を学習モデルに入力することにより得られる学習モデルの出力データを取得し(S40)、合成画像に基づいて学習モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも物体合成位置を含む正解データと出力データとを用いて行い(S50)、第1の決定を行うと第2の決定において決定された場合、第1の決定を行う(S60)。 Further, the information processing method according to the present embodiment obtains an image (S10), determines an object combining position on the image (S20), and sets the object combining position to be the same as or similar to the visual feature of the image. A synthetic image is generated by synthesizing an object having a visual feature (S30), output data of a learning model obtained by inputting the synthetic image to the learning model is obtained (S40), and learning is performed based on the synthetic image. A second decision to decide whether to make a first decision to decide training data of the model is made by using the correct answer data including at least the object synthesis position and the output data (S50). If the first decision is made in the second decision, the first decision is made (S60).
これにより、画像上の所望の物体合成位置に物体が合成されるため、物体合成位置の座標などの情報を学習モデルの正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。これにより、学習モデルの個々の訓練効率が向上する。例えば、全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間に効率よく向上させることができる。また、本実施の形態では、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された画像である場合は、撮像画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して学習を行った学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。 Accordingly, the object is synthesized at the desired object synthesis position on the image, and thus information such as the coordinates of the object synthesis position can be used as correct data of the learning model. Therefore, by comparing the output data obtained by inputting the synthesized image in which the object is synthesized at the object synthesis position into the learning model with the correct answer data, it is possible to specify the synthesized image with low recognition accuracy in the learning model. . This makes it possible to use the synthesized image or an image similar to the synthesized image as training data of the learning model based on the synthesized image with low recognition accuracy in the learning model. Therefore, the efficiency of individual training of the learning model can be improved. In other words, if data that is not useful for machine learning is mixed, it is difficult for the processing of machine learning to converge, but according to the present embodiment, data that is useful for machine learning is specified and used as training data. Therefore, the machine learning process is easily converged. Thereby, the efficiency of individual training of the learning model is improved. For example, the recognition accuracy of the learning model can be improved more efficiently in a shorter time than when all the synthesized images are used as training data for the learning model. Further, in the present embodiment, in order to synthesize an object having the same or similar visual characteristics as the visual characteristics of the image at the object synthesis position, if the image is an image actually captured by a camera or the like, A natural synthesized image close to the captured image can be obtained. Therefore, the learning model that has performed learning using the composite image as training data can obtain recognition accuracy closer to the recognition accuracy when the captured image is used as training data.
なお、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体とは、例えば、画像の画像パラメタの統計的特徴である画像の色味又はエッジなどが同一又は類似している物体であってもよく、画像の定性的特徴である雨又は雪などの気象条件、気象条件による路面の状態、及びオクルージョンなどが同一又は類似している物体であってもよい。当該物体は、上記特徴を有することにより、画像に馴染みやすいため、物体合成位置に当該物体を合成して生成される合成画像は自然な画像となる。 Note that an object having the same or similar visual feature as an image has, for example, an object having the same or similar color or edge of an image, which is a statistical feature of image parameters of the image. It may be an object having the same or similar weather conditions, such as rain or snow, which are qualitative features of the image, the state of the road surface due to the weather conditions, and occlusion. Since the object has the above characteristics, it is easy to adapt to the image. Therefore, a synthesized image generated by synthesizing the object at the object synthesis position is a natural image.
(変形例1)
[変形例1に係る情報処理システムの構成]
実施の形態の変形例1に係る情報処理システムについて図6を参照して説明する。図6は、変形例1に係る情報処理システム100の構成の一例を示すブロック図である。
(Modification 1)
[Configuration of Information Processing System According to Modification 1]
An information processing system according to a first modification of the embodiment will be described with reference to FIG. FIG. 6 is a block diagram illustrating an example of a configuration of an
なお、実施の形態に係る情報処理システム100において、画像取得部10は、画像を取得する受信部及び画像を撮像する撮像部のいずれであってもよい例を説明したが、変形例1では、画像取得部10は、撮影された画像を受信する受信部である例を説明する。
In the
変形例1に係る情報処理システム100は、撮像部210と、認識部220とを含む認識処理部200と、認識モデル更新部300と、を備える。
The
変形例1に係る情報処理システム100は、撮像部210によって撮影された画像(以下、撮影画像とも呼ぶ)に画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成し、当該合成画像内に合成された物体にアノテーションを付与し、認識モデルを構築するための訓練用データを決定する。さらに、情報処理システム100は、合成画像に基づいて決定した訓練用データを用いて、画像から物体を検出するための認識モデルを構築する。認識モデルの構築には、後述する学習モデルが適用される。訓練用データは、認識モデルが学習するために(言い換えると、認識モデルが機械学習を用いて訓練されるために)使用するデータである。訓練用データは、合成画像と、合成画像内の物体の種別及び動作などの内容、物体の位置及び領域等の情報とを含む。
The
認識処理部200は、認識モデル更新部300が訓練により構築した認識モデルを、認識部220の認識モデル受信部3で受信する。認識モデル受信部3で受信された認識モデルは、認識モデル更新部4に入力されて更新される。認識モデルが更新されると、更新情報提示部5は、認識モデルが更新された旨の通知を提示する。当該通知の提示は、音声であってもよく、画面に画像として表示されてもよい。また、認識部220は、撮像部210で撮影された画像に含まれる物体を認識する。なお、認識処理部200は、物体の認識結果を音声又は画像として出力してユーザに知らせてもよい。
The
以降において、認識処理部200が、移動体、具体的には、自動車等に搭載され、認識モデル更新部300が、自動車から離れた位置にあるサーバに搭載されるとして、説明する。自動車の認識処理部200と、サーバとは、無線通信を介して接続され、例えば、インターネット等の通信網を介して互いに無線通信する。認識処理部200と認識モデル更新部300とは、無線通信を介して、情報を送受信する。上記無線通信には、Wi−Fi(登録商標)(Wireless Fidelity)などの無線LAN(Local Area Network)が適用されてもよく、その他の無線通信が適用されてもよい。サーバは、コンピュータ等の情報処理装置であってもよい。サーバは、1つ以上のサーバを含んでもよく、クラウドシステムを構成してもよい。
Hereinafter, a description will be given on the assumption that the
情報処理システム100は、通信回路等の無線通信装置を備えてもよく、サーバが備える無線通信装置を利用してもよい。認識処理部200は、通信回路等の無線通信装置を備えてもよく、自動車が備える無線通信装置を利用してもよい。なお、認識処理部200と認識モデル更新部300とは、無線通信を介して接続されず、有線通信を介して接続されてもよく、不揮発性メモリ等の記録媒体を介して、互いに情報を授受してもよい。
The
また、自動車に搭載されるコンピュータが処理可能であれば、認識モデル更新部300が自動車に搭載されてもよい。この場合、認識モデル更新部300と認識処理部200とは一体化されてもよい。そして、認識モデル更新部300は、無線通信、有線通信又は記録媒体を介して、自動車の外部と、情報を授受してもよい。
If the computer mounted on the vehicle can process, the recognition
さらに、図6を参照して、変形例1に係る情報処理システム100の認識処理部200及び認識モデル更新部300の詳細な構成を説明する。なお、以降において、認識モデル更新部300が、合成画像を生成するためにGANモデルを使用する例を説明する。
Further, a detailed configuration of the
変形例1に係る情報処理システム100では、認識処理部200は、撮像部210と認識部220とを備える。
In the
撮像部210は、例えば、カメラであり、画像撮像部1と画像送信部2とを備える。撮像部210で撮影された画像は、画像送信部2を介して認識モデル更新部300の画像取得部110に送信される。
The
認識部220は、例えば、撮像部210で撮影された画像に含まれる人物等の物体を認識する。認識部220は、認識モデル受信部3と認識モデル更新部4と更新情報提示部5とを備える。認識モデル受信部3は、認識モデル更新部300で更新された認識モデルを受信して認識モデル更新部4に出力する。認識モデル更新部4は、認識モデル受信部3から出力された認識モデルを格納することにより、認識モデルを更新する。更新情報提示部5は、ディスプレイ及び/又はスピーカで構成されてよく、第1の決定を行うと第2の決定において決定された場合、認識モデルのユーザに通知を行う。例えば、更新情報提示部5は、所定量の訓練用データが訓練用データ保持部160に格納された場合、決定された訓練用データを用いた認識モデルの訓練の要請に関する通知を行う。また、例えば、更新情報提示部5は、訓練部170において、決定された訓練用データを用いた認識モデルの訓練が実行された場合、訓練の完了に関する通知を行う。また、更新情報提示部5は、認識部220に保持された認識モデルが訓練済みの認識モデルに更新されたことをユーザに提示してもよい。さらに、更新情報提示部5は、例えば、更新された認識モデルと更新前の認識モデルとの違い、及び、更新されたことにより得られる効果等の更新情報をユーザに提示してもよい。なお、ディスプレイは、液晶パネル、有機又は無機EL(Electro Luminescence)などの表示パネルで構成されてもよい。
The
認識モデル更新部300は、画像取得部110、サンプリング部112、合成位置設定部120、画像合成部130、検知処理部140、データ利用判定部150、訓練部170、認識モデル送信部180、訓練用データ保持部160及び認識モデル保持部142を備える。
The recognition
画像取得部110は、撮像部210から送信された画像を取得する。画像取得部110は、取得した画像をサンプリング部112に出力する。
The
サンプリング部112は、画像取得部110から出力された画像を受信し、受信した画像の中から、例えば、周期的に画像をサンプリングして、サンプリングした画像を合成位置設定部120に出力する。
The
合成位置設定部120は、実施の形態における合成位置決定部20(図1参照)の一例であり、サンプリング部112でサンプリングされた画像上の物体合成位置を任意に設定する。
The synthesis
画像合成部130は、実施の形態における合成画像生成部30(図1参照)の一例であり、合成位置設定部120で設定された物体合成位置に物体を合成する。このとき、物体の合成方法としては、GANモデルを用いる。なお、GANモデルについては、実施の形態にて説明したため、ここでの説明を省略する。
The
検知処理部140は、実施の形態における出力データ取得部40(図1参照)の一例であり、画像合成部130で合成された合成画像を認識モデル保持部142に出力して得られる認識モデルの出力データを取得する。より具体的には、検知処理部140は、認識モデル保持部142に保持された認識モデルに合成画像を入力することにより得られる認識モデルの出力データを取得する。検知処理部140は、取得した出力データをデータ利用判定部150に出力する。
The
データ利用判定部150は、実施の形態における決定部50(図1参照)の一例であり、少なくとも物体合成位置を含む正解データと出力データとを用いて、合成画像に基づいて認識モデルの訓練用データを決定することである第1の決定を行うか否かの第2の決定を行う。データ利用判定部150は、正解データと出力データとの差分により判定された認識モデルの認識精度が所定の閾値よりも高い場合、第1の決定を行わないとする第2の決定を行う。より具体的には、この場合、データ利用判定部150は、認識モデルに入力された合成画像を、認識モデルによって認識される画像であると判定し、当該合成画像に基づいて認識モデルの訓練用データを決定しないとの第2の決定を行う。データ利用判定部150は、第2の決定に応じて、当該合成画像に基づいて認識モデルの訓練用データを決定しない。
The data use
一方、データ利用判定部150は、認識モデルの認識精度が所定の閾値よりも低い場合、第1の決定を行うとする第2の決定を行う。より具体的には、データ利用判定部150は、認識モデルに入力された合成画像を、認識モデルによって物体が認識されにくい画像であると判定し、当該合成画像に基づいて認識モデルの訓練用データを決定するとの第2の決定を行う。データ利用判定部150は、第2の決定に応じて、当該合成画像を訓練用データとして決定する。また、データ利用判定部150は、当該合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定する。対応画像は、訓練用データ保持部160に格納されている画像から選出されてもよく、生成されてもよい。データ利用判定部150は、訓練用データとして決定された画像を、訓練用データ保持部160に新規訓練用データとして格納する。
On the other hand, when the recognition accuracy of the recognition model is lower than the predetermined threshold, the data use
ここで、合成画像が有する視覚的特徴は、当該合成画像の画像パラメタの統計的特徴である。また、合成画像が有する視覚的特徴は、当該合成画像の定性的特徴である。なお、画像パラメタの統計的特徴及び定性的特徴については、実施の形態に記載の内容と同様であるため、ここでの説明を省略する。 Here, the visual characteristics of the composite image are statistical characteristics of the image parameters of the composite image. Further, the visual characteristics of the composite image are qualitative characteristics of the composite image. Note that the statistical characteristics and qualitative characteristics of the image parameters are the same as those described in the embodiment, and thus description thereof will be omitted.
また、合成画像が有する視覚的特徴は、合成画像における物体の態様であり、対応画像が有する視覚的特徴は、物体が有する属性と同一又は類似の属性を有する対応物体の態様である。例えば、当該態様は、物体の合成画像上における位置である。より具体的には、物体の合成画像上の位置は、物体が占める領域の座標である。また、例えば、当該態様は、物体の姿勢である。 The visual feature of the composite image is the aspect of the object in the composite image, and the visual characteristic of the corresponding image is the aspect of the corresponding object having the same or similar attribute as the attribute of the object. For example, the aspect is a position of the object on the composite image. More specifically, the position of the object on the composite image is the coordinates of the area occupied by the object. Also, for example, the aspect is the posture of the object.
なお、物体が有する属性とは、物体が有する性質であり、例えば、物体の種類、形、色、材質等が挙げられる。より具体的には、物体の種類が人物である場合、性別、体格、年齢、肌の色、服装、持ち物、姿勢、年齢、表情なども物体が有する属性に含まれてもよい。また、物体の種類が自動車である場合、車種、形状、ボディの色、窓ガラスの色なども物体が有する属性に含まれてもよい。 Note that the attribute of an object is a property of the object, such as the type, shape, color, and material of the object. More specifically, when the type of the object is a person, gender, physique, age, skin color, clothing, belongings, posture, age, expression, and the like may be included in the attributes of the object. When the type of the object is an automobile, the attribute of the object may include a vehicle type, a shape, a body color, a window glass color, and the like.
訓練用データ保持部160は、新規訓練用データ、及び、訓練用データとして事前に保持された種々の画像を含む事前保持DB(Data Base)などを格納している。訓練用データ保持部160は、上記のデータの他に、背景の情報、物体の情報、天候などの環境の情報などを格納し、かつ、格納した情報を取り出すことができる。訓練用データ保持部160は、例えば、RAM(Random Access Memory)、フラッシュメモリなどの半導体メモリ、ハードディスクドライブ、又は、SSD(Solid State Drive)等の記憶装置によって実現される。
The training
訓練用データ保持部160は、データ利用判定部150が学習モデルの訓練用データに決定した合成画像に対して、画像上の画像合成位置の情報と、当該合成画像とを対応付けて格納する。また、訓練用データ保持部160は、データ利用判定部150が合成画像に基づいて訓練用データに決定した対応画像に対して、合成画像上に合成された物体に対応する対応物体の対応画像上の位置の情報と、当該対応画像とを対応付けて格納する。
The training
訓練用データ保持部160は、データ利用判定部150が訓練用データとして決定した合成画像と同一又は類似の画像を要求するコマンドをデータ利用判定部150から受信したことに応じて、訓練用データ保持部160に格納された新規訓練用データ及び事前保持DBから所望の画像をデータ利用判定部150に出力する。また、訓練用データ保持部160は、訓練用データを要求するコマンドを訓練部170から受信したことに応じて、訓練用データ保持部160に格納された新規訓練用データ及び事前保持DBから所期の画像を訓練部170に出力する。
The training
認識モデル保持部142は、認識部220が有する認識モデルと同一の認識モデルを格納している。認識モデル保持部142は、画像合成部130で生成された合成画像を認識モデルに入力して得られた出力データを検知処理部140に出力する。認識モデル保持部142は、訓練部170で訓練された認識モデルを取得し、認識モデル保持部142に格納することにより更新する。
The recognition
訓練部170は、データ利用判定部150で決定された訓練用データを用いた認識モデルの訓練を実行する。例えば、訓練部170は、訓練用データ保持部160に所定量の新規訓練用データが格納されると、訓練用データ保持部160から訓練用データを読み出し、それらの訓練用データを訓練部170に格納された認識モデルに入力して認識モデルの訓練を実行する。訓練部170は、機械学習を用いて訓練された認識モデルを認識モデル保持部142及び認識モデル送信部180に出力する。
The
認識モデル送信部180は、訓練部170で訓練された認識モデルを、認識処理部200の認識部220に送信する。認識部220の認識モデル受信部3は、訓練された認識モデルを受信すると、認識モデル更新部4に当該認識モデルを出力する。
The recognition
[変形例1に係る情報処理システムの動作]
変形例1に係る情報処理システム100の動作について、図7を参照して説明する。図7は、変形例1に係る情報処理方法のフローを示すフローチャートである。
[Operation of Information Processing System According to Modification 1]
The operation of the
図7に示すように、変形例1に係る情報処理システム100では、ステップS10において、画像取得部110は、撮像部210で撮影された画像を取得する。画像取得部110は、取得した画像をサンプリング部112に出力する。
As shown in FIG. 7, in the
次いで、ステップS101において、サンプリング部112は、画像取得部110から出力された画像を受信し、受信した画像の中から、例えば、周期的に画像をサンプリングする。サンプリング部112は、サンプリングした画像を合成位置設定部120に出力する。
Next, in step S101, the
次いで、ステップS20において、合成位置設定部120は、サンプリング部112から出力された画像を受信し、受信した画像上の物体合成位置を任意に決定する。合成位置設定部120は、物体合成位置が決定された画像を画像合成部130に出力する。
Next, in step S20, the combining
次いで、ステップS30において、画像合成部130は、物体合成位置に物体を合成して合成画像を生成する。画像合成部130は、例えばGANモデルを用いて、画像上の物体合成位置に物体を合成する。画像合成部130は、生成した合成画像を検知処理部140に出力する。
Next, in step S30, the
次いで、ステップS40において、検知処理部140は、画像合成部130から出力された合成画像を受信し、当該合成画像を認識モデル保持部142に格納されている認識モデルに入力して出力データを取得する。検知処理部140は、取得した出力データをデータ利用判定部150に出力する。
Next, in step S40, the
次いで、ステップS50において、データ利用判定部150は、合成画像の正解データと、合成画像を認識モデルに入力して得られた出力データとを用いて、第1の決定を行うか否かを決定することである第2の決定を行う。なお、第1の決定は、合成画像に基づいて訓練用データを決定することである。第1の決定を行わないと第2の決定において決定された場合(ステップS501でNO)、当該合成画像に基づく訓練用データを決定する情報処理方法のフローを終了する。一方、第1の決定を行うと第2の決定において決定された場合(ステップS501でYES)、ステップS60において、データ利用判定部150は、第1の決定を行う。このとき、データ利用判定部150は、合成画像に基づいて訓練用データを決定する。データ利用判定部150は、当該合成画像を認識モデルの訓練用データとして決定する。また、データ利用判定部150は、当該合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を認識モデルの訓練用データとして決定する。次いで、ステップS601において、データ利用判定部150は、訓練用データとして決定された画像を、訓練用データとして訓練用データ保持部160に格納する。
Next, in step S50, the data use
訓練用データ保持部160に所定量の訓練用データが格納されると、ステップS70において、訓練部170は、決定された訓練用データを用いた認識モデルの訓練を実行する。
When a predetermined amount of training data is stored in the training
次いで、ステップS80において、訓練部170は、機械学習を用いて訓練された認識モデルを認識モデル保持部142及び認識モデル送信部180に出力する。認識モデル保持部142は、訓練部170から出力された訓練済みの認識モデルを格納することにより更新する。また、認識モデル送信部180は、訓練部170から出力された訓練済みの認識モデルを認識処理部200の認識部220に送信する。
Next, in step S80, the
なお、認識モデル送信部180から送信された訓練済みの認識モデルは、認識部220の認識モデル受信部3で受信され、認識モデル更新部4に出力される。認識モデル更新部4は、認識モデル受信部3から受信した訓練済みの認識モデルを格納することにより認識モデルを更新する。また、更新情報提示部5は、認識モデル受信部3において、訓練済みの認識モデルが受信された場合、ユーザに訓練の完了に関する通知を行う。
Note that the trained recognition model transmitted from the recognition
[変形例1の効果等]
上述したような変形例1に係る情報処理システム100及び情報処理方法によれば、実施の形態に記載した効果に加え、以下の効果を有する。
[Effects of Modification Example 1]
According to the
変形例1に係る情報処理方法は、第1の決定では、合成画像を認識モデルの訓練用データとして決定する。 In the information processing method according to the first modification, in the first determination, the synthesized image is determined as the training data of the recognition model.
これにより、学習モデルでの認識精度が低いと判定された合成画像を訓練用データとして使用することができる。そのため、学習モデルでの認識精度が高いデータ、すなわち訓練用データとしては不要なデータを訓練用データとして蓄積することが抑制される。したがって、データを蓄積するためのコストが削減される。言い換えると、学習モデルでの認識精度が低いシーンの画像を重点的に訓練用データとして蓄積することができるため、認識精度の低いシーンに対する効率的な学習が可能となる。そのため、学習モデルの認識精度がより向上される。 Thus, a synthesized image determined to have low recognition accuracy in the learning model can be used as training data. Therefore, accumulation of data with high recognition accuracy in the learning model, that is, data unnecessary as training data, as training data is suppressed. Therefore, the cost for storing data is reduced. In other words, since images of scenes with low recognition accuracy in the learning model can be accumulated as training data, efficient learning can be performed on scenes with low recognition accuracy. Therefore, the recognition accuracy of the learning model is further improved.
また、変形例1に係る情報処理方法は、第1の決定では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を認識モデルの訓練用データとして決定する。このとき、合成画像が有する視覚的特徴は、当該合成画像の画像パラメタの統計的特徴である。また、合成画像が有する視覚的特徴は、当該合成画像の定性的特徴である。 In the information processing method according to the first modification, in the first determination, a corresponding image having the same or similar visual feature as the composite image has is determined as the training data of the recognition model. At this time, the visual characteristics of the composite image are statistical characteristics of the image parameters of the composite image. Further, the visual characteristics of the composite image are qualitative characteristics of the composite image.
このように、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定するため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。なお、対応画像が撮影画像の場合は、合成画像を訓練用データとしたときに比べて学習効果を向上させることができる。また、視覚的特徴が合成画像の画像パラメタの統計的特徴である場合は、統計学的な観点から訓練用データの数及びバリエーションを効率よく増やすことができる。また、視覚的特徴が合成画像の定性的特徴である場合は、定量化しづらい特徴を有する訓練用データの数及びバリエーションを効率よく増やすことができる。 As described above, since the corresponding image having the same or similar visual feature as that of the composite image is determined as training data, an image of a scene with low recognition accuracy in the learning model and a scene similar to the image are used. Can be used as training data. Therefore, the number and variations of training data for a scene with low recognition accuracy can be efficiently increased. When the corresponding image is a photographed image, the learning effect can be improved as compared with the case where the synthetic image is used as training data. When the visual feature is a statistical feature of the image parameters of the composite image, the number and variations of the training data can be efficiently increased from a statistical viewpoint. When the visual features are qualitative features of the composite image, the number and variations of training data having features that are difficult to quantify can be efficiently increased.
また、変形例1に係る情報処理方法では、合成画像が有する視覚的特徴は、当該合成画像における物体の態様であり、対応画像が有する視覚的特徴は、物体が有する属性と同一又は類似の属性を有する対応物体の態様である。この場合、当該態様は、物体の合成画像上における位置である。また、当該態様は、前記物体の姿勢である。
In the information processing method according to
これにより、例えば、合成画像上の物体の位置又は物体の姿勢などの物体の態様の違いにより学習モデルでの物体の認識精度が低いと判定された場合、合成画像に基づいて訓練用データが決定される。そのため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。これにより、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。このような訓練用データを用いて構築される認識モデルは、画像から物体を認識する精度が向上される。 Thereby, for example, when it is determined that the recognition accuracy of the object in the learning model is low due to a difference in the state of the object such as the position of the object or the posture of the object on the synthetic image, the training data is determined based on the synthetic image. Is done. Therefore, an image of a scene with low recognition accuracy in the learning model and an image of a scene similar to the image can be used as training data. This makes it possible to efficiently increase the number and variations of training data for a scene with low recognition accuracy. A recognition model constructed using such training data has improved accuracy in recognizing an object from an image.
また、変形例1に係る情報処理方法では、さらに、第1の決定を行うと第2の決定において決定された場合、認識モデルのユーザに通知を行う。このとき、当該通知は、例えば、決定された訓練用データを用いた認識モデルの訓練の要請に関する通知である。また、変形例1に係る情報処理方法では、さらに、決定された訓練用データを用いた認識モデルの訓練を実行し、当該通知は、訓練の完了に関する通知である。 Further, in the information processing method according to the first modification, when the first determination is made and the second determination is made, the user of the recognition model is notified. At this time, the notification is, for example, a notification regarding a request for training of a recognition model using the determined training data. Further, in the information processing method according to the first modification, the recognition model is further trained using the determined training data, and the notification is a notification regarding the completion of the training.
これにより、合成画像に基づいて学習モデルの訓練用データが決定された場合、学習モデルのユーザに通知が行われるため、ユーザは学習モデルで物体を認識しにくいシーンがあることを把握することができる。また、上記通知が学習モデルの訓練の要請に関する通知である場合、ユーザは、学習モデルの訓練を行うタイミングを決定することができる。また、上記通知が訓練の完了に関する通知である場合、ユーザは、訓練により学習モデルが更新されたことを知ることができる。 With this, when the training data of the learning model is determined based on the synthetic image, the user of the learning model is notified, so that the user can grasp that there is a scene where it is difficult to recognize the object in the learning model. it can. In addition, when the notification is a notification regarding a request for training of a learning model, the user can determine a timing for performing training of the learning model. In addition, when the notification is a notification regarding the completion of the training, the user can know that the learning model has been updated by the training.
(変形例2)
[変形例2に係る情報処理システムの構成]
実施の形態の変形例2に係る情報処理システムについて図8を参照して説明する。図8は、変形例2に係る情報処理システム100の構成の一例を示すブロック図である。
(Modification 2)
[Configuration of Information Processing System According to Modification 2]
An information processing system according to a second modification of the embodiment will be described with reference to FIG. FIG. 8 is a block diagram illustrating an example of a configuration of an
なお、実施の形態の変形例1に係る情報処理システム100において、サンプリング部112は、画像取得部110で取得された画像の中から周期的に画像をサンプリングして合成位置設定部120に出力する例を説明した。変形例2では、サンプリング部112は、さらに、画像取得部110で取得された画像のうち、所定の条件に適合する画像をサンプリングして訓練用データとして訓練用データ保持部160に格納する例を説明する。以下、変形例2に係る情報処理システム100について、変形例1に係る情報処理システム100と異なる点を中心に説明する。
In the
変形例2に係る情報処理システム100では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から選出してもよい。なお、撮影画像の選出は、画像取得部110で取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、訓練用データ保持部160に格納された撮影画像から所望の撮影画像を検索して抽出することであってもよい。サンプリング部112は、画像取得部110で取得された画像の中から周期的に画像をサンプリングして合成位置設定部120に出力する。さらに、サンプリング部112は、画像取得部110で取得された画像のうち、所定の条件に適合する画像をサンプリングして訓練用データとして訓練用データ保持部160に格納する。ここで、所定の条件とは、認識モデルでの物体の認識精度が低いシーンに基づく条件であり、例えば、物体の種類、物体の位置、物体の態様、照光状態、気象条件、気候、建物の配置、道路条件などから構成される。例えば、所定の条件は、データ利用判定部150が合成画像に基づいて訓練用データを決定する、つまり第1の決定を行う、と第2の決定を行った場合、当該合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように構成される。これにより、サンプリング部112は、認識モデルで物体の認識精度の低い画像と同一又は類似の画像を訓練用データとしてサンプリングするように、当該所定の条件を更新する。
In the
データ利用判定部150は、第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように所定の条件を設定し、当該条件をサンプリング部112に出力する。
When making the second decision to make the first decision, the data use determining
また、変形例2に係る情報処理システム100は、類似シーン検索部190を備える点で上記実施の形態及び変形例1に係る情報処理システム100と異なる。類似シーン検索部190は、例えば、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、訓練用データ保持部160に格納された撮影画像から選出する。合成画像が有する視覚的特徴と同一又は類似の視覚的特徴とは、例えば、画像上の物体合成位置、画像の背景、人物の姿勢など合成された物体の態様、画像の色味及びエッジなどの画像パラメタの統計学的特徴、及び、気象条件、路面の濡れ、及び、オクルージョンなどの定性的特徴などである。当該撮影画像は、サンプリング部112により選出されて新規訓練用データとして格納された撮影画像であってもよく、事前保持DBに含まれる撮影画像であってもよい。なお、事前保持DBは、情報処理システムがデフォルトとして保持している様々なシーンの画像を有する。様々なシーンの画像とは、例えば、気候が異なる地域で撮影された画像、天候、路面の状態、風景などの異なる画像、画像上の物体の位置、物体の種類、姿勢などの物体の態様が異なる画像などである。さらに、当該撮影画像は、例えば、画像取得部110が取得した画像を一時的に保持するための記憶部を備える場合、当該記憶部に一時的に保持される画像から選出されてもよい。
The
[変形例2に係る情報処理システムの動作]
変形例2に係る情報処理システム100の動作について、図9を参照して説明する。図9は、変形例2に係る情報処理方法のフローの一例を示すフローチャートである。
[Operation of Information Processing System According to Modification 2]
The operation of the
実施の形態の変形例1に係る情報処理システム100において、サンプリング部112は、画像取得部110が取得した画像から周期的に画像をサンプリングして、当該画像を合成位置設定部120に出力する。実施の形態の変形例2に係る情報処理システム100では、サンプリング部112は上記動作に加え、画像取得部110が取得した画像のうち、所定の条件に適合する画像をサンプリングし、当該画像を訓練用データとして訓練用データ保持部160に格納する。類似シーン検索部190は、訓練用データ保持部160に新規訓練用データとして格納されている撮影画像、及び、事前保持DBに格納されている撮影画像から、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を選出する。変形例2に係る情報処理システム100では、これらの撮影画像を含む画像群を訓練用データとして使用して、認識モデルを構築する。以下、変形例2について、実施の形態及び変形例1と異なる点を中心に説明する。
In the
具体的には、ステップS101において、サンプリング部112は、変形例1におけるステップS101と同様の動作に加え、所定の条件に適合する画像を、ステップS10において取得された画像からサンプリングして、当該画像を訓練用データ保持部160に格納する。次いで、情報処理システム100は、ステップS20〜S60までの動作を、実施の形態及び変形例1と同様に行う。図示していないが、変形例2では、データ利用判定部150は、第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように所定の条件を設定し、当該条件をサンプリング部112に出力する。当該条件をサンプリング部112が受信すると、サンプリング部112は、所定の条件をサンプリング部112に格納することにより更新する。
Specifically, in step S101, the
次いで、ステップS602において、類似シーン検索部190は、第1の決定を行うとの第2の決定が実行された場合の合成画像と同一又は類似の画像を、対応画像として、訓練用データ保持部160に格納されている撮影画像から検索し、所望の撮影画像を訓練用データとして選出する。次いで、情報処理システム100は、ステップS70及びS80の動作を、変形例1と同様に行う。
Next, in step S602, the similar scene search unit 190 sets, as a corresponding image, an image that is the same as or similar to the synthesized image when the second determination for performing the first determination is performed, as the corresponding image, A search is performed from the captured images stored in 160, and a desired captured image is selected as training data. Next, the
[変形例2の効果等]
上述したような変形例2に係る情報処理システム100及び情報処理方法によれば、実施の形態及び変形例1に記載の効果に加え、以下の効果を有する。
[Effects of Modification Example 2]
According to the
変形例2に係る情報処理方法では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から選出する。なお、撮影画像の選出は、画像取得部110で取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、訓練用データ保持部160などのメモリ及びデータベース等に格納された撮影画像から所望の撮影画像を検索して抽出することであってもよい。
In the information processing method according to the second modification, an image having the same or similar visual feature as the composite image is selected as a corresponding image from a captured image different from the composite image. The selection of the photographed image may be performed by sampling the image based on predetermined conditions from the images acquired by the
これにより、撮影画像を訓練用データとして使用することができる。そのため、合成画像を訓練用データとして使用する場合に比べて、より高い学習効果が得られる。なお、撮影画像の選出は、画像が取得される度に所定の条件に基づいて記録するか否かを判定することであってもよく、取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、メモリ又はデータベース等に格納された撮影画像から所定の条件を満たす撮影画像を検索して抽出することであってもよい。 Thus, the captured image can be used as training data. Therefore, a higher learning effect can be obtained as compared with the case where the synthesized image is used as training data. Note that the selection of the captured image may be to determine whether or not to record the image based on a predetermined condition each time the image is acquired, and to select an image based on a predetermined condition from the acquired images. May be sampled, or a captured image satisfying a predetermined condition may be searched for and extracted from a captured image stored in a memory or a database.
(変形例3)
[変形例3に係る情報処理システムの構成]
実施の形態の変形例3に係る情報処理システムについて図10を参照して説明する。図10は、変形例3に係る情報処理システム100の構成の一例を示すブロック図である。
(Modification 3)
[Configuration of Information Processing System According to Modification 3]
An information processing system according to
なお、実施の形態の変形例2に係る情報処理システム100は、類似シーン検索部190を備える。類似シーン検索部190は、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像と同一又は類似の画像を、訓練用データ保持部160に格納されている撮影画像から検索し、所望の撮影画像を訓練用データとして選出する。変形例3に係る情報処理システム100は、類似シーン検索部190を備えず、類似シーン加工部192を備える。以下、変形例3に係る情報処理システムについて、変形例2に係る情報処理システム100と異なる点を中心に説明する。
The
変形例3に係る情報処理システム100では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から生成してもよい。
In the
類似シーン加工部192は、例えば、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、訓練用データ保持部160に格納された撮影画像から生成する。
For example, when the data use
[変形例3に係る情報処理システムの動作]
変形例3に係る情報処理システム100の動作について、図11を参照して説明する。図11は、変形例3に係る情報処理方法のフローの一例を示すフローチャートである。
[Operation of Information Processing System According to Modification 3]
The operation of the
実施の形態の変形例2に係る情報処理システムにおいて、類似シーン検索部190は、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像、つまり、合成画像に類似する画像を、訓練用データ保持部160に格納された撮影画像から選出する。実施の形態の変形例3に係る情報処理システムにおいて、類似シーン加工部192は、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像、つまり、合成画像に類似する画像を、訓練用データ保持部160に格納された撮影画像から生成する。以下、変形例3について、実施の形態、並びに、変形例1及び変形例2と異なる点を中心に説明する。
In the information processing system according to the second modification of the embodiment, when the similar scene search unit 190 makes a second determination that the data use
具体的には、ステップS603において、類似シーンの撮影画像、つまり、第1の決定を行うとの第2の決定が実行された場合の合成画像に類似するシーンの画像を、対応画像として、当該合成画像とは異なる、訓練用データ保持部160に格納された撮影画像を加工して生成する。
Specifically, in step S603, the captured image of the similar scene, that is, the image of the scene similar to the composite image in the case where the second determination of performing the first determination is executed is set as the corresponding image. The captured image stored in the training
[変形例3の効果等]
上述したような変形例3に係る情報処理システム100及び情報処理方法によれば、実施の形態及び変形例1に記載の効果に加え、以下の効果を有する。
[Effects of
According to the
変形例3に係る情報処理方法では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から生成する。
In the information processing method according to
これにより、対応画像を撮影画像から生成することができる。具体的には、認識モデルでの物体の認識精度が低いシーンの画像及び当該シーンに類似する画像を撮影画像から生成することができる。これにより、撮影画像をそのまま対応画像として使用できない場合であっても対応画像を生成することができるため、訓練用データの数及びバリエーションを容易に増やすことができる。 Thereby, the corresponding image can be generated from the captured image. Specifically, an image of a scene with low recognition accuracy of an object in the recognition model and an image similar to the scene can be generated from the captured image. Accordingly, the corresponding image can be generated even when the captured image cannot be used as the corresponding image as it is, so that the number and variations of the training data can be easily increased.
[その他の変形例]
以上のように、本出願において開示する技術の例示として、実施の形態及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態の変形例又は他の実施の形態にも適用可能である。また、実施の形態及び変形例で説明する各構成要素を組み合わせて、新たな実施の形態又は変形例とすることも可能である。
[Other Modifications]
As described above, the embodiments and the modifications have been described as examples of the technology disclosed in the present application. However, the technology according to the present disclosure is not limited to these, and can be applied to a modification of the embodiment in which change, replacement, addition, omission, and the like are appropriately made or other embodiments. Further, it is also possible to combine the components described in the embodiment and the modified example to form a new embodiment or a modified example.
実施の形態及び変形例に係る情報処理システム100は、自動車に適用されるとした。情報処理システムは、センシングデータから認識対象を認識するシステムであれば、いかなるシステムに適用されてもよい。例えば、情報処理システムは、住居又はオフィスなどの建物における人の行動又は状態を観測するシステムに適用されてもよい。この場合、認識処理部200はカメラ等のセンサモジュールに搭載され、認識モデル更新部300は、センサモジュールに搭載されてもよく、サーバ等のセンサモジュールと分離した装置に搭載されてもよい。
The
また、上記実施の形態においては処理の対象が画像である例を説明したが、処理の対象は画像以外のセンシングデータであってもよい。例えば、マイクロフォンから出力される音声データ、LiDAR等のレーダから出力される点群データ、圧力センサから出力される圧力データ、温度センサ又は湿度センサから出力される温度データ又は湿度データ、香りセンサから出力される香りデータなどの正解データが取得可能なセンシングデータであれば、処理の対象とされてよい。例えば、センシングデータが音声データである場合は、音声データの要素は、周波数及び振幅などであり、音声データの要素の統計的特徴は、周波数帯及び音圧などであり、音声データの定性的特徴は、騒音及び背景音などである。 Further, in the above-described embodiment, an example has been described in which the processing target is an image, but the processing target may be sensing data other than an image. For example, audio data output from a microphone, point cloud data output from a radar such as LiDAR, pressure data output from a pressure sensor, temperature data or humidity data output from a temperature sensor or humidity sensor, output from a scent sensor If it is sensing data from which correct answer data such as scent data to be obtained can be obtained, the sensing data may be set as a processing target. For example, when the sensing data is audio data, the elements of the audio data are frequencies and amplitudes, and the statistical characteristics of the elements of the audio data are frequency bands and sound pressures. Are noise and background sound.
なお、本開示の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD−ROM等の不揮発性の記録媒体を含む。 It should be noted that the general or specific aspects of the present disclosure may be realized by a recording medium such as a system, an apparatus, a method, an integrated circuit, a computer program, or a computer-readable recording disk. The present invention may be realized by an arbitrary combination of a circuit, a computer program, and a recording medium. The computer-readable recording medium includes, for example, a non-volatile recording medium such as a CD-ROM.
例えば、実施の形態及び変形例に係る情報処理システム100に含まれる各構成要素は典型的には集積回路であるLSI(大規模集積回路、Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
For example, each component included in the
なお、実施の形態及び変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。 In the embodiments and the modifications, each component may be configured by dedicated hardware, or may be realized by executing a software program suitable for each component. Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
また、上記構成要素の一部又は全部は、脱着可能なIC(Integrated Circuit)カード又は単体のモジュールから構成されてもよい。ICカード又はモジュールは、マイクロプロセッサ、ROM、RAM等から構成されるコンピュータシステムである。ICカード又はモジュールは、上記のLSI又はシステムLSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカード又はモジュールは、その機能を達成する。これらICカード及びモジュールは、耐タンパ性を有するとしてもよい。 In addition, a part or all of the above components may be configured by a removable IC (Integrated Circuit) card or a single module. The IC card or module is a computer system including a microprocessor, a ROM, a RAM, and the like. The IC card or module may include the above-described LSI or system LSI. The IC card or module achieves its functions by the microprocessor operating according to the computer program. These IC cards and modules may have tamper resistance.
なお、上記方法は、MPU、CPU、プロセッサ、LSIなどの回路、ICカード又は単体のモジュール等によって、実現されてもよい。 The above method may be realized by an MPU, a CPU, a processor, a circuit such as an LSI, an IC card, a single module, or the like.
また、本開示の技術は、ソフトウェアプログラム又はソフトウェアプログラムからなるデジタル信号によって実現されてもよく、プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。 Further, the technology of the present disclosure may be realized by a software program or a digital signal including the software program, or may be a non-temporary computer-readable recording medium on which the program is recorded.
なお、上記プログラム及び上記プログラムからなるデジタル信号は、コンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、SSD、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray(登録商標) Disc)、半導体メモリ等に記録したものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、記録媒体に記録して移送されることにより、又はネットワーク等を経由して移送されることにより、独立した他のコンピュータシステムにより実施されてもよい。 Note that the program and a digital signal including the program are stored in a computer-readable recording medium such as a flexible disk, a hard disk, an SSD, a CD-ROM, an MO, a DVD, a DVD-ROM, a DVD-RAM, and a BD (Blu-ray). (Registered trademark) Disc), or may be recorded on a semiconductor memory or the like. The program and the digital signal composed of the program may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like. Further, the program and a digital signal composed of the program may be implemented by another independent computer system by being recorded on a recording medium and transferred, or transferred via a network or the like. .
また、上記で用いた序数、数量等の数字は、全て本開示の技術を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。また、構成要素間の接続関係は、本開示の技術を具体的に説明するために例示するものであり、本開示の機能を実現する接続関係はこれに限定されない。 Further, the numbers such as ordinal numbers and quantities used above are merely examples for specifically explaining the technology of the present disclosure, and the present disclosure is not limited to the illustrated numbers. In addition, the connection relation between the components is illustrated for specifically describing the technology of the present disclosure, and the connection relation that realizes the function of the present disclosure is not limited thereto.
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを1つの機能ブロックとして実現したり、1つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。 The division of functional blocks in the block diagram is merely an example, and a plurality of functional blocks can be implemented as one functional block, one functional block can be divided into a plurality of functional blocks, and some functions can be transferred to other functional blocks. You may. Also, the functions of a plurality of functional blocks having similar functions may be processed by a single piece of hardware or software in parallel or time division.
本開示は、学習モデルの個々の訓練効率を向上させることができるため、例えば、自動運転システム、交通管理システム、防犯システム、及び、製造管理システム等の技術に利用可能である。 INDUSTRIAL APPLICABILITY The present disclosure can improve the efficiency of individual training of a learning model, and thus can be used for technologies such as an automatic driving system, a traffic management system, a security system, and a manufacturing management system.
1 画像撮像部
2 画像送信部
3 認識モデル受信部
4 認識モデル更新部
5 更新情報提示部
10 画像取得部
20 合成位置決定部
30 合成画像生成部
40 出力データ取得部
50 決定部
100 情報処理システム
110 画像取得部
112 サンプリング部
120 合成位置設定部
130 画像合成部
140 検知処理部
142 認識モデル保持部
150 データ利用判定部
160 訓練用データ保持部
170 訓練部
180 認識モデル送信部
190 類似シーン検索部
192 類似シーン加工部
200 認識処理部
210 撮像部
220 認識部
300 認識モデル更新部
DESCRIPTION OF
Claims (18)
センシングデータを取得し、
前記センシングデータ上の認識対象データを合成する合成部分を決定し、
前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、
前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、
前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、
前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う、
情報処理方法。 Using a computer,
Get sensing data,
Determine a combining portion for combining the recognition target data on the sensing data,
In the synthesis portion, to generate recognition data by synthesizing recognition target data having the same or similar characteristics as the characteristics perceived by the human sensory organ of the sensing data,
The synthesized data is input to a model trained using machine learning to recognize a recognition target to obtain recognition result data,
Determining the training data of the model based on the combined data, determining whether to make a first decision or not, a second decision to determine whether or not to make a first decision; Using data and
If the first decision is made and the second decision is made, the first decision is made;
Information processing method.
請求項1に記載の情報処理方法。 The feature that the sensing data has is a statistical feature of an element of the sensing data,
The information processing method according to claim 1.
請求項1に記載の情報処理方法。 The feature of the sensing data is a qualitative feature of the sensing data,
The information processing method according to claim 1.
請求項1〜3のいずれか一項に記載の情報処理方法。 In the first determination, the synthesized data is determined as training data for the model.
The information processing method according to claim 1.
請求項1〜3のいずれか一項に記載の情報処理方法。 In the first determination, corresponding data having the same or similar feature as the feature of the composite data is determined as training data of the model,
The information processing method according to claim 1.
請求項5に記載の情報処理方法。 The feature of the combined data is a statistical feature of an element of the combined data,
The information processing method according to claim 5.
請求項5に記載の情報処理方法。 The feature of the combined data is a qualitative feature of the combined data,
The information processing method according to claim 5.
前記認識対象は、物体であり、
前記合成部分は、前記画像上の物体データを合成する物体合成位置であり、
前記合成データは、前記物体合成位置に、前記画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して生成される合成画像であり、
前記認識結果データは、前記合成画像を前記モデルに入力して取得される物体認識結果データであり、
前記第1の決定は、前記合成画像に基づいて前記モデルの訓練用データを決定することであり、
前記第2の決定は、少なくとも前記物体合成位置を含む正解データと前記物体認識結果データとを用いて行われる、
請求項1〜7のいずれか一項に記載の情報処理方法。 The sensing data is an image,
The recognition target is an object,
The combining part is an object combining position for combining the object data on the image,
The synthesized data is a synthesized image generated by synthesizing the object data having the same or similar visual feature as the visual feature of the image at the object synthesis position,
The recognition result data is object recognition result data obtained by inputting the composite image to the model,
The first determination is to determine training data of the model based on the composite image,
The second determination is performed using correct data including at least the object synthesis position and the object recognition result data,
The information processing method according to claim 1.
前記合成画像が有する視覚的特徴は、前記合成画像における前記物体の態様であり、
前記対応画像が有する視覚的特徴は、前記物体が有する属性と同一又は類似の属性を有する対応物体の態様である、
請求項8に記載の情報処理方法。 The first determination is to determine a corresponding image having the same or similar visual feature as the visual feature of the composite image as training data of the model,
The visual feature of the composite image is an aspect of the object in the composite image,
The visual feature of the corresponding image is an aspect of the corresponding object having the same or similar attribute as the attribute of the object,
An information processing method according to claim 8.
請求項9に記載の情報処理方法。 The aspect is a position of the object on the composite image,
The information processing method according to claim 9.
請求項9に記載の情報処理方法。 The aspect is a posture of the object,
The information processing method according to claim 9.
請求項8〜11のいずれか一項に記載の情報処理方法。 The combining portion further includes a size of object data to be combined on the image,
The information processing method according to claim 8.
請求項5〜7のいずれか一項に記載の情報処理方法。 Data having the same or similar feature as the feature of the combined data is selected or generated as the corresponding data from sensing data different from the combined data,
The information processing method according to claim 5.
請求項1〜13のいずれか一項に記載の情報処理方法。 Synthesizing the recognition target data with the synthesizing part using a GAN (Generative Adversary Network) model;
The information processing method according to claim 1.
請求項1〜14のいずれか一項に記載の情報処理方法。 Further, when the first decision is made and the decision is made in the second decision, the user of the model is notified,
The information processing method according to claim 1.
前記通知は、前記訓練の完了に関する通知である、
請求項15に記載の情報処理方法。 Further, performing the training of the model using the determined training data,
The notification is a notification regarding completion of the training,
The information processing method according to claim 15.
請求項15に記載の情報処理方法。 The notification is a notification regarding a request for training the model using the determined training data,
The information processing method according to claim 15.
前記センシングデータ上の認識対象データを合成する合成部分を決定する第1決定部と、
前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部と、
前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得する第2取得部と、
前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う第2決定部と、
を備える、
情報処理システム。 A first acquisition unit for acquiring sensing data;
A first determination unit that determines a combining part that combines recognition target data on the sensing data;
A generation unit that generates synthesis data by synthesizing recognition target data having the same or similar characteristics as characteristics perceived by a human sensory organ of the sensing data, in the synthesis unit,
A second acquisition unit that inputs the synthesized data to a model trained using machine learning to recognize a recognition target and obtains recognition result data;
Determining the training data of the model based on the combined data, determining whether to make a first decision or not, a second decision to determine whether or not to make a first decision; And a second determining unit that performs the first determination when the first determination is performed when the first determination is performed using the data.
Comprising,
Information processing system.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19191911.7A EP3624008A1 (en) | 2018-08-29 | 2019-08-15 | Information processing method and information processing system |
US16/543,022 US11893082B2 (en) | 2018-08-29 | 2019-08-16 | Information processing method and information processing system |
CN201910768238.1A CN110874641A (en) | 2018-08-29 | 2019-08-20 | Information processing method and information processing system |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018159833 | 2018-08-29 | ||
JP2018159833 | 2018-08-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020038605A true JP2020038605A (en) | 2020-03-12 |
JP7257227B2 JP7257227B2 (en) | 2023-04-13 |
Family
ID=69738091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019075031A Active JP7257227B2 (en) | 2018-08-29 | 2019-04-10 | Information processing method and information processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7257227B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004213567A (en) * | 2003-01-08 | 2004-07-29 | Ntt Docomo Inc | Image learning device and its learning method |
JP2016143354A (en) * | 2015-02-04 | 2016-08-08 | エヌ・ティ・ティ・コムウェア株式会社 | Learning device, learning method and program |
JP2017045441A (en) * | 2015-08-28 | 2017-03-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Image generation method and image generation system |
WO2017145960A1 (en) * | 2016-02-24 | 2017-08-31 | 日本電気株式会社 | Learning device, learning method, and recording medium |
US20180189951A1 (en) * | 2017-01-04 | 2018-07-05 | Cisco Technology, Inc. | Automated generation of pre-labeled training data |
WO2020195015A1 (en) * | 2019-03-27 | 2020-10-01 | 日本電気株式会社 | Image processing device, image processing method, and non-transitory computer readable medium having program stored thereon |
-
2019
- 2019-04-10 JP JP2019075031A patent/JP7257227B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004213567A (en) * | 2003-01-08 | 2004-07-29 | Ntt Docomo Inc | Image learning device and its learning method |
JP2016143354A (en) * | 2015-02-04 | 2016-08-08 | エヌ・ティ・ティ・コムウェア株式会社 | Learning device, learning method and program |
JP2017045441A (en) * | 2015-08-28 | 2017-03-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Image generation method and image generation system |
WO2017145960A1 (en) * | 2016-02-24 | 2017-08-31 | 日本電気株式会社 | Learning device, learning method, and recording medium |
US20180189951A1 (en) * | 2017-01-04 | 2018-07-05 | Cisco Technology, Inc. | Automated generation of pre-labeled training data |
WO2020195015A1 (en) * | 2019-03-27 | 2020-10-01 | 日本電気株式会社 | Image processing device, image processing method, and non-transitory computer readable medium having program stored thereon |
Non-Patent Citations (1)
Title |
---|
秋本直郁、外3名: "大域的整合性を考慮したカラー調整と画像補完による自然な画像合成", 情報処理学会研究報告, vol. Vol.2018-CVIM-212 No.8, JPN6022049802, 10 May 2018 (2018-05-10), ISSN: 0004931347 * |
Also Published As
Publication number | Publication date |
---|---|
JP7257227B2 (en) | 2023-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5965468B2 (en) | Reality expansion method, client device, and server | |
US11893082B2 (en) | Information processing method and information processing system | |
CN107105310B (en) | Human image replacing method and device in video live broadcast and recording and broadcasting system | |
JP6056853B2 (en) | Electronics | |
JP2017059207A (en) | Image recognition method | |
TWI695641B (en) | Positioning a terminal device based on deep learning | |
CN111901626A (en) | Background audio determining method, video editing method, device and computer equipment | |
CN108765268A (en) | A kind of auxiliary cosmetic method, device and smart mirror | |
RU2016118885A (en) | Method and device for video playback | |
CN112348764A (en) | Electronic device and operation method thereof | |
CN109472764A (en) | Method, apparatus, equipment and the medium of image synthesis and the training of image synthetic model | |
CN110889421A (en) | Target detection method and device | |
JP7055769B2 (en) | Data generator, data generation method and program | |
CN110648309B (en) | Method and related equipment for generating anti-network synthesized erythrocyte image based on condition | |
WO2022218185A1 (en) | Method for plant disease diagnosis and plant disease diagnosis system | |
CN107977391A (en) | Paint this recognition methods, device, system and electronic equipment | |
JPWO2019193781A1 (en) | Emotion estimation device, emotion estimation method and program | |
US11720321B2 (en) | Vehicle and control method thereof | |
CN111399798A (en) | Vehicle-mounted voice assistant personalized realization method, system, medium and vehicle-mounted equipment | |
US20190289360A1 (en) | Display apparatus and control method thereof | |
JP7257227B2 (en) | Information processing method and information processing system | |
US9817471B2 (en) | Method for adding information and server apparatus | |
CN111126493A (en) | Deep learning model training method and device, electronic equipment and storage medium | |
JP6214073B2 (en) | Generating device, generating method, and generating program | |
KR101720685B1 (en) | Apparatus and Method for Web Data based Identification System for Object Identification Performance Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7257227 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |