JP2019159539A - Metadata evaluation device, metadata evaluation method, and metadata evaluation program - Google Patents
Metadata evaluation device, metadata evaluation method, and metadata evaluation program Download PDFInfo
- Publication number
- JP2019159539A JP2019159539A JP2018042765A JP2018042765A JP2019159539A JP 2019159539 A JP2019159539 A JP 2019159539A JP 2018042765 A JP2018042765 A JP 2018042765A JP 2018042765 A JP2018042765 A JP 2018042765A JP 2019159539 A JP2019159539 A JP 2019159539A
- Authority
- JP
- Japan
- Prior art keywords
- data set
- metadata
- evaluation
- data
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 107
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000003860 storage Methods 0.000 description 63
- 238000000034 method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 238000011157 data evaluation Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Abstract
Description
この発明は、データに付加されているメタデータに含まれる属性の項目について有効性を評価する技術に関する。 The present invention relates to a technique for evaluating the effectiveness of an attribute item included in metadata added to data.
従来、様々な分野において、収集したデータ(データセット)の利活用についての検討がなされている。データの利活用においては、データ本体に付加されているメタデータが利用されている。メタデータは、データ本体の属性を示すデータである。例えば、センサによりセンシングされたセンシングデータのメタデータが特許文献1に示されている。また、メタデータを利用して、データセットのランク付けを行う技術が、特許文献2に記載されている。
Conventionally, utilization of collected data (data sets) has been studied in various fields. In utilizing data, metadata added to the data body is used. The metadata is data indicating attributes of the data body. For example, Patent Document 1 discloses metadata of sensing data sensed by a sensor.
しかしながら、メタデータに含まれる属性の項目には、データセットを性質の異なるデータセットに分割する項目もあれば、データセットを性質の類似するデータ群に分割する項目もある。ここで言うデータ群の性質とは、事象の種類、事象の発生頻度、事象の発生傾向等である。したがって、データセットを分割するという観点においては、データセットを性質の類似するデータ群に分割する属性の項目は有効性が低いと言われている。 However, some of the attribute items included in the metadata include an item for dividing the data set into data sets having different properties, and an item for dividing the data set into data groups having similar properties. The properties of the data group mentioned here include the type of event, the frequency of occurrence of the event, the tendency of occurrence of the event, and the like. Therefore, in terms of dividing the data set, it is said that the attribute item that divides the data set into data groups having similar properties is low in effectiveness.
また、メタデータに含まれる属性の項目が多くなるにつれて、データの容量が大きくなる。したがって、データセットを分割するという観点においては、データセットを性質の類似するデータ群に分割するメタデータの属性の項目が、データセットのデータ容量を無駄に大きくするものであった。 Further, as the number of attribute items included in the metadata increases, the data capacity increases. Therefore, from the viewpoint of dividing the data set, the metadata attribute item that divides the data set into data groups having similar properties unnecessarily increases the data capacity of the data set.
この発明の目的は、メタデータに含まれる属性の項目について、データセットを分割するという観点での有効性を評価する技術を提供することにある。 An object of the present invention is to provide a technique for evaluating the effectiveness in terms of dividing a data set with respect to attribute items included in metadata.
この発明のメタデータ評価装置は、上記目的を達成するため以下に示すように構成している。 The metadata evaluation apparatus according to the present invention is configured as follows to achieve the above object.
属性受付部が、元データセットに属するデータに付加されているメタデータに含まれる属性の項目についての指定を受け付ける。データセット生成部が、属性受付部で受け付けた属性の項目で、元データセットを分割して複数の分割データセットを生成する。特徴抽出部が、複数の分割データセット毎に、その分割データセットに属するデータ群の性質の特徴を抽出する。そして、評価部が、2つの分割データセットの組み合わせ毎に、その組み合わせにおけるデータ群の性質の特徴に基づく部分評価を取得し、さらに各組み合わせの部分評価に基づいて、属性受付部で受け付けたメタデータにかかる属性の項目について評価する。 The attribute accepting unit accepts designation of an attribute item included in metadata added to data belonging to the original data set. The data set generation unit divides the original data set and generates a plurality of divided data sets based on the attribute items received by the attribute reception unit. The feature extraction unit extracts, for each of a plurality of divided data sets, characteristics of the characteristics of the data group belonging to the divided data set. Then, for each combination of two divided data sets, the evaluation unit acquires a partial evaluation based on the characteristics of the characteristics of the data group in the combination, and further receives the meta data received by the attribute reception unit based on the partial evaluation of each combination. Evaluate attribute items related to data.
この構成では、評価部は、2つの分割データセットの組み合わせ毎に、データ群の性質がどの程度類似しているかを示す部分評価を取得する。データ群の性質とは、事象の種類、事象の発生頻度、事象の発生傾向等である。メタデータに含まれる属性の項目が、元データセットを性質の異なるデータセットに分割する項目である場合、2つの分割データセットの組み合わせにおいて、データ群の性質が類似しない。一方、メタデータに含まれる属性の項目が、元データセットを性質の異なるデータセットに分割する項目でない場合、2つの分割データセットの組み合わせにおいて、データ群の性質が類似する。 In this configuration, the evaluation unit acquires a partial evaluation indicating how similar the properties of the data group are for each combination of two divided data sets. The properties of the data group include the type of event, the frequency of occurrence of events, the tendency of occurrence of events, and the like. When the attribute item included in the metadata is an item for dividing the original data set into data sets having different properties, the properties of the data groups are not similar in the combination of the two divided data sets. On the other hand, if the attribute item included in the metadata is not an item for dividing the original data set into data sets having different properties, the properties of the data groups are similar in the combination of the two divided data sets.
したがって、評価部は、元データセットを性質の異なるデータセットに分割する観点で、属性受付部で受け付けたメタデータにかかる属性の項目の有効性を評価できる。言い換えれば、評価部は、元データセットを性質の異なるデータセットに分割しない観点においても、属性受付部で受け付けたメタデータにかかる属性の項目の有効性を評価できる。 Therefore, the evaluation unit can evaluate the validity of the attribute item relating to the metadata received by the attribute reception unit from the viewpoint of dividing the original data set into data sets having different properties. In other words, the evaluation unit can also evaluate the validity of the attribute item relating to the metadata received by the attribute reception unit, from the viewpoint of not dividing the original data set into data sets having different properties.
また、評価部は、2つの分割データセットの組み合わせ毎に、その組み合わせにおけるデータ群の性質の特徴の類似性に基づいて部分評価を取得する構成にしてもよい。 Further, the evaluation unit may be configured to acquire a partial evaluation for each combination of two divided data sets based on the similarity of the characteristics of the characteristics of the data group in the combination.
また、特徴抽出部は、分割データセットに属するデータ群の性質の特徴として、当該データ群の尤度関数を抽出する構成にしてもよい。 Further, the feature extraction unit may be configured to extract a likelihood function of the data group as a characteristic feature of the data group belonging to the divided data set.
この発明によれば、メタデータに含まれる属性の項目について、データセットを分割するという観点での有効性を評価することができる。 According to the present invention, it is possible to evaluate the effectiveness in terms of dividing the data set with respect to the attribute item included in the metadata.
以下、この発明の実施形態について説明する。 Embodiments of the present invention will be described below.
<1.適用例>
図1は、この発明にかかるメタデータ評価装置を適用した1例のメタデータ評価システムを示す概略図である。この例にかかるメタデータ評価システムは、メタデータ評価装置1と、元データセット記憶データベース2(元データセット記憶DB2)と、分割データセット記憶部3とを備えている。分割データセット記憶部3には、複数のデータベースが設けられている。図1では、分割データセット記憶部3に設けられている、第1データセット記憶データベース3a(第1データセット記憶DB3a)、および第2データセット記憶データベース3b(第2データセット記憶DB3b)のみ示している。
<1. Application example>
FIG. 1 is a schematic diagram showing an example of a metadata evaluation system to which the metadata evaluation apparatus according to the present invention is applied. The metadata evaluation system according to this example includes a metadata evaluation device 1, an original data set storage database 2 (original data set storage DB 2), and a divided data
元データセット記憶DB4には、元データセットが記憶される。元データセットは、収集したデータ群である。データは、データ本体と、データ本体の属性を示すメタデータによって構成されている。データ本体は、例えばN次元の実数ベクトルにかかるデータ、N次元の実数の時系列ベクトルにかかるデータ等である。具体的に説明すると、データは、例えばデータ本体が顔画像データであり、メタデータが示す属性の項目が性別、年齢、国籍、撮影日時、撮影に使用したカメラ等である(この場合、元データセットは様々な年齢の男女の顔画像データの集まりである。)。また、データは、例えばデータ本体が車両の画像データであり、メタデータが示す属性の項目が車種、撮影場所、撮影日時、撮像に使用したカメラ等である(この場合、元データセットは、2輪車、軽自動車、普通自動車、トラック、バス等の様々な車種の車両の画像データの集まりである。)。また、データは、例えばデータ本体が音声データであり、メタデータが示す属性の項目が性別、年齢、国籍、録音日時、録音に使用したマイク等の項目である(この場合、元データセットは、様々な年齢の男女の発声にかかる音声データの集まりである。)。
The original data set is stored in the original data
メタデータ評価装置1は、メタデータの属性の項目についての指定を受け付け、受け付けた属性の項目で、元データセット記憶DB2に記憶している元データセットを分割して複数の分割データセットを生成する。分割データセットは、元データセットの一部のデータ群である。メタデータ評価装置1は、元データセット記憶DB2に記憶している元データセットを分割した分割データセットを、分割データセット記憶部3に区別して記憶する。具体的には、メタデータ評価装置1は、元データセット記憶DB2に記憶している元データセットを2つの分割データセットに分割した場合、一方の分割データセットを第1データセット記憶DB3aに記憶させ、他方の分割データセットを第2データセット記憶DB3bに記憶させる。また、メタデータ評価装置1は、元データセット記憶DB2に記憶している元データセットを3つの分割データセットに分割した場合、一つ目の分割データセットを第1データセット記憶DB3aに記憶させ、2つ目の分割データセットを第2データセット記憶DB3bに記憶させ、さらに3つ目の分割データセットを第3データセット記憶DB(不図示)に記憶させる。
The metadata evaluation apparatus 1 accepts designation of metadata attribute items, and generates a plurality of divided data sets by dividing the original data set stored in the original data set
メタデータ評価装置1は、元データセット記憶DB2に記憶している元データセットを分割して生成した2つの分割データセットの組み合わせ毎に、2つの分割データセットに属するデータ群の性質の類似性を推定する。具体的には、2つの分割データセットに属するデータ群について性質の特徴を抽出し、抽出した特徴の類似度を取得する。ここで言うデータ群の性質とは、事象の種類、事象の発生頻度、事象の発生傾向等である。
For each combination of two divided data sets generated by dividing the original data set stored in the original data
したがって、今回元データセット記憶DB2に記憶している元データセットの分割に用いたメタデータの属性の項目について、元データセットを分割するという観点における有効性を、分割された2つの分割データセットに属するデータ群の性質の類似性によって推定できる。すなわち、メタデータに含まれる属性の項目について、元データセットを性質の異なるデータセットに分割する観点で有効性を評価できる。言い換えれば、メタデータに含まれる属性の項目について、元データセットを性質の異なるデータセットに分割しない観点でも、有効性を評価できる。
Therefore, with respect to the item of the attribute of the metadata used for the division of the original data set stored in the original data set
<2.構成例>
図2は、メタデータ評価装置の主要部の構成を示すブロック図である。メタデータ評価装置1は、制御ユニット11と、データベースアクセス部12(DBアクセス部12)と、操作部13と、出力部14とを備えている。
<2. Configuration example>
FIG. 2 is a block diagram illustrating a configuration of a main part of the metadata evaluation apparatus. The metadata evaluation apparatus 1 includes a
制御ユニット11は、メタデータ評価装置1本体各部の動作を制御する。また、制御ユニット11は、データセット生成部21と、特徴抽出部22と、評価部23とを有している。データセット生成部21、特徴抽出部22、および評価部23の詳細については後述する。
The
DBアクセス部12は、元データセット記憶DB2、および分割データセット記憶部3に設けられている各データベース(図では、第1データセット記憶DB3a、および第2データセット記憶DB3bのみ示している。)とのインタフェースである。メタデータ評価装置1は、DBアクセス部12を介して、元データセット記憶DB2、および分割データセット記憶部3に設けられているデータベースに対するデータの読み出し、およびデータの書き込みを行う。
The
操作部13は、キーボードやマウス等の入力デバイスを有し、メタデータ評価装置1本体に対するオペレータの入力操作を受け付ける。この操作部13が、この発明で言う属性受付部に相当する。
The
出力部14は、メタデータの属性の項目について、元データセットを分割するという観点で評価した評価結果を外部装置に出力する。外部装置は、例えばメタデータの属性の項目について、元データセットを分割するという観点で評価した評価結果を表示する表示装置であってもよいし、この評価結果に基づいて、元データセットを分割するという観点でメタデータの属性の項目を分類した集計データを生成し、出力する情報処理装置(コンピュータ)であってもよい。
The
次に、制御ユニット11が有する、データセット生成部21、特徴抽出部22、および評価部23について説明する。
Next, the data set
データセット生成部21は、操作部13において指定されたメタデータの属性の項目で、元データセット記憶DB4に記憶されている元データセットを分割し、複数の分割データセットを生成する。データセット生成部21は、例えば、元データセット記憶DB2に記憶されている元データセットが、様々な年齢の男女の顔画像データであり、指定されたメタデータの属性の項目が性別であると、元データセットから女性の顔画像データを抽出した第1分割データセットと、元データセットから男性の顔画像データを抽出した第2分割データセットとを生成する。
The data
データセット生成部21が元データセットを分割して生成した分割データセットは、分割データセット記憶部3に区別して記憶される。例えば、上記の例では、元データセットから女性の顔画像データを抽出した第1分割データセットが第1データセット記憶DB3aに記憶され、元データセットから男性の顔画像データを抽出した第2分割データセットが第2データセット記憶DB3bに記憶される。
The divided data sets generated by dividing the original data set by the data set
特徴抽出部22は、分割データセット記憶部3に分けて記憶されている分割データセット毎に、データ群の性質の特徴を抽出する。データ群の性質とは、上述したように、事象の種類、事象の発生頻度、事象の発生傾向等である。また、データ群の性質の特徴とは、事象の種類、事象の発生頻度、事象の発生傾向等の性質の分布である。特徴抽出部22は、例えばデータ群の性質の確率分布関数、確率密度関数、または尤度関数を特徴として抽出する。
The
評価部23は、分割データセット記憶部3に分けて記憶されている2つの分割データセットの組み合わせ毎に、特徴抽出部22において抽出されたデータ群の性質の特徴を比較する。評価部23は、比較した特徴の類似性によって、今回元データセットの分割に用いたメタデータの属性の項目を、元データセットを分割するという観点で部分評価する。メタデータの属性の項目は、元データセットを分割するという観点においては、分割データセットの性質の特徴が類似するほど(類似性が高いほど)有効性が低い。評価部23は、特徴抽出部22が抽出したデータセットの特徴の類似性を、確率分布間の距離、または確率密度の比で評価する。また、評価部23は、分割データセットの組み合わせ毎に取得した部分評価を用いて、今回元データセットの分割に用いたメタデータの属性の項目について、元データセットを性質の異なるデータセットに分割する観点で有効性を評価する。
The
メタデータ評価装置1の制御ユニット11は、ハードウェアCPU、メモリ、その他の電子回路によって構成されている。ハードウェアCPUが、この発明にかかるメタデータ評価プログラムを実行したときに、データセット生成部21、特徴抽出部22、および評価部23として動作する。また、メモリは、この発明にかかるメタデータ評価プログラムを展開する領域や、このメタデータ評価プログラムの実行時に生じたデータ等を一時記憶する領域を有している。制御ユニット11は、ハードウェアCPU、メモリ等を一体化したLSIであってもよい。また、ハードウェアCPUが、この発明にかかるメタデータ評価方法を実行するコンピュータである。
The
また、元データセット記憶DB2、および分割データセット記憶部3が備える第1データセット記憶DB3a、第2データセット記憶DB3b等は、ハードディスクドライブ、ソリッドステートドライブ等の補助記憶装置であってもよい。また、元データセット記憶DB2、および分割データセット記憶部3が備える第1データセット記憶DB3a、第2データセット記憶DB3b等は、1つの補助記憶装置で構成してもよいし、複数の補助記憶装置で構成してもよい。
Further, the original data set storage DB2, the first data
<3.動作例>
次に、この例にかかるメタデータ評価装置1の動作について説明する。図3は、メタデータ評価装置の動作を示すフローチャートである。メタデータ評価装置1は、メタデータの属性の項目についての評価処理が要求されると、図3に示す処理を実行する。メタデータ評価装置1は、今回評価するメタデータの属性の項目についての指定を受け付ける(s1)。オペレータが、操作部13に設けられている入力デバイスを操作し、今回評価するメタデータの属性の項目をメタデータ評価装置1に入力する。
<3. Example of operation>
Next, the operation of the metadata evaluation apparatus 1 according to this example will be described. FIG. 3 is a flowchart showing the operation of the metadata evaluation apparatus. The metadata evaluation apparatus 1 executes the process shown in FIG. 3 when an evaluation process for the metadata attribute item is requested. The metadata evaluation device 1 accepts the designation of the attribute item of the metadata to be evaluated this time (s1). The operator operates an input device provided in the
メタデータ評価装置1は、s1で受け付けたメタデータの属性の項目で、元データセット記憶DB2に記憶している元データセットを分割する(s2)。s2では、データセット生成部21が、今回受け付けたメタデータの属性の項目で、元データセットを分割し、複数の分割データセットを生成する。データセット生成部21は、生成した複数の分割データセットを区別して、分割データセット記憶部3に記憶させる。例えば、データセット生成部21は、元データセット記憶DB2に記憶している元データセットを2つの分割データセットに分割した場合、一方の分割データセットを第1データセット記憶DB3aに記憶させ、他方の分割データセットを第2データセット記憶DB3bに記憶させる。また、データセット生成部21は、元データセット記憶DB2に記憶している元データセットを3つの分割データセットに分割した場合、一つ目の分割データセットを第1データセット記憶DB3aに記憶させ、2つ目の分割データセットを第2データセット記憶DB3bに記憶させ、さらに3つ目の分割データセットを第3データセット記憶DB(不図示)に記憶させる。
The metadata evaluation apparatus 1 divides the original data set stored in the original data
メタデータ評価装置1は、s2で生成した分割データセット毎に特徴を抽出する(s3)。特徴抽出部22が、s3にかかる処理を実行する。特徴抽出部22は、s2で生成した分割データセット毎に、その分割データセットに属するデータ群における、事象の種類、事象の発生頻度、事象の発生傾向等の性質についての確率分布関数、確率密度関数、または尤度関数を特徴として抽出する。
The metadata evaluation device 1 extracts features for each divided data set generated in s2 (s3). The
メタデータ評価装置1は、分割データセットの組み合わせを選択する(s4)。s4で選択される分割データセットの組み合わせは、2つの分割データセットの組み合わせである。メタデータ評価装置1は、s4で選択した組み合わせの分割データセットについて、s3で抽出した特徴の類似度を取得する(s5)。s5では、s3で抽出した特徴の種別に応じて、確率分布間の距離、または確率密度の比を算出し、算出した値に応じた類似度(この発明で言う、部分評価に相当する。)を取得する。メタデータ評価装置1は、s5にかかる処理を実行していない分割データセットの組み合わせの有無を判定し(s6)、未処理の分割データセットの組み合わせがあれば、s4に戻る。 The metadata evaluation apparatus 1 selects a combination of divided data sets (s4). The combination of the divided data sets selected in s4 is a combination of two divided data sets. The metadata evaluation device 1 acquires the similarity of the features extracted in s3 for the divided data set of the combination selected in s4 (s5). In s5, the distance between probability distributions or the ratio of probability density is calculated according to the type of feature extracted in s3, and the degree of similarity corresponding to the calculated value (corresponding to partial evaluation in this invention). To get. The metadata evaluation apparatus 1 determines whether or not there is a combination of divided data sets that have not been subjected to the processing related to s5 (s6), and if there is a combination of unprocessed divided data sets, returns to s4.
メタデータ評価装置1は、s6で未処理の分割データセットの組み合わせがないと判定すると、s1で受け付けたメタデータの属性の項目を評価する評価処理を行う(s7)。s7は、今回評価するメタデータの属性の項目(s1で受け付けたメタデータの属性の項目)についての評価値を取得する処理である。この評価値は、例えば、分割データセットの組み合わせ毎にs5で取得した類似度の平均値にしてもよいし、分割データセットの組み合わせ毎にs5で取得した類似度の最大値、または最小値にしてもよいし、分割データセットの組み合わせ毎にs5で取得した類似度の二乗平均平方根にしてもよいし、分割データセットの組み合わせ毎にs5で取得した類似度の総和にしてもよい。上述したs4〜s7にかかる処理は、評価部23によって実行される。
If the metadata evaluation apparatus 1 determines that there is no combination of unprocessed divided data sets in s6, the metadata evaluation apparatus 1 performs an evaluation process for evaluating the metadata attribute item received in s1 (s7). s7 is processing for obtaining an evaluation value for the metadata attribute item to be evaluated this time (the metadata attribute item received in s1). This evaluation value may be, for example, the average value of similarities acquired in s5 for each combination of divided data sets, or the maximum value or the minimum value of similarities acquired in s5 for each combination of divided data sets. Alternatively, the root mean square of the similarities acquired at s5 for each combination of the divided data sets may be used, or the sum of the similarities acquired at s5 may be set for each combination of the divided data sets. The process concerning s4-s7 mentioned above is performed by the
メタデータ評価装置1は、s1で指定されたメタデータの属性の項目と、s7で取得した評価値とを対にして外部装置に出力し(s8)、本処理を終了する。 The metadata evaluation device 1 outputs the metadata attribute item specified in s1 and the evaluation value acquired in s7 as a pair to the external device (s8), and ends this processing.
なお、s1で受け付けたメタデータの属性の項目は、s5で特徴が類似しているほど、s7で取得される評価値が大きくなる方式であれば、評価値が大きいほど、元データセットを性質の異なるデータセットに分割するという観点において有効性が低い(評価値が小さいほど、元データセットを性質の異なるデータセットに分割するという観点において有効性が高い。)。逆に、s1で受け付けたメタデータの属性の項目は、s5で特徴が類似しているほど、s7で取得される評価値が小さくなる方式であれば、評価値が小さいほど、元データセットを性質の異なるデータセットに分割するという観点において有効性が低い(評価値が大きいほど、元データセットを性質の異なるデータセットに分割するという観点において有効性が高い。)。 Note that if the metadata attribute item received in s1 is a scheme in which the evaluation value acquired in s7 increases as the feature is similar in s5, the property value of the original data set increases as the evaluation value increases. The effectiveness is low in terms of dividing the data sets into different data sets (the smaller the evaluation value, the higher the effectiveness in terms of dividing the original data set into data sets having different properties). Conversely, if the metadata attribute item received in s1 is a method in which the evaluation value acquired in s7 is smaller as the feature is more similar in s5, the original data set is smaller as the evaluation value is smaller. The effectiveness is low in terms of dividing into data sets with different properties (the higher the evaluation value, the higher the effectiveness in dividing the original data set into data sets with different properties).
このように、この例では、メタデータの属性の項目毎に、元データセットを性質の異なるデータセットに分割するという観点における有効性を判定できる。したがって、元データセットを性質の異なるデータセットに分割するという観点における有効性で、メタデータに含まれる属性の項目を決定することができ、データセットの容量を抑えることができる。 Thus, in this example, the effectiveness in terms of dividing the original data set into data sets having different properties can be determined for each metadata attribute item. Therefore, the item of the attribute included in the metadata can be determined with the effectiveness in terms of dividing the original data set into data sets having different properties, and the capacity of the data set can be suppressed.
なお、この例では、メタデータの属性の項目毎に、元データセットを性質の異なるデータセットに分割しないという観点における有効性も判定できる。 In this example, the effectiveness in terms of not dividing the original data set into data sets having different properties can be determined for each metadata attribute item.
<実験例1>
元データセットが顔画像データであり、年齢、性別、国籍、撮影時刻、および撮影に用いたカメラの5つの項目について、元データセットを性質の異なる分割データセットに分割するという観点での有効性をメタデータ評価装置1で評価した。
この評価で、年齢、および性別については有効性が高く、撮影に用いたカメラについては有効性が低いことを確認した。
なお、国籍、撮影時刻については、有効性があるかどうかを明確に判断できなかった。
<Experimental example 1>
Effectiveness from the viewpoint of dividing the original data set into divided data sets having different properties with respect to the five items of age, sex, nationality, shooting time, and camera used for shooting, the original data set is face image data. Was evaluated by the metadata evaluation apparatus 1.
In this evaluation, it was confirmed that the age and sex were highly effective, and the camera used for photographing was not effective.
Regarding nationality and shooting time, it was not possible to clearly determine whether it was effective.
この評価結果から、撮影に用いたカメラにかかる項目を、メタデータに含めないことによって、データセットの容量を抑えられることが確認できた。
さらに、有効性が高いことが確認できた年齢、または性別で元データセットを分割することにより、年齢、または性別による顔画像の特徴の変化を分析することによって、有益な分析結果が得られることも確認できた。
From this evaluation result, it was confirmed that the capacity of the data set can be reduced by not including in the metadata items related to the camera used for shooting.
Furthermore, by dividing the original data set by age or gender that has been confirmed to be highly effective, it is possible to obtain useful analysis results by analyzing changes in facial image characteristics by age or gender. Was also confirmed.
<実験例2>
元データセットが車両の画像データであり、車種、撮影場所、撮影時刻、および撮影に用いたカメラの4つの項目について、元データセットを性質の異なる分割データセット分割するという観点での有効性をメタデータ評価装置1で評価した。
この評価で、車種については有効性が高く、撮影時刻、および撮影に用いたカメラについては有効性が低いことを確認した。
なお、撮影場所については、有効性があるかどうかを明確に判断できなかった。
<Experimental example 2>
The original data set is the image data of the vehicle, and the effectiveness in terms of dividing the original data set into divided data sets having different properties with respect to the four items of vehicle type, shooting location, shooting time, and camera used for shooting. Evaluation was performed using the metadata evaluation apparatus 1.
In this evaluation, it was confirmed that the vehicle type was highly effective, and the shooting time and the camera used for shooting were low.
Regarding the shooting location, it was not possible to clearly determine whether it was effective.
この評価結果から、撮影時刻、および撮影に用いたカメラにかかる項目を、メタデータに含めないことによって、データセットの容量を抑えられることが確認できた。 From this evaluation result, it was confirmed that the capacity of the data set can be reduced by not including the shooting time and the items related to the camera used for shooting in the metadata.
<4.変形例>
上記の例では、メタデータ評価装置1は、メタデータの属性の項目の評価値を数値として出力するとしたが、例えば予め定めた5段階や、10段階にランク分けし、そのランクを評価値として出力する構成にしてもよい。
<4. Modification>
In the above example, the metadata evaluation device 1 outputs the evaluation value of the metadata attribute item as a numerical value. For example, the metadata evaluation device 1 ranks it into five or ten predetermined levels, and uses the rank as an evaluation value. It may be configured to output.
また、メタデータ評価装置1は、s7で取得した評価値に加えて、s5で取得した分割データセットの組み合わせ毎の類似度も出力するようにしてもよい。 In addition to the evaluation value acquired in s7, the metadata evaluation apparatus 1 may output the similarity for each combination of the divided data sets acquired in s5.
なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。 Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.
さらに、この発明に係る構成と上述した実施形態に係る構成との対応関係は、以下の付記のように記載できる。
<付記>
元データセットに属するデータに付加されているメタデータに含まれる属性の項目についての指定を受け付ける属性受付部(13)と、
前記属性受付部(13)で受け付けた属性の項目で、前記元データセットを分割して複数の分割データセットを生成するデータセット生成部(21)と、
複数の前記分割データセット毎に、その分割データセットに属するデータ群の性質の特徴を抽出する特徴抽出部(22)と、
2つの前記分割データセットの組み合わせ毎に、その組み合わせにおけるデータ群の性質の特徴に基づく部分評価を取得し、さらに各組み合わせの部分評価に基づいて、前記属性受付部で受け付けた前記メタデータにかかる属性の項目について評価する評価部(23)と、を備えたメタデータ評価装置(1)。
Furthermore, the correspondence between the configuration according to the present invention and the configuration according to the above-described embodiment can be described as in the following supplementary notes.
<Appendix>
An attribute accepting unit (13) for accepting designation of an attribute item included in metadata added to data belonging to the original data set;
A data set generation unit (21) that generates a plurality of divided data sets by dividing the original data set with the attribute items received by the attribute reception unit (13);
For each of the plurality of divided data sets, a feature extraction unit (22) that extracts characteristics of the characteristics of the data group belonging to the divided data set;
For each combination of the two divided data sets, a partial evaluation based on the characteristics of the characteristics of the data group in the combination is acquired, and further, the metadata received by the attribute receiving unit is applied based on the partial evaluation of each combination A metadata evaluation apparatus (1) comprising: an evaluation unit (23) that evaluates attribute items.
1…メタデータ評価装置
2…元データセット記憶データベース(元データセット記憶DB)
3…記憶部
3…分割データセット記憶部
3a…第1データセット記憶データベース(第1データセット記憶DB)
3b…第2データセット記憶データベース(第2データセット記憶DB)
11…制御ユニット
12…アクセス部
12…データベースアクセス部(DBアクセス部)
13…操作部
14…出力部
21…データセット生成部
22…特徴抽出部
23…評価部
DESCRIPTION OF SYMBOLS 1 ...
3 ...
3b ... Second data set storage database (second data set storage DB)
11 ...
DESCRIPTION OF
Claims (5)
前記属性受付部で受け付けた属性の項目で、前記元データセットを分割して複数の分割データセットを生成するデータセット生成部と、
複数の前記分割データセット毎に、その分割データセットに属するデータ群の性質の特徴を抽出する特徴抽出部と、
2つの前記分割データセットの組み合わせ毎に、その組み合わせにおけるデータ群の性質の特徴に基づく部分評価を取得し、さらに各組み合わせの部分評価に基づいて、前記属性受付部で受け付けた前記メタデータにかかる属性の項目について評価する評価部と、を備えたメタデータ評価装置。 An attribute accepting unit that accepts designation of an attribute item included in metadata attached to data belonging to the original data set;
In the attribute item received by the attribute receiving unit, a data set generating unit that generates a plurality of divided data sets by dividing the original data set;
For each of the plurality of divided data sets, a feature extraction unit that extracts characteristics of the characteristics of the data group belonging to the divided data set;
For each combination of the two divided data sets, a partial evaluation based on the characteristics of the characteristics of the data group in the combination is acquired, and further, the metadata received by the attribute receiving unit is applied based on the partial evaluation of each combination A metadata evaluation apparatus comprising: an evaluation unit that evaluates attribute items.
複数の前記分割データセット毎に、その分割データセットに属するデータ群の性質の特徴を抽出する特徴抽出ステップと、
2つの前記分割データセットの組み合わせ毎に、その組み合わせにおけるデータ群の性質の特徴に基づく部分評価を取得し、さらに各組み合わせの部分評価に基づいて、前記属性受付部で受け付けた前記メタデータにかかる属性の項目について評価する評価ステップと、をコンピュータが実行するメタデータ評価方法。 A data set generation step of generating a plurality of divided data sets by dividing the original data set with the attribute items included in the metadata attached to the data belonging to the original data set received by the attribute receiving unit;
For each of the plurality of divided data sets, a feature extraction step for extracting characteristics of data groups belonging to the divided data sets;
For each combination of the two divided data sets, a partial evaluation based on the characteristics of the characteristics of the data group in the combination is acquired, and further, the metadata received by the attribute receiving unit is applied based on the partial evaluation of each combination A metadata evaluation method in which a computer executes an evaluation step for evaluating an attribute item.
複数の前記分割データセット毎に、その分割データセットに属するデータ群の性質の特徴を抽出する特徴抽出ステップと、
2つの前記分割データセットの組み合わせ毎に、その組み合わせにおけるデータ群の性質の特徴に基づく部分評価を取得し、さらに各組み合わせの部分評価に基づいて、前記属性受付部で受け付けた前記メタデータにかかる属性の項目について評価する評価ステップと、をコンピュータに実行させるメタデータ評価プログラム。 A data set generation step of generating a plurality of divided data sets by dividing the original data set with the attribute items included in the metadata attached to the data belonging to the original data set received by the attribute receiving unit;
For each of the plurality of divided data sets, a feature extraction step for extracting characteristics of data groups belonging to the divided data sets;
For each combination of the two divided data sets, a partial evaluation based on the characteristics of the characteristics of the data group in the combination is acquired, and further, the metadata received by the attribute receiving unit is applied based on the partial evaluation of each combination A metadata evaluation program for causing a computer to execute an evaluation step for evaluating an attribute item.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018042765A JP7143599B2 (en) | 2018-03-09 | 2018-03-09 | Metadata evaluation device, metadata evaluation method, and metadata evaluation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018042765A JP7143599B2 (en) | 2018-03-09 | 2018-03-09 | Metadata evaluation device, metadata evaluation method, and metadata evaluation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159539A true JP2019159539A (en) | 2019-09-19 |
JP7143599B2 JP7143599B2 (en) | 2022-09-29 |
Family
ID=67996226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018042765A Active JP7143599B2 (en) | 2018-03-09 | 2018-03-09 | Metadata evaluation device, metadata evaluation method, and metadata evaluation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7143599B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023120737A1 (en) * | 2021-12-24 | 2023-06-29 | ダイキン工業株式会社 | Content proposing device |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877184A (en) * | 1994-07-06 | 1996-03-22 | Omron Corp | Device and method for retrieving data base, direct mail issuance supporting system with data base retrieving device, device and method for evaluating customer, and direct mail issuance supporting system with customer evaluating device |
JP2006260218A (en) * | 2005-03-17 | 2006-09-28 | Fujitsu Ltd | Operation skill estimation program |
JP2007188506A (en) * | 2006-01-13 | 2007-07-26 | Ricoh Co Ltd | Pruning method of icon tree and information processor |
JP2007272684A (en) * | 2006-03-31 | 2007-10-18 | Fujifilm Corp | Device, method, and program for image arrangement |
JP2009535698A (en) * | 2006-04-28 | 2009-10-01 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | Dynamic data navigation |
WO2012147256A1 (en) * | 2011-04-25 | 2012-11-01 | パナソニック株式会社 | Image-processing device |
US20150242407A1 (en) * | 2014-02-22 | 2015-08-27 | SourceThought, Inc. | Discovery of Data Relationships Between Disparate Data Sets |
JP2015197695A (en) * | 2014-03-31 | 2015-11-09 | 真之 正林 | Information processor, information processing method, and program |
WO2016103451A1 (en) * | 2014-12-26 | 2016-06-30 | 株式会社日立製作所 | Method and device for acquiring relevant information and storage medium |
JP2017046814A (en) * | 2015-08-31 | 2017-03-09 | キヤノン株式会社 | Information processing device, image processing device, information processing system, information processing method, and program |
US20170110125A1 (en) * | 2015-10-14 | 2017-04-20 | Alibaba Group Holding Limited | Method and apparatus for initiating an operation using voice data |
-
2018
- 2018-03-09 JP JP2018042765A patent/JP7143599B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877184A (en) * | 1994-07-06 | 1996-03-22 | Omron Corp | Device and method for retrieving data base, direct mail issuance supporting system with data base retrieving device, device and method for evaluating customer, and direct mail issuance supporting system with customer evaluating device |
JP2006260218A (en) * | 2005-03-17 | 2006-09-28 | Fujitsu Ltd | Operation skill estimation program |
JP2007188506A (en) * | 2006-01-13 | 2007-07-26 | Ricoh Co Ltd | Pruning method of icon tree and information processor |
JP2007272684A (en) * | 2006-03-31 | 2007-10-18 | Fujifilm Corp | Device, method, and program for image arrangement |
JP2009535698A (en) * | 2006-04-28 | 2009-10-01 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | Dynamic data navigation |
WO2012147256A1 (en) * | 2011-04-25 | 2012-11-01 | パナソニック株式会社 | Image-processing device |
US20150242407A1 (en) * | 2014-02-22 | 2015-08-27 | SourceThought, Inc. | Discovery of Data Relationships Between Disparate Data Sets |
JP2015197695A (en) * | 2014-03-31 | 2015-11-09 | 真之 正林 | Information processor, information processing method, and program |
WO2016103451A1 (en) * | 2014-12-26 | 2016-06-30 | 株式会社日立製作所 | Method and device for acquiring relevant information and storage medium |
JP2017046814A (en) * | 2015-08-31 | 2017-03-09 | キヤノン株式会社 | Information processing device, image processing device, information processing system, information processing method, and program |
US20170110125A1 (en) * | 2015-10-14 | 2017-04-20 | Alibaba Group Holding Limited | Method and apparatus for initiating an operation using voice data |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023120737A1 (en) * | 2021-12-24 | 2023-06-29 | ダイキン工業株式会社 | Content proposing device |
Also Published As
Publication number | Publication date |
---|---|
JP7143599B2 (en) | 2022-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9552511B2 (en) | Identifying images using face recognition | |
WO2023024407A1 (en) | Model pruning method and apparatus based on adjacent convolutions, and storage medium | |
US11442694B1 (en) | Merging database tables by classifying comparison signatures | |
CN109948680B (en) | Classification method and system for medical record data | |
US20160379011A1 (en) | Anonymization apparatus, and program | |
US20190205331A1 (en) | Image search system, image search method, and program | |
JP4374902B2 (en) | Similar image search device, similar image search method, and similar image search program | |
CN114638234B (en) | Big data mining method and system applied to online business handling | |
US20190362187A1 (en) | Training data creation method and training data creation apparatus | |
CN114691973A (en) | Recommendation method, recommendation network and related equipment | |
WO2014167880A1 (en) | Image retrieval device, image retrieval method, and recording medium | |
JP2007310646A (en) | Search information management device, search information management program and search information management method | |
JP7143599B2 (en) | Metadata evaluation device, metadata evaluation method, and metadata evaluation program | |
JPWO2017072890A1 (en) | Data management system, data management method and program | |
JP5929532B2 (en) | Event detection apparatus, event detection method, and event detection program | |
TW202201249A (en) | Device, method and program of generating two-dimensional mapping wherein the device includes a two-dimensional processing unit and a two-dimensional mapping generation unit | |
JP2019159538A (en) | Data set verification device, data set verification method, and data set verification program | |
US11842055B2 (en) | Data processing system and data compression method | |
US20220101187A1 (en) | Identifying and quantifying confounding bias based on expert knowledge | |
KR20150124825A (en) | 2-Dependence Naive Bayes Classifier based Image Classification | |
CN111611251B (en) | Data processing system | |
JP6341843B2 (en) | Image search apparatus and image search system | |
Veinidis et al. | On the retrieval of 3D mesh sequences of human actions | |
EP2287749A1 (en) | Data retrieval device | |
KR100936595B1 (en) | Method for measuring category relevance based on word elevance and system for executing the method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7143599 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |