JP2017021634A - データ処理装置およびデータ処理方法 - Google Patents
データ処理装置およびデータ処理方法 Download PDFInfo
- Publication number
- JP2017021634A JP2017021634A JP2015139613A JP2015139613A JP2017021634A JP 2017021634 A JP2017021634 A JP 2017021634A JP 2015139613 A JP2015139613 A JP 2015139613A JP 2015139613 A JP2015139613 A JP 2015139613A JP 2017021634 A JP2017021634 A JP 2017021634A
- Authority
- JP
- Japan
- Prior art keywords
- data
- item
- value
- similarity
- items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
データの複数の項目についての、データ値の特徴による判別精度に関する情報を記憶する記憶手段と、新規データの項目名とデータ値とを取得する取得手段と、前記新規データと対応する前記既知データの項目の候補を求め、当該候補の項目名を出力する処理手段と、を備え、前記処理手段は、前記既知データの前記複数の項目について、前記新規データとの間でデータ値の特徴の類似度を求め、データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する、ことを特徴とする。
本実施形態にかかるデータ処理装置1は、項目の仕様が既知のマスターDB(データベース)を有し、項目の仕様が未知の新規データを取り込む際に、項目の対応付けを支援する。以下では、データの具体例として車両の状態に関するデータ(以下、車両データとも称する)を用いて説明を行うが、このことは本発明が適用可能なデータの種類を限定するものではない。
本実施形態にかかるデータ処理装置1は、CPU(Central Processing Unit)やMP
U(Micro Processing Unit)などのプロセッサ(演算処理装置)、RAM(Random Access Memory)などの主記憶装置、半導体メモリ・磁気ディスク・光ディスク・光磁気ディ
スクなどの補助記憶装置、キーボードや種々のポインティングデバイス(マウス、タッチパッド、タッチパネル、ペンタブレット等)やマイクなどの入力装置、ディスプレイ装置(液晶ディスプレイ・CRTディスプレイ・プロジェクタ等)や音声出力装置などの出力装置、有線通信や無線通信を行うための通信装置などを含んで構成される汎用コンピュータ(情報処理装置)として構成される。データ処理装置1は、補助記憶装置に記憶されているコンピュータプログラムが主記憶装置上に展開されたプロセッサが実行することにより、以下の各機能を提供する。ただし、以下の機能の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)やDSP(Digital Signal Processor)などを用いて実現しても構わない。また、データ処理装置1は、必ずしも1台のコンピュータとして構成される必要はなく、複数のコンピュータが協働することによって、その機能を提供してもよい。
する。
本実施形態かかるデータ処理装置1が行う処理は、データ統合処理の前に行われる事前学習処理と、学習結果を用いた対応項目候補の決定処理を含むデータ統合処理の2つに大別される。以下では、それぞれの処理の内容について詳しく説明する。
図2Aは、データ処理部20が行う事前学習処理の流れを示すフローチャートである。この事前学習処理では、マスターDB40の各項目についてデータ値の特徴に基づく判別精度が高いか否かを機械学習を用いて決定する。
現率(Recall)、F値(F-measure)の1つ以上を組み合わせたものを用いることができ
るが、それ以外の評価指標を用いてもよい。
次に、データ処理装置1において、新規データをマスターDB40に統合するデータ統合処理について図3,図4のフローチャートを参照して説明する。
DB40の各項目との間で、データ値の類似度を算出する。具体的には、特徴量算出部25によって対象データの特徴量を求め、学習処理部24が事前学習処理によって生成した分類器によって、マスターDB40の各項目との特徴量の類似度(以下、値の類似度とも称する)を算出する。対象データの特徴量の算出方法は事前学習処理と同様(ステップS10)であるので、詳しい説明は省略する。
提示することが好ましい。また、対応する項目をユーザが自ら入力可能とすることも好ましい。これにより、ユーザが選択した対応項目をデータ処理装置1が取得することができる。
本実施形態にかかるデータ処理装置1においては、事前学習によりマスターDB40に含まれる項目を、データ値の特徴に基づく判別精度が高い項目と低い項目に分類している。したがって、対応項目候補を求める際に、この判別精度に関する情報を用いた決定が行える。
上記の説明では車両データを例としているが、本発明はデータの種類にかかわらずに任意のデータに対して適用可能であることは、当業者に明らかであろう。
10 新規データ入力部
20 データ処理部
30 入出力部
40 マスターデータベース(DB)
50 判別精度情報記憶部
Claims (11)
- 項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを行うデータ処理装置であって、
既知データの複数の項目についての、データ値の特徴による判別精度に関する情報を記憶する記憶手段と、
新規データの項目名とデータ値とを取得する取得手段と、
前記新規データと対応する前記既知データの項目の候補を求め、当該候補の項目名を出力する処理手段と、
を備え、
前記処理手段は、
前記既知データの前記複数の項目について、前記新規データとの間でデータ値の特徴の類似度を求め、
データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、
データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する、
ことを特徴とするデータ処理装置。 - 前記処理手段は、項目名が既知のデータを用いてあらかじめ学習した学習器を用いて、前記データ値の特徴の類似度を求める、
請求項1に記載のデータ処理装置。 - 前記新規データに対応する前記既知データの項目の入力を受け付ける入力手段をさらに有し、
前記入力手段への入力を用いて、前記学習器の再学習を行う、
請求項2に記載のデータ処理装置。 - 前記処理手段は、項目名の編集距離に基づいて、前記項目名の類似度を求める、
請求項1から3のいずれか1項に記載のデータ処理装置。 - 前記処理手段は、前記データ値の類似度が所定の閾値以上の項目を、前記上位所定個の項目として求める、
請求項1から4のいずれか1項に記載のデータ処理装置。 - 前記処理手段は、前記データ値の類似度が前記所定の閾値以上の項目がない場合には、類似する項目が存在しない旨を出力する、
請求項5に記載のデータ処理装置。 - 前記処理装置は、前記候補の項目名をユーザが選択可能な態様で出力する、
請求項1から6のいずれか1項に記載のデータ処理装置。 - 前記データ値の特徴は、所定期間内のデータ値の最大値、最小値、平均値、分散、またはデータ値の時間差分の所定期間内の最大値、最小値、平均値、分散の1つまたは複数に基づいて求められる、
請求項1から7のいずれか1項に記載のデータ処理装置。 - 前記既知データおよび前記新規データは車両に関するデータであり、
前記所定期間は、1トリップの期間である、
請求項8に記載のデータ処理装置。 - 項目の仕様が未知の新規データと項目の仕様が既知の既知データとの項目の対応付けを行うデータ処理装置が行う、データ処理方法であって、
前記データ処理装置が、
既知データの複数の項目についての、データ値の特徴による判別精度に関する情報をあらかじめ記憶するステップと、
新規データの項目名とデータ値とを取得するステップと、
前記新規データと対応する前記既知データの項目の候補を求め、当該候補の項目名を出力する処理ステップと、
を実行し、
前記処理ステップでは、前記データ処理装置が、
前記既知データの前記複数の項目について、前記新規データとの間でデータ値の特徴の類似度を求め、
データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在する場合には、当該データ値の特徴による判別精度が高い項目の項目名を、前記データ値の特徴の類似度に応じた順位付けとともに出力し、
データ値の類似度が高い上位所定個の項目の中に、データ値の特徴による判別精度が高い項目が存在しない場合には、当該上位所定個の項目の項目名と、前記新規データの項目名との類似度を求め、前記上位所定個の項目の項目名を、前記項目名の類似度に応じた順位付けとともに出力する、
ことを特徴とするデータ処理方法。 - 請求項10に記載の方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015139613A JP6424756B2 (ja) | 2015-07-13 | 2015-07-13 | データ処理装置およびデータ処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015139613A JP6424756B2 (ja) | 2015-07-13 | 2015-07-13 | データ処理装置およびデータ処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017021634A true JP2017021634A (ja) | 2017-01-26 |
JP6424756B2 JP6424756B2 (ja) | 2018-11-21 |
Family
ID=57889875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015139613A Active JP6424756B2 (ja) | 2015-07-13 | 2015-07-13 | データ処理装置およびデータ処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6424756B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109692A (ja) * | 2017-12-18 | 2019-07-04 | 富士通株式会社 | データ出力プログラム、装置、及び方法 |
JP2019139577A (ja) * | 2018-02-13 | 2019-08-22 | 日立Geニュークリア・エナジー株式会社 | データ検索方法、データ検索装置及びプログラム |
US11948098B2 (en) | 2018-03-08 | 2024-04-02 | Nec Corporation | Meaning inference system, method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271656A (ja) * | 2002-03-19 | 2003-09-26 | Fujitsu Ltd | 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2005063332A (ja) * | 2003-08-19 | 2005-03-10 | Fujitsu Ltd | 情報体系対応付け装置および対応付け方法。 |
JP2011154540A (ja) * | 2010-01-27 | 2011-08-11 | Fujitsu Ltd | 類似度算出プログラムおよび類似度算出装置 |
JP2012181605A (ja) * | 2011-02-28 | 2012-09-20 | Toshiba Corp | データ分析支援装置およびプログラム |
-
2015
- 2015-07-13 JP JP2015139613A patent/JP6424756B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271656A (ja) * | 2002-03-19 | 2003-09-26 | Fujitsu Ltd | 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2005063332A (ja) * | 2003-08-19 | 2005-03-10 | Fujitsu Ltd | 情報体系対応付け装置および対応付け方法。 |
JP2011154540A (ja) * | 2010-01-27 | 2011-08-11 | Fujitsu Ltd | 類似度算出プログラムおよび類似度算出装置 |
JP2012181605A (ja) * | 2011-02-28 | 2012-09-20 | Toshiba Corp | データ分析支援装置およびプログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109692A (ja) * | 2017-12-18 | 2019-07-04 | 富士通株式会社 | データ出力プログラム、装置、及び方法 |
JP7159552B2 (ja) | 2017-12-18 | 2022-10-25 | 富士通株式会社 | データ出力プログラム、装置、及び方法 |
JP2019139577A (ja) * | 2018-02-13 | 2019-08-22 | 日立Geニュークリア・エナジー株式会社 | データ検索方法、データ検索装置及びプログラム |
US11948098B2 (en) | 2018-03-08 | 2024-04-02 | Nec Corporation | Meaning inference system, method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6424756B2 (ja) | 2018-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6487944B2 (ja) | 自然言語画像検索 | |
EP3506185A1 (en) | Method for training model and information recommendation system | |
Athawale et al. | Selection of industrial robots using compromise ranking method | |
WO2017117194A1 (en) | Detection of spam publication | |
JP5214760B2 (ja) | 学習装置、方法及びプログラム | |
CN110928992B (zh) | 文本搜索方法、装置、服务器及存储介质 | |
JP2020109631A (ja) | 深層ニューラルネットワークのアンサンブルを使用した迅速なビデオクエリ | |
JP2018045516A (ja) | 分類装置、分類方法およびプログラム | |
JP2017021634A (ja) | データ処理装置およびデータ処理方法 | |
KR20210080224A (ko) | 정보 처리 장치 및 정보 처리 방법 | |
WO2014115198A1 (ja) | 入力支援システム、入力支援方法および入力支援プログラム | |
US9524335B2 (en) | Conflating entities using a persistent entity index | |
CN114207729A (zh) | 材料特性预测系统以及材料特性预测方法 | |
JP2016038788A (ja) | 検索支援プログラム、検索支援方法、検索支援装置および応答方法 | |
WO2020155814A1 (zh) | 维修对象的定损方法及装置、电子设备 | |
JP2018170008A (ja) | エンティティの属性をマッピングする方法及びシステム | |
US11783129B2 (en) | Interactive control system, interactive control method, and computer program product | |
JP2016110256A (ja) | 情報処理装置及び情報処理プログラム | |
US11047696B2 (en) | Methods and systems for determining and assigning a primary point-of-interest type for a point-of-interest | |
KR20200102919A (ko) | 오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체 | |
WO2023275763A1 (en) | Systems and methods for knowledge-based reasoning of an autonomous system | |
CA3221548A1 (en) | Systems and methods for knowledge-based reasoning of an autonomous system | |
EP4053713A1 (en) | Question and answer method and apparatus based on knowledge graph | |
US11790635B2 (en) | Learning device, search device, learning method, search method, learning program, and search program | |
CN114138997A (zh) | 具有数字孪生和基于图形的结构的计算机实现的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180925 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181008 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6424756 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |