JP6251004B2 - 転用状況可視化システム及び転用状況可視化方法 - Google Patents
転用状況可視化システム及び転用状況可視化方法 Download PDFInfo
- Publication number
- JP6251004B2 JP6251004B2 JP2013221194A JP2013221194A JP6251004B2 JP 6251004 B2 JP6251004 B2 JP 6251004B2 JP 2013221194 A JP2013221194 A JP 2013221194A JP 2013221194 A JP2013221194 A JP 2013221194A JP 6251004 B2 JP6251004 B2 JP 6251004B2
- Authority
- JP
- Japan
- Prior art keywords
- diversion
- data
- source
- cluster
- destination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
[構成]
(1)転用元となるデータを一意に表すデータソースと該データソースの区分とデータ項目(テキストデータ項目、音声データ項目)とを含む変換スキーマ定義情報を格納する変換スキーマ定義(データベース)DB601。
(2)一意の識別子別のデータソース区分とクラスタと転用状況(修正転用・履歴参照)とデータ内容(テキストデータの内容)とを含む総合情報を格納する統合データ群DB602。
(4)操作者による入力データ(転用元データ、転用先データ、変換スキーマ定義を含む様々な要求)を入力するための入力部201及び転用状況判定結果画面他の表示を行う表示部202を有する可視化サブシステム200。
(7)統合データ群DB602に格納されたデータから特徴量を抽出し、ベクトル化した特徴ベクトルを生成する特徴ベクトル生成部501及び該特徴ベクトルを用いて自動分類処理を行うクラスタリング部502を有する自動分類サブシステム500。
前述のように構成された本実施形態によるデータ統合サブシステム300は、図2に示す如く、ソース区分追加部301が、次の各ステップを実行する。
(1)入力されたデータ6031に含まれるスキーマ定義から一意の識別子及びデータ型を抽出し、該入力データ6031のスキーマ(構造)を抽出するステップS3011。
(2)該ステップS3011で抽出したスキーマ又は入力されたデータスキーマに基づいて一意の識別子を選定し、一意の識別子候補がなければ自動的に連番の識別子を採番するステップS3012。
(3)該ステップS3012により選定または採番された一意識別子に、変換スキーマ定義のデータソース区分に基づいて接頭字を追加するステップS3013。尚、前記データ区分とは、転用元か転用先かの種別に基づく組合せ、「転用先」「転用元」である。
(1)前記ステップ3011で抽出したスキーマと前記変換スキーマ定義DB601に格納された変換スキーマ定義6032とを入力とし、これらをマッピングすることにより変換スキーマの解析を行うステップS3021。
(2)該ステップS3012によるマッピング結果に基づいて統合データ群DB602に入力データを格納するためのクエリ文(処理要求[問い合わせ]を文字列として表したもの)を生成するステップS3022。
(3)該ステップS3022により生成したクエリ文と前記ステップS3013にて加工済みのデータを入力として、統合データスキーマへの変換及び統合データ群DB602への格納を行うステップS3023。
(1)統合データ群DB602に格納した各クラスタ内データのデータソース区分について、それぞれ「転用元」「転用先」のデータ数を集計するステップS4201。
(2)クラスタ要素のデータ区分に「転用先」が存在するかどうかを判定するステップS4202。
(3)該ステップS4202において存在しないと判定したとき、クラスタ区分を「転用先流用」とするステップS4203。
(4)前記ステップS4202において存在すると判定したとき、クラスタ要素のデータソース区分に「転用元」が存在するか否かを判定するステップS4204。
(5)該ステップS4204において存在しないと判定したとき、クラスタ区分を「転用先類似」と設定するステップS4205。
(6)前記ステップS4204において存在すると判定したとき、クラスタ区分を「転用元転用」と設定するステップS4206。
(1)入力となる各クラスタについて、クラスタの最新データ(クラスタ最新データと呼ぶ)の取り出し及びクラスタ内転用元データの最新データ(クラスタ内最新転用元データと呼ぶ)の取り出しを行うため、更新日時に基づいたソート処理を行った上で転用元データのみを抽出するステップS4101。
(2)前記クラスタ最新データとクラスタ内最新転用元データとが同一データであるか否か(最新か否か)を判定するステップS4102。
(3)該ステップS4102において同一(最新)であると判定したとき、未だ転用されていないと判断し、転用状況を「未転用」に設定して更新処理を行うステップS4103。
(4)前記ステップS4102において同一でない(最新でない)と判定したとき、クラスタ内の転用先データ毎に下記処理(対象転用元データは転用判定外として次の対象転用元データを対象とした処理)の実行を開始するステップ4104。
(5)対象転用先データの更新日時がクラスタ内最新転用元データの更新日時よりも新しいか否かを判定するステップS4105。
(6)該ステップS4105において対象転用元データの方が新しいと判定したとき、クラスタ内最新転用元データと対象転用先データの値が転用元対象となる値に対し数値や文字列比較して一致するかを判定するステップS4106。
(7)該ステップS4106において一致していると判定したとき、転用状況を「転用」に設定して更新処理を行うステップS4107。
(8)前記ステップS4106において一致しないと判定したとき、対象転用先データとクラスタ内の各データの類似度(各データの類似度は図3ステップ5022の特徴量計算と同等の処理により算出)を比較し、クラスタ内で最も類似するデータが最新転用元データか否かを判定するステップS4108。
(9)該ステップS4108において最も類似するデータが最新転用元データと判定したとき、転用状況を「修正転用」に設定して更新処理を行うステップS4109。
(10)記ステップS4108において最も類似するデータが最新転用元データでないと判定したとき、クラスタ内で最も類似するデータが過去の転用元データか否かを判定するステップS4110。
(11)該ステップS4110において最も類似するデータが過去の転用元データであると判定したとき、転用状況を「転用不良」に設定して更新処理を行うステップS4111。
(12)前記ステップS4110において最も類似するデータが過去の転用元データでないと判定したとき、クラスタ内で最も類似するデータが過去の転用先データか否かを判定するステップS4112。
(13)該ステップS4112において最も類似するデータが過去の転用先データであると判定したとき、転用状況を「履歴参照」に設定して更新処理を行うステップS4113。
(14)前記ステップS4112において最も類似するデータが過去の転用先データでないと判定したとき、統合データ群DB602にデータを格納し、更新される転用状況を転用状況6025のレコードに格納して処理を終了するステップ。
尚、本判定処理は、処理の追加・削除を禁止しておらず、新しい判定処理を追加することもできるし、詳細な判定条件により細分化された転用状況を付与することも可能である。
201 入力部、202 表示部、300 データ統合サブシステム、
301 ソース区分追加部、302 スキーマ管理部、
400 転用状況判定サブシステム、401 転用判定部、
402 クラスタ区分部、500 自動分類サブシステム、
501 特徴ベクトル生成部、502 クラスタリング部、
601 変換スキーマ定義DB、602 統合データ群DB、
603 クラスタ情報DB
Claims (6)
- 転用元データ及び転用先データを入力として、その転用状況の評価を支援する転用状況可視化システムであって、
操作者による転用元データ及び転用先データを入力するための入力部及び転用状況判定結果画面他のデータ表示を行う表示部を有する可視化サブシステムと、
転用元データおよび転用先データが統合されたデータにマッピングするための変換スキーマ定義情報を格納する変換スキーマ定義データベースと、
転用元及び転用先を統合したフォーマットのデータを格納する統合データ群データベースと、
前記入力部から入力された転用元データ及び転用先データが「転用元」か「転用先」かを表すソース区分を転用元データ及び転用先データに追加するソース区分追加部及び変換スキーマ定義データベースに定義された変換スキーマ定義を用いて統合データ群データベースのデータ形式に沿ったデータ形式に変換し、統合データ群データベースに格納するスキーマ管理部とを有するデータ統合サブシステムと、
統合データ群データベースに格納されたデータから特徴量を抽出し、ベクトル化した特徴ベクトルを生成する特徴ベクトル生成部及び各統合データの該特徴ベクトル上の類似性を用いて類似するクラスタを生成するクラスタリング部を有する自動分類サブシステムと、
前記クラスタリング部で出力されたクラスタ情報を格納するクラスタ情報データベースと、
前記クラスタ情報データベースに格納した各クラスタを構成する統合データのソース区分に基づいて転用元データのみから成るクラスタ区分である「転用元類似」か転用先のみから成るクラスタ区分である「転用先流用」か転用元及び転用先を含むクラスタ区分である「転用元転用」かに区分するクラスタ区分部並びに前記クラスタ区分とクラスタ情報を入力として転用判定結果を統合データ群データベースに格納する転用判定部を有する転用状況判定サブシステムと、
を備える転用状況可視化システム。 - 前記転用状況判定サブシステムの転用判定部が、クラスタ区分とクラスタ情報を入力と
し、クラスタ内の転用元データ及び転用先データ、転用元データ同士、あるいは転用先データ同士の比較と類似度処理によって、転用状況である「未転用」「転用」「修正転用」「転用不良」「履歴参照」を判定するサブ工程を実施する請求項1に記載の転用状況可視化システム。 - 前記自動分類サブシステムが、データ統合サブシステムに格納したデータが文書テキストの場合に単語毎の出現頻度、テキストの文字数を算出すること、及び又は音声ファイルの場合に音の大きさや音素の数を算出することにより特徴量を抽出する請求項1又は請求項2に記載の転用状況可視化システム。
- 操作者による転用元データ及び転用先データを入力するための入力部及び転用状況判定結果画面他のデータ表示を行う表示部を有する可視化サブシステムと、転用元データおよび転用先データが統合されたデータにマッピングするための変換スキーマ定義情報を格納する変換スキーマ定義データベースと、転用元及び転用先を統合したフォーマットのデータを格納する統合データ群データベースと、クラスタ情報を格納するクラスタ情報データベースと、を備え、転用元データ及び転用先データを入力として転用状況の評価を支援するコンピュータシステムの転用状況可視化方法であって、
前記コンピュータシステムが、
入力部から入力された転用元データ及び転用先データが「転用元」か「転用先」かを表すソース区分を転用元データ及び転用先データに追加するソース区分追加機能及び変換スキーマ定義データベースに定義された変換スキーマ定義を用いて統合データ群データベースのデータ形式に沿ったデータ形式に変換し、統合データ群データベースに格納するスキーマ管理機能を行うデータ統合サブ工程と、
統合データ群データベースに格納されたデータから特徴量を抽出し、ベクトル化した特徴ベクトルを生成する特徴ベクトル生成機能及び各統合データの該特徴ベクトル上の類似性を用いて類似するクラスタを生成するクラスタリング機能を行う自動分類サブ工程と、
前記クラスタ情報データベースに格納した各クラスタを構成する統合データのソース区分に基づいて転用元データのみから成るクラスタ区分である「転用元類似」か転用先のみから成るクラスタ区分である「転用先流用」か転用元及び転用先を含むクラスタ区分である「転用元転用」かに区分するクラスタ区分機能並びに前記クラスタ区分とクラスタ情報を入力として転用判定結果を統合データ群データベースに格納する転用判定機能を行う転用状況判定サブ工程と、
を実行する転用状況可視化方法。 - 前記転用状況判定サブ工程において、クラスタ区分とクラスタ情報を入力とし、クラスタ内の転用元データ及び転用先データ、転用元データ同士、あるいは転用先データ同士の比較と類似度処理によって、転用状況である「未転用」「転用」「修正転用」「転用不良」「履歴参照」を判定する請求項4に記載の転用状況可視化方法。
- 前記コンピュータシステムが、データ統合サブ工程により格納したデータが文書テキストの場合に単語毎の出現頻度、テキストの文字数を算出すること、及び又は音声ファイルの場合に音の大きさや音素の数を算出することにより特徴量を抽出する工程を実行する請求項4又は請求項5に記載の転用状況可視化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013221194A JP6251004B2 (ja) | 2013-10-24 | 2013-10-24 | 転用状況可視化システム及び転用状況可視化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013221194A JP6251004B2 (ja) | 2013-10-24 | 2013-10-24 | 転用状況可視化システム及び転用状況可視化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015082292A JP2015082292A (ja) | 2015-04-27 |
JP6251004B2 true JP6251004B2 (ja) | 2017-12-20 |
Family
ID=53012832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013221194A Expired - Fee Related JP6251004B2 (ja) | 2013-10-24 | 2013-10-24 | 転用状況可視化システム及び転用状況可視化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6251004B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108879A (ja) * | 2000-09-27 | 2002-04-12 | Nec Corp | 製品検索システムおよび製品検索方法 |
JP2006092381A (ja) * | 2004-09-27 | 2006-04-06 | Hitachi Ltd | メディアマイニング方法 |
JP5129082B2 (ja) * | 2008-09-12 | 2013-01-23 | ヤフー株式会社 | 引用判定方法及びそれを用いた評判抽出方法 |
-
2013
- 2013-10-24 JP JP2013221194A patent/JP6251004B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015082292A (ja) | 2015-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102306899B1 (ko) | 텍스트 입력 시스템 및 방법 | |
CN100483417C (zh) | 获取限制词信息的方法、优化输出的方法和输入法系统 | |
JP3983265B1 (ja) | 辞書作成支援システム、方法及びプログラム | |
CN101866364B (zh) | 数据导入方法和装置 | |
US20080235210A1 (en) | Searching related documents | |
CN110781183A (zh) | Hive数据库中增量数据的处理方法、装置以及计算机设备 | |
JP4687089B2 (ja) | 重複レコード検出システム、および重複レコード検出プログラム | |
JP2012159883A (ja) | 情報照合装置、情報照合方法および情報照合プログラム | |
JP5780036B2 (ja) | 抽出プログラム、抽出方法及び抽出装置 | |
JP2012181605A (ja) | データ分析支援装置およびプログラム | |
JP5577546B2 (ja) | 計算機システム | |
CN112527819A (zh) | 通讯录信息检索方法、装置、电子设备及存储介质 | |
JP6251004B2 (ja) | 転用状況可視化システム及び転用状況可視化方法 | |
JP6470249B2 (ja) | データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
KR101589626B1 (ko) | 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법 | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
Alam et al. | Comparing named entity recognition on transcriptions and written texts | |
WO2020080375A1 (ja) | 報告書作成装置、方法、および記録媒体 | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム | |
JP6763967B2 (ja) | データ変換装置とデータ変換方法 | |
JP7261262B2 (ja) | 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法 | |
JP5366709B2 (ja) | 情報処理装置、共通文字列出力方法及びプログラム | |
JP6850543B2 (ja) | 文字列類似値の判定方法及び判定装置 | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161011 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6251004 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |