JP2015082292A - 転用状況可視化システム及び転用状況可視化方法 - Google Patents

転用状況可視化システム及び転用状況可視化方法 Download PDF

Info

Publication number
JP2015082292A
JP2015082292A JP2013221194A JP2013221194A JP2015082292A JP 2015082292 A JP2015082292 A JP 2015082292A JP 2013221194 A JP2013221194 A JP 2013221194A JP 2013221194 A JP2013221194 A JP 2013221194A JP 2015082292 A JP2015082292 A JP 2015082292A
Authority
JP
Japan
Prior art keywords
diversion
data
source
cluster
destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013221194A
Other languages
English (en)
Other versions
JP6251004B2 (ja
Inventor
英志 木村
Hideshi Kimura
英志 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2013221194A priority Critical patent/JP6251004B2/ja
Publication of JP2015082292A publication Critical patent/JP2015082292A/ja
Application granted granted Critical
Publication of JP6251004B2 publication Critical patent/JP6251004B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】転用されるデータの有用性を俯瞰的に且つ半自動的に評価すること。
【解決手段】
データ統合サブシステム300が、転用元データ及び転用先データの変換スキーマの解析を行って統合データ群DB602へ格納するデータ統合処理を行い、自動分類サブシステム500が、統合データ群DB602に格納したデータを元に生成した特徴ベクトルを用いた類似度計算によるクラスタリング処理を行って統合データ群DB602に格納する自動分類処理を行い、転用状況判定サブシステム400が、転用元データ及び転用先データの転用状況を、クラスタ最新データとクラスタ内最新転用元データの同一性及び類似性に基づいて転用状況の判定を行う転用状況可視化システム100。
【選択図】図1

Description

本発明は、転用されるデータの有用性を俯瞰的に且つ半自動的に評価することができ、転用元データの有用性評価を効率化することができる転用状況可視化システム及び転用状況可視化方法に関する。
近年、あるコンピュータシステムで適用された数値・テキスト・音声といった各種データを他コンピュータシステムに転用又は転記することが行われており、この他コンピュータシステムにデータがどれだけ転用・活用されているかという判断により対象となるデータの有用性を評価するために非常に有効である。
例えば、企業においてヘルプデスクにより顧客から入手した非定型データである過去事例に基づいて作成したFAQに対して新しく入手した過去事例をFAQに転用した場合、転用データがどれだけ転用・活用されているかデータの有用性を評価することは非常に有効である。このため、従来技術においては、過去事例に基づいてFAQを作成する場合、何を新しいFAQを追加し、陳腐化したFAQを削除する作業は人手による作業に頼るしかないものであった。
尚、データの転用に関する技術が記載された文献としては下記の特許文献が挙げられ、特許文献1には、情報処理装置が、作業手順管理DBから特定した作業対象要素とその作業対象要素に設定された作業種別とに該当する作業手順を取得し、作業条件管理DBを参照して取得した作業手順に含まれる作業項目番号に対応する作業条件を取得し、構成管理DBを参照して取得した条件が作業対象システム内で満たされているか否かを判断し、作業条件が満たされていないと判断したとき、作業条件管理DBから追加すべき作業の作業項目番号を取得し、取得した作業項目番号を前記作業手順に追加し、作業手順に含まれる作業項目番号に基づいて作業手順書を生成することによって、項目比較により作業手順の不足を検知して管理されている作業項目を自動的に追加する作業手順の管理技術が記載され、特許文献2には、判定対象となる論文データの中から文献データの引用の有無の判定範囲を特定する判定範囲特定部と、文献データの中から論文データとの比較範囲を特定する比較範囲特定部と、特定された判定範囲の記述内容を特定された比較範囲の中から検索し、判定範囲の記述内容と比較範囲の記述内容の相互の類似度を算出する類似度算出部と、算出された類似度が所定の閾値以上である場合に、判定範囲が比較範囲を引用していると判定する文献引用判定部と、文献データの比較範囲を引用している論文データの判定範囲を表示装置に出力する出力制御部とを備えた引用判定支援装置が、特定の文献に対して類似度判定することによって、著作物の無断転用などを防止する技術が記載されている。
特開2010−123045号公報 特開2009−205674号公報
前述の特許文献に記載の技術は、作業項目を自動的に追加することや特定の文献に対して類似度判定することができるものの、データの転用・活用状況により転用元データの有効性を評価するケースにおいては、情報の変更や情報の付加といったただの複製だけではない転用もその範疇とし、その上でどれくらい転用されているかといった頻度も把握する必要があるにもかかわらず、様々な転用状況の把握や頻度の把握や、詳細な転用状況を判定することは考慮されておらず、転用されるデータの有用性を俯瞰的に且つ半自動的に評価することが困難であるという課題があった。
本発明の目的は、前述の従来技術による課題を解決しようとするものであり、転用されるデータの有用性を俯瞰的に且つ半自動的に評価することができる転用状況可視化システム及び転用状況可視化方法を提供することである。
前記目的を達成するため本発明は、転用元データ及び転用先データを入力として、その転用状況の評価を支援する転用状況可視化システムであって、
操作者による転用元データ及び転用先データを入力するための入力部及び転用状況判定結果画面他のデータ表示を行う表示部を有する可視化サブシステムと、
転用元データおよび転用先データが統合されたデータにマッピングするための変換スキーマ定義情報を格納する変換スキーマ定義データベースと、
転用元及び転用先を統合したフォーマットのデータを格納する統合データ群データベースと、
前記入力部から入力された転用元データ及び転用先データが「転用元」か「転用先」かを表すソース区分を転用元データ及び転用先データに追加するソース区分追加部及び変換スキーマ定義データベースに定義された変換スキーマ定義を用いて統合データ群データベースのデータ形式に沿ったデータ形式に変換し、統合データ群データベースに格納するスキーマ管理部とを有するデータ統合サブシステムと、
統合データ群データベースに格納されたデータから特徴量を抽出し、ベクトル化した特徴ベクトルを生成する特徴ベクトル生成部及び各統合データの該特徴ベクトル上の類似性を用いて類似するクラスタを生成するクラスタリング部を有する自動分類サブシステムと、
前記クラスタリング部で出力されたクラスタ情報を格納するクラスタ情報データベースと、
前記クラスタ群データベースに格納した各クラスタを構成する統合データのソース区分に基づいて転用元データのみから成るクラスタ区分である「転用元類似」か転用先のみから成るクラスタ区分である「転用先流用」か転用元及び転用先を含むクラスタ区分である「転用元転用」かに区分するクラスタ区分部並びに前記クラスタ区分とクラスタ情報を入力として転用判定結果を統合データ群データベースに格納する転用判定部を有する転用状況判定サブシステムとを備えることを第1の特徴とする。
また、本発明は、第1の特徴の転用状況可視化システムにおいて、前記転用状況判定サブシステムの転用判定部が、クラスタ区分とクラスタ情報を入力とし、クラスタ内の転用元データ及び転用先データ、転用元データ同士、あるいは転用先データ同士の比較と類似度処理によって、転用状況である「未転用」「転用」「修正転用」「転用不良」「履歴参照」を判定するサブ工程を実施することを第2の特徴とし、前記何れかの特徴の転用状況可視化システムにおいて、前記自動分類サブシステムが、データ統合サブシステムに格納したデータが文書テキストの場合に単語毎の出現頻度、テキストの文字数を算出すること、及び又は音声ファイルの場合に音の大きさや音素の数を算出することにより特徴量を抽出することを第3の特徴とする。
更に、本発明は、操作者による転用元データ及び転用先データを入力するための入力部及び転用状況判定結果画面他のデータ表示を行う表示部を有する可視化サブシステムと、転用元データおよび転用先データが統合されたデータにマッピングするための変換スキーマ定義情報を格納する変換スキーマ定義データベースと、転用元及び転用先を統合したフォーマットのデータを格納する統合データ群データベースと、クラスタ情報を格納するクラスタ情報データベースと、を備え、転用元データ及び転用先データを入力として転用状況の評価を支援するコンピュータシステムの転用状況可視化方法であって、
前記コンピュータシステムが、
入力部から入力された転用元データ及び転用先データが「転用元」か「転用先」かを表すソース区分を転用元データ及び転用先データに追加するソース区分追加機能及び変換スキーマ定義データベースに定義された変換スキーマ定義を用いて統合データ群データベースのデータ形式に沿ったデータ形式に変換し、統合データ群データベースに格納するスキーマ管理機能を行うデータ統合サブ工程と、
統合データ群データベースに格納されたデータから特徴量を抽出し、ベクトル化した特徴ベクトルを生成する特徴ベクトル生成機能及び各統合データの該特徴ベクトル上の類似性を用いて類似するクラスタを生成するクラスタリング機能を行う自動分類サブ工程と、
前記クラスタ群データベースに格納した各クラスタを構成する統合データのソース区分に基づいて転用元データのみから成るクラスタ区分である「転用元類似」か転用先のみから成るクラスタ区分である「転用先流用」か転用元及び転用先を含むクラスタ区分である「転用元転用」かに区分するクラスタ区分機能並びに前記クラスタ区分とクラスタ情報を入力として転用判定結果を統合データ群データベースに格納する転用判定機能を行う転用状況判定サブ工程とを実行することを第4の特徴とする。
また、本発明は、第4の特徴の転用状況可視化方法の転用状況判定サブ工程において、クラスタ区分とクラスタ情報を入力とし、クラスタ内の転用元データ及び転用先データ、転用元データ同士、あるいは転用先データ同士の比較と類似度処理によって、転用状況である「未転用」「転用」「修正転用」「転用不良」「履歴参照」を判定することを第5の特徴とし、前記何れかの特徴の転用状況可視化方法において、前記コンピュータシステムが、データ統合サブ工程により格納したデータが文書テキストの場合に単語毎の出現頻度、テキストの文字数を算出すること、及び又は音声ファイルの場合に音の大きさや音素の数を算出することにより特徴量を抽出する工程を実行することを第6の特徴とする。
本発明による転用状況可視化システム及び転用状況可視化方法は、データ統合サブシステムのソース区分部が、入力部から入力された転用元データ及び転用先データが「転用元」か「転用先」かを表すソース区分を転用元データ及び転用先データに追加し、同スキーマ管理部が、変換スキーマ定義データベースに定義された変換スキーマ定義を用いて統合データ群データベースのデータ形式に沿ったデータ形式に変換し、同自動分類サブシステムの特徴ベクトル生成部が、統合データ群データベースに格納されたデータから特徴量を抽出し、ベクトル化した特徴ベクトルを生成し、同クラスタリング部が、各統合データの該特徴ベクトル上の類似性を用いて類似するクラスタを生成し、転用状況判定システムのクラスタ区分部が、前記クラスタ群データベースに格納した各クラスタを構成する統合データのソース区分に基づいて転用元データのみから成るクラスタ区分である「転用元類似」か転用先のみから成るクラスタ区分である「転用先流用」か転用元及び転用先を含むクラスタ区分である「転用元転用」かに区分し、同転用判定部が、前記クラスタ区分とクラスタ情報を入力として転用判定結果を統合データ群データベースに格納するを行うことによって、転用されるデータの有用性を俯瞰的に且つ半自動的に評価することができる。
本発明は、例えば、「転用元類似」に設定されたクラスタが、転用元データが陳腐化しており、転用先データに見合う記載になっていないことが示唆され、該転用元データの修正や削除などの改善が期待でき、「転用先流用」に設定されたクラスタは転用元データが不足している可能性を示唆しており、転用元データを追加するなどの改善が期待でき、「転用元転用」では、転用元データが転用先データに「転用」されている可能性があり、改善のためには詳細な転用の状況に関して分析が必要であることが示唆されるといったように俯瞰的に且つ半自動的に評価することができる。
本発明の実施形態による転用状況可視化システムを示す図。 本実施形態によるデータ統合サブシスステムの処理フローを示す図。 本実施形態による変換スキーマ定義DBのテーブル定義例を示す図。 本実施形態による統合データ群DBのテーブル定義例を示す図。 本実施形態による自動分類サブシステムの処理フローを示す図。 本実施形態による転用判定部の処理フローを示す図。 本実施形態によるクラスタ区分部の処理フローを示す図。 本実施形態による表示画面例を示す図。
以下、本発明による転用状況可視化方法を適用した転用状況可視化システムの一実施形態を図面を参照して詳細に説明する。
[構成]
本実施形態による転用状況可視化システムは、図1に示す如く、転用元となるデータを一意に表すデータソースと該データソースの区分とデータ項目(テキストデータ項目、音声データ項目)とを含む変換スキーマ定義情報を格納する変換スキーマ定義(データベース)DB601と、一意の識別子別のデータソース区分とクラスタと転用状況(修正転用・履歴参照)とデータ内容(テキストデータの内容)とを含む総合情報を格納する統合データ群DB602と、類似する要素群のクラスタ間の距離を含むクラスタ情報を格納するクラスタ情報DB603と、操作者による入力データ(転用元データ、転用先データ、変換スキーマ定義を含む様々な要求)を入力するための入力部201及び転用状況判定結果画面他の表示を行う表示部202を有する可視化サブシステム200と、前記入力部201から入力された転用元データ及び転用先データに対してソース区分(「転用元」、「転用先」のラベル)を追加するソース区分追加部301及び変換スキーマ定義DB601に定義された変換スキーマ定義6032を用いて統合データ群DB602のデータ形式に沿ったデータ形式に変換し、統合データ群DB602に格納するスキーマ管理部302とを有するデータ統合サブシステム300と、前記クラスタ情報DB603に格納したクラスタ情報間の転用判定を行って転用判定結果を出力する転用判定部401及び該転用判定結果を更に転用判定の高精度化のために必要に応じて更に区分し、転用判定結果を統合データ群DB602に格納するクラスタ区分部402を有する転用状況判定サブシステム400と、統合データ群DB602に格納されたデータから特徴量を抽出し、ベクトル化した特徴ベクトルを生成する特徴ベクトル生成部501及び該特徴ベクトルを用いて自動分類処理を行うクラスタリング部502を有する自動分類サブシステム500とを備える。また、本実施形態による転用状況可視化システムは、一般のコンピュータシステムから構成され、後述する処理においては図示しないCPU等の制御手段がメモリの一時記憶領域に各種データを格納・参照・更新しながら所定の動作を実行するものであり、このメモリへのデータ格納・参照・更新の詳細については省略して説明する。
前記変換スキーマ定義DB601のテーブル定義は、図3に示す如く、転用元となるデータを一意に表すデータソース6011と、該データソースの区分6012と、日時と、テキストデータ項目であるテキスト6013及び6014と、音声データ項目である音声6015とを含む変換スキーマ定義情報を格納する。この変換スキーマ定義は、データソース6011及びデータソース区分6012対応に、後述する統合データスキーマの各列に対応する列名を格納するマッピング定義列(テキスト6013〜6015)を格納するように構成されている。
前記統合データ群DB602のテーブル定義は、図4に示す如く、転用元及び転用先を含む接頭字が追加された一意の識別子6021と、データソース区分6022と、クラスタと、修正転用・履歴参照等の転用状況6025と、テキストデータの内容の具体的内容である複数のテキスト6023及び6024とを含む総合情報を格納する。即ち、統合データは、接頭字が追加された識別子6021とデータソース区分6022とマッピング定義列で定義した通りの列値(テキスト6023〜6025)を格納する。
[動作]
前述のように構成された本実施形態によるデータ統合サブシステム300は、図2に示す如く、ソース区分追加部301が、入力されたデータ6031に含まれるスキーマ定義から一意の識別子及びデータ型を抽出し、該入力データ6031のスキーマ(構造)を抽出するステップS3011と、該ステップS3011で抽出したスキーマ又は入力されたデータスキーマに基づいて一意の識別子を選定し、一意の識別子候補がなければ自動的に連番の識別子を採番するステップS3012と、該ステップS3012により選定または採番された一意識別子に、変換スキーマ定義のデータソース区分に基づいて接頭字を追加するステップS3013とを実行する。尚、前記データ区分とは、転用元か転用先かの種別に基づく組合せ、「転用先」「転用元」である。
次いで、本データ統合サブシステム300は、スキーマ管理部302が、前記ステップ3011で抽出したスキーマと前記変換スキーマ定義DB601に格納された変換スキーマ定義6032とを入力とし、これらをマッピングすることにより変換スキーマの解析を行うステップS3021と、該ステップS3012によるマッピング結果に基づいて統合データ群DB602に入力データを格納するためのクエリ文(処理要求[問い合わせ]を文字列として表したもの)を生成するステップS3022と、該ステップS3022により生成したクエリ文と前記ステップS3013にて加工済みのデータを入力として、統合データスキーマへの変換及び統合データ群DB602への格納を行うステップS3023とを実行することによってデータ統合処理を行うように動作する。
次いで、本実施形態による自動分類サブシステム500は、図5に示す如く、特徴ベクトル生成部501が、統合データ群DB602を参照し、ベクトル化が必要なデータを抽出して、特徴量を算出するステップS5011と、算出した特徴量を列挙することにより特徴ベクトルを生成するステップS5012と、クラスタリング部502が、前記生成した特徴ベクトルを用いた類似度計算を基本としたクラスタリング処理を行って統合データ群DB602に格納するステップS5022とを実行することによって、自動分類処理を行うように動作する。
尚、前記ステップS5011における特徴量はデータ形式や目的に応じて算出方法を変えることができ、例えば文書テキストの場合には単語毎の出現頻度やテキストの文字数を算出することや、音声ファイルであれば音の大きさや音素の数を算出することが挙げられ、前記ステップS5012による特徴量の列挙は、自動分類の精度を向上させるために特徴量の正規化を行っても良く、前記ステップS5022によるクラスタリング処理結果は、データがどのクラスタに所属するかを統合データ群DB602に格納し、クラスタ間の距離と言ったクラスタそのものの情報は、クラスタ情報DB603に格納する。
次に、本実施形態によるクラスタ区分部402は、図7に示す如く、統合データ群DB602に格納した各クラスタ内データのデータソース区分について、それぞれ「転用元」「転用先」のデータ数を集計するステップS4201と、クラスタ要素のデータ区分に「転用先」が存在するかどうかを判定するステップS4202と、該ステップS4202において存在しないと判定したとき、クラスタ区分を「転用先流用」とするステップS4203と、前記ステップS4202において存在すると判定したとき、クラスタ要素のデータソース区分に「転用元」が存在するか否かを判定するステップS4204と、該ステップS4204において存在しないと判定したとき、クラスタ区分を「転用先類似」と設定するステップS4205と、前記ステップS4204において存在すると判定したとき、クラスタ区分を「転用元転用」と設定するステップS4206とを実行することによって、クラスタ区分の判定処理を行う。
更に、本実施形態による転用状況判定サブシステム400は、図6に示す如く、転用判定部401が、入力となる各クラスタについて、クラスタの最新データ(クラスタ最新データと呼ぶ)の取り出し及びクラスタ内転用元データの最新データ(クラスタ内最新転用元データと呼ぶ)の取り出しを行うため、更新日時に基づいたソート処理を行った上で転用元データのみを抽出するステップS4101と、前記クラスタ最新データとクラスタ内最新転用元データとが同一データであるか否か(最新か否か)を判定するステップS4102と、該ステップS4102において同一(最新)であると判定したとき、未だ転用されていないと判断し、転用状況を「未転用」に設定して更新処理を行うステップS4103と、前記ステップS4102において同一でない(最新でない)と判定したとき、クラスタ内の転用先データ毎に下記処理(対象転用元データは転用判定外として次の対象転用元データを対象とした処理)の実行を開始するステップ4104とを実行する。
次いで本システムは、前記ステップS4104に続き、対象転用先データの更新日時がクラスタ内最新転用元データの更新日時よりも新しいか否かを判定するステップS4105と、該ステップS4105において対象転用元データの方が新しいと判定したとき、クラスタ内最新転用元データと対象転用先データの値が転用元対象となる値に対し数値や文字列比較して一致するかを判定するステップS4106と、該ステップS4106において一致していると判定したとき、転用状況を「転用」に設定して更新処理を行うステップS4107と、前記ステップS4106において一致しないと判定したとき、対象転用先データとクラスタ内の各データの類似度(各データの類似度は図3ステップ5022の特徴量計算と同等の処理により算出)を比較し、クラスタ内で最も類似するデータが最新転用元データか否かを判定するステップS4108と、該ステップS4108において最も類似するデータが最新転用元データと判定したとき、転用状況を「修正転用」に設定して更新処理を行うステップS4109と、前記ステップS4108において最も類似するデータが最新転用元データでないと判定したとき、クラスタ内で最も類似するデータが過去の転用元データか否かを判定するステップS4110と、該ステップS4110において最も類似するデータが過去の転用元データであると判定したとき、転用状況を「転用不良」に設定して更新処理を行うステップS4111と、前記ステップS4110において最も類似するデータが過去の転用元データでないと判定したとき、クラスタ内で最も類似するデータが過去の転用先データか否かを判定するステップS4112と、該ステップS4112において最も類似するデータが過去の転用先データであると判定したとき、転用状況を「履歴参照」に設定して更新処理を行うステップS4113と、前記ステップS4112において最も類似するデータが過去の転用先データでないと判定したとき、統合データ群DB602にデータを格納し、更新される転用状況を転用状況6025のレコードに格納して処理を終了することによって、転用状況を判定し、格納するように動作する。尚、本判定処理は、処理の追加・削除を禁止しておらず、新しい判定処理を追加することもできるし、詳細な判定条件により細分化された転用状況を付与することも可能である。
次に、本実施形態によるデータ統合サブシステム300は、転用状況判定サブシステム400が表示部202に図8に示した転用状況判定結果画面を表示する。
この転用状況判定結果画面は、図8に示す如く、画面全体2010の内部にクラスタの情報2011を表示し、このクラスタの情報2011は、必要な数だけ繰返し列挙されものであって、ユーザが記入可能なクラスタタイトル部2012と、クラスタ区分の結果を表示するクラスタ区分表示部2014と、クラスタを構成するデータの特徴ベクトル生成に用いられた情報を抜粋して表示する特徴表示部2013と、クラスタを構成するデータを一覧表示し、これらデータは、ソース区分2015と転用状況2016と識別子2017と更新日時2018とテキスト2019及び2020の各項目情報から成り、例えば、ソース区分2015が「転用元」のレコードに、識別子2017が「A転用元001D」、更新日時2018が「20:11:11」、テキスト2019が「XXサービスに関する〜」、テキスト2020が「XX機能は昨日列挙した〜」の如く表示され、ソース区分2015が「転用先」のレコードに、転用状況2016が「修正転用」、識別子2017が「A転用先A432」、更新日時2018が「20:11:13」、テキスト2019が「○Xサービスに関する〜」、テキスト2020が「機能リストを参照したところ〜」の如く表示される。
このように本実施形態によるデータ統合サブシステム300は、クラスタを構成するデータとして、ソース区分2015、転用状況2016、識別子2017、更新日時2018や、自動分類サブシステムにて特徴量を抽出した値、例えばテキスト情報(符号2019、2020)を表示することによって、クラスタを構成するデータを俯瞰することができ、また、転用状況の傾向把握を支援することができる。
以上の実施形態によるデータ統合サブシステム300は、自動分類した集合(クラスタ)の要素が転用元を含むか転用先を含むか否かによって区分し、自動分類した集合(クラスタ)の中で転用状況を判定する手段を備えたことによって、単なる一致判定では判定が困難な転用状況においても、転用元と転用先を同集合として自動分類し、類似判定を行うことで転用状況の判定に基づいた作業を支援することができる。また、転用状況が記録されたデータを画面から参照することで、転用状況を一覧的に参照することができ、個々のデータの状況だけではなく、俯瞰した視点により転用元・転用先データの状況の把握を支援することができ、例えば、コールセンタ受付履歴とFAQに適用することにより、新しく入手した過去事例をFAQに転用した場合、転用データがどれだけ転用・活用されているかデータの有用性を評価することができる。
100 転用状況可視化システム、200 可視化サブシステム、
201 入力部、202 表示部、300 データ統合サブシステム、
301 ソース区分追加部、302 スキーマ管理部、
400 転用状況判定サブシステム、401 転用判定部、
402 クラスタ区分部、500 自動分類サブシステム、
501 特徴ベクトル生成部、502 クラスタリング部、
601 変換スキーマ定義DB、602 統合データ群DB、
603 クラスタ情報DB

Claims (6)

  1. 転用元データ及び転用先データを入力として、その転用状況の評価を支援する転用状況可視化システムであって、
    操作者による転用元データ及び転用先データを入力するための入力部及び転用状況判定結果画面他のデータ表示を行う表示部を有する可視化サブシステムと、
    転用元データおよび転用先データが統合されたデータにマッピングするための変換スキーマ定義情報を格納する変換スキーマ定義データベースと、
    転用元及び転用先を統合したフォーマットのデータを格納する統合データ群データベースと、
    前記入力部から入力された転用元データ及び転用先データが「転用元」か「転用先」かを表すソース区分を転用元データ及び転用先データに追加するソース区分追加部及び変換スキーマ定義データベースに定義された変換スキーマ定義を用いて統合データ群データベースのデータ形式に沿ったデータ形式に変換し、統合データ群データベースに格納するスキーマ管理部とを有するデータ統合サブシステムと、
    統合データ群データベースに格納されたデータから特徴量を抽出し、ベクトル化した特徴ベクトルを生成する特徴ベクトル生成部及び各統合データの該特徴ベクトル上の類似性を用いて類似するクラスタを生成するクラスタリング部を有する自動分類サブシステムと、
    前記クラスタリング部で出力されたクラスタ情報を格納するクラスタ情報データベースと、
    前記クラスタ群データベースに格納した各クラスタを構成する統合データのソース区分に基づいて転用元データのみから成るクラスタ区分である「転用元類似」か転用先のみから成るクラスタ区分である「転用先流用」か転用元及び転用先を含むクラスタ区分である「転用元転用」かに区分するクラスタ区分部並びに前記クラスタ区分とクラスタ情報を入力として転用判定結果を統合データ群データベースに格納する転用判定部を有する転用状況判定サブシステムとを備えることを特徴とする転用状況可視化システム。
  2. 前記転用状況判定サブシステムの転用判定部が、クラスタ区分とクラスタ情報を入力とし、クラスタ内の転用元データ及び転用先データ、転用元データ同士、あるいは転用先データ同士の比較と類似度処理によって、転用状況である「未転用」「転用」「修正転用」「転用不良」「履歴参照」を判定するサブ工程を実施することを特徴とする請求項1記載の転用状況可視化システム。
  3. 前記自動分類サブシステムが、データ統合サブシステムに格納したデータが文書テキストの場合に単語毎の出現頻度、テキストの文字数を算出すること、及び又は音声ファイルの場合に音の大きさや音素の数を算出することにより特徴量を抽出することを特徴とする請求項1又は2記載の転用状況可視化システム。
  4. 操作者による転用元データ及び転用先データを入力するための入力部及び転用状況判定結果画面他のデータ表示を行う表示部を有する可視化サブシステムと、転用元データおよび転用先データが統合されたデータにマッピングするための変換スキーマ定義情報を格納する変換スキーマ定義データベースと、転用元及び転用先を統合したフォーマットのデータを格納する統合データ群データベースと、クラスタ情報を格納するクラスタ情報データベースと、を備え、転用元データ及び転用先データを入力として転用状況の評価を支援するコンピュータシステムの転用状況可視化方法であって、
    前記コンピュータシステムが、
    入力部から入力された転用元データ及び転用先データが「転用元」か「転用先」かを表すソース区分を転用元データ及び転用先データに追加するソース区分追加機能及び変換スキーマ定義データベースに定義された変換スキーマ定義を用いて統合データ群データベースのデータ形式に沿ったデータ形式に変換し、統合データ群データベースに格納するスキーマ管理機能を行うデータ統合サブ工程と、
    統合データ群データベースに格納されたデータから特徴量を抽出し、ベクトル化した特徴ベクトルを生成する特徴ベクトル生成機能及び各統合データの該特徴ベクトル上の類似性を用いて類似するクラスタを生成するクラスタリング機能を行う自動分類サブ工程と、
    前記クラスタ群データベースに格納した各クラスタを構成する統合データのソース区分に基づいて転用元データのみから成るクラスタ区分である「転用元類似」か転用先のみから成るクラスタ区分である「転用先流用」か転用元及び転用先を含むクラスタ区分である「転用元転用」かに区分するクラスタ区分機能並びに前記クラスタ区分とクラスタ情報を入力として転用判定結果を統合データ群データベースに格納する転用判定機能を行う転用状況判定サブ工程とを実行することを特徴とする転用状況可視化方法。
  5. 前記転用状況判定サブ工程において、クラスタ区分とクラスタ情報を入力とし、クラスタ内の転用元データ及び転用先データ、転用元データ同士、あるいは転用先データ同士の比較と類似度処理によって、転用状況である「未転用」「転用」「修正転用」「転用不良」「履歴参照」を判定することを特徴とする請求項4記載の転用状況可視化方法。
  6. 前記コンピュータシステムが、データ統合サブ工程により格納したデータが文書テキストの場合に単語毎の出現頻度、テキストの文字数を算出すること、及び又は音声ファイルの場合に音の大きさや音素の数を算出することにより特徴量を抽出する工程を実行することを特徴とする請求項4又は5記載の転用状況可視化方法。
JP2013221194A 2013-10-24 2013-10-24 転用状況可視化システム及び転用状況可視化方法 Expired - Fee Related JP6251004B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013221194A JP6251004B2 (ja) 2013-10-24 2013-10-24 転用状況可視化システム及び転用状況可視化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013221194A JP6251004B2 (ja) 2013-10-24 2013-10-24 転用状況可視化システム及び転用状況可視化方法

Publications (2)

Publication Number Publication Date
JP2015082292A true JP2015082292A (ja) 2015-04-27
JP6251004B2 JP6251004B2 (ja) 2017-12-20

Family

ID=53012832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013221194A Expired - Fee Related JP6251004B2 (ja) 2013-10-24 2013-10-24 転用状況可視化システム及び転用状況可視化方法

Country Status (1)

Country Link
JP (1) JP6251004B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108879A (ja) * 2000-09-27 2002-04-12 Nec Corp 製品検索システムおよび製品検索方法
JP2006092381A (ja) * 2004-09-27 2006-04-06 Hitachi Ltd メディアマイニング方法
JP2010067243A (ja) * 2008-09-12 2010-03-25 Yahoo Japan Corp 引用判定方法及びそれを用いた評判抽出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108879A (ja) * 2000-09-27 2002-04-12 Nec Corp 製品検索システムおよび製品検索方法
JP2006092381A (ja) * 2004-09-27 2006-04-06 Hitachi Ltd メディアマイニング方法
JP2010067243A (ja) * 2008-09-12 2010-03-25 Yahoo Japan Corp 引用判定方法及びそれを用いた評判抽出方法

Also Published As

Publication number Publication date
JP6251004B2 (ja) 2017-12-20

Similar Documents

Publication Publication Date Title
CN107402992B (zh) 一种分布式NewSQL数据库系统和全文检索建立方法
CN105808284B (zh) 一种增量升级方法及应用其的服务器
JP5328808B2 (ja) データをクラスタリングする方法、システム、装置およびその方法を適用するためのコンピュータ・プログラム
CN103810212A (zh) 一种数据库索引的自动创建方法及系统
US20210357461A1 (en) Method, apparatus and storage medium for searching blockchain data
US20190243912A1 (en) Rapid design, development, and reuse of blockchain environment and smart contracts
CN110781183A (zh) Hive数据库中增量数据的处理方法、装置以及计算机设备
US9734178B2 (en) Searching entity-key associations using in-memory objects
CN103970751A (zh) 多国语言网页转换系统及方法
KR20130139724A (ko) 컴퓨팅 시스템 및 그 실행 제어 방법과, 그 실행 제어 프로그램을 기록한 기록 매체
KR20090041519A (ko) 정보 맵 관리 시스템 및 방법
CN112527819A (zh) 通讯录信息检索方法、装置、电子设备及存储介质
JP6251004B2 (ja) 転用状況可視化システム及び転用状況可視化方法
CN106126633B (zh) 贵金属数据的处理方法、装置和系统
US11341190B2 (en) Name matching using enhanced name keys
WO2017072872A1 (ja) 業務プログラム生成支援システムおよび業務プログラム生成支援方法
JP6150664B2 (ja) マイニング分析装置、方法及びプログラム
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
JP5229170B2 (ja) ソフトウェア更新装置、方法、及びプログラム
CN111311329B (zh) 标签数据获取方法、装置、设备及可读存储介质
JP2020064383A (ja) リスク特定装置、リスク特定方法、およびプログラム
KR101975998B1 (ko) Sql 구문 기반의 데이터 이관 장치 및 방법
JP6801268B2 (ja) テーブル管理装置、テーブル管理方法およびテーブル管理プログラム
JP6627809B2 (ja) データベース処理装置、システム、方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171124

R150 Certificate of patent or registration of utility model

Ref document number: 6251004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees