JP2021061063A - 推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム - Google Patents

推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム Download PDF

Info

Publication number
JP2021061063A
JP2021061063A JP2021004135A JP2021004135A JP2021061063A JP 2021061063 A JP2021061063 A JP 2021061063A JP 2021004135 A JP2021004135 A JP 2021004135A JP 2021004135 A JP2021004135 A JP 2021004135A JP 2021061063 A JP2021061063 A JP 2021061063A
Authority
JP
Japan
Prior art keywords
data
column
conversion
service
conversion instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021004135A
Other languages
English (en)
Other versions
JP7148654B2 (ja
Inventor
ストジャノビク,アレクサンダー・サシャ
Sasha Stojanovic Alexander
リーバス,ルイス・イー
E Rivas Luis
オグレン,フィリップ
Ogren Philip
マリー,グレン・アレン
Allen Murray Glenn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oracle International Corp
Original Assignee
Oracle International Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oracle International Corp filed Critical Oracle International Corp
Publication of JP2021061063A publication Critical patent/JP2021061063A/ja
Application granted granted Critical
Publication of JP7148654B2 publication Critical patent/JP7148654B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】データセットを抽出、修復、および強化することにより、後のインデックス作成およびクラスタ化のための、より精密なエンティティのレゾリューションおよび相関を得るデータ強化サービス及びデータ強化システムを提供する。【解決手段】データ強化システム300において、データ強化サービス302は、異種のデータセットの大規模なデータの準備、修復および強化を実行するための視覚推薦エンジンおよび言語を含む。これにより、ユーザは、推薦された強化(たとえば変換及び修復)がどのようにユーザのデータに影響しどのように調整を必要に応じて実行するかを、選択し確認する。データ強化サービスは、ユーザインターフェイスを通してユーザからのフィードバックを受けり、かつ、ユーザからのフィードバックに基づいて推薦をフィルタリングする。【選択図】図3

Description

関連出願の相互参照
本願は、2014年9月26日に出願され「DECLARATIVE LANGUAGE AND VISUALIZATION
SYSTEM FOR RECOMMENDED DATA TRANSFORMATIONS AND REPAIRS」と題された米国仮出願第62/056,471号に基づく利益および優先権を主張する2015年9月24日に出願され「DECLARATIVE LANGUAGE AND VISUALIZATION SYSTEM FOR RECOMMENDED DATA TRANSFORMATIONS AND REPAIRS」と題された米国非仮特許出願第14/864,496号に基づく利益および優先権を主張する。
本願は以下の出願に関連する。
1)2014年9月26日に出願され「METHOD FOR SEMANTIC ENTITY EXTRACTION BASED ON GRAPH MATCHING WITH AN EXTERNAL KNOWLEDGEBASE AND SIMILARITY RANKING OF DATASET METADATA FOR SEMANTIC INDEXING, SEARCH, AND RETRIEVAL」と題された米国仮出願第62/056,468号
2)2014年9月26日に出願され「DYNAMIC VISUAL PROFILING AND VISUALIZATION
OF HIGH VOLUME DATASETS AND REAL-TIME SMART SAMPLING AND STATISTICAL PROFILING OF EXTREMELY LARGE DATASETS」と題された米国仮出願第62/056,474号
3)2014年9月26日に出願され「AUTOMATED ENTITY CORRELATION AND CLASSIFICATION ACROSS HETEROGENEOUS DATASETS」と題された米国仮出願第62/056,475

4)2014年9月26日に出願され「DECLARATIVE EXTERNAL DATA SOURCE IMPORTATION, EXPORTATION, AND METADATA REFLECTION UTILIZING HTTP AND HDFS PROTOCOLS」と題された米国仮出願第62/056,476号
5)2015年5月18日に出願され「CATEGORY LABELING」と題された米国仮出願第
62/163,296号
6)2015年8月11日に出願され「SIMILARITY METRIC ANALYSIS AND KNOWLEDGE SCORING SYSTEM」と題された米国仮出願第62/203,806号
上記特許出願の内容全体を、すべての目的のために本明細書に引用により援用する。
簡単な概要
本開示は、概してデータの準備および分析に関する。より具体的には、推薦されるデータ変換および修復のための対話型ビジュアライゼーションを生成するための技術が開示される。
本開示は、概してデータ強化(data enrichment)サービスに関し、このサービスは、
データセットを抽出、修復、および強化することにより、後のインデックス作成およびクラスタ化のための、より精密なエンティティのレゾリューションおよび相関を得る。データ強化サービスは、異種のデータセットの大規模なデータの準備、修復、および強化を実行するための視覚推薦エンジンおよび言語を含み得る。これにより、ユーザは、推薦された強化(たとえば変換および修復)がどのようにユーザのデータに影響しどのように調整を必要に応じて実行するかを、選択し確認することができる。データ強化サービスは、ユーザインターフェイスを通してユーザからのフィードバックを受けることができ、かつ、ユーザからのフィードバックに基づいて推薦をフィルタリングすることができる。
いくつかの実施形態において、コンピューティングシステムを、推薦されるデータ変換および修復のための対話型ビジュアライゼーションを生成して表示するために実装してもよい。コンピューティングシステムは、データ強化サービスを実装し得る。コンピューティングシステムは、本明細書に記載の方法およびオペレーションを実装するように構成されてもよい。いくつかの実施形態において、推薦されるデータ変換および修復のための対話型ビジュアライゼーションを生成して表示するためのシステムが開示される。このシステムは、複数のデータソースと複数のデータターゲットとを含み得る。このシステムは、少なくとも1つの通信ネットワークを通して複数のデータソースに通信可能に結合されかつ複数のデータターゲットに通信可能に結合された1つ以上のプロセッサを備えるクラウドコンピューティングインフラストラクチャシステムを含み得る。クラウドコンピューティングインフラストラクチャシステムは、上記1つ以上のプロセッサに結合されたメモリを含み得る。メモリは、データ強化サービスを提供することを指示する命令を含み、この命令が上記1つ以上のプロセッサによって実行されると、本明細書に記載の1つ以上の方法またはオペレーションが上記1つ以上のプロセッサによって実行される。さらに他の実施形態は、システムと、機械読取可能な有形の記憶媒体とに関し、これは、本明細書に記載の方法およびオペレーションのための命令を用いるまたは格納する。
少なくとも1つの実施形態において、方法は、データ強化要求をクライアントデバイスから受けるステップを含み得る。この方法は、コンピュータシステムによって、1つ以上のデータソースからのデータにおけるパターンを識別するステップを含み得る。この方法は、上記パターンを知識サービスからのエンティティ情報に対してマッチングするステップを含み得る。この方法は、上記エンティティ情報に基づいて上記データのための1つ以上の変換スクリプトを生成するステップを含み得る。この方法は、上記1つ以上の変換スクリプトに対応する1つ以上の推薦を生成するステップを含み得る。この方法は、上記1つ以上の推薦をクライアントデバイスのユーザインターフェイスに表示させるステップを含み得る。この方法は、上記1つ以上の推薦に基づく変換命令を受けるステップを含み得る。この方法は、上記変換命令に基づいてデータを変換するステップを含み得る。この方法は、上記変換命令に基づいて上記変換されたデータを1つ以上のデータターゲットに対して公開するステップを含み得る。
いくつかの実施形態において、この方法は、上記1つ以上のデータソースのうちの少なくとも1つのデータソースからデータの少なくとも1つの列の選択を受けるステップと、上記データの少なくとも1つの列のデータプロファイルを表示させるステップとを含み得る。上記データプロファイルは、上記データの少なくとも1つの列において識別された複数のパターンと、上記データの少なくとも1つの列に対応付けられた少なくとも1つのデータビジュアライゼーションとを示してもよい。
少なくとも1つの実施形態において、変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列をリネームすることを指示する変換命令を含む。この方法は、上記データの少なくとも1つの列をデフォルト名にリネームすることを指示する他の変換命令を受けるステップを含み得る。いくつかの実施形態において、変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列を再フォーマットすることを指示する変換命令を含む。いくつかの実施形態において、変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列を難読化することを指示する他の変換命令を含む。いくつかの実施形態において、変換命令は、エンティティ情報に基づいて知識サービスから取得したデータの1つ以上の列を追加することを指示する強化命令を含む。
本発明の1つの実施形態において、データの少なくとも1つの列の選択をデータソースのうちの少なくとも1つから受けたときに、上記データの少なくとも1つの列のデータプロファイルをクライアントデバイス上のユーザインターフェイスに表示させ、上記データ
プロファイルは、上記データの少なくとも1つの列において識別された複数のパターンと、上記データの少なくとも1つの列に対応付けられた少なくとも1つのデータビジュアライゼーションとを示す。
本発明の1つの実施形態において、変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列をリネームすることを指示する変換命令を含む。
本発明の1つの実施形態において、他の変換命令を受けて上記データの少なくとも1つの列をデフォルト名にリネームする。
本発明の1つの実施形態において、変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列を再フォーマットすることを指示する変換命令を含む。
本発明の1つの実施形態において、変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列を難読化することを指示する他の変換命令を含む。
本発明の1つの実施形態において、変換命令は、エンティティ情報に基づいて知識サービスから取得したデータの1つ以上の列を追加することを指示する強化命令を含む。
これまでに述べたことは、他の特徴および実施形態とともに、以下の明細書、請求項、および添付の図面を参照すれば、より明らかになるであろう。
本発明の実施形態に従うデータ強化サービスの簡略化されたハイレベル図を示す。 本発明の実施形態に従うテクノロジースタックの簡略化されたブロック図を示す。 本発明の実施形態に従う対話型ビジュアライゼーションシステムの簡略化されたブロック図を示す。 本発明の実施形態に従う対話型データ強化を提供するユーザインターフェイスの一例を示す。 本発明の実施形態に従う対話型データ強化を提供するユーザインターフェイスの一例を示す。 本発明の実施形態に従う対話型データ強化を提供するユーザインターフェイスの一例を示す。 本発明の実施形態に従う対話型データ強化を提供するユーザインターフェイスの一例を示す。 本発明の実施形態に従う対話型データ強化の結果の一例を示す。 本発明の実施形態に従う対話型データ強化の結果の一例を示す。 本発明の実施形態に従う対話型データ強化の結果の一例を示す。 本発明の実施形態に従う対話型データ強化の結果の一例を示す。 本発明の実施形態に従うデータ強化方法のフローチャートを示す。 実施形態を実現するための分散型システムの簡略図を示す。 本開示の実施形態に従うクラウドサービスとしてサービスを提供し得るシステム環境の1つ以上のコンポーネントの簡略化されたブロック図である。 本発明の実施形態を実現するのに使用し得る典型的なコンピュータシステムを示す。
詳細な説明
以下の記載において、説明のために、具体的な詳細事項を述べることによって本発明の実施形態が十分に理解されるようにする。しかしながら、これらの具体的な詳細事項がなくてもさまざまな実施形態を実施し得ることが明らかであろう。図面および説明は限定を意図したものではない。
本開示は概してデータ強化サービスに関し、このサービスは、データセットを抽出、修復、および強化することにより、後のインデックス作成およびクラスタ化のための、より精密なエンティティのレゾリューションおよび相関を得る。いくつかの実施形態において、データ強化サービスは、データの採集からデータの分析までの多数の段階でデータを処理することによってデータをデータターゲットに対して公開する拡張可能なセマンティックパイプラインを含む。
本発明のある実施形態において、データをデータウェアハウス(またはその他のデータターゲット)にロードする前に、さまざまな処理段を含むパイプライン(本明細書ではセマンティックパイプラインとも呼ぶ)を通して処理する。いくつかの実施形態において、パイプラインは、採集段と、準備段と、プロファイル段と、変換段と、公開段とを含み得る。処理中に、データを分析し、準備し、強化することができる。次に、結果として得られたデータを1つ以上のデータターゲット(たとえばローカルストレージシステム、クラウドベースのストレージサービス、ウェブサービス、データウェアハウス等)に公開する(たとえば下流のプロセスに与える)ことができる。このターゲットにおいて、データに対しさまざまなデータ分析を実行することができる。このデータには修復と強化が行なわれているので、それを分析することによって有用な結果が得られる。したがって、データオンボーディングプロセスは自動化されているので、スケーリングすることにより、その量のためにマニュアル処理できない非常に大きなデータセットを処理することができる。
いくつかの実施形態において、データを分析してこのデータからエンティティを抽出することができ、抽出したエンティティに基づいてデータを修復することができる。たとえば、スペルミス、アドレスの誤り、およびその他の一般的な間違いは、ビッグデータシステムに対して複雑な問題を示す。データ量が少ない場合はこのような誤りをマニュアルで識別して修正できる。しかしながら、非常に大きなデータセット(たとえば何十億ものノードまたは記録)の場合、このようなマニュアル処理は不可能である。本発明のある実施形態において、データ強化サービスは、知識サービスを用いてデータを分析することができる。知識サービスのコンテンツに基づいて、データ内のエンティティを識別することができる。たとえば、エンティティは、住所、事業所名、場所、個人名、ID番号等であってもよい。
図1は、本発明の実施形態に従うデータ強化サービスの簡略化されたハイレベル図100を示す。図1に示されるように、クラウドベースのデータ強化サービス102は、さまざまなデータソース104からデータを受信することができる。いくつかの実施形態において、クライアントはデータ強化要求をデータ強化サービス102に対して出すことができ、データ強化サービス102はデータソース104のうちの1つ以上(またはその一部、たとえば特定の表、データセット等)を識別する。次に、データ強化サービス102は、識別したデータソース104からのデータの処理を要求してもよい。いくつかの実施形態において、データソースはサンプリングされてもよく、サンプリングされたデータは強化のために分析され、それによって大きなデータセットはより扱い易くなる。識別されたデータを受け、データ強化サービスからアクセス可能な分散記憶システム(Hadoop分散記憶(HDFS)システム等)に追加することができる。データは、多数の処理段(本明細書においてパイプラインまたはセマンティックパイプラインとして説明)によって意味論的に処理してもよい。これらの処理段は、準備段108と、強化段110と、公開段112とを含み得る。いくつかの実施形態において、データを、データ強化サービスによって
1つ以上のバッチで処理することができる。いくつかの実施形態において、データを受信しながら処理するストリーミングパイプラインを提供することができる。
いくつかの実施形態において、準備段108はさまざまな処理サブ段を含み得る。これは、自動的にデータソースフォーマットを検出しコンテンツの抽出および/または修復を実行することを含み得る。データソースフォーマットが検出されると、自動的に、データソースをデータ強化サービスが処理できるフォーマットに正規化することができる。いくつかの実施形態において、データソースが準備されたら、このデータソースは強化段110によって処理することができる。いくつかの実施形態において、インバウンドデータソースは、データ強化サービスからアクセス可能な分散記憶システム105(データ強化サービスに通信可能に結合されたHDFSシステム等)にロードすることができる。分散記憶システム105は、採集されたデータファイルのための一時的な記憶空間を提供し、これはまた、中間処理ファイルの、および、公開前の結果の一時記憶域としての記憶域を提供することができる。いくつかの実施形態において、増大されたまたは強化された結果も分散記憶システムに格納することができる。いくつかの実施形態において、採集されたデータソースに関連する強化中に取込まれたメタデータは、分散記憶システム105に格納することができる。システムレベルのメタデータ(たとえばデータソースの位置、結果、処理履歴、ユーザセッション、実行履歴、および構成等を示す)は、分散記憶システムに、または、データ強化サービスからアクセス可能な独立したリポジトリに格納することができる。
特定の実施形態において、強化プロセス110は、セマンティックバス本明細書ではパイプラインまたはセマンティックパイプラインとも呼ぶ)およびこのバスに接続する1つ以上の自然言語(NL(natural language))プロセッサを用いてデータを分析することができる。NLプロセッサは、自動的にデータソース列を識別し、特定列のデータのタイプを判断し、入力にスキーマがなければこの列に命名し、および/または列および/またはデータソースを説明するメタデータを提供することができる。いくつかの実施形態において、NLプロセッサは、列のテキストからエンティティ(たとえば人物、場所、物等)を識別して抽出することができる。NLプロセッサは、データソース内のおよびデータソース間の関係を識別しおよび/または構築することもできる。以下でさらに説明するように、抽出したエンティティに基づいて、データを修復(たとえばタイプミスもしくはフォーマットエラーを修正)および/または強化する(たとえば抽出したエンティティに追加の関連情報を含める)ことができる。
いくつかの実施形態において、公開段112は、強化中に取込まれたデータソースのメタデータと、データソースのいかなる強化または修復も、分析のために1つ以上のビジュアライゼーションシステムに与えることができる(たとえば推奨されるデータ変換、強化、および/またはその他の修正をユーザに対して表示することができる)。公開サブシステムは、処理済のデータを1つ以上のデータターゲットに送ることができる。データターゲットは、処理済みのデータを送ることができる場所に相当し得る。この場所は、たとえば、メモリ内の場所、コンピューティングシステム、データベース、または、サービスを提供するシステムであってもよい。たとえば、データターゲットは、オラクルストレージクラウドサービス(Oracle Storage Cloud Service)(OSCS)、URL、第三者ストレージサービス、ウェブサービス、ならびに、オラクルビジネスインテリジェンス(Business Intelligence)(BI)、サービスとしてのデータベース(Database as a Service)およびサービスとしてのデータベーススキーマ(Database Schema as a Service)等のその他のクラウドサービスを、含み得る。いくつかの実施形態において、シンジケーションエンジンは、ブラウズ、選択、および結果に対するサブスクライブの対象である一組のAPIを顧客に提供する。サブスクライブされ、新たな結果が生じると、結果データは、外部ウェブサービスのエンドポイントへの直接フィードとして、またはバルクファイルダ
ウンロードとして、提供することができる。
図2は、本発明の実施形態に従うテクノロジースタックの簡略化されたブロック図200を示す。いくつかの実施形態において、データ強化サービスは、図2に示される論理テクノロジースタックを用いて実現できる。このテクノロジースタックは、1つ以上のクライアントデバイスを通して(たとえばシンクライアント、シッククライアント、ウェブブラウザ、またはクライアントデバイス上で実行されるその他のアプリケーションを用いて)データ強化サービスへのアクセスを提供するユーザインターフェイス/エクスペリエンス(UX)レイヤ202を含み得る。スケジューラサービス204は、UXレイヤを通して受けた結果/レスポンスを管理することができ、かつ、基礎をなすインフラストラクチャを管理することができ、データ強化サービスはこのインフラストラクチャ上で実行される。
いくつかの実施形態において、図1を参照して先に説明した処理段は、多数の処理エンジンを含み得る。たとえば、準備処理段108は、採集/準備エンジンと、プロファイリングエンジンと、推薦エンジンとを含み得る。準備処理中にデータが採集されると、このデータ(またはそのサンプル)は、分散データストレージシステム210(「ビッグデータ」クラスタ等)に格納することができる。強化処理段110は、意味/統計エンジンと、エンティティ抽出エンジンと、修復/変換エンジンとを含み得る。以下でさらに説明するように、強化処理段110は、強化プロセス中に知識サービス206から取得した情報を利用できる。強化アクション(たとえばデータの追加および/または変換)を、分散ストレージシステム210に格納されているデータに対して実行できる。データの変換は、欠けているデータまたはデータを追加することによりデータを強化するための修正を含み得る。データの変換は、データ中のエラーを修正することまたはデータを修復することを含み得る。公開処理段112は、公開エンジンと、シンジケーションエンジンと、メタデータ結果マネージャとを含み得る。いくつかの実施形態において、さまざまなオープンソース技術を用いることにより、さまざまな処理段および/または処理エンジン内のいくつかの機能を実装できる。たとえば、ファイルフォーマット検出は、Apache Tikaを使用し
てもよい。
いくつかの実施形態において、管理サービス208は、強化処理110中にデータに対してなされる変更をモニタリングすることができる。変更のモニタリングは、どのユーザがデータにアクセスしたか、どのデータ変換が実行されたか、および、その他のデータをトラッキングすることを含み得る。これにより、データ強化サービスは強化アクションをロールバックすることができる。
テクノロジースタック200は、ビッグデータオペレーションのためのクラスタ210(「ビッグデータクラスタ」)等の環境において実装できる。クラスタ210は、HDFS等の分散ファイルシステム(distributed file system)(DFS)と互換性がある分
散コンピューティングフレームワークを実装するための一組のライブラリを提供するApache Sparkを用いて実装できる。Apache Sparkは、マップ、低減、フィルタ、ソート、またはサンプルクラスタ処理ジョブ要求を、YARNのような有効なリソースマネージャに送ることができる。いくつかの実施形態において、クラスタ210は、たとえばCloudera(登録商標)が提供する分散ファイルシステム製品を用いて実装できる。たとえばCloudera(登録商標)が提供するDFSは、HDFSおよびYARNを含み得る。
図3は、本発明の実施形態に従うデータ強化システム300の簡略化されたブロック図を示す。データ強化システム300はデータ強化サービス302を実装し得る。データ強化サービス302は1以上のクライアント304からデータ強化要求を受けることができる。データ強化サービス302は1つ以上のコンピュータおよび/またはサーバを含み得
る。データ強化サービス302は、いくつかのサブシステムおよび/またはモジュールで構成されたモジュールであってもよく、その中に含まれるいくつかは図示されていない可能性もある。データ強化サービス302のサブシステムおよび/またはモジュールの数は、図示されているものの数より多くても少なくてもよく、2つ以上のサブシステムおよび/またはモジュールを組合わせてもよく、または、異なる構成または配置のサブシステムおよび/またはモジュールであってもよい。いくつかの実施形態において、データ強化サービス302は、ユーザインターフェイス306と、採集エンジン328と、推薦エンジン308と、知識サービス310と、プロファイルエンジン326と、変換エンジン322と、準備エンジン312と、公開エンジン324とを含み得る。データ強化サービス302を実装する要素は、上記のようなセマンティック処理パイプラインを実装するように機能し得る。
データ強化システム300は、本発明の実施形態に従うセマンティック処理パイプラインを含み得る。セマンティック処理パイプラインのうちのすべてまたは一部を、データ強化サービス102によって実装してもよい。データソースを追加するとき、このデータソースおよび/またはそこに格納されるデータは、データソースをロードする前にパイプラインを通して処理することができる。パイプラインは、1つ以上のデータターゲットに対して処理済のデータを公開する前にデータおよび/またはデータソースを処理するように構成された1つ以上の処理エンジンを含み得る。処理エンジンは、新たなデータソースから生データを抽出しこの生データを準備エンジンに提供する採集エンジンを含み得る。準備エンジンは、この生データに対応付けられたフォーマットを識別することができ、この生データを、データ強化サービス302が処理できるフォーマットに変換する(たとえばこの生データを正規化する)ことができる。プロファイルエンジンは、正規化されたデータに対応付けられたメタデータを抽出および/または生成することができ、変換エンジンは、メタデータに基づいて正規化されたデータを変換する(たとえば修復および/または強化する)ことができる。結果として得られた強化データは、公開エンジンに与えられて1つ以上のデータターゲットに送られてもよい。各処理エンジンについては以下でさらに説明する。
いくつかの実施形態において、データ強化サービス302は、コンピューティングインフラストラクチャシステム(たとえばクラウドコンピューティングインフラストラクチャシステム)によって与えられてもよい。コンピューティングインフラストラクチャシステムは、1つ以上のコンピューティングシステムを有するクラウドコンピューティング環境において実装し得る。コンピューティングインフラストラクチャシステムは、1つ以上の通信ネットワークを通して、本明細書に記載されているもののような1つ以上のデータソースにまたは1つ以上のデータターゲットに通信可能に結合されてもよい。
クライアント304はさまざまなクライアントデバイス(デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルデバイス等)を含み得る。各クライアントデバイスは1つ以上のクライアントアプリケーション304を含み得る。このアプリケーションを通してデータ強化サービス302にアクセスできる。たとえば、ブラウザアプリケーション、シンクライアント(たとえばモバイルアプリケーション)、および/またはシッククライアントは、クライアントデバイス上で実行することができ、ユーザがデータ強化サービス302と対話できるようにする。図3に示される実施形態は、単なる一例であって、本発明のクレームされている実施形態を不当に限定することは意図していない。当業者は数多くの変形、代替例、および修正を認識するであろう。たとえば、クライアントデバイスの数は図示されているデバイスの数よりも多くても少なくてもよい。
クライアントデバイス304の種類は多種多様であり得る。これは、パーソナルコンピ
ュータ、デスクトップ、ラップトップ、携帯電話、タブレット等のモバイルまたはハンドヘルドデバイス、および、その他の種類のデバイスを含むが、これらに限定されない。通信ネットワークは、クライアントデバイス304とデータ強化サービス302との間の通信を容易にする。通信ネットワークの種類はさまざまな種類であり得る。この通信ネットワークは1つ以上の通信ネットワークを含み得る。通信ネットワーク106の例は、インターネット、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、イーサネット(登録商標)ネットワーク、パブリックまたはプライベートネットワーク、有線ネットワーク、無線ネットワーク等と、その組合わせを含むが、これらに限定されない。IEEE 802.XXプロトコルスーツ、TCP/IP、IPX、SAN、AppleTalk、Bluetooth、およびその他のプロトコル等の、有線プロトコルも無線プロトコルも含む異なる通信プロトコルを用いて通信を容易にしてもよい。一般的に、通信ネットワークはクライアントとデータ強化サービス302との通信を容易にするいかなる種類の通信ネットワークまたはインフラストラクチャも含み得る。
ユーザは、ユーザインターフェイス306を通してデータ強化サービス302と対話することができる。クライアント304は、グラフィカルユーザインターフェイスをレンダリングすることにより、ユーザのデータやユーザのデータを変換するための推薦を表示し、命令(「変換命令」)をユーザインターフェイス306を通してデータ強化サービス302に送信および/または受信することができる。本明細書に開示されている、図4A〜図4Dおよび図5A〜図5Dに示されるようなユーザインターフェイスは、データ強化サービス302によってまたはクライアント304を介してレンダリングしてもよい。たとえば、ユーザインターフェイスは、ユーザインターフェイス306によって生成されてもよく、クライアント304のうちのいずれか1つでデータ強化サービス302によってレンダリングされてもよい。ユーザインターフェイスは、ネットワークを介してデータ強化システム302から、サービス(たとえばクラウドサービス)またはネットワークアクセス可能なアプリケーションの一部として提供されてもよい。少なくとも1つの例において、データ強化サービス302のオペレータは、クライアント304のうちの1つを操作することにより、本明細書に開示されるユーザインターフェイスのうちのいずれかにアクセスしこれと対話してもよい。ユーザは、命令をユーザインターフェイス306に送信することによりデータソースを追加してもよい(たとえばデータソースアクセスおよび/または位置情報等を提供してもよい)。
データ強化サービス302は、採集エンジン328を用いてデータを採集してもよい。採集エンジン328は、データソースが追加されたときに初期処理エンジンとして機能することができる。採集エンジン328は、1つ以上のデータソース309からデータ強化サービス302に、ユーザデータを、安全に、確実に、かつ信頼性高くアップロードすることを容易にすることができる。いくつかの実施形態において、採集エンジン328は、1つ以上のデータソース309からデータを抽出しデータ強化サービス302内の分散ストレージシステム305に格納することができる。1つ以上のデータソース309および/または1つ以上のクライアント304から採集したデータは、図1および図2を参照しながら先に述べたように処理して分散ストレージシステム305に格納することができる。データ強化サービス302は、クライアントデータストア307からおよび/または1つ以上のデータソース309からデータを受信できる。分散ストレージシステム305は、1つ以上のデータターゲット330に対するデータ公開の前の、パイプラインの残りの処理段の間、アップロードされたデータの一時ストレージの機能を果たすことができる。アップロードが完了すると、準備エンジン312を呼出し、アップロードされたデータセットを正規化することができる。
受信データは、構造化データ、非構造化データ、またはこれらの組合わせを含み得る。構造データは、限定されないが、アレイ、レコード、リレーショナルデータベース表、ハ
ッシュ表、連結リスト、またはそれ以外の種類のデータ構造を含む、データ構造に基づき得る。上記のように、データソースは、パブリッククラウドストレージサービス311、プライベートクラウドストレージサービス313、さまざまな他のクラウドサービス315、URLまたはウェブベースのデータソース317、または、その他任意のアクセス可能なデータソースを含み得る。クライアント304からのデータ強化要求は、データソースおよび/または特定のデータ(データソース309またはクライアントデータストア307を通して入手可能な、表、列、ファイル、またはその他任意の構造化または非構造化データ)を特定することができる。そうすると、データ強化要求サービス302は、特定されたデータソースにアクセスして上記データ強化要求において特定された特定のデータを取得してもよい。データソースは、アドレス(たとえばURL)によって、ストレージプロバイダ名によって、またはその他の識別子によって特定できる。いくつかの実施形態において、データソースへのアクセスを、アクセス管理サービスによって制御してもよい。クライアント304は、ユーザに対し、身分証明(たとえばユーザ名とパスワード)入力要求および/またはデータ強化サービス302に対してデータソースにアクセスする権限を与えるための要求を示してもよい。
いくつかの実施形態において、1つ以上のデータソース309からアップロードされたデータは、多種多様なフォーマットに変更できる。準備エンジン312は、アップロードされたデータを、データ強化サービス302による処理のために、一般的な正規化されたフォーマットに変換できる。正規化は、Apache(登録商標)が供給しているApache Tika
のような命令またはコードを用いて実装されるルーチンおよび/または技術によって実行してもよい。正規化されたフォーマットにより、データソースから取得したデータが正規化されたものを見ることができる。いくつかの実施形態において、準備エンジン312は、多数の異なるファイルタイプを読み出すことができる。準備エンジン312は、データを正規化して文字で区切られた形式(character separated form)(たとえばタブで区切られた値(tab separated values)、カンマで区切られた値(comma separated values)等)、または、階層データ用のJavaScript(登録商標)オブジェクト表記法(JavaScript
Object Notation)(JSON)文書にすることができる。いくつかの実施形態において、さまざまなファイルフォーマットを認識し正規化することができる。たとえば、Microsoft Excel(登録商標)フォーマット(たとえばXLSまたはXLSX)、Microsoft Word(登録商標)フォーマット(たとえばDOCまたはDOX)、ポータブルドキュメント
フォーマット(PDF)、JSONのような階層フォーマット、および拡張マークアップ言語(XML)等の、標準ファイルフォーマットをサポートすることができる。いくつかの実施形態において、さまざまなバイナリ符号化ファイルフォーマットおよびシリアル化されたオブジェクトデータを読み出して復号することもできる。いくつかの実施形態において、データは、Unicodeフォーマット(UTF−8)符号化においてパイプラインに与
えることができる。準備エンジン312は、コンテキスト抽出と、データ強化サービス302が予測するファイルタイプへの変換を実行することができるとともに、データソースから文書レベルメタデータを抽出することができる。
データセットの正規化は、データセット内の生データを、データ強化サービス302、特にプロファイルエンジン326が処理できるフォーマットに変換することを含み得る。一例において、データセットを正規化して正規化データセットを作成することは、あるフォーマットを有するデータセットを、正規化されたデータセットとして調整されたフォーマットに修正することを含み、調整されたフォーマットは上記フォーマットと異なるフォーマットである。データセットは、このデータセット内のデータの1つ以上の列を識別し、この列に対応するデータのフォーマットを同じフォーマットに修正することによって正規化してもよい。たとえば、あるデータセット内の、フォーマットが異なる日付を有するデータを、この日付のフォーマットをプロファイルエンジン326が処理できる共通フォーマットに変更することによって正規化してもよい。データは、表形式でないフォーマッ
トから1つ以上のデータ列を有する表形式のフォーマットに修正または変換することによって正規化されることもある。
データの正規化後、正規化されたデータはプロファイルエンジン326に送ることができる。プロファイルエンジン326は、正規化されたデータを列ごとに分析することにより、これらの列に格納されているデータのタイプを識別し、データがこれらの列にどのようにして格納されているかに関する情報を識別することができる。本開示では、プロファイルエンジン326を多くの場合データに対してオペレーションを実行するものとして説明しているが、プロファイルエンジン326によって処理されるデータは準備エンジン312によって既に正規化されている。いくつかの実施形態において、プロファイルエンジン326によって処理されるデータは、プロファイルエンジン326が処理できるフォーマット(たとえば正規化されたフォーマット)であるので正規化されていないデータを含み得る。プロファイルエンジン326の出力または結果は、ソースからのデータに関するプロファイル情報を示すメタデータ(たとえばソースプロファイル)であってもよい。メタデータは、データに関する1つ以上のパターンおよび/またはデータの分類を示し得る。以下でさらに説明するように、メタデータは、データの分析に基づく統計情報を含み得る。たとえば、プロファイルエンジン326は、識別された各列に関する多数のメトリックとパターン情報を出力することができ、かつ、列の名称およびタイプの形態のスキーマ情報を識別してデータとマッチングすることができる。
プロファイルエンジン326が生成したメタデータを、データ強化サービスのその他の要素、たとえば推薦エンジン308および変換エンジン322が使用してデータ強化サービス302に関して本明細書で説明するオペレーションを実行してもよい。いくつかの実施形態において、プロファイルエンジン326はメタデータを推薦エンジン308に与えることができる。
推薦エンジン308は、プロファイルエンジン326によって処理されたデータに関する、修復、変換、およびデータ強化推薦を識別することができる。プロファイルエンジン326によって生成されたメタデータを用いて、このメタデータが示す統計分析および/または分類に基づいてデータに関する推薦を判断することができる。いくつかの実施形態において、推薦は、ユーザインターフェイスまたはその他のウェブサービスを通してユーザに提供できる。推薦は、どのようなデータ修復または強化を利用できるか、これらの推薦を如何にして過去のユーザアクティビティと比較するか、および/または未知のアイテムを既存の知識またはパターンに基づいて如何にして分類するかを推薦がハイレベルで記述するように、ビジネスユーザに合わせて調整することができる。知識サービス310は、1つ以上の知識グラフまたはその他の知識ソース340にアクセスできる。この知識ソースは、ウェブサイト、ウェブサービス、キュレートされた知識ストア、およびそれ以外のソースによって公開されている公的に入手できる情報を含み得る。推薦エンジン308は、知識サービス310に対し、ソースから取得したデータについてユーザに推薦できるデータを要求する(たとえば問合せる)ことができる。
いくつかの実施形態において、変換エンジン322は、ユーザインターフェイス306を通して、入力されたデータセットの、列ごとにサンプリングされたデータまたはサンプル行をユーザに対して示すことができる。データ強化サービス302は、ユーザインターフェイス306を通して、推薦される変換をユーザに示してもよい。この変換は、変換命令に対応付けられていてもよい。変換命令は、変換アクションを実行するためのコードおよび/または関数呼出しを含み得る。変換命令は、ユーザによって、ユーザインターフェイス306での選択に基づいて呼び出されてもよく、たとえば、変換に関する推薦を選択することにより、または、オペレーションを示す入力(たとえばオペレータコマンド)を受信することにより、呼び出されてもよい。一例において、変換命令は、エンティティ情
報に基づいてデータの少なくとも1つの列をリネームするための命令を含み得る。データの少なくとも1つの列をデフォルト名にリネームするための他の変換命令を受けることもある。デフォルト名は、予め定められた名称を含み得る。デフォルト名は、データの列の名称を判断できないまたはこの列の名称が定義されていない場合の、規定のいかなる名称であってもよい。変換命令は、エンティティ情報に基づいて少なくとも1つの列を再フォーマットするための変換命令、および、エンティティ情報に基づいてデータの少なくとも1つの列を難読化するための命令を含み得る。いくつかの実施形態において、変換命令は、エンティティ情報に基づいて知識サービスから取得したデータの1つ以上の列を追加するための強化命令を含み得る。
ユーザはユーザインターフェイス306を通して変換アクションを実行することができ、変換エンジン322はデータソースから取得したデータをこれらのアクションに適用し結果を表示することができる。これは、即時フィードバックをユーザに与え、このフィードバックを用いて変換エンジン322の構成の効果を可視化して検証することができる。いくつかの実施形態において、変換エンジン322は、プロファイルエンジン326と、推薦する変換アクションを提供する推薦エンジン308とから、パターンおよび/またはメタデータ情報(たとえば列の名称とタイプ)を受けることができる。いくつかの実施形態において、変換エンジン322は、データに対する変更を調整しトラッキングすることにより、取り消し、やり直し、削除、および編集イベントを容易にする、ユーザイベントモデルを提供することができる。このモデルは、アクション間の従属性を捕えることにより、現在の構成が矛盾のない状態に保たれるようにすることができる。たとえば、ある列が削除される場合は、この列に関して推薦エンジン308が提供する推薦変換アクションも削除すればよい。同様に、ある変換アクションの結果新たな列が挿入されこのアクションが削除される場合は、この新たな列に対して実行されるいかなるアクションも削除される。
上記のように、処理中に、受信データを分析することができ、推薦エンジン308は、このデータに対して実施する、強化、修復、およびそれ以外の変換を含む1つ以上の推薦される変換を示すことができる。データ強化のために推薦される変換は、一組の変換で構成されてもよく、各変換は、データに対して実施する、1つの変換アクションまたはアトミック変換である。変換は、上記組における別の変換によって過去に変換されたデータに対して実施されてもよい。一組の変換は、一組の変換実行後に得られるデータが強化されるように、並列に実行されても特定の順序で実行されてもよい。一組の変換は、変換仕様に従って実施されてもよい。変換仕様は、プロファイルエンジン326によって生成されたデータに対する一組の変換各々をどのようにいつ実施するかを示す変換命令と、推薦エンジン308が判断したデータを強化するための推薦とを含み得る。アトミック変換の例は、限定されないが、ヘッダへの変換、転換、削除、分割、結合、および修復を含み得る。一組の変換に従って変換されたデータに対して一連の変更がなされてもよい。これらの変更は各々、中間データが強化されるという結果をもたらす。一組の変換に対して中間ステップで生成されるデータは、耐障害性分散データセット(Resilient Distributed Dataset)(RDD)、テキスト、データ記録フォーマット、ファイルフォーマット、その他
いずれかのフォーマット、またはその組合わせ等のフォーマットで格納されてもよい。
いくつかの実施形態において、データ強化サービス302のいずれかの要素によって実行されたオペレーションの結果として生成されたデータは、限定されないがRDD、テキスト、ドキュメントフォーマット、その他任意の種類のフォーマット、またはこれらを組合わせたものを含む、中間データフォーマットで格納されてもよい。中間フォーマットで格納されたデータを用いて、データ強化サービス302のためのオペレーションをさらに実行してもよい。
以下の表は変換の例を示す。表1は変換アクションの種類の概要を示す。
Figure 2021061063
表2は表1に示されるカテゴリの種類に属さない変換アクションを示す。
Figure 2021061063
以下の表3は、変換例の種類の例を示す。具体的には、表3は、変換アクションの例を示し、これらのアクションに対応する変換の種類を説明している。たとえば、変換アクションは、データ内のホワイトリストからのワードの存在の検出に基づいてデータをフィルタリングすることを含み得る。ユーザが「Android」または「iPhone(登録商標)」を含
む通信(たとえばツイート)の追跡を希望する場合、変換アクションに、与えられたホワイトリストを含む上記2つのワードを追加すればよい。これは、ユーザのためにデータを強化し得る方法の一例に過ぎない。
Figure 2021061063
推薦エンジン308は、知識サービス310および知識ソース340からの情報を用いることにより、変換エンジン322に対する推薦を生成することができ、かつ、変換エンジン322に対しデータを変換する変換スクリプトを生成するよう命令することができる。変換スクリプトは、プログラム、コード、または命令を含み得る。この変換スクリプト
は1つ以上の処理ユニットによって実行可能であり、そうすることによって受信データを変換できる。このように、推薦エンジン308は、ユーザインターフェイス306と知識サービス310との間を媒介する機能を果たすことができる。
上記のように、プロファイルエンジン326は、データソースからのデータを分析することにより、何らかのパターンがあるか否か判断することができ、何らかのパターンがある場合、そのパターンを分類できるか否か判断することができる。データソースから取得したデータが正規化されると、このデータを構文解析することにより、データの構造内の1つ以上の属性またはフィールドを識別してもよい。パターンは、各々がラベル(「タグ」)を有しカテゴリによって定義される正規表現の集合体を用いて識別し得る。データをさまざまなタイプのパターンと比較することにより、そのパターンを識別してもよい。識別可能なパターンの種類の例は、限定されないが、整数、小数、日付または日付/時間ストリング、URL、ドメインアドレス、IPアドレス、電子メールアドレス、バージョン番号、ロケール識別子、UUIDおよびその他の十六進法の識別子、社会保障番号、米国の私書箱番号、典型的な米国のストリートアドレスパターン、郵便番号、米国の電話番号、部屋番号、クレジットカード番号、固有名詞、個人情報、ならびにクレジットカード発行会社を含み得る。
いくつかの実施形態において、プロファイルエンジン326は、データ内のパターンを、意味制約または統語制約によって定義された一組の正規表現に基づいて識別し得る。正規表現を用いることにより、データの形状および/または構造を判断できる。プロファイルエンジン326は、オペレーションまたはルーチンを実装する(たとえば正規表現に対する処理を実行するルーチンのAPIを呼び出す)ことにより、1つ以上の正規表現に基づいてデータ内のパターンを判別してもよい。たとえば、統語制約に基づいてあるパターンに関する正規表現をデータに適用することにより、データ内のこのパターンを識別可能か否か判断してもよい。
プロファイルエンジン326は、1つ以上の正規表現を用いて構文解析作業を実行することにより、プロファイルエンジン326によって処理されるデータにおけるパターンを識別することができる。正規表現は、階層に従って並べられてもよい。パターンは、正規表現の複雑度の順に基づいて識別されてもよい。複数のパターンが、分析対象のデータと一致する場合があり、複雑度がより高いパターンが選択される。以下でさらに説明するように、プロファイルエンジン326は、統計的分析を実行することにより、複数のパターンを、これらのパターンの判断のために用いられる正規表現の適用に基づいて区別してもよい。
いくつかの実施形態において、構造化されていないデータを処理することにより、このデータ内のメタデータ記述属性を分析してもよい。メタデータ自身はデータに関する情報を示し得る。このメタデータを比較することにより、類似性を識別するおよび/または情報の種類を判断することができる。データに基づいて識別した情報を比較することにより、データのタイプ(たとえばビジネス情報、個人識別情報、または住所情報)を認識し、パターンに対応するデータを識別することができる。
実施形態に従い、プロファイルエンジン326は、統計的分析を実行することにより、データ内のパターンおよび/またはテキストを区別してもよい。プロファイルエンジン326は、統計的分析に基づく統計情報を含むメタデータを生成してもよい。パターンが識別されると、プロファイルエンジン326は、異なるパターン各々に関する統計情報(たとえばパターンメトリック)を求めることにより、パターンとパターンを区別してもよい。統計情報は、認識対象の異なるパターンに関する標準偏差を含み得る。統計情報を含むメタデータは、推薦エンジン308等の、データ強化サービス302の他のコンポーネン
トに提供してもよい。たとえば、メタデータを推薦エンジン308に提供することにより、推薦エンジン308が、識別されたパターンに基づいてデータの強化のための推薦を決定できるようにしてもよい。推薦エンジン308は、パターンを用いて知識サービス310に問合せを行なうことにより、パターンに関する追加情報を取得することができる。知識サービス310は、1つ以上の知識ソース340を含み得る、または、1つ以上の知識ソース340にアクセスできる。知識ソースは、ウェブサイト、ウェブサービス、キュレートされた知識ストア、およびその他のソースが公開する、公的に入手可能な情報を含み得る。
プロファイルエンジン326は、統計的分析を実行することにより、データ内の識別されたパターンを区別してもよい。たとえば、プロファイルエンジン326が分析したデータを評価することにより、データ内の識別された異なるパターン各々についてパターンメトリック(たとえばデータ内の異なるパターンの統計度数)を計算してもよい。各パターンメトリックの組は、識別されたパターンの中で異なるパターンについて計算される。プロファイルエンジン326は、異なるパターンについて計算されたパターンメトリック間の相違を判断してもよい。この相違に基づいて、識別されたパターンの中から1つのパターンが選択されてもよい。たとえば、データ内のパターンの度数に基づいて、あるパターンを別のパターンから区別してもよい。別の例において、複数の異なるフォーマットを有する日付でデータが構成されておりこれらのフォーマットがそれぞれ異なるパターンに対応する場合、プロファイルエンジン326は、日付を、正規化に加えて標準フォーマットに変換してもよく、その次に、異なるパターンから各フォーマットの標準偏差を求めてもよい。この例において、プロファイルエンジン326は、標準偏差が最低のフォーマットがある場合に、複数のフォーマットを統計的に区別し得る。標準偏差が最低のデータのフォーマットに対応するパターンを、データのベストパターンとして選択してもよい。
プロファイルエンジン326は、識別するパターンの分類を判断してもよい。プロファイルエンジン326は、知識サービス310と通信することにより、識別したパターンを知識ドメイン内で分類できるか否か判断してもよい。知識サービス310は、マッチング技術および類似性分析等の本明細書で説明する技術に基づいて、データに対応付けられた可能な1つ以上のドメインを判断してもよい。知識サービス310は、プロファイルエンジン326に、パターンで識別されたデータと類似する可能性がある1つ以上のドメインの分類を提供してもよい。知識サービス310は、知識サービス310が識別したドメイン各々について、ドメインに対する類似度を示す類似性メトリックを提供してもよい。類似性メトリック分析およびスコアリングについて本明細書に開示する技術を、推薦エンジン308によって適用することにより、プロファイルエンジン326が処理するデータの分類を判断してもよい。プロファイルエンジン326が生成するメタデータは、適用できるものがあれば知識ドメインに関する情報と、プロファイルエンジン326が分析したデータに対する類似度を示すメトリックとを含み得る。
プロファイルエンジン326は、統計的分析を実行することにより、データ内のパターンが識別されるか否かにかかわらず、データ内の識別されたテキストを区別してもよい。テキストはパターンの一部であってもよく、テキストの分析を用いることにより、識別可能なものがあればさらにパターンを識別してもよい。プロファイルエンジン326は、テキストに対するドメイン分析の実行を知識サービス310に要求することにより、テキストを1つ以上のドメインに分類できるか否か判断してもよい。知識サービス310は、分析しているテキストに適用できる1つ以上のドメインに関する情報を提供するように機能し得る。知識サービス310がドメインを判断するために実行する分析は、データのドメインを判断するために使用される類似性分析等の本明細書で説明する技術を用いて実行されてもよい。
いくつかの実施形態において、プロファイルエンジン326は、データセット内のテキストデータを識別してもよい。テキストデータは、一組のエンティティのうちの識別された各エンティティに対応し得る。識別されたエンティティごとに分類を判断してもよい。プロファイルエンジン326は、知識サービスに対し、エンティティの分類を識別するよう要求してもよい。一組のエンティティ(たとえば1つの列内のエンティティ)について一組の分類を判断すると、プロファイルエンジン326は、一組のメトリック(「分類メトリック」を計算することにより、一組の分類を区別してもよい。一組のメトリック各々は、一組の分類のうちのそれぞれの分類について計算されてもよい。プロファイルエンジン326は、一組のメトリックを、互いに比較することにより区別して、この一組のエンティティの分類として最も近い分類を決定してもよい。一組のエンティティの分類は、この一組のエンティティを表わす分類に基づいて選択されてもよい。
知識サービス310は、知識ソース340を用いて、プロファイルエンジン326によって識別されたパターンのコンテキストのマッチングを行なうことができる。知識サービス310は、データ内の識別されたパターンを、またはテキスト内にあるのであればデータを、知識ソースに格納されている各種エンティティのエンティティ情報と比較してもよい。エンティティ情報は、知識サービス310を用いて、1つ以上の知識ソース340から取得してもよい。周知のエンティティの例は、社会保障番号、電話番号、住所、固有名詞、またはその他の個人情報を含み得る。データを各種エンティティのエンティティ情報と比較することにより、識別されたパターンに基づいて1つ以上のエンティティと一致するか否か判断してもよい。たとえば、知識サービス310は、「XXX−XX−XXXX」というパターンを、米国社会保障番号のフォーマットとマッチングすることができる。さらに、知識サービス310は、社会保障番号は保護されておりまたは機密情報でありその開示はさまざまな処罰につながると判断することができる。
いくつかの実施形態において、プロファイルエンジン326は、統計分析を実行することにより、プロファイルエンジン326が処理したデータについて識別された複数の分類を区別することができる。たとえば、テキストが複数のドメインで分類されている場合、プロファイルエンジン326は、データを処理することにより、知識サービス310が判断した適切な分類を統計的に求めることができる。分類の統計的分析は、プロファイルエンジン326が生成したメタデータに含まれていてもよい。
パターンの識別に加えて、プロファイルエンジン326は、データを統計的に分析することができる。プロファイルエンジン326は、大量のデータの内容を特徴付けることができ、かつ、このデータに関する全体統計とこのデータの内容の、たとえばその値、パターン、タイプ、構文、意味およびその統計的特性の、列ごとの分析を提供することができる。たとえば、数値データを統計的に分析することができ、これはたとえば、N、平均、最大値、最小値、標準偏差、歪度、尖度、および/または20ビンのヒストグラム(Nが100よりも大きく固有値がKよりも大きい場合)を含む。次の分析のために内容を分類してもよい。
一例において、全体統計は、限定されないが、行の数、列の数、記入されていない列と記入されている列の数およびこれらがどのように変化するか、異なる行と重複する行、ヘッダ情報、タイプまたはサブタイプによって分類される列の数、ならびに、機密保護またはその他の警告付の列の数を含み得る。列固有の統計は、記入されている行(たとえばK最大度数、K最低度数固有値、固有パターン、および(適用可能であれば)タイプ)、度数分布、テキストメトリック(たとえば、テキスト長、トークンカウント、句読点、パターンベースのトークン、および導出されたさまざまな有用テキスト特性の、最小値、最大値、平均値)、トークンメトリック、データタイプおよびサブタイプ、数値列の統計的分析、大部分が構造化されていないデータの列内で見出される、L最大/最小確率単純また
は複合用語またはnグラム、ならびに、この固有語彙によってマッチングされる参照知識カテゴリ、日付/時間パターンの発見およびフォーマッティング、参照データ一致、ならびに、原因となる列見出しラベルを、含み得る。
結果として得られたプロファイルを用いて、次の分析のために内容を分類することにより、直接または間接的に、データの変換を示唆して、データソース間の関係を識別するとともに、前に取得したデータのプロファイルに基づいて設計された一組の変換を適用する前に新たに取得したデータの妥当性確認を実行することができる。
プロファイルエンジン326によって作成されたメタデータを、推薦エンジン308に与えることにより、1つ以上の変換推薦を生成することができる。データの識別されたパターンと一致するエンティティを用いてデータを強化することができる。このデータは、知識サービス310を用いて判断された分類によって識別されたエンティティを用いて強化される。いくつかの実施形態において、識別されたパターン(たとえば都市および州)に関連するデータを、知識サービス310に与えることにより、知識ソース340から、識別されたパターンと一致するエンティティを取得してもよい。たとえば、知識サービス310を呼出し、識別されたパターンに対応するルーチン(たとえばgetCities()およびgetStates())をコールすることにより、エンティティ情報を受けてもよい。この知識サービス310から受けた情報は、エンティティに関する適切なスペリングの情報(たとえば適切なスペリングの都市および州)を有する、エンティティのリスト(たとえばカノニカル(canonical)リスト)を含み得る。知識サービス310から取得した一致するエンテ
ィティに対応するエンティティ情報を用いて、データを強化する、たとえばデータを正規化する、データを修復する、および/またはデータを増補(augment)することができる
いくつかの実施形態において、推薦エンジン308は、知識サービス310から受けた一致したパターンに基づいて、変換推薦を生成することができる。たとえば、社会保障番号を含むデータの場合、推薦エンジンは、エントリを難読化する変換を推薦することができる(たとえば、エントリのうちのすべてまたは一部の切り捨て、ランダム化、または削除)。変換のその他の例は、データの再フォーマット(たとえばデータ内の日付の再フォーマット)、データのリネーム、データの強化(たとえば値を挿入するまたはカテゴリにデータを対応付ける)、データの検索と置換(たとえばデータのスペルを修正)、文字のケースの変更(たとえばケースを大文字から小文字に変更)、および、ブラックリストまたはホワイトリスト用語に基づくフィルタリングを、含み得る。いくつかの実施形態において、特定のユーザに合わせて推薦を調整してどのデータ修復または強化を利用できるかをこの推薦がハイレベルで説明するようにしてもよい。たとえば、難読化の推薦は、エントリの最初の5桁を削除することを示し得る。いくつかの実施形態において、推薦は、過去のユーザの活動に基づいて生成してもよい(たとえば以前に機密データを識別したときに使用した推薦変換を提供)。
変換エンジン322は、推薦エンジン308から提供された推薦に基づいて変換スクリプト(たとえば社会保障番号を難読化するためのスクリプト)を生成することができる。変換スクリプトは、オペレーションを実行することによってデータを変換し得る。いくつかの実施形態において、変換スクリプトは、データの線形変換を実現し得る。線形変換は、API(たとえばSpark API)を通して実現されてもよい。変換アクションは、API
を用いて呼び出されたオペレーションによって実施されてもよい。変換スクリプトは、APIを用いて定義された変換オペレーションに基づいて構成されてもよい。オペレーションは推薦に基づいて実行されてもよい。
いくつかの実施形態において、変換エンジン322は、変換スクリプトを自動的に生成
してデータソースでデータを修復することができる。修復は、自動的に列をリネームすること、列内のストリングまたはパターンを置換すること、テキストのケースを修正すること、データを再フォーマットすること等を含み得る。たとえば、変換エンジン322は、変換スクリプトを生成することにより、日付の列を、推薦エンジン308からの、列内の日付のフォーマットの修正または変換の推薦に基づいて、変換することができる。推薦を複数の推薦の中から選択して、プロファイルエンジン326によって処理されたデータソースからのデータを強化または修正してもよい。推薦エンジン308は、プロファイルエンジン326から提供されたメタデータまたはプロファイルに基づいて推薦を決定してもよい。メタデータは異なるフォーマットについて識別された日付の列を示し得る(たとえばMM/DD/YYYY、DD−MM−YY等)。変換エンジン322によって生成された変換スクリプトは、たとえば、推薦エンジン308からの提案に基づいて列を分割および/または結合することができる。変換エンジン322はまた、プロファイルエンジン326から受けたデータソースプロファイルに基づいて列を削除してもよい(たとえば空の列、またはユーザが望まない情報を含む列を削除する)。
変換スクリプトは、1つ以上のアルゴリズム(たとえばSparkオペレータツリー)に対
するオペレーションを記述する構文を用いて定義し得る。よって、構文はオペレータ−ツリーの変換/簡約化を記述し得る。変換スクリプトは、グラフィカルユーザインターフェイスを介した対話を通してユーザが選択した推薦に基づいてまたはユーザによって要求されて生成されてもよい。推薦される変換の例は、図4A、図4B、図4C、および図4Dを参照しながら説明する。グラフィカルユーザインターフェイスを通してユーザが指定した変換オペレーションに基づいて、変換エンジン322はこのオペレーションに従って変換オペレーションを実行する。変換オペレーションをユーザに対して推薦することによりデータセットを強化してもよい。
以下でさらに説明するように、クライアント304は、推薦された各変換を記述するかそうでなければ示す推薦を表示することができる。ユーザが変換スクリプトの実行を選択した場合、選択された変換スクリプトは、推薦される変換を決定するために分析されたデータに加えてデータソースからのデータすべてまたはそれ以上に対して実行することができる。その結果変換されたデータは、次に公開エンジン324によって1つ以上のデータターゲット330に対して公開することができる。いくつかの実施形態において、データターゲットは、データソースとは異なるデータストアである。いくつかの実施形態において、データターゲットはデータソースと同一のデータストアであってもよい。データターゲット330は、パブリッククラウドストレージサービス332、プライベートクラウドストレージサービス334、その他さまざまなクラウドサービス336、URLまたはウェブベースのデータターゲット338、またはその他任意のアクセス可能なデータターゲットを含み得る。
いくつかの実施形態において、推薦エンジン308は、識別されたプラットフォームに関連するその他のデータについて知識サービス310に問合せることができる。たとえば、データが都市名の列を含む場合、関連データ(たとえば場所、州、人口、国等)を識別することができ、関連データでデータセットを強化するという推薦を表示することができる。ユーザインターフェイスを通した推薦の表示およびデータ変換の例は、以下において図4〜図4Dを参照しながら示す。
知識サービス310は、マッチング方法を実装することにより、データを、知識サービス310を通して入手できる参照データと比較することができる。知識サービス310は、1つ以上の知識ソース340を含み得るまたは1つ以上の知識ソース340にアクセスできる。知識ソースは、ウェブサイト、ウェブサービス、キュレートされた知識ストア、およびそれ以外のソースによって公開されている公的に入手できる情報を含み得る。知識
サービス310は、2つ以上のデータセット間の意味類似性を判断するための方法を実装することができる。これは、知識サービス310を通して入手できる参照データに対してユーザのデータをマッチングする場合も使用できる。知識サービス310は、本開示に記載されている類似性メトリック分析を実行し得る。知識サービス310によって実施される技術は、本明細書に援用されている文献に記載されている技術を含む、本開示に記載されている技術を含む。
知識サービス310は、自動データ分析を実装するためのオペレーションを実行することができる。いくつかの実施形態において、知識サービス310は、Word2Vec等の教師なし機械学習ツールを用いて入力データセットを分析することができる。Word2Vecは、テキスト入力(たとえば大きなデータソースからのテキストコーパス)を受けて各入力ワードのベクトル表現を生成することができる。次に、その結果得たモデルを用いて任意入力された一組のワードの関連性がどれほど高いかを識別してもよい。たとえば、大きなテキストコーパス(たとえばニュースアグリゲータまたはその他のデータソース)を用いて構築されたWord2Vecモデルを利用して、対応する数値ベクトルを入力ワードごとに求めることができる。これらのベクトルが分析される際に、ベクトルはベクトル空間内で「近い」(ユークリッドの意味で)と判断されることがある。これは入力ワードが関連していると識別することができるが(たとえばベクトル空間内で互いに近接してクラスタリングされている入力ワードを識別する)、Word2Vecは、ワードを説明するラベル(たとえば「メーカー」)を識別するには有用でない場合がある。知識サービス310は、キュレートされた知識ソース340(たとえばMax Planck Institute for InformaticsのYAGO)を用いて関連ワードをカテゴリ分類するためのオペレーションを実装してもよい。知識サービス310は、知識ソース340からの情報を用いて、入力データセットに対してその他の関連データを追加することができる。
いくつかの実施形態において、知識サービス310は、トライグラムモデリングを実行することによって関連する用語のカテゴリ分類をさらに精密にするためのオペレーションを実装し得る。トライグラムモデリングを用いてワードの組をカテゴリ識別のために比較することができる。入力データセットは関連する用語で増補することができる。
知識サービス310は、追加データを含み得る入力データセットを用いて、マッチング方法(たとえばグラフマッチング法)を実装することにより、増補データセットからのワードを、知識ソース340からのデータのカテゴリと比較することができる。知識サービス310は、増補データセットと知識ソース340内の各カテゴリとの意味類似性を判断してそのカテゴリの名称を識別するための方法を実装することができる。カテゴリの名称は、最大類似性メトリックに基づいて選択してもよい。類似性メトリックは、カテゴリ名と一致するデータセット内の用語の数に基づいて計算されてもよい。カテゴリは、類似性メトリックに基づいて一致する最大数の用語に基づいて選択されてもよい。類似性分析およびカテゴリ分類のために実行される技術およびオペレーションを、以下においてさらに説明する。
いくつかの実施形態において、知識サービス310は、入力データセットを増補することができ、知識ソース340からの情報を用いて入力データセットにその他の関連データを追加することができる。たとえば、Word2Vec等のデータ分析ツールを用いて、ニュース収集サービスからのテキストコーパスのような知識ソースからの入力データセットに含まれているワードに意味的に類似するワードを識別することができる。いくつかの実施形態において、知識サービス310は、トライグラムモデリングを実装することにより、知識ソース340(YAGO等)から取得したデータを処理して、カテゴリによってインデックスが作成されたワードの表を生成することができる。知識サービス310は次に、増補されたデータセット内のワードごとにトライグラムを作成しそのワードをインデックス付
の知識ソース340からのワードとマッチングすることができる。
知識サービス310は、増補データセット(またはトライグラム一致増補データセット)を用いて、マッチングモジュール312に対し、増補データセットからのワードを、知識ソース340からのデータのカテゴリと比較するよう要求することができる。たとえば、知識ソース340内のデータの各カテゴリはツリー構造で表現することができる。ツリー構造のルート(root)ノードはカテゴリを表わし各リーフ(leaf)ノードはそのカテゴリに属するそれぞれのワードを表わす。知識サービス310は、増補データセットと知識ソース510内の各カテゴリとの意味類似性を判断するための方法(たとえばJaccard係
数またはその他の類似性メトリック)を実装することができる。次に、増補データセットと一致する(たとえば類似性メトリックが最大である)カテゴリの名称をラベルとして入力データセットに適用することができる。
いくつかの実施形態において、知識サービス310は、2つのデータセットAおよびBの類似性を、データセットAおよびBの共通集合の大きさの、これらのデータセットの合併集合の大きさに対する比率を求めることによって判断できる。たとえば、類似性メトリックを、1)データセット(たとえば増補データセット)とカテゴリとの共通部分の大きさと、2)これらを合併したものの大きさとの比率に基づいて計算してもよい。類似性メトリックは、上記のように、データセットとカテゴリとの比較のために計算してもよい。よって、類似性メトリックの比較に基づいて「ベストマッチ」を判断してもよい。この比較に使用されるデータセットを、類似性メトリックを用いてベストマッチを判断したカテゴリに対応するラベルで増補することによって強化してもよい。
上記のように、その他の類似性メトリックを、Jaccard係数に加えてまたはその代わり
に使用してもよい。上記技術に対していかなる類似性メトリックも使用し得ることを当業者は理解するであろう。代替の類似性メトリックのいくつかの例は、Dice-Sorensen係数
、Tversky係数、Tanimotoメトリック、およびコサイン類似度メトリックを含むが、これ
らに限定される訳ではない。
いくつかの実施形態において、知識サービス310は、Word2Vec等のデータ分析ツールを利用することにより、知識ソース340からのデータと知識ソースからのデータで増補し得る入力データとの間の一致度を示す精密なメトリック(たとえばスコア)を計算してもよい。スコア(「知識スコア」)は、入力データセットと比較対象のカテゴリとの類似度に関してより多くの知識を提供し得る。知識スコアによって、入力データを最も良く表わしているカテゴリ名をデータ強化サービス302が選択できるようにしてもよい。
上記技術において、知識サービス310は、知識ソース340における候補カテゴリ(たとえば属)の名称に対する、入力データセットにおける用語の一致の数をカウントしてもよい。この比較の結果から、完全な整数(whole integer)を表わす値を得ることがで
きる。よって、この値は、用語と用語の一致度を示すが、入力データセットと知識ソース内の各種用語との間の一致度は示さない場合がある。
知識サービス310は、Word2Vecを用いることにより、知識ソース内の各用語(たとえば種を表わす用語)と入力データの用語(たとえば種)との比較類似度を判断してもよい。知識サービス310は、Word2Vecを用いて入力データセットと知識ソースから取得した1つ以上の用語との類似性メトリック(たとえばコサイン類似度または距離)を計算することができる。コサイン類似度は、知識ソースから取得した用語のデータセット(たとえばドメインまたは属)と用語の入力データセットとの間のコサイン角度として計算してもよい。コサイン類似度メトリックは、Tanimotoメトリックと同様に計算してもよい。コサイン類似度に基づいて類似度メトリックを計算することにより、入力データセット内の各
用語を、その用語と候補カテゴリとの間の類似性のパーセンテージを示す値のような、完全値整数(whole-value integer)分の1とみなしてもよい。たとえば、タイヤメーカー
と名字との間の類似度メトリックを計算した結果、類似度メトリックは0.3かもしれない。一方、タイヤメーカーと企業名との間の類似度メトリックを計算した結果、類似度メトリックは0.5かもしれない。類似度メトリックを表わす非完全整数値を細かく比較することにより、一致度が高いカテゴリ名をより正確にすることができる。一致度が高いカテゴリ名を、値1に最も近い類似度メトリックに基づいて最も適切なカテゴリ名として選択してもよい。上記の例において、類似度メトリックに基づくと、企業名は正しいカテゴリである可能性が高い。よって、知識サービス310は、「名字」ではなく「企業」を、タイヤメーカーを含む、ユーザから提供されたデータ列に対応付ければよい。
知識サービス310は、知識グループ(たとえばドメインまたはカテゴリ)に関する情報を判断することができる。知識グループに関する情報は、グラフィカルユーザインターフェイスに表示することができる。知識ドメインに関する情報は、知識ドメインと用語の入力データセットとの間の類似度を示すメトリック(たとえば知識スコア)を含み得る。入力データを知識ソース340からのデータと比較してもよい。入力データセットは、ユーザによって指定されたデータセットからのデータの列に対応する場合がある。知識スコアは、入力データセットと、知識ソースから提供される1つ以上の用語との間の類似度を示し得る。各用語は知識ドメインに対応する。データの列は、場合によっては知識ドメインに属する用語を含み得る。
少なくとも1つの実施形態において、知識サービス310は、より正確なマッチングスコアを求めることができる。このスコアは、本明細書に援用されている文献を含む本明細書に記載の技術を利用するスコアリングの式を用いて計算された値に対応していてもよい。スコアリングの式により、2つのデータセット、たとえば、入力データセットと知識ソースから取得したドメイン(たとえば候補カテゴリ)の用語との間の意味類似性を求めてもよい。そのマッチングスコアがベストマッチ(たとえば最大マッチングスコア)を示すドメインを、入力データセットとの類似性が最大であるドメインとして選択してもよい。よって、入力データセット内の用語は、カテゴリとしてのドメイン名に対応付けられてもよい。
スコアリングの式を、入力データセットとドメイン(たとえば知識ソースから取得した用語のカテゴリ)に適用することにより、この入力データとドメインとの間の一致度を示すスコアを求めてもよい。ドメインは、集まってドメインを定義する1つ以上の用語を有し得る。スコアを用いることにより、入力データセットが最も類似するドメインを求めてもよい。入力データセットを、この入力データセットが最も類似するドメインを記述する用語に対応付けてもよい。
いくつかの実施形態において、ユーザインターフェイス306は、プロファイルエンジン326から提供されたメタデータに基づいて、グラフィカルなビジュアライゼーションを1つ以上生成することができる。上記のように、プロファイルエンジン326から提供されるデータは、プロファイルエンジン326によって処理されたデータに関するメトリックを示す統計情報を含み得る。プロファイリングされたデータのメトリックのグラフィカルなビジュアライゼーションの例は、図5A〜図5Dに示される。グラフィカルなビジュアライゼーションは、グラフィカルダッシュボード(たとえばビジュアライゼーションダッシュボード)を含み得る。グラフィカルダッシュボードは複数のメトリックを示し得る。これら複数のメトリックは各々、データがプロファイリングされた時間に対する、データのリアルタイムメトリックを示す。グラフィカルなビジュアライゼーションはユーザインターフェイスに表示されてもよい。たとえば、グラフィカルなビジュアライゼーションをクライアントデバイスに送ることにより、クライアントデバイスが、クライアントデ
バイスのユーザインターフェイスに、グラフィカルなビジュアライゼーションを表示できるようにする。いくつかの実施形態において、グラフィカルなビジュアライゼーションはプロファイリング結果を提供し得る。
加えて、プロファイルエンジン326による構造分析により、推薦エンジンは、そのクエリをより適切に知識サービスに向けることができ、その結果、処理速度が改善されシステムリソースに対する負荷が低減される。たとえば、この情報を用いて、クエリ対象の知識の範囲を制限することにより、知識サービス310が数値データの列を場所名に対してマッチングするようなことが生じないようにすることができる。
図4A〜図4Dは、本発明の実施形態に従う対話型データ強化を提供するユーザインターフェイスの例を示す。図4Aに示されるように、代表的な対話型ユーザインターフェイス400は、変換スクリプト402、推薦される変換404、および分析/変換の対象であるデータ406の少なくとも一部を表示することができる。パネルに一覧表示されている変換スクリプト402は、既にデータに適用されパネルで見ることができる変換406を含み得る。各変換スクリプト402は、ビジネスユーザにとってわかり易い単純な宣言型言語で記述することができる。パネルに一覧表示されている変換スクリプト402を、自動的にデータに適用し、対話型ユーザインターフェイス400に表示されているデータ406の一部に反映させてもよい。たとえば、パネルに一覧表示されている変換スクリプト402は、その内容を記述すべきリネーム列を含む。対話型ユーザインターフェイス400に示される列408は、変換スクリプト402に従って既にリネームされている(たとえば、列0003はdate_time_02にリネームされ列0007は「url」にリネームされ
ている等)。しかしながら、推薦される変換404はユーザのデータに自動的に適用されていない。
図4Bに示されるように、ユーザは推薦パネルの推薦404を見ることができこの推薦に基づいて変更すべきデータを識別することができる。たとえば、推薦410は、「Col_0008 to city」にリネームすることを推薦している。推薦は、(たとえばコードまたは疑似コードではなく)ビジネスユーザが理解できるように記述されているので、ユーザは対応するデータ412を簡単に識別できる。図4Bに示されるように、データ412はストリングの列(ユーザインターフェイス400では行として表わされる)を含む。プロファイルエンジン326はデータを分析することによりこれが2つ以下のワード(またはトークン)のストリングを含むと判断することができる。このパターンを、知識サービス310に対してクエリすることができる推薦エンジン318に与えることができる。この場合、知識サービス310は、このデータパターンを都市名に対してマッチングし、推薦408はそれに応じて列をリネームするために生成された。
いくつかの実施形態において、パネルに一覧表示されている推薦404は、ユーザに向けて(たとえば変換を適用せよという命令に応じて)適用されていてもよく、または、自動的に適用されてもよい。たとえば、いくつかの実施形態において、知識サービス310は、所与のパターン一致に対して信頼性スコアを与えることができる。しきい値を推薦エンジン308に設定し、このしきい値よりも高い信頼性スコアを有する一致が自動的に適用されるようにすることができる。
ユーザは、推薦を受容れる場合、この推薦に対応付けられた受容アイコン414(この例では上向きの矢印のアイコン)を選択すればよい。図4Cに示されるように、そうすると、受容された推薦414は、変換スクリプト402のパネルに移動し、自動的に変換を対応するデータ416に適用する。たとえば、図4Cに示される実施形態において、Col_0008は、選択された変換に従って「city」にリネームされている。
いくつかの実施形態において、データ強化サービス302は、さらに他のデータ列をデータソースに加えることを提案できる。図4Dに示されるように、「city」の例を続けると、変換418は、都市の人口と経度および緯度を含む都市の位置の詳細とを含む新たな列でデータを強化することが受容されている。選択されると、ユーザのデータセットは、この追加情報420を含むように強化される。そうすると、このデータセットは、以前は総合的にかつ自動的にユーザが利用できなかった情報を含むことになる。この時点で、ユーザのデータセットを用いて、データセット内の他のデータに対応付けられた位置ゾーンおよび人口ゾーンからなる全国地図を作成することができる(たとえばこれを企業のウェブサイトトランザクションに対応付けてもよい)。
図5A〜図5Dは、本発明の実施形態に従うデータセットのビジュアライゼーションを提供するさまざまなユーザインターフェイスの例を示す。
図5Aは、本発明の実施形態に従うデータセットのビジュアライゼーションを提供するユーザインターフェイスの一例を示す。図5Aに示されるように、代表的な対話型ユーザインターフェイス500は、プロファイル概要502(「プロファイル結果」)と、変換スクリプト504と、推薦される変換506と、分析/変換対象のデータの少なくとも一部508とを表示することができる。パネルに一覧表示されている変換504は、既にデータに適用されパネルにおいて見ることができる変換508を含み得る。
プロファイル概要502は、全体統計(たとえば行総数および列総数)と、列特有の統計とを含み得る。列特有の統計は、データ強化サービス302によって処理されたデータの分析によって生成することができる。いくつかの実施形態において、列特有の統計は、データ強化サービス302によって処理されたデータの分析によって求められた列情報に基づいて生成することができる。
プロファイル概要502は、米国の地図(たとえば「ヒートマップ」)を含み得る。この地図では、分析対象のデータ508から識別された統計に基づいて、米国の異なる地域が色を変えて示される。この統計は、これらの場所が、データに対応付けられていると識別された頻度を示していてもよい。説明のための一例において、データはオンライン小売店における購入トランザクションを表わしていてもよく、この場合の各トランザクションは、たとえば配送先/請求先住所に基づいてまたは記録されているIPアドレスに基づいて)場所に対応付けることができる。プロファイル概要502は、購入トランザクションを表わすデータの処理に基づいてトランザクションの場所を示してもよい。いくつかの実施形態において、ビジュアライゼーションをユーザ入力に基づいて修正することにより、ユーザがデータを検索して有益な相関関係を見出すのを支援することができる。これらの特徴を以下でさらに説明する。
図5B、図5Cおよび図5Dは、データセットの対話型データ強化の結果の例を示す。図5Bはプロファイルメトリックパネル542を含み得るユーザインターフェイス540を示す。パネル542は、選択されたデータソースに対応付けられたメトリックの要約を示すことができる。図5Cに示されるように、いくつかの実施形態において、プロファイルメトリックパネル560は、データセット全体ではなく特定列のメトリック562を含み得る。たとえば、ユーザは、ユーザのクライアントデバイス上で特定の列を選択すればよく、そうすると対応する列のプロファイル564を表示することができる。この例において、プロファイラは、column_0008と、知識ソースの既知の都市との間の一致が92%
であることを示す。いくつかの実施形態において、確率が高いことにより、変換エンジンが自動的にcol_0008のラベルを「city」にするようにできる。
図5Dは、全体的なメトリック582(たとえばデータセット全体に関連するメトリッ
ク)と、列ごとのビジュアライゼーション584とを含み得るプロファイルメトリックパネル580を示す。列ごとのビジュアライゼーション584は、ユーザによって選択されるおよび/または使用されることにより、(たとえばクリック、ドラッグ、スワイプ等によって)データをナビゲートすることができる。上記の例は、小さなデータセットへの簡単な変換を示す。同様のまたはより複雑な処理を、何十億もの記録を含む大きなデータセットに自動的に適用することもできる。
図6を参照して、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図で示されるプロセスとして説明し得る。フローチャートはオペレーションを逐次プロセスとして説明する場合があるが、これらのオペレーションのうちの多くは並列してまたは同時に実行し得る。加えて、オペレーションの順序は構成し直してもよい。プロセスは、そのオペレーションが完了したときに終了するが、図面には含まれていないさらに他のステップを有することがある。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応し得る。プロセスが関数に対応する場合、その終わりは、その関数の、呼出し関数またはメイン関数へのリターンに対応し得る。
図6に示すプロセスは、1つ以上の処理ユニット(たとえばプロセッサコア)によって実行されるソフトウェア(たとえばコード、命令、プログラム)、ハードウェア、または、これらを組合わせたもので、実装し得る。ソフトウェアはメモリ(たとえばメモリデバイス、非一時的なコンピュータ読取可能な記憶媒体)に格納されていてもよい。いくつかの実施形態において、本明細書のフローチャートに示されるプロセスは、データ強化サービス、たとえばデータ強化サービス302のコンピューティングシステムによって実装できる。本開示における特定の一連の処理ステップは限定を意図しているのではない。代替の実施形態に従って他の順序のステップも実施し得る。たとえば、本発明の代替の実施形態は、先に概要を述べたステップを他の順序で実行し得る。加えて、図面に示される個々のステップは、個々のステップに適したさまざまな順序で実行し得る複数のサブステップを含み得る。さらに、特定の用途に応じてその他のステップを追加してもよく削除してもよい。当業者は数多くの変形、修正および代替例を認識するであろう。
いくつかの実施形態のある側面において、図6のフローチャートの各プロセスは、1つ以上の処理ユニットによって実行できる。1つの処理ユニットは、シングルコアもしくはマルチコアプロセッサ、プロセッサの1つ以上のコア、またはその組合わせを含む、1つ以上のプロセッサを含み得る。いくつかの実施形態において、1つの処理ユニットは、グラフィックプロセッサ、デジタル信号プロセッサ(DSP)等の専用コプロセッサを1つ以上含み得る。いくつかの実施形態において、処理ユニットのうちの一部またはすべてを、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)等のカスタマイズされた回路を用いて実装することができる。
図6は、本発明の実施形態に従うデータ強化方法のフローチャートを示す。いくつかの実施形態において、図6に示されるプロセスは、データ強化サービス302のコンピューティングシステムによって実装することができる。ブロック602で、コンピューティングシステムの処理部は、1つ以上のデータソースからのデータにおけるパターンを識別してもよい。ブロック604で、コンピューティングシステムの処理部は、このパターンを、知識サービスから取得したエンティティ情報に対してマッチングすることができる。エンティティ情報は、エンティティに関する情報を示し得る。たとえば、エンティティは、住所、事業所名、場所、個人名、ID番号等であってもよい。上記のように、プロファイルエンジンは、知識サービスと1つ以上の知識ソースとを用いてデータにおけるパターンを識別できる。エンティティ情報は、知識サービスから、限定されないが、アレイ、レコード、リレーショナルデータベース表、ハッシュ表、連結リスト、またはそれ以外の種類のデータ構造を含む、多数の種類のデータ構造のうちの1つまたはその組合わせにおいて
取得してもよい。
ブロック606で、コンピューティングシステムの処理部は、エンティティ情報に基づいてデータのための1つ以上の変換スクリプトを生成することができる。たとえば、変換スクリプトを、エンティティ情報と一致するパターンに対応するデータを変換するために決定してもよい。データを変換することは、データの一部を更新、追加、または削除することを含み得る。変換スクリプトは、データを削除するため、データを再フォーマット(たとえば修正)するため、および/またはデータを強化(たとえば追加)するためのスクリプトを含み得る。エンティティ情報に対応するエンティティを用いて、どのデータを変換するかおよび如何にしてそのデータを変換するかを判断してもよい。エンティティ情報は、データにおいて、そのデータの1つ以上の属性に基づいて識別してもよい。ブロック608で、コンピューティングシステムの処理部は、上記1つ以上の変換スクリプトに対応する1つ以上の推薦を生成してもよい。ブロック610で、コンピューティングシステムの処理部は、上記1つ以上の推薦をユーザインターフェイスに表示してもよい。
ブロック612で、コンピューティングシステムの処理部は、上記1つ以上の推薦に基づく変換命令を受けてもよい。変換命令は、選択された1つ以上の推薦に基づいて、1つ以上のデータソースから受けたデータを如何にして修正および/または強化し得るかを示してもよい。いくつかの実施形態において、変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列をリネームすることを指示する変換命令を含む。いくつかの実施形態において、その他の変換命令を受けてデータの少なくとも1つの列をデフォルト名にリネームすることができる。デフォルト名は、予め定められた名称を含み得る。デフォルト名は、データの列の名称を判断できないかまたはデータの列の名称が規定されていないときに予め規定されるどのような名称であってもよい。変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列を再フォーマットすることを指示する変換命令と、エンティティ情報に基づいてデータの少なくとも1つの列を難読化することを指示する変換命令とを含み得る。いくつかの実施形態において、変換命令は、エンティティ情報に基づいて知識サービスから取得したデータの1つ以上の列を追加することを指示する強化命令を含み得る。
ブロック614で、コンピューティングシステムの処理部は、変換命令に基づいてデータを変換してもよい。先に説明したように、変換命令は、如何にしてデータを強化および/または修正するかを示す。データは、選択された推薦に基づいてデータを強化および/または修正するために、本明細書に開示されているようなオペレーションを実行することによって変換してもよい。たとえば、データを再フォーマットすることを指示する変換命令に対し、データを修正によって変換して再フォーマットしてもよい。よって、変換されたデータを再フォーマットしてもよい。ブロック616で、コンピューティングシステムの処理部は、変換命令に基づいて変換後のデータを1つ以上のデータターゲットに対して公開してもよい。このフローチャートは618で終了してもよい。
図7は、実施形態を実装するための分散型システム700の簡略図を示す。示されている実施形態において、分散型システム700は、1つ以上のクライアントコンピューティングデバイス702,704,706,および708を含み、これらは、1つ以上のネットワーク710を通じて、ウェブブラウザ、専用クライアント(たとえば、Oracle Forms)等のクライアントアプリケーションを実行し操作するように構成される。サーバ712は、ネットワーク710を介してリモートクライアントコンピューティングデバイス702,704,706,および708と通信可能に結合されてもよい。
さまざまな実施形態において、サーバ712は、文書(たとえばウェブページ)の分析および修正に関連する処理を提供するサービスおよびアプリケーション等の1つ以上のサ
ービスまたはソフトウェアアプリケーションを実行するように適合させてもよい。特定の実施形態において、サーバ712はその他のサービスまたはソフトアプリケーションも提供し得る。これは非仮想および仮想環境を含み得る。いくつかの実施形態において、これらのサービスは、ウェブベースもしくはクラウドサービスとして、または、サービスとしてのソフトウェア(SaaS)モデルの下で、クライアントコンピューティングデバイス702,704,706,および/または708のユーザに提供し得る。クライアントコンピューティングデバイス702、704および706,および/または708を操作するユーザは、1つ以上のクライアントアプリケーションを利用してサーバ712と対話することにより、これらのコンポーネントによって提供されるサービスを利用し得る。
図7に示される構成において、システム700のソフトウエアコンポーネント718、720および722は、サーバ712上で実装されるものとして示されている。他の実施形態において、システム700のコンポーネントのうちの1つ以上および/またはこれらのコンポーネントによって提供されるサービスも、クライアントコンピューティングデバイス702,704,706,および/または708のうちの1つ以上によって実装されてもよい。そうすると、クライアントコンピューティングデバイスを操作するユーザは、1つ以上のクライアントアプリケーションを利用して、これらのコンポーネントによって提供されるサービスを使用し得る。これらのコンポーネントは、ハードウェア、ファームウェア、ソフトウェア、またはこれらの組合わせにおいて実装し得る。分散型システム700とは異なり得るさまざまな異なるシステムコンフィギュレーションが可能であることが認識されるはずである。図7に示される実施形態はしたがって、実施形態のシステムを実装するための分散型システムの一例であり、限定を意図していない。
クライアントコンピューティングデバイス702,704,706,および/または708は、さまざまな種類のコンピューティングシステムを含み得る。たとえば、クライアントデバイスは、Microsoft Windows Mobile(登録商標)等のソフトウェアおよび/またはiOS、Windows Phone、Android、BlackBerry 10、Palm OS等のようなさまざまなモバイ
ルオペレーティングシステムを実行する、ポータブルハンドヘルドデバイス(たとえばiPhone(登録商標)、携帯電話、iPad(登録商標)、コンピューティングタブレット、携帯情報端末(PDA))またはウェアラブルデバイス(たとえばGoogle Glass(登録商標)ヘッドマウントディスプレイ)を含み得る。これらのデバイスは、さまざまなインターネット関連アプリケーション、電子メール、ショートメッセージサービス(SMS)アプリケーションをサポートし得るものであり、その他さまざまな通信プロトコルを使用し得る。クライアントコンピューティングデバイスはまた、一例として、さまざまなバージョンのMicrosoft Windows(登録商標)、Apple Macintosh(登録商標)、および/またはLinux(登録商標)オペレーティングシステムを実行するパーソナルコンピュータおよび/ま
たはラップトップコンピュータ含む汎用パーソナルコンピュータを含み得る。クライアントコンピューティングデバイスは、限定されないがたとえばGoogle Chrome OS等のさまざまなGNU/Linux(登録商標)オペレーティングシステムを含む市場で入手可能な多様なUNIX(登録商標)またはUNIX(登録商標)系オペレーティングシステムのうちのいずれかを
実行するワークステーションコンピュータであってもよい。クライアントコンピューティングデバイスはまた、ネットワーク710を通して通信可能な、シンクライアントコンピュータ、インターネット接続可能なゲームシステム(たとえばKinect(登録商標)ジェスチャー入力デバイスを有するまたは有しないMicrosoft Xboxゲームコンソール)、および/またはパーソナルメッセージングデバイス等の電子デバイスを含み得る。
図7では4つのクライアントコンピューティングデバイスを有する分散型システム700が示されているが、任意の数のクライアントコンピューティングデバイスをサポートし得る。センサを有するデバイス等の他のデバイスがサーバ712と対話してもよい。
分散型システム700のネットワーク710は、限定されないがTCP/IP(Transmission control protocol/Internet protocol)、SNA(systems network architecture)、IPX(Internet packet exchange)、AppleTalk(登録商標)等を含む利用できるさまざまなプロトコルのうちのいずれかを使用してデータ通信をサポートできる、当業者によく知られた任意のタイプのネットワークであってもよい。一例に過ぎないが、ネットワーク710は、ローカルエリアネットワーク(LAN)、イーサネット(登録商標)、トークンリングに基づくネットワーク、広域ネットワーク、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(たとえばInstitute of Electrical and Electronics(IEEE)802.11プロトコルスイート、Bluetooth(登録商標)、および/または任意の他の無線プロトコルのうちのいずれかの下で動作するネットワーク)、および/または上記および/またはその他のネットワークの任意の組合わせであってもよい。
サーバ712は、1つ以上の汎用コンピュータ、専用サーバコンピュータ(一例としてPC(パーソナルコンピュータ)サーバ、UNIX(登録商標)サーバ、ミッドレンジサーバ、メインフレームコンピュータ、ラックマウントサーバ等を含む)、サーバファーム、サーバクラスタ、または任意の他の適切な構成および/または組合わせによって構成されていてもよい。サーバ712は、仮想オペレーティングシステムを実行する1つ以上の仮想マシン、または、仮想化を伴うその他のコンピューティングアーキテクチャを含み得る。論理記憶デバイスの1つ以上のフレキシブルなプールを仮想化することによってサーバのための仮想記憶デバイスを維持してもよい。仮想ネットワークは、サーバ712が、ソフトウェアで規定されるネットワーキングを用いて制御することができる。さまざまな実施形態において、サーバ712は、これまでの開示において記載されている1つ以上のサービスまたはソフトウェアアプリケーションを実行するように適合させてもよい。たとえば、サーバ712は、本開示の実施形態に係る上記処理を実行するためのサーバに対応し得る。
サーバ712は、上記オペレーティングシステムのうちのいずれかおよび市場で入手可能なサーバオペレーティングシステムを含むオペレーティングシステムを実行し得る。また、サーバ712は、HTTP(hypertext transport protocol)サーバ、FTP(file
transfer protocol)サーバ、CGI(common gateway interface)サーバ、JAVA(登録商標)サーバ、データベースサーバ等を含む、さまざまな付加的なサーバアプリケーションおよび/またはミッドティアアプリケーションのうちのいずれかを実行し得る。典型的なデータベースサーバは、Oracle、Microsoft、Sybase、IBM(International Business Machines)等から市販されているものを含むが、これらに限定されない。
いくつかの実装例において、サーバ712は、クライアントコンピューティングデバイス702,704,706,および708のユーザから受信したデータフィードおよび/またはイベントアップデートを分析し統合するための1つ以上のアプリケーションを含み得る。一例として、データフィードおよび/またはイベントアップデートは、限定されないが、1つ以上の第三者情報源および連続データストリームから受信したTwitter(登録
商標)フィード、Facebook(登録商標)更新、またはリアルタイム更新を含み得る。これらはセンサデータアプリケーション、株式相場ディスプレイデバイス、ネットワーク性能測定ツール(たとえばネットワーク監視およびトラフィック管理アプリケーション)、クリックストリーム分析ツール、自動車トラフィック監視等に関連するリアルタイムイベントを含み得る。また、サーバ712は、クライアントコンピューティングデバイス702,704,706,および708の1つ以上のディスプレイデバイスを介してデータフィードおよび/またはリアルタイムイベントを表示するための1つ以上のアプリケーションを含み得る。
分散型システム700は、1つ以上のデータベース714および716も含み得る。これらのデータベースは、ユーザ対話情報、使用パターン情報、適応則情報、および本発明の実施形態で使用されるその他の情報等の情報を格納するためのメカニズムを提供し得る。データベース714および716はさまざまな場所に存在し得る。一例として、データベース714および716のうちの1つ以上は、サーバ712に対してローカルな場所にある(および/またはサーバ内にある)非一時的な記憶媒体上にあってもよい。代替的に、データベース714および716は、サーバ712から遠隔の場所に位置してネットワークベースのまたは専用接続を介してサーバ712と通信してもよい。一組の実施形態において、データベース714および716は、ストレージエリアネットワーク(SAN)内にあってもよい。同様に、サーバ712に帰する機能を実行するために必要な任意のファイルを、適宜、サーバ712に対してローカルな場所におよび/またはサーバ712から遠隔の場所に格納してもよい。一組の実施形態において、データベース714および716は、SQLフォーマットの命令に応答してデータを記憶、更新、および検索するように適合している、Oracleによって提供されるデータベース等のリレーショナルデータベースを含み得る。
いくつかの実施形態において、上記文書分析および修正サービスは、クラウド環境を介したサービスとして提供されてもよい。図8は、本開示の実施形態に従う、サービスをクラウドサービスとして提供し得るシステム環境800の1つ以上のコンポーネントの簡略化されたブロック図である。図8に示されている実施形態において、システム環境800は、使用パターンに応じて文書(たとえばウェブページ)を動的に修正するためのサービスを含むクラウドサービスを提供するクラウドインフラストラクチャシステム802と対話するためにユーザが使用し得る1つ以上のクライアントコンピューティングデバイス804,806,および808を含む。クラウドインフラストラクチャシステム802は、サーバ812に関して先に述べたものを含み得る1つ以上のコンピュータおよび/またはサーバを含み得る。
図8に示されているクラウドインフラストラクチャシステム802は示されているもの以外のコンポーネントを有し得ることが認識されるはずである。さらに、図8に示される実施形態は、本発明の実施形態を組込むことができるクラウドインフラストラクチャシステムの一例に過ぎない。他のいくつかの実施形態において、クラウドインフラストラクチャシステム802は、図示されているよりも多いまたは少ないコンポーネントを有していてもよく、2つ以上のコンポーネントを組合わせてもよく、または異なる構成または配置のコンポーネントを有していてもよい。
クライアントコンピューティングデバイス804,806,および808は、702,704,706,および708について先に述べたものと同様のデバイスであってもよい。クライアントコンピューティングデバイス804,806,および808は、以下のようなクライアントアプリケーションを操作するように構成されていてもよく、このクライアントアプリケーションは、たとえば、クライアントコンピューティングデバイスのユーザがクラウドインフラストラクチャシステム802と対話してクラウドインフラストラクチャシステム802が提供するサービスを使用するために使用し得る、ウェブブラウザ、専用クライアント(たとえばOracle Forms)、またはその他何らかのアプリケーション等である。典型的なシステム環境800は3つのクライアントコンピューティングデバイスとともに示されているが、任意の数のクライアントコンピューティングデバイスをサポートし得る。センサ等を有するデバイスのようなその他のデバイスがクラウドインフラストラクチャシステム802と対話してもよい。
ネットワーク810は、クライアント804,806、808とクラウドインフラスト
ラクチャシステム802との間のデータの通信およびやり取りを容易にし得る。各ネットワークは、ネットワーク810について先に述べたものを含むさまざまな市場で入手可能なプロトコルのいずれかを使用してデータ通信をサポートすることができる、当業者によく知られた任意のタイプのネットワークであってもよい。
特定の実施形態において、クラウドインフラストラクチャシステム802によって提供されるサービスは、クラウドインフラストラクチャシステムのユーザがオンデマンドで利用できるようにされる多数のサービスを含み得る。使用パターンに応じて動的に文書を修正することに関連するサービスに加えて、その他さまざまなサービスも提供し得る。これらのサービスは、限定されないが、オンラインデータストレージおよびバックアップソリューション、ウェブベースの電子メールサービス、ホストされたオフィスパッケージおよびドキュメントコラボレーションサービス、データベース処理、管理された技術サポートサービス等である。クラウドインフラストラクチャシステムによって提供されるサービスは、そのユーザのニーズに合わせて動的にスケーリングできる。
特定の実施形態において、クラウドインフラストラクチャシステム802によって提供されるサービスの具体的なインスタンス化は、本明細書において「サービスインスタンス」と呼ばれることがある。一般的に、クラウドサービスプロバイダのシステムからインターネット等の通信ネットワークを介してユーザが利用できるようにされる任意のサービスは、「クラウドサービス」と呼ばれる。典型的に、パブリッククラウド環境において、クラウドサービスプロバイダのシステムを構成するサーバおよびシステムは、顧客自身のオンプレミスサーバおよびシステムとは異なる。たとえば、クラウドサービスプロバイダのシステムは、アプリケーションをホストしてもよく、ユーザは、インターネット等の通信ネットワークを介してオンデマンドでアプリケーションをオーダーして使用すればよい。
いくつかのの例において、コンピュータネットワーククラウドインフラストラクチャにおけるサービスは、クラウドベンダーによってまたは当該技術において周知の他のやり方でユーザに提供される、記憶装置、ホストされたデータベース、ホストされたウェブサーバ、ソフトウェアアプリケーション、または他のサービスに対する保護されたコンピュータネットワークアクセスを含み得る。たとえば、サービスは、インターネットを通じたクラウド上の記憶装置に対するパスワードで保護されたアクセスを含むことができる。別の例として、サービスは、ネットワーク化されたデベロッパーによる私的使用のためのウェブサービスベースのホストされたリレーショナルデータベースおよびスクリプト言語ミドルウェアエンジンを含むことができる。別の例として、サービスは、クラウドベンダーのウェブサイト上でホストされた電子メールソフトウェアアプリケーションに対するアクセスを含むことができる。
特定の実施形態において、クラウドインフラストラクチャシステム802は、セルフサービスの、申込みに基づく、弾力的にスケーラブルで、確実で、非常に有効で、かつ安全なやり方で、顧客に与えられる、アプリケーション、ミドルウェア、およびデータベースサービス提供物一式を含み得る。そのようなクラウドインフラストラクチャシステムの一例は、本願の譲受人によって提供されるOracle Public Cloudである。
クラウドインフラストラクチャシステム802は、「ビッグデータ」に関連する計算および分析サービスも提供し得る。「ビッグデータ」という用語は一般的に、大量のデータを可視化する、傾向を発見する、および/またはそうでなければデータと対話するために、アナリストおよびリサーチャーが保存し操作することができる極めて大きなデータセットに言及するときに用いられる。このビッグデータおよび関連するアプリケーションは、多数のレベルおよびさまざまな規模でインフラストラクチャシステムがホストおよび/または操作することができる。並列にリンクされた何十、何百、または何千ものプロセッサ
が、このようなデータに対して機能することにより、それを示すまたはデータに対する外部からの力をもしくはそれが表わしているものをシミュレートすることができる。これらのデータセットは、データベース内でそうでなければ構造化モデルに従って組織されたデータのような構造化データ、および/または非構造化データ(たとえば電子メール、画像、データBLOB((binary large object)バイナリラージオブジェクト)、ウェブペ
ージ、複雑なイベント処理)を含み得る。より多くの(またはより少ない)計算リソースを比較的素早く目標物に向ける実施形態の能力を高めることにより、企業、政府機関、リサーチ組織、私人、同じ目的を有する個人もしくは組織、またはその他のエンティティからの要求に基づいて大きなデータセットに対するタスクを実行するにあたり、クラウドインフラストラクチャシステムをより有効にすることができる。
さまざまな実施形態において、クラウドインフラストラクチャシステム802は、クラウドインフラストラクチャシステム802から提供されるサービスに対する顧客の申込みを自動的にプロビジョニングし、管理し、かつ追跡するように適合させることができる。クラウドインフラストラクチャシステム802は、異なるデプロイメントモデルを介してクラウドサービスを提供し得る。たとえば、サービスは、(たとえばOracle社所有の)クラウドサービスを販売する組織によってクラウドインフラストラクチャシステム802が所有されるパブリッククラウドモデルの下で提供されてもよく、サービスは、一般大衆または異なる産業企業にとって利用可能とされる。別の例として、サービスは、クラウドインフラストラクチャシステム802が単一の組織のためにのみ運営され、組織内の1つ以上のエンティティのためのサービスを提供し得る個人のクラウドモデルの下で提供し得る。また、クラウドサービスは、クラウドインフラストラクチャシステム802およびクラウドインフラストラクチャシステム802によって提供されるサービスが、関連するコミュニティー内の一部の組織によって共有されるコミュニティークラウドモデルの下で提供し得る。また、クラウドサービスは、2つ以上の異なるモデルの組み合わせであるハイブリッドクラウドモデルの下で提供し得る。
いくつかの実施形態において、クラウドインフラストラクチャシステム802によって提供されるサービスは、サービスとしてのソフトウェア(SaaS)カテゴリ、サービスとしてのプラットフォーム(PaaS)カテゴリ、サービスとしてのインフラストラクチャ(IaaS)カテゴリ、またはハイブリッドサービスを含む他のサービスカテゴリの下で提供される1つ以上のサービスを含み得る。顧客は、クラウドインフラストラクチャシステム802によって提供される1つ以上のサービスを申込みオーダーによってオーダーし得る。そうすると、クラウドインフラストラクチャシステム802は、顧客の申込みオーダーにおけるサービスを提供するための処理を行なう。
いくつかの実施形態において、クラウドインフラストラクチャシステム802によって提供されるサービスは、限定されないが、アプリケーションサービス、プラットフォームサービスおよびインフラストラクチャサービスを含み得る。いくつかの例において、アプリケーションサービスは、クラウドインフラストラクチャシステムによってSaaSプラットフォームを介して提供し得る。SaaSプラットフォームは、SaaSカテゴリに入るクラウドサービスを提供するように構成し得る。たとえば、SaaSプラットフォームは、統合された開発およびデプロイメントプラットフォーム上のオンデマンドのアプリケーション一式を構築し、伝える能力を提供し得る。SaaSプラットフォームは、SaaSサービスを提供するための基礎的なソフトウェアおよびインフラストラクチャを管理し、制御し得る。SaaSプラットフォームによって提供されるサービスを利用することによって、顧客は、クラウドインフラストラクチャシステム上で実行するアプリケーションを利用することができる。顧客は、顧客が別個のライセンスおよびサポートを購入する必要なしに、アプリケーションサービスを得ることができる。さまざまな異なるSaaSサービスが提供し得る。例は、限定されないが、大きな組織のための販売実績管理、企業統
合およびビジネス上のフレキシビリティのためのソリューションを提供するサービスを含む。
いくつかの実施形態において、プラットフォームサービスは、クラウドインフラストラクチャシステム802によってPaaSプラットフォームを介して提供し得る。PaaSプラットフォームは、PaaSカテゴリに入るクラウドサービスを提供するように構成し得る。プラットフォームサービスの例は、限定されないが、共有されている共通アーキテクチャ上の既存のアプリケーションを組織(Oracle等)が統合することを可能にするサービスと、プラットフォームによって提供される共有サービスを活用する新しいアプリケーションを構築する能力とを含み得る。PaaSプラットフォームは、PaaSサービスを提供するための基礎的なソフトウェアおよびインフラストラクチャを管理および制御し得る。顧客は、顧客が別個のライセンスおよびサポートを購入する必要なしに、クラウドインフラストラクチャシステム802によって提供されるPaaSサービスを得ることができる。プラットフォームサービスの例は、限定されないが、Oracle Java(登録商標) Cloud Service(JCS)、Oracle Database Cloud Service(DBCS)他を含む。
PaaSプラットフォームによって提供されるサービスを利用することによって、顧客は、クラウドインフラストラクチャシステムによってサポートされたプログラミング言語およびツールを採用し、また、デプロイされたサービスを制御することもできる。いくつかの実施形態において、クラウドインフラストラクチャシステムによって提供されるプラットフォームサービスは、データベースクラウドサービス、ミドルウェアクラウドサービス(たとえばOracle Fusion Middleware services)、およびJava(登録商標)クラ
ウドサービスを含み得る。一実施形態において、データベースクラウドサービスは、組織がデータベースリソースをプールし、かつデータベースクラウドの形態でのサービスとして顧客にデータベースを提示することを可能にする共有サービスデプロイメントモデルをサポートし得る。ミドルウェアクラウドサービスは、顧客がさまざまなビジネスアプリケーションを展開しデプロイするためのプラットフォームを提供してもよく、Java(登録商標)クラウドサービスは、クラウドインフラストラクチャシステムにおいて顧客がJava(登録商標)アプリケーションをデプロイするためのプラットフォームを提供してもよい。
さまざまな異なるインフラストラクチャサービスは、クラウドインフラストラクチャシステムにおいてIaaSプラットフォームによって提供し得る。インフラストラクチャサービスは、SaaSプラットフォームおよびPaaSプラットフォームによって提供されるサービスを利用する顧客のための記憶装置、ネットワーク、および他の基本のコンピューティングリソースといった基礎的なコンピューティングリソースの管理および制御を容易にする。
特定の実施形態において、クラウドインフラストラクチャシステム802はまた、クラウドインフラストラクチャシステムの顧客にさまざまなサービスを提供するために用いられるリソースを提供するためのインフラストラクチャリソース830を含み得る。一実施形態において、インフラストラクチャリソース830は、PaaSプラットフォームおよびSaaSプラットフォームによって提供されるサービスを実行するためのサーバ、記憶装置、およびネットワークのリソースといったハードウェアの予め統合され最適化された組合わせ、ならびにその他のリソースを含み得る。
いくつかの実施形態において、クラウドインフラストラクチャシステム802におけるリソースは、複数のユーザによって共有され要求ごとに動的に再割当てされてもよい。加えて、リソースは、異なるタイムゾーンのユーザに割当てられてもよい。たとえば、クラウドインフラストラクチャシステム802は、第1のタイムゾーンの第1の組のユーザが
特定数の時間クラウドインフラストラクチャシステムのリソースを利用できるようにし、次いで異なるタイムゾーンに位置する別の組のユーザに対して同じリソースを再度割当てることによって、リソースの利用を最大化してもよい。
特定の実施形態において、クラウドインフラストラクチャシステム802の異なるコンポーネントまたはモジュールによって共有される多数の内部共有サービス832を提供し得る。これらの内部共有サービスは、限定されないが、セキュリティおよびアイデンティティサービス、インテグレーションサービス、企業リポジトリサービス、企業マネージャーサービス、ウィルススキャンおよびホワイトリストサービス、高アベイラビリティ、保存後修復サービス、クラウドサポートを可能にするためのサービス、電子メールサービス、通知サービス、ファイル転送サービス等を含み得る。
特定の実施形態において、クラウドインフラストラクチャシステム802は、クラウドインフラストラクチャシステムにおいてクラウドサービス(たとえばSaaS、PaaSおよびIaaSサービス)の包括的な管理を提供し得る。一実施形態において、クラウド管理機能は、クラウドインフラストラクチャシステム802によって受信された顧客の申込みをプロビジョニング、管理、および追跡する機能を含み得る。
一実施形態において、図8に示されるように、クラウド管理機能は、オーダー管理モジュール820、オーダーオーケストレーションモジュール822、オーダープロビジョニングモジュール824、オーダー管理および監視モジュール826、およびアイデンティティ管理モジュール826といった、1つ以上のモジュールによって提供し得る。これらのモジュールは、汎用コンピュータ、専用サーバコンピュータ、サーバファーム、サーバクラスタ、または任意の他の適切な構成および/または組合わせであってもよい1つ以上のコンピュータおよび/またはサーバを含み得る、または、それらを用いて提供し得る。
典型的な動作では、834において、クライアントデバイス804、806、または808等のクライアントデバイスを用いる顧客は、クラウドインフラストラクチャシステム802によって提供される1つ以上のサービスを要求し、クラウドインフラストラクチャシステム802によって提示される1つ以上のサービスの申込みのためのオーダーを行なうことによって、クラウドインフラストラクチャシステム802と対話してもよい。特定の実施形態において、顧客は、クラウドUI812、クラウドUI814、および/またはクラウドUI816等のクラウドユーザインターフェイス(UI)にアクセスし、これらのUIを介して申込みオーダーを行なってもよい。顧客がオーダーを行ったことに応じてクラウドインフラストラクチャシステム802によって受信されるオーダー情報は、顧客を特定する情報と、顧客が申込む予定のクラウドインフラストラクチャシステム802によって提供される1つ以上のサービスとを含み得る。
836において、顧客から受けたオーダー情報は、オーダーデータベース818に格納されてもよい。これが新しいオーダーであれば、このオーダーについて新たな記録が作成されてもよい。一実施形態において、オーダーデータベース818は、クラウドインフラストラクチャシステム818によって操作され、他のシステムエレメントとともに操作されるいくつかのデータベースのうちの1つであってもよい。
838において、オーダー情報は、オーダー管理モジュール820に転送されてもよい。オーダー管理モジュール820は、オーダーを確認し、確認後にオーダーを記入する等の、オーダーに関連する課金および会計機能を行なうように構成し得る。
840において、オーダーに関する情報は、オーダーオーケストレーションモジュール822に伝えられてもよい。オーダーオーケストレーションモジュール822は、顧客に
よって出されたオーダーのためのサービスおよびリソースのプロビジョニングを調整するように構成されている。いくつかのインスタンスにおいて、オーダーオーケストレーションモジュール822は、プロビジョニングのためにオーダープロビジョニングモジュール824のサービスを用いてもよい。特定の実施形態において、オーダーオーケストレーションモジュール822は、各オーダーに関連付けられたビジネスプロセスの管理を可能にし、オーダーがプロビジョニングに進むべきか否かを判断するためにビジネスロジックを適用する。
図8に示される実施形態において示されるように、842において、新規申込みのためのオーダーを受信すると、オーダーオーケストレーションモジュール822は、オーダープロビジョニングモジュール824に要求を送信して、リソースを割当て、申込みオーダーを遂行するために必要とされるリソースを構成する。オーダープロビジョニングモジュール824は、顧客によってオーダーされたサービスのためのリソースの割当てを可能にする。オーダープロビジョニングモジュール824は、クラウドインフラストラクチャシステム800によって提供されるクラウドサービスと、リソースサービスを提供するためにリソースをプロビジョニングするために用いられる物理実装層との間に抽象化レベルを提供する。これにより、オーダーオーケストレーションモジュール822を、サービスおよびリソースが実際にオンザフライでプロビジョニングされまたは予めプロビジョニングされ要求後に割当て/アサインされるか否かといった実施の詳細から分離することができる。
844において、ひとたびサービスおよびリソースがプロビジョニングされると、要求されたサービスが現在利用できる状態にあることを示す通知を、申込んだ顧客に送ってもよい。いくつかのインスタンスにおいて、顧客が要求したサービスの利用を開始できるようにする情報(たとえばリンク)を顧客に送ってもよい。
846において、顧客の申込みオーダーは、オーダー管理および監視モジュール826によって管理および追跡されてもよい。いくつかのインスタンスにおいて、オーダー管理および監視モジュール826は、申込まれたサービスの顧客利用に関する使用統計を収集するように構成されてもよい。たとえば、記憶装置の使用量、データ転送量、ユーザ数、ならびにシステムアップタイムおよびシステムダウンタイムの量等について、統計が収集されてもよい。
特定の実施形態において、クラウドインフラストラクチャシステム800は、アイデンティティ管理モジュール826を含み得る。アイデンティティ管理モジュール826は、クラウドインフラストラクチャシステム800におけるアクセス管理および認可サービスといったアイデンティティサービスを提供するように構成される。いくつかの実施形態において、アイデンティティ管理モジュール826は、クラウドインフラストラクチャシステム802によって提供されるサービスを利用したい顧客に関する情報を制御し得る。そのような情報は、そのような顧客のアイデンティティを認証する情報と、さまざまなシステムリソース(たとえばファイル、ディレクトリ、アプリケーション、通信ポート、メモリセグメント等)に対しそれらの顧客が実行を認可されるアクションを記述する情報とを含むことができる。アイデンティティ管理モジュール826は、各顧客に関し、かつ、どのように誰によってその記述情報のアクセスおよび修正ができるかに関する記述情報の管理も含み得る。
図9は、本発明の実施形態を実装するために使用し得る典型的なコンピュータシステム900を示す。いくつかの実施形態において、コンピュータシステム900を用いて上記さまざまなサーバおよびコンピュータシステムのうちのいずれかを実装し得る。図9に示されるように、コンピュータシステム900は、バスサブシステム902を介して多数の
周辺サブシステムと通信する処理部904を含むさまざまなサブシステムを含む。これらの周辺サブシステムは、処理加速部906と、I/Oサブシステム908と、記憶サブシステム918と、通信サブシステム924とを含み得る。記憶サブシステム918は、有形のコンピュータ読取可能記憶媒体922とシステムメモリ910とを含み得る。
バスサブシステム902は、コンピュータシステム900のさまざまなコンポーネントおよびサブシステムを目的に合わせて互いに通信させるためのメカニズムを提供する。バスサブシステム902は、単母線として概略的に示されるが、バスサブシステムの代替的な実施形態は複数のバスを利用し得る。バスサブシステム902は、多様なバスアーキテクチャのうちのいずれかを用いる、メモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のうちのいずれかであってもよい。たとえば、そのようなアーキテクチャは、IEEE P1386.1規格等に従って製造されたMezzanineバスとして実装できる、Industry Standard Architecture(ISA)バ
ス、Micro Channel Architecture(MCA)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカルバス、およびPeripheral Component Interconnect(PCI)バスを含み得る。
処理サブシステム904は、コンピュータシステム900の動作を制御し、1つ以上の処理部932,934等を含み得る。処理部は、シングルコアもしくはマルチコアプロセッサ、プロセッサの1つ以上のコア、またはこれらの組合わせを含む、1つ以上のプロセッサを含み得る。いくつかの実施形態において、処理サブシステム904は、グラフィックスプロセッサ、デジタル信号プロセッサ(DSP)等といった1つ以上の専用コプロセッサを含み得る。いくつかの実施形態において、処理サブシステム904の処理部の一部またはすべてを、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)等のカスタマイズされた回路を用いて実装してもよい。
いくつかの実施形態において、処理サブシステム904の処理部は、システムメモリ910またはコンピュータ可読記憶媒体922に格納されている命令を実行できる。さまざまな実施形態において、処理部は、さまざまなプログラムまたはコード命令を実行することができ、かつ、同時に実行する複数のプログラムまたはプロセスを維持することができる。どの時点でも、実行すべきプログラムコードのうちの一部またはすべては、場合によっては1つ以上の記憶装置を含む、システムメモリ910および/またはコンピュータ可読記憶媒体922上に存在し得る。適切なプログラミングにより、処理サブシステム904は、使用パターンに応じて文書(たとえばウェブページ)を動的に修正するための上記さまざまな機能を提供することができる。
特定の実施形態において、処理加速部906は、カスタマイズされた処理を実行して、または処理サブシステム904が実行する処理の一部をオフロードして、コンピュータシステム900が実行する処理全体を加速するために、提供し得る。
I/Oサブシステム908は、情報をコンピュータシステム900に入力するためおよび/または情報をコンピュータシステム900からもしくはコンピュータシステム900を介して出力するためのデバイスおよびメカニズムを含み得る。一般的に、「入力デバイス」という用語を使用する場合は、コンピュータシステム900に情報を入力するための可能なすべての種類のデバイスおよびメカニズムを含むことを意図している。ユーザインターフェイス入力デバイスは、たとえば、キーボード、マウスまたはトラックボール等のポインティングデバイス、ディスプレイに組込まれたタッチパッドまたはタッチスクリーン、スクロールホイール、クリックホイ−ル、ダイヤル、ボタン、スイッチ、キーパッド、音声コマンド認識システムを備えた音声入力デバイス、マイク、およびその他の種類の入力デバイスを含み得る。ユーザインターフェイス入力デバイスはまた、ユーザが入力デ
バイスを制御しこれと対話することを可能にするMicrosoft Kinect(登録商標)モーションセンサ、Microsoft Xbox(登録商標)360ゲームコントローラ、ジェスチャーおよび音声コマンドを用いた入力を受けるためのインターフェイスを提供するデバイス等の、動き検知および/またはジェスチャー認識デバイスを含み得る。ユーザインターフェイス入力デバイスはまた、Google Glass(登録商標)まばたき検出器等のアイジェスチャー認識デバイスを含み得る。これは、ユーザの目の活動(たとえば撮影中および/またはメニュー選択中の「まばたき」)を検出し、入力デバイス(たとえばGoogle Glass(登録商標))に対する入力としてのアイジェスチャーを変換する。加えて、ユーザインターフェイス入力デバイスは、ユーザが音声コマンドによって音声認識システム(たとえばSiri(登録商標)ナビゲーター)と対話することを可能にする音声認識検知装置を含み得る。
ユーザインターフェイス入力デバイスのその他の例は、限定されないが、三次元(3D)マウス、ジョイスティックまたはポインティングスティック、ゲームパッドおよびグラフィックタブレット、およびスピーカ等のオーディオ/ビジュアルデバイス、デジタルカメラ、デジタルビデオカメラ、ポータブルメディアプレイヤー、ウェブカメラ、イメージスキャナ、指紋スキャナ、バーコードリーダー3Dスキャナ、3Dプリンタ、レーザ測距装置、および視線追跡デバイスを含む。加えて、ユーザインターフェイス入力デバイスは、たとえば、コンピュータ断層撮影装置、磁気共鳴撮像装置、ポジトロン断層撮影装置、医療用超音波検査装置等の医療用撮像入力デバイスを含み得る。ユーザインターフェイス入力デバイスはまた、たとえば、MIDIキーボード、デジタル楽器等といった音声入力装置を含み得る。
ユーザインターフェイス出力デバイスは、ディスプレイサブシステム、表示灯、または音声出力装置等の非視覚的ディスプレイを含み得る。ディスプレイサブシステムは、陰極線管(CRT)、液晶ディスプレイ(LCD)またはプラズマディスプレイを用いるもの等のフラットパネルデバイス、投影デバイス、タッチスクリーン等であってもよい。一般的に、「出力デバイス」という用語を使用する場合は、コンピュータシステム900からユーザまたは他のコンピュータに情報を出力するための可能なすべての種類のデバイスおよびメカニズムを含むことを意図している。たとえば、ユーザインターフェイス出力デバイスは、限定されないが、モニタ、プリンタ、スピーカ、ヘッドホン、カーナビゲーションシステム、プロッタ、音声出力デバイス、およびモデム等の、テキスト、図形、およびオーディオ/ビデオ情報を視覚的に伝えるさまざまなディスプレイデバイスを含み得る。
記憶サブシステム918は、コンピュータシステム900によって使用される情報を格納するためのリポジトリまたはデータストアを提供する。記憶サブシステム918は、いくつかの実施形態の機能を提供する基本的なプログラミングおよびデータ構造を格納するための有形の非一時的なコンピュータ可読記憶媒体を提供する。処理サブシステム904によって実行されたときに上記機能を提供するソフトウェア(プログラム、コードモジュール、命令)は、記憶サブシステム918に格納し得る。このソフトウェアは、処理サブシステム904の1つ以上の処理部によって実行し得る。記憶サブシステム918はまた、本発明に従い使用されるデータを格納するためのリポジトリを提供し得る。
記憶サブシステム918は、揮発性および不揮発性メモリデバイスを含む1つ以上の非一時的なメモリデバイスを含み得る。図9に示されるように、記憶サブシステム918は、システムメモリ910とコンピュータ可読記憶媒体922とを含む。システムメモリ910は、プログラム実行中の命令およびデータの格納のための揮発性メインランダムアクセスメモリ(RAM)、および、固定命令が格納される不揮発性読出専用メモリ(ROM)またはフラッシュメモリを含む、多数のメモリを含み得る。いくつかの実装例において、起動中等のコンピュータシステム900内の要素間の情報の転送を支援する基本ルーチンを含む基本入出力システム(BIOS)が、典型的にはROMに格納されているであろ
う。RAMは典型的に、処理サブシステム904が現在処理し実行しているデータおよび/またはプログラムモジュールを含む。いくつかの実装例において、システムメモリ910は、スタティックランダムアクセスメモリ(SRAM)またはダイナミックランダムアクセスメモリ(DRAM)等の複数の異なる種類のメモリを含み得る。
限定ではなく一例として、図9に示されるように、システムメモリ910は、クライアントアプリケーション、ウェブブラウザ、ミッドティアアプリケーション、リレーショナルデータベース管理システム(RDBMS)等を含み得るアプリケーションプログラム912と、プログラムデータ914と、オペレーティングシステム916とを含み得る。一例として、オペレーティングシステム916は、さまざまなバージョンのMicrosoft Windows(登録商標)、Apple Macintosh(登録商標)、および/またはLinux(登録商標)オ
ペレーティングシステム、市場で入手可能な多様なUNIX(登録商標)またはUNIX(登録商標)系オペレーティングシステム(限定されないが多様なGNU/Linux(登録商標)オペレ
ーティングシステム、Google Chrome(登録商標)OS等を含む)、および/またはiOS、Windows(登録商標)Phone、Android(登録商標) OS、BlackBerry(登録商標) 10 OS、Palm(登録商標) OSオペレーティングシステム等のモバイルオペレーティングシステムを
含み得る。
コンピュータ可読記憶媒体922は、いくつかの実施形態の機能を提供するプログラミングおよびデータ構造を格納し得る。処理サブシステム904のプロセッサによって実行されたときに上記機能を提供するソフトウェア(プログラム、コード、モジュール、命令)は、記憶サブシステム918に格納し得る。一例として、コンピュータ可読記憶媒体922は、ハードディスクドライブ、磁気ディスクドライブ等の不揮発性メモリ、CD ROM、DVD、Blu-Ray(登録商標)ディスク、またはその他の光学媒体等の光ディスク
ドライブを含み得る。コンピュータ可読記憶媒体922は、限定されないが、Zip(登録商標)ドライブ、フラッシュメモリカード、ユニバーサルシリアルバス(USB)フラッシュドライブ、セキュアデジタル(SD)カード、DVDディスク、デジタルビデオテープ等を含み得る。コンピュータ読取可能記憶媒体922はまた、フラッシュメモリベースのSSD、企業フラッシュドライブ、ソリッドステートROM等といった不揮発性メモリベースのソリッドステートドライブ(SSD)、ソリッドステートRAM、ダイナミックRAM、スタティックRAM、DRAMベースのSSD、磁気抵抗RAM(MRAM)SSD等の揮発性メモリベースのSSD、ならびにDRAMおよびフラッシュメモリベースのSSDの組合わせを用いるハイブリッドSSDを含み得る。コンピュータ可読媒体922は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータシステム900のためのその他のデータのための記憶部を提供し得る。
特定の実施形態において、記憶サブシステム900はまた、コンピュータ可読記憶媒体922にさらに接続できるコンピュータ可読記憶媒体読取装置920を含み得る。システムメモリ910とともに、また、任意でシステムメモリ910と組合わされて、コンピュータ可読記憶媒体922は、包括的に、コンピュータ可読情報を格納するための、遠隔、ローカル、固定、および/またはリムーバブル記憶装置プラス記憶媒体を含み得る。
特定の実施形態において、コンピュータシステム900は、1つ以上の仮想マシンを実行するためのサポートを提供し得る。コンピュータシステム900は、仮想マシンの構成および管理を容易にするためのハイパーバイザのようなプログラムを実行し得る。各仮想マシンに、メモリ、計算(たとえばプロセッサ、コア)、入出力、およびネットワーキングリソースを割当ててもよい。典型的に、各仮想マシンは自身のオペレーティングシステムを実行し、これは、コンピュータシステム900が実行する他の仮想マシンが実行するオペレーティングシステムと同一でも異なっていてもよい。したがって、複数のオペレーティングシステムがコンピュータシステム900によって同時に実行される可能性がある
。各仮想マシンは一般的にその他の仮想マシンから独立して実行される。
通信サブシステム924は、他のコンピュータシステムおよびネットワークへのインターフェイスを提供する。通信サブシステム924は、コンピュータシステム900以外のシステムからデータを受信しコンピュータシステム900以外のシステムにデータを送信するためのインターフェイスとして機能する。たとえば、通信サブシステム924は、クライアントデバイスとの間で情報を送受信するためのインターネットを介した1つ以上のクライアントデバイスへの通信チャネルを確立することができるようにする。
通信サブシステム924は、有線および/または無線通信プロトコル双方をサポートしてもよい。たとえば、特定の実施形態において、通信サブシステム924は、(たとえば携帯電話技術、3G、4GまたはEDGE(enhanced data rates for global evolution)等の高度データネットワーク技術、WiFi(IEEE 802.11系列基準、または他の移動通信技術、またはそれらの任意の組合わせを用いて)無線音声および/またはデータネットワークにアクセスするための無線周波数(RF)トランシーバーコンポーネント、全地球測位システム(GPS)レシーバーコンポーネント、および/または他のコンポーネントを含み得る。いくつかの実施形態において、通信サブシステム924は、無線インターフェイスに加えて、またはその代わりに、有線ネットワークコネクティビティ(たとえばイーサネット(登録商標))を提供することができる。
通信サブシステム924は、さまざまな形態のデータを受信し送信することができる。たとえば、いくつかの実施形態において、通信サブシステム924は、構造化および/または非構造化データフィード926、イベントストリーム928、イベントアップデート930等の形態の入力通信を受信し得る。たとえば、通信サブシステム924は、Twitter(登録商標)フィード、Facebook(登録商標)更新、Rich Site Summary(RSS)フィード等のウェブフィード、および/または1つ以上の第三者情報源からのリアルタイム更新等の、ソーシャルメディアネットワークおよび/または他の通信サービスのユーザからのリアルタイムのデータフィード926を、受信(または送信)するように構成してもよい。
特定の実施形態において、通信サブシステム924は、明示的な終わりのない本質的に連続的または無限であってもよいリアルタイムイベントのイベントストリーム928および/またはイベントアップデート930を含み得る、連続データストリームの形態のデータを受信するように構成し得る。連続データを生成するアプリケーションの例は、たとえば、センサデータアプリケーション、株式相場表示装置、ネットワーク性能測定ツール(たとえば、ネットワーク監視およびトラフィック管理アプリケーション)、クリックストリーム分析ツール、自動車トラフィック監視等を含み得る。
通信サブシステム924はまた、構造化データおよび/または非構造化データフィード926、イベントストリーム928、イベントアップデート930等を、コンピュータシステム900に結合された1つ以上のストリーミングデータソースコンピュータと通信し得る1つ以上のデータベースに出力するように構成し得る。
コンピュータシステム900は、ハンドヘルドポータブルデバイス(たとえばiPhone(登録商標)携帯電話、iPad(登録商標)コンピューティングタブレット、PDA)、ウェアラブルデバイス(たとえばGoogle Glass(登録商標)ヘッドマウントディスプレイ)、パーソナルコンピュータ、ワークステーション、メインフレーム、キオスク、サーバラック、またはその他任意のデータ処理システムを含むさまざまな種類のうちの1つであってもよい。
コンピュータおよびネットワークの性質は常に変化しているので、図9に示されるコンピュータシステム900の説明は、具体的な一例を意図しているに過ぎない。図9に示されるシステムよりも多いかまたは少ないコンポーネントを有する他の多くの構成が可能である。本明細書において提供される開示および教示に基づいて、当業者はさまざまな実施形態を実装するための他のやり方および/または方法を認識するであろう。
本発明の少なくとも1つの実施形態において、データ強化システムが提供される。データ強化システムは、コンピューティングシステムを含むクラウドコンピューティング環境において実行可能であり、データ強化システムは、少なくとも1つの通信ネットワークを通して複数の入力データソース(たとえば図1に示されるデータソース104)に通信可能に結合される。
データ強化システムはさらに、プロファイルエンジンと、推薦エンジンと、変換エンジンと、公開エンジンとを含む。プロファイルエンジン、推薦エンジン、変換エンジン、および公開エンジンはそれぞれ、たとえば図3に示される、プロファイルエンジン326、推薦エンジン308、変換エンジン322、および公開エンジン324であってもよい。
プロファイルエンジンは、データ強化要求をクライアントデバイスから受けたときに、データ強化要求において指定されている少なくとも1つのデータソースからのデータにおけるパターンを識別するように構成される。推薦エンジンは、このパターンを、知識サービス(たとえば図3に示される知識サービス310)からのエンティティ情報に対してマッチングするように構成される。変換エンジンは、エンティティ情報に基づいてデータのための1つ以上の変換スクリプトを生成するように構成され、上記変換エンジンは、1つ以上の変換スクリプトに対応する1つ以上の推薦を生成し、1つ以上の推薦を、クライアントデバイス上のユーザインターフェイスに表示させる。公開エンジンは、1つ以上の推薦に基づいて変換命令がクライアントデバイスから受信されかつ変換命令に基づいてデータが変換された後に、変換命令に基づいて変換後のデータを1つ以上のデータターゲットに対して公開するように構成される。
本発明の一実施形態において、データソースのうちの少なくとも1つのデータソースからのデータの少なくとも1つの列の選択を受けたときに、データの上記少なくとも1つの列のプロファイルをクライアントデバイス上のユーザインターフェイスに表示させ、上記データプロファイルは、データの上記少なくとも1つの列において識別された複数のパターンと、データの上記少なくとも1つの列に対応付けられた少なくとも1つのデータビジュアライゼーションとを示す。
本発明の一実施形態において、変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列をリネームすることを指示する変換命令を含む。
本発明の一実施形態において、その他の変換命令を受けて、データの少なくとも1つの列をデフォルト名にリネームする。
本発明の一実施形態において、変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列を再フォーマットすることを指示する変換命令を含む。
本発明の一実施形態において、変換命令は、エンティティ情報に基づいてデータの少なくとも1つの列を難読化することを指示するその他の変換命令を含む。
本発明の一実施形態において、変換命令は、エンティティ情報に基づいて知識サービスから取得したデータの1つ以上の列を追加することを指示する強化命令を含む。
上記ユニット/モジュール(たとえばエンジン)の特定のオペレーションプロセスの代わりに、同一概念を共有する関連の方法/システムの実施形態の対応するステップ/コンポーネントを参照してもよく、この参照は、関連するユニット/モジュールの開示とみなされることが、当業者には明らかであろう。したがって、説明を適宜簡潔にするために、特定のオペレーションプロセスの中には、繰返しまたは詳細に説明しないものもある。
また、上記ユニット/モジュールは、電子デバイスにおいて、ソフトウェア、ハードウェア、および/またはソフトウェアとハードウェアの組合わせとして実装できることも、当業者には明らかであろう。別々のコンポーネントとして説明されているコンポーネントは、物理的に分離されていてもいなくてもよい。特に、本発明の各実施形態に従うコンポーネントは、1つの物理的コンポーネントに一体化されていてもよく、さまざまな別々の物理的コンポーネントに存在していてもよい。電子デバイスにおけるユニットのさまざまな実装はすべて、本発明の保護範囲に含まれる。
ユニット、装置、およびデバイスは、周知のまたは今後開発されるソフトウェア、ハードウェア、および/またはこのようなソフトウェアとハードウェアの組合わせの形態で実装し得ることが、理解されるはずである。
図3に示されるオペレーションを、特定のアプリケーション環境に応じて、ソフトウェア、ハードウェア、および/またはこのようなソフトウェアとハードウェアの組合わせの形態で実装し得ることは、当業者には明らかである。ステップのうちの少なくともいくつかを、メモリに命令が格納されている汎用プロセッサで命令を実行することによって実装できることは、当業者には明らかである。ステップのうちの少なくともいくつかを、DSP、FPGA、ASICを含むがこれらに限定されないさまざまなハードウェアによって実装できることも、当業者には明らかである。たとえば、いくつかの実施形態における「オペレーション」は、「オペレーション」の機能を実装するCPU、または、DSP、FPGA、ASIC等の専用プロセッサにおいて命令が実行されることによって実装されてもよい。
本発明の特定の実施形態を説明してきたが、さまざまな修正、変更、代替構成、および均等物も本発明の範囲に含まれる。本発明の実施形態は、特定の具体的なデータ処理環境におけるオペレーションに限定されるのではなく、複数のデータ処理環境において自由に機能する。加えて、特定の一連のトランザクションおよびステップを用いて本発明の実施形態を説明してきたが、本発明の範囲が上述の一連のトランザクションおよびステップに限定されないことは当業者にとって明らかであろう。上記実施形態のさまざまな特徴および側面は、個別にまたは共同で使用してもよい。
さらに、ハードウェアおよびソフトウェアの特定の組合わせを用いて本発明の実施形態を説明してきたが、ハードウェアおよびソフトウェアの他の組合わせも本発明の範囲に含まれることが認識されねばならない。本発明の実施形態は、ハードウェアのみで、ソフトウェアのみで、またはそれらの組合わせを用いて実現し得る。本明細書に記載のさまざまなプロセスは、同一のプロセッサ上で実装できる、または、任意の組合わせの異なるプロセッサ上で実装できる。したがって、コンポーネントまたはモジュールが特定のオペレーションを実行するように構成されていると説明されている場合、このような構成は、たとえば、電子回路をそのオペレーションを実行するように設計することにより、または、プログラム可能な電子回路(マイクロプロセッサ等)をそのオペレーションを実行するようにプログラムすることにより、または、これらを任意に組合わせることにより、実現することができる。プロセスは、限定されないが従来のプロセス間通信技術を含むさまざまな技術を用いてやりとりすることができ、異なるプロセス対が異なる技術を用いてもよく、
または、同一のプロセス対がその時々で異なる技術を用いてもよい。
したがって、明細書および図面は、限定的な意味ではなく例示的な意味で考慮されねばならない。しかしながら、特許請求の範囲に記載されている広い精神および範囲から逸脱することなく、追加、削減、削除、ならびにその他の修正および変更を行ない得ることは、明らかであろう。よって、本発明の特定の実施形態を説明したが、これらの実施形態は限定することを意図していない。さまざまな修正および均等物は以下の特許請求の範囲に含まれる。

Claims (20)

  1. 方法であって、
    コンピュータシステムによって、1つ以上のデータソースからのデータにおけるパターンを識別するステップと、
    知識サービスからのエンティティ情報に対して前記パターンをマッチングするステップと、
    前記エンティティ情報に基づいて前記データのための1つ以上の変換スクリプトを生成するステップと、
    前記1つ以上の変換スクリプトに対応する1つ以上の推薦を生成するステップと、
    前記1つ以上の推薦をユーザインターフェイスに表示させるステップと、
    前記1つ以上の推薦に基づく変換命令を受けるステップと、
    前記変換命令に基づいて前記データを変換するステップと、
    前記変換命令に基づいて前記変換されたデータを1つ以上のデータターゲットに対して公開するステップとを含む、方法。
  2. 前記1つ以上のデータソースのうちの少なくとも1つのデータソースからデータの少なくとも1つの列の選択を受けるステップと、
    前記データの少なくとも1つの列のデータプロファイルを表示させるステップとをさらに含み、前記データプロファイルは、前記データの少なくとも1つの列において識別された複数のパターンと、前記データの少なくとも1つの列に対応付けられた少なくとも1つのデータビジュアライゼーションとを示す、請求項1または2に記載の方法。
  3. 前記変換命令は、前記エンティティ情報に基づいてデータの少なくとも1つの列をリネームすることを指示する変換命令を含む、請求項1に記載の方法。
  4. 前記データの少なくとも1つの列をデフォルト名にリネームすることを指示する他の変換命令を受けるステップをさらに含む、請求項3に記載の方法。
  5. 前記変換命令は、前記エンティティ情報に基づいてデータの少なくとも1つの列を再フォーマットすることを指示する変換命令を含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記変換命令は、前記エンティティ情報に基づいてデータの少なくとも1つの列を難読化することを指示する他の変換命令を含む、請求項5に記載の方法。
  7. 前記変換命令は、前記エンティティ情報に基づいて前記知識サービスから取得したデータの1つ以上の列を追加することを指示する強化命令を含む、請求項1から6のいずれか一項に記載の方法。
  8. システムであって、
    複数のデータソースと、
    複数のデータターゲットと、
    クラウドコンピューティングインフラストラクチャシステムとを備え、前記クラウドコンピューティングインフラストラクチャシステムは、
    少なくとも1つの通信ネットワークを通して前記複数のデータソースに通信可能に結合されかつ前記複数のデータターゲットに通信可能に結合された1つ以上のプロセッサと、
    前記1つ以上のプロセッサに結合されたメモリとを含み、前記メモリは、データ強化サービスを提供することを指示する命令を格納し、前記命令は、前記1つ以上のプロセッ
    サによって実行されたときに、前記1つ以上のプロセッサに、
    データ強化要求をクライアントデバイスから受けることと、
    前記データ強化要求において指定されている少なくとも1つのデータソースからのデータにおけるパターンを識別することと、
    知識サービスからのエンティティ情報に対して前記パターンをマッチングすることと、
    前記エンティティ情報に基づいて前記データのための1つ以上の変換スクリプトを生成することと、
    前記1つ以上の変換スクリプトに対応する1つ以上の推薦を生成することと、
    前記1つ以上の推薦を前記クライアントデバイス上のユーザインターフェイスに表示させることと、
    前記1つ以上の推薦に基づく変換命令を受けることと、
    前記変換命令に基づいて前記データを変換することと、
    前記変換命令に基づいて前記変換されたデータを1つ以上のデータターゲットに対して公開することとを実行させる、システム。
  9. 前記命令はさらに、前記1つ以上のプロセッサによって実行されたときに、前記1つ以上のプロセッサに、
    前記複数のデータソースのうちの少なくとも1つのデータソースからデータの少なくとも1つの列の選択を受けることと、
    前記データの少なくとも1つの列のデータプロファイルを前記ユーザインターフェイスに表示させることとを実行させ、前記データプロファイルは、前記データの少なくとも1つの列において識別された複数のパターンと、前記データの少なくとも1つの列に対応付けられた少なくとも1つのデータビジュアライゼーションとを示す、請求項8に記載のシステム。
  10. 前記変換命令は、前記エンティティ情報に基づいてデータの少なくとも1つの列をリネームすることを指示する変換命令を含む、請求項8に記載のシステム。
  11. 前記命令はさらに、前記1つ以上のプロセッサによって実行されたときに、前記1つ以上のプロセッサに、前記データの少なくとも1つの列をデフォルト名にリネームすることを指示する他の変換命令を受けることを実行させる、請求項10に記載のシステム。
  12. 前記変換命令は、前記エンティティ情報に基づいてデータの少なくとも1つの列を再フォーマットすることを指示する変換命令を含む、請求項8に記載のシステム。
  13. 前記変換命令は、前記エンティティ情報に基づいてデータの少なくとも1つの列を難読化することを指示する他の変換命令を含む、請求項12に記載のシステム。
  14. 前記変換命令は、前記エンティティ情報に基づいて前記知識サービスから取得したデータの1つ以上の列を追加することを指示する強化命令を含む、請求項8に記載のシステム。
  15. 非一時的なコンピュータ可読記憶媒体であって、前記非一時的なコンピュータ可読記憶媒体に格納された命令を含み、前記命令は、プロセッサによって実行されたときに、前記プロセッサに、以下のオペレーションを実行させ、前記オペレーションは、
    コンピュータシステムによって、1つ以上のデータソースからのデータにおけるパターンを識別することと、
    知識サービスからのエンティティ情報に対して前記パターンをマッチングすることと、
    前記エンティティ情報に基づいて前記データのための1つ以上の変換スクリプトを生成
    することと、
    前記1つ以上の変換スクリプトに対応する1つ以上の推薦を生成することと、
    前記1つ以上の推薦をユーザインターフェイスに表示させることと、
    前記1つ以上の推薦に基づく変換命令を受けることと、
    前記変換命令に基づいて前記データを変換することと、
    前記変換命令に基づいて前記変換されたデータを1つ以上のデータターゲットに対して公開することとを含む、非一時的なコンピュータ可読記憶媒体。
  16. 前記オペレーションは、
    前記1つ以上のデータソースのうちの少なくとも1つのデータソースからデータの少なくとも1つの列の選択を受けることと、
    前記データの少なくとも1つの列のデータプロファイルを表示させることとをさらに含み、前記データプロファイルは、前記データの少なくとも1つの列において識別された複数のパターンと、前記データの少なくとも1つの列に対応付けられた少なくとも1つのデータビジュアライゼーションとを示す、請求項15に記載の非一時的なコンピュータ可読記憶媒体。
  17. 前記変換命令は、前記エンティティ情報に基づいてデータの少なくとも1つの列をリネームすることを指示する変換命令を含む、請求項15に記載の非一時的なコンピュータ可読記憶媒体。
  18. 前記オペレーションは、前記データの少なくとも1つの列をデフォルト名にリネームすることを指示する他の変換命令を受けることをさらに含む、請求項17に記載の非一時的なコンピュータ可読記憶媒体。
  19. 前記変換命令は、
    前記エンティティ情報に基づいてデータの少なくとも1つの列を再フォーマットすることを指示する変換命令と、
    前記エンティティ情報に基づいてデータの少なくとも1つの列を難読化することを指示する他の変換命令とを含む、請求項15に記載の非一時的なコンピュータ可読記憶媒体。
  20. 前記変換命令は、前記エンティティ情報に基づいて前記知識サービスから取得したデータの1つ以上の列を追加することを指示する強化命令を含む、請求項15に記載の非一時的なコンピュータ可読記憶媒体。
JP2021004135A 2014-09-26 2021-01-14 推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム Active JP7148654B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201462056471P 2014-09-26 2014-09-26
US62/056,471 2014-09-26
US14/864,496 2015-09-24
US14/864,496 US10891272B2 (en) 2014-09-26 2015-09-24 Declarative language and visualization system for recommended data transformations and repairs

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017516322A Division JP2017534108A (ja) 2014-09-26 2015-09-25 推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム

Publications (2)

Publication Number Publication Date
JP2021061063A true JP2021061063A (ja) 2021-04-15
JP7148654B2 JP7148654B2 (ja) 2022-10-05

Family

ID=54330030

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017516322A Pending JP2017534108A (ja) 2014-09-26 2015-09-25 推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム
JP2021004135A Active JP7148654B2 (ja) 2014-09-26 2021-01-14 推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017516322A Pending JP2017534108A (ja) 2014-09-26 2015-09-25 推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム

Country Status (5)

Country Link
US (1) US10891272B2 (ja)
EP (1) EP3198484A1 (ja)
JP (2) JP2017534108A (ja)
CN (1) CN106796595B (ja)
WO (1) WO2016049460A1 (ja)

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396283B2 (en) 2010-10-22 2016-07-19 Daniel Paul Miranker System for accessing a relational database using semantic queries
US10073858B2 (en) 2013-05-16 2018-09-11 Oracle International Corporation Systems and methods for tuning a storage system
US9475096B2 (en) * 2013-06-06 2016-10-25 Wheel Recovery Systems, LLC Core wheel processing system and method
US10210246B2 (en) 2014-09-26 2019-02-19 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
US10891272B2 (en) 2014-09-26 2021-01-12 Oracle International Corporation Declarative language and visualization system for recommended data transformations and repairs
US10976907B2 (en) 2014-09-26 2021-04-13 Oracle International Corporation Declarative external data source importation, exportation, and metadata reflection utilizing http and HDFS protocols
USD847170S1 (en) 2015-04-16 2019-04-30 Vericle Corporation Display screen with graphical user interface for practice workflow management
US9514205B1 (en) 2015-09-04 2016-12-06 Palantir Technologies Inc. Systems and methods for importing data from electronic data files
US20170083013A1 (en) * 2015-09-23 2017-03-23 International Business Machines Corporation Conversion of a procedural process model to a hybrid process model
US11243919B2 (en) * 2015-10-16 2022-02-08 International Business Machines Corporation Preparing high-quality data repositories sets utilizing heuristic data analysis
US10445728B2 (en) * 2015-12-29 2019-10-15 Ariba, Inc. Computer implemented systems and methods for secure data transactions across disparate computing networks
US10380200B2 (en) 2016-05-31 2019-08-13 At&T Intellectual Property I, L.P. Method and apparatus for enriching metadata via a network
US11042548B2 (en) 2016-06-19 2021-06-22 Data World, Inc. Aggregation of ancillary data associated with source data in a system of networked collaborative datasets
US11042560B2 (en) 2016-06-19 2021-06-22 data. world, Inc. Extended computerized query language syntax for analyzing multiple tabular data arrangements in data-driven collaborative projects
US11036716B2 (en) 2016-06-19 2021-06-15 Data World, Inc. Layered data generation and data remediation to facilitate formation of interrelated data in a system of networked collaborative datasets
US11068847B2 (en) 2016-06-19 2021-07-20 Data.World, Inc. Computerized tools to facilitate data project development via data access layering logic in a networked computing platform including collaborative datasets
US10346429B2 (en) 2016-06-19 2019-07-09 Data.World, Inc. Management of collaborative datasets via distributed computer networks
US11023104B2 (en) 2016-06-19 2021-06-01 data.world,Inc. Interactive interfaces as computerized tools to present summarization data of dataset attributes for collaborative datasets
US10515085B2 (en) 2016-06-19 2019-12-24 Data.World, Inc. Consolidator platform to implement collaborative datasets via distributed computer networks
US11947554B2 (en) 2016-06-19 2024-04-02 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US10824637B2 (en) 2017-03-09 2020-11-03 Data.World, Inc. Matching subsets of tabular data arrangements to subsets of graphical data arrangements at ingestion into data driven collaborative datasets
US10699027B2 (en) 2016-06-19 2020-06-30 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US11755602B2 (en) 2016-06-19 2023-09-12 Data.World, Inc. Correlating parallelized data from disparate data sources to aggregate graph data portions to predictively identify entity data
US11941140B2 (en) 2016-06-19 2024-03-26 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11036697B2 (en) 2016-06-19 2021-06-15 Data.World, Inc. Transmuting data associations among data arrangements to facilitate data operations in a system of networked collaborative datasets
US10438013B2 (en) 2016-06-19 2019-10-08 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11334625B2 (en) 2016-06-19 2022-05-17 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US10853376B2 (en) 2016-06-19 2020-12-01 Data.World, Inc. Collaborative dataset consolidation via distributed computer networks
US11016931B2 (en) 2016-06-19 2021-05-25 Data.World, Inc. Data ingestion to generate layered dataset interrelations to form a system of networked collaborative datasets
US10691710B2 (en) 2016-06-19 2020-06-23 Data.World, Inc. Interactive interfaces as computerized tools to present summarization data of dataset attributes for collaborative datasets
US11042556B2 (en) 2016-06-19 2021-06-22 Data.World, Inc. Localized link formation to perform implicitly federated queries using extended computerized query language syntax
US11086896B2 (en) 2016-06-19 2021-08-10 Data.World, Inc. Dynamic composite data dictionary to facilitate data operations via computerized tools configured to access collaborative datasets in a networked computing platform
US10747774B2 (en) 2016-06-19 2020-08-18 Data.World, Inc. Interactive interfaces to present data arrangement overviews and summarized dataset attributes for collaborative datasets
US11042537B2 (en) 2016-06-19 2021-06-22 Data.World, Inc. Link-formative auxiliary queries applied at data ingestion to facilitate data operations in a system of networked collaborative datasets
US10984008B2 (en) 2016-06-19 2021-04-20 Data.World, Inc. Collaborative dataset consolidation via distributed computer networks
US10452975B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11068475B2 (en) 2016-06-19 2021-07-20 Data.World, Inc. Computerized tools to develop and manage data-driven projects collaboratively via a networked computing platform and collaborative datasets
US11675808B2 (en) 2016-06-19 2023-06-13 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US10324925B2 (en) 2016-06-19 2019-06-18 Data.World, Inc. Query generation for collaborative datasets
US10645548B2 (en) 2016-06-19 2020-05-05 Data.World, Inc. Computerized tool implementation of layered data files to discover, form, or analyze dataset interrelations of networked collaborative datasets
US10353911B2 (en) 2016-06-19 2019-07-16 Data.World, Inc. Computerized tools to discover, form, and analyze dataset interrelations among a system of networked collaborative datasets
US10452677B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US11468049B2 (en) 2016-06-19 2022-10-11 Data.World, Inc. Data ingestion to generate layered dataset interrelations to form a system of networked collaborative datasets
US10067992B2 (en) * 2016-07-13 2018-09-04 International Business Machines Corporation Flexible interactive data visualization enabled by dynamic attributes
EP3282374A1 (en) 2016-08-17 2018-02-14 Palantir Technologies Inc. User interface data sample transformer
WO2018039264A1 (en) * 2016-08-22 2018-03-01 Oracle International Corporation System and method for metadata-driven external interface generation of application programming interfaces
US20180069925A1 (en) * 2016-09-08 2018-03-08 BigStream Solutions, Inc. Systems and methods for automatic transferring of big data computations from centralized systems to at least one of messaging systems and data collection systems
US10445062B2 (en) 2016-09-15 2019-10-15 Oracle International Corporation Techniques for dataset similarity discovery
US10650000B2 (en) 2016-09-15 2020-05-12 Oracle International Corporation Techniques for relationship discovery between datasets
US10565222B2 (en) 2016-09-15 2020-02-18 Oracle International Corporation Techniques for facilitating the joining of datasets
US10621195B2 (en) * 2016-09-20 2020-04-14 Microsoft Technology Licensing, Llc Facilitating data transformations
US10127268B2 (en) * 2016-10-07 2018-11-13 Microsoft Technology Licensing, Llc Repairing data through domain knowledge
US10776380B2 (en) * 2016-10-21 2020-09-15 Microsoft Technology Licensing, Llc Efficient transformation program generation
US11170020B2 (en) 2016-11-04 2021-11-09 Microsoft Technology Licensing, Llc Collecting and annotating transformation tools for use in generating transformation programs
CN107038073B (zh) 2016-12-23 2021-05-11 创新先进技术有限公司 资源处理方法及装置
US10754872B2 (en) 2016-12-28 2020-08-25 Palantir Technologies Inc. Automatically executing tasks and configuring access control lists in a data transformation system
US11068453B2 (en) 2017-03-09 2021-07-20 data.world, Inc Determining a degree of similarity of a subset of tabular data arrangements to subsets of graph data arrangements at ingestion into a data-driven collaborative dataset platform
US12008050B2 (en) 2017-03-09 2024-06-11 Data.World, Inc. Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
US11238109B2 (en) 2017-03-09 2022-02-01 Data.World, Inc. Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
US10268688B2 (en) * 2017-05-03 2019-04-23 International Business Machines Corporation Corpus-scoped annotation and analysis
US10810472B2 (en) 2017-05-26 2020-10-20 Oracle International Corporation Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
US10942947B2 (en) * 2017-07-17 2021-03-09 Palantir Technologies Inc. Systems and methods for determining relationships between datasets
US10754820B2 (en) 2017-08-14 2020-08-25 Palantir Technologies Inc. Customizable pipeline for integrating data
CN107609141B (zh) * 2017-09-20 2020-07-31 国网上海市电力公司 一种对大规模可再生能源数据进行快速概率建模方法
US20190095481A1 (en) * 2017-09-22 2019-03-28 Microsoft Technology Licensing, Llc Generating a query
US10885056B2 (en) 2017-09-29 2021-01-05 Oracle International Corporation Data standardization techniques
US10936599B2 (en) 2017-09-29 2021-03-02 Oracle International Corporation Adaptive recommendations
US10601672B2 (en) * 2017-10-24 2020-03-24 Cisco Technology, Inc. Inter-tenant workload performance correlation and recommendation
US10528343B2 (en) * 2018-02-06 2020-01-07 Smartshift Technologies, Inc. Systems and methods for code analysis heat map interfaces
US11243960B2 (en) 2018-03-20 2022-02-08 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
US10922308B2 (en) 2018-03-20 2021-02-16 Data.World, Inc. Predictive determination of constraint data for application with linked data in graph-based datasets associated with a data-driven collaborative dataset platform
WO2019217367A2 (en) * 2018-05-07 2019-11-14 Linkup Blockchain Technology Inc. A blockchain based digital asset management platform
USD920353S1 (en) 2018-05-22 2021-05-25 Data.World, Inc. Display screen or portion thereof with graphical user interface
US11947529B2 (en) 2018-05-22 2024-04-02 Data.World, Inc. Generating and analyzing a data model to identify relevant data catalog data derived from graph-based data arrangements to perform an action
USD940732S1 (en) 2018-05-22 2022-01-11 Data.World, Inc. Display screen or portion thereof with a graphical user interface
US11537990B2 (en) 2018-05-22 2022-12-27 Data.World, Inc. Computerized tools to collaboratively generate queries to access in-situ predictive data models in a networked computing platform
USD940169S1 (en) 2018-05-22 2022-01-04 Data.World, Inc. Display screen or portion thereof with a graphical user interface
US11327991B2 (en) 2018-05-22 2022-05-10 Data.World, Inc. Auxiliary query commands to deploy predictive data models for queries in a networked computing platform
US11263263B2 (en) 2018-05-30 2022-03-01 Palantir Technologies Inc. Data propagation and mapping system
CN108763503A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种基于企业私有云的知识库管理系统及方法
US11442988B2 (en) 2018-06-07 2022-09-13 Data.World, Inc. Method and system for editing and maintaining a graph schema
US11120366B2 (en) 2018-07-24 2021-09-14 International Business Machines Corporation Data forecasting based on machine learning analysis of data access statistics
USD860239S1 (en) 2018-10-31 2019-09-17 Vericle Corporation Display screen with graphical user interface for medical billing workflow management
US10970272B2 (en) * 2019-01-31 2021-04-06 Sap Se Data cloud—platform for data enrichment
US11604797B2 (en) 2019-11-14 2023-03-14 Microstrategy Incorporated Inferring joins for data sets
USD994699S1 (en) 2019-12-17 2023-08-08 Nammu21, Inc. Display screen with a graphical user interface
USD994698S1 (en) 2019-12-17 2023-08-08 Nammu21, Inc. Display screen with a graphical user interface
KR102466717B1 (ko) * 2020-07-24 2022-11-15 주식회사 한글과컴퓨터 문서의 포맷을 변환하는 포맷 변환 엔진이 탑재되어 있는 문서 변환 서버들에 대해, 문서의 포맷 변환을 위한 작업 할당을 수행하는 문서 변환 작업 할당 스케줄링 장치 및 그 동작 방법
CN112163151A (zh) * 2020-09-25 2021-01-01 京东方科技集团股份有限公司 一种模拟推荐方法、计算机设备及存储介质
US20220164471A1 (en) * 2020-11-23 2022-05-26 International Business Machines Corporation Augmented privacy datasets using semantic based data linking
CN112732845A (zh) * 2021-01-26 2021-04-30 长威信息科技发展股份有限公司 一种基于端到端的大型知识图谱构建和存储方法和系统
US11675838B2 (en) 2021-05-11 2023-06-13 International Business Machines Corporation Automatically completing a pipeline graph in an internet of things network
KR102366017B1 (ko) * 2021-07-07 2022-02-23 쿠팡 주식회사 설치 서비스를 위한 정보 제공 방법 및 장치
CN113835755B (zh) * 2021-09-24 2023-08-22 天津津航计算技术研究所 一种无操作系统环境下串口控制台实现方法
US11947600B2 (en) 2021-11-30 2024-04-02 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
EP4242867A1 (en) * 2022-03-08 2023-09-13 Chemovator GmbH Customer data model transformation process

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6356726A (ja) * 1986-08-28 1988-03-11 Hitachi Ltd 知識ベースからデータベースへの変換装置
US20080281820A1 (en) * 2007-05-08 2008-11-13 Sap Ag Schema Matching for Data Migration
JP2012529114A (ja) * 2009-06-01 2012-11-15 アビニシオ テクノロジー エルエルシー 難読化された値の生成
JP2013069016A (ja) * 2011-09-21 2013-04-18 Nec Corp 情報漏洩防止装置及び制限情報生成装置
WO2013146884A1 (ja) * 2012-03-27 2013-10-03 日本電気株式会社 データクレンジングシステム、方法およびプログラム
JP2014063295A (ja) * 2012-09-20 2014-04-10 Cybernet Systems Co Ltd 文脈解析装置、情報分類装置及び情報分類システム

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200300A (ja) 1993-11-29 1995-08-04 Toshiba Corp パターン認識型推論方法及び装置
US6807558B1 (en) 1995-06-12 2004-10-19 Pointcast, Inc. Utilization of information “push” technology
US5740549A (en) 1995-06-12 1998-04-14 Pointcast, Inc. Information and advertising distribution system and method
US6047283A (en) 1998-02-26 2000-04-04 Sap Aktiengesellschaft Fast string searching and indexing using a search tree having a plurality of linked nodes
JP2000222196A (ja) 1999-01-29 2000-08-11 Toshiba Tec Corp プログラム自動生成方法及びこの方法を使用したデータ処理方法並びにプログラム自動生成装置及びデータ処理装置並びにプログラム自動生成プログラムを記録した記録媒体
JP3708007B2 (ja) 1999-11-22 2005-10-19 株式会社東芝 情報交換装置
US6556983B1 (en) 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
EP1202206A3 (en) * 2000-10-24 2004-01-21 International Business Machines Corporation Method and system in an electronic spreadsheet for persistently self-replicating multiple ranges of cells through a copy-paste operation
US8402068B2 (en) 2000-12-07 2013-03-19 Half.Com, Inc. System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network
WO2002063493A1 (en) 2001-02-08 2002-08-15 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
US6754651B2 (en) 2001-04-17 2004-06-22 International Business Machines Corporation Mining of generalized disjunctive association rules
WO2002095533A2 (en) 2001-05-18 2002-11-28 Biowulf Technologies, Llc Model selection for cluster data analysis
JP2003058523A (ja) 2001-08-21 2003-02-28 Nippon Telegr & Teleph Corp <Ntt> 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録した記録媒体
US8155951B2 (en) 2003-06-12 2012-04-10 Patrick William Jamieson Process for constructing a semantic knowledge base using a document corpus
US8239380B2 (en) 2003-06-20 2012-08-07 Microsoft Corporation Systems and methods to tune a general-purpose search engine for a search entry point
US7558799B2 (en) 2004-06-01 2009-07-07 Microsoft Corporation Method, system, and apparatus for discovering and connecting to data sources
US7895220B2 (en) 2005-08-30 2011-02-22 Schlumberger Technology Corporation Middleware method and apparatus and program storage device adapted for linking data sources to software applications
US20070112827A1 (en) * 2005-11-10 2007-05-17 International Business Machines Corporation Abstract rule sets
US7533096B2 (en) 2006-07-12 2009-05-12 International Business Machines Corporation Computer-based method for finding similar objects using a taxonomy
EP2181402A1 (fr) 2007-02-23 2010-05-05 Enrico Maim Procedes d'extraction, de combinaison, de synthese et de visualisation de donnees multidimensionnelles provenant de differentes sources
US8090747B2 (en) 2007-05-21 2012-01-03 New York University Method, system, computer-accessible medium and software arrangement for organization and analysis of multiple sets of data
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8175941B2 (en) * 2007-11-19 2012-05-08 Codestreet, Llc Method and system for developing and applying market data scenarios
US20110197237A1 (en) 2008-10-10 2011-08-11 Turner Steven E Controlled Delivery of Content Data Streams to Remote Users
US8156435B2 (en) 2008-11-25 2012-04-10 At&T Intellectual Property I, L.P. Systems and methods to select media content
US8156159B2 (en) 2009-02-11 2012-04-10 Verizon Patent And Licensing, Inc. Data masking and unmasking of sensitive data
US8166104B2 (en) 2009-03-19 2012-04-24 Microsoft Corporation Client-centered usage classification
US9213687B2 (en) 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces
US20100274821A1 (en) 2009-04-22 2010-10-28 Microsoft Corporation Schema Matching Using Clicklogs
JP2010267019A (ja) * 2009-05-13 2010-11-25 Internatl Business Mach Corp <Ibm> 文書作成を支援する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
US8234285B1 (en) 2009-07-10 2012-07-31 Google Inc. Context-dependent similarity measurements
US8204904B2 (en) 2009-09-30 2012-06-19 Yahoo! Inc. Network graph evolution rule generation
CA2786445C (en) 2010-01-13 2018-02-13 Ab Initio Technology Llc Matching metadata sources using rules for characterizing matches
US8825649B2 (en) 2010-07-21 2014-09-02 Microsoft Corporation Smart defaults for data visualizations
US9076152B2 (en) 2010-10-20 2015-07-07 Microsoft Technology Licensing, Llc Semantic analysis of information
US8745061B2 (en) 2010-11-09 2014-06-03 Tibco Software Inc. Suffix array candidate selection and index data structure
CN102104510B (zh) * 2011-03-01 2014-01-29 北京中创信测科技股份有限公司 一种数据视图处理方法和系统
US8874616B1 (en) 2011-07-11 2014-10-28 21Ct, Inc. Method and apparatus for fusion of multi-modal interaction data
US10482535B1 (en) * 2011-07-27 2019-11-19 Aon Benfield Global, Inc. Impact data manager for generating dynamic intelligence cubes
US8577938B2 (en) 2011-08-23 2013-11-05 Accenture Global Services Limited Data mapping acceleration
US8799207B1 (en) 2011-10-08 2014-08-05 Bay Dynamics Unified data source management
US8538934B2 (en) 2011-10-28 2013-09-17 Microsoft Corporation Contextual gravitation of datasets and data services
GB2520878A (en) 2012-08-17 2015-06-03 Opera Solutions Llc System and method for matching data using probabilistic modeling techniques
US9070090B2 (en) 2012-08-28 2015-06-30 Oracle International Corporation Scalable string matching as a component for unsupervised learning in semantic meta-model development
US10366335B2 (en) 2012-08-31 2019-07-30 DataRobot, Inc. Systems and methods for symbolic analysis
US20140222181A1 (en) * 2012-10-12 2014-08-07 Invensys Systems, Inc. Automatically updating graphical symbols in a control loop strategy diagram
CN102982138B (zh) * 2012-11-19 2017-02-15 北京思特奇信息技术股份有限公司 一种客户身份动态展现方法及装置
US9223870B2 (en) * 2012-11-30 2015-12-29 Microsoft Technology Licensing, Llc Decoration of search results by third-party content providers
US20130232452A1 (en) 2013-02-01 2013-09-05 Concurix Corporation Force Directed Graph with Time Series Data
US8909656B2 (en) 2013-03-15 2014-12-09 Palantir Technologies Inc. Filter chains with associated multipath views for exploring large data sets
US9710534B2 (en) 2013-05-07 2017-07-18 International Business Machines Corporation Methods and systems for discovery of linkage points between data sources
WO2015037684A1 (ja) 2013-09-11 2015-03-19 フリービット株式会社 アプリケーション状態変化通知プログラム及びその方法
US9367809B2 (en) 2013-10-11 2016-06-14 Accenture Global Services Limited Contextual graph matching based anomaly detection
CN103593199B (zh) 2013-11-29 2016-08-24 迈普通信技术股份有限公司 数据转换的方法和系统
US10210246B2 (en) 2014-09-26 2019-02-19 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
US10976907B2 (en) 2014-09-26 2021-04-13 Oracle International Corporation Declarative external data source importation, exportation, and metadata reflection utilizing http and HDFS protocols
US10891272B2 (en) 2014-09-26 2021-01-12 Oracle International Corporation Declarative language and visualization system for recommended data transformations and repairs
US9928284B2 (en) 2014-12-31 2018-03-27 Zephyr Health, Inc. File recognition system and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6356726A (ja) * 1986-08-28 1988-03-11 Hitachi Ltd 知識ベースからデータベースへの変換装置
US20080281820A1 (en) * 2007-05-08 2008-11-13 Sap Ag Schema Matching for Data Migration
JP2012529114A (ja) * 2009-06-01 2012-11-15 アビニシオ テクノロジー エルエルシー 難読化された値の生成
JP2013069016A (ja) * 2011-09-21 2013-04-18 Nec Corp 情報漏洩防止装置及び制限情報生成装置
WO2013146884A1 (ja) * 2012-03-27 2013-10-03 日本電気株式会社 データクレンジングシステム、方法およびプログラム
JP2014063295A (ja) * 2012-09-20 2014-04-10 Cybernet Systems Co Ltd 文脈解析装置、情報分類装置及び情報分類システム

Also Published As

Publication number Publication date
US20160092474A1 (en) 2016-03-31
CN106796595B (zh) 2021-06-08
JP7148654B2 (ja) 2022-10-05
EP3198484A1 (en) 2017-08-02
WO2016049460A1 (en) 2016-03-31
US10891272B2 (en) 2021-01-12
JP2017534108A (ja) 2017-11-16
CN106796595A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
JP7148654B2 (ja) 推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム
US11693549B2 (en) Declarative external data source importation, exportation, and metadata reflection utilizing HTTP and HDFS protocols
US11500880B2 (en) Adaptive recommendations
US11379506B2 (en) Techniques for similarity analysis and data enrichment using knowledge sources
US11704321B2 (en) Techniques for relationship discovery between datasets
US11200248B2 (en) Techniques for facilitating the joining of datasets
US11163527B2 (en) Techniques for dataset similarity discovery
US11417131B2 (en) Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
CN105993011B (zh) 跨多个输入数据流的样式匹配的方法、系统和设备
US11120086B2 (en) Toponym disambiguation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220922

R150 Certificate of patent or registration of utility model

Ref document number: 7148654

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150