JP2023504637A

JP2023504637A - Ｅｔｌパイプライン処理のためのシステム及び方法

Info

Publication number: JP2023504637A
Application number: JP2022532801A
Authority: JP
Inventors: イーイーフー; エンオウヤン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2019-12-03
Filing date: 2020-12-03
Publication date: 2023-02-06
Also published as: EP4070185A1; US20230004574A1; WO2021110785A1; CN115066673A

Abstract

本発明は、複数のグラフ構成コンポーネントを取得するように構成されたインターフェースを含むＥＴＬパイプライン・システムを提供する。各グラフ構成コンポーネントは、１つ又は複数の計算ロジック・ルールを表す情報を含む。本システムは、取得されたグラフ構成コンポーネントに基づいて計算グラフを生成するように構成された計算グラフ・ジェネレータをさらに含む。生成された計算グラフは、各グラフ構成コンポーネントのノード、及びノード間の関係を表す１つ又は複数のリンクを含む。本システムは、グラフ構成コンポーネントに関連する外部情報を外部ソースから受信し、外部情報に基づいて生成された計算グラフを適応させるように構成された計算グラフ・アダプタをさらに含む。本システムは、適応させられた計算グラフを実行するように構成された計算グラフ・ランナをさらに含む。

Description

本発明は、データ処理の分野、特に抽出、変換、及び読み込み（extract, transform, load（ＥＴＬ））パイプライン処理の分野に関する。

抽出、変換、及び読み込み（ＥＴＬ）は、様々なソースからデータを収集し、ビジネス要件にしたがってデータを変換し、そのデータを宛先データ記憶装置に読み込むための、データ処理及び分析システムによって利用されるパイプライン（すなわち一連のプロセス）である。ＥＴＬシステムでは、変換は特殊なエンジンで行われ、ステージングテーブルが通常、データが変換され、最終的に宛先に読み込まれるときにデータを一時的に保持するために使用される。データ変換のプロセス中は、フィルタリング、ソーティング、集約、結合、クリーニング、重複排除、及び検証など、多くの旧来の操作が含まれている。

医療データ用途については、意味のある識見を生成するために複雑なデータ変換が実行される必要がある。それでも、これらの変換は、データがより高度な処理に利用され得る前に、まず表現型のテーブルに構造化されたデータ（すなわちデータ要素）に依存していなければならない。したがって、旧来の医療データ処理システムにおいては、抽出ステップは有用な表現型を抽出することを含んでいる。変換は、抽出された表現型に基づいて実行される計算及び導出を指す。変換の出力は、既存の表現型から導出された新しい表現型、或いは診断又は治療選択など決定ルールの計算結果であり得る。

しかしながら、既存のＥＴＬシステムでは、表現型抽出に自然言語処理（ＮＬＰ）技法が広く採用されるが、変換段階で知識主導型計算をサポートするアーキテクチャは極めて限定されている。ＥＴＬが完了した後の高度な計算を処理するために、通常、別のシステム又はアプリケーションが実行されるが、この結果、整合性が失われ、より多くのオーバーヘッドをもたらすことになる。

データ抽出は、旧来、独立したＮＬＰモジュールによって処理される。その結果、表現型エクストラクタは、抽出されたデータの二次使用（データ集約など）とは分離されていることが多い。このため、複数の表現型抽出アルゴリズムの性能を比較しなければならなくなり、効率が悪くなる。

グラフ構造は、医療概念間の複雑な関係を捉えることが可能であるので、旧来、臨床知識の符号化に使用され、多くの用途の役に立っている。ただし、グラフ表現自体は計算不可能である。従来のＥＴＬパイプラインでは、計算を加速するために知識を有効活用できるようにする枠組みがない。これは、一般には、データ変換中にプログラミング・ルールをハード・コーディングすることによって達成される。結果として、この方法は、変化（たとえば入力データ・タイプ、アルゴリズム及び決定ロジックの変化）に対応する柔軟性に欠ける。

本発明は、特許請求の範囲によって定義されている。

本発明の一態様による例によれば、複数のグラフ構成コンポーネントを取得するように構成されたインターフェースを含むＥＴＬパイプライン・システムが提供される。各グラフ構成コンポーネントは、１つ又は複数の計算ロジック・ルールを表す情報を含む。本システムは、取得されたグラフ構成コンポーネントに基づいて計算グラフを生成するように構成された計算グラフ・ジェネレータをさらに含む。生成された計算グラフは、各グラフ構成コンポーネントのノード、及びそのノード間の関係を表す１つ又は複数のリンクを含む。本システムは、グラフ構成コンポーネントに関連する外部情報を外部ソースから受信し、その外部情報に基づいて生成された計算グラフを適応させるように構成された計算グラフ・アダプタをさらに含む。本システムは、適応させられた計算グラフを実行するように構成された計算グラフ・ランナをさらに含む。

表現型決定及び臨床知識コンピューティングが、首尾一貫、単一のアーキテクチャで埋め込まれた、医療データ処理に特に有効なＥＴＬアーキテクチャの概念が提案されている。そのような概念により、臨床知識が実際の臨床データから独立して構成されることが可能になる。しかしながら、実行時間中、データベース操作、表現型決定アルゴリズム及び決定ロジックがデータ・フローに適用される構造を通じて臨床データは流れ、目指した計算成果を得ることができる。

コンピューティングするグラフを直感的に構築するためのグラフ構成ファイル（ＤＳＬなど）を提供することが提案されている。計算グラフの構文解析、構築、及び実行を行うためのグラフ・ドライバを提供することが、さらに提案されている。表現型と臨床ドキュメントとの間の関係を符号化する情報モデリング技法を提供することが、さらに提案されている。提案するバックエンド・グラフ・データ構造は、ダウンストリームのアプリケーションの役に立つように、ファクト・ベース型知識グラフ及びデータ・ベース型知識グラフと統合され得る。さらに、ＥＴＬパイプライン・システム中のアプリケーションのために、多層計算、ローカル再計算及び適応計算のアプリケーションが提案されている。

特に医療データ処理に有効なＥＴＬアーキテクチャの概念が提案されている。特に、主張する本発明は、複数のグラフ構成コンポーネントを取得するように構成されたインターフェースを含むＥＴＬパイプライン・システムを提供する。各グラフ構成コンポーネントは、１つ又は複数の計算ロジック・ルールを表す情報を含む。提案する本発明は、取得されたグラフ構成コンポーネントに基づいて計算グラフを生成し、その生成された計算グラフは、各グラフ構成コンポーネントのノード、及びそのノード間の関係を表す１つ又は複数のリンクを含む。グラフ構成コンポーネントに関連する外部情報（ユーザ定義のグラフ構成コンポーネント及び／又は先行する知識など）が、生成された計算グラフを適応させるために、採用される。

一実施形態では、各グラフ構成コンポーネントは、データベース接続、ドキュメント、データ要素、アルゴリズム、及び計算ロジック・ルールのうちの少なくとも１つを含む。

一実施形態では、アルゴリズムが計算決定ルールを含み、且つ／又は計算ロジック・ルールが計算決定ルールを含む。

一実施形態では、外部情報は、ユーザ定義のグラフ構成コンポーネント及び外部知識データベースからの外部知識のうちの少なくとも１つを含む。例として、外部知識は、データベースに記憶された以前の／先行する計算グラフを含む。そのような以前の／先行する計算グラフは、生成された計算グラフに追加されて適応させられた計算グラフを形成する。すなわち、生成された計算グラフは、以前の／先行する計算グラフの組み込みによって適応させられる。さらなる例として、ユーザ定義のグラフ構成コンポーネントは、計算グラフを再定義又は修正するように構成されたグラフ構成コンポーネントを含む。

一実施形態では、インターフェースは、ユーザ・インターフェース及びアプリケーション・プログラミング・インターフェースのうちの少なくとも１つを含む。

一実施形態では、本システムはさらにグラフ構成ファイルを含み、ユーザ定義のグラフ構成コンポーネントは、グラフ構成ファイル又は異なるグラフ構成コンポーネント間の依存関係を示す依存性情報を再定義することを含む。

一実施形態では、本システムはさらに、インターフェースからグラフ構成コンポーネントを受信し；コンポーネント情報と、異なるグラフ構成コンポーネント間の依存関係を示す依存性情報とに基づいて、異なるグラフ構成コンポーネント間に１つ又は複数のリンクを確立するように構成された計算グラフ・パーサを備える。

一実施形態では、計算グラフ・パーサは、データ要素及び／又はドキュメントに関連付けられたデータ項目に基づいて、データ要素とドキュメントとの間のリンクを確立するように、さらに構成される。

一実施形態では、データ項目は、識別子、タイムスタンプ、コンテンツ項目、コンテキスト項目、及び符号化オブジェクトのうちの少なくとも１つを含む。

一実施形態では、計算グラフ・ランナが、適応させられた計算グラフを適応型高スループット計算で実行するように、さらに構成される。

本発明の一態様の例によれば、上記で説明したＥＴＬパイプライン・システムを備える医療データ処理システムが提供される。

本発明の一態様の例によれば、ＥＴＬパイプライン処理のための方法が提供される。本方法は、複数のグラフ構成コンポーネントを取得するステップを有し、各グラフ構成コンポーネントは、１つ又は複数の計算ロジック・ルールを表す情報を含む。本方法は、取得されたグラフ構成コンポーネントに基づいて計算グラフを生成するステップをさらに有し、その生成された計算グラフは、各グラフ構成コンポーネントのノード、及びそのノード間の関係を表す１つ又は複数のリンクを含む。本方法は、グラフ構成コンポーネントに関連する外部情報を外部ソースから受信するステップをさらに有する。本方法は、次いで、その外部情報に基づいて生成された計算グラフを適応させるステップ、及び適応させられた計算グラフを実行するステップを有する。

本発明の一態様の例によれば、ＥＴＬパイプライン処理のためのコンピュータ・プログラム製品が提供され、そのコンピュータ・プログラム製品はプログラム命令を収録したコンピュータ可読記憶媒体を備え、そのプログラム命令は処理ユニットによって実行可能であり、処理ユニットに方法を実行させる。本方法は、複数のグラフ構成コンポーネントを取得するステップを有し、各グラフ構成コンポーネントは１つ又は複数の計算ロジック・ルールを表す情報を含む。本方法は、取得されたグラフ構成コンポーネントに基づいて計算グラフを生成するステップをさらに有し、その生成された計算グラフは、各グラフ構成コンポーネントのノード、及びそのノード間の関係を表す１つ又は複数のリンクを含む。本方法は、グラフ構成コンポーネントに関連する外部情報を外部ソースから受信するステップをさらに有する。本方法は、次いで、その外部情報に基づいて生成された計算グラフを適応させるステップと、適応させられた計算グラフを実行するステップとを有する。

本発明の一態様の例によれば、少なくとも１つのプロセッサと、上記で説明したコンピュータ・プログラム製品とを備える処理システムが提供され、その少なくとも１つのプロセッサは、上記コンピュータ・プログラム製品のコンピュータ・プログラム・コードを実行するように適応させられている。

本発明のこれら及び他の態様は、以下で説明する実施形態から明らかになり、且つこれらを参照して明らかにされる。

本発明のより良い理解のために、また、どのように実施されるかをより明らかに示すために、例としてのみ、添付の図面を参照されたい。

ＥＴＬパイプライン・システムの簡略化されたブロック図である。ＥＴＬパイプライン・システムにおける状態遷移フローの簡略化されたブロック図である。異なるグラフ構成コンポーネント間の依存関係を示す図である。生成された計算グラフの一例を示す図である。実施形態によるＥＴＬパイプライン処理のための方法の簡略化されたフロー図である。ＥＴＬパイプライン・システムに実装された知識コンピューティング構造、具体的には適応コンピューティング構造の簡略化されたブロック図を示す図である。ＥＴＬパイプライン・システムに実装された知識コンピューティング構造、具体的には多層コンピュータ構造の簡略化されたブロック図を示す図である。実施形態によるコントローラ又はプロセッサを実装するコンピュータの例を示す図である。

本発明について図を参照しながら説明する。

装置、システム及び方法の例示的な実施形態を示しているが、詳細な説明及び具体例は、説明の目的のためであり、本発明の範囲を限定するものではないことを理解されたい。本発明の装置、システム及び方法のこれら及び他の機能、態様、及び利点は、以下の説明、添付の特許請求の範囲、及び添付の図面からより良く理解されよう。図は、単なる概略であり、原寸に比例して描かれていないことを理解されたい。また、図全体にわたって、同一又は同様の部品を示すために同じ参照番号が使用されていることを理解されたい。

本発明は、複数のグラフ構成コンポーネントを取得するように構成されたインターフェースを含むＥＴＬパイプライン・システムを提供する。各グラフ構成コンポーネントは、１つ又は複数の計算ロジック・ルールを表す情報を含む。本システムは、取得されたグラフ構成コンポーネントに基づいて計算グラフを生成するように構成された計算グラフ・ジェネレータをさらに備える。その生成された計算グラフは、各グラフ構成コンポーネントのノード、及びそのノード間の関係を表す１つ又は複数のリンクを含む。本システムは、グラフ構成コンポーネントに関連する外部情報を外部ソースから受信し、生成された計算グラフをその外部情報に基づいて適応させるように構成された計算グラフ・アダプタをさらに備える。本システムは、適応させられた計算グラフを実行するように構成された計算グラフ・ランナをさらに備える。

図１は、実施形態によるＥＴＬパイプラインステムを示す。本システムは、ユーザが本システムと対話するためのインターフェース１１、１２を含む。これは、ユーザが、ユーザの特定の要件にしたがって（ハイレベルの）計算可能な知識表現を生成する際に役に立つ。図１のシステムは、２つのインターフェース１１、１２を含む。インターフェース１２は、ユーザ・インターフェース（ＵＩ）であり、システム・フロントエンドにおける主要コンポーネントの「ドラッグ・アンド・ドロップ」が可能になり、計算グラフ生成が速くなる。インターフェース１１は、ユーザ・インターフェース１２と同じ目的で働くが、プログラミング・レベルで対話するアプリケーション・プログラミング・インターフェース（ＡＰＩ）である。ＡＰＩ１１は、主として３つのアクションをサポートする。第１に、後に計算可能なグラフに変換されることになる、特別に設計されたグラフ構成ファイル（ＧＣＦ）１３の送信。第２に、中央関数リポジトリへの、データベース・トランザクション、データ計算、及びＮＬＰ表現型決定に関するユーザ－定義された（ＵＤＦ）アルゴリズム１４の送信及び保存／読み込み。第３に、共通グラフ・データベース１５との通信、これにより生成されたグラフ構造をグラフ・データベース１５に保存することも、既存のグラフをグラフ・データベース１５から本システムに読み込むことも行うことができる。

上述のコンポーネント間に状態遷移フローが存在する。グラフ構成は、（ＵＩとＡＰＩの両方経由で）有向非巡回グラフ（ＤＡＧ）の基本データ構造に変換される。ＤＡＧは、共通グラフ・データベース（たとえばＮｅｏ４ｊ、ＧｒａｐｈＤＢ、及びＣａｙｌｅｙ）のデータ構造に相互に変換され得る。これまでのところ、ＤＡＧは、実行に必要な情報を符号化する静的グラフ構造である。ＤＡＧは、実行時に実行され得る実行可能なグラフにさらに変換される。

グラフ構成ファイル（ＧＣＦ）１３は、データ抽出と決定ルール計算タスクの両方を実行するグラフ構造のための入れ物である。特別に設計された枠組みに従うことによって、ユーザは、特定の計算タスクを実行するために、主要コンポーネント一式、すなわちデータベース接続、ドキュメント、表現型、アルゴリズム及び計算ロジックを宣言又は定義し、それらをＧＣＦ１３のグループに体系化することが可能になる。ＧＣＦ１３は、ＪＳＯＮ及びＹＡＭＬのフォーマットの、人間が読取り可能なテキスト・ファイルとして生成され得る。各ファイルでは、グラフ中の単一のノードを表すための主要なコンポーネントを含む構造をユーザが定義する。複数の入れ子になったノードは、同一ファイル内で定義することも、同一フォルダ中のいくつかのファイルに分散させることも可能である。以前に定義されたＧＣノードは、同一ファイル中のものでも同一フォルダ中の外部ファイル中のものでも、構文解析中に名前で参照され得る。

ＧＣＦ１３は、既存の知識を、本システムによってサポートされる共通グラフ構造に取り入れるように、プログラミング・レベルで構成されている。これは、ＵＩ経由でキュレートする人間にとって、時に困難であり、且つ／又は多大な時間を要する。たとえば、ＢＣＬＣ分類システム及びチャイルド・ピュー分類システムが、ＧＣＦ経由で本システムに存続し、実行時に計算され得、肝臓癌患者のチャイルド・ピュー分類の病期診断を導出する。

グラフ構成ＵＩ１２は、ＧＣＦ１３の代替として働き、臨床知識及び決定ルールのグラフ表現を直感的に構築することを可能にする。ＵＩアダプタ１６は、フロントエンド入力を基本データ構造（ＤＡＧ）に変換することを担っている。そのＵＩでは、ノード及びリンクを生成することによって、ユーザがグラフを構築することが可能である。各ノードについて、ユーザは、そのノードを通過するデータ・フローを処理するアルゴリズムを指定することも、又は現在のノードの親ノードから入力を取得する決定ロジックを実装することもできる。

グラフ・ドライバ１０は、本システムの中心部に位置する。グラフ・ドライバ１０は、データ・フローを取得することが可能な計算グラフを構築し、そのグラフを実行して、ユーザに所望の結果を届けることを担っている。グラフ・ドライバ１０は、以下の３つの主要なコンポーネント、ＧＣＦパーサ（ＧＣＦＰ）１７、グラフ・コンストラクタ（ＧＳＴ）１８、グラフ・ランナ（ＧＲＮ）１９、及び２つのアダプタ１６、２０を備える。グラフ・ドライバの実装は特定のプログラミング言語に限定されないが、開発者は、言語固有のドライバを実現するために、同じフィロソフィ並びに各システム・コンポーネント共通のインターフェースに従う。

入力として構成ファイル１３（ＪＳＯＮ、ＹＡＭＬ又はＸＭＬにフォーマットされている）を取得すると、ＧＣＦＰ１７は、対応する名前空間の下でファイル１３のグラフ定義を個々のコンポーネント（たとえばデータベース接続、ドキュメント、表現型、アルゴリズム及び計算ロジック）に変換し、次いでリンクされたオブジェクトとして名前空間を一緒にリンクしてグラフ構築に備える。

より具体的には、各ＧＣＦ１３は、異なるグラフ構成コンポーネントの定義を含み、例として、図３は、様々な名前空間コンポーネントに関連する異なるグラフ構成コンポーネント間の依存関係の例示的なセットを定義している。より具体的には、「Ａ」とラベル付けられた実線はデータベースとドキュメントとの間の依存性を定義し、「Ｂ」とラベル付けられた実線はアルゴリズムとロジックとの間の依存性を定義している。「Ｃ」とラベル付けられた実線は、ドキュメントとロジックとの間の依存性を定義している。「Ｄ」とラベル付けられた実線は、表現型とロジックとの間の依存性を定義している。そのような依存関係は、ユーザによって定義される。

ＧＣＦＰ１７は、グラフ構成コンポーネントをインターフェース１１から受信し、次いでコンポーネント情報と、異なるグラフ構成コンポーネント間の依存関係を示す依存性情報とに基づいて、異なるグラフ構成コンポーネント間のリンクを確立する。

ＧＳＴ１８は、次いでリンクされたコンポーネントをグラフのノードと関係とに変換することができる。すなわち、ＧＳＴ１８は、リンクされた名前空間オブジェクトを取得し、リンクされたコンポーネントがグラフのノードとＤＡＧの形態のノード間の関係とに変換された基本データ表現を構築する。さらに、構築プロセス中に、ＧＳＴ１８は、関数リポジトリ（すべての関数オブジェクトを保持するデータベース）から／にコンポーネントを読み込む／保存するためのグラフ構成ＡＰＩと頻繁に対話する。ＧＣＦ１３中の指定されたコンポーネントがこのリポジトリ中にすでに存在する場合、コンポーネント参照は、そのリポジトリから直接フェッチする。さもなければ、指定されたコンポーネントは新規であり、次いでＧＳＴ１８は再使用のためにそのコンポーネントを関数リポジトリに保存する。

ＧＲＮ１９は最初に、グラフを実行するために必要なすべての情報、たとえばコードオブジェクトや再帰的に定義されたＧＣコンポーネントを注入するインジェクタとして働く。その一方で、グラフ・ランナ１９は、グラフをグラフベースの並列実行システムの既存の実装に取り込むコネクタである。一例として、図４は生成された計算グラフの例を示す。生成された計算グラフは、インターフェース１１又は１２経由で出力される。生成された計算グラフは、各グラフ構成コンポーネントのノード３６と、ノード３７間の関係を表す１つ又は複数のリンク３７とを含む。

２つのアダプタ、すなわちグラフ・データベース・アダプタ２０及びＵＩアダプタ１６は、ドライバ１０中に含まれる。ＵＩアダプタは、フロントエンド入力をＤＡＧ構造に変換すること、及びその逆に変換すること、構築されたＤＡＧをフロントエンドユーザに提示することを担う。また、グラフＤＢアダプタは、本システム及び既存のグラフＤＢシステムによって使用されるデータ構造を一致させる。

図２を参照すると、実施形態によるシステム・コンポーネント間の状態遷移フローの図が示されている。ＧＣＦ１３と、ユーザ・インターフェース経由で提供されるグラフ構成３３とから、ＤＡＧ３２は構築される。ＤＡＧ３２は、知識グラフ３４のデータ構造に相互に変換され得る。ＤＡＧ３２は、実行時に実行され得る実行可能なグラフ３５にさらに変換される。

次に図５を参照すると、実施形態によるＥＴＬパイプライン処理のための方法の簡略化されたフロー図が示されている。本方法は、複数のグラフ構成コンポーネントを取得するステップ２１から開始する。ここで、各グラフ構成コンポーネントは、１つ又は複数の計算ロジック・ルールを表す情報を含む。次に、ステップ２２において、計算グラフは、取得されたグラフ構成コンポーネントに基づいて生成される。その生成された計算グラフは、各グラフ構成コンポーネントのノード、及びそのノード間の関係を表す１つ又は複数のリンクを含む。その後、ステップ２３において、グラフ構成コンポーネントに関連する外部情報が外部ソースから受信される。次いでステップ２４は、外部情報に基づいて生成された計算グラフを適応させることを含む。最後に、ステップ２５において、適応させられた計算グラフが実行される。

より具体的には、外部情報は、ユーザ定義されたグラフ構成コンポーネントと、外部知識データベースからの外部知識とのうちの少なくとも１つを含む。一実施形態では、外部知識は、データベースに記憶された先行する計算グラフを含み、その先行する計算グラフが生成された計算グラフに追加され、適応させられた計算グラフを形成する。別の実施形態では、ユーザ定義されたグラフ構成コンポーネントが、インターフェース経由でグラフ構成コンポーネントを再定義すること又は修正することを含む。

主題は、グラフィカルユーザインターフェースを使用して、グラフ構成コンポーネント又は生成された計算グラフのグラフ構成コンポーネント間のリンクを再定義する。たとえば、そのような再定義は、計算グラフのインタラクティブな視覚表現（たとえば図４に示されるように）において、ノードをドラッグしたり、リンクを削除したり、異なるノード間のリンクを再接続することによって達成される。

別の実施形態では、ユーザ定義されたグラフ構成コンポーネントが、グラフ構成ファイル及び／又は異なるグラフ構成コンポーネント間の依存関係を再定義するための１つ又は複数の定義を含む。より具体的には、主題は、異なるロジックを定義することも（＠ｌｏｇｉｃを変えることによって）、異なるアルゴリズムを定義することも（＠ａｌｇｏｒｉｔｈｍを変えることによって）、新しいコンポーネント、すなわち主題依存性を加えることもできる。

さらなる説明として、最初に、構成ファイル１３をリンクされた名前空間コンポーネントに変換するＧＣＦ文法及びＧＣＦ構文解析について説明する。構文解析について、各ビルディング・ブロックを紹介する。グラフ構築について、ＤＡＧの形成の詳細について説明する。次いで、表現型とグラフ構築プロセス中のドキュメントとの間の関係を処理するデータ・モデル設計を詳細に説明する。次いで、意味のある結果を得るために、既存の知識グラフは提案された実施形態とどのように組み合わせられ得るかを説明する。最後に、効率的な計算のために実施形態がどのように採用されるかについて詳細を提供する。

・ＧＣＦ文法
ＧＣＦ文法は、表記「＠」で始まり、その後にコンポーネントカテゴリが続く主要なコンポーネントの宣言及び定義をサポートする。主要なコンポーネントは、５つの異なるカテゴリ、すなわちデータベース、表現型、ドキュメント、アルゴリズム、及びロジックに分類される。それぞれ異なる目的のために働き、独立した構造に体系化され得る。５つのコンポーネントについての詳細な説明は、以下の次の説明のセクションで提供する。宣言と定義との間の違いは、コンポーネントがすでに生成されているかどうかによる。コンポーネントを宣言するには、「＠」に続くコンポーネント名が必要とされるだけである。

コンポーネントを定義するには、「＠ｄｅｆ」というキーワードが、コンポーネントの本体内部になければならない。定義されたコンポーネントを保存するには、名前が「＠ｎａｍｅ」というキーワードを使用して指定されなければならず、値が「Ｔｒｕｅ」に設定された「＠ｓａｖｅ」というキーワードが追加されるべきである。ユーザは関数実装を「＠ｄｅｆ」に値として添付し、関数定義は中央リポジトリ中に持続される。次いで、保存されたコンポーネントは、上述したように宣言され得る。ＧＣＦ文法は、コンポーネントの入れ子になった定義をサポートするが、名前空間依存性によって制約を受ける。

以下の例は、放射線医学レポート・データのクラスタと腫瘍バイオマーカとが与えられた場合に悪性腫瘍を検出するタスクを示している。

悪性腫瘍を検出するタスクを実行する例示的なＧＣＦ:

目標は、各放射線医学レポート・クラスタ内部に見られる悪性腫瘍（ＭＴ）があるかどうかを知ることである。決定ルールは、クラスタ中２件より多くの放射線医学レポートが悪性腫瘍の記載を含んでいる場合、ｔｒｕｅを返すと決めている。別の場合（放射線医学の証拠が２件未満）では、異常のＡＦＰ（腫瘍バイオマーカ）が見つけられた場合にもｔｒｕｅを返す。さもなければ、ｆａｌｓｅを返す。上記の例では、「＠Ｄｏｃｕｍｅｎｔ：ｉｎｐｕｔ＿ｄａｔａ」が、放射線医学レポート（２か月以内に一緒にクラスタ化されたレポート）のクラスタのリストを表す。「＠Ｄｏｃｕｍｅｎｔ：ｔｕｍｏｒ＿ｍａｒｋｅｒｓ」は、ドキュメントに腫瘍バイオマーカ情報を注入する。インポートされたドキュメントでは、ドキュメント－表現型関係モデルにしたがって、「＠Ｐｈｅｎｏｔｙｐｅ：ｔｕｍｏｒ＿ｍｅｎｔｉｏｎ」及び「＠Ｐｈｅｎｏｔｙｐｅ：ｒｅｐｏｒｔ＿ｔｉｍｅ」が対応するドキュメント・オブジェクトから取得される。「＠Ａｌｇｏｒｉｔｈｍ：ｉｓ＿ＭＴ」」及び「＠Ａｌｇｏｒｉｔｈｍ：ｓｅｌｅｃｔ＿ｍａｒｋｅｒ」は、グラフ構築時に２つの決定関数がリポジトリからインポートされるようにトリガーする。「ｓｅｌｅｃｔ＿ｍａｒｋｅｒ」は、クラスタ内の放射線医学レポートに記録された最新のバイオマーカ・データを選択するためのアルゴリズムである。「ｉｓ＿Ｍ」は、「＠ｐｈｅｎｏｔｙｐｅ：ｔｕｍｏｒ＿ｍｅｎｔｉｏｎ」にしたがって、腫瘍が悪性のものであるかどうかを決定するアルゴリズムである。その決定ルールは、「＠Ｌｏｇｉｃ」ブロックの「＠ｄｅｆ」内に実装されている。「＠ｓａｖｅ」は、このロジックが、「ｄｅｔｅｃｔ＿ｒａｄｉｏｌｏｇｙ＿ｒｅｐｏｒｔｓ」の名前で関数リポジトリに保存されることを示す。次回、この保存された関数は、「＠Ａｌｇｏｒｉｔｈｍ：ｄｅｔｅｃｔ＿ｒａｄｉｏｌｏｇｙ＿ｒｅｐｏｒｔｓ」を宣言すれば直接インポートされ得る。ただし、これまでに定義されたすべてのインポート及びコードは、グラフが構築され、実行可能なグラフとして変換されて実行されるまで、実行されない。

・名前空間コンポーネント
ＧＣＦ文法によって定義された５つの主要なアイテムに対応して、５つの機能コンポーネント・オブジェクトがある。データベースコンポーネントは、データベース操作を処理すること、データベース接続及びデータクエリなどのトランザクションを担っている。表現型は、特定の決定ルール計算タスクにとって意味のあるキー・バリューのエンティティである。ドキュメントは、表現型一式を含む臨床レポートを表す。アルゴリズムは、入力を処理して出力を得る特定の関数である。たとえば、データ抽出アルゴリズムは、臨床ナラティブ・データから関連する表現型の値を抽出する。ロジックもアルゴリズムのような関数である。ただし、ロジックは異なるノード間の遷移において担うことが異なる。

発明者は、表現型及びドキュメントを表現する双方向関係モデルを創案した。各表現型及びドキュメントは、名前／ＩＤ、タイムスタンプ、コンテンツという必須のデータ項目と、コンテキスト及び符号化という随意のデータ項目とを含んでいる。しかしながら、コンテンツ及びコンテキストは、表現型及びドキュメントそれぞれについて異なる意味を持つ。ドキュメントについては、コンテンツは、ナラティブの形態ででも構造化／半構造化された形態ででも報告のコンテンツを表現する。表現型については、コンテンツは表現型の値である。表現型については、コンテキストは、コンテキストを含んでいるドキュメントのコンテンツである。タイムスタンプについては、場合によってはそうでないが、表現型のタイムスタンプは、ドキュメントのタイムスタンプに等しいと見なされる。符号化することは、関連する標準化されたコードを表す。通常、このコードは、表現型又はドキュメント・エンティティのカテゴリを示す。

・ＤＡＧ
上記で提供された例示的なＧＣＦを採用し、表現型及びドキュメントについて上記で説明した関係情報モデルを使用して表現型決定結果をモデル化するＮＬＰ表現型決定アルゴリズムによって、表現型はフェッチされる。上記の例示的なＧＣＦ中に、ＮＬＰアルゴリズムは明示的には宣言されていない。これは、何らかの事前構成によって行われていると思われる。本例では、ＮＬＰアルゴリズムをＤＡＧにおける関数ノードとして用いて表現型がドキュメントから抽出されることが明示的に示されている。この場合も、このＤＡＧ表現は静的なものであり、グラフが実行可能なグラフになり、実行されるまで何も計算されない。

・知識／オントロジーとの接続
ここで、グラフ構造と外部知識グラフ・データベース中のグラフデータとの間の接続について詳述する。２つのタイプの知識グラフ・データベース、すなわち係索を用いる知識ベースとデータを用いる知識ベースとは、接続され得る。知識を用いる接続は、グラフ中のエンティティを外部のエンティティとリンクさせることによって、グラフ処理の結果をより大きい範囲に拡張する可能性がある。これは、インテリジェント検索システム又は質疑応答（ＱＡ）システムを構築するときに有用である。

－事実による知識ベース
事実グラフは、ＳＮＯＭＥＤ－ＣＴ、ＬＯＩＮＣ、ＭｅＳＨ、Ｄｒｕｇｂａｎｋなどの既存の知識グラフ及びオントロジーである。本ＤＡＧのデータ・ノードをそのような外部グラフ及びオントロジーに接続することによって、概念の標準化が実行され、内部グラフと外部グラフとが橋渡しされて自動的に知識拡張を達成することができることが主要な利点である。これは、生体臨床医学及び保健衛生の言語の意味が理解されているように振舞う処理システムの開発を促進する。

－データによる知識ベース
高速保健衛生相互運用性リソース（ＦＨＩＲ）は、データ・リソース一式を定義し、医療システム間の高速データ交換を容易にすることを目的とする医療規格である。ＦＨＩＲデータベースは、本質的に、グラフとして一緒にリンクされ得る異なるデータ・リソースをもつ知識ベースである。ＦＨＩＲは、ＲＤＦトリプルとしてデータを記憶するために使用され得るＴｕｒｔｌｅフォーマットをサポートする。

・知識計算
次に知識コンピューティング・ストラテジの詳細が与えられる。提案される実施形態は以下を採用する：（i）効率を向上するためにグラフ中の２つのノードの間のデータ依存性による最良の計算ストラテジを適応的に選択すること；（ii）蓄積するデータ及び知識を、ユーザにとって計算が効率的であり且つ追跡が容易である多層構造に整理すること；及び（iii）既存の計算グラフに置き換え可能なグラフ・コンポーネントがシステム性能を効率的に最適化することを可能にするローカル再計算。

－適応計算構造
実行可能なグラフは、並列実行コンポーネントに送り込まれる。このコンポーネントの主要な概念は、ツリー状のシーケンシャル計算を高スループット同期計算に変換し、シーケンスを検出し、続いて意思決定をすることである。ＤＡＧを生成した後、それをどのように効率的に処理するかは、特に複雑なＤＡＧ及び大規模なデータに対して課題のままである。シーケンシャル決定グラフ計算問題をノード・ステータス検出とノード・ステータス・シーケンス・マッピングとに変換する計算ストラテジを提案する。この概念の図が、図６に与えられている。

特に、図６は、実施形態による提案される適応計算ストラテジを示す。ここで、シーケンシャル・グラフ・コンピューティングは、高スループット同期ステータス検出とステータス・シーケンス・マッピングとに変換される。「Ａ」では、ＤＡＧ中のすべてのノード４２はデータ転送を有さず、次いで各ノード４２はステータス・シーケンス４３中のステータスに変換され；「Ｂ」では、データ転送がいくつかのノード４２の間に存在し、それらのノード４２はステータス・シーケンス４３中の１つのステータスに変換される。

最初に、定義されたＧＣＦにしたがって、起こり得るすべてのステータス・シーケンス４３とそれらの対応する結果とを列挙するステータス・シーケンス・リスト４４が生成される。ステータス・シーケンス４３と結果との間の関係は、多対１であり得る。

上記で詳述したように（「ＤＡＧ」という名称のセクションにおいて）、適応ストラテジは、変換プロセスにおいて効率を高めるために採用される。第１の状況「Ａ」には、２つのノード間を転送される中間データがない（すなわちノード間に依存性がない）。したがって、それは独立した決定ノードとみなされ、ステータス・シーケンスにおいて単一のステータスに変換され得る。第２の状況「Ｂ」には、ＤＡＧにおいて２つのノード間にデータ転送があり（すなわちノード間に依存性がある）、それらのノードはノード・グループとしてマージされ、次いでシーケンス中でステータスに変換される（マージされるノードを囲む破線のボックスによって示されるように）。

ＤＡＧ計算のプロセス中に効率改善に寄与する２つの主要な態様：（ａ）各ノード・ステータスを導出するシーケンシャル決定ではなく、並列化されたノード・ステータス検出；及び（ｂ）ステータス・シーケンスのマッピングがある。大規模なデータがグラフに送り込まれるとき、決定ステータスは、あらゆる決定ノード又は決定ノード・グループに対して生成される。その後、すべてステータスは、事前定義された順序でステータス・シーケンスに連結される。次いで、システムは、結果を得るためにシーケンス・リストに対してシーケンスのマッピングを行う。たとえば、意思決定を行う臨床の現場において、ＧＣＦは３つのノード（Ａ，Ｂ，Ｃ）を定義し、あらゆるノードは２値の選択（偽には０、真には１）であり、ステータス・シーケンス「１００」は、Ａが真、Ｂが偽、及びＣが偽であることを表し、その結果は「病気を有する」であり、一方「００１」の結果は「病気ではない」となり得る。それらすべてのシーケンスは、ステータス・シーケンスのリストを形成する。

－多層計算
多層計算は、通常そうであるが、データと注入される臨床知識グラフの数の両方が増加しているとき、状況を処理する。新しいデータが入り続ける一方、新しい臨床知識はシステムに切れ目なく注入され続け、長手方向のデータ（表現型）は時間とともに変化する。データがより多くなれば、記憶されたグラフの一部の計算は継続され得る。完成された知識が増えれば、システム中の既存のデータを使用して新しい計算が活性化され、新しいデータを導出することができる。たとえば、患者が再発した腫瘍を有するか監視する知識グラフが注入されると想定する。癌の再発を裏付ける放射線医学レポートが１件しか存在しないとき、臨床的知識にしたがえば、判断することができない。しかしながら、１件の追加の放射線医学的裏付け又は腫瘍バイオマーカの裏付けがシステムに入ってくるとき、腫瘍再発に関する新しいデータ変数を導出するために計算が継続され得る。蓄積されたデータと知識とがうまく整理されない場合、ユーザは、各計算結果のプロセスを追跡することが不可能になる。

提案されたシステムは、説明したように、定期的にＥＴＬを再実行し、新しいデータをＥＭＲから取得し、計算を実行する。ここで、最初のＥＴＬ中に生成されたデータ変数は、ベース・データ層と呼ばれる。新しく導出されたデータは、ベース層の上部の新しいデータ層中に再帰的に配置される。特に、新しい知識グラフを注入した後、そのグラフの各ノードは、概念符号化を経て標準化された一意のシステム・コードにマッピングされる。そのような符号化は、すべてのグラフ・ノードの逆索引を構築するために使用され、それぞれがノード並びに層番号を含むグラフ構造に関連付けられている。新しい入力データは、それのデータ・タイプに基づいて、概念コードが同じ符号化プロセスを経て割り当てられる。その概念コードは逆索引を用いて検索され、同じ符号化をもつノードを含むすべてのグラフを得る。これは、極めて高速な探索プロセスである。通常、ノード符号化は、すでに注入されたグラフによってカバーされ得、データは、さらなる処理のために一致するシーケンスにグラフ・ノードとして追加される。しかしながら、カバーされないものについては、一致しないシーケンスにノードとして追加される。一致するシーケンス内部のノードについては、それらはシステムに追加され、新しいデータを導出するアクティブなグラフ計算に追加される。そのアルゴリズムは、次の通り記載されている。

新しいノードは、コピーされ、このノードを含むグラフ構造がインデックス中に存在するすべての層に追加される。追加されたノードが、同じ層の他のノードと連携し、いくつかのグラフの新しいデータ値を導出することができる場合、この新しく導出されたデータ・ノードを含める新しい層が生成されるか、さもなければその新しいノードは既存の上位層に追加される。決定するために、アルゴリズムは、新しく導出されたノードを含む上位層のみにあるグラフのすべてと再度照合する。そのノードを含んでいる上位層が存在する場合、そのノードはその層に追加される。存在しない場合、他の上位層に平行な新しい上位層が生成される。そのような新しい層では、新しく導出されたノードを含むすべてのグラフ構造が、新しい層番号と関連付けられる。

最初に、最下部にベース層と呼ばれる１つの層のみがある。一致しないシーケンスのノードについて、本システムには現在それらをカバーするグラフ構造がない。これらのデータ・ノードは、将来、システムに注入される新しい知識グラフによってカバーされるかもしれないし、決してカバーされないかもしれない。したがって、新しい知識が注入されるとき、アルゴリズムは常に一致しないシーケンスからのノードが追加され得るかどうかを確認する。追加され得ない場合、これらのデータ・ノードは本システムの通常データ・ポイントのみを提供する。

さらなる説明として、一例が図７に示されている。より具体的には、図７は、提案された実施形態による多層計算及びデータ体系の例を示す。第１のベース層５３のＡ及びＢは、層１．１のグループ５５のＥを導出することができる。Ｅ及びＦは、さらに層２．１のグループ５７のＨを導出する。しかしながら、Ｃ及びＤは、Ａ及びＢのグループ５３中のいかなるグラフによってもカバーされない。したがって第２の、平行なベース層５４が、Ｃ及びＤを含むように生成される。Ｃ及びＤは、層１．２のグループ５６のＧを導出する。また、Ｇは、層１．１のＥ及びＦのグラフによってカバーされず、層１．２のグループ５６と層２．１のグループ５７の両方によって含まれるので、Ｇは、両方の層５６、５７にコピーされる。

多層計算の利点は、高速なグラフ探索と並列化グラフ計算とに基づいていることである。したがって、全体的に極めて効率的である。さらに、新しいデータ項目を導出する際に、ユーザは、貴重なＥＴＬによって（情報の階層体系によって）いつデータが追加され、これらのデータが既存のデータとどのように相互作用しているかを明快に理解することができる。そのような提案された技法の影響は、同じ層において、新しいノードに寄与する古いノードはともに密集する傾向があり、同じノードを共有するグラフ構造もともに密集する傾向があることである。これを活用して、関連するデータ及び知識の優れたアーカイブを提供する階層化情報管理システムを設計することができる。これをもって、ユーザは、ユーザの関心のある各ノードを探し出すために、別個の知識グラフをトラバースする必要がなくなる。ユーザは、より高度なデータ・ノード（上位層中の）を導出するために、何のデータ要素を見つけそこなったかを容易に確認することができる。

－ローカル再計算
ユーザは、グラフ中の部品を再構成し、再計算されるべきノードを指定することができる。たとえば、ユーザが、放射線医学レポートが再発した腫瘍を示しているかどうかを識別する最先端の分類アルゴリズムを試みたいと思うことがある。ユーザは、グラフ中の古いアルゴリズム・ノードを置き換え、グラフを再実行する。ただし、再実行は他のノードに影響を及ぼさず、関連するノードのみに影響する。同様に、ユーザは、グラフ中の任意の関数ノードを置き換えることができる。たとえば、ユーザは、データベースからの臨床のドキュメントのクエリ・トランザクションを再定義し、それを高速化した。提案されたシステムは、再計算フローをこのトランザクションに関連するすべてのダウンストリームのノードに伝える。

本発明の適用分野
提案された発明の主な適用分野は情報抽出及びＥＴＬである。提案されたアーキテクチャにより、抽出ステップ及び変換ステップが、容易に構成可能になり、且つより一貫したものになり、オーバーヘッドを減らすことが可能になる。適用分野の別のカテゴリは、知識コンピューティング及び意思決定支援管理に分類される。上記では、ルール・ベースの意思決定に基づく例を示したが、自動化されたアルゴリズムがグラフ構造内で接続、検証され得るように、すべての関数ノードは置換可能である。提案された技法は、医療データベースを計算知識及び外部知識ベースに接続するので、それらの技法は、検索及びＱＡ用途、たとえば医療検索エンジンやチャットボットに寄与することができる。また、提案されたシステムは、次第に増加されるデータを処理するので、たとえば再発早期発見、副作用などのイベント監視に有用であり得る。

図８は、上記で説明したようにシステムの実施形態を実装するためのコンピュータ６０の例を示す。

コンピュータ６０は、ＰＣ、ワークステーション、ラップトップ、ＰＤＡ、パーム・デバイス、サーバ、ストレージなどを含むが、これらに限定されない。一般に、ハードウェア・アーキテクチャに関してコンピュータ６０は、ローカル・インターフェース（図示せず）を介して通信可能に結合される、１つ又は複数のプロセッサ６１、メモリ６２、及び１つ又は複数のＩ／Ｏデバイス６３を含む。ローカル・インターフェースは、たとえば、当技術分野で知られているような、１つ又は複数のバス或いは他の有線又は無線接続であり得るが、これらに限定されない。ローカル・インターフェースは、通信を可能にするために、コントローラ、バッファ（キャッシュ）、ドライバ、リピータ、及び受信機など、追加の要素を有する。さらに、ローカル・インターフェースは、前述のコンポーネント間の適切な通信を可能にするために、アドレス、制御、及び／又はデータ接続を含む。

プロセッサ６１は、メモリ６２に記憶され得るソフトウェアを実行するためのハードウェア・デバイスである。プロセッサ６１は、仮想的に任意のカスタムメイドの又は商業的に利用可能なプロセッサ、中央処理ユニット（ＣＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、又はコンピュータ６０に関連付けられたいくつかのプロセッサ間の補助プロセッサであり得、このプロセッサ６１は、半導体ベースの（マイクロチップの形態の）マイクロプロセッサ又はマイクロプロセッサである。

メモリ６２は、揮発性のメモリ要素（たとえば、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）などのランダム・アクセス・メモリ（ＲＡＭ））と、不揮発性のメモリ要素（たとえば、ＲＯＭ、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、電子的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、テープ、コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、ディスク、ディスケット、カートリッジ、カセットなど）とのうちのいずれか１つ又は組合せを含むことができる。さらに、メモリ６２は、電子的、磁気的、光学的、及び／又は他のタイプの記憶媒体を組み込むことができる。メモリ６２は、様々なコンポーネントが互いに遠く離れて位置するがプロセッサ６１によってアクセスされ得る、分散型アーキテクチャを有し得ることに注意されたい。

メモリ６２中のソフトウェアは１つ又は複数の別個のプログラムを含み、プログラムの各々はロジック関数を実行するための実行可能な命令の順序付けられたリストを含む。メモリ６２中のソフトウェアは、例示的な実施形態によれば、好適なオペレーティング・システム（Ｏ／Ｓ）６４、コンパイルラ６５、ソース・コード６６、及び１つ又は複数のアプリケーション６７を含む。

アプリケーション６７は、計算ユニット、ロジック、関数ユニット、プロセス、演算、仮想エンティティ、及び／又はモジュールなど、多くの機能的コンポーネントを含む。

オペレーティング・システム６４は、コンピュータ・プログラムの実行を制御し、スケジューリング、入出力制御、ファイルとデータの管理、メモリ管理、及び通信制御若しくは関連するサービスを提供する。

アプリケーション６７は、ソース・プログラム、実行可能なプログラム（オブジェクト・コード）、スクリプト、又は実行されるべき命令一式を含む任意の他のエンティティである。ソース・プログラムのとき、プログラムは通常、オペレーティング・システム６４とともに適切に動作するように、メモリ６２内に含まれることもあり、含まれないこともある、コンパイラ（コンパイラ６５など）、アセンブラ、インタプリタなどを介して翻訳される。さらに、アプリケーション６７は、データ及び方法のクラスを有するオブジェクト指向プログラミング言語、或いはルーティン、サブルーチン、及び／又は関数を有する手続き型プログラミング言語、たとえば、Ｃ、Ｃ＋＋、Ｃ＃、Ｐａｓｃａｌ、ＢＡＳＩＣ、ＡＰＩコール、ＨＴＭＬ、ＸＨＴＭＬ、ＸＭＬ、ＡＳＰスクリプト、ＪａｖａＳｃｒｉｐｔ、ＦＯＲＴＲＡＮ、ＣＯＢＯＬ、Ｐｅｒｌ、Ｊａｖａ、ＡＤＡ、．ＮＥＴなどとして記述され得るが、これらに限定されない。

Ｉ／Ｏデバイス６３は、たとえばマウス、キーボード、スキャナ、マイクロフォン、カメラなどの入力デバイスを含むが、これらに限定されない。さらに、Ｉ／Ｏデバイス６３は、たとえばプリンタ、ディスプレイなどの出力デバイスをも含むが、これらに限定されない。最後に、Ｉ／Ｏデバイス６３は、入力と出力の両方通信するデバイス、たとえばネットワーク・インターフェース・コントローラ（ＮＩＣ）又はモジュレータ／デモジュレータ（リモート・デバイス、他のファイル、デバイス、システム、又はネットワークにアクセスするための）、無線周波数（ＲＦ）又は他のトランシーバ、電話のインターフェース、ブリッジ、ルーターなどをさらに含むが、これらに限定されない。Ｉ／Ｏデバイス６３はまた、インターネット又はイントラネットなど、様々なネットワークを介して通信するためのコンポーネントを含む。

コンピュータ６０が動作中であるとき、メモリ６２内に記憶されたソフトウェアを実行し、メモリ６２に及びメモリ６２からデータを通信し、一般にソフトウェアにしたがってコンピュータ６０の動作を制御するようにプロセッサ６１は構成されている。アプリケーション６７及びオペレーティング・システム６４は、全体的に又は部分的に、プロセッサ６１によって、おそらくプロセッサ６１内でバッファされて読み出され、次いで実行される。

アプリケーション６７がソフトウェアに実装されるとき、アプリケーション６７は、任意のコンピュータ関連のシステム又は方法による或いは関連する使用のための、事実上任意のコンピュータ可読媒体に記憶され得ることに留意されたい。この書類のコンテキストでは、コンピュータ可読媒体は、電子的、磁気的、光学的、又は他の物理的デバイス或いはコンピュータ関連のシステム又は方法による或いは関連する使用のためのコンピュータ・プログラムを含むか又は記憶し得る媒体である。

開示した実施形態に対する他の変形形態は、図面、開示、及び添付の特許請求の範囲の研究から、主張する発明を実施する当業者によって理解され、達成され得る。特許請求の範囲では、「有する、備える、含む」という語は他の要素又はステップを除外せず、単数形は複数を除外しない。特定の測定値が相互に異なる従属項に記載されているという単なる事実は、これらの測定値の組合せは有利に使用され得ないことを示すものではない。特許請求の範囲における任意の参照符号は、範囲を限定するものとして解釈されるべきでない。

開示した実施形態に対する変形形態は、図面、開示及び添付の特許請求の範囲の研究から、主張する発明を実施する当業者によって理解され、達成され得る。特許請求の範囲では、「有する、備える、含む」という語は他の要素又はステップを除外せず、単数形は複数を除外しない。単一のプロセッサ又は他のユニットは、特許請求の範囲に記載されている、いくつかのアイテムの機能を実行する。特定の測定値が相互に異なる従属項に記載されているという単なる事実は、これらの測定値の組合せは有利に使用され得ないことを示すものではない。コンピュータ・プログラムが上記で説明されている場合、プログラムは、他のハードウェアと一緒に又はその一部として供給される光学的記憶媒体や固体媒体など、好適な媒体上に記憶／分散され得るが、インターネット或いは他の有線又は無線の電気通信システムを介する形態など、他の形態においても分散される。特許請求の範囲又は明細書において「ように適応させられた」という用語が使用されている場合、「ように適応させられた」という用語は「ように構成された」という用語と等価なものであることに留意されたい。特許請求の範囲における任意の参照符号は、範囲を限定するものとして解釈されるべきでない。

Claims

複数のグラフ構成コンポーネントを取得するインターフェースであって、各グラフ構成コンポーネントが１つ又は複数の計算ロジック・ルールを表す情報を含む、インターフェースと、
前記取得されたグラフ構成コンポーネントに基づいて計算グラフを生成する計算グラフ・ジェネレータであって、前記生成された計算グラフが、各グラフ構成コンポーネントのノード、及び前記ノード間の関係を表す１つ又は複数のリンクを備える、計算グラフ・ジェネレータと、
前記グラフ構成コンポーネントに関連する外部情報を外部ソースから受信し、前記外部情報に基づいて前記生成された計算グラフを適応させる計算グラフ・アダプタと、
前記適応させられた計算グラフを実行する計算グラフ・ランナと
を備える、ＥＴＬパイプライン・システム。
前記各グラフ構成コンポーネントが、
データベース接続と、
ドキュメントと、
データ要素と、
アルゴリズムと、
計算ロジック・ルールと
のうちの少なくとも１つを含む、請求項１に記載のＥＴＬパイプライン・システム。
前記アルゴリズムが計算データ抽出ルールを含み、且つ／又は前記計算ロジック・ルールが計算意思決定ルールを含む、請求項２に記載のＥＴＬパイプライン・システム。
前記外部情報が、
ユーザ定義されたグラフ構成コンポーネントと、
外部知識データベースからの外部知識と
のうちの少なくとも１つを含む、請求項１から３のいずれか一項に記載のＥＴＬパイプライン・システム。
前記外部知識がデータベースに記憶された先行する計算グラフを含み、前記先行する計算グラフが前記生成された計算グラフに追加されて適応させられた計算グラフを生成する、請求項４に記載のＥＴＬパイプライン・システム。
前記ユーザ定義されたグラフ構成コンポーネントが、１つ又は複数のグラフ構成コンポーネントを再定義及び／又は修正する情報を含む、請求項４又は５に記載のＥＴＬパイプライン・システム。
構成コンポーネントがグラフ構成ファイルを含み、前記ＥＴＬパイプライン・システムが、前記ユーザ定義されたグラフ構成コンポーネントに基づいて、前記グラフ構成ファイル又は異なるグラフ構成コンポーネント間の依存関係を示す依存性情報を再定義する、請求項４から６のいずれか一項に記載のＥＴＬパイプライン・システム。
前記ＥＴＬパイプライン・システムが、
前記インターフェースから前記グラフ構成コンポーネントを受信することと、
前記コンポーネント情報及び異なるグラフ構成コンポーネント間の依存関係を示す依存性情報に基づいて、異なるグラフ構成コンポーネント間のリンクを確立することと
を行う計算グラフ・パーサをさらに備える、請求項１から７のいずれか一項に記載のＥＴＬパイプライン・システム。
前記計算グラフ・パーサが、前記データ要素及び／又は前記ドキュメントに関連付けられたデータ項目に基づいて、前記データ要素と前記ドキュメントとの間のリンクを確立する、請求項８に記載のＥＴＬパイプライン・システム。
前記データ項目が、
識別子と、
タイムスタンプと、
コンテンツ項目と、
コンテキスト項目と、
符号化オブジェクトと
のうちの少なくとも１つを含む、請求項９に記載のＥＴＬパイプライン・システム。
前記計算グラフ・ランナが、前記適応させられた計算グラフを適応型高スループット計算で実行する、請求項１から１０のいずれか一項に記載のＥＴＬパイプライン・システム。
請求項１から１１のいずれか一項に記載のＥＴＬパイプライン・システムを備える、医療データ処理システム。
ＥＴＬパイプライン処理のための方法であって、前記方法は、
複数のグラフ構成コンポーネントを取得するステップであって、各グラフ構成コンポーネントが１つ又は複数の計算ロジック・ルールを表す情報を含む、取得するステップと、
前記取得されたグラフ構成コンポーネントに基づいて計算グラフを生成するステップであって、前記生成された計算グラフが:各グラフ構成コンポーネントのノード、及び前記ノード間の関係を表す１つ又は複数のリンクを含む、生成するステップと、
前記グラフ構成コンポーネントに関連する外部情報を外部ソースから受信するステップと、
前記外部情報に基づいて前記生成された計算グラフを適応させるステップと、
前記適応させられた計算グラフを実行するステップと
を有する、方法。
ＥＴＬパイプライン処理のためのプログラム命令を収録したコンピュータ可読記憶媒体であって、前記プログラム命令は処理ユニットによって、
複数のグラフ構成コンポーネントを取得するステップであって、各グラフ構成コンポーネントが１つ又は複数の計算ロジック・ルールを表す情報を含む、取得するステップと、
計算グラフを前記取得されたグラフ構成コンポーネントに基づいて生成するステップであって、前記生成された計算グラフが、各グラフ構成コンポーネントのノード、及び前記ノード間の関係を表す１つ又は複数のリンクを含む、生成するステップと、
前記グラフ構成コンポーネントに関連する外部情報を外部ソースから受信するステップと、
前記外部情報に基づいて前記生成された計算グラフを適応させるステップと、
前記適応させられた計算グラフを実行するステップと
を実行可能である、コンピュータ可読記憶媒体。
少なくとも１つのプロセッサと、請求項１４に記載のコンピュータ可読記憶媒体とを備える処理システムであって、前記少なくとも１つのプロセッサは、前記コンピュータ可読記憶媒体のコンピュータ・プログラム・コードを実行する、処理システム。