JP2016505973A - 予測モデル生成のためのユーザーインタフェース - Google Patents

予測モデル生成のためのユーザーインタフェース Download PDF

Info

Publication number
JP2016505973A
JP2016505973A JP2015549805A JP2015549805A JP2016505973A JP 2016505973 A JP2016505973 A JP 2016505973A JP 2015549805 A JP2015549805 A JP 2015549805A JP 2015549805 A JP2015549805 A JP 2015549805A JP 2016505973 A JP2016505973 A JP 2016505973A
Authority
JP
Japan
Prior art keywords
unique content
content element
prediction model
content elements
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015549805A
Other languages
English (en)
Other versions
JP6316844B2 (ja
Inventor
ハンドラー,ジョナサン
フリッチュ,ヨーガン
Original Assignee
エムモーダル アイピー エルエルシー
エムモーダル アイピー エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エムモーダル アイピー エルエルシー, エムモーダル アイピー エルエルシー filed Critical エムモーダル アイピー エルエルシー
Publication of JP2016505973A publication Critical patent/JP2016505973A/ja
Application granted granted Critical
Publication of JP6316844B2 publication Critical patent/JP6316844B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24549Run-time optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

操作対象集合を生成するための操作対象集合基準及び操作除外集合を生成するための操作除外集合基準を使用してデータセットが検索される。一意の内容要素の集合が操作対象集合及び操作除外集合から識別される。各一意の内容要素に対し、一意の内容要素を含む操作対象集合内のレコードのパーセンテージと一意の内容要素を含む操作除外集合内のレコードのパーセンテージとの間の差の絶対値の測定のような測定基準が、操作対象集合、操作除外集合、及び一意の内容要素の集合から導出される。一意の内容要素の集合は絶対値の降順にソートされて表示される。内容要素の集合はフィルタ処理される。個々の内容要素が内容集合から除外される。予測モデルが内容要素集合の結果として生じたバージョンに基づき生成される。【選択図】図4

Description

予測モデルは、結果の可能性を予測するために、多岐にわたるコンテキストで使用される。例えば、予測モデルは、以前に観察されていないデータの単位(データベース内のレコードなど)が特定の結果に関連する情報を表すか否かを予測するために使用される。例えば、健康管理のコンテキストで、予測モデルは、特定の患者に関連するデータ(その患者の最近の症状を表すデータなど)が、その患者の病院への再入院などの特定の結果を経験する可能性があることを示しているか否かを予測するために使用される。ユーザーが予測モデルを構築することを可能にする多数のツールが存在するが、このようなツールは、それらのユーザーが統計に精通していることが求められる。
本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、統計の詳細な知識を欠いているユーザーが、健康管理データ(例えば、自由記載の診療文書データセット)などのデータに対して、予測モデルを迅速且つ容易に生成して検証できるようにするツールを提供することにある。
本発明の予測モデル生成方法は、構造化データ及び非構造化データの一方又は両方を含むデータセットが操作対象集合を生成するための操作対象集合基準及び操作除外集合を生成するための操作除外集合基準を使用して検索される。自由形式テキスト要素及び概念要素の一方又は両方を含む一意の内容要素の集合が操作対象集合及び操作除外集合から識別される。各一意の内容要素に対し、一意の内容要素を含む操作対象集合内のレコードのパーセンテージと一意の内容要素を含む操作除外集合内のレコードのパーセンテージとの間の差の絶対値の測定のような測定基準が、操作対象集合、操作除外集合、及び一意の内容要素の集合から導出される。一意の内容要素の集合は集合内の要素のパーセンテージの差の絶対値の降順のような測定基準又は集合内の要素のいずれかの順序でソートされ、ソートされた集合はソートされた順にユーザーに表示される。内容要素の集合はソートされた集合内の最初のN個の要素のみを保持するなどによってフィルタ処理される。ここで、Nはユーザー選択値である。個々の内容要素が内容集合から(例えば、ユーザーにより手動で)除外される。予測モデルが内容要素集合の結果として生じたバージョンに基づき生成される。
上記目的を達成するためになされた本発明の一態様による予測モデル生成方法は、コンピュータによって実行される方法であって、(A)操作対象集合基準に一致する要素について第1のデータセットを検索して前記第1のデータセットの第1のサブセットを含む操作対象集合を識別する段階と、(B)操作除外集合基準に一致する要素について前記第1のデータセットを検索して第1のデータセットの第2のサブセットを含む操作除外集合を識別する段階と、(C)前記操作対象集合及び前記操作除外集合から選択された一意の内容要素の集合を識別する段階と、(D)前記一意の内容要素の集合をソートしてソートされた一意の内容要素の集合を生成する段階と、(E)前記ソートされた一意の内容要素の集合から前記ソートされた一意の内容要素の集合内の最初のN個の要素を除く全てをフィルタ処理してフィルタ処理された一意の内容要素の集合を生成する段階と、(F)前記フィルタ処理された一意の内容要素の集合から少なくとも1つの内容要素を除外して一意の内容要素の最終集合を生成する段階と、(G)前記一意の内容要素の最終集合に基づき予測モデルを生成する段階と、を有する。
本発明によれば、予測モデルを生成するためにユーザーが検討する必要のある内容要素の数が著しく制限されて検討を容易にし、予測モデルを生成するコンピュータが処理する必要のある入力変数の数が十分に制限されて、計算的に高速且つ効率的になる。
本発明によれば、技術者でも統計学者でもない人が、健康管理データなどのデータに対して予測モデルを迅速且つ容易に生成できる。
本発明の一実施形態で使用されるグラフィカルユーザーインタフェースを示す図である。 本発明の一実施形態による操作対象集合及び操作除外集合を生成及び表示するためのシステムのデータフロー図である。 本発明の一実施形態による図2のシステムで実行される方法のフローチャートである。 本発明の一実施形態による予測モデルを生成するためのシステムのデータフロー図である。 本発明の一実施形態による図4のシステムで実行される方法のフローチャートである。
以下、本発明を実施するための形態の具体例を、図面を参照しながら詳細に説明する。 本発明の実施形態は、統計の詳細な知識を欠くユーザーが、健康管理データ(例えば、自由記載の診療文書データセット)などのデータに対して予測モデルを迅速且つ容易に生成して検証できるようにする。例えば、本発明の実施形態は、自然言語処理を使用して、予測モデルによって特徴として使用される関連概念を識別し、体系化して注釈付けする。
図2は、本発明の一実施形態による操作対象集合及び操作除外集合を生成及び表示するためのシステム200のデータフロー図である。図3は、本発明の一実施形態による図2のシステム200で実行される方法のフローチャートである。
システム200は、データセット202を含む。一般に、データセット202は、複数のレコード(204a〜204c)を含む。説明を簡単にするため、図2には3つのレコード(204a〜204c)のみを示すが、データセット202は、任意の数のレコードを含む。実際には、例えば、データセット202は、数千又は数百万のレコードを含む。更に、データセット202は、図2では単一のデータセットとして示すが、データセット202は、図2に示す単一のデータセット202のように、システム200内の同じ機能を一括して実行する複数のデータセットとして具現される。例えば、データセット内のレコード(204a〜204c)は、あるデータセット(例えば、第1のデータベース)に含まれるか又は同一データセットから導出されたいくつかのレコードを含み、且つ別のデータセット(例えば、第2のデータベース)に含まれるか又は同一データセットから導出されたいくつかのレコードを含む。データセット202内のレコード(204a〜204c)は、データセット202内にコピーされるという理由、データセット202によって参照されるという理由、又はそれらの組合せによって、データセット(204a〜204c)の「内」である。
データセット202内のレコード(204a〜204c)は、様々な形式のいずれかを取る。例えば、データセット202内の任意の特定のレコードは、
・データベース内のレコード又はその一部(データベース内のレコードのフィールドなど)などの離散的内容(discrete content)、
・以下で説明する自由形式テキスト文書(例えば、文書処理アプリケーション又は他のテキスト編集アプリケーションによって作成された文書)もしくはその一部、又はデータベースレコードのフィールド内の自由形式テキスト内容もしくは概念内容を含む文書内の自由形式テキスト内容のような自由形式テキスト内容以外の内容も含むデータオブジェクト内に含まれる自由形式テキストなどの自由形式テキスト内容(free−form text content)、
・1つ以上のタグ(例えば、XMLタグ)で補完される自由形式テキスト内容又はコンピュータによって自動的に理解される形式で特定の概念のインスタンスを表す自由形式テキスト内容を示す他の離散的データ要素の形式を取る概念内容(concept content)、である。
データセット202は、上記で説明した種類のレコードの任意の組合せを含む。概念内容を作成するために使用される技術の例は、2009年9月1日に発行された、「Automated Extraction of Semantic Content and Generation of a Structured Document from Speech」という名称の米国特許第7,584,103号明細書に見られ、これを参照して本明細書に援用する。上記文献に記載されるように、「構造化文書」は、自由形式テキスト内容及び概念内容の組合せを含む。
データセット202は、任意の1つ以上の領域(domain)に関連するデータを含むが、以下の説明では、患者に関する健康管理情報を表すデータに焦点を合わせる。データセット202は、一人以上の患者に関連するレコードを含む。例えば、レコード204a及び204bは、第1の患者に関連するデータを含み、他方、レコード204cは、第2の患者に関連するデータを含む。
健康管理情報を含むレコードの具体例として、レコードは、特定の患者との一回以上の臨床遭遇に対する非構造化臨床記録(例えば、経過記録、手術記録、退院要約)の集合を含む。他の例として、レコードは、電子カルテ(EHR:electronic health records)システムからの関連構造化データ及び請求処理システムからの関連課金データを含む。
更に、「レコード」という用語は、例えば、特定の患者に関連するデータセット202内の全てのデータを指す。例えば、レコード204aは、第1の患者に関連するデータセット202内の全データを表し、レコード204bは、第2の患者に関連するデータセット202内の全データを表し、またレコード204cは、第3の患者に関連するデータセット202内の全データを表す。この例では、レコード204aは、離散的データの1つ以上の情報源(例えば、1つ以上のデータベース)及び/又は自由テキストデータの1つ以上の情報源(例えば、1つ以上の文書処理文書)などの複数の情報源からのデータを含む。個々のレコードは、患者以外のエンティティ(entity)に関連するデータを(本明細書で説明する他のデータのいずれかに加えて、又はその代わりに)含む。例えば、レコードは、特定の事象(特定の患者の来診)又は特定の文書に関連するデータを含む。
ある指定された特性を有するデータを含むデータセット202内のレコードを識別することに興味があるシステム200のユーザー206について考える。具体例として、ユーザー206が、胸痛を訴えたことがあって且つ生存する患者を表すデータセット202内のレコードを識別することに興味があると仮定する。ユーザーが指定した特性を有するデータを含むレコードの全てが、検索エンジン208によってユーザー指定の特性を有するとして直接識別されるデータで明示的にコード化されている場合、ユーザー206は、単に、ユーザー指定の特性を指定するクエリーを定式化して、そのクエリーを検索エンジン208に提供することにより、それらのレコードを識別し得る。それに応答して、検索エンジン208は、そのクエリーを満たし、従ってユーザー指定の特性を有するデータを表すデータセット202からレコードを含む結果集合を提供する。
しかし、多くの現実世界の事例では、データセット202内のレコード(204a〜204c)の一部又は全部は、検索エンジン208によって、ユーザー指定の特性を有するとして直接識別されるデータで明示的にコード化されない。例えば、データセット202内のレコードは、胸痛を訴えて且つ生存する患者に関するデータを含むが、そのレコードは、患者が胸痛を訴えたことを明示的に示し、且つ/又はその患者が生存することを明示的に示すデータを含まない可能性がある。従って、例えば、検索エンジン208に「症状」フィールドにテキスト「胸痛」が含まれるレコードを検索するように指示することによって、検索エンジン208にユーザー指定の特性を直接検索するクエリーを実行するように指示することは、胸痛を訴えたことがあって且つ生存する患者を表すレコードを発見できない可能性がある。
この問題に対処するために、本実施形態は、ユーザーが、データセット202内の特定のレコードがユーザー指定基準を満たすか否かを、特定のレコードが、そのレコードがそれらのユーザー指定基準を満たすことを示すデータで明示的にコード化されているか否かに拘らずに予測する予測モデルを作成できるようにする。この予測モデルは、その後、ユーザー指定基準を満たす可能性があるデータセット202内のレコードを、たとえそれらのレコードがユーザー指定基準を満たすことを示すように明示的にコード化されていなくても、検索して識別するために使用される。ユーザー指定基準は、例えば、既に生じた結果(患者の過去の胸痛の症状など)又はまだ生じていない将来起こり得る結果(患者の死亡など)を表す。従って、本実施形態によって採用される予測モデルは、データセット202内のレコードがユーザー指定基準を満たす過去の結果を表すか否かを判断するため、及びデータセット内のレコードがユーザー指定基準を満たす将来起こり得る結果を示すか否かを判断する(予測する)ために使用される。この予測モデルを生成するために使用される技術の例を以下で説明する。
ユーザー206は、操作対象集合基準210aを検索エンジン208に対する入力として提供する(図3、段階302)。一般に、操作対象集合基準210aは、1つ以上の操作対象集合基準を表す。操作対象集合基準は、ユーザー206にとって興味のある1つ以上の基準(特性)から成る。システム200の1つの目的は、レコード(以前に観察されていないデータなど)が、操作対象集合基準210aの入力によって表される操作対象集合基準を満たすデータを含むか否かを予測する予測モデルを生成することである。
検索エンジン208は、操作対象集合基準210aの入力を受信し、操作対象集合基準210aの入力によって表される操作対象集合基準を含むクエリーを使用してデータセット202の検索を実行し、それにより、操作対象集合基準を満たすデータセット202からのデータを含む結果集合212を生成する(図3、段階304)。従って、この結果集合212を、本明細書では「操作対象集合(inclusion set)」212aと呼ぶ。クエリーは、例えば、1つ以上の論理AND,1つ以上の論理OR、他のブール演算子、又はそれらの任意の組合せによって、操作対象集合基準を結合する。
ユーザー206は、操作除外集合基準210bの入力も検索エンジン208に対する入力として提供する(図3、段階306)。一般に、操作除外集合基準210bの入力は、1つ以上の操作除外集合基準を表す。操作除外集合基準は、例えば組み合わせて操作対象集合基準の論理補集合を表す1つ以上の基準(特性)を含む。例えば、ユーザー206は、操作対象集合基準を満たさないデータを含むレコードをデータセットから選択するために、操作除外集合基準210bを選択する。例えば、操作対象集合基準が、胸痛を訴えたことがあって且つ生存する患者を指定する場合、操作除外集合基準は、胸痛を訴えたことがあって且つ生存しない患者を指定する。
検索エンジン208は、操作除外集合基準210bの入力を受信し、操作除外集合基準210bの入力によって表される操作除外集合基準を含むクエリーを使用してデータセット202の検索を実行し、それにより、操作除外集合基準を満たすデータセット202からのデータを含む結果集合212を生成する(図3、段階308)。従って、この結果集合212を、本明細書では「操作除外集合(exclusion set)」212bと呼ぶ。クエリーは、例えば、1つ以上の論理AND、1つ以上の論理OR、他のブール演算子、又はそれらの任意の組合せによって、操作除外集合基準を結合する。
システム200は、結果集合出力モジュール214を含み、結果集合出力モジュール214は、操作対象集合212aに基づき操作対象集合出力216aを生成してユーザー206に提供し(図3、段階310)、操作除外集合212bに基づき操作除外集合出力216bを生成して、ユーザー206に提供する(図3、段階312)。
より一般的には、操作対象集合212a及び操作除外集合212bの和集合を結果集合212と呼ぶ。従って、結果集合出力モジュール214は、結果集合212の一部又は全部に基づき結果集合出力216を生成する。
システム200は、結果集合測定基準モジュール218を含み、結果集合測定基準モジュール218は、操作対象集合212a及び/又は操作除外集合212bに基づき、様々な結果集合測定基準220を生成する(図3、段階314)。結果集合測定基準220は、例えば、操作対象集合212aのみから導出された操作対象集合測定基準220a及び操作除外集合212bのみから導出された操作除外集合測定基準220bを含む。また、結果集合測定基準220は、操作対象集合212a及び操作除外集合212bの組合せから導出された測定基準も含む。結果集合測定基準220の具体例を以下で説明する。
結果集合出力216は、結果集合測定基準220の一部又は全部に基づき、結果集合出力モジュール214によって生成された結果集合測定基準出力216cを含む。例えば、結果集合測定基準出力216cは、操作対象集合測定基準220a、操作除外集合測定基準220b、及び/又は結果集合測定基準220内の他の測定基準から導出される。
本発明の実施形態の特定の態様を一般的な用語で説明したが、本発明の実施形態の動作を実際に例示するために、本発明の実施形態のそれらの態様の実装例を以下で説明する。この実装例を説明した後に、予測モデルを生成するために使用される技術例を説明する。
図1は、本発明の一実施形態で使用されるグラフィカルユーザーインタフェースを示す図であり、図1及び図2に関連して上述した機能の一部を実行するために使用されるグラフィカルユーザーインタフェース(GUI)100を示す。GUI100は、例えば、任意の種類のコンピューティング装置(例えば、デスクトップ、ラップトップ、又はタブレットコンピュータ)の表示出力構成要素(例えば、モニター又はタッチスクリーン)によって表示される。
GUI100は、適用母集団(applicable population)定義セクション140を含み、適用母集団定義セクション140は、母集団に関連する入力を受信して、ユーザー206のクエリーを適用する母集団に関連する出力を提供する。例えば、図1では、適用母集団定義セクション140は、適用母集団基準の入力をユーザー206から受信するためのテキスト入力フィールド等の適用母集団基準の入力部142を含む。図1の例では、ユーザー206が、テキスト「CHF AND低駆出率」を適用母集団基準の入力として入力することを示しており、それにより、ユーザー206が、適用母集団を、胸痛を訴えたことがあって且つ低駆出率(例えば、35%未満)を有する患者で構成することを望むことを示す。
適用母集団定義セクション140は、適用母集団の名前又は簡単な説明を表すユーザー206からの入力を受信するためのテキスト入力フィールドなどの適用母集団の記述入力部144を含む。図1の例では、ユーザー206が、テキスト「重症のCHF患者」を適用母集団の記述として入力することを示す。
適用母集団定義セクション140は、またユーザー206が選択するボタン146又は他の入力部を含み、それに応答して、検索エンジン208が、適用母集団基準の入力(入力部142内)を使用してデータセット202に問い合わせて適用母集団の定義入力に一致するデータレコードを生成し、次いで、結果として生じるデータレコード(図示せず)をユーザー206に表示する。
GUI100は、操作対象集合212aに関連する入力を受信して出力を提供する操作対象集合セクション102a、及び操作除外集合212bに関連する入力を受信して出力を提供する操作除外集合セクション102bを含む。例えば、操作対象集合セクション102aは、操作対象集合基準210aの入力をユーザー206から受信するためのテキスト入力フィールド等の操作対象集合基準の入力部104aを含む。図1の例では、ユーザー206が、テキスト「適用母集団AND死亡」を操作対象集合基準210aの入力として入力することを示しており、ユーザー206は、操作対象集合基準が、胸痛を訴えたことがあって低駆出率(例えば、35%未満)を有し、且つ死亡した患者を指定することを望むことを示す。この例では、テキスト「適用母集団」を操作対象集合基準210aの入力内に含めると、適用母集団基準の入力部142からの適用母集団操作対象基準(例えば、「CHF AND低駆出率」)が操作対象集合基準に含まれることになる。結果として、適用母集団基準入力は、操作対象集合基準210aの入力の一部とみなされる。
操作対象集合セクション102aは、操作対象集合212aの名前又は簡単な説明を表すユーザー206からの入力を受信するためのテキスト入力フィールドなどの操作対象集合の記述入力部106aも含む。図1の例では、ユーザー206が、テキスト「死亡したCHF患者」を操作対象集合212aの記述として入力することを示す。
操作対象集合セクション102aは、ユーザー206が選択するボタン105a又は他の入力部も含み、それに応答して、検索エンジン208が、操作対象集合基準210aの入力によって表される操作対象集合基準を使用してデータセット202に問い合わせて操作対象集合212aを生成し、次いで、結果として生じる操作対象集合212aをユーザー206に表示する。
同様に、操作除外集合セクション102bは、操作除外集合基準210bの入力をユーザー206から受信するためのテキスト入力フィールドなどの操作除外集合基準の入力部104bを含む。図1の例では、ユーザー206が、テキスト「適用母集団AND生存」を操作除外集合基準210bの入力として入力することを示しており、ユーザー206は、操作除外集合基準が、胸痛を訴えたことがあって低駆出率を有し、且つ生存する患者を指定することを望むことを示す。この例では、テキスト「適用母集団」を操作除外集合基準210bの入力内に含めると、適用母集団基準の入力部142からの適用母集団操作対象基準(例えば、「CHF AND低駆出率」)が、操作除外集合基準210bの入力によって表される操作除外集合基準に含まれることになる。結果として、適用母集団基準入力は、操作除外集合基準210bの入力によって表される操作除外集合基準の一部とみなされる。
操作除外集合セクション102bは、操作除外集合212bの名前又は簡単な説明を表すユーザー206からの入力を受信するためのテキスト入力フィールドなどの操作除外集合の記述入力部106bを含む。図1の例では、ユーザー206が、テキスト「生存しているCHF患者」を操作除外集合212bの記述として入力することを示す。
操作除外集合セクション102bは、ユーザー206が選択するボタン105b又は他の入力部も含み、それに応答して、検索エンジン208が、操作除外集合基準210bの入力によって表される操作除外集合基準を使用してデータセット202に問い合わせて操作除外集合212bを生成し、次いで、結果として生じる操作除外集合212bをユーザー206に表示する。
操作対象集合基準210aの入力及び操作除外集合基準210bの入力は、任意の形式を取り、図1に示す例は、例示目的のみで提供しており、本発明を限定するものではない。例えば、操作対象集合基準210aの入力及び/又は操作除外集合基準210bの入力は、任意の照会言語を使用して入力される。他の例として、システム200は、操作対象集合基準210aの入力及び/又は操作除外集合基準210bの入力を、ユーザー206から受信した後、検索に使用する前に修正する。例えば、GUI100は、ユーザー206が、グラフィカルユーザーインタフェースの入力部を使用して、操作対象集合基準210aの入力及び/又は操作除外集合基準210bの入力を提供することを可能にし、その後、システム200は、ユーザー206によって提供された入力を使用して操作対象集合基準及び/又は操作除外集合基準を表すテキストクエリーを任意のテキスト照会言語で生成する。より一般的に、本実施形態は、操作対象集合基準210aの入力及び操作除外集合基準210bの入力をユーザー206から受信するためのいかなる特定の技術にも限定されない。
更に、操作対象集合基準210aの入力及び操作除外集合基準210bの入力を、図2では、ユーザー206によってのみシステム200に提供されると示しているが、これは1つの例にすぎず、本発明を限定するものではない。例えば、操作対象集合基準210aの入力及び/又は操作除外集合基準210bの入力は、複数のユーザーによって提供される。他の例として、操作対象集合基準210aの入力及び/又は操作除外集合基準210bの入力は、全部又は一部において、コンピュータによって自動的に提供される。例えば、操作対象集合基準210aの入力は、ユーザー206により一部手動で、且つコンピュータにより一部自動的に生成され、操作除外集合基準210bの入力も同様である。
以上の説明では、結果集合測定基準モジュール218が、結果集合212に基づき様々な結果集合測定基準220を生成することを述べた。この測定基準の具体例を以下で説明する。測定基準の例は、1つの例を示すものであって、本発明を限定するものではない。
図4は、本発明の一実施形態による予測モデルを生成するためのシステムのデータフロー図であり、様々な機能を実行するために、図2のシステム200と連携して機能するシステム400のデータフロー図を示す。図5は、図4のシステム400で実行される方法500のフローチャートである。
システム400は、一意の内容要素抽出手段230を含み、一意の内容要素抽出手段230は、結果集合212内の一意の内容要素(unique content elements)の一部又は全部を識別する(図5、段階502)。本明細書で使用する用語として「内容要素」の例は、自由形式テキスト内容(結果集合212内の個々の語又は連続する句など)の個々のユニット及び個々の概念内容(結果集合212内のコード化された概念のインスタンスなど)を含む。従って、一意の内容要素抽出手段230は、結果集合212内の自由形式テキストの全ての一意のユニット及び概念内容の全ての一意のユニットを識別し、所定の基準に基づき特定の内容要素(ストップワードなど)を除外する。結果として、一意の内容要素リスト232は、自由形式テキスト要素のみ、概念内容要素のみ、又は自由形式テキスト要素及び概念内容要素の両方を含む。一意の内容要素抽出手段によって識別される一意の内容要素の集合は、操作対象集合基準及び/又は操作除外集合基準に含まれない内容要素を含む。
図1に示すGUI100は、結果集合測定基準領域110を含み、結果集合測定基準領域110は、結果集合測定基準220に関する様々な情報を表示する。従って、図1の結果集合測定基準領域110は、図2の結果集合出力216の一例に対応する。システム200は、例えば、結果集合測定基準領域110を、ユーザー206からの指示に応答して(ボタン122の押下など)、生成する。他の例として、システム200は、ユーザー206がGUI100のどこかに提供された入力を変更すると、いつでも結果集合測定基準領域110を自動的に生成及び/又は更新する。
図1の結果集合測定基準領域110は、例示目的のためにテーブル形式で示す。テーブルは、行(114a〜114d)を含み、その各々が一意の内容要素リスト232内の特定の一意の内容要素に関連する情報を含む。図1の例では、行114aは、「死亡」のコード化された概念に関連する情報を含み、行114bは、「アスピリン」のコード化された概念に関連する情報を含み、行114cは、「低ナトリウム血症」のコード化された概念に関連する情報を含み、行114dは、「膿瘍」のコード化された概念に関連する情報を含む。説明を簡単にするため、結果集合測定基準領域110内にはテーブルの4行だけが見えているが、スクロールバー116を示しており、テーブルは、スクロールバー116を使用してスクロールすることにより見えるようになる追加の行を含むことを示す。上述の説明から明らかなように、一意の内容要素リスト232は、4つよりも少ないか又は多い内容要素を含む。一意の内容要素リスト232が5つ以上の内容要素を含む場合、結果集合測定基準領域110は、それらの内容要素の4つだけを一度に表示するが、ユーザー206は、スクロールバー116を使用して一意の内容要素リスト232全体をスクロールし得る。
また、テーブルは、列(112a〜112i)を含み、その各々が、一意の内容要素リスト232内の対応する一意の内容要素の特定の特性に関連する情報を含む。より詳細には、
・列112aは、対応する行によって表される内容要素(例えば、テキスト又は概念)を表示し、
・列112bは、その行が用語T(即ち、テキスト)又は概念Cを表すかの指標を表示し、
・列112cは、本明細書で「包含頻度」と呼ぶ操作対象集合212a内の対応する内容要素の出現頻度(例えば、操作対象集合212a内の対応する内容要素の出現総数)を表示し、
・列112dは、本明細書で「除外頻度」と呼ぶ操作除外集合212b内の対応する内容要素の出現頻度(例えば、操作除外集合212b内の対応する内容要素の出現総数)を表示し、
・列112eは、対応する内容要素を含む操作対象集合212a内のレコードのパーセンテージ、例えば包含頻度を操作対象集合212a内のレコード総数で割ったもの(本明細書では「包含パーセンテージ」又は「IP」と呼ぶ)を表示し、
・列112fは、対応する内容要素を含む操作除外集合212b内のレコードのパーセンテージ(小数で表される)、例えば除外頻度を操作除外集合212b内のレコード総数で割ったもの(本明細書では「除外パーセンテージ」又は「EP」と呼ぶ)を表示し、
・列112gは、列112eの包含パーセンテージと列112fの除外パーセンテージとの間の差、即ちIP−EP(本明細書では「パーセンテージ差」又は「PD」と呼ぶ)を表示し、
・列112hは、列112gのパーセンテージ差の絶対値(小数で表される)、即ち|IP−EP|(本明細書で「絶対パーセンテージ差」又は「APD」と呼ぶ)を表示する。
結果集合測定基準モジュール218は、結果集合212及び/又は一意の内容要素リスト232に基づき、列(112c〜112h)内の値を計算する。例えば、
・結果集合測定基準モジュール218は、操作対象集合212a内の各一意の内容要素の出現数をカウントすることにより、列112c内の値を計算し、
・結果集合測定基準モジュール218は、操作除外集合212b内の各一意の内容要素の出現数をカウントすることにより、列112d内の値を計算し、
・結果集合測定基準モジュール218は、各行の列112c内のカウントを操作対象集合212a内のレコード数で割ることにより、列112e内の値を計算し、
・結果集合測定基準モジュール218は、各行の列112d内のカウントを操作除外集合212b内のレコード数で割ることにより、列112f内の値を計算し、
・結果集合測定基準モジュール218は、同じ行で列112fの値を列112eの値から引くことにより、列112g内の値を計算し、
・結果集合測定基準モジュール218は、各行で列112gの絶対値を計算することにより、列112h内の値を計算する。
以下で詳細に説明するように、上記に列挙した計算は、いずれも、例えば、患者、来診、及び文書によってグループ化されるため、計算されて表示される出現数は、必ずしも操作対象集合212a又は操作除外集合212b全体内の各一意の内容要素の出現総数ではなく、むしろ、操作対象集合212a又は操作除外集合212b内の患者、来診、又は文書ごとの各一意の内容要素の一意の出現数である。例えば、計算が文書によってグループ化されて、用語「死亡」が特定の文書内に15回出現する場合、複数の出現で、用語「死亡」のカウントは、15ではなく、1だけ増加される。
実際には、結果集合212内の一意の内容要素の数は、非常に多く、千単位以上である。結果として、システム200からの支援なしに、ユーザー206が、一意の内容項目のリストを手動で検討して予測モデルから除外するために個々の内容項目を選択することは不可能である。本実施形態は、このような支援を提供し、ユーザー206が純粋に手動により検討するよりもはるかに効率的に内容要素を検討して予測モデルから除外されるようする。
例えば、システム400は、一意の内容要素ソーター234を含み、一意の内容要素ソーター234は、一意の内容要素リスト232を絶対パーセンテージ差(即ち、列112h内の値)の降順にソートし、それにより、ソートされた一意の内容要素リスト236を生成する(図5、段階504)。GUI100は、ソートされた一意の内容要素リスト(以下、ソート済みリストと略記)236を、結果として生じたソート順に、GUI100内でユーザー206に表示する。図1は、ソート済みリスト236が、ソート順に表示された例を示す。ソートは、自動的に、即ちユーザー206から受信した入力に応答せずに実行されるか、又は一意の内容要素ソーター234が、列112hの列見出し上におけるマウスクリックなどのユーザー206からの入力に応答してソートを実行する。
一意の内容要素のリストを列(112a〜112i)のいずれかに基づきソートして表示するために同じ技術が適用されるが、列112hの絶対パーセンテージ差に基づくソートは、ユーザーが予測モデルから除外するために内容要素を選択する目的において、ユーザー206にとって特に有用である。その理由は、絶対パーセンテージ差に基づき一意の内容要素リストをソートすると、操作対象集合212aを操作除外集合212bから最も強く区別する内容要素が、リストの筆頭に表示されるようにリストを順序付けるからである。列112hの絶対パーセンテージ差に基づくソートは、また、コンピュータが、計算上実行可能な期間内に予測モデル250を開発することを計算上実現可能にする。
システム400は、フィルタ処理モジュール238を含み、フィルタ処理モジュール238は、ソート済みリスト236からの内容要素をフィルタ処理して、フィルタ処理された一意の内容要素リスト240を生成する(図5、段階506)。例えば、フィルタ処理モジュール238は、ソート済みリスト236から最初のN個の内容要素を除く全てを除去して、フィルタ処理された一意の内容要素リスト(以下、フィルタ処理済みリストと略記)240を生成する。Nの値は、フィルタ処理モジュール238により任意の方法で取得される。例えば、GUI100は、ユーザー206がNの値を指定することを可能にする入力部120cを提供する。結果集合測定基準領域110のテーブル内に表示される内容要素が絶対パーセンテージ差(列112h)によって降順にソートされる場合、ユーザー206は、値Nを入力部120cに入力し、それにより、GUI100がN個の最も上位の絶対パーセンテージ差値を有する内容要素のみを結果集合212から表示されるようにする。即ち、値Nを入力部120cに入力すると、フィルタ処理モジュール238に、ソート済みリスト236から最も上位の絶対パーセンテージ差値を有するN個の内容要素を除く全てをフィルタ処理させ、次いで、GUI100に、結果として生じるフィルタ処理済みリスト240のみをユーザー206に表示させる。
図1の例で、ユーザー206は、N=100の値を入力する。これは1つの例にすぎず、本発明を限定するものではない。より一般的に、Nは任意の値を有する。しかし、フィルタ処理済みリスト240が人間であるユーザー206により妥当な時間で検討できる程度に十分に少なくなるように、10、20、50、又は100などの比較的低値のNを使用することが特に有用である。
他の例として、フィルタ処理モジュール238は、ソート済みリスト236から、|IP−EP|の値が或る所定の閾値を下回る全ての内容要素を除去する。
上述の例では、ソート済みリスト236がフィルタ処理モジュール238によってフィルタ処理される前に、ソート済みリスト236がユーザー206に表示される、これは例にすぎず、本発明を限定するものではない。代替として、例えば、一意の内容要素リスト232は、結果として生じたソートされてフィルタ処理されたフィルタ処理済みリスト240がユーザー206に表示される前に、一意の内容要素ソーター234によるソート及びフィルタ処理モジュール238によるフィルタ処理の両方が(いずれかの順序で)行われる。
個々の内容要素は、フィルタ処理モジュール238により自動的に除外された内容要素に加えて又はその代わりに、フィルタ処理済みリストから除外される。一般に、システム400は、内容要素除外手段242を含み、内容要素除外手段242は、1つ以上の内容要素をフィルタ処理済みリスト240から除外(除去)して、最終内容要素リスト246を生成する(図5、段階508)。内容要素除外手段242は、除外する内容要素を様々な方法のいずれかで選択する。例えば、内容要素除外手段242は、除外する内容要素を指定するユーザー206から受信した入力に基づき、除外する内容要素を選択する。具体例として、結果集合測定基準領域110のテーブルは、列112iを含み、ユーザー206は、列112iの中に内容要素リストから除外する0個以上の特定の内容要素を指定する入力を提供する。図1の例で、ユーザー206は、特定の内容要素を表す行の列112i内のボックスにチェックを入れることにより、その内容要素が内容要素リストから除外されることを指定する。例えば、図1は、ユーザー206が行114aの列112i内のボックスにチェックを入れることを示しており、その行は、「死亡」の概念を表す。ユーザー206がこの概念を内容要素リストから(即ち、生成される予測モデルから)除外することを選択するのは、死亡は、ユーザー206が予測モデルで予測したい概念だからである。従って、予測モデルは、明示的にコード化された死亡の概念が予測モデルから除外された場合、対応する患者が死亡したことを明示的に指定しない新しいレコードが操作対象集合に含まれるか否かを予測するのにより適する。
しかし、ユーザー206は、特定の内容要素を予測モデルから除外するか否かをユーザー206が望む任意の方法で選択し得る。ユーザー206は、例えば、いかなる内容要素も予測モデルから除外しないことを選択する。他の例として、ユーザー206は、複数の内容要素を予測モデルから除外することを選択する。
更に、図1の例で、GUI100はデフォルトによりどの内容要素も予測モデルから除外せず、内容要素を予測モデルから除外するにはユーザー206からの手動入力に頼るが、これは1つの例にすぎず、本発明を限定するものではない。例えば、システム200は、予測モデルから内容要素を除外するために1つ以上の内容要素を自動的に選択し、ユーザー206は、その後、内容要素の除外を手動で上書きする。例えば、システム200は、操作対象集合基準を操作除外集合基準と比較し、操作対象集合基準に含まれるが操作除外集合基準には含まれない内容要素、及び/又は操作除外集合基準に含まれるが操作対象集合基準には含まれない内容要素などの基準の2つの集合間の1つ以上の差を識別する。システム200は、次いで、内容要素リストから除外するための任意の用語を、内容要素除外手段242によって自動駅に選択する。例えば、図1に示す操作対象集合基準210aの入力(「CHF AND低駆出率AND死亡」)及び操作除外集合基準210bの入力(「CHF AND低駆出率AND生存」)を参照すると、システム200は、これら2つの基準(210a及び210b)の入力集合を互いに比較して、「死亡」という用語が操作対象集合基準210aの入力に含まれるが、操作除外集合基準210bの入力には含まれないことを判断する。それに応じて、システム200は、「死亡」及び「死亡」の同義語を内容要素リスト240から自動的に除外する。
GUI100は、結果集合測定基準領域110のテーブル内に表現されるレコードがユーザー206に表示されることを可能にして、ユーザー206がそれらのレコードに関する追加情報を取得できるようにする。例えば、結果集合測定基準領域110のテーブルは、列112jを含む。システム200に、特定の内容要素を含むレコードの一部又は全部を表示させるために、ユーザー206は、その特定の内容要素に対応する行内の列112j内のボックスにチェックを入れる。それに応答して、システム200は、対応する内容要素の一部又は全部を表示する。例えば、ユーザー206が、内容要素「膿瘍」に対応する行114dの列112j内のボックスを選択すると、システム200は、内容要素「膿瘍」に対応するレコードの一部又は全部を表示する。システム200は、このレコードの要約(例えば、関連する内容要素を含むレコードの一部)を表示すること、及び/又はユーザー206がこのレコード全体を検索可能にすることなどにより、このレコードを様々な方法のいずれかで表示する。
GUI100は、ユーザー206が、計算されて結果集合測定基準領域110内に表示される測定基準を選択することを可能にする機能を含む。例えば、GUI100は、ユーザー206が、操作対象集合212a内の文書のカウント(列112c内に表示される通り)及び操作除外集合212b内の文書のカウント(列112c内に表示される通り)を計算する方法を示すことを可能にする入力部を提供する。例えば、
・ユーザー206は、ラジオボタングループ120a内の「文書」ラジオボタンを選択して、結果集合測定基準モジュール218に、操作対象集合基準に一致するデータセット202内の一意の文書数を列112c内の操作対象集合カウント内にカウントさせ、操作除外集合基準に一致するデータセット202内の一意の文書数を列112d内の操作除外集合カウント内にカウントさせ、
・ユーザー206は、ラジオボタングループ120a内の「患者」ラジオボタンを選択して、結果集合測定基準モジュール218に、操作対象集合基準に一致するデータセット202内の一意の患者数を列112c内の操作対象集合カウント内にカウントさせ、操作除外集合基準に一致するデータセット202内の一意の患者数を列112d内の操作除外集合カウント内にカウントさせ、
・ユーザー206は、ラジオボタングループ120a内の「来診」ラジオボタンを選択して、結果集合測定基準モジュール218に、操作対象集合基準に一致するデータセット202内の一意の来診数を列112c内の操作対象集合カウント内にカウントさせ、操作除外集合基準に一致するデータセット202内の一意の来診数を列112d内の操作除外集合カウント内にカウントさせる。
図1におけるラジオボタングループ120aによって有効になる特定のグループ化(即ち、文書、患者、来診)は、一例にすぎず、本発明を限定するものではない。本実施形態は、図1に示さないグループ化を使用することができ、図1に示す全てのグループ化を使用する必要はない。
他の例として、GUI100は入力部120bを提供し、入力部120bは、ユーザー206が、内容要素のリスト(232、236、240、及び246)が、概念のみ、自由形式テキスト(用語)のみ、又は概念と自由形式テキストの両方を含むか否かを示すことを可能にする。ユーザー206は、例えば、明示的にコード化された概念は自由形式テキストよりも正確に事実を反映する可能性があるという仮定に基づき、概念のみを表示することが有用であることが分かる。
(図1には示していないが)他の例として、GUIは、概念又は用語に関連するメタデータを使用して、概念又は用語に関する変形を別個に表示し得る。例えば、「胸痛」という用語について考える。GUI100は、このような用語を識別して、「患者において積極的に主張された胸痛」、「患者において消極的に主張された胸痛」、「患者において胸痛の不明確な主張」、「患者の家族病歴において積極的に主張された胸痛」、及び「患者の家族病歴において消極的に主張された胸痛」などの変形を表示する。他の例として、ナトリウム濃度の概念を考える。GUI100は、「ナトリウム濃度>150」及び「ナトリウム濃度<150」などの概念に関連するパラメータ値の範囲を識別して表示する。この事例で、GUI100は、ユーザー206が、予測モデル250への包含又は予測モデル250からの除外のために、1つ以上の変形を選択することを可能にする。
一旦、システム200が、最終内容要素リスト246を生成して表示すると、最終内容要素リスト246は、予測モデル250を生成するために使用される。具体的に、図4のシステム400は、予測モデル生成手段248を含み、予測モデル生成手段248は、最終内容要素リスト246及び元のデータセット202に基づき、予測モデル250を生成する(図5、段階510)。予測モデル生成手段248は、回帰、ナイーブベイズネットワーク(naive Bayes networks)、人工ニューラルネットワークなどの予測モデル250を生成するための様々な既知の技術のいずれかを、個別に又は任意の組合せのいずれかで使用する。予測モデル生成手段248は、また、ブートストラッピング、ジャックナイフ、及びモンテカルロ法などの様々な技術のいずれかを、個別に又は任意の組合せのいずれかで使用して予測モデル250を検証する。
予測モデル生成手段248は、例えば、ボタン130の押下などにより、ユーザー206がシステム400に入力を提供することに応答して予測モデル250を生成する。一旦、予測モデル250が生成されると、GUI100は、回帰式、導出感度(derivation sensitivity)、導出特異性(derivation specificity)、検証感度(validation sensitivity)、及び検証特異性(validation specificity)などの予測モデル250に関する情報を出力領域132内に表示する。システム200は、例えば、データセット202を、導出集合及び検証集合の2つのサブセットに分割することにより、出力領域132の内容を生成する。予測モデル250は、データセット202全体に基づくのではなく、導出集合に基づき生成される。予測モデル250は、次いで、検証集合に適用され、予測モデル250の検証集合に関する性能が測定される。結果として生じた測定値が出力領域132内に表示される。以上で説明したプロセスは、複数回、実行され、毎回、モンテカルロシミュレーションなどを使用して、データセット202を異なる導出集合及び検証集合に分割する。
ユーザー206が予測モデル250に満足しない場合、ユーザー206は、上述の動作(操作対象集合基準及び/又は操作除外集合基準の修正など)のいずれかを実行し、次いで、ボタン130を再度押すことにより、新しい予測モデルを生成する。一旦、ユーザー206が予測モデル250に満足すると、ユーザー206は、ボタン134を押すことにより、システム400に予測モデル250を将来の使用のために保存させる。このようにして、本実施形態は、予測モデル250が繰り返し評価されて改善されることを可能にする。
予測モデル250は、次いで、新しいレコード(例えば、予測モデル250を生成するために使用されたデータセット202内に無かったレコード)に適用されて、各レコードのそれぞれがユーザー206にとって興味のある特性を有するか否かを予測する。
上述の特徴は、以下のような様々な利点を提供する。
・結果集合測定基準領域110のテーブル内のリストの先頭に表示される内容要素は、操作対象集合212aと操作除外集合212bとの間で著しい区別があり、従って、予測モデルにとって役立つ特徴である可能性が非常に高い。
・ユーザー206が検討する必要のある内容要素の数が著しく制限されて、この検討を実行可能にする。
・予測モデル250を生成するためにコンピュータが処理する必要のある入力変数の数が十分に制限されて、計算的に高速且つ効率的になる。
更に、本明細書で開示する技術は、ユーザーに、システムが予測のために使用する用語の識別力に対する可視性を提供する。この可視性は、ユーザーに対して、結果として生じた予測モデル250に対する信頼性を高め、他の方法では利用できないか又は見ることができない洞察力及び価値を提供することができる。
更に、本明細書で開示する技術は、技術者でも統計学者でもない人が、操作対象集合と操作除外集合との間でメンバーシップを最も強力に区別する内容要素を迅速且つ容易に識別し、そして、それらのデータ要素に基づき予測モデルを迅速且つ容易に作成できるようにする。
更に、本明細書で開示する技術は、予測モデルが、非構造化データ(例えば、自由形式テキストに含まれるデータ)を含むデータセットに基づき、且つ非構造化データ及び構造化データの組合せを含むデータセットに基づき、容易に作成されることを可能にする。本明細書で開示する技術は、データが構造化形式で格納されることを必要としないが、本明細書で開示する技術は、構造化データに基づき予測モデルを生成することが可能である。結果として、本明細書で開示する技術は、構造化データに基づき予測モデルを生成するためにのみ使用されるシステムに優る利点を提供する。
データセット202が小規模である場合、本発明の実施形態をこのデータセット202に適用すると、データセットに過度に適合する予測モデル250を生成するという結果になる。本発明の実施形態は、予測モデル250のデータセット202への過度の適合を補正するか又は防ぐために、様々な技術のいずれかを使用する。例えば、本発明の実施形態は、(ユーザー構成可能な)入力あたりの最小限数のレコードを要求する。例えば、入力あたりの最小限の必要なレコード数が500であり、操作対象集合基準を使用してデータセット202に問い合わせると50,000レコードを含む操作対象集合212aが生成される場合、本発明の実施形態は、最大で500の入力(50,000/100)を許可する。本発明の一実施形態で、許可される入力の最大数は、次の3つの値の最小値として選択される。(1)ユーザー構成可能な入力の最大数、(2)上述の計算結果(ユーザー構成可能な入力あたりのレコードの最大数で割った結果数)、及び(3)ユーザーによって選択された入力数(例えば、ユーザーに上述の計算結果に基づき最大で100の入力が提供され、ユーザーが75の入力を選択する場合、許可された入力の最大数として75が選択される)。
「予測モデル」という用語は、本明細書では、将来の事実に関して予測を行うために使用されるモデルに制限されない。むしろ、「予測モデル」という用語は、本明細書では、過去の(現実の、又は起こった可能性の高い)事実を推論するために使用されるモデルを含む。より一般的に、「予測モデル」という用語は、本明細書では、不完全なデータセットから(現実の、又は起こった可能性の高い)事実を、それらの事実が過去における事象及び/又は将来における事象に関連しているか否かに拘らず、推論するために使用されるモデルを含む。従って、「予測する」などの用語は、本明細書では、結果として生じる予測/推論が、過去、現在、又は将来に関連する事実となるか否かに拘らず、推論することを指すことが理解される。例えば、本明細書で開示する種類の予測モデルは、特定の患者が特定の結果に関連する可能性が高いことを推論するために使用される。たとえ患者がその結果を過去に経験したとしても、このような推論は、本明細書で使用される「予測」という用語の一例である。具体例として、本発明の実施形態は、特定の患者が過去に集中治療室(ICU)に入った可能性が高いことを推論するために、その患者のEHRレコード内のデータに基づき、たとえ患者がICUに入ったことをそのレコードが明示的に示さなくても、使用される。
これは、本発明の実施形態が「ビッグデータ」のデータセットに基づき予測モデルを迅速且つ容易に作成できるようにする方法の一例にすぎず、「ビッグデータ」のデータセット内では、考えられる入力数が膨大であり、他の方法では意味があるように分析することが困難である。この点に関して、本発明の実施形態の1つの特定の恩恵は、それらが予測的であることをユーザーが既に知っている変数に基づき、予測変数を選択する必要性を低減することである。既存のシステムは、通常、ユーザーの既存の領域の知識をコード化する予測モデルを作成することに制限される。即ち、このようなシステムは、どの変数が予測的であるかを知っているユーザーに依存し、そして、ユーザーによって予測的であることが分かっている変数に基づき予測モデルを生成する。
一方、本発明の実施形態は、たとえユーザーが予測的である変数の全部又はいずれかを知らなくても、予測モデルを作成するために使用される。上述のように、本発明の実施形態は、たとえユーザーがこのような変数の予備知識を有さなくても、予測変数をユーザーに対して提案するために使用される。更に、たとえユーザーが、予測変数のいくらかの知識を有し、このような変数を予測モデルへの包含のためにシステム200に対する入力として提供しても、システム200は、それにも拘わらず、追加の予測変数をユーザーに提案し、それにより、ユーザーの既存の知識を補完する。このようにして、本発明の実施形態は、ユーザー提供の予測変数、及びシステムによって自動的に提案されてユーザーによって承認された予測変数の両方を含む予測モデルを作成するために使用される。
本発明の実施形態は、大規模で複雑なデータセットに関して特に有用である。たとえ専門領域の知識を有する人間であるユーザーであっても、人間であるユーザーが、このようなデータセット(何千もの一意の用語及び概念を含むデータセットなど)に基づき予測変数を識別することは困難又は不可能である。例えば、パーセンテージ差の絶対値(APD)を用いて入力(特徴)の初期フィルタ処理を実行するためにコンピュータを使用し、それにより人間が検討するための可能性のある予測変数がソートされてフィルタ処理されたリストを生成するために、本発明の実施形態は、たとえデータセットが大規模で複雑な場合であっても、人間であるユーザーがコンピュータ生成リストをフィルタ処理し、それにより予測変数の最終リストを生成することを実行可能にする。
予測モデルを完全に自動的に生成しようとする既存のシステムは、大規模で複雑なデータセットに適用した場合、莫大な量のコンピュータ処理資源を必要とする傾向がある。一方、本発明の実施形態は、コンピュータを使用して人間であるユーザーによる検討のために変数の初期集合を生成し、次いでそのユーザーが変数の初期集合をフィルタ処理して予測モデルに含めるための変数の最終集合を生成することから、本発明の実施形態は、はるかに効率的に、即ち既存のシステムよりもはるかに少ない量のコンピュータ処理資源を使用して予測モデルを生成するために使用される。本発明の実施形態は、たとえ大規模で複雑なデータセットに適用された場合でさえも変数の初期集合を非常に効率的に生成できる。結果として、本発明の実施形態は、既存のシステムよりも性能の劣るコンピュータを使用して、又は同じコンピュータを使用する既存のシステムよりも少ない時間で、予測モデルを生成するために使用される。従って、本発明の実施形態は、既存のシステムよりも効率的に予測モデルを生成するための改善されたコンピュータシステムを表す。
本発明は、特定の実施形態に関して説明したが、上述の実施形態は例示目的のみで提供しており、本発明の技術範囲を限定又は規定しない。以下を含むがそれに限定されない様々な他の実施形態も、本発明の範囲内である。例えば、本明細書で説明する要素及び構成要素は、同じ機能を実行するために、更に追加の構成要素に分割されるか又はより少ない構成要素に結合される。
本明細書で開示する機能のいずれも、それらの機能を実行するための手段を使用して実現される。このような手段は、以下で説明するコンピュータ関連構成要素などの本明細書で開示する任意の構成要素を含むが、それらに限定されない。
本明細書で説明する機能は、本明細書で説明する以外の順序で実行され得る。例えば、図4及び図5に示す特定の順序の動作は、一例にすぎず、本発明を限定するものではない。同じ機能が他の順序で実行され得る。例えば、一意の内容要素ソーター234によって実行されるソート機能は、フィルタ処理モジュール238がフィルタ済みリストを生成した後に実行され、その場合、フィルタ処理モジュール238は、一意の内容要素リスト232について動作して出力を生成し、次いで、一意の内容要素ソーター234によってソートされて出力を生成して個々の内容要素除外手段242によって作用される。
本明細書で説明する全ての機能が本発明の全ての実施形態によって実行される必要はない。例えば、本発明の或る実施形態は、一意の内容要素ソーター234、フィルタ処理モジュール238、及び内容要素除外手段242(図4参照)のうちの1つ以上を除外し得る。結果的に、最終内容要素リスト246は、一意の内容要素ソーター234、フィルタ処理モジュール238、及び内容要素除外手段242の全てによって実行された機能の結果として生成される必要はなく、代わりに、一意の内容要素ソーター234、フィルタ処理モジュール238、及び内容要素除外手段242のうちのいずれか1つ以上によって実行された機能の結果として生成されることが理解される。
図1に示すGUI100は、例にすぎず、本発明を限定するものではない。本発明の実施形態と一致する他のGUIは、例えば図1のGUIに示す情報を省略したり、図1のGUIに示す情報に追加して情報を表示したり、図1のGUIに示す情報と同じ情報を異なる形式又はそれらの任意の組合せで表示したりする。例えば、GUIは、ワードクラウドを含み、ワードクラウドは、操作対象集合212a及び/又は操作除外集合212b内における用語の頻度を、操作対象集合212a又は操作除外集合212b内におけるそれらの出現数の関数としてその用語のフォントサイズを変化させることにより示す。
本明細書の説明は、予測モデル250を生成するために使用される最終内容要素リスト246内に包含するための内容要素をユーザー206が手動で選択することを可能にするための技術に焦点を合わせているが、これは、例にすぎず、本発明を限定するものではない。追加又は代替として、例えば、特徴選択などの機械学習アルゴリズムが、内容要素を最高度の判別力で自動的に選択するために使用される。このような機械学習アルゴリズムによって生成された内容要素は、本明細書で開示する技術によって生成された内容要素と組み合わされて最終内容要素リスト246を生成する。
例えば、ユーザー206は、上述の方法で予測モデル250を生成するために、内容要素の初期集合を選択する。結果として生じた予測モデル250は、次いで(予測モデル250を生成するために使用されたデータセット内に含まれなかった1つ以上のデータ要素を含めることなどにより、予測モデル250を生成するために使用されたデータセットと異なる)検証データセットに適用されて、検証データセットのサブセットの形式で結果を生成する。このような結果は、予測モデルが操作対象集合基準を満たすと予測する検証データセットのサブセットである。このような結果は、測定されてその結果を出力領域132に表示することなどによりユーザー206に提供される。ユーザー206は、次いで予測の正確さに関するフィードバックを提供し、システム400は、そのフィードバックを使用して内容要素リストに含めるべき追加の内容要素を識別し、次いで修正された内容要素リストに基づき新しい予測モデル250を生成する。このプロセスは、予測モデル250を繰り返し改善するために、任意の回数、繰り返される。
上述の技術は、例えば、ハードウェア、1つ以上のコンピュータ読み取り可能な記録媒体上に有形的に格納された1つ以上のコンピュータプログラム、ファームウェア、又はそれらの任意の組合せで具現される。上述の技術は、プロセッサ、そのプロセッサによって読み取り可能及び/又は書込み可能な記録媒体(例えば、揮発性及び不揮発性メモリ並びに/又は記憶要素を含む)、入力装置、並びに出力装置の任意の数の任意の組合せを含むプログラム可能なコンピュータ上で実行される(又はそれによって実行可能な)1つ以上のコンピュータプログラムで具現される。プログラムコードが、説明した機能を実行するために入力装置を使用して入力された入力に適用されて、出力装置を使用して出力を生成する。
本発明の各コンピュータプログラムは、アセンブリ言語、機械語、高水準手続き型プログラミング言語、又はオブジェクト指向プログラミング言語などの、任意のプログラミング言語で具現される。プログラミング言語は、例えば、コンパイラ型又はインタープリタ型プログラミング言語である。
コンピュータプログラムのそれぞれは、コンピュータプロセッサによる実行のために、機械的な可読記憶装置内に有形的に具現化されたコンピュータプログラム製品で具現される。本発明の方法は、コンピュータ読み取り可能な記録媒体上に有形的に具現化されたプログラムを実行する1つ以上のコンピュータプロセッサによって実行され、入力に関連して動作して出力を生成することにより本発明の機能を実行する。適切なプロセッサは、例として、汎用及び専用マイクロプロセッサの両方を含む。一般に、プロセッサは、命令及びデータをメモリ(読取り専用メモリ及び/又はランダムアクセスメモリなど)から受信し(読み取り)、命令及びデータをメモリに書き込む(格納する)。コンピュータプログラム命令及びデータを有形的に具現化するのに適した記憶装置は、例えば、EPROM、EEPROM、及びフラッシュメモリ装置を含む半導体メモリ装置などの不揮発性メモリ、内蔵ハードディスク及び取り外し可能ディスクなどの磁気ディスク、光磁気ディスク、及びCD−ROMの全ての形態を含む。上述のいずれも、特別に設計されたASIC(特定用途向け集積回路)又はFPGA(フィールドプログラマブルゲートアレイ)によって補足されるか、又はそれらに組み込まれる。コンピュータは、一般的に、プログラム及びデータを内蔵ディスク(図示せず)又は取り外し可能ディスクなどの非一時的コンピュータ読み取り可能な記録媒体から受信し(読み取り)、プログラム及びデータをそれに書き込む(保存する)。これらの要素は、従来型のデスクトップ又はワークステーションコンピュータ並びに本明細書で説明する方法を具現するコンピュータプログラムの実行に適した他のコンピュータにも見られ、それらは、任意のデジタル印刷エンジンもしくはマーキングエンジン、ディスプレイモニター、又はカラーもしくはグレイスケールの画素を、紙、フィルム、ディスプレイ画面、もしくは他の出力媒体上に生成可能な他のラスター出力装置とともに使用される。
本明細書で開示する任意のデータは、例えば非一時的コンピュータ読み取り可能な記録媒体上に有形的に格納された1つ以上のデータ構造で具現される。本発明の実施形態は、データをこのようなデータ構造(複数可)に格納し、データをこのようなデータ構造(複数可)から読み取る。
100 グラフィカルユーザーインタフェース(GUI)
102a 操作対象集合セクション
102b 操作除外集合セクション
104a 操作対象集合基準の入力部
104b 操作除外集合基準の入力部
105a、105b、122、130、134、146 ボタン
106a 操作対象集合の記述入力部
106b 操作除外集合の記述入力部
110 結果集合測定基準領域
112a〜112i 列
114a〜114d 行
116 スクロールバー
120a ラジオボタングループ
120b、120c 入力部
132 出力領域
140 適用母集団定義セクション
142 適用母集団基準の入力部
144 適用母集団の記述入力部
200、400 システム
202 データセット
204a、204b、204c レコード
206 ユーザー
208 検索エンジン
210a 操作対象集合基準
210b 操作除外集合基準
212 結果集合(包括セット)
212a 操作対象集合
212b 操作除外集合
214 結果集合出力モジュール
216 結果集合出力
216a 操作対象集合出力
216b 操作除外集合出力
216c 結果集合測定基準出力
218 結果集合測定基準モジュール
220 結果集合測定基準
220a 操作対象集合測定基準
220b 操作除外集合測定基準
230 一意の内容要素抽出手段
232 一意の内容要素リスト
234 一意の内容要素ソーター
236 ソートされた一意の内容要素リスト(ソート済みリスト)
238 フィルタ処理モジュール
240 フィルタ処理された一意の内容要素リスト(フィルタ処理済みリスト)
242 内容要素除外手段
246 最終内容要素リスト
248 予測モデル生成手段
250 予測モデル
300 方法

Claims (30)

  1. 少なくとも1つのコンピュータプロセッサによって実行される方法であって、
    (A)操作対象集合基準に一致する要素について第1のデータセットを検索して前記第1のデータセットの第1のサブセットを含む操作対象集合を識別する段階と、
    (B)操作除外集合基準に一致する要素について前記第1のデータセットを検索して前記第1のデータセットの第2のサブセットを含む操作除外集合を識別する段階と、
    (C)前記操作対象集合及び前記操作除外集合から選択された一意の内容要素の集合を識別する段階と、
    (D)前記一意の内容要素の集合をソートしてソートされた一意の内容要素の集合を生成する段階と、
    (E)前記ソートされた一意の内容要素の集合から前記ソートされた一意の内容要素の集合内の最初のN個の要素を除く全てをフィルタ処理してフィルタ処理された一意の内容要素の集合を生成する段階と、
    (F)前記フィルタ処理された一意の内容要素の集合から少なくとも1つの内容要素を除外して一意の内容要素の最終集合を生成する段階と、
    (G)前記一意の内容要素の最終集合に基づき予測モデルを生成する段階と、
    を有することを特徴とする予測モデル生成方法。
  2. (H)(E)の前に、値Nを表す入力をユーザーから受信する段階を更に含むことを特徴とする請求項1に記載の予測モデル生成方法。
  3. (F)は、
    (F−1)前記フィルタ処理された一意の内容要素の集合の少なくとも一部を表す出力をユーザーに提供する段階を含むことを特徴とする請求項1に記載の予測モデル生成方法。
  4. (F)は、
    (F−2)前記少なくとも1つの内容要素を指定する入力をユーザーから受信して前記フィルタ処理された一意の内容要素の集合から前記少なくとも1つの内容要素を除外する段階を更に含むことを特徴とする請求項3に記載の予測モデル生成方法。
  5. (D)は、一意の内容要素Eの各々に対して、
    (D−1)前記要素Eを含む前記操作対象集合内のレコードのパーセンテージ(IP)を識別する段階と、
    (D−2)前記要素Eを含む前記操作除外集合内のレコードのパーセンテージ(EP)を識別する段階と、
    (D−3)前記IPと前記EPとの間の差の絶対値|IP−EP|を識別する段階と、
    (D−4)前記一意の内容要素の集合内の前記一意の内容要素の前記絶対値|IP−EP|により前記一意の内容要素の集合を降順にソートして前記ソートされた一意の内容要素の集合を生成する段階と、を含むことを特徴とする請求項1に記載の予測モデル生成方法。
  6. 前記一意の内容要素の集合は、少なくとも1つの離散的内容要素を含むことを特徴とする請求項1に記載の予測モデル生成方法。
  7. 前記一意の内容要素の集合は、少なくとも1つの自由形式テキストの内容要素を含むことを特徴とする請求項1に記載の予測モデル生成方法。
  8. 前記一意の内容要素の集合は、少なくとも1つの概念内容要素を含むことを特徴とする請求項1に記載の予測モデル生成方法。
  9. 前記一意の内容要素の集合は、少なくとも1つの離散的内容要素を更に含むことを特徴とする請求項8に記載の予測モデル生成方法。
  10. 前記一意の内容要素の集合は、少なくとも1つの自由形式テキストの内容要素を更に含むことを特徴とする請求項8に記載の予測モデル生成方法。
  11. 前記一意の内容要素の少なくとも1つは、前記操作対象集合内に無いことを特徴とする請求項1に記載の予測モデル生成方法。
  12. 前記一意の内容要素の少なくとも1つは、前記操作除外集合内に無いことを特徴とする請求項1に記載の予測モデル生成方法。
  13. 前記一意の内容要素の少なくとも1つは、前記操作対象集合内に無いことを特徴とする請求項12に記載の予測モデル生成方法。
  14. (H)前記予測モデルを第2のデータセットに適用して前記操作対象集合基準を満たすように前記予測モデルによって予測される前記第2のデータセットのサブセットを生成する段階を更に含むことを特徴とする請求項1に記載の予測モデル生成方法。
  15. 前記操作除外集合基準は、前記操作対象集合基準の論理補集合を表すことを特徴とする請求項1に記載の予測モデル生成方法。
  16. 少なくとも1つのコンピュータプロセッサに予測モデル生成方法を実行させるためのコンピュータプログラム命令を記録したコンピュータ読み取り可能な記録媒体であって、
    前記予測モデル生成方法は、
    (A)操作対象集合基準に一致する要素について第1のデータセットを検索して前記第1のデータセットの第1のサブセットを含む操作対象集合を識別する段階と、
    (B)操作除外集合基準に一致する要素について前記第1のデータセットを検索して前記第1のデータセットの第2のサブセットを含む操作除外集合を識別する段階と、
    (C)前記操作対象集合及び前記操作除外集合から選択された一意の内容要素の集合を識別する段階と、
    (D)前記一意の内容要素の集合をソートしてソートされた一意の内容要素の集合を生成する段階と、
    (E)前記ソートされた一意の内容要素の集合から前記ソートされた一意の内容要素の集合内の最初のN個の要素を除く全てをフィルタ処理してフィルタ処理された一意の内容要素の集合を生成する段階と、
    (F)前記フィルタ処理された一意の内容要素の集合から少なくとも1つの内容要素を除外して一意の内容要素の最終集合を生成する段階と、
    (G)前記一意の内容要素の最終集合に基づき予測モデルを生成する段階と、を有することを特徴とするコンピュータ読み取り可能な記録媒体。
  17. (H)(E)の前に、値Nを表す入力をユーザーから受信する段階を更に含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  18. (F)は、
    (F−1)前記フィルタ処理された一意の内容要素の集合の少なくとも一部を表す出力をユーザーに提供する段階を含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  19. (F)は、
    (F−2)前記少なくとも1つの内容要素を指定する入力をユーザーから受信して前記フィルタ処理された一意の内容要素の集合から前記少なくとも1つの内容要素を除外する段階を更に含むことを特徴とする請求項18に記載のコンピュータ読み取り可能な記録媒体。
  20. (D)は、一意の内容要素Eの各々に対して、
    (D−1)前記要素Eを含む前記操作対象集合内のレコードのパーセンテージ(IP)を識別する段階と、
    (D−2)前記要素Eを含む前記操作除外集合内のレコードのパーセンテージ(EP)を識別する段階と、
    (D−3)前記IPと前記EPとの間の差の絶対値|IP−EP|を識別する段階と、
    (D−4)前記一意の内容要素の集合内の前記一意の内容要素の前記絶対値|IP−EP|により前記一意の内容要素の集合を降順にソートして前記ソートされた一意の内容要素の集合を生成する段階とを含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  21. 前記一意の内容要素の集合は、少なくとも1つの離散的内容要素を含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  22. 前記一意の内容要素の集合は、少なくとも1つの自由形式テキストの内容要素を含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  23. 前記一意の内容要素の集合は、少なくとも1つの概念内容要素を含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  24. 前記一意の内容要素の集合は、少なくとも1つの離散的内容要素を更に含むことを特徴とする請求項23に記載のコンピュータ読み取り可能な記録媒体。
  25. 前記一意の内容要素の集合は、少なくとも1つの自由形式テキストの内容要素を更に含むことを特徴とする請求項23に記載のコンピュータ読み取り可能な記録媒体。
  26. 前記一意の内容要素の少なくとも1つは、前記操作対象集合内に無いことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  27. 前記一意の内容要素の少なくとも1つは、前記操作除外集合内に無いことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  28. 前記一意の内容要素の少なくとも1つは、前記操作対象集合内に無いことを特徴とする請求項27に記載のコンピュータ読み取り可能な記録媒体。
  29. (H)前記予測モデルを第2のデータセットに適用して前記操作対象集合基準を満たすように前記予測モデルによって予測される前記第2のデータセットのサブセットを生成する段階を更に含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  30. 前記操作除外集合基準は、前記操作対象集合基準の論理補集合を表すことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
JP2015549805A 2012-12-22 2013-12-20 予測モデル生成のためのユーザーインタフェース Active JP6316844B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261745577P 2012-12-22 2012-12-22
US61/745,577 2012-12-22
PCT/US2013/077103 WO2014100672A1 (en) 2012-12-22 2013-12-20 User interface for predictive model generation
US14/136,386 2013-12-20
US14/136,386 US9251203B2 (en) 2012-12-22 2013-12-20 User interface for predictive model generation

Publications (2)

Publication Number Publication Date
JP2016505973A true JP2016505973A (ja) 2016-02-25
JP6316844B2 JP6316844B2 (ja) 2018-04-25

Family

ID=50979267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015549805A Active JP6316844B2 (ja) 2012-12-22 2013-12-20 予測モデル生成のためのユーザーインタフェース

Country Status (4)

Country Link
US (2) US9251203B2 (ja)
JP (1) JP6316844B2 (ja)
CA (1) CA2895773A1 (ja)
WO (1) WO2014100672A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11056241B2 (en) 2016-12-28 2021-07-06 Canon Medical Systems Corporation Radiotherapy planning apparatus and clinical model comparison method

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346372B (zh) * 2013-07-31 2018-03-27 国际商业机器公司 用于评估预测模型的方法和装置
US10324961B2 (en) 2017-01-17 2019-06-18 International Business Machines Corporation Automatic feature extraction from a relational database
US10515109B2 (en) * 2017-02-15 2019-12-24 Palantir Technologies Inc. Real-time auditing of industrial equipment condition
US10592554B1 (en) * 2017-04-03 2020-03-17 Massachusetts Mutual Life Insurance Company Systems, devices, and methods for parallelized data structure processing
US10467343B2 (en) 2017-08-03 2019-11-05 International Business Machines Corporation Detecting problematic language in inclusion and exclusion criteria
US10901980B2 (en) 2018-10-30 2021-01-26 International Business Machines Corporation Health care clinical data controlled data set generator

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085634A (ja) * 2004-09-17 2006-03-30 Toshiba Corp テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
JP2006155229A (ja) * 2004-11-29 2006-06-15 Sony Corp データ検索システム,データ検索装置およびコンピュータプログラム
US20090024588A1 (en) * 2007-07-16 2009-01-22 Nanya Technology Corporation Methods and systems for searching for information
JP2012168949A (ja) * 2011-02-15 2012-09-06 General Electric Co <Ge> 混合モデルの構築方法
JP2012251954A (ja) * 2011-06-06 2012-12-20 Denso It Laboratory Inc 目的地推定装置及びそれを含むナビゲーションシステム、目的地推定方法、及び目的地推定プログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6981040B1 (en) * 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US20020198882A1 (en) * 2001-03-29 2002-12-26 Linden Gregory D. Content personalization based on actions performed during a current browsing session
US7680859B2 (en) * 2001-12-21 2010-03-16 Location Inc. Group Corporation a Massachusetts corporation Method for analyzing demographic data
US6830939B2 (en) 2002-08-28 2004-12-14 Verity Instruments, Inc. System and method for determining endpoint in etch processes using partial least squares discriminant analysis in the time domain of optical emission spectra
US20040049473A1 (en) 2002-09-05 2004-03-11 David John Gower Information analytics systems and methods
US20040083084A1 (en) 2002-10-24 2004-04-29 Mike West Binary prediction tree modeling with many predictors
US20050154713A1 (en) * 2004-01-14 2005-07-14 Nec Laboratories America, Inc. Systems and methods for determining document relationship and automatic query expansion
US7933762B2 (en) 2004-04-16 2011-04-26 Fortelligent, Inc. Predictive model generation
US7171340B2 (en) 2005-05-02 2007-01-30 Sas Institute Inc. Computer-implemented regression systems and methods for time series data analysis
US7668821B1 (en) * 2005-11-17 2010-02-23 Amazon Technologies, Inc. Recommendations based on item tagging activities of users
WO2007075488A2 (en) * 2005-12-16 2007-07-05 Nextbio System and method for scientific information knowledge management
US7912773B1 (en) 2006-03-24 2011-03-22 Sas Institute Inc. Computer-implemented data storage systems and methods for use with predictive model systems
WO2008039931A2 (en) 2006-09-28 2008-04-03 Massachusetts General Hospital Pride algorithm application
US8200506B2 (en) 2006-12-19 2012-06-12 Accenture Global Services Limited Integrated health management platform
US8359329B2 (en) * 2007-02-13 2013-01-22 Future Route Limited Method, computer apparatus and computer program for identifying unusual combinations of values in data
US8655817B2 (en) * 2008-02-20 2014-02-18 Digital Medical Experts Inc. Expert system for determining patient treatment response
US8832017B2 (en) * 2010-05-01 2014-09-09 Bruce W. Adams System and method to define, validate and extract data for predictive models
WO2011163017A2 (en) 2010-06-20 2011-12-29 Univfy, Inc. Method of delivering decision support systems (dss) and electronic health records (ehr) for reproductive care, pre-conceptive care, fertility treatments, and other health conditions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085634A (ja) * 2004-09-17 2006-03-30 Toshiba Corp テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
JP2006155229A (ja) * 2004-11-29 2006-06-15 Sony Corp データ検索システム,データ検索装置およびコンピュータプログラム
US20090024588A1 (en) * 2007-07-16 2009-01-22 Nanya Technology Corporation Methods and systems for searching for information
JP2012168949A (ja) * 2011-02-15 2012-09-06 General Electric Co <Ge> 混合モデルの構築方法
JP2012251954A (ja) * 2011-06-06 2012-12-20 Denso It Laboratory Inc 目的地推定装置及びそれを含むナビゲーションシステム、目的地推定方法、及び目的地推定プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11056241B2 (en) 2016-12-28 2021-07-06 Canon Medical Systems Corporation Radiotherapy planning apparatus and clinical model comparison method

Also Published As

Publication number Publication date
JP6316844B2 (ja) 2018-04-25
US9251203B2 (en) 2016-02-02
WO2014100672A1 (en) 2014-06-26
CA2895773A1 (en) 2014-06-26
US20160140193A1 (en) 2016-05-19
US20140222784A1 (en) 2014-08-07
US9489433B2 (en) 2016-11-08

Similar Documents

Publication Publication Date Title
JP6316844B2 (ja) 予測モデル生成のためのユーザーインタフェース
US10181012B2 (en) Extracting clinical care pathways correlated with outcomes
Gotz et al. A methodology for interactive mining and visual analysis of clinical event patterns using electronic health record data
Zhang et al. Iterative cohort analysis and exploration
Lakshmanan et al. Investigating clinical care pathways correlated with outcomes
US7756881B2 (en) Partitioning of data mining training set
US20130131993A1 (en) Iterative time series matrix pattern enhancer processor
US11527312B2 (en) Clinical report retrieval and/or comparison
CN104573306A (zh) 用于临床情节的可视化分析的方法和系统
KR20170133692A (ko) 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치
JP7437386B2 (ja) 医療記録を分類する方法
Vogelgesang et al. PMCube: a data-warehouse-based approach for multidimensional process mining
Wang et al. A visual analysis approach to cohort study of electronic patient records
Lu et al. Data mining techniques in health informatics: a case study from breast cancer research
JP2009093309A (ja) バリアンス原因フィルタリングシステム
US9785404B2 (en) Method and system for analyzing data in artifacts and creating a modifiable data network
JP2020154512A (ja) 文分類装置、文分類方法及び文分類プログラム
US20180060501A1 (en) System and method for generating clinical actions in a healthcare domain
US11321372B2 (en) Method and system for a natural language processing using data streaming
Lu et al. Modelling of cancer patient records: a structured approach to data mining and visual analytics
EP3654339A1 (en) Method of classifying medical records
Rosa et al. Modelling and Mining of Patient Pathways: A Scoping Review
Poon et al. Causal Complexities of TCM Prescriptions: Understanding the Underlying Mechanisms of Herbal Formulation
EP2936335A1 (en) User interface for predictive model generation
Botas Mining association rules and sequential patterns from electronic prescription databases

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180320

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180328

R150 Certificate of patent or registration of utility model

Ref document number: 6316844

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250