JP2016505973A

JP2016505973A - 予測モデル生成のためのユーザーインタフェース

Info

Publication number: JP2016505973A
Application number: JP2015549805A
Authority: JP
Inventors: ハンドラー，ジョナサン; フリッチュ，ヨーガン
Original assignee: エムモーダルアイピーエルエルシー
Priority date: 2012-12-22
Filing date: 2013-12-20
Publication date: 2016-02-25
Anticipated expiration: 2033-12-20
Also published as: JP6316844B2; US9251203B2; WO2014100672A1; CA2895773A1; US20160140193A1; US20140222784A1; US9489433B2

Abstract

操作対象集合を生成するための操作対象集合基準及び操作除外集合を生成するための操作除外集合基準を使用してデータセットが検索される。一意の内容要素の集合が操作対象集合及び操作除外集合から識別される。各一意の内容要素に対し、一意の内容要素を含む操作対象集合内のレコードのパーセンテージと一意の内容要素を含む操作除外集合内のレコードのパーセンテージとの間の差の絶対値の測定のような測定基準が、操作対象集合、操作除外集合、及び一意の内容要素の集合から導出される。一意の内容要素の集合は絶対値の降順にソートされて表示される。内容要素の集合はフィルタ処理される。個々の内容要素が内容集合から除外される。予測モデルが内容要素集合の結果として生じたバージョンに基づき生成される。【選択図】図４

Description

予測モデルは、結果の可能性を予測するために、多岐にわたるコンテキストで使用される。例えば、予測モデルは、以前に観察されていないデータの単位（データベース内のレコードなど）が特定の結果に関連する情報を表すか否かを予測するために使用される。例えば、健康管理のコンテキストで、予測モデルは、特定の患者に関連するデータ（その患者の最近の症状を表すデータなど）が、その患者の病院への再入院などの特定の結果を経験する可能性があることを示しているか否かを予測するために使用される。ユーザーが予測モデルを構築することを可能にする多数のツールが存在するが、このようなツールは、それらのユーザーが統計に精通していることが求められる。

本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、統計の詳細な知識を欠いているユーザーが、健康管理データ（例えば、自由記載の診療文書データセット）などのデータに対して、予測モデルを迅速且つ容易に生成して検証できるようにするツールを提供することにある。

本発明の予測モデル生成方法は、構造化データ及び非構造化データの一方又は両方を含むデータセットが操作対象集合を生成するための操作対象集合基準及び操作除外集合を生成するための操作除外集合基準を使用して検索される。自由形式テキスト要素及び概念要素の一方又は両方を含む一意の内容要素の集合が操作対象集合及び操作除外集合から識別される。各一意の内容要素に対し、一意の内容要素を含む操作対象集合内のレコードのパーセンテージと一意の内容要素を含む操作除外集合内のレコードのパーセンテージとの間の差の絶対値の測定のような測定基準が、操作対象集合、操作除外集合、及び一意の内容要素の集合から導出される。一意の内容要素の集合は集合内の要素のパーセンテージの差の絶対値の降順のような測定基準又は集合内の要素のいずれかの順序でソートされ、ソートされた集合はソートされた順にユーザーに表示される。内容要素の集合はソートされた集合内の最初のＮ個の要素のみを保持するなどによってフィルタ処理される。ここで、Ｎはユーザー選択値である。個々の内容要素が内容集合から（例えば、ユーザーにより手動で）除外される。予測モデルが内容要素集合の結果として生じたバージョンに基づき生成される。

上記目的を達成するためになされた本発明の一態様による予測モデル生成方法は、コンピュータによって実行される方法であって、（Ａ）操作対象集合基準に一致する要素について第１のデータセットを検索して前記第１のデータセットの第１のサブセットを含む操作対象集合を識別する段階と、（Ｂ）操作除外集合基準に一致する要素について前記第１のデータセットを検索して第１のデータセットの第２のサブセットを含む操作除外集合を識別する段階と、（Ｃ）前記操作対象集合及び前記操作除外集合から選択された一意の内容要素の集合を識別する段階と、（Ｄ）前記一意の内容要素の集合をソートしてソートされた一意の内容要素の集合を生成する段階と、（Ｅ）前記ソートされた一意の内容要素の集合から前記ソートされた一意の内容要素の集合内の最初のＮ個の要素を除く全てをフィルタ処理してフィルタ処理された一意の内容要素の集合を生成する段階と、（Ｆ）前記フィルタ処理された一意の内容要素の集合から少なくとも１つの内容要素を除外して一意の内容要素の最終集合を生成する段階と、（Ｇ）前記一意の内容要素の最終集合に基づき予測モデルを生成する段階と、を有する。

本発明によれば、予測モデルを生成するためにユーザーが検討する必要のある内容要素の数が著しく制限されて検討を容易にし、予測モデルを生成するコンピュータが処理する必要のある入力変数の数が十分に制限されて、計算的に高速且つ効率的になる。
本発明によれば、技術者でも統計学者でもない人が、健康管理データなどのデータに対して予測モデルを迅速且つ容易に生成できる。

本発明の一実施形態で使用されるグラフィカルユーザーインタフェースを示す図である。本発明の一実施形態による操作対象集合及び操作除外集合を生成及び表示するためのシステムのデータフロー図である。本発明の一実施形態による図２のシステムで実行される方法のフローチャートである。本発明の一実施形態による予測モデルを生成するためのシステムのデータフロー図である。本発明の一実施形態による図４のシステムで実行される方法のフローチャートである。

以下、本発明を実施するための形態の具体例を、図面を参照しながら詳細に説明する。本発明の実施形態は、統計の詳細な知識を欠くユーザーが、健康管理データ（例えば、自由記載の診療文書データセット）などのデータに対して予測モデルを迅速且つ容易に生成して検証できるようにする。例えば、本発明の実施形態は、自然言語処理を使用して、予測モデルによって特徴として使用される関連概念を識別し、体系化して注釈付けする。

図２は、本発明の一実施形態による操作対象集合及び操作除外集合を生成及び表示するためのシステム２００のデータフロー図である。図３は、本発明の一実施形態による図２のシステム２００で実行される方法のフローチャートである。

システム２００は、データセット２０２を含む。一般に、データセット２０２は、複数のレコード（２０４ａ〜２０４ｃ）を含む。説明を簡単にするため、図２には３つのレコード（２０４ａ〜２０４ｃ）のみを示すが、データセット２０２は、任意の数のレコードを含む。実際には、例えば、データセット２０２は、数千又は数百万のレコードを含む。更に、データセット２０２は、図２では単一のデータセットとして示すが、データセット２０２は、図２に示す単一のデータセット２０２のように、システム２００内の同じ機能を一括して実行する複数のデータセットとして具現される。例えば、データセット内のレコード（２０４ａ〜２０４ｃ）は、あるデータセット（例えば、第１のデータベース）に含まれるか又は同一データセットから導出されたいくつかのレコードを含み、且つ別のデータセット（例えば、第２のデータベース）に含まれるか又は同一データセットから導出されたいくつかのレコードを含む。データセット２０２内のレコード（２０４ａ〜２０４ｃ）は、データセット２０２内にコピーされるという理由、データセット２０２によって参照されるという理由、又はそれらの組合せによって、データセット（２０４ａ〜２０４ｃ）の「内」である。

データセット２０２内のレコード（２０４ａ〜２０４ｃ）は、様々な形式のいずれかを取る。例えば、データセット２０２内の任意の特定のレコードは、
・データベース内のレコード又はその一部（データベース内のレコードのフィールドなど）などの離散的内容（ｄｉｓｃｒｅｔｅｃｏｎｔｅｎｔ）、
・以下で説明する自由形式テキスト文書（例えば、文書処理アプリケーション又は他のテキスト編集アプリケーションによって作成された文書）もしくはその一部、又はデータベースレコードのフィールド内の自由形式テキスト内容もしくは概念内容を含む文書内の自由形式テキスト内容のような自由形式テキスト内容以外の内容も含むデータオブジェクト内に含まれる自由形式テキストなどの自由形式テキスト内容（ｆｒｅｅ−ｆｏｒｍｔｅｘｔｃｏｎｔｅｎｔ）、
・１つ以上のタグ（例えば、ＸＭＬタグ）で補完される自由形式テキスト内容又はコンピュータによって自動的に理解される形式で特定の概念のインスタンスを表す自由形式テキスト内容を示す他の離散的データ要素の形式を取る概念内容（ｃｏｎｃｅｐｔｃｏｎｔｅｎｔ）、である。

データセット２０２は、上記で説明した種類のレコードの任意の組合せを含む。概念内容を作成するために使用される技術の例は、２００９年９月１日に発行された、「ＡｕｔｏｍａｔｅｄＥｘｔｒａｃｔｉｏｎｏｆＳｅｍａｎｔｉｃＣｏｎｔｅｎｔａｎｄＧｅｎｅｒａｔｉｏｎｏｆａＳｔｒｕｃｔｕｒｅｄＤｏｃｕｍｅｎｔｆｒｏｍＳｐｅｅｃｈ」という名称の米国特許第７，５８４，１０３号明細書に見られ、これを参照して本明細書に援用する。上記文献に記載されるように、「構造化文書」は、自由形式テキスト内容及び概念内容の組合せを含む。

データセット２０２は、任意の１つ以上の領域（ｄｏｍａｉｎ）に関連するデータを含むが、以下の説明では、患者に関する健康管理情報を表すデータに焦点を合わせる。データセット２０２は、一人以上の患者に関連するレコードを含む。例えば、レコード２０４ａ及び２０４ｂは、第１の患者に関連するデータを含み、他方、レコード２０４ｃは、第２の患者に関連するデータを含む。

健康管理情報を含むレコードの具体例として、レコードは、特定の患者との一回以上の臨床遭遇に対する非構造化臨床記録（例えば、経過記録、手術記録、退院要約）の集合を含む。他の例として、レコードは、電子カルテ（ＥＨＲ：ｅｌｅｃｔｒｏｎｉｃｈｅａｌｔｈｒｅｃｏｒｄｓ）システムからの関連構造化データ及び請求処理システムからの関連課金データを含む。

更に、「レコード」という用語は、例えば、特定の患者に関連するデータセット２０２内の全てのデータを指す。例えば、レコード２０４ａは、第１の患者に関連するデータセット２０２内の全データを表し、レコード２０４ｂは、第２の患者に関連するデータセット２０２内の全データを表し、またレコード２０４ｃは、第３の患者に関連するデータセット２０２内の全データを表す。この例では、レコード２０４ａは、離散的データの１つ以上の情報源（例えば、１つ以上のデータベース）及び／又は自由テキストデータの１つ以上の情報源（例えば、１つ以上の文書処理文書）などの複数の情報源からのデータを含む。個々のレコードは、患者以外のエンティティ（ｅｎｔｉｔｙ）に関連するデータを（本明細書で説明する他のデータのいずれかに加えて、又はその代わりに）含む。例えば、レコードは、特定の事象（特定の患者の来診）又は特定の文書に関連するデータを含む。

ある指定された特性を有するデータを含むデータセット２０２内のレコードを識別することに興味があるシステム２００のユーザー２０６について考える。具体例として、ユーザー２０６が、胸痛を訴えたことがあって且つ生存する患者を表すデータセット２０２内のレコードを識別することに興味があると仮定する。ユーザーが指定した特性を有するデータを含むレコードの全てが、検索エンジン２０８によってユーザー指定の特性を有するとして直接識別されるデータで明示的にコード化されている場合、ユーザー２０６は、単に、ユーザー指定の特性を指定するクエリーを定式化して、そのクエリーを検索エンジン２０８に提供することにより、それらのレコードを識別し得る。それに応答して、検索エンジン２０８は、そのクエリーを満たし、従ってユーザー指定の特性を有するデータを表すデータセット２０２からレコードを含む結果集合を提供する。

しかし、多くの現実世界の事例では、データセット２０２内のレコード（２０４ａ〜２０４ｃ）の一部又は全部は、検索エンジン２０８によって、ユーザー指定の特性を有するとして直接識別されるデータで明示的にコード化されない。例えば、データセット２０２内のレコードは、胸痛を訴えて且つ生存する患者に関するデータを含むが、そのレコードは、患者が胸痛を訴えたことを明示的に示し、且つ／又はその患者が生存することを明示的に示すデータを含まない可能性がある。従って、例えば、検索エンジン２０８に「症状」フィールドにテキスト「胸痛」が含まれるレコードを検索するように指示することによって、検索エンジン２０８にユーザー指定の特性を直接検索するクエリーを実行するように指示することは、胸痛を訴えたことがあって且つ生存する患者を表すレコードを発見できない可能性がある。

この問題に対処するために、本実施形態は、ユーザーが、データセット２０２内の特定のレコードがユーザー指定基準を満たすか否かを、特定のレコードが、そのレコードがそれらのユーザー指定基準を満たすことを示すデータで明示的にコード化されているか否かに拘らずに予測する予測モデルを作成できるようにする。この予測モデルは、その後、ユーザー指定基準を満たす可能性があるデータセット２０２内のレコードを、たとえそれらのレコードがユーザー指定基準を満たすことを示すように明示的にコード化されていなくても、検索して識別するために使用される。ユーザー指定基準は、例えば、既に生じた結果（患者の過去の胸痛の症状など）又はまだ生じていない将来起こり得る結果（患者の死亡など）を表す。従って、本実施形態によって採用される予測モデルは、データセット２０２内のレコードがユーザー指定基準を満たす過去の結果を表すか否かを判断するため、及びデータセット内のレコードがユーザー指定基準を満たす将来起こり得る結果を示すか否かを判断する（予測する）ために使用される。この予測モデルを生成するために使用される技術の例を以下で説明する。

ユーザー２０６は、操作対象集合基準２１０ａを検索エンジン２０８に対する入力として提供する（図３、段階３０２）。一般に、操作対象集合基準２１０ａは、１つ以上の操作対象集合基準を表す。操作対象集合基準は、ユーザー２０６にとって興味のある１つ以上の基準（特性）から成る。システム２００の１つの目的は、レコード（以前に観察されていないデータなど）が、操作対象集合基準２１０ａの入力によって表される操作対象集合基準を満たすデータを含むか否かを予測する予測モデルを生成することである。

検索エンジン２０８は、操作対象集合基準２１０ａの入力を受信し、操作対象集合基準２１０ａの入力によって表される操作対象集合基準を含むクエリーを使用してデータセット２０２の検索を実行し、それにより、操作対象集合基準を満たすデータセット２０２からのデータを含む結果集合２１２を生成する（図３、段階３０４）。従って、この結果集合２１２を、本明細書では「操作対象集合（ｉｎｃｌｕｓｉｏｎｓｅｔ）」２１２ａと呼ぶ。クエリーは、例えば、１つ以上の論理ＡＮＤ，１つ以上の論理ＯＲ、他のブール演算子、又はそれらの任意の組合せによって、操作対象集合基準を結合する。

ユーザー２０６は、操作除外集合基準２１０ｂの入力も検索エンジン２０８に対する入力として提供する（図３、段階３０６）。一般に、操作除外集合基準２１０ｂの入力は、１つ以上の操作除外集合基準を表す。操作除外集合基準は、例えば組み合わせて操作対象集合基準の論理補集合を表す１つ以上の基準（特性）を含む。例えば、ユーザー２０６は、操作対象集合基準を満たさないデータを含むレコードをデータセットから選択するために、操作除外集合基準２１０ｂを選択する。例えば、操作対象集合基準が、胸痛を訴えたことがあって且つ生存する患者を指定する場合、操作除外集合基準は、胸痛を訴えたことがあって且つ生存しない患者を指定する。

検索エンジン２０８は、操作除外集合基準２１０ｂの入力を受信し、操作除外集合基準２１０ｂの入力によって表される操作除外集合基準を含むクエリーを使用してデータセット２０２の検索を実行し、それにより、操作除外集合基準を満たすデータセット２０２からのデータを含む結果集合２１２を生成する（図３、段階３０８）。従って、この結果集合２１２を、本明細書では「操作除外集合（ｅｘｃｌｕｓｉｏｎｓｅｔ）」２１２ｂと呼ぶ。クエリーは、例えば、１つ以上の論理ＡＮＤ、１つ以上の論理ＯＲ、他のブール演算子、又はそれらの任意の組合せによって、操作除外集合基準を結合する。

システム２００は、結果集合出力モジュール２１４を含み、結果集合出力モジュール２１４は、操作対象集合２１２ａに基づき操作対象集合出力２１６ａを生成してユーザー２０６に提供し（図３、段階３１０）、操作除外集合２１２ｂに基づき操作除外集合出力２１６ｂを生成して、ユーザー２０６に提供する（図３、段階３１２）。

より一般的には、操作対象集合２１２ａ及び操作除外集合２１２ｂの和集合を結果集合２１２と呼ぶ。従って、結果集合出力モジュール２１４は、結果集合２１２の一部又は全部に基づき結果集合出力２１６を生成する。

システム２００は、結果集合測定基準モジュール２１８を含み、結果集合測定基準モジュール２１８は、操作対象集合２１２ａ及び／又は操作除外集合２１２ｂに基づき、様々な結果集合測定基準２２０を生成する（図３、段階３１４）。結果集合測定基準２２０は、例えば、操作対象集合２１２ａのみから導出された操作対象集合測定基準２２０ａ及び操作除外集合２１２ｂのみから導出された操作除外集合測定基準２２０ｂを含む。また、結果集合測定基準２２０は、操作対象集合２１２ａ及び操作除外集合２１２ｂの組合せから導出された測定基準も含む。結果集合測定基準２２０の具体例を以下で説明する。

結果集合出力２１６は、結果集合測定基準２２０の一部又は全部に基づき、結果集合出力モジュール２１４によって生成された結果集合測定基準出力２１６ｃを含む。例えば、結果集合測定基準出力２１６ｃは、操作対象集合測定基準２２０ａ、操作除外集合測定基準２２０ｂ、及び／又は結果集合測定基準２２０内の他の測定基準から導出される。

本発明の実施形態の特定の態様を一般的な用語で説明したが、本発明の実施形態の動作を実際に例示するために、本発明の実施形態のそれらの態様の実装例を以下で説明する。この実装例を説明した後に、予測モデルを生成するために使用される技術例を説明する。

図１は、本発明の一実施形態で使用されるグラフィカルユーザーインタフェースを示す図であり、図１及び図２に関連して上述した機能の一部を実行するために使用されるグラフィカルユーザーインタフェース（ＧＵＩ）１００を示す。ＧＵＩ１００は、例えば、任意の種類のコンピューティング装置（例えば、デスクトップ、ラップトップ、又はタブレットコンピュータ）の表示出力構成要素（例えば、モニター又はタッチスクリーン）によって表示される。

ＧＵＩ１００は、適用母集団（ａｐｐｌｉｃａｂｌｅｐｏｐｕｌａｔｉｏｎ）定義セクション１４０を含み、適用母集団定義セクション１４０は、母集団に関連する入力を受信して、ユーザー２０６のクエリーを適用する母集団に関連する出力を提供する。例えば、図１では、適用母集団定義セクション１４０は、適用母集団基準の入力をユーザー２０６から受信するためのテキスト入力フィールド等の適用母集団基準の入力部１４２を含む。図１の例では、ユーザー２０６が、テキスト「ＣＨＦＡＮＤ低駆出率」を適用母集団基準の入力として入力することを示しており、それにより、ユーザー２０６が、適用母集団を、胸痛を訴えたことがあって且つ低駆出率（例えば、３５％未満）を有する患者で構成することを望むことを示す。

適用母集団定義セクション１４０は、適用母集団の名前又は簡単な説明を表すユーザー２０６からの入力を受信するためのテキスト入力フィールドなどの適用母集団の記述入力部１４４を含む。図１の例では、ユーザー２０６が、テキスト「重症のＣＨＦ患者」を適用母集団の記述として入力することを示す。

適用母集団定義セクション１４０は、またユーザー２０６が選択するボタン１４６又は他の入力部を含み、それに応答して、検索エンジン２０８が、適用母集団基準の入力（入力部１４２内）を使用してデータセット２０２に問い合わせて適用母集団の定義入力に一致するデータレコードを生成し、次いで、結果として生じるデータレコード（図示せず）をユーザー２０６に表示する。

ＧＵＩ１００は、操作対象集合２１２ａに関連する入力を受信して出力を提供する操作対象集合セクション１０２ａ、及び操作除外集合２１２ｂに関連する入力を受信して出力を提供する操作除外集合セクション１０２ｂを含む。例えば、操作対象集合セクション１０２ａは、操作対象集合基準２１０ａの入力をユーザー２０６から受信するためのテキスト入力フィールド等の操作対象集合基準の入力部１０４ａを含む。図１の例では、ユーザー２０６が、テキスト「適用母集団ＡＮＤ死亡」を操作対象集合基準２１０ａの入力として入力することを示しており、ユーザー２０６は、操作対象集合基準が、胸痛を訴えたことがあって低駆出率（例えば、３５％未満）を有し、且つ死亡した患者を指定することを望むことを示す。この例では、テキスト「適用母集団」を操作対象集合基準２１０ａの入力内に含めると、適用母集団基準の入力部１４２からの適用母集団操作対象基準（例えば、「ＣＨＦＡＮＤ低駆出率」）が操作対象集合基準に含まれることになる。結果として、適用母集団基準入力は、操作対象集合基準２１０ａの入力の一部とみなされる。

操作対象集合セクション１０２ａは、操作対象集合２１２ａの名前又は簡単な説明を表すユーザー２０６からの入力を受信するためのテキスト入力フィールドなどの操作対象集合の記述入力部１０６ａも含む。図１の例では、ユーザー２０６が、テキスト「死亡したＣＨＦ患者」を操作対象集合２１２ａの記述として入力することを示す。

操作対象集合セクション１０２ａは、ユーザー２０６が選択するボタン１０５ａ又は他の入力部も含み、それに応答して、検索エンジン２０８が、操作対象集合基準２１０ａの入力によって表される操作対象集合基準を使用してデータセット２０２に問い合わせて操作対象集合２１２ａを生成し、次いで、結果として生じる操作対象集合２１２ａをユーザー２０６に表示する。

同様に、操作除外集合セクション１０２ｂは、操作除外集合基準２１０ｂの入力をユーザー２０６から受信するためのテキスト入力フィールドなどの操作除外集合基準の入力部１０４ｂを含む。図１の例では、ユーザー２０６が、テキスト「適用母集団ＡＮＤ生存」を操作除外集合基準２１０ｂの入力として入力することを示しており、ユーザー２０６は、操作除外集合基準が、胸痛を訴えたことがあって低駆出率を有し、且つ生存する患者を指定することを望むことを示す。この例では、テキスト「適用母集団」を操作除外集合基準２１０ｂの入力内に含めると、適用母集団基準の入力部１４２からの適用母集団操作対象基準（例えば、「ＣＨＦＡＮＤ低駆出率」）が、操作除外集合基準２１０ｂの入力によって表される操作除外集合基準に含まれることになる。結果として、適用母集団基準入力は、操作除外集合基準２１０ｂの入力によって表される操作除外集合基準の一部とみなされる。

操作除外集合セクション１０２ｂは、操作除外集合２１２ｂの名前又は簡単な説明を表すユーザー２０６からの入力を受信するためのテキスト入力フィールドなどの操作除外集合の記述入力部１０６ｂを含む。図１の例では、ユーザー２０６が、テキスト「生存しているＣＨＦ患者」を操作除外集合２１２ｂの記述として入力することを示す。

操作除外集合セクション１０２ｂは、ユーザー２０６が選択するボタン１０５ｂ又は他の入力部も含み、それに応答して、検索エンジン２０８が、操作除外集合基準２１０ｂの入力によって表される操作除外集合基準を使用してデータセット２０２に問い合わせて操作除外集合２１２ｂを生成し、次いで、結果として生じる操作除外集合２１２ｂをユーザー２０６に表示する。

操作対象集合基準２１０ａの入力及び操作除外集合基準２１０ｂの入力は、任意の形式を取り、図１に示す例は、例示目的のみで提供しており、本発明を限定するものではない。例えば、操作対象集合基準２１０ａの入力及び／又は操作除外集合基準２１０ｂの入力は、任意の照会言語を使用して入力される。他の例として、システム２００は、操作対象集合基準２１０ａの入力及び／又は操作除外集合基準２１０ｂの入力を、ユーザー２０６から受信した後、検索に使用する前に修正する。例えば、ＧＵＩ１００は、ユーザー２０６が、グラフィカルユーザーインタフェースの入力部を使用して、操作対象集合基準２１０ａの入力及び／又は操作除外集合基準２１０ｂの入力を提供することを可能にし、その後、システム２００は、ユーザー２０６によって提供された入力を使用して操作対象集合基準及び／又は操作除外集合基準を表すテキストクエリーを任意のテキスト照会言語で生成する。より一般的に、本実施形態は、操作対象集合基準２１０ａの入力及び操作除外集合基準２１０ｂの入力をユーザー２０６から受信するためのいかなる特定の技術にも限定されない。

更に、操作対象集合基準２１０ａの入力及び操作除外集合基準２１０ｂの入力を、図２では、ユーザー２０６によってのみシステム２００に提供されると示しているが、これは１つの例にすぎず、本発明を限定するものではない。例えば、操作対象集合基準２１０ａの入力及び／又は操作除外集合基準２１０ｂの入力は、複数のユーザーによって提供される。他の例として、操作対象集合基準２１０ａの入力及び／又は操作除外集合基準２１０ｂの入力は、全部又は一部において、コンピュータによって自動的に提供される。例えば、操作対象集合基準２１０ａの入力は、ユーザー２０６により一部手動で、且つコンピュータにより一部自動的に生成され、操作除外集合基準２１０ｂの入力も同様である。

以上の説明では、結果集合測定基準モジュール２１８が、結果集合２１２に基づき様々な結果集合測定基準２２０を生成することを述べた。この測定基準の具体例を以下で説明する。測定基準の例は、１つの例を示すものであって、本発明を限定するものではない。

図４は、本発明の一実施形態による予測モデルを生成するためのシステムのデータフロー図であり、様々な機能を実行するために、図２のシステム２００と連携して機能するシステム４００のデータフロー図を示す。図５は、図４のシステム４００で実行される方法５００のフローチャートである。

システム４００は、一意の内容要素抽出手段２３０を含み、一意の内容要素抽出手段２３０は、結果集合２１２内の一意の内容要素（ｕｎｉｑｕｅｃｏｎｔｅｎｔｅｌｅｍｅｎｔｓ）の一部又は全部を識別する（図５、段階５０２）。本明細書で使用する用語として「内容要素」の例は、自由形式テキスト内容（結果集合２１２内の個々の語又は連続する句など）の個々のユニット及び個々の概念内容（結果集合２１２内のコード化された概念のインスタンスなど）を含む。従って、一意の内容要素抽出手段２３０は、結果集合２１２内の自由形式テキストの全ての一意のユニット及び概念内容の全ての一意のユニットを識別し、所定の基準に基づき特定の内容要素（ストップワードなど）を除外する。結果として、一意の内容要素リスト２３２は、自由形式テキスト要素のみ、概念内容要素のみ、又は自由形式テキスト要素及び概念内容要素の両方を含む。一意の内容要素抽出手段によって識別される一意の内容要素の集合は、操作対象集合基準及び／又は操作除外集合基準に含まれない内容要素を含む。

図１に示すＧＵＩ１００は、結果集合測定基準領域１１０を含み、結果集合測定基準領域１１０は、結果集合測定基準２２０に関する様々な情報を表示する。従って、図１の結果集合測定基準領域１１０は、図２の結果集合出力２１６の一例に対応する。システム２００は、例えば、結果集合測定基準領域１１０を、ユーザー２０６からの指示に応答して（ボタン１２２の押下など）、生成する。他の例として、システム２００は、ユーザー２０６がＧＵＩ１００のどこかに提供された入力を変更すると、いつでも結果集合測定基準領域１１０を自動的に生成及び／又は更新する。

図１の結果集合測定基準領域１１０は、例示目的のためにテーブル形式で示す。テーブルは、行（１１４ａ〜１１４ｄ）を含み、その各々が一意の内容要素リスト２３２内の特定の一意の内容要素に関連する情報を含む。図１の例では、行１１４ａは、「死亡」のコード化された概念に関連する情報を含み、行１１４ｂは、「アスピリン」のコード化された概念に関連する情報を含み、行１１４ｃは、「低ナトリウム血症」のコード化された概念に関連する情報を含み、行１１４ｄは、「膿瘍」のコード化された概念に関連する情報を含む。説明を簡単にするため、結果集合測定基準領域１１０内にはテーブルの４行だけが見えているが、スクロールバー１１６を示しており、テーブルは、スクロールバー１１６を使用してスクロールすることにより見えるようになる追加の行を含むことを示す。上述の説明から明らかなように、一意の内容要素リスト２３２は、４つよりも少ないか又は多い内容要素を含む。一意の内容要素リスト２３２が５つ以上の内容要素を含む場合、結果集合測定基準領域１１０は、それらの内容要素の４つだけを一度に表示するが、ユーザー２０６は、スクロールバー１１６を使用して一意の内容要素リスト２３２全体をスクロールし得る。

また、テーブルは、列（１１２ａ〜１１２ｉ）を含み、その各々が、一意の内容要素リスト２３２内の対応する一意の内容要素の特定の特性に関連する情報を含む。より詳細には、
・列１１２ａは、対応する行によって表される内容要素（例えば、テキスト又は概念）を表示し、
・列１１２ｂは、その行が用語Ｔ（即ち、テキスト）又は概念Ｃを表すかの指標を表示し、
・列１１２ｃは、本明細書で「包含頻度」と呼ぶ操作対象集合２１２ａ内の対応する内容要素の出現頻度（例えば、操作対象集合２１２ａ内の対応する内容要素の出現総数）を表示し、
・列１１２ｄは、本明細書で「除外頻度」と呼ぶ操作除外集合２１２ｂ内の対応する内容要素の出現頻度（例えば、操作除外集合２１２ｂ内の対応する内容要素の出現総数）を表示し、
・列１１２ｅは、対応する内容要素を含む操作対象集合２１２ａ内のレコードのパーセンテージ、例えば包含頻度を操作対象集合２１２ａ内のレコード総数で割ったもの（本明細書では「包含パーセンテージ」又は「ＩＰ」と呼ぶ）を表示し、
・列１１２ｆは、対応する内容要素を含む操作除外集合２１２ｂ内のレコードのパーセンテージ（小数で表される）、例えば除外頻度を操作除外集合２１２ｂ内のレコード総数で割ったもの（本明細書では「除外パーセンテージ」又は「ＥＰ」と呼ぶ）を表示し、
・列１１２ｇは、列１１２ｅの包含パーセンテージと列１１２ｆの除外パーセンテージとの間の差、即ちＩＰ−ＥＰ（本明細書では「パーセンテージ差」又は「ＰＤ」と呼ぶ）を表示し、
・列１１２ｈは、列１１２ｇのパーセンテージ差の絶対値（小数で表される）、即ち｜ＩＰ−ＥＰ｜（本明細書で「絶対パーセンテージ差」又は「ＡＰＤ」と呼ぶ）を表示する。

結果集合測定基準モジュール２１８は、結果集合２１２及び／又は一意の内容要素リスト２３２に基づき、列（１１２ｃ〜１１２ｈ）内の値を計算する。例えば、
・結果集合測定基準モジュール２１８は、操作対象集合２１２ａ内の各一意の内容要素の出現数をカウントすることにより、列１１２ｃ内の値を計算し、
・結果集合測定基準モジュール２１８は、操作除外集合２１２ｂ内の各一意の内容要素の出現数をカウントすることにより、列１１２ｄ内の値を計算し、
・結果集合測定基準モジュール２１８は、各行の列１１２ｃ内のカウントを操作対象集合２１２ａ内のレコード数で割ることにより、列１１２ｅ内の値を計算し、
・結果集合測定基準モジュール２１８は、各行の列１１２ｄ内のカウントを操作除外集合２１２ｂ内のレコード数で割ることにより、列１１２ｆ内の値を計算し、
・結果集合測定基準モジュール２１８は、同じ行で列１１２ｆの値を列１１２ｅの値から引くことにより、列１１２ｇ内の値を計算し、
・結果集合測定基準モジュール２１８は、各行で列１１２ｇの絶対値を計算することにより、列１１２ｈ内の値を計算する。

以下で詳細に説明するように、上記に列挙した計算は、いずれも、例えば、患者、来診、及び文書によってグループ化されるため、計算されて表示される出現数は、必ずしも操作対象集合２１２ａ又は操作除外集合２１２ｂ全体内の各一意の内容要素の出現総数ではなく、むしろ、操作対象集合２１２ａ又は操作除外集合２１２ｂ内の患者、来診、又は文書ごとの各一意の内容要素の一意の出現数である。例えば、計算が文書によってグループ化されて、用語「死亡」が特定の文書内に１５回出現する場合、複数の出現で、用語「死亡」のカウントは、１５ではなく、１だけ増加される。

実際には、結果集合２１２内の一意の内容要素の数は、非常に多く、千単位以上である。結果として、システム２００からの支援なしに、ユーザー２０６が、一意の内容項目のリストを手動で検討して予測モデルから除外するために個々の内容項目を選択することは不可能である。本実施形態は、このような支援を提供し、ユーザー２０６が純粋に手動により検討するよりもはるかに効率的に内容要素を検討して予測モデルから除外されるようする。

例えば、システム４００は、一意の内容要素ソーター２３４を含み、一意の内容要素ソーター２３４は、一意の内容要素リスト２３２を絶対パーセンテージ差（即ち、列１１２ｈ内の値）の降順にソートし、それにより、ソートされた一意の内容要素リスト２３６を生成する（図５、段階５０４）。ＧＵＩ１００は、ソートされた一意の内容要素リスト（以下、ソート済みリストと略記）２３６を、結果として生じたソート順に、ＧＵＩ１００内でユーザー２０６に表示する。図１は、ソート済みリスト２３６が、ソート順に表示された例を示す。ソートは、自動的に、即ちユーザー２０６から受信した入力に応答せずに実行されるか、又は一意の内容要素ソーター２３４が、列１１２ｈの列見出し上におけるマウスクリックなどのユーザー２０６からの入力に応答してソートを実行する。

一意の内容要素のリストを列（１１２ａ〜１１２ｉ）のいずれかに基づきソートして表示するために同じ技術が適用されるが、列１１２ｈの絶対パーセンテージ差に基づくソートは、ユーザーが予測モデルから除外するために内容要素を選択する目的において、ユーザー２０６にとって特に有用である。その理由は、絶対パーセンテージ差に基づき一意の内容要素リストをソートすると、操作対象集合２１２ａを操作除外集合２１２ｂから最も強く区別する内容要素が、リストの筆頭に表示されるようにリストを順序付けるからである。列１１２ｈの絶対パーセンテージ差に基づくソートは、また、コンピュータが、計算上実行可能な期間内に予測モデル２５０を開発することを計算上実現可能にする。

システム４００は、フィルタ処理モジュール２３８を含み、フィルタ処理モジュール２３８は、ソート済みリスト２３６からの内容要素をフィルタ処理して、フィルタ処理された一意の内容要素リスト２４０を生成する（図５、段階５０６）。例えば、フィルタ処理モジュール２３８は、ソート済みリスト２３６から最初のＮ個の内容要素を除く全てを除去して、フィルタ処理された一意の内容要素リスト（以下、フィルタ処理済みリストと略記）２４０を生成する。Ｎの値は、フィルタ処理モジュール２３８により任意の方法で取得される。例えば、ＧＵＩ１００は、ユーザー２０６がＮの値を指定することを可能にする入力部１２０ｃを提供する。結果集合測定基準領域１１０のテーブル内に表示される内容要素が絶対パーセンテージ差（列１１２ｈ）によって降順にソートされる場合、ユーザー２０６は、値Ｎを入力部１２０ｃに入力し、それにより、ＧＵＩ１００がＮ個の最も上位の絶対パーセンテージ差値を有する内容要素のみを結果集合２１２から表示されるようにする。即ち、値Ｎを入力部１２０ｃに入力すると、フィルタ処理モジュール２３８に、ソート済みリスト２３６から最も上位の絶対パーセンテージ差値を有するＮ個の内容要素を除く全てをフィルタ処理させ、次いで、ＧＵＩ１００に、結果として生じるフィルタ処理済みリスト２４０のみをユーザー２０６に表示させる。

図１の例で、ユーザー２０６は、Ｎ＝１００の値を入力する。これは１つの例にすぎず、本発明を限定するものではない。より一般的に、Ｎは任意の値を有する。しかし、フィルタ処理済みリスト２４０が人間であるユーザー２０６により妥当な時間で検討できる程度に十分に少なくなるように、１０、２０、５０、又は１００などの比較的低値のＮを使用することが特に有用である。

他の例として、フィルタ処理モジュール２３８は、ソート済みリスト２３６から、｜ＩＰ−ＥＰ｜の値が或る所定の閾値を下回る全ての内容要素を除去する。

上述の例では、ソート済みリスト２３６がフィルタ処理モジュール２３８によってフィルタ処理される前に、ソート済みリスト２３６がユーザー２０６に表示される、これは例にすぎず、本発明を限定するものではない。代替として、例えば、一意の内容要素リスト２３２は、結果として生じたソートされてフィルタ処理されたフィルタ処理済みリスト２４０がユーザー２０６に表示される前に、一意の内容要素ソーター２３４によるソート及びフィルタ処理モジュール２３８によるフィルタ処理の両方が（いずれかの順序で）行われる。

個々の内容要素は、フィルタ処理モジュール２３８により自動的に除外された内容要素に加えて又はその代わりに、フィルタ処理済みリストから除外される。一般に、システム４００は、内容要素除外手段２４２を含み、内容要素除外手段２４２は、１つ以上の内容要素をフィルタ処理済みリスト２４０から除外（除去）して、最終内容要素リスト２４６を生成する（図５、段階５０８）。内容要素除外手段２４２は、除外する内容要素を様々な方法のいずれかで選択する。例えば、内容要素除外手段２４２は、除外する内容要素を指定するユーザー２０６から受信した入力に基づき、除外する内容要素を選択する。具体例として、結果集合測定基準領域１１０のテーブルは、列１１２ｉを含み、ユーザー２０６は、列１１２ｉの中に内容要素リストから除外する０個以上の特定の内容要素を指定する入力を提供する。図１の例で、ユーザー２０６は、特定の内容要素を表す行の列１１２ｉ内のボックスにチェックを入れることにより、その内容要素が内容要素リストから除外されることを指定する。例えば、図１は、ユーザー２０６が行１１４ａの列１１２ｉ内のボックスにチェックを入れることを示しており、その行は、「死亡」の概念を表す。ユーザー２０６がこの概念を内容要素リストから（即ち、生成される予測モデルから）除外することを選択するのは、死亡は、ユーザー２０６が予測モデルで予測したい概念だからである。従って、予測モデルは、明示的にコード化された死亡の概念が予測モデルから除外された場合、対応する患者が死亡したことを明示的に指定しない新しいレコードが操作対象集合に含まれるか否かを予測するのにより適する。

しかし、ユーザー２０６は、特定の内容要素を予測モデルから除外するか否かをユーザー２０６が望む任意の方法で選択し得る。ユーザー２０６は、例えば、いかなる内容要素も予測モデルから除外しないことを選択する。他の例として、ユーザー２０６は、複数の内容要素を予測モデルから除外することを選択する。

更に、図１の例で、ＧＵＩ１００はデフォルトによりどの内容要素も予測モデルから除外せず、内容要素を予測モデルから除外するにはユーザー２０６からの手動入力に頼るが、これは１つの例にすぎず、本発明を限定するものではない。例えば、システム２００は、予測モデルから内容要素を除外するために１つ以上の内容要素を自動的に選択し、ユーザー２０６は、その後、内容要素の除外を手動で上書きする。例えば、システム２００は、操作対象集合基準を操作除外集合基準と比較し、操作対象集合基準に含まれるが操作除外集合基準には含まれない内容要素、及び／又は操作除外集合基準に含まれるが操作対象集合基準には含まれない内容要素などの基準の２つの集合間の１つ以上の差を識別する。システム２００は、次いで、内容要素リストから除外するための任意の用語を、内容要素除外手段２４２によって自動駅に選択する。例えば、図１に示す操作対象集合基準２１０ａの入力（「ＣＨＦＡＮＤ低駆出率ＡＮＤ死亡」）及び操作除外集合基準２１０ｂの入力（「ＣＨＦＡＮＤ低駆出率ＡＮＤ生存」）を参照すると、システム２００は、これら２つの基準（２１０ａ及び２１０ｂ）の入力集合を互いに比較して、「死亡」という用語が操作対象集合基準２１０ａの入力に含まれるが、操作除外集合基準２１０ｂの入力には含まれないことを判断する。それに応じて、システム２００は、「死亡」及び「死亡」の同義語を内容要素リスト２４０から自動的に除外する。

ＧＵＩ１００は、結果集合測定基準領域１１０のテーブル内に表現されるレコードがユーザー２０６に表示されることを可能にして、ユーザー２０６がそれらのレコードに関する追加情報を取得できるようにする。例えば、結果集合測定基準領域１１０のテーブルは、列１１２ｊを含む。システム２００に、特定の内容要素を含むレコードの一部又は全部を表示させるために、ユーザー２０６は、その特定の内容要素に対応する行内の列１１２ｊ内のボックスにチェックを入れる。それに応答して、システム２００は、対応する内容要素の一部又は全部を表示する。例えば、ユーザー２０６が、内容要素「膿瘍」に対応する行１１４ｄの列１１２ｊ内のボックスを選択すると、システム２００は、内容要素「膿瘍」に対応するレコードの一部又は全部を表示する。システム２００は、このレコードの要約（例えば、関連する内容要素を含むレコードの一部）を表示すること、及び／又はユーザー２０６がこのレコード全体を検索可能にすることなどにより、このレコードを様々な方法のいずれかで表示する。

ＧＵＩ１００は、ユーザー２０６が、計算されて結果集合測定基準領域１１０内に表示される測定基準を選択することを可能にする機能を含む。例えば、ＧＵＩ１００は、ユーザー２０６が、操作対象集合２１２ａ内の文書のカウント（列１１２ｃ内に表示される通り）及び操作除外集合２１２ｂ内の文書のカウント（列１１２ｃ内に表示される通り）を計算する方法を示すことを可能にする入力部を提供する。例えば、
・ユーザー２０６は、ラジオボタングループ１２０ａ内の「文書」ラジオボタンを選択して、結果集合測定基準モジュール２１８に、操作対象集合基準に一致するデータセット２０２内の一意の文書数を列１１２ｃ内の操作対象集合カウント内にカウントさせ、操作除外集合基準に一致するデータセット２０２内の一意の文書数を列１１２ｄ内の操作除外集合カウント内にカウントさせ、
・ユーザー２０６は、ラジオボタングループ１２０ａ内の「患者」ラジオボタンを選択して、結果集合測定基準モジュール２１８に、操作対象集合基準に一致するデータセット２０２内の一意の患者数を列１１２ｃ内の操作対象集合カウント内にカウントさせ、操作除外集合基準に一致するデータセット２０２内の一意の患者数を列１１２ｄ内の操作除外集合カウント内にカウントさせ、
・ユーザー２０６は、ラジオボタングループ１２０ａ内の「来診」ラジオボタンを選択して、結果集合測定基準モジュール２１８に、操作対象集合基準に一致するデータセット２０２内の一意の来診数を列１１２ｃ内の操作対象集合カウント内にカウントさせ、操作除外集合基準に一致するデータセット２０２内の一意の来診数を列１１２ｄ内の操作除外集合カウント内にカウントさせる。

図１におけるラジオボタングループ１２０ａによって有効になる特定のグループ化（即ち、文書、患者、来診）は、一例にすぎず、本発明を限定するものではない。本実施形態は、図１に示さないグループ化を使用することができ、図１に示す全てのグループ化を使用する必要はない。

他の例として、ＧＵＩ１００は入力部１２０ｂを提供し、入力部１２０ｂは、ユーザー２０６が、内容要素のリスト（２３２、２３６、２４０、及び２４６）が、概念のみ、自由形式テキスト（用語）のみ、又は概念と自由形式テキストの両方を含むか否かを示すことを可能にする。ユーザー２０６は、例えば、明示的にコード化された概念は自由形式テキストよりも正確に事実を反映する可能性があるという仮定に基づき、概念のみを表示することが有用であることが分かる。

（図１には示していないが）他の例として、ＧＵＩは、概念又は用語に関連するメタデータを使用して、概念又は用語に関する変形を別個に表示し得る。例えば、「胸痛」という用語について考える。ＧＵＩ１００は、このような用語を識別して、「患者において積極的に主張された胸痛」、「患者において消極的に主張された胸痛」、「患者において胸痛の不明確な主張」、「患者の家族病歴において積極的に主張された胸痛」、及び「患者の家族病歴において消極的に主張された胸痛」などの変形を表示する。他の例として、ナトリウム濃度の概念を考える。ＧＵＩ１００は、「ナトリウム濃度＞１５０」及び「ナトリウム濃度＜１５０」などの概念に関連するパラメータ値の範囲を識別して表示する。この事例で、ＧＵＩ１００は、ユーザー２０６が、予測モデル２５０への包含又は予測モデル２５０からの除外のために、１つ以上の変形を選択することを可能にする。

一旦、システム２００が、最終内容要素リスト２４６を生成して表示すると、最終内容要素リスト２４６は、予測モデル２５０を生成するために使用される。具体的に、図４のシステム４００は、予測モデル生成手段２４８を含み、予測モデル生成手段２４８は、最終内容要素リスト２４６及び元のデータセット２０２に基づき、予測モデル２５０を生成する（図５、段階５１０）。予測モデル生成手段２４８は、回帰、ナイーブベイズネットワーク（ｎａｉｖｅＢａｙｅｓｎｅｔｗｏｒｋｓ）、人工ニューラルネットワークなどの予測モデル２５０を生成するための様々な既知の技術のいずれかを、個別に又は任意の組合せのいずれかで使用する。予測モデル生成手段２４８は、また、ブートストラッピング、ジャックナイフ、及びモンテカルロ法などの様々な技術のいずれかを、個別に又は任意の組合せのいずれかで使用して予測モデル２５０を検証する。

予測モデル生成手段２４８は、例えば、ボタン１３０の押下などにより、ユーザー２０６がシステム４００に入力を提供することに応答して予測モデル２５０を生成する。一旦、予測モデル２５０が生成されると、ＧＵＩ１００は、回帰式、導出感度（ｄｅｒｉｖａｔｉｏｎｓｅｎｓｉｔｉｖｉｔｙ）、導出特異性（ｄｅｒｉｖａｔｉｏｎｓｐｅｃｉｆｉｃｉｔｙ）、検証感度（ｖａｌｉｄａｔｉｏｎｓｅｎｓｉｔｉｖｉｔｙ）、及び検証特異性（ｖａｌｉｄａｔｉｏｎｓｐｅｃｉｆｉｃｉｔｙ）などの予測モデル２５０に関する情報を出力領域１３２内に表示する。システム２００は、例えば、データセット２０２を、導出集合及び検証集合の２つのサブセットに分割することにより、出力領域１３２の内容を生成する。予測モデル２５０は、データセット２０２全体に基づくのではなく、導出集合に基づき生成される。予測モデル２５０は、次いで、検証集合に適用され、予測モデル２５０の検証集合に関する性能が測定される。結果として生じた測定値が出力領域１３２内に表示される。以上で説明したプロセスは、複数回、実行され、毎回、モンテカルロシミュレーションなどを使用して、データセット２０２を異なる導出集合及び検証集合に分割する。

ユーザー２０６が予測モデル２５０に満足しない場合、ユーザー２０６は、上述の動作（操作対象集合基準及び／又は操作除外集合基準の修正など）のいずれかを実行し、次いで、ボタン１３０を再度押すことにより、新しい予測モデルを生成する。一旦、ユーザー２０６が予測モデル２５０に満足すると、ユーザー２０６は、ボタン１３４を押すことにより、システム４００に予測モデル２５０を将来の使用のために保存させる。このようにして、本実施形態は、予測モデル２５０が繰り返し評価されて改善されることを可能にする。

予測モデル２５０は、次いで、新しいレコード（例えば、予測モデル２５０を生成するために使用されたデータセット２０２内に無かったレコード）に適用されて、各レコードのそれぞれがユーザー２０６にとって興味のある特性を有するか否かを予測する。

上述の特徴は、以下のような様々な利点を提供する。
・結果集合測定基準領域１１０のテーブル内のリストの先頭に表示される内容要素は、操作対象集合２１２ａと操作除外集合２１２ｂとの間で著しい区別があり、従って、予測モデルにとって役立つ特徴である可能性が非常に高い。
・ユーザー２０６が検討する必要のある内容要素の数が著しく制限されて、この検討を実行可能にする。
・予測モデル２５０を生成するためにコンピュータが処理する必要のある入力変数の数が十分に制限されて、計算的に高速且つ効率的になる。

更に、本明細書で開示する技術は、ユーザーに、システムが予測のために使用する用語の識別力に対する可視性を提供する。この可視性は、ユーザーに対して、結果として生じた予測モデル２５０に対する信頼性を高め、他の方法では利用できないか又は見ることができない洞察力及び価値を提供することができる。

更に、本明細書で開示する技術は、技術者でも統計学者でもない人が、操作対象集合と操作除外集合との間でメンバーシップを最も強力に区別する内容要素を迅速且つ容易に識別し、そして、それらのデータ要素に基づき予測モデルを迅速且つ容易に作成できるようにする。

更に、本明細書で開示する技術は、予測モデルが、非構造化データ（例えば、自由形式テキストに含まれるデータ）を含むデータセットに基づき、且つ非構造化データ及び構造化データの組合せを含むデータセットに基づき、容易に作成されることを可能にする。本明細書で開示する技術は、データが構造化形式で格納されることを必要としないが、本明細書で開示する技術は、構造化データに基づき予測モデルを生成することが可能である。結果として、本明細書で開示する技術は、構造化データに基づき予測モデルを生成するためにのみ使用されるシステムに優る利点を提供する。

データセット２０２が小規模である場合、本発明の実施形態をこのデータセット２０２に適用すると、データセットに過度に適合する予測モデル２５０を生成するという結果になる。本発明の実施形態は、予測モデル２５０のデータセット２０２への過度の適合を補正するか又は防ぐために、様々な技術のいずれかを使用する。例えば、本発明の実施形態は、（ユーザー構成可能な）入力あたりの最小限数のレコードを要求する。例えば、入力あたりの最小限の必要なレコード数が５００であり、操作対象集合基準を使用してデータセット２０２に問い合わせると５０，０００レコードを含む操作対象集合２１２ａが生成される場合、本発明の実施形態は、最大で５００の入力（５０，０００／１００）を許可する。本発明の一実施形態で、許可される入力の最大数は、次の３つの値の最小値として選択される。（１）ユーザー構成可能な入力の最大数、（２）上述の計算結果（ユーザー構成可能な入力あたりのレコードの最大数で割った結果数）、及び（３）ユーザーによって選択された入力数（例えば、ユーザーに上述の計算結果に基づき最大で１００の入力が提供され、ユーザーが７５の入力を選択する場合、許可された入力の最大数として７５が選択される）。

「予測モデル」という用語は、本明細書では、将来の事実に関して予測を行うために使用されるモデルに制限されない。むしろ、「予測モデル」という用語は、本明細書では、過去の（現実の、又は起こった可能性の高い）事実を推論するために使用されるモデルを含む。より一般的に、「予測モデル」という用語は、本明細書では、不完全なデータセットから（現実の、又は起こった可能性の高い）事実を、それらの事実が過去における事象及び／又は将来における事象に関連しているか否かに拘らず、推論するために使用されるモデルを含む。従って、「予測する」などの用語は、本明細書では、結果として生じる予測／推論が、過去、現在、又は将来に関連する事実となるか否かに拘らず、推論することを指すことが理解される。例えば、本明細書で開示する種類の予測モデルは、特定の患者が特定の結果に関連する可能性が高いことを推論するために使用される。たとえ患者がその結果を過去に経験したとしても、このような推論は、本明細書で使用される「予測」という用語の一例である。具体例として、本発明の実施形態は、特定の患者が過去に集中治療室（ＩＣＵ）に入った可能性が高いことを推論するために、その患者のＥＨＲレコード内のデータに基づき、たとえ患者がＩＣＵに入ったことをそのレコードが明示的に示さなくても、使用される。

これは、本発明の実施形態が「ビッグデータ」のデータセットに基づき予測モデルを迅速且つ容易に作成できるようにする方法の一例にすぎず、「ビッグデータ」のデータセット内では、考えられる入力数が膨大であり、他の方法では意味があるように分析することが困難である。この点に関して、本発明の実施形態の１つの特定の恩恵は、それらが予測的であることをユーザーが既に知っている変数に基づき、予測変数を選択する必要性を低減することである。既存のシステムは、通常、ユーザーの既存の領域の知識をコード化する予測モデルを作成することに制限される。即ち、このようなシステムは、どの変数が予測的であるかを知っているユーザーに依存し、そして、ユーザーによって予測的であることが分かっている変数に基づき予測モデルを生成する。

一方、本発明の実施形態は、たとえユーザーが予測的である変数の全部又はいずれかを知らなくても、予測モデルを作成するために使用される。上述のように、本発明の実施形態は、たとえユーザーがこのような変数の予備知識を有さなくても、予測変数をユーザーに対して提案するために使用される。更に、たとえユーザーが、予測変数のいくらかの知識を有し、このような変数を予測モデルへの包含のためにシステム２００に対する入力として提供しても、システム２００は、それにも拘わらず、追加の予測変数をユーザーに提案し、それにより、ユーザーの既存の知識を補完する。このようにして、本発明の実施形態は、ユーザー提供の予測変数、及びシステムによって自動的に提案されてユーザーによって承認された予測変数の両方を含む予測モデルを作成するために使用される。

本発明の実施形態は、大規模で複雑なデータセットに関して特に有用である。たとえ専門領域の知識を有する人間であるユーザーであっても、人間であるユーザーが、このようなデータセット（何千もの一意の用語及び概念を含むデータセットなど）に基づき予測変数を識別することは困難又は不可能である。例えば、パーセンテージ差の絶対値（ＡＰＤ）を用いて入力（特徴）の初期フィルタ処理を実行するためにコンピュータを使用し、それにより人間が検討するための可能性のある予測変数がソートされてフィルタ処理されたリストを生成するために、本発明の実施形態は、たとえデータセットが大規模で複雑な場合であっても、人間であるユーザーがコンピュータ生成リストをフィルタ処理し、それにより予測変数の最終リストを生成することを実行可能にする。

予測モデルを完全に自動的に生成しようとする既存のシステムは、大規模で複雑なデータセットに適用した場合、莫大な量のコンピュータ処理資源を必要とする傾向がある。一方、本発明の実施形態は、コンピュータを使用して人間であるユーザーによる検討のために変数の初期集合を生成し、次いでそのユーザーが変数の初期集合をフィルタ処理して予測モデルに含めるための変数の最終集合を生成することから、本発明の実施形態は、はるかに効率的に、即ち既存のシステムよりもはるかに少ない量のコンピュータ処理資源を使用して予測モデルを生成するために使用される。本発明の実施形態は、たとえ大規模で複雑なデータセットに適用された場合でさえも変数の初期集合を非常に効率的に生成できる。結果として、本発明の実施形態は、既存のシステムよりも性能の劣るコンピュータを使用して、又は同じコンピュータを使用する既存のシステムよりも少ない時間で、予測モデルを生成するために使用される。従って、本発明の実施形態は、既存のシステムよりも効率的に予測モデルを生成するための改善されたコンピュータシステムを表す。

本発明は、特定の実施形態に関して説明したが、上述の実施形態は例示目的のみで提供しており、本発明の技術範囲を限定又は規定しない。以下を含むがそれに限定されない様々な他の実施形態も、本発明の範囲内である。例えば、本明細書で説明する要素及び構成要素は、同じ機能を実行するために、更に追加の構成要素に分割されるか又はより少ない構成要素に結合される。

本明細書で開示する機能のいずれも、それらの機能を実行するための手段を使用して実現される。このような手段は、以下で説明するコンピュータ関連構成要素などの本明細書で開示する任意の構成要素を含むが、それらに限定されない。

本明細書で説明する機能は、本明細書で説明する以外の順序で実行され得る。例えば、図４及び図５に示す特定の順序の動作は、一例にすぎず、本発明を限定するものではない。同じ機能が他の順序で実行され得る。例えば、一意の内容要素ソーター２３４によって実行されるソート機能は、フィルタ処理モジュール２３８がフィルタ済みリストを生成した後に実行され、その場合、フィルタ処理モジュール２３８は、一意の内容要素リスト２３２について動作して出力を生成し、次いで、一意の内容要素ソーター２３４によってソートされて出力を生成して個々の内容要素除外手段２４２によって作用される。

本明細書で説明する全ての機能が本発明の全ての実施形態によって実行される必要はない。例えば、本発明の或る実施形態は、一意の内容要素ソーター２３４、フィルタ処理モジュール２３８、及び内容要素除外手段２４２（図４参照）のうちの１つ以上を除外し得る。結果的に、最終内容要素リスト２４６は、一意の内容要素ソーター２３４、フィルタ処理モジュール２３８、及び内容要素除外手段２４２の全てによって実行された機能の結果として生成される必要はなく、代わりに、一意の内容要素ソーター２３４、フィルタ処理モジュール２３８、及び内容要素除外手段２４２のうちのいずれか１つ以上によって実行された機能の結果として生成されることが理解される。

図１に示すＧＵＩ１００は、例にすぎず、本発明を限定するものではない。本発明の実施形態と一致する他のＧＵＩは、例えば図１のＧＵＩに示す情報を省略したり、図１のＧＵＩに示す情報に追加して情報を表示したり、図１のＧＵＩに示す情報と同じ情報を異なる形式又はそれらの任意の組合せで表示したりする。例えば、ＧＵＩは、ワードクラウドを含み、ワードクラウドは、操作対象集合２１２ａ及び／又は操作除外集合２１２ｂ内における用語の頻度を、操作対象集合２１２ａ又は操作除外集合２１２ｂ内におけるそれらの出現数の関数としてその用語のフォントサイズを変化させることにより示す。

本明細書の説明は、予測モデル２５０を生成するために使用される最終内容要素リスト２４６内に包含するための内容要素をユーザー２０６が手動で選択することを可能にするための技術に焦点を合わせているが、これは、例にすぎず、本発明を限定するものではない。追加又は代替として、例えば、特徴選択などの機械学習アルゴリズムが、内容要素を最高度の判別力で自動的に選択するために使用される。このような機械学習アルゴリズムによって生成された内容要素は、本明細書で開示する技術によって生成された内容要素と組み合わされて最終内容要素リスト２４６を生成する。

例えば、ユーザー２０６は、上述の方法で予測モデル２５０を生成するために、内容要素の初期集合を選択する。結果として生じた予測モデル２５０は、次いで（予測モデル２５０を生成するために使用されたデータセット内に含まれなかった１つ以上のデータ要素を含めることなどにより、予測モデル２５０を生成するために使用されたデータセットと異なる）検証データセットに適用されて、検証データセットのサブセットの形式で結果を生成する。このような結果は、予測モデルが操作対象集合基準を満たすと予測する検証データセットのサブセットである。このような結果は、測定されてその結果を出力領域１３２に表示することなどによりユーザー２０６に提供される。ユーザー２０６は、次いで予測の正確さに関するフィードバックを提供し、システム４００は、そのフィードバックを使用して内容要素リストに含めるべき追加の内容要素を識別し、次いで修正された内容要素リストに基づき新しい予測モデル２５０を生成する。このプロセスは、予測モデル２５０を繰り返し改善するために、任意の回数、繰り返される。

上述の技術は、例えば、ハードウェア、１つ以上のコンピュータ読み取り可能な記録媒体上に有形的に格納された１つ以上のコンピュータプログラム、ファームウェア、又はそれらの任意の組合せで具現される。上述の技術は、プロセッサ、そのプロセッサによって読み取り可能及び／又は書込み可能な記録媒体（例えば、揮発性及び不揮発性メモリ並びに／又は記憶要素を含む）、入力装置、並びに出力装置の任意の数の任意の組合せを含むプログラム可能なコンピュータ上で実行される（又はそれによって実行可能な）１つ以上のコンピュータプログラムで具現される。プログラムコードが、説明した機能を実行するために入力装置を使用して入力された入力に適用されて、出力装置を使用して出力を生成する。

本発明の各コンピュータプログラムは、アセンブリ言語、機械語、高水準手続き型プログラミング言語、又はオブジェクト指向プログラミング言語などの、任意のプログラミング言語で具現される。プログラミング言語は、例えば、コンパイラ型又はインタープリタ型プログラミング言語である。

コンピュータプログラムのそれぞれは、コンピュータプロセッサによる実行のために、機械的な可読記憶装置内に有形的に具現化されたコンピュータプログラム製品で具現される。本発明の方法は、コンピュータ読み取り可能な記録媒体上に有形的に具現化されたプログラムを実行する１つ以上のコンピュータプロセッサによって実行され、入力に関連して動作して出力を生成することにより本発明の機能を実行する。適切なプロセッサは、例として、汎用及び専用マイクロプロセッサの両方を含む。一般に、プロセッサは、命令及びデータをメモリ（読取り専用メモリ及び／又はランダムアクセスメモリなど）から受信し（読み取り）、命令及びデータをメモリに書き込む（格納する）。コンピュータプログラム命令及びデータを有形的に具現化するのに適した記憶装置は、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリ装置を含む半導体メモリ装置などの不揮発性メモリ、内蔵ハードディスク及び取り外し可能ディスクなどの磁気ディスク、光磁気ディスク、及びＣＤ−ＲＯＭの全ての形態を含む。上述のいずれも、特別に設計されたＡＳＩＣ（特定用途向け集積回路）又はＦＰＧＡ（フィールドプログラマブルゲートアレイ）によって補足されるか、又はそれらに組み込まれる。コンピュータは、一般的に、プログラム及びデータを内蔵ディスク（図示せず）又は取り外し可能ディスクなどの非一時的コンピュータ読み取り可能な記録媒体から受信し（読み取り）、プログラム及びデータをそれに書き込む（保存する）。これらの要素は、従来型のデスクトップ又はワークステーションコンピュータ並びに本明細書で説明する方法を具現するコンピュータプログラムの実行に適した他のコンピュータにも見られ、それらは、任意のデジタル印刷エンジンもしくはマーキングエンジン、ディスプレイモニター、又はカラーもしくはグレイスケールの画素を、紙、フィルム、ディスプレイ画面、もしくは他の出力媒体上に生成可能な他のラスター出力装置とともに使用される。

本明細書で開示する任意のデータは、例えば非一時的コンピュータ読み取り可能な記録媒体上に有形的に格納された１つ以上のデータ構造で具現される。本発明の実施形態は、データをこのようなデータ構造（複数可）に格納し、データをこのようなデータ構造（複数可）から読み取る。

１００グラフィカルユーザーインタフェース（ＧＵＩ）
１０２ａ操作対象集合セクション
１０２ｂ操作除外集合セクション
１０４ａ操作対象集合基準の入力部
１０４ｂ操作除外集合基準の入力部
１０５ａ、１０５ｂ、１２２、１３０、１３４、１４６ボタン
１０６ａ操作対象集合の記述入力部
１０６ｂ操作除外集合の記述入力部
１１０結果集合測定基準領域
１１２ａ〜１１２ｉ列
１１４ａ〜１１４ｄ行
１１６スクロールバー
１２０ａラジオボタングループ
１２０ｂ、１２０ｃ入力部
１３２出力領域
１４０適用母集団定義セクション
１４２適用母集団基準の入力部
１４４適用母集団の記述入力部
２００、４００システム
２０２データセット
２０４ａ、２０４ｂ、２０４ｃレコード
２０６ユーザー
２０８検索エンジン
２１０ａ操作対象集合基準
２１０ｂ操作除外集合基準
２１２結果集合（包括セット）
２１２ａ操作対象集合
２１２ｂ操作除外集合
２１４結果集合出力モジュール
２１６結果集合出力
２１６ａ操作対象集合出力
２１６ｂ操作除外集合出力
２１６ｃ結果集合測定基準出力
２１８結果集合測定基準モジュール
２２０結果集合測定基準
２２０ａ操作対象集合測定基準
２２０ｂ操作除外集合測定基準
２３０一意の内容要素抽出手段
２３２一意の内容要素リスト
２３４一意の内容要素ソーター
２３６ソートされた一意の内容要素リスト（ソート済みリスト）
２３８フィルタ処理モジュール
２４０フィルタ処理された一意の内容要素リスト（フィルタ処理済みリスト）
２４２内容要素除外手段
２４６最終内容要素リスト
２４８予測モデル生成手段
２５０予測モデル
３００方法

Claims

少なくとも１つのコンピュータプロセッサによって実行される方法であって、
（Ａ）操作対象集合基準に一致する要素について第１のデータセットを検索して前記第１のデータセットの第１のサブセットを含む操作対象集合を識別する段階と、
（Ｂ）操作除外集合基準に一致する要素について前記第１のデータセットを検索して前記第１のデータセットの第２のサブセットを含む操作除外集合を識別する段階と、
（Ｃ）前記操作対象集合及び前記操作除外集合から選択された一意の内容要素の集合を識別する段階と、
（Ｄ）前記一意の内容要素の集合をソートしてソートされた一意の内容要素の集合を生成する段階と、
（Ｅ）前記ソートされた一意の内容要素の集合から前記ソートされた一意の内容要素の集合内の最初のＮ個の要素を除く全てをフィルタ処理してフィルタ処理された一意の内容要素の集合を生成する段階と、
（Ｆ）前記フィルタ処理された一意の内容要素の集合から少なくとも１つの内容要素を除外して一意の内容要素の最終集合を生成する段階と、
（Ｇ）前記一意の内容要素の最終集合に基づき予測モデルを生成する段階と、
を有することを特徴とする予測モデル生成方法。
（Ｈ）（Ｅ）の前に、値Ｎを表す入力をユーザーから受信する段階を更に含むことを特徴とする請求項１に記載の予測モデル生成方法。
（Ｆ）は、
（Ｆ−１）前記フィルタ処理された一意の内容要素の集合の少なくとも一部を表す出力をユーザーに提供する段階を含むことを特徴とする請求項１に記載の予測モデル生成方法。
（Ｆ）は、
（Ｆ−２）前記少なくとも１つの内容要素を指定する入力をユーザーから受信して前記フィルタ処理された一意の内容要素の集合から前記少なくとも１つの内容要素を除外する段階を更に含むことを特徴とする請求項３に記載の予測モデル生成方法。
（Ｄ）は、一意の内容要素Ｅの各々に対して、
（Ｄ−１）前記要素Ｅを含む前記操作対象集合内のレコードのパーセンテージ（ＩＰ）を識別する段階と、
（Ｄ−２）前記要素Ｅを含む前記操作除外集合内のレコードのパーセンテージ（ＥＰ）を識別する段階と、
（Ｄ−３）前記ＩＰと前記ＥＰとの間の差の絶対値｜ＩＰ−ＥＰ｜を識別する段階と、
（Ｄ−４）前記一意の内容要素の集合内の前記一意の内容要素の前記絶対値｜ＩＰ−ＥＰ｜により前記一意の内容要素の集合を降順にソートして前記ソートされた一意の内容要素の集合を生成する段階と、を含むことを特徴とする請求項１に記載の予測モデル生成方法。
前記一意の内容要素の集合は、少なくとも１つの離散的内容要素を含むことを特徴とする請求項１に記載の予測モデル生成方法。
前記一意の内容要素の集合は、少なくとも１つの自由形式テキストの内容要素を含むことを特徴とする請求項１に記載の予測モデル生成方法。
前記一意の内容要素の集合は、少なくとも１つの概念内容要素を含むことを特徴とする請求項１に記載の予測モデル生成方法。
前記一意の内容要素の集合は、少なくとも１つの離散的内容要素を更に含むことを特徴とする請求項８に記載の予測モデル生成方法。
前記一意の内容要素の集合は、少なくとも１つの自由形式テキストの内容要素を更に含むことを特徴とする請求項８に記載の予測モデル生成方法。
前記一意の内容要素の少なくとも１つは、前記操作対象集合内に無いことを特徴とする請求項１に記載の予測モデル生成方法。
前記一意の内容要素の少なくとも１つは、前記操作除外集合内に無いことを特徴とする請求項１に記載の予測モデル生成方法。
前記一意の内容要素の少なくとも１つは、前記操作対象集合内に無いことを特徴とする請求項１２に記載の予測モデル生成方法。
（Ｈ）前記予測モデルを第２のデータセットに適用して前記操作対象集合基準を満たすように前記予測モデルによって予測される前記第２のデータセットのサブセットを生成する段階を更に含むことを特徴とする請求項１に記載の予測モデル生成方法。
前記操作除外集合基準は、前記操作対象集合基準の論理補集合を表すことを特徴とする請求項１に記載の予測モデル生成方法。
少なくとも１つのコンピュータプロセッサに予測モデル生成方法を実行させるためのコンピュータプログラム命令を記録したコンピュータ読み取り可能な記録媒体であって、
前記予測モデル生成方法は、
（Ａ）操作対象集合基準に一致する要素について第１のデータセットを検索して前記第１のデータセットの第１のサブセットを含む操作対象集合を識別する段階と、
（Ｂ）操作除外集合基準に一致する要素について前記第１のデータセットを検索して前記第１のデータセットの第２のサブセットを含む操作除外集合を識別する段階と、
（Ｃ）前記操作対象集合及び前記操作除外集合から選択された一意の内容要素の集合を識別する段階と、
（Ｄ）前記一意の内容要素の集合をソートしてソートされた一意の内容要素の集合を生成する段階と、
（Ｅ）前記ソートされた一意の内容要素の集合から前記ソートされた一意の内容要素の集合内の最初のＮ個の要素を除く全てをフィルタ処理してフィルタ処理された一意の内容要素の集合を生成する段階と、
（Ｆ）前記フィルタ処理された一意の内容要素の集合から少なくとも１つの内容要素を除外して一意の内容要素の最終集合を生成する段階と、
（Ｇ）前記一意の内容要素の最終集合に基づき予測モデルを生成する段階と、を有することを特徴とするコンピュータ読み取り可能な記録媒体。
（Ｈ）（Ｅ）の前に、値Ｎを表す入力をユーザーから受信する段階を更に含むことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記録媒体。
（Ｆ）は、
（Ｆ−１）前記フィルタ処理された一意の内容要素の集合の少なくとも一部を表す出力をユーザーに提供する段階を含むことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記録媒体。
（Ｆ）は、
（Ｆ−２）前記少なくとも１つの内容要素を指定する入力をユーザーから受信して前記フィルタ処理された一意の内容要素の集合から前記少なくとも１つの内容要素を除外する段階を更に含むことを特徴とする請求項１８に記載のコンピュータ読み取り可能な記録媒体。
（Ｄ）は、一意の内容要素Ｅの各々に対して、
（Ｄ−１）前記要素Ｅを含む前記操作対象集合内のレコードのパーセンテージ（ＩＰ）を識別する段階と、
（Ｄ−２）前記要素Ｅを含む前記操作除外集合内のレコードのパーセンテージ（ＥＰ）を識別する段階と、
（Ｄ−３）前記ＩＰと前記ＥＰとの間の差の絶対値｜ＩＰ−ＥＰ｜を識別する段階と、
（Ｄ−４）前記一意の内容要素の集合内の前記一意の内容要素の前記絶対値｜ＩＰ−ＥＰ｜により前記一意の内容要素の集合を降順にソートして前記ソートされた一意の内容要素の集合を生成する段階とを含むことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記録媒体。
前記一意の内容要素の集合は、少なくとも１つの離散的内容要素を含むことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記録媒体。
前記一意の内容要素の集合は、少なくとも１つの自由形式テキストの内容要素を含むことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記録媒体。
前記一意の内容要素の集合は、少なくとも１つの概念内容要素を含むことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記録媒体。
前記一意の内容要素の集合は、少なくとも１つの離散的内容要素を更に含むことを特徴とする請求項２３に記載のコンピュータ読み取り可能な記録媒体。
前記一意の内容要素の集合は、少なくとも１つの自由形式テキストの内容要素を更に含むことを特徴とする請求項２３に記載のコンピュータ読み取り可能な記録媒体。
前記一意の内容要素の少なくとも１つは、前記操作対象集合内に無いことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記録媒体。
前記一意の内容要素の少なくとも１つは、前記操作除外集合内に無いことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記録媒体。
前記一意の内容要素の少なくとも１つは、前記操作対象集合内に無いことを特徴とする請求項２７に記載のコンピュータ読み取り可能な記録媒体。
（Ｈ）前記予測モデルを第２のデータセットに適用して前記操作対象集合基準を満たすように前記予測モデルによって予測される前記第２のデータセットのサブセットを生成する段階を更に含むことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記録媒体。
前記操作除外集合基準は、前記操作対象集合基準の論理補集合を表すことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記録媒体。