JP2022525089A

JP2022525089A - 医療データ自動収集セグメンテーション及び分析のための方法、装置、及びコンピュータプログラム

Info

Publication number: JP2022525089A
Application number: JP2021554635A
Authority: JP
Inventors: ジャン，シャンチン; トゥ，ミン; ドゥ，ナン; シエ，ユィション; リ，ヤリアン; ヤン，タオ; ファン，ウエイ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2019-04-10
Filing date: 2020-02-27
Publication date: 2022-05-11
Anticipated expiration: 2040-02-27
Also published as: EP3923792A4; US20200327964A1; US10943673B2; CN114008623A; JP7242889B2; EP3923792A1; WO2020209945A1

Abstract

医療データ自動収集セグメンテーション及び分析の方法は、複数のソースから、複数のフォーマットにある非構造化医療データを収集するステップと、医学辞書を用いて、前記非構造化医療データの各ピースの医学名エンティティを認識するステップと、前記非構造化医療データの各ピースが、同じトピックを共有するグループに分割されるように、前記非構造化医療データの各ピースに対してセマンティックテキスト分割を実行するステップと、を含む。当該方法は更に、医学名エンティティが認識された前記非構造化医療データの各ピースを構造化医療データとして生成するステップであり、前記非構造化医療データの各ピースは前記グループに分割されている、ステップと、前記構造化医療データをエラスティック検索クラスタへとインデックス付けするステップと、を含む。

Description

この出願は、米国特許商標庁に２０１９年４月１０日に出願された米国特許出願第１６／３７９，９９２号からの優先権を主張するものであり、それをその全体にてここに援用する。

伝統的な医療データプラットフォームは、非常にコストがかかるとともに非効率的である。第１のアプローチは、データセットに標準的な又は体系的な医学書を用いており、それら医学書にアクセスするのは容易でもなければ安価でもない。第２のアプローチは、医学的バックグラウンドを持つ専門家に頼んで、プロセスに関与してもらい、ラベリング又はデータクリーニングを行ってもらっている。しかしながら、このアプローチは、予測不能な処理時間、及び手作業についての高コストにつながる。

現行のアプローチの別の１つの欠点は、データの量が、人間が理解するのには効率的であるが、機械が学習するのには十分でないことである。実際、大抵のディープラーニングベースの方法は、モデルを学習するために大量の訓練データを必要とする。

実施形態によれば、医療データ自動収集セグメンテーション及び分析の方法は、複数のソースから、複数のフォーマットにある非構造化医療データを収集するステップと、医学辞書を用いて、前記非構造化医療データの各ピースの医学名エンティティを認識するステップと、前記非構造化医療データの各ピースが、同じトピックを共有するグループに分割されるように、前記非構造化医療データの各ピースに対してセマンティックテキスト分割を実行するステップと、を含む。当該方法は更に、医学名エンティティが認識された前記非構造化医療データの各ピースを構造化医療データとして生成するステップであり、前記非構造化医療データの各ピースは前記グループに分割されている、ステップと、前記構造化医療データをエラスティック検索クラスタへとインデックス付けするステップと、を含む。

実施形態によれば、医療データ自動収集セグメンテーション及び分析のための装置であって、当該装置は、プログラムコードを格納するように構成された少なくとも１つのメモリと、前記プログラムコードを読み出し、前記プログラムコードによって命令されるように動作するよう構成された少なくとも１つのプロセッサと、を含む。前記プログラムコードは、前記少なくとも１つのプロセッサに、複数のソースから、複数のフォーマットにある非構造化医療データを収集させるように構成された収集コードと、前記少なくとも１つのプロセッサに、医学辞書を用いて、前記非構造化医療データの各ピースの医学名エンティティを認識させるように構成された認識コードと、前記少なくとも１つのプロセッサに、前記非構造化医療データの各ピースが、同じトピックを共有するグループに分割されるように、前記非構造化医療データの各ピースに対してセマンティックテキスト分割を実行させるように構成された実行コードと、を含む。前記プログラムコードは更に、前記少なくとも１つのプロセッサに、医学名エンティティが認識された前記非構造化医療データの各ピースを構造化医療データとして生成させるように構成された第１生成コードであり、前記非構造化医療データの各ピースは前記グループに分割されている、第１生成コードと、前記少なくとも１つのプロセッサに、前記構造化医療データをエラスティック検索クラスタへとインデックス付けさせるように構成されたインデックス付けコードと、を含む。

実施形態によれば、非一時的なコンピュータ読み取り可能媒体が命令を格納しており、該命令は、装置の少なくとも１つのプロセッサによって実行されるときに、前記少なくとも１つのプロセッサに、複数のソースから、複数のフォーマットにある非構造化医療データを収集させ、医学辞書を用いて、前記非構造化医療データの各ピースの医学名エンティティを認識させ、前記非構造化医療データの各ピースが、同じトピックを共有するグループに分割されるように、前記非構造化医療データの各ピースに対してセマンティックテキスト分割を実行させ、医学名エンティティが認識された前記非構造化医療データの各ピースを構造化医療データとして生成させ、前記非構造化医療データの各ピースは前記グループに分割されており、前記構造化医療データをエラスティック検索クラスタへとインデックス付けさせる。

実施形態に従った、ここに記載される方法、装置、及びシステムが実装され得る環境の図である。図１の１つ以上の装置のコンポーネント例の図である。実施形態に従った、医療データプラットフォームのコンポーネントアーキテクチャの図である。実施形態に従った、セマンティックテキスト分割を実行するＮＬＰモジュールに実装されるトピック確率構造の図である。実施形態に従った、データからのセマンティック階層構造を用いてエラスティック検索クラスタを生成する方法の図である。実施形態に従った、医療データ自動収集セグメンテーション及び分析の方法のフローチャートである。実施形態に従った、医療データ自動収集セグメンテーション及び分析のための装置の図である。

ここに記載される実施形態は、データの収集及び変換について低コストで、高品質で信頼できる医学知識ベースを構築する医療データプラットフォームを含む。当該医療データプラットフォームは、低品質の、低コストの、管理されていない大量のデータから、高品質の医療ファクト（医学的事実）ストレージを構築する、自動スケーリングされ、大規模データドリブンの、エラスティック検索ベースのプラットフォームである。当該プラットフォームの主なコンポーネントは、生データ収集のためのウェブクローラ、光学式文字認識（optical character recognition；ＯＣＲ）並びにデータクリーニング及びフォーマッティングのための抽出、変換、ロード（extract，transform，load；ＥＴＬ）パイプライン、テキスト分割（セグメンテーション）のための潜在的ディリクレ配分（latent Dirichlet allocation；ＬＤＡ）モデル及び非負値行列因数分解（non-negative matrix factorization；ＮＭＦ）モデル、並びにデータのインデックス付け及びストレージのための自動スケーリングされるエラスティック検索クラスタを含む。

詳細には、医学的な問題を解くためにディープラーニングモデルを利用する必要性が増え続けているため、確かで適切な医療ファクト及び医療データストレージが使用されている。従って、医療データプラットフォームは、医学フォーラム、医学ウェブサイト、及び科学雑誌から、大量の低品質で高ノイズのデータを収集し、実際の医学症例、診断、記事、論文、及び書籍をフィルタリングしている。このマルチソースの構造化されていないデータが、エンティティ認識及び正規化のために自然言語処理（natural language processing；ＮＬＰ）コンポーネントを使用するＥＴＬパイプラインに配されて、非構造化データが構造化エンティティとなる。大きいテキスト及び文書に対して、医療データプラットフォームは、構造化エンティティ間の内部関係を見つけて強制するために、セマンティックテキスト分割のためのＮＭＦモデル及びＬＤＡモデルを用いて、構造化エンティティに対して結合トピックモデリングを実行する。大容量データ記憶及び効率の問題を解決するために、医療データプラットフォームは、自動スケーリング型の分散ストレージシステムを達成すべく、エラスティック検索クラスタを使用する。

上述の医療データプラットフォームは、伝統的なデータプラットフォームからの全ての欠点に対処する。例えば、データ量とコストの問題を解決するために、医療データプラットフォームは、ウェブクローラを用いて、医療クリニック関連ウェブサイトから何百万もの無料文書、段落、及び会話を取り込み、そのようなのマルチソースによりサポートされたデータを変換パイプラインに注入して、該データを構造化データフォーマットに変換する。

他の一例において、データの正確性及び高い品質を保証するために、医療プラットフォームは、ＮＬＰ単語埋め込みモデルを使用して、複数の異なるカテゴリーの医療関連エンティティを認識し、それらのエンティティを、インデックス付けのためにエラスティック検索クラスタに書き込む。エラスティック検索は、データ探索のために単語頻度－逆文書頻度（term frequency-inverse document frequency；ｔｆ‐ｉｄｆ）及びベストマッチング２５（ＢＭ２５）スコア機構を使用する。この方法は、大きなデータボリュームから来るノイズの多いデータを大幅に減らし、関心あるトピック又はドメインについてのみ品質及び精度を高める。

更なる他の一例において、医療データプラットフォームをディープラーニング目的に対して容易で有用なものにするために、使いやすいインタフェースが必要である。医療データプラットフォームは、医療データセットを検索するためにＲＥＳＴｆｕｌアプリケーションプログラムインタフェース（ＡＰＩ）インタフェースを使用する。これは、医療データプラットフォームを、ＴｅｎｓｏｒＦｌｏｗのような一般向けの機械学習フレームワークに組み込みやすいものにする。

図１は、実施形態に従った、ここに記載される方法、装置及びシステムが実装され得る環境１００の図である。図１に示すように、環境１００は、ユーザ装置１１０、プラットフォーム１２０、及びネットワーク１３０を含み得る。環境１００の装置は、有線接続、無線接続、又は有線接続と無線接続との組み合わせ、を介して相互接続し得る。

ユーザ装置１１０は、プラットフォーム１２０に関連する情報を受信、生成、格納、処理、及び／又は提供することができる１つ以上の装置を含む。例えば、ユーザ装置１１０は、コンピューティング装置（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど）、携帯電話（例えば、スマートフォン、無線電話など）、ウェアラブル装置（例えば、一対のスマートグラス又はスマートウォッチ）、又は類似の装置を含み得る。一部の実装において、ユーザ装置１１０は、プラットフォーム１２０から情報を受信し及び／又はプラットフォーム１２０に情報を送信し得る。

プラットフォーム１２０は、この中の別の箇所で説明されるような１つ以上の装置を含む。一部の実装において、プラットフォーム１２０は、クラウドサーバ又は一群のクラウドサーバを含み得る。一部の実装において、プラットフォーム１２０は、ソフトウェアコンポーネントが特定のニーズに応じてスワップイン又はスワップアウトされ得るよう、モジュール式であるように設計され得る。そのようなものとして、プラットフォーム１２０は、異なる使用のために容易に且つ／或いは迅速に再構成されることができる。

一部の実装において、図示のように、プラットフォーム１２０は、クラウドコンピューティング環境１２２内でホストされ得る。特に、ここに記載される実装は、プラットフォーム１２０をクラウドコンピューティング環境１２２内でホストされるものとして記述するが、一部の実装では、プラットフォーム１２０は、クラウドベースでなく（すなわち、クラウドコンピューティング環境の外で実装されてもよく）、あるいは、部分的にクラウドベースであってもよい。

クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストする環境を含む。クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストするシステム及び／又は装置の物理的な位置及び構成に関するエンドユーザ（例えば、ユーザ装置１１０）知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供し得る。図示のように、クラウドコンピューティング環境１２２は、一群の計算リソース１２４（まとめて“計算リソース群１２４”と称し、個々に“計算リソース１２４”と称する）を含み得る。

計算リソース１２４は、１つ以上のパーソナルコンピュータ、ワークステーションコンピュータ、サーバ装置、又は他の種類の計算及び／又は通信装置を含む。一部の実装において、計算リソース１２４はプラットフォーム１２０をホストし得る。クラウドリソースは、計算リソース１２４において実行される計算インスタンス、計算リソース１２４内で提供されるストレージ装置、計算リソース１２４によって提供されるデータ転送装置などを含み得る。一部の実装において、計算リソース１２４は、有線接続、無線接続、又は有線接続と無線接続との組み合わせを介して、他の計算リソース１２４と通信し得る。

図１に更に示すように、計算リソース１２４は、例えば、１つ以上のアプリケーション（“ＡＰＰ”）１２４－１、１つ以上の仮想マシン（“ＶＭ”）１２４－２、仮想化ストレージ（“ＶＳ”）１２４－３、１つ以上のハイパーバイザ（“ＨＹＰ”）１２４－４、又はこれらに類するものなどの、一群のクラウドリソースを含む。

アプリケーション１２４－１は、ユーザ装置１１０及び／又はプラットフォーム１２０に提供され又はそれらによってアクセスされ得る１つ以上のソフトウェアアプリケーションを含む。アプリケーション１２４－１は、ユーザ装置１１０上にソフトウェアアプリケーションをインストールして実行する必要をなくし得る。例えば、アプリケーション１２４－１は、プラットフォーム１２０に関連するソフトウェア、及び／又はクラウドコンピューティング環境１２２を介して提供されることが可能な任意の他のソフトウェアを含み得る。一部の実装において、１つのアプリケーション１２４－１が、仮想マシン１２４－２を介して、１つ以上の他のアプリケーション１２４－１に／から情報を送信／受信し得る。

仮想マシン１２４－２は、物理的なマシンのようにプログラムを実行するマシン（例えば、コンピュータ）のソフトウェア実装を含む。仮想マシン１２４－２は、仮想マシン１２４－２による何らかの実マシンへの対応の程度及び用途に応じて、システム仮想マシン又はプロセス仮想マシンのいずれであってもよい。システム仮想マシンは、完全なオペレーティングシステム（“ＯＳ”）の実行をサポートする完全なシステムプラットフォームを提供し得る。プロセス仮想マシンは、単一のプログラムを実行することができ、単一のプロセスをサポートし得る。一部の実装において、仮想マシン１２４－２は、ユーザ（例えば、ユーザ装置１１０）の代わりに実行を行うことができ、例えばデータ管理、同期、又は長時間データ転送など、クラウドコンピューティング環境１２２のインフラストラクチャを管理することができる。

仮想化ストレージ１２４－３は、計算リソース１２４のストレージシステム又は装置の中で仮想化技術を使用する１つ以上のストレージシステム及び／又は１つ以上の装置を含む。一部の実装において、ストレージシステムのコンテキスト内で、仮想化のタイプは、ブロック仮想化及びファイル仮想化を含み得る。ブロック仮想化は、物理的なストレージ又は異種構造に関係なくストレージシステムがアクセスされ得るようにする、論理ストレージの物理ストレージからの抽象化（又は分離）を指すとし得る。この分離は、管理者がエンドユーザのためにストレージを管理する方法における柔軟性をストレージシステムの管理者に許すことができる。ファイル仮想化は、ファイルレベルでアクセスされるデータと、ファイルが物理的に格納される場所との間の依存関係を排除し得る。これは、ストレージ使用の最適化、サーバ統合、及び／又は中断のないファイル移動の実行を可能にし得る。

ハイパーバイザ１２４－４は、例えば計算リソース１２４などのホストコンピュータ上で複数のオペレーティングシステム（例えば、“ゲストオペレーティングシステム”）が同時に実行することを可能にするハードウェア仮想化技術を提供し得る。ハイパーバイザ１２４－４は、ゲストオペレーティングシステムに対して仮想オペレーティングプラットフォームを提示することができ、ゲストオペレーティングシステムの実行を管理することができる。多様なオペレーティングシステムの複数のインスタンスが、仮想化ハードウェアリソースを共有し得る。

ネットワーク１３０は、１つ以上の有線ネットワーク及び／又は無線ネットワークを含み得る。例えば、ネットワーク１３０は、セルラネットワーク（例えば、第５世代（５Ｇ）ネットワーク、ロングタームエボリューション（ＬＴＥ）ネットワーク、第３世代（３Ｇ）ネットワーク、符号分割多元接続（ＣＤＭＡ）ネットワークなど）、公衆陸上モバイルネットワーク（ＰＬＭＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、電話ネットワーク（例えば、公衆交換電話ネットワーク（ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワーク、若しくはこれらに類するもの、及び／又はこれら若しくは他のタイプのネットワークの組み合わせを含み得る。

図１に示した装置及びネットワークの数及び構成は、一例として提供されている。実際には、図１に示したものに対して、追加の装置及び／又はネットワーク、より少ない装置及び／又はネットワーク、異なる装置及び／又はネットワーク、又は異なる構成の装置及び／又はネットワークが存在し得る。また、図１に示した２つ以上の装置が単一の装置内に実装されてもよいし、あるいは、図１に示した単一の装置が複数の分散された装置として実装されてもよい。加えて、あるいは代わりに、環境１００の装置のセット（例えば、１つ以上の装置）が、環境１００の装置の別のセットによって実行されるとして記載された１つ以上の機能を実行してもよい。

図２は、図１の１つ以上の装置のコンポーネント例の図である。装置２００は、ユーザ装置１１０及び／又はプラットフォーム１２０に対応し得る。図２に示すように、装置２００は、バス２１０、プロセッサ２２０、メモリ２３０、ストレージコンポーネント２４０、入力コンポーネント２５０、出力コンポーネント２６０、及び通信インタフェース２７０を含み得る。

バス２１０は、装置２００のコンポーネント間での通信を可能にするコンポーネントを含む。プロセッサ２２０は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組み合わせで実装される。プロセッサ２２０は、中央演算処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、アクセラレーテッドプロセッシングユニット（ＡＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は他のタイプの処理コンポーネントである。一部の実装において、プロセッサ２２０は、機能を実行するようにプログラムされることが可能な１つ以上のプロセッサを含む。メモリ２３０は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、及び／又は、プロセッサ２２０による使用のための情報及び／又は命令を格納する他のタイプの動的又は静的な記憶デバイス（例えば、フラッシュメモリ、磁気メモリ、及び／又は光メモリ）を含む。

ストレージコンポーネント２４０は、装置２００の動作及び使用に関係する情報及び／又はソフトウェアを格納する。例えば、ストレージコンポーネント２４０は、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、及び／又はソリッドステートディスク）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク（登録商標）、カートリッジ、磁気テープ、及び／又は他のタイプの非一時的なコンピュータ読み取り可能媒体を、対応するドライブと共に含み得る。

入力コンポーネント２５０は、装置２００が、例えばユーザ入力を介してなどで、情報を受信することを可能にするコンポーネントを含む（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び／又はマイクロフォン）。加えて、あるいは代わりに、入力コンポーネント２５０は、情報をセンシングするセンサ（例えば、グローバルポジショニングシステム（ＧＰＳ）コンポーネント、加速度計、ジャイロスコープ、及び／又はアクチュエータ）を含んでもよい。出力コンポーネント２６０は、装置２００からの出力情報を提供するコンポーネントを含む（例えば、ディスプレイ、スピーカ、及び／又は１つ以上の発光ダイオード（ＬＥＤ））。

通信インタフェース２７０は、装置２００が、例えば有線接続、無線接続、又は有線接続と無線接続との組み合わせを介してなどで、他の装置と通信することを可能にするトランシーバのようなコンポーネント（例えば、トランシーバ及び／又は別個の受信器と送信器）を含む。通信インタフェース２７０は、装置２００が他の装置から情報を受信すること及び／又は他の装置に情報を提供することを可能にする。例えば、通信インタフェース２７０は、イーサネット（登録商標）インタフェース、光インタフェース、同軸インタフェース、赤外線インタフェース、無線周波数（ＲＦ）インタフェース、ユニバーサルシリアルバス（ＵＳＢ）インタフェース、Ｗｉ－Ｆｉインタフェース、セルラネットワークインタフェース、又はこれらに類するものを含み得る。

装置２００は、ここに記載される１つ以上のプロセスを実行し得る。装置２００は、それらのプロセスを、例えばメモリ２３０及び／又はストレージコンポーネント２４０などの非一時的なコンピュータ読み取り可能媒体によって格納されたソフトウェア命令をプロセッサ２２０が実行することに応答して実行し得る。コンピュータ読み取り可能媒体は、ここでは、非一時的なメモリ装置として定義される。メモリ装置は、単一の物理的記憶装置内の記憶空間を含み、又は複数の物理的記憶装置にわたって広がった記憶空間を含む。

ソフトウェア命令が、メモリ２３０及び／又はストレージコンポーネント２４０に、他のコンピュータ読み取り可能媒体から又は通信インタフェース２７０を介して他の装置から読み込まれ得る。メモリ２３０及び／又はストレージコンポーネント２４０に格納されたソフトウェア命令は、実行されるときに、プロセッサ２２０に、ここに記載される１つ以上のプロセスを実行させ得る。加えて、あるいは代わりに、ここに記載される１つ以上のプロセスを実行するために、ソフトウェア命令の代わりに又はそれと組み合わせてハードワイヤード回路が使用されてもよい。従って、ここに記載される実装、ハードウェア回路とソフトウェアとの如何なる特定の組み合わせにも限定されるものではない。

図２に示したコンポーネントの数及び構成は、一例として提供されている。実際には、装置２００は、図２に示したものに対して、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は異なる構成のコンポーネントを含み得る。加えて、あるいは代わりに、装置２００のコンポーネントのセット（例えば、１つ以上のコンポーネント）が、装置２００のコンポーネントの別のセットによって実行されるとして記載された１つ以上の機能を実行してもよい。

ここに記載される実施形態は、高価で限られた医療データセット及び手作業によるラベル付け作業に頼ることなく、大規模で良質な医学知識ベースを確立する。詳細には、ここに記載される医療データプラットフォームは、インターネットからの、ユーザ及び医師によって生成された大量の無料又は低コストのデータを利用する。そのようなマルチソースの非構造化データを当該医療データプラットフォーム内のＮＬＰモジュールを用いて正規化し、エラスティック検索クラスタに基づいて全ての文書をインデックス付けすることにより、当該医療データプラットフォームは、医療に提供される入力からの類似性をランク付けする及び比較することによって、強く相関した医療ファクト及びデータポイントを提供する。当該医療データプラットフォームは、一般向けのディープラーニングプラットフォームでいっそう容易に組み込まれるようにＲＥＳＴｆｕｌＡＰＩインタフェースを使用し、そのことが、当該医療データプラットフォームを、その大量のデータセットという特性を利用するのにいっそう強力なものにする。

図３は、実施形態に従った、医療データプラットフォーム３００のコンポーネントアーキテクチャの図である。

図３を参照するに、医療データプラットフォーム３００は、マルチソースのマルチフォーマットの非構造化データ３１０と、ウェブクローラ３１５と、マルチソースのマルチフォーマットの非構造化データ処理部３２０と、エラスティック検索ベースのインデックス及びスコアリング部３３０と、医療データセット外部ＡＰＩ３４０とを含んでいる。

非構造化データ３１０は、例えば、医学書３１１、診断事例３１２、フォーラムディスカッション３１３、及び医学論文３１４を含み得る。

ウェブクローラ３１５は、インターネット中を巡回して非構造化データ３１０を収集する。

処理部３２０は、ＥＴＬモジュール３２１、第１のＮＬＰモジュール３２２、及び第２のＮＬＰモジュール３２３を含み、収集された非構造化データ３１０を正規化された構造データ３２４へと処理する。

ＥＴＬモジュール３２１は、収集された非構造化データ３１０のデータクリーニング及びフォーマット化を実行する。

第１のＮＬＰモジュール３２２は、クリーニング及びフォーマット化されていてもよい非構造化データ３１０上で名称エンティティ認識を実行する。詳細には、医療データプラットフォーム３００は、名称エンティティ認識及び正規化のための単語埋め込みベースの医学辞書３３１を含むことができ、それが、ウェブサイト及びフォーラムから生成された何百万もの無料コンテンツを有する高品質の専門医療データセットを提供する。高ノイズの非構造化データ３１０の全てを利用するには、良好な正規化が鍵となる。第１のＮＬＰモジュール３２２は、単語埋め込みベースの機構を用いて、生の非構造化データ３１０の全てから医学辞書３３１を学習する。この機構は、非構造化データ３１０から、医学エンティティの異なる次元の概念を表す１２８個の特徴を選択し、そして、Ｓｋｉｐ－ｇｒａｍモデルを用いて単語ベクトル及びトピックモデルを訓練することを含み得る。単語ベクトルを得た後、ベクトルの余弦が類似度として計算される。単語ベクトルに基づいて、同義語辞書、ストップワード辞書、及びエンティティ辞書が生成される。データ前処理の後、コンテンツ又は非構造化データ３１０の各ピースが、ベクトルに投影され、正規化された医学エンティティにマッピングされる。この正規化フレーズは、生の非構造化データ３１０からのノイズの影響を大幅に減らし、医療データプラットフォーム３００の下流モジュールを削減する。

第２のＮＬＰモジュール３２３は、クリーニング及びフォーマット化されていてもよい非構造化データ３１０のセマンティックテキスト分割を実行する。

全てのオンラインリソースから収集された様々なデータポイントをサンプリングすることにより、コンテンツ又は非構造化データ３１０は部分的にのみ有用な医療情報を含み得る。また、同じトピックに関する文が自然に一緒にグループ化され得る。これらのポイントに基づき、２つの文がコンテンツ全体内で遠く離れて位置するほど、セマンティックの観点からそれらが相関を持つことは少ないと仮定することができる。従って、トピックモデリングのためにＬＤＡモデル及びＮＭＦモデルを用いて、組み合わせによる方法が実行される。

図４は、実施形態に従った、セマンティックテキスト分割を実行するＮＬＰモジュール（例えば、第２のＮＬＰモジュール３２３）に実装されるトピック確率構造４００の図である。

構造４００は、ＬＤＡモデル４０３、ＮＭＦモデル４０４、ソフトマックス（ｓｏｆｔｍａｘ）関数４０７、ソフトマックス関数４０８、加算ブロック４０９、及び平均化ブロック４１０を含んでいる。

ＬＤＡモデル４０３は、非構造化データ３１０に対応する全単語トレーニングセット４０１によって訓練される。トレーニングセット４０１の各々が、段落によって及び／又は行若しくは文によって分割される。

ＮＭＦモデル４０４は、非構造化データ３１０に対応するテストセット４０２によって訓練される。テストセット４０２は、行又は文によって分割される。

非構造化データ３１０の各段落内の各文について、ＬＤＡモデル４０３がＬＤＡスコア４０５を出力するとともに、ＮＭＦモデル４０４がＮＭＦスコア４０６を出力する。ＬＤＡスコア４０５に対してソフトマックス関数４０７が実行され、２方向においてその文に隣接するもののうち多くて３つの文に対する第１の標準導出スコアが生成される。ＮＭＦスコア４０６に対してソフトマックス関数４０８が実行され、２方向においてその文に隣接するもののうち多くて３つの文に対する第２の標準導出スコアが生成される。

加算ブロック４０９が、第１の標準導出スコアと第２の標準導出スコアとを足し合わせる。平均化ブロック４１０が、加算された第１の標準導出スコア及び第２の標準導出スコアを平均することによって平均スコアを決定する。

再び図３を参照するに、平均スコアに基づいて、第２のＮＬＰモジュール３２３が、文のトピックを決定する。上述のトピックモデリングに基づいて、各入力段落が、同じトピックを共有する文のグループによって分割される。セマンティックテキスト分割を使用すると、文のみ又は段落のみの分割を使用するのと比較して、構造化データ３２４の正確さが大きく高まる。

処理部３２０は、正規化された構造化データ３２４を出力する。構造化データ３２４の各ピースが、クリーニング及びフォーマットされ、認識された医学名エンティティに対応し、段落を含むことができ、その各々が、同じトピックを共有する文のグループによって分割される複数の段落を含み得る。

エラスティック検索ベースのインデックス及びスコアリング部３３０は、構造化データ３２４を、格納のため及び医療データセット外部ＡＰＩ３４０を介した出力又は表示のために、エラスティック検索クラスタへとインデックス付け及びスコア付けする。ＡＰＩ３４０は、エラスティック検索クラスタのうちの少なくとも１つを探索するために使用されることができ、エラスティック検索クラスタのうちの少なくとも１つを医療データセットとして表示し得る。

エラスティック検索ベースのインデックス及びスコアリング部３３０は、医学辞書３３１と、構造化データ３２４上でツリー構造インデックス付けを実行して構造化データ３２４をエラスティック検索クラスタに書き込む及びインデックス最適化モジュール３３２とを含み得る。詳細には、人間は、セマンティック情報又は階層構造を表現するようにコンテンツをグループ化することを自然に好む。異なる生データソース（すなわち、マルチソースのマルチフォーマットの非構造化データ３１０）内で、数多くの有用な階層的医療情報が生データポイントのメタデータに対して見出され得る。例えば、医師又はウェブサイトによって、自身の臨床症状を記述する患者に関するオンラインディスカッションがカテゴリー分けされたりタグ付けされたりすることがある。そのような予めラベル付けられたワークは、医療データプラットフォーム３００に関するデータ品質を高めるために非常に価値があり得る。従って、メタデータからのキーとなるエンティティが非構造化データ３１０又は構造化データ３２４から選定され、そして、非構造化データ３１０又は構造化データ３２４に対して、それらキーエンティティを用いてツリー構造が再構成される。すなわち、非構造化データ３１０又は構造化データ３２４の階層的医療情報が保持され、エラスティック検索クラスタに注入される。故に、それに従って重要な層又は関係がインデックス付けられて異なる重みを与えられ得る。エラスティック検索クラスタリングのフラットな注入を、エラスティック検索クラスタリングのためにツリー構造インデックスを用いることと比較すると、内部関係及び階層情報を強調することによってデータ品質が高められる。

図５は、実施形態に従った、データからのセマンティック階層構造を用いてエラスティック検索クラスタを生成する方法の図である。

図５を参照するに、例えば、階層的医療情報が医学書５１０から抽出され、それを用いて、ルートノード（root）と例えば“節（section）”及び“章（chapter）”といったリーフノードとを含むツリー構造５２０が生成される。ツリー構造５２０を用いて、エラスティック検索クラスタ又は構造化されたエラスティック検索（elastic search；ＥＳ）データポイント５３０が生成される。

再び図３を参照するに、エラスティック検索ベースのインデックス及びスコアリング部３３０は更に、エラスティック検索クラスタに関するクエリをカスタマイズするカスタマイズクエリモジュール３３３と、エラスティック検索クラスタにそれぞれ異なる重みを適用する重みスコアリングモジュール３３４とを含み得る。

医療データプラットフォーム３００の医療データセット又はエラスティック検索クラスタの品質及び正確さをテストする実験において、中国医学ライセンシング試験からの１２，０００個の実際の難しい医学的質問を医療データプラットフォーム３００に入力した。各質問が５つの選択肢を持ち、１つの選択肢のみが正しい答えであり、２０％が当てずっぽうでの正答率である。医療データプラットフォーム３００を用いて、ディープラーニングモデルを使用せずに、各選択肢を質問と組み合わせることのみによって総当たりクエリを作成した。トップ１正解率は４３％まで大幅に上昇し、トップ２正解率は６３％であった。

図６は、実施形態に従った、医療データ自動収集セグメンテーション及び分析の方法６００のフローチャートである。一部の実装において、図６の１つ以上のプロセスブロックは、プラットフォーム３００を実装するプラットフォーム１２０によって実行され得る。一部の実装において、図６の１つ以上のプロセスブロックは、例えばユーザ装置１１０など、プラットフォーム３００を実装するプラットフォーム１２０とは別の又はそれを含んだ装置又は装置群によって実行されてもよい。

図６に示すように、動作６１０にて、方法６００は、複数のソースから、複数のフォーマットにある非構造化医療データを収集することを含む。

動作６２０にて、方法６００は、医学辞書を用いて、非構造化医療データの各ピースの医学名エンティティを認識することを含む。

動作６３０にて、方法６００は、非構造化医療データの各ピースが、同じトピックを共有するグループに分割されるように、非構造化医療データの各ピースに対してセマンティックテキスト分割を実行することを含む。

動作６４０にて、方法６００は、医学名エンティティが認識された非構造化医療データの各ピースを構造化医療データとして生成することを含み、非構造化医療データの各ピースはグループに分割されている。

動作６５０にて、方法６００は、構造化医療データをエラスティック検索クラスタへとインデックス付けすることを含む。

方法６００は更に、エラスティック検索クラスタのうちの少なくとも１つを探索して表示するように制御することを含み得る。

方法６００は更に、非構造化医療データを用いて医学辞書を生成することを含み得る。

セマンティックテキスト分割を実行することは、非構造化医療データを用いて、潜在的ディリクレ配分（ＬＤＡ）モデル及び非負値行列因数分解（ＮＭＦ）モデルを訓練することを含み得る。

セマンティックテキスト分割を実行することは更に、非構造化医療データの複数の文の各々について、ＬＤＡモデル及びＮＭＦモデルから、それぞれ、ＬＤＡスコア及びＮＭＦスコアを出力し、ＬＤＡスコア及びＮＭＦスコアの各々に対してソフトマックス関数を実行して、それぞれ、第１の標準導出スコア及び第２の標準導出スコアを生成し、第１の標準導出スコアと第２の標準導出スコアとを加算し、加算した第１の標準導出スコア及び第２の標準導出スコアを平均して、平均スコアを決定し、平均スコアに基づいて、複数の文のそれぞれの文のトピックを決定することを含み得る。

方法６００は更に、非構造化医療データの各ピースのメタデータの階層ツリー構造を生成することを含み得る。構造化医療データをインデックス付けすることは、非構造化医療データの各ピースのメタデータの階層ツリー構造を用いて、構造化医療データをエラスティック検索クラスタへとインデックス付けすることを含み得る。

非構造化医療データは、インターネットからの、医学書、診断事例、フォーラムディスカッション及び医学論文のうちのいずれか１つ又は任意の組み合わせを含み得る。

図６は方法６００のブロック例を示しているが、一部の実装において、方法６００は、図６に示したものに対して、追加のブロック、少ないブロック、異なるブロック、又は異なる構成のブロックを含み得る。加えて、あるいは代わりに、方法６００のブロックのうちの２つ以上が並行して実行されてもよい。

図７は、実施形態に従った、医療データ自動収集セグメンテーション及び分析のための装置７００の図である。図７に示すように、装置７００は、収集コード７１０、認識コード７２０、実行コード７３０、第１生成コード７４０、及びインデックス付けコード７５０を含む。

収集コード７１０は、少なくとも１つのプロセッサに、複数のソースから、複数のフォーマットにある非構造化医療データを収集させるように構成される。

認識コード７２０は、上記少なくとも１つのプロセッサに、医学辞書を用いて、非構造化医療データの各ピースの医学名エンティティを認識させるように構成される。

実行コード７３０は、上記少なくとも１つのプロセッサに、非構造化医療データの各ピースが、同じトピックを共有するグループに分割されるように、非構造化医療データの各ピースに対してセマンティックテキスト分割を実行させるように構成される。

第１生成コード７４０は、上記少なくとも１つのプロセッサに、医学名エンティティが認識された非構造化医療データの各ピースを構造化医療データとして生成させるように構成され、非構造化医療データの各ピースはグループに分割されている。

インデックス付けコード７５０は、上記少なくとも１つのプロセッサに、構造化医療データをエラスティック検索クラスタへとインデックス付けさせるように構成される。

装置７００は更に、上記少なくとも１つのプロセッサに、エラスティック検索クラスタのうちの少なくとも１つを探索して表示するように制御させるように構成された制御コード、を含み得る。

装置７００は更に、上記少なくとも１つのプロセッサに、非構造化医療データを用いて医学辞書を生成させるように構成された第２生成コード、を含み得る。

実行コード７３０は更に、上記少なくとも１つのプロセッサに、非構造化医療データを用いて、潜在的ディリクレ配分（ＬＤＡ）モデル及び非負値行列因数分解（ＮＭＦ）モデルを訓練させるように構成され得る。

実行コード７３０は更に、上記少なくとも１つのプロセッサに、非構造化医療データの複数の文の各々について、ＬＤＡモデル及びＮＭＦモデルから、それぞれ、ＬＤＡスコア及びＮＭＦスコアを出力させ、ＬＤＡスコア及びＮＭＦスコアの各々に対してソフトマックス関数を実行させて、それぞれ、第１の標準導出スコア及び第２の標準導出スコアを生成させ、第１の標準導出スコアと第２の標準導出スコアとを加算させ、
加算した第１の標準導出スコア及び第２の標準導出スコアを平均させて、平均スコアを決定させ、平均スコアに基づいて、複数の文のそれぞれの文のトピックを決定させるように構成され得る。

装置７００は更に、上記少なくとも１つのプロセッサに、非構造化医療データの各ピースのメタデータの階層ツリー構造を生成させるように構成された第２生成コード、を含み得る。インデックス付けコード７５０は更に、上記少なくとも１つのプロセッサに、非構造化医療データの各ピースのメタデータの階層ツリー構造を用いて、構造化医療データをエラスティック検索クラスタへとインデックス付けさせるように構成され得る。

以上の開示は、例示及び説明を提供するものであり、網羅的であること、又は開示されたままの形態に実装を限定することを意図するものではない。変更及び変形が、以上の開示に照らして可能であり、又は実装の実施から習得され得る。

ここで使用されるとき、コンポーネントなる用語は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組み合わせとして広く解釈されることが意図される。

明らかになることには、ここに記載されたシステム及び／又は方法は、様々な形態のハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組み合わせで実装され得る。これらのシステム及び／又は方法を実装するのに使用される実際の特殊化された制御ハードウェア又はソフトウェアコードは、実装の限定となるものではない。従って、ここでは、システム及び／又は方法の動作及び挙動を、特定のソフトウェアコードを参照することなく記述しており、理解されることには、ここでの記載に基づくシステム及び／又は方法を実装するように、ソフトウェア及びハードウェアが設計され得る。

複数の機構の組み合わせが請求項に記載され且つ／或いは明細書に開示されているとしても、それらの組み合わせは、可能な実装の開示を限定することを意図するものではない。実際、それらの機構のうち多くは、具体的には請求項に記載され且つ／或いは明細書に開示されたものではないように組み合わされることができる。以下に挙げられる各従属請求項は１つのクレームのみに直接的に従属することがあるが、可能な実装の開示は、各従属請求項を、請求項セット内のあらゆる他のクレームとの組み合わせで含む。

ここで使用される如何なる要素、行為、又は命令も、そのように明示的に記載されない限り、重要又は必須であるとして解釈されるべきでない。また、ここで使用されるとき、冠詞“ａ”及び“ａｎ”は、１つ以上のアイテムを含むことを意図しており、“１つ以上の”と交換可能に使用され得る。さらに、ここで使用されるとき、用語“セット”は、１つ以上のアイテム（例えば、関連アイテム、非関連アイテム、関連アイテムと非関連アイテムとの組み合わせなど）を含むことを意図しており、“１つ以上”と交換可能に使用され得る。１つのアイテムのみが意図される場合には、用語“１つの”又は類似の言葉が使用される。また、ここで使用されるとき、用語“持つ”、“有する”、“持っている”などは、オープンエンドの用語であることを意図している。さらに、“に基づく”という言い回しは、明示的に別の断りがない限り、“少なくとも部分的に基づく”を意味することを意図している。

Claims

少なくとも１つのプロセッサが実行する医療データ自動収集セグメンテーション及び分析の方法であって、
複数のソースから、複数のフォーマットにある非構造化医療データを収集するステップと、
医学辞書を用いて、前記非構造化医療データの各ピースの医学名エンティティを認識するステップと、
前記非構造化医療データの各ピースが、同じトピックを共有するグループに分割されるように、前記非構造化医療データの各ピースに対してセマンティックテキスト分割を実行するステップと、
前記医学名エンティティが認識された前記非構造化医療データの各ピースを構造化医療データとして生成するステップであり、前記非構造化医療データの各ピースは前記グループに分割されている、ステップと、
前記構造化医療データをエラスティック検索クラスタへとインデックス付けするステップと、
を有する方法。
前記エラスティック検索クラスタのうちの少なくとも１つを探索して表示するように制御するステップ、を更に有する請求項１に記載の方法。
前記非構造化医療データを用いて前記医学辞書を生成するステップ、を更に有する請求項１又は２に記載の方法。
前記セマンティックテキスト分割を実行するステップは、前記非構造化医療データを用いて、潜在的ディリクレ配分（ＬＤＡ）モデル及び非負値行列因数分解（ＮＭＦ）モデルを訓練することを有する、請求項１乃至３のいずれか一項に記載の方法。
前記セマンティックテキスト分割を実行するステップは更に、前記非構造化医療データの複数の文の各々について、
前記ＬＤＡモデル及び前記ＮＭＦモデルから、それぞれ、ＬＤＡスコア及びＮＭＦスコアを出力し、
前記ＬＤＡスコア及び前記ＮＭＦスコアの各々に対してソフトマックス関数を実行して、それぞれ、第１の標準導出スコア及び第２の標準導出スコアを生成し、
前記第１の標準導出スコアと前記第２の標準導出スコアとを加算し、
加算した前記第１の標準導出スコア及び前記第２の標準導出スコアを平均して、平均スコアを決定し、
前記平均スコアに基づいて、前記複数の文のそれぞれの文のトピックを決定する、
ことを有する、請求項４に記載の方法。
前記非構造化医療データの各ピースのメタデータの階層ツリー構造を生成するステップ、を更に有し、
前記構造化医療データをインデックス付けするステップは、前記非構造化医療データの各ピースのメタデータの前記階層ツリー構造を用いて、前記構造化医療データを前記エラスティック検索クラスタへとインデックス付けすることを有する、
請求項１乃至５のいずれか一項に記載の方法。
前記非構造化医療データは、インターネットからの、医学書、診断事例、フォーラムディスカッション及び医学論文のうちのいずれか１つ又は任意の組み合わせを有する、請求項１乃至６のいずれか一項に記載の方法。
医療データ自動収集セグメンテーション及び分析のための装置であって、当該装置は、
プログラムコードを格納するように構成された少なくとも１つのメモリと、
少なくとも１つのプロセッサと、
を有し、
前記プログラムコードは、前記少なくとも１つのプロセッサによって実行されるときに、前記少なくとも１つのプロセッサに、請求項１乃至７のいずれか一項に記載の方法を実行させる、装置。
コンピュータに請求項１乃至７のいずれか一項に記載の方法を実行させるコンピュータプログラム。