JP6693252B2 - 類似性計算装置、薬の類似性を計算し及び類似性を用いて副作用を推定する副作用決定装置及びシステム - Google Patents

類似性計算装置、薬の類似性を計算し及び類似性を用いて副作用を推定する副作用決定装置及びシステム Download PDF

Info

Publication number
JP6693252B2
JP6693252B2 JP2016086990A JP2016086990A JP6693252B2 JP 6693252 B2 JP6693252 B2 JP 6693252B2 JP 2016086990 A JP2016086990 A JP 2016086990A JP 2016086990 A JP2016086990 A JP 2016086990A JP 6693252 B2 JP6693252 B2 JP 6693252B2
Authority
JP
Japan
Prior art keywords
drug
similarity
data
drugs
side effect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016086990A
Other languages
English (en)
Other versions
JP2016212853A (ja
Inventor
ヒメネス・エミアー フェルナンド ムニョース
ヒメネス・エミアー フェルナンド ムニョース
アブデルラーマン・アハメド
ノヴァチェク・ヴィート
ヴァンデンブッシェ・ピエール−イヴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2016212853A publication Critical patent/JP2016212853A/ja
Application granted granted Critical
Publication of JP6693252B2 publication Critical patent/JP6693252B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Toxicology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、オープンデータを用いて薬の副作用を早期段階でシグナリングさせる方法に関する。当該方法は、固有特性に基づき薬の類似性を計算することにより、薬に関連する可能性のある副作用を決定できる。本発明は、薬局方の分野であり、無数の薬物に渡る適用を有する。
副作用は、薬物の望ましい効果と一緒に生じる薬物(人間又は動物の身体機能を変える(食物及び水を除く)任意の物質)使用の意図しない又は望まない効果である。例えば、興奮、頭痛、傷口感染、及び吐き気が含まれる。市販前治験及び研究は、薬物に関連する副作用を最初に決定するために使用される場合が多い。しかしながら、市販前治験は、通常、高価でありリスクが高い。このような研究にもかかわらず、多くの未知の副作用が、薬物の販売後に(つまり、市販期間に)報告される。これは、多くの場合、実質的な病的状態、及び死亡さえも引き起こし得る。このようなことが生じると、特に、薬物は市場から除去される。これは、製薬会社のイメージ及び評判を大きく損ない、法律問題を生じ得る。したがって、薬物の副作用を早期に(つまり、薬物製造の早い段階で)検出する低コストシステムは、将来コストを最小限にすると共に、製薬会社及び一般市民の両者のリスクを回避するのに役立つだろう。
決定的でない市販前治験に対処するために、副作用は、FDA(Food and Drug Administration)のような組織により、薬物の発売後、全世界的に監視される。これらの組織は、患者、薬局、医師、及び製薬会社のような複数の情報源から、薬物の副作用に関する報告を集める。さらに、規制行政機関は、一般市民に薬物の使用の望ましくない副作用を報告させる報告システムを設定している。近年、一般からの任意の生成された報告の処理及び記憶を最適化するために、ソフトウェアに基づくソリューションが利用されている。
市販前治験により必要とされるコスト及び時間のために、多くの薬物は、未発見の副作用と共に発売される。この理由から、薬物の販売後に、その副作用は、主に不運な患者反応により偶然に発見される。さらに最近は、このような事象を早期発見して患者に対する損害を回避することを可能にする技術及び方法を設計しようと試みられている。これは、因果関係、推定及び相関の決定を試みるために、過去の報告のような利用可能なデータを用いることにより行われている。
特定の薬物の使用に伴う副作用の発生を予測する既存のソフトウェアシステムは、主に、市販後データに基づき又は商品化後に生成される。これに関して、このようなデータは、患者のデータ、一般市民からの有害事象報告、又は市販後統計資料、を含み得る。システムは、動作するために、このようなデータの可溶性を要求する。これにも係わらず、既存の方法は、発明者により次のように4つのグループに分類された以下の特性/欠点を有する。
(1)「市販後」方法。これは、販売後に利害関係者(例えば、報告機関、患者)から医療フィードバックを集めるために、市場に公然と薬物を販売する必要がある。これらの方法は、主に、不運な事象事件を通じて、つまり患者が副作用を我慢した後に、検出される統計的推測に頼っている。これらの方法は、副作用が経験されるのと機関に報告されるのとの間の有意なタイムラグも有し得る。さらに、統計的に重要なサンプルからのこのようなフィードバックを集めることは、多くの時間及び努力を必要とし、更なる遅延を引き起こし、及び場合によっては一般市民を危険に晒してしまう。
(2)「患者データ」に基づく方法。これは、患者からの個人及び秘密データの収集を要求する。これらの方法は、このようなデータを取得するために必要な異なる法的段階により、本来煩わしく、高コストである。これらの方法は、非常に高価な臨床試験及び患者モニタリングに関連する傾向があり、薬物の非公開使用の場合には一般に高リスクである。
(3)「スモールデータ」方法。この方法では、副作用は、単一の薬物から抽出された特徴の小次元(small dimension)ベクトルに基づき予測される。例えば、これらの方法は、同時に複数の薬物の特性、及びこれらの薬物に関連する副作用を考慮しない。
(4)「完全データ」方法。この方法を動作させるために、特性(特徴)のセットが必要である。これらの方法では、問題の薬物の各々は、必要な固有特性を決定するために、調査を受けなければならない。多くの状況では、製薬会社及び行政機関は、全部のこれらの特性を有することができないので、副作用の予測は可能ではない。
本発明の実施形態は、(i)市場販売の前に利用可能なデータを用いる早期検出方法であり、及び/又は(ii)公開アクセスデータを利用し及び患者データ及び/又は実験的治験に頼らない若しくは要求しない低コストデータ使用を利用する、及び/又は(iii)薬物製造過程及び/又は他の利害関係者を通じて得られる知識の増加的統合を可能にしながら不完全データにより動作可能な、方法を通じて、上述の欠点を克服しようとする。
本発明の一態様の一実施形態によると、オープンデータを用いて薬物の間の類似性を計算するよう構成される類似性計算装置であって、前記装置は、複数のオープンデータソースから薬物セットに関連するデータを得て、該データを統合しRDFトリプルを生成するよう構成されるデータ統合モジュールと、前記RDFトリプルのRDFグラフを格納するよう構成されるRDFモジュールと、前記RDFグラフの中に存在する全ての前記薬物のリストを読み出し、前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するよう構成される類似性計算モジュールと、を有する装置が提供される。
方法は、過去に薬物について識別された知られている副作用から学ぶので、薬物が多いほど、システムは良好に収容する。しかしながら、薬物セットは、特定の医療処置又はサブグループに対応し、他の薬物を省略しても良い。
RDFは、本発明の実施形態の方法が機能するための薬物間の接続を提供する。関係型データベース、CSVファイル、JSONファイル、等のような他のデータフォーマットのデータは、RDFへの対応するマッピングと共に使用され得る。
本発明の実施形態は、オープンデータを用いて、統合RDFグラフから薬物類似性データを提供する。該薬物類似性データは、(後述する)類似性計算装置において、指定薬物の副作用を他の薬物から推定するために、使用され得る。
RDF(Resource Description Framework)は、概念記述又は意味ネットワークの標準である情報のモデル化のための一般的方法である。意味ネットワークにおける情報のモデル化の標準化は、共通の意味ネットワークで動作するアプリケーション間の相互接続性を可能にする。RDFは、RDFスキーマ(RDFS)をRDF内の語彙を記述するための言語として提供することにより、一義的な形式意味論と共に語彙を保持する。
トリプルは、グラフデータを複数の主語−述語−目的語の表現として特徴付けることにより、グラフデータのエンコードを提供する。この文脈では、主語及び述語は、グラフデータのグラフノードであり、オブジェクト、インスタンス又はコンセプトのようなエンティティであり、述語は、主語と目的語の間の関係の表現である。述語は、目的語への特定の種類のリンクを提供することにより、主語に関する何かを断言する。例えば、主語は、(例えば、URI(Unique Resource Identifier)を介して)ウェブリソースを示しても良く、述語はリソースの個々の特性、特徴又は状況を示し、目的語は、該特性、特徴又は状況のインスタンス(場合によっては別のURI)を示す。言い換えると、トリプルステートメントの集合は、元来、方向性グラフデータを表す。RDF標準は、このようなトリプルの形式化された構造を提供する。RDFグラフは、SPARQLプロトコル及びRDFクエリ言語(SPARQL)を用いて問い合わせることができる。
望ましくは、前記データ統合モジュールは、実行時間中に(初期設定の後に)新しいデータの統合を可能にするよう構成され、前記RDFモジュールは、前記RDFグラフに前記新しいデータを追加するよう構成される。新しいデータは、既存のデータソースから又は新しいデータソースからであっても良い。データソースは、必ずしも、初めにRDFで表現される必要はなく、マッピング言語を用いてRDFに変換され得る。ソースは、関係型データベース、CSV(comma-separated value)ファイル、JSON(JavaScript(登録商標) Object Notation)ファイル、等であり得る。
データ統合モジュールは、同じ薬物に対する代替用語を認識し、代替用語に関連する全てのデータを同じ薬物に属するとして一緒に分類するよう構成されても良い。例えば、該モジュールは、OWL(ontology web language)を用いて、ダウンロードされた言語を自動的に処理して、例えば「same as(同じ)」関係を定めても良い。
データ統合モジュールは、別名、類義語、及び文字列距離指標を用いて、同じ薬物に対する代替用語を認識するよう構成されても良い。
さらに、データ統合モジュールは、例えばユニークな識別子を用いることにより、同じ薬物の異なるインスタンスを一緒にリンクするよう構成されても良い。一緒にされる全てのこれらの特徴は、異なるソースからのデータの統合を成功させることができる。
例えば、データ統合モジュールは、薬物プロパティ、副作用、薬物分類、及び疾病データベースのうちの1又は複数からのデータを統合するよう構成されても良い。データベースのリストは、更なるデータベースを含むよう拡張され得る。
類似性計算モジュールは、RDF機能を用いて、類似性を計算する。例えば、前記類似性計算モジュールは、各々の薬物について前記薬物はそれぞれ主語又は目的語であるRDFトリプルの述語及び目的語/主語のセットを見付けるよう構成され、前記薬物の特徴を表す前記述語及び目的語/主語から特徴ベクトルを生成するよう構成され、前記類似性計算モジュールは、2つの薬物の前記特徴ベクトルの比較により、前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するよう構成される。この状況では、n個の述語及び目的語/主語の組合せの各々は、特徴として考えることができ、特徴ベクトルは、n次元ベクトルとして考えることができる。
副作用は、類似性の計算に含まれても含まれなくても良く、方法が動作するための必要条件ではない。薬物の任意の属性は、副作用(もしあれば)を含む類似性を計算するために、特徴として用いられ得る。方法が、予め知られている副作用を有しない新しい薬物に適用される場合、方法は、単に該新しい薬物の化学組成に基づき新しい副作用を報告する。方法が副作用を有する既存の薬物に適用される場合、方法は、追加の副作用を報告する。方法は、部分的データと共に動作するよう設計される。
類似性計算モジュールは、述語及び主語又は目的語(薬物と共にトリプルを構成する)が2つの薬物について同じである、特徴ベクトルの共通する特徴の数を考慮することにより、2つの薬物の間の類似性を計算するよう構成されても良い。したがって、比較されるトリプルの中で、薬物は異なるが、トリプルの中の述語及び第3の要素(主語又は目的語)は同じである。
類似性計算モジュールは、計算した類似性を、類似性計算装置が接続される類似性データベースに、薬物セットの薬物−薬物距離として格納するよう構成されても良い。
本発明の更なる態様の一実施形態によると、潜在的副作用を探すために、前記の計算した類似性を用いる副作用決定装置が提供される。したがって、副作用決定装置は、薬物セットに関連するオープンデータから薬物セットの中の指定薬物の副作用を推定するよう構成されても良い。装置は、類似性データベースとの接続であって、前記類似性データベースは、複数のオープンデータソースから得られた類似性データを格納するよう構成され、前記類似性データは、前記薬物セットの中の各々の薬物と全ての他の薬物との間の薬物類似性を提供する、接続と、ユーザに前記薬物セットから薬物を指定させるよう構成されるユーザインタフェースと、前記薬物類似性を用いて、類似性の観点から前記指定薬物の最近接近隣を得るよう構成される近隣ランク付けモジュールと、前記最近接近隣から知られている副作用を集め、近隣の間の副作用の共起性に従って前記副作用を結合し及びランク付けするよう構成される副作用伝搬モジュールと、を有し得る。
したがって、副作用決定装置は、指定薬物について示され得る副作用に依存せず、類似性データに基づいて指定薬物に最も近い薬物を当てにして、ランク付け方法を用いてこれらの最も類似する薬物の副作用を伝搬する。
前記類似性データは、n次元空間の中のベクトル空間モデルの中の薬物−薬物距離として提供されても良く、前記近隣ランク付けモジュールは、前記n次元空間の中の距離に基づき、k個の最近接近隣を選択するよう構成されても良い。
前記副作用伝搬モジュールは、各々の副作用と各々の薬物特徴との間の相関を構築するために、薬物特徴が前記知られている副作用の間で見付かった各々の副作用と共に生じる頻度を計算するよう構成されても良い。
例えば、薬物特徴は、類似性データに既に含まれている、薬物プロパティ、薬物分類、及び疾病のうちの任意のものを有しても良い。ここで使用される特徴は、類似性データを計算するために使用されるもの又は特徴のサブグループと同じであり得る。特徴の処理は、ここで適用される関数において異なる。明らかに、今は、副作用が中心である。
副作用決定装置は、副作用リストと共に及び/又は特定の副作用が推定される場合に、警告、警報、又は通知を発行するよう構成される通知モジュール、を更に有しても良い。
本発明の更なる態様の一実施形態によると、薬物の間の類似性を計算し該類似性を用いて指定薬物の副作用を推定するシステムが提供される。システムは、事実上、類似性計算装置と、副作用決定装置と、の組合せである。したがって、前記システムは、オープンデータを用いて薬物の間の類似性を計算するよう構成される類似性計算装置であって、複数のオープンデータソースから薬物セットに関連するデータを得て、該データを統合しRDFトリプルを生成するよう構成されるデータ統合モジュールと、前記RDFトリプルのRDFグラフを格納するよう構成されるRDFモジュールと、前記RDFグラフの中に存在する全ての前記薬物のリストを読み出し、前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するよう構成される類似性計算モジュールと、を備える類似性計算装置と、作用決定装置であって、前記薬物セットに関連するオープンデータから指定薬物の副作用を推定するよう構成され、前記類似性データベースとの接続と、ユーザに前記薬物セットから薬物を指定させるユーザインタフェースと、前記類似性の観点から、前記薬物類似性を用いて前記指定薬物の最近接近隣を得るよう構成される近隣ランク付けモジュールと、前記最近接近隣から知られている副作用を集め、前記近隣の間の前記副作用の共起性に従って、前記副作用を結合しランク付けするよう構成される副作用伝搬モジュールと、を備える副作用決定装置と、を有しても良い。
類似性計算装置及び副作用決定装置の下位の特徴は、初めに上述したようにシステムに組み込まれても良い。
本発明の第1の方法の態様の一実施形態によると、オープンデータを用いて薬物の間の類似性を計算する方法であって、前記方法は、複数のオープンデータソースから薬物セットに関連するデータを得るステップと、前記データを統合してRDFトリプルを生成するステップと、前記RDFトリプルのRDFグラフを格納するステップと、前記RDFグラフの中に存在する全ての前記薬物のリストを読み出すステップと、前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するステップと、を有する方法が提供される。
本発明の第2の方法の態様の一実施形態によると、薬物セットに関連するオープンデータから指定薬物の副作用を推定する方法であって、前記方法は、前記薬物セットから薬物を指定するユーザ入力を可能にするステップと、複数のオープンデータソースから得られる類似性データを格納するよう構成される類似性データベースを用いて、前記類似性の観点から、前記指定薬物の最近接近隣を得るステップであって、前記類似性データは、前記薬物セットの中の各々の薬物と全ての他の薬物との間の薬物類似性を提供する、ステップと、前記最近接近隣から知られている副作用を集めるステップと、前記近隣の間の副作用の共起性に従って、前記副作用を結合しランク付けするステップと、を有する方法が提供される。
2つの方法の態様は、同じ人、又は商業エンティティ、又は異なる人々/商業エンティティにより実行されても良い。
本発明は、デジタル電子回路で、又はコンピュータハードウェア、ファームウェア、又はそれらの組合せで実装できる。本発明は、例えば1又は複数のハードウェアモジュールによる実行のための若しくはその動作の制御のための、コンピュータプログラム又はコンピュータプログラム製品、つまり情報担体に例えば機械可読記憶媒体に有形に若しくは伝搬信号に具現化されたコンピュータプログラムとして実施され得る。コンピュータプログラムは、単独型プログラム、コンピュータプログラム部分又は1より多いコンピュータプログラムの形式であり、コンパイル済み若しくはインタープリット済み言語を含む任意の形式のプログラミング言語で記述でき、単独型プログラムとして又はモジュール、コンポーネント、サブルーチン若しくは通信システム環境で使用するのに適切な他の単位を含む任意の形式で展開できる。コンピュータプログラムは、1つのモジュールで又は1箇所若しくは複数箇所に分散して置かれ通信ネットワークにより相互接続される複数のモジュールで実行されるよう配置できる。
本発明の方法のステップは、入力データに対して作用し出力を生成することにより本発明の機能を実行するためにコンピュータプログラムを実行する1又は複数のプログラマブルプロセッサにより実行されても良い。本発明の装置は、プログラミングされたハードウェアとして実装でき、又は特定目的論理回路、例えばFPGA(field programmable gate array)又はASIC(application-specific integrated circuit)を含み得る。
コンピュータプログラムの実行に適したプロセッサは、例えば、汎用及び特定目的プロセッサの両方、及び任意の種類のデジタルコンピュータの1又は複数のプロセッサを含む。概して、プロセッサは、命令及びデータを読み出し専用メモリ又はランダムアクセスメモリ又はそれらの両方から受信する。コンピュータの基本要素は、命令及びデータを格納する1又は複数のメモリ装置に結合され命令を実行するプロセッサである。
本発明は、特定の実施形態の観点から記載される。他の実施形態も添付の請求の範囲に包含される。例えば、本発明のステップは、異なる順序で実行でき、依然として所望の結果を達成する。
好適な実施形態による装置は、特定の機能を実行するよう構成される又は配置されるとして記載される。この構成又は配置は、ハードウェア又はミドルウェア又は任意の他の適切なシステムの使用による。好適な実施形態では、構成又は配置は、ソフトウェアによる。
本発明の要素は、「モジュール」のような用語を用いて記載される。読者は、これらの用語及びそれらの等価物が、空間的に離れているが定められた機能を提供するために結合するシステムの部分を表し得ることを理解する。同様に、システムの同じ物理的部分は、2以上の定められた機能を提供しても良い。
システム及び装置の態様の特徴及び下位の特徴は、方法の態様に適用されても良い。また、逆も同様である。
単に例として、添付の図面を参照する。
本発明の概略的実施形態による類似性計算装置を表す装置ブロック図である。 本発明の概略的実施形態による副作用決定装置を表す装置ブロック図である。 本発明の概略的実施形態による類似性計算装置における方法のフローチャートである。 本発明の概略的実施形態による副作用決定装置における方法のフローチャートである。 本発明の一態様の一実施形態による例示的なシステム/アーキテクチャを表すブロック/フロー図である。 本発明の一態様の一実施形態によるデータ統合モジュールとRDFグラフモジュールとの間の相互作用を示すブロック図である。 本発明の一態様の一実施形態による例示的なRDFグラフの概略図である。 本発明の一態様の一実施形態による例示的な2つの薬物の関係のサブセットである。 本発明の一態様の一実施形態による類似性計算モジュールのブロック図である。 本発明の一態様の一実施形態による薬物近隣ランク付けモジュールの一例である。 本発明の一態様の一実施形態による副作用伝搬モジュールの一例である。
図1は、本発明の概略的実施形態による類似性計算装置のブロック図を示す。類似性計算装置は、インターネットを介して接続されるサーバ又はPC又は別のコンピューティング装置として実現されても良い。類似性計算装置は、データ統合モジュール105、RDFモジュール106、及び類似性計算モジュール107を有する。類似性計算装置は、1又は複数のオープンデータソース100(データベース、又は更に単純なデータ記憶)へのアクセスも有する。類似性計算装置は、適切なネットワーク接続を通じて(例えば、インターネットを介して)、直接又は間接的にオープンデータソース100に接続されても良い。代替又は追加で、類似性計算装置は、1又は複数のローカルデータソースを有しても良い。オープンデータソース100は、薬物プロファイルデータベース101、及び/又は副作用データベース102、及び/又は薬物分類データベース103、及び/又は疾病データベース、のうちの1又は複数を有しても良い。
類似性計算装置は、薬剤同士の類似性を計算するために、オープンデータを用いる。先ず、データ統合モジュール105は、オープンデータソース100から、2以上の薬剤(例えば、薬物)のセットに関連するデータを得る。次に、薬物セットに関連するデータは、薬物セットの中の薬物の各々のRDFトリプルを生成するために、データ統合モジュール105により統合される。データ統合モジュール105は、データを統合するとき、データをフィルタリング及び/又は結合しても良い。次に、薬物セットのデータに関連するRDFトリプルは、RDFモジュール106へ転送される。
RDFモジュール106は、データ統合モジュール105により生成されたRDFトリプルのRDFグラフを格納する。次に、類似性計算モジュール107は、RDFモジュール106に格納されたRDFグラフを用い、RDFグラフに含まれる全部の薬物のリストを読み出す。次に、類似性計算モジュール107は、薬物セットに含まれる薬物の、薬物セットの中の他の薬物との類似性を計算する。例えば、薬物A、B、Cを含む薬物セットでは、類似性計算モジュール107は、薬物Aと薬物Bとの間の類似性、薬物Aと薬物Cとの間の類似性、薬物Bと薬物Cとの間の類似性、を計算しても良い。これらの計算した類似性は、類似性データベース109(図示しない)に格納され得る。
図2は、本発明の概略的実施形態による副作用決定装置のブロック図を示す。副作用決定装置は、インターネットを介する接続を有するサーバ又はPC又は別のコンピューティング装置として実現されても良い。副作用決定装置は、ユーザインタフェース112、近隣ランク付けモジュール110、及び副作用伝搬(propagation)モジュール111を有する。副作用決定装置は、1又は複数の類似性データベース109へのアクセスも有する。副作用決定装置は、適切なネットワーク接続を通じて、類似性データベース109に直接又は間接的に接続されても良い。代替又は追加で、副作用決定装置は、1又は複数のローカル類似性データベース109を更に有しても良い。類似性データベース109は、薬物セットの各々の薬物と該セットの中の全ての他の薬物との間の類似性に関連する類似性データを格納できる。
副作用決定装置は、指定薬剤(又は薬物)に関連する副作用(又は潜在的/あり得る副作用)を決定できる。ユーザインタフェース112は、ユーザに、2以上の薬物のセットから特定の薬物を指定させる。次に指定薬物は、近隣ランク付けモジュール110へ転送される。近隣ランク付けモジュール110は、類似性データベース109に格納された類似性データを用いて、類似性の観点で、指定薬物に最近接近隣である薬物を、薬物セットから得る。
次に、副作用伝搬モジュール111は、選択された指定薬物に最近接近隣からの知られている副作用のリストを集めることができる。リストの中の副作用は、副作用伝搬モジュール111により、近隣薬物の間の共起性に従って、結合されランク付けされる。つまり、指定薬物に関連する可能性のより高い副作用は、そうでない薬物よりも高くランク付けされる。
図3は、本発明の概略的実施形態による類似性計算装置における方法を示すフローチャートである。先ず、ステップS31で、2以上の薬物のセットに関連するデータは、1又は複数のオープンデータソースから取得される。次に、ステップS32で、取得されたデータは統合され、薬物セットのRDFトリプルが生成される。ステップS35で薬物セットの中の各々の薬物の、薬物セットの中の全ての他の薬物との類似性を計算するとき、ステップS34でアクセスされるように、ステップS33でRDFトリプルのRDFグラフが格納される。
図4は、本発明の概略的実施形態による副作用決定装置における方法を示すフローチャートである。先ず、ステップS41で、望ましくはユーザにより、2以上の薬物のセットから、薬物が指定される。次に、ステップS42で、薬物類似性データベースに格納された薬物類似性が使用され、類似性の観点で、薬物セットから、指定薬物の最近接近隣である薬物を決定する。次に、ステップS43で、指定薬物の最近接近隣の知られている副作用のセットが集めされる。次に、ステップS44で、近隣薬物の間の共起性に従って、集められた副作用は結合されランク付けされる。
本発明の実施形態の方法は、次の2つの部分として理解できる。(1)薬物の間の類似性を計算するために薬物の利用可能なデータの全部が使用される薬物中心型ビュー、及び(2)他の薬物の中の副作用の共起性確率を決定するために共起副作用が使用される副作用中心ビュー、である。前者のアプローチは、所与の薬物の真陽性副作用を識別するために使用され得る。一方で、後者のアプローチは、データの中の偽陰性、つまり特定の薬物に関連する可能性を有しない副作用を検出するために使用され得る。この新規な構成は、ここに提示される方法に、出力結果の中のノイズをフィルタリングさせ、良好な予測結果をもたらすことを可能にする。
本願明細書に記載の本発明の特定の実施形態は、薬物の未知の潜在的副作用を発見するために、リンク付きデータ(機械可読)の形式の、知識を利用する。次に、通知、警告、又は注意信号が結果として出され又は通信される。主なイニシアチブ及び行政は、このようなデータをオープンアクセスデータとしてウェブで公開している。リンク付きオープンデータ(Linked Open Data:LOD)は、種々のソースからのリンク付きデータがアプリケーションに利用可能にされる枠組みである。したがって、本文書の目的のために、「リンク付きデータ」及び「リンク付きオープンデータ」又は「LOD」は、事実上同義的に使用される。
これは、例えば機関報告及び/又は煩わしい個人患者データ、及び/又は危険のある患者反応報告等のような集めるのに時間のかかるデータソースを利用する従来知られている現行アプローチとは対照的である。さらに、本発明の実施形態は、副作用報告及び生物医学文献のような他の又は新たなデータソースの供給を可能にできる。これは、適正な参加及びフィルタリング処理の適用を要求し得る。
シグナリング処理は、推奨システムと比較して、薬物(ユーザ)により引き起こされる潜在的副作用(アイテム)の重み付けされた警告(推奨)を読み出す。本発明の実施形態は、使用される薬物の間の類似性を計算するため、及び薬物の潜在的副作用を提案するために、構造化データを利用する。
図5は、本発明の一態様の一実施形態による薬物副作用を発見するためにリンク付きデータを使用する例示的なシステム/アーキテクチャを表す情報フローを有するブロック図である。概して、方法は、2つの段階を有する。1つの段階(図5の左側に示す)は、必要な処理時間のために、クエリ要件を満たすために望ましくは適切なサーバマシンにおいてオフラインで実行される。第2の段階(図5の右側に示す)は、望ましくは完全に又は部分的にオンラインで実行され、ユーザが検出された信号又は薬物と副作用との間の関連にアクセスし視覚化できるようにする。フローの観点から、処理は、図5に示され以下で議論する3つの主なブロックに分けられる。これらのブロックは、(1)知識ベース構築、(2)類似性計算、及び(3)副作用シグナリング、である。
(1)知識ベース構築
本発明は、オープンデータを用いて薬物副作用の信号検出のための新規な方法を提案する。知られている種々のイニシアチブは、RDF(Resource Description Framework)のようなオープンな交換可能な且つ柔軟なデータフォーマットを用いる生命科学の変換及び公開に焦点を当てている。リンク付きデータは、コンピュータにより自動的にリードできる方法でデータを発行するために、RDF(データモデルとして使用される)、HTTP(インターネットを介してデータを転送するために使用される)、及びURI(uniform resource identifier)(リソースを識別するために使用される)に基づく。
本発明の好適な実施形態では、RDFは、基礎となる薬物関連背景知識ソースを表すグラフを表すために、データフォーマットとして用いられる。幾つかのデータソースは最初はRDFとして発行されない又は不完全な変換であるという事実にもかかわらず、本研究では、重要データ抽出、変換、及び統合処理が実行された。例えば、同じ薬物は、異なる名称又はスペルを有し異なるデータソースに含まれ得る。これは、直接文字列照合を実行することを不可能にする。この問題は、代替名及び類義語に基づくより複雑な照合を用いて、薬物及び副作用の名称を照合することにより解決される。2つの例を挙げると、次の通りである。
1)発明者は、階層的概略、MedDRA(Medical Dictionary for Regulatory Activities)推奨語、及びそれらの公開ウェブサイトから抽出された副作用の頻度を生成するために、副作用リソースサイダーをATC(Automatic Taxonomy Construction)分類法で拡張することにより、副作用リソースサイダー(Side Effect Resources Sider、www.sideeffects.embl.de/)から、より完全なRDFダンプを集めた。
2)発明者は、代替名(owl:sameAs relationship)、類義語、及び文字列距離指標を用いて、リソースDrugBank(http://www.drugbank.ca/)からの薬物の名称をSiderと統合し、Siderからの副作用の名称をDiseasome(www.diseasome.eu/)と統合した。
図5に示すように、例えば薬物プロファイル(101)、副作用データベース(102)、薬物分類データベース(103)、及び/又は疾病データベース(104)のような種々のデータソースが検討され得る。データソースは、後にそれらをクエリされるためにRDFグラフ(106)を通じて利用可能にするために、データ統合モジュール(105)により統合される。使用されるデータソースは、上述の列挙した例に限定されず、市販後報告のような異なる公共ソースも、RDFグラフ知識ベースを構築するために本発明の方法で使用され得る。RDFの柔軟性により、薬物のプロパティ(例えば、化学、生物学、表現型情報)、副作用、薬物分類、及び疾病を含む他の非/構造化ソースも、利用され得る。初めに言及したソースは、ユーザに公然と利用可能なので、データ収集コスト及び方法全体を最小化する。
図6は、データ統合モジュール(105)とRDFグラフモジュール(106)との間の相互作用の拡張図を示す。データ統合モジュール(105)は、データソース(201)の処理、及びRDFトリプルを生成するためにフィルタリングによるデータ統合の実行を担う。次に、RDFトリプルは、将来のクエリのために、RDF記憶(204)に格納されインデックス付けされる。データソースは、通常、ユニークな識別子を用いて同じエンティティにアクセス可能にするために、結合(linkage)処理(203)を必要とする。つまり、薬物がエイリアス名を含む場合、システムは、どんなエイリアスが使用されても、読み出された薬物識別子が同じであることを保証する必要がある。これは、参照問題を回避し、データの中の許容可能な統合レベルを保つ。
2)類似性計算
類似性計算モジュール(107)は、薬物の類似性の計算を担う。先ず、類似性計算モジュール(107)は、RDFグラフ(106)の中に存在する全ての薬物のリストを読み出す。RDFグラフは、各々のエッジが(主語、述語、目的語)構造を有するRDFトリプルであり、エッジが主語ノードで始まり目的語ノードで終わる、有向グラフである。次に、リストの中の各々の薬物Xについて、類似性計算モジュール(107)は、RDFグラフモジュール(106)に対してクエリを実行して、Xが主語又は目的語の位置にある述語(関係)セットについて問い合わせる。形式的には、パターンによるクエリを使用して、それぞれ主語及び述語について、これらのクエリを(X,?,?)及び(?,?,X)として表す。これらの述語から、薬物Xの特徴セットが生成され、特徴ベクトルとして参照される。
RDFグラフは、有向グラフである。つまり、エッジが方向を有し、入る(incoming)エッジ及び出る(outgoing)エッジが存在する。したがって、それぞれ、クエリ(X,?,?)は出るエッジに使用され、クエリ(?,?,X)は入るエッジに使用される。
次に、各々の薬物は、106の中の基礎となるRDFグラフから抽出された特徴ベクトルに関連付けられる。これらの特徴は、任意の所与の薬物ペアの間の類似性を計算するために、他の薬物の特徴と相互作用する。好適な実施形態では、薬物対の特徴ベクトル及び類似性は、以下に図7を参照して説明するように生成されても良い。
図7は、RDFグラフドメインの中のリソースとして知られている、2つの薬物のRDFグラフを示す。図7に示すRDFグラフの2つの薬物a及びbの類似性が計算される。本例では、R. Meymandpour及びJ.G.Davis, "Recommendations Using Linked Data," in PIKMt Maui, Hawaii, 2012に記載された研究に基づく類似性メトリックが使用された。しかし、RDFグラフの中のリソース間の類似性を計算するために、任意の他の適切なメトリックが採用されても良い。
Aをリソースaの特徴セットとし、Aは2つのセットを含む。一方のセットは出るエッジ関連であり、他方のセットは入るエッジ関連である。つまり、A={{outgoing},{incoming}}。図7のリソースaは、リソースc、e、及びfへ出る関係を有し、それぞれ次の述語を有する。
Figure 0006693252
Figure 0006693252
Figure 0006693252
また、図7のリソースaは、リソースdから入る関係を有し、次の述語を有する。
Figure 0006693252
次に、Aは以下の式(1)に示すように定められる。
Figure 0006693252
同様に、Bは、リソースbの特徴セットとして定められ、式(2)に示される。
Figure 0006693252
直感的に、要素a及びbが共通の要素を多く有するほど、それらはより類似する。これは、共有される特徴のレベルが高いほど高い類似性値を示す特徴に基づくメトリックの原理と一致する。したがって、RDFグラフの中のリソースの対の間の類似性を計算するために、我々は、特徴セット同士の共通部分を用いる。例えば、AとBとの間の共通部分は、式(3)により与えられる。
Figure 0006693252
関連する従来技術「Recommendations Using Linked Data」では、類似性は、特徴の確率に基づき特徴の重要性を識別するために、情報理論の方法を用いて定められる。
Figure 0006693252
次に、リンク付きデータ(Linked Data:LD)の中の特徴セットの情報コンテンツ(Information Content:IC)は、ベクトルの中の各々の成分のICの和として定められる。
Figure 0006693252
ベクトルの中の成分について、そのICは、正規化頻度スコアとして計算される。
Figure 0006693252
ここで、φ(a)は、RDFグラフの中の特徴aの頻度であり、nは特徴の最大発生数である。
2つの薬物の詳細な例を図8に示し及び以下に議論する。フェナセチン(Phenacetin、dBank:DB03783により識別される)及びアセトアミノフェン(Acetaminophen、dBank:DB00316により識別される)は、ラベル、ブランド名、投薬形態、及び標的タンパク質を含む、それらの関係のサブセットを有する。図8で分かるように、薬物dBank:DB03783(フェナセチン)及びdBank:DB00316(アセトアミノフェン)は、以下の文献及びリソースにより幾つかの関係を共有する。"Humans and other mammals"@en, dBank:capsuleOral, dBank:liquidOral, dBank:analgesics,Non-narcotic, dBank:target-20
2つの薬物により共有される5個の関係のリストは、次の通りである。
dBank:affectedOrganism
dBank:dossageForm(twice)
dBank:drugCategory
dBank:target
これらの関係に基づき、対応する特徴ベクトルが計算され、dBank:DB03783(フェナセチン)とdBank:DB00316(アセトアミノフェン)との間の類似性スコアが決定される。
Figure 0006693252
Figure 0006693252
したがって、2つの薬物の間の類似性スコアを得るために、式9に示すように、AとBとの間の共通部分が計算される必要がある。
Figure 0006693252
共通部分は、共有特徴セットを含む。留意すべきことに、A又はBは入るエッジを含むので、特徴セットの右側は空である。次に、最終的な類似性スコアを得るために、各々の特徴について、その情報コンテンツが計算される。
纏めると、図9は、類似性計算モジュールの精細ブロックチャートを示す。類似性方法(503)は、入力として特徴ベクトル(502)のセットを得る。特徴ベクトル(502)は、予め、薬物の情報(501)を有する基礎となるRDFグラフから生成される。薬物類似性は、ユーザの要求の下、オンライン処理の間に消費される薬物類似性データベース(504)に格納される。
3)副作用シグナリング
留意すべきことに、類似性計算処理の間(図5の107)、一連の薬物−薬物距離が計算され、薬物類似性データベース(図5の109及び図9の504)に格納され、後にシステムのオンライン部分の間に使用される。
概念的に、薬物類似性データベースは、ベクトル空間モデルを表す。ここで、各々の薬物は、n次元空間の中の点として表され(nは特徴ベクトルの濃度である)、特定の特性が満たされる。図10は、この薬物空間の小さな例を示す。ここで、黒点は選択された薬物を示し、5個の接続された白点は上位5個のより類似する薬物であり、最近接近隣とも呼ばれる。この5個と1個の薬物のセットは、それらのプロパティ(例えば、化学、生物学、又は表現型情報)に基づき、薬物が高度に関連する近隣を確認する。
近隣を決定するために、k個の最近接近隣を得るために、薬物に対して、良く知られたk最近接近隣(k-Nearest Neighbours又はk−NM)アルゴリズムが用いられる。ここで、k+1の値は、近隣の大きさを表す。
図11は、副作用に基づくアプローチに基づく副作用伝搬モジュール(111)を示す。所与の薬物について、システムは、そのk個の近隣の全ての間で既に知られている副作用を集める(701により示す)。副作用は、信号の重みを決定するために、近隣薬物の間のそれらの共起性に従って結合されランク付けされる。副作用は、異なるランク付け方法を用いてランク付けされても良く、ここで記載される1つに限定されない。
共起性フィルタ(702)は、薬物特徴が各々の副作用と共に生じる頻度を計算する。これらの特徴は、所与の副作用について薬物特徴の正規化ヒストグラムを構築するために使用される。例えば、副作用である腹痛は、知られている薬物と共に271回生じ、腹痛を引き起こす薬物のうち5%のみが心室細動を治し、又は腹痛を引き起こす薬物のうち98%が化学的基礎構造12を含む。これらの相関の全ては、全ての副作用と薬物特徴との間の相関マトリクスで表現できる。次に、この相関マトリクスは、近隣薬物により提案される副作用をランク付けするために、薬物プロファイルとして使用される。したがって、本願明細書に記載の方法は、所与の薬物の使用と共に副作用が生じる可能性が非常に高いときを決定することができる。例えば、プロファイルマトリクスを用いると、薬物は化学的基礎構造12を含まず且つQ9NY47タンパク質を標的とする、心室細動を治療するために製造される薬物は、腹痛を引き起こす可能性が低い、と言える。
したがって、副作用は、所与の薬物について重要である可能性があるとして、共起性フィルタ(702)により選択され、更なる分析を実行するために、潜在的副作用(703)のうちのそれぞれ1つについて、信号が発せられる。
一例として、上述のように抽出された近隣を考え、上位5個の近隣薬物の中に存在する副作用を決定すると、方法は、5個の薬物の間の共起性を分析して、信号の重みを決定できる。副作用のリストは、以下の表1に示される。
[表1]
Figure 0006693252
最も上位にランク付けされた副作用、つまりフェナセチンの使用と共に生じる可能性の高い副作用は、強調表示される。
[表2]
Figure 0006693252
副作用がランク付けされると、共起性フィルタは、幾つかの副作用に他と比べて大きな重要性を与えるために、副作用を再ランク付けすることを助ける。また、同フィルタは、フェナセチンの消費と共に生じる可能性の低い特定の副作用を廃棄することを助ける。次に、フィルタされ重み付けされた副作用リストは、適切なユーザインタフェースを用いて、要求に応じてユーザのために視覚化される準備が整い、重み付けされた信号と共に薬物を表示する。
本発明の実施形態の方法の精度は、以下の方法で測定され得る。
1)薬物の既知の副作用(知識ベースの中に存在する)を廃棄し、副作用のための信号を抽出するために記載の方法を実行し、回復した副作用の比を測定するために両方のリストを比較する。
2)副作用の中の利用可能なラベルを考慮して、副作用が販売後段階で発見されたとき、又は副作用が販売前段階で発見されたときを示し、販売後副作用を廃棄し、販売後データの検出に基づき精度が測定され得る。
本発明で記載された薬物副作用の早期シグナリングのための低コストな方法は、異なるユーザが副作用の薬物との可能な関連に関する仮説を評価することを許容する。
前述のように、本発明の実施形態は、以下の基準のうちの1又は複数を満たす方法を通じて、従来技術の欠点を克服しようとうする。
A.市販前に手元にあるデータを利用する早期検出方法は、例えばDrugBank、Sider、Diseasomeのような信頼できる情報源からの公然と利用可能なデータを低コストで利用しているか?
B.オープンアクセスデータを利用して、患者デ―タ及び/又は実験に頼らず若しくはそれらを要求しないことにより、低コストデータの使用を活かす。オープンデータは、システムが動作し、市販前に且つ患者データ可用性制約無しで、悪影響の検出を行うことを可能にする。
C.薬物製造過程及び/又は他の利害関係者を通じて取得される知識の増加的統合を可能にしながら、不完全なデータにより動作可能であるか?方法は、予測を行うために完全なデータを必要とせず、RDFフォーマットのお陰で、新しいデータは余分なコスト無しに統合され得る。
以上の実施形態に加えて、更に以下の付記を開示する。
(付記1) オープンデータを用いて薬物の間の類似性を計算するよう構成される類似性計算装置であって、前記類似性計算装置は、
複数のオープンデータソースから薬物セットに関連するデータを得て、該データを統合しRDFトリプルを生成するよう構成されるデータ統合モジュールと、
前記RDFトリプルのRDFグラフを格納するよう構成されるRDFモジュールと、
前記RDFグラフの中に存在する全ての前記薬物のリストを読み出し、前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するよう構成される類似性計算モジュールと、
を有する類似性計算装置。
(付記2) 前記データ統合モジュールは、実行時間中に新しいデータの統合を可能にするよう構成され、前記RDFモジュールは、前記RDFグラフに前記新しいデータを追加するよう構成される、付記1に記載の類似性計算装置。
(付記3) 前記データ統合モジュールは、同じ薬物に対する代替用語を認識し、前記代替用語に関連する全てのデータを同じ薬物に属するとして一緒に分類するよう構成され、及び/又は前記データ統合モジュールは、別名、類義語、及び文字列距離指標を用いて同じ薬物に対する代替用語を認識するよう構成される、付記1又は2に記載の類似性計算装置。
(付記4) 前記データ統合モジュールは、ユニークな識別子を用いて、同じ薬物の異なるインスタンスを一緒にリンクするよう構成される、付記1乃至3のいずれか一項に記載の類似性計算装置。
(付記5) 前記データ統合モジュールは、薬物プロパティ、副作用、薬物分類、及び疾病データベースのうちの1又は複数からのデータを統合するよう構成される、付記1乃至4のいずれか一項に記載の類似性計算装置。
(付記6) 前記類似性計算モジュールは、各々の薬物について前記薬物はそれぞれ主語又は目的語であるRDFトリプルの述語及び目的語/主語のセットを見付けるよう構成され、前記薬物の特徴を表す前記述語及び目的語/主語から特徴ベクトルを生成するよう構成され、前記類似性計算モジュールは、2つの薬物の前記特徴ベクトルの比較により、前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するよう構成される、付記1乃至5のいずれか一項に記載の類似性計算装置。
(付記7) 前記類似性計算モジュールは、前記述語及び前記主語又は目的語が2つの薬物について同じである前記特徴ベクトルの共通する特徴の数を考慮することにより、2つの薬物の間の類似性を計算し、及び/又は前記類似性計算モジュールは、前記類似性計算装置が接続される類似性データベースに、前記の計算した類似性を薬物セットの薬物−薬物距離として格納するよう構成される、付記6に記載の類似性計算装置。
(付記8) 薬物セットに関連するオープンデータから該薬物セットの中の指定薬物の副作用を推定するよう構成される副作用決定装置であって、前記副作用決定装置は、
類似性データベースとの接続であって、前記類似性データベースは、複数のオープンデータソースから得られた類似性データを格納するよう構成され、前記類似性データは、前記薬物セットの中の各々の薬物と全ての他の薬物との間の薬物類似性を提供する、接続と、
ユーザに前記薬物セットから薬物を指定させるよう構成されるユーザインタフェースと、
前記薬物類似性を用いて、類似性の観点から前記指定薬物の最近接近隣を得るよう構成される近隣ランク付けモジュールと、
前記最近接近隣から知られている副作用を集め、近隣の間の副作用の共起性に従って前記副作用を結合し及びランク付けするよう構成される副作用伝搬モジュールと、
を有する副作用決定装置。
(付記9) 前記類似性データは、n次元空間の中のベクトル空間モデルの中の薬物−薬物距離として提供され、前記近隣ランク付けモジュールは、前記n次元空間の中の距離に基づき、k個の最近接近隣を選択するよう構成される、付記8に記載の副作用決定装置。
(付記10) 前記副作用伝搬モジュールは、各々の副作用と各々の薬物特徴との間の相関を構築するために、薬物特徴が前記知られている副作用の間で見付かった各々の副作用と共に生じる頻度を計算するよう構成される、付記8又は9に記載の副作用決定装置。
(付記11) 前記薬物特徴は、薬物プロパティ、薬物分類、及び疾病のうちの1又は複数を有する、付記10に記載の副作用決定装置。
(付記12) 副作用リストと共に及び/又は特定の副作用が推定される場合に、警告、警報、又は通知を発行するよう構成される通知モジュール、を更に有する付記8乃至11のいずれか一項に記載の副作用決定装置。
(付記13) 薬物の間の類似性を計算し前記類似性を用いて指定薬物の副作用を推定するシステムであって、前記システムは、
オープンデータを用いて薬物の間の類似性を計算するよう構成される類似性計算装置であって、
複数のオープンデータソースから薬物セットに関連するデータを得て、該データを統合しRDFトリプルを生成するよう構成されるデータ統合モジュールと、
前記RDFトリプルのRDFグラフを格納するよう構成されるRDFモジュールと、
前記RDFグラフの中に存在する全ての前記薬物のリストを読み出し、類似性データベースに記憶するために、前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するよう構成される類似性計算モジュールと、
を備える類似性計算装置と、
副作用決定装置であって、前記薬物セットに関連するオープンデータから指定薬物の副作用を推定するよう構成され、
前記類似性データベースとの接続と、
ユーザに前記薬物セットから薬物を指定させるユーザインタフェースと、
前記類似性の観点から、前記類似性を用いて前記指定薬物の最近接近隣を得るよう構成される近隣ランク付けモジュールと、
前記最近接近隣から知られている副作用を集め、前記最近接近隣の間の前記副作用の共起性に従って、前記副作用を結合しランク付けするよう構成される副作用伝搬モジュールと、
を備える副作用決定装置と、
を有するシステム。
(付記14) オープンデータを用いて薬物の間の類似性を計算する方法であって、前記方法は、
複数のオープンデータソースから薬物セットに関連するデータを得るステップと、
前記データを統合してRDFトリプルを生成するステップと、
前記RDFトリプルのRDFグラフを格納するステップと、
前記RDFグラフの中に存在する全ての前記薬物のリストを読み出すステップと、
前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するステップと、
を有する方法。
(付記15) 薬物セットに関連するオープンデータから指定薬物の副作用を推定する方法であって、前記方法は、
前記薬物セットから薬物を指定するユーザ入力を可能にするステップと、
複数のオープンデータソースから得られる類似性データを格納するよう構成される類似性データベースを用いて、類似性の観点から、前記指定薬物の最近接近隣を得るステップであって、前記類似性データは、前記薬物セットの中の各々の薬物と全ての他の薬物との間の薬物類似性を提供する、ステップと、
前記最近接近隣から知られている副作用を集めるステップと、
前記最近接近隣の間の副作用の共起性に従って、前記副作用を結合しランク付けするステップと、
を有する方法。
100 オープンデータソース
101 薬物プロファイル
102 副作用データベース
103 薬物分類データベース
104 疾病データベース
105 データ統合モジュール
106 RDFモジュール
107 類似性計算モジュール
108 新しい薬物特徴
109 類似性データベース
110 近隣ランク付けモジュール
110 薬物近隣ランク付けモジュール
111 副作用伝搬モジュール
112 ユーザインタフェース
201 データソース
202 共同データ/フィルタデータ
203 RDF結合
204 RDF記憶
501 薬物データ
502 特徴ベクトル
503 類似性方法
504 薬物類似性データベース

Claims (15)

  1. オープンデータを用いて薬物の間の類似性を計算するよう構成される類似性計算装置であって、前記類似性計算装置は、
    複数のオープンデータソースから薬物セットに関連するデータを得て、該データを統合しRDFトリプルを生成するよう構成されるデータ統合モジュールと、
    前記RDFトリプルのRDFグラフを格納するよう構成されるRDFモジュールと、
    前記RDFグラフの中に存在する全ての前記薬物のリストを読み出し、前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するよう構成される類似性計算モジュールと、
    を有する類似性計算装置。
  2. 前記データ統合モジュールは、実行時間中に新しいデータの統合を可能にするよう構成され、前記RDFモジュールは、前記RDFグラフに前記新しいデータを追加するよう構成される、請求項1に記載の類似性計算装置。
  3. 前記データ統合モジュールは、同じ薬物に対する代替用語を認識し、前記代替用語に関連する全てのデータを同じ薬物に属するとして一緒に分類するよう構成され、及び/又は前記データ統合モジュールは、別名、類義語、及び文字列距離指標を用いて同じ薬物に対する代替用語を認識するよう構成される、請求項1又は2に記載の類似性計算装置。
  4. 前記データ統合モジュールは、ユニークな識別子を用いて、同じ薬物の異なるインスタンスを一緒にリンクするよう構成される、請求項1乃至3のいずれか一項に記載の類似性計算装置。
  5. 前記データ統合モジュールは、薬物プロパティ、副作用、薬物分類、及び疾病データベースのうちの1又は複数からのデータを統合するよう構成される、請求項1乃至4のいずれか一項に記載の類似性計算装置。
  6. 前記類似性計算モジュールは、各々の薬物について前記薬物はそれぞれ主語又は目的語であるRDFトリプルの述語及び目的語/主語のセットを見付けるよう構成され、前記薬物の特徴を表す前記述語及び目的語/主語から特徴ベクトルを生成するよう構成され、前記類似性計算モジュールは、2つの薬物の前記特徴ベクトルの比較により、前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するよう構成される、請求項1乃至5のいずれか一項に記載の類似性計算装置。
  7. 前記類似性計算モジュールは、前記述語及び前記主語又は目的語が2つの薬物について同じである前記特徴ベクトルの共通する特徴の数を考慮することにより、2つの薬物の間の類似性を計算し、及び/又は前記類似性計算モジュールは、前記類似性計算装置が接続される類似性データベースに、前記の計算した類似性を薬物セットの薬物−薬物距離として格納するよう構成される、請求項6に記載の類似性計算装置。
  8. 薬物セットに関連するオープンデータから該薬物セットの中の指定薬物の副作用を推定するよう構成される副作用決定装置であって、前記副作用決定装置は、
    類似性データベースとの接続であって、前記類似性データベースは、複数のオープンデータソースから得られた類似性データを格納するよう構成され、前記類似性データは、前記薬物セットの中の各々の薬物と全ての他の薬物との間の薬物類似性を提供する、接続と、
    ユーザに前記薬物セットから薬物を指定させるよう構成されるユーザインタフェースと、
    前記薬物類似性を用いて、類似性の観点から前記指定薬物の最近接近隣を得るよう構成される近隣ランク付けモジュールと、
    前記最近接近隣から知られている副作用を集め、近隣の間の副作用の共起性に従って前記副作用を結合し及びランク付けするよう構成される副作用伝搬モジュールと、
    を有する副作用決定装置。
  9. 前記類似性データは、n次元空間の中のベクトル空間モデルの中の薬物−薬物距離として提供され、前記近隣ランク付けモジュールは、前記n次元空間の中の距離に基づき、k個の最近接近隣を選択するよう構成される、請求項8に記載の副作用決定装置。
  10. 前記副作用伝搬モジュールは、各々の副作用と各々の薬物特徴との間の相関を構築するために、薬物特徴が前記知られている副作用の間で見付かった各々の副作用と共に生じる頻度を計算するよう構成される、請求項8又は9に記載の副作用決定装置。
  11. 前記薬物特徴は、薬物プロパティ、薬物分類、及び疾病のうちの1又は複数を有する、請求項10に記載の副作用決定装置。
  12. 副作用リストと共に及び/又は特定の副作用が推定される場合に、警告、警報、又は通知を発行するよう構成される通知モジュール、を更に有する請求項8乃至11のいずれか一項に記載の副作用決定装置。
  13. 薬物の間の類似性を計算し前記類似性を用いて指定薬物の副作用を推定するシステムであって、前記システムは、
    オープンデータを用いて薬物の間の類似性を計算するよう構成される類似性計算装置であって、
    複数のオープンデータソースから薬物セットに関連するデータを得て、該データを統合しRDFトリプルを生成するよう構成されるデータ統合モジュールと、
    前記RDFトリプルのRDFグラフを格納するよう構成されるRDFモジュールと、
    前記RDFグラフの中に存在する全ての前記薬物のリストを読み出し、類似性データベースに記憶するために、前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するよう構成される類似性計算モジュールと、
    を備える類似性計算装置と、
    副作用決定装置であって、前記薬物セットに関連するオープンデータから指定薬物の副作用を推定するよう構成され、
    前記類似性データベースとの接続と、
    ユーザに前記薬物セットから薬物を指定させるユーザインタフェースと、
    前記類似性の観点から、前記類似性を用いて前記指定薬物の最近接近隣を得るよう構成される近隣ランク付けモジュールと、
    前記最近接近隣から知られている副作用を集め、前記最近接近隣の間の前記副作用の共起性に従って、前記副作用を結合しランク付けするよう構成される副作用伝搬モジュールと、
    を備える副作用決定装置と、
    を有するシステム。
  14. オープンデータを用いて薬物の間の類似性を計算する、コンピュータが実行する方法であって、前記方法は、前記コンピュータが、
    複数のオープンデータソースから薬物セットに関連するデータを得るステップと、
    前記データを統合してRDFトリプルを生成するステップと、
    前記RDFトリプルのRDFグラフを格納するステップと、
    前記RDFグラフの中に存在する全ての前記薬物のリストを読み出すステップと、
    前記RDFグラフの中の各々の薬物と全ての他の薬物との類似性を計算するステップと、
    を有する方法。
  15. 薬物セットに関連するオープンデータから指定薬物の副作用を推定する、コンピュータが実行する方法であって、前記方法は、前記コンピュータが、
    前記薬物セットから薬物を指定するユーザ入力を可能にするステップと、
    複数のオープンデータソースから得られる類似性データを格納するよう構成される類似性データベースを用いて、類似性の観点から、前記指定薬物の最近接近隣を得るステップであって、前記類似性データは、前記薬物セットの中の各々の薬物と全ての他の薬物との間の薬物類似性を提供する、ステップと、
    前記最近接近隣から知られている副作用を集めるステップと、
    前記最近接近隣の間の副作用の共起性に従って、前記副作用を結合しランク付けするステップと、
    を有する方法。
JP2016086990A 2015-04-30 2016-04-25 類似性計算装置、薬の類似性を計算し及び類似性を用いて副作用を推定する副作用決定装置及びシステム Active JP6693252B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB1507501.3A GB2537925A (en) 2015-04-30 2015-04-30 A similarity-computation apparatus, a side effect determining apparatus and a system for calculating similarities between drugs and using the similarities
GB1507501.3 2015-04-30
EP15198304.6 2015-12-07
EP15198304.6A EP3089060B1 (en) 2015-04-30 2015-12-07 System for calculating similarities between drugs and using the similarities to extrapolate side effects

Publications (2)

Publication Number Publication Date
JP2016212853A JP2016212853A (ja) 2016-12-15
JP6693252B2 true JP6693252B2 (ja) 2020-05-13

Family

ID=53489016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016086990A Active JP6693252B2 (ja) 2015-04-30 2016-04-25 類似性計算装置、薬の類似性を計算し及び類似性を用いて副作用を推定する副作用決定装置及びシステム

Country Status (5)

Country Link
US (1) US10963488B2 (ja)
EP (1) EP3089060B1 (ja)
JP (1) JP6693252B2 (ja)
ES (1) ES2753524T3 (ja)
GB (1) GB2537925A (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017119576A1 (de) 2017-08-25 2019-02-28 Klomfass Gierlings & Partner GbR (vertretungsberechtigter Gesellschafter Michael Gierlings, 40723 Hilden) Vorrichtung zum Kaschieren eines Substrates mit einem thermoplastischen Beschichtungsmaterial
US11183285B2 (en) * 2017-12-26 2021-11-23 International Business Machines Corporation Medication decision support
JP7087904B2 (ja) * 2018-10-10 2022-06-21 富士通株式会社 ノード探索方法及びノード探索プログラム
EP3640864A1 (en) * 2018-10-18 2020-04-22 Fujitsu Limited A computer-implemented method and apparatus for inferring a property of a biomedical entity
KR102158066B1 (ko) * 2018-10-24 2020-09-21 가천대학교 산학협력단 약의 신규 특성을 도출하는 방법, 장치 및 컴퓨터-판독가능 매체
CN109637672B (zh) * 2018-11-28 2023-11-07 北京工业大学 一种基于药物效用度的方剂相似度计算方法
CN111383725B (zh) * 2018-12-28 2023-04-28 国家食品药品监督管理总局药品评价中心 不良反应数据鉴别方法、装置、电子设备及可读介质
US11152125B2 (en) * 2019-06-06 2021-10-19 International Business Machines Corporation Automatic validation and enrichment of semantic relations between medical entities for drug discovery
CN110245217B (zh) * 2019-06-17 2022-07-22 京东方科技集团股份有限公司 一种药品推荐方法、装置及电子设备
JP7416082B2 (ja) * 2019-10-01 2024-01-17 富士通株式会社 学習方法、学習装置、学習プログラム、予測方法、予測装置および予測プログラム
CN110797103A (zh) * 2019-10-28 2020-02-14 重庆亚德科技股份有限公司 一种合理用药监测系统
JP7513254B2 (ja) 2020-06-17 2024-07-09 国立大学法人 東京大学 情報処理装置、情報処理方法及び情報処理プログラム
KR102530114B1 (ko) * 2020-09-29 2023-05-08 가천대학교 산학협력단 유사도 측정에 기반한 약물의 부작용을 예측하는 방법, 시스템, 및 컴퓨터-판독가능 매체
EP4239535A4 (en) 2020-11-02 2023-12-20 Fujitsu Limited MACHINE LEARNING PROGRAM, INFERENCE PROGRAM, DEVICE AND METHOD
JPWO2022190215A1 (ja) * 2021-03-09 2022-09-15
CN113160879B (zh) * 2021-04-25 2023-11-28 上海基绪康生物科技有限公司 一种基于网络学习的通过副作用预测药物重定位方法
CN115910382A (zh) * 2022-07-26 2023-04-04 苏州科技大学 基于惩罚正则项的受限玻尔兹曼机的预测药物副作用方法
US20240104408A1 (en) * 2022-09-27 2024-03-28 342022, Inc. Causal inference on category and graph data stores

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7542961B2 (en) 2001-05-02 2009-06-02 Victor Gogolak Method and system for analyzing drug adverse effects
US6789091B2 (en) 2001-05-02 2004-09-07 Victor Gogolak Method and system for web-based analysis of drug adverse effects
US20080201319A1 (en) * 2006-04-25 2008-08-21 Mcnamar Richard Timothy Method, system and computer software for using an XBRL medical record for diagnosis, treatment, and insurance coverage
US8464951B2 (en) 2009-10-29 2013-06-18 Symbol Technologies, Inc. Method and apparatus for monitoring an exit window of a scanner
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
US8793208B2 (en) * 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
JP5392120B2 (ja) * 2010-01-29 2014-01-22 富士通株式会社 情報処理装置、判定プログラム及び判定方法
US8543422B2 (en) 2011-04-04 2013-09-24 International Business Machines Corporation Personalized medical content recommendation
US20130144636A1 (en) 2011-12-01 2013-06-06 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Predicting Adverse Drug Reactions Using BioAssay Data
US9305267B2 (en) 2012-01-10 2016-04-05 The Board Of Trustees Of The Leland Stanford Junior University Signal detection algorithms to identify drug effects and drug interactions
US20130268290A1 (en) * 2012-04-02 2013-10-10 David Jackson Systems and methods for disease knowledge modeling
US20140379630A1 (en) 2013-06-24 2014-12-25 Microsoft Corporation Discovering adverse health events via behavioral data

Also Published As

Publication number Publication date
US10963488B2 (en) 2021-03-30
US20160321407A1 (en) 2016-11-03
EP3089060B1 (en) 2019-08-07
ES2753524T3 (es) 2020-04-13
JP2016212853A (ja) 2016-12-15
GB2537925A (en) 2016-11-02
EP3089060A1 (en) 2016-11-02
GB201507501D0 (en) 2015-06-17

Similar Documents

Publication Publication Date Title
JP6693252B2 (ja) 類似性計算装置、薬の類似性を計算し及び類似性を用いて副作用を推定する副作用決定装置及びシステム
US11232365B2 (en) Digital assistant platform
CN104636430B (zh) 案例知识库表示及案例相似度获取方法及系统
Gan et al. From ontology to semantic similarity: calculation of ontology‐based semantic similarity
Hulth et al. Web queries as a source for syndromic surveillance
US10930399B2 (en) System and method to produce and validate weighted relations between drug and adverse drug reactions
US20200311610A1 (en) Rule-based feature engineering, model creation and hosting
US20210174217A1 (en) Systems and methods driven by link-specific numeric information for predicting associations based on predicate types
US20210174906A1 (en) Systems And Methods For Prioritizing The Selection Of Targeted Genes Associated With Diseases For Drug Discovery Based On Human Data
Ling et al. GEMINI: An integrative healthcare analytics system
Huo et al. Hotness prediction of scientific topics based on a bibliographic knowledge graph
Wang et al. Automatic diagnosis with efficient medical case searching based on evolving graphs
JP2023527290A (ja) 露出可能なクラウドベースのレジストリを使用した治療のためのインテリジェントなワークフロー分析
Walkey et al. Mortality measures to profile hospital performance for patients with septic shock
Sandhu et al. An effective framework for finding similar cases of dengue from audio and text data using domain thesaurus and case base reasoning
Muscolino et al. NETME: on-the-fly knowledge network construction from biomedical literature
Pokharel et al. Representing EHRs with temporal tree and sequential pattern mining for similarity computing
Saadat et al. Knowledge graph-based convolutional network coupled with sentiment analysis towards enhanced drug recommendation
Qiu et al. Estimating disease burden using Internet data
KR20200076435A (ko) 인터랙션을 이용한 반려동물 건강관리 시스템 및 그 방법
Safari et al. Restricted natural language based querying of clinical databases
Hackl et al. Clinical information systems research in the pandemic year 2020
Saiod et al. Electronic health records: benefits and challenges for data quality
Ji et al. A functional temporal association mining approach for screening potential drug–drug interactions from electronic patient databases
Li et al. Automating document classification with distant supervision to increase the efficiency of systematic reviews: A case study on identifying studies with HIV impacts on female sex workers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200330

R150 Certificate of patent or registration of utility model

Ref document number: 6693252

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150