JP7068106B2 - 試験計画策定支援装置、試験計画策定支援方法及びプログラム - Google Patents

試験計画策定支援装置、試験計画策定支援方法及びプログラム Download PDF

Info

Publication number
JP7068106B2
JP7068106B2 JP2018158954A JP2018158954A JP7068106B2 JP 7068106 B2 JP7068106 B2 JP 7068106B2 JP 2018158954 A JP2018158954 A JP 2018158954A JP 2018158954 A JP2018158954 A JP 2018158954A JP 7068106 B2 JP7068106 B2 JP 7068106B2
Authority
JP
Japan
Prior art keywords
sentence
sentences
cluster
clinical trial
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018158954A
Other languages
English (en)
Other versions
JP2020035036A (ja
Inventor
洋子 大瀧
邦彦 木戸
晴彦 西山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018158954A priority Critical patent/JP7068106B2/ja
Priority to US16/535,188 priority patent/US20200075135A1/en
Publication of JP2020035036A publication Critical patent/JP2020035036A/ja
Application granted granted Critical
Publication of JP7068106B2 publication Critical patent/JP7068106B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、試験計画策定を支援する技術に関する。
臨床試験の立案を支援する技術として、例えば特開2011-159176号公報(特許文献1)が開示されている。特許文献1には、「所定の疾患を対象とする臨床試験(以下対象臨床試験とする)のデザインを決定する2以上の試験条件に基づいて、前記デザインを特徴づける指標を算出して視覚的に表示する臨床試験デザインの特徴マップ表示方法であって、臨床試験情報を体系的に抽出する体系的臨床試験情報抽出方法と、抽出した前記臨床試験情報を分析する抽出情報分析方法と、情報抽出・分析方法のノウハウ共有方法と、を有することを特徴とする臨床試験デザインの特徴マップ表示方法。」と記載されている。
特開2011-159176号公報
新薬開発の過程では、新薬候補の中から可能性の高い化合物を選別する基礎研究を行った後、動物を用いて薬効薬理作用を検討する非臨床試験を行う。その後、臨床試験を行い、臨床試験の結果を厚生労働省に提出して承認審査を受け、製造承認されると新薬の発売が可能となる。
臨床試験は、ヒトを対象に新薬の有効性や安全性を検討するために行われる試験である。有効性及び安全性に関して統計的な有意性を示すのに十分な数の被験者を確保して、高い品質管理のもと試験データを取得する必要があり、また試験データの信頼性及び被験者に対する倫理的配慮も要求される。そのため、臨床試験を行うには巨額の費用が必要となり、臨床試験が適切に実施できずに新薬の開発に失敗すると製薬会社は巨額の損失を被ることになる。適切な臨床試験が実施できなければ、臨床試験の長期化、ひいては新薬発売の遅れの原因となり患者に多大な影響を及ぼす。
そこで、製薬会社は新薬の開発に有効な信頼性の高い試験データが得られるように、臨床試験の実施内容を入念に検討して計画を作成する必要がある。また病院などの医療施設で実施する際の試験実施計画書(以下、プロトコルと呼ぶ)を作成し、厚生労働省へ届け出る必要がある。
臨床試験の計画を作成する上では、過去に立案された臨床試験の情報が非常に有用であり、過去に立案された類似の臨床試験を参照して計画を作成するのが一般的である。さらに、臨床試験に関するガイドラインや治療に関するガイドライン、及び、薬事法などの法律的な制約事項を参照し、有効性及び安全性を科学的かつ倫理的な配慮もなされた方法で調査できるような計画を作成する。
過去の臨床試験計画の情報を有効に活用できるように、臨床試験の情報を登録したデータベースが従来から知られている。一例としてはインターネットで学術論文の抄録が検索可能なPubMedサービス、及び、臨床試験のプロトコルを登録するインターネットサイトClinicalTrials.gov等の公開データベースがある。
このようなデータベースを用いて、臨床試験を行う薬剤の治療対象となる疾患及び該薬剤と類似する作用機序を持つ薬剤のプロトコルを網羅的に調査し、臨床試験の目的に応じた試験条件を設定することが通例である。
臨床試験の試験条件として、どのような被験者を試験に参加させるかといった被験者集団の規定基準及び試験実施方法などを規定する試験方法がある。試験の実施方法としては、対照群を置いた試験か、盲検化されているか、ランダム化されているか、多施設共同試験か、薬剤はどのような投与量でどのような間隔で投与するか、などの試験デザイン、効能を測る指標(エンドポイント)はどのように設定するか、有害事象として想定する事象、などといった項目が含まれる。
これらの試験条件の設定いかんによって試験の有効性及び安全性の結果を十分に示せるかどうかが決まる。
被験者集団の規定基準としては、年齢、性別、疾病のタイプ・病期、これまでの治療歴、その他の病状等の要因に基づき、参加するための基準である選択基準と参加させてはいけない基準である除外基準を規定する。
選択基準及び除外基準は、通例一文一要因で記述し、複数文によって規定する。例えば、選択基準及び除外基準は以下のように記述される。
<選択基準>
●年齢が20歳以上70歳以下の患者
●総ビリルビンが2.0mg/dl未満
●血小板数が70,000/mm3以上
<除外基準>
●過去に治験と同じ薬の投与を受けた患者
●6ヶ月以内に他の治験に参加した患者
●妊娠,授乳中の患者
上記の特許文献1は、このような被験者集団の規定基準とその規定を採択した臨床試験との関連性を分析する技術を提案している。
特許文献1に記載された臨床試験デザインの特徴マップ表示方法及び表示装置は、臨床試験条件を特徴づけるキーワードをあらかじめ定義し、臨床試験ごとの臨床試験条件の文内にそれらのキーワードが現れたか現れていないかを記録したデータを作成しておき、臨床試験条件データと疾患などでカテゴライズした臨床試験集団との関係性を分析する。このため、分析したいと考えられる試験条件の特徴があらかじめわかっているという前提で試験条件を特徴づけるキーワードをあらかじめ網羅しておき、構造化する必要がある。
しかしながら、臨床試験の試験条件で設定を行う項目は多種多様な上、非常に入り組んで複雑なものであり、記述が定型化されておらず自由な文章での記述である。このため、条件の特徴となるようなキーワードを、その記載のばらつきまで含めて精査して分析及び整理をしようとしても容易ではない(記述のばらつきに関する課題)。
また、試験条件をどのような情報をどのような視点で精査して分析するかは経験者のノウハウに大きく依存する。その経験者でさえ、臨床試験に関するルールが複雑であったり臨床試験が巨大なプロジェクトであったり、臨床試験をいろいろな角度から見る必要があったり、臨床試験が進化するものであったりするため、分析する視点をあらかじめ適切に決めることは困難であった(臨床試験の情報集約に関する課題)。
また、ある条件を設定すると付随して他の条件も関連して設定するような条件間の関連性があり、試験条件を設定する都度ありうる関連性を想起して条件として挙げることが通例となっている。有害事象が腎臓に起こりうることが想定されているときには、腎臓に疾患を抱えているような患者を除外することがその例である。過去の臨床試験の設定を分析し、条件間の関連性を分析し、ある条件が設定されているときにどのような条件が設定される傾向にあるかを分析したいが、臨床試験のデザイン関連情報が多種多様でありさらに記述が定型化されていないために、条件間の関連性の分析は容易ではなかった(臨床試験条件の分析に関する課題)。
試験条件における被験者集団の規定基準及び試験方法などの臨床試験デザインは、臨床試験の成果に重要な影響を与えるにもかからず、臨床試験情報を適切に分析し、臨床試験の立案を支援する技術はこれまで提供されていない。
そこで本発明はこれらの問題を解決するためになされたものであり、所定の疾患又は作用機序を対象とする臨床試験の試験条件を適切に分類しその分類に含まれる試験条件の特徴を抽出し、図式を用いて視覚的に試験条件の特徴表示方法を有する試験計画策定支援装置、試験計画策定支援方法及び試験計画策定支援プログラムを提供することを目的とする。各種試験条件は、試験結果情報との関連情報の表示もなされる。
上記の課題の少なくとも一つを解決するために、本発明は、プロセッサと、記憶部と、を有する試験計画策定支援装置であって、前記記憶部は、既に実施された臨床試験に関する複数の文書のデータを保持し、前記プロセッサは、臨床試験に関連する情報が入力されると、前記複数の文書のデータから、前記入力された情報に関連する複数の文を検索し、前記記憶部に保持された複数の文書に基づいて、共起しやすい単語を表現するベクトルであるほど相互に近い値となるように、各単語を表現するベクトルを生成し、前記検索された複数の文のそれぞれについて、文に含まれる単語を表現するベクトルに基づいて、文を表現するベクトルを生成し、前記検索された複数の文のうち、所定の基準より短い文について、前記文を表現するベクトルに基づく複数のクラスタへの分類を実行し、前記所定の基準より長い文を、複数の部分に分割し、前記複数の部分のそれぞれについて、部分に含まれる単語を表現するベクトルに基づいて、部分を表現するベクトルを生成し、前記各部分を表現するベクトルに基づいて、前記複数の部分を、前記複数のクラスタのいずれかに分類し、クラスタに分類された文に関する情報を出力することを特徴とする。
本発明の一態様によれば、臨床試験のデザイン及び評価方法を表記の揺らぎを縮約し、分類した上で臨床試験情報を適切に抽出し、分析することによって、網羅的に情報を分析することが可能となる。
上記した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。
本発明の実施例に係る試験策定支援装置の機能的な構成を示すブロック図である。 本発明の実施例に係る試験策定支援装置が実行する語のベクトル表現収集処理を説明するためのフローチャートである。 本発明の実施例に係る試験策定支援装置が実行する文のベクトル表現収集処理を説明するためのフローチャートである。 本発明の実施例に係る試験策定支援装置が実行する文のベクトル表現クラスタリング処理を説明するためのフローチャートである。 本発明の実施例に係る試験策定支援装置が実行するクラスタリングされたデータの表示処理を説明するためのフローチャートである。 本発明の実施例に係る試験策定支援装置が保持する臨床試験の条件文のデータ例の説明図である。 本発明の実施例に係る試験策定支援装置が生成するパラメータ値抽出結果のデータ例を示す説明図である。 本発明の実施例に係る試験策定支援装置が生成する文クラスタのデータ例を示す説明図である。 本発明の実施例に係る試験策定支援装置による疾患名、作用機序名、薬剤名の入力画面の表示例を示す説明図である。 本発明の実施例に係る試験策定支援装置による試験計画策定支援画面の表示例を示す説明図である。 本発明の実施例に係る試験策定支援装置が実行する臨床試験条件分類処理を説明するためのフローチャートである。 本発明の実施例に係る試験策定支援装置が実行する文のフレーズ分割とフレーズクラスタ決定処理を説明するためのフローチャートである。 本発明の実施例に係る試験策定支援装置が実行する文の分割の説明図である。 本発明の実施例に係る試験策定支援装置の処理において参照される単語間の係り受け構造の一例を示す説明図である。 本発明の実施例に係る試験策定支援装置の処理において参照される意味構造の一例を示す説明図である。 本発明の実施例に係る試験策定支援装置が生成する臨床試験と文クラスタの関係データの一例を示す説明図である。
本発明の一つの実施形態の試験策定支援装置が実行する試験計画策定支援方法は、臨床試験情報分類方法と、臨床試験情報分析方法、臨床試験情報間の関連性の分析方法から構成される。
臨床試験情報分類方法は、自由文で記述された試験条件の記述の類似性に基づき分類を行う方法である。この方法は、どのような被験者を試験に参加させるかといった被験者集団の規定基準、又は試験実施方法などを規定する試験方法の分類に使用される。
自由文で記述された文書を分類するために、次のような構成が採用される。
例えば、本発明の一つの実施形態の臨床試験情報分類方法は、解析を行いたい文書を疾患や薬剤、薬剤の作用機序などによって絞り込みを行い、取得する文書取得収集部と得られた文書を使用し単語をベクトル表現する単語のベクトル表現収集部、単語ベクトルを使用し文をベクトル表現する文のベクトル表現収集部と、文のベクトルを用いて文を分類する文のクラスタリング部と、から構成される。
臨床試験情報を文又はフレーズなど意味のまとまりの単位に分割し、文又はフレーズをベクトル化し、文同士の語義の類似性に基づき文を分類することが、本実施形態の臨床試験情報分類方法の特徴の一つである。試験条件などの臨床試験デザイン関連情報には、どのような指標を設定するか、指標に対してどのような値を規定するかが重要であり、多種多様に記述される試験デザイン関連の情報を記載の揺れがあったとしても類似する指標を同一のグループとして分類できることが重要である。このため、指標に関する類似性を保ちつつ分類することも、本実施形態の臨床試験情報分類方法の特徴の一つである。
臨床試験情報分析方法は、臨床試験情報分類方法によって分類された試験条件群を分析し、クラスタを特徴づける語や値を分析し、提示する方法である。分類された文のクラスタの特徴を提示するために次のような構成が採用される。
例えば、本発明の一つの実施形態の臨床試験情報分析方法は、文から臨床試験において重要な指標及び値の統計値を抽出する試験パラメータ値抽出部から構成される。この臨床試験情報分析方法は、分類された臨床試験情報を特徴づける指標及び指標に対して設定された値を取り出して統計解析し、値の分布を可視化することを特徴とする。
試験条件分類間関係分析部は、ある条件が設定されるときには、必ず設定されるような条件があるかどうかを分析し、プロトコル作成を行う際に、過去の事例での関連性を参考にし、関連性のある条件を提示することを支援することに用いられる。
そのため、試験条件分類間関係分析部は、一つの臨床試験の中で設定される臨床試験条件の間の共起関係のデータを作成する共起関係データ作成部と、臨床試験条件を設定する際に、関連する臨床試験条件を提示する臨床試験条件提示部と、から構成される。この関係性の分析結果は分類を提示する際の提示順序を算出するデータとしても使用できる。
以下、図面を使用して本発明の好ましい実施の形態における試験策定支援装置について詳細に説明する。
図1は、本発明の実施例1に係る試験策定支援装置100の機能的な構成を示すブロック図である。
この試験策定支援装置100は、臨床試験実施計画書(プロトコル)の作成を支援する装置である。図1に示すように、試験策定支援装置は、入出力部101、制御部102、メモリ103及び記憶部104を有する。
入出力部101は、試験策定支援装置100に接続された他の装置(図1の例では文献管理装置130)との間でデータを送受信するインターフェースである。
制御部102は、メモリ103に格納されたプログラムに従って種々の処理を実行するプロセッサである。メモリ103は、制御部102が実行するプログラム及び制御部102が参照するデータ等を格納する記憶装置である。図1の例では、メモリ103には、臨床試験情報分類部105、臨床試験情報分析部115及び試験条件分類間関係分析部118が格納される。これらは実際にはメモリ103に格納されたプログラムによって実現される。すなわち、以下の説明においてこれらの各部が実行する処理は、実際には、制御部102がメモリ103に格納されたプログラムに従って実行する。
また、文献管理装置130内の記憶部132には、過去に開発された薬剤及び薬剤の薬理作用の名称を集めた薬剤データベース133、疾患の名称を集めた疾患データベース134、過去に行われた臨床試験について記載された論文を集めた論文データベース136、及び、公開治験データベース135等の治験(すなわち治療の臨床試験)に関する文献データ(これらを総称して文献管理データベースとも記載する)を格納する。図1の例ではこれらのデータベースが文献管理装置130の記憶部132に格納されているが、記憶部104に格納されていてもよいし、必要に応じてそれらの少なくとも一部が記憶部104にコピーされてもよい。
文献データは、どの薬剤及びどの作用機序に関する臨床試験か、どの疾患に関する臨床試験かによって文献の絞り込みができるようにするため、薬剤データ及び疾患データと関連付けられている。
試験策定支援装置100の記憶部104には、文書121、語の列122、語のベクトル表現データベース123、治験条件文124、語の列125、文のベクトル表現データベース126、文のクラスタリング結果127、パラメータ値抽出結果128及び臨床試験と文の関係データ129が格納される。
臨床試験情報分類部105は、文書収集部106、語のベクトル表現収集部107、文のベクトル表現収集部110、文のベクトルクラスタリング部113及びクラスタタイトル算出部114を含む。
文書収集部106は、疾患、薬剤及び薬剤の作用機序などによって関連付けられた公開治験データベース135のデータ及び論文データベース136のデータを収集する。例えば、文書収集部106は、疾患、薬剤又は薬剤の作用機序の少なくともいずれかのような、治験に関連する情報が入力されると、その情報に関連する文を薬剤データベース133、疾患データベース134、公開治験データベース135及び論文データベース136等から検索して、取得した文を文書121として記憶部104に格納する。具体的には、例えば糖尿病の治療に使用する薬剤の治験を行おうとする場合に、糖尿病に関する文を検索してもよいし、当該薬剤に類似する薬剤に関する文書を検索してもよい。
語のベクトル表現収集部107は文書収集部106によって収集し蓄積された文書121の集合を用いて、語をベクトル表現へ変換し語のベクトル表現データベース123へ記憶する処理部であり、分解部108及び変換部109を有する。
分解部108は、記憶部104から文書121を読み込んで、読み込んだ文書を、空白の検出または形態素解析によって構成単位に分割し、語の列122を生成する。その結果、文書ごとの語の列122が記憶部104に記憶される。文書121が英文の場合、分解部108は、空白によって文書121を語に分割してもよい。文書121が和文の場合、分解部108は、形態素解析による分かち書きによって文書121を語に分割してもよい。
変換部109は、語のベクトル表現データベース123を参照して、分解部108によって得られた語の列をそれぞれベクトル列へ変換する。変換部109は、例えば、ベクトル表現として出現頻度、出現位置などへ変換すればよい。出現頻度への変換はLSI(Latent Semantic Indexing)又はtfidfなどを用いればよい。出現位置への変換はword2vecなどを用いればよい。ベクトル表現はベクトル列で表現される。これによって、共起しやすい語を表現するベクトルであるほど相互に近い値となるように、それぞれの語を表現するベクトルが生成される。
文のベクトル表現収集部110は、治験の条件文を語の列125へ変換し、語のベクトル表現を用いて文のベクトル表現へ変換し文のベクトル表現データベース126へ記憶する処理部であり、分解部111及び変換部112を有する。
分解部111は、語のベクトル表現収集部107の分解部108と同様、記憶部104から文書121を読み込んで、読み込んだ文書を、空白の検出または形態素解析によって構成単位に分割し、語の列125を生成する。
変換部112は、語の列125に変換された文の各語を語のベクトル表現データベース123に格納されているベクトル表現に変換し、例えば、文を構成する語の列125のベクトル表現を平均することによって、文のベクトル表現を得る。
文のベクトルクラスタリング部113は、文のベクトル表現データベース126に格納された文のベクトルを、それらの類似性に基づいて(より詳細には、それらを表現するベクトルの類似性に基づいて)クラスタリングする。クラスタリングは、階層的クラスタリングを用いて行ってもよいし、K-means法などのクラスタリング手法を用いて行ってもよい。クラスタリング結果は、文のクラスタリング結果127として記憶される。
臨床試験情報分析部115は、試験パラメータ値抽出部116及びクラスタ別特徴提示部117を含む。試験パラメータ値抽出部116は、試験条件文それぞれから、試験条件として重要と考えられる指標、例えば臨床検査に関する指標、薬剤に関する名称など、様々な処置に関する名称などとともに、指標と関連する数値を抽出し、パラメータ値抽出結果128へ記憶する処理部である。
もともとの文との対応を保持したいため、指標及び数値が記載された文字列番号をパラメータ値抽出結果128へ格納しておいてもよい。
クラスタ別特徴提示部117は、文のクラスタリング結果127からクラスタ別に関連する試験パラメータ値抽出結果データを取得する。具体的には、クラスタ別特徴提示部117は、各クラスタに出現する指標と関連する数値を、出現頻度などによって分析し、特徴を提示する処理部である。
試験条件分類間関係分析部118は、共起関係データ作成部119及び臨床試験条件提示部120を含む。共起関係データ作成部119は、文のクラスタリング結果127を試験単位で集計し、試験内で共起するクラスタの2項関係のデータを作成し、臨床試験と文の関係データ129として記憶する処理部である。
一方のクラスタを指定すると、臨床試験と文の関係データ129を参照することによって他方のクラスタを提示することができる。
次に処理フローについて説明する。まず語のベクトル表現収集部107によるベクトル表現収集処理の手順について説明する。
図2は、本発明の実施例に係る試験策定支援装置100が実行する語のベクトル表現収集処理を説明するためのフローチャートである。
図2に示すように、語のベクトル表現収集部107では、ステップS201で分解部108が文書121の集合から一つの文書121を読み込み、ステップS202で読み込んだ文書121を構成単位に分解して語の列を作成する。文書“Age 12-17 years at study entry.”を例にとると、この文書が英語であるため、分解部108は、空白及び記号で語を分解し、語の列122は「”age”,“12”,”17”,”at”,”study”,”entry”」であらわされる。語の列122は記憶部104へ格納される。
語の列122が生成されると次はステップS203で変換部109が語の列の各語をベクトルに変換して、ベクトル列を生成し、語のベクトル表現データベース123へ蓄積する。語のベクトル表現データベース123には、語「age」に対応付けて、(0.2,0.5,0.7,0.2)、語「12」に対応付けて(0.8,0.2,0.7,0.5)などのベクトルが蓄積される。
語のベクトル表現収集部107は、ステップS204で文書121の集合に未処理の文書121があるか否かを判断する。未処理の文書121がある場合には、語のベクトル表現収集部107はステップS201へ戻り上述の処理を繰り返す。一方未処理の文書121がない場合には、語のベクトル表現収集部107は処理を終了する。
なお、文書121を分解する構成単位は文字であってもよいし、文字の連なり(N-gram)であってもよい。
図3は、本発明の実施例に係る試験策定支援装置100が実行する文のベクトル表現収集処理を説明するためのフローチャートである。
図3において、文のベクトル表現収集部110では、ステップS301及びS302で分解部111が文を読み込み、読み込んだ文を分解して語の列を作成する。次に変換部112がステップS303で語のベクトル表現データベース123を参照して語の列をベクトル列へ変換し、文のベクトル表現データベース126へ格納する。
例えば、変換部112は、語「age」「12」「17」「years」「at」「study」「entry」をそれぞれ語のベクトルに変換し、それらのベクトル値を加算し平均したベクトルを“Age 12-17 years at study entry.”の文のベクトルとする。
文のベクトル表現収集部110は、ステップS304で文書121の集合に未処理の文書121があるか否かを判断する。未処理の文書121がある場合には、文のベクトル表現収集部110はステップS301へ戻り上述の処理を繰り返す。一方未処理の文書121がない場合には、文のベクトル表現収集部110は処理を終了する。
図4は、本発明の実施例に係る試験策定支援装置100が実行する文のベクトル表現クラスタリング処理を説明するためのフローチャートである。
図4において、文のベクトルクラスタリング部113は、ステップS401で文のベクトル表現データベース126を参照して文のベクトルを読み込む。文のベクトルクラスタリング部113は、ステップS402で文のクラスタ数を指定し、ステップS403で文をクラスタリングする。
ステップS404で、文のベクトルクラスタリング部113は、クラスタリングされたそれぞれの文にクラスタ番号を記憶する。さらに、文のベクトルクラスタリング部113は、クラスタごとにクラスタ中心及びクラスタの最遠点の距離も記憶する。クラスタリング手法は、K-means法又は階層的クラスタリングなどの手法を用いればよい。
図9は、本発明の実施例に係る試験策定支援装置100による疾患名、作用機序名、薬剤名の入力画面の表示例を示す説明図である。
図9に示す表示画面900は、疾患名をプルダウンメニューから選択可能とする疾患名プルダウンメニュー901、疾患名に関連する作用機序を表示し、チェックボックスによって選択可能とする作用機序チェックボックス902、及び、疾患名に関連する薬剤名を表示しチェックボックスによって選択可能とする薬剤名チェックボックス903が含まれている。あるいは、表示画面900は、上記のプルダウンメニュー又はチェックボックスの代わりに、疾患名、作用機序及び薬剤名を文字入力によって検索可能とする入力フィールドを有してもよい。
表示画面900は、さらに、既存の臨床試験計画の情報を参照するデータソースを選択するためのデータソースチェックボックス904、及び、対象とする臨床試験の実施時期を指定するために当該臨床試験が実施された期間の開始時期及び終了時期を入力する入力ボックス905を含む。
ここで、入力部を介して、疾患名プルダウンメニュー901から臨床試験の対象となる疾患名を選択する操作と、作用機序チェックボックス902から臨床試験の対象となる作用機序名を選択する操作と、薬剤名チェックボックス903から臨床試験の対象となる薬剤名を選択する操作とを受け付けた後、次画面ボタンを押下する操作を受け付けると、制御部102は、クラスタリングされたデータを表示する処理を開始する。
なお、制御部102が画面を表示するためのデータを生成して出力し、表示部142がそのデータに基づいて表示を行うことによって、図9に示すような画面が表示されてもよい。後述する図10の画面等も同様である。
図5は、本発明の実施例に係る試験策定支援装置100が実行するクラスタリングされたデータの表示処理を説明するためのフローチャートである。
上記のように疾患名、作用機序名及び薬剤名が選択されると、制御部102は、選択された疾患名、作用機序名及び薬剤名を読み込む(ステップS501)。そして、制御部102は、文献管理装置130内の文献管理データベースを参照して、疾患マスタ、作用機序マスタ及び薬剤マスタを検索し、読み込んだ疾患名、作用機序名及び薬剤名と関連する疾患、作用機序及び薬剤の識別子を取得する(ステップS502)。図5では疾患を例にとりフローチャート図で説明しているが、薬剤、作用機序も疾患と同様の処理が行われる。
次に、制御部102は、文献管理装置130内の文献管理データベースを参照して、文献別の適応疾患データを検索し、適応疾患識別子から入力で受け付けた疾患と関連付けられた文の識別子を得る(ステップS503)。次に、制御部102は、文のクラスタデータを検索し、文の識別子に該当するクラスタの識別子を得る(ステップS504)。
次に、制御部102は、当該クラスタの識別子を読み込んで(ステップS505)、その識別子に関連する文のアノテーション情報を参照し、疾患名、薬剤名、処置名、臨床検査名などが文で使用されている回数を計測し、さらに試験数単位で集計を行う(ステップS506)。
次に、制御部102は、統計解析結果画面(図10)に表示するためのデータを作成する。
次に、制御部102は、クラスタの集合に未処理のクラスタがあるか否かを判断する(ステップS508)。未処理のクラスタがある場合には、ステップS505へ戻り、未処理のクラスタを対象として上述の処理を繰り返す。一方未処理のクラスタがない場合は処理を終了し、入出力部101を介して、表示部142へ試験計画策定支援画面を表示する。
図10は、本発明の実施例に係る試験策定支援装置100による試験計画策定支援画面の表示例を示す説明図である。
図10には、選択基準及び除外基準に関する情報の表示例を示している。この表示例では、クラスタリングによって得られた複数のクラスタのうち少なくとも一つ(例えば二つ)に関して、そのクラスタに関する情報が表示される。例えば、あるクラスタ(図10のクラスタ1)については、そのクラスタに分類された文(例えば「HbA1c value between 7.5-9%」)及びそのクラスタの特徴を示す文字列(例えば「HbA1c」)が表示される。
このとき、それぞれの文に含まれる指標及びその数値を示す情報が表示されてもよい。図10の「HbA1c value between 7.5-9%」の例では、「HbA1c」が指標であり、「7.5」及び「9」がその指標に対応する数値であるため、そのことを示すマーカが表示されている。
クラスタに分類された複数の文が、同一の指標に関する異なる数値をそれぞれ含んでいる場合には、その数値の出現頻度分布を表示してもよい。図10の例では、「パラメータ値」として、HbA1cの値(例えば「7.5%」及び「9%」等)の出現回数のヒストグラムが表示される。このような数値に、例えば「7.0%-9.5%」のようなガイドラインが存在する場合には、そのガイドラインの範囲を表示してもよい。
また、別のクラスタ(図10のクラスタ2)についても、どうように、クラスタに分類された文(例えば「history of cardiac bypass grafting within 3 months」)及びそのクラスタの特徴を示す文字列(例えば「Therapeutic Procedure」)が表示される。この場合も、上記のクラスタ1の例と同様に、それぞれの文に含まれる指標及びその数値を示す情報が表示されてもよい。
図10の「history of cardiac bypass grafting within 3 months」の例では、「bypass grafting」が指標であるため、そのことを示すマーカが表示されている。クラスタに分類された複数の文が、異なる指標をそれぞれ含んでいる場合には、「パラメータ値」として、それらの内訳を表示してもよい。図10の例では、それぞれの指標の出現数が円グラフで表示されている。
図10の例では、さらに、各クラスタに含まれる臨床試験の条件文が使用されていた薬剤が実際に市場に出たか、もしくは、途中で治験が中止になった、などの情報に基づいて、条件文が関連する結果の統計表示も行う。具体的には、各クラスタに含まれる臨床試験の条件文のうち、上市された薬剤に関する条件文の数(上市数)及び治験が中止になった薬剤に関する条件文の数(中止数)が表示されてもよい。
臨床試験のデザイン関連情報は多種多様な上、非常に入り組んで複雑なものであり、記述が定型化されておらず自由な文章での記述であるが、本実施例によれば、語義の類似性に基づき臨床試験のデザイン関連情報を分類し、分類単位で分析を行うことが可能となる。また、図10の試験計画策定支援画面では、臨床試験のデザインとしてどのような指標をどのような値を過去の臨床試験では設定していたかという情報も表示しているため、値の設定値を参考とすることができる。
さらに、当該臨床試験のデザインを用いた場合に過去の臨床試験の成績がどのようであったかも知ることができる。図10の例では、各クラスタに含まれる文に関する薬剤が上市したかどうかという情報と比較してみられる例を示しているが、薬剤のエンドポイントの大きさ(エフェクトサイズ)、有害事象の出現確率、又は被験者のリクルートにかかる時間などの治験の結果に影響を及ぼす情報とを比較して表示してもよい。
図10の例では、分類ごとの治験結果を表示しているが、指標値の大きさによって治験結果が変わるため、指標値を示すグラフの値の範囲をユーザが指定し、指定された値の範囲の中での治験結果を表示するようにしてもよい。
図6は、本発明の実施例に係る試験策定支援装置100が保持する臨床試験の条件文のデータ例の説明図である。
各文には識別子601が付与されていて、各文の文情報602が格納されている。文情報602として保持された文が図1の治験条件文124に相当する。図6に示すテーブルは、さらに、文情報602に保持された文と、その文が抽出された文書本体とを関連付ける情報(例えば当該文書の識別子)を含んでもよい。また、文又は文書本体が、疾患名、薬剤名及び薬理作用名と関連付けられる。
なお、文情報602に保持された治験条件文は、例えば“HbA1c greater than 13%”などのように、治験条件を示す単語列であればよく、主語と動詞を含むといった文法上の要件を満たしている必要はない。前述の文のベクトルクラスタリング部113が扱う「文」も同様である。
図7は、本発明の実施例に係る試験策定支援装置100が生成するパラメータ値抽出結果128のデータ例を示す説明図である。
具体的には、図7は、試験パラメータ値抽出部116が、図6の治験条件文124それぞれから、治験条件として重要と考えられる指標、例えば臨床検査に関する指標、薬剤に関する名称など様々な処置に関する名称などとともに、当該指標と関連する数値を抽出したパラメータ値抽出結果128のデータ例である。図7(a)が指標を抽出した結果のデータ例であり、図7(b)が指標と関連する数値を抽出した結果のデータ例である。
パラメータ値抽出結果128には、例えば、文の識別子(Sentence ID)、文から抽出された指標(すなわちその指標が何に関するものであるかを示す情報)又は指標の数値のそれぞれに付与される指標の識別子(Annotation ID)、抽出結果の指標がどのような種類であるかを示す指標のカテゴリを示す値(Annotation)、抽出された指標又は指標の数値の文字列(Value)、及び、指標の名称又は数値が記載された文字列の始点(Begin)及び終点(End)が格納されている。
ここで、始点(Begin)及び終点(End)は、例えば、当該文字列の先頭の文字及び末尾の文字がそれぞれ文中の何番目の文字であるかを示す数値であってもよい。これによって、元の文とそこから抽出された指標の文字列との対応が保持される。
また、指標に関する図7(a)のデータは、さらに、指標を抽出するために使用された辞書の識別子(CUI)を含んでもよい。
パラメータ値抽出結果128は、さらに、図7(c)に示す指標と数値との関係性のデータを含んでもよい。このデータは、例えば、文の識別子(Sentence ID)と、その文から抽出された指標の識別子(Concept Anno ID)と、その指標の数値の識別子(Value Anno ID)と、を関連付ける情報を含む。
例えば、治験条件文が“HbA1c greater than 13%”である場合に、試験パラメータ値抽出部116は、“HbA1c”を抽出してこれを図7(a)の指標の文字列(Value)として登録し、“13%”を抽出してこれを図7(b)の指標の数値の文字列(Value)として登録してもよい。その場合、“HbA1c”と“13%”とが図7(c)のデータによって関連付けられる。
すなわち、ここで抽出される「指標」の文字列とは、それに対応する数値がどのような指標に関するものであるかを示すものであり、指標の概念を示すものと言ってもよい。あるいは、「指標」(例えば“HbA1c”)及びそれに関連する「数値」(例えば“13%”)を、それぞれ、「パラメータ属性」及び「パラメータ値」と言い換えてもよい。指標としては、例えば、疾患名、臨床試験名、薬剤名、作用機序名又は処置名等が挙げられる。
図8は、本発明の実施例に係る試験策定支援装置100が生成する文クラスタのデータ例を示す説明図である。
図8(a)に示すデータは、各文の識別子(Sentence ID)801とともに各文が属するクラスタの識別子(Cluster ID)802を保持する。これらは、文のベクトル表現クラスタリング処理(図4)を実行した結果得られるデータであり、文のクラスタリング結果127に含まれる。
クラスタタイトル算出部114は、クラスタがどのようなクラスタかを表すタイトルを算出し、算出したタイトルをクラスタ別に保持する。このタイトルは、図10に示すように、試験計画策定支援画面で表示される。クラスタのタイトルデータの例を図8(b)に示す。図8(b)の例では、各クラスタの識別子(Cluster ID)803と、各クラスタのタイトル(Cluster Name)804が保持される。
クラスタタイトル算出部114は、クラスタ内の文とクラスタリングの対象のデータ全体とについて、例えば、TF-IDFのような手法を用いて特徴語を抽出し、特徴語をクラスタのタイトルとして用いてもよい。また、特徴語として得られた語を含むようなクラスタ内の文をタイトルとして用いてもよい。
試験条件文の中には、複数の試験条件をつなげて1文とした文も含まれる場合がある。このように1文が複数の条件を含んでいるような場合には、試験策定支援装置100は、1条件が1フレーズに含まれるように1文を複数のフレーズ(すなわち文の部分)に分割し、得られたフレーズを条件文のクラスタへ分類する臨床試験条件分類処理を行ってもよい。
図11は、本発明の実施例に係る試験策定支援装置100が実行する臨床試験条件分類処理を説明するためのフローチャートである。
まず、制御部102は、ステップS1101で治験条件文124を取得し、ステップS1102でそのうちの一つを読み込む。ステップS1103で制御部102は、読み込んだ治験条件文が所定の長さ以上の文かどうかを判断する。
読み込んだ文が所定の長さより短い場合、ステップS1104で文のベクトル表現収集部110が文ベクトルを作成する。制御部102は取得した治験条件文124に未処理のものがあるかを判定し、未処理のものがある場合にはそれを対象としてステップS1102~S1104が実行される。
次に、ステップS1104で作成した文ベクトルを用いて、ステップS1106で文のベクトルクラスタリング部113が文をクラスタリングする。一方、ステップS1103で所定の長さ以上と判定された治験条件文124は、ステップS1107で所定長以上の文のリストへ格納される。
制御部102は、ステップS1108で所定長以上の文リストを読み込み、ステップS1109で文のフレーズ分割及びフレーズクラスタ決定処理を行い、文のクラスタリング結果へフレーズ分割した後のフレーズのクラスタリング結果も格納する。ステップS1109の処理の詳細は、図12を参照して説明する。
図12は、本発明の実施例に係る試験策定支援装置100が実行する文のフレーズ分割とフレーズクラスタ決定処理を説明するためのフローチャートである。
治験条件文124の特徴としては、条件を特徴づける指標と、その指標の値及び値に関連する単位が組み合わせて同一文に現れることが挙げられる。指標の例としては、例えば、疾患名、臨床検査名又は薬剤名などがある。値としては、臨床検査値又は処方量といった値であり、指標と関連がある値である。
治験条件文124の記載によっては、複数の条件を1文にまとめて記載することがあり、このような文は通常であれば、1条件ごとに分けて、それぞれが該当する条件のクラスタへ分類されていることが好ましく、それを実現するために条件別に文を分割する処理が必要となる。図12の処理は複数の条件を1文にまとめた文の分割処理とそのクラスタの決定処理である。
ステップS1201では、制御部102は、所定長以上の長さの文を取り出す。これは、図11のステップ1107でリストに格納されたもののいずれかである。ステップS1202では、制御部102は、指標の候補とそれに関連付く指標の値に対してアノテーションする。指標の例としては、疾患名、臨床検査名又は薬剤名などがある。指標の値の例としては、臨床検査値又は処方量といった値がある。アノテーションの方法は、辞書又は正規表現を用いた方法でもよいし、機械学習を用いた方法でもよい。
ステップS1203では、制御部102は、それぞれの文字列が少なくとも1つの指標を含むように、対象の文を複数の文字列に分割する。この分割された文字列は、上記の説明のフレーズに相当するもの(すなわち文の部分)であり、以下の説明ではこれをトピック区間と記載する。このとき、制御部102は、文に指標とそれに関連する値が含まれる場合、それらの指標と値が同一トピック区間に含まれるように文を分割する。また、制御部102は、取りうる全てのトピック区間列を作成する。この処理の詳細は図13を参照して説明する。
図13は、本発明の実施例に係る試験策定支援装置100が実行する文の分割の説明図である。
ここでは、単語w1~w10からなる治験条件文の例を用いて説明する。ここで、w2,w4,w6は指標としてアノテーションされており、w3,w8,w9は指標の値としてのアノテーションがされている。また、w2とw3、w6とw8、及び、w6とw9は、係り受けの関係、とくに指標と値との関係があることを意味する。図14及び図15を用いて関係性の判断については後述する。
ステップS1203で、制御部102は、このような治験条件文を、それぞれ少なくとも1つの指標を含む複数の文字列に分割し、指標と関連付く値があれば、指標と値とが同一トピック区間に含まれるように文を分割する。また、制御部は、取りうる全てのトピック区間列を作成する。
例えば、図13の例では、w2,w4,w6は指標であるため、これらの間にトピックの境界が設定される。しかしながら、w2とw3には、指標と値という関係性があるため、それらが同一のトピック区間に含まれるように、トピック区間の境界(すなわち分割位置)はw3とw4の間に設定される。一方、w4とw6の間にもトピックの境界が設定される。
その結果、指標が一つトピック区間の中に含まれるように分割すると、[P11,P12,P13]のような分割と[P21,P22,P23]のような分割が可能である。ここで、P11及びP21は、w1,w2及びw3からなるトピック区間である。P12は、w4及びw5からなるトピック区間である。P13は、w6~w10からなるトピック区間である。P22は、w4からなるトピック区間である。P23は、w5~w10からなるトピック区間である。また、上記の[P11,P12,P13]及び[P21,P22,P23]等をトピック区間列とも記載する。
このようにして、一つのトピック区間が必ず一つ以上の指標を含むという条件を守って実行することが可能な分割のパターンが存在する場合に、全ての分割のパターンについてトピック区間列を生成する。その結果、図13の例では、
[P11,P12,P13]
[P21,P22,P23]
[P31,P32]
[P41,P42]
という4つのトピック区間列ができる。制御部102は、これらをトピック区間列群としてステップS1204で格納する。
ステップS1205では、制御部102は、トピック区間列群から一つのトピック区間列を読みだす。ステップS1206では、制御部102は、図11のステップS1106で生成されたすべての文クラスタ重心とトピック区間列の各トピック区間との距離を算出する。制御部102は、未処理のトピック区間があるかを判定し(ステップS1207)、ある場合にはステップS1206に戻る。これによって、制御部102は、トピック区間列のすべてのトピック区間に対してS1206の処理をおこなう。
ステップS1208では、制御部102は、トピック区間列内のすべてのトピック区間とクラスタの重心との距離を加算し、それをトピック区間列に含まれるトピック区間の数で除することによって距離の平均を計算し、その結果を当該トピック区間列のクラスタ重心距離として取得する。制御部102は、未処理のトピック区間列があるかを判定し(ステップS1209)、ある場合にはステップS1205に戻る。これによって、制御部102は、トピック区間列群のすべてのトピック区間列に対してS1208を算出する。
最後に、ステップS1210では、制御部102は、ステップS1208で計算したクラスタ重心距離が最も小さくなるトピック区間列を求め、当該トピック区間列を生成した文の分割位置を採用し、文を分割する。さらに、制御部102は、分割した区間に対して、クラスタを割り当てる。
その結果、ステップS1210では、既存のクラスタに対して最もうまくトピック区間が分割されているトピック区間列が求められる。
上記のような処理によって、一つの文が複数の条件を含む場合にも、それらを分割して条件ごとにクラスタリングをすることによって、過去の条件を有効に利用することが可能になる。
条件を分類する際に条件を特徴づける指標は、同一キーワード又は同義語を含むことが望ましく、一方、指標と関連する値は制限なくあらわれるものがすべて網羅されている方が望ましく、単位については同義であることが望ましい。
そのため、クラスタを作成する手法、例えばk-means法を使用するとすれば、各文のベクトルがx、クラスタの中心がV、2値指示変数がr_ml、データ点x_mがl番目のクラスタに含まれるとき1、それ以外は0、とすると、通常は、式(1)に示すように、クラスタ中心とデータ間の距離を最小化する最適化アルゴリズムとなる。
Figure 0007068106000001
あるいは、式(2)に示すように、文に現れる指標に関するワードwa,値に関するワードwvを最適化アルゴリズムの最小化したい目的関数とし、パラメータ属性のバリエーションはなるべく少なく、パラメータ値のバリエーションは多く取るような関数としてもよい。これによって、文に含まれる指標と同一の指標を含むクラスタの重心との間の距離が小さくなるように、距離が計算される。その結果、異なる指標を含む文は異なるクラスタに分類されやすくなり、同一の指標を含む文は、その数値が異なっていても、同一のクラスタに分類されやすくなる。
Figure 0007068106000002
また、トピック区間とクラスタ重心との距離の計測においても、式(1)のように算出することが通常であるが、式(2)のように算出を行ってもよい。
図14は、本発明の実施例に係る試験策定支援装置100の処理において参照される単語間の係り受け構造の一例を示す説明図である。
図14に示す係り受け構造は、「The subject has HbA1c 7.5%」という文の係り受け構造の一例である。図14に示す例では、文節a4「HbA1c」が文節a6「%」に係る。さらに、文節a6「%」が文節a5「7.5」に係る。例えば、構造解析は、テキスト文書を文節に区切り、どの文節がどの文節に係っているのかを計算することによって行われる。
図15は、本発明の実施例に係る試験策定支援装置100の処理において参照される意味構造の一例を示す説明図である。
意味解析は、テキスト文書を解析し、意味構造を計算するものである。意味構造は、テキスト文書の意味を、単語の意味を示すノードと、各ノードの意味関係を示すアークとによって表した構造である。図15に示す例では、文に現れる疾患名、薬剤名、臨床検査名、又は処置名などの指標がどのような値をとるかという情報が治験条件としては重要である。このため、例えば、辞書を用いてどの語が指標を表す語かを認識する処理を行い、その結果をノードのメタ情報として記憶しておく。また、値や単位についても、認識する処理を行い、その結果をそれぞれのノードのメタ情報として記憶しておく。指標の認識はCRFなど機械学習による方法を用いて行ってもよい。
図15で示す例では、アークは係り受けの解析を行った結果の関係性を示している。
指標の値が文に複数現れ、それぞれがどの名称の指標に関する値かについては、係り受けの解析を行った結果、関連があるとした場合に、指標とその対になる値を認識する処理を、アークが“修飾”の関係性にあるときのみ関連があるとして認識する。
図14に示した文の例では、文節a1~a7がそれぞれノードに相当する。ノードa4「HbA1c」は例えば辞書を用いて指標として認識する処理を行い、値のノードa6「7.5」及び単位のノードa5「%」も正規表現などを使用して認識する処理を行う。ノードa4とノードa6との間、及び、ノードa6とノードa5との間は「修飾」によって接続されているため、最終的に「7.5%」は、「HbA1c」の値として認識される。この認識結果は、図7(c)に示す指標と値の関係性のデータとして保持される。
指標と値の関係性を判断する処理の例として、係り受けの関係性を用いて処理する方法を用いる例を挙げたが、機械学習による判断を用いてもよい。
図16は、本発明の実施例に係る試験策定支援装置100が生成する臨床試験と文クラスタの関係データ129の一例を示す説明図である。
試験条件分類間関係分析部118は、ある条件が設定されるときには、必ず設定されるような条件があるかどうかを分析する。この分析の結果は、プロトコル作成を行う際に、過去の事例での関連性を参考にし、関連性のある条件を提示することを支援することに用いられる。
そのため、試験条件分類間関係分析部118は、一つの臨床試験の中で設定される治験条件の間の共起関係のデータを作成する共起関係データ作成部119と、治験条件を設定する際に、関連する治験条件を提示する臨床試験条件提示部120と、から構成される。この関係性の分析結果は分類を提示する際の提示順序を算出するデータとしても使用できる。
試験条件分類間関係分析部118の共起関係データ作成部119は、文のクラスタリング結果127を試験単位で集計し、試験内で共起するクラスタの2項関係のデータを作成し、臨床試験と文の関係データ129として記憶する。試験内で共起するクラスタの2項関係のデータによってクラスタ同士を連結させると、図16のようなクラスタマップが出来上がる。
例えば、HbA1cのような治験条件文は、臨床試験ガイドラインに明記されているため、試験条件として取り込むことの必然性がある。そのような治験条件文にはフラグを立てて置き、なるべく取り込むようにする。さらに、そのような条件文と共起の関係にある文クラスタは治験条件として取り込むことが推奨される。このような関係性を鑑み、図10で提示される文クラスタは、なるべく必然性の高い治験条件文のクラスタを表示した場合に、そのクラスタと共起関係の距離が近い順に他のクラスタを提示することもできる。これによって、必然性の高い治験条件文を取り込むことが容易になる。
上記のような提示の方法は、同一の臨床試験に関連する文書において共起する文を含む複数のクラスタを関連付けて表示する方法の一例であり、他の方法で共起関係を表示してもよい。
以上の本発明の実施例によれば、臨床試験のデザイン及び評価方法を表記の揺らぎを縮約し、分類した上で臨床試験情報を適切に抽出し、分析することによって、網羅的に情報を分析することが可能となる。
また、試験条件と結果との関連性の分析も網羅された情報での分析ができるようになる。
また、試験条件同士の共起関係の分析も可能となり、2つ以上の試験条件を合わせて実施することによる結果との関連性の分析ができるようになる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
100 試験策定支援装置
101 入出力部
102 制御部
103 メモリ
104 記憶部
105 臨床試験情報分類部
115 臨床試験情報分析部
118 試験条件分類間関係分析部
130 文書管理装置
141 入力部
142 表示部

Claims (9)

  1. プロセッサと、記憶部と、を有する試験計画策定支援装置であって、
    前記記憶部は、既に実施された臨床試験に関する複数の文書のデータを保持し、
    前記プロセッサは、
    臨床試験に関連する情報が入力されると、前記複数の文書のデータから、前記入力された情報に関連する複数の文を検索し、
    前記記憶部に保持された複数の文書に基づいて、共起しやすい単語を表現するベクトルであるほど相互に近い値となるように、各単語を表現するベクトルを生成し、
    前記検索された複数の文のそれぞれについて、文に含まれる単語を表現するベクトルに基づいて、文を表現するベクトルを生成し、
    前記検索された複数の文のうち、所定の基準より短い文について、前記文を表現するベクトルに基づく複数のクラスタへの分類を実行し、
    前記所定の基準より長い文を、複数の部分に分割し、
    前記複数の部分のそれぞれについて、部分に含まれる単語を表現するベクトルに基づいて、部分を表現するベクトルを生成し、
    前記各部分を表現するベクトルに基づいて、前記複数の部分を、前記複数のクラスタのいずれかに分類し、
    クラスタに分類された文に関する情報を出力することを特徴とする試験計画策定支援装置。
  2. 請求項1に記載の試験計画策定支援装置であって、
    前記プロセッサは、
    各部分が、臨床試験に関連する少なくとも一つの指標を含み、かつ、前記指標とそれに対応する数値とが同一の部分に含まれるように、前記所定の基準より長い文を、複数の部分に分割し、
    一つの文について、各部分が少なくとも一つの前記指標を含み、かつ、前記指標とそれに対応する数値とが同一の部分に含まれる分割のパターンが複数存在する場合には、それぞれの分割のパターンについて、前記各部分を表現するベクトルを生成し、
    前記各クラスタの重心と前記各部分を表現するベクトルとの距離が最小になる分割のパターンを選択し、
    選択した分割のパターンの前記各部分を表現するベクトルと、前記各クラスタの重心との距離に基づいて、前記各部分を、前記複数のクラスタのいずれかに分類することを特徴とする試験計画策定支援装置。
  3. 請求項2に記載の試験計画策定支援装置であって、
    前記プロセッサは、
    前記所定の基準より短い文については、前記文に含まれる指標と同一の指標を含む前記クラスタの重心との距離が小さくなるように、前記各クラスタの重心と前記各文を表現するベクトルとの距離を計算し、計算した前記距離に基づいて前記各文を前記複数のクラスタのいずれかに分類し、
    前記所定の基準より長い文については、前記部分に含まれる指標と同一の指標を含む前記クラスタの重心との距離が小さくなるように、前記各クラスタの重心と前記各部分を表現するベクトルとの距離を計算することを特徴とする試験計画策定支援装置。
  4. 請求項2に記載の試験計画策定支援装置であって、
    前記指標は、疾患名、臨床試験名、薬剤名、作用機序名又は処置名の少なくともいずれかであることを特徴とする試験計画策定支援装置。
  5. プロセッサと、記憶部と、を有する試験計画策定支援装置であって、
    前記記憶部は、既に実施された臨床試験に関する複数の文書のデータを保持し、
    前記プロセッサは、
    臨床試験に関連する情報が入力されると、前記複数の文書のデータから、前記入力された情報に関連する複数の文を検索し、
    前記検索された複数の文を、類似性に基づいて複数のクラスタに分類し、
    前記クラスタに分類された文に関する情報として、少なくとも一つの前記クラスタについて、前記クラスタに分類された文と、前記クラスタに分類された文に含まれる、前記臨床試験に関連する指標の内訳、及び、前記指標の数値の分布の少なくとも一方と、を表示するためのデータを出力することを特徴とする試験計画策定支援装置。
  6. プロセッサと、記憶部と、を有する試験計画策定支援装置であって、
    前記記憶部は、既に実施された臨床試験に関する複数の文書のデータを保持し、
    前記プロセッサは、
    臨床試験に関連する情報が入力されると、前記複数の文書のデータから、前記入力された情報に関連する複数の文を検索し、
    前記検索された複数の文を、類似性に基づいて複数のクラスタに分類し、
    前記クラスタに分類された文に関する情報として、少なくとも一つの前記クラスタについて、前記クラスタに分類された文と、前記クラスタに分類された文に含まれる、前記臨床試験に関連する指標と、を表示するためのデータを出力し、
    同一の臨床試験に関連する文書において共起する文を含む複数のクラスタを関連付けて表示するためのデータを出力することを特徴とする試験計画策定支援装置。
  7. プロセッサと、記憶部と、を有する試験計画策定支援装置であって、
    前記記憶部は、既に実施された臨床試験に関する複数の文書のデータを保持し、
    前記プロセッサは、
    臨床試験に関連する情報が入力されると、前記複数の文書のデータから、前記入力された情報に関連する複数の文を検索し、
    前記検索された複数の文を、類似性に基づいて複数のクラスタに分類し、
    クラスタに分類された文に関する情報を出力し、
    前記クラスタに分類された文が薬剤の治験に関連する文である場合に、前記クラスタに分類された文のうち、上市された薬剤に関連する文の数を示す情報を表示するためのデータを出力することを特徴とする試験計画策定支援装置。
  8. プロセッサと、記憶部と、を有する計算機システムが実行する試験計画策定支援方法であって、
    前記記憶部は、既に実施された臨床試験に関する複数の文書のデータを保持し、
    前記試験計画策定支援方法は、
    臨床試験に関連する情報が入力されると、前記プロセッサが、前記複数の文書のデータから、前記入力された情報に関連する複数の文を検索する手順と、
    前記プロセッサが、前記検索された複数の文を、類似性に基づいて複数のクラスタに分類する手順と、
    前記プロセッサが、クラスタに分類された文に関する情報を出力する手順と、を含み、
    前記検索された複数の文を類似性に基づいて複数のクラスタに分類する手順において、前記プロセッサは、
    前記記憶部に保持された複数の文書に基づいて、共起しやすい単語を表現するベクトルであるほど相互に近い値となるように、各単語を表現するベクトルを生成し、
    前記検索された複数の文のそれぞれについて、文に含まれる単語を表現するベクトルに基づいて、文を表現するベクトルを生成し、
    前記検索された複数の文のうち、所定の基準より短い文について、前記文を表現するベクトルに基づく複数のクラスタへの分類を実行し、
    前記所定の基準より長い文を、複数の部分に分割し、
    前記複数の部分のそれぞれについて、部分に含まれる単語を表現するベクトルに基づいて、部分を表現するベクトルを生成し、
    前記各部分を表現するベクトルに基づいて、前記複数の部分を、前記複数のクラスタのいずれかに分類することを特徴とする試験計画策定支援方法。
  9. プロセッサと、記憶部と、を有する計算機システムを制御するためのプログラムであって、
    前記記憶部は、既に実施された臨床試験に関する複数の文書のデータを保持し、
    前記プログラムは、
    臨床試験に関連する情報が入力されると、前記複数の文書のデータから、前記入力された情報に関連する複数の文を検索する手順と、
    前記検索された複数の文を、類似性に基づいて複数のクラスタに分類する手順と、
    クラスタに分類された文に関する情報を出力する手順と、を前記プロセッサに実行させ、
    前記検索された複数の文を類似性に基づいて複数のクラスタに分類する手順は、
    前記記憶部に保持された複数の文書に基づいて、共起しやすい単語を表現するベクトルであるほど相互に近い値となるように、各単語を表現するベクトルを生成する手順と、
    前記検索された複数の文のそれぞれについて、文に含まれる単語を表現するベクトルに基づいて、文を表現するベクトルを生成する手順と、
    前記検索された複数の文のうち、所定の基準より短い文について、前記文を表現するベクトルに基づく複数のクラスタへの分類を実行する手順と、
    前記所定の基準より長い文を、複数の部分に分割する手順と、
    前記複数の部分のそれぞれについて、部分に含まれる単語を表現するベクトルに基づいて、部分を表現するベクトルを生成する手順と、
    前記各部分を表現するベクトルに基づいて、前記複数の部分を、前記複数のクラスタのいずれかに分類する手順と、を含むことを特徴とするプログラム。
JP2018158954A 2018-08-28 2018-08-28 試験計画策定支援装置、試験計画策定支援方法及びプログラム Active JP7068106B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018158954A JP7068106B2 (ja) 2018-08-28 2018-08-28 試験計画策定支援装置、試験計画策定支援方法及びプログラム
US16/535,188 US20200075135A1 (en) 2018-08-28 2019-08-08 Trial planning support apparatus, trial planning support method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018158954A JP7068106B2 (ja) 2018-08-28 2018-08-28 試験計画策定支援装置、試験計画策定支援方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020035036A JP2020035036A (ja) 2020-03-05
JP7068106B2 true JP7068106B2 (ja) 2022-05-16

Family

ID=69641531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018158954A Active JP7068106B2 (ja) 2018-08-28 2018-08-28 試験計画策定支援装置、試験計画策定支援方法及びプログラム

Country Status (2)

Country Link
US (1) US20200075135A1 (ja)
JP (1) JP7068106B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245217B (zh) * 2019-06-17 2022-07-22 京东方科技集团股份有限公司 一种药品推荐方法、装置及电子设备
WO2021127012A1 (en) * 2019-12-16 2021-06-24 Trialmatch.me, Inc. d/b/a/Trialjectory Unsupervised taxonomy extraction from medical clinical trials
KR102521963B1 (ko) * 2020-06-08 2023-04-14 (주)메디아이플러스 임상시험 검색을 위한 데이터 분류 장치, 시스템 및 방법
EP4170664A4 (en) * 2020-06-23 2024-07-17 Shionogi & Co PROGRAM GENERATION SUPPORT SYSTEM TO ASSIST IN THE GENERATION OF A CLINICAL TRIAL ANALYSIS PROGRAM
JP7402140B2 (ja) * 2020-09-23 2023-12-20 株式会社日立製作所 登録装置、登録方法、および登録プログラム
US20220344008A1 (en) * 2021-04-26 2022-10-27 Microsoft Technology Licensing, Llc Methods and systems for automatically predicting clinical study outcomes
US11636085B2 (en) * 2021-09-01 2023-04-25 International Business Machines Corporation Detection and utilization of similarities among tables in different data systems
CN114049925A (zh) * 2022-01-12 2022-02-15 科临达康医药生物科技(北京)有限公司 临床试验开发计划生成方法、系统和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030224A (ja) 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
US20040249664A1 (en) 2003-06-05 2004-12-09 Fasttrack Systems, Inc. Design assistance for clinical trial protocols
JP2005275556A (ja) 2004-03-23 2005-10-06 Toshiba Solutions Corp 分割クラスタリング装置及び分割データ数決定方法
WO2005096200A1 (ja) 2004-03-31 2005-10-13 Masanori Fukushima 試験実施計画書作成支援装置
JP2010072943A (ja) 2008-09-18 2010-04-02 Fuji Xerox Co Ltd 情報処理装置及びプログラム
JP2014228907A (ja) 2013-05-20 2014-12-08 株式会社日立製作所 情報構造化システム
JP2015203960A (ja) 2014-04-14 2015-11-16 株式会社toor 部分情報抽出システム
JP2017027526A (ja) 2015-07-27 2017-02-02 日本電信電話株式会社 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030224A (ja) 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
US20040249664A1 (en) 2003-06-05 2004-12-09 Fasttrack Systems, Inc. Design assistance for clinical trial protocols
JP2005275556A (ja) 2004-03-23 2005-10-06 Toshiba Solutions Corp 分割クラスタリング装置及び分割データ数決定方法
WO2005096200A1 (ja) 2004-03-31 2005-10-13 Masanori Fukushima 試験実施計画書作成支援装置
JP2010072943A (ja) 2008-09-18 2010-04-02 Fuji Xerox Co Ltd 情報処理装置及びプログラム
JP2014228907A (ja) 2013-05-20 2014-12-08 株式会社日立製作所 情報構造化システム
JP2015203960A (ja) 2014-04-14 2015-11-16 株式会社toor 部分情報抽出システム
JP2017027526A (ja) 2015-07-27 2017-02-02 日本電信電話株式会社 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Also Published As

Publication number Publication date
US20200075135A1 (en) 2020-03-05
JP2020035036A (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
JP7068106B2 (ja) 試験計画策定支援装置、試験計画策定支援方法及びプログラム
JP7008772B2 (ja) 電子診療レコードからの医学的状態および事実の自動的特定および抽出
CN104516942B (zh) 概念驱动的自动分节标识
CN104699741B (zh) 用于改善对输入问题的回答的方法和装置
Ball et al. TextHunter–a user friendly tool for extracting generic concepts from free text in clinical research
CN117744654A (zh) 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
CA2704637C (en) Systems and methods for interfacing with healthcare organization coding system
US20130060793A1 (en) Extracting information from medical documents
Alnazzawi et al. Building a semantically annotated corpus for congestive heart and renal failure from clinical records and the literature
CN111061835B (zh) 查询方法及装置、电子设备和计算机可读存储介质
Ribeiro et al. Automatically detect diagnostic patterns based on clinical notes through Text Mining
CN109840275B (zh) 一种医疗搜索语句的处理方法、装置和设备
Memarzadeh et al. A study into patient similarity through representation learning from medical records
JP2022504508A (ja) モデル支援型事象予測のためのシステム及び方法
Funkner et al. Negation Detection for Clinical Text Mining in Russian.
Yildirim et al. Prediction of similarities among rheumatic diseases
JP7473314B2 (ja) 医療情報管理装置及び医療レポートのメタデータ付加方法
JP2008083927A (ja) 医療情報抽出装置、及び医療情報抽出プログラム
CN110060749B (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
Ghiasvand Disease name extraction from clinical text using conditional random fields
Benício et al. Applying Text Mining and Natural Language Processing to Electronic Medical Records for extracting and transforming texts into structured data
Bonacin et al. Exploring intentions on electronic health records retrieval: Studies with collaborative scenarios.
Isac et al. A survey on ontology-based systems to support the prospection, diagnosis and treatment of breast cancer
Eisman et al. Clinical Note Section Detection Using a Hidden Markov Model of Unified Medical Language System Semantic Types
Kaya et al. Analysis of free text in electronic health records by using text mining methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220428

R150 Certificate of patent or registration of utility model

Ref document number: 7068106

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150