JP6101563B2 - 情報構造化システム - Google Patents

情報構造化システム Download PDF

Info

Publication number
JP6101563B2
JP6101563B2 JP2013105743A JP2013105743A JP6101563B2 JP 6101563 B2 JP6101563 B2 JP 6101563B2 JP 2013105743 A JP2013105743 A JP 2013105743A JP 2013105743 A JP2013105743 A JP 2013105743A JP 6101563 B2 JP6101563 B2 JP 6101563B2
Authority
JP
Japan
Prior art keywords
information
medical
link
knowledge
clinical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013105743A
Other languages
English (en)
Other versions
JP2014228907A (ja
Inventor
木戸 邦彦
邦彦 木戸
俊太郎 由井
俊太郎 由井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013105743A priority Critical patent/JP6101563B2/ja
Priority to US14/279,388 priority patent/US20140344274A1/en
Priority to EP20140168888 priority patent/EP2806367A1/en
Priority to CN201410212244.6A priority patent/CN104182450A/zh
Publication of JP2014228907A publication Critical patent/JP2014228907A/ja
Application granted granted Critical
Publication of JP6101563B2 publication Critical patent/JP6101563B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本発明は、臨床情報に関するデータベースを対象に、臨床データの構造化および分析方法に関するものである。
本技術分野の背景技術として、特許文献1がある。この文献では、臨床データと基礎研究データを蓄積する知識データベースを持ち、双方の情報を知識要素として分解し、それらの間の関連性を重み付けにより連結し再編成する医療支援システムに関する記載がある。
特開2005-108248号
臨床データを臨床的な観点で分析する際、その分析の視点(ディメンジョン)が多様であり、予め決めておくことが難しい。分析の視点とは、例えば、合併症、癌のサイズや個数、薬剤の投与量や投与回数などが挙げられる。現状、網羅的かつ汎用的な臨床研究用のデータウェアハウス構築ではなく、特定疾患に対して、臨床研究計画にもとづきディメンジョンを限定し、キューブを構築するのが一般的である。一方、分析視点の多様性は、類似症例検索のための条件が多様なことを意味する。すなわち個別症例ごと、検索者が臨床知識に基づき当該症例を特徴付ける条件を検討し、検索文に盛り込む必要がある。このため、検索対象や範囲を絞らずに検索文を定型化することが困難であり、関係データベースであれば、データベースのテーブル構造を熟知した上で、検索言語であるSQLに基づき検索を行う必要がある。しかしながら、データベースの専門家でない、医師などのエンドユーザがSQL文を駆使することは期待できないことが多い。
臨床データは、病名、処方、手術、検査、および、検査結果などの臨床データから構成される。これらの臨床データは、対象患者および実施日付、記録日付などの、属性情報により整理統合することができる。しかしながら、処方、検査、術式とその適応病名の関係など、医学的な意味にもとづく関連付けの情報が欠落している場合が多く、臨床研究において、分析データセットを作る場合、分析者が医学的知識にもとづき、臨床データ間の関連性を考慮しながら、関連データをマニュアルで収集するのが一般的である。病名、薬剤、術式、検査項目は膨大であり、この確認作業には多大な時間がかかる。
医学概念情報と、医学概念情報の共起度と、医学概念情報の取得先の医学文献情報の文献格付け情報と、を含む医学知識情報を格納したデータベースを用いて情報の構造化を行う情報構造化システムであって、
複数の臨床情報の入力を受け付ける臨床情報入力受付部と、
医学知識情報を用い、共起度と文献格付け情報を含む重み情報を付して複数の臨床情報を互いに関係付けるリンク情報を生成するリンク生成部と、
を有することを特徴とする情報構造化システム。
本発明によれば、臨床データ間の関連性に関する医学知識にもとづいて、臨床データ間を関連付ける。加えて、臨床データ間の関連付けでは、医学知識の取得先である、医学文献のエビデンスレベルと共起度にもとづく研究者の注目度の観点から重みをつけるため、検索者の分析目的に応じた重要度にもとづいて、データを絞り込むことが可能になる。例えば、学会等で広く認められた分析視点での分析に興味がある場合、医学文献のエビデンスレベルにもとづく重みが高い関連性により、データを絞込むことができる。また、エビデンスレベルが低いが、研究性の高いデータを集めたい場合には、共起度の高い関連性にもとづきデータに絞込むことができる。
これらを網羅的に収集し、この分析視点に基づいて臨床データを構造化する。加えて、分析視点と実際の臨床データの関連性について、医学文献のエビデンスレベルと共起度にもとづく研究者から注目度から、重みをつけるため、検索者の分析目的に対して必要なデータが、網羅的に用意された分析視点にもとづき容易に検索可能となる。例えば、学会等で広く認められた分析視点での分析に興味がある場合、医学文献のエビデンスレベルにもとづく重みが高い分析視点に絞込み、データ収集できる。また、エビデンスレベルが低いが、研究性の高いデータを集めたい場合には、共起度の高い分析視点に絞り込んで、データ収集すればよい。
本発明の実施例1に関わるシステム構成図である。 本発明の実施例1に関わるプログラム構成図である。 本発明の実施例1に関わるプログラム構成図である。 本発明の実施例1に関わるプログラムの処理フローである。 本発明の実施例1に関わるプログラムの処理フローである。 患者IDと臨床情報を関係付けるテーブルの例である。 臨床情報を管理するテーブルの例である。 臨床情報間の関係を管理するテーブルの例である。 医学文献から医学概念を抽出するための辞書テーブルの例である。 医学知識管理テーブルを管理するテーブルの例である。 医学文献の格付けを管理するテーブルの例である。 臨床研究の種類を説明する表である。 医学文献の例である。 医学知識生成処理に関する画面例である。 リンク生成処理に関する画面例である。 検索処理に関する画面例である。 事前集計値を管理するテーブルの例である。 本発明の実施例1に関わるプログラム構成図である。 本発明の実施例1に関わるプログラムの処理フローである。 本発明の実施例1に関わるプログラムの処理フローである。
以下、本発明の実施例を図面を用いて説明する。
本発明の医学文献情報とは、診断治療に関わる知識が記載された、医学論文、診断治療ガイドライン、医学教科書などのテキストデータを含む電子データである。医学論文については、タイトル、発行年月日、本文、アブストラクト、本文の内容に関するキーワードが含まれる。また、医学概念とは、病名、症状、医薬品名、検査名、単位などの医学用語と、医学用語の組み合わせから構成される等式・不等式が含まれる。
本発明は、定期的に、インターネット等に公開されている医学文献等のテキストデータから、分析視点候補を網羅的に抽出する。そして、実際の臨床データに含まれる病名、薬剤、検査、手術等のデータを、分析視点候補にリンク付ける。この分析視点候補には、病名や薬剤・検査ごとに、副作用、大きさ・個数・数値に関する不等式、時間関係に関する情報が含まれる。
ここで、上記分析視点候補には、臨床的に重要なものと、抽出ミスを含め、臨床的に重要でないものが混在する。これを区別するために、以下の観点で上記リンクに対して重み付けを行う。まず、分析視点候補を抽出した医学文献のエビデンスのレベルが高い場合には重みを強くする。エビデンスのレベルが高い医学文献の分析視点候補は、学会での認知度が高いものと推測されるためである。例えば、ランダム化比較試験のメタアナリシスに関する医学文献は、最も高いエビデンスレベルであり、この文献に含まれる分析視点候補の重要性が高い。次にランダム化比較試験が一つでも入った論文が、2番目に高いエビデンスレベルとなる。
また、各病名の文献群において、分析視点候補の単語と薬剤・検査・手術に関する単語の共起度を計算し、この共起度の大きさにもとづき、上記リンクの重みを強くする。これは、多くの論文で検討されている分析視点候補は、研究者の関心が高いものと推測されるからである。
図1は、本実施例のハードウェア構成を示す。コンピュータ101は、メモリ103、記憶装置105、CPU104、I/O装置102を備えており、また、外部の記憶装置として、医学文献情報DB106、臨床情報DB107、辞書DB108、医学知識DB109が接続されており、I/O装置102を介して、コンピュータ101とデータの入出力を行う。図2、図3は、本実施例のプログラム構成図を示す。図2は、医学文献情報DB106のデータにもとづき、医学知識DB109の情報を生成するプログラムの構成である。臨床文献入力部201、医学概念抽出部202、重要度計算部203、医学知識出力部204からなり、記憶装置105からI/O装置102からメモリ103にロードされて、CPU104により実行される。図3は、医学知識DB109の医学知識にもとづき、臨床情報DB107の臨床情報についてデータ間に重み付けのリンクを生成するプログラムの構成である。臨床情報・医学知識入力部301、リンク生成部302、リンク出力部303からなり、記憶装置105からI/O装置102からメモリ103にロードされて、CPU104により実行される。
図6、図7、図8、図9、図10、図11は、本実施例で使用するテーブルの構成である。図6は、患者IDと臨床情報の対応テーブルであり、患者ID601とレコード番号602からなる。図7は、臨床情報テーブルであり、レコード番号701、病名(項目2)702、病名(項目2)703、サイズ(項目3)704、視点(項目4)705からなる。ここで病名が二つあるのは、本システムが合併症を扱えることを示している。合併症の数に応じて、さらに複数の病名項目を有しても良い。図6のレコード番号602が、図7のレコード番号701を参照することで、患者IDと臨床情報を結びつける。図8は、リンクテーブルであり、臨床情報の項目間の関係を記録するものであり、レコード番号801、ソース項目番号802、ターゲット横目番号803、重み804、知識番号805からなる。
ソース項目およびターゲット項目とは、因果関係における原因と結果、概念的な包含関係における上位概念と下位概念、病状の進行における現状病名と関連病名など、原因→結果、上位概念→下位概念、現状病名→関連病名などの、始点と終点を意味する。
まず、レコード番号801が、図7のレコード番号を参照することで、臨床情報テーブルのレコードを特定する。もし、項目3と項目4にリンクがある場合には、ソース項目番号802に3を、ターゲット項目番号803に4を記録し、リンクの重みの値ベクトル(a,b)を重み804に記録する。この値ベクトル(a,b)は後述するように、第一成分のaは文献の格付け情報であり、第二成分のbは共起度と定義する。また、知識番号805は、上記リンクの重みの値ベクトルの医学知識に関する識別番号であり、図10の医学知識管理テーブルの対応レコードの知識番号を記録する。
図9は辞書テーブルであり、医学文献から医学概念を抽出するために使用するものであり、名称901と分類902からなる。名称901には、医学文献から抽出する医学概念の単語が記録される。分類902は、その単語の分類が記録される。この分類には、病名、術式名、指標名、医薬品名が含まれる。図10は、医学知識管理テーブルであり、医学文献から抽出された医学概念とその共起度を管理するものであり、文献番号1001、共起語のペアである単語(1)1002、単語(2)1003、共起語の共起度1004からなる。図11は、各文献の格付けを記録するテーブルであり、文献番号1101、文献格付け1102からなる。辞書テーブルは更新可能なものであり、ネットワークなどを通じて更新が行われても良い。本実施例では、文献格付けは図12の臨床研究のレベルを採用する。このレベルは変更可能なものであり、ネットワークなどを通じて変更が行われても良い。
図14、図15は、本実施例にて使用する画面例である。図14は、図2に示す医学知識を生成するプログラムで使用する画面であり、符号1401は、医学文献情報DB106に保管された医学文献に対して、当該プログラムが処理対象とする期間を指定するエリアである。符号1402には、医学文献情報DB106に保管された医学文献に対して、当該プログラムが処理対象とする文献DBを指定するエリアである。符号1403は、当該プログラムの処理開始を行うボタンである。このようにして、特定の期間における文献を選択して情報構造化を行い、多種多様な構造化の要望に答えることが出来る。
図15は、図3に示すリンクを生成するプログラムで使用する画面であり、リンク生成の対象となる臨床情報の期間を指定する期間1501、リンク生成開始ボタン1502からなる。
図4により、図2のプログラムの処理フローを示す。図14の画面の医学知識生成開始 ボタン1403がクリックされると、本プログラムが起動する。
ステップ401により、図14の画面により指定された、医学文献の文献DB及び期間の医学文献を、医学文献情報DB106から、I/O装置102を介してメモリ103に取り込む。図13は、医学文献の例であり、文献タイトル1301、発行年月日1302、アブストラクト1303、キーワード1304からなる。同様に、辞書DB108から、図9に示した辞書テーブルを、I/O装置102を介してメモリ103に取り込む。
ステップ402では、辞書テーブルの各レコードに対して、分類902が病名、術式、指標に関する名称901にもとづき、医学文献のアブストラクトから医学概念の例である医学用語を抜き出す。図13のアブストラクト1303の下線部は、図9の辞書テーブルにもとづき抽出した医学用語の例である。同様に、ステップ403では、辞書テーブルの各レコードに対して、分類902が病名、量、大小、単位に関する名称901にもとづき、医学概念の例である量および時間関係情報を抽出する。ここでは量及び時間関係としているが、他の医学概念の分類項目を用いても良い。図13の例で説明すると、「肝細胞癌の大きさは4cm以下」が抽出される。肝細胞癌が「病名」、大きさが「量」、cmが「単位」、以下が「大小」であり、これらの単語が「の」「は」などの助詞、あるいは、数字で挟まっているので、この文章が量および時間関係情報と判断する。ステップ404では、文献情報のキーワードから、文献の格付けを同定する。次に、ステップ403で抽出した医学用語、量および時間関係情報について共起度を求める。ここで項目Aと項目Bの共起度とは、項目Aと項目Bを同時に含む文献数と定義する。ステップ405では、ステップ404で求めた文献の格付けについては、図11の文献テーブルの、文献番号1101とともに文献格付け1102に格付けを登録する。共起度については、図10の医学知識管理テーブルに、文献番号と共起語のペア、および、その共起度を登録する。このようにして、医学文献情報を用いてその格付けで重み付けをした医学知識情報を生成し、高精度な情報構造化を支援することが出来る。また、分類項目を用いた多様な分析の視点から医療に関する情報を構造化することができる。また、医学文献情報を用いて共起度又は文献格付けで重み付けをした医学知識情報を生成し、高精度な情報構造化を支援することが出来る。
図5により、図3のプログラムの処理フローを示す。図15の画面にリンク生成開始ボタン1502がクリックされると、本プログラムが起動する。
ステップ501は、図15の画面により指定された期間1501内の臨床データを臨床情報DB107から、I/O装置102を介してメモリ103に取り込む。具体的には、図7の臨床情報テーブルの時間706を参照し、図15の画面により指定された期間1501に合致するレコードを全て検索して、I/O装置102を介してメモリ103に取り込む。このようにして、特定の期間における臨床情報を選択して情報構造化を行い、多種多様な構造化の要望に答えることが出来る。
ステップ502では、医学知識を医学知識DB110からI/O装置102を介してメモリ103に取り込む。具体的には、図10の医学知識管理テーブルから全レコードをI/O装置102を介してメモリ103に取り込む。また、期間1501はその期間を設定する入力を受け付けて決められても良い。
ステップ503では、ステップ502で取り込んだ医学知識の全レコードから、一つずつレコードを取得し、当該医学知識が量・時間関係であるかどうか、図10の医学知識管理テーブルの種類1005からチェックする。具体的には、等号、不等号を含んでいる医学知識を、量・時間関係と判断する。
もし量・時間関係でない場合には、ステップ505にて、符号1002の単語1と符号1003の単語2が、ステップ501で取得した臨床データの各レコードの病名(項目1)、病名(項目2)、サイズ(項目3)(符号702〜符号704)に合致するものがないかチェックする。ステップ506にて、合致のYES/NOをチェックし、YESの場合には、ステップ507に進む。
一方、量・時間関係の場合は、ステップ504において臨床データの関係が、医学知識の等式や不等式を満たすかどうかチェックする。例えば、「肝細胞癌」および「肝細胞癌の大きさ≦4cm」という医学知識について、臨床データとして病名(項目1)702が「肝細胞癌」で、サイズ(項目3)が2cmであれば、医学知識の不等式関係に合致する。ここで合致する場合、当該医学知識の医学知識番号を図10の医学知識管理テーブルの医学知識番号1006から求め、図7の符号705の視点に、左記医学知識番号をエントリしておく。このようにして、分類項目を用いた多様な分析の視点から医療に関する情報を構造化することができる。
ステップ506にて、ステップ504とステップ505のチェック結果を調べYESの場合には、ステップ507に進む。
ステップ507では、当該医学知識を含む文献番号の医学文献の格付けを図11から、符号1002の単語1と符号1003の単語2の共起度を図10から求める。例えば、文献番号1の医学文献に関する医学知識である、「肝細胞癌」および「肝細胞癌の大きさ≦4cm」の場合、図11から文献の格付けが4であり、図10から共起度が3ということがわかる。
ステップ508では、図8のリンクテーブルにおいてレコードを生成し、レコード番号801、ソース項目番号802、ターゲット項目番号803とともに、ステップ505で求めた共起度と格付けにより、リンクの重みの値ベクトル(a,b)生成し、当該レコードの重み804に登録する。また、ステップ507で処理対象とした医学知識の知識番号を知識番号805に登録する。ここでソース項目番号802は、符号1002の単語1に合致する臨床データのレコードの病名(項目1)(符号702)、病名(項目2)(符号703)、サイズ(項目3)(符号704)から決める。具体的には、合致するものが病名(項目1)(符号702)のときは1、病名(項目3)(符号703)のときは2、サイズ(項目3)(符号704)のときは3とする。なおサイズ(項目3)(符号704)の合致については、視点(項目4)(符号705)の医学知識番号の量・時間関係を符号704が満たす場合には合致とするとする。
同様に、ターゲット項目番号803は、符号1003の単語2に合致する臨床データのレコードの病名(項目1)(符号702)、病名(項目2)(符号703)、視点(項目4)(符号705)から決める。具体的には、合致するものが病名(項目1)(符号702)のときは1、病名(項目2)(符号703)のときは2、視点(項目4)(符合705)のときは4とする。なお視点(項目4)(符号705)の合致については、視点(項目4)(符号705)の医学知識番号の量・時間関係をサイズ(項目3)符号704が満たす場合には合致とするとする。このようにして、共起度と文献格付けを用いた重み情報を付して高精度の情報構造化ができる。
次に検索処理について説明する。
図18は、本実施例における検索処理のプログラム構成図を示す。本プログラムは、事前集計処理部1801、検索処理部1802、検索結果出力部1803からなり、記憶装置105からI/O装置102からメモリ103にロードされて、CPU104により実行される。
図17は、事前集計テーブルであり、医学知識にもとづく分析の視点に関連した臨床情報を事前集計した数値を管理するテーブルであり、知識番号1701、集計値1702、閾値1703からなる。知識番号1701は、分析の視点の根拠となる医学知識の識別番号である。集計値1702は、上記の医学知識に合致した臨床情報の集計値である。
例えば、図17における知識番号1の集計値が100であるケースについて説明する。図10より知識番号1は、肝細胞癌と肝硬変が関係しているという知識であり、知識番号1の集計値が100とは、実際の臨床データにおいて、肝細胞癌と肝硬変が併存している症例が100例あることを示している。
また、閾値1703は、集計の対象となる医学知識の重みに関する閾値を管理する。
ここで、図17のテーブルを作成する処理である、事前集計処理部1801の処理フローを図19にもとづき説明する。この処理は、1日に1回など定期的に実行される。何かトリガーに基づいて非定期的に実行されても良い。事前集計テーブルの知識番号、および、当該知識番号の医学知識管理テーブルのレコードは、医学文献から網羅的に抽出した分析の視点を提供する。この分析の視点に該当する臨床情報の個数を事前に集計しておくことで、実際の検索時に集計計算を省略することができ、高速に分析することが可能になる。
ステップ1901では、図8のリンクテーブルから、重み804が所定の閾値以上のレコードを検索する。ステップ1902では、ステップ1901で検索したレコードに関し、異なる知識番号805ごとにレコード数を集計する。ステップ1903では、ステップ1902にて知識番号ごとの集計値を、知識番号、および、ステップ1801で使用した閾値とともに、図17の集計番号1701、集計値1702、閾値1703に記録する。このようにして、構造化された情報を集計して切り出すことで、効率的な分析を可能にすることが出来る。
図16は、本実施例にて使用する画面例であり、検索結果をグラフ表示するエリア1601、医学知識による分析の視点にもとづく事前集計値の表示エリア1602、検索条件の入力エリア1603、検索ボタン1604からなる。
次に、検索処理部1802、検索結果出力部1803の処理フローを、図20にもとづき説明する。
図16の検索ボタン1604のクリックにより、本プログラムは起動する。ステップ2001では、図16の検索条件エリア1603において指定される、病名、格付け、共起度を取得する。
ステップ2002では、ステップ2001で取得した病名に関して、図7の臨床情報テーブルの符号702あるいは符号703における病名と合致するレコードを全て検索する。ステップ2003では、ステップ2002で取得した各レコードのレコード番号701と合致する図8のリンクテーブルのレコードを、レコード番号801を参照して求める。次に、当該レコードの重み804の値ベクトルを取り出し、この値ベクトルが、ステップ2001で取得した格付け、共起度よりも大きいレコードへ更に絞り込む。
ステップ2004では、ステップ2003で絞り込んだレコードに対して、そのレコード番号にもとづき、図6の患者IDと臨床情報の対応テーブルにおけるレコード番号602と合致するレコードを検索して、患者ID601を求める。ここで表示のためのグラフ構造を作成し、図16のエリア1601に表示する。このグラフ構造は、患者IDをルートに、リンクテーブルのソース項目番号802へリンクを張る。次に、ソース項目番号802とターゲット項目番号803にリンクを張る。
実際の表示では、ソース項目番号802とターゲット項目番号803に該当する医学概念を、レコード番号が合致した図7の臨床情報テーブルのレコードにおける対応する項目番号の登録内容から求める。
例えば、図8のリンクテーブルで、レコード番号1、ソース項目番号が1、ターゲット項目番号が2のレコードに着目する。図7のレコード番号が1のレコードは、項目1は病名であり「肝細胞癌」が登録されおり、項目2は病名であり「肝硬変」が登録されている。以上から、「肝細胞癌→肝硬変」というリンクが張られる。なお、項目番号が4、すなわち符号704の視点の場合は、視点(項目4)(符号704)に記録された知識番号に基づき、図10の医学知識管理テーブルの知識番号1006に基づきレコードを検索し、符号1003の単語2の記載内容を取得し、これを表示する。例えば、図8のリンクテーブルで、レコード番号1、ソース項目番号が3、ターゲット項目番号が4のレコードに着目する。図7のレコード番号が1のレコードは、項目3はサイズで2cmであり、項目4は視点であり知識番号2が登録されている。図10の医学知識管理テーブルにおいて、知識番号2のレコードの単語2は、「肝細胞癌の大きさ≦4cm」である。以上から、「サイズ2cm→肝細胞癌の大きさ≦4cm」というリンクが張られる。
以上、検索条件として、病名、格付け、共起度のみを例として指定したが、検索結果は、病名に関連した医学知識から導出された分析の視点にもとづき、グラフ構造の形で関連するデータが表示される。このため、検索者は分析の視点に関わる条件を指定すること無しに、分析に必要な情報を簡単に表示することができる。また、表示する情報は、格付け、共起度により絞込みができる。例えば、学会等で広く認められた分析視点での分析に興味がある場合、医学文献の格付けが高い分析視点に絞り込む。また、研究性の高いデータを集めたい場合には、共起度の高い分析視点に絞り込むことができる。
次に、上記、グラフ構造の作成に用いたリンクテーブルのレコードの知識番号805に関して、図17の事前集計テーブルの知識番号1701と合致するものを探す。
合致するものがあれば、当該知識番号の名称と集計値1702にもとづき、図16のエリア1602に表形式で表示する。以上、特に検索者が指定しなくても、分析の視点に該当する臨床情報の個数が高速に表示されることとなる。なお、知識番号の名称は、図10の医学知識管理テーブルから、当該知識番号と合致するレコードを検索し、単語1003を取得することで求める。このようにして、共起度や文献情報などを用いて集計されたリンク情報を検索し、効率的な分析を行うことが出来る。
病院などの医療機関に対し、臨床研究のための構造化された臨床情報データベースを提供する。これにより、効果的な治療方法を研究するなどの臨床研究が促進され、医療技術の発展に寄与する。
101 コンピュータ装置
102 I/O装置
103 メモリ
104 CPU
105 記憶装置
106 医学文献情報DB
107 臨床情報DB
109 辞書DB
110 医学知識管理DB
201 医学文献入力部
202 医学概念抽出部
203 重要度計算部
204 医学知識出力部
301 臨床情報・医学知識入力部
302 リンク生成部
303 リンク出力部
401 医学文献情報、辞書テーブル入力
402 辞書テーブルを用いた医学用語の抽出
403 辞書テーブルを用いた量および時間関係情報の抽出
404 共起度と文献の格付けを求める
405 医学知識の記録
501 臨床情報の入力
502 医学知識の入力
503 条件分岐
504 医学知識が量・時間関係の場合、臨床データがこの関係を満たすかチェック
505 医学知識と臨床データがマッチするかチェック
506 条件分岐
507 共起度と格付けを求める
508 重み付きで各項目間のリンクを生成する
601 患者ID
602 レコード番号
701 レコード番号
702 病名(項目1)
703 病名(項目2)
704 サイズ(項目3)
705 視点(項目4)
706 時間
801 レコード番号
802 ソース項目番号
803 ターゲット項目番号
804 重み
805 知識番号
901 名称
902 分類
1001 知識番号
1002 文献番号
1003 単語1
1004 単語2
1005 共起度
1005 種類
1101 文献番号
1102 文献格付
1301 文献名称
1302 発行年月日
1303 アブストラクト
1304 キーワード
1401 期間指定エリア
1402 使用文献指定エリア
1403 医学知識生成開始ボタン
1501 期間指定エリア
1502 リンク生成開始ボタン
1601 検索結果表示エリア
1602 検索結果表示エリア
1603 検索条件指定エリア
1701 知識番号
1702 集計値
1703 閾値
1801 事前集計処理部
1802 検索処理部
1803 検索結果出力部
1901 閾値以上の重みを持つリンクを収集
1902 医学知識番号ごとにリンク数を集計
1903 集計値を出力
2001 検索条件の取得
2002 病名を検索
2003 共起度と格付けで絞り込み
2004 視点の集計結果とグラフ表示

Claims (10)

  1. 医学概念情報と、前記医学概念情報の共起度と、前記医学概念情報の取得先の医学文献情報の文献格付け情報と、を含む医学知識情報を格納したデータベースを用いて情報の構造化を行う情報構造化システムであって、
    複数の臨床情報の入力を受け付ける臨床情報入力受付部と、
    前記医学知識情報を用い、前記医学知識情報が等号または不等号を含んでいる場合は、前記臨床情報に含まれる臨床データの関係が当該等号または不等号を満たすかを判定し、前記医学知識情報が等号または不等号を含んでいない場合は、前記臨床データのレコードの病名が、当該医学知識情報に含まれる単語と合致するかを判定し、前記判定のいずれかの条件を満たした前記医学知識情報に含まれる前記共起度、および、当該医学知識情報を含む文献番号より得られる前記文献格付け情報を含む重み情報を付して前記複数の臨床情報を互いに関係付けるリンク情報を生成するリンク生成部と、
    を有することを特徴とする情報構造化システム。
  2. 請求項1に記載の情報構造化システムであって、
    前記医学知識情報は、前記医学知識情報の分類情報を有し、
    前記リンク生成部は、前記医学知識情報を用いる際に前記分類情報を参照し、前記医学知識情報が前記分類情報である場合は、さらに前記複数の臨床情報が前記分類情報である場合に前記複数の臨床情報を関係付け、前記複数の臨床情報が前記分類情報で無い場合に前記複数の臨床情報を関係付けないことを特徴とする情報構造化システム。
  3. 請求項1に記載の情報構造化システムであって、
    前記医学文献情報から前記医学概念情報を抽出する医学概念抽出部と、
    前記医学概念情報の共起度と前記医学文献情報の文献格付け情報とを取得し、前記医学概念情報と前記共起度と前記格付け情報とを医学知識情報として前記データベースに格納する医学知識情報生成部と、
    をさらに有することを特徴とする情報構造化システム。
  4. 請求項3に記載の情報構造化システムであって、
    前記データベースは辞書情報を格納し、
    前記医学概念抽出部は、前記辞書情報を用いて前記医学文献情報から前記医学概念情報を分類情報とともに抽出することを特徴とする情報構造化システム。
  5. 請求項4に記載の情報構造化システムであって、
    前記医学知識情報生成部は、前記共起度を前記医学概念情報が前記医学文献情報が示す文献に含まれる数として算出することを特徴とする情報構造化システム。
  6. 請求項4に記載の情報構造化システムであって、
    前記データベースは、文献格付けリスト情報を格納し、
    前記医学知識情報生成部は、前記文献格付けリスト情報を用いて、前記文献格付け度を前記医学概念情報が含まれる前記医学文献情報がしめす文献の文献格付け情報を生成することを特徴とする情報構造化システム。
  7. 請求項3に記載の情報構造化システムであって、
    医学知識生成期間情報の入力を受け付ける医学知識生成期間受付部をさらに有し、
    前記医学概念抽出部は、前記医学知識生成期間情報に基づいて、前記医学概念の抽出に用いる前記医学文献情報を選択することを特徴とする情報構造化システム。
  8. 請求項1に記載の情報構造化システムであって、
    リンク生成期間情報の入力を受け付けるリンク生成期間受付部をさらに有し、
    前記リンク生成部は、前記リンク生成期間情報に基づいて、前記リンク情報を生成する際に用いる前記複数の臨床情報を選択することを特徴とする情報構造化システム。
  9. 請求項1に記載の情報構造化システムであって、
    前記重み情報が所定の閾値以上の前記リンク情報を抽出するリンク情報抽出部と、
    前記抽出されたリンク情報から前記共起度と前記文献格付け情報とを集計しリンク集計情報を生成するリンク情報集計部と、
    を有することを特徴とする情報構造化システム。
  10. 請求項9に記載の情報構造化システムであって、
    検索共起情報と検索文献格付け情報を含む検索条件の入力を受け付ける検索条件入力部と、
    前記検索条件に基づいて前記リンク集計情報を検索し、前記検索条件を満たすリンク集計情報を抽出することを特徴とする情報構造化システム。
JP2013105743A 2013-05-20 2013-05-20 情報構造化システム Active JP6101563B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013105743A JP6101563B2 (ja) 2013-05-20 2013-05-20 情報構造化システム
US14/279,388 US20140344274A1 (en) 2013-05-20 2014-05-16 Information structuring system
EP20140168888 EP2806367A1 (en) 2013-05-20 2014-05-19 Information structuring system
CN201410212244.6A CN104182450A (zh) 2013-05-20 2014-05-20 信息结构化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013105743A JP6101563B2 (ja) 2013-05-20 2013-05-20 情報構造化システム

Publications (2)

Publication Number Publication Date
JP2014228907A JP2014228907A (ja) 2014-12-08
JP6101563B2 true JP6101563B2 (ja) 2017-03-22

Family

ID=50735933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013105743A Active JP6101563B2 (ja) 2013-05-20 2013-05-20 情報構造化システム

Country Status (4)

Country Link
US (1) US20140344274A1 (ja)
EP (1) EP2806367A1 (ja)
JP (1) JP6101563B2 (ja)
CN (1) CN104182450A (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6500460B2 (ja) * 2015-01-30 2019-04-17 株式会社島津製作所 医用システム
EP3276570A4 (en) * 2015-03-27 2018-11-07 Hitachi, Ltd. Computer system and information processing method
EP3223178A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A system and a method for assessing patient treatment risk using open data and clinician input
EP3223179A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A healthcare risk extraction system and method
EP3223180A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A system and a method for assessing patient risk using open data and clinician input
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法
EP3239869A1 (en) * 2016-04-29 2017-11-01 Fujitsu Limited A system and method to produce and validate weighted relations between drug and adverse drug reactions
US10606854B2 (en) * 2016-06-22 2020-03-31 Black Knight Ip Holding Company, Llc Intelligent cascading linkage machine for fuzzy matching in complex computing networks
EP3306502A1 (en) * 2016-10-06 2018-04-11 Fujitsu Limited A computer apparatus and method to identify healthcare resources used by a patient given a potential diagnosis
EP3306501A1 (en) * 2016-10-06 2018-04-11 Fujitsu Limited A computer apparatus and method to identify healthcare resources used by a patient of a medical institution
CN107193864A (zh) * 2017-04-01 2017-09-22 徐立水 一种基于大数据的医学网站管理方法
CN107832442A (zh) * 2017-11-17 2018-03-23 陆光辉 一种中医药信息查询系统和方法
JP6975682B2 (ja) * 2018-05-29 2021-12-01 株式会社日立製作所 医学情報処理装置、医学情報処理方法、及び医学情報処理プログラム
JP7068106B2 (ja) * 2018-08-28 2022-05-16 株式会社日立製作所 試験計画策定支援装置、試験計画策定支援方法及びプログラム
CN109408644A (zh) * 2018-09-03 2019-03-01 平安医疗健康管理股份有限公司 知识库更新方法、装置、计算机设备和存储介质
EP3660699A1 (en) * 2018-11-29 2020-06-03 Tata Consultancy Services Limited Method and system to extract domain concepts to create domain dictionaries and ontologies
CN109710670B (zh) * 2018-12-11 2020-04-28 萱闱(河南)生命科学研究院有限公司 一种将病历文本从自然语言转换为结构化元数据的方法
JP7148444B2 (ja) * 2019-03-19 2022-10-05 株式会社日立製作所 文分類装置、文分類方法及び文分類プログラム
CN110147421B (zh) * 2019-05-10 2022-06-21 腾讯科技(深圳)有限公司 一种目标实体链接方法、装置、设备及存储介质
CN112256834B (zh) * 2020-10-28 2021-06-08 中国科学院声学研究所 一种基于内容及文献的海洋科学数据推荐系统
JP2022150987A (ja) * 2021-03-26 2022-10-07 富士通株式会社 訓練データ生成プログラム,訓練データ生成方法および訓練データ生成装置
CN113434626B (zh) * 2021-08-27 2021-12-07 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统
JP2023036176A (ja) * 2021-09-02 2023-03-14 キヤノンメディカルシステムズ株式会社 検索情報処理装置
CN115858759B (zh) * 2023-02-27 2023-06-23 北京泽桥医疗科技股份有限公司 一种基于医学知识图谱的智能查询算法及管理系统

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02301869A (ja) * 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US6292796B1 (en) * 1999-02-23 2001-09-18 Clinical Focus, Inc. Method and apparatus for improving access to literature
US6581038B1 (en) * 1999-03-15 2003-06-17 Nexcura, Inc. Automated profiler system for providing medical information to patients
US7127407B1 (en) * 1999-04-29 2006-10-24 3M Innovative Properties Company Method of grouping and analyzing clinical risks, and system therefor
US20030154208A1 (en) * 2002-02-14 2003-08-14 Meddak Ltd Medical data storage system and method
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
JP4656908B2 (ja) 2003-09-11 2011-03-23 瑠美子 松岡 医療用知識データベース支援システム
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
US8335753B2 (en) * 2004-11-03 2012-12-18 Microsoft Corporation Domain knowledge-assisted information processing
US20060111943A1 (en) * 2004-11-15 2006-05-25 Wu Harry C Method and system to edit and analyze longitudinal personal health data using a web-based application
US7529408B2 (en) * 2005-02-23 2009-05-05 Ichannex Corporation System and method for electronically processing document images
US7647335B1 (en) * 2005-08-30 2010-01-12 ATA SpA - Advanced Technology Assessment Computing system and methods for distributed generation and storage of complex relational data
CN100343852C (zh) * 2005-09-27 2007-10-17 南方医科大学 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法
EP1945268A4 (en) * 2005-09-30 2010-09-15 Univ California SATB1, A DETERMINANT OF MORPHOGENESIS AND TUMOR METASTASIS
WO2007106858A2 (en) * 2006-03-15 2007-09-20 Araicom Research Llc System, method, and computer program product for data mining and automatically generating hypotheses from data repositories
US7805385B2 (en) * 2006-04-17 2010-09-28 Siemens Medical Solutions Usa, Inc. Prognosis modeling from literature and other sources
US20090221904A1 (en) * 2006-05-04 2009-09-03 Shealy David J Inflammatory condition progression, diagnosis and treatment monitoring methods, systems, apparatus, and uses
US8417537B2 (en) * 2006-11-01 2013-04-09 Microsoft Corporation Extensible and localizable health-related dictionary
US20080114738A1 (en) * 2006-11-13 2008-05-15 Gerald Chao System for improving document interlinking via linguistic analysis and searching
US7822669B2 (en) * 2006-11-16 2010-10-26 General Electric Capital Corporation System and software for providing recommendations to optimize a portfolio of items
JP2008181188A (ja) * 2007-01-23 2008-08-07 Kokusai Research Academy:Kk 健康関連情報提供システム
US8504343B2 (en) * 2007-01-31 2013-08-06 University Of Notre Dame Du Lac Disease diagnoses-bases disease prediction
WO2008109815A1 (en) * 2007-03-07 2008-09-12 Upmc, A Corporation Of The Commonwealth Of Pennsylvania Medical information management system
JP2010523979A (ja) * 2007-04-05 2010-07-15 オーレオン ラボラトリーズ, インコーポレイテッド 医学的状態の処置、診断および予測のためのシステムおよび方法
CN101334770A (zh) * 2007-06-28 2008-12-31 科凌力医学软件(深圳)有限公司 循证医学数据库组建方法及相关的循证医学疾病诊断方法
US9997260B2 (en) * 2007-12-28 2018-06-12 Koninklijke Philips N.V. Retrieval of similar patient cases based on disease probability vectors
RU2565506C2 (ru) * 2009-10-06 2015-10-20 Конинклейке Филипс Электроникс Н.В. Автономное связывание информационных записей о пациенте, хранимых в различных объектах
US8706521B2 (en) * 2010-07-16 2014-04-22 Naresh Ramarajan Treatment related quantitative decision engine
BR112013002534B1 (pt) * 2010-08-05 2020-12-22 Koninklijke Philips N.V sistema de auxílio à criação de relatórios, estação de trabalho, e método de auxílio à criação de relatórios
JP5085708B2 (ja) * 2010-09-28 2012-11-28 株式会社東芝 キーワード提示装置、方法及びプログラム
CN102024027B (zh) * 2010-11-17 2013-03-20 北京健康在线网络技术有限公司 一种医学数据库的建立方法
JP5939141B2 (ja) * 2012-11-21 2016-06-22 富士ゼロックス株式会社 プログラム及び診療記録検索装置
US9286379B2 (en) * 2012-11-26 2016-03-15 Wal-Mart Stores, Inc. Document quality measurement

Also Published As

Publication number Publication date
EP2806367A1 (en) 2014-11-26
US20140344274A1 (en) 2014-11-20
CN104182450A (zh) 2014-12-03
JP2014228907A (ja) 2014-12-08

Similar Documents

Publication Publication Date Title
JP6101563B2 (ja) 情報構造化システム
Natarajan et al. An analysis of clinical queries in an electronic health record search utility
Frank et al. Building an Entity-Centric Stream Filtering Test Collection for TREC 2012.
CN108694177B (zh) 知识图谱构建方法及系统
CN111465990B (zh) 用于医疗保健临床试验的方法和系统
Coffano et al. CRIOS-Patstat database: sources, contents and access rules
Stitz et al. Knowledgepearls: Provenance-based visualization retrieval
US10878010B2 (en) System and method for clinical trial candidate matching
WO2009037615A1 (en) System and method for analyzing electronic data records
JP2008181188A (ja) 健康関連情報提供システム
US20130254225A1 (en) Device, method, and non-transitory computer-readable medium for medical information search
CN109840275B (zh) 一种医疗搜索语句的处理方法、装置和设备
Madaan et al. Domain specific multistage query language for medical document repositories
Ting et al. Web information retrieval for health professionals
Chamorro-Padial et al. Finding answers to COVID-19-specific questions: An information retrieval system based on latent keywords and adapted TF-IDF
Izquierdo et al. A platform for keyword search and its application for covid-19 pandemic data
Ji et al. Social infobuttons: integrating open health data with social data using semantic technology
JP5276819B2 (ja) 電子カルテシステムおよび検索プログラム
Raza et al. A question-answering system on COVID-19 scientific literature
Kusa Automated Eligibility Screening and its Evaluation in the Medical Domain
JP2011244849A (ja) 類似症例検索プログラム
Sondhi et al. Question processing and clustering in INDOC: a biomedical question answering system
Li et al. Automating document classification with distant supervision to increase the efficiency of systematic reviews
Mehta Validating medical queries with literature from pubmed using topic modelling
Bobrov et al. DrugWatch: A Comprehensive Multi-Source Data Visualisation Platform for Drug Safety Information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161122

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170110

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170227

R150 Certificate of patent or registration of utility model

Ref document number: 6101563

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150