JP2011244849A - 類似症例検索プログラム - Google Patents

類似症例検索プログラム Download PDF

Info

Publication number
JP2011244849A
JP2011244849A JP2010117837A JP2010117837A JP2011244849A JP 2011244849 A JP2011244849 A JP 2011244849A JP 2010117837 A JP2010117837 A JP 2010117837A JP 2010117837 A JP2010117837 A JP 2010117837A JP 2011244849 A JP2011244849 A JP 2011244849A
Authority
JP
Japan
Prior art keywords
information data
case
extracted
search
case information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010117837A
Other languages
English (en)
Inventor
Katsuhiko Takabayashi
克日己 高林
Takahiro Suzuki
隆弘 鈴木
Shunsuke Doi
俊祐 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chiba University NUC
Original Assignee
Chiba University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chiba University NUC filed Critical Chiba University NUC
Priority to JP2010117837A priority Critical patent/JP2011244849A/ja
Publication of JP2011244849A publication Critical patent/JP2011244849A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索プログラムを提供する。
【解決手段】 コンピュータに、複数の単語及び当該複数の単語の各々に対する重要度を対応させた抽出症例情報データを複数格納する手段、検索対象症例情報データを入力する入力フォームを表示する手段、前記入力フォームに入力された検索対象症例情報データに基づき検索処理を行う手段、前記検索処理により抽出された抽出症例情報データをリストとして表示する手段、として機能させるための類似症例検索プログラムとする。
【選択図】図1

Description

本発明は、類似症例検索プログラムに関する。
近年医療分野において、病院情報システムの普及により情報の電子化が進んでいる。そのうえで、これまで困難とされてきた文書データの再利用についても知識の抽出・共有等の活用が期待されている。その1つに、医師が診断の参考とする、過去の類似症例の検索がある。
過去の類似症例の検索方法には、退院時サマリー等の医師個人や施設固有の情報を利用する方法と、学会等に提出される症例報告や論文から検索する方法とがある。従来の症例検索においては、医学中央雑誌やCiNiiでの論文検索においてもキーワード検索が採用されている。また、下記文献1ではMML化された退院時サマリーを知識ソースとして、独自の医療用語集に加えn−gram法・tf−idf法を用いて文書データをベクトルという定量表現に変換し、MMLのメタ構造と合わせて意味的に類似した症例を出力している。
鈴木隆弘他、テキストマイニングによる退院サマリーからの類似症例検索の試み、第27回医療情報学連合大会論文集、2007、pp635−636
しかしながら、上記キーワード検索は、病名等の限られた語の有無のみを指標としており、症例内容の類似性を忠実に評価することは困難であるといった課題がある。
また、上記非特許文献1に代表される手法は、MML化された退院時サマリーという限られた医療文書でしか利用できないといった課題がある。類似症例検索に限らず、先行研究において採用されている医療文書は、いずれも単一施設で利用されている文書に限定されており、共有・運用を図るには適していない。また、退院時サマリーには施設間で作成や保存の様式、内容に大きな差があり、その上、個人情報保護法により持ち出しや公開に関して厳しい制限がなされているため、知識共有のためのソースとしては不向きである。つまり、キーワード検索や上記文献1に代表される技術ではこれらへの対応が不十分であり、汎用的な1つのアプリケーションとして幅広く利用されることは非常に困難である。
そこで、本発明は、上記課題を解決し、症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索プログラムを提供することを目的とする。
上記課題を解決するための手段として、本発明の一観点に係る類似症例検索プログラムは、コンピュータに、複数の単語及び複数の単語の各々に対する重要度を対応させた抽出症例情報データを複数格納する手段、検索対象症例情報データを入力する入力フォームを表示する手段、入力フォームに入力された検索対象症例情報データに基づき検索処理を行う手段、検索処理により抽出された抽出症例情報データをリストとして表示する手段、として機能させる。
以上、本発明によると、症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索プログラムを提供することができる。
実施形態に係る類似症例検索プログラムの処理のフローを示す図である。 類似症例検索プログラムの実行により表示される入力フォームの例を示す図である。 類似症例検索プログラムの実行により表示される検索表示フォームの例を示す図である。 類似症例検索プログラムの実行により表示される検索結果のより詳細な表示を行なうフォームの例を示す図である。
以下、本発明を実施するための最良の形態について、図面を用いて詳細に説明するが、本発明は多くの異なる形態による実施が可能であって、以下に示す実施形態、実施例の例示に限定されるものではない。
図1は、本実施形態に係る類似症例検索プログラム(以下「本プログラム」という。)の処理のフローを示す図である。本プログラムは、コンピュータに、(1)複数の単語及びこれら複数の単語の各々に対する重要度を対応させた抽出症例情報データを複数格納する手段、(2)検索対象症例情報データを入力する入力フォームを表示する手段、(3)入力フォームに入力された検索対象症例情報データに基づき検索処理を行う手段、(4)検索処理により抽出された抽出症例情報データをリストとして表示する手段、として機能させ、これにより、症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索を行なうことができるようになる。
本プログラムは、いわゆるコンピュータのハードディスク等の記録媒体に格納され、必要に応じ実行されることで、上記各手段として機能し、類似症例検索を行なうことができるようになる。
本プログラムは、一台のコンピュータで完結するよう構成してもよいが、一台のコンピュータをサーバとして用い、インターネット等の電気通信回線を介して接続される他のコンピュータからのアクセスを可能とし、機能するように構成しても良い。なおこの場合において接続されるコンピュータの数に関し制限はない。このような構成によると、幅広く用いることができる汎用的なシステムとなり、ユーザーの利便性と運用の簡素化が達成できる。なおこの場合において、ユーザーがより気軽に利用できるよう、webブラウザを利用して検索ができるシステムとなっていることは好ましい。
まず、本プログラムは、コンピュータに、(1)複数の単語及びこれら複数の単語の各々に対する重要度を対応させた抽出症例情報データを複数格納する手段として機能させる。本実施形態に係る抽出症例情報データとは、類似症例について検索処理を行う際に検索の対象となるデータであって、テキストを含むデータである。抽出症例情報データは一般又は特定の者に公表される公表症例データを加工して作成されるものである。この公表症例データもテキストを含むデータであるが、公表症例データとしては、退院時サマリーだけでなく、通常の論文も利用することができ、症例に関する単語が含まれる文章であれば特に限定はされないが、例えば学会に提出される症例報告であることが好ましい。学会に提出される症例報告は、個人情報が予め削除されたものであって、情報量も統一されており、知識共有の指標としては最適なソースである。
本プログラムでは、公表症例データに対し形態素解析処理及び重要度計算処理を行い、抽出症例情報データに加工した後、抽出症例情報データとして記録媒体に格納される。この結果、本プログラムは、多数の抽出症例情報データを格納し、一つのデータベースを構築する。
本実施形態において形態素解析処理とは、自然言語処理の一つであって、自然言語を用いて記述された文章を複数の単語に分割し、そのそれぞれに対し品詞を特定する処理を言う。この処理については、上記実現することができる限りにおいて限定されるわけではないが、市販の形態素解析ソフトを用いることができ、例えばMecabを用いることができる。
本プログラムにおいて重要度計算処理とは、いわゆるベクトル化処理であり、上記形態素解析処理により抽出された上記単語に対しその重要度を付与する処理をいい、限定されるわけではないが、いわゆるtf−idf法を採用することができる。tf−idf法とは、文書中の特徴的な単語を抽出するためのアルゴリズムであって、単語の出現頻度を基に重要度を計算することができるものである。具体的には、下記式で示す方法で文書中の単語の重要性を計算する。tf−idf法は、各抽出症例情報データの各単語の重要度を、当該抽出症例情報データにおける当該単語の出現回数、全抽出症例情報データの数、全抽出症例情報データにおいて当該単語が出現する抽出症例情報データの数、抽出症例情報データの全重要度の二重和の平方根を用いて計算される。この結果、抽出症例情報データは、複数の単語と、この各単語に重要度が付されたデータが並べられたベクトルとなっている。
なお、上記重要度計算を行うためのソフトウェアとしては、市販のものを使用することができ、例えばCache等を用いることができる。
また抽出症例情報データにおいて、学会に提出される症例報告を用いる場合、当該学会の開催日時のデータ、開催場所のデータ、タイトル、著者、著者の所属、著者の連絡先、キーワード、患者の年齢、性別等の付帯情報を付しておくことが好ましい。このようにしておくことで、抽出された場合に、より詳細な表示を可能とし、その後の詳細な検討に役立てることができる。
また本実施形態では、形態素解析処理や入力フォームにおける検索対象症例情報データの入力補助等において、処理をより詳細正確に行うためにユーザー辞書を予め格納しておくことが好ましい。ここでユーザー辞書とは、医療に関連する単語をデータ化したものであって、一般的な医療辞書、実際の医療機関で使用されている用語集、研究過程により追加された未知の用語集等を含み、これを適宜準備しておくことが好ましい。
また本プログラムは、コンピュータに、(2)索対象症例情報データを入力する入力フォームを表示する手段として機能させる。このフォームの一例の図を図2に示しておく。
本実施形態に係る入力フォームは、少なくとも、テキストを入力させるためのテキストボックスと、検索を開始させるための検索開始ボタンと、を有している。ユーザーは、このテキストボックスに必要な文章を入力し、検索開始ボタンを押すことで検索を開始させることができる。本プログラムは、上記のとおり、抽出症例情報データが、単語ごとに重要度が付されベクトル化されたものとなっているため、自然言語処理を用いた検索処理が可能となり、キーワードだけでなく、病態を表現する文章を入れることが可能となり、より正確、詳細な検索が可能となる。
また、本プログラムは、コンピュータに、(3)入力フォームに入力された検索対象症例情報データに対し検索処理を行う手段として機能させる。
ここで、検索処理とは、入力フォームに入力された検索対称症例データに対し所定の処理を行った後、予め格納した上記複数の抽出症例情報データから類似度が高い即ち病態が似ている症例を抽出する作業である。
ここで検索処理は、限定されるわけではないが、入力された検索対象症例情報データに対し形態素解析処理及び重要度計算処理を行い、更に、格納された複数の抽出症例情報データ各々との計算処理を行い、当該結果に基づき抽出を行なう処理であることが好ましい。形態素解析処理及び重要度計算は上述したものを適宜使用することができる。
なおこの処理において、検索処理に個人情報や不適切な単語が含まれている場合もあるため、別途除外単語データを含む除外単語データベースを設けることや、形態素解析等により個人の氏名であると認識された単語について削除処理を行わせることは好ましい一例である。
また、入力された検索対象症例情報データと格納された複数の抽出症例情報データ各々との計算処理は、検索対象症例情報データ、複数の抽出症例情報データがいずれもベクトル化されたものであるため、内積を求め、その内積の値順に評価する処理であることが好ましい。文章自体の類似度が高いということが同じ病態を有する疾患であると判断できるためである。
また、本プログラムは、コンピュータに、(4)検索処理により抽出された抽出症例情報データをリストとして表示する手段、として機能させる。
またこの場合においては、抽出症例情報データの一部をリストとして表示するとともに、各抽出症例情報データの表示近傍に、詳細表示を行なうための詳細表示ボタンを表示させ、この詳細表示ボタンが押された場合に、当該抽出症例情報データの詳細を表示する抽出症例情報データ詳細表示手段、としても機能することが好ましい。このようにすることで、リスト表示を必要最小限に抑えるとともに、必要と思われるもののみをピックアップしてより詳細に確認することができるようになるといった効果がある。この場合において、リストを表示した場合のフォームの一例のイメージ図を図3に、リストのうちの一つについてより詳細に表示した場合のフォームの一例のイメージ図を図4に示しておく。なお限定されるわけではないが、詳細情報には、抽出症例情報データが学会に提出された症例報告である場合、当該学会の開催日時のデータ、開催場所のデータ、タイトル、著者、著者の所属、著者の連絡先等を表示するようにすることが好ましい。
また、本プログラムは、このリスト表示の際、又は他の入力可能な状態おいてアンケートを表示し、入力を受け付ける手段、さらにはこのアンケートの結果を集計処理を行う手段、を有していることが好ましい。このようにすることで、検索処理の正確性に対しきめ細やかなフィードバックをかけることが可能となるといった効果がある。
さらに、本プログラムには、管理者専用のページを作成し、システムの停止・復旧の手動操作処理を行うための手段、データベースの自動更新処理を行う手段等を適宜設けてもよい。このようにすることで、より細やかな管理・運用が可能となるといった効果がある。
以上、本プログラムは、類似症例検索システムを1つのアプリケーションとして導入することが可能であり、自由文を入力することで、文書の類似性を検索することが可能となる。また、データベースとして個人情報の含まれない学会症例報告を利用していることにより、個人情報を考慮することなく、自然言語処理技術を利用した検索技術を幅広く普及させることが可能である。以上、本実施形態に係るプログラムは、症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索プログラムを提供することができる。
上記実施形態に係るプログラムについて、実際に作成し、その効果を確認した。以下説明する。
まず、基礎となる公表症例データとして、日本内科学会地方会に提出された過去4年分約15000件の症例報告を用いた。この症例データは、患者個人の情報は含まれていない。1症例1テキストのデータからなるデータベースを作成した。
これに対し、Mecabのver0.96を用い、形態素解析を行い、さらに、cache(インターシステムズ社製)によるtf−idf法を用いた重要度解析処理を行い、複数の抽出症例情報データからなるデータベースを構築し、ハードディスクに格納した。
なおユーザー辞書として、市販の医療用語集、実際の病院において使用されている用語集等を用い、約32万語のユーザー辞書を作成し、使用した。
その後、入力フォーム、結果表示フォーム、さらに結果の詳細について表示するフォームを作成し、類似症例検索システムを構築した。
そして、検索の一例として、2001年に発症したパーキンソン患者に関する類似検索を実行し、結果を確認したところ、非常に類似する一例を抽出することができた。この結果、症例内容の類似性を忠実に評価し、より正確、より汎用的な類似症例検索プログラムを提供することができることを確認した。この実施例の入力フォーム、結果表示フォーム、詳細な結果表示のフォームは既に示した図2乃至4のとおりである。
本発明は、類似症例検索プログラムとして、産業上の利用可能性がある。

Claims (3)

  1. コンピュータに、
    複数の単語及び当該複数の単語の各々に対する重要度を対応させた抽出症例情報データを複数格納する手段、
    検索対象症例情報データを入力する入力フォームを表示する手段、
    前記入力フォームに入力された検索対象症例情報データに基づき検索処理を行う手段、
    前記検索処理により抽出された抽出症例情報データをリストとして表示する手段、として機能させるための類似症例検索プログラム。
  2. 前記検索処理は、前記入力された検索対象症例情報データに対し形態素解析及び重要度計算を行い、更に、格納された複数の前記抽出症例情報データ各々との計算処理を行い、当該結果に基づき抽出を行なう請求項1記載の類似症例検索プログラム。
  3. 前記検索処理により抽出された抽出症例情報データをリストとして表示する手段は、前記抽出症例情報データの一部をリストとして表示するとともに、当該抽出症例情報データの詳細表示を行なうための詳細表示ボタンを表示するものであり、更に、
    前記詳細表示ボタンが押された場合に、当該抽出症例データの詳細を表示する抽出症例データ詳細表示手段、としても機能する請求項1記載の類似症例検索プログラム。


JP2010117837A 2010-05-21 2010-05-21 類似症例検索プログラム Withdrawn JP2011244849A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010117837A JP2011244849A (ja) 2010-05-21 2010-05-21 類似症例検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010117837A JP2011244849A (ja) 2010-05-21 2010-05-21 類似症例検索プログラム

Publications (1)

Publication Number Publication Date
JP2011244849A true JP2011244849A (ja) 2011-12-08

Family

ID=45410868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010117837A Withdrawn JP2011244849A (ja) 2010-05-21 2010-05-21 類似症例検索プログラム

Country Status (1)

Country Link
JP (1) JP2011244849A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013200592A (ja) * 2012-03-23 2013-10-03 Fujifilm Corp 医療情報検索装置、方法およびプログラム
CN116564539A (zh) * 2023-07-10 2023-08-08 神州医疗科技股份有限公司 基于信息抽取和实体归一的医学相似病例推荐方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013200592A (ja) * 2012-03-23 2013-10-03 Fujifilm Corp 医療情報検索装置、方法およびプログラム
CN116564539A (zh) * 2023-07-10 2023-08-08 神州医疗科技股份有限公司 基于信息抽取和实体归一的医学相似病例推荐方法和系统
CN116564539B (zh) * 2023-07-10 2023-10-24 神州医疗科技股份有限公司 基于信息抽取和实体归一的医学相似病例推荐方法和系统

Similar Documents

Publication Publication Date Title
Kelly et al. Overview of the CLEF eHealth evaluation lab 2019
Kreimeyer et al. Natural language processing systems for capturing and standardizing unstructured clinical information: a systematic review
Sarrouti et al. A passage retrieval method based on probabilistic information retrieval model and UMLS concepts in biomedical question answering
JP6101563B2 (ja) 情報構造化システム
Ball et al. TextHunter–a user friendly tool for extracting generic concepts from free text in clinical research
Lossio-Ventura et al. Biotex: A system for biomedical terminology extraction, ranking, and validation
JP7068106B2 (ja) 試験計画策定支援装置、試験計画策定支援方法及びプログラム
Topaz et al. NimbleMiner: an open-source nursing-sensitive natural language processing system based on word embedding
Kim et al. BioCreative V BioC track overview: collaborative biocurator assistant task for BioGRID
Malmasi et al. Canary: an NLP platform for clinicians and researchers
Dynomant et al. Word embedding for the French natural language in health care: comparative study
Nualart et al. How we draw texts: a review of approaches to text visualization and exploration
US20130060793A1 (en) Extracting information from medical documents
Seedorff et al. Incorporating expert terminology and disease risk factors into consumer health vocabularies
Alnazzawi et al. Building a semantically annotated corpus for congestive heart and renal failure from clinical records and the literature
US20130254225A1 (en) Device, method, and non-transitory computer-readable medium for medical information search
Panja Information Retrieval Systems in Healthcare: Understanding Medical Data Through Text Analysis
Dobbie et al. Markup: a web-based annotation tool powered by active learning
Khalid et al. Real-time feedback query expansion technique for supporting scholarly search using citation network analysis
Upshall Text mining: Using search to provide solutions
JP2011244849A (ja) 類似症例検索プログラム
Shah et al. Clinical narrative summarization based on the mimic iii dataset
De Maio et al. Text Mining Basics in Bioinformatics.
Baghal et al. Agile natural language processing model for pathology knowledge extraction and integration with clinical enterprise data warehouse
Schmidt et al. A concept for plagiarism detection based on compressed bitmaps

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130806