JP2008083927A

JP2008083927A - 医療情報抽出装置、及び医療情報抽出プログラム

Info

Publication number: JP2008083927A
Application number: JP2006262356A
Authority: JP
Inventors: Satoru Hayamizu; 悟速水; Tetsutsugu Tamura; 哲嗣田村; Keiko Yamamoto; けい子山本; Yasuomi Kinosada; 保臣紀ノ定; Makoto Kanekawa; 誠金川; Akira Nakamura; 明中村; Hiromitsu Kawajiri; 博光川尻
Original assignee: Gifu University NUC; Sanyo Electric Co Ltd
Current assignee: Gifu University NUC; Sanyo Electric Co Ltd
Priority date: 2006-09-27
Filing date: 2006-09-27
Publication date: 2008-04-10

Abstract

【課題】
病名を上位概念とし、該病名に関連する関連項目を下位概念として、上位・下位概念間の相関関係と電子化された文書の情報から学習を行い、新規の下位概念の抽出及び下位概念のリストの更新が行える医療情報抽出装置及びプログラムを提供する。
【解決手段】
医療情報抽出装置１のＣＰＵ１０は、Web文書から医療と関連するパッセージを抽出し、抽出されたパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出する。そして、ＣＰＵ１０は、抽出されたパッセージを含む対象文書集合を元にして、処理対象病名と関連するとともに前記項目リストにない新項目を抽出し、該新項目を該項目リストに追加する。
【選択図】図１

Description

本発明は医療情報抽出装置及び医療情報抽出プログラムに関する。特に、医師が診断などの際に電子カルテシステムを用いたり、患者や患者の家族が病気についての情報をインターネットで調べたりする場合など、人間が医療に関わる情報を処理する場面において、コンピュータを用いて情報処理を支援する医療情報抽出装置、及び医療情報抽出プログラムに関する。

自然言語文で記述された文章から、抽出された概念間の関係などの情報は、文書の解析を行う際に有用な情報となりうる。例えば、医療分野においては、Webや電子カルテシステムに入力された文章から抽出された病名と症状間の相関関係の情報や、薬品と患者の症状に関する相関関係の情報は、人間が医療に関わる情報を処理する場面において有用なものとなる。すなわち、医療情報を扱った文書に対しては、病名と症状や、病名と薬品などのように、ある概念とそれに関連した概念との間の関係が統計的な情報により表現可能な知識は、医療機関においては、診断や処置の際にも、参照できる重要な情報となる。

そのような抽出した医学的な知識は、医療機関においてだけでなく、患者や患者の家族が病気についての情報をインターネットで調べようとする際にも、利用可能で有用である。

ところで、蓄積された文書の中から知りたい情報のみを見つけることは時間と労力を要する。このため、文書の電子化が進み、日々蓄積されている膨大な電子文書の中から重要な情報を抽出する情報抽出技術ではコンピュータを用いることが有効な手段として考えられており、その需要も増加している。情報抽出技術は、分析対象とするテキストが定型的な表現で構成されている場合には、そのパターンを定義することにより高精度に抽出することが可能であるが、テキストが多様な表現を有する自由記述文などの不定型な構造を有する場合には、パターンの定義や特定が複雑かつ困難である。

こうした情報抽出方法についての従来技術としては、特許文献１や特許文献２、非特許文献１がある。
特許文献１は、入力文に対して解析を行い、得られた単語の間の関係を抽出し、データベースに記憶することで、適切なキーワード抽出や検索を行うものである。

特許文献２は、データベースに存在する電子文書を利用した情報抽出技術であり、分析対象テキスト中の情報と抽出すべき情報との対応関係を定義する照合パターンを用いて、分析に必要となる情報の抽出を行う。

又、非特許文献１においては、医療分野を例として、インターネット上のWeb文書から、ある話題に適合するパッセージ（文書の一部）を自動的に抽出する方法が提案されている。具体的には、まず、病名を検索キーとして、Web文書を自動的に収集し、タグの情報を用いて文書を細かく分割してパッセージの候補を抽出する。次に、症状を現す表現を症状リストとして予め人手で用意しておき、この症状リストに適合するパッセージを候補の中から選択する。次に選択したパッセージの候補を類似度の大きなものから、順に出力するというものである。

しかし、特許文献１は、関係抽出規則に従って単語間の関係を抽出することから、この規則の内容によっては抽出精度が変化し、又、規則の作成・追加に関する考慮も必要となる。

特許文献２は、システム内に事前知識となる照合パターンを定義することで自由記述テキストから分析に必要な語句を抽出しているが、テキスト自体が自由記述テキストとしては自由度の低いアンケート等に関する物と用途が限定されているため、分析対象テキストに大きく依存して抽出精度も変化すると考えられる。これらを克服するためには、分析対象テキストの分野や内容に合わせて照合パターンの定義を変え、詳細な照合パターンを準備する必要がある。

非特許文献１は、病名に関する症状パッセージを抽出する技術であるが、人手で用意した症状リストは、多様な表現を持つ症状（たとえば、主訴や訴え）に関する単語を網羅的に作成することが困難であり、このことは症状を含むパッセージの抽出精度を左右する。又、類似度の大きいパッセージそのものを出力する形式であることから、パッセージの質や大きさに依存した結果には一貫性がなく、さらに同じ意味（症状）を表現したパッセージに対する処理（意味的に重複したパッセージの単一化処理）は行われておらず、２次利用しにくい。
特開平８−１２９５５４号公報特開２００５-１１５４６８号公報「医療分野におけるWeb文書からの話題抽出方法」，人工知能学会全国大会（第１９回）、1E1-01,2005

これらの従来技術では、単語間の相関関係を表すための単語の自動抽出や追加方法、特に病名に関連する症状などの関連項目を、統計的な情報を用いた学習によって抽出・追加することは考えられておらず、又、テキスト文書と、病名に関する既存の知識を利用して抽出する装置も提案されていない。

本発明は、病名を上位概念とし、該病名に関連する関連項目を下位概念として、上位・下位概念間の相関関係と電子化された文書の情報から学習を行い、新規の下位概念の抽出及び下位概念のリストの更新が行える医療情報抽出装置、及び医療情報抽出プログラムを提供することを目的としている。

上記問題点を解決するために本発明の医療情報抽出装置は、処理対象病名と、該処理対象病名と関連する関連項目との関係を自由書式の文書から抽出する医療情報抽出装置において、前記文書から医療と関連するパッセージを抽出するパッセージ抽出手段と、抽出されたパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出する関係抽出手段と、抽出されたパッセージを含む対象文書集合を元にして、前記処理対象病名と関連するとともに前記項目リストにない新項目を抽出し、該新項目を該項目リストに追加する追加項目抽出手段とを備えたことを特徴とする。

ここで、相関度は、項目と病名とが共に出現する度合のことである。又、「文書から医療と関連するパッセージ」とは、例えば「病名」を含むパッセージである。医療と関連するパッセージとは「病名」に限定されるものではなく、「症状」や「薬品」などの医療に関する事項であってもよい。「病名と関連する関連項目」とは、病名と関連する症状、原因、処置、薬品名などをいい、その病名に関して関連して取り上げられている事項をいう。

このように構成されていることにより、病名を上位概念とし、該病名に関連する関連項目を下位概念として、上位・下位概念間の相関関係と電子化された文書の情報から学習を行い、新規の下位概念の抽出及び下位概念のリストの更新が行える。又、既存の上位概念と、下位概念との階層関係で未定義であった新規の下位概念の関連項目を抽出することができる。

又、医療情報抽出装置は、さらに、追加項目抽出手段が前記新項目と前記関連項目の項目リスト中の各項目との共起度を用いた項目判定度に基づいて該新項目を追加するようにしてもよい。ここで、共起度とは、語が共起する度合いのことである。このように構成されていることにより、新項目と前記関連項目の項目リスト中の各項目との共起度が高い新項目を項目リストに追加することができる。

又、医療情報抽出装置は、さらに、前記追加項目抽出手段が、抽出されたパッセージを含む対象文書集合を元にして、追加項目候補を抽出するとともに前記項目リスト内の各項目との共起度を算出し、前記相関度が上位に位置する複数の各項目と前記追加項目候補との共起度を、該相関度にて重み付けして加算した値に基づいて項目判定度を算出し、該項目判定度が第１閾値以上のときに、前記追加項目候補を新項目として項目リストに追加することようにしてもよい。

このように構成されていることにより、「病名」との相関度で重み付けすることによりたまたま共起度が高い単語（追加項目候補）が見つかったとしても、「病名」との相関度が低い追加項目候補との共起度が小さくなり、該新候補項目を新項目として追加しないようにすることができる。

又、医療情報抽出装置は、さらに、前記項目リストが観点が異なる複数の項目リストを含み、前記追加項目抽出手段が、前記項目リスト毎に、項目判定度を算出し、各項目リスト間の項目判定度差が、第２閾値以上のときのみ、項目判定度が大きい項目リストに前記追加項目候補を新項目として追加するようにしてもよい。

このように構成されていることにより、他の項目リスト間で共起度を求め、その差を利用することにより適切な項目リストを判定し、不用意に新項目の追加を行わないようにすることができる。

又、医療情報抽出装置は、さらに、処理対象病名と、該処理対象病名と関連する関連項目と、前記関係抽出手段が算出した相関度とを関連付けしてデータベースを構築するデータベース構築手段を備えるようにしてもよい。

このように構成されていることにより、構築されるデータベースを基本として、階層的な概念構造をもつ概念（病名と症状や病名と薬品など）に対して、上位概念から下位概念の情報抽出のみならず、下位概念から上位概念の情報抽出といった病名−症状・原因・薬品名等の関連項目の双方向の情報抽出が可能となる。

又、本発明の医療情報抽出方法は、処理対象病名と、該処理対象病名と関連する関連項目との関係を自由書式の文書から抽出する際に、前記文書から医療と関連するパッセージを抽出する段階と、抽出されたパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出する段階と、抽出されたパッセージを含む対象文書集合を元にして、前記処理対象病名と関連するとともに前記項目リストにない新項目を抽出し、該新項目を該項目リストに追加する段階とを備えることを特徴とする。

このように構成されていることにより、病名を上位概念とし、該病名に関連する関連項目を下位概念として、上位・下位概念間の相関関係と電子化された文書の情報から学習を行い、新規の下位概念の抽出及び下位概念のリストの更新が行える方法を提供できる。又、既存の上位概念と、下位概念との階層関係で未定義であった新規の下位概念の関連項目を抽出することができる方法を提供できる。

又、医療情報抽出方法は、さらに、前記新項目を該項目リストに追加する段階では、前記新項目と前記関連項目の項目リスト中の各項目との共起度を用いた項目判定度に基づいて該新項目を追加するようにしてもよい。

このように構成されていることにより、新項目と前記関連項目の項目リスト中の各項目との共起度が高い新項目を項目リストに追加することができる方法を提供できる。
又、医療情報抽出方法は、さらに、前記新項目を該項目リストに追加する段階では、抽出されたパッセージを含む対象文書集合を元にして、追加項目候補を抽出するとともに前記項目リスト内の各項目との共起度を算出し、前記相関度が上位に位置する複数の各項目と前記追加項目候補との共起度を、該相関度にて重み付けして加算した値に基づいて項目判定度を算出し、該項目判定度が第１閾値以上のときに、前記追加項目候補を新項目として項目リストに追加するようにしてもよい。

このように構成されていることにより、「病名」との相関度で重み付けすることによりたまたま共起度が高い単語（追加項目候補）が見つかったとしても、「病名」との相関度が低い追加項目候補との共起度が小さくなり、該新候補項目を新項目として追加しないようにすることができる方法を提供できる。

又、医療情報抽出方法は、さらに、前記項目リストは、観点が異なる複数の項目リストを含み、前記新項目を該項目リストに追加する段階では、前記項目リスト毎に、項目判定度を算出し、各項目リスト間の項目判定度差が、第２閾値以上のときのみ、項目判定度が大きい項目リストに前記追加項目候補を新項目として追加するようにしてもよい。

このように構成されていることにより、他の項目リスト間で共起度を求め、その差を利用することにより適切な項目リストを判定し、不用意に新項目の追加を行わないようにすることができる方法を提供できる。

又、医療情報抽出方法は、さらに、処理対象病名と、該処理対象病名と関連する関連項目と、前記相関度とを関連付けしてデータベースを構築する段階を備えていてもよい。
このように構成されていることにより、構築されるデータベースを基本として、階層的な概念構造をもつ概念（病名と症状や病名と薬品など）に対して、上位概念から下位概念の情報抽出のみならず、下位概念から上位概念の情報抽出といった病名−症状・原因・薬品名等の関連項目の双方向の情報抽出が可能となる方法を提供できる。

本発明の医療情報抽出プログラムは、コンピュータに、処理対象病名と、該処理対象病名と関連する関連項目との関係を自由書式の文書から抽出する際に、前記文書から医療と関連するパッセージを抽出するパッセージ抽出手段、抽出されたパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出する関係抽出手段、抽出されたパッセージを含む対象文書集合を元にして、前記処理対象病名と関連するとともに前記項目リストにない新項目を抽出し、該新項目を該項目リストに追加する追加項目抽出手段として、機能させることを特徴とする。

このように構成されていることにより、病名を上位概念とし、該病名に関連する関連項目を下位概念として、上位・下位概念間の相関関係と電子化された文書の情報から学習を行い、新規の下位概念の抽出及び下位概念のリストの更新が行える医療情報抽出プログラムを提供できる。又、既存の上位概念と、下位概念との階層関係で未定義であった新規の下位概念の関連項目を抽出することができる医療情報抽出プログラムを提供できる。

本発明の医療情報抽出プログラムは、さらに、前記追加項目抽出手段が、前記新項目と前記関連項目の項目リスト中の各項目との共起度を用いた項目判定度に基づいて該新項目を追加するようにしてもよい。

このように構成されていることにより、新項目と前記関連項目の項目リスト中の各項目との共起度が高い新項目を項目リストに追加することができる医療情報抽出プログラムを提供できる。

本発明の医療情報抽出プログラムは、さらに、前記追加項目抽出手段が、抽出されたパッセージを含む対象文書集合を元にして、追加項目候補を抽出するとともに前記項目リスト内の各項目との共起度を算出し、前記相関度が上位に位置する複数の各項目と前記追加項目候補との共起度を、該相関度にて重み付けして加算した値に基づいて項目判定度を算出し、該項目判定度が第１閾値以上のときに、前記追加項目候補を新項目として項目リストに追加するようにしてもよい。

このように構成されていることにより、「病名」との相関度で重み付けすることによりたまたま共起度が高い単語（追加項目候補）が見つかったとしても、「病名」との相関度が低い追加項目候補との共起度が小さくなり、該新候補項目を新項目として追加しないようにすることができる医療情報抽出プログラムを提供できる。

本発明の医療情報抽出プログラムは、さらに、前記項目リストは、観点が異なる複数の項目リストを含み、前記追加項目抽出手段が、前記項目リスト毎に、項目判定度を算出し、各項目リスト間の項目判定度差が、第２閾値以上のときのみ、項目判定度が大きい項目リストに前記追加項目候補を新項目として追加するようにしてもよい。

このように構成されていることにより、他の項目リスト間で共起度を求め、その差を利用することにより適切な項目リストを判定し、不用意に新項目の追加を行わないようにすることができる医療情報抽出プログラムを提供できる。

本発明の医療情報抽出プログラムは、さらに、前記コンピュータに、さらに、処理対象病名と、該処理対象病名と関連する関連項目と、前記相関度とを関連付けしてデータベースを構築するデータベース構築手段として機能させるようにしてもよい。

このように構成されていることにより、構築されるデータベースを基本として、階層的な概念構造をもつ概念（病名と症状や病名と薬品など）に対して、上位概念から下位概念の情報抽出のみならず、下位概念から上位概念の情報抽出といった病名−症状・原因・薬品名等の関連項目の双方向の情報抽出が可能となる医療情報抽出プログラムを提供できる。

以下、本発明を具体化した医療情報抽出装置、方法及び医療情報抽出プログラムの一実施形態を図１〜６を参照して説明する。
図１に示すように、医療情報抽出装置１はパーソナルコンピュータからなる。医療情報抽出装置１は互いにバスで接続されたＣＰＵ１０、ＲＯＭ１１、ＲＡＭ１２、及び文書取得部１３を備えるとともにシソーラスのデータを記憶するシソーラス辞書部２０、コーパスのデータや、テキスト文のデータを記憶するテキストコーパス３０、データベース４０、入力部５０、出力部６０を備える。前記ＲＯＭ１１には、医療情報抽出プログラム等の各種プログラムが格納されている。ＲＡＭ１２は前記各種プログラムを実行する際に使用される作業用記憶領域や、バッファ領域を備えている。

シソーラス辞書部２０、テキストコーパス３０、及びデータベース４０は例えば、ハードデイスクからなるが、限定されるものではない。入力部５はキーボード、マウス、等からなる。又、出力部６は表示装置やプリンタ等からなる。文書取得部１３は、インターネットＩＴに接続されている。

次に、医療情報抽出装置１による医療情報の抽出について説明する。
まず、医療情報を収集するためのキーワードリストである病名リストＬ１と、項目リストについて説明する。図３に示す該病名リスト、及び項目リストＬ２（症状リストＬ２ａ，原因リストＬ２ｂ，薬品名リストＬ２ｃ等）はデータベース４０に格納されている。ここで、項目リストＬ２は初期セットとなる。

病名リストＬ１は、例えば、MEDISのICD10（国際疾病分類第１０版）対応電子カルテ用標準病名マスターVer２.５.０に登録されている約２００００病名のデータに基づいて作成されたものである。なお、病名を検索クエリとして検索エンジンで検索し、検索ヒット数順に並べ替えたものを病名リストとして作成してもよい。

又、「病名」を上位概念としたとき、下位概念である「病名と関連する関連項目」は、「病名」と関連する「症状」、「原因」、「処置」、「薬品名」などがある。これには、「病名」と密接に関連する事項である。「症状」は当該病名の罹患患者が呈する状態を示し、「原因」は、当該病名の罹患原因となるものであり、「処置」は、当該病名の対応治療等を示し、「薬品名」は、当該病名に使用される治療薬等を示す。このように、項目リストとして、観点が異なる複数のリストが設けられている。初期セットである項目リストＬ２とはこれらがそれぞれリストとして作成されたものである。例えば、「症状」に関しては、症状リストＬ２ａといい、「原因」に関しては、原因リストＬ２ｂといい、「薬品名」に間指定は、薬品名リストＬ２ｃという（図３参照）。他の関連項目についても同様のリストが作成される。下位概念である「症状」、「原因」、「処置」、「薬品名」などは、各病名に対してリスト形式で提示されている。図４には、症状リストＬ２ａの例が示されている。

なお、病名リストＬ１と、項目リストＬ２は、医学事典に記載されている主な症状、原因、薬品名を人手により抽出したものをそれぞれリストの項目として作成した上で、データベース４０に格納するようにしてもよい。

次に、医療情報抽出装置１のＣＰＵ１０は、医療情報抽出プログラムを起動すると、図２に示すフローチャートを実行する。
（文書の収集処理）
Ｓ１０では、ＣＰＵ１０は文書収集を行う。文書収集は、前記病名リストＬ１から病名をキーワードとして用いて行われる。ＣＰＵ１０は、病名リストＬ１から病名を順次読込みして、文書取得部１３を介してインターネットＩＴへ送出する。このとき、ＣＰＵ１０はインターネットＩＴ上の自由書式の文書としてのWeb文書を検索するためには、ウェブブラウザの検索エンジンを使用してもよい。

なお、病名を検索クエリとして検索エンジンによって上位のURLリストを取得後、該リスト内のURLにアクセスし、ページを取得するようにしてもよい。URLリストには、Web文書の属するドメインに応じた重み付けを行うことが可能で、後述するドメインよる重み付けを行う際に利用できる。

インターネットＩＴ上で検索されたWeb文書は、文書取得部１３を介してテキストコーパス３０に収集される。ここでの機能によりＣＰＵ１０は文書取得手段に相当する。
（パッセージ抽出処理）
Ｓ２０では、ＣＰＵ１０は、収集したWeb文書を元にパッセージ抽出を行う。Web文書は、１文書内に複数の話題が含まれていることがあり、不要部が存在する可能性がある。そのため、ＣＰＵ１０は分割情報に基づいてパッセージの抽出を行う。ここで、分割情報とは、Web文書がHTML文書の場合は、HTMLタグである。分割タグリストに登録されているタグ（＜／Ｐ＞や＜／ＴＩＴＬＥ＞，＜／ＴＡＢＬＥ＞タグ）とのマッチングを行い、マッチしたところを文書の区切りとしてパッセージを作成する。このように、HTMLタグによって書き手の意図する分割点で小段落単位のパッセージに分割する。

又、Web文書が通常のテキスト文書の場合は、分割情報は、段落が相当する。この分割情報に基づいて、該文書の書き手の意図する分割点で文書を分割し、医療情報がない不要な部分を除去し、医療と関連する情報、すなわち、医療情報があるパッセージを抽出する。医療情報としては、たとえば、病名があるが、病名に限定されるものではない。図５には、パッセージ抽出の例が示されている。

ここでの機能により、ＣＰＵ１０はパッセージ抽出手段に相当する。
（統計情報の抽出）
Ｓ３０では、ＣＰＵ１０は、キーワードリストの階層構造を利用して統計情報の抽出を行う。すなわち、ＣＰＵ１０は、作成したリスト（例えば項目リストＬ２である症状リストＬ２ａ）の初期セットを利用してキーワードのある病名と関連項目（例えば「ある症状」）の間の統計的な情報（以下、統計情報という）を抽出する。この統計情報の抽出が、関係抽出に相当する。ここでの機能により、ＣＰＵ１０は、関係抽出手段に相当する。

ここで、統計情報としては、２つの単語が共起する頻度や、共起する頻度とそれぞれの生起確率を考慮した後述する相互情報量や、TF-IDF値などを用いることが可能である。この時、それぞれの情報量にパッセージ文書が属する前記ドメインに応じた重み付けや検索ヒット数に対応した重みを掛けてもよい。このようにすることによりどのような症状が、どの程度の頻度で、生起するかの情報を得ることができる。

（相関度の算出）
関係抽出において、使用される相関度の算出、すなわち、関連項目の項目リスト内の各項目と前記処理対象病名との相関度の算出方法について説明する。

なお、ここでは原因を表わす項目リストＬ_C、症状を表わす項目リストＬ_S、薬品を表わす項目リストＬ_Mが、下記のように与えられているとする。
Ｌ_C＝{w_c1,w_c2,……w_cNc}、
Ｌ_S＝{w_s1,w_s2,……w_sNs}、
Ｌ_M＝{w_m1,w_m2,……w_mNm}、
Ｎｃ、Ｎｓ、Ｎｍは各リストの項目数である。

ある処理対象病名ｄ_Ｔに対して、各項目リスト内の各項目ｗとの相関度R(d_T,w)を算出し、病名ｄ_Ｔにはどのような原因／症状／薬品がどの程度関連しているかを知識として抽出する。この場合、相関度R(d_T,w)は、統計的尺度により算出する。統計的尺度としては、下記のものを挙げることができ、いずれの統計的尺度を使用してもよい。

１. 対象文書集合における処理対象病名ｄ_Ｔと各項目ｗとの共起回数freq(d_T,w)
共起回数freq(d_T,w)は、同じパッセージの中に各項目ｗがどれだけあったかを示している。

２. 対象文書集合における処理対象病名ｄＴと相互情報量

３. 対象文書集合における各項目ｗのＴＦ-ＩＤＦ値

（追加項目候補の抽出及び項目リストへの追加処理）
次に、Ｓ４０において、ＣＰＵ１０は、抽出されたパッセージを含む対象文書集合に対して形態素解析を行って追加項目候補（すなわち、語句）を取得した後、既存の項目リスト中の各項目と追加項目候補との共起度を求める。共起度の算出には、相関度と同様の統計的尺度を用いることができる。そして、得られた共起度のうちＣＰＵ１０は、上位の複数の項目との共起度をそれぞれ当該項目の相関度で重み付けをした後、加算することにより、項目判定度を算出する。

そして、ＣＰＵ１０は、この算出した項目判定度が第１閾値以上であれば、当該追加項目候補を新項目として、対象の項目リストに追加する。
なお、追加項目候補は、ＣＰＵ１０によって、その語句がどのような観点の語句であつて、その観点にあった項目リストに追加すべきかは、例えば、シソーラス辞書部２０によって判定する。

なお、ＣＰＵ１０は前記取得したWeb文書に対して形態素解析を行って、追加項目候補を取得してもよい。
図６（ａ）〜（ｃ）を参照して、項目判定度の具体例を説明する。

図６（ａ）は、ある「病名」についてのパッセージにおける症状リストが示されており、「頭痛」、「高血圧」、「発熱」などについて病名との相関度が計算済みである。このうち、「頭痛」の相関度が０.８、「貧血」の相関度が０.６、「発熱」の相関度が０.５であり、「高血圧」や、「息切れ」の相関度よりも大きい。この例では、上位とは上から３番目までとしている。

図６（ｂ）は、新たな項目（追加項目候補）である「めまい」と、前記上位の項目となった「頭痛」、「貧血」、「発熱」との共起度が算出されている。
従って、この場合の項目判定度は、「頭痛」の相関度と「めまい-頭痛」の共起度の積、「貧血」の相関度と「めまい-貧血」の共起度の積、及び「発熱」の相関度と「めまい-発熱」の共起度の積の和が算出され、上位の個数で割った値としている。この場合、第１閾値として「０.３」以上であれば、追加項目候補は新項目として追加できるものとしている。

なお、この例では、上位の個数で割った値を項目判定度としているが、上位の個数で割る必要はない。上位の個数で割らない場合は、先の例では、第１閾値として、０.３×（上位の個数）とすればよい。

図６（ｃ）の例は、新たな項目（追加項目候補）である「多忙」と、前記上位の項目となった「頭痛」、「貧血」、「発熱」との共起度が算出されている。
従って、この場合の、項目判定度は、「頭痛」の相関度と「多忙-頭痛」の共起度の積、「貧血」の相関度と「多忙-貧血」の共起度の積、及び「発熱」の相関度と「多忙-発熱」の共起度の積の和が算出され、上位の個数で割った値としている。この場合、項目判定度が第１閾値として「０.３」未満であるため、追加項目候補は新項目として追加されないものとなる。

ここでの、ＣＰＵ１０の処理によりＣＰＵ１０は、追加項目抽出手段に相当する。
（データベース構築）
次に、Ｓ５０において、ＣＰＵ１０は上位概念（たとえば病名）と下位概念（たとえば症状・原因・薬品名）リストのそれぞれの組合せに対して、前記統計情報を関連付けして、データベース４０に新たなデータベースを構築する。

このようにして、ＣＰＵ１０は、データベースを構築が終了すると、この医療情報抽出プログラムの実行を終了する。ここでの処理によりＣＰＵ１０はデータベース構築手段に相当する。

この結果、これにより、症状・原因・薬品名から考えられる病名候補を抽出することも可能である。なお、定期的に最新のテキストを前述のように収集し、データベースを更新することで、最新の医療情報を反映したデータベースの構築が可能となる。

以上詳述した本実施の形態によれば、以下に記載する各効果を得ることができる。
（１）本実施形態の医療情報抽出装置１のＣＰＵ１０は、Web文書から医療と関連するパッセージを抽出し、抽出されたパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出する。そして、ＣＰＵ１０は、抽出されたパッセージを含む対象文書集合を元にして、処理対象病名と関連するとともに前記項目リストにない新項目を抽出し、該新項目を該項目リストに追加する。この結果、本実施形態では、病名を上位概念とし、該病名に関連する関連項目を下位概念として、上位・下位概念間の相関関係と電子化された文書の情報から学習を行い、新規の下位概念の抽出及び下位概念のリストの更新が行える。又、本実施形態では、既存の上位概念と、下位概念との階層関係で未定義であった新規の下位概念の関連項目を抽出できる。

又、前記実施形態によれば、自然言語で記述されたWeb文書のテキストから抽出された情報は、統計的に十分な情報を得ることができない電子カルテシステムの情報を補間する役割をもつ。前記自然言語で記述されたＷｅｂテキスト等のテキストは多種多様な文体で記述されており、自然言語で記述されたテキストに対しても情報の抽出が行える本実施形態では、定型的に表現されたデータベース等のテキストに対しても、精度よく情報の抽出が可能である。

本実施形態において解析する対象をWeb文書とした場合、書き手が医療従事者に限定されないという利点が挙げられる。医療データベースは常に医療従事者（医者や技師）の立場での見解に基づくテキストが多く、実際の患者の体験談や意見などが反映されにくい欠点がある。それに対し、Web上では医療機関だけでなく製薬会社をはじめとする企業、さらには患者自身が疾患についての情報を提供しており、医療機関だけでは得られない情報を十分に収集することができる。

特許文献２の従来技術においては初期段階で固定的に与える照合パターンに関しても、本実施形態では、統計情報という単語特徴量の算出から追加項目候補を選定し、逐次追加する機能を備えていることから、学習による高精度な項目リストの更新が可能である。また、この追加項目候補の抽出・追加によって、最新の項目が記載されたテキストに対しても有効な医療情報抽出装置となる。

又、本実施形態で構築されるデータベースを基本として、階層的な概念構造をもつ概念（病名と症状や病名と薬品など）に対して、上位概念から下位概念の情報抽出のみならず、下位概念から上位概念の情報抽出といった病名−症状・原因・薬品名等の関連項目の双方向の情報抽出が可能である。

従って、本実施形態では、医療情報抽出装置による医療情報の抽出後も、学習を繰り返すことにより精度の向上及びデータベースを利用した抽出情報の２次利用が可能となる。
（２）本実施形態では、医療情報抽出装置１のＣＰＵ１０は、新項目と関連項目の項目リスト中の各項目との共起度を用いた項目判定度に基づいて該新項目を追加するため、新項目と関連項目の項目リスト中の各項目との共起度が高い新項目を項目リストに追加することができる。

（３）本実施形態では、医療情報抽出装置１のＣＰＵ１０は、さらに、抽出されたパッセージを含む対象文書集合を元にして、追加項目候補を抽出するとともに項目リスト内の各項目との共起度を算出する。そして、ＣＰＵ１０は、相関度が上位に位置する複数の各項目と追加項目候補との共起度を、該相関度にて重み付けして加算した値に基づいて項目判定度を算出し、該項目判定度が第１閾値以上のときに、前記追加項目候補を新項目として項目リストに追加する。この結果、本実施形態では、「病名」との相関度で重み付けすることによりたまたま共起度が高い単語（追加項目候補）が見つかったとしても、「病名」との相関度が低い追加項目候補との共起度が小さくなり、該新候補項目を新項目として追加しないようにすることができる。

（４）本実施形態では、医療情報抽出装置１のＣＰＵ１０は、さらに、処理対象病名と、該処理対象病名と関連する関連項目と、前記相関度とを関連付けしてデータベースを構築する。この結果、構築されるデータベースを基本として、階層的な概念構造をもつ概念（病名と症状や病名と薬品など）に対して、上位概念から下位概念の情報抽出のみならず、下位概念から上位概念の情報抽出といった病名−症状・原因・薬品名等の関連項目の双方向の情報抽出が可能となる。

（５）本実施形態の医療情報抽出方法は、文書から医療と関連するパッセージを抽出する段階と、抽出されたパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出する段階を備える。さらに、本実施形態の医療情報抽出方法は、抽出されたパッセージを含む対象文書集合を元にして、前記処理対象病名と関連するとともに前記項目リストにない新項目を抽出し、該新項目を該項目リストに追加する段階とを備える。

この結果本実施形態では、病名を上位概念とし、該病名に関連する関連項目を下位概念として、上位・下位概念間の相関関係と電子化された文書の情報から学習を行い、新規の下位概念の抽出及び下位概念のリストの更新が行える方法を提供できる。又、既存の上位概念と、下位概念との階層関係で未定義であった新規の下位概念の関連項目を抽出することができる方法を提供できる。

（６）本実施形態の医療情報抽出方法は、さらに、新項目を項目リストに追加する段階では、新項目と関連項目の項目リスト中の各項目との共起度を用いた項目判定度に基づいて該新項目を追加する。この結果、新項目と関連項目の項目リスト中の各項目との共起度が高い新項目を項目リストに追加することができる方法を提供できる。

（７）本実施形態の医療情報抽出方法は、さらに、新項目を該項目リストに追加する段階では、抽出されたパッセージを含む対象文書集合を元にして、追加項目候補を抽出するとともに前記項目リスト内の各項目との共起度を算出する。そして、相関度が上位に位置する複数の各項目と前記追加項目候補との共起度を、該相関度にて重み付けして加算した値に基づいて項目判定度を算出し、該項目判定度が第１閾値以上のときに、前記追加項目候補を新項目として項目リストに追加する。この結果、「病名」との相関度で重み付けすることによりたまたま共起度が高い単語（追加項目候補）が見つかったとしても、「病名」との相関度が低い追加項目候補との共起度が小さくなり、該新候補項目を新項目として追加しないようにすることができる方法を提供できる。

（８）又本実施形態の医療情報抽出方法は、さらに、処理対象病名と、該処理対象病名と関連する関連項目と、前記相関度とを関連付けしてデータベースを構築する。この結果、構築されるデータベースを基本として、階層的な概念構造をもつ概念（病名と症状や病名と薬品など）に対して、上位概念から下位概念の情報抽出のみならず、下位概念から上位概念の情報抽出といった病名−症状・原因・薬品名等の関連項目の双方向の情報抽出が可能となる方法を提供できる。

（９）本実施形態の医療情報抽出プログラムは、ＣＰＵ１０に、処理対象病名と、該処理対象病名と関連する関連項目との関係を自由書式の文書から抽出する際に、前記文書から医療と関連するパッセージを抽出するパッセージ抽出手段として機能させる。又、該プログラムは、ＣＰＵ１０に、抽出されたパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出する関係抽出手段として機能させる。さらに、該プログラムは、ＣＰＵ１０に、抽出されたパッセージを含む対象文書集合を元にして、前記処理対象病名と関連するとともに前記項目リストにない新項目を抽出し、該新項目を該項目リストに追加する追加項目抽出手段として機能させる。

この結果、本実施形態によれば、病名を上位概念とし、該病名に関連する関連項目を下位概念として、上位・下位概念間の相関関係と電子化された文書の情報から学習を行い、新規の下位概念の抽出及び下位概念のリストの更新が行える医療情報抽出プログラムを提供できる。又、既存の上位概念と、下位概念との階層関係で未定義であった新規の下位概念の関連項目を抽出することができる医療情報抽出プログラムを提供できる。

（１０）本実施形態の医療情報抽出プログラムは、さらに、ＣＰＵ１０が、新項目と関連項目の項目リスト中の各項目との共起度を用いた項目判定度に基づいて該新項目を追加するように機能する。この結果、新項目と関連項目の項目リスト中の各項目との共起度が高い新項目を項目リストに追加することができる医療情報抽出プログラムを提供できる。

（１１）本実施形態の医療情報抽出プログラムは、さらに、ＣＰＵ１０が、抽出されたパッセージを含む対象文書集合を元にして、追加項目候補を抽出するとともに項目リスト内の各項目との共起度を算出するように機能させる。さらに、該プログラムは、ＣＰＵ１０に、相関度が上位に位置する複数の各項目と前記追加項目候補との共起度を、該相関度にて重み付けして加算した値に基づいて項目判定度を算出し、該項目判定度が第１閾値以上のときに、前記追加項目候補を新項目として項目リストに追加するように機能させる。

この結果、本実施形態では、「病名」との相関度で重み付けすることによりたまたま共起度が高い単語（追加項目候補）が見つかったとしても、「病名」との相関度が低い追加項目候補との共起度が小さくなり、該新候補項目を新項目として追加しないようにすることができる医療情報抽出プログラムを提供できる。

（１２）本実施形態の医療情報抽出プログラムは、さらに、ＣＰＵ１０に、処理対象病名と、該処理対象病名と関連する関連項目と、前記相関度とを関連付けしてデータベースを構築するデータベース構築手段として機能させる。この結果、本実施形態では、構築されるデータベースを基本として、階層的な概念構造をもつ概念に対して、上位概念から下位概念の情報抽出ができるとともに下位概念から上位概念の情報抽出といった病名−症状・原因・薬品名等の関連項目の双方向の情報抽出が可能となる医療情報抽出プログラムを提供できる。

なお、本発明の実施形態は以下のように変更してもよい。
○ 前記実施形態では、Ｓ４０の処理の代わりに、下記のようにしてもよい。下位概念である複数の項目リストは、図３に示すように異なる観点で構成されている。図６（ａ）の例では、症状リストだけで説明したが、例えば、この他に原因リスト、薬品リストなどの各項目リストがある。従って、各項目リストの各項目毎に相関度を得ることができ、それぞれ上位の複数の項目がある。

この場合、ＣＰＵ１０は、項目リスト毎に追加項目候補と上位の複数の項目についての共起度をそれぞれ算出し、それらの項目判定度Ａ，Ｂ，Ｃを前記実施形態と同様に算出する。

そして、各項目リスト間の項目判定度差Ａ−Ｂ、Ｂ−Ｃ、Ｃ−Ａのいずれかが、第２閾値以上のときのみ、項目判定度が大きい項目リストに対して前記追加項目候補を新項目として追加するようにする。

このようにすると、他の項目リスト間で共起度が求められて、その差を利用することにより追加すべき適切な項目リストが判定され、不用意な新項目の追加をできないようにすることができる。

○ 前記実施形態では、Web文書で行ったが、解析対象としてWeb文書に限らず、電子カルテ・医療データーベースや電子化された辞書などを用いたり、併用したりしてもよい。

医療情報抽出装置１の概略ブロック図。ＣＰＵ１０が実行する医療情報抽出プログラムのフローチャート。各種リストの説明図。症状リストの説明図。検索によって得られた対象文書集合の説明図。（ａ）は相関度が計算された症状リストの説明図、（ｂ）は追加項目候補と既存の項目との共起度の説明図、（ｃ）は追加項目候補と既存の項目との共起度の説明図。

符号の説明

１…医療情報抽出装置、１０…ＣＰＵ（パッセージ抽出手段、関係抽出手段、追加項目抽出手段、データベース構築手段）。

Claims

処理対象病名と、該処理対象病名と関連する関連項目との関係を自由書式の文書から抽出する医療情報抽出装置において、
前記文書から医療と関連するパッセージを抽出するパッセージ抽出手段と、
抽出されたパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出する関係抽出手段と、
抽出されたパッセージを含む対象文書集合を元にして、前記処理対象病名と関連するとともに前記項目リストにない新項目を抽出し、該新項目を該項目リストに追加する追加項目抽出手段と
を備えたことを特徴とする医療情報抽出装置。
前記追加項目抽出手段が、前記新項目と前記関連項目の項目リスト中の各項目との共起度を用いた項目判定度に基づいて該新項目を追加することを特徴とする請求項１に記載の医療情報抽出装置。
前記追加項目抽出手段は、
抽出されたパッセージを含む対象文書集合を元にして、追加項目候補を抽出するとともに前記項目リスト内の各項目との共起度を算出し、
前記相関度が上位に位置する複数の各項目と前記追加項目候補との共起度を、該相関度にて重み付けして加算した値に基づいて項目判定度を算出し、該項目判定度が第１閾値以上のときに、前記追加項目候補を新項目として項目リストに追加することを特徴とする請求項２に記載の医療情報抽出装置。
前記項目リストは、観点が異なる複数の項目リストを含み、
前記追加項目抽出手段が、
前記項目リスト毎に、項目判定度を算出し、
各項目リスト間の項目判定度差が、第２閾値以上のときのみ、項目判定度が大きい項目リストに前記追加項目候補を新項目として追加することを特徴とする請求項３に記載の医療情報抽出装置。
コンピュータに、
処理対象病名と、該処理対象病名と関連する関連項目との関係を自由書式の文書から抽出する際に、前記文書から医療と関連するパッセージを抽出するパッセージ抽出手段、
抽出されたパッセージを含む対象文書集合を元にして、前記関連項目の項目リスト内の各項目と処理対象病名との相関度を算出する関係抽出手段、
抽出されたパッセージを含む対象文書集合を元にして、前記処理対象病名と関連するとともに前記項目リストにない新項目を抽出し、該新項目を該項目リストに追加する追加項目抽出手段として、機能させるための医療情報抽出プログラム。
前記追加項目抽出手段が、前記新項目と前記関連項目の項目リスト中の各項目との共起度を用いた項目判定度に基づいて該新項目を追加することを特徴とする請求項５に記載の医療情報抽出プログラム。
前記追加項目抽出手段は、
抽出されたパッセージを含む対象文書集合を元にして、追加項目候補を抽出するとともに前記項目リスト内の各項目との共起度を算出し、
前記相関度が上位に位置する複数の各項目と前記追加項目候補との共起度を、該相関度にて重み付けして加算した値に基づいて項目判定度を算出し、該項目判定度が第１閾値以上のときに、前記追加項目候補を新項目として項目リストに追加することを特徴とする請求項６に記載の医療情報抽出プログラム。
前記項目リストは、観点が異なる複数の項目リストを含み、
前記追加項目抽出手段が、
前記項目リスト毎に、項目判定度を算出し、
各項目リスト間の項目判定度差が、第２閾値以上のときのみ、項目判定度が大きい項目リストに前記追加項目候補を新項目として追加することを特徴とする請求項７に記載の医療情報抽出プログラム。