JP6220767B2

JP6220767B2 - 用語抽出装置、方法、及びプログラム

Info

Publication number: JP6220767B2
Application number: JP2014248131A
Authority: JP
Inventors: 鈴木　潤; 潤鈴木; 昭典藤野; 平尾　努; 努平尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2017-10-25
Anticipated expiration: 2034-12-08
Also published as: JP2016110441A

Description

本発明は、用語抽出装置、方法、及びプログラムに係り、特に、特定の専門分野に関する文書から専門用語を抽出するための用語抽出装置、方法、及びプログラムに関する。

電子カルテといった自然言語で書かれた医療分野に関する文書から機械的に病名や病状を表す文字列を抽出することができれば、より多くの人の症状を統計データとして活用することが容易になり、どのような状況、生活習慣、既往症などがあると、ある特定の病気になりやすい、といった分析を行うことが可能となる。こういった分析は、予防医療や、病名を推測し適切な処置をする上で非常に有益な情報となり得る。よって、こういった病名や病状といった専門用語を、文書から機械的に抽出できるシステムの開発は社会的な価値があると言える。以下、病名及び病状を総称して「病状」と表記する。

ここで課題となるのが、いかにして自然言語で記述された文書から専門用語を機械的に精度よく抽出するか、である。医療分野であれば、最も単純には、図５に示すように、カルテ等の医療分野に関する文書から病状を抽出するために、病状をリストアップした「病状に関する用語辞書」を事前に作成しておき、その辞書に登録されている病状がカルテ中に出現する部分を漏れ無く抽出する方法が挙げられる。このように、事前に辞書を準備し、その辞書中の文字列が医療分野に関する文書に出現した箇所を病状として抽出する方法を総称して、「病状に関する用語辞書に基づく病状抽出法」と呼ぶ。

また、病状が人手により付与された医療分野に関する文書が一定量存在するなら、機械学習手法を使って、病状の分類器を作成することが可能である。この場合は、例えば、図６に示すように、周囲の文脈等を特徴として利用しつつ、各文字が病状を表す文字列の一部に「なる」か「ならない」かの二クラスに分類する問題を文章全体に対して行うことにより病状となる文字列を抽出することが可能である。このような分類器を用いて病状を抽出する方法を総称して、「分類器に基づく病状抽出法」と呼ぶ。また、分類器を用いた方法は、固有表現抽出や専門用語抽出などと同じ解き方であり、その分野では古くから用いられている方法である（非特許文献１参照）。このように、データマイニング、或いは、機械学習の基本的な方法論を用いて病状抽出システムを構築することができる。

齋藤邦子，鈴木潤，今村賢治，「CRFを用いたブログからの固有表現抽出」，言語処理学会年次大会, 2007

しかし、医療の分野において、実際のカルテでは、実質は同じ症状を表す病名だったとしても、ひらがな、カタカナ、漢字などの異なる文字を用いた表記、略語や省略など、或いは、同義語、類義語のような表記揺れが非常に多い。また、病状の表現はバリエーションが多く、カルテを記述する人によって多種多様にわたる。さらに、病名や病状は時間とともに増加する可能性があるものである。このように、病状抽出システムを実際に使う場面では、こういった状況に対応する必要がある。

病状抽出システムでの抽出誤りは、大きく２種類に大別できる。一つは本来抽出すべき病状の抽出に失敗する場合であり、もう一方は、本来病状ではないのに病状だと誤って抽出してしまう場合である。例えば、前述した、病状に関する用語辞書に基づく病状抽出法の場合、本来抽出すべき病状の抽出に失敗する典型的な例として、カルテを書く人による略記や微妙な表記揺れなどによりマッチングに失敗することが容易に考えられる。また、本来病状ではないのに病状として誤って抽出してしまう例として、病状にあたる「リウマチ」に対する「リウマチ科」や、病状「高血圧」に対する「高血圧撲滅運動」のように、必ずしも字面が一致しても、それが症状を表しているとは限らない、といった例があげられる。このように、単純な辞書中の病状の文字列とのマッチングでは、カルテ等の医療分野に関する文書からの病状抽出を行うのは不十分であると言える。

一方、分類器に基づく病状抽出法の場合は、各文字が病状として判別できるかを周囲の情報を基に決定していく方法であるため、周囲の情報を活用している分だけ辞書マッチングに基づく方法より多様な表現に対応した結果が得られる場合が多い。ただし、どのような文字列が病状と判別されるかといった情報を獲得するには、分類器の学習データとなる、正解がついた医療分野に関する文書をある程度の量は準備する必要がある。正解データの作成は基本的に人手により行われるため、時間的、及び金銭的なコストが非常に高くなる。また、前述のように、時間変化による病名の新たな登録等に対しては、正解データの作成のみならず分類器の再学習といったコストの高い処理も必要とするため、こういった要因が分類器による方法の最も大きな課題となる。

このように、これらの従来法には一長一短がある。病状に関する用語辞書に基づく病状抽出法は、病名が新たに追加されるような場面でも、辞書登録のみで対応可能なため非常に低コストで更新できる。一方、抽出精度は、分類器に基づく病状抽出法と比べて相対的に低いという課題がある。分類器に基づく病状抽出法は、辞書に基づく病状抽出法より抽出精度を相対的に高くなるが、それは正解データの作成コストに依存した抽出精度であり、仮に正解データが限定的な量しかなければ、方法論としては良い分類器に基づく病状抽出法でも、辞書に基づく病状抽出法より抽出精度が低くなることもあり得る。また、新しい病名などが追加された際には、再学習のコストを支払わなくてはいけないという課題がある。

本発明は、上記問題点を解決するために成されたものであり、専門用語を精度よく抽出することができる用語抽出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る用語抽出装置は、入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置であって、複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する辞書用語抽出部と、あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する分類器用語抽出部と、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出する調整部と、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返す反復判定部と、を含み、前記辞書用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、前記分類器用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するように構成されている。

また、第１の発明に係る用語抽出装置において、前記専門用語を、医療分野における病状に関する用語としてもよい。

また、第１の発明に係る用語抽出装置において、前記反復判定部は、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すことにより、以下の式で表わされる最適化問題を解き、解＾ｚ’を、前記専門用語の抽出結果として出力するようにしてもよい。

ただし、＾ｙは、前記文書に含まれる部分文字列の各々が、前記辞書用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、ｆ（＾ｙ）は、前記専門用語の候補文字列の前記辞書スコアの総和であり、＾ｚは、前記文書に含まれる部分文字列の各々が、前記分類器用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、ｇ（＾ｚ）は、前記専門用語の候補文字列の前記分類器スコアの総和であり、Ｙは、前記辞書用語抽出部によって生成される可能性のある前記専門用語の候補文字列＾ｙの集合であり、Ｚは、前記分類器用語抽出部によって生成される可能性のある前記専門用語の候補文字列＾ｚの集合である。

第１の発明に係る用語抽出方法は、辞書用語抽出部、分類器用語抽出部、調整部、及び反復判定部を含み、入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置における、用語抽出方法であって前記辞書用語抽出部が、複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するステップと、前記分類器用語抽出部が、あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するステップと、前記調整部が、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出するステップと、前記反復判定部が、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すステップと、を含んで実行し、前記辞書用語抽出部において前記専門用語の候補文字列の各々を抽出するステップは、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、前記分類器用語抽出部において前記専門用語の候補文字列の各々を抽出するステップは、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出することを特徴とする。

また、第１の発明に係る用語抽出方法において、前記専門用語を、医療分野における病状に関する用語としてもよい。

また、第１の発明に係る用語抽出方法において、前記反復判定部において前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び調整部による算出を繰り返すステップは、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すことにより、以下の式で表わされる最適化問題を解き、解＾ｚ’を、前記専門用語の抽出結果として出力するようにしてもよい。

第１の発明に係るプログラムは、コンピュータを、上記第１の発明として記載した用語抽出装置を構成する各部として機能させるためのプログラムである。

本発明の用語抽出装置、方法、及びプログラムによれば、用語辞書に基づいて、専門用語の候補文字列が、他の候補文字列と重ならず、かつ、ペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、専門用語の候補文字列の各々を抽出し、分類器に基づいて、専門用語の候補文字列が、他の候補文字列と重ならず、かつ、ペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、専門用語の候補文字列の各々を抽出し、抽出された専門用語の候補文字列を比較して、一致していない候補文字列の各々に対してペナルティスコアを算出することを、専門用語の候補文字列が一致するまで繰り返すことにより、専門用語を精度よく抽出することができる、という効果が得られる。

病状に関する用語辞書に基づく病状抽出法と、分類器に基づく病状抽出法とを組み合わせた例を示す抽象図である。本実施の形態に係る用語抽出装置の機能的構成を示すブロック図である。本実施の形態に係る用語抽出装置における用語抽出処理ルーチンを示すフローチャートである。本実施の形態に係る手法の効果の一例を示すグラフ図である。病状に関する用語辞書に基づく病状抽出法の例を示す抽象図である。分類器に基づく病状抽出法の例を示す抽象図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、医療分野の文書から、病状に関する専門用語を抽出する用語抽出装置を例に説明するが、特定の専門分野に関する文書であれば、どのような専門分野に関する文書であっても、専門用語を抽出することができることは言うまでもない。また、専門用語とは、特定の専門分野において唯一の意味が定義された用語である。

＜本発明の実施の形態に係る原理＞

まず、本発明の実施の形態における原理を説明する。

最初に、病状に関する用語辞書に基づく病状抽出法によって、病状に関する専門用語を抽出する方法について述べる。本実施の形態では、病状に関する用語辞書と、人手により病状の正解がついた医療分野に関する文書が存在するとする。

本実施の形態に係る、病状に関する用語辞書に基づく病状抽出法では、前処理として、辞書中に登録されている各病状の部分文字列に対してそれぞれスコアを与える。スコアは、医療分野に関する文書中に出現した際に病状として使われる可能性の高い部分文字列である程、スコアがより高くなるように設定すればよい。特に基準となる統計量がなければ、文字列長をスコアとして用いればよい。つまり、長い部分文字列ほど、より病状として使われる確率が高いという簡単な事前知識を使うことに相当する。一例として、病状を表す文字列ｄに対して以下（１）式でスコアを計算する。

ｓ（ｄ）＝ｍｉｎ（Ｍ，｜ｄ｜^２／δ）・・・（１）

例えば、スコアの最大値Ｍ＝１０、スケールδ＝１０等を使う。この設定であれば、長さ１でスコア０．１、長さ１０以上ならスコア１０という事になる。辞書中の各病状の文字列に対して与えられたスコアを、以下（２）式で表される、医療分野に関する文書中のｉ番目からｊ番目までの部分文字列が病状として抽出すべきかを判定するための辞書スコアs_ｉ,ｊとして利用する。

つまり、文書中のｉ番目からｊ番目までの部分文字列が辞書中に存在すれば、前述の事前に設定した辞書中の病状の部分文字列に対するスコアを代入し、辞書中に存在しない場合は辞書スコアを０とする。

ここで、ｙ_ｉ,ｊを、文書中のｉ番目からｊ番目の部分文字列が病状に関する用語辞書に基づく病状抽出法により病状として抽出される候補文字列であるかを表す変数とする。また、この変数は、０または１のみを取る二値変数とする。もしｙ_ｉ,ｊ＝１なら文書中のｉ番目からｊ番目の部分文字列が病状として抽出される候補文字列であり、ｙ_ｉ,ｊ＝０なら抽出されないことを意味すると定義する。

次に、分類器に基づく病状抽出法について述べる。正解がついた医療分野に関する文書を用いて、文書中で各文字が病状として使われているか使われていないかを判定する分類器を、機械学習法を用いて構築する。この際に、各文字の周囲の文脈を分類器の特徴として用いる。

病状に関する用語辞書に基づく病状抽出法とは違い、全ての部分文字列に対してスコアを計算するのは計算が無駄になる場合が多いので、計算量を抑えるために、ＩＯＢタグ法またはその亜種を用いて病状の部分文字列を抽出する問題を、各文字に対してＩＯＢタグを付与する問題へ変換する。ただし、この変換は可逆変換なので、ＩＯＢタグ列から病状として選択された範囲を容易に獲得できる。例えば、ＢＩＥＳＯの５種類のタグを用いて問題を変換する。Ｂタグは、病状の部分文字列の開始を意味し、Ｅタグは、病状の部分文字列の終了を意味する。また、Ｓタグは開始および終了を意味するので、一文字で病状を表す場合に用いられる。最後にＯタグは病状ではない範囲の部分文字列全てに付与され、ＩタグはＢとＥの中間に必ず付与される。例えば、文書中のｉ番目からｊ番目までが病状として抽出されたと仮定すると、それはｉ番目の文字にはＢタグが選択され、ｊ番目の文字にはＥタグが選択され、ｉ＋１からｊ−１番目の各文字にはＩタグが付与されている場合である。

この場合、分類器のスコアは各文字の各ＩＯＢタグ毎に与えられる設定となるので、医療分野に関する文書中のｉ番目からｊ番目までの部分文字列が病状として抽出すべきかを判定する分類器スコアｔ_ｉ,ｊは、ｉ番目からｊ番目までの部分文字列が丁度病状として抽出される際のスコアの総和と、ｉからｊまで全て抽出されないスコアの総和との差分を用いる。前述のＢＩＥＳＯのタグを用いる場合は、以下（３）式のようになる。

ただし、~θ_ｉ,Ｌ＝θ_ｉ,Ｌ−θ_ｉ,Ｏとし、θ_ｉ,Ｌをｉ番目の文字にＩＯＢタグ中のタグＬ（Ｂタグ、Ｉタグ、又はＥタグ）に与えられたスコアとする。これは、全てのｉについて必ず~θ_ｉ,Ｏ＝０となることから各文字が病状の部分文字列（の一部）として抽出されないスコアを０に正規化する意図がある。よって、ｔ_ｉ,ｊ＜０なら、ｉ番目からｊ番目の部分文字列は病状として抽出されることはないことを意味する。

このスコアを決定するために用いる学習法は、部分文字列に対してラベル系列を返す問題なので、条件付確率場のような出力系列全体の整合性を加味して最適化する学習法を用いることが望ましいが、各文字に対して一般的な多クラス分類器を学習する方法でも構わない。学習法の満たすべき条件は、判定に対して前述のスコアに相当するものを出力することができる方法であることである。

ここで、ｚ_ｉ,ｊを、文書中のｉ番目からｊ番目の部分文字列が分類器により病状として抽出される候補文字列であるかどうかを表す変数とする。また、この変数は、０または１のみを取る二値変数とする。もしｚ_ｉ,ｊ＝１なら文書中のｉ番目からｊ番目の部分文字列が病状として抽出される候補文字列であり、ｚ_ｉ,ｊ＝０なら抽出されないことを意味すると定義する。

以上の手法により作成した分類器及びスコア付きの病状に関する用語辞書を用いて病状抽出問題を以下（４）式の最適化問題として定式化する。

ただし、＾ｙは、医療分野に関する文書に含まれる部分文字列の各々が、病状に関する用語辞書によって病状に関する用語の候補文字列として抽出されたか否かを表すベクトルであり、ｆ（＾ｙ）は、病状に関する用語の候補文字列の辞書スコアの総和である。また、Ｒ＝｛（ｉ,ｊ）｜１≦ｉ≦ｊ≦Ｎ｝とする。つまり、Ｒは医療分野に関する文書中の全ての文字列の範囲を表す組み合わせの集合である。このとき、^ｙ＝(ｙ_ｉ,ｊ)_{(ｉ,ｊ)∈R}、^z = (ｚ_ｉ,ｊ)_{(ｉ,ｊ)∈R}、及び^λ＝(λ_ｉ,ｊ)_{(ｉ,ｊ)∈R}とする。よって、各ベクトルの要素は文字列長Ｎの文章に対しては、_ＮＣ_２個の変数が存在することになる。なお、ベクトルを表す記号には、記号の前に「＾」を付して表現する。

また、＾ｚは、文書に含まれる部分文字列の各々が、分類器によって病状に関する用語の候補文字列として抽出されたか否かを表すベクトルであり、ｇ（＾ｚ）は、病状に関する用語の候補文字列の分類器スコアの総和である。

また、Ｙは、病状に関する用語辞書に基づく病状抽出法によって生成される可能性のある病状に関する用語の候補文字列＾ｙの集合であり、Ｚは、分類器に基づく病状抽出法によって生成される可能性のある病状に関する用語の候補文字列＾ｚの集合である。すなわち、Ｙは、病状に関する用語の候補文字列が、他の候補文字列と重ならない＾ｙの集合であり、Ｚは、病状に関する用語の候補文字列が、他の候補文字列と重ならない＾ｚの集合である。なお、重ならないというのは、例えば、ｙ_１,３＝１とｙ_２,５＝１は同時に満たすことができないため、こういった重なりがあるような抽出は解の集合Ｙに含まれていないことを意味する。Ｚについても同様である。各ＹとＺを満たす解は動的計画法で容易に求めることができるので、解の整合性を考慮するのに大きな問題は発生しない。

上記（４）式は、用語辞書４０に基づく任意のスコア関数ｆと分類器に基づくスコア関数ｇにより定義されるスコアが最大になる最適化変数＾ｙと＾ｚを求めることを意味する。ただし、図１に示すように、用語辞書４０に基づく抽出結果^ｙと分類器に基づく抽出結果^ｚは一致するという条件を満たした中で、という制約がついている。

上記（４）式の効率的な解法としては、整数計画問題を効率的に解くために、まずラグランジュ緩和法を用いて以下（５）式の制約なし最適化問題の目的関数を得る。

次に、非特許文献２（Andre F. T. Martins, Mario A. T. Figueiredo, Pedro M. Q. Aguiar, Noah A. Smith, Eric P. Xing “An Augmented Lagrangian Approach to Constrained MAP Inference” Proc. of ICML, 2011.）、及び非特許文献３（Stephen Boyd, Neal Parikh, Eric Chu, Borja Peleato, and Jonathan Eckstein. “Distributed optimization and statistical learning via the alternating direction method of multipliers.”Foundations and Trends in Machine Learning, 2011.）に記載されている手法により、以下（６）式のようにaugmented Lagrangianの項を追加して問題を２次式の形に変形することで問題をより解きやすい形とする。

この目的関数は、最適値で

となるので、項を追加する前の状態と最適値は不変である。最終的に上記（６）式の目的関数の最適値を得る変数の集合を見つける問題を解くことで、病状に関する用語の抽出を行うことができる。

以上、病状に関する用語辞書に基づく病状抽出法と、分類器に基づく病状抽出法とを組み合わせることで、病状に関する用語を精度よく抽出することができる。

＜本発明の実施の形態に係る用語抽出装置の構成＞

次に、本発明の実施の形態に係る用語抽出装置の構成について説明する。

図２に示すように、本発明の実施の形態に係る用語抽出装置１００は、ＣＰＵと、ＲＡＭと、後述する用語抽出処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この用語抽出装置１００は、機能的には図２に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、医療分野に関する文書を受け付ける。

演算部２０は、辞書用語抽出部３０と、分類器用語抽出部３２と、調整部３４と、反復判定部３６と、用語辞書４０と、分類器４２とを含んで構成されている。

用語辞書４０には、複数の病状に関する用語が格納されている。

分類器４２は、上述した病状の正解がついた文書に基づいてあらかじめ学習された、病状に関する用語か否かを識別するための分類器である。

辞書用語抽出部３０は、用語辞書４０に基づいて、入力部１０で受け付けた医療分野に関する文書に含まれる部分文字列であって、病状に関する用語辞書４０に格納された病状に関する用語と一致する部分文字列の各々について、当該部分文字列が病状に関する用語として抽出される度合いを表す辞書スコアを算出し、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の辞書スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。

また、辞書用語抽出部３０は、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の辞書スコアを、後述する調整部３４により候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。

本実施の形態では、辞書用語抽出部３０は、医療分野に関する文書中の全ての部分文字列ｘ_ｉ,ｊ（ただし、１≦ｉ≦ｊ≦Ｎ）に対して、病状に関する用語辞書４０中の病状の部分文字列とマッチングを行い、完全一致し、かつ、補正後辞書スコア(~ｓ_ｉ,ｊ)が正の値の場合は、その文字列を病状の候補文字列として捉える。ただし、同じ文字位置に複数の候補文字列がある場合には、同じ文字位置で高々一つの病状となる条件下で文書全体の補正後辞書スコアの総和が最も高くなる候補文字列集合を動的計画法により一つ選択する。

辞書用語抽出部３０は、具体的には、以下の処理を行う。

辞書用語抽出部３０では、まず、ｆ（^ｙ）は以下（８）式であると仮定する。なお、^ｙの初期値は０である。

ｆ（^ｙ）＝^ｓ・^ｙ・・・（８）

ただし変数同様にスコアも^ｓ＝(ｓ_ｉ,ｊ)_{( ｉ,ｊ)∈R}である。

次に、辞書用語抽出部３０における病状に関する用語辞書に基づく病状抽出法では、目的関数の上記（６）式から、式変換をかけた以下（９）式を用いて、病状に関する用語辞書に基づく病状抽出法のマッチングによる抽出結果を示す^ｙに関する項のみを抽出する。

ただし、

である。このときｋ番目の反復計算の時点で、^λと^ｚを固定したとき^ｙの最適解は、目的関数Ｌ^ｙ(^ｙ｜^ｚ^(ｋ−１),^λ^(ｋ−１))を最大にする^ｙを見つける、下記（１０）式で表される問題である。なお、ｋは、後述する反復判定部３６での繰り返しを管理する変数である。

つまり、ｙ_ｉ,ｊは、他の制約がない前提では、ｚ_ｉ,ｊ+ (s_ｉ,ｊ＋λ_ｉ,ｊ)／ρ が０．５より小さければ０を選択し、０．５より大きければ１を選択する場合に、Ｌ^ｙ(^ｙ｜^ｚ,^λ)が最大になる。ただし、実際には、同じ文字位置に存在する複数の病状に関する用語を選択しないように抽出するので、動的計画法を用いて他の候補文字列と重なり合わない条件下で値が最大になるように抽出する。

分類器用語抽出部３２は、分類器４２に基づいて、入力部１０で受け付けた医療分野に関する文書に含まれる部分文字列の各々について、当該部分文字列が病状に関する用語として抽出される度合いを表す分類器スコアを算出し、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の分類器スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。

また、分類器用語抽出部３２は、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の分類器スコアを、後述する調整部３４により候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。

本実施の形態では、分類器用語抽出部３２は、医療分野に関する文書中の全ての部分文字列ｘ_ｉ,ｊに対して、学習済みの分類器４２を用いてスコア付けを行い、補正後分類器スコア(~ｔ_ｉ,ｊ)が正の値をとる部分文字列を対象として文書全体で最も補正後分類器スコアの総和が高くなる候補文字列集合を動的計画法により一つ選択する。

分類器用語抽出部３２は、具体的には、以下の処理を行う。

分類器用語抽出部３２では、まず、ｇ（^ｚ）は以下（１１）式であると仮定する。なお、^ｚの初期値は０である。

ｇ（^ｙ）＝^ｔ・^ｚ・・・（１１）

ただし変数同様にスコアも^ｔ＝(t_ｉ,ｊ)_{( ｉ,ｊ)∈R}である。

次に、分類器用語抽出部３２における分類器に基づく病状抽出法では、辞書用語抽出部３０の病状に関する用語辞書に基づく抽出法と同様に、（６）式から、式変換をかけた以下（１２）式を用いて、分類器に基づく病状抽出結果となる^ｚに関する項のみを抽出する。

ただし、

である。ｋ番目の反復計算の時点で、^λと^ｙを固定したとき^ｚの最適解は、目的関数Ｌ^ｚ(^ｚ｜^ｙ^(ｋ−１),^λ^{(ｋ−１)ｋ})を最大にする^ｚを見つける、下記（１３）式で表される問題である。

分類器用語抽出部３２において、分類器４２を用いる場合は、ｚ_ｉ,ｊからＩＯＢタグ形式に変換する必要があるが、その場合であっても、病状に関する用語辞書に基づく病状抽出法のマッチングと同様に動的計画法によって効率的に解ける。

調整部３４は、辞書用語抽出部３０により抽出された病状に関する用語の候補文字列と、分類器用語抽出部３２により抽出された病状に関する用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出する。

調整部３４は、具体的には、補正後のスコア~ｓと~tを更新するために、文書に含まれる各部分文字列に対するペナルティスコアを表す^λを更新する。^ｚと^ｕを固定したとき個々の^λの最適値の方向は、以下（１４）式で表される目的関数Ｌ (^ｙ,^ｚ,^λ)の^λに関する偏微分方向である。

この関係からｋ番目の反復計算における^λの更新式は以下（１５）式のようになる。

調整部３４では、^λの各要素λ_ｉ,ｊの初期値を必ず０にする。つまり、全ての(ｉ,ｊ)∈Ｒに対して

とする。

このようにすることによって反復計算中ｙ_ｉ,ｊ＝０及びｚ_ｉ,ｊ＝０のまま不変の(ｉ,ｊ) に関して、全ての反復計算ｋに対して、

で固定される。ただしこれは、前述したように、病状に関する用語辞書に基づく病状抽出法であっても、分類器に基づく病状抽出法であっても、病状として抽出されない任意の部分文字列のスコアが必ず０になるように調整してあることが条件となっている。この意味するところは、反復計算中のそれぞれの辞書マッチングまたは分類器の病状抽出で候補文字列として選択されないｉ番目からｊ番目の部分文字列に関しては、全く考慮する必要がないことを意味する。つまり前述の通りλ_ｉ,ｊ、ｙ_ｉ,ｊ、ｚ_ｉ,ｊは，それぞれ最大_ＮＣ_２個の変数を必要とするが、実際の計算では、反復計算中に

となった際に、その出現をトリガーとして、

が出現した場合に、ｚ_ｉ,ｊ及びλ_ｉ,ｊを生成し、

が出現した場合に、ｙ_ｉ,ｊ及びλ_ｉ,ｊを生成すればよい。よって、実際の計算では非常に少数の変数のみで計算が可能である。

反復判定部３６は、辞書用語抽出部３０により抽出された病状に関する用語の候補文字列と、分類器用語抽出部３２により抽出された病状に関する用語の候補文字列とが一致しているか否かを判定し、一致していると判定されるまで、辞書用語抽出部３０による抽出、分類器用語抽出部３２による抽出、及び調整部３４による算出を繰り返すことにより、上記の（４）式で表わされる最適化問題を解き、解＾ｚ’を、病状に関する用語の抽出結果として出力部５０により出力する。

＜本発明の実施の形態に係る用語抽出装置の作用＞

次に、本発明の実施の形態に係る用語抽出装置１００の作用について説明する。入力部１０において医療分野に関する文書を受け付けると、用語抽出装置１００は、図３に示す用語抽出処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０において受け付けた医療分野に関する文書を取得する。

次に、ステップＳ１０２では、繰り返しを管理する変数ｋを０、ペナルティスコア^λを０、文書中のｉ番目からｊ番目の部分文字列が病状に関する用語辞書に基づく病状抽出法により病状として抽出される候補文字列であるかを表す変数^ｙを０、及び文書中のｉ番目からｊ番目の部分文字列が分類器により病状として抽出される候補文字列であるかどうかを表す変数^ｚを０とした初期値を設定する。

次に、ステップＳ１０４では、用語辞書４０に基づいて、ステップＳ１００で取得した医療分野に関する文書に含まれる部分文字列であって、病状に関する用語辞書４０に格納された病状に関する用語と一致する部分文字列の各々について、当該部分文字列が病状に関する用語として抽出される度合いを表す辞書スコアを算出し、上記（１０）式に従って、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の辞書スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。

ステップＳ１０６では、分類器４２に基づいて、ステップＳ１００で取得した医療分野に関する文書に含まれる部分文字列の各々について、当該部分文字列が病状に関する用語として抽出される度合いを表す分類器スコアを算出し、上記（１３）式に従って、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の分類器スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。

ステップＳ１０８では、ステップＳ１０４又はステップＳ１１２で抽出された病状に関する用語の候補文字列と、ステップＳ１０６又はステップＳ１１４で抽出された病状に関する用語の候補文字列とが一致しているかを判定し、一致していない場合には、ステップＳ１０９で、ｋ＝ｋ＋１としてステップＳ１１０へ移行する。一方、上記のステップＳ１０８によって、一致すると判定された場合には、ステップＳ１１６へ移行する。

ステップＳ１１０では、上記ステップＳ１０４又は前回のステップＳ１１２による抽出結果と、上記ステップＳ１０６又は前回のステップＳ１１４による抽出結果とに基づいて、上記（１５）式に従って、ペナルティスコア^λを算出する。

ステップＳ１１２では、上記（１０）式に従って、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の辞書スコアを、ステップＳ１０８により算出されたペナルティスコア^λに基づいて補正した補正後辞書スコア(~ｓ_ｉ,ｊ)の総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。

ステップＳ１１４では、上記（１４）式に従って、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の分類器スコアを、ステップＳ１０８により算出されたペナルティスコアに基づいて補正した補正後分類器スコア(~ｔ_ｉ,ｊ)の総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。

そして、ステップＳ１１６では、ステップＳ１１４の計算により最終的に得られた変数＾ｚを、病状に関する用語の抽出結果＾ｚ’として出力部５０により出力し、処理を終了する。

以上説明したように、本実施の形態に係る用語抽出装置によれば、用語辞書４０に基づいて、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、ペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出し、分類器４２に基づいて、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、ペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出し、抽出された病状に関する用語の候補文字列を比較して、一致していない候補文字列の各々に対してペナルティスコアを更新することを、病状に関する用語の候補文字列が一致するまで繰り返すことにより、病状に関する用語を精度よく抽出することができる。

また、本実施の形態に係る手法を用いることで、病状に関する用語辞書に基づく病状抽出法と、分類器に基づく病状抽出法の双方の長所を合わせた抽出システムを構築することが可能となる。

また、例えば、新しい病名などが追加された場合は、辞書に登録するだけで対応可能であり、分類器に基づく方法単体の抽出システムのように正解データを作成するなどのコストをかける必要性を大幅に軽減することができる。

また、図４に示すように、病状に関する用語辞書に基づく病状抽出法や分類器に基づく病状抽出法、それぞれ単体の時の抽出精度よりも全体の抽出精度を向上させることが可能である。これは、二つの違う情報を融合することで、単体では捉えきれなかったものを捉えることができる可能性が広がったことに起因する。

また、従来よりも、より高精度かつ柔軟な病状抽出システムを構築することができるようになる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

１０入力部
２０演算部
３０辞書用語抽出部
３２分類器用語抽出部
３４調整部
３６反復判定部
４０用語辞書
４２分類器
５０出力部
１００用語抽出装置

Claims

入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置であって、
複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する辞書用語抽出部と、
あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する分類器用語抽出部と、
前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出する調整部と、
前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返す反復判定部と、を含み、
前記辞書用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、
前記分類器用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する
用語抽出装置。
前記専門用語を、医療分野における病状に関する用語とした請求項１に記載の用語抽出装置。
前記反復判定部は、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すことにより、以下の式で表わされる最適化問題を解き、解＾ｚ’を、前記専門用語の抽出結果として出力する請求項１又は請求項２に記載の用語抽出装置。

ただし、＾ｙは、前記文書に含まれる部分文字列の各々が、前記辞書用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、ｆ（＾ｙ）は、前記専門用語の候補文字列の前記辞書スコアの総和であり、＾ｚは、前記文書に含まれる部分文字列の各々が、前記分類器用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、ｇ（＾ｚ）は、前記専門用語の候補文字列の前記分類器スコアの総和であり、Ｙは、前記辞書用語抽出部によって生成される可能性のある前記専門用語の候補文字列＾ｙの集合であり、Ｚは、前記分類器用語抽出部によって生成される可能性のある前記専門用語の候補文字列＾ｚの集合である。
辞書用語抽出部、分類器用語抽出部、調整部、及び反復判定部を含み、入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置における、用語抽出方法であって、
前記辞書用語抽出部が、複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するステップと、
前記分類器用語抽出部が、あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するステップと、
前記調整部が、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出するステップと、
前記反復判定部が、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すステップと、を含み、
前記辞書用語抽出部において前記専門用語の候補文字列の各々を抽出するステップは、
前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、
前記分類器用語抽出部において前記専門用語の候補文字列の各々を抽出するステップは、
前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する
用語抽出方法。
前記専門用語を、医療分野における病状に関する用語とした請求項４に記載の用語抽出方法。
前記反復判定部において前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び調整部による算出を繰り返すステップは、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すことにより、以下の式で表わされる最適化問題を解き、解＾ｚ’を、前記専門用語の抽出結果として出力する請求項４又は請求項５に記載の用語抽出方法。

ただし、＾ｙは、前記文書に含まれる部分文字列の各々が、前記辞書用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、ｆ（＾ｙ）は、前記専門用語の候補文字列の前記辞書スコアの総和であり、＾ｚは、前記文書に含まれる部分文字列の各々が、前記分類器用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、ｇ（＾ｚ）は、前記専門用語の候補文字列の前記分類器スコアの総和であり、Ｙは、前記辞書用語抽出部によって生成される可能性のある前記専門用語の候補文字列＾ｙの集合であり、Ｚは、前記分類器用語抽出部によって生成される可能性のある前記専門用語の候補文字列＾ｚの集合である。
コンピュータを、請求項１〜３のいずれか１項に記載の用語抽出装置を構成する各部として機能させるためのプログラム。