JP5282438B2 - 情報抽出装置およびプログラムならびに情報抽出ルール生成装置およびプログラム - Google Patents

情報抽出装置およびプログラムならびに情報抽出ルール生成装置およびプログラム Download PDF

Info

Publication number
JP5282438B2
JP5282438B2 JP2008105275A JP2008105275A JP5282438B2 JP 5282438 B2 JP5282438 B2 JP 5282438B2 JP 2008105275 A JP2008105275 A JP 2008105275A JP 2008105275 A JP2008105275 A JP 2008105275A JP 5282438 B2 JP5282438 B2 JP 5282438B2
Authority
JP
Japan
Prior art keywords
rule
vocabulary
individual field
extracting
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008105275A
Other languages
English (en)
Other versions
JP2009258870A (ja
Inventor
大悟 杉原
博 増市
智子 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2008105275A priority Critical patent/JP5282438B2/ja
Publication of JP2009258870A publication Critical patent/JP2009258870A/ja
Application granted granted Critical
Publication of JP5282438B2 publication Critical patent/JP5282438B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、特定分野のドキュメント、例えば医療分野の電子カルテや読影レポートから言語的な知見を抽出する情報抽出技術、および情報抽出ルール生成技術に関する。
医療情報分野では、電子カルテや読影レポートの自動作成支援などをシステム開発に役立てるため、オントロジーなどの言語的な知見をカルテや読影レポートなどから自動的に抽出する手法が盛んに研究されている。ある特定のドメイン(以下では個別分野または特定分野ともいう)における情報の抽出は、そのドメイン特有の工夫が必要となる。医療分野における情報抽出技術は、計算機上で医療ドキュメントが電子的に蓄積されるようになった現在、盛んに研究が行われている。情報抽出の目的は、医療ドキュメント中から上位語下位語のペアを抽出し、オントロジーの構築に役立てようとするもの、医療ドキュメント中から疾患部分と所見部分を抜き出し、疾患から所見へと至る推論知識を得ようとするものなどがある。非特許文献1は医療分野におけるドメインスペシフィックな状況における情報抽出を提案している。また、医療分野以外でも商品に対するユーザからの意見抽出を目的とし、抽出個所に対応した複数ルールを用いて情報の抽出を行うことが提案されている(特許文献1など)。特許文献1の提案では、意見を述べている文について4つのスロットを考慮し、そのうちの抽出個所に対応するキーワードがない場合には、他の抽出キーワードから省略されている抽出対象を推測するようなルールを具備する工夫がなされている。
読影レポートなど実際の医療ドキュメントから、パターンを用いた方法で上位語下位語を抽出する手法や、疾患と所見部分のペアを構文解析結果から取得するなどの情報抽出手法では、複数文に渡る医療ドキュメントの記述に抽出パターンや手法が対応できないと言う問題があった。
読影レポートなどの医療ドキュメントでは、患部の特徴を述べる部分と医師の判断を述べる部分が複数の文に分かれる場合がある。あるいは、1文で述べられていても文構造が複雑な場合がある。以下のような読影レポート中の文章から、医師が何かしらの判断をした病名の名詞とその所見に関する記述の関係を抽出したいような場合には、既存のパターンや構文解析結果を用いた手法では対応できない。
[文章A]
−−−左肺門部にはリンパ節様結節が見られます。以前のCTでは見られない変化です。転移リンパ節の可能性が高いと思われます。−−−
既存のシステムでは、テキスト中の各文に対して、医療語彙についての注釈作業(アノテート)を行った後にパターンまたは構文解析結果を用いて疾患と所見の組を抽出する。非特許文献1による手法では、所見部分を表す医師の主張を表す動詞を検出し、その動詞に係る医療名詞部分の連なりの部分木から、医療知識を検出し、別の方法で取得した疾患名と関連付ける。しかし、これら既存の抽出方法では、文をまたいだような記述から知識を抽出できない。ゆえに、上記文章において述べられているような、「リンパ節様結節は転移リンパ節と思う」といった関係の抽出には対処できない。また、仮に文章Aが以下のような形態に変換したとする。
[文章B]
−−−左肺門部にはリンパ節様結節が見られ、以前のCTでは見られない変化であり、転移リンパ節の可能性が高いと思われます。−−−
しかし、上記の場合では、1文中に複数の動詞が存在し構文構造が複雑となり、パターンによる知識の抽出は困難である。「可能性が高いと思われる」を医師の主張する部分だとした場合、その部分と「リンパ節様結節が見られ」が並置構造となり、論旨の流れを抽出する処理には別のパターンを数多く記述する必要となる。医師によって様々な文章で記述された医療ドキュメントから情報抽出を行うには、何らかの医療ドキュメント特有の工夫が必要であると考えられる。
例えば、複数の文にまたがって存在するような複雑な構造から医療知識を抽出する手法が望まれている。
なお、上述の従来技術やその問題点は、この発明の背景の一部を説明するためにのみ説明している。この発明は上述の従来技術や問題点に限定されるものではない点に留意されたい。
特開2004−157841号公報 今井健,荒巻英治,梶尾正幸,美代賢吾,大江和彦、"構文情報と医学用語属性を用いた画像診断所見オントロジー構築の試み",医療情報学,25(6),2005,pp.395−403
この発明は、個別分野のドキュメント、例えば、読影レポートなどの医療ドキュメントから高精度な情報抽出を行うことを目的とする。
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
すなわち、請求項1の発明によれば、上述の目的を達成するために、情報抽出装置に:個別分野のドキュメントから個別分野で用いられる語彙を特定する個別分野語彙特定手段と;1または複数の第1のルールを上記個別分野のドキュメント中において特定された上記個別分野で用いられる語彙に適用して語彙の間の関係を抽出するルール適用手段と;上記第1のルールごとに上記ルール適用手段で抽出した複数の関係の各々に含まれる所定の1項をなす語彙または当該語彙のカテゴリの集合から、当該第1のルールの抽出を発動条件として適用され語彙の間の新たな関係を抽出する第2のルールを作成するルール作成手段と;上記第1のルールおよび上記第2のルールを併用して上記個別分野のドキュメントから語彙の関係を抽出する情報抽出手段とを設けている。
また、請求項2の発明によれば、請求項1の発明において、上記第1のルールおよび上記第2のルールは2つの語彙の間の関係を抽出するものである。
また、請求項3の発明によれば、請求項2の発明において、上記第1のルールは第1の部分と第2の部分を含み、上記第1の部分を満たす第1の文章要素の直前に上記第2の部分を満たす第2の文章要素が出現するときに上記第1のルールが満たされ、上記第1の文章要素中の上記1項をなす語彙と上記第2の文章要素中の上記1項をなす語彙との間の関係を抽出し、上記第2のルールは、対応する第1のルールの上記第1の部分であって、上記1項をなす語彙または当該語彙のカテゴリの1つを含むものを第1の部分として含み、対応する第1のルールの上記第1の部分であって、上記1項をなす語彙または当該語彙のカテゴリの他の1つを含むものを第2の部分として含み、上記対応する第1のルールが満たされたときに発動され、上記第2の文章要素が当該第2のルールの第1の部分を満たし、当該第1の文章要素の直前に当該第2のルールの第2の部分を満たす第3の文章要素が出現するときに、上記第2の文章要素中の上記1項をなす語彙と上記第3の文章要素中の所定の1項をなす語彙との間の関係を抽出するようになっている。
また、請求項4の発明によれば、請求項1、2または3の発明において、上記個別分野は医療分野であり、上記第1のルールは、病状と判断することを表す語彙とその判断の根拠をなす語彙との間の関係を抽出するルールを含み、上記第2のルールは、上記病状と判断することを表す語彙とその判断の根拠をなす語彙との間の関係を抽出するルールから抽出された複数の関係の上記判断の根拠をなす語彙または当該語彙の語彙カテゴリの組から作成されるようにしている。
また、請求項5の発明によれば、請求項1、2、3または4の発明において、上記第1のルールごとに、上記第2のルールを作成するのに用いる上記語彙または当該語彙のカテゴリは、当該第1のルールが適用されて抽出される頻度が所定の閾値を超えた語彙または当該語彙のカテゴリに限定するようにしている。
また、請求項6の発明によれば、コンピュータを:個別分野のドキュメントから個別分野で用いられる語彙を特定する個別分野語彙特定手段;1または複数の第1のルールを上記個別分野のドキュメント中において特定された上記個別分野で用いられる語彙に適用して語彙の間の関係を抽出するルール適用手段;上記第1のルールごとに上記ルール適用手段で抽出した複数の関係の各々に含まれる所定の1項をなす語彙または当該語彙のカテゴリの集合から、当該第1のルールの抽出を発動条件として適用され語彙の間の新たな関係を抽出する第2のルールを作成するルール作成手段;上記第1のルールおよび上記第2のルールを併用して上記個別分野のドキュメントから語彙の関係を抽出する情報抽出手段として機能させるための情報抽出用プログラムを実現する。
また、請求項7の発明によれば、情報抽出ルール生成装置に:個別分野のドキュメントから個別分野で用いられる語彙を特定する個別分野語彙特定手段と;1または複数の第1のルールを上記個別分野のドキュメント中において特定された上記個別分野で用いられる語彙に適用して語彙の間の関係を抽出するルール適用手段と;上記第1のルールごとに上記ルール適用手段で抽出した複数の関係の各々に含まれる所定の1項をなす語彙または当該語彙のカテゴリの集合から、当該第1のルールの抽出を発動条件として適用され語彙の間の新たな関係を抽出する第2のルールを作成するルール作成手段とを設けるようにしている。
また、請求項8の発明によれば、コンピュータを:個別分野のドキュメントから個別分野で用いられる語彙を特定する個別分野語彙特定手段;1または複数の第1のルールを上記個別分野のドキュメント中において特定された上記個別分野で用いられる語彙に適用して語彙の間の関係を抽出するルール適用手段;上記第1のルールごとに上記ルール適用手段で抽出した複数の関係の各々に含まれる所定の1項をなす語彙または当該語彙のカテゴリの集合から、当該第1のルールの抽出を発動条件として適用され語彙の間の新たな関係を抽出する第2のルールを作成するルール作成手段として機能させるための情報抽出ルール生成用プログラムを実現する。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
請求項1および請求項6の発明によれば、第1のルールを個別分野のドキュメントに提供して抽出した関係から第1のルールの抽出を発動条件として適用され語彙の間の新たな関係を抽出する第2のルールを作成して、当該個別分野のドキュメントからの高精度な情報抽出を可能にする。なお、第2のルールの適用により抽出される語彙間の新たな関係とは、第1のルールと異なるルールである第2のルールを適用して新たに抽出された関係を指すものであり、関係そのものが新規であることを指すものではない。
請求項2および3の発明によれば、2つの語彙の間の関係という単純な関係から情報を抽出できる。第1のルールを発動条件として適用される第2のルールを単一の個別のルールで構成する場合、第1のルールおよび第2のルールの個数をN1およびN2とすると、N1×N2の個数のルールが必要となるけれども、請求項2の発明ではN1+N2の個数のルールで済み、ルールの個数が抑制される。
請求項4の発明によれば、医療分野のドキュメントから症状および判断根拠の間の病状・原因関係が抽出でき、第2のルールによりこれを補充する情報をさらに抽出できる。
請求項5の発明によれば、実際のドキュメントの統計情報を反映して第2のルールを抽出できる。
請求項7および請求項8の発明によれば、第1のルールを個別分野のドキュメントに提供して抽出した関係から第1のルールの抽出を発動条件として適用され語彙の間の新たな関係を抽出する第2のルールを作成できる。
以下、この発明を医療ドキュメントから情報を抽出する情報抽出システムに適用した実施例について説明する。
以下では、医療ドキュメントとして、読影レポートを想定するが、この発明はこれに限定されない。読影レポート中のテキストは、基本的に患部のMRIやCTなど撮影上の特徴を記述し所見を述べる文とそれに対する医師の判断を記述する文に分かれている。それぞれの文においては医療用語が存在する。医療ドキュメントにおける情報抽出とは、一般的には、それら医療用語間、あるいは医療用語と動詞などの一般用語との間の関係を抽出することである。
この実施例では、医療ドメインの辞書と複数の医療語彙抽出ルールを組み合わせて使用することにより既存の医療語彙関係抽出ルールを拡張し、複数の文または複雑な構造の文に存在する医療語彙の関係を抽出することができるようにする。
この実施例では、医療語彙間の関係を既存の方法によって大量の医療ドキュメントから抽出し、得られた統計情報を元に、元の抽出ルールを拡張することを考える。拡張されたルールは元のルールよりもより複雑な文や複数文からでも医療語彙間の関係を抽出することが可能となる。以下において、実施例を参照にして、この発明の典型的な形態と共に、この発明によるルール拡張の手順例を説明する。
図1は、この発明の実施例の情報抽出システム100を示している。この情報抽出システム100は、典型的にはコンピュータシステム、例えばパーソナルコンピュータ200により実現される。パーソナルコンピュータ200は、周知のとおり、CPU、主メモリ、外部記憶装置、バス、種々の入出力装置等を具備し、これにプログラム201をインストールすることにより情報抽出システム100が構築される。情報抽出システム100は単一のコンピュータシステムから構築されてもよいし、ネットワークを介して接続された複数のコンピュータシステムから構築されても良い。
図1において、情報抽出システム100は、医療用語抽出部11、医療語彙リソース保持部12、初期ルール保持部13、初期ルール適用部14、拡張ルール作成部15、拡張ルール保持部16、情報抽出部17等を含んで構成される。
医療用語抽出部11は、医療語彙リソース保持部12に格納された医慮語彙およびその抽出ルールを用いて、医療ドキュメント中の医療語彙を抽出する。医療語彙のカテゴリ(種類ともいう)としては、病名(disease)や部位名(anatomy)、病状(semi−disease)、領域(area)、読影レポートで頻繁に使われる名詞(general)、さらには、門(mon)や性(sei)などの医療語彙に特徴的に現われる接辞などが挙げられる。以下が抽出例である。タグの部分に囲まれた個所が医療語彙に該当し、タグの名前によって医療語彙のカテゴリを区別している。タグは「<」および「>」により指示される。以下の例は、例文中でタグにはさまれた語彙が医療語彙として抽出されていることを示す。
[例文]
<area>左</area><mon>肺門</mon><area>部</area>には<anatomy>リンパ節様</anatomy><anatomy>結節</anatomy>が見られます。以前の検査では見られなかった<general>変化</general>です。<semi−disease>転移</semi−disease><anatomy>リンパ節</anatomy>の<sei>可能性</sei>が高いと思われます。
医療語彙リソース保持部12は、医療用語抽出部11で用いる医療語彙辞書や抽出ルールを格納する。医療用語抽出部11は、これら辞書やルールを用いて医療ドキュメント中の医療語彙を抽出する。
初期ルール保持部13は、医療用語関係抽出ルール(初期ルールともいう)を格納する。医療用語抽出部11は、これらルールをドキュメントに適用して医療語彙あるいは文章部分の間の関係を抽出する。例えば、以下のようなルールによって「医師が病状だとの判断を表す部分」と「その原因」との関係を抽出する。ルールは「医師の判断を表す個所」を検出する部分と「その原因の個所」を検出する部分の二つの部分から構成される。初期ルール保持部13では、そのようなルールを予め格納しておく。
病状原因抽出ルールの例は、以下のようなものであり、実際の実装では、以下のラインを初期ルール適用部14に対応するプログラムが読んで解釈し処理を行う。
[情報原因抽出ルールの例]
抽出部:{<medical−term>.+?{見られる|ある}|{見られる|ある}<medical−term>}
@TARGET=<medica−term>
条件部:{<Semi−disease>の<general>|<Semi−disease>}.+?{考える|思う}られる}
この例では、以下のように処理が実行される。
[情報原因抽出ルールの例の説明]
「[<Semi−disease>の<general>]または[Semi−disease]の部分に[[考える|思う]られる]が続き、その直前「[見られる|ある]」に係るか連体修飾節を構成する医療語彙部分をTARGETとして取り出す。TARGETの部分をSemi−diseaseの「原因」として抽出する。この時、TARGETと「[見られる|ある]」を含むルールの部分は、抽出の目的を含むためルールの抽出部とする。医者の判断を含む部分をルールの条件部とする。
この初期病状原因抽出ルールは、複雑な文や、複数の文によって「医師の判断とその根拠の関係」が記述されているような場合にはうまく関係を抽出できない。例えば、以下の文章Aにおける、「リンパ節様結節」と「転移リンパ節」との間の関係は、「以前のCTでは見られない変化です。」の文のみでルールの適用が止まってしまうため抽出できない。上記のルールでは、TARGET=「変化」が病状「転移リンパ節」の原因として抽出されるのみである。さらには、多くの既存の情報抽出システムで想定しているように、ルールの適用対象を1文に限定する場合には、ルールの適用すら不可能となる。
[文章A]
−−−左肺門部にはリンパ節様結節が見られます。以前のCTでは見られない変化です。転移リンパ節の可能性が高いと思われます−−−
また、上記のような場合を含めた全ての状況をカバーするルールを記述することは現実的ではない。そこで、この実施例では初期ルール適用部14に加えて、拡張ルール作成部15、および拡張ルール保持部16を用いてルールを拡張する。
初期ルール適用部14は、初期ルール保持部13に格納されている医療用語関係抽出ルールをとりだして、医療ドキュメントに適用し、ルールごとにTARGET部分の語彙を抽出する。この時、抽出個所の医療語彙の種類を同時に取得する。文章Aに上記の病状原因抽出ルールを適用した場合には、TARGETとして「変化」が<general>という医療カテゴリと伴って取得される。このような抽出を医療ドキュメント全体で行い、TARGETとして得られた医療語彙の種類を取得する。この時、ある一定の閾値を越える頻度で出現したものは表層を取得し、閾値を下回るものは医療語彙の種類が取得される。例えば、読影レポート中に頻出する名詞である「変化」は本実施例では<general>という医療語彙のカテゴリに属し、「変化」は表層の文字列を取得する。対して、「前頭部白質」などは医療カテゴリの<situ>として取得する。医療ドキュメントでは様々な形態の接辞を伴った複合語が出現し、同じ意味の言葉でも様々な形態で出現する。そのように表層語彙が揺れる語彙は医療カテゴリ自体として取得する。
拡張ルール作成部15は、取得した医療カテゴリおよび語彙の中である頻度以上のものの組合せを取得する。さらに、語彙の組合せから以下の手順で拡張ルールを抽出する。
[手順1]:一定の頻度以上の語彙または医療カテゴリを取得する。
例えば、部位<Anatomy>、特徴、変化、所見、…を取得する。
[手順2]:上記の語彙の組を作る。
例えば、部位<Anatomy>−特徴/部位<Anatomy>−変化/部位<Anatomy>−所見/…を作成する。
[手順3]:二つの語彙が連続して初期ルールの条件部のような状況にマッチするルールを作り、語彙の組の片方がルールの抽出部、もう一方が条件部となるように、語彙の組から新しい病状原因拡張ルールを作成する。例えば、部位<Anatomy>−「変化」の組から、以下のようなルールを作成する。病状原因拡張ルールの作成の動作例については図3を参照して後に説明する。
病状原因拡張ルールの例は以下のようなものであり、実際の実装では以下のラインを情報抽出部17に対応するプログラムが読んで解釈し処理を行う。
[病状原因拡張ルールの例]
抽出部:{{見られる|ある}{<Anatomy>}|{<Anatomy>}.+?{見られる|ある}
@TARGET2=<Anatomy>
条件部:{{見られる|ある}{変化}|{変化}.+?{見られる|ある}}
[病状原因拡張ルールの例の説明]
「[変化]」が「[見られる|ある]」に係るか連体修飾節を構成する部分の直前に、部位<Anatomy>が「[見られる|ある]」に係るか連体修飾節を構成する部分がある時、「部位<Anatomy>」の部分をTARGET2として取り出す。
上記のような病状原因拡張ルールは、語彙の組が「見られる」または「ある」という述語を伴い連続して出現するような状況にマッチする。この病状原因抽出拡張ルールと病状原因抽出初期ルールを併せて使うことで、病状の原因を表す語彙が複数の個所に連なって出現するような場合に、その病状の原因となる語彙を同時に抽出することができる。上記のような拡張ルールは拡張ルール保持部16に格納される。
情報抽出部17は、初期ルール保持部13に格納されている初期ルールと拡張ルール保持部16に保持されている拡張ルールの組を用いて、情報抽出を行う。拡張ルールは初期ルールにより関係が抽出された場合に適用される。例えば、上記までの過程において文章Aに対して初期ルールおよび拡張ルールを適用した場合、まず初期ルールによって「病状」<semi−disease>として「転移」が得られ、その部分に対する医師の判断を示す語彙として、「変化」が得られる。さらに拡張ルールを用いると「変化」に対応して「リンパ様節結節」が得られるため、「転移」に対する医師の判断部分として「リンパ節結節、変化」の組が得られ、既存の技術では抽出できなかった「リンパ節様結節」の部分まで情報抽出が可能となる。
また、この実施例ではルールの数を少なく抑えることができる。例えば、この実施例によって具備されたルールが、「医師が病状だと判断した部分」の抽出のためのルールが1000種類と「部位名−変化」の組が「見られる|ある」という述語と関係して連なるといったシチュエーションの抽出のためのルールが1000種類の場合、既存のルールによって「部位名−変化」の組が「見られる|ある」という述語と関係して連なり、かつ「医師が病状だと判断した部分」が連なるシチュエーションにマッチさせるには、1000の1000倍の数のルールが必要となってしまう。対して、この実施例による情報抽出システムでは、2000種類のルールでマッチ可能である。
図2は上述実施例の全体的な動作例を示し、図3はルール生成の手順に関する動作例を示す。
図2に説明される全体の動作例は以下のとおりである。
[ステップS21]:医療ドキュメント中の医療語彙を検出する。
[ステップS22]:医療ドキュメントに初期ルールを適用しルールごとの医療用語関係を抽出する。
[ステップS23]:初期ルールごと拡張ルールを作成し、初期ルールごとに格納する。
[ステップS24]:初期ルールおよび拡張ルールを用いて情報抽出処理を行う。拡張ルールは対応する初期ルールが満たされたときに適用する。
図3に説明されるルール生成の手順の動作例は以下のとおりである。
[ステップS31]:すべての初期ルールにおいて処理を終えたかどうか確認し、終えた場合は処理を終了し、終えていない場合にはステップS32以降の処理を繰り返す。
[ステップS32]:未処理に初期ルールを1つとりだす。
[ステップS33]:医療ドキュメントに初期ルールを適用しルールごとに語彙とその医療カテゴリを抽出し、頻度をカウントする。
[ステップS34]:語彙の頻度が閾値以上かどうかを判別し、閾値以上の場合にはステップS36へ進み、そうでない場合にはステップS35へ進む。
[ステップS35]:その医療カテゴリを語彙集合に加える。ステップS37へ進む。
[ステップS36]:語彙を語彙集合に加える。ステップS37へ進む。
[ステップS37]:語彙集合中の語彙および医療カテゴリのペアを作成する。
[ステップS38]:ペアの頻度が閾値以上か判別し、閾値以上であれば、ステップS37へ進み、どうでなければ、ステップS31へ戻り処理を繰り返す。
[ステップS39]:ペアから追加ルールを作成する。その後、ステップS31へ戻り処理を繰り返す。
なお、この発明は特許請求の範囲の記載に基づいて決定されるものであり、実施例の具体的な構成、課題、および効果には限定されない。この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述実施例では、医療分野のドメインスペシフィックな情報を抽出したけれども、医療分野の語彙に代えて他の分野のドメインスペシフィックな語彙や、関係を抽出する初期ルールを準備しておけばその分野の情報の抽出にこの発明を適用できる。また、この発明は、ルールを生成する装置またはプログラムとして実現しても良い。ルール生成装置は、例えば、図1の情報抽出部17を除いた部分から構成できる。
この発明の実施例の構成を全体として示すブロック図である。 上述実施例の動作例を全体として示すフローチャートである。 上述実施例の拡張ルール作成の動作例を示すフローチャートである。
符号の説明
11 医療用語抽出部
12 医療語彙リソース保持部
13 初期ルール保持部
14 初期ルール適用部
15 拡張ルール作成部
16 拡張ルール保持部
17 情報抽出部
100 情報抽出システム
200 パーソナルコンピュータ
201 プログラム

Claims (6)

  1. 個別分野のドキュメントから個別分野で用いられる語彙を当該個別分野用の辞書を参照して特定する個別分野語彙特定手段と、
    1または複数の第1のルールを保持する第1ルール保持手段であって、当該第1のルールの各々は、第1の部分と第2の部分を含み、上記第1の部分を満たす第1の文章要素の直前に上記第2の部分を満たす第2の文章要素が出現するときに上記第1のルールが満たされ、上記第1の文章要素中の所定の1項をなす語彙と上記第2の文章要素中の所定の1項をなす語彙との間の関係を抽出する、上記第1ルール保持手段と、
    上記第1ルール保持手段に保持されている上記第1のルールを上記個別分野のドキュメント中において特定された上記個別分野で用いられる語彙に適用して2つの語彙の間の関係を抽出するルール適用手段と、
    上記第1のルールごとに上記ルール適用手段で抽出した複数の関係の各々に含まれる上記1項をなす語彙または当該語彙のカテゴリの集合から、当該第1のルールの抽出を発動条件として適用され2つの語彙の間の新たな関係を抽出する第2のルールを作成するルール作成手段であって、当該第2のルールの各々は、対応する第1のルールの上記第1の部分であって、上記1項をなす語彙または当該語彙のカテゴリの1つを含むものを第1の部分として含み、対応する第1のルールの上記第1の部分であって、上記1項をなす語彙または当該語彙のカテゴリの他の1つを含むものを第2の部分として含み、上記対応する第1のルールが満たされたときに発動され、上記第2の文章要素が当該第2のルールの第1の部分を満たし、当該第1の文章要素の直前に当該第2のルールの第2の部分を満たす第3の文章要素が出現するときに、上記第2の文章要素中の上記1項をなす語彙と上記第3の文章要素中の所定の1項をなす語彙との間の関係を抽出する、上記ルール作成手段と、
    上記ルール作成手段で作成された上記第2のルールを保持する第2ルール保持手段と、
    上記第1ルール保持手段に保持されている上記第1のルールおよび上記第2ルール保持手段に保持されている上記第2のルールを併用して上記個別分野のドキュメントから語彙の関係を抽出する情報抽出手段とを有する情報抽出装置。
  2. 上記個別分野は医療分野であり、上記第1のルールは、病状と判断することを表す語彙とその判断の根拠をなす語彙との間の関係を抽出するルールを含み、上記第2のルールは、上記病状と判断することを表す語彙とその判断の根拠をなす語彙との間の関係を抽出するルールから抽出された複数の関係の上記判断の根拠をなす語彙または当該語彙の語彙カテゴリの組から作成される請求項1記載の情報抽出装置。
  3. 上記第1のルールごとに、上記第2のルールを作成するのに用いる上記語彙または当該語彙のカテゴリは、当該第1のルールが適用されて抽出される頻度が所定の閾値を超えた語彙または当該語彙のカテゴリに限定する請求項1または2記載の情報抽出装置。
  4. コンピュータを、
    個別分野のドキュメントから個別分野で用いられる語彙を当該個別分野用の辞書を参照して特定する個別分野語彙特定手段、
    1または複数の第1のルールを保持する第1ルール保持手段であって、当該第1のルールの各々は、第1の部分と第2の部分を含み、上記第1の部分を満たす第1の文章要素の直前に上記第2の部分を満たす第2の文章要素が出現するときに上記第1のルールが満たされ、上記第1の文章要素中の所定の1項をなす語彙と上記第2の文章要素中の所定の1項をなす語彙との間の関係を抽出する、上記第1ルール保持手段と、
    上記第1ルール保持手段に保持されている上記第1のルールを上記個別分野のドキュメント中において特定された上記個別分野で用いられる語彙に適用して2つの語彙の間の関係を抽出するルール適用手段、
    上記第1のルールごとに上記ルール適用手段で抽出した複数の関係の各々に含まれる上記1項をなす語彙または当該語彙のカテゴリの集合から、当該第1のルールの抽出を発動条件として適用され2つの語彙の間の新たな関係を抽出する第2のルールを作成するルール作成手段であって、当該第2のルールの各々は、対応する第1のルールの上記第1の部分であって、上記1項をなす語彙または当該語彙のカテゴリの1つを含むものを第1の部分として含み、対応する第1のルールの上記第1の部分であって、上記1項をなす語彙または当該語彙のカテゴリの他の1つを含むものを第2の部分として含み、上記対応する第1のルールが満たされたときに発動され、上記第2の文章要素が当該第2のルールの第1の部分を満たし、当該第1の文章要素の直前に当該第2のルールの第2の部分を満たす第3の文章要素が出現するときに、上記第2の文章要素中の上記1項をなす語彙と上記第3の文章要素中の所定の1項をなす語彙との間の関係を抽出する、上記ルール作成手段
    上記ルール作成手段で作成された上記第2のルールを保持する第2ルール保持手段、
    上記第1ルール保持手段に保持されている上記第1のルールおよび上記第2ルール保持手段に保持されている上記第2のルールを併用して上記個別分野のドキュメントから語彙の関係を抽出する情報抽出手段
    として機能させるための情報抽出用プログラム。
  5. 個別分野のドキュメントから個別分野で用いられる語彙を当該個別分野用の辞書を参照して特定する個別分野語彙特定手段と、
    1または複数の第1のルールを保持する第1ルール保持手段であって、当該第1のルールの各々は、第1の部分と第2の部分を含み、上記第1の部分を満たす第1の文章要素の直前に上記第2の部分を満たす第2の文章要素が出現するときに上記第1のルールが満たされ、上記第1の文章要素中の所定の1項をなす語彙と上記第2の文章要素中の所定の1項をなす語彙との間の関係を抽出する、上記第1ルール保持手段と、
    上記第1ルール保持手段に保持されている上記第1のルールを上記個別分野のドキュメント中において特定された上記個別分野で用いられる語彙に適用して2つの語彙の間の関係を抽出するルール適用手段と、
    上記第1のルールごとに上記ルール適用手段で抽出した複数の関係の各々に含まれる上記1項をなす語彙または当該語彙のカテゴリの集合から、当該第1のルールの抽出を発動条件として適用され2つの語彙の間の新たな関係を抽出する第2のルールを作成するルール作成手段であって、当該第2のルールの各々は、対応する第1のルールの上記第1の部分であって、上記1項をなす語彙または当該語彙のカテゴリの1つを含むものを第1の部分として含み、対応する第1のルールの上記第1の部分であって、上記1項をなす語彙または当該語彙のカテゴリの他の1つを含むものを第2の部分として含み、上記対応する第1のルールが満たされたときに発動され、上記第2の文章要素が当該第2のルールの第1の部分を満たし、当該第1の文章要素の直前に当該第2のルールの第2の部分を満たす第3の文章要素が出現するときに、上記第2の文章要素中の上記1項をなす語彙と上記第3の文章要素中の所定の1項をなす語彙との間の関係を抽出する、上記ルール作成手段とを有する情報抽出ルール生成装置。
  6. コンピュータを、
    個別分野のドキュメントから個別分野で用いられる語彙を当該個別分野用の辞書を参照して特定する個別分野語彙特定手段、
    1または複数の第1のルールを保持する第1ルール保持手段であって、当該第1のルールの各々は、第1の部分と第2の部分を含み、上記第1の部分を満たす第1の文章要素の直前に上記第2の部分を満たす第2の文章要素が出現するときに上記第1のルールが満たされ、上記第1の文章要素中の所定の1項をなす語彙と上記第2の文章要素中の所定の1項をなす語彙との間の関係を抽出する、上記第1ルール保持手段、
    上記第1ルール保持手段に保持されている上記第1のルールを上記個別分野のドキュメント中において特定された上記個別分野で用いられる語彙に適用して2つの語彙の間の関係を抽出するルール適用手段、
    上記第1のルールごとに上記ルール適用手段で抽出した複数の関係の各々に含まれる上記1項をなす語彙または当該語彙のカテゴリの集合から、当該第1のルールの抽出を発動条件として適用され2つの語彙の間の新たな関係を抽出する第2のルールを作成するルール作成手段であって、当該第2のルールの各々は、対応する第1のルールの上記第1の部分であって、上記1項をなす語彙または当該語彙のカテゴリの1つを含むものを第1の部分として含み、対応する第1のルールの上記第1の部分であって、上記1項をなす語彙または当該語彙のカテゴリの他の1つを含むものを第2の部分として含み、上記対応する第1のルールが満たされたときに発動され、上記第2の文章要素が当該第2のルールの第1の部分を満たし、当該第1の文章要素の直前に当該第2のルールの第2の部分を満たす第3の文章要素が出現するときに、上記第2の文章要素中の上記1項をなす語彙と上記第3の文章要素中の所定の1項をなす語彙との間の関係を抽出する、上記ルール作成手段として機能させるための情報抽出ルール生成用プログラム。
JP2008105275A 2008-04-15 2008-04-15 情報抽出装置およびプログラムならびに情報抽出ルール生成装置およびプログラム Expired - Fee Related JP5282438B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008105275A JP5282438B2 (ja) 2008-04-15 2008-04-15 情報抽出装置およびプログラムならびに情報抽出ルール生成装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008105275A JP5282438B2 (ja) 2008-04-15 2008-04-15 情報抽出装置およびプログラムならびに情報抽出ルール生成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009258870A JP2009258870A (ja) 2009-11-05
JP5282438B2 true JP5282438B2 (ja) 2013-09-04

Family

ID=41386227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008105275A Expired - Fee Related JP5282438B2 (ja) 2008-04-15 2008-04-15 情報抽出装置およびプログラムならびに情報抽出ルール生成装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5282438B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776606A (zh) * 2015-11-20 2017-05-31 株式会社日立制作所 基于电子病历数据库的检索装置和检索方法
JP7132943B2 (ja) * 2017-04-18 2022-09-07 コーニンクレッカ フィリップス エヌ ヴェ オーダーコードによる医療検査タイムラインのインテリジェント組織化
US20220068449A1 (en) * 2018-12-20 2022-03-03 Koninklijke Philips N.V. Integrated diagnostics systems and methods
CN114783623B (zh) * 2022-06-24 2022-08-26 北京惠每云科技有限公司 医学规则的提取方法、装置、电子设备及可读存储介质
CN117789907B (zh) * 2024-02-28 2024-05-10 山东金卫软件技术有限公司 基于多源数据融合的智慧医疗数据智能管理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263493A (ja) * 1995-03-23 1996-10-11 Meidensha Corp 知識獲得方法
JP2007133492A (ja) * 2005-11-08 2007-05-31 Oki Electric Ind Co Ltd 係り受け抽出装置、方法及びプログラム
JP4826743B2 (ja) * 2006-01-17 2011-11-30 コニカミノルタエムジー株式会社 情報提示システム

Also Published As

Publication number Publication date
JP2009258870A (ja) 2009-11-05

Similar Documents

Publication Publication Date Title
US9740685B2 (en) Generation of natural language processing model for an information domain
Carley et al. AutoMap User's Guide 2013
Joty et al. Codra: A novel discriminative framework for rhetorical analysis
US9009590B2 (en) Semantic processor for recognition of cause-effect relations in natural language documents
KR101306667B1 (ko) 지식 그래프 정제 장치 및 방법
Chen et al. Improving automated documentation to code traceability by combining retrieval techniques
US10013404B2 (en) Targeted story summarization using natural language processing
JP2010521750A (ja) 自然言語文書において全体−部分関係を認識する意味プロセッサ
US10978053B1 (en) System for determining user intent from text
US9678941B2 (en) Domain-specific computational lexicon formation
US9588959B2 (en) Extraction of lexical kernel units from a domain-specific lexicon
JP5282438B2 (ja) 情報抽出装置およびプログラムならびに情報抽出ルール生成装置およびプログラム
Eder et al. An open stylometric system based on multilevel text analysis
Kang et al. Extraction of manufacturing rules from unstructured text using a semantic framework
Lüdeling et al. Linguistic models, acquisition theories, and learner corpora: Morphological productivity in SLA research exemplified by complex verbs in German
Di Iorio et al. Dealing with structural patterns of XML documents
Pauzi et al. Applications of natural language processing in software traceability: A systematic mapping study
JP2011123794A (ja) 情報抽出システム及び情報抽出プログラム
Kumar et al. Static UML model generator from analysis of requirements (SUGAR)
Chen et al. Automated extraction of tree-adjoining grammars from treebanks
WO2022123637A1 (ja) 文書処理システムおよび文書処理方法
Renear et al. Towards identity conditions for digital documents
Norabid et al. Rule-based text extraction for multimodal knowledge graph
Carroll et al. Encoding frequency information in lexicalized grammars
Rananavare et al. An overview of text summarization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130513

R150 Certificate of patent or registration of utility model

Ref document number: 5282438

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees