JP5151449B2 - 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム - Google Patents

文書解析装置、および文書解析方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP5151449B2
JP5151449B2 JP2007325181A JP2007325181A JP5151449B2 JP 5151449 B2 JP5151449 B2 JP 5151449B2 JP 2007325181 A JP2007325181 A JP 2007325181A JP 2007325181 A JP2007325181 A JP 2007325181A JP 5151449 B2 JP5151449 B2 JP 5151449B2
Authority
JP
Japan
Prior art keywords
sentence
predicate
predicate verb
heavy
document analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007325181A
Other languages
English (en)
Other versions
JP2009146311A (ja
Inventor
大悟 杉原
博 増市
智子 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2007325181A priority Critical patent/JP5151449B2/ja
Publication of JP2009146311A publication Critical patent/JP2009146311A/ja
Application granted granted Critical
Publication of JP5151449B2 publication Critical patent/JP5151449B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書解析装置、および文書解析方法、並びにコンピュータ・プログラムに関する。さらに具体的には処理対象として入力したテキストを所定の意味を持つ単位などによって分割する処理を実行する文書解析装置、および文書解析方法、並びにコンピュータ・プログラムに関する。
例えば入力文書からある特定の用語を抽出するといった文書解析処理を行なう場合、文書に対してある用語抽出ルールを適用した処理が行なわれる。この用語抽出ルールは、多くの場合、日本文であれば句点で区切られた一文単位で適用すると行った処理が行なわれる。あるいは、特定の規則に基づいてテキストを分割し、その分割したテキスト単位で用語抽出ルールを適用するといった処理が行なわれる。適切な語の抽出を行なうためには、用語抽出ルールの適用単位をどのように設定するか、すなわちどのようにテキスト分割を行なうかが重要となる。
テキスト分割方法を開示した従来技術として、例えば非特許文献1「Hearst, M.A.,: Multi−Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9−16(1994)」がある。
この非特許文献1は、単位の頻度に基づく単語列の結束度によるテキスト分割手法を開示している。この方法では、まず、テキストを形態素解析して単語に分割する。そして、任意の単語境界(境界候補)の前後から、ある個数の単語列からなる窓を設定し、各窓を構成する単語の頻度ベクトルを作成する。さらに前後の窓に対応する頻度ベクトル間のコサインメジャーを計算して前後の窓の結束度とする。
テキストにおける話題の切り替わりの境界(テキストの意味境界)においては、前後の窓に共通して含まれる単語は一般に少なくなるため、結束度は減少していく。そこで、結束度が小である単語境界をテキストの意味境界と認定するというものである。しかし、この非特許文献1の手法は、単語の表層の頻度を用いているためノイズが多くなり、特に短いテキストにおける意味境界の認定に問題がある。
この問題を解決するための手法が特許文献1(特開2002−342324)に開示されている。特許文献1は単語表層の頻度ではなく、単語をキーとして概念辞書を参照して参照結果に基づいて新たなベクトルを作成し、この新たなベクトルによる類似度または距離を計算する手法を開示している。概念辞書を用いることで、意味的に類似している単語の前後では境界を設定しないことが可能となり、意味的に同じ内容のテキスト内に現われる様々な単語の出現によるノイズの影響を低減している。
また、特許文献2(特開2004−145790)も、同様に短いテキストでも精度よく分解する手法を開示している。この特許文献2では、テキストの文集合内の各文ごとに、各文から得られたベクトルと、複数の文書を含む外部コーパスから得られたベクトルとの間の関連度を算出する構成としている。
ベクトルは、文前後のハニング窓内から単語を取得し、その単語の残差IDF(Inverted Document Frequency)の値などから構成されている。なお、IDFは、ある語tが一回以上出現する文書の数df(t)、全文書数をNとした時に、
IDF(t)=log( N/df(t))
として定義される。IDFは、語tが多くの文書に現われているほど値が小さくなり、特定の文種にしか現われない場合は値が大きくなる値である。また、残差IDFは、実際のIDFの値と推定されたIDFの値から得られる値であり、テキストの内容語ほど差が発生するデータとされる。
この特許文献2の構成は、テキスト集合内の隣接する二つの文ごとに、それぞれについて算出された関連度に基づいて互いの結束度を算出することにより、前記の非特許文献1における短いテキストの分割を行おうとするものである。
上記の先行技術においては、テキストから単語列を取得し、境界候補を挟んだ単語列から算出した前後の単語列の結束度からテキストの意味境界を判定する。これは、意味境界の前後には、表層や概念辞書上において単語の分布が異なっているという想定に基づいている。
しかしながら、この想定は、医療などの専門的なドメインにおけるドキュメントを、情報抽出や情報検索タスクのために細かく分割する必要があるという状況化では、想定することができないという問題を抱えている。読影レポートなどの医療ドキュメントでは、レポートや文自体が短く、単語表層の分布での意味境界の分割は困難である。また、前記の発明などによる概念辞書や関連コーパス集合の利用といった方法でも、専門的なドメイン中に現われる単語は、同一ドメインに関する単語であるためテキストの意味的な境界を区別することはできない。また、特に読影レポートの記述は、医師がMRIやCTなどの画像を見ながら記述する。その際、ある病名Dに関する部位名が、ある患者のレポートではAと記述され、ある患者のレポートではAとBと記述されるなど、単語の結びつきが患者ごとに揺れる場合がある。そのため、仮に医療ドキュメント中に現われる部位名や病名などの細かい関係を記述した専門概念辞書を用意した場合でも、先行技術による単語列から得たベクトル間の類似度では、適切に意味境界を認定できない場合が多く発生すると考えられる。
以下に、1つの例文から情報抽出を行う場合を考える。例文は読影レポート中の一連の記述という想定であり、都合上括弧内に医療語彙の種類を付与してある。
[例文]
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化が見られ、血腫(病名)の量にも変化(医療汎用)が考えられる。また、小脳(部位)には萎縮(病状)が見られ、脳幹(部位)にも萎縮(病状)が見られる。中脳(部位)および橋(部位)には梗塞(病名)も見られる。脳血管障害(病名)に伴う信号変化(医療汎用)と考えられ、脊髄小脳変性症(病名)が加わる所見と思われる。」
上記の例文から「ある病名の所見が関係する部位」を取得するという情報抽出タスクを考える。非特許文献2「今井健,荒巻英治,梶尾正幸,美代賢吾,大江和彦,"構文情報と医学用語属性を用いた画像診断所見オントロジー構築の試み",医療情報学,25(6),2005,pp.395−403」などを参考にして、以下の抽出ルールを作成して情報抽出を行うことにする。
[抽出ルール]
「病名」を含む節が「思われる」や「考えられる」に係る文がある場合(条件部部分)、同文内の「部位」を「所見と関係する部位集合」として抽出する。
テキスト分割の処理を行わずに、上記の[例文]に対して、上記[抽出ルール]を適用して情報抽出を行った場合、以下のような問題が生じる。
上記の[例文]に[抽出ルール]がマッチするか否かを調べると、
「脊髄小脳変性症」を含む節が「思われる」に係っており、ルールの条件部部分としてマッチする。
しかし、その「所見」部分の前方に「部位」を探すルールを適用したとしても、上記の例では、「脊髄小脳変性症」という「病名」が含まれる文、すなわち、
「脳血管障害(病名)に伴う信号変化(医療汎用)と考えられ、脊髄小脳変性症(病名)が加わる所見と思われる。」
この文には「部位」が含まれないので、ルールを適用して情報抽出を行うことはできない。
また、[抽出ルール]を拡張して、「脊髄小脳変性症」という「病名」が含まれる文の前の文から部位部分を抽出することにしても、どこまでが「脊髄小脳変性症」に関連する部位なのかは分からない。読影レポート中には複数の部位に関する記述が述べられることがあり、どの部位が「脊髄小脳変性症」に関連するかを判定しなければならない。例えば、上述の例文において、部位を示す「左側頭葉」や「頭頂」は「脊髄小脳変性症」と関係する部位、すなわち、「所見と関係する部位集合」として抽出することが妥当であるとは限らない。
このような医療などの専門的なドメインにおけるドキュメントを処理する場合、医療ドキュメントに含まれる全ての所見記述パターンをルールとして保持するという方法もあるが、現実的ではない。従って、読影レポートなどの医療ドキュメントに対して情報検索や情報抽出処理を行うには、何かしらの手段で読影レポート中のテキストを細かく意味境界で適切に分割しなければならない。
しかし、既存のテキスト分割手法では上記の例文を適切に分割することはできない。上記の例での適切な分割位置は第1文と第2文の間である。
すなわち、
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化が見られ、血腫(病名)の量にも変化(医療汎用)が考えられる。」
「また、小脳(部位)には萎縮(病状)が見られ、脳幹(部位)にも萎縮(病状)が見られる。中脳(部位)および橋(部位)には梗塞(病名)も見られる。脳血管障害(病名)に伴う信号変化(医療汎用)と考えられ、脊髄小脳変性症(病名)が加わる所見と思われる。」
この2つの文に分割することが適切な分割である。
上記の非特許文献2によるテキスト分割法における、前後窓の結束度は両窓内の共通単語の数に左右される。仮に窓の設定を文単位とし、上記の例で共通の単語をカウントするとスパースな結果となる。例えば、各境界候補についての共通単語のカウント数は以下のようになる。
境界候補1:第1文と第2文の間の共通単語は、第1文に「見る」が第2文に「見る」が2
境界候補2:第2文と第3文の間の共通単語は、第1文に「見る」が第2文に「見る」が2
境界候補3:第2文と第3文の間の共通単語はなし。
このような結果となり、共通単語の数に応じて意味境界を求めると、境界候補3、すなわち、第2文と第3文の間において意味境界があると判定されることになり、適切な分割位置である第1文と第2文の間に意味境界があると判定されない。なお、この例では、説明を簡略とするため前後の窓内に存在する単語数の説明は省略した。
また、前述した非特許文献1では単語列間の結束度の算出は以下のようにして実行される。前の窓をb1、後ろの窓をb2、窓bにおける単語tの頻度をwb,tとすると、ある境界iにおける単語の結束度C(i)は、
Figure 0005151449
として算出される。
上記の例では、境界候補3には共通単語はなく、他の境界候補にはあるため、上記の非特許文献2と同様、境界候補3、すなわち、第2文と第3文の間に境界があると判定され、適切な分割位置である第1文と第2文の間に境界があると判定されない。
また、上述の特許文献1(特開2002−342324)や特許文献2(特開2004−145790)のように単語列を概念辞書や外部コーパスとの関連度などで抽象化した上で、前後の単語列の結束度を判定する構成としても、専門的なテキストに出現する前後単語列は意味的に類似した単語列であり、その結束度の判定は困難であると考えられる。
以上、説明したように読影レポートなどのような、ある専門的なドメインにおける情報を簡潔な記述で列挙していくようなテキストでは、意味境界を認識できるような単語分布の得られず、適切なテキスト分割を行いがたいという問題がある。
特開2002−342324号公報 特開2004−145790号公報 Hearst, M.A.,: Multi−Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9−16(1994) 今井健,荒巻英治,梶尾正幸,美代賢吾,大江和彦,"構文情報と医学用語属性を用いた画像診断所見オントロジー構築の試み",医療情報学,25(6),2005,pp.395−403
本発明は、例えば、上述の問題点に鑑みてなされたものであり、例えば医療分野のテキストなどの専門的なドメインのテキストについて最適なテキスト分割、例えば意味的なまとまりを考慮した文の分割処理を効率的に実行する文書解析装置、および文書解析方法、並びにコンピュータ・プログラムを提供することを目的とする。
例えば、医療分野のテキストなどある専門的なドメインのテキストに含まれる情報を簡潔な記述で列挙していくといった情報抽出を行なうような場合、情報抽出ルールを適用する単位を設定するための最適なテキスト分割を行う文書解析装置、および文書解析方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
文書解析装置であり、
入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアを含む2つの文が重文として成立する確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定する文連結度判定手段と、
前記文連結度判定手段において設定された文集合を単位として、前記入力テキストを分割するテキスト分割手段と、
を有することを特徴とする文書解析装置にある。
さらに、本発明の文書解析装置の一実施態様において、前記文書解析装置は、さらに、前記テキスト分割手段において設定された文集合を単位として情報抽出ルールを適用した情報抽出処理を実行する情報抽出手段を有することを特徴とする。
さらに、本発明の文書解析装置の一実施態様において、前記文書解析装置は、さらに、様々な述語動詞ペアに対応する重文確率値を格納した重文確率値格納手段を有し、前記文連結度判定手段は、入力テキストから抽出した述語動詞ペアについての重文確率値を、前記重文確率値格納手段の格納データを参照して取得する構成であることを特徴とする。
さらに、本発明の文書解析装置の一実施態様において、前記文書解析装置は、さらに、入力テキストに含まれる専門用語を抽出する専門用語抽出手段を有し、前記情報抽出手段は、前記文集合を単位とした情報抽出ルール適用処理によって前記専門用語抽出手段において抽出された専門用語の抽出を行なう構成であることを特徴とする。
さらに、本発明の文書解析装置の一実施態様において、前記文書解析装置は、さらに、専門用語を格納した専門語彙リソース保持手段を有し、前記専門用語抽出手段は、前記専門語彙リソース保持手段の格納データを参照して入力テキストに含まれる専門用語を抽出する処理を実行する構成であることを特徴とする。
さらに、本発明の文書解析装置の一実施態様において、前記文書解析装置は、専門分野のテキスト分割を行なう構成であり、前記閾値は、解析対象となる専門分野のテキスト解析結果を利用した学習によって設定された閾値であることを特徴とする。
さらに、本発明の第2の側面は、
文書解析装置において実行する文書解析方法であり、
文連結度判定手段が、入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアを含む2つの文が重文として成立する確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定する文連結度判定ステップと、
テキスト分割手段が、前記文連結度判定ステップにおいて設定された文集合を単位として、前記入力テキストを分割するテキスト分割ステップと、
を有することを特徴とする文書解析方法にある。
さらに、本発明の文書解析方法の一実施態様において、前記文書解析方法は、さらに、情報抽出手段が、前記テキスト分割ステップにおいて設定された文集合を単位として情報抽出ルールを適用した情報抽出処理を実行する情報抽出ステップを有することを特徴とする。
さらに、本発明の文書解析方法の一実施態様において、前記文連結度判定ステップは、入力テキストから抽出した述語動詞ペアについての重文確率値を、様々な述語動詞ペアに対応する重文確率値を格納した重文確率値格納手段の格納データを参照して取得するステップを含むことを特徴とする。
さらに、本発明の文書解析方法の一実施態様において、前記文書解析方法は、さらに、専門用語抽出手段が、入力テキストに含まれる専門用語を抽出する専門用語抽出ステップを有し、前記情報抽出ステップは、前記文集合を単位とした情報抽出ルール適用処理によって前記専門用語抽出ステップにおいて抽出された専門用語の抽出を行なうことを特徴とする。
さらに、本発明の文書解析方法の一実施態様において、前記専門用語抽出ステップは、専門用語を格納した専門語彙リソース保持手段の格納データを参照して入力テキストに含まれる専門用語を抽出する処理を実行するステップを含むことを特徴とする。
さらに、本発明の文書解析方法の一実施態様において、前記閾値は、解析対象となる専門分野のテキスト解析結果を利用した学習によって設定された閾値であることを特徴とする。
さらに、本発明の第3の側面は、
文書解析装置において文書解析処理実行させるコンピュータ・プログラムであり、
文連結度判定手段において、入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアを含む2つの文が重文として成立する確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定させる文連結度判定ステップと、
テキスト分割手段に、前記文連結度判定ステップにおいて設定された文集合を単位として、前記入力テキストを分割させるテキスト分割ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアを含む2つの文が重文として成立する確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定し、設定した文集合を単位として入力テキストを分割する。この分割単位である文集合を単位として情報抽出ルールを適用した情報抽出処理を実行することで、意味のつながりのある文のまとまりを単位とした情報抽出が可能となり的確な情報抽出が実現される。
以下、図面を参照しながら本発明の一実施形態に係る文書解析装置、および文書解析方法、並びにコンピュータ・プログラムの詳細について説明する。
図1に本発明の一実施形態に係る文書解析装置100の構成図を示す。本発明の文書解析装置100は、専門用語抽出手段111、専門語彙リソース保持手段112、文連結度判定手段113、重文確率値格納手段114、テキスト分割手段115、情報抽出手段116を有する。
本発明の文書解析装置100は、処理対象としてのテキスト文を入力して、意味的なまとまりを考慮した文の分割を実行する。特に、既存のテキスト分割手法では適切な分割が実行できない医療分野などの専門分野の文について適切な分割を実現する。なお、以下において説明する実施例では、専門分野の1つとして医療分野のテキストを入力して処理を行なう例について説明する。
以下では、テキスト分割を行なう医療ドキュメントとして読影レポートを処理対象とする。読影レポートは、例えばMRIやCTなどの医療機器によって撮影した患者の患部について医者の所見を記述したレポートである。
読影レポート中のテキストは、基本的に患部のMRIやCTなど撮影上の特徴を記述し所見を述べる文とそれに対する医師の判断を記述する文に分かれている。
図1に示す文書解析装置100に処理対象としての読影レポートを入力し、読影レポートから効率的な情報抽出を行うための適切なテキスト分割を行う。なお、医療ドキュメントからの情報抽出処理として行なわれる処理としては、例えば、医療用語間、あるいは医療用語と動詞などの一般用語との間の関係を抽出する処理などである。このような情報抽出処理を行なう場合、情報抽出対象となる文の区切りを明確にすることかせ処理の効率化および精度を高めるために有効となる。
本発明では、大量の医療ドキュメントから抽出した「重文の述語の動詞連続に関する確率値」を利用して、文と文の間の連結度を計算し、既存の短文を対象とした情報抽出ルールの適用範囲を拡張した処理を行なう。
重文とは、独立した二つ以上の文が並列した状態で結合した文のことである。読影レポートでは「Aが見られ、Bも見られる。」といった頻出の動詞(「見られる」など医師が観察した結果を表す動詞は頻出する)が連なる重文がよく出現する。
また、同時に「Aが見られる。また、Bも見られる。」といった上記の重文と類似した文の連なりもよく観察される。
「重文の述語の動詞連続に関する確率値」とは、ある動詞が重文の最右述語と成った場合に、その動詞にどんな動詞が先立って現われやすいかを表す確率値である。
本発明では、文の連なりを「重文の述語の動詞連続に関する確率値」を用いて重文に類似した連なりか否かを判定し、文の集合を重文として処理することで、既存の短文を対象とした情報抽出ルールの適用範囲を拡張する。
また、重文に類似する文のみを繋げることで、情報抽出ルールを関連の強い文集合のみに適切に適用することができる。上記の例は情報抽出タスクにおける利得であるが、情報検索においても読影レポートを適切に分割することで検索精度の向上などが見込まれる。
以下、図1に示す文書解析装置の実行する処理について説明する。各構成部の処理について順次説明する。
[専門用語抽出手段111]
専門用語抽出手段111は、処理対象とするテキストから専門用語を抽出する。本実施例では読影レポート中のテキストから医療用語を抽出する。
専門用語抽出手段111における専門用語抽出のために、あらかじめ抽出対象となる専門語彙と抽出ルールを専門語彙リソース格納手段112に格納しておき、専門語彙リソース格納手段112に格納された専門語彙と抽出ルールを用いて、処理対象テキストから専門用語を抽出する。
本実施例では、専門語彙リソース格納手段112には、医療ドキュメント中から抽出された医療語彙と抽出ルールを格納している。医療語彙の種類としては、病名(disease)や部位名(anatomy)、病状(semi−disease)、領域(area)、MRIなどの像に関する名詞<signal−result>読影レポートで頻繁に使われる汎用医療名詞名詞(medical−general)、さらには、門(mon)や性(sei)などの医療語彙に特徴的に現われる接辞などが挙げられる。
専門用語抽出手段111は、専門語彙リソース格納手段112に格納された情報を利用して、処理対象とするテキストから専門用語を抽出する。
以下に、
(a)処理対象テキストと、
(b)用語の抽出例、
を示す。なお専門用語抽出手段111は、医療用語の抽出に際して、抽出した用語に対して医療語彙の種類を区別するタグを設定する。
(a)処理対象テキスト
「脳血管障害に伴う信号変化が考えられ、脊髄小脳変性症が加わる所見と思われる。」
(b)用語抽出例
<disease>脳血管障害</disease>に伴う<signal−result>信号</signal−result><medical−general>変化</medical−general>が考えられ、<disease>脊髄小脳変性症</disease>が加わる所見と思われる。
本実施例では、このように、専門用語(医療用語)を抽出したあと、係り受け解析処理を行うなどして、システムが処理しやすい形にしたうえで文の分割および情報抽出を行う。
[専門語彙リソース格納手段112]
専門語彙リソース格納手段112は、上記した専門語彙抽出手段111で用いる専門語彙と抽出ルールを格納している。本実施例では、専門語彙リソース格納手段112には、医療ドキュメント中から抽出された医療語彙と抽出ルールを格納している
専門語彙リソース格納手段112は、予め設定したカテゴリごとの語彙リストを保持している。例えば、本実施例による医療語彙リストでは、「肉芽腫」や「Cancer」などのような表現が病名(disease)リストに、また「冠動脈」などの表現が部位名(anatomy)リストに記述されている。
また、専門語彙リソース格納手段112は、「腫瘍性」のように、ある医療用語に対する修飾表現(「腫瘍性病巣」などのように用いる)や「骨形成領域」などの複合名詞として出現する医療用語を抽出する際に用いる抽出ルールも格納している。これらの医療用語の抽出処理を行なう場合は、語彙リストだけでは対応できないため、このような抽出ルールを利用する。
「腫瘍性」のような他の医療用語を修飾する表現などを抽出する際、例えば、全ての「〜性」の表現をリストとしてシステムが所有することは現実的ではない。このような「〜性」の表現は医師がレポートを作成する際に、他の医療語彙を用いて動的に作成されることが多いからである。よって、本実施例では、専門用語(医療用語)抽出ルールとして以下のようなルールを定め、専門語彙リソース格納手段112に格納し、専門用語抽出手段111は、このようなルールを用いて用語抽出を行なう。
例えば、処理対象テキスト内に以下の文字列、
[disease]性
[anatomy]萎縮性
このような文字列が検出された場合、これらの文字列を専門用語として抽出するというルールである。
括弧[・・・]の中のdiseaseやanatomyは任意の病名、任意の部位名をそれぞれ表し、専門用語抽出手段111は、処理対象とするテキスト中に、上記の文字列、[disease]性、[anatomy]萎縮性、これらが検出された場合、これらの文字列を専門用語として抽出する。
すなわち、「性」に「任意の病名」が前接する場合や「萎縮性」に「任意の部位名」が前接する場合には、それは「〜性」を表す一連の医療用語であるとして抽出する。例えば、「性」に「腫瘍」という病名が接するような場合には、「腫瘍性」を1形態素として抽出する。
[文連結度判定手段113]
文連結度判定手段113では重文確率分布格納手段114に格納されている確率値を用いて、処理対象としているテキスト中に含まれる複数の文の間の重文らしさを計算し、閾値を超えた場合にその二つの文の間にリンクを張る。リンクの設定された複数の文は、以下の処理において、1つの文として処理を行う。
文連結度判定手段113の実行する処理の具体例について説明する。
処理対象テキストを以下のテキストとする。
[処理対象テキスト]
「左側頭葉から頭丁にかけての出血領域範囲には経時的変化が見られ、血腫の量にも変化が考えられます。また、小脳には萎縮が見られ、中脳および脳幹にも萎縮が見られる。中脳および橋には梗塞も見られる。脳血管障害に伴う信号変化が考えられる、脊髄小脳変性症が加わる所見と思われる」
このテキストに対して、専門用語抽出手段111の専門用語抽出結果として、以下のような抽出用語の種類を区別するタグが設定された文が生成される。例示のため、タグを日本語で記述している。
[専門用語抽出&タグ設定テキスト]
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ、血腫(病名)の量にも変化(医療汎用)が考えられます。また、小脳(部位)には萎縮(病状)が見られ、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる。中脳(部位)および橋(部位)には梗塞(病名)も見られる。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる。」
文連結度判定手段113では、専門用語抽出手段111から例えば上記のタグ設定テキストを入力し、述語動詞(句読点の直前の文節にある動詞)に識別子(ID)を設定し、各動詞の位置を文ごとに配列する。上記テキストに対する識別子(ID)設定例を以下に示す。
[識別子設定テキスト]
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。また、小脳(部位)には萎縮(病状)が見られ(ID2)、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる(ID3)。中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。」
文連結度判定手段113は、各動詞の位置を文ごとに配列する。
上記の処理テキストに含まれる文は、
文1:左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。
文2;また、小脳(部位)には萎縮(病状)が見られ(ID2)、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる(ID3)。
文3:中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。
文4:脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。
これらの4つの文である。
これらの4つの文に含まれる述語動詞(句読点の直前の文節にある動詞)に識別子(ID)を設定した結果として、ID0〜ID6の6つの識別子が設定され、これらを文ごとに配列すると、動詞の配列は、
文1=[ID0、ID1]、
文2=[ID2,ID3]、
文3=[ID4]、
文4=[ID5,ID6]
となる。
次に、文連結度判定手段113は、各文に含まれる述語動詞中、文の先頭部に近い位置にある最左述語動詞を取り出し、最左述語動詞を取り出した文の前の文に含まれる述語動詞中、文の末尾に近い位置にある最右述語動詞を取り出して、これらの抽出述語動詞の識別子(ID)についての組(述語動詞ペア)を作る。上記テキストに対して以下の組(述語動詞ペア)が作成される。
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
次に、文連結度判定手段113は、上記の組(述語動詞ペア)ごとに、それぞれの述語のペアを含む2つの文が重文として成立する確率値(重文確率値)を、重文確率格納手段114に格納されたデータを利用して得る。重文確立値とは、2つの文が、意味の連続する1つの文として解釈することが適切である確率値に相当する。
例えば、
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
この述語動詞ペアに含まれる「考えられます」と「見られる」の組を「左の動詞の原型、最右の動詞」の組に変換し、
「考える,見られる」
を得る。
そして、重文確率格納手段114に記録されている確率値データから以下の重文確率値(P)を得る。
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579
重文確率値格納手段114は、「重文の述語の動詞連続に関する確率値」を格納している。この重文確率値格納手段114に格納された確率値は予め大量の医療ドキュメントを解析することで取得されたデータである。上記の述語動詞の組(1)〜(3)の各々について、重文確率値格納手段114の格納データに基づいて以下のような重文確率値(P)が得られる。
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579、
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.65133、
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「考えられる」が重文の最右述語になる)
=0.3996
次に、文連結度判定手段113は、上記の述語動詞の組(1)〜(3)の各々についての重文確率値(P)が、予め設定した閾値を超えているか否かを判定し、閾値を超えている場合には、述語動詞ペアを構成する述語動詞の間に重文関係を認めるリンクを設定する。
なお、重文確率値(P)と比較する閾値は、テキスト解析を実行するアプリケーションプログラムに予め設定した値、あるいは、オペレータが、入力した値を適用する。なお、閾値は、処理対象とする専門分野のテキスト解析の結果を利用した学習によって設定してもよい。本実施例では、実際の医療ドキュメント中の重文を観察して手動で閾値を[0.05]と設定した。
例えば、
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579、
この重文確率値[0.00579]は、閾値[0.05]以下であり、これらの動詞間にリンクは設定しない。
閾値[0.05]を適用した場合、処理テキストから抽出した上記の述語動詞の組(1)〜(3)の各々について、以下のようなリンク設定となる。
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579、
P=0.00579<0.05であり、リンクは設定しない。
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.65133、
P=0.65133>0.05であり、リンクを設定する。
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「考えられる」が重文の最右述語になる)
=0.3996
P=0.3996>0.05であり、リンクを設定する。
上記の処理例では、ID3とID4の述語動詞のペアとID4とID5の述語動詞のペア間にリンクが設定される。リンクの設定された述語動詞ペアを含む複数の文は、後述の処理において1つの文として解釈され処理が行なわれる。すなわち、リンクの設定された述語動詞ペアを含む複数の文の間には区切りを設定せず、1つの文として処理がなされる。
[重文確率値格納手段114]
重文確率値格納手段114は、上述したように「重文の述語の動詞連続に関する確率値、すなわち重文確率値」を格納した記憶部である。これは、大量の専門分野のテキスト、本例では医療ドキュメントを言語解析し、医療ドキュメント中に出現した重文の解析によって得られるデータである。
図2は、重文確率値格納手段114に格納されたデータの一例を示す図である。重文確率値格納手段114には、2つの連続する文を重文として解釈することが適切であるか否かを示す重文確率値が格納される。図2は、「見られる」が2つの文の先行する文における最右述語動詞として出現した際、後続する文における最左述語動詞として出現した動詞ごとの重文確率値を示している。
図2に示すように、
先行文の最右述語動詞「見られる」と後続文の最左述語動詞「見る」の組(述語動詞ペア)に対応する重文確率値は0.6513、
先行文の最右述語動詞「見られる」と後続文の最左述語動詞「比較する」の組(述語動詞ペア)に対応する重文確率値は0.0378、
先行文の最右述語動詞「見られる」と後続文の最左述語動詞「目立つ」の組(述語動詞ペア)に対応する重文確率値は0.0277、
先行文の最右述語動詞「見られる」と後続文の最左述語動詞「示す」の組(述語動詞ペア)に対応する重文確率値は0.0187、
先行文の最右述語動詞「見られる」と後続文の最左述語動詞「ある」の組(述語動詞ペア)に対応する重文確率値は率0.0185、
このようなデータとして重文確率値格納手段114に格納される。
このデータは、大量の専門分野のテキスト、本例では医療ドキュメントを言語解析し、医療ドキュメント中に出現した重文の解析によって得られるデータである。重文確率値格納手段114には、「見られる」以外の「思われる」や「指摘できる」など、医療ドキュメントに出現する様々な動詞についての重文確率値が格納されている。
なお、重文確率値の算出式は例えば以下の式として示される。すなわち、ある動詞Aと動詞Bがあり、動詞Bが、ある文の最右述語動詞である時に、動詞Aが先行する文における述語動詞である場合の重文確率値(P)は以下の式によって計算される。
P=(動詞Bが最右述語となる重文中で動詞Aが述語動詞となる頻度)/(動詞Bが重文の最右述語となる頻度)
[テキスト分割手段115]
テキスト分割手段115では、文連結度判定手段113においてリンクが設定された述語動詞を持つ文をまとめ上げて1つの文と判断して、処理対象とするテキストを分割する。すなわち、動詞述語ID間にリンクが設定された動詞同士および同文に含まれる述語動詞ID同士をまとめる。
上述のテキストに対する処理例について説明する。
[識別子設定テキスト]は、
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。また、小脳(部位)には萎縮(病状)が見られ(ID2)、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる(ID3)。中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。」
である。
このテキストに含まれる文は、
文1:左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。
文2;また、小脳(部位)には萎縮(病状)が見られ(ID2)、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる(ID3)。
文3:中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。
文4:脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。
これらの4つの文である。
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579、
P=0.00579<0.05であり、リンクは設定しない。
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.65133、
P=0.65133>0.05であり、リンクを設定する。
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「考えられる」が重文の最右述語になる)
=0.3996
P=0.3996>0.05であり、リンクを設定する。
このようなリンク設定がなされている。
テキスト分割手段115では、文連結度判定手段113においてリンクが設定された述語動詞を持つ文をまとめ上げて1つの文と判断して、処理対象とするテキストを分割する。すなわち、動詞述語ID間にリンクが設定された動詞同士および同文に含まれる述語動詞ID同士をまとめる。
この処理の結果として、
集合0[ID0,ID1]、
集合1[ID2,ID3,ID4,ID5,ID6]、
これらの2つの集合に区分される。
この集合ごとに文を区切ると以下のようになる。
集合0:「左側頭葉(部位)の出血領域範囲には経時的変化(医療汎用)は見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。」
集合1:「また、小脳(部位)には萎縮(病状)が見られ(ID2)、脳幹(部位)にも萎縮(病状)が見られる(ID3)。中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。」
このように、テキスト分割手段115では、文連結度判定手段113においてリンクが設定された述語動詞を持つ文をまとめ上げて1つの文と判断して、処理対象とするテキストを分割する。
[情報抽出手段116]
情報抽出手段116では、既存の1文を対象とした情報抽出ルールを用いて医療ドキュメントから情報を抽出する。この時、テキスト分割手段115の処理によって得られた文集合に対し、文集合内の文は重文の構造を持つと見なして情報抽出ルールを適用する。例えば、情報抽出タスクとして、
「ある医師の病名に関する所見と関係する部位集合」
このような用語の抽出を行なうタスクを想定する。
このタスクを実行する場合に、以下の情報抽出ルールを適用する。
[情報抽出ルール]:「病名」が「思われる」や「考えられる」に係る文がある場合(条件部部分)、同文内の「部位」を「所見と関係する部位集合」として抽出する。
なお、このようなルールは1文の構造から容易に作成することが可能である。
本発明の構成では、この情報抽出ルールを、テキスト分割手段115において設定した文集合ごとに適用する。すなわち、以下の[文集合0]と、[分集合1]の各々について個別に上記ルールを適用して語の抽出を行なう。
集合0:「左側頭葉(部位)の出血領域範囲には経時的変化(医療汎用)は見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。」
集合1:「また、小脳(部位)には萎縮(病状)が見られ(ID2)、脳幹(部位)にも萎縮(病状)が見られる(ID3)。中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。」
上記の[文集合0]と[文集合1]の各々に対して、以下のルール、すなわち、
[情報抽出ルール]:「病名」が「思われる」や「考えられる」に係る文がある場合(条件部部分)、同文内の「部位」を「所見と関係する部位集合」として抽出する。
この情報抽出ルールを適用した場合、
条件部部分:「「病名」が「思われる」や「考えられる」に係る文」にマッチした条件部部分を「・・・」で示し、
[同文内の「部位」を「所見と関係する部位集合」として抽出]される抽出部位を[・・・]として示すと以下のようになる。
集合0
[左側頭葉(部位)]から[頭頂上(部位)]にかけての出血領域範囲には大きな経時的変化(医療汎用)は見られず(ID0)、「血腫(病名)の量にも変化(医療汎用)が考えられる(ID1)」。
集合1
また、[小脳(部位)]には萎縮(病状)が見られ(ID2)、[脳幹幹(部位)]にも萎縮(病状)が見られる(ID3)。[中脳(部位)]および[橋(部位)]には梗塞(病名)も見られる(ID4)。「脳血管障害(病名)に伴う信号変化(医療汎用)が考えられ(ID5)」、「脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)」。
上述の処理において、処理テキストには、文が4つ含まれているが、集合0は1つの文、集合1は3つの文を1つの文とみなして処理を行なっている。この結果として、適切な用語の抽出が実現されている。なお、情報抽出手段116は、文集合を単位として情報抽出ルールを適用した情報抽出処理により、例えば専門用語抽出手段111において抽出された専門用語の抽出を行なう。
本発明の構成では、所定の条件を満たす述語ペアのリンク設定により文集合を生成し、情報抽出ルールの適用をそれぞれの文集合単位で実行する。
上記の処理例において、
ルールの条件部:『「病名」が「思われる」や「考えられる」に係る文がある場合』にマッチする部分は、上記のように、集合0内と集合1内の「・・・」部分である。
このルールの適用により抽出される語は以下の通りである。
文集合0からは、病名「血腫」に対応する部位名「左側頭葉、頭頂」が抽出される。
文集合1からは、病名の集合「脳血管障害、脊髄小脳変性症」に対応する部位名の集合「小脳、脳幹、中脳、橋」のが抽出される。
これらの抽出語は、それぞれ「医師の病名に関する所見と関係する部位集合」の関係として抽出される。
このように、本発明の構成では、用語抽出における抽出単位を個別の文単位とするのではなく、所定の条件を満足する複数の文を連結して1つの文としてみなして設定した文集合を用語抽出処理の単位としている。既存の単語ベクトルに基づく分割システムを適用した場合、上記の例文は単語の分布がスパースであるため、このような分割は不可能である。
本発明による処理と既存の情報抽出システムとの比較のため、上記処理例について、文集合0と文集合1に分割しない場合を考えてみる。前述したように、処理テキストには、文が4つ含まれ、本発明の処理では、集合0を1つの文、集合1を3つの文を1つの文とみなした処理を行なっている。
集合1に含まれる3つの文(文2〜文4)をそれぞれ区分して、個別の文として各文単位で、上記の情報抽出ルール、すなわち、
[情報抽出ルール]:「病名」が「思われる」や「考えられる」に係る文がある場合(条件部部分)、同文内の「部位」を「所見と関係する部位集合」として抽出する。
このルールを適用した場合を考える。
文1:左側頭葉(部位)から頭頂上(部位)にかけての出血領域範囲には大きな経時的変化(医療汎用)は見られず(ID0)、「血腫(病名)の量にも変化(医療汎用)が考えられる(ID1)」。
文2:小脳(部位)には萎縮(病状)が見られ(ID2)、脳幹幹(部位)にも萎縮(病状)が見られる(ID3)。
文3:中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。
文4:「脳血管障害(病名)に伴う信号変化(医療汎用)が考えられ(ID5)」、「脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)」。
情報抽出ルールの条件部にマッチする部分「・・・」は[文1]と、[文4]のみに存在しており、例えば[文2]にはルールの条件部にマッチする部分は存在しない。従って、[文2]に含まれる部位名「小脳、脳幹、橋」は、ルールの条件部にマッチする文の外にあるため、取得できない。
また、部位の抽出を条件部がマッチする前文に遡って適用するように拡張した場合、今度は[文4]に含まれる「脳血管障害、脊髄小脳変性症」とは関係のない[文1]内の「左側頭葉、頭頂」までが関係のある部位名として取得されてしまう。
これに対して、本発明による処理では、関連の強い文集合を動詞が重文との類似する確率値に基づいて生成し、その文集合内の文に対して、1文を想定した情報抽出が適用されるので、適切な情報抽出が可能となる。
このように、本発明の構成では、文連結度判定手段113が、処理対象テキストに含まれる文中から、
文の先頭部に近い位置にある最左述語動詞、
最左述語動詞を取り出した文の前の文に含まれる文末尾に近い位置にある最右述語動詞、
これらの述語動詞を取り出して、これらの抽出述語動詞の組(述語動詞ペア)を作り、各組(述語動詞ペア)ごとに、それぞれの述語のペアを含む2つの文が重文として成立する確率値(重文確率値)を、重文確率格納手段114に格納されたデータを利用して取得し、その重文確立値が予め設定した閾値を超えている場合に、2つの文が、意味の連続する1つの文として解釈する重文であると判断し、情報抽出手段116における情報抽出処理に際して、1つの分として用語の抽出ルールを適用する単位とする。この処理によって、意味的に連続した複数の文が分割されずに1つの文として抽出ルールが適用されるので、適切な用語抽出が可能となる。
次に、図3に示すフローチャートを参照して本発明の文書解析装置の実行する処理シーケンスについてまとめて説明する。
まず、処理対象テキストに対して、ステップS101において専門語彙の抽出を行なう。この処理は、図1に示す文書解析装置100の専門用語抽出手段111の処理である。専門用語抽出手段111は、処理対象とするテキストから専門用語を抽出する。例えば医療文書としての読影レポートを処理対象テキストとしている場合、テキストから医療用語を抽出する。なお、この専門用語抽出手段111における専門用語抽出には、専門語彙リソース格納手段112に格納された専門語彙と抽出ルールを用いることができる。
例えば先に説明したように、専門語彙リソース格納手段112には、医療ドキュメント中から抽出された医療語彙と抽出ルールを格納しており、病名(disease)や部位名(anatomy)、病状(semi−disease)、領域(area)、MRIなどの像に関する名詞<signal−result>読影レポートで頻繁に使われる汎用医療名詞名詞(medical−general)、さらには、門(mon)や性(sei)などの医療語彙に特徴的に現われる接辞などのデータが格納されている。
なお、専門用語抽出手段111は、ステップS101において専門語彙リソース格納手段112の格納データである専門語彙と抽出ルールを適用して専門用語(医療用語)を抽出し、抽出用語の種類を区別するタグが設定された文を生成する。例えば、以下のような文である。
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ、血腫(病名)の量にも変化(医療汎用)が考えられます。また、小脳(部位)には萎縮(病状)が見られ、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる。中脳(部位)および橋(部位)には梗塞(病名)も見られる。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる。」
なお、さらに処理テキストの係り受け解析処理を行い、係り受け解析処理結果をステップS102以下の処理において利用する設定としてもよい。
次に、ステップS102において、専門(医療)ドキュメント中の述語動詞を抽出し、文ごとに配列する。この処理は、図1に示す文書解析装置100の文連結度判定手段113の処理である。
文連結度判定手段113は上記のタグ設定テキストを入力し、述語動詞(句読点の直前の文節にある動詞)に識別子(ID)を設定し、各動詞の位置を文ごとに配列する。処理テキストに含まれる文は、
文1:左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。
文2;また、小脳(部位)には萎縮(病状)が見られ(ID2)、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる(ID3)。
文3:中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。
文4:脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。
これらの4つの文であり、これらの4つの文に含まれる述語動詞(句読点の直前の文節にある動詞)に識別子(ID)を設定した結果として、ID0〜ID6の6つの識別子が設定され、これらを文ごとに配列すると、動詞の配列は、
文1=[ID0、ID1]、
文2=[ID2,ID3]、
文3=[ID4]、
文4=[ID5,ID6]
となる。
次に、ステップS103において、文ごとに配列した述語動詞の組(述語動詞ペア)を作る。この処理も文連結度判定手段113の処理であり、文連結度判定手段113は各文に含まれる述語動詞中、文の先頭部に近い位置にある最左述語動詞を取り出し、最左述語動詞を取り出した文の前の文に含まれる述語動詞中、文の末尾に近い位置にある最右述語動詞を取り出して、これらの抽出述語動詞の識別子(ID)についての組(述語動詞ペア)を作る。上記テキストに対して以下の組(述語動詞ペア)が作成される。
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
次に、ステップS104において、文連結度判定手段113は、上記の組(述語動詞ペア)ごとに、それぞれの述語のペアを含む2つの文が重文として成立する確率値(重文確率値)を、重文確率格納手段114に格納されたデータを利用して得る。重文確立値とは、2つの文が、意味の連続する1つの文として解釈することが適切である確率値に相当する。
重文確率値格納手段114は、先に図2を参照して説明したように、2つの連続する文を重文として解釈することが適切であるか否かを示す重文確率値が格納される。図2は、「見られる」が2つの文の先行する文における最右述語動詞として出現した際、後続する文における最左述語動詞として出現した動詞ごとの重文確率値を示している。
文連結度判定手段113は、上記の述語動詞の組(1)〜(3)の各々について、重文確率値格納手段114の格納データに基づいて以下のような重文確率値(P)を得る。
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579、
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.65133、
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「考えられる」が重文の最右述語になる)
=0.3996
次に、ステップS105〜S106において、文連結度判定手段113は、上記の述語動詞の組(1)〜(3)の各々についての重文確率値(P)が、予め設定した閾値を超えているか否かを判定し、閾値を超えている場合には、述語動詞ペアを構成する述語動詞の間に重文関係を認めるリンクを設定する。
なお、重文確率値(P)と比較する閾値は、テキスト解析を実行するアプリケーションプログラムに予め設定した値、あるいは、オペレータが、入力した値を適用する。なお、閾値は、処理対象とする専門分野のテキスト解析の結果を利用した学習によって設定してもよい。閾値[0.05]を適用した場合、処理テキストから抽出した上記の述語動詞の組(1)〜(3)の各々について、以下のようなリンク設定となる。
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
P=0.00579<0.05であり、リンクは設定しない。
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
P=0.65133>0.05であり、リンクを設定する。
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
P=0.3996>0.05であり、リンクを設定する。
上記の処理例では、ID3とID4の述語動詞のペアとID4とID5の述語動詞のペア間にリンクが設定される。ステップS107では、全ての述語動詞ペアの判定が終了したか否かを判定し、未終了の場合は、ステップS104に戻り、未処理の述語動詞ペアの判定を実行する。
全ての述語動詞ペアの判定が終了するとステップS108に進み、リンクを持つ動詞を含む文を連結することで文集合を生成しテキストを分割する。この処理は図1に示す文書解析装置100のテキスト分割手段115の処理として実行される。
テキスト分割手段115では、文連結度判定手段113においてリンクが設定された述語動詞を持つ文をまとめ上げて1つの文と判断して、処理対象とするテキストを分割する。すなわち、動詞述語ID間にリンクが設定された動詞同士および同文に含まれる述語動詞ID同士をまとめる。
リンクの設定された述語動詞ペアを含む複数の文、この場合ID3〜ID5を含む文は、後述の処理において1つの文として解釈され処理が行なわれる。すなわち、リンクの設定された述語動詞ペアを含む複数の文の間には区切りを設定せず、1つの文として処理がなされる。上述のテキストでは、
集合0[ID0,ID1]、
集合1[ID2,ID3,ID4,ID5,ID6]、
これらの2つの文集合に区分される。
最後に、ステップS109において、文集合ごとに情報抽出ルールを適用した情報抽出処理を行う。この処理は、図1に示す文書解析装置100の情報抽出手段116の処理として行なわれる。情報抽出手段116では、テキスト分割手段115のステップS108の処理によって得られた文集合を、1つの情報抽出ルール適用単位として設定した処理を実行する。
例えば、前述した実施例において説明したように、「ある医師の病名に関する所見と関係する部位集合」このような用語の抽出を行なうタスクを実行する場合のルールとして、
[情報抽出ルール]:「病名」が「思われる」や「考えられる」に係る文がある場合(条件部部分)、同文内の「部位」を「所見と関係する部位集合」として抽出する。
このようなルールの適用単位を、文集合ごと、すなわち、[文集合0]と、[分集合1]の各々について個別に上記ルールを適用して語の抽出を行なう。
このような処理の結果として、
文集合0から、[左側頭葉(部位)]、[頭頂上(部位)]が抽出され、
文集合1から、[小脳(部位)]、[脳幹幹(部位)]、[中脳(部位)]、[橋(部位)]、
これらの語が抽出されることになる。
このように、本発明の構成では、所定の条件を満たす述語ペアのリンク設定により文集合を生成し、情報抽出ルールの適用をそれぞれの文集合単位で実行する構成とたことで、意味のまとまりのある複数の文を1つの文として設定することが可能となり、用語抽出ルールの適用単位としての最適な文の区切り設定が可能となる。すなわち、本発明の処理によって、意味的に連続した複数の文が分割されずに1つの文として抽出ルールが適用されるので、適切な用語抽出が可能となる。
[重文確率値の設定を学習によって実行する処理例]
上述した実施例では、複数の文を1つの文として解釈するか否かを判定するために、重文確率値(P)が閾値より大きいか否かを判定していた。このときに適用する重文確率値(P)と比較する閾値は、テキスト解析を実行するアプリケーションプログラムに予め設定した値、あるいは、オペレータが、入力した値を適用するものとしていた。
先にも簡単に説明したが、閾値は処理対象とする専門分野のテキスト解析の結果を利用した学習によって設定してもよい。例えば、医療分野のテキストの一例である実際の読影レポートには、医師が読影を行う際にフォーカスする部位ごとの所見を記述が段落で綺麗に分けられているものがある。このような読影レポートを十分な量確保できる場合は、その読影レポート集合を正解データとした学習処理によって最適な閾値を定めることが可能である。具体的な手順を以下に説明する。
(ステップ1) 段落が付与された正解読影レポート中の段落区切りをまたいだ文のペアを取り出す。
(ステップ2) 文ペアから、前の文の最右述語動詞と後ろの文の最左述語動詞とのペアを取り出し、これを「段落境界動詞ペア」とする。
(ステップ3) 正解読影レポート中に出現した重文の述語動詞の連続を集め、重複を取り除いた「重文中動詞連続パターン」とする。これは、正解読影レポート中の重文中に出現した動詞の組合せの種類に相当する。
(ステップ4) 「段落境界動詞ペア」のうち「重文中動詞連続パターン」にマッチするものの数をカウントする。
(ステップ5) 以下の算出式に従って閾値を決定する。
閾値=(段落境界動詞ペアが「重文動詞連続パターン」にマッチする頻度)/(段落境界動詞ペアの頻度)
段落境界は意味の切れ目であり、段落境界動詞ペアは重文としては現われにくい動詞の連なりである。上記の閾値は、重文の類似度で動詞の連なりの度合いを表した際に、意味の切れ目としての判断が失敗する確率を表す。これよりも重文らしさの確率値が大ならばその動詞ペアの連なりは連なっていると判定する。
信頼できる読影レポートから、このような手段で得られた閾値を得ることができれば、人手による閾値の設定が必要なくなる。
最後に、上述した処理を実行する文書解析装置を構成する情報処理装置のハードウェア構成例について、図4を参照して説明する。文書解析装置を構成する情報処理装置は、ハードウェアとしては例えばPCによって実現可能であり、上述した処理を実行するプログラムを実行させることによってデータ処理および表示データの生成、出力などの処理を行なう。CPU(Central Processing Unit)301は、OS(Operating System)に対応する処理や、上述の実施例において説明した専門用語抽出処理、文連結度判定処理、テキスト分割処理、情報抽出処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。
ROM(Read Only Memory)302は、CPU301が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)303は、CPU301の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス304により相互に接続されている。
ホストバス304は、ブリッジ305を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス306に接続されている。キーボード308、ポインティングデバイス309は、ユーザにより操作される入力デバイスである。ディスプレイ310は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
HDD(Hard Disk Drive)311は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU301によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えば、専門語彙リソースや、重文確率値、テキストコーパス、辞書などの格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ312は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース307、外部バス306、ブリッジ305、およびホストバス304を介して接続されているRAM303に供給する。
接続ポート314は、外部接続機器322を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート314は、インタフェース307、および外部バス306、ブリッジ305、ホストバス304等を介してCPU301等に接続されている。通信部7515は、ネットワークに接続され、例えば外部のデータベース401との通信によりデータ検索を実行する。
なお、図4に示す情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の文書解析装置は、図4に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアを含む2つの文が重文として成立する確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定し、設定した文集合を単位として入力テキストを分割する。この分割単位である文集合を単位として情報抽出ルールを適用した情報抽出処理を実行することで、意味のつながりのある文のまとまりを単位とした情報抽出が可能となり的確な情報抽出が実現される。
本発明の一実施例に係る文書解析装置の構成例について示すブロック図である。 本発明の一実施例に係る文書解析装置における重文確率値格納手段の格納データ例について説明する図である。 本発明の一実施例に係る文書解析装置において実行する処理シーケンスについて説明するフローチャートを示す図である。 本発明の一実施形態に係る文書解析装置を構成する情報処理装置のハードウェア構成例について説明する図である。
符号の説明
100 文書解析装置
111 専門用語抽出手段
112 専門語彙リソース保持手段
113 文連結度判定手段
114 重文確率値格納手段
115 テキスト分割手段
116 情報抽出手段
301 CPU(Central Processing Unit)
302 ROM(Read-Only-Memory)
303 RAM(Random Access Memory)
304 ホストバス
305 ブリッジ
306 外部バス
307 インタフェース
308 キーボード
309 ポインティングデバイス
310 ディスプレイ
311 HDD(Hard Disk Drive)
312 ドライブ
314 接続ポート
315 通信部
321 リムーバブル記録媒体
322 外部接続機器
401 データベース

Claims (9)

  1. 文書解析装置であり、
    入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアに含まれる最左述語動詞の前記後続文における出現に先立って、前記最右述語動詞が前記先行文に出現する確率を表す確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定する文連結度判定手段と、
    前記文連結度判定手段において設定された文集合を単位として、前記入力テキストを分割するテキスト分割手段と、
    様々な述語動詞ペアに対応する重文確率値を格納した重文確率格納手段と、
    を有し、
    前記文連結度判定手段は、入力テキストから抽出した述語動詞ペアについての重文確率値を、前記重文確率格納手段の格納データを参照して取得する構成であることを特徴とする文書解析装置。
  2. 前記文書解析装置は、さらに、
    前記テキスト分割手段において設定された文集合を単位として情報抽出ルールを適用した情報抽出処理を実行する情報抽出手段を有することを特徴とする請求項1に記載の文書解析装置。
  3. 前記文書解析装置は、さらに、
    入力テキストに含まれる専門用語を抽出する専門用語抽出手段を有し、
    前記情報抽出手段は、前記文集合を単位とした情報抽出ルール適用処理によって前記専門用語抽出手段において抽出された専門用語の抽出を行なう構成であることを特徴とする請求項2に記載の文書解析装置。
  4. 前記文書解析装置は、さらに、
    専門用語を格納した専門語彙リソース保持手段を有し、
    前記専門用語抽出手段は、前記専門語彙リソース保持手段の格納データを参照して入力テキストに含まれる専門用語を抽出する処理を実行する構成であることを特徴とする請求項に記載の文書解析装置。
  5. 文書解析装置において実行する文書解析方法であり、
    文連結度判定手段が、入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアに含まれる最左述語動詞の前記後続文における出現に先立って、前記最右述語動詞が前記先行文に出現する確率を表す確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定する文連結度判定ステップと、
    テキスト分割手段が、前記文連結度判定ステップにおいて設定された文集合を単位として、前記入力テキストを分割するテキスト分割ステップと、
    を有し、
    前記文連結度判定手段は、入力テキストから抽出した述語動詞ペアについての重文確率値を、様々な述語動詞ペアに対応する重文確率値を格納した重文確率格納手段の格納データを参照して取得する構成であることを特徴とする文書解析方法。
  6. 前記文書解析方法は、さらに、
    情報抽出手段が、前記テキスト分割ステップにおいて設定された文集合を単位として情報抽出ルールを適用した情報抽出処理を実行する情報抽出ステップを有することを特徴とする請求項に記載の文書解析方法。
  7. 前記文書解析方法は、さらに、
    専門用語抽出手段が、入力テキストに含まれる専門用語を抽出する専門用語抽出ステップを有し、
    前記情報抽出ステップは、前記文集合を単位とした情報抽出ルール適用処理によって前記専門用語抽出ステップにおいて抽出された専門用語の抽出を行なうことを特徴とする請求項に記載の文書解析方法。
  8. 前記専門用語抽出ステップは、専門用語を格納した専門語彙リソース保持手段の格納データを参照して入力テキストに含まれる専門用語を抽出する処理を実行するステップを含むことを特徴とする請求項に記載の文書解析方法。
  9. 文書解析装置において文書解析処理実行させるコンピュータ・プログラムであり、
    文連結度判定手段において、入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアに含まれる最左述語動詞の前記後続文における出現に先立って、前記最右述語動詞が前記先行文に出現する確率を表す確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定させる文連結度判定ステップと、
    テキスト分割手段に、前記文連結度判定ステップにおいて設定された文集合を単位として、前記入力テキストを分割させるテキスト分割ステップと、
    を有し、
    前記文連結度判定手段は、入力テキストから抽出した述語動詞ペアについての重文確率値を、様々な述語動詞ペアに対応する重文確率値を格納した重文確率格納手段の格納データを参照して取得する構成であることを特徴とするコンピュータ・プログラム。
JP2007325181A 2007-12-17 2007-12-17 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム Expired - Fee Related JP5151449B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007325181A JP5151449B2 (ja) 2007-12-17 2007-12-17 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007325181A JP5151449B2 (ja) 2007-12-17 2007-12-17 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2009146311A JP2009146311A (ja) 2009-07-02
JP5151449B2 true JP5151449B2 (ja) 2013-02-27

Family

ID=40916817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007325181A Expired - Fee Related JP5151449B2 (ja) 2007-12-17 2007-12-17 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP5151449B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8613248B2 (en) 2005-01-27 2013-12-24 Koninklijke Douwe Egberts B.V. Method and apparatus for preparing a beverage suitable for consumption
US9585511B2 (en) 2004-06-17 2017-03-07 Koninklijke Douwe Egberts B.V. System for preparing portions of a beverage suitable for consumption

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7082333B2 (ja) * 2017-11-30 2022-06-08 学校法人酪農学園 設問自動生成プログラム及び設問自動生成装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4114594B2 (ja) * 2003-10-29 2008-07-09 日本電信電話株式会社 単語重み付け方法及び装置及び単語重み付けプログラム及び単語重み付けプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4350026B2 (ja) * 2004-11-11 2009-10-21 日本電信電話株式会社 話題スコープ抽出装置、その制御方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9585511B2 (en) 2004-06-17 2017-03-07 Koninklijke Douwe Egberts B.V. System for preparing portions of a beverage suitable for consumption
US8613248B2 (en) 2005-01-27 2013-12-24 Koninklijke Douwe Egberts B.V. Method and apparatus for preparing a beverage suitable for consumption

Also Published As

Publication number Publication date
JP2009146311A (ja) 2009-07-02

Similar Documents

Publication Publication Date Title
JP7008772B2 (ja) 電子診療レコードからの医学的状態および事実の自動的特定および抽出
Vijaymeena et al. A survey on similarity measures in text mining
Hornik et al. The textcat package for n-gram based text categorization in R
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
US9684647B2 (en) Domain-specific computational lexicon formation
US11468989B2 (en) Machine-aided dialog system and medical condition inquiry apparatus and method
Coden et al. Spot the drug! an unsupervised pattern matching method to extract drug names from very large clinical corpora
WO2013088287A1 (en) Generation of natural language processing model for information domain
US20150347521A1 (en) Systems and methods for relation extraction for chinese clinical documents
US10157176B2 (en) Information processing apparatus and display method
JP5151449B2 (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
KR101375221B1 (ko) 의료 프로세스 모델링 및 검증 방법
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
US10521507B2 (en) Information processing apparatus and registration method
JP2009048455A (ja) 節間関係推定装置およびコンピュータプログラム
JP5239161B2 (ja) 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム
CN114334049B (zh) 一种电子病历结构化处理方法和装置及设备
Cho et al. Automatic section segmentation of medical reports
Nicholson et al. Interpretation of compound nominalisations using corpus and web statistics
Grechishcheva et al. Risk markers identification in EHR using natural language processing: hemorrhagic and ischemic stroke cases
CN112101034A (zh) 一种判别医学实体的属性的方法、装置及相关产品
Zhai et al. Relation extraction based on fusion dependency parsing from chinese EMRs
Siklósi et al. Identifying and clustering relevant terms in clinical records using unsupervised methods
Saeku et al. Signs and symptoms tagging for Thai chief complaints based on ICD-10
Zhu et al. Extracting temporal information from online health communities

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5151449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees