JP5151449B2 - 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム - Google Patents
文書解析装置、および文書解析方法、並びにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP5151449B2 JP5151449B2 JP2007325181A JP2007325181A JP5151449B2 JP 5151449 B2 JP5151449 B2 JP 5151449B2 JP 2007325181 A JP2007325181 A JP 2007325181A JP 2007325181 A JP2007325181 A JP 2007325181A JP 5151449 B2 JP5151449 B2 JP 5151449B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- predicate
- predicate verb
- heavy
- document analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
IDF(t)=log( N/df(t))
として定義される。IDFは、語tが多くの文書に現われているほど値が小さくなり、特定の文種にしか現われない場合は値が大きくなる値である。また、残差IDFは、実際のIDFの値と推定されたIDFの値から得られる値であり、テキストの内容語ほど差が発生するデータとされる。
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化が見られ、血腫(病名)の量にも変化(医療汎用)が考えられる。また、小脳(部位)には萎縮(病状)が見られ、脳幹(部位)にも萎縮(病状)が見られる。中脳(部位)および橋(部位)には梗塞(病名)も見られる。脳血管障害(病名)に伴う信号変化(医療汎用)と考えられ、脊髄小脳変性症(病名)が加わる所見と思われる。」
「病名」を含む節が「思われる」や「考えられる」に係る文がある場合(条件部部分)、同文内の「部位」を「所見と関係する部位集合」として抽出する。
上記の[例文]に[抽出ルール]がマッチするか否かを調べると、
「脊髄小脳変性症」を含む節が「思われる」に係っており、ルールの条件部部分としてマッチする。
「脳血管障害(病名)に伴う信号変化(医療汎用)と考えられ、脊髄小脳変性症(病名)が加わる所見と思われる。」
この文には「部位」が含まれないので、ルールを適用して情報抽出を行うことはできない。
すなわち、
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化が見られ、血腫(病名)の量にも変化(医療汎用)が考えられる。」
「また、小脳(部位)には萎縮(病状)が見られ、脳幹(部位)にも萎縮(病状)が見られる。中脳(部位)および橋(部位)には梗塞(病名)も見られる。脳血管障害(病名)に伴う信号変化(医療汎用)と考えられ、脊髄小脳変性症(病名)が加わる所見と思われる。」
この2つの文に分割することが適切な分割である。
境界候補1:第1文と第2文の間の共通単語は、第1文に「見る」が第2文に「見る」が2
境界候補2:第2文と第3文の間の共通単語は、第1文に「見る」が第2文に「見る」が2
境界候補3:第2文と第3文の間の共通単語はなし。
文書解析装置であり、
入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアを含む2つの文が重文として成立する確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定する文連結度判定手段と、
前記文連結度判定手段において設定された文集合を単位として、前記入力テキストを分割するテキスト分割手段と、
を有することを特徴とする文書解析装置にある。
文書解析装置において実行する文書解析方法であり、
文連結度判定手段が、入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアを含む2つの文が重文として成立する確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定する文連結度判定ステップと、
テキスト分割手段が、前記文連結度判定ステップにおいて設定された文集合を単位として、前記入力テキストを分割するテキスト分割ステップと、
を有することを特徴とする文書解析方法にある。
文書解析装置において文書解析処理実行させるコンピュータ・プログラムであり、
文連結度判定手段において、入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアを含む2つの文が重文として成立する確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定させる文連結度判定ステップと、
テキスト分割手段に、前記文連結度判定ステップにおいて設定された文集合を単位として、前記入力テキストを分割させるテキスト分割ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
読影レポート中のテキストは、基本的に患部のMRIやCTなど撮影上の特徴を記述し所見を述べる文とそれに対する医師の判断を記述する文に分かれている。
重文とは、独立した二つ以上の文が並列した状態で結合した文のことである。読影レポートでは「Aが見られ、Bも見られる。」といった頻出の動詞(「見られる」など医師が観察した結果を表す動詞は頻出する)が連なる重文がよく出現する。
また、同時に「Aが見られる。また、Bも見られる。」といった上記の重文と類似した文の連なりもよく観察される。
「重文の述語の動詞連続に関する確率値」とは、ある動詞が重文の最右述語と成った場合に、その動詞にどんな動詞が先立って現われやすいかを表す確率値である。
専門用語抽出手段111は、処理対象とするテキストから専門用語を抽出する。本実施例では読影レポート中のテキストから医療用語を抽出する。
以下に、
(a)処理対象テキストと、
(b)用語の抽出例、
を示す。なお専門用語抽出手段111は、医療用語の抽出に際して、抽出した用語に対して医療語彙の種類を区別するタグを設定する。
「脳血管障害に伴う信号変化が考えられ、脊髄小脳変性症が加わる所見と思われる。」
(b)用語抽出例
<disease>脳血管障害</disease>に伴う<signal−result>信号</signal−result><medical−general>変化</medical−general>が考えられ、<disease>脊髄小脳変性症</disease>が加わる所見と思われる。
専門語彙リソース格納手段112は、上記した専門語彙抽出手段111で用いる専門語彙と抽出ルールを格納している。本実施例では、専門語彙リソース格納手段112には、医療ドキュメント中から抽出された医療語彙と抽出ルールを格納している
[disease]性
[anatomy]萎縮性
このような文字列が検出された場合、これらの文字列を専門用語として抽出するというルールである。
括弧[・・・]の中のdiseaseやanatomyは任意の病名、任意の部位名をそれぞれ表し、専門用語抽出手段111は、処理対象とするテキスト中に、上記の文字列、[disease]性、[anatomy]萎縮性、これらが検出された場合、これらの文字列を専門用語として抽出する。
文連結度判定手段113では重文確率分布格納手段114に格納されている確率値を用いて、処理対象としているテキスト中に含まれる複数の文の間の重文らしさを計算し、閾値を超えた場合にその二つの文の間にリンクを張る。リンクの設定された複数の文は、以下の処理において、1つの文として処理を行う。
処理対象テキストを以下のテキストとする。
[処理対象テキスト]
「左側頭葉から頭丁にかけての出血領域範囲には経時的変化が見られ、血腫の量にも変化が考えられます。また、小脳には萎縮が見られ、中脳および脳幹にも萎縮が見られる。中脳および橋には梗塞も見られる。脳血管障害に伴う信号変化が考えられる、脊髄小脳変性症が加わる所見と思われる」
[専門用語抽出&タグ設定テキスト]
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ、血腫(病名)の量にも変化(医療汎用)が考えられます。また、小脳(部位)には萎縮(病状)が見られ、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる。中脳(部位)および橋(部位)には梗塞(病名)も見られる。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる。」
[識別子設定テキスト]
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。また、小脳(部位)には萎縮(病状)が見られ(ID2)、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる(ID3)。中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。」
上記の処理テキストに含まれる文は、
文1:左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。
文2;また、小脳(部位)には萎縮(病状)が見られ(ID2)、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる(ID3)。
文3:中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。
文4:脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。
これらの4つの文である。
文1=[ID0、ID1]、
文2=[ID2,ID3]、
文3=[ID4]、
文4=[ID5,ID6]
となる。
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
この述語動詞ペアに含まれる「考えられます」と「見られる」の組を「左の動詞の原型、最右の動詞」の組に変換し、
「考える,見られる」
を得る。
そして、重文確率格納手段114に記録されている確率値データから以下の重文確率値(P)を得る。
=0.00579
重文確率値格納手段114は、「重文の述語の動詞連続に関する確率値」を格納している。この重文確率値格納手段114に格納された確率値は予め大量の医療ドキュメントを解析することで取得されたデータである。上記の述語動詞の組(1)〜(3)の各々について、重文確率値格納手段114の格納データに基づいて以下のような重文確率値(P)が得られる。
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579、
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.65133、
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「考えられる」が重文の最右述語になる)
=0.3996
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579、
この重文確率値[0.00579]は、閾値[0.05]以下であり、これらの動詞間にリンクは設定しない。
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579、
P=0.00579<0.05であり、リンクは設定しない。
P(「見る」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.65133、
P=0.65133>0.05であり、リンクを設定する。
P(「見る」が重文の述語になる|「考えられる」が重文の最右述語になる)
=0.3996
P=0.3996>0.05であり、リンクを設定する。
重文確率値格納手段114は、上述したように「重文の述語の動詞連続に関する確率値、すなわち重文確率値」を格納した記憶部である。これは、大量の専門分野のテキスト、本例では医療ドキュメントを言語解析し、医療ドキュメント中に出現した重文の解析によって得られるデータである。
先行文の最右述語動詞「見られる」と後続文の最左述語動詞「見る」の組(述語動詞ペア)に対応する重文確率値は0.6513、
先行文の最右述語動詞「見られる」と後続文の最左述語動詞「比較する」の組(述語動詞ペア)に対応する重文確率値は0.0378、
先行文の最右述語動詞「見られる」と後続文の最左述語動詞「目立つ」の組(述語動詞ペア)に対応する重文確率値は0.0277、
先行文の最右述語動詞「見られる」と後続文の最左述語動詞「示す」の組(述語動詞ペア)に対応する重文確率値は0.0187、
先行文の最右述語動詞「見られる」と後続文の最左述語動詞「ある」の組(述語動詞ペア)に対応する重文確率値は率0.0185、
このようなデータとして重文確率値格納手段114に格納される。
テキスト分割手段115では、文連結度判定手段113においてリンクが設定された述語動詞を持つ文をまとめ上げて1つの文と判断して、処理対象とするテキストを分割する。すなわち、動詞述語ID間にリンクが設定された動詞同士および同文に含まれる述語動詞ID同士をまとめる。
[識別子設定テキスト]は、
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。また、小脳(部位)には萎縮(病状)が見られ(ID2)、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる(ID3)。中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。」
である。
文1:左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。
文2;また、小脳(部位)には萎縮(病状)が見られ(ID2)、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる(ID3)。
文3:中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。
文4:脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。
これらの4つの文である。
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579、
P=0.00579<0.05であり、リンクは設定しない。
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.65133、
P=0.65133>0.05であり、リンクを設定する。
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「考えられる」が重文の最右述語になる)
=0.3996
P=0.3996>0.05であり、リンクを設定する。
テキスト分割手段115では、文連結度判定手段113においてリンクが設定された述語動詞を持つ文をまとめ上げて1つの文と判断して、処理対象とするテキストを分割する。すなわち、動詞述語ID間にリンクが設定された動詞同士および同文に含まれる述語動詞ID同士をまとめる。
集合0[ID0,ID1]、
集合1[ID2,ID3,ID4,ID5,ID6]、
これらの2つの集合に区分される。
この集合ごとに文を区切ると以下のようになる。
集合0:「左側頭葉(部位)の出血領域範囲には経時的変化(医療汎用)は見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。」
集合1:「また、小脳(部位)には萎縮(病状)が見られ(ID2)、脳幹(部位)にも萎縮(病状)が見られる(ID3)。中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。」
情報抽出手段116では、既存の1文を対象とした情報抽出ルールを用いて医療ドキュメントから情報を抽出する。この時、テキスト分割手段115の処理によって得られた文集合に対し、文集合内の文は重文の構造を持つと見なして情報抽出ルールを適用する。例えば、情報抽出タスクとして、
「ある医師の病名に関する所見と関係する部位集合」
このような用語の抽出を行なうタスクを想定する。
このタスクを実行する場合に、以下の情報抽出ルールを適用する。
[情報抽出ルール]:「病名」が「思われる」や「考えられる」に係る文がある場合(条件部部分)、同文内の「部位」を「所見と関係する部位集合」として抽出する。
なお、このようなルールは1文の構造から容易に作成することが可能である。
集合0:「左側頭葉(部位)の出血領域範囲には経時的変化(医療汎用)は見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。」
集合1:「また、小脳(部位)には萎縮(病状)が見られ(ID2)、脳幹(部位)にも萎縮(病状)が見られる(ID3)。中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。」
[情報抽出ルール]:「病名」が「思われる」や「考えられる」に係る文がある場合(条件部部分)、同文内の「部位」を「所見と関係する部位集合」として抽出する。
この情報抽出ルールを適用した場合、
条件部部分:「「病名」が「思われる」や「考えられる」に係る文」にマッチした条件部部分を「・・・」で示し、
[同文内の「部位」を「所見と関係する部位集合」として抽出]される抽出部位を[・・・]として示すと以下のようになる。
[左側頭葉(部位)]から[頭頂上(部位)]にかけての出血領域範囲には大きな経時的変化(医療汎用)は見られず(ID0)、「血腫(病名)の量にも変化(医療汎用)が考えられる(ID1)」。
集合1
また、[小脳(部位)]には萎縮(病状)が見られ(ID2)、[脳幹幹(部位)]にも萎縮(病状)が見られる(ID3)。[中脳(部位)]および[橋(部位)]には梗塞(病名)も見られる(ID4)。「脳血管障害(病名)に伴う信号変化(医療汎用)が考えられ(ID5)」、「脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)」。
上記の処理例において、
ルールの条件部:『「病名」が「思われる」や「考えられる」に係る文がある場合』にマッチする部分は、上記のように、集合0内と集合1内の「・・・」部分である。
このルールの適用により抽出される語は以下の通りである。
文集合0からは、病名「血腫」に対応する部位名「左側頭葉、頭頂」が抽出される。
文集合1からは、病名の集合「脳血管障害、脊髄小脳変性症」に対応する部位名の集合「小脳、脳幹、中脳、橋」のが抽出される。
これらの抽出語は、それぞれ「医師の病名に関する所見と関係する部位集合」の関係として抽出される。
[情報抽出ルール]:「病名」が「思われる」や「考えられる」に係る文がある場合(条件部部分)、同文内の「部位」を「所見と関係する部位集合」として抽出する。
このルールを適用した場合を考える。
文2:小脳(部位)には萎縮(病状)が見られ(ID2)、脳幹幹(部位)にも萎縮(病状)が見られる(ID3)。
文3:中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。
文4:「脳血管障害(病名)に伴う信号変化(医療汎用)が考えられ(ID5)」、「脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)」。
また、部位の抽出を条件部がマッチする前文に遡って適用するように拡張した場合、今度は[文4]に含まれる「脳血管障害、脊髄小脳変性症」とは関係のない[文1]内の「左側頭葉、頭頂」までが関係のある部位名として取得されてしまう。
文の先頭部に近い位置にある最左述語動詞、
最左述語動詞を取り出した文の前の文に含まれる文末尾に近い位置にある最右述語動詞、
これらの述語動詞を取り出して、これらの抽出述語動詞の組(述語動詞ペア)を作り、各組(述語動詞ペア)ごとに、それぞれの述語のペアを含む2つの文が重文として成立する確率値(重文確率値)を、重文確率格納手段114に格納されたデータを利用して取得し、その重文確立値が予め設定した閾値を超えている場合に、2つの文が、意味の連続する1つの文として解釈する重文であると判断し、情報抽出手段116における情報抽出処理に際して、1つの分として用語の抽出ルールを適用する単位とする。この処理によって、意味的に連続した複数の文が分割されずに1つの文として抽出ルールが適用されるので、適切な用語抽出が可能となる。
「左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ、血腫(病名)の量にも変化(医療汎用)が考えられます。また、小脳(部位)には萎縮(病状)が見られ、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる。中脳(部位)および橋(部位)には梗塞(病名)も見られる。脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる。」
なお、さらに処理テキストの係り受け解析処理を行い、係り受け解析処理結果をステップS102以下の処理において利用する設定としてもよい。
文1:左側頭葉(部位)から頭丁(部位)にかけての出血領域範囲には経時的変化(医療汎用)が見られ(ID0)、血腫(病名)の量にも変化(医療汎用)が考えられます(ID1)。
文2;また、小脳(部位)には萎縮(病状)が見られ(ID2)、中脳(部位)および脳幹(部位)にも萎縮(病状)が見られる(ID3)。
文3:中脳(部位)および橋(部位)には梗塞(病名)も見られる(ID4)。
文4:脳血管障害(病名)に伴う信号変化(医療系信号)が考えられる(ID5)、脊髄小脳変性症(病名)が加わる所見(医療汎用)と思われる(ID6)。
これらの4つの文であり、これらの4つの文に含まれる述語動詞(句読点の直前の文節にある動詞)に識別子(ID)を設定した結果として、ID0〜ID6の6つの識別子が設定され、これらを文ごとに配列すると、動詞の配列は、
文1=[ID0、ID1]、
文2=[ID2,ID3]、
文3=[ID4]、
文4=[ID5,ID6]
となる。
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
(1)ID1の「考えられます」とID2の「見られ」の組(述語動詞ペア)、
P(「考える」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.00579、
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「見られる」が重文の最右述語になる)
=0.65133、
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
P(「見る」が重文の述語になる|「考えられる」が重文の最右述語になる)
=0.3996
P=0.00579<0.05であり、リンクは設定しない。
(2)ID3の「見られる」とID4の「見られる」の組(述語動詞ペア)、
P=0.65133>0.05であり、リンクを設定する。
(3)ID4の「見られる」とID5の「考えられる」の組(述語動詞ペア)、
P=0.3996>0.05であり、リンクを設定する。
集合0[ID0,ID1]、
集合1[ID2,ID3,ID4,ID5,ID6]、
これらの2つの文集合に区分される。
[情報抽出ルール]:「病名」が「思われる」や「考えられる」に係る文がある場合(条件部部分)、同文内の「部位」を「所見と関係する部位集合」として抽出する。
このようなルールの適用単位を、文集合ごと、すなわち、[文集合0]と、[分集合1]の各々について個別に上記ルールを適用して語の抽出を行なう。
文集合0から、[左側頭葉(部位)]、[頭頂上(部位)]が抽出され、
文集合1から、[小脳(部位)]、[脳幹幹(部位)]、[中脳(部位)]、[橋(部位)]、
これらの語が抽出されることになる。
上述した実施例では、複数の文を1つの文として解釈するか否かを判定するために、重文確率値(P)が閾値より大きいか否かを判定していた。このときに適用する重文確率値(P)と比較する閾値は、テキスト解析を実行するアプリケーションプログラムに予め設定した値、あるいは、オペレータが、入力した値を適用するものとしていた。
(ステップ2) 文ペアから、前の文の最右述語動詞と後ろの文の最左述語動詞とのペアを取り出し、これを「段落境界動詞ペア」とする。
(ステップ3) 正解読影レポート中に出現した重文の述語動詞の連続を集め、重複を取り除いた「重文中動詞連続パターン」とする。これは、正解読影レポート中の重文中に出現した動詞の組合せの種類に相当する。
(ステップ4) 「段落境界動詞ペア」のうち「重文中動詞連続パターン」にマッチするものの数をカウントする。
(ステップ5) 以下の算出式に従って閾値を決定する。
閾値=(段落境界動詞ペアが「重文動詞連続パターン」にマッチする頻度)/(段落境界動詞ペアの頻度)
信頼できる読影レポートから、このような手段で得られた閾値を得ることができれば、人手による閾値の設定が必要なくなる。
111 専門用語抽出手段
112 専門語彙リソース保持手段
113 文連結度判定手段
114 重文確率値格納手段
115 テキスト分割手段
116 情報抽出手段
301 CPU(Central Processing Unit)
302 ROM(Read-Only-Memory)
303 RAM(Random Access Memory)
304 ホストバス
305 ブリッジ
306 外部バス
307 インタフェース
308 キーボード
309 ポインティングデバイス
310 ディスプレイ
311 HDD(Hard Disk Drive)
312 ドライブ
314 接続ポート
315 通信部
321 リムーバブル記録媒体
322 外部接続機器
401 データベース
Claims (9)
- 文書解析装置であり、
入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアに含まれる最左述語動詞の前記後続文における出現に先立って、前記最右述語動詞が前記先行文に出現する確率を表す確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定する文連結度判定手段と、
前記文連結度判定手段において設定された文集合を単位として、前記入力テキストを分割するテキスト分割手段と、
様々な述語動詞ペアに対応する重文確率値を格納した重文確率格納手段と、
を有し、
前記文連結度判定手段は、入力テキストから抽出した述語動詞ペアについての重文確率値を、前記重文確率格納手段の格納データを参照して取得する構成であることを特徴とする文書解析装置。 - 前記文書解析装置は、さらに、
前記テキスト分割手段において設定された文集合を単位として情報抽出ルールを適用した情報抽出処理を実行する情報抽出手段を有することを特徴とする請求項1に記載の文書解析装置。 - 前記文書解析装置は、さらに、
入力テキストに含まれる専門用語を抽出する専門用語抽出手段を有し、
前記情報抽出手段は、前記文集合を単位とした情報抽出ルール適用処理によって前記専門用語抽出手段において抽出された専門用語の抽出を行なう構成であることを特徴とする請求項2に記載の文書解析装置。 - 前記文書解析装置は、さらに、
専門用語を格納した専門語彙リソース保持手段を有し、
前記専門用語抽出手段は、前記専門語彙リソース保持手段の格納データを参照して入力テキストに含まれる専門用語を抽出する処理を実行する構成であることを特徴とする請求項3に記載の文書解析装置。 - 文書解析装置において実行する文書解析方法であり、
文連結度判定手段が、入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアに含まれる最左述語動詞の前記後続文における出現に先立って、前記最右述語動詞が前記先行文に出現する確率を表す確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定する文連結度判定ステップと、
テキスト分割手段が、前記文連結度判定ステップにおいて設定された文集合を単位として、前記入力テキストを分割するテキスト分割ステップと、
を有し、
前記文連結度判定手段は、入力テキストから抽出した述語動詞ペアについての重文確率値を、様々な述語動詞ペアに対応する重文確率値を格納した重文確率格納手段の格納データを参照して取得する構成であることを特徴とする文書解析方法。 - 前記文書解析方法は、さらに、
情報抽出手段が、前記テキスト分割ステップにおいて設定された文集合を単位として情報抽出ルールを適用した情報抽出処理を実行する情報抽出ステップを有することを特徴とする請求項5に記載の文書解析方法。 - 前記文書解析方法は、さらに、
専門用語抽出手段が、入力テキストに含まれる専門用語を抽出する専門用語抽出ステップを有し、
前記情報抽出ステップは、前記文集合を単位とした情報抽出ルール適用処理によって前記専門用語抽出ステップにおいて抽出された専門用語の抽出を行なうことを特徴とする請求項6に記載の文書解析方法。 - 前記専門用語抽出ステップは、専門用語を格納した専門語彙リソース保持手段の格納データを参照して入力テキストに含まれる専門用語を抽出する処理を実行するステップを含むことを特徴とする請求項7に記載の文書解析方法。
- 文書解析装置において文書解析処理実行させるコンピュータ・プログラムであり、
文連結度判定手段において、入力テキストを構成する文から連続する2つの文を取得し、取得した2つの文を先行文と後続文として、後続文中の文先頭部に近い位置にある最左述語動詞と、先行文の文末尾に近い位置にある最右述語動詞を述語動詞ペアとして抽出し、抽出した述語動詞ペアに含まれる最左述語動詞の前記後続文における出現に先立って、前記最右述語動詞が前記先行文に出現する確率を表す確率値である重文確率値を求め、求めた重文確率値を閾値と比較し、閾値より大きい重文確率値を持つ述語動詞ペアを含む複数の文を文集合として設定させる文連結度判定ステップと、
テキスト分割手段に、前記文連結度判定ステップにおいて設定された文集合を単位として、前記入力テキストを分割させるテキスト分割ステップと、
を有し、
前記文連結度判定手段は、入力テキストから抽出した述語動詞ペアについての重文確率値を、様々な述語動詞ペアに対応する重文確率値を格納した重文確率格納手段の格納データを参照して取得する構成であることを特徴とするコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007325181A JP5151449B2 (ja) | 2007-12-17 | 2007-12-17 | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007325181A JP5151449B2 (ja) | 2007-12-17 | 2007-12-17 | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009146311A JP2009146311A (ja) | 2009-07-02 |
JP5151449B2 true JP5151449B2 (ja) | 2013-02-27 |
Family
ID=40916817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007325181A Expired - Fee Related JP5151449B2 (ja) | 2007-12-17 | 2007-12-17 | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5151449B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8613248B2 (en) | 2005-01-27 | 2013-12-24 | Koninklijke Douwe Egberts B.V. | Method and apparatus for preparing a beverage suitable for consumption |
US9585511B2 (en) | 2004-06-17 | 2017-03-07 | Koninklijke Douwe Egberts B.V. | System for preparing portions of a beverage suitable for consumption |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7082333B2 (ja) * | 2017-11-30 | 2022-06-08 | 学校法人酪農学園 | 設問自動生成プログラム及び設問自動生成装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4114594B2 (ja) * | 2003-10-29 | 2008-07-09 | 日本電信電話株式会社 | 単語重み付け方法及び装置及び単語重み付けプログラム及び単語重み付けプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4350026B2 (ja) * | 2004-11-11 | 2009-10-21 | 日本電信電話株式会社 | 話題スコープ抽出装置、その制御方法及びプログラム |
-
2007
- 2007-12-17 JP JP2007325181A patent/JP5151449B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9585511B2 (en) | 2004-06-17 | 2017-03-07 | Koninklijke Douwe Egberts B.V. | System for preparing portions of a beverage suitable for consumption |
US8613248B2 (en) | 2005-01-27 | 2013-12-24 | Koninklijke Douwe Egberts B.V. | Method and apparatus for preparing a beverage suitable for consumption |
Also Published As
Publication number | Publication date |
---|---|
JP2009146311A (ja) | 2009-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7008772B2 (ja) | 電子診療レコードからの医学的状態および事実の自動的特定および抽出 | |
Vijaymeena et al. | A survey on similarity measures in text mining | |
Hornik et al. | The textcat package for n-gram based text categorization in R | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
US9684647B2 (en) | Domain-specific computational lexicon formation | |
US11468989B2 (en) | Machine-aided dialog system and medical condition inquiry apparatus and method | |
Coden et al. | Spot the drug! an unsupervised pattern matching method to extract drug names from very large clinical corpora | |
WO2013088287A1 (en) | Generation of natural language processing model for information domain | |
US20150347521A1 (en) | Systems and methods for relation extraction for chinese clinical documents | |
US10157176B2 (en) | Information processing apparatus and display method | |
JP5151449B2 (ja) | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム | |
KR101375221B1 (ko) | 의료 프로세스 모델링 및 검증 방법 | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
US10521507B2 (en) | Information processing apparatus and registration method | |
JP2009048455A (ja) | 節間関係推定装置およびコンピュータプログラム | |
JP5239161B2 (ja) | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム | |
CN114334049B (zh) | 一种电子病历结构化处理方法和装置及设备 | |
Cho et al. | Automatic section segmentation of medical reports | |
Nicholson et al. | Interpretation of compound nominalisations using corpus and web statistics | |
Grechishcheva et al. | Risk markers identification in EHR using natural language processing: hemorrhagic and ischemic stroke cases | |
CN112101034A (zh) | 一种判别医学实体的属性的方法、装置及相关产品 | |
Zhai et al. | Relation extraction based on fusion dependency parsing from chinese EMRs | |
Siklósi et al. | Identifying and clustering relevant terms in clinical records using unsupervised methods | |
Saeku et al. | Signs and symptoms tagging for Thai chief complaints based on ICD-10 | |
Zhu et al. | Extracting temporal information from online health communities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121119 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5151449 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |