JP5355483B2

JP5355483B2 - 略語完全語復元装置とその方法と、プログラム

Info

Publication number: JP5355483B2
Application number: JP2010097649A
Authority: JP
Inventors: 努平尾; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-04-21
Filing date: 2010-04-21
Publication date: 2013-11-27
Anticipated expiration: 2030-04-21
Also published as: JP2011227749A

Description

この発明は、略語とそれが出現する文脈（略語を含む文書）が与えられた場合に、略語に対する完全語を復元する略語完全語復元装置とその方法と、プログラムに関する。

従来から、略語に対する完全語を復元する手法として次の二つが知られている。その一つは、略語とその完全語の双方が含まれた文書から完全語を復元する手法であり、例えば、非特許文献１に開示されている。他には、略語に対する完全語を予め辞書に持っておき、入力された略語に該当する辞書中の完全語を選択（分類）する手法があり、例えば、非特許文献２に開示されている。

まず、前者の手法について簡単に説明する。略語の文字数を｜Ａ｜とした場合、略語の直前に出現するmin(｜A｜+5,｜A｜×2）の単語列を完全語の抽出対象とする。ただし、文境界を越えることはない。そして、略語の末尾から一文字ずつ取り出し、対象となる単語列に含まれるかどうかをチェックし、略語の先頭文字がマッチ（match）した単語から、略語の末尾の文字がマッチした範囲の単語列を完全語として抽出する。

例えば、略語「ＡＣＥ」の完全語を抽出することを想定し、単語列として次のものが与えられたと仮定する。「Angioedema of the abdominal viscera related to angiotensin converting enzyme(ACE)…」、「ＡＣＥ」という略語に対する完全語を抽出する対象は、その直前に出現するmin(｜A｜+5,｜A｜×2）＝６個の単語であることから、次のようになる。「the abdominal viscera related to angiotensin converting enzyme」この単語列に対し、後ろからＥ，Ｃ，Ａの順でマッチする単語列を完全語とするので、「angiotensin converting enzyme」が完全語となる。

次に、後者の手法について説明する。この手法では、略語とその完全語が共に出現する必要はない。例えば、「ＡＣＥ」の完全語として辞書に「aqueous crude extract」，「angiotensin converting enzyme」が登録されているとする。ここで、「ＡＣＥ」を含む文書を大量に用意し、文書中に出てくる「ＡＣＥ」の完全語が辞書中の何れかであるかを人手にて注釈付けを行う。次に、その注釈付けに基づき分類器を構築し、「ＡＣＥ」を含む文書が入力された場合に、分類器を用いて完全語がどちらであるかを判定する。いわゆるテキスト分類問題として考えることで完全語を復元する。

完全語をクラスとして考え、それに対応する文書をいわゆるbag-of-words(ＢＯＷ)モデルで表現（単語や単語列を基底としてその出現頻度などを値としたベクトル表現）し、分類器の学習を行う。分類手法として、ナイーブ・ベイズ法、最大エントロピー法、サポートベクトルマシン、ｋ最近傍法などの手法を用いることができる。最終的には、入力された略語を含む文書をＢＯＷモデルで表現し、分類を行うことで略語の復元を行う。

A.S. Schwartz, M.A., Hearst 2003. A Simple Algorithm for Identifying Abbreviation Definition in Biomedical Text In Proc. of the Pacific Symposium on Biocomputing,pages 451-462. M. Stevenson, G. Yikun, Al.A. Adbulziz., R. Gaizauskas 2009. Disambiguation of biomedical abbreviations In Proc. of the Workshop on BioNLP,pages 79.

従来の手法では、略語に対応する単語列が用意されていなければ略語に対する完全語を抽出することが出来なかった。つまり、上記した前者の手法では、略語にマッチする単語列が無ければ完全語は抽出されない。後者の手法では、辞書に登録されている完全語しか復元することが出来ない。例えば、「ＡＣＥ」という略語に対する完全語として「aqueous crude extract」，「angiotensin converting enzyme」が辞書に登録されているとする。ここで、完全語を伴わずに「ＡＣＥ」が出現した場合、その完全語は先のどちらか一方となる。しかし、当然ながら「ＡＣＥ」には他にも完全語が存在する。

この課題を解決するためには、略語に対する全ての完全語を辞書に登録し、それに対応した分類器を用意すればよい。しかし、略語が常に生まれ続けているものであることを考えると、人手にて全ての完全語を辞書登録し、分類器を用意することは現実的ではない。

この発明は、このような課題に鑑みてなされたものであり、略語に対応する可能性のある完全語を大規模コーパスから獲得し、動的に辞書及び分類器を構築することで、人手による辞書作成や文書に対する注釈付けを行うことなく、略語に近い範疇（ジャンル）の文書の中から完全語を自動的に復元する略語完全語復元装置とその方法と、プログラムを提供することを目的とする。

この発明の略語完全語復元装置は、検索部と、テキストデータベースと、完全語候補抽出部と、完全語候補まとめ上げ部と、トピックベクトル生成部と、完全語復元部と、を具備する。検索部は、略語を入力としてカッコ付き略語の表記でテキストデータベースを検索し、マッチする文書集合を得る。完全語候補抽出部は、その文書集合の中の個々の文書から略語の先頭文字から末尾文字までがマッチする複数の単語列を完全語候補として抽出する。完全語候補まとめ上げ部は、複数の完全語候補を入力として、完全語候補を意味ごとにまとめ上げた完全語集約候補を生成する。トピックベクトル生成部は、文書集合と完全語集約候補と外部から入力される略語を含む文書とを入力として、完全語集約候補のそれぞれに対応する文書からその完全語集約候補のトピックベクトルと、上記外部から入力される着目する略語を含む文書の特徴ベクトル（以下、略語の特徴ベクトル）とを生成する。完全語復元部は、トピックベクトルと略語の特徴ベクトルとの類似度によって、完全語集約候補の中の一つを完全語として選択する。

この発明の略語完全語復元装置は、入力される略語に対する完全語候補を、テキストデータベースから検索し、複数の完全語候補を抽出する。そしてその複数の完全語候補を意味ごとにまとめ上げ、まとめ上げられた完全語集約候補ごとにトピックベクトルを生成し、外部から入力される略語の特徴ベクトルと完全語集約候補のトピックベクトルとの間の類似度によって、完全語集約候補の中の一つを完全語として選択する。略語の特徴ベクトルとの類似度に基づいて完全語を選択するので、略語に近い範疇（ジャンル）のデータベース内の文書から、略語の完全語を抽出することができる。また、人手に頼ることなく複数の完全語候補の中から、略語の特徴ベクトルに近い完全語を自動的に抽出することが可能になる。

この発明の略語完全語復元装置１００の機能構成例を示す図。略語完全語復元装置１００の動作フローを示す図。一つの意味クラスと木構造の例を示す図。意味ごとにまとめ上げた完全語集約候補ｃ_iの例を示す図。完全語集約候補ｃ₁，ｃ₂に対するトピックベクトルＴ_Ｄｉの例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の略語完全語復元装置１００の機能構成例を示す。図２にその動作フローを示す。略語完全語復元装置１００は、略語とその略語を含む文書とを入力として、その略語の完全語をテキストデータベースから抽出するものである。

略語完全語復元装置１００は、検索部１０、テキストデータベース２０、完全語候補抽出部３０、完全語候補まとめ上げ部４０、トピックベクトル生成部５０、完全語復元部６０、を具備する。その各部の機能は、例えば、ＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

検索部１０は、外部から入力される略語を、カッコ付きの略語の表記（例えば「略語」）でテキストデータベース２０を検索してマッチする文書集合を得る（ステップＳ１０）。マッチする文書とは、略語の並びの文字の単語列を含む文書のことである。また、カッコとは、文書中のある部分を囲って、他との区分を明らかにするための記号であって、「」（）{}［］〔〕等の種々の形があり、それら全てを含むものである。

完全語候補抽出部３０は、検索部１０が出力する文書集合の中の個々の文書から、略語の先頭文字から末尾文字までが、マッチする複数の単語列を完全語候補として抽出する（ステップＳ３０）。ここでの複数個の数は、テキストデータベース２０の規模によって異なる。

完全語候補まとめ上げ部４０は、完全語候補抽出部３０が抽出した複数個の完全語候補を意味ごとにまとめ上げた完全語集約候補を生成する（ステップＳ４０）。トピックベクトル生成部５０は、検索部１０が検索した文書集合と、完全語候補まとめ上げ部４０がまとめた完全語集約候補と、外部から入力される略語を含む文書とを入力として、完全語集約候補のそれぞれに対する文書からその完全語集約候補のトピックベクトルと、外部から入力される略語を含む文書から略語の特徴ベクトルと、を生成する。ここで、トピックベクトルとは、文書中における単語の出現頻度（TF:Term Frequency）や、逆出現頻度（TF-IDF,:Inverse Document Frequency）などのベクトルである。略語の特徴ベクトルもトピックベクトルと同じものである。

完全語復元部６０は、完全語候補まとめ上げ部４０が生成した完全語集約候補のトピックベクトルと、略語の特徴ベクトルとの類似度によって、完全語集約候補の中から一つの完全語を選択する（ステップＳ６０）。

以上述べたように動作する略語完全語復元装置１００は、略語の特徴ベクトルと完全語集約候補のトピックベクトルの類似度に基づいて完全語を選択するので、略語に近い範疇（ジャンル）のデータベース内の文書から略語の完全語を抽出することができる。また、人手に頼ることなく複数の完全語候補の中から、略語の特徴ベクトルに近い完全語を自動的に抽出することが可能になる。

以下、具体例を示して更に詳しく略語完全語復元装置１００の動作を説明する。略語を「ＡＣＥ」として説明する。検索部１０と、完全語候補抽出部３０の動作は、従来技術で説明した前者の手法と同じである。

完全語候補抽出部３０は、略語「ＡＣＥ」に対しテキストデータベース２０を検索して、例えば、「malone antegrade continence enema」，「antegrade continence enema」，「antegrade colonic enema」の完全語候補を抽出する。完全語候補「malone antegrade continence enema」は、４つの単語から構成され、他の３つの単語から成る完全語候補と異なる。この理由は、例えば、６個（3×2=6）の単語列中の、後ろからＥ，Ｃ，Ａの順でマッチする単語列を完全語候補とするからである。

完全語候補まとめ上げ部４０は、意味クラス分類手段４１とまとめ上げ手段４２を備える。意味クラス分類手段４１は、完全語候補の末尾単語の異なり数を略語の意味クラス数として捉え、末尾単語をルートとした木構造で意味クラスを分類する（ステップＳ４１）。

図３に、木構造の一例を示す。末尾単語「enema」の完全語候補を、上記した例えば３種類とし、その完全語候補の出現頻度を、例えば「malone antegrade continence enema」が２回、「antegrade continence enema」が４回、「antegrade colonic enema」が１４回、と仮定した場合の末尾単語「enema」をルートとした木構造を示す。単語の下の数は、各単語の出現頻度である。

まとめ上げ手段４２は、ルートから各単語に至るまでの単語列の出現頻度が、外部から入力されるパラメータτの値よりも大きな出現頻度の単語列を、一つの完全語集約候補にまとめ上げる（ステップＳ４２）。パラメータτの値を、例えばτ＝０．７とすると、ルート「enema」の出現頻度が２０であることから、出現頻度が２０×τ＝１４までの単語列を抽出することでまとめ上げを行う。図３に示す例では、ルート「enema」に対する完全語集約候補は「antegrade(14) colonic(14) enema(20)」にまとめ上げられる。（・）は出現頻度である。

まとめ上げ手段４２は、完全語候補抽出部３０が抽出した完全語候補の全てについてまとめ上げを行う。図４に、その結果の一例を示す。図４では、完全語候補が、２つの完全語集約候補ｃ₁「antegrade(14) colonic(14) enema(20)」とｃ₂「angiotensin(150) converting(200) enzyme(200)」に集約された例を示している。

トピックベクトル生成部５０は、完全語候補まとめ上げ部４０でまとめ上げた完全語集約候補ｃ_ｉを意味クラスとして捉え、入力された略語を含む文書が属するクラスを推定することで略語の完全語を復元する。

検索部１０で得られた文書集合をＤとし、ここから得られたまとめ上げられた完全語集約候補をＣとする。｜Ｃ｜＝ｎであり、ｉ番目の完全語集約候補をｃ_ｉとする。更に、完全語集約候補ｃ_ｉに対応する部分文書集合をＤ_ｉとする。

トピックベクトル生成部５０は、部分文書集合Ｄ_ｉからトピックベクトルＴ_Ｄｉ、及び外部から入力される着目する略語を含む文書Ｑから略語の特徴ベクトルＴ_Ｑを生成する。トピックベクトルＴ_Ｄｉは、例えば、部分文書集合Ｄ_ｉに含まれる単語列の集合をＶとした場合のＶの要素を基底とした部分文書集合Ｄ_ｉにおける単語の出現頻度のベクトルである。略語の特徴ベクトルＴ_Ｑも、基にするのが文書Ｑである点が異なるだけでトピックベクトルＴ_Ｄｉと同じものである。

図５に、完全語集約候補ｃ₁「antegrade colonic enema」と、完全語集約候補ｃ₂「angiotensin converting enzyme」に対するトピックベクトルＴ_Ｄｉの例を示す。図５において部分文書集合を、Ｄ₁＝{1,2,3,4,5,6,7}，Ｄ₂＝{8,9,10,11,12,13,14}となる例で示している。なお、図５の２列目の完全語候補は一部の単語列のみを表している。

完全語集約候補ｃ_ｉに対応する文書集合をＤ₁のトピックベクトルＴ_Ｄ1は、基底を「単語」のみで考えるとＶ＝{A,B,C,D,E}となり、その出現頻度を値とすると、Ｔ_Ｄ1＝「A:5,B:8,C:8,D:1,E:2」となる。文書集合Ｄ₂のトピックベクトルＴ_Ｄ2は、Ｔ_Ｄ2＝「A:3,B:3,C:7,D:4,E:9」となる。ここで、A,B,C,D,Eは単語であり、その頻度などの特徴の分布が文書集合Ｄ_ｉのトピック（話題）を表す。トピックベクトル生成部５０は、外部から入力される略語を含む文書Ｑについて、同様に略語の特徴ベクトルＴ_Ｑを生成する。

完全語復元部６０は、内積演算手段６１と完全語集約候補選択手段６２を備える。内積値演算手段６１は、トピックベクトルＴ_Ｄｉと、略語の特徴ベクトルＴ_Ｑの内積値を演算する（ステップＳ６１）。ここで略語の特徴ベクトルＴ_Ｑを、例えば「A:1,C:2,D:5,E:4」と仮定した場合のＴ_Ｄ1とＴ_Ｑの内積値は「A:5,B:0,C:16,D:5,E:8」であり、Ｔ_Ｄ2とＴ_Ｑの内積値は「A:3,B:0,C:14,D:20,E:36」である。この例ではトピックベクトルＴ_Ｄ2の内積値の方が大きい。

完全語集約候補選択手段６２は、内積値が最大の完全語集約候補を完全語として選択する（ステップＳ６２）。この例では、トピックベクトルＴ_Ｄ2に対応する完全語集約候補ｃ₂「angiotensin converting enzyme」が選択されて完全語として外部に出力される。

なお、トピックベクトルＴ_Ｄｉと略語の特徴ベクトルＴ_Ｑの類似度を見るのに内積値を求める例で説明を行ったが、この例に限られない。例えば、ベクトルコサイン値等を用いても良い。要するにベクトル同士の類似度を判別できるものであれば何でも良い。

この発明の略語完全語復元装置１００は、略語を含む文書の特徴ベクトルとの類似度の高いテキストデータベース内の文書から、略語の完全語を抽出するので、完全語の精度を高める効果も奏する。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各装置の機能構成部は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしても良い。

Claims

略語を入力としてカッコ付き略語の表記でテキストデータベースを検索し、マッチする文書集合を得る検索部と、
上記文書集合の中の個々の文書から、略語の先頭文字から末尾文字までがマッチする複数の単語列を完全語候補として抽出する完全語候補抽出部と、
複数の上記完全語候補を入力として、上記完全語候補を意味ごとにまとめ上げた完全語集約候補を生成する完全語候補まとめ上げ部と、
上記文書集合と上記完全語集約候補と外部から入力される上記略語を含む文書とを入力として、上記完全語集約候補のそれぞれに対応する文書からその完全語集約候補のトピックベクトルと、上記外部から入力される上記略語を含む文書から略語の特徴ベクトルと、を生成するトピックベクトル生成部と、
上記トピックベクトルと上記略語の特徴ベクトルとの類似度によって、上記完全語集約候補の中の一つを完全語として選択する完全語復元部と、
を具備する略語完全語復元装置。
請求項１に記載した略語完全語復元装置において、
上記完全語候補まとめ上げ部は、
上記完全語候補の末尾単語ごとの意味クラスに分類する意味クラス分類手段と、
上記末尾単語が同じ完全語候補を、上記末尾の単語がルートである木構造として捉え、上記ルートから各単語に至るまでの単語列の出現頻度が、外部から入力されるパラメータの値よりも大きな出現頻度の上記完全語候補を完全語集約候補として集約するまとめ上げ手段と、
を備えることを特徴とする略語完全語復元装置。
請求項１又は２に記載した略語完全語復元装置において、
上記完全語復元部は、
上記トピックベクトルと上記略語の特徴ベクトルとの内積値を演算する内積演算手段と、
上記内積値が最大の上記完全語集約候補を完全語として選択する完全語集約候補選択手段と、
を備えることを特徴とする略語完全語復元装置。
検索部が、略語を入力としてカッコ付き略語の表記でテキストデータベースを検索し、マッチする単語列を得る検索過程と、
完全語候補抽出部が、上記略語の先頭文字から末尾文字までがマッチする単語列を完全語候補として抽出する完全語候補抽出過程と、
複数の上記完全語候補を入力として、上記完全語候補を意味ごとにまとめ上げた完全語集約候補を生成する完全語候補まとめ上げ過程と、
トピックベクトル生成部が、上記文書集合と上記完全語集約候補と外部から入力される上記略語を含む文書とを入力として、上記完全語集約候補のそれぞれに対応する文書からその完全語集約候補のトピックベクトルと、上記外部から入力される上記略語を含む文書から略語の特徴ベクトルとを生成するトピックベクトル生成過程と、
完全語復元部が、上記トピックベクトルと外部から入力される完全語特徴ベクトルとの類似度によって、上記完全語集約候補の中の一つを完全語として選択する完全語復元過程と、
を含む略語完全語復元方法。
請求項４に記載した略語完全語復元方法において、
上記完全語候補まとめ上げ過程は、
上記完全語候補の末尾単語ごとの意味クラスに分類する意味クラス分類ステップと、
上記末尾の単語が同じ上記完全語候補を、上記末尾単語がルートである木構造として捉え、上記ルートから各単語に至るまでの単語列の出現頻度が、外部から入力されるパラメータの値よりも大きな単語列を完全語集約候補として集約するまとめ上げステップと、
を含むことを特徴とする略語完全語復元方法。
請求項４又は５に記載した略語完全語復元方法において、
上記完全語復元過程は、
上記トピックベクトルと上記略語の特徴ベクトルとの内積値を演算する内積演算ステップと、
上記内積値が最大の上記完全語集約候補を完全語として選択する完全語集約候補選択ステップと、
を含むことを特徴とする略語完全語復元方法。
請求項１乃至３の何れかに記載した略語完全語復元装置の各部の機能を、コンピュータに実行させるためのプログラム。