JP5355483B2 - 略語完全語復元装置とその方法と、プログラム - Google Patents

略語完全語復元装置とその方法と、プログラム Download PDF

Info

Publication number
JP5355483B2
JP5355483B2 JP2010097649A JP2010097649A JP5355483B2 JP 5355483 B2 JP5355483 B2 JP 5355483B2 JP 2010097649 A JP2010097649 A JP 2010097649A JP 2010097649 A JP2010097649 A JP 2010097649A JP 5355483 B2 JP5355483 B2 JP 5355483B2
Authority
JP
Japan
Prior art keywords
complete word
word
abbreviation
complete
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010097649A
Other languages
English (en)
Other versions
JP2011227749A (ja
Inventor
努 平尾
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010097649A priority Critical patent/JP5355483B2/ja
Publication of JP2011227749A publication Critical patent/JP2011227749A/ja
Application granted granted Critical
Publication of JP5355483B2 publication Critical patent/JP5355483B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、略語とそれが出現する文脈(略語を含む文書)が与えられた場合に、略語に対する完全語を復元する略語完全語復元装置とその方法と、プログラムに関する。
従来から、略語に対する完全語を復元する手法として次の二つが知られている。その一つは、略語とその完全語の双方が含まれた文書から完全語を復元する手法であり、例えば、非特許文献1に開示されている。他には、略語に対する完全語を予め辞書に持っておき、入力された略語に該当する辞書中の完全語を選択(分類)する手法があり、例えば、非特許文献2に開示されている。
まず、前者の手法について簡単に説明する。略語の文字数を|A|とした場合、略語の直前に出現するmin(|A|+5,|A|×2)の単語列を完全語の抽出対象とする。ただし、文境界を越えることはない。そして、略語の末尾から一文字ずつ取り出し、対象となる単語列に含まれるかどうかをチェックし、略語の先頭文字がマッチ(match)した単語から、略語の末尾の文字がマッチした範囲の単語列を完全語として抽出する。
例えば、略語「ACE」の完全語を抽出することを想定し、単語列として次のものが与えられたと仮定する。「Angioedema of the abdominal viscera related to angiotensin converting enzyme(ACE)…」、「ACE」という略語に対する完全語を抽出する対象は、その直前に出現するmin(|A|+5,|A|×2)=6個の単語であることから、次のようになる。「the abdominal viscera related to angiotensin converting enzyme」この単語列に対し、後ろからE,C,Aの順でマッチする単語列を完全語とするので、「angiotensin converting enzyme」が完全語となる。
次に、後者の手法について説明する。この手法では、略語とその完全語が共に出現する必要はない。例えば、「ACE」の完全語として辞書に「aqueous crude extract」,「angiotensin converting enzyme」が登録されているとする。ここで、「ACE」を含む文書を大量に用意し、文書中に出てくる「ACE」の完全語が辞書中の何れかであるかを人手にて注釈付けを行う。次に、その注釈付けに基づき分類器を構築し、「ACE」を含む文書が入力された場合に、分類器を用いて完全語がどちらであるかを判定する。いわゆるテキスト分類問題として考えることで完全語を復元する。
完全語をクラスとして考え、それに対応する文書をいわゆるbag-of-words(BOW)モデルで表現(単語や単語列を基底としてその出現頻度などを値としたベクトル表現)し、分類器の学習を行う。分類手法として、ナイーブ・ベイズ法、最大エントロピー法、サポートベクトルマシン、k最近傍法などの手法を用いることができる。最終的には、入力された略語を含む文書をBOWモデルで表現し、分類を行うことで略語の復元を行う。
A.S. Schwartz, M.A., Hearst 2003. A Simple Algorithm for Identifying Abbreviation Definition in Biomedical Text In Proc. of the Pacific Symposium on Biocomputing,pages 451-462. M. Stevenson, G. Yikun, Al.A. Adbulziz., R. Gaizauskas 2009. Disambiguation of biomedical abbreviations In Proc. of the Workshop on BioNLP,pages 79.
従来の手法では、略語に対応する単語列が用意されていなければ略語に対する完全語を抽出することが出来なかった。つまり、上記した前者の手法では、略語にマッチする単語列が無ければ完全語は抽出されない。後者の手法では、辞書に登録されている完全語しか復元することが出来ない。例えば、「ACE」という略語に対する完全語として「aqueous crude extract」,「angiotensin converting enzyme」が辞書に登録されているとする。ここで、完全語を伴わずに「ACE」が出現した場合、その完全語は先のどちらか一方となる。しかし、当然ながら「ACE」には他にも完全語が存在する。
この課題を解決するためには、略語に対する全ての完全語を辞書に登録し、それに対応した分類器を用意すればよい。しかし、略語が常に生まれ続けているものであることを考えると、人手にて全ての完全語を辞書登録し、分類器を用意することは現実的ではない。
この発明は、このような課題に鑑みてなされたものであり、略語に対応する可能性のある完全語を大規模コーパスから獲得し、動的に辞書及び分類器を構築することで、人手による辞書作成や文書に対する注釈付けを行うことなく、略語に近い範疇(ジャンル)の文書の中から完全語を自動的に復元する略語完全語復元装置とその方法と、プログラムを提供することを目的とする。
この発明の略語完全語復元装置は、検索部と、テキストデータベースと、完全語候補抽出部と、完全語候補まとめ上げ部と、トピックベクトル生成部と、完全語復元部と、を具備する。検索部は、略語を入力としてカッコ付き略語の表記でテキストデータベースを検索し、マッチする文書集合を得る。完全語候補抽出部は、その文書集合の中の個々の文書から略語の先頭文字から末尾文字までがマッチする複数の単語列を完全語候補として抽出する。完全語候補まとめ上げ部は、複数の完全語候補を入力として、完全語候補を意味ごとにまとめ上げた完全語集約候補を生成する。トピックベクトル生成部は、文書集合と完全語集約候補と外部から入力される略語を含む文書とを入力として、完全語集約候補のそれぞれに対応する文書からその完全語集約候補のトピックベクトルと、上記外部から入力される着目する略語を含む文書の特徴ベクトル(以下、略語の特徴ベクトル)とを生成する。完全語復元部は、トピックベクトルと略語の特徴ベクトルとの類似度によって、完全語集約候補の中の一つを完全語として選択する。
この発明の略語完全語復元装置は、入力される略語に対する完全語候補を、テキストデータベースから検索し、複数の完全語候補を抽出する。そしてその複数の完全語候補を意味ごとにまとめ上げ、まとめ上げられた完全語集約候補ごとにトピックベクトルを生成し、外部から入力される略語の特徴ベクトルと完全語集約候補のトピックベクトルとの間の類似度によって、完全語集約候補の中の一つを完全語として選択する。略語の特徴ベクトルとの類似度に基づいて完全語を選択するので、略語に近い範疇(ジャンル)のデータベース内の文書から、略語の完全語を抽出することができる。また、人手に頼ることなく複数の完全語候補の中から、略語の特徴ベクトルに近い完全語を自動的に抽出することが可能になる。
この発明の略語完全語復元装置100の機能構成例を示す図。 略語完全語復元装置100の動作フローを示す図。 一つの意味クラスと木構造の例を示す図。 意味ごとにまとめ上げた完全語集約候補ciの例を示す図。 完全語集約候補c1,c2に対するトピックベクトルTDiの例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の略語完全語復元装置100の機能構成例を示す。図2にその動作フローを示す。略語完全語復元装置100は、略語とその略語を含む文書とを入力として、その略語の完全語をテキストデータベースから抽出するものである。
略語完全語復元装置100は、検索部10、テキストデータベース20、完全語候補抽出部30、完全語候補まとめ上げ部40、トピックベクトル生成部50、完全語復元部60、を具備する。その各部の機能は、例えば、ROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
検索部10は、外部から入力される略語を、カッコ付きの略語の表記(例えば「略語」)でテキストデータベース20を検索してマッチする文書集合を得る(ステップS10)。マッチする文書とは、略語の並びの文字の単語列を含む文書のことである。また、カッコとは、文書中のある部分を囲って、他との区分を明らかにするための記号であって、「」(){}[]〔〕等の種々の形があり、それら全てを含むものである。
完全語候補抽出部30は、検索部10が出力する文書集合の中の個々の文書から、略語の先頭文字から末尾文字までが、マッチする複数の単語列を完全語候補として抽出する(ステップS30)。ここでの複数個の数は、テキストデータベース20の規模によって異なる。
完全語候補まとめ上げ部40は、完全語候補抽出部30が抽出した複数個の完全語候補を意味ごとにまとめ上げた完全語集約候補を生成する(ステップS40)。トピックベクトル生成部50は、検索部10が検索した文書集合と、完全語候補まとめ上げ部40がまとめた完全語集約候補と、外部から入力される略語を含む文書とを入力として、完全語集約候補のそれぞれに対する文書からその完全語集約候補のトピックベクトルと、外部から入力される略語を含む文書から略語の特徴ベクトルと、を生成する。ここで、トピックベクトルとは、文書中における単語の出現頻度(TF:Term Frequency)や、逆出現頻度(TF-IDF,:Inverse Document Frequency)などのベクトルである。略語の特徴ベクトルもトピックベクトルと同じものである。
完全語復元部60は、完全語候補まとめ上げ部40が生成した完全語集約候補のトピックベクトルと、略語の特徴ベクトルとの類似度によって、完全語集約候補の中から一つの完全語を選択する(ステップS60)。
以上述べたように動作する略語完全語復元装置100は、略語の特徴ベクトルと完全語集約候補のトピックベクトルの類似度に基づいて完全語を選択するので、略語に近い範疇(ジャンル)のデータベース内の文書から略語の完全語を抽出することができる。また、人手に頼ることなく複数の完全語候補の中から、略語の特徴ベクトルに近い完全語を自動的に抽出することが可能になる。
以下、具体例を示して更に詳しく略語完全語復元装置100の動作を説明する。略語を「ACE」として説明する。検索部10と、完全語候補抽出部30の動作は、従来技術で説明した前者の手法と同じである。
完全語候補抽出部30は、略語「ACE」に対しテキストデータベース20を検索して、例えば、「malone antegrade continence enema」,「antegrade continence enema」,「antegrade colonic enema」の完全語候補を抽出する。完全語候補「malone antegrade continence enema」は、4つの単語から構成され、他の3つの単語から成る完全語候補と異なる。この理由は、例えば、6個(3×2=6)の単語列中の、後ろからE,C,Aの順でマッチする単語列を完全語候補とするからである。
完全語候補まとめ上げ部40は、意味クラス分類手段41とまとめ上げ手段42を備える。意味クラス分類手段41は、完全語候補の末尾単語の異なり数を略語の意味クラス数として捉え、末尾単語をルートとした木構造で意味クラスを分類する(ステップS41)。
図3に、木構造の一例を示す。末尾単語「enema」の完全語候補を、上記した例えば3種類とし、その完全語候補の出現頻度を、例えば「malone antegrade continence enema」が2回、「antegrade continence enema」が4回、「antegrade colonic enema」が14回、と仮定した場合の末尾単語「enema」をルートとした木構造を示す。単語の下の数は、各単語の出現頻度である。
まとめ上げ手段42は、ルートから各単語に至るまでの単語列の出現頻度が、外部から入力されるパラメータτの値よりも大きな出現頻度の単語列を、一つの完全語集約候補にまとめ上げる(ステップS42)。パラメータτの値を、例えばτ=0.7とすると、ルート「enema」の出現頻度が20であることから、出現頻度が20×τ=14までの単語列を抽出することでまとめ上げを行う。図3に示す例では、ルート「enema」に対する完全語集約候補は「antegrade(14) colonic(14) enema(20)」にまとめ上げられる。(・)は出現頻度である。
まとめ上げ手段42は、完全語候補抽出部30が抽出した完全語候補の全てについてまとめ上げを行う。図4に、その結果の一例を示す。図4では、完全語候補が、2つの完全語集約候補c1「antegrade(14) colonic(14) enema(20)」とc2「angiotensin(150) converting(200) enzyme(200)」に集約された例を示している。
トピックベクトル生成部50は、完全語候補まとめ上げ部40でまとめ上げた完全語集約候補cを意味クラスとして捉え、入力された略語を含む文書が属するクラスを推定することで略語の完全語を復元する。
検索部10で得られた文書集合をDとし、ここから得られたまとめ上げられた完全語集約候補をCとする。|C|=nであり、i番目の完全語集約候補をcとする。更に、完全語集約候補cに対応する部分文書集合をDとする。
トピックベクトル生成部50は、部分文書集合DからトピックベクトルTDi、及び外部から入力される着目する略語を含む文書Qから略語の特徴ベクトルTを生成する。トピックベクトルTDiは、例えば、部分文書集合Dに含まれる単語列の集合をVとした場合のVの要素を基底とした部分文書集合Dにおける単語の出現頻度のベクトルである。略語の特徴ベクトルTも、基にするのが文書Qである点が異なるだけでトピックベクトルTDiと同じものである。
図5に、完全語集約候補c1「antegrade colonic enema」と、完全語集約候補c2「angiotensin converting enzyme」に対するトピックベクトルTDiの例を示す。図5において部分文書集合を、D1={1,2,3,4,5,6,7},D2={8,9,10,11,12,13,14}となる例で示している。なお、図5の2列目の完全語候補は一部の単語列のみを表している。
完全語集約候補cに対応する文書集合をD1のトピックベクトルTD1は、基底を「単語」のみで考えるとV={A,B,C,D,E}となり、その出現頻度を値とすると、TD1=「A:5,B:8,C:8,D:1,E:2」となる。文書集合D2のトピックベクトルTD2は、TD2=「A:3,B:3,C:7,D:4,E:9」となる。ここで、A,B,C,D,Eは単語であり、その頻度などの特徴の分布が文書集合Dのトピック(話題)を表す。トピックベクトル生成部50は、外部から入力される略語を含む文書Qについて、同様に略語の特徴ベクトルTを生成する。
完全語復元部60は、内積演算手段61と完全語集約候補選択手段62を備える。内積値演算手段61は、トピックベクトルTDiと、略語の特徴ベクトルTの内積値を演算する(ステップS61)。ここで略語の特徴ベクトルTを、例えば「A:1,C:2,D:5,E:4」と仮定した場合のTD1とTの内積値は「A:5,B:0,C:16,D:5,E:8」であり、TD2とTの内積値は「A:3,B:0,C:14,D:20,E:36」である。この例ではトピックベクトルTD2の内積値の方が大きい。
完全語集約候補選択手段62は、内積値が最大の完全語集約候補を完全語として選択する(ステップS62)。この例では、トピックベクトルTD2に対応する完全語集約候補c2「angiotensin converting enzyme」が選択されて完全語として外部に出力される。
なお、トピックベクトルTDiと略語の特徴ベクトルTの類似度を見るのに内積値を求める例で説明を行ったが、この例に限られない。例えば、ベクトルコサイン値等を用いても良い。要するにベクトル同士の類似度を判別できるものであれば何でも良い。
この発明の略語完全語復元装置100は、略語を含む文書の特徴ベクトルとの類似度の高いテキストデータベース内の文書から、略語の完全語を抽出するので、完全語の精度を高める効果も奏する。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各装置の機能構成部は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしても良い。

Claims (7)

  1. 略語を入力としてカッコ付き略語の表記でテキストデータベースを検索し、マッチする文書集合を得る検索部と、
    上記文書集合の中の個々の文書から、略語の先頭文字から末尾文字までがマッチする複数の単語列を完全語候補として抽出する完全語候補抽出部と、
    複数の上記完全語候補を入力として、上記完全語候補を意味ごとにまとめ上げた完全語集約候補を生成する完全語候補まとめ上げ部と、
    上記文書集合と上記完全語集約候補と外部から入力される上記略語を含む文書とを入力として、上記完全語集約候補のそれぞれに対応する文書からその完全語集約候補のトピックベクトルと、上記外部から入力される上記略語を含む文書から略語の特徴ベクトルと、を生成するトピックベクトル生成部と、
    上記トピックベクトルと上記略語の特徴ベクトルとの類似度によって、上記完全語集約候補の中の一つを完全語として選択する完全語復元部と、
    を具備する略語完全語復元装置。
  2. 請求項1に記載した略語完全語復元装置において、
    上記完全語候補まとめ上げ部は、
    上記完全語候補の末尾単語ごとの意味クラスに分類する意味クラス分類手段と、
    上記末尾単語が同じ完全語候補を、上記末尾の単語がルートである木構造として捉え、上記ルートから各単語に至るまでの単語列の出現頻度が、外部から入力されるパラメータの値よりも大きな出現頻度の上記完全語候補を完全語集約候補として集約するまとめ上げ手段と、
    を備えることを特徴とする略語完全語復元装置。
  3. 請求項1又は2に記載した略語完全語復元装置において、
    上記完全語復元部は、
    上記トピックベクトルと上記略語の特徴ベクトルとの内積値を演算する内積演算手段と、
    上記内積値が最大の上記完全語集約候補を完全語として選択する完全語集約候補選択手段と、
    を備えることを特徴とする略語完全語復元装置。
  4. 検索部が、略語を入力としてカッコ付き略語の表記でテキストデータベースを検索し、マッチする単語列を得る検索過程と、
    完全語候補抽出部が、上記略語の先頭文字から末尾文字までがマッチする単語列を完全語候補として抽出する完全語候補抽出過程と、
    複数の上記完全語候補を入力として、上記完全語候補を意味ごとにまとめ上げた完全語集約候補を生成する完全語候補まとめ上げ過程と、
    トピックベクトル生成部が、上記文書集合と上記完全語集約候補と外部から入力される上記略語を含む文書とを入力として、上記完全語集約候補のそれぞれに対応する文書からその完全語集約候補のトピックベクトルと、上記外部から入力される上記略語を含む文書から略語の特徴ベクトルとを生成するトピックベクトル生成過程と、
    完全語復元部が、上記トピックベクトルと外部から入力される完全語特徴ベクトルとの類似度によって、上記完全語集約候補の中の一つを完全語として選択する完全語復元過程と、
    を含む略語完全語復元方法。
  5. 請求項4に記載した略語完全語復元方法において、
    上記完全語候補まとめ上げ過程は、
    上記完全語候補の末尾単語ごとの意味クラスに分類する意味クラス分類ステップと、
    上記末尾の単語が同じ上記完全語候補を、上記末尾単語がルートである木構造として捉え、上記ルートから各単語に至るまでの単語列の出現頻度が、外部から入力されるパラメータの値よりも大きな単語列を完全語集約候補として集約するまとめ上げステップと、
    を含むことを特徴とする略語完全語復元方法。
  6. 請求項4又は5に記載した略語完全語復元方法において、
    上記完全語復元過程は、
    上記トピックベクトルと上記略語の特徴ベクトルとの内積値を演算する内積演算ステップと、
    上記内積値が最大の上記完全語集約候補を完全語として選択する完全語集約候補選択ステップと、
    を含むことを特徴とする略語完全語復元方法。
  7. 請求項1乃至3の何れかに記載した略語完全語復元装置の各部の機能を、コンピュータに実行させるためのプログラム。
JP2010097649A 2010-04-21 2010-04-21 略語完全語復元装置とその方法と、プログラム Active JP5355483B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010097649A JP5355483B2 (ja) 2010-04-21 2010-04-21 略語完全語復元装置とその方法と、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010097649A JP5355483B2 (ja) 2010-04-21 2010-04-21 略語完全語復元装置とその方法と、プログラム

Publications (2)

Publication Number Publication Date
JP2011227749A JP2011227749A (ja) 2011-11-10
JP5355483B2 true JP5355483B2 (ja) 2013-11-27

Family

ID=45043008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010097649A Active JP5355483B2 (ja) 2010-04-21 2010-04-21 略語完全語復元装置とその方法と、プログラム

Country Status (1)

Country Link
JP (1) JP5355483B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5898153B2 (ja) 2013-09-05 2016-04-06 京セラドキュメントソリューションズ株式会社 省略語管理プログラム、省略語管理装置、フルスペル表示プログラムおよびフルスペル表示装置
JP2017134693A (ja) 2016-01-28 2017-08-03 富士通株式会社 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
CN109543736B (zh) * 2018-11-15 2020-11-27 新华三技术有限公司 一种特征对比方法及装置
CN109614493B (zh) * 2018-12-29 2023-02-03 重庆邂智科技有限公司 一种基于监督词向量的文本缩写识别方法及系统
KR102500106B1 (ko) * 2019-12-06 2023-02-16 주식회사 엘지유플러스 약어 사전 구축 장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04130578A (ja) * 1990-09-20 1992-05-01 Fujitsu Ltd 未登録語検索方法および装置
JPH1166068A (ja) * 1997-08-20 1999-03-09 Matsushita Electric Ind Co Ltd 機械翻訳装置および機械翻訳方法ならびに機械翻訳プログラムを記録した記録媒体
JP2007200252A (ja) * 2006-01-30 2007-08-09 Ricoh Co Ltd 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP4900947B2 (ja) * 2007-02-22 2012-03-21 日本電信電話株式会社 略語抽出方法、略語抽出装置およびプログラム

Also Published As

Publication number Publication date
JP2011227749A (ja) 2011-11-10

Similar Documents

Publication Publication Date Title
KR20150070171A (ko) 스트링 변환의 귀납적 합성을 위한 랭킹 기법
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
US11328006B2 (en) Word semantic relation estimation device and word semantic relation estimation method
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
JP2016164708A (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
JP6434162B2 (ja) データ管理システム、データ管理方法およびプログラム
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
CN116932730B (zh) 基于多叉树和大规模语言模型的文档问答方法及相关设备
CN112559691B (zh) 语义相似度的确定方法及确定装置、电子设备
JP5542729B2 (ja) 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
US20190095525A1 (en) Extraction of expression for natural language processing
JP5362807B2 (ja) ドキュメントランク付け方法および装置
JP2007334388A (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
JP2017068742A (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP2009140411A (ja) 文章要約装置および文章要約方法
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130827

R150 Certificate of patent or registration of utility model

Ref document number: 5355483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350