JP4143085B2 - 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP4143085B2
JP4143085B2 JP2005362386A JP2005362386A JP4143085B2 JP 4143085 B2 JP4143085 B2 JP 4143085B2 JP 2005362386 A JP2005362386 A JP 2005362386A JP 2005362386 A JP2005362386 A JP 2005362386A JP 4143085 B2 JP4143085 B2 JP 4143085B2
Authority
JP
Japan
Prior art keywords
anchor text
keyword
document
text
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005362386A
Other languages
English (en)
Other versions
JP2007164635A (ja
Inventor
浩之 戸田
考 藤村
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005362386A priority Critical patent/JP4143085B2/ja
Publication of JP2007164635A publication Critical patent/JP2007164635A/ja
Application granted granted Critical
Publication of JP4143085B2 publication Critical patent/JP4143085B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、インターネットに代表されるコンピュータネットワークにおいて、HTMLやXML,SGML等のタグ付きテキストから語彙を獲得するための同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
コンピュータネットワークにおける情報検索において、検索結果が大量になることが頻繁となり、検索システムの利用者は、キーワードでの検索を行った後に、得られた検索結果から本当に欲しい情報を獲得するという作業を強いられている。
このような問題に対して、検索結果のテキスト情報から実世界のインスタンスを指し示す固有名詞を文書中から抽出し、それらのうち検索結果中で重要であると考えられる固有名詞を選択し、検索結果と共に提示することで、効率的な文書の検索を容易に実現するという方法がある(例えば、特許文献1参照)。
これにより、ユーザは検索結果を一つ一つ見ながら所望の情報を探したり、追加キーワードを考え、再検索を行うことなく、実世界のインスタンスをランドマークとみなし、所望の情報を絞り込むことができる。
これを実現するための基本的な技術として、テキスト中の固有名詞を特定する手法が必要となる。
最も単純な方法として、人手で辞書を作成し、その辞書語とマッチする語をテキストから抽出するという手法が考えられる。
さらに、特定の辞書は持たず、文書中に存在する固有名詞を予め人手で特定した学習データから、形態素(品詞情報)レベルのパターンとして抽出ルールを作成し、予め学習データに含まれた語のみでなく、新たな語の抽出も可能とする手法もある(例えば、特許文献2参照)。
特開2005−208838号公報 特開2003−331254号公報
しかしながら、上記従来の技術には以下のような問題がある。
辞書を人手で作成する手法は、確実にテキスト中の該当部分を特定することができるが、辞書の更新にかかるコストが非常に大きいため、幅広い分野や属性の辞書語を収集することは現実的に難しい。
学習データを用いてルールを自動的に生成し、固有名詞の解析を行う手法は、辞書構築やルール生成のコストを削減し、固有名詞の抽出を行うことを可能とするが、Web上で頻繁に見られる略語や別名は意識されない。
つまり、正式な表現を用いた場合と、略称などの別名を用いた場合の両方を固有名詞であるとして抽出することは可能であるが、同一のインスタンスを参照する表記であるということは判断されず、異なるインスタンスについて記述された文書であると判断される。
これを解決する手法として、文書内での共起を利用して解決する手法(例えば、向井ら、ラベル指向情報検索における分類ラベル統合方式の検討、FIT2004)は存在するが、これはニュース記事等のフォーマルな文書において、正式名と略名が列挙されているという手法を用いたものであり、Blogや掲示板のWeb上で多く存在するインフォーマルな文書に対しては効果的でない。
本発明は、上記の点に鑑みなされたもので、コンピュータネットワークにおけるテキストから、特定のクラスの語彙の同義語を自動的に獲得することが可能な同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、HTMLやXMLを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得方法であって、
キーワード検索手段が、キーワードと該キーワードの上位概念語が入力されると(ステップ1)、電子テキストを検索して該上位概念語とそれぞれのキーワードを含文書を取得するキーワード検索ステップ(ステップ2)と、
文書特定手段が、キーワード検索ステップで取得した文書中で、検索におけるキーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定ステップ(ステップ3)と、
リンク検索手段が、キーワード検索ステップ(ステップ2)で取得した文書から、キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索ステップ(ステップ4)と、
アンカーテキスト特定手段が、文書特定ステップ(ステップ3)ならびにリンク検索ステップ(ステップ4)で特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段に格納するアンカーテキスト特定ステップ(ステップ5)と、
クラス別アンカーテキスト文字列統計解析手段が、アンカーテキスト特定ステップで抽出されたアンカーテキストを記憶手段から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベースに格納するクラス別アンカーテキスト文字列統計解析ステップ(ステップ6)と、
アンカー文字列クリーニング手段が、アンカーテキスト統計情報データベースに格納された部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、キーワードにおける出現確率のエントロピーがキーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベースのアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニングステップ(ステップ7)と、を行う。
図2は、本発明の原理構成図である。
本発明(請求項)は、HTMLやXMLを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得装置であって、
キーワードと該キーワードの上位概念語が入力されると、電子テキストを検索して該上位概念語とそれぞれのキーワードを含文書を取得するキーワード検索手段20と、
キーワード検索手段20で取得した文書中で、検索におけるキーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定手段25と、
キーワード検索手段25で取得した文書から、キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索手段30と、
文書特定手段25ならびにリンク検索手段30で特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段41に格納するアンカーテキスト特定手段40と、
アンカーテキスト特定手段40で抽出されたアンカーテキストを記憶手段41から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベース70に格納するクラス別アンカーテキスト文字列統計解析手段50と、
アンカーテキスト統計情報データベース70に格納された部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、キーワードにおける出現確率のエントロピーがキーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベース70のアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニング手段60と、を有する。
本発明(請求項)は、請求項記載の同義語獲得装置を構成する各手段としてコンピュータを機能させるための同義語獲得プログラムである。
本発明(請求項4)は、請求項3記載の同義語獲得プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体である。
上記のように本発明によれば、特定の属性の少ないキーワードを元に、その該当属性のキーワードが出現する位置及びパターンを自動で抽出し、この2つの特徴を利用し高い精度でキーワード候補の出現するルールを特定し、予め指定されたキーワードを複数含むテキスト中で上記特定したルールにマッチするキーワードを抽出し、ここで抽出された個々のキーワードの出現頻度や分布を元に最終的な抽出候補のキーワードを特定することで、高精度に語彙を獲得することが可能となる。
この語彙獲得により得られた辞書を用いることで、テキスト中から特定属性のキーワードを抽出することが可能となる。
以下、図面と共に本発明の実施の形態を説明する。
本発明は、同一クラスの語彙(上位概念語とキーワード)を入力として受け付け、それぞれの語彙によって参照されるWebページ群を特定し、それらのWebページ群を参照するアンカーテキストを特定する。このアンカーテキストから固有表現部分を特定することで、入力したそれぞれの語彙に対する同義語を特定する。この最後の固有表現部分を推定するための基礎データとなる、アンカーテキスト内での文字列の出現情報は分野によって偏りがあるため、同じクラスの語彙を複数入力することで分野依存の解析を行うことを可能にするものである。
図3は、本発明の一実施の形態における同義語彙獲得装置の構成を示す。
同図に示す同義語彙獲得装置は、キーワードと当該キーワードの上位概念語が入力されるキーワード入力部10、入力されたキーワードと上位概念語に基づいてそれらとの関連性の高い文書を検索する検索部(キーワード検索手段)20、キーワードに適合するURLを求める文書特定部(文書特定手段)25、キーワードに適合するアンカーテキストのURLを求めるURL抽出部(リンク検索手段)30、文書特定部25とURL抽出部30のURLの文書からアンカーテキストを抽出するアンカーテキスト抽出部(アンカーテキスト特定手段)40、アンカーテキストの部分文字列の統計量(出現頻度)を求めるアンカーテキスト解析部(クラス別アンカーテキスト文字列統計解析手段)50、不要な文字列の削除などを行って固有名詞を決定するアンカーテキストクリーニング部(アンカー文字列クリーニング手段)60、解析結果を格納するアンカーテキスト統計情報DB(記憶手段)70、アンカーテキストクリーニング部60で特定された固有名詞を同義語彙として出力する同義語出力部80から構成される。
なお、上記の括弧内の記載は、特許請求の範囲の各手段との対応を示す。
図4は、本発明の一実施の形態における動作のフローチャートである。以下、図4と共に、上記の構成の動作を説明する。
ステップ101) キーワード入力部10は、ユーザからのキーワードの入力を受け付ける。入力は、同一クラスに属するキーワードを複数受け付けるものとし、上位概念語と共にその概念に属する1つ以上の語彙を入力とする。入力データ例を図5に示す。
ステップ102) 検索部20は、入力されたキーワードのそれぞれについて、キーワード検索を行い、HTMLやXMLなどの電子テキストからキーワードとの関連性の高い文書集合を取得する。
ステップ103) 文書特定部25は、入力されたキーワードのそれぞれについて、上記の検索部20で取得した文書集合のうち特に関連性の強い文書を特定する。関連性の判定手段としては、以下のような例がある。
・検索部20において検索した結果、最もキーワードとの関連度が強い文書;
・文書のタイトルがキーワードと完全一致する文書;
文書特定部25では、一次記憶(メモリ)を有し、キーワードと関連性が強いと判断された文書URLを格納する。当該装置に入力されたキーワード全てについて以上の処理を行った後、次の処理を行う構成要素にデータの内容を渡す。メモリのデータ格納の例を図6に示す。
ステップ104) URL抽出部30は、入力されたキーワードのそれぞれについて、上記の検索部20で取得した文書集合から、キーワードをアンカーテキストに含むリンクを抽出し、キーワードと関連性の高い文書とみなす。この文書の特定にあたっては、必ずしも全ての文書取得するわけではなく、出現頻度を元に閾値を決定し、閾値を超えた文書のみをキーワードと関連性の高い文書と見做すことも考えられる。URL抽出部30では、メモリを有し、キーワードと当該キーワードと関連性の強い文書のURLを格納する。入力されたキーワードのすべてについて上記の処理を行った後、次の処理を行う公正要素にデータの内容を渡す。URL抽出部30のメモリのデータ格納の例を図7に示す。
ステップ105) 全てのキーワードの処理が終了すればステップ106に移行し、そうでなければステップ102に戻る。
ステップ106) アンカーテキスト抽出部40は、入力されたキーワードのそれぞれに関連するURLを、文書特定部25及びURL抽出部30から受け取り、それぞれのキーワード毎にURLをマージする。その後、検索エンジンを利用する、もしくは、アンカーテキスト抽出部40内に設けたリンクデータベース(図8)の情報から、特定されるそれぞれのURLを含む文書を特定し、当該文書に対するリンクのアンカーテキストを抽出する。リンクデータベースで想定されるデータの内容を図8に示す。また、検索エンジン(goo(登録商標)等)を利用する場合には、例えば、今探したいURLがAである場合、「link:A」等の検索要求を指定することで所望のデータを取得できる。アンカーテキスト抽出部40では、メモリを有し、キーワードとアンカーテキストを格納する。当該アンカーテキスト抽出部40に入力されたキーワード全てについて以上の処理を行った後、次の処理を行う構成要素(アンカーテキスト解析部50)にデータの内容を渡す。図9にアンカーテキスト抽出部40のメモリのデータ格納例を示す。
ステップ107) アンカーテキスト抽出部40において、全文書の処理が終了したかを判定し、終了した場合にはステップ108に移行し、そうでない場合にはステップ106に移行する。
ステップ108) アンカーテキスト解析部50は、アンカーテキスト抽出部40で抽出されたアンカーテキストについて、それぞれの出現頻度及び部分文字列の出現頻度を算出する。部分文字列としては、n-gramで全ての区切りについて出現頻度を算出する。解析対象をアンカーテキストのprefixやsuffixとなる文字列に限定することも考えられる。また、アンカーテキスト解析部50では、コーパスを解析し、クラスに依存しないアンカーテキストの解析を行った結果を利用することにより、分野依存の語彙はそのままとすることが考えられる。アンカーテキスト解析部50での解析結果は、アンカーテキスト統計情報DB70に格納される。アンカーテキスト統計情報DB70に登録されるデータの例を図10に示す。
アンカーテキスト統計情報DB70は、アンカーテキスト解析部50によって解析されたデータを格納する。データ例は図10に示すとおりである。
ステップ109) アンカーテキスト解析部50において、全アンカーテキストの処理が終了した場合には、ステップ110に移行し、そうでない場合にはステップ108に戻る。
ステップ110) アンカーテキストクリーニング部60は、入力されたキーワードのそれぞれについて、アンカーテキスト統計情報DB70に格納されたデータを元に、アンカーテキストに含まれる不要な文字列を除去し、同義語の候補とする。まず、図10(C)の情報を元に、全てのクラスで高頻度(閾値αを超える場合)に利用される語彙を抽出し、一般的な語彙であると考え、除去する部分文字列を特定するstop word listに登録する。
ステップ111) 次に、図10(B)の情報を元に、クラス内で高頻度に利用される語彙を抽出する。これは、一般的な語彙であると考えられるが、必ずしも固有表現以外の文字列とは限らないため(例えば、航空会社のリストを作成する場合の「航空」という文字列は頻出であるが不要な文字列ではない)、図10(C)の情報を調べ閾値βを超える場合、もしくは、それらが記号の連続する列を含む場合など明らかに固有表現と異なる場合には、stop word listに登録する。また、単に頻度を考えるだけではなく、分散を考え広く分散されている部分文字列は固有表現の一部とは考えにくいと考え、頻度とともにstop word判定の基準にすることも考えられる。
ここで、キーワードiで部分文字列xが出現する場合の確率をP(x)とすると、分散は以下のエントロピーを算出する式で評価できる。この値がlog|I|(Iはキーワードの集合)に近い場合、分散は大きいとされ、一般語である可能性が高いと判定できる。
Figure 0004143085
ステップ112) アンカーテキストクリーニング部60において全てのキーワードについて処理が終了すればステップ113に移行し、そうでなければステップ110に移行する。
ステップ113) アンカーテキストクリーニング部60は、この後、図10(A)に登録されているデータからstop wordを除去し、データを再構築する。そして、閾値γを超える頻度で出現する語彙を同義語とする。
ステップ114) 同義語出力部80は、入力されたキーワードと共に、アンカーテキストクリーニング部60において同義語と判定されたデータを出力する。
本発明では、上記の同義語彙獲得装置の各構成要素の機能をプログラムとして構築し、コンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールして実行させる、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ハイパーテキストから固有名詞の別名や略称を抽出するための技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における同義語彙獲得装置の構成図である。 本発明の一実施の形態における動作のフローチャートである。 本発明の一実施の形態におけるキーワード入力部で受け付けるデータ例である。 本発明の一実施の形態における文書特定部のメモリのデータ格納例である。 本発明の一実施の形態におけるURL抽出部のメモリのデータ格納例である。 本発明の一実施の形態におけるアンカーテキスト抽出部で利用されるリンクデータベースの内容の例である。 本発明の一実施の形態におけるアンカーテキスト抽出部のメモリのデータ格納例である。 本発明の一実施の形態におけるアンカーテキスト統計情報DBのデータ例である。
符号の説明
10 キーワード入力部
20 キーワード検索手段、検索部
25 文書特定手段、文書特定部
30 リンク検索手段、URL抽出部
40 アンカーテキスト特定手段、アンカーテキスト抽出部
41 記憶手段
50 クラス別アンカーテキスト文字列統計解析手段、アンカーテキスト解析部
60 アンカー文字列クリーニング手段、アンカーテキストクリーニング部
70 ンカーテキスト統計情報DB
80 同義語出力部

Claims (4)

  1. HTMLやXMLを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得方法であって、
    キーワード検索手段が、キーワードと該キーワードの上位概念語が入力されると、電子テキストを検索して該上位概念語とそれぞれのキーワードを含文書を取得するキーワード検索ステップと、
    文書特定手段が、前記キーワード検索ステップで取得した文書中で、前記検索における前記キーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定ステップと、
    リンク検索手段が、前記キーワード検索ステップで取得した前記文書から、前記キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索ステップと、
    アンカーテキスト特定手段が、前記文書特定ステップならびに前記リンク検索ステップで特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段に格納するアンカーテキスト特定ステップと、
    クラス別アンカーテキスト文字列統計解析手段が、前記アンカーテキスト特定ステップで抽出されたアンカーテキストを前記記憶手段から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベースに格納するクラス別アンカーテキスト文字列統計解析ステップと、
    アンカー文字列クリーニング手段が、前記アンカーテキスト統計情報データベースに格納された前記部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、前記キーワードにおける出現確率のエントロピーが前記キーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベースのアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニングステップと、
    を行うことを特徴とする同義語彙獲得方法。
  2. HTMLやXMLを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得装置であって、
    キーワードと該キーワードの上位概念語が入力されると、電子テキストを検索して該上位概念語とそれぞれのキーワードを含文書を取得するキーワード検索手段と、
    前記キーワード検索手段で取得した文書中で、前記検索における前記キーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定手段と、
    前記キーワード検索手段で取得した前記文書から、前記キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索手段と、
    前記文書特定手段ならびに前記リンク検索手段で特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段に格納するアンカーテキスト特定手段と、
    前記アンカーテキスト特定手段で抽出されたアンカーテキストを前記記憶手段から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベースに格納するクラス別アンカーテキスト文字列統計解析手段と、
    前記アンカーテキスト統計情報データベースに格納された前記部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、前記キーワードにおける出現確率のエントロピーが前記キーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベースのアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニング手段と、
    を有することを特徴とする同義語彙獲得装置。
  3. 請求項記載の同義語獲得装置を構成する各手段としてコンピュータを機能させるための同義語獲得プログラム。
  4. 請求項3記載の同義語獲得プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2005362386A 2005-12-15 2005-12-15 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Active JP4143085B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005362386A JP4143085B2 (ja) 2005-12-15 2005-12-15 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005362386A JP4143085B2 (ja) 2005-12-15 2005-12-15 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2007164635A JP2007164635A (ja) 2007-06-28
JP4143085B2 true JP4143085B2 (ja) 2008-09-03

Family

ID=38247432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005362386A Active JP4143085B2 (ja) 2005-12-15 2005-12-15 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4143085B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785726B2 (en) 2014-02-25 2017-10-10 International Business Machines Corporation Pattern matching based character string retrieval

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5186165B2 (ja) * 2007-09-28 2013-04-17 株式会社エヌ・ティ・ティ・データ 組織名抽出装置、方法及びプログラム
CN101887436B (zh) * 2009-05-12 2013-08-21 阿里巴巴集团控股有限公司 一种检索方法和装置
JP5648890B2 (ja) * 2010-02-22 2015-01-07 日本電気株式会社 辞書作成支援装置、辞書作成支援方法及び辞書作成支援プログラム
JP6078491B2 (ja) * 2014-03-18 2017-02-08 日本電信電話株式会社 文書分類装置、文書分類方法、文書分類プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785726B2 (en) 2014-02-25 2017-10-10 International Business Machines Corporation Pattern matching based character string retrieval
US9916397B2 (en) 2014-02-25 2018-03-13 International Business Machines Corporation Pattern matching based character string retrieval
US9946812B2 (en) 2014-02-25 2018-04-17 International Business Machines Corporation Pattern matching based character string retrieval
US10007740B2 (en) 2014-02-25 2018-06-26 International Business Machines Corporation Pattern matching based character string retrieval
US10176274B2 (en) 2014-02-25 2019-01-08 International Business Machines Corporation Pattern matching based character string retrieval

Also Published As

Publication number Publication date
JP2007164635A (ja) 2007-06-28

Similar Documents

Publication Publication Date Title
US7493293B2 (en) System and method for extracting entities of interest from text using n-gram models
EP3016002A1 (en) Non-factoid question-and-answer system and method
US20020046018A1 (en) Discourse parsing and summarization
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN113268569B (zh) 基于语义的关联词查找方法及装置、电子设备、存储介质
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP2011118689A (ja) 検索方法及びシステム
TW201826145A (zh) 從中文語料庫提取知識的方法和系統
Versley et al. Not just bigger: Towards better-quality Web corpora
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP6108212B2 (ja) 同義語抽出システム、方法およびプログラム
JP2006227823A (ja) 情報処理装置及びその制御方法
Chifu et al. A system for detecting professional skills from resumes written in natural language
Nanba et al. Bilingual PRESRI-Integration of Multiple Research Paper Databases.
Cook et al. Automatic identification of words with novel but infrequent senses
Hajbi et al. Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect
JP6106489B2 (ja) 語義解析装置、及びプログラム
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4726683B2 (ja) 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Roche et al. AcroDef: A quality measure for discriminating expansions of ambiguous acronyms
CN115757760A (zh) 文本摘要提取方法及系统、计算设备、存储介质
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP2004334699A (ja) テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体
Milić-Frayling Text processing and information retrieval

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080603

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080613

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4143085

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130620

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140620

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350