JP4143085B2 - 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents
同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP4143085B2 JP4143085B2 JP2005362386A JP2005362386A JP4143085B2 JP 4143085 B2 JP4143085 B2 JP 4143085B2 JP 2005362386 A JP2005362386 A JP 2005362386A JP 2005362386 A JP2005362386 A JP 2005362386A JP 4143085 B2 JP4143085 B2 JP 4143085B2
- Authority
- JP
- Japan
- Prior art keywords
- anchor text
- keyword
- document
- text
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
キーワード検索手段が、キーワードと該キーワードの上位概念語が入力されると(ステップ1)、電子テキストを検索して該上位概念語とそれぞれのキーワードを含む文書を取得するキーワード検索ステップ(ステップ2)と、
文書特定手段が、キーワード検索ステップで取得した文書中で、検索におけるキーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定ステップ(ステップ3)と、
リンク検索手段が、キーワード検索ステップ(ステップ2)で取得した文書から、キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索ステップ(ステップ4)と、
アンカーテキスト特定手段が、文書特定ステップ(ステップ3)ならびにリンク検索ステップ(ステップ4)で特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段に格納するアンカーテキスト特定ステップ(ステップ5)と、
クラス別アンカーテキスト文字列統計解析手段が、アンカーテキスト特定ステップで抽出されたアンカーテキストを記憶手段から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベースに格納するクラス別アンカーテキスト文字列統計解析ステップ(ステップ6)と、
アンカー文字列クリーニング手段が、アンカーテキスト統計情報データベースに格納された部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、キーワードにおける出現確率のエントロピーがキーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベースのアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニングステップ(ステップ7)と、を行う。
キーワードと該キーワードの上位概念語が入力されると、電子テキストを検索して該上位概念語とそれぞれのキーワードを含む文書を取得するキーワード検索手段20と、
キーワード検索手段20で取得した文書中で、検索におけるキーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定手段25と、
キーワード検索手段25で取得した文書から、キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索手段30と、
文書特定手段25ならびにリンク検索手段30で特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段41に格納するアンカーテキスト特定手段40と、
アンカーテキスト特定手段40で抽出されたアンカーテキストを記憶手段41から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベース70に格納するクラス別アンカーテキスト文字列統計解析手段50と、
アンカーテキスト統計情報データベース70に格納された部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、キーワードにおける出現確率のエントロピーがキーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベース70のアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニング手段60と、を有する。
本発明(請求項4)は、請求項3記載の同義語獲得プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体である。
・文書のタイトルがキーワードと完全一致する文書;
文書特定部25では、一次記憶(メモリ)を有し、キーワードと関連性が強いと判断された文書URLを格納する。当該装置に入力されたキーワード全てについて以上の処理を行った後、次の処理を行う構成要素にデータの内容を渡す。メモリのデータ格納の例を図6に示す。
20 キーワード検索手段、検索部
25 文書特定手段、文書特定部
30 リンク検索手段、URL抽出部
40 アンカーテキスト特定手段、アンカーテキスト抽出部
41 記憶手段
50 クラス別アンカーテキスト文字列統計解析手段、アンカーテキスト解析部
60 アンカー文字列クリーニング手段、アンカーテキストクリーニング部
70 アンカーテキスト統計情報DB
80 同義語出力部
Claims (4)
- HTMLやXMLを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得方法であって、
キーワード検索手段が、キーワードと該キーワードの上位概念語が入力されると、電子テキストを検索して該上位概念語とそれぞれのキーワードを含む文書を取得するキーワード検索ステップと、
文書特定手段が、前記キーワード検索ステップで取得した文書中で、前記検索における前記キーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定ステップと、
リンク検索手段が、前記キーワード検索ステップで取得した前記文書から、前記キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索ステップと、
アンカーテキスト特定手段が、前記文書特定ステップならびに前記リンク検索ステップで特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段に格納するアンカーテキスト特定ステップと、
クラス別アンカーテキスト文字列統計解析手段が、前記アンカーテキスト特定ステップで抽出されたアンカーテキストを前記記憶手段から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベースに格納するクラス別アンカーテキスト文字列統計解析ステップと、
アンカー文字列クリーニング手段が、前記アンカーテキスト統計情報データベースに格納された前記部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、前記キーワードにおける出現確率のエントロピーが前記キーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベースのアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニングステップと、
を行うことを特徴とする同義語彙獲得方法。 - HTMLやXMLを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得装置であって、
キーワードと該キーワードの上位概念語が入力されると、電子テキストを検索して該上位概念語とそれぞれのキーワードを含む文書を取得するキーワード検索手段と、
前記キーワード検索手段で取得した文書中で、前記検索における前記キーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定手段と、
前記キーワード検索手段で取得した前記文書から、前記キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索手段と、
前記文書特定手段ならびに前記リンク検索手段で特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段に格納するアンカーテキスト特定手段と、
前記アンカーテキスト特定手段で抽出されたアンカーテキストを前記記憶手段から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベースに格納するクラス別アンカーテキスト文字列統計解析手段と、
前記アンカーテキスト統計情報データベースに格納された前記部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、前記キーワードにおける出現確率のエントロピーが前記キーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベースのアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニング手段と、
を有することを特徴とする同義語彙獲得装置。 - 請求項2記載の同義語獲得装置を構成する各手段としてコンピュータを機能させるための同義語獲得プログラム。
- 請求項3記載の同義語獲得プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005362386A JP4143085B2 (ja) | 2005-12-15 | 2005-12-15 | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005362386A JP4143085B2 (ja) | 2005-12-15 | 2005-12-15 | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007164635A JP2007164635A (ja) | 2007-06-28 |
JP4143085B2 true JP4143085B2 (ja) | 2008-09-03 |
Family
ID=38247432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005362386A Active JP4143085B2 (ja) | 2005-12-15 | 2005-12-15 | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4143085B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9785726B2 (en) | 2014-02-25 | 2017-10-10 | International Business Machines Corporation | Pattern matching based character string retrieval |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5186165B2 (ja) * | 2007-09-28 | 2013-04-17 | 株式会社エヌ・ティ・ティ・データ | 組織名抽出装置、方法及びプログラム |
CN101887436B (zh) * | 2009-05-12 | 2013-08-21 | 阿里巴巴集团控股有限公司 | 一种检索方法和装置 |
JP5648890B2 (ja) * | 2010-02-22 | 2015-01-07 | 日本電気株式会社 | 辞書作成支援装置、辞書作成支援方法及び辞書作成支援プログラム |
JP6078491B2 (ja) * | 2014-03-18 | 2017-02-08 | 日本電信電話株式会社 | 文書分類装置、文書分類方法、文書分類プログラム |
-
2005
- 2005-12-15 JP JP2005362386A patent/JP4143085B2/ja active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9785726B2 (en) | 2014-02-25 | 2017-10-10 | International Business Machines Corporation | Pattern matching based character string retrieval |
US9916397B2 (en) | 2014-02-25 | 2018-03-13 | International Business Machines Corporation | Pattern matching based character string retrieval |
US9946812B2 (en) | 2014-02-25 | 2018-04-17 | International Business Machines Corporation | Pattern matching based character string retrieval |
US10007740B2 (en) | 2014-02-25 | 2018-06-26 | International Business Machines Corporation | Pattern matching based character string retrieval |
US10176274B2 (en) | 2014-02-25 | 2019-01-08 | International Business Machines Corporation | Pattern matching based character string retrieval |
Also Published As
Publication number | Publication date |
---|---|
JP2007164635A (ja) | 2007-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7493293B2 (en) | System and method for extracting entities of interest from text using n-gram models | |
EP3016002A1 (en) | Non-factoid question-and-answer system and method | |
US20020046018A1 (en) | Discourse parsing and summarization | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN113268569B (zh) | 基于语义的关联词查找方法及装置、电子设备、存储介质 | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
JP2011118689A (ja) | 検索方法及びシステム | |
TW201826145A (zh) | 從中文語料庫提取知識的方法和系統 | |
Versley et al. | Not just bigger: Towards better-quality Web corpora | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP6108212B2 (ja) | 同義語抽出システム、方法およびプログラム | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
Chifu et al. | A system for detecting professional skills from resumes written in natural language | |
Nanba et al. | Bilingual PRESRI-Integration of Multiple Research Paper Databases. | |
Cook et al. | Automatic identification of words with novel but infrequent senses | |
Hajbi et al. | Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect | |
JP6106489B2 (ja) | 語義解析装置、及びプログラム | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP4726683B2 (ja) | 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Roche et al. | AcroDef: A quality measure for discriminating expansions of ambiguous acronyms | |
CN115757760A (zh) | 文本摘要提取方法及系统、计算设备、存储介质 | |
JP2006119697A (ja) | 質問応答システム、質疑応答方法および質疑応答プログラム | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 | |
Milić-Frayling | Text processing and information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080603 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080613 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110620 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4143085 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120620 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130620 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140620 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |