JP2012203569A - 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム - Google Patents
類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム Download PDFInfo
- Publication number
- JP2012203569A JP2012203569A JP2011066511A JP2011066511A JP2012203569A JP 2012203569 A JP2012203569 A JP 2012203569A JP 2011066511 A JP2011066511 A JP 2011066511A JP 2011066511 A JP2011066511 A JP 2011066511A JP 2012203569 A JP2012203569 A JP 2012203569A
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- document data
- search
- reference word
- synonyms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】生成装置1において、判定部101は、類義語データベース300が備える複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(文書データ群400)のうちのいずれかに含まれているか否かを判定する。抽出部102は、文書データ群400に含まれると判定された基準語と類義語を抽出する。設定部103は、抽出された類義語のそれぞれに、文書データ群400における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する。生成部104は、抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち出力優先度が設定された類義語を対応付けて、類義語リスト900を生成する。
【選択図】図1
Description
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定ステップと、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出ステップと、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定ステップと、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成ステップと、
を備えることを特徴とする。
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定ステップと、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出ステップと、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定ステップと、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成ステップと、
を備えることを特徴とする類義語リストの生成方法。
前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数に基づいて、出力優先度を設定する、
ことを特徴とする付記1に記載の類義語リストの生成方法。
前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数が少ないほど、出力優先度を高く設定する、
ことを特徴とする付記1または2に記載の類義語リストの生成方法。
付記1から3のいずれか1つに記載の生成方法によって生成された類義語リストを用いる検索方法であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定ステップと、
前記特定された文書データを出力する文書出力ステップと、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定ステップと、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力ステップと、
を備えることを特徴とする検索方法。
前記基準語判定ステップでは、前記類義語リストが有する基準語のそれぞれについて、前記検索文字列のうち、ユーザが指定した文字列に含まれるか否かを判定し、
前記類義語出力ステップでは、前記ユーザが指定した文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する、
ことを特徴とする付記4に記載の検索方法。
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段と、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段と、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段と、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段と、
を備えることを特徴とする類義語リストの生成装置。
付記1から3のいずれか1つに記載の生成方法によって生成された類義語リストを用いる検索装置であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段と、
前記特定された文書データを出力する文書出力手段と、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段と、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段と、
を備えることを特徴とする検索装置。
コンピュータを、
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段、
として機能させることを特徴とするコンピュータプログラム。
コンピュータを、
付記1から3のいずれか1つに記載の生成方法によって生成された類義語リストを用いる検索装置として機能させるコンピュータプログラムであって、
前記コンピュータを、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段、
前記特定された文書データを出力する文書出力手段、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段、
として機能させることを特徴とするコンピュータプログラム。
基準語とそれに対応する類義語が、検索対象の複数の文書データからなる文書データ群に含まれているか否かを判定する判定ステップと、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出ステップと、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定ステップと、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成ステップと、
を備えることを特徴とする。
Claims (9)
- 複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定ステップと、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出ステップと、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定ステップと、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成ステップと、
を備えることを特徴とする類義語リストの生成方法。 - 前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数に基づいて、出力優先度を設定する、
ことを特徴とする請求項1に記載の類義語リストの生成方法。 - 前記設定ステップでは、前記抽出された類義語のそれぞれに、当該類義語と対応する基準語をともに含む文書データの個数を判別し、当該判別した個数が少ないほど、出力優先度を高く設定する、
ことを特徴とする請求項1または2に記載の類義語リストの生成方法。 - 請求項1から3のいずれか1項に記載の生成方法によって生成された類義語リストを用いる検索方法であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定ステップと、
前記特定された文書データを出力する文書出力ステップと、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定ステップと、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力ステップと、
を備えることを特徴とする検索方法。 - 前記基準語判定ステップでは、前記類義語リストが有する基準語のそれぞれについて、前記検索文字列のうち、ユーザが指定した文字列に含まれるか否かを判定し、
前記類義語出力ステップでは、前記ユーザが指定した文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する、
ことを特徴とする請求項4に記載の検索方法。 - 複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段と、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段と、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段と、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段と、
を備えることを特徴とする類義語リストの生成装置。 - 請求項1から3のいずれか1項に記載の生成方法によって生成された類義語リストを用いる検索装置であって、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段と、
前記特定された文書データを出力する文書出力手段と、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段と、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段と、
を備えることを特徴とする検索装置。 - コンピュータを、
複数の基準語とそれに対応する類義語のそれぞれについて、検索対象の複数の文書データ(以下「文書データ群」という。)のうちのいずれかに含まれているか否かを判定する判定手段、
前記文書データ群に含まれると判定された基準語と類義語を抽出する抽出手段、
前記抽出された類義語のそれぞれに、前記文書データ群における当該類義語と対応する基準語の少なくとも一方の出現態様に基づいて、出力優先度を設定する設定手段、
前記抽出された基準語のそれぞれに、当該基準語に対応する類義語のうち前記出力優先度が設定された類義語を対応付けて、類義語リストを生成する生成手段、
として機能させることを特徴とするコンピュータプログラム。 - コンピュータを、
請求項1から3のいずれか1項に記載の生成方法によって生成された類義語リストを用いる検索装置として機能させるコンピュータプログラムであって、
前記コンピュータを、
前記文書データ群のうちから、所望の検索文字列を含む文書データを特定する文書特定手段、
前記特定された文書データを出力する文書出力手段、
前記類義語リストが有する基準語のそれぞれについて、前記検索文字列に含まれるか否かを判定する基準語判定手段、
前記検索文字列に含まれると判定された基準語に対応付けられた類義語を、当該類義語に設定された出力優先度を対応付けて出力する類義語出力手段、
として機能させることを特徴とするコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011066511A JP5338835B2 (ja) | 2011-03-24 | 2011-03-24 | 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
US13/424,602 US8572082B2 (en) | 2011-03-24 | 2012-03-20 | Method and device for generating a similar meaning term list and search method and device using the similar meaning term list |
CN201210080115.7A CN102722477B (zh) | 2011-03-24 | 2012-03-23 | 近义词列表的生成方法及生成装置、使用该近义词列表的检索方法及检索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011066511A JP5338835B2 (ja) | 2011-03-24 | 2011-03-24 | 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012203569A true JP2012203569A (ja) | 2012-10-22 |
JP5338835B2 JP5338835B2 (ja) | 2013-11-13 |
Family
ID=46878196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011066511A Active JP5338835B2 (ja) | 2011-03-24 | 2011-03-24 | 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8572082B2 (ja) |
JP (1) | JP5338835B2 (ja) |
CN (1) | CN102722477B (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5389130B2 (ja) * | 2011-09-15 | 2014-01-15 | 株式会社東芝 | 文書分類装置、方法およびプログラム |
US9454528B2 (en) * | 2011-10-17 | 2016-09-27 | Xerox Corporation | Method and system for creating ordered reading lists from unstructured document sets |
JP6967412B2 (ja) * | 2017-09-20 | 2021-11-17 | 株式会社Screenホールディングス | サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 |
JP7098949B2 (ja) * | 2018-02-14 | 2022-07-12 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
CN110442735B (zh) * | 2019-08-13 | 2022-05-13 | 北京金山数字娱乐科技有限公司 | 一种成语近义词推荐方法及装置 |
JPWO2021166692A1 (ja) * | 2020-02-21 | 2021-08-26 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10334105A (ja) * | 1997-05-27 | 1998-12-18 | Fuji Xerox Co Ltd | 関連語提示装置及び関連語提示用プログラムを記録した媒体 |
JPH10334106A (ja) * | 1997-05-27 | 1998-12-18 | Fuji Xerox Co Ltd | 関連語提示装置及び関連語提示用プログラムを記録した媒体 |
JP2003271631A (ja) * | 2002-03-13 | 2003-09-26 | Ntt Data Technology Corp | 特許文献検索方法及び装置 |
JP2004280661A (ja) * | 2003-03-18 | 2004-10-07 | Fujitsu Ltd | 検索方法及びプログラム |
JP2009093581A (ja) * | 2007-10-12 | 2009-04-30 | Fuji Xerox Co Ltd | 類義語検索管理システム |
JP2010003015A (ja) * | 2008-06-18 | 2010-01-07 | Hitachi Software Eng Co Ltd | 文書検索システム |
WO2010106642A1 (ja) * | 2009-03-17 | 2010-09-23 | 富士通株式会社 | 検索処理方法及び装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004118262A (ja) | 2002-09-24 | 2004-04-15 | Toshiba Corp | 文書検索装置、文書検索方法及び文書検索プログラム |
JP2006215717A (ja) | 2005-02-02 | 2006-08-17 | Toshiba Corp | 情報検索装置、情報検索方法および情報検索プログラム |
CN101183281B (zh) * | 2007-12-26 | 2011-04-13 | 腾讯科技(深圳)有限公司 | 一种输入法中候选词的相关词输入的方法及系统 |
US8463806B2 (en) * | 2009-01-30 | 2013-06-11 | Lexisnexis | Methods and systems for creating and using an adaptive thesaurus |
-
2011
- 2011-03-24 JP JP2011066511A patent/JP5338835B2/ja active Active
-
2012
- 2012-03-20 US US13/424,602 patent/US8572082B2/en active Active
- 2012-03-23 CN CN201210080115.7A patent/CN102722477B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10334105A (ja) * | 1997-05-27 | 1998-12-18 | Fuji Xerox Co Ltd | 関連語提示装置及び関連語提示用プログラムを記録した媒体 |
JPH10334106A (ja) * | 1997-05-27 | 1998-12-18 | Fuji Xerox Co Ltd | 関連語提示装置及び関連語提示用プログラムを記録した媒体 |
JP2003271631A (ja) * | 2002-03-13 | 2003-09-26 | Ntt Data Technology Corp | 特許文献検索方法及び装置 |
JP2004280661A (ja) * | 2003-03-18 | 2004-10-07 | Fujitsu Ltd | 検索方法及びプログラム |
JP2009093581A (ja) * | 2007-10-12 | 2009-04-30 | Fuji Xerox Co Ltd | 類義語検索管理システム |
JP2010003015A (ja) * | 2008-06-18 | 2010-01-07 | Hitachi Software Eng Co Ltd | 文書検索システム |
WO2010106642A1 (ja) * | 2009-03-17 | 2010-09-23 | 富士通株式会社 | 検索処理方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
US20120246162A1 (en) | 2012-09-27 |
CN102722477A (zh) | 2012-10-10 |
US8572082B2 (en) | 2013-10-29 |
CN102722477B (zh) | 2015-05-20 |
JP5338835B2 (ja) | 2013-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5338835B2 (ja) | 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP4942727B2 (ja) | テキスト要約装置、その方法およびプログラム | |
JP2007517338A (ja) | サーチ品質の改善システムおよび改善方法 | |
JP2007004633A (ja) | 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置 | |
JP2004062893A (ja) | 重み付き編集距離に基づく例文の自動検索用システムおよび方法 | |
KR101243457B1 (ko) | 집합 확장 처리 장치, 집합 확장 처리 방법, 및 비일시적인 기록 매체 | |
JP6908644B2 (ja) | 文書検索装置及び文書検索方法 | |
CN105095285B (zh) | 数字出版物导览目录处理方法和装置 | |
JP2004318510A (ja) | 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法 | |
JP5835224B2 (ja) | 入力支援プログラム、入力支援装置、及び入力支援方法 | |
US8782067B2 (en) | Searching method, searching device and recording medium recording a computer program | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP5112416B2 (ja) | 用語抽出装置、方法及び用語辞書のデータ構造 | |
JP2010204739A (ja) | 支援装置、プログラムおよび支援方法 | |
JP5428622B2 (ja) | 電子機器及びプログラム | |
Taghva et al. | Farsi searching and display technologies | |
JP5259764B2 (ja) | 拾い読み支援システム、拾い読み支援方法及びプログラム | |
JP3498635B2 (ja) | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 | |
JP2013175136A (ja) | トレース支援装置、トレース支援システム、トレース支援方法、およびトレース支援プログラム | |
JPH01214963A (ja) | 辞書引き装置 | |
JP2013130916A (ja) | 文書速読支援装置 | |
JP2003022277A (ja) | 文書検索装置及び文書検索方法 | |
JP2009098829A (ja) | 漫画のコマ検索装置 | |
JP5708117B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP6519131B2 (ja) | 辞書選択装置、文書変換システム、プログラム及び文書変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130313 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130416 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130722 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5338835 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |