JP2009163303A - 検索フィルタリング装置及び検索フィルタリングプログラム - Google Patents
検索フィルタリング装置及び検索フィルタリングプログラム Download PDFInfo
- Publication number
- JP2009163303A JP2009163303A JP2007339327A JP2007339327A JP2009163303A JP 2009163303 A JP2009163303 A JP 2009163303A JP 2007339327 A JP2007339327 A JP 2007339327A JP 2007339327 A JP2007339327 A JP 2007339327A JP 2009163303 A JP2009163303 A JP 2009163303A
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification
- search
- analysis result
- negative example
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】抽出対象の上限文書集合、確定正例、確定負例の検索を行う検索部10と、各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合、確定正例、確定負例の文書解析結果を求める文書解析部20と、分類対象文書ごと、分類用正例の文書ごと、分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択部30と、検索目的を表す語との共起情報を素性ベクトルとして抽出し、分類対象文書ごと、分類用正例の文書ごと、分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出部40と、分類用正例文書、分類用負例文書の特徴を計算する学習部50と、分類用正例文書、分類用負例文書の特徴を、分類対象文書ごとの素性ベクトルに適用し、分類対象文書ごとの分類スコアを求める自動分類部60とを設けた。
【選択図】図2
Description
この発明の実施の形態1に係る検索フィルタリング装置について図1から図8までを参照しながら説明する。
Claims (8)
- 検索対象の文書の集合から、初期検索式により抽出対象の上限文書集合、確定正例検索式により検索目的に合致する文書の集合である確定正例、及び確定負例検索式により検索目的に合致しない文書の集合である確定負例の検索を行う検索部と、
前記検索部により検索された抽出対象の上限文書集合、確定正例、及び確定負例の各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果を求める文書解析部と、
前記文書解析部により解析された、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果から、分類対象文書、分類用正例、及び分類用負例を選択し、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択部と、
前記訓練用文書・分類対象文書選択部により求めた分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果から、検索目的を表す語との共起情報を素性ベクトルとして抽出し、前記分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、前記分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、前記分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出部と、
前記共起素性抽出部により生成された分類用正例の文書ごとの素性ベクトル、及び分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、及び分類用負例文書の特徴を計算する学習部と、
前記学習部により計算した分類用正例文書の特徴、及び分類用負例文書の特徴を、前記共起素性抽出部により生成された分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める自動分類部と
を備えたことを特徴とする検索フィルタリング装置。 - 前記訓練用文書・分類対象文書選択部は、
検索目的に合致することが確定した確定正例を分類用正例とし、前記抽出対象の上限文書集合から前記確定正例と検索目的に合致しないことが確定した確定負例とを除いたものを分類用負例として自動分類を行った結果から想定負例を抽出する想定負例選択部を有する
ことを特徴とする請求項1記載の検索フィルタリング装置。 - 前記想定負例選択部は、抽出したい文書であるものの個数と、抽出したい文書ではないものの個数とから求める事前確率を用いて想定負例を抽出する
ことを特徴とする請求項2記載の検索フィルタリング装置。 - 前記想定負例選択部は、分類スコアを用いて想定負例を抽出する
ことを特徴とする請求項2記載の検索フィルタリング装置。 - 前記共起素性抽出部は、文の構造の解析結果から検索目的を表す語と文節内で共起する語を素性として抽出する
ことを特徴とする請求項1から請求項4までのいずれかに記載の検索フィルタリング装置。 - 前記共起素性抽出部は、文の構造の解析結果から検索目的を表す語と係り受け共起する語を素性として抽出する
ことを特徴とする請求項1から請求項4までのいずれかに記載の検索フィルタリング装置。 - 前記共起素性抽出部は、文書及び文の構造の解析結果から検索目的を表す語と所定の範囲の文内で共起する語を素性として抽出する
ことを特徴とする請求項1から請求項4までのいずれかに記載の検索フィルタリング装置。 - コンピュータに、
検索対象の文書の集合から、初期検索式により抽出対象の上限文書集合、確定正例検索式により検索目的に合致する文書の集合である確定正例、及び確定負例検索式により検索目的に合致しない文書の集合である確定負例の検索を行う検索手順と、
前記検索手順により検索された抽出対象の上限文書集合、確定正例、及び確定負例の各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果を求める文書解析手順と、
前記文書解析手順により解析された、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果から、分類対象文書、分類用正例、及び分類用負例を選択し、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択手順と、
前記訓練用文書・分類対象文書選択手順により求めた分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果から、検索目的を表す語との共起情報を素性ベクトルとして抽出し、前記分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、前記分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、前記分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出手順と、
前記共起素性抽出手順により生成された分類用正例の文書ごとの素性ベクトル、及び分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、及び分類用負例文書の特徴を計算する学習手順と、
前記学習手順により計算した分類用正例文書の特徴、及び分類用負例文書の特徴を、前記共起素性抽出手順により生成された分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める自動分類手順と
を実行させるための検索フィルタリングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007339327A JP5137567B2 (ja) | 2007-12-28 | 2007-12-28 | 検索フィルタリング装置及び検索フィルタリングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007339327A JP5137567B2 (ja) | 2007-12-28 | 2007-12-28 | 検索フィルタリング装置及び検索フィルタリングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009163303A true JP2009163303A (ja) | 2009-07-23 |
JP5137567B2 JP5137567B2 (ja) | 2013-02-06 |
Family
ID=40965891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007339327A Active JP5137567B2 (ja) | 2007-12-28 | 2007-12-28 | 検索フィルタリング装置及び検索フィルタリングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5137567B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170578A (ja) * | 2010-02-18 | 2011-09-01 | Kddi R & D Laboratories Inc | 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法 |
JP2012159884A (ja) * | 2011-01-28 | 2012-08-23 | Fujitsu Ltd | 情報照合装置、情報照合方法および情報照合プログラム |
JP2012173810A (ja) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 主題抽出装置、方法、及びプログラム |
JP2013225207A (ja) * | 2012-04-20 | 2013-10-31 | Docomo Technology Inc | 特許調査支援装置、特許調査支援方法、およびプログラム |
JP2013228933A (ja) * | 2012-04-26 | 2013-11-07 | Docomo Technology Inc | 特許調査結果評価装置、特許調査結果評価方法、およびプログラム |
US9189748B2 (en) | 2010-05-24 | 2015-11-17 | Nec Corporation | Information extraction system, method, and program |
US9323839B2 (en) | 2011-01-13 | 2016-04-26 | Mitsubishi Electric Corporation | Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium |
WO2016129124A1 (ja) * | 2015-02-13 | 2016-08-18 | 株式会社Ubic | データ分析システム、データ分析方法、およびデータ分析プログラム |
JP2017107391A (ja) * | 2015-12-09 | 2017-06-15 | 東邦瓦斯株式会社 | テキストマイニング方法、及びテキストマイニングプログラム |
JP2018045412A (ja) * | 2016-09-14 | 2018-03-22 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
CN111538806A (zh) * | 2019-01-21 | 2020-08-14 | 阿里巴巴集团控股有限公司 | 查询负例的泛化方法及装置 |
CN112364130A (zh) * | 2020-11-10 | 2021-02-12 | 深圳前海微众银行股份有限公司 | 样本采样方法、设备和可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350749A (ja) * | 2005-06-17 | 2006-12-28 | Ricoh Co Ltd | 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体 |
-
2007
- 2007-12-28 JP JP2007339327A patent/JP5137567B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350749A (ja) * | 2005-06-17 | 2006-12-28 | Ricoh Co Ltd | 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体 |
Non-Patent Citations (6)
Title |
---|
CSNG200100090046; 中島浩之 他: '検索語間における共起関係の特定によるレレバンスフィードバックの高精度化' 情報処理学会論文誌 第40巻 第3号, 19990315, p.p.1236-1244, 社団法人情報処理学会 * |
CSNG201000460102; 嶋田和孝 他: '類似度に基づく訓練データの獲得とスペック情報の抽出' 言語処理学会第11回年次大会発表論文集 , 20050315, p.p.424-427, 言語処理学会 * |
CSNJ200610036042; 松村敦 他: '不適合情報を利用した情報検索手法' FIT2005 第4回情報科学技術フォーラム 一般講演論文集 第2分冊 , 20050822, p.p.105-108, 社団法人情報処理学会 * |
JPN6012053292; 嶋田和孝 他: '類似度に基づく訓練データの獲得とスペック情報の抽出' 言語処理学会第11回年次大会発表論文集 , 20050315, p.p.424-427, 言語処理学会 * |
JPN6012053293; 松村敦 他: '不適合情報を利用した情報検索手法' FIT2005 第4回情報科学技術フォーラム 一般講演論文集 第2分冊 , 20050822, p.p.105-108, 社団法人情報処理学会 * |
JPN6012053377; 中島浩之 他: '検索語間における共起関係の特定によるレレバンスフィードバックの高精度化' 情報処理学会論文誌 第40巻 第3号, 19990315, p.p.1236-1244, 社団法人情報処理学会 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170578A (ja) * | 2010-02-18 | 2011-09-01 | Kddi R & D Laboratories Inc | 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法 |
US9189748B2 (en) | 2010-05-24 | 2015-11-17 | Nec Corporation | Information extraction system, method, and program |
US9323839B2 (en) | 2011-01-13 | 2016-04-26 | Mitsubishi Electric Corporation | Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium |
JP2012159884A (ja) * | 2011-01-28 | 2012-08-23 | Fujitsu Ltd | 情報照合装置、情報照合方法および情報照合プログラム |
JP2012173810A (ja) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 主題抽出装置、方法、及びプログラム |
JP2013225207A (ja) * | 2012-04-20 | 2013-10-31 | Docomo Technology Inc | 特許調査支援装置、特許調査支援方法、およびプログラム |
JP2013228933A (ja) * | 2012-04-26 | 2013-11-07 | Docomo Technology Inc | 特許調査結果評価装置、特許調査結果評価方法、およびプログラム |
WO2016129124A1 (ja) * | 2015-02-13 | 2016-08-18 | 株式会社Ubic | データ分析システム、データ分析方法、およびデータ分析プログラム |
JP2017107391A (ja) * | 2015-12-09 | 2017-06-15 | 東邦瓦斯株式会社 | テキストマイニング方法、及びテキストマイニングプログラム |
JP2018045412A (ja) * | 2016-09-14 | 2018-03-22 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
CN111538806A (zh) * | 2019-01-21 | 2020-08-14 | 阿里巴巴集团控股有限公司 | 查询负例的泛化方法及装置 |
CN111538806B (zh) * | 2019-01-21 | 2023-04-07 | 阿里巴巴集团控股有限公司 | 查询负例的泛化方法及装置 |
CN112364130A (zh) * | 2020-11-10 | 2021-02-12 | 深圳前海微众银行股份有限公司 | 样本采样方法、设备和可读存储介质 |
CN112364130B (zh) * | 2020-11-10 | 2024-04-09 | 深圳前海微众银行股份有限公司 | 样本采样方法、设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5137567B2 (ja) | 2013-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5137567B2 (ja) | 検索フィルタリング装置及び検索フィルタリングプログラム | |
Huq et al. | Sentiment analysis on Twitter data using KNN and SVM | |
US9317569B2 (en) | Displaying search results with edges/entity relationships in regions/quadrants on a display device | |
Casamayor et al. | Identification of non-functional requirements in textual specifications: A semi-supervised learning approach | |
CA2777520C (en) | System and method for phrase identification | |
US7840521B2 (en) | Computer-based method and system for efficient categorizing of digital documents | |
Sahu et al. | Feature engineering and ensemble-based approach for improving automatic short-answer grading performance | |
RU2583716C2 (ru) | Метод построения и обнаружения тематической структуры корпуса | |
Fang et al. | Word-of-mouth understanding: Entity-centric multimodal aspect-opinion mining in social media | |
JP6335898B2 (ja) | 製品認識に基づく情報分類 | |
US8321418B2 (en) | Information processor, method of processing information, and program | |
Zia et al. | Comparative study of feature selection approaches for Urdu text categorization | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
Vo et al. | Opinion–aspect relations in cognizing customer feelings via reviews | |
Kalaivani et al. | Feature reduction based on genetic algorithm and hybrid model for opinion mining | |
JP2008084064A (ja) | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム | |
Rozovskaya et al. | Correcting grammatical verb errors | |
Mukund et al. | A vector space model for subjectivity classification in Urdu aided by co-training | |
Tasharofi et al. | Evaluation of statistical part of speech tagging of Persian text | |
Gonsior et al. | Active Learning for Spreadsheet Cell Classification. | |
Endalie et al. | Designing a hybrid dimension reduction for improving the performance of Amharic news document classification | |
Namee et al. | Concept-based one-class SVM classifier with supervised term weighting scheme for imbalanced sentiment classification. | |
Kuttiyapillai et al. | Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques | |
Mohana et al. | Document classification using multinomial Naïve Bayesian classifier | |
Chitra et al. | Genetic algorithm based feature selection for paraphrase recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121016 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5137567 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151122 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |