JP5137567B2 - 検索フィルタリング装置及び検索フィルタリングプログラム - Google Patents
検索フィルタリング装置及び検索フィルタリングプログラム Download PDFInfo
- Publication number
- JP5137567B2 JP5137567B2 JP2007339327A JP2007339327A JP5137567B2 JP 5137567 B2 JP5137567 B2 JP 5137567B2 JP 2007339327 A JP2007339327 A JP 2007339327A JP 2007339327 A JP2007339327 A JP 2007339327A JP 5137567 B2 JP5137567 B2 JP 5137567B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification
- search
- analysis result
- negative example
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001914 filtration Methods 0.000 title claims description 32
- 238000004458 analytical method Methods 0.000 claims description 115
- 239000013598 vector Substances 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 12
- 238000010187 selection method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明の実施の形態1に係る検索フィルタリング装置について図1から図8までを参照しながら説明する。
Claims (8)
- 検索対象の文書の集合から、初期検索式により抽出対象の上限文書集合、確定正例検索式により検索目的に合致する文書の集合である確定正例、及び確定負例検索式により検索目的に合致しない文書の集合である確定負例の検索を行う検索部と、
前記検索部により検索された抽出対象の上限文書集合、確定正例、及び確定負例の各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果を求める文書解析部と、
前記文書解析部により解析された、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果から、分類対象文書、分類用正例、及び分類用負例を選択し、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択部と、
前記訓練用文書・分類対象文書選択部により求めた分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果から、検索目的を表す語との共起情報を素性ベクトルとして抽出し、前記分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、前記分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、前記分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出部と、
前記共起素性抽出部により生成された分類用正例の文書ごとの素性ベクトル、及び分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、及び分類用負例文書の特徴を計算する学習部と、
前記学習部により計算した分類用正例文書の特徴、及び分類用負例文書の特徴を、前記共起素性抽出部により生成された分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める自動分類部と
を備えたことを特徴とする検索フィルタリング装置。 - 前記訓練用文書・分類対象文書選択部は、
検索目的に合致することが確定した確定正例を分類用正例とし、前記抽出対象の上限文書集合から前記確定正例と検索目的に合致しないことが確定した確定負例とを除いたものを分類用負例として自動分類を行った結果から想定負例を抽出する想定負例選択部を有する
ことを特徴とする請求項1記載の検索フィルタリング装置。 - 前記想定負例選択部は、抽出したい文書であるものの個数と、抽出したい文書ではないものの個数とから求める事前確率を用いて想定負例を抽出する
ことを特徴とする請求項2記載の検索フィルタリング装置。 - 前記想定負例選択部は、分類スコアを用いて想定負例を抽出する
ことを特徴とする請求項2記載の検索フィルタリング装置。 - 前記共起素性抽出部は、文の構造の解析結果から検索目的を表す語と文節内で共起する語を素性として抽出する
ことを特徴とする請求項1から請求項4までのいずれかに記載の検索フィルタリング装置。 - 前記共起素性抽出部は、文の構造の解析結果から検索目的を表す語と係り受け共起する語を素性として抽出する
ことを特徴とする請求項1から請求項4までのいずれかに記載の検索フィルタリング装置。 - 前記共起素性抽出部は、文書及び文の構造の解析結果から検索目的を表す語と所定の範囲の文内で共起する語を素性として抽出する
ことを特徴とする請求項1から請求項4までのいずれかに記載の検索フィルタリング装置。 - コンピュータに、
検索対象の文書の集合から、初期検索式により抽出対象の上限文書集合、確定正例検索式により検索目的に合致する文書の集合である確定正例、及び確定負例検索式により検索目的に合致しない文書の集合である確定負例の検索を行う検索手順と、
前記検索手順により検索された抽出対象の上限文書集合、確定正例、及び確定負例の各文書に対して文の形態素及び構文の解析を行い、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果を求める文書解析手順と、
前記文書解析手順により解析された、抽出対象の上限文書集合の文書解析結果、確定正例の文書解析結果、及び確定負例の文書解析結果から、分類対象文書、分類用正例、及び分類用負例を選択し、分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果を求める訓練用文書・分類対象文書選択手順と、
前記訓練用文書・分類対象文書選択手順により求めた分類対象文書ごとの文書解析結果、分類用正例の文書ごとの文書解析結果、及び分類用負例の文書ごとの文書解析結果から、検索目的を表す語との共起情報を素性ベクトルとして抽出し、前記分類対象文書ごとの文書解析結果から分類対象文書ごとの素性ベクトルを生成し、前記分類用正例の文書ごとの文書解析結果から分類用正例の文書ごとの素性ベクトルを生成し、前記分類用負例の文書ごとの文書解析結果から分類用負例の文書ごとの素性ベクトルを生成する共起素性抽出手順と、
前記共起素性抽出手順により生成された分類用正例の文書ごとの素性ベクトル、及び分類用負例の文書ごとの素性ベクトルから、分類用正例文書の特徴、及び分類用負例文書の特徴を計算する学習手順と、
前記学習手順により計算した分類用正例文書の特徴、及び分類用負例文書の特徴を、前記共起素性抽出手順により生成された分類対象文書ごとの素性ベクトルに適用して、分類対象文書ごとの分類スコアを求める自動分類手順と
を実行させるための検索フィルタリングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007339327A JP5137567B2 (ja) | 2007-12-28 | 2007-12-28 | 検索フィルタリング装置及び検索フィルタリングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007339327A JP5137567B2 (ja) | 2007-12-28 | 2007-12-28 | 検索フィルタリング装置及び検索フィルタリングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009163303A JP2009163303A (ja) | 2009-07-23 |
JP5137567B2 true JP5137567B2 (ja) | 2013-02-06 |
Family
ID=40965891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007339327A Expired - Fee Related JP5137567B2 (ja) | 2007-12-28 | 2007-12-28 | 検索フィルタリング装置及び検索フィルタリングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5137567B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5364010B2 (ja) * | 2010-02-18 | 2013-12-11 | 株式会社Kddi研究所 | 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法 |
JP5751253B2 (ja) | 2010-05-24 | 2015-07-22 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
US9323839B2 (en) | 2011-01-13 | 2016-04-26 | Mitsubishi Electric Corporation | Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium |
JP5640773B2 (ja) * | 2011-01-28 | 2014-12-17 | 富士通株式会社 | 情報照合装置、情報照合方法および情報照合プログラム |
JP5419906B2 (ja) * | 2011-02-17 | 2014-02-19 | 日本電信電話株式会社 | 主題抽出装置、方法、及びプログラム |
JP5971794B2 (ja) * | 2012-04-20 | 2016-08-17 | 有限会社アイ・アール・ディー | 特許調査支援装置、特許調査支援方法、およびプログラム |
JP5912813B2 (ja) * | 2012-04-26 | 2016-04-27 | 有限会社アイ・アール・ディー | 特許調査結果評価装置、特許調査結果評価方法、およびプログラム |
WO2016129124A1 (ja) * | 2015-02-13 | 2016-08-18 | 株式会社Ubic | データ分析システム、データ分析方法、およびデータ分析プログラム |
JP2017107391A (ja) * | 2015-12-09 | 2017-06-15 | 東邦瓦斯株式会社 | テキストマイニング方法、及びテキストマイニングプログラム |
JP6679448B2 (ja) * | 2016-09-14 | 2020-04-15 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
CN111538806B (zh) * | 2019-01-21 | 2023-04-07 | 阿里巴巴集团控股有限公司 | 查询负例的泛化方法及装置 |
WO2022005511A1 (en) | 2020-07-01 | 2022-01-06 | Google Llc | Evaluating an interpretation for a search query |
CN112364130B (zh) * | 2020-11-10 | 2024-04-09 | 深圳前海微众银行股份有限公司 | 样本采样方法、设备和可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006350749A (ja) * | 2005-06-17 | 2006-12-28 | Ricoh Co Ltd | 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体 |
-
2007
- 2007-12-28 JP JP2007339327A patent/JP5137567B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009163303A (ja) | 2009-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5137567B2 (ja) | 検索フィルタリング装置及び検索フィルタリングプログラム | |
US9317569B2 (en) | Displaying search results with edges/entity relationships in regions/quadrants on a display device | |
Bollegala et al. | Cross-domain sentiment classification using a sentiment sensitive thesaurus | |
Rintyarna et al. | Enhancing the performance of sentiment analysis task on product reviews by handling both local and global context | |
CA2777520C (en) | System and method for phrase identification | |
US8150822B2 (en) | On-line iterative multistage search engine with text categorization and supervised learning | |
RU2583716C2 (ru) | Метод построения и обнаружения тематической структуры корпуса | |
US8321418B2 (en) | Information processor, method of processing information, and program | |
JP6335898B2 (ja) | 製品認識に基づく情報分類 | |
Zia et al. | Comparative study of feature selection approaches for Urdu text categorization | |
US20090094178A1 (en) | Computer-based method and system for efficient categorizing of digital documents | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
Vo et al. | Opinion–aspect relations in cognizing customer feelings via reviews | |
JP2008084064A (ja) | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム | |
Rozovskaya et al. | Correcting grammatical verb errors | |
Mukund et al. | A vector space model for subjectivity classification in Urdu aided by co-training | |
Gonsior et al. | Active Learning for Spreadsheet Cell Classification. | |
CN110688559A (zh) | 一种检索方法及装置 | |
CN116975275A (zh) | 多语种文本分类模型训练方法、装置和计算机设备 | |
Singh et al. | Computing sentiment polarity of texts at document and aspect levels | |
Namee et al. | Concept-based one-class SVM classifier with supervised term weighting scheme for imbalanced sentiment classification. | |
Panigrahi et al. | A review of recent advances in text mining of Indian languages | |
Chali et al. | Do automatic annotation techniques have any impact on supervised complex question answering? | |
Ali et al. | Towards an approach based on particle swarm optimization for Arabic named entity recognition on social media | |
Polpinij et al. | Improving of Imbalanced Data in Multiclass Classification for Sentiment Analysis using Supervised Term Weighting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121016 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5137567 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151122 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |