JP2011210110A - 複合語に対する文書数予測装置及び方法及びプログラム - Google Patents
複合語に対する文書数予測装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP2011210110A JP2011210110A JP2010078794A JP2010078794A JP2011210110A JP 2011210110 A JP2011210110 A JP 2011210110A JP 2010078794 A JP2010078794 A JP 2010078794A JP 2010078794 A JP2010078794 A JP 2010078794A JP 2011210110 A JP2011210110 A JP 2011210110A
- Authority
- JP
- Japan
- Prior art keywords
- documents
- word
- document
- transposed index
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、ユーザから入力されたクエリが複合語の場合に複合語を単一の単語に分割し、分割された単語に基づいて転置インデックス記憶手段を参照して、分割した単語それぞれに対する転置インデックスを抽出し、予め設定した文書数を対象として、抽出された転置インデックスから抽出した複合語を含む文書数を算出し、検出した複合語を含む文書数と転置インデックス取得ステップで取得した各単語を含む文書数に基づいて、文書数予測ルールを用いて全文書に対する複合語を含む文書数の予測値を算出する。
【選択図】 図1
Description
2.単語(「太陽」)の出現回数
3.単語(「太陽」)の出現位置
また、この転置インデックスは予め作成するため、単語を含む文書数の情報も保持している。図9では、「太陽」を含む文書は15文書存在する。
単語名毎に、該単語を含んでいる文書ID、単語の出現回数、単語の出現位置を含む転置インデックスを格納した転置インデックス記憶手段60と、
ユーザから入力されたクエリが複合語の場合に複合語を単一の単語に分割する単語分割手段10と、
分割された単語に基づいて転置インデックス記憶手段60を参照して、分割した単語それぞれに対する転置インデックスを抽出する転置インデックス取得手段21と、
予め設定した文書数を対象として、抽出された転置インデックスから抽出した複合語を含む文書数を算出する文書数算出手段22と、
検出した複合語を含む文書数と転置インデックス取得手段21で取得した各単語を含む文書数に基づいて、文書数予測ルールを用いて全文書に対する複合語を含む文書数の予測値を算出する予測値算出手段100と、を有する。
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも大きい場合は、単独文書数比を用いて予測する文書数を小さく補正するルールを含む。
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも小さい場合は、単独文書数比を用いて予測する文書数を大きく補正するルールを含む。
単語名毎に、該単語を含んでいる文書ID、単語の出現回数、単語の出現位置を含む転置インデックスを格納した転置インデックス記憶手段と、
文書数予測ルールを格納したルール記憶手段と、を有する装置が、
ユーザから入力されたクエリが複合語の場合に複合語を単一の単語に分割する単語分割ステップ(ステップ1)と、
分割された単語に基づいて転置インデックス記憶手段を参照して、分割した単語それぞれに対する転置インデックスを抽出する転置インデックス取得ステップ(ステップ2)と、
予め設定した文書数を対象として、抽出された転置インデックスから抽出した複合語を含む文書数を算出する文書数算出ステップ(ステップ3)と、
検出した複合語を含む文書数と転置インデックス取得ステップ(ステップ2)で取得した各単語を含む文書数に基づいて、文書数予測ルールを用いて全文書に対する複合語を含む文書数の予測値を算出する予測値算出ステップ(ステップ4)と、を行う。
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも大きい場合は、単独文書数比を用いて予測する文書数を小さく補正する文書数予測ルールを用いる。
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも小さい場合は、単独文書数比を用いて予測する文書数を大きく補正する文書数予測ルールを用いる。
ステップ109) s1/s2とdf1/df2を比較し、s1/s2<df1/df2である場合は、ステップ110に移行し、s1/s2≧df1/df2である場合はステップ111に移行する。
ステップ111) 予測式3計算部50は、条件(s1/s2>1.0、かつ、1/s2≧df1/df2)に基づいて予測ルール記憶部70から以下の予測式3を取得し、複合語の文書数を予測し出力する。
=1/(2/(10−4+2))
=4
上記を「太陽エネルギー」の予測文書数とする。
=1/(2/10)×(1.0−((2/7)/(10/11)))
=1/(1/5)×(1.0−0.3143)
=1/(1/5)×0.6857
=3.4285
上記を「太陽エネルギー」の予測文書数とする。
=1/(2/6)
=3
上記を「太陽エネルギー」の予測DFとする。
20 文書数予測部
21 転置インデックス取得手段
22 文書数算出手段
30 予測式1計算部
40 予測式2計算部
50 予測式3計算部
60 転置インデックス記憶手段、転置インデックス記憶部
70 予測ルール記憶部
100 予測値算出手段
Claims (7)
- 文書検索における複合語に対する文書数予測装置であって、
単語名毎に、該単語を含んでいる文書ID、単語の出現回数、単語の出現位置を含む転置インデックスを格納した転置インデックス記憶手段と、
ユーザから入力されたクエリが複合語の場合に複合語を単一の単語に分割する単語分割手段と、
分割された単語に基づいて前記転置インデックス記憶手段を参照して、分割した単語それぞれに対する転置インデックスを抽出する転置インデックス取得手段と、
予め設定した文書数を対象として、抽出された前記転置インデックスから抽出した複合語を含む文書数を算出する文書数算出手段と、
検出した複合語を含む文書数と前記転置インデックス取得手段で取得した各単語を含む文書数に基づいて、文書数予測ルールを用いて全文書に対する複合語を含む文書数の予測値を算出する予測値算出手段と、
を有することを特徴とする文書数予測装置。 - 前記文書量予測ルールは、
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも大きい場合は、単独文書数比を用いて予測する文書数を小さく補正するルールを含む
請求項1記載の文書数予測装置。 - 前記文書量予測ルールは、
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも小さい場合は、単独文書数比を用いて予測する文書数を大きく補正するルールを含む
請求項1記載の文書数予測装置。 - 文書検索における複合語に対する文書数予測方法であって、
単語名毎に、該単語を含んでいる文書ID、単語の出現回数、単語の出現位置を含む転置インデックスを格納した転置インデックス記憶手段と、
文書数予測ルールを格納したルール記憶手段と、を有する装置が、
ユーザから入力されたクエリが複合語の場合に複合語を単一の単語に分割する単語分割ステップと、
分割された単語に基づいて前記転置インデックス記憶手段を参照して、分割した単語それぞれに対する転置インデックスを抽出する転置インデックス取得ステップと、
予め設定した文書数を対象として、抽出された前記転置インデックスから抽出した複合語を含む文書数を算出する文書数算出ステップと、
検出した複合語を含む文書数と前記転置インデックス取得ステップで取得した各単語を含む文書数に基づいて、文書数予測ルールを用いて全文書に対する複合語を含む文書数の予測値を算出する予測値算出ステップと、
を行うことを特徴とする文書数予測方法。 - 前記予測値算出ステップにおいて、
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも大きい場合は、単独文書数比を用いて予測する文書数を小さく補正する前記文書数予測ルールを用いる
請求項4記載の文書数予測方法。 - 前記予測値算出ステップにおいて、
複合語を含む文書を検出する際に、各単語の転置インデックスを探索した文書数比が単独の単語の文書数比よりも小さい場合は、単独文書数比を用いて予測する文書数を大きく補正する前記文書数予測ルールを用いる
請求項4記載の文書数予測方法。 - 請求項1乃至3のいずれか1項に記載の文書数予測装置を構成する各手段としてコンピュータを機能させるための文書数予測プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010078794A JP5389715B2 (ja) | 2010-03-30 | 2010-03-30 | 複合語に対する文書数予測装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010078794A JP5389715B2 (ja) | 2010-03-30 | 2010-03-30 | 複合語に対する文書数予測装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011210110A true JP2011210110A (ja) | 2011-10-20 |
JP5389715B2 JP5389715B2 (ja) | 2014-01-15 |
Family
ID=44941077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010078794A Expired - Fee Related JP5389715B2 (ja) | 2010-03-30 | 2010-03-30 | 複合語に対する文書数予測装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5389715B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329094A (ja) * | 1995-05-30 | 1996-12-13 | Toshiba Corp | 文書検索装置 |
JPH11282880A (ja) * | 1998-02-02 | 1999-10-15 | Ricoh Co Ltd | 電子化文書検索システムおよび記憶媒体 |
-
2010
- 2010-03-30 JP JP2010078794A patent/JP5389715B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329094A (ja) * | 1995-05-30 | 1996-12-13 | Toshiba Corp | 文書検索装置 |
JPH11282880A (ja) * | 1998-02-02 | 1999-10-15 | Ricoh Co Ltd | 電子化文書検索システムおよび記憶媒体 |
Non-Patent Citations (6)
Title |
---|
CSNG200001297002; 小川泰嗣: '擬似頻度法:n-gram索引のための高速な日本語文書のランキング検索法' 電子情報通信学会論文誌 第J83-D-I巻,第10号, 20001025, p.1043-1054, 社団法人電子情報通信学会 * |
CSNG200900399061; 原田昌紀、外2名: '索引篩法-大規模サーチエンジンのための高速なランキング検索法' 第14回データ工学ワークショップ(DEWS2003)論文集[online] , 20030516, p.1-8, 電子情報通信学会データ工学研究専門委員会 * |
CSNG201000308173; 数原良彦、外4名: '全文検索における複合語を考慮した転置リストの併合処理' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集[online] , 20090509, p.1-6, 電子情報通信学会データ工学研究専門委員会 * |
JPN6013032086; 数原良彦、外4名: '全文検索における複合語を考慮した転置リストの併合処理' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集[online] , 20090509, p.1-6, 電子情報通信学会データ工学研究専門委員会 * |
JPN6013032087; 原田昌紀、外2名: '索引篩法-大規模サーチエンジンのための高速なランキング検索法' 第14回データ工学ワークショップ(DEWS2003)論文集[online] , 20030516, p.1-8, 電子情報通信学会データ工学研究専門委員会 * |
JPN6013032090; 小川泰嗣: '擬似頻度法:n-gram索引のための高速な日本語文書のランキング検索法' 電子情報通信学会論文誌 第J83-D-I巻,第10号, 20001025, p.1043-1054, 社団法人電子情報通信学会 * |
Also Published As
Publication number | Publication date |
---|---|
JP5389715B2 (ja) | 2014-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Answering complex open-domain questions through iterative query generation | |
Francis-Landau et al. | Capturing semantic similarity for entity linking with convolutional neural networks | |
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
Shen et al. | Multi-document summarization via the minimum dominating set | |
US20070294235A1 (en) | Hashed indexing | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN102915381B (zh) | 基于多维语义的可视化网络检索呈现系统及呈现控制方法 | |
KR101541306B1 (ko) | 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체 | |
KR101651780B1 (ko) | 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템 | |
US20080114742A1 (en) | Object entity searching method and object entity searching device | |
JP2013149061A (ja) | 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム | |
JP5486667B2 (ja) | クエリ結果を多様化するための方法および装置 | |
JP5389715B2 (ja) | 複合語に対する文書数予測装置及び方法及びプログラム | |
CN110008407A (zh) | 一种信息检索方法及装置 | |
KR101113787B1 (ko) | 텍스트 색인 장치 및 방법 | |
US9916376B2 (en) | Digital document keyword generation | |
CN104331483B (zh) | 基于短文本数据的区域事件检测方法和设备 | |
KR102243286B1 (ko) | 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체 | |
JP2009187211A (ja) | 情報検索システム、情報検索方法およびプログラム | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム | |
Chen et al. | SMORe: modularize graph embedding for recommendation | |
Anand et al. | Phrase query optimization on inverted indexes | |
Li et al. | A New Shingling Similar Text Detection Algorithm | |
Benna et al. | Building a social network, based on collaborative tagging, to enhance social information retrieval | |
JP2011227732A (ja) | 文書数予測装置及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131001 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131001 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131009 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5389715 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |