JP5292322B2 - 文書検索方法、文書検索装置、文書検索プログラム - Google Patents
文書検索方法、文書検索装置、文書検索プログラム Download PDFInfo
- Publication number
- JP5292322B2 JP5292322B2 JP2010012675A JP2010012675A JP5292322B2 JP 5292322 B2 JP5292322 B2 JP 5292322B2 JP 2010012675 A JP2010012675 A JP 2010012675A JP 2010012675 A JP2010012675 A JP 2010012675A JP 5292322 B2 JP5292322 B2 JP 5292322B2
- Authority
- JP
- Japan
- Prior art keywords
- explanation
- word
- document
- score
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
(1)文書索引作成部4
文書索引作成部4は、矢印Aに示すように、WWWからクローラを用いて収集した文書集合Sが与えられ、与えられた各電子文書の文書索引を作成する(文書索引作成ステップ)。この文書索引は、文書集合Sの各電子文書に出現したすべての単語に対して作成され、単語をキーとして該単語が出現する電子文書の番号および該電子文書内での単語出現回数を格納するものとする。文書索引の作成には一般的な転置インデックスの作成処理を利用することができる。作成された文書索引は、矢印Bに示すように、前記DB6に保存される。
説明スコア算出部5は、矢印Cに示すように、文書集合Sが与えられると該文書集合Sの各電子文書を解析する。ここでは各電子文書内に出現したすべての単語を対象単語、即ち被説明単語とし、該被説明単語を説明するための説明単語を求め、スコア付けを行う(説明スコア算出ステップ)。
説明単語候補wcが、被説明単語wtの係り元として出現している場合には説明サブスコアEa(wt,wc)を算出する。説明サブスコアEa(wt,wc)の算出には式1を用いる。
式1:Ea(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの係り元になった回数/文書集合Sの全体において説明単語wcが任意の単語の係り元になった回数
説明単語候補wcが、被説明単語wtの前後に出現している場合には説明サブスコアEb(wt,wc)を算出する。説明サブスコアEb(wt,wc)の算出には式2を用いる。
式2:Eb(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの前後に出現した回数/文書集合Sの全体において説明単語候補wcが出現した回数
説明単語候補wcが、被説明単語wtの直後に存在する括弧内に含まれている場合には説明サブスコアEc(wt,wc)を算出する。説明サブスコアEc(wt,wc)の算出には式3を用いる。
式3:Ec(wt,wc)=文書集合Sの全体において説明単語候補wcが被説明単語wtの直後の括弧内に含まれていた回数/文書集合Sの全体において説明単語候補wcが括弧内に出現した回数
説明単語候補wcが、被説明単語wtを対象とした図2の文字列パターンなどに該当する場合には説明サブスコアEd(wt,wc)を算出する。説明サブスコアEd(wt,wc)の算出には式4を用いる。
式4:Ed(wt,wc)=文書集合Sの全体において被説明単語wtに対して説明単語候補wcが文字列パターンにマッチした回数/文書集合Sの全体において任意の単語に対して説明単語候補wcが文字列パターンにマッチした回数
式5:E(wt,wc)=kea・Ea(wt,wc)+keb・Eb(wt,wc)+kec・Ec(wt,wc)+ked・Ed(wt,wc)
単語専門度DB8には、対象単語、即ち文書集合Sを構成する各電子文書に含まれる単語自体がどの程度専門的な語かを数値化した専門性スコアが保存されている。表2は、前記単語専門度DB8の保存データ例を示している。
式6:単語tのIDF=log(文書集合内の文書総数/t(単語)が出現した文書の総数)
検索処理部3の処理は、ユーザの検索処理命令に基づき開始される。ここでは検索処理部3は、前記ユーザ端末のブラウザに検索画面を表示させる。この検索画面には、ユーザ希望の検索語(クエリ)と該検索語に対する専門度・難易度のランキング要求を示す要求専門度方向性とが入力可能なものとする。
文書集合特定部9は、ユーザ端末から送信された検索語Qwに基づき通常の検索エンジンの検索処理を実施する。すなわち、文書索引DB6内を検索し、矢印Eに示すように、検索語Qwが少なくとも1度は出現する電子文書の文書集合を特定する(文書集合特定ステップ)。ここでは一般的な転置インデックスを利用した文書集合の特定方法を用いることができる。
文書専門度推定部10は、文書集合検索部9から送られた文書集合と検索語Qwを処理対象とし、前記各DB7.8を参照して該各電子文書の検索語Qwに対する専門度を推定する(文書専門度推定ステップ)。
スコア決定部11は、文書集合・検索語Qw・要求専門度方向性Qoおよび文文書集合の各専門度とを受け取ると、受け取った各電子文書のランキングスコアを決定する(スコア決定ステップ)。
関連度サブスコアは、検索語Qwと文書dとの関連度を示し、文書検索において一般的に利用されているTF・IDFスコアや、BM25スコアなどを用いることができる。
検索語非依存度サブスコアは、文書d自体の重要度を示し、文書検索において一般的に利用されているWWW上のリンク数に基づくスコアや、有害文書であるか否かを示すスコアなどを用いることができる。なお、検索語非依存度サブスコアは、必ずしも利用する必要は無く、該サブスコアを利用しなくともよい。利用しない場合は検索語非依存度サブスコアには「0」の値を用いる。
専門度サブスコアは、文書専門度推定部10から送られた文書dの検索語Qwに対する専門度S(Qw,d)と、文書集合検索部9から送られた要求専門度方向性Qoとを用いて、「Qo・S(Qw,d)」と定義される。
本発明は、文書検索装置1の各部4〜11の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、前記各ステップの一部あるいは全部をコンピュータに実行させることが可能となる。
2…前処理部
3…検索処理部
4…文書索引作成部
5…説明スコア算出部(説明スコア算出手段)
6…文書索引DB
7…単語−説明単語DB(説明データベース)
8…単語専門度DB(専門度データベース)
9…文書集合特定部
10…文書専門度推定部(文書専門度推定手段)
11…スコア決定部(スコア決定手段)
Claims (9)
- 電子文書群中からユーザ入力の検索語を含む電子文書を検索し、該検索語に対する専門度・難易度のランキング要求を示すユーザ入力の要求専門度方向性に応じた検索結果を求める文書検索方法であって、
説明スコア算出手段が、事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出しておく説明スコア算出ステップと、
文書専門度推定手段が、検索結果として特定された各電子文書の検索語に対する専門度を、少なくとも検索語を被説明単語としたときの説明単語の説明スコアと、該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定ステップと、
スコア決定手段が、前記要求専門度方向性にしたがって前記文書専門度推定ステップの推定結果を前記特定された各電子文書のランキングスコアの決定に反映させるスコア決定ステップと、
を有することを特徴とする文書検索方法。 - 前記説明スコア算出ステップは、あらかじめ定義された説明単語と被説明単語との説明関係を示す複数の基準に応じて説明単語のサブスコアを算出し、該各サブスコアの重み和をもって説明単語の説明スコアを算出する
ことを特徴とする請求項1記載の文書検索方法。 - 前記文書専門度推定ステップは、前記説明スコア算出手段の算出した説明スコアを保存する説明スコアデータベースと、前記各説明単語の専門度を保存する専門度データベースとを参照し、
前記説明スコアデータベースに保存された説明単語の説明スコアと、前記専門度データベースに保存された該説明単語の専門度と、該説明単語の出現回数との乗算和に基づき前記推定結果を求める
ことを特徴とする請求項1または2のいずれか1項に記載の文書検索方法。 - 前記スコア決定ステップは、前記要求方向性の値と前記推定結果の値とを乗じて算出したサブスコアを前記ランキングスコアに加味する
ことを特徴とする請求項1〜3のいずれか1項に記載の文書検索方法。 - 電子文書群中からユーザ入力の検索語を含む電子文書を検索し、該検索語に対する専門度・難易度のランキング要求を示すユーザ入力の要求専門度方向性に応じた検索結果を求める文書検索装置であって、
事前に検索対象の各電子文書に含まれる単語間の説明関係に基づき被説明単語に対する説明単語の説明スコアを算出する説明スコア算出手段と、
検索結果として特定された各電子文書の検索語に対する専門度を、少なくとも検索語を被説明単語としたときの説明単語の説明スコアと、該説明単語に対して事前に定められた専門度とに基づき推定する文書専門度推定手段と、
前記要求専門度方向性にしたがって前記文書専門度推定ステップの推定結果を前記特定された各電子文書のランキングスコアの決定に反映させるスコア決定手段と、
を備えることを特徴とする文書検索装置。 - 前記説明スコア算出手段は、あらかじめ定義された説明単語と被説明単語との説明関係を示す複数の基準に応じて説明単語のサブスコアを算出し、該各サブスコアの重み和をもって説明単語の説明スコアを算出する
ことを特徴とする請求項5記載の文書検索装置。 - 前記文書専門度推定手段は、前記説明スコア算出手段の算出した説明スコアを保存する説明スコアデータベースと、前記各説明単語の専門度を保存する専門度データベースとを参照し、
前記説明スコアデータベースに保存された説明単語の説明スコアと、前記専門度データベースに保存された該説明単語の専門度と、該説明単語の出現回数との乗算和に基づき前記推定結果を求める
ことを特徴とする請求項5または6のいずれか1項に記載の文書検索装置。 - 前記スコア決定手段は、前記要求方向性の値と前記推定結果の値とを乗じて算出したサブスコアを前記ランキングスコアに加味する
ことを特徴とする請求項5〜7のいずれか1項に記載の文書検索装置。 - 請求項5〜請求項8のいずれか1項に記載の文書検索装置としてコンピュータを機能させるための文書検索プログラム
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010012675A JP5292322B2 (ja) | 2010-01-25 | 2010-01-25 | 文書検索方法、文書検索装置、文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010012675A JP5292322B2 (ja) | 2010-01-25 | 2010-01-25 | 文書検索方法、文書検索装置、文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011150611A JP2011150611A (ja) | 2011-08-04 |
JP5292322B2 true JP5292322B2 (ja) | 2013-09-18 |
Family
ID=44537509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010012675A Expired - Fee Related JP5292322B2 (ja) | 2010-01-25 | 2010-01-25 | 文書検索方法、文書検索装置、文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5292322B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016178337A1 (ja) * | 2015-05-01 | 2016-11-10 | ソニー株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08235204A (ja) * | 1995-02-28 | 1996-09-13 | Canon Inc | 文書検索方法及び装置 |
JP2001344246A (ja) * | 2000-05-30 | 2001-12-14 | Kansai Electric Power Co Inc:The | 用語集データベース作成方法および電子文書検索方法 |
JP2004171535A (ja) * | 2002-10-28 | 2004-06-17 | Fuji Xerox Co Ltd | 文書検索方法および装置並びにプログラム |
JP4877930B2 (ja) * | 2006-03-22 | 2012-02-15 | 株式会社リコー | 文書処理装置及び文書処理方法 |
-
2010
- 2010-01-25 JP JP2010012675A patent/JP5292322B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011150611A (ja) | 2011-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11194872B2 (en) | Dynamic inference graph | |
US10726083B2 (en) | Search query transformations | |
RU2501078C2 (ru) | Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе | |
US8285702B2 (en) | Content analysis simulator for improving site findability in information retrieval systems | |
US9342607B2 (en) | Dynamic inference graph | |
US10007705B2 (en) | Display of boosted slashtag results | |
US20180004850A1 (en) | Method for inputting and processing feature word of file content | |
JP4746439B2 (ja) | 文書検索サーバおよび文書検索方法 | |
US20150169576A1 (en) | Dynamic Search Results | |
JP2013196435A (ja) | 検索装置、検索方法およびプログラム | |
JP2010097461A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP4912384B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2003173352A (ja) | 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体 | |
JP4759600B2 (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
JP2013054606A (ja) | 文書検索装置及び方法及びプログラム | |
JP5358481B2 (ja) | 文書検索装置、文書検索方法、文書検索プログラム | |
JP5292322B2 (ja) | 文書検索方法、文書検索装置、文書検索プログラム | |
JP2011100191A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
JP5286007B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP5416552B2 (ja) | ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム | |
JP5292336B2 (ja) | 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム | |
JP2012027841A (ja) | 検索プログラム、検索装置、検索システム、検索方法及び記録媒体 | |
JP2009146013A (ja) | コンテンツ検索方法及び装置並びにプログラム | |
JP2012043258A (ja) | 検索システム、検索装置、検索プログラム、記録媒体及び検索方法 | |
JP5384884B2 (ja) | 情報検索装置および情報検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130610 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5292322 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |