JP4510483B2 - 情報検索装置 - Google Patents
情報検索装置 Download PDFInfo
- Publication number
- JP4510483B2 JP4510483B2 JP2004046126A JP2004046126A JP4510483B2 JP 4510483 B2 JP4510483 B2 JP 4510483B2 JP 2004046126 A JP2004046126 A JP 2004046126A JP 2004046126 A JP2004046126 A JP 2004046126A JP 4510483 B2 JP4510483 B2 JP 4510483B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- word
- importance
- document
- target document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 7
- 150000001875 compounds Chemical class 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、検索対象文書がカテゴリに分類されている場合、検索精度を向上させることを目的に、カテゴリ情報を利用して語句の重要度を算出する技術が特許文献1及び特許文献2で提案されている。これらの技術によれば、カテゴリごとに語句の重要度を算出することができるので、その語句との関連が高いカテゴリでは高い重要度を、関連が低いカテゴリでは低い重要度を付与することができるため、情報検索の精度の向上が期待できる。
また、検索対象文書が階層的なカテゴリに分類されている場合、どの階層のカテゴリにおいて語句の重要度を算出するかが問題となる。
特許文献1及び特許文献2では階層的なカテゴリを想定していないため、重要度を付与するカテゴリはある1つの階層に固定されてしまう。そのため、ある語句に対し、その語句と関連の高いカテゴリと関連の低いカテゴリの両方を含むような上位階層のカテゴリにおいて重要度を算出すると、適切な重要度を付与することができない。一方、その語句と関連が高く、関連度合いはほとんど同程度の下位階層の複数のカテゴリにおいて、別々に重要度を算出すると、カテゴリごとに異なる重要度を付与してしまう。その結果、他のカテゴリよりもわずかに関連の高いカテゴリに属する文書に対して高い類似度が算出されてしまい、検索精度が低下してしまう問題がある。
ある語句のあるカテゴリにおける重要度を算出する際に、最上位階層のカテゴリにおける当該語句の出現頻度の逆数を前記平均値で除した値に、算出対象の前記カテゴリにおける当該語句の出現頻度を乗じた値を重要度として求めることを特徴とする。
また、一般的な語句には全カテゴリを通して、同じ重要度が付与されるので、その語句を偶然多く含むカテゴリがあった場合でもそのカテゴリが検索結果において上位となることを防ぐことができる。
図1は、この発明の一実施形態による情報検索装置1の構成を示す概略ブロック図である。情報検索装置1は大きく文書ベクトルデータベース構築ブロック11(以下、データベースをDBと略す)と関連文書検索ブロック12の2つのブロックから構成されている。文書ベクトル構築ブロック11は、検索対象文書DB2、語句カテゴリ抽出部3、語句重要度算出部4、文書ベクトルDB5から構成されている。関連文書検索ブロック12は、検索キー入力部6と検索語句抽出部7と検索語句重要度算出部8とベクトル間類似度算出部9と検索結果出力部10から構成されている。
文書ベクトルDB構築ブロック11は、関連文書の検索の前段階として、それぞれの検索対象文書から語句を抽出し、文書ごとに語句の重要度を算出することにより文書ベクトルを求める。
文書ベクトルDB構築ブロック11において、検索対象文書データベース2は、検索の対象となる文書データを記憶している。検索対象文書は予め木構造を有する階層的なカテゴリ、例えば特許文献のIPC(International Patent Classification)コードのように分類されており、各検索対象文書にはカテゴリ情報が付与されている。語句カテゴリ抽出部3は、検索対象文書を形態素解析によって単語に分割し、単語ごとの品詞を特定する。また、特定の品詞の単語やその複合語を語句として抽出する。例えば、名詞か未知語のいずれかの単語と、それらが2語連続した複合語を語句として抽出する。そして、検索対象文書に付与されているカテゴリ情報を抽出する。語句重要度算出部4は、語句カテゴリ抽出部3において抽出した語句とカテゴリ情報に基づいて、語句ごとに語句重要度算出の基準となるカテゴリの集合を求め、各カテゴリにおける語句ごとの語句重要度を算出する。そして、検索対象文章中の各語句の重要度を要素とするベクトルをその検索対象文書の文書ベクトルとして文書ベクトルDB5に記憶する。
関連文書検索ブロック12は、入力されたキーワードまたは文書から語句を抽出し、語句の重要度を算出することにより文書ベクトルを求めた後、検索対象文書それぞれの文書ベクトルとの類似度を算出し、類似度順に文書をランク付けしたものを検索結果として出力する。
関連文書検索ブロック12において、検索キー入力部6は、入力されたキーワードまたは文書のデータを受け付ける。検索語句抽出部7は、検索キー入力部6が受信したデータを形態素解析によって単語に分割し、単語ごとの品詞を特定する。なお、入力がキーワードの場合でも、品詞を求めるために形態素解析を行う必要がある。そして、上記の語句カテゴリ抽出部3で説明した手段と同様に特定の品詞の単語やその複合語を語句として抽出する。例えば、名詞か未知語のいずれかの単語と、それらが2語連続した複合語を語句として抽出する。抽出した語句を検索語句とする。検索語句重要度算出部8は、各検索語句の重要度を算出する。算出する手段としては、例えば、入力されたキーワードまたは文書における出現頻度をその検索語句の重要度とする手段がある。各検索語句の重要度を要素とするベクトルを入力ベクトルとする。ベクトル間類似度算出部9は、文書ベクトルDB5の各文書ベクトルと入力ベクトルの余弦(コサイン値)を類似度として算出する。検索結果出力部10は、類似度の高い順に検索対象文書をランク付けし、検索結果として出力する。
同図において、D1においては語句tのカテゴリ文書頻度は40/50であり、その1つ上の階層のC1のカテゴリ文書頻度は、D1とD2のカテゴリ文書頻度の分母を足し合わせた値を分母とし、分子を足し合わせた値を分子とすることで求めることができる。つまり、C1のカテゴリ文書頻度は75/90となる。この計算を最上位のA1まで計算するとA1のカテゴリ文書頻度は40/50、35/40、20/50、25/60、4/50、3/80、0/70、2/40に基づいて求められ、129/440となる。次に、A1のカテゴリの不偏分散を求める。不偏分散は、各カテゴリ文書頻度の値と各カテゴリ文書頻度の平均値との差を2乗した2乗誤差の値の総和を標本数−1で割ることによって求められる。この計算により、A1のカテゴリの不偏分散を求めると約0.12であり、これは同図において定められている閾値0.01以上である。そこで、その下位のカテゴリB1とB2における同様にカテゴリ文書頻度の不偏分散を算出する。カテゴリB1におけるカテゴリ文書頻度は40/50、35/40、20/50、25/60に基づいて120/200として求められる。その不偏分散は約0.062となり、閾値0.01以上であり、カテゴリB1も語句重要度を算出するカテゴリの対象とはならない。一方、カテゴリB2におけるカテゴリ文書頻度は4/50、3/80、0/70、2/40に基づいて9/240として求められる。その不偏分散は約0.0011であり、閾値0.01より小さいので、B2を語句重要度を算出するカテゴリとする。次に、カテゴリB1の下位のC1とC2について同様にカテゴリ文書頻度の不偏分散を算出すると、それぞれ約0.0028と約0.00014であり、閾値0.01より小さいのでC1とC2を語句重要度を算出するカテゴリとする。最終的に、同図における語句の重要度算出の基準となるカテゴリはC1、C2、B2の3つとなる。
従来技術においては、文書頻度を用いた重要度を求める際に、例えば文書全体におけるカテゴリ文書頻度の逆数、即ち同図においては最上位階層カテゴリA1の129/440の逆数を求めたものを重要度として用いている。本実施形態における重要度は、語句重要度を算出する対象となったカテゴリ内の文書頻度を重みとして調整した値を語句tの重要度としている点で異なる。同図において、文書全体におけるカテゴリ文書頻度の逆数は440/129である。一方、カテゴリC1、C2、B2内の文書頻度はそれぞれ75/90、45/110、9/240である。従って、カテゴリC1における語句tの重要度はweight(t,C1)=440/129÷((75/90+45/110+9/240)÷3)×75/90の式で求められ、約6.46となる。従来技術における重要度は、440/129=約3.41となり、その値よりも大きい値が重要度として算出できることがわかる。
なお、語句の重要度算出方法に関する従来技術では、文書頻度の逆数そのものではなく、その対数値などを重要度とするものもあるので、その場合には、上記の式においても文書全体のカテゴリ文書頻度の逆数としてlog(440/129)を用いてもよい。また、上記の式では、カテゴリ内の文書頻度そのものを重みとして語句tの重要度を求めている。即ち、各カテゴリの文書頻度の平均に対するカテゴリC1の文書頻度の割合を、全体の文書頻度の逆数に乗じている。このとき、カテゴリ文書頻度そのものではなく、カテゴリ文書頻度の対数値等を重みとして重要度を算出しても構わない。以上の手段により算出した語句重要度を用いて文書ベクトルを算出して、精度の高い文書の検索を行うことができる。
この処理により、所定の閾値より小さい不偏分散値となるカテゴリの集合を求めることができ、上記で説明した、設定した語句に対する検索対象文書の語句重要度を求めることができる。
2 検索対象文書データベース
3 語句カテゴリ抽出部
4 語句重要度算出部
5 文書ベクトルデータベース
Claims (5)
- 検索キー文書に関連する文書を検索対象文書の中から検索する情報検索装置において、
予め木構造に階層化されたカテゴリに分類され、分類されたカテゴリを示すカテゴリ情報が付与された前記検索対象文書を記憶する検索対象文書記憶部と、
前記検索対象文書記憶部から検索対象文書を読み出し、所定の解析手段により前記検索対象文書に含まれる語句を抽出する処理と、前記検索対象文書に付与されたカテゴリ情報を抽出する処理とを行う語句カテゴリ抽出部と、
第1の集合に含まれる前記カテゴリのいずれか1つのカテゴリを抜き出して選択し、選択した該カテゴリの前記語句の出現頻度の分散を求め、該カテゴリの前記分散が所定の値未満である場合、該カテゴリを第2の集合に追加し、前記カテゴリの前記分散が前記所定の値以上である場合、該カテゴリが最下位の階層のカテゴリか否かを判定し、最下位の階層のカテゴリでないとき、該カテゴリの1つ下位の階層のカテゴリを前記第1の集合に加える第1の処理を前記木構造の最上位のカテゴリを前記第1の集合に加え前記第1の集合が空集合になるまで行い、前記第2の集合に含まれる全てのカテゴリにおける当該語句の出現頻度の平均値を求め、前記平均値と各カテゴリにおける当該語句の出現頻度に基づいて各カテゴリの当該語句の重要度を算出する語句重要度算出部と、
を備えたことを特徴とする情報検索装置。 - 前記語句重要度算出部は、
ある語句のあるカテゴリにおける重要度を算出する際に、最上位階層のカテゴリにおける当該語句の出現頻度の逆数を前記平均値で除した値に、算出対象の前記カテゴリにおける当該語句の出現頻度を乗じた値を重要度として求めることを特徴とする請求項1に記載の情報検索装置。 - 前記語句重要度算出部は、
ある語句のあるカテゴリにおける重要度を算出する際に、最上位階層のカテゴリにおける当該語句の出現頻度の逆数の対数を前記平均値で除した値に、算出対象の前記カテゴリにおける当該語句の前記出現頻度に乗じた値を重要度として求めることを特徴とする請求項1に記載の情報検索装置。 - 前記語句重要度算出部は、
前記対象文書の前記出現頻度の平均値の代わりに、前記出現頻度の対数値の平均値を用い、最上位階層のカテゴリにおける当該語句の出現頻度の逆数の対数を前記平均値で除した値に、算出対象の前記カテゴリにおける当該語句の前記出現頻度の対数値を乗じた値を重要度として求めることを特徴とする請求項1に記載の情報検索装置。 - 予め木構造に階層化されたカテゴリに分類され、分類されたカテゴリを示すカテゴリ情報が付与された前記検索対象文書を記憶する検索対象文書記憶部を備え、検索キー文書に関連する文書を検索対象文書の中から検索する情報検索装置のコンピュータを、
前記検索対象文書記憶部から検索対象文書を読み出し、所定の解析手段により前記検索対象文書に含まれる語句を抽出する処理と、前記検索対象文書に付与されたカテゴリ情報を抽出する処理とを行う手段、
第1の集合に含まれる前記カテゴリのいずれか1つのカテゴリを抜き出して選択し、選択した該カテゴリの前記語句の出現頻度の分散を求め、該カテゴリの前記分散が所定の値未満である場合、該カテゴリを第2の集合に追加し、前記カテゴリの前記分散が前記所定の値以上である場合、該カテゴリが最下位の階層のカテゴリか否かを判定し、最下位の階層のカテゴリでないとき、該カテゴリの1つ下位の階層のカテゴリを前記第1の集合に加える第1の処理を前記木構造の最上位のカテゴリを前記第1の集合に加え前記第1の集合が空集合になるまで行い、前記第2の集合に含まれる全てのカテゴリにおける当該語句の出現頻度の平均値を求め、前記平均値と各カテゴリにおける当該語句の出現頻度に基づいて各カテゴリの当該語句の重要度を算出する手段、
として機能させるコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004046126A JP4510483B2 (ja) | 2004-02-23 | 2004-02-23 | 情報検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004046126A JP4510483B2 (ja) | 2004-02-23 | 2004-02-23 | 情報検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005235065A JP2005235065A (ja) | 2005-09-02 |
JP4510483B2 true JP4510483B2 (ja) | 2010-07-21 |
Family
ID=35017940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004046126A Expired - Lifetime JP4510483B2 (ja) | 2004-02-23 | 2004-02-23 | 情報検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4510483B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100419753C (zh) * | 2005-12-19 | 2008-09-17 | 株式会社理光 | 数字化数据集中按照分类信息搜索目标文档的方法和装置 |
JP5384884B2 (ja) * | 2008-09-03 | 2014-01-08 | 日本電信電話株式会社 | 情報検索装置および情報検索プログラム |
JP5072792B2 (ja) * | 2008-09-30 | 2012-11-14 | ヤフー株式会社 | 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ |
JP5282880B2 (ja) * | 2008-12-11 | 2013-09-04 | 日本電気株式会社 | 検索システム、検索方法、およびプログラム |
JP5066147B2 (ja) * | 2009-08-18 | 2012-11-07 | 株式会社東芝 | 文書処理装置およびプログラム |
JP5505207B2 (ja) * | 2010-08-31 | 2014-05-28 | 株式会社リコー | 情報検索装置、情報検索方法及び情報検索プログラム |
JP5644558B2 (ja) * | 2011-02-03 | 2014-12-24 | 日本電気株式会社 | 文書関連度算出装置 |
JP5503632B2 (ja) * | 2011-12-27 | 2014-05-28 | 日本電信電話株式会社 | 特徴語抽出方法、装置、及びプログラム |
JP5959063B2 (ja) * | 2013-04-23 | 2016-08-02 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報の取得を支援する装置及び方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11110409A (ja) * | 1997-10-07 | 1999-04-23 | Ntt Data Corp | 情報分類方法及び装置 |
JPH11120183A (ja) * | 1997-10-08 | 1999-04-30 | Ntt Data Corp | キーワード抽出方法及び装置 |
JPH11167581A (ja) * | 1997-12-04 | 1999-06-22 | Ntt Data Corp | 情報分類方法、装置及びシステム |
JP2003162540A (ja) * | 2001-11-28 | 2003-06-06 | Seiko Epson Corp | データ検索装置およびデータ検索方法 |
-
2004
- 2004-02-23 JP JP2004046126A patent/JP4510483B2/ja not_active Expired - Lifetime
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11110409A (ja) * | 1997-10-07 | 1999-04-23 | Ntt Data Corp | 情報分類方法及び装置 |
JPH11120183A (ja) * | 1997-10-08 | 1999-04-30 | Ntt Data Corp | キーワード抽出方法及び装置 |
JPH11167581A (ja) * | 1997-12-04 | 1999-06-22 | Ntt Data Corp | 情報分類方法、装置及びシステム |
JP2003162540A (ja) * | 2001-11-28 | 2003-06-06 | Seiko Epson Corp | データ検索装置およびデータ検索方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2005235065A (ja) | 2005-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10467271B2 (en) | Search apparatus and search method | |
CN108197117B (zh) | 一种基于文档主题结构与语义的中文文本关键词提取方法 | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
US8849787B2 (en) | Two stage search | |
CN108804421B (zh) | 文本相似性分析方法、装置、电子设备及计算机存储介质 | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
JP2002169834A (ja) | 文書のベクトル解析を行うコンピュータおよび方法 | |
CN110162778B (zh) | 文本摘要的生成方法及装置 | |
RU2491622C1 (ru) | Способ классификации документов по категориям | |
CN113076734A (zh) | 一种项目文本的相似度检测方法及装置 | |
JP4510483B2 (ja) | 情報検索装置 | |
JP7409484B2 (ja) | リスク評価装置、リスク評価方法およびプログラム | |
JP4325370B2 (ja) | 文書関連語彙獲得装置及びプログラム | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
US20030126138A1 (en) | Computer-implemented column mapping system and method | |
JP6555810B2 (ja) | 類似度算出装置、類似検索装置、および類似度算出プログラム | |
JP2004046612A (ja) | データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体 | |
JP2012003333A (ja) | 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体 | |
JP3925418B2 (ja) | トピック境界決定装置及びプログラム | |
JP2005010848A (ja) | 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体 | |
JP2005025465A (ja) | 文書検索方法及び文書検索装置 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
CN116881437B (zh) | 一种获取文本集的数据处理系统 | |
JP3422396B2 (ja) | 観点に基づく類似検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090825 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100423 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100430 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4510483 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140514 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |