JP5285491B2 - 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 - Google Patents
情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 Download PDFInfo
- Publication number
- JP5285491B2 JP5285491B2 JP2009096383A JP2009096383A JP5285491B2 JP 5285491 B2 JP5285491 B2 JP 5285491B2 JP 2009096383 A JP2009096383 A JP 2009096383A JP 2009096383 A JP2009096383 A JP 2009096383A JP 5285491 B2 JP5285491 B2 JP 5285491B2
- Authority
- JP
- Japan
- Prior art keywords
- token
- document
- search
- storage device
- tokens
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
(東京都 OR (東京 AND 京都)) = (1 + (1 * 1/3)) = 4/3で、この値で正規化すると、「東京都」の部分の重みは0.75、(東京 AND 京都)の部分の重みは0.25となる。
424・・・第2のトークン分割部
428・・・解析データ格納部
430・・・索引構築部
436・・・索引格納部
Claims (6)
- コンピュータの処理により、記憶装置に格納された文書を検索するための索引作成システムであって、
前記文書を読み込んで、形態素解析手法でトークンを生成する第1のトークン分割部と、
前記文書を読み込んで、Nグラム手法でトークンを生成する第2のトークン分割部と、
前記生成したトークンの各々に、前記文書中の開始位置と終了位置を付与して前記記憶装置に索引として格納する手段と、
前記第1及前記第2のトークン分割部で得られた全トークン境界を元にしたトークン列を、各トークンの開始位置番号、終了位置番号と共に保管する元文書復元用トークンを生成して前記記憶装置に格納する手段を有する、
索引作成システム。 - コンピュータの処理により、記憶装置に格納された文書を検索するための索引作成方法であって、
前記文書を読み込んで、形態素解析手法でトークンを生成するステップと、
前記文書を読み込んで、Nグラム手法でトークンを生成するステップと、
前記生成したトークンの各々に、前記文書中の開始位置と終了位置を付与して前記記憶装置に索引として格納するステップと、
前記形態素解析手法によるトークン生成手法と前記Nグラム手法によるトークン生成手法とで得られた全トークン境界を元にしたトークン列を、各トークンの開始位置番号、終了位置番号と共に保管する元文書復元用トークンを生成して前記記憶装置に格納するステップを有する、
索引作成方法。 - コンピュータの処理により、記憶装置に格納された文書を検索するための索引作成プログラムであって、
前記コンピュータをして、
前記文書を読み込んで、形態素解析手法でトークンを生成するステップと、
前記文書を読み込んで、Nグラム手法でトークンを生成するステップと、
前記生成したトークンの各々に、前記文書中の開始位置と終了位置を付与して前記記憶装置に索引として格納するステップと、
前記形態素解析手法によるトークン生成手法と前記Nグラム手法によるトークン生成手法とで得られた全トークン境界を元にしたトークン列を、各トークンの開始位置番号、終了位置番号と共に保管する元文書復元用トークンを生成して前記記憶装置に格納するステップを実行させる、
索引作成フログラム。 - コンピュータの処理により、記憶装置に格納された文書を検索するための検索システムであって、
前記文書を読み込んで、形態素解析手法で生成された第1のトークンと、Nグラム手法で生成されたトークンとに、前記文書中の開始位置と終了位置を付与して前記記憶装置に保管された索引ファイルと、
検索すべき文字列を受け入れる手段と、
前記受け入れられた文字列を、前記形態素解析手法と前記Nグラム手法で分割することにより、複数の検索すべきトークンを得る手段と、
前記検索すべきトークンにより、前記索引ファイルを検索することにより、検索結果として、個々の前記トークンを含む文書の和集合を計算する手段と、
前記形態素解析手法によるトークン分割手法と前記Nグラム手法によるトークン分割手法とで得られた全トークン境界を元にしたトークン列を、各トークンの開始位置番号、終了位置番号と共に前記記憶装置に保管された元文書復元用トークンのファイルと、該元文書復元用トークンから元文書を復元するための元文書復元手段とを有する、
検索システム。 - コンピュータの処理により、記憶装置に格納された文書を検索するための検索方法であって、
前記文書を読み込んで、形態素解析手法で生成された第1のトークンと、Nグラム手法で生成されたトークンとに、前記文書中の開始位置と終了位置を付与して前記記憶装置に保管された索引ファイルを用意するステップと、
検索すべき文字列を受け入れるステップと、
前記受け入れられた文字列を、前記形態素解析手法と前記Nグラム手法で分割することにより、複数の検索すべきトークンを得るステップと、
前記検索すべきトークンにより、前記索引ファイルを検索することにより、検索結果として、個々の前記トークンを含む文書の和集合を計算するステップと、
前記形態素解析手法によるトークン分割手法と前記Nグラム手法によるトークン分割手法とで得られた全トークン境界を元にしたトークン列を、各トークンの開始位置番号、終了位置番号と共に前記記憶装置に保管された元文書復元用トークンのファイルと、該元文書復元用トークンから元文書を復元するステップとを有する、
検索方法。 - コンピュータの処理により、記憶装置に格納された文書を検索するための検索プログラムであって、
前記コンピュータをして、
前記文書を読み込んで、形態素解析手法で生成された第1のトークンと、Nグラム手法で生成されたトークンとに、前記文書中の開始位置と終了位置を付与して前記記憶装置に保管された索引ファイルを用意するステップと、
検索すべき文字列を受け入れるステップと、
前記受け入れられた文字列を、前記形態素解析手法と前記Nグラム手法で分割することにより、複数の検索すべきトークンを得るステップと、
前記検索すべきトークンにより、前記索引ファイルを検索することにより、検索結果として、個々の前記トークンを含む文書の和集合を計算するステップと、
前記形態素解析手法によるトークン分割手法と前記Nグラム手法によるトークン分割手法とで得られた全トークン境界を元にしたトークン列を、各トークンの開始位置番号、終了位置番号と共に前記記憶装置に保管された元文書復元用トークンのファイルと、該元文書復元用トークンから元文書を復元するステップを実行させる、
検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009096383A JP5285491B2 (ja) | 2009-04-10 | 2009-04-10 | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009096383A JP5285491B2 (ja) | 2009-04-10 | 2009-04-10 | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010250389A JP2010250389A (ja) | 2010-11-04 |
JP5285491B2 true JP5285491B2 (ja) | 2013-09-11 |
Family
ID=43312676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009096383A Expired - Fee Related JP5285491B2 (ja) | 2009-04-10 | 2009-04-10 | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5285491B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013015967A (ja) | 2011-07-01 | 2013-01-24 | Internatl Business Mach Corp <Ibm> | 検索システム、索引作成装置、検索装置、索引作成方法、検索方法およびプログラム |
US9111095B2 (en) | 2012-08-29 | 2015-08-18 | The Johns Hopkins University | Apparatus and method for identifying similarity via dynamic decimation of token sequence n-grams |
WO2017126057A1 (ja) * | 2016-01-20 | 2017-07-27 | 株式会社日立製作所 | 情報検索方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3696745B2 (ja) * | 1999-02-09 | 2005-09-21 | 株式会社日立製作所 | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3636941B2 (ja) * | 1999-07-19 | 2005-04-06 | 松下電器産業株式会社 | 情報検索方法と情報検索装置 |
JP2002269139A (ja) * | 2001-03-08 | 2002-09-20 | Ricoh Co Ltd | 文書検索方法 |
JP2003150636A (ja) * | 2001-11-13 | 2003-05-23 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP4646289B2 (ja) * | 2004-07-14 | 2011-03-09 | 株式会社リコー | データベースマネジメントシステム |
JP5010885B2 (ja) * | 2006-09-29 | 2012-08-29 | 株式会社ジャストシステム | 文書検索装置、文書検索方法および文書検索プログラム |
JP4205753B2 (ja) * | 2007-04-16 | 2009-01-07 | 株式会社リコー | 文書検索システム |
JP4237813B2 (ja) * | 2008-05-26 | 2009-03-11 | 株式会社東芝 | 構造化文書管理システム |
-
2009
- 2009-04-10 JP JP2009096383A patent/JP5285491B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010250389A (ja) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6461980B2 (ja) | 検索結果におけるコヒーレントな質問回答 | |
US10552467B2 (en) | System and method for language sensitive contextual searching | |
JP2007517338A (ja) | サーチ品質の改善システムおよび改善方法 | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JPWO2010047286A1 (ja) | 検索システム、検索方法およびプログラム | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
JP2005107597A (ja) | 類似文検索装置、類似文検索方法、およびプログラム | |
WO2010109594A1 (ja) | 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法 | |
JP4935243B2 (ja) | 検索プログラム、情報検索装置及び情報検索方法 | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP2006178599A (ja) | 文書検索装置および方法 | |
CN112380337A (zh) | 基于富文本的高亮方法及装置 | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP5491446B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
JP4953440B2 (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JP7279481B2 (ja) | 検索処理プログラム、検索処理方法および検索処理装置 | |
JP2022002034A (ja) | 抽出方法、抽出プログラム、及び、抽出装置 | |
JP2010009237A (ja) | 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP6787101B2 (ja) | 検索プログラム、検索装置、および検索方法 | |
JP2007148630A (ja) | 特許分析装置、特許分析システム、特許分析方法およびプログラム | |
JP4574186B2 (ja) | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 | |
US8930373B2 (en) | Searching with exclusion tokens | |
JP2019113937A (ja) | 検索支援システム、検索支援方法、及び検索支援プログラム | |
JPH10283368A (ja) | 情報処理装置及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120918 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130531 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5285491 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |