JP2013030089A - 文書検索システムおよび文書検索プログラム - Google Patents
文書検索システムおよび文書検索プログラム Download PDFInfo
- Publication number
- JP2013030089A JP2013030089A JP2011167158A JP2011167158A JP2013030089A JP 2013030089 A JP2013030089 A JP 2013030089A JP 2011167158 A JP2011167158 A JP 2011167158A JP 2011167158 A JP2011167158 A JP 2011167158A JP 2013030089 A JP2013030089 A JP 2013030089A
- Authority
- JP
- Japan
- Prior art keywords
- search
- document
- unit
- word
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 16
- 238000000034 method Methods 0.000 description 16
- 238000012986 modification Methods 0.000 description 14
- 230000004048 modification Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001195348 Nusa Species 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】与えられた検索条件を解析し、この検索条件に含まれる複数の検索語を取得したのち(ステップS201)、各検索語をn文字単位(n≧1)で分割する(ステップS202)。次に、各検索語の分割により得られた単語ごとの出現頻度を、インデックスに登録されたページごとに抽出する(ステップS203)。次に、抽出により得られた単語ごとの出現頻度を利用して、各検索語のページごとの出現頻度と、各検索語の汎用度とを計算する(ステップS204)。次に、この計算により得られた出現頻度および汎用度を利用して、各文書の、検索語ごとの重みを計算する(ステップS205)。
【選択図】図5
Description
(A1)与えられた検索条件を解析し、この検索条件に含まれる各検索語をn文字単位で分割する分割部
(A2)上記のインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、上記のインデックスに登録された形式区切りごとに抽出する抽出部
(A3)抽出部で抽出された単語ごとの出現頻度を利用して、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する重み付け部
(B1)与えられた検索条件を解析し、この検索条件に含まれる各検索語をn文字単位で分割する第1ステップ
(B2)上記のインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、上記のインデックスに登録された形式区切りごとに抽出する第2ステップ
(B3)抽出部で抽出された単語ごとの出現頻度を利用して、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する第3ステップ
1.実施の形態
単一のインデックスが用いられた例
2.変形例
複数のインデックスが用いられた例
3.応用例
[構成]
図1は、本発明による一実施の形態に係る文書検索システム100の機能ブロックの一例を表したものである。文書検索システム100は、例えば、図1に示したように、文書格納部110、インデックス登録部120、インデックス130、検索条件入力部140、検索部150、マージ部160および検索結果表示部170を備えている。
次に、本実施の形態の文書検索システム100の効果について説明する。
[第1変形例]
上記実施の形態では、n文字分割における分割の単位(n文字単位)が、2文字であったが、1文字であってもよいし、3文字以上であってもよい。ただし、n文字単位があまり大きくなると、n文字単位が検索語の文字数と同一となったり、検索語の文字数よりも大きくなってしまったりすることもあるので、n文字単位は検索語の文字数の統計的な平均値と同等か、それよりも小さいことが好ましい。例えば、日本語の文字数の統計的な平均値は2.3文字であるので、検索語として日本語が用いられる場合には、n文字単位は2文字または3文字であることが好ましい。さらに、例えば、日本語の検索精度をより高めたい場合には、n文字単位が、日本語の文字数の統計的な平均値に近い2文字および3文字だけでなく、1文字も含んでいることが好ましい。また、例えば、英語の文字数の統計的な平均値は5文字であるので、検索語として英語が用いられる場合には、n文字単位は5文字であることが好ましい。
また、上記実施の形態および第1変形例では、n文字分割における分割の単位(n文字単位)が1種類となっていたが、複数種類であってもよい。図10は、n文字単位が複数種類となっているときの文書検索システム100の一例を表したものである。例えば、図10に示したように、n文字単位が、k1文字単位(k1≧1)、k2文字単位(k2>k1)、およびk3文字単位(k3>k2)の3種類となっていてもよい。
上記実施の形態およびその変形例では、文書やインデックスなどを管理する際の形式区切りの単位をページとしていたが、本発明はそれに限定されるものではなく、例えば、段落、章、または節であってもよい。ページ、段落、章、および節は、特定の内容がまとまった領域となっており、形式的な文書構造マーカとしての役割を有している。従って、文書を、ページ、段落、章、または節で区切ることにより、文書を意味内容ごとに区切ることが可能となる。
上記実施の形態およびその変形例では、インデックス登録部120や検索部150がプログラムのロードされた演算装置で構成されている場合が例示されていたが、この場合には、文書検索システム100は、演算装置にプログラムをロードするための仕組みを備えている。例えば、文書検索システム100は、インデックス登録部120および検索部150が実行する内容が記述されたプログラムの記録された読み出し可能な記録媒体から、プログラムを読み出すリーダを備えていてもよい。また、例えば、文書検索システム100は、上記のプログラムをネットワーク経由で取得する通信システムを備えていてもよい。
以下、上記実施の形態およびその変形例で説明した文書検索システム100の応用例について説明する。文書検索システム100は、図13に示したような単独の文書検索装置200に適用することが可能である。また、文書検索システム100は、図14に示したように、外部ネットワーク400を介して端末装置300から検索条件を文書検索装置200に入力するシステムに対して応用することが可能である。また、図15に示したように、外部ネットワーク400に接続された文書記憶装置500内の文書群の検索を、外部ネットワーク400に接続された文書検索装置200を用いて行うシステムに対して応用することも可能である。また、図16に示したように、LAN600に接続された文書記憶装置500内の文書群の検索を、LAN600に接続された文書検索装置200を用いて行うシステムに対して応用することも可能である。
Claims (8)
- 与えられた検索条件を解析し、この検索条件に含まれる各検索語をn文字単位(n≧1)で分割する分割部と、
検索対象の文書群における各文書がn文字単位で分割されることにより得られた単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、前記インデックスに登録された形式区切りごとに抽出する抽出部と、
前記抽出部で抽出された単語ごとの出現頻度を利用して、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する重み付け部と
を備えた文書検索システム。 - 前記形式区切りは、ページ、段落、章、または節である
請求項1に記載の文書検索システム。 - 前記重み付け部で得られた重みを利用して、各文書のランキングを決定するマージ部をさらに備えた
請求項1または請求項2に記載の文書検索システム。 - 前記マージ部で決定されたランキングに従って各文書を表示させる検索結果表示部をさらに備えた
請求項3に記載の文書検索システム。 - 前記検索結果表示部は、各文書において前記出現頻度が最大となる形式区切りを含む連続した複数の形式区切りのレイアウトを表示させる
請求項4に記載の文書検索システム。 - 前記検索結果表示部は、各文書において前記出現頻度が最大となる形式区切りのレイアウトを表示させる
請求項4に記載の文書検索システム。 - 前記n文字単位は、複数の文字単位を含み、
前記インデックスは、前記n文字単位に含まれる文字単位ごとのインデックスを含み、
前記分割部は、各検索語を各文字単位で分割し、
前記抽出部は、前記インデックスを利用して、前記分割部での分割により得られた単語ごとの出現頻度を、前記インデックスに登録された形式区切りごと、および前記文字単位ごとに抽出し、
前記重み付け部は、前記抽出部での抽出により得られた単語ごとの出現頻度を利用して、各検索語の形式区切りごとおよび前記文字単位ごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する
請求項1ないし請求項6のいずれか一項に記載の文書検索システム。 - 与えられた検索条件を解析し、この検索条件に含まれる各検索語をn文字単位(n≧1)で分割する第1ステップと、
検索対象の文書群における各文書がn文字単位で分割されることにより得られた単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、前記インデックスに登録された形式区切りごとに抽出する第2ステップと、
前記抽出部で抽出された単語ごとの出現頻度を利用して、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する第3ステップと
をコンピュータに実行させる文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011167158A JP5802924B2 (ja) | 2011-07-29 | 2011-07-29 | 文書検索システムおよび文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011167158A JP5802924B2 (ja) | 2011-07-29 | 2011-07-29 | 文書検索システムおよび文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013030089A true JP2013030089A (ja) | 2013-02-07 |
JP5802924B2 JP5802924B2 (ja) | 2015-11-04 |
Family
ID=47787056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011167158A Active JP5802924B2 (ja) | 2011-07-29 | 2011-07-29 | 文書検索システムおよび文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5802924B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786790A (zh) * | 2014-12-18 | 2016-07-20 | 镇江高科科技信息咨询有限公司 | 一种纸质文本生成装置及方法 |
JP2017505962A (ja) * | 2014-10-31 | 2017-02-23 | 小米科技有限責任公司Xiaomi Inc. | 情報選択方法及び装置 |
JP2019130746A (ja) * | 2018-01-31 | 2019-08-08 | ブラザー工業株式会社 | 画像処理装置、および、コンピュータプログラム |
US10423706B2 (en) | 2014-10-31 | 2019-09-24 | Xiaomi Inc. | Method and device for selecting information |
JP2019194750A (ja) * | 2018-05-01 | 2019-11-07 | 株式会社教育同人社 | 通知表作成支援システム及び通知表作成支援プログラム |
JP2021043519A (ja) * | 2019-09-06 | 2021-03-18 | 富士ゼロックス株式会社 | 情報処理システム及びプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3017A (en) * | 1843-03-21 | Plate turn-button for fastening cupboard and other doors | ||
US10016A (en) * | 1853-09-13 | Bootjack | ||
JP2003323457A (ja) * | 2002-02-28 | 2003-11-14 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラム及び記録媒体 |
JP2004295712A (ja) * | 2003-03-28 | 2004-10-21 | Hitachi Ltd | 類似文書検索方法および類似文書検索装置 |
JP2006155657A (ja) * | 1995-04-10 | 2006-06-15 | Rebus Technology Inc | Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 |
JP2006331117A (ja) * | 2005-05-26 | 2006-12-07 | Ricoh Co Ltd | 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム |
JP2009134627A (ja) * | 2007-11-30 | 2009-06-18 | Mitsubishi Electric Corp | N文字索引生成装置、文書検索装置、n文字索引生成方法、文書検索方法、n文字索引生成プログラムおよび文書検索プログラム |
-
2011
- 2011-07-29 JP JP2011167158A patent/JP5802924B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3017A (en) * | 1843-03-21 | Plate turn-button for fastening cupboard and other doors | ||
US10016A (en) * | 1853-09-13 | Bootjack | ||
JP2006155657A (ja) * | 1995-04-10 | 2006-06-15 | Rebus Technology Inc | Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 |
JP2003323457A (ja) * | 2002-02-28 | 2003-11-14 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラム及び記録媒体 |
JP2004295712A (ja) * | 2003-03-28 | 2004-10-21 | Hitachi Ltd | 類似文書検索方法および類似文書検索装置 |
JP2006331117A (ja) * | 2005-05-26 | 2006-12-07 | Ricoh Co Ltd | 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム |
JP2009134627A (ja) * | 2007-11-30 | 2009-06-18 | Mitsubishi Electric Corp | N文字索引生成装置、文書検索装置、n文字索引生成方法、文書検索方法、n文字索引生成プログラムおよび文書検索プログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017505962A (ja) * | 2014-10-31 | 2017-02-23 | 小米科技有限責任公司Xiaomi Inc. | 情報選択方法及び装置 |
US10423706B2 (en) | 2014-10-31 | 2019-09-24 | Xiaomi Inc. | Method and device for selecting information |
CN105786790A (zh) * | 2014-12-18 | 2016-07-20 | 镇江高科科技信息咨询有限公司 | 一种纸质文本生成装置及方法 |
JP2019130746A (ja) * | 2018-01-31 | 2019-08-08 | ブラザー工業株式会社 | 画像処理装置、および、コンピュータプログラム |
JP7021544B2 (ja) | 2018-01-31 | 2022-02-17 | ブラザー工業株式会社 | 画像処理装置、および、コンピュータプログラム |
JP2019194750A (ja) * | 2018-05-01 | 2019-11-07 | 株式会社教育同人社 | 通知表作成支援システム及び通知表作成支援プログラム |
JP2021043519A (ja) * | 2019-09-06 | 2021-03-18 | 富士ゼロックス株式会社 | 情報処理システム及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5802924B2 (ja) | 2015-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11314824B2 (en) | System and method for block segmenting, identifying and indexing visual elements, and searching documents | |
CN102760172B (zh) | 一种网络搜索方法及网络搜索系统 | |
JP5316158B2 (ja) | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 | |
JP5241828B2 (ja) | 辞書の単語及び熟語の判定 | |
JP5802924B2 (ja) | 文書検索システムおよび文書検索プログラム | |
US20040230570A1 (en) | Search processing method and apparatus | |
US20080177731A1 (en) | Data processing apparatus, data processing method and search apparatus | |
JP5161658B2 (ja) | キーワード入力支援装置、キーワード入力支援方法及びプログラム | |
US20120221553A1 (en) | Methods for electronic document searching and graphically representing electronic document searches | |
US20150067476A1 (en) | Title and body extraction from web page | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
EP2506208A1 (en) | Forensic system and forensic method, and forensic program | |
US20110302179A1 (en) | Using Context to Extract Entities from a Document Collection | |
CN103430172A (zh) | 检索装置、检索方法及程序 | |
JP2009251934A (ja) | 検索装置、検索方法および検索プログラム | |
CN113407678B (zh) | 知识图谱构建方法、装置和设备 | |
JP5827206B2 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
JP2005128872A (ja) | 文書検索システム及び文書検索プログラム | |
JP5346991B2 (ja) | コンテンツ出力方法、コンテンツ出力装置およびコンテンツ出力プログラム | |
JP2011053881A (ja) | 文書管理システム | |
KR101667918B1 (ko) | 질의 반응형 스마트 검색 서비스 제공 방법 및 이를 구현하기 위한 검색 서비스 장치 | |
Bainbridge et al. | Interactive context-aware user-driven metadata correction in digital libraries | |
JP2007026116A (ja) | 概念検索システム及び概念検索方法 | |
Greene et al. | Browsing publication data using tag clouds over concept lattices constructed by key-phrase extraction | |
TWI451277B (zh) | 檢索標籤視覺化系統及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140519 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20140519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150520 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150721 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150724 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5802924 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |