JP4682627B2 - 文書検索装置および方法 - Google Patents
文書検索装置および方法 Download PDFInfo
- Publication number
- JP4682627B2 JP4682627B2 JP2005019589A JP2005019589A JP4682627B2 JP 4682627 B2 JP4682627 B2 JP 4682627B2 JP 2005019589 A JP2005019589 A JP 2005019589A JP 2005019589 A JP2005019589 A JP 2005019589A JP 4682627 B2 JP4682627 B2 JP 4682627B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- character string
- search
- pseudo
- hiragana
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
11 文字列抽出部
12 文字列連結部
13 ビットベクター生成部
14 インデックス登録部
15 インデックス記憶部
15 インデックス記憶部
15a メインメモリ
15b 圧縮インデックス記憶部
16 キーワード入力部
17 検索部
18 検索結果出力部
20 検索条件入力部
21 検索フロントエンド
22 N−gram文書検索部
23 N−gramインデックス記憶部
24 形態素語文書検索部
25 形態素語インデックス記憶部
26 検索結果合成部
27 合成検索結果出力部
100 文書検索装置
200 文書検索装置
1000 パーソナルコンピュータ
1001 記録媒体
Claims (9)
- 検索対象の文書の各々から、ひらがな文字列、カタカナ文字列、アルファベット文字列、ならびに、ひらがな、カタカナおよびアルファベットの混合文字列のうちの予め選定された少なくとも1種類の文字列を、抽出して連結し、擬似文書を生成する擬似文書生成手段と、
上記検索対象の文書の各々に対して、当該検索対象の文書から上記疑似文書生成手段により生成した疑似文書から抽出したN−gramの当該擬似文書中における出現位置を表す出現位置情報を記憶する出現位置記憶手段と、
ひらがな文字列、カタカナ文字列、アルファベット文字列、ならびに、ひらがな、カタカナおよびアルファベットの混合文字列のうちの上記予め選定された少なくとも1種類の文字列により構成される検索キーワードを上記出現位置情報に照合して上記検索キーワードを含む文書を特定する文書特定手段とを有することを特徴とする文書検索装置。 - 検索対象の文書の各々に対して、当該検索対象の文書の各々から、ひらがな文字列、カタカナ文字列、アルファベット文字列、ならびに、ひらがな、カタカナおよびアルファベットの混合文字列のうちの予め選定された少なくとも1種類の文字列を、抽出して連結して生成した擬似文書における、当該疑似文書から抽出したN−gramの出現位置を表す出現位置情報を、当該位置に対応するビット位置にフラグビットを立てるビットベクターとして記憶する出現位置記憶手段と、
検索キーワードを上記出現位置情報に照合して上記検索キーワードを含む文書を特定する文書特定手段とを有し、
上記検索キーワードが2つ以上のN−gramから構成される場合に、当該N−gramの各々のビットベクターのフラグビット位置が対応する隣接関係にあることを判別して上記検索キーワードを含む文書を特定することを特徴とする文書検索装置。 - コンピュータを、
検索対象の文書の各々から、ひらがな文字列、カタカナ文字列、アルファベット文字列、ならびに、ひらがな、カタカナおよびアルファベットの混合文字列のうちの予め選定された少なくとも1種類の文字列を、抽出して連結し、擬似文書を生成する擬似文書生成手段、
上記検索対象の文書の各々に対して、当該検索対象の文書から上記疑似文書生成手段により生成した疑似文書から抽出したN−gramの当該擬似文書中における出現位置を表す出現位置情報を記憶する出現位置記憶手段、および、
ひらがな文字列、カタカナ文字列、アルファベット文字列、ならびに、ひらがな、カタカナおよびアルファベットの混合文字列のうちの上記予め選定された少なくとも1種類の文字列により構成される検索キーワードを上記出現位置情報に照合して上記検索キーワードを含む文書を特定する文書特定手段
として機能させるための文書検索用コンピュータプログラム。 - 上記出現位置記憶手段は、上記N−gramの上記擬似文書中における出現位置を表す出現位置情報を、当該位置に対応するビット位置にフラグビットを立てるビットベクターで表す請求項3記載の文書検索用コンピュータプログラム。
- 上記擬似文書は、同一文書内の複数の同一の文字列については1つに縮退して生成される請求項3または4記載の文書検索用コンピュータプログラム。
- 上記擬似文書において隣接する文字列の間の区切りを表すために空白文字を用いる請求項3、4または5記載の文書検索用コンピュータプログラム。
- 上記ビットベクターのビット長が所定長を超える場合には、上記ビットベクターを上記所定長位置で折り返して上記フラグビットのOR論理をとる請求項4記載の文書検索用コンピュータプログラム。
- 上記ビットベクターのビット長が所定長を超える場合には、上記ビットベクターを上記所定長のシーケンスに分割し、さらにフラグビットを含まないシーケンスは省略する請求項4記載の文書検索用コンピュータプログラム。
- コンピュータを、
検索対象の文書の各々に対して、当該検索対象の文書の各々から、ひらがな文字列、カタカナ文字列、アルファベット文字列、ならびに、ひらがな、カタカナおよびアルファベットの混合文字列のうちの予め選定された少なくとも1種類の文字列を、抽出して連結して生成した擬似文書における、当該疑似文書から抽出したN−gramの出現位置を表す出現位置情報を、当該位置に対応するビット位置にフラグビットを立てるビットベクターとして記憶する出現位置記憶手段、および
検索キーワードを上記出現位置情報に照合して上記検索キーワードを含む文書を特定する文書特定手段
として機能させるための文書検索用コンピュータプログラムであって、
さらに、
上記検索キーワードが2つ以上のN−gramから構成される場合に、当該N−gramの各々のビットベクターのフラグビット位置が対応する隣接関係にあることを判別して上記検索キーワードを含む文書を特定することを特徴とする文書検索用コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005019589A JP4682627B2 (ja) | 2005-01-27 | 2005-01-27 | 文書検索装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005019589A JP4682627B2 (ja) | 2005-01-27 | 2005-01-27 | 文書検索装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006209399A JP2006209399A (ja) | 2006-08-10 |
JP4682627B2 true JP4682627B2 (ja) | 2011-05-11 |
Family
ID=36966200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005019589A Expired - Fee Related JP4682627B2 (ja) | 2005-01-27 | 2005-01-27 | 文書検索装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4682627B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5083612B2 (ja) * | 2007-12-27 | 2012-11-28 | 大日本印刷株式会社 | 検索装置 |
WO2014045318A1 (ja) * | 2012-09-21 | 2014-03-27 | 富士通株式会社 | 圧縮プログラム、圧縮方法及び圧縮装置 |
JP6065914B2 (ja) * | 2012-09-21 | 2017-01-25 | 富士通株式会社 | 制御プログラム、制御方法および制御装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0916616A (ja) * | 1995-06-30 | 1997-01-17 | Toyo Joho Syst:Kk | 索引データ生成検索装置 |
JPH11110402A (ja) * | 1997-09-30 | 1999-04-23 | Ricoh Co Ltd | 文書検索装置 |
JPH11143902A (ja) * | 1997-11-11 | 1999-05-28 | Hitachi Ltd | n−gramを用いた類似文書検索方法 |
JPH11191107A (ja) * | 1997-12-25 | 1999-07-13 | Canon Inc | 文書処理方法とその装置 |
JP2000231563A (ja) * | 1999-02-09 | 2000-08-22 | Hitachi Ltd | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003058578A (ja) * | 2001-08-10 | 2003-02-28 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
JP2004178614A (ja) * | 1994-06-02 | 2004-06-24 | Ricoh Co Ltd | 文書管理方法および文書管理装置 |
-
2005
- 2005-01-27 JP JP2005019589A patent/JP4682627B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178614A (ja) * | 1994-06-02 | 2004-06-24 | Ricoh Co Ltd | 文書管理方法および文書管理装置 |
JPH0916616A (ja) * | 1995-06-30 | 1997-01-17 | Toyo Joho Syst:Kk | 索引データ生成検索装置 |
JPH11110402A (ja) * | 1997-09-30 | 1999-04-23 | Ricoh Co Ltd | 文書検索装置 |
JPH11143902A (ja) * | 1997-11-11 | 1999-05-28 | Hitachi Ltd | n−gramを用いた類似文書検索方法 |
JPH11191107A (ja) * | 1997-12-25 | 1999-07-13 | Canon Inc | 文書処理方法とその装置 |
JP2000231563A (ja) * | 1999-02-09 | 2000-08-22 | Hitachi Ltd | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003058578A (ja) * | 2001-08-10 | 2003-02-28 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2006209399A (ja) | 2006-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP2002312365A (ja) | 文書画像検索装置 | |
JP5141560B2 (ja) | 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 | |
JP5646792B2 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
JP2002517039A (ja) | 中国語テキストにおける単語分割 | |
JP3220865B2 (ja) | フルテキストサーチ方法 | |
JP4682627B2 (ja) | 文書検索装置および方法 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3303881B2 (ja) | 文書検索方法および装置 | |
CN106951513B (zh) | 一种法律案件或法律法规关键字处理方法及关键字处理系统 | |
JP6805720B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
JP4102153B2 (ja) | インターネットを利用した文字認識の後処理装置 | |
JP2007025939A (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
WO2018179729A1 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2004046438A (ja) | テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体 | |
JP4734400B2 (ja) | 文書検索装置およびプログラム | |
CN111931026A (zh) | 一种基于词性扩展的搜索优化方法及系统 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2002132789A (ja) | 文書検索方法 | |
JP5182960B2 (ja) | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 | |
JP2006163830A (ja) | 文字認識装置、文字認識方法、および文字認識プログラム | |
KR100283100B1 (ko) | 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법 | |
JPH09212523A (ja) | 全文検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100511 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100702 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100817 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101001 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110124 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |