JP2009223520A - テキスト検索システム及びプログラム - Google Patents
テキスト検索システム及びプログラム Download PDFInfo
- Publication number
- JP2009223520A JP2009223520A JP2008066190A JP2008066190A JP2009223520A JP 2009223520 A JP2009223520 A JP 2009223520A JP 2008066190 A JP2008066190 A JP 2008066190A JP 2008066190 A JP2008066190 A JP 2008066190A JP 2009223520 A JP2009223520 A JP 2009223520A
- Authority
- JP
- Japan
- Prior art keywords
- search
- character string
- index
- text data
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】索引管理部54は、文書部421に格納される文書に存在する文字列を変換部56により同一視検索のための文字列に変換させ、変換後の文字列を変換前の文字列が存在する文書と対応付けて索引423に追加する。同一視検索部552は、検索要求の指定する検索文字列を変換部56により同一視検索のための文字列に変換させ、変換後の検索文字列及び索引423に基づいて、変換後の検索文字列と同一視すべき文字列を含むテキストデータを検索する。非同一視検索部553は、非同一視検索が指定されている場合、同一視検索部552によって検索されたテキストデータを非同一視検索対象として参照することで、検索要求の指定する検索文字列を含むテキストデータを検索する。
【選択図】 図3
Description
図1は本発明の一実施形態に係るテキスト検索システム50を含むクライアント−サーバシステムのハードウェア構成を示すブロック図である。クライアント−サーバシステムは、主として、データベースサーバ(データベースサーバコンピュータ)10と、複数のクライアント端末とから構成される。複数のクライアント端末はクライアント端末20を含む。クライアント端末20上では、データベースサーバ10を利用するアプリケーション(アプリケーションプログラム)が動作する。クライアント端末20を含む複数のクライアント端末は、ローカルエリアネットワーク(LAN)のようなネットワーク30を介してデータベースサーバ10と接続されている。
データベースサーバ10上では、データベース管理システム(DBMS)51が動作する。
判定部551は検索種別判定部として機能して、検索要求で指定された検索が、同一視検索または非同一視検索のいずれであるかを判定する。
<文書登録処理>
まず、本実施形態における文書登録処理について、図4のフローチャートを参照して説明する。
次に、本実施形態におけるテキスト検索処理について、図5のフローチャートを参照して説明する。
ステップS24またはS26での検索結果は、要求処理部52及びネットワーク30を介してクライアント端末20に通知される。
上記実施形態によれば、非同一視検索候補文書の群を、同一視検索で求められた文書の群に絞ることができる。しかし、非同一視検索候補文書を更に絞ることも可能である。そこで、非同一視検索候補文書を上記実施形態よりも更に絞ることを可能とする上記実施形態の変形例について、図1及び図3を援用して説明する。但し、索引423に代えて索引424が用いられるものとする。必要があれば、図1及び図3において、索引423を索引424に読み替えられたい。
次に、本変形例における索引作成処理の上記実施形態と相違する部分について、図8のフローチャートを参照して説明する。
次に、本変形例におけるテキスト検索処理について、図9のフローチャートを参照して説明する。なお、図9において、図5のフローチャートと同一のステップには同一符号を付してある。
非同一視検索部553は、非同一視検索候補文書の群のうち、変換前の検索文字列に一致する部分が存在する文書のみを検索結果とする(ステップS36)。
Claims (5)
- 索引記憶手段に格納されている索引を利用してテキスト記憶手段に格納されているテキストデータを検索するテキスト検索システムにおいて、
文字列を構成する各文字を当該文字と同一視すべき1つ以上のタイプの文字のうちの予め定められたタイプの文字に変換する文字列変換手段と、
前記テキスト記憶手段に格納されるテキストデータに存在する文字列を構成する各文字を前記文字列変換手段により変換させることによって変換後の文字列を取得し、当該変換後の文字列を変換前の文字列が存在する前記テキストデータと対応付けて、前記索引に追加する索引管理手段と、
クライアント端末から与えられる検索要求の指定する検索文字列を構成する各文字を前記文字列変換手段により変換させることによって変換後の検索文字列を取得し、当該変換後の検索文字列及び前記索引に基づいて、当該変換後の検索文字列と同一視すべき文字列を含むテキストデータを検索するための同一視検索を行う同一視検索手段と、
前記検索要求によって非同一視検索が指定されている場合、前記同一視検索手段によって検索されたテキストデータを非同一視検索対象テキストデータとして、当該非同一視検索対象テキストデータから前記検索要求の指定する検索文字列を含むテキストデータを検索するための非同一視検索を行う非同一視検索手段と
を具備することを特徴とするテキスト検索システム。 - 前記索引管理手段は、前記索引に、前記変換後の文字列を前記テキストデータと対応付けて追加する際に、当該変換後の文字列と変換前の文字列との間で差異が有るかを示す差異情報も前記テキストデータと対応付けて前記索引に追加し、
前記非同一視検索手段は、前記索引内で前記非同一視検索対象テキストデータと対応付けられている差異情報に基づき、当該非同一視検索対象テキストデータから非同一視検索の結果にはなり得ないテキストデータを除外し、残りの非同一視検索対象テキストデータから前記検索要求の指定する検索文字列を含むテキストデータを検索する
ことを特徴とする請求項1記載のテキスト検索システム。 - 前記検索要求によって非同一視検索が指定されている場合に、前記検索要求の指定する検索文字列と当該検索文字列に対応する前記変換後の検索文字列とが一致するかを判定する検索文字列判定手段を更に具備し、
前記非同一視検索手段は、前記検索文字列判定手段によって不一致が判定された場合、前記非同一視検索対象テキストデータのうち、前記索引内で差異情報によって差異無しが示されているテキストデータを前記非同一視検索の結果にはなり得ないテキストデータと決定する
ことを特徴とする請求項2記載のテキスト検索システム。 - 前記非同一視検索手段は、前記検索文字列判定手段によって一致が判定された場合、前記非同一視検索対象テキストデータのうち、前記索引内で差異情報によって差異有りが示されているテキストデータを前記非同一視検索の結果にはなり得ないテキストデータと決定する
ことを特徴とする請求項3記載のテキスト検索システム。 - 索引記憶手段に格納されている索引を利用してテキスト記憶手段に格納されているテキストデータを検索するコンピュータを、
文字列を構成する各文字を当該文字と同一視すべき1つ以上のタイプの文字のうちの予め定められたタイプの文字に変換する文字列変換手段と、
前記テキスト記憶手段に格納されるテキストデータに存在する文字列を構成する各文字を前記文字列変換手段により変換させることによって変換後の文字列を取得して、当該変換後の文字列を変換前の文字列が存在する前記テキストデータと対応付けて、前記索引に追加する索引管理手段と、
クライアント端末から与えられる検索要求の指定する検索文字列を構成する各文字を前記文字列変換手段により変換させることによって変換後の検索文字列を取得して、当該変換後の検索文字列及び前記索引に基づいて、当該変換後の検索文字列と同一視すべき文字列を含むテキストデータを検索するための同一視検索を行う同一視検索手段と、
前記検索要求によって非同一視検索が指定されている場合、前記同一視検索手段によって検索されたテキストデータを検索対象テキストデータとして、当該検索対象テキストデータから前記検索要求の指定する検索文字列を含むテキストデータを検索するための非同一視検索を行う非同一視検索手段と
して機能させるさせるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008066190A JP4734363B2 (ja) | 2008-03-14 | 2008-03-14 | テキスト検索システム及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008066190A JP4734363B2 (ja) | 2008-03-14 | 2008-03-14 | テキスト検索システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009223520A true JP2009223520A (ja) | 2009-10-01 |
JP4734363B2 JP4734363B2 (ja) | 2011-07-27 |
Family
ID=41240246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008066190A Expired - Fee Related JP4734363B2 (ja) | 2008-03-14 | 2008-03-14 | テキスト検索システム及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4734363B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109643322A (zh) * | 2016-09-02 | 2019-04-16 | 株式会社日立高新技术 | 字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877188A (ja) * | 1994-09-05 | 1996-03-22 | Oki Electric Ind Co Ltd | フルテキストサーチ方法 |
JPH11353323A (ja) * | 1998-06-09 | 1999-12-24 | Toshiba Corp | 文書検索装置および文書検索方法 |
JP2002269136A (ja) * | 2001-03-14 | 2002-09-20 | Ricoh Co Ltd | 文書検索システム及びプログラム |
JP2003316785A (ja) * | 2002-04-25 | 2003-11-07 | Ricoh Co Ltd | テキストデータ検索装置及び方法 |
JP2004199282A (ja) * | 2002-12-17 | 2004-07-15 | Mitsubishi Electric Corp | 文書検索装置および文書登録装置 |
JP2006106896A (ja) * | 2004-09-30 | 2006-04-20 | Toshiba Corp | データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法 |
-
2008
- 2008-03-14 JP JP2008066190A patent/JP4734363B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877188A (ja) * | 1994-09-05 | 1996-03-22 | Oki Electric Ind Co Ltd | フルテキストサーチ方法 |
JPH11353323A (ja) * | 1998-06-09 | 1999-12-24 | Toshiba Corp | 文書検索装置および文書検索方法 |
JP2002269136A (ja) * | 2001-03-14 | 2002-09-20 | Ricoh Co Ltd | 文書検索システム及びプログラム |
JP2003316785A (ja) * | 2002-04-25 | 2003-11-07 | Ricoh Co Ltd | テキストデータ検索装置及び方法 |
JP2004199282A (ja) * | 2002-12-17 | 2004-07-15 | Mitsubishi Electric Corp | 文書検索装置および文書登録装置 |
JP2006106896A (ja) * | 2004-09-30 | 2006-04-20 | Toshiba Corp | データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109643322A (zh) * | 2016-09-02 | 2019-04-16 | 株式会社日立高新技术 | 字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统 |
CN109643322B (zh) * | 2016-09-02 | 2022-11-29 | 株式会社日立高新技术 | 字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统 |
Also Published As
Publication number | Publication date |
---|---|
JP4734363B2 (ja) | 2011-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9195738B2 (en) | Tokenization platform | |
KR100813806B1 (ko) | 중심용어사전을 이용한 표제어의 중심용어 추출 방법 및그를 이용한 정보 검색 시스템 및 그 방법 | |
US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
US9020951B2 (en) | Methods for indexing and searching based on language locale | |
US7979438B2 (en) | Document management method and apparatus and document search method and apparatus | |
US8423885B1 (en) | Updating search engine document index based on calculated age of changed portions in a document | |
JP4237813B2 (ja) | 構造化文書管理システム | |
US12013903B2 (en) | System and method for search discovery | |
JP4734363B2 (ja) | テキスト検索システム及びプログラム | |
JP2011133928A (ja) | 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム | |
KR20040039691A (ko) | 정보 검색 시스템의 인덱싱 방법 | |
JP4091586B2 (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
CN113946365A (zh) | 页面识别方法、装置、计算机设备和存储介质 | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP4160627B2 (ja) | 構造化文書管理システム及びプログラム | |
US11954223B2 (en) | Data record search with field level user access control | |
JP4550876B2 (ja) | 構造化文書検索システム及びプログラム | |
JP2008197815A (ja) | データベース管理システム及びプログラム | |
JP5145202B2 (ja) | 文書検索装置および文書検索プログラム | |
US20080177729A1 (en) | Apparatus, method and computer program product for searching document | |
CN115809664A (zh) | 分词处理方法、装置、电子设备及存储介质 | |
Kim et al. | Fast, Flexible Text Search Using Genomic Short‐Read Mapping Model | |
KR20080024172A (ko) | 중심용어사전의 데이터가 기록된 컴퓨터로 읽을 수 있는기록매체 | |
JP2008198236A (ja) | 構造化文書管理システム | |
JP2014186482A (ja) | 全文検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100720 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110425 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4734363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |