JP2006172372A - 検索装置および方法 - Google Patents
検索装置および方法 Download PDFInfo
- Publication number
- JP2006172372A JP2006172372A JP2004367478A JP2004367478A JP2006172372A JP 2006172372 A JP2006172372 A JP 2006172372A JP 2004367478 A JP2004367478 A JP 2004367478A JP 2004367478 A JP2004367478 A JP 2004367478A JP 2006172372 A JP2006172372 A JP 2006172372A
- Authority
- JP
- Japan
- Prior art keywords
- index
- character
- character string
- document
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 検索対象とする文書(a)に対して、文字種分けを行った後(b)、設定された文字数単位で切り出しを行う(c)。切り出し後の各文字列について、その前後の文字列との文字種の異同を比較し、異なる場合「1」同一の場合「2」存在しない場合「0」を付与し(d)、同一の場合の得点を低くして、文書全体の得点を算出し、得点の高い文書を優先的に出力する。
【選択図】 図1
Description
以下、本発明の実施形態について図面を参照して詳細に説明する。まず、検索用のインデックスの作成について説明する。図1(a)に検索対象とする文書の一例を示す。これは、図10において示した文書01と同一のものである。インデックスの作成は、コンピュータが専用のプログラムを実行することにより行われる。図2は、インデックス作成処理の概要を示すフローチャートである。まず、コンピュータが検索対象とする文書を読み込むと、読み込んだ文書の文字種分けを行う(S1)。文字種とは、分類のための文字の種別を示すものであり、本実施形態では、英数、カタカナ、ひらがな、漢字、その他に分類している。例えば、図1(a)に示した文書の場合、図1(b)に示すように文字種分けされる。これは、文字数に関係なく、文字種が変化する部分において分けられる。文字種分けが終わったら、続いて、文字の切り出し処理を行う(S2)。文字の切り出しはN文字単位で行う。なお、Nは1以上の整数である。このNの値、すなわち、何文字単位で切り出すかについては、適宜設定することが可能である。本実施形態では、N=2と設定した場合について説明する。文字の切り出しは、S1による文字種分けにより既にN文字以下となっている文字列に対しては行わない。したがって、図1(b)の例では、「ソリューション」の文字列に対してのみ行う。文字の切り出しは、1文字ずつ移動させながら行う。この結果、図1(c)に示したような文字列が得られることになる。
(重要度)=(文書中の索引N文字列の出現頻度)/(索引N文字列が特定の文書に偏って出現する頻度)
次に、本発明に係る検索装置について説明する。図6は、本発明に係る検索装置の一実施形態を示す構成図である。図6において、10は文書記憶手段、20はインデックス記憶手段、30は検索文字列入力手段、40は文字列照合手段、50は優先度決定手段、60は文書出力手段である。
次に、図6に示した検索装置の処理動作と共に、本発明に係る検索方法を図7のフローチャートに従って説明する。まず、検索文字列入力手段30から検索文字列が入力されると、文字列照合手段40は、入力された検索文字列の文字種分けを行う(S11)。これは、上記図2に示したS1と同様の処理である。文字種分けが終わったら、続いて、文字列照合手段40は、文字の切り出し処理を行う(S12)。これも上記図2に示したS2と同様に行われる。続いて、切り出した検索文字列とインデックス記憶手段20内のインデックスの各索引N文字列との照合を行う(S13)。照合の結果、一致する索引N文字列が存在した場合には、優先度決定手段50が、その文字種異同情報を基に文書別に得点を算出し、優先度を決定する(S14)。続いて、出力手段60が、一致した索引N文字列が存在する文書IDの文書データを文書記憶手段10から抽出し、決定した優先度に従って、ディスプレイ装置に表示出力する(S15)。
次に、検索文字列「ソリューション」で検索を行う場合について説明する。まず、S11の文字種分けの結果、「ソリューション」の文字種はカタカナとなる。文字列照合手段40は、文字の切り出し処理を行う(S12)。この結果、「ソリ」「リュ」「ュー」「ーシ」「ショ」「ョン」の文字列が切り出される。検索文字列からN文字ずつ切り出した文字列を検索N文字列と呼ぶことにする。続いて、切り出した各検索N文字列と、インデックス記憶手段20内のインデックスの各索引N文字列との照合を行う(S13)。具体的には、まず、切り出した各検索N文字列「ソリ」「リュ」「ュー」「ーシ」「ショ」「ョン」と索引N文字列が同一文書内に存在するかどうかを照合する。照合方法は、全ての検索N文字列と一致する索引N文字列に同一の文書IDが付与されているかを判別し、同一の文書IDが付与されていれば、さらに出現位置が連続しているかどうかも判断する。この結果、切り出した全ての検索N文字列が同一の文書に含まれ、出現位置も連続していると判断される場合には、優先度決定手段50が、その文字種情報を基に文書別に得点を算出する(S14)。具体的には、まず、各索引N文字列の重要度および検索N文字列数に基づいて以下の〔数式2〕により重要度係数を算出する。
重要度係数=(Σ(重要度))/(検索N文字列数)
上記実施形態では、S14において優先度決定手段50は、文字種異同情報の状態により異なる得点を与え、文書別の得点を算出し、これを基に優先度を決定するようにしたが、本発明では、他の手法により優先度を決定することも可能である。具体的には、上記S14において優先度決定手段50は、検索文字列と一致する索引N文字列が存在する場合に、その索引N文字列の文字種異同情報の文字種前、文字種後のいずれも「同一」となっていない索引N文字列が存在するかどうかで分類し、文字種前、文字種後のいずれも「同一」でない索引N文字列が存在する文書に高い優先度を付与する。さらに、分類したそれぞれの文書間においては、検索文字列と一致する索引N文字列の出現頻度が多いものに高い優先度を付与する。
20・・・インデックス記憶手段
30・・・検索文字列入力手段
40・・・文字列照合手段
50・・・優先度決定手段
60・・・文書出力手段
Claims (5)
- 検索対象とする文書データを蓄積した文書記憶手段と、
前記文書記憶手段に記憶された各文書データについて、文書データ内の文字種別で分離した文字列から、所定の数Nにより、連続するN文字を、先頭を1文字ずつずらして切り取って作られる文字列を索引N文字列とし、当該各索引N文字列ごとに前後の索引N文字列との文字種の異同を示す文字種異同情報を有するインデックスを記録したインデックス記憶手段と、
検索キーとなる文字列である検索文字列を入力する検索文字列入力手段と、
前記入力された検索文字列を用いて前記インデックス記憶手段内の索引N文字列と照合し、一致する索引N文字列または一致する索引N文字列の連なりを検出する文字列照合手段と、
前記検出した索引N文字列の文字種異同情報に基づいて、各索引N文字列を含む文書に優先度を付与する優先度決定手段と、
前記決定した優先度に従って、前記索引N文字列を含む文書データを出力する文書出力手段と、
を有することを特徴とする検索装置。 - 前記優先度決定手段は、前記検出した索引N文字列の文字種異同情報が隣接する文字列と同一でないことを示すものである場合に、隣接する文字列と同一であることを示すものである場合よりも高い得点を与えて文書別に得点を付与し、付与した得点にしたがって文書に優先度を付与するものであることを特徴とする請求項1に記載の検索装置。
- 前記優先度決定手段は、一致する索引N文字列または一致する索引N文字列の連なりが同一文書内に複数検出された場合には、各索引N文字列ごとの得点を加算して得点を算出するものであることを特徴とする請求項2に記載の検索装置。
- 前記優先度決定手段は、前記検出した索引N文字列のうち、文字種異同情報が前後いずれの文字列とも同一でないことを示している索引N文字列を含む文書と含まない文書を分類し、文字種異同情報が前後いずれの文字列とも同一でないことを示している索引N文字列を含む文書の優先度を高く設定することにより優先度を付与するものであることを特徴とする請求項1に記載の検索装置。
- 文書データ内の文字種別で分離した文字列から、所定の数Nにより、連続するN文字を、先頭を1文字ずつずらして切り取って作られる文字列を索引N文字列とし、当該各索引N文字列ごとに前後の索引N文字列との文字種の異同を示す文字種異同情報を有するインデックスを利用して、文書データの検索を行う方法であって、
検索キーとして入力された検索文字列を用いてインデックス内の索引N文字列と照合し、一致する索引N文字列または一致する索引N文字列の連なりを検出する文字列照合段階と、
前記検出した索引N文字列の文字種異同情報に基づいて、各索引N文字列を含む文書に優先度を付与する優先度決定段階と、
前記決定した優先度に従って、前記索引N文字列を含む文書データを出力する出力段階と、
を有することを特徴とする検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004367478A JP4549839B2 (ja) | 2004-12-20 | 2004-12-20 | 検索装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004367478A JP4549839B2 (ja) | 2004-12-20 | 2004-12-20 | 検索装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006172372A true JP2006172372A (ja) | 2006-06-29 |
JP4549839B2 JP4549839B2 (ja) | 2010-09-22 |
Family
ID=36673032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004367478A Expired - Fee Related JP4549839B2 (ja) | 2004-12-20 | 2004-12-20 | 検索装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4549839B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011104754A1 (ja) * | 2010-02-24 | 2011-09-01 | 三菱電機株式会社 | 検索装置及び検索プログラム |
WO2017126057A1 (ja) * | 2016-01-20 | 2017-07-27 | 株式会社日立製作所 | 情報検索方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185776A (ja) * | 1997-09-02 | 1999-03-30 | Canon Inc | 情報処理装置及びその方法、記憶媒体 |
JPH11143902A (ja) * | 1997-11-11 | 1999-05-28 | Hitachi Ltd | n−gramを用いた類似文書検索方法 |
JPH11338883A (ja) * | 1998-05-29 | 1999-12-10 | Hitachi Ltd | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
JP2000067070A (ja) * | 1998-08-24 | 2000-03-03 | Matsushita Electric Ind Co Ltd | 情報検索方法、検索ファイル作成方法及び情報検索装置 |
JP2000231563A (ja) * | 1999-02-09 | 2000-08-22 | Hitachi Ltd | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001034623A (ja) * | 1999-07-19 | 2001-02-09 | Matsushita Electric Ind Co Ltd | 情報検索方法と情報検索装置 |
JP2001175674A (ja) * | 1999-12-20 | 2001-06-29 | Ricoh Co Ltd | 文書検索装置、文書検索方法および記憶媒体 |
-
2004
- 2004-12-20 JP JP2004367478A patent/JP4549839B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185776A (ja) * | 1997-09-02 | 1999-03-30 | Canon Inc | 情報処理装置及びその方法、記憶媒体 |
JPH11143902A (ja) * | 1997-11-11 | 1999-05-28 | Hitachi Ltd | n−gramを用いた類似文書検索方法 |
JPH11338883A (ja) * | 1998-05-29 | 1999-12-10 | Hitachi Ltd | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
JP2000067070A (ja) * | 1998-08-24 | 2000-03-03 | Matsushita Electric Ind Co Ltd | 情報検索方法、検索ファイル作成方法及び情報検索装置 |
JP2000231563A (ja) * | 1999-02-09 | 2000-08-22 | Hitachi Ltd | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001034623A (ja) * | 1999-07-19 | 2001-02-09 | Matsushita Electric Ind Co Ltd | 情報検索方法と情報検索装置 |
JP2001175674A (ja) * | 1999-12-20 | 2001-06-29 | Ricoh Co Ltd | 文書検索装置、文書検索方法および記憶媒体 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011104754A1 (ja) * | 2010-02-24 | 2011-09-01 | 三菱電機株式会社 | 検索装置及び検索プログラム |
JP5449521B2 (ja) * | 2010-02-24 | 2014-03-19 | 三菱電機株式会社 | 検索装置及び検索プログラム |
US8914385B2 (en) | 2010-02-24 | 2014-12-16 | Mitsubishi Electric Corporation | Search device and search program |
WO2017126057A1 (ja) * | 2016-01-20 | 2017-07-27 | 株式会社日立製作所 | 情報検索方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4549839B2 (ja) | 2010-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6438566B1 (en) | Document processing method and apparatus which can add comment data added to an original document to a revised document | |
JP5316158B2 (ja) | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 | |
JP2726568B2 (ja) | 文字認識方法及び装置 | |
JP5159772B2 (ja) | 文書検索装置及び文書検索方法 | |
US20070050709A1 (en) | Character input aiding method and information processing apparatus | |
JP2008123528A (ja) | 文書のページ番号を検出する方法及びシステム | |
JPH11110414A (ja) | データベースからテキストを検索するための方法および装置 | |
KR20010015368A (ko) | 정보 검색 방법과 정보 검색 장치 | |
JP5900367B2 (ja) | 検索装置、検索方法及びプログラム | |
JP4891013B2 (ja) | タイトル抽出装置、画像読取装置、タイトル抽出方法、及びタイトル抽出プログラム | |
US8996571B2 (en) | Text search apparatus and text search method | |
JP4832952B2 (ja) | データベース解析システム及びデータベース解析方法及びプログラム | |
JP6780244B2 (ja) | 判定方法、判定プログラムおよび判定装置 | |
JP2005038395A (ja) | データベース検索装置 | |
JP2008165401A (ja) | 文献検索プログラム、文献検索装置、文献検索方法 | |
JP6722565B2 (ja) | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム | |
JP4549839B2 (ja) | 検索装置および方法 | |
JP2003178075A5 (ja) | ||
JP2005107931A (ja) | 画像検索装置 | |
JP4569179B2 (ja) | ドキュメント検索装置 | |
JPWO2014171519A1 (ja) | 誤記検出装置及び記録媒体 | |
JP2003242446A (ja) | 文字列予測装置及び方法並びに当該方法を具現化するコンピュータ実行可能なプログラム | |
JP4389102B2 (ja) | 技術文献検索システム | |
KR102215580B1 (ko) | 스타일 속성에 기반하여 문서에 대한 중요 키워드를 선정하는 전자 장치 및 그 동작 방법 | |
JP6007720B2 (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070709 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091201 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100615 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100707 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4549839 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130716 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |