JP5900367B2 - 検索装置、検索方法及びプログラム - Google Patents
検索装置、検索方法及びプログラム Download PDFInfo
- Publication number
- JP5900367B2 JP5900367B2 JP2013016199A JP2013016199A JP5900367B2 JP 5900367 B2 JP5900367 B2 JP 5900367B2 JP 2013016199 A JP2013016199 A JP 2013016199A JP 2013016199 A JP2013016199 A JP 2013016199A JP 5900367 B2 JP5900367 B2 JP 5900367B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- search
- gram
- target character
- search target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
検索対象文字列の両端部に区切文字が付加されている文書データを記憶している記憶手段と、
キーワードを取得する取得手段と、
前記取得手段が取得したキーワードの両端部に文字列の区切りであることを示す区切文字を付加して検索文字列を生成する生成手段と、
前記生成手段が生成した検索文字列から複数のNグラム列を抽出し、この抽出されたNグラム列が、前記文書データの検索対象文字列に現れる出現位置を特定する特定手段と、
前記検索対象文字列に含まれるNグラムを1つずつ選択する選択手段と、
前記選択手段により1つのNグラムが選択される毎に、前記検索対象文字列と前記検索文字列とを選択された前記1つのNグラムが現れる位置を基準に比較した場合に、同じ相対位置で一致するNグラムの数をカウントするカウント手段と、
前記カウント手段でカウントされたカウント値の頻度と、前記検索対象文字列と前記検索文字列との文字長の差分と、に基づいて当該検索対象文字列と当該検索文字列との類似度を評価する評価手段と、
前記評価手段の評価結果に基づいて前記検索対象文字列を出力する出力手段と、
を備えることを特徴とする。
また、辞書データのうち、見出語テキストが占める部分を見出部CE、本文テキストがしめる部分を本文部CBという。
解説テキストは、当該テキストで表される内容が解説であることを表す解説タグに囲まれており、用例テキストは、当該テキストで表される内容が用例であることを表す用例タグに囲まれている。
また、各見出部CEには、見出部CEを識別する見出語番号が予め割り当てられている。辞書データには、この見出語番号を表す情報と、当該見出語番号で識別される見出部CEが格納された情報記憶部110における記憶領域の先頭アドレスを表す情報と、当該見出部CEの直後に格納された本文部CBの先頭アドレスを表す情報と、が対応付けられた情報が、見出語の数だけ含まれる。この構成単位は、一単位の「検索対象となる文書(文字列)」とも言う。この場合、辞書データは検索対象となる文書を複数束ねたデータと表現できる。
この実施形態では、テキスト検索装置100に記憶されている辞書(図7参照)のうちユーザの指定した検索対象辞書(図6の例では英和辞書1、及び百科事典)に含まれる見出語が曖昧検索の対象文書となる。
さらに、生成部120はステップS2で、抽出された見出語テキスト毎に、見出語テキストで表される見出語を解説する解説テキストを本文テキストから解説タグに基づいて複数抽出し、かつ見出語の用例を表す用例テキストを用例タグに基づいて本文テキストから複数抽出する。
同様に、生成部120は、構成単位毎に、抽出された複数の用例テキストの並び順を変更せずにまとめて配置することで、抽出された複数の用例テキストが配置された部位(以下、用例部CXという)を生成する。
図8では、出現位置情報ファイル(APファイル)は「position.idx」という名称(ファイル名)で示されている。また、出現位置情報ファイルに保存された出現位置情報は、先頭アドレスから出現頻度用の所定バイト数までの領域に出現頻度を表す情報が格納され、当該領域の直後から出現位置用の所定バイト数毎に出現位置アドレスを表す情報が格納される。出現位置アドレスを表す情報は、例えば辞書データを記録しているハードディスク100dにおける、対象のNグラムが辞書データ上に現れる位置に対応するアドレスの情報であればよい。
図8では、Sファイルは「pattern.idx」という名称(ファイル名)で示されている。
このテキスト検索処理を実行することにより、CPU100aは図4に示すような取得部130、付加部1410と抽出部1420と特定部1430とを含む検索部140、算出部150、決定部160、及び出力部170として機能する。また、CPU100aは、図2に示したビデオカード100g及びLCD100hと協働して表示部180として機能する。
まず、決定部160は注目文字列に現れるNグラムから、処理対象となる注目Nグラムを選択する(ステップS106)。ここでは、注目文字列の出現位置のうち、未だ注目位置として選択されていない最も先頭のアドレスに現れるNグラムを選択するものとする。
EstDiffLengthidxid,hdlid=Δl×Dconst…(3)
=EstTop×TopConst+EstLast×LastConst…(4)
ただし、EstTopは検索文字列の先頭のNグラム(図14の例では「・s」)が対象文字列に現れる場合に1となり、現れない場合に0となる変数である。EstLastは検索文字列の末尾のNグラム(図14の例では「d・」)が対象文字列に現れる場合に1となり、現れない場合に0となる変数である。TopConst及びLastConstは、予め設定された重み付けの定数である。
具体的には、曖昧検索処理(図11)のステップS110で算出したランク評価値が高い順に、所定数の見出語を当該見出語を含む辞書の種別と共に表示部180に表示させる(図6)。あるいは、ランク評価値が所定の閾値以上の見出語を全て表示するとしても良い。
以上、本発明の実施形態1について説明したが、本発明の実施形態はこれに限られない。
例えば、上記実施形態1では、区切文字は半角スペースであるとしたが、区切文字はこれに限られず自由に選択可能である。例えば、区切文字はシステムに予約されたユニークなマーク(その他で曖昧検索の対象となるテキストに現れないマーク)であってよい。
この場合、検索文字列と注目文字列において、Nグラムが現れる位置が完全に一致していなくても所定の類似範囲に含まれたことに基づいてランク付け評価値が上がるので、入力エラーが多い場合でもユーザが所望の検索結果となる割合が増すという効果が得られる。
以下に本願出願の当初の特許請求の範囲に記載された発明を付記する。
検索対象文字列の両端部に区切文字が付加されている文書データを記憶している記憶手段と、
キーワードを取得する取得手段と、
前記取得手段が取得したキーワードの両端部に文字列の区切りであることを示す区切文字を付加して検索文字列を生成する生成手段と、
前記生成手段が生成した検索文字列から複数の部分列を抽出し、この抽出された部分列が、前記文書データの検索対象文字列に現れる出現位置を特定する特定手段と、
前記検索対象文字列において、前記検索文字列の部分列と共通する部分列が前記検索文字列と類似した位置関係で現れる頻度を、前記特定手段の特定結果に基づいて決定する決定手段と、
前記決定手段の決定結果と、前記検索対象文字列と前記検索文字列との文字長の違いと、に基づいて当該検索対象文字列と当該検索文字列の類似度を評価する評価手段と、
前記評価手段の評価結果に基づいて前記検索対象文字列を出力する出力手段と、
を備えることを特徴とする検索装置。
前記特定手段は、前記検索文字列が含む文字列の全てが、何れかの部分列に含まれるように複数の部分列を抽出する抽出手段を含み、
前記特定手段は、前記抽出手段が抽出した部分列について前記特定する処理を実行する、
ことを特徴とする付記1に記載の検索装置。
前記抽出手段が抽出する部分列のうち、前記区切文字を含む部分列は何れも2以上の文字を含む、
ことを特徴とする付記2に記載の検索装置。
複数の前記検索対象文字列に含まれる、所定数の文字を含む部分列のそれぞれが前記検索対象文字列に現れる位置を示すインデックスを記憶する記憶手段を更に備え、
前記特定手段は、前記インデックスを用いて前記部分列が現れる位置を特定する、
ことを特徴とする付記1〜3の何れか1つに記載の検索装置。
前記インデックスは、前記複数の検索対象文字列を文字長に基づいてグループ分けした上で、当該グループ毎に検索対象文字列への参照をまとめた情報を含み、
前記特定手段は、前記グループの文字長と前記検索文字列の文字長との誤差が所定の閾値よりも小さいグループに含まれる検索対象文字列について、前記特定する処理を実行する一方、前記所定の閾値より大きいグループに含まれる検索対象文字列については前記特定する処理を省略する、
ことを特徴とする付記4に記載の検索装置。
前記抽出手段が抽出する部分列のうち、前記区切文字を含まない部分列は何れも1文字からなる、
ことを特徴とする付記3に記載の検索装置。
検索対象文字列の両端部に区切文字が付加されている文書データから所望の検索対象文字列を検索する方法であって、
キーワードを取得し、
前記取得したキーワードの両端部に文字列の区切りであることを示す区切文字を付加して検索文字列を生成し、
前記生成した検索文字列から複数の部分列を抽出し、この抽出された部分列が、前記文書データの検索対象文字列に現れる出現位置を特定し、
前記検索対象文字列において、前記検索文字列の部分列と共通する部分列が前記検索文字列と類似した位置関係で現れる頻度を、前記特定した結果に基づいて決定し、
前記決定した結果と、前記検索対象文字列と前記検索文字列との文字長の違いと、に基づいて当該検索対象文字列と当該検索文字列の類似度を評価し、
前記評価結果に基づいて前記検索対象文字列を出力する、
ことを特徴とする検索方法。
コンピュータを、
検索対象文字列の両端部に区切文字が付加されている文書データを記憶している記憶手段と、
キーワードを取得する取得手段と、
前記取得手段が取得したキーワードの両端部に文字列の区切りであることを示す区切文字を付加して検索文字列を生成する生成手段と、
前記生成手段が生成した検索文字列から複数の部分列を抽出し、この抽出された部分列が、前記文書データの検索対象文字列に現れる出現位置を特定する特定手段と、
前記検索対象文字列において、前記検索文字列の部分列と共通する部分列が前記検索文字列と類似した位置関係で現れる頻度を、前記特定手段の特定結果に基づいて決定する決定手段と、
前記決定手段の決定結果と、前記検索対象文字列と前記検索文字列との文字長の違いと、に基づいて当該検索対象文字列と当該検索文字列の類似度を評価する評価手段と、
前記評価手段の評価結果に基づいて前記検索対象文字列を出力する出力手段
として機能させるためのプログラム。
Claims (8)
- 検索対象文字列の両端部に区切文字が付加されている文書データを記憶している記憶手段と、
キーワードを取得する取得手段と、
前記取得手段が取得したキーワードの両端部に文字列の区切りであることを示す区切文字を付加して検索文字列を生成する生成手段と、
前記生成手段が生成した検索文字列から複数のNグラム列を抽出し、この抽出されたNグラム列が、前記文書データの検索対象文字列に現れる出現位置を特定する特定手段と、
前記検索対象文字列に含まれるNグラムを1つずつ選択する選択手段と、
前記選択手段により1つのNグラムが選択される毎に、前記検索対象文字列と前記検索文字列とを選択された前記1つのNグラムが現れる位置を基準に比較した場合に、同じ相対位置で一致するNグラムの数をカウントするカウント手段と、
前記カウント手段でカウントされたカウント値の頻度と、前記検索対象文字列と前記検索文字列との文字長の差分と、に基づいて当該検索対象文字列と当該検索文字列との類似度を評価する評価手段と、
前記評価手段の評価結果に基づいて前記検索対象文字列を出力する出力手段と、
を備えることを特徴とする検索装置。 - 前記特定手段は、前記検索文字列が含む文字列の全てが、何れかのNグラム列に含まれるように複数のNグラム列を抽出する抽出手段を含み、
前記特定手段は、前記抽出手段が抽出したNグラム列について前記特定する処理を実行する、
ことを特徴とする請求項1に記載の検索装置。 - 前記抽出手段が抽出するNグラム列のうち、前記区切文字を含むNグラム列は何れも2以上の文字を含む、
ことを特徴とする請求項2に記載の検索装置。 - 複数の前記検索対象文字列に含まれる、所定数の文字を含むNグラム列のそれぞれが前記検索対象文字列に現れる位置を示すインデックスを記憶する記憶手段を更に備え、
前記特定手段は、前記インデックスを用いて前記Nグラム列が現れる位置を特定する、
ことを特徴とする請求項1〜3の何れか1項に記載の検索装置。 - 前記インデックスは、前記複数の検索対象文字列を文字長に基づいてグループ分けした上で、当該グループ毎に検索対象文字列への参照をまとめた情報を含み、
前記特定手段は、前記グループの文字長と前記検索文字列の文字長との誤差が所定の閾値よりも小さいグループに含まれる検索対象文字列について、前記特定する処理を実行する一方、前記所定の閾値より大きいグループに含まれる検索対象文字列については前記特定する処理を省略する、
ことを特徴とする請求項4に記載の検索装置。 - 前記抽出手段が抽出するNグラム列のうち、前記区切文字を含まないNグラム列は何れも1文字からなる、
ことを特徴とする請求項3に記載の検索装置。 - コンピュータにより実行される、検索対象文字列の両端部に区切文字が付加されている文書データから所望の検索対象文字列を検索する方法であって、
キーワードを取得し、
前記取得したキーワードの両端部に文字列の区切りであることを示す区切文字を付加して検索文字列を生成し、
前記生成した検索文字列から複数のNグラム列を抽出し、この抽出されたNグラム列が、前記文書データの検索対象文字列に現れる出現位置を特定し、
前記検索対象文字列に含まれるNグラムを1つずつ選択し、
前記検索対象文字列に含まれる1つのNグラムが選択される毎に、前記検索対象文字列と前記検索文字列とを選択された前記1つのNグラムが現れる位置を基準に比較した場合に、同じ相対位置で一致するNグラムの数をカウントし、
前記カウントされたカウント値の頻度と、前記検索対象文字列と前記検索文字列との文字長の差分と、に基づいて当該検索対象文字列と当該検索文字列との類似度を評価し、
前記評価結果に基づいて前記検索対象文字列を出力する、
ことを特徴とする検索方法。 - コンピュータを、
検索対象文字列の両端部に区切文字が付加されている文書データを記憶している記憶手段と、
キーワードを取得する取得手段と、
前記取得手段が取得したキーワードの両端部に文字列の区切りであることを示す区切文字を付加して検索文字列を生成する生成手段と、
前記生成手段が生成した検索文字列から複数のNグラム列を抽出し、この抽出されたNグラム列が、前記文書データの検索対象文字列に現れる出現位置を特定する特定手段と、
前記検索対象文字列に含まれるNグラムを1つずつ選択する選択手段と、
前記選択手段により1つのNグラムが選択される毎に、前記検索対象文字列と前記検索文字列とを選択された前記1つのNグラムが現れる位置を基準に比較した場合に、同じ相対位置で一致するNグラムの数をカウントするカウント手段と、
前記カウント手段でカウントされたカウント値の頻度と、前記検索対象文字列と前記検索文字列との文字長の差分と、に基づいて当該検索対象文字列と当該検索文字列との類似度を評価する評価手段と、
前記評価手段の評価結果に基づいて前記検索対象文字列を出力する出力手段、
として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013016199A JP5900367B2 (ja) | 2013-01-30 | 2013-01-30 | 検索装置、検索方法及びプログラム |
US14/137,319 US9292508B2 (en) | 2013-01-30 | 2013-12-20 | Search device, search method and recording medium |
CN201410044001.6A CN103970826B (zh) | 2013-01-30 | 2014-01-29 | 检索装置及检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013016199A JP5900367B2 (ja) | 2013-01-30 | 2013-01-30 | 検索装置、検索方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014146301A JP2014146301A (ja) | 2014-08-14 |
JP5900367B2 true JP5900367B2 (ja) | 2016-04-06 |
Family
ID=51224130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013016199A Active JP5900367B2 (ja) | 2013-01-30 | 2013-01-30 | 検索装置、検索方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9292508B2 (ja) |
JP (1) | JP5900367B2 (ja) |
CN (1) | CN103970826B (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598986B (zh) * | 2015-10-16 | 2020-11-27 | 北京国双科技有限公司 | 相似度计算的方法及装置 |
US10037365B2 (en) * | 2016-01-29 | 2018-07-31 | Integral Search International Ltd. | Computer-implemented patent searching method in connection to matching degree |
US9892789B1 (en) | 2017-01-16 | 2018-02-13 | International Business Machines Corporation | Content addressable memory with match hit quality indication |
US10303681B2 (en) * | 2017-05-19 | 2019-05-28 | Microsoft Technology Licensing, Llc | Search query and job title proximity computation via word embedding |
JP2018197926A (ja) * | 2017-05-23 | 2018-12-13 | 株式会社オーエス | ソフトウェア及び薬歴作成支援装置 |
CN107958039A (zh) * | 2017-11-21 | 2018-04-24 | 北京百度网讯科技有限公司 | 一种检索词纠错方法、装置及服务器 |
JP7180132B2 (ja) | 2018-06-12 | 2022-11-30 | 富士通株式会社 | 処理プログラム、処理方法および情報処理装置 |
US20230267155A1 (en) * | 2022-02-23 | 2023-08-24 | The Knot Worldwide Inc. | Matching online accounts with overlapping characteristics based on non-homogenous data types |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2669601B2 (ja) * | 1994-11-22 | 1997-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 情報検索方法及びシステム |
JP3715672B2 (ja) | 1995-03-01 | 2005-11-09 | キヤノン株式会社 | テキスト検索方法及び装置 |
JP2000067070A (ja) * | 1998-08-24 | 2000-03-03 | Matsushita Electric Ind Co Ltd | 情報検索方法、検索ファイル作成方法及び情報検索装置 |
JP4342753B2 (ja) * | 2001-08-10 | 2009-10-14 | 株式会社リコー | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
JP2006106889A (ja) * | 2004-09-30 | 2006-04-20 | Casio Comput Co Ltd | 情報表示制御装置及びプログラム |
JP5004868B2 (ja) * | 2008-05-20 | 2012-08-22 | キヤノン株式会社 | 情報処理装置及びその制御方法、並びにプログラム |
JP5594134B2 (ja) * | 2010-12-28 | 2014-09-24 | 富士通株式会社 | 文字列検索装置,文字列検索方法および文字列検索プログラム |
JP5699743B2 (ja) * | 2011-03-30 | 2015-04-15 | カシオ計算機株式会社 | 検索方法、検索装置、ならびに、コンピュータプログラム |
-
2013
- 2013-01-30 JP JP2013016199A patent/JP5900367B2/ja active Active
- 2013-12-20 US US14/137,319 patent/US9292508B2/en active Active
-
2014
- 2014-01-29 CN CN201410044001.6A patent/CN103970826B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US20140214808A1 (en) | 2014-07-31 |
CN103970826B (zh) | 2017-09-01 |
CN103970826A (zh) | 2014-08-06 |
US9292508B2 (en) | 2016-03-22 |
JP2014146301A (ja) | 2014-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5900367B2 (ja) | 検索装置、検索方法及びプログラム | |
JP5010885B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
US8996571B2 (en) | Text search apparatus and text search method | |
JP2003281186A (ja) | 類似性判断のための例題ベース検索方法及び検索システム | |
JP5737079B2 (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP2009193219A (ja) | インデックス作成装置、その方法、プログラム及び記録媒体 | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
JP2009199302A (ja) | ドキュメントを解析するためのプログラム,装置および方法 | |
US11645312B2 (en) | Attribute extraction apparatus and attribute extraction method | |
JP7324058B2 (ja) | 文章解析方法、文章解析プログラム、および文章解析システム | |
JP2011159078A (ja) | 情報処理装置、判定プログラム及び判定方法 | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2008225846A (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
JP5733285B2 (ja) | 検索装置、検索方法及びプログラム | |
US20130110499A1 (en) | Information processing device, information processing method and information recording medium | |
CN110909532B (zh) | 用户名称匹配方法、装置、计算机设备和存储介质 | |
JP6447549B2 (ja) | テキスト検索装置、テキスト検索方法及びプログラム | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム | |
CN112380873B (zh) | 一种规范文书中被选中项确定方法及装置 | |
CN112084777B (zh) | 一种实体链接方法 | |
TWI703453B (zh) | 建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法 | |
JP2000339342A (ja) | 文書検索方法および文書検索装置 | |
WO2017126057A1 (ja) | 情報検索方法 | |
JP2021009591A (ja) | データ取得装置、データ取得方法、およびデータ取得プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5900367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |