JP2012128604A5 - 情報処理装置、情報処理装置の制御方法、及びコンピュータプログラム - Google Patents

情報処理装置、情報処理装置の制御方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP2012128604A5
JP2012128604A5 JP2010278635A JP2010278635A JP2012128604A5 JP 2012128604 A5 JP2012128604 A5 JP 2012128604A5 JP 2010278635 A JP2010278635 A JP 2010278635A JP 2010278635 A JP2010278635 A JP 2010278635A JP 2012128604 A5 JP2012128604 A5 JP 2012128604A5
Authority
JP
Japan
Prior art keywords
character string
data
node
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010278635A
Other languages
English (en)
Other versions
JP5522017B2 (ja
JP2012128604A (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2010278635A priority Critical patent/JP5522017B2/ja
Priority claimed from JP2010278635A external-priority patent/JP5522017B2/ja
Publication of JP2012128604A publication Critical patent/JP2012128604A/ja
Publication of JP2012128604A5 publication Critical patent/JP2012128604A5/ja
Application granted granted Critical
Publication of JP5522017B2 publication Critical patent/JP5522017B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は上記の課題を解決するためになされたものであり、検索対象とするキーワードに一致する文字列を検索するにあたり、当該文字列の検索の方法に依らずに、高速な検索を行うことを可能とする技術を提供することを目的とする。
上記した目的を達成するために、本発明の情報処理装置は、トライ構造の節点に対し文字列の検索に用いるデータを管理する情報処理装置であって、第1の文字列に含まれるN‐gramのデータが到達可能な節点を前記トライ構造のデータへ追加する追加手段と、前記追加手段によって追加された節点及び前記節点に到達可能とする前記N‐gramのデータを対応づけてインデックス情報を生成する生成手段と、前記生成手段によって生成したインデックス情報を用いて求まる検索する文字列のN‐gramのデータが到達可能な節点を用いて、前記検索する文字列を前記トライ構造のデータから検索する検索手段とを備えたことを特徴とする。
上記した目的を達成するために、本発明の情報処理装置の制御方法は、トライ構造の節点に対して文字列の検索に用いるデータを管理する情報処理装置の制御方法であって、前記情報処理装置の追加手段が、第1の文字列に含まれるN‐gramのデータが到達可能な節点を前記トライ構造のデータへ追加する追加工程と、前記情報処理装置の生成手段が、前記追加工程によって追加された節点及び前記節点に到達可能とする前記N‐gramのデータを対応づけてインデックス情報を生成する生成工程と、前記情報処理装置の検索手段が、前記生成工程によって生成したインデックス情報を用いて求まる検索する文字列のN‐gramのデータが到達可能な節点を用いて、前記検索する文字列を前記トライ構造のデータから検索する検索工程と、を実行することを特徴とする。
上記した目的を達成するために、本発明のコンピュータプログラムは、トライ構造の節点に対して文字列の検索に用いるデータを管理する情報処理装置において読取実行可能なプログラムであって、前記情報処理装置を、第1の文字列に含まれるN‐gramのデータが到達可能な節点を前記トライ構造のデータへ追加する追加手段と、前記追加手段によって追加された節点及び前記節点に到達可能とする前記N‐gramのデータを対応づけてインデックス情報を生成する生成手段と、前記生成手段によって生成したインデックス情報を用いて求まる検索する文字列のN‐gramのデータが到達可能な節点を用いて、前記検索する文字列を前記トライ構造のデータから検索する検索手段として機能させることを特徴とする。
本発明によれば、検索対象とするキーワードに一致する文字列を検索するにあたり、トライ構造における検索方法を用いると共に、N-gram構造の特徴をさらに取り込んだ検索方法を用いることで、当該文字列の検索の方法に依らずに、高速な検索を行うことができる、という効果を奏する。

Claims (12)

  1. トライ構造の節点に対して文字列の検索に用いるデータを管理する情報処理装置であって、
    第1の文字列に含まれるN‐gramのデータが到達可能な節点を前記トライ構造のデータへ追加する追加手段と、
    前記追加手段によって追加された節点及び前記節点に到達可能とする前記N‐gramのデータを対応づけてインデックス情報を生成する生成手段と、
    前記生成手段によって生成したインデックス情報を用いて求まる検索する文字列のN‐gramのデータが到達可能な節点を用いて、前記検索する文字列を前記トライ構造のデータから検索する検索手段と
    を備えたことを特徴とする情報処理装置。
  2. 前記検索手段は、前記検索する文字列の先頭が任意の複数文字を示す場合、前記任意の複数文字の次のN‐gramのデータが到達可能な節点を前記インデックス情報から求め、前記次のN‐gramのデータの後に連続する文字を連結した文字が到達可能な節点を、前記インデックス情報から求めた節点を用いて検索することを特徴とする請求項1に記載の情報処理装置。
  3. 前記検索手段は、前記検索する文字列の先頭のN‐gramのデータが通常の文字を示す場合、前記通常の文字を含む連続する文字を連結した文字が到達可能な節点を、前記トライ構造のデータのルートから検索を行うことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記検索手段は、前記検索する文字列の先頭が任意の文字を示す場合、任意の文字の次のN‐gramのデータが到達可能な節点を、前記トライ構造のデータのルートから検索を行うことを特徴とする請求項1乃至の何れか1項に記載の情報処理装置。
  5. 前記検索手段は、前記検索する文字列が到達可能な節点を検索した後、前記文字列の後の文字が任意の複数文字、及び前記任意の複数文字の次の文字が通常の文字の場合、前記通常の文字が到達可能な節点及び前記検索する文字列が到達可能な節点から、検索する文字列を特定することを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
  6. 前記第1の文字列は、文字列の終端を示す終端文字列を含み、前記追加手段は、前記第1の文字列の先頭から前記終端文字に達するまで、前記節点の追加を行うことを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。
  7. 前記検索手段は、前記検索する文字列に終端文字列が含まれる場合、前記終端文字列が到達可能な節点を検索することを特徴とする請求項に記載の情報処理装置。
  8. 前記トライ構造の節点に追加された終端文字列に対応させて、前記第1の文字列を一意に識別する識別情報をデータとして管理し、
    前記検索手段は、前記検索する文字列に終端文字列が含まれる場合、前記終端文字列が到達可能な節点の識別情報に基づいて、第1の文字列を検索することを特徴とする請求項6または7に記載の情報処理装置。
  9. 前記検索手段によって検索した節点を含む文字列を検索結果レコードとして出力する出力手段を備えたことを特徴とする請求項1乃至8の何れか1項に記載の情報処理装置。
  10. 前記トライ構造のデータから削除する文字列の終端文字列が到達可能な場合、前記文字列に対応するデータを前記トライ構造から削除するとともに、前記インデックス情報から前記文字列のN‐gramのデータ及び節点を削除する削除手段を備えたことを特徴とする請求項6乃至9の何れか1項に記載の情報処理装置。
  11. トライ構造の節点に対して文字列の検索に用いるデータを管理する情報処理装置の制御方法であって、
    前記情報処理装置の追加手段が、第1の文字列に含まれるN‐gramのデータが到達可能な節点を前記トライ構造のデータへ追加する追加工程と、
    前記情報処理装置の生成手段が、前記追加工程によって追加された節点及び前記節点に到達可能とする前記N‐gramのデータを対応づけてインデックス情報を生成する生成工程と、
    前記情報処理装置の検索手段が、前記生成工程によって生成したインデックス情報を用いて求まる検索する文字列のN‐gramのデータが到達可能な節点を用いて、前記検索する文字列を前記トライ構造のデータから検索する検索工程と、
    を実行することを特徴とする情報処理装置の制御方法。
  12. トライ構造の節点に対して文字列の検索に用いるデータを管理する情報処理装置において読取実行可能なプログラムであって、
    前記情報処理装置を、
    第1の文字列に含まれるN‐gramのデータが到達可能な節点を前記トライ構造のデータへ追加する追加手段と、
    前記追加手段によって追加された節点及び前記節点に到達可能とする前記N‐gramのデータを対応づけてインデックス情報を生成する生成手段と、
    前記生成手段によって生成したインデックス情報を用いて求まる検索する文字列のN‐gramのデータが到達可能な節点を用いて、前記検索する文字列を前記トライ構造のデータから検索する検索手段と
    して機能させることを特徴とするプログラム。
JP2010278635A 2010-12-14 2010-12-14 情報処理装置、情報処理装置の制御方法、及びコンピュータプログラム Active JP5522017B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010278635A JP5522017B2 (ja) 2010-12-14 2010-12-14 情報処理装置、情報処理装置の制御方法、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010278635A JP5522017B2 (ja) 2010-12-14 2010-12-14 情報処理装置、情報処理装置の制御方法、及びコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2012128604A JP2012128604A (ja) 2012-07-05
JP2012128604A5 true JP2012128604A5 (ja) 2013-04-11
JP5522017B2 JP5522017B2 (ja) 2014-06-18

Family

ID=46645565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010278635A Active JP5522017B2 (ja) 2010-12-14 2010-12-14 情報処理装置、情報処理装置の制御方法、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5522017B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2683870B2 (ja) * 1994-05-23 1997-12-03 日本アイ・ビー・エム株式会社 文字列検索システム及び方法
JP3459053B2 (ja) * 1995-01-12 2003-10-20 株式会社日立製作所 文書検索方法および装置
JPH0916616A (ja) * 1995-06-30 1997-01-17 Toyo Joho Syst:Kk 索引データ生成検索装置
JP3696745B2 (ja) * 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR101245631B1 (ko) * 2008-09-05 2013-03-22 니폰 덴신 덴와 가부시끼가이샤 근사조합장치, 근사조합방법, 프로그램 및 기록매체

Similar Documents

Publication Publication Date Title
CN102768681B (zh) 一种用于搜索输入的推荐系统及方法
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
US8352541B2 (en) Identifying relevant data from unstructured feeds
CN103226591B (zh) 一种支持多关键字快速访问方法和装置
CN104199954A (zh) 一种用于搜索输入的推荐系统及方法
JP2018028905A5 (ja)
JP2014520318A5 (ja)
JP2014153961A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20130159315A1 (en) Methods for prefix indexing
MX360747B (es) Método, dispositivo y terminal para búsqueda de datos.
JP6072922B2 (ja) 文字列検索装置、文字列検索方法および文字列検索プログラム
JP2016167237A5 (ja)
JP5059239B1 (ja) オントロジースキーマーに基づくインスタンス経路の探索方法及び装置
JP2013041599A5 (ja) 画像検索インデックス生成方法、画像検索インデックス生成プログラム及び画像検索インデックス生成装置
CN102902701B (zh) 信息查询系统及方法
JP2012128604A5 (ja) 情報処理装置、情報処理装置の制御方法、及びコンピュータプログラム
CN103530345A (zh) 短文本特征扩展及拟合特征库构建方法、装置
CN105224099A (zh) 一种基于输入法的搜索方法及其系统
CN105608201A (zh) 一种支持多关键词表达式的文本匹配方法
CN102184245B (zh) 一种海量文本数据关键词的快速查找方法
JP5867208B2 (ja) データモデル変換プログラム、データモデル変換方法およびデータモデル変換装置
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
JP6310532B1 (ja) 生成装置、生成方法、及び生成プログラム
JP6753190B2 (ja) 文書検索装置及びプログラム
JP2009175896A (ja) 情報検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体