JP2017526021A - データ検索におけるエラー修正装置及びその方法 - Google Patents
データ検索におけるエラー修正装置及びその方法 Download PDFInfo
- Publication number
- JP2017526021A JP2017526021A JP2016563112A JP2016563112A JP2017526021A JP 2017526021 A JP2017526021 A JP 2017526021A JP 2016563112 A JP2016563112 A JP 2016563112A JP 2016563112 A JP2016563112 A JP 2016563112A JP 2017526021 A JP2017526021 A JP 2017526021A
- Authority
- JP
- Japan
- Prior art keywords
- search
- search keyword
- keyword
- error
- error correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】データ検索におけるエラー修正装置及びその方法を提供する。【解決手段】データ検索におけるエラー修正装置は、すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するように設置されるキーワード統計モジュールと、分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記第1特徴に基づき構築した分類型データ構造に前記検索キーワードを挿入するように設置されるキーワード挿入モジュールと、各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定してキー値対を構成するように設置されるキー値対応モジュールと、前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うエラー修正操作モジュールとを備える。本発明に係る検索キーワードのエラー修正装置は計算量が少なく、計算効率が高い。【選択図】図1
Description
本発明は、データ検索の技術分野に関し、特にデータ検索におけるエラー修正装置及びその方法に関する。
インターネット技術の発展に伴って、ネットワーク情報のデータ量が大きくなり、例えばビデオウェブサイトでの大量のビデオ情報、ウェブサイトフォーラムで大量のユーザーが発布する情報、及びユーザーによる大量の履歴ログが挙げられる。特定の操作目的を達成させるために、多量のデータを含むネットワーク情報からニーズに合わせるデータを検索する必要がある。
従来のデータ検索技術では、検索キーワード(query)に基づき検索を行うことが一般的であり、検索エンジンサーバが入力した検索キーワードに基づき、予め構築したデータインデックスから検索し、次に該インデックスデータをユーザーに表示する。しかしながら、検索キーワードは入力のランダム性や不規則性が原因で、エラーが発生しやすく、エラー検索キーワードを入力すれば、期待される検索結果が検索できなかったり、エラー検索結果が検索されたりすることを招く恐れがある。
検索キーワードの中のエラー検索キーワードを識別するために、従来技術では、通常、すべての検索キーワードを2つずつ比較して、すべての検索キーワードの類似度を2つずつ計算することで、エラー検索キーワード、及びそれに対応した正確な検索キーワードを見つける。このように検索キーワードのエラー修正を行って、検索精度を確保できるが、すべての検索キーワードを2つずつ比較することによる検索キーワードのエラー修正方式は計算量が膨大で、計算効率が低下する。
従って、如何に検索キーワードのエラー修正効率を向上させるかはデータ検索技術において早急に解決しなければならない技術的課題となる。
上記の事情に鑑みて、本発明は検索キーワードに対するエラー修正方式の計算量が小さく、計算効率が高いデータ検索におけるエラー修正装置及びその方法を提供する。
本発明は、
すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するように設定されるキーワード統計モジュールと、
分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記第1特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するように設定されるキーワード挿入モジュールと、
各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した前記の2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するように設定されるキー値対応モジュールと、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うように設定されるエラー修正操作モジュールとを備えるデータ検索用のエラー修正装置を提供する。
すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するように設定されるキーワード統計モジュールと、
分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記第1特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するように設定されるキーワード挿入モジュールと、
各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した前記の2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するように設定されるキー値対応モジュールと、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うように設定されるエラー修正操作モジュールとを備えるデータ検索用のエラー修正装置を提供する。
本発明は、
すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するステップと、
分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記第1特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するステップと、
各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した前記の2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップと、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うステップとを含むデータ検索用のエラー修正方法を更に提供する。
すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するステップと、
分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記第1特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するステップと、
各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した前記の2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップと、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うステップとを含むデータ検索用のエラー修正方法を更に提供する。
以上の技術案から分かるように、本発明は、すべての検索キーワードを統計して、前記検索キーワードの第1特徴に基づき構築した分類型データ構造に前記検索キーワードを挿入し、更に分類型データ構造における各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、この比較結果に基づき、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、両者でキー値対を構成し、該キー値対に基づき、受信した検索キーワードをエラー修正する。従って、本発明によれば、分類型データ構造における各ノードに格納した検索キーワードを2つずつ比較するだけでよく、全ての検索キーワードを2つずつ比較する必要がなく、それによって、検索キーワードに対するエラー修正の計算量を大幅に減少させ、計算効率を向上させる。
一般的なデータ検索技術では、検索キーワード入力のランダム性や不規則性に起因する検索エラーを防止するために、検索キーワードと一定の相関関係を有する用語、例えば同義語又はより標準化された用語を利用して検索キーワードをエラー修正することが一般的である。しかし、検索キーワードのエラー修正を行う前に、予めエラー検索キーワードと、それに対応したエラー修正用検索キーワードとで構成されるキー値対を含むエラー修正ファイルを作成しなければならない。該キー値対を確立するのにすべての検索キーワードを2つずつ比較し、すべての検索キーワードの類似度を2つずつ計算することが必要であり、これほど膨大な計算量によってエラー修正ファイル作成時の計算効率の低下を招く。
本発明はすべての検索キーワードを統計して、前記検索キーワードの第1特徴に基づき、構築した分類型データ構造に前記検索キーワードを挿入し、更にそれぞれ分類型データ構造における各ノードに格納した検索キーワードを2つずつ比較し、比較結果に基づき、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定し、両者でキー値対を構成して、該キー値対に基づき、受信した検索キーワードをエラー修正する。従って、本発明は分類型データ構造における各ノードに格納した検索キーワードを2つずつ比較するだけでよく、全ての検索キーワードを2つずつ比較する必要がなく、それによって、検索キーワードに対するエラー修正の計算量を大幅に減少させ、計算効率を向上させる。
以下、本発明の図面を利用して更に本発明の実施形態を説明する。
図1に示されるように、本発明はコンピュータ、携帯電話、タブレットコンピュータ等の装置に用いるデータ検索におけるエラー修正装置を提供し、前記ハードウェア装置は、通常、CPU、入出力モジュール、メモリー及びほかのハードウェアモジュールを含む。本発明はウェブサイトフォーラムで大量のユーザーが発布する情報、サーバ中のビデオファイル及びユーザーの大量の履歴ログ等の多量のデータ情報を検索することができる。
本発明の装置は、
すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するように設定されるキーワード統計モジュール11と、
分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記検索キーワードの第1特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するように設定されるキーワード挿入モジュール12と、
各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するように設定されるキー値対応モジュール13と、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うように設定されるエラー修正操作モジュール14と、を備える。
すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するように設定されるキーワード統計モジュール11と、
分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記検索キーワードの第1特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するように設定されるキーワード挿入モジュール12と、
各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するように設定されるキー値対応モジュール13と、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うように設定されるエラー修正操作モジュール14と、を備える。
本発明によれば、分類型データ構造における各ノードに格納した検索キーワードを2つずつ比較するだけでよく、すべての検索キーワードを2つずつ比較する必要がなく、それによって、検索キーワードに対するエラー修正の計算量を大幅に減少させ、計算効率を向上させる。
一般的には、キーワードをピン音又は五筆字型入力方法により出力するから、検索キーワード入力のランダム性や不規則性は入力法に起因する場合が多い。前記検索キーワードがエラー検索キーワードであるかエラー修正用検索キーワードであるかを確かめて、検索キーワードのエラー修正を効率よく行うために、前記キーワード統計モジュール11は前記検索キーワードを統計して、前記検索キーワードのピン音又は中国語文字筆画を取得して検索キーワードの第1特徴とする。
本発明の実施形態において、本発明で予め構築した分類型データ構造はトライ木である。
図2に示されるトライ木(Trie木)は、プレフィックス木とも呼ばれ、木構造であって、ハッシュ木の変形であり、代表的に大量のストリング(ストリングに限定されない)の統計、並べ替え及び保存に用いるため、検索エンジンシステムにおいて単語頻度統計に用いる場合が多く、ストリングの共通のプレフィックスを利用してクエリ時間を削減させ、できるだけ無用なストリング比較を減少させ、それによってクエリ効率がハッシュマップより高くなるという利点を有する。図2では、ルートノードにキャラクターが格納されず、前記トライ木の各子ノードのそれぞれにストリングにおける一つのキャラクターが順次格納されており、トライ木に格納したストリングはab、abc、bd、ddaであり、ストリングの末端に黒色をもって該ストリングの終了を示す。
本発明の一実施例では、トライ木の各ノードで、N個の検索キーワードが格納できる、即ちサイズがN(例えば、N=100)である検索キーワードテーブルが作成されている。本発明に係るキーワード挿入モジュール12は前記検索キーワードをピン音又は中国語文字筆画に基づきトライ木に挿入する。
本発明の一実施例では、ピン音に基づき検索キーワードをトライ木中の特定ノードに対応した検索キーワードテーブルに挿入することを例にして説明する。
本発明の一実施形態において、先ず、任意の検索キーワード中の各キャラクターのピン音先頭文字をキャラクターの順序に応じて配列し、勿論、検索キーワードが比較的長い場合は、予め設定された長さ(例えば、最初の4つ)を有する一部の検索キーワード中の各キャラクターのピン音先頭文字をキャラクターの順序に応じて配列してもよく、次に、前記ピン音先頭文字を配列順序に応じて同一の子木中のレベルが高くなるノードに配置し、例えば、第1キャラクターのピン音先頭文字をルートノードの子ノードに配置して、第2キャラクターのピン音先頭文字を第1キャラクターのピン音先頭文字が配置されたノードの子ノードに配置し、このようにして配置を行い、それによって、上記配置が終了した後、前記検索キーワード(又は予め設定された長さを有する一部の検索キーワード)の、順に配列しているキャラクターのピン音先頭文字は同一の子木のルートノードからレベルごとに後続のノードまでトラバーサルすることによって取得することができ、更に、前記検索キーワードを上記のようにトラバーサルした最後のノードに挿入する。例えば、図3に示されるように、本発明で統計して得た検索キーワードは、「婚里婚外那些事児」、「婚礼婚外那些事児」、「環里環外那些事児」、「婚礼」、「婚里」、「狄仁傑」、「敵人姐」、「低熱界」であり、上記検索キーワードを獲得するためのピン音は、それぞれ「hunlihunwainaxieshier」、「hunlihunwainaxieshier」、「huanlihuanwainaxieshier」、「hunli」、「hunli」、「direnjie」、「direnjie」、「direjie」になる。具体的には、本発明では、1)検索キーワードの「婚里婚外那些事児」について最初の四つの文字のそれぞれのピン音先頭文字を「h」、「l」、「h」、「w」の順序に応じて配列し、2)各キャラクターのピン音先頭文字「h」、「l」、「h」、「w」を同一の子木の対応したノートに順次配置し、つまり、ピン音文字「h」をルートノードの子ノード、ピン音文字「l」をピン音文字「h」が配置されたノードの子ノード、ピン音文字「h」をピン音文字「l」が配置されたノードの子ノード、ピン音文字「w」をピン音文字「h」が配置されたノードの子ノードに配置し、3)検索キーワードの「婚里婚外那些事児」をピン音文字「w」が配置されたノードに挿入するように、ピン音に基づき検索キーワードの「婚里婚外那些事児」をトライ木に挿入する。このようなステップによって、検索キーワードの「婚礼婚外那些事児」、「環里環外那些事児」、「婚礼」、「婚里」、「狄仁傑」、「敵人姐」、「低熱界」をトライ木中の対応したノードに対応した検索キーワードテーブルに挿入する。上記記載から明らかなように、検索キーワードの「婚里婚外那些事児」、「婚礼婚外那些事児」及び「環里環外那些事児」は同一ノードに挿入され、検索キーワードの「婚礼」、「婚里」は同一ノードに挿入され、検索キーワードの「狄仁傑」、「敵人姐」、「低熱界」は同一ノードに挿入される。それぞれ「婚里婚外那些事児」、「婚礼婚外那些事児」及び「環里環外那些事児」を2つずつ比較し(3回)、「婚礼」、「婚里」を2つずつ比較し(1回)、「狄仁傑」、「敵人姐」、「低熱界」を2つずつ比較する(3回)。従来技術のように、「婚里婚外那些事児」、「婚礼婚外那些事児」、「環里環外那些事児」、「婚礼」、「婚里」、「狄仁傑」、「敵人姐」、「低熱界」の全てを2つずつ比較せずに済んで(56回)、それによって、検索キーワードに対するエラー修正の計算量を大幅に減少させ、計算効率を大幅に向上させる。
上記実施例では、複数の子木を含むトライ木が作成されており、子木のそれぞれにおける各子ノート(下位ノード)が同一親ノード(下位ノード)を共用し、同一親ノードの子ノードがそれぞれ異なり、末端で黒色をもって該ストリングの終了を示し、各子ノードに対応した検索キーワードテーブル中の検索ワードのピン音頭文字から構成されるストリング中の各文字は順序に応じてトライ木の対応した枝の各ノードに格納されている。
筆画に基づき検索キーワードをトライ木に挿入する場合は、ピン音に基づき検索キーワードをトライ木に挿入する場合と類似し、例えば、検索キーワードにおける各文字の最初の筆画を第1特徴として、設定された筆画の順序に応じてトライ木を作成する。そのため、ここで詳細な説明を省略する。
勿論、本発明はトライ木以外の分類型データ構造、例えば二分探索木、三分探索木、リンクリスト等を使用して実現することもでき、本発明では、これについて限定がない。更に、当業者はピン音に基づき検索キーワードをトライ木に挿入する操作を使用して、前記検索キーワードを前記検索キーワードのピン音又は中国語文字筆画に基づき二分探索木、三分探索木、リンクリスト等のほかの分類型データ構造に挿入することができる。
更に、本発明に係る前記キーワード統計モジュール11は、更に前記検索キーワードの検索履歴を取得することに用いる。具体的には、前記検索履歴は検索回数及び/又は既存のキー値対(既存のエラー修正ファイルに格納したキー値対)においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を含む。
前記キーワード挿入モジュール12は、前記検索キーワードの第1特徴及び検索履歴に基づき前記検索キーワードを前記分類型データ構造に挿入する。
本発明の好ましい実施例では、検索回数に基づき前記検索キーワードを並べ替え、次に順序に応じて、第1特徴に基づき前記検索キーワードをトライ木に挿入する。検索キーワードは検索回数が多いほど、エラー修正用検索キーワードとする確率が高い。更に、トライ木の各ノードで作成する検索キーワードテーブルのサイズはNであるため、検索回数に基づき検索キーワードを並べ替えた後、第1特徴に基づきトライ木に挿入することにより、検索回数が多い検索キーワードは先に挿入され、検索回数が少ない検索キーワードは後に挿入され或いは挿入できなくなる。従って、本実施例で作成するトライ木は、検索効率が更に高く、エラー修正の計算量を減少させ、エラー修正効果を向上させる。
同様に、前記検索キーワードの、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を参照して、既存のキー値対においてエラー修正用検索キーワードとして使用される検索キーワードを先にトライ木に挿入することによっても、作成するトライ木は検索効率が更に高く、エラー修正の計算量を減少させ、エラー修正効果を向上させることを確保できる。
図4に示されるように、本発明の一例示的な実施形態では、前記キー値対応モジュール13は、
各ノードに格納した検索キーワードの類似度を2つずつ計算して、類似度が第1所定閾値未満の2つのキーワードを第1キーワード対として設定する類似度計算サブモジュール131と、
前記検索キーワードの検索履歴に基づき、前記第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するキー値確定サブモジュール132とを備える。
各ノードに格納した検索キーワードの類似度を2つずつ計算して、類似度が第1所定閾値未満の2つのキーワードを第1キーワード対として設定する類似度計算サブモジュール131と、
前記検索キーワードの検索履歴に基づき、前記第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するキー値確定サブモジュール132とを備える。
本発明に係る類似度計算サブモジュール131で取得した第1キーワード対の類似度が第1所定閾値未満である場合は、第1キーワード対の二つの検索キーワードのうち、一方の検索キーワードが入力のランダム性や不規則性に起因するエラー検索キーワードである可能性があることを示す。従って、キー値確定サブモジュール132を使用して検索履歴と組み合わせて、第1キーワード対の2つの検索キーワードのうち、どの検索キーワードがエラー検索キーワードであるか、どの検索キーワードがエラー修正用検索キーワードであるかを確定する。前記第1所定閾値は当業者によってニーズや経験に応じて設定される。
具体的には、前記各ノードに格納した検索キーワードの2つずつの類似度(類似程度)の計算は編集距離を使用して実行することができる。編集距離(Edit Distance)は、Levenshtein距離とも呼ばれ、2つのストリング間で一方を他方に変換するのに必要な最少編集操作回数を意味する。許容される編集操作は、一つのキャラクターから他のキャラクターへの変換、一つのキャラクターの挿入、一つのキャラクターの削除を含む。検索キーワードq1と検索キーワードq2の類似度Sを計算する場合は、
S=D/L(但し、Dは検索キーワードq1と検索キーワードq2の編集距離、Lは検索キーワードq1と検索キーワードq2の最大距離(検索キーワードの最大文字数)を示す)である。
S=D/L(但し、Dは検索キーワードq1と検索キーワードq2の編集距離、Lは検索キーワードq1と検索キーワードq2の最大距離(検索キーワードの最大文字数)を示す)である。
例えば、検索キーワードの「婚礼婚外那些事」と検索キーワードの「婚里婚外那些事」の編集距離が1であり、つまり「礼」を「里」にするように一回変換する。検索キーワードの「婚礼婚外那些事」と検索キーワードの「婚里婚外那些事」の最大距離は7であり、この場合、検索キーワードの「婚礼婚外那些事」と検索キーワードの「婚里婚外那些事」の類似度は1/7になる。
ここで、検索キーワードq1と検索キーワードq2の編集距離は2つの検索キーワードのキャラクター同士の変換回数であり、勿論、2つの検索キーワードのピン音同士の変換回数を考慮に入れてもよく、例えば「direnjie」と「direjie」の編集距離が1である。好ましくは、検索キーワードq1と検索キーワードq2のキャラクターの編集距離に一つの重み付け値を乗じた積と、検索キーワードq1と検索キーワードq2のピン音編集距離に他の重み付け値を乗じた積とを加算して、検索キーワードq1と検索キーワードq2の編集距離とする。前記重み付け値は当業者によってシステムのニーズに応じて設定される。
なお、本発明の実施形態では、予め記憶した正確な検索キーワードを格納するための正確な検索キーワードのデータベースが更に含まれる。例えば、前記第1キーワード対の一方の検索キーワードが前記の正確な検索キーワードのデータベースにおける正確な検索キーワードである場合は、該検索キーワードをエラー修正用検索キーワード、他方の検索キーワードをエラー検索キーワードとして確定する。例えば、前記第1キーワード対のいずれの検索キーワードも前記の正確な検索キーワードのデータベースにおける正確な検索キーワードではない場合は、更にキー値確定サブモジュール132を使用して検索履歴と組み合わせて、第1キーワード対の2つの検索キーワードのうち、どの検索キーワードがエラー検索キーワードであるか、どの検索キーワードがエラー修正用検索キーワードであるかを確定する。
更に、前記キー値確定サブモジュール132は、検索回数及び/又は既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴に基づき、第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定する。例えば、前記キー値確定サブモジュール132は、第1キーワード対の2つの検索キーワードの検索回数を比較し、検索回数が少ない検索キーワードの検索回数/検索回数が多い検索キーワードの検索回数として両者の検索比を取得する。前記検索比が第3所定閾値未満であれば、検索回数が少ない搜素キーワードはエラー検索キーワード、検索回数が多い検索キーワードはエラー修正用検索キーワードである。前記第3所定閾値は当業者によってニーズや経験に応じて設定される。また、例えば、前記キー値確定サブモジュール132は、第1キーワード対の2つの検索キーワードの、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を参照して、一方の検索キーワードが既存のキー値対においてエラー検索キーワードとして使用されれば、この検索キーワードはエラー検索キーワード、他方の検索キーワードはエラー修正用検索キーワードとして確定する。
本発明では、単独に検索回数、又は、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴に基づき、第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定する。本発明では、検索回数と、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴との組み合わせに基づき、第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを総合的に確定することもできる。例えば、先ず、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴に基づき、第1キーワード対の一方の検索キーワードをエラー検索キーワード、他方の検索キーワードをエラー修正用検索キーワードとし、次に、第3所定閾値を極めて小さな値に設定し、検索回数が少ない検索キーワードの検索回数/検索回数が多い検索キーワードの検索回数が該第3所定閾値未満である時に、元にエラーとして設定した検索キーワードを、エラー修正用として設定した検索キーワードに変え、元にエラー修正用として設定した検索キーワードを、エラー検索キーワードに変える。このようにして、単独に検索回数又は従来のキー値を考慮に入れることに起因する誤判断を回避して、第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定する精度を向上させる。
更に、本発明に係るキー値確定サブモジュール132は、前記検索キーワードの検索履歴に基づき、前記第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定した後に、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとのエラー度(差異度)を計算する。前記エラー度が第2所定閾値より大きい場合に、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成する。前記第2所定閾値は当業者によってニーズ及び経験に応じて設定される。
エラー検索キーワードと、それに対応したエラー修正用検索キーワードとのエラー度は、具体的に、対応したエラー修正用検索キーワードに対するエラー検索キーワードのエラー確率である。対応したエラー修正用検索キーワードに対するエラー検索キーワードのエラー度と、エラー検索キーワードとそれに対応したエラー修正用検索キーワードとの類似度とが比例し、即ち、類似度が高いほど、エラー度が高い。
例えば、エラー検索キーワード=「婚礼婚外那些事」、エラー修正用検索キーワード=「婚里婚外那些事」では、2つの検索キーワードは類似度が非常に高いため、エラー度が高い(注釈:「婚里婚外那些事」はドラマの名前である)。
また、エラー検索キーワードが「婚礼」、エラー修正用検索キーワードが「婚里婚外那些事」である場合は、2つの検索キーワードは類似度が非常に低いため、エラー度が極めて低い。「婚礼」も語彙であり、エラー検索キーワードとして識別できないことが明らかであり、「婚礼」は「婚里婚外那些事」とキー値対を構成することができない。
更に、対応したエラー修正用検索キーワードに対するエラー検索キーワードのエラー度と、エラー検索キーワードとそれに対応したエラー修正用検索キーワードとの検索比とが反比例し、即ち、検索比が高いほど、エラー度が低い。
例えば、エラー検索キーワードが「天下第一丑」で、9000回検索され、エラー修正用検索キーワードが「天下第一刀」で、10000回検索される場合は、両方の検索比は0.9と高い。この場合は、対応したエラー修正用検索キーワードに対するエラー検索キーワードのエラー度が低いとするため、「天下第一丑」と「天下第一刀」はキー値対にしてはならない。実際には、「天下第一丑」と「天下第一刀」はそれぞれドラムの名前とバラエティ番組の名前である。
また、例えば、エラー検索キーワードが「狄人傑」で、100回検索され、エラー修正用検索キーワードが「狄仁傑」で、10000回検索される場合は、両者の検索比は0.01である。この場合は、対応したエラー修正用検索キーワードに対するエラー検索キーワードのエラー度が非常に高く、「狄人傑」と「狄仁傑」をキー値対にすべきである。
上記の原因によって、前記エラー度は類似度と比例して、検索比と反比例する。具体的には、その式として、エラー度=類似度k*(1−検索比)とすることができ、ここで、kは類似度の重みを示し、k=1は、類似度と検索比の重視度が同じであることを示し、k>1は類似度を重視することを示し、k<1は検索比を重視することを示す。
前記エラー度の計算式としても、エラー度=類似度k/検索比とすることができ、但し、前記エラー度は類似度と比例して、検索比と反比例するだけでよい。
各ノード中のキー値対のうちの一つのキー値対のエラー修正用検索キーワードが他のキー値対のエラー検索キーワードであれば、このキー値対のエラー検索キーワードは本質的にエラー修正を必要としない検索キーワードであることを示す。従って、本発明は、すべてのキー値対から、エラー修正用検索キーワードが他のキー値対のエラー検索キーワードであるキー値対をフィルタリングして、残ったキー値対を格納するフィルタリング処理モジュールを更に備える。
具体的には、本発明に係るエラー修正操作モジュール14は、メモリーにキー値対で構成されるエラー修正ファイルをロードして、ハッシュマップ(hashmap)を構成して、キー(key)をエラー検索キーワード、値(value)をエラー修正用検索キーワードとして設定し、入力した検索キーワードを判別し、ハッシュマップに入力した検索キーワードと同様なキーが存在すれば、入力した検索キーワードに対して直接エラー修正を行い、キーに対応した値をエラー修正後の検索キーワードとし、エラー修正後の検索キーワードに基づきデータ検索を行って、対応した検索結果を取得する。
本発明の装置に対応して、本発明は更にデータ検索におけるエラー修正方法を提供し、図5に示されるように、前記方法は、
すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するステップS1と、
分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記検索キーワードの第1特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するステップS2と、
各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した前記の2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップS3と、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うステップS4とを含む。
すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するステップS1と、
分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記検索キーワードの第1特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するステップS2と、
各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した前記の2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップS3と、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うステップS4とを含む。
本発明によれば、分類型データ構造における各ノードに格納した検索キーワードを2つずつ比較するだけでよく、すべての検索キーワードを2つずつ比較する必要がなく、それによって、検索キーワードに対するエラー修正の計算量を大幅に減少させ、計算効率を向上させる。
一般的にはキーワードをピン音又は五筆字型入力方法により入力するから、検索キーワード入力のランダム性や不規則性は入力法に起因する場合が多い。前記検索キーワードがエラー検索キーワードであるか、エラー修正用検索キーワードであるかを確かめて、検索キーワードに対してエラー修正を効率よく行うために、前記検索キーワードを統計して、前記検索キーワードのピン音又は中国語文字筆画を取得して検索キーワードの第1特徴とする。
本発明の実施形態では、本発明で作成した分類型データ構造はトライ木である。トライ木を構成した後、トライ木の各ノードで、N個の検索キーワードを格納できる、即ちサイズがN(例えばN=100)である検索キーワードテーブルを構成する。
前記ステップS1では、さらに前記検索キーワードの検索履歴を取得する。具体的には、前記検索履歴は、検索回数及び/又は既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を含む。
前記ステップS2では、前記検索キーワードの第1特徴及び検索履歴に基づき前記検索キーワードを前記分類型データ構造に挿入する。
本発明の好ましい実施例では、検索回数に基づき前記検索キーワードを並べ替え、次に当該順序に応じて前記検索キーワードをトライ木に挿入する。検索キーワードは検索回数が多いほど、エラー修正用検索キーワードとする確率が高く、更に、トライ木の各ノードで作成した検索キーワードテーブルのサイズがNに固定されたため、検索回数に基づき検索キーワードを並べ替えた後に、トライ木に挿入することによって、検索回数が多い検索キーワードが先に挿入され、検索回数が少ない検索キーワードが後に挿入され或いは挿入できないことが確保できる。従って、本実施例で作成したトライ木は、検索効率が更に高く、エラー修正の計算量を減少させ、エラー修正効果を向上させる。
同様に、前記検索キーワードの、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を参照して、既存のキー値対においてエラー修正用検索キーワードとして使用される検索キーワードを先にトライ木に挿入することによっても、作成したトライ木は検索効率が更に高く、エラー修正の計算量を減少させ、エラー修正効果を向上させる。
図6に示されるように、前記ステップS3は、
各ノードに格納した検索キーワードの類似度を2つずつ計算して、類似度が第1所定閾値未満の2つのキーワードを第1キーワード対として設定するステップS31と、
前記検索キーワードの検索履歴に基づき、前記第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップS32とを含む。
各ノードに格納した検索キーワードの類似度を2つずつ計算して、類似度が第1所定閾値未満の2つのキーワードを第1キーワード対として設定するステップS31と、
前記検索キーワードの検索履歴に基づき、前記第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップS32とを含む。
本発明のステップS31で取得した第1キーワード対の類似度が第1所定閾値未満であれば、第1キーワード対の2つの検索キーワードののうち、一方の検索キーワードが、入力のランダム性や不規則性に起因するエラー検索キーワードである可能性があることを示す。従って、ステップS2では、検索履歴と組み合わせて第1キーワード対の2つの検索キーワードのうち、どの検索キーワードがエラー検索キーワードであるか、どの検索キーワードがエラー修正用検索キーワードであることを確定する。前記第1所定閾値は当業者によってニーズ及び経験に応じて設定される。
更に、検索回数及び/又は既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴に基づき、第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定する。例えば、第1キーワード対の2つの検索キーワードの検索回数を比較して、検索回数が少ない検索キーワードの検索回数/検索回数が多い検索キーワードの検索回数として両者の検索比を取得する。前記検索比が第3所定閾値未満であれば、この検索キーワードはエラー検索キーワード、他方の検索キーワードはエラー修正用検索キーワードである。前記第3所定閾値は当業者によってニーズ及び経験に応じて設定される。また、例えば、第1キーワード対の2つの検索キーワードの、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を参照して、一方の検索キーワードが既存のキー値対においてエラー検索キーワードとして使用される場合は、この検索キーワードをエラー検索キーワード、他方の検索キーワードをエラー修正用検索キーワードとして確定する。
本発明は、前記検索キーワードの検索履歴に基づき、前記第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定した後に、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとののエラー度(類似度)を計算する必要がある。前記エラー度が第2所定閾値より大きい場合のみ、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成する。前記第2所定閾値は当業者によってニーズ及び経験に応じて設定される。
本発明に係る方法は、すべてのキー値対から、エラー修正用検索キーワードが他のキー値対のエラー検索キーワードであるキー値対をフィルタリングして、残ったキー値対を格納するステップを更に含む。
各ノード中のキー値対のうちの一つのキー値対のエラー修正用検索キーワードが他のキー値対のエラー検索キーワードである場合は、このキー値対のエラー検索キーワードは本質的にエラー修正を必要としない検索キーワードであることを示す。
具体的には、本発明のステップS4では、メモリーにキー値対で構成されるエラー修正ファイルをロードして、ハッシュマップ(hashmap)を構成して、キー(key)をエラー検索キーワード、値(value)をエラー修正用検索キーワードとして設定し、入力した検索キーワードを判別し、ハッシュマップに入力した検索キーワードと同様なキーが存在すれば、入力した検索キーワードに対して直接エラー修正を行って、キーに対応した値をエラー修正後の検索キーワードとし、エラー修正後の検索キーワードに基づきデータ検索を行って、対応した検索結果を取得する。
以下、一実施形態を参照して更に本発明の原理を説明する。
すべての検索キーワードのピン音及び検索回数を統計して、26個のノードを持つトライ木を作成し、検索回数に基づきすべての検索キーワードを並べ替えた後に、ピン音に基づき該トライ木に挿入する。該トライ木の各ノードの検索キーワードテーブルのサイズは100で、即ち、各ノードに100個の検索キーワードが格納できる。
各ノードに格納した検索キーワードの類似度を2つずつ計算して、類似度が第1所定閾値未満の2つのキーワードを第1キーワード対として設定する。
前記検索キーワードの検索回数を比較し、検索回数が少ない検索キーワードの検索回数/検索回数が多い検索キーワードの検索回数として両者の検索比を取得する。前記検索比が第3所定閾値未満であれば、検索回数が少ない検索キーワードはエラー検索キーワード、他方の検索キーワードはエラー修正用検索キーワードである。
前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとのエラー度を計算する。前記エラー度が第2所定閾値より大きい場合は、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成する。
すべてのキー値対から、エラー修正用検索キーワードが他のキー値対のエラー検索キーワードであるキー値対をフィルタリングして、残ったキー値対を格納する。
従って、本発明によれば、従来技術のように、26*100個の検索キーワードを2つずつ比較し、すべての検索キーワードの類似度を2つずつ計算する必要がなく、それぞれ26個のノードのそれぞれに格納した100個の検索キーワードを2つずつ比較し、すべてのエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを見つけてキー値対を構成するだけでよい。本発明では、検索キーワードに対するエラー修正の計算量を減少させ、計算効率を向上させる。
本発明では、メモリーに取得したキー値対で構成されるエラー修正ファイルをロードして、ハッシュマップ(hashmap)を構成して、キー(key)をエラー検索キーワード、値(value)をエラー修正用検索キーワードとして設定し、入力した検索キーワードを判別し、ハッシュマップに入力した検索キーワードと同様なキーが存在すれば、入力した検索キーワードに対して直接エラー修正を行い、キーに対応した値をエラー修正後の検索キーワードとし、エラー修正後の検索キーワードに基づきデータ検索を行って、対応した検索結果を取得する。
本発明に係る方法は、コンピュータ、携帯電話、タブレットコンピュータ等の装置に適用でき、前記ハードウェア装置としては、通常、CPU、入出力モジュール、メモリー及びほかのハードウェアモジュールを含む。当業者にとっては、上記方法を実現する実施例の全部又は一部のステップをCPUによってプログラムによって関連ハードウェアに命令を出して行うことができ、上記プログラムは、ROM、RAM、磁気ディスク又はコンパクトディスク等のプロクラムコードを記憶可能な各種媒体を含む、コンピュータの読み取り可能な記憶媒体に記憶されてもよい。該プログラムは実行時に、上記方法の実施例のステップを実行する。
なお、以上の各実施例は本発明の技術案を説明するものに過ぎず、限定するものではない。上記の各実施例を参照して本発明を詳細に説明したが、当業者にとっては、上記の各実施例に記載の技術案に対して変更したり、それらの一部の又は全部の技術的特徴等を同等置換したりすることができることが明らかなことであり、これらの変更や置換によって、対応した技術案が本発明の各実施例における技術案の趣旨の範囲を脱逸することがない。
Claims (13)
- データ検索におけるエラー修正装置であって、
すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するように設置されるキーワード統計モジュールと、
分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記第1特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するように設置されるキーワード挿入モジュールと、
各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとで、キー値対を構成するように設置されるキー値対応モジュールと、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うように設置されるエラー修正操作モジュールと、
を備えることを特徴とするデータ検索におけるエラー修正装置。 - 前記キーワード統計モジュールは、更に、前記検索キーワードの、検索回数及び/又は既存のキー値においてエラー検索キーワードおよびエラー修正用の検索キーワードとして使用される履歴を含む検索履歴を取得するように設置され、
前記キーワード挿入モジュールは、前記検索キーワードの第1特徴及び検索履歴に基づき、前記検索キーワードを前記分類型データ構造に挿入することを特徴とする請求項1に記載の装置。 - 前記分類型データ構造はトライ木であることを特徴とする請求項1又は2に記載の装置。
- 前記キー値対応モジュールは、
各ノードに格納した検索キーワードの類似度を2つずつ計算して、類似度が第1所定閾値未満の2つのキーワードを第1キーワード対として設定するように設置される類似度計算サブモジュールと、
前記検索キーワードの検索履歴に基づき、前記第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するように設置されるキー値確定サブモジュールと、
を備えることを特徴とする請求項3に記載の装置。 - 前記キー値確定サブモジュールは、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとのエラー度を計算し、前記エラー度が第2所定閾値より大きい場合に、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成することを特徴とする請求項4に記載の装置。
- すべてのキー値対から、エラー修正用検索キーワードが他のキー値対におけるエラー検索キーワードであるキー値対をフィルタリングして、残ったキー値対を格納するように設置されるフィルタリング処理モジュールを更に備える、ことを特徴とする請求項1に記載の装置。
- データ検索におけるエラー修正方法であって、
すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するステップと、
分類型データ構造の各ノードにN個(1以上の自然数)の検索キーワードを格納し、前記第1特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するステップと、
各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップと、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うステップと、
を含むことを特徴とするデータ検索におけるエラー修正方法。 - 前記すべての検索キーワードを統計して、前記検索キーワードの第1特徴を取得するステップは、前記検索キーワードの、検索回数及び/又は既存のキー値においてエラー検索キーワードおよびエラー修正用の検索キーワードとして使用される履歴を含む検索履歴を取得するステップを含み、
前記検索キーワードの第1特徴に基づき前記検索キーワードを前記分類型データ構造に挿入するする前記ステップは、前記検索キーワードの第1特徴及び検索履歴に基づき前記検索キーワードを前記分類型データ構造に挿入することであることを特徴とする請求項7に記載の方法。 - 前記分類型データ構造はトライ木であることを特徴とする請求項7又は8に記載の方法。
- 各ノードに格納した検索キーワードをそれぞれ2つずつ比較し、その比較結果に基づき、比較した2つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成する前記ステップは、
各ノードに格納した検索キーワードの類似度を2つずつ計算して、類似度が第1所定閾値未満の2つのキーワードを第1キーワード対として設定するステップと、
前記検索キーワードの検索履歴に基づき、前記第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップとを含むことを特徴とする請求項9に記載の方法。 - 前記検索キーワードの検索履歴に基づき、前記第1キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成する前記ステップは、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとのエラー度を計算し、前記エラー度が第2所定閾値より大きい場合に、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップを更に含むことを特徴とする請求項10に記載の方法。
- すべてのキー値対から、エラー修正用検索キーワードが他のキー値対におけるエラー検索キーワードであるキー値対をフィルタリングして、残ったキー値対を格納するステップを更に含むことを特徴とする請求項7に記載の方法。
- 請求項1〜6のいずれか1項に記載の装置を備える電子機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410447009.7 | 2014-09-03 | ||
CN201410447009.7A CN104268157A (zh) | 2014-09-03 | 2014-09-03 | 一种数据搜索中的纠错装置及其方法 |
PCT/CN2015/087971 WO2016034052A1 (zh) | 2014-09-03 | 2015-08-25 | 一种数据搜索中的纠错装置及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017526021A true JP2017526021A (ja) | 2017-09-07 |
Family
ID=52159679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016563112A Pending JP2017526021A (ja) | 2014-09-03 | 2015-08-25 | データ検索におけるエラー修正装置及びその方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP3179383A4 (ja) |
JP (1) | JP2017526021A (ja) |
CN (1) | CN104268157A (ja) |
WO (1) | WO2016034052A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268157A (zh) * | 2014-09-03 | 2015-01-07 | 乐视网信息技术(北京)股份有限公司 | 一种数据搜索中的纠错装置及其方法 |
CN104951508B (zh) * | 2015-05-21 | 2017-11-21 | 腾讯科技(深圳)有限公司 | 时间信息识别方法和装置 |
CN105955986A (zh) * | 2016-04-18 | 2016-09-21 | 乐视控股(北京)有限公司 | 一种字符的转换方法及装置 |
CN106339418A (zh) * | 2016-08-15 | 2017-01-18 | 乐视控股(北京)有限公司 | 一种分类纠错方法及装置 |
CN106850572B (zh) * | 2016-12-29 | 2020-07-21 | 网宿科技股份有限公司 | 目标资源的访问方法和装置 |
CN110597800A (zh) * | 2018-05-23 | 2019-12-20 | 杭州海康威视数字技术股份有限公司 | 一种注释信息确定、前缀树构建方法及装置 |
CN109522550B (zh) * | 2018-11-08 | 2023-04-07 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
CN109657044A (zh) * | 2018-12-14 | 2019-04-19 | 北京向上心科技有限公司 | 数据检索方法、数据排序方法、装置、终端以及存储介质 |
CN110609859A (zh) * | 2019-09-19 | 2019-12-24 | 惠州市中心人民医院 | 一种基于词组库的智能精准检索方法 |
CN111310473A (zh) * | 2020-02-04 | 2020-06-19 | 四川无声信息技术有限公司 | 文本纠错方法及其模型训练的方法、装置 |
CN111814455B (zh) * | 2020-06-29 | 2022-08-26 | 平安国际智慧城市科技股份有限公司 | 搜索词纠错对构建方法、终端及存储介质 |
CN112131461A (zh) * | 2020-09-09 | 2020-12-25 | 重庆易宠科技有限公司 | 一种商品搜索方法、系统、终端及计算机可读存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1755671A (zh) * | 2004-09-30 | 2006-04-05 | 北京大学 | 搜索引擎中的查询词自动纠错方法 |
CA2509496A1 (en) * | 2005-06-06 | 2006-12-06 | 3618633 Canada Inc. | Search-enhanced trie-based syntactic pattern recognition of sequences |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101989282A (zh) * | 2009-07-31 | 2011-03-23 | 中国移动通信集团公司 | 对中文查询词进行纠错的方法及其装置 |
CN103514236B (zh) * | 2012-06-30 | 2017-06-09 | 重庆新媒农信科技有限公司 | 检索应用中基于拼音的检索条件纠错提示处理方法 |
CN103678674A (zh) * | 2013-12-25 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 通过拼音进行纠错搜索的方法、装置及系统 |
CN104268157A (zh) * | 2014-09-03 | 2015-01-07 | 乐视网信息技术(北京)股份有限公司 | 一种数据搜索中的纠错装置及其方法 |
-
2014
- 2014-09-03 CN CN201410447009.7A patent/CN104268157A/zh active Pending
-
2015
- 2015-08-25 JP JP2016563112A patent/JP2017526021A/ja active Pending
- 2015-08-25 WO PCT/CN2015/087971 patent/WO2016034052A1/zh active Application Filing
- 2015-08-25 EP EP15837832.3A patent/EP3179383A4/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
CN104268157A (zh) | 2015-01-07 |
WO2016034052A1 (zh) | 2016-03-10 |
EP3179383A1 (en) | 2017-06-14 |
EP3179383A4 (en) | 2017-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017526021A (ja) | データ検索におけるエラー修正装置及びその方法 | |
US10007699B2 (en) | Optimized exclusion filters for multistage filter processing in queries | |
US9721009B2 (en) | Primary and foreign key relationship identification with metadata analysis | |
US10754853B2 (en) | Virtual edge of a graph database | |
CN111868710B (zh) | 搜索大规模非结构化数据的随机提取森林索引结构 | |
CN111971931B (zh) | 在区块链网络中验证交易的方法以及构成该网络的节点 | |
US20160328445A1 (en) | Data Query Method and Apparatus | |
US20160103858A1 (en) | Data management system comprising a trie data structure, integrated circuits and methods therefor | |
US9454561B2 (en) | Method and a consistency checker for finding data inconsistencies in a data repository | |
US10482175B2 (en) | Identifying properties of a communication device | |
US20170169027A1 (en) | Determining a Display Order for Values in a Multi-Value Field of an Application Card | |
US8527513B2 (en) | Systems and methods for lexicon generation | |
US8140546B2 (en) | Computer system for performing aggregation of tree-structured data, and method and computer program product therefor | |
JP5731015B2 (ja) | データベースシステム及びデータベース管理方法 | |
EP3955256A1 (en) | Non-redundant gene clustering method and system, and electronic device | |
US10229105B1 (en) | Mobile log data parsing | |
US20160092595A1 (en) | Systems And Methods For Processing Graphs | |
CN109213972B (zh) | 确定文档相似度的方法、装置、设备和计算机存储介质 | |
CN110795617A (zh) | 一种搜索词的纠错方法及相关装置 | |
CN113065419B (zh) | 一种基于流量高频内容的模式匹配算法及系统 | |
WO2020018144A1 (en) | System and method for data security grading | |
CN117009430A (zh) | 数据管理方法、装置和存储介质及电子设备 | |
WO2021012211A1 (zh) | 一种为数据建立索引的方法以及装置 | |
CN110825927A (zh) | 数据查询方法、装置、电子设备及计算机可读存储介质 | |
US20170206202A1 (en) | Proximity of data terms based on walsh-hadamard transforms |