JP2017526021A

JP2017526021A - データ検索におけるエラー修正装置及びその方法

Info

Publication number: JP2017526021A
Application number: JP2016563112A
Authority: JP
Inventors: 関涛; 於立柱
Original assignee: Le Shi Internet Information & Technology Corp Bei Jing; Le Holdings Beijing Co Ltd
Current assignee: Le Shi Internet Information & Technology Corp Bei Jing; Le Holdings Beijing Co Ltd
Priority date: 2014-09-03
Filing date: 2015-08-25
Publication date: 2017-09-07
Also published as: CN104268157A; WO2016034052A1; EP3179383A1; EP3179383A4

Abstract

【課題】データ検索におけるエラー修正装置及びその方法を提供する。【解決手段】データ検索におけるエラー修正装置は、すべての検索キーワードを統計して、前記検索キーワードの第１特徴を取得するように設置されるキーワード統計モジュールと、分類型データ構造の各ノードにＮ個（１以上の自然数）の検索キーワードを格納し、前記第１特徴に基づき構築した分類型データ構造に前記検索キーワードを挿入するように設置されるキーワード挿入モジュールと、各ノードに格納した検索キーワードをそれぞれ２つずつ比較し、その比較結果に基づき、比較した２つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定してキー値対を構成するように設置されるキー値対応モジュールと、前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うエラー修正操作モジュールとを備える。本発明に係る検索キーワードのエラー修正装置は計算量が少なく、計算効率が高い。【選択図】図１

Description

本発明は、データ検索の技術分野に関し、特にデータ検索におけるエラー修正装置及びその方法に関する。

インターネット技術の発展に伴って、ネットワーク情報のデータ量が大きくなり、例えばビデオウェブサイトでの大量のビデオ情報、ウェブサイトフォーラムで大量のユーザーが発布する情報、及びユーザーによる大量の履歴ログが挙げられる。特定の操作目的を達成させるために、多量のデータを含むネットワーク情報からニーズに合わせるデータを検索する必要がある。

従来のデータ検索技術では、検索キーワード（ｑｕｅｒｙ）に基づき検索を行うことが一般的であり、検索エンジンサーバが入力した検索キーワードに基づき、予め構築したデータインデックスから検索し、次に該インデックスデータをユーザーに表示する。しかしながら、検索キーワードは入力のランダム性や不規則性が原因で、エラーが発生しやすく、エラー検索キーワードを入力すれば、期待される検索結果が検索できなかったり、エラー検索結果が検索されたりすることを招く恐れがある。

検索キーワードの中のエラー検索キーワードを識別するために、従来技術では、通常、すべての検索キーワードを２つずつ比較して、すべての検索キーワードの類似度を２つずつ計算することで、エラー検索キーワード、及びそれに対応した正確な検索キーワードを見つける。このように検索キーワードのエラー修正を行って、検索精度を確保できるが、すべての検索キーワードを２つずつ比較することによる検索キーワードのエラー修正方式は計算量が膨大で、計算効率が低下する。

従って、如何に検索キーワードのエラー修正効率を向上させるかはデータ検索技術において早急に解決しなければならない技術的課題となる。

上記の事情に鑑みて、本発明は検索キーワードに対するエラー修正方式の計算量が小さく、計算効率が高いデータ検索におけるエラー修正装置及びその方法を提供する。

本発明は、
すべての検索キーワードを統計して、前記検索キーワードの第１特徴を取得するように設定されるキーワード統計モジュールと、
分類型データ構造の各ノードにＮ個（１以上の自然数）の検索キーワードを格納し、前記第１特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するように設定されるキーワード挿入モジュールと、
各ノードに格納した検索キーワードをそれぞれ２つずつ比較し、その比較結果に基づき、比較した前記の２つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するように設定されるキー値対応モジュールと、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うように設定されるエラー修正操作モジュールとを備えるデータ検索用のエラー修正装置を提供する。

本発明は、
すべての検索キーワードを統計して、前記検索キーワードの第１特徴を取得するステップと、
分類型データ構造の各ノードにＮ個（１以上の自然数）の検索キーワードを格納し、前記第１特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するステップと、
各ノードに格納した検索キーワードをそれぞれ２つずつ比較し、その比較結果に基づき、比較した前記の２つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップと、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うステップとを含むデータ検索用のエラー修正方法を更に提供する。

以上の技術案から分かるように、本発明は、すべての検索キーワードを統計して、前記検索キーワードの第１特徴に基づき構築した分類型データ構造に前記検索キーワードを挿入し、更に分類型データ構造における各ノードに格納した検索キーワードをそれぞれ２つずつ比較し、この比較結果に基づき、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、両者でキー値対を構成し、該キー値対に基づき、受信した検索キーワードをエラー修正する。従って、本発明によれば、分類型データ構造における各ノードに格納した検索キーワードを２つずつ比較するだけでよく、全ての検索キーワードを２つずつ比較する必要がなく、それによって、検索キーワードに対するエラー修正の計算量を大幅に減少させ、計算効率を向上させる。

図１は本発明に係るデータ検索におけるエラー修正装置の構成図である。図２は本発明に係るトライ木の模式図である。図３はピン音文字をトライ木に挿入する模式図である。図４は本発明に係るキー値対応モジュールの構成図である。図５は本発明に係るデータ検索におけるエラー修正方法のフローチャートである。図６は本発明に係るステップＳ４のフローチャートである。

一般的なデータ検索技術では、検索キーワード入力のランダム性や不規則性に起因する検索エラーを防止するために、検索キーワードと一定の相関関係を有する用語、例えば同義語又はより標準化された用語を利用して検索キーワードをエラー修正することが一般的である。しかし、検索キーワードのエラー修正を行う前に、予めエラー検索キーワードと、それに対応したエラー修正用検索キーワードとで構成されるキー値対を含むエラー修正ファイルを作成しなければならない。該キー値対を確立するのにすべての検索キーワードを２つずつ比較し、すべての検索キーワードの類似度を２つずつ計算することが必要であり、これほど膨大な計算量によってエラー修正ファイル作成時の計算効率の低下を招く。

本発明はすべての検索キーワードを統計して、前記検索キーワードの第１特徴に基づき、構築した分類型データ構造に前記検索キーワードを挿入し、更にそれぞれ分類型データ構造における各ノードに格納した検索キーワードを２つずつ比較し、比較結果に基づき、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定し、両者でキー値対を構成して、該キー値対に基づき、受信した検索キーワードをエラー修正する。従って、本発明は分類型データ構造における各ノードに格納した検索キーワードを２つずつ比較するだけでよく、全ての検索キーワードを２つずつ比較する必要がなく、それによって、検索キーワードに対するエラー修正の計算量を大幅に減少させ、計算効率を向上させる。

以下、本発明の図面を利用して更に本発明の実施形態を説明する。

図１に示されるように、本発明はコンピュータ、携帯電話、タブレットコンピュータ等の装置に用いるデータ検索におけるエラー修正装置を提供し、前記ハードウェア装置は、通常、ＣＰＵ、入出力モジュール、メモリー及びほかのハードウェアモジュールを含む。本発明はウェブサイトフォーラムで大量のユーザーが発布する情報、サーバ中のビデオファイル及びユーザーの大量の履歴ログ等の多量のデータ情報を検索することができる。

本発明の装置は、
すべての検索キーワードを統計して、前記検索キーワードの第１特徴を取得するように設定されるキーワード統計モジュール１１と、
分類型データ構造の各ノードにＮ個（１以上の自然数）の検索キーワードを格納し、前記検索キーワードの第１特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するように設定されるキーワード挿入モジュール１２と、
各ノードに格納した検索キーワードをそれぞれ２つずつ比較し、その比較結果に基づき、比較した２つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するように設定されるキー値対応モジュール１３と、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うように設定されるエラー修正操作モジュール１４と、を備える。

本発明によれば、分類型データ構造における各ノードに格納した検索キーワードを２つずつ比較するだけでよく、すべての検索キーワードを２つずつ比較する必要がなく、それによって、検索キーワードに対するエラー修正の計算量を大幅に減少させ、計算効率を向上させる。

一般的には、キーワードをピン音又は五筆字型入力方法により出力するから、検索キーワード入力のランダム性や不規則性は入力法に起因する場合が多い。前記検索キーワードがエラー検索キーワードであるかエラー修正用検索キーワードであるかを確かめて、検索キーワードのエラー修正を効率よく行うために、前記キーワード統計モジュール１１は前記検索キーワードを統計して、前記検索キーワードのピン音又は中国語文字筆画を取得して検索キーワードの第１特徴とする。

本発明の実施形態において、本発明で予め構築した分類型データ構造はトライ木である。

図２に示されるトライ木（Ｔｒｉｅ木）は、プレフィックス木とも呼ばれ、木構造であって、ハッシュ木の変形であり、代表的に大量のストリング（ストリングに限定されない）の統計、並べ替え及び保存に用いるため、検索エンジンシステムにおいて単語頻度統計に用いる場合が多く、ストリングの共通のプレフィックスを利用してクエリ時間を削減させ、できるだけ無用なストリング比較を減少させ、それによってクエリ効率がハッシュマップより高くなるという利点を有する。図２では、ルートノードにキャラクターが格納されず、前記トライ木の各子ノードのそれぞれにストリングにおける一つのキャラクターが順次格納されており、トライ木に格納したストリングはａｂ、ａｂｃ、ｂｄ、ｄｄａであり、ストリングの末端に黒色をもって該ストリングの終了を示す。

本発明の一実施例では、トライ木の各ノードで、Ｎ個の検索キーワードが格納できる、即ちサイズがＮ（例えば、Ｎ＝１００）である検索キーワードテーブルが作成されている。本発明に係るキーワード挿入モジュール１２は前記検索キーワードをピン音又は中国語文字筆画に基づきトライ木に挿入する。

本発明の一実施例では、ピン音に基づき検索キーワードをトライ木中の特定ノードに対応した検索キーワードテーブルに挿入することを例にして説明する。

本発明の一実施形態において、先ず、任意の検索キーワード中の各キャラクターのピン音先頭文字をキャラクターの順序に応じて配列し、勿論、検索キーワードが比較的長い場合は、予め設定された長さ（例えば、最初の４つ）を有する一部の検索キーワード中の各キャラクターのピン音先頭文字をキャラクターの順序に応じて配列してもよく、次に、前記ピン音先頭文字を配列順序に応じて同一の子木中のレベルが高くなるノードに配置し、例えば、第１キャラクターのピン音先頭文字をルートノードの子ノードに配置して、第２キャラクターのピン音先頭文字を第１キャラクターのピン音先頭文字が配置されたノードの子ノードに配置し、このようにして配置を行い、それによって、上記配置が終了した後、前記検索キーワード（又は予め設定された長さを有する一部の検索キーワード）の、順に配列しているキャラクターのピン音先頭文字は同一の子木のルートノードからレベルごとに後続のノードまでトラバーサルすることによって取得することができ、更に、前記検索キーワードを上記のようにトラバーサルした最後のノードに挿入する。例えば、図３に示されるように、本発明で統計して得た検索キーワードは、「婚里婚外那些事児」、「婚礼婚外那些事児」、「環里環外那些事児」、「婚礼」、「婚里」、「狄仁傑」、「敵人姐」、「低熱界」であり、上記検索キーワードを獲得するためのピン音は、それぞれ「ｈｕｎｌｉｈｕｎｗａｉｎａｘｉｅｓｈｉｅｒ」、「ｈｕｎｌｉｈｕｎｗａｉｎａｘｉｅｓｈｉｅｒ」、「ｈｕａｎｌｉｈｕａｎｗａｉｎａｘｉｅｓｈｉｅｒ」、「ｈｕｎｌｉ」、「ｈｕｎｌｉ」、「ｄｉｒｅｎｊｉｅ」、「ｄｉｒｅｎｊｉｅ」、「ｄｉｒｅｊｉｅ」になる。具体的には、本発明では、１）検索キーワードの「婚里婚外那些事児」について最初の四つの文字のそれぞれのピン音先頭文字を「ｈ」、「ｌ」、「ｈ」、「ｗ」の順序に応じて配列し、２）各キャラクターのピン音先頭文字「ｈ」、「ｌ」、「ｈ」、「ｗ」を同一の子木の対応したノートに順次配置し、つまり、ピン音文字「ｈ」をルートノードの子ノード、ピン音文字「ｌ」をピン音文字「ｈ」が配置されたノードの子ノード、ピン音文字「ｈ」をピン音文字「ｌ」が配置されたノードの子ノード、ピン音文字「ｗ」をピン音文字「ｈ」が配置されたノードの子ノードに配置し、３）検索キーワードの「婚里婚外那些事児」をピン音文字「ｗ」が配置されたノードに挿入するように、ピン音に基づき検索キーワードの「婚里婚外那些事児」をトライ木に挿入する。このようなステップによって、検索キーワードの「婚礼婚外那些事児」、「環里環外那些事児」、「婚礼」、「婚里」、「狄仁傑」、「敵人姐」、「低熱界」をトライ木中の対応したノードに対応した検索キーワードテーブルに挿入する。上記記載から明らかなように、検索キーワードの「婚里婚外那些事児」、「婚礼婚外那些事児」及び「環里環外那些事児」は同一ノードに挿入され、検索キーワードの「婚礼」、「婚里」は同一ノードに挿入され、検索キーワードの「狄仁傑」、「敵人姐」、「低熱界」は同一ノードに挿入される。それぞれ「婚里婚外那些事児」、「婚礼婚外那些事児」及び「環里環外那些事児」を２つずつ比較し（３回）、「婚礼」、「婚里」を２つずつ比較し（１回）、「狄仁傑」、「敵人姐」、「低熱界」を２つずつ比較する（３回）。従来技術のように、「婚里婚外那些事児」、「婚礼婚外那些事児」、「環里環外那些事児」、「婚礼」、「婚里」、「狄仁傑」、「敵人姐」、「低熱界」の全てを２つずつ比較せずに済んで（５６回）、それによって、検索キーワードに対するエラー修正の計算量を大幅に減少させ、計算効率を大幅に向上させる。

上記実施例では、複数の子木を含むトライ木が作成されており、子木のそれぞれにおける各子ノート（下位ノード）が同一親ノード（下位ノード）を共用し、同一親ノードの子ノードがそれぞれ異なり、末端で黒色をもって該ストリングの終了を示し、各子ノードに対応した検索キーワードテーブル中の検索ワードのピン音頭文字から構成されるストリング中の各文字は順序に応じてトライ木の対応した枝の各ノードに格納されている。

筆画に基づき検索キーワードをトライ木に挿入する場合は、ピン音に基づき検索キーワードをトライ木に挿入する場合と類似し、例えば、検索キーワードにおける各文字の最初の筆画を第１特徴として、設定された筆画の順序に応じてトライ木を作成する。そのため、ここで詳細な説明を省略する。

勿論、本発明はトライ木以外の分類型データ構造、例えば二分探索木、三分探索木、リンクリスト等を使用して実現することもでき、本発明では、これについて限定がない。更に、当業者はピン音に基づき検索キーワードをトライ木に挿入する操作を使用して、前記検索キーワードを前記検索キーワードのピン音又は中国語文字筆画に基づき二分探索木、三分探索木、リンクリスト等のほかの分類型データ構造に挿入することができる。

更に、本発明に係る前記キーワード統計モジュール１１は、更に前記検索キーワードの検索履歴を取得することに用いる。具体的には、前記検索履歴は検索回数及び／又は既存のキー値対（既存のエラー修正ファイルに格納したキー値対）においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を含む。

前記キーワード挿入モジュール１２は、前記検索キーワードの第１特徴及び検索履歴に基づき前記検索キーワードを前記分類型データ構造に挿入する。

本発明の好ましい実施例では、検索回数に基づき前記検索キーワードを並べ替え、次に順序に応じて、第１特徴に基づき前記検索キーワードをトライ木に挿入する。検索キーワードは検索回数が多いほど、エラー修正用検索キーワードとする確率が高い。更に、トライ木の各ノードで作成する検索キーワードテーブルのサイズはＮであるため、検索回数に基づき検索キーワードを並べ替えた後、第１特徴に基づきトライ木に挿入することにより、検索回数が多い検索キーワードは先に挿入され、検索回数が少ない検索キーワードは後に挿入され或いは挿入できなくなる。従って、本実施例で作成するトライ木は、検索効率が更に高く、エラー修正の計算量を減少させ、エラー修正効果を向上させる。

同様に、前記検索キーワードの、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を参照して、既存のキー値対においてエラー修正用検索キーワードとして使用される検索キーワードを先にトライ木に挿入することによっても、作成するトライ木は検索効率が更に高く、エラー修正の計算量を減少させ、エラー修正効果を向上させることを確保できる。

図４に示されるように、本発明の一例示的な実施形態では、前記キー値対応モジュール１３は、
各ノードに格納した検索キーワードの類似度を２つずつ計算して、類似度が第１所定閾値未満の２つのキーワードを第１キーワード対として設定する類似度計算サブモジュール１３１と、
前記検索キーワードの検索履歴に基づき、前記第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するキー値確定サブモジュール１３２とを備える。

本発明に係る類似度計算サブモジュール１３１で取得した第１キーワード対の類似度が第１所定閾値未満である場合は、第１キーワード対の二つの検索キーワードのうち、一方の検索キーワードが入力のランダム性や不規則性に起因するエラー検索キーワードである可能性があることを示す。従って、キー値確定サブモジュール１３２を使用して検索履歴と組み合わせて、第１キーワード対の２つの検索キーワードのうち、どの検索キーワードがエラー検索キーワードであるか、どの検索キーワードがエラー修正用検索キーワードであるかを確定する。前記第１所定閾値は当業者によってニーズや経験に応じて設定される。

具体的には、前記各ノードに格納した検索キーワードの２つずつの類似度（類似程度）の計算は編集距離を使用して実行することができる。編集距離（ＥｄｉｔＤｉｓｔａｎｃｅ）は、Ｌｅｖｅｎｓｈｔｅｉｎ距離とも呼ばれ、２つのストリング間で一方を他方に変換するのに必要な最少編集操作回数を意味する。許容される編集操作は、一つのキャラクターから他のキャラクターへの変換、一つのキャラクターの挿入、一つのキャラクターの削除を含む。検索キーワードｑ１と検索キーワードｑ２の類似度Ｓを計算する場合は、
Ｓ＝Ｄ／Ｌ（但し、Ｄは検索キーワードｑ１と検索キーワードｑ２の編集距離、Ｌは検索キーワードｑ１と検索キーワードｑ２の最大距離（検索キーワードの最大文字数）を示す）である。

例えば、検索キーワードの「婚礼婚外那些事」と検索キーワードの「婚里婚外那些事」の編集距離が１であり、つまり「礼」を「里」にするように一回変換する。検索キーワードの「婚礼婚外那些事」と検索キーワードの「婚里婚外那些事」の最大距離は７であり、この場合、検索キーワードの「婚礼婚外那些事」と検索キーワードの「婚里婚外那些事」の類似度は１／７になる。

ここで、検索キーワードｑ１と検索キーワードｑ２の編集距離は２つの検索キーワードのキャラクター同士の変換回数であり、勿論、２つの検索キーワードのピン音同士の変換回数を考慮に入れてもよく、例えば「ｄｉｒｅｎｊｉｅ」と「ｄｉｒｅｊｉｅ」の編集距離が１である。好ましくは、検索キーワードｑ１と検索キーワードｑ２のキャラクターの編集距離に一つの重み付け値を乗じた積と、検索キーワードｑ１と検索キーワードｑ２のピン音編集距離に他の重み付け値を乗じた積とを加算して、検索キーワードｑ１と検索キーワードｑ２の編集距離とする。前記重み付け値は当業者によってシステムのニーズに応じて設定される。

なお、本発明の実施形態では、予め記憶した正確な検索キーワードを格納するための正確な検索キーワードのデータベースが更に含まれる。例えば、前記第１キーワード対の一方の検索キーワードが前記の正確な検索キーワードのデータベースにおける正確な検索キーワードである場合は、該検索キーワードをエラー修正用検索キーワード、他方の検索キーワードをエラー検索キーワードとして確定する。例えば、前記第１キーワード対のいずれの検索キーワードも前記の正確な検索キーワードのデータベースにおける正確な検索キーワードではない場合は、更にキー値確定サブモジュール１３２を使用して検索履歴と組み合わせて、第１キーワード対の２つの検索キーワードのうち、どの検索キーワードがエラー検索キーワードであるか、どの検索キーワードがエラー修正用検索キーワードであるかを確定する。

更に、前記キー値確定サブモジュール１３２は、検索回数及び／又は既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴に基づき、第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定する。例えば、前記キー値確定サブモジュール１３２は、第１キーワード対の２つの検索キーワードの検索回数を比較し、検索回数が少ない検索キーワードの検索回数／検索回数が多い検索キーワードの検索回数として両者の検索比を取得する。前記検索比が第３所定閾値未満であれば、検索回数が少ない搜素キーワードはエラー検索キーワード、検索回数が多い検索キーワードはエラー修正用検索キーワードである。前記第３所定閾値は当業者によってニーズや経験に応じて設定される。また、例えば、前記キー値確定サブモジュール１３２は、第１キーワード対の２つの検索キーワードの、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を参照して、一方の検索キーワードが既存のキー値対においてエラー検索キーワードとして使用されれば、この検索キーワードはエラー検索キーワード、他方の検索キーワードはエラー修正用検索キーワードとして確定する。

本発明では、単独に検索回数、又は、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴に基づき、第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定する。本発明では、検索回数と、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴との組み合わせに基づき、第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを総合的に確定することもできる。例えば、先ず、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴に基づき、第１キーワード対の一方の検索キーワードをエラー検索キーワード、他方の検索キーワードをエラー修正用検索キーワードとし、次に、第３所定閾値を極めて小さな値に設定し、検索回数が少ない検索キーワードの検索回数／検索回数が多い検索キーワードの検索回数が該第３所定閾値未満である時に、元にエラーとして設定した検索キーワードを、エラー修正用として設定した検索キーワードに変え、元にエラー修正用として設定した検索キーワードを、エラー検索キーワードに変える。このようにして、単独に検索回数又は従来のキー値を考慮に入れることに起因する誤判断を回避して、第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定する精度を向上させる。

更に、本発明に係るキー値確定サブモジュール１３２は、前記検索キーワードの検索履歴に基づき、前記第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定した後に、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとのエラー度（差異度）を計算する。前記エラー度が第２所定閾値より大きい場合に、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成する。前記第２所定閾値は当業者によってニーズ及び経験に応じて設定される。

エラー検索キーワードと、それに対応したエラー修正用検索キーワードとのエラー度は、具体的に、対応したエラー修正用検索キーワードに対するエラー検索キーワードのエラー確率である。対応したエラー修正用検索キーワードに対するエラー検索キーワードのエラー度と、エラー検索キーワードとそれに対応したエラー修正用検索キーワードとの類似度とが比例し、即ち、類似度が高いほど、エラー度が高い。

例えば、エラー検索キーワード＝「婚礼婚外那些事」、エラー修正用検索キーワード＝「婚里婚外那些事」では、２つの検索キーワードは類似度が非常に高いため、エラー度が高い（注釈：「婚里婚外那些事」はドラマの名前である）。

また、エラー検索キーワードが「婚礼」、エラー修正用検索キーワードが「婚里婚外那些事」である場合は、２つの検索キーワードは類似度が非常に低いため、エラー度が極めて低い。「婚礼」も語彙であり、エラー検索キーワードとして識別できないことが明らかであり、「婚礼」は「婚里婚外那些事」とキー値対を構成することができない。

更に、対応したエラー修正用検索キーワードに対するエラー検索キーワードのエラー度と、エラー検索キーワードとそれに対応したエラー修正用検索キーワードとの検索比とが反比例し、即ち、検索比が高いほど、エラー度が低い。

例えば、エラー検索キーワードが「天下第一丑」で、９０００回検索され、エラー修正用検索キーワードが「天下第一刀」で、１００００回検索される場合は、両方の検索比は０．９と高い。この場合は、対応したエラー修正用検索キーワードに対するエラー検索キーワードのエラー度が低いとするため、「天下第一丑」と「天下第一刀」はキー値対にしてはならない。実際には、「天下第一丑」と「天下第一刀」はそれぞれドラムの名前とバラエティ番組の名前である。

また、例えば、エラー検索キーワードが「狄人傑」で、１００回検索され、エラー修正用検索キーワードが「狄仁傑」で、１００００回検索される場合は、両者の検索比は０．０１である。この場合は、対応したエラー修正用検索キーワードに対するエラー検索キーワードのエラー度が非常に高く、「狄人傑」と「狄仁傑」をキー値対にすべきである。

上記の原因によって、前記エラー度は類似度と比例して、検索比と反比例する。具体的には、その式として、エラー度＝類似度^ｋ＊（１−検索比）とすることができ、ここで、ｋは類似度の重みを示し、ｋ＝１は、類似度と検索比の重視度が同じであることを示し、ｋ＞１は類似度を重視することを示し、ｋ＜１は検索比を重視することを示す。

前記エラー度の計算式としても、エラー度＝類似度^ｋ／検索比とすることができ、但し、前記エラー度は類似度と比例して、検索比と反比例するだけでよい。

各ノード中のキー値対のうちの一つのキー値対のエラー修正用検索キーワードが他のキー値対のエラー検索キーワードであれば、このキー値対のエラー検索キーワードは本質的にエラー修正を必要としない検索キーワードであることを示す。従って、本発明は、すべてのキー値対から、エラー修正用検索キーワードが他のキー値対のエラー検索キーワードであるキー値対をフィルタリングして、残ったキー値対を格納するフィルタリング処理モジュールを更に備える。

具体的には、本発明に係るエラー修正操作モジュール１４は、メモリーにキー値対で構成されるエラー修正ファイルをロードして、ハッシュマップ（ｈａｓｈｍａｐ）を構成して、キー（ｋｅｙ）をエラー検索キーワード、値（ｖａｌｕｅ）をエラー修正用検索キーワードとして設定し、入力した検索キーワードを判別し、ハッシュマップに入力した検索キーワードと同様なキーが存在すれば、入力した検索キーワードに対して直接エラー修正を行い、キーに対応した値をエラー修正後の検索キーワードとし、エラー修正後の検索キーワードに基づきデータ検索を行って、対応した検索結果を取得する。

本発明の装置に対応して、本発明は更にデータ検索におけるエラー修正方法を提供し、図５に示されるように、前記方法は、
すべての検索キーワードを統計して、前記検索キーワードの第１特徴を取得するステップＳ１と、
分類型データ構造の各ノードにＮ個（１以上の自然数）の検索キーワードを格納し、前記検索キーワードの第１特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するステップＳ２と、
各ノードに格納した検索キーワードをそれぞれ２つずつ比較し、その比較結果に基づき、比較した前記の２つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップＳ３と、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うステップＳ４とを含む。

一般的にはキーワードをピン音又は五筆字型入力方法により入力するから、検索キーワード入力のランダム性や不規則性は入力法に起因する場合が多い。前記検索キーワードがエラー検索キーワードであるか、エラー修正用検索キーワードであるかを確かめて、検索キーワードに対してエラー修正を効率よく行うために、前記検索キーワードを統計して、前記検索キーワードのピン音又は中国語文字筆画を取得して検索キーワードの第１特徴とする。

本発明の実施形態では、本発明で作成した分類型データ構造はトライ木である。トライ木を構成した後、トライ木の各ノードで、Ｎ個の検索キーワードを格納できる、即ちサイズがＮ（例えばＮ＝１００）である検索キーワードテーブルを構成する。

前記ステップＳ１では、さらに前記検索キーワードの検索履歴を取得する。具体的には、前記検索履歴は、検索回数及び／又は既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を含む。

前記ステップＳ２では、前記検索キーワードの第１特徴及び検索履歴に基づき前記検索キーワードを前記分類型データ構造に挿入する。

本発明の好ましい実施例では、検索回数に基づき前記検索キーワードを並べ替え、次に当該順序に応じて前記検索キーワードをトライ木に挿入する。検索キーワードは検索回数が多いほど、エラー修正用検索キーワードとする確率が高く、更に、トライ木の各ノードで作成した検索キーワードテーブルのサイズがＮに固定されたため、検索回数に基づき検索キーワードを並べ替えた後に、トライ木に挿入することによって、検索回数が多い検索キーワードが先に挿入され、検索回数が少ない検索キーワードが後に挿入され或いは挿入できないことが確保できる。従って、本実施例で作成したトライ木は、検索効率が更に高く、エラー修正の計算量を減少させ、エラー修正効果を向上させる。

同様に、前記検索キーワードの、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を参照して、既存のキー値対においてエラー修正用検索キーワードとして使用される検索キーワードを先にトライ木に挿入することによっても、作成したトライ木は検索効率が更に高く、エラー修正の計算量を減少させ、エラー修正効果を向上させる。

図６に示されるように、前記ステップＳ３は、
各ノードに格納した検索キーワードの類似度を２つずつ計算して、類似度が第１所定閾値未満の２つのキーワードを第１キーワード対として設定するステップＳ３１と、
前記検索キーワードの検索履歴に基づき、前記第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップＳ３２とを含む。

本発明のステップＳ３１で取得した第１キーワード対の類似度が第１所定閾値未満であれば、第１キーワード対の２つの検索キーワードののうち、一方の検索キーワードが、入力のランダム性や不規則性に起因するエラー検索キーワードである可能性があることを示す。従って、ステップＳ２では、検索履歴と組み合わせて第１キーワード対の２つの検索キーワードのうち、どの検索キーワードがエラー検索キーワードであるか、どの検索キーワードがエラー修正用検索キーワードであることを確定する。前記第１所定閾値は当業者によってニーズ及び経験に応じて設定される。

更に、検索回数及び／又は既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴に基づき、第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定する。例えば、第１キーワード対の２つの検索キーワードの検索回数を比較して、検索回数が少ない検索キーワードの検索回数／検索回数が多い検索キーワードの検索回数として両者の検索比を取得する。前記検索比が第３所定閾値未満であれば、この検索キーワードはエラー検索キーワード、他方の検索キーワードはエラー修正用検索キーワードである。前記第３所定閾値は当業者によってニーズ及び経験に応じて設定される。また、例えば、第１キーワード対の２つの検索キーワードの、既存のキー値対においてエラー検索キーワードおよびエラー修正用検索キーワードとして使用される履歴を参照して、一方の検索キーワードが既存のキー値対においてエラー検索キーワードとして使用される場合は、この検索キーワードをエラー検索キーワード、他方の検索キーワードをエラー修正用検索キーワードとして確定する。

本発明は、前記検索キーワードの検索履歴に基づき、前記第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定した後に、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとののエラー度（類似度）を計算する必要がある。前記エラー度が第２所定閾値より大きい場合のみ、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成する。前記第２所定閾値は当業者によってニーズ及び経験に応じて設定される。

本発明に係る方法は、すべてのキー値対から、エラー修正用検索キーワードが他のキー値対のエラー検索キーワードであるキー値対をフィルタリングして、残ったキー値対を格納するステップを更に含む。

各ノード中のキー値対のうちの一つのキー値対のエラー修正用検索キーワードが他のキー値対のエラー検索キーワードである場合は、このキー値対のエラー検索キーワードは本質的にエラー修正を必要としない検索キーワードであることを示す。

具体的には、本発明のステップＳ４では、メモリーにキー値対で構成されるエラー修正ファイルをロードして、ハッシュマップ（ｈａｓｈｍａｐ）を構成して、キー（ｋｅｙ）をエラー検索キーワード、値（ｖａｌｕｅ）をエラー修正用検索キーワードとして設定し、入力した検索キーワードを判別し、ハッシュマップに入力した検索キーワードと同様なキーが存在すれば、入力した検索キーワードに対して直接エラー修正を行って、キーに対応した値をエラー修正後の検索キーワードとし、エラー修正後の検索キーワードに基づきデータ検索を行って、対応した検索結果を取得する。

以下、一実施形態を参照して更に本発明の原理を説明する。

すべての検索キーワードのピン音及び検索回数を統計して、２６個のノードを持つトライ木を作成し、検索回数に基づきすべての検索キーワードを並べ替えた後に、ピン音に基づき該トライ木に挿入する。該トライ木の各ノードの検索キーワードテーブルのサイズは１００で、即ち、各ノードに１００個の検索キーワードが格納できる。

各ノードに格納した検索キーワードの類似度を２つずつ計算して、類似度が第１所定閾値未満の２つのキーワードを第１キーワード対として設定する。

前記検索キーワードの検索回数を比較し、検索回数が少ない検索キーワードの検索回数／検索回数が多い検索キーワードの検索回数として両者の検索比を取得する。前記検索比が第３所定閾値未満であれば、検索回数が少ない検索キーワードはエラー検索キーワード、他方の検索キーワードはエラー修正用検索キーワードである。

前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとのエラー度を計算する。前記エラー度が第２所定閾値より大きい場合は、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成する。

すべてのキー値対から、エラー修正用検索キーワードが他のキー値対のエラー検索キーワードであるキー値対をフィルタリングして、残ったキー値対を格納する。

従って、本発明によれば、従来技術のように、２６＊１００個の検索キーワードを２つずつ比較し、すべての検索キーワードの類似度を２つずつ計算する必要がなく、それぞれ２６個のノードのそれぞれに格納した１００個の検索キーワードを２つずつ比較し、すべてのエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを見つけてキー値対を構成するだけでよい。本発明では、検索キーワードに対するエラー修正の計算量を減少させ、計算効率を向上させる。

本発明では、メモリーに取得したキー値対で構成されるエラー修正ファイルをロードして、ハッシュマップ（ｈａｓｈｍａｐ）を構成して、キー（ｋｅｙ）をエラー検索キーワード、値（ｖａｌｕｅ）をエラー修正用検索キーワードとして設定し、入力した検索キーワードを判別し、ハッシュマップに入力した検索キーワードと同様なキーが存在すれば、入力した検索キーワードに対して直接エラー修正を行い、キーに対応した値をエラー修正後の検索キーワードとし、エラー修正後の検索キーワードに基づきデータ検索を行って、対応した検索結果を取得する。

本発明に係る方法は、コンピュータ、携帯電話、タブレットコンピュータ等の装置に適用でき、前記ハードウェア装置としては、通常、ＣＰＵ、入出力モジュール、メモリー及びほかのハードウェアモジュールを含む。当業者にとっては、上記方法を実現する実施例の全部又は一部のステップをＣＰＵによってプログラムによって関連ハードウェアに命令を出して行うことができ、上記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスク又はコンパクトディスク等のプロクラムコードを記憶可能な各種媒体を含む、コンピュータの読み取り可能な記憶媒体に記憶されてもよい。該プログラムは実行時に、上記方法の実施例のステップを実行する。

なお、以上の各実施例は本発明の技術案を説明するものに過ぎず、限定するものではない。上記の各実施例を参照して本発明を詳細に説明したが、当業者にとっては、上記の各実施例に記載の技術案に対して変更したり、それらの一部の又は全部の技術的特徴等を同等置換したりすることができることが明らかなことであり、これらの変更や置換によって、対応した技術案が本発明の各実施例における技術案の趣旨の範囲を脱逸することがない。

Claims

データ検索におけるエラー修正装置であって、
すべての検索キーワードを統計して、前記検索キーワードの第１特徴を取得するように設置されるキーワード統計モジュールと、
分類型データ構造の各ノードにＮ個（１以上の自然数）の検索キーワードを格納し、前記第１特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するように設置されるキーワード挿入モジュールと、
各ノードに格納した検索キーワードをそれぞれ２つずつ比較し、その比較結果に基づき、比較した２つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとで、キー値対を構成するように設置されるキー値対応モジュールと、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うように設置されるエラー修正操作モジュールと、
を備えることを特徴とするデータ検索におけるエラー修正装置。
前記キーワード統計モジュールは、更に、前記検索キーワードの、検索回数及び／又は既存のキー値においてエラー検索キーワードおよびエラー修正用の検索キーワードとして使用される履歴を含む検索履歴を取得するように設置され、
前記キーワード挿入モジュールは、前記検索キーワードの第１特徴及び検索履歴に基づき、前記検索キーワードを前記分類型データ構造に挿入することを特徴とする請求項１に記載の装置。
前記分類型データ構造はトライ木であることを特徴とする請求項１又は２に記載の装置。
前記キー値対応モジュールは、
各ノードに格納した検索キーワードの類似度を２つずつ計算して、類似度が第１所定閾値未満の２つのキーワードを第１キーワード対として設定するように設置される類似度計算サブモジュールと、
前記検索キーワードの検索履歴に基づき、前記第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するように設置されるキー値確定サブモジュールと、
を備えることを特徴とする請求項３に記載の装置。
前記キー値確定サブモジュールは、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとのエラー度を計算し、前記エラー度が第２所定閾値より大きい場合に、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成することを特徴とする請求項４に記載の装置。
すべてのキー値対から、エラー修正用検索キーワードが他のキー値対におけるエラー検索キーワードであるキー値対をフィルタリングして、残ったキー値対を格納するように設置されるフィルタリング処理モジュールを更に備える、ことを特徴とする請求項１に記載の装置。
データ検索におけるエラー修正方法であって、
すべての検索キーワードを統計して、前記検索キーワードの第１特徴を取得するステップと、
分類型データ構造の各ノードにＮ個（１以上の自然数）の検索キーワードを格納し、前記第１特徴に基づき前記検索キーワードを予め構築した分類型データ構造に挿入するステップと、
各ノードに格納した検索キーワードをそれぞれ２つずつ比較し、その比較結果に基づき、比較した２つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップと、
前記キー値対に基づき、受信した検索キーワードに対してエラー修正操作処理を行うステップと、
を含むことを特徴とするデータ検索におけるエラー修正方法。
前記すべての検索キーワードを統計して、前記検索キーワードの第１特徴を取得するステップは、前記検索キーワードの、検索回数及び／又は既存のキー値においてエラー検索キーワードおよびエラー修正用の検索キーワードとして使用される履歴を含む検索履歴を取得するステップを含み、
前記検索キーワードの第１特徴に基づき前記検索キーワードを前記分類型データ構造に挿入するする前記ステップは、前記検索キーワードの第１特徴及び検索履歴に基づき前記検索キーワードを前記分類型データ構造に挿入することであることを特徴とする請求項７に記載の方法。
前記分類型データ構造はトライ木であることを特徴とする請求項７又は８に記載の方法。
各ノードに格納した検索キーワードをそれぞれ２つずつ比較し、その比較結果に基づき、比較した２つの検索キーワードのうち、エラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成する前記ステップは、
各ノードに格納した検索キーワードの類似度を２つずつ計算して、類似度が第１所定閾値未満の２つのキーワードを第１キーワード対として設定するステップと、
前記検索キーワードの検索履歴に基づき、前記第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップとを含むことを特徴とする請求項９に記載の方法。
前記検索キーワードの検索履歴に基づき、前記第１キーワード対のエラー検索キーワードと、それに対応したエラー修正用検索キーワードとを確定して、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成する前記ステップは、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとのエラー度を計算し、前記エラー度が第２所定閾値より大きい場合に、前記エラー検索キーワードと、それに対応したエラー修正用検索キーワードとでキー値対を構成するステップを更に含むことを特徴とする請求項１０に記載の方法。
すべてのキー値対から、エラー修正用検索キーワードが他のキー値対におけるエラー検索キーワードであるキー値対をフィルタリングして、残ったキー値対を格納するステップを更に含むことを特徴とする請求項７に記載の方法。
請求項１〜６のいずれか１項に記載の装置を備える電子機器。