JP7149976B2 - 誤り訂正方法及び装置、コンピュータ読み取り可能な媒体 - Google Patents

誤り訂正方法及び装置、コンピュータ読み取り可能な媒体 Download PDF

Info

Publication number
JP7149976B2
JP7149976B2 JP2020024073A JP2020024073A JP7149976B2 JP 7149976 B2 JP7149976 B2 JP 7149976B2 JP 2020024073 A JP2020024073 A JP 2020024073A JP 2020024073 A JP2020024073 A JP 2020024073A JP 7149976 B2 JP7149976 B2 JP 7149976B2
Authority
JP
Japan
Prior art keywords
entity
candidate
query request
target
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020024073A
Other languages
English (en)
Other versions
JP2020135892A (ja
Inventor
ジーナン リン,
ジュンチー リウ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020135892A publication Critical patent/JP2020135892A/ja
Application granted granted Critical
Publication of JP7149976B2 publication Critical patent/JP7149976B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Description

本開示の実施例は、インターネット技術の分野に関し、特に、誤り訂正方法及び装置、コンピュータ読み取り可能な媒体に関する。
現在、情報化の急速な発展において、ネットワークはすでに社会のあちこちまで広がり、インタラクション機器がますます普及している。ユーザは、キーボードなどによる入力方式によってクエリ要求を入力し、インタラクション機器は、ユーザが候補項目を選択するように、予め設定された標準マッピングに基づいて当該クエリ要求に対応する候補項目に変換して示される。
実際の応用では、入力方法、キーボードの押し間違いなどにより、ユーザが検索する時に入力したクエリ要求に誤りがあると、検索エンジンによって返信される検索結果は、ユーザの要求する結果と大きく相違してしまう(検索エンジンは、このような誤りクエリ要求を正確に誤り訂正することができないからである)。
本開示の実施例は、誤り訂正方法及び装置、コンピュータ読み取り可能な媒体を提供する。
本開示の実施例の一態様によれば、本開示の実施例は、誤り訂正方法を提供し、受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定するステップと、各前記ターゲット候補エンティティが正当なエンティティである第1の確率を計算するステップと、各前記ターゲット候補エンティティを評価し、評価結果を取得するステップであって、一つの前記ターゲット候補エンティティは、一つの評価結果に対応するステップと、前記第1の確率と前記評価結果とに基づいて前記クエリ要求に対応する真の意図エンティティを決定するステップと、を含む。
いくつかの実施例では、在受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定する前に、前記クエリ要求の入力が正確である第2の確率を計算するステップをさらに含み、前記受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定するステップは、具体的には、前記第2の確率が予め設定された第1の閾値より小さいことに応答して、受信されたクエリ要求に基づいて、前記辞書ツリーから前記ターゲット候補エンティティを決定するステップを含む。
いくつかの実施例では、前記受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定するステップは、具体的には、前記クエリ要求における文字列及び前記辞書ツリーを計算して、複数の初期候補エンティティを取得するステップと、予め設定された第2の閾値に基づいて、複数の前記初期候補エンティティから前記クエリ要求に対応する前記ターゲット候補エンティティを選択するステップと、を含む。
いくつかの実施例では、前記予め設定された第2の閾値に基づいて、複数の前記初期候補エンティティから前記クエリ要求に対応する前記ターゲット候補エンティティを選択するステップは、各前記初期候補エンティティと前記クエリ要求との第1の距離を計算するステップと、各前記第1の距離をそれぞれ前記第2の閾値と比較するステップと、前記第2の閾値以下の第1の距離に対応する初期候補エンティティを前記ターゲット候補エンティティとして決定するステップと、を含む。
いくつかの実施例では、前記第2の閾値が第3の閾値と第4の閾値とを含む場合、前記予め設定された第2の閾値に基づいて、複数の前記初期候補エンティティから前記クエリ要求に対応する前記ターゲット候補エンティティを選択するステップは、第1のアルゴリズムに基づいて各前記初期候補エンティティと前記クエリ要求との第2の距離を計算するステップと、前記第2の距離を前記第3の閾値と比較するステップと、複数の前記初期候補エンティティから前記第3の閾値以下の第2の距離に対応する第1の候補エンティティを抽出するステップと、第2のアルゴリズムに基づいて各前記第1の候補エンティティと前記クエリ要求との第3の距離を計算するステップと、前記第4の閾値以下の第3の距離に対応する第1の候補エンティティを前記ターゲット候補エンティティとして決定するステップと、を含む。
いくつかの実施例では、前記第1のアルゴリズムが編集距離アルゴリズムである場合、第2のアルゴリズムはジャッカード距離アルゴリズムであり、前記第1のアルゴリズムが前記ジャッカード距離アルゴリズムである場合、前記第2のアルゴリズムは前記編集距離アルゴリズムである。
いくつかの実施例では、各前記ターゲット候補エンティティを評価するステップは、各前記ターゲット候補エンティティに対応する属性情報を抽出するステップと、各前記ターゲット候補エンティティの属性情報の重みを決定するステップと、前記重みに基づいて各前記ターゲット候補エンティティを評価するステップと、を含む。
いくつかの実施例では、前記第1の確率と前記評価結果に基づいて前記クエリ要求に対応する真の意図エンティティを決定するステップは、具体的には、各前記ターゲット候補エンティティに対応する第1の確率及び評価結果に対して重み付けを行い、各前記ターゲット候補エンティティに対応する加重値を取得するステップと、最大の加重値に対応するターゲット候補エンティティを前記真の意図エンティティとして決定するステップと、を含む。
いくつかの実施例では、前記方法は、予め設定された知識ベースから複数のエンティティを抽出するステップと、各前記エンティティを予め設定された辞書ツリーのノードとし、各前記エンティティのエンティティセンス(sense)を、それが属するエンティティの子ノードとし、各前記エンティティセンスに唯一の識別子を割り当て、前記辞書ツリーを取得するステップと、をさらに含む。
本開示の実施例に係る別の態様において、本開示の実施例は、誤り訂正装置をさらに提供し、受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定するための取得モジュールと、各前記ターゲット候補エンティティが正当なエンティティである第1の確率を計算するための確率計算モジュールと、各前記ターゲット候補エンティティを評価し、評価結果を取得するための評価モジュールであって、一つの前記ターゲット候補エンティティは、一つの評価結果に対応する評価モジュールと、前記第1の確率と前記評価結果とに基づいて前記クエリ要求に対応する真の意図エンティティを決定するための決定モジュールと、を含む。
いくつかの実施例では、前記確率計算モジュールは、さらに、前記クエリ要求の入力が正確である第2の確率を計算するために用いられ、前記取得モジュールは、具体的には、前記第2の確率が予め設定された第1の閾値より小さいことに応答して、受信されたクエリ要求に基づいて、前記辞書ツリーから前記ターゲット候補エンティティを決定する。
いくつかの実施例では、前記取得モジュールは、具体的には、前記クエリ要求における文字列及び前記辞書ツリーを計算して、複数の初期候補エンティティを取得し、予め設定された第2の閾値に基づいて、複数の前記初期候補エンティティから前記クエリ要求に対応する前記ターゲット候補エンティティを選択する。
いくつかの実施例では、前記取得モジュールは、具体的には、各前記初期候補エンティティと前記クエリ要求との第1の距離を計算し、各前記第1の距離をそれぞれ前記第2の閾値と比較し、前記第2の閾値以下の第1の距離に対応する初期候補エンティティを前記ターゲット候補エンティティとして決定する。
いくつかの実施例では、前記第2の閾値が第3の閾値と第4の閾値とを含む場合、前記取得モジュールは、具体的には、第1のアルゴリズムに基づいて各前記初期候補エンティティと前記クエリ要求との第2の距離を計算し、前記第2の距離を前記第3の閾値と比較し、複数の前記初期候補エンティティから前記第3の閾値以下の第2の距離に対応する第1の候補エンティティを抽出し、第2のアルゴリズムに基づいて各前記第1の候補エンティティと前記クエリ要求との第3の距離を計算し、前記第4の閾値以下の第3の距離に対応する第1の候補エンティティを前記ターゲット候補エンティティとして決定する。
いくつかの実施例では、前記第1のアルゴリズムが編集距離アルゴリズムである場合、第2のアルゴリズムはジャッカード距離アルゴリズムであり、前記第1のアルゴリズムが前記ジャッカード距離アルゴリズムである場合、前記第2のアルゴリズムは前記編集距離アルゴリズムである。
いくつかの実施例では、前記評価モジュールは、具体的には、各前記ターゲット候補エンティティに対応する属性情報を抽出し、各前記ターゲット候補エンティティの属性情報の重みを決定し、前記重みに基づいて各前記ターゲット候補エンティティを評価する。
いくつかの実施例では、前記決定モジュールは、具体的には、各前記ターゲット候補エンティティに対応する第1の確率及び評価結果に対して重み付けを行い、各前記ターゲット候補エンティティに対応する加重値を取得し、最大の加重値に対応するターゲット候補エンティティを前記真の意図エンティティとして決定する。
いくつかの実施例では、前記装置は、予め設定された知識ベースから複数のエンティティを抽出するための抽出モジュールと、各前記エンティティを予め設定された辞書ツリーのノードとし、各前記エンティティのエンティティセンスを、それが属するエンティティの子ノードとし、各前記エンティティセンスに唯一の識別子を割り当て、前記辞書ツリーを取得するための構築モジュールと、をさらに含む。
本開示の実施例に係る別の態様において、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体をさらに提供し、前記プログラムがプロセッサにより実行される場合に、前記の方法を実現する。
本開示の実施例により提供される受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定し、各ターゲット候補エンティティが正当なエンティティである第1の確率を計算し、各ターゲット候補エンティティを評価し、評価結果を取得し、一つのターゲット候補エンティティは、一つの評価結果に対応し、第1の確率及び評価結果に基づいてクエリ要求に対応する真の意図エンティティを決定することで、従来技術の誤り訂正効果が良くないとの問題を回避し、誤り訂正コストを削減し、誤り訂正効率と正確率を向上させる技術的効果を実現する。
図面は本開示の実施例に対するさらなる理解を提供し、明細書の一部を構成し、本開示の実施例とともに本開示を解釈するために用いられ、本開示に対する制限を構成するものではない。図面を参照して詳細な例示的な実施例を説明することによって、以上の他の特徴や利点は、当業者にとってさらに明らかになる。
本開示の実施例に係る誤り訂正方法の概略図である。 本開示の実施例に係るターゲット候補エンティティを決定する方法の概略図である。 本開示の別の実施例に係るターゲット候補エンティティを決定する方法の概略図である。 本開示の別の実施例に係るターゲット候補エンティティを決定する方法の概略図である。 本開示の実施例に係る辞書ツリーを構築する方法の概略図である。 本開示の実施例に係る評価の方法の概略図である。 本開示の実施例に係る真の意図エンティティを決定する方法の概略図である。 本開示の実施例に係る誤り訂正装置の概略図である。 本開示の実施例に係る誤り訂正装置のフレーム概略図である。
当業者が本発明の技術案をより良く理解できるようにするために、以下の図面を組み合わせて本発明により提供される誤り訂正方法及び装置、コンピュータ読み取り可能な媒体を詳細に説明する。
以下では、図面を参照して例示的な実施例をより十分に説明するが、前記例示的な実施例は、異なる形式で体現することができ、本明細書で説明される実施例に限定されると解釈されるべきではない。逆に、これらの実施例を提供する目的は、当業者に、本開示の範囲を明確且つ完全に、十分理解させることである。
本明細書で使用される「及び/又は」との用語は、1つ又は複数の関連する列挙項目のいずれか及びすべての組み合わせを含む。
本明細書で使用される用語は、特定の実施例の説明のみに用いられ、本開示を限定することを意図しない。本明細書で使用されるように、文脈が別に明確に指摘されていない限り、単数形式の「一つ」と「当該」も複数の形式を含むことを意図している。また、本明細書で用語「含む」及び/又は「~から生成される」が使用される場合、特徴、全体、ステップ、操作、要素、及び/又はコンポーネントが存在することを指定するが、1つまたは複数の他の特徴、全体、ステップ、操作、要素、コンポーネント及び/又はグループの存在または追加を排除することはできないことを理解されたい。
本明細書の実施例は、本願の理想的な概略図を介して平面図及び/又は断面図を参照して説明することができる。製造技術及び/又は許容範囲により、例示的な図面を修正することができる。実施例は、図示される実施例に限定されず、製造プロセスによって形成される配置の変更を含む。図示される領域は、概略的な属性を有し、図示される領域の形状は、要素の領域の具体的な形状を示すが、限定することを意図しない。
他に限定されない限り、本明細書で使用される全ての用語(技術用語や科学用語を含む)の意味は、当業者が通常理解している意味と同じである。また、一般的に辞書に限定されている用語は、関連技術及び本開示の背景における意味と一致する意味を有すると解されるべきであり、本明細書に明確に限定されない限り、理想化又は過度の形式上の意味を有すると解されないことを理解されたい。
本開示の実施例の一態様によれば、本開示の実施例は、誤り訂正方法を提供する。
図1を参照すると、図1は、本開示の実施例に係る誤り訂正方法の概略図である。
図1に示すように、当該方法は、以下のステップを含む。
ステップS1では、受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定する。
具体的には、ユーザがユーザ端末を介して入力されたクエリ要求に応答して、予め設定された辞書ツリーを取得する。辞書ツリーとクエリ要求とに基づいてm個のターゲット候補エンティティを決定する。mは1より大きい整数である。ユーザ端末は、携帯電話、ノートパソコン、タブレット、PDAなどのモバイルデバイスであってもよく、デスクトップコンピュータなどの固定デバイスであってもよい。
辞書ツリーは、単語検索ツリー、トライ木(Trie)とも呼ばれるツリー構造であり、ハッシュ木の変形である。その利点は、文字列の共通プレフィックスを利用してクエリ時間を短縮し、不必要な文字列比較を最大限に減らすことであり、クエリ効率がハッシュ木より高い。
本開示の実施例では、「辞書ツリー」を介して「ターゲット候補エンティティ」に対してターゲット候補エンティティを決定することにより、選択されたターゲット候補エンティティの効率性、包括性、及び多様性を実現することができ、正確な誤り訂正を実現することができる。
いくつかの実施例では、クエリ要求を受信した後、S1の前に、クエリ要求の入力が正確である第2の確率を計算するステップをさらに含み、第2の確率が予め設定された第1の閾値より小さいことに応答して、S1を実行する。
具体的には、クエリ要求は、正しいクエリ要求(認識可能であるか、又はスペルが正しいクエリ要求)を入力することも、誤ったクエリ要求(認識することができないか、又はスペルが間違ったクエリ要求である)を入力することも可能であり、第2の確率は、クエリ要求が正しい入力のクエリ要求の確率である。第2の確率は、言語モデル(NGRAM言語モデルなど)に基づいてクエリ要求の正しい入力を計算して取得する。
第2の確率が第1の閾値以上である場合、クエリ要求は、正しい入力のクエリ要求であることを意味する。
第2の確率が第1の閾値より小さい場合、クエリ要求は、誤った入力のクエリ要求であることを意味する。当該クエリ要求に対して誤り訂正を行う必要がある場合、S1を実行する。
第1の閾値は、ニーズに応じて設定することができる。高精度のニーズの適用シーンでは、より大きい第1の閾値を設置することができ、低精度のニーズの適用シーンでは、より小さい第1の閾値を設置することができる。つまり、第1の閾値の設定は、適用シーンの相違に応じて適宜設定することができる。高精度のニーズの適用シーンに対応する第1の閾値は、低精度のニーズの適用シーンに対応する第1の閾値より大きい。
本開示の実施例により提供される第2の確率を第1の閾値と比較し、第2の確率が第1の閾値より小さい場合には、クエリ要求を誤り訂正する。従来技術において、直接クエリ要求の誤りを訂正することにより、時間と資源を消費する技術欠点を回避して、誤り訂正コストを低減することができるという技術的効果を実現する。
図2から分かるように、いくつかの実施例では、S1は、以下のステップを含む。
ステップS1-1では、クエリ要求における文字列及び辞書ツリーを計算し、複数の初期候補エンティティを取得する。
具体的には、クエリ要求は文字列で構成される。本明細書に記載される「文字列」は、テキスト形式の文字、数字、アルファベット、記号などのうちの一つ又は複数のシーケンスを含むことができることを理解されたい。
具体的には、従来技術におけるマッチングアルゴリズムによって、辞書ツリーから文字列にマッチングする複数の初期候補エンティティを抽出するように、文字列及び辞書ツリーを計算することができる。
いくつかの実施例では、辞書ツリーから文字列に対応する初期候補エンティティを選択するように、マルチモードマッチングアルゴリズムによって文字列及び辞書ツリーを計算する。初期候補エンティティの数は複数存在する。
本開示の実施例における文字列及び辞書ツリーを計算する技術案によって、誤り訂正結果の正確性に影響するエンティティを排除することができる。すなわち、いくつかのエンティティから一部のクエリ要求に関連するエンティティを選択し、一部の関連しないエンティティを除去する。一方では、後続の処理フローの複雑さを減らすことができ、他方では、誤り訂正の効率性と正確性を向上させることもできる。
ステップS1-2では、予め設定された第2の閾値に基づいて、複数の初期候補エンティティからクエリ要求に対応するターゲット候補エンティティを選択する。
第2の閾値は、適用シーンに基づいて設定することもできるが、ここでは説明しない。
S1-1は、エンティティを初めてフィルタリングするステップに相当し、S1-2は、エンティティを再フィルタリングするステップに相当する。同様に、エンティティを再フィルタリングするステップに基づいて、後続処理フローの複雑さをさらに減らすことができ、誤り訂正の効率性と正確性をさらに向上させることができる。
図3から分かるように、いくつかの実施例では、S1-2は、以下のステップを含む。
ステップS1-2-1では、各初期候補エンティティとクエリ要求との第1の距離を計算する。
具体的には、従来技術における距離を計算する方法によって各初期候補エンティティとクエリ要求内の誤り部分との第1の距離を計算することができる。
ステップS1-2-2では、各第1の距離を第2の閾値とそれぞれ比較する。
ステップS1-2-3では、第2の閾値以下の第1の距離に対応する初期候補エンティティをターゲット候補エンティティとして決定する。
第1の距離は、第2の閾値より大きくてもよく、第2の閾値以下であってもよいことが理解される。第1の距離が第2の閾値より大きい場合、不必要な計算資源の消費を低減して計算効率を向上させるように、当該第1の閾値に対応する初期候補エンティティを除去する。第1の距離が第2の閾値以下である場合には、誤り訂正の信頼性と精度を向上させるように、当該第1の閾値に対応する初期候補エンティティをターゲット候補エンティティとして決定する。
図4から分かるように、いくつかの実施例では、第2の閾値が第3の閾値と第4の閾値とを含む場合、S1-2は、具体的には、以下のステップを含む。
ステップS1-2-4では、第1のアルゴリズムに基づいて各初期候補エンティティとクエリ要求との第2の距離を計算する。
具体的には、従来技術での距離を計算するアルゴリズムによって各初期候補エンティティとクエリ要求内の誤り部分との第2の距離を計算することができる。
ステップS1-2-5では、各第2の距離を第3の閾値とそれぞれ比較する。
ステップS1-2-6では、複数の初期候補エンティティから第3の閾値以下の第2の距離に対応する第1の候補エンティティを抽出する。
同様に、第2の距離は、第3の閾値より大きくてもよく、第3の閾値以下であってもよい。第2の距離が第3の閾値より大きい場合には、不必要な計算資源の消費を低減し、計算効率を向上させるように、当該第2の閾値に対応する初期候補エンティティを除去する。第2の距離が第3の閾値以下である場合には、当該第2の距離に対応する初期候補エンティティを第1の候補エンティティとして選択する。
ステップS1-2-7では、第2のアルゴリズムに基づいて各第1の候補エンティティとクエリ要求との第3の距離を計算する。
第2のアルゴリズムは、第1のアルゴリズムとは異なる従来技術による距離を計算するアルゴリズムである。
ステップS1-2-8では、第4の閾値以下の第3の距離に対応する第1の候補エンティティをターゲット候補エンティティとして決定する。
本開示の実施例では、初期候補エンティティから順次選出するように、二つの異なるアルゴリズムを使用してそれぞれ計算し、最終的にターゲット候補エンティティを決定する技術案によって、不必要な計算資源の消費を低減し、計算効率を向上させる。本開示の実施例では、具体的な距離算出方法を特に限定しない。
いくつかの実施例では、第1のアルゴリズムが編集距離アルゴリズムである場合、第2のアルゴリズムはジャッカード距離アルゴリズムである。第1のアルゴリズムがジャッカード距離アルゴリズムである場合、第2のアルゴリズムは編集距離アルゴリズムである。
第3の閾値と第4の閾値は、適用シーンに基づいて設定することもでき、第3の閾値と第4の閾値との間は、必然的な大小関係がないので、ここでは説明しない。
図5から分かるように、S1の前に、初期化ステップ、すなわち辞書ツリーを構築するステップをさらに含み、具体的には、以下のステップを含む。
ステップS01では、予め設定された知識ベースから複数のエンティティを抽出する。
ステップS02では、各エンティティを予め設定された辞書ツリーのノードとし、各エンティティのエンティティセンスを、それが属するエンティティの子ノードとし、各エンティティセンスに唯一の識別子を割り当て、辞書ツリーを取得する。
本実施例では、従来技術の辞書ツリーを改善する。
具体的には、従来技術では、辞書ツリーを構築する際に、まず、知識ベースから複数のエンティティを抽出し、次に、各エンティティを予め設定された辞書ツリー(すなわち事前に作成された辞書ツリーモデル)のノードとする。しかし、本開示の実施例では、知識ベースから複数のエンティティを抽出し、各エンティティをいずれも予め設定された辞書ツリーのノードとした後、各エンティティのエンティティセンスを当該エンティティのノード内に挿入して、当該エンティティのノードの子ノードとし、各エンティティセンスに一つの唯一の識別子を割り当てる。
一つのエンティティが複数のエンティティセンスに対応可能である場合、各エンティティセンスをいずれも当該エンティティの子ノードとし、各エンティティセンスにいずれも唯一の識別子を割り当てる。例えば、エンティティAは、10つのエンティティセンスを共有する場合、10つのエンティティセンスをいずれもエンティティAのノードに挿入し、エンティティAの10つの子ノードになる。
具体的には、センスは、見出し語、項目などであり、各異なる概念の事物を記述する内容を指すことができる。候補エンティティのエンティティセンスは、当該候補エンティティに対応するすべてのエンティティセンス又は一部のエンティティセンスであってもよい。一部の候補エンティティとエンティティセンスの選択は、さまざまな状況に応じて行うことができる。具体的な選択方式は、本明細書では限定しない。
具体的には、「知識ベース」との用語は、知識グラフ又は他の適切なデータベースのようなノードとエッジで構成される図に似たデータ構造を指す。知識ベースにおいて、各ノードは、現実世界に存在する「エンティティ」を表し、各エッジは、エンティティとエンティティとの間の「関係」を示す。知識ベースは、関係の有效的な表示方式である。言い換えると、知識ベースは、異なる種類の情報を連結して取得される一つのリレーショナルネットワークによって、「関係」の観点から問題を分析する能力を提供する。
本開示の実施例は、各エンティティのエンティティセンスを、それが属するエンティティの子ノードとすることにより、異なるセンスエンティティを区分することができ、辞書ツリーを柔軟かつ全面的に構築することによって、効率的かつ正確な誤り訂正を実現することができる。各エンティティセンスに唯一の識別子を割り当て、当該唯一の識別子に基づいて具体的なエンティティセンスを正確に特定することによって、迅速な誤り訂正を実現することができる。
ステップS2では、各ターゲット候補エンティティが正当なエンティティである第1の確率を計算する。
正当なエンティティは、表現が正しいエンティティを指す。
当該ステップでは、第1の確率は、ターゲット候補エンティティが正当なエンティティ(又は正しいエンティティ)であるか否かの可能性を表す。具体的には、言語モデル(NGRAM言語モデルなど)に基づいて各ターゲット候補エンティティを計算し、各ターゲット候補エンティティに対応する第1の確率を取得する。
ステップS3では、各ターゲット候補エンティティを評価し、評価結果を取得する。一つのターゲット候補エンティティは、一つの評価結果に対応する。
従来技術における評価方法を使用して各ターゲット候補エンティティを評価することができる。従来技術における評価モデルによって評価するか、又は計算方法を介して計算することによって、評価する。勿論、ニューラルネットワークモデルを使用して評価することもできる。
好ましくは、ランキングLTRモデルを使用して各ターゲット候補エンティティを評価する。
ランキングLTRモデルは、機械学習によるランキングであり、ランキングlearning to rankモデルと呼ばれ、その基本原理は、線形モデルである。本開示の実施において、エンティティの重み、文法、字句、依存、term重要度、word embedding(単語埋め込みベクトル)などの特徴に基づいてランキングLRTモデルを構築する。
具体的には、ランキングLTRモデルは複数のターゲット候補エンティティをそれぞれ評価し、ランキングLTRモデルは各ターゲット候補エンティティをそれぞれスコアリングする。つまり、あるターゲット候補エンティティをランキングLTRモデルに入力する場合、ランキングLTRモデルは、当該ターゲット候補エンティティに対応するスコアを出力することができる。
本開示の実施例では、ターゲット候補エンティティとランキングLTRモデルを組み合わせて、当該ターゲット候補エンティティの評価結果の技術案を取得することにより、複数のターゲット候補エンティティのうちの各ターゲット候補エンティティの評価結果を区分することができる。すなわち、各ターゲット候補エンティティの相違を理解することができる。
図6から分かるように、いくつかの実施例では、S3は、以下のステップを含む。
ステップS3-1では、各ターゲット候補エンティティに対応する属性情報を抽出する。
当該ステップでは、各ターゲット候補エンティティの関連知識情報(すなわち属性情報)は、完全に同じではない。各ターゲット候補エンティティに対応する関連知識情報(すなわち属性情報)を抽出する。
ステップS3-2では、各ターゲット候補エンティティの属性情報の重みを決定する。
本開示の実施例では、各ターゲット候補エンティティの属性情報の重みを決定する方式は、様々な方式がある。例えば、現在の適用シーンに基づいて各ターゲット候補エンティティに対応する重みを決定するか、又は、従来技術における属性情報と重みの付け方法に基づいて、ターゲット候補エンティティの重みを決定する。
好ましくは、予め設定された属性情報と重みとの対応関係に基づいて、各ターゲット候補エンティティの重みを決定する。
具体的には、異なる属性情報に対して予め重み付けを行い、すなわち優先度に基づいて対応する優先度の重みを予め設置する。重みと属性情報との対応関係を構築する。例えば、マッピングテーブルの方式によって両者(すなわち重みと属性情報)の対応関係を構築することができる。あるターゲット候補エンティティに対応する属性情報を抽出した後、当該属性情報をマッピングテーブルとマッチングし、マッピングテーブルおける属性情報に対応する重みを見つけることができる。すなわち、当該ステップは、実際に「重みラベル付け」のステップである。複数のターゲット候補エンティティに重みのラベル付けを行うプロセスは、互いに干渉せず、並列して実行可能である。
具体的な例を合わせて詳細に説明する。例えば、ユーザがクエリ要求Aを検索し、上記の方法に基づいて複数のターゲット候補エンティティを決定した後、ターゲット候補エンティティB(例えば《タイムレイダース》(Time Raiders))を評価する場合、まず、ターゲット候補エンティティBの属性情報(俳優、ターゲット候補エンティティBのカテゴリ、映画のカテゴリ、上映時間など)を取得し、対応する属性情報に基づいて重みのラベル付けを行う。具体的には、グラフの形式によってラベル付け結果(中間結果と最終結果を含む)を示すことができる。
ステップS3-3では、重みに基づいて各ターゲット候補エンティティを評価する。
好ましくは、ランキングLTRモデルに基づいて各ターゲット候補エンティティを評価する。
本開示の実施例により提供される各ターゲット候補エンティティを評価する考案は、ターゲット候補エンティティの関連知識情報(すなわち属性情報)及び各パラメータなどを総合的に考慮している。このため、正確性が高い評価結果を出力するという技術的効果を実現することができる。
ステップS4では、第1の確率及び評価結果に基づいてクエリ要求に対応する真の意図エンティティを決定する。
真の意図エンティティとは、クエリ要求に対応するエンティティを最もよく実現することを指す。つまり、真の意図エンティティは、ユーザが期待するクエリ結果を最もよく実現することに対応するエンティティである。
本開示の実施例では、取得されたターゲット候補エンティティの具体的な包括性及び精度の特徴と、取得されたターゲット候補エンティティの評価結果は高い正確性を有するため、各ターゲット候補エンティティの第1の確率及び評価結果に基づいて高い正確度の真の意図エンティティを取得することができる。さらに、誤り訂正の効率と誤り訂正の正確率を向上させることができる。
図7から分かるように、いくつかの実施例では、S4は、具体的には、以下のステップを含む。
ステップS4-1では、各ターゲット候補エンティティに対応する第1の確率及び評価結果に対して重み付けを行い、各ターゲット候補エンティティに対応する加重値を取得する。
ステップS4-2では、最大の加重値に対応するターゲット候補エンティティを真の意図エンティティとして決定する。
具体的には、複数の加重値を昇順又は降順で並び、その中から最大の加重値を選択し、次に、最大の加重値に対応するターゲット候補エンティティを真の意図エンティティとして決定する。
本開示の実施例における、最大の加重値に対応するターゲット候補エンティティを選択し、当該ターゲット候補エンティティをユーザの真に検索を期待するエンティティとして決定する考案によって、ユーザの真の検索意図を正確に決定し、ユーザの検索体験を向上させる技術的効果を実現することができる。
本開示の実施例に係る別の態様において、本開示の実施例は、誤り訂正装置をさらに提供する。
図8を参照すると、図8は、本開示の実施例に係る誤り訂正装置の概略図である。
図8に示すように、当該装置は、受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定するための取得モジュール1と、各ターゲット候補エンティティが正当なエンティティである第1の確率を計算するための確率計算モジュール2と、各ターゲット候補エンティティを評価し、評価結果を取得するための評価モジュール3であって、一つのターゲット候補エンティティは、一つの評価結果に対応する評価モジュール3と、第1の確率及び評価結果に基づいてクエリ要求に対応する真の意図エンティティを決定するための決定モジュール4と、を含む。
いくつかの実施例では、確率計算モジュール2は、さらに、クエリ要求の入力が正確な第2の確率を計算する。
取得モジュール1は、具体的には、第2の確率が予め設定された第1の閾値より小さいことに応答して、受信されたクエリ要求に基づいて、辞書ツリーから各ターゲット候補エンティティを決定する。
いくつかの実施例では、取得モジュール1は、具体的には、クエリ要求における文字列及び辞書ツリーを計算し、複数の初期候補エンティティを取得し、予め設定された第2の閾値に基づいて、複数の初期候補エンティティからクエリ要求に対応するターゲット候補エンティティを選択する。
いくつかの実施例では、取得モジュール1は、具体的には、各初期候補エンティティとクエリ要求との第1の距離を計算し、各第1の距離を第2の閾値とそれぞれ比較し、第2の閾値以下の第1の距離に対応する初期候補エンティティをターゲット候補エンティティとして決定する。
いくつかの実施例では、前記第2の閾値が第3の閾値と第4の閾値とを含む場合、前記取得モジュールは、具体的には、第1のアルゴリズムに基づいて各前記初期候補エンティティと前記クエリ要求との第2の距離を計算し、前記第2の距離を前記第3の閾値と比較し、複数の前記初期候補エンティティから前記第3の閾値以下の第2の距離に対応する第1の候補エンティティを抽出し、第2のアルゴリズムに基づいて各前記第1の候補エンティティと前記クエリ要求との第3の距離を計算し、前記第4の閾値以下の第3の距離に対応する第1の候補エンティティを前記ターゲット候補エンティティとして決定する。
いくつかの実施例では、前記第1のアルゴリズムが編集距離アルゴリズムである場合、第2のアルゴリズムはジャッカード距離アルゴリズムであり、前記第1のアルゴリズムが前記ジャッカード距離アルゴリズムである場合、前記第2のアルゴリズムは前記編集距離アルゴリズムである。
いくつかの実施例では、評価モジュール3は、具体的には、各ターゲット候補エンティティに対応する属性情報を抽出し、各ターゲット候補エンティティの属性情報の重みを決定し、重みに基づいて各ターゲット候補エンティティを評価する。
いくつかの実施例では、決定モジュール4は、具体的には、各ターゲット候補エンティティに対応する第1の確率及び評価結果に対して重み付けを行い、各ターゲット候補エンティティに対応する加重値を取得し、最大の加重値に対応するターゲット候補エンティティを真の意図エンティティとして決定する。
図8を合わせて分かるように、いくつかの実施例では、当該装置は、予め設定された知識ベースから複数のエンティティを抽出するための抽出モジュール5と、各エンティティを予め設定された辞書ツリーのノードとし、各エンティティのエンティティセンスを、それが属するエンティティの子ノードとし、各エンティティセンスに唯一の識別子を割り当て、辞書ツリーを取得するための構築モジュール6と、をさらに含む。
図9を参照すると、図9は、本開示の実施例に係る誤り訂正装置のフレーム概略図である。
図9に示される誤り訂正装置は、単なる一つの例であり、本発明の実施例の機能と使用範囲を制限するものではない。
図9に示すように、誤り訂正装置は、汎用コンピューティングデバイスの形式として表される。誤り訂正装置のコンポーネントは、一つ又は複数のプロセッサ又は処理ユニット11と、メモリ12、異なるコンポーネント(メモリ12と処理ユニット11とを含む)を接続するバス13と、を含むことができるが、これらに限定されない。
バス13は、下記のような複数のバス構造のうちの一つ又は複数のものを示し、前記複数のバス構造は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちの任意のバス構造を使用するローカルバスを含む。例をあげると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MAC)バス、拡張ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバス、及びペリフェラルコンポーネントインターコネクト(PCI)バスを含むが、これらに限定されない。
誤り訂正装置は、典型的には、多種類のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、誤り訂正装置がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。
メモリ12は、ランダムアクセスメモリ(RAM)14及び/又はキャッシュ15(すなわちキャッシュメモリ)などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を含んでもよい。誤り訂正装置は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。単なる一例として、ストレージシステム16は、ノンリムーバブル、不揮発性磁気媒体(図9に示されていないが、通常「ハードアクチュエー」と呼ぶ)に対して読み出し及び書き込みをするために用いることができる。図9に示されていないが、リムーバブル、不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み出し及び書き込みをするための磁気ディスクアクチュエー、及びリムーバブル、不揮発性光学ディスク(例えば、コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタルビデオディスク読み取り専用メモリ(DVD-ROM)又は他の光学媒体)に対して読み出し及び書き込みをするための光学ディスクアクチュエーを提供することができる。この場合、各アクチュエーは、一つ又は複数のデータメディアインターフェイスを介してバス13に接続することができる。メモリ12は、本発明の各実施例に記載の機能を実行するように構成されるワンセットのプログラムモジュール(例えば、少なくとも一つ)を有する少なくとも一つのプログラム製品を含んでもよい。
ワンセットのプログラムコンポーネント17(少なくとも一つ)を有するプログラム/ユーティリティ840は、例えば、メモリ12に記憶されてもよく、このようなプログラムコンポーネント17は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムコンポーネント、及びプログラムデータを含むことができるがこれらに限定されない。これらの例のそれぞれ又はいずれか組み合わせには、ネットワーク環境の実装が含まれる可能性がある。プログラムコンポーネント17は、通常、本発明に記載の実施例における機能及び/又は方法を実行する。
誤り訂正装置は、一つ又は複数の外部デバイス19(例えば、キーボード、ポインティングデバイス、ディスプレイ20など)と通信することができ、ユーザが誤り訂正装置とインタラクションすることを可能にする一つ又は複数の機器と通信することもでき、及び/又は誤り訂正装置が一つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意の機器(例えば、ネットワークカード、モデムなど)と通信することもできる。そのような通信は、入力/出力(I/O)インターフェイス21を介して行うことができる。また、誤り訂正装置は、ネットワークアダプタ22を介して、一つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及び/又はパブリックネットワーク、例えば、インターネット)と通信することができる。図に示すように、ネットワークアダプタ22は、バス13を介して、誤り訂正装置の他のコンポーネントと通信する。なお、図示されていないが、マイクロコードや機器アクチュエー、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライバ、及びデータバックアップトレージシステムなどを含むが、これらに限定されない他のハードウェア及び/又はソフトウェアモジュールを、誤り訂正装置と組み合わせて使用することができる。
処理ユニット11は、メモリ12に記憶される複数のプログラムにおける少なくとも一つのプログラムを実行することにより、多様な機能アプリケーション及びデータ処理を実行し、例えば、本発明の実施例によって提供される誤り訂正方法を実現する。
本開示の実施例に係る別の態様において、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体をさらに提供し、前記プログラムがプロセッサにより実行される場合に、前記の方法を実現する。
当業者であれば、上記で開示された方法のすべて又はいくつかのステップ、システム、装置における機能モジュール/ユニットは、ソフトウェア、ファームウェア、ハードウェア、及び適切な組み合わせとして実施されてもよいことが理解されよう。ハードウェア実施形態において、上記の説明で提出した機能モジュール/ユニットの間の区分は、必ずしも物理コンポーネントの区分に対応するものではなく、例えば、1つの物理コンポーネントは、複数の機能を有してもよく、または1つの機能又はステップは、複数の物理コンポーネントによって連携して実行されてもよい。いくつかの物理コンポーネント又はすべての物理コンポーネントは、中央処理装置、デジタル信号プロセッサ、又はマイクロプロセッサなどのプロセッサによって実行されるソフトウェアとして実施されてもよく、又はハードウェアとして実施されてもよく、又は特定用途向け集積回路のような集積回路に実施されてもよい。このようなソフトウェアは、コンピュータ読み取り可能な媒体に配置されてもよく、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体(又は非一時的な媒体)と通信媒体(又は一時的な媒体)を含むことができる。当業者に周知の通り、コンピュータ記憶媒体という用語は、情報(例えばコンピュータ読み取り可能なコマンド、データ構造、プログラムモジュール、又は他のデータ)を記憶するための任意の方法又は技術において実施される揮発性と不揮発性、リムーバブル媒体と非リムーバブル媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ又は他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)又は他の光ディスクメモリ、マグネットボックス、デープ、ディスクストレージ又は他の磁気メモリ装置、又は所望の情報を記憶し、コンピュータによってアクセスされることができる他の任意の媒体を含むことができるが、これらに限定されない。また、当業者に周知であるように、通信媒体は、通常、コンピュータ読み取り可能な媒体、データ構造、プログラムモジュール、又は例えば搬送波や他の伝送方式などの変調データ信号における他のデータを含み、任意の情報配信媒体を含むことができる。
本明細書では、例示的な実施例が開示され、具体的な用語が使用されているが、一般的な説明的な意味として解釈されることのみに用いられ、限定の目的には用いられない。いくつかの実施例において、当業者にとって明らかなことは、他に明確に指摘しない限り、特定の実施例と組み合わせて説明した特徴、特性及び/又は要素を単独で使用することもできるし、または他の実施例と組み合わせて説明した特徴、特性及び/又は要素と組み合わせて使用することもできる。よって、当業者は、添付された請求項により開示された本願の範囲を逸脱することなく、様々な形式および詳細な変更を行うことができる。
1 取得モジュール
2 確率計算モジュール
3 評価モジュール
4 決定モジュール
5 抽出モジュール
6 構築モジュール
11 処理ユニット(又はプロセッサ)
12 メモリ
13 バス
14 RAM
15 キャッシュ
16 ストレージシステム
17 プログラムコンポーネント
18 実用ツール
19 外部デバイス
20 ディスプレイ
21 I/Oインターフェイス
22 ネットワークアダプタ

Claims (17)

  1. 受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定するステップと、
    言語モデルに基づいて、各前記ターゲット候補エンティティが正当なエンティティである第1の確率を計算するステップと、
    各前記ターゲット候補エンティティを評価し、評価結果を取得するステップであって、一つの前記ターゲット候補エンティティは、一つの評価結果に対応するステップと、
    前記第1の確率と前記評価結果とに基づいて前記クエリ要求に対応する真の意図エンティティを決定するステップと、を含み、
    前記受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定するステップの前に、
    言語モデルに基づいて、前記クエリ要求の入力が正確である第2の確率を計算するステップであって、前記クエリ要求の入力が正確であることは、該クエリ要求が認識可能であるか、またはスペルが正しいクエリ要求を指すステップを含み、
    前記受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定するステップが、
    前記第2の確率が予め設定された第1の閾値より小さいことに応答して、受信されたクエリ要求に基づいて、前記辞書ツリーから前記ターゲット候補エンティティを決定するステップを含む誤り訂正方法。
  2. 前記受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定するステップは、
    前記クエリ要求における文字列及び前記辞書ツリーを計算して、複数の初期候補エンティティを取得するステップと、
    予め設定された第2の閾値に基づいて、複数の前記初期候補エンティティから前記クエリ要求に対応する前記ターゲット候補エンティティを選択するステップと、を含む請求項1に記載の誤り訂正方法。
  3. 前記予め設定された第2の閾値に基づいて、複数の前記初期候補エンティティから前記クエリ要求に対応する前記ターゲット候補エンティティを選択するステップは、
    各前記初期候補エンティティと前記クエリ要求との第1の距離を計算するステップと、
    各前記第1の距離をそれぞれ前記第2の閾値と比較するステップと、
    前記第2の閾値以下の第1の距離に対応する初期候補エンティティを前記ターゲット候補エンティティとして決定するステップと、を含む請求項2に記載の誤り訂正方法。
  4. 前記第2の閾値が第3の閾値および第4の閾値のみからなる場合、前記予め設定された第2の閾値に基づいて、複数の前記初期候補エンティティから前記クエリ要求に対応する前記ターゲット候補エンティティを選択するステップは、
    第1のアルゴリズムに基づいて各前記初期候補エンティティと前記クエリ要求との第2の距離を計算するステップと、
    前記第2の距離を前記第3の閾値と比較するステップと、
    複数の前記初期候補エンティティから前記第3の閾値以下の第2の距離に対応する第1の候補エンティティを抽出するステップと、
    第2のアルゴリズムに基づいて各前記第1の候補エンティティと前記クエリ要求との第3の距離を計算するステップと、
    前記第4の閾値以下の第3の距離に対応する第1の候補エンティティを前記ターゲット候補エンティティとして決定するステップと、を含む請求項2に記載の誤り訂正方法。
  5. 前記第1のアルゴリズムが編集距離アルゴリズムである場合、第2のアルゴリズムはジャッカード距離アルゴリズムであり、
    前記第1のアルゴリズムが前記ジャッカード距離アルゴリズムである場合、前記第2のアルゴリズムは前記編集距離アルゴリズムである請求項4に記載の誤り訂正方法。
  6. 前記各前記ターゲット候補エンティティを評価するステップは、
    各前記ターゲット候補エンティティに対応する属性情報を抽出するステップと、
    各前記ターゲット候補エンティティの属性情報の重みを決定するステップと、
    前記重みに基づいて各前記ターゲット候補エンティティを評価するステップと、を含む請求項1に記載の誤り訂正方法。
  7. 前記第1の確率と前記評価結果に基づいて前記クエリ要求に対応する真の意図エンティティを決定するステップは、
    各前記ターゲット候補エンティティに対応する第1の確率及び評価結果に対して重み付けを行い、各前記ターゲット候補エンティティに対応する加重値を取得するステップと、
    最大の加重値に対応するターゲット候補エンティティを前記真の意図エンティティとして決定するステップと、を含む請求項1に記載の誤り訂正方法。
  8. 予め設定された知識ベースから複数のエンティティを抽出するステップと、
    各前記エンティティを予め設定された辞書ツリーのノードとし、各前記エンティティのエンティティセンスを、それが属するエンティティの子ノードとし、各前記エンティティセンスに唯一の識別子を割り当て、前記辞書ツリーを取得するステップと、を含む請求項1から7のいずれかに記載の誤り訂正方法。
  9. 受信されたクエリ要求に基づいて、予め設定された辞書ツリーから複数のターゲット候補エンティティを決定するための取得モジュールと、
    各前記ターゲット候補エンティティが正当なエンティティである第1の確率を計算するための確率計算モジュールと、
    各前記ターゲット候補エンティティを評価し、評価結果を取得するための評価モジュールであって、一つの前記ターゲット候補エンティティは、一つの評価結果に対応する評価モジュールと、
    前記第1の確率と前記評価結果とに基づいて前記クエリ要求に対応する真の意図エンティティを決定するための決定モジュールと、を備え、
    前記確率計算モジュールが、前記クエリ要求の入力が正確である第2の確率を計算し、前記クエリ要求の入力が正確であることは、該クエリ要求が認識可能であるか、またはスペルが正しいクエリ要求を指し、
    前記取得モジュールが、前記第2の確率が予め設定された第1の閾値より小さいことに応答して、受信されたクエリ要求に基づいて、前記辞書ツリーから前記ターゲット候補エンティティを決定する誤り訂正装置。
  10. 前記取得モジュールは、
    前記クエリ要求における文字列及び前記辞書ツリーを計算して、複数の初期候補エンティティを取得し、
    予め設定された第2の閾値に基づいて、複数の前記初期候補エンティティから前記クエリ要求に対応する前記ターゲット候補エンティティを選択する請求項9に記載の誤り訂正装置。
  11. 前記取得モジュールは、
    各前記初期候補エンティティと前記クエリ要求との第1の距離を計算し、
    各前記第1の距離をそれぞれ前記第2の閾値と比較し、
    前記第2の閾値以下の第1の距離に対応する初期候補エンティティを前記ターゲット候補エンティティとして決定する請求項10に記載の誤り訂正装置。
  12. 前記第2の閾値が第3の閾値および第4の閾値のみからなる場合、前記取得モジュールは、
    第1のアルゴリズムに基づいて各前記初期候補エンティティと前記クエリ要求との第2の距離を計算し、
    前記第2の距離を前記第3の閾値と比較し、
    複数の前記初期候補エンティティから前記第3の閾値以下の第2の距離に対応する第1の候補エンティティを抽出し、
    第2のアルゴリズムに基づいて各前記第1の候補エンティティと前記クエリ要求との第3の距離を計算し、
    前記第4の閾値以下の第3の距離に対応する第1の候補エンティティを前記ターゲット候補エンティティとして決定する請求項10に記載の誤り訂正装置。
  13. 前記第1のアルゴリズムが編集距離アルゴリズムである場合、第2のアルゴリズムはジャッカード距離アルゴリズムであり、
    前記第1のアルゴリズムが前記ジャッカード距離アルゴリズムである場合、前記第2のアルゴリズムは前記編集距離アルゴリズムである請求項12に記載の誤り訂正装置。
  14. 前記評価モジュールは、
    各前記ターゲット候補エンティティに対応する属性情報を抽出し、
    各前記ターゲット候補エンティティの属性情報の重みを決定し、
    前記重みに基づいて各前記ターゲット候補エンティティを評価する請求項9に記載の誤り訂正装置。
  15. 前記決定モジュールは、
    各前記ターゲット候補エンティティに対応する第1の確率及び評価結果に対して重み付けを行い、各前記ターゲット候補エンティティに対応する加重値を取得し、
    最大の加重値に対応するターゲット候補エンティティを前記真の意図エンティティとして決定する請求項9に記載の誤り訂正装置。
  16. 予め設定された知識ベースから複数のエンティティを抽出するための抽出モジュールと、
    各前記エンティティを予め設定された辞書ツリーのノードとし、各前記エンティティのエンティティセンスを、それが属するエンティティの子ノードとし、各前記エンティティセンスに唯一の識別子を割り当て、前記辞書ツリーを取得するための構築モジュールと、を備える請求項9から15のいずれかに記載の誤り訂正装置。
  17. コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムがプロセッサにより実行される場合に、請求項1から8のいずれかに記載の方法が実現される、コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体。
JP2020024073A 2019-02-21 2020-02-17 誤り訂正方法及び装置、コンピュータ読み取り可能な媒体 Active JP7149976B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910130735.9 2019-02-21
CN201910130735.9A CN109885180B (zh) 2019-02-21 2019-02-21 纠错方法和装置、计算机可读介质

Publications (2)

Publication Number Publication Date
JP2020135892A JP2020135892A (ja) 2020-08-31
JP7149976B2 true JP7149976B2 (ja) 2022-10-07

Family

ID=66928849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020024073A Active JP7149976B2 (ja) 2019-02-21 2020-02-17 誤り訂正方法及び装置、コンピュータ読み取り可能な媒体

Country Status (5)

Country Link
US (1) US11663269B2 (ja)
EP (1) EP3699779A1 (ja)
JP (1) JP7149976B2 (ja)
KR (1) KR102215299B1 (ja)
CN (1) CN109885180B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647987A (zh) * 2019-08-22 2020-01-03 腾讯科技(深圳)有限公司 一种应用程序中数据的处理方法、装置、电子设备及存储介质
CN112732471A (zh) * 2019-10-28 2021-04-30 北京沃东天骏信息技术有限公司 接口返回数据的纠错方法和纠错装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003091552A (ja) 2001-09-17 2003-03-28 Hitachi Ltd 検索要求情報抽出方法及びその実施システム並びにその処理プログラム
JP2007025834A (ja) 2005-07-13 2007-02-01 Hitachi Ltd 読影レポート入力支援方法及び読影レポート入力支援システム
JP2008009542A (ja) 2006-06-27 2008-01-17 Hitachi Systems & Services Ltd 知識辞書情報生成装置
JP2012079029A (ja) 2010-09-30 2012-04-19 Yahoo Japan Corp サジェスチョンクエリ抽出装置及び方法、並びにプログラム
WO2014152936A2 (en) 2013-03-14 2014-09-25 Microsoft Corporation Query intent expression for search in an embedded application context
US20180260406A1 (en) 2017-03-13 2018-09-13 Target Brands, Inc. Spell checker

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
JP4028429B2 (ja) * 2003-04-17 2007-12-26 日本電信電話株式会社 コンピュータ、イベントプレース探索方法、及び、コンピュータプログラム
US8402032B1 (en) * 2010-03-25 2013-03-19 Google Inc. Generating context-based spell corrections of entity names
CN102193914A (zh) * 2011-05-26 2011-09-21 中国科学院计算技术研究所 计算机辅助翻译的方法及系统
CN103870505B (zh) * 2012-12-17 2017-10-27 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
US9223898B2 (en) * 2013-05-08 2015-12-29 Facebook, Inc. Filtering suggested structured queries on online social networks
US9437020B2 (en) * 2013-12-23 2016-09-06 Red Hat, Inc. System and method to check the correct rendering of a font
US9916328B1 (en) * 2014-07-11 2018-03-13 Google Llc Providing user assistance from interaction understanding
US9703394B2 (en) * 2015-03-24 2017-07-11 Google Inc. Unlearning techniques for adaptive language models in text entry
US10325014B2 (en) * 2015-04-30 2019-06-18 Workiva Inc. System and method for convergent document collaboration
US9843584B2 (en) * 2015-10-01 2017-12-12 International Business Machines Corporation Protecting privacy in an online setting
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
US11314791B2 (en) * 2016-03-23 2022-04-26 Ebay Inc. Smart match autocomplete system
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统
KR101992399B1 (ko) * 2016-07-05 2019-06-24 한국전자통신연구원 하이브리드 추론 기반의 자연어 질의응답 시스템 및 그 방법
CN106528845B (zh) * 2016-11-22 2019-09-03 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
US10467292B2 (en) * 2017-02-28 2019-11-05 Salesforce.Com, Inc. Suggesting query items based on database fields
CN107193921B (zh) * 2017-05-15 2020-02-07 中山大学 面向搜索引擎的中英混合查询纠错的方法及系统
WO2018214163A1 (en) * 2017-05-26 2018-11-29 Microsoft Technology Licensing, Llc Providing product recommendation in automated chatting
CN108052658B (zh) * 2017-12-28 2021-12-21 北京百度网讯科技有限公司 基于人工智能的查询信息纠错构架生成方法和装置
CN108399265A (zh) * 2018-03-23 2018-08-14 北京奇虎科技有限公司 基于搜索的实时热点新闻提供方法及装置
CN108932323A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 实体答案的确定方法、装置、服务器及存储介质
US11037356B2 (en) * 2018-09-24 2021-06-15 Zignal Labs, Inc. System and method for executing non-graphical algorithms on a GPU (graphics processing unit)
US11170055B2 (en) * 2018-12-28 2021-11-09 Open Text Sa Ulc Artificial intelligence augmented document capture and processing systems and methods
US10845842B2 (en) * 2019-03-29 2020-11-24 Lenovo (Singapore) Pte. Ltd. Systems and methods for presentation of input elements based on direction to a user
US11442992B1 (en) * 2019-06-28 2022-09-13 Meta Platforms Technologies, Llc Conversational reasoning with knowledge graph paths for assistant systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003091552A (ja) 2001-09-17 2003-03-28 Hitachi Ltd 検索要求情報抽出方法及びその実施システム並びにその処理プログラム
JP2007025834A (ja) 2005-07-13 2007-02-01 Hitachi Ltd 読影レポート入力支援方法及び読影レポート入力支援システム
JP2008009542A (ja) 2006-06-27 2008-01-17 Hitachi Systems & Services Ltd 知識辞書情報生成装置
JP2012079029A (ja) 2010-09-30 2012-04-19 Yahoo Japan Corp サジェスチョンクエリ抽出装置及び方法、並びにプログラム
WO2014152936A2 (en) 2013-03-14 2014-09-25 Microsoft Corporation Query intent expression for search in an embedded application context
US20180260406A1 (en) 2017-03-13 2018-09-13 Target Brands, Inc. Spell checker

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
安原 誠 外,Double-Arrayを利用した高速かつコンパクトなngram言語モデルの構築手法,言語処理学会第19回年次大会 発表論文集 [online],日本,言語処理学会,2013年03月04日,PP. 342--345
平手 勇宇,キーワード型検索エンジンにおける修正キーワード候補提示アルゴリズム,第2回データ工学と情報マネジメントに関するフォーラム-DEIM 2010-論文集 [online],日本,電子情報通信学会データ工学研究専門委員会,2010年05月25日,pp. 1-8

Also Published As

Publication number Publication date
US20200272668A1 (en) 2020-08-27
KR20200102919A (ko) 2020-09-01
KR102215299B1 (ko) 2021-02-15
EP3699779A1 (en) 2020-08-26
CN109885180A (zh) 2019-06-14
US11663269B2 (en) 2023-05-30
CN109885180B (zh) 2022-12-06
JP2020135892A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
CN108292310B (zh) 用于数字实体相关的技术
US11017178B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
CN107784110B (zh) 一种索引建立方法及装置
JP7149976B2 (ja) 誤り訂正方法及び装置、コンピュータ読み取り可能な媒体
Tian et al. Deep cross-modal face naming for people news retrieval
US11048730B2 (en) Data clustering apparatus and method based on range query using CF tree
CN110795562A (zh) 图谱优化方法、装置、终端及存储介质
US11755671B2 (en) Projecting queries into a content item embedding space
JP2014048989A (ja) BoF表現生成装置及びBoF表現生成方法
JP2017162230A (ja) 情報処理装置、類似データ検索方法、及び類似データ検索プログラム
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
JP6902131B2 (ja) クエリ処理方法、クエリ処理装置及びコンピュータ読み取り可能な媒体
US11893012B1 (en) Content extraction using related entity group metadata from reference objects
Slabbekoorn et al. Domain-aware ontology matching on the semantic web
CN116431774A (zh) 问答方法及装置
CN115238044A (zh) 一种敏感词检测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220927

R150 Certificate of patent or registration of utility model

Ref document number: 7149976

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150