JP2012525615A

JP2012525615A - 同義語を識別し、同義語を使用して検索するための方法および装置

Info

Publication number: JP2012525615A
Application number: JP2012506596A
Authority: JP
Inventors: ジンドン; フェイシン; ニングオ; レイホウ; チンチャン
Original assignee: アリババグループホールディングリミテッド
Priority date: 2009-04-27
Filing date: 2010-04-23
Publication date: 2012-10-22
Anticipated expiration: 2030-04-23
Also published as: CN101872351A; JP5536875B2; HK1148366A1; CN101872351B; US20110047138A1; US8392438B2; WO2010125463A1; EP2425353A4; US20130132363A1; US9239880B2; EP2425353A1

Abstract

同義語を識別し、そのような同義語を利用して、検索を行うための方法および装置が開示される。開示される方法は、識別される任意の２つの単語を取得することと、２つの単語間の最短編集距離が、編集距離の閾値以下であるか否かを判定することと、識別される２つの単語が、事前に設定された知識データベースに存在するか否かを判定することと、答えが「はい」である場合は、知識データベースの各単語に対する最も高い重み値を有する最小粒度タイプを検索することと、２つの単語が最も高い重み値を有する同一の最小粒度タイプを有する場合は、そのような２つの単語が同義語であることを決定し、またはそうでなければ同義語ではないと決定することと、を含む。開示される技術は、同義語識別の精度を著しく向上させ、同義語識別の効果を保証する。

Description

関連特許
本出願は、２００９年４月２７日に提出された、「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＩＤＥＮＴＩＦＹＩＮＧＳＹＮＯＮＹＭＳＡＮＤＵＳＩＮＧＳＹＮＯＮＹＭＳＴＯＳＥＡＲＣＨ」と題する中国特許出願第２００９１０１３７６３３．６号からの優先権を主張し、当該出願は、参照することによってその全体が本明細書に組み込まれる。

本特許出願は、コンピュータデータ処理の分野、特に、同義語を識別するための方法および装置、ならびに識別された同義語を使用して、検索を行うための方法および装置を網羅する。

中国語の同義語の自動識別のための現在の方法は、以下のとおりである。各特定の単語をウェブページとして表す、特定の単語を解釈するために使用される辞書において、特定の単語と他の単語との連結を確立する、そのような単語それぞれにスコアを割り当てる。そのようなスコアは、単語間の類似性を表す。つまり、それは解釈に関し、異なる単語間の関係をハイパーリンクのタイプとして解釈し、ページランクスコアは、異なる単語間の意味上の類似性の指標であり、次に、そのような意味の類似性に従って、同義語を識別する。この方法は、主に、同義語を決定するための指標として、ページランクスコアを使用する。ページランクスコアの決定は、入手可能なリソースに依存するが、そのようなリソースは非常に恣意的であり、制御困難である。「ｐｏｔａｔｏ」の例として、入手可能なリソースが、野菜の特徴および外観を強調する場合、「ｐｏｔａｔｏ」が、「ｔｕｂｅｒ（塊茎）」または「ｅｌｌｉｐｓｉｓ（楕円）」との同義語関係を確立する可能性が極めて高い。したがって、連結関係を表すそのようなページランクスコアは、極めて信頼性が低い。さらに、そのような低い信頼性は、自動的に検出することが困難であるため、そのような方法は、必要な同義語を正確に識別することができず、そのため識別効果を保証することができない。

一方では、本開示は、中国語の同義語を識別するための方法および装置を提供して、中国語の同義語の識別効果が保証され得ないという問題を解決することである。他方では、本開示は、検索のための方法および装置を提供して、検索結果および情報を拡充することである。

本開示は、中国語の同義語を識別するための方法を説明する。方法は、
ａ．識別される任意の２つの中国語の単語を、サーバによって取得することと、
ｂ．２つの中国語の単語間の最短編集距離が、編集距離の閾値以下であることを決定し、次に、ステップｃを行うことと、
ｃ．２つの中国語の単語の両方が、事前に設定された知識データベースに存在するか否かを判定し、答えが「はい」である場合は、知識データベース内の各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを検索することと、
ｄ．２つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有する場合は、そのような２つの中国語の単語が同義語であると決定し、またはそうでなければ、同義語ではないことを決定することと、を含む。

これらの動作の中で、２つの中国語の単語の両方が、事前に設定された知識データベースに存在するか否かを判定する動作は、
ｅ．１つまたは複数の見出されない中国語の単語が、存在する場合は、サーバによってセグメント化し、次に、セグメント化後の中国語の単語のすべてが、知識データベースに存在するか否かを判定して、答えが「はい」である場合は、知識データベース内のそのような中国語の単語のそれぞれに対して、最も高い重み値を有する最小粒度タイプを検索し、以下の動作を行うことをさらに含む。

これらの動作の中で、２つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有することを判定する動作の後、
２つの中国語の単語の任意の変更可能な文字または単語が、事前に設定された通常文字テーブルの変更可能な文字の中にあるか否かをサーバによって判定し、答えが「はい」である場合は、そのような２つの中国語の単語が同義語であると決定し、またはそうでなければ、同義語ではないことを決定することを含む、さらなる動作が存在し得る。

知識データベースは、１つまたは複数の語および概念を含む。各語または概念は、少なくとも１つのタイプに対応し、語または概念に対応する各タイプは、重み値を有する。

これらの動作の中で、知識データベース内の各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを検索する動作は、
知識データベース内の各中国語の単語に対応する語または概念を検索し、語または概念に対応する少なくとも１つのタイプおよびその重み値に従って、各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを見出すことをさらに含む。

これらの動作の中で、本方法は、２つの中国語の単語が同義語であることを決定した場合、そのような識別された同義語を同義語データベースに保存する動作も含む。

本開示は、検索のための方法も提供する。方法は、
検索エンジンによって、検索される語を含むクエリ要求をユーザから受け取ることと、
検索エンジンによって、事前に設定された同義語データベース内で語を検索し、語の同義語を見出すことと、
検索エンジンによって、その語、およびその語の同義語を使用することにより、検索を行うことと、
検索エンジンによって、その語および同義語の両方を含む結果をユーザに戻すことと、を含む。

本開示は、中国語の同義語を識別するための装置も提供する。装置は、
識別される任意の２つの中国語の単語を得るように構成される、取得装置と、
２つの中国語の単語が、編集距離の閾値以下であることを決定し、第２の決定装置に通知するように構成される、第１の決定装置と、
２つの中国語の単語の両方が、事前に設定された知識データベースに存在することを決定し、クエリ装置に通知するように構成される、第２の決定装置と、
知識データベース内の各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを見出すように構成される、クエリ装置と、
２つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有する場合は、２つの中国語の単語が同義語であることを決定し、２つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有しない場合は、２つの中国語の単語が同義語ではないことを決定するように構成される、第３の決定装置と、を含む。

装置は、知識データベースの１つまたは複数の見出されない中国語の単語をセグメント化し、第２の決定装置に通知するように構成される、セグメント化装置をさらに含む。

第２の決定装置は、セグメント化後の中国語の単語のすべてが、知識データベースに存在することを決定して、クエリ装置に通知し、セグメント化後の中国語の単語のすべてが、知識データベースに存在するわけではないことを決定して、セグメント化装置に通知するようにさらに構成される。

装置は、中国語の単語の変更可能な単語または文字が存在する場合、事前に設定された通常文字テーブルの変更可能な文字の中にあることを決定して、２つの中国語の単語が同義語であることを第３の決定装置に通知し、その中国語の単語の変更可能な単語または文字が存在する場合、事前に設定された通常文字テーブルの変更可能な文字の中にないことを決定して、２つの中国語の単語が同義語ではないことを第３の決定装置に通知するように構成される、通常文字テーブルクエリ装置もさらに含む。

装置は、サーバまたは検索エンジンである。

本開示は、検索のための装置も説明する。装置は、
検索される語を含むクエリ要求を、ユーザから受け取るように構成される、取得装置と、
同義語データベース内でその語を検索することによって、語の同義語を見出すように構成される、同義語検索装置と、
その語および語の同義語を使用することによって、検索を行うように構成される、検索装置と、
検索結果をユーザに戻すように構成される、リターン装置と、を含む。

中国語の同義語を識別するための開示される方法および装置は、開示される技術が、識別される中国語の最短編集距離を最初に判定し、したがって、同義語間の表現の相違がほとんどないため、ユーザを驚かせることなく、検索結果の精度を向上させる。さらに、開示される技術は、知識データベースを使用して、識別される中国語の単語の意味を検証し、それらが、同義語識別の精度を著しく向上させ、そのため同義語の識別効果を保証する。

検索のための開示される方法および装置は、検索中にユーザを驚かせないだけでなく、検索結果を拡充して、戻される結果がユーザのニーズにより良く適合するようにする。

開示される技術または現在の技術をより良く説明するために、詳細な説明は、添付の図面を参照して説明される。以下は、図面の簡単な説明である。以下の図面は、開示される技術の一部の例に過ぎないことは明らかである。当業者であれば、創意工夫を凝らすことなく、以下の図面に基づいて、他の図面を展開することができる。

本開示に従う、中国語の同義語を識別するための例示的なプロセスのフローチャートを説明する。本開示に従う、より良い例示的なフローチャートを説明する。本開示に従う、複数レベルのタイプを有する知識データベースの例示的な図を説明する。本開示に従う、中国語の同義語を識別するための装置の図を説明する。本開示に従う、中国語の同義語を識別するためのシステムの概略図を説明する。本開示に従う、検索方法の例示的なフローチャートを説明する。本開示に従う、検索装置の例示的なフローチャートを説明する。

本開示は、図面を参照することにより、開示される技術の明白かつ完全な説明を提供する。本明細書に記載される実現形態が、開示される開示のすべての実現形態ではなく、一部分に過ぎないことは明らかである。当業者が創意工夫を凝らすことなく、本開示に基づいて展開することができる他の実現形態のすべて、本開示の保護下にある。

本開示は、最短編集距離アルゴリズムを使用し、定義された短い編集距離を利用して、同義語間に大きな表現の相違がなく、検索アプリケーションにおいてユーザを驚かせないようにする。さらに、開示は、浅い意味検証のための知識データベースも使用して、同義語の精度を著しく向上させる。得られる同義語の一覧は、検索関連アプリケーションに対して良い効果があり、検索以外の関連アプリケーションにおいて確実に使用することができる。

図１は、本開示に従って、中国語の同義語を識別するための例示的なプロセスのフローチャートを説明する。この実施例の目的は、識別される２つの中国語の単語が、同義語であるか否かを判定することである。詳細なステップは以下のとおりである。

ステップ１０１は、識別される任意の２つの中国語の単語を、サーバによって取得することを含む。

一般に、これら２つの中国語の単語は、検索エンジンのクエリログから得られる任意の２つの中国語の単語である。効率を向上させるために、クエリログからのクエリ入力に従って、上位１００，０００語を選択し、次に、１００，０００語中のうちの、任意の２つの中国語の単語を、１つずつ比較することができる。

サーバは、検索エンジン自体であるか、あるいはユーザが同義語を比較するように特に構成された任意のサーバであるか、または演算機能を有する任意の他のサーバであり得る。

ステップ１０２は、２つの中国語の単語間の最短編集距離が、編集距離の閾値以下であることを、サーバによって決定し、次に、ステップ１０３を行うことを含む。

２つの中国語の単語の最短編集距離が、編集距離の閾値よりも大きい場合、サーバは、２つの中国語の単語が同義語ではないことを直接決定する。

ここで、編集距離の閾値は、１、２、３等であり得る。編集距離が小さいほど、２つの単語間の相違が小さいことが理解できる。

ステップ１０３は、２つの中国語の単語が、事前に設定された知識データベースに存在するか否かを判定し、答えが「はい」である場合は、ステップ１０４を行うことを含む。

知識データベースの詳細は、本明細書において後述される。

ステップ１０４は、知識データベース内の各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを、サーバによって検索することを含む。

知識データベース内の重みおよび粒度タイプの詳細は、本明細書において後述される。

ステップ１０５は、２つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有する場合、サーバによって、そのような２つの中国語の単語が同義語であることを決定し、そうでない場合は、そのような２つの中国語の単語が同義語ではないことを決定することを含む。

注目すべきは、２つの中国語の単語の双方が、知識データベースに存在しない場合、ステップは、１つまたは複数の見出されていない中国語の単語を、サーバによってセグメント化し、次に、セグメント化後の中国語の単語のすべてが知識データベースに存在するかどうかを判定して、答えが「はい」である場合は、以下のステップを行うか、またはそうでなければ、ステップ１０６を実行し続けることを含む、ステップ１０６をさらに含む。

注目すべきは、本実施例は、識別される同義語を、将来の使用のために、同義語データベースに保存することをさらに含み得る。同義語データベースは、識別された同義語を保存するテーブルの形態であり得る。識別の同義語を保存するテーブルの１つの考えられる実現形態は、検索の便宜上、相互間で同義語である、対応する単語または文字を保存することである。例えば、語Ａ１およびＡ２、Ｂ１およびＢ２、Ｃ１、Ｃ２、およびＣ３が、相互間で同義語である場合、保存形態は、表１を参照することができる。

同義語を保存するテーブルは、表１に示されるような形態に限定されないことは明らかである。本開示は、クエリ語の同義語が適時に見出され得る限り、同義語を保存するための詳細な形態を限定しない。

中国語の同義語を識別するための開示される方法は、開示される技術が、識別される中国語の単語の最短編集距離を最初に決定し、したがって、同義語間に表現の相違がほとんどないため、ユーザを驚かせないであろう。さらに、開示される技術は、知識データベースを使用して、識別される中国語の単語の意味を検証するため、それらが同義語識別の精度を著しく向上させ、同義語識別の効果を保証する。

本開示によって決定される中国語の同義語は、検索関連産業だけでなく、他の産業においても使用され得る。

図２は、本開示に従うより良い例示的フローチャートを説明する。詳細は以下のとおりである。

ステップ２０１は、識別される任意の２つの中国語の単語を、サーバによって取得することを含む。

一般に、識別されるこれら２つの中国語の単語は、ログに定期的に出現する高頻出単語、例えば、２０回以上出現する単語である。高頻出単語は、代表的であるため、それらの定期的な出現は、識別される単語が難解でないことを保証する。さらに、中国語の単語の文字の数は、閾値、例えば８を超えないことが好ましい。これは、編集距離の高速計算を容易にするためである。また、より多くの文字を有する単語の同義語を見出す可能性も低い。

本実施例において、識別される２つの中国語の単語は、検索エンジンのクエリログから得られる。

ステップ２０２は、２つの中国語の単語間の最短編集距離を、サーバによって計算することを含む。

動的プログラミングアルゴリズムまたは他のアルゴリズムを使用して、２つの中国語の単語間の最短編集距離を計算することができる。本開示は、最短編集距離を計算するために適用可能なアルゴリズムを限定しない。

現在の動的プログラミングアルゴリズムにおいて、各単語の最小単位は、文字である。２つの単語Ｗ１およびＷ２の例として、各単語は、それぞれｃ１ｃ２ｃ３およびｄ１ｄ２ｄ３から成る。ｃ１ｃ２ｃ３とｄ１ｄ２ｄ３との間の最短距離Ｄｉｓ（ｃ１ｃ２ｃ３、ｄ１ｄ２ｄ３）は、それらの子文字列の最短距離から得られる。詳細な計算方法は、以下のとおりである。ｃ３＝ｄ３である場合、Ｄｉｓ（ｃ１ｃ２ｃ３、ｄ１ｄ２ｄ３）＝Ｄｉｓ（ｃ１ｃ２、ｄ１ｄ２）＋１。それらの２つが同一でない場合は、Ｄｉｓ（ｃ１ｃ２ｃ３、ｄ１ｄ２ｄ３）＝Ｍａｘ（Ｄｉｓ（ｃ１ｃ２、ｄ１ｄ２ｄ３、Ｄｉｓ（ｃ１ｃ２ｃ３、ｄ１ｄ２））であり、式中、Ｍａｘは、２つの単語間の最大値を表す。これは、動的プログラミングアルゴリズムである。

ステップ２０３は、計算された最短編集距離が、編集距離の閾値以下であるか否かを、サーバによって判定し、答えが「はい」である場合は、ステップ２０４を行うこと、またはそうでなければ、２つの中国語の単語が同義語ではないことを決定することを含む。

より良い実装例において、編集距離の閾値は、値１に割り当てられる。

ステップ２０４は、２つの中国語の単語の両方が、事前に設定された知識データベースに存在するか否かをサーバによって検索し、答えが「はい」である場合は、ステップ２０５を行うこと、またはそうでなければ、ステップ２０８を行うことを含む。

知識データベースは、実際に、辞書であるか、１つまたは複数の語および概念から成る概念データベースである。語は、基礎単語として理解され得、概念は、語の組み合わせとして理解され得るが、そのような組み合わせは、日常生活で定期的に使用される固定された組み合わせである。例えば、「Ａｐｐｌｅ」、「北京」、および「大学」のそれぞれは、語であるが、「北京大学」は、知識データベースにおける概念である。

知識データベースは、データベースである。各アイテムは、単語を表し、各アイテムは、単語、単語のタイプ、およびタイプの重み値を含む、複数のフィールドを含む。

知識データベースは、少なくとも１つの事前定義されたタイプを有し、通常、数十のタイプを有する。そのようなタイプは、複数のレベルに分類され、各レベルは、１つの粒度に対応する。タイプは、複数のレベルに分類されるため、異なるレベルに対応するタイプは、複数の粒度を有する。複数のレベルに対応するそのような粒度は、粒度タイプと呼ばれる。タイプは、事前定義された属性である。これらの属性のすべては、言語学を参照して定義される。すべての単語は、事前にタイプに割り当てられる。

例えば、図３は、本開示に従うレベルのタイプを有する知識データベースの典型図を説明する。本実施例において、「製品」は、高次レベルのタイプに属し、第１のレベルタイプである。「製品−ブランド」、「製品−モデル」、「製品−仕様」、および「製品−スタイル」は、「製品」レベル下の異なるタイプである。言い換えれば、「製品−ブランド」、「製品−モデル」、「製品−仕様」、および「製品−スタイル」は、第１のレベルタイプの下位にある第２のレベルタイプである。「製品−タイプ」の下位には、「製品スタイル−単純」、「製品スタイル−複雑」、および「製品スタイル−一般」等の第３のレベルタイプも存在する。本実施例において、第３のレベルタイプ「製品スタイル−単純」、「製品スタイル−複雑」、および「製品スタイル−一般」は、最小粒度タイプである。

知識データベースの各語または概念は、少なくとも１つのレベルのタイプに対応する。例えば、「Ａｐｐｌｅ」は、「製品スタイル−単純」だけでなく、「野菜」タイプにも属するが、「車」は、「製品スタイル−一般」にのみ属する。さらに、各語または概念は、そのような語または概念がそのタイプに属する可能性をあらわす重み値を有する。例えば、「Ａｐｐｌｅ」が、「製品スタイル−単純」タイプに属する重み値は、０．３８であり、「Ａｐｐｌｅ」が「野菜」タイプに属する重み値は、０．５４である。

知識データベースにおける上記タイプ、タイプのレベル、およびタイプに属する語または概念の重み値は、経験の蓄積から得られることが理解できる。経験の蓄積とは、知識データベースにおけるタイプのレベルは、言語学を参照して得られるが、各単語の重みは、ウェブページリソースからの統計によって計算されることを意味する。「Ａｐｐｌｅ」の一例としては、この語は、コンピュータ製品として６０回、および野菜として４０回出現する。「製品スタイル−単純」および「野菜」のその重み値は、それぞれ０．６および０．４である。

ステップ２０５は、各中国語の単語に対して、知識データベース内の最も高い重み値を有する最小粒度タイプを、サーバによって検索することを含む。

知識データベース内の各語または概念は、少なくとも１つのタイプおよび関連する重み値に対応するため、各中国語の単語に対して最も高い重み値を有する最小粒度タイプが見出され得ることが理解できる。

ステップ２０６は、２つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有するか否かを、サーバによって判定し、答えが「はい」である場合は、ステップ２０７を行うこと、または２つの中国語の単語が同義語ではないと決定することを含む。

最小粒度タイプは、識別される中国語の単語の意味をより厳密に限定し、識別される同義語の精度を保証することが理解できる。

ステップ２０７は、２つの中国語の単語の変更可能な単語または文字が、存在する場合は、事前に設定された通常文字テーブルの変更可能な文字に属するか否かをサーバによって判定することを含む。

通常文字テーブルは、知識データベースに類似する。各ラインが通常文字を表す、テキスト文書であり得る。

通常文字テーブルは、変更可能な文字および変更不可能な文字の２つの部分を含む。変更可能な文字は、複数の文字を有する単語の接尾辞である場合が多く、そのような接尾辞、例えば、中国語の文字「机」または「器」（いずれも英語で「ｍａｃｈｉｎｅ（機械）」を意味する）は、高い出現頻度を有する。変更不可能な文字は、単語の接頭辞または接尾辞である場合が多く、単語の意味を変える場合が多い。例には、中国語の文字「不」（英語で「ｎｏ」または「ｎｏｎｅ」を意味する）、「非」（英語で「ｕｎ」を意味する）、「半」（英語で「ｓｅｍｉ」を意味する）が挙げられる。通常文字テーブルは、経験の蓄積または人による評価からも得られる。

通常文字テーブルの存在は、同義語識別の効果をさらに保証することが理解できる。

ステップ２０８は、１つまたは複数の見出されない中国語の単語を、サーバによってセグメント化することを含む。

１つまたは複数の見出されない中国語の単語は、２つの中国語の単語の両方、それらのいずれか１つ、またはセグメント化処理後の中国語の単語であり得る。

ステップ２０９は、セグメント処理後のすべての中国語の単語が、知識データベースに存在するか否かを、サーバによって判定し、答えが「はい」である場合は、ステップ２０５に戻ることを含む、そうでなければ、ステップ２０８を実行し続けることを含む。

中国語の同義語を識別するための上記方法は、検索エンジンおよび任意の他の適用可能なサーバまたはデバイスにおいて使用され得る。

注目すべきは、本実施例は、識別された同義語を、将来の使用のために、同義語データベースに保存することをさらに含み得る。同義語データベースは、識別された同義語を保存するテーブルの形態であり得る。識別された同義語を保存するテーブルの１つの考えられる実現形態は、検索の便宜上、相互の同義語である対応する単語または文字を、１つずつ保存することである。本開示は、クエリ語の同義語が適時見出され得る限り、同義語を保存するように詳細な形態を限定しない。

図２に示されるような、中国語の同義語を識別するための開示される方法は、開示される方法が識別される中国語の単語間の最短編集距離を最初に決定し、したがって同義語間に表現の相違がほとんどないため、ユーザを驚かせないであろう。さらに、開示される方法は、知識データベースを使用して、識別される中国語の単語の意味を検証するか、または最小粒度タイプを通して識別される単語の意味をより厳密に限定するため、同義語識別の精度を著しく向上させる。さらに、開示される方法は、通常文字テーブルを使用して、識別される中国語の単語の異なる文字を再検証し、同義語識別の効果をさらに保証する。

識別される同義語データベースに対して、以下のアプリケーションがあり得る。

上記アプリケーションに基づいて、本開示は、図６を参照することにより、検索のための方法も提供する。方法は、以下を含む。

ステップ６０１は、ユーザがクエリ語を入力すること、およびクエリ要求を検索エンジンに提出することを含む。

ステップ６０２は、クエリ語を含むユーザからのクエリ要求を、検索エンジンによって受け取ること、および事前に設定された同義語データベースを検索エンジンによって検索して、クエリ語の同義語を見出すことを含む。

ステップ６０３は、クエリ語およびクエリ語の同義語に従って、検索エンジンによって検索を行うことを含む。

ステップ６０４は、検索エンジンによって、クエリ語およびクエリ語の同義語を含む検索結果を戻すことを含む。

本開示は、図４を参照することによって、中国語の同義語を識別するための装置も提供する。装置は、取得装置４０１、第１の決定装置４０２、第２の決定装置４０３、クエリ装置４０４、および第３の決定装置４０５を含む。

取得装置４０１は、識別される任意の２つの中国語の単語を得るように構成される。検索エンジンアプリケーションにおいて、検索ログは、ユーザが定期的にクエリするキーワードを保存する。識別される２つの中国語の単語間で、一方は、検索エンジンでのユーザによるキーワード入力であり、他方は、ユーザによるキーワード入力に従って、検索ログから得られる。

第１の決定装置４０２は、２つの中国語の単語間の最短編集距離が、編集距離の閾値以下であることを決定し、第２の決定装置４０３に通知するように構成される。

第２の決定装置４０３は、２つの中国語の単語の両方が、事前に設定された知識データベースに存在することを決定し、クエリ装置４０４に通知するように構成される。

クエリ装置４０４は、知識データベース内の各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを見出すように構成される。

第３の決定装置４０５は、２つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有する場合は、２つの中国語の単語が同義語であることを決定し、２つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有しない場合は、２つの中国語の単語が同義語ではないことを決定するように構成される。

装置は、知識データベース内の１つまたは複数の見出されない中国語の単語をセグメント化し、次に、第２の決定装置４０３に通知するように構成される、セグメント化装置４０６も含み得る。

第２の決定装置４０３は、セグメント化後の中国語の単語のすべてが、知識データベースに存在することを決定して、クエリ装置４０４に通知し、必ずしもセグメント化後の中国語のすべてが知識データベースに存在するわけではないことを決定し、セグメント化装置４０６に通知するようにも構成される。

装置は、さらに以下を含み得る。

通常文字テーブルクエリ装置４０７であって、２つの中国語の単語の変更可能な単語または文字が、存在する場合は、事前に設定された通常文字テーブルの変更可能な文字の中にあることを決定し、第３の決定装置４０５に通知して、２つの中国語が同義語であることを決定し、２つの中国語の単語の変更可能な単語または文字が、存在する場合は、事前に設定された通常文字テーブルの変更可能な文字の中にないことを決定して、第３の決定装置４０５に通知し、２つの中国語の単語が同義語ではないことを決定するように構成される。

知識データベースおよび通常文字テーブルは、経験の蓄積から得られる。

同義語を識別するための装置は、個別のサーバ、検索エンジンの一部、または別のサーバの一部であり得る。

中国語の同義語を識別するための開示される装置は、開示される装置が、識別される中国語の単語間の最短編集距離を最初に決定し、したがって、同義語間の表現の相違がほとんどないため、ユーザを驚かせないであろう。さらに、開示される装置は、知識データベースを使用して、識別される中国語の単語の意味を検証するか、または最小粒度タイプを通して識別される単語の意味をより厳密に限定し、したがって、同義語の識別の精度を著しく向上させる。さらに、開示される装置は、通常文字テーブルを使用して、識別される中国語の単語の異なる文字を再検証し、同義語識別の効果をさらに保証する。

図５を参照して、本開示は、検索エンジンにおいて中国語の同義語を識別するためのシステムも提供する。システムは、中国語の同義語を識別するための装置５０１と、知識データベースの記憶装置のための装置５０２と、を含む。

知識データベースの記憶装置のための装置５０２は、単語／文字、単語／文字のタイプ、および前記タイプの重み値を保存するように構成される。

中国語の同義語を識別するための装置５０１は、識別される任意の２つの中国語の単語を取得し、２つの中国語の単語の間の最短編集距離が、編集距離の閾値以下であることを決定し、次に、２つの中国語の単語の両方が、知識データベースの記憶装置のための事前に設定された装置５０２に存在することを決定し、知識データベースの記憶装置のための事前に設定された装置５０２において、各中国語の単語に対して最も高い重み値を有する最小粒度タイプを個別に検索し、２つの中国語の単語が、最も高い重みを有する同一の最小粒度タイプを有する場合は、２つの中国語の単語が同義語であることを決定し、２つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有しない場合は、２つの中国語の単語が同義語ではないことを決定するように構成される。

中国語の同義語を識別するための装置５０１は、１つまたは複数の見出されない中国語の単語をセグメント化し、セグメント化後の中国語の単語のすべてが、知識データベースの記憶装置のための装置５０２に存在するかどうかを判定し、答えが「はい」の場合は、知識データベースの記憶装置のための装置５０２にあるそのような中国語の単語のそれぞれに対して、最も高い重み値を有する最小粒度タイプを検索し、以下のステップを行うか、または本ステップを再度行うようにさらに構成され得る。

システムは、変更可能な文字および変更不可能な文字を記憶するように構成される、通常文字テーブル５０３の記憶装置のための装置も含む。

中国語の同義語を識別するための装置５０１は、２つの中国語の単語の変更可能な単語または文字が、存在する場合、事前に設定された通常文字テーブルの変更可能な文字の中にある場合は、２つの中国語の単語が同義語であることを決定し、２つの中国語の単語の変更可能な単語または文字が、事前に設定された通常文字テーブルの変更可能な文字の中にない場合は、前記２つの中国語の単語が同義語ではないことを決定するように構成することもできる。

同義語を識別するためのシステムは、個別のサーバ、検索エンジンの一部、または別のサーバの一部であり得る。

中国語の同義語を識別するための開示されるシステムは、開示される装置が、識別される中国語の単語の間の最短編集距離を最初に決定し、したがって、同義語間の表現の相違がほとんどないため、ユーザを驚かせることはないであろう。さらに、開示されるシステムは、知識データベースを使用して、識別される中国語の単語の意味を検証するか、または最小粒度タイプを通して識別される単語の意味をより厳密に制限し、したがって、同義語の識別の制度を著しく向上させる。さらに、開示されるシステムは、通常文字テーブルを使用して、識別される中国語の単語の異なる特徴を再検証し、同義語識別の効果をさらに保証する。

図７を参照して、本開示は、検索のためのデバイスも開示する。デバイスは、取得装置７０１、同義語クエリ装置７０２、検索装置７０３、および結果装置７０４を含む。

取得装置７０１は、ユーザからのクエリ要求を受け取るように構成される。クエリ要求は、クエリ語を含む。

同義語クエリ装置７０２は、クエリ語を使用して、事前に設定された同義語データベースを検索することによって、クエリ語の同義語を見出すように構成される。

検索装置７０３は、クエリ語およびクエリ語の同義語を使用することによって、検索を行うように構成される。

結果装置７０４は、検索結果をユーザに戻すように構成される。

中国語の同義語を識別するための開示されるデバイスは、ユーザを驚かせないようにするだけでなく、戻される結果が、ユーザのニーズをより良好に満たすように、検索結果を拡充する。

注目すべきは、本開示が、中国語のみを実施例として使用し、中国語の同義語を識別するための方法を説明していることである。開示は、中国語の同義語の識別に限定されず、開示される技術を使用するか、または開示される技術にわずかな修正、同等の置換、改善を行うことによって、日本語、韓国語、および他の言語の同義語の識別に適用可能となり得る。さらに、第１および第２等の語は、単に、１つの実体または操作を別の実体または操作と区別するために使用され、それらの実体または操作の間に実際の関係または順序が存在することを必ずしも必要としないか、または示唆しない。「含む」、「含有する」という語、または任意の変形は、複数の要素を含むプロセス、方法、物品、またはデバイスが、その複数の要素だけでなく、表現されていない他の要素、またはプロセス、方法、物品、またはデバイスの任意の他の固有の要素を含むように、包括的な含有を意味する。

説明の便宜上、説明されるデバイスまたはシステムの部分は、機能に従って、異なる装置として表現される。各装置の機能が、本開示の実現のために、ソフトウェアまたはハードウェアにの１つまたは複数の例に統合され得ることは明らかである。

当業者であれば、開示される技術の一部またはすべてが、関連ハードウェアを指示するプログラムによって実現され得ることを理解できる。プログラムは、コンピュータの任意の読取可能な記憶媒体、例えば、ＲＯＭ／ＲＡＭ、ディスク、ＣＤ等に記憶され得る。

上記は、本開示の単なる好適例であり、本開示の保護範囲を限定するために使用されるものではない。任意の修正、相当する置換、改善は、本開示の精神および原理の下、本開示の保護範囲に含まれるものとする。

Claims

同義語を識別するための方法であって、
識別される任意の２つの単語を、サーバによって取得することと、
前記２つの単語間の最短編集距離が、編集距離の閾値以下であることを決定することと、
前記２つの単語の両方が、事前に設定された知識データベースに存在するか否かを判定することと、
前記２つの単語の両方が、前記事前に設定された知識データベースに存在する場合は、前記知識データベースの各単語に対して、最も高い重み値を有する最小粒度タイプを見出すことと、
前記２つの単語が、最も高い重み値を有する同一の最小粒度タイプを有する場合は、前記２つの単語が同義語であると決定することと、
前記２つの単語が、最も高い重み値を有する同一の最小粒度タイプを有しない場合は、前記２つの単語が同義語ではないと決定することと、を含む、方法。
前記２つの単語の両方が、前記事前に設定された知識データベースに存在するか否かを判定することは、
１つまたは複数の見出されない単語を、存在する場合は、前記サーバによってセグメント化することを含み、次に、セグメント化後の前記単語のすべてが、前記知識データベースに存在するかどうかを判定することと、
セグメント化後の単語のすべてが、前記知識データベースに存在する場合は、前記知識データベースのそのような単語のそれぞれに対して、最も高い重み値を有する前記最小粒度タイプを検索することと、を含む、請求項１に記載の方法。
２つの単語が最も高い重み値を有する同一の最小粒度タイプを有すると決定することは、
前記２つの単語の任意の変更可能な文字または単語が、事前に設定された通常文字テーブルの変更可能な文字の中にあるかどうかを、前記サーバによって判定することと、
前記２つの単語の任意の変更可能な文字または単語が、前記事前に設定された通常文字テーブルの変更可能な文字の中にある場合は、前記２つの単語が同義語であることを決定することと、
前記２つの単語の任意の変更可能な文字または単語が、前記事前に設定された通常文字テーブルの変更可能な文字の中にない場合は、前記２つの単語が同義語ではないことを決定することと、を含む、請求項１に記載の方法。
前記知識データベースは、
１つまたは複数の語および概念を含み、各語または概念は、少なくとも１つのタイプに対応し、前記語または概念に対応する各タイプは、それぞれに対する重み値を有する、請求項１に記載の方法。
前記知識データベースにおいて、各単語に対して、最も高い重み値を有する最小粒度タイプを見出すことは、
前記知識データベースにおいて各単語に対応する語または概念を検索することと、
前記語または概念に対応する前記少なくとも１つのタイプ、および関連する重み値に従って、各単語の最も高い重みを有する前記最小粒度タイプを見出すことと、を含む、請求項１に記載の方法。
前記２つの単語が同義語であると決定する場合は、そのような識別された同義語を同義語データベースに保存することをさらに含む、請求項１に記載の方法。
検索されるクエリ語を含む、ユーザからのクエリ要求を検索エンジンによって受け取ることと、
前記同義語データベースの前記クエリ語を、前記検索エンジンによって検索し、前記クエリ語の同義語を見出すことと、
前記クエリ語および前記クエリ語の前記同義語を、前記クエリ語を使用することによって、前記検索エンジンにより検索を行うことと、
前記クエリ語および前記クエリ語の前記同義語の両方を含む結果を、前記検索エンジンによって前記ユーザに戻すことと、をさらに含む、請求項６に記載の方法。
同義語を識別するための装置であって、
識別される任意の２つの単語を取得する、取得装置と、
前記２つの単語の間の最短編集距離が、編集距離の閾値以下であることを決定し、第２の決定装置に通知する、第１の決定装置と、
前記２つの単語の両方が、事前に設定された知識データベースに存在することを決定し、クエリ装置に通知する、前記第２の決定装置と、
前記知識データベースの各単語に対して、最も高い重み値を有する最小粒度タイプを見出す、前記クエリ装置と、
前記２つの単語が、最も高い重み値を有する、同一の最小粒度タイプを有する場合は、前記２つの単語が同義語であることを決定し、前記２つの単語が、最も高い重み値を有する同一の最小粒度タイプを有しない場合は、前記２つの単語が同義語ではないことを決定する、第３の決定装置と、を備える、装置。
前記知識データベースにある１つまたは複数の見出されない単語をセグメント化し、次に、前記第２の決定装置に通知する、セグメント化装置であって、前記第２の決定装置は、セグメント化後の前記単語のすべてが、前記知識データベースに存在することを決定して、前記クエリ装置に通知し、セグメント後の前記単語のすべてが、前記知識データベースに存在するとは限らないことを決定して、前記セグメント化装置に通知するようにさらに構成される、セグメント化装置をさらに備える、請求項８に記載の装置。
前記単語の変更可能な単語または文字が、存在する場合は、事前に設定された通常文字テーブルの変更可能な文字の中にあることを決定して、前記２つの単語が同義語であることを前記第３の決定装置に通知し、前記単語の変更可能な単語または文字が、存在する場合は、前記事前に設定された通常文字テーブルの変更可能な文字の中にないことを決定して、前記２つの単語が同義語ではないことを前記第３の決定装置に通知する、通常文字テーブルクエリ装置をさらに備える、請求項８に記載の装置。
前記知識データベースは、１つまたは複数の語を含み、各語または概念は、少なくとも１つのタイプに対応し、前記語または概念に対応する各タイプは、重み値を有する、請求項８に記載の装置。
前記装置は、サーバまたは検索エンジンである、請求項８に記載の装置。
検索される語を含む、クエリ要求をユーザから受け取る、取得装置と、
同義語データベースにおいて、前記語を検索することによって、前記語の同義語を見出す、同義語検索装置と、
前記語および前記語の前記同義語を使用することによって検索を行う、検索装置と、
検索結果を前記ユーザに戻す、リターン装置と、をさらに備える、請求項７に記載の装置。