JP2012525615A - 同義語を識別し、同義語を使用して検索するための方法および装置 - Google Patents

同義語を識別し、同義語を使用して検索するための方法および装置 Download PDF

Info

Publication number
JP2012525615A
JP2012525615A JP2012506596A JP2012506596A JP2012525615A JP 2012525615 A JP2012525615 A JP 2012525615A JP 2012506596 A JP2012506596 A JP 2012506596A JP 2012506596 A JP2012506596 A JP 2012506596A JP 2012525615 A JP2012525615 A JP 2012525615A
Authority
JP
Japan
Prior art keywords
words
word
synonyms
knowledge database
weight value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012506596A
Other languages
English (en)
Other versions
JP5536875B2 (ja
Inventor
ジン ドン
フェイ シン
ニン グオ
レイ ホウ
チン チャン
Original Assignee
アリババ グループ ホールディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホールディング リミテッド filed Critical アリババ グループ ホールディング リミテッド
Publication of JP2012525615A publication Critical patent/JP2012525615A/ja
Application granted granted Critical
Publication of JP5536875B2 publication Critical patent/JP5536875B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Abstract

同義語を識別し、そのような同義語を利用して、検索を行うための方法および装置が開示される。開示される方法は、識別される任意の2つの単語を取得することと、2つの単語間の最短編集距離が、編集距離の閾値以下であるか否かを判定することと、識別される2つの単語が、事前に設定された知識データベースに存在するか否かを判定することと、答えが「はい」である場合は、知識データベースの各単語に対する最も高い重み値を有する最小粒度タイプを検索することと、2つの単語が最も高い重み値を有する同一の最小粒度タイプを有する場合は、そのような2つの単語が同義語であることを決定し、またはそうでなければ同義語ではないと決定することと、を含む。開示される技術は、同義語識別の精度を著しく向上させ、同義語識別の効果を保証する。

Description

関連特許
本出願は、2009年4月27日に提出された、「METHOD AND APPARATUS FOR IDENTIFYING SYNONYMS AND USING SYNONYMS TO SEARCH」と題する中国特許出願第200910137633.6号からの優先権を主張し、当該出願は、参照することによってその全体が本明細書に組み込まれる。
本特許出願は、コンピュータデータ処理の分野、特に、同義語を識別するための方法および装置、ならびに識別された同義語を使用して、検索を行うための方法および装置を網羅する。
Figure 2012525615
Figure 2012525615
Figure 2012525615
中国語の同義語の自動識別のための現在の方法は、以下のとおりである。各特定の単語をウェブページとして表す、特定の単語を解釈するために使用される辞書において、特定の単語と他の単語との連結を確立する、そのような単語それぞれにスコアを割り当てる。そのようなスコアは、単語間の類似性を表す。つまり、それは解釈に関し、異なる単語間の関係をハイパーリンクのタイプとして解釈し、ページランクスコアは、異なる単語間の意味上の類似性の指標であり、次に、そのような意味の類似性に従って、同義語を識別する。この方法は、主に、同義語を決定するための指標として、ページランクスコアを使用する。ページランクスコアの決定は、入手可能なリソースに依存するが、そのようなリソースは非常に恣意的であり、制御困難である。「potato」の例として、入手可能なリソースが、野菜の特徴および外観を強調する場合、「potato」が、「tuber(塊茎)」または「ellipsis(楕円)」との同義語関係を確立する可能性が極めて高い。したがって、連結関係を表すそのようなページランクスコアは、極めて信頼性が低い。さらに、そのような低い信頼性は、自動的に検出することが困難であるため、そのような方法は、必要な同義語を正確に識別することができず、そのため識別効果を保証することができない。
一方では、本開示は、中国語の同義語を識別するための方法および装置を提供して、中国語の同義語の識別効果が保証され得ないという問題を解決することである。他方では、本開示は、検索のための方法および装置を提供して、検索結果および情報を拡充することである。
本開示は、中国語の同義語を識別するための方法を説明する。方法は、
a.識別される任意の2つの中国語の単語を、サーバによって取得することと、
b.2つの中国語の単語間の最短編集距離が、編集距離の閾値以下であることを決定し、次に、ステップcを行うことと、
c.2つの中国語の単語の両方が、事前に設定された知識データベースに存在するか否かを判定し、答えが「はい」である場合は、知識データベース内の各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを検索することと、
d.2つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有する場合は、そのような2つの中国語の単語が同義語であると決定し、またはそうでなければ、同義語ではないことを決定することと、を含む。
これらの動作の中で、2つの中国語の単語の両方が、事前に設定された知識データベースに存在するか否かを判定する動作は、
e.1つまたは複数の見出されない中国語の単語が、存在する場合は、サーバによってセグメント化し、次に、セグメント化後の中国語の単語のすべてが、知識データベースに存在するか否かを判定して、答えが「はい」である場合は、知識データベース内のそのような中国語の単語のそれぞれに対して、最も高い重み値を有する最小粒度タイプを検索し、以下の動作を行うことをさらに含む。
これらの動作の中で、2つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有することを判定する動作の後、
2つの中国語の単語の任意の変更可能な文字または単語が、事前に設定された通常文字テーブルの変更可能な文字の中にあるか否かをサーバによって判定し、答えが「はい」である場合は、そのような2つの中国語の単語が同義語であると決定し、またはそうでなければ、同義語ではないことを決定することを含む、さらなる動作が存在し得る。
知識データベースは、1つまたは複数の語および概念を含む。各語または概念は、少なくとも1つのタイプに対応し、語または概念に対応する各タイプは、重み値を有する。
これらの動作の中で、知識データベース内の各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを検索する動作は、
知識データベース内の各中国語の単語に対応する語または概念を検索し、語または概念に対応する少なくとも1つのタイプおよびその重み値に従って、各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを見出すことをさらに含む。
これらの動作の中で、本方法は、2つの中国語の単語が同義語であることを決定した場合、そのような識別された同義語を同義語データベースに保存する動作も含む。
本開示は、検索のための方法も提供する。方法は、
検索エンジンによって、検索される語を含むクエリ要求をユーザから受け取ることと、
検索エンジンによって、事前に設定された同義語データベース内で語を検索し、語の同義語を見出すことと、
検索エンジンによって、その語、およびその語の同義語を使用することにより、検索を行うことと、
検索エンジンによって、その語および同義語の両方を含む結果をユーザに戻すことと、を含む。
本開示は、中国語の同義語を識別するための装置も提供する。装置は、
識別される任意の2つの中国語の単語を得るように構成される、取得装置と、
2つの中国語の単語が、編集距離の閾値以下であることを決定し、第2の決定装置に通知するように構成される、第1の決定装置と、
2つの中国語の単語の両方が、事前に設定された知識データベースに存在することを決定し、クエリ装置に通知するように構成される、第2の決定装置と、
知識データベース内の各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを見出すように構成される、クエリ装置と、
2つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有する場合は、2つの中国語の単語が同義語であることを決定し、2つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有しない場合は、2つの中国語の単語が同義語ではないことを決定するように構成される、第3の決定装置と、を含む。
装置は、知識データベースの1つまたは複数の見出されない中国語の単語をセグメント化し、第2の決定装置に通知するように構成される、セグメント化装置をさらに含む。
第2の決定装置は、セグメント化後の中国語の単語のすべてが、知識データベースに存在することを決定して、クエリ装置に通知し、セグメント化後の中国語の単語のすべてが、知識データベースに存在するわけではないことを決定して、セグメント化装置に通知するようにさらに構成される。
装置は、中国語の単語の変更可能な単語または文字が存在する場合、事前に設定された通常文字テーブルの変更可能な文字の中にあることを決定して、2つの中国語の単語が同義語であることを第3の決定装置に通知し、その中国語の単語の変更可能な単語または文字が存在する場合、事前に設定された通常文字テーブルの変更可能な文字の中にないことを決定して、2つの中国語の単語が同義語ではないことを第3の決定装置に通知するように構成される、通常文字テーブルクエリ装置もさらに含む。
知識データベースは、1つまたは複数の語および概念を含む。各語または概念は、少なくとも1つのタイプに対応し、語または概念に対応する各タイプは、重み値を有する。
装置は、サーバまたは検索エンジンである。
本開示は、検索のための装置も説明する。装置は、
検索される語を含むクエリ要求を、ユーザから受け取るように構成される、取得装置と、
同義語データベース内でその語を検索することによって、語の同義語を見出すように構成される、同義語検索装置と、
その語および語の同義語を使用することによって、検索を行うように構成される、検索装置と、
検索結果をユーザに戻すように構成される、リターン装置と、を含む。
中国語の同義語を識別するための開示される方法および装置は、開示される技術が、識別される中国語の最短編集距離を最初に判定し、したがって、同義語間の表現の相違がほとんどないため、ユーザを驚かせることなく、検索結果の精度を向上させる。さらに、開示される技術は、知識データベースを使用して、識別される中国語の単語の意味を検証し、それらが、同義語識別の精度を著しく向上させ、そのため同義語の識別効果を保証する。
検索のための開示される方法および装置は、検索中にユーザを驚かせないだけでなく、検索結果を拡充して、戻される結果がユーザのニーズにより良く適合するようにする。
開示される技術または現在の技術をより良く説明するために、詳細な説明は、添付の図面を参照して説明される。以下は、図面の簡単な説明である。以下の図面は、開示される技術の一部の例に過ぎないことは明らかである。当業者であれば、創意工夫を凝らすことなく、以下の図面に基づいて、他の図面を展開することができる。
本開示に従う、中国語の同義語を識別するための例示的なプロセスのフローチャートを説明する。 本開示に従う、より良い例示的なフローチャートを説明する。 本開示に従う、複数レベルのタイプを有する知識データベースの例示的な図を説明する。 本開示に従う、中国語の同義語を識別するための装置の図を説明する。 本開示に従う、中国語の同義語を識別するためのシステムの概略図を説明する。 本開示に従う、検索方法の例示的なフローチャートを説明する。 本開示に従う、検索装置の例示的なフローチャートを説明する。
本開示は、図面を参照することにより、開示される技術の明白かつ完全な説明を提供する。本明細書に記載される実現形態が、開示される開示のすべての実現形態ではなく、一部分に過ぎないことは明らかである。当業者が創意工夫を凝らすことなく、本開示に基づいて展開することができる他の実現形態のすべて、本開示の保護下にある。
本開示は、最短編集距離アルゴリズムを使用し、定義された短い編集距離を利用して、同義語間に大きな表現の相違がなく、検索アプリケーションにおいてユーザを驚かせないようにする。さらに、開示は、浅い意味検証のための知識データベースも使用して、同義語の精度を著しく向上させる。得られる同義語の一覧は、検索関連アプリケーションに対して良い効果があり、検索以外の関連アプリケーションにおいて確実に使用することができる。
Figure 2012525615
図1は、本開示に従って、中国語の同義語を識別するための例示的なプロセスのフローチャートを説明する。この実施例の目的は、識別される2つの中国語の単語が、同義語であるか否かを判定することである。詳細なステップは以下のとおりである。
ステップ101は、識別される任意の2つの中国語の単語を、サーバによって取得することを含む。
一般に、これら2つの中国語の単語は、検索エンジンのクエリログから得られる任意の2つの中国語の単語である。効率を向上させるために、クエリログからのクエリ入力に従って、上位100,000語を選択し、次に、100,000語中のうちの、任意の2つの中国語の単語を、1つずつ比較することができる。
サーバは、検索エンジン自体であるか、あるいはユーザが同義語を比較するように特に構成された任意のサーバであるか、または演算機能を有する任意の他のサーバであり得る。
ステップ102は、2つの中国語の単語間の最短編集距離が、編集距離の閾値以下であることを、サーバによって決定し、次に、ステップ103を行うことを含む。
2つの中国語の単語の最短編集距離が、編集距離の閾値よりも大きい場合、サーバは、2つの中国語の単語が同義語ではないことを直接決定する。
ここで、編集距離の閾値は、1、2、3等であり得る。編集距離が小さいほど、2つの単語間の相違が小さいことが理解できる。
ステップ103は、2つの中国語の単語が、事前に設定された知識データベースに存在するか否かを判定し、答えが「はい」である場合は、ステップ104を行うことを含む。
知識データベースの詳細は、本明細書において後述される。
ステップ104は、知識データベース内の各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを、サーバによって検索することを含む。
知識データベース内の重みおよび粒度タイプの詳細は、本明細書において後述される。
ステップ105は、2つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有する場合、サーバによって、そのような2つの中国語の単語が同義語であることを決定し、そうでない場合は、そのような2つの中国語の単語が同義語ではないことを決定することを含む。
注目すべきは、2つの中国語の単語の双方が、知識データベースに存在しない場合、ステップは、1つまたは複数の見出されていない中国語の単語を、サーバによってセグメント化し、次に、セグメント化後の中国語の単語のすべてが知識データベースに存在するかどうかを判定して、答えが「はい」である場合は、以下のステップを行うか、またはそうでなければ、ステップ106を実行し続けることを含む、ステップ106をさらに含む。
注目すべきは、本実施例は、識別される同義語を、将来の使用のために、同義語データベースに保存することをさらに含み得る。同義語データベースは、識別された同義語を保存するテーブルの形態であり得る。識別の同義語を保存するテーブルの1つの考えられる実現形態は、検索の便宜上、相互間で同義語である、対応する単語または文字を保存することである。例えば、語A1およびA2、B1およびB2、C1、C2、およびC3が、相互間で同義語である場合、保存形態は、表1を参照することができる。
Figure 2012525615
同義語を保存するテーブルは、表1に示されるような形態に限定されないことは明らかである。本開示は、クエリ語の同義語が適時に見出され得る限り、同義語を保存するための詳細な形態を限定しない。
中国語の同義語を識別するための開示される方法は、開示される技術が、識別される中国語の単語の最短編集距離を最初に決定し、したがって、同義語間に表現の相違がほとんどないため、ユーザを驚かせないであろう。さらに、開示される技術は、知識データベースを使用して、識別される中国語の単語の意味を検証するため、それらが同義語識別の精度を著しく向上させ、同義語識別の効果を保証する。
本開示によって決定される中国語の同義語は、検索関連産業だけでなく、他の産業においても使用され得る。
図2は、本開示に従うより良い例示的フローチャートを説明する。詳細は以下のとおりである。
ステップ201は、識別される任意の2つの中国語の単語を、サーバによって取得することを含む。
一般に、識別されるこれら2つの中国語の単語は、ログに定期的に出現する高頻出単語、例えば、20回以上出現する単語である。高頻出単語は、代表的であるため、それらの定期的な出現は、識別される単語が難解でないことを保証する。さらに、中国語の単語の文字の数は、閾値、例えば8を超えないことが好ましい。これは、編集距離の高速計算を容易にするためである。また、より多くの文字を有する単語の同義語を見出す可能性も低い。
本実施例において、識別される2つの中国語の単語は、検索エンジンのクエリログから得られる。
ステップ202は、2つの中国語の単語間の最短編集距離を、サーバによって計算することを含む。
動的プログラミングアルゴリズムまたは他のアルゴリズムを使用して、2つの中国語の単語間の最短編集距離を計算することができる。本開示は、最短編集距離を計算するために適用可能なアルゴリズムを限定しない。
現在の動的プログラミングアルゴリズムにおいて、各単語の最小単位は、文字である。2つの単語W1およびW2の例として、各単語は、それぞれc1c2c3およびd1d2d3から成る。c1c2c3とd1d2d3との間の最短距離Dis(c1c2c3、d1d2d3)は、それらの子文字列の最短距離から得られる。詳細な計算方法は、以下のとおりである。c3=d3である場合、Dis(c1c2c3、d1d2d3)=Dis(c1c2、d1d2)+1。それらの2つが同一でない場合は、Dis(c1c2c3、d1d2d3)=Max(Dis(c1c2、d1d2d3、Dis(c1c2c3、d1d2))であり、式中、Maxは、2つの単語間の最大値を表す。これは、動的プログラミングアルゴリズムである。
ステップ203は、計算された最短編集距離が、編集距離の閾値以下であるか否かを、サーバによって判定し、答えが「はい」である場合は、ステップ204を行うこと、またはそうでなければ、2つの中国語の単語が同義語ではないことを決定することを含む。
より良い実装例において、編集距離の閾値は、値1に割り当てられる。
Figure 2012525615
ステップ204は、2つの中国語の単語の両方が、事前に設定された知識データベースに存在するか否かをサーバによって検索し、答えが「はい」である場合は、ステップ205を行うこと、またはそうでなければ、ステップ208を行うことを含む。
知識データベースは、実際に、辞書であるか、1つまたは複数の語および概念から成る概念データベースである。語は、基礎単語として理解され得、概念は、語の組み合わせとして理解され得るが、そのような組み合わせは、日常生活で定期的に使用される固定された組み合わせである。例えば、「Apple」、「北京」、および「大学」のそれぞれは、語であるが、「北京大学」は、知識データベースにおける概念である。
知識データベースは、データベースである。各アイテムは、単語を表し、各アイテムは、単語、単語のタイプ、およびタイプの重み値を含む、複数のフィールドを含む。
知識データベースは、少なくとも1つの事前定義されたタイプを有し、通常、数十のタイプを有する。そのようなタイプは、複数のレベルに分類され、各レベルは、1つの粒度に対応する。タイプは、複数のレベルに分類されるため、異なるレベルに対応するタイプは、複数の粒度を有する。複数のレベルに対応するそのような粒度は、粒度タイプと呼ばれる。タイプは、事前定義された属性である。これらの属性のすべては、言語学を参照して定義される。すべての単語は、事前にタイプに割り当てられる。
例えば、図3は、本開示に従うレベルのタイプを有する知識データベースの典型図を説明する。本実施例において、「製品」は、高次レベルのタイプに属し、第1のレベルタイプである。「製品−ブランド」、「製品−モデル」、「製品−仕様」、および「製品−スタイル」は、「製品」レベル下の異なるタイプである。言い換えれば、「製品−ブランド」、「製品−モデル」、「製品−仕様」、および「製品−スタイル」は、第1のレベルタイプの下位にある第2のレベルタイプである。「製品−タイプ」の下位には、「製品スタイル−単純」、「製品スタイル−複雑」、および「製品スタイル−一般」等の第3のレベルタイプも存在する。本実施例において、第3のレベルタイプ「製品スタイル−単純」、「製品スタイル−複雑」、および「製品スタイル−一般」は、最小粒度タイプである。
知識データベースの各語または概念は、少なくとも1つのレベルのタイプに対応する。例えば、「Apple」は、「製品スタイル−単純」だけでなく、「野菜」タイプにも属するが、「車」は、「製品スタイル−一般」にのみ属する。さらに、各語または概念は、そのような語または概念がそのタイプに属する可能性をあらわす重み値を有する。例えば、「Apple」が、「製品スタイル−単純」タイプに属する重み値は、0.38であり、「Apple」が「野菜」タイプに属する重み値は、0.54である。
知識データベースにおける上記タイプ、タイプのレベル、およびタイプに属する語または概念の重み値は、経験の蓄積から得られることが理解できる。経験の蓄積とは、知識データベースにおけるタイプのレベルは、言語学を参照して得られるが、各単語の重みは、ウェブページリソースからの統計によって計算されることを意味する。「Apple」の一例としては、この語は、コンピュータ製品として60回、および野菜として40回出現する。「製品スタイル−単純」および「野菜」のその重み値は、それぞれ0.6および0.4である。
ステップ205は、各中国語の単語に対して、知識データベース内の最も高い重み値を有する最小粒度タイプを、サーバによって検索することを含む。
知識データベース内の各語または概念は、少なくとも1つのタイプおよび関連する重み値に対応するため、各中国語の単語に対して最も高い重み値を有する最小粒度タイプが見出され得ることが理解できる。
ステップ206は、2つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有するか否かを、サーバによって判定し、答えが「はい」である場合は、ステップ207を行うこと、または2つの中国語の単語が同義語ではないと決定することを含む。
最小粒度タイプは、識別される中国語の単語の意味をより厳密に限定し、識別される同義語の精度を保証することが理解できる。
ステップ207は、2つの中国語の単語の変更可能な単語または文字が、存在する場合は、事前に設定された通常文字テーブルの変更可能な文字に属するか否かをサーバによって判定することを含む。
通常文字テーブルは、知識データベースに類似する。各ラインが通常文字を表す、テキスト文書であり得る。
通常文字テーブルは、変更可能な文字および変更不可能な文字の2つの部分を含む。変更可能な文字は、複数の文字を有する単語の接尾辞である場合が多く、そのような接尾辞、例えば、中国語の文字「机」または「器」(いずれも英語で「machine(機械)」を意味する)は、高い出現頻度を有する。変更不可能な文字は、単語の接頭辞または接尾辞である場合が多く、単語の意味を変える場合が多い。例には、中国語の文字「不」(英語で「no」または「none」を意味する)、「非」(英語で「un」を意味する)、「半」(英語で「semi」を意味する)が挙げられる。通常文字テーブルは、経験の蓄積または人による評価からも得られる。
通常文字テーブルの存在は、同義語識別の効果をさらに保証することが理解できる。
ステップ208は、1つまたは複数の見出されない中国語の単語を、サーバによってセグメント化することを含む。
1つまたは複数の見出されない中国語の単語は、2つの中国語の単語の両方、それらのいずれか1つ、またはセグメント化処理後の中国語の単語であり得る。
ステップ209は、セグメント処理後のすべての中国語の単語が、知識データベースに存在するか否かを、サーバによって判定し、答えが「はい」である場合は、ステップ205に戻ることを含む、そうでなければ、ステップ208を実行し続けることを含む。
中国語の同義語を識別するための上記方法は、検索エンジンおよび任意の他の適用可能なサーバまたはデバイスにおいて使用され得る。
注目すべきは、本実施例は、識別された同義語を、将来の使用のために、同義語データベースに保存することをさらに含み得る。同義語データベースは、識別された同義語を保存するテーブルの形態であり得る。識別された同義語を保存するテーブルの1つの考えられる実現形態は、検索の便宜上、相互の同義語である対応する単語または文字を、1つずつ保存することである。本開示は、クエリ語の同義語が適時見出され得る限り、同義語を保存するように詳細な形態を限定しない。
図2に示されるような、中国語の同義語を識別するための開示される方法は、開示される方法が識別される中国語の単語間の最短編集距離を最初に決定し、したがって同義語間に表現の相違がほとんどないため、ユーザを驚かせないであろう。さらに、開示される方法は、知識データベースを使用して、識別される中国語の単語の意味を検証するか、または最小粒度タイプを通して識別される単語の意味をより厳密に限定するため、同義語識別の精度を著しく向上させる。さらに、開示される方法は、通常文字テーブルを使用して、識別される中国語の単語の異なる文字を再検証し、同義語識別の効果をさらに保証する。
識別される同義語データベースに対して、以下のアプリケーションがあり得る。
Figure 2012525615
上記アプリケーションに基づいて、本開示は、図6を参照することにより、検索のための方法も提供する。方法は、以下を含む。
ステップ601は、ユーザがクエリ語を入力すること、およびクエリ要求を検索エンジンに提出することを含む。
ステップ602は、クエリ語を含むユーザからのクエリ要求を、検索エンジンによって受け取ること、および事前に設定された同義語データベースを検索エンジンによって検索して、クエリ語の同義語を見出すことを含む。
ステップ603は、クエリ語およびクエリ語の同義語に従って、検索エンジンによって検索を行うことを含む。
ステップ604は、検索エンジンによって、クエリ語およびクエリ語の同義語を含む検索結果を戻すことを含む。
本開示は、図4を参照することによって、中国語の同義語を識別するための装置も提供する。装置は、取得装置401、第1の決定装置402、第2の決定装置403、クエリ装置404、および第3の決定装置405を含む。
取得装置401は、識別される任意の2つの中国語の単語を得るように構成される。検索エンジンアプリケーションにおいて、検索ログは、ユーザが定期的にクエリするキーワードを保存する。識別される2つの中国語の単語間で、一方は、検索エンジンでのユーザによるキーワード入力であり、他方は、ユーザによるキーワード入力に従って、検索ログから得られる。
第1の決定装置402は、2つの中国語の単語間の最短編集距離が、編集距離の閾値以下であることを決定し、第2の決定装置403に通知するように構成される。
第2の決定装置403は、2つの中国語の単語の両方が、事前に設定された知識データベースに存在することを決定し、クエリ装置404に通知するように構成される。
クエリ装置404は、知識データベース内の各中国語の単語に対して、最も高い重み値を有する最小粒度タイプを見出すように構成される。
第3の決定装置405は、2つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有する場合は、2つの中国語の単語が同義語であることを決定し、2つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有しない場合は、2つの中国語の単語が同義語ではないことを決定するように構成される。
装置は、知識データベース内の1つまたは複数の見出されない中国語の単語をセグメント化し、次に、第2の決定装置403に通知するように構成される、セグメント化装置406も含み得る。
第2の決定装置403は、セグメント化後の中国語の単語のすべてが、知識データベースに存在することを決定して、クエリ装置404に通知し、必ずしもセグメント化後の中国語のすべてが知識データベースに存在するわけではないことを決定し、セグメント化装置406に通知するようにも構成される。
装置は、さらに以下を含み得る。
通常文字テーブルクエリ装置407であって、2つの中国語の単語の変更可能な単語または文字が、存在する場合は、事前に設定された通常文字テーブルの変更可能な文字の中にあることを決定し、第3の決定装置405に通知して、2つの中国語が同義語であることを決定し、2つの中国語の単語の変更可能な単語または文字が、存在する場合は、事前に設定された通常文字テーブルの変更可能な文字の中にないことを決定して、第3の決定装置405に通知し、2つの中国語の単語が同義語ではないことを決定するように構成される。
知識データベースは、1つまたは複数の語および概念を含む。各語または概念は、少なくとも1つのタイプに対応し、語または概念に対応する各タイプは、重み値を有する。
知識データベースおよび通常文字テーブルは、経験の蓄積から得られる。
同義語を識別するための装置は、個別のサーバ、検索エンジンの一部、または別のサーバの一部であり得る。
中国語の同義語を識別するための開示される装置は、開示される装置が、識別される中国語の単語間の最短編集距離を最初に決定し、したがって、同義語間の表現の相違がほとんどないため、ユーザを驚かせないであろう。さらに、開示される装置は、知識データベースを使用して、識別される中国語の単語の意味を検証するか、または最小粒度タイプを通して識別される単語の意味をより厳密に限定し、したがって、同義語の識別の精度を著しく向上させる。さらに、開示される装置は、通常文字テーブルを使用して、識別される中国語の単語の異なる文字を再検証し、同義語識別の効果をさらに保証する。
図5を参照して、本開示は、検索エンジンにおいて中国語の同義語を識別するためのシステムも提供する。システムは、中国語の同義語を識別するための装置501と、知識データベースの記憶装置のための装置502と、を含む。
知識データベースの記憶装置のための装置502は、単語/文字、単語/文字のタイプ、および前記タイプの重み値を保存するように構成される。
中国語の同義語を識別するための装置501は、識別される任意の2つの中国語の単語を取得し、2つの中国語の単語の間の最短編集距離が、編集距離の閾値以下であることを決定し、次に、2つの中国語の単語の両方が、知識データベースの記憶装置のための事前に設定された装置502に存在することを決定し、知識データベースの記憶装置のための事前に設定された装置502において、各中国語の単語に対して最も高い重み値を有する最小粒度タイプを個別に検索し、2つの中国語の単語が、最も高い重みを有する同一の最小粒度タイプを有する場合は、2つの中国語の単語が同義語であることを決定し、2つの中国語の単語が、最も高い重み値を有する同一の最小粒度タイプを有しない場合は、2つの中国語の単語が同義語ではないことを決定するように構成される。
中国語の同義語を識別するための装置501は、1つまたは複数の見出されない中国語の単語をセグメント化し、セグメント化後の中国語の単語のすべてが、知識データベースの記憶装置のための装置502に存在するかどうかを判定し、答えが「はい」の場合は、知識データベースの記憶装置のための装置502にあるそのような中国語の単語のそれぞれに対して、最も高い重み値を有する最小粒度タイプを検索し、以下のステップを行うか、または本ステップを再度行うようにさらに構成され得る。
システムは、変更可能な文字および変更不可能な文字を記憶するように構成される、通常文字テーブル503の記憶装置のための装置も含む。
中国語の同義語を識別するための装置501は、2つの中国語の単語の変更可能な単語または文字が、存在する場合、事前に設定された通常文字テーブルの変更可能な文字の中にある場合は、2つの中国語の単語が同義語であることを決定し、2つの中国語の単語の変更可能な単語または文字が、事前に設定された通常文字テーブルの変更可能な文字の中にない場合は、前記2つの中国語の単語が同義語ではないことを決定するように構成することもできる。
同義語を識別するためのシステムは、個別のサーバ、検索エンジンの一部、または別のサーバの一部であり得る。
中国語の同義語を識別するための開示されるシステムは、開示される装置が、識別される中国語の単語の間の最短編集距離を最初に決定し、したがって、同義語間の表現の相違がほとんどないため、ユーザを驚かせることはないであろう。さらに、開示されるシステムは、知識データベースを使用して、識別される中国語の単語の意味を検証するか、または最小粒度タイプを通して識別される単語の意味をより厳密に制限し、したがって、同義語の識別の制度を著しく向上させる。さらに、開示されるシステムは、通常文字テーブルを使用して、識別される中国語の単語の異なる特徴を再検証し、同義語識別の効果をさらに保証する。
図7を参照して、本開示は、検索のためのデバイスも開示する。デバイスは、取得装置701、同義語クエリ装置702、検索装置703、および結果装置704を含む。
取得装置701は、ユーザからのクエリ要求を受け取るように構成される。クエリ要求は、クエリ語を含む。
同義語クエリ装置702は、クエリ語を使用して、事前に設定された同義語データベースを検索することによって、クエリ語の同義語を見出すように構成される。
検索装置703は、クエリ語およびクエリ語の同義語を使用することによって、検索を行うように構成される。
結果装置704は、検索結果をユーザに戻すように構成される。
中国語の同義語を識別するための開示されるデバイスは、ユーザを驚かせないようにするだけでなく、戻される結果が、ユーザのニーズをより良好に満たすように、検索結果を拡充する。
注目すべきは、本開示が、中国語のみを実施例として使用し、中国語の同義語を識別するための方法を説明していることである。開示は、中国語の同義語の識別に限定されず、開示される技術を使用するか、または開示される技術にわずかな修正、同等の置換、改善を行うことによって、日本語、韓国語、および他の言語の同義語の識別に適用可能となり得る。さらに、第1および第2等の語は、単に、1つの実体または操作を別の実体または操作と区別するために使用され、それらの実体または操作の間に実際の関係または順序が存在することを必ずしも必要としないか、または示唆しない。「含む」、「含有する」という語、または任意の変形は、複数の要素を含むプロセス、方法、物品、またはデバイスが、その複数の要素だけでなく、表現されていない他の要素、またはプロセス、方法、物品、またはデバイスの任意の他の固有の要素を含むように、包括的な含有を意味する。
説明の便宜上、説明されるデバイスまたはシステムの部分は、機能に従って、異なる装置として表現される。各装置の機能が、本開示の実現のために、ソフトウェアまたはハードウェアにの1つまたは複数の例に統合され得ることは明らかである。
当業者であれば、開示される技術の一部またはすべてが、関連ハードウェアを指示するプログラムによって実現され得ることを理解できる。プログラムは、コンピュータの任意の読取可能な記憶媒体、例えば、ROM/RAM、ディスク、CD等に記憶され得る。
上記は、本開示の単なる好適例であり、本開示の保護範囲を限定するために使用されるものではない。任意の修正、相当する置換、改善は、本開示の精神および原理の下、本開示の保護範囲に含まれるものとする。

Claims (13)

  1. 同義語を識別するための方法であって、
    識別される任意の2つの単語を、サーバによって取得することと、
    前記2つの単語間の最短編集距離が、編集距離の閾値以下であることを決定することと、
    前記2つの単語の両方が、事前に設定された知識データベースに存在するか否かを判定することと、
    前記2つの単語の両方が、前記事前に設定された知識データベースに存在する場合は、前記知識データベースの各単語に対して、最も高い重み値を有する最小粒度タイプを見出すことと、
    前記2つの単語が、最も高い重み値を有する同一の最小粒度タイプを有する場合は、前記2つの単語が同義語であると決定することと、
    前記2つの単語が、最も高い重み値を有する同一の最小粒度タイプを有しない場合は、前記2つの単語が同義語ではないと決定することと、を含む、方法。
  2. 前記2つの単語の両方が、前記事前に設定された知識データベースに存在するか否かを判定することは、
    1つまたは複数の見出されない単語を、存在する場合は、前記サーバによってセグメント化することを含み、次に、セグメント化後の前記単語のすべてが、前記知識データベースに存在するかどうかを判定することと、
    セグメント化後の単語のすべてが、前記知識データベースに存在する場合は、前記知識データベースのそのような単語のそれぞれに対して、最も高い重み値を有する前記最小粒度タイプを検索することと、を含む、請求項1に記載の方法。
  3. 2つの単語が最も高い重み値を有する同一の最小粒度タイプを有すると決定することは、
    前記2つの単語の任意の変更可能な文字または単語が、事前に設定された通常文字テーブルの変更可能な文字の中にあるかどうかを、前記サーバによって判定することと、
    前記2つの単語の任意の変更可能な文字または単語が、前記事前に設定された通常文字テーブルの変更可能な文字の中にある場合は、前記2つの単語が同義語であることを決定することと、
    前記2つの単語の任意の変更可能な文字または単語が、前記事前に設定された通常文字テーブルの変更可能な文字の中にない場合は、前記2つの単語が同義語ではないことを決定することと、を含む、請求項1に記載の方法。
  4. 前記知識データベースは、
    1つまたは複数の語および概念を含み、各語または概念は、少なくとも1つのタイプに対応し、前記語または概念に対応する各タイプは、それぞれに対する重み値を有する、請求項1に記載の方法。
  5. 前記知識データベースにおいて、各単語に対して、最も高い重み値を有する最小粒度タイプを見出すことは、
    前記知識データベースにおいて各単語に対応する語または概念を検索することと、
    前記語または概念に対応する前記少なくとも1つのタイプ、および関連する重み値に従って、各単語の最も高い重みを有する前記最小粒度タイプを見出すことと、を含む、請求項1に記載の方法。
  6. 前記2つの単語が同義語であると決定する場合は、そのような識別された同義語を同義語データベースに保存することをさらに含む、請求項1に記載の方法。
  7. 検索されるクエリ語を含む、ユーザからのクエリ要求を検索エンジンによって受け取ることと、
    前記同義語データベースの前記クエリ語を、前記検索エンジンによって検索し、前記クエリ語の同義語を見出すことと、
    前記クエリ語および前記クエリ語の前記同義語を、前記クエリ語を使用することによって、前記検索エンジンにより検索を行うことと、
    前記クエリ語および前記クエリ語の前記同義語の両方を含む結果を、前記検索エンジンによって前記ユーザに戻すことと、をさらに含む、請求項6に記載の方法。
  8. 同義語を識別するための装置であって、
    識別される任意の2つの単語を取得する、取得装置と、
    前記2つの単語の間の最短編集距離が、編集距離の閾値以下であることを決定し、第2の決定装置に通知する、第1の決定装置と、
    前記2つの単語の両方が、事前に設定された知識データベースに存在することを決定し、クエリ装置に通知する、前記第2の決定装置と、
    前記知識データベースの各単語に対して、最も高い重み値を有する最小粒度タイプを見出す、前記クエリ装置と、
    前記2つの単語が、最も高い重み値を有する、同一の最小粒度タイプを有する場合は、前記2つの単語が同義語であることを決定し、前記2つの単語が、最も高い重み値を有する同一の最小粒度タイプを有しない場合は、前記2つの単語が同義語ではないことを決定する、第3の決定装置と、を備える、装置。
  9. 前記知識データベースにある1つまたは複数の見出されない単語をセグメント化し、次に、前記第2の決定装置に通知する、セグメント化装置であって、前記第2の決定装置は、セグメント化後の前記単語のすべてが、前記知識データベースに存在することを決定して、前記クエリ装置に通知し、セグメント後の前記単語のすべてが、前記知識データベースに存在するとは限らないことを決定して、前記セグメント化装置に通知するようにさらに構成される、セグメント化装置をさらに備える、請求項8に記載の装置。
  10. 前記単語の変更可能な単語または文字が、存在する場合は、事前に設定された通常文字テーブルの変更可能な文字の中にあることを決定して、前記2つの単語が同義語であることを前記第3の決定装置に通知し、前記単語の変更可能な単語または文字が、存在する場合は、前記事前に設定された通常文字テーブルの変更可能な文字の中にないことを決定して、前記2つの単語が同義語ではないことを前記第3の決定装置に通知する、通常文字テーブルクエリ装置をさらに備える、請求項8に記載の装置。
  11. 前記知識データベースは、1つまたは複数の語を含み、各語または概念は、少なくとも1つのタイプに対応し、前記語または概念に対応する各タイプは、重み値を有する、請求項8に記載の装置。
  12. 前記装置は、サーバまたは検索エンジンである、請求項8に記載の装置。
  13. 検索される語を含む、クエリ要求をユーザから受け取る、取得装置と、
    同義語データベースにおいて、前記語を検索することによって、前記語の同義語を見出す、同義語検索装置と、
    前記語および前記語の前記同義語を使用することによって検索を行う、検索装置と、
    検索結果を前記ユーザに戻す、リターン装置と、をさらに備える、請求項7に記載の装置。
JP2012506596A 2009-04-27 2010-04-23 同義語を識別し、同義語を使用して検索するための方法および装置 Active JP5536875B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910137633A CN101872351B (zh) 2009-04-27 2009-04-27 识别同义词的方法、装置及利用其进行搜索的方法和装置
CN200910137633.6 2009-04-27
PCT/IB2010/001029 WO2010125463A1 (en) 2009-04-27 2010-04-23 Method and apparatus for identifying synonyms and using synonyms to search

Publications (2)

Publication Number Publication Date
JP2012525615A true JP2012525615A (ja) 2012-10-22
JP5536875B2 JP5536875B2 (ja) 2014-07-02

Family

ID=42997216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012506596A Active JP5536875B2 (ja) 2009-04-27 2010-04-23 同義語を識別し、同義語を使用して検索するための方法および装置

Country Status (6)

Country Link
US (2) US8392438B2 (ja)
EP (1) EP2425353A4 (ja)
JP (1) JP5536875B2 (ja)
CN (1) CN101872351B (ja)
HK (1) HK1148366A1 (ja)
WO (1) WO2010125463A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013020439A (ja) * 2011-07-11 2013-01-31 Nec Corp 同義語抽出システム、方法およびプログラム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010003129A2 (en) * 2008-07-03 2010-01-07 The Regents Of The University Of California A method for efficiently supporting interactive, fuzzy search on structured data
CN101872351B (zh) 2009-04-27 2012-10-10 阿里巴巴集团控股有限公司 识别同义词的方法、装置及利用其进行搜索的方法和装置
CN102737021B (zh) * 2011-03-31 2014-10-22 北京百度网讯科技有限公司 搜索引擎及其实现方法
US9245006B2 (en) * 2011-09-29 2016-01-26 Sap Se Data search using context information
US8635230B2 (en) * 2012-01-26 2014-01-21 International Business Machines Corporation Display of information in computing devices
US8756241B1 (en) * 2012-08-06 2014-06-17 Google Inc. Determining rewrite similarity scores
CN104216892B (zh) * 2013-05-31 2018-01-02 亿览在线网络技术(北京)有限公司 歌曲搜索中非语义、非词组的切换方法
US9311300B2 (en) * 2013-09-13 2016-04-12 International Business Machines Corporation Using natural language processing (NLP) to create subject matter synonyms from definitions
CN105095203B (zh) * 2014-04-17 2018-10-23 阿里巴巴集团控股有限公司 同义词的确定、搜索方法及服务器
US9378204B2 (en) 2014-05-22 2016-06-28 International Business Machines Corporation Context based synonym filtering for natural language processing systems
US10031939B2 (en) 2014-09-30 2018-07-24 Microsoft Technology Licensing, Llc Automated supplementation of data model
CN104298735B (zh) * 2014-09-30 2018-06-05 北京金山安全软件有限公司 识别应用程序类型的方法和装置
TWI550420B (zh) * 2015-02-12 2016-09-21 國立雲林科技大學 資訊取得系統與方法、以及儲存裝置
CN106156597A (zh) * 2015-04-16 2016-11-23 深圳市腾讯计算机系统有限公司 一种验证码的实现方法,及装置
CN106547757B (zh) * 2015-09-17 2021-05-28 北京国双科技有限公司 匹配关键词与创意内容的方法和装置
CN105589967B (zh) * 2015-12-23 2019-08-09 北京奇虎科技有限公司 多级相关新闻的查找方法及装置
CN107748784B (zh) * 2017-10-26 2021-05-25 江苏赛睿信息科技股份有限公司 一种通过自然语言实现结构化数据搜索的方法
JP7172226B2 (ja) * 2018-07-20 2022-11-16 株式会社リコー 検索装置、検索方法及び検索プログラム
US11182416B2 (en) * 2018-10-24 2021-11-23 International Business Machines Corporation Augmentation of a text representation model
CN111428478B (zh) * 2020-03-20 2023-08-15 北京百度网讯科技有限公司 一种词条同义判别的寻证方法、装置、设备和存储介质
US20220414168A1 (en) * 2021-06-24 2022-12-29 Kyndryl, Inc. Semantics based search result optimization

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232877A (ja) 1997-02-18 1998-09-02 Dainippon Printing Co Ltd 文字列の照合装置およびデータベースシステム
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US6366910B1 (en) * 1998-12-07 2002-04-02 Amazon.Com, Inc. Method and system for generation of hierarchical search results
US6519585B1 (en) * 1999-04-27 2003-02-11 Infospace, Inc. System and method for facilitating presentation of subject categorizations for use in an on-line search query engine
JP2001256222A (ja) 2000-03-10 2001-09-21 Omron Corp 文生成方法及び文生成装置
US6687689B1 (en) * 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
EP1300773A1 (en) * 2001-10-02 2003-04-09 Sun Microsystems, Inc. Information service using a thesaurus
US7003511B1 (en) * 2002-08-02 2006-02-21 Infotame Corporation Mining and characterization of data
US20040064447A1 (en) * 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
AU2003290395A1 (en) * 2003-05-14 2004-12-03 Dharamdas Gautam Goradia A system of interactive dictionary
US7617202B2 (en) * 2003-06-16 2009-11-10 Microsoft Corporation Systems and methods that employ a distributional analysis on a query log to improve search results
US20050033568A1 (en) * 2003-08-08 2005-02-10 Hong Yu Methods and systems for extracting synonymous gene and protein terms from biological literature
TW200512602A (en) * 2003-09-19 2005-04-01 Hon Hai Prec Ind Co Ltd Method and system of fuzzy searching
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US20070088683A1 (en) * 2004-08-03 2007-04-19 Gene Feroglia Method and system for search engine enhancement
WO2005124599A2 (en) * 2004-06-12 2005-12-29 Getty Images, Inc. Content search in complex language, such as japanese
JP2006178671A (ja) 2004-12-21 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> 同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体
WO2006110684A2 (en) * 2005-04-11 2006-10-19 Textdigger, Inc. System and method for searching for a query
JP4058057B2 (ja) 2005-04-26 2008-03-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
US7797299B2 (en) * 2005-07-02 2010-09-14 Steven Thrasher Searching data storage systems and devices
US7627548B2 (en) * 2005-11-22 2009-12-01 Google Inc. Inferring search category synonyms from user logs
US9165039B2 (en) * 2005-11-29 2015-10-20 Kang Jo Mgmt, Limited Liability Company Methods and systems for providing personalized contextual search results
US8255376B2 (en) * 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US7475063B2 (en) * 2006-04-19 2009-01-06 Google Inc. Augmenting queries with synonyms selected using language statistics
US8041730B1 (en) * 2006-10-24 2011-10-18 Google Inc. Using geographic data to identify correlated geographic synonyms
US7840538B2 (en) * 2006-12-20 2010-11-23 Yahoo! Inc. Discovering query intent from search queries and concept networks
US7653618B2 (en) * 2007-02-02 2010-01-26 International Business Machines Corporation Method and system for searching and retrieving reusable assets
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
US8001136B1 (en) * 2007-07-10 2011-08-16 Google Inc. Longest-common-subsequence detection for common synonyms
JP2009043156A (ja) * 2007-08-10 2009-02-26 Toshiba Corp 番組検索装置および番組検索方法
US8380731B2 (en) * 2007-12-13 2013-02-19 The Boeing Company Methods and apparatus using sets of semantically similar words for text classification
CN101872351B (zh) 2009-04-27 2012-10-10 阿里巴巴集团控股有限公司 识别同义词的方法、装置及利用其进行搜索的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CSNG200800575002; 寺田 昭: '同義語辞書作成支援システム' 自然言語処理 第15巻 第2号, 20080410, 39-58ページ, 言語処理学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013020439A (ja) * 2011-07-11 2013-01-31 Nec Corp 同義語抽出システム、方法およびプログラム

Also Published As

Publication number Publication date
CN101872351A (zh) 2010-10-27
JP5536875B2 (ja) 2014-07-02
HK1148366A1 (en) 2011-09-02
CN101872351B (zh) 2012-10-10
US20110047138A1 (en) 2011-02-24
US8392438B2 (en) 2013-03-05
WO2010125463A1 (en) 2010-11-04
EP2425353A4 (en) 2014-05-28
US20130132363A1 (en) 2013-05-23
US9239880B2 (en) 2016-01-19
EP2425353A1 (en) 2012-03-07

Similar Documents

Publication Publication Date Title
JP5536875B2 (ja) 同義語を識別し、同義語を使用して検索するための方法および装置
US9613166B2 (en) Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
Kaptein et al. Exploiting the category structure of Wikipedia for entity ranking
JP5078173B2 (ja) 多義性解消方法とそのシステム
US20230177360A1 (en) Surfacing unique facts for entities
KR20160067202A (ko) 맥락적 통찰 및 탐구 기법
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
JP5391632B2 (ja) ワードと文書の深さの決定
Cornolti et al. A piggyback system for joint entity mention detection and linking in web queries
CN108241613A (zh) 一种提取关键词的方法及设备
Jin et al. Entity linking at the tail: sparse signals, unknown entities, and phrase models
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
Olieman et al. Entity linking by focusing DBpedia candidate entities
US9208204B2 (en) Search suggestions using fuzzy-score matching and entity co-occurrence
Boutari et al. Evaluating Term Concept Association Mesaures for Short Text Expansion: Two Case Studies of Classification and Clustering.
Sahmoudi et al. A new keyphrases extraction method based on suffix tree data structure for Arabic documents clustering
Khanna Conical Classification For Efficient One-Class Topic Determination
Canales et al. Evaluation of entity recognition algorithms in short texts
TWI471739B (zh) A method for identifying a synonym, a device, and a method and apparatus for searching it
Mukhtar et al. A Combination of Classification and Summarization Techniques for Bug Report Summarization
Smith et al. Generating unambiguous URL clusters from web search
Jiménez et al. WikiIdRank++: extensions and improvements of the WikiIdRank system for entity linking
Sreekumar et al. Comparative analysis of semantic knowledge-based techniques for understanding short texts
Kaneishi et al. Word sense disambiguation using author topic model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140424

R150 Certificate of patent or registration of utility model

Ref document number: 5536875

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250