JP2005251206A

JP2005251206A - 単語分割で使用される新単語収集方法およびシステム

Info

Publication number: JP2005251206A
Application number: JP2005058934A
Authority: JP
Inventors: Kaoru Okumura; オクムラカオル
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-03-03
Filing date: 2005-03-03
Publication date: 2005-09-15
Also published as: CN1664818A; CN1664818B; KR20060043381A; KR101122942B1; US7424421B2; US20050197829A1

Abstract

【課題】膠着言語のレキシコンに加える新しい単語を収集する方法、コンピュータ可読媒体、およびシステムを提供すること。
【解決手段】この方法では、検索エンジンに提出されたクエリのログが取得される。このクエリのログを分類して、分類されたクエリを得る。次いで、複数のヒューリスティックな基準を使用して、分類されたクエリをフィルタリングして新しい単語の候補リストを得る。そして、新しい単語の候補リストの単語がレキシコンに加えられる。
【選択図】図２

Description

本発明は、ワードブレーカ（ｗｏｒｄ−ｂｒｅａｋｅｒ）に関する。より詳細には、本発明は、単語分割で使用される新単語の収集方法に関する。

単語分割（ｗｏｒｄ−ｂｒｅａｋｉｎｇ）は、テキスト入力を処理する自然言語処理アプリケーションの重要な構成要素である。詳細には、単語分割は、大半の検索エンジンで重要である。検索エンジンは、いくつかの目的で入力文字列に単語分割を行う。例えば、入力文字列に単語分割を適用して、複合語を構成する単語を判定する。

単語分割は、特に、日本語、中国語、朝鮮語などの膠着言語（ａｇｇｌｕｔｉｎａｔｉｖｅｌａｎｇｕａｇｅ）で重要である。膠着言語とは、単語が、別個の形態素の直接的な（ｌｉｎｅａｒ）連続から構成され、１つ１つの意味の構成要素が、それ独自の形態素で表される言語である。膠着言語の他の例には、シュメール語、フルリ語（Ｈｏｕｒｒｉｔｅ）、ウラルトゥ語（Ｏｕｒａｒｔｏｕ）、バスク語、トルコ語がある。一般に、膠着言語では、構成語と構成語を区切るスペースを用いずに単語同士を複合語にすることができる。

検索の対象は、しばしば、まだ辞書になく、専用レキシコン（ｃｕｓｔｏｍｌｅｘｉｃｏｎ）に表されていない各種の新しい単語を含んでいる。検索エンジンのクエリの入力文字列、または、索引付けされ、検索される文書中に未知の単語が含まれる場合は、ワードブレーカがその文字列を正しく単語に分割することが難しくなる。これは、特に、単語と単語がスペースで区切られない言語でそうである。その結果、検索結果の精度／検索の範囲が低くなる可能性が生じる。

ワードブレーカによって使用される専用レキシコンに新しい単語を収集することは、際限のない作業である。専用レキシコンに新しい単語を収集する既存の手法は、時間がかかり、煩瑣である。通例は、検索サイトの所有者によって新しい単語が手作業で集められ、その検索サイトが使用する専用レキシコンに加えられる。新しい単語は、次の製品世代のシステム辞書に含めるために、開発者によっても手作業で収集される。こうした新しい単語を収集する手法の、時間を要し、多大な労力を必要とする性質には、大いに改善の余地がある。

膠着言語のためのレキシコン（ｌｅｘｉｃｏｎ）に追加する新しい単語を収集する方法、コンピュータ可読媒体、およびシステムが提供される。この方法では、検索エンジンに提出されたクエリのログが取得される。このクエリのログを分類して、分類されたクエリを得る。次いで、複数のヒューリスティック基準を使用して、分類されたクエリをフィルタリングして新しい単語の候補リストを得る。そして、新しい単語の候補リストの単語がレキシコンに加えられる。

一部の実施形態では、複数のヒューリスティック基準を使用して、分類されたクエリをフィルタリングして新しい単語の候補リストを得ることは、さらに、複合語である可能性がある、所定の閾値長よりも長さが長いクエリを新しい単語の候補リストから除外することを含む。必要な場合は、一部の実施形態では、それらのクエリが、単語ではなく、ユーザが間違ってエンターキーを押した結果であると判定される場合には、長さに基づくフィルタリングを使用して、所定の閾値長よりも長さが短いクエリを除外することができる。

一部の実施形態では、複数のヒューリスティック基準を使用して、分類されたクエリをフィルタリングして新しい単語の候補リストを得ることは、さらに、クエリログに出現する頻度が所定の閾値出現回数より低いクエリを候補リストから除外することを含む。

一部の実施形態では、複数のヒューリスティック基準を使用して、分類されたクエリをフィルタリングして新しい単語の候補リストを得ることは、さらに、すでにワードブレーカによって１つの語であると分析されているクエリを候補リストから除外することを含む。

本発明の実施形態を特徴付けるこの他の特性および利点は、以下の詳細な説明を読み、関連する図面を検討すると明らかになろう。

図１に、本発明を実施することが可能な適切なコンピューティングシステム環境１００の一例を示す。コンピューティングシステム環境１００は、適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能の範囲について限定を示唆するものではない。また、コンピューティング環境１００は、例示的動作環境１００に示す構成要素の１つまたは組み合わせに関連する依存性あるいは必要性を有するものとも解釈すべきでない。

本発明は、多数の他の汎用または特殊目的のコンピューティングシステム環境または構成で動作する。本発明に使用するのに適する可能性があるよく知られるコンピューティングシステム、環境、および／または構成の例には、これらに限定しないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド機またはラップトップ機、マルチプロセッサシステム、マイクロプロセッサを利用したシステム、セットトップボックス、プログラム可能な家電製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、これらのシステムまたはデバイスを含む分散コンピューティング環境などがある。

本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令との一般的関連で説明することができる。一般に、プログラムモジュールには、特定のタスクを行うか、特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、通信ネットワークを通じてリンクされた遠隔の処理デバイスによってタスクが行われる分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモート両方のコンピュータ記憶媒体に置くことができる。

図１を参照すると、本発明を実施する例示的システムは、コンピュータ１１０の形態の汎用コンピューティングデバイスを含む。コンピュータ１１０の構成要素には、これらに限定しないが、処理装置１２０、システムメモリ１３０、およびシステムメモリを含む各種のシステム構成要素を処理装置１２０に結合するシステムバス１２１が含まれる。システムバス１２１は、各種のバスアーキテクチャを使用した、メモリバスまたはメモリコントローラ、ペリフェラルバス、およびローカルバスを含む数種のバス構造のいずれでもよい。限定ではなく例として、そのようなアーキテクチャには、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、および、メザニンバスとも称されるＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バスがある。

コンピュータ１１０は、通例、各種のコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によるアクセスが可能な利用可能媒体でよく、揮発性および不揮発性の媒体、取り外し可能および取り外し不能の媒体を含む。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体を含むことができる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための方法または技術として実施された、揮発性および不揮発性、取り外し可能および取り外し不能の媒体が含まれる。コンピュータ記憶媒体には、これらに限定しないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、または他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、または他の磁気記憶装置、あるいは、所望の情報の記憶に使用することができ、コンピュータ１１０によるアクセスが可能な他の媒体が含まれる。通信媒体は、通例、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波や他のトランスポート機構などの変調信号として実施し、任意の情報伝達媒体を含む。用語「変調データ信号」とは、信号中に情報を符号化するような方式でその特性の１つまたは複数を設定または変化させた信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接配線接続などの有線媒体と、音波、ＲＦ、赤外線、および他の無線媒体などの無線媒体が含まれる。上記の媒体の組み合わせもコンピュータ可読媒体の範囲に含まれる。

システムメモリ１３０は、読み取り専用メモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性メモリおよび／または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動時などにコンピュータ１１０内の要素間の情報転送を助ける基本ルーチンを含んだ基本入出力システム１３３（ＢＩＯＳ）は、通例ＲＯＭ１３１に記憶される。ＲＡＭ１３２は通例、処理装置１２０から即座にアクセスできる、かつ／または処理装置１２０によって現在操作中のデータおよび／またはプログラムモジュールを保持する。限定ではなく例として、図１には、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を示す。

コンピュータ１１０は、この他の取り外し可能／取り外し不能、揮発性／不揮発性のコンピュータ記憶媒体も含むことができる。単なる例として、図１には、取り外し不能、不揮発性の磁気媒体の読み書きを行うハードディスクドライブ１４１、取り外し可能、不揮発性の磁気ディスク１５２の読み書きを行う磁気ディスクドライブ１５１、および、ＣＤ−ＲＯＭなどの取り外し可能、不揮発性の光ディスク１５６や他の光学媒体の読み書きを行う光ディスクドライブ１５５を図示する。この例示的動作環境で使用することができる他の取り外し可能／取り外し不能、揮発性／不揮発性のコンピュータ記憶媒体には、これらに限定しないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体素子ＲＡＭ、固体素子ＲＯＭなどがある。ハードディスクドライブ１４１は、通例、インタフェース１４０などの取り外し不能メモリインタフェースを通じてシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は、通例、インタフェース１５０などの取り外し可能メモリインタフェースを通じてシステムバス１２１に接続される。

上記で述べ、図１に示すこれらのドライブとそれに関連付けられたコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、および他のデータの記憶をコンピュータ１１０に提供する。例えば、図１では、ハードディスクドライブ１４１に、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７が記憶されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同じであっても異なってもよいことに留意されたい。ここでは、それらが少なくとも異なるコピーであることを表すために、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７には異なる参照符号を付している。

ユーザは、キーボード１６２、マイクロフォン１６３、およびマウス、トラックボール、タッチパッドなどのポインティングデバイス１６１などの入力装置を通じてコンピュータ１１０にコマンドと情報を入力することができる。他の入力装置（図示せず）としては、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナなどが可能である。これらおよび他の入力装置は、多くの場合、システムバスに結合されたユーザ入力インタフェース１６０を通じて処理装置１２０に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス（ＵＳＢ）などの他のインタフェースおよびバス構造で接続してもよい。モニタ１９１または他のタイプの表示装置も、ビデオインタフェース１９０などのインタフェースを介してシステムバス１２１に接続される。モニタに加えて、コンピュータは、スピーカ１９７およびプリンタ１９６などの他の周辺出力装置も含むことができ、それらは、出力周辺インタフェース１９５を通じて接続することができる。

コンピュータ１１０は、リモートコンピュータ１８０などの１つまたは複数のリモートコンピュータとの論理接続を使用するネットワーク環境で動作することができる。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、または他の一般的なネットワークノードであり、通例は、コンピュータ１１０との関連で上記で述べた要素の多くまたはすべてを含む。図１に示す論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１とワイドエリアネットワーク（ＷＡＮ）１７３を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業内のコンピュータネットワーク、イントラネット、およびインターネットなどに一般的に見られる。

ＬＡＮネットワーキング環境で使用される場合、コンピュータ１１０は、ネットワークインタフェースあるいはアダプタ１７０を通じてＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境で使用される場合、コンピュータ１１０は通例、インターネットなどのＷＡＮ１７３を通じて通信を確立するためのモデム１７２または他の手段を含む。モデム１７２は、内蔵型でも外付け型でもよく、ユーザ入力インタフェース１６０または他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク環境では、コンピュータ１１０との関連で図示するプログラムモジュール、またはその一部は、遠隔のメモリ記憶装置に記憶してよい。限定ではなく例として、図１では、リモートアプリケーションプログラム１８５がリモートコンピュータ１８０にある。図のネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立する他の手段を使用してよいことは理解されよう。

本発明は、ワードブレーカ（ｗｏｒｄ−ｂｒｅａｋｅｒ）によって使用されるレキシコンに追加する新しい単語を収集するための改良された方法を含む。収集方法およびワードブレーカのいずれかまたは両方は、図１に示すようなコンピューティング環境、または他の種のコンピューティング環境で実施することができる。専用レキシコンあるいはシステム辞書に含める新しい単語を収集するために通例は相当の手作業の労力を要する従来の方法と異なり、本発明の方法およびシステムは、検索クエリのログを利用して、新しい単語を自動的あるいは半自動的に取得する。本発明の新しい単語の収集方法は、特に、単語と単語の間にスペースあるいはハイフンを使用せずに単語が複合語にされる膠着言語に有用である。

図２は、後に検索エンジンで使用するために文書またはウェブサイトを索引付けするプロセスにおける単語分割の使用の一例を説明する検索エンジン索引付けシステム２００のブロック図である。システム２００は、文字列抽出モジュール２１０を含む。索引付けを行う際に、モジュール２１０は、２１５として示す文書またはウェブサイト（「ドキュメント」と総称する）から文字列２１１を抽出する。

システム２００は、文字列２１１を分析してキーワード２２１を生成する単語分割モジュール２２０も含む。単語分割モジュール２２０は、従来の単語分割モジュール機能として機能することができる。文字列２１１からキーワード２２１を生成するプロセスで、単語分割モジュール２２０は、レキシコン２２５を利用する。レキシコン２２５は、各種のアプリケーションによって使用される従来のフルレキシコン、特定のアプリケーション専用の専用レキシコン、あるいはその２種の組み合わせでよい。従来の方式で、単語分割モジュール２２０は、文字列の特定の膠着言語に適した文法２３０と統計データ２３５も使用することができる。

検索エンジンの中には特定のノイズ語を排除するものがあるので、単語分割モジュール２２０は、ノイズ語のデータベースまたはリスト２４０にアクセスし、最終的にキーワード２２１として提供される得られた単語の群からそのノイズ語を除去または排除することもできる。この機能は、必要な場合は、別個のノイズ語排除モジュールによって、別個のノイズ語排除ステップとして実施することもできる。すべての検索エンジンが同じノイズ語を排除するとは限らないので、ノイズ語リスト２４０のノイズ語は、特定の検索エンジンに合わせてカスタマイズできるようにしても、特定の検索エンジン専用としてもよい。ノイズ語の例には、英語の「ａ」や「ｔｈｅ」に相当する機能語（ｆｕｎｃｔｉｏｎａｌｗｏｒｄ）のような機能語が考えられる。日本語の場合の別の例としては、１文字の日本語のかな語が挙げられる。この他の種のノイズ語の例も他に多数可能であり、特定の膠着言語に応じて異なる。

単語分割モジュール２２０から提供される結果的なキーワード２２１は、インデックス２５０に加えられる。インデックス２５０は、そのキーワードを、元の文字列が抽出されたドキュメント２１５に関係付ける。次いで、それらのキーワードを含む検索エンジンクエリに応答して、それらのキーワードが使用されて適切なドキュメントを取り出す。

図３は、自然言語のユーザクエリに応答して文書またはウェブサイトを検索する際の単語分割の使用の一例を説明する検索エンジンシステム３００のブロック図である。システム３００は、テキスト入力３０５の形のユーザクエリを受け取る単語分割モジュール２２０を含む。テキスト入力３０５は、例えば膠着言語の場合は、通例、テキスト文字列の形態である。図では単語分割モジュールは、図２に示すシステム２００で使用される単語分割モジュールと同じものとして示している。しかし、必ずしも同じである必要はなく、各種のシステムで使用される単語分割モジュールには違いが存在してよい。

単語分割モジュール２２０は、レキシコン２２５を使用して、周知の方式で単語分割機能を行う。上述したように、単語分割モジュールは、必要に応じて、あるいは分析対象の特定の言語に最も有益となるように、文法、統計データ、および他のリソースも使用して単語分割機能を行うことができる。単語分割モジュール２２０の出力は、テキスト入力３０５から得られた単語リスト３１０である。

上記の索引付けシステム２００と同様に、検索エンジンシステム３００は、ノイズ語を排除することができる。再度述べると、ノイズ語には、「ａ」や「ｔｈｅ」に相当する機能語などの機能語、または、内容的に希薄で、重要な意味を持たない他の語が含まれる。ノイズ語は、特定の言語に固有であり、ここでも日本語のかな語をその例とする。ノイズ語の排除は任意選択であり、別個のノイズ語排除モジュール３２０として実施しても、あるいは、単語分割モジュール２２０中に実施してもよい。ノイズ語を排除すると、その結果は、キーワード３３０のリストまたは群となる。

システム３００は、キーワード３３０をインデックス２５０に記憶されたキーワードと比較するキーワード探索モジュール３４０も含む。キーワード３３０とインデックス２５０中のキーワードとで一致したものについては、対応する文書またはサイト２１５（または、対応する文書またはサイトのリスト）が取り出される。キーワード探索モジュール３４０は、通例、結果３５０が、ほぼ確実にクエリに意図される結果になるように、取り出された文書またはサイトをランク付けする。例えば、モジュール３４０は、文書またはサイト中のキーワードの頻度、個々の文書またはサイトで実際に見つかるキーワードの割合に基づいて、または他のランク付け基準により結果をランク付けすることができる。

次いで図４を参照すると、本発明の実施形態による、新単語収集システム４００を示す。図４に示す各種モジュールは、本発明の方法も表す。システム４００とそれに対応する方法は、本発明をより適切に説明するためにともに説明する。

本発明の新単語収集方法の最初のステップは、検索エンジンの検索またはクエリのログを取得して、特定の言語で提出されたクエリのリストを集めることである。これを図４のクエリログ４１０として示す。次いで、クエリログを、ログ中での出現頻度に応じて分類する。このステップとそれに対応するシステム４００の構成要素が、分類されたクエリ４２１を出力として提供するクエリログ分類モジュール４２０として表される。クエリログは、いくつかの技術のいずれかを使用して、出現頻度で分類することができる。例えば、出現頻度は、あるクエリが全く同じ形（あるいはほぼ同じ形）で出現した回数に基づくことができる。しかし、出現頻度は、それらのクエリが全く同じ形で現れない場合にも、似たようなクエリをクエリバンドル（ｂｕｎｄｌｅ）にまとめることに基づくこともできる。

次いで、この方法は、何らかの所定のヒューリスティックに基づいて、分類されたクエリをフィルタリングすることを含む。これを図４では、ヒューリスティックフィルタリングモジュール４３０として示し、このモジュール４３０は、フィルタリングの後、出力４３１で新しい単語の候補リストを提供する。分類されたクエリをフィルタリングするために使用されるヒューリスティックは、特定の実装および／または異なる言語によって異なってよいが、ヒューリスティックフィルタリング基準の一例を図５にさらに図示する。

図５に示すように、ヒューリスティックフィルタリングモジュール４３０（ヒューリスティックフィルタリング基準を表す）は、クエリ長フィルタ５１０を含むことができる。クエリ長フィルタ５１０は、何らかの所定の文字数より長い文字列および／または短いクエリ文字列を排除し、出力５１１で、その基準を満たすクエリのみを提供する。このフィルタリング基準は、新しい単語文字列の候補リストから、複合語である可能性がある（上限閾値より長い）文字列、あるいは、例えばユーザが間違ってエンターキーを押した結果生じた、新しい単語とするには短すぎる（下限閾値より短い）文字列を除外する。長すぎる単語を取り除くフィルタリングは、短すぎる単語のフィルタリングと併用される必要はないことに留意されたい。一部の実施形態では、短すぎる単語に基づくフィルタリングはない。

次いで、残ったクエリをフィルタリングして、クエリログに十分な頻度で出現しないクエリを取り除く。これを図５ではクエリ頻度フィルタ５２０として表す。クエリ頻度フィルタ５２０は、何らかの所定の閾値回数以上クエリログに出現しないクエリ文字列を排除して、出力５２１で、その基準を満たすのに十分な頻度で出現するクエリのみを提供する。他の実施形態では、クエリ頻度フィルタ５２０は、クエリ長フィルタ５１０の前にその機能を行うことができることに留意されたい。同様に、フィルタリング順序のその他の変更が可能である。

次いで、単語分割の結果に基づいて、残ったクエリをフィルタリングする。これを単語分割結果フィルタ５３０として示す。単語分割結果フィルタ５３０は、残ったクエリを単語分割の結果と比較し、単語分割モジュール２２０によってすでに１つの単語として分析されているクエリを除外する。単語分割の結果を提供する際に、上述のように、モジュール２２０は、レキシコン２２５と、必要に応じて、文法、統計データ、ノイズ語リストなどの他のリソースを使用する。単語分割モジュールによって１つの語としてすでに分析されていない、残ったクエリが、フィルタ５３０から出力５３１で提供される。

次いで、必要な場合は、図５でまとめてフィルタ５４０として表すように、他のフィルタリング基準を適用することができる。例えば、新しい日本語の単語を収集する場合、ひらがなは、その単語を知らずに分析を行った場合に単語分割の問題が発生する主要な領域であることから、フィルタ５４０は、ひらがなあるいはカタカナの単語または文字列でないすべての単語候補を除外することができる。同様に、フィルタ５４０は、ひらがなまたはカタカナの単語または文字列でないすべての単語候補を除外してよい。１つまたは複数の日本語の文字種の制約に基づくフィルタリングの例が２つある。より一般的には、日本語の文字種の制約に基づいて候補リストからクエリを除外することは、ヒューリスティックに基づいて、または、分類されたクエリの文字種の組み合わせに基づいてクエリを除外することを含むことができる。他の多くのフィルタリング基準も可能である。

再度図４を参照すると、結果的に得られる新単語の候補リスト４３１は、符号４４０に示すように、さらに人間によってフィルタリングすることができる（すなわち、人間に候補リストから単語を選択または除外させる）。人間によるフィルタリングを含めるかどうかの決定は任意であり、特定の必要条件と作業量／効果あるいは利益の兼ね合いに応じて決まる。本発明の方法およびシステムの利点の１つは、特に膠着言語の場合に、新しい単語を識別するための人間の手による作業量を低減することである。この位置に人間によるフィルタリングを加えることは、過度に負担となる作業量を付加することなく、結果をさらに強化するものと考えられる。

人間によるフィルタリングを行う場合はその後に、残ったクエリエントリが新単語リスト４４１として提供される。この新しい単語は、上述の索引付けと検索エンジンのクエリタスクの単語分割で使用するために使用される専用レキシコンまたはフルレキシコン（図２、図３、および図５ではまとめてレキシコン２２５と示す）に追加されるか、レキシコンに併合される。新単語リスト４４１を含む更新後のレキシコンを図４の符号４５０に表す。そして、以後上記のシステムおよび方法が使用される際には、元のレキシコン２２５の代わりにこの更新されたレキシコンが使用される。さらに、結果得られた新しい単語は、検索エンジンの単語分割機能だけでなく、単語分割を含む他の自然言語分析にも利用することができる。その例には、タイプミス検出機能、代替検索語の提案機能（すなわち「もしかしたら．．？（Ｄｏｙｏｕｍｅａｎ．．．？）」の検索エンジン機能）などが含まれる。

本発明を使用して識別された新しい単語でレキシコンを更新すると、上記のシステムを使用して、更新されたレキシコンを用いてドキュメント全体を再度索引付けすることができる。そして、検索エンジンのクエリ分析で使用するために、更新されたインデックスあるいは新しいインデックスが、元のインデックスに取って代わることができる。本発明の方法およびシステムを使用してレキシコンに追加する新しい単語を識別することにより、改良された言語分析結果を実現することができる。検索のシナリオでは、より良好な検索結果を達成することができる。本発明は、専用レキシコンを維持するのに必要な作業量を大幅に低減する。結果は、次の世代のレキシコンに移植することもでき、レキシコンを更新するのに必要とされる作業量を低減する。

以下に述べるのは、新しい単語を識別する本発明の方法およびシステムに対する必要性の日本語における例であり、本発明の方法およびシステムがその例の状況でどのように機能するかの例でもある。新しい日本語の単語「らるく」を考えられたい。これは、あるポップ音楽グループの新しく作り出された通称（短縮形）であり、そのため、恐らくはシステムレキシコンには追加されていないと考えられる。予備知識として、日本語で、このポップ音楽グループの正式名は、「ラルクアンシエル」（カタカナ）である。アルファベット表記は「Ｌ’ＡｒｃｅｎＣｉｅｌ」である。この例では、実際に「らるく」がシステムレキシコンに追加されていないものとする。

ワードブレーカがこの単語を認識しない場合どうなるか。

ケースＡ：ワードブレーカは、未知の単語を過度に分割する傾向がある（これは、下記のケースＢより一般的である）。ケースＡでは、
・単語分割の結果は、「ら／る／く」あるいはそれに似たものとなる。
・ワードブレーカが、１文字のかなをノイズ語として破棄した場合は、すべての内容あるいはまとまりが破棄され、この語は、全く検索することができなくなる。
・ワードブレーカが、１文字のかなをノイズ語として破棄しない場合でも、「ら」または「る」または「く」との一致は数多くあり、これは、パフォーマンスにとっては負の要素となり、一致するドキュメントをランク付けする際に問題を引き起こす可能性がある。
・また、ワードブレーカは、状況によっては安定して良好に動作するとは限らない。

あるドキュメントが、フレーズ「らるくに会った」を含むとする。このフレーズの単語分割の結果は、「ら／る／くに／会／った」となる可能性があり、これは「ら／る／く」と一致しない。

ケースＢ：ワードブレーカは、（未知の単語の推測機構を使用した）未知の単語の分割が不十分になる傾向がある。ケースＢでは
・単語分割の結果は、「らるく」あるいはそれに似たものになる。これは、悪い結果ではない。
・しかし、ワードブレーカは、状況によっては安定して良好に動作するとは限らない。ドキュメントがフレーズ「らるくに会った」を含むものとする。このフレーズの単語分割の結果は、「らる／くに／会った」となる可能性があり、これは「らるく」とは一致しない。

この単語が専用レキシコンに追加された（あるいはシステムレキシコンに併合された）場合はどうなるか。上記のケースＡおよびＢの両方で、期待される結果が達成される。すなわち

クエリ「らるく」 → 一語の「らるく」
ドキュメント中の「らるくに会った」 → 「らるく／に／会／った」

となる。

したがって、レキシコンに追加するには、この単語を新しい１つの単語として識別することが重要である。この語が、上記で述べたフィルタリングで拾われるプロセスを考えられたい。

これが非常に頻繁に行われるクエリであることは分かっている。このクエリは、十分に短い。それは、この語が、複合語またはフレーズではなく１つの単語である可能性があることを意味する。

このクエリに単語分割が実行される際には、２つのケース、すなわちケースＡとケースＢがある。

ケースＡ：ワードブレーカは、未知の語を過度に分割する傾向がある（これはケースＢよりも一般的である）。
・単語分割の結果は、「ら／る／く」あるいはそれに似たものとなる。
・ワードブレーカが、１文字のかなをノイズ語として破棄した場合は、このクエリの大半の部分がノイズ語として破棄されてしまい、その結果このクエリは、明らかに新しい単語の候補となる。
・ワードブレーカが、１文字のかなをノイズ語として破棄しない場合は、単語分割の結果が、かなのかたまりとして小さすぎるかどうかを調べる。小さすぎる場合も、クエリは、新しい単語の良好な候補となる。一般に、表意文字を含む短い固まりは、深刻な検索上の問題にはつながらない。したがって、それらのケースは除外してよい。

ケースＢ：ワードブレーカは、未知の語の分割が不十分になる傾向がある。
・単語分割の結果は「らるく」になる。
・文字列「らるく」がレキシコンにあるかどうかを調べる。この文字列がレキシコンにない場合は、特にこのクエリがすべてかなで構成されていることを考えると、クエリは、新しい単語としてレキシコンに追加するのに適した候補であることになる。

本発明について特定の実施形態を参照して説明したが、当業者は、本発明の主旨および範囲から逸脱せずに形態および詳細事項に変更を加えてよいことを理解されよう。

本発明を使用することが可能な一例示的環境のブロック図である。本発明が有用な検索エンジン索引システムの一実施形態を示すブロック図である。本発明が有用な検索エンジンシステムの一実施形態を示すブロック図である。本発明の新単語収集システムおよび方法の一実施形態を示すブロック図である。図４に示すヒューリスティックフィルタリングモジュールの一実施形態を示すブロック図である。

符号の説明

１２０処理装置
１３０システムメモリ
１３４、１４４オペレーティングシステム
１３５、１４５アプリケーションプログラム
１３６、１４６他のプログラムモジュール
１３７、１４７プログラムデータ
１４０取り外し不能、不揮発性メモリインタフェース
１５０取り外し可能、不揮発性メモリインタフェース
１６０ユーザ入力インタフェース
１６１ポインティングデバイス
１６２キーボード
１６３マイクロフォン
１７０ネットワークインタフェース
１７２モデム
１７１ローカルエリアネットワーク
１７３ワイドエリアネットワーク
１８０リモートコンピュータ
１８５リモートアプリケーションプログラム
１９０ビデオインタフェース
１９１モニタ
１９５出力周辺インタフェース
１９６プリンタ
１９７スピーカ
２１０文字列抽出モジュール
２１１文字列
２１５ドキュメントまたはサイト
２２０単語分割モジュール
２２１キーワード
２２５レキシコンおよび／または専用レキシコン
２３０文法
２３５統計データ
２４０ノイズ語リスト
２５０インデックス
３０５テキスト
３１０単語リスト
３２０ノイズ語排除
３３０キーワード
３４０キーワード探索モジュール
３５０結果
４１０クエリログ
４２０クエリログ分類モジュール
４２１分類されたクエリ
４３０ヒューリスティックフィルタリングモジュール
４３１新しい単語の候補リスト
４４０人間によるフィルタリング
４４１新しい単語のリスト
４５０レキシコンおよび／または専用レキシコン
５１０クエリ長フィルタ
５２０クエリ頻度フィルタ
５３０単語分割結果フィルタ
５４０他の基準によるフィルタリング

Claims

膠着言語のためのレキシコンに追加する新しい単語を収集する方法であって、
検索エンジンに提出されたクエリのログを取得するステップと、
前記クエリのログを分類して、分類されたクエリを得るステップと、
前記分類されたクエリを、複数のヒューリスティック基準を使用してフィルタリングして新しい単語の候補リストを得るステップと、
前記新しい単語の候補リストの単語をレキシコンに追加するステップと
を備えることを特徴とする方法。
前記複数のヒューリスティック基準を使用して前記分類されたクエリをフィルタリングして前記新しい単語の候補リストを得るステップはさらに、所定の閾値長よりも長いクエリを前記候補リストから除外するステップを備えることを特徴とする請求項１に記載の方法。
前記複数のヒューリスティック基準を使用して前記分類されたクエリをフィルタリングして前記新しい単語の候補リストを得るステップはさらに、前記クエリログに出現する頻度が所定の閾値出現頻度より少ないクエリを前記候補リストから除外するステップを備えることを特徴とする請求項２に記載の方法。
前記複数のヒューリスティック基準を使用して、前記分類されたクエリをフィルタリングして前記新しい単語の候補リストを得るステップはさらに、すでにワードブレーカにより１つの単語であると分析されたクエリを前記候補リストから除外するステップを備えることを特徴とする請求項３に記載の方法。
人間が前記新しい単語の候補リストをフィルタリングして新しい単語のリストを得るステップをさらに備え、前記新しい単語の候補リストの単語を前記レキシコンに追加するステップは、前記新しい単語のリストから単語を追加するステップを備えることを特徴とする請求項４に記載の方法。
前記新しい単語の候補リストから前記レキシコンに単語を追加するステップはさらに、前記新しい単語のリストから前記ワードブレーカによって使用されるレキシコンに単語を追加して、更新されたレキシコンを得るステップを備えることを特徴とする請求項５に記載の方法。
前記更新されたレキシコンを使用して、複数のドキュメントまたはサイトを再度索引付けするステップをさらに備えることを特徴とする請求項５に記載の方法。
前記更新されたレキシコンを使用して、検索エンジンのクエリ分析を行うステップをさらに備えることを特徴とする請求項７に記載の方法。
前記膠着言語は日本語であることを特徴とする請求項１に記載の方法。
前記複数のヒューリスティック基準をフィルタリングして前記新しい単語の候補リストを得るステップはさらに、日本語の文字種の制約に基づいて前記候補リストからクエリを除外するステップを備えることを特徴とする請求項９に記載の方法。
前記日本語の文字種の制約に基づいて前記候補リストからクエリを除外するステップはさらに、ひらがなまたはカタカナの文字列でないクエリを除外するステップを備えることを特徴とする請求項１０に記載の方法。
前記日本語の文字種の制約に基づいて前記候補リストからクエリを除外するステップはさらに、前記分類されたクエリの前記文字種の組み合わせについてのヒューリスティックに基づいてクエリを除外するステップを備えることを特徴とする請求項１０に記載の方法。
膠着言語で検索エンジンに提出されたクエリのログを分類して、分類されたクエリを得るステップと、
複数のヒューリスティック基準を使用して、前記分類されたクエリをフィルタリングして、レキシコンに追加する新しい単語の候補リストを得るステップと
を行うコンピュータ実行可能命令を有するコンピュータ可読媒体であって、
前記複数のヒューリスティック基準を使用して前記分類されたクエリをフィルタリングして前記新しい単語の候補リストを得るステップはさらに、所定の閾値長よりも長いクエリを前記候補リストから除外するステップを備えることを特徴とするコンピュータ可読媒体。
前記複数のヒューリスティック基準を使用して前記分類されたクエリをフィルタリングするステップはさらに、前記クエリログに出現する頻度が所定の閾値出現頻度より少ないクエリを前記候補リストから除外するステップを備えることを特徴とする請求項１３に記載のコンピュータ可読媒体。
前記複数のヒューリスティック基準を使用して、前記分類されたクエリをフィルタリングするステップはさらに、すでにワードブレーカによって１つの単語であると分析されたクエリを前記候補リストから除外するステップを備えることを特徴とする請求項１４に記載のコンピュータ可読媒体。
前記新しい単語の候補リストから前記レキシコンに単語を追加するステップを行うコンピュータ実行可能命令をさらに有することを特徴とする請求項１５に記載のコンピュータ可読媒体。
レキシコンに追加するために、検索エンジンに提出されたクエリのログから膠着言語の新しい単語を収集する新単語収集システムであって、
前記クエリのログを分類して、分類されたクエリを得るように構成されたクエリログ分類コンポーネントと、
複数のヒューリスティック基準を使用して、前記分類されたクエリをフィルタリングして、新しい単語の候補リストを得るように構成されたヒューリスティックフィルタリングコンポーネントと
を備えることを特徴とするシステム。
前記ヒューリスティックフィルタリングコンポーネントはさらに、所定の閾値長よりも長いクエリを前記新しい単語の候補リストから除外するように構成されたクエリ長フィルタを備えることを特徴とする請求項１７に記載の新単語収集システム。
前記ヒューリスティックフィルタリングコンポーネントはさらに、前記クエリログに出現する頻度が所定の閾値出現頻度より少ないクエリを前記新しい単語の候補リストから除外するように構成されたクエリ頻度フィルタを備えることを特徴とする請求項１８に記載の新単語収集システム。
前記ヒューリスティックフィルタリングコンポーネントはさらに、すでにワードブレーカによって１つの単語であると分析されたクエリを前記新しい単語の候補リストから除外するように構成された単語分割結果フィルタを備えることを特徴とする請求項１９に記載の新単語収集システム。