JP2005259143A - 言語データのログの圧縮 - Google Patents

言語データのログの圧縮 Download PDF

Info

Publication number
JP2005259143A
JP2005259143A JP2005065205A JP2005065205A JP2005259143A JP 2005259143 A JP2005259143 A JP 2005259143A JP 2005065205 A JP2005065205 A JP 2005065205A JP 2005065205 A JP2005065205 A JP 2005065205A JP 2005259143 A JP2005259143 A JP 2005259143A
Authority
JP
Japan
Prior art keywords
log
query
compression process
compression
character strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005065205A
Other languages
English (en)
Inventor
Hsiao-Wuen Hon
ホン ヒシャオ−ウェン
Peter F Leonard
エフ.レオナルド ピーター
Scott E Meredith
イー.メレディス スコット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005259143A publication Critical patent/JP2005259143A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 照会ログを圧縮するための方法および装置を提供すること。
【解決手段】 複数レベルのユーザ指定可能な圧縮には、文字ベースの圧縮、トークンベースの圧縮、および包含が含まれる。包含を実行するための効率的な方法も提供される。その後、圧縮された照会ログを使用して、コンピュータのオペレーティングシステム用のヘルプ機能などの統計的処理をトレーンニングする。
【選択図】 図4

Description

本発明は、自然言語データのコンピュータ化されたログに関し、より詳細には、自然言語データのコンピュータ化されたログを圧縮するための方法およびシステムに関する。
本明細書で使用される言語データのログには、人によって生成される2つ以上の言語文字列が含まれる。これらのログは、様々な状況において生成することができる。たとえばこうしたログは、1人または複数のユーザが大規模なデータの集まりと対話をしようと試みている環境で生成される。この環境の特定の例の1つが、ユーザがコンピュータシステムに関してヘルプトピックを見つけるためにヘルプ照会を生成する場合である。たとえば、こうした照会の1つに「どのようにプリンタをインストールすればよいか」が含まれる場合がある。他の例には、「自分のコンピュータにどのようにファイアウォールを構成すればよいか」がある。
何百万もの実際のユーザ照会のログが存在し、システム製造者はこれらを、ユーザヘルプの必要性/目標とそれらの表現または言語傾向との間の関係に関する情報の貴重なソースとして使用することができる。照会が、定義されたシステムタスク指示子の形態でユーザの関心に結び付く場合、これらのログを用いて次世代のヘルプサービス向けの統計的照会分類子をトレーニングすることができる。さらにこうしたログを調べて、追加しなければならないヘルプタスクのための着想を探り当てることができる。最終的に、生の(raw)照会文字列のカウントではなく正規化された形をカウントすることによって、「実際の」すなわち使用可能な実際のサイズ、あるいは所与のログの実際の意味的コンテンツ/サイズまたは付加価値の基本尺度が、より良く決定される。
コンピュータシステムがより大規模かつより機能豊富になったことから、効率的かつ直感的に使用できるヘルプシステムを提供することがより重要になってきている。しかしながら、所与の照会を記述することが可能な様々な方法の数がかなり複雑であり、現在のコンピュータシステムによって提供される大量の追加の特徴および機能によってさらに複雑さが増すということは、自然言語照会ログがこうした何百万もの照会を含むことができることを意味する。確かに、これら大量のログに基づいて照会検索エンジンを手動で読み取ってトレーニングするには、かなりの時間がかかる。しかしながら、ログ内の各々の、およびあらゆる照会は、検索の正確さを向上させるのに役立つ潜在的に重要なデータを表す。より管理しやすいサイズにするために単にログ内の個々の照会を廃棄することは、望ましくない。
照会ログなどの大規模な自然言語データログの操作を容易にすることができるシステムおよび方法を提供することが、当分野にとって有用となろう。さらに、こうした照会の言語的意味を維持しながら、これら自然言語データログの巨大なサイズを縮小するような方式でこうした操作が実行できれば、非常に有益となろう。
照会ログを圧縮するための方法および装置が提供される。複数レベルのユーザ指定可能な圧縮には、文字ベースの圧縮、トークンベースの圧縮、および包含(subsumption)が含まれる。その後、圧縮された照会ログを使用して、コンピュータのオペレーティングシステム用のヘルプ機能などの統計的プロセスをトレーンニングする。
図1は、本発明を実施することができる好適なコンピューティングシステム環境100の一例を示す図である。コンピューティングシステム環境100は好適なコンピューティング環境の一例に過ぎず、本発明の用途または機能の範囲に関してどのような限定をも暗示するものではない。さらにコンピューティング環境100は、例示的なオペレーティング環境100に図示された構成要素のいずれか1つまたはそれらの組合せに関して、どのような依存関係または要件をも有するものと解釈されるべきではない。
本発明は、多数の他の汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明で使用するのに適している可能性のあるよく知られたコンピューティングシステム、環境、および/または構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記システムまたは装置のいずれかを含む分散コンピューティング環境、およびその他が含まれるが、これらに限定されない。
本発明については、コンピュータによって実行されているプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明することができる。一般にプログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実施する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実行される、分散コンピューティング環境でも実施可能である。分散コンピューティング環境では、プログラムモジュールを、メモリ記憶装置を含むローカルおよびリモートの両方のコンピュータ記憶媒体に配置することができる。
図1を参照すると、本発明を実施するための例示的なシステムは、コンピュータ110の形態で汎用コンピューティング装置を含む。コンピュータ110の構成要素は、中央処理装置120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理装置120に結合するシステムバス121を含むことができるが、これらに限定されない。
システムバス121は、メモリバスまたはメモリコントローラ、周辺バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含む、いくつかの種類のバス構造のうちのいずれかとすることができる。例を挙げると、こうしたアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、拡張ISA(EISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとも呼ばれるPCI(Peripheral Component Interconnect)バスが含まれるが、これらに限定されない。
コンピュータ110は、通常、様々なコンピュータ読取り可能媒体を含む。コンピュータ読取り媒体は、コンピュータ110がアクセス可能な任意の使用可能媒体とすることが可能であり、揮発性および不揮発性、取り外し可能および固定の、両方の媒体を含む。例を挙げると、コンピュータ読取り可能媒体はコンピュータ記憶媒体および通信媒体を備えることができるが、これらに限定されない。コンピュータ記憶媒体は、コンピュータ読取り可能命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するための任意の方法または技術で実施された、揮発性および不揮発性、取り外し可能および固定の両方の媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶装置、あるいは、所望の情報を格納するために使用可能でありコンピュータ110がアクセス可能な任意の他の媒体を含むが、これらに限定されない。通信媒体は、通常、コンピュータ読取り可能命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の移送メカニズムなどの変調データ信号で実施し、任意の情報送達媒体を含む。「変調データ信号」という用語は、信号に情報を符号化するような方法でその特徴の1つまたは複数が設定または変更された信号を意味する。例を挙げると、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体と、音響、RF、赤外線、および他の無線媒体などの無線媒体とが含まれるが、これらに限定されない。上記のいずれかの組合せも、コンピュータ読取り可能媒体の範囲内に含まれるものとする。
システムメモリ130は、読み取り専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形態でコンピュータ記憶媒体を含む。起動時などのコンピュータ110内の要素間での情報の転送を助ける基本ルーチンを含む基本入力/出力システム133(BIOS)は、通常はROM131に格納される。RAM132は、通常、処理装置120によって即時にアクセス可能であり、かつ/または処理装置120上で現在動作中の、データおよび/またはプログラムモジュールを含む。例を挙げると、図1にはオペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137が示されているが、これらに限定されない。
コンピュータ110は、他の取り外し可能/固定の、揮発性/不揮発性のコンピュータ記憶媒体も含むことができる。例示のためだけとして、図1には、固定の、不揮発性の磁気媒体からの読み取りまたはこれへの書き込みを行うハードディスクドライブ141と、取り外し可能、不揮発性の磁気ディスク152からの読み取りまたはこれへの書き込みを行う磁気ディスクドライブ151と、CD−ROMまたは他の光媒体などの取り外し可能、不揮発性の光ディスク156からの読み取りまたはこれへの書き込みを行う光ディスクドライブ155とが示される。例示的なオペレーティング環境で使用可能な他の取り外し可能/固定の、揮発性/不揮発性コンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROM、およびその他が含まれるが、これらに限定されない。ハードディスクドライブ141は、通常、インターフェース140などの固定のメモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常、インターフェース150などの取り外し可能メモリインターフェースによってシステムバス121に接続される。
上記で考察され、図1に図示されたドライブおよびそれらに関連付けられたコンピュータ記憶媒体は、コンピュータ読取り可能命令、データ構造、プログラムモジュール、およびコンピュータ110に関する他のデータの記憶を提供する。図1では、たとえば、ハードディスクドライブ141がオペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納しているものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じとすることも、異なるものとすることもできることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は、少なくともこれらが異なるコピーであることを示すために異なる番号が与えられている。
ユーザは、キーボード162、マイクロフォン163、および、マウス、トラックボール、またはタッチパッドなどのポインティングデバイス161を介して、コマンドおよび情報をコンピュータ110に入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナ、またはその他を含むことができる。これらおよび他の入力装置は、多くの場合、システムバスに結合されるユーザ入力インターフェース160を介して処理装置120に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインターフェースおよびバス構造によって接続することも可能である。モニタ191または他の種類のディスプレイ装置も、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。コンピュータは、モニタに加えて、出力周辺インターフェース190を介して接続可能なスピーカ197およびプリンタ196などの他の周辺出力装置を含むこともできる。
コンピュータ110は、リモートコンピュータ180などの1つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピア装置、または他の共通ネットワークノードとすることが可能であり、通常、コンピュータ110に関して上記で説明した要素の多くまたはすべてを含む。図1に示された論理接続には、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173が含まれるが、他のネットワークを含むこともできる。こうしたネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットで一般的である。
コンピュータ110は、LANネットワーキング環境で使用される場合、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。コンピュータ110は、WANネットワーキング環境で使用される場合、通常、インターネットなどのWAN173を介して通信を確立するためのモデム172または他の手段を含む。モデム172は内蔵型または外付け型とすることが可能であり、ユーザ入力インターフェース160または他の適切なメカニズムを介してシステムバス121に接続することができる。ネットワーク化環境では、コンピュータ110に関して示されたプログラムモジュールまたはその一部を、リモートメモリ記憶装置に格納することができる。例を挙げると、図1はリモートアプリケーションプログラム185がリモートコンピュータ180上に常駐しているものとして示しているが、これに限定されない。図示されたネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段が使用可能であることを理解されたい。
本発明の広義の一態様によれば、生の照会ログ300が入力として圧縮モジュール302に提供される。前述のように、圧縮モジュールは好ましくはコンピューティングシステム上で実施されるが、ハードウェア、ソフトウェア、またはその2つの組合せを含む、任意の好適な方式で実施することが可能である。圧縮モジュール302は、生の照会ログ300上で1つまたは複数の照会ログ圧縮処理を実行し、圧縮済み照会ログ304を生成するように適合される。照会ログ圧縮処理については、以下でより詳細に説明する。図示しやすいように、照会ログ圧縮処理は、提供する圧縮レベルに従って分類される。好ましくは、圧縮には低、中、および高の3つのオペレータ指定可能レベルがある。
圧縮モジュール302は、以下に記載する1つまたは複数の照会ログ圧縮処理が実行可能な任意のシステムで実施することができる。したがって圧縮モジュール302は、前述のようなコンピュータハードウェア、任意の好適なプログラミング言語で実施されたコンピュータソフトウェア、あるいはその2つの任意の組合せとすることができる。図2は、ログ上で複数の圧縮パスを取るために圧縮済み照会ログ304を圧縮モジュール302に返送するための破線306も示している。
図3は、本発明の一実施形態に従って統計的プロセスをトレーニングする方法を示す流れ図である。方法は、ブロック350で始まり、照会ログ300などの生の照会ログが取得される。ブロック352では生の照会ログが1回または複数回圧縮され、圧縮済み照会ログ304などの圧縮済み照会ログを生成する。次にブロック354で、統計的プロセスをトレーニングするために圧縮済み照会ログを使用する。統計的プロセスのトレーニングに使用される実際の方法および技法は、当分野で知られた任意の好適な方法および技法とすることができる。
前述のように、個々の照会ログ処理は、好ましくは圧縮の程度に応じて3つのレベルに分類される。以下の列挙は例示的なものであり、本発明の実施形態を制限することを意味するものではない。
通常、低度圧縮処理は文字ベースである。こうした処理には大文字小文字(case)の正規化、稀な記号の除去、可変の空白のブランクへの正規化、まったく使用不可能な入力のチェックなどが含まれる。好ましくは、ログ内の各照会で処理が実行される。少なくとも多数の照会、および好ましくはすべての照会で処理が実行されると、突き合せ処理が実行され、正規化された照会のいずれかが相互に一致するか否かが判別されて、それによって一致した照会のうちの一方をログから除去することができる。
大文字小文字の正規化とは、「Install Printer」が「install printer」に変形されるなどの、所与の照会のすべての文字が特定の大文字小文字に変更される処理である。稀な記号の除去の一例は、「§ 204」などの入力テキストが「セクション204」に変形される場合である。可変の空白のブランクへの正規化とは、「Windows(登録商標) 98」などの照会が「Windows(登録商標)98」に変形される処理である。最後に、使用不可能な入力のチェックとは、単に「acxpt; 24」などの、意味の不明な言葉を単純に廃棄することである。
中度の圧縮処理は、非常に頻繁に現れる文法上の機能語を除去し、頻繁に現れる概念の異型の綴りまたは句切りを検出および正規化し、同義語を単一の標準的な意味の用語に畳み込み、綴りの訂正を試行し、語形変化した単語をその言語的な基本形態に縮小し、各照会で単語トークンをソートするために使用される。通常、これらの処理は文字ベースではなく、単語ベースである。好ましくは、これらの処理は周知の綴り、類義語辞典、および自然言語処理技術を使用して、個々の照会における単語を識別および標準化する。たとえば、「How do I get rid of firewalls in Win 98?」という入力照会は、「<firewall> <REMOVE><WIN_98>」に正規化される。このように、単語「How do I get」、「of」、および「in」は、文法上の機能語として廃棄される。単語「rid」は単一の標準的な意味の用語「REMOVE」に畳み込まれ、Win 98は<WIN_98>に標準化される。ここでも、中度の圧縮処理が少なくとも一部の照会、および好ましくはすべての照会に適用されると、突き合せ処理が実行され、中度圧縮済み照会のいずれかが相互に一致するか否かが判別されて、それによって一致した照会のうちの一方をログから除去することができる。
最高度の照会ログ圧縮は、本明細書では包含と呼ばれる。これは、個々の照会がスキャンされるか、それ以外の方法で処理され、単一の単語が照会の意味を変化させる程度を決定するために照会のペア間での単一の単語の相違点を評価することができるような程度まで、類似性を識別するためのプロセスである。追加の単語の意味が比較的わずかに照会に追加される状況では、追加の単語は廃棄可能であり、追加の単語を除外することによって照会のペアを単一の照会に縮小することができる。これは些細な処理ではない。本質的に包含プロセスは、何らかの他の照会のスーパーストリング(super strings)である照会のログ全体を検査する。特別な材料が統計的に不適切であるとみなされる場合、所与のサブ文字列の正規化された形態がスーパーストリングの正規化された形態とみなされることになる。たとえば、以下の2つの照会は以下の方式で包含される。
「Change mouse speed」
「Change mouse click speed」
これらを見るとわかるように、後者は前者のスーパーストリングであり、ログ全体の語彙を大域的に検査することによって、単語「click」が統計的に2つの別々の意図を区別するものである見込がないと決定できる場合、単一の照会バンドルに畳み込むことができる。言い換えれば、包含は、まず(おそらく単一の単語により)最小限に異なる2つの照会を見つけること、およびその後、その1つの単語の相違が自然言語処理などに基づく可能性があることがどれだけ「重要」であるかを決定することによって働く。
最初の2つのレベルの照会ログ圧縮は、一般に個々の隔離された照会上で処理するが、包含は、照会ログ全体(潜在的に何百万もの照会)にわたり2つ以上の受け渡しを含むことができる。照会ごとに隔離された正規化処理が適用された後、時には包含を使用して、より長く、より入念に表現された照会を、より単純であるが機能的に同等な対の照会と組み合わせることが可能である。たとえば、4単語の照会「change mouse pointer icon」および3単語の照会「change mouse pointer」は事実上等価であり、動作上の損失または重要な意味の変更なしに、長い方を短い方に正規化する(およびその後共に「バンドルする」)ことができる。この包含処理は、「icon」が冗長であるということが一般に真でないことから、明らかな損失なしに削除可能な「icon」などの単語のリストを単に維持することと同じではない。包含の比較特性は、通常、言語処理に基づく、ログの他の場所で見つかった短い方の形態の実際の(圧縮された)照会の形態の単語を事実上無視することに正当な理由があることを意味する。こうした場合の余分な単語(「icon」)は、エクストラターム(extra term)と呼ばれる。
ヘルプアンドサポートセンタの照会ログの場合、低および中度の圧縮処理に関して述べた隔離された照会ごとの圧縮ステップが実行された後に、長さ5などの所与の長さのすべての照会の圧縮形式が、可能であれば長さ4の(その下に包含される)照会と比較される。その後、長さ4の照会の集合が、可能であれば長さ3のその下に包含される照会と比較される。プロセスは、特定の領域のログファイルではそこで停止するが、原則として、5より長い照会で開始され、3より短い照会で停止するように適用可能である。
包含のストロングフォームは、本質的に絶対である。したがって、N語の照会と(N−1)語の照会との間に1語の相違が存在する場合、必ず包含関係が想定され、必ず長い方を短い方の相手とバンドルする。一実施形態によれば、語彙の特徴によってさらに微妙に異なる形態の包含が導かれる。たとえば、照会が1語だけ異なるが、その単語が辞書検索によって動詞であることが示された場合、およびこの動詞が(たとえば「change(変更)」および「modify(修正)」とは異なり)既存のいずれの用語の同義語でもない場合、「erase hard disk(ハードディスクを消去)」と「recover hard disk(ハードディスクを回復)」とは真に異なるため、包含は阻止される。同様に、いずれかのコントロール語彙(たとえば、Windows(登録商標)システム構成要素のリスト)にエクストラタームが存在する場合、包含は阻止される。絶対的なブロック条件が適用されない場合、最終決定は統計的に導くことができる。非常に頻繁な単語は、差別化要因(differentiator)である可能性がない。そのため、包含の適用は、一般にエクストラタームの頻度に関する閾値規則に従うことになる。
フィルタリングの阻止が適用される方法に関係なく、たとえば長さ5のそれぞれの照会を長さ4のすべての照会と比較する場合、「エクストラ」タームを識別するプロセスは効率的に実行されるべきである。(スペリング訂正など、2つの単語が文字ごとに比較される)文字列レベルでの、または(2つの句が単語ごとに比較される)トークンレベルでの、2つの文字列の単純な比較は、「編集距離」と呼ばれる。2つの照会文字列のトークン比較の編集距離は正確に1であり、これは、1つのトークン差のみが識別されること、したがって包含が可能であることを意味する。好ましくは、照会文字列は、包含プロセスに先立って通常の正規化プロセスの一部として単語トークンごとにソートされ、またこうしたソートは、好ましくは編集距離計算の前提条件である。編集距離計算は、潜在的に何百万もの照会を含むログに適用される場合、非常に多くの計算が集中する可能性があることから、好ましくは、包含はショートカットを採用する。具体的には、包含の場合、完全な編集距離計算は、原則的に、比較される2つの文字列に対して1つの相違が発生する場合にのみ試行される。したがって、可能な1つの相違の比較の再チェックは、それらの第1および第2のトークン語により、すべての「短い」文字列にわたる索引を使用して生成される。
図4は、N+1語の文字列とN語の文字列との間で、完全な編集距離比較を効率よく選択的に実行するための方法を示す概略図である。方法は、ブロック400で始まり、すべてのN語の照会には、それらの第1および第2のトークンに従って索引が付けられる。単語はトークンの例であるが、本明細書で使用される場合、トークンは人に対して言語的な意味を有する文字の任意の集団とみなすことができる。しかしながら、説明をわかりやすくするために「単語」は、一般に本発明の実施形態を示すために使用されるが、当業者であれば、本発明の実施形態が、任意の言語の任意の形態のトークンで実施可能であることを理解されよう。この方法は、突き合せが試行されるごとに、「長い方」の候補に対してあらゆる比較リスト項目(それぞれの「短い方」の文字列)の最初の2つのトークンを逐次チェックすることによって実行可能である。そのことから、N個のトークン照会に索引付けするステップは、オプションである。しかしながら、索引付けは、時間を大幅に節約することから好ましい。N語の照会すべてに索引が付けられると、ブロック402において、N+1語の文字列と索引付けされたリストとの突き合せを試行する。
N語の索引で突き合せ文字列の位置が特定されるか、N語の照会のこうした突き合せが行われる位置が決定されると、ブロック404において、不可能条件(IC)が存在するか否かの特定を行う。短い方の照会の第1のトークンが長い方の照会の第1のトークンと異なり、および短い方の照会の第2のトークンが長い方の照会の第2のトークンと異なる場合、不可能条件が存在し、制御はライン406に沿ってブロック408に渡される。ブロック408では、次のN+1語の照会が選択され、処理はライン410を介してブロック402に戻ることによって繰り返される。しかしながら、不可能条件が存在しない場合、制御はライン412に沿ってブロック414に渡され、N+1語の照会とN語の照会との間の完全な編集距離が計算される。不可能条件のチェックの実施により、テストに基づいて、役に立たない完全な編集距離の比較処理はほぼ50%削減される。ブロック414で完全な編集距離計算が完了すると、ブロック416およびブロック418で余分な単語が識別され、余分な単語が廃棄可能であるか否か、またはこれを維持すべきであるか否かを決定するために、統計的処理および/または言語処理などの好適な処理が採用される。
不可能条件が完全な編集距離計算を阻止することになる状況の一例を、以下に示す。第1に、事前トークンソート済みの例は以下のとおりである。
「Help setup new personal secure user account.」
「Setup new personal secure user computer work station.」
これらのトークンは包含プロセスに先立ってソートされ、比較は次のとおりである。
「Account help new personal secure setup user.」
「Computer new personal secure user work station.」
上記で示されるように、包含に先立ってトークンをソートする処理は、本質的に各単語をアルファベット順になるように並べ替えている。上記で示されるように、2つの照会文字列の最初の2つの単語はどちらも異なるため、不可能条件は編集距離アルゴリズムの完全なテストを阻止することになる。
本発明の実施形態は、大規模な照会ログを圧縮の可変レベルまで圧縮するのに役立つ。これにより、本質的に重複的および/または無関係な照会の数を削減することによって、各照会の意味とのより効率的な対話が可能になる。
以上、本発明について特定の実施形態を参照しながら説明してきたが、当業者であれば、本発明の精神および範囲を逸脱することなく、形態および細部の変更が可能であることを理解されよう。
本発明の実施形態を実施するための好適なコンピューティング環境を示す概略図である。 本発明の一実施形態に従って照会ログを圧縮するためのシステムを示す概略図である。 本発明の一実施形態に従って統計的プロセスを自動的にトレーニングする方法を示す流れ図である。 本発明の一実施形態に従って包含を実行する方法を示す流れ図である。
符号の説明
100 コンピューティング環境
110 コンピュータ
141 ハードディスクドライブ
151 磁気ディスクドライブ
155 光ディスクドライブ

Claims (25)

  1. 言語データのログを圧縮する方法であって、前記ログは、複数の言語文字列を有し、該各文字列は、少なくとも2つのトークンを含み、
    前記各文字列に圧縮処理を適用するステップと、
    前記圧縮処理後に、任意の2つの文字列が相互に一致するか否かを決定するステップと、
    前記2つの一致する文字列のうちの1つを前記ログから除去するステップと
    を備えたことを特徴とする方法。
  2. 前記ログは、照会のログであることを特徴とする請求項1に記載の方法。
  3. 前記照会は、ヘルプ機能に関する照会であることを特徴とする請求項2に記載の方法。
  4. 前記ヘルプに関する照会は、コンピュータシステムに関することを特徴とする請求項3に記載の方法。
  5. 前記圧縮処理は、文字ベースであることを特徴とする請求項1に記載の方法。
  6. 前記圧縮処理は、トークンベースであることを特徴とする請求項1に記載の方法。
  7. 前記圧縮処理は、包含であることを特徴とする請求項1に記載の方法。
  8. 前記包含は、編集距離を選択的に計算するために不可能条件を適用するステップを含むことを特徴とする請求項7に記載の方法。
  9. 前記各文字列に第2の圧縮処理を適用するステップと、
    前記第2の圧縮処理後に、任意の2つの文字列が相互に一致するか否かを決定するステップと、
    前記2つの一致する文字列のうちの1つを前記ログから除去するステップと
    をさらに備えたことを特徴とする請求項1に記載の方法。
  10. 前記第1の圧縮処理は、文字ベースであり、前記第2の圧縮処理は、トークンベースであることを特徴とする請求項9に記載の方法。
  11. 前記第2の圧縮処理が完了した後に、包含を適用するステップをさらに備えたことを特徴とする請求項10に記載の方法。
  12. 前記包含処理は、前記ログに対して反復されることを特徴とする請求項11に記載の方法。
  13. 前記圧縮されたログとともに統計的処理をトレーニングするステップをさらに備えたことを特徴とする請求項1に記載の方法。
  14. 複数の言語文字列を有する照会ログを圧縮するためのシステムであって、前記各文字列は複数のトークンを有し、
    生の照会ログを受け取るための入力と、
    前記生の照会ログを格納するためのメモリと、
    少なくとも1つの圧縮処理を前記各文字列に適用するための、および前記修正された文字列をスキャンして、相互にいずれかが一致するか否かを決定し、一致する文字列のうちの1つを除去できるようにするためのプロセッサと、
    前記除去が完了すると、圧縮済み照会ログを提供するための出力と、
    を備えたことを特徴とするシステム。
  15. 前記照会は、ヘルプ機能に関する照会であることを特徴とする請求項14に記載のシステム。
  16. 前記ヘルプに関する照会は、コンピュータシステムに関することを特徴とする請求項15に記載のシステム。
  17. 前記少なくとも1つの圧縮処理は、文字ベースであることを特徴とする請求項14に記載のシステム。
  18. 前記少なくとも1つの圧縮処理は、トークンベースであることを特徴とする請求項14に記載のシステム。
  19. 前記少なくとも圧縮処理は、包含であることを特徴とする請求項14に記載のシステム。
  20. 前記包含は、編集距離を選択的に計算するために不可能条件を適用するステップを含むことを特徴とする請求項19に記載のシステム。
  21. 前記各文字列に少なくとも1つの第2の圧縮処理を適用するステップと、
    前記第2の圧縮処理後に、任意の2つの文字列が相互に一致するか否かを決定するステップと、
    前記2つの一致する文字列のうちの1つを前記ログから除去するステップと
    をさらに備えたことを特徴とする請求項14に記載のシステム。
  22. 前記第1の圧縮処理は、文字ベースであり、前記第2の圧縮処理は、トークンベースであることを特徴とする請求項21に記載のシステム。
  23. 前記第2の圧縮処理が完了した後に、包含を適用するステップをさらに備えたことを特徴とする請求項22に記載のシステム。
  24. 前記包含処理が前記ログに対して反復されることを特徴とする請求項23に記載のシステム。
  25. 前記圧縮されたログとともに統計的処理をトレーニングするステップをさらに備えたことを特徴とする請求項14に記載のシステム。
JP2005065205A 2004-03-09 2005-03-09 言語データのログの圧縮 Pending JP2005259143A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/796,644 US20050203934A1 (en) 2004-03-09 2004-03-09 Compression of logs of language data

Publications (1)

Publication Number Publication Date
JP2005259143A true JP2005259143A (ja) 2005-09-22

Family

ID=34827615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005065205A Pending JP2005259143A (ja) 2004-03-09 2005-03-09 言語データのログの圧縮

Country Status (5)

Country Link
US (1) US20050203934A1 (ja)
EP (1) EP1575172A3 (ja)
JP (1) JP2005259143A (ja)
KR (1) KR20060043583A (ja)
CN (1) CN1667614A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015064671A (ja) * 2013-09-24 2015-04-09 株式会社Nttドコモ 文正規化システム、文正規化方法及び文正規化プログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346757B1 (en) 2005-03-28 2013-01-01 Google Inc. Determining query terms of little significance
US20080065617A1 (en) * 2005-08-18 2008-03-13 Yahoo! Inc. Search entry system with query log autocomplete
US20080120305A1 (en) * 2006-11-17 2008-05-22 Caleb Sima Web application auditing based on sub-application identification
US8656495B2 (en) * 2006-11-17 2014-02-18 Hewlett-Packard Development Company, L.P. Web application assessment based on intelligent generation of attack strings
CN105634841B (zh) * 2014-10-29 2018-12-11 任子行网络技术股份有限公司 一种减少网络审计系统冗余日志的方法与装置
CN106055452B (zh) * 2016-05-25 2019-06-14 北京百度网讯科技有限公司 创建交换机日志模板的方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6584464B1 (en) * 1999-03-19 2003-06-24 Ask Jeeves, Inc. Grammar template query system
US6493721B1 (en) * 1999-03-31 2002-12-10 Verizon Laboratories Inc. Techniques for performing incremental data updates
US6374241B1 (en) * 1999-03-31 2002-04-16 Verizon Laboratories Inc. Data merging techniques
US6766320B1 (en) * 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
US7158983B2 (en) * 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US20040260677A1 (en) * 2003-06-17 2004-12-23 Radhika Malpani Search query categorization for business listings search

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6010070756, M.L.Lee et al, Cleansing Data for Mining and Warehousing, 19991231 *
JPN6010070757, M.L.Lee et al, IntelliClean: A Knowledge−Based Intelligent Data Cleaner, 20001231 *
JPN6010070758, U.Fayyad et al, From Data Mining to Knowledge Discovery in Databases, 19961231 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015064671A (ja) * 2013-09-24 2015-04-09 株式会社Nttドコモ 文正規化システム、文正規化方法及び文正規化プログラム

Also Published As

Publication number Publication date
EP1575172A2 (en) 2005-09-14
KR20060043583A (ko) 2006-05-15
EP1575172A3 (en) 2006-01-25
CN1667614A (zh) 2005-09-14
US20050203934A1 (en) 2005-09-15

Similar Documents

Publication Publication Date Title
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US7461056B2 (en) Text mining apparatus and associated methods
JP5113750B2 (ja) 定義の抽出
US8407236B2 (en) Mining new words from a query log for input method editors
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
Gupta et al. A survey of common stemming techniques and existing stemmers for indian languages
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
JP2005259143A (ja) 言語データのログの圧縮
JP2005302023A (ja) ユーザモデリングによる効率のよい大文字化
US9626352B2 (en) Inter thread anaphora resolution
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
WO2008103894A1 (en) Automated word-form transformation and part of speech tag assignment
US20190243895A1 (en) Contextual Analogy Representation
WO2022134779A1 (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
Dai et al. A new statistical formula for Chinese text segmentation incorporating contextual information
CN106569989A (zh) 一种用于短文本的去重方法及装置
US8335757B2 (en) Extracting patterns from sequential data
US8224642B2 (en) Automated identification of documents as not belonging to any language
Giri MTStemmer: A multilevel stemmer for effective word pre-processing in Marathi
US20050027508A1 (en) Left-corner chart parsing
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
US8239717B2 (en) Logic verification apparatus
Mohan et al. Authorship attribution of SMS messages using an N-grams approach
US20180150452A1 (en) Contextual Analogy Representation
Jēkabsons Evaluation of Fingerprint Selection Algorithms for Two-Stage Plagiarism Detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110805