JP2009516252A - テキストの表現を取得する方法 - Google Patents

テキストの表現を取得する方法 Download PDF

Info

Publication number
JP2009516252A
JP2009516252A JP2008539562A JP2008539562A JP2009516252A JP 2009516252 A JP2009516252 A JP 2009516252A JP 2008539562 A JP2008539562 A JP 2008539562A JP 2008539562 A JP2008539562 A JP 2008539562A JP 2009516252 A JP2009516252 A JP 2009516252A
Authority
JP
Japan
Prior art keywords
candidate
files
file
character strings
candidate files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008539562A
Other languages
English (en)
Inventor
ヨハンネス エイチ エム コルスト
ヘイス ヒェレエインセ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2009516252A publication Critical patent/JP2009516252A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

例えば曲の歌詞のようなテキストの表現を含むデータファイル20、22を取得する方法であって、少なくとも1つのサーバ1−3のコンテンツの検索が実行されることを許容するように構成されたサーバシステム5に対して発行された検索クエリに基づいて、文字列を含む複数の候補ファイル13、25を取得するステップと、前記複数の候補ファイルのサブセット19、35を形成するステップと、サブセット19、35のみにおける少なくとも1つの前記候補ファイルから、前記テキストの表現を形成するステップと、を有する方法。本方法は更に、前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較するステップと、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足する候補ファイルから、サブセット19、35を形成するステップと、を含む。

Description

本発明は、例えば曲の歌詞のようなテキストの表現を含むデータファイルを取得する方法であって、
少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムに対して発行された検索クエリに基づいて、文字列を含む複数の候補ファイルを取得するステップと、
前記複数の候補ファイルのサブセットを形成するステップと、
前記サブセットのみにおける少なくとも1つの前記候補ファイルから、前記テキストの表現を形成するステップと、
を有する方法に関する。
本発明はまた、例えば曲の歌詞のようなテキストの表現を含むデータファイルを取得するシステムであって、
少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムに対して検索クエリを発行し、前記検索クエリに応じて文字列を含む複数の候補ファイルを取得するクライアントを含み、
前記複数の候補ファイルのサブセットを形成し、前記サブセットのみにおける前記候補ファイルのうち少なくとも1つから前記テキストの表現を形成するように構成されたシステムに関する。
本発明はまた、ネットワークポートを有し、前記ネットワークワークポートを介して、少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムと通信するように構成された消費者向け電子装置に関する。
斯かる方法、システム、消費者向け電子装置及びコンピュータプログラムのそれぞれの例は、EvilLyrics(http://www.evillabs.sk/evillyrics、FAQ:「How does it determine where to look for lyrics?」: browse candidates manually、2003年11月22日)より知られている。EvilLyricsは、歌詞を探すため一般的な検索エンジン(google(登録商標)、Alltheweb、Altavista(登録商標))を利用する。返される結果から、EvilLyricsは既知の歌詞サイトを選択する。EvilLyricsは、これら歌詞サイトの最初のものをダウンロードし、内蔵のフィルタを利用してパースしようと試みる。ページが合致するものであると思われる場合には、EvilLyricsが歌詞であるとみなしたものを歌詞枠に表示する。EvilLyricsは時々、実際の歌詞のページではなく、例えばアルバム全体についての歌詞のリストであるようなページを、歌詞サイトから返す。この場合には、EvilLyricsは該ページをパースし、対応する歌詞ページへのリンクを見出そうと試みる。これが失敗すると、検索エンジンから返された結果セットからの次のヒットを用いてやり直す。全ての結果が利用され、それら結果が全てEvilLyricsが探していたものではないと思われる場合には、エラーメッセージが表示され、歌詞ページは空白のままとなる。
該既知の方法の問題は、ネットワーク接続された装置による自動アクセスには非常に優れたものではない点である。このことは、斯かる装置が、歌詞ページにおける特定のマークアップに適合するようにプログラムされる必要があるという事実による。専門の歌詞ページのプロバイダがレイアウトを変更、又はアクセスをブロックした場合には、該装置は再プログラムされる必要がある。
本発明の目的は、種々の供給源からの結果を提供する検索クエリに基づいて、テキストの略正確な表現を取得するための方法、システム、消費者向け電子装置及びコンピュータプログラムを提供することにある。
本目的は、前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較するステップと、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足する候補ファイルから、前記サブセットを形成するステップと、を特徴とする、本発明による方法によって達成される。
本方法は、少なくとも1つのサーバのコンテンツの検索を許容するように構成されたサーバに発行された検索クエリに基づいて、複数の候補ファイルを取得するステップを含むため、一般の検索エンジンと併せた利用に有利に適しており、そのため本方法は1つの特定のデータベースに限定されない。本方法は、候補ファイルにおける文字列に基づくデータの比較を含むため、ブラウザプログラム等に供給され得るページレイアウトに関する命令のような命令を含むタグにより限定されない。該比較は複数の候補ファイルの並べ替えを可能とし得るため、本方法は、検索クエリにより複数の候補ファイルが得られるという事実に対処することができる。該比較は人間の介入を必要としないため、自動化に適している。例えば、テキストの正確な表現は複数の候補ファイル内で最も共通して出現する見込みが高いため、本方法はテキストの正確な表現を提供することに適している。
一実施例は、
前記複数の候補ファイルのそれぞれについての文字列の特徴セットを形成するために、前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップと、
複数の前記文字列の特徴セットを、少なくとも1つの他の前記文字列の特徴セットと比較するステップと、
を含み、前記特徴文字列の特徴セットが特定の数よりも多い文字列を共通して持つような候補ファイルが、前記サブセットに追加される。
これらの特徴の効果は、前記比較を計算的に比較的効率の良いものとする点である。2つの候補ファイルの各比較は、2つの候補ファイル中の全ての文字列により形成されるテキストの長さにおいて線形である。n個の文字列の本文から、特定の(即ち対応する)数の文字列、例えばk個の文字列を抽出することは、O(n)の演算を必要とする。k個の文字列を、例えばアルファベット順のように、順番に並べ替えることは、O(k・logk)の演算を必要とする。k個の文字列を比較することは、O(k)の演算を必要とする。1つの比較ための演算の総数はかくしてO(n+k+k・logk)となり、O(n)の演算を必要とする最長共通部分列比較のような比較と好適に同等となる。
本実施例の第1の変形例においては、前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップは、前記複数の候補ファイルのそれぞれの少なくとも一部における異なる文字列を、前記文字列の長さによって並べ替えるステップと、最も長い前記文字列から前記特定の数の異なる文字列を選択するステップと、を含む。
このことは、前記比較に起因する並べ替えを比較的効果的なものとする。なぜなら、テキスト中の最長文字列は一般に、テキストの最も特徴的なものであるからである。かくして、最長文字列は、テキストの識別において非常に有効である。
一変形例は、更なる規則に従って等しい長さを持つ異なる文字列のなかから文字列を選択するステップを含む。
かくして、幾つかの等しい長さの異なる文字列が見出された場合、それら文字列の全てよりも少なく選択して、特徴セットを形成するための基準が存在する。本実施例は、各特徴セットが、複数の候補ファイルから特定の即ち一定の数の文字列を抽出することにより形成される、という要件を満たすことを支援する。
代替実施例においては、前記候補ファイルから特定の数の異なる文字列を抽出するステップは、
前記候補ファイルにおける少なくとも選択された異なる文字列の出現の頻度を決定するステップと、
少なくとも選択された頻度範囲内で、最も高い出現の頻度を持つ前記選択された異なる文字列から前記特徴セットを形成するステップと、
を含む。
一般に、最も頻繁に出現する文字列は、該文字列が一般的な語即ち「ストップ」ワードを表すものでない限り、テキストを非常に良く定義する。かくして、出現頻度が決定される選択される種々の文字列は、斯かる一般的な語即ち「ストップ」ワードの所定のリストに存在しないように選択されることができる。代替として、選択される頻度範囲は、任意のテキストにおいて斯かる「ストップ」ワードが出現する傾向のある(より高い)頻度を除外しても良い。
本方法の一実施例は、
前記文字列のうち少なくとも幾つかに基づくデータが前記類似度の基準を満足する複数の前記候補ファイルに共通する少なくとも1つの文字列に基づいて検索クエリを作成することにより、付加的な候補ファイルを取得するステップと、
前記少なくとも1つのサーバのコンテンツの検索を許容するように構成されたサーバシステムに対して、前記作成された検索クエリを発行するステップと、
を含む。
本実施例は、不完全に作成された初期検索クエリの悪影響を克服することを支援する。このことは特徴ファイルの範囲を拡大し、種々のタイトルによりテキストが知られている場合に特に有用である。
一実施例においては、前記複数の候補ファイルは、前記少なくとも1つのサーバに保存されたデータをダウンロードし、前記ダウンロードされたデータのキャッシュを保持し、前記キャッシュされたコンテンツのインデクスを形成し、前記検索クエリを前記インデクスと比較するように構成されたサーバシステムに発行される検索クエリに基づいて取得され、
前記複数の候補ファイルは、前記サーバシステムにより保持される前記キャッシュから取得されるデータに基づいて得られる。
本実施例は、自動化された実装に特に適している。なぜなら、少なくとも1つのサーバに保存されたデータを、該データが移動された後であるがインデクスが更新される前に、該サーバから直接にダウンロードする試みが為される場合に発生し得るブレークダウンを回避するからである。
一実施例においては、前記サブセットは、
(A)基本セットに含めるための少なくとも1つの初期候補ファイルを選択するステップと、
(B)前記複数の候補ファイルのうちの複数の候補ファイルのそれぞれについて、前記基本セットに含めるために以前に選択された候補ファイルのみにおける前記文字列のうち少なくとも幾つかに基づくデータと比較して、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足するか否かを決定するステップと、
(C)前記類似度の基準が満足されていることを決定したときに、前記候補ファイルを前記基本セットに追加するステップと、
を少なくとも1回実行することによって形成される。
本実施例は、比較的効率的である。なぜなら一般に、各候補ファイルの文字列の少なくとも幾つかに基づくデータを、各他の特徴ファイルの文字列の少なくとも幾つかに基づくデータと比較する必要を回避するからである。換言すれば、比較の数が低減させられる。事実上、特徴ファイルのクラスタが形成される。
本実施例の変形例においては、前記複数の候補ファイルのうちの複数の候補ファイルのそれぞれについて、前記文字列のうち少なくとも幾つかに基づくデータが前記類似度の基準を満足しているか否か及び基本セットが特定の数よりも少ないメンバを有しているか否かが決定されると、更なる基本セットが前記更なる基本セットに含めるための少なくとも1つの初期候補ファイルを選択することにより形成され、各前記選択された初期候補ファイルは、以前に形成されたいずれの基本セットに含めるために選択された初期候補ファイルとも異なるものであり、前記ステップ(A)乃至(C)が前記更なる基本セットを完成させるために繰り返される。
かくして、初期候補ファイルの準最適な選択が、不完全な結果をもたらすことが回避される。類似する候補ファイルの幾つかのクラスタが形成される。
更に拡張された変形例は、複数の前記基本セットを形成しそれぞれが前記特定の数よりも少ないメンバを有することを決定すると、前記特徴ファイルからの前記サブセットとして最も多いメンバを持つ前記基本セットを選択して前記テキストの表現を形成するステップを含む。
かくして、複数の候補ファイルの文字列が非常に大きく異なる場合であっても、結果に常に到達する。
一実施例は、
選択基準を利用して前記複数の候補ファイルのそれぞれについての文字列の特徴セットを形成するために、前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップと、
前記選択基準により決定された前記文字列のうち少なくとも1つの重要度に応じて、前記文字列の前記特徴セットをランク付けするステップと、
前記特徴セットが、初期候補ファイルとして以前に選択されたいずれの候補ファイルについての特徴セットよりも低い、前記ランクにおける最上位に出現するファイルを、少なくとも1つの前記初期候補ファイルとして選択するステップと、
を含む。
本実施例は、初期候補ファイルの選択において非常に効果的であり、メンバがテキストを最良に表現していることを仮定するに十分なサイズの基本セットへと導く見込みが高いという利点を持つ。かくして、本実施例もまた比較的効率的である。なぜなら、最良の初期候補ファイルの選択が、より少ない比較の実行を許容するからである。
一実施例においては、
前記複数の候補ファイルは、前記文字列及びクライアントを制御するための制御コードを表す列を含む複数のソースファイルを取得することにより取得され、
前記文字列は、前記複数の候補ファイルを形成するため、規則のセットに従って前記複数のソースファイルからフィルタリングされる。
本実施例は、HTML(Hypertext Markup Language)ファイルのような、マークアップコードを含むテキストファイルを検索するために検索エンジンを利用してテキストの表現を取得するために特に適している。なぜなら、テキストがマークアップコードから分離されるからである。
他の態様によれば、本発明によるシステムは、前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較して、前記文字列のうち少なくとも1つに基づくデータが類似度の基準を満足する候補ファイルから前記サブセットを形成するように構成されたことを特徴とする。
好適には、本システムは本発明による方法を実行するように構成される。
他の態様によれば、本発明は、ネットワークポートを有し、前記ネットワークワークポートを介して、少なくとも1つのサーバのコンテンツの検索を許容するように構成されたサーバと通信するように構成された消費者向け電子装置であって、本発明によるシステムを有する消費者向け電子装置を提供する。
他の態様によれば、本発明は、機械読み取り可能な媒体に組み込まれたときに、情報処理機能を持つシステムに本発明による方法を実行させることが可能な命令のセットを含む、コンピュータプログラムを提供する。
本発明はまた、テキストの表現を含むデータファイルを取得する装置であって、
文字列を含む複数の候補ファイルを取得し、
前記複数の候補ファイルのサブセットを形成し、
前記サブセットのみにおける前記特徴ファイルの少なくとも1つから前記テキストの表現を形成するように構成された装置において、
前記装置は更に、前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較して、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足する候補ファイルから前記サブセットを形成するように構成されたことを特徴とする装置を提供する。
本発明は、添付図面を参照しながら、以下に更に詳細に説明される。
以下の説明において、曲の歌詞を含むテキストファイルが、従来の検索エンジンを実装するサーバシステムに対するクエリに基づいて得られる方法の詳細が示される。しかしながら本方法は、例えばHTMLファイルを保存するサーバのような複数のサーバに種々のバージョンが保存された他の種類のテキストの表現を取得するためにも、同様に適している。例には、例えばゲティスバーグの演説や聖書のテキスト等のような、良く知られた演説又は書籍のテキストを含むファイルを含む。
図1において、第1、第2及び第3のウェブサーバ1乃至3が、例えばインターネットのようなWAN(wide area network)4に接続されている。ウェブサーバ1乃至3のそれぞれは、ブラウザによるテキストの表示を制御するための制御コード、即ちウェブサーバ1乃至3がホストとなるHTML文書をユーザが表示し該文書とインタラクトすることを可能とするソフトウェアアプリケーションを表すテキスト及び文字列を表す文字列を含む複数のHTMLファイルのホストである。勿論、図1においては簡単さのためにウェブサーバ1乃至3の数が3つに限定されているのであり、現実的な実装においては、より多くのサーバが存在する。
サーバシステム5は、ウェブサーバ1乃至3がホストとなっているファイルのコンテンツの検索を許容するように構成される。サーバシステム5は、検索エンジンを実装する。該検索エンジンは、例えばgoogle(登録商標)、Yahoo!(登録商標) Search、MSN(登録商標) search等のような、それ自体知られた種類のものである。代替の実施例においては、サーバシステム5は、幾つかの斯かる検索エンジンに検索クエリを発行して、結果を併合するタイプのものである。本発明はHTML文書に限定されるものではなく、RSSフィード(ウェブ放送のためのXML(eXtensible Markup Language)フォーマットの一種)及びPDF(Portable Document Format)ファイルを含む、他のタイプのコンテンツを検索するように構成された検索エンジンに発行される検索クエリの結果を利用しても良い。また、ウェブサーバ1乃至3はHTTPプロトコルに従って動作するが、以下に示される本方法の変形例は、FTPサーバを検索するための検索エンジン又はGopherプロトコルのための検索エンジンにより提供される結果を利用する。
図1に示された状況において利用されるようなウェブ検索エンジンは、ウェブサーバ1乃至3からファイルを取得することにより機能する。これらのファイルは、スパイダ(spider)又はクローラ(crawler)により取得される。該取得されたファイルは、該ファイルがHTML以外のフォーマットである場合には最初にHTMLに変換され、次いでキャッシュされる。該キャッシュされたHTMLファイルの内容は、該ファイルの内容を解析することによりインデクシングされる。該インデクシング処理に起因するデータは、インデクスデータベースに保存される。検索クエリがサーバシステム5に発行されると、該検索クエリは前記インデクスデータベース中のデータと比較され、クローラにより取得されたときに該インデクスされたファイルが保存されていた場所へのリンクを含む結果を返す。
検索クエリは、一般的な表現の形でサーバシステム5に発行される。一般的な表現とは、特定の文法規則に従った文字列のセットを記述する又は該セットに合致する文字列である。該表現は、文字列のセットを記述する表現であり、時にパターンとして知られる。
図1に示されるシステムは、歌詞サーバ6を含む。本システムは更に、例えばMP3、WMA又は同様のフォーマットのファイルのような、圧縮された音楽ファイルをデコードするためのデコーダアプリケーションを備えた携帯電話のような、モバイル型コンテンツプレイヤ7を含む。モバイル型コンテンツプレイヤ7は、ゲートウェイ8及びセル無線通信網9を介して、WAN4に接続されている。歌詞サーバ6は、モバイル型コンテンツプレイヤ7に曲の歌詞の表現を含むファイルを供給するため、以下に説明されるような方法を実行するように構成される。
モバイル型コンテンツプレイヤ7は、歌詞ファイルの要求を含むメッセージを、歌詞サーバ6に送信する。該要求は、歌詞が要求される曲に関連するデータを有する。例えば、モバイル型コンテンツプレイヤ7は、圧縮されたオーディオデータを含むファイルから、1以上の識別タグを取得しても良い。斯かる識別タグは一般に、アーティストの名前及びトラックの名前を含む。
歌詞サーバ6は、該要求を取得し、該要求から要求された曲を識別するデータを取得する。該データは、WAN4を介してサーバシステム5に発行される検索クエリを、一般的な表現で作成するために利用される。検索エンジンを有するサーバシステム5から検索結果を得るために、ラッパ(wrapper)プログラムが利用される。該ラッパプログラムは、サーバシステム5により、検索エンジンに対するインタフェースとして提供されたウェブサイトからのデータを抽出する。該ラッパプログラムは、サーバシステム5により提供されるウェブサイトのコヒーレント構造を利用して、前記検索クエリに合致するファイルが保存されている場所のURL(Uniform Resource Locator)を取得する。歌詞サーバ6は好ましくは、検索エンジンにより提供されるAPI(Application Program Interface)を利用して、検索結果として示されたURLのコンテンツを取得する。
一実施例においては、該APIは、キャッシュ要求と呼ばれる方法を提供し、該方法によりURLが検索エンジンのAPIサービスに入力される。該APIサービスは、検索エンジンのクローラが最後に当該URLを巡回したときにサーバシステム5によりキャッシュされた、該URLのコンテンツを返す。その効果は、歌詞サーバ6が、ウェブサーバ1乃至3の1つからコンテンツを、該コンテンツが移動された後に取得しようと試みた場合に生じ得るエラーメッセージに対処する必要がない点である。好適には、サーバシステム5により保持されるキャッシュは、HTMLファイルの形のもののみである。このことは、歌詞サーバ6による変換の必要を回避する。
図2に示された一実施例においては、歌詞サーバ6は、一連のキャッシュ要求をサーバシステム5に発行することにより、HTMLファイルのセット10を取得する(ステップ11)。
続くステップ12において、歌詞サーバ6は、候補ファイルのセット13を生成する。ここで利用されるように、ファイルなる語は、単一の単位として保存されるビットのシーケンスを意味することに留意されたい。該単位は、歌詞サーバ6における利用においてファイルシステムにより保持されるファイルに対応する必要はない。しかしながら、単純な、且つこの理由のため好適な実装においては、候補ファイルのセット13は、プレーンテキストファイルのセットにより形成される。各テキストファイルは、HTMLファイルのセット10の対応する1つに基づく。
HTMLファイルのセット10から歌詞を抽出するステップ12を実行する際、歌詞サーバは、文字列とブラウザクライアントを制御するための制御コードを表す列とを解析する。該文字列は、それぞれがHTMLファイルのセット10の対応する1つに基づく候補ファイルのセット13からフィルタリングされる。本処理において、HTMLタグ、広告及び周囲のテキストが破棄されるか、又はプレーンテキストファイルにおける対応する文字コードにより置換される。例えば、<br>タグは改行文字により置換される。歌詞を抽出して候補ファイルのセット13を形成する処理は、歌詞の構造的特徴に基づいて実行され、それによりHTML文書の内容全体の中で歌詞を特定する。かくして、候補ファイルのセット13を形成するため、規則のセットが利用される。
規則の例は、以下を含む:
−曲の歌詞は、空白行により分離された、テキストのブロックから構成される。典型的には1乃至10個のブロックがある。各ブロックは典型的に、1乃至10行から成り、各行は典型的に3乃至60個のキャラクタから成る。該キャラクタの少なくとも半分が文字である。
−歌詞の行は<BR>タグにより明示的に分断され、他のHTMLタグを含まない。
−歌詞は通常、少なくとも曲のタイトル、更に時にはアーティストの名前、アルバムの名前又は「歌詞」なる語を含む行により先行される。該行は通常、歌詞のものとは異なるフォントのものである。
続くステップ14において、セット13における複数の候補ファイルのそれぞれから、特定の数k個の異なる文字列が抽出され、該複数の候補ファイルのそれぞれについて文字列の特徴セットを形成する。これら特徴セットはここでは指紋(fingerprintt)と呼ばれ、図2において指紋のテーブル15として示される。ここでは指紋なる語が用いられるが、これらは通常の意味での指紋ではなく、指紋は該指紋に対する及び該指紋が生成される基となった特徴ファイルについて一意である必要はない。数kは、セット13における候補ファイルのそれぞれについて同一である。本実施例においては、該数は予め決定された数である。該数は、セット13における候補ファイルの数に依存する変数であっても良い。
指紋を抽出するステップ14の幾つかのとり得る代替の実装のうち、1つが利用される。
第1の実施例においては、セット13における複数の候補ファイルのそれぞれの少なくとも一部における異なる文字列が該文字列の長さによって並べ替えられ、最長のものからk個の文字列が選択される。原則として、k個の最長のものが選択される。しかしながら、特定の文字列の選択を禁止する1以上の規則があっても良い。これら文字列は、例えばタイトルにおける語に対応する文字列を含んでも良い。一変形例においては、候補ファイルのセット13のそれぞれが、全体として解析される。他の変形例においては、k個の最長文字列を決定するために、各候補ファイルの一部のみが解析される。該解析が、等しい長さの幾つかの異なる文字列が存在することを明らかにすると、更なる規則に従って、これら文字列のうち十分な数のものが選択され、k個の文字列のセットに帰着する。例えば、文字列が長さによって並べ替えられている候補ファイルの一部において最も高い頻度で出現する等しい長さを持つ文字列が、指紋を完成させるために選択されても良い。
第2の実施例においては、歌詞サーバ6が、候補ファイルにおける少なくとも選択された異なる文字列の出現の頻度を決定する。該サーバは、少なくとも選択された頻度範囲内で、最も高い出現の頻度を持つ選択された異なる文字列から、指紋を形成する。「the」、「a」、動詞の語形変化「to be」及び「to have」等のような一般的なストップワードの選択を防ぐため、これらストップワードは選択から除外される。適用分野において一般的なストップワードもまた、除外されても良い。例えば、歌詞に適用される場合には、語「love」と「you」との組み合わせが除外されても良い。代替として、考慮される歌詞の言語におけるテキスト中のストップワードの通常の出現の頻度の知識が、頻度範囲を限定するために利用されても良い。歌詞の言語は、モバイル型コンテンツプレイヤ7により発行された要求を介して、歌詞サーバ6に知られていても良い。
指紋のテーブル15における指紋が取得される方法にかかわらず、合致する指紋のテーブル16が続いて形成される(ステップ17)。該ステップ17において、候補ファイルにおける文字列の少なくとも幾つかに基づく(即ち対応する)指紋が、少なくとも1つの他の指紋とそれぞれ比較され、これら指紋が類似度の基準を満たすか否かを決定する。図2の実施例においては、図3のものと対照的に、各指紋は他の各指紋と比較される。指紋におけるk個の文字列のうちb個が合致した場合、類似度の基準が満たされる。一変形例においては、該類似度の基準を満足し且つ殆どのメンバを持つ指紋の群が選択され、合致する指紋のテーブル16を形成する。
次いで(ステップ18)、合致する指紋のテーブル16における指紋に関連する候補ファイルが決定される。これらファイルは候補ファイルのサブセット19を形成し、該サブセットに基づいて単一の歌詞ファイル20が形成される(ステップ21)。
ステップ21は、幾つかの方法のうちいずれかにより実装されても良い。単純な実装の1つは、歌詞ファイル20をサブセット19からランダム的に選択することである。他の変形例においては、サブセット19のサイズを更に低減させるために、更なる解析が該サブセット19に適用される。例えば、m個(m>k)の文字列の指紋を用いて図2の方法が繰り返されても良い。他の変形例においては、候補ファイルの内容は、断片に分割される。本変形例においては、歌詞ファイル20は順序付けられた断片のシーケンスとして形成され、該断片の少なくとも1つは、特定の基準を満たすサブセット19中の候補ファイルからの断片のクラスタに基づいて構築される。かくして、歌詞ファイル20の内容は、サブセット19における複数の候補ファイルから取得される。本実施例は、本出願人による、「Method, system and device for obtaining a representation of a text」と題された、本願と同じEP優先日を持つ公開された同時係属中の特許出願において、より完全に開示されている手法を利用しても良い。歌詞ファイル20は、WAN4、ゲートウェイ8及びセル無線通信網9を介して、モバイル型コンテンツプレイヤ7に供給される。
歌詞ファイル22を取得する第2の方法が、図3及び4に示される。第1のステップ23は図2における第1のステップ11に対応し、HTMLファイルのセット24を取得するために利用される。図2に示された方法の第1のステップ11に関して以上に議論されたいずれの変形例も、図3に示される第1のステップ23を実装するために利用可能である。
候補ファイルのセット25は、図2に示された方法における対応するステップ12におけるものと全く同じ方法で生成される(ステップ26)。指紋の第1のテーブル27が、図2の方法における対応するステップ14におけるものと同様に生成される(ステップ28)。
図3の変形例においては、比較的効率的に指紋を照合するため、クラスタリングアルゴリズムが利用される。第1のステップ29において、指紋に含めるための文字列を選択するための基準により決定される、各指紋における文字列の少なくとも1つの重要度(significance)に従って、第1のテーブル27における指紋をランク付けすることにより、指紋の順序付けられたテーブル30が生成される。かくして、セット25の候補ファイルにおける文字列が、該文字列から最長のk個の文字列を選択するために長さに従って並べ替えられている場合には、第1のテーブル27における指紋がここで該テーブルに含まれる文字列の長さに従って並べ替えられる。一変形例においては、各指紋における最長文字列の長さが、該指紋をランク付けするために利用される。他の変形例においては、最短文字列の長さがとられる。他の変形例においては、各指紋における文字列の平均長が決定され、該指紋をランク付けするために利用される。更に他の変形例においては、指紋におけるそれぞれの文字列の長さの合計が利用される。有利な変形例においては、前記順序付けは、指紋の最も重要な文字列を最初に比較することにより実行される。これに関連する基準が等しい(2つの指紋における最長文字列の長さが等しい)場合、2つの指紋における次に重要な文字列が比較される、等する。
指紋を抽出するステップ28において、選択された文字列の出現の頻度が利用された場合、順序付けられたテーブル30は、それぞれの指紋における文字列の1つ又は幾つかに関連する頻度に従って指紋をランク付けする。一変形例においては、指紋は、それぞれの指紋を形成する文字列の出現の頻度の合計に従ってランク付けされる。
候補ファイルの基本セット31が、ここで選択される(ステップ32)。基本セット31は、指紋の順序付けられたテーブル30の先頭において指紋が出現する、少なくとも1つの候補ファイルから開始する。並べ替え操作(ステップ29)の効果は、順序付けられたテーブル30の先頭において出現する指紋が、完全な歌詞についての指紋である見込みが高く、一方で底部に近い指紋が、不完全な歌詞についての指紋である見込みが高い点である。かくして、クラスタリングは、「正確な」歌詞を表す見込みが非常に高い候補ファイルから開始する。
好適な変形例において、順序付けられたテーブル30の先頭は、少なくともC個の文字列を共通に持つ2つの指紋を探すために検索される。関連する候補ファイルは、初期候補ファイルとして基本セット31に割り当てられる。該初期候補ファイルは、順序付けられたテーブル30の先頭において指紋が出現するものから選択されるため、これらファイルは歌詞の完全なバージョンを表している見込みが非常に高い。
次のステップ33において、基本セット31に既に追加されている候補ファイルについての指紋のみに対して、更なる指紋が比較される。該更なる指紋が類似度基準を満たさない場合には、順序付けられたテーブル30における次の指紋が選択される。該指紋が類似度基準を満たすと、関連する候補ファイルが基本セットに追加される(ステップ34)。
セット25にN個の候補ファイルがあると仮定すると、基本セット31に候補ファイルを追加するステップ33及び34は、基本セットが十分大きくなるまで繰り返される。このことに対する基準は、該基本セットがN/i個(2<i<N)よりも多いメンバを有することである。全ての指紋が比較された後にも該基準が満たされない場合には、少なくとも1つの更なる基本セットへ含めるための、初期候補ファイルの別の対が選択される。該選択は、該別の対が、以前に形成されたいずれの基本セットについての初期候補ファイルとしても選択されていないものとなるように為される。
前記更なる基本セットの最初のもの又はいずれかがN/i個よりも多いメンバを含むという基準を満たす場合、十分な数のメンバを持つという基準を満たす基本セット31により構成される候補ファイルのサブセット35が形成される(ステップ36)。
複数の基本セットを形成し、それぞれがN/i個よりも少ないメンバを有すると決定した際に、これ以上の基本セットが形成され得ない又はされるべきでないことが分かった場合には、これ以前に形成された複数の基本セットのうち最長のものが、候補ファイルのサブセット35を構成するために利用される。基本セットを形成するためのステップ32乃至34の繰り返しの回数は、例えば所定の数に制限されても良い。代替として、歌詞サーバ6が、セット25中の候補ファイルのそれぞれが、基本セット31についての初期候補ファイルとして選択されていることを決定しても良い。
一実施例においては、ここで歌詞ファイル22が、図2の方法における対応するステップ21に関して以上に概説された方法を利用して、候補ファイルのサブセット35に基づいて形成される。
図3及び4に示された実施例においては、候補ファイルのサブセット35がX個よりも少ないメンバを有すると決定された場合には、歌詞サーバ6が該サブセット35を拡張する。このことは、図4に模式的に示される。歌詞サーバ6は、以前に取得された候補ファイルのサブセット35における複数の候補ファイルに共通する少なくとも1つの文字列に基づいて少なくとも1つの検索クエリを形成する(ステップ38)ことにより、付加的な候補ファイルのセット37を得る。
該検索クエリは通常の表現のものである。該検索クエリは、サーバシステム5がホストとなっている検索エンジンに発行される(ステップ39)。図2及び3における示された同様のステップ11及び23に関して以上に概説した態様で、付加的なHTMLファイルのセット40が得られる(ステップ41)。
付加的な候補ファイルのセット37は、図2及び3に示された対応するステップ12及び26におけるものと同一の、図2に示されたステップ12に関して以上に説明された態様で得られる。
次いで、付加的な指紋43が、セット37における付加的な候補ファイルから抽出される(ステップ44)。付加的な指紋43は、指紋の第1のテーブル27に追加される(ステップ45)。付加的な候補ファイル37は、候補ファイルのセット25に追加される(ステップ46)。次いで、ステップ29、32乃至34及び36が繰り返されて候補ファイルの新たなサブセット35を形成し、該サブセットに基づいて、図3及び4に示された方法の最後のステップ47において歌詞ファイル22が形成される。該最後のステップ47は、図2に示された方法における最後のステップ21に対応する。該ステップ21のいずれの実装が、図3及び4に示された方法の最後のステップ47において利用されても良い。
付加的なHTMLファイルのセット40を取得するために新たな検索クエリを形成することにより、候補ファイルのサブセット35を拡張することの効果は、歌詞ファイル22が、より多くの候補ファイルに基づくものとなる点である。このことは、歌詞ファイル22の内容が正確なものである見込みを高くする。他の効果は、ユーザの介入の必要が少ない点である。なぜなら、本方法は、最初のステップ23、26、28乃至29、32乃至34及び36が歌詞サーバ6のようなデータ処理システムにより自動的に実行される場合に得られる候補ファイルのサブセット35の内容を解析することにより、候補ファイルのセット25を自動的に拡張するからである。かくして本方法は、本方法を実行するデータ処理システムが、いずれの歌詞サーバ又は検索エンジンとも独立したものとなるように、自動化された実行を許容するように構成される。テキストの最も正確なバージョンが、該テキストの正確なバージョンを得るために複数のファイルを利用して形成され、それぞれのサーバより得られる。
上述の実施例は本発明を限定するものではなく説明するものであって、当業者は添付する請求項の範囲から逸脱することなく多くの代替実施例を設計することが可能であろうことは留意されるべきである。請求項において、括弧に挟まれたいずれの参照記号も、請求の範囲を限定するものとして解釈されるべきではない。「有する(comprise)」なる語は、請求項に記載されたもの以外の要素又はステップの存在を除外するものではない。要素に先行する「1つの(a又はan)」なる語は、複数の斯かる要素の存在を除外するものではない。特定の手段が相互に異なる従属請求項に列挙されているという単なる事実は、これら手段の組み合わせが有利に利用されることができないことを示すものではない。
例えば、モバイル型コンテンツプレイヤ7及び歌詞サーバ6を利用する実施例が説明されたが、一代替実施例は、ネットワーク接続を持つ単一のコンピュータ(例えばパーソナルコンピュータ)上のプログラムのみを含む。代替として、モバイル型コンテンツプレイヤ7がテキストファイルに導く本方法全体を実行しても良いし、又はインターネットを検索するための検索エンジンをも有するサーバシステム5によって本方法全体が実行されても良い。
テキストの表現を取得する方法の適用のためのシステムの実施例を模式的に示す。 テキストの表現を取得する方法の第1の例を示すフロー図である。 テキストの表現を取得する方法の第2の例を示すフロー図である。 図3に示された方法における更なるステップを示すフロー図である。

Claims (17)

  1. 例えば曲の歌詞のようなテキストの表現を含むデータファイルを取得する方法であって、
    少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムに対して発行された検索クエリに基づいて、文字列を含む複数の候補ファイルを取得するステップと、
    前記複数の候補ファイルのサブセットを形成するステップと、
    前記サブセットのみにおける少なくとも1つの前記候補ファイルから、前記テキストの表現を形成するステップと、
    を有する方法において、
    前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較するステップと、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足する候補ファイルから、前記サブセットを形成するステップと、
    を特徴とする方法。
  2. 前記複数の候補ファイルのそれぞれについての文字列の特徴セットを形成するために、前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップと、
    複数の前記文字列の特徴セットを、少なくとも1つの他の前記文字列の特徴セットと比較するステップと、
    を含み、前記特徴文字列の特徴セットが特定の数よりも多い文字列を共通して持つような候補ファイルが、前記サブセットに追加される、請求項1に記載の方法。
  3. 前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップは、前記複数の候補ファイルのそれぞれの少なくとも一部における異なる文字列を、前記文字列の長さによって並べ替えるステップと、最も長い前記文字列から前記特定の数の異なる文字列を選択するステップと、を含む、請求項2に記載の方法。
  4. 更なる規則に従って等しい長さを持つ異なる文字列のなかから文字列を選択するステップを含む、請求項3に記載の方法。
  5. 前記候補ファイルから特定の数の異なる文字列を抽出するステップは、
    前記候補ファイルにおける少なくとも選択された異なる文字列の出現の頻度を決定するステップと、
    少なくとも選択された頻度範囲内で、最も高い出現の頻度を持つ前記選択された異なる文字列から前記特徴セットを形成するステップと、
    を含む、請求項2に記載の方法。
  6. 前記文字列のうち少なくとも幾つかに基づくデータが前記類似度の基準を満足する複数の前記候補ファイルに共通する少なくとも1つの文字列に基づいて検索クエリを作成することにより、付加的な候補ファイルを取得するステップと、
    前記少なくとも1つのサーバのコンテンツの検索を許容するように構成されたサーバシステムに対して、前記作成された検索クエリを発行するステップと、
    を含む、請求項1乃至5のいずれか一項に記載の方法。
  7. 前記複数の候補ファイルは、前記少なくとも1つのサーバに保存されたデータをダウンロードし、前記ダウンロードされたデータのキャッシュを保持し、前記キャッシュされたコンテンツのインデクスを形成し、前記検索クエリを前記インデクスと比較するように構成されたサーバシステムに発行される検索クエリに基づいて取得され、
    前記複数の候補ファイルは、前記サーバシステムにより保持される前記キャッシュから取得されるデータに基づいて得られる、請求項1乃至6のいずれか一項に記載の方法。
  8. 前記サブセットは、
    (A)基本セットに含めるための少なくとも1つの初期候補ファイルを選択するステップと、
    (B)前記複数の候補ファイルのうちの複数の候補ファイルのそれぞれについて、前記基本セットに含めるために以前に選択された候補ファイルのみにおける前記文字列のうち少なくとも幾つかに基づくデータと比較して、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足するか否かを決定するステップと、
    (C)前記類似度の基準が満足されていることを決定したときに、前記候補ファイルを前記基本セットに追加するステップと、
    を少なくとも1回実行することによって形成される、請求項1乃至7のいずれか一項に記載の方法。
  9. 前記複数の候補ファイルのうちの複数の候補ファイルのそれぞれについて、前記文字列のうち少なくとも幾つかに基づくデータが前記類似度の基準を満足しているか否か及び基本セットが特定の数よりも少ないメンバを有しているか否かが決定されると、更なる基本セットが前記更なる基本セットに含めるための少なくとも1つの初期候補ファイルを選択することにより形成され、各前記選択された初期候補ファイルは、以前に形成されたいずれの基本セットに含めるために選択された初期候補ファイルとも異なるものであり、前記ステップ(A)乃至(C)が前記更なる基本セットを完成させるために繰り返される、請求項8に記載の方法。
  10. 複数の前記基本セットを形成しそれぞれが前記特定の数よりも少ないメンバを有することを決定すると、前記特徴ファイルからの前記サブセットとして最も多いメンバを持つ前記基本セットを選択して前記テキストの表現を形成するステップを含む、請求項9に記載の方法。
  11. 選択基準を利用して前記複数の候補ファイルのそれぞれについての文字列の特徴セットを形成するために、前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップと、
    前記選択基準により決定された前記文字列のうち少なくとも1つの重要度に応じて、前記文字列の前記特徴セットをランク付けするステップと、
    前記特徴セットが、初期候補ファイルとして以前に選択されたいずれの候補ファイルについての特徴セットよりも低い、前記ランクにおける最上位に出現するファイルを、少なくとも1つの前記初期候補ファイルとして選択するステップと、
    を含む、請求項8乃至10のいずれか一項に記載の方法。
  12. 前記複数の候補ファイルは、前記文字列及びクライアントを制御するための制御コードを表す列を含む複数のソースファイルを取得することにより取得され、
    前記文字列は、前記複数の候補ファイルを形成するため、規則のセットに従って前記複数のソースファイルからフィルタリングされる、請求項1乃至11のいずれか一項に記載の方法。
  13. 例えば曲の歌詞のようなテキストの表現を含むデータファイルを取得するシステムであって、
    少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムに対して検索クエリを発行し、前記検索クエリに応じて文字列を含む複数の候補ファイルを取得するクライアントを含み、
    前記複数の候補ファイルのサブセットを形成し、前記サブセットのみにおける前記候補ファイルのうち少なくとも1つから前記テキストの表現を形成するように構成されたシステムにおいて、
    前記システムは更に、前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較して、前記文字列のうち少なくとも1つに基づくデータが類似度の基準を満足する候補ファイルから前記サブセットを形成するように構成されたことを特徴とするシステム。
  14. 請求項1乃至12のいずれか一項に記載の方法を実行するように構成された、請求項13に記載のシステム。
  15. ネットワークポートを有し、前記ネットワークワークポートを介して、少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムと通信するように構成された消費者向け電子装置であって、請求項13又は14に記載のシステムを有する消費者向け電子装置。
  16. 機械読み取り可能な媒体に組み込まれたときに、情報処理機能を持つシステムに請求項1乃至12のいずれか一項に記載の方法を実行させることが可能な命令のセットを含む、コンピュータプログラム。
  17. テキストの表現を含むデータファイルを取得する装置であって、
    文字列を含む複数の候補ファイルを取得し、
    前記複数の候補ファイルのサブセットを形成し、
    前記サブセットのみにおける前記特徴ファイルの少なくとも1つから前記テキストの表現を形成するように構成された装置において、
    前記装置は更に、前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較して、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足する候補ファイルから前記サブセットを形成するように構成されたことを特徴とする装置。
JP2008539562A 2005-11-15 2006-11-03 テキストの表現を取得する方法 Pending JP2009516252A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05110731 2005-11-15
PCT/IB2006/054099 WO2007057809A2 (en) 2005-11-15 2006-11-03 Method of obtaining a representation of a text

Publications (1)

Publication Number Publication Date
JP2009516252A true JP2009516252A (ja) 2009-04-16

Family

ID=37913710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008539562A Pending JP2009516252A (ja) 2005-11-15 2006-11-03 テキストの表現を取得する方法

Country Status (5)

Country Link
US (1) US20080281811A1 (ja)
EP (1) EP1952282A2 (ja)
JP (1) JP2009516252A (ja)
CN (1) CN101310277B (ja)
WO (1) WO2007057809A2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8131720B2 (en) * 2008-07-25 2012-03-06 Microsoft Corporation Using an ID domain to improve searching
WO2012075315A1 (en) * 2010-12-01 2012-06-07 Google Inc. Identifying matching canonical documents in response to a visual query
US8484170B2 (en) * 2011-09-19 2013-07-09 International Business Machines Corporation Scalable deduplication system with small blocks
US9940104B2 (en) * 2013-06-11 2018-04-10 Microsoft Technology Licensing, Llc. Automatic source code generation
CN106021309A (zh) * 2016-05-05 2016-10-12 广州酷狗计算机科技有限公司 一种显示歌词的方法和装置
CN108287885B (zh) * 2018-01-15 2021-03-16 武汉斗鱼网络科技有限公司 文本查询方法、装置及电子设备
US11915167B2 (en) 2020-08-12 2024-02-27 State Farm Mutual Automobile Insurance Company Claim analysis based on candidate functions
CN112435688B (zh) * 2020-11-20 2024-06-18 腾讯音乐娱乐科技(深圳)有限公司 音频识别方法、服务器及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000033215A1 (en) * 1998-11-30 2000-06-08 Justsystem Corporation Term-length term-frequency method for measuring document similarity and classifying text
CN1402156A (zh) * 2001-08-22 2003-03-12 威瑟科技股份有限公司 网站信息提取系统与方法
US20030110449A1 (en) * 2001-12-11 2003-06-12 Wolfe Donald P. Method and system of editing web site
US8805781B2 (en) * 2005-06-15 2014-08-12 Geronimo Development Document quotation indexing system and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7012000387; Peter Knees: 'Multiple Lyrics Alignment: Automatic Retrieval of Song Lyrics' Proceedings Annual International Symposium on Music Information Retrieval , 200507, pp.564-569 *

Also Published As

Publication number Publication date
WO2007057809A3 (en) 2007-08-02
CN101310277B (zh) 2011-10-05
WO2007057809A2 (en) 2007-05-24
EP1952282A2 (en) 2008-08-06
US20080281811A1 (en) 2008-11-13
CN101310277A (zh) 2008-11-19

Similar Documents

Publication Publication Date Title
JP4638439B2 (ja) ウェブ検索の個人化
US9081851B2 (en) Method and system for autocompletion using ranked results
US7499940B1 (en) Method and system for URL autocompletion using ranked results
CN101460949B (zh) 索引文档以供信息检索
US8554759B1 (en) Selection of documents to place in search index
US20150046422A1 (en) Method and System for Autocompletion for Languages Having Ideographs and Phonetic Characters
US20040167876A1 (en) Method and apparatus for improved web scraping
JP2009516252A (ja) テキストの表現を取得する方法
US8812508B2 (en) Systems and methods for extracting phases from text
US20080065632A1 (en) Server, method and system for providing information search service by using web page segmented into several inforamtion blocks
JP2006092557A (ja) 検索エンジンから返されるページのランキングを制御するシステムおよび方法
US20200175081A1 (en) Server, method and system for providing information search service by using sheaf of pages
CN101004762A (zh) 一种动态多维互联网网页系统
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
JP4769822B2 (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
US7836108B1 (en) Clustering by previous representative
KR100913733B1 (ko) 템플릿을 이용한 검색결과 제공방법
US9529922B1 (en) Computer implemented systems and methods for dynamic and heuristically-generated search returns of particular relevance
JP2008191982A (ja) 検索結果出力装置
KR101120040B1 (ko) 연관 질의어 추천 장치 및 방법
JP4649036B2 (ja) 検索サーバーによるカテゴリの報告方法、レコードの報告方法、検索サービス装置
US10061859B2 (en) Computer implemented systems and methods for dynamic and heuristically-generated search returns of particular relevance
KR20050004274A (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스작성방법 및, 기억매체
WO2007057799A1 (en) Method, system and device for obtaining a representation of a text
KR20100035355A (ko) 개인화된 검색 정보 제공 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120424

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120502

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121002