JP2009516252A - テキストの表現を取得する方法 - Google Patents
テキストの表現を取得する方法 Download PDFInfo
- Publication number
- JP2009516252A JP2009516252A JP2008539562A JP2008539562A JP2009516252A JP 2009516252 A JP2009516252 A JP 2009516252A JP 2008539562 A JP2008539562 A JP 2008539562A JP 2008539562 A JP2008539562 A JP 2008539562A JP 2009516252 A JP2009516252 A JP 2009516252A
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- files
- file
- character strings
- candidate files
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000004590 computer program Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 230000010365 information processing Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 7
- 239000012634 fragment Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムに対して発行された検索クエリに基づいて、文字列を含む複数の候補ファイルを取得するステップと、
前記複数の候補ファイルのサブセットを形成するステップと、
前記サブセットのみにおける少なくとも1つの前記候補ファイルから、前記テキストの表現を形成するステップと、
を有する方法に関する。
少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムに対して検索クエリを発行し、前記検索クエリに応じて文字列を含む複数の候補ファイルを取得するクライアントを含み、
前記複数の候補ファイルのサブセットを形成し、前記サブセットのみにおける前記候補ファイルのうち少なくとも1つから前記テキストの表現を形成するように構成されたシステムに関する。
前記複数の候補ファイルのそれぞれについての文字列の特徴セットを形成するために、前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップと、
複数の前記文字列の特徴セットを、少なくとも1つの他の前記文字列の特徴セットと比較するステップと、
を含み、前記特徴文字列の特徴セットが特定の数よりも多い文字列を共通して持つような候補ファイルが、前記サブセットに追加される。
前記候補ファイルにおける少なくとも選択された異なる文字列の出現の頻度を決定するステップと、
少なくとも選択された頻度範囲内で、最も高い出現の頻度を持つ前記選択された異なる文字列から前記特徴セットを形成するステップと、
を含む。
前記文字列のうち少なくとも幾つかに基づくデータが前記類似度の基準を満足する複数の前記候補ファイルに共通する少なくとも1つの文字列に基づいて検索クエリを作成することにより、付加的な候補ファイルを取得するステップと、
前記少なくとも1つのサーバのコンテンツの検索を許容するように構成されたサーバシステムに対して、前記作成された検索クエリを発行するステップと、
を含む。
前記複数の候補ファイルは、前記サーバシステムにより保持される前記キャッシュから取得されるデータに基づいて得られる。
(A)基本セットに含めるための少なくとも1つの初期候補ファイルを選択するステップと、
(B)前記複数の候補ファイルのうちの複数の候補ファイルのそれぞれについて、前記基本セットに含めるために以前に選択された候補ファイルのみにおける前記文字列のうち少なくとも幾つかに基づくデータと比較して、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足するか否かを決定するステップと、
(C)前記類似度の基準が満足されていることを決定したときに、前記候補ファイルを前記基本セットに追加するステップと、
を少なくとも1回実行することによって形成される。
選択基準を利用して前記複数の候補ファイルのそれぞれについての文字列の特徴セットを形成するために、前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップと、
前記選択基準により決定された前記文字列のうち少なくとも1つの重要度に応じて、前記文字列の前記特徴セットをランク付けするステップと、
前記特徴セットが、初期候補ファイルとして以前に選択されたいずれの候補ファイルについての特徴セットよりも低い、前記ランクにおける最上位に出現するファイルを、少なくとも1つの前記初期候補ファイルとして選択するステップと、
を含む。
前記複数の候補ファイルは、前記文字列及びクライアントを制御するための制御コードを表す列を含む複数のソースファイルを取得することにより取得され、
前記文字列は、前記複数の候補ファイルを形成するため、規則のセットに従って前記複数のソースファイルからフィルタリングされる。
文字列を含む複数の候補ファイルを取得し、
前記複数の候補ファイルのサブセットを形成し、
前記サブセットのみにおける前記特徴ファイルの少なくとも1つから前記テキストの表現を形成するように構成された装置において、
前記装置は更に、前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較して、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足する候補ファイルから前記サブセットを形成するように構成されたことを特徴とする装置を提供する。
−曲の歌詞は、空白行により分離された、テキストのブロックから構成される。典型的には1乃至10個のブロックがある。各ブロックは典型的に、1乃至10行から成り、各行は典型的に3乃至60個のキャラクタから成る。該キャラクタの少なくとも半分が文字である。
−歌詞の行は<BR>タグにより明示的に分断され、他のHTMLタグを含まない。
−歌詞は通常、少なくとも曲のタイトル、更に時にはアーティストの名前、アルバムの名前又は「歌詞」なる語を含む行により先行される。該行は通常、歌詞のものとは異なるフォントのものである。
Claims (17)
- 例えば曲の歌詞のようなテキストの表現を含むデータファイルを取得する方法であって、
少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムに対して発行された検索クエリに基づいて、文字列を含む複数の候補ファイルを取得するステップと、
前記複数の候補ファイルのサブセットを形成するステップと、
前記サブセットのみにおける少なくとも1つの前記候補ファイルから、前記テキストの表現を形成するステップと、
を有する方法において、
前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較するステップと、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足する候補ファイルから、前記サブセットを形成するステップと、
を特徴とする方法。 - 前記複数の候補ファイルのそれぞれについての文字列の特徴セットを形成するために、前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップと、
複数の前記文字列の特徴セットを、少なくとも1つの他の前記文字列の特徴セットと比較するステップと、
を含み、前記特徴文字列の特徴セットが特定の数よりも多い文字列を共通して持つような候補ファイルが、前記サブセットに追加される、請求項1に記載の方法。 - 前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップは、前記複数の候補ファイルのそれぞれの少なくとも一部における異なる文字列を、前記文字列の長さによって並べ替えるステップと、最も長い前記文字列から前記特定の数の異なる文字列を選択するステップと、を含む、請求項2に記載の方法。
- 更なる規則に従って等しい長さを持つ異なる文字列のなかから文字列を選択するステップを含む、請求項3に記載の方法。
- 前記候補ファイルから特定の数の異なる文字列を抽出するステップは、
前記候補ファイルにおける少なくとも選択された異なる文字列の出現の頻度を決定するステップと、
少なくとも選択された頻度範囲内で、最も高い出現の頻度を持つ前記選択された異なる文字列から前記特徴セットを形成するステップと、
を含む、請求項2に記載の方法。 - 前記文字列のうち少なくとも幾つかに基づくデータが前記類似度の基準を満足する複数の前記候補ファイルに共通する少なくとも1つの文字列に基づいて検索クエリを作成することにより、付加的な候補ファイルを取得するステップと、
前記少なくとも1つのサーバのコンテンツの検索を許容するように構成されたサーバシステムに対して、前記作成された検索クエリを発行するステップと、
を含む、請求項1乃至5のいずれか一項に記載の方法。 - 前記複数の候補ファイルは、前記少なくとも1つのサーバに保存されたデータをダウンロードし、前記ダウンロードされたデータのキャッシュを保持し、前記キャッシュされたコンテンツのインデクスを形成し、前記検索クエリを前記インデクスと比較するように構成されたサーバシステムに発行される検索クエリに基づいて取得され、
前記複数の候補ファイルは、前記サーバシステムにより保持される前記キャッシュから取得されるデータに基づいて得られる、請求項1乃至6のいずれか一項に記載の方法。 - 前記サブセットは、
(A)基本セットに含めるための少なくとも1つの初期候補ファイルを選択するステップと、
(B)前記複数の候補ファイルのうちの複数の候補ファイルのそれぞれについて、前記基本セットに含めるために以前に選択された候補ファイルのみにおける前記文字列のうち少なくとも幾つかに基づくデータと比較して、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足するか否かを決定するステップと、
(C)前記類似度の基準が満足されていることを決定したときに、前記候補ファイルを前記基本セットに追加するステップと、
を少なくとも1回実行することによって形成される、請求項1乃至7のいずれか一項に記載の方法。 - 前記複数の候補ファイルのうちの複数の候補ファイルのそれぞれについて、前記文字列のうち少なくとも幾つかに基づくデータが前記類似度の基準を満足しているか否か及び基本セットが特定の数よりも少ないメンバを有しているか否かが決定されると、更なる基本セットが前記更なる基本セットに含めるための少なくとも1つの初期候補ファイルを選択することにより形成され、各前記選択された初期候補ファイルは、以前に形成されたいずれの基本セットに含めるために選択された初期候補ファイルとも異なるものであり、前記ステップ(A)乃至(C)が前記更なる基本セットを完成させるために繰り返される、請求項8に記載の方法。
- 複数の前記基本セットを形成しそれぞれが前記特定の数よりも少ないメンバを有することを決定すると、前記特徴ファイルからの前記サブセットとして最も多いメンバを持つ前記基本セットを選択して前記テキストの表現を形成するステップを含む、請求項9に記載の方法。
- 選択基準を利用して前記複数の候補ファイルのそれぞれについての文字列の特徴セットを形成するために、前記複数の候補ファイルのそれぞれから特定の数の異なる文字列を抽出するステップと、
前記選択基準により決定された前記文字列のうち少なくとも1つの重要度に応じて、前記文字列の前記特徴セットをランク付けするステップと、
前記特徴セットが、初期候補ファイルとして以前に選択されたいずれの候補ファイルについての特徴セットよりも低い、前記ランクにおける最上位に出現するファイルを、少なくとも1つの前記初期候補ファイルとして選択するステップと、
を含む、請求項8乃至10のいずれか一項に記載の方法。 - 前記複数の候補ファイルは、前記文字列及びクライアントを制御するための制御コードを表す列を含む複数のソースファイルを取得することにより取得され、
前記文字列は、前記複数の候補ファイルを形成するため、規則のセットに従って前記複数のソースファイルからフィルタリングされる、請求項1乃至11のいずれか一項に記載の方法。 - 例えば曲の歌詞のようなテキストの表現を含むデータファイルを取得するシステムであって、
少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムに対して検索クエリを発行し、前記検索クエリに応じて文字列を含む複数の候補ファイルを取得するクライアントを含み、
前記複数の候補ファイルのサブセットを形成し、前記サブセットのみにおける前記候補ファイルのうち少なくとも1つから前記テキストの表現を形成するように構成されたシステムにおいて、
前記システムは更に、前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較して、前記文字列のうち少なくとも1つに基づくデータが類似度の基準を満足する候補ファイルから前記サブセットを形成するように構成されたことを特徴とするシステム。 - 請求項1乃至12のいずれか一項に記載の方法を実行するように構成された、請求項13に記載のシステム。
- ネットワークポートを有し、前記ネットワークワークポートを介して、少なくとも1つのサーバのコンテンツの検索が実行されることを許容するように構成されたサーバシステムと通信するように構成された消費者向け電子装置であって、請求項13又は14に記載のシステムを有する消費者向け電子装置。
- 機械読み取り可能な媒体に組み込まれたときに、情報処理機能を持つシステムに請求項1乃至12のいずれか一項に記載の方法を実行させることが可能な命令のセットを含む、コンピュータプログラム。
- テキストの表現を含むデータファイルを取得する装置であって、
文字列を含む複数の候補ファイルを取得し、
前記複数の候補ファイルのサブセットを形成し、
前記サブセットのみにおける前記特徴ファイルの少なくとも1つから前記テキストの表現を形成するように構成された装置において、
前記装置は更に、前記候補ファイルにおける前記文字列のうち少なくとも幾つかに基づくデータを比較して、前記文字列のうち少なくとも幾つかに基づくデータが類似度の基準を満足する候補ファイルから前記サブセットを形成するように構成されたことを特徴とする装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP05110731 | 2005-11-15 | ||
PCT/IB2006/054099 WO2007057809A2 (en) | 2005-11-15 | 2006-11-03 | Method of obtaining a representation of a text |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009516252A true JP2009516252A (ja) | 2009-04-16 |
Family
ID=37913710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008539562A Pending JP2009516252A (ja) | 2005-11-15 | 2006-11-03 | テキストの表現を取得する方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20080281811A1 (ja) |
EP (1) | EP1952282A2 (ja) |
JP (1) | JP2009516252A (ja) |
CN (1) | CN101310277B (ja) |
WO (1) | WO2007057809A2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8131720B2 (en) * | 2008-07-25 | 2012-03-06 | Microsoft Corporation | Using an ID domain to improve searching |
WO2012075315A1 (en) * | 2010-12-01 | 2012-06-07 | Google Inc. | Identifying matching canonical documents in response to a visual query |
US8484170B2 (en) * | 2011-09-19 | 2013-07-09 | International Business Machines Corporation | Scalable deduplication system with small blocks |
US9940104B2 (en) * | 2013-06-11 | 2018-04-10 | Microsoft Technology Licensing, Llc. | Automatic source code generation |
CN106021309A (zh) * | 2016-05-05 | 2016-10-12 | 广州酷狗计算机科技有限公司 | 一种显示歌词的方法和装置 |
CN108287885B (zh) * | 2018-01-15 | 2021-03-16 | 武汉斗鱼网络科技有限公司 | 文本查询方法、装置及电子设备 |
US11915167B2 (en) | 2020-08-12 | 2024-02-27 | State Farm Mutual Automobile Insurance Company | Claim analysis based on candidate functions |
CN112435688B (zh) * | 2020-11-20 | 2024-06-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频识别方法、服务器及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000033215A1 (en) * | 1998-11-30 | 2000-06-08 | Justsystem Corporation | Term-length term-frequency method for measuring document similarity and classifying text |
CN1402156A (zh) * | 2001-08-22 | 2003-03-12 | 威瑟科技股份有限公司 | 网站信息提取系统与方法 |
US20030110449A1 (en) * | 2001-12-11 | 2003-06-12 | Wolfe Donald P. | Method and system of editing web site |
US8805781B2 (en) * | 2005-06-15 | 2014-08-12 | Geronimo Development | Document quotation indexing system and method |
-
2006
- 2006-11-03 EP EP06821320A patent/EP1952282A2/en not_active Withdrawn
- 2006-11-03 CN CN2006800427443A patent/CN101310277B/zh not_active Expired - Fee Related
- 2006-11-03 US US12/093,342 patent/US20080281811A1/en not_active Abandoned
- 2006-11-03 JP JP2008539562A patent/JP2009516252A/ja active Pending
- 2006-11-03 WO PCT/IB2006/054099 patent/WO2007057809A2/en active Application Filing
Non-Patent Citations (1)
Title |
---|
JPN7012000387; Peter Knees: 'Multiple Lyrics Alignment: Automatic Retrieval of Song Lyrics' Proceedings Annual International Symposium on Music Information Retrieval , 200507, pp.564-569 * |
Also Published As
Publication number | Publication date |
---|---|
WO2007057809A3 (en) | 2007-08-02 |
CN101310277B (zh) | 2011-10-05 |
WO2007057809A2 (en) | 2007-05-24 |
EP1952282A2 (en) | 2008-08-06 |
US20080281811A1 (en) | 2008-11-13 |
CN101310277A (zh) | 2008-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4638439B2 (ja) | ウェブ検索の個人化 | |
US9081851B2 (en) | Method and system for autocompletion using ranked results | |
US7499940B1 (en) | Method and system for URL autocompletion using ranked results | |
CN101460949B (zh) | 索引文档以供信息检索 | |
US8554759B1 (en) | Selection of documents to place in search index | |
US20150046422A1 (en) | Method and System for Autocompletion for Languages Having Ideographs and Phonetic Characters | |
US20040167876A1 (en) | Method and apparatus for improved web scraping | |
JP2009516252A (ja) | テキストの表現を取得する方法 | |
US8812508B2 (en) | Systems and methods for extracting phases from text | |
US20080065632A1 (en) | Server, method and system for providing information search service by using web page segmented into several inforamtion blocks | |
JP2006092557A (ja) | 検索エンジンから返されるページのランキングを制御するシステムおよび方法 | |
US20200175081A1 (en) | Server, method and system for providing information search service by using sheaf of pages | |
CN101004762A (zh) | 一种动态多维互联网网页系统 | |
JP3803961B2 (ja) | データベース生成装置、データベース生成処理方法及びデータベース生成プログラム | |
JP4769822B2 (ja) | ページグループを用いた情報検索サービス提供サーバー、方法及びシステム | |
US7836108B1 (en) | Clustering by previous representative | |
KR100913733B1 (ko) | 템플릿을 이용한 검색결과 제공방법 | |
US9529922B1 (en) | Computer implemented systems and methods for dynamic and heuristically-generated search returns of particular relevance | |
JP2008191982A (ja) | 検索結果出力装置 | |
KR101120040B1 (ko) | 연관 질의어 추천 장치 및 방법 | |
JP4649036B2 (ja) | 検索サーバーによるカテゴリの報告方法、レコードの報告方法、検索サービス装置 | |
US10061859B2 (en) | Computer implemented systems and methods for dynamic and heuristically-generated search returns of particular relevance | |
KR20050004274A (ko) | 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스작성방법 및, 기억매체 | |
WO2007057799A1 (en) | Method, system and device for obtaining a representation of a text | |
KR20100035355A (ko) | 개인화된 검색 정보 제공 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120202 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120424 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120502 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121002 |