KR100852034B1 - 분배형 데이터베이스의 문서를 분류하고 제시하기 위한 방법 및 장치 - Google Patents

분배형 데이터베이스의 문서를 분류하고 제시하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR100852034B1
KR100852034B1 KR1020030032717A KR20030032717A KR100852034B1 KR 100852034 B1 KR100852034 B1 KR 100852034B1 KR 1020030032717 A KR1020030032717 A KR 1020030032717A KR 20030032717 A KR20030032717 A KR 20030032717A KR 100852034 B1 KR100852034 B1 KR 100852034B1
Authority
KR
South Korea
Prior art keywords
page
final
determining
commercial
pages
Prior art date
Application number
KR1020030032717A
Other languages
English (en)
Other versions
KR20030091751A (ko
Inventor
다니엘씨. 페인
폴티. 라이언
피터 사비히
Original Assignee
오버처 서비시스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오버처 서비시스, 인코포레이티드 filed Critical 오버처 서비시스, 인코포레이티드
Publication of KR20030091751A publication Critical patent/KR20030091751A/ko
Application granted granted Critical
Publication of KR100852034B1 publication Critical patent/KR100852034B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

분류된 문서를 생성하고, 분배형 데이터베이스 내의 문서들을 분류하며, 최종 페이지들을 분류하기 위한 방법이 여기서 개시된다. 분배형 데이터베이스를 검색하기 위한 장치가 또한 여기서 개시된다. 분류된 문서를 생성하기 위한 방법은 일반적으로, 먼저 모든 문서가 타입 1이라고 가정하는 단계; 타입 2의 모든 문서를 필터링하여 제1 카테고리에 배치시키는 단계; 타입 3의 모든 문서를 필터링하여 제2 카테고리에 배치시키는 단계; 및 나머지 모든 문서를 타입 4의 문서로 정의하고 모든 타입 4의 문서를 제3 카테고리에 배치시키는 단계를 포함한다. 분배형 데이터베이스를 검색하기 위한 장치는, 일반적으로 적어도 하나의 기억 장치, 컴퓨팅 장치, 인덱서, 거래 점수 발생기, 카테고리 할당기, 검색 서버, 및 상기 서버와 통신하는 사용자 인터페이스를 포함한다.

Description

분배형 데이터베이스의 문서를 분류하고 제시하기 위한 방법 및 장치{METHOD AND APPARATUS FOR CATEGORIZING AND PRESENTING DOCUMENTS OF A DISTRIBUTED DATABASE}
도 1a는 본 발명의 일 실시예에 따른 페이지 분류의 블록도.
도 1b는 본 발명의 또다른 실시예에 따른 페이지 분류의 블록도표.
도 2는 본 발명의 일 실시예에 따른, 어떤 페이지가 상업적 페이지인지를 결정하기 위한 시스템의 순서도.
도 3은 본 발명의 일 실시예에 따른, 어떤 페이지에 대한 거래 등급을 결정하기 위한 시스템의 순서도.
도 4는 본 발명의 일 실시예에 따른, 전파 매트릭스를 생성하기 위한 시스템의 순서도.
도 5는 본 발명의 일 실시예에 따른, 검색 결과의 커스터마이즈된 분류를 제공하기 위한 시스템의 순서도.
도 6은 본 발명의 일 실시예에 따른, 커스터마이즈된 검색 결과 및 이의 제시를 제공하는 시스템의 순서도.
도 7은 본 발명의 일 실시예에 따른, 페이포퍼포먼스(pay for performance) 검색 엔진 판매진을 위하여, 수집된 판매 리드들(sales leads)을 자동화시키기 위한 시스템의 순서도.
도 8은 본 발명의 일 실시예에 따른, 검색 결과를 분류 및 디스플레이하기 위한 장치의 블록도.
컴퓨터 네트워크 상에서의 정보의 전달은 점점 더 중요한 수단이 되어가고 있는데, 이 수단을 통해 조직, 법인, 개인이 업무를 수행한다. 컴퓨터 네트워크는 단일 그룹의 필요에 부응하도록 만들어진 독립적이고 고립된 실체로부터, 이종의 물리적 네트워크를 상호연결시키며 이러한 이종의 물리적 네트워크를 협력 시스템으로서 기능하게 하는 광대한 인터넷으로 수년동안 성장해오고 있다. 현재, 존재하는 가장 큰 컴퓨터 네트워크는 인터넷이다. 인터넷은 공통 프로토콜을 이용하여 통신하는 컴퓨터 네트워크의 세게적인 상호연결체이다. 저급의 개인용 컴퓨터로부터 최고급의 수퍼컴퓨터까지 수백만대의 컴퓨터가 인터넷에 연결된다.
인터넷은 방대한 양의 정보를 기꺼이 규칙적으로 교환하는 전세계에 걸쳐 위치하는 전자적으로 접속된 사용자들의 대형 공동체로서 출현하였다. 인터넷은 연구 및 교육을 위해 정부기관, 연구실 및 대학 사이에서의 정보 접근 및 교환을 제공한다는 자신의 본래 목적을 계속하여 만족시키고 있다. 또한, 인터넷은 자신의 본래 목적을 뛰어넘는 다양한 관심사 및 공개광장으로서 기능하도록 진화되었다. 특히, 인터넷은 상품 및 서비스뿐 아니라 아이디어와 정보의 전자적 전역 시장으로 급속하게 변화하고 있다.
전역적 시장으로의 이러한 인터넷의 변화는 정보의 용이한 공개 및 교환을 촉진시키는 HTTP(HyperText Transfer Protocol) 및 TCP/IP(Transmission Control Protocol/Internet Protocol)와 같은 공통 프로토콜의 도입에 의해 주로 추진되었다. 따라서 인터넷은 무제한적인 숫자의 사용자 및 소스로부터 공개된 수많은 문서들에 폭넓게 접근할 수 있도록 설계된 독특한 분배형 데이터베이스이다. 인터넷의 데이터베이스 레코드는 "페이지(pages)"라고 알려진 문서나, "사이트(sites)"라고 알려진 페이지들의 집합체 형태를 취한다. 페이지와 사이트들은 서버 상에 위치하며, 공통 프로토콜을 통해 접근할 수 있다. 그러므로, 인터넷은 계속 변화하면서 어떤 중앙 조직도 가지지 않는 셀수없이 많은 개별 컴퓨터 시스템들 사이에 산재되어 있는 광대한 정보의 데이터베이스이다.
인터넷에 연결된 컴퓨터들은 브라우저라고 알려진 프로그램을 통해 페이지에 접근할 수 있는데, 브라우저는 강력하면서도 배우기 쉬운 사용자 인터페이스를 가지고, 통상적으로 그래픽 방식을 취하며, 인터넷에 연결된 모든 컴퓨터들을 정보의 공개자이자 소비자가 될 수 있도록 한다. 브라우저에 의해 가능해지는 또다른 강력한 기술은 하이퍼링크라는 것으로서, 페이지 작성자가 타페이지에 대한 링크를 생성하여, 예를 들어 브라우저 내에서 포인팅하고 클릭하는 간단한 명령을 이용함으로써 사용자가 타페이지를 검색할 수 있도록 한다. 따라서 각각의 페이지가 하이퍼링크의 타겟이자 소스일 수 있기 때문에 각각의 페이지는 의미론적으로 관련된 페이지들의 결합체 내에 존재하는데, 이들 하이퍼링크들이 어떻게 상관되어 있는지를 매핑하고 비교함으로써 그 연결을 어느 정도까지 따라잡을 수 있다. 추가적으또한, 페이지들은 HTML이나 XML(eXtensible Markup Language)과 같은 다양한 언어 중 하나로 만들어질 수 있으며, 그래픽, 오디오, 정지화상, 동화상과 같은 멀티미디어 정보 콘텐트를 포함할 수 있다.
삭제
컴퓨터를 소유하여 인터넷에 연결가능한 어떤 사람이 자신의 페이지를 인터넷 상에 공개할 수 있고 다른 공식적으로 사용가능한 페이지에 접근할 수 있기 때문에, 오프라인 세계에서 불가능하거나 실시될 수 없는 정보 생성 및 소비의 다자간 모델(many-to-many model)이 인터넷을 통해 가능해진다. 검색 엔진을 포함한 효과적인 검색 서비스들은 이 다자간 모델의 중요한 부분으로서, 정보 소비자들이 관련없는 수많은 유사 페이지 사이에서 관련 페이지들을 신속하고 신빙성있게 식별할 수 있게 한다. 다자간 모델 때문에, 인터넷 상의 존재는 잠재적 고객인 소비자에게 자신의 제품 및 서비스를 광고하려는 기업, 개인, 그리고 조직들에게 세계적인 고객 기반을 소개하는 기능을 가진다. 더욱이, 데이터 전송 속도, 컴퓨터 처리 속도, 및 브라우저 기능이 급격하게 개선됨으로써 페이지 설계가 계속하여 정교해지는 것이 가능해짐에 따라, 인터넷이 상거래를 촉진시키고 수행하기 위한 매력적인 매체이자 이러한 거래를 광고하고 실현시키는 매력적인 매체로 되어가고 있다. 인터넷은 기업과 타겟 소비자간 연결 및 기업 및 타겟 소비자의 직접 식별을 가능하게 하기 때문에, 인터넷은 강력하면서도 효과적인 광고 매체가 될 잠재력을 가진다.
인터넷 콘텐트(이것은 어떤 타입 및 어떤 형태 또는 포맷의 정보도 포함함)의 개발 및 배포를 촉진시키는 새로운 강력한 툴이 가용해짐에 따라, 인터넷을 통해 제공되는 정보, 제품, 서비스가 급격하게 증가되었고, 인터넷을 이용하는 소비자의 유형과 숫자가 급격하게 증가하였다. IDC라 불리는 국제 데이터 기구(International Data Corporation)는 인터넷 사용자의 수가 2002년 말 경에 약 3억 2천만명에 달할 것으로 추정하였다. 게다가, 인터넷 상에서 수행되는 상거래 역시 성장하였으며, 앞으로 더욱 크게 성장할 것으로 기대된다. IDC는 인터넷 상에서 상품 및 서비스를 구매하는 인터넷 사용자의 비율이 2002년에 대략 40%까지 증가할 것으로 내다봤으며, 인터넷을 통해 구매되는 상품 및 서비스의 총 매출은 대략 4257억 달러에 이를 것으로 내다봤다.
따라서, 인터넷은 정보, 상품, 서비스의 광고자("광고자")를 위한 매력적인 새로운 매체로서 나타났으며, 일반적인 소비자들에게 접촉하는 것뿐만 아니라, 선호도, 특성, 행동방식에 기초하여 특정 소비자 그룹을 식별하고 이들을 타겟으로 하는 향상된 능력도 가능하게 한다. 그러나, 인터넷은 전세계적으로 수백만 대의 서로 다른 컴퓨터 시스템들 사이에 산재된 무제한에 가까운 사이트들로 이루어지며, 따라서, 광고자들은 정보, 상품 및/또는 서비스에 잠재적 관심을 가지고 있는 소비자들의 특정 그룹이나 서브그룹을 식별하여 타겟으로 하는 위압적인 작업에 직면한다.
광고자들은 소비자들이 광고자의 사이트에 도달하는 것을 돕기 위해 검색 서비스에 의존한다. 디렉토리 및 검색 엔진을 포함하는 검색 서비스들은 인터넷 상에서 가용한 정보를 인덱스(index)하고 검색하도록 발전되었으며, 이에 의해 소비자를 포함하는 사용자들이 관심있는 정보, 제품 및 서비스에 도달하는 것을 돕는다. 이 검색 서비스들로 인해, 소비자를 포함하는 사용자들은 자신의 언어로 사용자들에 의해 기술된 관심있는 특정 키워드 토픽, 상품 또는 서비스를 바탕으로 사이트들의 리스팅에 대해 인터넷을 검색할 수 있다. 검색 서비스들이 이메일 다음으로 인터넷 상에서 가장 자주 사용되는 툴이기 때문에, 검색 서비스를 제공하는 사이트들은 인터넷 청중에게 접근할 중요한 수단을 광고자들에게 제공하며, 키워드나 토픽같은 검색 요청에 기초하여 소비자 관심사항을 타겟으로 할 기회를 생성한다.
검색 서비스들은 인터넷의 페이지들을 전자식으로 리뷰하고, 그 리뷰를 바탕으로 인덱스 및 데이터베이스를 생성하는 검색 엔진 제공자들에 의해 생성되는 것이 일반적이다. 검색 엔진 제공자들이 검색 서비스를 직접 소비자에게 제공할 수도 있고, 검색 서비스를 소비자에게 제공할 제 3 자에게 검색 서비스를 제공할 수도 있다. 일반적으로, 데이터베이스는 인터넷을 천천히 둘러보아 모든 페이지나 그 태양들의 국부적 사본을 기억 장치에 생성함으로써, 또는, 페이지 제공자로부터의 제출서들(submissions)을 수집함으로서 생성된다("최종 페이지"). 이는 텍스트, 이미지, 오디오, 비디오 또는 정지 이미지를 불문하고 정적 및/또는 동적 콘텐트를 포함할 수 있다. 대안으로, URL, 제목, 텍스트와 같은 페이지들의 일부 태양들만이 복제될 수 있다. 각각의 "최종 페이지"는 차후 참조를 위해 인덱스된다. 따라서, 인터넷 검색을 사용자가 요청하면, 검색 엔진은 실시간으로 인터넷을 실제 검색하는 것이 아니라, 관련된 최종 페이지에 대한 자신의 인덱스 및 데이터베이스("검색 결과" 또는 "리스팅")를 검색한다. 검색 결과는 하이퍼링크를 통해 접근할 수 있는 페이지들의 리스팅이나 실제 페이지의 사본들로서 사용자에게 제시된다.
여러 공지된 검색 엔진들은 사이트 홍보자가 기획한 "메타 태그(meta tag)"라 불리는 비가시(invisible) 사이트 설명에 일반적으로 의존하는 검색 결과를 분류하기 위해 자동화 검색 기술을 이용한다. 광고자들이 자신이 선택하는 사이트들을 자유롭게 태그할 수 있고 이미 태그하였기 때문에, 여러 페이지들에 유사 메타-태그가 부여되며, 이는 관련 검색 결과 제공의 어려움을 증가시킨다. 추가적으로, 대부분의 공지된 검색 엔진들은 자신들의 계층적이고 의미론적인 카테고리에 의존하는데, 그 카테고리 내로 인덱스된 페이지들이 분류된다. 이는 카테고리들이 상업적/비상업적 속성에 상관없이 의미론적으로 관련되는 하향식 분류 접근법(top-down categorization approach)이다. 따라서 공지된 검색 엔진들은 페이지나 사이트의 상업적 속성 및 관련성에 기초하는 상향식, 주문식으로 분류된 검색 결과를 제공하지 못한다.
추가적으로, 일부 광고자 및 다른 사이트 홍보자들은 자사 페이지와 관련없는 인기 검색 용어들을 자사 사이트의 메타 태그에 입력하여, 아무런 비용없이 자사 페이지들이 추가적인 소비자 관심을 일으킬 수 있도록 한다. 이러한 페이지들은 많은 부작용을 일으키며, "스팸 페이지(spam pages)"라 불린다. 일반적으로, 검색 엔진 및/또는 관련 정렬 알고리즘을 속이기 위한 목적의 일부 메커니즘을 포함하고, 사용자들의 방향을 바꾸어 사용자의 원래 검색과 상관없는 사이트들로 향하도록 할 수 있다면, 이 페이지들을 "스팸(spam)"이라 부른다. 이러한 다수의 메커니즘 및 기술들이 존재하며, 이들은 그 페이지의 진정한 본성을 반영하지 않는 메타 태그를 포함하되, 이것으로 제한되지는 않는다. 일반적으로, 스팸 페이지들은 상업적 속성을 가진다. 즉, 무언가를 사용자에게 판매하려고 시도한다.
다수의 공지된 검색 엔진들은 소비자 선호도에 따라 결과에 우선순위를 매기도록 만들어지지 않았다. 공지된 검색 엔진들은 어떤 리스팅 내의 각각의 페이지가 상업적 속성을 지니는지를 결정하고 각 페이지의 상업적 속성에 기초하여 리스팅을 분류하는, 어떠한 방식도 제공하지 않는다. 이것이 행하여지면, 검색 결과는 검색 시작시의 소비자의 의도(그 의도가 상업적 거래를 수행하는 것이던지 정보를 검색하는 것이던지)에 따라 보다 유용한 구성을 제공하도록 처리될 수 있다. 예를 들어, 주어진 토픽에 대한 정보를 찾는 소비자들은 주로 정보 속성을 가지는 페이지를 주로 상업적 속성을 가지는 페이지로부터 구별하고 싶어할 수 있다. 또다른 예에서, 소비자는 주로 상업성인 속성을 가지면서 소비자 요청에 관련된 페이지를 불필요한 페이지 또는 스팸 페이지로부터 구별하고 싶어할 수 있다.
더욱이, 공지된 검색 엔진에서, 상품이나 서비스를 구매하기 위한 사이트를 방문하려 시도하는 소비자는 상기 아이템에 관련있지만 상기 아이템의 구매를 돕지 않는 방대한 수의 사이트를 제시받을 것이다. 마찬가지로, 어떤 아이템에 대한 정보 사이트를 방문하는 데만 관심있는 소비자들은 자신이 찾는 정보를 제공하지 않을 수 있으면서 그 아이템을 구매하기 위한 여러 상업적 사이트를 제시받을 수 있다. 따라서, 소비자의 원하는 결과 페이지는 소비자의 최종 목적과 일치하지 않는 다수의 페이지들 사이에 감추어진다. 왜냐하면, 공지된 검색 엔진들은 소비자의 검색 의도나 검색 결과의 상업적/비상업적 속성을 구분할 수 없기 때문이다.
따라서, 공지된 검색 엔진들은 자신이 찾고 있는 검색 결과의 타입(즉, 정보형 또는 상업형)를 분류하고자 하는 사용자에게 효과적인 수단을 제공하지 못하며, 또한 자신들의 노출을 제어하여 정보의 배포를 관심있는 소비자에게로 타겟화하려는 광고자에게 효과적인 수단을 제공하지 못한다. 검색 결과를 제시하는 현재의 패러다임은 정보의 정보적 소스와 상업적 소스간에 어떤 페이지별 구분도 제공하지 않으며, 대신에, 사용자의 원래 검색 질의에 대한 응답으로서, 그 결과들에 할당되는 관련도에만 전적으로 의존하여, 양쪽 타입의 결과들을 혼합해 버린다.
배너 광고처럼 광고자가 자신의 노출을 제어하고 그 배포를 타겟화하기 위해 사용되는 공지된 방법들은, 전통적인 광고 패러다임을 따르며, 인터넷의 다자간 공개 모델의 고유한 속성을 이용하는 데는 실패한다. 더욱이, 배너 광고가 검색 결과에서 발견되는 한, 이들은 소비자의 관심을 유도하는 데 실패하는 경우가 잦다. 왜냐하면, 소비자는 직접적인 방식으로 그 페이지에 대한 검색 결과를 찾고 있는 것이지, 배너를 찾고 있는 것이 아니기 때문이다.
따라서, 인터넷 광고 및 검색 엔진에 관한 전통적인 패러다임들은 관심자들에게 관련 정보를 효과적으로 적시에 저렴한 방식으로 분류하여 전달하는 데 실패한다. 그러므로, 소비자들은 관심있는 결과의 타입(상업형 또는 비상업형)를 결정하기 위해 모든 검색 결과를 일일이 수작업으로 정렬하여야 한다. 그러나 인터넷 광고가 타매체에서 일반적으로 불가능한 어떤 수준의 타겟화(targetability), 상호작용성(interactivity), 및 측정성(measureability)을 제공할 수 있기 때문에, 식별된 세트의 상업형 또는 비상업형 결과를 분류하여 명확하게 제시하는 기능은 소비자 만족도를 증가시키고, 사용자에게 요구되는 수작업 정렬 부담을 감소시킴으로서 경제적 효율 증진을 촉진시킨다.
이상적으로는 광고자들이 인터넷 검색 결과 리스트에서 자신들의 가시도를 개선시킬 수 있어서, 자신들의 페이지들이 리스팅에서 두드러지게 나타날 뿐 아니라, 다른 다수의 비-상업적 페이지에 의해 가려지지 않을 수 있도록 해야 한다(여기에서 일부로서 참조되는 미국특허 제6,269,361호 참조). 마찬가지로, 소비자들은 신뢰할 수 있을만큼 분류되어 정보적인지 상업적인지 명확하게 제시되는 검색 결과를 가질 수 있어야 한다. 상업적 페이지와 비상업적 페이지를 구분할 수 있는 신뢰할만한 수단이 없기에, 공지된 검색 엔진들은 인터넷에 의해 가능해지는 타겟화된 시장 접근법의 진정한 잠재력을 이용할 수 없다.
따라서, 인터넷의 검색 엔진 기능은, 소비자에게 신속하고 관련성있는 고객편의 위주의 검색 결과를 제공하는 동시에, 소비자를 타겟으로 하여 리스팅 내에 광고자의 제품 및 서비스를 배치시키는 신뢰도 있고 확인가능하며 경제적인 방식을 광고자에게 동시에 제공하는, 온라인 시장을 촉진시키는 새로운 방향으로 촛점이 맞추어질 필요가 있다. 이 온라인 시장을 촉진시키는 검색 엔진을 이용하는 소비자는 비상업적 페이지와의 혼란 없이 소비자가 찾고 있는 제품이나 서비스를 제공하는 회사나 업체를 찾아낼 것이다. 추가적으로, 사용자가 엄격한 정보 리소스를 찾을 때, 사용자는 스팸 페이지나 관련없는 상업적 페이지에 의해 방해받지 않을 것이다.
그러므로, 분배형 데이터베이스 내의 레코드들을 검사하여, 상업적 또는 비상업적 레코드들로 분류하며, 그 후 네트워크에서 정의된 설정이나 사용자에 의해 제출되는 데이터베이스 질의에 응답하여 이들 레코드들을 제시하기 위한 시스템 및 방법을 제공하는 것이 본 발명의 한가지 목적이다.
또한, 사용자가 검색 결과의 상업적 속성에 기초하여 검색 결과 리스팅들을 구성할 수 있게 하고, 사용자가 카테고리 및 사용자 선호도에 기초하여 제시 규칙을 지정할 수 있도록 하는, 커스터마이즈 가능한 검색 엔진을 사용자에게 제공하는 것이 본 발명의 또하나의 목적이다.
각각의 검색 엔진 서비스 고객이 검색 결과의 상업적 속성에 기초하여 검색 결과 리스팅을 구성할 수 있게 하고, 또한 검색 엔진 서비스 고객이 카테고리 및 검색 엔진 서비스 고객 선호도에 기초하여 검색 결과에 대한 제시 규칙을 지정할 수 있도록 하는, 커스터마이즈 가능한 검색 엔진을 검색 엔진 서비스 고객에게 제공하는 것이 본 발명의 또다른 목적이다.
레코드의 상업적 속성에 기초하여 각각의 레코드에 대해 거래 등급, 상업적 또는 비상업적 표시를 할당하기 위한 플렉서블한 스케일의 값을 생성하기 위해 검색 엔진 서비스 제공자나 사용자가 임계값 및 다양한 거래 기준의 중요도를 동적으로 지정할 수 있도록 하는 시스템 및 방법을 제공하는 것이 본 발명의 또다른 하나의 목적이다.
상업적 점수를 할당하고 이러한 점수에 따라 그 결과의 순위를 매기거나 등급화하기 위해 거래 등급을 품질 점수 및 스팸 점수와 조합함으로서 검색 결과를 분류하고 제시하기 위한 시스템 및 방법을 제공하는 것이 본 발명의 또다른 목적이다.
모든 문서들이 비-상업적이라고 먼저 가정한 후, 모든 상업적 문서들을 필터링하여 이 문서들을 제 1 카테고리에 배치시키고, 그 제 1 카테고리를 페이-포 퍼포먼스 검색 엔진에 대한 수집된 광고자 기대물로서 이용함으로써, 분배형 데이터베이스 내의 문서들을 분류하여 분류된 문서들을 생성하기 위한 시스템 및 방법을 제공하는 것이 본 발명의 또다른 목적이다.
먼저 페이지를 상업적/비상업적으로 분류한 후 상업적 페이지들을 기존 고객이나 판매 리드로 더 분류하는 것에 의해 광고자 판매 리드를 자동적으로 발생시킴으로써, 페이 포 퍼포먼스 검색 엔진의 동작을 관리하기 위한 경제적인 시스템 및 방법을 제공하는 것이 본 발명의 또다른 목적이다.
상업적 레코드를 참가 광고자나 비참가 광고자로 더 분류하기 위해, 상업적 레코드들을 식별하여 페이 포 퍼포먼스 검색 엔진의 리스팅들에 대해 이 레코드를 비교하도록, 분배형 데이터베이스 내의 레코드들을 분류하기 위한 시스템 및 방법을 제공하는 것이 본 발명의 또다른 목적이다.
동적으로 지정되는 기준에 따라 페이 포 퍼포먼스 검색 엔진 판매진에게 비참가 상업적 레코드를 구성하여 제시함으로써, 페이 포 퍼포먼스 검색 엔진 광고자에 대한 판매 리드를 생성시키는 시스템 및 방법을 제공하는 것이 발명의 또다른 목적이다.
분류된 문서를 생성하고, 분배형 데이터베이스 내의 문서들을 분류하며, 최종 페이지를 분류하기 위한 방법이 여기서 설명된다. 분배형 데이터베이스를 검색하기 위한 장치가 또한 아래에 설명된다.
분류된 문서를 생성하기 위한 방법은 일반적으로 다음과 같은 단계를 포함한다: 먼저 모든 문서들이 타입 1이라고 가정하는 단계; 타입 2의 모든 문서를 필터링하여 이들을 제 1 카테고리에 배치시키는 단계; 타입 3의 모든 문서를 필터링하여 이들을 제 2 카테고리에 배치시키는 단계; 및 모든 나머지 문서를 타입 4의 문서로 정의하고, 타입 4의 모든 문서를 제 3 카테고리에 배치시키는 단계.
삭제
삭제
삭제
삭제
삭제
분배형 데이터베이스 내의 문서들을 분류하기 위한 방법은 일반적으로 다음 단계들을 포함한다: 분배형 데이터베이스 내의 모든 문서들이 비상업적 속성을 가진다고 가정하는 단계; 상기 문서들로부터 상업적 속성의 모든 문서 - 상업적 속성의 문서들은 상업적 문서임 - 를 필터링하는 단계; 및 상기 상업적 문서로부터 판매 리드를 생성하는 단계.
삭제
삭제
삭제
삭제
최종 페이지를 카테고리로 분류하기 위한 방법은 일반적으로 다음 단계들을 포함한다: 제 1 카테고리를 상업적 페이지로, 제 2 카테고리를 정보형 페이지로 지정하는 단계; 각각의 최종 페이지에 대한 품질 점수 q(wi)를 결정하는 단계; 각각의 최종 페이지에 대한 거래 등급 τ(wi)를 결정하는 단계; 전파 매트릭스 P를 도출하는 단계; 각각의 최종 페이지에 대한 상업적 점수 κ를 결정하는 단계; 및 상업적 점수 임계값을 만족하거나 초과하는 모든 최종 페이지들을 필터링하는 단계. 여기서, 상업적 페이지 임계값을 만족하거나 초과하는 최종 페이지들은 제 1 카테고리에 배치시키며, 나머지 모든 최종 페이지들은 제 2 카테고리에 배치시킨다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
복수의 최종 페이지를 카테고리별로 분류하기 위한 또다른 방법은 일반적으로 다음 단계들을 포함한다: 복수의 최종 페이지 각각이 스팸 페이지인지를 결정하는 단계; 복수의 최종 페이지 각각에 대한 품질 점수 q(wi)를 결정하는 단계; 복수의 최종 페이지 각각에 대한 거래 등급 τ(wi)를 결정하는 단계; 전파 매트릭스 P를 도출하는 단계; 복수의 최종 페이지 각각에 대한 상업적 점수 κ를 결정하는 단계; 복수의 최종 페이지로부터 모든 스팸-포함 상업적 페이지들을 필터링하는 단계; 스팸-포함 상업적 페이지로부터 모든 스팸 페이지들을 필터링하는 단계; 모든 상업적 페이지들을 상업적 카테고리에 배치시키는 단계; 및 모든 나머지 최종 페이지를 정보형 카테고리에 배치시키는 단계.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
분배형 데이터베이스를 검색하기 위한 방법은 일반적으로 다음 단계들을 포함한다: (a) 검색 용어나 어구를 시스템에 입력하는 단계; (b) 상기 검색 용어나 어구와 일치하는 키워드를 가진 문서를 생성하는 단계; (c) 분류된 문서를 생성하기 위한 분류 기준에 따라 검색 결과를 카테고리별로 분류하는 단계; 및 (d) 분류된 문서를 제시하는 단계.
삭제
삭제
삭제
삭제
삭제
또한, 여기서 설명되는 분배형 데이터베이스용 검색 엔진 및 데이터베이스는 일반적으로, 적어도 하나의 인터넷 캐시와 인터넷 인덱스를 포함하는 적어도 하나의 기억장치; 상기 인터넷 캐시 및 인터넷과 통신하는 크롤러(crawler), 상기 인터넷 인덱스 및 인터넷 캐시와 통신하는 인덱서, 상기 인터넷 캐시와 통신하는 거래 점수 발생기, 및 상기 인터넷 캐시와 통신하는 카테고리 할당기를 포함하는 컴퓨팅 장치; 상기 인터넷 캐시 및 인터넷 인덱스와 통신하는 검색 서버, 및 상기 검색 서버와 통신하는 사용자 인터페이스를 포함한다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
분배형 데이터베이스 내의 문서들을 식별하기 위한 방법 및 장치가 아래에 설명된다. 일 실시예는 상업적 속성의 페이지를 식별하여 상업적 페이지와 정보형 페이지를 실시간으로 광고자, 검색 엔진 제공자, 또는 사용자에게 동적으로 분류하여 제공하는 시스템 및 방법을 제공하는 새로운 기법을 제시한다. 이 시스템은 상기 페이지들의 상업적 속성에 기초하여 검색 결과를 분류하는 것이 유용한 범주에서 사용될 수 있고, 독립형 애플리케이션에 플러그-인된 브라우저로부터 백-엔드 검색 엔진이나 검색 엔진 툴까지 다양한 형태로 이용될 수 있다. 추가적으로, 시스템은 판매 사이클의 일부를 자동화하여 광고자와 페이 포 퍼포먼스 검색 엔진 제공자 간 협력 계정 관리 환경을 가능하게 함으로써, 페이 포 퍼포먼스 검색 엔진 제공자에게 고유의 운영상의 잇점을 제공하는 데 사용될 수 있다.
사용자-정의 질의에 응답하여 리턴되는 상업적 페이지 및 정보형 페이지에 대한 별개의 세트의 검색 결과들이 광고자, 검색 엔진 제공자, 및 사용자에게 제공된다. 시스템은 각 페이지의 상업적 속성에 따라 페이지를 구분하여, 두 카테고리의 검색 결과를 혼동없이, 정보를 찾거나 상업적 거래를 하려는 사용자에게 관련 검색 결과를 제공함으로써 보다 연관성있는 결과를 제공한다. 시스템은 검색 결과를 분류하는 데 사용되는 기준들의 세트, 이러한 분류 결정에서 각각의 이러한 기준의 중요도, 및 이러한 검색 결과의 최종 분류 및 사용자에게로의 제시에 대해 완전한 커스터마이즈(customization)를 가능하게 한다.
분배형 데이터베이스 내의 레코드를 정적 및 동적으로 분류하고 제시하기 위한 방법 및 장치들이 공개된다. 특정 실시예들에 대한 개시는 단지 예시로서 제공되는 것으로, 다양한 변형들이 당업자들에게는 명백할 것이며, 개시된 실시예들로 제한하려는 의도는 아니다. 지시된 도면에서 동일한 특징들은 동일한 참조 심볼을 사용하여 표시된다.
분배형 데이터베이스 내의 레코드나 레코드 검색 결과를 식별 및 분류하고, 레코드의 상업적 속성에 따라 레코드나 검색 결과를 보다 조직적으로, 보다 이해하기 쉽게, 따라서 보다 유용한 방식으로 분류 및 제시하기 위한 커스터마이즈 가능한 시스템(customizable system)이 여기서 개시된다. 다음의 개시는 인터넷의 페이지나 검색 결과가 어떻게 상업적/비상업적으로 식별되고 분류될 수 있는지를 상세하게 보여준다. 그러나, 인터넷을 포함하는 분배형 데이터베이스 내의 레코드들이 상업적 카테고리 및 비상업적 카테고리의 서브카테고리를 포함하여 셀수없이 다양한 카테고리들로 분류될 수 있다는 것을 쉽게 이해할 수 있을 것이다. 기타 카테고리들은 전통적 상점 및 서비스들에 대한 광고 및 온라인 쇼핑을 포함할 수 있다. 대안으로, 또는 추가적으로, 분배형 데이터베이스 내의 레코드나 레코드의 검색 결과가 다양한 사용자-지정 변수에 따른 여러 다른 기준에 의해, 가격 범위를 통해, 지리적으로 분류되고 제시될 수 있다. 추가적으로, 여기서 공개되는 방법들은 단지 인터넷만이 아닌, LAN, WAN 등을 포함하는 임의의 타입의 네트워크에 임의의 방식으로 연결되는 임의의 분배형 데이터베이스 사이에서도 사용될 수 있다.
도면을 참조하면, 도 1a와 1b는 인터넷 검색의 검색 결과가 어떻게 분류될 수 있는지를 도시한다. 인터넷 검색은 실제로는, 크롤러를 이용하여 생성될 수 있는 인터넷 콘텐트의 데이터베이스의 검색이다. 크롤러는 인터넷을 천천히 돌아다니며, 발견된 각 페이지의 사본이나 페이지 일부의 사본을 로컬 데이터베이스에 저장한다(페이지의 일부라는 것은 URL, 제목, 콘텐트, 콘텐트의 짧은 설명, 하이퍼링크, 또는 이들의 조합과 같은 발견된 각 인터넷 페이지의 임의의 특징을 포함할 수 있다). 페이지나 그 일부의 로컬 사본들은 검색 엔진을 이용하여 검색될 수 있다. 페이지나 그 일부의 로컬 사본들, 또는 위 검색 결과인 그 페이지나 그 일부는 모두 "최종 페이지(Resulting Pages)"로 간주된다.
도 1a와 1b에 도시되는 바와 같이, 최종 페이지(50)는 일반적으로 상업적과 비상업적으로 분류될 수 있다. 상업적 카테고리 내의 최종 페이지("상업적 페이지")(52, 62)들은 (상업적 속성을 가진) 상기 페이지들의 공개인에 의해 상업적 활동을 수행하려는 의도를 나타내거나 상품 및/또는 서비스의 구매 및/또는 판매를 촉진시키는 최종 페이지들을 일반적으로 포함한다. 예를 들어, 상업적 페이지(52, 62)는 판매, 대출, 무역, 또는 기타 이러한 거래를 통해 상품 및/또는 서비스를 제공하는 페이지들, 또는 팩스, 전화, 직접 대면과 같은 기타 다른 수단에 의해 성사될 이러한 거래에 대한 접촉 정보를 제공하는 페이지들을 포함한다. 비상업적 카테고리 내의 최종 페이지("비상업적 페이지")(54, 64)는 일반적으로 정보형 속성을 가지며 상품 및/또는 서비스의 구매 및/또는 판매를 촉진시키지 않아 상업적 속성을 가지지 않는 페이지들을 포함한다. 비상업적 페이지들은 "정보형 페이지"라 불리기도 한다.
스팸인 최종 페이지("스팸 페이지")들은 상업적 페이지(52, 62)의 서브세트라고 간주된다. 왜냐하면, 스팸 페이지(56)는 일반적으로 상업적 속성을 가지기 때문이다. 그러나, 스팸 페이지가 상품 및/또는 서비스에 관한 정보를 제공하지만 상품 및/또는 서비스의 구매를 자체적으로 돕는 것은 아니기 때문에, 스팸 페이지가 정보 속성을 가진다고 할 수도 있다. 스팸 페이지들은 관련-정렬 기법(relevance-ordering heuristics)을 포함하는 검색 엔진을 속이거나 저하시키도록 설계되기 때문에, 이들은 일반적으로 바람직하지 않으며, 검색 결과로부터 제거되거나 배제될 수 있다. 일반적으로, 스팸 페이지들은 상업적 속성을 가진다고 간주된다. 왜냐하면, 스팸 페이지들은 상업적 속성의 페이지에 직접 링크를 제공하기 때문이다. 스팸 페이지들은 도 1a와 1b에 도시되는 바와 같이 상업적 페이지로 분류될 수 있고, 또는 대안으로, 상업적 카테고리로부터 배제될 수도 있다.
본 발명의 일 실시예에서, 최종 페이지들을 프리미엄-콘텐트 내장 카테고리로 분류할 수 있다("PCC 페이지"). PCC 페이지는 콘텐트에 액세스를 얻기 위해 수수료 지불이 요구되는 페이지이다. 일부 경우에, 수수료 지불은 동의나 계약에 의해 통제된다. www.law.com 및 www.northernlight.com과 같은 URL에서 발견되는 바와 같이 PCC 페이지에는 여러 가지 예가 있다. PCC 페이지는, 검색 엔진 서비스 고객이나 사용자의 선호도에 따라, 상업적 페이지의 서브세트로 간주되어 상업적 카테고리에 배치될 수도 있고, 비상업적 페이지의 서브세트로 간주되어 비상업적 카테고리에 배치될 수도 있다. 예를 들어, PCC 페이지(58)는 액세스를 얻기 위해 수수료 지불을 요구한다. 지불 요건 때문에, PCC 페이지들은 상업적 속성을 가지며, 도 1a에 도시된 바와 같이 상업적 페이지의 서브세트라고 간주될 수 있다. 한편, PCC 페이지들은 일반적으로 정보를 제공할 뿐 PCC 페이지 자체에 내장된 정보가 아닌 상품 및/또는 서비스의 구매 및/또는 판매를 돕지는 않는다. 따라서, PCC 페이지는 정보형 속성을 가지기도 하며, 따라서 도 1b에 도시된 바와 같이 비상업적 페이지의 서브세트로 간주될 수도 있다.
상업적 페이지들을 필터링하여 상업적 카테고리에 배치시키기 위한 또다른 실시예는 참조번호 10으로 지시되는 도 2에 도시된 단계들을 일반적으로 포함한다. 이 단계들은, 각각의 페이지가 스팸 페이지인지를 결정하는 단계(12); 각각의 페이지에 대한 품질 점수를 결정하는 단계(14); 각각의 페이지에 대한 거래 등급을 결정하는 단계(16); 전파 매트릭스를 도출하는 단계(18); 각각의 페이지에 대한 상업적 점수를 결정하는 단계(20); 임계값을 만족하거나 초과하는 상업적 점수를 가진 모든 페이지들(스팸-포함 상업적 페이지)을 필터링하는 단계(22); 스팸-포함 상업적 페이지로부터 스팸 페이지들을 필터링하는 단계(24); 및 상업적 페이지들을 상업적 카테고리에 배치시키는 단계(26)를 포함한다.
일 실시예에서, 페이지가 스팸 페이지인지 여부를 결정하는 단계(12)는 각각의 페이지에 대한 스팸 점수 σ(wi)를 계산하는 단계 및 스팸 점수가 스팸 점수에 할당된 임계값을 만족하거나 초과하는지를 결정하는 단계를 포함한다. 스팸 점수 임계값을 만족하거나 초과하는 페이지들은 스팸 페이지이다. 스팸 점수를 결정하는 단계는, 여기에서 일부로서 참조되는 다음의 논문들에서 제시되는 자동화 기술과, 사람이 점수를 할당하게 하는 것과 같은 공지된 기술을 이용하여 달성될 수 있다: "Search Engine Spamming"이라는 제목의 Danny Sullivan의 논문 및 "The Classification of Search Engine Spam"이라는 제목의 ebrandmanagement.com의 보고서. 두 문서들은 Danny Sullivan에 의해 조직된 미국, 매사츄세츠주 보스턴 소재, 2002년 3월 4~5일자, Proceedings of Search Engine Strategies에 나타난다. 위 방법 및 기타 공지된 방법들은 수동식 및 자동식 평가 방법을 모두 포함한다. 이 방법들 및 유사한 기계식 기술들이 여기서 후술될 방정식(12)의 초기 벡터 τ계산에 적용될 수 있다.
품질 점수 q(wi)는 페이지의 품질의 척도인 스칼라값이다. 일 실시예에서, 페이지의 품질 점수를 결정하는 단계는 페이지들의 서브세트를 선택 기준 그룹에 대해 평가하는 단계를 포함한다. 페이지 품질을 판단할 수 있는 기준은 페이지의 콘텐트의 품질, 정보의 작성자 또는 소스의 명성, 사용상의 편의성, 및 기타 많은 이러한 기준을 포함한다. 품질 점수는 사람에 의해 할당될 수도 있고 자동적으로 결정될 수도 있으며, 명백하게 평가되지 않을 페이지들에게는 디폴트값이 부여될 수 있다.
거래 등급은 페이지가 판매, 대출, 임대 또는 경매와 같은 거래를 돕는지, 돕는다면 어느 정도로 돕는지를 나타내는 스칼라값이다. 일 실시예에서, 각각의 페이지에 대한 거래 등급을 결정하기 위한 단계들이 도 3에 도시되며, 참조번호 16에 의해 지시된다. 거래 등급은 거래 점수로부터 결정된다. 거래 점수는 각각의 페이지가 지정된 기준의 집합과 일치하는지, 일치하면 어는 정도로 일치하는지를 나타내는 벡터이다.
따라서, 제1 단계는 페이지 및/또는 페이지의 URL이 선택 기준과 일치하는지를 결정하는 것이다(32). 페이지가 거래 속성을 가지는지를 근본적으로 결정하기 위해 검사할 수 있는 페이지의 특성에는 여러 가지가 있다. 신용카드 정보를 입력하기 위한 필드; PayPal™이나 BidPay™과 같은 온라인 지불 시스템에 대한 사용자명 및/또는 비밀번호 필드; "판매 사무소", "판매 대표자", "문의" 또는 기타 거래 지향 어구에 대해 식별되는 전화번호; "구매하려면 여기를 클릭하세요", "One-Click™ 구매"와 같은 텍스트 또는 "쇼핑카트에 아래의 품목이 실려있습니다", "귀하의 카트에 추가되었습니다"와 같은 유사한 어구, 텍스트를 가진 링크나 버튼, 변환 추적에 사용되는 1화소 GIF같은 태그를 포함하는 위의 사항들을 페이지가 포함하는지 여부를 결정하는 단계가 위 기준에 포함된다. 임의의 일치하는 텍스트는 유니코드(Unicode)나 ASCII 문자 세트의 일련의 문자같은 텍스트 스트링이나, 이미지로 렌더링되는 텍스트의 광학 문자 인식이나 http 요청에 응답하여 제시되는 음성 레코딩 상의 스피치 인식으로부터 도출되는 텍스트 상에 있을 수 있다. 이러한 기준은 조합하여 사용될 수 있으며, 임의의 개별 기준이 사용되거나 사용되지 않을 수 있다. 추가적으로, 이 기준들은 단지 예시일 뿐이며, 완전한 리스트를 구성하는 것은 아니다.
각각의 페이지에 대하여, 그 페이지가 선택한 기준에 어느 정도로 부합하는지를 결정하여야 한다(블록 34). 페이지가 어떤 기준에 부합하는지(32), 그리고 그 기준에 어느 정도로 부합하는지(34)를 결정하기 위한 여러 기술이 존재한다. 예를 들어, 각각의 페이지는 인간 편집자에 의해 검사될 수 있고, 기준 항목에 따라 평가될 수 있으며, 불린값(Boolean value)이나 가중치(weighted value)가 할당될 수 있다. 그러나 이는 매우 느리고 주관적인 처리이다. 보다 빠른 자동화 기술은 스트링 일치, 이미지 일치, 또는 스트링 길이의 일치, 및/또는 (수치 또는 알파벳 문자와 같은) 데이터 입력 필드 타입의 일치를 자동적으로 점검하거나 계수화하는 단계 및 언어 모델(language model)을 이용하여 로그식 점수를 할당하는 단계를 포함한다. 언어 모델은 예를 들어, 1999년 Jenek의 "Statistical Methods for Speech Recognition"에서 소개된 n-그램 워드 전이 모델(n-gram word transition model)을 포함한다. 이 방법들은 불린값이나 가중치를 할당할 수 있다.
각각의 페이지 및/또는 그 URL이 선택 기준과 부합하는지(32), 페이지나 그 URL이 선택 기준과 어느 정도로 부합하는지(34)를 결정하는 것에 의해 얻어지는 결과를 이용하여, 거래 점수가 결정된다(35). 각각의 페이지에 대한 거래 점수를 결정하는 단계(35)는 블록들(32 및 34)의 각 결과들로부터 벡터 αk(wi)나 벡터 βk(wi)를 생성하는 단계를 포함한다. 이 벡터들 중 하나가 각각의 페이지 "wi"에 대해 생성되는데, 여기서 인덱스 "i"는 특정 페이지를 나타내며, 인덱스 "k"는 그 페이지가 평가된 특정 기준을 표시한다. 벡터 "n"의 원소들의 수(1 <= j <= n)는 사용되는 기준의 수에 의해 결정되며, 벡터들의 수는 페이지들의 수 "m"에 의해 결정된다. 거래 점수 αn(wi)는 불린값의 벡터로서, 주어진 기준에 대하여 "0"은 기준에 부합하지 않음(거짓)을 표시하며, 주어진 기준에 대해 임의의 선택된 정수 "P"는 기준에 부합함(참)을 표시한다. 거래 점수 벡터 βn(Wi)는 α(Wi)와 같은 원소의 수를 가진다. 그러나, βn(Wi)의 원소들은 임의의 범위의 실수를 포함할 수 있으며, 각각의 수는 페이지가 기준에 어느 정도로 부합하는지를 표시한다. 예를 들어, βn(Wi)가 0과 1 사이의 실수를 포함할 수 있으며(비록 그것이 임의의 범위의 실수를 포함할 수 있지만), 여기서 0은 기준에 전혀 부합하지 않음을 표시하고, 1은 기준에 완전히 부합함을 표시한다. 0과 1 사이의 실수는 기준에 부합되는 다양한 정도를 나타낸다.
거래 점수 αkn(Wi)와 βkn(Wi)는 각각의 페이지에 대한 거래 등급 τ(wi)에 대해 교대값(alternate values)을 결정하는 데 사용되는데, 여기서
Figure 112003018257549-pat00002
교대로,
Figure 112003018257549-pat00003
거래 등급 τ(wi)는 벡터 αn(Wi)나 벡터 βn(Wi) 중 하나의 ρ-놈(ρ-norm)인 스칼라값이다. "n"은 각각의 사이트 wi를 평가하는 데 사용되는 기준의 수다. 일반적으로, ρ=2여서, 어떤 단일 가중 기준도 나머지를 지배하지 않는다. 그러나, 필요시 가장 주력의 기준에 보다 많은 가중치를 부여하기 위해 ρ가 변경될 수 있다. 공식 (1)이나 공식 (2)는 거래 등급을 결정하는 데 교대로 사용될 수 있다. 공식(2)는 개별 기준들에 부합하는 정도를 반영한다.
전파 매트릭스를 도출하기 위한 단계들은 도 4에서 참조번호 18로서 도시된다. 이 단계들은 하이퍼링크 연결 매트릭스를 생성하는 단계(42), 거래 카운트 및 페이지 뷰를 계산하는 단계(44), 및 전파 매트릭스를 생성하는 단계(46)를 포함한다. 하이퍼링크 연결 매트릭스는 인터넷, 월드와이드웹, 또는 임의의 상위문서 세트의 링크 구조 및 각 페이지의 상대적 중요도나 관련도를 나타내는 방식이다. 본 실시예에서, 각 페이지의 상대적 중요도는 각 페이지 wi로부터, 각 페이지 wi로, 및 각 페이지 wj로부터 각 페이지 wi로의 링크 수를 검사함으로서 결정된다. 이 링크들은 하이퍼링크 연결 매트릭스로 표시된다. 하이퍼링크 연결 매트릭스 "C"는 "m" 행과 "m" 열을 가진다. 행과 열의 수 "m"은 페이지 수와 같은데, 여기서 특정 행은 인덱스 "i"로 표시되고, 특정 열은 열 "j"로 표시된다. 이 매트릭스 내의 각각의 원소들(Cij)은 페이지 wi가 또다른 페이지 wi에 링크될 경우에만 1의 값을 가지며, 그렇지 않을 경우 0의 값을 가질 것이다.
하이퍼링크 연결 매트릭스는 각각의 페이지 wi에 대하여 두 개의 스칼라값, 즉, 어사러티 점수(authority score) ai와 허브 점수(hub score) hi를 계산하는 데 사용된다. 일반적으로, 허브는 여러 유출 링크를 가지는 페이지이며, 어사러티는 여러 유입 링크를 가지는 페이지이다. 허브와 어사러티 점수는 페이지가 얼마나 참조로서 작용하는지, 또는 그 자체로 참조가 되는지를 반영한다. 허브 및 어사러티 점수에 대한 값은 각각 다음과 같이 결정된다:
Figure 112003018257549-pat00004
전파 매트릭스를 결정하는 다음 단계는 전이 카운트(transition counts) 및 페이지뷰(page views)를 결정하는 것이다(44). 일 실시예에서, 각각의 전이 카운트 Tij는 어떤 사용자가 얼마나 많이 페이지 wi를 보고 직접(어떠한 간섭 페이지도 보지 않고) 또다른 페이지 wj를 보는지에 관해 인터넷 상의 실제 사용자의 행동양식을 표시한다. 모든 전이 카운트는 Tij가 각각의 개별 전이를 표시하는 매트릭스 형태로 표시된다. 페이지뷰는 페이지를 본 횟수를 표시하며, 전이 카운트에 다음과 같이 관련된다:
Figure 112003018257549-pat00005
그후 하이퍼링크 연결 매트릭스, 허브 점수, 어사러티 점수, 전이 카운트, 및 페이지뷰가 모두 사용되어, 전파 매트릭스를 생성한다(블록 46). 전파 매트릭스 P는 다음의 공식을 이용하여 생성된다:
Figure 112003018257549-pat00006
함수 F(hi), G(ai), H(vi)는 허브 점수, 어사러티 점수, 페이지 뷰에 대한 가중치를 제공한다. F(hi), G(ai), H(vi)는 각각 0 이상의 정수 hi, ai, vi의 단조 증가 스칼라 함수이다. 이들 각각의 함수들은 스텝 함수와 같은 가중 함수에 대응한다. 예를 들어,
Figure 112003018257549-pat00007
여기서, F' > F"이다. 이는 허브 점수가 임계값 x 보다 작아서 누적된 데이터가 불충분함을 표시할 경우, 허브 점수에 낮은 중요도를 부여한다. G(ai)와 H(vi)도 마찬가지 방식으로 결정된다. 그러나, G(ai)에 대한 임계값이 ai의 값 "y"일 것이고, H(vi)에 대한 임계값은 vi의 값 "z"일 것이다.
함수 f(Cij, hi), g(Cij, ai), h(Tij, vi)는 링크와 전이의 기여도를 표시한다. 각각의 함수는 분모가 0일 때를 제외하면 그 독립변수들의 가중 계수이다. 예를 들어, f(Cij)의 경우,
Figure 112003018257549-pat00008
함수 g(Cij, ai)와 h(Tij, vi)도 마찬가지 방식으로 결정된다.
도 1에 도시된 바와 같이, 각각의 페이지가 상업적인지를 결정하는 다음 단계는 각각의 페이지에 대한 상업적 점수를 결정하는 단계이다(20). 이 결정은 전파 매트릭스 P와 거래 등급 τ(wi)뿐만 아니라, 스팸 점수 σ(wi)와 품질 점수 q(wi)도 또한 포함한다. 거래 등급 τ(wi)와 스팸 점수 σ(wi)는 서로 다른 구성요소들의 가중치를 결정한다. 상업적 점수는 다음의 공식에 의해 각각의 페이지 wi에 대해 회귀적으로 결정된다:
Figure 112003018257549-pat00009
여기서, κ'(0)은 거래 등급 τ(wi), 스팸 점수 σ(wi) 및 품질 점수 q(wi)의 가중치된 평균이다. A와 B는 τ(wi)와 q(wi)에 각각 부여되는 가중치를 결정하는 가중치 팩터(weighting factor)이다. A와 B는 검색 엔진 제공자나 생성자에 의해 선택될 수 있다. 벡터 κ'(t)는 검사되는 모든 페이지 wi에 대해 원소 κi'(t)를 가진다. η은 전파 매트릭스 가중치로서, 역시 검색 엔진 제공자나 생성자에 의해 설정될 수 있다. η은 초기 반복에서 전파 매트릭스가 상업적 점수에 영향을 미치는 정도를 결정한다. 심볼 "t"는 1에서 시작하여 각각의 반복에 대하여 1씩 증가하는 증가 정수를 표시한다. 각각의 반복은 모든 wi에 영향을 미칠 수 있는 잠재력을 가진다. 소정의 반복 횟수 "t"동안 또는 상업적 점수 값에 거의 변화가 없을 때까지 반복이 계속된다:
Figure 112003018257549-pat00010
ρ는 놈-레벨(norm-level)이며, Δ는 상업적 점수 변화값이다. 두 번의 연속적인 반복으로부터 얻어지는 값들의 차이가 상업적 점수 변화값과 같거나 이보다 작으면, 반복이 중지되고 상업적 점수를 얻는다(22).
상업적 점수 임계값 이상의 상업적 점수를 가지는 모든 페이지들이 필터링되는데, 이들은 스팸-포함 상업적 페이지를 포함한다(22). 스팸-포함 상업적 페이지들이 상업적 페이지의 서브세트로 간주되는 경우가 자주 있지만, 스팸 페이지는 상업적 페이지를 도출하기 위해 스팸-포함 페이지로부터 필터링된다(24). 왜냐하면, 스팸 페이지들은 일반적으로 바람직하지 않기 때문이다. 상업적 페이지들은 그후 상업적 카테고리에 배치된다(26). 상업적 페이지와 스팸 페이지가 스팸-포함 상업적 페이지들로부터 필터링되면, 나머지 페이지들은 비상업적 카테고리에 배치된다. 비상업적 카테고리는 또한 PCC 페이지를 포함할 수도 있다.
또다른 실시예에서, 페이지들은 전술한 바와 같이 상업적 및 비상업적 카테고리로 분류되나, 스팸 페이지들은 별도의 카테고리로 분리되지 않는다. 대신에, 스팸 페이지들은 지정된 각각의 카테고리에 대한 임계값 및 상기 페이지에 할당된 하위 상업적 점수에 따라 상업적 페이지나 비상업적 페이지 중 하나로서 분류된다. 스팸 페이지들은 이론적으로 상업적 페이지나 비상업적 페이지 중 하나일 수 있으며, 스팸 페이지를 포함하는 것이 일부 사용자들 및/또는 일부 애플리케이션들에서 유용할 수 있기 때문에, 본 실시예는 스팸 페이지의 식별 및 필터링 제거 단계를 포함하지 않는다. 스팸 페이지의 식별 및 필터링을 제거함으로서, 본 실시예는 기존 검색 엔진과 보다 모듈 방식으로 호환적이다. 왜냐하면, 기존 여러 검색 엔진들은 스팸 페이지를 식별하고 제거하기 위한 자체 시스템을 갖추고 있기 때문이다. 또다른 실시예에서, 스팸 페이지들은 상업적 카테고리로부터 제거되지 않는다. 왜냐하면, 예컨대 스팸 페이지들은 페이 포 퍼포먼스 검색 엔진에 대한 판매 리드로서 잠재적인 가치를 가지기 때문이다.
또다른 실시예에서, 최종 페이지의 분류는 사용자(소비자, 사이트 제공자 및 광고자 포함)에 의해 또는 사용자를 위해 커스터마이즈될 수 있다. 이 절차의 제1 단계에서, 사용자는 시스템의 사용자 인터페이스를 통해 커스터마이즈 선호사항을 입력함으로써, 그리고 원하는 분류를 얻을 때까지 그 선택사항을 다듬음으로써 분류 선호사항을 정의한다.
카테고리 자체와 최종 페이지 분류 방식이 커스터마이즈될 수 있다. 시스템은 상술한 방법들을 이용하여 사용자가 지정한 카테고리에 최종 페이지를 분류하도록 커스터마이즈될 수 있다. 주어진 최종 페이지가 어떤 카테고리에 분류되는지는 다음 사항 중 하나 또는 그 조합을 선택하는 것에 의해 영향을 받을 수 있다: PCC 페이지가 어떻게 분류되는지, 임계 레벨, ρ-놈 레벨, 수학식 (12)의 파라메터 A와 B, 상업적 점수를 계산하기 위한 반복 회수 t', 상업적 점수 변이값 Δ, 어떤 최종 페이지가 상업적 페이지 또는 PCC 페이지인지를 결정하는 데 사용되는 기준 및 각각의 기준에 부여되는 가중치의 정도, 거래 점수를 결정하는 데 사용되는 기준, 및 거래 등급을 결정하는 데 사용되는 거래 점수 공식("분류 기준").
분류 기준은 사용자 선호사항을 만족시키기 위해 다양한 방식으로 최종 페이지가 분류되고 제시되도록 선정될 수 있다. 일반적으로, 분류 기준은 시스템을 기선택된 페이지로 수작업처리(manual-seeding)를 함으로써, 그리고 기선택된 페이지가 분류되는 카테고리들을 검사함으로써, 그리고 원하는 분류가 이루어질 때까지 시스템을 조절하도록 분류 기준을 조정함으로써 경험적으로 선정될 수 있다. 예를 들어, 도 5에 도시된 바와 같이, 사용자는 시스템(20)을 기선택된 페이지러 수작업처리(hand-seed)하는데(210), 기선택된 페이지에 대하여는 사용자가 페이지가 배치되어야 할 카테고리를 알고 있다. 사용자는 그 후 페이지가 분류되어야 할 카테고리 및 분류된 결과가 디스플레이되어야할 포맷에 대한 사용자의 선호사항을 입력한다(212). 그 후 사용자는 분류 기준을 설정한다(214). 이어 시스템은 사용자에게 분류 결과를 분류하여 제시한다(216). 사용자는 시스템이 기선택된 페이지를 원하는 카테고리로 분류하였는지를 판단한다(218). 기선택된 페이지가 원하는 카테고리로 분류되지 않은 경우, 카테고리 기준 중 하나 또는 조합이 시스템에서 변경되어 설정될 수 있다(214). 단계 214, 216, 218은 원하는 분류가 얻어질 때까지 반복될 수 있다.
단계 212에서, 사용자는 분류 결과가 디스플레이되는 방식에 대한 선호사항을 설정할 수 있다. 최종 페이지 분류로부터 얻은 결과는 여러 방식으로 디스플레이될 수 있다. 예를 들어, 사용자는 키워드 검색에 부합하는 최종 페이지들만이 분류되어 제시되도록, 또는 특정 타입나 카테고리의 페이지(가령, 포로노나 채무변제 광고 등)가 항상 배제되도록 지정할 수 있다. 추가적으로 또는 대안으로, 사용자는 카테고리별로 디스플레이하거나 특정 카테고리만을 디스플레이하는 것을 포함한 여러 가지 방식으로 일부 카테고리들에 포함된 분류된 페이지를 볼 수 있다. 추가적으로 또는 대안으로, 사용자는 분류된 페이지들이 디스플레이되어야 할 순서를 지정할 수 있다. 가령, 선호되는 카테고리가 먼저 나타나도록 분류된 페이지가 카테고리별로 디스플레이될 수 있다. 추가적으로 또는 대안으로, 거래 점수, 거래 등급, 하이퍼링크 연결 매트릭스, 전파 매트릭스, 거래 어사러티 및 허브 점수, 상업적, 스팸 및 품질 점수와 같은 중간 값들이 또한 디스플레이될 수 있다. 추가적으로 또는 대안으로, 사용자는 링크의 앵커 텍스트(anchor text)를 검사할 것을 요청할 수 있다. 앵커 텍스트가 키워드를 포함할 경우, 여러 키워드를 포함하는 페이지들은 어떤 키워드도 포함하지 않는 링크에 비해 더 높은 가중치가 주어질 것이다. 대안으로, 더 많은 수의 키워드들을 포함하는 링크는 더 적은 수의 키워드들을 포함하는 링크에 비해 더 높은 가중치가 주어질 수 있다. 분류된 페이지의 디스플레이를 커스터마이즈하는 것은 공지된 디스플레이 및 제시 기술을 이용하여 달성될 수 있다.
사용자가 카테고리, 분류 기준, 및 디스플레이 선호사항을 지정하면, 검색(250)이 실행될 수 있다. 도 6에 도시된 바와 같이, 검색(250)은 사용자가 검색 용어나 어구를 사용자 인터페이스를 이용하여 시스템에 입력(260)할 때 개시된다. 시스템은 검색 용어나 어구와 일치하는 키워드 또는 키워드들을 내장하는 최종 페이지(검색 결과)를 리턴하는 것을 포함하는, 다양한 공지된 관련 방법 중 하나에 따라 최종 페이지를 발생시킬 것이다(262). 시스템은 사용자에 의해 지정된 분류 기준이 만족되도록 사용자에 의해 지정된 카테고리로 검색 결과를 분류할 것이다(264). 시스템은 그후 사용자의 제시 선호사항에 따라 분류 페이지들을 제시한다(266).
또다른 실시예에서, 상업적 페이지들은 판매 리드를 발생시키는 데 사용될 수 있다. 상업적 페이지들의 URL들을 이용하여, 상업적 페이지를 주관하는 회사에 대한 연락 정보를 도메인 명칭 등록사항으로부터 얻을 수 있다. 회사 및 회사의 연락 정보에 대한 리스트가 판매 리드의 리스트를 발전시키기 위해 컴파일될 수 있다. 도 7에 도시된 바와 같이, 최종 페이지를 분류하기 위한 시스템(270)은 일반적으로 다음 단계들을 포함한다: (a) 각각의 최종 페이지가 비상업적 속성을 가진다고 가정하는 단계(272); (b) 상업적 속성의 페이지들을 식별하여 제1 카테고리 내로 필터링시키는 단계(274); (c) 제1 카테고리 내의 페이지로부터 기존 광고자 클라이언트 페이지들을 식별하고 필터링하는 단계(276); (d) 나머지 페이지("리드 페이지")들에 대한 연락 정보를 수집하는 단계(278); (e) 리드 페이지 및 그와 관련된 연락 정보를 페이 포 퍼포먼스 검색 엔진 제공자나 기타 관심자에게 판매 리드로서 제공하는 단계(280).
또다른 실시예에서, 여기에서 일부로서 참조되는 미국특허 제6,269,361호에서 개시된 기술을 이용하여, 특정 카테고리에 리스팅들을 포함시키거나 배제시키도록 대금을 지불할 기회가 광고자에게 제공된다. 광고자에 의해 지불되는 요금은 선택 카테고리에 리스팅들이 제공될 때의 현저함(prominence)의 함수일 수 있다. 추가적인 실시예에서, 요금이 지불된 페이지만이 상업적(또는 기타 선정된) 카테고리에 나타날 것이다. 일 실시예에서, 분배형 데이터베이스 내의 레코드나 레코드 검색 결과를 분류하고 제시하기 위한 커스터마이즈 가능한 시스템은 미국특허 제6,269,361호에 공개된 타입와 같은 데이터베이스 검색 장치에 연계된 검색 엔진 서버나 계정 관리 서버로서 구성될 수 있다. 도 1-8에서 예시되고 여기서 설명되는 기능들은 임의의 적절한 방식으로 구현될 수 있다.
한가지 구현은 설명된 기능을 수행하기 위한 서버의 프로세서나 기타 컴퓨팅 장치를 제어하는 컴퓨터-판독가능한 소스나 객체 코드이다. 컴퓨터-판독가능한 코드는 컴퓨터-판독가능한 신호-내장 매체를 포함하는 일 품목으로서 구현될 수 있다. 일 실시예에서, 이 매체는 컴퓨터의 플라피 디스크나 하드 디스크 드라이브, 또는 비휘발성의 반도체 메모리와 같은 레코딩가능한 데이터 저장 매체이다. 또다른 실시예에서, 이 매체는 인터넷과 같은 네트워크를 통해 판독되는 데이터와 같은 변조된 캐리어 신호이다. 이 기억 매체는 페이지가 거래형인지를 결정하기 위한 매체 내 수단, 상기 페이지에 대한 전파 매트릭스를 도출하기 위한 매체 내 수단, 및 상기 페이지에 대한 전파 매트릭스의 함수로서 상업적 점수를 정의하기 위한 매체 내 수단을 포함한다. 다양한 수단들이 설명된 기능을 수행하기 위해 처리 장치를 제어하기 위한 컴퓨터 소스 코드, 컴퓨터-판독가능한 객체 코드, 또는 임의의 기타 적절한 장치로서 구현될 수 있다.
본 발명의 또다른 실시예는 도 8에 도시된 분배형 클라이언트-서버 아키텍처를 통해 분배형 데이터베이스 내의 레코드나 레코드 검색 결과를 분류하고 제시하기 위한 장치로 구성된다. 도 8에 도시된 이 검색 엔진 및 데이터베이스(100)는 일반적으로, 컴퓨팅 장치(110, 114, 118, 120), 기억 장치(112, 116), 서버(124), 및 인터페이스(122)를 포함한다. 컴퓨팅 장치(110, 114, 118, 120)는 연산을 수행할 수 있는 임의의 프로세서들을 포함할 수 있다. 크롤러(110)는 네트워크를 통해 인터넷에 연결되는 컴퓨팅 장치로서, 모든 페이지를 방문하고, 텍스트, 이미지, 오디오, 비디오, 또는 정지 화상 등의 정적 및/또는 동적 콘텐트를 포함하는 페이지("최종 페이지")의 사본을 만들어 이 사본을 인터넷 캐시(112)에 저장한다. 대안으로, URL 및/또는 제목과 같은 각 최종 페이지의 불연속적인 수의 일부만이 복제되어 인터넷 캐시(112)에 저장된다. 인덱서(114)는 각각의 최종 페이지 사본이나 그 일부에 인터넷 캐시(112)에서의 주소("인터넷 캐시 주소"에 의해)를 할당한다. 인덱서는 각각의 최종 페이지에 대한 검색 용어를 발생시키며, 이 검색 용어들을 인터넷 인덱스(16) 내의 관련 인터넷 캐시 주소에 저장한다. 인터넷 캐시와 인터넷 인덱스는 주어진 현재 크기의 인터넷에서 각각 대략 30 테라바이트와 5 테라바이트를 이용한다.
거래 점수 발생기(118)는 거래 점수를 발생시키기 위해 인터넷 캐시(112)에 저장된 각각의 최종 페이지(또는 그 일부)의 사본들에 내장된 정보를 이용한다. 이 거래 점수는 관련 최종 인터넷 페이지와 함께 인터넷 캐시(112)에 저장된다. 카테고리 할당기(120)는, 전파 매트릭스를 발생시키고 각각의 최종 페이지에 카테고리를 할당하기 위해, 인터넷 캐시(112)에 저장된 거래 점수와 기타 정보를 이용한다. 각각의 페이지에 대한 거래 점수, 상업적 점수, 품질 점수, 스팸 점수 및 카테고리가 인터넷 캐시(112)에 관련 페이지와 함께 저장된다. 커스터마이즈 가능한 임계값 p, 놈 파라메터 p, 상업적 점수 변이값 Δ 등은, 당 분야에 잘 알려진 바와 같이, 시스템의 클라이언트측이나 서버측에 저장될 수 있다. 검색 서버(124)는 인터넷 인덱스(116)와 인터넷 캐시(112)에 연결되고, 시스템의 사용자 인터페이스(122)를 통해 사용자에게 장치를 연결될 수 있도록 한다. 시스템의 사용자 인터페이스(122)는 브라우저일 수도 있고, 에이전트나 애플리케이션 소프트웨어일 수도 있다.
인터넷을 검색하려는 사용자는 인터넷을 통해 검색 서버(124)에 연결하기 위해 시스템 사용자 인터페이스(122)를 이용할 수 있다. 시스템 사용자 인터페이스(122)가 브라우저일 경우, 브라우저는 사용자의 검색 요청을 인터넷을 통해 검색 서버(124)에 전달한다. 대안으로, 사용자 인터페이스(122)가 에이전트 소프트웨어일 경우, 에이전트는 자동 검색 요청을 인터넷 상에서 전송한다. 또한, 사용자 인터페이스(122)는 브라우저 및 에이전트 소프트웨어를 모두 포함하여 인터넷 상에서 검색 서버(124)에 자동 검색 요청을 보낼 수 있다. 검색 서버(124)는 사용자의 검색 용어와 관련된 최종 페이지들을 결정하기 위해 인터넷 인덱스(116)를 이용한다. 이 최종 페이지들은 인터넷 캐시(112)로부터 불러들여져, 사용자에 의해 지정된 방식으로 사용자 인터페이스(122)를 통해 사용자에게 제시된다.
앞서 내용으로부터, 현재 공개되는 실시예들이 분배형 데이터베이스의 선택 요소들을 분류하고 제시하기 위한 방법 및 장치를 제공한다는 것을 알 수 있다. 커스터마이즈 가능한 검색 결과 분류가 가능한 검색 엔진 및 데이터베이스를 광고자, 검색 서비스 제공자, 및 사용자에게 제공하는 것과, 검색 결과 중 원하는 카테고리 또는 카테고리들만이 리턴되거나 디스플레이되도록 검색 결과를 필터링하기 위한 방법 및 장치를 제공하는 것이 본 발명의 추가적인 장점이다.
카테고리 또는 기준에 따라 검색 결과를 검색 및/또는 디스플레이하기 위해 검색을 커스터마이즈하는 방법을 사용자, 광고자, 검색 사이트 제공자, 및 검색 엔진 제공자에게 제공하는 것과, 광고자의 제품 및/또는 서비스가 다른 링크와 함께 분류되고 디스플레이되도록 제어하기 위한 방법을 광고자에게 제공하는 것이 본 발명의 또다른 효과이다. 더욱이, 본 실시예들은 사이트의 속성을 식별하는 방법을 제공하고, 검색 결과를 분류할 수 있는 검색 엔진을 제공하며, 사용자와 광고자에 의해 커스터마이즈 가능한 검색 엔진을 제공한다.
비록 본 발명이 특정 실시예를 이용해 설명되었지만, 당업자라면 본 공개 내용에 비추어, 청구된 발명의 정신을 벗어나거나 그 범위를 초과하지 않고도 추가적인 실시예들을 생성할 수 있을 것이다. 예를 들어, 여기서 제시된 방법 및 시스템은 단지 인터넷을 통해 액세스되는 데이터베이스 뿐만 아니라 임의의 분배형 데이터베이스에 적용될 수 있다. 나아가, 페이지들 및 문서들이 배치될 수 있는 무수히 다양한 카테고리들과, 이 카테고리들에 페이지들 및 문서들을 배치하는데 사용되는 기준이 존재한다. 따라서, 본 명세서의 도면과 발명의 상세한 설명은 본 발명의 이해를 돕기 위해 제공된 것일 뿐, 그 범위를 제한하도록 해서는 안 된다는 점이 분명히 이해되어야 할 것이다.

Claims (39)

  1. 컴퓨터 시스템에 의해 최종 페이지를 카테고리로 분류하기 위한 방법으로서,
    제1 카테고리를 상업적 페이지로, 제2 카테고리를 정보형 페이지로 지정하는 단계;
    각각의 최종 페이지에 대한 품질 점수 q(wi)를 결정하는 단계;
    각각의 최종 페이지에 대한 거래 등급 τ(wi)을 결정하는 단계;
    전파 매트릭스(propagation matrix) P를 도출하는 단계;
    각각의 최종 페이지에 대한 상업적 점수 κ를 결정하는 단계; 및
    상업적 점수 임계값을 만족하거나 초과하는 모든 최종 페이지들을 필터링하는 단계
    를 포함하며,
    상기 상업적 점수 임계값을 만족하거나 초과하는 상기 최종 페이지들은 제1 카테고리에 배치되고, 나머지 모든 최종 페이지들은 제2 카테고리에 배치되며,
    상기 거래 등급 τ(wi)를 결정하는 상기 단계는,
    각각의 최종 페이지가 선택 기준에 부합하는지를 결정하는 단계;
    각각의 최종 페이지가 상기 선택 기준에 어느 정도로 부합하는지를 결정하는 단계;
    각각의 페이지에 대한 거래 점수를 결정하는 단계; 및
    상기 거래 점수로부터 각 페이지에 대한 상기 거래 등급을 결정하는 단계
    를 포함하며,
    각각의 페이지에 대한 거래 점수를 결정하는 상기 단계는 각각의 최종 페이지에 대한 벡터 αk(wi)를 생성하는 단계를 포함하고, 여기서 각각의 벡터는 복수의 원소 αkn(wi)를 포함하고, 상기 복수의 원소 αkn(wi) 각각은 각각의 최종 페이지가 각각의 상기 선택 기준에 어느 정도로 부합하는지를 반영하는 불린값(Boolean value)인 것을 특징으로 하는 방법.
  2. 컴퓨터 시스템에 의해 최종 페이지를 카테고리로 분류하기 위한 방법으로서,
    제1 카테고리를 상업적 페이지로, 제2 카테고리를 정보형 페이지로 지정하는 단계;
    각각의 최종 페이지에 대한 품질 점수 q(wi)를 결정하는 단계;
    각각의 최종 페이지에 대한 거래 등급 τ(wi)을 결정하는 단계;
    전파 매트릭스(propagation matrix) P를 도출하는 단계;
    각각의 최종 페이지에 대한 상업적 점수 κ를 결정하는 단계; 및
    상업적 점수 임계값을 만족하거나 초과하는 모든 최종 페이지들을 필터링하는 단계
    를 포함하며,
    상기 상업적 점수 임계값을 만족하거나 초과하는 상기 최종 페이지들은 제1 카테고리에 배치되고, 나머지 모든 최종 페이지들은 제2 카테고리에 배치되며,
    상기 거래 등급 τ(wi)를 결정하는 상기 단계는,
    각각의 최종 페이지가 선택 기준에 부합하는지를 결정하는 단계;
    각각의 최종 페이지가 상기 선택 기준에 어느 정도로 부합하는지를 결정하는 단계;
    각각의 페이지에 대한 거래 점수를 결정하는 단계; 및
    상기 거래 점수로부터 각 페이지에 대한 상기 거래 등급을 결정하는 단계
    를 포함하며,
    각각의 페이지에 대한 거래 점수를 결정하는 상기 단계는, 각각의 최종 페이지에 대한 벡터 βk(wi)를 생성하는 단계를 포함하며, 여기서 각각의 벡터는 복수의 원소 βkn(wi)를 포함하고, 상기 복수의 원소 βkn(wi) 각각은 각각의 최종 페이지가 각각의 상기 선택 기준에 어느 정도로 부합하는지를 반영하는 가중치인 것을 특징으로 하는 방법.
  3. 컴퓨터 시스템에 의해 최종 페이지를 카테고리로 분류하기 위한 방법으로서,
    제1 카테고리를 상업적 페이지로, 제2 카테고리를 정보형 페이지로 지정하는 단계;
    각각의 최종 페이지에 대한 품질 점수 q(wi)를 결정하는 단계;
    각각의 최종 페이지에 대한 거래 등급 τ(wi)을 결정하는 단계;
    전파 매트릭스(propagation matrix) P를 도출하는 단계;
    각각의 최종 페이지에 대한 상업적 점수 κ를 결정하는 단계; 및
    상업적 점수 임계값을 만족하거나 초과하는 모든 최종 페이지들을 필터링하는 단계
    를 포함하며,
    상기 상업적 점수 임계값을 만족하거나 초과하는 상기 최종 페이지들은 제1 카테고리에 배치되고, 나머지 모든 최종 페이지들은 제2 카테고리에 배치되며,
    상기 거래 등급 τ(wi)를 결정하는 상기 단계는,
    각각의 최종 페이지가 선택 기준에 부합하는지를 결정하는 단계;
    각각의 최종 페이지가 상기 선택 기준에 어느 정도로 부합하는지를 결정하는 단계;
    각각의 페이지에 대한 거래 점수를 결정하는 단계; 및
    상기 거래 점수로부터 각 페이지에 대한 상기 거래 등급을 결정하는 단계
    를 포함하며,
    상기 거래 점수로부터 각 페이지에 대한 상기 거래 등급 τ(wi)을 결정하는 상기 단계는 각 최종 페이지에 대하여 벡터 αk(wi)에 대한 벡터의 p-놈(p-norm)과 상기 거래 등급 τ(wi) 간의 관계를 평가하는 단계를 포함하며, 여기서 상기 관계는
    Figure 112008015862701-pat00011
    에 의해 정의되는 것을 특징으로 하는 방법.
  4. 제3항에 있어서, ρ=2인 것을 특징으로 하는 방법.
  5. 컴퓨터 시스템에 의해 최종 페이지를 카테고리로 분류하기 위한 방법으로서,
    제1 카테고리를 상업적 페이지로, 제2 카테고리를 정보형 페이지로 지정하는 단계;
    각각의 최종 페이지에 대한 품질 점수 q(wi)를 결정하는 단계;
    각각의 최종 페이지에 대한 거래 등급 τ(wi)을 결정하는 단계;
    전파 매트릭스(propagation matrix) P를 도출하는 단계;
    각각의 최종 페이지에 대한 상업적 점수 κ를 결정하는 단계; 및
    상업적 점수 임계값을 만족하거나 초과하는 모든 최종 페이지들을 필터링하는 단계
    를 포함하며,
    상기 상업적 점수 임계값을 만족하거나 초과하는 상기 최종 페이지들은 제1 카테고리에 배치되고, 나머지 모든 최종 페이지들은 제2 카테고리에 배치되며,
    상기 거래 등급 τ(wi)를 결정하는 상기 단계는,
    각각의 최종 페이지가 선택 기준에 부합하는지를 결정하는 단계;
    각각의 최종 페이지가 상기 선택 기준에 어느 정도로 부합하는지를 결정하는 단계;
    각각의 페이지에 대한 거래 점수를 결정하는 단계; 및
    상기 거래 점수로부터 각 페이지에 대한 상기 거래 등급을 결정하는 단계
    를 포함하며,
    상기 거래 점수로부터 각 페이지에 대한 상기 거래 등급 τ(wi)을 결정하는 상기 단계는 각 최종 페이지에 대하여 벡터 βk(wi)의 p-놈과 상기 거래 등급 τ(wi) 간의 관계를 평가하는 단계를 포함하며, 여기서 상기 관계는
    Figure 112008015862701-pat00025
    에 의해 정의되는 것을 특징으로 하는 방법.
  6. 제5항에 있어서, ρ=2인 것을 특징으로 하는 방법.
  7. 컴퓨터 시스템에 의해 최종 페이지를 카테고리로 분류하기 위한 방법으로서,
    제1 카테고리를 상업적 페이지로, 제2 카테고리를 정보형 페이지로 지정하는 단계;
    각각의 최종 페이지에 대한 품질 점수 q(wi)를 결정하는 단계;
    각각의 최종 페이지에 대한 거래 등급 τ(wi)을 결정하는 단계;
    전파 매트릭스(propagation matrix) P를 도출하는 단계;
    각각의 최종 페이지에 대한 상업적 점수 κ를 결정하는 단계; 및
    상업적 점수 임계값을 만족하거나 초과하는 모든 최종 페이지들을 필터링하는 단계
    를 포함하며,
    상기 상업적 점수 임계값을 만족하거나 초과하는 상기 최종 페이지들은 제1 카테고리에 배치되고, 나머지 모든 최종 페이지들은 제2 카테고리에 배치되며,
    전파 매트릭스를 도출하는 상기 단계는,
    원소 Cij를 포함하는 하이퍼링크 연결 매트릭스(hyperlink connectivity matrix) C를 생성하는 단계;
    복수의 어사러티 점수(authority score) ai와 복수의 허브 점수(hub score) hi를 계산하는 단계;
    각각의 최종 페이지에 대한 복수의 변이 카운트(transition counts) Tij와 복수의 페이지뷰 vi를 계산하는 단계; 및
    전파 매트릭스 원소 Pij를 가진 전파 매트릭스 P를 생성하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서, 하이퍼링크 연결 매트릭스 C를 생성하는 상기 단계는 매트릭스에 인터넷의 링크 구조를 표현하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 제8항에 있어서, 각각의 최종 페이지에서 각 최종 페이지까지 다수의 링크를 검사함으로써 상기 인터넷의 상기 링크 구조가 표현되는 것을 특징으로 하는 방법.
  10. 제7항에 있어서, 상기 복수의 허브 점수 hi와 상기 복수의 어사러티 점수 ai는 상기 하이퍼링크 연결 매트릭스 C에 관련되며, 상기 복수의 어사러티 점수는
    Figure 112007069400998-pat00026
    로서, 상기 복수의 허브 점수는
    Figure 112007069400998-pat00027
    로서 각각 정의되는 것을 특징으로 하는 방법.
  11. 제7항에 있어서, 상기 복수의 페이지뷰 vi는 상기 복수의 변이 카운트 Tij에 관련되며,
    Figure 112007069400998-pat00028
    에 의해 정의되는 것을 특징으로 하는 방법.
  12. 제11항에 있어서, 상기 전파 매트릭스는 상기 하이퍼링크 연결 매트릭스, 상기 복수의 허브 점수, 상기 복수의 어사러티 점수, 상기 복수의 변이 카운트, 및 상기 복수의 페이지뷰의 함수인 것을 특징으로 하는 방법.
  13. 제11항에 있어서, 상기 전파 매트릭스를 도출하는 상기 단계는, 상기 복수의 허브 점수, 상기 복수의 어사러티 점수, 및 상기 복수의 페이지뷰에 가중치를 주는(weighting) 단계를 더 포함하는 것을 특징으로 하는 방법.
  14. 제11항에 있어서, 상기 전파 매트릭스 P는 가중 함수 F(hi), G(ai), H(vi)의 함수이며, 상기 전파 매트릭스 P는
    Pij =
    Figure 112007069400998-pat00013
    로서 정의되는 것을 특징으로 하는 방법.
  15. 제14항에 있어서, 각각의 상기 가중 함수들이 스텝 함수(step function)를 포함하는 것을 특징으로 하는 방법.
  16. 제15항에 있어서, 각각의 최종 페이지 wi에 대한 상기 상업적 점수 κ가 회귀적으로(recursively) 결정되는 것을 특징으로 하는 방법.
  17. 제16항에 있어서, 상기 상업적 점수 κ는 상기 전파 매트릭스의 트랜스버스 PT, 전파 매트릭스 가중치 η, 및 상업적 점수 초기값 κ'(0)으로부터 t회 반복에 대하여 회귀적으로 결정되며, 여기서 κ'(0)은 선택 품질 A와 B만큼 가중치가 주어져서
    κ'(0) =
    Figure 112007069400998-pat00014
    로서 정의되고,
    상기 상업적 점수의 이전 반복 κ'(t)는
    κ'(t) = ηPTκ'(t-1)+(1-η)κ'(0)
    로서 정의되며,
    κ = κ'(t')인 것을 특징으로 하는 방법.
  18. 컴퓨터 시스템에 의해 최종 페이지를 카테고리로 분류하기 위한 방법으로서,
    제1 카테고리를 상업적 페이지로, 제2 카테고리를 정보형 페이지로 지정하는 단계;
    각각의 최종 페이지에 대한 품질 점수 q(wi)를 결정하는 단계;
    각각의 최종 페이지에 대한 거래 등급 τ(wi)을 결정하는 단계;
    전파 매트릭스(propagation matrix) P를 도출하는 단계;
    각각의 최종 페이지에 대한 상업적 점수 κ를 결정하는 단계;
    상업적 점수 임계값을 만족하거나 초과하는 모든 최종 페이지들을 필터링하는 단계 - 상기 상업적 점수 임계값을 만족하거나 초과하는 상기 최종 페이지들은 제1 카테고리에 배치되고, 나머지 모든 최종 페이지들은 제2 카테고리에 배치됨 - ;
    제 3 카테고리를 스팸 페이지(spam page)로 지정하는 단계; 및
    각각의 최종 페이지에 대한 스팸 점수 δ(wi)를 결정하는 단계
    를 포함하며,
    각각의 최종 페이지에 대한 상업적 점수 κ를 결정하는 상기 단계는, 전파 매트릭스의 트랜스버스 PT, 전파 매트릭스 가중치 η, 및 상업적 점수 초기값 κ'(0)으로부터 t회 반복 동안 회귀적으로 결정되며, κ'(0)은 선택 품질 A와 B만큼 가중치가 주어져서
    κ'(0) =
    Figure 112008015862701-pat00015
    로서 정의되고,
    상기 상업적 점수의 이전 반복 κ'(t)는
    κ'(t) = ηPTκ'(t-1)+(1-η)κ'(0)
    로서 정의되며,
    κ = κ'(t')인 것을 특징으로 하는 방법.
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
KR1020030032717A 2002-05-24 2003-05-23 분배형 데이터베이스의 문서를 분류하고 제시하기 위한 방법 및 장치 KR100852034B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/155,290 US7231395B2 (en) 2002-05-24 2002-05-24 Method and apparatus for categorizing and presenting documents of a distributed database
US10/155,290 2002-05-24

Publications (2)

Publication Number Publication Date
KR20030091751A KR20030091751A (ko) 2003-12-03
KR100852034B1 true KR100852034B1 (ko) 2008-08-13

Family

ID=22554828

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030032717A KR100852034B1 (ko) 2002-05-24 2003-05-23 분배형 데이터베이스의 문서를 분류하고 제시하기 위한 방법 및 장치

Country Status (10)

Country Link
US (2) US7231395B2 (ko)
EP (1) EP1367509A3 (ko)
JP (1) JP3905498B2 (ko)
KR (1) KR100852034B1 (ko)
CN (1) CN100517304C (ko)
AU (1) AU2003204327B2 (ko)
CA (1) CA2429338C (ko)
DE (1) DE10323444A1 (ko)
FR (1) FR2840088B1 (ko)
GB (1) GB2389682A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102244699B1 (ko) * 2020-06-15 2021-04-27 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 문장 유사도를 이용한 감정 라벨링 방법

Families Citing this family (166)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6754873B1 (en) * 1999-09-20 2004-06-22 Google Inc. Techniques for finding related hyperlinked documents using link-based analysis
US6625595B1 (en) * 2000-07-05 2003-09-23 Bellsouth Intellectual Property Corporation Method and system for selectively presenting database results in an information retrieval system
US8121937B2 (en) 2001-03-20 2012-02-21 Goldman Sachs & Co. Gaming industry risk management clearinghouse
US8209246B2 (en) 2001-03-20 2012-06-26 Goldman, Sachs & Co. Proprietary risk management clearinghouse
US7899722B1 (en) * 2001-03-20 2011-03-01 Goldman Sachs & Co. Correspondent bank registry
US8140415B2 (en) * 2001-03-20 2012-03-20 Goldman Sachs & Co. Automated global risk management
US20030101191A1 (en) * 2001-11-28 2003-05-29 Yu-Chwin Lin Publication of commercial entity information and method for classifying commercial entity information
US20110264508A1 (en) * 2002-03-29 2011-10-27 Harik George R Scoring, modifying scores of, and/or filtering advertisements using advertiser information
US7231395B2 (en) * 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US8260786B2 (en) * 2002-05-24 2012-09-04 Yahoo! Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US20040049514A1 (en) * 2002-09-11 2004-03-11 Sergei Burkov System and method of searching data utilizing automatic categorization
EP1565844A4 (en) * 2002-11-11 2007-03-07 Transparensee Systems Inc SEARCH PROCESS AND SYSTEM AND SYSTEMS THEREFORE
US8065151B1 (en) * 2002-12-18 2011-11-22 At&T Intellectual Property Ii, L.P. System and method of automatically building dialog services by exploiting the content and structure of websites
US7373300B1 (en) 2002-12-18 2008-05-13 At&T Corp. System and method of providing a spoken dialog interface to a website
US7802283B2 (en) * 2002-12-20 2010-09-21 Shailen V Banker Linked information system
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US7792828B2 (en) 2003-06-25 2010-09-07 Jericho Systems Corporation Method and system for selecting content items to be presented to a viewer
US7206780B2 (en) * 2003-06-27 2007-04-17 Sbc Knowledge Ventures, L.P. Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US8464290B2 (en) 2003-08-01 2013-06-11 Tacoda, Inc. Network for matching an audience with deliverable content
US7805332B2 (en) * 2003-08-01 2010-09-28 AOL, Inc. System and method for segmenting and targeting audience members
US8150732B2 (en) * 2003-08-01 2012-04-03 Tacoda Llc Audience targeting system with segment management
US9118812B2 (en) * 2003-08-01 2015-08-25 Advertising.Com Llc Audience server
US20050125290A1 (en) * 2003-08-01 2005-06-09 Gil Beyda Audience targeting system with profile synchronization
US9928522B2 (en) 2003-08-01 2018-03-27 Oath (Americas) Inc. Audience matching network with performance factoring and revenue allocation
US9117217B2 (en) * 2003-08-01 2015-08-25 Advertising.Com Llc Audience targeting with universal profile synchronization
US8554601B1 (en) 2003-08-22 2013-10-08 Amazon Technologies, Inc. Managing content based on reputation
US8046350B1 (en) 2003-09-24 2011-10-25 Google Inc. Systems and methods for detecting commercial queries
US7617205B2 (en) 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US7783637B2 (en) 2003-09-30 2010-08-24 Microsoft Corporation Label system-translation of text and multi-language support at runtime and design
US7715059B2 (en) * 2003-10-22 2010-05-11 International Business Machines Corporation Facsimile system, method and program product with junk fax disposal
US7814101B2 (en) * 2003-10-30 2010-10-12 Microsoft Corporation Term database extension for label system
US7873536B2 (en) * 2003-12-11 2011-01-18 Google Inc. Systems and methods for providing advertisements in a communications network
CN100495392C (zh) * 2003-12-29 2009-06-03 西安迪戈科技有限责任公司 一种智能搜索方法
US8392249B2 (en) * 2003-12-31 2013-03-05 Google Inc. Suggesting and/or providing targeting criteria for advertisements
US7693825B2 (en) * 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US8041713B2 (en) * 2004-03-31 2011-10-18 Google Inc. Systems and methods for analyzing boilerplate
US7272601B1 (en) * 2004-03-31 2007-09-18 Google Inc. Systems and methods for associating a keyword with a user interface area
US8631001B2 (en) * 2004-03-31 2014-01-14 Google Inc. Systems and methods for weighting a search query result
US20080040315A1 (en) * 2004-03-31 2008-02-14 Auerbach David B Systems and methods for generating a user interface
US7664734B2 (en) * 2004-03-31 2010-02-16 Google Inc. Systems and methods for generating multiple implicit search queries
US9009153B2 (en) 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US7707142B1 (en) * 2004-03-31 2010-04-27 Google Inc. Methods and systems for performing an offline search
US7386572B2 (en) * 2004-04-14 2008-06-10 Nancy Kramer System and method for a modular user controlled search engine
US9223868B2 (en) * 2004-06-28 2015-12-29 Google Inc. Deriving and using interaction profiles
US7788274B1 (en) 2004-06-30 2010-08-31 Google Inc. Systems and methods for category-based search
US8131754B1 (en) 2004-06-30 2012-03-06 Google Inc. Systems and methods for determining an article association measure
US8762191B2 (en) 2004-07-02 2014-06-24 Goldman, Sachs & Co. Systems, methods, apparatus, and schema for storing, managing and retrieving information
US8442953B2 (en) 2004-07-02 2013-05-14 Goldman, Sachs & Co. Method, system, apparatus, program code and means for determining a redundancy of information
US8996481B2 (en) 2004-07-02 2015-03-31 Goldman, Sach & Co. Method, system, apparatus, program code and means for identifying and extracting information
US8510300B2 (en) 2004-07-02 2013-08-13 Goldman, Sachs & Co. Systems and methods for managing information associated with legal, compliance and regulatory risk
JP2006048536A (ja) * 2004-08-06 2006-02-16 Canon Inc 情報処理装置、文書検索方法、ならびにプログラム、記憶媒体
US8799079B2 (en) * 2004-10-22 2014-08-05 Adknowledge, Inc. System for prioritizing advertiser communications over a network
US20060095322A1 (en) * 2004-11-03 2006-05-04 Dierks Timothy M Determining prospective advertising hosts using data such as crawled documents and document access statistics
US7953725B2 (en) 2004-11-19 2011-05-31 International Business Machines Corporation Method, system, and storage medium for providing web information processing services
US20060149710A1 (en) 2004-12-30 2006-07-06 Ross Koningstein Associating features with entities, such as categories of web page documents, and/or weighting such features
US20060173822A1 (en) * 2005-02-03 2006-08-03 Microsoft Corporation System and method for optimization of results based on monetization intent
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US20060230009A1 (en) * 2005-04-12 2006-10-12 Mcneely Randall W System for the automatic categorization of documents
US7660792B2 (en) * 2005-04-29 2010-02-09 Microsoft Corporation System and method for spam identification
US20060253582A1 (en) * 2005-05-03 2006-11-09 Dixon Christopher J Indicating website reputations within search results
US8438499B2 (en) 2005-05-03 2013-05-07 Mcafee, Inc. Indicating website reputations during user interactions
US7765481B2 (en) * 2005-05-03 2010-07-27 Mcafee, Inc. Indicating website reputations during an electronic commerce transaction
US9384345B2 (en) * 2005-05-03 2016-07-05 Mcafee, Inc. Providing alternative web content based on website reputation assessment
US7562304B2 (en) 2005-05-03 2009-07-14 Mcafee, Inc. Indicating website reputations during website manipulation of user information
US8566726B2 (en) * 2005-05-03 2013-10-22 Mcafee, Inc. Indicating website reputations based on website handling of personal information
US7822620B2 (en) * 2005-05-03 2010-10-26 Mcafee, Inc. Determining website reputations using automatic testing
US20060253584A1 (en) * 2005-05-03 2006-11-09 Dixon Christopher J Reputation of an entity associated with a content item
US7467146B2 (en) * 2005-05-05 2008-12-16 International Business Machines Corporation System, method and program product for determining whether a web page returned to a web browser is a redirected web page
US20060253423A1 (en) * 2005-05-07 2006-11-09 Mclane Mark Information retrieval system and method
US7996391B2 (en) 2005-06-20 2011-08-09 Google Inc. Systems and methods for providing search results
US20070005564A1 (en) * 2005-06-29 2007-01-04 Mark Zehner Method and system for performing multi-dimensional searches
US7653617B2 (en) * 2005-08-29 2010-01-26 Google Inc. Mobile sitemaps
US8161044B2 (en) * 2005-10-26 2012-04-17 International Business Machines Corporation Faceted web searches of user preferred categories throughout one or more taxonomies
US7917519B2 (en) * 2005-10-26 2011-03-29 Sizatola, Llc Categorized document bases
US7457801B2 (en) * 2005-11-14 2008-11-25 Microsoft Corporation Augmenting a training set for document categorization
US7890502B2 (en) * 2005-11-14 2011-02-15 Microsoft Corporation Hierarchy-based propagation of contribution of documents
IL172551A0 (en) * 2005-12-13 2006-04-10 Grois Dan Method for assigning one or more categorized scores to each document over a data network
US7529761B2 (en) * 2005-12-14 2009-05-05 Microsoft Corporation Two-dimensional conditional random fields for web extraction
US8572560B2 (en) * 2006-01-10 2013-10-29 International Business Machines Corporation Collaborative software development systems and methods providing automated programming assistance
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US8701196B2 (en) 2006-03-31 2014-04-15 Mcafee, Inc. System, method and computer program product for obtaining a reputation associated with a file
US7526486B2 (en) 2006-05-22 2009-04-28 Initiate Systems, Inc. Method and system for indexing information about entities with respect to hierarchies
US8682712B2 (en) * 2006-05-22 2014-03-25 Google Inc. Monitoring landing page experiments
US7831658B2 (en) * 2006-05-22 2010-11-09 Google Inc. Generating landing page variants
EP2030134A4 (en) 2006-06-02 2010-06-23 Initiate Systems Inc SYSTEM AND METHOD FOR AUTOMATIC WEIGHT GENERATION FOR CHARACTERISTICITY
FR2902907B1 (fr) * 2006-06-21 2008-10-17 Gerald Poitevineau Procede de recherche d'informations sur un reseau intranet, extranet, internet ou toute autre source de diffusion d'informations numeriques et moteur de recherche pour la mise en oeuvre dudit procede
US8001130B2 (en) * 2006-07-25 2011-08-16 Microsoft Corporation Web object retrieval based on a language model
US7720830B2 (en) * 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US7921106B2 (en) * 2006-08-03 2011-04-05 Microsoft Corporation Group-by attribute value in search results
US8356009B2 (en) 2006-09-15 2013-01-15 International Business Machines Corporation Implementation defined segments for relational database systems
US7685093B1 (en) 2006-09-15 2010-03-23 Initiate Systems, Inc. Method and system for comparing attributes such as business names
US7698268B1 (en) 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives
TWI337712B (en) * 2006-10-30 2011-02-21 Inst Information Industry Systems and methods for measuring behavior characteristics, and machine readable medium thereof
US7885952B2 (en) * 2006-12-20 2011-02-08 Microsoft Corporation Cloaking detection utilizing popularity and market value
US9092434B2 (en) * 2007-01-23 2015-07-28 Symantec Corporation Systems and methods for tagging emails by discussions
US8359339B2 (en) 2007-02-05 2013-01-22 International Business Machines Corporation Graphical user interface for configuration of an algorithm for the matching of data records
US20080222725A1 (en) * 2007-03-05 2008-09-11 Microsoft Corporation Graph structures and web spam detection
US8515926B2 (en) 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
US8321393B2 (en) 2007-03-29 2012-11-27 International Business Machines Corporation Parsing information in data records and in different languages
US8423514B2 (en) 2007-03-29 2013-04-16 International Business Machines Corporation Service provisioning
US8429220B2 (en) 2007-03-29 2013-04-23 International Business Machines Corporation Data exchange among data sources
US8370355B2 (en) 2007-03-29 2013-02-05 International Business Machines Corporation Managing entities within a database
US7698261B1 (en) * 2007-03-30 2010-04-13 A9.Com, Inc. Dynamic selection and ordering of search categories based on relevancy information
US8768932B1 (en) * 2007-05-14 2014-07-01 Google Inc. Method and apparatus for ranking search results
EP2193415A4 (en) 2007-09-28 2013-08-28 Ibm METHOD AND SYSTEM FOR ANALYZING A SYSTEM FOR THE ADJUSTMENT OF DATA SETS
US8713434B2 (en) 2007-09-28 2014-04-29 International Business Machines Corporation Indexing, relating and managing information about entities
EP2198374A4 (en) 2007-09-28 2013-07-17 Ibm METHOD AND SYSTEM FOR ASSOCIATING DATA SETS IN SEVERAL LANGUAGES
US7831611B2 (en) 2007-09-28 2010-11-09 Mcafee, Inc. Automatically verifying that anti-phishing URL signatures do not fire on legitimate web sites
US8103676B2 (en) * 2007-10-11 2012-01-24 Google Inc. Classifying search results to determine page elements
US8296643B1 (en) 2007-10-18 2012-10-23 Google Inc. Running multiple web page experiments on a test page
US20090119276A1 (en) * 2007-11-01 2009-05-07 Antoine Sorel Neron Method and Internet-based Search Engine System for Storing, Sorting, and Displaying Search Results
US7877369B2 (en) * 2007-11-02 2011-01-25 Paglo Labs, Inc. Hosted searching of private local area network information
US7877368B2 (en) * 2007-11-02 2011-01-25 Paglo Labs, Inc. Hosted searching of private local area network information with support for add-on applications
TWI352934B (en) * 2007-11-27 2011-11-21 Inst Information Industry Advertisement selection systems and methods for in
NO20076159A (no) * 2007-11-29 2009-05-04 Fast Search & Transfer Asa Fremgangsmåte til forbedring av søkeeffektiviteten i et bedriftssøkesystem
US7991777B2 (en) 2007-12-03 2011-08-02 Microsoft International Holdings B.V. Method for improving search efficiency in enterprise search system
JP5309543B2 (ja) * 2007-12-06 2013-10-09 日本電気株式会社 情報検索サーバ、情報検索方法及びプログラム
US8402025B2 (en) * 2007-12-19 2013-03-19 Google Inc. Video quality measures
US7996390B2 (en) * 2008-02-15 2011-08-09 The University Of Utah Research Foundation Method and system for clustering identified forms
US8965865B2 (en) * 2008-02-15 2015-02-24 The University Of Utah Research Foundation Method and system for adaptive discovery of content on a network
US7895293B1 (en) 2008-02-25 2011-02-22 Google Inc. Web page experiments with fragmented section variations
US8010482B2 (en) * 2008-03-03 2011-08-30 Microsoft Corporation Locally computable spam detection features and robust pagerank
JP5020152B2 (ja) * 2008-04-10 2012-09-05 ヤフー株式会社 スパム宣言を利用したウェブページ検索装置、方法及びコンピュータ・プログラム
US8112404B2 (en) * 2008-05-08 2012-02-07 Microsoft Corporation Providing search results for mobile computing devices
US8521732B2 (en) * 2008-05-23 2013-08-27 Solera Networks, Inc. Presentation of an extracted artifact based on an indexing technique
US8625642B2 (en) 2008-05-23 2014-01-07 Solera Networks, Inc. Method and apparatus of network artifact indentification and extraction
US8527339B2 (en) 2008-06-26 2013-09-03 Microsoft Corporation Quality based pricing and ranking for online ads
US8793249B2 (en) * 2008-09-24 2014-07-29 Yahoo! Inc. Optimization filters for user generated content searches
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US8543569B2 (en) * 2009-01-13 2013-09-24 Infotrieve, Inc. System and method for the centralized management of a document ordering and delivery program
US8484200B2 (en) * 2009-01-13 2013-07-09 Infotrieve, Inc. System and method for the centralized management of a document ordering and delivery program
US8452791B2 (en) 2009-01-16 2013-05-28 Google Inc. Adding new instances to a structured presentation
US8615707B2 (en) 2009-01-16 2013-12-24 Google Inc. Adding new attributes to a structured presentation
US8977645B2 (en) 2009-01-16 2015-03-10 Google Inc. Accessing a search interface in a structured presentation
US8412749B2 (en) 2009-01-16 2013-04-02 Google Inc. Populating a structured presentation with new values
US8689117B1 (en) 2009-10-30 2014-04-01 Google Inc. Webpages with conditional content
EP2533163A4 (en) 2010-02-04 2015-04-15 Ebay Inc VISUALIZATION OF LISTS BASED ON LIST ACTIVITY
US9390139B1 (en) 2010-06-23 2016-07-12 Google Inc. Presentation of content items in view of commerciality
US20150242884A1 (en) * 2010-12-13 2015-08-27 David K. Goodman Cross-vertical publisher and advertiser reporting
US8849991B2 (en) 2010-12-15 2014-09-30 Blue Coat Systems, Inc. System and method for hypertext transfer protocol layered reconstruction
US9436437B2 (en) 2010-12-17 2016-09-06 Microsoft Technology Licensing, Llc Creation, editing and navigation of diagrams
US20120179544A1 (en) * 2011-01-12 2012-07-12 Everingham James R System and Method for Computer-Implemented Advertising Based on Search Query
US9384408B2 (en) 2011-01-12 2016-07-05 Yahoo! Inc. Image analysis system and method using image recognition and text search
US8909619B1 (en) 2011-02-03 2014-12-09 Google Inc. Providing search results tools
US8666985B2 (en) 2011-03-16 2014-03-04 Solera Networks, Inc. Hardware accelerated application-based pattern matching for real time classification and recording of network traffic
US8635519B2 (en) 2011-08-26 2014-01-21 Luminate, Inc. System and method for sharing content based on positional tagging
US20130086112A1 (en) 2011-10-03 2013-04-04 James R. Everingham Image browsing system and method for a digital content platform
US8737678B2 (en) 2011-10-05 2014-05-27 Luminate, Inc. Platform for providing interactive applications on a digital content platform
USD736224S1 (en) 2011-10-10 2015-08-11 Yahoo! Inc. Portion of a display screen with a graphical user interface
USD737290S1 (en) 2011-10-10 2015-08-25 Yahoo! Inc. Portion of a display screen with a graphical user interface
US8868536B1 (en) * 2012-01-04 2014-10-21 Google Inc. Real time map spam detection
US9576593B2 (en) 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
US8255495B1 (en) 2012-03-22 2012-08-28 Luminate, Inc. Digital image and content display systems and methods
US8234168B1 (en) 2012-04-19 2012-07-31 Luminate, Inc. Image content and quality assurance system and method
US8495489B1 (en) 2012-05-16 2013-07-23 Luminate, Inc. System and method for creating and displaying image annotations
US10366401B1 (en) 2012-06-29 2019-07-30 Google Llc Content placement optimization
US20140122663A1 (en) * 2012-10-31 2014-05-01 Brown Paper Tickets Llc Overload protection based on web traffic volumes
CN104281560B (zh) * 2013-07-05 2020-06-30 腾讯科技(深圳)有限公司 一种记忆文本信息的显示方法、装置及终端
JP5882272B2 (ja) * 2013-08-30 2016-03-09 京セラドキュメントソリューションズ株式会社 資料評価プログラムおよび資料評価装置
CN104933570A (zh) * 2014-03-20 2015-09-23 阿里巴巴集团控股有限公司 用户侦测方法及装置
US10796321B1 (en) * 2014-08-05 2020-10-06 Groupon, Inc. Method and system for generating purchase recommendations based on purchase category associations
US10853317B2 (en) * 2015-08-07 2020-12-01 Adp, Llc Data normalizing system
WO2018098478A1 (en) * 2016-11-28 2018-05-31 Cloudamize, Inc. System and method for analyzing and associating elements of a computer system by shared characteristics
US11782997B2 (en) 2020-02-13 2023-10-10 Verity Platforms Inc. Information platform systems and methods

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5895470A (en) 1997-04-09 1999-04-20 Xerox Corporation System for categorizing documents in a linked collection of documents
JP2001134616A (ja) * 1999-10-25 2001-05-18 Nec Corp 特定の話題に関するウェブ情報の構成方法とその構成システム
WO2001046870A1 (en) 1999-12-08 2001-06-28 Amazon.Com, Inc. System and method for locating and displaying web-based product offerings
KR20010102687A (ko) 2000-05-04 2001-11-16 정만원 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
US6389436B1 (en) 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks

Family Cites Families (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4735A (en) * 1846-09-03 Improvement in separating oleic and stearic agios
US855008A (en) * 1906-03-21 1907-05-28 Homer G Kellogg Coin-controlled apparatus.
EP0734556B1 (en) 1993-12-16 2002-09-04 Open Market, Inc. Network based payment system and method for using such system
US5623660A (en) * 1994-04-22 1997-04-22 Josephson; Jeffrey L. System for regulating access to data base for purposes of data base management
US5768521A (en) 1994-05-16 1998-06-16 Intel Corporation General purpose metering mechanism for distribution of electronic information
US5515488A (en) 1994-08-30 1996-05-07 Xerox Corporation Method and apparatus for concurrent graphical visualization of a database search and its search history
US5826241A (en) 1994-09-16 1998-10-20 First Virtual Holdings Incorporated Computerized system for making payments and authenticating transactions over the internet
US5724521A (en) 1994-11-03 1998-03-03 Intel Corporation Method and apparatus for providing electronic advertisements to end users in a consumer best-fit pricing manner
US5752238A (en) 1994-11-03 1998-05-12 Intel Corporation Consumer-driven electronic information pricing mechanism
US5717923A (en) 1994-11-03 1998-02-10 Intel Corporation Method and apparatus for dynamically customizing electronic information to individual end users
US5659732A (en) 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5704060A (en) 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
US5748954A (en) 1995-06-05 1998-05-05 Carnegie Mellon University Method for searching a queued and ranked constructed catalog of files stored on a network
US5742816A (en) 1995-09-15 1998-04-21 Infonautics Corporation Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic
US5794210A (en) 1995-12-11 1998-08-11 Cybergold, Inc. Attention brokerage
US5788367A (en) * 1995-12-13 1998-08-04 Jury Alexeevich Budaev Pneumatic vibrator
US5778367A (en) 1995-12-14 1998-07-07 Network Engineering Software, Inc. Automated on-line information service and directory, particularly for the world wide web
US5724524A (en) 1995-12-15 1998-03-03 Pitney Bowes, Inc. Method and system for listing, brokering, and exchanging carrier capacity
AU1522797A (en) 1995-12-15 1997-07-03 Softpages, Inc. (Delaware Corporation), The Method for computer aided advertisement
WO1997026729A2 (en) 1995-12-27 1997-07-24 Robinson Gary B Automated collaborative filtering in world wide web advertising
US5826267A (en) * 1996-03-20 1998-10-20 Mcmillan; James Michael Web information kiosk
US5848397A (en) 1996-04-19 1998-12-08 Juno Online Services, L.P. Method and apparatus for scheduling the presentation of messages to computer users
JP3108015B2 (ja) 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
US5920859A (en) 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5864846A (en) 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Method for facilitating world wide web searches utilizing a document distribution fusion strategy
US5864845A (en) 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Facilitating world wide web searches utilizing a multiple search engine query clustering fusion strategy
US6457004B1 (en) 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US5862223A (en) 1996-07-24 1999-01-19 Walker Asset Management Limited Partnership Method and apparatus for a cryptographically-assisted commercial network system designed to facilitate and support expert-based commerce
US5852820A (en) 1996-08-09 1998-12-22 Digital Equipment Corporation Method for optimizing entries for searching an index
US5920854A (en) 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5788357A (en) 1996-08-28 1998-08-04 K. W. Muth Company, Inc. Mirror assembly
GB2331166B (en) 1997-11-06 2002-09-11 Ibm Database search engine
US5903882A (en) 1996-12-13 1999-05-11 Certco, Llc Reliance server for electronic transaction system
US5966126A (en) 1996-12-23 1999-10-12 Szabo; Andrew J. Graphic user interface for database system
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6285987B1 (en) 1997-01-22 2001-09-04 Engage, Inc. Internet advertising system
US6041331A (en) * 1997-04-01 2000-03-21 Manning And Napier Information Services, Llc Automatic extraction and graphic visualization system and method
US5930777A (en) 1997-04-15 1999-07-27 Barber; Timothy P. Method of charging for pay-per-access information over a network
US5933145A (en) 1997-04-17 1999-08-03 Microsoft Corporation Method and system for visually indicating a selection query
US5886698A (en) 1997-04-21 1999-03-23 Sony Corporation Method for filtering search results with a graphical squeegee
US5924090A (en) 1997-05-01 1999-07-13 Northern Light Technology Llc Method and apparatus for searching a database of records
US6012053A (en) 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US6014664A (en) 1997-08-29 2000-01-11 International Business Machines Corporation Method and apparatus for incorporating weights into data combinational rules
US6028605A (en) 1998-02-03 2000-02-22 Documentum, Inc. Multi-dimensional analysis of objects by manipulating discovered semantic properties
US6073135A (en) 1998-03-10 2000-06-06 Alta Vista Company Connectivity server for locating linkage information between Web pages
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6038574A (en) 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
JP3696731B2 (ja) 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6356898B2 (en) 1998-08-31 2002-03-12 International Business Machines Corporation Method and system for summarizing topics of documents browsed by a user
US6078866A (en) 1998-09-14 2000-06-20 Searchup, Inc. Internet site searching and listing service based on monetary ranking of site listings
US6385602B1 (en) 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
AU2604100A (en) 1999-01-08 2000-07-24 Micro-Integration Corporation Search engine database and interface
US6907566B1 (en) 1999-04-02 2005-06-14 Overture Services, Inc. Method and system for optimum placement of advertisements on a webpage
US6836768B1 (en) 1999-04-27 2004-12-28 Surfnotes Method and apparatus for improved information representation
NZ515293A (en) 1999-05-05 2004-04-30 West Publishing Company D Document-classification system, method and software
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6606657B1 (en) 1999-06-22 2003-08-12 Comverse, Ltd. System and method for processing and presenting internet usage information
US6353825B1 (en) 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques
US6665665B1 (en) 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
US6775665B1 (en) * 1999-09-30 2004-08-10 Ricoh Co., Ltd. System for treating saved queries as searchable documents in a document management system
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
EP1120722A3 (en) 2000-01-13 2004-01-14 Applied Psychology Research Limited Method and apparatus for generating categorization data
US20020004735A1 (en) 2000-01-18 2002-01-10 William Gross System and method for ranking items
US20010049677A1 (en) 2000-03-30 2001-12-06 Iqbal Talib Methods and systems for enabling efficient retrieval of documents from a document archive
US6721721B1 (en) 2000-06-15 2004-04-13 International Business Machines Corporation Virus checking and reporting for computer database search results
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
US6826594B1 (en) * 2000-07-15 2004-11-30 Commission Junction Method and system for remote content management of a designated portion of a web page
AU2001280572A1 (en) 2000-07-17 2002-01-30 Asymmetry, Inc. System and methods for web resource discovery
US6654743B1 (en) * 2000-11-13 2003-11-25 Xerox Corporation Robust clustering of web documents
US20020077998A1 (en) * 2000-12-08 2002-06-20 Brian Andrews Web based system and method for managing sales deals
US6594670B1 (en) 2000-12-22 2003-07-15 Mathias Genser System and method for organizing search criteria match results
US6694307B2 (en) * 2001-03-07 2004-02-17 Netvention System for collecting specific information from several sources of unstructured digitized data
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US7231395B2 (en) 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US20040103073A1 (en) 2002-11-21 2004-05-27 Blake M. Brian System for and method of using component-based development and web tools to support a distributed data management system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5895470A (en) 1997-04-09 1999-04-20 Xerox Corporation System for categorizing documents in a linked collection of documents
US6389436B1 (en) 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
JP2001134616A (ja) * 1999-10-25 2001-05-18 Nec Corp 特定の話題に関するウェブ情報の構成方法とその構成システム
WO2001046870A1 (en) 1999-12-08 2001-06-28 Amazon.Com, Inc. System and method for locating and displaying web-based product offerings
KR20010102687A (ko) 2000-05-04 2001-11-16 정만원 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102244699B1 (ko) * 2020-06-15 2021-04-27 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 문장 유사도를 이용한 감정 라벨링 방법

Also Published As

Publication number Publication date
AU2003204327B2 (en) 2006-12-21
KR20030091751A (ko) 2003-12-03
GB2389682A (en) 2003-12-17
EP1367509A2 (en) 2003-12-03
FR2840088B1 (fr) 2008-05-16
EP1367509A3 (en) 2005-08-31
GB0311975D0 (en) 2003-06-25
AU2003204327A1 (en) 2003-12-11
CA2429338A1 (en) 2003-11-24
FR2840088A1 (fr) 2003-11-28
CN1462005A (zh) 2003-12-17
CN100517304C (zh) 2009-07-22
US7792818B2 (en) 2010-09-07
US7231395B2 (en) 2007-06-12
JP2004164578A (ja) 2004-06-10
DE10323444A1 (de) 2003-12-11
CA2429338C (en) 2007-01-16
JP3905498B2 (ja) 2007-04-18
US20060265400A1 (en) 2006-11-23
US20030220912A1 (en) 2003-11-27

Similar Documents

Publication Publication Date Title
KR100852034B1 (ko) 분배형 데이터베이스의 문서를 분류하고 제시하기 위한 방법 및 장치
US8260786B2 (en) Method and apparatus for categorizing and presenting documents of a distributed database
Srivastava et al. Web mining–concepts, applications and research directions
US10366080B2 (en) Methods and systems for using community defined facets or facet values in computer networks
CN100568232C (zh) 通用搜索引擎接口
Terveen et al. Beyond recommender systems: Helping people help each other
US8150716B1 (en) Website and method for search engine optimization by prompting, recording and displaying feedback of a web site user
US8027876B2 (en) Online advertising valuation apparatus and method
US7680786B2 (en) Optimization of targeted advertisements based on user profile information
US7158986B1 (en) Method and system providing user with personalized recommendations by electronic-mail based upon the determined interests of the user pertain to the theme and concepts of the categorized document
US7814089B1 (en) System and method for presenting categorized content on a site using programmatic and manual selection of content items
US20100030647A1 (en) Advertisement selection for internet search and content pages
WO2001025947A1 (en) Method of dynamically recommending web sites and answering user queries based upon affinity groups
WO2007056378A2 (en) Computer method and system for publishing content on a global computer network
WO2002033594A2 (en) Information storage and retrieval architecture
WO2010000064A1 (en) Information processing with integrated semantic contexts
Agrawal et al. Pros and cons of web mining in E-Commerce
Spink et al. Trends in searching for commerce related information on web search engines
Neethling Search engine optimisation or paid placement systems-user preference.
Desikan et al. Web mining for business computing
AU2007201222A1 (en) Method and apparatus for categorizing and presenting documents of a distributed database
Nazar Exploring SEO techniques for Web 2.0 websites
Köhne Optimizing a large dynamically generated Website for search engine crawling and ranking
Olawale Search engine optimization: concepts, techniques and challenges
Haigang Study of Application of Web Mining Techniques in E-Business

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120724

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130722

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140722

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150716

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160721

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170719

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180718

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190718

Year of fee payment: 12