CN102473190B - 为网页分配关键词 - Google Patents

为网页分配关键词 Download PDF

Info

Publication number
CN102473190B
CN102473190B CN201080034039.5A CN201080034039A CN102473190B CN 102473190 B CN102473190 B CN 102473190B CN 201080034039 A CN201080034039 A CN 201080034039A CN 102473190 B CN102473190 B CN 102473190B
Authority
CN
China
Prior art keywords
keyword
webpage
chain
interior
outer chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080034039.5A
Other languages
English (en)
Other versions
CN102473190A (zh
Inventor
穆拉里达兰·萨姆帕思·柯迪阿兰姆
沙立·慕克吉
王利民
尹星焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Optical Networks Israel Ltd
Nokia of America Corp
Original Assignee
Alcatel Optical Networks Israel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Optical Networks Israel Ltd filed Critical Alcatel Optical Networks Israel Ltd
Publication of CN102473190A publication Critical patent/CN102473190A/zh
Application granted granted Critical
Publication of CN102473190B publication Critical patent/CN102473190B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种使用关键词数据为网页分配关键词的方法、系统与设备,其中,该关键词数据从网页自身、包括指向该网页的链接的网页,以及,被在该网页中的链接指向的网页中获得,其中,从多个网页中获得的该关键词数据被处理,从而为该网页提供相关的关键词数据集合。

Description

为网页分配关键词
技术领域
本发明一般涉及网页分类的领域,更具体地,涉及根据相关关键词进行网页分类。
背景技术
网页关键词分配是网页分类和搜索的一个重要步骤。关键词必须具有足够的代表性,以捕捉包含在页面中的信息,以及,必须足够通用且为社会接受,以用于实际使用(例如,根据用户提供的搜索关键词为用户识别一个相关网页)。
通常网页中包含一些由设计者为其分配的关键词。例如,关键词可能在超文本标记语言(HTML)标签“title”或元标签“keyword”或“description”下被找到。由于不同的网页设计者分配该等关键词的方式不同且用以服务的目的不同,该等关键词在实际使用中并不一定能够被接受。
有多种不同技术可能用于为网页分配关键词。在基于人工智能的技术中,一种算法分析网页以获得该网页的特点和相应地为该网页分配关键字。该种算法提高了所分析的网页的数量。在基于数据挖掘的技术中,一种算法寻找页面内出现的数据的趋势,然后为该页面识别关键属性。在基于关键词密度的技术中,一种算法对出现在网页中的词进行分类,并且基于已获得的密度函数为该网页分配关键词。
该等技术都是计算密集型的,且由于需要分析网页内容,要求为每个页面提供大容量存储空间。此外,页面内容的任何修改将使得对整个页面再次分析成为必须。进一步,由于该等技术依靠页面的内容,其不适用于为基本无词的网页分配关键词,例如由JavaScript动态构建的页面,如谷歌地图页面。
发明内容
现有技术的多种缺陷,被本发明的、使用关键词数据为网页分配关键词的方法、系统及设备所解决,其中,所述关键词数据从网页自身、包含指向该网页的链接的网页,以及,被在该网页中的链接指向的网页中获得,其中,从多个网页中获得的该关键词数据被处理,从而为该网页提供关键词数据的相关集合。
为网页分配关键词的方法的一个实施例包括:识别与网页相关的自有关键词,该自有关键词包括从该网页中获得的关键词数据;识别与该网页相关的内链关键词,该内链关键词包括从包含链接至该网页的链接的其他网页中获得的关键词数据;识别与该网页相关的外链关键词,该外链关键词包括从包含该网页链接至其他网页的链接的所述其他网页中获得的关键词数据;以及,合并该自有、内链和外链关键词,以为该网页形成关键词集合。此外,该自有、内链和外链关键词集合可能会进一步被处理,以提供相应的有序排序的自有、内链和外链关键词集合。此外,一个或多个启发式函数可能会被用于确定,在自有、内链和外链关键词集合中的,每个关键字的相对重要度。
附图说明
鉴于以下结合相应附图的详细说明,本发明的教导可以被很容易地理解,其中:
图1描绘了一个网络化的计算机系统高级框图,其有助于理解本发明的实施例;
图2图示性地描述了被链接的网页之间的关键词关系;
图3描绘了根据一个实施例的用于为网页分配关键词的方法流程图;
图4描绘了一个在网页中识别合适关键词的方法流程图;
图5描绘了一个为与网页相关的关键词排序的方法流程图;
图6描绘了一个适用于执行在此描述的功能的通用目的计算机的高级框图。
为便于理解,在可能的情况下,使用相同的参数以指定附图中共用的相同的元素。
具体实施方式
本发明将主要在用于为特定网页分配关键词的方法、系统及设备的场景中被描述,其中,使用从所述特定网页、包括指向该特定网页链接的其他网页,以及,被在所述特定网页中的链接指向的其他网页的数据,为特定网页分配关键词。多个网页可能被迭代处理,以加强相应关键字的相关性。网页关键词数据库可能会被生成,在该网页关键词数据库中,与多个网页,可能所有可用网页,相关的关键词被提供,使得对该关键词数据库的高速搜索在搜索算法、分类算法及类似算法的场景中被提供。那些本领域的和通过教导而知晓的技术人员在此将意识到可适用于许多其他应用的实施例,例如网页分类(通过为多个网页分配关键词),用户追踪(通过检测被用户访问的页面的关键词)等。
通常,网页中包含一些由设计者为其分配的一些关键词。例如,网页中的关键词可能通过检测HTML标签,如“title”或其他HTML标签,或通过检测元数据标签,如“keyword”标签或“description”,被找到。多种实施例在迭代的或非迭代方法论的场景中,利用该等关键词为特定网页分配关键词。要注意的是,该等实施例执行操作为网页分配关键词,即使该网页或相关网页不包括与标签相关的关键词。
通常来说,根据该多种实施例的方法、系统和设备,通过从那个该网页(在此被表示为“自有”网页)、那些包含指向该自有网页(在此被表示为“内链”网页)链接的网页、以及那些被该自有网页指向的网页(在此被表示为“外链”网页)中检索关键词,来为特定网页分配关键词。
图1描绘了一个网络化的计算机系统高级框图,其有助于理解当前实施例。具体地,多个网络元素或节点110以标准方式被相互连接从而形成网络120,例如互联网。该等多种网络元素或节点包含附有多种支持对网页、流媒体等进行通用或统一寻址协议的硬件和软件组件。在本发明的场景中,讨论将限于使用超文本标记语言(HTML)、可扩展标记语言(XML)、统一资源定位符(URL)和其他为那些熟悉万维网的技术人员所熟悉的标准化协议的网页。
为了这次说明的目的,将会假定每个网络元素或节点110包括一个通用目的计算机,但是特殊目的计算机和/或其他设备(例如,路由器、网桥、交换机及相似设备)也可能在多种实施例的场景中被使用。该通用目的计算机操作细节的说明在此仅简要描述。在网络120中,每个通用目的计算机110与一个或多个其他通用目的计算机110通信。一个或多个通用目的计算机110执行软件指令,该等指令的执行使在此就该等多种实施例被说明的方法论、系统和技术生效。
通用目的计算机110被描绘为包括处理器111、输入输出接口117和存储器112。处理器111分别与存储器112和输入输出接口117相互连接。输入输出接口117适用于辅助与其他节点或网络元素在网络120中的通信。
通用目的计算机110的存储器112被描述为包括与应用113相关的数据及与网页114相关的数据。应该指出的是,虽然只有一个网页被描述,多个网页的实例能够在通用目的计算机110的存储器114中被支持。此外,应该指出的是,网页在通用目的计算机110的存储器中的存在不是实施该多种实施例的必要条件。应用113包括软件指令,当其被处理器111执行时,执行在此就该等多种实施例被说明到的多种步骤。
网页114被描述成包括内容C、元数据MD、描述D和链接L。内容C可能包括任何文本、图片或其他内容数据。元数据MD和描述D可能包括任何标准或非标准的与该网页有关的信息,例如,在此被讨论到的多种实施例。链接L包括,例示地,指向其他网页的URL或其他类型的链接。
服务提供节点130被描述为包含处理器131,输入-输出接口137和存储器132。处理器131分别与存储器132和输入-输出接口137相互连接。输入-输出接口137适用于辅助与其他节点或网络元素在网络120中的通信,例如上述通用目的计算机110。该服务提供节点包括,例示地,支持通过网络120与多个节点通信的服务器和/或管理功能的节点。通常来说,任何服务器、客户端或其它设备都能执行在此被描述到的该等多种实施例的多种功能。而且,多个服务器、客户端和/或其他设备可能并行工作从而更快地执行该等各种功能。例如,一个装置可能适用于更新内链列表,而另一个装置适用于更新外链列表。当待处理的网页数量增加时,额外的服务器可能被调用来用于更新任一列表。
服务提供节点130的存储器132被描述为包括与应用133相关的数据和与关键词存储数据库139相关的数据。应用133包括软件指令,当其被处理器111执行时,该软件指令执行在此就该等多种实施例被说明的该等多种步骤。所述关键词存储数据库139包括存储了与一个或多个网页相关的关键词数据的数据库。关键词存储数据库139被描述为例示服务提供节点130的一个组成部分。然而,本领域技术人员应能理解,关键词存储数据库139就处理线路(例如服务提供节点130)而言,可能是一个与该等多种实施例统一运行的远程数据库。在一个实施例中,扩展数据库140被提供以用于存储与网页相关的关键词信息。
通常来说,在此就该等多种实施例被描述的方法,在服务提供节点132提取与网络120中部分或(理想的)全部节点110中的网页相关的关键词数据中,被执行。因此,在多种实施例中,关键词存储数据库139和/或数据库140被用于存储与每个网页114相关的关键词数据,网页114被网络120中的多个节点110支持或寄宿于其中。同样地,在一个包括网络管理系统(NMS)、网络实施系统、服务提供节点或其他网络或管理元素的实施例中执行软件,以计算以下就多种实施例中被说明的多种参数。在此就多方面的附图,讨论该等实施例的硬件/软件元素支持。
图2图示性地描述了被链接的网页之间的关键词关系。具体地,图2图示性地描述了自有网页210、多个内链网页2201、2202、2203等直至220n(所有内链网页表示为220),及多个外链网页2301、2302、2303等直至230n(所有外链网页表示为230)。
自有网页210包括被处理以确定关键词分配的网页。内链网页220包括包含链接的网页,该链接例如为超文本标记语言(HTML)、可扩展标记语言(XML)、超文本引用(href)或其他链接或指向该自有页面、寻址该自有页面或将用户重定向至该自有页面的寻址机制。外链网页230包括在该自有网页中被指向的,或者,被HTML、XML、href或其他链接或寻址机制寻址的那些网页。
自有网页210可能有与之相关的一个或多个相应关键词,或没有与之相关的相应关键词。在图2的描述中,自有页面210有与之相关的一个关键词的相应集合[k1]。页面关键词集合有与之相关的一个相应权重,被描述为权重w0。
每个内链网页220可能有与之相关的一个或多个相应关键词,或没有与之相关的相应关键词。例如,内链网页2201有与之相关的相应关键词集合[k1,k2,...],内链网页2202有与之相关的相应关键词集合[k3,k4,...],内链网页2203有与之相关的相应关键词集合[k2,k4,...],及内链网页220n有与之相关的相应关键词集合,该关键词集合包括一个空集合(例如,无关键词)。每个内链网页关键词集合有与之相关的相应权重w,被描述为从权重w1至wn。
每个外链网页230可能有与之相关的一个或多个相应关键词,或没有与之相关的相应关键词。例如,外链网页2301有与之相关的相应关键词集合[k1,k2,...],外链网页2302有与之相关的相应空关键词集合[],外链网页2303有与之相关的相应关键词集合[k2,k4,...],及外链网页240n有与之相关的相应关键词集合[k1,k3,...]。每个外链网页关键词集合有与之相关的相应权重w,被描述为权重w5至w8。
为生成被分配给自有网页210的关键词集合,源自有网页关键词、内链网页关键词和外链网页关键词根据多种实施例被收集及处理,从而生成,例如,与该自有节点相关的关键词的有序排序。对关键词的该等收集及处理可能会针对多个自有节点中(例如内链节点或外链节点)的每个节点来被迭代执行,以使得该等额外的节点也相应包含按照有序排序排列的、被收集的/被处理的关键词。该方法论可能包括一个连续处理过程,其中,与任何特定自有节点相关的关键词或有序排序关键词,根据与该自有节点的相关度进行不断地改变和/或改进。例如,几乎可以肯定,与任何特定自有网页相关的内链网页会因为更多(或更少)网页指向该特定自有网页,而随时间改变。所以,在多个实施例中,在此提出的该方法论提供了典型的为网页分配关键词集合方案,其中,该网页被分配的关键词集合可能会被不断地改进和扩展。
通常来说,网页一般包含内容和非内容部分。该内容或非内容部分两者中的任意一个,在本发明实施例的场景中,可能包含适用于作为关键词的文本。在被降低复杂性的实施例中(例如,利用更少计算资源的那些实施例),仅被包含在网页的非内容部分的文本是被包含在关键词集合中的。在更复杂的实施例中(例如,更少涉及计算资源需求的那些实施例),被包含在网页的内容部分的文本可能也被包含在与该网页相关的关键词集合中。
图3描绘了根据一个实施例的用于为网页分配关键词的方法流程图。具体地,图3中的方法300适用于生成与一个或多个自有网页相关的关键词集合。当被需要时,图3中的方法300可能会根据需要,为一个或多个网页而被重复执行。
在步骤310中,自有网页关键词被识别。即,被处理以用于关键词分配的网页中的关键词被识别。
在步骤320中,内链网页关键词被识别。即,包含指向被处理以用于关键词分配的网页的链接的网页中的关键词被识别。参照方框325,内链页面的列表被有选择地更新。所述更新可包含触发搜索引擎、网络爬虫或其他机制以识别那些包含指向被处理的网页的链接的网页。例如,假设一个被表示为www.example.com的自有网页将被处理,通过爬取网络或采用搜索词“link:www.example.com”并利用诸如雅虎或谷歌等搜索引擎,所有指向该自有网页的网页列表将被生成。该网页的结果列表(被表示为内链列表)提供了与能够由其中重新获得关于自有网页的内链关键词数据的网页相关的地址/识别信息。在一个实施例中,在该内链列表中的内链网页是根据强度、相关度或其他排序范式有序排列的。在进一步的实施例中,仅来自预定义数量的已排序内链网页中的关键词被用于提供关键词。
在步骤330中,外链页面关键词被识别。即,被包含在被处理以用于关键词分配的网页中的链接指向的网页中的关键词被识别。外链列表可能通过分析该自有页面的源文件(例如,www.example.com)和搜集该页面内的超文本引用(href)数据而被获得,尽管与图像页面相关的超文本引用数据可能会由于该图像页面可能没有任何有用文本内容,而在该外链列表中被忽略。参照方框335,外链页面的列表(被表示为外链列表)被选择性地更新。所述更新可能包含检查该自有网页,从而判定是否有任何对外链的更改/更新发生。该外链列表提供了与能够由其中重新获得关于自有网页的外链关键词数据的网页相关的寻址/识别信息。
在一个实施例中,内链列表和外链列表中每个被鉴定的页面被处理,以形成用于陈列的相应关键词集合,例如,前述说明的、在图2中图示性地描绘的互相链接的网页之间的关键词关系。
识别关键词的实施例,其适用于在步骤310、320和330中使用,以下参照图4对该实施例进行详细说明。
在步骤340中,为被识别的关键词分配权重。多种权重技术可能会在本发明的场景中被使用。在一个实施例中,每个关键词被分配相同的权重。在另一个实施例中,关键词的权重响应该关键词来源网页的重要度来被改变。其他权重方案将会在以下被详细描述。在另一个实施例中,关键词权重基于链接至网页(例如,自有、内链、外链)的关键词链接,其中,不同链接可能与相同或不同的权重相关。
在步骤350中,加权的关键词集合为自有网页而被形成。即,将与该自有网页相关的加权的关键词集合,利用来自所述自有页面、内链页面和外链页面的加权关键词,被形成。
在步骤360中,与自有网页相关的已加权关键词集合按照要求被存储和/或被处理。参照方框365,步骤360可能包括更新数据库、为应用提供数据、形成有序排序的关键词和/或其他处理/存储操作。在以下参照图5描述的一个实施例中,网页的有序排序的关键词,利用计数、唯一计数(Unique Count)和加权唯一计数启发式函数(Weighted UniqueCount heuristic functions)生成。该有序排序的关键词的一个子集(例如,排序前M位的关键词)接着被分配给该自有网页。其他函数可能也能够在多种实施例的场景中被采用。
在步骤370中,需要作为自有页面来被处理的下一页面被选择,且对于被选择的新的自有网页,方法300被重复执行。
图4描绘了一个在网页中识别合适关键词的方法流程图。具体地,图4的方法400适用于在图3所示方法300的步骤310、320和330中使用。应当注意的是,虽然在此被说明的实施例描绘了在特定顺序中产生的多种启发式函数的应用,更多或更少的启发式函数可能被调用,被调用的该启发式函数的特定顺序可能被改变,且对识别方法的其它更改能够实现。
方法400起始于步骤410,其中,与网页相关的预定义关键词被识别。参照方框415,该等预定义关键词可能包含位于标题(title)字段、方法关键词(method keyword)字段、元描述(meta-description)字段和在该网页中被处理的其他字段或标签中的信息。如前所述,在多种实施例的场景中,来自于网页的内容和非内容部分中的一者或两者的、基于文本的数据被选择性地用于提供关键词数据。
在步骤420中,潜在关键词短语被提取。一个关键词短语包含了能够作为关键词操作的多个相邻的词。若潜在关键词短语的成分关键词(component keywords)是可定义的,或在某些程度上有意义,那么,关键字成分形成了一个有效的关键词短语。如果潜在关键词短语的成分关键词是不可定义的,或在关键词短语的场景中是无效的,那么,成分关键词不会形成有效的关键词短语。参照方框425,关键词短语可能包括被描绘的短语,其中一个或多个词被逗号、标签、分号、空白、空格或划线分隔。
在一个实施例中,其中,潜在关键词短语的成分关键词被第一分隔标识(delineator)(例如,空格或空白)分隔,潜在关键词短语群组被建立,其中,每个群组包括N个相邻的关键词,其中,N包括一个大于一的整数。在该步骤中,多于一个大小的N可能被使用。因此,第一潜在关键词短语群组可能通过将相邻成分关键词中的每一对合并,生成相应的潜在关键词短语(例如,N=2)。同样地,第二潜在关键词短语群组可能通过将每三个相邻成分关键词合并,生成相应的潜在关键词短语(例如,N=3)。
在一个实施例中,其中,潜在关键词短语的成分关键词通过第二分隔标识(例如,逗号)被分隔,在第二分隔标识的任何两个实体之间的潜在关键词被同时定义为一个潜在关键词短语。在该实施例的细化中,在两个第二分隔标识之间的成分关键词被处理以形成一个或多个潜在关键词短语群组,其中,每个群组包括如上所述的长度为N的关键词短语。
在步骤430中,在步骤420中被提取的该潜在关键词短语被评估以形成包括只有有效的关键词和关键词短语的关键词列表。参照方框435,该评估可能通过利用参照函数或网页,例如由维基百科提供的网页、字典或语法修正提供器、第三方评估器、关键词或关键词短语数据库等,被执行。即,拼写引擎、语法引擎和搜索引擎中的任一个可能被用于确定潜在独特关键词(unique keyword)是否代表有效的短语。该引擎或软件能够实现的功能可能来自第三方、独立的应用等。步骤430针对于确定特定关键词短语是否适用于在多种实施例的场景中作为关键词来使用。无意义地、错误的和/或不允许的或不被赞成的关键词和关键词短语通常在网页描述的场景中是无用的。
作为一个实施例,如果N=3且在步骤420中被提取的三个成分关键词次形成潜在关键词短语“new york times”、在维基百科中对序列“new york times”的搜索将会指出关键词短语“new york times”是有效的。
在步骤440中,任何停用词和多余词从关键词列表中被去除。停用词为作为关键词不怎么有用的词和/或短语,例如通用连接词、介词等。停用词列表可能包括以下:“一个(a)、关于、以上、横穿、之后、然后、再次、反对、全部、几乎、单独、沿着、已经、也、虽然、总是,是(am)、其中、之中、在之中、相当于、安培、一个(an)、和、另一个、任何、无论如何、任何人、任何事情、无论怎样、任何地方、是(are)、周围、如、在、后面的、是(be)、变得、因为、变得、变得、变得、是、之前、事先、之后,是(being)、之下、旁边、除了、之间、超越、入账、两者都、底部、但是、通过、打电话、可以、不可以、不可以、合、电脑、以、可以、不可以、哭、反、描述、细节、做、已经做、下、由于、期间、每个、例如、八、要么、十一、否则、在别处、空、足够、等等、甚至、曾今、每一个、每个人,一切”等。多个停用词可能在短语场景中具有相关性,例如,如果其形成相关短语的一部分,则该等停用词不会被去除。
在步骤450中,与网页相关的被识别关键词列表被提供,例如,触发图4中方法400的操作的方法步骤(例如,图3中的方法300的步骤310、320或330)。
图5描绘了一个为与网页相关的关键词排序的方法流程图。具体地,图5中的方法550适用于在图3中的方法300的步骤360/365中使用。方法550预定利用一个或多个计数、唯一计数和/或加权唯一计数启发式函数,生成在与网页相关的关键词列表中的M个最显著关键词的关键词列表。其他启发式函数在多种实施例的场景中可能也被利用。当在此所描述的、作为处理相同的关键词数据集合的多种启发式函数被提出时,应该注意的是,其他函数可能被使用以对被减少的或其他被处理的关键词数据集合进行操作。
以下符号被使用:
n(i,j)为在与节点j相关的文档中的关键词ki出现的数量。
u(i,j)被设置为1,如果关键词ki出现在与节点j相关的文档中;否则,其被设置为0。
wj:是在自有页面和节点j之间的链接的权重。
当关键词列表被接收到时(即,在图3方法300的步骤360中,列表被提供),方法500进入步骤510。
在可选步骤520中,计数函数被应用于每个关键词。参照方框525,计数函数C被下述关系所定义:
C(i,j)=n(i,j)。
在可选步骤530中,唯一计数函数被应用于每个关键词。参照方框535,唯一计数函数UC被下述关系所定义:
UC(i,j)=u(i,j)
在可选步骤540中,加权唯一计数函数被应用于每个关键词。参照方框545,该加权唯一计数函数UC被下述关系所定义:
WUC(i,j)=wj*u(i,j)。
在步骤550中,对每个关键词ki,使用计数、唯一计数和/或加权唯一计数启发式函数,执行计算以获得分数。
在步骤560中,排序前M位的关键词被选择,以作为与一个被处理的网页(例如,一个自有网页)相关的关键词集合的成员。也就是说,接着,关键词集合基于关键词分数被分类,同时,排序前M位的关键词被选择,以作为自有节点的代表性关键词集合。
在可选步骤570中,对关键词的排序,在前M位关键词ki中,利用(参照方框575)总和(Sum)、最大(Max)、投票(Vote)函数和/或其他综合计分函数中的一个或多个,来进一步修正。通常来说,该等和/或其他综合计分函数或启发式函数可能被应用于由一个或多个启发式函数处理的初始关键词集合或关键词集合。该总和、最大和投票综合计分函数为已排序关键词集合,通过如下启发式函数排序处理,提供了额外的排序调整:
Sum(i)=rank(score(i,C))+rank(score(i,UC));
Max(i)=max(rank(score(i,C)),rank(score(i,UC)));和
Vote(i)=majority vote of score(i,C)and score(i,UC)。
在一个实施例中,上述说明的综合计分函数为函数“score(i,h)”使用如下公式:
score ( i , h ) = α · h ( i , self ) + β · Σ d j ∈ inlinks h ( i , j ) + χ · Σ d j ∈ outlinks h ( i , j )
其中,在考量中,i代表关键词,h是启发式函数,a是为自有节点分配的权重(其可能与如上说明的w0相同或不同),β是为内链相关关键词分配的权重,χ是为外链相关关键词分配的权重,且h(i,j)是与节点j相关的文档中的关键词i的启发式函数结果。
要注意的是,该公式预期为所有自有节点相关关键词分配第一权重a,为所有内链相关关键词分配第二权重β,且为所有外链关键词分配第三权重χ。然而,该公式可能会被更改,以使在自有、内链和/或外链关键词集合中的不同关键词可能被分配不同权重值。
在一个实施例中,在相应的关键词集合的场景中,关键词的相对重要度或相对值利用启发式函数中的一个或多个来确定。因此,示出较大的计数C、唯一计数UC和/或加权唯一计数WUC的关键词,可能被视为其价值是比其他关键词相对更加重要的。
在一个实施例中,为关键词分配的权重包括与在自有、内链和外链关键词集合的每个集合中的该关键词相关的启发法总和。例如,如果词“汽车”在自有页面中出现5次,在内链页面中出现10次且在外链页面中出现1次,则“汽车”被分配的权重为16(即,5+10+1)。
图6描绘了一个适用于执行在此描述的功能的通用目的计算机的高级框图。如图6中所描绘的,系统600包含处理器元素602(例如,中央处理单元(CPU)),存储器604,例如随机存取存储器(RAM)和/或只读存储器(ROM),描述符号管理模块(descriptor managementmodule)605,和多种输入/输出设备606(例如,存储设备,包括但不限制于,磁带驱动器,软盘驱动器,硬盘驱动器或光盘驱动器,接收器,发射器,扬声器,显示器,输出端口,和用户输入设备(例如,键盘,小型键盘,鼠标及类似设备))。
要注意的是,本发明可能会在软件和/或软件与硬件的组合体中被实施,例如,使用专用集成电路(ASIC),通用目的计算机或任何其他类似硬件设备。在一个实施例中,现有描述符号管理程序605可以被加载到存储器604中,并被处理器602执行以实现上文所述功能。同样地,本发明的描述符号管理程序605(包括相关的数据结构)可以被存储到计算机可读媒介或载体中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。
在此作为软件方法被说明的一些步骤被预期能够在硬件中实现,例如,作为与处理器配合从而执行各种方法步骤的电路。本发明的一部分可能被应用以作为计算机程序产品,其中,计算机指令,当其被计算机处理时,适应该计算机的操作,从而使本发明的方法和/或技术被调用或被提供。调用本发明的方法的指令,可能被存储在固定的或可移动的媒介中,通过广播或其他信号承载媒质中的数据流被传输,和/或被存储在根据该指令运行的计算设备的工作存储器中。因此,一个实施例包括一个装置,该装置包括用于储存软件指令的存储器和用于执行软件指令的处理器,其中,当该软件指令被该处理器执行时,触发该装置运行基于在此说明的多个实施例的、为网页分配关键词的方法。
如在此所述的,为网页分配关键词是一个非常重要的问题,在用户配置文件生成、网址分类和过滤(如WebSense),搜索引擎(如谷歌),关键词搜索(如AdSense)等的场景中寻找适用性。上述实施例为关键词分配提供了新的方法、系统和设备,所述关键词分配利用与多个网页相关的数据、元数据等,从而为网页分配了一个典型的关键词集合。有利地,当仅仅页面的元数据被分析而其内容被忽略时,该等实施例提供了一个相对轻量级权重(计算高效及存储高效)的方法。由于关键词不仅是从自有页面中获得,而且也从其“邻居”页面中获得,因此本技术是可靠的。
计算有效地实施例
例如,根据本发明的一个实施例,凯利蓝皮书(Kelley BlueBookTM)汽车评估网站页面(www.kbb.com)被评估,从而生成了在下述表格1中以表格形式提供的关键词分配数据。具体地,根据参照图3-5的实施例来被处理的前10位(如,M=10)的关键词,参照下述表格1被提供。被多个处理过程使用的原始数据也在下述表格中被提供。在示例中使用的参数如下所示:
URL:www.kbb.com。
权重:自有=10;外链=2;内链=1。
内链源:雅虎(其也可为谷歌、必应(Bing)、服务提供商的爬虫和/或其他搜索引擎或爬虫)。
排序结果的前10位关键词(在本示例中超过239个),参照下表1被提供。
Figure BPA00001499075700151
Figure BPA00001499075700161
从自有、外链及内链页面中提取的关键词列表被提供,如下所示(为简明起见,列表仅限于3个外链和3个内链):
自有(http://www.kbb.com)
新汽车,已使用汽车,蓝皮书价格&汽车价格-凯利蓝皮书
○URL:http://www.kbb.com
○标题:[‘新’,‘汽车’,‘新汽车’,‘已使用汽车’,‘蓝’,‘蓝皮书’,‘书’,‘价格’,‘蓝皮书价格’,‘汽车’,‘价值’,‘汽车价值’,‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘凯利蓝皮书’]
○元关键词:[‘汽车’,‘汽车’,‘新’,‘汽车’,‘新汽车’,‘已使用汽车’,‘车’,‘车’,‘自动’,‘汽车’,‘汽车’,‘蓝’,‘蓝皮书’,‘书’,‘书价值’,‘价值’,‘价值’,‘蓝皮书价值’,‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘凯利蓝皮书’,‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘凯利蓝皮书’,‘kbb’]
○元描述:[‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘信任’,‘来源’,‘价格’,‘价值’,‘回顾’,‘新’,‘车’,‘使用’,‘汽车’,‘买’,‘卖’,‘汽车’,‘访问’,‘访问kbb.com’]
外链
1.凯利蓝皮书
○URL:http://www.kbb.com/kbb/search/searchresult.aspx
○标题:[‘凯利’,‘蓝’,‘蓝皮书’,‘书’]
○元关键词:[]
○元描述:[]
2.新汽车-新汽车价格&回顾-凯利蓝皮书
○URL:http://www.kbb.com/kbb/NewCars
○重定向:http://www.kbb.com/kbb/NewCars
○标题:[‘新’,‘汽车’,‘新汽车’,‘新’,‘汽车’,‘价格’,‘新汽车价格’,‘回顾’,‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘凯利蓝皮书’]
○元关键词:[‘新’,‘汽车’,‘新汽车’,‘新’,‘汽车’,‘价格’,‘新汽车价格’,‘汽车’,‘价格’,‘汽车价格’,‘新’,‘汽车’,‘出价’,‘新汽车出价’,‘新’,‘汽车’,‘价格’,‘新汽车价格’,‘汽车’,‘价格’,‘汽车价格’,‘车’,‘价格’,‘车价格’,‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘凯利蓝皮书’,‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘凯利蓝皮书’,‘kbb’]
○元描述:[‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘信任’,‘来源’,‘新’,‘车’,‘价格’,‘研究’,‘比较’,‘新’,‘汽车’,‘出价’,‘阅读’,‘回顾’,‘阅读回顾’,‘等级’,‘浏览’,‘视频’‘本地’,‘经销商’]
3.已使用汽车-已使用汽车价格,已使用汽车价值&回顾-凯利蓝皮书
○URL:http://www.kbb.com/kbb/UsedCars
○重定向:http://www.kbb.com/kbb/UsedCars
○标题:[‘已使用汽车’,‘使用’,‘已使用汽车’,‘汽车’,‘价格,,‘已使用汽车价格’,‘使用’,‘已使用汽车’,‘汽车’,‘价值’,‘已使用汽车价值’,‘回顾’,‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘凯利蓝皮书’]
○元关键词:[‘已使用汽车’,‘已使用汽车’,‘使用’,‘车’,‘已使用车’,‘使用’,‘车’,‘已使用车’,‘使用’,‘已使用汽车’,‘汽车’,‘价格’,‘已使用汽车价格’,‘蓝’,‘蓝皮书’,‘书’,‘书价值’,‘价值’,‘蓝皮书价值’,‘使用’,‘已使用汽车’,‘汽车’,‘出价’,‘已使用汽车出价’,‘使用’,‘已使用汽车’,‘汽车’,‘价值’,‘已使用汽车价值’,‘使用’,‘已使用汽车’,‘汽车’,‘价值’,‘已使用汽车价值’,‘汽车’,‘值’,‘汽车’,‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘凯利蓝皮书’,‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘凯利蓝皮书’,‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘凯利蓝皮书’]
○元描述:[‘凯利’,‘蓝’,‘蓝皮书’,‘书’,‘信任’,‘来源’,‘使用’,‘已使用汽车’,‘汽车’,‘价格’,‘价值’,‘研究’,‘最近’,‘蓝’,‘蓝皮书’,‘书’,‘使用’,‘已使用汽车’,‘汽车’,‘价值’,‘阅读’,‘回顾’]
内链
1.参考,事实,新闻-免费和家庭友好的来源-Refdesk.com
○URL:http://www.refdesk.com
○标题:[‘参考’,‘事实’,‘新闻’,‘免费’,‘家庭友好的’,‘来源’]
○元关键词:[‘参考’,‘事实’,‘新闻’,‘家庭’,‘友好的’,‘家庭友好的’,‘refdesk’]
○元描述:[‘refdesk’,‘免费’,‘家庭’,‘友好的’,‘网络’,‘网站’,‘站’,‘索引’,‘回顾’,‘质量’,‘可靠的’,‘现在的’,‘基于网络的’,‘参考’,‘来源’]
2.CEo快讯:由忙碌的执行者为执行者设立的企业入口
○URL:http://www.ceoexpress.com/
○重定向:http://ceoexpress.com/default.asp
○标题:[‘ceo快讯’,‘企业’,‘入口’,‘执行者’,‘设立’,‘忙碌’,‘执行者’]
○元关键词:[‘企业’,‘链接’,‘企业链接’,‘ceo’,‘首席执行官’,‘高级’,‘执行者’,‘高级执行者’,‘ceo’,‘链接’,‘ceo链接’,‘企业’,‘入口’,‘企业入口’,‘企业’,‘名录’,‘企业名录’,‘小’,‘企业’,‘小企业名录’,‘ceo’,‘主页’,‘ceo主页’,‘cfo’,‘入口’,‘cfo入口’,‘cfo’,‘链接’,‘cfo链接’,‘cio’,‘入口’,‘cio入口’,‘cio’,‘链接’,‘cio链接’,‘国际’,‘企业’,‘入口’,‘国际企业入口’,‘首席-等级’]
○元描述:[‘ceoexpress’,‘企业’,‘入口’,‘执行者’,‘设立’,‘ceo’]
3.自动担保:延长保修网上报价
○URL:http://www.warrantyheadquarters.com/
○标题:[‘自动’,‘担保’,‘自动担保’,‘延长’,‘担保’,‘开价’,‘在线’]
○元关键词:[‘自动’,‘担保’,‘自动担保’,‘自动’,‘担保’,‘研究’,‘自动担保研究’,‘延长’,‘担保’,‘延长担保’,‘车’,‘维修’,‘车维修’,‘承保范围’‘计划’,‘承保范围计划’,‘承保范围’,‘汽车’]
○元描述:[‘自动’,‘担保’,‘自动担保’,‘接收’,‘延长’,‘自动’,‘担保’,‘开价’,‘立即’,‘有’,‘提供’,‘个人’,‘信息’,‘折扣’,‘出价’,‘极好’,‘服务’]
当前述内容针对本发明的多个实施例时,在不背离基本范围内,本发明的其他和进一步的实施例可能被提出。其中,根据下述权项,本发明的合适范围被确定。

Claims (8)

1.一种为网页分配关键词的方法,包括:
识别与所述网页相关的自有关键词、内链关键词、外链关键词,所述自有关键词、内链关键词和外链关键词包括独特关键词;
将任何在自有、内链、及外链关键词列表中出现的,由第一分隔标识分隔的一个或多个词,识别为潜在独特关键词;
将代表有效短语的所述潜在独特关键词包含至为所述网页设置的所述关键词集合中,其中,拼写引擎、语法引擎和搜索引擎中的任一个被用于确定一个潜在独特关键词是否代表有效短语;以及
合并所述自有、内链和外链独特关键词,为所述网页形成关键词集合;
其中,被识别的关键词数据包括来自标题字段、元关键词字段和元描述字段之一个或多个的数据。
2.权利要求1的所述方法,还包括:
处理所述自有、内链和外链关键词集合,以提供所述自有、内链和外链关键词相应的有序排序集合。
3.权利要求2的所述方法,还包括:
利用一个或多个启发式函数,确定所述自有、内链和外链关键词集合中每个关键词的相对重要度。
4.权利要求2的所述方法,还包括:
为所述自有、内链及外链关键词分配权重;
其中,所述合并步骤包括根据所述关键词权重来合并所述自有、内链及外链关键词。
5.权利要求1的所述方法,还包括:
将任何在所述自有、内链、及外链关键词列表中出现的N个相邻的被空格分隔的词,识别为潜在独特关键词,其中,N是一个大于一的整数;以及
将代表有效短语的所述潜在独特关键词包含至为所述网页设置的所述关键词集合中。
6.权利要求3的所述方法,其中,所述内链和外链关键词中的每个根据相应源网页的排名来被分配权重,所述源网页排名采用搜索引擎来被确定。
7.权利要求1的所述方法,其中,所述内链关键词网页通过采用网页爬虫和搜索引擎中的一个或多个来被识别。
8.一种用于为网页分配关键词的设备,包括:
用于识别与所述网页相关的自有关键词、内链关键词、外链关键词的装置,所述自有关键词、内链关键词和外链关键词包括独特关键词;
用于将任何在自有、内链、及外链关键词列表中出现的,由第一分隔标识分隔的一个或多个词,识别为潜在独特关键词的装置;
用于将代表有效短语的所述潜在独特关键词包含至为所述网页设置的所述关键词集合中的装置,其中,拼写引擎、语法引擎和搜索引擎中的任一个被用于确定一个潜在独特关键词是否代表有效短语;以及
用于合并所述自有、内链和外链独特关键词,为所述网页形成关键词集合的装置;
其中,被识别的关键词数据包括来自标题字段、元关键词字段和元描述字段之一个或多个的数据。
CN201080034039.5A 2009-07-30 2010-07-20 为网页分配关键词 Expired - Fee Related CN102473190B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/512,702 2009-07-30
US12/512,702 US8959091B2 (en) 2009-07-30 2009-07-30 Keyword assignment to a web page
PCT/US2010/042496 WO2011014381A1 (en) 2009-07-30 2010-07-20 Keyword assignment to a web page

Publications (2)

Publication Number Publication Date
CN102473190A CN102473190A (zh) 2012-05-23
CN102473190B true CN102473190B (zh) 2014-06-04

Family

ID=42556473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080034039.5A Expired - Fee Related CN102473190B (zh) 2009-07-30 2010-07-20 为网页分配关键词

Country Status (6)

Country Link
US (1) US8959091B2 (zh)
EP (1) EP2460095A1 (zh)
JP (1) JP5438218B2 (zh)
KR (1) KR101315554B1 (zh)
CN (1) CN102473190B (zh)
WO (1) WO2011014381A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066359A1 (en) * 2010-09-09 2012-03-15 Freeman Erik S Method and system for evaluating link-hosting webpages
JP5786458B2 (ja) * 2011-05-30 2015-09-30 富士通株式会社 キーワード抽出及びウエブコンテンツアクセス情報の収集装置
US8793252B2 (en) * 2011-09-23 2014-07-29 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation using dynamically-derived topics
US9613135B2 (en) 2011-09-23 2017-04-04 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation of information objects
KR20130065802A (ko) * 2011-11-30 2013-06-20 삼성전자주식회사 키워드를 이용한 애플리케이션 추천 시스템 및 방법
US20130238470A1 (en) * 2012-03-07 2013-09-12 Z:Wordz, LLC Substituting a user-defined word set in place of a formatted network resource address
US9159067B1 (en) * 2012-06-22 2015-10-13 Google Inc. Providing content
US20140031693A1 (en) * 2012-07-26 2014-01-30 Interson Corporation Portable ultrasonic imaging probe including transducer array
CN103870446B (zh) * 2012-12-18 2016-12-28 阿里巴巴集团控股有限公司 一种描述词筛选方法及装置
US9621662B1 (en) * 2013-03-04 2017-04-11 Yelp Inc. Surfacing relevant reviews
US9734174B1 (en) 2013-06-28 2017-08-15 Google Inc. Interactive management of distributed objects
RU2530671C1 (ru) * 2013-07-24 2014-10-10 Общество С Ограниченной Ответственностью "Балакам" Способ проверки веб-страниц на содержание в них целевого аудио и/или видео (av) контента реального времени
US11257115B2 (en) 2014-09-02 2022-02-22 Gil Emanuel Fuchs Providing additional digital content or advertising based on analysis of specific interest in the digital content being viewed
EP3250037A4 (en) * 2015-01-16 2018-06-20 The Board of Regents of The University of Texas System Compositions and methods for creating pancreatic cancer animal model
CN104965918B (zh) * 2015-07-06 2018-09-25 无锡天脉聚源传媒科技有限公司 一种基于查询关键词的搜索方法和装置
US10261971B2 (en) 2016-05-25 2019-04-16 Microsoft Technology Licensing, Llc Partitioning links to JSERPs amongst keywords in a manner that maximizes combined improvement in respective ranks of JSERPs represented by respective keywords
US10430427B2 (en) * 2016-05-25 2019-10-01 Microsoft Technology Licensing, Llc Partitioning links to JSERPs amongst keywords in a manner that maximizes combined weighted gain in a metric associated with events of certain type observed in the on-line social network system with respect to JSERPs represented by keywords
CN107545020A (zh) * 2017-05-10 2018-01-05 新华三信息安全技术有限公司 一种网页分类的确定方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1227657A (zh) * 1996-06-28 1999-09-01 微软公司 采用基于字典的词类概率的自然语言语法分析程序
CN1519752A (zh) * 2003-01-20 2004-08-11 黄致辉 一种自然语言语法分析器及其方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
WO1999014690A1 (fr) * 1997-09-17 1999-03-25 Hitachi, Ltd. Procede d'addition d'un mot cle au moyen d'informations de liaison
US6728752B1 (en) * 1999-01-26 2004-04-27 Xerox Corporation System and method for information browsing using multi-modal features
US6651059B1 (en) * 1999-11-15 2003-11-18 International Business Machines Corporation System and method for the automatic recognition of relevant terms by mining link annotations
US6862586B1 (en) * 2000-02-11 2005-03-01 International Business Machines Corporation Searching databases that identifying group documents forming high-dimensional torus geometric k-means clustering, ranking, summarizing based on vector triplets
US6895406B2 (en) * 2000-08-25 2005-05-17 Seaseer R&D, Llc Dynamic personalization method of creating personalized user profiles for searching a database of information
US6684205B1 (en) 2000-10-18 2004-01-27 International Business Machines Corporation Clustering hypertext with applications to web searching
JP2002245089A (ja) * 2001-02-19 2002-08-30 Hitachi Eng Co Ltd ウェブページ検索システム、二次情報収集装置、インターフェース装置
US20030221163A1 (en) 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
CA2387451A1 (en) * 2002-05-24 2003-11-24 Petr Hejl Virtual friend with special features
JP4423841B2 (ja) 2002-08-14 2010-03-03 日本電気株式会社 キーワード決定装置、決定方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7516397B2 (en) * 2004-07-28 2009-04-07 International Business Machines Corporation Methods, apparatus and computer programs for characterizing web resources
US7222288B2 (en) * 2004-07-30 2007-05-22 Hellosoft, Inc. Modified soft output Viterbi algorithm for truncated trellis
US8078602B2 (en) * 2004-12-17 2011-12-13 Claria Innovations, Llc Search engine for a computer network
US7810035B2 (en) * 2004-10-15 2010-10-05 Microsoft Corporation Browsing web content using predictive navigation links
JP4940606B2 (ja) 2005-09-22 2012-05-30 富士ゼロックス株式会社 翻訳システム、翻訳装置、翻訳方法及びプログラム
US7814098B2 (en) * 2006-06-14 2010-10-12 Yakov Kamen Method and apparatus for keyword mass generation
US7664740B2 (en) * 2006-06-26 2010-02-16 Microsoft Corporation Automatically displaying keywords and other supplemental information
CN100520778C (zh) * 2006-07-25 2009-07-29 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
US8661035B2 (en) * 2006-12-29 2014-02-25 International Business Machines Corporation Content management system and method
US8166045B1 (en) * 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8166021B1 (en) * 2007-03-30 2012-04-24 Google Inc. Query phrasification
US20110225019A1 (en) * 2008-10-14 2011-09-15 David Taylor Search, analysis and categorization
US20100131563A1 (en) * 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1227657A (zh) * 1996-06-28 1999-09-01 微软公司 采用基于字典的词类概率的自然语言语法分析程序
CN1519752A (zh) * 2003-01-20 2004-08-11 黄致辉 一种自然语言语法分析器及其方法

Also Published As

Publication number Publication date
US8959091B2 (en) 2015-02-17
WO2011014381A1 (en) 2011-02-03
KR101315554B1 (ko) 2013-10-10
JP5438218B2 (ja) 2014-03-12
CN102473190A (zh) 2012-05-23
EP2460095A1 (en) 2012-06-06
KR20120087881A (ko) 2012-08-07
US20110029511A1 (en) 2011-02-03
JP2013500541A (ja) 2013-01-07

Similar Documents

Publication Publication Date Title
CN102473190B (zh) 为网页分配关键词
Garimella et al. Quantifying controversy on social media
US20210109954A1 (en) Deep learning-based two-phase clustering algorithm
Wan et al. Aminer: Search and mining of academic social networks
Das et al. Text mining and topic modeling of compendiums of papers from transportation research board annual meetings
US7676465B2 (en) Techniques for clustering structurally similar web pages based on page features
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
US8185530B2 (en) Method and system for web document clustering
Wang et al. Product weakness finder: an opinion-aware system through sentiment analysis
US20080010291A1 (en) Techniques for clustering structurally similar web pages
US20090083266A1 (en) Techniques for tokenizing urls
Alassi et al. Effectiveness of template detection on noise reduction and websites summarization
Zhang et al. Relevance estimation with multiple information sources on search engine result pages
Uma et al. Noise elimination from web pages for efficacious information retrieval
Wahsheh et al. A link and content hybrid approach for Arabic web spam detection
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
Guha Related Fact Checks: a tool for combating fake news
Vidya et al. Web mining-concepts and application
Varlamis et al. An automatic wrapper generation process for large scale crawling of news websites
Moumtzidou et al. Discovery of environmental nodes in the web
Cao et al. Extraction of informative blocks from web pages
CN110083760A (zh) 一种基于可视块的多记录型动态网页信息提取方法
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
Brefeld et al. Document assignment in multi-site search engines
KR20180111646A (ko) 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140604

Termination date: 20180720

CF01 Termination of patent right due to non-payment of annual fee