CN102693272B - 从统一资源定位符(url)的关键字提取 - Google Patents

从统一资源定位符(url)的关键字提取 Download PDF

Info

Publication number
CN102693272B
CN102693272B CN201210067044.7A CN201210067044A CN102693272B CN 102693272 B CN102693272 B CN 102693272B CN 201210067044 A CN201210067044 A CN 201210067044A CN 102693272 B CN102693272 B CN 102693272B
Authority
CN
China
Prior art keywords
keyword
url
section
controlled vocabulary
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210067044.7A
Other languages
English (en)
Other versions
CN102693272A (zh
Inventor
S·R·维西拉祖
U·R·尤杜帕
A·N·博伊
G·达萨
W·刘
Q·肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN102693272A publication Critical patent/CN102693272A/zh
Application granted granted Critical
Publication of CN102693272B publication Critical patent/CN102693272B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及从统一资源定位符(URL)中的关键字提取。本文所描述的关键字提取技术从web日志中的统一资源定位符(URL)中提取关键字。该技术充分利用URL的内容和结构来提取相关关键字。首先,URL基于其结构被分成多个分量。在受控词汇的帮助下,单独地从URL的每个分量中提取一组关键字。随后通过从URL的不同段中形成项的组合来生成第二组关键字。仅保留在可控词汇中存在的那些组合作为关键字。最后,用将广泛的一组特征考虑在内的一函数来对这些关键字打分。

Description

从统一资源定位符(URL)的关键字提取
技术领域
本发明涉及URL,尤其涉及URL中的关键字提取。
背景技术
在计算中,统一资源定位符(URL)是指定所标识的资源在哪里可用并提供一种用于检索该可用资源的机制的统一资源标识符(URI)。例如,URL可以是由主存网页的网站的创建者给予网页的唯一身份。URL以标准格式来定义,该标准格式通常指定方案或协议、域名或网际协议(IP)地址、要取得资源的路径或要运行的程序、查询串以及可任选的片段标识符。URL越来越多地包含与这些URL所对应的网页的话题高度相关的经压缩的文本。在许多应用中,它们可被视为关于网页的话题的有价值的信息源。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
本文描述的关键字提取技术从web日志(例如,通常以逆时间顺序包含用户所请求的一系列URL条目的服务器日志)中的URL中提取关键字。该技术充分利用URL的内容和结构来提取相关关键字。在一个实施例中,URL首先基于其结构被分成多个分量。在受控词汇的帮助下,单独地从URL的每个分量中提取一组关键字。通过从URL的不同段中形成项的组合来生成第二组关键字。仅保留在可控词汇中出现的那些组合作为关键字。最后,用将广泛的一组特征考虑在内的一函数来对这些关键字打分。
附图说明
参考以下描述、所附权利要求书以及附图,将更好地理解本发明的具体特征、方面和优点,附图中:
图1描绘了本文所描述的关键字提取技术的示例性过程的流程图。
图2描绘了本文所描述的关键字提取技术的另一示例性过程的流程图。
图3是用于实践本文所描述的关键字提取技术的一个示例性实施例的示例性体系结构。
图4是可用于实践关键字提取技术的示例性计算环境的示意图。
具体实施方式
在以下对关键字提取技术的描述中,对附图作出参考,附图形成了该描述的一部分,且作为可实践本文所描述的关键字提取技术的说明性示例示出。可以理解,可以利用其他实施例,并且可以作出结构上的改变而不背离所要求保护的主题的范围。
1.0关键字提取技术
以下章节提供了关键字提取技术的概览、以及用于实践本技术的示例性过程和示例性体系结构。还提供了关键字提取技术的各实施例的细节。
1.1技术概览
本文所描述的关键字提取技术从URL中提取关键字。该技术使用URL的内容和结构来提取相关关键字。这些关键字随后可在各应用中使用,诸如例如在线广告和在线内容过滤。
1.2URL结构
因为本发明的关键字提取技术在提取关键字时使用URL结构,所以对URL结构的一些解释是有用的。URL的格式基于Unix文件路径句法,其中使用正斜杠来隔开目录或文件夹以及文件或资源名。每一个URL都由以下各项中的某些项组成:scheme name(方案名,通常被称为协议)、之后是冒号、随后取决于该方案是domain name(域名,可另选地,网际协议(IP)地址)、port number(端口号)、要取得资源的path(路径)或要运行的程序、querystring(查询串)以及可任选的fragment identifier(片段标识符)。句法是scheme://domain:port/path?query_string#fragment_id。本文所描述的关键字提取技术使用这一URL格式来提取网页的关键字,该关键字可用于各种应用。并不需要下载网页以提取对应于所提取的关键字的网页的关键字。这提供了极高的计算效率。
1.3示例性过程
图1描绘了用于从URL中提取关键字的示例性计算机实现的过程。如图1所示,框102,标识URL的各分量。更具体地,在关键字提取技术的一个实施例中,URL被分成授权机构(authority)、路径(path)、查询(query)和片段(fragment)分量。
所标识的分量随后被拆分成各段,如框104中所示。例如,授权机构分量通过丢弃授权机构分量的协议字段和扩展字段而被拆分成各段;而路径分量通过丢弃与该URL所对应的网页的话题不相关的所有字段而被拆分成各段。查询分量通过提取查询字段中的键-值对而被拆分成各段;以及片段分量通过提取片段字段而被拆分成各段。在本文档的下文中将更详细地讨论关键字的分段。
随后通过对各段执行文本分段来将URL文本转换成自然语言项来处理这些段,如框106中所示。例如,在一个实施例中,这通过用空格来替换URL文本中的每个定界符以创建项来完成;并且随后拆分通常在URL中找到的项。
随后基于受控词汇从各段项中提取第一组关键字,如框108中所示。各段中匹配受控词汇的项被保留以属于第一组关键字。受控词汇是可从任何URL中提取的有效项和短语的大的列表。基于受控词汇通过从URL中的与用来生成第一组关键字的段不同的段中形成项的组合来生成第二组关键字,如框110中所示。在该技术的一个实施例中,通过以下方式来提取这第二组关键字:通过从URL的段对中各取出一关键字并串接来自每一个段对中的关键字来组合URL的段对以生成候选关键字组合,并且随后对照受控词汇来验证候选关键字组合。在受控词汇中找到的候选关键字组合被提取为关键字而那些未被找到的则被排除。从URL中提取的关键字还可任选地通过使用外部知识源来扩展。例如,通过使用语义映射,“travel(旅游)”可被扩展至“trip(旅行)”和“tour(观光)”。
如框112中所示,随后基于一组特征对第一和第二组关键字的相关性打分,并且按相关性的顺序输出经打分的关键字(框114)。在关键字提取技术的一个实施例中,基于每一关键字的父段的位置、关键字的长度以及父段的长度对关键字打分。
输出关键字随后可在各种应用中使用,如框116中所示。例如,所提取的关键字可用于将网页上的关键字与广告客户提供的与广告有关的关键字进行匹配,以便将特定类型的广告定向到特定类型的网站。应该注意,不必下载网页以从给定的网页中提取关键字。可另选地,所提取的关键字可用于内容过滤,例如通过将从网页提取的关键字与令人讨厌的项或短语列表进行匹配以过滤诸如色情之类的内容。所提取的关键字还可用于通过将所提取的网页关键字与搜索查询项进行匹配的搜索应用。
图2描绘了根据本发明的技术的用于从URL中提取关键字的另一示例性计算机实现的过程200。图2提供了这一示例性过程的一般过程动作。关于这些过程动作的更多细节将在本文档中的下文中提供。
如图2所示,框202,网页的URL被分成授权机构、路径、查询和片段4个预定义URL分量。各分量基于特定定界符和试探性观察被分开地令牌化以获得各段,如框204中所示。如框206中所示,对各段执行文本分段以将URL的文本转换成自然语言项,并基于受控词汇从各段项中提取第一组关键字。如框208中所示,通过从URL中与用于提取第一组关键字的段不同的段中形成项的组合并且提取在受控词汇中的项的组合作为第二组关键字来生成第二组关键字。
随后基于相关性对这些第一和第二组关键字打分以输出经排序的一组经打分的关键字,如框210中所示。各种打分技术可用于此目的。该技术还可通过使用外部知识源来通过将关键字映射到其他在语义上等价或相关的字和短语来提供关键字扩展从而生成附加的关键字。
1.4示例性体系结构
图3示出了用于采用关键字提取技术的示例性体系结构300。如图3所示,该示例性体系结构300包括驻留在通用计算设备400上的关键字提取模块302,这将参照图4更详细地予以讨论。URL 304是输入。分量划分模块306基于URL结构将URL 304分成多个分量308。这一组分量308在分段模块310中被分段,并且各段在语言处理模块312中被转换成自然语言语音项314。随后使用受控词汇(框320)在第一关键字提取模块(框316)中单独地从URL的每个分量中提取第一组关键字318。还在第二关键字提取模块(框322)中通过从URL中的与用于提取第一组关键字的段不同的段中形成项的组合324并且只保留在受控词汇(框320)中存在的关键字来提取第二组关键字(框326)。随后在打分模块(框328)中对第一和第二关键字316、326打分。在关键字提取技术的一个实施例中,基于在URL中的从中提取这些关键字的位置对关键字打分。经打分的关键字330随后被输出以用于一个或多个应用。
在下一章节中将讨论这一体系结构的各方面的细节。
1.5关键字提取技术的示例性实施例的细节
已经讨论了示例性过程和示例性体系结构,以下章节提供关键字提取技术的各实施例的细节。
1.5.1URL解析
URL解析是关键字提取中的第一步骤之一,其中保留URL中含信息量的部分并跳过含噪声的文本。这通过充分利用URL的结构来实现。如前文所讨论的,URL一般包含四个重要的分量:授权机构、路径、查询和片段。在以下段落中更详细地讨论一般的从URL中提取分量。所提取的分量中的每一个被进一步解析成各段。
1.5.1.1授权机构:
授权机构是每个URL中的必要分量。它给出了其上主存表示该URL的页面的服务器的名称。授权机构可包含多个部分,诸如由点分开的协议、主机名、域。授权机构总是以诸如“http”、“https”之类的协议开始。同样,授权机构中的最后一个部分采用“com”、“net”、“us”、“org”等值之一,该值广泛地指示网站的种类并且通常在寻找相关关键字时并非是有用的。该技术丢弃URL的协议和最后一个部分,并且保留剩余部分作为来自这一分量的段。例如,http://realestate.msn.com具有段“realestate(房地产)”和“msn”。
1.5.1.2路径:
URL可包含路径字段,该路径字段包含到要取得资源的路径。路径字段在URL中的授权机构之后,并且可包含由“/”分开的目录列表。这些目录可表示对应于该URL的页面所属的类别。有时候,目录可包含如“content(内容)”之类的不含信息量的文本或不与页面的话题相关的一系列数字。这些目录被忽略,而其余目录构成这一分量的段。例如,如果文本太概括(即,“content(内容)”、“file(文件)”)或不具有信息量(即,“123”、“a”),则这些目录可被忽略。
1.5.1.3查询:
有时候,URL指向诸如搜索引擎和通用网关接口(CGI)脚本之类的web应用。查询字段是作为输入被发送到这些程序的查询串。查询字段在URL中的路径之后以“?”开始。查询字段包含具有定界符“;”、“&”等的键-值对。键-值对是一组两个链接的数据项:键,是某一数据项的唯一标识符;以及值,或是被标识的数据或是指向该数据的位置的指针。例如,city=”las vegas”&show=”cirque du soleil”意思是Cirque du Solei表演在LasVegas城。查询串中的键-值对被保留为来自这一分量的段。取决于应用,某些键可变得重要而另外一些键可变为噪声。
1.5.1.4片段:
片段字段是出现在URL末端在井号”#”之后的HTML锚。片段字段被保留为来自这一分量的段。
从四个逻辑分量中导出的所有段形成了关键字提取技术对其进行操作的基本单元。
1.5.2受控词汇
难以从URL中未结构化的文本中找到短语边界,因为不存在关于文本应当如何出现的规则。诸如名称实体识别程序(NER)、部分语音(POS)标签程序之类的用于短语标识的现有的自然语言处理(NLP)工具无法在此处应用,因为它们是在自然语言文本的自由流程上训练的。为克服这一挑战,关键字提取技术利用受控词汇来标识URL中的有效短语。
一般地,受控词汇是可从任何URL中提取的有效短语的大的列表。受控词汇的本质和大小可取决于关键字所用于的应用而改变。例如,一般话题标识系统可使用从Wikipedia(维基百科)话题中导出的一般话题列表作为受控词汇。用于广告的关键字提取系统可使用成百万的广告投标短语的列表作为受控词汇。
1.5.3文本分段
在关键字提取之前,需要附加的过程来将经分段的URL文本转换成自然语言文本。在一个实施例中,用空格替换诸如“-”或“_”之类的定界符,并且拆分在URL中通常找到的附加项。例如,“savinganddebt”将被拆分成“savings and debt(存款和债务)”。
为优化经拆分的项的相关性,首先检查每一个经拆分的项以查看它是否存在于受控词汇中。如果不存在,则该技术试图搜索在受控词汇中存在的有效拆分。如下以迭代的方式来执行项拆分。
1)再引入一个空格到项中(例如,这可以通过以迭代方式来反复试用直到在受控词汇中找到匹配来完成)。
2)生成具有新的空格的所有可能的字的拆分。
3)如果找到一个有效拆分,则返回有效拆分的项。
4)如果找到一个以上的有效拆分,则对于每一个有效拆分,计算受控词汇中的个别词的频率总和并返回具有最大总和的有效拆分的项。
1.5.4关键字提取
在文本分段之后,通过对照受控词汇扫描每一段来从该段中提取关键字。如果来自段的短语出现在受控词汇中,则它被指派为关键字。在关键字提取技术的一个实施例中,最初用最大的可能短语(4个字的长度)从左扫描每一个段。如果找到匹配,则将短语添加到关键字列表。否则,短语长度减少1项至3个字长度,并且该技术重复先前的步骤。这一过程被重复迭代,直到该技术找到受控词汇中的短语,或者该技术留下该段中的第一个字。随后,该技术移动至该段中的下一个字,并重复相同的过程来寻找可能是关键字的短语。
在一个实施例中,如果URL是搜索引擎结果页,则提取上述关键字以及附加关键字。从URL的查询分量中提取用户查询并将其作为单独的关键字输出,不管该查询是否存在于受控词汇中。
1.5.4关键字组合
由于URL中的有限量的文本,从URL中提取关键字并未得到许多关键字。所讨论的关键字提取过程关于提取第一组关键字的一个限制是:该技术仅从连续出现在URL同一段中的字中构建关键字。然而,通过从URL的不同段中组合项来生成相关关键字是可能的。为此,该技术实现以下动作。
第一,使用在对第一组关键字的提取步骤中说明的方法来从URL中的每一段中提取一组关键字。对于各段的每一对,通过从两个不同的段中各取一个关键字并串接这些关键字来形成候选关键字组合。对照受控词汇来验证这些候选组合,并且保留在受控词汇中出现的那些候选组合作为关键字并丢弃其他的候选组合。在先前的提取步骤中从各段中提取的最初的一组关键字以及从这一组合步骤中生成的关键字形成了URL的最终的一组关键字。
1.5.6智能扩展
在一个实施例中,该技术使用智能扩展来扩展从URL中提取的关键字。这一实施例使用外部知识源,该外部知识源提供关键字到相关扩展的映射。例如,专家可创建在语义上相关的项。在这样的映射中,“auto insurance(汽车保险)”可被映射到“car insurance(轿车保险)”。扩展可在以上讨论的关键字组合阶段期间使用。在生成最初的关键字集合之后,使用智能扩展来为每一集合中的所有关键字检索和添加附加的关键字。如在先前的章节中所描述的来对具有扩展的新的集合来执行其余的组合过程。
1.5.6相关性打分
在本技术的一个实施例中,基于关键字的父段的位置、关键字的长度以及父段的长度计算关键字的相关性分数。第一,基于每个关键字在URL中的位置,每个关键字被分配一个被称为等级的在0到10之间的值。等级值随着在URL中从左到右移动而增加。出现在授权机构中的关键字具有比来自查询的关键字低的等级(片段>查询>路径>授权机构)。使用父段的长度来归一化关键字k的等级。
其中k.len是关键字的长度,k.level是关键字的等级,而n是父段的长度。如果关键字是两个关键字k1和k2的组合,则关键字的等级可如下被归一化。
在0到10000的范围内计算关键字的最终相关性分数(Relevance Score)。它等于该URL可能的最大等级(MaxLevel)所归一化的关键字等级(KeyLevel)的1000倍。关键字的相关性分数由以下给出
取决于所提取的关键字所用于的应用,相关性分数可进一步与关键字的其他度量进行组合。这些度量可在生成受控词汇时获得。例如,在广告应用中,投标广告客户的数量,用户查看、点击的次数,转换或价格都可以是要使用的重要的度量。
1.5.6用从引用者URL中提取的关键字来捕捉用户意图
在某些应用中,每次用户访问网页时就提取关键字以推断用户意图。在这样的场景中,利用引用者URL以及网页的URL也是可能的。引用者URL是用户从其请求当前页面的先前的网页的URL。它给出了用户在其中访问当前页面的上下文。在关键字提取技术的一个实施例中,当引用者URL也与查询URL一起可用时,使用上文中说明的提取方法单独地从这两个URL中提取关键字。通过组合来自这两个URL的关键字来准备最终的关键字列表。如果关键字源白这两个URL,则具有最高得分的关键字被保留而其他关键字被忽略。
2.0示例性操作环境:
本文所描述的关键字提取技术可在多种类型的通用或专用计算系统环境或配置内操作。图4示出其上可实现本文所描述的关键字提取技术的各实施例和元素的通用计算机系统的简化示例。应当注意,图4中由折线或虚线所表示的任何框表示简化计算设备的替换实施方式,并且以下描述的这些替换实施方式中的任一个或全部可以结合贯穿本文所描述的其他替换实施方式来使用。
例如,图4示出了概括系统图,其示出简化计算设备400。这样的计算设备通常可以在具有至少一些最小计算能力的设备中找到,这些设备包括但不限于个人计算机、服务器计算机、手持式计算设备、膝上型或移动计算机、诸如蜂窝电话和PDA等通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、音频或视频媒体播放器等。
为允许设备实现关键字提取技术,该设备应当具有足够的计算能力和系统存储器以实现基本的计算操作。具体而言,如图4所示,计算能力一般由一个或多个处理单元410示出,并且还可包括一个或多个GPU 415,这两者中的任一个或全部与系统存储器420通信。注意,通用计算设备的处理单元410可以是专用微处理器,如DSP、VLIW、或其他微控制器、或可以是具有一个或多个处理核的常规CPU,包括多核CPU中的专用的基于GPU核。
另外,图4的简化计算设备还可包括其他组件,诸如例如通信接口430。图4的简化计算设备还可包括一个或多个常规计算机输入设备440(例如,定点设备、键盘、音频输入设备、视频输入设备、触觉输入设备、用于接收有线或无线数据传输的设备等)。图4的简化计算设备还可包括其他光学组件,诸如例如一个或多个常规计算机输出设备450(例如,显示设备455、音频输出设备、视频输出设备、用于传送有线或无线数据传输的设备等)。注意,通用计算机的典型的通信接口430、输入设备440、输出设备450、以及存储设备460对本领域技术人员而言是公知的,并且在此不会详细描述。
图4的简化计算设备还可包括各种计算机可读介质。计算机可读介质可以是可由计算机400经由存储设备460访问的任何可用介质,并且包括是可移动470和/或不可移动480的易失性和非易失性介质,该介质用于存储诸如计算机可读或计算机可执行指令、数据结构、程序模块或其他数据等信息。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括但不限于:计算机或机器可读介质或存储设备,诸如DVD、CD、软盘、磁带驱动器、硬盘驱动器、光盘驱动器、固态存储器设备、RAM、ROM、EEPROM、闪存或其他存储器技术、磁带盒、磁带、磁盘存储或其他磁存储设备、或可用于存储所需信息并且可由一个或多个计算设备访问的任何其他设备。
诸如计算机可读或计算机可执行指令、数据结构、程序模块等信息的存储还可通过使用各种上述通信介质中的任一种来编码一个或多个已调制数据信号或载波或其他传输机制或通信协议来实现,并且包括任何有线或无线信息传递机制。注意,术语“已调制数据信号”或“载波”一般指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。例如,通信介质包括诸如有线网络或直接线连接等携带一个或多个已调制数据信号的有线介质,以及诸如声学、RF、红外线、激光和其他无线介质等用于传送和/或接收一个或多个已调制数据信号或载波的无线介质。上述通信介质的任一组合也应包括在通信介质的范围之内。
此外,可以按计算机可执行指令或其他数据结构的形式存储、接收、传送或者从计算机或机器可读介质或存储设备和通信介质的任何所需组合中读取具体化本文所描述的关键字提取技术的各种实施方式中的部分或全部的软件、程序和/或计算机程序产品或其各部分。
最终,本文所描述的关键字提取技术还可在由计算设备执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本文描述的各实施例还可以在其中任务由通过一个或多个通信网络链接的一个或多个远程处理设备执行或者在该一个或多个设备的云中执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括媒体存储设备在内的本地和远程计算机存储介质中。此外,上述指令可以部分地或整体地作为可以包括或不包括处理器的硬件逻辑电路来实现。
还应当注意,可以按所需的任何组合来使用此处所述的上述替换实施例的任一个或全部以形成另外的混合实施例。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims (10)

1.一种用于从对应于网站的统一资源定位符(URL)中提取关键字的计算机实现的过程,包括:
标识所述URL的分量(102);
基于URL分量的结构将所述URL分成多个段(104);
对所述段执行文本分段以将URL文本转换成自然语言项(106);
基于受控词汇从段项中提取第一组关键字(108);
通过从URL中的与用于生成所述第一组关键字的段不同的段中形成项的组合来生成第二组关键字(110);
基于所述受控词汇验证所述第二组关键字;
从用户从其请求当前页面的网页的引用者URL和相关联的当前URL中提取引用者关键字;
通过组合所述第一组关键字、所述第二组关键字、以及所述引用者关键字来形成最终的一组特征;
基于一组特征来对所述最终的一组关键字的相关性打分(112);以及
按相关性的顺序输出经打分的关键字(114)。
2.如权利要求1所述的计算机实现的过程,其特征在于,基于所述URL的结构将URL分成多个段还包括:
将所述URL分成授权机构、路径、查询和片段分量。
3.如权利要求1所述的计算机实现的过程,其特征在于,提取所述第一组关键字包括:
(a)对照所述受控词汇来比较四个项长度的段短语,
(b)如果在所述受控词汇中找到所述短语,则指派所述短语作为关键字,
(c)如果未在所述受控词汇中找到所述短语,则将段的长度减少1项并对照所述受控词汇再次比较所述短语,
(d)重复(c)直到在所述受控词汇中找到其余的项或者仅留下短语的一个项;以及
(e)如果在所述受控词汇中找到所述短语,则输出所述短语作为关键字,如果未在所述受控词汇中找到所述短语,则忽略所述短语。
4.如权利要求1所述的计算机实现的过程,其特征在于,还包括从所述第二组关键字中删除未在所述受控词汇中找到的项的组合。
5.如权利要求1所述的计算机实现的过程,其特征在于,在提取所述第一组关键字之前将URL文本转换成自然语言文本包括:
用空格来替换URL文本中的每一个定界符来创建项;以及
拆分通常在URL中找到的项。
6.如权利要求1所述的计算机实现的过程,其特征在于,通过从URL的不同分量中形成项的组合来生成第二组关键字还包括:
生成所述第一组关键字;
通过从段对中各取一个关键字并串接来自每个段对中的关键字来从所述URL的各部分中组合段对以生成候选关键字组合;
对照受控词汇来验证所述候选关键字组合;
保留在受控词汇中找到的候选关键字组合作为关键字,并且如果未找到则丢弃所述候选关键字组合。
7.如权利要求1所述的计算机实现的过程,其特征在于,还包括通过使用外部知识源来扩展从所述URL中提取的关键字。
8.如权利要求1所述的计算机实现的过程,其特征在于,基于一组特征对所述第一组关键字和所述第二组关键字打分还包括:基于每个关键字的父段的位置、关键字的长度以及父段的长度来对每个关键字打分。
9.一种用于从统一资源定位符(URL)地址中提取关键字的计算机实现的过程,包括:
将当前网页的当前URL分成授权机构、路径、查询以及片段四个预定义的URL分量(202);
基于特定定界符和试探性观察来分开地令牌化各分量以获得段(204);
对所述段执行文本分段以将URL的文本转换成自然语言项(206);
基于受控词汇从段项中提取第一组关键字(206);
通过以下步骤来生成第二组关键字(208):对所述URL中的每一对段,通过从所述对中的每一个段中选择项并连接所选择的项来生成候选关键字、基于所述受控词汇来验证所述候选关键字、以及仅保留在所述受控词汇中找得到的那些候选关键字作为第二组关键字;
基于所述受控词汇通过从URL中的与所述第一组关键字的段不同的段中形成项的组合;
基于相关性对所述第一组关键字和所述第二组关键字打分以输出经排序的一组经打分的关键字(210)。
10.如权利要求9所述的计算机实现的过程,其特征在于,基于在URL中的从中导出该关键字的段的位置、关键字的长度以及从中导出关键字的段的长度来确定关键字的相关性分数。
CN201210067044.7A 2011-03-15 2012-03-14 从统一资源定位符(url)的关键字提取 Expired - Fee Related CN102693272B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/048,678 2011-03-15
US13/048,678 US20120239667A1 (en) 2011-03-15 2011-03-15 Keyword extraction from uniform resource locators (urls)

Publications (2)

Publication Number Publication Date
CN102693272A CN102693272A (zh) 2012-09-26
CN102693272B true CN102693272B (zh) 2017-04-12

Family

ID=46829311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210067044.7A Expired - Fee Related CN102693272B (zh) 2011-03-15 2012-03-14 从统一资源定位符(url)的关键字提取

Country Status (4)

Country Link
US (1) US20120239667A1 (zh)
EP (1) EP2686783A4 (zh)
CN (1) CN102693272B (zh)
WO (1) WO2012125350A2 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8468145B2 (en) * 2011-09-16 2013-06-18 Google Inc. Indexing of URLs with fragments
US8862602B1 (en) * 2011-10-25 2014-10-14 Google Inc. Systems and methods for improved readability of URLs
US8601359B1 (en) * 2012-09-21 2013-12-03 Google Inc. Preventing autocorrect from modifying URLs
IL224482B (en) * 2013-01-29 2018-08-30 Verint Systems Ltd System and method for keyword spotting using representative dictionary
US10025856B2 (en) * 2013-06-14 2018-07-17 Target Brands, Inc. Dynamic landing pages
US10049163B1 (en) * 2013-06-19 2018-08-14 Amazon Technologies, Inc. Connected phrase search queries and titles
CN103646113A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 关键字的还原方法及装置
US9569522B2 (en) * 2014-06-04 2017-02-14 International Business Machines Corporation Classifying uniform resource locators
KR20160109302A (ko) * 2015-03-10 2016-09-21 삼성전자주식회사 지식기반 서비스 시스템, 지식기반 서비스 서버, 지식기반 서비스제공방법 및 컴퓨터 판독가능 기록매체
CN104866909A (zh) * 2015-04-29 2015-08-26 国网智能电网研究院 一种机票预定功能url整理方法和系统
CN105279233A (zh) * 2015-09-23 2016-01-27 浙江宇视科技有限公司 一种资源的检索方法和装置
IL242219B (en) 2015-10-22 2020-11-30 Verint Systems Ltd System and method for keyword searching using both static and dynamic dictionaries
IL242218B (en) 2015-10-22 2020-11-30 Verint Systems Ltd A system and method for maintaining a dynamic dictionary
US20170132278A1 (en) * 2015-11-09 2017-05-11 Nec Laboratories America, Inc. Systems and Methods for Inferring Landmark Delimiters for Log Analysis
US10878043B2 (en) 2016-01-22 2020-12-29 Ebay Inc. Context identification for content generation
US10430442B2 (en) 2016-03-09 2019-10-01 Symantec Corporation Systems and methods for automated classification of application network activity
US10387568B1 (en) * 2016-09-19 2019-08-20 Amazon Technologies, Inc. Extracting keywords from a document
US10666675B1 (en) 2016-09-27 2020-05-26 Ca, Inc. Systems and methods for creating automatic computer-generated classifications
US9800727B1 (en) 2016-10-14 2017-10-24 Fmr Llc Automated routing of voice calls using time-based predictive clickstream data
CN107748745B (zh) * 2017-11-08 2021-08-03 厦门美亚商鼎信息科技有限公司 一种企业名称关键字提取方法
US11693910B2 (en) 2018-12-13 2023-07-04 Microsoft Technology Licensing, Llc Personalized search result rankings
CN113127767B (zh) * 2019-12-31 2023-02-10 中国移动通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质
CN113627179B (zh) * 2021-10-13 2021-12-21 广东机电职业技术学院 一种基于大数据的威胁情报预警文本分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728134A (zh) * 2004-07-30 2006-02-01 国际商业机器公司 基于超文本的多语言网络信息搜索方法和系统
CN101154228A (zh) * 2006-09-27 2008-04-02 西门子公司 一种分段模式匹配方法及其装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7290008B2 (en) * 2002-03-05 2007-10-30 Exigen Group Method to extend a uniform resource identifier to encode resource identifiers
US20040030780A1 (en) * 2002-08-08 2004-02-12 International Business Machines Corporation Automatic search responsive to an invalid request
US20060075069A1 (en) * 2004-09-24 2006-04-06 Mohan Prabhuram Method and system to provide message communication between different application clients running on a desktop
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
JP4720213B2 (ja) * 2005-02-28 2011-07-13 富士通株式会社 解析支援プログラム、装置及び方法
US8001105B2 (en) * 2006-06-09 2011-08-16 Ebay Inc. System and method for keyword extraction and contextual advertisement generation
US7664740B2 (en) * 2006-06-26 2010-02-16 Microsoft Corporation Automatically displaying keywords and other supplemental information
KR100893273B1 (ko) * 2007-05-04 2009-04-17 엔에이치엔(주) 키워드 비교를 이용한 광고 검수 방법 및 시스템
US20090024467A1 (en) * 2007-07-20 2009-01-22 Marcus Felipe Fontoura Serving Advertisements with a Webpage Based on a Referrer Address of the Webpage
US20090083266A1 (en) * 2007-09-20 2009-03-26 Krishna Leela Poola Techniques for tokenizing urls
US20090089278A1 (en) * 2007-09-27 2009-04-02 Krishna Leela Poola Techniques for keyword extraction from urls using statistical analysis
EP2599295A1 (en) * 2010-07-30 2013-06-05 ByteMobile, Inc. Systems and methods for video cache indexing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728134A (zh) * 2004-07-30 2006-02-01 国际商业机器公司 基于超文本的多语言网络信息搜索方法和系统
CN101154228A (zh) * 2006-09-27 2008-04-02 西门子公司 一种分段模式匹配方法及其装置

Also Published As

Publication number Publication date
EP2686783A2 (en) 2014-01-22
WO2012125350A3 (en) 2012-11-22
US20120239667A1 (en) 2012-09-20
EP2686783A4 (en) 2014-08-27
CN102693272A (zh) 2012-09-26
WO2012125350A2 (en) 2012-09-20

Similar Documents

Publication Publication Date Title
CN102693272B (zh) 从统一资源定位符(url)的关键字提取
US10725836B2 (en) Intent-based organisation of APIs
Zhao et al. Connecting social media to e-commerce: Cold-start product recommendation using microblogging information
US8156120B2 (en) Information retrieval using user-generated metadata
US11394799B2 (en) Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data
US9965726B1 (en) Adding to a knowledge base using an ontological analysis of unstructured text
US6405199B1 (en) Method and apparatus for semantic token generation based on marked phrases in a content stream
US10642935B2 (en) Identifying content and content relationship information associated with the content for ingestion into a corpus
CN106462640B (zh) 对多媒体内容进行的场境搜索
US20180293302A1 (en) Natural question generation from query data using natural language processing system
CN106960030A (zh) 基于人工智能的推送信息方法及装置
US20140164296A1 (en) Chatbot system and method with entity-relevant content from entity
CN104067273A (zh) 将搜索结果分组为简档页面
AU2018250372B2 (en) Method to construct content based on a content repository
US9529922B1 (en) Computer implemented systems and methods for dynamic and heuristically-generated search returns of particular relevance
CN113010771B (zh) 搜索引擎中的个性化语义向量模型的训练方法及装置
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN111783425B (zh) 基于句法分析模型的意图识别方法及相关装置
CN114391142A (zh) 使用结构化和非结构化数据的解析查询
Qasem et al. Leveraging contextual features to enhanced machine learning models in detecting COVID-19 fake news
US20160004697A1 (en) Bilingual Search Engine for Mobile Devices
Jung et al. Automatic tagging of functional-goals for goal-driven semantic service discovery
JP2008102790A (ja) 検索システム
KR101499685B1 (ko) 키워드 트리 제공 방법
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150731

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150731

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170412

Termination date: 20180314