CN109997124A - 用于测量关键词的语义相关性的系统和方法 - Google Patents

用于测量关键词的语义相关性的系统和方法 Download PDF

Info

Publication number
CN109997124A
CN109997124A CN201780050113.4A CN201780050113A CN109997124A CN 109997124 A CN109997124 A CN 109997124A CN 201780050113 A CN201780050113 A CN 201780050113A CN 109997124 A CN109997124 A CN 109997124A
Authority
CN
China
Prior art keywords
keyword
seed
categories
data processing
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780050113.4A
Other languages
English (en)
Other versions
CN109997124B (zh
Inventor
J.刘易斯
G.詹姆斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN109997124A publication Critical patent/CN109997124A/zh
Application granted granted Critical
Publication of CN109997124B publication Critical patent/CN109997124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

服务器可以接收接收种子关键词,以生成与种子关键词相关的附加关键词。服务器可以使用语义关系图识别关键词类别。每个关键词可以具有小于阈值的与种子关键字之间的语义距离。针对关键词类别的每个关键词,服务器可以基于信息资源上关键词与种子关键词出现的频率生成关键词‑种子亲和度分数。对于每个关键字类别,服务器可以基于关键字类别中的每个关键字的关键词‑种子亲和度分数来确定类别‑种子亲和度分数。服务器可以比较每个类别‑种子亲和度分数和阈值。服务器可以发送关键字以供显示。基于比较,一个关键词类别可被指示为已选择,并且另一关键词类别可被指示为未选择。

Description

用于测量关键词的语义相关性的系统和方法
相关申请的交叉引用
本申请要求于2016年10月24日提交的、序号为15/332,551、标题为“SYSTEMS ANDMETHODS FOR MEASURING THE SEMATNIC RELEVANCE OF KEYWORDS”美国专利申请的权益和优先权,其全部内容通过引用结合于此。
背景技术
在诸如因特网的计算机网络环境中,内容提供者提供用于在终端用户计算设备上显示的内容。内容通常采用可以显示的一个或多个部分的形式。例如,通常通过一个或多个网页的方式提供内容的各部分,其中每个部分的内容被提供为网页。
发明内容
至少一个方面涉及一种通过解析信息资源来测量关键词的语义相关性的方法。具有一个或多个处理器的数据处理系统可以从对应于域实体的内容提供者计算设备接收种子关键词,以生成与种子关键词相关的附加关键词。数据处理系统可以使用语义关系图来识别包括第一关键词类别和第二关键词类别的多个关键词类别。多个关键词类别中的每一个可以包括多个关键词。多个关键词中的每一个可以具有小于语义距离阈值的与种子关键词的语义距离。针对第一关键词类别和第二关键词类别的每个关键词,数据处理系统可以基于在域实体的信息资源上关键词与种子关键词出现的频率生成关键词-种子亲和度分数。对于第一关键词类别,数据处理系统可以基于第一关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来确定第一类别-种子亲和度分数。对于第二关键词类别,数据处理系统可以基于第二关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来确定第二类别-种子亲和度分数。数据处理系统可以将第一类别-种子亲和度分数和第二类别-种子亲和度分数中的每一个与亲和度分数阈值进行比较。数据处理系统可以确定第一类别-种子亲和度分数大于亲和度分数阈值并且第二类别-种子亲和度分数小于亲和度分数阈值。数据处理系统可以向内容提供者计算设备发送多个关键词以供显示。响应于确定第一类别-种子亲和度分数大于亲和度分数阈值并且第二类别-种子亲和度分数小于亲和度分数阈值,可以将第一关键词类别指示为已选择,并且可以将第二关键词类别指示为未选择。
在一些实施方式中,数据处理系统可以使用语义关系图来识别第一关键词类别和第二关键词类别之间的语义冲突。在一些实施方式中,响应于识别第一关键词类别和第二关键词类别之间的语义冲突,数据处理系统可以将第一类别-种子亲和度分数与第二类别亲和度分数进行比较。在一些实施方式中,数据处理系统可以发送多个关键词。响应于确定第一类别-种子亲和度分数大于第二类别-种子亲和度分数,可以将第一关键词类别指示为已选择,并且可以将第二关键词类别指示为未选择。
在一些实施方式中,数据处理系统可以使用语义关系图来识别第一关键词类别、第二关键词类别和第三关键词类别之间的语义冲突。在一些实施方式中,数据处理系统可以基于语义冲突确定第一类别组和第二类别组,第一类别组包括第一关键词类别,第二类别组包括第二关键词类别和第三关键词类别类别。在一些实施方式中,数据处理系统可以确定第一类别组的第一组-种子亲和度分数和第二类别组的第二组-种子亲和度分数。在一些实施方式中,数据处理系统可以将第一组-种子亲和度分数与第二组-种子亲和度分数进行比较。在一些实施方式中,数据处理系统可以发送多个关键词。响应于确定第一组-种子亲和度分数大于第二组-种子亲和度分数,可以将第一关键词类别指示为已选择,并且可以将第二关键词类别和第三关键词类别指示为未选择。
在一些实施方式中,针对第一关键词类别和第二关键词类别的每个关键词,数据处理系统可以将关键词-种子亲和度分数与第二亲和度分数阈值进行比较。在一些实施方式中,针对第一关键词类别和第二关键词类别中的每一个,数据处理系统可以识别各自具有小于第二亲和度分数阈值的关键词-种子亲和度分数的关键词的子集。在一些实施方式中,数据处理系统可以发送多个关键词。响应于识别各自具有小于第二亲和度分数阈值的关键词-种子亲和度分数的关键词的子集,可以将第一关键词类别或第二关键词类别中的关键词的子集指示为未选择。
在一些实施方式中,数据处理系统可以基于第一关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来计算第一组合分数。在一些实施方式中,数据处理系统可以基于第二关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来计算第二组合分数。
在一些实施方式中,数据处理系统可以解析信息资源,以识别信息资源的一个或多个术语以及一个或多个术语中的每个术语在信息资源上的放置。在一些实施方式中,对于第一关键词类别和第二关键词类别中的至少一个关键词,数据处理系统可以使用语义关系图确定在信息资源的一个或多个术语中的至少一个与相应的关键词之间的第一语义匹配。在一些实施方式中,数据处理系统可以使用语义关系图确定在信息资源的一个或多个术语中的至少一个与种子关键词之间的第二语义匹配。在一些实施方式中,响应于确定第一语义匹配和确定第二语义匹配,数据处理系统可以基于信息资源上的对应关键词的放置来计算关键词-种子亲和度分数。
在一些实施方式中,数据处理系统可以识别信息资源的分层深度。在一些实施方式中,针对第一关键词类别和第二关键词类别中的每个关键词-种子亲和度分数,数据处理系统可以基于针对信息资源识别的分层深度利用预设权重调整关键词-种子亲和度分数。
在一些实施方式中,数据处理系统可以针对第一关键词类别和第二关键词类别的每个关键词识别指示跨越多个信息资源的关键词的平均频率的归一化因子。在一些实施方式中,数据处理系统可以针对第一关键词类别和第二关键词类别的每个关键词-种子亲和度分数,通过归一化因子来调整关键词-种子亲和度分数。
在一些实施方式中,数据处理系统可以使用语义关系图从多个关键词中识别代表第一关键词类别的第一主题关键词和代表第二关键词类别的第二主题关键词。第一主题关键词可以具有小于语义距离阈值的与第一关键词类别中的多个关键词中的每个关键词的第一最小语义距离。第二主题关键词可以具有小于语义距离阈值的与第二关键词类别中的多个关键词中的每个关键词的第二最小语义距离。在一些实施方式中,数据处理系统可以发送多个关键词。响应于识别第一主题关键词和第二主题关键词,可以将多个关键词分类为具有第一主题关键词的第一关键词类别以及具有第二主题关键词的第二关键词类别。
在一些实施方式中,数据处理系统可以发送脚本。脚本可以触发内容提供者计算设备显示关键词选择界面。关键词选择界面可以包括指示第一关键词类别的多个关键词中的每一个被选择的第一内容元素和指示第二关键词类别的多个关键词中的每一个未被选择的第二内容元素。
至少一个方面涉及一种用于通过解析信息资源来测量关键词的语义相关性的系统。该系统可以包括在具有一个或多个处理器的数据处理系统上执行的关键词生成器模块。关键词生成器模块可以从对应于域实体的内容提供者计算设备接收种子关键词,以生成与种子关键词相关的附加关键词。关键词生成器模块可以使用语义关系图来识别包括第一关键词类别和第二关键词类别的多个关键词类别。多个关键词类别中的每一个可以包括多个关键词。多个关键词中的每一个可以具有小于语义距离阈值的与种子关键词的语义距离。该系统可以包括在数据处理系统上执行的频率计算器模块。频率计算器模块可以针对第一关键词类别和第二关键词类别的每个关键词,基于在域实体的信息资源上关键词与种子关键词出现的频率来确定关键词-种子亲和度分数。频率计算器模块可以针对第一关键词类别,基于第一关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来确定第一类别-种子亲和度分数。频率计算器模块可以针对第二关键词类别,基于第二关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来确定第二类别-种子亲和度分数。该系统可以包括在数据处理系统上执行的关键词选择器模块。关键词选择器模块可以将第一类别-种子亲和度分数和第二类别-种子亲和度分数中的每一个与亲和度分数阈值进行比较。关键词选择器模块可以确定第一类别-种子亲和度分数大于亲和度分数阈值并且第二类别-种子亲和度分数小于亲和度分数阈值。该系统可以包括在数据处理系统上执行的界面提供器模块。界面提供器模块可以被配置为向内容提供者计算设备发送多个关键词以供显示。响应于确定第一类别-种子亲和度分数大于亲和度分数阈值并且第二类别-种子亲和度分数小于亲和度分数阈值,可以将第一关键词类别指示为已选择,并且可以将第二关键词类别指示为未选择。
在一些实施方式中,关键词选择器模块可以使用语义关系图来识别第一关键词类别和第二关键词类别之间的语义冲突。在一些实施方式中,频率计算器模块可以响应于识别第一关键词类别和第二关键词类别之间的语义冲突,将第一类别-种子亲和度分数与第二类别亲和度分数进行比较。在一些实施方式中,界面提供器模块可以发送多个关键词。响应于确定第一类别-种子亲和度分数大于第二类别-种子亲和度分数,可以将第一关键词类别指示为已选择,并且可以将第二关键词类别指示为未选择。
在一些实施方式中,针对第一关键词类别和第二关键词类别的每个关键词,关键词选择器模块可以将关键词-种子亲和度分数与第二亲和度分数阈值进行比较。在一些实施方式中,关键词选择器模块可以针对第一关键词类别和第二关键词类别中的每一个,识别各自具有小于第二亲和度分数阈值的关键词-种子亲和度分数的关键词的子集。在一些实施方式中,界面提供器模块可以发送多个关键词。响应于识别各自具有小于第二亲和度分数阈值的关键词-种子亲和度分数的关键词的子集,可以将第一关键词类别或第二关键词类别中的关键词的子集指示为未选择。
在一些实施方式中,系统可以包括在数据处理系统上执行的资源解析器模块。在一些实施方式中,资源解析器模块可以解析信息资源以识别信息资源的一个或多个术语以及一个或多个术语中的每个术语在信息资源上的放置。在一些实施方式中,针对第一关键词类别和第二关键词类别中的至少一个关键词,资源解析器模块可以使用语义关系图来确定在信息资源的一个或多个术语中的至少一个与相应的关键词之间的第一语义匹配。在一些实施方式中,针对第一关键词类别和第二关键词类别中的至少一个关键词,资源解析器模块可以使用语义关系图来确定信息资源的一个或多个术语中的至少一个和相应的关键词之间的第一语义匹配。在一些实施方式中,频率计算器模块可以响应于确定第一语义匹配和确定第二语义匹配,基于信息资源上的对应关键词的放置来计算关键词-种子亲和度分数。
在一些实施方式中,系统可以包括在数据处理系统上执行的资源解析器模块。在一些实施方式中,资源解析器模块可以识别信息资源的分层深度。在一些实施方式中,频率计算器模块可以针对第一关键词类别和第二关键词类别中的每个关键词-种子亲和度分数,基于针对该信息资源识别的分层深度利用预设权重来调整关键词-种子亲和度分数。
在一些实施方式中,频率计算器模块可以针对第一关键词类别和第二关键词类别的每个关键词识别指示跨越多个信息资源的关键词的平均频率的归一化因子。在一些实施方式中,频率计算器模块可以针对第一关键词类别和第二关键词类别的每个关键词-种子亲和度分数,利用归一化因子来调整关键词-种子亲和度分数。
至少一个方面涉及一种通过解析信息资源来测量关键词的语义相关性的方法。具有一个或多个处理器的数据处理系统可以从对应于域实体的内容提供者计算设备接收种子关键词,以生成与种子关键词在语义上相关的附加关键词。数据处理系统可以从数据库访问语义关系图,该语义关系图包括表示关键词的多个节点和多个边。多个边中的每一个可以连接多个节点中的两个相应节点,并且可以定义表示两个相应节点的两个关键词之间的语义距离。数据处理系统可以遍历语义关系图的多个节点,以识别表示种子关键词的种子节点、并且对于与种子节点相邻的每个候选节点识别在种子关键词与相邻节点的关键词之间的语义距离。数据处理系统可以从与种子节点相邻的多个节点中识别具有相应边的候选节点集合,其中种子节点-候选节点对之间的相应语义距离小于语义距离阈值。数据处理系统可以识别域实体的多个信息资源。数据处理系统可以针对候选节点集合中的每个候选关键词解析多个信息资源,以确定种子关键词和候选关键词在多个信息资源中出现的频率。数据处理系统可以从候选节点集合中的候选关键词识别第一关键词集合和第二关键词集合。第一关键词集合中的每一个可以具有大于或等于频率阈值的相应频率。第二关键词集合中的每一个可以具有小于频率阈值的相应频率。数据处理系统可以向内容提供者计算设备发送指令,以基于对应频率和频率阈值在内容提供者计算设备处显示第一关键词集合被选择、为相关的并且第二关键词集合未被选择、为不相关的。
在一些实施方式中,数据处理系统可以针对候选关键词集合的每个候选关键词,基于各个关键词出现在与多个信息资源不同的通用语料库(corpus)中的频率计算归一化因子。在一些实施方式中,数据处理系统可以针对候选关键词集合中的每个候选关键词利用相应关键词的归一化因子来调整频率。
在一些实施方式中,数据处理系统可以访问语义关系。多个边中的每一个可以将两个相应节点定义为在语义上冲突。在一些实施方式中,数据处理系统可以使用语义关系图,基于指示两个对应关键词在语义上冲突的相应边来识别在候选关键词集合中的关键词之间的语义冲突。在一些实施方式中,响应于识别语义冲突,数据处理系统可以将候选关键词集合中的第一关键词的第一频率与候选关键词集合中的第二关键词的第二频率进行比较。
在一些实施方式中,数据处理系统可以针对候选节点集合中的每个关键词,使用聚类算法基于候选节点集合中的每个关键词之间的语义距离来识别第一关键词类别和第二关键词类别中的一个。在一些实施方式中,数据处理系统可以基于每个关键词的对应频率和频率阈值将第一关键词类别识别为选择并且将第二关键词类别识别为未选择。
下面详细讨论这些和其他方面和实施方式。前述信息和以下详细描述包括各种方面和实施方式的说明性示例,并提供用于理解所要求保护的方面和实施方式的性质和特性的概述或框架。附图提供了对各个方面和实施方式的说明和进一步理解,并且被并入并构成本说明书的一部分。
附图说明
附图不旨在按比例绘制。各附图中的相同的附图标记和名称表示相同的元件。为清楚起见,并非每个组件都可以被标记在每个附图中。在附图中:
图1是描绘根据说明性实施方式的用于测量计算机网络环境中的关键词的语义相关性的环境的一种实施方式的框图。
图2是描绘根据说明性实施方式的语义关系图的一种实施方式的框图;
图3是根据说明性实施方式的一个或多个关键词与种子关键词或关键词类别的关键词匹配的的信息资源的框图;
图4是根据说明性实施方式的具有界面的信息资源的框图,该界面示出了从被指定为选择或未选择的种子关键词生成的各关键词和关键词类别;
图5是根据说明性实施方式的具有界面的信息资源的另一个框图,该界面示出了从被指定为选择或未选择的种子关键词生成的各关键词和关键词类别;
图6是描绘根据说明性实施方式的测量关键词的语义相关性的方法的流程图;
图7A-图7D是描绘通过解析信息资源来测量关键词的语义相关性的方法的流程图;和
图8是示出根据说明性实施方式的可用于实施本文描述和示出的系统和方法的元素的计算机系统的一般体系结构的框图。
具体实施方式
以下是涉及通过测量计算机网络环境中的多个信息资源上的关键词的语义相关性、使用种子关键词准确高效地发现关键词的方法、装置和系统的各种构思和实施方式的更详细描述。以上介绍并在下面更详细讨论的各种构思可以以任何多种方式实施,因为所描述的构思不限于任何特定方式的实施方式。
在计算机联网环境中,服务器可以基于客户端设备经由搜索页面提交的搜索查询中的关键词来提供和选择用于与信息资源一起显示的内容项。通过使用内容选择管理平台,内容提供者可以指定在选择内容提供者的这些内容项时可以使用这些关键词中的哪些。内容提供者还可以向这样的内容选择管理平台提供种子关键词以生成和/或发现另外的相关关键词。可以使用语义关系图生成和/或发现这些相关关键词。语义关系图可以指定每个关键词彼此相关的程度。然而,生成和提供这样的各种相关关键词列表可能会使内容提供者淹没于大量复杂信息。从人机交互(HCI)的角度来看,关键词的过度包含可能导致内容提供者指定用于选择内容项的不准确或不相关的关键词。关键词的过度包含还可能导致用户将要与所选内容项交互的可能性较低。此外,在没有任何额外过滤的情况下,所生成的相关关键词列表可能使服务器负担过重,导致增加的处理功耗、低效率以及选择相关内容项以在客户端设备处显示的时间。
为了解决这些和其他技术挑战,本公开提供了通过解析信息资源来测量关键词的语义相关性以识别或发现更准确和相关的关键词的系统和方法。总的来说,服务器(例如,数据处理系统)能够使用由内容提供者使用语义关系图提供的种子关键词来生成关键词列表。语义关系图可以指定每个关键词和种子关键词之间的语义距离。基于每个关键词之间的语义距离,关键词列表可以被分类为关键词类别,每个关键词类别具有关键词的子集。服务器还可以使用由内容提供者提供的域名来识别内容提供者的信息资源(例如,网页),并且可以从所识别的信息资源中提取术语。
对于所生成列表的每个关键词,服务器可以通过在内容提供者的信息资源中测量关键词与种子关键词出现的次数来计算关键词亲和度分数。还可以基于关键词本身在相应信息资源上的突出位置、信息资源的路径级别以及关键词在通用语料库中的标称(nominal)频率等来对关键词亲和度分数进行加权或调整。如果关键词亲和度分数大于或等于各个关键词的预定义阈值分数,则服务器可以将关键词设置为选择以用于选择内容项。另一方面,如果关键词亲和度分数小于阈值分数,则服务器可以将关键词设置为未选择以用于选择内容项。因此,关键词亲和度分数可以使用客观信息来确定关键词之间的关系。
另外,服务器可以使用关键词类别的关键词的关键词亲和度分数来计算每个分类关键词类别的类别亲和度分数。例如,服务器可以计算关键词亲和度分数的加权平均和,以计算类别亲和度分数。如果类别亲和度分数大于或等于各个类别的预定义阈值分数,则服务器可以将关键词类别设置为选择以用于选择内容项。另一方面,如果类别亲和度分数小于阈值分数,则服务器可以将关键词类别设置为未选择以用于选择内容项。除了选择或未选择每个关键词类别之外,服务器还可以将关键词类别的所有关键词设置为选择或未选择。服务器还可以将关键词类别的各个关键词设置为选择或未选择。
在选择内容项时,某些关键词类别可能不适合与其他关键词类别一起使用。例如,关键词类别之间可能存在语义冲突。为了确定是否存在语义冲突,服务器可以使用语义关系图来识别跨越不同关键词类别的每个关键词之间的语义距离,或者识别不同关键词类别中的哪些关键词被指定为彼此无关。如果两个关键词类别之间存在语义冲突,则服务器可以比较相应的类别亲和度分数以解决语义冲突。如果一个关键词类别的类别亲和度分数大于另一个关键词类别的类别亲和度分数,则服务器可以将第一关键词类别设置为选择、并且将第二关键词类别设置为未选择以用于选择内容项。
然后,服务器可以将关键词类别的列表与关键词一起发送到内容提供者计算设备以进行显示。关键词类别的列表可以是用于在用户界面中显示每个关键词或关键词类别的指令(例如,脚本)的一部分。用户界面继而可以是内容选择管理平台的一部分。用户界面还可以指示用户在选择内容项时选择或未选择哪个关键词和关键词类别。以这种方式,内容提供者可以区分已选择或未选择哪些关键词和关键词类别,并且可以更好地向内容提供者通知在自动选择内容项中指定使用哪些关键词或关键词类别以在内容项中显示。因此,与要处理的数据相关联的客观测量可用于提供能够用于选择数据的信息。通过使用客观测量,因此可以客观地改进所选择的数据。
图1是描绘用于测量关键词的语义相关性的环境的一种实施方式的框图。环境100包括至少一个数据处理系统110。数据处理系统110可包括至少一个处理器和存储器,即处理电路。存储器存储处理器可执行指令,当由处理器执行时,可执行指令使处理器执行本文描述的一个或多个操作。处理器可以包括微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等、或其组合。存储器可以包括但不限于电子的、光学的、磁性的或能够向处理器提供程序指令的任何其他存储或传输设备。存储器还可以包括软盘、CD-ROM、DVD、磁盘、存储器芯片、ASIC、FPGA、只读存储器(ROM)、随机存取存储器(RAM)、电可擦除ROM(EEPROM)、可擦除-可编程ROM(EPROM)、闪存、光学介质或处理器能够从其读取指令的任何其他合适的存储器。指令可以包括来自任何合适的计算机编程语言的代码。数据处理系统可以包括能够执行各种功能的一个或多个计算设备或服务器。
网络105可以包括例如因特网、本地网、广域网、城域网或其他区域网络、内联网、卫星网络的计算机网络、诸如语音或数据移动电话通信网络的其他计算机网络、以及它们的组合。系统100的数据处理系统110能够经由网络105例如与至少一个内容提供者计算设备115、至少一个内容发布者计算设备120或至少一个客户端设备125进行通信。至少一个内容提供者计算设备115、至少一个内容发布者计算设备120或至少一个客户端设备125中的每一个可以与域实体相关联、对应或以其他方式属于域实体。域实体可以是帐户或与信息资源相关联的其它方。域实体可以利用实体标识符或资源标识符标识或与之相关联。例如,域实体可以与资源标识符“www.examplel.com”和“www.example2.com”相关联。在该示例中,域实体可以与例如“www.examplel.com/index”或www.example2.com/ex2/folder3的资源标识符的变型相关联。使用至少一个内容提供者计算设备115、至少一个内容提供者计算设备120或至少一个客户端设备125,域实体可以托管一个或多个信息资源,每个信息资源利用一个或多个资源标识符(例如,统一资源定位符)来标识。
网络105可以是在内容提供者计算设备115、数据处理系统110和一个或多个内容源(例如,其中包括网络服务器、广告服务器等)之间中继信息的任何形式的计算机网络。例如,网络105可以包括因特网和/或其他类型的数据网络,例如局域网(LAN)、广域网(WAN)、蜂窝网络、卫星网络或其他类型的数据网络。网络105还可以包括被配置为在网络105内接收和/或发送数据的任何数量的计算设备(例如,计算机、服务器、路由器、网络交换机等)。网络105还可以包括任何数量的硬连线和/或无线连接。例如,用户计算设备115可以无线地(例如,经由WiFi、蜂窝、无线电等)与网络105中的收发器通信,该收发器被硬连线(例如,经由光纤光缆、CAT5电缆等)到其他计算设备。
内容提供者计算设备115可以包括由内容提供者实体操作的服务器或其他计算设备,以提供用于在客户端设备125处的信息资源上显示的内容项。由内容提供者计算设备115提供的内容可以例如包括用于在例如包括主要内容的网站或网页的信息资源上显示的第三方内容项,主要内容例如为内容发布者计算设备120提供的内容。内容项也可以显示在搜索结果网页上。例如,内容提供者计算设备115可以提供或者就是用于在内容网页的内容槽中显示的源内容项(例如公司提供网页的主要内容的公司网页),或者用于在搜索引擎所提供的搜索结果登录页面上显示的源内容项。与内容提供者计算设备115相关联的内容项可以被显示在除网页之外的信息资源上,诸如作为智能电话或其他客户端设备125上的应用的执行的一部分而显示的内容。
内容发布者计算设备120可以包括由内容发布实体操作的服务器或其他计算设备,以经由网络105提供主要内容用于显示。例如,内容发布者计算设备120可以包括网页操作者,其提供用于在网页上显示的主要内容。主要内容可以包括除内容发布者计算设备120提供的内容之外的内容。网页还可以包括被配置用于显示来自内容提供者计算设备115的第三方内容项的内容槽。例如,内容发布者计算设备120可以操作公司的网站,并且可以提供关于该公司的内容以在网站的网页上显示。例如,网页可以包括被配置用于显示诸如内容提供者计算设备115的广告的第三方内容项的内容槽。在一些实施方式中,内容发布者计算设备120包括操作搜索引擎网站的搜索引擎运营商的搜索引擎计算设备(例如,服务器)。搜索引擎网页的主要内容(例如,结果或登陆网页)可以包括搜索结果以及在内容槽中显示的第三方内容项,例如来自内容提供者计算设备115的内容项。在一些实施方式中,内容发布者计算设备120可以包括用于服务视频内容的服务器。
客户端设备125可以包括计算设备,该计算设备被配置为经由网络105通信以显示数据,该数据诸如由内容发布者计算设备120提供的内容(例如,主要网页内容或其他信息资源)和由内容提供者计算设备115提供的内容(例如,被配置为在网页的内容槽中显示的第三方内容项)。客户端设备125、内容提供者计算设备115和内容发布者计算设备120可以包括台式计算机、膝上型计算机、平板计算机、智能电话、个人数字助理、移动设备、消费者计算设备、服务器、客户端、数字视频记录器、用于电视的机顶盒、视频游戏控制台或配置成经由网络105通信的任何其他计算设备。客户端设备125可以是通信设备,终端用户可以通过该通信设备提交请求以接收内容。该请求可以是对搜索引擎的请求,并且该请求可以包括搜索查询。在一些实施方式中,该请求可以包括访问网页的请求。
内容提供者计算设备115、内容发布者计算设备120和客户端设备125可以包括处理器和存储器,即处理电路。存储器存储机器指令,当由处理器执行时,机器指令使处理器执行本文描述的一个或多个操作。处理器可以包括微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等、或其组合。存储器可以包括但不限于电子的、光学的、磁性的或能够向处理器提供程序指令的任何其他存储或传输设备。存储器还可以包括软盘、CD-ROM、DVD、磁盘、存储器芯片、ASIC、FPGA、只读存储器(ROM)、随机存取存储器(RAM)、电可擦除ROM(EEPROM)、可擦除-可编程ROM(EPROM)、闪存、光学介质或处理器能够从其读取指令的任何其他合适的存储器。指令可以包括来自任何合适的计算机编程语言的代码。
内容提供者计算设备115、内容发布者计算设备120和客户端设备125还可以包括一个或多个用户接口设备。通常,用户接口设备是指如下的任何电子设备,其通过生成感官信息(例如,显示器上的可视化、一个或多个声音等)向用户传达数据和/或将来自用户的所接收感官信息转换为电子信号(例如,键盘、鼠标、指示设备、触摸屏显示器、麦克风等)。根据各种实施方式,一个或多个用户接口设备可以在内容提供者计算设备115、内容发布者计算设备120和客户端设备125的外壳的内部(例如,内置显示器,麦克风等),或者在内容提供者计算设备115、内容发布者计算设备120和客户端设备125的外壳的外部(例如,连接到用户计算设备115的监视器、连接到用户计算设备115的扬声器等)。例如,内容提供者计算设备115、内容发布者计算设备120和客户端设备125可以包括电子显示器,其使用经由网络105从一个或多个内容源和/或从数据处理系统110接收的网页数据可视地显示网页。在一些实施方式中,内容放置活动管理器或第三方内容提供者(例如广告商)可以经由内容提供者计算设备115与数据处理系统110通信。在一些实施方式中,广告商可以经由在内容提供者计算设备115的用户接口设备上显示的用户界面与数据处理系统110通信。
数据处理系统110可包括至少一个服务器。例如,数据处理系统110可以包括位于至少一个数据中心或服务器群中的多个服务器。在一些实施方式中,数据处理系统110包括内容放置系统。数据处理系统110可包括至少一个关键词生成器模块130、至少一个资源解析器模块135、至少一个频率计算器模块140和至少一个数据库155。关键词生成器模块130、资源解析器模块135、频率计算器模块140、关键词选择器模块145和界面提供器模块150各自可包括至少一个处理单元、服务器、虚拟服务器、电路、引擎、代理、仪器或者诸如可编程逻辑阵列之类的其他逻辑设备,其被配置为经由网络105与数据库155以及与其他计算设备(例如,内容提供者计算设备115、内容发布者计算设备120或客户端设备125)通信。
关键词生成器模块130、资源解析器模块135、频率计算器模块140、关键词选择器模块145和界面提供器模块150可以包括或执行至少一个计算机程序或至少一个脚本。关键词生成器模块130、资源解析器模块135、频率计算器模块140、关键词选择器模块145和界面提供器模块150可以是分离的组件、单个组件或数据处理系统110的一部分。关键词生成器模块130、资源解析器模块135、频率计算器模块140、关键词选择器模块145和界面提供器模块150可以包括软件和诸如被配置为执行一个或多个脚本的一个或多个处理器的硬件的组合。
数据处理系统110还可以包括一个或多个内容存储库或数据库155。数据库155可以在数据处理系统110本地。在一些实施方式中,数据库155可以远程于数据处理系统110,但是可以经由网络105与数据处理系统110通信。数据库155可以包括语义关系图、术语字典、资源标识符和关键词列表界面脚本等。下面将提供数据库155的内容的附加细节。
关键词生成器模块130可以接收种子关键词,以生成与种子关键词相关或以其他方式与种子关键词相关联的附加关键词。在一些实施方式中,关键词生成器模块130可以接收一个或多个种子关键词,以生成与一个或多个种子关键词相关或以其他方式与其相关联的附加关键词。在一些实施方式中,一个或多个种子关键词可以对应于种子短语。种子短语可以包括一个或多个关键词。在一些实施方式中,种子关键词可以是对附加关键词的请求的一部分。对附加关键词的请求还可以包括指定域实体的实体标识符或与域实体相关联的一个或多个资源标识符。可以从内容提供者计算设备115、内容发布者计算设备120或客户端设备125接收种子关键词。在一些实施方式中,可以从在内容提供者计算设备115、内容发布者计算设备120或客户端设备125中的任何一个上执行的内容选择和递送管理平台接收种子关键词。在一些实施方式中,从其接收种子关键词的内容提供者计算设备115、内容发布者计算设备120或客户端设备125可以对应于域实体,与域实体相关联,或以其他方式属于域实体。在进一步处理种子关键词之前,关键词生成器模块130可以使用字典或查找表来生成或确定种子关键词的规范形式。字典或查找表可以为单词的每个变型指定规范形式。规范形式可以代表关键词的标准化词汇表示。例如,如果接收的种子关键词是“mice”(老鼠的复数形式),则关键词生成器模块130可以通过在指定“mouse”(老鼠的单数形式)是“mice”的规范形式的字典上执行查找来生成“mouse”作为种子关键词的规范形式。
为了生成与种子关键词相关或以其他方式与种子关键词相关联的附加关键词,关键词生成器模块130可以从数据库155访问语义关系图或数据结构(例如,数组、链表、图、树、堆等)。语义关系图可以包括多个关键词或短语。语义关系图还可以指定、指派或以其他方式定义每个关键词之间的语义距离或相关性测量。语义关系图可以使用多个预设关键词和利用自然语言处理技术预定义的每个关键词之间的语义距离或相关性测量来预先生成。在一些实施方式中,可以使用自然语言处理技术动态地确定多个关键词和每个关键词之间的语义距离或相关性测量。在一些实施方式中,所述多个关键词和每个关键词之间的语义距离或相关性测量可以通过将自然语言处理技术应用于从各种源(例如,信息资源、扫描书籍等)取得的关键词语料库来不时地更新。
在一些实施方式中,语义关系图可以包括多个节点和多个边。多个节点可以各自表示关键词。在一些实施方式中,多个节点可以表示包括两个或更多个关键词的短语。多个边可以连接或链接多个节点中的两个节点。多个边中的每一个可以定义或指定语义关系图中的多个节点的两个相应节点的两个关键词之间的语义距离或相关性测量。多个边中的每一个还可以定义或指定语义关系图中的多个节点中的两个相应节点是在语义上一致的还是在语义上冲突。语义关系图可以使用任何数据结构来实施,例如数组、链表、树或堆等。
使用语义关系图,关键词生成器模块130可以识别或搜索与种子关键词对应的节点。与种子关键词对应的节点可以称为种子节点或初始节点。在一些实施方式中,关键词生成器模块130可以遍历语义关系图以识别种子节点。在一些实施方式中,关键词生成器模块130可以搜索查找表或字典以在语义关系图中找到种子节点。查找表和字典中的每一个可以是用于索引或引用语义关系图的关键词或节点的数据结构。在一些实施方式中,用于查找表和字典中的每一个的数据结构或结构可以与语义关系图分开。
根据对应于语义关系图上的种子关键词的种子节点,关键词生成器模块130可以经由相应边识别与种子节点相邻或连接的一组节点。在一些实施方式中,关键词生成器模块130可以确定相邻节点与种子节点在语义上一致还是在语义上冲突。对于具有与种子关键词在语义上一致的关键词的相邻或连接节点中的每一个,关键词生成器模块130可以识别相应边与种子节点的语义距离。关键词生成器模块130可以将语义距离与第一语义距离阈值进行比较。在一些实施方式中,可以预定义第一语义距离阈值。在一些实施方式中,关键词生成器模块130可以基于每个相邻关键词与种子关键词之间的语义距离来计算第一语义距离阈值。例如,关键词生成器模块130可以设置第一语义距离阈值,以便过滤掉与在遍历期间找到的种子关键词相邻的特定百分比(例如,50-70%)的关键词。如果种子节点和相邻节点之间的相应边的语义距离小于第一语义距离阈值,则关键词生成器模块130可以将该节点识别为候选节点,并且可以将对应关键词识别为候选关键词。关键词生成器模块130可以将节点包括在候选节点集合中。候选节点集合中的每个节点可以具有小于第一语义距离阈值的从种子节点起的语义距离。
对于每个候选节点,关键词生成器模块130可以识别经由相应边(如果有的话)与相应候选者相邻或连接的一组节点。关键词生成器模块130可以确定是否存在与相应候选节点相邻或连接的一个或多个节点。如果存在与相应候选节点相邻或连接的一个或多个节点,则关键词生成器模块130可以再次识别每个候选节点的相应边的语义距离。对于每个相邻节点,关键词生成器模块130可以识别在相邻节点和候选节点之间的语义距离。关键词生成器模块130可以确定或计算相邻节点经由候选节点与种子节点之间的总语义距离。例如,关键词生成器模块130可以增加种子节点和候选节点之间的语义距离以及与候选节点相邻的节点与候选节点本身之间的语义距离。关键词生成器模块130可以将相邻节点和种子节点之间的总语义距离与语义距离阈值进行比较。如果种子节点和与候选节点相邻的节点之间的相应边的总语义距离小于语义距离阈值,则关键词生成器模块130可以将相邻节点识别为候选节点,并且可以将对应关键词识别为候选关键词。在一些实施方式中,关键词生成器模块130可以将候选节点和相邻节点之间的语义距离与第二语义距离阈值进行比较。第二语义距离阈值可以小于或等于用于种子与原始候选节点之间的距离的第一语义距离阈值。在一些实施方式中,可以预定义第二语义距离阈值。在一些实施方式中,关键词生成器模块130可以基于每个相邻关键词与候选关键词之间或每个与关键词相邻的关键词和种子关键词之间的语义距离来计算第二语义距离阈值。例如,关键词生成器模块130可以设置第二语义距离阈值,以便过滤掉与在遍历期间找到的候选关键词相邻的特定百分比(例如,50-70%)的关键词。如果候选节点和与候选节点相邻的节点之间的相应边的语义距离小于另一语义距离阈值,则关键词生成器模块130可以将相邻节点识别为候选节点,并且可以将对应关键词识别为候选关键词。关键词生成器模块130可以对语义关系图中的每个节点重复该过程,并且可以继续向遍历语义关系图的候选关键词集合添加更多节点或关键词,直到已经访问种子节点的语义距离阈值内的所有节点为止。
根据候选节点和关键词的集合,关键词生成器模块130可以识别一个或多个关键词类别。每个关键词类别可以包括一个或多个关键词,该一个或多个关键词被识别为具有小于语义距离阈值的与种子关键词或另一候选关键词的语义距离。在一些实施方式中,关键词生成器模块130可以将聚类算法应用于候选节点集合以及到各个候选节点的相应语义距离,以识别一个或多个关键词类别。聚类算法可以是例如k-最近邻居(k-NN)算法、主成分分析(PCA)、期望最大化(EM)、分层聚类分析(HCA)等。在一些实施方式中,关键词生成器模块130可以识别语义关系图内的每个候选关键词之间的语义距离。在一些实施方式中,关键词生成器模块130可以使用聚类算法以基于所识别的语义距离来识别候选节点的集群(cluster)。例如,使用k-NN算法,关键词生成器模块130可以随机地指定k个节点的初始集合作为k个集群的中数,并将最近的节点分配给集群。然后,关键词生成器模块130可以使用针对每个集群的所识别的语义距离来计算图心(centroid),并调整该中数。在该示例中,当每个集群的中数变化小于预定余量时,关键词生成器模块130可以重复这些步骤直到收敛。在一些实施方式中,关键词生成器模块130可以将每个集群中的节点的关键词设置或分配给关键词类别。
在一些实施方式中,关键词生成器模块130可以基于候选节点的从种子节点起的级别或深度来识别一个或多个关键词类别。在一些实施方式中,关键词生成器模块130可以识别在语义关系图上候选节点的从种子节点起经由相应边的深度。在一些实施方式中,关键词生成器模块130可以识别具有种子节点之一的深度的候选节点的子集。关键词生成器模块130可以将所识别的候选节点子集的每个节点设置或分配到相应的关键词类别中。对于所识别的候选节点子集的每个节点,关键词生成器模块130可以识别与相应候选节点相邻、连接或最近的节点。关键词生成器模块130可以将所识别的与相应候选节点相邻、连接或最近的节点的关键词设置或分配到与候选节点对应的相应关键词类别。
在一些实施方式中,关键词生成器模块130可以为代表相应关键词类别的每个关键词类别识别主题关键词。在一些实施方式中,对于每个关键词类别,关键词生成器模块130可以从关键词类别的一个或多个关键词中选择主题关键词。在一些实施方式中,在每个关键词类别内,关键词生成器模块130可以使用语义关系图确定或计算每个关键词之间的语义距离。在一些实施方式中,对于每个关键词类别,关键词生成器模块130可以识别距相应关键词类别中的所有其他关键词具有最小语义距离的关键词。在一些实施方式中,关键词生成器模块130可以将所识别的距关键词类别的所有其他关键词具有最小语义距离的关键词设置为代表相应关键词类别的主题关键词。
参照图2,图2是描绘根据说明性实施方式的语义关系图200的一个实施方式的框图。在所描绘的示例中,语义关系图200可以包括七个关键词节点205A-F,其中边210A-K连接关键词节点205A-F中的每一个。在图1的数据处理系统110的环境中,关键词生成器模块130可以已将关键词节点205A识别为与种子关键词225的关键词节点相对应。然后,关键词生成器模块130可以已识别经由边210A-G连接的与种子关键词节点205A连接的所有相邻节点。关键词生成器模块130可以已识别种子关键词节点205A与利用边210A-G定义的相邻节点之间的语义距离。在相邻节点中,关键词生成器模块130可以已将两个相邻节点205B和205C识别为具有低于阈值的语义距离,并且因此作为候选节点。然后,关键词生成器模块130可以利用候选节点205B和205C再次重复该过程。关键词生成器模块130可以已识别出关键词节点205C和205D各自具有从种子关键词节点205A起经由关键词节点205B利用边210H和210I定义的低于阈值的语义距离。类似地,关键词生成器模块130可以已识别出关键词节点205E和205F各自具有从种子关键词节点205A起经由关键词节点205C利用边210J和210K定义的低于阈值的语义距离。然后,关键词生成器模块130可以应用聚类算法以将关键词节点205B、205C和205D识别为集群,并且将一个关键词类别230A和关键词节点205C、205E和205F识别为另一个集群和另一个关键词类别230B。
再次参考图1,为了取得用于测量关键词的语义相关性的信息资源,资源解析器模块135可以识别域实体的一个或多个信息资源。域实体可以对应于内容提供者计算设备115、内容发布者计算设备120或客户端设备125中的至少一个,或者或与之相关联。域实体可以是帐户或与信息资源相关联的其他方。域实体可以利用实体标识符或资源标识符来识别,或与实体标识符或资源标识符相关联。在一些实施方式中,可以使用种子关键词来接收实体标识符或资源标识符。资源解析器模块135可以搜索或识别与域实体相关联的多个资源标识符。多个资源标识符(例如,统一资源定位符(URL))中的每一个可以包括主机名和路径名(例如,“www.example.com/levell/level2/page.html”)。例如,资源解析器模块135可以使用网络实体索引器(例如,网络爬虫)来识别经由网络105可用的大量信息资源(例如,网页),并且基于资源标识符的主机名发现所识别的信息资源的属于域实体的子集。在一些实施方式中,资源解析器模块135可以从内容提供者计算设备115、内容发布者计算设备120或客户端设备125接收多个信息资源的资源标识符。
资源解析器模块135可以取得、获得或以其他方式访问域实体的一个或多个信息资源。资源解析器模块135可以解析域实体的一个或多个所访问的信息资源,以获得、取得或以其他方式识别在一个或多个所访问的信息资源上的一个或多个关键词。对于每个识别的关键词,资源解析器模块135可以从信息资源中识别关联的资源标识符、关联的信息资源以及关键词的一个或多个属性。例如,关键词的一个或多个属性可以包括信息资源上的位置、字体类型、字体大小和颜色等。资源解析器模块135可以在数据库155上存储一个或多个信息资源的关键词、与关键词相关联的资源标识符以及关键词的一个或多个属性。
使用由资源解析器模块135识别的一个或多个信息资源的关键词,频率计算器模块140可以为候选关键词集合或关键词类别中的每个关键词生成关键词-种子亲和度分数。关键词-种子亲和度分数可以表示或指示种子关键词和候选关键词一起出现在域实体的一个或多个信息资源上的频率。频率计算器模块140可以确定或以其他方式计算种子关键词和每个候选关键词在一个或多个信息资源中出现的频率计数。频率计算器模块140可以执行搜索算法以确定种子关键词和每个候选关键词是否出现在一个或多个信息资源中。搜索算法可以是例如线性搜索、散列或二进制搜索算法等。每当种子关键词和候选关键词一起出现在任何信息资源上,资源解析器模块135就可以增加频率计数。对于每个候选关键词,频率计算器模块140可以将关键词-种子亲和度分数设置为频率计数。
频率计算器模块140可以将一个或多个信息资源的关键词改变或修改为规范形式。在一些实施方式中,频率计算器模块140可以识别候选关键词与一个或多个信息资源上的任何一个关键词之间的词汇匹配。例如,词汇匹配可以是在候选关键词与一个或多个信息资源的任何关键词之间的逐字符精确的或类似的匹配。在一些实施方式中,频率计算器模块140可以从一个或多个信息资源中识别关键词。在一些实施方式中,频率计算器模块140可以将来自一个或多个信息资源的关键词的字符与候选关键词的字符进行比较,以确定一对一的字符匹配。如果一个或多个信息的关键词的字符是候选关键词的字符的一对一匹配,则频率计算器模块140可以确定在候选关键词与一个或多个信息资源的关键词之间存在词汇匹配。
在一些实施方式中,频率计算器模块140可以使用语义关系图来确定候选关键词与一个或多个信息资源上的任何一个关键词之间的语义匹配。频率计算器模块140可以识别与候选关键词对应的语义关系图的节点。频率计算器模块140可以确定在对应于信息资源的任一个关键词的节点与所识别的对应于候选关键词的节点之间的语义距离是否小于第三语义阈值。在一些实施方式中,可以预定义第三语义距离阈值。在一些实施方式中,频率计算器模块140可以基于每个候选关键词与一个或多个信息资源的关键词之间的语义距离来计算第三语义距离阈值。例如,可以设置第三语义距离阈值以便过滤出与候选关键词相关的特定百分比(例如,80-95%)的关键词。如果频率计算器模块140确定第三语义距离小于语义阈值,则频率计算器模块140可以确定在候选关键词与信息资源的关键词之间存在语义匹配。
基于频率计算器模块140确定候选关键词与一个或多个信息资源上的任一关键词之间存在词汇匹配或语义匹配,频率计算器模块140可以计算、递增或以其他方式更新候选关键词的频率计数。频率计数可以是在一个或多个信息资源上与种子关键词一起出现的候选关键词(具有词汇匹配或语义匹配)的出现次数的测量。在一些实施方式中,频率计算器模块140可以保持计数器以增加候选关键词的频率计数。
频率计算器模块140可以根据频率计数生成或确定关键词-种子亲和度分数。关键词-种子亲和度分数可以是在一个或多个信息资源上与种子关键词一起出现的候选关键词(具有词汇匹配或语义匹配)的出现次数的加权测量。在一些实施方式中,频率计算器模块140可以基于在候选关键词与信息资源的关键词之间的语义距离来调整候选关键词的关键词-种子亲和度分数。频率计算器模块140可以基于相应关键词的一个或多个属性来调整候选关键词的关键词-种子亲和度分数。在一些实施方式中,频率计算器模块140可以确定或计算加权因子,以调整候选关键词的关键词-种子亲和度分数。加权因子可以基于关键词在信息资源上的位置。例如,如果对应的候选关键词相对地朝向关联信息资源的顶部出现,则频率计算器模块140可以增加关键词-种子亲和度分数。另一方面,如果对应的候选关键词相对地朝向关联信息资源的底部出现,则频率计算器模块140可以减少关键词-种子亲和度分数。
在一些实施方式中,频率计算器模块140可以基于域实体的一个或多个信息资源上的候选关键词的字体大小来确定或计算加权因子以调整候选关键词的关键词-种子亲和度分数。例如,如果对应的候选关键词相对大于信息资源上的其他关键词,则频率计算器模块140可以增加关键词-种子亲和度分数。相反,如果对应的候选关键词相对小于信息资源上的其他关键词,则频率计算器模块140可以减少关键词-种子亲和度分数。
在一些实施方式中,频率计算器模块140可以基于信息资源的分层深度或级别来调整候选关键词的关键词-种子亲和度分数。频率计算器模块140可以识别在其上存在候选关键词与域实体的一个或多个信息资源的任何关键词之间的词汇匹配或语义匹配信息资源的资源标识符。频率计算器模块140可以解析资源标识符,以从资源标识符的路径名识别信息资源的分层深度或级别。例如,如果在其上发生词汇匹配的信息资源的资源标识符是“www.example.com/index/subl/”,则频率计算器模块140可以基于斜线从路径名“/index/subl/”识别分层深度是2。
频率计算器模块140可以通过候选关键词的归一化因子来调整关键词-种子亲和度分数或频率分数。在一些实施方式中,频率计算器模块140可以识别通用语料库。通用语料库可以指定关键词出现的标称频率或平均频率。可以从数据库155或跨除了属于域实体的那些信息资源之外的多个信息资源来取得通用语料库。标称频率可以是例如术语频率-逆文档频率(td-idf)测量。在一些实施方式中,频率计算器模块140可以从通用语料库中识别候选关键词的标称频率。在一些实施方案中,频率计算器模块140可基于从通用语料库识别的候选关键词的标称频率来计算或确定归一化。例如,频率计算器模块140可以识别域实体的信息资源的数量,并且计算信息资源的数量和来自通用语料库的标称频率的商作为归一化因子。
参照图3,图3是具有与种子关键词或关键词类别的关键词匹配的一个或多个关键词315A-N的信息资源300的框图。信息资源300可以是单个网页,并且可以包括主要内容305以及其他次要内容元素。主要内容305可以包括一个或多个关键词310A-N。在图1的数据处理系统110的环境中,资源解析器模块135可以已将信息资源300识别为属于从其接收种子关键词的域实体。另外,资源解析器模块135可以已经解析了信息资源300以取得信息资源300的主要内容305上的一个或多个关键词310A-N。结合资源解析器模块135,频率计算器模块140可以在信息资源300的关键词310A-N中搜索种子关键词和候选关键词集合的候选关键词或者关键词类别之一。通过搜索,频率计算器模块140可以已识别三个关键词315A-C,其中至少一个315A匹配种子关键词,并且另一个或两个315B和315C匹配一个或两个候选关键词。在找到匹配时,频率计算器模块140可以为每个候选关键词分配频率计数。频率计算器模块140还可以根据频率计数来计算关键词-种子亲和度分数,并且基于匹配关键词315A-C在信息资源上的位置来调整关键词-种子亲和度分数。在该示例中,频率计算器模块140可以将与匹配关键词315C对应的候选关键词的关键词-种子亲和度分数加权为低于与匹配关键词315B对应的候选关键词的关键词-种子亲和度分数,因为关键词315C与关键词315B相比在信息资源300上显得较低。
再次参考图1,频率计算器模块140可以为每个关键词类别生成或计算类别-种子亲和度分数。在一些实施方式中,频率计算器模块140可以基于关键词类别中的每个关键词的关键词-种子亲和度分数来计算相应关键词类别的组合分数。组合分数可以是关键词类别中的关键词的关键词-种子亲和度分数的平均值。在一些实施方式中,平均值可以是加权平均值,以考虑关键词类别的关键词的关键词-种子亲和度分数的调整。例如,在计算关键词-种子亲和度分数的平均值时,频率计算器模块140可以基于关键词的一个或多个属性、关键词的放置等来调整平均值。在一些实施方式中,频率计算器模块140可以基于关键词类别中的关键词的频率计数来计算相应关键词类别的组合分数。组合分数可以是各个关键词类别中的关键词的频率计数的平均值。
关键词选择器模块145可以将关键词类别内的一个或多个关键词或各个候选关键词确定、识别或选择为与种子关键词和域实体相关或不相关。为了选择关键词类别内的相关的各个关键词,对于候选关键词集合或每个关键词类别中的每个候选关键词,关键词选择器模块145可以将关键词-种子亲和度分数与关键词-种子亲和度分数阈值进行比较。频率关键词选择器模块145可以识别每个关键词类别内的关键词的子集,其中相应的关键词亲和度分数大于或小于或等于关键词-种子亲和度分数阈值。如果关键词-种子亲和度分数小于关键词-种子亲和度分数阈值,则关键词选择器模块145可以确定、识别或选择与种子关键词和域实体相关的相应关键词。如果关键词-种子亲和度大于或等于关键词-种子亲和度分数阈值,则关键词选择器模块145可以确定、识别或未选择与种子关键词和域实体无关的相应关键词。
在一些实施方式中,对于候选关键词集合中的每个候选关键词,关键词选择器模块145将频率计数与阈值频率计数进行比较。在一些实施方式中,关键词选择器模块145可以识别具有大于或等于、或具有小于阈值频率计数的相应频率计数的候选关键词的子集。在一些实施方案中,可预定义阈值频率计数。在一些实施方式中,关键词选择器模块145可以基于关键词的子集中的候选关键词的数量来动态地设置或确定阈值频率计数。例如,关键词选择器模块145可以设置阈值频率计数以从子集中过滤特定百分比(例如,40-60%)的候选关键词。如果频率计数大于或等于阈值频率计数,则关键词选择器模块145可以确定、识别或选择与种子关键词和域实体相关的相应关键词。如果关键词-种子亲和度小于关键词-种子亲和度分数阈值,则关键词选择器模块145可以确定、识别或未选择与种子关键词和域实体无关的相应关键词。
在一些实施方式中,对于候选关键词集合中的每个候选关键词,关键词选择器模块145将关键词-种子亲和度分数与关键词-种子亲和度分数阈值进行比较。在一些实施方式中,关键词选择器模块145可以识别具有大于或等于、或具有小于关键词-种子亲和度分数阈值的相应关键词-种子亲和度分数的每个关键词类别中的关键词的子集。在一些实施方式中,可以预定义关键词-种子亲和度分数阈值。在一些实施方式中,关键词选择器模块145可以基于相应类别中的关键词的数量来动态地设置或确定关键词-种子亲和度分数阈值。例如,关键词选择器模块145可以设置关键词-种子亲和度分数阈值以从关键词类别中过滤特定百分比(例如,40-60%)的候选关键词。如果关键词-种子亲和度分数大于或等于关键词-种子亲和度分数阈值,则关键词选择器模块145可以确定、识别或选择与种子关键词和域实体相关的相应关键词。如果关键词-种子亲和度分数小于关键词-种子亲和度分数阈值,则关键词选择器模块145可以确定、识别或未选择与种子关键词和域实体无关的相应关键词。
关键词选择器模块145可以将一个或多个关键词类别或候选关键词的子集确定、识别或选择为与种子关键词和域实体相关或不相关。为了选择与种子关键词和域实体相关的一个或多个关键词类别,关键词选择器模块145可以将每个关键词类别的类别-种子亲和度分数与类别-种子亲和度分数进行比较。关键词选择器模块145可以将每个关键词类别的类别-种子亲和度分数识别为大于或小于或等于类别-种子亲和度分数阈值。如果类别-种子亲和度分数大于或等于类别-种子亲和度分数阈值,则关键词选择器模块145可以确定、识别或选择与种子关键词和域实体相关的相应关键词类别。在一些实施方式中,关键词选择器模块145可以将相应的关键词类别确定、识别或选择为相关的,同时确定、识别或选择关键词类别中的关键词的子集为不相关的。如果类别-种子亲和度分数小于类别-种子亲和度分数阈值,则关键词选择器模块145可以确定、识别或未选择与种子关键词和域实体无关的相应的关键词类别。
使用语义关系图,关键词选择器模块145可以识别或确定两个或更多个关键词类别之间的语义冲突。在选择内容项时,特定关键词类别可能不适合与其他关键词类别一起使用。例如,关键词类别可以彼此无关(例如,“压扁”(球拍)与“压扁”(蔬菜))。在一些实施方式中,关键词选择器模块145可以基于语义关系图的边来识别或确定语义冲突。在一些实施方式中,关键词选择器模块145可以识别或确定在关键词类别中的每个关键词的一个或多个节点。在一些实施方式中,通过遍历语义关系图,关键词选择器模块145可以识别连接表示关键词的每个节点的一个或多个节点。在一些实施方式中,关键词选择器模块145可以确定连接相应两个节点的每个识别的边是否指定由两个节点表示的每个关键词在语义上是冲突的。在一些实施方式中,如果边指明表示跨两个不同关键词类别的关键词的两个节点在语义上是冲突的,则关键词选择器模块145可以确定或识别在相应关键词类别之间的语义冲突。在一些实施方式中,如果边指明表示跨两个不同关键词类别的关键词的两个节点不是语义冲突的,则关键词选择器模块145可以识别相应关键词类别之间没有语义冲突。
在一些实施方式中,关键词选择器模块145可以确定、计算或计数用于指定表示相应关键词的连接节点在语义上是冲突的多个边。在一些实施方式中,关键词选择器模块145可以将指定表示相应关键词的连接节点在语义上是冲突的边的数量与阈值数量进行比较。如果边的数量大于或等于阈值数量,则关键词选择器模块145可以识别两个相应的关键词类别之间的语义冲突。如果边的数量小于阈值数量,则关键词选择器模块145可以识别两个相应关键词类别之间没有语义冲突。
在一些实施方式中,关键词选择器模块145可以基于跨越两个或更多个关键词类别的关键词之间的语义距离来确定该两个或更多个关键词类别在语义上是冲突的。在一些实施方式中,关键词选择器模块145可以遍历语义关系图以识别在跨越两个或更多个关键词类别的每个关键词之间的语义距离。在一些实施方式中,关键词选择器模块145可以将一个关键词类别中的关键词与另一个关键词类别中的另一个关键词之间的语义距离与语义距离阈值进行比较。该语义距离阈值可以与用于根据种子关键词识别关键词类别中的关键词的阈值不同。如果语义距离大于语义距离阈值,则关键词选择器模块145可以识别或确定两个相应关键词类别之间的语义冲突。
如果在两个或更多个关键词类别之间识别或确定了语义冲突,则关键词选择器模块145可以将相应的类别-种子亲和度分数彼此进行比较。通过比较类别-种子亲和度分数,关键词选择器模块145可以选择与较高或最高类别-种子亲和度分数对应的关键词类别。在一些实施方式中,关键词选择器模块145可以确定、识别或选择与较高或最高类别-种子亲和度分数对应的关键词类别与种子关键词和域实体相关。在一些实施方式中,关键词选择器模块145可以确定、识别或选择与较低或最低类别-种子亲和度分数对应的关键词类别与种子关键词和域实体无关。
在一些实施方式中,关键词选择器模块145可以基于被识别为具有语义冲突的关键词类别来确定或识别关键词类别组之间的语义冲突。在一些实施方式中,关键词选择器模块145可以基于对各个关键词类别之间没有语义冲突的识别来识别关键词类别组。例如,可能有四个关键词类别“A”、“B”、“C”和“D”。基于指定节点之间的语义冲突的边或语义距离,关键词选择器模块145可以识别在关键词类别“A”与“B”、“A”与“C”以及与“B”与“D”之间的语义冲突。根据所识别的语义冲突,关键词选择器模块145可以将关键词类别“A”和“D”识别为一个组,并且将“B”和“C”识别为另一个组。
在一些实施方式中,关键词选择器模块145可以确定或计算被识别为彼此具有语义冲突的关键词类别组中每一个的组-种子亲和度分数。在一些实施方式中,关键词选择器模块145可以将每个关键词类别组的组-种子亲和度分数相互比较。在一些实施方式中,关键词选择器模块145可以确定、识别或选择与更高或最高组-种子亲和度分数对应的关键词类别组与种子关键词和域实体相关。在一些实施方式中,关键词选择器模块145可以确定、识别或选择与较低或最低类别-种子亲和度分数对应的关键词类别组与种子关键词和域实体无关。
界面提供器模块150可以基于对应的频率计数、关键词-种子亲和度分数、类别-种子亲和度分数或组-种子亲和度分数来生成用于将关键词类别和关键词类别的关键词指示为选择或未选择的界面。在一些实施方式中,界面可以是信息资源的一部分或单独的应用程序等。界面可以包括选择或未选择的关键词类别和关键词的一个或多个列表。在一些实施方式中,所选择的关键词类别列表可以与未选择的关键词类别列表不同或分开。界面提供器模块150可以将界面发送到用于发送种子关键词的内容提供者计算设备115、内容发布者计算设备120或客户端设备125。在一些实施方式中,界面提供器模块150可以响应于识别或确定关键词或关键词类别与种子关键词和域实体相关或不相关而生成或传送界面。
参照图4,图4是信息资源400的框图,其中界面405示出了关键词425A-I和430A-I以及从被指定为选择或未选择的种子关键词生成的关键词类别420A-D。界面405可以包括用于种子关键词410A的输入、已选择的关键词类别415A的列表、未选择的关键词类别415B的列表、一个或多个关键词类别420A-E、以及一个或多个关键词425A-I和430A-I。已选择的关键词类别415A的列表通常可以沿着信息资源400的左侧,并且未选择的关键词类别415B的列表通常可以沿着信息资源400的右侧。在已选择的关键词类别415A列下,可以选择一些关键词(例如,复选框435A),但是可以未选择一些其他关键词(例如,复选框435B)。在未选择的关键词类别415B列下,可以不选择所有关键词(例如,复选框435C)。
在图1的上下文中,关键词生成器模块130可以已使用语义关系图和种子关键词410A生成关键词420A-I和430A-I和为关键词420A-I和430A-I中的每一个已确定关键词类别420A-E。资源解析器模块135可以识别属于提交种子关键词410A的域实体的信息资源。频率计算器模块140结合资源解析器模块135可以已计算所生成的关键词和种子关键词跨越所识别的信息资源一起出现的频率计数。使用频率计数,频率计算器模块140可以已经为每个关键词计算了关键词-种子亲和度分数,并然后使用针对关键词类别的关键词的关键词-种子亲和度分数来计算关键词类别的类别-种子亲和度分数。然后,关键词选择器模块145可以将类别-种子亲和度分数与阈值分数进行比较,以将特定类别识别为已选择(420A-C)与种子关键词和域实体相关,将其他类别识别为未选择(例如,420D和420E)与种子关键词和域实体相关。另外,即使在选择了关键词类别时,关键词选择器模块145也可以将各个关键词确定为已选择或未被选择(例如,在所选择的关键词类别420A下的关键词425C未选择,如复选框435A和435B所示)。界面提供器模块150可以使用结果来生成界面405,其中一列列出已选择的关键词类别415A,另一列列出未选择的关键词类别415B。
参照图5,图5是信息资源400的另一个框图,其中界面405示出了关键词425A-I和430A-I以及从被指定为选择或未选择的种子关键词生成的关键词类别420A-D。在图1的上下文中,从域实体接收的种子关键词可以是“刮刀410A”。通过从对应于“刮刀”的节点遍历语义关系图,关键词生成器模块130可以识别出关键词425A-I和430A-I,例如“钢”425D、“手柄”425F和“烹饪”430E。关键词生成器模块130可以将生成的关键词425A-I和430A-I分类为关键词类别“材料”420A、“组件”420B、“颜色”420C,“规则”420D和“服务”420E。然后,频率计算器模块140结合资源解析器模块135可以针对每个关键词类别420A-E计算每个关键词425A-I和430A-I的频率计数、关键词-种子亲和度分数和类别-种子亲和度分数。关键词选择器模块145可以将频率计数和亲和度分数与阈值进行比较,并且基于比较将关键词类别420A-C识别为所选择的并且将关键词类别420D和420E识别为未选择。然后,根据关键词选择器模块145的结果,界面提供器模块150可以生成界面405。
通过遍历语义关系图以找到其他关键词并解析域实体的信息资源以计算关键词与域实体的相关性和亲和度,这里详述的技术可以改进具有更准确和相关的关键词的关键词节点的发现以用于内容选择活动平台。使用语义关系图生成的关键词和关键词类别可以基于相关性和亲和度被过滤并分类为选择或未选择。这些分类可以更好地通知内容提供者指定在内容选择活动平台中使用哪些关键词和关键词类别。另外,过滤可以在内容选择和服务过程期间减少处理功率负担,减少时间,并且提高服务器的效率,同时改进更多相关内容项的选择。此外,从人机交互(HCI)考虑,选择更相关的内容项可能导致最终用户与所选内容项交互的更大可能性,从而利用在其上显示内容项的信息资源来提高用户体验。
参照图6,图6是描绘测量关键词的语义相关性的方法600的流程图。这里结合方法600描述的功能可以由数据处理系统110、内容提供者设备115或其任何组合来执行,或以其他方式运行。简而言之,数据处理系统可以从对应于域实体的内容提供者计算设备接收种子关键词,以生成与种子关键词相关的附加关键词(方框605)。数据处理系统可以使用语义关系图来识别包括第一关键词类别和第二关键词类别的多个关键词类别(方框610)。多个关键词类别中的每一个可以包括多个关键词。多个关键词中的每一个可以具有小于语义距离阈值的与种子关键词的语义距离。数据处理系统可以针对第一关键词类别和第二关键词类别的每个关键词,基于在域实体的信息资源上关键词与种子关键词一起出现的频率来生成关键词-种子亲和度分数(方框615)。对于第一关键词类别,数据处理系统可以基于第一关键词类别中的多个关键词的每一个的关键词-种子亲和度分数来确定第一类别-种子亲和度分数(方框620)。对于第二关键词类别,数据处理系统可以基于第二关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来确定第二类别-种子亲和度分数(方框625)。数据处理系统可以将第一类别-种子亲和度分数和第二类别-种子亲和度分数中的每一个与亲和度分数阈值进行比较(方框630)。数据处理系统可以确定第一类别-种子亲和度分数大于亲和度分数阈值并且第二类别-种子亲和度分数小于亲和度分数阈值(方框635)。数据处理系统可以向内容提供者计算设备发送多个关键词以供显示(方框640)。响应于确定第一类别-种子亲和度分数大于亲和度分数阈值并且第二类别-种子亲和度分数小于亲和度分数阈值,可以将第一关键词类别指示为已选择,并且可以将第二关键词类别指示为未选择。
更详细地,数据处理系统可以从对应于域实体的内容提供者计算设备接收种子关键词,以生成与种子关键词相关的附加关键词(方框605)。在一些实施方式中,数据处理系统可以接收一个或多个种子关键词,以生成与一个或多个种子关键词相关或以其他方式与其相关联的附加关键词。在一些实施方式中,一个或多个种子关键词可以对应于种子短语。种子短语可以包括一个或多个关键词。在一些实施方式中,种子关键词可以是对附加关键词的请求的一部分。对附加关键词的请求还可以包括指定域实体的实体标识符或与域实体相关联的一个或多个资源标识符。可以从内容提供者计算设备、内容发布者计算设备或客户端设备接收种子关键词。在一些实施方式中,可以从在内容提供者计算设备、内容发布者计算设备或客户端设备中的任何一个上执行的内容选择和递送管理平台接收种子关键词。在一些实施方式中,从其接收种子关键词的内容提供者计算设备、内容发布者计算设备或客户端设备可以对应于域实体,与域实体相关联,或以其他方式属于域实体。在进一步处理种子关键词之前,数据处理系统可以使用字典或查找表生成或确定种子关键词的规范形式。字典或查找表可以为单词的每个变型指定规范形式。规范形式可以代表关键词的标准化词汇表示。例如,如果接收的种子关键词是“mice”(老鼠的复数形式),则数据处理系统可以通过在指定“mouse”(老鼠的单数形式)是“mice”的规范形式的字典上执行查找来生成“mouse”作为种子关键词的规范形式。
数据处理系统可以使用语义关系图来识别包括第一关键词类别和第二关键词类别的多个关键词类别(方框610)。多个关键词类别中的每一个可以包括多个关键词。多个关键词中的每一个可以具有小于语义距离阈值的与种子关键词的语义距离。可以遍历语义关系图以发现或以其他方式找到与种子关键词量化相关的其他关键词。数据处理系统可以从数据库访问语义关系图或数据结构(例如,数组、链表、图、树、堆等)。语义关系图可以包括多个关键词或短语。语义关系图还可以指定、指派或以其他方式定义关键词中的每一个之间的语义距离或相关性测量。可以使用自然语言处理技术使用多个预设关键词和关键词中的每一个之间的预定义语义距离或相关性测量来预生成语义关系图。在一些实施方式中,可以使用自然语言处理技术动态地确定多个关键词和关键词中的每一个之间的语义距离或相关性测量。在一些实施方式中,可以通过将自然语言处理技术应用于从各种源(例如,信息资源、扫描书籍等)取得的关键词语料库来不时地更新多个关键词以及关键词中的每一个之间的语义距离或相关性测量。
在一些实施方式中,语义关系图可以包括多个节点和多个边。多个节点可以各自表示关键词。在一些实施方式中,多个节点可以表示包括两个或更多个关键词的短语。多个边可以连接或链接多个节点中的两个节点。多个边中的每一个可以定义或指定语义关系图中的多个节点的两个相应节点的两个关键词之间的语义距离或相关性测量。多个边中的每一个还可以定义或指定语义关系图中的多个节点中的两个相应节点在语义上一致还是在语义上冲突。语义关系图可以使用任何数据结构来实施,例如数组、链表、树或堆等。
使用语义关系图,数据处理系统可以识别或搜索对应于种子关键词的节点。与种子关键词对应的节点可以称为种子节点或初始节点。在一些实施方式中,数据处理系统可以遍历语义关系图以识别种子节点。在一些实施方式中,数据处理系统可以搜索查找表或字典以在语义关系图中找到种子节点。查找表和字典中的每一个可以是用于索引或引用语义关系图的关键词或节点的数据结构。在一些实施方式中,查找表和字典中的每一个的一种或多种数据结构可以与语义关系图分开。
根据对应于语义关系图上的种子关键词的种子节点,数据处理系统可以识别经由相应边与种子节点相邻或连接的一组节点。在一些实施方式中,数据处理系统可以确定相邻节点与种子节点是在语义上一致还是在语义上冲突。对于具有与种子关键词在语义上一起出现的关键词的每个相邻或连接的节点,数据处理系统可以识别从种子节点起的相应边的语义距离。数据处理系统可以将语义距离与第一语义距离阈值进行比较。在一些实施方式中,可以预定义第一语义距离阈值。在一些实施方式中,数据处理系统可以基于每个相邻关键词和种子关键词之间的语义距离来计算第一语义距离阈值。例如,数据处理系统可以设置第一语义距离阈值,以便过滤掉在遍历期间找到的种子关键词附近的特定百分比(例如,50-70%)的关键词。如果种子节点和相邻节点之间的相应边的语义距离小于第一语义距离阈值,则数据处理系统可以将该节点识别为候选节点并且可以将对应的关键词识别为候选关键词。数据处理系统可以将该节点包括在候选节点集合中。候选节点集合中的每个节点可以具有小于第一语义距离阈值的从种子节点起的语义距离。
对于每个候选节点,数据处理系统可以识别经由相应边(如果有的话)与相应候选者相邻或连接的一组节点。数据处理系统可以确定是否存在与相应候选节点相邻或连接的一个或多个节点。如果存在与相应候选节点相邻或连接的一个或多个节点,则数据处理系统可以再次识别每个候选节点的相应边的语义距离。对于每个相邻节点,数据处理系统可以识别相邻节点和候选节点之间的语义距离。数据处理系统可以确定或计算相邻节点经由候选节点与种子节点之间的总语义距离。例如,数据处理系统可以添加在种子节点和候选节点之间的语义距离以及与候选节点相邻的节点与候选节点本身之间的语义距离。
数据处理系统可以将相邻节点和种子节点之间的总语义距离与语义距离阈值进行比较。如果种子节点与邻近候选节点的节点之间的相应边的总语义距离小于语义距离阈值,则数据处理系统可以将相邻节点识别为候选节点,并且可以将对应关键词识别为候选关键词。在一些实施方式中,数据处理系统可以将候选节点和相邻节点之间的语义距离与第二语义距离阈值进行比较。第二语义距离阈值可以小于或等于用于种子与原始候选节点之间的距离的第一语义距离阈值。在一些实施方式中,可以预定义第二语义距离阈值。在一些实施方式中,数据处理系统可以基于在每个相邻关键词与候选关键词之间或在每个关键词相邻关键词与种子关键词之间的语义距离来计算第二语义距离阈值。例如,数据处理系统可以设置第二语义距离阈值,以便过滤掉在遍历期间找到的候选关键词附近的特定百分比(例如,50-70%)的关键词。如果在候选节点和与候选节点相邻的节点之间的相应边的语义距离小于另一语义距离阈值,则数据处理系统可以将相邻节点识别为候选节点并且可以将对应关键词识别为候选关键词。数据处理系统可以为语义关系图中的每个节点重复该过程,并且可以继续向遍历语义关系图的候选关键词集合添加更多节点或关键词,直到已访问了种子节点的语义距离阈值内的所有节点为止。
根据候选节点和关键词的集合,数据处理系统可以识别一个或多个关键词类别。每个关键词类别可以包括一个或多个关键词,该一个或多个关键词被识别为具有小于语义距离阈值的与种子关键词的或者另一候选关键词的语义距离。在一些实施方式中,数据处理系统可以将聚类算法应用于候选节点集合以及到各个候选节点的相应语义距离,以识别一个或多个关键词类别。聚类算法可以是例如k-最近邻居(k-NN)算法、主成分分析(PCA)、期望最大化(EM)、分层聚类分析(HCA)等。在一些实施方式中,数据处理系统可以识别语义关系图内的每个候选关键词之间的语义距离。在一些实施方式中,数据处理系统可以使用聚类算法基于所识别的语义距离来识别候选节点的集群。例如,使用k-NN算法,数据处理系统可以随机地指定k个节点的初始集合作为k个集群的中数,并将最近的节点分配给集群。然后,数据处理系统可以使用针对每个集群的所识别的语义距离来计算图心,并调整该中数。在该示例中,当每个集群的中数改变小于预定余量时,数据处理系统可以重复这些步骤直到收敛。在一些实施方式中,数据处理系统可以将每个集群中的节点的关键词设置或分配给关键词类别。
在一些实施方式中,数据处理系统可以基于候选节点的从种子节点起的级别或深度来识别一个或多个关键词类别。在一些实施方式中,数据处理系统可以识别在语义关系图上候选节点的从种子节点起经由相应边的深度。在一些实施方式中,数据处理系统可以识别从种子节点起具有深度一的候选节点的子集。数据处理系统可以将所识别的候选节点子集的每个节点设置或分配到相应的关键词类别中。对于所识别的候选节点子集的每个节点,数据处理系统可以识别与相应候选节点相邻、连接或最近的节点。数据处理系统可以将所识别的与相应候选者相邻、连接或最近的节点的关键词设置为或分配给与候选节点对应的相应关键词类别的节点。
在一些实施方式中,数据处理系统可以识别代表相应关键词类别的每个关键词类别的主题关键词。在一些实施方式中,对于每个关键词类别,数据处理系统可以从关键词类别的一个或多个关键词中选择主题关键词。在一些实施方式中,在每个关键词类别内,数据处理系统可以使用语义关系图确定或计算每个关键词之间的语义距离。在一些实施方式中,对于每个关键词类别,数据处理系统可以识别具有与相应关键词类别的所有其他关键词的最小语义距离的关键词。在一些实施方式中,数据处理系统可以将所识别的具有与关键词类别中的所有关键词的最小语义距离的关键词设置为代表相应关键词类别的主题关键词。
数据处理系统可以针对第一关键词类别和第二关键词类别的每个关键词,基于在域实体的信息资源上与种子关键词一起出现的关键词的频率,生成关键词-种子亲和度分数(方框615)。关键词-种子亲和度分数可以指示关键词不仅与种子关键词的相关性而且还与关联于域实体的信息资源的关键词的相关性。利用关键词-种子亲和度分数,数据处理系统可以提高发现或找到与域实体更相关的关键词的准确性。为了取得要测量关键词的语义相关性的信息资源,数据处理系统可以识别域实体的一个或多个信息资源。域实体可以对应于内容提供者计算设备、内容发布者计算设备或客户端设备中的至少一个或与之相关联。域实体可以是帐户或以其他方式与信息资源相关联的某一方。域实体可以利用实体标识符或资源标识符来标识,或与实体标识符或资源标识符相关联。在一些实施方式中,可以使用种子关键词来接收实体标识符或资源标识符。资源解析器模块135可以搜索或识别与域实体相关联的多个资源标识符。多个资源标识符(例如,统一资源定位符(URL))中的每一个可以包括主机名和路径名(例如,“www.example.com/level1/1evel2/page.html”)。例如,资源解析器模块135可以使用网络实体索引器(例如,网络爬虫)来识别经由网络105可用的大量信息资源(例如,网页),并且基于资源标识符的主机名发现属于域实体的所识别的信息资源的子集。在一些实施方式中,数据处理系统可以从内容提供者计算设备、内容发布者计算设备或客户端设备接收多个信息资源的资源标识符。
数据处理系统可以取得、获得或以其他方式访问域实体的一个或多个信息资源。数据处理系统可以解析域实体的一个或多个所访问的信息资源,以获得、取得或以其他方式识别在一个或多个所访问的信息资源上的一个或多个关键词。对于每个识别的关键词,数据处理系统可以从信息资源中识别关联的资源标识符、关联的信息资源以及关键词的一个或多个属性。例如,关键词的一个或多个属性可以包括信息资源上的位置、字体类型、字体大小和颜色等。数据处理系统可以在数据库上存储一个或多个信息资源的关键词、与关键词相关联的资源标识符以及关键词的一个或多个属性。
使用由数据处理系统识别的一个或多个信息资源的关键词,数据处理系统可以为候选关键词集合或关键词类别中的每个关键词生成关键词-种子亲和度分数。关键词-种子亲和度分数可以表示或指示种子关键词和候选关键词一起出现在域实体的一个或多个信息资源上的频率。数据处理系统可以确定或以其他方式计算种子关键词和每个候选关键词在一个或多个信息资源中出现的频率计数。数据处理系统可以执行搜索算法以确定种子关键词和每个候选关键词是否出现在一个或多个信息资源中。搜索算法可以是,例如,线性搜索、散列或二进制搜索算法等。每当种子关键词和候选关键词一起出现在任何信息资源上,数据处理系统就可以增加频率计数。对于每个候选关键词,数据处理系统可以将关键词-种子亲和度分数设置为频率计数。
数据处理系统可以将一个或多个信息资源的关键词改变或修改为规范形式。在一些实施方式中,数据处理系统可以识别在候选关键词与一个或多个信息资源上的任何一个关键词之间的词汇匹配。例如,词汇匹配可以是候选关键词与一个或多个信息资源的任何关键词之间的逐字符精确或类似的匹配。在一些实施方式中,数据处理系统可以从一个或多个信息资源中识别关键词。在一些实施方式中,数据处理系统可以将来自一个或多个信息资源的关键词的字符与候选关键词的字符进行比较,以确定一对一的字符匹配。如果一个或多个信息的关键词的字符是候选关键词的字符的一对一匹配,则数据处理系统可以确定在候选关键词与一个或多个信息资源的关键词之间存在词汇匹配。
在一些实施方式中,数据处理系统可以使用语义关系图来确定候选关键词与一个或多个信息资源上的任何一个关键词之间的语义匹配。数据处理系统可以识别与候选关键词对应的语义关系图的节点。数据处理系统可以确定在与信息资源中的任何一个关键词对应的节点与所识别的对应于候选关键词的节点之间的语义距离是否小于第三语义阈值。在一些实施方式中,可以预定义第三语义距离阈值。在一些实施方式中,数据处理系统可以基于每个候选关键词与一个或多个信息资源的关键词之间的语义距离来计算第三语义距离阈值。例如,可以设置第三语义距离阈值以便过滤掉与候选关键词相关的特定百分比(例如,80-95%)的关键词。如果数据处理系统确定第三语义距离小于语义阈值,则数据处理系统可以确定在候选关键词与信息资源的关键词之间存在语义匹配。
基于数据处理系统确定在候选关键词与一个或多个信息资源上的任一关键词之间存在词汇匹配或语义匹配,数据处理系统可以计算、递增或以其他方式更新候选关键词的频率计数。频率计数可以是在一个或多个信息资源上与种子关键词一起出现的候选关键词(具有词汇匹配或语义匹配)的出现次数的测量。在一些实施方式中,数据处理系统可以保持计数器以增加候选关键词的频率计数。
数据处理系统可以根据频率计数生成或确定关键词-种子亲和度分数。关键词-种子亲和度分数可以是在一个或多个信息资源上与种子关键词一起出现的候选关键词(具有词汇匹配或语义匹配)的出现次数的加权测量。在一些实施方式中,数据处理系统可以基于候选关键词与信息资源的关键词之间的语义距离来调整候选关键词的关键词-种子亲和度分数。数据处理系统可以基于相应关键词的一个或多个属性来调整候选关键词的关键词-种子亲和度分数。在一些实施方式中,数据处理系统可以确定或计算加权因子以调整候选关键词的关键词-种子亲和度分数。加权因子可以基于关键词在信息资源上的位置。例如,如果相应的候选关键词相对地朝向关联的信息资源的顶部出现,则数据处理系统可以增加关键词-种子亲和度分数。另一方面,如果相应的候选关键词相对地朝向关联的信息资源的底部出现,则数据处理系统可以减少关键词-种子亲和度分数。
在一些实施方式中,数据处理系统可以基于域实体的一个或多个信息资源上的候选关键词的字体大小来确定或计算加权因子以调整候选关键词的关键词-种子亲和度分数。例如,如果对应的候选关键词相对大于信息资源上的其他关键词,则数据处理系统可以增加关键词-种子亲和度分数。相反,如果相应的候选关键词相对小于信息资源上的其他关键词,则数据处理系统可以减少关键词-种子亲和度分数。
在一些实施方式中,数据处理系统可以基于信息资源的分层深度或级别来调整候选关键词的关键词-种子亲和度分数。数据处理系统可以识别在其上存在候选关键词与域实体的一个或多个信息资源的任何关键词之间的词汇匹配或语义匹配的信息资源的资源标识符。数据处理系统可以解析资源标识符以根据资源标识符的路径名来识别信息资源的分层深度或级别。例如,如果在其上发生词汇匹配的信息资源的资源标识符是“www.example.com/index/subl/”,则数据处理系统可以基于斜线从路径名称“/index/subl/”识别出分层深度为2。
数据处理系统可以通过候选关键词的归一化因子来调整关键词-种子亲和度分数或频率分数。在一些实施方式中,数据处理系统可以识别通用语料库。通用语料库可以指定关键词出现的标称频率或平均频率。可以从数据库或跨属于域实体的那些信息资源之外的多个信息资源取得通用语料库。标称频率可以是例如术语频率-逆文档频率(td-idf)测量。在一些实施方式中,数据处理系统可以从通用语料库中识别候选关键词的标称频率。在一些实施方式中,数据处理系统可以基于从通用语料库中识别的候选关键词的标称频率来计算或确定归一化。例如,数据处理系统可以识别域实体的信息资源的数量,并计算信息资源的数量和来自通用语料库的标称频率的商作为归一化因子。
对于第一关键词类别,数据处理系统可以基于第一关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来确定第一类别-种子亲和度分数(方框620)。对于第二关键词类别,数据处理系统可以基于第二关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来确定第二类别-种子亲和度分数(方框625)。类别-种子亲和度分数可以指示关键词和相应关键词类别不仅与种子关键词而且还与关联于域实体的信息资源的关键词的相关性。利用类别-种子亲和度分数,数据处理系统可以提高用于发现或找到与域实体更相关的关键词的准确性。数据处理系统可以为每个关键词类别生成或计算类别-种子亲和度分数。在一些实施方式中,数据处理系统可以基于关键词类别中的每个关键词的关键词-种子亲和度分数来计算相应关键词类别的组合分数。组合分数可以是关键词类别中的关键词的关键词-种子亲和度分数的平均值。在一些实施方式中,平均值可以是加权平均值,以考虑关键词类别的关键词的关键词-种子亲和度分数的调整。例如,在计算关键词-种子亲和度分数的平均值时,数据处理系统可以基于关键词的一个或多个属性、关键词的放置等来调整平均值。在一些实施方式中,数据处理系统可以基于关键词类别中的关键词的频率计数来计算相应关键词类别的组合分数。组合分数可以是相应关键词类别中的关键词的频率计数的平均值。
数据处理系统可以将第一类别-种子亲和度分数和第二类别-种子亲和度分数中的每一个与亲和度分数阈值进行比较(方框630)。数据处理系统可以确定第一类别-种子亲和度分数大于亲和度分数阈值并且第二类别-种子亲和度分数小于亲和度分数阈值(方框635)。通过亲和度分数与阈值之间的比较,数据处理系统可以过滤、缩小或以其他方式减少在选择内容项时处理的关键词的数量,从而减少数据处理系统处的处理功率消耗。数据处理系统可以将关键词类别内的一个或多个关键词或个别候选关键词确定、识别或选择为与种子关键词和域实体相关或不相关。为了选择相关的关键词类别内的各个关键词,对于候选关键词集合或每个关键词类别中的每个候选关键词,数据处理系统可以将关键词-种子亲和度分数与关键词-种子亲和度分数阈值进行比较。频率数据处理系统可以识别每个关键词类别内的、相应的关键词亲和度分数大于或小于或等于关键词-种子亲和度分数阈值的关键词的子集。如果关键词-种子亲和度分数小于关键词-种子亲和度分数阈值,则数据处理系统可以确定、识别或选择与种子关键词和域实体相关的相应关键词。如果关键词-种子亲和度大于或等于关键词-种子亲和度分数阈值,则数据处理系统可以确定、识别或未选择与种子关键词和域实体无关的相应关键词。
在一些实施方式中,对于候选关键词集合中的每个候选关键词,数据处理系统将频率计数与阈值频率计数进行比较。在一些实施方式中,数据处理系统可以识别具有大于或等于、或具有小于阈值频率计数的相应频率计数的候选关键词的子集。在一些实施方案中,可预定义阈值频率计数。在一些实施方式中,数据处理系统可以基于关键词的子集中的候选关键词的数量来动态地设置或确定阈值频率计数。例如,数据处理系统可以设置阈值频率计数,以从子集中过滤特定百分比(例如,40-60%)的候选关键词。如果频率计数大于或等于阈值频率计数,则数据处理系统可以确定、识别或选择与种子关键词和域实体相关的相应关键词。如果关键词-种子亲和度小于关键词-种子亲和度分数阈值,则数据处理系统可以确定、识别或未选择与种子关键词和域实体无关的相应关键词。
在一些实施方式中,对于候选关键词集合中的每个候选关键词,数据处理系统将关键词-种子亲和度分数与关键词-种子亲和度分数阈值进行比较。在一些实施方式中,数据处理系统可以识别具有大于或等于、或具有小于关键词-种子亲和度分数阈值的相应关键词-种子亲和度分数的每个关键词类别中的关键词的子集。在一些实施方式中,可以预定义关键词-种子亲和度分数阈值。在一些实施方式中,数据处理系统可以基于相应类别中的关键词的数量来动态地设置或确定关键词-种子亲和度分数阈值。例如,数据处理系统可以设置关键词-种子亲和度分数阈值,以从关键词类别中过滤特定百分比(例如,40-60%)的候选关键词。如果关键词-种子亲和度分数大于或等于关键词-种子亲和度分数阈值,则数据处理系统可以确定、识别或选择与种子关键词和域实体相关的相应关键词。如果关键词-种子亲和度小于关键词-种子亲和度分数阈值,则数据处理系统可以确定、识别或未选择与种子关键词和域实体无关的相应关键词。
数据处理系统可以确定、识别或选择与种子关键词和域实体相关或不相关的一个或多个关键词类别或候选关键词的子集。为了选择与种子关键词和域实体相关的一个或多个关键词类别,数据处理系统可以将每个关键词类别的类别-种子亲和度分数与类别-种子亲和度分数进行比较。数据处理系统可以将每个关键词类别的类别-种子亲和度分数识别为大于或小于或等于类别-种子亲和度分数阈值。如果类别-种子亲和度分数大于或等于类别-种子亲和度分数阈值,则数据处理系统可以确定、识别或选择与种子关键词和域实体相关的相应关键词类别。在一些实施方式中,数据处理系统可以确定、识别或选择相应的关键词类别为相关,同时确定、识别或选择关键词类别中的关键词的子集为不相关的。如果类别-种子亲和度分数小于类别-种子亲和度分数阈值,则数据处理系统可以确定、识别或未选择与种子关键词和域实体无关的相应关键词类别。
使用语义关系图,数据处理系统可以识别或确定两个或更多个关键词类别之间的语义冲突。在选择内容项时,某些关键词类别可能不适合结合其他关键词类别使用。例如,关键词类别可以彼此无关(例如,“压扁”(球拍)与“压扁”(蔬菜))。在一些实施方式中,数据处理系统可以基于语义关系图的边来识别或确定语义冲突。在一些实施方式中,数据处理系统可以识别或确定关键词类别中的每个关键词的一个或多个节点。在一些实施方式中,通过遍历语义关系图,数据处理系统可以识别连接表示关键词的每个节点的一个或多个节点。在一些实施方式中,数据处理系统可以确定连接相应两个节点的每个识别的边是否指定由两个节点表示的每个关键词在语义上是冲突的。在一些实施方式中,如果边指定表示跨两个不同关键词类别的关键词的两个节点在语义上是冲突的,则数据处理系统可以确定或识别相应关键词类别之间的语义冲突。在一些实施方式中,如果边指定表示跨两个不同关键词类别的关键词的两个节点不是语义冲突的,则数据处理系统可以识别相应关键词类别之间没有语义冲突。
在一些实施方式中,数据处理系统可以确定、计算或计数用于指定表示相应关键词的连接节点在语义上是冲突的多个边。在一些实施方式中,数据处理系统可以将指定表示相应关键词的连接节点在语义上冲突的边的数量与阈值数量进行比较。如果边的数量大于或等于阈值数量,则数据处理系统可以识别在两个相应关键词类别之间的语义冲突。如果边的数量小于阈值数量,则数据处理系统可以识别两个相应关键词类别之间没有语义冲突。
在一些实施方式中,数据处理系统可以基于跨越两个或更多个关键词类别的关键词之间的语义距离来确定两个或更多个关键词类别在语义上是冲突的。在一些实施方式中,数据处理系统可以遍历语义关系图以识别跨越两个或更多个关键词类别的每个关键词之间的语义距离。在一些实施方式中,数据处理系统可以将一个关键词类别中的关键词到另一个关键词类别中的另一个关键词的语义距离与语义距离阈值进行比较。语义距离阈值可以与用于从种子关键词识别关键词类别中的关键词的阈值不同。如果语义距离大于语义距离阈值,则数据处理系统可以识别或确定两个相应关键词类别之间的语义冲突。
如果识别或确定在两个或更多个关键词类别之间的语义冲突,则数据处理系统可以将相应的类别-种子亲和度分数彼此进行比较。通过比较类别-种子亲和度分数,数据处理系统可以选择与较高或最高类别-种子亲和度分数对应的关键词类别。在一些实施方式中,数据处理系统可以确定、识别或选择与较高或最高类别-种子亲和度分数对应的关键词类别与种子关键词和域实体相关。在一些实施方式中,数据处理系统可以确定、识别或选择与较低或最低类别-种子亲和度分数对应的关键词类别与种子关键词和域实体无关。
在一些实施方式中,数据处理系统可以基于被识别为具有语义冲突的关键词类别来确定或识别在关键词类别组之间的语义冲突。在一些实施方式中,数据处理系统可以基于对相应关键词类别之间没有语义冲突的识别来识别关键词类别组。例如,可能有四个关键词类别“A”、“B”、“C”和“D”。基于指定节点之间的语义冲突的边或语义距离,数据处理系统可以识别关键词类别“A”和“B”、“A”和“C”以及“B”和“D”之间的语义冲突。根据所识别的语义冲突,数据处理系统可以将关键词类别“A”和“D”识别为一个组,并且将“B”和“C”识别为另一个组。
在一些实施方式中,数据处理系统可以确定或计算被识别为彼此具有语义冲突的每个关键词类别组的组-种子亲和度分数。在一些实施方式中,数据处理系统可以将每个关键词类别组的组-种子亲和度分数相互比较。在一些实施方式中,数据处理系统可以确定、识别或选择对应于更高或最高组-种子亲和度分数的关键词类别组与种子关键词和域实体相关。在一些实施方式中,数据处理系统可以确定、识别或选择与较低或最低类别-种子亲和度分数相对应的关键词类别组与种子关键词和域实体无关。
数据处理系统可以向内容提供者计算设备发送多个关键词以供显示(方框640)。响应于确定第一类别-种子亲和度分数大于亲和度分数阈值并且第二类别-种子亲和度分数小于亲和度分数阈值,可以将第一关键词类别指示为已选择,并且可以将第二关键词类别指示为未选择。向多个关键词提供被指示为相关或不相关的子集可以更好地通知内容提供者选择更相关的关键词以在内容选择活动中使用。结果,选择并提供给客户端设备以供显示的内容项可能与每个终端用户更相关并且可以导致更高的交互率,从而利用在其上显示内容项的信息资源来改善人机交互(HCI)和用户体验。数据处理系统可以基于相应的频率计数、关键词-种子亲和度分数、类别-种子亲和度分数或组-种子亲和度分数生成界面,以指示关键词类别和关键词类别的关键词被选择或未被选择。在一些实施方式中,界面可以是信息资源的一部分或单独的应用程序等。界面可以包括已选择或未选择的关键词类别和关键词的一个或多个列表。在一些实施方式中,所选择的关键词类别的列表可以与未选择的关键词类别的列表不同或分开。数据处理系统可以将界面发送到用于发送种子关键词的内容提供者计算设备、内容发布者计算设备或客户端设备。在一些实施方式中,响应于识别或确定关键词或关键词类别与种子关键词和域实体相关或不相关,数据处理系统可以生成或发送界面。
参考图7A-7D,图7A-7D是描绘测量关键词的语义相关性的方法700的流程图。这里结合方法700描述的功能可以由数据处理系统110、内容提供者设备115或其任何组合来执行或以其他方式运行。更详细地,数据处理系统可以接收种子关键词(方框702)。种子关键词可以从计算设备接收,并且可以用于生成与种子关键词相关的附加关键词。数据处理系统可以访问语义关系图(方框704)。语义关系图可以包括多个关键词或短语。语义关系图可以指定、指派或以其他方式定义关键词或短语中的每一个之间的语义距离或相关性测量。数据处理系统可以从语义图中识别对应于种子关键词的种子节点(方框706)。从方框708到722,数据处理系统可以遍历语义关系图以识别与种子关键词相关的关键词。可以使用其他功能或算法来遍历语义关系图。数据处理系统可以识别在种子节点或当前节点附近尚未遍历的节点(方框708)。数据处理系统可以确定当前节点与种子节点的语义距离是否小于或等于阈值(方框710)。如果语义距离小于或等于阈值,则数据处理系统可以将相邻节点包括在候选节点集合中(方框712)。数据处理系统可以确定与候选节点相邻的节点的数量是否大于或等于1(方框714)。如果与候选节点相邻的节点的数量大于或等于1,则数据处理系统可以将候选节点设置为当前节点(方框716)。在任一情况下,数据处理系统都可以返回到方框708的功能。如果语义距离大于阈值,则数据处理系统可以确定遍历的节点的数量是否大于或等于与当前节点相邻的节点的数量(方框718)。如果否,则数据处理系统可以返回到方框708的功能。如果是,则数据处理系统可以确定当前节点是否是种子节点(方框720)。如果当前节点不是种子节点,则数据处理系统可以将先前参考的节点设置为当前节点(方框722),并返回到方框708的功能。如果当前节点是种子节点,则数据处理系统可以继续到方框724。
从方框726到732,数据处理系统可以将识别的关键词聚类成关键词类别。可以使用其他功能和算法来识别关键词类别。从方框724开始,数据处理系统可以基于彼此的语义距离来识别初始节点集群(方框726)。数据处理系统可以基于语义距离来计算节点集群度量(例如,图心、中数、平均值等)(方框728)。数据处理系统可以确定集群度量是否小于或等于收敛阈值(方框730)。如果否,则数据处理系统可以基于语义距离和集群度量来调整节点集群(方框732),并重复方框728的功能。如果是,则数据处理系统可以将每个节点集群设置为关键词类别(方框734),并继续到方框736。
与其他功能分开或并行,数据处理系统可以识别域实体的信息资源(方框740)。数据处理系统可以解析信息资源以得到其上的关键词(方框742)。从方框736开始,数据处理系统可以从关键词类别之一识别关键词(方框744)。数据处理系统可以确定种子关键词和关键词类别的当前关键词是否出现在信息资源上(方框746)。
如果种子关键词和当前关键词出现在信息资源上,则数据处理系统可以增加关键词类别中关键词的频率计数(方框748)。数据处理系统可以基于频率计数多种因素(例如,信息资源上的关键词的位置)来计算和调整关键词亲和度分数(方框750)。数据处理系统可以确定关键词类别中的关键词的关键词亲和度分数是否大于或等于频率阈值(方框752)。如果频率计数大于或等于关键词阈值分数,则数据处理系统可以将关键词设置为选择(方框754)。如果关键词亲和度分数小于关键词阈值分数,则数据处理系统可以将关键词设置为未选择(方框756)。
如果种子关键词和当前关键词没有在信息资源上出现,则数据处理系统可以确定当前关键词类别中是否还有任何更多关键词(方框758)。如果是,则数据处理系统可以识别关键词类别中的下一个关键词(方框772)。如果否,则数据处理系统可以基于关键词类别的每个关键词的关键词亲和度分数来计算关键词类别的类别亲和度分数(方框760)。数据处理系统可以确定总类别亲和度分数是否大于或等于类别亲和度分数阈值(方框762)。如果是,则数据处理系统可以将关键词类别设置为已选择(方框764)。如果否,则数据处理系统可以将关键词类别设置为未选择(方框766)。在任一情况下,数据处理系统可以确定是否还有任何更多关键词类别(方框768)。如果存在更多关键词类别,则数据处理系统可以识别下一关键词类别(方框770),可以识别下一关键词类别中的关键词(方框772),并且可以重复方框746的功能。如果没有更多关键词类别,则数据处理系统可以继续到方框774。
从方框774起,数据处理系统可以使用语义关系图来识别任何两个关键词类别之间是否存在任何语义冲突(方框776)。如果是,则数据处理系统可以识别具有语义冲突的每个关键词类别的总频率计数(方框778)。数据处理系统可以确定一个关键词类别的总频率计数是否大于或等于具有语义冲突的另一个关键词类别的总频率计数(方框780)。如果是,则数据处理系统可以将第一关键词类别设置为已选择(方框782)。如果否,则数据处理系统可以将另一个关键词类别设置为已选择(方框784)。无论如何,数据处理系统可以使用所选择和未选择的关键词和关键词类别来生成界面脚本(方框786)。数据处理系统可以将界面脚本发送到提供种子关键词的计算设备(方框788)。
图8示出了根据一些实施方式的可用于实施本文所讨论的任何计算机系统的说明性计算机系统800的一般体系结构(包括系统110及其组件,诸如关键词生成器模块130、资源解析器模块135和频率计算器模块140)。计算机系统800可用于经由网络105提供信息以供显示。图8的计算机系统800包括通信地耦接到存储器825的一个或多个处理器820、一个或多个通信接口805、以及一个或多个输出设备810(例如,一个或多个显示单元)和一个或多个输入设备815。处理器820可被包括在数据处理系统110或系统110的其他组件中,例如关键词生成器模块130、资源解析器模块135、频率计算器模块140、关键词选择器模块145和界面提供器模块150。
在图8的计算机系统800中,存储器825可以包括任何计算机可读存储介质,并且可以存储例如处理器可执行指令的计算机指令,用于实施本文描述的用于各个系统的各种功能,以及与其相关的、由此生成或经由(多个)通信接口或(多个)输入设备(如果存在)接收的任何数据。再次参考图1的系统110,数据处理系统110可以包括存储器825,用于存储与一个或多个内容单元的库存的可用性、一个或多个内容单元的预留等有关的信息。存储器825可以包括数据库155。图8中所示的(多个)处理器820可以用于执行存储在存储器825中的指令,并且在这样做时,还可以从存储器读取或向存储器写入根据指令的执行处理和/或生成的各种信息。
图8中所示的计算机系统800的处理器820还可以通信地耦接到或控制(多个)通信接口805,以根据指令的执行来发送或接收各种信息。例如,(多个)通信接口805可以耦接到有线或无线网络、总线或其他通信部件,并因此可以允许计算机系统800向其他设备(例如,其他计算机系统)发送信息或从其接收信息。尽管未在图1的系统中明确示出,一个或多个通信接口便于系统100的组件之间的信息流。在一些实施方式中,(多个)通信接口可以被配置(例如,经由各种硬件组件或软件组件)以提供网站作为到计算机系统800的至少一些方面的访问门户。通信接口805的示例包括用户界面(例如,网页),用户可以通过该用户界面与数据处理系统110通信。
例如可以提供图8中所示的计算机系统800的输出设备810,以允许结合指令的执行来查看或以其他方式感知各种信息。例如,可以提供(多个)输入设备815以允许用户在执行指令期间进行手动调整、进行选择、输入数据或以各种方式中的任何一种与处理器进行交互。这里进一步提供了与可用于本文讨论的各种系统的通用计算机系统架构有关的附加信息。
本说明书中描述的主题和操作的实施方式可以在数字电子电路中实施,或者在有形介质、固件或硬件上实施的计算机软件中实施,包括本说明书中公开的结构及其结构等同物、或者它们的一个或多个的组合。本说明书中描述的主题的实施方式可以实施为一个或多个计算机程序,即计算机程序指令的一个或多个模块,其被编码在计算机存储介质上,用于由数据处理装置执行或控制数据处理装置的操作。程序指令可以编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,其被生成以编码信息以便传输到合适的接收器装置以供数据处理装置执行。计算机存储介质可以是或包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备、或它们中的一个或多个的组合中。此外,虽然计算机存储介质不是传播信号,但是计算机存储介质可以包括以人工生成的传播信号编码的计算机程序指令的源或目的地。计算机存储介质也可以是或包括在一个或多个单独的物理组件或介质(例如,多个CD、磁盘或其他存储设备)中。
这里公开的特征可以在智能电视模块(或连接的电视模块、混合电视模块等)上实施,其可以包括处理模块,该处理模块被配置为将互联网连接与(例如,经由电缆、卫星、无线或其他信号接收的)更传统的电视节目源集成。智能电视模块可以物理地合并到电视机中,或者可以包括单独的设备,诸如机顶盒、蓝光或其他数字媒体播放器、游戏控制台、酒店电视系统和其他伴随设备。智能电视模块可以被配置为允许观看者搜索和查找在网络上、在本地有线电视频道上、在卫星电视频道上、或者存储在本地硬盘驱动器上的视频、电影、照片和其他内容。机顶盒(STB)或机顶盒单元(STU)可以包括信息家电设备,该信息家电设备可以包含调谐器并连接到电视机和外部信号源,将信号转换成然后被显示在电视屏幕或其他显示设备上的内容。智能电视模块可以被配置为提供主屏幕或顶级屏幕,其包括用于诸如网络浏览器和多个流媒体服务、连接的有线或卫星媒体源、其他网络“频道”等的多个不同应用的图标。智能电视模块还可以被配置为向用户提供电子节目指南。智能电视模块的伴随应用可以在移动计算设备上操作,以向用户提供关于可用节目的附加信息,允许用户控制智能电视模块等。在替代实施方式中,特征可以在膝上型计算机或其他个人计算机、智能电话、其他移动电话、手持式计算机、平板PC或其他计算设备上实施。
本说明书中描述的操作可以实施为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他源接收的数据执行的操作。
术语“数据处理装置”、“数据处理系统”、“用户设备”或“计算设备”包括用于处理数据的所有类型的装置、设备和机器,例如包括可编程处理器、计算机、片上系统、或其多个、或前述的组合。该装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行环境、虚拟机或它们的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础结构,例如web服务、分布式计算和网格计算基础结构。关键词生成器模块130、资源解析器模块135、频率计算器模块140、关键词选择器模块145和界面提供器模块150可以包括或共享一个或多个数据处理装置、计算设备或处理器。
计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言、声明或过程语言,并且可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程、对象或适用于计算环境的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序可以存储在文件的一部分中,该文件保存其他程序或数据(例如,存储在标记语言文档中的一个或多个脚本),存储在专用于所讨论的程序的单个文件中,或者存储在多个协调文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。可以部署计算机程序以在一个计算机上执行,或在位于一个站点上或分布在多个站点上并通过通信网络互连的多个计算机上执行。
本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流程也可以由专用逻辑电路执行,并且装置也可以实施为专用逻辑电路,专用逻辑电路例如是FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
作为示例,适合于执行计算机程序的处理器包括通用和专用微处理器,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本要素是用于根据指令执行动作的处理器和一个或多个用于存储指令和数据的存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘或光盘)、或被可操作地耦接以从用于存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘或光盘)接收数据、或向其传输数据、或二者。但是,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一个设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪存驱动器)。适用于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,例如包括:半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;和CD-ROM和DVD-ROM磁盘。处理器和存储器可以用专用逻辑电路补充或被并入专用逻辑电路中。
为了提供与用户的交互,本说明书中描述的主题的实施方式可以在具有用于向用户显示信息的显示设备和键盘以及指示设备的计算机上实施,显示设备例如为CRT(阴极射线管)、等离子或LCD(液晶显示器)监视器,指示设备例如为鼠标或轨迹球,用户可通过键盘以及指示设备向计算机提供输入。其他类型的设备也可用于提供与用户的交互,例如,提供给用户的反馈可以包括任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声学、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求将网页发送到用户的客户端设备上的网络浏览器。
本说明书中描述的主题的实施方式可以实施在计算系统中,该计算系统包括后端组件,例如作为数据服务器,或者该计算系统包括中间件组件,例如应用服务器,或者该计算系统包括前端组件,例如具有图形用户界面或网络浏览器的客户端计算机,用户可通过其与本说明书中描述的主题的实施方式进行交互,或者该计算系统包括这样的后端、中间件或前端组件的一个或多个的任何组合。系统的组件可以通过例如通信网络的数字数据通信的任何形式或介质互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),网络间(例如,因特网)和对等网络(例如,ad hoc对等网络)。
诸如系统800或系统110的计算系统可以包括客户端和服务器。例如,数据处理系统110可以包括一个或多个数据中心或服务器群中的一个或多个服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中,服务器将数据(例如,HTML页面)发送到客户端设备(例如,用于向与客户端设备交互的用户显示数据和从其接收用户输入的目的)。可以从服务器处的客户端设备接收在客户端设备处生成的数据(例如,用户交互的结果)。
虽然本说明书包含许多具体的实施细节,但这些不应被解释为对任何发明或可能要求保护的范围的限制,而是作为对本文所述系统和方法的具体实施方式特定的特征的描述。在本说明书中描述的在分开实施方式的上下文中的某些功能也可以在单个实施方式中组合实施。相反,在单个实施方式的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施方式中实施。此外,尽管上面的特征可以描述为以某些组合起作用并且甚至最初如此声明,但是在某些情况下可以从组合中切除来自所要求保护的组合的一个或多个特征,并且所要求保护的组合可以针对子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应该被理解为要求以所示的特定顺序或按顺序执行这些操作,或者执行所有示出的操作,以实现期望的结果。在一些情况下,权利要求中叙述的动作可以以不同的顺序执行并且仍然实现期望的结果。另外,附图中描绘的过程不一定需要所示的具体顺序或顺序次序来实现期望的结果。
在某些情况下,多任务处理和并行处理可能是有利的。而且,在上述实施方式中的各种系统组件的分离不应被理解为在所有实施方式中都需要这种分离,并且应该理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中或打包成多个软件产品。例如,关键词生成器模块130、资源解析器模块135、频率计算器模块140、关键词选择器模块145和界面提供器模块150可以是数据处理系统110的一部分、单个模块、具有一个或多个处理模块的逻辑设备、一个或多个服务器或搜索引擎的一部分。
现在已经描述了一些说明性实施方式,显而易见的是,前述内容是说明性的而非限制性的,已经通过示例的方式呈现。特别地,尽管这里呈现的许多示例涉及方法动作或系统元件的特定组合,但是这些动作和这些元件可以以其他方式组合以实现相同的目标。仅结合一个实施方式讨论的动作、元素和特征不旨在从其他实施方式的类似角色或实施方式中排除。
本文使用的措辞和术语是出于描述的目的,不应被视为限制性的。本文“包括”、“包含”、“具有”、“含有”、“涉及”、“由……表征”、“特征在于”及其变型的使用,意味着包括其后列出的项、其等同物和附加项、以及由其后排他地列出的项组成替代实施方式。在一个实施方式中,本文描述的系统和方法包括所描述的元件、动作或组件中的一个、多于一个的每个组合或所有的组合。
本文以单数形式提及的对系统和方法的实施方式或元件或动作的任何引用也可以包括包含多个这些元件的实施方式,并且本文中的任何实施方式或元件或动作的任何复数引用也可以包括仅包含单个元件的实施方式。单数或复数形式的引用并不旨在将当前公开的系统或方法、它们的组件、动作或元件限制为单个或多个配置。对基于任何信息、动作或元件的任何动作或元件的引用可以包括其中动作或元件至少部分地基于任何信息、动作或元件的实施方式。
本文公开的任何实施方式可以与任何其它实施方式组合,并且对“实施方式”、“一些实施方式”、“替代实施方式”、“各种实施方式”、“一个实施方式”等的引用不一定是相互排斥的并且是旨在指示结合实施方式描述的特定特征、结构或特性可以被包括在至少一个实施方式中。本文使用的这些术语不一定都指的是相同的实施方式。任何实施方式可以以与本文公开的方面和实施方式一致的任何方式包含或排他地与任何其它实施方式组合。
对“或”的引用可以被解释为包含性的,使得使用“或”描述的任何术语可以指示所描述的术语中的单个、多于一个和所有术语中的任一者。
在附图、具体描述或任何权利要求中的技术特征后面附有附图标记的情况下,包括附图标记的唯一目的是增加附图、具体描述和权利要求的可理解度。因此,附图标记和它们的缺失都不会对任何权利要求要素的范围产生任何限制影响。
在不脱离其特征的情况下,本文描述的系统和方法可以以其它特定形式实施方式。尽管本文提供的示例与测量关键词的语义相关性有关,但本文所述的系统和方法可以包括应用于其他环境。前述实施方式是说明性的而非限制所描述的系统和方法。因此,本文描述的系统和方法的范围由所附权利要求而不是前面的描述表示,并且落入权利要求的等同物的含义和范围内的变化也包含在其中。

Claims (17)

1.一种通过解析信息资源来测量关键词的语义相关性的方法,包括:
通过具有一个或多个处理器的数据处理系统从对应于域实体的内容提供者计算设备接收种子关键词,以生成与种子关键词相关的附加关键词;
通过数据处理系统使用语义关系图来识别包括第一关键词类别和第二关键词类别的多个关键词类别,多个关键词类别中的每一个包括多个关键词,多个关键词中的每一个具有小于语义距离阈值的与种子关键词的语义距离;
针对第一关键词类别和第二关键词类别的每个关键词,通过数据处理系统基于在域实体的信息资源上关键词与种子关键词出现的频率生成关键词-种子亲和度分数;
对于第一关键词类别,通过数据处理系统基于第一关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来确定第一类别-种子亲和度分数;
对于第二关键词类别,通过数据处理系统基于第二关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来确定第二类别-种子亲和度分数;
通过数据处理系统将第一类别-种子亲和度分数和第二类别-种子亲和度分数中的每一个与亲和度分数阈值进行比较;
通过数据处理系统确定第一类别-种子亲和度分数大于亲和度分数阈值并且第二类别-种子亲和度分数小于亲和度分数阈值;以及
通过数据处理系统向内容提供者计算设备发送多个关键词以供显示,响应于确定第一类别-种子亲和度分数大于亲和度分数阈值并且第二类别-种子亲和度分数小于亲和度分数阈值,将第一关键词类别指示为已选择、并且将第二关键词类别指示为未选择。
2.如权利要求1所述的方法,还包括:
通过数据处理系统使用语义关系图来识别第一关键词类别和第二关键词类别之间的语义冲突;
响应于识别第一关键词类别和第二关键词类别之间的语义冲突,通过数据处理系统将第一类别-种子亲和度分数与第二类别亲和度分数进行比较;以及
其中,发送多个关键词还包括发送多个关键词,响应于确定第一类别-种子亲和度分数大于第二类别-种子亲和度分数,第一关键词类别被指示为已选择并且第二关键词类别被指示为未选择。
3.如权利要求1和2中任一项所述的方法,还包括:
通过数据处理系统使用语义关系图来识别在第一关键词类别、第二关键词类别和第三关键词类别之间的语义冲突;
通过数据处理系统基于语义冲突确定第一类别组和第二类别组,第一类别组包括第一关键词类别,第二类别组包括第二关键词类别和第三关键词类别类别;
通过数据处理系统确定第一类别组的第一组-种子亲和度分数和第二类别组的第二组-种子亲和度分数;
通过数据处理系统将第一组-种子亲和度分数与第二组-种子亲和度分数进行比较;以及
其中,发送多个关键词以供显示还包括发送多个关键词,响应于确定第一组-种子亲和度分数大于第二组-种子亲和度分数,第一关键词类别被指示为已选择并且第二关键词类别和第三关键词类别被指示为未选择。
4.如前述权利要求任一项所述的方法,还包括:
针对第一关键词类别和第二关键词类别的每个关键词,通过数据处理系统将关键词-种子亲和度分数与第二亲和度分数阈值进行比较;以及
针对第一关键词类别和第二关键词类别中的每一个,通过数据处理系统识别各自具有小于第二亲和度分数阈值的相应关键词-种子亲和度分数的关键词的子集;以及
其中,发送多个关键词还包括发送多个关键词,响应于识别各自具有小于第二亲和度分数阈值的关键词-种子亲和度分数的关键词的子集,第一关键词类别或第二关键词类别中的关键词的子集被指示为未选择。
5.如前述权利要求任一项所述的方法,其中,确定第一类别-种子亲和度分数还包括基于第一关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来计算第一组合分数;并且
其中,确定第二类别-种子亲和度分数还包括基于第二关键词类别中的多个关键词中的每一个的关键词-种子亲和度分数来计算第二组合分数。
6.如前述权利要求任一项所述的方法,其中,生成关键词-种子亲和度分数还包括:
解析信息资源,以识别信息资源的一个或多个术语以及一个或多个术语中的每个术语在信息资源上的放置;和
对于第一关键词类别和第二关键词类别中的至少一个关键词,使用语义关系图确定在信息资源的一个或多个术语中的至少一个与相应的关键词之间的第一语义匹配;
使用语义关系图确定在信息资源的一个或多个术语中的至少一个与种子关键词之间的第二语义匹配;和
响应于确定第一语义匹配和确定第二语义匹配,基于对应关键词在信息资源上的放置来计算关键词-种子亲和度分数。
7.如前述权利要求任一项所述的方法,其中生成关键词-种子亲和度分数还包括:
识别信息资源的分层深度;和
针对第一关键词类别和第二关键词类别中的每个关键词-种子亲和度分数,基于针对信息资源识别的分层深度利用预设权重调整关键词-种子亲和度分数。
8.如前述权利要求任一项所述的方法,其中生成关键词-种子亲和度分数还包括:
针对第一关键词类别和第二关键词类别的每个关键词识别指示跨越多个信息资源的关键词的平均频率的归一化因子;和
针对第一关键词类别和第二关键词类别的每个关键词-种子亲和度分数,通过归一化因子来调整关键词-种子亲和度分数。
9.如前述权利要求任一项所述的方法,还包括:
通过数据处理系统使用语义关系图从多个关键词中识别代表第一关键词类别的第一主题关键词和代表第二关键词类别的第二主题关键词,第一主题关键词具有小于语义距离阈值的与第一关键词类别中的多个关键词中的每个关键词的第一最小语义距离,第二主题关键词具有小于语义距离阈值的与第二关键词类别中的多个关键词中的每个关键词的第二最小语义距离;以及
其中,发送多个关键词以供显示还包括,响应于识别第一主题关键词和第二主题关键词,发送被分类为第一关键词类别和第二关键词类别的多个关键词以供显示,第一关键词类别具有第一主题关键词,第二关键词类别具有第二主题关键词。
10.如前述权利要求任一项所述的方法,其中,发送多个关键词以供显示还包括发送脚本,该脚本触发内容提供者计算设备以显示关键词选择界面,该关键词选择界面包括指示第一关键词类别的多个关键词中的每一个被选择的第一内容元素和指示第二关键词类别的多个关键词中的每一个未被选择的第二内容元素。
11.如前述权利要求任一项所述的方法,其中,所述内容提供者计算设备被配置为基于多个关键词、指示为被选择的第一关键词类别和指示为未选择的第二关键词类别来选择内容。
12.一种用于通过解析信息资源来测量关键词的语义相关性的方法,包括:
通过具有一个或多个处理器的数据处理系统从对应于域实体的内容提供者计算设备接收种子关键词,以生成与种子关键词语义相关的附加关键词;
通过数据处理系统从数据库访问语义关系图,该语义关系图包括表示关键词的多个节点和多个边,该多个边的每个连接该多个节点的两个相应节点并定义表示该两个相应节点的两个关键词之间的语义距离;
通过数据处理系统遍历所述语义关系图的多个节点,以识别表示所述种子关键词的种子节点、并且对于与所述种子节点相邻的每个候选节点识别所述种子关键词与所述相邻节点的关键词之间的语义距离;
通过数据处理系统从与种子节点相邻的多个节点中识别出具有相应边的候选节点的集合,种子节点-候选节点对之间的相应语义距离小于语义距离阈值;
通过数据处理系统识别域实体的多个信息资源;
通过数据处理系统针对候选节点的集合的每个候选关键词解析多个信息资源,以确定种子关键词和候选关键词出现在多个信息资源中的频率;
通过数据处理系统从候选节点的集合的候选关键词识别各自具有大于或等于频率阈值的相应频率的第一关键词集合以及各自具有小于频率阈值的相应频率的第二关键词集合;
通过数据处理系统向内容提供者计算设备发送指令,以基于对应频率和频率阈值在内容提供者计算设备处显示第一关键词集合被选择、为相关的并且第二关键词集合未被选择、为不相关的。
13.如权利要求12所述的方法,还包括:
针对候选关键词的集合的每个候选关键词,通过数据处理系统基于相应关键词在不同于多个信息资源的通用语料库中出现的频率计算归一化因子;
针对候选关键词的集合的每个候选关键词,通过数据处理系统利用相应关键词的归一化因子调整所述频率。
14.如权利要求12或13所述的方法,其中访问语义关系图还包括访问语义关系,所述多个边中的每一个边将所述两个相应节点定义为在语义上冲突;并且还包括:
通过数据处理系统使用语义关系图基于相应边指示两个对应关键词在语义上冲突来识别候选关键词的集合的关键词之间的语义冲突;以及
响应于识别语义冲突,通过数据处理系统将候选关键词的集合的第一关键词的第一频率与候选关键词的集合的第二关键词的第二频率进行比较。
15.如权利要求12到14中任一项所述的方法,还包括:
针对候选节点的集合中的每个关键词,通过数据处理系统使用聚类算法基于候选节点的集合中的每个关键词之间的语义距离来识别第一关键词类别和第二关键词类别中的一个;
通过数据处理系统基于每个关键词的对应频率和频率阈值将第一关键词类别识别为已选择并且将第二关键词类别识别为未选择。
16.一种通过解析信息资源来测量关键词的语义相关性的系统,该系统包括:
一个或多个处理器;以及
存储处理器可读指令的存储器;
其中所述一个或多个处理器被布置为读取和执行存储在所述存储器中的指令,其中所述处理器可读指令包括被布置为控制计算机执行根据任何前述权利要求所述的方法的指令。
17.一种承载计算机程序的计算机可读介质,所述计算机程序包括计算机可读指令,所述计算机可读指令被配置为使计算机执行根据权利要1至15任一项所述的方法。
CN201780050113.4A 2016-10-24 2017-10-23 用于测量关键词的语义相关性的系统和方法 Active CN109997124B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/332,551 US11106712B2 (en) 2016-10-24 2016-10-24 Systems and methods for measuring the semantic relevance of keywords
US15/332,551 2016-10-24
PCT/US2017/057919 WO2018081014A1 (en) 2016-10-24 2017-10-23 Systems and methods for measuring the semantic relevance of keywords

Publications (2)

Publication Number Publication Date
CN109997124A true CN109997124A (zh) 2019-07-09
CN109997124B CN109997124B (zh) 2023-09-08

Family

ID=60269950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780050113.4A Active CN109997124B (zh) 2016-10-24 2017-10-23 用于测量关键词的语义相关性的系统和方法

Country Status (6)

Country Link
US (2) US11106712B2 (zh)
EP (1) EP3482311A1 (zh)
JP (1) JP6788101B2 (zh)
KR (1) KR102176688B1 (zh)
CN (1) CN109997124B (zh)
WO (1) WO2018081014A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428489A (zh) * 2020-03-19 2020-07-17 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
WO2021115082A1 (zh) * 2019-12-09 2021-06-17 华为技术有限公司 作业调度方法以及作业调度装置
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
CN113555018A (zh) * 2021-07-20 2021-10-26 海信视像科技股份有限公司 语音交互方法及装置
CN113688229A (zh) * 2021-08-31 2021-11-23 济南大学 一种文本推荐方法、系统、存储介质和设备
CN116171436A (zh) * 2020-07-29 2023-05-26 西门子股份公司 用于促进工业系统的工程化的系统和方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228462A1 (en) * 2016-02-04 2017-08-10 Microsoft Technology Licensing, Llc Adaptive seeded user labeling for identifying targeted content
US11106712B2 (en) 2016-10-24 2021-08-31 Google Llc Systems and methods for measuring the semantic relevance of keywords
JP6867579B2 (ja) * 2016-11-25 2021-04-28 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
US10621219B2 (en) 2017-02-10 2020-04-14 International Business Machines Corporation Techniques for determining a semantic distance between subjects
CN106970988A (zh) * 2017-03-30 2017-07-21 联想(北京)有限公司 数据处理方法、装置及电子设备
US11120027B2 (en) * 2017-09-06 2021-09-14 Rovi Guides, Inc. Systems and methods for identifying a category of a search term and providing search results subject to the identified category
US11416532B2 (en) * 2018-05-31 2022-08-16 Wipro Limited Method and device for identifying relevant keywords from documents
US10963492B2 (en) * 2018-06-14 2021-03-30 Google Llc Generation of domain-specific models in networked system
KR102170206B1 (ko) * 2018-12-27 2020-10-26 에스케이 주식회사 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법
US11157692B2 (en) * 2019-03-29 2021-10-26 Western Digital Technologies, Inc. Neural networks using data processing units
JP6887002B2 (ja) * 2019-07-16 2021-06-16 Kpmgコンサルティング株式会社 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム
KR102085161B1 (ko) * 2019-07-22 2020-03-06 주식회사 비트나인 그래프 데이터 시각화 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
EP3853786A1 (en) * 2019-12-11 2021-07-28 Google LLC Content provider recommendations to improve targetting and other settings
US20240070210A1 (en) * 2022-08-30 2024-02-29 Maplebear Inc. (Dba Instacart) Suggesting keywords to define an audience for a recommendation about a content item
CN116910277B (zh) * 2023-09-13 2024-02-27 之江实验室 知识图谱构建方法、资源查找方法、计算机设备和介质
CN117275752B (zh) * 2023-11-20 2024-03-22 中国人民解放军总医院 基于机器学习的病例聚类分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140149106A1 (en) * 2012-11-29 2014-05-29 Hewlett-Packard Development Company, L.P Categorization Based on Word Distance
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
US20150095319A1 (en) * 2013-06-10 2015-04-02 Microsoft Corporation Query Expansion, Filtering and Ranking for Improved Semantic Search Results Utilizing Knowledge Graphs
US20150227620A1 (en) * 2014-02-12 2015-08-13 International Business Machines Corporation Categorizing keywords
US20160203130A1 (en) * 2013-08-30 2016-07-14 Unsilo A/S Method and system for identifying and evaluating semantic patterns in written language
CN105808590A (zh) * 2014-12-31 2016-07-27 中国电信股份有限公司 搜索引擎实现方法、搜索方法以及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
JP3916007B2 (ja) * 1996-08-01 2007-05-16 高嗣 北川 意味情報処理方法及びその装置
US6651253B2 (en) * 2000-11-16 2003-11-18 Mydtv, Inc. Interactive system and method for generating metadata for programming events
US8392249B2 (en) 2003-12-31 2013-03-05 Google Inc. Suggesting and/or providing targeting criteria for advertisements
JP2005267095A (ja) * 2004-03-17 2005-09-29 Nippon Telegr & Teleph Corp <Ntt> 情報表示方法及び装置及び情報表示プログラム
US7620627B2 (en) * 2005-11-01 2009-11-17 Lycos, Inc. Generating keywords
US8036937B2 (en) 2005-12-21 2011-10-11 Ebay Inc. Computer-implemented method and system for enabling the automated selection of keywords for rapid keyword portfolio expansion
KR100792698B1 (ko) 2006-03-14 2008-01-08 엔에이치엔(주) 시드를 이용한 광고 매칭 방법 및 광고 매칭 시스템
US7912875B2 (en) * 2006-10-31 2011-03-22 Business Objects Software Ltd. Apparatus and method for filtering data using nested panels
US20100185661A1 (en) 2008-12-30 2010-07-22 Yield Software, Inc. Method and System for Negative Keyword Recommendations
US8768960B2 (en) * 2009-01-20 2014-07-01 Microsoft Corporation Enhancing keyword advertising using online encyclopedia semantics
US20110125764A1 (en) 2009-11-26 2011-05-26 International Business Machines Corporation Method and system for improved query expansion in faceted search
KR101485940B1 (ko) * 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
US11106712B2 (en) 2016-10-24 2021-08-31 Google Llc Systems and methods for measuring the semantic relevance of keywords

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140149106A1 (en) * 2012-11-29 2014-05-29 Hewlett-Packard Development Company, L.P Categorization Based on Word Distance
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
US20150095319A1 (en) * 2013-06-10 2015-04-02 Microsoft Corporation Query Expansion, Filtering and Ranking for Improved Semantic Search Results Utilizing Knowledge Graphs
US20160203130A1 (en) * 2013-08-30 2016-07-14 Unsilo A/S Method and system for identifying and evaluating semantic patterns in written language
US20150227620A1 (en) * 2014-02-12 2015-08-13 International Business Machines Corporation Categorizing keywords
CN105808590A (zh) * 2014-12-31 2016-07-27 中国电信股份有限公司 搜索引擎实现方法、搜索方法以及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KONSTANTIN GOLENBERG ET AL.: ""Keyword proximity search in complex data graphs"", 《PROCEEDINGS OF THE 2008 ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT》 *
周莉等: ""云计算环境下可视化探索式搜索引擎的研究"", 《江西师范大学学报( 自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021115082A1 (zh) * 2019-12-09 2021-06-17 华为技术有限公司 作业调度方法以及作业调度装置
CN111428489A (zh) * 2020-03-19 2020-07-17 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
CN111428489B (zh) * 2020-03-19 2023-08-29 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
CN116171436A (zh) * 2020-07-29 2023-05-26 西门子股份公司 用于促进工业系统的工程化的系统和方法
CN113555018A (zh) * 2021-07-20 2021-10-26 海信视像科技股份有限公司 语音交互方法及装置
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
CN113688229A (zh) * 2021-08-31 2021-11-23 济南大学 一种文本推荐方法、系统、存储介质和设备
CN113688229B (zh) * 2021-08-31 2024-04-23 济南大学 一种文本推荐方法、系统、存储介质和设备

Also Published As

Publication number Publication date
WO2018081014A1 (en) 2018-05-03
US20210349926A1 (en) 2021-11-11
US11880398B2 (en) 2024-01-23
US11106712B2 (en) 2021-08-31
KR102176688B1 (ko) 2020-11-09
US20180113933A1 (en) 2018-04-26
CN109997124B (zh) 2023-09-08
KR20190037300A (ko) 2019-04-05
EP3482311A1 (en) 2019-05-15
JP6788101B2 (ja) 2020-11-18
JP2019533219A (ja) 2019-11-14

Similar Documents

Publication Publication Date Title
CN109997124A (zh) 用于测量关键词的语义相关性的系统和方法
US10878361B2 (en) System and method to generate interactive user interface for visualizing and navigating data or information
US10235425B2 (en) Entity fingerprints
Agarwal et al. An interdisciplinary review of research in conjoint analysis: Recent developments and directions for future research
US8949233B2 (en) Adaptive knowledge platform
CN110309119B (zh) 用于实现数据上传、处理和预测查询api公开的系统、方法和装置
CN102549563B (zh) 语义交易所
CN103827863B (zh) 动态图像显示区域和在web搜索结果内的图像显示
US9116982B1 (en) Identifying interesting commonalities between entities
KR20200007917A (ko) 추천 정보 획득 방법, 장치 및 전자설비
US20160171090A1 (en) Systems and Methods for Collaborative Project Analysis
US20140330821A1 (en) Recommending context based actions for data visualizations
US20130110827A1 (en) Relevance of name and other search queries with social network feature
Kairam et al. Refinery: Visual exploration of large, heterogeneous networks through associative browsing
US10438268B2 (en) Recommender system
US20140006523A1 (en) System and Method to Enable Communication Group Identification
US20140164367A1 (en) Method and system for semantic search keyword recommendation
CN102486802A (zh) 基于吸引的数据可视化
KR20190115505A (ko) 기업 맞춤형 후속 개발 아이템 발굴 방법
CA2841147C (en) Preference-guided data exploration and semantic processing
CN104881447A (zh) 搜索方法及装置
KR20130053448A (ko) 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
US9342577B2 (en) Preference-based data representation framework
US9400789B2 (en) Associating resources with entities
CN106796599A (zh) 基于附近位置解释用户查询

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant