CN1829989A - 利用知识条目关联信息理解知识条目含义的方法与系统 - Google Patents

利用知识条目关联信息理解知识条目含义的方法与系统 Download PDF

Info

Publication number
CN1829989A
CN1829989A CNA200480021909XA CN200480021909A CN1829989A CN 1829989 A CN1829989 A CN 1829989A CN A200480021909X A CNA200480021909X A CN A200480021909XA CN 200480021909 A CN200480021909 A CN 200480021909A CN 1829989 A CN1829989 A CN 1829989A
Authority
CN
China
Prior art keywords
knowledge entry
knowledge
implication
entry
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200480021909XA
Other languages
English (en)
Inventor
吉拉德·伊斯雷尔·埃勒巴兹
阿达姆·J·韦斯曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN1829989A publication Critical patent/CN1829989A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Abstract

本发明公开了利用相关信息确定知识条目含义的系统与方法。在一个方面中,接收知识条目;接收与该知识条目相关联的相关信息;基于相关信息确定至少一个相关含义;以及至少部分地基于相关含义确定知识条目的知识条目含义。还公开了可用于实现该系统与方法的多个算法和各种相关信息。

Description

利用知识条目关联信息 理解知识条目含义的方法与系统
技术领域
本发明一般涉及知识条目(knowledge item)。具体而言,本发明涉及利用与知识条目相关联的信息理解知识条目含义的方法与系统。
背景技术
两个知识条目有时可以通过手动或自动化技术彼此关联。知识条目是可以通过符号表示的任何有形或无形事物,可以是,例如关键字、节点(node)、种类、人物、概念、产品、短语、文档、和其他知识单元。知识条目可采用任意形式,如单字、术语、短语、文档、或一些其它的结构或非结构信息。文档包括,例如,HTML、XML、XHTML等各种格式的网页;可移植文档格式(PDF)文件;和文字处理器及应用程序文档文件。例如,诸如来自文档内容的知识条目可与诸如关键字或广告的其它知识条目匹配。同样,诸如文档的知识条目可与包含相关内容的另一个文档相关联,这样这两个文档可以看作是相关的。
应用知识条目的一个实例是应用在因特网广告中。因特网广告可采用多种形式。例如,网站的发行人可以允许在其网页上发布广告以收费。当发行人希望在网页上向用户显示广告时,服务商能够向发行人提供在网页上显示的广告。服务商可以依据诸如关于用户的人口统计信息、网页类别(例如,体育或是娱乐)、或网页内容的多种因素来选择广告。服务商也可以使网页内容与诸如来自关键字列表的关键字的知识条目相匹配。之后可以在网页上显示与匹配的关键字相关联的广告。用户可以操作鼠标或另外的输入设备并“点击”广告,以观看提供待售商品或服务的广告客户网站上的网页。
在互联网广告的另一实例中,在发行人网页上在相关链接或类似部分(section)中显示实际的匹配关键字。与上述实例类似,网页的内容与一个或多个关键字相匹配,之后该关键字被显示在例如相关链接部分中。当用户点击特定的关键字时,可以将用户引导至可能包括广告和常规搜索结果的混合的搜索结果页面。广告客户竞价(bid)键字,以使他们的广告出现在这样的该关键字搜索结果页面上。用户可以操作鼠标或另外的输入设备并“点击”广告,以观看提供待售商品和服务的广告客户网站上的网页。
广告客户希望网页的内容与广告密切相关,因为如果该广告与用户在网页上所阅读的内容高度相关,则阅读该网页的用户更有可能点击该广告并购买所提供的商品或服务。网页的发行人也希望广告的内容与网页的内容相匹配,因为如果用户点击了广告,发行人通常会获得报酬;而就敏感内容而言,不匹配是广告客户或是发行人都不希望的。
已有多种方法用于匹配关键字与内容。其中大多数方法都涉及文本匹配,例如,使关键字与内容中包含的词语匹配。文本匹配存在一个问题:词语可与多个概念相关,这就可能导致内容与关键字不匹配。
例如,“苹果”一词可与至少两个概念相关。苹果可指水果或者指同名的计算机公司。例如,网页可能包含关于苹果电脑公司(Apple Computer)的新闻,该网页使用频率最高的关键字,这里就是“苹果”,就有可能被选择用于代表该网页。在该例中,人们需要展示与苹果电脑公司相关的广告,而不是水果苹果。但是,如果关于关键字“苹果”的最高价竞价人是水果苹果的销售商,并且如果关键字“苹果”被匹配至该网页,那么水果苹果的广告就会显示在涉及苹果电脑公司的网页上。这不是人们所希望的,因为该关于电脑公司的网页的读者不太可能对购买水果苹果感兴趣。
诸如关键字的知识条目与内容不匹配,可导致显示与内容不相关的广告的后果。因此,需要理解知识条目的含义。
发明内容
本发明的实施例包括利用相关信息理解知识条目含义的系统与方法。本发明的实施例的一个方面包括接收知识条目以及接收与该知识条目相关联的相关信息。该相关信息可包括各种信息,例如相关文档和相关数据。本发明的实施例的另一个方面包括基于相关信息确定至少一个相关含义,并至少部分地基于该相关信息的相关含义来确定该知识条目的含义。在该系统和方法中可应用各种利用该相关含义的算法。本发明的其它方面旨在提供具有与前述方面相关的特征的计算机系统和计算机可读介质。
附图说明
参照附图阅读下面的具体实施方式能更好地理解本发明的这些和其它特征、方面与优点,其中
图1示出了根据本发明的一个实施例的系统的框图;
图2示出了根据本发明的一个实施例的方法的框图;以及
图3示出了图2所示方法的子程序的流程图。
具体实施方式
本发明包括利用知识条目本身以及与知识条目相关联的信息来理解知识条目的含义的方法与系统。下面将详细参照文中和附图中所示的本发明的典型实施例。在所有附图中和以下说明中使用相同的标号表示相同或类似的部分。
可以根据本发明构建各种系统。图1是示出了典型系统的示意图,本发明的典型实施例可以在其中操作。本发明还可以操作其它系统,以及在其它系统中实现。
图1中示出的系统100包括多个客户机装置102a-n,服务器装置104、140和网络106。示出的网络106包括互联网。在其他的实施例中,可以使用其他的网络,例如内联网。而且,根据本发明的方法可在单个计算机上运行。示出的客户机装置102a-n每个均包括计算机可读介质,例如在示出的实施例中被耦合到处理器110的随机存取存储器(RAM)108。处理器110执行存储在存储器108中的计算机可执行的程序指令集。这种处理器可包括微处理器、ASIC、和状态机。这种处理器包括介质(例如计算机可读介质),或可以其与进行通信,当指令被计算机执行时,该介质存储指令使处理器执行本文所描述的步骤。计算机可读介质的实施例包括,但是不限于此,电子的、光的、磁的、或其他存储器或能够将计算机可读指令提供给处理器(例如与触摸敏感的输入装置联系的处理器)的传输装置。其他合适的介质包括,但是不限于此,软盘、CD-ROM、磁盘、存储器片、ROM、RAM、ASIC、配置好的处理器(configuredprocessor)、所有光介质、所有磁带、或其他磁介质、或计算机处理器能从其读取指令的任何其他的介质。并且,各种其他形式的计算机可读介质可传输或运送指令到计算机,包括路由器、专用或公共网络、或其他传输装置或通道,既有有线的又有无线的。这些指令可包括由任何计算机编程语言(例如,包括,C、C++、C#、VisualBasic、Java、和JavaScript)编写的代码。
客户机装置102a-n也可以包括多种外部或内部装置,例如鼠标、CD-ROM、键盘、显示器、或其他输入或输出装置。客户机装置102a-n的实例是个人计算机、数字助理、个人数字助理、便携式电话、移动电话、智能电话、寻呼机、数字化板、便携式计算机、基于处理器的装置、和类似类型的系统和装置。一般而言,客户机装置102a-n可以是任何类型的连接到网络106的基于处理器的平台,并且其和一个或多个应用程序交互。示出的客户机装置102a-n包括执行浏览器应用程序(例如,Microsoft Corporation的6.0版本的Internet ExplorerTM,Netscape Communications Corporation的7.1版本的Netscape NavigatorTM,以及Apple Computer的1.0版本的SafariTM)的个人计算机。通过客户机装置102a-n,用户112a-n能够通过网络106彼此通信,以及与耦合到网络106的其他系统和装置通信。
如图1所示,服务器装置104、140也耦合到网络106。所示服务器装置104包括执行知识条目引擎应用程序的服务器。所示服务器装置140包括执行内容引擎应用程序的服务器。与客户装置102a-n类似,所示服务器装置104、140每个包括耦合到计算机可读存储器118、144的处理器116、142。图示的服务器装置104、140是单机系统,但是还可以实现为计算机处理器网络。服务器装置104、140的实例是服务器、大型计算机、网络计算机、基于处理器的装置、以及相似类型的系统与装置。客户机处理器110和服务器处理器116、142可以是各种公知计算机处理器中的任意类型,例如Santa Clara,California的Intel公司和Schaumbug,Illinois的Motorola公司出品的处理器。
服务器装置104的存储器118包括知识条目处理器应用程序,也称作知识条目处理器124。知识条目处理器124确定知识条目的含义。含义可以是上下文(context)的表示,可以是例如加权概念的向量或词群或词串(cluster)。可从与网络106连接的其它装置例如服务器装置140接收知识条目。
知识条目处理器124还可将诸如关键字的知识条目与位于连接到网络106的另一个装置上的诸如网页的文件(article)匹配。文件包括文档,例如,各种格式的网页,例如HTML、XML、XHTML、可移植文档格式(PDF)文件,以及文字处理器、数据库、和应用程序文档文件、或网络(例如互联网)、个人电脑、或其他计算或存储装置上可提供的音频、视频、或任意类型的任意其他信息。此处描述的实施例通常与文档有关,但是实施例可以在任意类型的文件上操作。知识条目是能够通过符号表示的任何有形的和无形的东西,可以是,例如,关键字、节点、种类、人、概念、产品、短语、文档、和其他知识单元。知识条目可采取任何形式,例如,单字、术语、短语、文档、或一些其他结构化的和非结构化的信息。在此描述的实施例通常与关键字有关,但是实施例可以在任何类型的知识条目上操作。
服务器装置140的存储器144包含内容引擎应用程序,也称作内容引擎146。在一个实施例中,内容引擎146从知识条目引擎124接收匹配的关键字,并使诸如广告的文档与之相关联。然后,将广告发送至请求人的网站,放入例如网页的框架中。在一个实施例中,内容引擎146接收请求并返还内容,例如广告,而匹配则由另一个装置执行。
所示知识条目引擎124包括信息定位器(information locator)134、信息处理器136、知识条目处理器135、和含义处理器137。在所示实施例中,每个处理器都包括驻留在存储器118中的计算机代码。知识条目处理器135接收关键字并识别关于该关键字的已知信息。已知信息可包括,例如,与由分析关键字得到的一个或多个术语相关联的一个或多个概念。概念可用一串或一组与其相关联的字或术语来定义,这些字或术语可以是,例如同义词。例如,术语“苹果”可有两个与其相关联的概念——水果和电脑公司,因此,每个概念可具有一串或一组相关的字或术语。概念还可用各种其它信息来定义,例如与相关概念的关系,与相关概念的关系的强度、词类、一般用法、用法频度、概念宽度、和其他关于概念在语言中的用法的统计。
信息定位器134识别并检索与关键字相关联的相关信息。在所示实施例中,该相关信息可包括相关文档和另外的相关数据。相关文档可包括广告和目的网站的文本,该文本来自竞价了该关键字的广告客户。另外的相关数据可包括由该广告客户购买的其它关键字,来自搜索引擎的对关键字的搜索结果,关于广告客户的每点击付费(cost per click)的数据,以及与广告成功率相关的数据。这些信息中有些可从例如服务器装置140获得。信息处理器136处理由信息定位器134查找到的相关信息,以确定该查找到的相关信息的至少一个相关含义。然后,将该相关含义与关于该关键字的已知信息传递至含义处理器137。含义处理器137利用关于该关键字的已知信息和相关含义确定关键字含义。注意,信息定位器134、知识条目处理器135、信息处理器136、和含义处理器137的其它功能与特征在下文做进一步说明。
服务器装置104还提供对其它存储部件的访问,例如知识条目存储部件,在所示实例中,是知识条目数据库120。知识条目数据库可用于存储知识条目,例如关键字,及其关联含义。服务器装置140还提供对其它存储部件的访问,例如内容存储部件,在所示实例中,是内容数据库148。内容数据库可用于存储与知识条目相关的信息,例如文档和其它与知识条目有关的数据。数据存储部件可包括任何一种存储数据的方法或多种方法的组合,包括但不限于阵列(array),哈希表,表、和对(pair)。服务器装置104还可访问其它相似类型的数据存储装置。
应当注意,本发明可包括具有与图1所示系统不同结构的系统。例如,在根据本发明的一些系统中,信息定位器134可以不是知识条目引擎124的一部分,并可脱机执行其操作。图1所示系统100仅是例示性的,用来解释图2到图3所示的典型方法。
可以执行多种根据本发明的方法。根据本发明的一种典型方法包括:接收知识条目;接收与该知识条目相关联的相关信息;基于该相关信息确定至少一个相关含义;以及至少部分地基于该相关信息的相关含义确定该知识条目的知识条目含义。相关信息可以用任何方式与知识条目相关联,并被确定以任何方式相关联。相关信息可包括相关文件与相关数据。相关文件的一些实例包括来自竞价了知识条目的广告客户的广告和有关于该广告的网页。知识条目可以是例如关键字。相关数据的实例包括与该广告相关联的每点击付费的数据和成功率数据。在一个实施例中,知识条目含义可包括概念或相关词串的加权向量。
在一个实施例中,知识条目在其被接收后被处理,以确定任何已知的相关概念。概念可以由一串或一组字或术语来定义。概念还可用各种其它信息定义,例如,与相关概念的关系、与相关概念的关系的强度、词类、一般用法、用法频度、概念宽度、和其他关于概念在语言中的用法的统计。在一个实施例中,确定知识条目含义包括确定哪一个相关概念代表该知识条目含义。
在一个实施例中,知识条目包括多个概念,以及相关含义包括多个概念,而确定知识条目含义包括:建立每个知识条目概念的该知识条目可能被部分分解成该知识条目概念的概率;确定每个知识条目概念与每个相关含义概念之间的关系强度,以及基于该强度调节每个知识条目概念的概率。在一个实施例中,知识条目具有多个概念,并确定了多个相关含义,而每个相关含义具有多个概念。知识条目含义的确定涉及建立每个知识条目概念的该知识条目被部分分解成该知识条目概念的概率,并建立每个相关含义概念的该知识条目部分被分解成该相关含义概念的概率。
图2到图3详细示出了根据本发明的典型方法200。因为有多种执行根据本发明的方法的方式,这里以实例的方式提供了该典型方法。图2中示出的方法200可以由各种不同的系统执行,或者实现。下面通过实例描述由图1所示的系统100执行的方法200,并在解释图2到图3的实例方法时引用系统100的各部件。所示方法200利用关键字的相关信息使关键字的含义得到理解。
图2到图3所示的每个框代表在典型方法200中执行的一个或多个步骤。参照图2,典型方法200在框202开始。框202之后是框204,在这里知识条目引擎124接收关键字。关键字可以例如,通过网络106从外部数据库,例如内容数据库148接收,或可以从其他来源接收。
接着,在框206,由知识条目处理器135处理关键字,以确定关于关键字的已知信息。例如,关键字可有一个或多个与其关联的概念。每个概念可有一串或一组关联的词。概念也可由各种其它信息定义,例如,与相关概念的关系、与相关概念的关系的强度、词类、一般用法、用法频度、概念宽度、和其他关于概念在语言中的用法的统计。
例如,术语“苹果”可以有两个可能的关联概念。第一个水果苹果的概念可通过与诸如水果、食物、馅饼、和吃的相关字词或概念的关系来限定。第二个电脑公司苹果的概念可通过与诸如计算机、PC机、和技术的相关字词或概念的关系来限定。关键字可以是短语,在这种情形下,短语可由知识条目处理器135分解成例如各个单独的术语。在该例中,知识条目处理器135还可确定与各术语相关联的概念。在一些实施例中,关键字没有任何信息与其相关联。
在框206之后是框208,在该框中,与关键字相关联的相关信息被信息定位器134识别,并被信息处理器136接收。相关信息可包括文档例如,广告和目的网站的文本(其来自竞价了关键字的广告客户)、对关键字本身的网页搜索结果、以及相关数据,例如,由广告客户竞价的其它关键字、与该关键字相关联的广告客户支付的每点击付费、用户在点击与广告客户网站相关联的广告之后购买物品的次数等。这种相关信息可有从各种来源中找到,例如,服务器装置140、广告客户网站、和搜索引擎等。
在框208之后是框210,在该框中,信息处理器136从相关信息中确定至少一个相关含义。例如,可确定每个单个相关文档的含义,或可确定所有文档的总含义。例如,如果文档包括与关键字关联的五个广告的文本,则可以确定每个广告的相关含义,或者结合所有五个广告的含义以提供总相关含义。在一个实施例中,文档被处理以确定文档中所包含的加权概念的向量。加权概念的向量可代表文档的含义。例如,如果广告与苹果电脑销售有关,则该广告的含义可以是百分之五十电脑、百分之三十苹果电脑公司、和百分之二十销售。相关数据可用于,例如,调整各个文档的含义的权重或总相关含义的权重。可选地,文档的含义可以是相关词串。
在框210之后是框212,在该框中,含义处理器137基于相关含义或含义确定关键字的含义。含义处理器137接收来自于信息处理器136的相关含义或含义,和来自于知识条目处理器135的经过处理的关键字。例如,在框212,含义处理器将从知识条目处理器接收关键字苹果及其相关的两个概念,并将从信息处理器136接收苹果电脑公司的广告的相关含义。有多种方法可以用来基于从信息处理器136接收的相关含义或含义来确定关键字含义。例如,相关含义可用作线索,以确定与关键字相关联的最佳概念,以提供关键字的含义。在相关含义是,例如,百分之五十电脑、百分之三十苹果电脑公司、和百分之二十销售时,相关含义的加权概念与关键字的概念之间的关系可用于指示关键字苹果应当与电脑公司这个概念相关联。可选地,相关含义或含义与相关数据可用于提出关键字的新含义。
多个相关信息中的任意一个或多个可用于确定关键字的含义。可用于确定关键字的含义的相关信息的实例包括但不限于以下信息中的一个或多个:
●与当前竞价了该知识条目的广告客户相关联的广告文本。
●广告的目的网页或网页。
●过去竞价了该关键字的广告客户的广告文本。
●当前竞价了该关键字的广告客户所竞价的其它关键字。
●来自搜索引擎的对该关键字的搜索结果。
●在查看该广告后,从与该关键字关联的广告客户的网站购买了物品的人数。
还可包括多种其它相关信息,这些信息仅仅作为例子给出。而且,该相关信息可根据一些信息给予不同的权重。例如,当前广告客户的广告文本的权重可超过与该关键字相关联的前广告客户的广告文本。此外,对于与具有最高每点击付费的广告客户相关联的条目,可根据每点击付费而加权更多。
图3示出了一个用于实施图2所示方法200的子程序212的实例。子程序212利用相关含义或相关含义来确定关键字的含义。下文说明子程序212的实例。
该子程序开始于框300。在框300,建立了每个字集与关键字相关联的概率。例如,在一个实施例中,每个关键字可以包括一个或多个术语,并且每个术语可具有与其相关联的一个或多个概念。就本例而言,关键字包括单个术语,该术语具有至少两个相关概念。在框300,与该关键字相关联的每个概念都被给定一个关键字被分解成该概念的先验概率。该先验概率可基于相互联系的概念的网络中包含的信息和/或先前所收集的每个术语被分解成该概念的频率数据。
在框300之后是框302,在该框中,在关键字概念与相关含义或含义概念之间确定关系强度。例如,在一个实施例中,相关含义可包括加权概念集。为每个关键字概念与每个相关含义概念之间的关系确定强度。每个相关含义概念的权重可用于调整相关含义概念与关键字概念之间的关系的强度。该强度可反映这些概念之间共存的概率,或这两个概念之间亲密程度的大小,其可由本体论数据(ontological data)得到。
在框302之后是框304,在该框中,将在框302中计算得到的强度用来调整关键字被分解成其每个相关概念的概率。例如,将所确定的每个关键字概念与每个相关含义概念之间的强度用来调整被考虑到的每个关键字概念的概率。在一个实施例中,在调整了关键字概念的概率后,概率被归一化(normalized to one)。在框302和304中发生的步骤可多次重复,以增加关系强度对概率的影响。
在一个实施例中,关键字可包括多个概念,而多个相关含义可各自包括多个概念。在该实施例中,通过建立每个关键字的该关键字可能被部分分解成该关键字概念的概率和每个相关含义概念的该关键字可能被部分分解成该相关含义概念的概率,就可以确定关键字含义。这些概率可通过上面参照图3所述的方式来确定。
现在回到图2,框212之后是框214,在该框中,关键字含义与关键字相关联并被存储。关键字及其关联含义可一起被存储在例如在知识条目数据库120中,或分开存储在不同数据库中。
尽管上述说明包含诸多细节,但这些细节不应被解释为对本发明范围的限制,而应当仅仅被理解为对所公开实施例给出的范例。本领域技术人员将会预见在本发明范围之内还有多种其它可能的变体。

Claims (26)

1.一种方法,包括以下步骤:
接收知识条目;
接收与所述知识条目相关联的相关信息;
基于所述相关信息确定至少一个相关含义;以及
至少部分地基于所述相关含义确定所述知识条目的知识条目含义。
2.根据权利要求1所述的方法,其中所述知识条目是关键字。
3.根据权利要求1所述的方法,其中所述相关信息包括相关文件。
4.根据权利要求3所述的方法,其中所述文件包括来自广告客户的广告,所述广告客户竞价了所述知识条目。
5.根据权利要求4所述的方法,其中所述文件还包括与所述广告相关联的网页。
6.根据权利要求5所述的方法,其中所述相关信息还包括相关数据。
7.根据权利要求6所述的方法,其中所述相关数据包括与所述广告相关联的每点击付费的数据。
8.根据权利要求1所述的方法,其中接收所述知识条目还包括处理所述知识条目,以确定任何已知的关联概念。
9.根据权利要求1所述的方法,其中所述知识条目包括多个关联概念,以及确定所述知识条目含义包括确定哪一个所述关联概念代表所述知识条目含义。
10.根据权利要求1所述的方法,其中所述知识条目包括多个概念,以及所述相关含义包括多个概念,以及确定所述知识条目含义包括以下步骤:
建立每个知识条目的所述知识条目可能被分解成所述知识条目概念的概率;
确定每个知识条目概念与每个相关含义概念之间的关系的强度;以及
基于所述强度调整每个知识条目概念的概率。
11.根据权利要求1所述的方法,其中所述知识条目含义包括多个概念的加权向量。
12.根据权利要求1所述的方法,其中所述知识条目含义包括相关词串。
13.根据权利要求1所述的方法,其中所述知识条目包括多个概念,多个相关含义被确定,每个相关含义包括多个概念,以及确定所述知识条目含义包括以下步骤:
建立每个知识条目概念的所述知识条目可能被部分分解成所述知识条目概念的概率;以及
建立每个相关含义概念的所述知识条目可能被部分分解成所述相关含义概念的概率。
14.一种包括程序代码的计算机可读介质,包括:
用于接收知识条目的程序代码;
用于接收与所述知识条目相关联的相关信息的程序代码;
用于基于所述相关信息确定至少一个相关含义的程序代码;以及
用于至少部分地基于所述相关含义确定所述知识条目的知识条目含义的程序代码。
15.根据权利要求14所述的计算机可读介质,其中所述知识条目是关键字。
16.根据权利要求14所述的计算机可读介质,其中所述相关信息包括相关文件。
17.根据权利要求16所述的计算机可读介质,其中所述文件包括来自广告客户的广告,所述广告客户竞价了所述知识条目。
18.根据权利要求17所述的计算机可读介质,其中所述文件还包括与所述广告相关联的网页。
19.根据权利要求18所述的计算机可读介质,其中所述相关信息还包括相关数据。
20.根据权利要求19所述的计算机可读介质,其中所述相关数据包括与所述广告相关联的每点击付费的数据。
21.根据权利要求14所述的计算机可读介质,其中用于接收所述知识条目的程序代码还包括用于处理所述知识条目,以确定任何已知的关联概念的程序代码。
22.根据权利要求14所述的计算机可读介质,其中所述知识条目包括多个关联概念,以及用于确定所述知识条目含义的程序代码包括用于确定哪一个所述关联概念代表所述知识条目含义的程序代码。
23.根据权利要求14所述的计算机可读介质,其中所述知识条目包括多个概念,以及所述相关含义包括多个概念,以及确定所述知识条目含义包括:
用于建立每个知识条目的所述知识条目可能被分解成所述知识条目概念的概率的程序代码;
用于确定每个知识条目概念与每个相关含义概念之间的关系的强度的程序代码;以及
用于基于所述强度调整每个知识条目概念的概率的程序代码。
24.根据权利要求14所述的计算机可读介质,其中所述知识条目含义包括多个概念的加权向量。
25.根据权利要求14所述的计算机可读介质,其中所述知识条目含义包括相关词串。
26.根据权利要求14所述的计算机可读介质,其中所述知识条目包括多个概念,多个相关含义被确定,每个相关含义包括多个概念,以及确定所述知识条目含义包括:
用于建立每个知识条目概念的所述知识条目可能被部分分解成所述知识条目概念的概率的程序代码;以及
用于建立每个相关含义概念的所述知识条目可能被部分分解成所述相关含义概念的概率的程序代码。
CNA200480021909XA 2003-07-30 2004-07-23 利用知识条目关联信息理解知识条目含义的方法与系统 Pending CN1829989A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US49142203P 2003-07-30 2003-07-30
US60/491,422 2003-07-30
US10/690,328 2003-10-21

Publications (1)

Publication Number Publication Date
CN1829989A true CN1829989A (zh) 2006-09-06

Family

ID=36947555

Family Applications (3)

Application Number Title Priority Date Filing Date
CNB2004800219225A Active CN100470541C (zh) 2003-07-30 2004-07-23 用于确定文档的含义以使文档与内容匹配的方法和系统
CN2009100062933A Active CN101482881B (zh) 2003-07-30 2004-07-23 用于确定文档的含义以使文档与内容匹配的方法和系统
CNA200480021909XA Pending CN1829989A (zh) 2003-07-30 2004-07-23 利用知识条目关联信息理解知识条目含义的方法与系统

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CNB2004800219225A Active CN100470541C (zh) 2003-07-30 2004-07-23 用于确定文档的含义以使文档与内容匹配的方法和系统
CN2009100062933A Active CN101482881B (zh) 2003-07-30 2004-07-23 用于确定文档的含义以使文档与内容匹配的方法和系统

Country Status (2)

Country Link
JP (2) JP4825669B2 (zh)
CN (3) CN100470541C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279871A (zh) * 2010-06-08 2011-12-14 微软公司 基于词法和本体概念重排搜索结果
CN102279871B (zh) * 2010-06-08 2016-12-14 微软技术许可有限责任公司 基于词法和本体概念重排搜索结果

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4740630B2 (ja) * 2005-04-14 2011-08-03 株式会社リコー 流行創出型広告方法及びプログラム
US7958126B2 (en) * 2006-12-19 2011-06-07 Yahoo! Inc. Techniques for including collection items in search results
CN101004753B (zh) * 2007-01-25 2010-08-11 北京搜狗科技发展有限公司 一种概念型文档的识别方法和系统
CN101404031B (zh) * 2008-11-12 2012-05-30 北京搜狗科技发展有限公司 识别概念型网页的方法与系统
JP2010237779A (ja) * 2009-03-30 2010-10-21 Mitsubishi Space Software Kk 広告選択サーバ及び広告選択方法及びプログラム
CA2700030C (en) 2009-04-16 2019-11-05 Accenture Global Services Gmbh Touchpoint customization system
US9779385B2 (en) * 2011-06-24 2017-10-03 Facebook, Inc. Inferring topics from social networking system communications
CN105335163A (zh) * 2015-11-30 2016-02-17 上海斐讯数据通信技术有限公司 软件代码解读方法与系统
CN108363696A (zh) * 2018-02-24 2018-08-03 李小明 一种文本信息的处理方法及装置
CN111507813B (zh) * 2020-04-21 2023-05-12 江西省机电设备招标有限公司 一种投标人身份的认定方法及招投标方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960383A (en) * 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
JP2001337984A (ja) * 2000-05-30 2001-12-07 Sony Communication Network Corp 広告システム、広告装置及び広告方法
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP4729736B2 (ja) * 2001-07-27 2011-07-20 学校法人日本大学 インターネット検索結果修飾装置及びプログラム
CN1185595C (zh) * 2001-09-05 2005-01-19 联想(北京)有限公司 主题词抗干扰提取方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279871A (zh) * 2010-06-08 2011-12-14 微软公司 基于词法和本体概念重排搜索结果
US9177057B2 (en) 2010-06-08 2015-11-03 Microsoft Technology Licensing, Llc Re-ranking search results based on lexical and ontological concepts
CN102279871B (zh) * 2010-06-08 2016-12-14 微软技术许可有限责任公司 基于词法和本体概念重排搜索结果

Also Published As

Publication number Publication date
CN1829990A (zh) 2006-09-06
CN101482881B (zh) 2013-12-11
JP4825669B2 (ja) 2011-11-30
JP2007500899A (ja) 2007-01-18
CN100470541C (zh) 2009-03-18
CN101482881A (zh) 2009-07-15
JP4829789B2 (ja) 2011-12-07
JP2007500900A (ja) 2007-01-18

Similar Documents

Publication Publication Date Title
AU2004262302B2 (en) Methods and systems for understanding a meaning of a knowledge item using information associated with the knowledge item
AU2010241249B2 (en) Methods and systems for determining a meaning of a document to match the document to content
US20180322201A1 (en) Interest Keyword Identification
US8732185B1 (en) Selecting content for publication
US20170371967A1 (en) Relevancy-based domain classification
US20200051093A1 (en) Discovering relevant concept and context for content node
US8103650B1 (en) Generating targeted paid search campaigns
US20070174255A1 (en) Analyzing content to determine context and serving relevant content based on the context
CN1629845A (zh) 查询识别器
CN101076800A (zh) 重复文档检测及表示功能
WO2005119423A2 (en) System and method for automated mapping of items to documents
CN1829989A (zh) 利用知识条目关联信息理解知识条目含义的方法与系统
WO2009097453A1 (en) System and process for identifying users for which cooperative electronic advertising is relevant
CN1871601A (zh) 将文档与上下文广告相关联的系统和方法
WO2009097362A1 (en) System and process for selecting personalized non-competitive electronic advertising
WO2009097457A1 (en) System and process for generating a selection model for use in personalized non-competitive advertising
AU2011235994A1 (en) Methods and systems for determining a meaning of a document to match the document to content
CN111201523A (zh) 自然语言文本文件中的搜索项提取和优化
WO2009097363A1 (en) System and process for providing cooperative electronic advertising

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CI02 Correction of invention patent application

Correction item: Priority

Correct: 2003.10.21 US 10/690,328

False: Lack of priority second

Number: 36

Page: The title page

Volume: 22

COR Change of bibliographic data

Free format text: CORRECT: PRIORITY; FROM: MISSING THE SECOND ARTICLE OF PRIORITY TO: 2003.10.21 US 10/690,328

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20060906

CI01 Publication of corrected invention patent application

Correction item: Rejection of patent application

Correct: Dismiss

False: Reject

Number: 32

Volume: 26

ERR Gazette correction

Free format text: CORRECT: PATENT APPLICATION REJECTION AFTER THE ANNOUNCEMENT; FROM: REJECTION TO: CANCEL REJECTION

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20060906