CN101128819B - 局部项目提取 - Google Patents
局部项目提取 Download PDFInfo
- Publication number
- CN101128819B CN101128819B CN2005800486396A CN200580048639A CN101128819B CN 101128819 B CN101128819 B CN 101128819B CN 2005800486396 A CN2005800486396 A CN 2005800486396A CN 200580048639 A CN200580048639 A CN 200580048639A CN 101128819 B CN101128819 B CN 101128819B
- Authority
- CN
- China
- Prior art keywords
- address
- word
- company information
- phone number
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
用于识别包含地址的文档并在文档中定位企业信息的系统。该系统向所述企业信息指定置信度得分,其中置信度得分与该企业信息同该地址相关联的概率有关。该系统根据指定的置信度得分确定是否把该企业信息与该地址相关联。
Description
技术领域
这里所述的实施例总体上涉及信息检索,并且更具体地涉及与地址相关的企业信息的识别。
背景技术
万维网(“web”)包括大量信息。然而,定位信息的期望部分是有难度的。该问题是多方面的,因为网络上的信息量和对网络搜索没有经验的新用户数量都在快速增加。
搜索引擎试图返回指向用户感兴趣网页的超链接。一般而言,搜索系统对用户兴趣的确定基于用户输入的搜索词语(称为搜索查询)。搜索系统的目标是根据搜索查询将高质量的相关结果(例如,网页)的链接提供给用户。通常,搜索系统通过把搜索查询中的词语与预存储网页语料库相匹配而实现上述目的。包含用户搜索词语的网页被“命中”并作为链接返回给用户。
局部搜索系统试图返回特定地理区域内的相关网页和/或企业登记信息。当在网页上提及企业时,现有的局部搜索系统会匹配该企业与黄页数据以识别对应的企业登记信息。然而,当不存在黄页数据或黄页数据对企业不准确时,上面的技术不能实施。
发明内容
根据一方面,一种方法包括识别包括地址的文档、定位文档内的企业信息、并向该企业信息指定置信度得分,其中置信度得分与该企业信息与该地址相关的概率有关。该方法也包括根据指定的置信度得分确定是否把企业信息和地址相关联。
根据另一方面,一种方法包括识别包括地址的文档、识别文档中地址前面的词语集、并确定每个词语是与地址相关的名号的一部分的概率。该方法也包括根据具有高概率是与地址相关的名号的一部分的一个或多个词语而识别候选名号、向候选名号指定置信度得分、并根据指定的置信度得分确定是否把候选名号和地址相关联。
根据另一方法,一种方法包括识别包括地址的文档、识别文档中的候选电话号码集合、确定在候选电话号码集合中的每个候选电话号码与地址相关的概率、并根据确定的概率确定是否把候选电话号码之一和地址相关联。
根据另一方面,一种方法包括识别包括地标(landmark)的网页、识别网页中的属性、并向属性指定置信度得分,其中置信度得分涉及属性与地标相关的概率。该方法也包括根据指定的置信度得分而确定是否把属性和地标相关联。
附图说明
结合在说明书中并构成本说明书一部分的相应附图用于解释本发明的实施例,并结合说明书解释本发明。在图中:
图1是包括地址的示例文档的示意图;
图2是其中实施符合本发明原理的系统和方法的网络的示例性示意图;
图3是根据符合本发明原理的实施例的图2的客户端或服务器的示例性示意图;
图4是根据符合本发明原理的实施例的训练系统的示例性示意图;
图5是根据符合本发明原理的实施例用于训练统计模型的示例性处理的流程图;
图6是根据符合本发明原理的实施例的局部项提取器的示例性示 意图;
图7是根据符合本发明原理的实施例的用于识别与地址相关联的企业名(名号)的示例性处理的流程图;
图8是根据符合本发明原理的实施例的用于识别与地址相关联的电话号码的示例性处理的流程图;以及
图9-15是解释根据符合本发明原理的实施例的对示例性文档执行的示例性处理的示意图。
具体实施方式
本发明的以下详细说明参考相应附图。在不同描述中的相同附图标记是指相同或相似的组件。同样,以下详细说明并不限制本发明。
概况
局部搜索涉及识别与特定地理区域相关的企业登记信息。万维网包括数十亿的文档,其中许多提及企业。识别尽可能与许多不同企业相关的企业信息对于局部搜索系统是有利的。经常,黄页数据与企业相关联。然而,有时在没有黄页数据或黄页数据可能不准确的情况下在文档中提及企业。
符合本发明原理的系统和方法识别与网页文档中提及的地址相关的企业信息。在一个实施例中,企业信息包括与地址相关的企业名。在另一个实施例中,企业信息包括与地址相关的电话号码。在另一实施例中,企业信息包括另外类型的信息,诸如企业营业时间或到与地址相关的企业的网站或地图的链接。
图1是包括地址的示例文档的示意图。如图所示,该文档与位于宾夕法尼亚州oakmont的餐馆Veltri’s比萨饼店的评论相关联。可以分析文档,确定该文档包括邮政地址(即,123 Allegheny Avenue,Oakmont,PA)。假设Veltri’s不具有任何相关的黄页数据或具有可能不正确的黄页数据。
使用这里所述的技术,文档进一步经过分析用于确定与地址相关的企业信息。企业信息克包括与地址相关的企业名称(这里也称为名号(title))和/或电话号码。企业信息用于产生或校正与地址相关的企业登记信息。
如这里使用的,词语“文档”用于广义的解释为包含任何机器可读和机器可存储的工作产品。文档包括例如电子邮件、网页、企业登记信息、文件、文件的组合、具有到其他文件内嵌链接的一个或多个文件、新闻组帖子、博客、网络广告等。在因特网的范围,常见文档是网页。网页经常包括文本信息并包括嵌入式信息(诸如元信息、图像、超链接等)和/或内嵌指令(诸如Javascript等)。如这里使用的,词语“链接”用于广义的解释为包括不同文档之间和相同文档的不同部分之间的任何引用。
示例性网络配置
图2是其中实施符合本发明原理的系统和方法的网络的示例性示意图。网络200包括借助于网络250连接到多个服务器220-240的客户端210。为了简化,两个客户端210和三个服务器220-240被示例为连接到网络250。实际上,能有更多或更少的客户端和服务器。同样,在某些示例中,客户端能执行服务器的功能以及服务器能执行客户端的功能。
客户端210包括客户端实体。实体被定义为设备,诸如无线电话、个人计算机、个人数字助理(PDA)、膝上型电脑、或另一类型的计算或通信设备、在这些设备之一上运行的线程或进程和/或由这些设备之一执行的对象。服务器220-240包括服务器实体,所述服务器实体根据符合发明原理的形式收集、处理、搜索和/或维护文档。
在符合本发明原理的实施例中,服务器220包括由客户端210使 用的搜索引擎225。服务器220能爬取文档语料库(例如,网页文档)、索引文档并在文档库中存储与文档有关的信息。服务器230和240存储或维护由服务器220爬取或分析的文档。
虽然服务器220-240被表示为单独的实体,一个或多个服务器220-240可能执行另一个或多个服务器220-240的一个或多个功能。例如,可把两个或多个服务器220-240实现成单个服务器。单独一个服务器220-240可能被实施为两个或多个单独(并可能是分布的)设备。
网络250包括局域网(LAN)、广域网(WAN)、电话网、诸如公共交换电话网(PSTN)、内联网、因特网、存储设备或网络组合。客户端210和服务器220-240可借助于有线、无线和/或光连接而连接到网络250。
示例性客户端/服务器结构
图3是根据与本发明原理一致的实施例的对应一个或多个客户端210和/或服务器220-240的客户端或服务器实体(下文称为“客户端/服务器实体”)的示例性示意图。客户端/服务器实体包括总线310、处理器320、主存330、只读存储器(ROM)340、存储设备350、输入设备360、输出设备370、以及通信接口380。总线310包括允许在客户端/服务器实体间通信的路径。
处理器320包括常规处理器、微处理器或解释并执行指令的处理逻辑。主存330包括随机访问存储器(RAM)或存储信息及指令用于由处理器320执行的另一类型的动态存储设备。ROM340包括常规ROM设备或存储静态信息和指令用于由处理器320使用的另一类型的静态存储设备。存储设备350包括磁的和/或光的记录介质及其对应驱动器。
输入设备360包括允许操作员向客户端/服务器实体输入信息的常 规机制,诸如键盘、鼠标、输入笔、语音识别和/或生物识别机制等。输出设备370包括向操作员输出信息的常规机制,包括显示器、打印机、扬声器等。通信接口380包括能使客户端/服务器实体与其他设备和/或系统通信的如收发器等的装置。例如,通信接口380包括借助于诸如网络250的网络与另一设备或系统通信的装置。
符合本发明原理的客户端/服务器能执行特定操作,这在下文将详细描述。客户端/服务器实体能响应处理器320执行这些操作,所述处理器执行在诸如存储器330的计算机可读介质中包含的软件指令。计算机可读介质可被定义为物理的或逻辑的存储设备和/或载波。
借助通信接口380从另一计算机可读介质(诸如数据存储设备350)或另一设备向存储器330读入软件指令。存储器330中包含的软件指令能使得处理器320执行下面描述的指令。或者,硬线电路可以用于取代或结合软件指令以执行符合本发明原理的处理。因此,符合本发明原理的实施例并不限制于硬件电路和软件的任何特定组合。
示例性训练系统
图4是根据符合本发明原理的实施例的训练系统的示例性示意图。在一个实施例中,训练系统400可以通过软件和/或硬件在服务器220(图2)、另一设备、或者独立于或包括服务器220的设备组内实施。
如图4所示,训练系统400包括根据训练集产生统计模型420的训练器410。在一个实施例中,能识别包括有地址的文档集,对所述地址存在黄页数据。一般,训练器410识别通常与文档集中有黄页存在的企业信息相关联的特征,以产生统计模型420。统计模型420用于预测企业信息在文档中的位置,所述文档包括没有黄页或可能黄页数据不正确的地址。
图5是根据符合本发明原理的实施例用于训练统计模型420的示例性处理的流程图。处理开始于分析文档语料库以识别包括存在黄页数据的地址的文档(框510)。例如,可分析文档语料库中的文档来确定文档是否包括地址。任何已知地址识别技术都能用于识别文档中的地址。
当文档被识别包括地址时,对照黄页数据分析该地址以确定该黄页数据是否包括匹配该地址的企业登记信息。可以从黄页的企业登记信息中识别诸如企业名(“名号”)和/或电话号码的企业信息。然后在文档内识别这种企业信息(框520)。例如,可分析文档的文本以确定任何文本是否匹配该企业信息。
当没有文本匹配企业信息时,从训练集中删除该文档。当文档的文本匹配企业信息时,在文档内标记地址和企业信息(框530)并在训练集中包括该文档。任何已知标记技术用于标记文档中的地址和企业信息。在一个实施例中,在训练集仅包括那些企业信息出现在地址周围的文档(例如,在预定词语数范围内,诸如该地址左面和/或右面的20或60个词语)。在另一实施例中,可以在训练集中包括企业信息出现在文档内任何位置的文档。
一旦建立训练集(其可包括数百万文档),可以根据训练集产生统计模型(框540)。例如,当文档包括地址时,可分析训练集中的文档以收集关于如何识别文档内企业信息的特征。所述特征可与下述内容相关联:候选词语离参考点(例如,文档内的地址)的距离、候选词语的特点、与候选词语相关的边界信息和/或与候选词语相关的标点信息。用于确定名号的特定特征可能同用于确定电话号码的那些特征不同。用于确定其他类型的企业信息的特征也是不同的。
涉及候选名号词语特点的特征例子包括:该词语是什么词、它是否是数字、它是否是大写、加粗、倾斜、下划线或居中,它是否是锚 定文本的一部分,以及它按字符的长度。涉及候选名号词语的边界信息的特征示例根据边界标记的出现(例如,HTML标签)并且可包括在候选名号词语与前面或后面词语之间是否存在有段落、换行、或列表项标记以及是否存在有涉及表格或列表的开始或结束的标记。涉及候选名号词语的标点信息的特征示例包括在候选名号词语与前面或后面词语之间是否有逗号、句点、感叹号、问号、冒号、分号、破折号、单或双引号、括号或空格。其他一些特征对本领域技术人员是显而易见的。
涉及候选电话号码词语特点的特征示例包括:该词语是什么,它按字符的长度是什么,以及如果电话号码包括区域代码该区域代码是否适合该地址所位于的地理区域。涉及候选电话号码词语的边界信息的特征示例可基于边界标记(例如,HTML标签)的出现并包括是否有段落、换行或列表项标记以及在候选电话号码词语和地址之间是否有涉及表格或列表的开始或结束的标记。与候选电话号码词语相关的某些其他特征包括常用电话号码词语(例如,call、calling、telephone、telephoning、phone、phoning、tel、tele、(T),等等)是否出现在候选电话号码词语之前预定数量的词语中,常用传真号码词语(例如,fax、faxing、(F)等等)是否出现在候选电话号码词语之前预定数量的词语中,在候选电话号码词语和地址之间是否有另一电话号码。其他特征对本领域技术人员是明显的。
根据与文档中词语相关的特征,可使用统计模型来预测该词语是否是与文档中地址相关的企业信息的一部分。换句话说,统计模型从训练集中识别多个不同线索,并使用这些线索以确定名号在文档何处开始和结束和/或哪个电话号码可能对应该文档中的地址。
示例性局部项提取器
图6是根据符合本发明原理的实施例的局部项提取器600的示例性示意图。在一个实施例中,局部项提取器600由服务器220(图2)、 另一设备、或者独立于或包括服务器220的设备组内的软件和/或硬件实施。
如图6所示,局部项提取器600包括分类器610,用于根据统计模型420分析带有地址的文档以确定与地址相关的企业信息。由分类器610分析的文档包括具有没有对应黄页数据的地址的文档和/或具有可能不准确黄页数据的地址的文档。由分类器610执行的功能根据企业信息是对应于企业名(名号)信息还是对应于电话号码信息而不同。当企业信息还包括除企业名或电话号码信息之外的其他信息时能执行其他功能。
图7是根据符合本发明原理的实施例的用于识别与地址相关联的企业名(名号)的示例性处理的流程图。处理开始于识别包含地址的文档(框710)。任何已知地址识别技术都可以用于识别文档中的地址。
分析邻近该地址的词语并确定每个词语是名号一部分的概率(框720和730)。在一个实施例中,分析开始于该文档中该地址前面直接相邻的词语。换句话说,名号的搜索始于该地址,并在该文档的文本中向后查看。这样做的理论基础是当名号出现在与地址相关的文档中时,它几乎总是出现在文档中的地址之前。
当分析候选词语时,可以根据统计模型确定候选词语是名号一部分的概率,该概率给出了关于在前词语和候选词语周围的给定词语窗口(例如,向左和向右寻找预定数量的词语)的预测。该概率的确定基于候选词语和窗口中其他词语的特征。与候选词语相关的特征包括,例如候选词语和地址之间的距离、候选词语的特点、候选词语与在前或在后词语之间的边界信息、和/或候选词语与在前或在后词语之间的标点信息。
设t(i)(其值是0或1)是从地址开始往前第i个词语是(=1)或 不是(=0)名号中的词语的预测。设x(i)是第i个词语、s(i)是x(i)的属性(例如,距离和特点)、h(i)是x(i)与在后(或在前)词语之间的边界信息、以及q(i)是x(i)与在后(或在前)词语之间的标点信息。则在这种上下文的约束下,x(i)是名号一部分的概率可以表示为:
F(i)=Prob[t(i)给定x(i+2)x(i+1)x(i)x(i-1)x(i-2),
s(i+2)s(i+1)s(i)s(i-1)s(i-2),
h(i+1)h(i)h(i-1)h(i-2),
q(i+1)q(i)q(i-1)q(i-2),t(i-1)]
其中x(i+2)x(i+1)x(i)x(i-1)x(i-2)是指x(i)周围的词语窗口(尽管词语窗口被示为x(i)左边2个和右边2个词语,在符合本发明原理的其他实施例中,窗口可以更大或更小)。s(i+2)s(i+1)s(i)s(i-1)s(i-2)指窗口中词语的属性,h(i+1)h(i)h(i-1)h(i-2)指窗口中词语之间的边界信息,q(i+1)q(i)q(i-1)q(i-2)指窗口中词语之间的标点信息,以及t(i-1)指关于在x(i)前面的词语(即,x(i-1))的预测。
设X=x(n)x(n-1)...x(2)x(1),其中n指所考虑的文本串的大小(例如,20个词),S=s(n)s(n-1)...s(2)s(1),H=h(n-1)...h(2)h(1),Q=q(n-1)...q(2)q(1)以及T=t(n)t(n-1)...t(2)t(1)。然后根据Prob(T给定X、S、H、Q)确定整个串的概率。根据条件概率的定义和类Markov假设(即,仅受局部范围影响),串的概率可以表示为:
Prob(T给定X、S、H、Q)=kF(n)F(n-1)...F(2)F(1)
其中k是用于该范围的常数,并且其中等式左侧F(i)中的t(i)和t(i-1)匹配等式的左侧T中的对应项。
然后选择T,使得在T中所有的1都是相邻的约束下最大化Prob(T给定X、S、H、Q)。为此,对所有2n个T执行穷尽搜索并对每个T估算Prob(T给定X、S、H、Q)。为了恰好获得最佳名号,可使用公知的单源最短路径算法。为了获得j个最佳名号,使用公知的j最佳算法。
对所识别的每个候选名号可赋给置信度得分(框740)。置信度得分与名号所关联的概率有关(例如,Prob(T给定X、S、H、Q))。可选的,从候选名号集合内确定用于该地址的最佳名号(框750)。在一个实施例中,用于该地址的最佳名号被识别为具有最高置信度得分的候选名号。在另一实施例中,当地址出现在一组文档中时,用于该地址的最佳名号被识别为在整个该组文档中具有最高置信度得分的候选名号或出现在该组文档中大多数文档中的具有最高置信度得分的候选名号。
然后,把该名号与该地址相关联,以形成或补充企业登记信息。在存储器中把地址和它相关的名号一起存储。
图8是根据符合本发明原理的实施例的用于识别与地址相关联的电话号码的示例性处理的流程图。处理开始于识别包含地址的文档(框810)。任何已知地址识别技术都用于识别文档中的地址。
识别文档中的候选电话号码集(框820)。在一个实施例中,文档中的所有电话号码都被识别为候选电话号码。在另一实施例中,识别该地址的特定距离内的电话号码。任何已知模型匹配技术都用于识别候选电话号码集。
根据统计模型,确定在给定关于在前候选电话号码的预测并给定该候选电话号码周围的词语窗口(例如,向左和右查看预定数量的词语)的条件下每个候选电话号码与该地址相关联的概率(框830)。概率确定可进一步根据与该候选电话号码相关的特征。特征包括(如上所解释的),候选电话号码与该地址的距离、候选电话号码的特点、候选电话号码和该地址之间的边界信息和/或候选电话号码和该地址之间的标点信息。按类似于上述参考名号的方式确定概率,其中在这里的情况下,x(i)是指候选电话号码。
根据它们的确定概率将置信度得分指定给候选电话号码(框840)。可选的,可以确定用于该地址的最佳电话号码(框850)。在一个实施例中,地址的最佳电话号码被识别为具有最高置信度得分的候选电话号码。在另一实施例中,当该地址出现在一组文档中时,该地址的最佳电话号码被识别为在整个该组文档中具有最高置信度得分的候选电话号码或出现在该组文档中大多数文档中的具有最高置信度得分的候选电话号码。
然后,该电话号码与该地址相关联以形成或补充企业登记信息。在存储器中把地址和其相关的电话号码存储在一起。
示例
图9-15是解释根据符合本发明原理的实施例对示例性文档所执行的示例性处理的示意图。如图9所示,该文档是与位于华盛顿特区的Morton餐馆的概况相关的网页。可使用任何公知的地址识别技术来分析网页以确定该网页包括邮政地址。如图10所示,地址对应于:123Connecticut Avenue,Washington,DC 20200。假设Morton不具有任何相关联的黄页数据或可能具有不准确的黄页数据。
当试图识别与该地址相关的企业名(名号)时,搜索开始于紧接着该地址前面的词语并向后搜索。在这种情况下,如图11所示,搜索从词语“at”开始。确定在给定该候选词语周围的词语窗口、窗口中与词语相关的特征、以及与之前词语相关的预测的条件下该候选词语“at”是名号一部分的概率。
该概率可以表示为
F(at)=Prob[t(at)给定
“visited Morton’s at 123 Connecticut,”
s(visited)s(Morton’s)s(at)s(123)s(Connecticut),
h(Morton’s)h(at)h(123)h(Connecticut),
q(Morton’s)q(at)q(123)q(Connecticut),0]”
其中,例如s(at)指词语“at”的属性,h(at)指词语“at”和后面的词语“Morton’s”之间的边界信息,q(at)指词语“at”和后面的词语“Morton’s”之间的标点信息,以及“0”指关于在前词语的预测,在这种情况下,对应该地址的一部分。尽管该简单示例采用对候选词语左和右的两个词语的窗口,实践中窗口可更大或更小。
与候选词语“at”相关的属性包括词语“at”与该地址的距离。在该情况下,词语“at”紧邻地址前面。属性也包括词语“at”的特点。在这种情况下,该词语是“at”;它不是数字;它没被大写、粗体、斜体、下划线或居中;它不是锚定文本的一部分;以及在长度上它有两个字符。对于边界信息,假设词语“at”的左面(或右面)没有边界标记。同样,词语“at”的左面(或右面)没有标点。假设该概率确定的结果是预测词语“at”不是名号的一部分(例如,t(at)=0)。
如图12所示,搜索继续至词语“Morton’s”。确定在给出候选词语周围的词语窗口、与窗口中词语相关的特征以及与之前词语相关的预测的条件下该候选词语“Morton’s”是名号一部分的概率。
该概率可以表示为
P(Morton’s)=Prob[t(Morton’s)给定
“recently visited Morton’s at 123,”
s(recently)s(visited)s(Morton’s)s(at)s(123),
h(visited)h(Morton’s)h(at)h(123),
q(visited)q(Morton’s)q(at)q(123),0]
与词语“Morton’s”相关的属性包括词语“Morton’s”与该地址的距离。在这种情况下,词语“Morton’s”距该地址相隔一个词语。属性 也包括词语“Morton’s”的特点。在这种情况下,该词语是“Morton’s”;它不是数字;它的第一个字符被大写;它不是大写、粗体、斜体、下划线或居中;它不是锚定文本的一部分;以及在长度上它有8个字符。对于边界信息,假设词语“Morton’s”的左面(或右面)没有边界标记。同样,词语“Morton’s”的左面(或右面)没有标点。假设该概率判定所产生的预测是词语“Morton’s”是名号的一部分(例如,t(Morton’s)=1)。
如图13所示,搜索继续至词语“visited”。确定在给出候选词语周围的词语窗口、与窗口中词语相关的特征以及与之前词语相关的预测的条件下该候选词语“visited”是名号一部分的概率。
该概率可以表示为
P(visited)=Prob[t(visited)给定
“I recently visited Morton’sat”,
s(I)s(recently)s(visited)s(Morton’s)s(at),
h(recently)h(visited)h(Morton’s)h(at),
q(recently)q(visited)q(Morton’s)q(at),1]
与词语“visited”相关的属性包括词语“visited”与该地址的距离。在这种情况下,词语“visited”离地址相隔两个词语。属性也包括词语“visited”的特点。在这种情况下,词语是“visited”;它不是数字;它不是大写、粗体、斜体、下划线或居中;它不是锚定文本的一部分;以及在长度上它有七个字符。对于边界信息,假设词语“visited”的左面(或右面)没有边界标记。同样,词语“visited”的左面(或右面)没有标点。假设该概率判定的结果是词语“visited”不是名号的一部分
(例如,t(visited)=0)。
一旦对每个候选词语是否是名号一部分进行预测(对于网页中的某些词语集或网页中的所有词语),则考虑词语串的滑动以识别使得 词语串包括名号的概率最大的串。假设该处理识别词语“Morton’s”为该地址的候选名号。如上所述,对该候选名号指定置信度得分。
当试图识别与地址相关的电话号码时,通过使用公知的模式匹配技术识别网页中的所有电话号码来开始搜索,如图14所示。在这种情况下,识别两个候选电话号码:202-987-6543以及202-987-6542。
确定在给出候选电话号码周围的词语窗口、与候选电话号码相关的特征以及与之前电话号码相关的预测的条件下的每个候选电话号码是该地址的电话号码的概率。与候选电话号码相关的特征包括该电话号码离该地址的距离。在这种情况下,这两个候选电话号码离地址大约150词语。特征也包括在电话号码和地址之间是否有任何边界信息。在这种情况下,在候选电话号码和地址之间存在两个段落边界。
相关于电话号码的某些其他特征包括:常用电话号码词语(例如,call、calling、telephone、telephoning、phone、phoning、tel、tele、(T)、T等)是否出现在电话号码之前的预定数量的词语中,常用传真号码词语(例如,fax、faxing、(F)、F等等)是否出现在电话号码之前的预定量数的词语中,在该词语和该地址之间是否有另一个电话号码。在这种情况下,概率判定会导致这样的预测:202-987-6543电话号码比202-987-6542电话号码候选更有可能是该地址的电话号码。
根据候选电话号码与地址相关联的概率对候选电话号码指定置信度得分。
如图15所示,使用具有最高置信度得分的名号和/或电话号码信息来形成或补充与地址相关的企业登记信息。企业登记信息包括到与企业相关文档的链接、企业的地址信息、企业的电话号码、提及企业的文档的片断和/或一个或多个到涉及企业的文档的链接。
结论
给出文档中的某些地标(例如,邮政地址),符合本发明原理的系统和方法试图寻找该文档中的该地标的属性(例如企业信息,如企业名、电话号码、营业时间或到网站或地图的链接等)。虽然上面的描述集中于在文档中寻找与地址相关的企业信息,但也可不是这种情况。在其他实施例中,上面的处理可以应用于其他地标和属性,如寻找与产品(地标)相关的价格(属性)或产品识别号(属性)。文档中出现的其他类型的地标和属性对本领域技术人员是容易理解的。
上述本发明的优选实施例提供了图示和说明,但是穷举,也不是将本发明限制于所公开的精确形式。根据上面的所述的启示,修改和改变是可能的,并能从本发明的实施中获得。
例如,虽然参考图5、7和8描述了动作序列,在符合本发明原理的其他实施例中可以修改动作的顺序。而且,可以并行执行非依赖的各动作。
同样,已经说明,候选词语是与地址相关的企业信息一部分的概率居于诸如该词语周围的词语窗口、关于之前词语的预测以及与窗口中一个或多个词语相关的属性、边界信息和标点的特征。在另一实施例中,更多、更少或不同的特征可以用于预测候选词语是否是与地址相关的企业信息的一部分。
对本领域技术人员,很显然,上述本发明的各方面可以在图中所示的实施例中按不同形式的软件、固件和硬件来实施。用于实施符合本发明原理的各方面的实际软件代码或专用控制硬件并不限制本发明。因此,描述各方面的操作和行为而不引用特定软件代码,本领域技术人员可理解,能设计软件和控制硬件以实施根据这里说明的各方面。
本申请中所用的组件、操作或指令不应当理解为对本发明是关键的或必要的,除非如此明确说明。同样,如这里所用,不带数量限定的项是指包括一个项或多个项。当仅仅表示一个项时,使用词语“一个”或类似语言。而且,短语“根据(基于)”用于表示“至少部分的根据(基于)”,除非明确说明了其他含义。
Claims (28)
1.一种用于识别与地址相关联的企业信息的方法,所述方法包括:
识别包括地址的文档;
分析在所述文档中所述地址前面的多个词语;
确定所述多个词语中的每一个是与所述地址相关的名号的一部分的概率,其中所述多个词语中的每一个包括在名号中的概率通过统计模型来确定,所述统计模型通过分析与具有已知地址和相关联名号的多个文档相关联的特征而产生,以及
根据所述多个词语中的一个或多个是与所述地址相关的名号的一部分的概率来识别候选名号;
根据所述多个词语中的所述一个或多个与所述地址相关联的概率向所述候选名号指定置信度得分;以及
根据所述置信度得分确定是否将所述候选名号与所述地址相关联。
2.根据权利要求1所述的用于识别与地址相关联的企业信息的方法,其中所述多个词语包括所述文档中所述地址前面直接相邻的第一词语和在所述文档中所述第一词语前面的一个或多个第二词语。
3.根据权利要求1所述的用于识别与地址相关联的企业信息的方法,其中确定所述多个词语中的每一个包含在名号中的所述概率包括:
预测所述多个词语中的一个词语是否是所述名号的一部分,以及
根据有关所述多个词语中的所述一个词语的预测来预测所述多个词语中的另外一个词语是否是所述名号的一部分。
4.根据权利要求1所述的用于识别与地址相关联的企业信息的方法,其中所述多个词语中的一个词语包含在名号中的概率基于所述多个词语中的所述一个词语周围的词语窗口。
5.根据权利要求1所述的用于识别与地址相关联的企业信息的方法,其中所述多个词语中的一个词语包含在名号中的概率基于与所述多个词语中的另一个词语相关联的概率。
6.根据权利要求1的用于识别与地址相关联的企业信息的方法,其中所述多个词语中的一个词语包含在名号中的概率基于与所述多个词语中的所述一个词语相关联的特征集。
7.根据权利要求1所述的用于识别与地址相关联的企业信息的方法,进一步包括:当所述候选名号与所述地址相关联时,根据所述企业信息和所述地址创建或补充企业登记信息。
8.一种用于识别与地址相关联的企业信息的方法,包括:
识别包括地址的文档;
识别所述文档中的候选电话号码集;
确定所述候选电话号码集中的每一个候选电话号码与所述地址相关联的概率,其中所述概率根据统计模型来确定,所述统计模型通过分析与具有已知地址和相关联的电话号码的多个文档相关联的特征而产生;
根据所述概率将置信度得分指定给候选电话号码;以及
将最高置信度得分的候选电话号码与所述地址相关联。
9.根据权利要求8所述的用于识别与地址相关联的企业信息的方法,其中所述候选电话号码集中的一个候选电话号码与所述地址相关联的概率基于与所述候选电话号码集中的所述一个候选电话号码相关联的特征集。
10.根据权利要求9所述的用于识别与地址相关联的企业信息的方法,其中所述特征集包括下述至少之一:所述候选电话号码集中的所述一个候选号码与所述地址之间的距离、所述候选电话号码集中的所述一个候选号码和所述地址之间的边界信息,常用电话号码词语是否出现在所述候选电话号码集中的所述一个候选号码之前,常用传真号码词语是否出现在所述候选电话号码集中的所述一个候选号码之前,或所述候选电话号码集中的所述一个候选号码和所述地址之间是否存在另一个候选电话号码。
11.一种用于识别与地址相关联的企业信息的系统,包括:
识别包括地址的文档的装置;
分析所述文档中所述地址前面的多个词语的装置;
确定所述多个词语中的每一个是与所述地址相关联的企业信息的概率的装置,其中所述多个词语中的每一个是企业信息的概率根据统计模型来确定,所述统计模型通过分析与具有已知地址和相关联的企业信息的多个文档相关联的特征而产生;
用于识别具有如下概率的一个或多个候选企业信息的装置,所述概率是指所述多个词语中的一个或多个是与所述地址相关联的企业信息的一部分;
根据所述多个词语中的所述一个或多个与所述地址相关联的概率,向所述一个或多个候选企业信息指定置信度得分的装置;
基于所述置信度得分确定是否将所述一个或多个候选企业信息与所述地址相关联的装置。
12.根据权利要求11所述的用于识别与地址相关联的企业信息的系统,其中所述一个或多个候选企业信息包括一个或多个名号。
13.根据权利要求11所述的用于识别与地址相关联的企业信息的系统,其中所述一个或多个候选企业信息包括一个或多个电话号码。
14.一种用于识别与地址相关联的企业信息的系统,其中所述企业信息对应于名号,包括:
识别包括地址的文档的装置;
识别所述文档中的企业信息的装置,包括:
分析所述文档中所述地址前面的多个词语的装置,
根据统计模型确定所述多个词语中的每一个是与所述地址相关联的名号的一部分的概率的装置,其中所述统计模型通过分析与具有已知地址和相关名号的多个文档相关联的特征而产生,以及
根据所述多个词语中的一个或多个是与所述地址相关联的名号的一部分的概率来识别候选名号的装置;
根据所述统计模型预测所述企业信息是否与所述地址相关联的装置;以及
根据所述预测确定是否把所述企业信息和所述地址相关联的装置。
15.根据权利要求14所述的用于识别与地址相关联的企业信息的系统,其中所述多个词语包括所述文档中所述地址前面直接相邻的第一词语和在所述文档中所述第一词语前面的一个或多个第二词语。
16.根据权利要求14所述的用于识别与地址相关联的企业信息的系统,其中确定所述多个词语中的每一个包含在名号中的概率的所述装置包括:
预测所述多个词语中的一个词语是否是名号的一部分的装置,以及
根据关于所述多个词语中的所述一个词语的预测来预测所述多个词语中的另外一个词语是否是所述名号的一部分的装置。
17.根据权利要求14所述的用于识别与地址相关联的企业信息的系统,其中所述多个词语中的一个词语包含在名号中的概率基于所述多个词语中的所述一个词语周围的词语窗口。
18.根据权利要求14所述的用于识别与地址相关联的企业信息的系统,其中所述多个词语中的一个词语包含在名号中的概率基于与所述多个词语中的另一个词语相关联的概率。
19.根据权利要求14所述的用于识别与地址相关联的企业信息的系统,其中所述多个词语中的一个词语包含在名号中的概率基于与所述多个词语中的所述一个词语相关联的特征集。
20.根据权利要求14所述的用于识别与地址相关联的企业信息的系统,其中所述企业信息对应于电话号码;并且其中在所述文档中识别企业信息的所述装置包括:
识别所述文档中的候选电话号码集的装置,以及
根据所述统计模型确定所述候选电话号码集中的每一个候选电话号码与所述地址相关联的概率的装置。
21.根据权利要求20所述的用于识别与地址相关联的企业信息的系统,其中所述候选电话号码集中的一个候选电话号码与所述地址相关联的概率是基于与所述候选电话号码集中的所述一个候选电话号码相关联的特征集。
22.根据权利要求21所述的用于识别与地址相关联的企业信息的系统,其中所述特征集包括下述至少之一:所述候选电话号码集中的所述一个候选电话号码与所述地址之间的距离,所述候选电话号码集中的所述一个候选电话号码和所述地址之间的边界信息,常用电话号码词语是否出现在所述候选电话号码集中的所述一个候选电话号码之前,常用传真号码词语是否出现在所述候选电话号码集中的所述一个候选电话号码之前,或所述候选电话号码集中的所述一个候选电话号码和所述地址之间是否存在另一个候选电话号码。
23.根据权利要求21所述的用于识别与地址相关联的企业信息的系统,其中所述统计模型通过分析与具有已知地址和相关电话号码的多个文档相关联的特征而产生。
24.根据权利要求14所述的用于识别与地址相关联的企业信息的系统,其中所述统计模型通过分析与具有已知地址和相关企业信息的多个文档相关联的特征而产生。
25.根据权利要求14所述的用于识别与地址相关联的企业信息的系统,其中所述企业信息包括至少以下之一:名号、电话号码、营业时间、或到与所述地址相关联的网站或地图的链接。
26.根据权利要求14所述的用于识别与地址相关联的企业信息的系统,其中确定是否把所述企业信息和所述地址相关联的装置包括:
分析所述文档中的词语串的装置;以及
在所述词语串中确定一个词语串的装置,其中所述一个词语串使该串中的词语包含所述企业信息的概率最大。
27.根据权利要求14所述的用于识别与地址相关联的企业信息的系统,其中所述系统进一步包括:
使得当所述企业信息与所述地址相关联时根据所述企业信息和所述地址创建或补充企业登记信息的装置。
28.一种用于识别与地址相关联的企业信息的方法,包括:
识别包括地址的文档;
识别所述文档中的候选电话号码集;
通过分析与具有已知地址和相关联的电话号码的多个文档相关联的特征而产生统计模型;
确定所述候选电话号码集中的每个候选电话号码与所述地址相关联的概率,其中所述概率根据所述统计模型来确定;
根据每个候选电话号码与所述地址相关联的概率向所述候选电话号码指定置信度得分;以及
根据所述置信度得分来确定是否把所述候选电话号码中的一个与所述地址相关联。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/024,765 US7831438B2 (en) | 2004-12-30 | 2004-12-30 | Local item extraction |
US11/024,765 | 2004-12-30 | ||
PCT/US2005/047391 WO2006074052A1 (en) | 2004-12-30 | 2005-12-30 | Local item extraction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101128819A CN101128819A (zh) | 2008-02-20 |
CN101128819B true CN101128819B (zh) | 2011-06-22 |
Family
ID=36218348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800486396A Expired - Fee Related CN101128819B (zh) | 2004-12-30 | 2005-12-30 | 局部项目提取 |
Country Status (8)
Country | Link |
---|---|
US (2) | US7831438B2 (zh) |
EP (2) | EP1839211A1 (zh) |
JP (2) | JP2008527502A (zh) |
KR (1) | KR100974905B1 (zh) |
CN (1) | CN101128819B (zh) |
AU (1) | AU2005322850C1 (zh) |
CA (1) | CA2593378C (zh) |
WO (1) | WO2006074052A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7831438B2 (en) * | 2004-12-30 | 2010-11-09 | Google Inc. | Local item extraction |
US8731954B2 (en) | 2006-03-27 | 2014-05-20 | A-Life Medical, Llc | Auditing the coding and abstracting of documents |
US8682823B2 (en) | 2007-04-13 | 2014-03-25 | A-Life Medical, Llc | Multi-magnitudinal vectors with resolution based on source vector features |
US7908552B2 (en) | 2007-04-13 | 2011-03-15 | A-Life Medical Inc. | Mere-parsing with boundary and semantic driven scoping |
WO2008129339A1 (en) * | 2007-04-18 | 2008-10-30 | Mitsco - Seekport Fz-Llc | Method for location identification in web pages and location-based ranking of internet search results |
US9946846B2 (en) | 2007-08-03 | 2018-04-17 | A-Life Medical, Llc | Visualizing the documentation and coding of surgical procedures |
US20090182759A1 (en) * | 2008-01-11 | 2009-07-16 | Yahoo! Inc. | Extracting entities from a web page |
US8812362B2 (en) * | 2009-02-20 | 2014-08-19 | Yahoo! Inc. | Method and system for quantifying user interactions with web advertisements |
US8468144B2 (en) * | 2010-03-19 | 2013-06-18 | Honeywell International Inc. | Methods and apparatus for analyzing information to identify entities of significance |
US10541053B2 (en) | 2013-09-05 | 2020-01-21 | Optum360, LLCq | Automated clinical indicator recognition with natural language processing |
US10133727B2 (en) | 2013-10-01 | 2018-11-20 | A-Life Medical, Llc | Ontologically driven procedure coding |
US9317873B2 (en) | 2014-03-28 | 2016-04-19 | Google Inc. | Automatic verification of advertiser identifier in advertisements |
US20150287099A1 (en) * | 2014-04-07 | 2015-10-08 | Google Inc. | Method to compute the prominence score to phone numbers on web pages and automatically annotate/attach it to ads |
US11115529B2 (en) | 2014-04-07 | 2021-09-07 | Google Llc | System and method for providing and managing third party content with call functionality |
US10469424B2 (en) | 2016-10-07 | 2019-11-05 | Google Llc | Network based data traffic latency reduction |
CN109933785B (zh) * | 2019-02-03 | 2023-06-20 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN111723165B (zh) * | 2019-03-18 | 2024-06-11 | 阿里巴巴集团控股有限公司 | 地址兴趣点确定方法、装置及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1536483A (zh) * | 2003-04-04 | 2004-10-13 | 陈文中 | 网络信息抽取及处理的方法及系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6701307B2 (en) | 1998-10-28 | 2004-03-02 | Microsoft Corporation | Method and apparatus of expanding web searching capabilities |
US6374241B1 (en) * | 1999-03-31 | 2002-04-16 | Verizon Laboratories Inc. | Data merging techniques |
EP3367268A1 (en) | 2000-02-22 | 2018-08-29 | Nokia Technologies Oy | Spatially coding and displaying information |
US20020156779A1 (en) | 2001-09-28 | 2002-10-24 | Elliott Margaret E. | Internet search engine |
US6965900B2 (en) | 2001-12-19 | 2005-11-15 | X-Labs Holdings, Llc | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents |
JP4005477B2 (ja) | 2002-05-15 | 2007-11-07 | 日本電信電話株式会社 | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
US7599988B2 (en) | 2002-08-05 | 2009-10-06 | Metacarta, Inc. | Desktop client interaction with a geographical text search system |
EP1604309A2 (en) | 2003-03-18 | 2005-12-14 | Metacarta, Inc. | Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval |
US8346770B2 (en) * | 2003-09-22 | 2013-01-01 | Google Inc. | Systems and methods for clustering search results |
US7349901B2 (en) * | 2004-05-21 | 2008-03-25 | Microsoft Corporation | Search engine spam detection using external data |
US7831438B2 (en) | 2004-12-30 | 2010-11-09 | Google Inc. | Local item extraction |
CA2702450C (en) * | 2006-12-20 | 2017-01-31 | Victor David Uy | Method of displaying a subjective score with search engine results |
US7877385B2 (en) * | 2007-09-21 | 2011-01-25 | Microsoft Corporation | Information retrieval using query-document pair information |
WO2010141799A2 (en) * | 2009-06-05 | 2010-12-09 | West Services Inc. | Feature engineering and user behavior analysis |
-
2004
- 2004-12-30 US US11/024,765 patent/US7831438B2/en not_active Expired - Fee Related
-
2005
- 2005-12-30 CN CN2005800486396A patent/CN101128819B/zh not_active Expired - Fee Related
- 2005-12-30 EP EP05855882A patent/EP1839211A1/en not_active Ceased
- 2005-12-30 AU AU2005322850A patent/AU2005322850C1/en not_active Ceased
- 2005-12-30 CA CA2593378A patent/CA2593378C/en not_active Expired - Fee Related
- 2005-12-30 EP EP11163711A patent/EP2372584A1/en not_active Withdrawn
- 2005-12-30 WO PCT/US2005/047391 patent/WO2006074052A1/en active Application Filing
- 2005-12-30 KR KR1020077017429A patent/KR100974905B1/ko not_active IP Right Cessation
- 2005-12-30 JP JP2007549625A patent/JP2008527502A/ja active Pending
-
2010
- 2010-09-23 US US12/888,925 patent/US8433704B2/en active Active
-
2011
- 2011-03-04 JP JP2011047519A patent/JP5226095B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1536483A (zh) * | 2003-04-04 | 2004-10-13 | 陈文中 | 网络信息抽取及处理的方法及系统 |
Non-Patent Citations (1)
Title |
---|
JP特开2002-334102A 2002.11.22 |
Also Published As
Publication number | Publication date |
---|---|
WO2006074052A1 (en) | 2006-07-13 |
EP1839211A1 (en) | 2007-10-03 |
US8433704B2 (en) | 2013-04-30 |
EP2372584A1 (en) | 2011-10-05 |
KR20070092755A (ko) | 2007-09-13 |
KR100974905B1 (ko) | 2010-08-09 |
CA2593378A1 (en) | 2006-07-13 |
CA2593378C (en) | 2012-06-05 |
CN101128819A (zh) | 2008-02-20 |
JP5226095B2 (ja) | 2013-07-03 |
US7831438B2 (en) | 2010-11-09 |
JP2011129154A (ja) | 2011-06-30 |
US20060149565A1 (en) | 2006-07-06 |
US20110047151A1 (en) | 2011-02-24 |
AU2005322850B2 (en) | 2010-02-11 |
JP2008527502A (ja) | 2008-07-24 |
AU2005322850C1 (en) | 2010-07-15 |
AU2005322850A1 (en) | 2006-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101128819B (zh) | 局部项目提取 | |
US9183535B2 (en) | Social network model for semantic processing | |
US8185484B2 (en) | Predicting and using search engine switching behavior | |
CN100478949C (zh) | 具有实体检测的查询改写 | |
US20110087961A1 (en) | Method and System for Assisting in Typing | |
US20090249198A1 (en) | Techniques for input recogniton and completion | |
US20180349471A1 (en) | Event extraction systems and methods | |
CN101128822A (zh) | 权威性文档识别 | |
CN101128824A (zh) | 位置提取 | |
US11263248B2 (en) | Presenting content in accordance with a placement designation | |
CN107146112B (zh) | 一种移动互联网广告投放方法 | |
CN101128821A (zh) | 不明确地理引用的分类 | |
US10579709B2 (en) | Promoting content | |
JP2012113716A (ja) | カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 | |
Ma | Learning for spoken dialog systems with discriminative graphical models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110622 Termination date: 20151230 |
|
EXPY | Termination of patent right or utility model |