CN104462151B - 评估网页发布时间的方法和相关装置 - Google Patents
评估网页发布时间的方法和相关装置 Download PDFInfo
- Publication number
- CN104462151B CN104462151B CN201310442755.2A CN201310442755A CN104462151B CN 104462151 B CN104462151 B CN 104462151B CN 201310442755 A CN201310442755 A CN 201310442755A CN 104462151 B CN104462151 B CN 104462151B
- Authority
- CN
- China
- Prior art keywords
- time
- character string
- time character
- reference feature
- fixed reference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了评估网页发布时间的方法和相关装置。一种评估网页发布时间的方法包括:识别网页包含的N个时间字符串;分别提取N个时间字符串中的每个时间字符串的M个参考特征;按照预设的评分规则,分别对N个时间字符串中的每个时间字符串的M个参考特征进行评分,并得到N个时间字符串中的每个时间字符串的M个参考特征的总得分,将总得分符合预设得分条件的对应时间字符串所描述的时间作为网页的发布时间。本发明实施例提供的技术方案有利于提高网页主体内容的发布时间的估计准确度。
Description
技术领域
本发明涉及互联网领域,具体主要涉及一种评估网页发布时间的方法和相关装置。
背景技术
超文本传输协议(HTTP,Hypertext transfer protocol)协议的响应头中通常含有网页的最后修改时间(Last-Modified时间),而搜索引擎等在抓取页面的时候通常是从HTTP响应头中提取该时间值作为网页发布时间。
本发明的发明人在研究和实践过程中发现,现有技术至少存在以下的技术问题:网页最后修改时间常常不能准确地反映页面的真实发布时间。例如当编辑对网页进行修改(如添加广告信息),最后修改时间发生变化。此时网页的主体信息发布时间其实并没有改变,真实发布时间应早于最后修改时间。如某篇描述“2008北京奥运会”的网页,但编辑在2012年对网页做修改,最后修改时间变为2012年,与网页主体的真实发布时间不符。并且,并非所有的网页都具有最后修改时间。因此,将网页的最后修改时间直接作为网页的发布时间在很多场景下是不合适的。
发明内容
本发明实施例提供评估网页发布时间的方法和相关装置,以期提高网页主体内容的发布时间的估计准确度。
本发明实施例一方面提供一种评估网页发布时间的方法,可包括:
识别网页包含的N个时间字符串;
分别提取所述N个时间字符串中的每个时间字符串的M个参考特征;
按照预设的评分规则,对所述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到所述N个时间字符串中的每个时间字符串的M个参考特征的总得分,将总得分符合预设得分条件的对应时间字符串所描述的时间作为所述网页的发布时间,其中,所述N为大于1的正整数,所述M为正整数。
本发明实施例还提供一种评估网页发布时间的装置,可包括:
识别单元,用于识别网页包含的N个时间字符串;
特征提取单元,用于分别提取所述N个时间字符串中的每个时间字符串的M个参考特征;
评估单元,用于按照预设的评分规则,对所述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到所述N个时间字符串中的每个时间字符串的M个参考特征的总得分,将总得分符合预设得分条件的对应时间字符串所描述的时间作为所述网页的发布时间,其中,所述N为大于1的正整数,所述M为正整数。
可以看出,本发明实施例方案中,通过分别提取从网页中识别出的N个时间字符串中的每个时间字符串的M个参考特征;并按照预设的评分规则对上述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分,并将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间。由于是从M个参考特征的角度,来分别对提取的N个时间字符串进行评分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,通过更多方面因素综合考虑来估计那个时间字符串所描述的时间作为上述网页的发布时间,相对于现有技术,本实施例的机制有利于提高网页主体内容的发布时间的估计准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种评估网页发布时间的方法的流程示意图;
图2是本发明实施例提供的另一种评估网页发布时间的方法的流程示意图;
图3是本发明实施例提供的另一种评估网页发布时间的方法的流程示意图;
图4是本发明实施例提供的一种获取的网页的示意图;
图5是本发明实施例提供的一种评估网页发布时间的装置的示意图;
图6是本发明实施例提供的一种计算节点的示意图。
具体实施方式
本发明实施例提供评估网页发布时间的方法和相关装置,以期提高网页主体内容的发布时间的估计准确度。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
以下分别进行详细说明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明一种评估网页发布时间的方法的一个实施例,其中,一种评估网页发布时间的方法,可以包括:识别网页包含的N个时间字符串;分别提取上述N个时间字符串中的每个时间字符串的M个参考特征;按照预设的评分规则对上述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,上述N为大于1的正整数,上述M为正整数。
首先请参见图1,图1是本发明一个实施例提供的一种评估网页发布时间的方法的流程示意图。如图1所示,本发明一个实施例提供的一种评估网页发布时间的方法可包括以下内容:
101、识别网页包含的N个时间字符串。
在本发明一些实施例中,可识别出网页正文中包含的时间字符串,也还可以识别出统一资源定位符(URL,Universal Resource Locator)中包含的时间字符串。其中,由于时间字符串具有比较明显的特征,因此可采用多种方式来进行识别。
在本发明一些实施例中,识别网页包含的N个时间字符串可以包括:构建网页对应的Dom树;从构建出的上述Dom树中识别上述网页包含的N个时间字符串。其中,识别出的时间字符串可具有各种不同的格式,例如,识别出的时间字符串可能具体如下一些格式“2005-03-01”、“2008年8月2日”、“2010年10月1日14:33”等。
102、分别提取上述N个时间字符串中的每个时间字符串的M个参考特征。
103、按照预设的评分规则对上述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间。
在本发明的一些实施例中,上述M个参考特征包括m1个语义特征和/或m2个结构特征,上述N为大于1的正整数,上述M为正整数,上述m1和上述m2为小于或等于上述M的正整数。
在本发明的一些实施例中,上述按照预设的评分规则,分别对上述N个时间字符串中的每个时间字符串的M个参考特征进行评分,可以包括:分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度(可以理解的是,M个标准参考特征和M个参考特征的类型是一一对应的关系,因此,分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度,即,分别计算出M个标准参考特征中的每个标准参考特征,与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征之中与该每个标准参考特征的类型相同的参考特征之间的匹配度),将计算得到的匹配度所对应的分值作为对应参考特征的得分。可以理解的是,匹配度越高,表示对应参考特征和标准参考特征之间越近似,也就表示从这个方面来看,对应时间字符串所描述的时间越有可能是网页的真实发布时间。
可以理解的是,如果用高分表示高匹配度、低分表示低匹配度,即匹配度越高,则对应参考特征得分就可能越高,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。如此,N个时间字符串之中,总得分越高的时间字符串所描述的时间越有可能是网页的真实发布时间,而N个时间字符串之中总得分越低的时间字符串所描述的时间越不可能是网页的真实发布时间。反之,如果用高分表示低匹配度、而低分表示高匹配度,即匹配度越高则表示对应参考特征的得分就可能越低,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。这样,N个时间字符串之中,总得分越低的时间字符串所描述的时间越有可能是网页的真实发布时间,N个时间字符串之中总得分越高的时间字符串所描述的时间越不可能是网页的真实发布时间。按照其它打分规则对时间字符串的M个标准参考特征之中的每个参考特征进行打分的场景以此类推。
在本发明的一些实施例中,例如可以利用分类器,分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度。
在本发明的另一些实施例中,上述按照预设的评分规则,分别对上述N个时间字符串中的每个时间字符串的M个参考特征进行评分,可以包括:基于参考特征与分值之间的预设对应关系,分别得到上述N个时间字符串之中的每个时间字符串的M个参考特征的得分。当然,还可基于其它方式来按照预设的评分规则,分别对上述N个时间字符串中的每个时间字符串的M个参考特征进行评分。其中,在本发明的一些实施例中,例如可以利用分类器基于参考特征与分值之间的预设对应关系,分别得到上述N个时间字符串中的每个时间字符串的M个参考特征的得分。可以理解的是,在参考特征与分值之间的预设对应关系之中,如果用高分表示高可能性、低分表示低可能性,即可能性越高则对应参考特征得分就可能越高,也就表示从这个方面来看,对应时间字符串所描述的时间越有可能是网页的真实发布时间。其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。如此,N个时间字符串之中,总得分越高的时间字符串所描述的时间越有可能是网页的真实发布时间,而N个时间字符串之中总得分越低的时间字符串所描述的时间越不可能是网页的真实发布时间。反之,如果在参考特征与分值之间的预设对应关系之中,用高分表示低可能性、而低分表示高可能性,即可能性越高则表示对应参考特征的得分就可能越低,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,其中,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。这样,N个时间字符串之中,总得分越低的时间字符串所描述的时间就越有可能是网页的真实发布时间,N个时间字符串之中总得分越高的时间字符串所描述的时间越不可能是网页的真实发布时间。按照其它打分规则对时间字符串的M个标准参考特征之中的每个参考特征进行打分的场景以此类推。
在本发明的一些实施例中,上述分类器通过向量机训练方法得到、或者上述分类器通过朴素贝叶斯训练方法得到、或者上述分类器通过神经网络训练方法得到、当然上述分类器亦可通过其它方式训练得到。
其中,利用分类器可综合时间字符串的结构特征和语义特征,进而有利于从候选的N个时间字符串中选出最可能是描述网页真实发布时间的哪个时间字符串来。进一步的,还可利用总得分符合预设得分条件的对应时间字符串作为反馈样本,继续对分类器进行训练。
可以理解,若总得分越高表示对应时间字符串所描述的时间为网页真实发布时间的可能性越高,则可得到的总得分最高的对应时间字符串所描述的时间作为上述网页的发布时间。反之,若总得分越低表示对应时间字符串所描述的时间为网页真实发布时间的可能性越搞,则可得到的总得分最低的对应时间字符串所描述的时间作为上述网页的发布时间。
在本发明的一些实施例中,上述m1个语义特征例如可包括如下特征的至少1个:时间字符串所处块的块类型(其中,该块类型可为正文块、标题块或附属块)、时间字符串周围所环绕文本中包含的关键字(即时间字符串周围设定长度范围之内的文本之中所包含的正向关键字和/或反向关键字)、时间字符串与网页标题的距离。例如,从时间字符串所处块的块类型方面看,若时间字符串所处块的块类型为网页标题,该时间字符串所描述时间为网页真实发布时间的可能性通常大于该时间字符串所处块的块类型为正文的情况,而若时间字符串所处块的块类型为附属块(例如记录引文出处的块等等),则该时间字符串所描述时间为网页真实发布时间的可能性通常小于该时间字符串所处块的块类型为正文的情况。又例如,若从时间字符串周围所环绕文本中包含的关键字的方面来看,时间字符串周围所环绕文本中包含的正向关键字越多、各正向关键字的正向关键程度越高、反向关键字数量越少、各反向关键字的反向关键程度越低,则该时间字符串所描述的时间为网页真实的发布时间的可能性也就越高;反之,时间字符串周围所环绕文本中包含的越多正向关键字越少,各正向关键字的正向关键程度越低、反向关键字数量越多、各反向关键字的反向关键程度越高,表示该时间字符串所描述时间为网页真实发布时间的可能性也就越低。又举例来说,若从时间字符串与网页标题的距离的方面来看,时间字符串距离网页标题越近,该时间字符串所描述时间为网页真实发布时间的可能性也就越大,时间字符串距离网页标题越远,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。当然,m1个语义特征中还可能包括其它可用于参考的语义特征,此处不再一一举例。
在本发明的一些实施例中,上述m2个结构特征例如可包括如下特征的至少1个:时间字符串所描述时间的精确度、时间字符串中的各时间要素(时间要素例如年、月、日、时、分、秒等)之间的分隔符的类型、时间字符串的串长度。举例来说,若从时间字符串所描述时间的精确度的方面来看,时间字符串所描述时间的精确度越高,该时间字符串所描述时间为网页真实发布时间的可能性也就越大,反之,若时间字符串所描述时间的精确度越低,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。又例如,若从时间字符串的串长度的方面来看,时间字符串的串长度越长,该时间字符串所描述时间为网页真实发布时间的可能性就越大,时间字符串的串长度越短,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。又例如,若从时间字符串中的各时间要素之间的分隔符的类型的方面来看,若时间字符串中的时间要素之间的分隔符的类型为汉字,则该时间字符串所描述时间为网页真实发布时间的可能性,通常大于该时间字符串的时间要素之间的分隔符的类型为字符的情况。当然,m2个结构特征中还可能包括其它可用于参考的结构特征,此处不再一一举例。
可以看出,本实施例的提供方案,通过分别提取从网页中识别出的N个时间字符串中的每个时间字符串的M个参考特征;并按照预设的评分规则对上述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分,并将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间。由于是从M个参考特征的角度,来分别对提取的N个时间字符串进行评分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,通过更多方面因素综合考虑来估计那个时间字符串所描述的时间作为上述网页的发布时间,相对于现有技术,本实施例的机制有利于提高网页主体内容的发布时间的估计准确度。
进一步的,若M个参考特征包括m1个语义特征和/或m2个结构特征,则由于是从m1个语义特征和/或m2个结构特征的角度,分别对提取的N个时间字符串进行评分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,更多方面因素综合考虑来估计那个时间字符串所描述的时间作为上述网页的发布时间,这就有利于进一步提高网页主体内容的发布时间的估计准确度。
为便于更好的理解和实施本发明实施例的上述方案,下面通过一些具体例子进行举例说明。
参见图2,图2是本发明另一个实施例提供的另一种评估网页发布时间的方法的流程示意图。如图2所示,本发明另一个实施例提供的另一种评估网页发布时间的方法可包括以下内容:
201、获取网页。
其中,可从互联网上获取网页。
202、构建获取的网页对应的Dom树。
203、从构建出的上述Dom树中识别上述网页包含的N个时间字符串;
其中,识别出的时间字符串可具有各种不同的格式,例如,识别出的时间字符串可能具体如下一些格式“2005-03-01”、“2008年8月2日”、“2010年10月1日14:33”等。
204、分别提取上述N个时间字符串中的每个时间字符串的M个参考特征。
205、分别计算出M个标准参考特征,与提取到的所述N个时间字符串中的每个时间字符串的M个参考特征的匹配度,将计算得到的匹配度所对应的分值作为对应参考特征的得分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分;将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,上述M个参考特征包括m1个语义特征和m2个结构特征,上述N为大于1的正整数,上述M为正整数,上述m1和上述m2为小于上述M的正整数。
在本发明的一些实施例中,上述m1个语义特征例如可包括如下特征的至少1个:时间字符串所处块的块类型(其中,该块类型可为正文块、标题块或附属块)、时间字符串周围所环绕文本中包含的关键字(即时间字符串周围设定长度范围之内的文本之中所包含的正向关键字和/或反向关键字)、时间字符串与网页标题的距离。例如,从时间字符串所处块的块类型方面看,若时间字符串所处块的块类型为网页标题,该时间字符串所描述时间为网页真实发布时间的可能性通常大于该时间字符串所处块的块类型为正文的情况,而若时间字符串所处块的块类型为附属块(例如记录引文出处的块等等),则该时间字符串所描述时间为网页真实发布时间的可能性通常小于该时间字符串所处块的块类型为正文的情况。又例如,若从时间字符串周围所环绕文本中包含的关键字的方面来看,时间字符串周围所环绕文本中包含的正向关键字越多、各正向关键字的正向关键程度越高、反向关键字数量越少、各反向关键字的反向关键程度越低,则该时间字符串所描述的时间为网页真实的发布时间的可能性也就越高;反之,时间字符串周围所环绕文本中包含的越多正向关键字越少,各正向关键字的正向关键程度越低、反向关键字数量越多、各反向关键字的反向关键程度越高,表示该时间字符串所描述时间为网页真实发布时间的可能性也就越低。又举例来说,若从时间字符串与网页标题的距离的方面来看,时间字符串距离网页标题越近,该时间字符串所描述时间为网页真实发布时间的可能性也就越大,时间字符串距离网页标题越远,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。当然,m1个语义特征中还可能包括其它可用于参考的语义特征,此处不再一一举例。
在本发明的一些实施例中,上述m2个结构特征例如可包括如下特征的至少1个:时间字符串所描述时间的精确度、时间字符串中的各时间要素(时间要素例如年、月、日、时、分、秒等)之间的分隔符的类型、时间字符串的串长度。举例来说,若从时间字符串所描述时间的精确度的方面来看,时间字符串所描述时间的精确度越高,该时间字符串所描述时间为网页真实发布时间的可能性也就越大,反之,若时间字符串所描述时间的精确度越低,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。又例如,若从时间字符串的串长度的方面来看,时间字符串的串长度越长,该时间字符串所描述时间为网页真实发布时间的可能性就越大,时间字符串的串长度越短,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。又例如,若从时间字符串中的各时间要素之间的分隔符的类型的方面来看,若时间字符串中的时间要素之间的分隔符的类型为汉字,则该时间字符串所描述时间为网页真实发布时间的可能性,通常大于该时间字符串的时间要素之间的分隔符的类型为字符的情况。当然,m2个结构特征中还可能包括其它可用于参考的结构特征,此处不再一一举例。
可以理解的是,上述M个标准参考特征和M个参考特征的类型是一一对应的关系(其中,例如M个参考特征包括m1个语义特征,则M个标准参考特征也包括与上述m1个语义特征的类型一一对应的m1个语义特征;又例如M个参考特征包括m2个结构特征,则M个标准参考特征也包括与上述m2个结构特征的类型一一对应的m1个语义特征;又例如M个参考特征包括m1个语义特征和m2个结构特征,则M个标准参考特征也包括与上述m1个语义特征和m2个结构特征的类型一一对应的m1个语义特征和m2个结构特征),因此,分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度,即,分别计算出M个标准参考特征中的每个标准参考特征,与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征之中与该每个标准参考特征的类型相同的参考特征之间的匹配度。
可以理解的是,匹配度越高,则表示对应参考特征和标准参考特征之间越近似,也就表示从这个方面来看,对应时间字符串所描述的时间越有可能是网页的真实发布时间。
可以理解的是,如果用高分表示高匹配度、低分表示低匹配度,即匹配度越高,则对应参考特征得分就可能越高,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。如此,N个时间字符串之中,总得分越高的时间字符串所描述的时间越有可能是网页的真实发布时间,而N个时间字符串之中总得分越低的时间字符串所描述的时间越不可能是网页的真实发布时间。反之,如果用高分表示低匹配度、而低分表示高匹配度,即匹配度越高则表示对应参考特征的得分就可能越低,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。这样,N个时间字符串之中,总得分越低的时间字符串所描述的时间越有可能是网页的真实发布时间,N个时间字符串之中总得分越高的时间字符串所描述的时间越不可能是网页的真实发布时间。按照其它打分规则对时间字符串的M个标准参考特征之中的每个参考特征进行打分的场景以此类推。
在本发明的一些实施例中,例如可以利用分类器,分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度。
在本发明的一些实施例中,上述分类器通过向量机训练方法得到、或者上述分类器通过朴素贝叶斯训练方法得到、或者上述分类器通过神经网络训练方法得到、当然上述分类器亦可通过其它方式训练得到。
其中,利用分类器可综合时间字符串的结构特征和语义特征,进而有利于从候选的N个时间字符串中选出最可能是描述网页真实发布时间的哪个时间字符串来。进一步的,还可利用总得分符合预设得分条件的对应时间字符串作为反馈样本,继续对分类器进行训练。
可以理解,若总得分越高表示对应时间字符串所描述的时间为网页真实发布时间的可能性越高,则可得到的总得分最高的对应时间字符串所描述的时间作为上述网页的发布时间。反之,若总得分越低表示对应时间字符串所描述的时间为网页真实发布时间的可能性越搞,则可得到的总得分最低的对应时间字符串所描述的时间作为上述网页的发布时间。
可以看出,本实施例的提供方案,通过分别提取从网页中识别出的N个时间字符串中的每个时间字符串的M个参考特征;并按照预设的评分规则对上述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分,并将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,上述M个参考特征包括m1个语义特征和m2个结构特征,上述N为大于1的正整数,m1和上述m2为小于或等于上述M的正整数。由于是从m1个语义特征和m2个结构特征的角度,分别对提取的N个时间字符串进行评分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,更多方面因素综合考虑来估计那个时间字符串所描述的时间作为上述网页的发布时间,相对于现有技术,本实施例的机制有利于提高网页主体内容的发布时间的估计准确度。
参见图3,图3是本发明另一个实施例提供的一种评估网页发布时间的方法的流程示意图。如图3所示,本发明另一个实施例提供的一种评估网页发布时间的方法可包括以下内容:
301、获取网页。
其中,可从互联网上获取网页。
302、构建网页对应的Dom树。
303、从构建出的上述Dom树中识别上述网页包含的N个时间字符串;
其中,识别出的时间字符串可具有各种不同的格式,例如,识别出的时间字符串可能具体如下一些格式“2005-03-01”、“2008年8月2日”、“2010年10月1日14:33”等。
304、分别提取上述N个时间字符串中的每个时间字符串的M个参考特征。
305、基于参考特征与分值之间的预设对应关系,分别得到所述N个时间字符串中的每个时间字符串的M个参考特征的得分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分;将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,上述M个参考特征包括m1个语义特征和m2个结构特征,上述N为大于1的正整数,上述M为正整数,上述m1和上述m2为小于上述M的正整数。
在本发明的一些实施例中,上述m1个语义特征例如可包括如下特征的至少1个:时间字符串所处块的块类型(其中,该块类型可为正文块、标题块或附属块)、时间字符串周围所环绕文本中包含的关键字(即时间字符串周围设定长度范围之内的文本之中所包含的正向关键字和/或反向关键字)、时间字符串与网页标题的距离。例如,从时间字符串所处块的块类型方面看,若时间字符串所处块的块类型为网页标题,该时间字符串所描述时间为网页真实发布时间的可能性通常大于该时间字符串所处块的块类型为正文的情况,而若时间字符串所处块的块类型为附属块(例如记录引文出处的块等等),则该时间字符串所描述时间为网页真实发布时间的可能性通常小于该时间字符串所处块的块类型为正文的情况。又例如,若从时间字符串周围所环绕文本中包含的关键字的方面来看,时间字符串周围所环绕文本中包含的正向关键字越多、各正向关键字的正向关键程度越高、反向关键字数量越少、各反向关键字的反向关键程度越低,则该时间字符串所描述的时间为网页真实的发布时间的可能性也就越高;反之,时间字符串周围所环绕文本中包含的越多正向关键字越少,各正向关键字的正向关键程度越低、反向关键字数量越多、各反向关键字的反向关键程度越高,表示该时间字符串所描述时间为网页真实发布时间的可能性也就越低。又举例来说,若从时间字符串与网页标题的距离的方面来看,时间字符串距离网页标题越近,该时间字符串所描述时间为网页真实发布时间的可能性也就越大,时间字符串距离网页标题越远,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。当然,m1个语义特征中还可能包括其它可用于参考的语义特征,此处不再一一举例。
在本发明的一些实施例中,上述m2个结构特征例如可包括如下特征的至少1个:时间字符串所描述时间的精确度、时间字符串中的各时间要素(时间要素例如年、月、日、时、分、秒等)之间的分隔符的类型、时间字符串的串长度。举例来说,若从时间字符串所描述时间的精确度的方面来看,时间字符串所描述时间的精确度越高,该时间字符串所描述时间为网页真实发布时间的可能性也就越大,反之,若时间字符串所描述时间的精确度越低,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。又例如,若从时间字符串的串长度的方面来看,时间字符串的串长度越长,该时间字符串所描述时间为网页真实发布时间的可能性就越大,时间字符串的串长度越短,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。又例如,若从时间字符串中的各时间要素之间的分隔符的类型的方面来看,若时间字符串中的时间要素之间的分隔符的类型为汉字,则该时间字符串所描述时间为网页真实发布时间的可能性,通常大于该时间字符串的时间要素之间的分隔符的类型为字符的情况。当然,m2个结构特征中还可能包括其它可用于参考的结构特征,此处不再一一举例。
其中,在本发明的一些实施例中,例如可以利用分类器基于参考特征与分值之间的预设对应关系,分别得到上述N个时间字符串中的每个时间字符串的M个参考特征的得分。可以理解的是,在参考特征与分值之间的预设对应关系之中,如果用高分表示高可能性、低分表示低可能性,即可能性越高则对应参考特征得分就可能越高,也就表示从这个方面来看,对应时间字符串所描述的时间越有可能是网页的真实发布时间。其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。如此,N个时间字符串之中,总得分越高的时间字符串所描述的时间越有可能是网页的真实发布时间,而N个时间字符串之中总得分越低的时间字符串所描述的时间越不可能是网页的真实发布时间。反之,如果在参考特征与分值之间的预设对应关系之中,用高分表示低可能性、而低分表示高可能性,即可能性越高则表示对应参考特征的得分就可能越低,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,其中,对于求积或加权求积的情况,以每个参考特征得分大于或者等于0为例。这样,N个时间字符串之中,总得分越低的时间字符串所描述的时间就越有可能是网页的真实发布时间,N个时间字符串之中总得分越高的时间字符串所描述的时间越不可能是网页的真实发布时间。按照其它打分规则对时间字符串的M个标准参考特征之中的每个参考特征进行打分的场景以此类推。
在本发明的一些实施例中,上述分类器通过向量机训练方法得到、或者上述分类器通过朴素贝叶斯训练方法得到、或者上述分类器通过神经网络训练方法得到、当然上述分类器亦可通过其它方式训练得到。
其中,利用分类器可综合时间字符串的结构特征和语义特征,进而有利于从候选的N个时间字符串中选出最可能是描述网页真实发布时间的哪个时间字符串来。进一步的,还可利用总得分符合预设得分条件的对应时间字符串作为反馈样本,继续对分类器进行训练。
可以理解,若总得分越高表示对应时间字符串所描述的时间为网页真实发布时间的可能性越高,则可得到的总得分最高的对应时间字符串所描述的时间作为上述网页的发布时间。反之,若总得分越低表示对应时间字符串所描述的时间为网页真实发布时间的可能性越搞,则可得到的总得分最低的对应时间字符串所描述的时间作为上述网页的发布时间。
可以看出,本实施例的提供方案,通过分别提取从网页中识别出的N个时间字符串中的每个时间字符串的M个参考特征;并按照预设的评分规则对上述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分,并将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,上述M个参考特征包括m1个语义特征和m2个结构特征,上述N为大于1的正整数,m1和上述m2为小于或等于上述M的正整数。由于是从m1个语义特征和m2个结构特征的角度,分别对提取的N个时间字符串进行评分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,更多方面因素综合考虑来估计那个时间字符串所描述的时间作为上述网页的发布时间,相对于现有技术,本实施例的机制有利于提高网页主体内容的发布时间的估计准确度。
为便于更好的理解和实施本发明实施例的上述方案,下面通过一些更为具体例子进行举例说明。
如图4所示,输入url为http://tech.hexun.com/2011-10-25/134541741.html的网页的html源码。其中,可从输入url中提取时间“2011-10-25”;假设又从网页内容中提取“2012-02-2414:09:40”、“1949年9月21日”、“1954年9月”、“2011年10月25日14:33”、“2014年11月”等时间字符串。
可分别提取上述时间字符串中的每个时间字符串的语义特征和结构特征。
以如下两个时间字符串“2011年10月25日14:33”和“2014年11月”为例子分析。假设这两个时间字符串的初始得分都为0,假设得分越高的时间表示越有可能描述的是网页的真实发布时间。
以下依据各自的语义特征和结构特征进行比较。
时间字符串“2011年10月25日14:33”位于标题下方,时间字符串“2014年11月”位于正文中,标题下方的时间字符串更可能是描述真实时间,时间字符串“2011年10月25日14:33”的得分加10分,时间字符串“2014年11月”的得分加3分;时间字符串“2011年10月25日14:33”比时间字符串“2014年11月”具有更多的时分秒和日期信息,而描述的时间值越精确就越可能是真实时间,因此时间字符串“2011年10月25日14:33”的得分加5分,时间字符串“2014年11月”的得分加2分;时间字符串“2011年10月25日14:33”的年月日与url中提取到的时间字符串的年月日相匹配,与url中的时间字符串匹配的时间字符串更有可能是真实时间,因此,时间字符串“2011年10月25日14:33”的得分加8分;时间字符串“2014年11月”的得分加0分。
时间字符串“2011年10月25日14:33”最终总得分为23分,时间字符串“2014年11月”最终总得分为5分,因此,相对于时间字符串“2014年11月”,时间字符串“2011年10月25日14:33”描述的时间更有可能是网页真实发布时间。其它时间字符串的比较与之类似。
可以理解,上述举例中每个特征的得分可根据具体情况而设定,并不限于上述举例。
本发明实施例提供的方案例如可为搜索引擎的排序提供重要因子,网页的发布时间作为衡量网页信息新旧程度的指标。当用户输入时新性查询时,如“中国男足现任主教练”,搜索引擎在排序时,会对网页发布时间新的网页做提权处理。当然,对于需要基于网页发布时间进行的其它操作,亦可采用本发明实施例提供的方案来评估网页发布时间。
下面还提供用于实施上述方案的相关装置。
参见图5,本发明实施例还提供一种评估网页发布时间的装置500,可包括识别单元510、特征提取单元520和评估单元530。
识别单元510,用于识别网页包含的N个时间字符串;
特征提取单元520,用于分别提取上述N个时间字符串中的每个时间字符串的M个参考特征;
评估单元530,用于按照预设的评分规则,分别对上述N个时间字符串中的每个时间字符串的M个参考特征进行评分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分,将总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间。
在本发明一些实施例中,上述M个参考特征包括m1个语义特征和/或m2个结构特征,上述m1和上述m2为小于或等于上述M的正整数,上述N为大于1的正整数,上述M为正整数。
在本发明的一些实施例中,在上述按照预设的评分规则,分别对上述N个时间字符串中的每个时间字符串的M个参考特征进行评分的方面,上述评估单元530可具体用于:基于参考特征与分值之间的预设对应关系,分别得到上述N个时间字符串中的每个时间字符串的M个参考特征的得分;或者,分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度,将计算得到的匹配度所对应的分值作为对应参考特征的得分。
在本发明的一些实施例中,在分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度的方面,评估单元具体530可具体用于:利用分类器分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度。
可以理解的是,如果用高分表示高匹配度、低分表示低匹配度,即匹配度越高,则对应参考特征得分就可能越高,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。如此,N个时间字符串之中,总得分越高的时间字符串所描述的时间越有可能是网页的真实发布时间,而N个时间字符串之中总得分越低的时间字符串所描述的时间越不可能是网页的真实发布时间。反之,如果用高分表示低匹配度、而低分表示高匹配度,即匹配度越高则表示对应参考特征的得分就可能越低,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。这样,N个时间字符串之中,总得分越低的时间字符串所描述的时间越有可能是网页的真实发布时间,N个时间字符串之中总得分越高的时间字符串所描述的时间越不可能是网页的真实发布时间。按照其它打分规则对时间字符串的M个标准参考特征之中的每个参考特征进行打分的场景以此类推。
其中,在本发明的一些实施例中,在上述基于参考特征与分值之间的预设对应关系,分别得到上述N个时间字符串中的每个时间字符串的M个参考特征的得分的方面,评估单元具体530可具体用于:利用分类器基于参考特征与分值之间的预设对应关系,分别得到上述N个时间字符串中的每个时间字符串的M个参考特征的得分。
可以理解的是,在参考特征与分值之间的预设对应关系之中,如果用高分表示高可能性、低分表示低可能性,即可能性越高则对应参考特征得分就可能越高,也就表示从这个方面来看,对应时间字符串所描述的时间越有可能是网页的真实发布时间。
其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。如此,N个时间字符串之中,总得分越高的时间字符串所描述的时间越有可能是网页的真实发布时间,N个时间字符串之中总得分越低的时间字符串所描述的时间越不可能是网页的真实发布时间。反之,如果在参考特征与分值之间的预设对应关系之中,用高分表示低可能性、而低分表示高可能性,即可能性越高则表示对应参考特征的得分就可能越低,其中时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,其中,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。这样,N个时间字符串之中,总得分越低的时间字符串所描述的时间就越有可能是网页的真实发布时间,N个时间字符串之中总得分越高的时间字符串所描述的时间越不可能是网页的真实发布时间。按照其它打分规则对时间字符串的M个标准参考特征之中的每个参考特征进行打分的场景以此类推。
在本发明的一些实施例中,上述分类器通过向量机训练方法得到、或者上述分类器通过朴素贝叶斯训练方法得到、或者上述分类器通过神经网络训练方法得到。
其中,在本发明的一些实施例中,上述识别单元510可具体用于:构建网页对应的Dom树;从上述Dom树识别上述网页包含的N个时间字符串。
其中,在本发明的一些实施例中,上述m1个语义特征包括如下特征的至少1个:时间字符串所处块的块类型、时间字符串周围所环绕文本中包含的关键字、时间字符串与网页标题的距离。
其中,在本发明的一些实施例中,上述m2个结构特征包括如下特征的至少1个:时间字符串所描述时间的精确度、时间字符串中的各时间要素之间的分隔符的类型、时间字符串的串长度。
在本发明的一些实施例中,上述m1个语义特征例如可包括如下特征的至少1个:时间字符串所处块的块类型(其中,该块类型可为正文块、标题块或附属块)、时间字符串周围所环绕文本中包含的关键字(即时间字符串周围设定长度范围之内的文本之中所包含的正向关键字和/或反向关键字)、时间字符串与网页标题的距离。例如,从时间字符串所处块的块类型方面看,若时间字符串所处块的块类型为网页标题,该时间字符串所描述时间为网页真实发布时间的可能性通常大于该时间字符串所处块的块类型为正文的情况,而若时间字符串所处块的块类型为附属块(例如记录引文出处的块等等),则该时间字符串所描述时间为网页真实发布时间的可能性通常小于该时间字符串所处块的块类型为正文的情况。又例如,若从时间字符串周围所环绕文本中包含的关键字的方面来看,时间字符串周围所环绕文本中包含的正向关键字越多、各正向关键字的正向关键程度越高、反向关键字数量越少、各反向关键字的反向关键程度越低,则该时间字符串所描述的时间为网页真实的发布时间的可能性也就越高;反之,时间字符串周围所环绕文本中包含的越多正向关键字越少,各正向关键字的正向关键程度越低、反向关键字数量越多、各反向关键字的反向关键程度越高,表示该时间字符串所描述时间为网页真实发布时间的可能性也就越低。又举例来说,若从时间字符串与网页标题的距离的方面来看,时间字符串距离网页标题越近,该时间字符串所描述时间为网页真实发布时间的可能性也就越大,时间字符串距离网页标题越远,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。当然,m1个语义特征中还可能包括其它可用于参考的语义特征,此处不再一一举例。
在本发明的一些实施例中,上述m2个结构特征例如可包括如下特征的至少1个:时间字符串所描述时间的精确度、时间字符串中的各时间要素(时间要素例如年、月、日、时、分、秒等)之间的分隔符的类型、时间字符串的串长度。举例来说,若从时间字符串所描述时间的精确度的方面来看,时间字符串所描述时间的精确度越高,该时间字符串所描述时间为网页真实发布时间的可能性也就越大,反之,若时间字符串所描述时间的精确度越低,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。又例如,若从时间字符串的串长度的方面来看,时间字符串的串长度越长,该时间字符串所描述时间为网页真实发布时间的可能性就越大,时间字符串的串长度越短,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。又例如,若从时间字符串中的各时间要素之间的分隔符的类型的方面来看,若时间字符串中的时间要素之间的分隔符的类型为汉字,则该时间字符串所描述时间为网页真实发布时间的可能性,通常大于该时间字符串的时间要素之间的分隔符的类型为字符的情况。当然,m2个结构特征中还可能包括其它可用于参考的结构特征,此处不再一一举例。
可以理解的是,本实施例的评估网页发布时间的装置500的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
可以看出,本实施例的评估网页发布时间的装置500通过分别提取从网页中识别出的N个时间字符串中的每个时间字符串的M个参考特征;并按照预设的评分规则对上述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分,并将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间。由于是从M个参考特征的角度,来分别对提取的N个时间字符串进行评分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,通过更多方面因素综合考虑来估计那个时间字符串所描述的时间作为上述网页的发布时间,相对于现有技术,本实施例的机制有利于提高网页主体内容的发布时间的估计准确度。
进一步的,若M个参考特征包括m1个语义特征和/或m2个结构特征,则由于是从m1个语义特征和/或m2个结构特征的角度,分别对提取的N个时间字符串进行评分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,更多方面因素综合考虑来估计那个时间字符串所描述的时间作为上述网页的发布时间,这就有利于进一步提高网页主体内容的发布时间的估计准确度。
参见图6,本发明实施例提供一种计算节点600,可包括:
处理器610、存储器620、输入装置630和输出装置640。计算节点600中的处理器610的数量可以一个或多个,图6中以一个处理器为例。在本发明的一些实施例中,处理器610、存储器620、输入装置630和输出装置640可通过总线或其它方式连接,其中,图6中以通过总线连接为例。
存储器620可用于存储软件程序以及模块,处理器610通过运行存储在存储器620的软件程序以及模块,从而执行计算节点600的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算节点的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置630可用于接收输入的数字或字符信息,以及产生与计算节点600的用户设置以及功能控制有关的键信号输入。输入装置640可包括显示屏等显示设备。
其中,处理器610可执行如下步骤:识别网页包含的N个时间字符串;分别提取上述N个时间字符串中的每个时间字符串的M个参考特征;按照预设的评分规则对上述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间。
在本发明一些实施例中,上述M个参考特征包括m1个语义特征和/或m2个结构特征,上述N为大于1的正整数,上述M为正整数,上述m1和上述m2为小于或等于上述M的正整数。
在本发明一些实施例中,处理器610识别网页包含的N个时间字符串可以包括:构建网页对应的Dom树;从构建出的上述Dom树中识别上述网页包含的N个时间字符串。
在本发明的一些实施例中,处理器610按照预设的评分规则,分别对上述N个时间字符串中的每个时间字符串的M个参考特征进行评分,可以包括:分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度(可以理解的是,M个标准参考特征和M个参考特征的类型是一一对应的关系,因此,分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度,即,分别计算出M个标准参考特征中的每个标准参考特征,与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征之中与该每个标准参考特征的类型相同的参考特征之间的匹配度),将计算得到的匹配度所对应的分值作为对应参考特征的得分。可以理解的是,匹配度越高,表示对应参考特征和标准参考特征之间越近似,也就表示从这个方面来看,对应时间字符串所描述的时间越有可能是网页的真实发布时间。
可以理解的是,如果用高分表示高匹配度、低分表示低匹配度,即匹配度越高,则对应参考特征得分就可能越高,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。如此,N个时间字符串之中,总得分越高的时间字符串所描述的时间越有可能是网页的真实发布时间,而N个时间字符串之中总得分越低的时间字符串所描述的时间越不可能是网页的真实发布时间。反之,如果用高分表示低匹配度、而低分表示高匹配度,即匹配度越高则表示对应参考特征的得分就可能越低,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。这样,N个时间字符串之中,总得分越低的时间字符串所描述的时间越有可能是网页的真实发布时间,N个时间字符串之中总得分越高的时间字符串所描述的时间越不可能是网页的真实发布时间。按照其它打分规则对时间字符串的M个标准参考特征之中的每个参考特征进行打分的场景以此类推。
在本发明的一些实施例中,例如处理器610可以利用分类器,分别计算出M个标准参考特征与提取到的上述N个时间字符串中的每个时间字符串的M个参考特征的匹配度。
在本发明的另一些实施例中,处理器610按照预设的评分规则,分别对上述N个时间字符串中的每个时间字符串的M个参考特征进行评分可包括:基于参考特征与分值之间的预设对应关系,分别得到上述N个时间字符串之中的每个时间字符串的M个参考特征的得分。当然,还可基于其它方式来按照预设的评分规则,分别对上述N个时间字符串中的每个时间字符串的M个参考特征进行评分。其中,在本发明的一些实施例中,例如可以利用分类器基于参考特征与分值之间的预设对应关系,分别得到上述N个时间字符串中的每个时间字符串的M个参考特征的得分。可以理解的是,在参考特征与分值之间的预设对应关系之中,如果用高分表示高可能性、低分表示低可能性,即可能性越高则对应参考特征得分就可能越高,也就表示从这个方面来看,对应时间字符串所描述的时间越有可能是网页的真实发布时间。其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。如此,N个时间字符串之中,总得分越高的时间字符串所描述的时间越有可能是网页的真实发布时间,而N个时间字符串之中总得分越低的时间字符串所描述的时间越不可能是网页的真实发布时间。反之,如果在参考特征与分值之间的预设对应关系之中,用高分表示低可能性、而低分表示高可能性,即可能性越高则表示对应参考特征的得分就可能越低,其中,时间字符串的M个参考特征的总得分可等于各参考特征得分求积或加权求积或求和或加权求和等,其中,对于求积或加权求积的情况,以每个参考特征得分大于或等于0为例。这样,N个时间字符串之中,总得分越低的时间字符串所描述的时间就越有可能是网页的真实发布时间,N个时间字符串之中总得分越高的时间字符串所描述的时间越不可能是网页的真实发布时间。按照其它打分规则对时间字符串的M个标准参考特征之中的每个参考特征进行打分的场景以此类推。
在本发明的一些实施例中,上述分类器通过向量机训练方法得到、或者上述分类器通过朴素贝叶斯训练方法得到、或者上述分类器通过神经网络训练方法得到、当然上述分类器亦可通过其它方式训练得到。
其中,利用分类器可综合时间字符串的结构特征和语义特征,进而有利于从候选的N个时间字符串中选出最可能是描述网页真实发布时间的哪个时间字符串来。进一步的,还可利用总得分符合预设得分条件的对应时间字符串作为反馈样本,继续对分类器进行训练。
可以理解,若总得分越高表示对应时间字符串所描述的时间为网页真实发布时间的可能性越高,则可得到的总得分最高的对应时间字符串所描述的时间作为上述网页的发布时间。反之,若总得分越低表示对应时间字符串所描述的时间为网页真实发布时间的可能性越搞,则可得到的总得分最低的对应时间字符串所描述的时间作为上述网页的发布时间。
在本发明的一些实施例中,上述m1个语义特征例如可包括如下特征的至少1个:时间字符串所处块的块类型(其中,该块类型可为正文块、标题块或附属块)、时间字符串周围所环绕文本中包含的关键字(即时间字符串周围设定长度范围之内的文本之中所包含的正向关键字和/或反向关键字)、时间字符串与网页标题的距离。例如,从时间字符串所处块的块类型方面看,若时间字符串所处块的块类型为网页标题,该时间字符串所描述时间为网页真实发布时间的可能性通常大于该时间字符串所处块的块类型为正文的情况,而若时间字符串所处块的块类型为附属块(例如记录引文出处的块等等),则该时间字符串所描述时间为网页真实发布时间的可能性通常小于该时间字符串所处块的块类型为正文的情况。又例如,若从时间字符串周围所环绕文本中包含的关键字的方面来看,时间字符串周围所环绕文本中包含的正向关键字越多、各正向关键字的正向关键程度越高、反向关键字数量越少、各反向关键字的反向关键程度越低,则该时间字符串所描述的时间为网页真实的发布时间的可能性也就越高;反之,时间字符串周围所环绕文本中包含的越多正向关键字越少,各正向关键字的正向关键程度越低、反向关键字数量越多、各反向关键字的反向关键程度越高,表示该时间字符串所描述时间为网页真实发布时间的可能性也就越低。又举例来说,若从时间字符串与网页标题的距离的方面来看,时间字符串距离网页标题越近,该时间字符串所描述时间为网页真实发布时间的可能性也就越大,时间字符串距离网页标题越远,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。当然,m1个语义特征中还可能包括其它可用于参考的语义特征,此处不再一一举例。
在本发明的一些实施例中,上述m2个结构特征例如可包括如下特征的至少1个:时间字符串所描述时间的精确度、时间字符串中的各时间要素(时间要素例如年、月、日、时、分、秒等)之间的分隔符的类型、时间字符串的串长度。举例来说,若从时间字符串所描述时间的精确度的方面来看,时间字符串所描述时间的精确度越高,该时间字符串所描述时间为网页真实发布时间的可能性也就越大,反之,若时间字符串所描述时间的精确度越低,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。又例如,若从时间字符串的串长度的方面来看,时间字符串的串长度越长,该时间字符串所描述时间为网页真实发布时间的可能性就越大,时间字符串的串长度越短,该时间字符串所描述时间为网页真实发布时间的可能性也就越小。又例如,若从时间字符串中的各时间要素之间的分隔符的类型的方面来看,若时间字符串中的时间要素之间的分隔符的类型为汉字,则该时间字符串所描述时间为网页真实发布时间的可能性,通常大于该时间字符串的时间要素之间的分隔符的类型为字符的情况。当然,m2个结构特征中还可能包括其它可用于参考的结构特征,此处不再一一举例。
其中,计算节点600可以是服务器(例如网站服务器或搜索服务器等)或个人计算机等。
可以看出,本实施例的计算节点600通过分别提取从网页中识别出的N个时间字符串中的每个时间字符串的M个参考特征;并按照预设的评分规则对上述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到上述N个时间字符串中的每个时间字符串的M个参考特征的总得分,并将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间。由于是从M个参考特征的角度,来分别对提取的N个时间字符串进行评分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,通过更多方面因素综合考虑来估计那个时间字符串所描述的时间作为上述网页的发布时间,相对于现有技术,本实施例的机制有利于提高网页主体内容的发布时间的估计准确度。
进一步的,若M个参考特征包括m1个语义特征和/或m2个结构特征,则由于是从m1个语义特征和/或m2个结构特征的角度,分别对提取的N个时间字符串进行评分,将得到的总得分符合预设得分条件的对应时间字符串所描述的时间作为上述网页的发布时间,更多方面因素综合考虑来估计那个时间字符串所描述的时间作为上述网页的发布时间,这就有利于进一步提高网页主体内容的发布时间的估计准确度。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的评估网页发布时间的方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (14)
1.一种评估网页发布时间的方法,其特征在于,包括:
识别网页包含的N个时间字符串;
分别提取所述N个时间字符串中的每个时间字符串的M个参考特征;
按照预设的评分规则,对所述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到所述N个时间字符串中的每个时间字符串的M个参考特征的总得分,将总得分符合预设得分条件的对应时间字符串所描述的时间作为所述网页的发布时间,其中,所述N为大于1的正整数,所述M为正整数,所述评分表征所述参考特征所对应的时间字符串所描述时间与网页真实发布时间之间的匹配程度;
所述按照预设的评分规则,对所述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,包括:分别计算出M个标准参考特征与提取到的所述N个时间字符串中的每个时间字符串的M个参考特征的匹配度,将计算得到的匹配度所对应的分值作为对应参考特征的得分。
2.根据权利要求1所述的方法,其特征在于,
所述分别计算出M个标准参考特征与提取到的所述N个时间字符串中的每个时间字符串的M个参考特征的匹配度,包括:利用分类器分别计算出M个标准参考特征与提取到的所述N个时间字符串中的每个时间字符串的M个参考特征的匹配度。
3.根据权利要求2所述的方法,其特征在于,所述分类器通过向量机训练方法得到、或者所述分类器通过朴素贝叶斯训练方法得到、或者所述分类器通过神经网络训练方法得到。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述识别网页包含的N个时间字符串包括:构建网页对应的Dom树;从所述Dom树中识别所述网页包含的N个时间字符串。
5.根据权利要求1至3任意一项所述的方法,所述M个参考特征包括m1个语义特征和/或m2个结构特征,所述m1和所述m2为小于或等于所述M的正整数。
6.根据权利要求5所述的方法,所述m1个语义特征包括如下特征的至少1个:时间字符串所处块的块类型、时间字符串周围所环绕文本中包含的关键字、时间字符串与网页标题的距离。
7.根据权利要求5所述的方法,所述m2个结构特征包括如下特征的至少1个:时间字符串所描述时间的精确度、时间字符串中的各时间要素之间的分隔符的类型、时间字符串的串长度。
8.一种评估网页发布时间的装置,其特征在于,包括:
识别单元,用于识别网页包含的N个时间字符串;
特征提取单元,用于分别提取所述N个时间字符串中的每个时间字符串的M个参考特征;
评估单元,用于按照预设的评分规则,对所述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分,并得到所述N个时间字符串中的每个时间字符串的M个参考特征的总得分,将总得分符合预设得分条件的对应时间字符串所描述的时间作为所述网页的发布时间,其中,所述N为大于1的正整数,所述M为正整数,所述评分表征所述参考特征所对应的时间字符串所描述时间与网页真实发布时间之间的匹配程度;
在所述按照预设的评分规则,对所述N个时间字符串中的每个时间字符串的M个参考特征分别进行评分的方面,所述评估单元具体用于:分别计算出M个标准参考特征与提取到的所述N个时间字符串中的每个时间字符串的M个参考特征的匹配度,将计算得到的匹配度所对应的分值作为对应参考特征的得分。
9.根据权利要求8所述的装置,其特征在于,在所述分别计算出M个标准参考特征与提取到的所述N个时间字符串中的每个时间字符串的M个参考特征的匹配度的方面,所述评估单元具体用于:利用分类器分别计算出M个标准参考特征与提取到的所述N个时间字符串中的每个时间字符串的M个参考特征的匹配度。
10.根据权利要求9所述的装置,其特征在于,所述分类器通过向量机训练方法得到、或者所述分类器通过朴素贝叶斯训练方法得到、或者所述分类器通过神经网络训练方法得到。
11.根据权利要求8至10任意一项所述的装置,其特征在于,所述识别单元具体用于:构建网页对应的Dom树;从所述Dom树中识别所述网页包含的N个时间字符串。
12.根据权利要求8至10任意一项所述的装置,所述M个参考特征包括m1个语义特征和/或m2个结构特征,所述m1和所述m2为小于或等于所述M的正整数。
13.根据权利要求12所述的装置,其特征在于,所述m1个语义特征包括如下特征的至少1个:时间字符串所处块的块类型、时间字符串周围所环绕文本中包含的关键字、时间字符串与网页标题的距离。
14.根据权利要求12所述的装置,其特征在于,所述m2个结构特征包括如下特征的至少1个:时间字符串所描述时间的精确度、时间字符串中的各时间要素之间的分隔符的类型、时间字符串的串长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310442755.2A CN104462151B (zh) | 2013-09-25 | 2013-09-25 | 评估网页发布时间的方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310442755.2A CN104462151B (zh) | 2013-09-25 | 2013-09-25 | 评估网页发布时间的方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462151A CN104462151A (zh) | 2015-03-25 |
CN104462151B true CN104462151B (zh) | 2019-02-05 |
Family
ID=52908205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310442755.2A Active CN104462151B (zh) | 2013-09-25 | 2013-09-25 | 评估网页发布时间的方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462151B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897287B (zh) * | 2015-12-18 | 2020-06-16 | 中国电信股份有限公司 | 网页发布时间抽取方法和用于网页发布时间抽取的装置 |
CN107766384A (zh) * | 2016-08-22 | 2018-03-06 | 北京国双科技有限公司 | 一种确定页面发布时间的方法和装置 |
CN108241674B (zh) * | 2016-12-26 | 2021-11-02 | 北京国双科技有限公司 | 网页发布时间的提取方法及装置 |
CN114547497A (zh) * | 2022-02-24 | 2022-05-27 | 马上消费金融股份有限公司 | 网页发布时间的确定方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385585A (zh) * | 2010-08-27 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 网页数据库的建立方法、网页搜索方法以及相关装置 |
CN103064845A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 网页信息处理装置和网页信息处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8065307B2 (en) * | 2006-12-20 | 2011-11-22 | Microsoft Corporation | Parsing, analysis and scoring of document content |
-
2013
- 2013-09-25 CN CN201310442755.2A patent/CN104462151B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385585A (zh) * | 2010-08-27 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 网页数据库的建立方法、网页搜索方法以及相关装置 |
CN103064845A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 网页信息处理装置和网页信息处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104462151A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984675B (zh) | 基于评价的数据查询方法和装置 | |
CN104685501B (zh) | 响应于可视化查询标识文本词汇 | |
CN108334533A (zh) | 关键词提取方法和装置、存储介质及电子装置 | |
CN104391999B (zh) | 信息推荐方法和装置 | |
Du et al. | Personalized video recommendation using rich contents from videos | |
US9483740B1 (en) | Automated data classification | |
CN110413875A (zh) | 一种文本信息推送的方法以及相关装置 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
JP5012078B2 (ja) | カテゴリ作成方法、カテゴリ作成装置、およびプログラム | |
CN106776860A (zh) | 一种搜索摘要生成方法及装置 | |
CN108304373A (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN110298029A (zh) | 基于用户语料的好友推荐方法、装置、设备及介质 | |
CN104462151B (zh) | 评估网页发布时间的方法和相关装置 | |
KR20120101233A (ko) | 감성 정보 생성 방법, 그를 이용한 감성 정보 기반의 콘텐츠 추천 방법 및 시스템 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN104503988A (zh) | 搜索方法及装置 | |
CN109359198A (zh) | 一种文本分类方法及装置 | |
CN109558531A (zh) | 新闻信息推送方法、装置以及计算机设备 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN110209780A (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN108460131A (zh) | 一种分类标签处理方法及装置 | |
KR20220077790A (ko) | A.i 및 빅데이터에 기반한 비대면 온라인 멘토, 멘티 매칭 플랫폼 시스템 | |
CN116542737A (zh) | 跨境电商平台的大数据处理方法及系统 | |
Cheng et al. | Context-based page unit recommendation for web-based sensemaking tasks | |
CN110457603A (zh) | 用户关系抽取方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |