CN104615705A - 网页质量检测方法及装置 - Google Patents

网页质量检测方法及装置 Download PDF

Info

Publication number
CN104615705A
CN104615705A CN201510050373.4A CN201510050373A CN104615705A CN 104615705 A CN104615705 A CN 104615705A CN 201510050373 A CN201510050373 A CN 201510050373A CN 104615705 A CN104615705 A CN 104615705A
Authority
CN
China
Prior art keywords
web page
knowledge point
subordinate sentence
knowledge
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510050373.4A
Other languages
English (en)
Other versions
CN104615705B (zh
Inventor
王丽杰
吴先超
刘占一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510050373.4A priority Critical patent/CN104615705B/zh
Publication of CN104615705A publication Critical patent/CN104615705A/zh
Application granted granted Critical
Publication of CN104615705B publication Critical patent/CN104615705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种网页质量检测方法及装置,所述方法包括:获取根据用户查询语句得到的搜索结果中的多个网页;基于预设的语法语义分析法,生成获取的各个网页的摘要;将所述多个网页中的一个网页作为待检测的目标网页,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量。本发明实施例提供的技术方案,可以提高网页质量检测结果的准确率,以使得搜索引擎能够据此很好的计算出查询语句与网页之间的相关性,提升用户的搜索体验。

Description

网页质量检测方法及装置
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种网页质量检测方法及装置
背景技术
目前,搜索引擎在接收到用户输入的查询语句后,进行相关网页检索的过程中,网页质量的好坏直接决定着网页召回结果。利用网页质量的检测结果,不仅可以去除一些作弊网站提供的网页,而且还可以改善搜索结果排名的准确度,例如网页质量好的应该排在前面。
当前搜索结果主要依赖于网页质量、查询语句与网页的相关性等。其中,查询语句与网页的相关性,主要依赖于查询语句中所使用的分词(或者相关的分词)、分词在当前查询语句中的重要性、分词间的紧密程度等,以及这些信息在网页中的表现形式(是否紧密出现,分词在该网页中是否相对重要等),是否与在查询语句中的表现形式相匹配,根据匹配程度得到查询语句与网页的相关性;对当前网页质量的检测,所主要使用的方法是pagerank(网页排名)方法,具体是根据网页的入链数量以及入链质量来确定网页的质量,入链数量越多,入链质量越好,一般其网页质量也就越高,即跟其他网页关联度越大,其重要度也越大。
然而,对于现有的网页质量检测结果而言,其准确率往往较差,并不能够据此很好计算出查询语句与网页之间的相关性,从而使得最终所呈现的网页与用户想要的网页相差较大,从而影响了用户的搜索体验。
发明内容
本发明实施例提供一种网页质量检测方法及装置,以提高网页质量检测结果的准确率,以使得搜索引擎能够据此很好的计算出查询语句与网页之间的相关性,提升用户的搜索体验。
第一方面,本发明实施例提供了一种网页质量检测方法,包括:
获取根据用户查询语句得到的搜索结果中的多个网页;
基于预设的语法语义分析法,生成获取的各个网页的摘要;
将所述多个网页中的一个网页作为待检测的目标网页,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量。
第二方面,本发明实施例还提供了一种网页质量检测装置,该装置包括:
网页获取模块,用于获取根据用户查询语句得到的搜索结果中的多个网页;
网页摘要生成模块,用于基于预设的语法语义分析法,生成获取的各个网页的摘要;
网页质量确定模块,用于将所述多个网页中的一个网页作为待检测的目标网页,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量。
区别于传统的基于pagerank算法的网页质量检测法,本发明实施例提供的技术方案,从不同网页间在基于语法语义分析得到的摘要上的关联性这一角度出发,来进行网页质量检测。由于得到的摘要能够简明确切地记述网页的主要内容,所以通过根据目标网页与其他网页之间在摘要上的相似度,来确定目标网页的质量,可以提高网页质量检测结果的准确率,以使得搜索引擎能够据此很好的计算出查询语句与网页之间的相关性,提升用户的搜索体验。
附图说明
1是本发明实施例一提供的一种网页质量检测方法的流程示意
2是本发明实施例二提供的一种网页质量检测方法的流程示意
3A是本发明实施例三提供的一种构建网页知识网络的方法的流程示意
3B-3C分别是本发明实施例三提供的一种网页的长文本中含有的一条分句的句法结构示意及相关实体对挖掘示意
3D-3E分别是本发明实施例三提供的一种网页的长文本中含有的另一条分句的句法结构示意及相关实体对挖掘示意
4A是本发明实施例四提供的一种网页质量检测方法的流程示意
4B和4C分别是本发明实施例四提供的一种针对某一长文本所构建的知识网络示意和摘要信息示意
4D-4F分别是本发明实施例四提供的一种针对用户查询语句为“王菲的个人资料”得到的搜索结果中,第二个网页至第四个网页的摘要信息示意
4G是本发明实施例四提供的对各个知识点在针对用户查询语句为“王菲的个人资料”得到的搜索结果的前四个网页中出现情况的描述示意
4H是本发明实施例四提供的根据4G所示结果得到的不同网页的摘要间包含相同知识点数量的关系示意
5是本发明实施例五提供的一种网页质量检测装置的结构示意
具体实施方式
下面结合附和实施例对本发明作进一步的详细说明。可以理解的是,此 处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附中仅示出了与本发明相关的部分而非全部结构。
实施例一
1是本发明实施例一提供的一种网页质量检测方法的流程示意,本实施例可适用于对根据用户查询语句得到的搜索结果中的网页进行质量检测的情况。本实施例的方法可以由网页质量检测装置来执行,该装置可通过软件的方式实现,并可集成于搜索引擎中,或作为搜索引擎的子程序。参见1,本实施例提供的网页质量检测方法,具体包括如下操作:
操作110、获取根据用户查询语句得到的搜索结果中的多个网页。
操作120、基于预设的语法语义分析法,生成获取的各个网页的摘要。
操作130、将所述多个网页中的一个网页作为待检测的目标网页,根据目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定目标网页的质量。
目前,搜索引擎在接收到用户输入的查询语句后,通常会先对该查询语句进行切词、同义词拓展、词性标注、命名实体识别、语法语义识别等一系列的处理;然后,根据处理结果,从预先创建的网页资源库中搜索与用户查询语句相关联的多个网页,作为搜索结果;之后,对搜索结果中的网页进行质量检测,根据网页的质量,以及网页与用户查询语句之间的相关性,对搜索结果中的各个网页进行排序;最后,将经过排序操作后的搜索结果展示给用户。
其中,针对网页质量检测这一过程而言,由于现有技术通常采用pagerank方法,因此网页质量主要依赖于网页的入链信息。入链的多少虽然在一定程度 上可以代表网页质量,但是其内部所含知识也是对网页质量评估的一个维度,而这个维度是部分入链信息所无法满足的。为此,本实施例在获取到根据用户查询语句得到的搜索结果中的多个网页之后,基于预设的语法语义分析法,对获取到的各个网页进行知识提取,以生成各个网页的摘要。因此,在将获取到的多个网页中的一个网页作为待检测的目标网页时,可基于该目标网页的摘要与其他网页的摘要之间的相似度,确定目标网页的质量。
在本实施例的一种具体实施方式中,根据目标网页与多个网页中其他网页之间在摘要上的相似度,确定目标网页的质量,包括:
获取多个网页中其他网页的摘要与目标网页的摘要之间的相似度;
统计在摘要上与目标网页的摘要之间的相似度,达到设定阈值的其他网页的数量和/或对应的相似度;
根据统计结果,确定目标网页的质量。
其中,达到设定阈值的其他网页,为与目标网页相关联的网页,这些网页的数量越多,与目标网页的相似度越高,表明目标网页的质量越好。
区别于传统的基于pagerank算法的网页质量检测法,本实施例提供的技术方案,从不同网页间在基于语法语义分析得到的摘要上的关联性这一角度出发,来进行网页质量检测。由于得到的摘要能够简明确切地记述网页的主要内容,所以通过根据目标网页与其他网页之间在摘要上的相似度,来确定目标网页的质量,可以提高网页质量检测结果的准确率,以使得搜索引擎能够据此很好的计算出查询语句与网页之间的相关性,提升用户的搜索体验。
实施例二
2是本发明实施例二提供的一种网页质量检测方法的流程示意。本实 施例在上述实施例一的基础上,对“基于预设的语法语义分析法,生成获取的各个网页的摘要”的操作作进一步优化。参见2,本实施例提供的网页质量检测方法,具体包括如下操作:
操作210、获取根据用户查询语句得到的搜索结果中的多个网页。
操作220、针对获取的各个网页:通过预设的语法语义分析法,对当前网页所包含的长文本进行知识点抽取,构成当前网页的知识网络;根据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要。
操作230、将所述多个网页中的一个网页作为待检测的目标网页,根据目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定目标网页的质量。
在本实施例中,针对任意一个网页,可基于预先创建的语法语义分析算法,得到其中所包含的知识点。具体的,可逐个对该网页所包含的文本中的各个分句进行知识点抽取,进而将抽取到的知识点组织在一起,构成该网页的知识网络。其中,任意条分句中所包含的知识点可具体包括该分句中所包含的各个实体,以及这些实体间的关联关系。当然,除此之外,知识点还可进一步对关联关系所补充的元素。所补充的元素通常用来描述关联关系所发生的时间、地点、原因、结果等。
考虑到网页中文本可能较长,知识点较多,摘要篇幅又十分有限,如果不对构成的知识网络中的知识点加以筛选,随机将其中的一部分知识点作为网页摘要,很可能使得网页摘要中的一些内容与该网页的主题关联性较差,甚至毫无关联,这样会使得最终所生成的网页摘要不够简要,不能很好的描述网页的主题思想。为此,示例性的,在得到当前网页的知识网络之后,可过滤掉当前 网页的知识网络中的一些与网页的标题和/或子标题相关性较弱的冗余的知识点(例如对于描述背景的知识点或无实际意义的知识点),仅保留跟网页的标题和/或子标题相关性非常强的知识点,进而利用将过滤后的知识网络生成当前网页的摘要。
在本实施例的一种具体实施例方式中,根据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要,包括:
剔除所构成的当前网页的知识网络中,与当前网页的标题和/或子标题的关联度满足设定的剔除条件的知识点;
根据经过剔除操作后的知识网络中所包含的知识点,生成当前网页的摘要。
其中,知识点与当前网页的标题和/或子标题的关联度,可与知识点中所包含的当前网页的标题和/或子标题的分词的个数相关,个数越多表明二者之间的关联度越大。如果关联度小于预先设定的剔除阈值,则判定知识点与当前网页的标题和/或子标题的关联度满足设定的剔除条件,剔除该知识点。或者,直接识别当前网页的知识网络中的知识点,是否包括当前网页的标题和/或子标题中的一个分词或多个分词,如果否,则判定知识点与当前网页的标题和/或子标题的关联度满足设定的剔除条件,剔除该知识点。
当然,还可结合其他因素来衡量知识点与当前网页的标题和/或子标题的关联度。例如,可基于当前网页的标题和/或子标题中的实体与知识点之间的关系因子,来确定知识点与当前网页的标题和/或子标题的关联度。其中,所述的关系因子可预先设定。例如,当前网页的标题中包含有人名这一类别的实体,有两个知识点:其中第一个知识点描述了该类别实体的爸爸、妈妈、或者朋友等的职业信息,第二个知识点描述了该类别实体的爸爸、妈妈、或者朋友等的名 字信息,由于名字的信息量要比职业的信息量大,所以可得出第二个知识点的关系因子要大于第一个知识点的关系因子,第二个知识点与当前网页的标题的关联度要强于第一个知识点与当前网页的标题的关联度。
由于在将搜索结果展示给用户时,通常会显示网页的摘要。为了能够以一种更为友好的方式将网页的摘要显示给用户,示例性的,根据经过剔除操作后的知识网络中所包含的知识点,生成当前网页的摘要,包括:
对经过剔除操作后的知识网络中所包含的知识点,按照知识点所在分句的顺序或者按照知识点的类型组织在一起,得到当前网页的摘要;
其中,所述知识点的类型包括静态类型和动态类型。
上述示例是对抽取的知识点进行摘要组织,一方面可以按着知识点所在分句的顺序进行组织,另一方面可以按着知识点的类型进行组织。优选的,可按着知识点的类型进行组织。首先,可将知识点分成静态类型的知识点和动态类型的知识点,静态类型的知识点表示实体的某些属性(如人物的出生年月、父母、子女、作品等),动态类型的知识点表示发生在实体上的事件(如结婚、离婚、毕业、工作等信息);对于动态类型的知识点,可按着发生的时间进行排序(若无时间表示,则按着在文本中出现的分句顺序进行排序)。
在本实施例中,根据目标网页与多个网页中其他网页之间在摘要上的相似度,确定目标网页的质量,可具体为:
将多个网页中其他网页的摘要与目标网页的摘要间所包含的相同知识点的数量,作为多个网页中其他网页的摘要与目标网页的摘要之间的相似度;
统计在摘要上与目标网页的摘要之间的相似度,达到设定阈值的其他网页的数量和/或对应的相似度;
根据统计结果,确定目标网页的质量。
示例性的,可直接将统计结果,作为用于度量目标网页质量的参量,或者将统计结果按照设定公式进行数学运算,得到一个用于度量目标网页质量的参数值。其中,设定公式应满足如下条件:多个网页中摘要与目标网页的摘要有相同知识点的其他网页的数量越多,相同知识点的数量越多,目标网页的质量越好。
本实施例并非如传统的基于简单粗暴的人工规则的方法,来生成网页的摘要,而是通过深度语法语义级别的分析方法,自动挖掘/提取/整合网页中所包含的知识点,然后根据得到的知识点形成网页的知识摘要。因此,利用本实施例提供的技术方案所得到的网页的摘要,能够更加简明确切地记述网页的主要内容,从而可以使得从不同网页间在摘要上的关联性这一角度出发来进行网页质量检测,所得到的检测结果更为准确。
实施例三
3A是本发明实施例三提供的一种构建网页知识网络的方法的流程示意。本实施例在上述实施例二的基础上,对“通过预设的语法语义分析法,对当前网页所包含的长文本进行知识点抽取,构成当前网页的知识网络”的操作作进一步优化。参见3A,本实施例提供的构建网页知识网络的方法,具体包括如下操作:
操作310、对网页所包含的长文本中的分句进行语法语义分析,得到分句的句法结构。
操作320、根据分句的句法结构,获得分句中具有关联关系的实体,将该具有关联关系的实体以及关联关系作为分句所包含的知识点。
操作330、将长文本中的各个分句所包含的知识点进行组织,构成网页的知识网络。
相应的,本实施例提供的网页质量检测方法,具体包括如下操作:
获取根据用户查询语句得到的搜索结果中的多个网页;
针对获取的各个网页:对当前网页所包含的长文本中的分句进行语法语义分析,得到分句的句法结构;根据分句的句法结构,获得分句中具有关联关系的实体,将该具有关联关系的实体以及关联关系作为分句所包含的知识点;将长文本中的各个分句所包含的知识点进行组织,构成当前网页的知识网络;
根据所构成的当前网页的知识网络,以及当前网页的标题(title)和/或子标题,生成当前网页的摘要;
将所述多个网页中的一个网页作为待检测的目标网页,根据目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定目标网页的质量。
在上述技术方案的基础上,在获得分句中具有关联关系的实体之后、将该具有关联关系的实体以及所述关联关系作为分句所包含的知识点之前,还包括:
根据预先针对所述关联关系的类型设定的元素构成框架,确定所述关联关系所需要补充的元素,并在获得所需要补充的元素后对所述关联关系进行元素补充;
将该具有关联关系的实体以及所述关联关系作为分句所包含的知识点,包括:将所述具有关联关系的实体、所述关联关系以及补充的元素,作为分句所包含的知识点。
由于需要对挖掘的原数据进行知识总结,挖掘中是将原大段文本分成一个一个短分句进行处理的,得到的知识点也属于零散的,这里要对知识点进行组 织,将有关系的知识点尽量联系起来,构成一个知识网络,示例性的,将长文本中的各个分句所包含的知识点进行组织,构成当前网页的知识网络,包括:识别长文本中的各个分句所包含的知识点之间在实体上的关系;将长文本中的各个分句所包含的知识点,以及识别到的关系,作为当前网页的知识网络。如长文本中的分句中包含有“王菲”这一人名实体,在组织长文本中各个分句的知识点的过程中,需确定哪些知识点中的实体跟“王菲”有直接关系,哪些有间接关系,哪些是跟“王菲”关联的实体有关系,哪些跟“王菲”完全没有关系等。在后面的摘要生成的过程中,如果需要进行不相关知识点的过滤,可直接参考这部分结果。
在本实施例中,对任一网页的文本知识点的抽取及知识网络的构建这部分工作,主要包括基本的语法语义分析、基于分句的知识点抽取、知识网络的构建这三部分。
对于基本的语法语义分析这一部分而言,可首先将长文本进行分句、指代消解,得到需要处理的分句;然后针对每一个分句进行基本的词法、句法分析,给出分句的句法结构,从而可基于此句法结构进行知识点的抽取。
其中,对文本进行分句的过程比较简单,基本上可按着代表句子结束的标点符号(!?。)进行分句识别。指代消解重点是针对指示代词进行消解。句法结构分析过程主要涉及分词、实体识别、词性标注和依存分析。具体的,分词是对语句作进一步分析的基础,将一个语句切分成一个一个单独的词,利用各种匹配方法将语句重新组合成词序列,例如可以是基于字符串匹配的分词,或者基于统计模型的分词等;实体识别用于识别出待处理语句中描述确切对象的词语;词性标注,用于将词语进行词性分类,可以将句子中具体词的组合关系 抽象成词类之间的组合关系,进而更容易得到句法结构的规律;依存分析用于将语句分析成一颗依存句法树,描述出各个词语之间的依存关系,也即指出了词语之间在句法上的搭配关系。
在经过语法语义分析得到分句的句法结构之后,可确定分句中所包含的实体,进行实体间关联关系的挖掘,进而可以将该具有关联关系的实体以及关联关系作为分句所包含的知识点。当然,还可在此基础上进一步挖掘构成关联关系的各个要素。
示例性的,根据分句的句法结构,获得分句中具有关联关系的实体,将该具有关联关系的实体以及关联关系作为分句所包含的知识点,包括:
提取分句的句法结构中的子结构;
对提取到的子结构进行语句类型识别;
根据语句类型识别结果,对提取到的子结构进行合并后对合并得到的子结构进行合理性验证,或者对提取到的子结构进行合理性验证;
将验证通过的子结构作为相关实体对作为分句所包含的知识点,其中相关实体对包含分句中具有关联关系的实体以及关联关系。
知识点的挖掘过程是一个自上而下的处理过程,首先根据句法结构,将句法结构中的所有子结构进行提取。然后对提取到的子结构进行语句类型识别,例如识别所述子结构是正常语句还是被字句或逆序结构等,当所述子结构为正常语句结构时,不做处理,直接保存;当所述子结构是被字句或逆序结构等时,调整所述子结构为正常语句结构后保存。如果得到的子结构中含有无意义的连接节点(由于句子语法需求,一些虚词用来协助构建整个句子),那么需要先对得到的子结构进行合并。然后对合并后得到的子结构或者不需要进行合并的子 结构再进行最后的合理性验证,将高质量结果作为最终的挖掘结果。例如通过语料来源网站的质量(新闻网站质量高于贴吧等论坛网站)、网站数量等确定语料语句的可靠性,将可靠性低的来源语料语句舍弃。
下面通过两个具体的例子来说明本实施例挖掘知识点的具体实现过程。
例如,网页的长文本中含有如下一条分句=“在大坯山下颜良被关公突然袭击快马奔到面前一刀杀死的”,经过语法语义分析后,得到的句法结构如3B所示。
根据得到的句法结构,进行相关实体对挖掘的过程如下:
提取分句句法结构中的子结构,如3C所示,子结构1的根节点为“杀死”,对应的子节点为“大坯山”、“颜良”、“关公”、“一刀”、等;子结构2的根节点为“奔到”,对应的子节点为“快马”、“面前”等;对提取到的子结构进行语句类型识别,发现子结构1为被字句,子结构2为正常语句。由于子结构是一个被字句,则真正主语是“被”字后面的实体(即依存关系上为依存于“被”的子节点)“关公”,“颜良”为“杀死”的宾语,调整句子结构保存;子结构2为正常语句则直接保存结果;由于两个子结构表示动作前后关系,不进行合并;例如从其他分句中还挖掘到“刘备杀死颜良”,通过挖掘到语料的网站质量(新闻网站质量高于贴吧等论坛网站)、网站数目(如挖掘到“关公杀死颜良”的数量远大于“刘备杀死颜良”的数量)等确定分句的可信性;最后,将验证通过的子结构作为相关实体对进行保存。
又例如,网页的长文本中含有如下一条分句=“心雨是刘德华演唱的歌曲”,分析后得到的句法结构如3D所示。
根据得到的句法结构,进行相关实体对挖掘的过程如下:
提取分句句法结构中的子结构,子结构1的根节点为“是”,对应的子节点为“心雨”、“歌曲”;子结构2的根节点为“歌曲”,对应的子节点为“演唱”;识别子结构1为正常语句,子结构2为动词修饰名词的逆序结构;直接提取子结构1的子节点信息;子结构2则需转成正常结构,即将根节点改为“演唱”,“歌曲”作为其子节点,如3E所示。通过子结构1得知“心雨”等价于歌曲(关系词为“是”,表示等价),则将子结构2中的“歌曲”替换成“心雨”,进行两个子结构的合并,得到“刘德华演唱心雨”;对最终结果进行验证,通过语料语句来源网站的质量(新闻网站质量高于贴吧等论坛网站)、网站数量等确定分句的可信性。最后,将验证通过的子结构作为相关实体对进行保存。
实施例四
4A是本发明实施例四提供的一种网页质量检测方法的流程示意。本实施例以上述所有实施例为基础,提供一优选实施例。参见4A,本实施例提供的网页质量检测方法具体包括如下操作:
操作410、获取根据用户查询语句得到的搜索结果中的多个网页。
操作420、针对获取的各个网页,通过预设的语法语义分析法,对当前网页所包含的长文本进行知识点抽取,构成当前网页的知识网络;根据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要。
在本实施例中,通过预设的语法语义分析法,对当前网页所包含的长文本进行知识点抽取,构成当前网页的知识网络,具体包括:
对当前网页所包含的长文本中的分句进行语法语义分析,得到分句的句法结构;
根据分句的句法结构,获得分句中具有关联关系的实体;
根据预先针对所述关联关系的类型设定的元素构成框架,确定所述关联关系所需要补充的元素,并在获得所需要补充的元素后对所述关联关系进行元素补充;
将所述具有关联关系的实体、所述关联关系以及补充的元素,作为分句所包含的知识点;
识别长文本中的各个分句所包含的知识点之间在实体上的关系;
将所述长文本中的各个分句所包含的知识点,以及识别到的关系,作为当前网页的知识网络。
现进行举例说明。例如,某个网页中的长文本包括如下内容:
“1969年王菲生于北京,曾用名王靖雯,王菲的爸爸是煤炭工程师,他的工作岗位在煤矿。妈妈是煤矿文工团的女高音,往往是一个演出刚刚结束,行李放在家里尚没有打开,新的演出任务又来了,不得不又匆匆登车而去。王菲虽然出身知识分子家庭,但是童年却并不快乐。
1996年7月,王菲和窦唯结婚。1997年1月,王菲在北京协和医院产下窦靖童。1999年,王菲和窦唯婚变。1999年8月,窦唯与王菲正式离婚。
2000年6月,梁朝伟在铜锣湾的Stone Grill酒吧搞派对,庆祝凭《花样年华》获戛纳影帝,谢霆锋、王菲同时出席。两人恋情公开。2002年3月28日谢霆锋接受电台访问时,暗示他已与王菲分手。2002年7月,张柏芝与谢霆锋分手。2003年6月与王菲与谢霆锋复合。9月王菲、谢霆锋买戒指;11月两人又分手了。”
针对上述长文本所构建的知识网络,如4B所示。参见4B,该知识网络主要是针对实体“王菲”进行展开的,但是也有其他相关人物的事件活动, 如“谢霆锋与张柏芝”、“梁朝伟搞派对”等事件。其中椭圆框中标记的是实体;一些方框中标记的“离婚”、“结婚”、“产下”、“生于”、“获”、“搞”、“恋情公开”、“分手”、“复合”、“买戒指”、“出身”都是实体间的动态类型的关联关系,另一些方框中标记的“曾用名”、“爸爸”、“妈妈”都是实体间的静态类型的关联关系;其他一些方框中标记的“花样年华”、“1969年”、“2000年6月”等表示关联关系发生的条件等元素信息(如王菲与窦唯结婚事件中,“1996年7月”表示结婚这一事件发生的时间条件)。
根据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要,包括:
剔除所构成的当前网页的知识网络中,与当前网页的标题和/或子标题的关联度满足设定的剔除条件的知识点;
对经过剔除操作后的知识网络中所包含的知识点,按照知识点的类型组织在一起,得到当前网页的摘要;其中,所述知识点的类型包括静态类型和动态类型。
例如,依然针对上述所举的关于“王菲”的这个例子,对于“谢霆锋与张柏芝分手”、“梁朝伟搞派对”及“梁朝伟获夏纳影帝”等知识点都是“王菲”与“谢霆锋”发生某些事件的背景,与网页标题“王菲”的关联度较小,在摘要中不必要保留;对于“王菲爸爸是煤炭工程师”这个知识点而言,没有给出王菲父亲的名字而给出了其父亲的职业,该知识点与网页标题“王菲”的关联度也不是很强,也去除。
如针对“王菲”在百科中子标题“个人生活”下的前三段内容,所生成的摘要信息如4C所示。
操作430、统计所抽取到的每一个知识点都出现在获取到的多个网页中的哪几个网页的摘要中。
操作440、根据统计结果,计算不同网页的摘要间所包含的相同知识点的数量。
操作450、将所述多个网页中的一个网页作为待检测的目标网页,根据计算结果,确定所述多个网页中摘要与目标网页的摘要有相同知识点的其他网页的数量以及相同知识点的数量。
操作460、基于所确定的数量信息,得到目标网页的质量。
具体的,可直接将多个网页中摘要与目标网页的摘要有相同知识点的其他网页的数量以及相同知识点的数量,作为用于度量目标网页质量的参量,或者对这两个数量按照设定公式进行数学运算,得到用于度量目标网页质量的参数值。
如针对用户查询语句为“王菲的个人资料”,搜索结果中第二个网页至第四个网页的摘要见4D-4F。对于搜索结果中的第一个网页(结果1,为百度百科结果),其摘要基本上包含了王菲所有的信息。通过这几个网页摘要的简单对比,可以得到如4G所示的结果,该4G示出了知识点都出现在哪几个网页中。例如,知识点“{王菲}作品{填空}”,分别出现在第一个网页(结果1)、第三个网页(结果3)和第四个网页(结果4)中。
根据如4G所示的结果,可以计算出不同网页的摘要间所包含的相同知识点的数量,如4H。参见4H,弧上的数字表示两个网页的摘要间共同包含的知识点数量。例如,搜索结果中第一个网页(结果1)分别与第二个网页(结果2)、第三个网页(结果3)、第四个网页(结果4)的摘要之间有相同知 识点,且包含相同知识点的数量分别是:1、29、18。第二个网页的摘要仅与第一个网页的摘要有相同知识点。第三个网页的摘要分别第一个网页、第四个网页的摘要之间有相同知识点,且包含相同知识点的数量分别是:29、5。第四个网页的摘要分别第一个网页、第三个网页之间的摘要有相同知识点,且包含相同知识点的数量分别是:18、5。如4H中的第一个网页,在当前四个网页中,其余三个网页的摘要均跟其摘要含有相同知识点,是质量最好的;接下来是第三个网页和第四个网页,虽然摘要跟第三个网页的摘要包含有相同知识点的其他网页的数量,与摘要跟第四个网页的摘要包含有相同知识点的其他网页的数量相等,都是2,但是由于第三个网页所对应的相同知识点的数量为29+5=34,而第四个网页所对应的相同知识点的数量为18+5=23,因此第三个网页的质量优于第四个网页的质量;对于第二个网页,在这四个网页中,其质量是最差的,因为摘要跟第三个网页的摘要包含有相同知识点的其他网页的数量仅为1,且相同知识点也只有一个。
实施例五
5是本发明实施例五提供的一种网页质量检测装置的结构示意。参见5,该装置的结构具体包括:
网页获取模块510,用于获取根据用户查询语句得到的搜索结果中的多个网页;
网页摘要生成模块520,用于基于预设的语法语义分析法,生成获取的各个网页的摘要;
网页质量确定模块530,用于将所述多个网页中的一个网页作为待检测的目标网页,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似 度,确定所述目标网页的质量。
示例性的,所述网页质量确定模块530,具体用于: 
获取所述多个网页中其他网页的摘要与所述目标网页的摘要之间的相似度;
统计在摘要上与所述目标网页的摘要之间的相似度,达到设定阈值的其他网页的数量和/或对应的相似度;
根据统计结果,确定所述目标网页的质量。
示例性的,所述网页摘要生成模块520,包括:
知识网络构建单元5201,用于针对获取的各个网页,通过预设的语法语义分析法,对当前网页所包含的长文本进行知识点抽取,构成当前网页的知识网络;
摘要生成单元5202,用于根据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要。
示例性的,所述知识网络构建单元5201,包括:
句法结构得到子单元(未示出),用于对当前网页所包含的长文本中的分句进行语法语义分析,得到所述分句的句法结构;
知识点提取子单元(未示出),用于根据所述分句的句法结构,获得所述分句中具有关联关系的实体,将该具有关联关系的实体以及所述关联关系作为所述分句所包含的知识点;
知识网络形成子单元(未示出),用于将所述长文本中的各个分句所包含的知识点进行组织,构成当前网页的知识网络。
示例性的,所述知识点提取子单元,具体用于:
根据所述分句的句法结构,获得所述分句中具有关联关系的实体;
根据预先针对所述关联关系的类型设定的元素构成框架,确定所述关联关系所需要补充的元素,并在获得所需要补充的元素后对所述关联关系进行元素补充;
将所述具有关联关系的实体、所述关联关系以及补充的元素,作为所述分句所包含的知识点。
示例性的,所述知识网络形成子单元,具体用于:
识别所述长文本中的各个分句所包含的知识点之间在实体上的关系;
将所述长文本中的各个分句所包含的知识点,以及识别到的关系,作为当前网页的知识网络。
示例性的,所述摘要生成单元5202,包括:
知识点剔除子单元(未示出),用于剔除所构成的当前网页的知识网络中,与所述当前网页的标题和/或子标题的关联度满足设定的剔除条件的知识点;
摘要得到子单元(未示出),用于根据经过剔除操作后的知识网络中所包含的知识点,生成当前网页的摘要。
示例性的,所述摘要得到子单元,具体用于:
对经过剔除操作后的知识网络中所包含的知识点,按照知识点所在分句的顺序或者按照知识点的类型组织在一起,得到当前网页的摘要;
其中,所述知识点的类型包括静态类型和动态类型。
上述网页质量检测装置这一产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (16)

1.一种网页质量检测方法,其特征在于,包括:
获取根据用户查询语句得到的搜索结果中的多个网页;
基于预设的语法语义分析法,生成获取的各个网页的摘要;
将所述多个网页中的一个网页作为待检测的目标网页,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量。
2.根据权利要求1所述的方法,其特征在于,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量,包括:
获取所述多个网页中其他网页的摘要与所述目标网页的摘要之间的相似度;
统计在摘要上与所述目标网页的摘要之间的相似度,达到设定阈值的其他网页的数量和/或对应的相似度;
根据统计结果,确定所述目标网页的质量。
3.根据权利要求1所述的方法,其特征在于,基于预设的语法语义分析法,生成获取的各个网页的摘要,包括:
针对获取的各个网页,通过预设的语法语义分析法,对当前网页所包含的长文本进行知识点抽取,构成当前网页的知识网络;
根据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要。
4.根据权利要求3所述的方法,其特征在于,通过预设的语法语义分析法,对当前网页所包含的长文本进行知识点抽取,构成当前网页的知识网络,包括:
对当前网页所包含的长文本中的分句进行语法语义分析,得到所述分句的句法结构;
根据所述分句的句法结构,获得所述分句中具有关联关系的实体,将该具有关联关系的实体以及所述关联关系作为所述分句所包含的知识点;
将所述长文本中的各个分句所包含的知识点进行组织,构成当前网页的知识网络。
5.根据权利要求4所述的方法,其特征在于,在获得所述分句中具有关联关系的实体之后、将该具有关联关系的实体以及所述关联关系作为所述分句所包含的知识点之前,还包括:
根据预先针对所述关联关系的类型设定的元素构成框架,确定所述关联关系所需要补充的元素,并在获得所需要补充的元素后对所述关联关系进行元素补充;
将该具有关联关系的实体以及所述关联关系作为所述分句所包含的知识点,包括:将所述具有关联关系的实体、所述关联关系以及补充的元素,作为所述分句所包含的知识点。
6.根据权利要求4或5所述的方法,其特征在于,将所述长文本中的各个分句所包含的知识点进行组织,构成当前网页的知识网络,包括:
识别所述长文本中的各个分句所包含的知识点之间在实体上的关系;
将所述长文本中的各个分句所包含的知识点,以及识别到的关系,作为当前网页的知识网络。
7.根据权利要求3所述的方法,其特征在于,根据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要,包括:
剔除所构成的当前网页的知识网络中,与所述当前网页的标题和/或子标题的关联度满足设定的剔除条件的知识点;
根据经过剔除操作后的知识网络中所包含的知识点,生成当前网页的摘要。
8.根据权利要求7所述的方法,其特征在于,根据经过剔除操作后的知识网络中所包含的知识点,生成当前网页的摘要,包括:
对经过剔除操作后的知识网络中所包含的知识点,按照知识点所在分句的顺序或者按照知识点的类型组织在一起,得到当前网页的摘要;
其中,所述知识点的类型包括静态类型和动态类型。
9.一种网页质量检测装置,其特征在于,包括:
网页获取模块,用于获取根据用户查询语句得到的搜索结果中的多个网页;
网页摘要生成模块,用于基于预设的语法语义分析法,生成获取的各个网页的摘要;
网页质量确定模块,用于将所述多个网页中的一个网页作为待检测的目标网页,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量。
10.根据权利要求9所述的装置,其特征在于,所述网页质量确定模块,具体用于:
获取所述多个网页中其他网页的摘要与所述目标网页的摘要之间的相似度;
统计在摘要上与所述目标网页的摘要之间的相似度,达到设定阈值的其他网页的数量和/或对应的相似度;
根据统计结果,确定所述目标网页的质量。
11.根据权利要求9所述的装置,其特征在于,所述网页摘要生成模块,包括:
知识网络构建单元,用于针对获取的各个网页,通过预设的语法语义分析法,对当前网页所包含的长文本进行知识点抽取,构成当前网页的知识网络;
摘要生成单元,用于根据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要。
12.根据权利要求11所述的装置,其特征在于,所述知识网络构建单元,包括:
句法结构得到子单元,用于对当前网页所包含的长文本中的分句进行语法语义分析,得到所述分句的句法结构;
知识点提取子单元,用于根据所述分句的句法结构,获得所述分句中具有关联关系的实体,将该具有关联关系的实体以及所述关联关系作为所述分句所包含的知识点;
知识网络形成子单元,用于将所述长文本中的各个分句所包含的知识点进行组织,构成当前网页的知识网络。
13.根据权利要求12所述的装置,其特征在于,所述知识点提取子单元,具体用于:
根据所述分句的句法结构,获得所述分句中具有关联关系的实体;
根据预先针对所述关联关系的类型设定的元素构成框架,确定所述关联关系所需要补充的元素,并在获得所需要补充的元素后对所述关联关系进行元素补充;
将所述具有关联关系的实体、所述关联关系以及补充的元素,作为所述分句所包含的知识点。
14.根据权利要求12或13所述的装置,其特征在于,所述知识网络形成子单元,具体用于:
识别所述长文本中的各个分句所包含的知识点之间在实体上的关系;
将所述长文本中的各个分句所包含的知识点,以及识别到的关系,作为当前网页的知识网络。
15.根据权利要求11所述的装置,其特征在于,所述摘要生成单元,包括:
知识点剔除子单元,用于剔除所构成的当前网页的知识网络中,与所述当前网页的标题和/或子标题的关联度满足设定的剔除条件的知识点;
摘要得到子单元,用于根据经过剔除操作后的知识网络中所包含的知识点,生成当前网页的摘要。
16.根据权利要求15所述的装置,其特征在于,所述摘要得到子单元,具体用于:
对经过剔除操作后的知识网络中所包含的知识点,按照知识点所在分句的顺序或者按照知识点的类型组织在一起,得到当前网页的摘要;
其中,所述知识点的类型包括静态类型和动态类型。
CN201510050373.4A 2015-01-30 2015-01-30 网页质量检测方法及装置 Active CN104615705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510050373.4A CN104615705B (zh) 2015-01-30 2015-01-30 网页质量检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510050373.4A CN104615705B (zh) 2015-01-30 2015-01-30 网页质量检测方法及装置

Publications (2)

Publication Number Publication Date
CN104615705A true CN104615705A (zh) 2015-05-13
CN104615705B CN104615705B (zh) 2018-09-18

Family

ID=53150147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510050373.4A Active CN104615705B (zh) 2015-01-30 2015-01-30 网页质量检测方法及装置

Country Status (1)

Country Link
CN (1) CN104615705B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN106055614A (zh) * 2016-05-26 2016-10-26 天津海量信息技术股份有限公司 基于多个语义摘要的内容相似性分析方法
CN113641933A (zh) * 2021-06-30 2021-11-12 北京百度网讯科技有限公司 异常网页识别方法、异常站点识别方法及装置
CN113705232A (zh) * 2021-03-03 2021-11-26 腾讯科技(深圳)有限公司 文本处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN102651031A (zh) * 2012-03-31 2012-08-29 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备
US20140006927A1 (en) * 2012-06-29 2014-01-02 Ebay Inc. Method for detecting and analyzing site quality
CN103544257A (zh) * 2013-10-15 2014-01-29 北京国双科技有限公司 网页质量检测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN102651031A (zh) * 2012-03-31 2012-08-29 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备
US20140006927A1 (en) * 2012-06-29 2014-01-02 Ebay Inc. Method for detecting and analyzing site quality
CN103544257A (zh) * 2013-10-15 2014-01-29 北京国双科技有限公司 网页质量检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊芝: "中文网页自动摘要系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN106055614A (zh) * 2016-05-26 2016-10-26 天津海量信息技术股份有限公司 基于多个语义摘要的内容相似性分析方法
CN113705232A (zh) * 2021-03-03 2021-11-26 腾讯科技(深圳)有限公司 文本处理方法及装置
CN113705232B (zh) * 2021-03-03 2024-05-07 腾讯科技(深圳)有限公司 文本处理方法及装置
CN113641933A (zh) * 2021-06-30 2021-11-12 北京百度网讯科技有限公司 异常网页识别方法、异常站点识别方法及装置
CN113641933B (zh) * 2021-06-30 2023-10-20 北京百度网讯科技有限公司 异常网页识别方法、异常站点识别方法及装置

Also Published As

Publication number Publication date
CN104615705B (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
Mubarak et al. Abusive language detection on Arabic social media
Berg-Kirkpatrick et al. Jointly learning to extract and compress
CN106156083B (zh) 一种领域知识处理方法及装置
CN104536950B (zh) 生成文本摘要的方法及装置
US20200257717A1 (en) Automatic construction method of software bug knowledge graph
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
US20170052950A1 (en) Extracting information from structured documents comprising natural language text
CN104615724A (zh) 知识库的建立以及基于知识库的信息搜索方法和装置
CN104915443B (zh) 一种中文微博评价对象的抽取方法
CN104484339A (zh) 一种相关实体推荐方法和系统
CN106407195B (zh) 用于网页消重的方法和系统
CN104503978A (zh) 一种相关实体推荐方法和系统
CN104615705A (zh) 网页质量检测方法及装置
CN104636319A (zh) 一种文本去重方法和装置
Velloso et al. Automatic web page segmentation and noise removal for structured extraction using tag path sequences
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
Jeon et al. Making a graph database from unstructured text
Zhao et al. Towards events detection from microblog messages
KR20170087367A (ko) 범언어적 시맨틱 웹 데이터 품질평가 방법
Munot et al. Conceptual framework for abstractive text summarization
Kurmi et al. Text summarization using enhanced MMR technique
JP4326713B2 (ja) ニュース話題解析装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant