CN103617213A - 识别新闻网页属性特征的方法和系统 - Google Patents

识别新闻网页属性特征的方法和系统 Download PDF

Info

Publication number
CN103617213A
CN103617213A CN201310585455.XA CN201310585455A CN103617213A CN 103617213 A CN103617213 A CN 103617213A CN 201310585455 A CN201310585455 A CN 201310585455A CN 103617213 A CN103617213 A CN 103617213A
Authority
CN
China
Prior art keywords
keyword
text message
web page
news web
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310585455.XA
Other languages
English (en)
Other versions
CN103617213B (zh
Inventor
韩孟岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310585455.XA priority Critical patent/CN103617213B/zh
Publication of CN103617213A publication Critical patent/CN103617213A/zh
Application granted granted Critical
Publication of CN103617213B publication Critical patent/CN103617213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种识别新闻网页属性特征的方法和系统,方法包括:从抓取到的新闻网页中分别提取标题信息和正文信息;分别对标题信息和正文信息进行分析,根据标题信息分析数据与正文信息分析数据计算标题信息和正文信息的匹配度;根据标题信息和正文信息的匹配度,判断新闻网页的属性特征。本发明的优点在于,可以识别新闻网页的属性特征,该属性特征反映网页标题信息和正文信息的相关性,可以识别出其是否为“垃圾新闻”网页。

Description

识别新闻网页属性特征的方法和系统
技术领域
本发明涉及一种识别新闻网页属性特征的方法和系统。
背景技术
目前,网络上存在大量的新闻网页,新闻网页上具有丰富的新闻,供用户进行浏览,以获取最新的新闻消息。而现在不少的新闻网页上,被植入了一些和新闻无关的信息,这些通常对用户毫无价值可言,对用户来说成为“垃圾新闻”,只会干扰用户的浏览。
例如,某新闻网页的标题信息为“来XXX玩游戏看电影”,正文信息为:“在奴隶社会下,没有财产权的商人是软弱的,在合法劳动所得都不能得到保障的奴隶社会,发展商业文明,是绝对不可行的……”。很明显地,该新闻网页提供的标题信息和正文信息完全无关,并非正常的新闻,而是“垃圾新闻”,其只会对用户造成干扰,影响用户正常的新闻阅读。“垃圾新闻”应及时识别出来并进行处理,以免对用户造成干扰,但目前尚无有效的识别方案。
所以,本发明需要解决的技术问题在于,需要有一种技术方案来对新闻网页的属性特征进行判断。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别新闻网页属性特征的方法和系统。
依据本发明的一个方面,提供了一种识别新闻网页属性特征的方法,其包括:从抓取到的新闻网页中分别提取标题信息和正文信息;分别对标题信息和正文信息进行分析,根据标题信息分析数据与正文信息分析数据计算标题信息和正文信息的匹配度;根据标题信息和正文信息的匹配度,判断新闻网页的属性特征。
可选地,分别对标题信息和正文信息进行分析的步骤包括:从标题信息中提取一个或多个词作为关键词;根据关键词在正文信息中出现的频率和/或位置,计算匹配度。
可选地,从标题信息中提取一个或多个词作为关键词的步骤包括:提取标题信息中包含的动词和/或名词作为关键词。
可选地,从标题信息中提取一个或多个词作为关键词的步骤还包括:如关键词的数量为多个且超过预定个数,则保留其中预定个数的关键词。
可选地,根据关键词在正文信息中出现的频率和/或位置,计算匹配度的步骤进一步包括:根据关键词在正文信息中出现的频率和/或位置,得到关键词的词权重;按预定方式,计算正文信息的离散度;根据关键词的词权重和正文信息的离散度,计算匹配度。
可选地,根据关键词在正文信息中出现的频率和/或位置,得到关键词的词权重的步骤进一步包括:根据每个关键词在正文信息中首次出现的位置,计算每个关键词的位置权重;根据每个关键词在正文信息中出现的频率,计算每个关键词的频率权重;根据每个关键词的位置权重和/或频率权重,得到每个关键词的词权重。
可选地,每个关键词的位置权重=a/log(b+first_position),a的值为第一常数,b的值为第二常数,first_position的值用于表示每个关键词在正文信息中首次出现时的位置;每个关键词的频率权重=m/log(c+e^((n-freq)^o)),e为自然常数,m的值为第三常数,n的值为第四常数,o的值为第五常数,c为第六常数,freq的值用于表示每个关键词在正文信息中出现的次数,符号^表示乘方。
可选地,按预定方式,计算正文信息的离散度的步骤进一步包括:根据正文信息中出现的所有词的数量,以及正文信息中出现的独立词的数量,计算正文信息的离散度,所有词中排除重复出现的词后得到独立词。
可选地,正文信息的离散度=所有词的数量/独立词的数量;匹配度=所有关键词的词权重之和/(n×正文信息的离散度),n为所有关键词的数量。
可选地,在从抓取到的新闻网页中分别提取标题信息和正文信息的步骤还包括:响应搜索请求获取新闻网页;在根据标题信息和正文信息的匹配度,判断新闻网页的属性特征的步骤后,还包括:根据新闻网页的属性特征,判断是否将新闻网页的地址作为对应搜索请求的搜索结果。
依据本发明的另一个方面,提供了一种识别新闻网页属性特征的系统,其包括:网页数据库,适于存储抓取到的网页;提取模块,适于从抓取到的新闻网页中分别提取标题信息和正文信息;匹配度计算模块,适于分别对标题信息和正文信息进行分析,根据标题信息分析数据与正文信息分析数据计算标题信息和正文信息的匹配度;属性特征判断模块,适于根据标题信息和正文信息的匹配度,判断新闻网页的属性特征。
可选地,还包括:关键词提取模块,适于从标题信息中提取一个或多个词作为关键词;匹配度计算模块根据关键词在正文信息中出现的频率和/或位置,计算匹配度。
可选地,关键词提取模块提取标题信息中包含的动词和/或名词作为关键词。
可选地,还包括:关键词保留模块,如关键词的数量为多个且超过预定个数,则保留其中预定个数的关键词。
可选地,还包括:词权重计算模块,适于根据关键词在正文信息中出现的频率和/或位置,得到关键词的词权重;离散度计算模块,适于按预定方式,计算正文信息的离散度;匹配度计算模块根据关键词的词权重和正文信息的离散度,计算匹配度。
可选地,还包括:位置权重计算模块,适于根据每个关键词在正文信息中首次出现的位置,计算每个关键词的位置权重;频率权重计算模块,适于根据每个关键词在正文信息中出现的频率,计算每个关键词的频率权重;词权重计算模块根据每个关键词的位置权重和/或频率权重,得到每个关键词的词权重。
可选地,每个关键词的位置权重=a/log(b+first_position),a的值为第一常数,b的值为第二常数,first_position的值用于表示每个关键词在正文信息中首次出现时的位置;每个关键词的频率权重=m/log(c+e^((n-freq)^o)),e为自然常数,m的值为第三常数,n的值为第四常数,o的值为第五常数,c为第六常数,freq的值用于表示每个关键词在正文信息中出现的次数,符号^表示乘方。
可选地,离散度计算模块根据正文信息中出现的所有词的数量,以及正文信息中出现的独立词的数量,计算正文信息的离散度,所有词中排除重复出现的词后得到独立词。
可选地,正文信息的离散度=所有词的数量/独立词的数量;匹配度=所有关键词的词权重之和/(n×正文信息的离散度),n为所有关键词的数量。
可选地,还包括:搜索请求响应模块,适于响应搜索请求从网页数据库获取新闻网页;搜索结果判断模块,适于根据新闻网页的属性特征,判断是否将新闻网页的地址作为对应搜索请求的搜索结果。
根据本发明的识别新闻网页属性特征的方法和系统,计算新闻网页的标题信息和正文信息的匹配度,而通过匹配度判断得到的属性特征实际上反映了新闻网页的标题信息和正文信息的相关性,如标题信息和正文信息毫不相关,则可以将新闻网页的内容判断为“垃圾新闻”,以便于及时对其进行过滤等处理,避免对用户的新闻浏览造成干扰。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明的一个实施例的识别新闻网页属性特征的方法的流程图;
图2示出了根据本发明的一个实施例的识别新闻网页属性特征的方法的部分流程图;
图3示出了根据本发明的一个实施例的识别新闻网页属性特征的方法的部分流程图;
图4示出了根据本发明的一个实施例的识别新闻网页属性特征的方法的部分流程图;
图5示出了根据本发明的一个实施例的识别新闻网页属性特征的系统的框图;
图6示出了根据本发明的一个实施例的识别新闻网页属性特征的系统的框图;
图7示出了根据本发明的一个实施例的识别新闻网页属性特征的系统的框图;
图8示出了根据本发明的一个实施例的识别新闻网页属性特征的系统的框图;
图9示出了根据本发明的一个实施例的识别新闻网页属性特征的系统的框图;
图10示出了根据本发明的一个实施例的识别新闻网页属性特征的系统的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的一个实施例提供了一种识别新闻网页属性特征的方法,其包括:步骤110,从抓取到的新闻网页中分别提取标题信息和正文信息,例如前述的新闻网页中“来XXX玩游戏看电影”为标题信息,“在奴隶社会下……”为正文信息;步骤120,分别对标题信息和正文信息进行分析,根据标题信息分析数据与正文信息分析数据计算标题信息和正文信息的匹配度;步骤130,根据标题信息和正文信息的匹配度,判断新闻网页的属性特征,则该属性特征反映了标题信息和正文信息的相关性,例如,如“来XXX玩游戏看电影”与“在奴隶社会下……”之间的相关性较差,则说明该新闻网页提供的新闻非正常,即为“垃圾新闻”,识别出“垃圾新闻”有利于及时对其进行过滤等处理,避免对用户的新闻浏览造成干扰。
如图2所示,本发明的另一实施例提出一种识别新闻网页属性特征的方法,与上述实施例相比,本实施例的识别新闻网页属性特征的方法,步骤120可以包括:步骤121,从标题信息中提取一个或多个词作为关键词,例如从“来XXX玩游戏看电影”中提取“XXX”、“游戏”等作为关键词;步骤122,根据关键词在正文信息中出现的频率和/或位置,例如某关键词在正文信息中频率为出现5次,位置为第2个字符开始、第20个字符开始……等,计算匹配度,本实施例中利用关键词完成匹配度的计算,得到的结果可以很好地反映标题信息和正文信息之间的相关性。匹配度的计算方式包括但不限于前述的方式,在本发明的另一实施例中,还可以直接利用标题信息和正文信息中相同的字数或词数,来计算匹配度。
本发明的另一实施例提出一种识别新闻网页属性特征的方法,与上述实施例相比,本实施例的识别新闻网页属性特征的方法,步骤121包括:提取标题信息中包含的动词和/或名词作为关键词,动词和名词作为关键词可以表示标题信息的实质内容,则计算得到的匹配度可以很好地反映标题信息与正文信息在实质内容上的关联。关键词的提取方式包括但不限于前述的方式,在本发明的另一实施例中,还随机从标题信息中提取词语作为关键词。
本发明的另一实施例提出一种识别新闻网页属性特征的方法,与上述实施例相比,本实施例的识别新闻网页属性特征的方法,步骤121还包括:如关键词的数量为多个且超过预定个数,则保留其中预定个数的关键词,例如关键词的数量超过5个,则仅保留其中的5个,保留有限的关键词有利于提高匹配度计算的效率。
如图3所示,本发明的另一实施例提出一种识别新闻网页属性特征的方法,与上述实施例相比,本实施例的识别新闻网页属性特征的方法,步骤122进一步包括:步骤1221,根据关键词在正文信息中出现的频率和/或位置,得到关键词的词权重;步骤1222,按预定方式,计算正文信息的离散度;步骤1223,根据关键词的词权重和正文信息的离散度,计算匹配度,本实施例中结合正文信息的离散度,得到的匹配度可以更准确地反映标题信息和正文信息的相关性。
如图4所示,本发明的另一实施例提出一种识别新闻网页属性特征的方法,与上述实施例相比,本实施例的识别新闻网页属性特征的方法,步骤1221进一步包括:步骤12211,根据每个关键词在正文信息中首次出现的位置,计算每个关键词的位置权重,仅利用首次出现位置有利于提高计算效率;步骤12212,根据每个关键词在正文信息中出现的频率,计算每个关键词的频率权重;步骤12213,根据每个关键词的位置权重和/或频率权重,得到每个关键词的词权重,本实施例技术方案中,提供了一种易于实现的计算关键词的词权重的方案。关键词词权重的计算方式包括但不限于前述方式,在本发明的另一个实施例中,还利用关键词的多次出现位置来计算关键位置权重,并进一步计算词权重。
本发明的另一实施例提出一种识别新闻网页属性特征的方法,与上述实施例相比,本实施例的识别新闻网页属性特征的方法,每个关键词的位置权重=a/log(b+first_position),a的值为第一常数,b的值为第二常数,first_position的值用于表示每个关键词在正文信息中首次出现时的位置,例如首次出现在第2个字符则取2,在本实施例的一个可选方式中,每个关键词的词权重=1/log(10+first_position),本领域技术人员应当理解,a、b的取值不限于1、10,还可以是其他常数;每个关键词的频率权重=m/log(c+e^((n-freq)^o)),e为自然常数,m的值为第三常数,n的值为第四常数,o的值为第五常数,c为第六常数,freq的值用于表示每个关键词在正文信息中出现的次数,例如,关键词出现5次则取5,符号^表示乘方,在本实施例的一个可选方式中,具体参数取值可以为m=1,c=1,n=9,o=2,每个关键词的频率权重=1/log(1+e^((9-freq)^2)),本领域技术人员应当理解,m、c、n、o的取值不限于1、1、9、2,还可以根据具体情况分别调整为其他常数。
本发明的另一实施例提出一种识别新闻网页属性特征的方法,与上述实施例相比,本实施例的识别新闻网页属性特征的方法,步骤1222进一步包括:根据正文信息中出现的所有词的数量,以及正文信息中出现的独立词的数量,计算正文信息的离散度,所有词中排除重复出现的词后得到独立词,例如所有词为50个,排除重复出现的词后得到独立词为42个,本实施例中提供了一种计算正文信息的离散度的方式,可以反映正文信息的离散性。离散度的计算方式包括但不限于前述方式,在本发明的另一实施例中,还将独立词的字数与正文信息总字数进行比较,得到离散度,也可以反映正文信息的离散性。
本发明的另一实施例提出一种识别新闻网页属性特征的方法,与上述实施例相比,本实施例的识别新闻网页属性特征的方法,正文信息的离散度=所有词的数量/独立词的数量;匹配度=所有关键词的词权重之和/(n×正文信息的离散度),n为所有关键词的数量,本实施例中提供了一种易于实现的计算匹配度的方式,结合前述实施例中提供的公式,可以计算出“来XXX玩游戏看电影”的标题信息和“在奴隶社会下……”的正文信息之间匹配度为0,则说明标题信息和正文信息完全无关,可将其内容识别为“垃圾新闻”。匹配度的取值也不仅限于只有等于“0”时,才会判定新闻网页属性为欺骗类或垃圾类,可以根据具体适用情况设置和调整不同的匹配度阈值,从而可以更有效的过滤新闻网页属性。同时,匹配度的计算方式包括但不限于前述方式,在本发明的另一实施例中,可以取消上述公式中的n。
本发明的另一实施例提出一种识别新闻网页属性特征的方法,与上述实施例相比,本实施例的识别新闻网页属性特征的方法,步骤110还包括:响应搜索请求获取新闻网页;在步骤130后,还包括:根据新闻网页的属性特征,判断是否将新闻网页的地址作为对应搜索请求的搜索结果,本实施例的技术方案中,搜索引擎为用户搜索到新闻网页后,可识别其是否为“垃圾新闻”网页,如其为“垃圾新闻”网页则过滤掉,仅将剩余新闻网页作为搜索结果提供给用户,保证了用户的正常浏览。
如图5所示,本发明的一个实施例提供了一种识别新闻网页属性特征的系统,其包括:网页数据库201,适于存储抓取到的网页;提取模块202,适于从抓取到的新闻网页中分别提取标题信息和正文信息,例如前述的新闻网页中“来XXX玩游戏看电影”为标题信息,“在奴隶社会下……”为正文信息;匹配度计算模块203,适于分别对标题信息和正文信息进行分析,根据标题信息分析数据与正文信息分析数据计算标题信息和正文信息的匹配度;属性特征判断模块204,适于根据标题信息和正文信息的匹配度,判断新闻网页的属性特征,则该属性特征反映了标题信息和正文信息的相关性,例如,如“来XXX玩游戏看电影”与“在奴隶社会下……”之间的相关性较差,则说明该新闻网页提供的新闻非正常,即为“垃圾新闻”,识别出“垃圾新闻”有利于及时对其进行过滤等处理,避免对用户的新闻浏览造成干扰。
如图6所示,本发明的另一实施例提出一种识别新闻网页属性特征的系统,与上述实施例相比,本实施例的识别新闻网页属性特征的系统,还包括:关键词提取模块205,适于从标题信息中提取一个或多个词作为关键词,例如从“来XXX玩游戏看电影”中提取“XXX”、“游戏”等作为关键词;匹配度计算模块203根据关键词在正文信息中出现的频率和/或位置,例如某关键词在正文信息中频率为出现5次,位置为第2个字符开始、第20个字符开始……等计算匹配度,本实施例中利用关键词完成匹配度的计算,得到的结果可以很好地反映标题信息和正文信息之间的相关性。匹配度的计算方式包括但不限于前述的方式,在本发明的另一实施例中,还可以直接利用标题信息和正文信息中相同的字数或词数,来计算匹配度。
本发明的另一实施例提出一种识别新闻网页属性特征的系统,与上述实施例相比,本实施例的识别新闻网页属性特征的系统,关键词提取模块205提取标题信息中包含的动词和/或名词作为关键词,动词和名词作为关键词可以表示标题信息的实质内容,则计算得到的匹配度可以很好地反映标题信息与正文信息在实质内容上的关联。关键词的提取方式包括但不限于前述的方式,在本发明的另一实施例中,还随机从标题信息中提取词语作为关键词。
如图7所示,本发明的另一实施例提出一种识别新闻网页属性特征的系统,与上述实施例相比,本实施例的识别新闻网页属性特征的系统,还包括:关键词保留模块206,如关键词的数量为多个且超过预定个数,则保留其中预定个数的关键词,例如关键词的数量超过5个,则仅保留其中的5个,保留有限的关键词有利于提高匹配度计算的效率。
如图8所示,本发明的另一实施例提出一种识别新闻网页属性特征的系统,与上述实施例相比,本实施例的识别新闻网页属性特征的系统,还包括:词权重计算模块207,适于根据关键词在正文信息中出现的频率和/或位置,得到关键词的词权重;离散度计算模块208,适于按预定方式,计算正文信息的离散度;匹配度计算模块203根据关键词的词权重和正文信息的离散度,计算匹配度,本实施例中结合正文信息的离散度,得到的匹配度可以更准确地反映标题信息和正文信息的相关性。
如图9所示,本发明的另一实施例提出一种识别新闻网页属性特征的系统,与上述实施例相比,本实施例的识别新闻网页属性特征的系统,还包括:位置权重计算模块209,适于根据每个关键词在正文信息中首次出现的位置,计算每个关键词的位置权重,仅利用首次出现位置有利于提高计算效率;频率权重计算模块210,适于根据每个关键词在正文信息中出现的频率,计算每个关键词的频率权重;词权重计算模块207根据每个关键词的位置权重和/或频率权重,得到每个关键词的词权重,本实施例技术方案中,提供了一种易于实现的计算关键词的词权重的方案。关键词词权重的计算方式包括但不限于前述方式,在本发明的另一个实施例中,还利用关键词的多次出现位置来计算关键位置权重,并进一步计算词权重。
本发明的另一实施例提出一种识别新闻网页属性特征的系统,与上述实施例相比,本实施例的识别新闻网页属性特征的系统,每个关键词的位置权重=a/log(b+first_position),a的值为第一常数,b的值为第二常数,first_position的值用于表示每个关键词在正文信息中首次出现时的位置,例如首次出现在第2个字符则取2,在本实施例的一个可选方式中,每个关键词的词权重=1/log(10+first_position),本领域技术人员应当理解,a、b的取值不限于1、10,还可以是其他常数;每个关键词的频率权重=m/log(c+e^((n-freq)^o)),e为自然常数,m的值为第三常数,n的值为第四常数,o的值为第五常数,c为第六常数,freq的值用于表示每个关键词在正文信息中出现的次数,例如,关键词出现5次则取5,符号^表示乘方,在本实施例的一个可选方式中,具体参数取值可以为m=1,c=1,n=9,o=2,每个关键词的频率权重=1/log(1+e^((9-freq)^2)),本领域技术人员应当理解,m、c、n、o的取值不限于1、1、9、2,还可以根据具体情况分别调整为其他常数。
本发明的另一实施例提出一种识别新闻网页属性特征的系统,与上述实施例相比,本实施例的识别新闻网页属性特征的系统,离散度计算模块208根据正文信息中出现的所有词的数量,以及正文信息中出现的独立词的数量,计算正文信息的离散度,所有词中排除重复出现的词后得到独立词,例如所有词为50个,排除重复出现的词后得到独立词为42个,本实施例中提供了一种计算正文信息的离散度的方式,可以反映正文信息的离散性。离散度的计算方式包括但不限于前述方式,在本发明的另一实施例中,还将独立词的字数与正文信息总字数进行比较,得到离散度,也可以反映正文信息的离散性。
本发明的另一实施例提出一种识别新闻网页属性特征的系统,与上述实施例相比,本实施例的识别新闻网页属性特征的系统,正文信息的离散度=所有词的数量/独立词的数量;匹配度=所有关键词的词权重之和/(n×正文信息的离散度),n为所有关键词的数量,本实施例中提供了一种易于实现的计算匹配度的方式,结合前述实施例中提供的公式,可以计算出“来XXX玩游戏看电影”的标题信息和“在奴隶社会下……”的正文信息之间匹配度为0,则说明标题信息和正文信息完全无关,可将其内容识别为“垃圾新闻”。匹配度的取值也不仅限于只有等于“0”时,才会判定新闻网页属性为欺骗类或垃圾类,可以根据具体适用情况设置和调整不同的匹配度阈值,从而可以更有效的过滤新闻网页属性。同时,匹配度的计算方式包括但不限于前述方式,在本发明的另一实施例中,可以取消上述公式中的n。
如图10所示,本发明的另一实施例提出一种识别新闻网页属性特征的系统,与上述实施例相比,本实施例的识别新闻网页属性特征的系统,还包括:搜索请求响应模块211,适于响应搜索请求从网页数据库201获取新闻网页;搜索结果判断模块212,适于根据新闻网页的属性特征,判断是否将新闻网页的地址作为对应搜索请求的搜索结果,本实施例的技术方案中,搜索引擎为用户搜索到新闻网页后,可识别其是否为“垃圾新闻”网页,如其为“垃圾新闻”网页则过滤掉,仅将剩余新闻网页作为搜索结果提供给用户,保证了用户的正常浏览。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的识别新闻网页属性特征的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种识别新闻网页属性特征的方法,其包括:
从抓取到的新闻网页中分别提取标题信息和正文信息;
分别对所述标题信息和所述正文信息进行分析,根据标题信息分析数据与正文信息分析数据计算所述标题信息和所述正文信息的匹配度;
根据所述标题信息和所述正文信息的匹配度,判断所述新闻网页的属性特征。
2.根据权利要求1所述的识别新闻网页属性特征的方法,其中,所述分别对所述标题信息和所述正文信息进行分析的步骤包括:
从所述标题信息中提取一个或多个词作为关键词;
根据所述关键词在所述正文信息中出现的频率和/或位置,计算所述匹配度。
3.根据权利要求1或2所述的识别新闻网页属性特征的方法,其中,所述从所述标题信息中提取一个或多个词作为关键词的步骤包括:
提取所述标题信息中包含的动词和/或名词作为关键词。
4.根据权利要求1-3任一项所述的识别新闻网页属性特征的方法,其中,所述从所述标题信息中提取一个或多个词作为关键词的步骤还包括:
如所述关键词的数量为多个且超过预定个数,则保留其中预定个数的关键词。
5.根据权利要求1-4任一项所述的识别新闻网页属性特征的方法,其中,所述根据所述关键词在所述正文信息中出现的频率和/或位置,计算所述匹配度的步骤进一步包括:
根据所述关键词在所述正文信息中出现的频率和/或位置,得到所述关键词的词权重;
按预定方式,计算所述正文信息的离散度;
根据所述关键词的词权重和所述正文信息的离散度,计算所述匹配度。
6.一种识别新闻网页属性特征的系统,其包括:
网页数据库,适于存储抓取到的网页;
提取模块,适于从抓取到的新闻网页中分别提取标题信息和正文信息;
匹配度计算模块,适于分别对所述标题信息和所述正文信息进行分析,根据标题信息分析数据与正文信息分析数据计算所述标题信息和所述正文信息的匹配度;
属性特征判断模块,适于根据所述标题信息和所述正文信息的匹配度,判断所述新闻网页的属性特征。
7.根据权利要求6所述的识别新闻网页属性特征的系统,其中,还包括:
关键词提取模块,适于从所述标题信息中提取一个或多个词作为关键词;
所述匹配度计算模块根据所述关键词在所述正文信息中出现的频率和/或位置,计算所述匹配度。
8.根据权利要求6或7所述的识别新闻网页属性特征的系统,其中,所述关键词提取模块提取所述标题信息中包含的动词和/或名词作为关键词。
9.根据权利要求6-8任一项所述的识别新闻网页属性特征的系统,其中,还包括:
关键词保留模块,如所述关键词的数量为多个且超过预定个数,则保留其中预定个数的关键词。
10.根据权利要求6-9任一项所述的识别新闻网页属性特征的系统,其中,还包括:
词权重计算模块,适于根据所述关键词在所述正文信息中出现的频率和/或位置,得到所述关键词的词权重;
离散度计算模块,适于按预定方式,计算所述正文信息的离散度;
所述匹配度计算模块根据所述关键词的词权重和所述正文信息的离散度,计算所述匹配度。
CN201310585455.XA 2013-11-19 2013-11-19 识别新闻网页属性特征的方法和系统 Active CN103617213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310585455.XA CN103617213B (zh) 2013-11-19 2013-11-19 识别新闻网页属性特征的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310585455.XA CN103617213B (zh) 2013-11-19 2013-11-19 识别新闻网页属性特征的方法和系统

Publications (2)

Publication Number Publication Date
CN103617213A true CN103617213A (zh) 2014-03-05
CN103617213B CN103617213B (zh) 2017-04-19

Family

ID=50167916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310585455.XA Active CN103617213B (zh) 2013-11-19 2013-11-19 识别新闻网页属性特征的方法和系统

Country Status (1)

Country Link
CN (1) CN103617213B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970832A (zh) * 2014-04-01 2014-08-06 百度在线网络技术(北京)有限公司 一种识别垃圾信息的方法与装置
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN104933055A (zh) * 2014-03-18 2015-09-23 腾讯科技(深圳)有限公司 网页识别方法及网页识别装置
CN106844717A (zh) * 2017-02-08 2017-06-13 北京小米移动软件有限公司 网页搜索显示方法及装置
CN107291930A (zh) * 2017-06-29 2017-10-24 环球智达科技(北京)有限公司 权重数的计算方法
CN107357781A (zh) * 2017-06-29 2017-11-17 胡玥莹 用于鉴别网页标题与正文关联度的系统及方法
CN108614825A (zh) * 2016-12-12 2018-10-02 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN110442803A (zh) * 2019-08-09 2019-11-12 网易传媒科技(北京)有限公司 由计算设备执行的数据处理方法、装置、介质和计算设备
CN114282092A (zh) * 2021-12-07 2022-04-05 咪咕音乐有限公司 信息处理方法、装置、设备及计算机可读存储介质
CN115495688A (zh) * 2022-11-16 2022-12-20 上海金仕达软件科技有限公司 一种业务办理智能切换方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592067A (zh) * 2011-01-17 2012-07-18 腾讯科技(深圳)有限公司 一种网页识别方法、装置及系统
CN103186599A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网新闻的监控方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592067A (zh) * 2011-01-17 2012-07-18 腾讯科技(深圳)有限公司 一种网页识别方法、装置及系统
CN103186599A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网新闻的监控方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ASHISH SUREKA: "Mining User Comment Activity for Detecting Forum Spammers in YouTube", 《1ST INTERNATIONAL WORKSHOP ON USAGE ANALYSIS AND THE WEB OF DATA (USEWOD2011) IN THE 20TH INTERNATIONAL WORLD WIDE WEB CONFERENCE》, 28 March 2011 (2011-03-28), pages 1 - 4 *
朱福勇: "基于语义分析的信息检索技术的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 March 2013 (2013-03-15), pages 138 - 1727 *
王志超 等: "基于主题句相似度的标题党新闻鉴别技术研究", 《情报分析与研究》, no. 11, 30 November 2011 (2011-11-30), pages 48 - 53 *
罗军 等: "词分布分析在信息检索相关排序中的应用研究", 《世界科技研究与发展》, vol. 35, no. 1, 28 February 2013 (2013-02-28) *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933055B (zh) * 2014-03-18 2020-01-31 腾讯科技(深圳)有限公司 网页识别方法及网页识别装置
CN104933055A (zh) * 2014-03-18 2015-09-23 腾讯科技(深圳)有限公司 网页识别方法及网页识别装置
CN103970832A (zh) * 2014-04-01 2014-08-06 百度在线网络技术(北京)有限公司 一种识别垃圾信息的方法与装置
CN104408093B (zh) * 2014-11-14 2018-01-26 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN108614825A (zh) * 2016-12-12 2018-10-02 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN106844717A (zh) * 2017-02-08 2017-06-13 北京小米移动软件有限公司 网页搜索显示方法及装置
CN107291930A (zh) * 2017-06-29 2017-10-24 环球智达科技(北京)有限公司 权重数的计算方法
CN107357781A (zh) * 2017-06-29 2017-11-17 胡玥莹 用于鉴别网页标题与正文关联度的系统及方法
CN107357781B (zh) * 2017-06-29 2020-12-29 上海财兔信息科技有限公司 用于鉴别网页标题与正文关联度的系统及方法
CN110442803A (zh) * 2019-08-09 2019-11-12 网易传媒科技(北京)有限公司 由计算设备执行的数据处理方法、装置、介质和计算设备
CN114282092A (zh) * 2021-12-07 2022-04-05 咪咕音乐有限公司 信息处理方法、装置、设备及计算机可读存储介质
CN114282092B (zh) * 2021-12-07 2024-08-27 咪咕音乐有限公司 信息处理方法、装置、设备及计算机可读存储介质
CN115495688A (zh) * 2022-11-16 2022-12-20 上海金仕达软件科技有限公司 一种业务办理智能切换方法及系统

Also Published As

Publication number Publication date
CN103617213B (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN103617213A (zh) 识别新闻网页属性特征的方法和系统
CN102436563B (zh) 一种检测页面篡改的方法及装置
WO2014101783A1 (en) Method and server for performing cloud detection for malicious information
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
EP2657853A1 (en) Webpage information detection method and system
CN103984757B (zh) 在搜索结果页上插入新闻信息条目的方法和系统
CN103914494A (zh) 一种微博用户身份识别方法及系统
CN102591965A (zh) 一种黑链检测的方法及装置
CN103544267A (zh) 一种基于搜索建议词进行搜索的方法以及装置
CN103399872B (zh) 对网页抓取进行优化的方法和装置
CN103870461A (zh) 主题推荐方法、装置和服务器
CN102446255A (zh) 一种检测页面篡改的方法及装置
CN106021418A (zh) 新闻事件的聚类方法及装置
CN103942264A (zh) 推送包含新闻信息的网页的方法和装置
CN104376115A (zh) 一种基于全局搜索的模糊词确定方法及装置
CN102902792B (zh) 列表页识别系统及方法
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN104965902A (zh) 一种富集化url的识别方法和装置
CN102929948B (zh) 列表页识别系统及方法
CN103399874A (zh) 对同一域名下网页抓取进行优化的方法和装置
CN113742785A (zh) 一种网页分类方法、装置、电子设备及存储介质
CN103870590A (zh) 具有报错特征的网页识别方法和装置
KR101614551B1 (ko) 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법
CN114880540A (zh) 一种基于智慧金融文本评论的智能提醒方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220801

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.