CN104317891B - 一种对页面标注标签的方法及装置 - Google Patents
一种对页面标注标签的方法及装置 Download PDFInfo
- Publication number
- CN104317891B CN104317891B CN201410572809.1A CN201410572809A CN104317891B CN 104317891 B CN104317891 B CN 104317891B CN 201410572809 A CN201410572809 A CN 201410572809A CN 104317891 B CN104317891 B CN 104317891B
- Authority
- CN
- China
- Prior art keywords
- page
- element information
- classification
- storehouse
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对页面标注标签的方法及装置,在该方案中,确定待标注标签的页面的类别与关键词组;从分类标签库中选择与所述页面的类别对应的子标签库,所述分类标签库中的任意一子标签库包括用于表示该子标签库属性的各个元素,及每一个元素分别对应的元素信息;针对所述关键词组中的任意一关键词,查看所述选择出的子标签库所包括的所有元素信息中是否存在与所述任意一关键词相同的元素信息;将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注,不需要依靠人工去操作,因此,降低了人工的消耗,提高了标注标签的效率,及准确性。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种对页面标注标签的方法及装置。
背景技术
随着网络全球化的发展和个人计算机的普及,互联网已经成为获取资讯,进行网络通信的主要途径。互联网中,越来越多的信息以网页的形式呈现,而网页的设计也越来越复杂,多元化,因此,在互联网上寻找目标信息所耗费的时间也较长。
为了更方便的从丰富的网页中找到目标网页,提高搜索效率,可以对网页标注标签,在对网页标注标签之后,即可以对网页进行分类,以及在对网页进行搜索时,可以基于标签进行搜索,以提高搜索效率和准确性。
现有的在对页面标注标签时采用人工标注的方式,例如,网页的后台管理人员,根据网页的内容对网页标注标签,由于该种方式主要依靠人工来操作,因此,需要大量的人力、处理效率较低,且准确性较低。
发明内容
本发明实施例提供一种对页面标注标签的方法及装置,用以解决现有技术中依靠人工来对网页标注标签的方式,存在的人力消耗较大、处理效率较低和准确性较低的缺陷。
第一方面,提供一种对页面标注标签的方法,包括:
确定待标注标签的页面的第一关键词组与类别;
从分类标签库中选择与所述页面的类别对应的子标签库,所述分类标签库中的任意一子标签库包括用于从不同元素表示该子标签库属性的各个元素,及与每一个元素分别分别对应的元素信息;
查看选择出的子标签库所包括的元素信息中是否存在与所述关键词组中的任意一关键词相同的元素信息;
将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注。
结合第一方面,在第一种可能的实现方式中,确定待标注标签的页面的第一关键词组与类别之前,还包括:
采集训练页面,并对训练页面分类得到页面类别;
对每一种页面类别下的各个类训练页面抓取关键词,获得每一种页面类别分别对应的第二关键词组;
确定待标注标签的页面的类别,具体包括:
查找所述第一关键词组所属的第二关键词组所对应的页面类别;
将查找到的页面类别作为所述待标注标签的页面的类别。
结合第一方面,以及第一方面的第一种可能的实现方式,在第二种可能的实现方式中,从分类标签库中选择与所述页面的类别对应的子标签库之前,还包括:
采用网络爬虫方式抓取各种页面类别分别对应的按照预设规则组织页面架构的训练页面;
针对任意一种页面类别对应的训练页面,采集所述任意一种页面类型对应的训练页面包括的各个元素,及所述各个元素分别对应的元素信息;
根据所述各个元素及所述元素信息组成所述页面类别对应的子标签库。
结合第一方面,以及第一方面的第一种至第二种可能的实现方式,在第三种可能的实现方式中,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的概率值,其中,任意一元素对应的元素信息所对应的概率值为,所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值;
将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注,具体包括:
确定与所述关键词组中的任意一关键词相同的至少一个元素信息分别对应的概率值;
将概率值大于预设概率门限值的元素信息作为所述页面的标签进行标注
结合第一方面,以及第一方面的第一种至第二种可能的实现方式,在第四种可能的实现方式中,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的信息熵,其中,任意一元素对应的元素信息所对应的信息熵,与所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值呈负相关;
将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注,具体包括:
确定与所述关键词组中的任意一关键词相同的至少一个元素信息分别对应的信息熵;
将信息熵大于预设信息熵门限值的元素信息作为所述页面的标签进行标注。
结合第一方面的第三种至第四种可能的实现方式,在第五种可能的实现方式中,所述任意一元素信息对应的概率值是采用元素-元素信息的模式匹配方式计算得到的。
第二方面,提供一种对页面标注标签的装置,包括:
确定单元,用于确定待标注标签的页面的第一关键词组与类别;
选择单元,用于从分类标签库中选择与所述页面的类别对应的子标签库,所述分类标签库中的任意一子标签库包括用于从不同元素表示该子标签库属性的各个元素,及与每一个元素分别分别对应的元素信息;
查看单元,用于查看选择出的子标签库所包括的元素信息中是否存在与所述关键词组中的任意一关键词相同的元素信息;
标注单元,用于将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注。
结合第二方面,在第一种可能的实现方式中,还包括获取单元,所述获取单元用于,采集训练页面,并对训练页面分类得到页面类别;对每一种页面类别下的各个类训练页面抓取关键词,获得每一种页面类别分别对应的第二关键词组;
所述确定单元具体用于:
查找所述第一关键词组所属的第二关键词组所对应的页面类别;将查找到的页面类别作为所述待标注标签的页面的类别。
结合第二方面,以及第二方面的第一种可能的实现方式,在第二种可能的实现方式中,还包括生成单元,所述生成单元还用于,采用网络爬虫方式抓取各种页面类别分别对应的按照预设规则组织页面架构的训练页面;
针对任意一种页面类别对应的训练页面,采集所述任意一种页面类型对应的训练页面包括的各个元素,及所述各个元素分别对应的元素信息;
根据所述各个元素及所述元素信息组成所述页面类别对应的子标签库。
结合第二方面,以及第二方面的第一种至第二种可能的实现方式,在第三种可能的实现方式中,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的概率值,其中,任意一元素对应的元素信息所对应的概率值为,所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值;
所述标注单元具体用于:
确定与所述关键词组中的任意一关键词相同的至少一个元素信息分别对应的概率值;将概率值大于预设概率门限值的元素信息作为所述页面的标签进行标注。
结合第二方面,以及第二方面的第一种至第二种可能的实现方式,在第四种可能的实现方式中,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的信息熵,其中,任意一元素对应的元素信息所对应的信息熵,与所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值呈负相关;所述标注单元具体用于,确定与所述关键词组中的任意一关键词相同的至少一个元素信息分别对应的信息熵;
将信息熵大于预设信息熵门限值的元素信息作为所述页面的标签进行标注。
结合第二方面的第三种至第四种可能的实现方式,在第五种可能的实现方式中,所述任意一元素信息对应的概率值是采用元素-元素信息的模式匹配方式计算得到的。
现有技术中,人工对页面进行标签标注,而本发明实施例中,确定待标注标签的页面的第一关键词组与类别,从分类标签库中选择与所述页面的类别对应的子标签库,所述分类标签库中的任意一子标签库包括用于从不同元素表示该子标签库属性的各个元素,及与每一个元素分别分别对应的元素信息;查看选择出的子标签库所包括的元素信息中是否存在与所述关键词组中的任意一关键词相同的元素信息;将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注,不需要依靠人工去操作,因此,降低了人工的消耗,提高了标注标签的效率及准确性。
附图说明
图1为本发明实施例中标注标签的流程图;
图2为本发明实施例中标注标签的实施例;
图3为本发明实施例中标注标签的装置的一种结构示意图;
图4为本发明实施例中标注标签的装置的另一种结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字母“/”,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本发明优选的实施方式进行详细说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面结合附图对本发明优选的实施方式进行详细说明。
实施例一
参阅图1所示,本发明实施例中,一种对页面标注标签的流程如下:
步骤100:确定待标注标签的页面的第一关键词组与类别;
步骤110:从分类标签库中选择与页面的类别对应的子标签库,分类标签库中的任意一子标签库包括用于从不同元素表示该子标签库属性的各个元素,及与每一个元素分别分别对应的元素信息;
步骤120:查看选择出的子标签库所包括的元素信息中是否存在与关键词组中的任意一关键词相同的元素信息;
步骤130:将与任意一关键词相同的元素信息作为页面的标签进行标注。
针对不同类别领域的网页文本,对应的标签库也存在差异,例如,介绍电影的网页的标签库经常包括演员、导演、影片类型等标签;而介绍手机、电子产品的网页的标签库则经常包括生产厂商、规格、型号等标签。因此,不同类别的页面对应的标签库是不一样的。
本发明实施例中,确定待标注标签的页面的类别的方式有三种:词匹配法、基于工程知识的方法和统计学习法,其中:
词匹配法又可以分为简单词匹配法和基于同义词的词匹配法两种,简单词匹配法是最简单、最直观的文档分类算法,它根据文档和类名中共同出现的词决定文档属于哪些类。很显然,这种算法的分类规则过于简单,分类效果也很差。基于同义词的词匹配法是对简单词匹配法的改进,它先定义一张同义词表,然后根据文档和类名以及类的描述中共同出现的词(含同义词)决定文档属于哪些类,这种分类算法扩大了词的匹配范围,在性能上要优于简单词匹配法。不过,这种算法的分类规则仍然很机械,而且同义词表的构成是静态的,对文档的上下文不敏感,无法正确处理文档中其具体含义依赖于上下文的词,分类的准确度也很低。
基于知识工程的方法,需要人工编制大量的推理规则,这些规则通常面向具体的领域,当处理不同领域的分类问题时,需要不同领域的专家制定不同的推理规则,而分类质量严重依赖于推理规则的质量。因此在实际的分类系统中较少使用。
统计学习法的基本思路是先搜集一些与待分类文档同处一个领域的文档作为训练集,并由专家进行人工分类,保证分类的准确性,然后分析这些已经分好类的文档,从中挖掘关键词和类之间的联系,最后再利用这些学到的知识对文档分类,而不是机械地按词进行匹配。
如,页面是关于电影、音乐、新闻、旅游等页面。
本发明实施例中,确定待标注标签的页面的第一关键词组与类别之前,还包括如下操作:
采集训练页面,并对训练页面分类得到页面类别;
对每一种页面类别下的各个类训练页面抓取关键词,获得每一种页面类别分别对应的第二关键词组;
可选的,确定待标注标签的页面的类别时,具体为:
查找所述第一关键词组所属的第二关键词组所对应的页面类别;
将查找到的页面类别作为所述待标注标签的页面的类别。
本发明实施例中,从分类标签库中选择与所述页面的类别对应的子标签库之前,还包括如下操作:
采用网络爬虫方式抓取各种页面类别分别对应的按照预设规则组织页面架构的训练页面;
针对任意一种页面类别对应的训练页面,采集所述任意一种页面类型对应的训练页面包括的各个元素,及所述各个元素分别对应的元素信息;
根据所述各个元素及所述元素信息组成所述页面类别对应的子标签库
本发明实施例中,网络爬虫(又称网页蜘蛛、Robot)技术是一种按照一定的规则,自动抓取页面的程序或者脚本的技术。
网络爬虫技术的抓取策略可以分为深度优先、广度优先和最佳优先三种,其中:
广度优先策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索,该策略的设计和实现相对简单。
深度优先搜索策略是指从起始网页开始,选择一个URL进入,分析这个网页中的URL,选择一个再进入。如此一个链接一个链接地抓取下去,直到处理完一条路线之后再处理下一条路线。
最佳优先搜索策略是按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。
网络爬虫技术是搜索引擎的重要构成,同时也是构建语料库和知识库的重要工具之一。
例如,电影的元素包括导演元素、编剧元素、主演元素、类型元素、国别元素、语言元素等。
元素信息是指该元素下的取值。例如,《围城》属于图书类别,《围城》包括“作者”元素、“版本”元素,其中,“作者”元素对应的元素信息为“钱XX”。
互联网上有许多比较规整的页面,例如:豆瓣电影、新浪新闻、QQ音乐等,这类网页的按统一的结构组织内容,先用网络爬虫抓取各个分类下典型的网站,并按预定义的模板提取其中的结构化信息,生成分类标签库。
例如:豆瓣电影页面会按一定的结构组织内容,《让子弹飞》是按下面顺序来组织电影信息的:
让子弹飞(2010)
导演:姜X
编剧:朱苏进/述平/姜文/郭俊立/危笑/李不空/马识途
主演:姜X/葛X/周XX/刘XX/陈X类型:剧情/喜剧/动作/西部
制片国家/地区:中国大陆/香港
语言:汉语普通话/四川话/山西话
上映日期:2010-12-16(中国大陆)
片长:132分钟
又名:让子弹飞一会儿/火烧云/Let The Bullets Fly
官方小站:让子弹飞
从上面可以看出,电影的元素包括导演元素、编剧元素、主演元素、类型元素、制片国家/地区元素、语言元素、上映日期元素、片长元素等。其中,姜文为导演元素对应的元素信息,朱XX、苏X、姜X、郭XX、危X、李XX、马XX均为编剧元素下的元素信息。
本发明实施例中,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的概率值,其中,任意一元素对应的元素信息所对应的概率值为,所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值;
如,共有1000部电影,“主演”元素下对应的元素信息为“葛优”的电影有20部,那么元素信息为“葛优”的概率值就是2%。
此时,将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注的方式有多种,可选的,可以采用如下方式:
确定与所述关键词组中的任意一关键词相同的至少一个元素信息分别对应的概率值;
将概率值大于预设概率门限值的元素信息作为所述页面的标签进行标注。
本发明实施例中,任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的信息熵,其中,任意一元素对应的元素信息所对应的信息熵,与所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值呈负相关。
信息是个很抽象的概念,信息量多少很难直观度量,1948年,香农提出了信息熵的概念,才解决了对信息的量化度量问题。他借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,信息熵越大,对事物的不确定性越大,也即对事物所知越少;反之,信息熵越小,对事物的不确定性越小,对事物所知越多。降低信息熵的过程,也是对事物了解深入的过程。
例如,8支队伍采用单淘汰赛方式争夺冠军,经过3轮比赛产生冠军队伍,如果不知道任何信息,假设每支队伍夺冠概率都是相等的1/8,信息熵为:
H(x)=-∑1/8*log(2,1/8))=3
如果已知一支队伍实力较强,夺冠概率是0.3,剩下7支队伍夺冠概率则变为0.1,信息熵为:H(x)=-0.3*log(2,0.3)-7*0.1*log(2,0.1))=2.3253。
本发明实施例中,将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注时,也可以采用如下方式:
确定与所述关键词组中的任意一关键词相同的至少一个元素信息分别对应的信息熵;
将信息熵大于预设信息熵门限值的元素信息作为所述页面的标签进行标注。
本发明实施例中,任意一元素信息的信息熵是根据任意一元素信息对应的概率值计算得到的。
例如:以“电影”为例,下面有“导演”元素、“主演”元素、“国别”元素三个元素,每一个元素下有对应的元素信息:
导演:希区XX、卡XX、斯皮尔XX、李X、张XX、姜X……
主演:白XX、赫X、陈XX、巩X……
国别:英国、美国、印度、中国、日本……
假设找到100万个“电影”类别的网页,在这100万个网页里去找包括“主演:陈XX”的页面,找到完整包含上述内容的网页为2000个,那么主演元素下对应的元素信息为陈XX的取值概率为2000/1000000,同理,可以得到如下概率值:
主演白XX:0.0001、主演陈XX:0.0036、主演巩XX:0.0041、主演赫X:0.0020、然后,根据计算得到概率值用信息熵公式算出每个元素信息的信息熵:
H(主演白兰度)=0.0001、H(主演陈道明)=5.1700、H(主演巩俐)=5.3755、H(主演赫本)=4.3219。
本发明实施例中,为了提高计算得到出的概率值的准确度,任意一元素信息对应的概率值是采用元素-元素信息的模式匹配方式计算得到的。
如,要查看“主演:姜X”对应的概率值时,查看页面中是否包括“主演:姜X”这个完整的内容,如果包括时,才能说明这个页面中包括姜X作为主演下面的元素信息,如果页面中出现了姜X,但是,是出现“导演:姜X”这种模式的话,说明这个页面中不包括姜X作为导演下面的元素信息。
元素-元素信息的匹配方式如下:
本发明实施例中,可选的,任意一元素信息对应的概率值是采用元素-元素信息的模式匹配方式计算得到的。
为了更好地理解本发明实施例,以下给出具体应用场景,针对给页面标注标签的过程,作出进一步详细描述,如图2所示:
实施例二
步骤200:采用网络爬虫技术生成分类标签库;
该步骤中,分类标签库中包括与电影对应的第一子标签库,与音乐对应的第二子标签库,与新闻对应的第三子标签库,与旅游对应的第四子标签库,每一个子标签库中包括各个元素,及每一个元素下面包括的元素信息,及每一个元素信息对应的信息熵;
步骤210:确定待标注标签的页面的类别及对应的第一关键词组;
该步骤中,确定出的对应的类别为电影,对应的第一关键词组中包括5个关键词:香港、中文、陈XX、姜X、喜剧;
步骤220:从针对5个关键词中的每一个关键词,查看与电影对应的子标签库中是否存在与关键词相同的元素信息;
步骤230:确定与关键词相同的元素信息对应的信息熵中大于预设信息熵门限值的信息熵;
步骤240:将对应的信息熵大于预设信息熵门限值的元素信息作为页面的标签进行标注。
基于上述相应方法的技术方案,参阅图3所示,本发明实施例提供一种对页面标注标签的装置的一种结构示意图,该装置包括确定单元30、选择单元31、查看单元32,及标注单元33,其中:
确定单元30,用于确定待标注标签的页面的第一关键词组与类别;
选择单元31,用于从分类标签库中选择与所述页面的类别对应的子标签库,所述分类标签库中的任意一子标签库包括用于从不同元素表示该子标签库属性的各个元素,及与每一个元素分别分别对应的元素信息;
查看单元32,用于查看选择出的子标签库所包括的元素信息中是否存在与所述关键词组中的任意一关键词相同的元素信息;
标注单元33,用于将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注。
本发明实施例中,进一步的,还包括获取单元,所述获取单元用于,采集训练页面,并对训练页面分类得到页面类别;对每一种页面类别下的各个类训练页面抓取关键词,获得每一种页面类别分别对应的第二关键词组;
所述确定单元30具体用于:
查找所述第一关键词组所属的第二关键词组所对应的页面类别;将查找到的页面类别作为所述待标注标签的页面的类别。
本发明实施例中,进一步的,还包括生成单元,所述生成单元还用于,采用网络爬虫方式抓取各种页面类别分别对应的按照预设规则组织页面架构的训练页面;
针对任意一种页面类别对应的训练页面,采集所述任意一种页面类型对应的训练页面包括的各个元素,及所述各个元素分别对应的元素信息;
根据所述各个元素及所述元素信息组成所述页面类别对应的子标签库。
本发明实施例中,可选的,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的概率值,其中,任意一元素对应的元素信息所对应的概率值为,所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值;
所述标注单元33具体用于:
确定与所述关键词组中的任意一关键词相同的至少一个元素信息分别对应的概率值;将概率值大于预设概率门限值的元素信息作为所述页面的标签进行标注。
本发明实施例中,进一步的,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的信息熵,其中,任意一元素对应的元素信息所对应的信息熵,与所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值呈负相关;所述标注单元33具体用于,确定与所述关键词组中的任意一关键词相同的至少一个元素信息分别对应的信息熵;
将信息熵大于预设信息熵门限值的元素信息作为所述页面的标签进行标注。
本发明实施例中,可选的,所述任意一元素信息对应的概率值是采用元素-元素信息信息的模式匹配方式计算得到的。
如图4所示,为本发明实施例提供的对页面标注标签的装置的另一种结构示意图,该装置包括收发器400、通信总线410、存储器420及处理器430,其中:
通信总线410,用于处理器430、收发器400及存储器420之间的连接通信;
存储器420,用于存储程序代码;
处理器430,用于调用存储器420中存储的程序代码,并执行如下操作:
确定待标注标签的页面的第一关键词组与类别;
从分类标签库中选择与所述页面的类别对应的子标签库,所述分类标签库中的任意一子标签库包括用于从不同元素表示该子标签库属性的各个元素,及与每一个元素分别分别对应的元素信息;
查看选择出的子标签库所包括的元素信息中是否存在与所述关键词组中的任意一关键词相同的元素信息;
将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注。
综上所述,本发明实施例中,提供一种对页面标注标签的方法,在该方案中,确定待标注标签的页面的第一关键词组与类别,从分类标签库中选择与所述页面的类别对应的子标签库,所述分类标签库中的任意一子标签库包括用于从不同元素表示该子标签库属性的各个元素,及与每一个元素分别分别对应的元素信息;查看选择出的子标签库所包括的元素信息中是否存在与所述关键词组中的任意一关键词相同的元素信息;将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注,不需要依靠人工去操作,因此,降低了人工的消耗,提高了标注标签的效率及准确性。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种对页面标注标签的方法,其特征在于,包括:
确定待标注标签的页面的第一关键词组与类别;
从分类标签库中选择与所述页面的类别对应的子标签库,所述分类标签库中的任意一子标签库包括用于从不同元素表示该子标签库属性的各个元素,及与每一个元素分别对应的元素信息;
查看选择出的子标签库所包括的元素信息中是否存在与所述第一关键词组中的任意一关键词相同的元素信息;
将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注。
2.如权利要求1所述的方法,其特征在于,确定待标注标签的页面的第一关键词组与类别之前,还包括:
采集训练页面,并对训练页面分类得到页面类别;
对每一种页面类别下的各个类训练页面抓取关键词,获得每一种页面类别分别对应的第二关键词组;
确定待标注标签的页面的类别,具体包括:
查找所述第一关键词组所属的第二关键词组所对应的页面类别;
将查找到的页面类别作为所述待标注标签的页面的类别。
3.如权利要求1或2所述的方法,其特征在于,从分类标签库中选择与所述页面的类别对应的子标签库之前,还包括:
采用网络爬虫方式抓取各种页面类别分别对应的按照预设规则组织页面架构的训练页面;
针对任意一种页面类别对应的训练页面,采集所述任意一种页面类别对应的训练页面包括的各个元素,及所述各个元素分别对应的元素信息;
根据所述各个元素及所述元素信息组成所述页面类别对应的子标签库。
4.如权利要求1-3任一项所述的方法,其特征在于,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的概率值,其中,任意一元素对应的元素信息所对应的概率值为,所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值;
将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注,具体包括:
确定与所述第一关键词组中的任意一关键词相同的至少一个元素信息分别对应的概率值;
将概率值大于预设概率门限值的元素信息作为所述页面的标签进行标注。
5.如权利要求1-3任一项所述的方法,其特征在于,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的信息熵,其中,任意一元素对应的元素信息所对应的信息熵,与所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值呈负相关;
将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注,具体包括:
确定与所述第一关键词组中的任意一关键词相同的至少一个元素信息分别对应的信息熵;
将信息熵小于预设信息熵门限值的元素信息作为所述页面的标签进行标注。
6.如权利要求4或5所述的方法,其特征在于,所述任意一元素信息对应的概率值是采用元素-元素信息的模式匹配方式计算得到的。
7.一种对页面标注标签的装置,其特征在于,包括:
确定单元,用于确定待标注标签的页面的第一关键词组与类别;
选择单元,用于从分类标签库中选择与所述页面的类别对应的子标签库,所述分类标签库中的任意一子标签库包括用于从不同元素表示该子标签库属性的各个元素,及与每一个元素分别对应的元素信息;
查看单元,用于查看选择出的子标签库所包括的元素信息中是否存在与所述第一关键词组中的任意一关键词相同的元素信息;
标注单元,用于将与所述任意一关键词相同的元素信息作为所述页面的标签进行标注。
8.如权利要求7所述的装置,其特征在于,还包括获取单元,所述获取单元用于,采集训练页面,并对训练页面分类得到页面类别;对每一种页面类别下的各个类训练页面抓取关键词,获得每一种页面类别分别对应的第二关键词组;
所述确定单元具体用于:查找所述第一关键词组所属的第二关键词组所对应的页面类别;将查找到的页面类别作为所述待标注标签的页面的类别。
9.如权利要求7或8所述的装置,其特征在于,还包括生成单元,所述生成单元还用于,采用网络爬虫方式抓取各种页面类别分别对应的按照预设规则组织页面架构的训练页面;
针对任意一种页面类别对应的训练页面,采集所述任意一种页面类别对应的训练页面包括的各个元素,及所述各个元素分别对应的元素信息;
根据所述各个元素及所述元素信息组成所述页面类别对应的子标签库。
10.如权利要求7-9任一项所述的装置,其特征在于,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的概率值,其中,任意一元素对应的元素信息所对应的概率值为,所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值;
所述标注单元具体用于:
确定与所述第一关键词组中的任意一关键词相同的至少一个元素信息分别对应的概率值;将概率值大于预设概率门限值的元素信息作为所述页面的标签进行标注。
11.如权利要求7-10任一项所述的装置,其特征在于,所述任意一子标签库还包括所述每一个元素分别对应的元素信息所对应的信息熵,其中,任意一元素对应的元素信息所对应的信息熵,与所述元素信息出现在所述元素下的所有训练页面与采用网络爬虫方式抓取到的所有训练页面的比值呈负相关;所述标注单元具体用于,确定与所述第一关键词组中的任意一关键词相同的至少一个元素信息分别对应的信息熵;
将信息熵小于预设信息熵门限值的元素信息作为所述页面的标签进行标注。
12.如权利要求10或11所述的装置,其特征在于,所述任意一元素信息对应的概率值是采用元素-元素信息的模式匹配方式计算得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410572809.1A CN104317891B (zh) | 2014-10-23 | 2014-10-23 | 一种对页面标注标签的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410572809.1A CN104317891B (zh) | 2014-10-23 | 2014-10-23 | 一种对页面标注标签的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104317891A CN104317891A (zh) | 2015-01-28 |
CN104317891B true CN104317891B (zh) | 2017-11-28 |
Family
ID=52373123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410572809.1A Active CN104317891B (zh) | 2014-10-23 | 2014-10-23 | 一种对页面标注标签的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104317891B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919625B (zh) * | 2015-12-28 | 2021-04-09 | 中国移动通信集团公司 | 一种互联网用户属性识别方法和装置 |
CN106294563B (zh) * | 2016-07-27 | 2019-09-17 | 海信集团有限公司 | 一种多媒体数据的处理方法和装置 |
CN108280081B (zh) * | 2017-01-06 | 2023-02-24 | 百度在线网络技术(北京)有限公司 | 生成网页的方法和装置 |
CN106897424A (zh) * | 2017-02-24 | 2017-06-27 | 北京时间股份有限公司 | 信息标注系统及方法 |
CN106919711B (zh) * | 2017-03-13 | 2020-10-02 | 北京百度网讯科技有限公司 | 基于人工智能的标注信息的方法和装置 |
CN112925903B (zh) * | 2019-12-06 | 2024-03-29 | 农业农村部信息中心 | 文本分类的方法、装置、电子设备及介质 |
CN112507664A (zh) * | 2020-12-29 | 2021-03-16 | 医渡云(北京)技术有限公司 | 网页元素标注方法与装置 |
CN116561652B (zh) * | 2023-04-04 | 2024-04-26 | 陆泽科技有限公司 | 一种标签标注方法及装置、电子设备、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739415A (zh) * | 2008-11-25 | 2010-06-16 | 华中师范大学 | 一种面向浏览器的网页标注系统 |
KR20100091367A (ko) * | 2009-02-10 | 2010-08-19 | 경북대학교 산학협력단 | 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템 |
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
CN103559234A (zh) * | 2013-10-24 | 2014-02-05 | 北京邮电大学 | RESTful Web服务的自动化语义标注系统和方法 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的系统 |
CN103823824A (zh) * | 2013-11-12 | 2014-05-28 | 哈尔滨工业大学深圳研究生院 | 一种借助互联网自动构建文本分类语料库的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8381095B1 (en) * | 2011-11-07 | 2013-02-19 | International Business Machines Corporation | Automated document revision markup and change control |
-
2014
- 2014-10-23 CN CN201410572809.1A patent/CN104317891B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739415A (zh) * | 2008-11-25 | 2010-06-16 | 华中师范大学 | 一种面向浏览器的网页标注系统 |
KR20100091367A (ko) * | 2009-02-10 | 2010-08-19 | 경북대학교 산학협력단 | 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템 |
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
CN103559234A (zh) * | 2013-10-24 | 2014-02-05 | 北京邮电大学 | RESTful Web服务的自动化语义标注系统和方法 |
CN103823824A (zh) * | 2013-11-12 | 2014-05-28 | 哈尔滨工业大学深圳研究生院 | 一种借助互联网自动构建文本分类语料库的方法及系统 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的系统 |
Non-Patent Citations (1)
Title |
---|
"基于VSM的中文网页分类特征选择技术研究与实现";周帆;《中国优秀硕士学位论文全文数据库信息科技辑》;20121015(第10期);正文第2.2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN104317891A (zh) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104317891B (zh) | 一种对页面标注标签的方法及装置 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN110334213B (zh) | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 | |
CN103218444B (zh) | 基于语义的藏文网页文本分类方法 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
CN104679825B (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN109005145A (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN106649597A (zh) | 一种基于图书内容的图书书后索引自动构建方法 | |
CN107341183A (zh) | 一种基于暗网网站综合特征的网站分类方法 | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
CN107122450A (zh) | 一种网络图片舆情监测方法 | |
CN113051500B (zh) | 一种融合多源数据的钓鱼网站识别方法及系统 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
Rajalakshmi et al. | Web page classification using n-gram based URL features | |
CN105224520B (zh) | 一种中文专利文献术语自动识别方法 | |
CN110287292B (zh) | 一种裁判量刑偏离度预测方法及装置 | |
CN107294834A (zh) | 一种识别垃圾邮件的方法和装置 | |
CN105653562A (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
CN103268330A (zh) | 基于图片内容的用户兴趣提取方法 | |
CN109614626A (zh) | 基于万有引力模型的关键词自动抽取方法 | |
CN104361059A (zh) | 一种基于多示例学习的有害信息识别和网页分类方法 | |
CN109446393B (zh) | 一种网络社区话题分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200203 Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd. Address before: 210012 HUAWEI Nanjing base, 101 software Avenue, Yuhuatai District, Jiangsu, Nanjing Patentee before: Huawei Technologies Co.,Ltd. |
|
TR01 | Transfer of patent right |