CN107038183A - 网页标注方法及装置 - Google Patents

网页标注方法及装置 Download PDF

Info

Publication number
CN107038183A
CN107038183A CN201610881307.6A CN201610881307A CN107038183A CN 107038183 A CN107038183 A CN 107038183A CN 201610881307 A CN201610881307 A CN 201610881307A CN 107038183 A CN107038183 A CN 107038183A
Authority
CN
China
Prior art keywords
label
demand
feature
query statement
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610881307.6A
Other languages
English (en)
Other versions
CN107038183B (zh
Inventor
陈亮宇
肖欣延
吕雅娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610881307.6A priority Critical patent/CN107038183B/zh
Publication of CN107038183A publication Critical patent/CN107038183A/zh
Application granted granted Critical
Publication of CN107038183B publication Critical patent/CN107038183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种网页标注方法及装置,其中,方法包括:建立需求标签列表;根据所述需求标签列表挖掘训练数据;根据所述训练数据训练生成分类器,所述分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器;基于所述分类器为待标注网页标注对应的标签。通过本发明能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。

Description

网页标注方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页标注方法及装置。
背景技术
不同的网页往往呈现的内容不同,能够满足的用户需求也不同。当用户通过互联网查询所需信息时,输入关键词后搜索到的多个网页中,虽然各网页都包含所输入的关键词,但各网页能提供的服务并不同。比如,当用户想要在线观看电视剧“甄嬛传”时,输入“甄嬛传”进行搜索,获得的搜索结果中罗列的各网页提供的服务可能有“甄嬛传”的下载、“甄嬛传”的在线观看、剧情介绍、演员表信息等等。由于网页提供的服务多种多样,用户可能无法直接找到满足自身需求的网页,即提供直接在线观看服务的网页,而需要不断地点击打开搜索结果中的网页地址依次进行确认。
目前,相关技术中,可通过人工设计标签体系和人工标注训练语料,再利用机器学习技术对网页进行标注。当用户进行查询时,可通过网页对应的标签快速确定满足自身需求的网页。但是,人工标注的方法耗时耗力,召回率低,且人工设计标签体系涵盖范围小,无法满足用户的真实需求。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种网页标注方法,该方法能够挖掘大量的高质量训练数据,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能真实反应用户需求。
本发明的第二个目的在于提出一种网页标注装置。
本发明的第三个目的在于提出一种终端。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为了实现上述目的,本发明第一方面实施例提出了一种网页标注方法,包括:建立需求标签列表;根据需求标签列表挖掘训练数据;根据训练数据训练生成分类器,分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器;基于分类器为待标注网页标注对应的标签。
本发明第一方面实施例提出的网页标注方法,通过根据建立的需求标签列表挖掘训练数据,并根据训练数据训练生成分类器,基于分类器为待标注网页标注对应的标签,能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
为了实现上述目的,本发明第二方面实施例提出了一种网页标注装置,包括:建立模块,用于建立需求标签列表;挖掘模块,用于根据需求标签列表挖掘训练数据;生成模块,用于根据训练数据训练生成分类器,分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器;标注模块,用于基于分类器为待标注网页标注对应的标签。
本发明第二方面实施例提出的网页标注装置,通过根据建立的需求标签列表挖掘训练数据,并根据训练数据训练生成分类器,基于分类器为待标注网页标注对应的标签,能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
为了实现上述目的,本发明第三方面实施例提出了一种终端,包括:处理器;用于存储处理器可执行指令的存储器。其中,处理器被配置为执行以下步骤:
建立需求标签列表;
根据需求标签列表挖掘训练数据;
根据训练数据训练生成分类器,分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器;
基于分类器为待标注网页标注对应的标签。
本发明第三方面实施例提出的终端,通过根据建立的需求标签列表挖掘训练数据,并根据训练数据训练生成分类器,基于分类器为待标注网页标注对应的标签,能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,用于存储一个或多个程序,当存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种网页标注方法,方法包括;
建立需求标签列表;
根据需求标签列表挖掘训练数据;
根据训练数据训练生成分类器,分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器;
基于分类器为待标注网页标注对应的标签。
本发明第四方面实施例提出的非临时性计算机可读存储介质,通过根据建立的需求标签列表挖掘训练数据,并根据训练数据训练生成分类器,基于分类器为待标注网页标注对应的标签,能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当计算机程序产品中的指令被处理器执行时,执行一种网页标注方法,方法包括:
建立需求标签列表;
根据需求标签列表挖掘训练数据;
根据训练数据训练生成分类器,分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器;
基于分类器为待标注网页标注对应的标签。
本发明第五方面实施例提出的计算机程序产品,通过根据建立的需求标签列表挖掘训练数据,并根据训练数据训练生成分类器,基于分类器为待标注网页标注对应的标签,能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的网页标注方法的流程示意图;
图2是建立需求标签列表的流程示意图;
图3是根据需求标签列表挖掘训练数据的流程示意图;
图4是关键词自动扩展的过程示意图;
图5是根据训练数据训练生成分类器的流程示意图;
图6是对特征进行过滤的流程示意图;
图7是本发明一实施例提出的网页标注装置的结构示意图;
图8是本发明另一实施例提出的网页标注装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的网页标注方法的流程示意图。
如图1所示,本实施例的网页标注方法包括:
S11:建立需求标签列表。
本实施例中,可以根据查询日志中记载的用户查询信息自动建立需求标签列表,以取代现有的网页标注技术中通过人工方式来设计标签体系的旧方法。
应当理解的是,传统的网页标注方法中,所标注的标签是通过人工设计的方式获得的。采用人工的方式获取标签,不仅耗时耗力,而且获取难度大,获取的标签数量有限,涵盖范围小,不能全面地反应出用户的真实需求。
因此,为了解决上述问题,本发明实施例提出的网页标注方法,通过自动建立需求标签列表来初步获取网页标签。
具体地,如图2所示,建立需求标签列表,可以包括以下步骤:
S21:获取查询日志,并从查询日志中筛选出符合预设模式的查询语句。
本实施例中,首先从服务器中获取查询日志,再对查询日志中记录的用户查询信息进行分析,进而从查询日志中筛选出符合预设模式的查询语句。其中,预设模式为命名实体词与需求词的组合。
具体地,从查询日志中筛选出符合预设模式的查询语句包括:利用命名实体识别(Named Entity Recognition,NER)工具对查询日志中的查询语句进行分析,获取符合预设模式的查询语句,即获取符合命名实体词与需求词的组合模式的查询语句。而对于不符合预设模式的查询语句,也就是利用NER工具无法从中获得命名实体词或需求词的查询语句,将其剔除。
需要说明的是,命名实体词可以是人名、地名、机构名和/或专有名词等的一种或几种,对此不作限制。
另外,根据网页提供的服务不同,对应的查询语句的命名实体词和需求词也不同。举例说明如下:
示例一:网页提供的是电视剧“甄嬛传”的下载服务。当用户点击该网页时,会在查询日志中生成一条对应的查询语句。若利用NER工具对该查询语句进行分析,得到的命名实体词为“甄嬛传”,得到的需求词为“下载”,则命名实体词与需求词的组合模式为“甄嬛传+下载”。
示例二:网页提供的是上海迪士尼乐园的门票价格信息。当用户点击该网页时,会在查询日志中生成一条对应的查询语句。若利用NER工具对该查询语句进行分析,得到的命名实体词为“上海”和“迪士尼乐园”,得到的需求词为“门票价格”,则命名实体词与需求词的组合模式为“上海+迪士尼乐园+门票价格”。
S22:获取查询语句对应的页面浏览量。
本实施例中,在获得符合命名实体词和需求词的组合模式的查询语句后,进一步获取该部分查询语句对应的页面浏览量。
应当理解的是,页面浏览量即为用户对该网页进行访问的总量。
S23:根据页面浏览量对查询语句进行排序,并生成需求标签列表。
本实施例中,在获得符合命名实体词和需求词的组合模式的查询语句所对应的页面浏览量之后,根据页面浏览量对查询语句进行排序,并生成需求标签列表。
具体地,在获得符合命名实体词和需求词的组合模式的查询语句所对应的页面浏览量之后,按照页面浏览量从大到小的顺序将对应的查询语句进行排序,并提取该部分查询语句对应的需求词,以生成初步需求标签列表。进一步地,对生成的初步需求标签列表中的初步需求标签进行人工校对和归一化处理,并生成归一化后的需求标签列表。
其中,归一化处理包括上位归一化和同义词归一化;归一化后的需求标签列表保存有归一化后的需求标签以及初步需求标签与归一化后的需求标签的映射关系。
需要说明的是,上位归一化指的是将细粒度的需求标签归一化至粗粒度的需求标签。比如,将需求标签为“手机报价”的细粒度标签归一化为“报价”的粗粒度标签,从而使各需求标签粒度统一,扩大需求标签的涵盖范围,得到更多的搜索结果。同义词归一化,顾名思义,指的是将需求标签归一化为表达意思相近的另一种需求标签。比如,将需求标签为“解决办法”的标签归一化为“解决方法”的标签,从而实现需求标签的统一,避免出现类似的需求标签。
能够理解的是,采用人工校对的方式对初步需求标签进行处理能够确保需求标签的合理性和科学性;对初步需求标签进行归一化处理能保证需求标签粒度之间的统一,以及扩大需求标签的涵盖范围。
本实施例中,通过从获取的查询日志中筛选出符合预设模式的查询语句,并获取查询语句对应的页面浏览量,进而根据页面浏览量对查询语句进行排序,并生成需求标签列表,能够在少量人工参与的条件下获取用户的需求标签,由于需求标签是通过查询日志获得的,因而获得的需求标签能够全面地反应用户的真实需求。
S12:根据需求标签列表挖掘训练数据。
本实施例中,在建立需求标签列表之后,即可以在无需人工标注的条件下根据需求标签列表进行训练数据的挖掘。
具体地,如图3所示,根据需求标签列表挖掘训练数据,可以包括以下步骤:
S31:根据需求标签列表对查询日志中的查询语句进行标注。
本实施例中,在通过上述步骤S11建立归一化后的需求标签列表之后,即可根据归一化后的需求标签列表中保存的归一化后的需求标签以及初步需求标签与归一化后的需求标签的映射关系对查询日志中的查询语句进行标签标注。
具体地,在建立归一化后的需求标签列表之后,即可根据该归一化后的需求标签列表对查询日志中的每条查询语句进行预设规则匹配,若匹配成功,则对符合预设规则的查询语句进行标签标注。其中,预设规则为查询语句包含有对应的关键词。也就是说,对查询日志中的每条查询语句进行关键词匹配,即在查询语句中查找关键词,若该查询语句中包含某个关键词,则将该关键词标注在该查询语句上;若查询语句没有匹配到任何关键词,则认为匹配失败,不对该查询语句进行标注。
需要说明的是,对查询日志中的每条查询语句进行关键词匹配时,关键词匹配的方式可以有多种,举例说明如下:
示例一:句尾为关键词的匹配方式。在这种关键词匹配方式下,认为查询日志中的每条查询语句的关键词均在查询语句的句尾。此时,获取查询语句的句尾关键词,并将各个关键词同该句尾关键词进行比较,若某个关键词和该句尾关键词对比一致,则匹配成功,将该关键词标注在该查询语句上。比如,用于匹配的关键词有“在线观看”、“下载”、“剧情介绍”和“演员表”;查询日志中的其中一条查询语句为“《后宫甄嬛传》全集完整版下载”,根据句尾为关键词的匹配方式,可以确定该查询语句的句尾关键词为“下载”。为了对该查询语句进行正确的标签标注,将上述关键词同该查询语句的句尾关键词进行一一对比,可知关键词“下载”同该句尾关键词对比一致,则将关键词“下载”标注在该查询语句上。
示例二:任意位置为关键词的匹配方式。这种匹配方式下,对查询语句的关键词所处的位置不作限制,而是利用相关技术(比如,分词技术)将查询语句进行分词,进而将分词后的各词组/字同各关键词逐一对比,将对比一致的关键词标注在对应的查询语句上。比如,用于匹配的关键词有“上海”、“迪士尼”、“宾馆”、“策略”和“门票”;查询日志中的其中一条查询语句为“上海迪士尼乐园门票多少钱?”,根据该匹配方式,首先对该查询语句进行分词,分词结果为“上海”、“迪士尼”、“乐园”、“门票”、“多少”、“钱”和“?”。为了对该查询语句进行正确的标签标注,将分词后得到的各词组/字逐一与各关键词对比,可知对比一致的关键词有“上海”、“迪士尼”和“门票”,则将关键词“上海”、“迪士尼”和“门票”标注在该查询语句上。
另外,对于特定领域,比如商品领域,也可以用商品实体词与关键词组合的方式进行关键词匹配。对于关键词匹配方式,此处不作限制。
需要说明的是,上述关键词不仅包括初步需求标签和归一化后的需求标签,还包括通过扩展生成的扩展关键词。
具体地,通过扩展生成扩展关键词的方法可以参见图4,图4是关键词自动扩展的过程示意图。
如图4所示,首先人工给定一些原始关键词,并建立原始关键词表41。再根据原始关键词表41中的原始关键词对查询日志42中的每条查询语句进行样本标注,并建立正负样本集43。其中,样本标注过程为:将原始关键词表41中的各个原始关键词同查询日志42中的查询语句进行逐词比较,若查询语句中包含原始关键词,则将查询语句标注为正样本;否则,标注为负样本。接着,计算各个原始关键词与被标注为正样本的查询语句的皮尔森相关系数44,并按照皮尔森相关系数从大到小的顺序对原始关键词进行排序,获取前N个原始关键词45,其中,N为正整数。进一步地,将前N个原始关键词45作为新的关键词重复上述步骤,如此进行1-2轮迭代之后,通过简单的人工校对方式即可获得新关键词表46。
需要说明的是,上述如图4所示的关键词自动扩展方法仅用于解释说明本发明实施例,而不能作为对本发明的限制,也可以采用其他方法扩展关键词,对此不作限制。
S32:根据标注后的查询语句获取符合预设条件的链接信息,并对链接信息进行标注,其中,链接信息通过标注后的查询语句查询得到。
本实施例中,在通过上述步骤S31对查询语句进行标签标注之后,即可根据标注后的查询语句获取符合预设条件的链接信息,并对链接信息进行标注。
其中,链接信息可以通过标注后的查询语句查询得到。
需要说明的是,预设条件为查询日志中的查询语句被标注的标签个数达到第一阈值,且查询语句对应的链接信息被点击的次数达到第二阈值。其中,第一阈值和第二阈值可以根据需求自行设定。
具体地,在对查询语句进行标签标注之后,判断查询语句被标注的标签个数是否达到第一阈值,若标签个数达到第一阈值,则进一步判断该查询语句对应的链接信息被点击的次数是否达到第二阈值,若被点击次数达到第二阈值,则将该查询语句的标签标注在对应的链接信息上;否则,不对链接信息进行任何标注。
需要说明的是,对于通过先验知识便能获得网页提供的服务的网站,比如,众所周知,“作业帮”提供的大多是经验分享,因此,可以直接对“作业帮”中有关经验分享的链接信息标注“经验”标签。其中,先验知识即为先于经验的知识,指可以直接通过推理便能获得的知识。另外,还可以采用相关技术中的链接信息模板来直接对链接信息进行标签标注。
本实施例中,可以采用多种方法对链接信息进行标注,以获得更多样的链接信息,对链接信息标注方法不作限制。
S33:根据标注后的链接信息获取标注后的链接信息对应的资源数据,并将资源数据作为训练数据,资源数据包括标题和/或摘要。
本实施例中,在完成链接信息的标注之后,便得到多个链接信息与标签的组合对。进而根据得到的链接信息与标签的组合对,从资源数据库中获取链接信息对应的资源数据,并将获取的资源数据作为训练数据。
其中,资源数据包括链接信息对应的标题和/或摘要信息。
本实施例中,通过根据已建立的需求标签列表对查询日志中的查询语句进行标签标注,进而对符合预设条件的链接信息进行标注,并获取标注后的链接信息对应的资源数据作为训练数据,能够在无需人工标注的条件下获取大量的训练数据,省时省力。
S13:根据训练数据训练生成分类器,分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器。
本实施例中,在获得大量的训练数据之后,即可利用获得的训练数据通过训练生成各类分类器。
其中,分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器。
具体地,如图5所示,根据训练数据训练生成分类器,可以包括以下步骤:
S51:从训练数据中提取特征,特征包括标题N-Gram特征、摘要N-Gram特征、URL特征和命名实体特征中的一个或多个。
本实施例中,在获得训练数据后,即可从训练数据中提取特征。其中,特征包括:标题N-Gram特征、摘要N-Gram特征、URL(Uniform Resource Locator,统一资源定位符)特征和命名实体特征中的一个或多个。
应当理解的是,N-Gram是大词汇连续语音识别中常用的一种语言模型,属于已有技术,本发明不再对其进行详细说明。
需要说明的是,上述URL特征又可分为域名特征和URL词特征。比如,对于地址为https://movie.douban.com/subject/26265170的URL,其对应的域名特征为movie.douban.com和movie.douban.com/subject,词特征为movie,douban和subject。
S52:对特征进行过滤。
本实施例中,在确定了训练数据的特征之后,需要对提取的特征进行过滤。
具体地,如图6所示,对特征进行过滤,可以包括以下步骤:
S521:对特征进行预处理,包括删除包含停用词的特征、单字特征、数字特征以及频次小于预设阈值的特征。
本步骤中,将特征中包含的无用特征比如包含停用词的特征、单字特征和数字特征,以及特征出现的次数小于预设阈值的特征进行删除处理,以减少特征个数,减小计算复杂度。
其中,预设阈值可以根据需求自行设定。
S522:计算预处理后的特征的重要度。
本步骤中,在对特征进行预处理之后,进而计算预处理后的特征的重要度,即计算各特征区分类别的能力。
其中,可以采用卡方检验的方法来计算预处理后的特征的重要度。计算所得的卡方值越小,表明特征的重要程度越高,即区分类别的能力越强。
需要说明的是,也可以采用其他的方法来计算预处理后的特征的重要度,此处对重要度的计算方法不作限制。
S523:根据重要度对预处理后的特征进行排序,并获取排名前M个特征作为过滤后的特征。
本步骤中,在完成对预处理后的特征的重要度计算之后,根据所得重要度对预处理后的特征进行排序,并获取排名前M个特征作为过滤后的特征。其中,M为正整数。
S53:根据过滤后的特征训练生成分类器。
本实施例中,在完成特征的过滤之后,即可根据过滤后的特征进行模型训练,以生成各类分类器,比如最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器。
其中,最大熵分类器是将所有过滤后的特征作为训练语料训练生成的单个分类器;二类分类器是根据单个过滤后的特征训练生成的,即每一个过滤后的特征都对应训练生成一个二类分类器,有多少个过滤后的特征,就有多少个二类分类器;基于需求标签与特征的组合对分类器是采用深度神经网络技术训练得到的,训练时将每个网页的需求标签和该网页的特征组合成一对组合对,两者相似度为1;随机采样一些非该网页的标签和该网页的特征组成一些组合对,两者相似度为0。
本实施例中,在获得大量的训练数据后,通过提取训练数据的特征并对特征进行过滤,进而根据过滤后的特征训练生成分类器,所生成分类器的泛化能力强,召回率高。
S14:基于分类器为待标注网页标注对应的标签。
本实施例中,在训练生成各类分类器后,即可基于分类器为待标注网页标注对应的标签。基于分类器为待标注网页标注对应的标签的方法可以是:利用最大熵分类器为待标注网页标注对应的标签;或者,利用二类分类器为待标注网页标注对应的标签;又或者,利用需求标签与特征的组合对分类器为待标注网页标注对应的标签。根据分类器的类型不同,基于分类器为待标注网页标注标签的过程也不同。举例说明如下:
示例一:利用最大熵分类器为待标注网页标注对应的标签。
前文已提到过,最大熵分类器是将所有过滤后的特征作为训练语料训练生成的单个分类器,因而为各个待标注网页标注对应的标签时均利用最大熵分类器标注。这种情况下,需要预先设定分数阈值。当利用最大熵分类器为待标注网页标注对应的标签时,首先根据最大熵分类器和待标注网页为用于训练生成最大熵分类器的各特征进行打分,分值越高,表明该特征与待标注网页的内容越匹配。当分值高于分数阈值时,则将与该分值对应的特征标注在网页上,作为该网页的标签。
需要说明的是,分数阈值可以根据需求自行设定,此处不作具体限制。
示例二:利用二类分类器为待标注网页标注对应的标签。
由于一个二类分类器对应一个特征即标签,因而,在这种标签标注方式下,需要利用每一个二类分类器分别对待标注网页进行判断。若二类分类器判断该待标注网页为正例,则表明该二类分类器对应的标签与该待标注网页的内容匹配,将该二类分类器对应的标签标注在该待标注网页上。
示例三:利用需求标签与特征的组合对分类器为待标注网页标注对应的标签。
需求标签与特征的组合对分类器是通过计算需求标签与特征的相似度来为待标注网页标注对应的标签的。采用这种标注方法标注标签时,需要预先设定一个相似度阈值,用于判断计算所得相似度是否达到相似度阈值。若根据需求标签与待标注网页的特征计算所得的相似度达到相似度阈值,则将该需求标签标注在该待标注网页上。
可选地,在利用各类分类器为待标注网页标注对应的标签时,还可以采用人工的方式结合先验规则来选择合适的标签,以使标注的标签更准确。比如,为像商品垂类等类别有较为明显的规则模式的垂类需求进行标签标注时,由于商品垂类中的“综述”标签指的是特定范围的网页,此时,结合先验规则中的URL正则匹配规则,能更准确地识别该需求类别并标注标签。
需要说明的是,也可以采用其他支持多标记分类的方法为待标注网页标注对应的标签,此处不作限制。
本发明实施例提出的网页标注方法,通过根据建立的需求标签列表挖掘训练数据,并根据训练数据训练生成分类器,基于分类器为待标注网页标注对应的标签,能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
为了实现上述实施例,本发明还提出了一种网页标注装置,图7是本发明一实施例提出的网页标注装置的结构示意图。
如图7所示,本实施例的网页标注装置包括:建立模块710、挖掘模块720、生成模块730,以及标注模块740。其中,
建立模块710,用于建立需求标签列表。
挖掘模块720,用于根据需求标签列表挖掘训练数据。
生成模块730,用于根据训练数据训练生成分类器,分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器。
标注模块740,用于基于分类器为待标注网页标注对应的标签。
具体地,标注模块740用于:
利用最大熵分类器为待标注网页标注对应的标签;或者
利用二类分类器为待标注网页标注对应的标签;或者
利用需求标签与特征的组合对分类器为待标注网页标注对应的标签。
可选地,一些实施例中,参见图8,图8是本发明另一实施例提出的网页标注装置的结构示意图。
如图8所示,建立模块710包括:筛选单元711、第一获取单元712,以及第一生成单元713。其中,
筛选单元711,用于获取查询日志,并从查询日志中筛选出符合预设模式的查询语句。
具体地,筛选单元711用于:
利用命名实体识别NER工具对查询日志中的查询语句进行分析;
获取符合预设模式的查询语句,其中,预设模式为命名实体词与需求词的组合。
第一获取单元712,用于获取查询语句对应的页面浏览量。
第一生成单元713,用于根据页面浏览量对查询语句进行排序,并生成需求标签列表。
具体地,第一生成单元713用于:
按照页面浏览量从大到小的顺序对查询语句进行排序,以生成初步需求标签列表;
对初步需求标签列表中的初步需求标签进行人工校对和归一化处理,并生成归一化后的需求标签列表。
其中,归一化处理包括上位归一化和同义词归一化;归一化后的需求标签列表保存有归一化后的需求标签以及初步需求标签与归一化后的需求标签的映射关系。
可选地,如图8所示,挖掘模块720包括:第一标注单元721、第二标注单元722,以及第二获取单元723。其中,
第一标注单元721,用于根据需求标签列表对查询日志中的查询语句进行标注。
具体地,第一标注单元721用于:
对符合预设规则的查询语句进行标注,预设规则为查询语句包含有对应的关键词。
其中,关键词包括归一化后的需求标签、初步需求标签以及通过扩展生成的扩展关键词。
第二标注单元722,用于根据标注后的查询语句获取符合预设条件的链接信息,并对链接信息进行标注,其中,链接信息通过标注后的查询语句查询得到。
第二获取单元723,用于根据标注后的链接信息获取标注后的链接信息对应的资源数据,并将资源数据作为训练数据,资源数据包括标题和/或摘要。
可选地,如图8所示,生成模块730包括:提取单元731、过滤单元732,以及第二生成单元733。其中,
提取单元731,用于从训练数据中提取特征,特征包括标题N-Gram特征、摘要N-Gram特征、URL特征和命名实体特征中的一个或多个。
过滤单元732,用于对特征进行过滤。
具体地,过滤单元732用于:
对特征进行预处理,预处理包括删除包含停用词的特征、单字特征、数字特征以及频次小于预设阈值的特征;
计算预处理后的特征的重要度;
根据重要度对预处理后的特征进行排序,并获取排名前M个特征作为过滤后的特征。
第二生成单元733,用于根据过滤后的特征训练生成分类器。
需要说明的是,前述实施例中对网页标注方法实施例的解释说明也适用于本实施例的网页标注装置,其实现原理类似,此处不再赘述。
本发明实施例提出的网页标注装置,通过根据建立的需求标签列表挖掘训练数据,并根据训练数据训练生成分类器,基于分类器为待标注网页标注对应的标签,能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
为了实现上述实施例,本发明还提出了一种终端,包括:处理器,以及用于存储处理器可执行指令的存储器。其中,处理器被配置为执行以下步骤:
S11’:建立需求标签列表。
S12’:根据需求标签列表挖掘训练数据。
S13’:根据训练数据训练生成分类器,分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器。
S14’:基于分类器为待标注网页标注对应的标签。
需要说明的是,前述实施例中对网页标注方法实施例的解释说明也适用于本实施例的终端,其实现原理类似,此处不再赘述。
本发明实施例提出的终端,通过根据建立的需求标签列表挖掘训练数据,并根据训练数据训练生成分类器,基于分类器为待标注网页标注对应的标签,能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
为了实现上述实施例,本发明还提出了一种非临时性计算机可读存储介质,用于存储一个或多个程序,当存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行本发明第一方面实施例提出的网页标注方法。
本发明实施例提出的非临时性计算机可读存储介质,通过根据建立的需求标签列表挖掘训练数据,并根据训练数据训练生成分类器,基于分类器为待标注网页标注对应的标签,能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
为了实现上述实施例,本发明还提出了一种计算机程序产品,当计算机程序产品中的指令被处理器执行时,执行本发明第一方面实施例提出的网页标注方法。
本发明实施例提出的计算机程序产品,通过根据建立的需求标签列表挖掘训练数据,并根据训练数据训练生成分类器,基于分类器为待标注网页标注对应的标签,能够在无需人工标注的条件下获取大量的高质量训练数据,省时省力,召回率高,且根据用户的实际搜索行为定义标签,标签涵盖范围广,能全面地反应用户的真实需求。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (24)

1.一种网页标注方法,其特征在于,包括:
建立需求标签列表;
根据所述需求标签列表挖掘训练数据;
根据所述训练数据训练生成分类器,所述分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器;
基于所述分类器为待标注网页标注对应的标签。
2.如权利要求1所述的方法,其特征在于,建立需求标签列表,包括:
获取查询日志,并从所述查询日志中筛选出符合预设模式的查询语句;
获取所述查询语句对应的页面浏览量;
根据所述页面浏览量对所述查询语句进行排序,并生成所述需求标签列表。
3.如权利要求2所述的方法,其特征在于,从所述查询日志中筛选出符合预设模式的查询语句,包括:
利用命名实体识别NER工具对所述查询日志中的查询语句进行分析;
获取符合预设模式的查询语句,其中,所述预设模式为命名实体词与需求词的组合。
4.如权利要求2所述的方法,其特征在于,根据所述页面浏览量对所述查询语句进行排序,并生成所述需求标签列表,包括:
按照页面浏览量从大到小的顺序对查询语句进行排序,以生成初步需求标签列表;
对所述初步需求标签列表中的初步需求标签进行人工校对和归一化处理,并生成归一化后的需求标签列表。
5.如权利要求4所述的方法,其特征在于,所述归一化处理包括上位归一化和同义词归一化。
6.如权利要求4所述的方法,其特征在于,所述归一化后的需求标签列表保存有归一化后的需求标签以及初步需求标签与归一化后的需求标签的映射关系。
7.如权利要求1所述的方法,其特征在于,根据所述需求标签列表挖掘训练数据,包括:
根据所述需求标签列表对查询日志中的查询语句进行标注;
根据标注后的查询语句获取符合预设条件的链接信息,并对所述链接信息进行标注,其中,所述链接信息通过所述标注后的查询语句查询得到;
根据标注后的链接信息获取所述标注后的链接信息对应的资源数据,并将所述资源数据作为训练数据,所述资源数据包括标题和/或摘要。
8.如权利要求7所述的方法,其特征在于,根据所述需求标签列表对查询日志中的查询语句进行标注,包括:
对符合预设规则的查询语句进行标注,所述预设规则为所述查询语句包含有对应的关键词。
9.如权利要求8所述的方法,其特征在于,所述关键词包括归一化后的需求标签、初步需求标签以及通过扩展生成的扩展关键词。
10.如权利要求1所述的方法,其特征在于,根据所述训练数据训练生成分类器,包括:
从所述训练数据中提取特征,所述特征包括标题N-Gram特征、摘要N-Gram特征、URL特征和命名实体特征中的一个或多个;
对所述特征进行过滤;
根据所述过滤后的特征训练生成所述分类器。
11.如权利要求10所述的方法,其特征在于,对所述特征进行过滤,包括:
对所述特征进行预处理,所述预处理包括删除包含停用词的特征、单字特征、数字特征以及频次小于预设阈值的特征;
计算预处理后的特征的重要度;
根据所述重要度对所述预处理后的特征进行排序,并获取排名前M个特征作为过滤后的特征。
12.如权利要求1所述的方法,其特征在于,基于所述分类器为待标注网页标注对应的标签,包括:
利用最大熵分类器为待标注网页标注对应的标签;或者
利用二类分类器为待标注网页标注对应的标签;或者
利用需求标签与特征的组合对分类器为待标注网页标注对应的标签。
13.一种网页标注装置,其特征在于,包括:
建立模块,用于建立需求标签列表;
挖掘模块,用于根据所述需求标签列表挖掘训练数据;
生成模块,用于根据所述训练数据训练生成分类器,所述分类器包括最大熵分类器、二类分类器和基于需求标签与特征的组合对分类器;
标注模块,用于基于所述分类器为待标注网页标注对应的标签。
14.如权利要求13所述的装置,其特征在于,所述建立模块,包括:
筛选单元,用于获取查询日志,并从所述查询日志中筛选出符合预设模式的查询语句;
第一获取单元,用于获取所述查询语句对应的页面浏览量;
第一生成单元,用于根据所述页面浏览量对所述查询语句进行排序,并生成所述需求标签列表。
15.如权利要求14所述的装置,其特征在于,所述筛选单元,用于:
利用命名实体识别NER工具对所述查询日志中的查询语句进行分析;
获取符合预设模式的查询语句,其中,所述预设模式为命名实体词与需求词的组合。
16.如权利要求14所述的装置,其特征在于,所述第一生成单元,用于:
按照页面浏览量从大到小的顺序对查询语句进行排序,以生成初步需求标签列表;
对所述初步需求标签列表中的初步需求标签进行人工校对和归一化处理,并生成归一化后的需求标签列表。
17.如权利要求16所述的装置,其特征在于,所述归一化处理包括上位归一化和同义词归一化。
18.如权利要求16所述的装置,其特征在于,所述归一化后的需求标签列表保存有归一化后的需求标签以及初步需求标签与归一化后的需求标签的映射关系。
19.如权利要求13所述的装置,其特征在于,所述挖掘模块,包括:
第一标注单元,用于根据所述需求标签列表对查询日志中的查询语句进行标注;
第二标注单元,用于根据标注后的查询语句获取符合预设条件的链接信息,并对所述链接信息进行标注,其中,所述链接信息通过所述标注后的查询语句查询得到;
第二获取单元,用于根据标注后的链接信息获取所述标注后的链接信息对应的资源数据,并将所述资源数据作为训练数据,所述资源数据包括标题和/或摘要。
20.如权利要求19所述的装置,其特征在于,所述第一标注单元,用于:
对符合预设规则的查询语句进行标注,所述预设规则为所述查询语句包含有对应的关键词。
21.如权利要求20所述的装置,其特征在于,所述关键词包括归一化后的需求标签、初步需求标签以及通过扩展生成的扩展关键词。
22.如权利要求13所述的装置,其特征在于,所述生成模块,包括:
提取单元,用于从所述训练数据中提取特征,所述特征包括标题N-Gram特征、摘要N-Gram特征、URL特征和命名实体特征中的一个或多个;
过滤单元,用于对所述特征进行过滤;
第二生成单元,用于根据所述过滤后的特征训练生成所述分类器。
23.如权利要求22所述的装置,其特征在于,所述过滤单元,用于:
对所述特征进行预处理,所述预处理包括删除包含停用词的特征、单字特征、数字特征以及频次小于预设阈值的特征;
计算预处理后的特征的重要度;
根据所述重要度对所述预处理后的特征进行排序,并获取排名前M个特征作为过滤后的特征。
24.如权利要求13所述的装置,其特征在于,所述标注模块,用于:
利用最大熵分类器为待标注网页标注对应的标签;或者
利用二类分类器为待标注网页标注对应的标签;或者
利用需求标签与特征的组合对分类器为待标注网页标注对应的标签。
CN201610881307.6A 2016-10-09 2016-10-09 网页标注方法及装置 Active CN107038183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610881307.6A CN107038183B (zh) 2016-10-09 2016-10-09 网页标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610881307.6A CN107038183B (zh) 2016-10-09 2016-10-09 网页标注方法及装置

Publications (2)

Publication Number Publication Date
CN107038183A true CN107038183A (zh) 2017-08-11
CN107038183B CN107038183B (zh) 2021-01-29

Family

ID=59532647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610881307.6A Active CN107038183B (zh) 2016-10-09 2016-10-09 网页标注方法及装置

Country Status (1)

Country Link
CN (1) CN107038183B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819591A (zh) * 2012-08-07 2012-12-12 北京网康科技有限公司 一种基于内容的网页分类方法及系统
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
US8572087B1 (en) * 2007-10-17 2013-10-29 Google Inc. Content identification
CN103617239A (zh) * 2013-11-26 2014-03-05 百度在线网络技术(北京)有限公司 命名实体的识别方法、装置及分类模型的创建方法、装置
CN103678422A (zh) * 2012-09-25 2014-03-26 北京亿赞普网络技术有限公司 网页分类方法和装置、网页分类器的训练方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8572087B1 (en) * 2007-10-17 2013-10-29 Google Inc. Content identification
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN102819591A (zh) * 2012-08-07 2012-12-12 北京网康科技有限公司 一种基于内容的网页分类方法及系统
CN103678422A (zh) * 2012-09-25 2014-03-26 北京亿赞普网络技术有限公司 网页分类方法和装置、网页分类器的训练方法和装置
CN103617239A (zh) * 2013-11-26 2014-03-05 百度在线网络技术(北京)有限公司 命名实体的识别方法、装置及分类模型的创建方法、装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置

Also Published As

Publication number Publication date
CN107038183B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN107861939B (zh) 一种融合词向量和主题模型的领域实体消歧方法
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
Bauer et al. Quantitive evaluation of Web site content and structure
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
US7529748B2 (en) Information classification paradigm
CN102332028B (zh) 一种面向网页的不良Web内容识别方法
CN103309862B (zh) 一种网页类型识别方法和系统
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN105378731A (zh) 从被回答问题关联语料库/语料值
US20200004792A1 (en) Automated website data collection method
CN104102721A (zh) 信息推荐方法和装置
CN110532563A (zh) 文本中关键段落的检测方法及装置
GB2555207A (en) System and method for identifying passages in electronic documents
Shekhawat Sentiment classification of current public opinion on brexit: Naïve Bayes classifier model vs Python’s Textblob approach
Subbalakshmi et al. A Gravitational Search Algorithm Study on Text Summarization Using NLP
Fazayeli et al. Towards auto-labelling issue reports for pull-based software development using text mining approach
Menezes et al. Building a massive corpus for named entity recognition using free open data sources
Sara-Meshkizadeh et al. Webpage classification based on compound of using HTML features & URL features and features of sibling pages
CN111339457B (zh) 用于从网页抽取信息的方法和设备及存储介质
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
Font et al. Class-based tag recommendation and user-based evaluation in online audio clip sharing
Sarwar et al. The key factors and their influence in authorship attribution.
Albarghothi et al. Automatic construction of e-government services ontology from Arabic webpages
CN111930944B (zh) 文件标签分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant