CN101101599A - 一种从网页中提取广告主信息的方法 - Google Patents
一种从网页中提取广告主信息的方法 Download PDFInfo
- Publication number
- CN101101599A CN101101599A CNA2007101176063A CN200710117606A CN101101599A CN 101101599 A CN101101599 A CN 101101599A CN A2007101176063 A CNA2007101176063 A CN A2007101176063A CN 200710117606 A CN200710117606 A CN 200710117606A CN 101101599 A CN101101599 A CN 101101599A
- Authority
- CN
- China
- Prior art keywords
- mrow
- text
- vector
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 108
- 230000011218 segmentation Effects 0.000 claims description 11
- 239000013585 weight reducing agent Substances 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000009193 crawling Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及互联网中文智能处理技术领域,公开了一种从网页中提取广告主信息的方法,该方法包括:A.配置一个基本词库和一个行业词库;B.根据配置的两个词库,对目标网页上的文字信息进行分词,得到一组文本向量;C.根据所述文本向量的特征,对所述文本向量进行向量加权或向量减权;D.采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重;E.对计算出来的文本向量的权重进行排序,并根据文本向量所在网页中的上下文信息,从网页中提取出广告主信息。利用本发明,实现了从网页中迅速提取出有效地广告主信息,大大提高了从网页中获取广告主信息的效率。
Description
技术领域
本发明涉及互联网中文智能处理技术领域,尤其涉及一种从网页中提取广告主信息的方法。
背景技术
随着互联网的日益发展,中文网页的数量也在急剧增长。目前,以网页数量排名来看,中文网页位居第四,仅次于英文、日文、德文。而这些中文网页里面所包含的信息是多种多样的,随着电子商务的发展,从网页中准确地提取出广告主信息显得越来越重要。
目前广告主信息主要包括:广告主名称、产品、所属地区和电话。现在主要采用人工录入,加入到广告主数据库中,再从网页中去匹配这些广告主,这样做的缺点在发现未知广告主的时候,显得功能很弱,因为只有在人工知道这个广告主的时候,才能录入到数据库中,从而获得这个广告主的信息。
早期数据量小的时候,是可以这么做的,但是随着信息量的急剧膨胀,这样做势必影响到效率。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于提供一种从网页中提取广告主信息的方法,以提高获取广告主信息的效率。
(二)技术方案
为达到上述目的,本发明提供了一种从网页中提取广告主信息的方法,该方法包括:
A、配置一个基本词库和一个行业词库;
B、根据配置的两个词库,对目标网页上的文字信息进行分词,得到一组文本向量;
C、根据所述文本向量的特征,对所述文本向量进行向量加权或向量减权;
D、采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重;
E、对计算出来的文本向量的权重进行排序,并根据文本向量所在网页中的上下文信息,从网页中提取出广告主信息。
上述方案中,步骤A中所述基本词库为常用词库,所述配置基本词库包括:根据搜索引擎检索词频,检索出至少十万条词频,然后将检索到的词频收录到一起构成词库。
上述方案中,步骤A中所述配置行业词库包括:采用网页抓取程序从各个B2B网站上定向抓取行业信息,然后对抓取的行业信息进行统计分词获取行业词汇,生成一个行业词库。
上述方案中,步骤B中所述分词包括:将现代汉语的普通字序列文本分解为词序列的文本。
上述方案中,所述步骤C包括:对出现在标题中的文本向量,将向量权重增至原来的5至10倍;对出现在网页结构中content的简介,将向量权重增至原来的2至3倍;对出现在网页内容中版权信息类的文本向量,将向量权重增至原来的3至5倍;对出现在网页内容中与广告主信息有关的文本向量,将向量权重增至原来的3至5倍;对出现的包含在停词表中文本向量,将向量权重减至原来的1/5至1/10。
上述方案中,步骤D中所述空间向量模型采用以下公式来表征:
上述方案中,步骤E中所述对计算出来的文本向量的权重进行排序时,首先设定一个阈值,将权重大于该阈值的文本向量挑选出来构成一个集合,然后再根据所在网页中的上下文信息,从所述集合中提取出需要的广告主信息。
(三)有益效果
从上述技术方案可以看出,本发明具有以下有益效果:
1、利用本发明,通过配置一个基本词库和一个行业词库,根据配置的两个词库对目标网页上的文字信息进行分词,得到一组文本向量,然后根据所述文本向量的特征,对所述文本向量进行向量加权或向量减权,采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重;最后对计算出来的文本向量的权重进行排序,并根据文本向量所在网页中的上下文信息,从网页中提取出广告主信息,实现了从网页中迅速提取出有效地广告主信息,大大提高了从网页中获取广告主信息的效率。
2、利用本发明,能够对未收录的广告主进行智能提取,从而减少了人工工作量,进一步提高了工作效率。
3、利用本发明,还能够有效地对海量数据信息进行处理,实现对海量数据信息的快速处理。
附图说明
图1为本发明提供的从网页中提取广告主信息的方法流程图;
图2为本发明提供的从网页中提取广告主信息的示意图;
图3为依照本发明实施例提供的数据页的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1所示,图1为本发明提供的从网页中提取广告主信息的方法流程图,该方法包括以下步骤:
步骤101:配置一个基本词库和一个行业词库。基本词库即常用词库,根据搜索引擎检索词频,检索出至少十万条词频,然后将检索到的词频收录到一起即可构成一个基本词库。行业词库收录的词则要偏一些,主要是一些行业词汇。因为处理的是广告主信息,所以行业词库越全越好。这里采用网页抓取程序从各个B2B网站上(例如阿里巴巴、慧聪等)定向抓取行业信息,然后对抓取的行业信息进行统计分词获取行业词汇,生成一个包含内容尽可能全面行业词库。为了准确提取广告主的地区、电话信息,还要准备一个地区名称库,和电话区号库。
步骤102:根据配置的两个词库,对目标网页上的文字信息进行分词,从而得到一组文本向量。所谓分词是将现代汉语的普通字序列文本分解为词序列的文本;例如:我们的祖国多美好,经过分词之后变为:我们的祖国多美好。
步骤103:根据所述文本向量的特征,对所述文本向量进行向量加权或向量减权。具体说来,是根据特定规则,对文本向量进行适当的向量加权和向量减权,具体规则有:
a)、对标题内容进行加权;即对出现在标题中的文本向量,将向量权重增至原来的5至10倍;
b)、对网页结构中content的简介进行加权;即对出现在网页结构中content的简介的文本向量,将向量权重增至原来的2至3倍;
c)、对网页内容里中的版权信息进行加权;即对出现在网页内容中版权信息类的文本向量,将向量权重增至原来的3至5倍;
d)、对网页特定正文进行加权;即对出现在网页内容中与广告主信息有关的文本向量,将向量权重增至原来的3至5倍;此处网页特定正文主要是指和广告主信息有关的正文,如“XX公司”;
e)、根据停词表(就是一些需要大幅减权的词,如:我们、使用等)做减权处理;即对出现的包含在停词表中文本向量,将向量权重减至原来的1/5至1/10;所述停词表(stop word):在计算权重的时候,有一些词过于常见,如:“我们、是、一些”等,需要减权,否则会影响计算的效果。
步骤104:采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重。
在本步骤中,向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3......Wn),其中Wi为第i个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本,最初的向量表示完全是0、1形式,即,如果文本中出现了该词,那么文本向量的该维为1,否则为0。这种方法无法体现这个词在文本中的作用程度,所以逐渐0、1被更精确的词频代替,词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF-IDF公式,本发明采用了一种比较普遍的TF-IDF公式:
步骤105:对计算出来的文本向量的权重进行排序,并根据文本向量所在网页中的上下文信息,从网页中提取出广告主信息。
在本步骤中,对计算出来的文本向量的权重进行排序时,首先根据人工多次核对结果数据设定一个阈值(大于该阈值的可认为是有用信息,小于该阈值的则认为是无用信息),将权重大于该阈值的文本向量挑选出来构成一个集合,然后再根据所在网页中的上下文信息,从所述集合中提取出需要的广告主信息。
上述本发明提供的从网页中提取广告主信息的方法还可以进一步参考图2,图2为本发明提供的从网页中提取广告主信息的示意图。
基于图1所示的从网页中提取广告主信息的方法流程图和图2所示的从网页中提取广告主信息的示意图,以下结合具体的实施例对本发明提供的从网页中提取广告主信息的方法进一步详细说明。
实施例
具体实施的时候,先要准备好词库,基本词库比较容易获得,而行业词库需要从各个行业网站上来获取。本实施例采用的是网页抓取程序(spider)抓取,然后统计分词获得。
获得这些原始数据之后,当需要分析某个页面的广告主信息的时候,通过前述步骤101至步骤105来获取合适的广告主信息。
下面通过实例来具体看一看处理结果。在采集数据的时候,假如碰到如图3所示的一个数据页,图3为依照本发明实施例提供的数据页的示意图,其具体的处理流程如下:
步骤1:准备词库。这是个一次性工作,不用每次分析网页前都准备词库,刚开始准备好,以后定时更新就可以了;
步骤2:经过分词之后,得到这样一组向量:(关键词,位置,次数)。对于上面这个网页而言,就分析成如下的一组向量,(升降,标题,1),(升降,描述,2),(升降,内容,8),(机械,标题,1),(机械,描述,2),(机械,内容,6)......;
步骤3:进行位置的加权操作后,得到这样的向量组:(升降,26)、(机械,16)......;
步骤4:采用空间向量模型来计算的权重。W(升降,改网页的文本向量集合)=d1,W(机械,改网页的文本向量集合)=d2......把d1,d2......排序;
步骤5:设定一个阈值,取大于该阈值的关键词为我们需要的关键词。如:升降、机械......;
步骤6:根据这些词在网页中的位置,做一些扩展,得到广告主名称和产品信息。同时对照地区和区号对照表,找到广告主相应的地区和电话信息;
通过上述6个步骤之后,将提到如下广告主信息。
广告主名称:苏州美罗升降机械有限公司
经营产品:自动式升降台、固定式升降平台、高空作业平台、液压登车桥等
地区:江苏
电话:0512-65380328
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1、一种从网页中提取广告主信息的方法,其特征在于,该方法包括:
A、配置一个基本词库和一个行业词库;
B、根据配置的两个词库,对目标网页上的文字信息进行分词,得到一组文本向量;
C、根据所述文本向量的特征,对所述文本向量进行向量加权或向量减权;
D、采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重;
E、对计算出来的文本向量的权重进行排序,并根据文本向量所在网页中的上下文信息,从网页中提取出广告主信息。
2、根据权利要求1所述的从网页中提取广告主信息的方法,其特征在于,步骤A中所述基本词库为常用词库,所述配置基本词库包括:
根据搜索引擎检索词频,检索出至少十万条词频,然后将检索到的词频收录到一起构成词库。
3、根据权利要求1所述的从网页中提取广告主信息的方法,其特征在于,步骤A中所述配置行业词库包括:
采用网页抓取程序从各个B2B网站上定向抓取行业信息,然后对抓取的行业信息进行统计分词获取行业词汇,生成一个行业词库。
4、根据权利要求1所述的从网页中提取广告主信息的方法,其特征在于,步骤B中所述分词包括:将现代汉语的普通字序列文本分解为词序列的文本。
5、根据权利要求1所述的从网页中提取广告主信息的方法,其特征在于,所述步骤C包括:
对出现在标题中的文本向量,将向量权重增至原来的5至10倍;
对出现在网页结构中content的简介,将向量权重增至原来的2至3倍;
对出现在网页内容中版权信息类的文本向量,将向量权重增至原来的3至5倍;
对出现在网页内容中与广告主信息有关的文本向量,将向量权重增至原来的3至5倍;
对出现的包含在停词表中文本向量,将向量权重减至原来的1/5至1/10。
7、根据权利要求1所述的从网页中提取广告主信息的方法,其特征在于,步骤E中所述对计算出来的文本向量的权重进行排序时,首先设定一个阈值,将权重大于该阈值的文本向量挑选出来构成一个集合,然后再根据所在网页中的上下文信息,从所述集合中提取出需要的广告主信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101176063A CN101101599A (zh) | 2007-06-20 | 2007-06-20 | 一种从网页中提取广告主信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101176063A CN101101599A (zh) | 2007-06-20 | 2007-06-20 | 一种从网页中提取广告主信息的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101101599A true CN101101599A (zh) | 2008-01-09 |
Family
ID=39035873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101176063A Pending CN101101599A (zh) | 2007-06-20 | 2007-06-20 | 一种从网页中提取广告主信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101101599A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426572A (zh) * | 2011-07-05 | 2012-04-25 | 百度在线网络技术(北京)有限公司 | 一种对业务词条进行分类的方法和设备 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN103488746A (zh) * | 2013-09-22 | 2014-01-01 | 成都锐理开创信息技术有限公司 | 一种获取业务信息的方法及装置 |
CN103870446A (zh) * | 2012-12-18 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 一种描述词筛选方法及装置 |
CN103885769A (zh) * | 2012-12-20 | 2014-06-25 | 英特尔移动通信有限责任公司 | 调试基于模型的消息序列的系统和方法 |
CN104731769A (zh) * | 2015-03-09 | 2015-06-24 | 北京语言大学 | 面向汉语教学的词语常用度的获取方法及获取系统 |
CN106933855A (zh) * | 2015-12-30 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 对象排序方法、装置及系统 |
CN107943954A (zh) * | 2017-11-24 | 2018-04-20 | 杭州安恒信息技术有限公司 | 网页敏感信息的检测方法、装置及电子设备 |
CN109598528A (zh) * | 2017-09-30 | 2019-04-09 | 北京国双科技有限公司 | 广告信息处理方法和装置 |
CN110110195A (zh) * | 2019-05-07 | 2019-08-09 | 宜人恒业科技发展(北京)有限公司 | 一种杂质清除方法及装置 |
CN111401083A (zh) * | 2019-01-02 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
-
2007
- 2007-06-20 CN CNA2007101176063A patent/CN101101599A/zh active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426572A (zh) * | 2011-07-05 | 2012-04-25 | 百度在线网络技术(北京)有限公司 | 一种对业务词条进行分类的方法和设备 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN103870446B (zh) * | 2012-12-18 | 2016-12-28 | 阿里巴巴集团控股有限公司 | 一种描述词筛选方法及装置 |
CN103870446A (zh) * | 2012-12-18 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 一种描述词筛选方法及装置 |
CN103885769B (zh) * | 2012-12-20 | 2017-05-17 | 英特尔德国有限责任公司 | 调试基于模型的消息序列的系统 |
CN103885769A (zh) * | 2012-12-20 | 2014-06-25 | 英特尔移动通信有限责任公司 | 调试基于模型的消息序列的系统和方法 |
CN103488746B (zh) * | 2013-09-22 | 2017-04-26 | 成都锐理开创信息技术有限公司 | 一种获取业务信息的方法及装置 |
CN103488746A (zh) * | 2013-09-22 | 2014-01-01 | 成都锐理开创信息技术有限公司 | 一种获取业务信息的方法及装置 |
CN104731769B (zh) * | 2015-03-09 | 2017-11-14 | 北京语言大学 | 面向汉语教学的词语常用度的获取方法及获取系统 |
CN104731769A (zh) * | 2015-03-09 | 2015-06-24 | 北京语言大学 | 面向汉语教学的词语常用度的获取方法及获取系统 |
CN106933855B (zh) * | 2015-12-30 | 2020-06-23 | 阿里巴巴集团控股有限公司 | 对象排序方法、装置及系统 |
CN106933855A (zh) * | 2015-12-30 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 对象排序方法、装置及系统 |
CN109598528A (zh) * | 2017-09-30 | 2019-04-09 | 北京国双科技有限公司 | 广告信息处理方法和装置 |
CN109598528B (zh) * | 2017-09-30 | 2023-05-23 | 北京国双科技有限公司 | 广告信息处理方法和装置 |
CN107943954A (zh) * | 2017-11-24 | 2018-04-20 | 杭州安恒信息技术有限公司 | 网页敏感信息的检测方法、装置及电子设备 |
CN107943954B (zh) * | 2017-11-24 | 2020-07-10 | 杭州安恒信息技术股份有限公司 | 网页敏感信息的检测方法、装置及电子设备 |
CN111401083A (zh) * | 2019-01-02 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN111401083B (zh) * | 2019-01-02 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN110110195A (zh) * | 2019-05-07 | 2019-08-09 | 宜人恒业科技发展(北京)有限公司 | 一种杂质清除方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101101599A (zh) | 一种从网页中提取广告主信息的方法 | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
CN102722498B (zh) | 搜索引擎及其实现方法 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN102722501B (zh) | 搜索引擎及其实现方法 | |
US20200004792A1 (en) | Automated website data collection method | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
WO2016000555A1 (zh) | 基于社交网络的内容、新闻推荐方法和系统 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
RU2010141559A (ru) | Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе | |
CN103186675A (zh) | 一种基于网络热词识别的网页自动分类方法 | |
CN107943792B (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
CN102722499B (zh) | 搜索引擎及其实现方法 | |
CN109145180B (zh) | 一种基于增量聚类的企业热点事件挖掘方法 | |
CN105677857B (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
CN110555154B (zh) | 一种面向主题的信息检索方法 | |
CN110222260A (zh) | 一种搜索方法、装置及存储介质 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN1629837A (zh) | 电子文档的处理、浏览及分类查询的方法、装置及其系统 | |
CN100458797C (zh) | 一种对网络广告进行排序的方法 | |
CN112001178A (zh) | 长尾实体的识别与消歧方法 | |
CN106649308B (zh) | 一种分词词库更新方法及系统 | |
CN103970800A (zh) | 网页相关关键词的抽取处理方法和系统 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |