CN106202124B - 网页分类方法及装置 - Google Patents

网页分类方法及装置 Download PDF

Info

Publication number
CN106202124B
CN106202124B CN201510230951.2A CN201510230951A CN106202124B CN 106202124 B CN106202124 B CN 106202124B CN 201510230951 A CN201510230951 A CN 201510230951A CN 106202124 B CN106202124 B CN 106202124B
Authority
CN
China
Prior art keywords
target
corpus
webpage
similarity
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510230951.2A
Other languages
English (en)
Other versions
CN106202124A (zh
Inventor
梁捷
郑海洪
邹红才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Dongjing Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Dongjing Computer Technology Co Ltd filed Critical Guangzhou Dongjing Computer Technology Co Ltd
Priority to CN201510230951.2A priority Critical patent/CN106202124B/zh
Priority to PCT/CN2016/081139 priority patent/WO2016180270A1/zh
Priority to US15/505,851 priority patent/US10997256B2/en
Publication of CN106202124A publication Critical patent/CN106202124A/zh
Application granted granted Critical
Publication of CN106202124B publication Critical patent/CN106202124B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请是关于一种网页分类方法及装置,其通过词语转向量工具word2vec将语料库中的各个语料词转换为向量,从而将语料词之间的比较、相似度分析等处理过程,转换为向量的运算,更便于计算机自动化的实现,提高网页分类效率;同时,本申请根据预设的分类种子词筛选对应的语料词,可以剔除与网页类型无关的语料词,提高网页分类的准确率。

Description

网页分类方法及装置
技术领域
本申请涉及网页处理技术领域,尤其涉及一种网页分类方法及装置。
背景技术
随着互联网的高速发展,来自网络的信息也越来越丰富。根据网页中所展示的信息进行网页分类,既可以在网络应用方面,便于用户快速便捷的找到偏好的信息,还可以在网络相关产品开发的需求分析阶段,根据用户浏览的网页的类型确定不同用户的偏好信息。
相关技术中,网页分类一般需要对海量网页进行解析,从网页的统一资源定位符(Uniform Resource Locator,URL)和标头(header)中提取特征数据作为训练数据,并通过该训练数据对基于分类算法(如)建立的分类模型进行训练,得到网页分类器,从而在对目标网页进行分类时,首先提取该目标网页的目标特征数据,然后根据上述网页分类器对目标特征数据进行分析,就可以得知该目标网页的类型。其中,常用的分类算法包括决策树分类法,朴素的贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SupportVector Machine,SVM)的分类算法,神经网络法,k-最近邻法(k-nearest neighbor,kNN),模糊分类法等。
可见,基于上述方法实现网页分类,特征数据中包含大量短句或词语,数据处理量大,特别是对于中文网页,其特征数据多为中文词语,处理复杂度更高,相应的网页分类效率较低。
发明内容
为克服相关技术中存在的问题,本申请提供一种网页分类方法及装置。
本申请实施例的第一方面,提供一种网页分类方法,包括:
获取各个网页的标头中的标题和关键词,并将获取到的标题和关键词作为语料词记录于语料库;
通过词语转向量工具word2vec对所述语料库进行训练,得到所述语料库中的各个语料词对应的向量,并将各个语料词及对应的向量记录于分类模型文件;
根据所述分类模型文件确定预设的每个网页类别对应的每个分类种子词对应的向量,计算同一网页类别对应的所有分类种子词的向量和;
在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词,并将查找到的语料词、对应的相似度,以及所述向量和对应的网页类别记录于评分模型文件;
获取目标网页的标头中的目标标题和目标关键词,在所述评分模型文件中查找所述目标标题和目标关键词对应的目标语料词;
根据所述评分模型文件确定各个目标语料词对应的目标相似度和目标网页类别;
计算同一目标网页类别对应的目标相似度之和,选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。
结合第一方面,在第一方面第一个可行的实施例中,所述根据所述评分模型文件确定各个目标语料词对应的目标相似度,包括:
分别设置所述目标标题和目标关键词对应的权重系数;
对于所述目标标题对应的第一目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述目标标题对应的第一权重系数的乘积,得到所述第一目标语料词对应的目标相似度;
对于所述目标关键词对应的第二目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述目标关键词对应的第二权重系数的乘积,得到所述第二目标语料词对应的目标相似度。
结合第一方面,或者第一方面第一个可行的实施例,在第一方面第二个可行的实施例中,所述网页分类方法还包括:
将同一域名下的各个网页分别作为所述目标网页,确定其分类结果;
判断所述同一域名下的各个网页的分类结果及其对应的相似度是否满足预设阈值条件,如果满足,则将对应的域名作为垂直域名记录于垂直域名列表。
结合第一方面第二个可行的实施例,在第一方面第三个可行的实施例中,所述网页分类方法还包括:
如果所述目标标题或目标关键词获取失败,则判断所述域名垂直列表中是否存在所述目标网页对应的目标域名;
如果所述域名垂直列表中存在所述目标域名,则根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度。
结合第一方面第三个可行的实施例,在第一方面第四个可行的实施例中,所述网页分类方法还包括:
如果所述域名垂直列表中存在所述目标域名,则根据所述目标网页对应的统一资源定位符URL确定所述目标网页对应的目标网页类别和目标相似度。
本申请实施例的第二方面,提供一种网页装置,包括:
语料提取单元,用于获取各个网页的标头中的标题和关键词,并将获取到的标题和关键词作为语料词记录于语料库;
语料训练单元,用于通过词语转向量工具word2vec对所述语料库进行训练,得到所述语料库中的各个语料词对应的向量,并将各个语料词及对应的向量记录于分类模型文件;
语料筛选单元,用于根据所述分类模型文件确定预设的每个网页类别对应的每个分类种子词对应的向量,计算同一网页类别对应的所有分类种子词的向量和,在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词,并将查找到的语料词、对应的相似度,以及所述向量和对应的网页类别记录于评分模型文件;
目标网页处理单元,用于获取目标网页的标头中的目标标题和目标关键词,在所述评分模型文件中查找所述目标标题和目标关键词对应的目标语料词,根据所述评分模型文件确定各个目标语料词对应的目标相似度和目标网页类别;
网页类别确定单元,用于计算同一目标网页类别对应的目标相似度之和,选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。
结合第二方面,在第二方面第一种可行的实施方式中,为实现确定各个目标语料词对应的目标相似度,所述目标网页处理单元包括:
权重系数设置单元,用于分别设置所述目标标题和目标关键词对应的权重系数;
目标相似度计算单元,用于对于所述目标标题对应的第一目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述目标标题对应的第一权重系数的乘积,得到所述第一目标语料词对应的目标相似度;对于所述目标关键词对应的第二目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述目标关键词对应的第二权重系数的乘积,得到所述第二目标语料词对应的目标相似度。
结合第二方面,或者第二方面第一种可行的实施方式,在第二方面第二种可行的实施方式中,所述网页分类装置还包括:
垂直域名判断单元,用于将同一域名下的各个网页分别作为所述目标网页,确定其分类结果,并判断所述同一域名下的各个网页的分类结果及其对应的相似度是否满足预设阈值条件,如果满足,则将对应的域名作为垂直域名记录于垂直域名列表。
结合第二方面第二种可行的实施方式,在第二方面第三种可行的实施方式中,所述网页分类装置还包括:
目标域名处理单元,用于在所述目标标题或目标关键词获取失败时,判断所述域名垂直列表中是否存在所述目标网页对应的目标域名,如果所述域名垂直列表中存在所述目标域名,则根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度。
结合第二方面第三种可行的实施方式,在第二方面第四种可行的实施方式中,所述网页分类装置还包括:
URL处理单元,用于在所述域名垂直列表中存在所述目标域名时,根据所述目标网页对应的统一资源定位符URL确定所述目标网页对应的目标网页类别和目标相似度。
由以上技术方案可知,本申请实施例将语料库中的各个语料词转换为向量,从而将语料词之间的比较、相似度分析等处理过程,转换为向量的运算,更便于计算机自动化的实现,从而提高网页分类效率;同时,本申请实施例根据多个预设的分类种子词对应筛选语料词,可以剔除与网页类型无关的语料词,提高网页分类的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种网页分类方法的流程图。
图2是根据一示例性实施例示出的另一种网页分类方法的流程图。
图3是根据一示例性实施例示出的一种网页分类装置的框图。
图4是根据一示例性实施例示出的另一种网页分类装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种网页分类方法的流程图,如图1所示,该方法包括以下步骤。
S11、获取各个网页的标头中的标题和关键词,并将获取到的标题和关键词作为语料词记录于语料库。
本申请实施例中,用于构建语料库的海量网页可以来源于用户的浏览记录。各个网页的标头(header)中一般均包含标题(title)和关键词(keyword)两个字段,故可以将这两个字段中的词汇作为语料词记录于语料库。
另外,由于标题一般为句子或短语形式,而不是单个词语,故需要通过分词工具对标题进行分词;关键词本申请即为单个词语,不需对其执行分词操作。
S12、通过词语转向量工具word2vec对所述语料库进行训练,得到所述语料库中的各个语料词对应的向量,并将各个语料词及对应的向量记录于分类模型文件。
上述word2vec为一种文本处理工具,其通过分析海量词语之间的相似度,为每个词语分配唯一的向量;应用于本申请实施例,即通过分析语料库中语料词之间的相似度,确定每个语料词对应的向量;为了便于表示词语之间复杂的相似关系,该向量为多维度向量,如:[0.792,-0.177,-0.107,0.109,-0.542,...]。其中,两个语料词之间的相似度越高,其对应的向量差越小(该向量差可以为两个向量之间夹角的余弦值)。本实施例中,分类模型文件具体可以采用BIN格式的二进制文件,如该分类模型文件可以命名为word.bin,其记录有各个语料词及其对应的向量。
S13、根据所述分类模型文件确定预设的每个网页类别对应的每个分类种子词对应的向量,计算同一网页类别对应的所有分类种子词的向量和。
本申请实施例中,针对每种网页类别,如小说、体育、科技等,预先设定多个可能出现在网页中的相关词语,作为分类种子词;例如与小说相关的分类种子词可以包括:网络小说、小说、小说书库、经典小说、精品小说、小说在线、小说全集、小说集、系列小说、原创小说、txt全集、言情小说、爱情小说、玄幻小说、奇幻小说、科幻小说、武侠小说、仙侠小说、都市异能、同人耿美、同人小说、灵异小说、穿越小说、修真小说、悬疑小说、恐怖小说、侦探推理、侦探小说、推理小说、青春校园等。
针对每个分类种子词,首先确定其对应的向量,具体方法为:在分类模型文件中搜索与分类种子词最相似的语料词,从而将该语料词对应的向量记为该分类种子词对应的向量。进一步,由于word2vec转换得到的向量可以执行加法运算,故将同一网页类别对应的各个分类种子词对应的向量相加,得到的该网页类别对应的向量和。例如,将上述小说相关的各个分类种子词对应的向量相加,得到“小说”类别对应的向量和。
S14、在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词,并将查找到的语料词、对应的相似度,以及所述向量和对应的网页类别记录于评分模型文件。
遍历上述分类模型文件,分别计算分类模型文件中记录的各个向量与上述向量和之间的相似度,筛选出相似度在预设范围内的向量,并将其与其对应的语料词对应记录于评分模型文件中。
上述步骤S13和S14通过对向量的处理计算,将描述网页类型的语料词从分类模型文件中筛选出来,并统一记录于评分模型文件中。
在本申请一个可行的实施例中,向量之间的相似度具体可以表示为向量之间夹角的余弦值,即取值范围为0~1。
在本申请另一个可行的实施例中,还可以以百分制分值表示向量之间的相似度;即在上述余弦值的基础上乘以100,得到对应的分值。
另外,上述评分模型文件可以采用TXT格式的文本文件,例如可以命名为word.txt,其存储格式为“根据向量和查找到的语料词:该向量和对应的网页类别:相似度”,其中,该向量和对应的网页类别也即查找到的语料词对应的网页类别;例如,根据上述“小说”类别对应的向量和查找到语料词A和B,其相似度分别为95和80,则可以在评分模型文件中分别记录为“A:小说:95”、“B:小说:80”。
S15、获取目标网页的标头中的目标标题和目标关键词,在所述评分模型文件中查找所述目标标题和目标关键词对应的目标语料词。
与步骤S11类似的,对于目标标题,需要执行分词操作,将其由短语或句子划分为多个词语。分词完成后,从评分模型文件中选择与目标标题分词后得到的各个词语以及各个目标关键词对应的语料词作为目标语料词。
S16、根据所述评分模型文件确定各个目标语料词对应的目标相似度和目标网页类别。
S17、计算同一目标网页类别对应的目标相似度之和,选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。
例如,根据评分模型文件查找到的目标语料词包括A、B和C,且A和B对应的目标网页类别均为“小说”,目标相似度分别为90和85,C对应的目标网页类别为“体育”,目标相似度为80,故将A和B对应的目标相似度相加,即“小说”对应的目标相似度之和为175;由于175>80,故优先选择“小说”作为目标网页的分类结果。
由以上技术方案可知,本申请实施例将语料库中的各个语料词转换为向量,从而将语料词之间的比较、相似度分析等处理过程,转换为向量的运算,更便于计算机自动化的实现,从而提高网页分类效率;同时,本申请实施例根据预设的分类种子词筛选对应的语料词,可以剔除与网页类型无关的语料词,提高网页分类的准确率。
本实施例中,可以仅选择目标相似度最大的一个目标语料词对应的网页类别作为目标网页的分类结果;也可以按目标相似度由大到小的规则对目标语料词排序,选择前N个目标语料词对应的网页类别作为目标网页的分类结果;还可以选择目标相似度大于预设阈值的所有目标语料词对应的网页类别均作为目标网页的分类结果。其中,N和预设阈值均可根据实际应用需求设定,如N=10,预设阈值为80(以分值表示相似度)或者0.8(以余弦值表示相似度)。
在本申请一个可行的实施例中,上述步骤S16中,可以直接将评分模型文件中记录的目标语料词对应的相似度作为目标相似度;在本申请另一个可行的实施例中,还可以通过如下方法确定目标相似度:
分别设置所述目标标题和目标关键词对应的权重系数;
对于所述目标标题对应的第一目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述第一权重系数的乘积,得到所述第一目标语料词对应的目标相似度;
对于所述目标关键词对应的第二目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述第二权重系数的乘积,得到所述第二目标语料词对应的目标相似度。
由于一般情况下标题比关键字更能准确体现网页的类型,故所述目标标题对应的第一权重系数大于所述目标关键词对应的第二权重系数。例如,可以设置第一权重系数为1,第二权重系数为0.8,则第一目标语料词对应的目标相似度为其基准相似度与1的乘积,第二目标语料词对应的目标相似度为其基准相似度与0.8的乘积。
上述实施例中,通过设置权重系数,提高目标标题对应的目标语料词被确定为目标网页的分类结果的概率,提高网页分类的准确性。
参照图2,本申请另一个实施方式提供的网页分类方法可以包括如下步骤:
S201、获取各个网页的标头中的标题和关键词,并将获取到的标题和关键词作为语料词记录于语料库。
S202、通过词语转向量工具word2vec对所述语料库进行训练,得到所述语料库中的各个语料词对应的向量,并将各个语料词及对应的向量记录于分类模型文件。
S203、根据所述分类模型文件确定预设的每个网页类别对应的每个分类种子词对应的向量,计算同一网页类别对应的所有分类种子词的向量和。
S204、在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词,并将查找到的语料词、对应的相似度,以及所述向量和对应的网页类别记录于评分模型文件。
S205、针对同一域名下的各个网页,分别确定其分类结果。
参照图1所示实施例,确定同一域名下的各个网页的分类结果,具体步骤如下:针对每个网页,分别在评分模型文件中查找其标题和关键词对应的目标语料词,并确定查找到的目标语料词对应的目标相似度和目标网页类别,计算同一目标网页类别对应的目标相似度之和,选择目标相似度之和最大的至少一个目标网页类别作为对应网页的分类结果。
S206、判断所述同一域名下的各个网页的分类结果及其对应的相似度是否满足预设阈值条件,如果满足,则将对应的域名作为垂直域名记录于垂直域名列表。
由于一个域名下存在多个网页,一个网页的分类结果中存在多个网页类别,故一个域名也对应多个网页类别;判断某个域名是否为垂直域名的预设阈值条件至少包括如下三项:
1)该域名下的每个网页,作为其分类结果的网页类别对应的多个语料词的相似度之和在该网页对应的所有语料词的相似度之和中的占比高于第一比值。
例如,某个网页的分类结果中包括“小说”和“体育”两种网页类别,其中“小说”对应的语料词包括A和B,以分值表示的相似度分别为90和85,“体育”对应的语料词为C,对应的相似度为80,则“小说”对应的相似度占比计算式为(90+85)/(90+85+80)。
2)存在至少一个公共网页类别,该域名下分类结果中存在该公共网页类别的网页个数大于预设数值;
每个网页的分类结果中可以包括多种网页类别(即每个网页可以对应多种网页类别),不同网页的分类结果也可以存在同一网页类别(即不同网页对应的网页类别可以部分或全部相同),如果该域名下分类结果中存在网页类别D的网页个数大于预设数值,则D可以称为这些网页的公共网页类别。
3)存在至少一个公共网页类别,该域名下分类结果中存在该公共网页类别的网页个数与该域名下所有网页个数之间的比值大于第二比值。
上述第一比值、预设数值和第二比值都可以根据实际应用情况设定,本申请不作具体限定。如果某个域名对应的汇总结果同时满足上述三个条件,则可以判定该域名为垂直域名,即该域名对应的所有网页的类型相同。
另外,在判定某个域名为垂直域名时,本实施例还可以将满足上述条件2)和3)的公共网页类别作为该域名对应的网页类别(即该域名下的各个网页的类别均为公共网页类别),并对应记录其相似度。在一个可行的实施例中,可以在存储判断出的垂直域名的同时,存储其网页类别及对应的相似度,如可以将垂直域名对应的网页类别和相似度也记录于上述垂直域名列表中,以便于后续步骤查询使用(如下文步骤S210)。
S207、获取目标网页的标头中的目标标题和目标关键词,如果获取成功,则执行步骤S208,否则执行步骤S209。
S208、在所述评分模型文件中查找所述目标标题和目标关键词对应的目标语料词,根据所述评分模型文件确定各个目标语料词对应的目标相似度和目标网页类别,并执行步骤S212。
S209、在所述目标标题或目标关键词缺失的情况下,判断所述域名垂直列表中是否存在所述目标网页对应的目标域名,如果存在,则执行步骤S210,否则执行步骤S211。
S210、根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度,并执行步骤S212。
根据垂直域名规则,垂直域名对应的所有网页的网页类别相同,可以直接将目标域名对应的网页类别及相似度相应作为目标网页的目标网页类别和目标相似度。
在本申请一个可行的实施例中,可以在步骤S206的判断过程得到的公共网页类别及对应的相似度记录为相应垂直域名的网页类别和相似度,从而在步骤S210中直接在记录结果中读取目标域名。
在本申请另一个可行的实施例中,还可以直接设置各个垂直域名对应的网页类别及其相似度,例如,可以设置域名“sports.sina.com.cn”对应的网页类别为“体育”,相似度为90。
S211、根据所述目标网页对应的URL确定所述目标网页对应的目标网页类别和目标相似度,并执行步骤S212。
本申请实施例中,可以针对常见域名及常见特性的URL预设并存储相应的网页类别和相似度;例如,可以预设满足如下特性“xxx.com/sport”的URL对应的网页类别为“体育”,相似度为80。
S212、计算同一目标网页类别对应的目标相似度之和,选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。
上述步骤中,S209至S211作为目标网页的标头数据缺失(包括缺少标题、关键词等)时的补充步骤,即由于标头数据缺失,无法通过步骤S208确定目标网页的目标网页类别和目标相似度,通过执行步骤S209至S211可以根据目标网页对应的目标域名或URL特性确定其目标网页类别及目标相似度,从而保证分类结果的准确性。其中,虽然对于任意目标网页,均可根据其URL特性确定其目标网页类别及目标相似度,但由于上述垂直域名规则为强规则,URL特性为弱规则,即在两种方法都可行的前提下,前者准确度更高,故在目标域名为垂直域名的情况下,优先根据该目标域名确定目标网页的目标网页类别及目标相似度,在目标域名不是垂直域名的情况下(目标域名不符合垂直域名规则,不能根据目标域名确定目标网页类别及目标相似度),才根据目标网页的URL特性确定其目标网页类别及目标相似度。
由上述技术方案可知,本申请实施例预先根据评分模型文件分析涉及到的域名是否为垂直域名,从而在目标网页的标头数据缺失(包括缺少标题、关键词等)时,根据目标网页的目标域名或URL确定其目标网页类别和目标相似度,保证分类成功且分类准确,其中,如果目标域名为垂直域名,则优先根据目标域名确定目标网页类型和目标相似度,如果目标域名不是垂直域名,则根据目标网页的URL特性确定目标网页类型和目标相似度。可见,本申请实施例提供的基于域名和URL的补充步骤,可以避免因标头缺失导致对目标网页分类精度不够甚至分类失败的问题,且简单易实现,不会影响网页分类效率。
图3是根据一示例性实施例示出的一种网页分类装置框图。参照图3,该装置包括:语料提取单元100、语料训练单元200、语料筛选单元300、目标网页处理单元400和网页类别确定单元500。
该语料提取单元100被配置为,用于获取各个网页的标头中的标题和关键词,并将获取到的标题和关键词作为语料词记录于语料库。
该语料训练单元200被配置为,通过词语转向量工具word2vec对所述语料库进行训练,得到所述语料库中的各个语料词对应的向量,并将各个语料词及对应的向量记录于分类模型文件。
该语料筛选单元300被配置为,根据所述分类模型文件确定预设的每个网页类别对应的每个分类种子词对应的向量,计算同一网页类别对应的所有分类种子词的向量和,在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词,并将查找到的语料词、对应的相似度,以及所述向量和对应的网页类别记录于评分模型文件。
该目标网页处理单元400被配置为,获取目标网页的标头中的目标标题和目标关键词,在所述评分模型文件中查找所述目标标题和目标关键词对应的目标语料词,根据所述评分模型文件确定各个目标语料词对应的目标相似度和目标网页类别。
该网页类别确定单元500被配置为,计算同一目标网页类别对应的目标相似度之和,选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。
由以上技术方案可知,本申请实施例将语料库中的各个语料词转换为向量,从而将语料词之间的比较、相似度分析等处理过程,转换为向量的运算,更便于计算机自动化的实现,从而提高网页分类效率;同时,本申请实施例根据多个预设的分类种子词对应筛选语料词,可以剔除与网页类型无关的语料词,提高网页分类的准确率。
在本申请一个可行的实施例中,为确定各个目标语料词对应的目标相似度,上述目标网页处理单元400可以包括:权重系数设置单元和目标相似度计算单元。
其中,该权重系数设置单元被配置为,分别设置所述目标标题和目标关键词对应的权重系数;
该目标相似度计算单元被配置为,对于所述目标标题对应的第一目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述目标标题对应的第一权重系数的乘积,得到所述第一目标语料词对应的目标相似度;对于所述目标关键词对应的第二目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述目标关键词对应的第二权重系数的乘积,得到所述第二目标语料词对应的目标相似度。
参见图4,本申请其他可行的实施例提供的网页分类装置还可以包括垂直域名判断单元600。
该垂直域名判断单元600被配置为,将同一域名下的各个网页分别作为所述目标网页,确定其分类结果,并判断所述同一域名下的各个网页的分类结果及其对应的相似度是否满足预设阈值条件,如果满足,则将对应的域名作为垂直域名记录于垂直域名列表。
另外,基于垂直域名判断单元600,本实施例提供的网页分类装置还可以包括目标域名处理单元700。
该目标域名处理单元700被配置为,在所述目标标题或目标关键词获取失败时,判断所述域名垂直列表中是否存在所述目标网页对应的目标域名,如果所述域名垂直列表中存在所述目标域名,则根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度。
进一步的,本实施例提供的网页分类装置还可以包括URL处理单元800;该URL处理单元800被配置为,在目标域名处理单元700判断所述域名垂直列表中不存在所述目标域名时,根据所述目标网页对应的统一资源定位符URL确定所述目标网页对应的目标网页类别和目标相似度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
另外,本申请实施例还提供了一种计算机存储介质,例如可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等;该计算机存储介质中存储有程序,当所述存储介质中的程序由相关设备的处理器执行时,使得该设备能够执行上述方法实施例中记载的网页分类方法的部分或全部步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种网页分类方法,其特征在于,包括:
获取各个网页的标头中的标题和关键词,并将获取到的标题和关键词作为语料词记录于语料库;
通过词语转向量工具word2vec对所述语料库进行训练,得到所述语料库中的各个语料词对应的向量,并将各个语料词及对应的向量记录于分类模型文件;
根据所述分类模型文件确定预设的每个网页类别对应的每个分类种子词对应的向量,计算同一网页类别对应的所有分类种子词的向量和;
在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词,并将查找到的语料词、对应的相似度,以及所述向量和对应的网页类别记录于评分模型文件;
获取目标网页的标头中的目标标题和目标关键词,在所述评分模型文件中查找所述目标标题和目标关键词对应的目标语料词;
根据所述评分模型文件确定各个目标语料词对应的目标相似度和目标网页类别;
计算同一目标网页类别对应的目标相似度之和,选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。
2.根据权利要求1所述的网页分类方法,其特征在于,所述根据所述评分模型文件确定各个目标语料词对应的目标相似度,包括:
分别设置所述目标标题和目标关键词对应的权重系数;
对于所述目标标题对应的第一目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述目标标题对应的第一权重系数的乘积,得到所述第一目标语料词对应的目标相似度;
对于所述目标关键词对应的第二目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述目标关键词对应的第二权重系数的乘积,得到所述第二目标语料词对应的目标相似度。
3.根据权利要求1或2所述的网页分类方法,其特征在于,还包括:
将同一域名下的各个网页分别作为所述目标网页,确定其分类结果;
判断所述同一域名下的各个网页的分类结果及其对应的相似度是否满足预设阈值条件,如果满足,则将对应的域名作为垂直域名记录于垂直域名列表。
4.根据权利要求3所述的网页分类方法,其特征在于,还包括:
如果所述目标标题或目标关键词获取失败,则判断所述域名垂直列表中是否存在所述目标网页对应的目标域名;
如果所述域名垂直列表中存在所述目标域名,则根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度。
5.根据权利要求4所述的网页分类方法,其特征在于,还包括:
如果所述域名垂直列表中存在所述目标域名,则根据所述目标网页对应的统一资源定位符URL确定所述目标网页对应的目标网页类别和目标相似度。
6.一种网页分类装置,其特征在于,包括:
语料提取单元,用于获取各个网页的标头中的标题和关键词,并将获取到的标题和关键词作为语料词记录于语料库;
语料训练单元,用于通过词语转向量工具word2vec对所述语料库进行训练,得到所述语料库中的各个语料词对应的向量,并将各个语料词及对应的向量记录于分类模型文件;
语料筛选单元,用于根据所述分类模型文件确定预设的每个网页类别对应的每个分类种子词对应的向量,计算同一网页类别对应的所有分类种子词的向量和,在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词,并将查找到的语料词、对应的相似度,以及所述向量和对应的网页类别记录于评分模型文件;
目标网页处理单元,用于获取目标网页的标头中的目标标题和目标关键词,在所述评分模型文件中查找所述目标标题和目标关键词对应的目标语料词,根据所述评分模型文件确定各个目标语料词对应的目标相似度和目标网页类别;
网页类别确定单元,用于计算同一目标网页类别对应的目标相似度之和,选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。
7.根据权利要求6所述的网页分类装置,其特征在于,为实现确定各个目标语料词对应的目标相似度,所述目标网页处理单元包括:
权重系数设置单元,用于分别设置所述目标标题和目标关键词对应的权重系数;
目标相似度计算单元,用于对于所述目标标题对应的第一目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述目标标题对应的第一权重系数的乘积,得到所述第一目标语料词对应的目标相似度;对于所述目标关键词对应的第二目标语料词,计算其在所述评分模型文件中对应的基准相似度与所述目标关键词对应的第二权重系数的乘积,得到所述第二目标语料词对应的目标相似度。
8.根据权利要求6或7所述的网页分类装置,其特征在于,所述的装置还包括:
垂直域名判断单元,用于将同一域名下的各个网页分别作为所述目标网页,确定其分类结果,并判断所述同一域名下的各个网页的分类结果及其对应的相似度是否满足预设阈值条件,如果满足,则将对应的域名作为垂直域名记录于垂直域名列表。
9.根据权利要求8所述的网页分类装置,其特征在于,所述的装置还包括:
目标域名处理单元,用于在所述目标标题或目标关键词获取失败时,判断所述域名垂直列表中是否存在所述目标网页对应的目标域名,如果所述域名垂直列表中存在所述目标域名,则根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度。
10.根据权利要求9所述的网页分类装置,其特征在于,所述的装置还包括:
URL处理单元,用于在所述域名垂直列表中存在所述目标域名时,根据所述目标网页对应的统一资源定位符URL确定所述目标网页对应的目标网页类别和目标相似度。
CN201510230951.2A 2015-05-08 2015-05-08 网页分类方法及装置 Expired - Fee Related CN106202124B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510230951.2A CN106202124B (zh) 2015-05-08 2015-05-08 网页分类方法及装置
PCT/CN2016/081139 WO2016180270A1 (zh) 2015-05-08 2016-05-05 网页分类方法和装置、计算设备以及机器可读存储介质
US15/505,851 US10997256B2 (en) 2015-05-08 2016-05-05 Webpage classification method and apparatus, calculation device and machine readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510230951.2A CN106202124B (zh) 2015-05-08 2015-05-08 网页分类方法及装置

Publications (2)

Publication Number Publication Date
CN106202124A CN106202124A (zh) 2016-12-07
CN106202124B true CN106202124B (zh) 2019-12-31

Family

ID=57248605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510230951.2A Expired - Fee Related CN106202124B (zh) 2015-05-08 2015-05-08 网页分类方法及装置

Country Status (3)

Country Link
US (1) US10997256B2 (zh)
CN (1) CN106202124B (zh)
WO (1) WO2016180270A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733695B (zh) * 2017-04-18 2020-04-03 腾讯科技(深圳)有限公司 用户搜索串的意图识别方法及装置
CN107436864B (zh) * 2017-08-04 2021-03-02 识因智能科技(北京)有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN107784099A (zh) * 2017-10-24 2018-03-09 济南浪潮高新科技投资发展有限公司 一种自动生成中文新闻摘要的方法
CN108256104B (zh) * 2018-02-05 2020-05-26 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
CN110147881B (zh) * 2018-03-13 2022-11-22 腾讯科技(深圳)有限公司 语言处理方法、装置、设备及存储介质
US10671812B2 (en) 2018-03-22 2020-06-02 Equifax Inc. Text classification using automatically generated seed data
CN109388665B (zh) * 2018-09-30 2020-10-09 吉林大学 作者关系在线挖掘方法及系统
CN109359301A (zh) * 2018-10-19 2019-02-19 国家计算机网络与信息安全管理中心 一种网页内容的多维度标注方法及装置
CN109462582B (zh) * 2018-10-30 2020-11-20 腾讯科技(深圳)有限公司 文本识别方法、装置、服务器及存储介质
CN109829478B (zh) * 2018-12-29 2024-05-07 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
US11080358B2 (en) 2019-05-03 2021-08-03 Microsoft Technology Licensing, Llc Collaboration and sharing of curated web data from an integrated browser experience
CN110263175B (zh) * 2019-06-27 2022-05-03 北京金山安全软件有限公司 一种信息归类的方法、装置及电子设备
CN110674442B (zh) * 2019-09-17 2023-08-18 中国银联股份有限公司 页面监控方法、装置、设备及计算机可读存储介质
CN110705290B (zh) * 2019-09-29 2023-06-23 新华三信息安全技术有限公司 一种网页分类方法及装置
CN110991509B (zh) * 2019-11-25 2023-08-01 杭州安恒信息技术股份有限公司 基于人工智能技术的资产识别与信息分类方法
CN111325032B (zh) * 2020-02-21 2023-06-16 中国建设银行股份有限公司 一种5g+智能银行机构名称的规范化方法及装置
CN111382337B (zh) * 2020-03-10 2023-04-25 开封博士创新技术转移有限公司 一种信息对接匹配方法、装置、服务器及可读存储介质
CN111898369B (zh) * 2020-08-17 2024-03-08 腾讯科技(深圳)有限公司 文章标题生成方法、模型的训练方法、装置和电子设备
CN113076453A (zh) * 2021-03-22 2021-07-06 鹏城实验室 域名分类方法、设备及计算机可读存储介质
US20230409649A1 (en) * 2022-06-21 2023-12-21 Uab 360 It Systems and methods for categorizing domains using artificial intelligence

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207961A (zh) * 2011-05-25 2011-10-05 盛乐信息技术(上海)有限公司 一种网页自动分类方法及装置
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN104424308A (zh) * 2013-09-04 2015-03-18 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
CN1158460A (zh) 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6360227B1 (en) * 1999-01-29 2002-03-19 International Business Machines Corporation System and method for generating taxonomies with applications to content-based recommendations
US7240067B2 (en) * 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US8027876B2 (en) * 2005-08-08 2011-09-27 Yoogli, Inc. Online advertising valuation apparatus and method
US8060505B2 (en) * 2007-02-13 2011-11-15 International Business Machines Corporation Methodologies and analytics tools for identifying white space opportunities in a given industry
US7822742B2 (en) * 2008-01-02 2010-10-26 Microsoft Corporation Modifying relevance ranking of search result items
JP4915021B2 (ja) * 2008-09-10 2012-04-11 ヤフー株式会社 検索装置、および検索装置の制御方法
US20110004588A1 (en) * 2009-05-11 2011-01-06 iMedix Inc. Method for enhancing the performance of a medical search engine based on semantic analysis and user feedback
US8326820B2 (en) * 2009-09-30 2012-12-04 Microsoft Corporation Long-query retrieval
US8554854B2 (en) * 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages
KR101095069B1 (ko) * 2010-02-03 2011-12-20 고려대학교 산학협력단 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
US8886587B1 (en) * 2011-04-01 2014-11-11 Google Inc. Model development and evaluation
US8635107B2 (en) * 2011-06-03 2014-01-21 Adobe Systems Incorporated Automatic expansion of an advertisement offer inventory
CN102955791A (zh) * 2011-08-23 2013-03-06 句容今太科技园有限公司 网络信息搜索与分类服务系统
US8713028B2 (en) * 2011-11-17 2014-04-29 Yahoo! Inc. Related news articles
US9020950B2 (en) * 2011-12-19 2015-04-28 Palo Alto Research Center Incorporated System and method for generating, updating, and using meaningful tags
US8972376B1 (en) * 2013-01-02 2015-03-03 Palo Alto Networks, Inc. Optimized web domains classification based on progressive crawling with clustering
CN103605702A (zh) 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法
CN103605794B (zh) 2013-12-05 2017-02-15 国家计算机网络与信息安全管理中心 一种网站分类方法
CN104331498B (zh) 2014-11-19 2017-08-01 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
JP5942052B1 (ja) * 2014-12-26 2016-06-29 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
AU2020212023A1 (en) * 2019-01-23 2021-07-08 Medullar Solutions Inc. Data processing system for data search and retrieval augmentation and enhanced data storage

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207961A (zh) * 2011-05-25 2011-10-05 盛乐信息技术(上海)有限公司 一种网页自动分类方法及装置
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN104424308A (zh) * 2013-09-04 2015-03-18 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A Study on Sentiment Computing and Classification of Sina Weibo with Word2vec";Bai Xue等;《2014 IEEE International Congress on Big Data》;20140925;第358页第2栏第17-32行 *

Also Published As

Publication number Publication date
CN106202124A (zh) 2016-12-07
US20180218241A1 (en) 2018-08-02
US10997256B2 (en) 2021-05-04
WO2016180270A1 (zh) 2016-11-17

Similar Documents

Publication Publication Date Title
CN106202124B (zh) 网页分类方法及装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN109271477B (zh) 一种借助互联网构建分类语料库的方法及系统
JP3598742B2 (ja) 文書検索装置及び文書検索方法
CN110427563B (zh) 一种基于知识图谱的专业领域系统冷启动推荐方法
CN108197117B (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
US9846744B2 (en) Media discovery and playlist generation
US8433698B2 (en) Matching and recommending relevant videos and media to individual search engine results
AU2011326430B2 (en) Learning tags for video annotation using latent subtags
Lu et al. A new algorithm for inferring user search goals with feedback sessions
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
US20080250039A1 (en) Discovering and scoring relationships extracted from human generated lists
US20080154886A1 (en) System and method for summarizing search results
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
US20120078907A1 (en) Keyword presentation apparatus and method
CN110543595A (zh) 一种站内搜索系统及方法
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
JP4703487B2 (ja) 画像分類方法及び装置及びプログラム
CN111723179A (zh) 基于概念图谱的反馈模型信息检索方法、系统及介质
Tian et al. Automatic image annotation with real-world community contributed data set
JP2017068742A (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
CN110955845A (zh) 用户兴趣识别方法及装置、搜索结果处理方法及装置
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200529

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping B radio 14 floor tower square

Patentee before: GUANGZHOU UCWEB COMPUTER TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191231

Termination date: 20200508

CF01 Termination of patent right due to non-payment of annual fee