CN100578500C - 一种网页分类方法及装置 - Google Patents
一种网页分类方法及装置 Download PDFInfo
- Publication number
- CN100578500C CN100578500C CN200610167466A CN200610167466A CN100578500C CN 100578500 C CN100578500 C CN 100578500C CN 200610167466 A CN200610167466 A CN 200610167466A CN 200610167466 A CN200610167466 A CN 200610167466A CN 100578500 C CN100578500 C CN 100578500C
- Authority
- CN
- China
- Prior art keywords
- classification
- text
- webpage
- feature
- anchor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200610167466A CN100578500C (zh) | 2006-12-20 | 2006-12-20 | 一种网页分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200610167466A CN100578500C (zh) | 2006-12-20 | 2006-12-20 | 一种网页分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101178714A CN101178714A (zh) | 2008-05-14 |
CN100578500C true CN100578500C (zh) | 2010-01-06 |
Family
ID=39404972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200610167466A Active CN100578500C (zh) | 2006-12-20 | 2006-12-20 | 一种网页分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100578500C (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8204838B2 (en) * | 2009-04-10 | 2012-06-19 | Microsoft Corporation | Scalable clustering |
CN101593200B (zh) * | 2009-06-19 | 2012-10-03 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN101937436B (zh) * | 2009-06-29 | 2013-09-25 | 华为技术有限公司 | 一种文本分类方法及装置 |
CN102135967B (zh) * | 2010-01-27 | 2013-06-05 | 华为技术有限公司 | 网页关键词提取方法、装置及系统 |
CN102169496A (zh) * | 2011-04-12 | 2011-08-31 | 清华大学 | 基于锚文本分析的领域术语自动生成方法 |
JP5389130B2 (ja) * | 2011-09-15 | 2014-01-15 | 株式会社東芝 | 文書分類装置、方法およびプログラム |
CN103309862B (zh) * | 2012-03-07 | 2017-05-17 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
CN103514168B (zh) * | 2012-06-15 | 2017-05-03 | 富士通株式会社 | 数据处理方法和设备 |
CN103631787B (zh) * | 2012-08-22 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 网页类型识别方法以及网页类型识别装置 |
CN102831246B (zh) * | 2012-09-17 | 2014-09-24 | 中央民族大学 | 藏文网页分类方法和装置 |
CN103678400B (zh) * | 2012-09-21 | 2017-12-01 | 腾讯科技(深圳)有限公司 | 基于群体搜索行为的网页分类方法及装置 |
CN104239300B (zh) * | 2013-06-06 | 2017-10-20 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN104572775B (zh) * | 2013-10-28 | 2019-02-15 | 深圳市腾讯计算机系统有限公司 | 广告分类方法、装置及服务器 |
CN104915327B (zh) | 2014-03-14 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 一种文本信息的处理方法及装置 |
CN103914538B (zh) * | 2014-04-01 | 2017-02-15 | 浙江大学 | 基于锚文本上下文和链接分析的主题抓取方法 |
CN104573021A (zh) * | 2015-01-12 | 2015-04-29 | 浪潮软件集团有限公司 | 一种针对互联网行为进行分析的方法 |
CN104933178B (zh) * | 2015-07-01 | 2018-09-11 | 北京奇虎科技有限公司 | 官方网站确定方法和系统及官方网站的排序方法 |
CN104965926B (zh) * | 2015-07-14 | 2019-03-26 | 安一恒通(北京)科技有限公司 | 网页提供方法及装置 |
CN106484729B (zh) * | 2015-08-31 | 2020-05-08 | 华为技术有限公司 | 一种词汇生成、分类方法及装置 |
CN105243091B (zh) * | 2015-09-11 | 2018-11-13 | 晶赞广告(上海)有限公司 | 基于超链分析的页面语义信息提取方法及系统 |
CN106874282A (zh) * | 2015-12-11 | 2017-06-20 | 北京奇虎科技有限公司 | 候选页面集合的生成方法及装置 |
CN108345599B (zh) * | 2017-01-23 | 2021-12-14 | 阿里巴巴集团控股有限公司 | 网页类型确定方法、装置及计算机可读介质 |
CN108960952A (zh) * | 2017-05-24 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种违禁信息的检测方法及装置 |
CN107368542B (zh) * | 2017-06-27 | 2020-08-14 | 山东华软金盾软件股份有限公司 | 一种涉密数据的涉密等级评定方法 |
CN110322153A (zh) * | 2019-07-09 | 2019-10-11 | 中国工商银行股份有限公司 | 监控事件处理方法及系统 |
-
2006
- 2006-12-20 CN CN200610167466A patent/CN100578500C/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101178714A (zh) | 2008-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100578500C (zh) | 一种网页分类方法及装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN102227724B (zh) | 对于音译的机器学习 | |
CN106682169B (zh) | 一种应用标签挖掘方法、装置和应用搜索方法、服务器 | |
US9183226B2 (en) | Image classification | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
Ahmed et al. | Language identification from text using n-gram based cumulative frequency addition | |
US20090319449A1 (en) | Providing context for web articles | |
CN103106287B (zh) | 一种用户检索语句的处理方法及系统 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN102402604A (zh) | 搜索引擎的有效前向排序 | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
CN101510221A (zh) | 一种用于信息检索的查询语句分析方法与系统 | |
CN107357777B (zh) | 提取标签信息的方法和装置 | |
CN102279843A (zh) | 处理短语数据的方法以及装置 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN110765761A (zh) | 基于人工智能的合同敏感词校验方法、装置及存储介质 | |
CN111160019A (zh) | 一种舆情监测的方法、装置及系统 | |
CN111832290A (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN110781669A (zh) | 文本关键信息提取方法与装置、电子设备、存储介质 | |
CN111538836A (zh) | 一种识别文本类广告中金融广告的方法 | |
CN111160007B (zh) | 基于bert语言模型的搜索方法、装置、计算机设备及存储介质 | |
CN102999521A (zh) | 一种识别搜索需求的方法和装置 | |
CN115080750A (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN110008312A (zh) | 一种文档写作助手实现方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD. Effective date: 20131025 |
|
C41 | Transfer of patent application or patent right or utility model | ||
COR | Change of bibliographic data |
Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE |
|
TR01 | Transfer of patent right |
Effective date of registration: 20131025 Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd. Address before: 2, 518044, East 410 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District Patentee before: Tencent Technology (Shenzhen) Co., Ltd. |