CN116361362B - 一种基于网页内容识别的用户信息挖掘方法与系统 - Google Patents

一种基于网页内容识别的用户信息挖掘方法与系统 Download PDF

Info

Publication number
CN116361362B
CN116361362B CN202310617728.8A CN202310617728A CN116361362B CN 116361362 B CN116361362 B CN 116361362B CN 202310617728 A CN202310617728 A CN 202310617728A CN 116361362 B CN116361362 B CN 116361362B
Authority
CN
China
Prior art keywords
data
information
user information
text
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310617728.8A
Other languages
English (en)
Other versions
CN116361362A (zh
Inventor
陈景宏
孙斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Dingyi Technology Development Co ltd
Original Assignee
Jiangxi Dingyi Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Dingyi Technology Development Co ltd filed Critical Jiangxi Dingyi Technology Development Co ltd
Priority to CN202310617728.8A priority Critical patent/CN116361362B/zh
Publication of CN116361362A publication Critical patent/CN116361362A/zh
Application granted granted Critical
Publication of CN116361362B publication Critical patent/CN116361362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于网页内容识别的用户信息挖掘方法与系统。该用户信息挖掘方法周期性提取社交媒体网页中页面数据,根据第一文本数据挖掘页面源码,再挖掘页面源码中的第二文本数据,输入第二参考信息提取域名信息中的账号信息,再基于二级超链接网址提取用户信息。本发明可以根据使用者提供的第一参考信息和第二参考信息,挖掘有效的用户信息。本发明以第一参考信息建立索引权重,优先识别相似度较高的图像数据,可以提高挖掘用户信息的效率。

Description

一种基于网页内容识别的用户信息挖掘方法与系统
技术领域
本发明涉及网页数据处理技术,尤其涉及一种基于网页内容识别的用户信息挖掘方法与系统。
背景技术
大数据时代下信息传播速度更快,尤其是在社交媒体网页中,具有商业价值的用户信息处于公开状态。获取用户信息对于优化网络营销渠道具有重要的商业价值,能够大大提高商业行为的精确度。现有技术中,CN114385709A公开了一种用户信息挖掘方法及装置,通过不同维度权重评分挖掘决策人,该方案仅适用于通话业务。另外,CN112667702A公开了一种基于大数据的数据挖掘系统,通过单独建立分布式的大数据分析和挖掘平台,用于数据分析挖掘、模型部署以及平台集成的管理,用于泛化大数据信息的挖掘和信息处理。但是该方案没有涉及从页面内容识别实现用户信息挖掘的方法。因此,现有技术希望能够具有一种通过页面内容提取用户信息的技术手段,用于解决社交媒体网页用户信息获取难的技术问题。
发明内容
针对上述问题,本发明提供了一种基于网页内容识别的用户信息挖掘方法与系统。该方法通过获取社交媒体网页的页面数据,根据第一文本数据挖掘页面源码,挖掘页面源码中的第二文本数据,输入第二参考信息提取域名信息中的账号信息,再基于二级超链接网址提取用户信息。
进一步的,本发明基于标签建立图像数据的索引表,并按照用户信息的准确性修正索引权重,优先识别记载用户信息频率较高的图像数据。再进一步的,本发明将社交媒体网页更新时的数据请求项作为挖掘对象,扩大了数据范围,可以提高数据提取的成功率。
本申请的发明目的可通过以下技术手段实现:
一种基于网页内容识别的用户信息挖掘方法,包括以下步骤:
步骤1:输入社交媒体网页的地址,根据该地址获取社交媒体网页中的页面数据,基于页面生成规则提取第一文本数据和多组图像数据;
步骤2:根据第一文本数据提取社交媒体网页的页面源码,并挖掘所述页面源码中的第二文本数据;
步骤3:输入第一参考信息,基于第一参考信息提取第二文本数据的域名信息;
步骤4:判断域名信息是否有效,若域名信息有效,则进入步骤5,若域名信息无效,则进入步骤7;
步骤5:输入第二参考信息,提取域名信息的账号信息,再获取账号信息的二级超链接网址,基于第二参考信息抓取二级超链接网址中的用户信息;
步骤6:判断用户信息是否有效,若用户信息有效,则进入步骤9,若用户信息无效,则进入步骤7;
步骤7:根据图像数据的标签建立图像数据的索引表,根据预设的索引权重排列所述索引表的图像数据;
步骤8:按照索引表顺序逐一调用图像数据,识别图像数据中的用户信息,若用户信息有效,调整该图像数据的索引权重,否则继续调用图像数据;
步骤9:存储所述用户信息。
在本发明中,在步骤1中,页面生成规则包括页面结构与页面内各个数据项的位置,将页面数据的HTML文档转换为XHTML文档,提取所述XHTML文档中的标签,保留指向第一文本数据和图像数据的至少一个标签,构成所述页面结构。
在本发明中,在步骤1中,建立Ajax异步数据加载模块,监听社交媒体网页的数据请求项,查找数据请求项的缓存文本与缓存图像,将缓存文本纳入所述第一文本数据,将缓存图像纳入所述图像数据。
在本发明中,在步骤2中,记录解析页面源码后返回的cookie,写入多个cookie后构建cookie池,根据cookie池的脚本提取第二文本数据。
在本发明中,第一参考信息为用户身份编码,第二参考信息为基于域名信息确定的URL链接。
在本发明中,在步骤4中,对域名信息进行DNS解析,若解析成功则返回IP地址,该域名信息有效,若未返回IP地址,域名信息无效。
在本发明中,在步骤6中,若所述用户信息缺失属性字段或包含无效字段,则用户信息无效,否则用户信息有效。
在本发明中,在步骤7中,提取图像数据的二值特征与第一参考信息的文本特征,图像数据的索引权重为,/>为文本特征i与二值特征d的相似度,f1为第一参考信息的所有文本特征,f2为图像数据的所有二值特征。
在本发明中,在步骤8中,调整后的索引权重,A为调整系数,ta为从该图像数据提取有效用户信息的次数,tmax为提取有效用户信息的总次数。
一种实现所述基于网页内容识别的用户信息挖掘方法的用户信息挖掘系统,包括第一数据识别模块、第二数据识别模块、第三数据识别模块、文本分析模块、图像分析模块、判别模块、第一数据库、第二数据库,其中,
第一数据识别模块用于提取页面数据的第一文本数据和多组图像数据;
第二数据识别模块用于提取社交媒体网页的页面源码并挖掘第二文本数据;
第三数据识别模块用于提取第二文本数据的域名信息;
文本分析模块用于抓取二级超链接网址中的用户信息;
图像分析模块用于识别图像数据中的用户信息;
判别模块用于判断域名信息和用户信息是否有效;
第一数据库用于根据索引表并存储图像数据;
第二数据库用于存储用户信息。
实施本发明的基于网页内容识别的用户信息挖掘方法与系统,具有以下有益效果:本发明通过周期性提取社交媒体网页中页面数据,可以按照使用者提供的第一参考信息和第二参考信息精确抓取社交媒体网页中的相关数据。鉴于图像数据识别速度慢,本发明以第一参考信息建立索引权重,优先识别相似度较高的图像数据,可以提高挖掘用户信息的效率。当社交媒体网页数量较多时,本发明将社交媒体网页更新时的数据请求项作为挖掘对象,可以提高数据提取的成功率。
附图说明
图1为本发明的基于网页内容识别的用户信息挖掘方法的流程图;
图2为本发明的社交媒体网页的示意图;
图3为本发明的拼接URL链接的示例图;
图4为本发明的基于第一参考信息提取域名信息的原理图;
图5为本发明优选的提取社交媒体网页数据的方法的示意图;
图6为本发明优选的通过二级超链接网址内生成用户信息的方法的示意图;
图7为本发明的用户信息挖掘系统的硬件框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
商业用户信息广泛存在于各类社交媒体网页中,社交媒体网页中账号信息和域名信息可以作为查找商业用户信息的主要方法。大部分社交媒体网页中,域名信息由公司名称、账号信息、域名主体构成。而账号信息、域名信息在社交媒体网页中可以作为挖掘用户信息的条件。本发明的这种基于网页内容识别的用户信息挖掘方法与系统,可以按照使用者提供的第一参考信息和第二参考信息精确抓取社交媒体网页中的相关数据。同时以第一参考信息建立索引权重,优先识别相似度较高的图像数据,可以提高挖掘用户信息的效率。
实施例一
本实施例的的基于网页内容识别的用户信息挖掘方法,基于账号信息、域名信息访问社交媒体网页主页后,基于分布式爬虫架构获取网页源码及二级超级链接,在二级超级链接中获取用户信息。参照图1,该用户信息挖掘方法包括以下步骤:
步骤1:输入社交媒体网页的地址,根据该地址获取社交媒体网页中的页面数据,基于页面生成规则提取第一文本数据和多组图像数据。使用者根据待获取目标商业信息的需求指定任意一包含用户信息的社交媒体网页。社交媒体网页包括互联网信息发布平台、社交书签、博客与论坛。如图2,在本实施例的社交媒体网页泛指所有的互联网信息发布平台、社交书签、博客与论坛等所有包含个人职员信息、联系方式的社交平台。所以第一文本数据至少包括社交媒体网页的残缺账号信息与残缺域名信息。
页面生成规则包括页面结构与页面内各个数据项的位置,将页面数据的HTML文档转换为XHTML文档,提取所述XHTML文档中的标签,删除与文本数据以及图像数据无关的标签,保留指向第一文本数据和图像数据的至少一个标签,构成所述页面结构。
步骤2:根据第一文本数据提取社交媒体网页的页面源码,并挖掘所述页面源码中的第二文本数据。在本实施例中,在web服务器内设定一脚本,提取内置的多条URL链接,过滤得到与该社交媒体网页相关的URL链接,将URL链接置入待挖掘队列中。针对URL链接不完整,根据预设的拼接参数拼接URL链接。参照图3,拼接完成后的URL链接例如为:company=XXX&timescope=custom:XXX&typeall=1&suball=1&page=2。
在对社交媒体网页的页面源码挖掘的第一个周期内,记录web服务器解析页面源码后返回的cookie,写入多个cookie后构建cookie池,根据cookie池的脚本提取第二文本数据。所述第二文本数据至少包括社交媒体网页中所有的残缺网页链接与残缺邮箱信息。
步骤3:输入第一参考信息,基于第一参考信息提取第二文本数据的域名信息。在本实施例中,所述第一参考信息为用户身份编码。用户身份编码转换为HTML文档,经过浏览器进行lxml解析后得到规范化的HTML文件,通过id_class以及xpath方法识别第二文本数据的域名信息,基于第一参考信息提取域名信息的原理参照图4。
步骤4:判断域名信息是否有效,若域名信息有效,则进入步骤5,若域名信息无效,则进入步骤7。 在本实施例中,域名信息是否有效根据域名信息的完整度进行评价,具体包括标准域名结构、账号域名结构、缓存域名结构,在判断模块识别域名信息是否完整的阶段。首先,识别是否为标准域名结构,若是,则进行账号域名结构的判断,若否,则认定域名信息无效;其次,识别账号域名结构的完整性,若是,则进行缓存域名结构的判断,若否,则认定域名信息无效;最后,识别缓存域名结构的完整性,若是,则输出该域名信息,若否,则认定域名信息无效。在另一个具体实施例中,可以对域名信息进行DNS解析,若解析成功则返回IP地址,该域名信息有效,若未返回IP地址,则域名信息无效。
步骤5:输入第二参考信息,提取域名信息的账号信息,再获取账号信息的二级超链接网址,基于第二参考信息抓取二级超链接网址中的用户信息。在本实施例中,基于域名信息确定的使用者账号及使用者账号的URL链接,将使用者账号的URL链接转换为HTML文档,下载对应的首页源码,将包含About,Contus 字符串的网址排列在最前面,获取前10个二级超链接网址。将第二参考信息进行分类,打开二级超链接网址,输入查找条件后通过支持向量机提取二级超链接网址内的用户信息。查找条件为包含用户信息的特征,用户信息至少包括完整的职员信息、联系方式。
步骤6:判断用户信息是否有效,若用户信息有效,则进入步骤9,若用户信息无效,则进入步骤7。本实施例例如通过所述用户信息缺失属性字段或包含无效字段判断用户信息是否有效。
步骤7:根据图像数据的标签建立图像数据的索引表,根据预设的索引权重排列所述索引表的图像数据。提取图像数据的二值特征与第一参考信息的文本特征,图像数据的索引权重为,/>为文本特征i与二值特征d的相似度,f1为第一参考信息的所有文本特征,f2为图像数据的所有二值特征。
步骤8:按照索引表顺序逐一调用图像数据,识别图像数据中的用户信息,若用户信息有效,调整该图像数据的索引权重,否则继续调用图像数据。在相同的网页结构中,同类图像数据的标签固定。在下一次数据挖掘中,由于部分标签对应的图像数据的索引权重发生改变,根据标签建立图像数据的索引表的顺序发生调整。优先调取多次提取到有效用户信息的图像数据。调整后的索引权重,A为调整系数,ta为从该图像数据提取有效用户信息的次数,tmax为提取有效用户信息的总次数。
步骤9:存储所述用户信息。在本实施例中,若步骤1至步骤6未能够获得完整的用户信息,实施的步骤7至步骤8为基于图像数据获取用户信息的方法。若全部图像数据均无法获得用户信息,则确认该社交媒体网页挖掘失败,开始挖掘下一社交媒体网页。
实施例二
在提取社交媒体网页的页面数据的过程中,社交媒体网页可能在不断更新。作为步骤1的进一步改进,本实施例公开了优选的提取社交媒体网页数据的方法,该方法将浏览器的数据请求项纳入数据挖掘的范围。如图5,该方法包括以下步骤:
步骤101:浏览器发送请求至web服务器,web服务器响应并对社交媒体网页进行再次渲染,得到经过更新后的社交媒体网页。
步骤102:建立Ajax异步数据加载模块,在浏览器中建立XML HttpRequest对象,监听社交媒体网页的数据请求项。
步骤103:Ajax异步数据加载模块抓取数据请求项,通过param参数分析数据请求项,确定文本查找范围。
步骤104:通过find()函数查找缓存标签,并通过find_all()函数查找缓存文本与缓存图像,将缓存文本纳入所述第一文本数据,将缓存图像纳入所述第一文本数据。
实施例三
作为步骤5的进一步改进,本实施例进一步公开了通过二级超链接网址内的用户信息的方法。如图6,该包括如下步骤:
步骤501:获取二级超链接网址的网页源码中的纯文本数据。
步骤502:将纯文本数据按行划分,每一行分配唯一的行序列,不同的行为独立的文本块。
步骤503:以行序列为横坐标,以行间文本块密度为纵坐标,构造行块分布函数,选取6个以上的连续行块为正文评估区间。
步骤504:基于聚类算法匹配正文评估区间中各个连续文本块与用户信息的特征相似度。
步骤505:选取最高的文本块作为用户信息的提取结果,或者依次选取不同相似度的文本块,通过支持向量机再次确定提取结果。
实施例四
参照图7,本实施例的实现所述基于网页内容识别的用户信息挖掘方法的用户信息挖掘系统,包括第一数据识别模块、第二数据识别模块、第三数据识别模块、文本分析模块、图像分析模块、判别模块、第一数据库、第二数据库,其中,第一数据识别模块用于提取页面数据的第一文本数据和多组图像数据。第二数据识别模块用于提取社交媒体网页的页面源码并挖掘第二文本数据。第三数据识别模块用于提取第二文本数据的域名信息。文本分析模块用于抓取二级超链接网址中的用户信息。图像分析模块用于识别图像数据中的用户信息。判别模块用于判断域名信息和用户信息是否有效。第一数据库用于根据索引表并存储图像数据。第二数据库用于存储用户信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改,等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于网页内容识别的用户信息挖掘方法,其特征在于,包括以下步骤:
步骤1:输入社交媒体网页的地址,根据该地址获取社交媒体网页中的页面数据,基于页面生成规则提取第一文本数据和多组图像数据;
步骤2:根据第一文本数据提取社交媒体网页的页面源码,并挖掘所述页面源码中的第二文本数据;
步骤3:输入第一参考信息,基于第一参考信息提取第二文本数据的域名信息;
步骤4:判断域名信息是否有效,若域名信息有效,则进入步骤5,若域名信息无效,则进入步骤7;
步骤5:输入第二参考信息,提取域名信息的账号信息,再获取账号信息的二级超链接网址,基于第二参考信息抓取二级超链接网址中的用户信息;
步骤6:判断用户信息是否有效,若用户信息有效,则进入步骤9,若用户信息无效,则进入步骤7;
步骤7:根据图像数据的标签建立图像数据的索引表,根据预设的索引权重排列所述索引表的图像数据;
步骤8:按照索引表顺序逐一调用图像数据,识别图像数据中的用户信息,若用户信息有效,调整该图像数据的索引权重,否则继续调用图像数据;
步骤9:存储所述用户信息,
其中,第一文本数据至少包括社交媒体网页的残缺账号信息与残缺域名信息,第二文本数据至少包括社交媒体网页中所有的残缺网页链接与残缺邮箱信息;
第一参考信息为用户身份编码,第二参考信息为基于域名信息确定的URL链接,
步骤5中,获取二级超链接网址的网页源码中的纯文本数据;
将纯文本数据按行划分,每一行分配唯一的行序列,不同的行为独立的文本块;
以行序列为横坐标,以行间文本块密度为纵坐标,构造行块分布函数,选取6个以上的连续行块为正文评估区间;
基于聚类算法匹配正文评估区间中各个连续文本块与用户信息的特征相似度;
选取最高的文本块作为用户信息的提取结果,通过支持向量机再次确定提取用户信息,
步骤7中,索引权重为,其中,/>为文本特征i与二值特征d的相似度,f1为第一参考信息的所有文本特征,f2为图像数据的所有二值特征。
2.根据权利要求1所述的基于网页内容识别的用户信息挖掘方法,其特征在于,在步骤1中,页面生成规则包括页面结构与页面内各个数据项的位置,将页面数据的HTML文档转换为XHTML文档,提取所述XHTML文档中的标签,保留指向第一文本数据和图像数据的至少一个标签,构成所述页面结构。
3.根据权利要求2所述的基于网页内容识别的用户信息挖掘方法,其特征在于,在步骤1中,建立Ajax异步数据加载模块,监听社交媒体网页的数据请求项,查找数据请求项的缓存文本与缓存图像,将缓存文本纳入所述第一文本数据,将缓存图像纳入所述图像数据。
4.根据权利要求1所述的基于网页内容识别的用户信息挖掘方法,其特征在于,在步骤2中,记录解析页面源码后返回的cookie,写入多个cookie后构建cookie池,根据cookie池的脚本提取第二文本数据。
5.根据权利要求1所述的基于网页内容识别的用户信息挖掘方法,其特征在于,在步骤4中,对域名信息进行DNS解析,若解析成功则返回IP地址,该域名信息有效,若未返回IP地址,域名信息无效。
6.根据权利要求1所述的基于网页内容识别的用户信息挖掘方法,其特征在于,步骤6中,若所述用户信息缺失属性字段或包含无效字段,则用户信息无效,否则用户信息有效。
7.一种实现权利要求1所述基于网页内容识别的用户信息挖掘方法的用户信息挖掘系统,其特征在于,包括第一数据识别模块、第二数据识别模块、第三数据识别模块、文本分析模块、图像分析模块、判别模块、第一数据库、第二数据库,其中,
第一数据识别模块用于提取页面数据的第一文本数据和多组图像数据;
第二数据识别模块用于提取社交媒体网页的页面源码并挖掘第二文本数据;
第三数据识别模块用于提取第二文本数据的域名信息;
文本分析模块用于抓取二级超链接网址中的用户信息;
图像分析模块用于识别图像数据中的用户信息;
判别模块用于判断域名信息和用户信息是否有效;
第一数据库用于根据索引表并存储图像数据;
第二数据库用于存储用户信息。
CN202310617728.8A 2023-05-30 2023-05-30 一种基于网页内容识别的用户信息挖掘方法与系统 Active CN116361362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310617728.8A CN116361362B (zh) 2023-05-30 2023-05-30 一种基于网页内容识别的用户信息挖掘方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310617728.8A CN116361362B (zh) 2023-05-30 2023-05-30 一种基于网页内容识别的用户信息挖掘方法与系统

Publications (2)

Publication Number Publication Date
CN116361362A CN116361362A (zh) 2023-06-30
CN116361362B true CN116361362B (zh) 2023-08-11

Family

ID=86910667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310617728.8A Active CN116361362B (zh) 2023-05-30 2023-05-30 一种基于网页内容识别的用户信息挖掘方法与系统

Country Status (1)

Country Link
CN (1) CN116361362B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874319B (zh) * 2024-03-11 2024-05-17 江西顶易科技发展有限公司 基于搜索引擎的信息挖掘方法、装置及计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589953A (zh) * 2015-12-21 2016-05-18 南通大学 一种突发公共卫生事件互联网文本抽取方法
CN106776567A (zh) * 2016-12-22 2017-05-31 金蝶软件(中国)有限公司 一种互联网大数据分析提取方法及系统
CN107239558A (zh) * 2017-06-09 2017-10-10 成都布林特信息技术有限公司 通用互联网数据采集方法
CN107577783A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于Web结构特征挖掘的网页类型自动识别方法
CN108052632A (zh) * 2017-12-20 2018-05-18 成都律云科技有限公司 一种网络信息获取方法、系统及企业信息搜索系统
CN109739849A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台
WO2019237547A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 数据爬取方法、装置、计算机设备及存储介质
WO2020015192A1 (zh) * 2018-07-18 2020-01-23 平安科技(深圳)有限公司 网页数据爬取方法、装置及存储介质
WO2020024403A1 (zh) * 2018-08-03 2020-02-06 平安科技(深圳)有限公司 目标语料数据的爬取方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589953A (zh) * 2015-12-21 2016-05-18 南通大学 一种突发公共卫生事件互联网文本抽取方法
CN106776567A (zh) * 2016-12-22 2017-05-31 金蝶软件(中国)有限公司 一种互联网大数据分析提取方法及系统
CN107239558A (zh) * 2017-06-09 2017-10-10 成都布林特信息技术有限公司 通用互联网数据采集方法
CN107577783A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于Web结构特征挖掘的网页类型自动识别方法
CN108052632A (zh) * 2017-12-20 2018-05-18 成都律云科技有限公司 一种网络信息获取方法、系统及企业信息搜索系统
WO2019237547A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 数据爬取方法、装置、计算机设备及存储介质
WO2020015192A1 (zh) * 2018-07-18 2020-01-23 平安科技(深圳)有限公司 网页数据爬取方法、装置及存储介质
WO2020024403A1 (zh) * 2018-08-03 2020-02-06 平安科技(深圳)有限公司 目标语料数据的爬取方法、装置及存储介质
CN109739849A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Building data mining solutions with OLE DB for DM and XML for analysis;Zhaohui Tang 等;ACM SIGMOD Record;第80–85页 *

Also Published As

Publication number Publication date
CN116361362A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
US8321396B2 (en) Automatically extracting by-line information
US8630972B2 (en) Providing context for web articles
CN106776567B (zh) 一种互联网大数据分析提取方法及系统
CN101542482B (zh) 书签和排名
CN102521251A (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
EP2574212A1 (en) Method and system for compiling a unique sample code for specific web content
US7962523B2 (en) System and method for detecting templates of a website using hyperlink analysis
US8312012B1 (en) Automatic determination of whether a document includes an image gallery
CN116361362B (zh) 一种基于网页内容识别的用户信息挖掘方法与系统
CN106407450A (zh) 文件搜索方法及装置
US11443006B2 (en) Intelligent browser bookmark management
CN102375813A (zh) 搜索引擎排重系统及方法
WO2021210992A1 (en) Systems and methods for determining entity attribute representations
WO2020101479A1 (en) System and method to detect and generate relevant content from uniform resource locator (url)
CN101739412A (zh) 用于智能卡的网页安全评估装置和方法
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN101310277A (zh) 获得文本的表示的方法
KR20090130364A (ko) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그 결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN102902792A (zh) 列表页识别系统及方法
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
KR100940365B1 (ko) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant