CN113918794B - 企业网络舆情效益分析方法、系统、电子设备及存储介质 - Google Patents

企业网络舆情效益分析方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN113918794B
CN113918794B CN202111513711.5A CN202111513711A CN113918794B CN 113918794 B CN113918794 B CN 113918794B CN 202111513711 A CN202111513711 A CN 202111513711A CN 113918794 B CN113918794 B CN 113918794B
Authority
CN
China
Prior art keywords
public opinion
information
enterprise
crawling
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111513711.5A
Other languages
English (en)
Other versions
CN113918794A (zh
Inventor
吴敦
孙华
张裕洲
徐央杰
费佳宁
顾家慧
王倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baolue Technology Zhejiang Co ltd
Original Assignee
Baolue Technology Zhejiang Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baolue Technology Zhejiang Co ltd filed Critical Baolue Technology Zhejiang Co ltd
Priority to CN202111513711.5A priority Critical patent/CN113918794B/zh
Publication of CN113918794A publication Critical patent/CN113918794A/zh
Application granted granted Critical
Publication of CN113918794B publication Critical patent/CN113918794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本发明提供了企业网络舆情效益分析方法、系统、电子设备及存储介质,涉及网络技术领域,本方法包括步骤:S1:通过网络爬虫在互联网上获取目标企业的营业执照信息,并对所述目标企业的营业执照信息的合法性进行验证;S2:通过Scrapy‑Redis架构进行分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息,得到目标企业的多源数据舆情信息;Scrapy‑Redis架构由舆情获取控制节点和舆情爬取节点构成。本方法能够对目标区域内的企业的网络舆情进行实时同步抓取,并针对企业相关舆情做出可信度判定,同时将正面舆情和负面舆情与企业的关联度进行分析。

Description

企业网络舆情效益分析方法、系统、电子设备及存储介质
技术领域
本发明涉及网络技术领域,具体而言,涉及企业网络舆情效益分析方法、系统、电子设备及存储介质。
背景技术
企业舆情是“企业舆论情况”的简称,是指在一定的社会空间内,围绕某一企业事件的发生、发展和变化,对事件所持有的信念、态度、意见和情绪等表达的集合。它包括舆论和公众对有关企业的任何话题的讨论、报道和反映。对企业来说,有效地监测,第一时间了解,并及时的处理企业在网络上的相关信息就显得尤为重要,特别是利用企业舆情监测,第一时间最快速预警负面舆情,及时发现和处理企业的负面信息,保持企业的健康良好形象。近年来,企业舆情应对能力不足,舆情预警滞后,这些都造成了舆情危机处置困难重重,造成企业形象被破坏,给企业的发展带来极大的负面影响。
发明内容
本发明解决的问题是如何对目标区域内的企业的网络舆情进行实时同步抓取,并针对企业相关舆情做出可信度判定,来克服企业舆情应对能力不足的缺陷;将正面舆情和负面舆情与企业的关联度进行分析,来克服舆情预警滞后的缺陷。
为解决上述问题,本发明提供企业网络舆情效益分析方法,包括步骤:
S1:通过网络爬虫在互联网上获取目标企业的营业执照信息,并对所述目标企业的营业执照信息的合法性进行验证;
S2:通过Scrapy-Redis架构分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息,得到目标企业的多源数据舆情信息;所述Scrapy-Redis架构由舆情获取控制节点和舆情爬取节点构成;
S3:根据所述目标企业的多源数据舆情信息,构建分布式Beautiful_Soup-Lxml架构,并对所述目标企业的多源数据舆情信息进行文本解析提取,得到舆情信息的来源网站信息;
S4:调取CAC互联网新闻信息服务单位许可信息;根据所述舆情信息的来源网站信息与所述CAC互联网新闻信息服务单位许可信息进行可信度验证;
S5:基于SVM-CN-DBpedia构建企业网络舆情分词库;新建并配置Libsvm,构建所述企业网络舆情分词库的深度学习模型;
S6:利用可信度验证后的所述目标企业的多源数据舆情信息生成训练样本集,将所述训练样本集输入到步骤S5的所述深度学习模型中,经过Libsvm的向量特征提取分析,得到定义为正面的舆情分析结果和负面的舆情分析结果;
S7:根据步骤S6得到的所述目标企业的多源数据舆情信息、所述正面的舆情分析结果和所述负面的舆情分析结果,搭建企业的网络舆情分析展示平台。
上述方法中,验证目标企业的营业执照信息是否合法,剔除其中不合法的目标企业、合并目标企业各种称谓及各级分公司的信息,提高抓取效率及全面性;目标采用Scrapy-Redis架构进行分布大范围的爬取、监测和自动化测试;其中,舆情获取控制节点管理多个分布式舆情爬取节点,多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务,并完成爬取任务;通过slaver部署爬虫提取网页、解析提取数据和存储数据,实现多个spider对多个URL的同时处理操作,实现同时对大量目标企业互联网舆情的快速分布式爬取,极大提高抓取效率。
上述方法中,构建企业的实时舆情效益分析展示平台采用React技术架构采用虚拟DOM加DIFF算法,从而减少DOM操作来提高渲染性能,虚拟DOM解决了跨浏览器问题;通过反馈值为0或1的函数来更新模型训练,实现深度学习模型的不断迭代,其中,0表示错误,1表示正确。
进一步地,所述步骤S3中对所述目标企业的多源数据舆情信息进行文本解析提取包括:
S31:在每个所述舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构,运用Beautiful_Soup将所述舆情信息的来源网站信息的文本转换为HTML源代码,Beautiful_Soup通过读取HTML源代码,进行解析并产生一个包含整个HTML文件的树结构,通过树结构搜索舆情字段信息;
S32:当Beautiful_Soup架构在爬取过程报错且无法正确解析所述目标企业的多源数据舆情信息时,运行Lxml架构;生成Element核心类,Element对象是爬取所述目标企业的多源数据舆情信息的节点;指定HTML文件名,读取HTML文件并识别HTML节点的树结构;设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素;
S33:通过Unicode编码将所述舆情信息的来源网站信息输出为utf-8编码的舆情信息的来源网站信息文档。
进一步地,所述步骤S4中完成舆情信息的来源网站信息的可信度验证包括:
S41:通过Scrapy-Redis架构对CAC数据库中的信息进行分布式抓取,得到所述CAC互联网新闻信息服务单位许可信息;
S42:通过Beautiful_Soup-Lxml技术架构,对爬取的所述CAC互联网新闻信息服务单位许可信息进行文本解析提取,并通过Unicode编码将所述CAC互联网新闻信息服务单位许可信息输出为utf-8编码的CAC互联网新闻信息服务单位许可信息文档;
S43:将所述舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配,完成舆情来源的可信度验证。
上述方法中,采用的CAC互联网新闻信息服务单位许可核对,实现对互联网舆情来源进行核对,确认了互联网舆情的可信度。
进一步地,所述步骤S5中依据SVM-CN-DBpedia构建企业网络舆情分词库包括:
S51:新建并配置词库CN-DBpedia的API,输入实体指称项名称,返回格式为json格式的对应实体列表;
S52:访问URL,输入请求参数;其中,所述请求参数包括实体指称项名称和开发者的访问密钥;
S53:当服务器成功返回结果后,构建所述企业网络舆情分词库。
企业网络舆情效益分析系统,包括第一爬取模块、第一验证服务器、第二爬取模块、解析提取模块、第二验证服务器、企业网络舆情分词库和企业舆情分析结果展示平台,其中,
所述第一爬取模块:使用/利用网络爬虫爬取目标企业的营业执照信息,
所述第一验证服务器:用于对所述目标企业的营业执照信息的合法性进行验证;
所述第二爬取模块:包括由舆情获取控制节点和舆情爬取节点构成的Scrapy-Redis架构,通过所述Scrapy-Redis架构进行分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息,得到目标企业的多源数据舆情信息;所述第二爬取模块还用于通过所述Scrapy-Redis架构获取CAC互联网新闻信息服务单位许可信息;
所述解析提取模块:根据所述目标企业的多源数据舆情信息构建分布式Beautiful_Soup-Lxml架构,并对所述目标企业的多源数据舆情信息进行文本解析提取,得到舆情信息的来源网站信息;
所述第二验证服务器:用于对所述舆情信息的来源网站信息与所述CAC互联网新闻信息服务单位许可信息进行可信度验证;
所述企业网络舆情分词库基于SVM-CN-DBpedia构建;通过新建并配置Libsvm搭建所述企业网络舆情分词库的深度学习模型,所述深度学习模型的输入为所述第二验证服务器验证后的所述目标企业的多源数据舆情信息所生成的训练样本集,所述深度学习模型通过Libsvm对输入的训练样本集进行向量特征提取分析,所述深度学习模型的输出为正面的舆情分析结果和负面的舆情分析结果;
所述企业舆情分析结果展示平台用于展示目标企业的多源数据舆情信息、正面的舆情分析结果和负面的舆情分析结果。
进一步地,所述解析提取模块包括:
文本转换解析单元:用于在每个所述舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构,运用Beautiful_Soup将所述舆情信息的来源网站信息的文本转换为HTML源代码,Beautiful_Soup通过读取HTML源代码,进行解析并产生一个包含整个HTML文件的树结构,通过树结构搜索舆情字段信息;
报错校正单元:当Beautiful_Soup架构在爬取过程报错且无法正确解析所述目标企业的多源数据舆情信息时,运行Lxml架构;生成Element核心类,Element对象是爬取所述目标企业的多源数据舆情信息的节点;指定HTML文件名,则会读取HTML文件并识别HTML节点的树结构;设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素;
第一编码单元:通过Unicode编码将所述舆情信息的来源网站信息输出为utf-8编码的舆情信息的来源网站信息文档。
进一步地,所述第二爬取模块还包括:
爬取单元:通过Scrapy-Redis架构对CAC数据库中的信息进行分布式抓取,得到所述CAC互联网新闻信息服务单位许可信息;
第二编码单元:通过Beautiful_Soup-Lxml技术架构,对爬取的所述CAC互联网新闻信息服务单位许可信息进行文本解析提取,并通过Unicode编码将所述CAC互联网新闻信息服务单位许可信息输出为utf-8编码的CAC互联网新闻信息服务单位许可信息文档;
验证单元:用于将所述舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配,完成舆情来源的可信度验证。
进一步地,所述企业网络舆情分词库包括:
配置单元:用于新建并配置词库CN-DBpedia的API,输入实体指称项名称,返回格式为json格式的对应实体列表;
访问输入单元:用于访问URL,输入请求参数;其中,请求参数包括实体指称项名称和开发者的访问密钥;
返回单元:当服务器成功返回结果后,构建所述企业网络舆情分词库。
一种电子设备,所述电子设备包括:
存储器:用于存储可执行指令;
处理器:用于运行所述存储器存储的可执行指令时,实现企业网络舆情效益分析方法。
一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现企业网络舆情效益分析方法。
本发明采用上述技术方案包括以下有益效果:
本发明采用Scrapy-Redis架构进行分布大范围的爬取、监测和自动化测试;架构由舆情获取控制节点和舆情爬取节点构成;舆情获取控制节点管理多个分布式舆情爬取节点,多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务,并完成爬取任务,slaver部署爬虫提取网页、解析提取数据和存储数据,实现多个spider对多个URL的同时处理操作,实现同时对大量目标企业互联网舆情进行实时快速的分布式爬取,极大提高了抓取效率,提高企业获取舆情信息的及时性。采用的CAC互联网新闻信息服务单位许可核对,实现对互联网舆情来源的合法性进行验证,确认互联网舆情的可信度。在每个爬取服务器的舆情爬取节点下构建一个基于SVM-CN-DBpedia的深度学习模型,并对深度学习模型进行训练,经过Libsvm向量特征提取分析,帮助企业准确定位可信的正面舆情与负面舆情,解决了目前企业舆情预警滞后、应对不足的问题。
附图说明
图1为本发明实施例一提供的企业网络舆情效益分析方法流程图一;
图2为本发明实施例一提供的企业网络舆情效益分析方法流程图二;
图3为本发明实施例二提供的企业网络舆情效益分析系统结构图一;
图4为本发明实施例二提供的企业网络舆情效益分析系统结构图二;
图5为本发明实施例提供的企业网络舆情效益分析方法的分布式爬取舆情信息架构技术原理图;
图6为本发明实施例提供的企业网络舆情效益分析方法的数据处理方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
本实施例提供了企业网络舆情效益分析方法,如图1和图2所示,本方法包括步骤:
S1:通过网络爬虫在互联网上获取目标企业的营业执照信息,并对所述目标企业的营业执照信息的合法性进行验证;
S2:通过Scrapy-Redis架构分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息,得到目标企业的多源数据舆情信息;所述Scrapy-Redis架构由舆情获取控制节点和舆情爬取节点构成;
S3:根据所述目标企业的多源数据舆情信息,构建分布式Beautiful_Soup-Lxml架构,并对所述目标企业的多源数据舆情信息进行文本解析提取,得到舆情信息的来源网站信息;
S4:调取CAC互联网新闻信息服务单位许可信息;根据所述舆情信息的来源网站信息与所述CAC互联网新闻信息服务单位许可信息进行可信度验证;
S5:基于SVM-CN-DBpedia构建企业网络舆情分词库;新建并配置Libsvm,构建所述企业网络舆情分词库的深度学习模型;
S6:利用可信度验证后的所述目标企业的多源数据舆情信息生成训练样本集,将所述训练样本集输入到步骤S5的所述深度学习模型中,经过Libsvm的向量特征提取分析,得到定义为正面的舆情分析结果和负面的舆情分析结果;
S7:根据步骤S6得到的所述目标企业的多源数据舆情信息、所述正面的舆情分析结果和所述负面的舆情分析结果,搭建企业的网络舆情分析展示平台。
具体的,验证目标企业的营业执照信息是否合法,剔除其中不合法的目标企业,提高抓取效率及全面性;目标采用Scrapy-Redis架构进行分布大范围的爬取、监测和自动化测试;其中,舆情获取控制节点管理多个分布式舆情爬取节点,多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务,并完成爬取任务;通过slaver部署爬虫提取网页、解析提取数据和存储数据,实现多个spider对多个URL的同时处理操作,实现同时对大量目标企业互联网舆情的快速分布式爬取,极大提高抓取效率。
具体的,构建企业的实时舆情效益分析展示平台采用React技术架构采用虚拟DOM加DIFF算法,从而减少DOM操作来提高渲染性能,虚拟DOM解决了跨浏览器问题;通过反馈值为0或1的函数来更新模型训练,实现深度学习模型的不断迭代,其中,0表示错误,1表示正确。
具体的,步骤S2中爬取目标企业互联网舆情信息包括搜索来自百度、搜狗、必应的企业互联网舆情。主要使用Scrapy-Redis架构实现快速分布大批量式爬取、监测和自动化测试。整个架构系统由舆情获取控制节点和舆情爬取节点构成;舆情获取控制节点管理多个分布式舆情爬取节点,多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务,并完成爬取任务。
其中,步骤S3中对目标企业的多源数据舆情信息进行文本解析提取包括:
S31:在每个舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构,运用Beautiful_Soup将舆情信息的来源网站信息的文本转换为HTML源代码,Beautiful_Soup通过读取HTML源代码,进行解析并产生一个包含整个HTML文件的树结构,通过树结构搜索舆情字段信息;
S32:当Beautiful_Soup架构在爬取过程报错且无法正确解析目标企业的多源数据舆情信息时,运行Lxml架构;生成Element核心类,Element对象是爬取目标企业的多源数据舆情信息的节点;指定HTML文件名,读取HTML文件并识别HTML节点的树结构;设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素;
S33:通过Unicode编码将舆情信息的来源网站信息输出为utf-8编码的舆情信息的来源网站信息文档;
其中,步骤S4中完成舆情信息的来源网站信息的可信度验证包括:
S41:通过Scrapy-Redis架构对CAC数据库中的信息进行分布式抓取,得到CAC互联网新闻信息服务单位许可信息;
S42:通过Beautiful_Soup-Lxml技术架构,对爬取的CAC互联网新闻信息服务单位许可信息进行文本解析提取,并通过Unicode编码将CAC互联网新闻信息服务单位许可信息输出为utf-8编码的CAC互联网新闻信息服务单位许可信息文档;
S43:将舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配,完成舆情来源的可信度验证。
具体的,通过调取CAC数据库,对比舆情信息内容提取的信息来源网站,验证该网站是否进入互联网新闻信息服务单位许可库中,确定舆情来源可信度。
进入CAC网站互联网新闻信息服务单位许可信息页,使用Scrapy-Redis技术架构进行分布式抓取CAC网站互联网新闻信息服务单位许可信息。
使用分布式Beautiful_Soup-Lxml技术架构,对爬取的网站互联网新闻信息服务单位许可信息进行文本解析提取,并通过Unicode编码将网页内容输出为utf-8编码的文档。
将爬取解析的目标企业网络舆情信息的来源网站与爬取解析的CAC互联网新闻信息服务单位许可库进行匹配,完成舆情来源可信度验证。
参阅图5,具体的,每个爬取服务器由任务调度器、数据列队通道、爬取器、下载容器构成,其中:
任务调度器是用于接收搜索引擎发出的请求信息,将请求信息压入到队列中,并在搜索引擎再次发出请求信息的时候返回,该队列是一个抓取网页的网址或者链接的优先队列,由它来决定下一个要抓取的网址是什么,同时去除重复的网址。
下载容器是用于下载目标爬取网页的相关内容,并将网页内容返回给建立在高效的异步模型上的下载器。
爬取器是用于从特定的目标网页中提取爬虫任务需要的信息,同时也支持用户从目标网页上提取链接,让任务调度器继续爬取下一个目标链接的页面。
数据列队通道是负责处理爬取器从目标网页中抽取的所需信息,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息,当页面被爬取器解析后,将被发送到数据列队通道,并经过几个特定的次序处理数据。
下载中介是介于搜索引擎和下载容器之间的框架,主要是处理搜索引擎与下载容器之间的爬取任务请求及爬取器的响应。
爬取中介是介于搜索引擎和爬取器之间的框架,主要工作是处理爬取器的响应输入和请求输出。
任务中介是介于搜索引擎和任务调度器之间的中间件,从搜索引擎发送爬取任务请求和响应到任务调度器。
其中,舆情获取控制节点为Scrapy-Redis架构构建下的主状态管理器,舆情爬取节点为Scrapy-Redis架构构建下的爬取服务器,主状态管理器连接多个爬取服务器。
具体的,由舆情获取控制节点和多个分布式舆情爬取节点分布式爬取目标企业互联网舆情信息,包括搜索爬取来自百度、搜狗、必应的企业互联网舆情。
其中,步骤S5中依据SVM-CN-DBpedia构建企业网络舆情分词库包括:
S51:新建并配置词库CN-DBpedia的API,输入实体指称项名称,返回格式为json格式的对应实体列表;
S52:访问URL,输入请求参数;其中,请求参数包括实体指称项名称和开发者的访问密钥;
S53:当服务器成功返回结果后,构建企业网络舆情分词库。
具体的,使用的分布式基于SVM(分类方法)-CN-DBpedia(知识图谱)构建的企业网络舆情分词库,新建并配置词库CN-DBpedia的API(应用程序编程接口),输入实体指称项名称,返回格式为json格式的对应实体的列表;访问URL(统一资源定位符),输入请求参数,如实体指称项名称和开发者的访问密钥;服务器成功返回结果后,构建企业网络舆情分词库;根据企业网络舆情分词库,输出构建utf-8编码的企业网络舆情分词库;新建并配置Libsvm(数据保存格式),根据utf-8编码的企业网络舆情分词库构建深度学习模型。
具体的,对深度学习模型进行训练:
根据可信度验证后的所述目标企业的多源数据舆情信息生成训练样本集,将所述训练样本集输入到步骤S5的所述深度学习模型中,经过Libsvm的向量特征提取分析,得到定义为正面的舆情分析结果和负面的舆情分析结果,即获得深度学习模型的输出结果。
参阅图6,具体的,根据爬取的目标企业多源网络舆情数据,对爬取的信息数据进行文本解析提取。
在每个舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构,并在构建下的爬取服务器舆情爬取节点,运用Beautiful_Soup技术将目标互联网舆情网页的文本转换为源代码,Beautiful_Soup通过读取HTML源代码,自动进行解析并产生一个BeautifulSoup物件,此物件中包含了整个HTML文件的树结构,通过树结构可以搜索查找需要的舆情字段信息。
最终通过Unicode编码将网页内容输出为utf-8编码的文档。
其中,步骤S7中的搭建企业的网络舆情分析展示平台采用React(用于创建Web用户交互界面)技术架构。
具体的,构建企业的实时舆情效益分析展示平台采用React技术架构采用虚拟DOM加DIFF算法,从而减少DOM操作来提高渲染性能,虚拟DOM解决了跨浏览器问题;通过反馈值为0或1的函数来更新模型训练,实现深度学习模型的不断迭代,其中,0表示错误,1表示正确。
具体的,构建企业的网络舆情分析展示平台;相比其他Web网络应用程序,如Ember、Angular、Vue等,本发明采用的React技术架构并不直接对DOM进行操作,引入虚拟DOM在javascript(运行在客户端的脚本语言)中,大大加快了运行速度。虚拟DOM 提供标准化的API,解决了跨浏览器问题。React技术架构使用组件化代码,增加代码可重复使用性和后期维护性。React使用RequireJS,Browserify和Webpack构建应用,增加了不同场景规模下的兼容性。
目前,中国国内企业网络舆情风险一般以文本形式展示,基于企业的网络舆情进行不同时间尺度范围内的风险量化标准及分级评估甚少。因此有效地监测,特别是利用企业舆情监测,及时进行不同时间尺度上的网络舆情评估分析,对保持企业的健康良好形象尤为重要。
本发明中,还包括将步骤S7中完成判断的互联网舆情数据分析结果进行时间序列自适应分析,具体包括:
S71:定义获取的企业网络舆情的负面的舆情分析结果中,法律诉讼权重为
Figure 835053DEST_PATH_IMAGE001
,司法处罚权重为
Figure 814510DEST_PATH_IMAGE002
,行政处罚权重为
Figure 938455DEST_PATH_IMAGE003
,负面新闻权重为
Figure 661560DEST_PATH_IMAGE004
S72:定义获取的企业网络舆情的负面的舆情分析结果中,给定时间尺度(比如每天)下法律诉讼数量为
Figure 679195DEST_PATH_IMAGE005
,司法处罚数量为
Figure 108515DEST_PATH_IMAGE006
,行政处罚数量为
Figure 844389DEST_PATH_IMAGE007
,负面新闻数量为
Figure 371186DEST_PATH_IMAGE008
S73:给定时间尺度下的数据平稳性检测,公式如下:
Figure 587535DEST_PATH_IMAGE009
公式(1);
具体的,公式(1)中,
Figure 174374DEST_PATH_IMAGE010
表示为第t天的企业负面网络舆情(比如负面新闻)的数量,
Figure 741752DEST_PATH_IMAGE011
表示为截距常数,
Figure 9923DEST_PATH_IMAGE012
表示为第t天的时间趋势的系数,
Figure 346357DEST_PATH_IMAGE013
表示为第t-1天的企业负面网络舆情数量,
Figure 104098DEST_PATH_IMAGE014
表示为第t-1天的时间趋势系数,并以此类推;
Figure 548986DEST_PATH_IMAGE015
表示为该时间尺度下(比如每天)负面网络舆情数量的自回归的滞后阶数;令α=0及β=0,对应于对随机时间尺度建模;
Figure 899808DEST_PATH_IMAGE016
始终在某一常数的正负范围内波动,则表明该时间序列数据稳定;若
Figure 215383DEST_PATH_IMAGE017
常数展示出类线性的正相关或负相关,则表明该时间序列数据不稳定;对于不稳定的时间序列,进行对数转换;
S74:基于稳定的时间序列数据,在给定的时间尺度下对企业互联网舆情建立Poisson分布连接的自适应风险分析模型,公式如下:
Figure 19391DEST_PATH_IMAGE018
公式(2);
具体的,公式(2)中,
Figure 76208DEST_PATH_IMAGE019
表示为
Figure 623864DEST_PATH_IMAGE019
连接函数,
Figure 200470DEST_PATH_IMAGE020
表示为第t天的互联网舆情风险值,
Figure 34434DEST_PATH_IMAGE014
表示为截距常数,
Figure 719493DEST_PATH_IMAGE021
表示为B样条函数,
Figure 946207DEST_PATH_IMAGE022
表示为自由度函数,在这里
Figure 767532DEST_PATH_IMAGE022
定义为3,
Figure 303556DEST_PATH_IMAGE023
表示为时间序列的单位间距(比如每天);
S75:基于时间序列舆情风险值,建立给定时间范围尺度下的企业网络舆情风险指数分级,定义为基于每个时间序列单位(比如每天),确定风险指数分布在25百分位点、50百分位点和75百分位点所对应的互联网舆情风险值,划分为4个区间,分别定义为低风险时段、中风险时段、中高风险时段和高风险时段。
具体的,提供一种面向兼容长短时间范围尺度的企业网络舆情风险自适应分析方法,将完成判断的互联网舆情数据进行风险时间序列转化和分析,形成时间尺度范围内的企业互联网舆情自适应分析,生成兼容不同时间尺度下的企业互联网舆情风险量化标准及风险分级。
本发明通过分布式实时爬取与目标企业的互联网舆情信息并使用分布式深度学习模型,通过核函数解决非线性的分类,达到分类效果最优化,基于企业的网络舆情数据进行风险时间序列转化和分析,形成时间尺度范围内的企业互联网舆情自适应分析,该方法输出兼容不同时间尺度下的企业互联网舆情风险量化标准及风险分级。
具体的,使用分布式Scrapy-Redis架构,采用主从结构,实现多个spider对多个URL的同时处理操作,实现同时对大量目标企业互联网舆情的快速分布式爬取,极大提高程序的抓取效率。采用的CAC互联网新闻信息服务单位许可核对,实现对互联网舆情来源进行核对,确认了互联网舆情的可信度。使用的分布式基于SVM-CN-DBpedia的深度学习模型,通过核函数解决了非线性的分类,达到分类效果最优化。基于企业的网络舆情进行企业互联网舆情风险时间序列转化和分析,形成时间尺度范围内的企业互联网舆情自适应分析,有助于生成兼容不同时间尺度下的企业互联网舆情风险量化标准及风险分级。
本实施例提供了一种电子设备,电子设备包括:
存储器:用于存储可执行指令;
处理器:用于运行存储器存储的可执行指令时,实现企业网络舆情效益分析方法。
本实施例提供了一种计算机可读存储介质,存储有可执行指令,可执行指令被处理器执行时实现企业网络舆情效益分析方法。
本方法采用Scrapy-Redis架构进行分布大范围的爬取、监测和自动化测试;架构由舆情获取控制节点和舆情爬取节点构成;舆情获取控制节点管理多个分布式舆情爬取节点,多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务,并完成爬取任务,slaver部署爬虫提取网页、解析提取数据和存储数据,实现多个spider对多个URL的同时处理操作,实现同时对大量目标企业互联网舆情进行实时快速的分布式爬取,极大提高了抓取效率,提高企业获取舆情信息的及时性。采用的CAC互联网新闻信息服务单位许可核对,实现对互联网舆情来源的合法性进行验证,确认互联网舆情的可信度。在每个爬取服务器的舆情爬取节点下构建一个基于SVM-CN-DBpedia的深度学习模型,并对深度学习模型进行训练,经过Libsvm向量特征提取分析,帮助企业准确定位可信的正面舆情与负面舆情,解决了目前企业舆情预警滞后、应对不足的问题。
实施例二
本实施例提供了企业网络舆情效益分析系统,如图3和图4所示,本系统包括第一爬取模块、第一验证服务器、第二爬取模块、解析提取模块、第二验证服务器、企业网络舆情分词库和企业舆情分析结果展示平台,其中,
第一爬取模块:使用/利用网络爬虫爬取目标企业的营业执照信息,
第一验证服务器:用于对目标企业的营业执照信息的合法性进行验证;
第二爬取模块:包括由舆情获取控制节点和舆情爬取节点构成的Scrapy-Redis架构,通过Scrapy-Redis架构进行分布式实时爬取与目标企业的营业执照信息相对应的互联网舆情信息,得到目标企业的多源数据舆情信息;第二爬取模块还用于通过Scrapy-Redis架构获取CAC互联网新闻信息服务单位许可信息;
解析提取模块:根据目标企业的多源数据舆情信息构建分布式Beautiful_Soup-Lxml架构,并对目标企业的多源数据舆情信息进行文本解析提取,得到舆情信息的来源网站信息;
第二验证服务器:用于对舆情信息的来源网站信息与CAC互联网新闻信息服务单位许可信息进行可信度验证;
企业网络舆情分词库基于SVM-CN-DBpedia构建;通过新建并配置Libsvm搭建企业网络舆情分词库的深度学习模型,深度学习模型的输入为第二验证服务器验证后的目标企业的多源数据舆情信息所生成的训练样本集,深度学习模型通过Libsvm对输入的训练样本集进行向量特征提取分析,深度学习模型的输出为正面的舆情分析结果和负面的舆情分析结果;
所述企业舆情分析结果展示平台用于展示目标企业的多源数据舆情信息、正面的舆情分析结果和负面的舆情分析结果。
其中,解析提取模块包括:
文本转换解析单元:用于在每个舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构,运用Beautiful_Soup将舆情信息的来源网站信息的文本转换为HTML源代码,Beautiful_Soup通过读取HTML源代码,进行解析并产生一个包含整个HTML文件的树结构,通过树结构搜索舆情字段信息;
报错校正单元:当Beautiful_Soup架构在爬取过程报错且无法正确解析所述目标企业的多源数据舆情信息时,运行Lxml架构;生成Element核心类,Element对象是爬取目标企业的多源数据舆情信息的节点;指定HTML文件名,则会读取HTML文件并识别HTML节点的树结构;设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素;
第一编码单元:通过Unicode编码将舆情信息的来源网站信息输出为utf-8编码的舆情信息的来源网站信息文档。
其中,第二爬取模块还包括:
爬取单元:通过Scrapy-Redis架构对CAC数据库中的信息进行分布式抓取,得到CAC互联网新闻信息服务单位许可信息;
第二编码单元:通过Beautiful_Soup-Lxml技术架构,对爬取的CAC互联网新闻信息服务单位许可信息进行文本解析提取,并通过Unicode编码将CAC互联网新闻信息服务单位许可信息输出为utf-8编码的CAC互联网新闻信息服务单位许可信息文档;
验证单元:用于将舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配,完成舆情来源的可信度验证。
其中,企业网络舆情分词库包括:
配置单元:用于新建并配置词库CN-DBpedia的API,输入实体指称项名称,返回格式为json格式的对应实体列表;
访问输入单元:用于访问URL,输入请求参数;其中,请求参数包括实体指称项名称和开发者的访问密钥;
返回单元:当服务器成功返回结果后,构建企业网络舆情分词库。
本系统中通过第一爬取模块采用Scrapy-Redis架构进行分布大范围的爬取、监测和自动化测试;架构由舆情获取控制节点和舆情爬取节点构成;舆情获取控制节点管理多个分布式舆情爬取节点,多个舆情爬取节点则从舆情获取控制节点获取舆情信息爬取任务,并完成爬取任务,slaver部署爬虫提取网页、解析提取数据和存储数据,实现多个spider对多个URL的同时处理操作,实现同时对大量目标企业互联网舆情进行实时快速的分布式爬取,极大提高了抓取效率,提高企业获取舆情信息的及时性。第二爬取模块获取CAC互联网新闻信息服务单位许可信息进行核对,实现对互联网舆情来源的合法性进行验证,确认互联网舆情的可信度。在每个爬取服务器的舆情爬取节点下构建一个基于SVM-CN-DBpedia的深度学习模型,并对深度学习模型进行训练,经过Libsvm向量特征提取分析,帮助企业准确定位可信的正面舆情与负面舆情,解决了目前企业舆情预警滞后、应对不足的问题。
虽然本公开披露如上,但本公开的保护范围并非仅限于此。本领域技术人员,在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

Claims (6)

1.企业网络舆情效益分析方法,其特征在于,包括步骤:
S1:通过网络爬虫在互联网上获取目标企业的营业执照信息,并对所述目标企业的营业执照信息的合法性进行验证;
S2:通过Scrapy-Redis架构分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息,得到目标企业的多源数据舆情信息;所述Scrapy-Redis架构由舆情获取控制节点和舆情爬取节点构成;
S3:根据所述目标企业的多源数据舆情信息,构建分布式Beautiful_Soup-Lxml架构,并对所述目标企业的多源数据舆情信息进行文本解析提取,得到舆情信息的来源网站信息;
S4:调取CAC互联网新闻信息服务单位许可信息;根据所述舆情信息的来源网站信息与所述CAC互联网新闻信息服务单位许可信息进行可信度验证;
S5:基于CN-DBpedia构建企业网络舆情分词库;新建并配置Libsvm,构建所述企业网络舆情分词库的深度学习模型;
S6:利用可信度验证后的所述目标企业的多源数据舆情信息生成训练样本集,将所述训练样本集输入到步骤S5的所述深度学习模型中,经过Libsvm的向量特征提取分析,得到定义为正面的舆情分析结果和负面的舆情分析结果;
S7:根据步骤S6得到的所述目标企业的多源数据舆情信息、所述正面的舆情分析结果和所述负面的舆情分析结果,搭建企业的网络舆情分析展示平台;
所述步骤S3中对所述目标企业的多源数据舆情信息进行文本解析提取包括:
S31:在每个所述舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构,运用Beautiful_Soup将所述舆情信息的来源网站信息的文本转换为HTML源代码,Beautiful_Soup通过读取HTML源代码,进行解析并产生一个包含整个HTML文件的树结构,通过树结构搜索舆情字段信息;
S32:当Beautiful_Soup架构在爬取过程报错且无法正确解析所述目标企业的多源数据舆情信息时,运行Lxml架构;生成Element核心类,Element对象是爬取所述目标企业的多源数据舆情信息的节点;指定HTML文件名,读取HTML文件并识别HTML节点的树结构;设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素;
S33:通过Unicode编码将所述舆情信息的来源网站信息输出为utf-8编码的舆情信息的来源网站信息文档;
所述步骤S5中依据CN-DBpedia构建企业网络舆情分词库包括:
S51:新建并配置词库CN-DBpedia的API,输入实体指称项名称,返回格式为json格式的对应实体列表;
S52:访问URL,输入请求参数;其中,所述请求参数包括实体指称项名称和开发者的访问密钥;
S53:当服务器成功返回结果后,构建所述企业网络舆情分词库。
2.根据权利要求1所述的企业网络舆情效益分析方法,其特征在于,所述步骤S4中完成舆情信息的来源网站信息的可信度验证包括:
S41:通过Scrapy-Redis架构对CAC数据库中的信息进行分布式抓取,得到所述CAC互联网新闻信息服务单位许可信息;
S42:通过Beautiful_Soup-Lxml技术架构,对爬取的所述CAC互联网新闻信息服务单位许可信息进行文本解析提取,并通过Unicode编码将所述CAC互联网新闻信息服务单位许可信息输出为utf-8编码的CAC互联网新闻信息服务单位许可信息文档;
S43:将所述舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配,完成舆情来源的可信度验证。
3.企业网络舆情效益分析系统,其特征在于,包括第一爬取模块、第一验证服务器、第二爬取模块、解析提取模块、第二验证服务器、企业网络舆情分词库和企业舆情分析结果展示平台,其中,
所述第一爬取模块:使用/利用网络爬虫爬取目标企业的营业执照信息,
所述第一验证服务器:用于对所述目标企业的营业执照信息的合法性进行验证;
所述第二爬取模块:包括由舆情获取控制节点和舆情爬取节点构成的Scrapy-Redis架构,通过所述Scrapy-Redis架构进行分布式实时爬取与所述目标企业的营业执照信息相对应的互联网舆情信息,得到目标企业的多源数据舆情信息;所述第二爬取模块还用于通过所述Scrapy-Redis架构获取CAC互联网新闻信息服务单位许可信息;
所述解析提取模块:根据所述目标企业的多源数据舆情信息构建分布式Beautiful_Soup-Lxml架构,并对所述目标企业的多源数据舆情信息进行文本解析提取,得到舆情信息的来源网站信息;
所述第二验证服务器:用于对所述舆情信息的来源网站信息与所述CAC互联网新闻信息服务单位许可信息进行可信度验证;
所述企业网络舆情分词库基于CN-DBpedia构建;通过新建并配置Libsvm搭建所述企业网络舆情分词库的深度学习模型,所述深度学习模型的输入为所述第二验证服务器验证后的所述目标企业的多源数据舆情信息所生成的训练样本集,所述深度学习模型通过Libsvm对输入的训练样本集进行向量特征提取分析,所述深度学习模型的输出为正面的舆情分析结果和负面的舆情分析结果;
所述企业舆情分析结果展示平台用于展示目标企业的多源数据舆情信息、正面的舆情分析结果和负面的舆情分析结果;
所述解析提取模块包括:
文本转换解析单元:用于在每个所述舆情爬取节点中搭建一个Beautiful_Soup-Lxml架构,运用Beautiful_Soup将所述舆情信息的来源网站信息的文本转换为HTML源代码,Beautiful_Soup通过读取HTML源代码,进行解析并产生一个包含整个HTML文件的树结构,通过树结构搜索舆情字段信息;
报错校正单元:当Beautiful_Soup架构在爬取过程报错且无法正确解析所述目标企业的多源数据舆情信息时,运行Lxml架构;生成Element核心类,Element对象是爬取所述目标企业的多源数据舆情信息的节点;指定HTML文件名,则会读取HTML文件并识别HTML节点的树结构;设置状态使Lxml加载一个命名的HTML元素并枚举HTML元素的属性和子元素;
第一编码单元:通过Unicode编码将所述舆情信息的来源网站信息输出为utf-8编码的舆情信息的来源网站信息文档;
所述企业网络舆情分词库包括:
配置单元:用于新建并配置词库CN-DBpedia的API,输入实体指称项名称,返回格式为json格式的对应实体列表;
访问输入单元:用于访问URL,输入请求参数;其中,请求参数包括实体指称项名称和开发者的访问密钥;
返回单元:当服务器成功返回结果后,构建所述企业网络舆情分词库。
4.根据权利要求3所述的企业网络舆情效益分析系统,其特征在于,所述第二爬取模块还包括:
爬取单元:通过Scrapy-Redis架构对CAC数据库中的信息进行分布式抓取,得到所述CAC互联网新闻信息服务单位许可信息;
第二编码单元:通过Beautiful_Soup-Lxml技术架构,对爬取的所述CAC互联网新闻信息服务单位许可信息进行文本解析提取,并通过Unicode编码将所述CAC互联网新闻信息服务单位许可信息输出为utf-8编码的CAC互联网新闻信息服务单位许可信息文档;
验证单元:用于将所述舆情信息的来源网站信息文档与所述CAC互联网新闻信息服务单位许可信息文档进行匹配,完成舆情来源的可信度验证。
5.一种电子设备,其特征在于,所述电子设备包括:
存储器:用于存储可执行指令;
处理器:用于运行所述存储器存储的可执行指令时,实现权利要求1至2任一项所述的企业网络舆情效益分析方法。
6.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至2任一项所述的企业网络舆情效益分析方法。
CN202111513711.5A 2021-12-13 2021-12-13 企业网络舆情效益分析方法、系统、电子设备及存储介质 Active CN113918794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111513711.5A CN113918794B (zh) 2021-12-13 2021-12-13 企业网络舆情效益分析方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111513711.5A CN113918794B (zh) 2021-12-13 2021-12-13 企业网络舆情效益分析方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113918794A CN113918794A (zh) 2022-01-11
CN113918794B true CN113918794B (zh) 2022-03-29

Family

ID=79248577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111513711.5A Active CN113918794B (zh) 2021-12-13 2021-12-13 企业网络舆情效益分析方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113918794B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732997A (zh) * 2021-01-14 2021-04-30 上海尧信惠达信息科技有限公司 自动化企业舆情监控方法、系统、存储介质及电子设备
CN114386422B (zh) * 2022-01-14 2023-09-15 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统
CN111274357A (zh) * 2020-01-19 2020-06-12 深圳中泓在线股份有限公司 新闻舆情识别方法、设备及存储介质
CN111324795A (zh) * 2018-12-13 2020-06-23 天津科技大学 基于微博平台下食品安全网络舆情监测与评估模型的构建
CN111914087A (zh) * 2020-07-30 2020-11-10 广州城市信息研究所有限公司 一种舆情分析方法
CN112115331A (zh) * 2020-09-21 2020-12-22 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN113297283A (zh) * 2020-11-12 2021-08-24 苏宁金融科技(南京)有限公司 用于企业风险预警的舆情分析方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323627A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Real-time Monitoring of Public Sentiment
CN108874992B (zh) * 2018-06-12 2021-03-19 深圳华讯网络科技有限公司 舆情分析方法、系统、计算机设备和存储介质
CN110263233B (zh) * 2019-05-06 2023-04-07 平安科技(深圳)有限公司 企业舆情库构建方法、装置、计算机设备及存储介质
CN110427549A (zh) * 2019-06-20 2019-11-08 北京清博大数据科技有限公司 一种网络舆论溯源分析方法、装置、终端及存储介质
CN112100474B (zh) * 2020-11-02 2021-02-02 成都智元汇信息技术股份有限公司 一种乘客服务质量舆情监管系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统
CN111324795A (zh) * 2018-12-13 2020-06-23 天津科技大学 基于微博平台下食品安全网络舆情监测与评估模型的构建
CN111274357A (zh) * 2020-01-19 2020-06-12 深圳中泓在线股份有限公司 新闻舆情识别方法、设备及存储介质
CN111914087A (zh) * 2020-07-30 2020-11-10 广州城市信息研究所有限公司 一种舆情分析方法
CN112115331A (zh) * 2020-09-21 2020-12-22 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN113297283A (zh) * 2020-11-12 2021-08-24 苏宁金融科技(南京)有限公司 用于企业风险预警的舆情分析方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Personality based public sentiment classification in microblog";Junjie Lin et al.;《2015 IEEE International Conference on Intelligence and Security Informatics (ISI)》;20150727;第151-153页 *
"企业网络舆情安全管理能力模型建构——基于涌现利用的研究视角";李宁 等;《内蒙古财经大学学报》;20170831;第15卷(第4期);第56-61页 *
基于深度学习的"教育公平"网络舆情分析;朱乐等;《情报探索》;20200615(第06期);第40-47页 *

Also Published As

Publication number Publication date
CN113918794A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN107491534B (zh) 信息处理方法和装置
US11550856B2 (en) Artificial intelligence for product data extraction
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
US8239387B2 (en) Structural clustering and template identification for electronic documents
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN109522562B (zh) 一种基于文本图像融合识别的网页知识抽取方法
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN111881398B (zh) 页面类型确定方法、装置和设备及计算机存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN117473512B (zh) 基于网络测绘的漏洞风险评估方法
CN107527289B (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN115801455B (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN116862243A (zh) 一种基于神经网络的企业风险分析预测方法、系统及介质
CN108595453B (zh) Url标识映射获取方法及装置
CN109684844A (zh) 一种webshell检测方法及装置
Zhang et al. Research on keyword extraction and sentiment orientation analysis of educational texts
CN113806667A (zh) 一种支持网页分类的方法和系统
CN113918734A (zh) 一种数据检索方法、装置、电子设备以及存储介质
CN113688346A (zh) 一种违法网站识别方法、装置、设备及存储介质
CN110990671B (zh) 页面类型甄别装置、方法及可读存储介质
CN112187768B (zh) 不良信息网站的检测方法、装置、设备及可读存储介质
Veach et al. Detecting Phishing Websites Based on Machine Learning Techniques
RU119908U1 (ru) Устройство классификации html-страниц с предварительным выделением значимой части страницы и определением функционально-смыслового типа текста

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant