CN117216339B - 基于数字孪生的电子沙盘系统构建方法及装置 - Google Patents

基于数字孪生的电子沙盘系统构建方法及装置 Download PDF

Info

Publication number
CN117216339B
CN117216339B CN202311152029.7A CN202311152029A CN117216339B CN 117216339 B CN117216339 B CN 117216339B CN 202311152029 A CN202311152029 A CN 202311152029A CN 117216339 B CN117216339 B CN 117216339B
Authority
CN
China
Prior art keywords
enterprise
target
text
dom
sand table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311152029.7A
Other languages
English (en)
Other versions
CN117216339A (zh
Inventor
刘曦
王磊
谢文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Northern Lights Digital Technology Co ltd
Original Assignee
Wuhan Northern Lights Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Northern Lights Digital Technology Co ltd filed Critical Wuhan Northern Lights Digital Technology Co ltd
Priority to CN202311152029.7A priority Critical patent/CN117216339B/zh
Publication of CN117216339A publication Critical patent/CN117216339A/zh
Application granted granted Critical
Publication of CN117216339B publication Critical patent/CN117216339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于数字孪生的电子沙盘系统构建方法及装置,包括:接收目标企业的电子沙盘系统构建指令采集企业数据,搜索得到与所述目标企业相关的目标网页集,压缩所述目标网页集的DOM树得到压缩DOM集,计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本,将所述目标文本与所述企业数据执行对应操作,得到企业数据‑企业文本对应集,可视化所述企业数据‑企业文本对应集,生成所述目标企业的电子沙盘系统。本发明可解决企业的电子沙盘系统所展示的企业内容相对单一且匮乏的问题。

Description

基于数字孪生的电子沙盘系统构建方法及装置
技术领域
本发明涉及企业数据管理技术领域,尤其涉及一种基于数字孪生的电子沙盘系统构建方法、装置、电子设备及计算机可读存储介质。
背景技术
数字孪生是充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。企业角度的数字孪生,最主要是将企业数据通过某关联技术实现对企业数据的实时同步、监督和查阅功能。
电子沙盘系统指通过计算机模拟企业运营的一种可视化系统,一般情况下电子沙盘系统需要结合企业数据实现数据的可视化功能。
目前基于企业的数字孪生电子沙盘系统构建方法,主要是获取企业的企业数据,通过可视化手段可视化出企业数据供企业用户宏观了解,虽然实现了企业的电子沙盘构建目的,但未结合企业的企业活动,导致电子沙盘系统所展示的企业内容相对单一且匮乏。
发明内容
本发明提供一种基于数字孪生的电子沙盘系统构建方法、装置及计算机可读存储介质,其主要目的在于解决企业的电子沙盘系统所展示的企业内容相对单一且匮乏的问题。
为实现上述目的,本发明提供的一种基于数字孪生的电子沙盘系统构建方法,包括:
接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库;
从所述存储数据库中采集企业数据,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集;
压缩所述目标网页集的DOM树,得到压缩DOM集;
计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本;
将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集;
基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。
可选地,所述以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集,包括:
获取所述目标企业的企业名称、企业董事会成员名称、企业产品名称,其中所述企业名称包括企业简称、企业产品名称包括产品简称;
将所述企业名称、企业董事会成员名称、企业产品名称作为所述搜索关键字;
启动所述搜索引擎搜索得到与搜索关键字相关的原始网页集;
剔除所述原始网页集中存在访问风险的网页,得到所述目标网页集。
可选地,所述剔除所述原始网页集中存在访问风险的网页,得到所述目标网页集,包括:
提取每个原始网页的DOM树,依次校验每个DOM树的标签是否有异常标签,其中异常标签包括非法访问链接;
剔除包括异常标签的DOM树所对应的原始网页,得到所述目标网页集。
可选地,所述压缩所述目标网页集的DOM树,得到压缩DOM集,包括:
对每个目标网页所对应的DOM树均执行元素类别划分,得到3种不同类别的元素集,其中所述3种不同类别包括用户交互类别、样式类别及容器类别,即元素集包括用户交互类别元素集、样式类别元素集及容器类别元素集;
剔除包括所述户交互类别元素集及样式类别元素集的节点,得到仅包括容器类别元素集的节点的DOM树集;
将仅包括容器类别元素集的节点的DOM树集执行层次遍历以剔除空节点,得到所述压缩DOM集。
可选地,所述计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,包括:
从所述压缩DOM集中提取所有的容器类别元素;
将所有的容器类别元素分为文本字符类元素集和超链接类字符集;
根据所述文本字符类元素集和超链接类字符集计算得到所述文本链接密度;
计算每个压缩DOM的结构相似度,根据所述结构相似度和所述超链接类字符集,计算得到所述噪声链接密度。
可选地,所述根据所述文本字符类元素集和超链接类字符集计算得到所述文本链接密度,包括:
采用如下计算公式,计算得到所述文本链接密度:
其中,Dn为容器类别元素所在节点n及节点n的所有子节点的集合,Ci为节点i所包含的文本字符,为节点i所包含的超链接类字符,H为超链接类字符的标识符,THDn为节点n的文本链接密度。
可选地,所述计算每个压缩DOM的结构相似度,包括:
采用如下计算公式,计算得到每个压缩DOM的结构相似度:
其中,Hs表示第s个压缩DOM与其他网页的DOM树的结构相似度,P(i)表示是节点i路径出现的概率,Li为节点i内部的子节点集合,lb表示以2为底的对数符号,其中节点i路径出现的概率表示基于节点i及其子节点的结构关系在已有DOM树集合中出现的概率值。
可选地,所述根据所述结构相似度和所述超链接类字符集,计算得到所述噪声链接密度,包括:
根据如下公式计算得到所述噪声链接密度:
其中,HHDs表示第s个压缩DOM对应的所述噪声链接密度,Dsn为第s个压缩DOM的容器类别元素所在节点n及节点n的所有子节点的集合,表示节点i所包含的超链接类字符的字符长度,Hs表示第s个压缩DOM与其他网页的DOM树的结构相似度。
可选地,所述利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本,包括:
提取文本链接密度大于指定文本阈值的容器类别元素,得到文本类别元素集;
获取所述文本类别元素集中每个文本类别元素的文本字段;
将每个文本字段按照对应的文本类别元素在DOM树的结构,组建得到所述所述目标企业相关的目标文本。
为了解决上述问题,本发明还提供一种基于数字孪生的电子沙盘系统构建装置,所述装置包括:
电子沙盘系统构建启动模块,用于接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库;
企业数据获取模块,用于从所述存储数据库中采集企业数据,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集;
DOM树压缩模块,用于压缩所述目标网页集的DOM树,得到压缩DOM集;
目标文本收集模块,用于计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本;
电子沙盘系统生成模块,用于将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集,基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的基于数字孪生的电子沙盘系统构建方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于数字孪生的电子沙盘系统构建方法。
本发明实施例为解决背景技术所述问题,接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库,从所述存储数据库中采集企业数据,由于企业数据是数字孪生下的电子沙盘系统构建的基础,因此本发明实施例先获取企业数据,进一步地,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集,目标网页集的收集是为了获取企业的企业活动,从而将企业活动也集成至电子沙盘系统中以提高电子沙盘系统的展示内容丰富度,但由于部分网页存在异常、不安全、垃圾网页的可能性,故压缩所述目标网页集的DOM树,得到压缩DOM集,并计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本,最后将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集,并基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。因此本发明提出的基于数字孪生的电子沙盘系统构建方法、装置、电子设备及计算机可读存储介质,可以解决企业的电子沙盘系统所展示的企业内容相对单一且匮乏的问题。
附图说明
图1为本发明一实施例提供的基于数字孪生的电子沙盘系统构建方法的流程示意图;
图2为图1中其中一个步骤的详细实施流程示意图;
图3为图1中另一个步骤的详细实施流程示意图;
图4为本发明一实施例提供的基于数字孪生的电子沙盘系统构建装置的功能模块图;
图5为本发明一实施例提供的实现所述基于数字孪生的电子沙盘系统构建方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于数字孪生的电子沙盘系统构建方法。所述基于数字孪生的电子沙盘系统构建方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于数字孪生的电子沙盘系统构建方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的基于数字孪生的电子沙盘系统构建方法的流程示意图。在本实施例中,所述基于数字孪生的电子沙盘系统构建方法包括:
S1、接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库。
本发明实施例中,所述目标企业一般为中大型企业,因为中大型企业的企业数据丰富且健全,对于企业数据的收集、管理也更加规范,因此更加有利于电子沙盘系统的构建。
需解释的是,存储数据库主要用于存储企业在管理过程中不断生成的企业数据,方便企业用户实时访问。
S2、从所述存储数据库中采集企业数据,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集。
需解释的是,所述企业数据包括但不限于产品数据、采购数据、行政人事数据、营销数据、研发数据、生产品控数据及财务审计数据。
由于不同企业的经营范围的不同,因此还需根据企业类型采集与企业经验范围所对应的数据,如目标企业A为一家新能源发电企业,则目标企业A的企业数据还包括电量产值数据、目标企业B为一家专利申请企业,则目标企业B的企业数据还包括专利申请数据。
进一步地,为了获取目标企业所参与的企业活动,如参与政府投标、企业联谊、并购重组等,因此还需要采集目标企业的网页信息,详细地,参与图2所示,所述以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集,包括:
S21、获取所述目标企业的企业名称、企业董事会成员名称、企业产品名称,其中所述企业名称包括企业简称、企业产品名称包括产品简称;
S22、将所述企业名称、企业董事会成员名称、企业产品名称作为所述搜索关键字;
S23、启动所述搜索引擎搜索得到与搜索关键字相关的原始网页集;
S24、剔除所述原始网页集中存在访问风险的网页,得到所述目标网页集;
示例性的,如新能源发电的目标企业A的企业名称为“中国大同光华新能源科技有限公司”,其企业简称为“大同光华”;“大同光华”企业目前有多款产品,其中一款产品名称为“高效率光华硅片太阳能发电设备”,产品简称为“光华硅片发电设备”。可理解的是,获取到目标企业的搜索关键字后,搜索与所述目标企业相关的网页,得到原始网页集。
进一步地,所述剔除所述原始网页集中存在访问风险的网页,得到所述目标网页集,包括:
提取每个原始网页的DOM树,依次校验每个DOM树的标签是否有异常标签,其中异常标签包括非法访问链接;
剔除包括异常标签的DOM树所对应的原始网页,得到所述目标网页集。
需解释的是,DOM(Document ObjectModel)即文档对象模型,是W3C制定的标准接口规范,是一种处理基于HTML或XML所构建网页的标准API。DOM树内主要包括元素、节点和文档。
1、元素(element):网页中的标签都是元素,包括文字字段、网页字段、组件等,DOM树中,每个元素又称为对象;
2、节点(node):节点包含标签,定义了对象的行为,即定义对象的方法和属性,可以方便地访问、修改、添加和删除DOM树的元素;
3、文档(document):一个网页页面即是一个文档,文档(页面)中有一个根节点(root),根节点包含head节点与body节点,head节点中又包含meta与title节点,body节点中包含div、p、header、main等节点,其中main下面又有article、aside等节点,article节点中又有其它节点等等,这就组成了树状结构图,即DOM树。
在DOM树中,文档包含节点,节点包含元素,因此本发明实施例中,获取与目标企业所有相关的原始网页集的DOM树,并进一步获取DOM树的元素,由于元素包括文字字段、网页字段、组件等,因此可通过不同元素所包含的内容界定每个原始网页是否为异常网页,当出现非法访问链接等词汇等,则界定为异常网页,从而剔除后得到目标网页集。
S3、压缩所述目标网页集的DOM树,得到压缩DOM集。
由于DOM书的结构复杂,从根节点乃至到下面的多个子节点,深度和广度都无法估量,因此为了简化电子沙盘系统的生成过程,需要对目标网页集的DOM树执行压缩处理,详细地,参阅图3所示,所述压缩所述目标网页集的DOM树,得到压缩DOM集,包括:
S31、对每个目标网页所对应的DOM树均执行元素类别划分,得到3种不同类别的元素集,其中所述3种不同类别包括用户交互类别、样式类别及容器类别,即元素集包括用户交互类别元素集、样式类别元素集及容器类别元素集;
S32、剔除包括所述户交互类别元素集及样式类别元素集的节点,得到仅包括容器类别元素集的节点的DOM树集;
S33、将仅包括容器类别元素集的节点的DOM树集执行层次遍历以剔除空节点,得到所述压缩DOM集。
需解释的是,本发明实施例中,DOM树所包括的元素,按照元素的作用可分为3类,其中用户交互类别元素主要负责与用户交互,如搜索框等;样式类别元素为固化的展示类元素,如字体大小、是否加粗、是否斜体等;容器类别元素主要用于展示网页的文字,其中该文字包括目标企业所参加的企业活动,如投标、融资、质押等,也包括其他网页的网页链接,即超链接字段,是本发明实施例所重点关注的元素。
进一步地,当完成对户交互类别元素集及样式类别元素集的节点剔除以后,还需要剔除空内容的容器类别元素,空内容的容器类别元素表示没有实际内容的容器类别元素,其中实际内容包括没有文字或图片内容、或仅有停用词、语气词类的容器类别元素。
S4、计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本。
详细地,所述计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,包括:
从所述压缩DOM集中提取所有的容器类别元素;
将所有的容器类别元素分为文本字符类元素集和超链接类字符集;
根据所述文本字符类元素集和超链接类字符集计算得到所述文本链接密度;
计算每个压缩DOM的结构相似度,根据所述结构相似度和所述超链接类字符集,计算得到所述噪声链接密度。
需解释的是,在S3步骤中所得到的压缩DOM集只包括容器类别元素,其中容器类别元素包括目标企业所参加的企业活动,如投标、融资、质押等,也包括与其他网页的网页链接,即超链接字段,因此可将所有的容器类别元素分为文本字符类元素集和超链接类字符集。
详细地,所述根据所述文本字符类元素集和超链接类字符集计算得到所述文本链接密度,包括:
采用如下计算公式,计算得到所述文本链接密度:
其中,Dn为容器类别元素所在节点n及节点n的所有子节点的集合,Ci为节点i所包含的文本字符,为节点i所包含的超链接类字符,H为超链接类字符的标识符,THDn为节点n的文本链接密度。
需解释的是,THDn的值越大,则表示目标网页中节点n所包括的容器类别元素所展示的文本信息量则越大,且与其他网页的网页关联度也越高,即称为文本链接密度。
进一步地,所述计算每个压缩DOM的结构相似度,包括:
采用如下计算公式,计算得到每个压缩DOM的结构相似度:
其中,Hs表示第s个压缩DOM与其他网页的DOM树的结构相似度,P(i)表示是节点i路径出现的概率,Li为节点i内部的子节点集合,lb表示以2为底的对数符号,其中节点i路径出现的概率表示基于节点i及其子节点的结构关系在已有DOM树集合中出现的概率值。
进一步地,所述根据所述结构相似度和所述超链接类字符集,计算得到所述噪声链接密度,包括:
根据如下公式计算得到所述噪声链接密度:
其中,HHDs表示第s个压缩DOM对应的所述噪声链接密度,Dsn为第s个压缩DOM的容器类别元素所在节点n及节点n的所有子节点的集合,表示节点i所包含的超链接类字符的字符长度,Hs表示第s个压缩DOM与其他网页的DOM树的结构相似度。
下一步地,所述根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,包括:
剔除噪声链接密度大于指定噪声阈值的目标网页,得到所述清洗网页集。
进一步地,所述利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本,包括:
提取文本链接密度大于指定文本阈值的容器类别元素,得到文本类别元素集;
获取所述文本类别元素集中每个文本类别元素的文本字段;
将每个文本字段按照对应的文本类别元素在DOM树的结构,组建得到所述所述目标企业相关的目标文本。
可理解的是,文本链接密度表示文本信息量,因此为了抓取更多的文本信息,本发明实施例提取文本链接密度大于指定文本阈值的容器类别元素,从而获取目标企业更多的目标文本。
S5、将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集。
需理解的是,每个目标企业的目标文本多种多样,因此按照目标文本与是目标企业的企业数据执行对应关系,可更生动的实现目标企业的电子沙盘系统,示例性的,如目标文本描述目标企业在整个生产过程所遇到的困难并如何解决这类困难,则将该目标文本与目标企业的生产品控数据执行对应操作,得到企业数据-企业文本对应集。
S6、基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。
本发明实施例中,所述网页可视化方法包括图表可视化、三维可视化、VR可视化等多种方法,示例性的,将企业数据-企业文本输入至图表可视化的接口中,可生成与目标企业相关的各种类型的图表及文本描述。
本发明实施例为解决背景技术所述问题,接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库,从所述存储数据库中采集企业数据,由于企业数据是数字孪生下的电子沙盘系统构建的基础,因此本发明实施例先获取企业数据,进一步地,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集,目标网页集的收集是为了获取企业的企业活动,从而将企业活动也集成至电子沙盘系统中以提高电子沙盘系统的展示内容丰富度,但由于部分网页存在异常、不安全、垃圾网页的可能性,故压缩所述目标网页集的DOM树,得到压缩DOM集,并计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本,最后将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集,并基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。因此本发明提出的基于数字孪生的电子沙盘系统构建方法、装置、电子设备及计算机可读存储介质,可以解决企业的电子沙盘系统所展示的企业内容相对单一且匮乏的问题。
如图4所示,是本发明一实施例提供的基于数字孪生的电子沙盘系统构建装置的功能模块图。
本发明所述基于数字孪生的电子沙盘系统构建装置100可以安装于电子设备中。根据实现的功能,所述基于数字孪生的电子沙盘系统构建装置100可以包括电子沙盘系统构建启动模块101、企业数据获取模块102、DOM树压缩模块103、目标文本收集模块104及电子沙盘系统生成模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
所述电子沙盘系统构建启动模块101,用于接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库;
所述企业数据获取模块102,用于从所述存储数据库中采集企业数据,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集;
所述DOM树压缩模块103,用于压缩所述目标网页集的DOM树,得到压缩DOM集;
所述目标文本收集模块104,用于计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本;
所述电子沙盘系统生成模块105,用于将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集,基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。
详细地,本发明实施例中所述基于数字孪生的电子沙盘系统构建装置100中的所述各模块在使用时采用与上述的图1中所述的基于区块链的产品供应链管理方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现基于数字孪生的电子沙盘系统构建方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线12,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于数字孪生的电子沙盘系统构建方法程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于数字孪生的电子沙盘系统构建方法程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于数字孪生的电子沙盘系统构建方法程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线12可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线12可以分为地址总线、数据总线、控制总线等。所述总线12被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于数字孪生的电子沙盘系统构建方法程序是多个指令的组合,在所述处理器10中运行时,可以实现:
接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库;
从所述存储数据库中采集企业数据,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集;
压缩所述目标网页集的DOM树,得到压缩DOM集;
计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本;
将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集;
基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图5对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库;
从所述存储数据库中采集企业数据,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集;
压缩所述目标网页集的DOM树,得到压缩DOM集;
计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本;
将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集;
基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于数字孪生的电子沙盘系统构建方法,其特征在于,所述方法包括:
接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库;
从所述存储数据库中采集企业数据,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集;
压缩所述目标网页集的DOM树,得到压缩DOM集;
计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本;
将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集;
基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。
2.如权利要求1所述的电子沙盘系统构建方法,其特征在于,所述以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集,包括:
获取所述目标企业的企业名称、企业董事会成员名称、企业产品名称,其中所述企业名称包括企业简称、企业产品名称包括产品简称;
将所述企业名称、企业董事会成员名称、企业产品名称作为所述搜索关键字;
启动所述搜索引擎搜索得到与搜索关键字相关的原始网页集;
剔除所述原始网页集中存在访问风险的网页,得到所述目标网页集。
3.如权利要求2所述的电子沙盘系统构建方法,其特征在于,所述剔除所述原始网页集中存在访问风险的网页,得到所述目标网页集,包括:
提取每个原始网页的DOM树,依次校验每个DOM树的标签是否有异常标签,其中异常标签包括非法访问链接;
剔除包括异常标签的DOM树所对应的原始网页,得到所述目标网页集。
4.如权利要求3所述的电子沙盘系统构建方法,其特征在于,所述压缩所述目标网页集的DOM树,得到压缩DOM集,包括:
对每个目标网页所对应的DOM树均执行元素类别划分,得到3种不同类别的元素集,其中所述3种不同类别包括用户交互类别、样式类别及容器类别,即元素集包括用户交互类别元素集、样式类别元素集及容器类别元素集;
剔除包括所述户交互类别元素集及样式类别元素集的节点,得到仅包括容器类别元素集的节点的DOM树集;
将仅包括容器类别元素集的节点的DOM树集执行层次遍历以剔除空节点,得到所述压缩DOM集。
5.如权利要求1所述的电子沙盘系统构建方法,其特征在于,所述计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,包括:
从所述压缩DOM集中提取所有的容器类别元素;
将所有的容器类别元素分为文本字符类元素集和超链接类字符集;
根据所述文本字符类元素集和超链接类字符集计算得到所述文本链接密度;
计算每个压缩DOM的结构相似度,根据所述结构相似度和所述超链接类字符集,计算得到所述噪声链接密度。
6.如权利要求5所述的电子沙盘系统构建方法,其特征在于,所述根据所述文本字符类元素集和超链接类字符集计算得到所述文本链接密度,包括:
采用如下计算公式,计算得到所述文本链接密度:
其中,Dn为容器类别元素所在节点n及节点n的所有子节点的集合,Ci为节点i所包含的文本字符,为节点i所包含的超链接类字符,H为超链接类字符的标识符,THDn为节点n的文本链接密度。
7.如权利要求6所述的电子沙盘系统构建方法,其特征在于,所述计算每个压缩DOM的结构相似度,包括:
采用如下计算公式,计算得到每个压缩DOM的结构相似度:
其中,Hs表示第s个压缩DOM与其他网页的DOM树的结构相似度,P(i)表示是节点i路径出现的概率,Li为节点i内部的子节点集合,lb表示以2为底的对数符号,其中节点i路径出现的概率表示基于节点i及其子节点的结构关系在已有DOM树集合中出现的概率值。
8.如权利要求7所述的电子沙盘系统构建方法,其特征在于,所述根据所述结构相似度和所述超链接类字符集,计算得到所述噪声链接密度,包括:
根据如下公式计算得到所述噪声链接密度:
其中,HHDs表示第s个压缩DOM对应的所述噪声链接密度,Dsn为第s个压缩DOM的容器类别元素所在节点n及节点n的所有子节点的集合,表示节点i所包含的超链接类字符的字符长度,Hs表示第s个压缩DOM与其他网页的DOM树的结构相似度。
9.如权利要求8所述的电子沙盘系统构建方法,其特征在于,所述利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本,包括:
提取文本链接密度大于指定文本阈值的容器类别元素,得到文本类别元素集;
获取所述文本类别元素集中每个文本类别元素的文本字段;
将每个文本字段按照对应的文本类别元素在DOM树的结构,组建得到所述目标企业相关的目标文本。
10.一种基于数字孪生的电子沙盘系统构建装置,其特征在于,所述装置包括:
电子沙盘系统构建启动模块,用于接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库;
企业数据获取模块,用于从所述存储数据库中采集企业数据,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集;
DOM树压缩模块,用于压缩所述目标网页集的DOM树,得到压缩DOM集;
目标文本收集模块,用于计算所述压缩DOM集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本;
电子沙盘系统生成模块,用于将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集,基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。
CN202311152029.7A 2023-09-07 2023-09-07 基于数字孪生的电子沙盘系统构建方法及装置 Active CN117216339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311152029.7A CN117216339B (zh) 2023-09-07 2023-09-07 基于数字孪生的电子沙盘系统构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311152029.7A CN117216339B (zh) 2023-09-07 2023-09-07 基于数字孪生的电子沙盘系统构建方法及装置

Publications (2)

Publication Number Publication Date
CN117216339A CN117216339A (zh) 2023-12-12
CN117216339B true CN117216339B (zh) 2024-02-09

Family

ID=89041799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311152029.7A Active CN117216339B (zh) 2023-09-07 2023-09-07 基于数字孪生的电子沙盘系统构建方法及装置

Country Status (1)

Country Link
CN (1) CN117216339B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143572A (zh) * 2019-11-27 2020-05-12 深圳壹账通智能科技有限公司 关联图谱构建方法、装置、计算机设备、及存储介质
CN113806897A (zh) * 2021-08-27 2021-12-17 江苏齐天电力建设集团有限公司 一种基于三维gis技术的电力工程建设决策优化方法
CN113901166A (zh) * 2021-10-28 2022-01-07 中国平安财产保险股份有限公司 电子地图构建方法、装置、设备及存储介质
CN115563680A (zh) * 2022-10-09 2023-01-03 阿里云计算有限公司 数字孪生对象处理方法以及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180025012A1 (en) * 2016-07-19 2018-01-25 Fortinet, Inc. Web page classification based on noise removal
US20230018387A1 (en) * 2021-07-06 2023-01-19 metacluster lt, UAB Dynamic web page classification in web data collection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143572A (zh) * 2019-11-27 2020-05-12 深圳壹账通智能科技有限公司 关联图谱构建方法、装置、计算机设备、及存储介质
CN113806897A (zh) * 2021-08-27 2021-12-17 江苏齐天电力建设集团有限公司 一种基于三维gis技术的电力工程建设决策优化方法
CN113901166A (zh) * 2021-10-28 2022-01-07 中国平安财产保险股份有限公司 电子地图构建方法、装置、设备及存储介质
CN115563680A (zh) * 2022-10-09 2023-01-03 阿里云计算有限公司 数字孪生对象处理方法以及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Comparison of DEM accuracies generated from different stereo pairs over a plateau mountainous area;Liu, HH;JOURNAL OF MOUNTAIN SCIENCE;20210707;第18卷(第6期);1580-1590 *
重庆市区域规划电子沙盘系统的设计与实现;王黎明, 文辉, 王英;地理研究;20050425(第02期);304-311 *

Also Published As

Publication number Publication date
CN117216339A (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
CN113449187B (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN112541338A (zh) 相似文本匹配方法、装置、电子设备及计算机存储介质
CN112380859A (zh) 舆情信息的推荐方法、装置、电子设备及计算机存储介质
CN113836131B (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
CN112507230B (zh) 基于浏览器的网页推荐方法、装置、电子设备及存储介质
CN114398557A (zh) 基于双画像的信息推荐方法、装置、电子设备及存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN112214602B (zh) 基于幽默度的文本分类方法、装置、电子设备及存储介质
CN117216339B (zh) 基于数字孪生的电子沙盘系统构建方法及装置
CN113806492B (zh) 基于语义识别的记录生成方法、装置、设备及存储介质
CN115186188A (zh) 基于行为分析的产品推荐方法、装置、设备及存储介质
CN115062023A (zh) 宽表优化方法、装置、电子设备及计算机可读存储介质
CN113987206A (zh) 异常用户的识别方法、装置、设备及存储介质
CN113656586A (zh) 情感分类方法、装置、电子设备及可读存储介质
CN113344674A (zh) 基于用户购买力的产品推荐方法、装置、设备及存储介质
CN112528183B (zh) 基于大数据的网页组件布局方法、装置、电子设备及介质
CN113704587B (zh) 基于阶段划分的用户黏着度分析方法、装置、设备及介质
CN113706204B (zh) 基于深度学习的权益发放方法、装置、设备及存储介质
CN115392887B (zh) 自然资源一体化平台构建方法、装置
CN114840560B (zh) 非结构化数据转化及存储方法和装置
CN113706207B (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质
CN112214556B (zh) 标签生成方法、装置、电子设备及计算机可读存储介质
CN116737878A (zh) 疾病搜索排序方法、装置、设备及存储介质
CN116775852A (zh) 基于标签的数据推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant