CN113254826B - 转储文件的处理方法及装置 - Google Patents

转储文件的处理方法及装置 Download PDF

Info

Publication number
CN113254826B
CN113254826B CN202110555233.8A CN202110555233A CN113254826B CN 113254826 B CN113254826 B CN 113254826B CN 202110555233 A CN202110555233 A CN 202110555233A CN 113254826 B CN113254826 B CN 113254826B
Authority
CN
China
Prior art keywords
data
target
determining
sub
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110555233.8A
Other languages
English (en)
Other versions
CN113254826A (zh
Inventor
刘伟
张博
林赛群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110555233.8A priority Critical patent/CN113254826B/zh
Publication of CN113254826A publication Critical patent/CN113254826A/zh
Application granted granted Critical
Publication of CN113254826B publication Critical patent/CN113254826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种转储文件的处理方法,本公开涉及计算机技术领域,尤其涉及数据挖掘技术领域。具体实现方案为:将应用程序的转储文件转换为明文数据;确定明文数据中的目标数据;以及根据目标数据,生成目标网页,其中,目标网页用于展示目标数据。

Description

转储文件的处理方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及数据挖掘技术领域。
背景技术
互联网生态从统一的开放生态,目前逐渐转化为一个个“孤岛”,这些“孤岛”是由一个个APP(应用程序)组成。每个APP的数据独立而且封闭,这使得获取APP的数据十分困难。
发明内容
本公开提供了一种转储文件的处理方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种转储文件的处理方法,包括:将应用程序的转储文件转换为明文数据;确定所述明文数据中的目标数据;以及根据所述目标数据,生成目标网页,其中,所述目标网页用于展示所述目标数据。
根据本公开的另一方面,提供了一种转储文件的处理装置,包括:转换模块,用于将应用程序的转储文件转换为明文数据;确定模块,用于确定所述明文数据中的目标数据;以及生成模块,用于根据所述目标数据,生成目标网页,其中,所述目标网页用于展示所述目标数据。
根据本公开实施例的另一方面,提供了一种计算设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所示的方法。
根据本公开实施例的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开实施例所示的方法。
根据本公开实施例的另一方面,提供了一种计算机程序产品,计算机程序,所述计算机程序在被处理器执行时实现本公开实施例所示的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的转储文件的处理方法的应用场景示意图;
图2示意性示出了根据本公开实施例的转储文件的处理方法的流程示意图;
图3示意性示出了根据本公开实施例的生成目标网页的方法的流程示意图;
图4示意性示出了根据本公开另一实施例的转储文件的处理方法的流程示意图;
图5示意性示出了根据本公开实施例的Dump文件的示意图;
图6示意性示出了根据本公开实施例的明文数据的示意图;
图7示意性示出了根据本公开实施例的结构化数据的示意图;
图8示意性示出了根据本公开实施例的目标网页的示意图;
图9示意性示出了根据本公开实施例的转储文件的处理装置的示意框图;以及
图10示意性示出了根据本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
以下将结合图1,对转储文件的处理方法的应用场景进行详细描述。
图1示意性示出了根据本公开实施例的转储文件的处理方法的应用场景示意图。
如图1所示,用户可以通过APP 110执行点击11、搜索12、滑动13等操作。响应于点击11、搜索12、滑动13等操作,APP 110生成相应的请求,并将该请求发送至后台120。后台120在接收到来自APP 110的请求后,进行数据处理,并生成相应的请求结果,反馈至APP110。在上述过程中,APP 110生成转储文件(Dump文件)111来记录应用程序的执行状态等信息。示例性地,本实施例中,转储文件111例如可以包括APP 110传输至后台120的数据,以及后台120反馈的数据等。每个请求可以对应一个转储文件111。转储文件111可以采用键值对的形式记录数据,每个转储文件111中可以包括至少一个键值对数据。
以下将结合图2,对转储文件的处理方法进行详细描述。
图2示意性示出了根据本公开实施例的转储文件的处理方法的流程示意图。
如图2所示,该转储文件的处理方法200可以包括操作S210~操作S230。
在操作S210,将应用程序的转储文件转化为明文数据。
根据本公开的实施例,转储文件中的数据经过预设的编码方式进行编码,其中,预设的编码方式例如unicode(统一码)等。在编码的过程中,中文字符被转换为相应的编码字符,不便于人工阅读。基于此,可以将转储文件中用于表示中文字符的编码字符转换为对应的中文字符,从而得到明文数据。
需要说明的是,本实施例中,应用程序的转储文件可以是一个也可以是多个。
在操作S220,确定明文数据中的目标数据。
根据本公开的实施例,明文数据中可能包含大量数据,不便于后续处理,因此可以对明文数据进行数据清洗,筛除明文数据中分析价值较低的数据,保留明文数据中分析价值较高的数据,作为目标数据。
根据本公开的实施例,可以预先设置分析价值较高的数据所对应的键名作为预设键名。基于此,在操作S220中,可以获取转储文件中的所有键值对数据。然后确定至少一个键值对数据中与预设键名匹配的键值对数据,作为目标数据。
根据本公开的另一实施例,转储文件中的键值对数据可以来自同一个数据源,也可以来自不同的数据源。在转储文件中的键值对数据可以来自不同数据源的情况下,键值对数据的键名并不统一。基于此,还可以预先设置预设命名规则,用于规范数据的键名。针对目标数据中键名不符合预设命名规则的键值对数据,可以执行命名操作,以使该键值对数据的键名符合预设命名规则。
在操作S230,根据目标数据,生成目标网页。
根据本公开的实施例,目标网页可以用于展示目标数据。通过目标网页,用户能够直接浏览目标数据,从而获知APP的信息。另外,目标网页可以兼容dom-tree(文档对象模型树)解析方法,因此用户可以利用dom-tree解析方法对目标数据进行解析,无需开发独立的解析策略,从而提高了数据解析的便捷性。
以下将结合图3,对根据目标数据,生成目标网页的方法进行详细描述。
图3示意性示出了根据本公开实施例的生成目标网页的方法的流程示意图。
如图3所示,该生成目标网页的方法330可以包括操作S331~操作S333。
在操作S331,根据目标数据,确定结构化数据。
根据本公开的实施例,可以确定与目标数据匹配的数据格式。然后将目标数据转换为数据格式,得到结构化数据。其中,数据格式例如可以包括列表、段落等等。
例如,目标数据包括多个数据项,多个数据项均具有索引字段,该索引字段可以表示多个数据项之间具有的序列关系。因此,可以确定列表格式与该目标数据匹配。
在操作S332,确定与结构化数据对应的目标页面模板。
根据本公开的实施例,预先针对每种数据格式配置有对应的页面模板,用于展示不同数据格式的数据。例如,对应于列表格式配置有索引页模版,对应于段落格式配置有内容页模板。因此,可以根据结构化数据的数据格式,确定预设的页面模板中与该数据格式对应的页面模板,作为目标页面模板。
在操作S333,将结构化数据写入目标页面模板,得到目标网页。
根据本公开的实施例,可以确定与结构化数据中的每个子数据对应的页面元素。然后,针对每个子数据,在目标页面模板中存在与子数据对应的页面元素的情况下,将子数据写入页面元素中,在目标页面模板中不存在与子数据对应的页面元素的情况下,在目标页面模板中添加页面元素,并将结构化数据中的每个子数据写入页面元素中。
根据本公开的另一些实施例,转储文件中的键值对数据可以来自同一个数据源,也可以来自不同的数据源。在转储文件中的键值对数据可以来自不同数据源的情况下,不同数据源的数据所使用的键名并不统一。
基于此,图4示意性示出了根据本公开另一实施例的转储文件的处理方法的流程示意图。
如图4所示,该转储文件的处理方法400可以包括操作S410~操作S440。
在操作S410,将应用程序的转储文件转化为明文数据。
在操作S420,确定明文数据中的目标数据。
在操作S430,针对所述目标数据中键名不符合预设命名规则的键值对数据,执行命名操作。
在操作S440,根据目标数据,生成目标网页。
其中,在操作S410、操作S420和在操作S440可以参考上文所示的转储文件的处理方法,在此不再赘述。
根据本公开的实施例,可以预先设置预设命名规则,用于规范数据的键名。其中,预设命名规则可以根据实际需要进行设置,本公开对预设命名规则的具体设置方式不作具体地限定。针对目标数据中键名不符合预设命名规则的键值对数据,可以执行命名操作。通过命名操作可以使该键值对数据的键名统一,从而方便后续处理。
以下将结合图5~图8和具体实施例对转储文件的处理方法进行详细描述。
本实施例中,从APP获取的Dump文件共有9个,均基于unicode编码。该9个Dump文件记录了一次与搜索操作对应的请求过程。
图5示意性示出了根据本公开实施例的Dump文件的示意图。该Dump文件为9个Dump文件中的一个。
如图5所示,该Dump文件中的信息基于unicode编码,并非明文。基于此,可以将Dump文件中的信息转化为明文数据。
图6示意性示出了根据本公开实施例的明文数据的示意图。
如图6所示,在Dump文件转化为明文数据后,Dump文件中用于表示中文字符的unicode字符被转化为对应的中文字符。用户可以初步理解该明文数据的数据含义为:搜索(query)“Q2是什么意思”,以及对应的搜索结果信息。
然后,对得到的明文数据进行“key/value对”(键值对)抽取,得到以下“key/value对”:
datainfo:Q2是什么意思
index:1
from_tab:video
title:Q2_哔哔哔哔
url:https://m.*.com/video/11234567
user_id:-1
user_data:null
……
其中,符号“:”前的字符串为key,“:”后的字符串为对应的value。datainfo表示数据信息,index表示索引,from_tab表示来源标签,title表示标题,url表示索引链接,user_id表示用户标识,user_data表示用户数据。
需要说明的是,url所表示的索引链接用于索引,并不一定是真实的连接,可以任意设置url属性的值。
接下来,对抽取得到的“key/value对”进行数据清洗,保留这些“key/value对”中与预设键名匹配的“key/value对”,即高价值信息,并对键名进行统一命名,得到以下目标数据:
query:Q2是什么意思
index:1
url:https://m.*.com/video/11234567
title:Q2_哔哔哔哔
类似地,可以基于上文所示的方法,确定其他8个Dump文件所对应的目标数据。根据9个Dump文件所对应的目标数据可以确定其表达的信息是搜索请求和对应的搜索结果。另外,目标数据均具有index属性,因此可以确定这9个Dump文件中的信息是一个列表。基于此,可以将9个Dump文件所对应的目标数据,转化为列表格式的结构化数据。
图7示意性示出了根据本公开实施例的结构化数据的示意图。
如图7所示,结构化数据包括一个列表,该列表的第一列为index属性的值,第二列为url属性的值,第三列为query属性的值,第四列为title属性的值。
由于该结构化数据具有列表结构,因此该结构化数据可以转化为索引页。基于此,图8示意性示出了根据本公开实施例的目标网页的示意图。
如图8所示,可以从预设的页面模板中选择索引模板,然后将第三列数据写入索引模板中的title元素,将第四列数据写入索引模板中的anchor元素,将第二列数据写入anchor元素所对应的链接,从而得到目标网页。另外,由于第一列数据用于表示数据项之间的顺序,因此可根据实际情况调整是否展现。示例性地,本实施例中,第一列数据不在索引模板中展现。
根据本公开的实施例,基于APP的Dump文件,确定APP的高价值信息,并根据高价值信息,生成用于展示高价值信息的网页。从而使用户能够通过网页直接浏览APP的高价值信息。另外,网页可以兼容dom-tree解析方法,因此用户可以利用dom-tree解析方法对APP的高价值信息进行解析,无需开发独立的解析策略,从而提高了数据解析的便捷性。
以下将结合图9,对转储文件的处理装置进行详细描述。
图9示意性示出了根据本公开实施例的转储文件的处理装置的示意框图。
如图9所示,该转储文件的处理装置900可以包括转换模块910、确定模块920和生成模块930。
转换模块910,可以用于将应用程序的转储文件转换为明文数据。
确定模块920,可以用于确定明文数据中的目标数据。
生成模块930,可以用于根据目标数据,生成目标网页。其中,目标网页用于展示目标数据。
需要说明的是,本公开的技术方案中,所涉及的APP信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如转储文件的处理方法。例如,在一些实施例中,转储文件的处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的转储文件的处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行转储文件的处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (7)

1.一种转储文件的处理方法,包括:
将应用程序的转储文件转换为明文数据;
确定所述明文数据中的目标数据;以及
根据所述目标数据,生成目标网页,其中,所述目标网页用于展示所述目标数据;
其中,所述根据所述目标数据,生成目标网页,包括:
根据目标数据,确定结构化数据;
确定与所述结构化数据对应的目标页面模板;以及
将所述结构化数据写入所述目标页面模板,得到所述目标网页;
其中,所述根据目标数据,确定结构化数据,包括:
确定与所述目标数据匹配的数据格式;以及
将所述目标数据转换为所述数据格式,得到所述结构化数据;
其中,所述将所述结构化数据写入所述目标页面模板,以得到所述目标网页,包括:
确定与所述结构化数据中的每个子数据对应的页面元素;
针对所述每个子数据:
在所述目标页面模板中存在与所述子数据对应的页面元素的情况下,将所述子数据写入所述页面元素中;以及
在所述目标页面模板中不存在与所述子数据对应的页面元素的情况下,在所述目标页面模板中添加所述页面元素,并将所述结构化数据中的每个子数据写入所述页面元素中。
2.根据权利要求1所述的方法,其中,所述将应用程序的转储文件转换为明文数据包括:
将所述转储文件中用于表示中文字符的编码字符转换为对应的中文字符,得到所述明文数据。
3. 根据权利要求1所述的方法,其中,所述转储文件包括至少一个键值对;所述确定所述明文数据中的目标数据包括:
获取所述转储文件中的至少一个键值对数据;以及
确定所述至少一个键值对数据中与预设键名匹配的键值对数据,作为所述目标数据。
4.根据权利要求1所述的方法,还包括:
针对所述目标数据中键名不符合预设命名规则的键值对数据,执行命名操作,以使所述键值对数据的键名符合所述预设命名规则。
5.一种转储文件的处理装置,包括:
转换模块,用于将应用程序的转储文件转换为明文数据;
确定模块,用于确定所述明文数据中的目标数据;以及
生成模块,用于根据所述目标数据,生成目标网页,其中,所述目标网页用于展示所述目标数据;
其中,所述生成模块包括:
结构化数据确定单元,用于根据目标数据,确定结构化数据;
目标页面模板确定单元,用于确定与所述结构化数据对应的目标页面模板;以及
写入单元,用于将所述结构化数据写入所述目标页面模板,得到所述目标网页;
其中,所述结构化数据确定单元包括:
数据格式确定子单元,用于确定与所述目标数据匹配的数据格式;以及
转换子单元,用于将所述目标数据转换为所述数据格式,得到所述结构化数据;
其中,所述写入单元包括:
页面元素确定子单元,用于确定与所述结构化数据中的每个子数据对应的页面元素;
写入子单元,用于针对所述每个子数据,在所述目标页面模板中存在与所述子数据对应的页面元素的情况下,将所述子数据写入所述页面元素中;以及在所述目标页面模板中不存在与所述子数据对应的页面元素的情况下,在所述目标页面模板中添加所述页面元素,并将所述结构化数据中的每个子数据写入所述页面元素中。
6. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
7.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法。
CN202110555233.8A 2021-05-20 2021-05-20 转储文件的处理方法及装置 Active CN113254826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110555233.8A CN113254826B (zh) 2021-05-20 2021-05-20 转储文件的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110555233.8A CN113254826B (zh) 2021-05-20 2021-05-20 转储文件的处理方法及装置

Publications (2)

Publication Number Publication Date
CN113254826A CN113254826A (zh) 2021-08-13
CN113254826B true CN113254826B (zh) 2023-07-14

Family

ID=77183439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110555233.8A Active CN113254826B (zh) 2021-05-20 2021-05-20 转储文件的处理方法及装置

Country Status (1)

Country Link
CN (1) CN113254826B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111338693A (zh) * 2020-02-22 2020-06-26 深圳市魔数智擎人工智能有限公司 基于模型构建的目标文件生成方法、服务器及存储介质
CN112433788A (zh) * 2020-11-23 2021-03-02 百度在线网络技术(北京)有限公司 小程序运行方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8683311B2 (en) * 2009-12-11 2014-03-25 Microsoft Corporation Generating structured data objects from unstructured web pages

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111338693A (zh) * 2020-02-22 2020-06-26 深圳市魔数智擎人工智能有限公司 基于模型构建的目标文件生成方法、服务器及存储介质
CN112433788A (zh) * 2020-11-23 2021-03-02 百度在线网络技术(北京)有限公司 小程序运行方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Khmer word segmentation based on Bi-directional Maximal Matching for Plaintext and Microsoft Word document;Narin Bi等;《IEEE Xplore》;全文 *
基于Web内容的一种数据自动抽取方法;朱永生;王军;;计算机技术与发展(05);全文 *

Also Published As

Publication number Publication date
CN113254826A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN108717437B (zh) 搜索结果展示方法、装置及存储介质
CN110689268B (zh) 一种提取指标的方法和装置
CN113378091B (zh) 一种可视化项目生成方法、装置、电子设备及存储介质
CN110109983B (zh) 一种操作Redis数据库的方法和装置
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN113626223A (zh) 一种接口调用方法和装置
CN115469849B (zh) 一种业务处理系统、方法、电子设备和存储介质
CN113254826B (zh) 转储文件的处理方法及装置
CN109614592B (zh) 文本的处理方法、装置、存储介质和电子设备
CN115687717A (zh) Grok表达式获取方法、装置、设备及计算机可读存储介质
CN116185389A (zh) 一种代码生成方法、装置、电子设备及介质
CN114168119B (zh) 代码文件编辑方法、装置、电子设备以及存储介质
CN115904240A (zh) 数据处理方法、装置、电子设备和存储介质
CN113051875B (zh) 信息转换模型的训练方法、文本信息的转换方法和装置
CN115577689A (zh) 一种表格组件的生成方法、装置、设备及介质
CN113987118A (zh) 语料的获取方法、装置、设备及存储介质
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
CN113361249B (zh) 文档判重方法、装置、电子设备和存储介质
CN115965018B (zh) 信息生成模型的训练方法、信息生成方法和装置
CN115001628B (zh) 数据编码的方法及装置、数据解码的方法及装置和数据结构
CN116306496B (zh) 字符生成方法、字符生成模型的训练方法和装置
CN113822057B (zh) 地点信息确定方法、装置、电子设备以及存储介质
CN116186455A (zh) 目录生成方法、目录操作方法、装置及设备
CN118069131A (zh) 组件化的界面主题生成方法、装置、设备及介质
CN114116919A (zh) 知识图谱的构建方法、数据查询方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant