CN116562255A - 表单信息生成方法、装置、电子设备和计算机可读介质 - Google Patents
表单信息生成方法、装置、电子设备和计算机可读介质 Download PDFInfo
- Publication number
- CN116562255A CN116562255A CN202310841443.2A CN202310841443A CN116562255A CN 116562255 A CN116562255 A CN 116562255A CN 202310841443 A CN202310841443 A CN 202310841443A CN 116562255 A CN116562255 A CN 116562255A
- Authority
- CN
- China
- Prior art keywords
- information
- data
- website
- field
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000012098 association analyses Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 4
- 239000002699 waste material Substances 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开的实施例公开了表单信息生成方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:接收与目标网站对应的表单批数据组集;确定表单批数据组集对应的集中填报日期;对表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集;对表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集;基于表单对象信息组集和关联属性信息集,生成表单填报模板信息集;基于目标网站对应的区域标识、表单填报模板信息集和集中填报日期,生成表单信息。该实施方式可以减少计算资源的浪费。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及表单信息生成方法、装置、电子设备和计算机可读介质。
背景技术
表单信息生成方法,对填报表单具有重要意义。目前,在生成表单信息时,通常采用的方式为:首先,获取客户端的待填报的表单数据。然后,服务器端对表单数据进行预处理、解析,以及绑定属性数据,由此生成表单信息。
然而,发明人发现,当采用上述方式生成表单信息时,经常会存在如下技术问题:
第一,同一数据源通常关联有多个待填报表单,且各个表单间存在较多冗余数据,若针对每个表单对应的数据分别进行解析和绑定属性数据,则需要额外耗费大量计算资源处理冗余数据,从而,导致计算资源浪费;
第二,表单数据的预处理需要占用较多计算资源,若大量表单数据汇集至服务器端,则容易使得服务器端计算压力过大,从而,导致难以及时生成表单信息;
第三,在表单提报发生异常时,若对最新收集的表单数据通过上述方式生成表单信息,则耗时较长,难以及时填报表单,降低了表单填报效率;
第四,服务器端的地址通常是唯一的,若直接提交上述表单信息,则提交次数较多时,容易导致表单提交请求被目标终端拒绝连接,或者由于目标终端设置了通过前端脚本校验用户的真实性,也会导致表单提交请求被目标终端拒绝连接,从而,降低了表单填报效率。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了表单信息生成方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种表单信息生成方法,该方法包括:接收与目标网站对应的表单批数据组集,其中,上述表单批数据组集中的每个表单批数据组是对应同一表单的各个字段的数据集合;确定上述表单批数据组集对应的集中填报日期;对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集,其中,上述表单对象信息组集中的每个表单对象信息组是语义相同的各个字段对应的表单对象信息的集合;对上述表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集;基于上述表单对象信息组集和上述关联属性信息集,生成表单填报模板信息集,其中,上述表单填报模板信息集中的每个表单填报模板信息表征表单填报模板,表单填报模板是由对应同一表单的、绑定有属性值来源的、各个字段组成的;基于上述目标网站对应的区域标识、上述表单填报模板信息集和上述集中填报日期,生成表单信息。
第二方面,本公开的一些实施例提供了一种表单信息生成装置,装置包括:接收单元,被配置成接收与目标网站对应的表单批数据组集,其中,上述表单批数据组集中的每个表单批数据组是对应同一表单的各个字段的数据集合;确定单元,被配置成确定上述表单批数据组集对应的集中填报日期;聚类处理单元,被配置成对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集,其中,上述表单对象信息组集中的每个表单对象信息组是语义相同的各个字段对应的表单对象信息的集合;识别处理单元,被配置成对上述表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集;第一生成单元,被配置成基于上述表单对象信息组集和上述关联属性信息集,生成表单填报模板信息集,其中,上述表单填报模板信息集中的每个表单填报模板信息表征表单填报模板,表单填报模板是由对应同一表单的、绑定有属性值来源的、各个字段组成的;第二生成单元,被配置成基于上述目标网站对应的区域标识、上述表单填报模板信息集和上述集中填报日期,生成表单信息。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,上述计算机程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的表单信息生成方法,可以减少计算资源的浪费。具体来说,造成计算资源浪费的原因在于:同一数据源通常关联有多个待填报表单,且各个表单间存在较多冗余数据,若针对每个表单对应的数据分别进行解析和绑定属性数据,则不得不额外耗费大量计算资源处理冗余数据,从而,导致计算资源浪费。基于此,本公开的一些实施例的表单信息生成方法,首先,接收与目标网站对应的表单批数据组集。其中,上述表单批数据组集中的每个表单批数据组是对应同一表单的各个字段的数据集合。由此,可以得到目标网站关联的多个待提交的表单数据。其次,确定上述表单批数据组集对应的集中填报日期。由此,可以得到填报表单数据的填报时间需求。然后,对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集。其中,上述表单对象信息组集中的每个表单对象信息组是语义相同的各个字段对应的表单对象信息的集合。由此,可以将各个表单中语义相同的字段聚类为一组,便于后续对同一组中、语义相同的各个字段进行统一属性数据绑定处理。之后,对上述表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集。由此,可以得到每个语义相同的字段组对应的关联属性字段,便于后续根据关联属性字段,对同一字段组中各字段进行属性数据绑定。接着,基于上述表单对象信息组集和上述关联属性信息集,生成表单填报模板信息集。其中,上述表单填报模板信息集中的每个表单填报模板信息表征表单填报模板。表单填报模板是由对应同一表单的、绑定有属性值来源的、各个字段组成的。由此,可以将关联属性字段对应的、数据源提供的属性数据与表单对象信息对应的字段进行绑定,并得到表单批数据组集对应的表单填报模板信息集。最后,基于上述目标网站对应的区域标识、上述表单填报模板信息集和上述集中填报日期,生成表单信息。因此,本公开的一些实施例的表单信息生成方法,可以在存在多个待填报表单时,同时对各个表单进行解析和绑定属性数据,而无需额外耗费大量计算资源处理冗余数据。从而,可以减少计算资源的浪费。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的表单信息生成方法的一些实施例的流程图;
图2是根据本公开的表单信息生成装置的一些实施例的结构示意图;
图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了根据本公开的表单信息生成方法的一些实施例的流程100。该表单信息生成方法,包括以下步骤:
步骤101,接收与目标网站对应的表单批数据组集。
在一些实施例中,表单信息生成方法的执行主体(例如计算设备)可以接收与目标网站对应的表单批数据组集。其中,上述目标网站可以是预设业务类型的网站。上述预设业务类型可以是预先设置的业务类型。例如,上述目标网站可以包括但不限于以下中的一项:仓储录入网站、人口信息录入网站、社保业务网站。上述预设业务类型可以包括但不限于以下中的一项:入库物品录入业务、人口信息录入业务、社会保险缴纳业务、医疗保险缴纳业务。上述表单批数据组集中的表单批数据组可以是与同一表单关联的待提交给目标终端的各个字段的数据集合。表单批数据可以表征一个字段。上述目标终端可以是上述目标网站所部署的服务器终端。
需要说明的是,上述目标网站可以提交不同业务类型的表单,也可以针对一种类型的业务,先新增并维护各个实例数据,再批量提交所有实例数据。上述实例数据可以是与单个实例相关的各个字段的数据。实例可以表征个人。此外,一个实例可以填报多个不同业务类型的表单。
可选的,上述表单批数据组集可以是目标客户端通过以下步骤生成的:
第一步,获取网址信息和网站首页文本信息。其中,上述目标客户端可以是用于填报表单的终端。上述网址信息可以是浏览器打开的网站的URL(Uniform ResourceLocator,统一资源定位符)地址。上述网站首页文本信息可以是与上述URL地址关联的网站首页上的文本的信息。例如,上述网站首页文本信息可以包括但不限于以下至少一项:标题文本、菜单文本、列表文本。可以通过浏览器扩展或第三方插件,从浏览器的地址栏中获取网址信息,以及从目标网站的首页上获取网站首页文本信息。
第二步,对上述网址信息对应的域名字符串进行检测,得到第一检测信息。其中,上述域名字符串可以是表征域名的字符串。例如,上述域名字符串可以是“http://xxx.xxx.com/”。上述第一检测信息可以表征与上述URL地址关联的网站是否为预设域名类型的网站。上述预设域名类型可以是预先设置的域名类型。例如,上述预设域名类型可以是但不限于以下中的一项:.com(商业网站域名类型)、.org(非盈利网站域名类型)。可以通过预设的字符串算法,根据上述预设域名类型对应的字符串,对上述网址信息对应的域名字符串进行检测,得到第一检测信息。
作为示例,上述字符串算法可以包括但不限于以下至少一项:字符串算法、KMP(Knuth-Morris-Pratt,克努特—莫里斯—普拉特操作)算法。
第三步,响应于确定上述第一检测信息满足预设域名条件,对上述网址信息和上述网站首页文本信息进行解析处理,得到目标网站信息。其中,上述预设域名条件可以是上述第一检测信息表征与上述URL地址关联的网站为预设域名类型的网站。上述目标网站信息可以表征与上述URL地址关联的网站是否为预设业务类型的目标网站。上述执行主体可以通过各种方式,对上述网址信息和上述网站首页文本信息进行解析处理,得到目标网站信息。
在一些实施例的一些可选的实现方式中,上述目标客户端可以通过以下步骤,对上述网址信息和上述网站首页文本信息进行解析处理,得到目标网站信息:
步骤一,对上述网址信息进行反向解析,得到归属地标识。其中,上述归属地标识可以对与上述URL地址关联的IP(Internet Protocol,网际互连系统)地址对应的地域进行唯一标识。例如,上述归属地标识可以是“XX省XX市XX区”。其中,XX可以为任意字符。首先,调用DNS(Domain Name System,域名系统)解析服务对上述网址信息对应的URL地址进行域名反向解析,得到与URL地址关联的IP地址。然后,通过第三方IP归属地解析接口,确定上述IP地址对应的归属地标识。
步骤二,对上述网站首页文本信息进行分词解析,得到网站分词信息集。其中,上述网站分词信息集中的网站分词信息可以表征分词后得到的一个单词。可以通过预设的中文分词技术,对上述网站首页文本信息进行分词解析,得到网站分词信息集。
作为示例,上述中文分词技术可以包括但不限于以下至少一项:隐马尔可夫模型、基于条件随机场模型的分词算法、神经网络分词算法。
步骤三,确定上述网站分词信息集对应的关键词信息组。其中,上述关键词信息组中的关键词信息可以表征与上述URL地址关联的网站首页上的关键词。首先,对上述网站分词信息集中的网站分词信息进行词频分析,得到目标分词信息集。其中,上述目标分词信息集中的目标分词信息可以包括单词和词频数。其次,将上述网站分词信息集中满足预设单词模板条件的网站分词信息确定为地域词信息,得到地域词信息集。其中,上述预设单词模板条件可以是目标分词信息表征的单词与预设单词模板对应。上述预设单词模板可以是预先设置的字符串。例如,上述预设单词模板可以是但不限于以下中的一项:“%市”、“_ _区”。然后,将上述网站分词信息集与上述地域词信息集的差集确定为待筛选分词信息集。接着,从上述待筛选分词信息集中选出满足预设词频条件的待筛选分词信息作为高频词信息,得到高频词信息集。其中,上述预设词频条件可以是待筛选分词信息的词频数大于、或等于预设词频阈值。其中,上述预设词频阈值可以是预先设置的阈值。例如,上述预设词频阈值可以是6。之后,响应于确定上述高频词信息集中存在业务词信息,将上述高频词信息集中的至少一个业务词信息确定为业务词信息集。其中,上述业务词信息可以是所表征的单词与预设词表对应的中文单词相同的高频词信息。上述预设词表可以是预先设置的包括各个中文单词的数据表。例如,上述预设词表可以包括“基数”、“缴纳”、“社保”。最后,将上述地域词信息集中的每个地域词信息、上述业务词信息集中的每个业务词信息确定为关键词信息,得到关键词信息组。
可选的,响应于确定上述高频词信息集中存在业务词信息,将上述待筛选分词信息集中、与预设词表对应的中文单词相匹配的各个待筛选分词信息确定为关键词信息组。其中,与预设词表对应的中文单词相匹配可以是待筛选分词信息表征的单词与预设词表对应的一个中文单词相同。
步骤四,响应于确定上述关键词信息组满足预设关键词条件,将上述关键词信息组和上述归属地标识确定为目标网站信息。其中,上述预设关键词条件可以是关键词信息组中存在与上述归属地标识相匹配的关键词信息。与上述归属地标识相匹配可以是与关键词信息对应的单词包含在上述归属地标识对应的地域词中。例如,若归属地标识对应的地域词为“北京市顺义区”,关键词信息对应的单词为“顺义区”,则“顺义区”被“北京市顺义区”包含。
第四步,响应于确定上述目标网站信息满足预设网站条件,获取网站提交数据集。其中,上述预设网站条件可以是目标网站信息对应的目标单词的数量与目标数量的比值大于或等于预设比值。目标单词可以是与目标网站信息对应的、与预设业务关键词组中的单词相同的关键词。上述预设业务关键词组中的预设业务关键词可以是预先设置的、与上述预设业务类型相关的单词。例如,上述预设业务关键词组中的预设业务关键词可以是但不限于以下至少一项:社会保险、缴费、基数、社保局。上述目标数量可以是上述目标网站信息对应的各个关键词信息的数量。上述预设比值可以是0.95。上述网站提交数据集中的网站提交数据可以表征所提交的一个实例对应的一个字段数据。一个实例可以与至少一个网站提交数据关联。上述网站提交数据集中的网站提交数据可以包括但不限于以下至少一项:表单标识、字段标识、字段属性值、提交地址、提交时间。上述表单标识可以对表单唯一标识。上述字段标识可以是字符串。上述字段标识可以对表单里的字段唯一标识。例如,字段标识可以包括但不限于以下至少一项:名字、身份标识、薪资、入职日期。上述字段属性值可以是字段对应的表单域中的值。上述提交地址可以是对应字段需要提交到的URL地址。上述提交时间可以是提交字段时的时间。首先,响应于确定上述目标网站信息满足预设网站条件,将上述目标网站信息对应的网站确定为目标网站。然后,可以通过浏览器扩展插件,拦截上述目标网站的表单提交请求,并从上述表单提交请求中获取网站提交数据集。
作为示例,上述表单标识可以是“form1”。上述字段标识可以是“name”。上述字段属性值可以是“张XX”。上述提交地址可以是“http://*/user”。上述提交时间可以是“2023-02-19 16:22:19”。
第五步,对上述网站提交数据集中的各个网站提交数据进行数据清洗处理,得到目标提交字段数据组集和非空项字段数据组集。其中,上述目标提交字段数据组集中的目标提交字段数据组可以表征同一表单中的各个字段。上述非空项字段数据组集中的非空项字段数据组可以表征同一表单中的各个必填字段。上述执行主体可以通过各种方式,对上述网站提交数据集中的各个网站提交数据进行数据清洗处理,得到目标提交字段数据组集和非空项字段数据组集。
在一些实施例的一些可选的实现方式中,上述网站提交数据集中的每个网站提交数据可以包括字段标识和字段属性值。其中,上述目标客户端还可以通过以下步骤,对上述网站提交数据集中的各个网站提交数据进行数据清洗处理,得到目标提交字段数据组集和非空项字段数据组集:
步骤一,对上述网站提交数据集中的各个网站提交数据进行分类处理,得到同级提交字段数据组集。其中,上述同级提交字段数据组集中的同级提交字段数据组可以是对应同一表单的各个字段数据的集合。可以根据网站提交数据对应的表单标识,对上述网站提交数据集中的各个网站提交数据进行分类处理,得到同级提交字段数据组集。
步骤二,对于上述同级提交字段数据组集中的每个同级提交字段数据组,执行以下步骤,以得到目标提交字段数据组集中的目标提交字段数据组:
子步骤一,确定上述同级提交字段数据组对应的重复数据组。其中,上述重复数据组中的重复数据可以是同一天重复提交的对应同一实例的字段数据。首先,将上述同级提交字段数据组中、对应同一提交时间的各个同级提交字段数据确定为单次字段数据组,得到单次字段数据组集。其次,响应于确定上述单次字段数据组集中存在对应同一实例的各个单次字段数据组,将上述单次字段数据组集中对应同一实例的各个单次字段数据组确定为目标单次字段数据组集,得到至少一个目标单次字段数据组集。然后,对于每个目标单次字段数据组集,删除上述目标单次字段数据组集中满足预设时间条件的目标单次字段数据组,得到删除后目标单次字段数据组集。其中,上述预设时间条件可以是目标单次字段数据组对应的提交时间为目标单次字段数据组集对应的各个提交时间中的最大值。最后,将所得到的至少一个删除后目标单次字段数据组集中的每个删除后目标单次字段数据确定为重复数据,得到重复数据组。
子步骤二,删除上述同级提交字段数据组中、与上述重复数据组相匹配的同级提交字段数据,得到删除后同级提交字段数据组。其中,与上述重复数据组相匹配可以是同级提交字段数据与任意重复数据相同。
子步骤三,将上述删除后同级提交字段数据组中的每个删除后同级提交字段数据确定为目标提交字段数据,得到目标提交字段数据组。
步骤三,将上述网站提交数据集中、字段属性值满足预设空值条件的网站提交数据对应的字段标识确定为空项字段数据,得到空项字段数据集。其中,上述预设空值条件可以是字段属性值为空。
步骤四,将上述网站提交数据集对应的各个字段标识确定为表单字段标识集。
步骤五,将上述表单字段标识集与上述空项字段数据集的差集确定为非空项字段数据集。
步骤六,对上述非空项字段数据集进行分类处理,得到非空项字段数据组集。其中,上述执行主体可以根据非空项字段数据对应的表单标识,将上述非空项字段数据集中、对应同一表单标识的各个非空项字段数据确定为非空项字段数据组,得到非空项字段数据组集。
第六步,对上述目标提交字段数据组集和上述非空项字段数据组集进行融合处理,得到表单批数据组集。首先,根据表单标识,对上述目标提交字段数据组集和上述非空项字段数据组集进行匹配处理,得到表单字段匹配数据集。其中,上述表单字段匹配数据可以表征对应同一表单的目标提交字段数据组和非空项字段数据组的匹配对。然后,对于每个表单字段匹配数据包括的目标提交字段数据组中的每个目标提交字段数据,响应于确定上述目标提交字段数据与上述非空项字段数据组相匹配,对上述目标提交字段数据和预设必填字段数据进行拼接,得到表单批数据。其中,与上述非空项字段数据组相匹配可以是目标提交字段数据对应的字段与上述非空项字段数据组对应的一个字段相同。上述预设必填字段数据可以表征字段为必填字段。例如,上述预设必填字段数据可以为{“是否必填项”:“是”}。
可选的,响应于确定上述目标提交字段数据与上述非空项字段数据组不匹配,将上述目标提交字段数据和预设非必填字段数据进行拼接,得到表单批数据。其中,上述预设非必填字段数据可以表征字段为非必填字段。例如,上述预设非必填字段数据可以为{“是否必填项”:“否”}。
上述数据清洗和融合处理步骤及其相关内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题二“表单数据的预处理需要占用较多计算资源,若大量表单数据汇集至服务器端,则容易使得服务器端计算压力过大,从而,导致难以及时生成表单信息”。导致难以及时生成表单信息的因素往往如下:表单数据的预处理需要占用较多计算资源,若大量表单数据汇集至服务器端,则容易使得服务器端计算压力过大。如果解决了上述因素,就能达到及时生成表单信息的效果。为了达到这一效果,目标客户端采集到目标网站对应的网站提交数据集后,先对网站提交数据集进行预处理,然后再发送至服务器端对表单数据进行解析。具体地,首先,目标客户端可以对网站提交数据集按对应的表单进行分类,其次,目标客户端可以对每个表单对应的网站提交数据进行数据清洗,删除重复提交数据,然后,目标客户端可以确定各个非空字段,最后,根据各个非空字段,目标客户端可以为各个目标提交字段数据添加非必填属性或必填属性,完成对网站提交数据集的预处理,而无需服务器端占用较多资源对表单数据进行预处理,由此可以减少服务器端计算资源的占用,减轻服务器端的压力。从而,可以便于服务器端及时生成表单信息。
步骤102,确定表单批数据组集对应的集中填报日期。
在一些实施例中,上述执行主体可以确定上述表单批数据组集对应的集中填报日期。其中,上述集中填报日期可以是多次提交表单的日期。首先,将上述表单批数据组集对应的各个提交时间确定为提交时间组。然后,将上述提交时间组中的提交时间的数量确定为提交次数。最后,响应于确定上述提交次数大于或等于预设次数阈值,将上述提交时间组对应的日期确定为集中填报日期。其中,上述预设次数阈值可以是预先设置的次数的阈值。例如,上述预设次数阈值可以是200次。
可选的,响应于确定上述提交次数小于上述预设次数阈值,将预设填报日期确定为集中填报日期。其中,上述预设填报日期可以是预先设置的日期。例如,上述预设填报日期可以是每月19号。
步骤103,对表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集。
在一些实施例中,上述执行主体可以对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集。其中,上述表单对象信息组集中的表单对象信息组可以是语义相同的各个字段对应的表单对象信息的集合。表单对象信息可以表征一个字段。例如,表单对象信息组可以为[“名字”、“员工名称”、“申报人名称”]。上述执行主体可以通过各种方式,对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤,对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集:
第一步,对上述表单批数据组集中的各个表单批数据进行特征提取,得到表单数据向量集。其中,上述表单数据向量集中的表单数据向量可以表征表单批数据。可以通过预设的特征提取方法,对上述表单批数据组集中的各个表单批数据进行特征提取,得到表单数据向量集。
作为示例,上述特征提取方法可以包括但不限于以下至少一项:Transformer(基于自注意力机制的神经网络)模型、哈希算法。
在一些实施例的一些可选的实现方式中,上述表单批数据组集中的每个表单批数据可以包括数据属性值组。其中,上述数据属性值组可以是与表单批数据包括的数据属性组对应的。上述数据属性组可以包括但不限于字段标识、字段属性值、提交地址、提交时间。例如,若表单批数据对应的字段为入职日期,字段标识为“hire_date(雇佣日期)”,字段属性值为“2017-12-1”,提交地址为“http://*/employee”,提交时间为“2023-02-19 16:22:19”,则上述数据属性值组可以为[“hire_date”,“2017-12-1”,“http://*/employee”,“2023-02-19 16:22:19”]。上述执行主体可以对于上述表单批数据组集中的每个表单批数据,执行以下步骤,以得到表单数据向量集中的表单数据向量:
步骤一,确定上述表单批数据包括的数据属性值组对应的数据特征向量组。其中,上述数据特征向量组中的数据特征向量可以表征数据属性值组中的一个数据属性值。数据特征向量与所表征的数据属性值一一对应。可以通过上述特征提取方法,确定上述表单批数据包括的数据属性值组对应的数据特征向量组。
步骤二,对上述数据特征向量组中的各个数据特征向量进行拼接处理,得到表单数据向量。其中,上述表单数据向量可以表征上述表单批数据。可以通过预设的向量拼接方法,对上述数据特征向量组中的各个数据特征向量进行拼接处理,得到表单数据向量。
作为示例,上述向量拼接方法可以是横向拼接。
第二步,对上述表单数据向量集中的各个表单数据向量进行关联分析,得到表单数据关联分值集。其中,上述表单数据关联分值集中的表单数据关联分值可以表征两个表单批数据之间的相似程度。可以通过预设的关联分析算法,对上述表单数据向量集中的各个表单数据向量进行关联分析,得到表单数据关联分值集。
作为示例,上述关联分析算法可以包括但不限于以下至少一项:欧氏距离、余弦相似度。
第三步,基于上述表单数据关联分值集,确定上述表单批数据组集中的各个表单批数据对应的目标关联矩阵。其中,上述目标关联矩阵可以是相似度矩阵。
第四步,基于上述目标关联矩阵,对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集。其中,可以通过预设的聚类算法,基于上述目标关联矩阵,对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集。
作为示例,上述聚类算法可以是AP(Affinity Propagation,近邻传播)算法。
步骤104,对表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集。
在一些实施例中,上述执行主体可以对上述表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集。其中,上述关联属性信息集中的关联属性信息可以表征与一个表单对象信息组语义相同的、预先设置的属性。例如,若表单对象信息组对应的各个字段标识可以包括名字、员工名称和申报人名称,则与上述表单对象信息组语义相同的属性可以为姓名。对于每个表单对象信息组,可以执行以下步骤,以得到关联属性信息集中的关联属性信息:
第一步,将上述表单对象信息组对应的、每个字段标识对应的字符个数确定为标识字符数,得到标识字符数组。
第二步,将上述标识字符数组中满足预设字符条件的标识字符数对应的表单对象信息确定为特征对象信息。其中,上述预设字符条件可以是标识字符数为标识字符数组中的最小值。
第三步,从预设的表单属性信息表中,选出与上述特征对象信息对应的字段标识相匹配的表单属性信息,作为关联属性信息。其中,上述表单属性信息表可以包括各个表单属性信息。表单属性信息可以是预先设置的属性的信息。表单属性信息可以包括属性标识和属性归属表。上述属性标识可以是对属性唯一标识的字符串。上述属性归属表可以是对应的属性及属性值所在的表。与上述特征对象信息对应的字段标识相匹配可以是:上述字段标识对应的字符串、与上述属性标识对应字符串的子字符串相同,或者上述字段标识与上述属性标识相同。
步骤105,基于表单对象信息组集和关联属性信息集,生成表单填报模板信息集。
在一些实施例中,上述执行主体可以基于上述表单对象信息组集和上述关联属性信息集,生成表单填报模板信息集。其中,上述表单填报模板信息集中的表单填报模板信息可以表征表单填报模板。表单填报模板与表单一一对应。表单填报模板可以是由对应同一表单的、绑定有属性值来源的、各个字段组成的。可以通过以下步骤,基于上述表单对象信息组集和上述关联属性信息集,生成表单填报模板信息集:
第一步,对于每个表单对象信息组中的每个表单对象信息,执行以下步骤:
第一子步骤,将上述表单对象信息与对应的关联属性信息确定为更新对象信息。
第二子步骤,删除上述更新对象信息中的字段标识,得到删除后更新对象信息。
第三子步骤,将删除后更新对象信息中的属性标识更新为字段标识,以及将删除后更新对象信息确定为字段模板信息。
第二步,对所得到的字段模板信息组集中的字段模板信息进行分类处理,得到目标字段模板信息组集。其中,上述目标字段模板信息组集中的目标字段模板信息组可以表征同一表单中的各个用于提交的字段。可以根据字段模板信息对应的表单标识,将字段模板信息组集中、对应同一表单标识的各个字段模板信息确定为目标字段模板信息组,得到目标字段模板信息组集。
第三步,对于上述目标字段模板信息组集中的每个目标字段模板信息组,根据预先生成的提交次序,将上述目标字段模板信息组中的各个目标字段模板信息写入预设表单模板,得到表单填报模板信息。其中,上述预设表单模板可以是预先生成的程序文件。上述提交次序可以是根据一个实例对应的表单提交数据中、各个字段对应的次序而生成的。
步骤106,基于目标网站对应的区域标识、表单填报模板信息集和集中填报日期,生成表单信息。
在一些实施例中,上述执行主体可以基于上述目标网站对应的区域标识、上述表单填报模板信息集和上述集中填报日期,生成表单信息。其中,上述表单信息可以是定期自动填报并提交表单所需要的信息。可以将上述目标网站对应的区域标识、上述表单填报模板信息集和上述集中填报日期确定为表单信息。
可选的,上述执行主体还可以执行以下步骤:
第一步,将预设的表单自动填报开启信息发送至目标客户端以供确认。其中,上述预设的表单自动填报开启信息可以是请求开启表单自动填报功能的信息。上述表单自动填报功能可以是根据上述表单信息,定期填写表单并上报的功能。可以将预设的表单自动填报开启信息发送至目标客户端,由负责表单填报的人员在目标客户端进行确认是否开启表单自动填报功能。
第二步,响应于接收到自动填报确认信息,将上述表单信息发送至上述目标客户端以供定期填报表单。其中,上述自动填报确认信息可以是目标客户端发送的确认开启表单自动填报功能的信息。上述目标客户端可以通过浏览器扩展插件,定期填报表单。
上述表单填报步骤及其相关内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题四“服务器端的地址通常是唯一的,若直接提交上述表单信息,则提交次数较多时,容易导致表单提交请求被目标终端拒绝连接,或者由于目标终端设置了通过前端脚本校验用户的真实性,也会导致表单提交请求被目标终端拒绝连接,从而,降低了表单填报效率”。导致表单填报效率降低的因素往往如下:服务器端的地址通常是唯一的,若直接提交上述表单信息,则提交次数较多时,容易导致表单提交请求被目标终端拒绝连接,或者由于目标终端设置了通过前端脚本校验用户的真实性,也会导致表单提交请求被目标终端拒绝连接。如果解决了上述因素,就能达到提高表单填报效率的效果。为了达到这一效果,服务器端可以将表单发送至目标客户端,由目标客户端进行表单填报。由于目标客户端提交表单次数相对较少,且为真实客户端,可通过目标终端关于用户真实性的前端脚本校验,由此,可以减少表单提交请求被目标终端拒绝连接的次数。从而,可以提高表单填报效率。
可选的,上述执行主体还可以执行以下步骤:
第一步,响应于接收到表单填报失败信息,基于上述表单填报失败信息包括的表单信息和目标表单提交信息,生成匹配字段信息集和未匹配字段信息集。其中,上述匹配字段信息集中的匹配字段信息可以表征字段实际提交的次序与字段在对应的表单填报模板信息中的次序相同。对于上述目标表单提交信息对应的每个提交字段标识,执行以下步骤:
第一子步骤,将上述提交字段标识对应的次序确定为目标提交次序。
第二子步骤,将上述表单信息对应的各个字段标识中、与上述目标提交次序相匹配的字段标识确定为参考字段标识。其中,与上述目标提交次序相匹配可以是字段标识对应的提交次序与上述目标提交次序相同。
第三子步骤,响应于确定上述参考字段标识和上述提交字段标识相同,将上述参考字段标识对应的字段模板信息确定为匹配字段信息。
第四子步骤,响应于确定上述参考字段标识和上述提交字段标识不相同,将上述参考字段标识对应的字段模板信息确定为未匹配字段信息。
第二步,响应于确定上述未匹配字段信息集满足预设非空条件,对于上述未匹配字段信息集中的每个未匹配字段信息,从预设的备选字段信息集中选出满足预设相似度条件的备选字段信息,得到至少一个备选字段信息。其中,上述预设非空条件可以是未匹配字段信息集不为空。上述预设的备选字段信息集中的备选字段信息可以表征预先设置的字段。上述预设相似度条件可以是备选字段信息对应的字段与未匹配字段信息对应的字段之间的相似度满足相似度阈值。例如,上述相似度阈值可以是80%。
第三步,响应于确定上述至少一个备选字段信息满足预设备选数目条件,将上述未匹配字段信息集与上述至少一个备选字段信息之间的差集确定为无备选字段信息集。其中,上述预设备选数目条件可以是至少一个备选字段信息中的备选字段信息的数量为0。
第四步,确定上述无备选字段信息集中的每个无备选字段信息对应的目标非必填字段信息,得到目标非必填字段信息集。其中,上述目标非必填字段信息集中的目标非必填字段信息可以是带有非必填信息的字段信息。对于上述无备选字段信息集中的每个无备选字段信息,将上述预设非必填字段数据和上述无备选字段信息确定为目标非必填字段信息。
第五步,对上述目标非必填字段信息集和上述匹配字段信息集进行融合处理,得到更新后表单信息。首先,将上述目标非必填字段信息集中的每个目标非必填字段信息、上述匹配字段信息集中的每个匹配字段信息确定为更新字段模板信息,得到更新字段模板信息组。然后,根据提交字段数据序列对应的各个字段的顺序,对更新字段模板信息组进行排序,得到更新字段模板信息序列。之后,将更新字段模板信息序列中的更新字段模板信息依次写入预设表单模板,得到更新表单填报模板信息。最后,对上述表单信息进行更新,得到更新后表单信息。其中,可以将上述表单信息对应的表单填报模板信息集中、与上述更新表单填报模板信息相匹配的表单填报模板信息更新为上述更新后表单信息。与上述更新表单填报模板信息相匹配可以是表单填报模板信息与上述更新表单填报模板信息对应同一表单。
第六步,将上述更新后表单信息发送至目标客户端以供填报表单。
上述更新后表单信息生成步骤及其相关内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题三“在表单提报发生异常时,若对最新收集的表单数据通过上述方式生成表单信息,则耗时较长,难以及时填报表单,降低了表单填报效率”。导致难以及时填报表单,降低了表单填报效率的因素往往如下:在表单提报发生异常时,对最新收集的表单数据通过上述方式生成表单信息,耗时较长,难以及时填报表单。如果解决了上述因素,就能达到提高表单填报效率的效果。为了达到这一效果,首先,对最新收集的表单数据与原先的表单填报模板信息中的字段数据进行比较,以确定需要更新的字段。然后,对需要更新的字段确定备选字段。之后,根据备选字段对原先的表单填报模板信息进行更新。最后,得到更新后表单信息。由此,可以缩短更新后表单信息的计算耗时。从而,可以及时填报表单,提高表单填报效率。
可选的,上述表单填报失败信息是由目标客户端通过以下步骤发送的:
第一步,响应于接收到目标终端发送的提交失败反馈信息,获取目标表单提交信息。其中,上述提交失败反馈信息可以是表单提交失败后的提示信息。例如,上述提交失败反馈信息可以是“值无效,请重新提交”。上述目标表单提交信息可以是目标网站最近一次被浏览器拦截过的表单提交请求对应的各个字段的信息。上述目标表单提交信息可以包括提交字段数据序列。上述提交字段数据序列中的提交字段数据可以包括提交字段标识。上述提交字段标识可以对字段唯一标识。可以从浏览器缓存中获取目标表单提交信息。
第二步,将上述表单信息和上述目标表单提交信息确定为表单填报失败信息,以及将上述填报失败信息发送至目标服务器端以供更新上述表单信息。
可选的,上述目标客户端还可以执行以下步骤,以供表单填报:
第一步,响应于接收到更新后表单信息,重新生成表单填报数据以及将上述表单填报数据发送至各个目标地址。其中,上述更新后表单信息可以是更新后的表单信息。上述各个目标地址中的目标地址可以是对应字段的提交地址。可以调用浏览器扩展插件,生成表单填报数据以及将上述表单填报数据发送至各个目标地址。
第二步,响应于接收到二次提交失败信息,显示失败提醒弹窗界面,以供提醒用户填报。其中,上述二次提交失败信息可以是表单提交再次失败的信息。例如,上述二次提交失败信息可以是“值错误,请重新填写”。用户可以在关闭失败提醒弹窗界面后,手动填报表单,也可以对更新后表单信息检查确认无误后,由浏览器扩展插件自动填报表单。在实践中,浏览器扩展插件可以实时收集表单数据,对异常表单数据进行更新。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的表单信息生成方法,可以减少计算资源的浪费。具体来说,造成计算资源浪费的原因在于:同一数据源通常关联有多个待填报表单,且各个表单间存在较多冗余数据,若针对每个表单对应的数据分别进行解析和绑定属性数据,则不得不额外耗费大量计算资源处理冗余数据,从而,导致计算资源浪费。基于此,本公开的一些实施例的表单信息生成方法,首先,接收与目标网站对应的表单批数据组集。其中,上述表单批数据组集中的每个表单批数据组是对应同一表单的各个字段的数据集合。由此,可以得到目标网站关联的多个待提交的表单数据。其次,确定上述表单批数据组集对应的集中填报日期。由此,可以得到填报表单数据的填报时间需求。然后,对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集。其中,上述表单对象信息组集中的每个表单对象信息组是语义相同的各个字段对应的表单对象信息的集合。由此,可以将各个表单中语义相同的字段聚类为一组,便于后续对同一组中、语义相同的各个字段进行统一属性数据绑定处理。之后,对上述表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集。由此,可以得到每个语义相同的字段组对应的关联属性字段,便于后续根据关联属性字段,对同一字段组中各字段进行属性数据绑定。接着,基于上述表单对象信息组集和上述关联属性信息集,生成表单填报模板信息集。其中,上述表单填报模板信息集中的每个表单填报模板信息表征表单填报模板。表单填报模板是由对应同一表单的、绑定有属性值来源的、各个字段组成的。由此,可以将关联属性字段对应的、数据源提供的属性数据与表单对象信息对应的字段进行绑定,并得到表单批数据组集对应的表单填报模板信息集。最后,基于上述目标网站对应的区域标识、上述表单填报模板信息集和上述集中填报日期,生成表单信息。因此,本公开的一些实施例的表单信息生成方法,可以在存在多个待填报表单时,同时对各个表单进行解析和绑定属性数据,而无需额外耗费大量计算资源处理冗余数据。从而,可以减少计算资源的浪费。
进一步参考图2,作为对上述各图所示方法的实现,本公开提供了一种表单信息生成装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该表单信息生成装置200具体可以应用于各种电子设备中。
如图2所示,一些实施例的表单信息生成装置200包括:接收单元201、确定单元202、聚类处理单元203、识别处理单元204、第一生成单元205和第二生成单元206。其中,接收单元201,被配置成接收与目标网站对应的表单批数据组集,其中,上述表单批数据组集中的每个表单批数据组是对应同一表单的各个字段的数据集合;确定单元202,被配置成确定上述表单批数据组集对应的集中填报日期;聚类处理单元203,被配置成对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集,其中,上述表单对象信息组集中的每个表单对象信息组是语义相同的各个字段对应的表单对象信息的集合;识别处理单元204,被配置成对上述表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集;第一生成单元205,被配置成基于上述表单对象信息组集和上述关联属性信息集,生成表单填报模板信息集,其中,上述表单填报模板信息集中的每个表单填报模板信息表征表单填报模板,表单填报模板是由对应同一表单的、绑定有属性值来源的、各个字段组成的;第二生成单元206,被配置成基于上述目标网站对应的区域标识、上述表单填报模板信息集和上述集中填报日期,生成表单信息。
可以理解的是,该装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置200及其中包含的单元,在此不再赘述。
进一步参考图3,其示出了适于用来实现本公开的一些实施例的电子设备300的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述装置中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收与目标网站对应的表单批数据组集,其中,上述表单批数据组集中的每个表单批数据组是对应同一表单的各个字段的数据集合;确定上述表单批数据组集对应的集中填报日期;对上述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集,其中,上述表单对象信息组集中的每个表单对象信息组是语义相同的各个字段对应的表单对象信息的集合;对上述表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集;基于上述表单对象信息组集和上述关联属性信息集,生成表单填报模板信息集,其中,上述表单填报模板信息集中的每个表单填报模板信息表征表单填报模板,表单填报模板是由对应同一表单的、绑定有属性值来源的、各个字段组成的;基于上述目标网站对应的区域标识、上述表单填报模板信息集和上述集中填报日期,生成表单信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、确定单元、聚类处理单元、识别处理单元、第一生成单元和第二生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“接收与目标网站对应的表单批数据组集的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (9)
1.一种表单信息生成方法,包括:
接收与目标网站对应的表单批数据组集,其中,所述表单批数据组集中的每个表单批数据组是对应同一表单的各个字段的数据集合;
确定所述表单批数据组集对应的集中填报日期;
对所述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集,其中,所述表单对象信息组集中的每个表单对象信息组是语义相同的各个字段对应的表单对象信息的集合;
对所述表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集;
基于所述表单对象信息组集和所述关联属性信息集,生成表单填报模板信息集,其中,所述表单填报模板信息集中的每个表单填报模板信息表征表单填报模板,表单填报模板是由对应同一表单的、绑定有属性值来源的、各个字段组成的;
基于所述目标网站对应的区域标识、所述表单填报模板信息集和所述集中填报日期,生成表单信息。
2.根据权利要求1所述的方法,其中,所述方法还包括:
将预设的表单自动填报开启信息发送至目标客户端以供确认;
响应于接收到自动填报确认信息,将所述表单信息发送至所述目标客户端以供定期填报表单。
3.根据权利要求1所述的方法,其中,所述对所述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集,包括:
对所述表单批数据组集中的各个表单批数据进行特征提取,得到表单数据向量集;
对所述表单数据向量集中的各个表单数据向量进行关联分析,得到表单数据关联分值集;
基于所述表单数据关联分值集,确定所述表单批数据组集中的各个表单批数据对应的目标关联矩阵;
基于所述目标关联矩阵,对所述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集。
4.根据权利要求3所述的方法,其中,所述表单批数据组集中的每个表单批数据包括数据属性值组;以及
所述对所述表单批数据组集中的各个表单批数据进行特征提取,得到表单数据向量集,包括:
对于所述表单批数据组集中的每个表单批数据,执行以下步骤:
确定所述表单批数据包括的数据属性值组对应的数据特征向量组;
对所述数据特征向量组中的各个数据特征向量进行拼接处理,得到表单数据向量。
5.根据权利要求1所述的方法,其中,所述表单批数据组集是通过以下步骤生成的:
获取网址信息和网站首页文本信息;
对所述网址信息对应的域名字符串进行检测,得到第一检测信息;
响应于确定所述第一检测信息满足预设域名条件,对所述网址信息和所述网站首页文本信息进行解析处理,得到目标网站信息;
响应于确定所述目标网站信息满足预设网站条件,获取网站提交数据集;
对所述网站提交数据集中的各个网站提交数据进行数据清洗处理,得到目标提交字段数据组集和非空项字段数据组集;
对所述目标提交字段数据组集和所述非空项字段数据组集进行融合处理,得到表单批数据组集。
6.根据权利要求5所述的方法,其中,所述对所述网址信息和所述网站首页文本信息进行解析处理,得到目标网站信息,包括:
对所述网址信息进行反向解析,得到归属地标识;
对所述网站首页文本信息进行分词解析,得到网站分词信息集;
确定所述网站分词信息集对应的关键词信息组;
响应于确定所述关键词信息组满足预设关键词条件,将所述关键词信息组和所述归属地标识确定为目标网站信息。
7.一种表单信息生成装置,包括:
接收单元,被配置成接收与目标网站对应的表单批数据组集,其中,所述表单批数据组集中的每个表单批数据组是对应同一表单的各个字段的数据集合;
确定单元,被配置成确定所述表单批数据组集对应的集中填报日期;
聚类处理单元,被配置成对所述表单批数据组集中的各个表单批数据进行聚类处理,得到表单对象信息组集,其中,所述表单对象信息组集中的每个表单对象信息组是语义相同的各个字段对应的表单对象信息的集合;
识别处理单元,被配置成对所述表单对象信息组集中的各个表单对象信息组进行识别处理,得到关联属性信息集;
第一生成单元,被配置成基于所述表单对象信息组集和所述关联属性信息集,生成表单填报模板信息集,其中,所述表单填报模板信息集中的每个表单填报模板信息表征表单填报模板,表单填报模板是由对应同一表单的、绑定有属性值来源的、各个字段组成的;
第二生成单元,被配置成基于所述目标网站对应的区域标识、所述表单填报模板信息集和所述集中填报日期,生成表单信息。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310841443.2A CN116562255B (zh) | 2023-07-11 | 2023-07-11 | 表单信息生成方法、装置、电子设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310841443.2A CN116562255B (zh) | 2023-07-11 | 2023-07-11 | 表单信息生成方法、装置、电子设备和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116562255A true CN116562255A (zh) | 2023-08-08 |
CN116562255B CN116562255B (zh) | 2023-09-19 |
Family
ID=87495113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310841443.2A Active CN116562255B (zh) | 2023-07-11 | 2023-07-11 | 表单信息生成方法、装置、电子设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116562255B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738408A (zh) * | 2023-08-14 | 2023-09-12 | 北京安天网络安全技术有限公司 | 一种可疑设备的确定方法、装置及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217119A1 (en) * | 2015-01-26 | 2016-07-28 | Adobe Systems Incorporated | Recognition and population of form fields in an electronic document |
CN114398860A (zh) * | 2021-12-01 | 2022-04-26 | 南威软件股份有限公司 | 一种基于dsl布局引擎的多表聚合方法 |
CN115204125A (zh) * | 2022-07-04 | 2022-10-18 | 浪潮软件股份有限公司 | 一种表单聚合方法及装置 |
CN115509637A (zh) * | 2022-10-14 | 2022-12-23 | 重庆傲雄在线信息技术有限公司 | 一种基于Form表单的智能填报方法、系统、设备及介质 |
-
2023
- 2023-07-11 CN CN202310841443.2A patent/CN116562255B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217119A1 (en) * | 2015-01-26 | 2016-07-28 | Adobe Systems Incorporated | Recognition and population of form fields in an electronic document |
CN114398860A (zh) * | 2021-12-01 | 2022-04-26 | 南威软件股份有限公司 | 一种基于dsl布局引擎的多表聚合方法 |
CN115204125A (zh) * | 2022-07-04 | 2022-10-18 | 浪潮软件股份有限公司 | 一种表单聚合方法及装置 |
CN115509637A (zh) * | 2022-10-14 | 2022-12-23 | 重庆傲雄在线信息技术有限公司 | 一种基于Form表单的智能填报方法、系统、设备及介质 |
Non-Patent Citations (1)
Title |
---|
程佳 等: "通用Web表单数据采集系统的设计与实现", 软件工程, vol. 19, no. 8, pages 30 - 33 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738408A (zh) * | 2023-08-14 | 2023-09-12 | 北京安天网络安全技术有限公司 | 一种可疑设备的确定方法、装置及介质 |
CN116738408B (zh) * | 2023-08-14 | 2023-11-17 | 北京安天网络安全技术有限公司 | 一种可疑设备的确定方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116562255B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10983971B2 (en) | Detecting duplicated questions using reverse gradient adversarial domain adaptation | |
CN111382279B (zh) | 审单方法和装置 | |
CN109359194B (zh) | 用于预测信息类别的方法和装置 | |
US20220391589A1 (en) | Systems and methods for training and evaluating machine learning models using generalized vocabulary tokens for document processing | |
US12008320B2 (en) | System and method for email signature extraction from unstructured text | |
CN116562255B (zh) | 表单信息生成方法、装置、电子设备和计算机可读介质 | |
US20220351088A1 (en) | Machine learning model-agnostic confidence calibration system and method | |
CN111831682B (zh) | 处理公积金业务的方法、装置、设备和计算机可读介质 | |
US11310054B2 (en) | Symmetric function for journaled database proof | |
US11487819B2 (en) | Threaded leaf nodes in database journal | |
US11487733B2 (en) | Database journal redaction | |
US20200403797A1 (en) | Digest proofs in a journaled database | |
CN111061975B (zh) | 一种页面中无关内容的处理方法、装置 | |
CN112765169A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN113779017A (zh) | 数据资产管理的方法和装置 | |
CN113050987B (zh) | 一种接口文档的生成方法、装置、存储介质及电子设备 | |
CN115146070A (zh) | 键值生成方法、知识图谱生成方法、装置、设备及介质 | |
CN115204393A (zh) | 一种基于知识图谱的智慧城市知识本体库构建方法和装置 | |
CN115587593A (zh) | 信息抽取方法、装置、电子设备和计算机可读介质 | |
CN114676694A (zh) | 业务模型的生成方法、装置、设备、介质和程序产品 | |
CN113393288A (zh) | 订单处理信息生成方法、装置、设备和计算机可读介质 | |
CN110309121B (zh) | 日志处理方法及装置、计算机可读介质和电子设备 | |
CN116737870B (zh) | 上报信息存储方法、装置、电子设备和计算机可读介质 | |
CN116915870B (zh) | 任务创建请求处理方法、装置、电子设备和可读介质 | |
US11934984B1 (en) | System and method for scheduling tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |