CN111143643A - 元素识别方法、装置、可读存储介质和电子设备 - Google Patents

元素识别方法、装置、可读存储介质和电子设备 Download PDF

Info

Publication number
CN111143643A
CN111143643A CN201911342150.XA CN201911342150A CN111143643A CN 111143643 A CN111143643 A CN 111143643A CN 201911342150 A CN201911342150 A CN 201911342150A CN 111143643 A CN111143643 A CN 111143643A
Authority
CN
China
Prior art keywords
information
structured document
matching
database
standard structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911342150.XA
Other languages
English (en)
Other versions
CN111143643B (zh
Inventor
闻武
孔伟哲
刘功民
徐菁
陈彬
夏志江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cfets Information Technology Shanghai Co ltd
Original Assignee
Cfets Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cfets Information Technology Shanghai Co ltd filed Critical Cfets Information Technology Shanghai Co ltd
Priority to CN201911342150.XA priority Critical patent/CN111143643B/zh
Publication of CN111143643A publication Critical patent/CN111143643A/zh
Application granted granted Critical
Publication of CN111143643B publication Critical patent/CN111143643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种元素识别方法、装置、可读存储介质和电子设备,通过数据库集群中的元素数量确定对应的模型,将标准结构化文档输入所述模型以确定对应的元素识别结果,所述元素识别结果中包括与标准结构化文档中的各元素对应的元素标识,以及与所述元素标识对应的定位信息,再将所述元素识别结果存储至数据库集群,同时以预定格式输出,实现对标准结构化文档中的元素自动识别和定位,减少元素识别过程的工作量,同时提高所述元素识别过程的准确率。

Description

元素识别方法、装置、可读存储介质和电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种元素识别方法、装置、可读存储介质和电子设备。
背景技术
目前,前端技术的发展速度迅猛,为了避免在项目开发过程中出现瓶颈,与之相对的测试技术也需要加快发展速度,由此自动化测试技术应运而生。目前对于前端的自动化测试,首选需要识别前端页面的元素,并对各元素进行定位,再基于所述各元素位置进行自动化测试。其中,识别前端页面元素并对各元素进行定位的过程是自动化测试中最重要的环节。而现有的主流元素识别技术包括大量的人工辅助环节,同时识别的准确性低、灵活性较差,在页面发生变动时会出现无法识别的问题。
发明内容
有鉴于此,本发明实施例公开了一种元素识别方法、装置、可读存储介质和电子设备,旨在对标准结构化文档中的元素自动识别和定位,减少元素识别过程的工作量,同时提高所述元素识别过程的准确率。
第一方面,本发明实施例公开了一种元素识别方法,所述方法包括:
确定标准结构化文档,所述标准结构化文档中包括至少一个元素和与所述元素对应的属性信息;
确定数据库集群中存储的元素信息数量,所述元素信息包括元素标识和对应的第一定位信息;
响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定元素识别结果,所述元素识别结果包括至少一个元素信息,所述元素信息中的各元素标识与所述标准结构化文档中的元素对应;
将所述元素识别结果存储至所述数据库集群;
响应于所述元素信息数量大于所述阈值,将所述标准结构化文档输入匹配模型中,以确定多个元素匹配结果,其中,所述各元素匹配结果包括至少一个元素信息,且与所述标准结构化文档的匹配度满足预定条件,所述匹配模型根据所述数据库集群中存储的元素信息预先训练获得;
根据所述各元素匹配结果确定元素识别结果;
以预定格式输出所述元素识别结果。
进一步地,所述确定标准结构化文档包括:
获取结构化文档,所述结构化文档中包括至少一个元素和与所述元素对应的属性信息;
对所述结构化文档进行预处理以确定所述标准结构化文档。
进一步地,所述响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定元素识别结果包括:
响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定候选元素识别结果,所述候选元素识别结果包括至少一个元素信息;
输出所述候选元素识别结果;
接收客户端基于所述候选元素识别结果发送的修正信息;
根据所述修正信息修正所述候选元素识别结果以确定元素识别结果。
进一步地,所述数据库集群中包括第一数据库,第二数据库和第三数据库;
所述将所述元素识别结果存储至所述数据库集群包括:
将所述元素识别结果存储至所述第一数据库;
接收客户端发送的第一存储指令和第二存储指令中的至少一个存储指令;
根据所述第一存储指令获取所述第一数据库中的多个元素信息,以生成控件标识和与所述控件标识对应的第二定位信息;
将所述控件标识和与所述控件标识对应的第二定位信息存储至所述第二数据库;
根据所述第二存储指令获取所述第一数据库中的多个元素信息,以生成页面标识和与所述页面标识对应的第三定位信息;
将所述页面标识和与所述页面标识对应的第三定位信息存储至所述第三数据库。
进一步地,所述响应于所述元素信息数量大于所述阈值,将所述标准结构化文档输入匹配模型中,以确定多个元素匹配结果包括:
响应于所述元素信息数量大于所述阈值,判断所述标准结构化文档的类型;
根据所述标准结构化文档的类型在所述数据库集群中确定对应的目标数据库;
将所述标准结构化文档输入匹配模型中,以从对应的目标数据库中与所述标准结构化文档的匹配度满足预定条件的多个元素匹配结果。
进一步地,所述根据所述各元素匹配结果确定元素识别结果包括:
输出所述各元素匹配结果;
响应于接收到客户端返回的选中指令,确定所述选中指令对应的元素匹配结果为元素识别结果。
进一步地,所述属性信息中包括预设的偏差值、对应元素的嵌套状态、定位信息以及与各元素之间的嵌套关系。
第二方面,本发明实施例公开了一种元素识别装置,所述装置包括:
文档确定模块,用于确定标准结构化文档,所述标准结构化文档中包括至少一个元素和与所述元素对应的属性信息;
元素统计模块,用于确定数据库集群中存储的元素信息数量,所述元素信息包括元素标识和对应的第一定位信息;
第一识别模块,用于响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定元素识别结果,所述元素识别结果包括至少一个元素信息,所述元素信息中的各元素标识与所述标准结构化文档中的元素对应;
数据存储模块,用于将所述元素识别结果存储至所述数据库集群;
匹配模块,用于响应于所述元素信息数量大于所述阈值,将所述标准结构化文档输入匹配模型中,以确定多个元素匹配结果,其中,所述各元素匹配结果包括至少一个元素信息,且与所述标准结构化文档的匹配度满足预定条件,所述匹配模型根据所述数据库集群中存储的元素信息预先训练获得;
第二识别模块,用于根据所述各元素匹配结果确定元素识别结果;
信息输出模块,用于以预定格式输出所述元素识别结果。
第三方面,本发明实施例公开了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
第四方面,本发明实施例公开了一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
本发明实施例通过数据库集群中的元素数量确定对应的模型,将标准结构化文档输入所述模型以确定对应的元素识别结果,所述元素识别结果中包括与标准结构化文档中的各元素对应的元素标识,以及与所述元素标识对应的定位信息,再将所述元素识别结果存储至数据库集群,同时以预定格式输出,实现对标准结构化文档中的元素自动识别和定位,减少元素识别过程的工作量,同时提高所述元素识别过程的准确率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例的元素识别方法的流程图;
图2为本发明实施例的元素识别方法系统的示意图;
图3为本发明实施例的元素识别方法的数据流程图;
图4为本发明实施例的数据库集群的示意图;
图5为本发明实施例的元素识别装置的示意图;
图6为本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1为本发明实施例的元素识别方法的流程图,如图1所示,所述元素识别方法包括:
步骤S100、确定标准结构化文档。
具体地,所述标准结构化文档中包括至少一个元素和与所述元素对应的属性信息。服务器通过预先设定的预处理规则对客户端发送的结构化文档进行处理,以确定标准结构化文档。因此,在本实施例中,所述确定标准结构化文档的过程可以包括:
步骤S110、获取结构化文档,所述结构化文档中包括至少一个元素和与所述元素对应的属性信息。
具体地,所述结构化文档通过客户端发送,通过所述服务器预设的应用程序接口接收,其中包括至少一个元素与所述元素对应的属性信息。所述结构化文档为根据预设框架布局的文档信息,例如可以是HTML、XML和TeX等格式的文档信息。其中,所述元素为所述结构化文档的框架布局中每一层对应的节点。例如,当所述结构化文档为:
Figure BDA0002331748220000051
Figure BDA0002331748220000061
则通过确定所述结构化文档的框架布局中每一层对应的节点确定所述结构化文档中包括的元素为{table、tr、th、th、td、td、th}。
可选的,所述属性信息包括预设的偏差值、对应元素的嵌套状态、定位信息以及与各元素之间的嵌套关系。其中,所述偏差值为一个预先设定的大于或等于0的整数,当所述偏差值大于0时用于表征所述元素识别方法识别到各元素对应的嵌套关系的深度,例如,当所述偏差值为Q时,所述元素识别方法识别的元素嵌套关系由最外层向内最多识别到第Q层;当所述偏差值等于0时,所述元素识别方法识别的元素嵌套关系由最外层向内识别到所述各元素所在的层。所述对应元素的嵌套状态用于表征对应的元素是否存在嵌套关系,包括存在嵌套关系和不存在嵌套关系两种嵌套状态。所述定位信息用于表征所述各元素在页面中的位置,包括所述各元素左上角的X、Y坐标,以及所述各元素的长和宽的值。所述与各元素之间的嵌套关系用于表征所述属性信息对应的元素和所述结构化中其他元素的嵌套关系,例如可以由最外层元素至所述各元素记录所述元素的嵌套关系,或记录所述各元素上一层的元素以及下一层的元素。仍以上例结构化文档为例进行说明,所述元素“th”的嵌套关系为“第一层:table”,“第二层:tr”,“第三层:th”。或对于元素“tr”可以记录嵌套关系为“上一层:table”,“下一层:th”。所述属性信息中还可以包括所述元素对应的内容、样式等其他属性信息。
步骤S120、对所述结构化文档进行预处理以确定所述标准结构化文档。
具体地,所述对结构化文档进行预处理的过程包括确定结构化文档中的各元素、删除所述结构化文档中的无用信息。所述服务器在获取结构化文档后先确定其中包括的元素和各元素对应的属性信息,所述结构化文档中的无用信息为所述各元素对应的样式、内容等其他属性信息。例如上例中各节点对应的内容,以及内容的样式,当所述结构化文档为HTML文件时,所述样式可以为所述HTML文件中各节点对应的CSS样式,例如可以包括所述内容的颜色、尺寸、背景等。所述结构化文档进行预处理后得到仅包括元素和与元素对应的属性信息的标准结构化文档,所述属性信息中包括预设的偏差值、对应元素的嵌套状态、定位信息以及与各元素之间的嵌套关系等用于定位元素的信息。
步骤S200、确定数据库集群中存储的元素信息数量。
具体地,所述数据库集群与所述服务器连接,用于存储所述服务器对历史输入的标准结构化文档进行元素识别得到的元素识别结果中包含的元素信息。所述元素信息包括元素标识和对应的第一定位信息。其中,所述元素标识用于表征对应的元素,例如可以是与所述各元素一一对应的代码、编码、文本等全局唯一标识,可以通过所述服务器自动生成,或包括在所述标准结构化文档中各元素对应的属性信息中,由所述服务器在识别所述标准结构化文档元素的过程中获得。所述第一定位信息用于表征对应元素的定位,包括所述元素对应的坐标X、Y、长、宽和路径表达式。其中,所述路径表达式的深度通过所述各元素对应属性信息中的偏差值确定。仍以上述结构化文档为例,当所述偏差值为2时,元素table的路径表达式为/table,元素tr的路径表达式为/table/tr,元素th的路径表达式为/table/tr。所述服务器在获取结构化文档后,将所述结构化文档进行预处理转换成标准结构化文档,并查询所述数据库集群中存储的元素信息数量。
步骤S300、响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定元素识别结果。
具体地,所述服务器中包括识别模型和匹配模型,所述识别模型的计算量较大,识别结果精确,所述匹配模型的计算量小,匹配结果需要大量样本支持。因此,当服务器确定的数据库集群中元素信息数量小于阈值时,判定匹配模型的样本过少,选择识别模型对所述标准结构化文档进行元素识别,输出对应的元素识别结果,所述元素识别结果包括至少一个元素信息,所述元素信息中的各元素标识与所述标准结构化文档中的元素对应。所述识别模型通过预设的结构化框架组件训练得到,所述结构化框架组件例如可以包括ElementUI、IView、Vuetify、Quasar、Vue-strap等前端框架对应的组件。在训练过程中先将所述组件对应的代码块进行预处理后得到标准代码块,再将所述标准代码块作为识别模型输入,将与所述标准代码块中包括的元素对应的至少一个元素标识和第一定位信息作为所述识别模型的输出,训练得到所述识别模型。
进一步地,为保证所述元素识别结果准确,所述通过识别模型确定元素识别结果的过程可以包括:
步骤S310、响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定候选元素识别结果,所述候选元素识别结果包括至少一个元素信息。
具体地,当服务器确定的数据库集群中元素信息数量小于阈值时,判定匹配模型的样本过少,选择识别模型对所述标准结构化文档进行元素识别,得到包括至少一个元素信息的候选元素识别结果,所述候选元素信息中的元素标识与所述标准结构化文档中的元素一一对应,所述元素信息中的第一定位信息用于表征所述结构化文档中对应元素的位置和路径。
步骤S320、输出所述候选元素识别结果。
具体地,所述服务器通过预设的应用程序接口将所述候选元素信息输出至客户端,用于显示所述候选元素识别结果,并判断所述候选元素识别结果是否正确。
步骤S330、接收客户端基于所述候选元素识别结果发送的修正信息。
具体地,响应于所述候选元素识别结果中的一个或多个元素信息错误,客户端基于所述错误生成对应的修正信息,并将所述修正信息发送至服务器。可选的,所述修正信息中可以包括表征错误元素信息的信息标识,以及用于替换错误元素信息的元素标识和对应的第一定位信息的修正元素信息。
步骤S340、根据所述修正信息修正所述候选元素识别结果以确定元素识别结果。
具体地,所述服务器在接收到修正信息后,识别所述修正信息的内容,基于所述修正信息的内容对所述候选元素识别结果进行修正。例如,当所述修正信息中包括表征错误元素信息的信息标识,以及用于替换对应的错误元素信息的元素标识和对应的第一定位信息的修正元素信息时,在所述候选元素识别结果中确定所述修正信息中包括的信息标识对应的错误元素信息,用所述修正元素信息替换所述错误元素信息,在替换元素信息后完成修正,得到准确的元素识别结果。
步骤S400、将所述元素识别结果存储至所述数据库集群。
具体地,服务器确定元素识别结果后,将所述元素识别结果存储至所述数据库集群中。为保证所述服务器中匹配模型匹配结果的准确性,以及匹配效率,对所述数据库集群中包括的数据库进行分类,以存储不同的匹配内容。在本实施例的一个可选的实现方式中,所述数据库集群中包括第一数据库、第二数据库和第三数据库。
因此,所述存储元素识别结果的过程可以包括:
步骤S410、将所述元素识别结果存储至所述第一数据库。
具体地,所述服务器在通过识别模型确定元素识别结果后,将所述元素识别结果中的各元素信息存储至第一数据库,所述各元素信息中的元素标识和第一定位信息以键值对的形式存储在所述第一数据库中。
步骤S420、接收客户端发送的第一存储指令和第二存储指令中的至少一个存储指令。
具体地,所述服务器通过预设的应用程序接口接收所述客户端发送的第一存储指令、第二存储指令或第一存储指令或第二存储指令。所述第一存储指令可以包括多个元素信息的信息标识和第一指令内容,用于指示所述客户端将第一数据库中的可以组成控件的多个元素信息组成控件信息存储至第二数据库;所述第二存储指令可以包括多个元素信息的信息标识和第二指令内容,用于指示所述客户端将第一数据库中可以组成页面的多个元素信息组成页面信息存储至第三数据库。
步骤S430、根据所述第一存储指令获取所述第一数据库中的多个元素信息,以生成控件标识和与所述控件标识对应的第二定位信息。
具体地,所述服务器获取第一存储指令后,根据所述第一存储指令中的多个信息标识在所述第一数据库中获取对应的元素信息,生成与所述多个元素信息对应的控件标识,并基于所述各元素信息中包括的第一定位信息生成对应的第二定位信息。其中,当所述多个元素信息对应多个具有嵌套关系的元素时,所述第二定位信息与嵌套关系最外层元素对应的第一定位信息的路径表达式、坐标、长、宽均相同。例如,当所述多个元素信息对应的第一定位信息包括/table、/table/tr、/table/tr/th、/table/tr/td时,所述第二定位信息包括/table,同时所述第二定位信息中包括的定位X,Y和长、宽均与所述第一定位信息。当所述多个元素信息对应并列的无嵌套关系的元素时,可以设定所述第二定位信息中的路径表达式为作为所述各元素均有嵌套关系的上层元素对应的路径表达式,所述第二定位信息中的坐标为所述各元素中位于页面最左边元素左上角的坐标,所述长、宽为所述各并联元素的长、宽的和。例如,当所述多个元素信息对应的第一定位信息包括/table/tr/th、/table/tr/td时,所述第二定位信息包括/table/tr。
进一步地,所述控件标识还可以包括第一存储指令中各信息标识对应的各元素信息中的元素标识,所述第二定位信息中还可以包括第一存储指令中各信息标识对应的各元素信息的第一定位信息。
步骤S440、将所述控件标识和与所述控件标识对应的第二定位信息存储至所述第二数据库。
具体地,在服务器根据第一存储指令确定控件标识和对应的第二定位信息后,将所述控件标识与对应的第二定位信息以键值对的方式组成对应的控件信息,将所述控件信息存储至所述第二数据库。所述控件信息在所述匹配模型对控件形式的标准结构化文档进行元素识别时提供匹配结果。
步骤S450、根据所述第二存储指令获取所述第一数据库中的多个元素信息,以生成页面标识和与所述页面标识对应的第三定位信息。
具体地,所述服务器获取第二存储指令后,根据所述第二存储指令中的多个信息标识在所述第一数据库中获取对应的元素信息,生成与所述多个元素信息对应的页面标识,并基于所述各元素信息中包括的第一定位信息生成对应的第三定位信息。其中,当所述多个元素信息对应多个具有嵌套关系的元素时,所述第三定位信息与嵌套关系最外层元素对应的第一定位信息的路径表达式、坐标、长、宽均相同。当所述多个元素信息对应并列的无嵌套关系的元素时,可以设定所述第三定位信息中的路径表达式为作为所述各元素均有嵌套关系的上层元素对应的路径表达式,所述第三定位信息中的坐标为所述各元素中位于页面最左边元素左上角的坐标,所述长、宽为所述各并联元素的长、宽的和。
进一步地,所述页面标识还可以包括第二存储指令中各信息标识对应的各元素信息中的元素标识,所述第三定位信息中还可以包括第二存储指令中各信息标识对应的各元素信息的第一定位信息。
步骤S460、将所述页面标识和与所述页面标识对应的第三定位信息存储至所述第三数据库。
具体地,在服务器根据第二存储指令确定页面标识和对应的第三定位信息后,将所述页面标识与对应的第三定位信息以键值对的方式组成对应的页面信息,将所述页面信息存储至所述第三数据库。所述页面信息时所述匹配模型对页面形式的标准结构化文档进行元素识别时提供匹配结果。
步骤S500、响应于所述元素信息数量大于所述阈值,将所述标准结构化文档输入匹配模型中,以确定多个元素匹配结果。
具体地,当所述服务器通过步骤S200确定的所述元素信息数量大于所述阈值时,认为所述数据库集群中的样本足够对标准结构化文档进行元素识别,以确定多个对应的元素匹配结果。其中,所述各元素匹配结果包括至少一个元素信息,所述元素信息中的元素标识对应于标准结构化文档中的元素。且与所述标准结构化文档的匹配度满足预定条件,所述匹配模型根据所述数据库集群中存储的元素信息预先训练获得。
在本实施例一个可选的实现方式中,所述确定多个元素匹配结果的过程包括:
步骤S510、响应于所述元素信息数量大于所述阈值,判断所述标准结构化文档的类型。
具体地,当所述数据库集群中的元素信息数量大于所述阈值时,对所述标准结构化文档的类型进行判定。所述标准结构化文档的类型可以包括元素型、控件型和页面型。其中,所述元素型的标准结构化文档中包括多个独立的元素,所述控件型标准结构化文档中包括可以组成控件的多个元素,所述页面型准结构化文档中包括可以组成页面的多个元素。
可选的,所述标准结构化文档的类型还可以通过客户端发送至服务器,用于所述服务器基于所述类型匹配结果。
步骤S520、根据所述标准结构化文档的类型在所述数据库集群中确定对应的目标数据库。
具体地,根据所述标准结构化文档的类型在所述第一数据库、第二数据库和第三数据库中选择一个作为目标数据库。例如,当所述标准结构化文档为元素型时,确定所述第一数据库为目标数据库,当所述标准结构化文档为控件型时,确定所述第二数据库为目标数据库,当所述标准结构化文档为页面型时,确定所述第三数据库为目标数据库。
步骤S530、将所述标准结构化文档输入匹配模型中,以从对应的目标数据库中与所述标准结构化文档的匹配度满足预定条件的多个元素匹配结果。
具体地,将所述标准结构化文档输入匹配模型中,所述匹配模型从目标数据库中输出与所述标准结构化文档匹配的多个元素匹配结果。所述过程可以为将所述标准结构化文档输入匹配模型,所述匹配模型在所述目标数据库中获取多个候选元素匹配结果,并输出所述各候选元素匹配结果和所述标准结构化文档的匹配度,最后根据预定条件和所述各候选元素匹配结果对应的匹配度确定最终输出的多个元素匹配结果。在本实施例中,所述预设条件可以为服务器预先设定匹配度阈值,当存在候选的元素匹配结果与所述标准结构化文档的匹配度大于匹配阈值时,将所述元素匹配结果输出。可选的,所述服务器还设定一个整数值S,计算全部候选元素匹配结果与所述结构化文档的匹配度,确定匹配度最大的S各候选元素匹配结果为所述匹配模型输出的元素匹配结果。
S600、根据所述各元素匹配结果确定元素识别结果。
具体地,服务器在所述步骤S500中匹配模型输出的多个元素匹配结果中确定一个作为元素识别结果。在本实施例的一个可选的实现方式中,所述确定元素识别结果的过程可以包括:
步骤S610、输出所述各元素匹配结果。
具体地,所述服务器在通过匹配模型得到多个元素匹配结果后,通过预设的应用程序接口将所述各元素匹配结果输出至客户端,所述客户端可以通过显示界面显示所述各元素匹配结果,使用户选中所述客户端显示的多个元素匹配结果中的一个作为元素识别结果。所述选中的方法可以为向所述服务器发送包括所述元素匹配结果对应的匹配标识的选中指令。
步骤S620、响应于接收到客户端返回的选中指令,确定所述选中指令对应的元素匹配结果为元素识别结果。
具体地,当所述服务器接收到客户端发送的选中指令后,识别所述选中指令中包括的匹配标识,确定所述匹配标识对应的元素匹配结果为元素识别结果。
步骤S700、以预定格式输出所述元素识别结果。
具体地,所述服务器通过识别模型或匹配模型确定了输入的结构化文档对应的元素识别结果后,将所述元素识别结果转换成预定格式,再将所述预定格式的元素识别结果通过预设的应用程序接口输出至客户端。可选的,所述预定格式可以为图片、PDF、前端页面等格式。
本发明实施例所述的元素识别方法可以通过数据库集群中的元素数量确定对应的模型,将标准结构化文档输入所述模型以确定对应的元素识别结果,所述元素识别结果中包括与标准结构化文档中的各元素对应的元素标识,以及与所述元素标识对应的定位信息,再将所述元素识别结果存储至数据库集群,同时以预定格式输出,实现对标准结构化文档中的元素自动识别和定位,减少元素识别过程的工作量,同时提高所述元素识别过程的准确率。
图2为本发明实施例的元素识别方法系统的示意图,所述系统包括通过网络连接的服务器20、客户端21和数据库集群22。在进行元素识别的过程中,所述服务器20接收客户端21发送的结构化文档,对所述结构化文档进行预处理后进行元素识别,所述服务器20在进行元素识别前先确定数据库集群22中的元素信息数量,根据所述元素信息数量选择进行元素识别的模型,最后将得到的元素识别结果存储至所述数据库集群22中,并以预定格式输出至所述客户端21。
具体地,图3为本发明实施例的元素识别方法的数据流程图,如图3所示所述服务器接收到结构化文档后通过预处理模块30将所述结构化文档转换为标准结构化文档,同时获取数据库集群31中的元素信息数量,以在元素识别模块32中选择识别所述标准结构化文档的模型。当所述服务器确定识别模型33对所述标准结构化文档进行元素识别时,将所述标准结构化文档输入所述识别模型33,得到对应的元素识别结果后存储至数据库集群33中,并通过应用程序接口35输出至客户端。当所述服务器确定匹配模型34对所述标准结构化文档进行元素识别时,将所述标准结构化文档输入所述匹配模型34,所述匹配模型从数据库集群31中获取匹配度满足预设规则的多个元素匹配结果,并在其中确定元素识别结果,通过应用程序接口35输出至客户端。
图4为本发明实施例的数据库集群的示意图,如图4所示,所述数据库集群40中还包括第一数据库41、第二数据库42和第三数据库43。
具体地,所述第一数据库41中用于存储元素信息,即以键值对格式存储元素标识和对应的第一定位信息。所述第二数据库42中用于存储由多个元素信息组成的控件信息,即以键值对格式存储控件标识和对应的第二定位信息。所述第三数据库43中用于存储由多个元素信息组成的页面信息,即以键值对格式存储页面标识和对应的第三定位信息。因此,所述服务器选择匹配模型进行元素识别时,所述匹配模型可以根据标准结构化文档的类型在所述第一数据库41、第二数据库42和第三数据库43中选择对应的目标数据库获取元素匹配结果。
图5为本发明实施例的元素识别装置的示意图,如图5所示,所述装置包括文档确定模块50、元素统计模块51、第一识别模块52、数据存储模块53、匹配模块54、第二识别模块55和信息输出模块56。
具体地,所述文档确定模块50用于确定标准结构化文档,所述标准结构化文档中包括至少一个元素和与所述元素对应的属性信息。元素统计模块51用于确定数据库集群中存储的元素信息数量,所述元素信息包括元素标识和对应的第一定位信息。第一识别模块52用于响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定元素识别结果,所述元素识别结果包括至少一个元素信息,所述元素信息中的各元素标识与所述标准结构化文档中的元素对应。数据存储模块53用于将所述元素识别结果存储至所述数据库集群。匹配模块54用于响应于所述元素信息数量大于所述阈值,将所述标准结构化文档输入匹配模型中,以确定多个元素匹配结果,其中,所述各元素匹配结果包括至少一个元素信息,且与所述标准结构化文档的匹配度满足预定条件,所述匹配模型根据所述数据库集群中存储的元素信息预先训练获得。第二识别模块55用于根据所述各元素匹配结果确定元素识别结果。信息输出模块56用于以预定格式输出所述元素识别结果。
本发明实施例所述的元素识别装置可以通过数据库集群中的元素数量确定对应的模型,将标准结构化文档输入所述模型以确定对应的元素识别结果,所述元素识别结果中包括与标准结构化文档中的各元素对应的元素标识,以及与所述元素标识对应的定位信息,再将所述元素识别结果存储至数据库集群,同时以预定格式输出,实现对标准结构化文档中的元素自动识别和定位,减少元素识别过程的工作量,同时提高所述元素识别过程的准确率。
图6为本发明实施例的电子设备的示意图,如图6所示,在本实施例中,所述电子设备可以为服务器或终端等,所述终端例如可以是手机、电脑、平板电脑等智能设备。如图所示,所述电子设备包括:至少一个处理器61;与至少一个处理器通信连接的存储器60;以及与存储介质通信连接的通信元素信息62,所述通信元素信息62在处理器的控制下接收和发送数据;其中,存储器60存储有可被至少一个处理器61执行的指令,指令被至少一个处理器61执行以实现如本发明实施例所述的元素识别方法。
具体地,所述存储器60作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器61通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述元素识别方法。
存储器60可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器60可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器60可选包括相对于处理器61远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器60中,当被一个或者多个处理器61执行时,执行上述任意方法实施例中的元素识别方法。
上述产品可执行本申请实施例所公开的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所公开的方法。
本发明还涉及一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种元素识别方法,其特征在于,所述方法包括:
确定标准结构化文档,所述标准结构化文档中包括至少一个元素和与所述元素对应的属性信息;
确定数据库集群中存储的元素信息数量,所述元素信息包括元素标识和对应的第一定位信息;
响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定元素识别结果,所述元素识别结果包括至少一个元素信息,所述元素信息中的各元素标识与所述标准结构化文档中的元素对应;
将所述元素识别结果存储至所述数据库集群;
响应于所述元素信息数量大于所述阈值,将所述标准结构化文档输入匹配模型中,以确定多个元素匹配结果,其中,所述各元素匹配结果包括至少一个元素信息,且与所述标准结构化文档的匹配度满足预定条件,所述匹配模型根据所述数据库集群中存储的元素信息预先训练获得;
根据所述各元素匹配结果确定元素识别结果;
以预定格式输出所述元素识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定标准结构化文档包括:
获取结构化文档,所述结构化文档中包括至少一个元素和与所述元素对应的属性信息;
对所述结构化文档进行预处理以确定所述标准结构化文档。
3.根据权利要求1所述的方法,其特征在于,所述响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定元素识别结果包括:
响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定候选元素识别结果,所述候选元素识别结果包括至少一个元素信息;
输出所述候选元素识别结果;
接收客户端基于所述候选元素识别结果发送的修正信息;
根据所述修正信息修正所述候选元素识别结果以确定元素识别结果。
4.根据权利要求1所述的方法,其特征在于,所述数据库集群中包括第一数据库,第二数据库和第三数据库;
所述将所述元素识别结果存储至所述数据库集群包括:
将所述元素识别结果存储至所述第一数据库;
接收客户端发送的第一存储指令和第二存储指令中的至少一个存储指令;
根据所述第一存储指令获取所述第一数据库中的多个元素信息,以生成控件标识和与所述控件标识对应的第二定位信息;
将所述控件标识和与所述控件标识对应的第二定位信息存储至所述第二数据库;
根据所述第二存储指令获取所述第一数据库中的多个元素信息,以生成页面标识和与所述页面标识对应的第三定位信息;
将所述页面标识和与所述页面标识对应的第三定位信息存储至所述第三数据库。
5.根据权利要求4所述的方法,其特征在于,所述响应于所述元素信息数量大于所述阈值,将所述标准结构化文档输入匹配模型中,以确定多个元素匹配结果包括:
响应于所述元素信息数量大于所述阈值,判断所述标准结构化文档的类型;
根据所述标准结构化文档的类型在所述数据库集群中确定对应的目标数据库;
将所述标准结构化文档输入匹配模型中,以从对应的目标数据库中与所述标准结构化文档的匹配度满足预定条件的多个元素匹配结果。
6.根据权利要求1所述的方法,其特征在于,所述根据所述各元素匹配结果确定元素识别结果包括:
输出所述各元素匹配结果;
响应于接收到客户端返回的选中指令,确定所述选中指令对应的元素匹配结果为元素识别结果。
7.根据权利要求1所述的方法,其特征在于,所述属性信息中包括预设的偏差值、对应元素的嵌套状态、定位信息以及与各元素之间的嵌套关系。
8.一种元素识别装置,其特征在于,所述装置包括:
文档确定模块,用于确定标准结构化文档,所述标准结构化文档中包括至少一个元素和与所述元素对应的属性信息;
元素统计模块,用于确定数据库集群中存储的元素信息数量,所述元素信息包括元素标识和对应的第一定位信息;
第一识别模块,用于响应于所述元素信息数量小于阈值,将所述标准结构化文档输入识别模型中,以确定元素识别结果,所述元素识别结果包括至少一个元素信息,所述元素信息中的各元素标识与所述标准结构化文档中的元素对应;
数据存储模块,用于将所述元素识别结果存储至所述数据库集群;
匹配模块,用于响应于所述元素信息数量大于所述阈值,将所述标准结构化文档输入匹配模型中,以确定多个元素匹配结果,其中,所述各元素匹配结果包括至少一个元素信息,且与所述标准结构化文档的匹配度满足预定条件,所述匹配模型根据所述数据库集群中存储的元素信息预先训练获得;
第二识别模块,用于根据所述各元素匹配结果确定元素识别结果;
信息输出模块,用于以预定格式输出所述元素识别结果。
9.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。
CN201911342150.XA 2019-12-23 2019-12-23 元素识别方法、装置、可读存储介质和电子设备 Active CN111143643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911342150.XA CN111143643B (zh) 2019-12-23 2019-12-23 元素识别方法、装置、可读存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911342150.XA CN111143643B (zh) 2019-12-23 2019-12-23 元素识别方法、装置、可读存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111143643A true CN111143643A (zh) 2020-05-12
CN111143643B CN111143643B (zh) 2023-11-03

Family

ID=70519452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911342150.XA Active CN111143643B (zh) 2019-12-23 2019-12-23 元素识别方法、装置、可读存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111143643B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111865437A (zh) * 2020-06-24 2020-10-30 紫光展讯通信(惠州)有限公司 一种数字化转换方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040221226A1 (en) * 2003-04-30 2004-11-04 Oracle International Corporation Method and mechanism for processing queries for XML documents using an index
EP3483784A2 (en) * 2017-11-13 2019-05-15 Accenture Global Solutions Limited Automatic hierarchical classification and metadata identification of document using machine learning and fuzzy matching
CN110532449A (zh) * 2019-08-30 2019-12-03 盈盛智创科技(广州)有限公司 一种业务文档的处理方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040221226A1 (en) * 2003-04-30 2004-11-04 Oracle International Corporation Method and mechanism for processing queries for XML documents using an index
EP3483784A2 (en) * 2017-11-13 2019-05-15 Accenture Global Solutions Limited Automatic hierarchical classification and metadata identification of document using machine learning and fuzzy matching
CN110532449A (zh) * 2019-08-30 2019-12-03 盈盛智创科技(广州)有限公司 一种业务文档的处理方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱珊娜;李书琴;安福定;: "XML文档到关系数据库的转换研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111865437A (zh) * 2020-06-24 2020-10-30 紫光展讯通信(惠州)有限公司 一种数字化转换方法及装置
CN111865437B (zh) * 2020-06-24 2022-07-19 紫光展讯通信(惠州)有限公司 一种数字化转换方法及装置

Also Published As

Publication number Publication date
CN111143643B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
US10970097B2 (en) Adaptive web-based robotic process automation
WO2021169473A1 (zh) 模型性能优化方法、装置、设备及存储介质
CN111898739B (zh) 基于元学习的数据筛选模型构建方法、数据筛选方法、装置、计算机设备及存储介质
CN102567565B (zh) 一种电缆参数的处理方法和系统
CN110705226A (zh) 电子表格的创建方法、装置及计算机设备
US20230066703A1 (en) Method for estimating structural vibration in real time
CN111126058B (zh) 文本信息自动抽取方法、装置、可读存储介质和电子设备
CN114091688B (zh) 一种计算资源获取方法、装置、电子设备和存储介质
EP3961433A2 (en) Data annotation method and apparatus, electronic device and storage medium
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN111143643A (zh) 元素识别方法、装置、可读存储介质和电子设备
CN112633341A (zh) 一种界面测试方法、装置、计算机设备和存储介质
JP2019101889A (ja) テスト実行装置及びプログラム
CN112989066B (zh) 数据处理方法和装置、电子设备、计算机可读介质
CN115147096A (zh) 一种基于ocr的流程快速建模方法及系统
CN113536762A (zh) Json文本的比对方法及装置
CN112860736A (zh) 大数据查询优化方法、设备及可读存储介质
CN114120016B (zh) 字符串提取方法、装置、设备及存储介质
CN116781771B (zh) 一种使用ocr技术的工位机自动截屏图片解析方法
CN113111713B (zh) 一种图像检测方法、装置、电子设备及存储介质
CN109657115B (zh) 爬取数据自修复方法、装置、设备及介质
CN117472361A (zh) 业务建模方法、装置、设备以及存储介质
CN117994592A (zh) 大样图识别方法、装置、设备、存储介质及程序产品
CN114064692A (zh) Sql语句的比对方法、装置、终端设备和存储介质
CN116088804A (zh) 一种基于云计算和大数据的智慧应用开发系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant