CN115455272A - 页面数据处理方法、装置、电子设备及存储介质 - Google Patents

页面数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115455272A
CN115455272A CN202211110267.7A CN202211110267A CN115455272A CN 115455272 A CN115455272 A CN 115455272A CN 202211110267 A CN202211110267 A CN 202211110267A CN 115455272 A CN115455272 A CN 115455272A
Authority
CN
China
Prior art keywords
data
screening
target
page
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211110267.7A
Other languages
English (en)
Other versions
CN115455272B (zh
Inventor
周翔
冯莉颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gongqing Institute of Science and Technology
Original Assignee
Gongqing Institute of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gongqing Institute of Science and Technology filed Critical Gongqing Institute of Science and Technology
Priority to CN202211110267.7A priority Critical patent/CN115455272B/zh
Publication of CN115455272A publication Critical patent/CN115455272A/zh
Application granted granted Critical
Publication of CN115455272B publication Critical patent/CN115455272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种页面数据处理方法、装置、电子设备及存储介质,属于数据处理的技术领域,所述方法包括获取预设筛查信息的控制指令;根据词义筛查条件从待筛查页面中筛查出目标页面;针对目标页面中的数据文本进行识别以获取待处理数据;根据数据筛选条件从待处理数据中剔除非目标数据,以筛选出目标数据;根据目标数据与预设阈值的关系,针对目标数据进行相应的处理。通过本申请,可以实现从海量的待待筛查页面自动获取及摘抄符合预设筛查信息所需的数据信息,可以解决用户逐一对不同页面上的关联信息进行逐项、逐页的浏览查找所需信息,以及将找出的所需信息人为摘抄汇集而导致严重影响对页面数据信息处理效率的弊端。

Description

页面数据处理方法、装置、电子设备及存储介质
技术领域
本发明属于数据处理的技术领域,具体地涉及一种页面数据处理方法、装置、电子设备及存储介质。
背景技术
随着互联网的迅速发展,互联网应用为用户提供的功能越来越丰富,相应地,互联网应用所包含的页面也随之增加,以为用户实现丰富的功能。随着计算机技术的发展和进步,互联网上存在最多的资源是页面,页面上可以展示各类内容,例如文字、图片、视频等。
目前,绝大多数的技术文献内容通常采用页面形式进行呈现。研发人员在开始研发一个项目时,需要先行知晓目前相同行业的一些相关公开数据信息,以使了解同类项目的前沿性技术水平,因此需要大量涉猎相关的项目数据信息。然而,现有的技术文献公开的页面信息并不支持用户的快速检索及摘抄,用户仍需采用人为逐一对不同页面上的关联信息进行逐项、逐页的浏览,以查找出自身的所需信息;并且针对找出的所需信息还需用于人为摘抄下来进行信息汇集,从而严重影响用户针对页面数据信息的处理效率。
因此,如何实现针对技术文献类页面上的相关所需目标数据信息进行自动获取及摘抄,是一个亟待解决的课题。
发明内容
为了解决上述技术问题,本发明提供了一种页面数据处理方法、装置、电子设备及存储介质,根据事先设定的预设筛查信息,首先通过预设筛查信息中的词义筛查条件从待待筛查页面筛查出目标页面,其次通过预设筛查信息中的数据筛选条件从目标页面上获取的取待处理数据筛选出所述目标数据,最后通过预设筛查信息中的预设阈值针对所述目标数据进行相应的处理,从而实现从海量的待待筛查页面自动获取及摘抄符合预设筛查信息所需的数据信息。
第一方面,本申请提供了一种页面数据处理方法,其包括:
获取预设筛查信息的控制指令;其中,所述预设筛查信息包括词义筛查条件、数据筛选条件及预设阈值;
根据所述词义筛查条件从待筛查页面中筛查出目标页面;
针对所述目标页面中的数据文本进行识别以获取待处理数据;其中,所述待处理数据包括目标数据和非目标数据;
根据所述数据筛选条件从所述待处理数据中剔除所述非目标数据,以筛选出所述目标数据;
根据所述目标数据与所述预设阈值的关系,针对所述目标数据进行相应的处理。
较佳地,所述根据所述词义筛查条件从待筛查页面中筛查出目标页面的步骤具体包括:
将所述词义筛查条件采取分词方式以获取与所述控制指令相符的筛查关键词;
针对所述筛查关键词进行标准化处理转换成符合预设词典内的标准查询词;
根据所述标准查询词从所述待筛查页面中筛查出符合所述词义筛查条件目标页面。
较佳地,所述针对所述目标页面中的数据文本进行识别以获取待处理数据的步骤具体包括:
针对所述目标页面中的表类数据进行抓取以获取待处理图片;
针对所述待处理图片进行预处理以获取预处理图像;
针对所述预处理图像进行识别处理以获取所述待筛查页面中所需的待处理数据。
较佳地,所述预处理包括灰度处理及图像增强处理。
较佳地,所述根据所述数据筛选条件从所述待处理数据中剔除所述非目标数据,以筛选出所述目标数据的步骤具体包括:
将所述数据筛选条件所包含的字符进行分割处理以获取多个配置字符;
基于所述多个配置字符从预设条件库中筛选出与所述数据筛选条件适配的目标条件式;
将所述目标条件式在所述待处理数据中所对应的数据进行保留以归集形成所述目标数据,且将所述待处理数据中未被归集的所述非目标数据丢弃,以使从所述待处理数据中筛选出所述目标数据。
较佳地,所述根据所述目标数据与所述预设阈值的关系,针对所述目标数据进行相应的处理的步骤具体包括:
将所述目标数据中的数据逐一与所述预设阈值求差得到差值,判断所述差值是否小于零;
若是,则将所述差值小于零所对应的所述目标数据输出,并推送输出的所述目标数据对应的所述目标页面。
较佳地,所述判断所述差值是否小于零的步骤之后,所述方法还包括:
若判断所述差值不小于零,则将所述差值不小于零所对应的所述目标数据丢弃,并输出无符合所述预设筛查信息的提示信息。
第二方面,本申请提供了一种页面数据处理装置,其包括:
获取模块,用于获取预设筛查信息的控制指令;其中,所述预设筛查信息包括词义筛查条件、数据筛选条件及预设阈值;
筛查模块,用于根据所述词义筛查条件从待筛查页面中筛查出目标页面;
识别模块,用于针对所述目标页面中的数据文本进行识别以获取待处理数据;其中,所述待处理数据包括目标数据和非目标数据;
筛选模块,用于根据所述数据筛选条件从所述待处理数据中剔除所述非目标数据,以筛选出所述目标数据;
处理模块,用于根据所述目标数据与所述预设阈值的关系,针对所述目标数据进行相应的处理。
较佳地,所述筛查模块包括:
分词单元,用于将所述词义筛查条件采取分词方式以获取与所述控制指令相符的筛查关键词;
转换单元,用于针对所述筛查关键词进行标准化处理转换成符合预设词典内的标准查询词;
筛查单元,用于根据所述标准查询词从所述待筛查页面中筛查出符合所述词义筛查条件目标页面。
较佳地,所述识别模块包括:
抓取单元,用于针对所述目标页面中的表类数据进行抓取以获取待处理图片;
预处理单元,用于针对所述待处理图片进行预处理以获取预处理图像;
识别单元,用于针对所述预处理图像进行识别处理以获取所述待筛查页面中所需的待处理数据。
较佳地,所述筛选模块包括:
分割单元,用于将所述数据筛选条件所包含的字符进行分割处理以获取多个配置字符;
筛选单元,用于基于所述多个配置字符从预设条件库中筛选出与所述数据筛选条件适配的目标条件式;
归集单元,用于将所述目标条件式在所述待处理数据中所对应的数据进行保留以归集形成所述目标数据,且将所述待处理数据中未被归集的所述非目标数据丢弃,以使从所述待处理数据中筛选出所述目标数据。
较佳地,所述处理模块包括:
求差单元,用于将所述目标数据中的数据逐一与所述预设阈值求差得到差值,判断所述差值是否小于零;
输出单元,用于若判断所述差值小于零,则将所述差值小于零所对应的所述目标数据输出,并推送输出的所述目标数据对应的所述目标页面。
较佳地,所述处理模块还包括:
提示单元,用于若判断所述差值不小于零,则将所述差值不小于零所对应的所述目标数据丢弃,并输出无符合所述预设筛查信息的提示信息。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的页面数据处理方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的页面数据处理方法。
相比现有技术,本申请提供的一种页面数据处理方法、装置、电子设备及存储介质,在接收到用户根据自身需求创建的预设筛查信息时,基于预设筛查信息中的词义筛查条件通过语义处理的方式,从海量的待页面中筛查出目标页面;针对目标页面上的数据文本进行识别提取获取待处理数据,基于预设筛查信息中的数据筛选条件通过预设条件库筛选出适配的目标条件式,以使从所述待处理数据中筛选出目标数据;根据目标数据与预设筛查信息中的预设阈值的关系,输出符合预期的目标数据及该目标数据对应的目标页面,或者是丢弃不需要的目标数据及输出提示信息。通过上述步骤可以实现从海量的待待筛查页面自动获取及摘抄符合预设筛查信息所需的数据信息,大大提高用户对页面数据的处理效率,可以解决用户逐一对不同页面上的关联信息进行逐项、逐页的浏览查找所需信息,以及将找出的所需信息人为摘抄汇集,而导致严重影响对页面数据信息处理效率的弊端。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的页面数据处理方法的流程图;
图2为本发明实施例1提供的财务数据处理方法步骤S102的具体流程图;
图3为本发明实施例1提供的财务数据处理方法步骤S103的具体流程图;
图4为本发明实施例1提供的财务数据处理方法步骤S104的具体流程图;
图5为本发明实施例1提供的财务数据处理方法步骤S105的具体流程图;
图6是本发明实施例2提供的与实施例1方法对应的页面数据处理系统结构框图;
图7为本发明实施例3提供的财务数据处理方法步骤S205的具体流程图;
图8是本发明实施例4提供的与实施例3方法对应的处理模块结构框图;
图9是本发明实施例5提供的电子设备的硬件结构示意图。
附图标记说明:
10-获取模块、
20-筛查模块、21-分词单元、22-转换单元、23-筛查单元;
30-识别模块、31-抓取单元、32-预处理单元、33-识别单元;
40-筛选模块、41-分割单元、42-筛选单元、43-归集单元;
50-处理模块、51-求差单元、52-输出单元、53-提示单元;
60-总线、61-处理器、62-存储器、63-通信接口。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请具体的应用场景为:随着互联网技术的发展,通过页面公开一些技术文献或者产品说明书等已经非常常见。然而,为了维护技术文献及产品说明书等公开内容的知识产权,目前大多公开的页面资料大多以不可编辑、复制、查询等功能进行呈现。因此,针对一些研发人员或者产品制造商需要了解本领域的一些技术前沿性的资料,需要从海量的页面资料中逐页、逐行地查询符合自身所需的相关技术资料,导致采用这种方式进行页面数据处理的效率极其低下,并不适应当下的研发以及产品的生命周期。本申请正是基于此而适时地提出来的,并且为了能清楚解释本申请所要保护的页面数据处理方法,下列所列举的实施例以磨床生产商需要了解市面上的磨床所能达到的最高精度为例进行具体实施例的展开说明。
实施例1
具体而言,图1所示为本实施例提供的一种页面数据处理方法的流程示意图。
如图1所示,本实施例的页面数据处理方法包括以下步骤:
S101,获取预设筛查信息的控制指令;其中,所述预设筛查信息包括词义筛查条件、数据筛选条件及预设阈值。
其中,本实施例以磨床生产商需要了解市面上的磨床所能达到的最高精度进行说明,诸如磨床生产商所生产出的磨床精度可达0.05nm,其需要了解市面磨床生产商的磨床精度超过其磨床产品精度的情况。具体地,该磨床生产商根据自己所要了解的情况,制作符合其要求的预设筛查信息,该预设筛查信息中包括词义筛查条件、数据筛选条件及预设阈值,词义筛查条件可具体设定为磨床、磨床加工能力、磨床磨削精度、磨削能力;数据筛选条件可具体设定为百分数加、纳米单位、千分数加纳米单位,预设阈值可具体设定为不大于0.005nm、不超过0.005nm。
S102,根据所述词义筛查条件从待筛查页面中筛查出目标页面。
具体地,通过设定的磨床、磨床加工能力、磨床磨削精度、磨削能力等词义筛查条件,从磨床生产商所收集的其它磨床生产商的产品说明书或者产品技术参数等海量页面上初步筛查出有关磨床磨削精度相关的目标页面,以过滤掉与磨床磨削精度不相关的其它一些产品说明及产品参数等数据信息。
进一步地,如图2所示,步骤S102的具体步骤包括:
S1021,将所述词义筛查条件采取分词方式以获取与所述控制指令相符的筛查关键词。
具体地,将客户具体设定的“磨床、磨床加工能力、磨床磨削精度、磨削能力”等词义筛查条件通过常规语义词汇进行分割,诸如分割成“磨床、磨削、加工、精度、能力”等筛查关键词。
S1022,针对所述筛查关键词进行标准化处理转换成符合预设词典内的标准查询词。
具体地,将分词得到的“磨床、磨削、加工、精度、能力”等筛查关键词根据机械加工常用术语的标准词汇进行词义标准转换,转换成“磨床、磨削、精度”的标准查询词。
S1023,根据所述标准查询词从所述待筛查页面中筛查出符合所述词义筛查条件目标页面。
具体地,基于“磨床、磨削、精度”的标准查询词输入,在相关程序中从海量的待筛查页面中筛查出具有该标准查询词的目标页面,并将筛查出的目标页面进行缓冲待处理。
S103,针对所述目标页面中的数据文本进行识别以获取待处理数据;其中,所述待处理数据包括目标数据和非目标数据。
具体地,基于上一步骤获取的目标页面,针对该目标页面中存在的数据类文本信息进行识别,以获取该数据类文本信息中所包含的数据作为待处理数据。
进一步地,如图3所示,步骤S103的具体步骤包括:
S1031,针对所述目标页面中的表类数据进行抓取以获取待处理图片。
具体地,针对目标页面按照预设的方向摆设好,逐一将其所展现的数据类信息进行拍照截取形成图片。
S1032,针对所述待处理图片进行预处理以获取预处理图像。
其中,所述预处理包括灰度处理及图像增强处理。具体地,对所拍摄的图片进行灰度处理,即将其转化为黑白图片,目的在于将其中包含的色彩信息去除,然后通过改变对比度、调节亮度等图像增强处理方式,调整图片中文字的清晰度,方便识别。
S1033,针对所述预处理图像进行识别处理以获取所述待筛查页面中所需的待处理数据。
其中,所述识别处理是指采用连续识别以对所含文字及数字进行区分及确定文字与数字之间的相对位置关系。具体地,对预处理图像进行文字识别时采用连续识别,并对文字与数字进行区分。通过先记录文字的位置,并在记录时确定文字的中心位置,该中心位置即作为该文字的位置;进而确定该文字后方跟随的数字内容,记录文字内容与数字内容之间的相对位置关系。
S104,根据所述数据筛选条件从所述待处理数据中剔除所述非目标数据,以筛选出所述目标数据。
其中,数据筛选条件即为磨床生产商基于待处理数据中所需了解的相关数据,诸如通过数据自身或者数据后面的单位,可以筛选出符合磨床生产商所需的磨床精度数据,这些所需了解的磨床精度数据即是本实施例中的目标数据。
进一步地,如图4所示,步骤S104的具体步骤包括:
S1041,将所述数据筛选条件所包含的字符进行分割处理以获取多个配置字符。
其中,由于数据筛选条件所对应的文本信息一般是以条件式的形式存在,也就是说数据筛选条件通过写的方式呈现。具体地,在获取数据筛选条件所对应的条件式后,针对条件式按照分割规则进行分割,得到多个配置字符;分割规则具体可根据设备机床的常用条件式的格式分割。诸如将数据请求中所对应的条件式“磨削精度千分数纳米”进行分割,得到“磨削精度、千分数、nm”的词汇。
S1042,基于所述多个配置字符从预设条件库中筛选出与所述数据筛选条件适配的目标条件式。
其中,所述预设条件库是指根据磨床生产商的磨床产品所涉及的常用技术参数进行编译的参数满足不同条件的条件库,以使根据设定的数据筛选条件与该条件库进行比对,以调出与数据筛选条件相适配的目标条件式。具体地,本实施例的数据筛选条件经过分割处理获取目标条件式“精度、<0.01nm”。
S1043,将所述目标条件式在所述待处理数据中所对应的数据进行保留以归集形成所述目标数据,且将所述待处理数据中未被归集的所述非目标数据丢弃,以使从所述待处理数据中筛选出所述目标数据。
具体地,待处理数据中存在诸多的数据,诸如磨床的尺寸数据、功率数据、生产能力数据、磨削精度数据等等,也就是说从目标页面中获取的相关数据信息不单单只有磨削精度,所以需要通过数据筛选条件从这些数据中筛选出有关磨床的磨削精度相关数据。
S105,根据所述目标数据与所述预设阈值的关系,针对所述目标数据进行相应的处理。
具体地,通过将筛选出来的有磨削精度有关的目标数据,与磨床生产商自身生成的磨床精度值(预设阈值)进行比对,可以了解到市面上其它磨床精度超过自身磨床精度的磨床生产商,或者可知知晓所收集的页面中并不存在磨床精度超过自身磨床精度的磨床生产商。
进一步地,如图5所示,步骤S105的具体步骤包括:
S1051,将所述目标数据中的数据逐一与所述预设阈值求差得到差值,判断所述差值是否小于零。
具体地,诸如目标数据中存在磨削精度=0.004nm,将该磨削精度减去预设阈值0.005nm,得到-0.001nm,说明该目标数据所对应的磨床磨削精度高于磨床生产商的磨床磨削精度。
S1052,若是,则将所述差值小于零所对应的所述目标数据输出,并推送输出的所述目标数据对应的所述目标页面。
综上所述,在接收到磨床生产商根据自身需求创建的预设筛查信息时,基于预设筛查信息中的词义筛查条件通过语义处理的方式,从海量的待页面中筛查出目标页面;针对目标页面上的数据文本进行识别提取获取待处理数据,基于预设筛查信息中的数据筛选条件通过预设条件库筛选出适配的目标条件式,以使从所述待处理数据中筛选出目标数据;当目标数据所对应的数据小于预设筛查信息中的预设阈值时,输出符合预期的目标数据及该目标数据对应的目标页面,以使磨床生产商快速知晓具体是哪家磨床生产商的磨削精度高于自身生产的磨床,以便磨床生产商进一步去了解对手具体信息。
实施例2
本实施例提供了与实施例1所述方法相对应的系统的结构框图。图6是根据本申请实施例的财务数据处理系统的结构框图,如图6所示,该系统包括:
获取模块10,用于获取预设筛查信息的控制指令;其中,所述预设筛查信息包括词义筛查条件、数据筛选条件及预设阈值;
筛查模块20,用于根据所述词义筛查条件从待筛查页面中筛查出目标页面;
识别模块30,用于针对所述目标页面中的数据文本进行识别以获取待处理数据;其中,所述待处理数据包括目标数据和非目标数据;
筛选模块40,用于根据所述数据筛选条件从所述待处理数据中剔除所述非目标数据,以筛选出所述目标数据;
处理模块50,用于根据所述目标数据与所述预设阈值的关系,针对所述目标数据进行相应的处理。
较佳地,所述筛查模块20包括:
分词单元21,用于将所述词义筛查条件采取分词方式以获取与所述控制指令相符的筛查关键词;
转换单元22,用于针对所述筛查关键词进行标准化处理转换成符合预设词典内的标准查询词;
筛查单元23,用于根据所述标准查询词从所述待筛查页面中筛查出符合所述词义筛查条件目标页面。
较佳地,所述识别模块30包括:
抓取单元31,用于针对所述目标页面中的表类数据进行抓取以获取待处理图片;
预处理单元32,用于针对所述待处理图片进行预处理以获取预处理图像;
识别单元33,用于针对所述预处理图像进行识别处理以获取所述待筛查页面中所需的待处理数据。
较佳地,所述筛选模块40包括:
分割单元41,用于将所述数据筛选条件所包含的字符进行分割处理以获取多个配置字符;
筛选单元42,用于基于所述多个配置字符从预设条件库中筛选出与所述数据筛选条件适配的目标条件式;
归集单元43,用于将所述目标条件式在所述待处理数据中所对应的数据进行保留以归集形成所述目标数据,且将所述待处理数据中未被归集的所述非目标数据丢弃,以使从所述待处理数据中筛选出所述目标数据。
较佳地,所述处理模块50包括:
求差单元51,用于将所述目标数据中的数据逐一与所述预设阈值求差得到差值,判断所述差值是否小于零;
输出单元52,用于若判断所述差值小于零,则将所述差值小于零所对应的所述目标数据输出,并推送输出的所述目标数据对应的所述目标页面。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
实施例3
本实施例与实施例1不同之处在于:步骤S205与实施例1步骤S105的具体步骤流程。如图7所示,步骤S205的的具体步骤包括:
S2051,将所述目标数据中的数据逐一与所述预设阈值求差得到差值,判断所述差值是否小于零;
S2052,若否,则将所述差值不小于零所对应的所述目标数据丢弃,并输出无符合所述预设筛查信息的提示信息。
实施例4
本实施例与实施例2不同之处在于:本实施例的处理模块与实施例2的处理模块具体结构不同,如图8所示,本实施例的处理模块具体包括:
求差单元51,用于将所述目标数据中的数据逐一与所述预设阈值求差得到差值,判断所述差值是否小于零;
提示单元53,用于若判断所述差值不小于零,则将所述差值不小于零所对应的所述目标数据丢弃,并输出无符合所述预设筛查信息的提示信息。
实施例5
结合图1、图7所描述的页面数据处理方法可以由电子设备来实现。图9为根据本实施例的设备的硬件结构示意图。
设备可以包括处理器61以及存储有计算机程序指令的存储器62。
具体地,上述处理器61可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器62可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器62可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器62可在数据处理装置的内部或外部。在特定实施例中,存储器62是非易失性(Non-Volatile)存储器。在特定实施例中,存储器62包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器61所执行的可能的计算机程序指令。
处理器61通过读取并执行存储器62中存储的计算机程序指令,以实现上述实施例1、实施例3的页面数据处理方法。
在其中一些实施例中,设备还可包括通信接口63和总线60。其中,如图9所示,处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。
通信接口63用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口63还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线60包括硬件、软件或两者,将设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线60可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该设备可以基于获取到页面数据处理系统,执行本申请实实施例1、实施例3的页面数据处理方法。
另外,结合上述实施例1、实施例3中的页面数据处理方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例1、实施例3的页面数据处理方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种页面数据处理方法,其特征在于,包括:
获取预设筛查信息的控制指令;其中,所述预设筛查信息包括词义筛查条件、数据筛选条件及预设阈值;
根据所述词义筛查条件从待筛查页面中筛查出目标页面;
针对所述目标页面中的数据文本进行识别以获取待处理数据;其中,所述待处理数据包括目标数据和非目标数据;
根据所述数据筛选条件从所述待处理数据中剔除所述非目标数据,以筛选出所述目标数据;
根据所述目标数据与所述预设阈值的关系,针对所述目标数据进行相应的处理。
2.根据权利要求1所述的页面数据处理方法,其特征在于,所述根据所述词义筛查条件从待筛查页面中筛查出目标页面的步骤具体包括:
将所述词义筛查条件采取分词方式以获取与所述控制指令相符的筛查关键词;
针对所述筛查关键词进行标准化处理转换成符合预设词典内的标准查询词;
根据所述标准查询词从所述待筛查页面中筛查出符合所述词义筛查条件目标页面。
3.根据权利要求1所述的页面数据处理方法,其特征在于,所述针对所述目标页面中的数据文本进行识别以获取待处理数据的步骤具体包括:
针对所述目标页面中的表类数据进行抓取以获取待处理图片;
针对所述待处理图片进行预处理以获取预处理图像;
针对所述预处理图像进行识别处理以获取所述待筛查页面中所需的待处理数据。
4.根据权利要求3所述的页面数据处理方法,其特征在于,所述预处理包括灰度处理及图像增强处理。
5.根据权利要求1所述的页面数据处理方法,其特征在于,所述根据所述数据筛选条件从所述待处理数据中剔除所述非目标数据,以筛选出所述目标数据的步骤具体包括:
将所述数据筛选条件所包含的字符进行分割处理以获取多个配置字符;
基于所述多个配置字符从预设条件库中筛选出与所述数据筛选条件适配的目标条件式;
将所述目标条件式在所述待处理数据中所对应的数据进行保留以归集形成所述目标数据,且将所述待处理数据中未被归集的所述非目标数据丢弃,以使从所述待处理数据中筛选出所述目标数据。
6.根据权利要求1所述的页面数据处理方法,其特征在于,所述根据所述目标数据与所述预设阈值的关系,针对所述目标数据进行相应的处理的步骤具体包括:
将所述目标数据中的数据逐一与所述预设阈值求差得到差值,判断所述差值是否小于零;
若是,则将所述差值小于零所对应的所述目标数据输出,并推送输出的所述目标数据对应的所述目标页面。
7.根据权利要求6所述的页面数据处理方法,其特征在于,所述判断所述差值是否小于零的步骤之后,所述方法还包括:
若判断所述差值不小于零,则将所述差值不小于零所对应的所述目标数据丢弃,并输出无符合所述预设筛查信息的提示信息。
8.一种页面数据处理装置,其特征在于,包括:
获取模块,用于获取预设筛查信息的控制指令;其中,所述预设筛查信息包括词义筛查条件、数据筛选条件及预设阈值;
筛查模块,用于根据所述词义筛查条件从待筛查页面中筛查出目标页面;
识别模块,用于针对所述目标页面中的数据文本进行识别以获取待处理数据;其中,所述待处理数据包括目标数据和非目标数据;
筛选模块,用于根据所述数据筛选条件从所述待处理数据中剔除所述非目标数据,以筛选出所述目标数据;
处理模块,用于根据所述目标数据与所述预设阈值的关系,针对所述目标数据进行相应的处理。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的页面数据处理方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的页面数据处理方法。
CN202211110267.7A 2022-09-13 2022-09-13 页面数据处理方法、装置、电子设备及存储介质 Active CN115455272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211110267.7A CN115455272B (zh) 2022-09-13 2022-09-13 页面数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211110267.7A CN115455272B (zh) 2022-09-13 2022-09-13 页面数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115455272A true CN115455272A (zh) 2022-12-09
CN115455272B CN115455272B (zh) 2023-07-11

Family

ID=84303640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211110267.7A Active CN115455272B (zh) 2022-09-13 2022-09-13 页面数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115455272B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007060726A1 (ja) * 2005-11-25 2007-05-31 Mitsubishi Space Software Co., Ltd. 文献検索装置、方法及びプログラム
US20170213469A1 (en) * 2016-01-25 2017-07-27 Wespeke, Inc. Digital media content extraction and natural language processing system
CN112417296A (zh) * 2020-12-04 2021-02-26 刘奕名 一种互联网关键数据信息采集提取方法
CN114168715A (zh) * 2022-02-10 2022-03-11 深圳希施玛数据科技有限公司 生成目标数据集的方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007060726A1 (ja) * 2005-11-25 2007-05-31 Mitsubishi Space Software Co., Ltd. 文献検索装置、方法及びプログラム
US20170213469A1 (en) * 2016-01-25 2017-07-27 Wespeke, Inc. Digital media content extraction and natural language processing system
CN112417296A (zh) * 2020-12-04 2021-02-26 刘奕名 一种互联网关键数据信息采集提取方法
CN114168715A (zh) * 2022-02-10 2022-03-11 深圳希施玛数据科技有限公司 生成目标数据集的方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张雪英 等: "中文文本关键词自动抽取方法研究", 情报学报, no. 04, pages 34 - 42 *

Also Published As

Publication number Publication date
CN115455272B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
WO2021164232A1 (zh) 用户识别方法、装置、设备及存储介质
US20110085728A1 (en) Detecting near duplicate images
WO2015078273A1 (en) Method and apparatus for search
US20070133067A1 (en) Forming a master page for an electronic document
CN115860271B (zh) 艺术设计用方案管理系统及其方法
CN110188077B (zh) 一种电子卷宗智能分类方法、装置、电子设备和存储介质
US20080127043A1 (en) Automatic Extraction of Programming Rules
CN111291572A (zh) 一种文字排版方法、装置及计算机可读存储介质
CN108154191B (zh) 文档图像的识别方法和系统
CN105630975B (zh) 一种信息处理方法和电子设备
CN115631494A (zh) 财务数据处理方法、系统、电子设备及存储介质
Gao et al. Real-time detecting one specific tampering operation in multiple operator chains
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN114598597B (zh) 多源日志解析方法、装置、计算机设备及介质
EP4273737A1 (en) Language labeling method and apparatus, and computer device and storage medium
CN117493645B (zh) 一种基于大数据的电子档案推荐系统
CN115455272B (zh) 页面数据处理方法、装置、电子设备及存储介质
CN116089732B (zh) 基于广告点击数据的用户偏好识别方法及系统
TW201435627A (zh) 搜索優化系統及方法
CN112270177A (zh) 基于内容相似性的新闻封面配图方法、装置及计算设备
CN115359302A (zh) 硬币识别方法、系统及存储介质
CN113158001B (zh) 一种网络空间ip资产归属及相关性判别方法及系统
Dey et al. A comparative study of margin noise removal algorithms on marnr: A margin noise dataset of document images
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法
CN112446204A (zh) 一种文档标签的确定方法、系统及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant