CN117370817A - 数据处理方法、装置、设备、介质和程序产品 - Google Patents
数据处理方法、装置、设备、介质和程序产品 Download PDFInfo
- Publication number
- CN117370817A CN117370817A CN202311419140.8A CN202311419140A CN117370817A CN 117370817 A CN117370817 A CN 117370817A CN 202311419140 A CN202311419140 A CN 202311419140A CN 117370817 A CN117370817 A CN 117370817A
- Authority
- CN
- China
- Prior art keywords
- data
- initial
- processed
- matching
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000012937 correction Methods 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 23
- 239000012634 fragment Substances 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013500 data storage Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及大数据处理技术领域,尤其涉及一种数据处理方法、装置、计算机设备、存储介质和计算机程序产品。所述数据处理方法包括:响应于提取指令,获取提取指令对应的至少一组待处理数据;根据提取指令,从预先配置的至少一种初始匹配规则中筛选出待处理数据对应的目标初始匹配规则,从预先配置的至少一种修正匹配规则中筛选出待处理数据对应的目标修正匹配规则;采用目标初始匹配规则对待处理数据进行初次匹配,得到初始数据;采用目标修正匹配规则对初始数据进行再次匹配,得到标准数据,通过该种设置,减少了数据分析难度,减少了数据筛选的工作量,加快了数据分析效率。
Description
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种数据处理方法、装置、设备、介质和程序产品。
背景技术
随着智能设备的快速普及,互联网相关的数据与信息呈现出爆发性增长的趋势,海量的数据给处理器带来了极大的处理难度,并且,由于互联网提供的多种业务涉及的领域不同,处理器分析接收到的数据时往往难度较大,这将造成数据处理速度慢、入库速度慢的问题出现。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据分析速度的数据处理方法、装置、设备、介质和程序产品。
第一方面,本申请提供了一种数据处理方法,包括:
响应于提取指令,获取所述提取指令对应的至少一组待处理数据;
根据所述提取指令,从预先配置的至少一种初始匹配规则中筛选出所述待处理数据对应的目标初始匹配规则,从预先配置的至少一种修正匹配规则中筛选出所述待处理数据对应的目标修正匹配规则;
采用所述目标初始匹配规则对所述待处理数据进行初次匹配,得到初始数据;
采用所述目标修正匹配规则对所述初始数据进行再次匹配,得到标准数据。
在其中一个实施例中,所述初始匹配规则对应第一数据范围;
所述采用所述目标初始匹配规则对所述待处理数据进行初次匹配,得到初始数据,包括:
采用所述目标初始匹配规则对所述待处理数据进行初次匹配,确定出所述待处理数据中的初始匹配位置;
获取所述初始匹配位置对应第一数据范围内的第一数据片段;
根据所述第一数据片段确定所述初始数据。
在其中一个实施例中,所述修正匹配规则对应第二数据范围;
所述采用所述目标修正匹配规则对所述初始数据进行再次匹配,得到标准数据,包括:
采用所述目标修正匹配规则对所述初始数据进行再次匹配,确定出所述初始数据中的修正匹配位置;
获取所述修正匹配位置对应第二数据范围内的第二数据片段;
根据所述第二数据片段确定所述标准数据。
在其中一个实施例中,所述根据所述第二数据片段确定所述标准数据,包括:
采用预设指标提取规则,从所述第二数据片段中提取出指标信息;
对所述指标信息进行标准化处理,得到所述标准数据。
在其中一个实施例中,在所述对所述指标信息进行标准化处理,得到所述标准数据之后,还包括:
获取所述标准数据对应的页面号;
当所述页面号符合预设合并规则时,将对应的标准数据进行合并处理。
在其中一个实施例中,所述待处理数据携带有身份标签;
所述方法还包括:
接收调用指令;
根据所述调用指令携带的目标身份标签,从所述待处理数据对应的身份标签中匹配到所述调用指令对应的目标待处理数据;
调用包含有所述目标待处理数据的标准数据。
第二方面,本申请还提供了一种数据处理装置,包括:
获取模块,用于响应于提取指令,获取所述提取指令对应的至少一组待处理数据;
筛选模块,用于根据所述提取指令,从预先配置的至少一种初始匹配规则中筛选出所述待处理数据对应的目标初始匹配规则,从预先配置的至少一种修正匹配规则中筛选出所述待处理数据对应的目标修正匹配规则;
初始匹配模块,用于采用所述目标初始匹配规则对所述待处理数据进行初次匹配,得到初始数据;
修正匹配模块,用于采用所述目标修正匹配规则对所述初始数据进行再次匹配,得到标准数据。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的数据处理方法。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的数据处理方法。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序产品被处理器执行时实现上述任一实施例所述的数据处理方法。
上述数据处理方法、装置、计算机设备、存储介质和计算机程序产品,能够预先配置多种初始匹配规则和多种修正匹配规则,并在接收到提取指令时,直接进行目标初始匹配规则和目标修正匹配规则的调用,以此实现待处理数据的快速数据分析处理,并且,通过先采用目标初始匹配规则对待处理数据进行分析得到初始数据,再采用目标修正匹配规则对初始数据进行分析得到标准数据的方式,减少了数据分析难度,减少了数据筛选的工作量,加快了数据分析效率。
附图说明
图1为一个实施例中数据处理方法的应用环境图;
图2为一个实施例中数据处理方法的流程示意图;
图3为一个实施例中数据处理方法的流程示意图;
图4为一个实施例中数据处理方法的流程示意图;
图5为一个实施例中数据处理方法的流程示意图;
图6为一个实施例中数据处理方法的流程示意图;
图7为一个实施例中数据处理方法的流程示意图;
图8为一个实施例中数据处理装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。
例如,数据处理方法应用于终端102,在终端102接收到提取指令时,获取提取指令对应的至少一组待处理数据;随后终端102从服务器104的数据存储系统中获取预先配置的至少一种初始匹配规则和修正匹配规则,并从初始匹配规则中筛选出待处理数据对应的目标初始匹配规则,从修正匹配规则中筛选出待处理数据对应的目标修正匹配规则;随后终端102采用目标初始匹配规则对待处理数据进行初次匹配,得到初始数据;采用目标修正匹配规则对初始数据进行再次匹配,得到标准数据存储于服务器104的数据存储系统中,其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102和服务器104可以通过有线或无线通信方式进行直接或间接的连接,例如通过网络连接。
又例如,数据处理方法应用于服务器104,在终端102获取到提取指令时,终端102将提取指令发送至服务器104,随后服务器104根据提取指令,获取提取指令对应的至少一组待处理数据,并从数据存储系统中获取预先配置的至少一种初始匹配规则和修正匹配规则,以及从初始匹配规则中筛选出待处理数据对应的目标初始匹配规则,从修正匹配规则中筛选出待处理数据对应的目标修正匹配规则;随后服务器104采用目标初始匹配规则对待处理数据进行初次匹配,得到初始数据;采用目标修正匹配规则对初始数据进行再次匹配,得到标准数据存储于数据存储系统中。可以理解的是,数据存储系统可为独立的存储设备,或者该数据存储系统位于服务器上,或者该数据存储系统位于另一终端上。
在一个实施例中,提供了一种数据处理方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。如图2所示,该数据处理方法包括:
步骤202、响应于提取指令,获取提取指令对应的至少一组待处理数据。
提取指令指的可以是针对多种待处理数据进行信息提取的指令。其中,至少一组待处理数据可以是分别来自于多个数据源的数据,又或者,至少一组待处理数据可以是数据类型分别不同的数据,数据类型指的是数据的种类或类别,用于描述数据的特征和性质。
作为示例,提取指令可以是用户通过终端的人机交互界面发出的,终端的人机交互界面具体可以是特定的平台界面。又或者,在数据处理相关的场景中,终端可以实时监控特定的数据存储系统,当该数据存储系统接收到数据时,即将接收到的数据作为待处理数据,此时终端自动生成分类指令。
本实施例中,提取指令可以携带有数据标签,其中,数据标签可以为字母、字符或数字中的至少一种组成,数据标签可以用于唯一标识对应的待处理数据的存储地址,本实施例的终端中预存有数据标签与多个存储地址的对应映射关系。
终端在接收到提取指令后,可以根据提取指令携带的数据标签,匹配到至少一组待处理数据对应的存储地址,并从匹配到的存储地址中获取待处理数据。
又或者,提取指令与至少一组待处理数据是共同发送给终端的,用户通过终端的人机交互界面发出提取指令时,可以同时向存储待处理数据的数据存储系统发出发送指令,存储待处理数据的数据存储系统在接收到发送指令时,能够将待处理数据发送给终端。
作为示例,在股债基金相关数据的应用场景中,待处理数据具体可以是股票公告数据库中的数据、债券公告数据库中的数据或基金公告数据库中的数据等。
步骤204、根据提取指令,从预先配置的至少一种初始匹配规则中筛选出待处理数据对应的目标初始匹配规则,从预先配置的至少一种修正匹配规则中筛选出待处理数据对应的目标修正匹配规则。
初始匹配规则和修正匹配规则均指的是从待处理数据中匹配到对应的数据的方法。其中,初始匹配规则提取数据的精度比修正匹配规则提取数据的精度要细。
目标初始匹配规则指的是适用于提取指令对应的至少一组待处理数据的、提取数据的精度较粗的匹配规则。
目标修正匹配规则指的是适用于提取指令对应的至少一组待处理数据的、提取数据的精度较细的匹配规则。
步骤206、采用目标初始匹配规则对待处理数据进行初次匹配,得到初始数据。
目标初始匹配规则可以采用例如字符串匹配算法(如KMP算法、Boyer-Moore算法等)或者正则表达式匹配算法。
终端可以采用目标初始匹配规则,从待处理数据中匹配定位到所需数据的大致模糊位置。
作为示例,终端在采用目标初始匹配规则对待处理数据进行初次匹配后,还可以对初始匹配后得到的数据进行数据清洗处理或数据转换处理,以最终得到初始数据,数据清洗的过程可以包括去除重复数据、去除噪声数据、修复缺失数据等,以提高初始数据的质量和准确性;数据转换的过程可以包括数据格式转换、数据字段提取、数据合并等,以统一数据展现形式,方便后续步骤对数据的集中处理。
步骤208、采用目标修正匹配规则对初始数据进行再次匹配,得到标准数据。
目标修正匹配规则例如基于编辑距离的算法(如Levenshtein距离算法、最长公共子序列算法等)或者基于语义相似度的算法(如Word2Vec、BERT等)。
当终端接收到大量的待处理数据时,若直接按照提取数据的精度较细的匹配规则对待处理数据进行分析处理,无疑会带来极大的工作量,因此终端首先采用提取数据的精度较粗的匹配规则对待处理数据进行分析处理,以筛选出所需数据的大致位置,随后在所需数据的大致位置的基础上进行进一步细化筛选,以得出精准的数据位置,从而提取出较准确的数据。
上述数据处理方法中,终端能够预先配置多种初始匹配规则和多种修正匹配规则,并在终端接收到提取指令时,直接进行目标初始匹配规则和目标修正匹配规则的调用,以此实现待处理数据的快速数据分析处理,并且,通过先采用目标初始匹配规则对待处理数据进行分析得到初始数据,再采用目标修正匹配规则对初始数据进行分析得到标准数据的方式,减少了数据分析难度,减少了数据筛选的工作量,加快了数据分析效率。
如图3所示,在一些可选的实施例中,初始匹配规则对应第一数据范围;
步骤206包括:
步骤2062、采用目标初始匹配规则对待处理数据进行初次匹配,确定出待处理数据中的初始匹配位置;
步骤2064、获取初始匹配位置对应第一数据范围内的第一数据片段;
步骤2066、根据第一数据片段确定初始数据。
其中,待处理数据可以是一组文本数据、一组语音数据、一组图像数据、一组字符串数据等。
第一数据范围指的可以是以初始匹配位置为中心,初始匹配位置之前的第一预设数量的数据以及初始匹配位置之后的第一预设数量的数据形成的范围。
在本实施中,以待处理数据为一组字符串数据进行举例,终端采用字符串匹配算法作为目标初始匹配规则对待处理数据进行初次匹配,字符串匹配算法用于在待处理数据中匹配到特定模式的子串,当终端从待处理数据中匹配到特定模式的子串时,将该子串作为初始匹配位置,将该子串对应第一数据范围内的第一数据片段作为初始数据。
其中,第一数据范围内的第一数据片段例如可以指的是以待处理数据中特定模式的子串为中心,前后第一预设数量个字符形成的数据片段。
如图4所示,在一些可选的实施例中,修正匹配规则对应第二数据范围;
步骤208包括:
步骤2082、采用目标修正匹配规则对初始数据进行再次匹配,确定出初始数据中的修正匹配位置;
步骤2084、获取修正匹配位置对应第二数据范围内的第二数据片段;
步骤2086、根据第二数据片段确定标准数据。
第二数据范围指的可以是以修正匹配位置为中心,修正匹配位置之前的第二预设数量的数据以及修正匹配位置之后的第二预设数量的数据形成的范围。
在本实施中,以待处理数据为一组字符串数据进行举例,终端采用基于编辑距离的算法作为目标初始匹配规则对初始数据进行初次匹配,基于编辑距离的算法是一种用于衡量两个字符串之间的相似度的算法。它衡量的是通过插入、删除和替换操作将一个字符串转换为另一个字符串所需的最小编辑操作次数。相应的,在本实施例中,终端可以通过基于编辑距离的算法衡量初始数据与预先设置的目标数据的相似度,并将相似度最高的数据片段作为修正匹配位置,并将相似度最高的数据片段对应第二数据范围内的第二数据片段作为标准数据。
其中,第二数据范围内的第二数据片段例如可以指的是以相似度最高的数据片段为中心,前后第二预设数量个字符形成的数据片段。
如图5所示,在一些可选的实施例中,步骤2086包括:
步骤20862、采用预设指标提取规则,从第二数据片段中提取出指标信息;
步骤20864、对指标信息进行标准化处理,得到标准数据。
预设指标提取规则是一组事先定义好的规则,用于从数据片段中提取出指标信息,这些规则可以基于领域知识或经验,也可以通过机器学习等方法自动学习得到。
作为示例,预设指标提取规则可以采用关键词匹配方法,终端根据关键词匹配的方式,提取第二数据片段中包含的指标信息。例如,对于财务报表数据形成的第二数据片段,可以预设关键词“总资产”、“净利润”、“负债总额”等,从中提取相应的指标信息。又或者,终端还可以基于机器学习的方式,自动学习提取指标信息的规则:例如,可以使用支持向量机(SVM)等算法,对第二数据片段进行分类和特征提取,从而得到相应的指标信息;以及终端可以基于深度学习的方式,自动学习提取指标信息的规则:例如,可以使用卷积神经网络(CNN)等算法,对第二数据片段进行特征提取和分类,从而得到相应的指标信息。
标准化处理是将数据转换为特定范围或形式的过程,以便更好地进行比较和分析。
如图6所示,在一些可选的实施例中,步骤20864之后,还包括:
步骤20866、获取标准数据对应的页面号;
步骤20868、当页面号符合预设合并规则时,将对应的标准数据进行合并处理。
本实施例中,终端能够预先为待处理数据进行页面编号,在终端采用目标初始匹配规则从待处理数据中提取出初始数据,又采用目标修正匹配规则从至少一处初始数据中提取出标准数据时,还可以同时获取标准数据对应的页面号。
预设合并规则例如可以是页面号的间隔不超过预设数值。
终端在获取到标准数据中包含的所有页面号后,判断这些页面号彼此之间的间隔是否超过预设数值,若是,则不进行处理,若否,则终端可以认为间隔不超过预设数值的页面号对应的标准数据之间存在关联性,则将间隔不超过预设数值的页面号对应的标准数据进行合并,标准数据最终能够存入表中合并后的标准数据能够存储在同一位置,以便后续调用和查看。
如图7所示,在一些可选的实施例中,待处理数据携带有身份标签;
数据处理方法还包括:
步骤702、接收调用指令;
步骤704、根据调用指令携带的目标身份标签,从待处理数据对应的身份标签中匹配到调用指令对应的目标待处理数据;
步骤706、调用包含有目标待处理数据的标准数据。
调用指令指的是对标准数据进行调用的指令。
身份标签可以为字母、字符或数字中的至少一种组成,身份标签可以用于唯一标识对应的待处理数据,本实施例的终端中预存有身份标签与多种待处理数据的对应映射关系。
当终端接收到调用指令时,可以根据调用指令对应的身份标签,首先匹配到调用指令对应的至少一组待处理数据作为目标待处理数据,随后,根据目标待处理数据,从以往存储的标准数据中,确定出包含有目标待处理数据的标准数据。在该步骤中,若调用指令对应多组待处理数据,则能够匹配到多组标准数据,在该种情况下,可以进一步根据多组标准数据中包含目标待处理数据的组数,确定调用指令对应的标准数据。
作为示例,终端可以将包含目标待处理数据的组数最多的标准数据作为调用指令对应的标准数据。
上述数据处理方法中,终端能够预先配置多种初始匹配规则和多种修正匹配规则,并在终端接收到提取指令时,直接进行目标初始匹配规则和目标修正匹配规则的调用,以此实现待处理数据的快速数据分析处理,并且,通过先采用目标初始匹配规则对待处理数据进行分析得到初始数据,再采用目标修正匹配规则对初始数据进行分析得到标准数据的方式,减少了数据分析难度,减少了数据筛选的工作量,加快了数据分析效率。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据处理方法的数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据处理装置实施例中的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种数据处理装置,包括:获取模块802、筛选模块804、初始匹配模块806和修正匹配模块808,其中:
获取模块802用于响应于提取指令,获取提取指令对应的至少一组待处理数据;
筛选模块804用于根据提取指令,从预先配置的至少一种初始匹配规则中筛选出待处理数据对应的目标初始匹配规则,从预先配置的至少一种修正匹配规则中筛选出待处理数据对应的目标修正匹配规则;
初始匹配模块806用于采用目标初始匹配规则对待处理数据进行初次匹配,得到初始数据;
修正匹配模块808用于采用目标修正匹配规则对初始数据进行再次匹配,得到标准数据。
在一些可选的实施例中,初始匹配规则对应第一数据范围;
初始匹配模块806还被配置为:
采用目标初始匹配规则对待处理数据进行初次匹配,确定出待处理数据中的初始匹配位置;
获取初始匹配位置对应第一数据范围内的第一数据片段;
根据第一数据片段确定初始数据。
在一些可选的实施例中,修正匹配规则对应第二数据范围;
修正匹配模块808还被配置为:
采用目标修正匹配规则对初始数据进行再次匹配,确定出初始数据中的修正匹配位置;
获取修正匹配位置对应第二数据范围内的第二数据片段;
根据第二数据片段确定标准数据。
在一些可选的实施例中,修正匹配模块808还被配置为:
采用预设指标提取规则,从第二数据片段中提取出指标信息;
对指标信息进行标准化处理,得到标准数据。
在一些可选的实施例中,修正匹配模块808还被配置为:
获取标准数据对应的页面号;
当页面号符合预设合并规则时,将对应的标准数据进行合并处理。
在一些可选的实施例中,待处理数据携带有身份标签;
修正匹配模块808还被配置为:
接收调用指令;
根据调用指令携带的目标身份标签,从待处理数据对应的身份标签中匹配到调用指令对应的目标待处理数据;
调用包含有目标待处理数据的标准数据。
上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例中所述的数据处理方法。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序产品被处理器执行时实现如上述任一实施例中所述的数据处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
响应于提取指令,获取所述提取指令对应的至少一组待处理数据;
根据所述提取指令,从预先配置的至少一种初始匹配规则中筛选出所述待处理数据对应的目标初始匹配规则,从预先配置的至少一种修正匹配规则中筛选出所述待处理数据对应的目标修正匹配规则;
采用所述目标初始匹配规则对所述待处理数据进行初次匹配,得到初始数据;
采用所述目标修正匹配规则对所述初始数据进行再次匹配,得到标准数据。
2.根据权利要求1所述的方法,其特征在于,所述初始匹配规则对应第一数据范围;
所述采用所述目标初始匹配规则对所述待处理数据进行初次匹配,得到初始数据,包括:
采用所述目标初始匹配规则对所述待处理数据进行初次匹配,确定出所述待处理数据中的初始匹配位置;
获取所述初始匹配位置对应第一数据范围内的第一数据片段;
根据所述第一数据片段确定所述初始数据。
3.根据权利要求1所述的方法,其特征在于,所述修正匹配规则对应第二数据范围;
所述采用所述目标修正匹配规则对所述初始数据进行再次匹配,得到标准数据,包括:
采用所述目标修正匹配规则对所述初始数据进行再次匹配,确定出所述初始数据中的修正匹配位置;
获取所述修正匹配位置对应第二数据范围内的第二数据片段;
根据所述第二数据片段确定所述标准数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二数据片段确定所述标准数据,包括:
采用预设指标提取规则,从所述第二数据片段中提取出指标信息;
对所述指标信息进行标准化处理,得到所述标准数据。
5.根据权利要求3所述的方法,其特征在于,在所述对所述指标信息进行标准化处理,得到所述标准数据之后,还包括:
获取所述标准数据对应的页面号;
当所述页面号符合预设合并规则时,将对应的标准数据进行合并处理。
6.根据权利要求1所述的方法,其特征在于,所述待处理数据携带有身份标签;
所述方法还包括:
接收调用指令;
根据所述调用指令携带的目标身份标签,从所述待处理数据对应的身份标签中匹配到所述调用指令对应的目标待处理数据;
调用包含有所述目标待处理数据的标准数据。
7.一种数据处理装置,其特征在于,包括:
获取模块,用于响应于提取指令,获取所述提取指令对应的至少一组待处理数据;
筛选模块,用于根据所述提取指令,从预先配置的至少一种初始匹配规则中筛选出所述待处理数据对应的目标初始匹配规则,从预先配置的至少一种修正匹配规则中筛选出所述待处理数据对应的目标修正匹配规则;
初始匹配模块,用于采用所述目标初始匹配规则对所述待处理数据进行初次匹配,得到初始数据;
修正匹配模块,用于采用所述目标修正匹配规则对所述初始数据进行再次匹配,得到标准数据。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的数据处理方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的数据处理方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311419140.8A CN117370817A (zh) | 2023-10-30 | 2023-10-30 | 数据处理方法、装置、设备、介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311419140.8A CN117370817A (zh) | 2023-10-30 | 2023-10-30 | 数据处理方法、装置、设备、介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117370817A true CN117370817A (zh) | 2024-01-09 |
Family
ID=89405603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311419140.8A Pending CN117370817A (zh) | 2023-10-30 | 2023-10-30 | 数据处理方法、装置、设备、介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117370817A (zh) |
-
2023
- 2023-10-30 CN CN202311419140.8A patent/CN117370817A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509569B (zh) | 企业画像的生成方法、装置、电子设备以及存储介质 | |
CN109284371B (zh) | 反欺诈方法、电子装置及计算机可读存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN109284372A (zh) | 用户操作行为分析方法、电子装置及计算机可读存储介质 | |
CN111950279B (zh) | 实体关系的处理方法、装置、设备及计算机可读存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN112801099B (zh) | 一种图像处理方法、装置、终端设备及介质 | |
CN115795000A (zh) | 基于联合相似度算法对比的围标识别方法和装置 | |
CN113711232A (zh) | 用于着墨应用的对象检测和分割 | |
CN110909768B (zh) | 一种标注数据获取方法及装置 | |
CN114282019A (zh) | 目标多媒体数据查找方法、装置、计算机设备、存储介质 | |
US11593740B1 (en) | Computing system for automated evaluation of process workflows | |
US11163761B2 (en) | Vector embedding models for relational tables with null or equivalent values | |
CN109960752B (zh) | 应用程序内的查询方法、装置、计算机设备和存储介质 | |
CN117251777A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN116524574A (zh) | 一种面部区域识别方法、装置及电子设备 | |
CN116187341A (zh) | 语义识别方法及其装置 | |
US11335108B2 (en) | System and method to recognise characters from an image | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN111767710B (zh) | 印尼语的情感分类方法、装置、设备及介质 | |
CN115116080A (zh) | 表格解析方法、装置、电子设备和存储介质 | |
CN117370817A (zh) | 数据处理方法、装置、设备、介质和程序产品 | |
US12051259B2 (en) | Method and system for processing subpoena documents | |
CN116244740B (zh) | 一种日志脱敏方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |