CN117312624B - 一种获取目标数据列表的数据处理系统 - Google Patents
一种获取目标数据列表的数据处理系统 Download PDFInfo
- Publication number
- CN117312624B CN117312624B CN202311617663.3A CN202311617663A CN117312624B CN 117312624 B CN117312624 B CN 117312624B CN 202311617663 A CN202311617663 A CN 202311617663A CN 117312624 B CN117312624 B CN 117312624B
- Authority
- CN
- China
- Prior art keywords
- list
- character
- string
- character string
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000003672 processing method Methods 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 abstract description 9
- 239000002699 waste material Substances 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,提供了一种获取目标数据列表的数据处理系统,包括:初始字符串列表、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现如下步骤:根据初始字符串列表,获取第一字符串集;按照第一处理方法,同时对第一字符串集中所有的第一字符串列表中的第一字符进行处理,获取目标数据列表;可知本发明能够根据初始字符串列表,获取第一字符串列表,同时对第一字符串列表中的第一字符进行处理,获取目标数据,能够实现对字符串进行并行处理并且无需训练字符串解析模型,无论什么格式的字符串,都能够获取到目标数据,因此,本发明有利于提高获取目标数据的精准度,且能够避免资源浪费,提高系统的运行效率。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种获取目标数据列表的数据处理系统。
背景技术
对于一些用文字记录在纸张上的事件信息,纸张上的字迹随着时间的流逝会变的模糊不清甚至是消失,对纸张上记录的文字进行拍摄形成图片,能够永久保存信息,当用户需要对事件进行分析时,需要对图片中的字符进行提取获取能够呈现结构化数据的字符串,对能够呈现结构化数据的字符串进行处理,获取目标数据,对目标数据进行统计,根据统计出的数据进行分析,有利于用户直观全面的了解事件本身,现有技术中,对能够呈现结构化数据的字符串进行处理,获取目标数据的方法大多为,训练字符串解析模型,将字符串输入到解析模型中对字符串进行解析,进而获取目标数据。
但是上述方法也存在以下技术问题:
训练出的字符串解析模型受训练样本的影响,当字符串与受训练样本的格式相差较大时,获取目标数据时产生误差进而导致获取到的目标数据不够准确,若训练多个字符串解析模型,则容易造成资源浪费,降低系统的运行效率。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种获取目标数据列表的数据处理系统,包括:初始字符串列表、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现如下步骤:
S1、根据初始字符串列表,获取第一字符串集B={B1,B2,……,Be,……,Bf},Be为B中第e个第一字符串列表,e=1,2,……,f,f为第一字符串列表数量,其中,第一字符串列表中包括若干个第一字符串,第一字符串中包括若干个第一字符,即Be={Be1,Be2,……,Bex,……,Bep(e)},Bex={B1 ex,B2 ex,……,By ex,……,Bq(ex) ex},By ex为Be中第x个第一字符串Bex中的第y个第一字符,x=1,2,……,p(e),p(e)为Be中的第一字符串数量,y=1,2,……,q(ex),q(ex)为Bex中的第一字符数量。
S2、按照第一处理方法,同时对所有的Be进行处理,获取目标数据列表,其中,目标数据列表中包括若干条目标数据,第一处理方法包括如下步骤获取目标数据:
S21、当y≥2、By ex为第一关键字符、B(y-1) ex为第二关键字符以及B(y+1) ex为第三关键字符时,将By ex替换为第四关键字符,以获取Be对应的第四字符串列表He={He1,He2,……,Hex,……,Hep(e)},Hex={H1 ex,H2 ex,……,Hy ex,……,Hq(ex) ex},Hy ex为He中第x个第四字符串Hex中的第y个第四字符。
S23、根据Hy ex和第四关键字符,获取Hex对应的关键数据列表Rex={R1 ex,R2 ex,……,Rv ex,……,Rw ex},Rv ex为Hex对应的第v条关键数据,v=1,2,……,w,w为关键数据数量,其中,v=1时,Hex对应的第1条关键数据为Hex中第1个第四关键字符之前的所有第四字符,当v≠1时,Hex对应的第v条关键数据为Hex中第v-1个第四关键字符与Hex中第v个第四关键字符之间的所有第四字符。
S25、将Rv ex作为目标数据。
本发明至少具有以下有益效果:
本发明提供了一种获取目标数据列表的数据处理系统,包括:初始字符串列表、处理器和存储有计算机程序的存储器,当计算机程序被所述处理器执行时,实现如下步骤:根据初始字符串列表,获取第一字符串集;按照第一处理方法,同时对第一字符串集中所有的第一字符串列表中的第一字符进行处理,获取目标数据列表;可知本发明能够根据初始字符串列表,获取第一字符串列表,同时对第一字符串列表中的第一字符进行处理,获取目标数据,能够实现对字符串进行并行处理并且无需训练字符串解析模型,无论什么格式的字符串,都能够获取到目标数据,因此,本发明有利于提高获取目标数据的精准度,且能够避免资源浪费,提高系统的运行效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种获取目标数据列表的数据处理系统执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对 本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供了一种获取目标数据列表的数据处理系统,包括:初始字符串列表、处理器和存储有计算机程序的存储器,当计算机程序被所述处理器执行时,实现如下步骤,如图1所示:
S1、根据初始字符串列表,获取第一字符串集B={B1,B2,……,Be,……,Bf},Be为B中第e个第一字符串列表,e=1,2,……,f,f为第一字符串列表数量。
具体地,初始字符串列表包括若干个初始字符串。
具体地,初始字符串为能够呈现目标图片对应的目标结构化数据的字符串,例如初始字符串为:{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}},{"type":"问答结束时间","value":"2021年12月27日18时30分","strt":39,"end":56,"time:{"year":2021,"month":12,"day":27,"hour":18}}。
具体地,按照第二处理方法对目标图片进行处理能够获取目标图片对应的目标结构化数据。
进一步地,目标图片为具有大量的用于描述事件信息的文本的图片。
具体地,第二处理方法包括如下步骤获取目标图片对应的目标结构化数据:
S10、将目标图片输入到预设图片预处理模型中获取第一图片,其中,预设图片预处理模型为本领域技术人员预先训练好的模型,训练样本为若干个第一预设图片,输出样本为第一预设图片对应的候选图片,候选图片可以理解为将第一预设图片进行摆正后的图片,例如第一预设图片中的文字呈倾斜状态的图片,那么第一预设图片对应的候选图片为将第一预设图片摆正后使文字呈现水平状态的图片。
S20、将第一图片输入到预设标题识别模型中获取第一图片对应的标题文本,标题文本为第一图片中能够呈现标题的文本,预设标题识别模型为本领域技术人员预先训练好的模型,预设标题模型的训练样本为若干个具有文字的第二预设图片,输出结果为第二预设图片中的标题。
S30、对第一图片进行字符提取处理,获取第一图片对应的文本,第一图片对应的文本中包括若干个图片字符,图片字符为第一图片中的字符,其中,本领域技术人员知晓,现有技术中任一提取图片中的字符的方法,均属于本发明的保护范围,在此不再赘述。
S40、将第一图片对应的文本输入到关键词提取模型中,获取第一图片对应的文本对应的关键词列表,第一关键词列表中包括若干个关键词。
具体地,关键词中的字符类型可以为英文、中文、数字、字符中的一种类型或多种类型的组合,例如:18岁;张三、good;10点23分5秒;10:23:05;100。
S50、将第一图片对应的文本、标题文本和关键词列表输入到预设实体识别模型中,获取标题文本和关键词列表中的关键词对应的目标实体类型,预设实体识别为本领域技术人员预先训练好的实体识别模型,预设实体识别模型的训练样本为若干个预设文本、预设文本对应的预设标题文本、预设标题文本对应的若干个预设关键词,输出结果为预设标题文本和预设关键词对应的类型。
具体地,目标实体类型包括:姓名、年龄、时间、地址等。
S60、按照预设数据结构对标题文本、标题文本对应的目标实体类型、关键词、关键词对应的目标实体类型进行处理,获取目标图片对应的结构化数据,其中,预设数据结构为本领域技术人员根据实际需求预先设置好的数据结构。例如:结构化数据为{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}}。
具体地,初始字符串为能够呈现目标图片对应的目标结构化数据的字符串也可以理解为:将目标图片对应的结构化数据作为初始字符串;例如:若目标图片对应的结构化数据为“{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}}”;那么初始字符串也为“{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}}”。
通过上述步骤对目标图片进行处理,获取目标图片对应的文本、标题文本和关键词,根据目标图片对应的文本、标题文本和关键词进行处理,获取标题文本和关键词对应的目标实体类型,进一步地,按照预设数据结构对标题文本、标题文本对应的目标实体类型、关键词、关键词对应的目标实体类型进行处理,获取目标图片对应的结构化数据,有利于提高获取结构化数据的精准度。
具体地,初始字符串列表A={A1,A2,……,Ai,……,Am},Ai为第i个初始字符串,i=1,2,……,m,m为初始字符串数量,S1包括如下步骤获取Be:
S11、获取A对应的第一生成日期列表C={C1,C2,……,Ci,……,Cm},Ci为Ai对应的生成日期,生成日期为生成初始字符串的日期。
具体地,生成初始字符串的日期存储在系统中,且格式为:yyyy-mm-dd,例如:2023-07-05。
S13、对C进行去重处理,以获取第二生成日期列表D={D1,D2,……,Dj,……,Dn},Dj为第j个第二生成日期,j=1,2,……,n,n为第二生成日期数量,其中,本领域技术人员知晓,现有技术中任一去重的方法,均属于本发明的保护范围,在此不再赘述。
S15、根据Ci和Dj,获取Be。
上述,获取初始字符串的第一生成日期,所有的第一生成日期进行去重处理,获取第二生成日期,将与第二生成日期相同的第一生成日期对应的初始字符串组合在一起,有利于精准的获取第一字符串列表,同时对所有的第一字符串列表中的第一字符进行处理,可以理解为对字符串进行并行处理,而非按照顺序依次对第一字符串进行处理或者训练若干个字符串解析模型,将第一字符串输入到相对应的字符串解析模型中进行处理,能够避免资源浪费,有利于提高系统的运行效率。
具体地,S15包括如下步骤:
S151、当Ci与Dj相同时,将Ai作为Dj对应的第二字符串列表Ej中的第二字符串,以获取Ej={Ej1,Ej2,……,Ejg,……,Ejh(j)},Ejg为Ej中的第g个第二字符串,g=1,2,……,h(j),h(j)为Ej中的第二字符串数量,其中,所述相同可以理解为一模一样,例如:Ci为2023-07-05,Dj也为2023-07-05。
S153、当h(j)≤h0时,将Ej作为Be,h0为预设数量阈值,预设数量阈值为系统执行一个任务所能处理的最大数据条数。
S155、当h(j)>h0时,根据h0、h(j)和Ejg,获取Be。
上述,当第二字符串列表中的第二字符串的数量不大于预设数量阈值时,说明系统执行一个任务能将第二字符串列表中的所有第二字符串处理完毕,因此,将第二字符串列表作为一个第一字符串列表,当第二字符串列表中的第二字符串的数量大于预设数量阈值时,说明系统执行一个任务不能够将第二字符串列表中的所有第二字符串处理完毕,此时需要将第二字符串列表中的第二字符串进行拆分,拆分成多个列表,可以理解为拆分为多个子任务,将拆分后的列表作为第一字符串列表,同时对第一字符串列表进行处理,而非按照顺序依次对第一字符串进行处理,能够避免资源浪费,有利于提高系统的运行效率。
具体地,S155包括如下步骤:
S1551、根据h(j)和h0,平均的对总时间段进行划分,以获取子时间段列表F={F1,F2,……,Fk,……,Ft},Fk为第k个子时间段,k=1,2,……,t,t为子时间段数量,其中,包括如下子步骤获取t:
S10、当h(j)/h0≤2时,t=2;可以理解为F={F1,F2},F1的结束时间点为11:59:59,F2的起始时间点为12:00:00。
S20、当h(j)/h0≤4且h(j)/h0>2时,t=4;可以理解为F={F1,F2,F3,F4},F1的结束时间点为05:59:59,F2的起始时间点为06:00:00,F2的结束时间点为11:59:59,F3的起始时间点为12:00:00,F3的结束时间点为17:59:59,F4的起始时间点为18:00:00。
S30、当h(j)/h0>4时,t=12;可以理解为F={F1,F2,F3,F4,F5,F6,F7,F8,F9,F10,F11,F12},F1的结束时间点为00:59:59,F2的起始时间点为01:00:00,F2的结束时间点为01:59:59,F3的起始时间点为02:00:00,F3的结束时间点为02:59:59,F4的起始时间点为03:00:00,……,F12的起始时间点为23:00:00。
具体地,总时间段为0:00:00-23:59:59。
具体地,F1的起始时间点为0:00:00,Ft的结束时间点为23:59:59。
具体地,Fk的结束时间点比Fk+1的起始时间点早一秒,可以理解为:假如Fk的结束时间点为11:59:59,那么Fk+1的起始时间点为12:00:00。
具体地,任意两个子时间段的时长相等。
S1552、获取Ejg的生成时间点Gjg,生成时间点为生成第二字符串的时间点。
具体地,生成第二字符串的时间点存储在系统中。
S1553、当Gjg不小于Fk的起始时间点且Gjg不大于Fk的结束时间点时,将Ejg作为Fk对应的第三字符串列表F0 k中的第三字符串,并将F0 k作为Be。例如:当t=12,k=2,Fk的起始时间点为1:00:00,Fk的结束时间点为1:59:59时,若Gjg为1:05:39或Gjg为1:00:00或Gjg为1:59:59,那么将Gig对应的第二字符串Ejg作为Fk对应的第三字符串列表F0 k中的一个第三字符串。
上述,当第二字符串列表中的第二字符串的数量大于预设数量阈值时,获取第二字符串列表中的第二字符串的数量与预设数量阈值的比值,根据比值和总时间段,获取子时间段列表,把第二字符串对应的生成时间点属于子时间段的第二字符串作为子时间段对应的第三字符串,以获取第三字符串列表,将第三字符串列表作为第一字符串列表,同时对第一字符串列表进行处理,而非按照顺序依次对第一字符串进行处理,能够避免资源浪费,有利于提高系统的运行效率。
S2、按照第一处理方法,同时对所有的Be进行处理,获取目标数据列表,其中,目标数据列表中包括若干条目标数据,本领域技术人员知晓,本领域技术人员可以根据实际需求使用json函数在目标数据中获取所需数据值,在此不再赘述。
具体地,第一字符串列表中包括若干个第一字符串,第一字符串中包括若干个第一字符,即Be={Be1,Be2,……,Bex,……,Bep(e)},Bex={B1 ex,B2 ex,……,By ex,……,Bq(ex) ex},By ex为Be中第x个第一字符串Bex中的第y个第一字符,x=1,2,……,p(e),p(e)为Be中的第一字符串数量,y=1,2,……,q(ex),q(ex)为Bex中的第一字符数量,其中,S2中第一处理方法包括如下步骤获取目标数据:
S21、当y≥2、By ex为第一关键字符、B(y-1) ex为第二关键字符以及B(y+1) ex为第三关键字符时,将By ex替换为第四关键字符,以获取Be对应的第四字符串列表He={He1,He2,……,Hex,……,Hep(e)},Hex={H1 ex,H2 ex,……,Hy ex,……,Hq(ex) ex},Hy ex为He中第x个第四字符串Hex中的第y个第四字符。
具体地,第一关键字符为“,”;第二关键字符为“}”,第三关键字符为“{”,第四关键字符为不同于第一关键字符、第二关键字符以及第三关键字符的其它预设字符,其中,预设字符为本领域技术人员预先设置好的字符,在此不再赘述。
S23、根据Hy ex和第四关键字符,获取Hex对应的关键数据列表Rex={R1 ex,R2 ex,……,Rv ex,……,Rw ex},Rv ex为Hex对应的第v条关键数据,v=1,2,……,w,w为关键数据数量,其中,v=1时,Hex对应的第1条关键数据为Hex中第1个第四关键字符之前的所有第四字符,当v≠1时,Hex对应的第v条关键数据为Hex中第v-1个第四关键字符与Hex中第v个第四关键字符之间的所有第四字符。
具体地,S23包括如下步骤:
S231、当v=1时,执行S232,若v>1时,执行S234。
S232、当Hy ex为Hex中的第一个第四关键字符时,将H1 ex,H2 ex,……,Hy ex按照顺序插入到初始值为NULL的列表中,以获取Hex对应的第v个第一中间字符串,并将第v个第一中间字符串作为Rv ex,执行S233;可以理解为:Hex对应的第1个第一中间字符串为{H1 ex,H2 ex,……,Hy ex},R1 ex为{H1 ex,H2 ex,……,Hy ex};例如:Hex为“{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};{"type":"问答结束时间","value":"2021年12月27日18时30分","strt":39,"end":56,"time:{"year":2021,"month":12,"day":27,"hour":18}}”,第四关键字符为“;”,那么H1 ex,H2 ex,……,Hy ex为{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};,因此Hex对应的第1个第一中间字符串为“{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};”,那么R1 ex也为“{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};”。
具体地,初始值为NULL的列表存储在数据库中。
S233、将H1 ex,H2 ex,……,Hy ex从Hex中删除,以获取Hex对应的第v个第二中间字符串Tv ex={Tv1 ex,Tv2 ex,……,Tvz ex,……,Tvu(ex) ex},Tvz ex为Tv ex中的第z个第二中间字符,z=1,2,……,u(ex),u(ex)为Tv ex中的第二中间字符数量;可以理解为:Hex对应的第1个第二中间字符串Tv ex为{Hy+1 ex,Hy+2 ex,……,Hq(ex) ex};例如:Hex为“{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};{"type":"问答结束时间","value":"2021年12月27日18时30分","strt":39,"end":56,"time:{"year":2021,"month":12,"day":27,"hour":18}}”,第四关键字符为“;”,那么H1 ex,H2 ex,……,Hy ex为{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};,Hy+1 ex,Hy+2 ex,……,Hq(ex) ex为{"type":"问答结束时间","value":"2021年12月27日18时30分","strt":39,"end":56,"time:{"year":2021,"month":12,"day":27,"hour":18}},因此,Hex对应的第1个第二中间字符串为“{"type":"问答结束时间","value":"2021年12月27日18时30分","strt":39,"end":56,"time:{"year":2021,"month":12,"day":27,"hour":18}}”。
S234、当T(v-1)z ex为T(v-1) ex中的第一个第四关键字符时,将T(v-1)1ex,T(v-1)2 ex,……,T(v-1)z ex按照顺序插入到初始值为NULL的列表中,以获取Hex对应的第v个第一中间字符串,并将第v个第一中间字符串作为Rv ex,执行S235,其中,T(v-1) ex为Hex对应的第v-1个第二中间字符串,T(v-1)z ex为T(v-1) ex中的第z个第二中间字符串。例如:T(v-1) ex为“{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};{"type":"问答结束时间","value":"2021年12月27日18时30分","strt":39,"end":56,"time:{"year":2021,"month":12,"day":27,"hour":18}}”,第四关键字符为“;”,那么T(v-1)1ex,T(v-1)2 ex,……,T(v-1)z ex为{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};,因此,Hex对应的第v个第一中间字符串为“{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};”,那么Rv ex也为“{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};”。
S235、将T(v-1)1 ex,T(v-1)2 ex,……,T(v-1)z ex从T(v-1) ex中删除,以获取Tv ex。例如:T(v-1) ex为“{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};{"type":"问答结束时间","value":"2021年12月27日18时30分","strt":39,"end":56,"time:{"year":2021,"month":12,"day":27,"hour":18}}”,第四关键字符为“;”,那么T(v-1)1ex,T(v-1)2 ex,……,T(v -1)z ex为{"type":"问答开始时间","value":"2021年12月27日16时22分","start":21,"end":38,”time”:{"year":2021,"month":12,"day":27,"hour":16}};,因此,Tv ex为“{"type":"问答结束时间","value":"2021年12月27日18时30分","strt":39,"end":56,"time:{"year":2021,"month":12,"day":27,"hour":18}}”。
具体地,当v=w时,TW ex为NULL。
上述,将第四字符串中的第一个第四关键字符之前的能够呈现的结构化数据的所有字符作为第四字符串对应的第一个第一中间字符串,将第四字符串中的第一个第四关键字符之后的能够呈现的结构化数据的所有字符作为第四字符串对应的第一个第二中间字符串,然后将第一个第二中间字符串中第一个第四关键字符之前的能够呈现的结构化数据的所有字符作为第四字符串对应的第二个第一中间字符串,将第一个第二中间字符串中的第一个第四关键字符之后的能够呈现的结构化数据的所有字符作为第四字符串对应的第二个第二中间字符串,依次类推,直到第二中间字符串为NULL时,停止获取第一中间字符串,将所有的第一中间字符串作为关键数据,并将所有的关键数据作为关键数据作为目标数据,无需训练字符串解析模型,无论什么格式的字符串,都能够获取到目标数据,有利于提高获取目标数据的精准度。
S25、将Rv ex作为目标数据。
上述,对第一字符串进行处理,将第一字符串中符合条件的第一关键字符,替换为第四关键字符,以获取第四字符串列表,对第四字符串列表中的字符进行对比,获取关键数据,并将关键数据作为目标数据,无需训练字符串解析模型,无论什么格式的字符串,都能够获取到目标数据,有利于提高获取目标数据的精准度。
本发明提供了一种获取目标数据列表的数据处理系统,包括:初始字符串列表、处理器和存储有计算机程序的存储器,当计算机程序被所述处理器执行时,实现如下步骤:根据初始字符串列表,获取第一字符串集;按照第一处理方法,同时对第一字符串集中所有的第一字符串列表中的第一字符进行处理,获取目标数据列表;可知本发明能够根据初始字符串列表,获取第一字符串列表,同时对第一字符串列表中的第一字符进行处理,获取目标数据,能够实现对字符串进行并行处理并且无需训练字符串解析模型,无论什么格式的字符串,都能够获取到目标数据,因此,本发明有利于提高获取目标数据的精准度,且能够避免资源浪费,提高系统的运行效率。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (9)
1.一种获取目标数据列表的数据处理系统,其特征在于,所述系统包括:初始字符串列表、处理器和存储有计算机程序的存储器,当计算机程序被所述处理器执行时,实现如下步骤:
S1、根据初始字符串列表,获取第一字符串集B={B1,B2,……,Be,……,Bf},Be为B中第e个第一字符串列表,e=1,2,……,f,f为第一字符串列表数量,其中,第一字符串列表中包括若干个第一字符串,第一字符串中包括若干个第一字符,即Be={Be1,Be2,……,Bex,……,Bep(e)},Bex={B1 ex,B2 ex,……,By ex,……,Bq(ex) ex},By ex为Be中第x个第一字符串Bex中的第y个第一字符,x=1,2,……,p(e),p(e)为Be中的第一字符串数量,y=1,2,……,q(ex),q(ex)为Bex中的第一字符数量;
S2、按照第一处理方法,同时对所有的Be进行处理,获取目标数据列表,其中,目标数据列表中包括若干条目标数据,所述第一处理方法包括如下步骤获取目标数据:
S21、当y≥2、By ex为第一关键字符、B(y-1) ex为第二关键字符以及B(y+1) ex为第三关键字符时,将By ex替换为第四关键字符,以获取Be对应的第四字符串列表He={He1,He2,……,Hex,……,Hep(e)},Hex={H1 ex,H2 ex,……,Hy ex,……,Hq(ex) ex},Hy ex为He中第x个第四字符串Hex中的第y个第四字符;
S23、根据Hy ex和第四关键字符,获取Hex对应的关键数据列表Rex={R1 ex,R2 ex,……,Rv ex,……,Rw ex},Rv ex为Hex对应的第v条关键数据,v=1,2,……,w,w为关键数据数量,其中,v=1时,Hex对应的第1条关键数据为Hex中第1个第四关键字符之前的所有第四字符,当v≠1时,Hex对应的第v条关键数据为Hex中第v-1个第四关键字符与Hex中第v个第四关键字符之间的所有第四字符;S23包括如下步骤:
S231、当v=1时,执行S232,若v>1时,执行S234;
S232、当Hy ex为Hex中的第一个第四关键字符时,将H1 ex,H2 ex,……,Hy ex按照顺序插入到初始值为NULL的列表中,以获取Hex对应的第v个第一中间字符串,并将第v个第一中间字符串作为Rv ex,执行S233;
S233、将H1 ex,H2 ex,……,Hy ex从Hex中删除,以获取Hex对应的第v个第二中间字符串Tv ex={Tv1 ex,Tv2 ex,……,Tvz ex,……,Tvu(ex) ex},Tvz ex为Tv ex中的第z个第二中间字符,z=1,2,……,u(ex),u(ex)为Tv ex中的第二中间字符数量;
S234、当T(v-1)z ex为T(v-1) ex中的第一个第四关键字符时,将T(v-1)1ex,T(v-1)2 ex,……,T(v -1)z ex按照顺序插入到初始值为NULL的列表中,以获取Hex对应的第v个第一中间字符串,并将第v个第一中间字符串作为Rv ex,执行S235,其中,T(v-1) ex为Hex对应的第v-1个第二中间字符串,T(v-1)z ex为T(v-1) ex中的第z个第二中间字符串;
S235、将T(v-1)1 ex,T(v-1)2 ex,……,T(v-1)z ex从T(v-1) ex中删除,以获取Tv ex;
S25、将Rv ex作为目标数据。
2.根据权利要求1所述的获取目标数据列表的数据处理系统,其特征在于,初始字符串列表包括若干个初始字符串,即初始字符串列表A={A1,A2,……,Ai,……,Am},Ai为第i个初始字符串,i=1,2,……,m,m为初始字符串数量。
3.根据权利要求2所述的获取目标数据列表的数据处理系统,其特征在于,S1包括如下步骤获取Be:
S11、获取A对应的第一生成日期列表C={C1,C2,……,Ci,……,Cm},Ci为Ai对应的生成日期,生成日期为生成初始字符串的日期;
S13、对C进行去重处理,以获取第二生成日期列表D={D1,D2,……,Dj,……,Dn},Dj为第j个第二生成日期,j=1,2,……,n,n为第二生成日期数量;
S15、根据Ci和Dj,获取Be。
4.根据权利要求3所述的获取目标数据列表的数据处理系统,其特征在于,S15包括如下步骤:
S151、当Ci与Dj相同时,将Ai作为Dj对应的第二字符串列表Ej中的第二字符串,以获取Ej={Ej1,Ej2,……,Ejg,……,Ejh(j)},Ejg为Ej中的第g个第二字符串,g=1,2,……,h(j),h(j)为Ej中的第二字符串数量;
S153、当h(j)≤h0时,将Ej作为Be,h0为预设数量阈值,预设数量阈值为系统执行一个任务所能处理的最大数据条数;
S155、当h(j)>h0时,根据h0、h(j)和Ejg,获取Be。
5.根据权利要求4所述的获取目标数据列表的数据处理系统,其特征在于,S155包括如下步骤:
S1551、根据h(j)和h0,平均的对总时间段进行划分,以获取子时间段列表F={F1,F2,……,Fk,……,Ft},Fk为第k个子时间段,k=1,2,……,t,t为子时间段数量,其中,包括如下子步骤获取t:
S10、当h(j)/h0≤2时,t=2;
S20、当h(j)/h0≤4且h(j)/h0>2时,t=4;
S30、当h(j)/h0>4时,t=12;
S1552、获取Ejg的生成时间点Gjg,生成时间点为生成第二字符串的时间点;
S1553、当Gjg不小于Fk的起始时间点且Gjg不大于Fk的结束时间点时,将Ejg作为Fk对应的第三字符串列表F0 k中的第三字符串,并将F0 k作为Be。
6.根据权利要求2所述的获取目标数据列表的数据处理系统,其特征在于,初始字符串为能够呈现目标图片对应的目标结构化数据的字符串。
7.根据权利要求6所述的获取目标数据列表的数据处理系统,其特征在于,目标图片为具有大量的用于描述事件信息的文本的图片。
8.根据权利要求5所述的获取目标数据列表的数据处理系统,其特征在于,总时间段为0:00:00-23:59:59。
9.根据权利要求1所述的获取目标数据列表的数据处理系统,其特征在于,第一关键字符为“,”;第二关键字符为“}”,第三关键字符为“{”,第四关键字符为不同于第一关键字符、第二关键字符以及第三关键字符的其它预设字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311617663.3A CN117312624B (zh) | 2023-11-30 | 2023-11-30 | 一种获取目标数据列表的数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311617663.3A CN117312624B (zh) | 2023-11-30 | 2023-11-30 | 一种获取目标数据列表的数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117312624A CN117312624A (zh) | 2023-12-29 |
CN117312624B true CN117312624B (zh) | 2024-02-20 |
Family
ID=89274173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311617663.3A Active CN117312624B (zh) | 2023-11-30 | 2023-11-30 | 一种获取目标数据列表的数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117312624B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6620207B1 (en) * | 1998-10-23 | 2003-09-16 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for processing chinese teletext |
CN108255836A (zh) * | 2016-12-28 | 2018-07-06 | 普天信息技术有限公司 | 一种字符串匹配方法及装置 |
CN114996280A (zh) * | 2022-08-01 | 2022-09-02 | 每日互动股份有限公司 | 一种数据表的字段信息纠正方法、装置、设备及介质 |
CN115129951A (zh) * | 2022-07-21 | 2022-09-30 | 中科雨辰科技有限公司 | 一种获取目标语句的数据处理系统 |
CN116226154A (zh) * | 2023-05-05 | 2023-06-06 | 北京睿企信息科技有限公司 | 一种集群数据库的升级系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4136316B2 (ja) * | 2001-01-24 | 2008-08-20 | 富士通株式会社 | 文字列認識装置 |
-
2023
- 2023-11-30 CN CN202311617663.3A patent/CN117312624B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6620207B1 (en) * | 1998-10-23 | 2003-09-16 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for processing chinese teletext |
CN108255836A (zh) * | 2016-12-28 | 2018-07-06 | 普天信息技术有限公司 | 一种字符串匹配方法及装置 |
CN115129951A (zh) * | 2022-07-21 | 2022-09-30 | 中科雨辰科技有限公司 | 一种获取目标语句的数据处理系统 |
CN114996280A (zh) * | 2022-08-01 | 2022-09-02 | 每日互动股份有限公司 | 一种数据表的字段信息纠正方法、装置、设备及介质 |
CN116226154A (zh) * | 2023-05-05 | 2023-06-06 | 北京睿企信息科技有限公司 | 一种集群数据库的升级系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117312624A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
US10515083B2 (en) | Event analysis apparatus, an event analysis system, an event analysis method, and an event analysis program | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
US9535946B2 (en) | System method, and computer readable media for identifying a user-initiated log file record in a log file | |
CN109508458B (zh) | 法律实体的识别方法及装置 | |
CN110569214A (zh) | 用于日志文件的索引构建方法、装置及电子设备 | |
CN108319711B (zh) | 数据库的事务一致性测试方法、装置、存储介质及设备 | |
CN111460131A (zh) | 公文摘要提取方法、装置、设备及计算机可读存储介质 | |
JP2016076003A (ja) | 命令履歴分析プログラム、命令履歴分析装置、および、命令履歴分析方法 | |
CN114169401A (zh) | 数据处理、预测模型训练方法和设备 | |
WO2019056781A1 (zh) | 同义词挖掘方法、装置、设备和计算机可读存储介质 | |
CN113157978B (zh) | 数据的标签建立方法和装置 | |
CN117312624B (zh) | 一种获取目标数据列表的数据处理系统 | |
CN112131877B (zh) | 一种海量数据下的实时中文文本分词方法 | |
US20230394236A1 (en) | Extracting content from freeform text samples into custom fields in a software application | |
CN111191430B (zh) | 自动建表方法、装置、计算机设备和存储介质 | |
CN113220821A (zh) | 一种针对试题检索的索引建立方法、装置及电子设备 | |
CN106372083A (zh) | 一种有争议性新闻线索自动发现的方法及系统 | |
CN111104422A (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN115438645A (zh) | 一种序列标注任务的文本数据增强方法及系统 | |
US20230214451A1 (en) | System and method for finding data enrichments for datasets | |
CN114676155A (zh) | 代码提示信息的确定方法、数据集的确定方法及电子设备 | |
CN113569552A (zh) | 日志模板提取方法、装置、电子设备及计算机存储介质 | |
CN109344254B (zh) | 一种地址信息分类方法及装置 | |
CN113628077A (zh) | 生成不重复考题的方法、终端及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |