CN117312624B

CN117312624B - 一种获取目标数据列表的数据处理系统

Info

Publication number: CN117312624B
Application number: CN202311617663.3A
Authority: CN
Inventors: 靳雯; 王全修; 石江枫; 赵洲洋; 于伟; 贾星星
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-02-20
Anticipated expiration: 2043-11-30
Also published as: CN117312624A

Abstract

本发明涉及数据处理技术领域，提供了一种获取目标数据列表的数据处理系统，包括：初始字符串列表、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现如下步骤：根据初始字符串列表，获取第一字符串集；按照第一处理方法，同时对第一字符串集中所有的第一字符串列表中的第一字符进行处理，获取目标数据列表；可知本发明能够根据初始字符串列表，获取第一字符串列表，同时对第一字符串列表中的第一字符进行处理，获取目标数据，能够实现对字符串进行并行处理并且无需训练字符串解析模型，无论什么格式的字符串，都能够获取到目标数据，因此，本发明有利于提高获取目标数据的精准度，且能够避免资源浪费，提高系统的运行效率。

Description

一种获取目标数据列表的数据处理系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种获取目标数据列表的数据处理系统。

背景技术

对于一些用文字记录在纸张上的事件信息，纸张上的字迹随着时间的流逝会变的模糊不清甚至是消失，对纸张上记录的文字进行拍摄形成图片，能够永久保存信息，当用户需要对事件进行分析时，需要对图片中的字符进行提取获取能够呈现结构化数据的字符串，对能够呈现结构化数据的字符串进行处理，获取目标数据，对目标数据进行统计，根据统计出的数据进行分析，有利于用户直观全面的了解事件本身，现有技术中，对能够呈现结构化数据的字符串进行处理，获取目标数据的方法大多为，训练字符串解析模型，将字符串输入到解析模型中对字符串进行解析，进而获取目标数据。

但是上述方法也存在以下技术问题：

训练出的字符串解析模型受训练样本的影响，当字符串与受训练样本的格式相差较大时，获取目标数据时产生误差进而导致获取到的目标数据不够准确，若训练多个字符串解析模型，则容易造成资源浪费，降低系统的运行效率。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种获取目标数据列表的数据处理系统，包括：初始字符串列表、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现如下步骤：

S1、根据初始字符串列表，获取第一字符串集B={B₁，B₂，……，B_e，……，B_f}，B_e为B中第e个第一字符串列表，e=1，2，……，f，f为第一字符串列表数量，其中，第一字符串列表中包括若干个第一字符串，第一字符串中包括若干个第一字符，即B_e={B_e1，B_e2，……，B_ex，……，B_ep(e)}，B_ex={B¹ _ex，B² _ex，……，B^y _ex，……，B^q(ex) _ex}，B^y _ex为B_e中第x个第一字符串B_ex中的第y个第一字符，x=1，2，……，p(e)，p(e)为B_e中的第一字符串数量，y=1，2，……，q(ex)，q(ex)为B_ex中的第一字符数量。

S2、按照第一处理方法，同时对所有的B_e进行处理，获取目标数据列表，其中，目标数据列表中包括若干条目标数据，第一处理方法包括如下步骤获取目标数据：

S21、当y≥2、B^y _ex为第一关键字符、B^(y-1) _ex为第二关键字符以及B^(y+1) _ex为第三关键字符时，将B^y _ex替换为第四关键字符，以获取B_e对应的第四字符串列表H_e={H_e1，H_e2，……，H_ex，……，H_ep(e)}，H_ex={H¹ _ex，H² _ex，……，H^y _ex，……，H^q(ex) _ex}，H^y _ex为H_e中第x个第四字符串H_ex中的第y个第四字符。

S23、根据H^y _ex和第四关键字符，获取H_ex对应的关键数据列表R_ex={R¹ _ex，R² _ex，……，R^v _ex，……，R^w _ex}，R^v _ex为H_ex对应的第v条关键数据，v=1，2，……，w，w为关键数据数量，其中，v=1时，H_ex对应的第1条关键数据为H_ex中第1个第四关键字符之前的所有第四字符，当v≠1时，H_ex对应的第v条关键数据为H_ex中第v-1个第四关键字符与H_ex中第v个第四关键字符之间的所有第四字符。

S25、将R^v _ex作为目标数据。

本发明至少具有以下有益效果：

本发明提供了一种获取目标数据列表的数据处理系统，包括：初始字符串列表、处理器和存储有计算机程序的存储器，当计算机程序被所述处理器执行时，实现如下步骤：根据初始字符串列表，获取第一字符串集；按照第一处理方法，同时对第一字符串集中所有的第一字符串列表中的第一字符进行处理，获取目标数据列表；可知本发明能够根据初始字符串列表，获取第一字符串列表，同时对第一字符串列表中的第一字符进行处理，获取目标数据，能够实现对字符串进行并行处理并且无需训练字符串解析模型，无论什么格式的字符串，都能够获取到目标数据，因此，本发明有利于提高获取目标数据的精准度，且能够避免资源浪费，提高系统的运行效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种获取目标数据列表的数据处理系统执行计算机程序的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提供了一种获取目标数据列表的数据处理系统，包括：初始字符串列表、处理器和存储有计算机程序的存储器，当计算机程序被所述处理器执行时，实现如下步骤，如图1所示：

S1、根据初始字符串列表，获取第一字符串集B={B₁，B₂，……，B_e，……，B_f}，B_e为B中第e个第一字符串列表，e=1，2，……，f，f为第一字符串列表数量。

具体地，初始字符串列表包括若干个初始字符串。

具体地，初始字符串为能够呈现目标图片对应的目标结构化数据的字符串，例如初始字符串为：{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}，{"type"："问答结束时间"，"value"："2021年12月27日18时30分"，"strt"：39，"end"：56，"time：{"year"：2021，"month"：12，"day"：27，"hour"：18}}。

具体地，按照第二处理方法对目标图片进行处理能够获取目标图片对应的目标结构化数据。

进一步地，目标图片为具有大量的用于描述事件信息的文本的图片。

具体地，第二处理方法包括如下步骤获取目标图片对应的目标结构化数据：

S10、将目标图片输入到预设图片预处理模型中获取第一图片，其中，预设图片预处理模型为本领域技术人员预先训练好的模型，训练样本为若干个第一预设图片，输出样本为第一预设图片对应的候选图片，候选图片可以理解为将第一预设图片进行摆正后的图片，例如第一预设图片中的文字呈倾斜状态的图片，那么第一预设图片对应的候选图片为将第一预设图片摆正后使文字呈现水平状态的图片。

S20、将第一图片输入到预设标题识别模型中获取第一图片对应的标题文本，标题文本为第一图片中能够呈现标题的文本，预设标题识别模型为本领域技术人员预先训练好的模型，预设标题模型的训练样本为若干个具有文字的第二预设图片，输出结果为第二预设图片中的标题。

S30、对第一图片进行字符提取处理，获取第一图片对应的文本，第一图片对应的文本中包括若干个图片字符，图片字符为第一图片中的字符，其中，本领域技术人员知晓，现有技术中任一提取图片中的字符的方法，均属于本发明的保护范围，在此不再赘述。

S40、将第一图片对应的文本输入到关键词提取模型中，获取第一图片对应的文本对应的关键词列表，第一关键词列表中包括若干个关键词。

具体地，关键词中的字符类型可以为英文、中文、数字、字符中的一种类型或多种类型的组合，例如：18岁；张三、good；10点23分5秒；10：23：05；100。

S50、将第一图片对应的文本、标题文本和关键词列表输入到预设实体识别模型中，获取标题文本和关键词列表中的关键词对应的目标实体类型，预设实体识别为本领域技术人员预先训练好的实体识别模型，预设实体识别模型的训练样本为若干个预设文本、预设文本对应的预设标题文本、预设标题文本对应的若干个预设关键词，输出结果为预设标题文本和预设关键词对应的类型。

具体地，目标实体类型包括：姓名、年龄、时间、地址等。

S60、按照预设数据结构对标题文本、标题文本对应的目标实体类型、关键词、关键词对应的目标实体类型进行处理，获取目标图片对应的结构化数据，其中，预设数据结构为本领域技术人员根据实际需求预先设置好的数据结构。例如：结构化数据为{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}。

具体地，初始字符串为能够呈现目标图片对应的目标结构化数据的字符串也可以理解为：将目标图片对应的结构化数据作为初始字符串；例如：若目标图片对应的结构化数据为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}”；那么初始字符串也为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}”。

通过上述步骤对目标图片进行处理，获取目标图片对应的文本、标题文本和关键词，根据目标图片对应的文本、标题文本和关键词进行处理，获取标题文本和关键词对应的目标实体类型，进一步地，按照预设数据结构对标题文本、标题文本对应的目标实体类型、关键词、关键词对应的目标实体类型进行处理，获取目标图片对应的结构化数据，有利于提高获取结构化数据的精准度。

具体地，初始字符串列表A={A₁，A₂，……，A_i，……，A_m}，A_i为第i个初始字符串，i=1，2，……，m，m为初始字符串数量，S1包括如下步骤获取B_e：

S11、获取A对应的第一生成日期列表C={C₁，C₂，……，C_i，……，C_m}，C_i为A_i对应的生成日期，生成日期为生成初始字符串的日期。

具体地，生成初始字符串的日期存储在系统中，且格式为：yyyy-mm-dd，例如：2023-07-05。

S13、对C进行去重处理，以获取第二生成日期列表D={D₁，D₂，……，D_j，……，D_n}，D_j为第j个第二生成日期，j=1，2，……，n，n为第二生成日期数量，其中，本领域技术人员知晓，现有技术中任一去重的方法，均属于本发明的保护范围，在此不再赘述。

S15、根据C_i和D_j，获取B_e。

上述，获取初始字符串的第一生成日期，所有的第一生成日期进行去重处理，获取第二生成日期，将与第二生成日期相同的第一生成日期对应的初始字符串组合在一起，有利于精准的获取第一字符串列表，同时对所有的第一字符串列表中的第一字符进行处理，可以理解为对字符串进行并行处理，而非按照顺序依次对第一字符串进行处理或者训练若干个字符串解析模型，将第一字符串输入到相对应的字符串解析模型中进行处理，能够避免资源浪费，有利于提高系统的运行效率。

具体地，S15包括如下步骤：

S151、当C_i与D_j相同时，将A_i作为D_j对应的第二字符串列表E_j中的第二字符串，以获取E_j={E_j1，E_j2，……，E_jg，……，E_jh(j)}，E_jg为E_j中的第g个第二字符串，g=1，2，……，h(j)，h(j)为E_j中的第二字符串数量，其中，所述相同可以理解为一模一样，例如：C_i为2023-07-05，D_j也为2023-07-05。

S153、当h(j)≤h⁰时，将E_j作为B_e，h⁰为预设数量阈值，预设数量阈值为系统执行一个任务所能处理的最大数据条数。

S155、当h(j)＞h⁰时，根据h⁰、h(j)和E_jg，获取B_e。

上述，当第二字符串列表中的第二字符串的数量不大于预设数量阈值时，说明系统执行一个任务能将第二字符串列表中的所有第二字符串处理完毕，因此，将第二字符串列表作为一个第一字符串列表，当第二字符串列表中的第二字符串的数量大于预设数量阈值时，说明系统执行一个任务不能够将第二字符串列表中的所有第二字符串处理完毕，此时需要将第二字符串列表中的第二字符串进行拆分，拆分成多个列表，可以理解为拆分为多个子任务，将拆分后的列表作为第一字符串列表，同时对第一字符串列表进行处理，而非按照顺序依次对第一字符串进行处理，能够避免资源浪费，有利于提高系统的运行效率。

具体地，S155包括如下步骤：

S1551、根据h(j)和h⁰，平均的对总时间段进行划分，以获取子时间段列表F={F₁，F₂，……，F_k，……，F_t}，F_k为第k个子时间段，k=1，2，……，t，t为子时间段数量，其中，包括如下子步骤获取t：

S10、当h(j)/h⁰≤2时，t=2；可以理解为F={F₁，F₂}，F₁的结束时间点为11：59：59，F₂的起始时间点为12：00：00。

S20、当h(j)/h⁰≤4且h(j)/h⁰＞2时，t=4；可以理解为F={F₁，F₂，F₃，F₄}，F₁的结束时间点为05：59：59，F₂的起始时间点为06：00：00，F2的结束时间点为11：59：59，F₃的起始时间点为12：00：00，F₃的结束时间点为17：59：59，F₄的起始时间点为18：00：00。

S30、当h(j)/h⁰＞4时，t=12；可以理解为F={F₁，F₂，F₃，F₄，F₅，F₆，F₇，F₈，F₉，F₁₀，F₁₁，F₁₂}，F₁的结束时间点为00：59：59，F₂的起始时间点为01：00：00，F₂的结束时间点为01：59：59，F₃的起始时间点为02：00：00，F₃的结束时间点为02：59：59，F₄的起始时间点为03：00：00，……，F12的起始时间点为23：00：00。

具体地，总时间段为0：00：00-23：59：59。

具体地，F₁的起始时间点为0：00：00，F_t的结束时间点为23：59：59。

具体地，F_k的结束时间点比F_k+1的起始时间点早一秒，可以理解为：假如F_k的结束时间点为11：59：59，那么F_k+1的起始时间点为12：00：00。

具体地，任意两个子时间段的时长相等。

S1552、获取E_jg的生成时间点G_jg，生成时间点为生成第二字符串的时间点。

具体地，生成第二字符串的时间点存储在系统中。

S1553、当G_jg不小于F_k的起始时间点且G_jg不大于F_k的结束时间点时，将E_jg作为F_k对应的第三字符串列表F⁰ _k中的第三字符串，并将F⁰ _k作为B_e。例如：当t=12，k=2，F_k的起始时间点为1：00：00，F_k的结束时间点为1：59：59时，若G_jg为1：05：39或G_jg为1：00：00或G_jg为1：59：59，那么将G_ig对应的第二字符串E_jg作为F_k对应的第三字符串列表F⁰ _k中的一个第三字符串。

上述，当第二字符串列表中的第二字符串的数量大于预设数量阈值时，获取第二字符串列表中的第二字符串的数量与预设数量阈值的比值，根据比值和总时间段，获取子时间段列表，把第二字符串对应的生成时间点属于子时间段的第二字符串作为子时间段对应的第三字符串，以获取第三字符串列表，将第三字符串列表作为第一字符串列表，同时对第一字符串列表进行处理，而非按照顺序依次对第一字符串进行处理，能够避免资源浪费，有利于提高系统的运行效率。

S2、按照第一处理方法，同时对所有的B_e进行处理，获取目标数据列表，其中，目标数据列表中包括若干条目标数据，本领域技术人员知晓，本领域技术人员可以根据实际需求使用json函数在目标数据中获取所需数据值，在此不再赘述。

具体地，第一字符串列表中包括若干个第一字符串，第一字符串中包括若干个第一字符，即B_e={B_e1，B_e2，……，B_ex，……，B_ep(e)}，B_ex={B¹ _ex，B² _ex，……，B^y _ex，……，B^q(ex) _ex}，B^y _ex为B_e中第x个第一字符串B_ex中的第y个第一字符，x=1，2，……，p(e)，p(e)为B_e中的第一字符串数量，y=1，2，……，q(ex)，q(ex)为B_ex中的第一字符数量，其中，S2中第一处理方法包括如下步骤获取目标数据：

具体地，第一关键字符为“，”；第二关键字符为“}”，第三关键字符为“{”，第四关键字符为不同于第一关键字符、第二关键字符以及第三关键字符的其它预设字符，其中，预设字符为本领域技术人员预先设置好的字符，在此不再赘述。

具体地，S23包括如下步骤：

S231、当v=1时，执行S232，若v＞1时，执行S234。

S232、当H^y _ex为H_ex中的第一个第四关键字符时，将H¹ _ex，H² _ex，……，H^y _ex按照顺序插入到初始值为NULL的列表中，以获取H_ex对应的第v个第一中间字符串，并将第v个第一中间字符串作为R^v _ex，执行S233；可以理解为：H_ex对应的第1个第一中间字符串为{H¹ _ex，H² _ex，……，H^y _ex}，R¹ _ex为{H¹ _ex，H² _ex，……，H^y _ex}；例如：H_ex为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；{"type"："问答结束时间"，"value"："2021年12月27日18时30分"，"strt"：39，"end"：56，"time：{"year"：2021，"month"：12，"day"：27，"hour"：18}}”，第四关键字符为“；”，那么H¹ _ex，H² _ex，……，H^y _ex为{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；，因此H_ex对应的第1个第一中间字符串为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；”，那么R¹ _ex也为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；”。

具体地，初始值为NULL的列表存储在数据库中。

S233、将H¹ _ex，H² _ex，……，H^y _ex从H_ex中删除，以获取H_ex对应的第v个第二中间字符串T^v _ex={T^v1 _ex，T^v2 _ex，……，T^vz _ex，……，T^vu(ex) _ex}，T^vz _ex为T^v _ex中的第z个第二中间字符，z=1，2，……，u(ex)，u(ex)为T^v _ex中的第二中间字符数量；可以理解为：H_ex对应的第1个第二中间字符串T^v _ex为{H^y+1 _ex，H^y+2 _ex，……，H^q(ex) _ex}；例如：H_ex为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；{"type"："问答结束时间"，"value"："2021年12月27日18时30分"，"strt"：39，"end"：56，"time：{"year"：2021，"month"：12，"day"：27，"hour"：18}}”，第四关键字符为“；”，那么H¹ _ex，H² _ex，……，H^y _ex为{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；，H^y+1 _ex，H^y+2 _ex，……，H^q(ex) _ex为{"type"："问答结束时间"，"value"："2021年12月27日18时30分"，"strt"：39，"end"：56，"time：{"year"：2021，"month"：12，"day"：27，"hour"：18}}，因此，H_ex对应的第1个第二中间字符串为“{"type"："问答结束时间"，"value"："2021年12月27日18时30分"，"strt"：39，"end"：56，"time：{"year"：2021，"month"：12，"day"：27，"hour"：18}}”。

S234、当T^(v-1)z _ex为T^(v-1) _ex中的第一个第四关键字符时，将T^(v-1)1ex，T^(v-1)2 _ex，……，T^(v-1)z _ex按照顺序插入到初始值为NULL的列表中，以获取H_ex对应的第v个第一中间字符串，并将第v个第一中间字符串作为R^v _ex，执行S235，其中，T^(v-1) _ex为H_ex对应的第v-1个第二中间字符串，T^(v-1)z _ex为T^(v-1) _ex中的第z个第二中间字符串。例如：T^(v-1) _ex为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；{"type"："问答结束时间"，"value"："2021年12月27日18时30分"，"strt"：39，"end"：56，"time：{"year"：2021，"month"：12，"day"：27，"hour"：18}}”，第四关键字符为“；”，那么T^(v-1)1ex，T^(v-1)2 _ex，……，T^(v-1)z _ex为{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；，因此，H_ex对应的第v个第一中间字符串为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；”，那么R^v _ex也为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；”。

S235、将T^(v-1)1 _ex，T^(v-1)2 _ex，……，T^(v-1)z _ex从T^(v-1) _ex中删除，以获取T^v _ex。例如：T^(v-1) _ex为“{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；{"type"："问答结束时间"，"value"："2021年12月27日18时30分"，"strt"：39，"end"：56，"time：{"year"：2021，"month"：12，"day"：27，"hour"：18}}”，第四关键字符为“；”，那么T^(v-1)1ex，T^(v-1)2 _ex，……，T^(v ^-1)z _ex为{"type"："问答开始时间"，"value"："2021年12月27日16时22分"，"start"：21，"end"：38，”time”：{"year"：2021，"month"：12，"day"：27，"hour"：16}}；，因此，T^v _ex为“{"type"："问答结束时间"，"value"："2021年12月27日18时30分"，"strt"：39，"end"：56，"time：{"year"：2021，"month"：12，"day"：27，"hour"：18}}”。

具体地，当v=w时，T^W _ex为NULL。

上述，将第四字符串中的第一个第四关键字符之前的能够呈现的结构化数据的所有字符作为第四字符串对应的第一个第一中间字符串，将第四字符串中的第一个第四关键字符之后的能够呈现的结构化数据的所有字符作为第四字符串对应的第一个第二中间字符串，然后将第一个第二中间字符串中第一个第四关键字符之前的能够呈现的结构化数据的所有字符作为第四字符串对应的第二个第一中间字符串，将第一个第二中间字符串中的第一个第四关键字符之后的能够呈现的结构化数据的所有字符作为第四字符串对应的第二个第二中间字符串，依次类推，直到第二中间字符串为NULL时，停止获取第一中间字符串，将所有的第一中间字符串作为关键数据，并将所有的关键数据作为关键数据作为目标数据，无需训练字符串解析模型，无论什么格式的字符串，都能够获取到目标数据，有利于提高获取目标数据的精准度。

S25、将R^v _ex作为目标数据。

上述，对第一字符串进行处理，将第一字符串中符合条件的第一关键字符，替换为第四关键字符，以获取第四字符串列表，对第四字符串列表中的字符进行对比，获取关键数据，并将关键数据作为目标数据，无需训练字符串解析模型，无论什么格式的字符串，都能够获取到目标数据，有利于提高获取目标数据的精准度。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种获取目标数据列表的数据处理系统，其特征在于，所述系统包括：初始字符串列表、处理器和存储有计算机程序的存储器，当计算机程序被所述处理器执行时，实现如下步骤：

S1、根据初始字符串列表，获取第一字符串集B={B₁，B₂，……，B_e，……，B_f}，B_e为B中第e个第一字符串列表，e=1，2，……，f，f为第一字符串列表数量，其中，第一字符串列表中包括若干个第一字符串，第一字符串中包括若干个第一字符，即B_e={B_e1，B_e2，……，B_ex，……，B_ep(e)}，B_ex={B¹ _ex，B² _ex，……，B^y _ex，……，B^q(ex) _ex}，B^y _ex为B_e中第x个第一字符串B_ex中的第y个第一字符，x=1，2，……，p(e)，p(e)为B_e中的第一字符串数量，y=1，2，……，q(ex)，q(ex)为B_ex中的第一字符数量；

S2、按照第一处理方法，同时对所有的B_e进行处理，获取目标数据列表，其中，目标数据列表中包括若干条目标数据，所述第一处理方法包括如下步骤获取目标数据：

S21、当y≥2、B^y _ex为第一关键字符、B^(y-1) _ex为第二关键字符以及B^(y+1) _ex为第三关键字符时，将B^y _ex替换为第四关键字符，以获取B_e对应的第四字符串列表H_e={H_e1，H_e2，……，H_ex，……，H_ep(e)}，H_ex={H¹ _ex，H² _ex，……，H^y _ex，……，H^q(ex) _ex}，H^y _ex为H_e中第x个第四字符串H_ex中的第y个第四字符；

S23、根据H^y _ex和第四关键字符，获取H_ex对应的关键数据列表R_ex={R¹ _ex，R² _ex，……，R^v _ex，……，R^w _ex}，R^v _ex为H_ex对应的第v条关键数据，v=1，2，……，w，w为关键数据数量，其中，v=1时，H_ex对应的第1条关键数据为H_ex中第1个第四关键字符之前的所有第四字符，当v≠1时，H_ex对应的第v条关键数据为H_ex中第v-1个第四关键字符与H_ex中第v个第四关键字符之间的所有第四字符；S23包括如下步骤：

S231、当v=1时，执行S232，若v＞1时，执行S234；

S232、当H^y _ex为H_ex中的第一个第四关键字符时，将H¹ _ex，H² _ex，……，H^y _ex按照顺序插入到初始值为NULL的列表中，以获取H_ex对应的第v个第一中间字符串，并将第v个第一中间字符串作为R^v _ex，执行S233；

S233、将H¹ _ex，H² _ex，……，H^y _ex从H_ex中删除，以获取H_ex对应的第v个第二中间字符串T^v _ex={T^v1 _ex，T^v2 _ex，……，T^vz _ex，……，T^vu(ex) _ex}，T^vz _ex为T^v _ex中的第z个第二中间字符，z=1，2，……，u(ex)，u(ex)为T^v _ex中的第二中间字符数量；

S234、当T^(v-1)z _ex为T^(v-1) _ex中的第一个第四关键字符时，将T^(v-1)1ex，T^(v-1)2 _ex，……，T^(v ^-1)z _ex按照顺序插入到初始值为NULL的列表中，以获取H_ex对应的第v个第一中间字符串，并将第v个第一中间字符串作为R^v _ex，执行S235，其中，T^(v-1) _ex为H_ex对应的第v-1个第二中间字符串，T^(v-1)z _ex为T^(v-1) _ex中的第z个第二中间字符串；

S235、将T^(v-1)1 _ex，T^(v-1)2 _ex，……，T^(v-1)z _ex从T^(v-1) _ex中删除，以获取T^v _ex；

S25、将R^v _ex作为目标数据。

2.根据权利要求1所述的获取目标数据列表的数据处理系统，其特征在于，初始字符串列表包括若干个初始字符串，即初始字符串列表A={A₁，A₂，……，A_i，……，A_m}，A_i为第i个初始字符串，i=1，2，……，m，m为初始字符串数量。

3.根据权利要求2所述的获取目标数据列表的数据处理系统，其特征在于，S1包括如下步骤获取B_e：

S11、获取A对应的第一生成日期列表C={C₁，C₂，……，C_i，……，C_m}，C_i为A_i对应的生成日期，生成日期为生成初始字符串的日期；

S13、对C进行去重处理，以获取第二生成日期列表D={D₁，D₂，……，D_j，……，D_n}，D_j为第j个第二生成日期，j=1，2，……，n，n为第二生成日期数量；

S15、根据C_i和D_j，获取B_e。

4.根据权利要求3所述的获取目标数据列表的数据处理系统，其特征在于，S15包括如下步骤：

S151、当C_i与D_j相同时，将A_i作为D_j对应的第二字符串列表E_j中的第二字符串，以获取E_j={E_j1，E_j2，……，E_jg，……，E_jh(j)}，E_jg为E_j中的第g个第二字符串，g=1，2，……，h(j)，h(j)为E_j中的第二字符串数量；

S153、当h(j)≤h⁰时，将E_j作为B_e，h⁰为预设数量阈值，预设数量阈值为系统执行一个任务所能处理的最大数据条数；

S155、当h(j)＞h⁰时，根据h⁰、h(j)和E_jg，获取B_e。

5.根据权利要求4所述的获取目标数据列表的数据处理系统，其特征在于，S155包括如下步骤：

S10、当h(j)/h⁰≤2时，t=2；

S20、当h(j)/h⁰≤4且h(j)/h⁰＞2时，t=4；

S30、当h(j)/h⁰＞4时，t=12；

S1552、获取E_jg的生成时间点G_jg，生成时间点为生成第二字符串的时间点；

S1553、当G_jg不小于F_k的起始时间点且G_jg不大于F_k的结束时间点时，将E_jg作为F_k对应的第三字符串列表F⁰ _k中的第三字符串，并将F⁰ _k作为B_e。

6.根据权利要求2所述的获取目标数据列表的数据处理系统，其特征在于，初始字符串为能够呈现目标图片对应的目标结构化数据的字符串。

7.根据权利要求6所述的获取目标数据列表的数据处理系统，其特征在于，目标图片为具有大量的用于描述事件信息的文本的图片。

8.根据权利要求5所述的获取目标数据列表的数据处理系统，其特征在于，总时间段为0：00：00-23：59：59。

9.根据权利要求1所述的获取目标数据列表的数据处理系统，其特征在于，第一关键字符为“，”；第二关键字符为“}”，第三关键字符为“{”，第四关键字符为不同于第一关键字符、第二关键字符以及第三关键字符的其它预设字符。