CN116244312A

CN116244312A - 数据处理方法、装置、电子设备、介质和程序产品

Info

Publication number: CN116244312A
Application number: CN202310259576.9A
Authority: CN
Inventors: 何欣燃; 何伯磊; 徐伟; 陈坤斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-06-09

Abstract

本公开提供了一种数据处理方法、装置、电子设备、介质和程序产品，涉及数据处理领域，尤其涉及人工智能和信息整合等技术领域。具体实现方案为：获取多个报表信息，所述报表信息包括项目信息，所述项目信息包括项目名称和项目状态信息；按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，其中，所述第一数据集包括至少两个子数据集，每个子数据集中包括至少一条项目信息，在同一个子数据集中的不同项目信息所对应的项目名称相同，且在同一个子数据集中不同项目信息所对应的项目状态信息不同。本公开可以提高报表信息的展示效果。

Description

数据处理方法、装置、电子设备、介质和程序产品

技术领域

本公开涉及数据处理领域，尤其涉及人工智能和信息整合等技术领域。具体涉及一种数据处理方法、装置、电子设备、介质和程序产品。

背景技术

相关技术中，在许多场景下，通常需要通过报表进行工作汇报，例如，在许多企业、员工通常需要在特定时间点撰写工作周报，以便于及时向上级汇报当前的工作进展以及未来的工作计划，从而方便上级及时了解下级的工作情况。

发明内容

本公开提供了一种数据处理方法、装置、电子设备、介质和程序产品。

根据本公开的第一方面，提供了一种数据处理方法，包括：

获取多个报表信息，所述报表信息包括项目信息，所述项目信息包括项目名称和项目状态信息；

按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，其中，所述第一数据集包括至少两个子数据集，每个子数据集中包括至少一条项目信息，在同一个子数据集中的不同项目信息所对应的项目名称相同，且在同一个子数据集中不同项目信息所对应的项目状态信息不同。

根据本公开的第二方面，提供了一种数据处理装置，包括：

获取模块，用于获取多个报表信息，所述报表信息包括项目信息，所述项目信息包括项目名称和项目状态信息；

聚合模块，用于按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，其中，所述第一数据集包括至少两个子数据集，每个子数据集中包括至少一条项目信息，在同一个子数据集中的不同项目信息所对应的项目名称相同，且在同一个子数据集中不同项目信息所对应的项目状态信息不同。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面所述的方法。

本公开实施例中，通过将不同报表信息中同一个项目的项目信息聚合至同一个子数据集，如此，一个子数据集可以包括一个项目的全部项目状态信息，因此，相关人员在需要查看某一项目的项目信息时，仅需查看该项目对应的子数据集即可，而无需逐一查看不同的报表中与该项目相关的项目信息，从而有利于提高报表信息的展示效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种数据处理方法的流程图之一；

图2是本公开实施例提供的一种数据处理方法的流程图之二；

图3是本公开实施例提供的一种数据处理装置的结构示意图之一；

图4是本公开实施例中的聚合模块的结构示意图；

图5是本公开实施例提供的一种数据处理装置的结构示意图之二；

图6本公开实施例提供的用于实现数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

请参见图1，图1为本公开实施例提供的一种数据处理方法的流程示意图，所述数据处理方法包括以下步骤：

步骤S101、获取多个报表信息，所述报表信息包括项目信息，所述项目信息包括项目名称和项目状态信息。

步骤S102、按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，其中，所述第一数据集包括至少两个子数据集，每个子数据集中包括至少一条项目信息，在同一个子数据集中的不同项目信息所对应的项目名称相同，且在同一个子数据集中不同项目信息所对应的项目状态信息不同。

上述多个报表信息可以是目标群体中不同成员填写的报表信息，其中，所述目标群体可以是一个公司中的全体员工，或者，一个部门的全体员工等。具体地，上述报表信息可以是各种类型的工作报表信息，例如，可以是工作周报、工作月报等。下文以所述工作报表信息为工作周报为例，对本公开提供的数据处理方法作进一步的解释说明。

由于相关人员在填写工作周报时，通常会填写过去一周所完成的工作，同时，还可能制定下一周的工作计划。因此，上述报表信息中的项目状态信息可以包括过去一周所完成的项目的进度，以及，未来一周的工作计划。

上述报表信息可以是将相关人员填写的工作周报转换为计算机能够识别的特定格式的报表数据，例如，所述报表信息可以是工作周报的富文本json数据。如此，有利于后续计算机能够识别工作周报中的内容，进而实现后续的聚合过程。

由于一个目标群体中的成员可能同步执行多个项目，例如，目标群体中的一部分任意执行项目A，另一部分任意执行项目B，或者，其中一部分人员同步执行项目C和项目D。因此，上述多个报表信息中可能记录多个项目的项目信息。基于此，本公开实施例中，上述聚合过程可以是：按照项目名称从报表信息中抽取与某一项目相关的项目信息，并将同一项目名称的所有项目信息存放至同一个文件中，从而得到一个项目名称对应的子数据集。其中，所述子数据集可以是一份文件，例如，一个表格形式的文件，或者，一个word形式的文件等。

上述项目名称即相关人员参与工作的工作内容的名称。由于一个项目通常会被拆分为多个子部分，例如，当某一项目为：开发一款应用程序时，该项目可能被拆分为：“整体逻辑实现的框架搭建部分”、“前端页面开发部分”、“后端代码开发部分”和“测试部分”等多个子部分。而所述多个子部分中的不同子分部通常需要由一个项目组中的不同成员具体执行。因此，一个项目组中的不同成员的工作周报的项目信息中可能记录同一项目中不同子部分的进展情况。这样，相关技术中，相关人员需要获取该项目的进展情况时，通常需要收集该项目组中所有成员的工作周报，并逐一查看不同成员的工作周报，以获取关于该项目不同子部分的项目信息。这样，将导致查看项目进度的过程较为繁琐，且由于不同子部分的进度记录于不同的工作周报中，查看工作周报的用户可能存在信息遗漏的问题。

本公开的技术方案中，在数据处理过程中获取报表信息可以是指：在企业内部，相关部门收集员工的工作周报。该报表信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

该实施方式中，通过将不同报表信息中同一个项目的项目信息聚合至同一个子数据集，如此，一个子数据集可以包括一个项目的全部项目状态信息，因此，相关人员在需要查看某一项目的项目信息时，仅需查看该项目对应的子数据集即可，而无需逐一查看不同的报表中与该项目相关的项目信息，从而有利于提高报表信息的展示效果。

可选地，所述多个报表信息形成预设关系树中的多个节点的节点数据，且所述多个报表信息与所述多个节点一一对应，所述预设关系树用于表征目标群体的目标与关键成果(Objectives and Key Results，OKR)对齐关系，所述多个报表信息为所述目标群体中的成员的报表信息。

相关技术中，OKR是一些企业中在管理过程中常用的方法。具体地，相关决策者可能会制定一个目标(即OKR中的O)，例如，所述目标可以是完成某一份年度计划。为了实现该目标需要在未来一个年度内完成多个项目，所述多个项目即多个KR，每个项目视为一个KR。然后，将每一个KR转交至一个特定的负责人，由该负责人在目标群体中组织参与执行该KR的具体成员，其中，某一部分成员可能同时参与多个项目。

上述OKR对齐关系包括：目标O与每个项目KR之间的对应关系，以及，每个KR与执行该KR的成员之间的对应关系。例如，在所述预设关系树中，目标O可以作为第一层级的节点，所述多个KR可以作为所述目标O的子节点，每个KR中的成员可以作为该KR的子节点，从而形成所述预设关系树。可以理解的是，上述预设关系树的层级并不局限于3个层级，例如，每个KR也可以作为一个目标O，然后，进一步将该KR划分为多个子任务(每个子任务即下一层级的KR)，如此，逐层划分从而形成所述预设关系树，所述预设关系树中节点之间的层级关系即所述OKR对齐关系。

该实施方式中，由于所述多个报表信息形成预设关系树中的多个节点的节点数据，且所述多个报表信息与所述多个节点一一对应，所述预设关系树用于表征目标群体的目标与关键成果OKR对齐关系，这样，可以根据OKR对齐关系分别对每个上层节点所对应的下一层子节点的工作周报进行收集，从而可以确保能够收集到每个KR下所有执行人员的工作周报，从而避免工作周报收集过程中出现遗漏的问题。

可选地，所述按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，包括：

按照项目名称分别对所述预设关系树中的每个目标节点的下层节点对应的报表信息中的项目信息进行聚合，得到至少两个第一数据集，其中，所述至少两个第一数据集与所述预设关系树中的至少两个目标节点一一对应，所述目标节点为所述预设关系树中具有下层节点的节点。

具体地，所述目标节点即所述预设关系树中的上层节点。在所述预设关系树中，由于每个上层节点的成员通常需要查看其对应的下层节点的成员的工作周报，因此，上述多个报表信息可以是按照所述OKR对齐关系进行聚合得到的报表信息。例如，可以按照所述OKR对齐关系，分别对每个上层节点对应的一下层节点的工作周报进行聚合，并单独存储为一个第一数据集，如此，当所述预设关系树中包括至少两个上层节点时，将生成与所述至少两个上层节点一一对应的至少两个第一数据集，其中，所述至少两个第一数据集中的工作周报共同形成所述多个报表信息。所述上层节点是指所述预设关系树中具有下层节点的节点，所述下层节点即上层节点的子节点。例如，请参见图2，图2中的最左侧的矩形框中的节点关系视图可以是所述预设关系树中前两层的连接示意图，其中，目标0为被划分为N-1个KR(即P1至P(N-1))。此时，所述目标0为上层节点，所述P1至P(N-1)为目标O的下层节点。

该实施方式中，通过按照项目名称分别对所述预设关系树中的每个目标节点的下层节点对应的报表信息中的项目信息进行聚合，这样，可以将聚合结果发送至对应的上层节点，从而方便目标群体中的相关人员可以直观的了解其所负责的项目的整体状态，进而提高报表信息的展示效果。

在基于预先获取的项目列表，对所述多个报表信息进行匹配，且匹配到第一项目信息的情况下，将所述第一项目信息聚合至第一项目名称对应的第一子数据集，其中，所述项目列表包括多个项目名称，所述第一项目信息为所述多个报表信息中的任意一个报表信息中的项目信息，且所述第一项目信息包括所述多个项目名称中的所述第一项目名称，所述第一子数据集为所述至少两个子数据集中，与所述第一项目名称对应的子数据集。

具体地，上述项目列表可以是预先生成的项目列表，其中，所述项目列表可以包括过去某一个时间节点所述目标群体中所有未完成的项目名称，或者，所述项目列表可以包括为了实现上述目标O所需完成的所有项目的项目名称。例如，当所述多个报表信息为本周的报表信息时，所述项目列表可以包括上周未完成的项目的项目名称。

上述基于预先获取的项目列表，对所述多个报表信息进行匹配具体可以是指：分别逐一以所述项目列表中的每个项目名称作为查询条件，在每个报表信息中进行查询，以确保所述报表信息中是否存在所述项目列表中的项目名称。或者，所述基于预先获取的项目列表，对所述多个报表信息进行匹配具体也可以是指：将所述多个报表信息中的每个报表信息分别与所述项目列表中的每个项目名称进行匹配，以确定所述报表信息中所包含的项目名称。

此外，由于在同一个企业中，所有成员的工作周报通常是统一格式的文件，因此，可以预先在工作周报中设置用于填写项目名称的位置，这样，在将工作周报转换为计算机能够识别的json格式的数据之后，所述项目名称可以为json格式的数据特定字段的内容。因此，在进行匹配的过程中，可以直接获取项目名称所属字段的内容，并将所获取的内容与所述项目列表中的项目名称进行匹配，以确保所述项目信息是否包括所述项目列表中的项目名称。

可以理解的是，上述第一项目信息为所述多个报表信息中，包括所述项目列表中的项目名称的项目信息。由于基于所述项目列表，对所述多个报表信息进行匹配，可以确定所述第一项目信息的项目名称，因此，可以直接将所述第一项目信息聚合至第一项目名称对应的第一子数据集。所述第一子数据集可以存储所述多个报表信息中，所有具有所述第一项目名称的项目信息。

该实施方式中，通过基于所述项目列表，对所述多个报表信息进行匹配，如此，可以确定所述报表信息中的项目信息的项目名称，进而实现按照所述项目名称对所述项目信息进行聚合的过程。

可选地，所述按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，还包括：

在基于所述项目列表，对所述多个报表信息进行匹配，且匹配到第二项目信息的情况下，基于预先训练得到的目标模型对所述第二项目信息进行识别，得到第二项目名称，其中，所述第二项目信息为不包括所述项目列表中的任意一个项目名称的项目信息，所述目标模型用于识别所述第二项目信息中的项目名称；

将所述第二项目信息聚合至所述第二项目名称对应的第二子数据集，其中，所述第二项目信息为所述多个报表信息中的一个报表信息中的项目信息；所述第二子数据集为所述至少两个子数据集中，与所述第二项目名称对应的子数据集。

具体地，由于上述项目列表并不一定完全囊括所述多个报表信息中所有项目的项目名称，例如，目标群体中的某一些成员在处理当前项目的过程中，可能会被新插入一些其他新增的项目，此时，新增的项目的项目名称可能并未录入所述项目列表，从而导致基于所述项目列表无法确定新增项目的项目名称的问题。此外，在创建所述项目列表时可能由于遗漏了对某些项目的项目名称的收集，此时，也无法基于所述项目列表无法确定新增项目的项目名称的问题。

基于此，本公开实施例中，在基于所述项目列表无法确定某一项目信息的项目名称时，进一步基于目标模型对该项目信息的项目名称进行识别，以确定该项目信息的项目名称，进而实现对该项目信息的聚合。

上述第二项目信息即基于所述项目列表无法确定项目名称的项目信息，此时，可以将该第二项目信息输入所述目标模型进行识别，以便于基于所述目标模型识别所述第二项目信息中所包含的项目名称。相应地，基于目标模型识别得到的第二项目名称可以是所述项目列表中的项目名称之外的其他项目名称。

上述目标模型可以是预先训练得到的用于识别项目信息中的项目名称的模型。例如，目标模型可以是通过少量标注数据对面向多领域、多任务、跨模态的通用内容理解技术框架(Multi-task/Multi-modal Open-domain iNformation Extraction Technology，MONET)模型进行微调(fine-tune)之后得到的模型。

其中，任意一条标注数据可以包括：项目信息以及标签信息，所述标签信息用于标识出项目信息中的项目名称的位置和项目名称。这样，仅需通过少量标注数据对MONET模型进行训练，即可使得训练得到的目标模型能够学习如何在项目信息中准确的识别出项目名称的位置。这样，在基于所述项目列表无法确定某一项目信息的项目名称时，可以进一步基于目标模型对该项目信息的项目名称进行识别，以确定该项目信息的项目名称。

上述MONET模型由于采用统一建模的思想，因此，可以支持实体、关系、事件、KV、标签、情感等多种内容理解任务，并使得不同任务间具备良好的迁移和泛化能力。MONET模型支持不限定行业领域和抽取目标的关键信息抽取，可以实现零样本快速冷启动，同时具备优秀的小样本微调能力，低成本适配特定领域的抽取目标。

可以理解的是，对于能够基于所述项目列表确定项目名称的第一项目信息，则需要再通过目标模型对其项目名称进行识别。

该实施方式中，在基于所述项目列表无法确定某一项目信息的项目名称时，通过进一步基于目标模型对该项目信息的项目名称进行识别，以确定该项目信息的项目名称，这样，可以在所述项目列表中所包含的项目名称不够全面的情况下，也能够准确的识别所有项目信息的项目名称，从而实现对各个项目信息的聚合过程。

可选地，所述多个报表信息为目标群体中的成员在第一时间周期内的报表信息，所述按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集之前，所述方法包括：

获取所述目标群体中的成员在第二时间周期内的多个历史报表信息，其中，所述第二时间周期为所述第一时间周期之前的时间周期；

基于预先训练得到的目标模型对所述多个历史报表信息进行识别，得到识别结果，所述识别结果包括多个历史项目名称，其中，所述目标模型用于识别所述历史报表信息中的项目名称；

基于所述多个历史项目名称生成所述项目列表，其中，所述项目列表包括所述多个历史项目名称中的至少两个历史项目名称。

其中，上述第一时间周期的周期长度与所述第二时间周期的周期长度可以相同，也可以不同。例如，所述第一时间周期可以是指当前周，所述第二时间周期可以是上周。或者，所述第一时间周期可以是指当前月，所第二时间周期可以是上一个月。或者，上述第一时间周期可以是指当前周，所第二时间周期可以是当前周之前的一个月等。

上述目标模型可以是上述实施例中，对MONET模型进行微调之后得到的模型。

可以理解的是，并非在每次报表信息进行处理之前均需要生成所述项目列表，例如，在生成所述项目列表之后，在后续的多个连续的第一时间周期内，均可以基于该项目列表对项目信息中的项目名称进行识别。此外，由于所述目标群体中所处理的项目可能会不断的更新，因此，也可以定期对所述项目列表进行更新，例如，可以每隔第二时间周期获取当前时间点之前预设时间段内的历史项目名称，并基于所获取的历史项目名称对所述项目列表进行更新，如此，有利于根据实际情况对项目列表中的项目不断的更新，从而提高后续基于项目列表匹配项目名称的效果。

该实施方式中，通过基于所述多个历史项目名称生成所述项目列表，如此，可以实现所述项目列表的生成过程。

可选地，所述识别结果还包括每个历史项目名称在所述多个历史报表信息中出现的频次，所述基于所述多个历史项目名称生成所述项目列表，包括：

将所述多个历史项目名称中，所述频次大于预设频次的历史项目名称作为所述项目列表中的项目名称，得到所述项目列表。

具体地，在基于所述目标模型对所述多个历史报表信息进行识别的过程中，可以统计每个历史项目名称在所述多个历史报表信息出现的频次，这样，并可以按照频次构建一个初始项目列表，其中，所述初始项目列表可以包括所述多个历史报表信息中出现的所有历史项目名称，且可以按照历史项目名称出现的频次由高至低的顺序在初始项目列表中对历史项目名称进行排序。

由于在多个历史报表信息中既可能存在一些临时性的项目或者短期项目，同时，还可能存在一些持续性的项目或者长期项目。由于临时性的项目或者短期项目的项目名称由于需要处理的时间周期短，因此，在历史报表信息中所出现的频次可能也较低，同时，在后续的时间周期内出现的概率也较低。相应地，持续性的项目或者长期项目由于需要处理的时间周期长，因此，在历史报表信息中所出现的频次可能也较高，且在后续的时间周期内出现的概率也较高。因此，为了减少匹配过程中所需耗费的计算机资源、以及节省所需耗费的时间，可以将所述初始项目列表中出现频次较低的历史项目名称予以删除，从而减少后续匹配过程中的匹配次数。

其中，上述预设频次可以是一个较低的频次值，例如，可以为1次、2次等。

此外，由于目标模型在对历史项目名称进行识别的过程中，可能存在识别错误的问题，例如，将历史项目信息中的非项目名称误识别为项目名称，并将所识别到的非项目名称存储于所述初始项目列表中，因此，除了可以基于所述预设频次对所述初始项目列表进行过滤之外，还可以通过人工筛查所述初始项目列表中的历史项目名称，以得到所述项目列表。

该实施方式中，通过将所述多个历史项目名称中，所述频次大于预设频次的历史项目名称作为所述项目列表中的项目名称，得到所述项目列表，如此，可以减少匹配过程中所需耗费的计算机资源、以及节省所需耗费的时间。

对所述多个报表信息中的目标报表信息进行分割，得到第二数据集，其中，所述目标报表信息为包括至少两个项目信息的报表信息，所述第二数据集包括：对所述目标报表信息进行分割之后的数据块，以及，所述多个报表信息中除所述目标报表信息之外的其他报表信息，每个数据块包括一个报表信息；

按照项目名称对所述第二数据集中的项目信息进行聚合，得到所述第一数据集。

其中，由于上述目标群体中的某些成员可以在所述第一时间周期内同时完成了至少两个项目的相关工作，相应地，在此类成员的表报信息中可能记录了两个一项的项目信息。因此，在对所述报表信息进行聚合之前，可以先对所述报表信息进行分割，以确保分割之后的报表信息(即上述数据块)中仅包括一个项目信息。

具体地，由于在同一个企业中，所有成员的工作周报通常是统一格式的文件，因此，可以预先在工作周报中设置用于区分不同项目信息的标识符。例如，所述标识符可以是对项目名称的加粗或者添加下划线的标识。此外，上述工作周报中可以预先设置多个区域，且预先告知相关成员需要将不同的项目信息填写于不同的区域内，如此，后续可以根据所述工作周报中的区域对工作周报进行分割，以得到所述多个数据块。

该实施方式中，通过对所述多个报表信息中的目标报表信息进行分割，得到第二数据集，这样，可以确保第二数据集中的每个数据块和报表信息仅包括一个项目信息，从而便于后续针对第二数据集中的每个数据块和报表信息的项目名称进行识别。

可选地，所述按照项目名称对所述第二数据集中的项目信息进行聚合，得到所述第一数据集，包括：

对所述第二数据集中的项目信息进行去重处理，得到第三数据集，其中，所述去重处理用于去除所述第二数据集中相同的项目信息；

按照项目名称对所述第三数据集中的项目信息进行聚合，得到所述第一数据集。

其中，由于在所述目标群体中，可能存在多个成员同时完成同一个项目的问题，此时，该多个成员所填写的报表信息可能完全相同。因此，为了避免所生成的第一数据集中出现重复的项目信息，可以在对所述第二数据集中的项目信息进行聚合之前，对所述第二数据集中的项目信息进行去重处理。其中，去重处理的手段可以采用相关技术中场景的去重处理手段。

此外，在本公开另一个实施例中，所述多个报表信息形成预设关系树中的多个节点的节点数据，且所述多个报表信息与所述多个节点一一对应，所述预设关系树用于表征目标群体的目标与关键成果OKR对齐关系，所述多个报表信息为所述目标群体中的成员的报表信息。此时，所述对所述第二数据集中的项目信息进行去重处理可以是指：对所述预设关系树中的每个目标节点的下层节点对应的报表信息中的项目信息进行去重处理，当某一个下层节点从属于多个上层节点时，可以确保该写成节点的项目信息可以同时聚合至不同上层节点对应的第一数据集内。

该实施方式中，通过对所述第二数据集中的项目信息进行去重处理，这样，可以避免所生成的第一数据集中出现重复的项目信息，进而提高报表信息的展示效果。

可选地，所述多个报表信息为目标群体中的成员在第一时间周期内的报表信息，所述按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集之后，所述方法还包括：

在对所述第一数据集中所包含的项目数量进行识别，且所述第一数据集中所包含的项目数量少于预设项目数量的情况下，输出第一预警信息，其中，所述预设项目数量为：所述第一时间周期的上一个时间周期内所述目标群体未完成的项目数量；

在对所述第一数据集中所包含项目信息的所述项目状态信息进行识别，且识别到第一目标项目信息的情况下，输出第二预警信息，其中，所述项目状态信息包括项目的进度信息，所述第一目标项目信息中的进度信息与所述第一目标项目信息所对应的项目的预期进度不匹配；

在对所述第一数据集中所包含项目信息的标识信息进行识别，且识别到第二目标项目信息的情况下，输出第三预警信息，其中，所述第二目标项目信息为具有风险标识的项目信息。

上述预设项目数量可以是指所述第一时间周期的上一个时间周期内未完成的项目数量。在按照所述数据处理方法对每一个时间周期内的报表信息进行处理的过程中，可以自动统计当前时间周期内未完成的项目数量，即每一个时间周期内的未完成的项目数量可以作为下一个时间周期的预设项目数量。

在本公开另一个实施例中，所述多个报表信息形成预设关系树中的多个节点的节点数据，且所述多个报表信息与所述多个节点一一对应，所述预设关系树用于表征目标群体的目标与关键成果OKR对齐关系，所述多个报表信息为所述目标群体中的成员的报表信息。此时，所述预设项目数量可以包括至少两个子数量，所述至少两个子数量与上述至少两个目标节点一一对应，所述子数量为所对应的所述目标节点在上一个时间周期内未完成的项目数量。相应地，所述第一数据集中所包含的项目数量可以包括至少两个子项目数量，且所述至少两个子项目数量与所述至少两个目标节点一一对应，且所述子项目数量为所对应的所述目标节点的下层节点在第一时间周期内执行的项目数量。

如此，通过在第一数据集中所包含的项目数量少于预设项目数量的情况下，输出第一预警信息，从而可以提醒相关人员，某些项目可能未被推进的问题。

上述预期进度可以是上一个时间周期内相关成员在报表信息中填写的计划信息，该预期进度可以直接从历史报表信息中直接获取，如此，通过在某一个第一目标项目信息中的进度信息与所述第一目标项目信息所对应的项目的预期进度不匹配，输出第二预警信息，从而可以提醒相关人员该项目可能存在延期风险。

此外，相关成员在填写所述报表信息时，可以在报表信息中通过特定风险标识，标识出某些项目可能存在风险，其中，所述风险可能是延期风险或者项目质量不合格风险等。如此，当识别到第二目标项目信息包括风险标识时，可以输出第三预警信息，以便于相关人员可以及时了解可能存在的潜在风险。

可以理解的是，上述第一预警信息、第二预警信息和第二预警信息可以在将整理后的第一数据集发送至对应目标节点的成员的同时，与第一数据集同步发送至对应的目标节点的成员。

该实施方式中，通过预先设置预警规则，并在对报表信息进行处理的过程中，对报表信息中的特定内容进行识别，并在满足预警条件的情况下输出预警信息，从而可以辅助相关人员对项目的管理。

请参见图2，为本公开一个具体实施例中的数据处理方法的流程示意图，在本实施例中，在所述预设关系树中，上述目标群体的目标形成节点O，与所述目标O对应的N-1个KR形成节点P1至节点P(N-1)共N-1个中间节点，所述节点P1至节点P(N-1)可以分别包括下层节点。所述数据处理方法具体包括以下步骤：

首先可以按照OKR对齐关系收集目标群体中所有成员的报表信息，得到如图2中最左边的矩形框中的表格内容，其中，该表格内容中周报内容可以是报表信息的原文内容。然后，通过图2中的中间的矩形框中的流程生成N-1个第一数据集，所述N-1个第一数据集与所述N-1个中间节点节点一一对应，所述中间节点还包括下层节点，所述第一数据集为基于所对应的中间节点的下层节点的报表信息生成的第一数据集。在生成所述N-1个第一数据集的过程中，系统可以从所上述表格内容中拉取数据，同时可以调用预先配置好的生成策略，以生成所述第一数据集。其中，所述生成策略可以为基于上述实施例中的数据处理方法配置的策略，即所述生成策略用于执行上述实施例中的数据处理方法的步骤。如图2所示的中间位置的矩形框中输入P,date中的P表示与所需生成的第一数据集对应的目标节点的节点标识，所述date为所需获取的报表信息所述的时间周期内。在生成所述N-1个第一数据集(即图中的N-1个结果)之后，可以将N-1个第一数据集存储于知识库中，以便于后续将所生成的第一数据集发送至对应目标节点的成员。

具体地，在具体实现过程中，可以搭建一个如图2所示的数据处理系统，在需要实现上述数据处理方法的过程时，仅需向系统输入如下内容，即可得到多个输出：

输入：{下属员工KR粒度的周报原始文本，

下属员工KR粒度的周报的富文本json}

输出：[

"项目名1":{"项目内容"}，

"项目名2":{"项目内容"}，

"项目名3":{"项目内容"}，

……]

请参见图3，图3为本公开实施例提供的一种数据处理装置300的结构示意图，所述数据处理装置300，包括：

获取模块301，用于获取多个报表信息，所述报表信息包括项目信息，所述项目信息包括项目名称和项目状态信息；

聚合模块302，用于按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，其中，所述第一数据集包括至少两个子数据集，每个子数据集中包括至少一条项目信息，在同一个子数据集中的不同项目信息所对应的项目名称相同，且在同一个子数据集中不同项目信息所对应的项目状态信息不同。

可选地，所述多个报表信息形成预设关系树中的多个节点的节点数据，且所述多个报表信息与所述多个节点一一对应，所述预设关系树用于表征目标群体的目标与关键成果OKR对齐关系，所述多个报表信息为所述目标群体中的成员的报表信息。

可选地，所述聚合模块302，具体用于按照项目名称分别对所述预设关系树中的每个目标节点的下层节点对应的报表信息中的项目信息进行聚合，得到至少两个第一数据集，其中，所述至少两个第一数据集与所述预设关系树中的至少两个目标节点一一对应，所述目标节点为所述预设关系树中具有下层节点的节点。

可选地，所述聚合模块302，具体用于在基于预先获取的项目列表，对所述多个报表信息进行匹配，且匹配到第一项目信息的情况下，将所述第一项目信息聚合至第一项目名称对应的第一子数据集，其中，所述项目列表包括多个项目名称，所述第一项目信息为所述多个报表信息中的任意一个报表信息中的项目信息，且所述第一项目信息包括所述多个项目名称中的所述第一项目名称，所述第一子数据集为所述至少两个子数据集中，与所述第一项目名称对应的子数据集。

可选地，请参见图4，所述聚合模块302，包括：

识别子模块3021，用于在基于所述项目列表，对所述多个报表信息进行匹配，且匹配到第二项目信息的情况下，基于预先训练得到的目标模型对所述第二项目信息进行识别，得到第二项目名称，其中，所述第二项目信息为不包括所述项目列表中的任意一个项目名称的项目信息，所述目标模型用于识别所述第二项目信息中的项目名称；

聚合子模块3024，用于将所述第二项目信息聚合至所述第二项目名称对应的第二子数据集，其中，所述第二项目信息为所述多个报表信息中的一个报表信息中的项目信息；所述第二子数据集为所述至少两个子数据集中，与所述第二项目名称对应的子数据集。

可选地，所述多个报表信息为目标群体中的成员在第一时间周期内的报表信息，所述获取模块301，还用于获取所述目标群体中的成员在第二时间周期内的多个历史报表信息，其中，所述第二时间周期为所述第一时间周期之前的时间周期；

请参见图5，所述装置还包括：

识别模块303，用于基于预先训练得到的目标模型对所述多个历史报表信息进行识别，得到识别结果，所述识别结果包括多个历史项目名称，其中，所述目标模型用于识别所述历史报表信息中的项目名称；

生成模块304，用于基于所述多个历史项目名称生成所述项目列表，其中，所述项目列表包括所述多个历史项目名称中的至少两个历史项目名称。

可选地，所述识别结果还包括每个历史项目名称在所述多个历史报表信息中出现的频次，所述生成模块304，具体用于将所述多个历史项目名称中，所述频次大于预设频次的历史项目名称作为所述项目列表中的项目名称，得到所述项目列表。

可选地，请参见图4，所述聚合模块302，包括：

分割子模块3022，用于对所述多个报表信息中的目标报表信息进行分割，得到第二数据集，其中，所述目标报表信息为包括至少两个项目信息的报表信息，所述第二数据集包括：对所述目标报表信息进行分割之后的数据块，以及，所述多个报表信息中除所述目标报表信息之外的其他报表信息，每个数据块包括一个报表信息；

聚合子模块3024，用于按照项目名称对所述第二数据集中的项目信息进行聚合，得到所述第一数据集。

可选地，请参见图4，所述聚合模块302，还包括：

去重子模块3023，用于对所述第二数据集中的项目信息进行去重处理，得到第三数据集，其中，所述去重处理用于去除所述第二数据集中相同的项目信息；

所述聚合子模块3024，用于按照项目名称对所述第三数据集中的项目信息进行聚合，得到所述第一数据集。

可选地，所述多个报表信息为目标群体中的成员在第一时间周期内的报表信息，请参见图5，所述装置还包括：

预警模块305，用于在对所述第一数据集中所包含的项目数量进行识别，且所述第一数据集中所包含的项目数量少于预设项目数量的情况下，输出第一预警信息，其中，所述预设项目数量为：所述第一时间周期的上一个时间周期内所述目标群体未完成的项目数量；

所述预警模块305，还用于在对所述第一数据集中所包含项目信息的所述项目状态信息进行识别，且识别到第一目标项目信息的情况下，输出第二预警信息，其中，所述项目状态信息包括项目的进度信息，所述第一目标项目信息中的进度信息与所述第一目标项目信息所对应的项目的预期进度不匹配；

所述预警模块305，还用于在对所述第一数据集中所包含项目信息的标识信息进行识别，且识别到第二目标项目信息的情况下，输出第三预警信息，其中，所述第二目标项目信息为具有风险标识的项目信息。

需要说明地，本实施例提供的数据处理装置300能够实现上述数据处理方法实施例的全部技术方案，因此至少能够实现上述全部技术效果，此处不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如数据处理方法。例如，在一些实施例中，数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

2.根据权利要求1所述的方法，其中，所述多个报表信息形成预设关系树中的多个节点的节点数据，且所述多个报表信息与所述多个节点一一对应，所述预设关系树用于表征目标群体的目标与关键成果OKR对齐关系，所述多个报表信息为所述目标群体中的成员的报表信息。

3.根据权利要求2所述的方法，其中，所述按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，包括：

4.根据权利要求1所述的方法，其中，所述按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，包括：

5.根据权利要求4所述的方法，其中，所述按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，还包括：

6.根据权利要求4所述的方法，其中，所述多个报表信息为目标群体中的成员在第一时间周期内的报表信息，所述按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集之前，所述方法包括：

7.根据权利要求6所述的方法，其中，所述识别结果还包括每个历史项目名称在所述多个历史报表信息中出现的频次，所述基于所述多个历史项目名称生成所述项目列表，包括：

8.根据权利要求1所述的方法，其中，所述按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集，包括：

9.根据权利要求8所述的方法，其中，所述按照项目名称对所述第二数据集中的项目信息进行聚合，得到所述第一数据集，包括：

10.根据权利要求1所述的方法，其中，所述多个报表信息为目标群体中的成员在第一时间周期内的报表信息，所述按照项目名称对所述多个报表信息中的项目信息进行聚合，得到第一数据集之后，所述方法还包括：

11.一种数据处理装置，包括：

12.根据权利要求11所述的装置，其中，所述多个报表信息形成预设关系树中的多个节点的节点数据，且所述多个报表信息与所述多个节点一一对应，所述预设关系树用于表征目标群体的目标与关键成果OKR对齐关系，所述多个报表信息为所述目标群体中的成员的报表信息。

13.根据权利要求12所述的装置，其中，所述聚合模块，具体用于按照项目名称分别对所述预设关系树中的每个目标节点的下层节点对应的报表信息中的项目信息进行聚合，得到至少两个第一数据集，其中，所述至少两个第一数据集与所述预设关系树中的至少两个目标节点一一对应，所述目标节点为所述预设关系树中具有下层节点的节点。

14.根据权利要求11所述的装置，其中，所述聚合模块，具体用于在基于预先获取的项目列表，对所述多个报表信息进行匹配，且匹配到第一项目信息的情况下，将所述第一项目信息聚合至第一项目名称对应的第一子数据集，其中，所述项目列表包括多个项目名称，所述第一项目信息为所述多个报表信息中的任意一个报表信息中的项目信息，且所述第一项目信息包括所述多个项目名称中的所述第一项目名称，所述第一子数据集为所述至少两个子数据集中，与所述第一项目名称对应的子数据集。

15.根据权利要求14所述的装置，其中，所述聚合模块，包括：

识别子模块，用于在基于所述项目列表，对所述多个报表信息进行匹配，且匹配到第二项目信息的情况下，基于预先训练得到的目标模型对所述第二项目信息进行识别，得到第二项目名称，其中，所述第二项目信息为不包括所述项目列表中的任意一个项目名称的项目信息，所述目标模型用于识别所述第二项目信息中的项目名称；

聚合子模块，用于将所述第二项目信息聚合至所述第二项目名称对应的第二子数据集，其中，所述第二项目信息为所述多个报表信息中的一个报表信息中的项目信息；所述第二子数据集为所述至少两个子数据集中，与所述第二项目名称对应的子数据集。

16.根据权利要求14所述的装置，其中，所述多个报表信息为目标群体中的成员在第一时间周期内的报表信息，所述获取模块，还用于获取所述目标群体中的成员在第二时间周期内的多个历史报表信息，其中，所述第二时间周期为所述第一时间周期之前的时间周期；

所述装置还包括：

识别模块，用于基于预先训练得到的目标模型对所述多个历史报表信息进行识别，得到识别结果，所述识别结果包括多个历史项目名称，其中，所述目标模型用于识别所述历史报表信息中的项目名称；

生成模块，用于基于所述多个历史项目名称生成所述项目列表，其中，所述项目列表包括所述多个历史项目名称中的至少两个历史项目名称。

17.根据权利要求16所述的装置，其中，所述识别结果还包括每个历史项目名称在所述多个历史报表信息中出现的频次，所述生成模块，具体用于将所述多个历史项目名称中，所述频次大于预设频次的历史项目名称作为所述项目列表中的项目名称，得到所述项目列表。

18.根据权利要求11所述的装置，其中，所述聚合模块，包括：

分割子模块，用于对所述多个报表信息中的目标报表信息进行分割，得到第二数据集，其中，所述目标报表信息为包括至少两个项目信息的报表信息，所述第二数据集包括：对所述目标报表信息进行分割之后的数据块，以及，所述多个报表信息中除所述目标报表信息之外的其他报表信息，每个数据块包括一个报表信息；

聚合子模块，用于按照项目名称对所述第二数据集中的项目信息进行聚合，得到所述第一数据集。

19.根据权利要求18所述的装置，其中，所述聚合模块，还包括：

去重子模块，用于对所述第二数据集中的项目信息进行去重处理，得到第三数据集，其中，所述去重处理用于去除所述第二数据集中相同的项目信息；

所述聚合子模块，用于按照项目名称对所述第三数据集中的项目信息进行聚合，得到所述第一数据集。

20.根据权利要求11所述的装置，其中，所述多个报表信息为目标群体中的成员在第一时间周期内的报表信息，所述装置还包括：

预警模块，用于在对所述第一数据集中所包含的项目数量进行识别，且所述第一数据集中所包含的项目数量少于预设项目数量的情况下，输出第一预警信息，其中，所述预设项目数量为：所述第一时间周期的上一个时间周期内所述目标群体未完成的项目数量；

所述预警模块，还用于在对所述第一数据集中所包含项目信息的所述项目状态信息进行识别，且识别到第一目标项目信息的情况下，输出第二预警信息，其中，所述项目状态信息包括项目的进度信息，所述第一目标项目信息中的进度信息与所述第一目标项目信息所对应的项目的预期进度不匹配；

所述预警模块，还用于在对所述第一数据集中所包含项目信息的标识信息进行识别，且识别到第二目标项目信息的情况下，输出第三预警信息，其中，所述第二目标项目信息为具有风险标识的项目信息。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的数据处理方法的步骤。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的数据处理方法的步骤。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-10中任一项所述的数据处理方法的步骤。