CN116755683B

CN116755683B - 一种数据处理方法和相关装置

Info

Publication number: CN116755683B
Application number: CN202311019474.6A
Authority: CN
Inventors: 张镇鸿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-11-14
Anticipated expiration: 2043-08-14
Also published as: CN116755683A

Abstract

本申请公开一种数据处理方法和相关装置，当需要生成目标业务系统的数据持久化代码时，获取目标业务系统对应的待处理领域知识，待处理领域知识可以用于理解和分析用例规约，故可以从待处理领域知识中提取目标业务系统的待处理用例规约。待处理用例规约所表示的描述中可能会涉及需要持久化的实体和对应的实体属性，故可以从待处理用例规约中确定待持久化实体和待持久化实体对应的待持久化实体属性，从而基于待持久化实体、待持久化实体属性和待处理用例规约自动生成数据持久化代码。本申请自动化生成数据持久化代码，无需手动编写，从而减小数据持久化代码生成的工作量，提高了开发效率，同时降低了错误率，极大地简化了业务系统的修改和维护工作。

Description

一种数据处理方法和相关装置

技术领域

本申请涉及计算机领域，特别是涉及一种数据处理方法和相关装置。

背景技术

在计算机科学中，数据持久化可以是指数据在应用程序运行结束后依然存在的过程，以便在应用程序重新启动时可以恢复这些数据。这是许多应用程序和业务系统的核心功能之一，因为数据持久化使得数据能够在不同的应用程序版本之间保留并随时可用。

目前，主要通过手动编写代码的方法生成数据持久化代码，以实现数据持久化。然而，这种方式不仅工作量大，而且可能由于人为因素导致错误的引入，同时在业务系统需求变化时，修改和维护的工作量也会很大。

发明内容

为了解决上述技术问题，本申请提供了一种数据处理方法和相关装置，可以自动提取待处理用例规约，以及需要持久化的待持久化实体和待持久化实体属性，从而自动化生成数据持久化代码，无需手动编写，从而减小数据持久化代码生成的工作量，提高了开发效率。另外，由于无需手动编写，从而避免人为因素导致错误的引入，降低了错误率，在业务系统的业务需求变化时，只需要修改领域知识，就可以自动生成新的持久化代码，极大地简化了业务系统的修改和维护工作。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种数据处理方法，所述方法包括：

获取目标业务系统对应的待处理领域知识；

从所述待处理领域知识中提取所述目标业务系统的待处理用例规约；

从所述待处理用例规约中确定待持久化实体和所述待持久化实体对应的待持久化实体属性；

基于所述待持久化实体、所述待持久化实体属性和所述待处理用例规约生成数据持久化代码。

一方面，本申请实施例提供一种数据处理装置，所述装置包括获取单元、提取单元、确定单元和生成单元：

所述获取单元，用于获取目标业务系统对应的待处理领域知识；

所述提取单元，用于从所述待处理领域知识中提取所述目标业务系统的待处理用例规约；

所述确定单元，用于从所述待处理用例规约中确定待持久化实体和所述待持久化实体对应的待持久化实体属性；

所述生成单元，用于基于所述待持久化实体、所述待持久化实体属性和所述待处理用例规约生成数据持久化代码。

在一种可能的实现方式中，所述生成单元，具体用于：

获取持久化代码模板；

将所述待持久化实体、所述待持久化实体属性和所述待处理用例规约填充至所述持久化代码模板对应的位置，生成所述数据持久化代码。

在一种可能的实现方式中，所述生成单元，具体用于：

基于所述待持久化实体和所述待持久化实体属性进行对象关系映射，得到持久化操作代码；

根据所述待处理用例规约生成业务逻辑代码；

基于所述持久化操作代码和所述业务逻辑代码得到所述数据持久化代码。

在一种可能的实现方式中，所述提取单元，具体用于：

从所述待处理领域知识中识别得到操作步骤和交互流程；

基于所述操作步骤和交互流程构建所述待处理用例规约。

在一种可能的实现方式中，所述提取单元，具体用于：

从所述待处理领域知识中确定目标实体；

基于所述目标实体进行属性分析，得到所述目标实体的目标实体属性；

基于所述目标实体和所述目标实体的目标实体属性，从所述待处理领域知识中提取所述待处理用例规约。

在一种可能的实现方式中，所述提取单元，具体用于：

对所述待处理领域知识进行实体识别，得到多个第一候选实体；

从所述多个第一候选实体中选择与所述目标业务系统的关联程度达到预设阈值的第一候选实体作为所述目标实体。

在一种可能的实现方式中，所述提取单元，具体用于：

对所述目标实体进行属性分析，得到所述目标实体的多个第一候选实体属性；

针对所述多个第一候选实体属性中每个第一候选实体属性，确定所述第一候选实体属性在所述待处理领域知识中的重要程度；

基于所述重要程度从所述多个第一候选实体属性中确定所述目标实体的目标实体属性。

在一种可能的实现方式中，所述提取单元，具体用于执行以下至少一种：

基于所述第一候选实体属性在所述待处理领域知识中的出现频率确定所述第一候选实体属性在所述待处理领域知识的重要程度；

或者，基于所述第一候选实体属性与目标对象之间的关联程度确定所述第一候选实体属性在所述待处理领域知识的重要程度，所述目标对象包括其他实体和其他实体属性，所述其他实体是所述待处理领域知识中除所述目标实体之外的实体，所述其他实体属性是所述待处理领域知识中除所述第一候选实体属性之外的实体属性；

或者，基于所述第一候选实体属性在所述待处理领域知识中的出现频率，以及所述第一候选实体属性与目标对象之间的关联程度确定所述第一候选实体属性在所述待处理领域知识的重要程度。

在一种可能的实现方式中，所述提取单元，具体用于：

通过领域知识识别模型对所述待处理领域知识进行实体识别，得到所述多个第一候选实体。

在一种可能的实现方式中，所述提取单元，具体用于：

通过所述领域知识识别模型确定所述第一候选实体属性在所述待处理领域知识中的重要程度；

基于所述重要程度，通过所述领域知识识别模型从所述多个第一候选实体属性中确定所述目标实体的目标实体属性。

在一种可能的实现方式中，所述装置还包括训练单元：

所述训练单元，用于获取初始领域知识样本；对所述初始领域知识样本进行去噪处理，得到目标领域知识样本；基于所述目标领域知识样本对初始网络模型进行预训练，得到预训练模型；根据所述目标业务系统对应的领域知识样本和样本标签，对所述预训练模型进行调整，得到所述领域知识识别模型，所述样本标签用于标识所述目标业务系统对应的领域知识样本中包括的实体。

在一种可能的实现方式中，所述确定单元，具体用于：

对所述待处理用例规约进行实体识别，得到多个第二候选实体，以及对所述待处理用例规约进行属性识别，得到所述多个第二候选实体分别对应的第二候选实体属性；

基于持久化决策机制，从所述多个第二候选实体中确定所述待持久化实体，以及基于所述持久化决策机制，从所述待持久化实体对应的第二候选实体属性中确定所述待持久化实体对应的待持久化实体属性。

一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序当被处理器执行时使所述处理器执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一方面所述的方法。

由上述技术方案可以看出，当需要生成目标业务系统的数据持久化代码，以便目标业务系统实现数据持久化时，可以获取目标业务系统对应的待处理领域知识，待处理领域知识为目标业务系统所涉及领域内的专业知识，可以用于理解和分析用例规约，故可以从待处理领域知识中提取目标业务系统的待处理用例规约。待处理用例规约是对目标业务系统中各个用例的详细描述和规范，便于理解目标业务系统的功能需求。待处理用例规约所表示的描述中可能会涉及需要持久化的实体和对应的实体属性，故可以从待处理用例规约中确定待持久化实体和待持久化实体对应的待持久化实体属性，从而基于待持久化实体、待持久化实体属性和待处理用例规约自动生成数据持久化代码。本申请通过对待处理领域知识的学习和理解，可以自动提取待处理用例规约，以及需要持久化的待持久化实体和待持久化实体属性，从而自动化生成数据持久化代码，无需手动编写，从而减小数据持久化代码生成的工作量，提高了开发效率。另外，由于无需手动编写，从而避免人为因素导致错误的引入，降低了错误率，在业务系统的业务需求变化时，只需要修改领域知识，就可以自动生成新的持久化代码，极大地简化了业务系统的修改和维护工作。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术成员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理方法的应用场景架构图；

图2为本申请实施例提供的一种数据处理方法的流程图；

图3为本申请实施例提供的一种数据处理方法的整体架构图；

图4为本申请实施例提供的另一种数据处理方法的流程图；

图5为本申请实施例提供的一种数据处理方法装置的结构图；

图6为本申请实施例提供的一种终端的结构图；

图7为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

为了便于理解，首先对本申请实施例涉及到的关键名词进行解释：

领域知识：领域知识是指在特定领域内的专业知识，如医学、法律、生物学等。在本申请实施例中，领域知识主要用于理解和分析用例规约，以推导出实体的属性和关系。这通常涉及到自然语言处理和知识图谱等技术。

用例规约：用例规约是指对一个特定用例的详细描述，包括用例的目标、参与者、前置条件、后置条件、基本流程、异常流程等。在软件工程中，用例规约是一个重要的工具，用于描述和理解业务系统的功能需求。用例则是软件工程或系统工程中对系统如何反应外界请求的描述，是一种通过用户的使用场景来获取需求的技术。

数据持久化：在计算机科学中，数据持久化可以是指数据在应用程序运行结束后依然存在的过程。常见的持久化方式包括存储在文件系统、数据库或分布式存储系统中。在本申请实施例中，数据持久化主要是指根据推导出的实体、实体属性和关系，自动生成对应于数据库的数据持久化代码。

随着大数据、人工智能等技术的快速发展，领域知识的理解和应用变得越来越重要，例如基于对领域知识的理解实现数据持久化代码的生成。然而，相关技术提供的方法中，领域知识处理方法大多需要大量的手工操作，并且需要手动编写数据持久化代码。这种方式不仅工作量大，而且可能由于人为因素导致错误的引入，同时在业务系统的业务需求变化时，修改和维护的工作量也会很大，难以适应复杂和变化的业务需求。因此，如何高效、自动地处理领域知识，并生成数据持久化代码，从而支持业务系统的开发和运行，成为了一个重要的问题。

为了解决上述技术问题，本申请实施例提供一种数据处理方法，该方法通过对待处理领域知识的学习和理解，可以自动提取待处理用例规约，以及需要持久化的待持久化实体和待持久化实体属性，从而自动化生成数据持久化代码，无需手动编写，从而减小数据持久化代码生成的工作量，提高了开发效率。另外，由于无需手动编写，从而避免人为因素导致错误的引入，降低了错误率，在业务系统的业务需求变化时，只需要修改领域知识，就可以自动生成新的持久化代码，极大地简化了业务系统的修改和维护工作。

需要说明的是，本申请实施例提供的数据处理方法可应用于各种业务系统的持久化代码生成场景，以便将生成的数据持久化代码运行在业务系统，支持业务系统的开发和运行。

本申请实施例提供的数据处理方法可以由计算机设备执行，该计算机设备例如可以是服务器，也可以是终端。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

如图1所示，图1示出了一种数据处理方法的应用场景架构图，该应用场景以计算机设备是服务器进行介绍。在该应用场景中可以包括服务器100，服务器100可以用于自动化生成数据持久化代码。

具体地，当需要生成某个业务系统（例如目标业务系统）的数据持久化代码，以便目标业务系统实现数据持久化时，服务器100可以获取目标业务系统对应的待处理领域知识。其中，待处理领域知识可以是从领域知识库中获取的。待处理领域知识为目标业务系统所涉及领域内的专业知识，可以用于理解和分析用例规约，故服务器100可以从待处理领域知识中提取目标业务系统的待处理用例规约。

待处理用例规约是对目标业务系统中各个用例的详细描述和规范，便于理解目标业务系统的功能需求。待处理用例规约所表示的描述中可能会涉及需要持久化的实体和对应的实体属性，故服务器100可以从待处理用例规约中确定待持久化实体和待持久化实体对应的待持久化实体属性，从而基于待持久化实体、待持久化实体属性和待处理用例规约自动生成数据持久化代码。

需要说明的是，本申请实施例提供的方法可以涉及人工智能技术，基于人工智能技术自动化的提取待处理用例规约，以及需要持久化的待持久化实体和待持久化实体属性，从而自动化生成数据持久化代码。人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请实施例可以使用自然语言处理技术提取待处理用例规约、待持久化实体、待持久化实体属性等。

可以理解的是，本申请实施例所提供的数据处理方法可以涉及自然语言处理。自然语言处理（Nature Language processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例可以使用自然语言处理。

在进行数据处理时，还可以涉及机器学习，机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，可以使用机器学习领域知识识别模型。

接下来，将以计算机设备是服务器，结合附图对本申请实施例提供的数据处理方法进行介绍。参见图2，图2示出了一种数据处理方法的流程图，所述方法包括：

S201、获取目标业务系统对应的待处理领域知识。

业务系统可以是指以用户或其他企业为主要客户，并以在一定范围内满足客户需求为目的和目标，为客户提供对应业务，把企业的管理和生产运营的综合性系统称为业务系统。业务系统例如可以是支付系统、订单系统、刷掌识别系统等等。

由于本申请实施例数据持久化主要是指根据推导出的实体、实体属性和关系，自动生成对应于数据库的数据持久化代码，而实体和实体属性可以在领域知识中体现，因此，当需要生成目标业务系统的数据持久化代码，以便目标业务系统实现数据持久化时，服务器可以先获取领域知识。由于不同的业务系统可能涉及不同的领域，进而涉及不同的领域知识，因此，在本申请实施例中获取的领域知识是目标业务系统对应的领域知识，即待处理领域知识。

可以理解的是，领域知识可以存储在领域知识库中，故服务器可以从领域知识库中获取待处理领域知识。领域知识库中的领域知识可以是各种形式的领域知识，例如可以是文本、图像、音频等形式，相应的，待处理领域知识也可以是上述各种形式的领域知识。

S202、从所述待处理领域知识中提取所述目标业务系统的待处理用例规约。

待处理领域知识为目标业务系统所涉及领域内的专业知识，可以用于理解和分析用例规约。故服务器可以从待处理领域知识中提取目标业务系统的待处理用例规约。

待处理用例规约可以是描述目标业务系统的一个操作或交互过程的文本描述，通过待处理用例规约，可以帮助目标业务系统理解其运作流程。基于此从待处理领域知识中提取目标业务系统的待处理用例规约的方式可以是从待处理领域知识中识别得到操作步骤和交互流程，进而基于操作步骤和交互流程构建待处理用例规约。

当待处理领域知识是文本形式的领域知识时，在进行待处理用例规约提取时，可能涉及自然语言处理技术，例如可以通过自然语言处理技术中的文本分析、依存关系解析等，以识别出待处理领域知识中的操作步骤和交互流程，构建出待处理用例规约。还可以涉及信息抽取技术，信息抽取（imformation extraction）技术可以是指从文本中抽取出特定事件或事实信息，从而将海量的内容自动分类，提取和重构，例如从待处理领域知识中提取操作步骤和交互流程，进而基于操作步骤和交互流程构建待处理用例规约。

其中，文本分析可以是指对文本进行表示（representation）、处理（processing）和建模（modeling），来获得有用的见解（insight）。在本申请实施例主要是指对待处理领域知识进行文本分析，从而提取出待处理领域知识中的操作步骤和交互流程。在一种可能的实现方式中，可以基于大量语料，通过机器学习方式训练得到用例规约提取模型，从而通过用例规约提取模型对待处理领域知识进行文本分析，得到操作步骤和交互流程，并构建出待处理用例规约。

依存关系解析可以是指识别文本中词汇与词汇之间的相互依存关系，在得到依存关系后，可以便于理解待处理领域知识中语言的内部结构，进而有利于准确地提取出待处理领域知识中的操作步骤和交互流程。

以目标业务系统是刷掌识别系统为例，基于待处理领域知识最终提取到的待处理用例规约例如可以是“ 用户进入刷掌识别系统，选择刷掌识别选项，刷掌识别系统提示用户按照指示进行手掌展示，刷掌识别系统拍摄并识别用户的手掌，然后返回识别结果。”

本申请实施例通过待处理领域知识提取待处理用例规约，使得目标业务系统能更好地理解业务流程，进一步提高了业务处理的准确性和效率。

需要说明的是，本申请实施例所提供的数据处理方法可以由数据处理框架实现，数据处理框架中可以包括领域知识用例规约提取模块，S202所示的步骤可以通过领域知识用例规约提取模块实现。

S203、从所述待处理用例规约中确定待持久化实体和所述待持久化实体对应的待持久化实体属性。

待处理用例规约是对目标业务系统中各个用例的详细描述和规范，便于理解目标业务系统的功能需求。待处理用例规约所表示的描述中可能会涉及需要持久化的实体和对应的实体属性，故服务器可以从待处理用例规约中确定需要进行持久化的实体和实体属性。其中，需要进行持久化的实体可以称为待持久化实体，需要进行持久化的实体属性可以称为待持久化实体对应的待持久化实体属性。

以待处理用例规约是“ 用户进入刷掌识别系统，选择刷掌识别选项，刷掌识别系统提示用户按照指示进行手掌展示，刷掌识别系统拍摄并识别用户的手掌，然后返回识别结果。”为例，基于待处理用例规约，确定出的待持久化实体以及待持久化实体属性可能包括：

1. 用户：这是一个主要的实体，可以作为待持久化实体。该待持久化实体对应的需要持久化的实体属性（待持久化实体属性）可能包括用户的标识（Identity，ID）、用户名等基本信息，以及用户的手掌数据，如手掌的图像、手掌特征等。

2. 识别结果：这也是一个重要的实体，可以作为待持久化实体。该待持久化实体对应的需要持久化的实体属性（待持久化实体属性）可能包括识别的结果（例如是哪一个用户的手掌）、识别的时间、识别所用的模型等。

在上述示例中，持久化这些实体和实体属性的目的可能包括：

对用户进行跟随和管理，例如记录用户的使用情况，以便进行目标业务系统的优化和用户服务提升。

对识别结果进行跟随和管理，例如记录目标业务系统的识别性能，以便进行目标业务系统的评估和改进。

在一种可能的实现方式中，从待处理用例规约中确定待持久化实体和待持久化实体对应的待持久化实体属性的方式可以是对待处理用例规约进行实体识别，得到多个第二候选实体，以及对待处理用例规约进行属性识别，得到多个第二候选实体分别对应的第二候选实体属性。而在目标业务系统提供业务时，得到的所有第二候选实体和第二候选实体属性中，部分第二候选实体或者第二候选实体属性仅是偶然需要，为了避免占用存储空间，对于偶然需要的第二候选实体或第二候选实体属性可能无需进行持久化。基于此，在得到第二候选实体和第二候选实体对应的第二候选实体属性后，可以进一步基于持久化决策机制，从多个第二候选实体中确定待持久化实体，以及基于持久化决策机制，从待持久化实体对应的第二候选实体属性中确定待持久化实体对应的待持久化实体属性。其中，持久化决策机制是用于决定哪些实体或实体属性需要进行持久化的机制，例如可以是将出现频率高于某一频率阈值的第二候选实体确定为待持久化实体，或者将出现频率高于某一频率阈值的第二候选实体属性确定为待持久化实体属性，等等，本申请实施例对持久化决策机制不做限定。

可以理解的是，确定待持久化实体和待持久化实体属性的过程既依赖于自然语言处理技术，也依赖于实体识别技术和属性识别技术。实体识别也可以称为命名实体识别（Name Entity Recognition，NER），实体识别可以是指在一段文本中，将预先定义好的实体识别出来，实体识别是自然语言处理中一个非常重要且基础的问题。实体可以是指客观存在、并可相互区别的事物，实体可以是具体的人、事、物，也可以是概念，具体可以是人名、地名、组织名、机构名、时间、日期、货币、百分比等。在进行实体识别时可以采用机器学习训练实体识别模型，进而通过实体识别模型进行实体识别，得到第二候选实体；也可以基于规则和词典，通过匹配的方式确定第二候选实体。

属性识别是在一段文本中，将表征实体属性的信息识别出来得到实体属性。实体属性可以用来描述实体的特征，通过实体属性可以描述不同实体之间的差别。例如实体是商品，则商品的名称、价格、类目、销量、评价等都可以作为描述商品这一实体的实体属性。在进行实体属性识别时可以结合知识图谱、信息抽取技术等，知识图谱是一种用于表示和存储知识的图谱结构。在知识图谱中，实体是知识的基本单位，实体的实体属性可以作为节点与对应的实体通过边进行连接，由此可以基于知识图谱确定第二候选实体对应的第二候选实体属性。另外，也可以通过信息抽取技术从待处理用例规约中提取出第二候选实体对应的第二候选实体属性。

需要说明的是，S203所示的步骤可以称为实体持久化要素确定过程，即确定需要持久化的实体和需要持久化的实体属性。S203所示的步骤可以通过前述提及的领域知识用例规约提取模块实现。也就是说，对于领域知识用例规约提取模块来说，领域知识用例规约提取模块的模块功能可以概括为：

1. 待处理用例规约的提取：即从目标业务系统对应的待处理领域知识中提取待处理用例规约，以明确目标业务系统的操作过程和流程。

2. 实体持久化要素确定：即从提取的待处理用例规约中确定待持久化实体以及对应的待处理实体属性。

3. 系统运作流程理解：通过待处理用例规约辅助目标业务系统理解运作流程。

S204、基于所述待持久化实体、所述待持久化实体属性和所述待处理用例规约生成数据持久化代码。

在得到待持久化实体、待持久化实体属性和待处理用例规约后，服务器便可以根据已经得到的待持久化实体、待持久化实体属性和待处理用例规约，自动化生成对应的数据持久化代码。

在本申请实施例中，提供了多种自动化生成数据持久化代码的方式。一种实现方式可以是基于模板引擎自动化生成数据持久化代码。模板引擎是为了解决用户界面与业务数据分离而产生的，可以产生特定格式的文档，在本申请实施例中，模板引擎可以提供持久化代码模板，持久化代码模板定义了代码的基本结构和格式。在这种情况下，基于待持久化实体、待持久化实体属性和待处理用例规约生成数据持久化代码的方式可以是获取持久化代码模板，进而将待持久化实体、待持久化实体属性和待处理用例规约填充至持久化代码模板对应的位置，生成数据持久化代码。其中，模板引擎例如可以是FreeMarker、Velocity等。

上述方法基于持久化代码模板，根据待持久化实体、待持久化实体属性和待处理用例规约填充持久化代码模板，自动化生成具体的代码，实现方式简单快捷，提高了数据持久化代码生成的效率。

在另一种可能的实现方式中，可以采用领域驱动设计(Domain-Driven Design，DDD)的原则，领域驱动设计是一种通过将实现与持续进化的模型相连接来满足复杂需求的软件开发方法，其主要作用是将业务领域以及领域内的概念模型置于软件开发的核心地位，有效地降低软件开发中的复杂性。而针对目标业务系统，进行数据持久化代码生成时，所采用的概念模型中可以包括实体、实体属性、用例规约等概念，故在本申请实施例中，可以将待持久化实体和对应的待持久化实体属性，以及待处理用例规约作为开发的核心。在设计时，可以将待持久化实体和待持久化实体属性被映射为数据结构，待处理用例规约则被翻译为相应的业务逻辑代码。

在这种情况下，基于待持久化实体、待持久化实体属性和待处理用例规约生成数据持久化代码的实现方式可以是基于待持久化实体和待持久化实体属性进行对象关系映射，从而将待持久化实体和待持久化实体属性映射为数据结构，得到持久化操作代码；根据待处理用例规约生成业务逻辑代码；基于持久化操作代码和业务逻辑代码得到数据持久化代码。

其中，对象关系映射（Object Relational Mapping，ORM）是一种为了解决面向对象与关系数据库存在的互不匹配的现象的技术。简单的说，ORM是通过使用描述对象和数据库之间映射的元数据，将程序中的对象自动持久化到关系数据库中。在本申请实施例中，这里的对象可以是指需要持久化的实体和对应的实体属性构成的类或数据表等。也就是说，当数据持久化是将数据存储到关系型数据库中时，为了实现实体和关系型数据库之间的映射，可以使用ORM框架，如Hibernate、MyBatis等。ORM框架可以自动地将关系型数据库中的表与对象进行映射，从而确定如何将待持久化实体和待持久化实体属性存储到关系型数据库中。这样，开发者就可以用面向对象的方式来操作关系型数据库，而不需要编写繁琐的结构化查询语言（Structured Query Language，SQL）代码。

根据待处理用例规约生成相应的业务逻辑代码，包括实体的创建、查询、更新和删除等操作。

需要说明的是，在本申请实施例中，每一个待持久化实体都会对应一个或多个数据结构（如类或数据表），这些数据结构的属对应于待持久化实体的待持久化实体属性。每一个待处理用例规约都会对应一段业务逻辑代码，这段业务逻辑代码描述了如何操作实体以实现用例规约中的业务流程。

上述代码生成方法可以适应于各种复杂需求的软件开发，有效地降低软件开发中的复杂性。

以上述目标业务系统是刷掌识别系统为例，若待持久化实体是“用户（user）”。“用户”可能有一些基本的属性，如用户ID（userID）、用户名（userName）、密码（password）以及一些与刷掌识别相关的属性，如掌纹特征（palmFeature），这些基本的属性可以称为待持久化实体属性。

通过上述介绍的方式，可以使用一种编程语言（这里使用Python作为例子）来表示这个实体，然后用SQLAlchemy等ORM框架来实现对象与关系型数据库的对象关系映射。SQLAlchemy是Python编程语言下的一款开源软件，提供了SQL工具包及对象关系映射（ORM）工具。SQLAlchemy采用简单的Python语言，为高效和高性能的数据库访问设计。此时使用的映射方式可以称为声明式映射，具体可以参见以下代码：

Base = declarative_base()

class User(Base):

_tablename_ = 'users'

userID = Column(Integer, primary_key=True)

userName = Column(String)

password = Column(String)

palmFeature = Column(Binary)

这段代码通过 declarative_base()函数创建 Base类，该Base类定义了一个user类，它对应于关系型数据库中的users表。user类的每个属性（即待持久化实体属性）对应users表中的一个字段。userID这个待持久化实体属性是主键，userName和password这两个待持久化实体属性是字符串，palmFeature这个待持久化实体属性是二进制数据，用于存储掌纹特征。

然后，可以为这个待持久化实体生成一些基本的持久化操作代码：

# 创建数据库连接

engine = create_engine('sqlite:///example.db')

Session = sessionmaker(bind=engine)

其中，sessionmaker(bind=engine) 表示通过连接器（sessionmaker）将engine绑定给会话（session），以确保每个session都可以与该engine连接，sqlite:///example.db表示关系型数据库的地址，engine=create_engine('sqlite:///example.db')则表示engine是地址sqlite:///example.db所指示的关系型数据库。

# 插入一个新用户

def insert_user(user):

session = Session()

session.add(user)

session.commit()

该段代码定义了插入一个新用户，即实体的创建操作。例如程序中存在的一个新用户，则可以通过add()函数将新用户（user）增加保存到关系型数据库中，关系型数据库中就可以存在新用户这个实体以及对应的实体属性。

# 根据用户名查询用户

def query_user_by_name(name):

session = Session()

user = session.query(User).filter_by(userName=name).first()

return user

该段代码定义了查询一个用户，即实体的查询操作。当需要在关系型数据库中查询一个用户时，可以通过session.query().filter_by()方法进行查询，然后通过first()函数来返回第一个查询结果。这里选择的是查询名为需要查询用户的姓名（name）。

# 更新用户的掌纹特征

def update_user_palm_feature(user, new_feature):

session = Session()

user.palmFeature = new_feature

session.commit()

该段代码定义了用户的掌纹特征的更新，即实体的更新操作，从而将palmFeature更新为new_feature。

上述代码分别用于插入一个新用户、根据用户名查询用户以及更新用户的掌纹特征，这些函数都使用了SQLAlchemy的应用程序编程接口（Application ProgrammingInterface，API）来操作关系型数据库。

需要说明的是，本申请实施例提供的数据处理框架中还可以包括持久化代码自动化生成模块，上述数据持久化代码生成的过程可以通过持久化代码自动化生成模块实现。通过上述介绍，持久化代码自动化生成模块的功能可以概括为：

1. 持久化代码生成：根据已经得到的待持久化实体、待持久化实体属性和待处理用例规约，自动化生成对应的数据持久化代码。

2. 对象关系映射：将待持久化实体映射为相应的数据结构，并生成相应的持久化操作代码。

3. 用例规约代码实现：根据待处理用例规约生成相应的业务逻辑代码，包括实体的创建、查询、更新和删除等操作。

在真实的目标业务系统中，持久化代码自动化生成模块会根据实体的定义和用例规约自动地生成类似于上面的代码。这样，开发者就可以专注于领域模型和业务逻辑，而不需要手动编写大量的持久化操作代码。

在提取待处理用例规约时，目标业务系统的用例规约可能有很多，有些用例规约可能与需要进行持久化的实体有关，有些用例规约可能与需要进行持久化的实体无关。而在进行数据持久化时，主要是对需要进行数据持久化的实体和实体属性进行数据持久化，用例规约主要是用户实现实体和实体属性的持久化，故提取的待处理用例规约应与可能需要进行数据持久化的实体和实体属性有关。基于此，在一种可能的实现方式中，从待处理领域知识中提取目标业务系统的待处理用例规约的方式可以是从待处理领域知识中确定目标实体，目标实体可以是可能需要进行数据持久化的实体。然后基于目标实体进行属性分析，得到目标实体的目标实体属性，目标实体属性是可能需要进行数据持久化的目标实体的实体属性。进而基于目标实体和目标实体的目标实体属性，从待处理领域知识中提取待处理用例规约。

在一种可能的实现方式中，从待处理领域知识中确定目标实体的方式可以是对待处理领域知识进行实体识别，得到多个第一候选实体，进而从多个第一候选实体中选择与目标业务系统的关联程度达到预设阈值的第一候选实体作为目标实体。通过这种方式提取到的目标实体可以是目标业务系统的关键实体，关键实体可能需要进行数据持久化，从而避免不必要的数据持久化，避免不必要处理资源的占用。

在一种可能的实现方式中，基于目标实体进行属性分析，得到目标实体的目标实体属性可以是对目标实体进行属性分析，得到目标实体的多个第一候选实体属性。然后，针对多个第一候选实体属性中每个第一候选实体属性，确定第一候选实体属性在待处理领域知识中的重要程度，进而基于重要程度从多个第一候选实体属性中确定目标实体的目标实体属性。通过该方法确定目标实体属性的过程可以称为持久化属性确认，由此可以选择比较重要的实体属性进行数据持久化，从而避免不必要的数据持久化，避免不必要处理资源的占用。

其中，确定多个第一候选实体属性可以通过属性识别实现，对识别出的第一候选实体进行深度分析，使用词性标注、依存关系分析等技术，确定第一候选实体的第一候选实体属性，特别是需要进行数据持久化的目标实体属性。

需要说明的是，第一候选实体属性在待处理领域知识中的重要程度可以通过出现频率、与其他实体和其他实体属性之间的关联程度来体现。基于此，在一种可能的实现方式中，确定第一候选实体属性在待处理领域知识中的重要程度，包括以下至少一种：

基于第一候选实体属性在待处理领域知识中的出现频率确定第一候选实体属性在待处理领域知识的重要程度；

或者，基于第一候选实体属性与目标对象之间的关联程度确定第一候选实体属性在待处理领域知识的重要程度，目标对象包括其他实体和其他实体属性，其他实体是待处理领域知识中除目标实体之外的实体，其他实体属性是待处理领域知识中除第一候选实体属性之外的实体属性；

或者，基于第一候选实体属性在待处理领域知识中的出现频率，以及第一候选实体属性与目标对象之间的关联程度确定第一候选实体属性在待处理领域知识的重要程度。

其中，基于出现频率确定重要程度时，可以直接将第一候选实体属性在待处理领域知识中的出现频率确定为第一候选实体属性在待处理领域知识的重要程度，也可以是对第一候选实体属性在待处理领域知识中的出现频率进行处理，例如利用出现频率与重要程度之间的转换公式，基于出现频率计算第一候选实体属性在待处理领域知识的重要程度，本申请实施例对此不做限定。基于关联程度确定重要程度时，可以直接将第一候选实体属性与目标对象之间的关联程度确定为第一候选实体属性在待处理领域知识的重要程度，也可以是对第一候选实体属性与目标对象之间的关联程度进行处理，例如利用关联程度与重要程度之间的转换公式，基于关联程度计算第一候选实体属性在待处理领域知识的重要程度，本申请实施例对此不做限定。基于出现频率和关联程度确定重要程度时，可以对出现频率和关联程度进行加权求和，也可以采用其他计算方式得到第一候选实体属性在待处理领域知识的重要程度，本申请实施例对此不做限定。

需要说明的是，在本申请实施例中，实体识别的方式可以包括很多，一种方式是通过机器学习的方式训练领域知识识别模型，进而通过领域知识识别模型对待处理领域知识的学习和理解，从待处理领域知识中提取第一候选实体，即对待处理领域知识进行实体识别，得到多个第一候选实体的方式可以是通过领域知识识别模型对待处理领域知识进行实体识别，得到多个第一候选实体。

同理，上述属性识别、持久化属性确认的过程也可以采用领域知识识别模型实现，即基于领域知识识别模型对待处理领域知识的理解，分析第一候选实体属性在待处理领域知识中的出现频率、与目标对象的关联程度等因素，确定这些第一候选实体属性的重要程度，进一步确定需要进行数据持久化的实体属性（即目标实体属性）。

本申请实施例基于领域知识识别模型自动确定目标实体、目标实体属性，能够实现自动化的领域知识理解和实体识别，自动化程度高，大大降低了手动处理的复杂度和工作量，提高了处理效率。另外，由于借助于先进的自然语言处理技术和领域知识识别模型，能够准确地理解和提取领域知识，保证了实体识别和属性识别的准确性。

需要说明的是，本申请实施例提供的数据处理框架中还可以包括领域实体提取模块，上述目标实体和目标实体属性的确定过程可以通过领域实体提取模块实现。领域实体提取模块的功能可以概括为：

1. 实体识别：领域实体提取模块通过分析领域知识识别模型的输出，确定待处理领域知识内的目标实体。

2. 属性识别：对识别出的目标实体进行进一步的分析，确定其关键的实体属性，例如第一候选实体属性。

3. 持久化属性确认：通过领域知识识别模型，确定这些第一候选实体属性在待处理领域知识中的重要程度，决定哪些实体属性需要进行数据持久化。

上述确定目标实体、目标实体属性可以是基于领域知识识别模型实现的，而目标实体、目标实体属性的确定是否准确，直接影响待处理用例规约，进而影响待持久化实体和待持久化实体属性的准确性。因此，领域知识识别模型的训练是非常重要的。在一种可能的实现方式中，可以采用预训练的方式进行领域知识识别模型的训练，即获取初始领域知识样本；对初始领域知识样本进行去噪处理，得到目标领域知识样本；基于目标领域知识样本对初始网络模型进行预训练，得到预训练模型；根据目标业务系统对应的领域知识样本和样本标签，对预训练模型进行调整，得到领域知识识别模型，样本标签用于标识目标业务系统对应的领域知识样本中包括的实体。

为了训练得到领域知识识别模型，可以先获取大量领域知识作为初始领域知识样本。在获取初始领域知识样本时，获取到的初始领域知识样本中可能包含大量的噪声数据，例如不完整的句子、错误的语法、无关的信息等。因此，为了保证训练得到的预训练模型的准确性，可以对初始领域知识样本进行去噪处理来剔除这些噪声数据，提取出有用的信息，得到目标领域知识样本。对初始领域知识样本的去噪处理也可以称为领域知识的清洗，主要是通过自然语言处理技术实现，具体可以包括分词、词性标注、命名实体识别、依存句法分析等步骤。

然后，可以基于目标领域知识样本对初始网络模型进行预训练得到预训练模型。在预训练过程中，通过对领域知识的深入理解，找出目标领域知识样本中的专业术语和知识结构，并将其存储起来。这个过程可能需要使用到词向量技术、主题模型、知识图谱等技术，以识别和提取出领域知识中的专业术语和知识结构。该过程还可以称为专业术语的沉淀。将目标领域知识样本转化为初始网络模型可以处理的形式，这通常需要将文本形式的目标领域知识样本转化为向量表示。然后，通过大量的目标领域知识样本来训练初始网络模型，使其能够对领域知识进行逻辑的理解，包括理解领域知识内存在的隐藏知识和行规。

本申请实施例对初始网络模型的网络结构不做限定，在一种可能的实现方式中，初始网络模型可以是Transformer模型。Transformer 模型是一种深度学习模型，主要用于处理序列数据。Transformer 模型在自然语言处理中被广泛应用，特别是在机器翻译和文本理解等任务中。它的主要特点是采用了自注意力机制（Self-Attention Mechanism），可以对输入序列中的每个元素都进行注意力计算，从而捕捉序列中长距离的依赖关系。

通过上述过程得到的预训练模型具有对领域知识的理解能力，进而根据实际应用场景，例如本申请实施例中对目标业务系统对应的待处理领域知识进行实体识别和属性识别，可以进一步选择与实际应用场景相关的领域知识样本和样本标签，对预训练模型进行调整得到领域知识识别模型。

通过上述训练方式可以更好地学习和理解领域知识，从而提高模型的泛化能力，同时有利于减少训练时间和数据量。

需要说明的是，本申请实施例提供的数据处理框架中还可以包括领域知识理解学习模块，上述领域知识识别模型的训练过程可以通过领域知识理解学习模块实现。

基于上述对数据处理方法的详细介绍，下面将结合本申请实施例提供的数据处理框架对本申请实施例提供的数据处理方法进行整体介绍。

本申请实施例提供的数据处理框架主要包括领域知识理解学习模块、领域实体提取模块、领域知识用例规约提取模块和持久化代码自动化生成模块，该数据处理框架采用了模块化的设计，各个模块之间的职责明确，互相独立，使得系统易于维护和扩展。

若将该数据处理框架应用于目标业务系统的数据持久化代码生成场景中，数据处理方法的整体架构图可以参见图3所示，此时，领域知识理解学习模块可以参见图3中302所示，领域实体提取模块可以参见图3中303所示，领域知识用例规约提取模块可以参见图3中304所示，持久化代码自动化生成模块可以参见图3中305所示。领域知识理解学习模块302用于基于领域知识识别模型对领域知识进行学习和理解。领域知识理解学习模块302具体可以进行领域知识的清洗、专业术语的沉淀和领域知识识别模型的构建和训练。领域知识的清洗的主要功能是对初始领域知识样本进行预处理，所使用的关键技术包括文本清洗、数据标准化等。数据标准化可以是对去噪处理后的目标领域知识样本进行数据格式的标准化，以便可以作为初始网络模型的输入。专业术语的沉淀的主要功能是提取和保存专业术语，所使用的关键技术包括NLP、信息抽取技术等。领域知识识别模型的构建和训练的主要功能是对目标领域知识样本进行深度理解，所使用的关键技术可以包括Transformer、深度学习等。

领域实体提取模块303用于根据待处理领域知识的理解结果提取实体和实体属性，例如提取目标实体和目标实体对应的目标实体属性，甚至后续提取待持久化实体和待持久化实体对应的待持久化实体属性。领域实体提取模块303具体可以进行实体识别和属性识别。实体识别的主要功能是从待处理领域知识中提取出候选实体（例如第一候选实体、第二候选实体）、目标实体，甚至是从待处理用例规约中提取出待持久化实体，所使用的关键技术可以包括NER、机器学习等。属性识别的主要功能是从待处理领域知识中提取出候选实体属性（例如第一候选实体属性、第二候选实体属性）、目标实体属性，甚至是从待处理用例规约中提取出待持久化实体属性，所使用的关键技术可以包括知识图谱、信息抽取技术等。

领域知识用例规约提取模块304用于从待处理领域知识中提取待处理用例规约，以辅助目标业务系统理解运作流程。领域知识用例规约提取模块304具体可以进行用例规约提取，用例规约提取的主要功能是从待处理领域中提取出待处理用例规约，所使用的关键技术可以包括NLP、信息抽取技术等。

持久化代码自动化生成模块305用于根据待持久化实体、待持久化实体属性和待处理用例规约自动化生成数据持久化代码。持久化代码自动化生成模块305具体可以进行代码生成，代码生成的主要功能是根据待持久化实体、待持久化实体属性和待处理用例规约生成数据持久化代码，所使用的关键技术可以包括代码生成技术、模板引擎等。

另外，在训练领域知识识别模型以及在使用领域知识识别模型进行实体识别、属性识别，以及生成待处理用例规约，进而生成数据持久化代码时，都需要获取领域知识作为输入，而领域知识存储在领域知识库中，故本申请实例提供的数据处理方法的整体架构图中还可以包括领域知识库301。领域知识库301中可以存储领域知识，包括文本、图像、音频等多种形式的领域知识。

在得到数据持久化代码后，可以将数据持久化代码在目标业务系统上运行，故图3所示的整体架构图中还可以包括目标业务系统306，目标业务系统用于运行数据持久化代码，实现业务功能。

基于图3所示的整体架构图，本申请实施例提供的另一种数据处理方法的流程图可以参见图4所示，所述方法包括：

S401、输入待处理领域知识。

S402、通过领域知识理解学习模块对待处理领域知识进行处理。

S403、通过领域实体提取模块提取目标实体和目标实体属性。

S404、通过用例规约提取模块提取待处理用例规约。

其中，待处理用例规约可以是基于目标实体和目标实体属性，从待处理领域知识中提取得到的。

S405、基于待持久化实体、待持久化实体属性和待处理用例规约，通过持久化代码自动化生成模块自动生成数据持久化代码。

其中，待持久化实体和待持久化实体属性可以是从待处理用例规约中提取得到的。

S406、将数据持久化代码运行在目标业务系统上。

本申请实施例采用了自动化的方法来从待处理领域知识中提取待持久化实体、待持久化实体属性和待处理用例规约，并根据待持久化实体、待持久化实体属性和待处理用例规约自动生成持久化代码。这种方法极大地提高了目标业务系统构建的效率，同时也确保了目标业务系统的稳定性和可靠性，因为所有的代码都是基于清晰、准确的领域知识生成的。

由于可以自动提取待持久化实体、待持久化实体属性和待处理用例规约，并自动生成数据持久化代码，从而实现了领域知识的高效处理，大大提升了目标业务系统的开发效率和运行质量。

需要说明的是，本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

基于图2对应实施例提供的数据处理方法，本申请实施例还提供一种数据处理装置500。参见图5所示，所述数据处理装置500包括获取单元501、提取单元502、确定单元503和生成单元504：

所述获取单元501，用于获取目标业务系统对应的待处理领域知识；

所述提取单元502，用于从所述待处理领域知识中提取所述目标业务系统的待处理用例规约；

所述确定单元503，用于从所述待处理用例规约中确定待持久化实体和所述待持久化实体对应的待持久化实体属性；

所述生成单元504，用于基于所述待持久化实体、所述待持久化实体属性和所述待处理用例规约生成数据持久化代码。

在一种可能的实现方式中，所述生成单元504，具体用于：

获取持久化代码模板；

在一种可能的实现方式中，所述生成单元504，具体用于：

根据所述待处理用例规约生成业务逻辑代码；

在一种可能的实现方式中，所述提取单元502，具体用于：

从所述待处理领域知识中识别得到操作步骤和交互流程；

基于所述操作步骤和交互流程构建所述待处理用例规约。

在一种可能的实现方式中，所述提取单元502，具体用于：

从所述待处理领域知识中确定目标实体；

在一种可能的实现方式中，所述提取单元502，具体用于：

在一种可能的实现方式中，所述提取单元502，具体用于执行以下至少一种：

在一种可能的实现方式中，所述提取单元502，具体用于：

在一种可能的实现方式中，所述装置还包括训练单元：

在一种可能的实现方式中，所述确定单元503，具体用于：

本申请实施例还提供了一种计算机设备，该计算机设备可以执行数据处理方法。该计算机设备可以是终端，以终端为智能手机为例：

图6示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图6，智能手机包括：射频（英文全称：Radio Frequency，英文缩写：RF）电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真（英文缩写：WiFi）模块670、处理器680、以及电源690等部件。输入单元630可包括触控面板631以及其他输入设备632，显示单元640可包括显示面板641，音频电路660可以包括扬声器661和传声器662。可以理解的是，图6中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据智能手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器680是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行智能手机的各种功能和处理数据。可选的，处理器680可包括一个或多个处理单元；优选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

在本实施例中，需要智能手机中的处理器680执行的步骤可以通过图6所示的结构实现。

本申请实施例提供的计算机设备还可以是服务器，请参见图7所示，图7为本申请实施例提供的服务器700的结构图，服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器，例如中央处理器（Central Processing Units，简称CPU）722，以及存储器732，一个或一个以上存储应用程序742或数据744的存储介质730（例如一个或一个以上海量存储设备）。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

在本实施例中，服务器700中的中央处理器722可以以下步骤：

获取目标业务系统对应的待处理领域知识；

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行前述各个实施例所述的数据处理方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等各种可以存储计算机程序的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取目标业务系统对应的待处理领域知识；

从所述待处理领域知识中提取所述目标业务系统的待处理用例规约，以明确目标业务系统的操作过程和流程，其中，所述待处理用例规约是对目标业务系统中各个用例的详细描述和规范，所述待处理用例规约包括用例的目标、参与者、前置条件、后置条件、基本流程以及异常流程；

从所述待处理用例规约中确定待持久化实体和所述待持久化实体对应的待持久化实体属性，其中包括：对所述待处理用例规约进行实体识别，得到多个第二候选实体，以及对所述待处理用例规约进行属性识别，得到所述多个第二候选实体分别对应的第二候选实体属性；基于持久化决策机制，从所述多个第二候选实体中确定所述待持久化实体，以及基于所述持久化决策机制，从所述待持久化实体对应的第二候选实体属性中确定所述待持久化实体对应的待持久化实体属性；所述待持久化实体为需要进行持久化的实体，待持久化实体对应的待持久化实体属性为需要进行持久化的实体属性，所述持久化实体和待持久化实体对应的待持久化实体属性用于对实体进行跟随和管理，所述持久化决策机制用于决定实体或实体属性需要进行持久化的机制；

基于所述待持久化实体、所述待持久化实体属性和所述待处理用例规约生成数据持久化代码，其中包括：基于所述待持久化实体和所述待持久化实体属性进行对象关系映射，得到持久化操作代码，其中，每一个待持久化实体对应一个或多个数据结构，所述数据结构的属性对应于待持久化实体的待持久化实体属性；根据所述待处理用例规约生成业务逻辑代码，所述业务逻辑代码包括实体的创建、查询、更新和删除；基于所述持久化操作代码和所述业务逻辑代码得到所述数据持久化代码。

2.根据权利要求1所述的方法，其特征在于，所述从所述待处理领域知识中提取所述目标业务系统的待处理用例规约，包括：

从所述待处理领域知识中识别得到操作步骤和交互流程；

基于所述操作步骤和交互流程构建所述待处理用例规约。

3.根据权利要求1所述的方法，其特征在于，所述从所述待处理领域知识中提取所述目标业务系统的待处理用例规约，包括：

从所述待处理领域知识中确定目标实体；

4.根据权利要求3所述的方法，其特征在于，所述从所述待处理领域知识中确定目标实体，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述目标实体进行属性分析，得到所述目标实体的目标实体属性，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述第一候选实体属性在所述待处理领域知识中的重要程度，包括以下至少一种：

7.根据权利要求4所述的方法，其特征在于，所述对所述待处理领域知识进行实体识别，得到多个第一候选实体，包括：

8.根据权利要求7所述的方法，其特征在于，所述领域知识识别模型的训练方式包括：

获取初始领域知识样本；

对所述初始领域知识样本进行去噪处理，得到目标领域知识样本；

基于所述目标领域知识样本对初始网络模型进行预训练，得到预训练模型；

根据所述目标业务系统对应的领域知识样本和样本标签，对所述预训练模型进行调整，得到所述领域知识识别模型，所述样本标签用于标识所述目标业务系统对应的领域知识样本中包括的实体。

9.一种数据处理装置，其特征在于，所述装置包括获取单元、提取单元、确定单元和生成单元：

所述提取单元，用于从所述待处理领域知识中提取所述目标业务系统的待处理用例规约，以明确目标业务系统的操作过程和流程，其中，所述待处理用例规约是对目标业务系统中各个用例的详细描述和规范，所述待处理用例规约包括用例的目标、参与者、前置条件、后置条件、基本流程以及异常流程；

所述确定单元，用于从所述待处理用例规约中确定待持久化实体和所述待持久化实体对应的待持久化实体属性，其中包括：对所述待处理用例规约进行实体识别，得到多个第二候选实体，以及对所述待处理用例规约进行属性识别，得到所述多个第二候选实体分别对应的第二候选实体属性；基于持久化决策机制，从所述多个第二候选实体中确定所述待持久化实体，以及基于所述持久化决策机制，从所述待持久化实体对应的第二候选实体属性中确定所述待持久化实体对应的待持久化实体属性；所述待持久化实体为需要进行持久化的实体，待持久化实体对应的待持久化实体属性为需要进行持久化的实体属性，所述持久化实体和待持久化实体对应的待持久化实体属性用于对实体进行跟随和管理，所述持久化决策机制用于决定实体或实体属性需要进行持久化的机制；

所述生成单元，用于基于所述待持久化实体、所述待持久化实体属性和所述待处理用例规约生成数据持久化代码，其中包括：基于所述待持久化实体和所述待持久化实体属性进行对象关系映射，得到持久化操作代码，其中，每一个待持久化实体对应一个或多个数据结构，所述数据结构的属性对应于待持久化实体的待持久化实体属性；根据所述待处理用例规约生成业务逻辑代码，所述业务逻辑代码包括实体的创建、查询、更新和删除；基于所述持久化操作代码和所述业务逻辑代码得到所述数据持久化代码。

10.根据权利要求9所述的装置，其特征在于，所述提取单元，具体用于：

从所述待处理领域知识中识别得到操作步骤和交互流程；

基于所述操作步骤和交互流程构建所述待处理用例规约。

11.根据权利要求9所述的装置，其特征在于，所述提取单元，具体用于：

从所述待处理领域知识中确定目标实体；

12.根据权利要求11所述的装置，其特征在于，所述提取单元，具体用于：

13.根据权利要求11所述的装置，其特征在于，所述提取单元，具体用于：

14.根据权利要求13所述的装置，其特征在于，所述提取单元，具体用于执行以下至少一种：

15.根据权利要求12所述的装置，其特征在于，所述提取单元，具体用于：

16.根据权利要求15所述的装置，其特征在于，所述装置还包括训练单元，所述训练单元，具体用于：

获取初始领域知识样本；

17.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序中的指令执行权利要求1-8任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。