CN111522606B

CN111522606B - 一种数据处理的方法、装置、设备及存储介质

Info

Publication number: CN111522606B
Application number: CN202010338068.6A
Authority: CN
Inventors: 金述强; 杨清广; 李日璐
Original assignee: Guangdong Youteyun Technology Co ltd
Current assignee: Guangdong Youteyun Technology Co ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2023-08-04
Anticipated expiration: 2040-04-26
Also published as: CN111522606A

Abstract

本申请实施例公开了一种数据处理的方法、设备及存储介质，用于实现组合形成的业务模块能够相对独立，并从该目标状态机中解耦出来，形成新的业务模块，从而降低目标状态机中的业务的耦合度，使得对应的状态机表格内容更易于维护。前述的数据处理的方法包括：从目标状态机确定N个状态子路径，N为大于1的整数；基于N个状态子路径确定M个路径相似度，路径相似度用于指示对应的状态子路径之间的语义相似度，M为大于0的整数；根据M个路径相似度和第一预设阈值，得到Q个业务模块，Q为大于等于0的整数。

Description

一种数据处理的方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，具体涉及一种数据处理的方法、装置、设备及存储介质。

背景技术

状态机是状态转移图，能够基于事件、状态、条件、动作以及迁移组成状态迁移路径，并且表示出有限个状态以及在这些状态之间的转移和动作等行为的数学模型。有限状态机不仅能够用状态转移图表示，还可以用相应的二维的表格——状态机表格来表示。

然而，当状态机业务耦合度高时，会导致状态机表格数据量大，使得工程人员对状态机表格内容进行维护有困难。

发明内容

本申请实施例提供了一种数据处理的方法、装置、设备及存储介质，能有效地降低状态机业务的耦合度。

有鉴于此，本申请实施例提供如下方案：

第一方面，本申请实施例提供一种数据处理的方法，该方法可以包括：

确定目标状态机的N个状态子路径，其中，所述目标状态机包括至少一个初始状态单元和至少一个终止状态单元，所述N为大于1的整数；

基于所述N个状态子路径确定M个路径相似度，所述路径相似度用于指示对应的状态子路径之间的语义相似度，所述M为大于0的整数；

根据所述M个路径相似度和第一预设阈值，得到Q个业务模块，所述Q为大于等于0的整数。

第二方面，本申请实施例提供一种数据处理装置，该数据处理装置可以包括：

路径确定单元，用于确定目标状态机的N个状态子路径，其中，所述目标状态机包括至少一个初始状态单元和至少一个终止状态单元，所述N为大于1的整数；

相似度确定单元，用于将所述路径确定单元确定出的所述N个状态子路径确定M个路径相似度，所述路径相似度用于指示对应的状态子路径之间的语义相似度，所述M为大于0的整数；

组合单元，用于根据所述相似度确定单元确定的所述M个路径相似度和第一预设阈值，得到Q个业务模块，所述Q为大于等于0的整数。

可选地，所述相似度确定单元，具体用于：

确定第一状态子路径中的m个第一状态单元，以及确定第二状态子路径中的n个第二状态单元，其中，所述第一状态子路径与所述第二状态子路径为所述N个状态子路径中的任意两个状态子路径，所述m、n为均大于0的整数；

确定所述第一状态子路径为基准子路径；

逐一根据每个所述第一状态单元的语义信息以及所述n个第二状态单元的语义信息，得到m个第一语义相似度，每个所述第一语义相似度用于指示对应的第一状态单元与所述第二状态子路径之间的语义相似度；

通过预设加权平均算法对所述m个第一语义相似度进行处理，得到第一路径相似度，其中，所述M个路径相似度包括所述第一路径相似度。

可选地，所述相似度确定单元，具体用于将每个所述第一状态单元的语义信息分别与所述n个第二状态单元的语义信息进行比较，以得到所述每个第一状态单元的n个语义相似度；

逐一确定每个所述第一状态单元的所述n个语义相似度中的最大值，得到m个第一语义相似度。

可选地，所述组合单元，具体用于：

判断所述第一路径相似度是否大于所述第一预设阈值；

在所述第一路径相似度大于所述第一预设阈值时，将所述第一状态子路径和所述第二状态子路径组合为一个业务模块。

可选地，所述相似度确定单元，还具体用于：

在所述第一路径相似度不大于所述第一预设阈值时，则确定所述第二状态子路径为所述基准子路径，并逐一将每个所述第二状态单元分别与所述m个第一状态单元进行语义比较，以得到所述每个第二状态单元的m个语义相似度；

逐一确定每个所述第二状态单元的所述m个语义相似度中的最大值，得到n个第二语义相似度，每个所述第二语义相似度用于指示对应的第二状态单元与所述第一状态子路径之间的语义相似度；

通过所述预设加权平均算法对所述n个第二语义相似度进行处理，得到第二路径相似度，其中，所述M个路径相似度包括所述第二路径相似度。

可选地，所述相似度确定单元，还具体用于：

在组合单元得到Q个业务模块之后，将所述Q个业务模块的任意两个业务模块进行语义比较，得到对应的第一业务相似度；

将所述第一业务相似度与第二预设阈值进行比较；

在所述第一业务相似度大于所述第二预设阈值时，则将所述第一业务相似度对应的所述两个业务模块进行组合，得到目标业务模块。

可选地，所述相似度确定单元，具体用于：

确定第一业务模块中的x个第三状态单元，以及确定第二业务模块中的y个第四状态单元，其中，所述Q个业务模块包括所述第一业务模块与所述第二业务模块，所述x、y为均大于0的整数；

确定所述第一业务模块为基准业务模块，并逐一将每个所述第三状态单元分别与所述y个第四状态单元进行语义比较，以得到所述每个第三状态单元的y个语义相似度；

逐一确定每个所述第三状态单元的所述y个语义相似度中的最大值，得到x个第三语义相似度，每个所述第三语义相似度用于指示对应的第三状态单元与所述第二业务模块之间的语义相似度；

通过预设加权平均算法对所述x个第三语义相似度进行处理，得到所述第一业务相似度。

可选地，所述相似度确定单元，还具体用于：

在所述将所述第一业务相似度与第二预设阈值进行比较之后，当所述第一业务相似度不大于所述第二预设阈值时，则确定所述第二业务模块为所述基准业务模块，并逐一将每个所述第四状态单元分别与所述x个第三状态单元进行语义比较，以得到所述每个第四状态单元的x个语义相似度；

逐一确定每个所述第四状态单元的所述x个语义相似度中的最大值，得到y个第四语义相似度，每个所述第四语义相似度用于指示对应的第四状态单元与所述第一业务模块的语义相似度；

通过所述预设加权平均算法对所述y个第四语义相似度进行处理，得到第二业务相似度。

可选地，所述路径确定单元，具体用于：

确定所述N个状态子路径中任意一个状态子路径的初始状态单元为所述目标状态机的初始状态单元中的其中一个；

所述路径确定单元，用于确定所述N个状态子路径中任意一个状态子路径的终止状态单元为所述目标状态机的终止状态单元中的其中一个。

第三方面，本申请实施例提供一种计算机设备，该计算机设备包括：输入/输出(I/O)接口、处理器和存储器，存储器中存储有程序指令；

处理器用于执行存储器中存储的程序指令，以用于实现如上述第一方面、第一方面任意一种可能实现方式的方法。

本申请第四方面提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机可执行指令，计算机可执行指令用于执行如第一方面、第一方面任意一种可能实现方式的方法。

本申请实施例的第五方面提供了一种包含指令的计算机程序产品，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，确定目标状态机的N个状态子路径，基于所确定的N个状态子路径来确定出M个路径相似度，使得每个路径相似度都用于指示对应的状态子路径之间的语义相似度，然后将每个路径相似度与第一预设阈值进行比较，在路径相似度大于第一预设阈值时，则将对应的状态子路径进行组合，得到相应的Q个业务模块。实施例中，将目标状态机确定出的N个状态子路径，以此来确定出M个路径相似度，在路径相似度大于第一预设阈值时，则将对应的状态子路径进行组合，使得组合形成的业务模块能够相对独立，并从该目标状态机中解耦出来，形成新的业务模块，从而降低目标状态机的业务耦合度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1是本申请实施例提供的数据处理的方法的一个实施例示意图；

图2是本申请实施例中提供的一个目标状态机的示意图；

图3是本申请实施例中提供的数据处理的另一实施例的示意图；

图4是本申请实施例中提供的比较语义信息的示意图；

图5是本申请实施例中提供的业务模块的示意图；

图6是本申请实施例中提供的另一比较语义信息的示意图；

图7是本申请实施例提供的数据处理的方法的另一个实施例示意图；

图8是本申请实施例中提供的数据处理的另一实施例的示意图；

图9是本申请实施例中提供的数据处理装置的一个实施例示意图；

图10是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

本申请实施例提供了一种数据处理的方法、装置、设备及存储介质，基于在路径相似度大于第一预设阈值时，则将对应的状态子路径进行组合，使得组合形成的业务模块能够相对独立，并从该目标状态机中解耦处理，形成新的业务模块，从而降低目标状态机的业务耦合度，使得其对应的状态机表格的内容更易于维护。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，在状态机中的业务出现耦合程度较高的时候，由于状态机的表格内容数据量较大，工程人员对该表格内容进行维护会出现困难。

为了解决上述问题，本申请实施例中提供了一种数据处理的方法，请参阅图1，为本申请实施例提供的数据处理的方法的一个实施例示意图。

如图1所示，本申请实施例提供的数据处理的方法可以包括：

101、确定目标状态机的N个状态子路径，其中，所述目标状态机包括至少一个初始状态单元和至少一个终止状态单元，所述N为大于1的整数。

本实施例中，在某个状态机中，由状态、条件、以及动作形成状态迁移路径，在一个状态下，当一个条件被满足，将会触发一个动作并执行一次状态的迁移，或者直接执行一次状态的迁移，并且这些状态之间具备状态迁移连续性。因此，可以从目标状态机中确定N个状态子路径，每个状态子路径中都可以由状态、条件以及动作形成，另外，由于状态是状态机中的节点，因此也可以其称为状态单元，一个状态机需要包括用以表示其执行开始的初始状态单元以及表示其终端状态的终止状态单元，一个耦合度高的状态机往往包括至少一个初始状态单元和至少一个终止状态单元。

举例来说，请参阅图2，为本申请实施例中提供的一个目标状态机的示意图。从图2中可以看出，该目标状态机中的状态子路径，如：“编辑状态-待审批/审批中-开放-关闭”、“编辑状态-待审批/审批中-作废”或者“编辑状态-待审批/审批中-开放-作废”等等。

需要理解的是，图2中所示出的目标状态机以及相应的N个状态子路径仅仅是一个示意性的描述，在实际应用中还可以是其他的目标状态机以及相应的状态子路径，具体在本申请实施例中将不做限定说明。

可选地，在一些实施例中，所述N个状态子路径中任意一个状态子路径的初始状态单元为所述目标状态机的初始状态单元中的其中一个；

所述N个状态子路径中任意一个状态子路径的终止状态单元为所述目标状态机的终止状态单元中的其中一个。

102、基于N个状态子路径确定M个路径相似度，所述路径相似度用于指示对应的状态子路径之间的语义相似度，M为大于0的整数。

实施例中，在确定N个状态子路径后，需要进一步地将该N个状态子路径进行两两比较，从而得到相应的两个状态子路径之间的语义相似度，这样便可以使用相应的两个状态子路径之间的语义相似度来表示出相应的路径相似度。语义相似度越高的两个文本在语义上越相似，因此若该路径相似度大于第一预设阈值，那么就说明该路径相似度所对应的两个状态子路径的相似程度较高，因此可以将该路径相似度所对应的两个状态子路径进行组合，形成一个独立的业务模块，从而将该业务模块从目标状态机中拆解出来，形成与目标状态机相比耦合度较低的新的状态机。

可选的，在一些实施例中，步骤102中的基于N个状态子路径确定M个路径相似度，可以参照图3进行理解，图3为本申请实施例中提供的数据处理的另一实施例的示意图。如图3所示，本申请实施例提供的数据处理的方法可以包括：

S301、确定第一状态子路径中的m个第一状态单元，以及确定第二状态子路径中的n个第二状态单元，其中，第一状态子路径与第二状态子路径为N个状态子路径中的任意两个状态子路径，m、n为均大于0的整数；

S302、确定第一状态子路径为基准子路径；

S303、逐一根据每个第一状态单元的语义信息以及n个第二状态单元的语义信息，得到m个第一语义相似度，每个第一语义相似度用于指示对应的第一状态单元与第二状态子路径之间的语义相似度；

S304、通过预设加权平均算法对m个第一语义相似度进行处理，得到第一路径相似度，其中，所述M个路径相似度包括所述第一路径相似度。

实施例中，针对N个状态子路径中的任意两个状态子路径，可以将这任意两个状态子路径分别称为第一状态子路径和第二状态子路径，而第一状态子路径中包括有m个第一状态单元，以及第二状态子路径中包括有n个第二状态单元。那么从该N个状态子路径中任意选取出第一状态子路径和第二状态子路径之后，便可以先确定出第一状态子路径中的m个第一状态单元，以及第二状态子路径中的n个第二状态单元。

这样，在确定第一状态子路径为基准子路径时，可以逐一地将每个第一状态单元的语义信息与第二状态子路径中的n个第二状态单元的语义信息进行语义比较，从而得到m个第一语义相似度，即每个第一语义相似度可以用来指示对应的第一状态单元与第二状态子路径之间的语义相似度。

举例来说，在图2所描述的目标状态机的基础上，假设第一状态子路径为“编辑状态-待审批/审批中-作废”，第二状态子路径为“编辑状态-待审批/审批中-开放-作废”。而该第一状态子路径中包括有3个第一状态单元，分别对应于状态“编辑状态”、“待审批/审批中”以及“作废”；第二状态子路径中包括有4个第二状态单元，分别对应于状态“编辑状态”、“待审批/审批中”、“开放”以及“作废”。应理解的是，所描述的第一状态子路径为“编辑状态-待审批/审批中-作废”，第二状态子路径为“编辑状态-待审批/审批中-开放-作废”，仅仅是一个示意性的描述，在实际应用中还可以是其他的状态子路径，具体在本申请实施例中将不做赘述。

为了方便理解，请参阅图4，为本申请实施例中提供的比较语义信息的示意图，从图4中可以看出，将第一状态子路径中的3个第一状态单元分别记为A1、A2、A3；将第二状态子路径中的4个第二状态单元分别记为B1、B2、B3、B4。

在选择第一状态子路径为基准子路径时，可以先将A1分别与B1、B2、B3、B4逐一地进行语义信息的比较，如：A1的语义信息为短语“编辑状态”对应的语义信息，B1、B2、B3、B4的语义信息分别为短语“编辑状态”、短语“待审批/审批中”、短语“开放”以及短语“作废”各自对应的语义信息，通过将短语“编辑状态”对应的语义信息分别与短语“编辑状态”、短语“待审批/审批中”、短语“开放”以及短语“作废”各自对应的语义信息进行比较，分别得到的语义相似度为a11、a12、a13、a14，那么这样便可以得到A1相对于第二状态子路径之间的第一语义相似度。

进一步地，将A2分别与B1、B2、B3、B4逐一地进行语义信息的比较，如：A2的语义信息为短语“待审批/审批中”对应的语义信息，通过将短语“待审批/审批中”对应的语义信息分别与短语“编辑状态”、短语“待审批/审批中”、短语“开放”以及短语“作废”各自对应的语义信息进行比较，分别得到的语义相似度为a21、a22、a23、a24，那么这样便可以得到A2相对于第二状态子路径之间的第一语义相似度。

进一步地，将A3分别与B1、B2、B3、B4逐一地进行语义信息的比较，如：A3的语义信息为词语“作废”对应的语义信息，通过将词语“作废”对应的语义信息分别与短语“编辑状态”、短语“待审批/审批中”、词语“开放”以及词语“作废”各自对应的语义信息进行比较，分别得到的语义相似度为a31、a32、a33、a34，那么这样便可以得到A3相对于第二状态子路径之间的第一语义相似度。

综上，便可以得到第一状态子路径中的3个第一语义相似度。而在得到第一状态子路径中的3个第一语义相似度后，可以通过预设加权平均算法对这3个第一语义相似度进行处理，如：将这3个第一语义相似度先进行加权求和后，再进行平均，这样将最终得到的语义相似度作为第一状态子路径与第二状态子路径之间的第一路径相似度。

需要理解的是，前述的A1、A2、A3、B1、B2、B3、B4仅仅是为了方便地描述相应的第一状态单元、第二状态单元，具体在实际应用中还可以使用其他的标识进行表示，具体在本申请实施例中将不做限定。

同样的，在得到前述第一状态子路径和第二状态子路径之间的第一路径相似度后，参照前述步骤S301～S304所描述的内容进行理解，可以基于N个状态子路径得到最多个第一路径相似度。

可选的，在另一些实施例中，前述图3中的步骤S303：逐一根据每个第一状态单元的语义信息以及n个第二状态单元的语义信息，得到m个第一语义相似度，可以通过以下方式进行确定，即：

将每个第一状态单元的语义信息分别与n个第二状态单元的语义信息进行比较，以得到每个第一状态单元的n个语义相似度；

逐一确定每个第一状态单元的n个语义相似度中的最大值，得到m个第一语义相似度。

举例来说，在以第一状态子路径为基准子路径时，可以将A1的语义信息分别与B1、B2、B3、B4的语义信息进行比较，从而得到该A1的4个语义相似度,如：a11、a12、a13、a14。这样，便可以从a11、a12、a13、a14中选择最大值，将该最大值所对应的语义相似度作为该A1所对应的第一语义相似度。

以此类推，将A2的语义信息分别与B1、B2、B3、B4的语义信息进行比较，从而得到该A2的4个语义相似度，如：a21、a22、a23、a24。这样，便可以从a21、a22、a23、a24中选择最大值，将该最大值所对应的语义相似度作为该A2所对应的第一语义相似度。

将A3的语义信息分别与B1、B2、B3、B4的语义信息进行比较，从而得到该A3的4个语义相似度，如：a31、a32、a33、a34。这样，便可以从a31、a32、a33、a34中选择最大值，将该最大值所对应的语义相似度作为该A3所对应的第一语义相似度。

综上，便可以得到第一状态子路径中的3个第一语义相似度。

103、根据所述M个路径相似度和第一预设阈值，得到Q个业务模块，所述Q为大于等于0的整数。

实施例中，所描述的第一预设阈值可以根据实际需求来设定，在本申请实施例中将不做限定。

针对这M个路径相似度中的其中一个路径相似度，若该路径相似度大于第一预设阈值，那么就说明该路径相似度所对应的两个状态子路径的相似程度较高，因此可以将该路径相似度所对应的两个状态子路径进行组合，形成一个独立的业务模块，从而将该业务模块从目标状态机中拆解出来，形成与目标状态机耦合度较低的新的状态机。

可选的，在另一些实施例中，所述根据所述M个路径相似度和第一预设阈值，得到Q个业务模块，包括：

判断所述第一路径相似度是否大于所述第一预设阈值；

当所述第一路径相似度大于所述第一预设阈值时，将所述第一状态子路径和所述第二状态子路径组合为一个业务模块。

例如：在图4所描述的基础上，如图5所示，为本申请实施例中提供的业务模块的示意图。从图5可以看出，在第一状态子路径与第二状态子路径之间的第一路径相似度大于第一预设阈值时，可以将该第一状态子路径和第二状态子路径组合，形成独立的业务模块，即形成一个新的状态机，即若所述第一状态子路径和所述第二状态子路径在所述目标状态机中是耦合在一起的，就将这两条状态子路径还原为耦合状态并组成为一个业务模块，若所述第一状态子路径和所述第二状态子路径在所述目标状态机中并非耦合在一起的，就将这两条状态子路径直接组合成为一个业务模块，该业务模块中两条状态子路径是分离的。

同理的，针对其余的路径相似度，也可以参照图5所描述的内容进行理解，具体在本申请实施例中将不做具体赘述。综上，便可以得到Q个业务模块，Q为大于0的整数。

可选的，在另一些实施例中，所述基于所述N个状态子路径确定M个路径相似度，还可以包括：

当所述第一路径相似度不大于所述第一预设阈值时，则确定第二状态子路径为基准子路径，并逐一将每个第二状态单元分别与m个第一状态单元进行语义比较，以得到每个第二状态单元的m个语义相似度；

逐一确定每个第二状态单元的m个语义相似度中的最大值，得到n个第二语义相似度，每个第二语义相似度用于指示对应的第二状态单元与第一状态子路径之间的语义相似度；

通过预设加权平均算法对n个第二语义相似度进行处理，得到第一状态子路径与第二状态子路径之间的第二路径相似度，其中，所述M个路径相似度包括所述第二路径相似度。

实施例中，在以第一状态子路径为基准子路径时，若确定出第一路径相似度不大于第一预设阈值时，那么就将第二状态子路径确定为基准子路径，可以进一步地提高确定语义相似度的确定性。

因此，在以第二状态子路径为基准子路径时，可以逐一地将每个第二状态单元的语义信息与第一状态子路径中的m个第一状态单元的语义信息进行比较，从而得到n个第二语义相似度，即每个第二语义相似度可以用来指示对应的第二状态单元与第一状态子路径之间的语义相似度。

举例来说，在图2所描述的目标状态机的基础上，请参阅图6，为本申请实施例中提供的另一比较语义信息的示意图，从图6中可以看出，将第一状态子路径中的3个第一状态单元分别记为A1、A2、A3；将第二状态子路径中的4个第二状态单元分别记为B1、B2、B3、B4。

在选择第二状态子路径为基准子路径时，可以先将B1分别与A1、A2、A3逐一地进行语义信息的比较，如：B1的语义信息为短语“编辑状态”对应的语义信息，A1、A2、A3的语义信息分别为短语“编辑状态”、短语“待审批/审批中”以及词语“作废”各自对应的语义信息，通过将短语“编辑状态”对应的语义信息分别与短语“编辑状态”、短语“待审批/审批中”以及词语“作废”各自对应的语义信息进行比较，便可以得到B1的3个语义相似度，如：b11、b12、b13。这样，从b11、b12、b13中选取最大值，将该最大值所对应的语义相似度作为该B1所对应的第二语义相似度，即从该B1所对应的第二语义相似度来表示出B1相对于第一状态子路径之间的语义相似度。

进一步地，将B2分别与A1、A2、A3逐一地进行语义信息的比较，如：B2的语义信息为短语“待审批/审批中”对应的语义信息，通过将短语“待审批/审批中”对应的语义信息分别与短语“编辑状态”、短语“待审批/审批中”以及词语“作废”各自对应的语义信息进行比较，便可以得到B2的3个语义相似度如：b21、b22、b23。这样，从b21、b22、b23中选取最大值，将该最大值所对应的语义相似度作为该B2所对应的第二语义相似度，即从该B2所对应的第二语义相似度来表示出B2相对于第一状态子路径之间的语义相似度。

进一步地，将B3分别与A1、A2、A3逐一地进行语义信息的比较，如：B3的语义信息为词语“开放”对应的语义信息，通过将词语“开放”对应的语义信息分别与短语“编辑状态”、短语“待审批/审批中”以及词语“作废”各自对应的语义信息进行比较，便可以得到B3的3个语义相似度如：b31、b32、b33。这样，从b31、b32、b33中选取最大值，将该最大值所对应的语义相似度作为该B3所对应的第二语义相似度，即从该B3所对应的第二语义相似度来表示出B3相对于第一状态子路径之间的语义相似度。

进一步地，将B4分别与A1、A2、A3逐一地进行语义信息的比较，如：B4的语义信息为词语“作废”对应的语义信息，通过将词语“作废”对应的语义信息分别与短语“编辑状态”、短语“待审批/审批中”、以及词语“作废”各自对应的语义信息进行比较，便可以得到B4的3个语义相似度如：b41、b42、b43。这样，从b41、b42、b43中选取最大值，将该最大值所对应的语义相似度作为该B4所对应的第二语义相似度，即从该B4所对应的第二语义相似度来表示出B4相对于第一状态子路径之间的语义相似度。

综上，便可以得到第二状态子路径中的4个第二语义相似度。而在得到第二状态子路径中的4个第二语义相似度后，可以通过预设加权平均算法对这4个第二语义相似度进行处理，如：将这4个第二语义相似度先进行加权求和后，再进行平均，这样将最终得到的语义相似度作为第二状态子路径与第一状态子路径之间的第二路径相似度，从而使用该第二路径相似度来描述出对应的第二状态子路径相对于第一状态子路径的语义相似度。

而在得到第二状态子路径与第一状态子路径之间的第二路径相似度之后，也可以将该第二路径相似度与第一预设阈值进行比较，若该第二路径相似度大于第一预设阈值，那么也可以将该第一状态子路径与第二状态子路径进行组合，从而形成独立的业务模块。

同样的，在得到前述第一状态子路径和第二状态子路径之间的第二路径相似度后，若在剩余的N-2个状态子路径中的任意两个状态子路径计算语义相似度后，或前述第一状态子路径或第二状态子路径中的一个与剩余的N-2个状态子路径中的任意一个计算语义相似度后，所得到的第一路径相似度不大于第一预设阈值，那么也可以参照前述确定第二路径相似度的内容进行理解，以此来确定出相应的第二路径相似度。

为了便于理解，本申请实施例中提供了一种数据处理的方法，请参阅图7，为本申请实施例提供的数据处理的方法的另一个实施例示意图。

如图7所示，本申请实施例提供的数据处理的方法可以包括：

701、确定目标状态机的N个状态子路径，其中，所述目标状态机包括至少一个初始状态单元和至少一个终止状态单元，N为大于1的整数。

702、基于N个状态子路径确定M个路径相似度，路径相似度用于指示对应的状态子路径之间的语义相似度，M为大于0的整数。

703、根据所述M个路径相似度和第一预设阈值，得到Q个业务模块，所述Q为大于等于0的整数实施例中，步骤701-703可以参照图1中步骤101-103所描述的内容进行理解，具体此处将不做赘述。

704、将Q个业务模块的任意两个业务模块进行语义比较，得到对应的第一业务相似度。

实施例中，在基于N个状态子路径确定出Q个业务模块后，可以进一步地将该Q个业务模块进行两两比较，从而得到相应的两个业务模块之间的语义相似度，这样便可以使用相应的两个业务模块之间的语义相似度来表示出相应的第一业务相似度。若该第一业务相似度大于第二预设阈值，那么就说明该第一业务相似度所对应的两个业务模块的相似程度较高，因此可以将该第一业务相似度所对应的两个业务模块进行组合，形成一个独立的目标业务模块。

可选的，在一些实施例中，步骤704中的将Q个业务模块的任意两个业务模块进行比较，得到对应的第一业务相似度，具体可以参照图8进行理解，图8为本申请实施例中提供的数据处理的另一实施例的示意图。如图8所示，本申请实施例提供的数据处理的方法可以包括：

S801、确定第一业务模块中的x个第三状态单元，以及确定第二业务模块中的y个第四状态单元，其中，Q个业务模块包括第一业务模块与第二业务模块，x、y为均大于0的整数；

S802、确定第一业务模块为基准业务模块，并逐一将每个第三状态单元分别与y个第四状态单元进行语义比较，以得到每个第三状态单元的y个语义相似度；

S803、逐一确定每个第三状态单元的y个语义相似度中的最大值，得到x个第三语义相似度，每个第三语义相似度用于指示对应的第三状态单元与第二业务模块之间的语义相似度；

S804、通过预设加权平均算法对x个第三语义相似度进行处理，得到第一业务相似度。

实施例中，针对Q个业务模块中的任意两个业务模块，可以将这任意两个业务模块分别称为第一业务模块和第二业务模块，而第一业务模块中包括有x个第三状态单元，以及第二业务模块中包括有y个第四状态单元。那么从该Q个业务模块任意选取出第一业务模块和第二业务模块之后，便可以先确定出第一业务模块中的x个第三状态单元，以及第二业务模块中的y个第四状态单元。

这样，在确定第一业务模块为基准业务模块时，可以逐一地将每个第三状态单元的语义信息与第二业务模块中的y个第四状态单元的语义信息进行比较，从而得到每个第三状态单元的y个语义相似度。这样，逐一地确定每个第三状态单元的y个语义相似度中的最大值，将每个最大值所对应的语义相似度确定为对应的第三状态单元与第二业务模块之间的语义相似度，即得到x个第三语义相似度。

而在得到x个第三语义相似度后，可以通过预设加权平均算法对这x个第三语义相似度进行处理，从而得到能够用于指示对应的第一业务模块相对于第二业务模块之间的第一业务相似度。

举例来说，假设第一业务模块由“编辑状态-待审批/审批中-作废”和“编辑状态-待审批/审批中-开放-作废”构成；而第二业务模块由“编辑状态-待审批/审批中-审批退回”构成。相应的，该第一业务模块中包括有4个第三状态单元，分别对应于状态“编辑状态”、“待审批/审批中”、“开放”以及“作废”；第二业务模块中包括有3个第四状态单元，分别对应于状态“编辑状态”、“待审批/审批中”、“审批退回”。应理解的是，所描述的第一业务模块由“编辑状态-待审批/审批中-作废”和“编辑状态-待审批/审批中-开放-作废”构成，而第二业务模块由“编辑状态-待审批/审批中-审批退回”构成，仅仅是一个示意性的描述，在实际应用中还可以是其他的业务模块，具体在本申请实施例中将不做赘述。

可以理解的是，针对每个第三状态单元，将每个第三状态单元的语义信息与第二业务模块中的y个第四状态单元的语义信息进行比较，可以参照图4中所描述的比较过程进行理解，具体此处将不做赘述。

同样的，在得到前述第一业务模块和第二业务模块之间的第一业务相似度后，参照前述步骤S801～S804所描述的内容进行理解，便可以基于Q个业务模块得到最多个第一业务相似度。

705、将第一业务相似度与第二预设阈值进行比较。

实施例中，所描述的第二预设阈值可以根据实际需求来设定，在本申请实施例中将不做限定。

706、当第一业务相似度大于第二预设阈值时，则将第一业务相似度对应的两个业务模块进行组合，得到目标业务模块。

实施例中，针对第一业务相似度，若该第一业务相似度大于第二预设阈值，那么就说明该第一业务相似度所对应的两个业务模块的相似程度较高，因此可以将该第一业务相似度所对应的两个业务模块进行组合，形成一个独立的目标业务模块，从而将该第一业务模块和第二业务模块组合成新的目标业务模块，形成与目标状态机相比耦合度较低的新的状态机。

可选的，在另一些实施例中，在将第一业务相似度与第二预设阈值进行比较之后，还可以包括：

若第一业务相似度不大于第二预设阈值时，则确定第二业务模块为基准业务模块，并逐一将每个第四状态单元分别与x个第三状态单元进行语义比较，以得到每个第四状态单元的x个语义相似度；

逐一确定每个第四状态单元的x个语义相似度中的最大值，得到y个第四语义相似度，每个第四语义相似度用于指示对应的第四状态单元与第一业务模块的语义相似度；

通过预设加权平均算法对y个第四语义相似度进行处理，得到第二业务相似度。

实施例中，在以第一业务模块为基准业务模块时，若确定出第一业务相似度不大于第二预设阈值时，那么就将第二业务模块确定为基准业务模块，可以进一步地提高确定语义相似度的确定性。

因此，在以第二业务模块为基准业务模块时，可以逐一地将每个第四状态单元的语义信息与第一业务模块中的x个第三状态单元的语义信息进行比较，从而得到y个第四语义相似度，即每个第四语义相似度可以用来指示对应的第四状态单元与第一业务模块之间的语义相似度。

可以理解的是，针对每个第四状态单元，将每个第四状态单元的语义信息与第一业务模块中的x个第三状态单元的语义信息进行比较，可以参照图6中所描述的比较过程进行理解，具体此处将不做赘述。

而在得到第二业务模块与第一业务模块之间的第二业务相似度之后，也可以将该第二业务相似度与第二预设阈值进行比较，若该第二业务相似度大于第一预设阈值，那么也可以将该第一业务模块与第二业务模块进行组合，从而形成独立的目标业务模块。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

下面对本申请实施例中的数据处理装置进行详细描述，请参阅图9，图9为本申请实施例中提供的数据处理装置的一个实施例示意图，该数据处理装置可以包括：

路径确定单元901，用于确定目标状态机的N个状态子路径，其中，所述目标状态机包括至少一个初始状态单元和至少一个终止状态单元，所述N为大于1的整数；

相似度确定单元902，用于将所述路径确定单元901确定出的所述N个状态子路径确定M个路径相似度，所述路径相似度用于指示对应的状态子路径之间的语义相似度，所述M为大于0的整数；

组合单元903，用于根据所述相似度确定单元902确定的所述M个路径相似度和第一预设阈值，得到Q个业务模块，所述Q为大于等于0的整数。

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的数据处理装置的另一实施例中，所述相似度确定单元902，具体用于：

确定所述第一状态子路径为基准子路径；

将每个所述第一状态单元的语义信息分别与所述n个第二状态单元的语义信息进行比较，以得到所述每个第一状态单元的n个语义相似度；

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的数据处理装置的另一实施例中，所述组合单元903，具体用于：

判断所述第一路径相似度是否大于所述第一预设阈值；

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的数据处理装置的另一实施例中，所述相似度确定单元902，还具体用于：

当所述第一路径相似度不大于所述第一预设阈值时，则确定所述第二状态子路径为所述基准子路径，并逐一将每个所述第二状态单元分别与所述m个第一状态单元进行语义比较，以得到所述每个第二状态单元的m个语义相似度；

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的数据处理装置的另一实施例中，所述相似度确定单元902，还用于在组合单元903得到Q个业务模块之后，将所述Q个业务模块的任意两个业务模块进行语义比较，得到对应的第一业务相似度；

所述组合单元903，用于将所述第一业务相似度与第二预设阈值进行比较；

所述组合单元903，用于在所述第一业务相似度大于所述第二预设阈值时，则将所述第一业务相似度对应的所述两个业务模块进行组合，得到目标业务模块。

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的数据处理装置的另一实施例中，所述相似度确定单元902，用于：

在将所述第一业务相似度与第二预设阈值进行比较之后，当所述第一业务相似度不大于所述第二预设阈值时，确定所述第二业务模块为所述基准业务模块，并逐一将每个所述第四状态单元分别与所述x个第三状态单元进行语义比较，以得到所述每个第四状态单元的x个语义相似度；

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的数据处理装置的另一实施例中，所述路径确定单元901，具体用于：

确定所述N个状态子路径中任意一个状态子路径的终止状态单元为所述目标状态机的终止状态单元中的其中一个。

上面从模块化功能实体的角度对本申请实施例中的数据处理装置进行描述，下面从硬件处理的角度对本申请实施例中的计算机设备进行描述。图10是本申请实施例提供的计算机设备的结构示意图，该计算机设备可以包括上述所描述的数据处理装置等，该计算机设备可因配置或性能不同而产生比较大的差异，该计算机设备可以包括至少一个处理器1001，通信线路1007，存储器1003以及至少一个通信接口1004。

处理器1001可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路1007可包括一通路，在上述组件之间传送信息。

通信接口1004，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器1003可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路1007与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器1003用于存储执行本申请方案的计算机执行指令，并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的计算机执行指令，从而实现本申请上述实施例提供的数据处理的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，该计算机设备可以包括多个处理器，例如图10中的处理器1001、处理器1002。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，该计算机设备还可以包括输出设备1005和输入设备1006。输出设备1005和处理器1001通信，可以以多种方式来显示信息。输入设备1006和处理器1001通信，可以以多种方式接收用户的输入。例如，输入设备1006可以是鼠标、触摸屏装置或传感装置等。

上述的该计算机设备可以是一个通用装置或者是一个专用装置。在具体实现中，该计算机设备可以是终端设备、移动终端、台式机、便携式电脑、nas服务器、无线终端装置、嵌入式装置或有图10中类似结构的装置。本申请实施例不限定该计算机设备的类型。

在本申请实施例中，该计算机设备所包括的处理器1001还具有以下功能：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例该方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理的方法，其特征在于，包括：

根据所述M个路径相似度和第一预设阈值，得到Q个业务模块，所述Q为大于等于0的整数；

所述基于所述N个状态子路径确定M个路径相似度，包括：

确定所述第一状态子路径为基准子路径；

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述第一状态单元的语义信息以及所述n个第二状态单元的语义信息，得到m个第一语义相似度，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述M个路径相似度和第一预设阈值，得到Q个业务模块，包括：

判断所述第一路径相似度是否大于所述第一预设阈值；

4.根据权利要求3所述的方法，其特征在于，所述基于所述N个状态子路径确定M个路径相似度，还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述得到Q个业务模块之后，所述方法还包括：

将所述Q个业务模块的任意两个业务模块进行语义比较，得到对应的第一业务相似度；

将所述第一业务相似度与第二预设阈值进行比较；

当所述第一业务相似度大于所述第二预设阈值时，则将所述第一业务相似度对应的所述两个业务模块进行组合，得到目标业务模块。

6.根据权利要求5所述的方法，其特征在于，所述将所述Q个业务模块的任意两个业务模块进行语义比较，得到对应的第一业务相似度，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述第一业务相似度与第二预设阈值进行比较之后，还包括：

当所述第一业务相似度不大于所述第二预设阈值时，则确定所述第二业务模块为所述基准业务模块，并逐一将每个所述第四状态单元分别与所述x个第三状态单元进行语义比较，以得到所述每个第四状态单元的x个语义相似度；

8.根据权利要求1所述的方法，其特征在于，所述N个状态子路径中任意一个状态子路径的初始状态单元为所述目标状态机的初始状态单元中的其中一个；

9.一种数据处理装置，其特征在于，包括：

相似度确定单元，用于基于所述N个状态子路径确定M个路径相似度，所述路径相似度用于指示对应的状态子路径之间的语义相似度，所述M为大于0的整数；

组合单元，用于根据所述M个路径相似度和第一预设阈值，得到Q个业务模块，所述Q为大于等于0的整数；

所述相似度确定单元，具体用于：

确定所述第一状态子路径为基准子路径；

10.一种计算机设备，其特征在于，所述计算机设备包括：输入/输出(I/O)接口、处理器和存储器，

所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1-8中任一所述的方法。

11.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1-8中一项所述的方法。