CN105446952B

CN105446952B - 用于处理语义片段的方法和系统

Info

Publication number: CN105446952B
Application number: CN201410412445.0A
Authority: CN
Inventors: 薛亮; 贾骥; 王维杰; 段炜华; 徐强; 卢江
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2014-08-20
Filing date: 2014-08-20
Publication date: 2019-03-19
Anticipated expiration: 2034-08-20
Also published as: US20180246881A1; CN105446952A; US10049101B2; US20160055147A1

Abstract

本公开内容涉及用于处理语义片段的方法和系统。本发明的一个实施例提供一种用于处理语义片段的方法，所述方法包括：获得多组语义片段，所述多组语义片段至少包括从第一数据处理流程生成的第一组语义片段以及从第二数据处理流程生成的第二组语义片段，所述第一数据处理流程不同于所述第二数据处理流程；以及基于语义的等效性合并所述第一组语义片段和所述第二组语义片段。还公开了相应的系统。

Description

用于处理语义片段的方法和系统

技术领域

本发明的实施例总体上涉及数据处理领域，更具体地，涉及用于处理语义片段的方法和系统。

背景技术

在很多情况下，数据需要按照预先确定的步骤或者阶段被处理，以便完成特定的数据处理任务。数据处理的这些步骤或阶段通常由“数据处理流程”(data processingflow)规定。具体而言，数据处理流程可以规定用于处理数据的节点，在这些节点处对数据所做的操作或活动，以及数据在节点之间的流动，等等。数据处理流程可以被数据处理引擎解析，从而控制数据的分发和处理。例如，对于通过数字化方式实现的业务，与该业务相关的数据可能需要在不同的人员、部门和/或分支机构之间以预定的顺序被逐级处理。描述这种数据处理的流程被称为“业务流”，它是数据处理流程的示例之一。

为了完成不同的数据处理任务，需要实现不同的数据处理流程。由此，数据处理流程的数量可能非常大。例如，仅仅在一个机构内，与不同业务相关的业务流便可多达数千个。而且，很多业务流是异质的，即，它们涉及不同的数据处理节点、操作和/或数据流动路径。数据处理流程的巨大数量和异质性增加了数据处理引擎的复杂性和负载，这很可能影响数据处理的效率。数据处理效率的降低转而将导致响应时间的延长，从而降低用户体验。而且，与数据处理流程和/或数据处理引擎相关联的维护难度也将增大。

综上所述，本领域中需要一种通过适当的方式来处理语义片段以便合并数据处理流程的方法。

发明内容

一般地，本发明的实施例提出一种用于处理语义片段以便合并数据处理流程的技术方案。

在一个方面，本发明的实施例提供一种用于处理语义片段的方法。所述方法包括：获得多组语义片段，所述多组语义片段至少包括从第一数据处理流程生成的第一组语义片段以及从第二数据处理流程生成的第二组语义片段，所述第一数据处理流程不同于所述第二数据处理流程；以及基于语义的等效性合并所述第一组语义片段和所述第二组语义片段。

在另一方面，本发明的实施例提供一种用于处理语义片段的系统。所述系统包括：片段获取单元，被配置为获得多组语义片段，所述多组语义片段至少包括从第一数据处理流程生成的第一组语义片段以及从第二数据处理流程生成的第二组语义片段，所述第一数据处理流程不同于所述第二数据处理流程；以及片段合并单元，被配置为基于语义的等效性合并所述第一组语义片段和所述第二组语义片段。

通过下文描述将会理解，根据本发明的实施例，可以以语义片段为粒度来合并两个或者更多数据处理流程。与直接合并整个数据处理流程相比，基于语义片段的合并能够排除不同语义片段之间的相互干扰，避免在合并过程中同时考虑过多相互影响的因素。与传统方案相比，本发明的实施例能够取得更好的合并效果，例如更为有效地降低数据处理流程中的元素(例如，活动)的数量。本发明的其他特征和优点将通过下文描述而变得容易理解。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显其中：

图1示出了适于用来实现本发明实施例的示例性计算机系统/服务器的示意性框图；

图2示出了根据本发明实施例的用于处理语义片段的方法的示意性流程图；

图3示出了根据本发明实施例的将数据处理流程划分为语义片段的示例的示意图；

图4到图7示出了根据本发明实施例的语义片段合并的若干示例的示意图；以及

图8示出了根据本发明实施例的用于处理语义片段的系统的示意性框图。

在附图中，相同或相似的标号被用来表示相同或相似的元素。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于用来实现本发明实施方式的示例性计算机系统/ 服务器12的方框图。图1显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图1所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示，通常称为“硬盘驱动器”)。尽管图1中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘 (例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/ 输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网 (WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

下面将详细描述本发明实施例的机制和原理。根据本发明的实施例，数据处理流程可以通过任何适当的格式来表示，包括但不限于以下一个或多个：可扩展标记语言(XML)、纯文本、树、图、表，等等。特别地，当数据处理流程是业务流时，可以使用业务流程建模与标注(Business Process Model and Notation，BPMN)语言、业务流执行语言(Business Process Execution Language，BPEL)、 XML流程定义语言(XML ProcessDefinition Language，XPDL)等任何适当的格式来表示业务流。

在本公开的上下文中，组成数据处理流程的基本单位被称为元素。一个数据处理流程可以包含不同类型的元素。例如，在一个实施例中，数据处理流程的一类元素用于规定对数据的操作；而另一类元素用于规定数据的流动。作为示例，在业务流中，活动(activity) 和活动之间的连接关系构成了业务流的元素，其中活动用于定义对数据的操作，连接关系用于规定数据的流动。

另外，如果存在元素A向元素B的数据流动，则元素A称为元素B的上游元素，而元素B称为元素A的下游元素。由此，可以将数据处理流程视为一个有向图，图中的顶点表示数据操作，而顶点之间的有向边(edge)表示数据流动。

现在将参考图2描述根据本发明实施例的用于处理语义片段以便合并数据处理流程的机制。为清晰起见，在下文描述中，将主要讨论合并两个数据处理流程的实施例。然而，应当理解，这仅仅出于说明目的，而并非有意限制发明范围。本发明的实施例可被用来合并任意数目的数据处理流程。而且，尽管在下文的某些实施例中可能参考业务流来描述数据处理流程的合并，这同样仅仅是示例性的。本发明的实施例适用于合并任意类型的数据处理流程，不论是目前已知的还是将来开发的。

另外，除非特别声明，在下文和权利要求中使用的“第一”、“第二”、“第三”等术语仅仅是为了区别不同的描述对象，而并非有意限制任何时间或者空间上的顺序。此外，术语“基于”表示“至少部分地基于”。术语“包括”是开放性包括，即“包括但不限于”。术语“多个”表示“两个或更多”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。

图2示出了根据本发明的实施例的用于处理语义片段的方法200 的流程图。方法200开始于在步骤S210，在此获取待合并的多组语义片段(semantic fragment)。每组语义片段中可以包括一个或多个语义片段。为讨论方便起见，假设在步骤S210处获取的多组语义片段至少包括第一组语义片段和第二组语义片段。

每组语义片段从一个相应的数据处理流程生成。例如，第一组语义片段是从第一数据处理流程生成的，而第二组语义片段是从不同的第二数据处理流程生成的。更具体地说，根据本发明的实施例，对于任何给定的数据处理流程，可以基于该数据处理流程中的元素的语义特征(semantic feature)而对该数据处理流程执行划分，从而生成一组语义片段。关于划分操作的实施例将在下文详述。

应当理解，语义片段的生成和合并可以由相同或者不同的实体执行。由此，在一个实施例中，步骤S210处的获取可以包括从其他实体接收已经生成的第一组语义片段和/或第二组语义片段。备选地，步骤S210处的获取也可以包括在本地划分第一数据处理流程以生成第一组语义片段。备选地或附加地，可以通过在本地划分第二数据处理流程来生成第二组语义片段。而且，第一组语义片段和第二组语义片段可以由相同或者不同的实体生成。特别地，在一个实施例中，可以并行地划分多个数据处理流程以生成多组语义片段。

下面将讨论如何通过划分数据处理流来生成一组语义片段。首先，在某些实施例中，可以在划分操作之前对数据处理流程进行格式转换。例如，在一个实施例中，可以将所有待划分的数据处理流程转换为统一的或者兼容的格式。作为示例，在数据处理流程是业务流的情况下，可以使用BPMN或者其他适当的语言来表示所有业务流。这样做将有利于提高后续处理的准确性和效率。

如上所述，根据本发明的实施例，对数据处理流程的划分可以基于数据处理流程中的各个元素的语义特征来实现。一个元素的“语义特征”是指与该元素对数据处理语义有关的属性或因素。每个元素可以具有一个或多个语义特征。例如，语义特征的示例可以包括但不限于：数据处理的执行主体、处理时间、处理位置、安全性级别、资源要求，等等。

作为一个具体示例，在用于集成电路测试的数据处理流程中，描述待测电路芯片可能需要经过不同阶段和/或不同级别的测试。例如，测试过程可以包括针对布线、布图、管脚、封装等多个不同对象的测试。此时，测试对象、测试者的级别、测试的时间约束等因素可被用作语义特征。作为又一示例，在数据的分布式处理中，用于处理数据的每个节点的机器类型、计算能力、存储资源、所处的网段、安全性级别等因素可被用作语义特征。应当理解，在此描述的示例仅仅是出于说明之目的，并非有意限制发明范围。任何与数据处理操作的语义有关的因素均可被用作语义特征。

在一个实施例中，可以选择待划分的数据处理流程中的各个元素所共同具有的一个或多个语义特征以用于划分。具体而言，对于给定的一个或多个语义特征，具有相同或相似语义特征值的元素可被划分到一个语义片段中，而具有不同语义特征值的元素可被划分到不同的语义片段中。

仅出于讨论之目的，仍然考虑上文描述的电路测试的示例。在此示例中，可以选择测试对象作为用于划分数据处理流程的语义特征。由此，针对相同对象的测试所对应的元素被划分到相同的语义片段中，针对不同对象的测试所对应的元素则被划分到不同的语义片段中。

特别地，取决于不同元素对于数据处理的不同作用或者贡献，可以将第一数据处理流程中的元素划分为主要元素和辅助元素。例如，在一个实施例中，规定对数据的操作的元素可以充当主要元素，而规定数据流动的元素可以作为辅助元素。例如，在业务流中，活动可被用作主要元素，而活动之间的连接关系则被用作辅助元素。

相应地，在一个实施例中，在步骤S210处可以仅根据主要元素的语义特征来划分第一数据处理流程。具体而言，可以首先根据语义特征在主要元素中确定至少一个边界元素(boundary element)。在一个实施例中，边界元素是语义特征值与相邻主要元素相比发生了变化的那些主要元素。特别地，数据处理流程的开始和结束可以被当作边界元素。接下来，可以基于边界元素来划分第一数据处理流程。

具体而言，在一个实施例中，可以首先将主要元素划分到相应的分组中。对主要元素的划分开始于边界元素，使得彼此相邻、但语义特征值不同的边界元素被划分到不同的分组中。特别地，具有不同语义特征值的任何两个边界元素不会被划分到同一分组中。但是，语义特征值相同的相邻边界元素可以被划分到相同的分组中。其他主要元素按照连接关系和语义特征值被划分到分组中。具体而言，在一个实施例中，处于同一分组中的两个边界元素之间的所有主要元素可被划分到该分组中。此后，每个辅助元素可以基于它与主要元素的连接关系而被划分到相应的分组中，从而获得划分后的语义片段。

作为示例，参考图3，其示出了基于主要元素的语义特征来划分数据处理流程的一个示例。在图3所示的示例中，数据处理流程300 开始于301，并且数据首先在元素302被处理。继而，数据被传送给元素303。在元素303处，如果“条件1”被满足，则数据处理流程300结束于304；如果“条件2”被满足，则数据被传送回元素302；如果“条件3”被满足，则数据被传送给元素305。在元素305处，如果“条件 4”被满足，则数据被传送回元素302；如果“条件5”被满足，则数据被依次传送给元素311和306，并且数据处理流程300随后结束于 304。

在图3所示的示例中，假设元素302、303、305、306和311被定义为主要元素，并且均与语义特征A相关联。而且，假设元素302 和303的语义特征A的值为x，元素305、306和311的语义特征A 的值为y。特别地，可以将开始元素301 和结束元素304视为特殊的主要元素，其语义值与任何其他主要元素均不相同。通过沿着数据处理流程300的数据流动方向检测语义特征值的变化，可以确定元素302、303、305和306是边界元素。由此，可以将元素302和303划分为一个语义片段310，这是因为尽管元素302和303都是边界元素，但是二者的语义特征值相同。而且，边界元素305和306被划分到一个语义片段320中，并且这两个边界元素之间的主要元素311 也被划分到该语义片段320中。

在此例中，元素之间的有向连接被定义为辅助元素。这些连接可以基于它们与主要元素的关联被划分到相应的语义片段中。例如，连接307与主要元素302和303相关联，由此可以被划分到这两个主要元素所在的语义片段310。类似地，连接308与主要元素305 和306相关联，由此可被划分到语义片段320。

特别地，如图所示，对于连接309与两个边界元素303和305 相关联。在一个实施例中，连接309可被划分到语义片段310和320 中的任何一个。备选地，在另一实施例中，也可以不将连线309划分给任何语义片段。

应当理解，尽管在图3所示的示例中，仅使用了一个单独的语义特征A来划分数据处理流程300，但这仅仅是示例性的，并非意在以任何方式限制发明范围。如上文所述，在步骤S210，可以使用元素的不止一个语义特征来划分第一数据处理流程。在这样的实施例中，当且仅当两个元素对于所有这些语义特征的值都相同时，这两个元素才会被划分到相同的语义片段中。

而且，在某些实施例中，在生成语义片段时，还可以考虑任何其他的规则或约束。例如，在一个实施例中，可以尽量避免在语义片段中出现环，等等。备选地或附加地，在一个实施例中，可以允许用户指定若干关键元素作为边界元素。

将会理解，在通过划分第一数据处理流程而生成的语义片段中，某些语义片段之间可能存在数据关联。例如在图3所示的示例中，根据数据处理流程300，数据可以从元素303流向元素305。由此，这两个元素303与305之间存在数据流动。同样，元素305与元素 302之间存在数据流动。在一个实施例中，可以根据语义片段之间的这种数据流动对相应的语义片段进行关联。

语义片段之间的关联可以通过任何适当的方式实现。例如，这种关联关系也可以作为元数据被保存。备选地或附加地，在一个实施例中，可以为语义片段中与其他语义片段存在数据流动的元素(称为“接口元素”)添加相应的属性，以用于指示这种数据流动。在一个实施例中，可以向接口元素添加用于指示一个或多个数据入口和/ 或一个或多个数据出口的属性，其中数据入口和数据出口与其他片段中的接口元素相关联。

例如，在图3所示的示例中，可以向元素305添加数据入口属性，以便将元素303指定为元素305的一个数据入口。同时，可以向元素305添加数据出口属性，以便将元素302指定为元素305的一个数据出口。注意，尽管在此示例中元素305只具有一个数据入口和一个数据出口，但是这仅仅是出于说明之目的。根据本发明的实施例，一个元素可以具有多个数据入口和/或多个数据出口。换言之，划分后的语义片段支持多输入和/或多输出的数据流动，这有益于更好地数据处理流程的处理逻辑。

通过基于数据流动对语义片段进行关联，可以避免在语义片段的生成和合并期间改变或者丢失数据处理流程的原有逻辑和语义。例如，在随后基于合并后的语义片段而重构数据处理流程时，可以在重构的数据处理流程中实现语义片段的这种关联。以此方式，能够有效地确保数据处理流程的处理逻辑的完整性和正确性。

继续参考图2，在某些实施例中，方法200进行到步骤S220，在此确定待合并的第一组语义片段和第二组语义片段中的各个语义片段之间的相似性。

在一个实施例中，在衡量语义片段的相似性时，可以考虑片段中的各个元素的语义特征值的接近程度。具体而言，对于给定的语义特征而言，两个元素的语义特征值越接近，则这两个元素就越相似。备选地或附加地，在衡量语义片段的相似性时，还可以考虑语义片段在其他一个或多个方面的接近程度，例如包括但不限于以下一个或多个：元素之间的连接关系，语义片段中的分支情况，语义片段的长度，等等。

实际上，如上所述，每个语义片段可以被视作一个有向图。由此，在一个实施例中，可以通过比较有向图的拓扑或者结构的相似性，来确定任意两个语义片段的相似性。在此方面，任何能够比较图的相似性的技术均可与本发明的实施例结合使用，不论这样的技术是目前已知还是将来开发的。例如，在一个实施例中，可以使用层次聚类算法来计算图之间的相似性得分。

由此，在步骤S220处，可以确定第一组语义片段中的每个语义片段与第二组语义片段中的每个语义片段之间的相似性。假设第一组语义片段包括m个语义片段，并且第二组语义片段包括n个语义片段。在一个实施例中，在步骤S220处，可以生成m×n的相似性表T，其中的每个表项T_ij指示来自第一组的语义片段i与来自第二组的语义片段j之间的相似性。相似性可以是定量的数值(例如，相似性得分)，也可以是定性描述。

应当理解，使用表来表示语义片段的相似性仅仅是示例性的。根据本发明的实施例，可以同时比较多于两组语义片段中的各个语义片段的相似性。此时，在步骤S220处，可以使用任何适当的空间多维数据结构来表示相似性。

在步骤S220处确定语义片段的相似性，是为了更加有效和高效地合并第一组语义片段和第二组语义片段。已经证明：当按照相似性从高到低的顺序对不同组的语义片段进行合并时，能够获得优化的结果。然而，应当理解的是，步骤S220是可选的(在图2中以虚线框表示)。换言之，在某些实施例中，可以在不进行相似性排序的情况下合并第一组和第二组语义片段。

接下来，方法200进行到步骤S230，在此基于语义的等效性来合并第一组语义片段和第二组语义片段。在本公开的上下文中，合并第一组语义片段和第二组语义片段是指将来自第一组的至少一个语义片段与来自第二组的至少一个语义片段进行合并。

在一个实施例中，如果已经在步骤S220处确定了第一组语义片段和第二组语义片段中的各语义片段的相似性，则在步骤S230，可以按照相似性从高到低的顺序合并语义片段。也即，首先合并两组语义片段中相似性最高的语义片段配对，而后合并相似性次高的语义片段配对，以此类推。特别地，在一个实施例中，可以设置相似性阈值，使得仅对相似性高于该阈值的语义片段配对执行合并。以此方式，可以显著降低合并操作的次数，提高合并效率。

当然，如上所述，并非一定要按照相似性的顺序来合并语义片段。在备选实施例中，可以直接对第一组语义片段和第二组语义片段进行合并。例如，可以从第一组语义片段和第二组语义片段中各选择一个语义片段以用于合并。语义片段可以被随机地或者顺序地选择。

下面将讨论基于语义等效性的语义片段合并。根据本发明的实施例，对任何两个语义片段的合并以元素为单位来执行。换言之，语义片段之间的语义等效性是基于元素之间的语义等效性来确定的。为了衡量元素的语义等效性，可以选择元素的一个或多个语义特征作为标准。在某些实施例中，在合并过程中可以考虑元素的所有语义特征。备选地，也可以仅仅使用元素的语义特征的给定子集，例如比较重要的一个或多个语义特征。

根据本发明的实施例，元素的语义等效性至少可以包括字面值的等效和实质含义的等效。具体而言，对于任何语义特征而言，如果两个元素的语义特征值完全相同，则认为这两个元素在语义上是字面等效的。由此，这两个元素可以被合并为一个元素。

如果两个元素的语义特征的字面值不同，但是实质含义相同，则这两个元素也可被认为在语义上是等效的。由此，这样的元素也可以被合并。语义的实质等效性可以事先定义。例如，对于在合并操作中考虑的每个语义特征，可以定义该语义特征的一组或多组值，每组中的值尽管看似不同，但其所表示的含义实质上是相同的。这样，如果两个元素的语义特征值落入同一集合，则认为二者是在语义特征上是实质等效的。

作为示例，假设元素的一个语义特征是“处理优先级”。对于该语义特征，可以定义语义特征值的如下集合：A＝{甚高，非常高，优先处理，特急}，B＝{高，较高，急}，C＝{一般，普通，正常}。假设来自第一语义片段的第一元素的“处理优先级”为“甚高”，而来自第二语义片段的第二元素的“处理优先级”为“特急”，则认为这两个元素在“处理优先级”这一语义特征上是实质等效的。

如上所述，语义片段中的元素可以包括主要元素和辅助元素。由此，在一个实施例中，步骤S230处语义片段合并可以由主要元素来驱动。具体而言，在这样的实施例中，可以首先找出待合并的两个语义片段中在语义上最为匹配(例如，字面等效)的两个主要元素。继而，对这两个主要元素执行合并。接下来，可以按照连接关系依次对两个语义片段中的其他元素进行合并。

对两个语义片段的合并包括多种情况。例如，在一个实施例中，两个语义片段中的所有元素都是语义等效的。此时，这两个语义片段可以完全合并为一个。参考图4，第一语义片段410和第二语义片段420是待合并的语义片段。在此示例中，语义片段410中的主要元素411与语义片段420中的主要元素421在语义上等效，并且因此被首先合并为元素431。而后，根据连接关系，处理主要元素412 与422。在此例中，假设元素412和422也是语义等效的。由此，这两个元素412和422被合并为元素432。类似地，语义等效的元素413和423可被合并为语义元素433。以此方式，获得合并后的第三语义片段430，其包括语义元素431、432和433。

备选地或附加地，在一个实施例中，对两个语义片段的合并包括由一个语义片段吸收另一个。作为示例，图5示出了待合并的第一语义片段510和第二语义片段520。在此示例中，假设元素511 与521语义等效，并且512与522分别在语义上等效。此时，在合并后的第三语义片段530中，元素531由元素511与521合并得到，元素532由元素512与522合并得到，而元素513来自于语义片段 510。

特别地，在某些情况下，两个语义片段在语义上可能部分等效。也即，在两个语义片段中，某些元素在语义上等效并且因此可以合并，而另一些元素在语义上不同并且因此不能合并。此时，根据本发明的实施例，可以使用分支(branch)来实现语义片段的合并。通过下文描述将会理解，通过对分支的灵活使用，能够有效地合并原本可能无法合并的语义片段。

参考图6A，其示出了使用分支来合并语义片段的一个示例。在此示例中，对于待合并的第一语义片段610和第二语义片段620，元素611与621在语义上等效，因此可被合并为元素631。元素612 和622在语义上等效，但是它们各自的下游元素613和623在语义上互不等效。根据本发明的实施例，可以将元素612和622合并为元素632。特别地，在此示例中，合并后的元素632在第三语义片段 630中被创建为分支元素。继而，元素612和622各自的下游元素 613和623作为分支元素632的下游元素，被插入第三语义片段630。

备选地，在另一实施例中，如图6B所示，也可以保持合并后的元素632的类型不变。此时，可以在合并后的元素632之后插入新创建的分支元素633，并且利用该分支元素633来将元素613和623 插入到第三语义片段630中，作为合并后的元素632的下游。将会理解，图6A所示的实施例是图6所示实施例的一种特殊实现。也即，在图6A所示的实施例中，合并后的元素632被直接创建为分支元素。如果期望合并后的语义片段中的元素数目尽量少，可以采用图6A所示的实施例。

图7示出了使用分支的另一种情况。在图7所示的示例中，第一语义片段710中的元素711与第二语义片段720中的元素721等效，因此可被合并为元素731。元素712与722在语义上互不等效，但是它们各自的下游元素713和723在语义上等效。此时，在一个实施例中，可以在合并后的第三语义片段730中创建新的分支元素 732。互补等效的元素712和722作为该分支元素732的下游元素被插入第三语义片段730。而后，相互等效的下游元素713和723被合并元素733。在第三语义片段730中，元素733是元素712和722 共同的下游元素。

通过执行步骤S230，来自多个数据处理流程的多组语义片段可以被有效地合并。已经证明：通过将合并粒度降低到语义片段而不是直接对数据处理流程本身执行合并，能够更为有效地降低元素的数目。这有利于不同数据处理流程的简化和整合，从而提高数据处理的效率和质量。

继续参考图2，在一个实施例中，可以在步骤S240对合并后的语义片段进行任何适当的后处理。例如，在某些实施例中，可以基于原始数据处理流程中的关联关系和/或在划分操作中生成的数据关联，将合并后的多个语义片端重新联结为数据处理流程。

具体而言，在一个实施例中，对于待重构的数据处理流程，可以从其起始语义片段开始，按照语义片段之间的连接关系重新连接先前被分割的语义片段。如果一个语义片段在合并过程中已经与其他数据处理流程的语义片段合并，则可以利用合并后的语义片段来替代该原始语义片段。在重构过程中，可以基于在划分中生成的数据关联，连接语义片段中存在数据流动的节点。这样，可以确保经过重构的数据处理流程具有正确的处理逻辑。

备选地或附加地，在一个实施例中，在步骤S240处，可以基于合并结果来提取一个或多个数据处理流程(例如，第一数据处理流程和/或第二数据处理流程)的主干。在此使用的术语“主干”是指数据处理流程中具有通用性的逻辑或步骤。

如上所述，在某些实施例中，第一数据处理流程可以与一个或多个其他数据处理流程进行基于语义片段的合并。通过比较合并结果，如果发现第一数据处理流程中的一个或多个元素(例如，主要元素)无法与大多数其他数据处理流程合并，则可以认为这些元素具有一定的特殊性。相应地，可以从相应的数据处理流程中移除这样的特殊元素。特殊元素被移除后的数据处理流程称为原数据处理流程的主干。对于被移除的元素，可以采取适当的补救处理来保证数据处理流程的完整性。补救处理可以包括产生被移除元素的模拟处理结果。备选地，补救处理也可以包括提示用户进行人工干预，等等。

提取数据处理流程的主干有利于对同类数据处理流程进行规范化。例如，在一个机构或者组织内部，只需要对业务流的主干进行修改便可以实现对该业务流的升级。每个分支机构或者部门可以根据其实际需要来相应地升级特殊元素，和/或适当地调整流程主干，以实现一个或多个特殊活动。以此方式，可以提高数据处理流程的管理效率，并且可以降低数据处理流程的管理方的负担。

图8示出了根据本发明实施例的用于处理语义片段的系统800 的示意性框图。如图所示，系统800包括：片段获取单元801，被配置为获得多组语义片段，所述多组语义片段至少包括从第一数据处理流程生成的第一组语义片段以及从第二数据处理流程生成的第二组语义片段，所述第一数据处理流程不同于所述第二数据处理流程；以及片段合并单元802，被配置为基于语义的等效性合并所述第一组语义片段和所述第二组语义片段。

在一个实施例中，所述片段获取单元801可以包括片段划分单元，其被配置为基于所述第一数据处理流程中的元素的语义特征，将所述第一数据处理流程划分为所述第一组语义片段。

在一个实施例中，所述第一数据处理流程中的所述元素包括主要元素和辅助元素。所述片段划分单元可以包括：边界元素确定单元，被配置为基于所述主要元素的所述语义特征，从所述主要元素中确定至少一个边界元素；主要元素划分单元，被配置为基于确定的所述至少一个边界元素将所述主要元素划分到不同的分组中；以及辅助元素划分单元，被配置为基于所述主要元素与所述辅助元素的连接关系将所述辅助元素划分到所述分组中，以生成所述第一组语义片段。

在一个实施例中，所述片段划分单元可以包括：片段关联单元，被配置为对所述第一组语义片段中存在数据流动的语义片段进行关联，以用于所述第一数据处理流程的重构。

在一个实施例中，系统800还可以包括：相似性确定单元，被配置为确定所述第一组语义片段中的语义片段与所述第二组语义片段中的语义片段之间的相似性。在这样的实施例中，所述片段合并单元802可被配置为按照所述相似性的顺序来合并所述第一组语义片段和所述第二组语义片段。

在一个实施例中，所述片段合并单元802可以包括：基于分支的合并单元，被配置为通过生成分支将所述第一组语义片段中的第一语义片段与所述第二组语义片段中的第二语义片段合并为第三语义片段。

在一个实施例中，所述基于分支的合并单元可以包括：第一元素合并单元，被配置为响应于所述第一语义片段中的第一元素与所述第二语义片段中的第二元素在语义上相互等效、并且所述第一元素在所述第一语义片段中的第一下游元素与所述第二元素在所述第二语义片段中的第二下游元素在语义上互不等效，将所述第一元素和所述第二元素合并为在所述第三语义片段中的第三元素；以及第一元素插入单元，被配置为将所述第一下游元素和所述第二下游元素插入所述第三语义片段中作为所述第三元素的下游元素。特别地，在一个实施例中，所述第一元素合并单元可以包括第一分支创建单元，被配置为创建所述分支单元作为所述第三元素。

在一个实施例中，所述基于分支的合并单元可以包括：第二分支创建单元，被配置为响应于所述第一语义片段中的第一元素与所述第二语义片段中的第二元素在语义上互不等效、并且所述第一元素在所述第一语义片段中的第一下游元素与所述第二元素在所述第二语义片段中的第二下游元素在语义上相互等效，在所述第三语义片段中创建分支元素；第二元素插入单元，被配置为将所述第一元素和所述第二元素作为所述分支元素的下游元素插入所述第三语义片段；以及元素合并单元，被配置为将所述第一下游元素和所述第二下游元素合并到所述第三语义片段中。

在一个实施例中，系统800还可以包括：主干提取单元，被配置为基于所述合并的结果，提取所述第一数据处理流程和所述第二数据处理流程中至少一个的主干。

应当注意，为清晰起见，图8中没有示出系统800所包括的可选单元或者子单元。上文所描述的所有特征和操作分别适用于系统 800，故在此不再赘述。而且，系统800中的单元或子单元的划分不是限制性的而是示例性的，旨在从逻辑上描述其主要功能或操作。一个单元的功能可以由多个单元来实现；反之，多个单元亦可由一个单元来实现。本发明的范围在此方面不受限制。

而且，系统800所包含的单元可以利用各种方式来实现，包括软件、硬件、固件或其任意组合。例如，在某些实施方式中，系统 800可以利用软件和/或固件来实现。备选地或附加地，系统800可以部分地或者完全地基于硬件来实现。例如，系统800中的一个或多个单元可以实现为集成电路(IC)芯片、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)，等等。本发明的范围在此方面不受限制。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是—但不限于—电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Java、Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/ 动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

计算机可读程序指令也可加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于处理语义片段的方法，所述方法包括：

通过对数据处理流程执行划分获得多组语义片段，其中组成数据处理流程的基本单位被称为元素，所述多组语义片段至少包括从第一数据处理流程生成的第一组语义片段以及从第二数据处理流程生成的第二组语义片段，所述第一数据处理流程不同于所述第二数据处理流程；以及

基于语义的等效性合并所述第一组语义片段和所述第二组语义片段，其中语义的等效性是基于元素之间的语义特征来确定，语义特征包括但不限于以下至少一个：数据处理的执行主体、处理时间、处理位置、安全性级别、资源要求。

2.根据权利要求1所述的方法，其中获取多组语义片段包括：

基于所述第一数据处理流程中的元素的语义特征，将所述第一数据处理流程划分为所述第一组语义片段。

3.根据权利要求2所述的方法，其中所述第一数据处理流程中的所述元素包括主要元素和连接所述主要元素的辅助元素，并且其中将所述第一数据处理流程划分为所述第一组语义片段包括：

基于所述主要元素的所述语义特征，从所述主要元素中确定至少一个边界元素；

基于所述至少一个边界元素将所述主要元素划分到不同的分组中；以及

基于所述主要元素与所述辅助元素的连接将所述辅助元素划分到所述分组中，以生成所述第一组语义片段。

4.根据权利要求2所述的方法，其中将所述第一数据处理流程划分为所述第一组语义片段包括：

对所述第一组语义片段中存在数据流动的语义片段进行关联，以用于所述第一数据处理流程的重构。

5.根据权利要求1到4任一项所述的方法，还包括：

确定所述第一组语义片段中的语义片段与所述第二组语义片段中的语义片段之间的相似性，

其中基于语义的等效性合并所述第一组语义片段和所述第二组语义片段包括：按照所述相似性的顺序来合并所述第一组语义片段和所述第二组语义片段。

6.根据权利要求1到4任一项所述的方法，其中基于语义的等效性合并所述第一组语义片段和所述第二组语义片段包括：

通过生成分支将所述第一组语义片段中的第一语义片段与所述第二组语义片段中的第二语义片段合并为第三语义片段。

7.根据权利要求6所述的方法，其中通过生成分支将所述第一组语义片段中的第一语义片段与所述第二组语义片段中的第二语义片段合并为第三语义片段包括：

响应于所述第一语义片段中的第一元素与所述第二语义片段中的第二元素在语义上相互等效、并且所述第一元素在所述第一语义片段中的第一下游元素与所述第二元素在所述第二语义片段中的第二下游元素在语义上互不等效，将所述第一元素和所述第二元素合并为在所述第三语义片段中的第三元素；以及

利用分支元素将所述第一下游元素和所述第二下游元素插入所述第三语义片段中作为所述第三元素的下游元素。

8.根据权利要求7所述的方法，其中将所述第一元素和所述第二元素合并为在所述第三语义片段中的第三元素包括：

创建所述分支元素作为所述第三元素。

9.根据权利要求6所述的方法，其中通过生成分支将所述第一组语义片段中的第一语义片段与所述第二组语义片段中的第二语义片段合并为第三语义片段包括：

响应于所述第一语义片段中的第一元素与所述第二语义片段中的第二元素在语义上互不等效、并且所述第一元素在所述第一语义片段中的第一下游元素与所述第二元素在所述第二语义片段中的第二下游元素在语义上相互等效，在所述第三语义片段中创建分支元素；

将所述第一元素和所述第二元素作为所述分支元素的下游元素插入所述第三语义片段；以及

将所述第一下游元素和所述第二下游元素合并到所述第三语义片段中，作为所述第一元素和所述第二元素共同的下游元素。

10.根据权利要求1所述的方法，还包括：

基于所述合并的结果，提取所述第一数据处理流程和所述第二数据处理流程中至少一个的主干。

11.一种用于处理语义片段的系统，所述系统包括：

片段获取单元，被配置为通过对数据处理流程执行划分获得多组语义片段，其中组成数据处理流程的基本单位被称为元素，所述多组语义片段至少包括从第一数据处理流程生成的第一组语义片段以及从第二数据处理流程生成的第二组语义片段，所述第一数据处理流程不同于所述第二数据处理流程；以及

片段合并单元，被配置为基于语义的等效性合并所述第一组语义片段和所述第二组语义片段，其中语义的等效性是基于元素之间的语义特征来确定，语义特征包括但不限于以下至少一个：数据处理的执行主体、处理时间、处理位置、安全性级别、资源要求。

12.根据权利要求11所述的系统，其中所述片段获取单元包括：

片段划分单元，被配置为基于所述第一数据处理流程中的元素的语义特征，将所述第一数据处理流程划分为所述第一组语义片段。

13.根据权利要求12所述的系统，其中所述第一数据处理流程中的所述元素包括主要元素和连接所述主要元素的辅助元素，并且其中所述片段划分单元包括：

边界元素确定单元，被配置为基于所述主要元素的所述语义特征，从所述主要元素中确定至少一个边界元素；

主要元素划分单元，被配置为基于所述至少一个边界元素将所述主要元素划分到不同的分组中；以及

辅助元素划分单元，被配置为基于所述主要元素与所述辅助元素的连接将所述辅助元素划分到所述分组中，以生成所述第一组语义片段。

14.根据权利要求12所述的系统，其中所述片段划分单元包括：

片段关联单元，被配置为对所述第一组语义片段中存在数据流动的语义片段进行关联，以用于所述第一数据处理流程的重构。

15.根据权利要求11到14任一项所述的系统，还包括：

相似性确定单元，被配置为确定所述第一组语义片段中的语义片段与所述第二组语义片段中的语义片段之间的相似性，

其中所述片段合并单元被配置为按照所述相似性的顺序来合并所述第一组语义片段和所述第二组语义片段。

16.根据权利要求11到14任一项所述的系统，其中所述片段合并单元包括：

基于分支的合并单元，被配置为通过生成分支将所述第一组语义片段中的第一语义片段与所述第二组语义片段中的第二语义片段合并为第三语义片段。

17.根据权利要求16所述的系统，其中所述基于分支的合并单元包括：

第一元素合并单元，被配置为响应于所述第一语义片段中的第一元素与所述第二语义片段中的第二元素在语义上相互等效、并且所述第一元素在所述第一语义片段中的第一下游元素与所述第二元素在所述第二语义片段中的第二下游元素在语义上互不等效，将所述第一元素和所述第二元素合并为在所述第三语义片段中的第三元素；以及

第一元素插入单元，被配置为利用分支元素将所述第一下游元素和所述第二下游元素插入所述第三语义片段中作为所述第三元素的下游元素。

18.根据权利要求17所述的系统，其中所述第一元素合并单元包括：

第一分支创建单元，被配置为创建分支单元作为所述第三元素。

19.根据权利要求16所述的系统，其中所述基于分支的合并单元包括：

第二分支创建单元，被配置为响应于所述第一语义片段中的第一元素与所述第二语义片段中的第二元素在语义上互不等效、并且所述第一元素在所述第一语义片段中的第一下游元素与所述第二元素在所述第二语义片段中的第二下游元素在语义上相互等效，在所述第三语义片段中创建分支元素；

第二元素插入单元，被配置为将所述第一元素和所述第二元素作为所述分支元素的下游元素插入所述第三语义片段；以及

元素合并单元，被配置为将所述第一下游元素和所述第二下游元素合并到所述第三语义片段中，作为所述第一元素和所述第二元素共同的下游元素。

20.根据权利要求11所述的系统，还包括：

主干提取单元，被配置为基于所述合并的结果，提取所述第一数据处理流程和所述第二数据处理流程中至少一个的主干。