CN115297323A

CN115297323A - 一种rpa流程自动化方法和系统

Info

Publication number: CN115297323A
Application number: CN202210981888.6A
Authority: CN
Inventors: 王征宇; 王睿; 梁天爵
Original assignee: Guangdong Information Network Co ltd
Current assignee: Guangdong Information Network Co ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-04
Anticipated expiration: 2042-08-16
Also published as: CN115297323B

Abstract

本申请公开了一种RPA流程自动化方法和系统，方法包括：从终端设备获取待处理的视频；在终端设备对待处理的视频进行编码处理，其中，按设定规则抽取多个摘要画面帧并配置在编码后的视频数据的前部数据，所述编码后的视频数据的前部数据的传输优先级高于所述视频数据的后部数据；服务器端接收所述编码后的视频数据时，对所述前部数据进行解码以获取所述摘要画面帧进行识别，并根据识别结果选择对应的业务处理流程，并在完整接收所述后部数据后将所述前部数据和后部数据还原成完整视频。本方案可以在视频未传输完的情况下进行图像识别。

Description

一种RPA流程自动化方法和系统

技术领域

本申请涉及流程自动化技术和图像处理技术，特别是一种RPA流程自动化方法和系统。

背景技术

RPA(流程自动化)技术可以帮助企业完成很多重复性的人工工作，提升企业的运作效率。RPA技术应用场景广泛，例如在电商发达的今天，机器人客服就是一种常见的RPA应用。再有企业内部，会通过客户端和服务器传输一些文件信息等来完成相关流程。

在部分场景中，允许用户上传视频进行分析，但是通常对于此类场景视频传输的时间会是整个处理的主要问题。如果在视频比较长的情况下，会导致用户等待时间过长。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种RPA流程自动化方法和系统，以解决视频传输时间长导致整个自动化流程处理时间过长的问题。

一方面，本申请实施例提供了一种RPA流程自动化方法，包括：

从终端设备获取待处理的视频；

在终端设备对待处理的视频进行编码处理，其中，按设定规则抽取多个摘要画面帧并配置在编码后的视频数据的前部数据，所述编码后的视频数据的前部数据的传输优先级高于所述视频数据的后部数据；

服务器端接收所述编码后的视频数据时，对所述前部数据进行解码以获取所述摘要画面帧进行识别，并根据识别结果选择对应的业务处理流程，并在完整接收所述后部数据后将所述前部数据和后部数据还原成完整视频。

在部分实施例中，所述在终端设备对待处理的视频进行编码处理，具体包括：

采用GOP策略对视频进行处理，得到多个GOP分组，每个GOP分组中包括一个关键帧和多个预测帧；

抽取若干个GOP分组的关键帧作为摘要画面帧；

在被抽取关键帧的GOP分组中加入索引信息，以确定关键帧所在所述前部数据的位置。

在部分实施例中，所述对所述前部数据进行解码以获取所述摘要画面帧进行识别，并根据识别结果选择对应的业务处理流程，包括：

获取当前在预设时间内的订单信息，根据所述订单信息获取关联图片；

将所述关联图片与所述摘要画面帧进行匹配，以确定所述视频对应的订单信息；

向终端设备推送订单确认界面，以使终端设备基于用户指令确认或否认对应的订单信息，并根据终端设备的确认或者否认动作执行下一步设定的流程。

在部分实施例中，所述将所述关联图片与所述摘要画面帧进行匹配，以确定所述视频对应的订单信息，具体是：

从摘要画面帧中识别出摘要画面帧中物品的类型，得到至少一个候选类型；

根据所述候选类型从预设时间段内的订单信息中匹配对应类型的商品订单，得到至少一个候选订单；

将候选订单的关联图片中的商品区域与各摘要画面帧中的物品区域进行匹配，将匹配度最高的图片组对应的候选订单确定所述视频对应的订单信息。

在部分实施例中，还包括以下步骤：

根据候选订单中关联图片与各画面帧之间的匹配度的最大值对候选订单进行降序排序；

当所述终端设备执行否认动作时，关闭当前订单信息，并将排序中在当前订单后一位的订单信息作为确认对象向终端设备进行推送。

在部分实施例中，还包括以下步骤：在所述在终端设备对待处理的视频进行编码处理的步骤之前，还包括：

根据视频长度和当前网络状态估算传输时间，当传输时间小于阈值时，采取不区分前部数据和后部数据的方式编码后直接传输视频。

在部分实施例中，所述服务器在接收后部数据时，每接收到一个GOP分组后校验是否具有关键帧，若有则直接对GOP分组进行解码或存储，若无则根据索引信息从前部数据获取GOP分组对应的关键帧，从而还原成完整的GOP分组进行解码或存储。

在部分实施例中，所述摘要画面帧每间隔N个GOP分组获取一帧，所述N为正整数。

在对视频进行编码处理前，还包括以下步骤：

分离视频中的视频数据与音频数据；

音频数据转换为文本数据；

对文本数据进行分词处理并进行词性标注；

根据词性标注内容提取上述分词结果中的名词；

将所述名词以优先于音频数据传输的优先级上传至服务器。

另一方面，本申请实施例提供了一种RPA流程自动化系统，包括：

终端设备，用于获取待处理的视频，对待处理的视频进行编码处理，其中，按设定规则抽取多个摘要画面帧并配置在编码后的视频数据的前部数据，所述编码后的视频数据的前部数据的传输优先级高于所述视频数据的后部数据；

服务器，用于接收所述编码后的视频数据时，对所述前部数据进行解码以获取所述摘要画面帧进行识别，并根据识别结果选择对应的业务处理流程，并在完整接收所述后部数据后将所述前部数据和后部数据还原成完整视频。

本申请实施例通过对待处理的视频进行编码处理，按设定规则抽取多个摘要画面帧并配置在编码后的视频数据的前部数据，所述编码后的视频数据的前部数据的传输优先级高于所述视频数据的后部数据，使得摘要画面帧在传输时可以被优先传输，而服务器可以先对前部数据进行解码，并执行相关的业务步骤，通过这一方式，视频可以在没有传输完的情况下就执行相关的处理，减少了用户等待的时间，系统可以在用户未传完视频的情况下作出相关的识别动作，优化用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种RPA流程自动化方法的流程图；

图2是本申请实施例提供的编码过程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，以下将参照本申请实施例中的附图，通过实施方式清楚、完整地描述本申请的技术方案，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1和图2，本申请实施例提供了一种RPA流程自动化方法，可以理解的是本实施例的方法可以应用在有视频传输及分析的应用场景中，例如，在客服场景中，用户可能会将售后或者投诉视频发送到客服中，而客服回复有相当部分会先由自动化机器人来处理。此时，如果必须等到视频传输完毕才能进行分析和处理，会导致用户需要等待一段时间，造成系统响应慢的假象，降低用户体验。

本实施例的方法包括：

S1、从终端设备获取待处理的视频。

所述待处理的视频可以是从终端设备存储器中读取的，也可以是通过终端设备直接拍摄的。通常根据应用场景的不同，待处理视频拍摄的内容可以是不同的，例如是产品相关的视频，也可以是拍摄文件相关的视频等。

S2、在终端设备对待处理的视频进行编码处理，其中，按设定规则抽取多个摘要画面帧并配置在编码后的视频数据的前部数据，所述编码后的视频数据的前部数据的传输优先级高于所述视频数据的后部数据。

可以理解的是，在部分实施例中，可以按照一定的间隔抽取摘要画面帧。由于在特定场景，例如产品售后场景中，用户拍摄的内容主要是产品视频，因此，产品出现的概率比较高，通过按间隔抽取的方式，一般可以捕捉到产品的画面帧，从而可以基于产品的画面帧进行订单识别。将前部数据优先传输，实际上是将一些摘要画面帧先传输到服务器进行分析。

在部分场景中，为了减少前部数据，增加摘要画面帧的有效率，可以在本地做相关的处理(前提是终端设备处理能力较强)。按照间隔抽取画面帧的方式，实际上会产生冗余和无用的信息，也有可能对部分信息的遗漏，因此，当本地处理能力较强的情况下，可以在本地进行处理，从而减少需要优先传输的内容，同时优化这些优先传输的内容质量。可以理解的是，在选择摘要画面帧的时候，先进行一定的本地处理，这一方式在网络质量差(如带宽小于阈值，和/或传输错误率高于阈值)，但是本地处理能力强(如处理器和内存达到一定的条件时)的情况下，可以避免用户等待视频传输完毕，响应更快。

在部分实施例中，在对视频进行编码处理前，还包括以下步骤：

分离视频中的视频数据与音频数据；

音频数据转换为文本数据；

对文本数据进行分词处理并进行词性标注；

根据词性标注内容提取上述分词结果中的名词；

在编码处理时将所述名词上传至服务器，且在传输音频数据时，音频数据的传输优先级低于所述前部数据，(即先传输前部数据再传输音频数据)。可以理解的是，通过本地的处理能力帮助服务器端完成语音识别，可以减轻服务器处理视频中音频的压力。在传输过程中，前部数据和检测到的名词的传输优先级都是较高的，而后部数据和音频数据的传输优先级低于前两者。当本地处理能力较强而网络质量较差时，先在本地完成语音识别后进行关键词的上传，有助服务器端分析下一步的业务流程。这样同样无需在传输完音频之后，服务器再进行语音分析。

S3、服务器端接收所述编码后的视频数据时，对所述前部数据进行解码以获取所述摘要画面帧进行识别，并根据识别结果选择对应的业务处理流程，并在完整接收所述后部数据后将所述前部数据和后部数据还原成完整视频。

其中，参照图2，所述在终端设备对待处理的视频进行编码处理，具体包括：

S21、采用GOP策略对视频进行处理，得到多个GOP分组，每个GOP分组中包括一个关键帧I和多个预测帧P。

S22、抽取若干个GOP分组的关键帧作为摘要画面帧。例如，可以每间隔N个GOP分组获取一帧作为摘要画面帧，所述N为正整数。

S23、在被抽取关键帧的GOP分组中加入索引信息，以确定关键帧所在所述前部数据的位置。

以下是服务器解码步骤：

S34、所述服务器在接收后部数据时，每接收到一个GOP分组后校验是否具有关键帧，若有则直接对GOP分组进行解码或存储，若无则根据索引信息从前部数据获取GOP分组对应的关键帧，从而还原成完整的GOP分组进行解码或存储。

参照图2，在本实施例中采用GOP策略来对视频进行编码，以减少视频体积。其中，I帧是指GOP分组中的关键帧，I帧是可以单独解码出图像的画面帧，P帧则是预测帧，需要基于同一GOP分组内的I帧才能解码出对应的画面帧。GOP策略本质上是利用了视频连续变化的特点，相邻画面帧之间相差不大，因此可以通过记录差别的方式来实现压缩。同时，采用GOP策略使得GOP分组可以独立解码，从而实现边接收编解码的功能，不受传输先后的约束。从图2可知，上半部分是普通的GOP分组结构，而本方案为了解决视频传输时间过长影响识别进程的问题，并利用GOP分组中关键帧是可以独立解码的画面帧的特点，抽取部分GOP分组的关键帧到前部数据，并将分组其余部分的数据留在后部数据中，被抽取关键帧的GOP分组以索引信息S来替代，显然，索引信息S的大小相对于关键帧而言数据量比较小。因此，采取这一方式，一方面可以满足传输部分摘要画面帧的需求，另一方面不会过度增加传输量，同时，也不影响GOP策略的解码(因为前部数据优先发送，即便是被抽取关键帧的GOP分组在到达后也可以在前部数据找到对应的关键帧)。

S41、获取当前在预设时间内的订单信息，根据所述订单信息获取关联图片。一般情况下，对于电商平台的商品而言，其售卖页会有多个产品的视图。因此，可以通过获取这些关联图片就用作匹配。这些关联图片中的物品基本上就是商品，这些信息无需重新抓取和处理，由售卖者进行维护，数据成本低。

S42、将所述关联图片与所述摘要画面帧进行匹配，以确定所述视频对应的订单信息。可以理解的是，可以逐个将关联图片和每个摘要画面帧进行匹配，当寻找到高相似度的图片时，就可以确定出视频和订单的关系。

S43向终端设备推送订单确认界面，以使终端设备基于用户指令确认或否认对应的订单信息，并根据终端设备的确认或者否认动作执行下一步设定的流程。

在部分实施例中，由于摘要画面帧中可能有多个无效画面帧，因此本方案采取的策略是推荐匹配度最高的，例如，摘要画面帧一共五帧，其中只有两帧清楚地拍到和商品，其余三帧都是背景图，此时，实际有效的是包含商品的两帧。那么两帧包含商品的匹配度会比较高，背景图匹配度会比较低。假定关联图片只有2张，那么此时会产生10个匹配度，在本实施例中，在这10个匹配度中取匹配度最高的来代表视频和订单之间的匹配度。因此，在S42中，将所述关联图片与所述摘要画面帧进行匹配，以确定所述视频对应的订单信息，具体是：

S421、从摘要画面帧中识别出摘要画面帧中物品的类型，得到至少一个候选类型。通过这一方式可以减少匹配的数量，例如，在图像中识别到的物品是雨伞，而用户最近的订单包括雨伞、拖鞋和毛衣，此时就没有必要进行下一步的匹配了，因为订单类型是唯一的。当然，为了确定视频是否和订单是否相关，即使只有一个匹配订单也可以做进一步匹配。

S422、根据所述候选类型从预设时间段内的订单信息中匹配对应类型的商品订单，得到至少一个候选订单。例如，获取一年内的订单信息。

S423、将候选订单的关联图片中的商品区域与各摘要画面帧中的物品区域进行匹配，将匹配度最高的图片组对应的候选订单确定所述视频对应的订单信息。例如，关联图片有2张，摘要画面帧也是2张，一共进行4次匹配。选择4次匹配中匹配度最高的作为候选订单的相似度。然后基于各订单对应的相似度来确定推送给用户确定的订单。本步骤之所以采用物品所在区域进行匹配，主要是无法控制用户拍摄的背景，通过剥离背景直接采用物品所在区域进行匹配的方式可以提高匹配的准确度。

S424、根据候选订单中关联图片与各画面帧之间的匹配度的最大值对候选订单进行降序排序。在存在多个匹配订单的时候，可以对这些订单进行降序排列，进行轮候推送。

S425、当所述终端设备执行否认动作时，关闭当前订单信息，并将排序中在当前订单后一位的订单信息作为确认对象向终端设备进行推送。在商品订单和视频内容比较接近的时候，可能会产生匹配错误的情况。如果用户对订单内容进行否定时，可以推送下一个订单供用户确认。

可以理解的是，在本场景下，用户在仍未传输完视频的情况下，系统可能已经匹配出相关的订单，并向用户进行推送。当用户选择后，系统可以直接按照预先设定的流程帮助用户解决问题，而无需等待视频完全传输完毕。这样减少了用户等待的时间，优化了用户体验。

在部分实施例中，在所述在终端设备对待处理的视频进行编码处理的步骤之前，还包括：

在本实施例中，当当前网络状态良好，或者视频较短的情况下，可以经由与服务器协商后采用普通的匹配方式进行处理。此时，从视频中抽取相关画面由服务器执行。这样的方式，可以基于视频和网络的情况，采取不同的策略，满足不同场景需求，使得用户可以获得更好的体验。

本实施例公开了一种RPA流程自动化方法，包括：

S100、从终端设备获取待处理的视频。

S101、分离视频中的视频数据与音频数据。

从视频中分离出视频数据用于后续的分析和数据压缩，分离出音频数据用于后续的文本语义分析。

S102、对视频数据中的视频帧图像进行目标检测分析，得到视频帧对应的目标检测结果。

其中的目标检测可采用SPP-Net(spatial pyramid pooling network)、R-CNN、Fast R-CNN、Faster R-CNN、R-FCN(Region-based fully convolutional network)等常用算法，输出的目标检测结果包括检测目标的分类标签，例如从某些视频帧中检测到分类标签“receipt/发票”。

S103、将音频数据转换为文本数据，并对文本数据进行语义分析，得到语义分析结果，所述语义分析结果是指提取音频数据中的名词。上述步骤的目的是从音频数据中提取名词，名词所对应的对象在视频片段中出现时，可以对该视频片段进行高效地压缩；之所以未考虑提取名词，是因为动词所对应的视频片段中可能反映的是连续动作状态，无法通过截取视频片段中的一帧或少量帧来实现数据压缩。

对应上述视频数据，用户上传的视频中也可能根据视频内容说明相应的投诉问题、提供的证据等内容，例如提到购物发票。此时，对文本进行分析可提取出其中的关键词“发票”。

S104、根据目标检测结果与语义分析结果的对应关系对视频数据进行压缩处理。具体地，本步骤将语义分析的得到的名词与目标检测结果进行匹配；当存在匹配关系的名词为静态对象时，获取对名词与目标检测结果所对应的所有视频帧；当存在视频帧所包含的目标检测结果相同且均为静态对象，并且视频帧为连续视频帧时，对连续视频帧进行压缩处理。

具体地，对连续视频帧进行压缩处理包括：从视频数据中删除连续视频帧；从删除的连续视频帧中抽取一帧保存为图像数据。在本压缩方式中，若用户提供的视频中连续10秒视频的视频帧中均检测到目标标签为“发票”，此时抽取其中的1帧保存为图像数据A，而原视频中则可以删除连续10秒视频片段，此时数据压缩效果最佳。可以理解的是，在压缩后被保存该图像数据A，可以作为前部数据的部分来优先发送。可以理解的是，本方案相当于在本地对视频进行预处理，删除多余的图像，虽然这一方式会丢失部分数据，但是可以减少向服务器发送的数据量。在还原视频时，服务器可以用图像数据A填充被删除的时间，这样的方式虽然没有将视频完整还原，但是不影响其表达，这样也可以还原对应的音频。

上述静态对象是指需借助外力才可以移动的物体，例如手机、电脑、椅子等物体。与静态对象相反的则是动态对象，是指不借助外力可以自动移动的物体，例如电动玩具、扫地机器人等。本申请实施例中可在终端设备或者服务器中预先设置静态对象的数据库，用于对名词的上述属性进行判断。当视频数据中目标检测结果与语义分析的得到的名词相匹配，并且名词可归类为静态对象时，则表明对应的视频片段可以考虑进行数据压缩的。

假设用户提供的视频中若干个连续视频帧中均检测到目标标签为“发票”，且仅存在该标签时，由于其属于静态对象，此时确定可以对其进行数据压缩，而具体的数据压缩有多种实现方式。

根据上述步骤S103和S104，其结果中出现了有对应关系的关键词，因此此时可以基于语义分析结果对视频数据进行压缩。

常规的视频压缩方法中，其基本原理是对相似的连续帧进行编码压缩，此时可以减少存储空间而不丢失视频信息。但是以典型的投诉视频为例，其中可能出现的一个视频片段内容是由用户手持视频拍摄设备在移动过程中对物体进行拍摄，视频片段内容对同一物体拍摄时不停变换拍摄角度，此时由于视频帧的画面变化较大，采用常规的视频压缩方法难以实现更高效的压缩效果。

针对上述视频片段，即使变换拍摄角度造成视频帧的画面变化较大，但是拍摄的对象并未实质变化，因此本实施例中，可根据目标检测结果与语义分析结果的对应关系对视频片段进行更高效的数据压缩。

S105、向服务器端上传处理后的视频数据。其中，在本步骤可以采取如步骤S2的方式对视频数据进行处理。

S106、服务器端接收所述编码后的视频数据时，对所述前部数据进行解码以获取所述摘要画面帧进行识别，并根据识别结果选择对应的业务处理流程，并在完整接收所述后部数据后将所述前部数据和后部数据还原成完整视频。

本申请实施例提供了一种RPA流程自动化系统，包括：

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种RPA流程自动化方法，其特征在于，包括：

从终端设备获取待处理的视频；

在终端设备对待处理的视频进行编码处理，其中，编码处理时按设定规则抽取多个摘要画面帧并配置在编码后的视频数据的前部数据，所述编码后的视频数据的前部数据的传输优先级高于所述视频数据的后部数据；

2.根据权利要求1所述的RPA流程自动化方法，其特征在于，所述在终端设备对待处理的视频进行编码处理，具体包括：

抽取若干个GOP分组的关键帧作为摘要画面帧；

3.根据权利要求1所述的RPA流程自动化方法，其特征在于，所述对所述前部数据进行解码以获取所述摘要画面帧进行识别，并根据识别结果选择对应的业务处理流程，包括：

4.根据权利要求3所述的RPA流程自动化方法，其特征在于，所述将所述关联图片与所述摘要画面帧进行匹配，以确定所述视频对应的订单信息，具体是：

5.根据权利要求4所述的RPA流程自动化方法，其特征在于，还包括以下步骤：

6.根据权利要求1所述的RPA流程自动化方法，其特征在于，在所述在终端设备对待处理的视频进行编码处理的步骤之前，还包括：

7.根据权利要求1所述的RPA流程自动化方法，其特征在于，所述服务器在接收后部数据时，每接收到一个GOP分组后校验是否具有关键帧，若有则直接对GOP分组进行解码或存储，若无则根据索引信息从前部数据获取GOP分组对应的关键帧，从而还原成完整的GOP分组进行解码或存储。

8.根据权利要求1所述的RPA流程自动化方法，其特征在于，所述摘要画面帧每间隔N个GOP分组获取一帧，所述N为正整数。

9.根据权利要求4所述的RPA流程自动化方法，其特征在于，在对视频进行编码处理前，还包括以下步骤：

分离视频中的视频数据与音频数据；

音频数据转换为文本数据；

对文本数据进行分词处理并进行词性标注；

根据词性标注内容提取上述分词结果中的名词；

将所述名词以优先于音频数据传输的优先级上传至服务器。

10.一种RPA流程自动化系统，其特征在于，包括：