CN113961187B

CN113961187B - Rpa组件智能推荐方法及系统

Info

Publication number: CN113961187B
Application number: CN202111578706.2A
Authority: CN
Inventors: 郭洪锋; 孙跃刚; 周婷
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-22
Anticipated expiration: 2041-12-22
Also published as: CN113961187A

Abstract

本发明属于RPA产品技术领域，具体涉及RPA组件智能推荐方法及系统。S1，提取组件的目标信息；S2，根据提取组件的目标信息，通过K‑means聚类方法对用户进行聚类处理，获得相似用户组；S3，根据相似用户组，确定待添加组件用户属于的用户族，并计算候选组件列表；S4，依据候选组件列表，计算各个候选组件的后验概率值，设定阈值，并按后验概率值从高到低的顺序，从候选组件列表确定预设数量的候选推荐组件；S5，将所述候选推荐组件在RPA界面进行展示，供用户依据实际需求进行组件选择。本发明具有能增强产品的易用性，提升开发人员的开发效率和提高用户组件获取效率的特点。

Description

RPA组件智能推荐方法及系统

技术领域

本发明属于RPA产品技术领域，具体涉及RPA组件智能推荐方法及系统。

背景技术

当前，在数字化变革的时代背景下，企业需要将业务人员从简单重复的低附加值工作中解放出来，使得人员能够转型从事更具创造性、更有价值的工作，从而为企业变革与转型提供组织基础，为企业发展提供有效支撑。而作为一种新兴的数字工具，机器人流程自动化(Robotic Process Automation, RPA)，一种预先配置的软件，它能使用业务规则和预定义的活动设计，来自动执行完成一个或多个不相关软件系统中的流程、活动、事务和任务的组合，打破各系统信息孤岛，具有高效、简单、智能、灵活等特点，成为了不少企业实现智能化转型升级的重要途径之一。

作为RPA厂家，如何提供更加高效、易用、便捷的RPA产品就至关重要，因此就需要不断降低产品的使用门槛，增强产品的易用性，提升产品的体验。当前，RPA产品在可视化页面提供很多原子组件，如流程控制、数据处理、浏览器等，开发者可以根据自己的业务需求对这些组件进行拼装，来完成流程的设计和开发。但随着组件越来越多，组件之间的连接方式也日趋复杂，用户在流程开发过程中需要熟悉了解各个组件及之间的连接关系，增加开发人员的学习成本，并且也导致开发低效开发。

目前，现有的组件创建都是基于用户主动通过菜单栏、搜索框、收藏夹、历史搜索等方式进行选择，本质上需求都是明确的，是用户的一种主动选择的结果，当用户对产品不够熟悉，组件名称不够了解的时候，组件连接关系不够清楚，就会存在如下一些不足点：

第一：组件名称不熟悉。目前市面各个主流RPA厂商的组件数量都多达几百个，开发者要了解并熟悉各个组件是件比较困难的事情。而由于当前组件的创建方式主要是基于搜索框及菜单栏的方式，搜索框是大部分基于精准模糊匹配方式实现，需要开发者知道组件的名称或者名称的关键字符串，当字符串涵盖某个异常字符时候，导致搜索结果为空；菜单栏是基于用户从几百个组件选择自己需要的，筛选过程非常耗时，一旦用户不了解组件，往往达不到想要的效果。因此，这两种方式都需要开发者熟悉RPA产品，增加开发者的学习成本。

第二：组件之间连接关系不了解。组件是业务关系的具体实现，开发者要实现具体的业务流程，需要将具体的业务转变组件之间的连接关系，这不仅要熟悉组件的名称，组件之间的内在作用也需要较深的了解，无疑也增加RPA产品的使用门槛。

第三：目前组件的创建方式是基于用户的主动行为。当前组件创建方式都是基于用户输入一些信息，返回结果，当用户不了解不清楚相关信息，此时怎么样让开发者也能较轻松的上手RPA产品就变得非常重要。

因此，设计一种能增强产品的易用性，提升开发人员的开发效率和提高用户组件获取效率的RPA组件智能推荐方法及系统，就显得十分重要。

例如，申请号为CN202110927454.3的中国专利文献描述的一种基于状态转移概率模型的RPA组件推荐方法，包括：该方法通过统计业务场景中各类操作对应功能组件的使用关系，得到每个功能组件到其他组件的转移概率；以转移概率为依据为每一步RPA流程创建推荐组件，并通过高频组件的类别分布，推荐组件类别；虽然提到的组件及类别推荐基于转移概率模型实现，模型训练数据量越大，模型准确率越高；为避免过拟合应当选择当前业务场景中多个业务人员的操作数据为输入，以防止个人的不规范操作习惯影响模型整体的准确率；另外，可以帮助创建者快速找到适用组件，加速流程构建，但是其缺点在于，并没有解决当现有用户对组件名称不熟悉及组件逻辑不了解时，如何提高用户创建组件效率的问题。

发明内容

本发明是为了克服现有技术中，在RPA产品组件的创建过程中，现有用户对组件名称不熟悉及组件逻辑不了解的问题，提供了一种能增强产品的易用性，提升开发人员的开发效率和提高用户组件获取效率的RPA组件智能推荐方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

RPA组件智能推荐方法，包括如下步骤；

S1，在接受到用户在RPA产品界面创建组件情况下，提取组件的目标信息；

S2，根据提取组件的目标信息，通过K-means聚类方法对用户进行聚类处理，获得相似用户组；

S3，根据相似用户组，确定待添加组件用户属于的用户族，并依据确定的用户族的具体信息计算候选组件列表；

S4，依据候选组件列表，计算各个候选组件的后验概率值，设定阈值，并按后验概率值从高到低的顺序，从候选组件列表确定预设数量的候选推荐组件，再返回候选组件列表；

S5，将所述候选推荐组件在RPA界面进行展示，供用户依据实际需求进行组件选择。

作为优选，步骤S1中所述组件的目标信息包括组件名称、项目属性、用户id、用户行业、用户职业、用户年龄、用户注册时间、用户使用时间和用户是否精通一门编程语言。

作为优选，步骤S2包括如下步骤：

S21，对提取的组件的目标信息进行向量化处理；

S22，对向量化处理后的组件的目标信息，进行数据归一化处理，消除数据量纲因素，生成数据集；

S23，在归一化后的数据集中，初始化生成k个作为聚类中心a=a₁，a₂，a₃，…，a_k；

S24，针对数据集中每个样本，计算各个样本到k个聚类中心的距离D(x_i)=arg min||x_i-a_r||²，r=1，2，3，…，k，并将各个样本分到距离最小的聚类中心所对应的类中；其中x_i表示样本经过归一化生成的特征向量，a_r表示类别的聚类中心点；

S25，针对每个类别a_j，重新计算a_j的聚类中心a_j=

；其中C_i表示聚类类别包含的样本数据，x表示聚类类别中的样本，|C_i|表示类别的数量；

S26，重复步骤S24和步骤S25 ，直至预设的中止条件达成。

作为优选，所述预设的中止条件包括迭代次数达到预设最大值或达到误差变化达到预设最小值。

作为优选，步骤S21中所述向量化处理采用One-hot离散化处理方式。

作为优选，步骤S4包括如下步骤：

当各个候选组件的后验概率值均低于阈值或者后验概率值不存在时，采用预设的组件逻辑规则，进行组件推荐，按照被推荐组件的概率从高到低的顺序，然后从候选组件列表确定预设数量的候选推荐组件，确定候选组件列表，再返回候选组件列表。

作为优选，步骤S4还包括如下步骤：

设定I={I₁，I₂，I₃，...，I_m}为一个组件项集，m表示组件的个数，其中I_m表示第m个项，对应于单个组件；流程t_n对应于单个流程，每个流程都包含若干个组件；流程组成的集合记做D={t₁，t₂，t₃，...，t_n},称为流程事物库；支持度P（XY）=（同时包含组件X和Y的组件流程/所有流程数量）；置信度P（Y｜X）=P（XY）/P(X)，其中支持度P（XY）表示组件X和组件Y关联的数据在数据集中出现的次数占总数据集的比重，置信度P（Y｜X）表示组件X出现后组件Y出现的概率，P(X)表示组件X出现的概率；

S41，对流程事物库进行一次扫描，聚类k个类别，分别统计k个类别总每个组件出现的次数，形成候选1-项集；

S42，根据预设的最小支持度阈值筛选出频繁1-项集；

S43，根据1-项集查找流程事物库，寻找候选组件，形成候选2-项集，为每个候选2-项集进行计数，同样依据预设的最小支持度阈值筛选频繁2-项集；

S44，计算各个项集的置信度，然后依据置信度概率大小从高到低的顺序排列各个项集，并返回候选组件列表。

作为优选，步骤S5包括如下步骤：

进行设置埋点，用于判断用户是否选择候选推荐组件，并记录用户选择候选推荐组件的次数。

本发明还提供了RPA组件智能推荐系统，包括；

RPA数据采集模块，用于在接受到用户在RPA产品界面创建组件情况下，提取组件的目标信息；

数据处理模块，用于根据提取组件的目标信息，通过K-means聚类方法对用户进行聚类处理，获得相似用户组；根据相似用户组，确定待添加组件用户属于的用户族，并依据确定的用户族的具体信息计算候选组件列表；

模型训练模块，用于依据候选组件列表，计算各个候选组件的后验概率值，设定阈值，并按后验概率值从高到低的顺序，从候选组件列表确定预设数量的候选推荐组件，再返回候选组件列表；

预设规则模块，用于当各个候选组件的后验概率值均低于阈值或者后验概率值不存在时，采用预设的组件逻辑规则，进行组件推荐；

页面展示模块，用于将所述候选推荐组件在RPA界面进行展示，供用户依据实际需求进行组件选择。

作为优选，所述数据处理模块包括：

数据预处理模块，用于对提取的组件的目标信息进行向量化处理以及数据归一化处理。

本发明与现有技术相比，有益效果是：（1）本发明运用了推荐算法来解决当前RPA产品在创建组件过程中进行组件查找难的问题以及开发人员对流程业务不熟悉的问题，而且随着用户的行为数据的不断积累，推荐系统也会在一定程度上不断提升准确度；（2）本发明引入了预设组件规则，当算法推荐列表返回结果为空或推荐组件的概率明显低于预设阈值，将自动切换到预设规则中，能解决常用推荐系统的冷启动以及数据量不够的问题；（3）本发明是具有因素更多样，考虑更全面，设计更合理，效率更优化且通用性强的特点。

附图说明

图1为本发明RPA组件智能推荐方法的一种流程图；

图2为本发明实施例所提供的数据采集过程的一种流程图；

图3为本发明实施例所提供的候选推荐组件在RPA界面进行展示的一种实际效果图；

图4为本发明实施例所提供的RPA组件智能推荐方法实际业务应用的一种流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图1所示的RPA组件智能推荐方法，包括如下步骤；

其中，步骤S1中所述组件的目标信息包括组件名称、项目属性、用户id、用户行业、用户职业、用户年龄、用户注册时间、用户使用时间和用户是否精通一门编程语言。

本发明的RPA组件智能推荐方法由RPA数据采集模块、数据处理模块、模型训练模块、预设规则模块、页面展示模块五个部分组成实现。

RPA数据采集模块通过事先的数据埋点，进行收集用户的行为数据，具体方法如图2所示：

通过客户端埋点和H5埋点，采集数据，将数据传输给埋点服务器，客户端埋点采集的数据和H5埋点采集的数据经解析后，均实现消息订阅，消息订阅后的数据分别进行实时存储和离线存储，实时存储的数据进行实时分析，离线存储的数据传输给埋点管理系统的同时并离线分析。

数据处理模块，经前端返回的行为数据通常以JSON形式，并且单条数据仅包含user_id以及其它行为操作数据，涉及用户的行业属性、职业、年龄、注册时间、是否精通一门编程语言等用户属性需要通过数据库表连接方式进行获取。组件逻辑关系数据包含在流程执行事件中，上下游关系以组件列表形式展示，数据处理需进行拆分。单个事件组件列表长度为n，此时需拆分成n-1行记录，然后根据用户属性，采用聚类方法进行用户分组聚类，本发明采用K-means聚类方法，是一种迭代求解的聚类分析算法，包括如下步骤：

S21，对提取的组件的目标信息进行向量化处理；

S25，针对每个类别a_j，重新计算a_j的聚类中心a_j=

S26，重复步骤S24和步骤S25 ，直至预设的中止条件达成。

其中，所述预设的中止条件包括迭代次数达到预设最大值或达到误差变化达到预设最小值。步骤S21中所述向量化处理采用One-hot离散化处理方式。另外，采用Z-score归一化，X^*=(x’-μ)/σ，其中μ表示用户每个特征的均值，σ表示该特征方差，x’表示用户每个特征。

具体代码实现如下：

获取数据n个m维的用户属性数据；

数据One-hot离散化、数据归一化处理；

随机生成k个m维的坐标点：

for t in range(t+1):

for i in range(n+1):

for j in range(n+1):

计算i与j的距离：Distance = distance(i, j)

for i in range(n+1)：

找出改类别下的所有数据点；

计算各个类别的中心点坐标，并进行坐标更新。

其中，t为迭代次数，k为用户分组数目，n为用户样本量，m为用户特征维度。

K值的选取对K-means影响很大，常见的选取K值的方法有：手肘法、Gap statistic方法、业务人员依据经验制定，本发明采用手肘法进行K值的确定。

另外，数据处理模块包括数据预处理模块，用于对提取的组件的目标信息进行向量化处理以及数据归一化处理。

模型训练模块的操作步骤如下：

S42，根据预设的最小支持度阈值筛选出频繁1-项集；

根据上述方法，对一个未知组件名称X，扫描数据库统计包含X的流程数量，计算支持度是否达到阈值，符合要求后，然后统计组件X频繁2-项集，计算各个item的置信度，然后根据置信度进行降序排列，最后依据业务需要，返回Top N候选组件列表。

预设规则模块，用于当各个候选组件的后验概率值均低于阈值或者后验概率值不存在时，采用预设的组件逻辑规则，进行组件推荐，按照被推荐组件的概率从高到低的顺序，然后从候选组件列表确定预设数量的候选推荐组件，确定候选组件列表，再返回候选组件列表。

针对埋点数据库逻辑组件上下游没有对应关系或者数据量较少的情况下，组件推荐明显较难给出相对准确的值。基于此情况，提前预置一些组件之间的逻辑关系，此组件逻辑关系依据RPA实施人员给出，每个组件给出1到5个候选组件列表，相对有效的解决组件推荐冷启动的问题以及此前用户没有用过组件的情况，增加系统的推荐准确度。

页面展示模块，用于前端页面进行显示效果展示，用户点击组件推荐按钮，后端返回的推荐列表，然后用户根据意愿判断是否进行选择。同时进行设置埋点，判断用户是否选择组件列表，辨别推荐模型的优劣，并且，也可以根据次数据进行进一步的推荐优化，完善推荐模型，提高模型的准确率，案例上线效果图，如图3所示。

基于本发明的技术方案，在具体实施和操作过程中的一个典型业务流程如图4所示：

获取用户属性，包含公司名称、行业属性、用户类型、职业、年龄、注册时间、是否精通一门编程语言，如下表1所示。根据用户属性，采用聚类方法，如K-means聚类，依据业务需要将用户聚类k组，a₁ =（a，b, ……,）；a₂ =（c，d, ……,）；……；a_k=（e，f, ……）建立用户画像模型。

表1 用户属性信息表

用户id

公司名称

所属行业

用户类型

职业

是否精通一门编程语言

其它特征

a

****W

电商

企业

电商运营

是

****

b

****X

教育

企业

会计

是

****

c

****Y

物流

企业

会计

否

****

d

****Z

零售

社区

经理

是

****

数据来自用户行为的埋点数据库，其中获取的数据包括：用户属性信息，用户行为数据和组件上下游的信息等。其中，组件信息指：用户在开发RPA流程过程中，创建组件的信息，每条行为数据包含：事件，用户id，项目id，时间，组件列表等，其中创建组件顺序相对比较复杂，为了更直观展示用户的行为数据，本实例给出下表埋点数据，根据运行流程事件获取组件的逻辑关系，组件列表为流程的组件顺序列表，如表2所示：

表2 用户行为的埋点数据表

事件	用户id	项目id	时间	组件列表
					运行流程	a	xYw11GHVf	2021/8/1 15:50	元素点击,获取文本, ……,打印日志
运行流程	b	X7e4aRFI3p	2021/8/3 12:31	打开新网页,元素判断,……,退出浏览器
					运行流程	c	nnEDzEg6qj	2021/8/10 17:49	打开excel,读取行数……,关闭excel
运行流程	a	9haaaLp4nn	2021/8/11 9:21	插入代码,设置变量,……，打印日志

对用户的静态信息和动态数据进行加工，以供推荐模块使用，其中静态特征可以通过离线方式进行计算，动态特征基于前端事件获取，实例信息如表3所示：

表3用户的静态信息和动态数据信息表

用户id	用户族	前置组件名称	下游组件名称	数量
					a	1	元素点击	元素判断是否存在	100
b	1	元素点击	打印日志	80
					a	1	元素点击	获取文本	60
c	2	元素点击	设置变量	40
					g	k	元素点击	输入文本	……

用户构建当前组件后，后台接收当前组件的名称及用户相关属性，识别用户类别，然后推荐算法进行计算后面关联组件的概率，通过设定阈值，然后返回大于阈值的概率组件，然后返回组件列表，推荐组件列表如下表4所示，每个组件列表包含用户族,前置组件名称，下游组件名称，以及对应的概率：

表4推荐组件列表

用户族	前置组件名称	下游组件名称	概率
				a<sub>1</sub>	元素点击	元素判断是否存在	0.25
a<sub>1</sub>	元素点击	打印日志	0.2
				a<sub>1</sub>	元素点击	获取文本	0.15
a<sub>2</sub>	元素点击	设置变量	0.1
				a<sub>k</sub>	元素点击	输入文本	……

在上述实例中，根据返回的结果值，在可视化界面进行展示，然后用户根据需求进行选择。

本实施案例中，为了更加直观的展示上述的方法。如A用户和X公司，X公司属于电商行业，B用户和Y公司，Y公司也属于电商行业，C用户和Z公司，Z公司属于烟草行业。在实际进行RPA流程开发过程中，A用户在创建M组件过程后，添加了组件B，以及其它XXX组件，B和C用户可能也在创建M组件后添加了一些其它的组件。具体数据我们可以通过后台埋点的行为数据进行获取。在模型计算中，我们首先根据用户的相关属性对用户进行K-means聚类，可以根据业务需要聚k个类别，当接受用户创建了X组件后，我们识别其所在的用户簇，然后进行逻辑组件概率计算，如上述A用户和B用户具有相似的用户属性，此时经算法聚类为同一组。A用户创建M组件后，添加下游组件分别为N、O、P等，B用户创建M组件后添加下游组件为P、Q等，相似其他的用户组也填加了若干的下游组件，通过概率计算，N、O、P、Q概率为0.3，0.2，0.2、0.1等。当相似用户组内用户在请求M组件后，就可以根据概率大小返回N、O、P、Q等组件。当模型缺失对应的组件关系，可以自动切换到预设规则中，同样返回相对有效的结果。并且，在实际中，随着用户创建组件次数的增加，本实例构建的模型覆盖面也会随之变大，准确率也会进一步提高。

本发明运用了推荐算法来解决当前RPA产品在创建组件过程中进行组件查找难的问题以及开发人员对流程业务不熟悉的问题，而且随着用户的行为数据的不断积累，推荐系统也会在一定程度上不断提升准确度；本发明引入了预设组件规则，当算法推荐列表返回结果为空或推荐组件的概率明显低于预设阈值，将自动切换到预设规则中，能解决常用推荐系统的冷启动以及数据量不够的问题；本发明是具有因素更多样，考虑更全面，设计更合理，效率更优化且通用性强的特点。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.RPA组件智能推荐方法，其特征在于，包括如下步骤；

S5，将所述候选推荐组件在RPA界面进行展示，供用户依据实际需求进行组件选择；

步骤S4包括如下步骤：

当各个候选组件的后验概率值均低于阈值或者后验概率值不存在时，采用预设的组件逻辑规则，进行组件推荐，按照被推荐组件的概率从高到低的顺序，然后从候选组件列表确定预设数量的候选推荐组件，确定候选组件列表，再返回候选组件列表；

步骤S4还包括如下步骤：

设定I＝{I₁，I₂，I₃，...，I_m}为一个组件项集，m表示组件的个数，其中I_m表示第m个项，对应于单个组件；流程t_n对应于单个流程，每个流程都包含若干个组件；流程组成的集合记做D＝{t₁，t₂，t₃，...，t_n},称为流程事物库；支持度P(XY)＝(同时包含组件X和Y的组件流程/所有流程数量)；置信度P(Y|X)＝P(XY)/P(X)，其中支持度P(XY)表示组件X和组件Y关联的数据在数据集中出现的次数占总数据集的比重，置信度P(Y|X)表示组件X出现后组件Y出现的概率，P(X)表示组件X出现的概率；

S42，根据预设的最小支持度阈值筛选出频繁1-项集；

S43，根据候选1-项集查找流程事物库，寻找候选组件，形成候选2-项集，为每个候选2-项集进行计数，同样依据预设的最小支持度阈值筛选频繁2-项集；

2.根据权利要求1所述的RPA组件智能推荐方法，其特征在于，步骤S1中所述组件的目标信息包括组件名称、项目属性、用户id、用户行业、用户职业、用户年龄、用户注册时间、用户使用时间和用户是否精通一门编程语言。

3.根据权利要求1所述的RPA组件智能推荐方法，其特征在于，步骤S2包括如下步骤：

S21，对提取的组件的目标信息进行向量化处理；

S23，在归一化后的数据集中，初始化生成k个作为聚类中心a＝a₁，a₂，a₃，…，a_k；

S24，针对数据集中每个样本，计算各个样本到k个聚类中心的距离D(x_i)＝arg min||x_i-a_r||²，r＝1，2，3，…，k，并将各个样本分到距离最小的聚类中心所对应的类中；其中x_i表示样本经过归一化生成的特征向量，a_r表示类别的聚类中心点；

S25，针对每个类别a_j，重新计算a_j的聚类中心

其中C_i表示聚类类别包含的样本数据，x表示聚类类别中的样本，|C_i|表示类别的数量；

S26，重复步骤S24和步骤S25，直至预设的中止条件达成。

4.根据权利要求3所述的RPA组件智能推荐方法，其特征在于，所述预设的中止条件包括迭代次数达到预设最大值或达到误差变化达到预设最小值。

5.根据权利要求3所述的RPA组件智能推荐方法，其特征在于，步骤S21中所述向量化处理采用One-hot离散化处理方式。

6.根据权利要求1所述的RPA组件智能推荐方法，其特征在于，步骤S5包括如下步骤：