CN113435863A

CN113435863A - 建导式协作流程优化方法、系统、存储介质及计算设备

Info

Publication number: CN113435863A
Application number: CN202110829349.6A
Authority: CN
Inventors: 程絮森; 刘瑜; 付小桐; 靖信如; 李春志; 刘阳煜; 田景怡; 张晓萍
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-09-24

Abstract

本发明涉及一种建导式协作流程优化方法、系统、存储介质及计算设备，其包括：对所有方案数据进行分类处理，获得多个类别的方案及各类别方案对应的意见；对多个类别的方案进行筛选，去除重复意见及无效意见；计算筛选后的每条意见的平均得分，根据分值高低进行排序，确定相应意见的重要程度；以分值高最高的意见作为输出，完成建导式协作流程优化。本发明能在输入大量备选意见后，进行数据自动处理后，实现依据方案优劣程度按序输出，并有效减小计算量。本发明可以广泛在计算机协作数据信息处理技术领域中应用。

Description

建导式协作流程优化方法、系统、存储介质及计算设备

技术领域

本发明涉及一种计算机协作数据信息处理技术领域，特别是关于一种基于机器学习的建导式协作流程优化方法、系统、存储介质及计算设备。

背景技术

当前，建导式协作已应用于多个领域帮助团队就某一问题快速高效地达成一致意见。传统的建导式协作流程以人作为建导师统筹整个团队协作环节，要求全体团队成员参与意见讨论、意见分类、意见筛选和意见精炼全流程，这不仅对建导师的专业能力和组织协调能力提出了更高的要求，也导致业务流程耗时耗力和用户在流程回路中涉入次数过多等问题，数据处理量较大。

发明内容

针对上述问题，本发明的目的是提供一种基于机器学习的建导式协作流程优化方法、系统、存储介质及计算设备，其能在输入大量备选意见后，进行数据自动处理后，实现依据方案优劣程度按序输出(或仅输出最有方案)，并有效减小计算量。

为实现上述目的，本发明采取以下技术方案：一种建导式协作流程优化方法，其包括：对所有方案数据进行分类处理，获得多个类别的方案及各类别方案对应的意见；对多个类别的方案进行筛选，去除重复意见及无效意见；计算筛选后的每条意见的平均得分，根据分值高低进行排序，确定相应意见的重要程度；以分值高最高的意见作为输出，完成建导式协作流程优化。

进一步，所述对所有方案数据进行分类处理，包括：利用分词器去掉每个方案中出现的停用词；将去掉停用词的方案进行文本特征提取，构建词频矩阵；对词频矩阵进行聚类，输出多个类别的方案及各类别方案对应的意见。

进一步，所述分词器采用jieba分词，并采用K-means聚类法进行聚类。

进一步，所述对多个类别的方案进行筛选，包括：对每个类别方案中的意见进行分词，去掉每条意见中的停用词，把m个意见分成m_k个词语；基于BERT模型预训练词向量，将m_k个词语转化为对应的m_k个词向量，用词向量表示词语；计算分词后每个词语的TF-IDF频数，当作词向量的权系数；根据词向量的权系数计算每个意见对应的句向量；根据句向量计算不同意见句子的第一余弦相似度，根据第一余弦相似度判断相应意见是否去除；计算不同意见句向量同主题词向量的第二余弦相似度，根据第二余弦相似度判断相应意见是否为不相关。

进一步，所述计算筛选后的每条意见的平均得分，包括：将每个意见的原始文本输入BERT模型生成词向量；将词向量输入卷积神经网络，将分数视为作为连续的得分，训练一个通过词向量拟合打分结果的CNN模型；将测试语句同样转化为词向量，输入训练好的CNN模型，得到分数预测结果；根据分数预测结果和实际得分得到每条意见的平均得分。

进一步，所述根据分值高低进行排序，包括：以分值的均值和方差构造置信区间，以置信区间下界代替简单地均值点估计量来进行重要性排序。

进一步，所述置信区间的构建包括：假定分布，如果认为每个人的打分相互独立，则均值分布趋向正态分布；用标准差标准化后，其理论上服从t分布，采用t分布进行近似：按照置信区间下界L的大小进行排序，当两条意见置信区间下界也相同时，对置信区间长度进行排序，等价于对方差进行排序，方差越小，长度越短，重要性级别越高。

一种建导式协作流程优化系统，其包括：分类模块、筛选模块、排序模块和输出模块；所述分类模块，用于对所有方案数据进行分类处理，获得多个类别的方案及各类别方案对应的意见；所述筛选模块，用于对多个类别的方案进行筛选，去除重复意见及无效意见；所述排序模块，用于计算筛选后的每条意见的平均得分，根据分值高低进行排序，确定相应意见的重要程度；所述输出模块，以分值高最高的意见作为输出，完成建导式协作流程优化。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明仅需输入所有备选意见，接下来的意见分类、意见筛选和意见精炼环节均可自动实现，一方面可以将人从繁琐的协作流程任务中抽离出来，节约人力资源成本；另一方面可以在一定程度上避免因个人疲惫导致的在意见分类、意见筛选和意见精炼等环节所产生的决策失误。

2、本发明通过自动进行意见分类、意见筛选和意见精炼，能实现依据方案优劣程度按序输出(或仅输出最有方案)，并有效减小计算量。

附图说明

图1是本发明一实施例中的建导式协作流程优化方法流程示意图；

图2是本发明一实施例中的对多个类别的方案进行筛选示意图；

图3是本发明一实施例中的计算设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本发明的一个实施例中，如图1所示，提供一种基于机器学习的建导式协作流程优化方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例所提供的建导式协作流程优化方法不仅可以用于在线团队协作数据处理优化，也可应用到其他领域对其他问题进行优化。本实施例中，该方法包括以下步骤：

步骤1、对所有方案数据进行分类处理，获得多个类别的方案及各类别方案对应的意见；

步骤2、对多个类别的方案进行筛选，去除重复意见及无效意见；

步骤3、计算筛选后的每条意见的平均得分，根据分值高低进行排序，确定相应意见的重要程度；

步骤4、以分值高最高的意见作为输出，完成建导式协作流程优化。

上述步骤1中，对所有方案数据进行分类处理，包括以下步骤：

步骤1.1、利用分词器去掉每个方案中出现的停用词；

步骤1.2、将去掉停用词的方案进行文本特征提取，构建词频矩阵；

步骤1.3、对词频矩阵进行聚类，输出多个类别的方案及各类别方案对应的意见。

优选的，分词器采用jieba分词，并采用K-means聚类法进行聚类。

具体为：对于n个意见语句，利用jieba分词器，去掉每条语句中的停用词；利用CountVectorize进行文本特征提取，构建词频矩阵；基于K-means聚类法进行聚类，输出Q个类别以及各类别下对应的意见。

上述步骤2中，对多个类别的方案进行筛选，包括：

步骤2.1、对每个类别方案中的意见进行分词，去掉每条意见中的停用词，把m个意见分成m_k个词语；

步骤2.2、基于BERT模型预训练词向量，将m_k个词语转化为对应的m_k个词向量，用词向量表示词语；

步骤2.3、计算分词后每个词语的TF-IDF频数，当作词向量的权系数；

步骤2.4、根据词向量的权系数计算每个意见对应的句向量；

步骤2.5、根据句向量计算不同意见句子的第一余弦相似度，根据第一余弦相似度判断相应意见是否去除；

即，对比计算每个意见与其他意见句向量的相似度进行筛选，去除重复意见；

步骤2.6、计算不同意见句向量同主题词向量的第二余弦相似度，根据第二余弦相似度判断相应意见是否为不相关；即，计算主题词向量同各意见句向量的相似度，筛选去除不符合主题的意见。

具体为：如图2所示，对于第Q个类别下的m条语句(循环Q次)；

利用jieba分词，去掉每条语句中的停用词，把m个意见分成m_k个词语；基于BERT模型预训练词向量，将m_k个词语转化为对应的m_k个词向量，用词向量表示词语；利用TF-IDF算法计算分词后每个词语的频率，当作句中词向量的权系数。例如，若第j个句子包含j_k个词语，其中第i个词语在这个句子里的权重(tf-idf_i,j)的计算公式为：

tf-idf_i,j＝tf_i,j*idf_i,j

其中，tf_i,j为第i个词语在第j个句子中出现的频率；idf_i,j＝ln(m/包含第j个句子中的第i个词语的句子数量)，其中m为句子的总数量。

根据权重计算第K个句子对应的句向量：

根据句向量计算不同句子的第一余弦相似度cosθ：

式中，A表示句向量(或词向量)，B表示表示句向量(或词向量)，A_i表示A向量的第i个分量，B_i表示B向量的第i个分量。

在本实施例中，当第一余弦相似度(即余弦值)>0.8时，则认为意见重复，剔除重复句子。

基于BERT模型预训练词向量，将主题词转换为对应词向量，计算不同意见句向量同主题词向量的第二余弦相似度cosθ；

在本实施例中，当第二余弦相似度<0.2剔除意见，认为同主题不相关。

上述步骤3中，使用BERT模型得到代表文本特征的词向量，使用卷积神经网络模型，输入对应得分、词向量进行训练，输入测试集提取的词向量，对得分进行预测。

计算筛选后的每条意见的平均得分，包括：

步骤3.1.1、将每个意见的原始文本输入BERT模型生成词向量；

步骤3.1.2、将词向量输入卷积神经网络，将分数视为作为连续的得分，训练一个通过词向量拟合打分结果的CNN模型；

步骤3.1.3、将测试语句同样转化为词向量，输入训练好的CNN模型，得到分数预测结果；

步骤3.1.4、根据分数预测结果和实际得分得到每条意见的平均得分。

具体为：将语句划分为训练集和测试集，对语句进行人工打分，最后每条输入意见语句文本ID_i得到一个平均分数Y_i。使用BERT模型对每句原始文本输入生成词向量。根据预训练模型结果，生成每条文本输入的词向量，输出每条输入输出一个n维的词向量X_i。

将词向量输入卷积神经网络(CNN)，即输入词向量X_i、打分结果Y_i；将分数视为作为连续的得分，训练一个通过词向量X_i拟合打分结果Y_i的CNN模型，输出训练好的CNN模型M。

将测试语句同样转化为词向量，输入训练好的CNN模型，得到分数预测结果，根据分数预测结果和实际得分得到每条意见的平均得分。

上述步骤3中，根据分值高低进行排序，包括：以分值的均值和方差构造置信区间，以置信区间下界代替简单地均值点估计量来进行重要性排序。

其中，置信区间的构建包括：假定分布，如果认为每个人的打分相互独立，则均值分布趋向正态分布；用标准差标准化后，其理论上服从t分布，采用t分布进行近似：按照置信区间下界L的大小进行排序，当两条意见置信区间下界也相同时，对置信区间长度进行排序，等价于对方差进行排序，方差越小，长度越短，重要性级别越高。

具体为：采用t分布进行近似：

其中，x为样本值，μ为样本均值，sd为样本标准差，n为样本量(评分人数)。

以L表示95％置信区间下界，R表示95％置信区间上界，可得：

首先按照置信区间下界L的大小进行排序，当两条意见置信区间下界也相同时，对置信区间长度进行排序，等价于等价于对方差进行排序，方差越小，长度越短，重要性级别越高。

例如：记得到的n条意见记为x₁,x₂,....x_n，第i个意见的均值和标准差分别为μ_i和sd_i，则具体的重要性计算方法为：

对于每个x_i，计算其重要性得分score_i：

将

从大到小排序，可得到重要性从高到底的意见排序。当

时，若

那么意见i的重要性要高于j。

在本发明的一个实施例中，提供一种建导式协作流程优化系统，其包括：分类模块、筛选模块、排序模块和输出模块；分类模块，用于对所有方案数据进行分类处理，获得多个类别的方案及各类别方案对应的意见；筛选模块，用于对多个类别的方案进行筛选，去除重复意见及无效意见；排序模块，用于计算筛选后的每条意见的平均得分，根据分值高低进行排序，确定相应意见的重要程度；输出模块，以分值高最高的意见作为输出，完成建导式协作流程优化。

本实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

如图3所示，为本发明一实施例中提供的计算设备结构示意图，该计算设备可以是终端，其可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时以实现一种优化方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏，该输入装置可以是显示屏上覆盖的触摸层，也可以是计算设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令，以执行如下方法：

对所有方案数据进行分类处理，获得多个类别的方案及各类别方案对应的意见；对多个类别的方案进行筛选，去除重复意见及无效意见；计算筛选后的每条意见的平均得分，根据分值高低进行排序，确定相应意见的重要程度；以分值高最高的意见作为输出，完成建导式协作流程优化。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算设备的限定，具体的计算设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的一个实施例中，提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：对所有方案数据进行分类处理，获得多个类别的方案及各类别方案对应的意见；对多个类别的方案进行筛选，去除重复意见及无效意见；计算筛选后的每条意见的平均得分，根据分值高低进行排序，确定相应意见的重要程度；以分值高最高的意见作为输出，完成建导式协作流程优化。

在本发明的一个实施例中，提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：对所有方案数据进行分类处理，获得多个类别的方案及各类别方案对应的意见；对多个类别的方案进行筛选，去除重复意见及无效意见；计算筛选后的每条意见的平均得分，根据分值高低进行排序，确定相应意见的重要程度；以分值高最高的意见作为输出，完成建导式协作流程优化。

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种建导式协作流程优化方法，其特征在于，包括：

对所有方案数据进行分类处理，获得多个类别的方案及各类别方案对应的意见；

对多个类别的方案进行筛选，去除重复意见及无效意见；

计算筛选后的每条意见的平均得分，根据分值高低进行排序，确定相应意见的重要程度；

以分值高最高的意见作为输出，完成建导式协作流程优化。

2.如权利要求1所述优化方法，其特征在于，所述对所有方案数据进行分类处理，包括：

利用分词器去掉每个方案中出现的停用词；

将去掉停用词的方案进行文本特征提取，构建词频矩阵；

对词频矩阵进行聚类，输出多个类别的方案及各类别方案对应的意见。

3.如权利要求2所述优化方法，其特征在于，所述分词器采用jieba分词，并采用K-means聚类法进行聚类。

4.如权利要求1所述优化方法，其特征在于，所述对多个类别的方案进行筛选，包括：

对每个类别方案中的意见进行分词，去掉每条意见中的停用词，把m个意见分成m_k个词语；

基于BERT模型预训练词向量，将m_k个词语转化为对应的m_k个词向量，用词向量表示词语；

计算分词后每个词语的TF-IDF频数，当作词向量的权系数；

根据词向量的权系数计算每个意见对应的句向量；

根据句向量计算不同意见句子的第一余弦相似度，根据第一余弦相似度判断相应意见是否去除；

计算不同意见句向量同主题词向量的第二余弦相似度，根据第二余弦相似度判断相应意见是否为不相关。

5.如权利要求1所述优化方法，其特征在于，所述计算筛选后的每条意见的平均得分，包括：

将每个意见的原始文本输入BERT模型生成词向量；

将词向量输入卷积神经网络，将分数视为作为连续的得分，训练一个通过词向量拟合打分结果的CNN模型；

将测试语句同样转化为词向量，输入训练好的CNN模型，得到分数预测结果；

根据分数预测结果和实际得分得到每条意见的平均得分。

6.如权利要求1或5所述优化方法，其特征在于，所述根据分值高低进行排序，包括：以分值的均值和方差构造置信区间，以置信区间下界代替简单地均值点估计量来进行重要性排序。

7.如权利要求6所述优化方法，其特征在于，所述置信区间的构建包括：假定分布，如果认为每个人的打分相互独立，则均值分布趋向正态分布；用标准差标准化后，其理论上服从t分布，采用t分布进行近似：按照置信区间下界L的大小进行排序，当两条意见置信区间下界也相同时，对置信区间长度进行排序，等价于对方差进行排序，方差越小，长度越短，重要性级别越高。

8.一种建导式协作流程优化系统，其特征在于，包括：分类模块、筛选模块、排序模块和输出模块；

所述分类模块，用于对所有方案数据进行分类处理，获得多个类别的方案及各类别方案对应的意见；

所述筛选模块，用于对多个类别的方案进行筛选，去除重复意见及无效意见；

所述排序模块，用于计算筛选后的每条意见的平均得分，根据分值高低进行排序，确定相应意见的重要程度；

所述输出模块，以分值高最高的意见作为输出，完成建导式协作流程优化。

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至7所述方法中的任一方法。

10.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。