CN112651590B

CN112651590B - 一种指令处理流程推荐的方法

Info

Publication number: CN112651590B
Application number: CN202011079910.5A
Authority: CN
Inventors: 杨林; 向亮; 李小龙
Original assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Current assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2023-03-31
Anticipated expiration: 2040-10-10
Also published as: CN112651590A

Abstract

本发明公开了一种指令处理流程推荐的方法，通过定义各个指令类别的流程节点和流程流向规则；确定指令类别的类簇个数，对中心点进行选取；获取指令上下文实时数据进行本体化；查找聚类库，得到本体样本的的目标聚类中心点；根据中心点查找数据库该类簇所对应的指令流程，同时生成相应的指令处理流程预案提供给用户。本发明解决了现有的指令选择通常是决策层通过多年行业经验和直觉而做出，指令处理流程慢和决策效率低的问题。

Description

一种指令处理流程推荐的方法

技术领域

本发明涉及的是指令决策技术领域，特别涉及一种指令处理流程推荐的方法。

背景技术

指令流程通常是指：拥有专业背景和多年行业知识、经验的专家经过推演和模拟研判而归纳总结的流程化作业。通过指令处理流程推荐，可以帮助指挥决策者减少决策成本，提高决策准确性，有利于提高决策效率。

现有的指令选择通常是决策层通过多年行业经验和直觉而做出，随着前端的信息不断的叠加，决策日益将基于数据和分析得出。指挥调度决策层如何快速准确的从数据信息中做出决策，规范决策流程提高决策效率。目前，关于指令处理流程推荐的相关方法较少，因此，亟需研究一种指令处理流程推荐的方法。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种指令处理流程推荐的方法。

本发明公开了一种指令处理流程推荐的方法，包括：

S100.定义各个指令类别的流程节点和流程流向规则；

S200.确定指令类别的类簇个数，对中心点进行选取；

S300.获取指令上下文实时数据进行本体化；

S400.查找聚类库，得到本体样本的的目标聚类中心点；

S500.根据中心点查找数据库该类簇所对应的指令流程，同时生成相应的指令处理流程预案提供给用户。

进一步地，S100中，流程节点和流向规则由行业领域专家结合多年的专业经验和解决的实际问题通过严密的逻辑推演定义，该流程节点和流向规则完善存储在数据表中。

进一步地，S200具体包括：

S201.选取类簇中心点，假设本体样本观测集为x＝{x₁,x₂,x₃....x_n}，其中，每个样本点x_i均有n个属性，将本体样本观测集通过无监督化的机器学习划分到K(k<＝n)个聚类组中，随机选取K个样本数据点作为中心点，聚类中心点c＝{c₁,c₂,c₃,c₄.....c_k}；

S202.假设p个样本点x＝{x₁,x₂,x₃..x_p}每个样本点x_i均有n个属性。x_i＝(x_i1,x_i2,x_i3....x_in)，聚类库中心点c＝{c₁,c₂,c₃,c₄.....c_n}，c_j∈x，每个聚类中心也有n个属性c_j＝(c_j1,c_j2,c_j3....c_jn)，将每个样本点x_i和聚类库中心点c_j逐个进行欧氏距离计算，当某一聚类中心点与每个样本点欧式距离最小时，选取当前聚类中心点作为本体样本观测集的类簇中心点；

S203.利用算数平均值更新聚类中心，确定了样本点x_i所属类簇后，重新计算中心点，簇类成员增加后进行算术平均值计算作为新的中心点，重复步骤S202直到中心点不变即为收敛。

进一步地，样本点x_i到中心点c_j类库中心点欧式距离d(x_i,c_j)，其计算的数据公式如下：

其中，x_ik表示样本点xi的第K类属性，c_jk表示中心点c_j对应的第K类属性。

进一步地，当找到其中欧式距离最小值对应的聚类中心点c_j后，对样本点x_i进行聚类，其中，聚类公式为：

通过聚类公式，确定样本点所属类簇x_i属于该类簇，样本点x，对象x∈c_j。

进一步地，算数平均值更新聚类中心的公式为：

其中，c_i为更新簇平均值，x为簇类成员增加后样本点。

进一步地，S300中，采用最大正向匹配法或\和逆向最大匹配法，进行基于字典、词库匹配的分词，达到获取指令上下文实时数据进行本体化的目的。

进一步地，最大正向匹配法具体方法为：假设分词词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典；若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来；如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理，如此反复，直到匹配成功，完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。

进一步地，逆向最大匹配法具体方法为:从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配；使用逆序词典作为分词词典，其中的每个词条都将按逆序方式存放；在实际处理时，先将文档进行倒排处理，生成逆序文档；然后，根据逆序词典，对逆序文档用正向最大匹配法处理即可。

进一步地，S400具体方法为：得到所述本体库后，通过聚类算法得到本体X对应的类簇聚类中心点；其中，所述聚类库用于存储各个指令类别所对应的各聚类中心点；每一个指令类别所对应的各聚类中心点是利用聚类算法对该指令相关联的历史数据本体库进行聚类所得的；本体样本点和聚类库中的中心点逐个进行聚类计算，本体样本点和聚类库中心点逐个进行欧式距离计算，欧式距离最小的聚类类中心点即为该样本的类簇中心点。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明通过定义各个指令类别的流程节点和流程流向规则；确定指令类别的类簇个数，对中心点进行选取；获取指令上下文实时数据进行本体化；查找聚类库，得到本体样本的的目标聚类中心点；根据中心点查找数据库该类簇所对应的指令流程，同时生成相应的指令处理流程预案提供给用户。解决了现有的指令选择通常是决策层通过多年行业经验和直觉而做出，指令处理流程慢和决策效率低的问题。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例1中，一种指令处理流程推荐的方法的流程图；

图2为本发明实施例1中，中心点聚类示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的指令处理流程慢和决策效率低的问题，本发明实施例提供一种指令处理流程推荐的方法。

实施例1

本实施例公开了一种指令处理流程推荐的方法，包括：

S100.定义各个指令类别的流程节点和流程流向规则；具体的，不同行业领域中具备不同领域知识背景的专家综合多年的行业经验针对各个不同场景下的指令拟定相关流程规则以及遵从的法律法规，定义每个指令的流程节点和流程流向形成标准化的行动有效指令集合资料库。

在本实施例中，流程节点和流向规则由行业领域专家结合多年的专业经验和解决的实际问题通过严密的逻辑推演定义，该流程节点和流向规则完善存储在数据表中。

S200.确定指令类别的类簇个数，对中心点进行选取；具体的，聚类库的类簇数即为指令类别的个数K，指令类别类簇的初始值即为聚类库中该类簇的中心点，属性(特征向量)值由行业领域专家综合多年的经验、专业背景知识以及结合公安云数据平台的历史数据模拟推演确定，后期会根据聚类算法K-Means计算确定，收敛后重新确定类簇中心点。中心点一定程度上代表了类簇中数据点的相似性，不同的类簇中心点欧式距离越大越好，从而保证“簇类差异性小，簇间差异性大”。

在本实施例中，S200具体包括：

S201.选取类簇中心点，假设本体样本观测集为x＝{x₁,x₂,x₃....x_n}，其中，每个样本点x_i均有n个属性，将本体样本观测集通过无监督化的机器学习划分到K(k<＝n)个聚类组中，随机选取K个样本数据点作为中心点，聚类中心点c＝{c₁,c₂,c₃,c₄.....c_k}。

具体的，如图2，将p个本体见图(a)观测量通过无监督化的机器学习划分到K(k<＝n)个聚类组中(类簇)，暂定k＝2随机选取k(k＝2)个样本数据点作为中心点，聚类中心点c＝{c₁,c₂,c₃,c₄.....c_n}，c_i∈r_n共计k＝2个聚类中心。见图(b)两点十字点代表两个中心点，原点代表样本点，选取具有代表性样本数据点作为聚类中心点，尽可能选择两个距离较远的两个样本点作为初始聚类中心点。

在本实施例中，样本点x_i到中心点c_j类库中心点欧式距离d(x_i,c_j)，其计算的数据公式如下：

在本实施例中，当找到其中欧式距离最小值对应的聚类中心点c_j后，对样本点x_i进行聚类，其中，聚类公式为：

通过聚类公式，确定样本点所属类簇x_i属于该类簇，样本点x，对象x∈cj。

在本实施例中，算数平均值更新聚类中心的公式为：

其中，c_i为更新簇平均值，x为簇类成员增加后样本点。

S300.获取指令上下文实时数据进行本体化；具体的，获取指令上下文数据进行智能化处理，主要包括关键字要素提取、基于自然语言处理理论的分词技术和语义分析、文本挖掘等智能活动抽象成基于人员、群体、类别、地、规模、物品......属性的N维特征像向量x₁,y₁,z₁的数据点X；每一个属性的特征向量会通过query词权重算法赋予不同的数值。

在本实施例中，采用最大正向匹配法或\和逆向最大匹配法，进行基于字典、词库匹配的分词，达到获取指令上下文实时数据进行本体化的目的。

具体的，最大正向匹配法具体方法为：假设分词词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典；若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来；如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理，如此反复，直到匹配成功，完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。

在本实施例中，逆向最大匹配法具体方法为:从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配；使用逆序词典作为分词词典，其中的每个词条都将按逆序方式存放；在实际处理时，先将文档进行倒排处理，生成逆序文档；然后，根据逆序词典，对逆序文档用正向最大匹配法处理即可。

S400.查找聚类库，得到本体样本的的目标聚类中心点；所述聚类库用于存储各对应的各聚类中心点；本体数据样本所对应的各聚类中心点是利用聚类算法对该样本的历史数据进行聚类所得。

在本实施例中，S400具体方法为：得到所述本体库后，通过聚类算法得到本体X对应的类簇聚类中心点u_i；其中，所述聚类库用于存储各个指令类别所对应的各聚类中心点；每一个指令类别所对应的各聚类中心点是利用聚类算法对该指令相关联的历史数据本体库进行聚类所得的；本体样本点和聚类库中的中心点逐个进行聚类计算，本体样本点和聚类库中心点逐个进行欧式距离计算，欧式距离最小的聚类类中心点即为该样本的类簇中心点。

具体的，基于所获得的各指令类别类簇聚类中心点，查找当前中心点类簇clusterId和类簇指令表，每一个类簇类别都会关联相关的指令流程节点和流向规则，获取当前类簇所对应的指令类别编号commandTypeId，基于该指令类别编号即可以生成指令处理流程预案；

所述本体样本点和聚类中中心点最小欧式距离判断本体样本点的归属类簇，所述方法还包括：

判断最小欧式距离值如果大于预设阈值，则需要重新调整和确定类簇中心点，每个类簇中心点都对应了一个N维的特征向量综合值，特征向量值主要从要素关键字、人员、事件类别、地点、物品等各个属性成员综合所得，每个特征向量的代表性各不一样。重新通过K-Means通过历史最新历史数据更新各个类簇聚类中心点c_k。

本实施例公开的一种指令处理流程推荐的方法，通过定义各个指令类别的流程节点和流程流向规则；确定指令类别的类簇个数，对中心点进行选取；获取指令上下文实时数据进行本体化；查找聚类库，得到本体样本的的目标聚类中心点；根据中心点查找数据库该类簇所对应的指令流程，同时生成相应的指令处理流程预案提供给用户。解决了现有的指令选择通常是决策层通过多年行业经验和直觉而做出，指令处理流程慢和决策效率低的问题。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种指令处理流程推荐的方法，其特征在于，包括：

S100.定义各个指令类别的流程节点和流程流向规则；

S200.确定指令类别的类簇个数，对中心点进行选取；S200中具体包括：

S202.假设p个样本点x＝{x₁,x₂,x₃..x_p}每个样本点x_i均有n个属性，x_i＝(x_i1,x_i2,x_i3....x_in)，聚类库中心点c＝{c₁,c₂,c₃,c₄.....c_n}，c_j∈x，每个聚类中心也有n个属性c_j＝(c_j1,c_j2,c_j3....c_jn)，将每个样本点x_i和聚类库中心点c_j逐个进行欧氏距离计算，当某一聚类中心点与每个样本点欧式距离最小时，选取当前聚类中心点作为本体样本观测集的类簇中心点；

S203.利用算数平均值更新聚类中心，确定了样本点xi所属类簇后，重新计算中心点，簇类成员增加后进行算术平均值计算作为新的中心点，重复步骤S202直到中心点不变即为收敛；

S300.获取指令上下文实时数据进行本体化；

S400.查找聚类库，得到本体样本的的目标聚类中心点；

2.如权利要求1的一种指令处理流程推荐的方法，其特征在于，S100中，流程节点和流向规则由行业领域专家结合多年的专业经验和解决的实际问题通过严密的逻辑推演定义，该流程节点和流向规则完善存储在数据表中。

3.如权利要求2的一种指令处理流程推荐的方法，其特征在于，样本点x_i到中心点c_j类库中心点欧式距离d(x_i,c_j)，其计算的数据公式如下：

其中，x_ik表示样本点x_i的第K类属性，c_jk表示中心点c_j对应的第K类属性。

4.如权利要求3的一种指令处理流程推荐的方法，其特征在于，当找到其中欧式距离最小值对应的聚类中心点c_j后，对样本点x_i进行聚类，其中，聚类公式为：

5.如权利要求4的一种指令处理流程推荐的方法，其特征在于，算数平均值更新聚类中心的公式为：

其中，c_i为更新簇平均值，x为簇类成员增加后样本点。

6.如权利要求1的一种指令处理流程推荐的方法，其特征在于，S300中，采用最大正向匹配法或\和逆向最大匹配法，进行基于字典、词库匹配的分词，达到获取指令上下文实时数据进行本体化的目的。

7.如权利要求6的一种指令处理流程推荐的方法，其特征在于，最大正向匹配法具体方法为：假设分词词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典；若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来；如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理，如此反复，直到匹配成功，完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。

8.如权利要求7的一种指令处理流程推荐的方法，其特征在于，逆向最大匹配法具体方法为:从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配；使用逆序词典作为分词词典，其中的每个词条都将按逆序方式存放；在实际处理时，先将文档进行倒排处理，生成逆序文档；然后，根据逆序词典，对逆序文档用正向最大匹配法处理。

9.如权利要求1的一种指令处理流程推荐的方法，其特征在于，S400具体方法为：得到所述本体库后，通过聚类算法得到本体X对应的类簇聚类中心点；其中，所述聚类库用于存储各个指令类别所对应的各聚类中心点；每一个指令类别所对应的各聚类中心点是利用聚类算法对该指令相关联的历史数据本体库进行聚类所得的；本体样本点和聚类库中的中心点逐个进行聚类计算，本体样本点和聚类库中心点逐个进行欧式距离计算，欧式距离最小的聚类类中心点即为该样本的类簇中心点。