CN109597890A

CN109597890A - 一种数据感知自动分发的方法及存储装置

Info

Publication number: CN109597890A
Application number: CN201811406367.8A
Authority: CN
Inventors: 李翔宇; 鲁维逸; 黄庆炬; 叶贵明; 毛云民
Original assignee: FUJIAN RONGJI SOFTWARE Co Ltd
Current assignee: FUJIAN RONGJI SOFTWARE Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-04-09
Anticipated expiration: 2038-11-23
Also published as: CN109597890B

Abstract

本发明涉及信息处理技术领域，特别涉及一种数据感知自动分发的方法及存储装置。所述一种数据感知自动分发的方法，包括步骤：根据业务场景设定维度分类，并计算各维度分类的权重分配；计算历史数据中对应各维度分类的关键词；根据相关因素对各维度关键词进行关联密度计算获得每个特征组合的相关性得分；形成关键字词库；获取待分析数据；将待分析数据与关键字词库中数据进行匹配，根据符合预设规则的匹配结果完成数据自动分发。整个过程中，根据具体的业务场景设置多个维度分类，并设定多个关键词、多个特征组合，使得对待分析数据进行分析时，可从多个方面进行分析匹配数据，确保了数据识别分析的准确性，并提高数据自动分析处理的效率。

Description

一种数据感知自动分发的方法及存储装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种数据感知自动分发的方法及存储装置。

背景技术

随着现在行业的发展，数据的匹配分发已经在各个领域都有了一定程度的应用。在很多业务场景中，分发操作均是通过人工方式或配置固定规则方式进行。

其中采用人工方式进行数据分发，大大增加了人工成本，同时容易出错，减低工作效率。而采用固定规则方式进行数据匹配查询，对数据进行切词、分词，预先设定程序规则组合成为一个词库，这种方式对于多业务层面并且存在业务范围交叉的情况下很容易造成查询数据的混淆。数据判断并分发，虽然解决了自动、较准确地分发问题，但仍存在对未命中固定规则的异常数据不能做到自动和智慧感知分析学习匹配分发的问题。

故以上方式均未深入与数据感知分析配匹分发、数据感知学习的技术相结合进行使用，不能有效地提高工作效率和降低人工成本。

发明内容

为此，需要提供一种数据感知自动分发的方法，用以解决现有数据自动分发中对未命中固定规则的异常数据准确率低、人工成本高的问题。具体技术方案如下：

一种数据感知自动分发的方法，包括如下步骤：

根据业务场景设定维度分类，并根据各维度的重要性计算得各维度分类的权重分配；

计算历史数据中对应各维度分类的关键词；

根据相关因素对各维度关键词进行关联密度计算获得每个特征组合的相关性得分，所述相关因素包括：关键词出现频次和/或关键词对应的维度分类的权重分配值；

根据所述关键词和所述每个特征组合的相关性得分值形成关键字词库；

获取待分析数据；

将所述待分析数据与关键字词库中数据进行匹配，根据符合预设规则的匹配结果完成数据自动分发。

进一步的，所述“计算历史数据中对应各维度分类的关键词”，还包括步骤：

判断是否存储有可用的历史数据，若存储有可用的历史数据，则对所述历史数据进行分析得所述历史数据中对应各维度分类的关键词，并根据各维度分类的特征，排除所述历史数据中非特征范围内的关键词。

进一步的，所述“将所述待分析数据与关键字词库中数据进行匹配”，还包括步骤：

对所述待分析数据进行关键词切词，并进行关键词特征组合，将所述切词结果与关键词特征组合结果均与关键字词库中的数据进行匹配，并计算匹配结果值。

进一步的，所述“根据符合预设规则的匹配结果完成数据自动分发”，还包括步骤：

判断匹配结果是否符合预设规则，若有两个或两个以上的匹配结果均符合预设规则，则根据符合度最高的匹配结果完成数据自动分发。

进一步的，还包括步骤：

定期收集并分析人工纠正的错误数据记录，判断收集的错误数据记录中某关键词出现的频率是否超过预设阈值，若是，则调整该关键词的对应分值，并更新关键字词库。

为解决上述问题，还提供了一种存储装置，具体技术方案如下：

一种存储装置，其中存储有指令集，所述指令集用于执行：

计算历史数据中对应各维度分类的关键词；

获取待分析数据；

进一步的，所述指令集还用于执行：

所述“计算历史数据中对应各维度分类的关键词”，还包括步骤：

进一步的，所述指令集还用于执行：

所述“将所述待分析数据与关键字词库中数据进行匹配”，还包括步骤：

进一步的，所述指令集还用于执行：

所述“根据符合预设规则的匹配结果完成数据自动分发”，还包括步骤：

进一步的，所述指令集还用于执行：

本发明的有益效果是：通过设定不同的维度分类，并根据各维度的重要性计算的各维度分类的权重分配，且根据历史数据，对其进行大量分析，将其进行切分归放到对应各维度分类，并根据相关因素对各维度关键词进行关联密度计算获得每个特征组合的相关性得分，最后将切分的关键词、所述每个特征组合的相关性得分值等结果均存储起来，形成关键字词库，而后获取待分析数据，将待分析数据与关键字词库中的数据进行匹配，根据符合预设规则的匹配结果完成数据自动分发。整个过程中，根据具体的业务场景设置多个维度分类，并设定多个关键词、多个特征组合，使得对待分析数据进行分析时，可从多个方面进行分析匹配数据，确保了数据识别分析的准确性，并提高数据自动分析处理的效率。

进一步的，通过定期收集并分析人工纠正的错误数据记录，能够不断地纠偏感知分析错误的地方，进一步提高分发的准确率。

附图说明

图1为具体实施方式所述一种数据感知自动分发的方法的流程图；

图2为具体实施方式所述一种存储装置的示意图。

附图标记说明：

200、存储装置。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，在本实施方式中，一种数据感知自动分发的方法可应用在一种存储装置上，所述存储装置，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。具体实现如下：

步骤S101：根据业务场景设定维度分类，并根据各维度的重要性计算得各维度分类的权重分配。

步骤S102：计算历史数据中对应各维度分类的关键词。

步骤S103：根据相关因素对各维度关键词进行关联密度计算获得每个特征组合的相关性得分，所述相关因素包括：关键词出现频次和/或关键词对应的维度分类的权重分配值。

步骤S104：根据所述关键词和所述每个特征组合的相关性得分值形成关键字词库。

步骤S105：获取待分析数据。

步骤S106：将所述待分析数据与关键字词库中数据进行匹配，根据符合预设规则的匹配结果完成数据自动分发。

针对以上步骤，下述以福州市12345便民服务平台进行实际举例说明：

在福州12345便民服务平台中，市民可提交诉求件进行咨询、投诉等。系统涵盖市、县区、街道三级。市级批转中心可将市民的诉求件按照职能部门的职责进行批转分发。也可根据诉求件的事件发生地批转给对应的县区批转中心进行批转分发。

步骤S101：

根据以上特定的业务场景，设定两个维度分类：事件地点和部门职能。

根据事件地点及部门职能两个维度的重要性，计算得各维度分类的权重分配。具体如下：

事件地点及部门职能两个维度的重要性配比如上表，假定重要赋值3，非常重要赋值4，极为重要赋值5，(其中重要性的赋值可根据实际业务场景进行人为设定)则三项的权重值分别为，重要3/(3+4+5)＝0.25，非常重要4/(3+4+5)＝0.33，极为重要5/(3+4+5)＝0.42。

故事件地点的权重＝(10*0.25+20*0.33+70*0.42)/{(10*0.25+20*0.33+70*0.42)+(40*0.25+40*0.33+20*0.42)}＝0.55。

故部门职能的权重＝(40*0.25+40*0.33+20*0.42)/{(10*0.25+20*0.33+70*0.42)+(40*0.25+40*0.33+20*0.42)}＝0.45。

计算好各维度分类的权重分配后，执行步骤S102：计算历史数据中对应各维度分类的关键词。可采用如下方式：判断是否存储有可用的历史数据，若存储有可用的历史数据，则对所述历史数据进行分析得所述历史数据中对应各维度分类的关键词，并根据各维度分类的特征，排除所述历史数据中非特征范围内的关键词。具体步骤如下：

1、使用IKAnalyzer中文切词工具对历史数据进行分词，根据分词后的词性进行筛选排除，根据特征仅留下名词(n)，地名(ns)。

2、根据分词后的结果，进行分词数量的统计，筛选出数量排名前30％的分词结果，筛选范围可自定义。

3、最后通过人工检测定义出有效的关键字。

在本实施方式中，是存储有历史数据。如下：

1、假定两个部门，部门A，部门B。

2、根据部门A的历史诉求件办件数据生成职能部门该维度分类对应的关键词：学校、井盖、卫生、污染。事件地点该维度分类对应的关键词：鼓楼区、安泰街道。

3、根据部门B的历史诉求件办件数据生成职能部门该维度分类对应的关键字：噪音、污染、井盖、油烟。事件地点该维度分类对应的关键词：鼓楼区、铜盘。

4、形成的关键词及对应分值归入关键字词库中(在本实施方式中，所述对应分值即指的是该关键词对应的维度分类的权重分配值)。

在其它实施方式中，若未存储有历史数据，亦可人工设置各维度分类对应的关键词。

步骤S103：

1、根据生成的关键词进行关联密度及每个特征组合的相关性得分的计算；

2、假定部门A的数据如下：

出现频率的计算方式：V＝1-log(m/n)。

3、根据关键词对应的维度分类的权重分配值及出现的频率进行计算。举例如下：

特征组合1：鼓楼区/安泰路/学校：

(0.8451*0.55+0.9542*0.55+0.9912*0.45)*100＝143.56分

特征组合2：鼓楼区/安泰路/井盖:139.6分

特征组合3：鼓楼区/井盖:87.12分

特征组合4：安泰路/学校:97.08分

…

假定部门B的数据如下：

同理部门B的特征组合举例如下：

特征组合1：鼓楼区/铜盘/噪音：143.56分

特征组合2：鼓楼区/铜盘/井盖：139.6分

特征组合3：铜盘/油烟/井盖：104.05分

特征组合4：铜盘/油烟/污染113.24分:

…

5、关键词、形成的特征组合、及其相关性得分值形成关键字库归入关键字词库中(步骤S104)。

步骤S105：获取待分析数据：

需要说明的是，在本实施方式中，获取待分析数据前，还包括步骤：根据本实施方式中具体的业务场景设置自动分发规则如下：

1、当部门职能维度分类下的关键词出现频率为50％以上且事件地点维度分类下的关键词的出现频率在80％以上后才能命中所对应的具体部门；

2、出现多个部门且同时命中部门职能维度分类的关键词时及事件地点维度分类的关键词时，则根据特征组合来进行比较，有完全匹配者并且分数高者优先。

预设好自动分发规则后，执行步骤S106：将所述待分析数据与关键字词库中数据进行匹配，根据符合预设规则的匹配结果完成数据自动分发。

在本实施方式中，所述“将所述待分析数据与关键字词库中数据进行匹配”，还包括步骤：对所述待分析数据进行关键词切词，并进行关键词特征组合，将所述切词结果与关键词特征组合结果均与关键字词库中的数据进行匹配，并计算匹配结果值。

所述“根据符合预设规则的匹配结果完成数据自动分发”，还包括步骤：判断匹配结果是否符合预设规则，若有两个或两个以上的匹配结果均符合预设规则，则根据符合度最高的匹配结果完成数据自动分发。

具体举例如下：

1、诉求件案例：鼓楼区铜盘社区里面最近环境很差，并且有多处井盖出现破损的情况，请相关部门尽快处理。根据诉求件进行切词，可以得到关键词“鼓楼区”、“铜盘”、“环境”、“井盖”、“部门”、“破损”。

2、将切词得到的关键词与关键字词库进行感知分析比较匹配，可得出部门A的部门职能维度分类下的关键词出现频率90.31％，事件地点维度分类下的关键词出现频率84.51％。部门B部门职能维度分类下的关键词出现频率69.90％，事件地点维度分类下的关键词出现频率95.42％。

3、同时出现多个关键词，对特征组合进行匹配，部门B完全匹配特征组合2，得分139.6分，部门A完全匹配特征组合3，得分87.12分。

4、根据设置的分发规则，进行部门得分的对比计算，部门B的分数优于部门A的分数，得出结果，将诉求件自动分发至部门B。完成诉求件的自动分发操作。

在本实施方式中，为确保分发准确率达到百分百，还包括步骤：若此诉求件在自动分发后，经过人工判定，应属于部门A来进行处理，并且又重新分发给部门A处理。则将诉求件的内容、关键词信息记录。可得知此时出现错误关键词为事件地点维度分类下的关键词“铜盘”。

具体地，还包括步骤：定期收集并分析人工纠正的错误数据记录，判断收集的错误数据记录中某关键词出现的频率是否超过预设阈值，若是，则调整该关键词的对应分值，并更新关键字词库。

具体举例如下：

1、例如计算出部门B事件地点维度分类下的关键词“铜盘”出现的错误率达10％，超出了预设阈值(在本实施方式中，预设阈值设定为9％，在其它实施方式中，可根据实际业务场景进行不同值的设定)，则重新计算部门B的“铜盘”关键词的出现频次，由原来的95.42％下调至85.42％。

出现频率的计算方式：V＝1-log(m/n)-a/n。

2、通过错误的关键词出现的频率计算出对应的人工批转分发部门，并计算出其所对应的频率，再进行组合特征分值的增减。

3、通过上述步骤,对异常数据不断感知学习分析纠偏，更新关键字词库，下次自动分发时根据最新的关键字词库进行错误数据的纠偏分发。

通过设定不同的维度分类，并根据各维度的重要性计算的各维度分类的权重分配，且根据历史数据，对其进行大量分析，将其进行切分归放到对应各维度分类下，并根据相关因素对各维度关键词进行关联密度计算获得每个特征组合的相关性得分，最后将切分的关键词、所述每个特征组合的相关性得分值等结果均进行存储，形成关键字词库，而后获取待分析数据，将待分析数据与关键字词库中的数据进行匹配，根据符合预设规则的匹配结果完成数据自动分发。整个过程中，根据具体的业务场景设置多个维度分类，并设定多个关键词、多个特征组合，使得对待分析数据进行分析时，可从多个方面进行分析匹配数据，确保了数据识别分析的准确性，并提高数据自动分析处理的效率。

请参阅图2，在本实施方式中，一种存储装置200的具体实施方式如下：

一种存储装置200，其中存储有指令集，所述指令集用于执行：

计算历史数据中对应各维度分类的关键词；

获取待分析数据；

计算好各维度分类的权重分配后，进一步的，所述指令集还用于执行：所述“计算历史数据中对应各维度分类的关键词”，还包括步骤：

判断是否存储有可用的历史数据，若存储有可用的历史数据，则对所述历史数据进行分析得所述历史数据中对应各维度分类的关键词，并根据各维度分类的特征，排除所述历史数据中非特征范围内的关键词。具体步骤如下：

3、最后通过人工检测定义出有效的关键字。

在本实施方式中，是存储有历史数据。如下：

1、假定两个部门，部门A，部门B。

2、假定部门A的数据如下：

出现频率的计算方式：V＝1-log(m/n)。

特征组合1：鼓楼区/安泰路/学校：

(0.8451*0.55+0.9542*0.55+0.9912*0.45)*100＝143.56分

特征组合2：鼓楼区/安泰路/井盖:139.6分

特征组合3：鼓楼区/井盖:87.12分

特征组合4：安泰路/学校:97.08分

…

假定部门B的数据如下：

同理部门B的特征组合举例如下：

特征组合1：鼓楼区/铜盘/噪音：143.56分

特征组合2：鼓楼区/铜盘/井盖：139.6分

特征组合3：铜盘/油烟/井盖：104.05分

特征组合4：铜盘/油烟/污染113.24分:

…

5、关键词、形成的特征组合、及其相关性得分值形成关键字库归入关键字词库中。

获取待分析数据：

预设好自动分发规则后，进一步的，所述指令集还用于执行：

进一步的，所述指令集还用于执行：

具体举例如下：

进一步的，所述指令集还用于执行：

具体举例如下：

出现频率的计算方式：V＝1-log(m/n)-a/n。

通过存储装置200上的指令集执行以下步骤：设定不同的维度分类，并根据各维度的重要性计算的各维度分类的权重分配，且根据历史数据，对其进行大量分析，将其进行切分归放到对应各维度分类下，并根据相关因素对各维度关键词进行关联密度计算获得每个特征组合的相关性得分，最后将切分的关键词、所述每个特征组合的相关性得分值等结果均进行存储，形成关键字词库，而后获取待分析数据，将待分析数据与关键字词库中的数据进行匹配，根据符合预设规则的匹配结果完成数据自动分发。整个过程中，根据具体的业务场景设置多个维度分类，并设定多个关键词、多个特征组合，使得对待分析数据进行分析时，可从多个方面进行分析匹配数据，确保了数据识别分析的准确性，并提高数据自动分析处理的效率。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种数据感知自动分发的方法，其特征在于，包括如下步骤：

计算历史数据中对应各维度分类的关键词；

获取待分析数据；

2.根据权利要求1所述的一种数据感知自动分发的方法，其特征在于，

3.根据权利要求1所述的一种数据感知自动分发的方法，其特征在于，

4.根据权利要求1所述的一种数据感知自动分发的方法，其特征在于，

5.根据权利要求1所述的一种数据感知自动分发的方法，其特征在于，还包括步骤：

6.一种存储装置，其中存储有指令集，其特征在于，所述指令集用于执行：

计算历史数据中对应各维度分类的关键词；

获取待分析数据；

7.根据权利要求6所述的一种存储装置，其特征在于，所述指令集还用于执行：

8.根据权利要求6所述的一种存储装置，其特征在于，所述指令集还用于执行：

9.根据权利要求6所述的一种存储装置，其特征在于，所述指令集还用于执行：

10.根据权利要求6所述的一种存储装置，其特征在于，所述指令集还用于执行：