CN116341534A

CN116341534A - 一种基于内容识别的事件分拨方法，系统和设备

Info

Publication number: CN116341534A
Application number: CN202211567817.8A
Authority: CN
Inventors: 翟玉东; 邵元勋; 王衍琪; 杨永军; 董庆利; 辛强
Original assignee: Second Research Institute Of Casic; Aerospace Science And Technology Network Information Development Co ltd
Current assignee: Second Research Institute Of Casic; Aerospace Science And Technology Network Information Development Co ltd
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-06-27

Abstract

本说明书公开了一种基于内容识别的事件分拨方法、系统和设备，涉及事件分拨技术领域，包括：获取待分拨事件的事件文本和所述事件文本对应的网格编码；提取所述事件文本中的关键词；根据所述关键词与预设事件识别模型确定所述待分拨事件的事件类型，所述预设事件识别模型用于表征所述关键词与事件类型的对应关系；根据所述网格编码确定所述待分拨事件的目标地址，所述目标地址是指处理所述待分拨事件的行政区；根据所述事件类型和所述目标地址确定所述待分拨事件的分拨对象。基于此，通过对事件文本采用关键字和预设事件识别模型，提高了识别事件文本对应的事件类型的准确率。

Description

一种基于内容识别的事件分拨方法，系统和设备

技术领域

本文件涉及事件分拨领域，尤其涉及一种基于内容识别的事件分拨方法、系统和设备。

背景技术

实现网格统一划分、资源统一整合、人员统一配备、信息统一采集。信息统一采集后汇聚到事件分拨平台，然后由事件分拨平台，根据事件内容分配进行处置，处置后通过事件分拨平台返回给事件采集端，整个事件处置过程可以实时查看事件的处置进度和状态。

现常规的事件分拨平台，大多数依靠手动的方式进行分拨，分拨人员能力水平的不同会影响事件的分拨效率和成功率。一些事件分拨平台采用智能化的辅助分拨方法，但执行成功率并不是很高，误报率高，会延长事件的流转路径。

因此，需要一种新型快速的事件分拨方法，以提高事件分拨的效率和准确性。

发明内容

本说明书提供了一种基于内容识别的事件分拨方法、系统和设备，用以提供事件分拨平台的分拨效率和准确性。

为解决该技术问题，本说明书提供了如下技术方案：

一种基于内容识别的事件分拨方法，包括：

获取待分拨事件的事件文本和所述事件文本对应的网格编码，所述网格编码用于表征所述待分拨事件对应的行政区；

提取所述事件文本中的关键词；

根据所述关键词与预设事件识别模型确定所述待分拨事件的事件类型，所述预设事件识别模型用于表征所述关键词与事件类型的对应关系；

根据所述网格编码确定所述待分拨事件的目标地址，所述目标地址是指处理所以待分拨事件行政区；

根据所述事件类型和所述目标地址确定所述待分拨事件的分拨对象，所述分拨对象是指所述待分拨事件的处理单位。

本说明书还提供了一种基于内容识别的事件分拨系统，包括：

获取模块、用于获取待分拨事件的事件文本和所述事件文本对应的网格编码，所述网格编码用于表征所述待分拨事件对应的行政区；

提取模块、用于提取所述事件文本中的关键词；

事件类型判断模块、用于根据所述关键词与预设事件识别模型确定所述待分拨事件的事件类型，所述预设事件识别模型用于表征所述关键词与事件类型的对应关系；

目标地址判断模块、用于根据所述网格编码确定所述待分拨事件的目标地址，所述目标地址是指处理所以待分拨事件行政区；

分拨模块、用于根据所述事件类型和所述目标地址确定所述待分拨事件的分拨对象，所述分拨对象是指所述待分拨事件的处理单位；

更新模块、用于根据预设更新周期和周期内的所有事件文本的关键词对所述预设事件识别模型进行更新。

本说明书还提供了一种基于内容识别的事件分拨设备，其特征在于，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器上述方法的步骤。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

由此可知，通过对事件文本采用关键字、预设事件识别模型和加权评分的方法，提高了识别事件文本对应的事件类型的准确率；此外，处理器周期性的对预设事件识别模型进行更新，使得预设事件识别模型可以根基实际运用进行学习，提高预设事件识别模型的使用效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书一实施例提供的一种基于内容识别的事件分拨方法流程示意图；

图2为本说明书一实施例提供的一种基于内容识别的事件分拨系统示意图；

图3为本说明书一实施例提供的一种基于内容识别的事件分拨设备流程示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书一实施例提供的一种基于内容识别的事件分拨方法流程示意图，所述方法具体可以包括如下步骤：

步骤102、获取待分拨事件的事件文本和所述事件文本对应的网格编码，所述网格编码用于表征所述待分拨事件对应的行政区；

其中，所述网格编码通是在所述待分拨事件对应的行政区划编码的基础上生成。

需要说明的是，步骤102的一种实现方式可以为：

事件文本可以是从外部终端实时获取，并根据该外部终端所在的行政区，在事件文本的名称中加入该行政区的行政区划编码。处理器获取到事件文本后，首先从事件文本的名称中读取行政区划编码。

本实施例对于事件文本的存储形式并不进行限制，例如可以是以MySQL、Hive、HDFS等数据仓库支持的数据格式进行存储。此外，本实施例对于事件文本的格式并不进行限制，所述事件文本可以是文档(Document，DOC)格式，也可以可携带文档(PortableDocument Format，PDF)格式等，还可以是文本(Text，TXT)格式，但并不限于此。还需要说明的是，事件文本可以是包含任意一种或多种类型的文字，例如，中文、英文等，本实施例对此并不进行限制。另外，本实施例对于事件文本可以是短文本，所述短文本是指事件文本的字数小于预设字数阈值的文本。

基于此，通过在事件文本的名称中加入该行政区的行政区划编码，可以使处理器便于分别确定待分拨事件的具体内容和待分拨事件对应的具体地址。

步骤104、提取所述事件文本中的关键词；

需要说明的是，步骤104的一种实现方式可以为：

处理器在进行关键词提取前，还需要对事件文本进行预处理，其中预处理过程包括对事件内容进行文本归一化和统一事件文本的字符集，还包括去除事件文本中的标点符号、去除事件文本中的常用词和去除事件文本的通用模版，如此使得事件文本更加简化，得到机器能够理解计算的预处理事件文本。

处理器再获得预处理事件文本，还需要对预处理事件文本进行计算分块，得到多个文本特征块，其中分块的过程包括基于设定的文本字典，按预处理事件文本单词、句子和段落对文本进行初步拆分，其次计算初步拆分文本的哈希特征值，按哈希特征值，将文本拆分为固定长度。

基于此，通过对事件文本进行预处理，统一了文本的结构，剔除了文本不必要的特征，便于机器够理解文本并对文本进行快速的计算；其次，通过字典与哈希值结合的方式对文本进行拆分，使得文本拆分结果更加的准确，便于后续快速提取文本的关键词；

处理器获得文本特征块后，首先对文本特征块进行哈希处理，再从哈希处理结果得到的海量指纹中提取最大表征文档特征的最小指纹集。

处理器获得最小指纹集后，再将最小指纹集和指纹库中的指纹进行匹配比对，判断最小指纹集是否存在指纹库中的预设指纹，从而确定所述事件文本的关键词并统计每个关键词在所述事件文本中的数量。

基于此，通过哈希处理得到文本的最小指纹集，再将文本的最小指纹集与指纹库进行对比，从而可确定文本的核心关键词，避免了非重点关键词对文本内容识别的干扰。

步骤106、根据所述关键词与预设事件识别模型确定所述待分拨事件的事件类型，所述预设事件识别模型用于表征所述关键词与事件类型的对应关系；

其中，预设事件识别模型包括预设关键词列表、预设事件类型列表，其中预设事件类型列表包括预设关键词数量阈值子列表和预设关键词权值子列表，所述预设关键词数量阈值子列表用于表征关键词在对应的预设事件类型的事件文本中的最小数量；

由于同一的关键词在不同的事件文本中，会表征不同的事件类型，所以在预设事件识别模型中，每一种事件类型可以对应多个关键词，同时每个关键词也可以对应多个事件类型，并通过关键词数量阈值和关键词权值区分关键词和事件类型在不同事件文本中的具体对应条件。

建立预设事件识别模型的过程包括：首先获取多个不同事件类型的历史事件文本，并对历史事件进行关键词提取，或直接采用手动分拨事件结果，从而确定各事件类型对应的关键词和该关键词对应的数量阈值，所述数量阈值是指关键词在对应的预设事件类型的事件文本中的最小数量。

在一种具体实施方案中，预设事件类型列表中包含多种事件类型，其中，每一种事件类型对应的关键词个数设定为3个，在每一种事件类型下，每个关键词对应的数量阈值根据具体运用场景设置，而每个关键词对应的关键词权值都设置为1，从而形成基础的预设事件识别模型。

需要说明的是，步骤106的一种实现方式可以为：

处理器首先根据从事件文本从提取的关键词与预设事件识别模型的关键词进行匹配，如果预设事件识别模型中没有与事件文本相匹配的关键词，则直接转由人工进行事件分分拨；

若存在成功匹配的关键词，则处理器再提取成功匹配的关键词在预设事件识别模型中对应的事件类型，并计算该关键词在每个对应的事件类型的下的评分，所述评分是指每个预设事件类型下该关键词对应关键词数量阈值和预设关键词权值的乘积；

接着处理器将成功匹配的关键词在待分拨事件文本中的数量与上述评分进行对比，当成功匹配的关键词在待分拨事件文本中的数量大于或等于评分时，则将该评分对应的事件类型，判定为该成功匹配的关键词在待分拨事件文本中表征的事件类型。

若不同的成功匹配的关键词同时对应同一预设事件类型，则所述成功匹配的关键词在待分拨事件文本中表征的事件类型为该预设事件类型，并将该预设事件类型确定为所述待分拨事件对应的事件类型；

若不同的成功匹配的关键词不存在同一对应预设事件类型，则判定每个被成功匹配的关键词对应的预设事件类型各自对应的成功匹配的关键词的数量，并将其中对应所述成功匹配的关键词的数量最多的预设事件类型确定为所述待分拨事件对应的事件类型。

若预设事件识别模型中不存在预设事件类型满足上述条件，则采用人工分拨确定所述待分拨事件的事件类型。

基于此，通过历史分拨事件构建预设事件识别模型，可以使得该预设事件识别模型更符合实际的应用需求；其次，在通过预设事件识别模型和加权评分的方法判断待分拨事件中关键词对应的事件类型，提高了事件类型识别的准确率。

步骤108、根据所述网格编码确定所述待分拨事件的目标地址，所述目标地址是指处理所述待分拨事件的行政区；

需要说明的是，步骤108的一种实现方式可以为：

处理器获取到事件文本后，首先从事件文本的名称中读取行政区划编码，并对行政区划编码的前六位进行位运算，确定待分拨事件对应的市、区。

步骤110、根据所述事件类型和所述目标地址确定所述待分拨事件的分拨对象，所述分拨对象是指在所述行政区内处理所述待分拨事件的行政单位。

需要说明的是，步骤110的一种实现方式可以为：

处理器首先根据目标地址确定处理该待分拨事件的行政区；其次，再根据事件类型确定该待分拨事件由该行政区内具体的负责处理的单位；再次，处理器将该待分拨事件传递给该处理单位。

基于此，通过分别判断目标地址和事件类型分别组合判断具体的行政区内的具体处理单位，使得待分拨事件分发更加的准确。

步骤112、根据预设更新周期和周期内的所有所述事件文本的关键词对所述预设事件识别模型进行更新

需要说明的是，步骤112的一种实现方式可以为：

通过预设事件识别模型在进行事件类型识别过程中，因事件内容发生变化，需要对预设关键词进行更新；

首先处理器会设置更新周期，一种更新周期可以为一周；

其次，处理器对该更新周期内的所有事件文本的关键词进行统计，对不同的关键词采用不同的更新方式：

若事件文本出现在预设事件识别模型没有可以匹配的关键词，则根据人工分拨结果对预设事件识别模型进行更新；

若事件文本中的关键词可以匹配与预设事件识别模型中的预设关键词，则在该事件文本对应的预设事件类型下，对该关键词对应的预设关键词权值进行更新，一种权值更新方式可以为，权值加1；

随着预设事件识别模型中的预设关键词增加，为了提供匹配效率，需要对权值较低的关键词进行更新，具体方法为：

在预设事件识别模型中每一个预设事件类型下，按预设关键词权值由大到小的顺序，对预设关键词权值进行排序，保留排序前三的预设关键词权值，并将该预设事件类型下，其余预设关键词权值赋值0；

若预设事件识别模型中的预设关键词在每一个预设事件类型下，其对应的所述预设关键词权值都为0，则将该预设关键词从所述预设事件识别模型中删除。

基于此，通过根据周期内的事件文本对预设事件识别模型进行更新，使得预设事件识别模型符合实际的运用需求；其次，通过权值判断预设事件识别模型内无效的关键词，并将其删除，从而提高了预设事件识别模型的匹配效率。

由此可知，本实施例对事件文本采用关键字、预设事件识别模型和加权评分的方法，从而提高了事件内容识别准确率；此外，对于预设事件识别模型无法判断的事件类型，采用人工分拨方法进行辅助提高了事件分拨的准确性，还通过人工分拨结果反向调整预设事件识别模型，从而使得预设事件识别模型重新进行学习，符合新的实际需求；其次，处理器周期性的对预设事件识别模型进行维护，通过权值判断其中无效的关键词，并将其删除，从而使得预设事件识别模型的匹配效率提高。

图2为本说明书一实施例提供的一种基于内容识别的事件分拨系统示意图，所述系统具体可以包括如下步骤：

步骤202、获取模块、用于获取待分拨事件的事件文本和所述事件文本对应的网格编码，所述网格编码用于表征所述待分拨事件对应的行政区；

步骤204、提取模块、用于提取所述事件文本中的关键词；

步骤206、事件类型判断模块、用于根据所述关键词与预设事件识别模型确定所述待分拨事件的事件类型，所述预设事件识别模型用于表征所述关键词与事件类型的对应关系；

步骤208、目标地址判断模块、用于根据所述网格编码确定所述待分拨事件的目标地址，所述目标地址是指处理所述待分拨事件行政区；

步骤210、分拨模块、用于根据所述事件类型和所述目标地址确定所述待分拨事件的分拨对象，所述分拨对象是指所述待分拨事件的处理单位；

步骤212、更新模块、用于根据预设更新周期和周期内的所有所述事件文本的关键词对所述预设事件识别模型进行更新。

可选的，事件类型判断模块具体用于

匹配事件文本关键词与所述预设事件识别模型中的预设关键词，并判断所述关键词是否匹配成功；

若匹配成功，则根据成功匹配的关键词和预设加权评分方法，判断该成功匹配的关键词在所述预设事件识别模型对应的预设事件类型；

若不同的成功匹配的关键词同时对应同一预设事件类型，则将该预设事件类型确定为所述待分拨事件对应的事件类型；

若不同的成功匹配的关键词不存在同一对应预设事件类型，则将其中对应所述成功匹配的关键词的数量最多的预设事件类型确定为所述待分拨事件对应的事件类型。

若不存在预设事件类型与成功匹配的关键词对应，则采用人工分拨确定所述待分拨事件的事件类型。

若不存在匹配成功的关键词，则采用人工分拨确定所述待分拨事件的事件类型。

可选的，更新模块具体用于

根据预设更新周期和所述更新周期内的所有所述事件文本的关键词对所述预设事件识别模型进行更新；

若所述关键词在所述预设事件识别模型没有可以匹配的预设关键词，则根据人工分拨结果对所述预设事件识别模型进行更新；

若所述关键词在所述预设事件识别模型存在可以匹配的预设关键词，则在该关键词对应的预设事件类型下，对该关键词对应的预设关键词权值进行更新；

在所述预设事件识别模型中每一个预设事件类型下，按预设关键词权值大小排序，并将不符合预设排序规则的所述预设关键词权值赋值0；

若所述预设事件识别模型中的预设关键词在每一个预设事件类型下，对应的所述预设关键词权值都为0，则将该预设关键词从所述预设事件识别模型中删除。

由此可知，本实施例通过关键字、预设事件识别模型和加权评分的方法，能够提高了事件内容识别准确率；此外，本实施例还结合了人工分拨方法进行辅助提高了事件分拨的准确性，还通过人工分拨结果反向调整预设事件识别模型，从而使得预设事件识别模型符合新的实际需求；其次，处理器周期性的对预设事件识别模型进行维护，通过权值判断其中无效的关键词，并将其删除，从而使得预设事件识别模型的匹配效率提高。

图3为本说明书一实施例提供的一种基于内容识别的事件分拨设备流程示意图，所述设备具体可以包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一方法实施例中的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于内容识别的事件分拨方法，其特征在于，包括：

提取所述事件文本中的关键词；

根据所述网格编码确定所述待分拨事件的目标地址，所述目标地址是指处理所述待分拨事件的行政区；

根据所述事件类型和所述目标地址确定所述待分拨事件的分拨对象，所述分拨对象是指处理所述待分拨事件的行政单位。

2.根据权利要求1所述的方法，其特征在于，所述提取所述事件文本中的关键词之前，还包括

对所述事件文本进行预处理，得到预处理事件文本，所述预处理事件文本是机器能够理解计算的文本；

对所述预处理事件文本进行计算分块，得到多个文本特征块。

3.根据权利要求2所述的方法，其特征在于，所述提取所述事件文本中的关键词，包括：

对所述多个文本特征块进行哈希处理，得到文本的指纹集，所述指纹集用于表征所述事件文本的文本特征；

根据所述指纹集与预设指纹库，确定所述事件文本的关键词。

4.根据权利要求1所述的方法，其特征在于，所述根据所述关键词与预设事件识别模型确定所述待分拨事件的事件类型之前，还包括：

获取多个不同事件类型的历史事件文本；

通过所述历史事件文本构建所述预设事件识别模型；

所述预设事件识别模型包括预设关键词列表、预设事件类型列表，其中预设事件类型列表包括预设关键词数量阈值子列表和预设关键词权值子列表，所述预设关键词数量阈值子列表用于表征关键词在对应的预设事件类型的事件文本中的最小数量；

所述预设关键词列表中包括多个预设关键词，所述预设事件类型列表包括多种预设事件类型，其中，每个预设关键词在每种预设事件类型下都有与之相对应的预设关键词数量阈值和预设关键词权值。

5.根据权利要求4所述的方法，其特征在于，所述根据所述关键词与预设事件识别模型确定所述待分拨事件的事件类型，包括：

匹配所述关键词与所述预设事件识别模型中的预设关键词，并判断所述关键词是否匹配成功；

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求5所述的方法，其特征在于，还包括：

8.根据权利要求5所述方法，其特征在于，所述根据所述关键词与预设事件识别模型确定所述待分拨事件的事件类型之后，还包括：

根据预设更新周期和所述更新周期内的所有事件文本的关键词对所述预设事件识别模型进行更新；

若所述关键词在所述预设事件识别模型没有能够匹配的预设关键词，则根据人工分拨结果对所述预设事件识别模型进行更新；

在所述预设事件识别模型中每一个预设事件类型下，按预设关键词权值大小，对预设关键词权值进行排序，并将不符合预设排序规则的所述预设关键词权值赋值0；

若所述预设事件识别模型中的预设关键词在每一个预设事件类型下，其对应的所述预设关键词权值都为0，则将该预设关键词从所述预设事件识别模型中删除。

9.一种基于内容识别的事件分拨系统，其特征在于，包括：

提取模块、用于提取所述事件文本中的关键词；

更新模块、用于根据预设更新周期和周期内的所有所述事件文本的关键词对所述预设事件识别模型进行更新。

10.一种基于内容识别的事件分拨设备，其特征在于，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至8中任一项所述的方法的步骤。