CN113535959B - 面向基层治理的事件自动分拨方法 - Google Patents
面向基层治理的事件自动分拨方法 Download PDFInfo
- Publication number
- CN113535959B CN113535959B CN202110862279.4A CN202110862279A CN113535959B CN 113535959 B CN113535959 B CN 113535959B CN 202110862279 A CN202110862279 A CN 202110862279A CN 113535959 B CN113535959 B CN 113535959B
- Authority
- CN
- China
- Prior art keywords
- address
- event
- text
- elements
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000011221 initial treatment Methods 0.000 title description 7
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 48
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 238000011282 treatment Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Remote Sensing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Library & Information Science (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向基层治理的事件自动分拨方法,包括:步骤1、构建地名地址基因库;步骤2、抽取事件地理要素;步骤3、提取事件描述关键词;步骤4、构建历史事件案例库;步骤5、计算事件相似度;步骤6、事件自动分拨。该方法提高了事件派发效率,降低了事件派单的错误率,提升了基层对事件的处理质量。
Description
技术领域
本发明涉及一种面向基层治理的事件自动分拨方法。
背景技术
当前,政务大数据分析多聚焦于基础类数据,对于业务类数据的研究与应用相对较少。现有的应用主要关注各类事件数据的统计和展示,很少将业务数据资源转换为决策工具指导社会治理工作。随着社会治理中部门协调合作的逐渐深入,社会网格化程度的逐渐提升,在处理社会事务过程中会产生关于网格事件的大量数据,这为基于事件的社会治理提供了丰富的数据资源。网格化管理过程中累积的事件数据是一类重要业务数据,但只是简单地用于事务处理流转和热点事件统计,并没有充分发挥其潜在应用价值。此外,基层社会治理需要的数据分散在各个部门,由于缺乏一个统一的参照物,各类数据无法有效关联和综合聚类,为城市管理和社会治理带来了诸多不便。
因此,需要将地址和空间位置作为数据融合聚类的枢纽,并在此基础上深度发掘基层治理网格化管理中事件数据背后的价值,使其推动政府管理理念和社会治理模式创新。
发明内容
本发明的目的是提供一种面向基层治理的事件自动分拨方法,该方法提高了事件派发效率,降低了事件派单的错误率,提升了基层对事件的处理质量。
为了实现上述目的,本发明提供了一种面向基层治理的事件自动分拨方法,包括:
步骤1、构建地名地址基因库;
步骤2、抽取事件地理要素;
步骤3、提取事件描述关键词;
步骤4、构建历史事件案例库;
步骤5、计算事件相似度;
步骤6、事件自动分拨。
优选地,在步骤1中,基于统一的标准地址库构建地名地址基因库,使用自定义三元组表示地址基因,并构建树集合以表征地址基因之间的层次关系。
优选地,步骤1包括:
步骤1a、利用统计学特征确定标准地址库中地址的落差点,通过递增切分的方法对递增的短语在整个地址库中的数量进行统计;地址元素的使用频次会随地址描述逐渐精确而逐渐降低,当待判断短语后缀超过落差点后,对应的短语在整个地址库中出现的数量将发生明显下降,据此划分出落差点集合M;
步骤1b、按照地址构成方式的规则设计决策树,然后根据决策树对每一个落差点mi∈M是否构成后缀词或后缀点做出判断,依据判定成功的后缀点进行分词,并对两个后缀点之间的地址要素加以记录;
步骤1c、经过分词后,标准化的地址描述所包含的地址要素被划分为专有地址部分与通配地址部分,同时获得一个包含专有地址名词基因的词表WordList;针对专有地址部分,基于标准地址自身的前后文关系,结合地址信息本身所包含的层次,为提取后的专有地名元素赋予先后序关系标记,构成形式如(id,elei,seqmarki)的三元组,其中,id表示对地址元素的唯一标识,elei表示专有地名元素,seqmarki是以地址元素所属行政区划层级表示的先后序标记;
针对每一条地址,将对应的三元组元素按前后序关系构建成一颗子树Treei,将每一棵子树完全相同三元组的节点进行合并,合并后的若干棵树构成的集合TreeSet构成了一个基本的地名地址基因库AddressDB,其中包含以地理要素为基础构建的地名地址基因及其对应的层次关系;
步骤1d、利用构建好的地名地址基因库对事件描述全文进行要素抽取,使用获得的词表WordList与全文进行匹配,提取其中的专有地址基因集D1;针对“号”、“号楼”、“栋”、“幢”等地址通配名进行逆向增字匹配,匹配到通配名后向前判断通配名之前的字符是否为阿拉伯数字、以汉字表达的数字或英文字母,符合的话则将其加入匹配结果并继续判断,直到判断为否为止,构建通配地址基因集D2;
对相邻的基因元素,利用地名地址基因库中专有地址基因三元组之中包含的先后续标记关系seqmark对相邻元素的完整程度进行判断,若两个相邻元素的标记之间存在缺失值,则证明两个地理元素之间存在要素缺失,根据构建出的地址基因库中的三元组树从上到下搜索,对不符合条件的相邻地址基因进行补充,组装成新的完整地名地址基因,作为事件中提取得到的地名地址信息。
优选地,在步骤2中,将社基层治理实践中包含的元素划分为时间元素、地理元素、事件元素与其他元素四类,使用地名地址基因对内容中包含的地址信息进行提取,而后对相邻的地理元素进行完整性判断,并将不完整的地址基因扩充为完整基因集,进一步合并后将每一个地址基因扩充成标准化地址,基于该地址匹配结果将该事件拟分拨给对应网格下的社区管理人员处置。
优选地,步骤3包括:
步骤3a、对事件描述进行句子分割并使用jieba分词进行分词处理得到documenttokens和sentencetokens,并将分词后的token进行词性标注得到带有词性标签的labeltoken序列;
步骤3b、使用NP-chunker根据词性标签从labeltoken序列中提取名词token(NP),得到的NP作为候选关键词;
步骤3c、将所有document tokens使用XLNet生成词向量,再使用SIF权重将词向量组成word level的文本向量;
步骤3d、首先,将所有sentence tokens使用XLNet生成词向量,使用SIF权重将词向量组成多个句向量;其次,根据文本的内容层次分布,使用加权平均的方法将多个句向量组合成sentencelevel的文本向量;最后,将wordlevel和sentencelevel的文本向量加权组成documentvector;
步骤3e、将每个label token使用XLNet生成wordvector,计算与documentvector之间的距离,将此距离视为候选关键字与文档主题之间的相似度,选择最相似的候选关键词的前N个作为最终关键词。
优选地,在步骤4中,使用步骤3中的技术对文本型的事件描述进行关键词提取,将关键词作为事件案例的标签,并对标签进行编码处理,从而事件案例可以表示成:<标签编码集合,事件描述,事件解决方案描述,效果描述>,实现对事件案例的快速检索。
优选地,步骤5包括:
步骤5a、选取原文中与标准摘要计算ROUGE得分最高的一句话加入候选集合,接着继续从原文中进行选择,保证选出的摘要集合ROUGE得分增加,直至无法满足该条件;得到的候选摘要集合对应的句子设为1标签,其余为0标签;采用上述数据训练一个二分类模型作为句子重要性判别模型,或者使用强化学习、图神经网络对句子进行打分的方法判别句子重要性;
步骤5b、使用上述模型对事件描述文本进行文本分类,或者使用强化学习、图神经网络对句子进行打分,将重要性高的句子作为文本摘要的输入文本,采用预训练语言模型对输入文本进行wordlevel的Embedding和sentencelevel的Embedding;
步骤5c、以有监督的训练方式,使用融合word level和sentence level的多层次Embedding数据训练一个融合注意力机制和指针生成网络的seq2seq结构的文本摘要模型,最终利用该模型计算事件描述的文本摘要;
步骤5d、对两个事件描述的文本摘要进行相似度计算,采用预训练语言模型提取文本摘要的词向量,结合SIF权重计算文本摘要的句向量;计算两个事件描述文本摘要句向量的距离,将此距离视为两个事件描述的全文相似度。
优选地,步骤6包括:
步骤6a、对待处理的新事件经过步骤3对文本型的事件描述进行关键词提取,将关键词作为事件的标签,并对标签进行编码处理,得到待处理事件表示:<标签编码集合,事件描述>;用标签编码集合中的每个标签编码在历史事件案例库中进行查询,查找包含待处理事件标签的所有历史事件案例作为候选集;
步骤6b、经过步骤5对候选集中的所有事件描述与待处理的事件描述进行全文的相似度计算,得到根据相似度排序的top N事件案例自动推送给社区管理人员;
步骤6c、社区管理人员根据提供的案例处理当前事件,形成当前事件的解决方案,当前的事件可以表示成:<标签编码集合,事件描述,事件解决方案描述>;
步骤6d、将当前事件存入基层治理历史事件案例库。
根据上述技术方案,本发明基于统一的标准地址库构建地名地址基因库,使用自定义三元组表示地址基因,并构建树集合以表征地址基因之间的层次关系;将基层治理实践中包含的元素划分为时间元素、地理元素、事件元素与其他元素四类,使用地名地址基因对内容中包含的地址信息进行提取,而后对相邻的地理元素进行完整性判断,并将不完整的地址基因扩充为完整基因集,进一步合并后将每一个地址基因扩充成标准化地址;构建基层治理事件历史案例库,然后通过使用自然语言处理技术分析挖掘事件之间的相似性,找出与待处理事件最相似的案例并给出解决方案参考。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明提供的一种面向基层治理的事件自动分拨方法的流程图;
图2是本发明提供的一种面向基层治理的事件自动分拨方法中步骤1b的操作流程图;
图3是本发明提供的一种面向基层治理的事件自动分拨方法中步骤3b的操作流程图;
图4是本发明提供的一种面向基层治理的事件自动分拨方法中步骤3d的操作流程图;
图5是本发明提供的一种面向基层治理的事件自动分拨方法中步骤3e的操作流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
参见图1,本发明提供一种面向基层治理的事件自动分拨方法,包括:
步骤1、构建地名地址基因库;
步骤2、抽取事件地理要素;
步骤3、提取事件描述关键词;
步骤4、构建历史事件案例库;
步骤5、计算事件相似度;
步骤6、事件自动分拨。
在事件上报过程中,由于表达习惯的不同,同一地理实体可能对应多种不同的地名描述,这些地名指代往往存在模糊性、随机性、多样性等特点。地名地址在形式上可以分解为若干地名地址要素,引起相互之间的关联与派生关系,单个地名地址要素或若干个地名地址要素的组合形成地名地址基因。尽管地名指代的描述存在不确定性,但针对同一事件的地名地址使用一般存在描述相似性,即地名描述中所包含的地名地址基因往往是相似的。
因此,在步骤1中,本发明基于统一的标准地址库构建地名地址基因库,使用自定义三元组表示地址基因,并构建树集合以表征地址基因之间的层次关系。
具体的,步骤1包括:
步骤1a、利用统计学特征确定标准地址库中地址的落差点,通过递增切分的方法对递增的短语在整个地址库中的数量进行统计;地址元素的使用频次会随地址描述逐渐精确而逐渐降低,当待判断短语后缀超过落差点后,对应的短语在整个地址库中出现的数量将发生明显下降,据此划分出落差点集合M;
步骤1b、由于存在落差点之间的元素长度过短、错误或并非完整元素等情况,落差点并不完全等于后缀点,但落差点中包含划分地址中专有名词的后缀点,且后缀点之间的内容构成地址要素。为了对M中的元素是否为正确的后缀点做出判断,按照地址构成方式的规则设计决策树,然后根据决策树对每一个落差点mi∈M是否构成后缀词或后缀点做出判断,依据判定成功的后缀点进行分词,并对两个后缀点之间的地址要素加以记录,见图2;
步骤1c、经过分词后,标准化的地址描述所包含的地址要素被划分为专有地址部分与通配地址部分,同时获得一个包含专有地址名词基因的词表WordList;针对专有地址部分,基于标准地址自身的前后文关系,结合地址信息本身所包含的层次,为提取后的专有地名元素赋予先后序关系标记,构成形式如(id,elei,seqmarki)的三元组,其中,id表示对地址元素的唯一标识,elei表示专有地名元素,seqmarki是以地址元素所属行政区划层级表示的先后序标记;
针对每一条地址,将对应的三元组元素按前后序关系构建成一颗子树Treei,将每一棵子树完全相同三元组的节点进行合并,合并后的若干棵树构成的集合TreeSet构成了一个基本的地名地址基因库AddressDB,其中包含以地理要素为基础构建的地名地址基因及其对应的层次关系;
步骤1d、利用构建好的地名地址基因库对事件描述全文进行要素抽取,使用获得的词表WordList与全文进行匹配,提取其中的专有地址基因集D1;针对“号”、“号楼”、“栋”、“幢”等地址通配名进行逆向增字匹配,匹配到通配名后向前判断通配名之前的字符是否为阿拉伯数字、以汉字表达的数字或英文字母,符合的话则将其加入匹配结果并继续判断,直到判断为否为止,构建通配地址基因集D2;
对相邻的基因元素,利用地名地址基因库中专有地址基因三元组之中包含的先后续标记关系seqmark对相邻元素的完整程度进行判断,若两个相邻元素的标记之间存在缺失值,则证明两个地理元素之间存在要素缺失,根据构建出的地址基因库中的三元组树从上到下搜索,对不符合条件的相邻地址基因进行补充,组装成新的完整地名地址基因,作为事件中提取得到的地名地址信息。
在步骤2中,将社基层治理实践中包含的元素划分为时间元素、地理元素、事件元素与其他元素四类,使用地名地址基因对内容中包含的地址信息进行提取,而后对相邻的地理元素进行完整性判断,并将不完整的地址基因扩充为完整基因集,进一步合并后将每一个地址基因扩充成标准化地址,基于该地址匹配结果将该事件拟分拨给对应网格下的社区管理人员处置。
步骤3包括:
步骤3a、对事件描述进行句子分割并使用jieba分词进行分词处理得到documenttokens和sentencetokens,并将分词后的token进行词性标注得到带有词性标签的labeltoken序列;
步骤3b、如图3所示,使用NP-chunker根据词性标签从labeltoken序列中提取名词token(NP),得到的NP作为候选关键词;
步骤3c、将所有document tokens使用XLNet生成词向量,再使用SIF权重将词向量组成word level的文本向量;
步骤3d、如图4所示,首先,将所有sentence tokens使用XLNet生成词向量,使用SIF权重将词向量组成多个句向量;其次,根据文本的内容层次分布,使用加权平均的方法将多个句向量组合成sentencelevel的文本向量;最后,将wordlevel和sentencelevel的文本向量加权组成documentvector;
步骤3e、参见图5,将每个label token使用XLNet生成wordvector,计算与documentvector之间的距离,将此距离视为候选关键字与文档主题之间的相似度,选择最相似的候选关键词的前N个作为最终关键词。
在步骤4中,历史基层治理事件案例主要是文本类型数据,包括对事件整体情况的描述,还包括对事件的解决方案的描述,可能还包括对事件求解效果的描述,所以事件案例可以表示成:<事件描述,事件解决方案描述,效果描述>,为了快速检索历史事件案例,需要对事件描述生成标签,利用标签实现快速检索。即使用步骤3中的技术对文本型的事件描述进行关键词提取,将关键词作为事件案例的标签,并对标签进行编码处理,从而事件案例可以表示成:<标签编码集合,事件描述,事件解决方案描述,效果描述>,实现对事件案例的快速检索。
步骤5包括:
步骤5a、选取原文中与标准摘要计算ROUGE得分最高的一句话加入候选集合,接着继续从原文中进行选择,保证选出的摘要集合ROUGE得分增加,直至无法满足该条件;得到的候选摘要集合对应的句子设为1标签,其余为0标签;采用上述数据训练一个二分类模型作为句子重要性判别模型,或者使用强化学习、图神经网络对句子进行打分的方法判别句子重要性;
步骤5b、使用上述模型对事件描述文本进行文本分类,或者使用强化学习、图神经网络对句子进行打分,将重要性高的句子作为文本摘要的输入文本,采用预训练语言模型对输入文本进行wordlevel的Embedding和sentencelevel的Embedding;
步骤5c、以有监督的训练方式,使用融合word level和sentence level的多层次Embedding数据训练一个融合注意力机制和指针生成网络的seq2seq结构的文本摘要模型,最终利用该模型计算事件描述的文本摘要;
步骤5d、对两个事件描述的文本摘要进行相似度计算,采用预训练语言模型提取文本摘要的词向量,结合SIF权重计算文本摘要的句向量;计算两个事件描述文本摘要句向量的距离,将此距离视为两个事件描述的全文相似度。
步骤6包括:
步骤6a、对待处理的新事件经过步骤3对文本型的事件描述进行关键词提取,将关键词作为事件的标签,并对标签进行编码处理,得到待处理事件表示:<标签编码集合,事件描述>;用标签编码集合中的每个标签编码在历史事件案例库中进行查询,查找包含待处理事件标签的所有历史事件案例作为候选集;
步骤6b、经过步骤5对候选集中的所有事件描述与待处理的事件描述进行全文的相似度计算,得到根据相似度排序的top N事件案例自动推送给社区管理人员;
步骤6c、社区管理人员根据提供的案例处理当前事件,形成当前事件的解决方案,当前的事件可以表示成:<标签编码集合,事件描述,事件解决方案描述>;
步骤6d、将当前事件存入基层治理历史事件案例库。
由此可见,本发明基于标准地址库,通过统计学方法、策略树和数据比对技术将地名地址描述拆分为“地名地址基因”,并通过构建三元组的方式构建了一个地名地址统一基因库,获取地名中的谱特征。基于已构建的地名地址基因库对基层治理事件中的地理信息加以提取,并利用地址基因之间的关联关系对缺失地址元素进行补全和还原。利用历史事件案例构建案例库,对事件描述关键词进行编码,以关键词编码进行查询实现快速的事件检索,使用全文相似度实现精准的事件匹配。在事件描述的关键词提取过程中使用预训练语言模型XLNet提取语义信息获取词向量,并使用SIF权重获取融合多层次语义的全文向量,该全文向量更符合原文语义信息,从而使得提取的关键词更加准确有效。在事件描述的全文匹配的过程中采用有监督的方式以多层次Embedding数据训练一个融合注意力机制和指针生成网络的seq2seq结构的文本摘要模型,以实现事件描述的全文精准匹配。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (1)
1.一种面向基层治理的事件自动分拨方法,其特征在于,包括:
步骤1、基于统一的标准地址库构建地名地址基因库,使用自定义三元组表示地址基因,并构建树集合以表征地址基因之间的层次关系;包括:
步骤1a、利用统计学特征确定标准地址库中地址的落差点,通过递增切分的方法对递增的短语在整个地址库中的数量进行统计;地址元素的使用频次会随地址描述逐渐精确而逐渐降低,当待判断短语后缀超过落差点后,对应的短语在整个地址库中出现的数量将发生明显下降,据此划分出落差点集合M;
步骤1b、按照地址构成方式的规则设计决策树,然后根据决策树对每一个落差点mi∈M是否构成后缀词或后缀点做出判断,依据判定成功的后缀点进行分词,并对两个后缀点之间的地址要素加以记录;
步骤1c、经过分词后,标准化的地址描述所包含的地址要素被划分为专有地址部分与通配地址部分,同时获得一个包含专有地址名词基因的词表WordList;针对专有地址部分,基于标准地址自身的前后文关系,结合地址信息本身所包含的层次,为提取后的专有地名元素赋予先后序关系标记,构成形式如(id,elei,seqmarki)的三元组,其中,id表示对地址元素的唯一标识,elei表示专有地名元素,seqmarki是以地址元素所属行政区划层级表示的先后序标记;
针对每一条地址,将对应的三元组元素按前后序关系构建成一颗子树Treei,将每一棵子树完全相同三元组的节点进行合并,合并后的若干棵树构成的集合TreeSet构成了一个基本的地名地址基因库AddressDB,其中包含以地理要素为基础构建的地名地址基因及其对应的层次关系;
步骤1d、利用构建好的地名地址基因库对事件描述全文进行要素抽取,使用获得的词表WordList与全文进行匹配,提取其中的专有地址基因集D1;针对“号”、“号楼”、“栋”、“幢”地址通配名进行逆向增字匹配,匹配到通配名后向前判断通配名之前的字符是否为阿拉伯数字、以汉字表达的数字或英文字母,符合的话则将其加入匹配结果并继续判断,直到判断为否为止,构建通配地址基因集D2;
对相邻的基因元素,利用地名地址基因库中专有地址基因三元组之中包含的先后续标记关系seqmark对相邻元素的完整程度进行判断,若两个相邻元素的标记之间存在缺失值,则证明两个地理元素之间存在要素缺失,根据构建出的地址基因库中的三元组树从上到下搜索,对不符合条件的相邻地址基因进行补充,组装成新的完整地名地址基因,作为事件中提取得到的地名地址信息;
步骤2、抽取事件地理要素;具体为:将社基层治理实践中包含的元素划分为时间元素、地理元素、事件元素与其他元素四类,使用地名地址基因对内容中包含的地址信息进行提取,而后对相邻的地理元素进行完整性判断,并将不完整的地址基因扩充为完整基因集,进一步合并后将每一个地址基因扩充成标准化地址,基于该地址匹配结果将该事件拟分拨给对应网格下的社区管理人员处置;
步骤3、提取事件描述关键词;包括:
步骤3a、对事件描述进行句子分割并使用jieba分词进行分词处理得到documenttokens和sentencetokens,并将分词后的token进行词性标注得到带有词性标签的labeltoken序列;
步骤3b、使用NPchunker根据词性标签从labeltoken序列中提取名词token(NP),得到的NP作为候选关键词;
步骤3c、将所有document tokens使用XLNet生成词向量,再使用SIF权重将词向量组成word level的文本向量;
步骤3d、首先,将所有sentence tokens使用XLNet生成词向量,使用SIF权重将词向量组成多个句向量;其次,根据文本的内容层次分布,使用加权平均的方法将多个句向量组合成sentencelevel的文本向量;最后,将wordlevel和sentencelevel的文本向量加权组成documentvector;
步骤3e、将每个label token使用XLNet生成wordvector,计算与documentvector之间的距离,将此距离视为候选关键字与文档主题之间的相似度,选择最相似的候选关键词的前N个作为最终关键词;
步骤4、构建历史事件案例库;具体为:使用步骤3中的技术对文本型的事件描述进行关键词提取,将关键词作为事件案例的标签,并对标签进行编码处理,从而事件案例可以表示成:<标签编码集合,事件描述,事件解决方案描述,效果描述>,实现对事件案例的快速检索;
步骤5、计算事件相似度;包括:
步骤5a、选取原文中与标准摘要计算ROUGE得分最高的一句话加入候选集合,接着继续从原文中进行选择,保证选出的摘要集合ROUGE得分增加,直至无法满足该条件;得到的候选摘要集合对应的句子设为1标签,其余为0标签;采用上述数据训练一个二分类模型作为句子重要性判别模型,或者使用强化学习、图神经网络对句子进行打分的方法判别句子重要性;
步骤5b、使用上述模型对事件描述文本进行文本分类,或者使用强化学习、图神经网络对句子进行打分,将重要性高的句子作为文本摘要的输入文本,采用预训练语言模型对输入文本进行wordlevel的Embedding和sentencelevel的Embedding;
步骤5c、以有监督的训练方式,使用融合word level和sentence level的多层次Embedding数据训练一个融合注意力机制和指针生成网络的seq2seq结构的文本摘要模型,最终利用该模型计算事件描述的文本摘要;
步骤5d、对两个事件描述的文本摘要进行相似度计算,采用预训练语言模型提取文本摘要的词向量,结合SIF权重计算文本摘要的句向量;计算两个事件描述文本摘要句向量的距离,将此距离视为两个事件描述的全文相似度;
步骤6、事件自动分拨,包括:
步骤6a、对待处理的新事件经过步骤3对文本型的事件描述进行关键词提取,将关键词作为事件的标签,并对标签进行编码处理,得到待处理事件表示:<标签编码集合,事件描述>;用标签编码集合中的每个标签编码在历史事件案例库中进行查询,查找包含待处理事件标签的所有历史事件案例作为候选集;
步骤6b、经过步骤5对候选集中的所有事件描述与待处理的事件描述进行全文的相似度计算,得到根据相似度排序的top N事件案例自动推送给社区管理人员;
步骤6c、社区管理人员根据提供的案例处理当前事件,形成当前事件的解决方案,当前的事件可以表示成:<标签编码集合,事件描述,事件解决方案描述>;
步骤6d、将当前事件存入基层治理历史事件案例库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110862279.4A CN113535959B (zh) | 2021-07-29 | 2021-07-29 | 面向基层治理的事件自动分拨方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110862279.4A CN113535959B (zh) | 2021-07-29 | 2021-07-29 | 面向基层治理的事件自动分拨方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535959A CN113535959A (zh) | 2021-10-22 |
CN113535959B true CN113535959B (zh) | 2023-03-24 |
Family
ID=78121378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110862279.4A Active CN113535959B (zh) | 2021-07-29 | 2021-07-29 | 面向基层治理的事件自动分拨方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535959B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114676353B (zh) * | 2022-05-25 | 2022-10-18 | 吉奥时空信息技术股份有限公司 | 一种基于分节推断的地址匹配方法 |
CN115203361B (zh) * | 2022-06-13 | 2024-04-02 | 华院计算技术(上海)股份有限公司 | 事件分拨方法及装置、存储介质、终端 |
CN114819771A (zh) * | 2022-06-28 | 2022-07-29 | 北京中海住梦科技有限公司 | 任务分配方法及其装置、存储介质和电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203450B (zh) * | 2016-03-16 | 2020-06-02 | 伊姆西Ip控股有限责任公司 | 故障的分类方法和设备 |
CN107368471B (zh) * | 2017-06-29 | 2020-11-27 | 中国测绘科学研究院 | 一种网页文本中地名地址的提取方法 |
CN109325116B (zh) * | 2018-08-23 | 2020-11-27 | 武大吉奥信息技术有限公司 | 一种基于深度学习的城市事件自动分类派发方法及装置 |
CN109657063A (zh) * | 2018-12-24 | 2019-04-19 | 恒瑞通(福建)信息技术有限公司 | 一种海量环保人工上报事件数据的处理方法及存储介质 |
CN110543562A (zh) * | 2019-08-19 | 2019-12-06 | 武大吉奥信息技术有限公司 | 一种基于事件图谱的城市治理事件自动分拨方法及系统 |
-
2021
- 2021-07-29 CN CN202110862279.4A patent/CN113535959B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113535959A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709241B (zh) | 一种面向网络安全领域的命名实体识别方法 | |
CN113535959B (zh) | 面向基层治理的事件自动分拨方法 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN108829681B (zh) | 一种命名实体提取方法及装置 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN110298042A (zh) | 基于Bilstm-crf与知识图谱影视实体识别方法 | |
Tiun et al. | Automatic topic identification using ontology hierarchy | |
Chasin et al. | Extracting and displaying temporal and geospatial entities from articles on historical events | |
Sikdar et al. | Differential evolution based feature selection and classifier ensemble for named entity recognition | |
CN111783428A (zh) | 基于深度学习的应急管理类客观题自动生成系统 | |
CN113033198B (zh) | 相似文本推送方法、装置、电子设备及计算机存储介质 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN114461761A (zh) | 基于标签匹配的搜索方法、系统、计算机设备及存储介质 | |
CN112307364B (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN113420126A (zh) | 基于法规文本的法律规则图谱构建方法及系统 | |
CN113554172A (zh) | 基于案例文本的裁判规则知识抽取方法及系统 | |
CN115712720A (zh) | 一种基于知识图谱的降雨动态预警方法 | |
Nisha et al. | Deep KNN Based Text Classification for Cyberbullying Tweet Detection | |
CN111078947B (zh) | 基于xml的领域要素提取配置语言系统 | |
Gholami‐Dastgerdi et al. | Named entities detection by beam search algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |