CN110717045A

CN110717045A - 一种基于信访信件概况的信件要素自动提取方法

Info

Publication number: CN110717045A
Application number: CN201910976039.XA
Authority: CN
Inventors: 谢磊; 张丽; 焦安琪; 何义民; 李飞; 何志成; 曹珊; 刘世旭
Original assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Current assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-01-21

Abstract

本发明公开了一种基于信访信件概况的信件要素自动提取方法，包括：信访信件要素的自动生成，利用CNLP中文自然语言处理、大数据、机器学习将大篇幅的信访文本生成为简短的信访概要；信访信件要素的自动提取，利用文本挖掘技术将文本进行碎片化处理，根据要求提取信访基本要素。智能化处理信访信件，客观科学提取信访信件的基本要素和概要，使信访处理科学高效，能够将信访信件中信访人语句和用词表达的情绪进行分析，帮助了解信访人的真实状态。

Description

一种基于信访信件概况的信件要素自动提取方法

技术领域

本发明涉及文本挖掘和计算机信息处理技术领域，尤其涉及知识元抽取技术、数据挖掘分析技术、自然语言处理技术、碎片标引和索引技术、机器学习技术的要素自动提取方法。

背景技术

随着信访渠道的多样化，信访工作变的非常复杂庞大，人工进行比对、分析、归类、整理传统信访接待方式明显力不从心，而传统的文本处理完全依托于本文的特征，对于文本的关联分析、趋势预测等文本挖掘的技术应用相对不足；同时本文挖掘技术本身也有局限性，受语料库、挖掘技术和计算机技术等的影响，有时即使正确的运用了文本挖掘的技术，也往往得不到预期的效果；对于信访类的文本处理缺乏情绪指标，不能够了解信访件的情绪状态。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于信访信件概况的信件要素自动提取方法。

本发明的目的通过以下的技术方案来实现：

一种基于信访信件概况的信件要素自动提取方法，包括：

信访信件要素的自动生成，利用CNLP中文自然语言处理、大数据、机器学习将大篇幅的信访文本生成为简短的信访概要；

信访信件要素的自动提取，利用文本挖掘技术将文本进行碎片化处理，根据要求提取信访基本要素。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

智能化处理信访信件，客观科学提取信访信件的基本要素和概要，使信访处理科学高效，能够对信访信件中信访人语句和用词表达的情绪进行分析，帮助了解信访人的真实状态。

附图说明

图1是基于信访信件概况的信件要素自动提取方法图；

图2是基于信访信件概况要素自动提取方法的逻辑图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，基于信访信件概况的信件要素自动提取方法，包括：

信访信件要素的自动生成，利用CNLP中文自然语言处理、大数据、机器学习等技术手段，对信访信件中信访人语句和用词表达的情绪进行分析，量化打分，利用人工智能剔除主观偏见，归纳信访数据的客观规律，从而将长篇信访信件进行自动文摘，生成简洁核心内容；

信访信件要素自动提取，利用文本挖掘和先进的CNLP自然语言处理模型中的CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短时记忆模型)进行知识关联与数据二次智能分类存储，对信访信件中信访人语句和用词表达的情绪进行分析，量化打分，进而对长篇信访信件进行碎片化处理，即时完成信件命名实体识别、自动摘要提取、核心诉求提取、在线分析归类，帮助构建新型信访管理体系；

上述信件概况自动生成：系统应用DCNN(Deep Convolutional Neural Network，深度卷积网络)与LSTM(Long Short Term Memory，长短时记忆网络)，并将这两个网络框架整合到一起形成知网自有知识产权的中文自然语言处理框架：CNLP。CNLP是按照当代语言学理论，自然语言分符号、词法、句法、语义和语用五个层面。在符号层面，有语音、文字、图片和电子输入。在词法层面，有词典、词性标注、词的形态变化、构词法等。在句法层面，有词对词的关联/依存关系，以及短语对短语的结合/拼接关系。在语义层面，有语义标签与它们在现实/想象世界中的所指之间的映射关系和语义标签之间的角色指派关系。在语用层面，有语言成分与语境之间、字面意义和言外之意之间的复杂互动关系，针对自然语言的特性，CNLP框架会自动在形式语言理论框架下建立不同的模型，形成了自然语言处理的诸多形式化机制，基于规则的形式化机制包括LFG(词汇功能语法)、GPSG(广义短语结构语法)、HPSG(中心词驱动的短语结构语法)、DG(依存语法)、CG(范畴语法)、CCG(组合范畴语法)等，基于统计的形式化机制包括HMM(隐马尔科夫模型)、PCFG(概率上下文无关语法)等，基于联结的形式化机制包括CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短时记忆模型)等。利用以上机制，系统再次进行知识关联与数据二次智能分类存储，利用文本挖掘和先进的数据算法对信件中信访人语句和用词表达的情绪进行分析，量化打分，进而对长篇信访来件进行自动文摘，生成简洁核心内容。

如图2所示，信访信件要素自动提取：在文本数据处理之前建立要素的标准库，依托知网海量的数据信息和科学的分类标准，基于句法分析、文本分类、关键词抽取、相似词相关词计算等技术开发的知识元提取技术，并成功进行了概念、图片、创新点等知识元的提取，通过对海量文献的处理，建立一个庞大的数据标准库；

利用XML技术对信访件进行碎片标引和索引标引，然后针对现有的中文自然语言处理需求，例如通过自然语言的搜索查询相关文献记录中的指标，某个研究领域、某个研究技术等，发展面向中文文本的自然语言处理技术体系，包括分词、词法、句法、命名实体识别、实体关系预测、实体属性抽提等技术，基于高质量学术文献语料进行模型的重新的训练与测试，使相关技术模型的算法准确率、速度均达到国际先进水平，以更好的支撑大数据非结构化文本信息与知识的抽提；

根据信访信件的特性建立要素标准模型，根据模型设置学习策略进行文本信息抽取，抽取的内容包括命名实体抽取、关系抽取、属性抽取等，将抽取到的内容与模型规则进行匹配，将与之一致的识别出来，并将同类规则添加在相应的库中，即时完成信件命名实体识别、自动摘要提取、核心诉求提取、在线分析归类等信件操作，继而丰富标准库内容，使提取随着处理信件的增加，准确率也随之增加，从而完成信件要素自动提取过程。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于信访信件概况的信件要素自动提取方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于信访信件概况的信件要素自动提取方法，其特征在于，利用CNLP中文自然语言处理、大数据与机器学习技术手段主要包括对信访信件中信访人语句和用词表达的情绪进行分析，量化打分，利用人工智能剔除主观偏见，归纳信访数据的客观规律，从而将长篇信访信件进行自动文摘，生成简洁核心内容。

3.如权利要求1所述的信访信件概况的信件要素自动提取方法，其特征在于，所述信访信件要素的自动提取利用文本挖掘和先进的CNLP自然语言处理模型中的卷积神经网络CNN、循环神经网络RNN、长短时记忆模型LSTM进行知识关联与数据二次智能分类存储，对信访信件中信访人语句和用词表达的情绪进行分析，量化打分，进而对长篇信访信件进行碎片化处理，即时完成信件命名实体识别、自动摘要提取、核心诉求提取、在线分析归类，帮助构建新型信访管理体系。