CN117520570A

CN117520570A - 一种面向政策文件的智能文本辅助处理系统

Info

Publication number: CN117520570A
Application number: CN202310693072.8A
Authority: CN
Inventors: 付培国; 王禄恒; 孙立远; 赵志云; 葛自发; 孙小宁; 万欣欣; 李欣; 崔海默; 王晴; 杜宛真; 谢祎; 朱家祺
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2023-04-20
Filing date: 2023-06-12
Publication date: 2024-02-06

Abstract

本发明公开了一种面向政策文件的智能文本辅助处理系统，属于信息管理领域，具体包括：采集层，数据层，处理层和应用层；所述采集层基于雷达采集软件、python技术以及大数据中心数据推送的方式对政策文件的相关信息进行获取；数据层通过ETL技术将数据载入至数据库；处理层对数据进行清洗加工和智能分析，供应用层使用；应用层实现信息可视化展示、快速检索、自动分类、多语言翻译、引用规范化和语音转写等。本发明具有高效性和易用性，在信息系统管理等领域有重要应用价值。

Description

一种面向政策文件的智能文本辅助处理系统

技术领域

本发明属于信息管理领域，具体涉及一种面向政策文件的智能文本辅助处理系统。

背景技术

随着互联网技术的不断发展与数字化时代的到来，网络信息呈现爆炸式增长，网络空间每天都要产生数以亿计的信息，而大数据和人工智能技术的迅猛发展，为高效处理海量网络信息提供了核心技术支持和解决方案。为满足相关业务部门对政策文件等相关信息素材的需求，包括自动采集、分析与更新，需设计一套智能文本辅助处理系统，实现对政策文件相关的信源信息进行系统且全面的自动梳理。

发明内容

针对以上应用需求，本发明提出了一种面向政策文件的智能文本辅助处理系统，利用智能化手段实现了对政策文件的相关素材进行自动采集、分析与更新。同时通过稿件智能校对、引用规范性检查、录音转写等辅助功能降低了人工成本。

所述智能文本辅助处理系统，具体包括：采集层，数据层，处理层和应用层；

1)采集层基于雷达采集软件、python技术以及大数据中心数据推送等多种方式对政策文件的相关数据进行获取；

2)数据层通过ETL技术将数据载入至数据库；

ETL技术包括抽取、转化和加载；

3)处理层对数据进行清洗加工、智能分析等工作，供应用层使用。

所述处理层能实现文档的自动校对和辅助提醒；

具体为：当业务人员编写的文稿到达处理层后，点击校对按钮，自动较准文稿中的字词错误、常识性差错、情感类错误以及关键词错误等10余种错误类型，错误将被高亮显示并在右侧展示错误类型及修改建议。

所述处理层基于语料库和机器学习方法，对自动校正的文档进行错误发现和纠正的步骤如下：

首先，采用基于词嵌入的Bi-LSTM深度学习模型，计算每个字词可能是错词的概率。

双向LSTM相当于两个LSTM，一个正向输入序列，一个反向输入序列，再将两者的输出结合起来作为最终的结果；同时考虑了过去的特征(通过前向过程提取)和未来的特征(通过后向过程提取)。

LSTM中重复的模块拥有一个不同的结构，有四个神经网络层以及“门”结构让信息选择式通过，去除或者增加信息到细胞状态的能力。

门结构包含一个sigmoid神经网络层和一个pointwise乘法操作。Sigmoid层输出0到1之间的数值，描述每个部分有多少量能通过。

然后，针对怀疑的有错字词，基于拼音和字形编辑距离计算相似度；

两个音节的差异分解为以下三种变化：声母变化、韵母变化和声调变化。

声母、韵母和声调的可能取值都是有限的，通过枚举定义从一种取值变为另一种取值的编辑距离。所以，对于一个现有的音节，通过枚举找到所有与它编辑距离为n的音节。

汉字相似度计算具体为：

将汉字表达式切分，对于一个前缀表达式而言，从右至左扫描，从右边第一个字符开始判断，如果当前字符是部件利用栈记下来，如果是结构操作符，则连接右边离得最近的两个部件，以此作为一个新的部件并记录下来；一直扫描到表达式的最左端结构操作符时终止，最后栈中两个串就是切分后的两个子表达式。

最后，通过语言模型评估句子流畅度；

统计语言模型是用来描述词、语句乃至于整个文档不同的语法单元的概率分布，用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。

4)应用层包括信息可视化展示、快速检索、自动分类、多语言翻译、引用规范化和语音转写等。

a)快速检索是在指定的数据库中检索出所有符合条件的记录，并将完整的结果集返回给应用。

具体为：通过参数指定需要快速返回的最少记录数，然后按照LIFO的原则在最后入库的记录中进行检索。当结果记录数达到最低数量要求后暂停检索，同时根据所处的检索状态进行结果集的估算，最后将估算结果集返回给应用。

应用层从得到的结果集中读取已检索到的记录，通过“翻页”的方式触发前一次暂停的检索，进行更“精确”的估算，新检索到的记录始终添加到原结果集的尾部。

如果“翻页”触发了一次新的检索，则新的排序也只是在新检索到的记录之间进行，以前检索到的记录及其次序均保持不变。

b)信息自动分类是指计算机根据文献内容进行类别划分，包括以下分类方式：基于内容的文本自动分类和基于规则的文本分类；

基于内容的文本自动分类：

首先设计基于统计方法的复合短语和未定义词的识别方法，提取文本中的分类知识词或短语；保留重要的特征词之后，设计特征评估函数，提取特征；最后，基于提取的特征训练两个分类器，利用集成学习的方法将两个分类器的结果作为最终的分类结果

具体地：根据统计方法计算每个词对于分类的重要度，选择重要度大于阈值的词作为分类知识，把不重要甚至无关的特征词去掉。特征提取是通过构造评估函数，对特征集中的每个特征独立计算评估值，然后对所有特征根据评估值大小进行排序，选取预定数目的最佳特征作为结果的特征子集。

特征评估函数有：词和类别的互信息量、信息增益、期望交叉熵、文本证据权、几率比、词频等。

分类器有Bayes分类器、决策树、KNN、SVM等；实际使用中，将SVM分类器和KNN分类器集成多分类器引擎使用。

基于规则的自动分类：用户根据实际需求可随机增删规则，以满足个性化的需求。

规则的书写满足与(*)、或(+)、非(-)、异或(^)等逻辑运算(布尔表达式)；

本发明所述智能文本辅助处理系统，通过网络访问后，提供信息快速检索、文档自动分类和管理、文档自动校对和辅助提醒、文本多语种翻译、录音转写、信息可视化展示与导出、多用户系统管理等。

本发明的优点在于：

(1)本发明一种面向政策文件的智能文本辅助处理系统，可实现利用智能化手段对政策文件的相关素材进行自动采集、分析与更新。

(2)本发明一种面向政策文件的智能文本辅助处理系统，涵盖了数据的采集、接入、处理、存储、检索和各种统计分析与可视化。该系统可以实现政策文件的相关信息素材全面的自动梳理，相关业务人员可通过该系统快速检索和梳理政策文件资料，方便业务人员及时掌握相关信息，为业务人员撰写稿件提供丰富的素材支撑。

附图说明

图1为本发明一种面向政策文件的智能文本辅助处理系统的总体架构图。

图2为本发明一种面向政策文件的智能文本辅助处理系统的数据流图。

图3为本发明一种面向政策文件的智能文本辅助处理系统的文档的自动校对和辅助提醒页面。

图4为本发明一种面向政策文件的智能文本辅助处理系统的多语言自动翻译页面。

图5为本发明一种面向政策文件的智能文本辅助处理系统的录音转写页面。

图6为本发明一种面向政策文件的智能文本辅助处理系统的信息快速检索、自动分类和管理页面。

图7为本发明一种面向政策文件的智能文本辅助处理系统的用户权限管理、协同编辑、辅助分类页面。

具体实施方式

下面结合附图，对本发明的实施方式做详细、清楚的描述。

本发明构建了一种面向政策文件的智能文本辅助处理系统，可实现利用智能化手段对政策文件的相关素材进行自动采集、分析与更新；相关业务人员通过该系统快速检索和梳理政策文件资料，方便业务人员及时掌握政策文件的相关信息，为业务人员撰写稿件提供丰富的素材支撑。同时通过引用规范性检查、录音转写等辅助功能降低人工成本。

所述智能文本辅助处理系统，如图1所示，具体包括：采集层，数据层，处理层和应用层；

1)采集层基于雷达采集软件、python技术以及大数据中心推送等多种方式对政策文件的相关信息进行获取；

采用开源翻译引擎，在数据源头进行数据采集，实时翻译并存储。全网数据及时进行更新，保证数据时效性。根据素材库信息采集展示情况，进行关键词调优，保持一周一次更新频率；系统的数据流如图2所示。

2)数据层通过ETL技术将数据载入至数据库；

ETL技术包括抽取、转化和加载；

a)、处理层能实现相关信息呈现，本系统设计了相关信息呈现功能，帮助用户实现相关信息的分类和多维分析，对所关注内容进行多维度的数据统计分析，如总体声量、新增声量、信息来源、地域分布、热度分布、情感分布等。

b)、处理层能实现文档的自动校对和辅助提醒

如图3所示，业务人员在编写文稿时可将稿件录入自动校对模块，点击校对按钮，自动较准文案中的字词错误、常识性差错、情感类错误、关键词错误等10余种错误类型，错误将被高亮显示并在右侧展示错误类型及修改建议。

本系统采用了基于词嵌入+Bi-LSTM深度学习的语言模型训练方法，以及基于拼音、字形、编辑距离和字频的方法，计算正词、错词的相似度；以及通过语言模型评估距离流畅程度，从而进行错误发现和纠正。

1.基于词嵌入的Bi-LSTM深度学习模型

纠错的前提是找到可能的错误字词，本发明采用深度学习方法，来计算每个词可能是错词的概率。

具体地，采用双向LSTM神经网络来计算；Long Short Term网络(LSTM)是一种RNN特殊的类型，可以学习长期依赖信息，在中文语义分析问题中得到了广泛的使用。本发明利用双向LSTM进行语言模型训练，解决系统最关键的错误度计算。

LSTM通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是LSTM的默认行为，而非需要付出很大代价才能获得的能力。所有RNN都具有一种重复神经网络模块的链式的形式。在标准的RNN中，这个重复的模块只有一个非常简单的结构，标准RNN中的重复模块包含单一的层。

LSTM同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，LSTM是有四个，以一种非常特殊的方式进行交互。LSTM的核心思想是细胞状态类似于传送带，直接在整个链上运行，只有一些少量的线性交互；信息在上面流传保持不变会很容易。LSTM有通过精心设计的“门”的结构来去除或者增加信息到细胞状态的能力。

门是一种让信息选择式通过的方法，包含一个sigmoid神经网络层和一个pointwise乘法操作。Sigmoid层输出0到1之间的数值，描述每个部分有多少量可以通过。

与传统LSTM不同，双向LSTM同时考虑了过去的特征(通过前向过程提取)和未来的特征(通过后向过程提取)；所谓的后向过程相当于将原始序列逆向输入到LSTM中。双向LSTM相当于两个LSTM，一个正向输入序列，一个反向输入序列，再将两者的输出结合起来作为最终的结果。

2.基于拼音、字形的编辑距离相似度方法

当利用Bi-LSTM获取到怀疑有错的字词时，下一个重要的问题是如何获取到其可能的正确词。本系统采用了基于拼音、字形编辑距离的相似度计算方法来获取。

由于汉语拼音输入法的广泛使用，大部分用户的输入错误都表现为同音字或者近音字的替换误用，基于此，本系统提出了基于拼音的编辑距离来衡量汉字串的相似度。

如果把拼音串简单地看作广义的英文字母串，则替换、插入或者删除一个字母后，所得结果不一定是合法的拼音串。因此应从音节的角度来分析拼音串的差别。

对于一个单独的音节来说，它与另外一个音节的差异可以分解为以下三种变化：声母变化、韵母变化和声调变化。

声母、韵母和声调的可能取值都是有限的，可以枚举定义从一种取值变为另一种取值的编辑距离。所以，对于一个现有的音节，通过枚举容易找到所有与它编辑距离为n的音节。

例如，要找到所有与它编辑距离是2的音节，那么变化可能是声母改变1个距离单位，韵母改变1个距离单位，声调改变0个距离单位；或者声母改变2个距离单位，韵母和声调没有发生改变；等等，仅仅是排列组合的问题。

如果给所有音节编号，将音节整体看作一个特殊的单字，那么基于拼音的编辑距离可认为是基于汉字的编辑距离的细化，即不同的汉字之间根据拼音的近似程度有不同的距离，而不是笼统地将任意两个汉字的距离都计为1。

汉字相似度计算是一个逐渐细化，递归切分计算的过程。

重要操作是汉字表达式切分，对于一个前缀表达式而言，首先要从右至左扫描，从右边第一个字符开始判断，如果当前字符是部件利用栈记下来，如果是结构操作符，则连接右边离得最近的两个部件，以此作为一个新的部件并记录下来。一直扫描到表达式的最左端结构操作符时终止，最后栈中两个串就是切分后的两个子表达式。

3.通过语言模型评估句子流畅度

找到怀疑有错误的字词以及可能的正词后，还需要判断两者到底哪个是正确的，哪个是错误的，以避免误纠的情况，本系统采用通过语言模型评估句子流畅度的方法来实现。

统计语言模型即是用来描述词、语句乃至于整个文档这些不同的语法单元的概率分布的模型，能够用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。

统计语言模型对于复杂的大规模自然语言处理应用有着非常重要的价值，它能够有助于提取出自然语言中的内在规律从而提高语音识别、机器翻译、文档分类、光学字符识别等自然语言应用的表现。好的统计语言模型需要依赖大量的训练数据，基本上模型的表现优劣往往会取决于该领域数据的丰富程度。

多语言自动翻译,如图4所示，本系统支持多语种翻译。

语音转写，如图5所示，本系统支持针对中文、英文的音频转写。采用行业先进的语音识别技术，通用语音识别率高达98％，可对数字、日期、时间等返回格式化文本，根据对话语境，智能断句并匹配标点。音频文件要求时长5小时以内，大小500M以内，采样率16k、位长16bit、单声道的wav/pcm/m4a/mp3音频。

信息快速检索、自动分类和管理，如图6所示，本系统支持通过关键词“与”、“或”、“非”逻辑表达式的常规搜索，常规检索支持关键词一键搜索，搜索结果可按不同知识库类型进行分类展示。

快速检索是在指定的数据库中检索出所有符合条件的记录，并将完整的结果集返回给应用。为了满足上述需求，该系统实现了一种快速检索与估算的机制。

应用层在使用这种机制时，可通过参数指定需要快速返回的最少记录数等要求，然后系统根据这些参数，并按照LIFO的原则首先在最后入库的记录中进行检索。当结果记录数达到最低数量要求后，系统将在适当的时机暂停检索，同时根据所处的检索状态进行结果集的估算，最后将估算结果集返回给应用。应用不但能够从得到的结果集中读取已检索到的记录，而且也能够通过“翻页”的方式触发系统继续前一次所暂停的检索，并进行更“精确”的估算，新检索到的记录始终添加到原结果集的尾部。

在快速检索与估算的机制下也支持检索结果的排序功能，但因为还没有得到整个结果集，所以排序的不是整个结果集，而只是本次检索到的记录。如果“翻页”触发了一次新的检索，则新的排序也只是在新检索到的记录之间进行，以前检索到的记录及其次序均保持不变。也就是说，这种模式下的结果集排序是分段进行的，记录之间是分段有序的。

信息自动分类，如图6所示，是指计算机根据文献内容进行类别划分的功能，本系统设计以下两种分类方式：基于内容的文本自动分类和基于规则的文本分类；

基于内容的文本自动分类：

由于现有分词算法和词典规模的限制，文档有很多具有分类价值的词或短语没有被识别出来，如各学科的专业术语以及人名、地名、组织机构名称等。为了获取更多的分类知识，提高分类的准确率，本系统采用了一种基于统计方法的复合短语和未定义词的识别方法。可以有效地提取文本中的分类知识词或短语。在获取更多的词补充分类知识后，需要确定这些词中哪些是真正的分类知识，哪些是噪音。

解决这个问题的技术是特征提取，根据统计方法计算每个词对于分类的作用大小，选择其中分类作用大的词作为分类知识，把不重要甚至无关的特征词去掉。

其中，分类作用大的词是利用tf-idf方法计算重要性。

特征提取是文本分类中最重要的问题之一，它具有降低文本向量空间维数、简化计算、防止过分拟合等作用。主要算法是构造一个评估函数，对特征集中的每个特征独立计算评估值，然后对所有特征根据评估值大小进行排序，选取预定数目的最佳特征作为结果的特征子集。

特征评估函数有：词和类别的互信息量、信息增益、期望交叉熵、文本证据权、几率比、词频等。其中期望交叉熵(CHI)是效果最好的，当获取分类知识后，需要训练分类器来生成分类模板。分类器的功能是根据分类模板，对文档进行类别的判定。使用同样的分类知识，不同的分类器获取分类模板的能力是不同的。效果比较好的分类器有Bayes分类器、决策树、KNN、SVM等。以往关于分类器的研究往往着眼于如何提高单个分类器的性能。本系统把这些分类器集成到一个系统中，提高系统的整体分类性能。实践证明，这种策略是非常有效的。SVM分类器和KNN分类器都是目前最好的分类器，把两个分类器集成起来构造多分类器引擎，获取了比以上两个单独的分类器更好的分类性能。

规则的书写满足与(*)、或(+)、非(-)、异或(^)等逻辑运算(布尔表达式)。

例：作者＝(李四+王某)-正文＝外汇

标题＝世界杯*正文＝(A城+B国队)

可根据作者、标题、正文等信息直接进行分类。

采用统计算法，对分类文本、规则、类别之间进行精确处理。

内嵌TRS汉语自动分词系统

信息可视化展示、查询和数据导出，本系统支持根据业务需求设计图表文结合的可视化报告，包括走势图、柱状图、饼状图、热点词云、地域热力图和图表类栏目特殊功能等。系统具备针对政策文件的相关资料等综合分析功能，支持按专题、关键词等自动生成综合分析报告。系统支持数据导出功能，导出的结果包含各种字段，并且可以对字段进行选择。

用户权限管理、协同编辑、辅助分类，如图7所示，本系统支持用户部门划分、部门权限划分、用户角色划分等多种权限管理方式，设计入工辅助分类系统，可根据需求对数据进行人工校正、提供对分类结果的人工校正编辑接口，支持且不限于人主编辑、辅助分类、多人同时在线操作等功能。

Claims

1.一种面向政策文件的智能文本辅助处理系统，其特征在于，具体包括：采集层，数据层，处理层和应用层；

1)采集层基于雷达采集软件、python技术以及大数据中心数据推送的方式对政策文件的相关信息进行获取；

2)数据层通过ETL技术将数据载入至数据库；

ETL技术包括抽取、转化和加载；

3)处理层对数据进行清洗加工和智能分析，供应用层使用；

所述处理层能实现文档的自动校对和辅助提醒；并基于语料库和机器学习方法，对自动校正的文档进行错误发现和纠正；步骤如下：

首先，采用基于词嵌入的Bi-LSTM深度学习模型，计算每个字词可能是错词的概率；

然后，基于拼音、字形、编辑距离、字频的方法，计算正确字词和错误字词的相似度；

最后，通过语言模型评估距离的流畅度，从而进行错误发现和纠正；

4)应用层包括信息可视化展示、快速检索、自动分类、多语言翻译、引用规范化和语音转写；

a)快速检索是在指定的数据库中检索出所有符合条件的记录，并将完整的结果集返回给应用；

具体为：首先指定需要快速返回的最少记录数，然后按照LIFO的原则在最后入库的记录中进行检索；当结果记录数达到最低数量要求后暂停检索，同时根据所处的检索状态进行结果集的估算，最后将估算结果集返回给应用层；

应用层从得到的结果集中读取已检索到的记录，通过“翻页”的方式触发前一次暂停的检索，进行更“精确”的估算，新检索到的记录始终添加到原结果集的尾部；

如果“翻页”触发了一次新的检索，则新的排序也只是在新检索到的记录之间进行，以前检索到的记录及其次序均保持不变；

b)自动分类是指计算机根据文献内容进行类别划分，包括以下分类方式：基于内容的文本自动分类和基于规则的文本分类；

基于内容的文本自动分类：

具体地：根据统计方法计算每个词对于分类的重要度，选择重要度大于阈值的词或短语作为分类知识，通过筛选保留重要的特征词，然后构造评估函数提取特征，对每个特征独立计算评估值，然后对所有特征根据评估值大小进行排序，选取预定数目的最佳特征作为结果的特征子集；最后基于特征子集训练两个分类器，利用集成学习的方法将两个分类器的结果作为最终的分类结果；

基于规则的自动分类：用户根据实际需求可随机增删规则，以满足个性化的需求；规则的书写满足与、或、非、异或逻辑运算。

2.如权利要求1所述的一种面向政策文件的智能文本辅助处理系统，其特征在于，所述处理层实现文档的自动校对和辅助提醒；具体为：当业务人员编写的文稿到达处理层后，点击校对按钮，自动较准文稿中的字词错误、常识性差错、情感类错误以及关键词错误，错误将被高亮显示并在右侧展示错误类型及修改建议。

3.如权利要求1所述的一种面向政策文件的智能文本辅助处理系统，其特征在于，所述基于词嵌入的Bi-LSTM深度学习模型，采用双向LSTM，其包括一个正向输入序列，一个反向输入序列，再将两者的输出结合起来作为最终的结果；同时考虑了通过前向过程提取的过去的特征和通过后向过程提取的未来的特征；

4.如权利要求3所述的一种面向政策文件的智能文本辅助处理系统，其特征在于，所述门结构包含一个sigmoid神经网络层和一个pointwise乘法操作；Sigmoid层输出0到1之间的数值，描述每个部分有多少量能通过。

5.如权利要求1所述的一种面向政策文件的智能文本辅助处理系统，其特征在于，所述基于拼音和字形编辑距离计算相似度，具体为：

两个音节的差异分解为以下三种变化：声母变化、韵母变化和声调变化；

声母、韵母和声调的取值有限，通过枚举法找到与当前音节编辑距离为n的其他音节；

汉字相似度计算具体为：

6.如权利要求1所述的一种面向政策文件的智能文本辅助处理系统，其特征在于，所述信息自动分类中，评估函数有：词和类别的互信息量、信息增益、期望交叉熵、文本证据权、几率比和词频；

分类器有Bayes分类器、决策树、KNN和SVM。

7.如权利要求1所述的一种面向政策文件的智能文本辅助处理系统，其特征在于，所述智能文本辅助处理系统，通过网络访问后，提供信息快速检索、文档自动分类和管理、文档自动校对和辅助提醒、文本多语种翻译、录音转写、信息可视化展示与导出。