CN117520570A - 一种面向政策文件的智能文本辅助处理系统 - Google Patents
一种面向政策文件的智能文本辅助处理系统 Download PDFInfo
- Publication number
- CN117520570A CN117520570A CN202310693072.8A CN202310693072A CN117520570A CN 117520570 A CN117520570 A CN 117520570A CN 202310693072 A CN202310693072 A CN 202310693072A CN 117520570 A CN117520570 A CN 117520570A
- Authority
- CN
- China
- Prior art keywords
- layer
- classification
- text
- information
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 50
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000013519 translation Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000013518 transcription Methods 0.000 claims abstract description 11
- 230000035897 transcription Effects 0.000 claims abstract description 11
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 4
- 230000008451 emotion Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000007636 ensemble learning method Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims 1
- 230000014616 translation Effects 0.000 claims 1
- 239000010410 layer Substances 0.000 description 31
- 239000000463 material Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向政策文件的智能文本辅助处理系统,属于信息管理领域,具体包括:采集层,数据层,处理层和应用层;所述采集层基于雷达采集软件、python技术以及大数据中心数据推送的方式对政策文件的相关信息进行获取;数据层通过ETL技术将数据载入至数据库;处理层对数据进行清洗加工和智能分析,供应用层使用;应用层实现信息可视化展示、快速检索、自动分类、多语言翻译、引用规范化和语音转写等。本发明具有高效性和易用性,在信息系统管理等领域有重要应用价值。
Description
技术领域
本发明属于信息管理领域,具体涉及一种面向政策文件的智能文本辅助处理系统。
背景技术
随着互联网技术的不断发展与数字化时代的到来,网络信息呈现爆炸式增长,网络空间每天都要产生数以亿计的信息,而大数据和人工智能技术的迅猛发展,为高效处理海量网络信息提供了核心技术支持和解决方案。为满足相关业务部门对政策文件等相关信息素材的需求,包括自动采集、分析与更新,需设计一套智能文本辅助处理系统,实现对政策文件相关的信源信息进行系统且全面的自动梳理。
发明内容
针对以上应用需求,本发明提出了一种面向政策文件的智能文本辅助处理系统,利用智能化手段实现了对政策文件的相关素材进行自动采集、分析与更新。同时通过稿件智能校对、引用规范性检查、录音转写等辅助功能降低了人工成本。
所述智能文本辅助处理系统,具体包括:采集层,数据层,处理层和应用层;
1)采集层基于雷达采集软件、python技术以及大数据中心数据推送等多种方式对政策文件的相关数据进行获取;
2)数据层通过ETL技术将数据载入至数据库;
ETL技术包括抽取、转化和加载;
3)处理层对数据进行清洗加工、智能分析等工作,供应用层使用。
所述处理层能实现文档的自动校对和辅助提醒;
具体为:当业务人员编写的文稿到达处理层后,点击校对按钮,自动较准文稿中的字词错误、常识性差错、情感类错误以及关键词错误等10余种错误类型,错误将被高亮显示并在右侧展示错误类型及修改建议。
所述处理层基于语料库和机器学习方法,对自动校正的文档进行错误发现和纠正的步骤如下:
首先,采用基于词嵌入的Bi-LSTM深度学习模型,计算每个字词可能是错词的概率。
双向LSTM相当于两个LSTM,一个正向输入序列,一个反向输入序列,再将两者的输出结合起来作为最终的结果;同时考虑了过去的特征(通过前向过程提取)和未来的特征(通过后向过程提取)。
LSTM中重复的模块拥有一个不同的结构,有四个神经网络层以及“门”结构让信息选择式通过,去除或者增加信息到细胞状态的能力。
门结构包含一个sigmoid神经网络层和一个pointwise乘法操作。Sigmoid层输出0到1之间的数值,描述每个部分有多少量能通过。
然后,针对怀疑的有错字词,基于拼音和字形编辑距离计算相似度;
两个音节的差异分解为以下三种变化:声母变化、韵母变化和声调变化。
声母、韵母和声调的可能取值都是有限的,通过枚举定义从一种取值变为另一种取值的编辑距离。所以,对于一个现有的音节,通过枚举找到所有与它编辑距离为n的音节。
汉字相似度计算具体为:
将汉字表达式切分,对于一个前缀表达式而言,从右至左扫描,从右边第一个字符开始判断,如果当前字符是部件利用栈记下来,如果是结构操作符,则连接右边离得最近的两个部件,以此作为一个新的部件并记录下来;一直扫描到表达式的最左端结构操作符时终止,最后栈中两个串就是切分后的两个子表达式。
最后,通过语言模型评估句子流畅度;
统计语言模型是用来描述词、语句乃至于整个文档不同的语法单元的概率分布,用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。
4)应用层包括信息可视化展示、快速检索、自动分类、多语言翻译、引用规范化和语音转写等。
a)快速检索是在指定的数据库中检索出所有符合条件的记录,并将完整的结果集返回给应用。
具体为:通过参数指定需要快速返回的最少记录数,然后按照LIFO的原则在最后入库的记录中进行检索。当结果记录数达到最低数量要求后暂停检索,同时根据所处的检索状态进行结果集的估算,最后将估算结果集返回给应用。
应用层从得到的结果集中读取已检索到的记录,通过“翻页”的方式触发前一次暂停的检索,进行更“精确”的估算,新检索到的记录始终添加到原结果集的尾部。
如果“翻页”触发了一次新的检索,则新的排序也只是在新检索到的记录之间进行,以前检索到的记录及其次序均保持不变。
b)信息自动分类是指计算机根据文献内容进行类别划分,包括以下分类方式:基于内容的文本自动分类和基于规则的文本分类;
基于内容的文本自动分类:
首先设计基于统计方法的复合短语和未定义词的识别方法,提取文本中的分类知识词或短语;保留重要的特征词之后,设计特征评估函数,提取特征;最后,基于提取的特征训练两个分类器,利用集成学习的方法将两个分类器的结果作为最终的分类结果
具体地:根据统计方法计算每个词对于分类的重要度,选择重要度大于阈值的词作为分类知识,把不重要甚至无关的特征词去掉。特征提取是通过构造评估函数,对特征集中的每个特征独立计算评估值,然后对所有特征根据评估值大小进行排序,选取预定数目的最佳特征作为结果的特征子集。
特征评估函数有:词和类别的互信息量、信息增益、期望交叉熵、文本证据权、几率比、词频等。
分类器有Bayes分类器、决策树、KNN、SVM等;实际使用中,将SVM分类器和KNN分类器集成多分类器引擎使用。
基于规则的自动分类:用户根据实际需求可随机增删规则,以满足个性化的需求。
规则的书写满足与(*)、或(+)、非(-)、异或(^)等逻辑运算(布尔表达式);
本发明所述智能文本辅助处理系统,通过网络访问后,提供信息快速检索、文档自动分类和管理、文档自动校对和辅助提醒、文本多语种翻译、录音转写、信息可视化展示与导出、多用户系统管理等。
本发明的优点在于:
(1)本发明一种面向政策文件的智能文本辅助处理系统,可实现利用智能化手段对政策文件的相关素材进行自动采集、分析与更新。
(2)本发明一种面向政策文件的智能文本辅助处理系统,涵盖了数据的采集、接入、处理、存储、检索和各种统计分析与可视化。该系统可以实现政策文件的相关信息素材全面的自动梳理,相关业务人员可通过该系统快速检索和梳理政策文件资料,方便业务人员及时掌握相关信息,为业务人员撰写稿件提供丰富的素材支撑。
附图说明
图1为本发明一种面向政策文件的智能文本辅助处理系统的总体架构图。
图2为本发明一种面向政策文件的智能文本辅助处理系统的数据流图。
图3为本发明一种面向政策文件的智能文本辅助处理系统的文档的自动校对和辅助提醒页面。
图4为本发明一种面向政策文件的智能文本辅助处理系统的多语言自动翻译页面。
图5为本发明一种面向政策文件的智能文本辅助处理系统的录音转写页面。
图6为本发明一种面向政策文件的智能文本辅助处理系统的信息快速检索、自动分类和管理页面。
图7为本发明一种面向政策文件的智能文本辅助处理系统的用户权限管理、协同编辑、辅助分类页面。
具体实施方式
下面结合附图,对本发明的实施方式做详细、清楚的描述。
本发明构建了一种面向政策文件的智能文本辅助处理系统,可实现利用智能化手段对政策文件的相关素材进行自动采集、分析与更新;相关业务人员通过该系统快速检索和梳理政策文件资料,方便业务人员及时掌握政策文件的相关信息,为业务人员撰写稿件提供丰富的素材支撑。同时通过引用规范性检查、录音转写等辅助功能降低人工成本。
所述智能文本辅助处理系统,如图1所示,具体包括:采集层,数据层,处理层和应用层;
1)采集层基于雷达采集软件、python技术以及大数据中心推送等多种方式对政策文件的相关信息进行获取;
采用开源翻译引擎,在数据源头进行数据采集,实时翻译并存储。全网数据及时进行更新,保证数据时效性。根据素材库信息采集展示情况,进行关键词调优,保持一周一次更新频率;系统的数据流如图2所示。
2)数据层通过ETL技术将数据载入至数据库;
ETL技术包括抽取、转化和加载;
3)处理层对数据进行清洗加工、智能分析等工作,供应用层使用。
a)、处理层能实现相关信息呈现,本系统设计了相关信息呈现功能,帮助用户实现相关信息的分类和多维分析,对所关注内容进行多维度的数据统计分析,如总体声量、新增声量、信息来源、地域分布、热度分布、情感分布等。
b)、处理层能实现文档的自动校对和辅助提醒
如图3所示,业务人员在编写文稿时可将稿件录入自动校对模块,点击校对按钮,自动较准文案中的字词错误、常识性差错、情感类错误、关键词错误等10余种错误类型,错误将被高亮显示并在右侧展示错误类型及修改建议。
本系统采用了基于词嵌入+Bi-LSTM深度学习的语言模型训练方法,以及基于拼音、字形、编辑距离和字频的方法,计算正词、错词的相似度;以及通过语言模型评估距离流畅程度,从而进行错误发现和纠正。
1.基于词嵌入的Bi-LSTM深度学习模型
纠错的前提是找到可能的错误字词,本发明采用深度学习方法,来计算每个词可能是错词的概率。
具体地,采用双向LSTM神经网络来计算;Long Short Term网络(LSTM)是一种RNN特殊的类型,可以学习长期依赖信息,在中文语义分析问题中得到了广泛的使用。本发明利用双向LSTM进行语言模型训练,解决系统最关键的错误度计算。
LSTM通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是LSTM的默认行为,而非需要付出很大代价才能获得的能力。所有RNN都具有一种重复神经网络模块的链式的形式。在标准的RNN中,这个重复的模块只有一个非常简单的结构,标准RNN中的重复模块包含单一的层。
LSTM同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神经网络层,LSTM是有四个,以一种非常特殊的方式进行交互。LSTM的核心思想是细胞状态类似于传送带,直接在整个链上运行,只有一些少量的线性交互;信息在上面流传保持不变会很容易。LSTM有通过精心设计的“门”的结构来去除或者增加信息到细胞状态的能力。
门是一种让信息选择式通过的方法,包含一个sigmoid神经网络层和一个pointwise乘法操作。Sigmoid层输出0到1之间的数值,描述每个部分有多少量可以通过。
与传统LSTM不同,双向LSTM同时考虑了过去的特征(通过前向过程提取)和未来的特征(通过后向过程提取);所谓的后向过程相当于将原始序列逆向输入到LSTM中。双向LSTM相当于两个LSTM,一个正向输入序列,一个反向输入序列,再将两者的输出结合起来作为最终的结果。
2.基于拼音、字形的编辑距离相似度方法
当利用Bi-LSTM获取到怀疑有错的字词时,下一个重要的问题是如何获取到其可能的正确词。本系统采用了基于拼音、字形编辑距离的相似度计算方法来获取。
由于汉语拼音输入法的广泛使用,大部分用户的输入错误都表现为同音字或者近音字的替换误用,基于此,本系统提出了基于拼音的编辑距离来衡量汉字串的相似度。
如果把拼音串简单地看作广义的英文字母串,则替换、插入或者删除一个字母后,所得结果不一定是合法的拼音串。因此应从音节的角度来分析拼音串的差别。
对于一个单独的音节来说,它与另外一个音节的差异可以分解为以下三种变化:声母变化、韵母变化和声调变化。
声母、韵母和声调的可能取值都是有限的,可以枚举定义从一种取值变为另一种取值的编辑距离。所以,对于一个现有的音节,通过枚举容易找到所有与它编辑距离为n的音节。
例如,要找到所有与它编辑距离是2的音节,那么变化可能是声母改变1个距离单位,韵母改变1个距离单位,声调改变0个距离单位;或者声母改变2个距离单位,韵母和声调没有发生改变;等等,仅仅是排列组合的问题。
如果给所有音节编号,将音节整体看作一个特殊的单字,那么基于拼音的编辑距离可认为是基于汉字的编辑距离的细化,即不同的汉字之间根据拼音的近似程度有不同的距离,而不是笼统地将任意两个汉字的距离都计为1。
汉字相似度计算是一个逐渐细化,递归切分计算的过程。
重要操作是汉字表达式切分,对于一个前缀表达式而言,首先要从右至左扫描,从右边第一个字符开始判断,如果当前字符是部件利用栈记下来,如果是结构操作符,则连接右边离得最近的两个部件,以此作为一个新的部件并记录下来。一直扫描到表达式的最左端结构操作符时终止,最后栈中两个串就是切分后的两个子表达式。
3.通过语言模型评估句子流畅度
找到怀疑有错误的字词以及可能的正词后,还需要判断两者到底哪个是正确的,哪个是错误的,以避免误纠的情况,本系统采用通过语言模型评估句子流畅度的方法来实现。
统计语言模型即是用来描述词、语句乃至于整个文档这些不同的语法单元的概率分布的模型,能够用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。
统计语言模型对于复杂的大规模自然语言处理应用有着非常重要的价值,它能够有助于提取出自然语言中的内在规律从而提高语音识别、机器翻译、文档分类、光学字符识别等自然语言应用的表现。好的统计语言模型需要依赖大量的训练数据,基本上模型的表现优劣往往会取决于该领域数据的丰富程度。
4)应用层包括信息可视化展示、快速检索、自动分类、多语言翻译、引用规范化和语音转写等。
多语言自动翻译,如图4所示,本系统支持多语种翻译。
语音转写,如图5所示,本系统支持针对中文、英文的音频转写。采用行业先进的语音识别技术,通用语音识别率高达98%,可对数字、日期、时间等返回格式化文本,根据对话语境,智能断句并匹配标点。音频文件要求时长5小时以内,大小500M以内,采样率16k、位长16bit、单声道的wav/pcm/m4a/mp3音频。
信息快速检索、自动分类和管理,如图6所示,本系统支持通过关键词“与”、“或”、“非”逻辑表达式的常规搜索,常规检索支持关键词一键搜索,搜索结果可按不同知识库类型进行分类展示。
快速检索是在指定的数据库中检索出所有符合条件的记录,并将完整的结果集返回给应用。为了满足上述需求,该系统实现了一种快速检索与估算的机制。
应用层在使用这种机制时,可通过参数指定需要快速返回的最少记录数等要求,然后系统根据这些参数,并按照LIFO的原则首先在最后入库的记录中进行检索。当结果记录数达到最低数量要求后,系统将在适当的时机暂停检索,同时根据所处的检索状态进行结果集的估算,最后将估算结果集返回给应用。应用不但能够从得到的结果集中读取已检索到的记录,而且也能够通过“翻页”的方式触发系统继续前一次所暂停的检索,并进行更“精确”的估算,新检索到的记录始终添加到原结果集的尾部。
在快速检索与估算的机制下也支持检索结果的排序功能,但因为还没有得到整个结果集,所以排序的不是整个结果集,而只是本次检索到的记录。如果“翻页”触发了一次新的检索,则新的排序也只是在新检索到的记录之间进行,以前检索到的记录及其次序均保持不变。也就是说,这种模式下的结果集排序是分段进行的,记录之间是分段有序的。
信息自动分类,如图6所示,是指计算机根据文献内容进行类别划分的功能,本系统设计以下两种分类方式:基于内容的文本自动分类和基于规则的文本分类;
基于内容的文本自动分类:
由于现有分词算法和词典规模的限制,文档有很多具有分类价值的词或短语没有被识别出来,如各学科的专业术语以及人名、地名、组织机构名称等。为了获取更多的分类知识,提高分类的准确率,本系统采用了一种基于统计方法的复合短语和未定义词的识别方法。可以有效地提取文本中的分类知识词或短语。在获取更多的词补充分类知识后,需要确定这些词中哪些是真正的分类知识,哪些是噪音。
解决这个问题的技术是特征提取,根据统计方法计算每个词对于分类的作用大小,选择其中分类作用大的词作为分类知识,把不重要甚至无关的特征词去掉。
其中,分类作用大的词是利用tf-idf方法计算重要性。
特征提取是文本分类中最重要的问题之一,它具有降低文本向量空间维数、简化计算、防止过分拟合等作用。主要算法是构造一个评估函数,对特征集中的每个特征独立计算评估值,然后对所有特征根据评估值大小进行排序,选取预定数目的最佳特征作为结果的特征子集。
特征评估函数有:词和类别的互信息量、信息增益、期望交叉熵、文本证据权、几率比、词频等。其中期望交叉熵(CHI)是效果最好的,当获取分类知识后,需要训练分类器来生成分类模板。分类器的功能是根据分类模板,对文档进行类别的判定。使用同样的分类知识,不同的分类器获取分类模板的能力是不同的。效果比较好的分类器有Bayes分类器、决策树、KNN、SVM等。以往关于分类器的研究往往着眼于如何提高单个分类器的性能。本系统把这些分类器集成到一个系统中,提高系统的整体分类性能。实践证明,这种策略是非常有效的。SVM分类器和KNN分类器都是目前最好的分类器,把两个分类器集成起来构造多分类器引擎,获取了比以上两个单独的分类器更好的分类性能。
基于规则的自动分类:用户根据实际需求可随机增删规则,以满足个性化的需求。
规则的书写满足与(*)、或(+)、非(-)、异或(^)等逻辑运算(布尔表达式)。
例:作者=(李四+王某)-正文=外汇
标题=世界杯*正文=(A城+B国队)
可根据作者、标题、正文等信息直接进行分类。
采用统计算法,对分类文本、规则、类别之间进行精确处理。
内嵌TRS汉语自动分词系统
信息可视化展示、查询和数据导出,本系统支持根据业务需求设计图表文结合的可视化报告,包括走势图、柱状图、饼状图、热点词云、地域热力图和图表类栏目特殊功能等。系统具备针对政策文件的相关资料等综合分析功能,支持按专题、关键词等自动生成综合分析报告。系统支持数据导出功能,导出的结果包含各种字段,并且可以对字段进行选择。
用户权限管理、协同编辑、辅助分类,如图7所示,本系统支持用户部门划分、部门权限划分、用户角色划分等多种权限管理方式,设计入工辅助分类系统,可根据需求对数据进行人工校正、提供对分类结果的人工校正编辑接口,支持且不限于人主编辑、辅助分类、多人同时在线操作等功能。
本发明所述智能文本辅助处理系统,通过网络访问后,提供信息快速检索、文档自动分类和管理、文档自动校对和辅助提醒、文本多语种翻译、录音转写、信息可视化展示与导出、多用户系统管理等。
Claims (7)
1.一种面向政策文件的智能文本辅助处理系统,其特征在于,具体包括:采集层,数据层,处理层和应用层;
1)采集层基于雷达采集软件、python技术以及大数据中心数据推送的方式对政策文件的相关信息进行获取;
2)数据层通过ETL技术将数据载入至数据库;
ETL技术包括抽取、转化和加载;
3)处理层对数据进行清洗加工和智能分析,供应用层使用;
所述处理层能实现文档的自动校对和辅助提醒;并基于语料库和机器学习方法,对自动校正的文档进行错误发现和纠正;步骤如下:
首先,采用基于词嵌入的Bi-LSTM深度学习模型,计算每个字词可能是错词的概率;
然后,基于拼音、字形、编辑距离、字频的方法,计算正确字词和错误字词的相似度;
最后,通过语言模型评估距离的流畅度,从而进行错误发现和纠正;
4)应用层包括信息可视化展示、快速检索、自动分类、多语言翻译、引用规范化和语音转写;
a)快速检索是在指定的数据库中检索出所有符合条件的记录,并将完整的结果集返回给应用;
具体为:首先指定需要快速返回的最少记录数,然后按照LIFO的原则在最后入库的记录中进行检索;当结果记录数达到最低数量要求后暂停检索,同时根据所处的检索状态进行结果集的估算,最后将估算结果集返回给应用层;
应用层从得到的结果集中读取已检索到的记录,通过“翻页”的方式触发前一次暂停的检索,进行更“精确”的估算,新检索到的记录始终添加到原结果集的尾部;
如果“翻页”触发了一次新的检索,则新的排序也只是在新检索到的记录之间进行,以前检索到的记录及其次序均保持不变;
b)自动分类是指计算机根据文献内容进行类别划分,包括以下分类方式:基于内容的文本自动分类和基于规则的文本分类;
基于内容的文本自动分类:
具体地:根据统计方法计算每个词对于分类的重要度,选择重要度大于阈值的词或短语作为分类知识,通过筛选保留重要的特征词,然后构造评估函数提取特征,对每个特征独立计算评估值,然后对所有特征根据评估值大小进行排序,选取预定数目的最佳特征作为结果的特征子集;最后基于特征子集训练两个分类器,利用集成学习的方法将两个分类器的结果作为最终的分类结果;
基于规则的自动分类:用户根据实际需求可随机增删规则,以满足个性化的需求;规则的书写满足与、或、非、异或逻辑运算。
2.如权利要求1所述的一种面向政策文件的智能文本辅助处理系统,其特征在于,所述处理层实现文档的自动校对和辅助提醒;具体为:当业务人员编写的文稿到达处理层后,点击校对按钮,自动较准文稿中的字词错误、常识性差错、情感类错误以及关键词错误,错误将被高亮显示并在右侧展示错误类型及修改建议。
3.如权利要求1所述的一种面向政策文件的智能文本辅助处理系统,其特征在于,所述基于词嵌入的Bi-LSTM深度学习模型,采用双向LSTM,其包括一个正向输入序列,一个反向输入序列,再将两者的输出结合起来作为最终的结果;同时考虑了通过前向过程提取的过去的特征和通过后向过程提取的未来的特征;
LSTM中重复的模块拥有一个不同的结构,有四个神经网络层以及“门”结构让信息选择式通过,去除或者增加信息到细胞状态的能力。
4.如权利要求3所述的一种面向政策文件的智能文本辅助处理系统,其特征在于,所述门结构包含一个sigmoid神经网络层和一个pointwise乘法操作;Sigmoid层输出0到1之间的数值,描述每个部分有多少量能通过。
5.如权利要求1所述的一种面向政策文件的智能文本辅助处理系统,其特征在于,所述基于拼音和字形编辑距离计算相似度,具体为:
两个音节的差异分解为以下三种变化:声母变化、韵母变化和声调变化;
声母、韵母和声调的取值有限,通过枚举法找到与当前音节编辑距离为n的其他音节;
汉字相似度计算具体为:
将汉字表达式切分,对于一个前缀表达式而言,从右至左扫描,从右边第一个字符开始判断,如果当前字符是部件利用栈记下来,如果是结构操作符,则连接右边离得最近的两个部件,以此作为一个新的部件并记录下来;一直扫描到表达式的最左端结构操作符时终止,最后栈中两个串就是切分后的两个子表达式。
6.如权利要求1所述的一种面向政策文件的智能文本辅助处理系统,其特征在于,所述信息自动分类中,评估函数有:词和类别的互信息量、信息增益、期望交叉熵、文本证据权、几率比和词频;
分类器有Bayes分类器、决策树、KNN和SVM。
7.如权利要求1所述的一种面向政策文件的智能文本辅助处理系统,其特征在于,所述智能文本辅助处理系统,通过网络访问后,提供信息快速检索、文档自动分类和管理、文档自动校对和辅助提醒、文本多语种翻译、录音转写、信息可视化展示与导出。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310429759 | 2023-04-20 | ||
CN2023104297590 | 2023-04-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117520570A true CN117520570A (zh) | 2024-02-06 |
Family
ID=89755567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310693072.8A Pending CN117520570A (zh) | 2023-04-20 | 2023-06-12 | 一种面向政策文件的智能文本辅助处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520570A (zh) |
-
2023
- 2023-06-12 CN CN202310693072.8A patent/CN117520570A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019263758B2 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
CN109829159B (zh) | 一种古汉语文本的一体化自动词法分析方法及系统 | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
CN113254574A (zh) | 一种机关公文辅助生成方法、装置以及系统 | |
Mekala et al. | Classifying user requirements from online feedback in small dataset environments using deep learning | |
CN110457690A (zh) | 一种专利创造性的判断方法 | |
Nualart et al. | How we draw texts: a review of approaches to text visualization and exploration | |
CN112541337A (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
Iwatsuki et al. | Using formulaic expressions in writing assistance systems | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 | |
CN117216008A (zh) | 一种基于知识图谱的档案多模态智能编纂方法及系统 | |
Alexa et al. | Commonalities, differences and limitations of text analysis software: the results of a review | |
Fuller et al. | Structuring, recording, and analyzing historical networks in the china biographical database | |
CN117520570A (zh) | 一种面向政策文件的智能文本辅助处理系统 | |
CN112507060A (zh) | 一种领域语料库构建方法及系统 | |
Chaudhari et al. | Comprehensive Survey of Abstractive Text Summarization Techniques | |
Akhter et al. | A Study of Implementation of Deep Learning Techniques for Text Summarization | |
Cherrat et al. | Sentiment Analysis from Texts Written in Standard Arabic and Moroccan Dialect based on Deep Learning Approaches. | |
Shekhar | Text Mining and Sentiment Analysis | |
CN110688453A (zh) | 基于资讯分类的场景应用方法、系统、介质及设备 | |
CN117544831B (zh) | 一种课堂教学环节自动分解的方法及系统 | |
Shamma et al. | Information extraction from arabic law documents | |
Sánchez-Salido et al. | Seeking Information in Spanish Historical Newspapers: The Case of Diario de Madrid (18th and 19th Centuries). | |
Masri | An innovative automatic indexing method for Arabic text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |