CN117077682B - 基于语义识别的公文分析方法及系统 - Google Patents
基于语义识别的公文分析方法及系统 Download PDFInfo
- Publication number
- CN117077682B CN117077682B CN202310507591.0A CN202310507591A CN117077682B CN 117077682 B CN117077682 B CN 117077682B CN 202310507591 A CN202310507591 A CN 202310507591A CN 117077682 B CN117077682 B CN 117077682B
- Authority
- CN
- China
- Prior art keywords
- document
- file
- semantic recognition
- semantic
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 101100439669 Drosophila melanogaster chrb gene Proteins 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims description 3
- 230000006798 recombination Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 11
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 description 5
- 239000000306 component Substances 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于语义识别的公文分析方法及系统。该方法包括:输入公文,文本识别模块处理,语义识别模块处理,文件关系分析模块处理,文件评级模块处理,文件解读生成模块根据前面的处理结果生成文件解读文案,并与该公文进行关联。该系统包括上述各模块。本发明能够智能提炼公文的语义特征,智能分析获得文件关系,智能分析公文的执行要求等级,并将这些要点提供给收到公文的工作人员,有助于提高工作人员的公文处理效率。
Description
技术领域
本发明涉及一种基于语义识别的公文分析方法,以及相应的公文分析系统,属于人工智能识别文件技术领域。
背景技术
日常业务活动中会遇到各种由政府机关或企事业单位下发的红头文件、工作通知文件等公文,以此来传达政令政策,处理公务,协调各种关系,或决定事务,使工作正确高效地进行。然而,在公文处理过程中,经常出现各阶段人员对公文的审核、批示或响应不够及时的问题,经过深入了解发现,出现上述问题的原因主要在于:各人员工作任务繁多,而阅读公文并领会其内涵需要花费不少时间,这样在工作安排上难免顾此失彼,容易出现不及时的问题。亟待研发出能够智能分析公文的技术手段,提高各人员的公文处理效率,从而提高政策、通知的执行效率。
经检索发现,申请号CN202010773625.7、申请公布号CN112000795A的发明专利申请公开了一种公文推荐方法,包括:获取多个公文之间的关联关系;根据所述关联关系和目标用户的特征数据确定所述多个公文中的待推荐公文;将待推荐公文向目标用户推荐。申请号CN202110756360.4、申请公布号CN113486651A的发明专利申请公开了一种公文关系抽取方法,包括:从原始文本文件中查找出现的至少一个公文实体,根据设定的筛选规则,从至少一个公文实体中筛选出需要抽取公文关系的公文实体作为目标公文实体;使用设定的第一字符串,替换原始文本文件中的目标公文实体,得到新文本文件;将新文本文件输入至预训练的序列标注模型,由序列标注模型为新文本文件中的字符打标签,输出标签序列;根据公文关系与实体类型的关联关系,确定标签序列中实体类型对应的公文关系。申请人经实践研发获得了不同于上述现有技术方案的技术成果,并以此申请本发明。
发明内容
本发明的主要目的是:克服现有技术存在的问题,提供一种基于语义识别的公文分析方法,能够智能提炼公文的语义特征,智能分析获得文件关系,智能分析公文的执行要求等级,并将这些要点提供给收到公文的工作人员,有助于提高工作人员的公文处理效率。同时还提出相应的公文分析系统。
本发明解决其技术问题的技术方案如下:
一种基于语义识别的公文分析方法,其特征是,包括以下步骤:
第一步、输入公文,文本识别模块将该公文转化为识别文本,分析获得该公文的基础信息,并将基础信息录入基础信息数据库;所述基础信息至少包括文件类别、文件名、发文字号、发布机构、密级、紧急程度、成文日期之一;
第二步、语义识别模块根据识别文本进行语义识别获得语义特征,将语义特征录入语义识别数据库,并将基础信息数据库中该公文的基础信息与语义识别数据库中该公文的语义特征进行关联;所述语义特征至少包括关键词、重点内容或核心内容、语义内涵、执行措施之一;
第三步、文件关系分析模块根据该公文的语义特征,利用语义识别数据库查找与该公文有关联的历史文件,分析该公文与历史文件之间的关系类型,并生成文件关系图谱;所述关系类型至少包括集合关系、相联关系、离散或交叉关系之一;
第四步、文件评级模块根据该公文的基础信息分析判断该公文的执行要求等级;
第五步、文件解读生成模块针对该公文生成含有基础信息、语义特征、文件关系图谱、执行要求等级的文件解读文案,并与该公文进行关联。
采用该公文分析方法可将公文的主要关键信息予以识别,并实现智能解读,工作人员收到公文后即可根据文件解读文案迅速领会该公文的内涵和重要程度,并能从中查阅相关的历史文件,从而有效提高公文处理效率。如此即可在各公文上传下达的审核、批示及响应过程中,提醒各阶段工作人员及时重点关注和理解,实现辅助决策和通知,便于重点指示,提高执行效率。
优选地,第三步中,所述集合关系至少包括指挥、知照、呈请、法律、计划、总结、记录之一;所述相联关系为相互依赖或相互作用的关系,相联关系至少包括请示与批复、报告与批示、计划与总结、通知与通告之一;所述离散或交叉关系为部分含义相同但总体表达意思存在区别的关系,离散或交叉关系包括公报与公告。如此可使各种关系类型的内涵更加明确。
优选地,第四步中,所述执行要求等级包括5星、4星、3星、2星、1星;其中,5星代表强制执行且要求在短期内完成响应,4星代表强制执行且要求的响应时间宽松,若要求的响应时间小于预设时间值,则判断为5星,否则判断为4星;3星代表建议执行;2星代表指导执行;1星代表供参考。如此可使执行要求等级的内涵更加明确。
优选地,第二步中,所述语义识别模块采用Transformer算法模型;所述Transformer算法模型为encoder-decoder架构;其中,encoder由self-attention层和前馈神经网络构成;decoder由self-attention层、attention层以及前馈神经网络构成,且attention层位于self-attention层和前馈神经网络之间。具体来说,self-attention层能帮助当前节点不仅关注当前的词还同时关注前后的词,从而能获取到上下文的语义;attention层能帮助当前节点获取到当前需要关注的重点内容。
语义识别属于自然语言处理(NLP)范畴,在现有的自然语言处理应用中使用最多的两种深度学习是RNN(递归神经网络)和CNN(卷积神经网络),这两者相同点在于:均为传统神经网络的扩展,前向计算产生结果,反向计算模型更新,且每层神经网络横向可以与多个神经元共存,纵向可以与多层神经网络连接。两者的区别在于:CNN属于空间扩展,一般用于静态输出,RNN属于时间扩展,可用于描述时间上连续状态的输出,但是RNN深度有限。此外,传统的记忆神经网络不可并行运算。针对这些优缺点,本发明的语义识别模块采用Transformer算法模型,且经过实验证实,Transformer算法模型快于上述RNN、CNN以及其他传统记忆神经网络,具有更快的运行速度,执行效率更高。
优选地,第二步中,所述语义识别模块在语义识别过程中,当遇到含有要求的内容以复合词和/或短语的形式出现时,所述语义识别模块按照预设的重叠交错内容抽取方法进行处理;含有要求的内容指含有政策、任务要求、时间的内容;
预设的重叠交错内容抽取方法包括:首先,将含有要求的内容按照预设细致程度的颗粒度进行拆分;其次,通过分析确定拆分所得各部件的组合关系和次序;最后,将各部件重新组合成完整且表述确切的识别结果;
预设的重叠交错内容抽取方法采用嵌套实体识别模型,其建模过程包括:将公文进行拆解,并进行预设细致程度的颗粒度抽取和实体关系抽取;获得关系列表;进行目标或要求的重新组合、目标或要求的标准化、目标或要求的评级及分级;结构化识别结果。
在实际工作中,公文的重点关注内容主要集中在:发布者、接受者、政策、任务要求、时间等方面;其中,作为文件的核心组成部分,政策、任务要求、时间与任务执行评估直接相关,而这些内容往往以复合词、短语的形式出现,复合词和短语往往具有包含、重叠交错现象,包含多种执行路径及具体目标要求的描述。采用上述优选技术方案,可使语义识别模块遇到这些内容时能实现更高的语义特征识别精度。
优选地,第五步中,所述文件解读生成模块对公文进行标注,标注内容包括实体类型和实体关系;
所述实体类型为文件中独立表示某一文件内容具体含义且不能分成更小颗粒度的最小不可分割内容;所述实体类型至少包括份号、密级、保密期限、紧急程度、发文机关、发文字号、签发人之一;
根据实体类型将抽取目标设定为<语素关键词:描述>,进而将实体关系设定为:
<Subject:语素,Predicate:时间,Object:地点>,或,
<Subject:紧急程度,Predicate:任务,Object:关键节点>。
如此可使标注兼顾最终重组实体的便捷性和文件关键内容表述的完整性。此外,自动标注后可再经人工进行校对。具体来说,可参考《党政机关公文格式》(GB/T 9704—2012)中的公文要素制定适用于企业文件关键内容抽取的标准。
优选地,第二步还包括:所述语义识别模块通过机器学习训练提升语义识别精度。如此可使语义识别模块所得语义特征越来越接近人的理解水平。
优选地,所述语义识别模块采用BERT算法模型进行机器学习训练;所述BERT算法模型利用自注意力机制对识别文本进行建模以获得文本序列,计算文本序列中的每个语言单位对于整个序列中所有其它语言单位的关系,以此判定这些语言单位之间的相互关系在多大程度上反映出在当前文本序列中各语言单位之间的关联性、以及各语言单位的重要程度,并利用这些相互关系调整各语言单位的权重,进而获得融合上下文信息的语言表示。如此即可通过自注意力机制和普通的非线性层堆叠对文本序列进行特征信息的编码,以获取更为丰富的语言表示,相比于浅层语言模型,该语言表示涵盖的信息是全局性的。
优选地,所述BERT算法模型由表示层和编码层构成;
所述表示层由字/词向量、分段向量、位置向量拼接而成,所述字/词向量、位置向量分别为随机初始化并由模型不断更新,所述分段向量用于编码层进行的句子顺序预测任务,所述位置向量用于编码层编码句子的线性序列信息;
所述编码层采用由若干相同的模块堆叠而成的Transfornler编码器,每个模块由两个子模块:multi-head的自注意力机制、全连接前馈网络构成,两个子模块均采用残差连接,然后进行层归一化;每个子模块的输出是LayerNrm(x+Sublayer(x)),其中,Sublayer(x)是由子模块本身实现的;
所述Transfornler编码器的核心为自注意力机制,所述自注意力机制将与文本长度相等的向量序列作为输入,并输出经过其注意力计算的向量序列,输出的各个向量序列分别代表当前位置的语言单位与序列中其它语言单位的注意力得分;
所述自注意力机制的具体过程为:
将输入的文本序列CHAR={char1,char2,......,chari,}经权重向量W转换为字/词的嵌入序列A={a1,a2,......,ai};然后经不同权重矩阵的线性变换,得到3个权值矩阵:Q=QqA、K=WkA、V=WvA;chari位于Q、K和v中的对应向量分别是qi、ki和vi;其中,qi用于比较其它语言单位;ki是被其它语言单位比较的对象;vi是作为被抽取的目标;
qi需要与输入的文本序列中的其它所有语言单位的ki进行缩放点积计算,随后将计算出的评分附加在ai对应的值向量vi,从而得出分布;
采用软性注意力策略,即ki=vi;
ai对aj的注意力ai,j的计算表示为:
其中,d为qi和kj的维度数量。
如此可使BERT算法模型的细节特征进一步优化;其中,采用软性注意力策略可便于模型采用反向传播算法进行权重训练。
本发明还提出:
一种基于语义识别的公文分析系统,其特征是,包括:文本识别模块,语义识别模块,文件关系分析模块,文件评级模块,以及文件解读生成模块;所述公文分析系统的使用过程为前文所述的基于语义识别的公文分析方法。
与现有技术相比,本发明能够智能提炼公文的语义特征,智能分析获得文件关系,智能分析公文的执行要求等级,并将这些要点提供给收到公文的工作人员,有助于提高工作人员的公文处理效率。
附图说明
图1为本发明实施例1的一个具体示例的语义识别流程示意图。
图2为本发明实施例1的另一个具体示例的文件关系图谱示意图。
图3为本发明实施例1的又一个具体示例的系统架构示意图。
具体实施方式
下面参照附图并结合实施例对本发明作进一步详细描述。但是本发明不限于所给出的例子。
实施例1
本实施例采用基于语义识别的公文分析系统,包括:文本识别模块,语义识别模块,文件关系分析模块,文件评级模块,以及文件解读生成模块;公文分析系统的使用过程为基于语义识别的公文分析方法。
该公文分析方法包括以下步骤:
第一步、输入公文,文本识别模块将该公文转化为识别文本,分析获得该公文的基础信息,并将基础信息录入基础信息数据库,基础信息至少包括文件类别、文件名、发文字号、发布机构、密级、紧急程度、成文日期之一。
第二步、语义识别模块根据识别文本进行语义识别获得语义特征,将语义特征录入语义识别数据库,并将基础信息数据库中该公文的基础信息与语义识别数据库中该公文的语义特征进行关联;语义特征至少包括关键词、重点内容或核心内容、语义内涵、执行措施之一。
第三步、文件关系分析模块根据该公文的语义特征,利用语义识别数据库查找与该公文有关联的历史文件,分析该公文与历史文件之间的关系类型,并生成文件关系图谱;关系类型至少包括集合关系、相联关系、离散或交叉关系之一。
其中,集合关系至少包括指挥、知照、呈请、法律、计划、总结、记录之一;相联关系为相互依赖或相互作用的关系,相联关系至少包括请示与批复、报告与批示、计划与总结、通知与通告之一;离散或交叉关系为部分含义相同但总体表达意思存在区别的关系,离散或交叉关系包括公报与公告。
第四步、文件评级模块根据该公文的基础信息分析判断该公文的执行要求等级。
其中,执行要求等级包括5星、4星、3星、2星、1星;其中,5星代表强制执行且要求在短期内完成响应,4星代表强制执行且要求的响应时间宽松,若要求的响应时间小于预设时间值,则判断为5星,否则判断为4星;3星代表建议执行;2星代表指导执行;1星代表供参考。
第五步、文件解读生成模块针对该公文生成含有基础信息、语义特征、文件关系图谱、执行要求等级的文件解读文案,并与该公文进行关联。
具体而言,第二步中,语义识别模块采用Transformer算法模型;Transformer算法模型为encoder-decoder架构;其中,encoder由self-attention层和前馈神经网络构成;decoder由self-attention层、attention层以及前馈神经网络构成,且attention层位于self-attention层和前馈神经网络之间。
语义识别模块在语义识别过程中,当遇到含有要求的内容以复合词和/或短语的形式出现时,语义识别模块按照预设的重叠交错内容抽取方法进行处理;含有要求的内容指含有政策、任务要求、时间的内容。预设的重叠交错内容抽取方法包括:首先,将含有要求的内容按照预设细致程度的颗粒度进行拆分;其次,通过分析确定拆分所得各部件的组合关系和次序;最后,将各部件重新组合成完整且表述确切的识别结果。预设的重叠交错内容抽取方法采用嵌套实体识别模型,其建模过程包括:将公文进行拆解,并进行预设细致程度的颗粒度抽取和实体关系抽取;获得关系列表;进行目标或要求的重新组合、目标或要求的标准化、目标或要求的评级及分级;结构化识别结果。
第五步中,文件解读生成模块对公文进行标注,标注内容包括实体类型和实体关系;实体类型为文件中独立表示某一文件内容具体含义且不能分成更小颗粒度的最小不可分割内容;实体类型至少包括份号、密级、保密期限、紧急程度、发文机关、发文字号、签发人之一;根据实体类型将抽取目标设定为<语素关键词:描述>(如,<会议:xx年xx月xx日xx时>、<检查:时间+地点>等等),进而将实体关系设定为:<Subject:语素,Predicate:时间,Object:地点>,或,<Subject:紧急程度,Predicate:任务,Object:关键节点>。
此外,第二步还包括:语义识别模块通过机器学习训练提升语义识别精度。
语义识别模块采用BERT算法模型进行机器学习训练;BERT算法模型利用自注意力机制对识别文本进行建模以获得文本序列,计算文本序列中的每个语言单位对于整个序列中所有其它语言单位的关系,以此判定这些语言单位之间的相互关系在多大程度上反映出在当前文本序列中各语言单位之间的关联性、以及各语言单位的重要程度,并利用这些相互关系调整各语言单位的权重,进而获得融合上下文信息的语言表示。
BERT算法模型由表示层和编码层构成。
表示层由字/词向量、分段向量、位置向量拼接而成,字/词向量、位置向量分别为随机初始化并由模型不断更新,分段向量用于编码层进行的句子顺序预测任务,位置向量用于编码层编码句子的线性序列信息。
编码层采用由若干相同的模块堆叠而成的Transfornler编码器,每个模块由两个子模块:multi-head的自注意力机制、全连接前馈网络构成,两个子模块均采用残差连接,然后进行层归一化;每个子模块的输出是LayerNrm(x+Sublayer(x)),其中,Sublayer(x)是由子模块本身实现的。
Transfornler编码器的核心为自注意力机制,自注意力机制将与文本长度相等的向量序列作为输入,并输出经过其注意力计算的向量序列,输出的各个向量序列分别代表当前位置的语言单位与序列中其它语言单位的注意力得分。
自注意力机制的具体过程为:
将输入的文本序列CHAR={char1,char2,......,chari,}经权重向量W转换为字/词的嵌入序列A={a1,a2,......,ai};然后经不同权重矩阵的线性变换,得到3个权值矩阵:Q=WqA、K=WkA、V=WvA;chari位于Q、K和v中的对应向量分别是qi、ki和vi;其中,qi用于比较其它语言单位;ki是被其它语言单位比较的对象;vi是作为被抽取的目标。
qi需要与输入的文本序列中的其它所有语言单位的ki进行缩放点积计算,随后将计算出的评分附加在ai对应的值向量vi,从而得出分布。
采用软性注意力策略,即ki=vi。
ai对aj的注意力ai,j的计算表示为:
其中,d为qi和kj的维度数量。
本实施例在实施时的一个具体示例中,语义识别流程如图1所示。
本实施例在实施时的另一个具体示例中,文件关系图谱如图2所示。
本实施例在实施时的又一个具体示例中,系统架构如图3所示,该系统还包括基础信息及语义查询模块(用于查询公文的基础信息和语义特征),统计分析表单模块(用于根据需求生成统计分析表单)。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
Claims (7)
1.一种基于语义识别的公文分析方法,其特征是,包括以下步骤:
第一步、输入公文,文本识别模块将该公文转化为识别文本,分析获得该公文的基础信息,并将基础信息录入基础信息数据库;所述基础信息至少包括文件类别、文件名、发文字号、发布机构、密级、紧急程度、成文日期之一;
第二步、语义识别模块根据识别文本进行语义识别获得语义特征,将语义特征录入语义识别数据库,并将基础信息数据库中该公文的基础信息与语义识别数据库中该公文的语义特征进行关联;所述语义特征至少包括关键词、重点内容或核心内容、语义内涵、执行措施之一;
第二步中,所述语义识别模块在语义识别过程中,当遇到含有要求的内容以复合词和/或短语的形式出现时,所述语义识别模块按照预设的重叠交错内容抽取方法进行处理;含有要求的内容指含有政策、任务要求、时间的内容;
预设的重叠交错内容抽取方法包括:首先,将含有要求的内容按照预设细致程度的颗粒度进行拆分;其次,通过分析确定拆分所得各部件的组合关系和次序;最后,将各部件重新组合成完整且表述确切的识别结果;
预设的重叠交错内容抽取方法采用嵌套实体识别模型,其建模过程包括:将公文进行拆解,并进行预设细致程度的颗粒度抽取和实体关系抽取;获得关系列表;进行目标或要求的重新组合、目标或要求的标准化、目标或要求的评级及分级;结构化识别结果;
第三步、文件关系分析模块根据该公文的语义特征,利用语义识别数据库查找与该公文有关联的历史文件,分析该公文与历史文件之间的关系类型,并生成文件关系图谱;所述关系类型至少包括集合关系、相联关系、离散或交叉关系之一;
第三步中,所述集合关系至少包括指挥、知照、呈请、法律、计划、总结、记录之一;所述相联关系为相互依赖或相互作用的关系,相联关系至少包括请示与批复、报告与批示、计划与总结、通知与通告之一;所述离散或交叉关系为部分含义相同但总体表达意思存在区别的关系,离散或交叉关系包括公报与公告;
第四步、文件评级模块根据该公文的基础信息分析判断该公文的执行要求等级;
第五步、文件解读生成模块针对该公文生成含有基础信息、语义特征、文件关系图谱、执行要求等级的文件解读文案,并与该公文进行关联;
第五步中,所述文件解读生成模块对公文进行标注,标注内容包括实体类型和实体关系;
所述实体类型为文件中独立表示某一文件内容具体含义且不能分成更小颗粒度的最小不可分割内容;所述实体类型至少包括份号、密级、保密期限、紧急程度、发文机关、发文字号、签发人之一;
根据实体类型将抽取目标设定为<语素关键词:描述>,进而将实体关系设定为:
<Subject:语素,Predicate:时间,Object:地点>,或,
<Subject:紧急程度,Predicate:任务,Object:关键节点>。
2.根据权利要求1所述的基于语义识别的公文分析方法,其特征是,第四步中,所述执行要求等级包括5星、4星、3星、2星、1星;其中,5星代表强制执行且要求在短期内完成响应,4星代表强制执行且要求的响应时间宽松,若要求的响应时间小于预设时间值,则判断为5星,否则判断为4星;3星代表建议执行;2星代表指导执行;1星代表供参考。
3.根据权利要求1所述的基于语义识别的公文分析方法,其特征是,第二步中,所述语义识别模块采用Transformer算法模型;所述Transformer算法模型为encoder-decoder架构;其中,encoder由self-attention层和前馈神经网络构成;decoder由self-attention层、attention层以及前馈神经网络构成,且attention层位于self-attention层和前馈神经网络之间。
4.根据权利要求1所述的基于语义识别的公文分析方法,其特征是,第二步还包括:所述语义识别模块通过机器学习训练提升语义识别精度。
5.根据权利要求4所述的基于语义识别的公文分析方法,其特征是,所述语义识别模块采用BERT算法模型进行机器学习训练;所述BERT算法模型利用自注意力机制对识别文本进行建模以获得文本序列,计算文本序列中的每个语言单位对于整个序列中所有其它语言单位的关系,以此判定这些语言单位之间的相互关系在多大程度上反映出在当前文本序列中各语言单位之间的关联性、以及各语言单位的重要程度,并利用这些相互关系调整各语言单位的权重,进而获得融合上下文信息的语言表示。
6.根据权利要求5所述的基于语义识别的公文分析方法,其特征是,所述BERT算法模型由表示层和编码层构成;
所述表示层由字/词向量、分段向量、位置向量拼接而成,所述字/词向量、位置向量分别为随机初始化并由模型不断更新,所述分段向量用于编码层进行的句子顺序预测任务,所述位置向量用于编码层编码句子的线性序列信息;
所述编码层采用由若干相同的模块堆叠而成的Transfornler编码器,每个模块由两个子模块:multi-head的自注意力机制、全连接前馈网络构成,两个子模块均采用残差连接,然后进行层归一化;每个子模块的输出是LayerNrm(x+Sublayer(x)),其中,Sublayer(x)是由子模块本身实现的;
所述Transfornler编码器的核心为自注意力机制,所述自注意力机制将与文本长度相等的向量序列作为输入,并输出经过其注意力计算的向量序列,输出的各个向量序列分别代表当前位置的语言单位与序列中其它语言单位的注意力得分;
所述自注意力机制的具体过程为:
将输入的文本序列CHAR={char1,char2,......,chari,}经权重向量W转换为字/词的嵌入序列A={a1,a2,......,ai};然后经不同权重矩阵的线性变换,得到3个权值矩阵:Q=WqA、K=WkA、V=WvA;chari位于Q、K和v中的对应向量分别是qi、ki和vi;其中,qi用于比较其它语言单位;ki是被其它语言单位比较的对象;vi是作为被抽取的目标;
qi需要与输入的文本序列中的其它所有语言单位的ki进行缩放点积计算,随后将计算出的评分附加在ai对应的值向量vi,从而得出分布;
采用软性注意力策略,即ki=vi;
ai对aj的注意力ai,j的计算表示为:
其中,d为qi和kj的维度数量。
7.一种基于语义识别的公文分析系统,其特征是,包括:文本识别模块,语义识别模块,文件关系分析模块,文件评级模块,以及文件解读生成模块;所述公文分析系统的使用过程为权利要求1至6任一项所述的基于语义识别的公文分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310507591.0A CN117077682B (zh) | 2023-05-06 | 2023-05-06 | 基于语义识别的公文分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310507591.0A CN117077682B (zh) | 2023-05-06 | 2023-05-06 | 基于语义识别的公文分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117077682A CN117077682A (zh) | 2023-11-17 |
CN117077682B true CN117077682B (zh) | 2024-06-07 |
Family
ID=88704935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310507591.0A Active CN117077682B (zh) | 2023-05-06 | 2023-05-06 | 基于语义识别的公文分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117077682B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117592436A (zh) * | 2023-11-23 | 2024-02-23 | 知学云(北京)科技股份有限公司 | 一种基于人工智能技术的自动化公文生成系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN108806005A (zh) * | 2018-06-05 | 2018-11-13 | 西安公路研究院南京院 | 高速公路收费站标准化平台及构建方法 |
CN111444719A (zh) * | 2020-03-17 | 2020-07-24 | 车智互联(北京)科技有限公司 | 一种实体识别方法、装置和计算设备 |
CN112395887A (zh) * | 2020-11-05 | 2021-02-23 | 北京文思海辉金信软件有限公司 | 对话应答方法、装置、计算机设备和存储介质 |
CN113793014A (zh) * | 2021-09-07 | 2021-12-14 | 浙江中新电力工程建设有限公司 | 基于碳达峰的能耗监测与评价分析系统及方法 |
CN113987169A (zh) * | 2021-10-14 | 2022-01-28 | 润联软件系统(深圳)有限公司 | 基于语义块的文本摘要生成方法、装置、设备及存储介质 |
CN114492441A (zh) * | 2022-01-18 | 2022-05-13 | 北京工业大学 | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 |
CN114841122A (zh) * | 2022-01-25 | 2022-08-02 | 电子科技大学 | 一种联合实体识别与关系抽取的文本抽取方法、存储介质及终端 |
CN115292490A (zh) * | 2022-08-02 | 2022-11-04 | 福建省科立方科技有限公司 | 一种用于政策解读语义的分析算法 |
CN115310425A (zh) * | 2022-10-08 | 2022-11-08 | 浙江浙里信征信有限公司 | 基于政策文本分类和关键信息识别的政策文本分析方法 |
CN115392239A (zh) * | 2022-07-20 | 2022-11-25 | 平安国际融资租赁有限公司 | 一种知识抽取方法及应用其的智能客户系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2665261C1 (ru) * | 2017-08-25 | 2018-08-28 | Общество с ограниченной ответственностью "Аби Продакшн" | Восстановление текстовых аннотаций, связанных с информационными объектами |
WO2021178731A1 (en) * | 2020-03-04 | 2021-09-10 | Karl Denninghoff | Neurological movement detection to rapidly draw user attention to search results |
-
2023
- 2023-05-06 CN CN202310507591.0A patent/CN117077682B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN108806005A (zh) * | 2018-06-05 | 2018-11-13 | 西安公路研究院南京院 | 高速公路收费站标准化平台及构建方法 |
CN111444719A (zh) * | 2020-03-17 | 2020-07-24 | 车智互联(北京)科技有限公司 | 一种实体识别方法、装置和计算设备 |
CN112395887A (zh) * | 2020-11-05 | 2021-02-23 | 北京文思海辉金信软件有限公司 | 对话应答方法、装置、计算机设备和存储介质 |
CN113793014A (zh) * | 2021-09-07 | 2021-12-14 | 浙江中新电力工程建设有限公司 | 基于碳达峰的能耗监测与评价分析系统及方法 |
CN113987169A (zh) * | 2021-10-14 | 2022-01-28 | 润联软件系统(深圳)有限公司 | 基于语义块的文本摘要生成方法、装置、设备及存储介质 |
CN114492441A (zh) * | 2022-01-18 | 2022-05-13 | 北京工业大学 | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 |
CN114841122A (zh) * | 2022-01-25 | 2022-08-02 | 电子科技大学 | 一种联合实体识别与关系抽取的文本抽取方法、存储介质及终端 |
CN115392239A (zh) * | 2022-07-20 | 2022-11-25 | 平安国际融资租赁有限公司 | 一种知识抽取方法及应用其的智能客户系统 |
CN115292490A (zh) * | 2022-08-02 | 2022-11-04 | 福建省科立方科技有限公司 | 一种用于政策解读语义的分析算法 |
CN115310425A (zh) * | 2022-10-08 | 2022-11-08 | 浙江浙里信征信有限公司 | 基于政策文本分类和关键信息识别的政策文本分析方法 |
Non-Patent Citations (6)
Title |
---|
Morpheme Embedding for Bahasa Indonesia Using Modified Byte Pair Encoding;Amalia Amalia等;IEEE;第9卷;第155699页-155710页 * |
基于Transformer和BERT的名词隐喻识别;张冬瑜;崔紫娟;李映夏;张伟;林鸿飞;;数据分析与知识发现(第04期);第100页-108页 * |
基于Web挖掘与社会网络分析的用户聚类研究;张敏;数字图书馆论坛(第3期);第49页-54页 * |
基于全要素网络构建的大规模政策知识关联聚合研究;张维冲等;情报学报;第42卷(第3期);第289页-303页 * |
基于吉林省高等教育重大史实和人物的知识图谱构建;产业与科技论坛;第22卷(第9期);第69页-71页 * |
语义驱动的地理实体关联网络构建与知识服务;凌朝阳等;测绘学报;第52卷(第3期);第478页-489页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117077682A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968699B (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN110222188B (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
US20130006986A1 (en) | Automatic Classification of Electronic Content Into Projects | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
Shilpa et al. | Sentiment analysis using deep learning | |
CN110502638B (zh) | 一种基于目标实体的企业新闻风险分类方法 | |
US20220300546A1 (en) | Event extraction method, device and storage medium | |
CN113220768A (zh) | 基于深度学习的简历信息结构化方法及系统 | |
CN117077682B (zh) | 基于语义识别的公文分析方法及系统 | |
CN117453717B (zh) | 一种数据查询语句生成方法、装置、设备及存储介质 | |
CN116777607B (zh) | 一种基于nlp技术的智能审计方法 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN110610003B (zh) | 用于辅助文本标注的方法和系统 | |
CN112036189A (zh) | 一种金文语义识别方法和系统 | |
Skondras et al. | Efficient Resume Classification through Rapid Dataset Creation Using ChatGPT | |
CN114491209A (zh) | 基于互联网信息抓取的企业业务标签挖掘的方法和系统 | |
US11880394B2 (en) | System and method for machine learning architecture for interdependence detection | |
Fischbach et al. | Automatic eSG assessment of companies by mining and evaluating media coverage data: NLP approach and tool | |
Kanhaiya et al. | AI Enabled-Information Retrival Engine (AI-IRE) in Legal Services: An Expert-Annotated NLP for Legal Judgements | |
CN115482075A (zh) | 财务数据的异常分析方法、装置、电子设备及存储介质 | |
CN113779256A (zh) | 一种文件审核方法及系统 | |
CN115759078A (zh) | 文本信息的处理方法、系统、设备及存储介质 | |
Gao et al. | Few-shot fake news detection via prompt-based tuning | |
CN110688453B (zh) | 基于资讯分类的场景应用方法、系统、介质及设备 | |
CN114357175A (zh) | 一种基于语义网络的数据挖掘系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |