CN114860882A - 一种基于文本分类模型的公平竞争审查辅助方法 - Google Patents

一种基于文本分类模型的公平竞争审查辅助方法 Download PDF

Info

Publication number
CN114860882A
CN114860882A CN202210550470.XA CN202210550470A CN114860882A CN 114860882 A CN114860882 A CN 114860882A CN 202210550470 A CN202210550470 A CN 202210550470A CN 114860882 A CN114860882 A CN 114860882A
Authority
CN
China
Prior art keywords
policy
text
texts
examination
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210550470.XA
Other languages
English (en)
Inventor
高永伟
汪洵
薛驭
罗昌志
周荣华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Wupu Big Data Co ltd
Original Assignee
Nanjing Wupu Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Wupu Big Data Co ltd filed Critical Nanjing Wupu Big Data Co ltd
Priority to CN202210550470.XA priority Critical patent/CN114860882A/zh
Publication of CN114860882A publication Critical patent/CN114860882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于文本分类模型的公平竞争审查辅助方法,包括构建政府政策文本信息库,获取政府发布的政策文本,进行子类划分,采集不同的政策文本,构建预训练语言模型,通过专家对采集的政策文本进行标注数据,识别政策文本内专家标注的数据,对审查样本库内部的政策文本进行模型训练分析,根据训练分析结果对政策文本进行初筛和复核,统计不同政策文本的公平审查结果,对构建的模型进行信息迭代,旨在解决原有的相似度模型准确率不高,缺少语义理解的问题,根据政府的政策文书搭建模型实时训练数据,通过对文本的自主学习,得到文本的语义特征,利用该模型对待审查的政府政策文件进行分类审查,辅助专家进行判断,减少审查的人力成本。

Description

一种基于文本分类模型的公平竞争审查辅助方法
技术领域
本发明涉及自然语言处理领域,具体是一种基于文本分类模型的公平竞争审查辅助方法。
背景技术
公平竞争审查制度,是指约束政府的行为,以确保今后政府出台的各种产业、投资政策,都要以不破坏统一市场和公平竞争为前提。公平竞争审查制度是针对国家和政府的行政法规、政策措施以及地方性法规和政策,在这些制度性文件出台的时候要提前审核其内容,确保其符合竞争政策,避免对市场竞争的不利影响。
公平竞争审查制度的审查对象为,行政机关和法律、法规授权的具有管理公共事务职能的组织,这些组织在制定市场准入、产业发展、招商引资、招标投标、政府采购、经营行为规范、资质标准等涉及市场主体经济活动的规章、规范性文件和其他政策措施,应当进行公平竞争审查。
现有的审查方案如果利用法务人员对政府出台的政策文本进行逐一审查是非常费时且费力的工作,并且人工审查容易出现遗漏的情况,且现有的审查制度基于相似性模型来进行判断,但目前,利用相似度模型判断方法存在一定的缺陷,利用相似度模型判断方法缺少了对于文本语义上的理解,只是对词语上进行相似比较,相似度模型准确率不高,它只是与审查标准的文本进行比较,但是许多政府政策的文本表述与审查标准相去甚远,难以做出合理的判断。
本申请旨在构建公平竞争审查辅助技术方法,解决原有的相似度模型准确率不高,缺少语义理解的问题,根据政府的政策文书搭建模型实时训练数据,通过对文本的自主学习,得到文本的语义特征,利用该模型对待审查的政府政策文件进行分类审查,辅助专家进行判断,减少审查的人力成本。
发明内容
本发明的目的在于提供一种基于文本分类模型的公平竞争审查辅助方法,以解决现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于文本分类模型的公平竞争审查辅助方法:
S1:构建政府政策文本信息库,获取政府发布的政策文本,对不同的政策文本进行关键词标记,按照不同的关键词进行分类,对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分;
S2:采集不同的政策文本,筛查不同政策文本是否存在专家标注数据,对不同的政策文本按照有专家标注数据和无专家标注数据进行分类,提取无专家标注数据的政策文本,进行预训练,构建预训练语言模型,预训练模型结构采用BERT模型结构;
S3:通过专家对采集的政策文本进行标注数据,识别政策文本内专家标注的数据,对标注内容按照违反审查标准和不违反审查标准对提取出的政策文本进行分类,将分类后的政策文本按照类别录入审查样本库,对审查样本库内部的政策文本进行模型训练分析;
S4:根据训练分析结果对政策文本进行初筛和复核,统计不同政策文本的公平审查结果,对构建的模型进行信息迭代。
进一步设置:步骤S1中,对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分,还包括以下步骤:
S1-1:对分类后的政策文本的发布时间按照年份进行统计划分子类,对每一年份的政策文本按照发布优先级进行二次归类;
S1-2:筛查不同年份重复的政策文本数据,判断该重复的政策文本数据是否存在新增记录,当重复政策文本数据存在新增记录,对年份在前的政策文本数据标记为历史记录数据;
S1-3:审查政策文本数据的有效性,获取不同政策文本的发布时间,对发布时间大于设定阈值的政策文本进行重点标记审查,统计政府政策文本信息库内部不同政策文本的浏览数据,分析不同政策文本的浏览数据的平均值,设定不同政策文本的浏览数据的平均值为R(f),设定某一政策文本浏览数据为R(0),当
Figure BDA0003650468240000031
对该政策文本进行重点标记审查。
进一步设置:步骤S2中,提取无专家标注数据的政策文本,进行预训练,构建预训练语言模型,预训练模型结构采用BERT模型结构,还包括以下步骤:
S2-1:采集任意政策文本,对采集的政策文本内部任意字符进行遮蔽,将已遮蔽字符的政策文本输入预训练语言模型,预训练语言模型利用政策文本上下文对已遮蔽字符进行预测;
S2-2:统计预训练语言模型的预测准确率,将预测准确率与设定阈值进行比对,当准确率低于设定阈值,对预训练语言模型调整策略参数,继续训练,当准确率高于或等于设定阈值,停止训练;
S2-3:对预训练语言模型无法预测已遮蔽字符的政策文本进行循环重复训练,直至达到预测准确。
进一步设置:步骤S3中,将分类后的政策文本按照类别录入审查样本库,对审查样本库内部的政策文本进行模型训练分析,还包括以下步骤:
S3-1:设定审查样本库内部有N个审查标准,添加不违反所有审查标准选项,设定审查样本库包括N+1个审查类别,设定预训练语言模型内部输入的某一政策文本为x,该文本长度为L,设定其所述类别为y,将输入参数转为one-hot向量化表示,设定模型输出维度为N+1,类别y对应所在维度值为1,预训练BERT模型对该政策文本每个字进行映射,将文本的每个字映射到一个512维的高维向量空间,该政策文本通过BERT模型处理转变为L×512的hidden向量;
S3-2:对政策文本不同字的向量求平均值,将该政策文本表示为一个512维的text向量,利用一个全连接层+softmax,将text向量映射为概率向量prop,设定全连接层+softmax包含一个权重矩阵w,其维度设定为R512×(N+1),其中,prop向量维度设定为N+1维度,prop向量的每个维度的值表示该政策文本属于这个维度所代表的审查类别的概率;
S3-3:利用交叉熵损失函数计算得到预训练语言模型预测结果概率和真实结果的损失值,设定预测结果概率和真实结果的损失值为loss,利用反向传播去调整预训练语言模型参数,根据公式:
x=(x1,x2...xL),y=(0....1....0)
hidden=Bert(x),hidden∈RL×512
text=average(hidden),text∈R1×512
prop=softmax(w·text),w∈R512×(N+1),prop∈R1×(N+1)
Figure BDA0003650468240000051
根据上述公式对输入的政策文本进行模型训练,直到损失值不再下降,搭建政策文本审查类别分类模型。
进一步设置:步骤S3-3中,根据政策文本审查类别分类模型对待审查的政策文本进行分类筛查,政策文本审查类别分类模型输出每一政府文本所属的审查标准类别的概率,对该政府文本所属的不同审查标准类别的概率进行统计,按照每一审查标准类别的概率大小进行降序排序,提取概率最大的审查标准类别作为该政府文本所属的审查类别,同时筛查政府文本是否违反审查标准,对违反审查标准的政府文本进行突出标记。
进一步设置:步骤S4中,根据训练分析结果对政策文本进行初筛和复核,统计不同政策文本的公平审查结果,对构建的模型进行信息迭代,还包括以下步骤:
S4-1:获取不同政府文本所属的审查类别,剔除违反审查标准的政府文本,形成初步筛查统计列表,将列表发送至人工审核通道,专家对初步筛查统计列表内部的初筛结果进行复核;
S4-2:统计不同政府文本的复核结果,形成最终筛查统计列表,将最终筛查统计列表作为政府文本公平审查结果上传至政府政策文本信息库;
S4-3:将最终筛查统计列表同时录入审查样本库,定期任意调用审查样本库内部标注的政府文本输入预训练语言和政策文本审查类别分类模型进行重新预训练和审查训练,进行模型信息迭代训练。
与现有技术相比,本发明的有益效果是:本发明旨在构建公平竞争审查辅助技术方法,解决原有的相似度模型准确率不高,缺少语义理解的问题,根据政府的政策文书搭建模型实时训练数据,通过对文本的自主学习,得到文本的语义特征,利用该模型对待审查的政府政策文件进行分类审查,辅助专家进行判断,减少审查的人力成本。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
图1为本发明一种基于文本分类模型的公平竞争审查辅助方法的步骤示意图;
图2为本发明一种基于文本分类模型的公平竞争审查辅助方法中S1具体步骤示意图;
图3为本发明一种基于文本分类模型的公平竞争审查辅助方法的S2具体步骤示意图;
图4为本发明一种基于文本分类模型的公平竞争审查辅助方法的S3具体步骤示意图;
图5为本发明一种基于文本分类模型的公平竞争审查辅助方法的S4具体步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~5,本发明实施例中,一种基于文本分类模型的公平竞争审查辅助方法:
S1:构建政府政策文本信息库,获取政府发布的政策文本,对不同的政策文本进行关键词标记,按照不同的关键词进行分类,对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分;
具体参照图2,上述步骤中,对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分,还包括以下步骤:
S1-1:对分类后的政策文本的发布时间按照年份进行统计划分子类,对每一年份的政策文本按照发布优先级进行二次归类;
S1-2:筛查不同年份重复的政策文本数据,判断该重复的政策文本数据是否存在新增记录,当重复政策文本数据存在新增记录,对年份在前的政策文本数据标记为历史记录数据;
S1-3:审查政策文本数据的有效性,获取不同政策文本的发布时间,对发布时间大于设定阈值的政策文本进行重点标记审查,统计政府政策文本信息库内部不同政策文本的浏览数据,分析不同政策文本的浏览数据的平均值,设定不同政策文本的浏览数据的平均值为R(f),设定某一政策文本浏览数据为R(0),当
Figure BDA0003650468240000081
对该政策文本进行重点标记审查。
S2:采集不同的政策文本,筛查不同政策文本是否存在专家标注数据,对不同的政策文本按照有专家标注数据和无专家标注数据进行分类,提取无专家标注数据的政策文本,进行预训练,构建预训练语言模型,预训练模型结构采用BERT模型结构;
具体参照图3,上述步骤中,提取无专家标注数据的政策文本,进行预训练,构建预训练语言模型,预训练模型结构采用BERT模型结构,还包括以下步骤:
S2-1:采集任意政策文本,对采集的政策文本内部任意字符进行遮蔽,将已遮蔽字符的政策文本输入预训练语言模型,预训练语言模型利用政策文本上下文对已遮蔽字符进行预测;
S2-2:统计预训练语言模型的预测准确率,将预测准确率与设定阈值进行比对,当准确率低于设定阈值,对预训练语言模型调整策略参数,继续训练,当准确率高于或等于设定阈值,停止训练;
S2-3:对预训练语言模型无法预测已遮蔽字符的政策文本进行循环重复训练,直至达到预测准确。
S3:通过专家对采集的政策文本进行标注数据,识别政策文本内专家标注的数据,对标注内容按照违反审查标准和不违反审查标准对提取出的政策文本进行分类,将分类后的政策文本按照类别录入审查样本库,对审查样本库内部的政策文本进行模型训练分析;
具体参照图4,上述步骤中,将分类后的政策文本按照类别录入审查样本库,对审查样本库内部的政策文本进行模型训练分析,还包括以下步骤:
S3-1:设定审查样本库内部有N个审查标准,添加不违反所有审查标准选项,设定审查样本库包括N+1个审查类别,设定预训练语言模型内部输入的某一政策文本为x,该文本长度为L,设定其所述类别为y,将输入参数转为one-hot向量化表示,设定模型输出维度为N+1,类别y对应所在维度值为1,预训练BERT模型对该政策文本每个字进行映射,将文本的每个字映射到一个512维的高维向量空间,该政策文本通过BERT模型处理转变为L×512的hidden向量;
S3-2:对政策文本不同字的向量求平均值,将该政策文本表示为一个512维的text向量,利用一个全连接层+softmax,将text向量映射为概率向量prop,设定全连接层+softmax包含一个权重矩阵w,其维度设定为R512×(N+1),其中,prop向量维度设定为N+1维度,prop向量的每个维度的值表示该政策文本属于这个维度所代表的审查类别的概率;
S3-3:利用交叉熵损失函数计算得到预训练语言模型预测结果概率和真实结果的损失值,设定预测结果概率和真实结果的损失值为loss,利用反向传播去调整预训练语言模型参数,根据公式:
x=(x1,x2...xL),y=(0....1....0)
hidden=Bert(x),hidden∈RL×512
text=average(hidden),text∈R1×512
prop=softmax(w·text),w∈R512×(N+1),prop∈R1×(N+1)
Figure BDA0003650468240000111
根据上述公式对输入的政策文本进行模型训练,直到损失值不再下降,搭建政策文本审查类别分类模型。
需要具体说明的是,步骤S3-3中,根据政策文本审查类别分类模型对待审查的政策文本进行分类筛查,政策文本审查类别分类模型输出每一政府文本所属的审查标准类别的概率,对该政府文本所属的不同审查标准类别的概率进行统计,按照每一审查标准类别的概率大小进行降序排序,提取概率最大的审查标准类别作为该政府文本所属的审查类别,同时筛查政府文本是否违反审查标准,对违反审查标准的政府文本进行突出标记。
S4:根据训练分析结果对政策文本进行初筛和复核,统计不同政策文本的公平审查结果,对构建的模型进行信息迭代。
具体参照图5,上述步骤还包括以下步骤:
S4-1:获取不同政府文本所属的审查类别,剔除违反审查标准的政府文本,形成初步筛查统计列表,将列表发送至人工审核通道,专家对初步筛查统计列表内部的初筛结果进行复核;
S4-2:统计不同政府文本的复核结果,形成最终筛查统计列表,将最终筛查统计列表作为政府文本公平审查结果上传至政府政策文本信息库;
S4-3:将最终筛查统计列表同时录入审查样本库,定期任意调用审查样本库内部标注的政府文本输入预训练语言和政策文本审查类别分类模型进行重新预训练和审查训练,进行模型信息迭代训练。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (6)

1.一种基于文本分类模型的公平竞争审查辅助方法,其特征在于:
S1:构建政府政策文本信息库,获取政府发布的政策文本,对不同的政策文本进行关键词标记,按照不同的关键词进行分类,对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分;
S2:采集不同的政策文本,筛查不同政策文本是否存在专家标注数据,对不同的政策文本按照有专家标注数据和无专家标注数据进行分类,提取无专家标注数据的政策文本,进行预训练,构建预训练语言模型,预训练模型结构采用BERT模型结构;
S3:通过专家对采集的政策文本进行标注数据,识别政策文本内专家标注的数据,对标注内容按照违反审查标准和不违反审查标准对提取出的政策文本进行分类,将分类后的政策文本按照类别录入审查样本库,对审查样本库内部的政策文本进行模型训练分析;
S4:根据训练分析结果对政策文本进行初筛和复核,统计不同政策文本的公平审查结果,对构建的模型进行信息迭代。
2.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法,其特征在于:所述步骤S1中,对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分,还包括以下步骤:
S1-1:对分类后的政策文本的发布时间按照年份进行统计划分子类,对每一年份的政策文本按照发布优先级进行二次归类;
S1-2:筛查不同年份重复的政策文本数据,判断该重复的政策文本数据是否存在新增记录,当重复政策文本数据存在新增记录,对年份在前的政策文本数据标记为历史记录数据;
S1-3:审查政策文本数据的有效性,获取不同政策文本的发布时间,对发布时间大于设定阈值的政策文本进行重点标记审查,统计政府政策文本信息库内部不同政策文本的浏览数据,分析不同政策文本的浏览数据的平均值,设定不同政策文本的浏览数据的平均值为R(f),设定某一政策文本浏览数据为R(0),当
Figure FDA0003650468230000021
对该政策文本进行重点标记审查。
3.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法,其特征在于:所述步骤S2中,提取无专家标注数据的政策文本,进行预训练,构建预训练语言模型,预训练模型结构采用BERT模型结构,还包括以下步骤:
S2-1:采集任意政策文本,对采集的政策文本内部任意字符进行遮蔽,将已遮蔽字符的政策文本输入预训练语言模型,预训练语言模型利用政策文本上下文对已遮蔽字符进行预测;
S2-2:统计预训练语言模型的预测准确率,将预测准确率与设定阈值进行比对,当准确率低于设定阈值,对预训练语言模型调整策略参数,继续训练,当准确率高于或等于设定阈值,停止训练;
S2-3:对预训练语言模型无法预测已遮蔽字符的政策文本进行循环重复训练,直至达到预测准确。
4.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法,其特征在于:所述步骤S3中,将分类后的政策文本按照类别录入审查样本库,对审查样本库内部的政策文本进行模型训练分析,还包括以下步骤:
S3-1:设定审查样本库内部有N个审查标准,添加不违反所有审查标准选项,设定审查样本库包括N+1个审查类别,设定预训练语言模型内部输入的某一政策文本为x,该文本长度为L,设定其所述类别为y,将输入参数转为one-hot向量化表示,设定模型输出维度为N+1,类别y对应所在维度值为1,预训练BERT模型对该政策文本每个字进行映射,将文本的每个字映射到一个512维的高维向量空间,该政策文本通过BERT模型处理转变为L×512的hidden向量;
S3-2:对政策文本不同字的向量求平均值,将该政策文本表示为一个512维的text向量,利用一个全连接层+softmax,将text向量映射为概率向量prop,设定全连接层+softmax包含一个权重矩阵w,其维度设定为R512×(N+1),其中,prop向量维度设定为N+1维度,prop向量的每个维度的值表示该政策文本属于这个维度所代表的审查类别的概率;
S3-3:利用交叉熵损失函数计算得到预训练语言模型预测结果概率和真实结果的损失值,设定预测结果概率和真实结果的损失值为loss,利用反向传播去调整预训练语言模型参数,根据公式:
x=(x1,x2...xL),y=(0....1....0)
hidden=Bert(x),hidden∈RL×512
text=average(hidden),text∈R1×512
prop=softmax(w·text),w∈R512×(N+1),prop∈R1×(N+1)
Figure FDA0003650468230000041
根据上述公式对输入的政策文本进行模型训练,直到损失值不再下降,搭建政策文本审查类别分类模型。
5.根据权利要求4所述的一种基于文本分类模型的公平竞争审查辅助方法,其特征在于:所述步骤S3-3中,根据政策文本审查类别分类模型对待审查的政策文本进行分类筛查,政策文本审查类别分类模型输出每一政府文本所属的审查标准类别的概率,对该政府文本所属的不同审查标准类别的概率进行统计,按照每一审查标准类别的概率大小进行降序排序,提取概率最大的审查标准类别作为该政府文本所属的审查类别,同时筛查政府文本是否违反审查标准,对违反审查标准的政府文本进行突出标记。
6.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法,其特征在于:所述步骤S4中,根据训练分析结果对政策文本进行初筛和复核,统计不同政策文本的公平审查结果,对构建的模型进行信息迭代,还包括以下步骤:
S4-1:获取不同政府文本所属的审查类别,剔除违反审查标准的政府文本,形成初步筛查统计列表,将列表发送至人工审核通道,专家对初步筛查统计列表内部的初筛结果进行复核;
S4-2:统计不同政府文本的复核结果,形成最终筛查统计列表,将最终筛查统计列表作为政府文本公平审查结果上传至政府政策文本信息库;
S4-3:将最终筛查统计列表同时录入审查样本库,定期任意调用审查样本库内部标注的政府文本输入预训练语言和政策文本审查类别分类模型进行重新预训练和审查训练,进行模型信息迭代训练。
CN202210550470.XA 2022-05-18 2022-05-18 一种基于文本分类模型的公平竞争审查辅助方法 Pending CN114860882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210550470.XA CN114860882A (zh) 2022-05-18 2022-05-18 一种基于文本分类模型的公平竞争审查辅助方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210550470.XA CN114860882A (zh) 2022-05-18 2022-05-18 一种基于文本分类模型的公平竞争审查辅助方法

Publications (1)

Publication Number Publication Date
CN114860882A true CN114860882A (zh) 2022-08-05

Family

ID=82639598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210550470.XA Pending CN114860882A (zh) 2022-05-18 2022-05-18 一种基于文本分类模型的公平竞争审查辅助方法

Country Status (1)

Country Link
CN (1) CN114860882A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115310425A (zh) * 2022-10-08 2022-11-08 浙江浙里信征信有限公司 基于政策文本分类和关键信息识别的政策文本分析方法
CN116150323A (zh) * 2023-04-23 2023-05-23 天津市普迅电力信息技术有限公司 一种基于人工智能的文本语言数据处理方法
CN116304062A (zh) * 2023-05-17 2023-06-23 南京物浦大数据有限公司 一种基于级联深度学习模型的公平竞争审查方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115310425A (zh) * 2022-10-08 2022-11-08 浙江浙里信征信有限公司 基于政策文本分类和关键信息识别的政策文本分析方法
CN115310425B (zh) * 2022-10-08 2023-01-03 浙江浙里信征信有限公司 基于政策文本分类和关键信息识别的政策文本分析方法
CN116150323A (zh) * 2023-04-23 2023-05-23 天津市普迅电力信息技术有限公司 一种基于人工智能的文本语言数据处理方法
CN116150323B (zh) * 2023-04-23 2023-06-23 天津市普迅电力信息技术有限公司 一种基于人工智能的文本语言数据处理方法
CN116304062A (zh) * 2023-05-17 2023-06-23 南京物浦大数据有限公司 一种基于级联深度学习模型的公平竞争审查方法
CN116304062B (zh) * 2023-05-17 2023-07-21 南京物浦大数据有限公司 一种基于级联深度学习模型的公平竞争审查方法

Similar Documents

Publication Publication Date Title
CN114860882A (zh) 一种基于文本分类模型的公平竞争审查辅助方法
CN111145052A (zh) 司法文书的结构化分析方法及系统
CN108572967A (zh) 一种创建企业画像的方法及装置
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN110674840A (zh) 一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113656805A (zh) 一种面向多源漏洞信息的事件图谱自动构建方法及系统
CN109492097B (zh) 一种企业新闻数据风险分类方法
CN117112782A (zh) 一种招标公告信息提取方法
CN116244446A (zh) 社交媒体认知威胁检测方法及系统
WO2024087754A1 (zh) 一种多维度文本综合辨识方法
CN116843162A (zh) 一种矛盾调解方案推荐与评分系统及方法
CN115545437A (zh) 一种基于多源异构数据融合的金融企业经营风险预警方法
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
CN115271504A (zh) 一种在线教学考评方法及系统
CN115114399A (zh) 一种基于nlp技术实现文本数据治理预处理的方法
CN114328819A (zh) 一种基于知识图谱的电力安全生产隐患预控方法
CN112988972A (zh) 一种基于数据模型的行政处罚案卷评查方法及系统
CN112507115A (zh) 一种弹幕文本中情感词的分类方法、装置及存储介质
CN111814457B (zh) 一种电网工程合同文本生成方法
CN115687632B (zh) 一种刑事量刑情节分解分析的方法和系统
Verma et al. PREDICTING SENTIMENT FROM MOVIE REVIEWS USINGLEXICONBASED MODEL
CN112966105B (zh) 一种利用违规问题分析自动生成审计试题的方法
Shen Application of Synthetic Data in Artificial Intelligence Trials from the Perspective of Judicial Justice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination