CN115204150B - 信息校验方法、装置、电子设备和计算机可读介质 - Google Patents

信息校验方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN115204150B
CN115204150B CN202211081476.3A CN202211081476A CN115204150B CN 115204150 B CN115204150 B CN 115204150B CN 202211081476 A CN202211081476 A CN 202211081476A CN 115204150 B CN115204150 B CN 115204150B
Authority
CN
China
Prior art keywords
text
value
unstructured
structured
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211081476.3A
Other languages
English (en)
Other versions
CN115204150A (zh
Inventor
唐宇
梁键
王聪
涂海涛
王加欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Siji Location Service Co ltd
State Grid Information and Telecommunication Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Beijing Guodiantong Network Technology Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN202211081476.3A priority Critical patent/CN115204150B/zh
Publication of CN115204150A publication Critical patent/CN115204150A/zh
Application granted granted Critical
Publication of CN115204150B publication Critical patent/CN115204150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开的实施例公开了信息校验方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:响应于接收到用户上传的待校验文本,提取上述待校验文本包括的非结构化价值信息和对应上述非结构化价值信息的结构化价值信息;将上述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息;确定上述结构化价值信息与上述结构化价值识别信息是否相同;响应于确定上述结构化价值信息与上述结构化价值识别信息相异,将上述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至上述用户的用户端。该实施方式减少了校验时间,降低了出错率。

Description

信息校验方法、装置、电子设备和计算机可读介质
技术领域
本公开的实施例涉及计算机领域,具体涉及信息校验方法、装置、电子设备和计算机可读介质。
背景技术
目前,对于投标/合同文本中价值字段的校验(例如,投标文本中金额的大小写的校验),通常采用的方式为:通过人工的方式进行校验。
然而,采用上述方式通常会存在以下技术问题:
第一,由于人工校验存在一定的主观性,且校验时间较长,出错率较高;
第二,当投标文本较多时,需要耗费较长的时间筛选投标文本。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了信息校验方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种信息校验方法,该方法包括:响应于接收到用户上传的待校验文本,提取上述待校验文本包括的非结构化价值信息和对应上述非结构化价值信息的结构化价值信息;将上述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息;确定上述结构化价值信息与上述结构化价值识别信息是否相同;响应于确定上述结构化价值信息与上述结构化价值识别信息相异,分别将上述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至上述用户的用户端。
第二方面,本公开的一些实施例提供了一种信息校验装置,装置包括提取单元,被配置成响应于接收到用户上传的待校验文本,提取上述待校验文本包括的非结构化价值信息和对应上述非结构化价值信息的结构化价值信息;输入单元,被配置成将上述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息;确定单元,被配置成确定上述结构化价值信息与上述结构化价值识别信息是否相同;标记单元,被配置成响应于确定上述结构化价值信息与上述结构化价值识别信息相异,分别将上述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至上述用户的用户端。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的信息校验方法,减少了校验时间,降低了出错率。具体来说,校验时间较长,出错率较高的原因在于:由于人工校验存在一定的主观性,且校验时间较长,出错率较高。基于此,本公开的一些实施例的信息校验方法,首先,响应于接收到用户上传的待校验文本,提取上述待校验文本包括的非结构化价值信息和对应上述非结构化价值信息的结构化价值信息。由此,便于校验非结构化价值信息和结构化价值信息是否一致。接着,将上述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息。由此,为校验非结构化价值信息和结构化价值信息的一致性,提供了数据支持。然后,确定上述结构化价值信息与上述结构化价值识别信息是否相同。最后,响应于确定上述结构化价值信息与上述结构化价值识别信息相异,分别将上述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至上述用户的用户端。由此,可以在确定非结构化价值信息和结构化价值信息不一致时,及时反馈给用户端进行修正。从而,减少了校验时间,降低了出错率。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的信息校验方法的一些实施例的流程图;
图2是根据本公开的信息校验装置的一些实施例的结构示意图;
图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1是根据本公开的信息校验方法的一些实施例的流程图。示出了根据本公开的信息校验方法的一些实施例的流程100。该信息校验方法,包括以下步骤:
步骤101,响应于接收到用户上传的待校验文本,提取上述待校验文本包括的非结构化价值信息和对应上述非结构化价值信息的结构化价值信息。
在一些实施例中,信息校验方法的执行主体(例如,计算设备)可以响应于接收到用户上传的待校验文本,提取上述待校验文本包括的非结构化价值信息和对应上述非结构化价值信息的结构化价值信息。这里,待校验文本可以表示待校验的文本。例如,待校验文本可以时招标文本或合同文本。这里,非结构化价值信息可以表示大写的价值数值。例如,非结构化价值信息可以表征大写的金额数字。结构化价值信息可以表示阿拉伯数字书写的价值数值。例如,结构化价值信息可以表征阿拉伯数字书书写的金额。这里,对于提取的方式不作限制。
步骤102,将上述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息。
在一些实施例中,上述执行主体可以将上述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息。这里,预先训练的结构化信息识别模型可以是预先训练的以非结构化价值信息为输入,以结构化价值识别信息为输出的神经网络模型。例如,预先训练的结构化信息识别模型可以是卷积神经网络模型。结构化价值识别信息可以表示识别的对应非结构化价值信息的结构化价值信息。
可选地,上述结构化信息识别模型是通过以下步骤训练得到的:
第一步,获取非结构化价值文本样本集。其中,上述非结构化价值文本样本集中的非结构化价值文本样本包括:非结构化价值文本和对应上述非结构化价值文本的结构化价值文本。非结构化价值文本可以是指大写的金额数字字段。例如,非结构化价值文本可以是壹万贰仟叁佰肆拾伍圆。结构化价值文本可以表示阿拉伯数字书写的价值数值。例如,结构化价值文本可以是12345元。
第二步,对于上述非结构化价值文本样本集中的每个非结构化价值文本样本,对上述非结构化价值文本样本包括的非结构化价值文本进行分词处理,以生成分词后的非结构化价值文本样本作为非结构化价值训练样本。这里,分词处理可以是结巴分词处理或中文分词处理。
实践中,上述第二步,可以包括以下子步骤:
第一子步骤,根据预设的非结构化价值字段表所包括的非结构化价值字段的词频,从上述非结构化价值文本包括的各个非结构化价值字段中选择大于等于预设词频的非结构化价值字段作为备选非结构化价值字段,得到备选非结构化价值字段组。非结构化价值字段表可以是确定历史时间段内的用户上传的各个待校验文本中非结构化价值字段出现的频次。这里,非结构化价值字段可以表示非结构化价值词语。例如,非结构化价值字段可以是“壹万”、“贰仟”、“叁佰”、“肆拾”等字段。非结构化价值字段“壹万”出现的频次可以是“10次”。
第二子步骤,根据上述备选非结构化价值字段组,对上述非结构化价值文本样本包括的非结构化价值文本进行分词处理,以生成分词后的非结构化价值文本样本作为非结构化价值训练样本。实践中,可以将非结构化价值文本样本包括的非结构化价值文本中与上述备选非结构化价值字段组中任一备选非结构化价值字段相同的非结构化价值字段划分为一词。例如,对非结构化价值文本“壹万贰仟叁佰肆拾伍圆”进行分词处理后,以生成分词后的非结构化价值文本“壹万/贰仟/叁佰/肆拾伍圆”。
第三步,基于所生成的各个非结构化价值训练样本,对预先训练的结构化文本识别模型进行训练,得到训练后的预先训练的结构化文本识别模型作为结构化信息识别模型。这里,预先训练的结构化文本识别模型可以是预先训练的用于识别文本信息的神经网络模型。例如,预先训练的结构化文本识别模型可以是以非结构化文本为输入,以结构化文本为输出的神经网络模型。例如,预先训练的结构化文本识别模型可以是卷积神经网络模型。
实践中,上述第三步,可以包括以下子步骤:
第一子步骤,从上述各个非结构化价值训练样本中选择非结构化价值训练样本作为目标非结构化价值训练样本。
第二子步骤,对上述目标非结构化价值训练样本包括的分词非结构化价值文本进行编码处理,以生成非结构化价值文本向量。实践中,可以通过BERT编码网络对上述目标非结构化价值训练样本包括的分词非结构化价值文本进行编码处理,以生成非结构化价值文本向量。
第三子步骤,将上述非结构化价值文本向量输入至预先训练的结构化文本识别模型中,得到结构化价值识别文本。
第四子步骤,确定上述结构化价值识别文本与上述目标非结构化价值训练样本包括的结构化价值文本的损失值。实践中,可以通过预设的损失函数确定上述结构化价值识别文本与上述目标非结构化价值训练样本包括的结构化价值文本的损失值。例如,损失函数可以包括但不限于:均方误差损失函数(MSE)、合页损失函数(SVM)、交叉熵损失函数(CrossEntropy)等等。
第五子步骤,响应于确定上述损失值大于预设损失值,调整上述预先训练的结构化文本识别模型的网络参数。例如,可以对损失值和预设损失值求差值,得到损失差值。在此基础上,利用反向传播、随机梯度下降等方法将损失差值从模型的最后一层向前传递,以调整每一层的参数。当然根据需要,也可以采用网络冻结(dropout)的方法,对其中的一些层的网络参数保持不变,不进行调整,对此,不做任何限定。
可选地,响应于确定上述损失值小于等于上述预设损失值,将训练后的预先训练的结构化文本识别模型确定为结构化信息识别模型。
步骤103,确定上述结构化价值信息与上述结构化价值识别信息是否相同。
在一些实施例中,上述执行主体可以确定上述结构化价值信息与上述结构化价值识别信息是否相同。即,确定上述结构化价值信息的内容与上述结构化价值识别信息的内容是否相同。
步骤104,响应于确定上述结构化价值信息与上述结构化价值识别信息相异,分别将上述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至上述用户的用户端。
在一些实施例中,上述执行主体可以响应于确定上述结构化价值信息与上述结构化价值识别信息相异,分别将上述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至上述用户的用户端。实践中,首先,响应于确定上述结构化价值信息与上述结构化价值识别信息相异,上述执行主体可以将上述待校验文本中的非结构化价值信息和结构化价值信息标记上异常的字样,以生成异常非结构化价值信息和异常结构化价值信息。然后,将标记完成的待校验文本发送至上述用户的用户端。由此,便于用户端及时更正异常的非结构化价值信息和结构化价值信息。
可选地,对接收到的每个备选文本进行降维处理,以生成降维备选文本,得到降维备选文本集。
在一些实施例中,上述执行主体可以对接收到的每个备选文本进行降维处理,以生成降维备选文本,得到降维备选文本集。这里,备选文本可以是指包括的非结构化价值信息对应的结构化价值识别信息和结构化价值信息相同的待校验文本。备选文本可以包括多个文本指标。多个文本指标可以包括但不限于:年产值、员工数量、生产设备数量、流动比率、生产场地面积等。这里,降维处理可以是对备选文本包括的各个文本指标进行主成分分析处理PCA(Principal Components Analysis)分析。这里,降维备选文本可以包括第一降维变量和第二降维变量。第一降维变量和第二降维变量可以是通过PCA从备选文本包括的多个文本指标(年产值、员工数量、生产设备数量、流动比率、生产场地面积)降维分析得出的。
可选地,对上述降维备选文本集进行离群检测处理,以生成离群降维备选文本组。
在一些实施例中,上述执行主体可以对上述降维备选文本集进行离群检测处理,以生成离群降维备选文本组。这里,离群检测处理可以是指离群聚类处理。例如,上述执行主体可以通过DBSCAN(Density-Based Spatial Clustering of Applications withNoise)聚类算法对上述降维备选文本集进行离群检测处理,以生成离群降维备选文本组。实践中,首先,上述执行主体可以对上述降维备选文本集进行离群聚类处理,以生成降维备选文本组集。这里,降维备选文本组集中的降维备选文本包括聚类标签。聚类标签可以表示离群或集群。然后,可以将降维备选文本组集中包括的聚类标签表示离群的各个降维备选文本确定为离群降维备选文本组。表示离群的聚类标签可以表征降维备选文本在第一降维变量上离群,还是在第二降维变量上离群。
可选地,基于上述离群降维备选文本组,确定目标文本组。
在一些实施例中,上述执行主体可以基于上述离群降维备选文本组,确定目标文本组。其中,上述离群降维备选文本组中的离群降维备选文本包括文本指标特征向量和文本评分值,上述文本指标特征向量包括文本指标特征值组,上述文本指标特征值组中的文本指标特征值对应一文本指标。这里,文本评分值可以表示降维备选文本在离群检测过程中,被聚类为离群的概率。离群的降维备选文本可以表示降维备选文本对应的备选文本存在异常。文本评分值可以是被聚类为离群的概率的有效数字。文本评分值越大,表示备选文本越异常。文本指标特征值可以表示一文本指标的权重值。文本指标特征向量可以是第一降维变量或第二降维变量。
实践中,基于上述离群降维备选文本组,上述执行主体可以通过以下步骤确定目标文本组:
第一步,对于上述离群降维备选文本组中的每个离群降维备选文本,执行如下处理步骤:
第一步骤,将上述离群降维备选文本包括的文本指标特征向量中包括的各个文本指标特征值进行升序排列,以生成文本指标特征值序列。
第二步骤,从上述文本指标特征值序列中选择第一数目个文本指标特征值作为备选文本指标特征值组。这里,对于第一数目的设定,不作限定。
第三步骤,将上述备选文本指标特征值组中每个备选文本指标特征值对应的文本指标确定为备选文本指标,得到备选文本指标组。
第四步骤,将上述离群降维备选文本包括的文本评分值与上述备选文本指标组合并为备选文本信息。这里,组合可以是指拼接。
第二步,根据各个备选文本信息和目标历史备选文本组集,确定目标文本组。其中,上述各个备选文本信息中的备选文本信息对应上述目标历史备选文本组集中的目标历史备选文本组。
实践中,上述第二步可以包括以下子步骤:
第一子步骤,将上述目标历史备选文本组集输入至预先训练的文本信息预测模型中,得到目标备选文本预测信息集。其中,上述目标备选文本预测信息集中的目标备选文本预测信息包括:文本预测值和文本指标组,上述目标备选文本预测信息集中的目标备选文本预测信息对应上述目标历史备选文本组集中的目标历史备选文本组。这里,预先训练的文本信息预测模型可以是指以目标历史备选文本组为输入,以目标备选文本预测信息为输出的神经网络模型。文本预测值可以表示对目标历史备选文本组的评分。文本指标组可以表示根据目标历史备选文本组,选择出的各个文本指标。例如,预先训练的文本信息预测模型可以是卷积神经网络模型。文本预测值越大,表示目标历史备选文本组越异常。
第二子步骤,对于上述各个备选文本信息中的每个备选文本信息,执行如下处理步骤:
1、将上述目标备选文本预测信息集中对应上述备选文本信息的目标备选文本预测信息确定为待处理文本预测信息。
2、基于上述备选文本信息和上述待处理文本预测信息,生成文本评分值。实践中,响应于确定上述备选文本信息包括的各个文本指标与上述待处理文本预测信息包括的文本指标组相同,将上述备选文本信息包括的文本评分值与上述待处理文本预测信息包括的文本预测值的总和确定为文本评分值。
第三子步骤,根据所生成的各个文本评分值,确定目标文本组。实践中,首先,可以将所生成的各个文本评分值中小于等于预设评分值的文本评分值确定为目标文本评分值,得到目标文本评分值组。接着,将上述目标文本评分值组中的每个目标文本评分值对应的备选文本确定为第一目标文本,得到第一目标文本组。然后,可以将去除上述离群降维备选文本组对应的各个降维备选文本的降维备选文本集确定为第一降维备选文本集。再然后,可以将第一降维备选文本集对应的各个备选文本确定为第二目标文本组。最后,可以将第一目标文本组和第二目标文本组合并为目标文本组。
上述可选地中的相关内容作为本公开的一个发明点,由此解决了背景技术提及的技术问题二“当投标文本较多时,需要耗费较长的时间筛选投标文本。”。需要耗费较长的时间筛选投标文本的因素往往如下:当投标文本较多时,需要耗费较长的时间筛选投标文本。如果解决了上述因素,就能达到减少筛选投标文本的时间的效果。为了达到这一效果,首先,对接收到的每个备选文本进行降维处理,以生成降维备选文本,得到降维备选文本集。由此,便于筛选出符合需求的投标文本。减少后续发送至文本管理端的投标文本的数量。然后,对上述降维备选文本集进行离群检测处理,以生成离群降维备选文本组。由此,可以检测出离群的备选文本,便于从离群的备选文本,选择出较为符合需求的备选文本,以避免发送至文本管理端的投标文本的数量较低,不满足筛选需求。最后,基于上述离群降维备选文本组,确定目标文本组。由此,可以选择出满足筛选需求的文本,既避免了发送至文本管理端的文本数量过多,又防止了发送至文本管理端的文本数量较低。从而,减少了筛选投标文本的时间。
可选地,将上述目标文本组发送至文本管理端以进行选择浏览。
在一些实施例中,上述执行主体可以将上述目标文本组发送至文本管理端以进行选择浏览。文本管理端可以是指从目标文本组筛选目标文本的终端。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的信息校验方法,减少了校验时间,降低了出错率。具体来说,校验时间较长,出错率较高的原因在于:由于人工校验存在一定的主观性,且校验时间较长,出错率较高。基于此,本公开的一些实施例的信息校验方法,首先,响应于接收到用户上传的待校验文本,提取上述待校验文本包括的非结构化价值信息和对应上述非结构化价值信息的结构化价值信息。由此,便于校验非结构化价值信息和结构化价值信息是否一致。接着,将上述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息。由此,为校验非结构化价值信息和结构化价值信息的一致性,提供了数据支持。然后,确定上述结构化价值信息与上述结构化价值识别信息是否相同。最后,响应于确定上述结构化价值信息与上述结构化价值识别信息相异,分别将上述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至上述用户的用户端。由此,可以在确定非结构化价值信息和结构化价值信息不一致时,及时反馈给用户端进行修正。从而,减少了校验时间,降低了出错率。
进一步参考图2,作为对上述各图所示方法的实现,本公开提供了一种信息校验装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图2所示,一些实施例的信息校验装置200包括:提取单元201、输入单元202、确定单元203和标记单元204。其中,提取单元201,被配置成响应于接收到用户上传的待校验文本,提取上述待校验文本包括的非结构化价值信息和对应上述非结构化价值信息的结构化价值信息;输入单元202,被配置成将上述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息;确定单元203,被配置成确定上述结构化价值信息与上述结构化价值识别信息是否相同;标记单元204,被配置成响应于确定上述结构化价值信息与上述结构化价值识别信息相异,分别将上述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至上述用户的用户端。
可以理解的是,该装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置200及其中包含的单元,在此不再赘述。
下面参考图3,其示出了适于用来实现本公开的一些实施例的电子设备300(例如,计算设备)的结构示意图。本公开的一些实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于接收到用户上传的待校验文本,提取上述待校验文本包括的非结构化价值信息和对应上述非结构化价值信息的结构化价值信息;将上述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息;确定上述结构化价值信息与上述结构化价值识别信息是否相同;响应于确定上述结构化价值信息与上述结构化价值识别信息相异,分别将上述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至上述用户的用户端。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以 于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括提取单元、输入单元、确定单元和标记单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,确定单元还可以被描述为“确定上述结构化价值信息与上述结构化价值识别信息是否相同的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种信息校验方法,包括:
响应于接收到用户上传的待校验文本,提取所述待校验文本包括的非结构化价值信息和对应所述非结构化价值信息的结构化价值信息;
将所述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息;
确定所述结构化价值信息与所述结构化价值识别信息是否相同;
响应于确定所述结构化价值信息与所述结构化价值识别信息相异,分别将所述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至所述用户的用户端;
对接收到的每个备选文本进行降维处理,以生成降维备选文本,得到降维备选文本集,其中,备选文本是指包括的非结构化价值信息对应的结构化价值识别信息和结构化价值信息相同的待校验文本;
对所述降维备选文本集进行离群检测处理,以生成离群降维备选文本组;
基于所述离群降维备选文本组,确定目标文本组;
将所述目标文本组发送至文本管理端以进行选择浏览;
其中,基于所述离群降维备选文本组,确定目标文本组,包括:
对于所述离群降维备选文本组中的每个离群降维备选文本,执行如下处理步骤:
将所述离群降维备选文本包括的文本指标特征向量中包括的各个文本指标特征值进行升序排列,以生成文本指标特征值序列;
从所述文本指标特征值序列中选择第一数目个文本指标特征值作为备选文本指标特征值组;
将所述备选文本指标特征值组中每个备选文本指标特征值对应的文本指标确定为备选文本指标,得到备选文本指标组;
将所述离群降维备选文本包括的文本评分值与所述备选文本指标组合并为备选文本信息;
根据各个备选文本信息和目标历史备选文本组集,确定目标文本组,其中,所述各个备选文本信息中的备选文本信息对应所述目标历史备选文本组集中的目标历史备选文本组。
2.根据权利要求1所述的方法,其中,所述结构化信息识别模型是通过以下步骤训练得到的:
获取非结构化价值文本样本集,其中,所述非结构化价值文本样本集中的非结构化价值文本样本包括:非结构化价值文本和对应所述非结构化价值文本的结构化价值文本;
对于所述非结构化价值文本样本集中的每个非结构化价值文本样本,对所述非结构化价值文本样本包括的非结构化价值文本进行分词处理,以生成分词后的非结构化价值文本样本作为非结构化价值训练样本;
基于所生成的各个非结构化价值训练样本,对预先训练的结构化文本识别模型进行训练,得到训练后的预先训练的结构化文本识别模型作为结构化信息识别模型。
3.根据权利要求2所述的方法,其中,所述对所述非结构化价值文本样本包括的非结构化价值文本进行分词处理,以生成分词后的非结构化价值文本样本作为非结构化价值训练样本,包括:
根据预设的非结构化价值字段表所包括的非结构化价值字段的词频,从所述非结构化价值文本包括的各个非结构化价值字段中选择大于等于预设词频的非结构化价值字段作为备选非结构化价值字段,得到备选非结构化价值字段组;
根据所述备选非结构化价值字段组,对所述非结构化价值文本样本包括的非结构化价值文本进行分词处理,以生成分词后的非结构化价值文本样本作为非结构化价值训练样本。
4.根据权利要求2所述的方法,其中,所述基于所生成的各个非结构化价值训练样本,对预先训练的结构化文本识别模型进行训练,得到训练后的预先训练的结构化文本识别模型作为结构化信息识别模型,包括:
从所述各个非结构化价值训练样本中选择非结构化价值训练样本作为目标非结构化价值训练样本;
对所述目标非结构化价值训练样本包括的分词非结构化价值文本进行编码处理,以生成非结构化价值文本向量;
将所述非结构化价值文本向量输入至预先训练的结构化文本识别模型中,得到结构化价值识别文本;
确定所述结构化价值识别文本与所述目标非结构化价值训练样本包括的结构化价值文本的损失值;
响应于确定所述损失值大于预设损失值,调整所述预先训练的结构化文本识别模型的网络参数。
5.根据权利要求4所述的方法,其中,所述方法还包括:
响应于确定所述损失值小于等于所述预设损失值,将训练后的预先训练的结构化文本识别模型确定为结构化信息识别模型。
6.一种信息校验装置,包括:
提取单元,被配置成响应于接收到用户上传的待校验文本,提取所述待校验文本包括的非结构化价值信息和对应所述非结构化价值信息的结构化价值信息;
输入单元,被配置成将所述非结构化价值信息输入至预先训练的结构化信息识别模型中,得到结构化价值识别信息;
确定单元,被配置成确定所述结构化价值信息与所述结构化价值识别信息是否相同;
标记单元,被配置成响应于确定所述结构化价值信息与所述结构化价值识别信息相异,分别将所述待校验文本中的非结构化价值信息和结构化价值信息标记为异常非结构化价值信息和异常结构化价值信息,以及将标记完成的待校验文本发送至所述用户的用户端;
降维单元,被配置成对接收到的每个备选文本进行降维处理,以生成降维备选文本,得到降维备选文本集,其中,备选文本是指包括的非结构化价值信息对应的结构化价值识别信息和结构化价值信息相同的待校验文本;
检测单元,被配置成对所述降维备选文本集进行离群检测处理,以生成离群降维备选文本组;
文本确定单元,被配置成基于所述离群降维备选文本组,确定目标文本组;文本确定单元,被进一步配置成:
对于所述离群降维备选文本组中的每个离群降维备选文本,执行如下处理步骤:
将所述离群降维备选文本包括的文本指标特征向量中包括的各个文本指标特征值进行升序排列,以生成文本指标特征值序列;
从所述文本指标特征值序列中选择第一数目个文本指标特征值作为备选文本指标特征值组;
将所述备选文本指标特征值组中每个备选文本指标特征值对应的文本指标确定为备选文本指标,得到备选文本指标组;
将所述离群降维备选文本包括的文本评分值与所述备选文本指标组合并为备选文本信息;
根据各个备选文本信息和目标历史备选文本组集,确定目标文本组,其中,所述各个备选文本信息中的备选文本信息对应所述目标历史备选文本组集中的目标历史备选文本组;
发送单元,被配置成将所述目标文本组发送至文本管理端以进行选择浏览。
7.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN202211081476.3A 2022-09-06 2022-09-06 信息校验方法、装置、电子设备和计算机可读介质 Active CN115204150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211081476.3A CN115204150B (zh) 2022-09-06 2022-09-06 信息校验方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211081476.3A CN115204150B (zh) 2022-09-06 2022-09-06 信息校验方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN115204150A CN115204150A (zh) 2022-10-18
CN115204150B true CN115204150B (zh) 2022-12-09

Family

ID=83573373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211081476.3A Active CN115204150B (zh) 2022-09-06 2022-09-06 信息校验方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN115204150B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308317A (zh) * 2018-09-07 2019-02-05 浪潮软件股份有限公司 一种基于聚类的非结构化文本的热点词提取方法
CN111090987B (zh) * 2019-12-27 2021-02-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN113095307B (zh) * 2021-06-09 2021-08-20 国网浙江省电力有限公司 一种财务凭证信息自动识别方法
CN114840634B (zh) * 2022-07-04 2022-09-20 中关村科学城城市大脑股份有限公司 信息存储方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN115204150A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN111177319B (zh) 风险事件的确定方法、装置、电子设备和存储介质
CN110929799B (zh) 用于检测异常用户的方法、电子设备和计算机可读介质
CN111061881A (zh) 文本分类方法、设备及存储介质
CN111368551B (zh) 一种确定事件主体的方法和装置
CN112650841A (zh) 信息处理方法、装置和电子设备
CN111680761B (zh) 信息反馈方法、装置和电子设备
CN111160410A (zh) 一种物体检测方法和装置
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN113111167B (zh) 基于深度学习模型的接处警文本车辆型号提取方法和装置
CN117668535A (zh) 异常供应端告警方法、装置、电子设备和计算机可读介质
CN113111165A (zh) 基于深度学习模型的接警警情类别确定方法和装置
CN115062119B (zh) 政务事件办理推荐方法、装置
CN115204150B (zh) 信息校验方法、装置、电子设备和计算机可读介质
CN113946648B (zh) 结构化信息生成方法、装置、电子设备和介质
CN114926234A (zh) 物品信息推送方法、装置、电子设备和计算机可读介质
CN111754984B (zh) 文本选取的方法、装置、设备和计算机可读介质
CN115169321B (zh) 物流内容文本核对方法、装置、电子设备和计算机介质
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN113807056A (zh) 一种文档名称序号纠错方法、装置和设备
CN117857388B (zh) 交换机运行信息检测方法、装置、电子设备与计算机介质
CN117172220B (zh) 文本相似信息生成方法、装置、设备和计算机可读介质
CN115328811B (zh) 用于工控网络仿真的程序语句测试方法、装置、电子设备
CN118095426B (zh) 点击行为预测模型训练方法、装置、电子设备与可读介质
CN116800834B (zh) 虚拟礼物合并方法、装置、电子设备和计算机可读介质
CN113345426B (zh) 一种语音意图识别方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231201

Address after: Building 4, Dongxu International Center, yard 2, sihezhuang Road, Fengtai District, Beijing 100070 (South Building of block a)

Patentee after: BEIJING GUODIANTONG NETWORK TECHNOLOGY Co.,Ltd.

Patentee after: STATE GRID INFORMATION & TELECOMMUNICATION GROUP Co.,Ltd.

Patentee after: State Grid Siji Location Service Co.,Ltd.

Address before: 100085 32-3-4108-4109, building 32, Chuangye Middle Road, Haidian District, Beijing

Patentee before: BEIJING GUODIANTONG NETWORK TECHNOLOGY Co.,Ltd.

Patentee before: STATE GRID INFORMATION & TELECOMMUNICATION GROUP Co.,Ltd.