CN116502614B - 一种数据校对方法、系统及存储介质 - Google Patents

一种数据校对方法、系统及存储介质 Download PDF

Info

Publication number
CN116502614B
CN116502614B CN202310754193.9A CN202310754193A CN116502614B CN 116502614 B CN116502614 B CN 116502614B CN 202310754193 A CN202310754193 A CN 202310754193A CN 116502614 B CN116502614 B CN 116502614B
Authority
CN
China
Prior art keywords
text
grade
phrase
data
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310754193.9A
Other languages
English (en)
Other versions
CN116502614A (zh
Inventor
李琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Daily Xindong Technology Co ltd
Original Assignee
Beijing Daily Xindong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Daily Xindong Technology Co ltd filed Critical Beijing Daily Xindong Technology Co ltd
Priority to CN202310754193.9A priority Critical patent/CN116502614B/zh
Publication of CN116502614A publication Critical patent/CN116502614A/zh
Application granted granted Critical
Publication of CN116502614B publication Critical patent/CN116502614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明公开了一种数据校对方法、系统及存储介质,属于数据处理技术领域,包括步骤S1:建立数值校对表和文本校对表,两者均设置了多个评价等级,将数值校对表和文本校对表存储至数据库内,并建立索引表;步骤S2:判断校对目标名称是否位于索引表内,是的情况下,基于索引表定位对应的数值校对表和文本校对表,否的情况下,继续执行步骤S3;步骤S3:从数据库内检索与校对目标对应的数值校对表和文本校对表,计算校对目标的第一等级和第二等级;步骤S4:若在第一等级、第二等级和待校验等级有至少两个等级相同,则将相同的等级定义为校对目标的等级;通过本发明,即便是收到的数据包括文本数据,也可以实现对其进行审核校对。

Description

一种数据校对方法、系统及存储介质
技术领域
本发明属于数据处理技术领域,具体涉及一种数据校对方法、系统及存储介质。
背景技术
当前,无论是企业的办公数据,还是工厂中的生产数据,在其被事先打入数据标签的情况下,在之后的审核中均需要对数据标签进行校对,以防止其出现欺诈行为;例如在企业中,在办公文件数据提交后,需要根据预设规则对其进行审核,若文件数据符合预设规则,表明数据标签与文件数据对应,则审核通过该文件;又例如工厂中,当发生故障时,数据标签为故障原因,在进行审核校对是,通过获取设备的故障现象及故障参数,将其与预设规则进行校对,从而确定设备的故障原因是否与数据标签标注的原因一致;然而,在实际应用场景中,无论是办公文件数据、还是设备故障数据,其中均包含有数值数据和文本数据,现有技术中一般设置自动校对模块,在自动校对模块中输入预设的数据范围,通过确定接收到的实际数据在哪个数据范围内,以实现对文件数据的自动审核校对;但是,在实际应用中,接收到的数据一般包括数值数据和文本数据,例如设备的故障参数为数值数据,故障现象为文本数据,那么如何对文本数据进行审核校对,是本领域亟待解决的技术问题。
发明内容
为解决上述问题,本发明提供了一种数据校对方法、系统及存储介质,以实现对文本数据和数值数据的自动审核校对。
为了达到上述的发明目的,本发明提出一种数据校对方法,包括:
步骤S1:针对每个对象建立数值校对表和文本校对表,所述数值校对表和所述文本校对表内均设置了多个评价等级,所述数值校对表中每个所述评价等级对应多种数值数据的范围,所述文本校对表中每个所述评价等级对应一种第一文本数据,将不同所述对象的所述数值校对表和所述文本校对表存储至不同的数据库内,并建立指示所述数值校对表和所述文本校对表所在所述数据库位置的索引表;
步骤S2:确定需要审核的所述对象,定义为校对目标,判断所述校对目标的名称是否位于所述索引表内,是的情况下,基于所述索引表定位对应的所述数值校对表和所述文本校对表,否的情况下,继续执行步骤S3;
步骤S3:接收所述校对目标的属性数据和待校验等级,所述属性数据包括多个不同类型的数值数据和对所述校对目标描述的第二文本数据,从所述属性数据中抽取数值数据和所述第二文本数据,从所述数据库检索与所述校对目标相关联的所述数值校对表和所述文本校对表,基于所述校对目标的数值数据和所述数值校对表获得第一等级,基于第二文本数据和所述文本校对表获得第二等级;
步骤S4:若在所述第一等级、所述第二等级和所述待校验等级中,有至少两个等级相同,则将相同的等级定义为所述校对目标的等级,若三个等级均不相同,则将所述校对目标的所述属性数据和所述待校验等级存储至专家审核队列。
进一步的,所述步骤S3中,从所述数据库检索与所述校对目标相关联的所述数值校对表和所述文本校对表包括以下步骤:
步骤S31:为每个所述文本校对表中设置标签组,所述标签组包括多个第一特征关键词,抽取所述校对目标的所述第二文本数据,将所述第二文本数据逐字符拆分,获得多个单字符,统计各个所述单字符的出现次数,设置第一阈值,将出现次数大于等于所述第一阈值的所述单字符定义为第一字符;
步骤S32:以每个所述第一字符为起点,将所述第一字符与其前一个字符组成第一词组,将所述第一字符与其后一个字符组成第二词组,统计各个所述第一词组和所述第二词组的出现次数,设置第二阈值,将出现次数大于等于所述第二阈值的所述第一词组和第二词组保留;
步骤S33:以每个所述第一词组为起点,将所述第一词组与其相邻字符组成第三词组,若基于同一所述第一词组生成的所述第三词组相同,则将所述第三词组设置为第二特征关键词,若所述第三词组均不相同,则将所述第一词组设置为所述第二特征关键词,重复本步骤,基于所述第二词组生成第四词组,并从所述第四词组中选取所述第二特征关键词;
步骤S34:以每个所述第三词组起点,每个所述第四词组为起点,重复所述步骤S33继续进行扩展,设置第三阈值,当词组的字符长度达到所述第三阈值时停止扩展,获得多个不同字符长度的所述第二特征关键词,基于所述第二特征关键词生成检索次序表并进行检索,若存在所述标签组包括多个与其对应的所述第一特征关键词,则将所述标签组对应的文本校对表,以及与所述文本校对表对应的所述数值校对表作为检索结果。
进一步的,所述步骤S34中,生成所述检索次序表包括以下步骤:
统计各个所述第二特征关键词在所述第二文本数据中的出现次数,基于出现次数的大小,自上而下降将所述第二特征关键词排列为所述检索次序表;
定位所述检索次序表中包括四个字符的所述第二特征关键词,并抽取各个所述第二特征关键词中的首字符和尾字符,分别统计各个所述首字符和所述尾字符在所述第二特征关键词首端和尾端出现次数,设定第四阈值,若所述首字符出现次数大于所述第四阈值,则抽取包含该所述首字符所述第二特征关键词的前三个字符,定义为第一衍生词组,若所述尾字符出现次数大于所述第四阈值,则抽取包含该所述尾字符所述第二特征关键词的后三个字符,定义为第二衍生词组,将所述第一衍生词组和所述第二衍生词组添加至所述检索次序表内。
进一步的,在生成所述检索次序表后,基于以下步骤在所述数据库内进行检索:
从所述检索次序表中抽取第一次序的所述第二特征关键词,在所述数据库内进行检索,定义包含所述第二特征关键词的所述标签组,将检索出的所述标签组对应的所述文本校对表作为检索结果,继续从所述检索次序表中抽取第二次序的第二特征关键词在所述数据库内进行检索获得检索结果,重复此步骤,直至完成所述检索次序表中所有所述第二特征关键词的检索,抽取各个检索结果中,所述文本校对表对应的所述标签组,将所述标签组与所述检索次序表进行对比,将所述标签组中包含所述第二特征关键词最多的所述文本校对标准定义为最终检索结果。
进一步的,基于第二文本数据和所述文本校对表获得所述第二等级包括以下步骤:
建立语义对比模型,获取所述校对目标的所述待校验等级,基于所述待校验等级在所述文本校对表内搜索与其对应的所述第一文本数据,基于所述语义对比模型,将搜索出的所述第一文本数据与所述第二文本数据进行对比,获取两者的相似度,设定第五阈值,若所述相似度大于所述第五阈值,则将所述第二等级设置为所述第一文本数据对应的所述评价等级,若所述相似度低于所述第五阈值,则将所述校对目标传输至所述专家审核队列。
本发明还提供了一种数据校对系统,该系统用于实现上述所述的一种数据校对方法,该系统主要包括:
数据库模块,包括多个数据库,每个数据库内存储有不同对应的数值校对表和文本校对表,所述数值校对表和所述文本校对表内均设置了多个评价等级,所述数值校对表中每个所述评价等级对应多种数值数据的范围,所述文本校对表中每个所述评价等级对应一种第一文本数据;
判断模块,所述判断模块内设置有索引表,所述判断模块确定需要审核的所述对象,定义为校对目标,判断所述校对目标的名称是否位于所述索引表内,是的情况下,基于所述索引表定位对应的所述数值校对表和所述文本校对表;
等级生成模块,若所述校对目标的名称没有位于所述索引表内,则接收所述校对目标的属性数据和待校验等级,所述属性数据包括多个不同类型的数值数据和对所述校对目标描述的第二文本数据,从所述属性数据中抽取数值数据和所述第二文本数据,从所述数据库检索与所述校对目标相关联的所述数值校对表和所述文本校对表,基于所述校对目标的数值数据和所述数值校对表获得第一等级,基于第二文本数据和所述文本校对表获得第二等级;
校对模块,接收所述第一等级、所述第二等级和所述待校验等级,若在所述第一等级、所述第二等级和所述待校验等级中,有至少两个等级相同,则将相同的等级定义为所述校对目标的等级,若三个等级均不相同,则将所述校对目标的所述属性数据和所述待校验等级存储至专家审核队列;
本发明还提供一种计算机存储介质,所述计算机存储介质存储有程序指令,其中,在所述程序指令运行时控制所述计算机存储介质所在设备执行上述所述的一种数据校对方法。
与现有技术相比,本发明的有益效果至少如下所述:
本发明首先通过针对每个对象建立数值校对表和文本校对表,当接收到校对目标的数据中,从数据中抽取数值数据和文本数据,然后将数值数据与数值校对表中各个数值范围进行对比,从而获取校对目标的第一等级,将文本数据与文本校对表中各个描述文本进行对比,从而获取校对目标的第二等级,之后,将校对目标的待校验等级、第一等级和第二等级进行核对,一方面,可以较为可靠的确定校对目标所处的等级,另一方面,由于待校验等级为基于人工进行判断,因此通过第一等级和第二等级对待校验等级进行校核,可以避免人工判断错误,或者人工故意设置错误待校验等级的欺诈行为。
本发明通过设置多个数据库,将同种类型的对象存储至不同的数据库内,之后建立索引表进行索引,在校对目标名称完整时,可以基于索引表索引,当校对目标不完整时,可以基于对应的类型只在一个数据库内进行检索,从而提升了数据的检索效率。
附图说明
图1为本发明一种数据校对方法的步骤流程图;
图2为本发明数值校对表的原理示意图;
图3为本发明文本校对表的原理示意图;
图4为本发明检索次序表的原理示意图;
图5为本发明一种数据校对系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如图1所示,一种数据校对方法,包括。
步骤S1:针对每个对象建立数值校对表和文本校对表,数值校对表和文本校对表内均设置了多个评价等级,数值校对表中每个评价等级对应多种数值数据的范围,文本校对表中每个评价等级对应一种第一文本数据,将不同对象的数值校对表和文本校对表存储至不同的数据库内,并建立指示数值校对表和文本校对表所在数据库位置的索引表。
具体的,以工厂设备为对象进行举例,例如设备A、设备B和设备C,设备A又包括多个不同的型号;如图2和图3所示,数值校对表包括多个评价等级,如图中的等级1至等级5,每个评价等级对应多种数值数据的范围;同样的,文本校对表包括与数值校对表内相同的评价等级,每个评价等级对应一段文本描述(图中的文本1至5),即文本数据,在本实施例中,文本数据为设备发生故障时对故障现象的描述;建立三个数据库,将不同型号设备A、不同型号设备B和不同型号设备C的数据数值校对表和文本校对表分别存储至三个数据库内。
步骤S2:确定需要审核的对象,定义为校对目标,判断校对目标的名称是否位于索引表内,是的情况下,基于索引表定位对应的数值校对表和文本校对表,否的情况下,继续执行步骤S3。
步骤S3:接收校对目标的属性数据和待校验等级,属性数据包括多个不同类型的数值数据和对校对目标描述的第二文本数据,从属性数据中抽取数值数据和第二文本数据,从数据库检索与校对目标相关联的数值校对表和文本校对表,基于校对目标的数值数据和数值校对表获得第一等级,基于第二文本数据和文本校对表获得第二等级。
确定校对目标的名称为设备A型号A,则基于索引表定位到对应的数值校对表和文本校对表;若校对目标仅有名称设备A,则定位到数据库后,接收校对目标的属性数据和待校验等级,在本实施例中,属性数据包括设备A发生故障时的各个参数,例如电流和电压数值,以及故障发生时外部现象的文本描述,文本描述即第二文本数据,例如文本描述例如“设备故障时A灯为红灯,并发生滋滋声”;待校验等级为预先设置的等级,当设备发生故障时,待校验等级可以由相关人员初步诊断判定,然后提交到系统中进行审核,也由结构较为简单的机器学习模型确定;抽取校对目标的第二文本数据,然后以第二文本数据为检索条件,从第一数据库检索与该文本内容描述相近的文本校对表,之后在基于检索到的文本校对表获得相关的数值校对表;在此之后,通过匹配获得设备A的各个数据符合至数值校对表哪个数值范围,例如设备A的数值数据a=1.5,b=11,则将设备A划分为等级1,即第一等级,同样的,核对校对目标的第二文本数据,获得第二等级。
步骤S4:若在第一等级、第二等级和待校验等级中,有至少两个等级相同,则将相同的等级定义为校对目标的等级,若三个等级均不相同,则将校对目标的属性数据和待校验等级存储至专家审核队列。
例如,若第一等级和第二等级均为等级1,而待校验等级为等级2,则将校对目标设定为等级1,从而对故障判断结果进行修正;若第一等级、第二等级和待校验等级分别为等级1、等级2和等级3,则将校对目标的第一文件存储的专家审核队列,专家审核队列具体为专家处理队列,通过将第一文件发送至专家审核队列中,从而分发至系统中指定的专家处理,从而处理仅通过系统无法解决的问题。
需要说明的是,上述记载只是为方便说明本发明的技术方案,从而以工厂故障场景进行举例,但本发明的应用不仅限于此,本发明还可用于对企业文件数据的审核校对,在该场景下,可以设置审核规则,审核规则包括数值范围和文本描述,校对目标的待校验等级为提交人基于文件数据设置的待校验等级,系统在接收文件数据后,查看文件数据中的数值是否均位于各个数值范围内,文件数据中的文本描述是否与预设的文本描述相符,若两条都满足,表明文件数据满足审核规则,则系统自动审核通过文件数据,否则不予通过,通过此方式可以避免提交人恶意设置错误的待校验等级,致使出现欺诈行为。
本发明首先通过针对每个对象建立数值校对表和文本校对表,当接收到校对目标的数据中,从数据中抽取数值数据和文本数据,然后将数值数据与数值校对表中各个数值范围进行对比,从而获取校对目标的第一等级,将文本数据与文本校对表中各个描述文本进行对比,从而获取校对目标的第二等级,之后,将校对目标的待校验等级、第一等级和第二等级进行核对,一方面,可以较为可靠的确定校对目标所处的等级,另一方面,由于待校验等级为基于人工进行判断,因此通过第一等级和第二等级对待校验等级进行校核,可以避免人工判断错误,或者人工故意设置错误待校验等级的欺诈行为。
本发明通过设置多个数据库,将同种类型的对象存储至不同的数据库内,之后建立索引表进行索引,在校对目标名称完整时,可以基于索引表索引,当校对目标不完整时,可以基于对应的类型只在一个数据库内进行检索,从而提升了数据的检索效率。
尤为注意是,本发明通过上述技术方案,即便是收到的数据中包括文本数据,也可以实现对其进行审核校对。
现有技术中在进行检索时,一般从文本数据中抽取关键词进行检索,若检索的数据库中,某个文本存在相同的关键词,将其作为检索输出,然而,此过程一方面需要事先提取要检索文本中的关键词,另一方面,还需要为数据库内每个文本设置标签,以方便检索,现有技术中一般通过设置词典库进行解决,词典库内预先设置有多个具有代表性的关键词,若要检索的文本数据中存在词典库内的关键词,将其抽出进行检索,然而,词典库的构建会耗费较多的人力,并且构建效果也与构建人的经验密切相关,因此,本发明提出以下步骤,在构建词典库的基础上,自动抽取文本中的关键词对其进行补充。
步骤S31:为每个文本校对表中设置标签组,标签组包括多个第一特征关键词,抽取校对目标的第二文本数据,将第二文本数据逐字符拆分,获得多个单字符,统计各个单字符的出现次数,设置第一阈值,将出现次数大于等于第一阈值的单字符定义为第一字符。
具体的,标签组包括多个第一特征关键词,例如在企业场景中,人工智能、机器学习、深度学习等为其中一个文件校对表标签组的第一特征关键词;在工厂场景中,电压、按钮A红灯、按钮B黄灯为其中一个文件校对表标签组的第一特征关键词。文本校对表中的各个文本1、文本2等均包括上述关键词,也是基于上述关键词进行展开描述的。之后,抽取校对目标的第二文本数据,以企业场景进行举例,例如第二文本数据中存在语句描述为“AA公司在人工智能领域有所建树”,那么就将其拆分为单个字符“公”“司”“在”“人”“工”“智”“能” “领”“域”“有”“所”“建”“树”,基于此原理,当第二文本数据包括多个语句时,通过上述步骤对所有语句进行拆分,若第一阈值设定为5,经过统计得出,其中 “公”“司”“人”“工”“智”“能”的出现次数为大于五次,因此将其设置为第一字符。
步骤S32:以每个第一字符为起点,将第一字符与其前一个字符组成第一词组,将第一字符与其后一个字符组成第二词组,统计各个第一词组和第二词组的出现次数,设置第二阈值,将出现次数大于等于第二阈值的第一词组和第二词组保留。
上述语句中,基于第一字符组成后的第一词组为“A公”“公司”“在人”“人工”“工智”“智能”,第二词组为“公司”“司在”“人工”“工智”“智能”“能领”,设置第二阈值为6次,经过统计得出,其中“公司”“工智”“智能”的出现次数为大于6次,因此将上述词组保留。特别的,若字符位于句子的开头,因此只将其与后一个字符相组词。
步骤S33:以每个第一词组为起点,将第一词组与其相邻字符组成第三词组,若基于同一第一词组生成的第三词组相同,则将第三词组设置为第二特征关键词,若第三词组均不相同,则将第一词组设置为第二特征关键词,重复本步骤,基于第二词组生成第四词组,并从第四词组中选取第二特征关键词。
上述语句中,基于第一词组生成的第三词组为“A公司在”“人工智能”“工智能领”,若第二文本数据中,其他语句基于 “公司”“工智”“智能”生成的第三词组为“本公司拥”“人工智能”“工智能的”,在第三词组中,“A公司在”和“本公司拥”为同一个第一词组“公司”扩展出的第三词组,同理,“人工智能”和“人工智能”为同一词组“工智”扩展出的第三词组,这里由于两者相同,因此将“人工智能”设置为第二特征关键词;将其设置为第二特征关键词原因是,由于其基于“工智”进行扩展而来,并且扩展同样生成了“人工智能”,表明“人工智能”是一个整体词语,而“工智能领”和“工智能的”都基于“智能”扩展,扩展后的词语显然不同,表明“智能”是一个整体词语,因此将“智能”设置为第二特征关键词;同样的,基于上述步骤继续对第二词组进行扩展,此处不再赘述。
步骤S34:以每个第三词组起点,每个第四词组为起点,重复步骤S33继续进行扩展,设置第三阈值,当词组的字符长度达到第三阈值时停止扩展,获得多个不同字符长度的第二特征关键词,基于第二特征关键词生成检索次序表并进行检索,若存在标签组包括多个与其对应的第一特征关键词,则将标签组对应的文本校对表,以及与文本校对表对应的数值校对表作为检索结果。
在本实施例中,第三阈值设置为4,即第二特征关键词达到4个字符时停止扩展,在其他实施例中还可设置为6,即第二特征关键词达到6个字符时停止扩展。在获得多个不同长度的第二特征关键词后,例如本实施例中的“公司”“人工智能”“智能”,在数据库中进行检索,若存在文本校对表的标签组中包括“人工智能”的第一关键词,则将该文本校对表作为检索结果输出。
通过上述步骤,可以自动提取文本数据中的关键词,并且还可以保证提取出的关键词的合理性和完整性;需要说明的是,上述步骤是在构建词典库的基础上进行的,当接收到文本数据后,先基于词典库抽取其中的关键词,然后再基于上述步骤再次抽取关键词,两者互为补充,从而提升关键词的提取效果。
上述步骤中,通过第一词组和第二词组扩展出的关键词均为包含四个字符的关键词,这就会导致其忽略三个字符的关键词,因此,本发明还提出以下步骤,从中提取包含三个字符的关键词作为第二特征关键词。
统计各个第二特征关键词在第二文本数据中的出现次数,基于出现次数的大小,自上而下降将第二特征关键词排列为检索次序表;
定位检索次序表中包括四个字符的第二特征关键词,并抽取各个第二特征关键词中的首字符和尾字符,分别统计各个首字符和尾字符在第二特征关键词首端和尾端出现次数,设定第四阈值,若首字符出现次数大于第四阈值,则抽取包含该首字符第二特征关键词的前三个字符,定义为第一衍生词组,若尾字符出现次数大于第四阈值,则抽取包含该尾字符第二特征关键词的后三个字符,定义为第二衍生词组,将第一衍生词组和第二衍生词组添加至检索次序表内。
如图4所示,在检索次序表中包括4列,第一列的数字对第二特征关键词的出现次数,例如“智能”出现20次,“人工智能”出现9次。之后定位其中包括四个字符的第二特征关键词,例如图3中的“数据集合”“数据集成”“人工智能”,之后统计各个第二特征关键词首端字符和尾端字符出现次数,例如,统计“数”在图3中第2列出现次数,此处为2,之后再统计“人”在第2列出现次数,此处为1;若第四阈值设置为1,则“数”的出现次数大于1,则抽取“数据集合”“数据集成”的前三个字符“数据集”,定义为第一衍生词组,并将其添加至检索次序表内;同理,基于上述步骤再统计检索次序表中第4列各个字符的出现次数,从而继续获得第二衍生词组。因此,通过本步骤可以从第二特征关键词中再进行更进一步的提取,从而提升关键词的提取准确性。
本实施例在生成检索次序表后,基于以下步骤在数据库内进行检索:
从检索次序表中抽取第一次序的第二特征关键词,在数据库内进行检索,定义包含第二特征关键词的标签组,将检索出的标签组对应的文本校对表作为检索结果,继续从检索次序表中抽取第二次序的第二特征关键词在数据库内进行检索获得检索结果,重复此步骤,直至完成检索次序表中所有第二特征关键词的检索,抽取各个检索结果中,文本校对表对应的标签组,将标签组与检索次序表进行对比,将标签组中包含第二特征关键词最多的文本校对标准定义为最终检索结果。
继续参照图3,在进行检索时,首先以“智能”第二特征关键词进行检索,若存在文本校对表的标签组中包括“智能”的关键词,则将该文本校对表作为检索结果输出,这里定义为第一检索结果,之后,再以“公司”为第二特征关键词进行检索,从而获得第二检索结果;在完成对检索次序表所有第二特征关键词的检索后,将各个结果中的文本校对表进行汇总,合并其中重复出现的文本校对表,之后,将每个文本校对表标签组包含的第一特征关键词与检索次序表中第二特征关键词对比,例如,第一个检索校对表中包括“智能”和“公司”两个第一特征关键词,也表明该表包括两个第二特征关键词,第二个检索校对表中包括“人工智能” “公司”和“数据集合”三个第一特征关键词,表明该表包括三个第二特征关键词,此时就选择第二个检索结果作为最终检索结果。
基于第二文本数据和文本校对表获得第二等级包括以下步骤。
建立语义对比模型,获取校对目标的待校验等级,基于待校验等级在文本校对表内搜索与其对应的第一文本数据,基于语义对比模型,将搜索出的第一文本数据与第二文本数据进行对比,获取两者的相似度,设定第五阈值,若相似度大于第五阈值,则将第二等级设置为第一文本数据对应的评价等级,若相似度低于第五阈值,则将校对目标传输至专家审核队列。
在本实施例中,语义对比模型基于LSTM长短时记忆网络构建,语义对比模型在使用前需要使用现有的文本数据进行训练,神经网络的构建过程,以及对其训练时数据中训练集和验证集的划分方式均为已知的,此处不再赘述。在获得最终检索结果后,获取校对目标的待校验等级,例如等级1,则在检索到对应的文本校对表后,首先将第二文本数据与文本校对表中,等级1所对应的文本1进行对比,基于语义对比模型计算并获得两者的相似度,本实施例将第五阈值设置为85%,若两者的相似度为95%,则将校对目标划分为等级1,否则将其划分至专家审核队列,从而由专家进行处理。
如图5所示,本发明还提供了一种数据校对系统,该系统用于实现上述的一种数据校对方法,该系统主要包括:
数据库模块,包括数据库D1、数据库D2和数据库D3,每个数据库内存储有不同对应的数值校对表和文本校对表,数值校对表和文本校对表内均设置了多个评价等级,数值校对表中每个评价等级对应多种数值数据的范围,文本校对表中每个评价等级对应一种第一文本数据;
判断模块,判断模块内设置有索引表,判断模块确定需要审核的对象,定义为校对目标,判断校对目标的名称是否位于索引表内,是的情况下,基于索引表定位对应的数值校对表和文本校对表;
等级生成模块,若校对目标的名称没有位于索引表内,则接收校对目标的属性数据和待校验等级,属性数据包括多个不同类型的数值数据和对校对目标描述的第二文本数据,从属性数据中抽取数值数据和第二文本数据,从数据库检索与校对目标相关联的数值校对表和文本校对表,基于校对目标的数值数据和数值校对表获得第一等级,基于第二文本数据和文本校对表获得第二等级;
校对模块,接收第一等级、第二等级和待校验等级,若在第一等级、第二等级和待校验等级中,有至少两个等级相同,则将相同的等级定义为校对目标的等级,若三个等级均不相同,则将校对目标的属性数据和待校验等级存储至专家审核队列;
本发明还提供一种计算机存储介质,计算机存储介质存储有程序指令,其中,在程序指令运行时控制计算机存储介质所在设备执行上述的一种数据校对方法。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一个非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种数据校对方法,其特征在于,包括:
步骤S1:针对每个对象建立数值校对表和文本校对表,所述数值校对表和所述文本校对表内均设置了多个评价等级,所述数值校对表中每个所述评价等级对应多种数值数据的范围,所述文本校对表中每个所述评价等级对应一种第一文本数据,将不同所述对象的所述数值校对表和所述文本校对表存储至不同的数据库内,并建立指示所述数值校对表和所述文本校对表所在所述数据库位置的索引表;
步骤S2:确定需要审核的所述对象,定义为校对目标,判断所述校对目标的名称是否位于所述索引表内,是的情况下,基于所述索引表定位对应的所述数值校对表和所述文本校对表,否的情况下,继续执行步骤S3;
步骤S3:接收所述校对目标的属性数据和待校验等级,所述属性数据包括多个不同类型的数值数据和对所述校对目标描述的第二文本数据,从所述属性数据中抽取数值数据和所述第二文本数据,从所述数据库检索与所述校对目标相关联的所述数值校对表和所述文本校对表,基于所述校对目标的数值数据和所述数值校对表获得第一等级,基于第二文本数据和所述文本校对表获得第二等级;
步骤S4:若在所述第一等级、所述第二等级和所述待校验等级中,有至少两个等级相同,则将相同的等级定义为所述校对目标的等级,若三个等级均不相同,则将所述校对目标的所述属性数据和所述待校验等级存储至专家审核队列;
所述步骤S3中,从所述数据库检索与所述校对目标相关联的所述数值校对表和所述文本校对表包括以下步骤:
步骤S31:为每个所述文本校对表中设置标签组,所述标签组包括多个第一特征关键词,抽取所述校对目标的所述第二文本数据,将所述第二文本数据逐字符拆分,获得多个单字符,统计各个所述单字符的出现次数,设置第一阈值,将出现次数大于等于所述第一阈值的所述单字符定义为第一字符;
步骤S32:以每个所述第一字符为起点,将所述第一字符与其前一个字符组成第一词组,将所述第一字符与其后一个字符组成第二词组,统计各个所述第一词组和所述第二词组的出现次数,设置第二阈值,将出现次数大于等于所述第二阈值的所述第一词组和第二词组保留;
步骤S33:以每个所述第一词组为起点,将所述第一词组与其相邻字符组成第三词组,若基于同一所述第一词组生成的所述第三词组相同,则将所述第三词组设置为第二特征关键词,若所述第三词组均不相同,则将所述第一词组设置为所述第二特征关键词,重复本步骤,基于所述第二词组生成第四词组,并从所述第四词组中选取所述第二特征关键词;
步骤S34:以每个所述第三词组起点,每个所述第四词组为起点,重复所述步骤S33继续进行扩展,设置第三阈值,当词组的字符长度达到所述第三阈值时停止扩展,获得多个不同字符长度的所述第二特征关键词,基于所述第二特征关键词生成检索次序表并进行检索,若存在所述标签组包括多个与其对应的所述第一特征关键词,则将所述标签组对应的文本校对表,以及与所述文本校对表对应的所述数值校对表作为检索结果。
2.根据权利要求1所述的一种数据校对方法,其特征在于,所述步骤S34中,生成所述检索次序表包括以下步骤:
统计各个所述第二特征关键词在所述第二文本数据中的出现次数,基于出现次数的大小,自上而下降将所述第二特征关键词排列为所述检索次序表;
定位所述检索次序表中包括四个字符的所述第二特征关键词,并抽取各个所述第二特征关键词中的首字符和尾字符,分别统计各个所述首字符和所述尾字符在所述第二特征关键词首端和尾端出现次数,设定第四阈值,若所述首字符出现次数大于所述第四阈值,则抽取包含该所述首字符所述第二特征关键词的前三个字符,定义为第一衍生词组,若所述尾字符出现次数大于所述第四阈值,则抽取包含该所述尾字符所述第二特征关键词的后三个字符,定义为第二衍生词组,将所述第一衍生词组和所述第二衍生词组添加至所述检索次序表内。
3.根据权利要求2所述的一种数据校对方法,其特征在于,在生成所述检索次序表后,基于以下步骤在所述数据库内进行检索:
从所述检索次序表中抽取第一次序的所述第二特征关键词,在所述数据库内进行检索,定义包含所述第二特征关键词的所述标签组,将检索出的所述标签组对应的所述文本校对表作为检索结果,继续从所述检索次序表中抽取第二次序的第二特征关键词在所述数据库内进行检索获得检索结果,重复此步骤,直至完成所述检索次序表中所有所述第二特征关键词的检索,抽取各个检索结果中,所述文本校对表对应的所述标签组,将所述标签组与所述检索次序表进行对比,将所述标签组中包含所述第二特征关键词最多的所述文本校对表定义为最终检索结果。
4.根据权利要求1-3任一项所述的一种数据校对方法,其特征在于,基于第二文本数据和所述文本校对表获得所述第二等级包括以下步骤:
建立语义对比模型,获取所述校对目标的所述待校验等级,基于所述待校验等级在所述文本校对表内搜索与其对应的所述第一文本数据,基于所述语义对比模型,将搜索出的所述第一文本数据与所述第二文本数据进行对比,获取两者的相似度,设定第五阈值,若所述相似度大于所述第五阈值,则将所述第二等级设置为所述第一文本数据对应的所述评价等级,若所述相似度低于所述第五阈值,则将所述校对目标传输至所述专家审核队列。
5.一种数据校对系统,用于实现如权利要求1-4任一项所述的一种数据校对方法,其特征在于,包括:
数据库模块,包括多个数据库,每个数据库内存储有不同对应的数值校对表和文本校对表,所述数值校对表和所述文本校对表内均设置了多个评价等级,所述数值校对表中每个所述评价等级对应多种数值数据的范围,所述文本校对表中每个所述评价等级对应一种第一文本数据;
判断模块,所述判断模块内设置有索引表,所述判断模块确定需要审核的所述对象,定义为校对目标,判断所述校对目标的名称是否位于所述索引表内,是的情况下,基于所述索引表定位对应的所述数值校对表和所述文本校对表;
等级生成模块,若所述校对目标的名称没有位于所述索引表内,则接收所述校对目标的属性数据和待校验等级,所述属性数据包括多个不同类型的数值数据和对所述校对目标描述的第二文本数据,从所述属性数据中抽取数值数据和所述第二文本数据,从所述数据库检索与所述校对目标相关联的所述数值校对表和所述文本校对表,基于所述校对目标的数值数据和所述数值校对表获得第一等级,基于第二文本数据和所述文本校对表获得第二等级,其中,从所述数据库检索与所述校对目标相关联的所述数值校对表和所述文本校对表时,所述等级生成模块为每个所述文本校对表中设置标签组,所述标签组包括多个第一特征关键词,抽取所述校对目标的所述第二文本数据,将所述第二文本数据逐字符拆分,获得多个单字符,统计各个所述单字符的出现次数,设置第一阈值,将出现次数大于等于所述第一阈值的所述单字符定义为第一字符,以每个所述第一字符为起点,将所述第一字符与其前一个字符组成第一词组,将所述第一字符与其后一个字符组成第二词组,统计各个所述第一词组和所述第二词组的出现次数,设置第二阈值,将出现次数大于等于所述第二阈值的所述第一词组和第二词组保留,以每个所述第一词组为起点,将所述第一词组与其相邻字符组成第三词组,若基于同一所述第一词组生成的所述第三词组相同,则将所述第三词组设置为第二特征关键词,若所述第三词组均不相同,则将所述第一词组设置为所述第二特征关键词,所述等级生成模块以每个所述第二词组为起点,基于所述第一词组生成所述第三词组的方式,通过所述第二词组生成第四词组,并从所述第四词组中选取所述第二特征关键词,所述等级生成模块基于所述第一词组生成所述第三词组的方式,以每个所述第三词组起点和每个所述第四词组为起点继续扩展,设置第三阈值,当词组的字符长度达到所述第三阈值时停止扩展,获得多个不同字符长度的所述第二特征关键词,基于所述第二特征关键词生成检索次序表并进行检索,若存在所述标签组包括多个与其对应的所述第一特征关键词,则将所述标签组对应的文本校对表,以及与所述文本校对表对应的所述数值校对表作为检索结果;
校对模块,接收所述第一等级、所述第二等级和所述待校验等级,若在所述第一等级、所述第二等级和所述待校验等级中,有至少两个等级相同,则将相同的等级定义为所述校对目标的等级,若三个等级均不相同,则将所述校对目标的所述属性数据和所述待校验等级存储至专家审核队列。
6.一种计算机存储介质,其特征在于,所述计算机存储介质存储有程序指令,其中,在所述程序指令运行时控制所述计算机存储介质所在设备执行权利要求1-4任意一项所述的一种数据校对方法。
CN202310754193.9A 2023-06-26 2023-06-26 一种数据校对方法、系统及存储介质 Active CN116502614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310754193.9A CN116502614B (zh) 2023-06-26 2023-06-26 一种数据校对方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310754193.9A CN116502614B (zh) 2023-06-26 2023-06-26 一种数据校对方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN116502614A CN116502614A (zh) 2023-07-28
CN116502614B true CN116502614B (zh) 2023-09-01

Family

ID=87320501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310754193.9A Active CN116502614B (zh) 2023-06-26 2023-06-26 一种数据校对方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116502614B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324609A (zh) * 2012-03-19 2013-09-25 富士通株式会社 文本校对装置和文本校对方法
CN104036047A (zh) * 2014-07-02 2014-09-10 携程计算机技术(上海)有限公司 字符串自动修正方法及系统
CN107665190A (zh) * 2017-09-29 2018-02-06 李晓妮 一种文本校对错误词库的自动构造方法和装置
CN109918640A (zh) * 2018-12-22 2019-06-21 浙江工商大学 一种基于知识图谱的中文文本校对方法
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
CN113986968A (zh) * 2021-10-22 2022-01-28 广西电网有限责任公司 一种基于电力标准规范数据化的方案智能校对方法
CN114925170A (zh) * 2022-05-25 2022-08-19 人民网股份有限公司 文本校对模型训练方法及装置、计算设备
CN115618371A (zh) * 2022-07-11 2023-01-17 上海期货信息技术有限公司 一种非文本数据的脱敏方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4006239B2 (ja) * 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
JP7211139B2 (ja) * 2019-02-14 2023-01-24 日本電信電話株式会社 校閲方法、情報処理装置および校閲プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324609A (zh) * 2012-03-19 2013-09-25 富士通株式会社 文本校对装置和文本校对方法
CN104036047A (zh) * 2014-07-02 2014-09-10 携程计算机技术(上海)有限公司 字符串自动修正方法及系统
CN107665190A (zh) * 2017-09-29 2018-02-06 李晓妮 一种文本校对错误词库的自动构造方法和装置
CN109918640A (zh) * 2018-12-22 2019-06-21 浙江工商大学 一种基于知识图谱的中文文本校对方法
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
CN113986968A (zh) * 2021-10-22 2022-01-28 广西电网有限责任公司 一种基于电力标准规范数据化的方案智能校对方法
CN114925170A (zh) * 2022-05-25 2022-08-19 人民网股份有限公司 文本校对模型训练方法及装置、计算设备
CN115618371A (zh) * 2022-07-11 2023-01-17 上海期货信息技术有限公司 一种非文本数据的脱敏方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多特征的中文文本校对算法的研究;李建华, 王晓龙, 王平, 王淑清;计算机工程与科学(03);第93-96页 *

Also Published As

Publication number Publication date
CN116502614A (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
US20180173696A1 (en) System and method for creating and building a domain dictionary
CN110390006B (zh) 问答语料生成方法、装置和计算机可读存储介质
CN110765235B (zh) 训练数据的生成方法、装置、终端及可读介质
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN112488896B (zh) 应急预案生成方法、装置、计算机设备及存储介质
CN113110866A (zh) 一种数据库变更脚本的评估方法及装置
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN107590119A (zh) 人物属性信息抽取方法及装置
CN116737967A (zh) 一种基于自然语言的知识图谱构建和完善系统及方法
CN112836061A (zh) 智能推荐的方法、装置以及计算机设备
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN116502614B (zh) 一种数据校对方法、系统及存储介质
CN117194607A (zh) 基于自然语言的搜索方法和系统
CN116127960B (zh) 信息抽取方法、装置、存储介质及计算机设备
CN116932694A (zh) 一种针对知识库的智能化检索方法、设备及存储介质
CN112507129B (zh) 配电网作业文件的内容变动处理方法及相关设备
CN116303923A (zh) 一种知识图谱问答方法、装置、计算机设备和存储介质
CN106649255A (zh) 一种对短文本自动分类和识别主题词的方法
CN114579834A (zh) 网页登录实体识别方法、装置、电子设备及存储介质
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质
CN111476037B (zh) 文本处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant