CN114780682B - 一种解析数据评估方法、设备及介质 - Google Patents
一种解析数据评估方法、设备及介质 Download PDFInfo
- Publication number
- CN114780682B CN114780682B CN202210427882.4A CN202210427882A CN114780682B CN 114780682 B CN114780682 B CN 114780682B CN 202210427882 A CN202210427882 A CN 202210427882A CN 114780682 B CN114780682 B CN 114780682B
- Authority
- CN
- China
- Prior art keywords
- evaluation
- determining
- data
- models
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000011157 data evaluation Methods 0.000 title claims description 11
- 238000004458 analytical method Methods 0.000 claims abstract description 155
- 238000011156 evaluation Methods 0.000 claims abstract description 140
- 238000013210 evaluation model Methods 0.000 claims abstract description 101
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 7
- 238000009826 distribution Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000019227 E-number Nutrition 0.000 description 1
- 239000004243 E-number Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种解析数据评估方法、设备及介质,方法包括:获取待解析的非结构化数据,并将非结构化数据解析为预设解析模板中多个字段对应的解析数据;其中,解析数据为结构化数据;根据预先构建的多个评估模型,确定解析数据的多个初始评估值;其中,评估模型用于评估解析数据的正确率,多个评估模型之间的估值区间相同;确定多个初始评估值分别对应的权重值,根据权重值,确定解析数据的最终评估值;根据最终评估值,对解析数据进行评估。通过采用多个评估模型相结合的方式,避免了单种方法的不确定性,帮助开发人员更高效完成解析数据的筛查工作,减轻人工筛查环节的工作压力,提高解析数据评估效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种解析数据评估方法、设备及介质。
背景技术
随着互联网的高速发展,每天都会有大量的数据产生,这些数据大多杂乱无章,无法直接产生价值,需要为了实现对大量非结构数据的解析、提取,获得结构化的便于直观分析的数据。比如,需要通过人与房屋地址之间的关系,统计分析各层级地址内的年龄分布、性别分布、收支分布、学历分布等。
目前,已存在好多开源程序或接口供用户去调用,比如,自然语言处理或深度学习领域存在有许多开源方法,如libpostal开源项目,HANLP服务,百度地址API开放平台,又或是基于NLP的命名实体识别任务与深度学习相结合的设计模型,都有着不错的分词效果。
但是,任何解析模型都无法对数据解析提供百分百的准确率,因此,后期还需要用户去逐一筛查不合格的解析数据,在此过程中,由于存在大量解析数据,用户也无法保证解析数据的评估正确率,从而浪费大量人力,解析数据评估效率非常低。
发明内容
本申请实施例提供一种解析数据评估方法、设备及介质,用于解决解析数据评估效率低的问题。
本申请实施例采用下述技术方案:
一方面,本申请实施例提供了一种解析数据评估方法,该方法包括:获取待解析的非结构化数据,并将所述非结构化数据解析为预设解析模板中多个字段对应的解析数据;其中,所述解析数据为结构化数据;根据预先构建的多个评估模型,确定所述解析数据的多个初始评估值;其中,所述评估模型用于评估所述解析数据的正确率,所述多个评估模型之间的估值区间相同;确定所述多个初始评估值分别对应的权重值,根据所述权重值,确定所述解析数据的最终评估值;根据所述最终评估值,对所述解析数据进行评估。
一个示例中,所述多个评估模型包括第一评估模型,所述多个初始评估值包括第一初始评估值,所述方法还包括:确定所述解析数据的字符长度,以及所述解析数据的预设字符长度;将所述字符长度与所述预设字符长度进行匹配,确定所述字符长度与所述预设字符长度之间的长度差值;根据所述长度差值,确定所述解析数据的第一初始评估值。
一个示例中,所述解析数据包括第一解析结果与第二解析结果,所述多个评估模型包括第二评估模型,所述多个初始评估值包括第二初始评估值,所述方法还包括:对所述第一解析结果进行嵌入处理,并通过词向量模型,确定所述第一解析结果中所述多个字段对应的第一词嵌入平均值;以及对所述第二解析结果进行嵌入处理,并通过所述词向量模型,确定所述第二解析结果中所述多个字段对应的第二词嵌入平均值;根据所述第一词嵌入平均值,确定所述第一解析结果的词嵌入平均值,以及根据所述第二词嵌入平均值,确定所述第二解析结果的词嵌入平均值;计算所述第一解析结果的词嵌入平均值与所述第二解析结果的词嵌入平均值之间的余弦值;根据所述余弦值,确定所述第一解析结果与第二解析结果之间的相似度;根据所述相似度,确定所述解析数据的第二初始评估值。
一个示例中,所述多个评估模型包括第三评估模型,所述多个初始评估值包括第三初始评估值,所述方法还包括:确定所述多个字段对应的第一数据关键词;根据正则表达式的结尾字符判断算法,将所述第一数据关键词与所述解析数据在所述多个字段中对应的结尾字进行匹配,确定匹配项数,并计算所述匹配项数与所述第一数据关键词项数之间的第一比值;根据所述第一比值,确定所述解析数据的第一正则评分项;根据所述第一正则评分项,确定所述解析数据的第三初始评估值。
一个示例中,所述根据所述第一正则评分项,确定所述解析数据的第三初始评估值,具体包括:确定所述解析数据中包括的第二数据关键词;根据正则表达式的关键词检索算法,确定所述第二数据关键词出现在对应字段名下的第二数据关键词项数;计算所述第二数据关键词项数与所述第一数据关键词项数之间的第一比值;根据所述第一比值,确定所述解析数据的第二正则评分项;根据所述第一正则评分项与所述第二正则评分项分别对应的权重,确定所述解析数据的第三初始评估值。
一个示例中,所述多个评估模型包括第四评估模型,所述多个初始评估值包括第四初始评估值,所述方法还包括:根据预设映射表,计算所述解析数据的字符长度所对应的平均解析列数;计算所述平均解析列数与所述解析数据的列数之间的第三比值;根据所述第三比值,确定所述解析数据的第四初始评估值。
一个示例中,所述确定所述多个初始评估值分别对应的权重值,具体包括:根据优序图算法与所述多个评估模型的预设重要程度值,确定所述多个评估模型分别对应的第一评估分;根据独立性权重法评判标准,判断所述多个评估模型之间是否存在重合性;若是,则根据预设比例系数,降低重合评估模型的第一评估分,以得到多个评估模型分别对应的第二评估分;根据所述多个评估模型分别对应的第二评估分,确定所述多个初始评估值分别对应的权重值。
一个示例中,所述根据独立性权重法评判标准,判断所述多个评估模型之间是否存在重合性,具体包括:根据独立性权重法评判标准,确定所述多个评估模型之间的关联程度;根据所述关联性,判断所述多个评估模型之间是否存在重合性;所述根据所述多个评估模型分别对应的第二评估分,确定所述多个初始评估值分别对应的权重值,具体包括:对所述多个评估模型分别对应的第二评估分进行求和,得到总评估分;根据所述总评估分与所述第二评估分,确定所述多个评估模型分别对应的第四比值;根据所述多个评估模型分别对应的第四比值,确定所述多个初始评估值分别对应的权重值。
另一方面,本申请实施例提供了一种解析数据评估设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取待解析的非结构化数据,并将所述非结构化数据解析为预设解析模板中多个字段对应的解析数据;其中,所述解析数据为结构化数据;根据预先构建的多个评估模型,确定所述解析数据的多个初始评估值;其中,所述评估模型用于评估所述解析数据的正确率,所述多个评估模型之间的估值区间相同;确定所述多个初始评估值分别对应的权重值,根据所述权重值,确定所述解析数据的最终评估值;根据所述最终评估值,对所述解析数据进行评估。
另一方面,本申请实施例提供了一种解析数据评估非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:获取待解析的非结构化数据,并将所述非结构化数据解析为预设解析模板中多个字段对应的解析数据;其中,所述解析数据为结构化数据;根据预先构建的多个评估模型,确定所述解析数据的多个初始评估值;其中,所述评估模型用于评估所述解析数据的正确率,所述多个评估模型之间的估值区间相同;确定所述多个初始评估值分别对应的权重值,根据所述权重值,确定所述解析数据的最终评估值;根据所述最终评估值,对所述解析数据进行评估。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过采用多个评估模型相结合的方式,避免了单种方法的不确定性,帮助开发人员更高效、更高质量的完成解析数据筛查工作,可以高效的分辨出不合格的解析数据,减轻人工筛查环节的工作压力,提高解析数据评估效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将结合附图来对本申请的部分实施例进行详细说明,附图中:
图1为本申请实施例提供的一种解析数据评估方法的流程示意图;
图2为本申请实施例提供的一种解析数据评估设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面参照附图来对本申请的一些实施例进行详细说明。
图1为本申请实施例提供的一种解析数据评估方法的流程示意图。该方法可以应用于不同的业务领域,比如,互联网金融业务领域、电商业务领域、即时通讯业务领域、游戏业务领域、公务业务领域等。该流程可以由相应领域的计算设备(比如,公务业务对应的统计服务器或者智能移动终端等)执行,流程中的某些输入参数或者中间结果允许人工干预调节,以帮助提高准确性。
需要说明的是,该统计服务器可以是单独的一台设备,可以是有多台设备组成的系统,即,分布式服务器,本申请对此不做具体限定。
S102:获取待解析的非结构化数据,并将所述非结构化数据解析为预设解析模板中多个字段对应的解析数据。其中,解析数据为结构化数据。
例如,非结构化数据为房屋地址数据,需要通过人与房屋地址之间的关系,统计分析各层级地址内的年龄分布、性别分布、收支分布、学历分布等。结构化数据为房屋地址解析数据。
其中,预设解析模板如表1所示。
表1:
基于表中的字段,原始地址长度对应的解析数据可以为A省B市C区D路E号F小区G号楼H单元I室。
进一步地,解析数据如表2所示:
表2:
解析数据也可能是不合格的,比如,解析数据为A省C区G号楼I室。即,并没有对非结构数据进行解析完整,从而得到缺失的解析数据。
不合格的解析数据如表3所示:
S104:根据预先构建的多个评估模型,确定所述解析数据的多个初始评估值。其中,评估模型用于评估解析数据的正确率,多个评估模型之间的估值区间相同。也就是说,比如,多个评估模型分别输出解析数据的评分,评分区间均为[0-100]。
在本申请的一些实施例中,多个评估模型包括第一评估模型,多个初始评估值包括第一初始评估值。
由于深度学习模型在解析地址数据时会自动忽略未匹配的部分,这也就造成了各级字段总和远小于原始地址长度的情况。
具体地,首先确定解析数据的字符长度,以及解析数据的预设字符长度,然后,将字符长度与预设字符长度进行匹配,然后,确定字符长度与预设字符长度之间的长度差值。最后,根据长度差值,确定解析数据的第一初始评估值。
例如,解析数据为A省C区G号楼I室,解析数据的字符长度为9,非结构化数据对应的解析数据应该为A省B市C区D路E号F小区G号楼H单元I室,即,解析数据的预设字符长度为21,此时,解析的字符长度与预设字符长度之间的长度差值为12,然后,根据预设规则,确定在长度差值为12时,所对应的评分,从而得到解析数据的第一初始评估值。
通过字符长度匹配算法,解析数据的字符长度与预设字符长度进行匹配,字数相差越大评分越低,通过评分就能够筛选出解析数据不完整时的不合理结果。
在本申请的另一些实施例中,对不同的解析模型来说,解析数据一般是一致的,但因为解析模型设定的不同,不合理的解析数据的错误类型很难完全一致。因此,可以利用多种解析模型对非结构化数据进行分级处理,再通过自然语言处理的词嵌入模型对多个解析结果的相似度进行评分,相似度越高评分越高。
具体地,解析数据包括第一解析结果与第二解析结果,多个评估模型包括第二评估模型,多个初始评估值包括第二初始评估值。
具体地,首先对第一解析结果进行嵌入处理,并通过词向量模型,确定第一解析结果中多个字段对应的第一词嵌入平均值;以及对第二解析结果进行嵌入处理,并通过词向量模型,确定第二解析结果中多个字段对应的第二词嵌入平均值。
然后,根据第一词嵌入平均值,确定第一解析结果的词嵌入平均值,以及根据第二词嵌入平均值,确定第二解析结果的词嵌入平均值。然后,计算第一解析结果的词嵌入平均值与第二解析结果的词嵌入平均值之间的余弦值。最后,根据余弦值,确定第一解析结果与第二解析结果之间的相似度,根据相似度,确定解析数据的第二初始评估值。其中,相似度越高,评分越高。即,第二初始评估值越高。
其中,计算余弦值的表达式如下:
其中,A为第一解析结果,B为第一解析结果,i为第i个字段。
在本申请的另一些实施例中,由于在不合格的解析数据,有几类结果特别有代表性,例如,非结构化数据对应的解析数据应该为A省B市C区D路E号F小区G号楼H单元I室,但是解析数据为A省B市D路E号F小区G号楼H单元I室。可以通过运用正则表达式算法设计评分标准,筛选出不合格的解析数据。
具体地,多个评估模型包括第三评估模型,多个初始评估值包括第三初始评估值,首先,确定多个字段对应的第一数据关键词。然后,根据正则表达式的结尾字符判断算法,将第一数据关键词与解析数据在多个字段中对应的结尾字进行匹配,确定匹配项数,并计算匹配项数与第一数据关键词项数之间的第一比值。然后,根据第一比值,确定解析数据的第一正则评分项,最后,根据第一正则评分项,确定解析数据的第三初始评估值。
比如,省字段的第一数据关键词为省,市字段的第一数据关键词为市,区字段的第一数据关键词为区,道路字段的第一数据关键词为路、巷、洞、街,路号字段的第一数据关键词为号,小区字段的第一数据关键词为小区、园,楼号字段的第一数据关键词为号楼,单元号字段的第一数据关键词为单元,房号字段的第一数据关键词为室。
通过正则表达式的结尾字符判断算法,筛选字段下的解析数据结尾字是否为对应的关键词。如上述结果“A省B市C区D路E号F小区G号楼H单元I室”中,关键字有“省”,“市”,“区”,“路”,“号”,“小区”,“号楼”,“单元”,“室”共9项,解析数据中的字段结尾字的匹配项数则为“省”,“市”,“区”,“路”,“号”,“小区”,“号楼”,“单元”,“室”共8项,,可以得出第一比值为根据预设规则,得到正则评分项1。
进一步地,由于不合格解析数据的类型可能为将非结构化数据解析在错误的字段列中,比如,解析数据应该为A省B市C区D路E号F小区G号楼H单元I室,但是,实际解析数据为A省C市B区D路E号F小区G号楼H单元I室。这种情况下可以根据正则表达式的关键词检索算法评估解析数据的正确性。
具体地,首先确定解析数据中包括的第二数据关键词,然后根据正则表达式的关键词检索算法,确定第二数据关键词出现在对应字段名下的第二数据关键词项数。然后,计算第二数据关键词项数与第一数据关键词项数之间的第一比值,然后,根据第一比值,确定解析数据的第二正则评分项,最后,根据第一正则评分项与第二正则评分项分别对应的权重,确定解析数据的第三初始评估值。比如,将第一正则评分项与第二正则评分项分别按照50%的权重进行处理。
在本申请的另一些实施例中,通常情况下,解析数据的字符长度越高,地址的复杂程度就越高,解析的列数也会越多。虽然存在其他特殊情况,但通过这个特点,也可以按照解析数据的字符长度与解析列数之间的比例进行评分。
具体地,根据预设映射表,计算解析数据的字符长度所对应的平均解析列数,然后,计算平均解析列数与解析数据的列数之间的第三比值,最后,根据第三比值,确定解析数据的第四初始评估值。比如,解析数据的预设字符长度为21,平均解析列数为5.7,而解析数据的实际字符长度为4,则第三比值为
S106:确定所述多个初始评估值分别对应的权重值,根据所述权重值,确定所述解析数据的最终评估值。
在本申请的另一些实施例中,4类评估模型设计完成后,利用优序图算法根据各评估模型的重要性,计算出各初始评估值的权重值。在判断评估模型重要程度时,采用独立性权重法,若有评估模型存在重合性,则降低对应的重要程度。
具体地,首先根据优序图算法与多个评估模型的预设重要程度值,确定多个评估模型分别对应的第一评估分,然后,根据独立性权重法评判标准,判断多个评估模型之间是否存在重合性。其中,根据独立性权重法评判标准,确定多个评估模型之间的关联程度,根据关联性,判断多个评估模型之间是否存在重合性。
若是,则根据预设比例系数,降低重合评估模型的第一评估分,以得到多个评估模型分别对应的第二评估分,根据多个评估模型分别对应的第二评估分,确定多个初始评估值分别对应的权重值。其中,对多个评估模型分别对应的第二评估分进行求和,得到总评估分,然后,根据总评估分与第二评估分,确定多个评估模型分别对应的第四比值,最后,根据多个评估模型分别对应的第四比值,确定多个初始评估值分别对应的权重值。
若否,则根据多个评估模型分别对应的第一评估分,确定多个初始评估值分别对应的权重值。
例如,优序图权重计算方法:
其中,根据预设重要程度,两者相比,更重要的就得1分,差不多的就0.5分,不重要的就是0分。然后,各行相加得到每个评估模型的第一评估分。
根据独立性权重法评判标准,第一评估模型和第四评估模型之间存在重合性,因此,将第一评估分乘以系数0.7,即,3*0.7为2.1,1*0.7为0.7,得到4类评估模型的第二评估分为2.1、1、3、0.7。其中,第一评估模型是字符长度匹配评分,第二评估模型是字符长度与分级列数比例评分。这两中评估模型都是依据字符长度,极有可能存在重合。
然后,计算多个第二评估分的总评估分,即6.8,计算第二评估分与总分的第四比值,即,第一评估模型的第四比值为2.1/6.8为0.309,第二评估模型的第四比值为0.147/6.8为0.147,第三评估模型的第四比值为3/6.8为0.441,第四评估模型的第四比值为0.7/6.8为0.103。
即,第一初始评估值对应的权重值为30.9%,第二初始评估值对应的权重值为14.7%,第三初始评估值对应的权重值为44.1%,第四初始评估值对应的权重值为10.3%。
S108:根据所述最终评估值,对所述解析数据进行评估。
需要说明的是,虽然本申请实施例是参照图1来对步骤S102至步骤S108依次进行介绍说明的,但这并不代表步骤S102至步骤S108必须按照严格的先后顺序执行。本申请实施例之所以按照图1中所示的顺序对步骤S102至步骤S108依次进行介绍说明,是为了方便本领域技术人员理解本申请实施例的技术方案。换句话说,在本申请实施例中,步骤S102至步骤S108之间的先后顺序可以根据实际需要进行适当调整。
通过图1的方法,通过采用多个评估模型相结合的方式,避免了单种方法的不确定性,帮助开发人员更高效、更高质量的完成解析数据筛查工作,可以高效的分辨出不合格的解析数据,减轻人工筛查环节的工作压力。
基于同样的思路,本申请的一些实施例还提供了上述方法对应的设备和非易失性计算机存储介质。
图2为本申请实施例提供的一种解析数据评估设备的结构示意图,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取待解析的非结构化数据,并将所述非结构化数据解析为预设解析模板中多个字段对应的解析数据;其中,所述解析数据为结构化数据;
根据预先构建的多个评估模型,确定所述解析数据的多个初始评估值;其中,所述评估模型用于评估所述解析数据的正确率,所述多个评估模型之间的估值区间相同;
确定所述多个初始评估值分别对应的权重值,根据所述权重值,确定所述解析数据的最终评估值;
根据所述最终评估值,对所述解析数据进行评估。
本申请的一些实施例提供的一种解析数据评估非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取待解析的非结构化数据,并将所述非结构化数据解析为预设解析模板中多个字段对应的解析数据;其中,所述解析数据为结构化数据;
根据预先构建的多个评估模型,确定所述解析数据的多个初始评估值;其中,所述评估模型用于评估所述解析数据的正确率,所述多个评估模型之间的估值区间相同;
确定所述多个初始评估值分别对应的权重值,根据所述权重值,确定所述解析数据的最终评估值;
根据所述最终评估值,对所述解析数据进行评估。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请技术原理之内所作的任何修改、等同替换、改进等,均应落入本申请的保护范围之内。
Claims (9)
1.一种解析数据评估方法,其特征在于,所述方法包括:
获取待解析的非结构化数据,并将所述非结构化数据解析为预设解析模板中多个字段对应的解析数据;其中,所述解析数据为结构化数据;
根据预先构建的多个评估模型,确定所述解析数据的多个初始评估值;其中,所述评估模型用于评估所述解析数据的正确率,所述多个评估模型之间的估值区间相同;
确定所述多个初始评估值分别对应的权重值,根据所述权重值,确定所述解析数据的最终评估值;
根据所述最终评估值,对所述解析数据进行评估;
所述确定所述多个初始评估值分别对应的权重值,具体包括:
根据优序图算法与所述多个评估模型的预设重要程度值,确定所述多个评估模型分别对应的第一评估分;
根据独立性权重法评判标准,判断所述多个评估模型之间是否存在重合性;
若是,则根据预设比例系数,降低重合评估模型的第一评估分,以得到多个评估模型分别对应的第二评估分;
根据所述多个评估模型分别对应的第二评估分,确定所述多个初始评估值分别对应的权重值。
2.根据权利要求1所述的方法,其特征在于,所述多个评估模型包括第一评估模型,所述多个初始评估值包括第一初始评估值,所述方法还包括:
确定所述解析数据的字符长度,以及所述解析数据的预设字符长度;
将所述字符长度与所述预设字符长度进行匹配,确定所述字符长度与所述预设字符长度之间的长度差值;
根据所述长度差值,确定所述解析数据的第一初始评估值。
3.根据权利要求1所述的方法,其特征在于,所述解析数据包括第一解析结果与第二解析结果,所述多个评估模型包括第二评估模型,所述多个初始评估值包括第二初始评估值,所述方法还包括:
对所述第一解析结果进行嵌入处理,并通过词向量模型,确定所述第一解析结果中所述多个字段对应的第一词嵌入平均值;以及对所述第二解析结果进行嵌入处理,并通过所述词向量模型,确定所述第二解析结果中所述多个字段对应的第二词嵌入平均值;
根据所述第一词嵌入平均值,确定所述第一解析结果的词嵌入平均值,以及根据所述第二词嵌入平均值,确定所述第二解析结果的词嵌入平均值;
计算所述第一解析结果的词嵌入平均值与所述第二解析结果的词嵌入平均值之间的余弦值;
根据所述余弦值,确定所述第一解析结果与第二解析结果之间的相似度;
根据所述相似度,确定所述解析数据的第二初始评估值。
4.根据权利要求1所述的方法,其特征在于,所述多个评估模型包括第三评估模型,所述多个初始评估值包括第三初始评估值,所述方法还包括:
确定所述多个字段对应的第一数据关键词;
根据正则表达式的结尾字符判断算法,将所述第一数据关键词与所述解析数据在所述多个字段中对应的结尾字进行匹配,确定匹配项数,并计算所述匹配项数与所述第一数据关键词项数之间的第一比值;
根据所述第一比值,确定所述解析数据的第一正则评分项;
根据所述第一正则评分项,确定所述解析数据的第三初始评估值。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一正则评分项,确定所述解析数据的第三初始评估值,具体包括:
确定所述解析数据中包括的第二数据关键词;
根据正则表达式的关键词检索算法,确定所述第二数据关键词出现在对应字段名下的第二数据关键词项数;
计算所述第二数据关键词项数与所述第一数据关键词项数之间的第一比值;
根据所述第一比值,确定所述解析数据的第二正则评分项;
根据所述第一正则评分项与所述第二正则评分项分别对应的权重,确定所述解析数据的第三初始评估值。
6.根据权利要求1所述的方法,其特征在于,所述多个评估模型包括第四评估模型,所述多个初始评估值包括第四初始评估值,所述方法还包括:
根据预设映射表,计算所述解析数据的字符长度所对应的平均解析列数;
计算所述平均解析列数与所述解析数据的列数之间的第三比值;
根据所述第三比值,确定所述解析数据的第四初始评估值。
7.根据权利要求1所述的方法,其特征在于,所述根据独立性权重法评判标准,判断所述多个评估模型之间是否存在重合性,具体包括:
根据独立性权重法评判标准,确定所述多个评估模型之间的关联程度;
根据所述关联程度,判断所述多个评估模型之间是否存在重合性;
所述根据所述多个评估模型分别对应的第二评估分,确定所述多个初始评估值分别对应的权重值,具体包括:
对所述多个评估模型分别对应的第二评估分进行求和,得到总评估分;
根据所述总评估分与所述第二评估分,确定所述多个评估模型分别对应的第四比值;
根据所述多个评估模型分别对应的第四比值,确定所述多个初始评估值分别对应的权重值。
8.一种解析数据评估设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取待解析的非结构化数据,并将所述非结构化数据解析为预设解析模板中多个字段对应的解析数据;其中,所述解析数据为结构化数据;
根据预先构建的多个评估模型,确定所述解析数据的多个初始评估值;其中,所述评估模型用于评估所述解析数据的正确率,所述多个评估模型之间的估值区间相同;
确定所述多个初始评估值分别对应的权重值,根据所述权重值,确定所述解析数据的最终评估值;
根据所述最终评估值,对所述解析数据进行评估;
所述确定所述多个初始评估值分别对应的权重值,具体包括:
根据优序图算法与所述多个评估模型的预设重要程度值,确定所述多个评估模型分别对应的第一评估分;
根据独立性权重法评判标准,判断所述多个评估模型之间是否存在重合性;
若是,则根据预设比例系数,降低重合评估模型的第一评估分,以得到多个评估模型分别对应的第二评估分;
根据所述多个评估模型分别对应的第二评估分,确定所述多个初始评估值分别对应的权重值。
9.一种解析数据评估非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
获取待解析的非结构化数据,并将所述非结构化数据解析为预设解析模板中多个字段对应的解析数据;其中,所述解析数据为结构化数据;
根据预先构建的多个评估模型,确定所述解析数据的多个初始评估值;其中,所述评估模型用于评估所述解析数据的正确率,所述多个评估模型之间的估值区间相同;
确定所述多个初始评估值分别对应的权重值,根据所述权重值,确定所述解析数据的最终评估值;
根据所述最终评估值,对所述解析数据进行评估;
所述确定所述多个初始评估值分别对应的权重值,具体包括:
根据优序图算法与所述多个评估模型的预设重要程度值,确定所述多个评估模型分别对应的第一评估分;
根据独立性权重法评判标准,判断所述多个评估模型之间是否存在重合性;
若是,则根据预设比例系数,降低重合评估模型的第一评估分,以得到多个评估模型分别对应的第二评估分;
根据所述多个评估模型分别对应的第二评估分,确定所述多个初始评估值分别对应的权重值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210427882.4A CN114780682B (zh) | 2022-04-22 | 2022-04-22 | 一种解析数据评估方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210427882.4A CN114780682B (zh) | 2022-04-22 | 2022-04-22 | 一种解析数据评估方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114780682A CN114780682A (zh) | 2022-07-22 |
CN114780682B true CN114780682B (zh) | 2024-05-10 |
Family
ID=82430509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210427882.4A Active CN114780682B (zh) | 2022-04-22 | 2022-04-22 | 一种解析数据评估方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114780682B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347903A (zh) * | 2019-07-17 | 2019-10-18 | 江苏东网信息科技有限公司 | 基于统计语言模型算法的智能信息评估和营销系统 |
CN110958241A (zh) * | 2019-11-27 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 网络数据检测方法、装置、计算机设备以及存储介质 |
CN112632409A (zh) * | 2020-12-22 | 2021-04-09 | 深圳壹账通智能科技有限公司 | 同一用户识别方法、装置、计算机设备和存储介质 |
CN114004700A (zh) * | 2021-10-27 | 2022-02-01 | 深圳乐信软件技术有限公司 | 业务数据处理方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150111644A1 (en) * | 2013-10-22 | 2015-04-23 | Todd Christopher Larson | Player ranking system based on multiple quantitative and qualitative scoring types |
-
2022
- 2022-04-22 CN CN202210427882.4A patent/CN114780682B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347903A (zh) * | 2019-07-17 | 2019-10-18 | 江苏东网信息科技有限公司 | 基于统计语言模型算法的智能信息评估和营销系统 |
CN110958241A (zh) * | 2019-11-27 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 网络数据检测方法、装置、计算机设备以及存储介质 |
CN112632409A (zh) * | 2020-12-22 | 2021-04-09 | 深圳壹账通智能科技有限公司 | 同一用户识别方法、装置、计算机设备和存储介质 |
CN114004700A (zh) * | 2021-10-27 | 2022-02-01 | 深圳乐信软件技术有限公司 | 业务数据处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114780682A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7930322B2 (en) | Text based schema discovery and information extraction | |
EP2857985A1 (en) | Knowledge extraction device, knowledge updating device, and program | |
CN113535963B (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN112907358A (zh) | 贷款用户信用评分方法、装置、计算机设备和存储介质 | |
CN114817575B (zh) | 基于扩展模型的大规模电力事理图谱处理方法 | |
CN107862037B (zh) | 一种基于实体连通图的事件模版构造方法 | |
CN110688407B (zh) | 一种社会关系挖掘的方法 | |
CN115269950A (zh) | 一种舆情信息内容挖掘与传播监控的分析方法 | |
CN109408643B (zh) | 基金相似度计算方法、系统、计算机设备和存储介质 | |
CN111192170A (zh) | 题目推送方法、装置、设备和计算机可读存储介质 | |
CN116992294B (zh) | 卫星测控训练评估方法、装置、设备及存储介质 | |
CN114117134A (zh) | 一种异常特征检测方法、装置、设备和计算机可读介质 | |
CN113743080A (zh) | 一种分层级地址文本相似度比对方法、装置及介质 | |
CN111723182B (zh) | 一种用于漏洞文本的关键信息抽取方法及装置 | |
CN114780682B (zh) | 一种解析数据评估方法、设备及介质 | |
CN117033744A (zh) | 数据查询方法、装置、存储介质以及电子设备 | |
CN114490673B (zh) | 数据信息处理方法、装置、电子设备及存储介质 | |
CN116151235A (zh) | 文章生成方法、文章生成模型训练方法及相关设备 | |
CN115757720A (zh) | 基于知识图谱的项目信息搜索方法、装置、设备和介质 | |
CN112988704A (zh) | 一种基于ai咨询数据库集群搭建方法和系统 | |
CN111666770A (zh) | 一种语义匹配方法及装置 | |
Erman et al. | Impact cultural-quality factors on successes and failures software system | |
CN116701812B (zh) | 基于区块单元的地理信息网页文本主题分类方法 | |
CN110909533B (zh) | 资源主题判定方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |