CN111090641B - 数据处理方法及装置、电子设备、存储介质 - Google Patents
数据处理方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN111090641B CN111090641B CN201911168729.9A CN201911168729A CN111090641B CN 111090641 B CN111090641 B CN 111090641B CN 201911168729 A CN201911168729 A CN 201911168729A CN 111090641 B CN111090641 B CN 111090641B
- Authority
- CN
- China
- Prior art keywords
- rule
- field
- target
- preset
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 29
- 230000000875 corresponding effect Effects 0.000 claims description 54
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 11
- 238000004519 manufacturing process Methods 0.000 description 10
- 238000002372 labelling Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 4
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 201000005202 lung cancer Diseases 0.000 description 3
- 208000020816 lung neoplasm Diseases 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本公开实施例是关于一种数据处理方法及装置、电子设备、存储介质,涉及计算机技术领域,该方法包括:获取预设字段对应的包括语义规则的参考规则,并根据所述参考规则确定目标规则;根据所述目标规则对所述预设字段进行测试,以确定测试结果;若所述测试结果正确,则通过所述目标规则对待处理字段进行处理,以得到所述待处理字段对应的数据。本公开的技术方案能够通过从参考规则中筛选的目标规则快速准确地生成数据,提高应用范围。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。
背景技术
在数据生产过程中,如何提高数据生产效率以及数据生产的准确性是非常重要的。
相关技术中,一般是在人工标注的基础上,根据标注的结果直接对数据进行测试,因此测试结果受到人工标注结果的影响较大,可能会导致数据测试结果的准确率较低。另外,在进行数据测试时,无法对数据的语义进行验证,因此具有一定的局限性。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据处理方法及装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据测试准确率较低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供了一种数据处理方法,包括:获取预设字段对应的包括语义规则的参考规则,并根据所述参考规则确定目标规则;根据所述目标规则对所述预设字段进行测试,以确定测试结果;若所述测试结果正确,则通过所述目标规则对待处理字段进行处理,以得到所述待处理字段对应的数据。
在本公开的一种示例性实施例中,根据所述参考规则确定目标规则包括:根据所述参考规则的规则属性对所述参考规则进行分类,以得到分类后的参考规则,并从所述分类后的参考规则中获取所述目标规则。
在本公开的一种示例性实施例中,从所述分类后的参考规则中获取所述目标规则包括:获取所述预设字段中包含的第一字段;从所述分类后的参考规则中提取包含所述第一字段的参考规则作为候选规则,并根据所述候选规则确定所述目标规则。
在本公开的一种示例性实施例中,所述方法还包括:若不存在所述候选规则,则将所述第一字段调整为第二字段;其中,所述第一字段的范围小于所述第二字段的范围;根据所述第二字段对所述参考规则进行匹配,以确定目标规则。
在本公开的一种示例性实施例中,根据所述目标规则对所述预设字段进行测试,以确定测试结果包括:通过所述目标规则生成所述预设字段对应的数据;若判断所述预设字段对应的数据为第一类型数据,则确定所述测试结果正确;若判断所述预设字段对应的数据为第二类型数据,则确定所述测试结果错误。
在本公开的一种示例性实施例中,所述方法还包括:若所述测试结果错误,则对所述目标规则进行调整得到调整后的目标规则;根据所述调整后的目标规则继续对所述预设字段进行测试,直至所述测试结果正确为止,以确定所述目标规则。
在本公开的一种示例性实施例中,在获取预设字段对应的包括语义规则的参考规则之后,所述方法还包括:将所述预设字段对应的参考规则中包含的多个规则进行关联,并对关联后的参考规则进行格式转换。
根据本公开的一个方面,提供一种数据处理装置,包括:规则获取模块,用于获取预设字段对应的包括语义规则的参考规则,并根据所述参考规则确定目标规则;测试结果确定模块,用于根据所述目标规则对所述预设字段进行测试,以确定测试结果;数据生成模块,用于若所述测试结果正确,则通过所述目标规则对待处理字段进行处理,以得到所述待处理字段对应的数据。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据处理方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据处理方法。
本公开实施例中提供的数据处理方法、数据处理装置、电子设备以及计算机可读存储介质中,通过获取预设字段的包括语义规则的参考规则,并从参考规则中获取目标规则,在目标规则的测试结果正确时,根据目标规则生成待处理字段对应的数据。一方面,由于通过参考规则得到目标规则以及根据测试结果对目标规则的筛选过滤,能够得到准确的目标规则。根据准确的规则生成待处理字段的数据时,可以得到更准确的数据,提高数据生产的准确性。由于参考规则并不是通过人工标注的过程得到的,因此可以避免人工标注对数据生产的影响,避免了人工标注可能会导致的错误,提高了合理性和数据质量。另一方面,由于参考规则中包括语义规则,因此可以在确定目标规则后,根据目标规则中的语义规则对预设字段进行测试,进而根据准确的目标规则对待处理字段进行处理时,能够准确衡量语义,增加了应用范围,减少了局限性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开实施例中一种数据处理方法的示意图。
图2示意性示出本公开实施例中确定目标规则的流程的示意图。
图3示意性示出本公开实施例中对目标规则进行处理的流程的示意图。
图4示意性示出本公开实施例中数据处理装置的框图。
图5示意性示出本公开实施例中一种电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本公开实施例中,首先提供了一种数据处理方法,该数据处理方法可以应用于医疗数据的处理场景中,例如可以用于医疗数据生产的过程中。参考图1中所示,主要可以包括以下步骤:
在步骤S110中,获取预设字段对应的包括语义规则的参考规则,并根据所述参考规则确定目标规则;
在步骤S120中,根据所述目标规则对所述预设字段进行测试,以确定测试结果;
在步骤S130中,若所述测试结果正确,则通过所述目标规则对待处理字段进行处理,以得到所述待处理字段对应的数据。
本公开实施例提供的数据处理方法中,一方面,由于通过参考规则以及根据测试结果对目标规则的筛选过滤,能够得到准确的目标规则,根据准确的规则生成待处理字段的数据时,可以得到更准确的数据,提高数据处理的准确性。由于参考规则并不是通过人工标注的过程得到的,因此可以避免人工标注对数据生产的影响,避免了人工标注可能会导致的错误,提高了合理性和数据质量。另一方面,由于参考规则中包括语义规则,因此可以在确定目标规则后,根据目标规则中的语义规则对预设字段进行测试,进而在测试结果正确的情况下根据准确的目标规则对待处理字段进行处理时,能够准确衡量语义,增加了应用范围,减少了局限性。
接下来,参考附图对本公开实施例中的数据处理方法进行详细说明。
在步骤S110中,获取预设字段对应的包括语义规则的参考规则,并根据所述参考规则确定目标规则。
本公开实施例中,预设字段指的是指定字段,且预设字段已经存在正确生成的实际数据。预设字段可以包括多个,多个预设字段的参考规则可以相同或者不同,此处不作限定。参考规则指的是预设字段在数据生产时所依据的逻辑规则,具体可以用该预设字段所产生的数据的状态来表示,数据的状态可以包括数据的类型、值域以及表述内容中的任意一种。需要说明的是,参考规则相当于预设字段均符合要求的标准规则,可以用于表示期望预设字段所满足的规则。例如,当预设字段为年龄时,参考规则例如可以为“数字类型”。
每一个参考规则均可以由一个或多个条件组合而成,此处的条件可以作为具体规则,且条件可以为数学大于,小于,等于,正则匹配,字段长度,逻辑与或非等等。多个条件之间可以是和的关系,也可以是或的关系。本公开实施例中,参考规则中可以包括语义规则,以用于对预设字段的语义进行测试。语义规则具体可以用正则表达式进行表示,正则表达式是对字符串和特殊字符操作的一种逻辑公式,用来表达对字符串的一种过滤逻辑。通过正则表达式,可以测试预设字段对应的数据中的医学含义是否正确。
参考规则用于生产预设字段对应的数据。具体地,参考规则可以根据输入数据的表述内容的特征、对输入数据的处理程度以及医学要求而确定。其中,输入数据指的是与预设字段存在关联关系的其他字段的数据,且输入数据是确定的。例如在预设字段为年龄时,输入数据可以为出生日期2000-8-24 17:20:09等等。当然,输入数据可以为一个或者多个,此处不作限定。在这种情况下,可以将预设字段对应的数据作为输出数据。
举例而言,某个预设字段(例如就诊时的年龄)对应的输入数据中,出生日期是2000-8-24 17:20:09,病历中的就诊时间是2019-8-23 12:21:50,在将就诊时的年龄作为输出数据时,则年龄应该是一个数字类型,且是正整数。此时可以将“数字类型”和“正整数”作为预设字段(就诊时的年龄)的参考规则。
再举例而言,针对预设字段(例如年龄)建立一个参考规则,则年龄的普遍性数据表述应该满足具体的数字或者是未知两种。数字的表述可能是阿拉伯数字,在计算机中则会为整型int;而未知的表述通常可能是否定词语,例如不知道、否、未知、未记录等等。因此,参考规则可以有两个条件,这两个条件是逻辑或的关系。
需要补充的是,在获取到参考规则之后,可以对参考规则进行转换处理,以便于将参考规则转换为可识别、可判断的文本,以提高处理效率。具体而言,可以采用JSON格式或者是其它合适的格式对参考规则进行格式转换。JSON(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。它采用完全独立于编程语言的文本格式来存储和表示数据。JSON格式易于机器解析和生成,并有效地提升网络传输效率。如果参考规则中存在多个条件,则同时对多个条件采用JSON格式进行转换。
在进行格式转换之后,可以将预设字段和转换后的参考规则进行关联,以得到二者之间的关联关系。多个参考规则彼此是相互独立的,但是一个参考规则内可以包括一个或者多个规则,此处的多个规则指的是参考规则的具体规则或组成部分,具体可以为对于一个参考规则的多个不同维度的规则。在进行关联时,如果有多个具体规则,则需要多个具体规则同时满足,也就是多个具体规则同时与预设字段建立关联关系。通过建立关联关系,能够更准确地进行规则测试的过程,提高处理效率。
举例而言,若一个参考规则包含多个具体规则,则这些具体规则之间可以两两关联。比如对一个预设字段的参考规则有三个具体规则:A,B,C,若要求三个具体规则都需要同时判定为真,则这三个具体规则在通过JSON形式记录为[“and”,A,[“and”,”B”,”C”]]。本公开实施例中,通过对预设字段的参考规则进行格式转换,能够提高效率和可识别率。
本公开实施例中,在得到参考规则之后,可以对所有的参考规则进行分类处理,以便于在后续选择规则时提高效率,并且使得规则具有灵活的复用性。具体而言,本公开实施例中可以根据参考规则的规则属性来对其进行分类,以得到分类后的参考规则。规则属性例如可以为应用场景,应用场景具体可以用应用来源进行表示。应用来源具体可以为数据提供方,在本公开实施例中,数据提供方例如可以为不同的医院。不同应用场景的参考规则差异较大,因此同一个参考规则可能难以在所有的应用场景中使用。基于此,一个参考规则可以应用于多个应用场景,一个应用场景内也可以包括多个参考规则。比如:一个患者的手术费用总数字段校验,它应该是可以满足不同手术类别的这一字段的校验判断。
举例而言,对于同一个预设字段,比如在第一个应用场景中,参考规则A是正确的且参考规则B是错误的,但是在第二个应用场景中,参考规则A是错误的且参考规则B是正确的。因此,通过应用场景对参考规则进行分类,能够提高每类参考规则的复用性。
进一步地,在得到分类后的参考规则后,可以从分类后的参考规则中获取目标规则。目标规则可以为一个或者是多个,此处不作限定。此处的分类后的参考规则指的是每一类包含的所有参考规则。
图2中示意性示出了获取目标规则的示意图,参考图2中所示,主要包括步骤S210至步骤S240,其中:
在步骤S210中,获取所述预设字段中包含的第一字段,并从所述分类后的参考规则中提取包含所述第一字段的参考规则作为候选规则。
本步骤中,第一字段可以为预设字段中的部分或全部,当第一字段为部分预设字段时,第一字段可以为用于描述预设字段的特征,例如名称或者是字段类型等等;第一字段也可以为重要程度最大的字段,此处不作限定。本公开实施例中,以第一字段为名称为例进行说明。具体地,首先可以确定预设字段的应用来源,例如预设字段属于哪个医院。在确定应用来源后,可以确定与该应用来源对应的分类后的参考规则,进而确定目标规则。举例而言,预设字段的应用来源为医院A,则从医院A对应的参考规则中确定目标规则,以便于缩小匹配的数据量,提高效率。
进一步地,可以提取预设字段中的第一字段。举例而言,预设字段为肺癌,则第一字段可以为用于表示预设字段的特征的肺癌。在提取到预设字段中的第一字段后,可以根据第一字段对某一个分类后的参考规则进行逐一匹配,以确定其中是否包含第一字段;在确定参考规则中包含有第一字段时,可以认为匹配成功。在匹配成功时,可以将匹配成功的包含第一字段的参考规则作为候选规则。候选规则的数量可以为一个或者是多个,此处不作限定。即,可以根据预设字段中第一字段的匹配结果确定目标规则。
在步骤S220中,判断是否存在候选规则。若是,则转至步骤S230;若否,则转至步骤S240。
本步骤中,通过参考规则中第一字段的匹配结果,确定是否存在候选规则。如果第一字段匹配成功,则确定存在候选规则;如果第一字段匹配失败,则确定不存在候选规则。并且,是否存在候选规则的确定目标规则的方法是完全不同的。
在步骤S230中,根据所述候选规则确定所述目标规则。
本步骤中,在确定存在候选规则时,则可以直接将候选规则作为目标规则。需要说明的是,如果只存在一个候选规则,则直接将该候选规则作为目标规则即可。如果存在多个候选规则,则可以随机选择一个作为目标规则,也可以按照一定的筛选条件来选择目标规则。筛选条件例如可为包含的字段数量最多的参考规则;或者是对多个参考规则进行评分,并根据评分由高到低的顺序确定目标规则。此处对筛选条件不作具体限定。
在步骤S240中,若不存在所述候选规则,则将所述第一字段调整为第二字段,并根据所述第二字段确定目标规则。
本步骤中,如果第一字段未匹配成功,则可以确定不存在候选规则。此时说明第一字段设置的不合适,因此可以对第一字段进行调整,以将第一字段调整为第二字段。其中,第一字段的范围小于第二字段的范围,即第一字段可以为具体名称,第二字段可以为总名称。举例而言,第一字段可以为肺癌,第二字段可以为癌或者是癌症等等。在调整为第二字段之后,可以按照第二字段对参考规则进行匹配,并在确定参考规则中包含有第二字段时,可以认为匹配成功。在匹配成功时,可以将匹配成功的包含第二字段的参考规则作为候选规则。进一步地根据由第二字段确定的候选规则重新确定目标规则,此处不再赘述。
图2中的技术方案,通过预设字段中的第一字段或者是第二字段对分类后的参考规则进行匹配,能够从参考规则中准确地得到预设字段对应的目标规则,提高了确定目标规则的准确性。
在确定合理的目标规则之后,还可以记录这个测试任务的一些基本信息,如:对应项目编号,对应疾病,创建人等信息,以便于后续进行参考。
继续参考图1中所示,在步骤S120中,根据所述目标规则对所述预设字段进行测试,以确定测试结果。
本公开实施例中,在确定目标规则之后,可以根据规则对预设字段进行测试,以得到测试结果。根据目标规则对预设字段进行测试指的是,通过目标规则对预设字段进行数据生成,以得到符合目标规则的数据。测试结果为用于表示生成的预设字段对应的数据是否正确的结果,具体可以包括正确或错误两种情况。在对预设字段进行处理时,可以按照目标规则确定预设字段对应的数据。进一步地,可以判断预设字段的类型为第一类型数据还是第二类型数据。其中,第一类型数据可以为正确数据,第二类型数据可以为错误数据。具体可以根据实际情况或者是预设字段对应的实际数据进行对比,以根据对比结果确定预设字段对应的数据的类型。如果对比结果一致,则认为属于第一类型数据,且测试结果为正确;如果对比结果不一致,则认为属于第二类型数据,且测试结果为错误。
在得到测试结果之后,可以记录每一个目标规则的测试结果,以供后续参考。并且可以将测试结果记录在数据库中,在检测到需要展示检测结果的请求时,可以通过图像可视化的方式将测试结果进行展示。
具体而言,在本公开实施例中,可以对预设字段进行预设类型测试,预设类型字段可以包括以下至少一种:一、对可比较大小的预设字段进行测试校验,预期的数字字段应该大于、等于、或小于某个值。如数字,日期,时间等数据。二、对某个预期应该等于特定的结果的预设字段进行测试校验。三、对某个应该符合某种特定规则的预设字段进行校验,预设字段的内容应该符合一些正则语句所描述的特征。四、对某个预设字段进行是否为空,以及为空的类型进行判断,比如计算机数据中,0,””,None,false等都可以表示为空,往往不同的空值表现形式代表了截然不同的含义。五、对某个预设字段的预期字符长度进行判断。
本公开实施例中,对预设字段进行预设类型测试,能够使测试过程更加全面,从而得到准确的测试结果,提高测试的准确率和全面性。
继续参考图1中所示,在步骤S130中,若所述测试结果正确,则通过所述目标规则对待处理字段进行处理,以得到所述待处理字段对应的数据。
本公开实施例中,可以根据测试结果确定是否对目标规则进行调整,并进一步根据目标规则来对待处理字段进行处理。
图3中示意性示出了对目标规则进行处理的示意图,参考图3中所示,主要包括步骤S310至步骤S340,其中:
在步骤S310中,判断测试结果是否正确。若是,则转至步骤S320;若否,则转至步骤S330。
在步骤S320中,保持目标规则不变,并根据所述目标规则对待处理字段进行处理,以得到待处理字段对应的数据。此处的保持不变,可以理解为直接根据步骤S110中确定的目标规则来对待处理字段进行处理,以便于生成待处理字段对应的数据。
在步骤S330中,若测试结果错误,对目标规则进行调整,得到调整后的目标规则。
在步骤S340中,根据所述调整后的目标规则继续对所述预设字段进行测试,直至测试结果正确为止,以确定所述目标规则。
在测试结果错误时,可以认为目标规则并不能正确生成数据,因此可以对目标规则进行调整,得到调整后的目标规则。调整后的目标规则和调整前的目标规则可以存在部分相同,此处不作限定。具体而言,可以对步骤S120中的目标规则的具体规则进行预设操作,预设操作可以为例如删除、增加或者是修改中的至少一种。
进一步地,可以对调整后的目标规则进行测试,以继续确定测试结果。测试的方法与步骤S130中相同,即:通过调整后的目标规则生成预设字段对应的数据,进一步判断预设字段对应的数据是否为第一类型数据以便于判断测试结果是否正确。在判断测试结果错误时,在调整后的目标规则的基础上继续进行调整,得到新的目标规则;并通过新的目标规则生成预设字段对应的数据,以进行测试。如此循环,在测试结果正确时,停止对目标规则的调整过程。并且可以将调整后的目标规则重新作为用于对待处理数据进行处理的目标规则,根据目标规则生成待处理字段对应的数据,以实现自动化数据生产过程。
本公开实施例中,通过在测试结果正确时保持目标规则不变,在测试结果错误时对目标规则进行更新和调整处理,直至测试结果为正确为止,能够得到更准确的目标规则。
在测试结果正确或测试结果错误且通过更新目标规则使得测试结果正确的情况下,均可以根据确定的目标规则来对待处理字段进行数据生成,以使得待处理字段对应的数据均符合目标规则的限制和要求,得到符合预期的待处理字段的数据。
本公开实施例中的技术方案,能够根据准确的目标规则生成待处理字段对应的数据,提高数据生产的效率和准确率。进一步地,由于预设字段的参考规则中还包括语义规则,因此还可以对语义进行测试和判断,根据准确的目标规则对待处理字段进行处理时,能够准确衡量预设字段的语义,增加了应用范围,减少了人力成本,减少了局限性。另外,提高了覆盖率和准确性,减少了人为标注和人为判断失误带来的损失。
图4中示出了本公开实施例中的数据处理装置,参考图4所示,该数据处理装置400主要包括规则获取模块401、测试结果确定模块402以及数据生成模块403,其中:
规则获取模块401,用于获取预设字段对应的包括语义规则的参考规则,并根据所述参考规则确定目标规则;
测试结果确定模块402,用于根据所述目标规则对所述预设字段进行测试,以确定测试结果;
数据生成模块403,用于若所述测试结果正确,则根据所述目标规则对待处理字段进行处理,以得到所述待处理字段对应的数据。
在本公开的一种示例性实施例中,规则获取模块包括:目标规则获取模块,用于根据所述参考规则的规则属性对所述参考规则进行分类,以得到分类后的参考规则,并从所述分类后的参考规则中获取所述目标规则。
在本公开的一种示例性实施例中,目标规则获取模块包括:第一字段获取模块,用于获取所述预设字段中包含的第一字段;候选规则确定模块,用于从所述分类后的参考规则中提取包含所述第一字段的参考规则作为候选规则,并根据所述候选规则确定所述目标规则。
在本公开的一种示例性实施例中,所述装置还包括:第一字段调整模块,用于若不存在所述候选规则,则将所述第一字段调整为第二字段;其中,所述第一字段的范围小于所述第二字段的范围;目标规则更新模块,用于根据所述第二字段对所述参考规则进行匹配,以确定目标规则。
在本公开的一种示例性实施例中,测试结果确定模块包括:数据生成模块,用于通过所述目标规则生成所述预设字段对应的数据;第一结果确定模块,用于若判断所述预设字段对应的数据为第一类型数据,则确定所述测试结果正确;第二结果确定模块,用于若判断所述预设字段对应的数据为第二类型数据,则确定所述测试结果错误。
在本公开的一种示例性实施例中,所述装置还包括:目标规则调整模块,用于若所述测试结果错误,则对所述目标规则进行调整得到调整后的目标规则;目标规则确定模块,用于根据所述调整后的目标规则继续对所述预设字段进行测试,直至所述测试结果正确为止,以确定所述目标规则。
在本公开的一种示例性实施例中,在获取预设字段对应的包括语义规则的参考规则之后,所述装置还包括:规则转换模块,用于将所述预设字段对应的参考规则中包含的多个规则进行关联,并对关联后的参考规则进行格式转换。
需要说明的是,上述数据处理装置中各模块的具体细节已经在对应的数据处理方法中进行了详细描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本公开的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线550。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1中所示的步骤。
存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速接口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在本公开的实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (8)
1.一种数据处理方法,其特征在于,包括:
获取预设字段对应的包括语义规则的参考规则,根据参考规则对应的规则属性对所述参考规则进行分类以得到分类后的参考规则,并通过第一字段或第二字段对分类后的参考规则进行匹配,以确定目标规则;其中,所述第一字段用于表示所述预设字段的特征,所述第一字段的范围小于所述第二字段的范围;
根据所述目标规则对所述预设字段进行测试,以确定测试结果;
若所述测试结果正确,则通过所述目标规则对待处理字段进行数据生成,以得到所述待处理字段对应的数据;
其中,通过第一字段或第二字段对分类后的参考规则进行匹配,以确定目标规则,包括:
获取预设字段中包含的第一字段,在根据第一字段对分类后的参考规则进行匹配确定其中包含第一字段时,提取包含所述第一字段的参考规则作为候选规则,并根据所述候选规则确定所述目标规则;
在确定分类后的参考规则中包含第二字段时,将包含第二字段的参考规则作为候选规则,并根据由第二字段确定的候选规则确定目标规则。
2.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
若不存在所述候选规则,则将所述第一字段调整为第二字段;其中,所述第一字段的范围小于所述第二字段的范围;
根据所述第二字段对所述参考规则进行匹配,以确定目标规则。
3.根据权利要求1所述的数据处理方法,其特征在于,根据所述目标规则对所述预设字段进行测试,以确定测试结果包括:
获取通过所述目标规则生成的所述预设字段对应的数据;
若判断所述预设字段对应的数据为第一类型数据,则确定所述测试结果正确;
若判断所述预设字段对应的数据为第二类型数据,则确定所述测试结果错误。
4.根据权利要求3所述的数据处理方法,其特征在于,所述方法还包括:
若所述测试结果错误,则对所述目标规则进行调整得到调整后的目标规则;
根据所述调整后的目标规则继续对所述预设字段进行测试,直至所述测试结果正确为止,以确定所述目标规则。
5.根据权利要求1所述的数据处理方法,其特征在于,在获取预设字段对应的包括语义规则的参考规则之后,所述方法还包括:
将所述预设字段对应的参考规则中包含的多个规则进行关联,并对关联后的参考规则进行格式转换。
6.一种数据处理装置,其特征在于,包括:
规则获取模块,用于获取预设字段对应的包括语义规则的参考规则,根据参考规则对应的规则属性对所述参考规则进行分类以得到分类后的参考规则,并通过第一字段或第二字段对分类后的参考规则进行匹配,以确定目标规则;其中,所述第一字段用于表示所述预设字段的特征,所述第一字段的范围小于所述第二字段的范围;
测试结果确定模块,用于根据所述目标规则对所述预设字段进行测试,以确定测试结果;
数据生成模块,用于若所述测试结果正确,则通过所述目标规则对待处理字段进行数据生成,以得到所述待处理字段对应的数据;
其中,通过第一字段或第二字段对分类后的参考规则进行匹配,以确定目标规则,包括:
获取预设字段中包含的第一字段,在根据第一字段对分类后的参考规则进行匹配确定其中包含第一字段时,提取包含所述第一字段的参考规则作为候选规则,并根据所述候选规则确定所述目标规则;
在确定分类后的参考规则中包含第二字段时,将包含第二字段的参考规则作为候选规则,并根据由第二字段确定的候选规则确定目标规则。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任意一项所述的数据处理方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911168729.9A CN111090641B (zh) | 2019-11-25 | 2019-11-25 | 数据处理方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911168729.9A CN111090641B (zh) | 2019-11-25 | 2019-11-25 | 数据处理方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090641A CN111090641A (zh) | 2020-05-01 |
CN111090641B true CN111090641B (zh) | 2024-04-02 |
Family
ID=70393706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911168729.9A Active CN111090641B (zh) | 2019-11-25 | 2019-11-25 | 数据处理方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090641B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113672279B (zh) * | 2020-05-15 | 2024-04-05 | 北京沃东天骏信息技术有限公司 | 接口文档生成方法、装置、设备及存储介质 |
CN111625455A (zh) * | 2020-05-26 | 2020-09-04 | 中国建设银行股份有限公司 | 一种程序测试方法、装置、设备和介质 |
CN111666087A (zh) * | 2020-05-28 | 2020-09-15 | 平安医疗健康管理股份有限公司 | 运算规则更新方法、装置、计算机系统及可读存储介质 |
CN111667923B (zh) * | 2020-06-05 | 2022-11-18 | 医渡云(北京)技术有限公司 | 数据匹配方法、装置、计算机可读介质及电子设备 |
CN112613764A (zh) * | 2020-12-25 | 2021-04-06 | 北京知因智慧科技有限公司 | 数据处理方法、装置以及电子设备 |
CN114553550B (zh) * | 2022-02-24 | 2024-02-02 | 京东科技信息技术有限公司 | 请求检测方法、装置、存储介质及电子设备 |
CN116303102B (zh) * | 2023-05-19 | 2023-08-11 | 建信金融科技有限责任公司 | 测试数据的生成方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024231A1 (zh) * | 2017-08-04 | 2019-02-07 | 平安科技(深圳)有限公司 | 数据自动匹配方法、电子设备及计算机可读存储介质 |
CN109584980A (zh) * | 2018-11-09 | 2019-04-05 | 金色熊猫有限公司 | 数据核验方法及装置、电子设备、存储介质 |
CN110058920A (zh) * | 2019-03-04 | 2019-07-26 | 平安科技(深圳)有限公司 | 虚拟机性能检测方法及装置、电子设备、存储介质 |
-
2019
- 2019-11-25 CN CN201911168729.9A patent/CN111090641B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024231A1 (zh) * | 2017-08-04 | 2019-02-07 | 平安科技(深圳)有限公司 | 数据自动匹配方法、电子设备及计算机可读存储介质 |
CN109584980A (zh) * | 2018-11-09 | 2019-04-05 | 金色熊猫有限公司 | 数据核验方法及装置、电子设备、存储介质 |
CN110058920A (zh) * | 2019-03-04 | 2019-07-26 | 平安科技(深圳)有限公司 | 虚拟机性能检测方法及装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111090641A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111090641B (zh) | 数据处理方法及装置、电子设备、存储介质 | |
CN111144210B (zh) | 图像的结构化处理方法及装置、存储介质及电子设备 | |
CN111832298B (zh) | 病历的质检方法、装置、设备以及存储介质 | |
CN107766353B (zh) | 一种数据库统计信息迁移的方法和设备 | |
CN110647523B (zh) | 数据质量的分析方法及装置、存储介质、电子设备 | |
CN112560400B (zh) | 医学数据的处理方法、装置及存储介质 | |
KR20190095099A (ko) | 거래 시스템 에러 검출 방법, 장치, 저장 매체 및 컴퓨터 장치 | |
CN111782117B (zh) | 界面的展示方法和装置、存储介质、电子装置 | |
CN113963770A (zh) | 报告文件生成方法、装置、计算机设备及其存储介质 | |
CN112509661A (zh) | 用于识别体检报告的方法、计算设备和介质 | |
CN110349653A (zh) | 影像分析数据的显示方法、设备和存储介质 | |
CN109710523B (zh) | 视觉稿的测试用例生成方法及装置、存储介质、电子设备 | |
CN111104400A (zh) | 数据归一方法及装置、电子设备、存储介质 | |
CN114005498A (zh) | 临床试验数据逻辑核查方法和装置、设备、存储介质 | |
CN110826616B (zh) | 信息处理方法及装置、电子设备、存储介质 | |
CN112733199A (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN111063445A (zh) | 基于医疗数据的特征提取方法及装置、设备和介质 | |
CN115759040A (zh) | 一种电子病历解析方法、装置、设备和存储介质 | |
CN112699642B (zh) | 复杂医疗文书的索引提取方法及装置、介质及电子设备 | |
CN110852077B (zh) | 动态调整Word2Vec模型词典的方法、装置、介质及电子设备 | |
CN113032469B (zh) | 文本结构化模型训练、医疗文本结构化方法及装置 | |
CN111430013B (zh) | 一种图像日期的补全方法、装置、设备及存储介质 | |
US20200167152A1 (en) | Identification of a partial code to be refactored within a source code | |
CN112699872A (zh) | 表单审核处理方法及装置、电子设备和存储介质 | |
CN110866557B (zh) | 数据评价方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230221 Address after: 100191 room 801, 8th floor, building 9, 35 Huayuan North Road, Haidian District, Beijing Applicant after: YIDU CLOUD Ltd. Address before: Floor 15, building a, Yangzi science and technology innovation center, Jiangbei new district, Nanjing City, Jiangsu Province Applicant before: NANJING YIDUYUN MEDICAL TECHNOLOGY Co.,Ltd. Applicant before: Nanjing Yiyi Yunda Data Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |