CN115034580A - 融合数据集的质量评估方法和装置 - Google Patents
融合数据集的质量评估方法和装置 Download PDFInfo
- Publication number
- CN115034580A CN115034580A CN202210560547.1A CN202210560547A CN115034580A CN 115034580 A CN115034580 A CN 115034580A CN 202210560547 A CN202210560547 A CN 202210560547A CN 115034580 A CN115034580 A CN 115034580A
- Authority
- CN
- China
- Prior art keywords
- quality
- data set
- file
- association
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 170
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000001303 quality assessment method Methods 0.000 claims description 117
- 238000013442 quality metrics Methods 0.000 claims description 97
- 238000013139 quantization Methods 0.000 claims description 75
- 238000012545 processing Methods 0.000 claims description 61
- 238000005259 measurement Methods 0.000 claims description 53
- 238000010606 normalization Methods 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 61
- 238000004364 calculation method Methods 0.000 description 20
- 230000000875 corresponding effect Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 12
- 238000003745 diagnosis Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013421 nuclear magnetic resonance imaging Methods 0.000 description 2
- 238000002600 positron emission tomography Methods 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Game Theory and Decision Science (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合数据集的质量评估方法和装置,面向医学领域。所述方法包括:获取融合数据集,融合数据集中包括图像文件、文本文件和音频文件;基于集合特性指标进行集合质量评估,得到集合质量评估值;在集合使用质量合格的情况下,基于关联特性指标进行关联质量评估,得到关联质量评估值;在文件关联质量合格的情况下,若文件关联质量中等和/或集合使用质量中等,则确定融合数据集的质量中等;若文件关联质量优且集合使用质量优,则基于数据特性指标对融合数据集进行数据质量评估,得到融合数据集的数据质量评估值,获取融合数据集的质量级别。本发明结合融合数据集的特点实现了对融合数据集有针对性、准确、高效的评估。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种融合数据集的质量评估方法和装置。
背景技术
数据集(Dataset)是一种由数据所组成的集合,又可以称为资料集、数据集合或者资料集合等等。丰富的数据采集手段大大加快了各种数据的增长速度。体量庞大、形式多样的数据已经成为重要的资产,其丰富的内涵若得以充分挖掘将发挥巨大价值。随着人工智能(Artificial Intelligence,AI)的发展,数据集的使用越来越频繁。
人工智能在众多领域中的应用,通常是使用采集的领域数据来训练AI模型,利用AI的学习能力完成模型训练,从而实现相应的分类或识别问题。在此类应用中,数据集的质量是各种智能算法训练的基础。质量好或者相关性高的数据集对模型的训练是非常有帮助的,能够有效提升模型训练的准确性。因此,针对数据集的质量测评是一项非常关键的核心工作。相关技术中,数据集的类型包括图像数据集、文本数据集和音频数据集,在对数据集进行质量测评时,现有方法通常先基于数据集的类型选择相应的评估指标,然后结合数据集在各个评估指标下的度量情况获取数据集的质量。
然而,随着人工智能在各个行业不断渗透,逐渐衍生出同时包含图像、文本和音频等多种类型文件的融合数据集。若仅仅基于文件类型选择相应的评估指标进行质量评估,则只考虑了各个类型文件的自身数据质量,而文件的自身数据质量对融合数据集的使用效果影响较小,并不能准确反映融合数据集的质量高低。因此,需要一种针对融合数据集进行准确、可信、高效的质量评估方法,为大数据应用提供可靠的数据基础。
发明内容
发明目的:针对现有技术的不足,本发明提出一种融合数据集的质量评估方法,能够结合融合数据集的特点对融合数据集进行针对性、准确、高效的评估。
本发明还提供一种融合数据集的质量评估装置和计算机设备。
技术方案:为了实现以上发明目的,本发明的技术方案如下:
第一方面,一种融合数据集的质量评估方法,包括以下步骤:
获取融合数据集,融合数据集中包括图像文件、文本文件和音频文件;其中,图像文件包括借助于仪器或介质对患者作用所产生的医学图像,文本文件包括医生为患者诊疗的过程中形成的电子病历,音频文件包括医生为患者诊疗的过程中形成的对话录音;
基于从融合数据集的集合使用层面建立的集合特性指标对融合数据集进行集合质量评估,得到集合质量评估值;其中,在集合质量评估值指示融合数据集的集合使用质量不合格的情况下,确定融合数据集的质量低;
在集合质量评估值指示融合数据集的集合使用质量合格的情况下,基于从融合数据集的文件关联层面建立的关联特性指标对融合数据集进行关联质量评估,得到关联质量评估值;其中,在关联质量评估值指示融合数据集的文件关联质量不合格的情况下,确定融合数据集的质量低;
在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量中等和/或集合质量评估值指示集合使用质量中等,则确定融合数据集的质量中等;
在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量优,且集合质量评估值指示集合使用质量优,则基于从融合数据集的数据使用层面建立的数据特性指标对融合数据集进行数据质量评估,得到融合数据集的数据质量评估值,并基于数据质量评估值获取融合数据集的质量级别。
在一个示例中,所述集合特性指标包括数据规模、现时性和保密性,数据规模用于指示融合数据集在文件数量方面的充足程度,现时性用于指示融合数据集在文件生成方面的时间属性,保密性用于指示融合数据集在文件使用方面的保密属性;
所述基于从融合数据集的集合使用层面建立的集合特性指标对融合数据集进行集合质量评估,得到集合质量评估值,包括:
统计融合数据集中整体文件数量,并基于整体文件数量和数量阈值的比较,对整体文件数量进行归一化处理,得到数据规模度量值;
统计融合数据集中文件生成时间位于在先目标时刻与当前时刻之间的特定文件数量,并基于特定文件数量在整体文件数量中的占比,对特定文件数量进行归一化处理,得到现时性度量值;
获取融合数据集的保密说明,并基于获取结果确定保密性度量值;
基于数据规模度量值、现时性度量值和保密性度量值,计算集合质量评估值。
在一个示例中,所述关联特性指标包括整体关联性和格式完整性,整体关联性用于指示融合数据集在文件内容方面的关联程度,格式完整性用于指示融合数据集在文件格式方面的完整程度;
所述基于从融合数据集的文件关联层面建立的关联特性指标对融合数据集进行关联质量评估,得到关联质量评估值,包括:
对融合数据集中的文本文件进行内容解析,确定文本文件所属的样本中图像文件存在的必要性;
基于图像文件存在的必要性,对融合数据集中的图像文件、文本文件和音频文件的存在性进行量化处理,并基于量化结果计算格式完整性度量值;
基于图像文件存在的必要性,分别获取图像文件、文本文件和音频文件的标签信息,对标签信息进行内容匹配,并基于匹配结果计算整体关联性度量值;
基于格式完整性度量值和整体关联性度量值,计算关联质量评估值。
在一个示例中,所述基于图像文件存在的必要性,对融合数据集中的图像文件、文本文件和音频文件的存在性进行量化处理,并基于量化结果计算格式完整性度量值,包括:
针对融合数据集中必要存在图像文件的样本,对图像文件、文本文件和音频文件的存在性分别进行量化处理,并对量化结果进行加权求和处理得到第一格式度量值;
针对融合数据集中不必要存在图像文件的样本,对文本文件和音频文件的存在性分别进行量化处理,并对量化结果进行加权求和处理得到第二格式度量值;
基于第一格式度量值和第二格式度量值,计算格式完整性度量值。
在一个示例中,所述基于图像文件存在的必要性,分别获取图像文件、文本文件和音频文件的标签信息,对标签信息进行内容匹配,并基于匹配结果计算整体关联性度量值,包括:
针对融合数据集中必要存在图像文件的样本,获取图像文件、文本文件和音频文件的标签信息,基于标签信息相关的第一匹配规则对标签信息进行内容匹配;
针对融合数据集中不必要存在图像文件的样本,获取文本文件和音频文件的标签信息,基于标签信息相关的第二匹配规则对标签信息进行内容匹配;
对匹配结果进行量化处理,并基于量化结果计算整体关联性度量值。
在一个示例中,针对融合数据集中必要存在图像文件的样本,对标签信息进行内容匹配时所采取的第一匹配规则包括以下至少一项:计算机设备针对文件标注的标签信息与融合数据集针对文件携带的标签信息是否一致、图像文件的标签信息中患者姓名与文本文件的标签信息中患者姓名是否相同、图像文件的标签信息中申请医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中时间戳是否包含文本文件的标签信息中时间戳;针对融合数据集中不必要存在图像文件的样本,对标签信息进行内容匹配时所采取的第二匹配规则包括以下至少一项:计算机设备针对文件标注的标签信息与融合数据集针对文件携带的标签信息是否一致、音频文件的标签信息中医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中时间戳是否包含文本文件的标签信息中时间戳。
在一个示例中,所述基于从融合数据集的数据使用层面建立的数据特性指标对融合数据集进行数据质量评估,得到融合数据集的数据质量评估值,并基于数据质量评估值获取融合数据集的质量级别,包括:
获取融合数据集的样本中图像文件存在的必要性;
基于图像文件存在的必要性,分别获取图像质量度量值、文本质量度量值和音频质量度量值,并基于质量度量值计算数据质量评估值;
若数据质量评估值小于数据质量阈值,则确定融合数据集的质量中等;若数据质量评估值大于或等于数据质量阈值,则确定融合数据集的质量优。
在一个示例中,所述基于图像文件存在的必要性,分别获取图像质量度量值、文本质量度量值和音频质量度量值,并基于质量度量值计算数据质量评估值,包括:
针对融合数据集中必要存在图像文件的样本,获取图像质量度量值、文本质量度量值和音频质量度量值,并对质量度量值进行加权求和处理得到第一数据度量值;
针对融合数据集中不必要存在图像文件的样本,获取文本质量度量值和音频质量度量值,并对质量度量值进行加权求和处理得到第二数据度量值;
基于第一数据度量值和第二数据度量值,计算数据质量评估值。
在一个示例中,图像质量度量值的获取过程包括:对图像文件的曝光、清晰度和噪声进行量化处理,并基于量化结果计算图像质量度量值;文本质量度量值的获取过程包括:对文本文件的自洽性、可读性和文字统计结果进行量化处理,并基于量化结果计算文本质量度量值;音频质量度量值的获取过程包括:对音频文件的声量、背景噪音和静音占比进行量化处理,并基于量化结果计算音频质量度量值;其中,量化结果的取值范围统一为[0,1]。
第二方面,一种融合数据集的质量评估装置,包括:
数据获取模块,获取融合数据集,融合数据集中包括图像文件、文本文件和音频文件;其中,图像文件包括借助于仪器或介质对患者作用所产生的医学图像,文本文件包括医生为患者诊疗的过程中形成的电子病历,音频文件包括医生为患者诊疗的过程中形成的对话录音;
集合质量评估模块,基于从融合数据集的集合使用层面建立的集合特性指标对融合数据集进行集合质量评估,得到集合质量评估值;其中,在集合质量评估值指示融合数据集的集合使用质量不合格的情况下,确定融合数据集的质量低;
关联质量评估模块,在集合质量评估值指示融合数据集的集合使用质量合格的情况下,基于从融合数据集的文件关联层面建立的关联特性指标对融合数据集进行关联质量评估,得到关联质量评估值;其中,在关联质量评估值指示融合数据集的文件关联质量不合格的情况下,确定融合数据集的质量低;在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量中等和/或集合质量评估值指示集合使用质量中等,则确定融合数据集的质量中等;
数据质量评估模块,在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量优且集合质量评估值指示集合使用质量优,则基于从融合数据集的数据使用层面建立的数据特性指标对融合数据集进行数据质量评估,得到融合数据集的数据质量评估值,并基于数据质量评估值获取融合数据集的质量级别。
第三方面,一种计算机设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如第一方面所述的融合数据集的质量评估方法的步骤。
第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的融合数据集的质量评估方法的步骤。
有益效果:
1、本发明针对多种类型文件并存的融合数据集,提出从集合使用质量、文件关联质量、数据使用质量这三个维度执行质量评估,并且,本发明针对各个维度均细化了多个评估指标,针对各个评估指标均提供了具体评估方式,有助于实现对融合数据集进行完整且具体的质量评估。此外,计算机设备通过本发明提供的评估方式对获取的融合数据集进行质量评估,即可输出融合数据集的质量级别,实现了对融合数据集的自动化评估。
2、融合数据集相对于单一数据集存在多种类型文件并存的特点,属于同一样本的不同类型文件应当相互关联,考虑到融合数据集的这一特点,本发明从文件关联层面划分了关联特性指标,并以关联特性指标对融合数据集的文件关联特性进行评估,获取融合数据集的文件关联质量。正是由于本发明充分考虑了融合数据集的独特性,并针对性地提出了关联特性指标及其度量方式,提升了融合数据集质量评估的准确性。
3、本发明从多个维度对融合数据集采用层层递进式的评估方式。集合使用质量是影响融合数据集使用效果的基础因素,在集合使用质量不合格的情况下直接确定融合数据集的质量级别为质量差,并停止后续的质量评估以避免处理资源的浪费;在集合使用质量合格的情况下继续评估文件关联质量。文件关联质量是影响融合数据集使用效果的关键因素,在文件关联质量不合格的情况下直接确定融合数据集的质量级别为质量差,并停止后续的质量评估以避免处理资源的浪费;在文件关联质量合格的情况下,通过集合使用质量和文件关联质量的整体情况确定是否继续执行数据使用质量的评估。若集合使用质量或文件关联质量中任一质量为中等,则直接确定融合数据集的质量级别为中等;若集合使用质量和文件关联质量均为优,则进一步基于数据使用质量来确定融合数据集的质量级别。本发明充分考虑了各个维度质量对融合数据集使用效果的影响程度,按照影响程度从高到低依次展开质量评估,能够直接获得融合数据集的质量级别时及时终止评估并输出评估结果,避免浪费计算机设备的处理资源,优化了融合数据集的质量评估流程,实现了对融合数据集的高效评估。
附图说明
图1是本发明的融合数据集质量评估方法流程图。
图2是本发明的融合数据集质量评估装置框图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
本发明提供了一种融合数据集的质量评估方法,能够结合融合数据集的特点对融合数据集进行针对性、准确、高效的评估。如图1所示,本发明中融合数据集的质量评估方法包括如下几个步骤。
步骤1:获取融合数据集,融合数据集中包括图像文件、文本文件和音频文件。
融合数据集包括至少两种类型的文件,本发明中融合数据集包括图像文件、文本文件和音频文件。在理想情况下,融合数据集的每个样本中均包括至少两种类型的文件,即融合数据集中样本包括图像文件、文本文件和音频文件中的至少两个。此外,融合数据集中不同样本所包括的文件类型可以完全相同,也可以部分相同。例如,融合数据集中部分样本中每一份样本包括文本文件和音频文件,部分样本中每一份样本包括图像文件、文本文件和音频文件;又例如,融合数据集中部分样本中每一份样本包括文本文件和音频文件,部分样本中每一份样本包括图像文件和音频文件,部分样本中每一份包括图像文件和文本文件。
在一个示例中,以针对医学领域的应用为例,融合数据集中的一个样本即为一个问诊单元,一个问诊单元对应于一位患者但一位患者可能对应于一个或多个问诊单元,另外,一个问诊单元中可能包括一位患者的一次或多次诊疗。在该示例中,图像文件可以是借助于仪器或介质对患者作用所产生的医学图像,包括但不限于:CT(Computer Tomography,电脑断层扫描)图像、PET(Positron Emission Tomography,正子发射断层扫描)图像、医学超音波检查(Medical Ultrasonography)图像、NMRI(Nuclear Magnetic ResonanceImaging,核磁共振成像)图像等;文本文件可以是医生为患者诊疗的过程中形成的电子病历,包括但不限于:问诊单、送检单、诊断记录、处方单、注射单、缴费单等;音频文件可以是医生为患者诊疗的过程中形成的对话录音,包括但不限于:录音笔记录、监控记录等。在该示例中,由于诊疗过程可能直接由医生基于患者自述的症状及会面观察等即可完成,因此融合数据集中部分样本在理想情况下应该包括文本文件和音频文件;而由于诊疗过程中也可能涉及借助仪器和介质等对患者作用所产生的图像来辅助医生进行诊断,因此融合数据集中部分样本在理想情况下除了包括文本文件和音频文件之外,还应该包括图像文件。
本发明可以获取计算机设备本地存储的融合数据集进行质量评估,也可以获取其它设备存储的融合数据集进行质量评估。示例性地,计算机设备获取用户从本地存储中选择的任一融合数据集;或者,用户输入任一融合数据集的访问地址,计算机设备从访问地址指示的设备中获取该融合数据集。
步骤2:以集合特性指标对融合数据集进行质量评估,得到集合质量评估值。
集合特性指标是指从融合数据集的集合使用层面划分的评估指标,关注融合数据集的集合使用特性,是以集合使用角度从整体上对融合数据集进行质量评估。计算机设备以集合特性指标对融合数据集的集合使用特性进行评估,可以计算得到融合数据集的集合质量评估值。由于集合特性指标是从整体上衡量融合数据集的质量,对质量的评估较为基础,若集合质量评估值指示融合数据集的集合使用质量不合格,则直接确定融合数据集的质量差;若集合质量评估值指示融合数据集的集合使用质量合格,则进一步从其它维度评估融合数据集的质量级别。
在一个示例中,集合特性指标包括:数据规模、现时性和保密性。其中,数据规模用于指示融合数据集在文件数量方面的充足程度,如文件数量是否足够等;现时性用于指示融合数据集在文件生成方面的时间属性,如文件生成时间是否位于要求时间段内等;保密性用于指示融合数据集在文件使用方面的保密属性,如是否存在保密说明对文件在使用和共享时是否需要保密、采用何种方式进行保密等进行说明。基于此,上述步骤2包括如下几个子步骤(步骤2.1至2.4)。
步骤2.1:统计融合数据集中整体文件数量,并基于整体文件数量和数量阈值的比较,对整体文件数量进行归一化处理,得到数据规模度量值。
整体文件数量是指融合数据集所包括的所有文件的数量,用于度量融合数据集的数据规模。本发明为了统一数据规模度量值的取值范围,基于整体文件数量和数量阈值的比较,对整体文件数量进行归一化处理,以获取数据规模度量值。其中,数量阈值可以是预先设置的一个阈值,也可以是预先设置的多个阈值,实际应用中,可以结合计算机设备的处理开销、数据集的评估速度和评估精细度需求等灵活设置。
在一个示例中,预先设置一个数量阈值t0,t0为正整数。若整体文件数量x1大于或等于t0,则数据规模度量值m1归一化为1;若整体文件数量x1小于t0,则数据规模度量值m1通过公式归一化至0至1之间的任一数值。也即,数据规模度量值m1的计算公式如下所示:
可选地,t0的取值一般设置较大,如设置为8000、10000、12000等。
在另一个示例中,预先设置两个数量阈值t1和t2,t1和t2为正整数,且t1小于t2。若整体文件数量x1小于或等于t1,则数据规模度量值m1归一化为0;若整体文件数量x1大于或等于t2,则数据规模度量值m1归一化为1;若整体文件数量x1大于t1且小于t2,则数据规模度量值m1通过公式归一化为0至1之间的任一数值。也即,数据规模度量值m1的计算公式如下所示:
可选地,t1的取值一般设置较小,如设置为500、1000等;t2的取值一般设置较大,如设置为8000、10000等。
步骤2.2:统计融合数据集中文件生成时间位于目标时刻至当前时刻之间的特定文件数量,并基于特定文件数量在整体文件数量中的占比,对特定文件数量进行归一化处理,得到现时性度量值。
特定文件数量是指融合数据集中文件生成时间位于在先目标时刻至当前时刻之间的所有文件的数量,用于度量融合数据集的现时性。其中,在先目标时刻是当前时刻之前的时刻,该在先目标时刻与当前时刻之间的时间间隔可以结合现时性度量的严格程度等灵活设置。示例性地,若现时性度量要求严格,则在先目标时刻与当前时刻之间的时间间隔设置较小,如设置为一年、半年等;若现时性度量要求简单,则在先目标时刻与当前时刻之间的时间间隔设置较大,如设置为三年、四年等。本发明为了统一现时性度量值的取值范围,基于特定文件数量在整体文件数量中的占比,对特定文件数量进行归一化处理,以获取现时性度量值。
在一个示例中,由于特定文件数量x2在整体文件数量x1中的占比的取值范围为[0,1],从而对特定文件数量x2的归一化处理可以直接为计算特定文件数量x2在整体文件数量x1中的占比,并将该占比作为现时性度量值m2。也即,现时性度量值m2的计算公式如下所示:
在另一个示例中,考虑到现时性的度量精细度,在计算特定文件数量x2在整体文件数量x1中的占比之后,进一步基于该占比与占比阈值的比较,获取现时性度量值m2。其中,占比阈值可以是预先设置的一个阈值,也可以是预先设置的多个阈值。本发明以占比阈值是预先设置的一个阈值为例,示例性地,预先设置一个占比阈值w0,w0为小于1的正数。若占比小于或等于w0,则现时性度量值m2归一化为0;若占比大于w0,则现时性度量值m2通过公式归一化为0至1之间的任一数值。也即,现时性度量值m2的计算公式如下所示:
可选地,占比阈值w0一般设置较小,如设置为0.3、0.5等。
步骤2.3:获取融合数据集的保密说明,并基于获取结果确定保密性度量值。
保密说明用于指示融合数据集的使用和共享过程是否需要保密,以及需要保密时采取的保密措施,用于度量融合数据集的保密性。为了直观度量保密性以及便于计算,本发明先通过计算机设备获取融合数据集的保密说明,再对获取结果进行量化以确定保密性度量值。其中,保密性度量值的取值范围为[0,1],较差的获取结果量化为较小的保密性度量值,较好的获取结果量化为较大的保密性度量值。
在一个示例中,保密说明的获取结果包括两种情况:获取到保密说明、没有获取到保密说明。若获取结果为没有获取到保密说明,则保密性度量值m3量化为0;若获取结果为获取到保密说明,则保密性度量值m3量化为1。
在另一个示例中,保密说明的获取结果包括三种情况:获取到保密说明且保密说明完整、获取到保密说明但保密说明不完整(如虽说明需要保密但未说明保密措施,或虽说明保密措施但未说明是否需要保密等)、没有获取到保密说明。若获取结果为没有获取到保密说明,则保密性度量值m3量化为0;若获取结果为获取到保密说明但保密说明不完整,则保密性度量值m3量化为0.5;若获取结果为获取到保密说明且保密说明完整,则保密性度量值m3量化为1。
步骤2.4:基于数据规模度量值、现时性度量值和保密性度量值,计算集合质量评估值。
该示例从数据规模、现时性和保密性这三个维度来度量融合数据集的集合使用特性,计算机设备基于数据规模度量值、现时性度量值和保密性度量值,即可计算得到融合数据集的集合质量评估值。本发明对集合质量评估值的具体计算方式不作限定,可选地,计算机设备对数据规模度量值、现时性度量值和保密性度量值进行求积处理、求平均处理、求和处理、加权求和处理等中的任意一项处理,得到集合质量评估值。
在一个示例中,计算机设备对数据规模度量值m1、现时性度量值m2和保密性度量值m3进行求积处理,得到集合质量评估值Z1。也即,集合质量评估值Z1的计算公式如下所示:
Z1=m1×m2×m3
在该示例中,数据规模、现时性和保密性这三个维度中任一维度的度量结果较差均会对集合使用特性的度量造成重大影响,如任一维度的度量值为0则集合质量评估值Z1即为0。因此,该示例所提供的集合质量评估值Z1的计算方式一般适用于度量要求严格、且度量的各个维度同等重要的应用场景。
在另一个示例中,计算机设备对数据规模度量值m1、现时性度量值m2和保密性度量值m3进行加权求和处理,得到集合质量评估值Z1。也即,集合质量评估值Z1的计算公式如下所示:
Z1=y1×m1+y2×m2+y3×m3
其中,y1、y2和y3分别为数据规模度量值m1、现时性度量值m2和保密性度量值m3的权重,且y1、y2和y3之和等于1。在该示例中,数据规模、现时性和保密性这三个维度中权重较大的维度对集合使用特性的度量造成的影响也较大,而权重y1、y2和y3是可以灵活设置和调整的。因此,该示例所提供的集合质量评估值Z1的计算方式一般适用于存在个性化需求的应用场景。
本发明中,集合质量评估值越大,则表示融合数据集的集合使用质量越好。由于集合使用特性仅仅是度量融合数据集质量的一个基础维度,为实现对融合数据集质量的准确、高效地评估,计算机设备通过集合质量评估值确定融合数据集的集合使用质量是否合格。若集合质量评估值指示融合数据集的集合使用质量不合格,则直接确定融合数据集的质量差;若集合质量评估值指示融合数据集的集合使用质量合格,则继续执行步骤3。
在一个示例中,计算机设备通过集合质量评估值Z1与评估阈值k11的比较来确定集合使用质量是否合格。其中,该评估阈值k11为小于1的正数,针对集合质量度量要求严格的应用场景,可以设置较大的评估阈值k11,如设置为0.3、0.4等;针对集合质量度量要求简单的应用场景,可以设置较小的评估阈值k11,如设置为0.05、0.1等。示例性地,设置评估阈值k11为0.3,若集合质量评估值Z1大于或等于0.3则集合使用质量合格,若集合质量评估值Z1小于0.3则集合使用质量不合格。
在另一个示例中,计算机设备通过集合质量评估值Z1的性质来确定集合使用质量是否合格。示例性地,集合质量评估值Z1的性质包括是否为正数,若集合质量评估值Z1为正数则集合使用质量合格,若集合质量评估值Z1为零则集合使用质量不合格。
步骤3:在集合质量评估值指示融合数据集的集合使用质量合格的情况下,以关联特性指标对融合数据集进行质量评估,得到关联质量评估值;其中,关联特性指标是指从融合数据集的文件关联层面划分的评估指标。
本发明在集合质量评估值指示融合数据集的集合使用质量合格的情况下,结合融合数据集相对于单一数据集所存在的多种类型文件并存的特点,提出从融合数据集的文件关联层面划分关联特性指标,关注融合数据集的文件关联特性。计算机设备以关联特性指标对融合数据集的文件关联特性进行评估,可以计算得到融合数据集的关联质量评估值。对于融合了多种类型文件的融合数据集而言,属于同一样本的不同类型文件应当相互关联,若不同类型文件之间不存在关联性,则会对需要使用到融合数据集的模型训练任务或模型测试任务产生严重消极影响,如导致任务训练结果差、任务决策失误率高等。基于此,若关联质量评估值指示融合数据集的文件关联质量不合格,则直接确定融合数据集的质量差;若关联质量评估值指示融合数据集的文件关联质量合格,则进一步细化评估融合数据集的质量级别。
在一个示例中,关联特性指标包括整体关联性和格式完整性。其中,整体关联性用于指示融合数据集在文件内容方面的关联程度,如属于同一样本的不同类型文件是否指向相同标签信息、不同类型文件的生成时间是否对应、文件的标签信息与文件的内容是否匹配等;格式完整性用于指示融合数据集在文件格式方面的完整程度,如是否存在文件缺失、文件格式是否出错等。基于此,上述步骤3包括如下几个子步骤(步骤3.1至3.4)。
步骤3.1:对融合数据集中的文本文件进行内容解析,确定文本文件所属的样本中图像文件存在的必要性。
由上述步骤1可知,在理想情况下,融合数据集的每个样本中均包括至少两种类型的文件,因此,在度量融合数据集的文件关联特性时,首先需要确定融合数据集的每个样本中各类文件存在的必要性。若文件必要存在但却实际不存在,则导致文件缺失;若文件不必要存在但却实际存在,则考虑到数据集的评估速度、计算机设备的处理开销等,在评估过程中可以忽略这部分文件。
本发明以针对医学领域的应用为例,由上述介绍可知,文本文件是医生为患者诊疗的过程中形成的电子病历,其在样本中属于必要存在的文件;音频文件是医生为患者诊疗的过程中形成的对话录音,由于其易于制作和获取,本发明也将其作为样本中必要存在的文件;图像文件是借助于仪器或介质对患者作用所产生的医学图像,并非是所有诊疗过程均涉及医学图像的介入,从而图像文件在样本中可能属于必要存在的文件,也可能属于不必要存在的文件。因此,计算机设备需要对样本中图像文件存在的必要性进行验证。
通常,在诊疗需要介入医学图像时,患者的电子病历中会存在送诊相关记录(如医生为患者开具的送诊单、产生医学图像的检查项目的缴费单等),从而样本中图像文件存在的必要性可以通过样本中文本文件的内容进行验证。基于此,计算机设备对融合数据集中的文本文件进行内容解析,以确定文本文件所属的样本中图像文件存在的必要性。示例性地,若从文本文件中解析出送诊相关记录,则确定文本文件所属的样本中必要存在图像文件;若从文本文件中未解析出送诊相关记录,则确定文本文件所属的样本中不必要存在图像文件。可选地,对文本文件的内容解析可以通过自然语言处理(Natural LanguageProcessing,NLP)技术实现,如分词、命名体识别、关键词抽取等。
步骤3.2:基于图像文件存在的必要性,对融合数据集中的图像文件、文本文件和音频文件的存在性进行量化处理,并基于量化结果计算格式完整性度量值。
文件的存在性用于指示文件实际是否存在,其与文件存在的必要性相结合可以用于度量融合数据集的格式完整性。为了直观度量格式完整性以及便于计算,本发明对文件的存在性进行量化处理并基于量化结果计算格式完整性度量值。可选地,计算机设备在对文件的存在性进行量化处理时,针对文件实际存在的情况量化为1,针对文件实际不存在的情况量化为0。此外,由上述步骤3.1可知,本发明以针对医学领域的应用为例,文本文件和音频文件均属于必要存在的文件,而图像文件在不同样本中存在的必要性有所差异,因此,计算机设备需要基于图像文件存在的必要性,分别对融合数据集的不同样本中文件的存在性进行量化处理。
基于此,可选地,上述步骤3.2包括:针对融合数据集中必要存在图像文件的样本,对图像文件、文本文件和音频文件的存在性分别进行量化处理,并对量化结果进行加权求和处理得到第一格式度量值;针对融合数据集中不必要存在图像文件的样本,对文本文件和音频文件的存在性分别进行量化处理,并对量化结果进行加权求和处理得到第二格式度量值;基于第一格式度量值和第二格式度量值,计算格式完整性度量值。
示例性地,假设:融合数据集中必要存在图像文件的样本的数量为n1,不必要存在图像文件的样本的数量为n2,n1和n2均为正整数;针对融合数据集中必要存在图像文件的样本,第j(j为小于或等于n1的正整数)个样本中图像文件、文本文件和音频文件对应的量化结果分别为p11j、p12j和p13j,每个样本中图像文件、文本文件和音频文件对应的量化结果的权重分别为c11、c12和c13,c11、c12和c13之和为1;针对融合数据集中不必要存在图像文件的样本,第v(v为小于或等于n2的正整数)个样本中文本文件和音频文件对应的量化结果分别为p22v和p23v,每个样本中文本文件和音频文件对应的量化结果的权重分别为c22和c23,c22和c23之和为1;则格式完整性度量值q1的计算公式如下所示:
在面向医学领域的应用中,图像文件反映的内容较为客观且准确,文本文件反映的内容较为全面且详细,音频文件相对于图像文件和文本文件在内容上的可使用率和重要度相对较低。因此,可选地,在上述加权求和处理中,针对融合数据集中必要存在图像文件的样本,图像文件对应的量化结果的权重c11大于或等于文本文件对应的量化结果的权重c12,文本文件对应的量化结果的权重c12大于音频文件对应的量化结果的权重c13,如c11为0.5、c12为0.3、c13为0.2,又如c11为0.4、c12为0.4、c13为0.2;针对融合数据集中不必要存在图像文件的样本,文本文件对应的量化结果的权重c22大于音频文件对应的量化结果的权重c23,如c22为0.8、c23为0.2,又如c22为0.7、c23为0.3。
步骤3.3:基于图像文件存在的必要性,分别获取图像文件、文本文件和音频文件的标签信息,对标签信息进行内容匹配,并基于匹配结果计算整体关联性度量值。
文件的标签信息用于指示文件的属性、关键内容等,以面向医学领域的应用为例,图像文件的标签信息包括但不限于以下至少一项:患者姓名、申请医生姓名、操作医生姓名、诊断医生姓名、时间戳、编码标识,文本文件的标签信息包括但不限于以下至少一项:患者姓名、医生姓名、时间戳、编码标识,音频文件的标签信息包括但不限于以下至少一项:医生姓名、时间戳、编码标识。可选地,文件的标签信息可以是融合数据集中原始携带的,也可以是计算机设备基于对文件的文字识别、关键字提取、内容解析等标注的。本发明中,属于同一样本的不同类型文件的标签信息之间的内容匹配程度,可以用于度量融合数据集的整体关联性。但由上述介绍可知,不同样本中图像文件存在的必要性有所差异,从而计算机设备需要基于图像文件存在的必要性,分别对融合数据集的不同样本中文件的标签信息进行内容匹配。
基于此,可选地,上述步骤3.3包括:针对融合数据集中必要存在图像文件的样本,获取图像文件、文本文件和音频文件的标签信息,基于标签信息相关的第一匹配规则对标签信息进行内容匹配;针对融合数据集中不必要存在图像文件的样本,获取文本文件和音频文件的标签信息,基于标签信息相关的第二匹配规则对标签信息进行内容匹配;对匹配结果进行量化处理,并基于量化结果计算整体关联性度量值。
其中,对匹配结果进行量化处理所得到的量化值的取值范围为[0,1],较差的匹配结果量化为较小的量化值,较好的匹配结果量化为较大的量化值。在一个示例中,匹配结果包括两种情况:内容完全匹配、内容存在不匹配,若匹配结果为内容完全匹配则量化为1,若匹配结果为内容存在不匹配则量化为0。在另一个示例中,匹配结果包括三种情况:内容完全匹配、内容部分匹配、内容完全不匹配,若匹配结果为内容完全匹配则量化为1,若匹配结果为内容部分匹配则量化为0.5,若匹配结果为内容完全不匹配则量化为0。
此外,由于不同样本中图像文件存在的必要性有所差异,计算机设备从不同样本中获取到的标签信息也不同,从而针对不同样本进行标签信息的内容匹配时所采取的匹配规则也有所差异。可选地,针对融合数据集中必要存在图像文件的样本,计算机设备所采取的第一匹配规则包括但不限于以下至少一项:计算机设备针对文件标注的标签信息与融合数据集针对文件携带的标签信息是否一致、图像文件的标签信息中患者姓名与文本文件的标签信息中患者姓名是否相同、图像文件的标签信息中申请医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中时间戳是否包含文本文件的标签信息中时间戳;针对融合数据集中不必要存在图像文件的样本,计算机设备所采取的第二匹配规则包括但不限于以下至少一项:计算机设备针对文件标注的标签信息与融合数据集针对文件携带的标签信息是否一致、音频文件的标签信息中医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中时间戳是否包含文本文件的标签信息中时间戳。
示例性地,假设:匹配结果量化后的量化结果为fi;融合数据集中样本的数量为n,n为正整数;则整体关联性度量值q2的计算公式如下所示:
步骤3.4:基于格式完整性度量值和整体关联性度量值,计算关联质量评估值。
该示例从格式完整性和整体关联性这两个维度来度量融合数据集的文件关联特性,计算机设备基于格式完整性度量值和整体关联性度量值,即可计算融合数据集的关联质量评估值。本发明对关联质量评估值的具体计算方式不作限定,可选地,计算机设备对格式完整性度量值和整体关联性度量值进行求积处理、求平均处理、求和处理、加权求和处理等中的任意一项处理,得到关联质量评估值。
在一个示例中,计算机设备对格式完整性度量值q1和整体关联性度量值q2进行求积处理,得到关联质量评估值Z2。也即,关联质量评估值Z2的计算公式如下所示:
Z2=q1×q2
在该示例中,格式完整性和整体关联性中任一维度的度量结果较差均会对文件关联特性的度量结果造成重大影响,如任一维度的度量值小于0.5时,即便另一维度的度量值为1,关联质量评估值Z2也会小于0.5。因此,该示例所提供的关联质量评估值Z2的计算方式一般适用于度量要求严格、且度量的各个维度同等重要的应用场景。
在另一个示例中,计算机设备对格式完整性度量值q1和整体关联性度量值q2进行加权求和处理,得到关联质量评估值Z2。也即,关联质量评估值Z2的计算公式如下所示:
Z2=e1×q1+e2×q2
其中,e1和e2分别为格式完整性度量值q1和整体关联性度量值q2的权重,且e1和e2之和等于1。在该示例中,格式完整性和整体关联性中权重较大的维度对文件关联特性的度量造成的影响也较大,而权重e1和e2是可以灵活设置和调整的。因此,该示例所提供的关联质量评估值Z2的的计算方式一般适用于存在个性化需求的应用场景。
本发明中,关联质量评估值越大,则表示融合数据集的文件关联质量越好。由于文件关联特性是影响融合数据集使用效果的关键特性,也是度量融合数据集质量的一个关键维度,为实现融合数据集质量的准确、高效地评估,计算机设备通过关联质量评估值确定融合数据集的文件关联质量是否合格。若关联质量评估值指示融合数据集的文件关联质量不合格,则直接确定融合数据集的质量差;若关联质量评估值指示融合数据集的文件关联质量合格,则基于关联质量评估值和集合质量评估值的整体指示情况,继续执行步骤4或5。
在一个示例中,由于关联质量评估值基于格式完整性度量值和整体关联性度量值计算得到,而格式完整性度量值或整体关联性度量值等于0的概率很小,因此计算机设备可以通过关联质量评估值Z2与评估阈值k21的比较来确定文件关联质量是否合格。其中,该评估阈值k21为小于1的正数,针对关联质量度量要求严格的应用场景,可以设置较大的评估阈值k21,如设置为0.3、0.4等;针对关联质量度量要求简单的应用场景,可以设置较小的评估阈值k21,如设置为0.05、0.1等。示例性地,设置评估阈值k21为0.4,若关联质量评估值Z2大于或等于0.4则文件关联质量合格,若关联质量评估值Z2小于0.4则文件关联质量不合格。
步骤4:在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量中等,或集合质量评估值指示集合使用质量中等,则确定融合数据集的质量中等。
集合使用质量直接反映了融合数据集在文件规模、文件使用、文件生成等方面的规范程度,是影响融合数据集使用效果的基础因素;文件关联质量直接反映了融合数据集在文件内容、文件格式等方面的准确程度,是影响融合数据集使用效果的关键因素。因此,在本发明中,若集合使用质量或文件关联质量不合格,则直接确定融合数据集的质量差;若集合使用质量或文件关联质量中等,则直接确定融合数据集的质量中等;若集合使用质量和文件关联质量均为优,则进一步关注融合数据集中文件本身的质量,以确定融合数据集的质量级别为质量中等还是质量优。
在一个示例中,在集合质量评估值Z1指示集合使用质量合格且关联质量评估值Z2指示文件关联质量合格的情况下,计算机设备通过集合质量评估值Z1与评估阈值k12的比较来确定集合使用质量为中等或优,通过关联质量评估值Z2与评估阈值k22的比较来确定文件关联质量为中等或优。可选地,计算机设备可以同时执行集合使用质量和文件关联质量的确定步骤;也可以先执行集合使用质量和文件关联质量中任一质量的确定步骤,再基于结果确定是否继续执行另一质量的确定步骤。
例如,计算机设备通过集合质量评估值Z1与评估阈值k12的比较来确定集合使用质量为中等或优,并且,通过关联质量评估值Z2与评估阈值k22的比较来确定文件关联质量为中等或优,若集合使用质量或文件关联质量为中等,则直接确定融合数据集的质量中等;若集合使用质量和文件关联质量均为优,则继续执行步骤5以确定融合数据集的质量级别。
又例如,计算机设备先通过集合质量评估值Z1与评估阈值k12的比较来确定集合使用质量为中等或优,若集合使用质量为中等,则直接确定融合数据集的质量中等;若集合使用质量为优,则继续通过关联质量评估值Z2与评估阈值k22的比较来确定文件关联质量为中等或优;若文件关联质量为中等,则直接确定融合数据集的质量中等;若文件关联质量为优,则继续执行步骤5以确定融合数据集的质量级别。
再例如,计算机设备先通过关联质量评估值Z2与评估阈值k22的比较来确定文件关联质量为中等或优,若文件关联质量为中等,则直接确定融合数据集的质量中等;若文件关联质量为优,则继续通过集合质量评估值Z1与评估阈值k12的比较来确定集合使用质量为中等或优;若集合使用质量为中等,则直接确定融合数据集的质量中等;若集合使用质量为优,则继续执行步骤5以确定融合数据集的质量级别。
其中,评估阈值k12和评估阈值k22均为小于1的正数,针对融合数据集质量度量要求严格的应用场景,可以设置较大的评估阈值k12和评估阈值k22,如设置评估阈值k12为0.7、0.8等,设置评估阈值k22为0.8、0.9等;针对融合数据集质量度量要求简单的应用场景,可以设置较小的评估阈值k12和评估阈值k22,如设置评估阈值k12为0.5、0.6等,设置评估阈值k22为0.6、0.7等。示例性地,设置评估阈值k12为0.6,设置评估阈值k22为0.8,若集合质量评估值Z1大于或等于0.6则集合使用质量优,若关联质量评估值Z2大于或等于0.8则文件关联质量优。
步骤5:在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量优,且集合质量评估值指示集合使用质量优,则以数据特性指标对融合数据集进行质量评估,得到融合数据集的数据质量评估值,并基于数据质量评估值获取融合数据集的质量级别;其中,数据特性指标是指从融合数据集的数据使用层面划分的评估指标。
本发明在集合质量评估值指示集合使用质量优且关联质量评估值指示文件关联质量优的情况下,结合融合数据集中文件本身的质量,提出从融合数据集的数据使用层面划分数据特性指标,关注融合数据集中文件的数据使用特性。计算机设备以数据使用特性对融合数据集进行质量评估,可以计算得到融合数据集的数据质量评估值。对于融合数据集而言,文件在内容和格式等方面是否出错决定了融合数据集的质量级别是否为质量差,而文件在本身数据表现方面是否优秀影响了融合数据集的质量级别是否为质量优。基于此,在计算得到数据质量评估值之后,计算机设备进一步基于数据质量评估值确定融合数据集的质量级别为质量中等或质量优。
在一个示例中,数据特性指标包括图像质量、文本质量和音频质量。其中,图像质量对应于图像文件的质量,如图像的曝光、清晰度、噪声等;文本质量对应于文本文件的质量,如文本的自洽性、可读性、文字统计结果等;音频质量对应于音频文件的质量,如音频的声量、背景噪音、静音占比等。基于此,上述步骤5包括如下几个子步骤(步骤5.1至5.3)。
步骤5.1:获取融合数据集的样本中图像文件存在的必要性。
由上述介绍可知,在面向医学领域的应用中,融合数据集的不同样本中图像文件存在的必要性有所差异,本发明考虑到数据集的评估速度和计算机设备的处理开销,在评估融合数据集中文件本身的质量时,针对不必要存在图像文件但却实际存在图像文件的样本,不考虑这部分图像文件的质量。因此,计算机设备首先需要获取融合数据集的样本中图像文件存在的必要性。可选地,步骤5.1的具体执行过程可以参照上述步骤3.1的介绍说明;或者,在计算机设备执行上述步骤3.1之后,将样本中图像文件存在的必要性进行标注,将其添加至样本的标签信息中,从而在步骤5.1中计算机设备直接从样本的标签信息中获取图像文件存在的必要性。
步骤5.2:基于图像文件存在的必要性,分别获取图像质量度量值、文本质量度量值和音频质量度量值,并基于质量度量值计算数据质量评估值。
图像质量度量值、文本质量度量值和音频质量度量值分别通过对图像文件、文本文件、音频文件的至少一个维度度量得到。在一个示例中,图像质量度量值、文本质量度量值和音频质量度量值的获取过程分别如下:对图像文件的曝光、清晰度和噪声进行量化处理,并基于量化结果计算图像质量度量值;对文本文件的自洽性、可读性和文字统计结果进行量化处理,并基于量化结果计算文本质量度量值;对音频文件的声量、背景噪音和静音占比进行量化处理,并基于量化结果计算音频质量度量值。本发明为了便于计算,在进行上述量化处理时,量化结果的取值范围统一为[0,1]。可选地,在计算各个文件的质量度量值时,可以对各个维度的量化结果进行求平均处理、加权求和处理、求积处理等任意一项处理,以得到文件的质量度量值。
示例性地,假设:图像文件的曝光、清晰度和噪声这三个维度的量化结果分别为img1、img2和img3;文本文件的自洽性、可读性和文字统计结果这三个维度的量化结果分别为text1、text2和text3;音频文件的声量、背景噪音和静音占比这三个维度的量化结果分别为voice1、voice2和voice3;则图像质量度量值img、文本质量度量值text和音频质量度量值voice的计算公式分别如下所示:
img=imgi×img2×img3
text=text1×text2×text3
voice=voice1×voice2×voice3
由上述步骤5.1可知,在评估融合数据集中文件本身的质量时,针对不必要存在图像文件但却实际存在图像文件的样本,不考虑这部分图像文件的质量。基于此,可选地,上述步骤5.2包括:针对融合数据集中必要存在图像文件的样本,获取图像质量度量值、文本质量度量值和音频质量度量值,并对质量度量值进行加权求和处理得到第一数据度量值;针对融合数据集中不必要存在图像文件的样本,获取文本质量度量值和音频质量度量值,并对质量度量值进行加权求和处理得到第二数据度量值;基于第一数据度量值和第二数据度量值,计算数据质量评估值。
示例性地,假设:融合数据集中必要存在图像文件的样本的数量为n1,不必要存在图像文件的样本的数量为n2,n1和n2均为正整数;针对融合数据集中必要存在图像文件的样本,第j(j为小于或等于n1的正整数)个样本的图像质量度量值、文本质量度量值和音频质量度量值分别为imgj、textj和voicej,每个样本的图像质量度量值、文本质量度量值和音频质量度量值的权重分别为u11、u12和u13,u11、u12和u13之和为1;针对融合数据集中不必要存在图像文件的样本,第v(v为小于或等于n2的正整数)个样本的文本质量度量值和音频质量度量值分别为textv和voicev,每个样本的文本质量度量值和音频质量度量值的权重分别为u22和u23,u22和u23之和为1;则数据质量评估值Z3的计算公式如下所示:
可选地,与上述步骤3.2类似,在上述加权求和处理中,针对融合数据集中必要存在图像文件的样本,图像质量度量值的权重u11大于或等于文本质量度量值的权重u12,文本质量度量值的权重u12大于音频质量度量值的权重u13,如u11为0.5、ut2为0.3、u13为0.2,又如u11为0.4、u12为0.4、u13为0.2;针对融合数据集中不必要存在图像文件的样本,文本质量度量值的权重u22大于音频质量度量值的权重u23,如u22为0.8、u23为0.2,又如u22为0.7、u23为0.3。
步骤5.3:若数据质量评估值小于数据质量阈值,则确定融合数据集的质量中等;若数据质量评估值大于或等于数据质量阈值,则确定融合数据集的质量优。
计算机设备通过数据质量评估值与数据质量阈值的比较,来确定融合数据集的质量级别,若数据质量评估值小于数据质量阈值,则确定融合数据集的质量级别为质量中等;若数据质量评估值大于或等于数据质量阈值,则确定融合数据集的质量级别为质量优。可选地,从上述步骤的计算可知,数据质量评估值的取值范围为[0,1],因此数据质量阈值为小于1的正数。其中,针对融合数据集质量度量要求严格的应用场景,可以设置较大的数据质量阈值,如设置为0.7、0.8;针对融合数据集质量度量要求简单的应用场景,可以设置较小的数据质量阈值,如设置为0.5、0.6。示例性地,设置数据质量阈值为0.7,若数据质量评估值Z3小于0.7,则融合数据集的质量中等;若数据质量评估值Z3大于或等于0.7,则融合数据集的质量优。
需要说明的是,本发明中,融合数据集的质量级别也可以有其它的表示形式,如表示为L1(对应于质量差)、L2(对应于质量中等)和L3(对应于质量优);或者,融合数据集的质量级别也可以更加细化,如划分为差、中等偏下、中等、中等偏上和优,或者划分为L1、L2、L3、L4和L5等。无论是质量级别的表现形式还是细化程度,均可以结合应用过程中的个性化需求灵活设置和调整,如通过设置更多的阶段阈值而对质量级别进行更加细粒度地划分。应理解,这些均应属于本发明的保护范围之内。
本发明针对融合数据集提供了完整且具体的自动化质量评估方法。相关技术中数据集质量评估方法仅关注单一文件类型的数据集,而本发明针对多种类型文件并存的融合数据集,提出从集合使用质量、文件关联质量、数据使用质量这三个维度执行质量评估。并且,本发明针对各个维度均细化了多个评估指标,针对各个评估指标均提供了具体评估方式,有助于实现对融合数据集进行完整且具体的质量评估。此外,计算机设备通过本发明提供的评估方式对获取的融合数据集进行质量评估,即可输出融合数据集的质量级别,实现了对融合数据集的自动化评估。
另外,融合数据集相对于单一数据集存在多种类型文件并存的特点,属于同一样本的不同类型文件应当相互关联,考虑到融合数据集的这一特点,本发明从文件关联层面划分了关联特性指标,并以关联特性指标对融合数据集的文件关联特性进行评估,获取融合数据集的文件关联质量。正是由于本发明充分考虑了融合数据集的独特性,并针对性地提出了关联特性指标及其度量方式,提升了融合数据集质量评估的准确性。
此外,本发明从集合使用质量、文件关联质量、数据使用质量这三个维度依次对融合数据集进行质量评估。集合使用质量是影响融合数据集使用效果的基础因素,在集合使用质量不合格的情况下直接确定融合数据集的质量级别为质量差,并停止后续的质量评估以避免处理资源的浪费;在集合使用质量合格的情况下继续评估文件关联质量。文件关联质量是影响融合数据集使用效果的关键因素,在文件关联质量不合格的情况下直接确定融合数据集的质量级别为质量差,并停止后续的质量评估以避免处理资源的浪费;在文件关联质量合格的情况下,通过集合使用质量和文件关联质量的整体情况确定是否继续执行数据使用质量的评估。若集合使用质量或文件关联质量中任一质量为中等,则直接确定融合数据集的质量级别为中等;若集合使用质量和文件关联质量均为优,则进一步基于数据使用质量来确定融合数据集的质量级别。本发明充分考虑了各个维度质量对融合数据集使用效果的影响程度,按照影响程度从高到低依次展开质量评估,能够直接获得融合数据集的质量级别时及时终止评估并输出评估结果,避免浪费计算机设备的处理资源,优化了融合数据集的质量评估流程,实现了对融合数据集的高效评估。
本发明还提供一种融合数据集的质量评估装置,面向医学领域,参照图2,所述装置包括:
数据获取模块,用于获取融合数据集,融合数据集中包括图像文件、文本文件和音频文件;在一个示例中,图像文件包括借助于仪器或介质对患者作用所产生的医学图像,文本文件包括医生为患者诊疗的过程中形成的电子病历,音频文件包括医生为患者诊疗的过程中形成的对话录音;
集合质量评估模块,用于基于从融合数据集的集合使用层面建立的集合特性指标对融合数据集进行集合质量评估,得到集合质量评估值;其中,在集合质量评估值指示融合数据集的集合使用质量不合格的情况下,确定融合数据集的质量低;
关联质量评估模块,用于在集合质量评估值指示融合数据集的集合使用质量合格的情况下,基于从融合数据集的文件关联层面建立的关联特性指标对融合数据集进行关联质量评估,得到关联质量评估值;其中,在关联质量评估值指示融合数据集的文件关联质量不合格的情况下,确定融合数据集的质量低;在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量中等和/或集合质量评估值指示集合使用质量中等,则确定融合数据集的质量中等;
数据质量评估模块,用于在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量优,且集合质量评估值指示集合使用质量优,则基于从融合数据集的数据使用层面建立的数据特性指标对融合数据集进行数据质量评估,得到融合数据集的数据质量评估值,并基于数据质量评估值获取融合数据集的质量级别。
在一个示例中,集合特性指标包括数据规模、现时性和保密性,数据规模用于指示融合数据集在文件数量方面的充足程度,现时性用于指示融合数据集在文件生成方面的时间属性,保密性用于指示融合数据集在文件使用方面的保密属性;
集合质量评估模块进一步包括:
数据规模度量单元,用于统计融合数据集中整体文件数量,并基于整体文件数量和数量阈值的比较,对整体文件数量进行归一化处理,得到数据规模度量值;
现时性度量单元,用于统计融合数据集中文件生成时间位于在先目标时刻与当前时刻之间的特定文件数量,并基于特定文件数量在整体文件数量中的占比,对特定文件数量进行归一化处理,得到现时性度量值;
保密性度量单元,用于获取融合数据集的保密说明,并基于获取结果确定保密性度量值;
集合质量评估单元,用于基于数据规模度量值、现时性度量值和保密性度量值,计算集合质量评估值。
在一个示例中,关联特性指标包括整体关联性和格式完整性,整体关联性用于指示融合数据集在文件内容方面的关联程度,格式完整性用于指示融合数据集在文件格式方面的完整程度;
关联质量评估模块进一步包括:
图像文件必要性确定单元,用于对融合数据集中的文本文件进行内容解析,确定文本文件所属的样本中图像文件存在的必要性;
格式完整性度量单元,用于基于图像文件存在的必要性,对融合数据集中的图像文件、文本文件和音频文件的存在性进行量化处理,并基于量化结果计算格式完整性度量值;
整体关联性度量单元,用于基于图像文件存在的必要性,分别获取图像文件、文本文件和音频文件的标签信息,对标签信息进行内容匹配,并基于匹配结果计算整体关联性度量值;
关联质量评估单元,用于基于格式完整性度量值和整体关联性度量值,计算关联质量评估值。
在一个示例中,格式完整性度量单元进一步用于:
针对融合数据集中必要存在图像文件的样本,对图像文件、文本文件和音频文件的存在性分别进行量化处理,并对量化结果进行加权求和处理得到第一格式度量值;
针对融合数据集中不必要存在图像文件的样本,对文本文件和音频文件的存在性分别进行量化处理,并对量化结果进行加权求和处理得到第二格式度量值;
基于第一格式度量值和第二格式度量值,计算格式完整性度量值。
在一个示例中,整体关联性度量单元进一步用于:
针对融合数据集中必要存在图像文件的样本,获取图像文件、文本文件和音频文件的标签信息,基于标签信息相关的第一匹配规则对标签信息进行内容匹配;
针对融合数据集中不必要存在图像文件的样本,获取文本文件和音频文件的标签信息,基于标签信息相关的第二匹配规则对标签信息进行内容匹配;
对匹配结果进行量化处理,并基于量化结果计算整体关联性度量值。
在一个示例中,针对融合数据集中必要存在图像文件的样本,对标签信息进行内容匹配时所采取的第一匹配规则包括以下至少一项:计算机设备针对文件标注的标签信息与融合数据集针对文件携带的标签信息是否一致、图像文件的标签信息中患者姓名与文本文件的标签信息中患者姓名是否相同、图像文件的标签信息中申请医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中时间戳是否包含文本文件的标签信息中时间戳。
在一个示例中,针对融合数据集中不必要存在图像文件的样本,对标签信息进行内容匹配时所采取的第二匹配规则包括以下至少一项:计算机设备针对文件标注的标签信息与融合数据集针对文件携带的标签信息是否一致、音频文件的标签信息中医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中时间戳是否包含文本文件的标签信息中时间戳。
在一个示例中,数据质量评估模块进一步包括:
图像文件必要性获取单元,用于获取融合数据集的样本中图像文件存在的必要性;
质量度量单元,用于基于图像文件存在的必要性,分别获取图像质量度量值、文本质量度量值和音频质量度量值,并基于质量度量值计算数据质量评估值;
数据质量评估单元,用于若数据质量评估值小于数据质量阈值,则确定融合数据集的质量中等;若数据质量评估值大于或等于数据质量阈值,则确定融合数据集的质量优。
在一个示例中,质量度量单元进一步用于:
针对融合数据集中必要存在图像文件的样本,获取图像质量度量值、文本质量度量值和音频质量度量值,并对质量度量值进行加权求和处理得到第一数据度量值;
针对融合数据集中不必要存在图像文件的样本,获取文本质量度量值和音频质量度量值,并对质量度量值进行加权求和处理得到第二数据度量值;
基于第一数据度量值和第二数据度量值,计算数据质量评估值。
在一个示例中,图像质量度量值的获取过程包括:对图像文件的曝光、清晰度和噪声进行量化处理,并基于量化结果计算图像质量度量值;文本质量度量值的获取过程包括:对文本文件的自洽性、可读性和文字统计结果进行量化处理,并基于量化结果计算文本质量度量值;音频质量度量值的获取过程包括:对音频文件的声量、背景噪音和静音占比进行量化处理,并基于量化结果计算音频质量度量值;其中,量化结果的取值范围统一为[0,1]。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所属领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (11)
1.一种融合数据集的质量评估方法,其特征在于,面向医学领域,所述方法包括:
获取融合数据集,融合数据集中包括图像文件、文本文件和音频文件;其中,图像文件包括借助于仪器或介质对患者作用所产生的医学图像,文本文件包括医生为患者诊疗的过程中形成的电子病历,音频文件包括医生为患者诊疗的过程中形成的对话录音;
基于从融合数据集的集合使用层面建立的集合特性指标对融合数据集进行集合质量评估,得到集合质量评估值;其中,在集合质量评估值指示融合数据集的集合使用质量不合格的情况下,确定融合数据集的质量低;
在集合质量评估值指示融合数据集的集合使用质量合格的情况下,基于从融合数据集的文件关联层面建立的关联特性指标对融合数据集进行关联质量评估,得到关联质量评估值;其中,在关联质量评估值指示融合数据集的文件关联质量不合格的情况下,确定融合数据集的质量低;
在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量中等和/或集合质量评估值指示集合使用质量中等,则确定融合数据集的质量中等;
在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量优且集合质量评估值指示集合使用质量优,则基于从融合数据集的数据使用层面建立的数据特性指标对融合数据集进行数据质量评估,得到融合数据集的数据质量评估值,并基于数据质量评估值获取融合数据集的质量级别。
2.根据权利要求1所述的融合数据集的质量评估方法,其特征在于,所述集合特性指标包括数据规模、现时性和保密性,数据规模用于指示融合数据集在文件数量方面的充足程度,现时性用于指示融合数据集在文件生成方面的时间属性,保密性用于指示融合数据集在文件使用方面的保密属性;
所述基于从融合数据集的集合使用层面建立的集合特性指标对融合数据集进行集合质量评估,得到集合质量评估值,包括:
统计融合数据集中整体文件数量,并基于整体文件数量和数量阈值的比较,对整体文件数量进行归一化处理,得到数据规模度量值;
统计融合数据集中文件生成时间位于在先目标时刻与当前时刻之间的特定文件数量,并基于特定文件数量在整体文件数量中的占比,对特定文件数量进行归一化处理,得到现时性度量值;
获取融合数据集的保密说明,并基于获取结果确定保密性度量值;
基于数据规模度量值、现时性度量值和保密性度量值,计算集合质量评估值。
3.根据权利要求1所述的融合数据集的质量评估方法,其特征在于,所述关联特性指标包括整体关联性和格式完整性,整体关联性用于指示融合数据集在文件内容方面的关联程度,格式完整性用于指示融合数据集在文件格式方面的完整程度;
所述基于从融合数据集的文件关联层面建立的关联特性指标对融合数据集进行关联质量评估,得到关联质量评估值,包括:
对融合数据集中的文本文件进行内容解析,确定文本文件所属的样本中图像文件存在的必要性;
基于图像文件存在的必要性,对融合数据集中的图像文件、文本文件和音频文件的存在性进行量化处理,并基于量化结果计算格式完整性度量值;
基于图像文件存在的必要性,分别获取图像文件、文本文件和音频文件的标签信息,对标签信息进行内容匹配,并基于匹配结果计算整体关联性度量值;
基于格式完整性度量值和整体关联性度量值,计算关联质量评估值。
4.根据权利要求3所述的融合数据集的质量评估方法,其特征在于,所述基于图像文件存在的必要性,对融合数据集中的图像文件、文本文件和音频文件的存在性进行量化处理,并基于量化结果计算格式完整性度量值,包括:
针对融合数据集中必要存在图像文件的样本,对图像文件、文本文件和音频文件的存在性分别进行量化处理,并对量化结果进行加权求和处理得到第一格式度量值;
针对融合数据集中不必要存在图像文件的样本,对文本文件和音频文件的存在性分别进行量化处理,并对量化结果进行加权求和处理得到第二格式度量值;
基于第一格式度量值和第二格式度量值,计算格式完整性度量值。
5.根据权利要求3或4所述的融合数据集的质量评估方法,其特征在于,所述基于图像文件存在的必要性,分别获取图像文件、文本文件和音频文件的标签信息,对标签信息进行内容匹配,并基于匹配结果计算整体关联性度量值,包括:
针对融合数据集中必要存在图像文件的样本,获取图像文件、文本文件和音频文件的标签信息,基于标签信息相关的第一匹配规则对标签信息进行内容匹配;
针对融合数据集中不必要存在图像文件的样本,获取文本文件和音频文件的标签信息,基于标签信息相关的第二匹配规则对标签信息进行内容匹配;
对匹配结果进行量化处理,并基于量化结果计算整体关联性度量值。
6.根据权利要求5所述的融合数据集的质量评估方法,其特征在于,
针对融合数据集中必要存在图像文件的样本,对标签信息进行内容匹配时所采取的第一匹配规则包括以下至少一项:计算机设备针对文件标注的标签信息与融合数据集针对文件携带的标签信息是否一致、图像文件的标签信息中患者姓名与文本文件的标签信息中患者姓名是否相同、图像文件的标签信息中申请医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中时间戳是否包含文本文件的标签信息中时间戳;
针对融合数据集中不必要存在图像文件的样本,对标签信息进行内容匹配时所采取的第二匹配规则包括以下至少一项:计算机设备针对文件标注的标签信息与融合数据集针对文件携带的标签信息是否一致、音频文件的标签信息中医生姓名与文本文件的标签信息中医生姓名是否相同、音频文件的标签信息中时间戳是否包含文本文件的标签信息中时间戳。
7.根据权利要求1所述的融合数据集的质量评估方法,其特征在于,所述基于从融合数据集的数据使用层面建立的数据特性指标对融合数据集进行数据质量评估,得到融合数据集的数据质量评估值,并基于数据质量评估值获取融合数据集的质量级别,包括:
获取融合数据集的样本中图像文件存在的必要性;
基于图像文件存在的必要性,分别获取图像质量度量值、文本质量度量值和音频质量度量值,并基于质量度量值计算数据质量评估值;
若数据质量评估值小于数据质量阈值,则确定融合数据集的质量中等;若数据质量评估值大于或等于数据质量阈值,则确定融合数据集的质量优。
8.根据权利要求7所述的融合数据集的质量评估方法,其特征在于,所述基于图像文件存在的必要性,分别获取图像质量度量值、文本质量度量值和音频质量度量值,并基于质量度量值计算数据质量评估值,包括:
针对融合数据集中必要存在图像文件的样本,获取图像质量度量值、文本质量度量值和音频质量度量值,并对质量度量值进行加权求和处理得到第一数据度量值;
针对融合数据集中不必要存在图像文件的样本,获取文本质量度量值和音频质量度量值,并对质量度量值进行加权求和处理得到第二数据度量值;
基于第一数据度量值和第二数据度量值,计算数据质量评估值。
9.根据权利要求7或8所述的融合数据集的质量评估方法,其特征在于,
图像质量度量值的获取过程包括:对图像文件的曝光、清晰度和噪声进行量化处理,并基于量化结果计算图像质量度量值;
文本质量度量值的获取过程包括:对文本文件的自洽性、可读性和文字统计结果进行量化处理,并基于量化结果计算文本质量度量值;
音频质量度量值的获取过程包括:对音频文件的声量、背景噪音和静音占比进行量化处理,并基于量化结果计算音频质量度量值;
其中,量化结果的取值范围统一为[0,1]。
10.一种融合数据集的质量评估装置,其特征在于,面向医学领域,所述装置包括:
数据获取模块,用于获取融合数据集,融合数据集中包括图像文件、文本文件和音频文件;其中,图像文件包括借助于仪器或介质对患者作用所产生的医学图像,文本文件包括医生为患者诊疗的过程中形成的电子病历,音频文件包括医生为患者诊疗的过程中形成的对话录音;
集合质量评估模块,用于基于从融合数据集的集合使用层面建立的集合特性指标对融合数据集进行集合质量评估,得到集合质量评估值;其中,在集合质量评估值指示融合数据集的集合使用质量不合格的情况下,确定融合数据集的质量低;
关联质量评估模块,用于在集合质量评估值指示融合数据集的集合使用质量合格的情况下,基于从融合数据集的文件关联层面建立的关联特性指标对融合数据集进行关联质量评估,得到关联质量评估值;其中,在关联质量评估值指示融合数据集的文件关联质量不合格的情况下,确定融合数据集的质量低;在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量中等和/或集合质量评估值指示集合使用质量中等,则确定融合数据集的质量中等;
数据质量评估模块,用于在关联质量评估值指示融合数据集的文件关联质量合格的情况下,若关联质量评估值指示文件关联质量优且集合质量评估值指示集合使用质量优,则基于从融合数据集的数据使用层面建立的数据特性指标对融合数据集进行数据质量评估,得到融合数据集的数据质量评估值,并基于数据质量评估值获取融合数据集的质量级别。
11.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如权利要求1-9中任一项所述的融合数据集的质量评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210560547.1A CN115034580B (zh) | 2022-05-23 | 2022-05-23 | 融合数据集的质量评估方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210560547.1A CN115034580B (zh) | 2022-05-23 | 2022-05-23 | 融合数据集的质量评估方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115034580A true CN115034580A (zh) | 2022-09-09 |
CN115034580B CN115034580B (zh) | 2024-09-06 |
Family
ID=83120897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210560547.1A Active CN115034580B (zh) | 2022-05-23 | 2022-05-23 | 融合数据集的质量评估方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034580B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433080A (zh) * | 2023-03-17 | 2023-07-14 | 交通运输部规划研究院 | 交通运输规划行业的数据共享评分方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190164279A1 (en) * | 2017-11-28 | 2019-05-30 | Siemens Healthcare Gmbh | Method and device for the automated evaluation of at least one image data record recorded with a medical image recording device, computer program and electronically readable data carrier |
US20190206529A1 (en) * | 2017-12-28 | 2019-07-04 | International Business Machines Corporation | Evaluating Completeness and Data Quality of Electronic Medical Record Data Sources |
CN110162779A (zh) * | 2019-04-04 | 2019-08-23 | 北京百度网讯科技有限公司 | 病历质量的评估方法、装置及设备 |
CN110728437A (zh) * | 2019-09-26 | 2020-01-24 | 华南师范大学 | 一种开放数据的质量评估方法及系统 |
CN111339215A (zh) * | 2019-05-31 | 2020-06-26 | 北京东方融信达软件技术有限公司 | 结构化数据集质量评价模型生成方法、评价方法及装置 |
CN112863683A (zh) * | 2021-02-19 | 2021-05-28 | 平安科技(深圳)有限公司 | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 |
-
2022
- 2022-05-23 CN CN202210560547.1A patent/CN115034580B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190164279A1 (en) * | 2017-11-28 | 2019-05-30 | Siemens Healthcare Gmbh | Method and device for the automated evaluation of at least one image data record recorded with a medical image recording device, computer program and electronically readable data carrier |
US20190206529A1 (en) * | 2017-12-28 | 2019-07-04 | International Business Machines Corporation | Evaluating Completeness and Data Quality of Electronic Medical Record Data Sources |
CN110162779A (zh) * | 2019-04-04 | 2019-08-23 | 北京百度网讯科技有限公司 | 病历质量的评估方法、装置及设备 |
CN111339215A (zh) * | 2019-05-31 | 2020-06-26 | 北京东方融信达软件技术有限公司 | 结构化数据集质量评价模型生成方法、评价方法及装置 |
CN110728437A (zh) * | 2019-09-26 | 2020-01-24 | 华南师范大学 | 一种开放数据的质量评估方法及系统 |
CN112863683A (zh) * | 2021-02-19 | 2021-05-28 | 平安科技(深圳)有限公司 | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
宋俊典;刘丰源;: "一种支持数据质量评价的方法与应用研究", 计算机应用与软件, no. 05, 12 May 2018 (2018-05-12) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433080A (zh) * | 2023-03-17 | 2023-07-14 | 交通运输部规划研究院 | 交通运输规划行业的数据共享评分方法、装置及电子设备 |
CN116433080B (zh) * | 2023-03-17 | 2024-02-27 | 交通运输部规划研究院 | 交通运输规划行业的数据共享评分方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115034580B (zh) | 2024-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Asgharnezhad et al. | Objective evaluation of deep uncertainty predictions for covid-19 detection | |
US10031829B2 (en) | Method and system for it resources performance analysis | |
Li et al. | Deeplv: Suggesting log levels using ordinal based neural networks | |
CN112685324B (zh) | 一种生成测试方案的方法及系统 | |
Raff | Research reproducibility as a survival analysis | |
CN115034580B (zh) | 融合数据集的质量评估方法和装置 | |
CN115587670A (zh) | 一种基于指标图谱的产品质量诊断方法及装置 | |
CN113448955B (zh) | 数据集质量评估方法、装置、计算机设备及存储介质 | |
CN114595765A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114298314A (zh) | 一种基于电子病历的多粒度因果关系推理方法 | |
CN111680083B (zh) | 智能化多级政府财政数据采集系统及数据采集方法 | |
CN116823063A (zh) | 数据集质量评估模型的有效性测试方法、装置及设备 | |
Schrüfer et al. | Are you sure? Analysing Uncertainty Quantification Approaches for Real-world Speech Emotion Recognition | |
CN116823003A (zh) | 区块链数字资源处理方法、装置、计算机设备和存储介质 | |
CN108629506A (zh) | 风控模型的建模方法、装置、计算机设备和存储介质 | |
Talburt et al. | Evaluating and improving data fusion accuracy | |
Illes-Seifert et al. | Exploring the relationship of history characteristics and defect count: an empirical study | |
Fioravanti et al. | A tool for process and product assessment of C++ applications | |
CN113986970A (zh) | 一种基于基线库数据的量费计算结果检测方法 | |
CN113011748A (zh) | 推荐效果的评估方法、装置、电子设备及可读存储介质 | |
CN112766459A (zh) | 一种基于生成器的异常检测方法 | |
CN111737247A (zh) | 用于数据质量管控的实现方法 | |
Paun et al. | Probabilistic Models of Agreement | |
CN114819479B (zh) | 基于指标体系的行为分类方法、经济持留识别方法及装置 | |
Wu et al. | Estimate the Precision of Defects Based on Reports Duplication in Crowdsourced Testing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |