CN112786124A - 一种问题排查方法、装置、存储介质及设备 - Google Patents

一种问题排查方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN112786124A
CN112786124A CN202011644637.6A CN202011644637A CN112786124A CN 112786124 A CN112786124 A CN 112786124A CN 202011644637 A CN202011644637 A CN 202011644637A CN 112786124 A CN112786124 A CN 112786124A
Authority
CN
China
Prior art keywords
data
specified
scheme
troubleshooting
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011644637.6A
Other languages
English (en)
Other versions
CN112786124B (zh
Inventor
于静
李培义
张华明
何威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Yidu Cloud Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidu Cloud Beijing Technology Co Ltd filed Critical Yidu Cloud Beijing Technology Co Ltd
Priority to CN202011644637.6A priority Critical patent/CN112786124B/zh
Publication of CN112786124A publication Critical patent/CN112786124A/zh
Application granted granted Critical
Publication of CN112786124B publication Critical patent/CN112786124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种问题排查方法、装置、计算机可读存储介质及设备,获得指定数据问题,对与所述指定数据问题对应的数据源和数据流进行多维度特征抽取,获得多维度数据特征;根据所述多维度数据特征与多个预设排查方案进行匹配,确定与每一个预设排查方案对应的匹配值;将所述匹配值满足预设指标的预设排查方案确定为基准排查方案,查找与所述指定数据问题的数据源和数据流对应的数据参考信息;输出与所述指定数据问题对应的指定排查方案,所述指定排查方案包括所述基准排查方案和数据参考信息,应用本方法,不仅能够提高排查效率,降低排查成本,而且可以规范排查流程,使排查效果趋于同质化,保障排查效果的稳定性。

Description

一种问题排查方法、装置、存储介质及设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种问题排查方法、装置、计算机可读存储介质及设备。
背景技术
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。当前,大数据被应用至各个领域,如医疗领域等。
在医疗领域,临床数据整合、区域医疗数据互联互通的大背景下,一方面,数据源所属医疗机构厂商众多,模态种类多样;另一方面,数据采集、加工、处理、传输等生产环节多,各环节质控方式各不相同,因此导致数据质量问题数量多且原因差异性大。在对上述数据数据处理应用过程中,数据问题排查是保障和提升数据质量至关重要的一环,然而目前,问题排查通常由本领域专家或者工程师进行人工排查,完全人工排查成本高,且依赖个人经验,无法保障排查方案的稳定性。
发明内容
本发明实施例为了解决上述问题,提供一种问题排查方法、装置、计算机可读存储介质及设备,降低排查成本,使问题排查流程能够趋于同质化,保障排查方案的稳定性。
根据本发明实施例第一方面,提供一种问题排查方法,所述方法包括:获得指定数据问题,对与所述指定数据问题对应的数据源和数据流进行多维度特征抽取,获得多维度数据特征;根据所述多维度数据特征与多个预设排查方案进行匹配,确定与每一个预设排查方案对应的匹配值;将所述匹配值满足预设指标的预设排查方案确定为基准排查方案,查找与所述指定数据问题的数据源和数据流对应的数据参考信息;输出与所述指定数据问题对应的指定排查方案,所述指定排查方案包括所述基准排查方案和数据参考信息。
在一可实施方式中,所述方法还包括:基于所述基准排查方案和数据参考信息确定与所述指定数据问题对应的问题类型;当确定为所述指定数据问题的问题类型为数据源问题,对与所述指定数据问题对应的数据源进行标识处理。
在一可实施方式中,所述方法还包括:当确定为所述指定数据问题的问题类型为数据流问题,对与所述指定数据问题对应的数据流进行修复处理。
在一可实施方式中,所述方法还包括:获得历史数据问题和与所述历史数据问题对应的数据源和数据流;其中,所述历史数据问题与所述预设排查方案对应;对所述历史数据问题的数据源和数据流进行多维度特征抽取,获得多维度历史特征;根据所述历史数据问题和多维度历史特征进行模型生成,获得问题推荐模型;其中,所述问题推荐模型用于对与所述指定数据问题对应的数据源和数据流进行多维度特征抽取。
在一可实施方式中,所述根据所述多维度数据特征与多个预设排查方案进行匹配,确定与每一个预设排查方案对应的匹配值,包括:基于维度类型对所述多维度数据特征与所述多维度历史特征进行每一维度类型的拟合,基于拟合度生成对应每一维度的拟合值;基于预设权重对每一维度的拟合值进行整合,获得与所述维度历史特征对应的匹配值;确定与所述维度历史特征对应的所述预设排查方案,将所述与所述维度历史特征对应的匹配值确定为与所述预设排查方案对应的匹配值。
在一可实施方式中,所述将所述匹配值满足预设指标的预设排查方案确定为基准排查方案,包括:对与每一个预设排查方案对应的匹配值进行递增或递减排序,获得排序结果;将位于所述排序结果指定预设数量的匹配值所对应的预设排查方案确定为所述基准排查方案。
在一可实施方式中,所述输出与所述指定数据问题对应的指定排查方案,所述指定排查方案包括所述基准排查方案和数据参考信息,包括:基于所述排序结果对所述预设排查方案的方案类型进行数量统计,获得统计结果;其中,所述方案类型包括数据源方案和数据流方案;根据所述统计结果对所述数据参考信息进行排版,获得基于所述统计结果的数据参考信息;输出与所述指定数据问题对应的所述基准排查方案和基于所述统计结果的数据参考信息。
根据本发明实施例第二方面,提供一种问题排查装置,所述装置包括:获得模块,用于获得指定数据问题,对与所述指定数据问题对应的数据源和数据流进行多维度特征抽取,获得多维度数据特征;匹配模块,用于根据所述多维度数据特征与多个预设排查方案进行匹配,确定与每一个预设排查方案对应的匹配值;查找模块,用于将所述匹配值满足预设指标的预设排查方案确定为基准排查方案,查找与所述指定数据问题的数据源和数据流对应的数据参考信息;输出模块,用于输出与所述指定数据问题对应的指定排查方案,所述指定排查方案包括所述基准排查方案和数据参考信息。
在一可实施方式中,所述装置还包括:确定模块,用于基于所述基准排查方案和数据参考信息确定与所述指定数据问题对应的问题类型;标识模块,用于当确定为所述指定数据问题的问题类型为数据源问题,对与所述指定数据问题对应的数据源进行标识处理。
在一可实施方式中,所述设备还包括:修复模块,用于当确定为所述指定数据问题的问题类型为数据流问题,对与所述指定数据问题对应的数据流进行修复处理。
在一可实施方式中,所述获得模块,还用于获得历史数据问题和与所述历史数据问题对应的数据源和数据流;其中,所述历史数据问题与所述预设排查方案对应;抽取模块,用于对所述历史数据问题的数据源和数据流进行多维度特征抽取,获得多维度历史特征;生成模块,用于根据所述历史数据问题和多维度历史特征进行模型生成,获得问题推荐模型;其中,所述问题推荐模型用于对与所述指定数据问题对应的数据源和数据流进行多维度特征抽取。
在一可实施方式中,所述匹配模块,包括:拟合子模块,用于基于维度类型对所述多维度数据特征与所述多维度历史特征进行每一维度类型的拟合,基于拟合度生成对应每一维度的拟合值;整合子模块,用于基于预设权重对每一维度的拟合值进行整合,获得与所述维度历史特征对应的匹配值;第一确定子模块,用于确定与所述维度历史特征对应的所述预设排查方案,将所述与所述维度历史特征对应的匹配值确定为与所述预设排查方案对应的匹配值。
在一可实施方式中,所述查找模块,包括:排序子模块,用于对与每一个预设排查方案对应的匹配值进行递增或递减排序,获得排序结果;第二确定子模块,用于将位于所述排序结果指定预设数量的匹配值所对应的预设排查方案确定为所述基准排查方案。
在一可实施方式中,所述输出模块,包括:统计子模块,用于基于所述排序结果对所述预设排查方案的方案类型进行数量统计,获得统计结果;其中,所述方案类型包括数据源方案和数据流方案;排版子模块,用于根据所述统计结果对所述数据参考信息进行排版,获得基于所述统计结果的数据参考信息;输出子模块,用于输出与所述指定数据问题对应的所述基准排查方案和基于所述统计结果的数据参考信息。
根据本发明实施例第三方面,提供一种设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面任一所述的方法。
根据本发明实施例第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述第一方面任一所述的方法。
本发明实施例提供的问题排查方法、装置、计算机可读存储介质及设备,可应用于各类领域中数据问题的排查,通过特征抽取获得多维度数据特征,利用多维度数据特征和预设排查方案进行匹配,以确定指定排查方案,通过参考指定排查方案能够快速确定并解决大数据中数据相关的问题,使排查效果尽可能趋于同质化,保障排查效果的稳定性。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例一种问题排查方法的实现流程示意图;
图2示出了本发明实施例一种问题排查方法问题标识或修复的实现流程示意图;
图3示出了本发明实施例一种问题排查方法问题推荐模型构建的实现流程示意图;
图4示出了本发明实施例一种问题排查方法匹配值计算的实现流程示意图;
图5示出了本发明实施例一种问题排查方法匹配值计算的实现流程示意图;
图6示出了本发明实施例一种问题排查装置的实现流程示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
图1示出了本发明实施例一种问题排查方法的实现流程示意图。
参考图1,根据本发明实施例第一方面,提供一种问题排查方法,方法包括:操作101,获得指定数据问题,对与指定数据问题对应的数据源和数据流进行多维度特征抽取,获得多维度数据特征;操作102,根据多维度数据特征与多个预设排查方案进行匹配,确定与每一个预设排查方案对应的匹配值;操作103,将匹配值满足预设指标的预设排查方案确定为基准排查方案,查找与指定数据问题的数据源和数据流对应的数据参考信息;操作104,输出与指定数据问题对应的指定排查方案,指定排查方案包括基准排查方案和数据参考信息。
本发明实施例提供的问题排查方法适用于大数据处理领域,用于对大数据中与数据相关的问题进行排查。具体的,大数据与数据相关的问题包括但不限于,数据源问题,如数据记录错误等;数据流问题,如:数据处理过程中,数据清洗问题、数据抽取问题、数据整合问题等。通过本方法,能够快速确定并解决大数据中数据相关的问题。本方法可应用于各类领域中数据问题的排查,以保证数据质量。包括但不限于医疗技术领域、智能客服技术领域等。通过对数据进行排查并解决数据问题,能够保证数据质量。
本方法在操作101中,获得指定数据问题。其中,指定数据问题指代存在问题的数据内容:问题可以为不符合客观逻辑的问题,如:在病历数据中,指定数据问题可以为“性别:男,诊断:子宫肌瘤”;在生命体征数据中,指定数据问题可以为“年龄:0Y3M20D,身高:160cm”。指定数据问题也可以为不符合预设规则的数据问题,如医疗数据中,预设规则为:所有语言都统一为英文,指定数据问题可以为“姓名:张三”。预设规则还可以为其他格式规则,如,生日数据中,预设格式规则为“xxxx-xx-xx”,指定数据问题可以为“1990/1/1”。
指定数据问题可以由人工对待排查数据进行查找输入后获得,也可以由设备遍历待排查数据后根据预设的规则获得。获得的指定数据问题可以预设为待排查数据中的其中一行数据、一列数据、一句话、一个词、一个对象等,可根据待排查数据的性质进行确定。
在获得指定数据问题之后,获得与指定数据问题对应的数据源和数据流。其中,与指定数据问题对应的数据源主要指代数据来源和原始数据参考信息。如指定数据问题为“性别:男,诊断:子宫肌瘤”,其数据来源包括但不限于对应的“xx医院、xx诊室、xx诊断医生、xx诊断日期、xx地区、xx信息系统”,原始数据参考信息为病历记录上的记载,记载可以为“姓名:xxx,性别:男,诊断内容:患者主诉……,症状为……,诊断为……”。
对上述数据进行多维度特征抽取,获得多维度数据特征。其中,多维度特征抽取的抽取维度同样可以对应有数据源维度类型和数据流维度类型。数据源维度类型可以包括如下维度至少之一:厂商维度、地域维度、时间跨度维度。其中,厂商维度用于指代数据来源的具体厂家,如xx厂家;地域维度用于指代数据来源的具体地域,如xx地区;时间跨度维度用于指代该数据的采集时间,如xx年xx月xx日-yy年yy月yy日。
数据流维度类型可以包括如下维度至少之一:质控规则维度、问题特征维度、问题处理维度。进一步的,质控规则维度可以包括如下维度至少之一:规则关键词维度、上下位规则关键词维度、规则所属系统维度、规则类型维度。其中,质控规则为预先设定的数据排查标准,用于作为判断依据供设备和/或人工确定数据内容是否存在问题。规则关键词维度用于指定数据问题、与指定数据问题对应的数据源和数据流进行查找,以确定指定数据问题是否对应有该关键词。同理,上下位规则关键词维度同样用于指定数据问题、与指定数据问题对应的数据源和数据流进行查找,以确定指定数据问题是否对应有该上下位规则关键词。规则所属系统维度和规则类型用于确定选取的质控规则所对应的规则制定系统信息和规则符合标准,基于规则制定系统信息和规则符合标准可以用于判断质控规则的可信度。其中规则符合标准可以如,符合国标指定的规则、符合欧标指定的规则、符合厂家要求指定的规则等。
问题特征维度可以包括如下维度至少之一:采集作者维度、采集时间维度、比例状态维度。采集作者维度用于记录与指定数据问题对应的原始数据的对象,该对象可以为设备,也可以为人。采集时间维度表征记录与指定数据问题对应的原始数据的时间。比例状态维度可以表征与指定数据问题对应的数据源中的问题比例。
问题处理维度可以包括如下维度至少之一:处理作者维度、处理时间维度、比例状态维度。处理作者维度用于指代发现该问题特征维度的对象,该对象可以为问题查找设备,也可以为人,当为查找设备时,可以为查找准确率、设备厂家等设备相关信息。当为人工查找时,包括但不限于人工岗位信息、人工查找准确率等与查找人相关的信息。处理时间维度表征该指定数据问题被发现的时间;当处理为人工时,处理状态指代处理人的情绪等信息,也可以为该人工的处理问题成功率,同理当处理为设备时,处理状态指代设备的处理问题成功率。
通过上述多维度特征对指定数据问题进行维度抽取,可以获得对应每一个维度的特征信息。例如抽取结果如下:对应指定数据问题为“性别:男,诊断:子宫肌瘤”,抽取获得的多维度数据特征如下:数据源维度:厂商(x11)、地域(x12)、时间跨度(x13);质控规则维度:规则关键词(x21)、上下位规则关键词(x22)、规则所属系统(x23)、规则类型(x24);问题特征维度;提交人岗位(x31)、提交时间(x32)、比例区间(x33);问题处理维度:处理人岗位(x41)、处理时间(x42)、处理状态(x43)。需要理解的是,上述x11-x43用于表征对应指定数据问题的实际信息,本处采用字母指代。
在本方法操作102中,根据多维度数据特征与多个预设排查方案进行匹配。具体的,预设排查方案存储于包括历史数据问题和与历史数据问题对应的解决方案所构建的数据库中。预设排查方案即为与历史数据问题对应的解决方案。可以理解的是,本方法可以先对与预设排查方案对应的历史数据问题进行与操作101一致的多维度特征抽取,然后通过历史数据问题的多维度数据特征和指定数据问题的多维度数据特征进行相似度的匹配计算,以确定与每一个预设排查方案对应的匹配值。即,指定数据问题与历史数据问题的多维度数据特征越接近,指定数据问题与预设排查方案的匹配度越高,所得到的匹配值越接近100%匹配值,例如,设定100%匹配时匹配值为1,则指定数据问题与预设排查方案的匹配度越高,所得到的匹配值越接近1。
在本方法操作103中,将匹配值满足预设指标的预设排查方案确定为基准排查方案。预设指标可以为获得的匹配值中匹配度最高的匹配值,将匹配度最高的匹配值对应的预设排查方案确定为基准排查方案;也可以设定一个标准匹配值,将超过标准匹配值的所有匹配值对应的预设排查方案均确定为基准排查方案。即,预设排查方案可以为一个或多个。
在获得预设排查方案之后,还可以查找与指定数据问题的数据源和数据流对应的数据参考信息。其中,与指定数据问题的数据源和数据流对应的数据参考信息可以包括但不限于多维度数据特征,可以是指定数据问题所对应的数据源在一系列处理过程中的所有内容,包括但不限于,与从数据采集到数据处理这一过程中所有操作所对应的与数据内容相关的信息和与操作内容相关的信息。
在本方法操作104中,输出与指定数据问题对应的指定排查方案。指定排查方案包括基准排查方案和数据参考信息。其中,基准排查方案可以为指定数据问题提供历史依据,可快速采纳基准排查方案所对应的问题处理方案对指定数据问题进行快速排查,数据参考信息可以为指定数据问题提供排查依据,排查人员可以快速从数据参考信息中发现排查依据以对指定数据问题进行处理。
图2示出了本发明实施例一种问题排查方法问题标识或修复的实现流程示意图。
参见图2,在一可实施方式中,方法还包括:操作201,基于基准排查方案和数据参考信息确定与指定数据问题对应的问题类型;操作202,当确定为指定数据问题的问题类型为数据源问题,对与指定数据问题对应的数据源进行标识处理。
在操作104,输出与指定数据问题对应的指定排查方案之后,本方法还包括操作201,当输出与指定数据问题对应的指定排查方案,人工可以先根据基准排查方案作为历史经验,快速确定指定数据问题的可能问题类型是属于数据源问题还是数据流问题,并且可以根据可能问题类型在数据参考信息中进行快速地查找定位,以准确确定指定数据问题的实际问题类型。
在操作202中,当确定为指定数据问题的问题类型为数据源问题,即表征该指定数据问题所对应的数据源存在问题,此时对数据源进行标识处理,以使该数据源在被应用时,能够使应用对象快速了解到该数据源对应的问题。例如,当指定数据问题为“性别:男,诊断:子宫肌瘤”,确定为数据源问题,则对与该指定数据问题所对应的数据内容进行标识,以提示该数据内容的原始数据存在错误。其中,本方法不对标识处理的具体标识方法进行限定,可以用不同颜色、不同字体进行标识,也可以在数据内容末端进行批注标识。还可以采取其他标识方法。
在操作203中,当确定为指定数据问题的问题类型为数据流问题,对与指定数据问题对应的数据流进行修复处理。
数据流问题可以理解为,由于数据处理过程中存在的问题,如数据清洗错误、数据抽取错误、数据归一错误等原因,导致数据与原始数据不对应,进而出现了数据问题。当出现数据流问题的情况下,通过与数据流对应的数据参考信息确定出现了错误问题的位置,从而可以对该错误进行及时修复,以保证数据质量。
需要说明的是,本方法操作202和操作203之间无先后关系,指定数据问题的问题类型可以为数据流问题,也可以为数据源问题,还可以既存在数据流问题,也存在数据源问题。操作202和操作203是否执行取决于操作201的确定结果。
图3示出了本发明实施例一种问题排查方法问题推荐模型构建的实现流程示意图。
参见图3,在一可实施方式中,方法还包括:操作301,获得历史数据问题和与历史数据问题对应的数据源和数据流;其中,历史数据问题与预设排查方案对应;操作302,对历史数据问题的数据源和数据流进行多维度特征抽取,获得多维度历史特征;操作303,根据历史数据问题和多维度历史特征进行模型生成,获得问题推荐模型;其中,问题推荐模型用于对指定数据问题的数据源和数据流进行多维度特征抽取。
在操作101之前,本方法可以首先根据历史数据问题构建问题推荐模型,以使问题推荐模型根据模型预设的多维度特征对指定数据问题的数据源和数据流进行多维度特征抽取。且通过上述方法,可以预先将与预设排查方案对应的历史数据问题和与历史数据问题对应的多维度历史特征进行抽取,通过历史数据问题、多维度历史特征和与历史数据问题对应的解决方案,从而形成操作102中所构建的数据库。可以理解的是,对历史数据问题进行多维度特征抽取的抽取方式与操作101相同,以下不做赘述。由历史数据问题和多维度历史特征构建的问题推荐模型可以为预设模板也可以为神经网络模型,通过预设维度模板或神经网络模型,均可实现对指定数据问题的数据源和数据流进行多维度特征抽取。模型具有重精准,轻召回的特点。
图4示出了本发明实施例一种问题排查方法匹配值计算的实现流程示意图。
参见图4,在一可实施方式中,操作102,根据多维度数据特征与多个预设排查方案进行匹配,确定与每一个预设排查方案对应的匹配值,包括:操作1021,基于维度类型对多维度数据特征与多维度历史特征进行每一维度类型的拟合,基于拟合度生成对应每一维度的拟合值;操作1022,基于预设权重对每一维度的拟合值进行整合,获得与维度历史特征对应的匹配值;操作1023,确定与维度历史特征对应的预设排查方案,将与维度历史特征对应的匹配值确定为与预设排查方案对应的匹配值。
在进行匹配值计算过程中,包括操作1021,多维度数据特征和多维度历史特征中,按照每一维度进行拟合,该拟合可以通过构建一个计算每一维度拟合度的函数实现,该函数可以为一个函数中的部分运算,也可以构建为单独一个函数,每一维度的拟合值的计算方式可以相同,也可以不同。进一步的,构建依据为在函数的输出范围内,输出数值越大,拟合度越高。也可以预设标准拟合值,在符合标准拟合值的情况下,该维度的拟合值记为1,不符合标准拟合值的情况下,该维度的拟合值记为0。
在操作1022中,在获得每一维度的拟合值后,由于不同维度对预设排查方案的结果存在不同,可以根据不同维度的重要性对不同维度设置不同的权重,通过权重整合每一维度的拟合值,以获得与维度历史特征对应的匹配值。例如,在医疗数据领域,权重集中在厂商维度、规则关键词维度和上下位关键词维度。权重整合方式可以为相加整合、相乘整合或求取平均数整合,从而获得与维度历史特征对应的匹配值。需要说明的是,操作1031和操作1032可以通过不同函数计算实现,也可以通过一个函数直接计算获得。
在操作1023中,根据对应关系,可以通过维度历史特征对应至预设排查方案,从而将与维度历史特征对应的匹配值确定为与预设排查方案对应的匹配值。可以理解的是,当整合后获得的匹配值的数值范围限定为0~1的情况下,匹配值越接近1,预设排查方案作为历史依据的参考性越好。当不限制匹配值的数值范围的情况下,匹配值越大,预设排查方案作为历史依据的参考性越好。
图5示出了本发明实施例一种问题排查方法匹配值计算的实现流程示意图。
参见图5,在一可实施方式中,操作103,将匹配值满足预设指标的预设排查方案确定为基准排查方案,包括:操作1031,对与每一个预设排查方案对应的匹配值进行递增或递减排序,获得排序结果;操作1032,将位于排序结果指定预设数量的匹配值所对应的预设排查方案确定为基准排查方案。
可以理解的是,数据库中会存在大量的预设排查方案,每一个预设排查方案均对应有匹配值。为方便快速确定最接近的匹配值,本方法通过对每一个预设排查方案对应的匹配值进行递增或递减排序,并将位于排序结果指定预设数量的匹配值所对应的预设排查方案确定为基准排查方案,以对指定数据问题进行相似历史数据问题和解决方案的推荐。
在一可实施方式中,操作104,输出与指定数据问题对应的指定排查方案,指定排查方案包括基准排查方案和数据参考信息,包括:首先,基于排序结果对预设排查方案的方案类型进行数量统计,获得统计结果;其中,方案类型包括数据源方案和数据流方案;然后,根据统计结果对数据参考信息进行排版,获得基于统计结果的数据参考信息;再后,输出与指定数据问题对应的基准排查方案和基于统计结果的数据参考信息。
在进行指定排查方案的输出过程中,可以选取位于排序结果拟合度排名前几个的预设排查方案的方案类型进行数量统计,例如,选取拟合度排名前100的预设排查方案的方案类型进行数量统计,其中20个方案类型是数据流问题,80个方案类型是数据源问题,则将数据参考信息中关于数据源的内容排版至数据参考信息的起始部分,以方便查看。进一步的,如果是方案类型是数据流问题,由于在大数据处理中,数据会有很多环节的操作,可以对每一个环节也进行数量统计,如选取拟合度排名前100的预设排查方案的方案类型进行数量统计,其中80个方案类型是数据流问题,20个方案类型是数据源问题,将数据参考信息中关于数据流的方案类型进行统计,该数据问题对应的第一操作占比10个、第二操作占比30个,第三操作占比50个,则在对数据参考信息进行排版时,排版顺序为:与第三操作对应的数据参考信息、与第二操作对应的数据参考信息、与数据源对应的数据参考信息、与第一操作对应的数据参考信息。可以理解的是,与数据源对应的数据操作也可以进行进一步分类,以下不做赘述。进一步的,数据参考信息可以包括如下特征:指定问题参考信息:库名、表名、字段名、字段映射关系、全量映射关系、数据画像;指定问题溯源信息:溯源库名、溯源表名、溯源字段名、表行数、字段非空数量、字段去重后数量、字段空值率;指定模版信息:各问题类型的排查方案模版、各问题类型的结构化查询语言模版。其中,数据参考信息可以通过构建模板获得,也可以通过神经网络训练构建数据参考模型获得,当采用神经网络训练时,训练样本可以为历史数据问题、多维度历史特征和历史参考信息进行训练获得。
进一步的,在获取上述数据参考信息后,由于数据参考信息具有结构化排版的特点,当本方法需要执行操作202,可复制数据参考信息引用到基准排查操作或处理回复中,支持快速完成指定数据问题的排查和标记。
当本方法应用在医疗大数据领域的数据排查时,具有如下优点:1、数据库的构建可以利用多医院积累的问题及处理经验;2、通过推荐拟合度高的历史数据问题的处理方法,可提高问题定位和排查效率,从而降低排查成本;3、能够规范数据排查的流程,在人工排查过程中,对于无经验工作者能够在排查各环节进行各类信息提示,降低对排查人工的要求,使排查效果尽可能少依赖工程师经验,而趋于同质化,保障排查效果的稳定性。
图6示出了本发明实施例一种问题排查装置的实现流程示意图。
根据本发明实施例第二方面,提供一种问题排查装置,装置包括:获得模块601,用于获得指定数据问题,对指定数据问题的数据源和数据流进行多维度特征抽取,获得多维度数据特征;匹配模块602,用于根据多维度数据特征与多个预设排查方案进行匹配,确定与每一个预设排查方案对应的匹配值;查找模块603,用于将匹配值满足预设指标的预设排查方案确定为基准排查方案,查找与指定数据问题的数据源和数据流对应的数据参考信息;输出模块604,用于输出与指定数据问题对应的指定排查方案,指定排查方案包括基准排查方案和数据参考信息。
在一可实施方式中,装置还包括:确定模块605,用于基于基准排查方案和数据参考信息确定与指定数据问题对应的问题类型;标识模块606,用于当确定为指定数据问题的问题类型为数据源问题,对与指定数据问题对应的数据源进行标识处理。
在一可实施方式中,设备还包括:修复模块607,用于当确定为指定数据问题的问题类型为数据流问题,对与指定数据问题对应的数据流进行修复处理。
在一可实施方式中,获得模块601,还用于获得历史数据问题和与历史数据问题对应的数据源和数据流;其中,历史数据问题与预设排查方案对应;抽取模块608,用于对历史数据问题的数据源和数据流进行多维度特征抽取,获得多维度历史特征;生成模块609,用于根据历史数据问题和多维度历史特征进行模型生成,获得问题推荐模型;其中,问题推荐模型用于对指定数据问题的数据源和数据流进行多维度特征抽取。
在一可实施方式中,匹配模块602,包括:拟合子模块6021,用于基于维度类型对多维度数据特征与多维度历史特征进行每一维度类型的拟合,基于拟合度生成对应每一维度的拟合值;整合子模块6022,用于基于预设权重对每一维度的拟合值进行整合,获得与维度历史特征对应的匹配值;第一确定子模块6023,用于确定与维度历史特征对应的预设排查方案,将与维度历史特征对应的匹配值确定为与预设排查方案对应的匹配值。
在一可实施方式中,查找模块603,包括:排序子模块6031,用于对与每一个预设排查方案对应的匹配值进行递增或递减排序,获得排序结果;第二确定子模块6032,用于将位于排序结果指定预设数量的匹配值所对应的预设排查方案确定为基准排查方案。
在一可实施方式中,输出模块604,包括:统计子模块6041,用于基于排序结果对预设排查方案的方案类型进行数量统计,获得统计结果;其中,方案类型包括数据源方案和数据流方案;排版子模块6042,用于根据统计结果对数据参考信息进行排版,获得基于统计结果的数据参考信息;输出子模块6043,用于输出与指定数据问题对应的基准排查方案和基于统计结果的数据参考信息。
根据本发明实施例第三方面,提供一种设备,设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述第一方面任一的方法。
根据本发明实施例第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述第一方面任一的方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种问题排查方法,其特征在于,所述方法包括:
获得指定数据问题,对与所述指定数据问题对应的数据源和数据流进行多维度特征抽取,获得多维度数据特征;
根据所述多维度数据特征与多个预设排查方案进行匹配,确定与每一个预设排查方案对应的匹配值;
将所述匹配值满足预设指标的预设排查方案确定为基准排查方案,查找与所述指定数据问题的数据源和数据流对应的数据参考信息;
输出与所述指定数据问题对应的指定排查方案,所述指定排查方案包括所述基准排查方案和数据参考信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述基准排查方案和数据参考信息确定与所述指定数据问题对应的问题类型;
当确定为所述指定数据问题的问题类型为数据源问题,对与所述指定数据问题对应的数据源进行标识处理。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当确定为所述指定数据问题的问题类型为数据流问题,对与所述指定数据问题对应的数据流进行修复处理。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得历史数据问题和与所述历史数据问题对应的数据源和数据流;其中,所述历史数据问题与所述预设排查方案对应;
对所述历史数据问题的数据源和数据流进行多维度特征抽取,获得多维度历史特征;
根据所述历史数据问题和多维度历史特征进行模型生成,获得问题推荐模型;
其中,所述问题推荐模型用于对与所述指定数据问题对应的数据源和数据流进行多维度特征抽取。
5.根据权利要求4所述的方法,其特征在于,所述根据所述多维度数据特征与多个预设排查方案进行匹配,确定与每一个预设排查方案对应的匹配值,包括:
基于维度类型对所述多维度数据特征与所述多维度历史特征进行每一维度类型的拟合,基于拟合度生成对应每一维度的拟合值;
基于预设权重对每一维度的拟合值进行整合,获得与所述维度历史特征对应的匹配值;
确定与所述维度历史特征对应的所述预设排查方案,将所述与所述维度历史特征对应的匹配值确定为与所述预设排查方案对应的匹配值。
6.根据权利要求1所述的方法,其特征在于,所述将所述匹配值满足预设指标的预设排查方案确定为基准排查方案,包括:
对与每一个预设排查方案对应的匹配值进行递增或递减排序,获得排序结果;
将位于所述排序结果指定预设数量的匹配值所对应的预设排查方案确定为所述基准排查方案。
7.根据权利要求6所述的方法,其特征在于,所述输出与所述指定数据问题对应的指定排查方案,所述指定排查方案包括所述基准排查方案和数据参考信息,包括:
基于所述排序结果对所述预设排查方案的方案类型进行数量统计,获得统计结果;其中,所述方案类型包括数据源方案和数据流方案;
根据所述统计结果对所述数据参考信息进行排版,获得基于所述统计结果的数据参考信息;
输出与所述指定数据问题对应的所述基准排查方案和基于所述统计结果的数据参考信息。
8.一种问题排查装置,其特征在于,所述装置包括:
获得模块,用于获得指定数据问题,对与所述指定数据问题对应的数据源和数据流进行多维度特征抽取,获得多维度数据特征;
匹配模块,用于根据所述多维度数据特征与多个预设排查方案进行匹配,确定与每一个预设排查方案对应的匹配值;
查找模块,用于将所述匹配值满足预设指标的预设排查方案确定为基准排查方案,查找与所述指定数据问题的数据源和数据流对应的数据参考信息;
输出模块,用于输出与所述指定数据问题对应的指定排查方案,所述指定排查方案包括所述基准排查方案和数据参考信息。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202011644637.6A 2020-12-30 2020-12-30 一种问题排查方法、装置、存储介质及设备 Active CN112786124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011644637.6A CN112786124B (zh) 2020-12-30 2020-12-30 一种问题排查方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011644637.6A CN112786124B (zh) 2020-12-30 2020-12-30 一种问题排查方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN112786124A true CN112786124A (zh) 2021-05-11
CN112786124B CN112786124B (zh) 2022-09-02

Family

ID=75753570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011644637.6A Active CN112786124B (zh) 2020-12-30 2020-12-30 一种问题排查方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN112786124B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548060A (zh) * 2022-02-28 2022-05-27 恒为科技(上海)股份有限公司 优化表单生成方法及装置、存储介质及电子设备
CN117009605A (zh) * 2023-08-08 2023-11-07 四川大学 一种策略化创新设计问题求解方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012122196A2 (en) * 2011-03-08 2012-09-13 International Business Machines Corporation A decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
CN109213829A (zh) * 2017-06-30 2019-01-15 北京国双科技有限公司 数据查询方法及装置
CN110807085A (zh) * 2019-09-12 2020-02-18 口碑(上海)信息技术有限公司 故障信息的查询方法及装置、存储介质、电子装置
CN111400507A (zh) * 2020-06-05 2020-07-10 浙江口碑网络技术有限公司 实体匹配方法及其装置
CN111901171A (zh) * 2020-07-29 2020-11-06 腾讯科技(深圳)有限公司 异常检测和归因方法、装置、设备及计算机可读存储介质
CN112152830A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种智能的故障根因分析方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012122196A2 (en) * 2011-03-08 2012-09-13 International Business Machines Corporation A decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
CN109213829A (zh) * 2017-06-30 2019-01-15 北京国双科技有限公司 数据查询方法及装置
CN112152830A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种智能的故障根因分析方法及系统
CN110807085A (zh) * 2019-09-12 2020-02-18 口碑(上海)信息技术有限公司 故障信息的查询方法及装置、存储介质、电子装置
CN111400507A (zh) * 2020-06-05 2020-07-10 浙江口碑网络技术有限公司 实体匹配方法及其装置
CN111901171A (zh) * 2020-07-29 2020-11-06 腾讯科技(深圳)有限公司 异常检测和归因方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗爱静等: "环节病历质量智能监测系统的研制与应用", 《中国卫生信息管理杂志》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548060A (zh) * 2022-02-28 2022-05-27 恒为科技(上海)股份有限公司 优化表单生成方法及装置、存储介质及电子设备
CN117009605A (zh) * 2023-08-08 2023-11-07 四川大学 一种策略化创新设计问题求解方法及系统
CN117009605B (zh) * 2023-08-08 2024-04-02 四川大学 一种策略化创新设计问题求解方法及系统

Also Published As

Publication number Publication date
CN112786124B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN104756106B (zh) 表征数据存储系统中的数据源
Redman Measuring data accuracy: A framework and review
CN112786124B (zh) 一种问题排查方法、装置、存储介质及设备
CN102160066A (zh) 特别适用于专利文献的搜索引擎和方法
US20120296879A1 (en) Guided data repair
KR20160104064A (ko) 복잡한 양자 또는 다자 상대방 관계를 탐색하기 위해 이용되는 다차원 재귀적 학습 과정 및 시스템
CN112989990A (zh) 医疗票据识别方法、装置、设备及存储介质
CN111143370B (zh) 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质
CN115274122A (zh) 健康医疗数据的管理方法、系统、电子设备及存储介质
CN111061733B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN115188688A (zh) 异常检测方法及装置、电子设备和存储介质
CN113707304A (zh) 分诊数据处理方法、装置、设备及存储介质
CN111104503A (zh) 一种建筑工程质量验收规范问答系统及其构建方法
US7225412B2 (en) Visualization toolkit for data cleansing applications
Chug et al. Statistical learning to operationalize a domain agnostic data quality scoring
CN112966901B (zh) 面向检察业务协同流程的世系数据质量分析与验证方法
CN115274121A (zh) 健康医疗数据的管理方法、系统、电子设备及存储介质
CN109446192B (zh) 数据测试方法及装置
CN114783557A (zh) 肿瘤患者数据的处理方法和装置、存储介质及处理器
CN113642291A (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
CN113010611A (zh) 一种自动生成关系型数据库表间关系的方法和系统
Arias The benefits of graph databases for the computation of clinical quality measures
CN116955648B (zh) 一种基于非隐私数据关联的知识图谱分析方法
CN117113453B (zh) 基于3d与大数据技术的电池问题诊断方法及存储介质
CN117573727B (zh) 一种从业人员健康体检信息检索系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant