CN114503205A - 利用自动阈值的数据处理方法及系统 - Google Patents

利用自动阈值的数据处理方法及系统 Download PDF

Info

Publication number
CN114503205A
CN114503205A CN202080050896.8A CN202080050896A CN114503205A CN 114503205 A CN114503205 A CN 114503205A CN 202080050896 A CN202080050896 A CN 202080050896A CN 114503205 A CN114503205 A CN 114503205A
Authority
CN
China
Prior art keywords
data
data set
data processing
processing system
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080050896.8A
Other languages
English (en)
Inventor
金知垠
姜秉一
李昌大
赵民芽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingke Ruisi
One Hundred Euro Ltd
Original Assignee
Jingke Ruisi
One Hundred Euro Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingke Ruisi, One Hundred Euro Ltd filed Critical Jingke Ruisi
Publication of CN114503205A publication Critical patent/CN114503205A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了自动算出用于从作为基准的数据集区分群集的阈值并利用其来处理数据的方法及执行其的系统。根据本发明的一实施方式,本发明提供了利用自动阈值的数据处理方法,上述利用自动阈值的数据处理方法包括如下的步骤:上述数据处理系统接收包含在具有2个以上群集的基准数据集的多个个别数值;以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值;以及针对至少一个分析对象数据集,上述数据处理系统利用上述阈值来将具有多个个别数值的上述分析对象数据集分割成不同的群集。

Description

利用自动阈值的数据处理方法及系统
技术领域
本发明涉及利用自动阈值(auto-thresholding)的数据处理方法及执行其的数据处理系统。更详细地,涉及自动算出用于从作为基准的数据集区分群集的阈值并利用其来处理数据的方法及执行其的系统。
背景技术
在众多技术或服务领域中分析多个数据并加以利用。例如,分析特定医疗数据来确定是否对每个患者应用药物或者针对个体应用特定治疗法等的方式正在积极应用。
图1a示出在规定的伴随诊断试剂盒中所使用的医疗数据的一例,上述试剂盒为用于筛选适合于对规定的靶向抗癌剂进行处方的患者的手段。
图1a作为一实施例,是使用检查试剂盒(例如,GenesWellTM ddEGFR突变测试(Mutation Test))获取的医疗数据,上述测试试剂盒表明EGFR基因的外显子(exon)18、19、20、21中是否存在突变,上述EGFR基因为肺癌的代表性生物标志物,图1b是作为GenesWellTMddEGFR突变测试的检查方法的Droplet DigitalTM聚合酶链反应(ddPCRTM)的一实验数据。例如,通过分析这种医疗数据来筛选在进行手术之后在靶向抗癌剂处方之前对治疗剂产生效果的患者或者可用于判断突变的表达与否。但是,本发明的技术思想并不局限于这些实施例,亦可用于多种数据分析。
另一方面,在如图1a及图1b所示的图表中,x轴为各个医疗数据的事件编号,y轴为医疗数据的数值的大小(振幅(Amplitude))。各个点(spot)表示个别的医疗数据。而且,在实施例中,如图1a及图1b所示,在坐标系中,医疗数据可以群集化成至少一个群集(例如,在图1a中,3个群集)。
在此情况下,需要判断用于区分在特定数据群集中的群集的阈值(threshold)或特定群集的终点(例如,在作为第一个群集的最下端数据群集中,存在于最上部的至少一个个别医疗数据(例如,按y轴值最大的顺序的至少一个)或对应医疗数据的数值(y轴值))。但是,仅通过各个个别医疗数据或者数据数值或在坐标系中表示的坐标位置无法得知某种个别医疗数据包含在哪个群集,当在特定数据群集和数据群集之间存在多个个别医疗数据时,这种难度将进一步增加。
实际上,以往,如图1a及图1b所示,采用了人通过肉眼确认呈现在坐标系的个别医疗数据,并任意画出用于区分阈值或终点(例如,在第一个(最下位)群集中的上端点)的区分线(10或11)的作业方式。
但是,在此情况下,存在根据作业执行人员阈值或终点有可能改变且准确度降低的问题。
发明内容
技术问题
本发明所要解决的技术问题在于,提供自动算出用于从作为具有2个以上群集的基准的数据集区分群集的阈值并利用其来处理数据的方法及执行其的系统。
并且,本发明的目的在于,提供如下的方法及系统,即,在存在2个以上数据群集的数据集中可以迅速自动探索特定数据群集的终点,由此可以有效地算出上述阈值。
技术方案
根据本发明的一实施方式,本发明提供利用自动阈值的数据处理方法,上述利用自动阈值的数据处理方法包括如下的步骤:数据处理系统接收包含在具有2个以上群集的基准数据集的多个个别数值;上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值(threshold);以及针对至少一个分析对象数据集,上述数据处理系统利用上述阈值来将具有多个个别数值的上述分析对象数据集分割成不同的群集。
在一实施例中,上述利用自动阈值的数据处理方法还可包括如下的步骤,即,上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出在上述基准数据集所具有的群集中平均值最小的群集的基线值(baseline),上述数据处理系统利用上述阈值来将具有上述多个个别数值的上述分析对象数据集分割成不同的群集的步骤包括如下的步骤:上述数据处理系统以包含在上述分析对象数据集的各个数值为基础来算出在上述分析对象数据集具有的群集中平均值最小的群集的基线值;上述数据处理系统算出以上述基准数据集的基线值与上述分析对象数据集的基线值的差异为基础校正上述阈值的校正阈值;以及上述数据处理系统以上述校正阈值为基准区分包含在上述分析对象数据集的各个数值。
在一实施例中,包含在上述基准数据集及上述至少一个分析对象数据集的各个数值为如下的值,即,以添加用于检测特定突变的荧光试剂,执行对于与上述特定突变相应的基因序列的聚合酶链反应(polymerase chain reaction;PCR)的各个液滴(droplet)为对象来测定的荧光信号的大小值。
在一实施例中,上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值的步骤可包括如下的步骤:上述数据处理系统利用包含在上述基准数据集的各个数值来生成由具有预设的区间宽度的多个区间构成的直方图数据;上述数据处理系统执行在上述直方图数据的各个区间中使具有预设的噪音基准值以下的度数的区间的度数变为0的噪音去除过程来生成去除噪音的直方图数据;上述数据处理系统以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第一群集的左端的第一目标区间;上述数据处理系统以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第二群集的右端的第二目标区间;以及算出作为上述第一目标区间及上述第二目标区间之间的数值中的任一个的上述阈值。
在一实施例中,上述数据处理系统利用所接收的各个上述数值来生成由具有预设的区间宽度的多个区间构成的直方图数据的步骤可包括如下的步骤:生成包含在上述基准数据集的各个数值中去除上位一部分数值及下位一部分数值的修改数据集;以及利用包含在上述修改数据集的各个数值来生成上述直方图数据。
在一实施例中,上述数据处理系统利用包含在所接收的上述基准数据集的各个数值来算出用于分割上述基准数据集所具有的群集的阈值的步骤可包括:步骤a),上述数据处理系统利用所接收的各个上述数值来将上述数值能够具有的数值范围分割成具有预设的区间宽度的多个区间,生成将与所分割的每个区间对应的数值的数量作为度数的直方图数据;步骤b),上述数据处理系统将上述直方图数据平滑化;步骤c),上述数据处理系统差分经平滑化的上述直方图数据;步骤d),上述数据处理系统以差分的直方图数据为基础来探索满足规定的基准条件并存在于上述基准数据集内的第一群集的左端的第一目标区间;步骤e),上述数据处理系统以差分的直方图数据为基础来探索满足上述基准条件并存在于上述基准数据集内的第二群集的右端的第二目标区间;以及步骤f),上述数据处理系统算出作为上述第一目标区间及上述第二目标区间之间的值中的任一个的上述阈值。
在一实施例中,上述利用自动阈值的数据处理方法还可包括如下的步骤:当上述数据处理系统利用预设的区间宽度无法探索到满足上述基准条件的第一目标区间或第二目标区间时,将上述区间宽度减少规定尺寸;以及上述数据处理系统利用减少的区间宽度来重新执行上述步骤a)至步骤e)。
在一实施例中,上述数据处理系统以包含在所接收的上述基准数据集的各个数值来算出用于分割上述基准数据集所具有的群集的阈值的步骤可包括:步骤a),上述数据处理系统利用所接收的各个上述数值来将上述数值能够具有的数值范围分割成具有预设的区间宽度的多个区间,生成将与所分割的每个区间对应的数值的数量作为度数的直方图数据;步骤b),上述数据处理系统将上述直方图数据平滑化;步骤c),上述数据处理系统以经平滑化的直方图数据为基础来探索满足规定的基准条件并存在于上述基准数据集内的第一群集的左端的第一目标区间;以及步骤d),上述数据处理系统以经平滑化的直方图数据为基础来探索满足上述基准条件并存在于上述基准数据集内的第二群集的右端的第二目标区间。
根据本发明的再一实施方式,本发明提供计算机程序,设置于数据处理系统,用于执行上述方法。
根据本发明的另一实施方式,本发明提供计算机可读记录介质,记录有用于执行上述方法的计算机程序。
根据本发明的还有一实施方式,本发明提供利用自动阈值的数据处理系统,上述利用自动阈值的数据处理系统包括:输入模块,接收包含在具有2个以上群集的基准数据集的多个个别数值;阈值算出模块,以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值;以及处理模块,针对至少一个分析对象数据集,利用上述阈值来将具有多个个别数值的上述分析对象数据集分割成不同的群集。
在一实施例中,上述利用自动阈值的数据处理系统还可包括基线值算出模块,以包含在所接收的上述基准数据集的各个数值为基础来算出在上述基准数据集所具有的群集中平均值最小的群集的基线值,为了利用上述阈值来将具有上述多个个别数值的上述分析对象数据集分割成不同的群集,上述处理模块以包含在上述分析对象数据集的各个数值为基础来算出在上述分析对象数据集具有的群集中平均值最小的群集的基线值,算出以上述基准数据集的基线值与上述分析对象数据集的基线值的差异为基础校正上述阈值的校正阈值,以上述校正阈值为基准区分包含在上述分析对象数据集的各个数值。
在一实施例中,上述阈值算出模块可利用包含在上述基准数据集的各个数值来生成由具有预设的区间宽度的多个区间构成的直方图数据,执行在上述直方图数据的各个区间中使具有预设的噪音基准值以下的度数的区间的度数变为0的噪音去除过程来生成去除噪音的直方图数据,以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第一群集的左端的第一目标区间,以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第二群集的右端的第二目标区间,算出作为上述第一目标区间及上述第二目标区间之间的数值中的任一个的上述阈值。
在一实施例中,为了生成上述直方图数据,上述阈值算出模块生成包含在上述基准数据集的各个数值中去除上位一部分数值及下位一部分数值的修改数据集,可利用包含在上述修改数据集的各个数值来生成上述直方图数据。
在一实施例中,上述阈值算出模块可利用所接收的各个上述数值来将上述数值能够具有的数值范围分割成具有预设的区间宽度的多个区间,生成将与所分割的每个区间对应的数值的数量作为度数的直方图数据,将上述直方图数据平滑化,差分经平滑化的上述直方图数据,以差分的直方图数据为基础来探索满足规定的基准条件并存在于上述基准数据集内的第一群集的左端的第一目标区间,探索满足上述基准条件并存在于上述基准数据集内的第二群集的右端的第二目标区间,算出作为上述第一目标区间及上述第二目标区间之间的值中的任一个的上述阈值。
在一实施例中,当利用预设的区间宽度无法探索到满足上述基准条件的目标区间时,上述阈值算出模块可将上述区间宽度减少规定尺寸,利用减少的区间宽度来重新生成直方图数据,利用重新生成的直方图数据来探索存在于特定群集的末端的目标区间。
在一实施例中,上述阈值算出模块可利用所接收的各个上述数值来将上述数值能够具有的数值范围分割成具有预设的区间宽度的多个区间,生成将与所分割的每个区间对应的数值的数量作为度数的直方图数据,将上述直方图数据平滑化,以经平滑化的直方图数据为基础来探索满足规定的基准条件并存在于上述基准数据集内的第一群集的左端的第一目标区间,探索满足上述基准条件并存在于上述基准数据集内的第二群集的右端的第二目标区间,算出作为上述第一目标区间及上述第二目标区间之间的值中的任一个的上述阈值。
发明的效果
根据本发明的一实施例,本发明具有如下的效果,即,能够将可通过作为基准的数据集来掌握的群集分割的客观基准统一适用于其他数据集。
并且,本发明具有如下的效果,即,即使不单独聚类多个个别数据,也能够利用个别数据的数值来迅速自动探索特定数据群集的终点,由此,可以有效且迅速地查询作为群集分割的基准的阈值。
并且,本发明具有如下的效果,即,与以往手动执行的作业相比,将本发明一实施例的方法及系统适用于医疗数据时,可进行具有统一且准确的诊断。
附图说明
为了更加充分理解在本发明的详细说明中引用的附图而提供各个附图的简单说明。
图1a及图1b为示出可应用本发明技术思想的医疗数据的一例的图。
图2为用于说明本发明一实施例的利用自动阈值的数据处理系统的简要结构的图。
图3为示出执行本发明一实施例的利用自动阈值的数据处理方法的过程的流程图。
图4为示出本发明一实施例的数据处理系统算出阈值的过程的一例的流程图。
图5a为示出直方图数据的一例的图,图5b及图5c为分别示出去除噪音的直方图数据的一例的图。
图6a为更详细地示出在本实施例的利用自动阈值的数据处理方法中生成直方图的步骤的流程图,图6b为示出通过图6a的方法生成的直方图数据的一例的图。
图7为用于概念性说明本发明一实施例的特定数据群集的终点探索方法的图。
图8为用于说明本发明一实施例的特定数据群集的终点探索方法的流程图。
图9为示出以通过本发明一实施例的数据处理方法算出的阈值为基准,统一分类在多个分析对象数据集中所包含的个别数据的例的图。
图10为示出本发明另一实施例的利用自动阈值的数据处理方法的流程图。
图11为示出在对于多个分析对象数据集的群集分割中,根据基线值校正阈值的例的图。
图12为示出本发明一实施例的利用自动阈值的数据处理系统的简要结构的框图。
具体实施方式
本发明可进行多种变换,并可具有多种实施例,将特定实施例例示在附图并在详细的说明中对其进行详细说明。但是,应理解的是这并非将本发明限定在特定实施方式,而是包括本发明的思想及技术范围内的所有变换、等同技术方案或代替技术方案。在说明本发明的过程中,在判断为对于相关的公知技术的说明使本发明的主旨不清楚的情况下,将省略对其的详细说明。
第一、第二等术语可用于说明多种结构要素,上述结构要素并不局限于上述术语。上述术语可用于区分两种结构要素。
在本申请中所使用的术语仅用于说明特定实施例,而并非用于限定本发明。除非文脉上明确表示,否则单数的表现包括复数的表现。
在本说明书中,“包括”或“具有”等术语用于指定在说明书上记载的特征、数字、步骤、动作、结构要素、部件或它们组合的存在,而并非预先排除一个或一个以上的其他特征、数字、步骤、动作、结构要素、部件或它们组合的存在或附可能性。
并且,在本说明书中,当一个结构要素向其他结构要素“传输”数据时,上述结构要素可以向上述其他结构要素直接传输数据,也可以通过至少一个又一结构要素向上述其他结构要素传输数据。相反,当一个结构要素向其他结构要素“直接传输”数据时,在上述结构要素中并不通过又一结构要素向上述其他结构要素传输上述数据。
以下,参照附图,以本发明的实施例为中心,详细说明本发明。在各个附图中揭示的相同的附图标记表示相同的部件。
图2为用于说明本发明一实施例的利用自动阈值的数据处理系统(以下,称之为“数据处理系统”)的简要结构的图。
参照图2,本发明技术思想的数据处理系统100包括处理器110及存储器120。
上述存储器120可以存储用于体现本发明的技术思想的计算机程序(软件)。
上述软件可通过上述处理器110驱动并执行本发明技术思想的利用自动阈值的数据处理方法。
根据实施例,上述数据处理系统100可包括至少一个规定的周边装置130。例如,上述周边装置可以多样化,为显示装置、扬声器、音频/视频处理模块、外置存储器、输入输出装置、通信装置等。
在一实施例中,上述数据处理系统100可设置于规定的服务器来实现本发明的技术思想。服务器可以为具有用于实现本发明的技术思想的运算能力的数据处理装置,通常,客户端可通过网络访问的数据处理装置和如个人计算机、便携式终端等的可执行特定服务的任何装置也可以被定义为服务器对本发明技术领域的普通技术人员来说是可以轻松推论的。即,上述数据处理系统100也可实现为计算机、服务器、手机等具有数据处理能力的任何计算系统。
在图2中示出上述数据处理系统100实现为任何一种物理装置,根据需要,可以有机结合多个物理装置来实现本发明的技术思想的数据处理系统100,这对本发明技术领域的普通技术人员来说是可以轻松推论的。
上述数据处理系统100可接收规定的数据集。上述数据集可包含多个个别数据。多个个别数据分别具有规定的值。上述值可以为数值。而且,多个个别数据可以形成1个或2个以上的数据群集。
群集可通过数据集内的个别数据的分布来确定。例如,在数据集内,距离值在固定数值以下的相互接近的个别数值可形成群集。或者,具有相同或类似属性的个别数据可以在整体数据集内形成一个群集。例如,整体数据集可区分为与突变的表达相应的群集和除此之外的(未表达)群集、与特定疾病的表达相应的群集和除此之外的(未表达)群集等。
上述数据处理系统100可分析作为基准的基准数据集来算出阈值,上述阈值可用于将待作为实际分析对象的其他数据集内的个别数据区分为不同的群集,可以将算出的阈值应用于作为实际分析对象的其他数据集来将对应数据集内的个别数据分类成不同的群集。
例如,数据集可以为分析用于检测规定疾病或突变的表达的试样的个别数据集。
尤其,在一实施例中,上述数据集可具有如下个别数据,即,包括用于检测特定疾病或突变的荧光试剂(例如,FAM probe和/或HEX probe)并执行了以与上述特定疾病或突变相应的基因序列(例如,DNA和/或RNA)的聚合酶链反应(polymerase chain reaction;以下,称之为“PCR”)的各个液滴(droplet)为对象来测定的荧光信号的大小(振幅(amplitude))值。在此情况下,基准数据集可以是与作为阳性对照(positive control)的试样相对应的数据集,分析对象数据集可以是与从个别体检人员提取的基因序列相对应的数据集。
例如,数据集可以为Droplet DigitalTMPCR系统的输出结果。DropletDigitalTMPCR系统(System)为如下的系统,即,将20ul的PCR反应液切成约2万个液滴(droplet)并扩增之后,对靶DNA进行计数的系统。根据在个别液滴中的靶DNA的扩增与否,以阳性液滴(positive droplet(1))和阴性液滴(negative droplet(0))如数字信号进行处理并计数,通过泊松分布计算靶DNA的复制,以此最终通过样品每ul的复制数来确认结果值。Droplet DigitalTMPCR基于包含待分析的试样和探针(FAM、HEX/VIC)的PCR反应液,生成以油膜来区分的约为2万个液滴(droplet),对所生成的液滴(droplet)实施PCR,若完成PCR反应,则通过液滴读取器(droplet reader)检测各个液滴的荧光信号来计算阳性液滴和阴性液滴及靶基因的复制数量并进行分析。分析结果以具有数值的数据列表的形式(例如,.csv格式等)输出。
本发明的技术思想的例示可以为如上所述的医疗数据,但本发明的保护范围并不局限于此,可以使用多种数据。
如上所述,上述数据处理系统100可分析作为基准的基准数据集来算出阈值,上述阈值可用于将作为实际待分析对象的其他数据集内的个别数据区分成不同的群集,将所算出的阈值应用于作为实际分析对象的其他数据集来将对应数据集内的个别数据分类成不同的群集。当数据集为通过Droplet DigitalTMPCR输出的数值的列表时,基准数据集可以为对于阳性对照(positive control)试样的输出结果,作为实际分析对象的数据集可以为对于包含从实际体检人员提取的基因的试样的输出结果。
在此情况下,上述数据处理系统100可以将从阳性对照(positive control)试样算出的阈值共同应用于对于多个体检人员的结果,因此,当诊断多个体检人员时,可以确保统一性和客观性。
另一方面,每个数据集可以为赋予事件编号的数值的列表形式,可以为.csv或.xls等电子表格或.db等数据库文件格式。
以下,参照图3,更加详细地说明本发明一实施例的数据处理系统100执行利用自动阈值的数据处理方法的过程。
参照图3,上述数据处理系统100可以接收包含在具有2个以上群集的基准数据集的多个个别数值(步骤S100)。上述个别数据可具有的数值可以为正实数值,可以预先设定最大值。在一实施例中,如上所述,上述基准数据集可以为对于阳性对照试样的实验结果。
之后,上述数据处理系统100能够以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值(threshold)(步骤S110)。
在一实施例中,算出的阈值可以为用于对表达疾病或突变的群集和除此之外的群集进行分类的值。
在步骤S110中,算出阈值的方法可以多样。尤其,根据本发明的一实施例,上述数据处理系统100为了算出阈值而可以利用所输入的数据集来生成直方图数据,可探索/判断特定群集的终点。
上述直方图数据的第一轴(例如,x轴)可表示各个区间的类别,第二轴(例如,y轴)表示各个类别的度数。即,上述直方图数据可以将上述个别数据能够具有的数值的范围作为第一轴(例如,x轴)的域,可以包含与当这种第一轴被分割为具有规定区间宽度的多个区间(bin)时的各个区间有关的信息。与各个区间有关的信息可具有对应区间的第一轴值的范围(或表示第几个区间的区间索引)及对应区间的第二轴(例如,y轴)值。区间的第二轴值可以为与第一轴值的范围(即,具有上述区间宽度范围的上述个别数据的数值)对应的个别数据的数量。
另一方面,特定群集的终点可以为对应群集的左端点或右端点。
左端点可以为包含在上述特定群集的个别数据中个别数据的数值按降序(例如,在图1a或图1b中沿着y轴方向的上侧)的第一个个别数据的数值(或刚好在上述第一个个别数据的数值之后的数值的范围)或按降序具有几个个别数据的数值的范围(或刚好上述范围之后的数值的范围)。
右端点可以为包含在上述特定群集的个别数据中个别数据的数值按升序(例如,在图1中沿着y轴方向的下侧)的第一个个别数据具有的数值(或比第一个个别数据的数值低的之前数值的范围)或按升序的预设的数量(例如,2~3个)个别数据所具有的范围(或其之前数值的范围)。
图4为示出本发明一实施例的数据处理系统100算出阈值的过程的一例的流程图。
参照图4,数据处理系统100可利用包含在基准数据集的各个数值来生成由具有预设的区间宽度的多个区间构成的直方图数据(步骤S111)。
另一方面,上述数据处理系统100可执行在上述直方图数据的各个区间中使具有预设的噪音基准值以下的度数的区间的度数变为0的噪音去除过程来生成去除噪音的直方图数据(步骤S112)。
在此情况下,噪音基准值可以为通过实验或其他方法预设的值。
以下,针对在直方图数据中去除噪音的例,参照图5a至图5c进行说明。
图5a为示出在步骤S111中生成的直方图数据的一例,即,上述数据处理系统100可生成如图5a所示的直方图数据。在此情况下,噪音基准值可被确定为k。
在一实施例中,上述噪音去除过程可以为将具有噪音基准值以下的度数的区间的度数设定为0的过程。去除这种噪音去除过程对图5a的直方图数据执行之后生成的噪音的直方图数据可如图5b所示。
另一方面,在另一实施例中,上述噪音去除过程可以为从各个区间的度数中去除噪音基准值之后将具有小于0的度数的区间的度数设定为0的过程。去除这种噪音去除过程对图5a的直方图执行之后生成的噪音的直方图数据如图5c所示。
另一方面,再次参照图4,在直方图中去除噪音之后,上述数据处理系统100能够以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第一群集的左端的第一目标区间(步骤S113)。上述基准数据集内的第一群集可以为在上述基准数据集所具有的群集中对应群集内的数值的平均最大的群集。
上述数据处理系统100为了探索上述第一目标区间及后述的第二目标区间,可以从去除上述噪音的直方图数据与最大的类别相应的区间按逆序探索各个区间。以图5c为例进行说明,上述数据处理系统100可以将最大类别的区间1-1判断为存在于第一群集的右端的区间,并按逆序(图5c的探索方向b)探索各个区间,将对应区间的度数大于0且下一区间的度数为0的区间1-2判断为存在于第一群集的左端的区间(即,第一目标区间)。并且,上述数据处理系统100可以将属于区间1-2至区间1-1的数值判断为第一群集1。
再次参照图4,上述数据处理系统100能够以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第二群集的右端的第二目标区间(步骤S114)。上述基准数据集内的第二群集可以为在上述基准数据集所具有的群集中对应群集内的数值的平均第二大的群集。
以图5c为例进行说明,上述数据处理系统100探索存在于上述第一群集的左端的第一目标区间之后继续以逆序探索去除上述噪音的直方图,可将之前区间的度数为0且对应区间的度数并非为0的区间2-1判断为存在于第二群集的右端的第二目标区间。并且,可以将对应区间的度数并非为0且下一区间的度数为0的区间2-2探索为存在于第二群集的左端,并可将存在于区间2-2至区间2-1的数值判断为第二群集2。
探索存在于第二群集的左端的区间之后,上述数据处理系统100可通过相同的方法探索存在于第三群集的右端的区间3-1和存在于第三群集的左端的区间3-2并判断为第三群集3。
再次参照图4,上述数据处理系统100可以算出作为在上述第一目标区间(例如,图5c的第一目标区间1-2及上述第二目标区间(例如,图5c的第二目标区间2-1))之间的值中的任一个的上述阈值(步骤S115)。以图5c为例进行说明,上述数据处理系统100能够将可属于第二目标区间2-1的最大值与可属于第一目标区间1-2的最小值的中间值T确定为阈值。此外,上述数据处理系统100可通过多种方法选择上述阈值,上述多种方法可以选择能够分割上述第一群集1与第二群集2的任意值。
并且,在上述例中,说明了将第一群集和第二群集分别作为对应群集所属的数值的平均最大的群集和第二大的群集的例,与此不同,当第一群集为属于对应群集的数值的平均最小的群集,第二群集为属于对应群集的数值的平均第二大的群集时,也可应用本发明的技术思想,在此情况下,上述数据处理系统100可以将去除噪音的直方图以类别最小的区间依次进行探索来判断各个群集的左端/右端,这对本发明所属技术领域的普通技术人员来说是显而易见的。并且,上述数据处理系统100也可以算出能够分割第二群集和第三群集的阈值。
另一方面,在本发明的另一实施例中,为了减少整体运算速度而去除被视为对阈值的算出不必要的一部分数值之后生成直方图,对此,参照图6进行说明。
图6a为更加详细示出在本发明实施例的利用自动阈值的数据处理方法中生成直方图的步骤(即,图4的步骤S111)的流程图。
参照图6a,上述数据处理系统100为了生成直方图数据,首先,可生成包含在上述基准数据集的各个数值中去除上位一部分数值及下位一部分数值的修改数据集(步骤S1110)。例如,上述数据处理系统100可以在包含在最初的基准数据集的各个数值中去除上位10%及下位10%的数值来生成修改数据集。
之后,上述数据处理系统100可利用包含在上述修改数据集的各个数值来生成上述直方图数据,利用修改数据集来生成的直方图的一例在图6b中示出。如上所述,图5a为以最初的基准数据集为基准生成的直方图的一例,与图5a相比,在其和图6b的直方图中可以确认左侧/右侧区间的度数成为0。
另一方面,在本发明的另一实施例中,并非直接利用上述直方图数据,可利用经平滑化的直方图数据和/或差分经平滑化的直方图数据的直方图数据来探索目标区间。即,在本发明的实施例中,也可利用经平滑化的直方图数据来探索目标区间,也可以利用将经平滑化的直方图数据再次差分化的直方图数据来探索目标区间。并且,在执行差分化的情况下,可以更加直观地轻松判断直方图数据的拐点。
直方图平滑化(Histogram Equalization)为变换对应数据的方法,以使与一系列数据相应的直方图的分布均匀地呈现在整个区域,例如,广泛应用在计算机视觉领域中提高影像的明暗对比或使影像的亮度变得均匀的方法。如上所述,直方图平滑化通过如下过程执行,即,在计算各个数据的区间度数来生成直方图之后,计算各个数据的积累区间度数(累计之和)并将所计算的累积区间度数标准化。
众所周知,差分化(differencing)为使在一系列数据(series data)分析领域中不具有正常性(stationarity)的一系列数据呈现出正常性的方法。差分化一系列数据为计算一系列数据的差异,例如,用于差分化的方法可以为如下方法,即,计算连续的两个值之间的差的方法(第一次差分)、在连续的两个值之间的差异反应(追加)白噪声(whitenoise;ε)的方法(随机步态模型)、再次将第一次差分化的数据差分的方法(第二次差分)以及求出如特定数据的季节的之前数据之间的差异的季节性差分。
另一方面,直方图平滑化及平滑化可通过分别采用与此相应的掩码(或滤波器)的方法来执行。
图7为用于概念性说明本发明一实施例的特定数据群集的终点探索方法的图。在图7中,记号O表示包含在数据集的个别数据的原本,H为直方图数据,S为平滑化的直方图数据,D为差分化的直方图数据。并且,图8为用于说明本发明一实施例的特定数据群集的终点探索方法的流程图。以下,为了便利,例示性说明在多个数据群集中按数值降序查询第一个数据群集的上端点(即,右端点)的情况,本发明的技术思想并不局限应用于第一个数据群集,或者探索特定数据群集的上端点。例如,当利用直方图数据来探索特定群集的终点时,随着根据探索方向(例如,第一轴的数值从低的区间向高的区间的方向)查询第几个(例如,第二个)终点,可以查询任意数据群集(例如,第二个数据群集)的终点。并且,根据探索方向(例如,第一轴的数值从高的区间向低的区间的方向),可以查询特定数据群集的下端点(即,左端点),而并非查询上端点。以下,为了说明的便利,以在多个数据群集中按数值低的顺序查询第一个数据群集的上端点的情况为例进行说明,但本发明的范围并不局限于此。
图7示出掩码的直径(即,参数的数)为3,简单通过参数值分别为[-1.0.1]的掩码执行平滑化和/或差分化的情况的例示性直方图数据,平滑化掩码和/或差分化掩码的直径和参数值等可以多样。
参照图7及图8,包含在上述数据处理系统100接收的数据集的原本个别数据O可以具有如图7所示的正实数值(例如,1.23425、2.13425、4.23252、3.13141、1.14452等)。这种正实数值可以为在图1a或图1b所示的图表中与第二轴(例如,y轴)相应的值。
如上所述,上述数据处理系统100能够以所输入的原本个别数据O为基础来生成直方图数据H(步骤S300)。上述直方图数据H可以为如下生成的数据,即,将个别数据能够具有的数值的范围分割成具有规定宽度的多个区间20,使具有与所分割的多个区间对应的数值的个别数据的数量具有每个区间的度数。若将这种直方图数据H图示化,则可如图7的直方图数据H所示。
在图7的直方图数据H中,具有度数的多个区间21可以为与一个数据群集相应的直方图的部分区域。
因此,上述数据群集的终点,即,上述数据处理系统100欲探索的目标区间30可以如图7所示。即,图7中并非示出将最后个别数据,即,与目标区间30的之前区间21-1对应的个别数据的数值范围(即,上述之前区间21-1的第一轴值的范围)作为目标区间30探索的情况,而是示出将其度数存在的上述之前区间21-1之后的区间作为目标区间30探索的情况,根据实施例,上述之前区间21-1也可以为目标区间。
上述数据处理系统100并非从这种直方图数据H直接探索目标区间30,而是可以将上述直方图数据H平滑化(步骤S310)。
而且,可利用平滑化的直方图数据S来探索上述目标区间30(步骤S340)。
可利用这种平滑化的直方图数据S来解决如下的问题,即,当在具有上述度数的一系列的区间21之间暂时性存在度数为0的至少一个区间(称之为空白区间)时,即,当在与需要探索的数据群集对应的数值的范围中存在不具有个别数据的一部分范围时,不清楚是否将这种空白区间判断为目标区间或空白区间的问题。即,当利用平滑化的直方图数据S时,在原来的直方图H中,即使是空白区间,也将根据左右的度数具有规定值,因此,度数有可能并不是0,因此,使用平滑化的直方图数据S更加有效。
若例示性示出将这种原本直方图数据H平滑化的结果,则可以如图7的直方图S所示。
用于将直方图平滑化的平滑化掩码(或滤波器)和/或差分掩码已广泛使用。
在本发明的实施例中,平滑化掩码和/或差分掩码可以利用卷积掩码,规定的数字串x和卷积掩码h可以如下定义。
数学式1
Figure BDA0003467538180000171
在本发明的一实施例中,平滑化掩码及差分掩码的一例分别利用[1,1,1,1,1,1,1,1,1,1]、[-1,-1,-1,-1,0,1,1,1,1],在另一实施例中,利用[1,1,1,1,1,1,1,1,1]、[-1,-1,-1,-1,0,1,1,1,1]。但是,平滑化掩码及差分掩码可根据包含在数据集的个别数据的数量及群集度等数据集的特性不同的设定。
另一方面,如上所述,上述数据处理系统100可利用平滑化的直方图数据S来探索目标区间30,在其他情况下,差分经平滑化的直方图数据S来更加明确地探索目标区间30。
根据数据集的特性预先确定在一种情况下利用平滑化的直方图数据S来探索目标区间30,在另一种情况下利用差分化的直方图数据D来探索目标区间30。数据集的特性能够以包括数据的数量、数据的密集度、数据集群的数量的数据集的特性为基础确定,可通过预先执行的反复的实验如下确定其基准,即,当上述特定属于一种范围时,在第一情况,即,利用平滑化直方图数据S来探索目标区间30,在其他第二情况中,利用差分化直方图数据D来探索目标区间30。
当然,根据实施例,也可以随机选择两种方式中的一种,根据实例,均可利用两种方式来探索目标区间30并比较其结果。
当利用两种方式来探索目标区间30时,在探索的每个目标区间的各个位置(第一轴值)相同或处于预设的位置(第一轴值)范围内的情况下,可以将通过一种方式查询的目标区间确定为最终目标区间。
因此,当上述数据处理系统100能够以所输入的原本个别数据O为基础来判断为第一情况时(步骤S130),如上所述,可利用平滑化的直方图数据S来探索目标区间30(步骤S340)。
而且,当上述数据处理系统100判断为第二情况时,上述数据处理系统100可以再次差分化经平滑化的上述直方图数据S(步骤S330)。因此,上述数据处理系统100可利用差分化的直方图数据D探索目标区间30(步骤S340)。
上述数据处理系统100从平滑化的直方图数据S探索目标区间30的情况的一例如下。
例如,上述数据处理系统100可以在平滑化的直方图数据S中沿规定方向(例如,数值变大的方向)探索每个区间的度数。
因此,可以探索正在探索的当前区间的之前度数并非为截止值(例如,0),当前度数为截止值(例如,0),预设的数量(例如,1个或2个以上)的下一度数为截止值(例如,0)的目标区间30。
在此情况下,图7中,当上述目标区间30为当前探索的当前区间时,之间区间21-1的度数并非为0,若当前区间的度数为0,则预设的数量(例如,2个)之后区间的度数为0,因此,可以将上述当前区间确定为目标区间30。
截止值可以为0,但根据实施例,也可以被设定为如1等的小值。在此情况下,需要探索的终点可通过在数据群集中查询在末端侧存在1个个别数据的数值的算法定义,根据实施例,可以多样设定截止值。
另一方面,当从差分化的直方图数据D探索目标区间30的情况的一例可以如下。
例如,上述数据处理系统100可以在差分化的直方图数据D中沿规定方向(例如,数值变大的方向)探索每个区间的度数。
因此,若正在探索的当前区间为目标区间30,则上述当前区间的直线区间21-1的度数小于之后区间31的度数,上述之前区间21-1的度数小于或等于0且上述之后区间31的度数大于或等于0的情况为需要探索的目标区间30。即,与度数从负值逐渐减小并变为0的区域对应的点为需要探索的目标区间30。
另一方面,当生成如上所述的直方图数据时,根据入射设定区间宽度,有可能无法探索到目标区间30。例如,在区间的宽度过大的情况下,当在需要探索的数据群集和下一数据群集之间存在多个个别数据并相对密集时,有可能不存在具有截止值的区间。即便如此,当过度减少区间宽度时,有可能发生如下的问题,即,在一个数据群集内也有可能检测到多个具有截止值的区间或者区间的数量变多,从而探索时间变长。因此,需要通过反复的实验来预先确定适当的区间宽度。
当很难预先确定这种区间宽度时,可利用规定的默认区间宽度值来执行探索,当未探索到如上所述的目标区间时(即,区间宽度过宽,以至于在需要探索的目标数据群集的末端区间和与上述目标数据群集相邻的数据群集的上述目标数据群集侧末端区间之间不存在度数为0的区间),将区间宽度依次减少预设的单位值并利用变窄的区间宽度来重新生成直方图数据。而且,可利用重新生成的直方图数据来执行如上所述的目标区间探索过程(利用平滑化的直方图数据的目标区间探索或利用差分化的直方图数据的目标区间探索)。
上述数据处理系统100可通过参照图7至图8说明的上述方法判断各个群集的左端点及右端点,利用其来算出能够分割各个群集的阈值。
另一方面,再次参照图3,上述数据处理系统100通过如上所述的方法算出阈值之后,针对至少一个分析对象数据集,利用上述阈值来将上述分析对象数据集分割成不同的群集(步骤S120、步骤S130)。
上述至少一个分析对象数据集均可包含多个个别数据,各个个别数据可具有数值。
上述分析对象数据集可以为通过与上述基准数据集相同方式的试验或实验生成的数据。当上述基准数据集为从对于特定疾病或突变的表达与否的阳性对照(positivecontrol)试样测定的数据集时,上述至少一个分析对象数据集可以为从试样测定的数据集,上述试样包含从与此相应的分析对象提取的生物体信息(例如,基因信息)。
图9为示出以通过上述方法算出的阈值为基准,统一分类在多个分析对象数据集中所包含的个别数据的例的图。
如图9所示,在算出作为分类的基准的阈值12之后,上述数据处理系统100可以将多个分析对象数据集(A01、B01、…、H01)统一分类成显示疾病或表达突变的数据群集(即,具有阈值12以上的值的群集)及除此之外的群集(即,具有小于阈值12的值的群集)。
另一方面,多个分析对象数据集也有可能因在实验设备(例如,Droplet DigitalTM聚合酶链反应系统)自身发生的误差等而发生数值的整体变动(shift)。即,在一个分析对象数据集内没有问题,但与其他分析对象数据集的关系中有可能发生数值整体上增加或减少的情况。
为此,上述数据处理系统100还执行能够以各个数据集的基线(baseline)值为基准校正整体数值的过程。这种实施例的利用自动阈值的数据处理方法的具体例在图10示出。
参照图10,上述数据处理系统100可接收包含在基准数据集的多个个别数值(步骤S200),能够以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值(步骤S210)。
并且,上述数据处理系统100能够以包含在所接收的上述基准数据集的各个数值为基础来算出上述基准数据集所具有的群集中平均值最小的群集的基线(baseline)值(步骤S220)。
在一实施例中,上述数据处理系统100可采用上述特定群集的终点探索方法来算出基线值。例如,上述数据处理系统100在探索特定组(例如,最下端组)的上端点及下端点之后来将两个点的中间值、平均值或重心值算成基线值。
另一方面,上述数据处理系统100可针对上述至少一个分析对象数据集执行图10的步骤S240至步骤S260(步骤S230)。
上述数据处理系统可针对各个分析对象数据集,能够以包含在上述分析对象数据集的各个数值为基础来算出在上述分析对象数据集具有的群集中平均值最小的群集的基线值(步骤S240)。
并且,上述数据处理系统100能够以上述基准数据集的基线值与上述分析对象数据集的基线值的差异为基础算出校正上述阈值的校正阈值。
例如,上述数据处理系统100可以算出将上述阈值校正上述基准数据集的基线值与上述分析对象数据集的基线值的差异的校正阈值(步骤S250),能够以包含在上述分析对象数据集的各个数值为基础区分上述校正阈值(步骤S260)。另一方面,根据实施例,上述数据处理系统100针对上述基准数据集的基线值与上述分析对象数据集的基线值的差异为规定水平以上的情况,算出将上述阈值校正上述基准数据集的基线值与上述分析对象数据集的基线值的差异的校正阈值(步骤S250),能够以上述校正阈值为基准区分包含在上述分析对象数据集的各个数值(步骤S260)。
图11为示出在对于多个分析对象数据集的群集分割中,根据基线值校正阈值的例的图。图11示出对于作为各个数据集的A01、B01、C01、…、H09的群集分割结果。
参照图11,上述数据处理系统100可针对除A05数据集之外的剩余数据集,以规定的阈值13为基准分割群集,但针对与基准数据集的基线值具有不同基准线的A05数据集,以校正两者之差的阈值14为基准分割群集。
图12为用于说明本发明实施例的数据处理系统100的逻辑结构的图。
参照图12,上述数据处理系统100可包括输入模块140、阈值算出模块150及处理模块170。根据本发明的实施例,上述结构要素中的一部分结构要素也有可能并不与实现本发明所必需的结构要素对应,并且,根据实施例,上述数据处理系统100也可以包括比此更多的结构要素。例如,上述数据处理系统100还可包括基线值算出模块160和/或为了实现本发明技术思想而包括在上述数据处理系统100的其他结构(例如,上述输入模块140、阈值算出模块150、基线值算出模块160及处理模块170等)或用于控制上述数据处理系统100的功能或源的控制模块(未图示)。
上述数据处理系统100可以是具有为了实现本发明的技术思想而需要的硬件源(resource)和/或软件的逻辑结构,但并不意味着一个物理结构要素或一个装置。即,上述数据处理系统100可以是为了实现本发明的技术思想而具有的硬件和/或软件的逻辑结合,在需要的情况下,设置在相互隔开的装置来执行各自的功能,由此,可实现为用于实现本发明的技术思想的逻辑结构的集合。并且,上述数据处理系统100也可以是按用于实现本发明的技术思想的每个功能或作用而单独实现的结构的集合。例如,上述输入模块140、阈值算出模块150、基线值算出模块160及处理模块170也可位于不同的物理装置,也可以位于相同的物理装置。并且,根据实例,构成上述输入模块140、阈值算出模块150、基线值算出模块160及处理模块170的软件和/或硬件的结合也可位于不同的物理装置,位于不同的物理装置的结构可以相互有机结合来实现每个上述模块。
并且,在本说明书中,模块可以为用于执行本发明的技术思想的硬件及用于驱动上述硬件的软件的功能、结构性结合。例如,上述模块可以为规定的代码和用于执行上述规定的代码的硬件源(resource)的逻辑单位,本发明所属技术领域的普通技术人员可以轻松推论出其并非必定意味着物理连接代码,或一种硬件。
参照图8,上述输入模块140可以接收包含在具有2个以上群集的数据集(例如,与阳性调节相应的数据集)的多个个别数值。上述输入模块140可接收基准数据集和/或至少一个分析对象数据集。
上述阈值算出模块150能够以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值。上述阈值算出模块150算出阈值的多种方法如上。
针对至少一个分析对象数据,上述处理模块170可利用上述阈值来将具有多个个别数值的上述分析对象数据集分割成不同的群集。
另一方面,在一实施例中,上述数据处理系统100还可包括基线值算出模块160,能够以包含在上述基准数据集的各个数值为基础来算出在上述基准数据集所具有的群集中平均值最小的群集的基线值,在此情况下,上述处理模块170为了利用上述阈值来将具有上述多个个别数值的上述分析对象数据集分割成不同的群集,能够以包含在上述分析对象数据集的各个数值为基础来算出在上述分析对象数据集具有的群集中平均值最小的群集的基线值,算出将上述阈值校正上述基准数据集的基线值与上述分析对象数据集的基线值的差异的校正阈值,以上述校正阈值为基准区分包含在上述分析对象数据集的各个数值。
另一方面,在一实施例中,如上所述,上述阈值算出模块150为了算出阈值而可以探索特定群集的终点。
另一方面,根据实例,上述数据处理系统100可以包括处理器及用于存储通过上述处理器执行的程序的存储器。上述处理器可包括单核CPU或多核CPU。存储器可包括高速随机存取存储器,也可包括一个以上的磁盘存储装置、闪存装置或如其他非易失性固态存储装置的非易失性存储器。可通过存储器控制器控制向处理器及基于其他结构要素的存储器的访问。
另一方面,本发明实施例的利用自动阈值的数据处理方法可实现为计算机可读程序指令形式,从而可存储在计算机可读记录介质,本发明实施例的控制程序及对象程序也可存储在计算机可读记录介质。计算机可读记录介质包括存储能够通过计算机系统读取的数据的所有种类的记录装置。
记录在记录介质的程序指令是为了本发明而特别设计并构成的,也可以为软件领域的普通技术人员公知使用的。
作为计算机可读记录介质的例,包括如硬盘、软盘及磁带磁性介质(magneticmedia)、如CD-ROM、DVD的光记录介质(optical media)、如光软盘(floptical disk)的磁光介质(magneto-optical media)及如只读存储器(ROM)、随机存取存储器(RAM)、闪存等的以存储程序指令并执行的方式特别构成的硬件装置。并且,计算机可读记录介质可分散在通过网络连接的计算机系统,通过分散方式存储计算机可读代码并执行。
作为程序指令的例,包括可通过编译器形成的机械代码和通过使用解释器以电子方式处理信息的装置,例如,可通过计算机执行的高级语言代码。
上述硬件装置为了执行本发明的工作而作为一个以上的软件模块进行工作,反之亦然。
上述本发明的说明仅为例示,本发明所属技术领域的普通技术人员可以在不改变本发明的技术思想或必要特征的情况下将本发明轻松实施成其他具体方式。因此,以上记述的实施例在所有方面均是例示性实施例,而并非用于限定本发明。例如,以单一型说明的各个结构要素可以分散实施,同样,分散说明的结构要素也能够以结合的方式实施。
本发明的范围通过后述的发明要求保护范围体现,而并非通过上述详细说明,从发明要求保护范围的含义、范围及其等同概念导出的所有变更或变形的方式均属于本发明的范围内。
产业上的可利用性
本发明可用于利用自动阈值的数据处理方法及系统。

Claims (17)

1.一种利用自动阈值的数据处理方法,其特征在于,包括如下的步骤:
数据处理系统接收包含在具有2个以上群集的基准数据集的多个个别数值;
上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值;以及
针对至少一个分析对象数据集,上述数据处理系统利用上述阈值来将具有多个个别数值的上述分析对象数据集分割成不同的群集。
2.根据权利要求1所述的利用自动阈值的数据处理方法,其特征在于,
上述利用自动阈值的数据处理方法还包括如下的步骤,即,上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出在上述基准数据集所具有的群集中平均值最小的群集的基线值,
上述数据处理系统利用上述阈值来将具有上述多个个别数值的上述分析对象数据集分割成不同的群集的步骤包括如下的步骤:
上述数据处理系统以包含在上述分析对象数据集的各个数值为基础来算出在上述分析对象数据集所具有的群集中平均值最小的群集的基线值;
上述数据处理系统算出以上述基准数据集的基线值与上述分析对象数据集的基线值的差异为基础校正上述阈值的校正阈值;以及
上述数据处理系统以上述校正阈值为基准区分包含在上述分析对象数据集的各个数值。
3.根据权利要求1所述的利用自动阈值的数据处理方法,其特征在于,包含在上述基准数据集及上述至少一个分析对象数据集的各个数值为如下的值,即,以添加用于检测特定突变的荧光试剂,执行对于与上述特定突变相应的基因序列的聚合酶链反应的各个液滴为对象来测定的荧光信号的大小值。
4.根据权利要求1所述的利用自动阈值的数据处理方法,其特征在于,上述数据处理系统以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值的步骤包括如下的步骤:
上述数据处理系统利用包含在上述基准数据集的各个数值来生成由具有预设的区间宽度的多个区间构成的直方图数据;
上述数据处理系统执行在上述直方图数据的各个区间中使具有预设的噪音基准值以下的度数的区间的度数变为0的噪音去除过程来生成去除噪音的直方图数据;
上述数据处理系统以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第一群集的左端的第一目标区间;
上述数据处理系统以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第二群集的右端的第二目标区间;以及
算出作为上述第一目标区间及上述第二目标区间之间的数值中的任一个的上述阈值。
5.根据权利要求4所述的利用自动阈值的数据处理方法,其特征在于,上述数据处理系统利用所接收的各个上述数值来生成由具有预设的区间宽度的多个区间构成的直方图数据的步骤包括如下的步骤:
生成包含在上述基准数据集的各个数值中去除上位一部分数值及下位一部分数值的修改数据集;以及
利用包含在上述修改数据集的各个数值来生成上述直方图数据。
6.根据权利要求1所述的利用自动阈值的数据处理方法,其特征在于,上述数据处理系统利用包含在所接收的上述基准数据集的各个数值来算出用于分割上述基准数据集所具有的群集的阈值的步骤包括:
步骤a),上述数据处理系统利用所接收的各个上述数值来将上述数值能够具有的数值范围分割成具有预设的区间宽度的多个区间,生成将与所分割的每个区间对应的数值的数量作为度数的直方图数据;
步骤b),上述数据处理系统将上述直方图数据平滑化;
步骤c),上述数据处理系统差分经平滑化的上述直方图数据;
步骤d),上述数据处理系统以差分的直方图数据为基础来探索满足规定的基准条件并存在于上述基准数据集内的第一群集的左端的第一目标区间;
步骤e),上述数据处理系统以差分的直方图数据为基础来探索满足上述基准条件并存在于上述基准数据集内的第二群集的右端的第二目标区间;以及
步骤f),上述数据处理系统算出作为上述第一目标区间及上述第二目标区间之间的值中的任一个的上述阈值。
7.根据权利要求6所述的利用自动阈值的数据处理方法,其特征在于,上述利用自动阈值的数据处理方法还包括如下的步骤:
当上述数据处理系统利用预设的区间宽度无法探索到满足上述基准条件的第一目标区间或第二目标区间时,将上述区间宽度减少规定尺寸;以及
上述数据处理系统利用减少的区间宽度来重新执行上述步骤a)至步骤e)。
8.根据权利要求1所述的利用自动阈值的数据处理方法,其特征在于,上述数据处理系统以包含在所接收的上述基准数据集的各个数值来算出用于分割上述基准数据集所具有的群集的阈值的步骤包括:
步骤a),上述数据处理系统利用所接收的各个上述数值来将上述数值能够具有的数值范围分割成具有预设的区间宽度的多个区间,生成将与所分割的每个区间对应的数值的数量作为度数的直方图数据;
步骤b),上述数据处理系统将上述直方图数据平滑化;
步骤c),上述数据处理系统以经平滑化的直方图数据为基础来探索满足规定的基准条件并存在于上述基准数据集内的第一群集的左端的第一目标区间;以及
步骤d),上述数据处理系统以经平滑化的直方图数据为基础来探索满足上述基准条件并存在于上述基准数据集内的第二群集的右端的第二目标区间。
9.一种计算机程序,其特征在于,设置于数据处理系统,用于执行根据权利要求1至8中任一项所述的方法。
10.一种计算机可读记录介质,其特征在于,记录有用于执行根据权利要求1至8中任一项所述的方法的计算机程序。
11.一种利用自动阈值的数据处理系统,其特征在于,包括:
输入模块,接收包含在具有2个以上群集的基准数据集的多个个别数值;
阈值算出模块,以包含在所接收的上述基准数据集的各个数值为基础来算出用于分割上述基准数据集所具有的群集的阈值;以及
处理模块,针对至少一个分析对象数据集,利用上述阈值来将具有多个个别数值的上述分析对象数据集分割成不同的群集。
12.根据权利要求11所述的利用自动阈值的数据处理系统,其特征在于,
上述利用自动阈值的数据处理系统还包括基线值算出模块,以包含在所接收的上述基准数据集的各个数值为基础来算出在上述基准数据集所具有的群集中平均值最小的群集的基线值,
为了利用上述阈值来将具有上述多个个别数值的上述分析对象数据集分割成不同的群集,上述处理模块以包含在上述分析对象数据集的各个数值为基础来算出在上述分析对象数据集所具有的群集中平均值最小的群集的基线值,算出以上述基准数据集的基线值与上述分析对象数据集的基线值的差异为基础校正上述阈值的校正阈值,以上述校正阈值为基准区分包含在上述分析对象数据集的各个数值。
13.根据权利要求11所述的利用自动阈值的数据处理系统,其特征在于,上述阈值算出模块利用包含在上述基准数据集的各个数值来生成由具有预设的区间宽度的多个区间构成的直方图数据,执行在上述直方图数据的各个区间中使具有预设的噪音基准值以下的度数的区间的度数变为0的噪音去除过程来生成去除噪音的直方图数据,以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第一群集的左端的第一目标区间,以去除上述噪音的直方图数据为基础来探索存在于上述基准数据集内的第二群集的右端的第二目标区间,算出作为上述第一目标区间及上述第二目标区间之间的数值中的人任一个的上述阈值。
14.根据权利要求13所述的利用自动阈值的数据处理系统,其特征在于,为了生成上述直方图数据,上述阈值算出模块生成包含在上述基准数据集的各个数值中去除上位一部分数值及下位一部分数值的修改数据集,利用包含在上述修改数据集的各个数值来生成上述直方图数据。
15.根据权利要求11所述的利用自动阈值的数据处理系统,其特征在于,上述阈值算出模块利用所接收的各个上述数值来将上述数值能够具有的数值范围分割成具有预设的区间宽度的多个区间,生成将与所分割的每个区间对应的数值的数量作为度数的直方图数据,将上述直方图数据平滑化,差分经平滑化的上述直方图数据,以差分的直方图数据为基础来探索满足规定的基准条件并存在于上述基准数据集内的第一群集的左端的第一目标区间,探索满足上述基准条件并存在于上述基准数据集内的第二群集的右端的第二目标区间,算出作为上述第一目标区间及上述第二目标区间之间的值中的任一个的上述阈值。
16.根据权利要求15所述的利用自动阈值的数据处理系统,其特征在于,当利用预设的区间宽度无法探索到满足上述基准条件的目标区间时,上述阈值算出模块将上述区间宽度减少规定尺寸,利用减少的区间宽度来重新生成直方图数据,利用重新生成的直方图数据来探索存在于特定群集的末端的目标区间。
17.根据权利要求11所述的利用自动阈值的数据处理系统,其特征在于,上述阈值算出模块利用所接收的各个上述数值来将上述数值能够具有的数值范围分割成具有预设的区间宽度的多个区间,生成将与所分割的每个区间对应的数值的数量作为度数的直方图数据,将上述直方图数据平滑化,以经平滑化的直方图数据为基础来探索满足规定的基准条件并存在于上述基准数据集内的第一群集的左端的第一目标区间,探索满足上述基准条件并存在于上述基准数据集内的第二群集的右端的第二目标区间,算出作为上述第一目标区间及上述第二目标区间之间的值中的任一个的上述阈值。
CN202080050896.8A 2019-07-12 2020-07-10 利用自动阈值的数据处理方法及系统 Pending CN114503205A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2019-0084214 2019-07-12
KR1020190084214A KR102261474B1 (ko) 2019-07-12 2019-07-12 자동 경계화를 이용한 데이터 처리 방법 및 시스템
PCT/KR2020/009095 WO2021010670A1 (ko) 2019-07-12 2020-07-10 자동 경계화를 이용한 데이터 처리 방법 및 시스템

Publications (1)

Publication Number Publication Date
CN114503205A true CN114503205A (zh) 2022-05-13

Family

ID=74210608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080050896.8A Pending CN114503205A (zh) 2019-07-12 2020-07-10 利用自动阈值的数据处理方法及系统

Country Status (6)

Country Link
US (1) US20220277812A1 (zh)
EP (1) EP3985677A4 (zh)
JP (1) JP7345811B2 (zh)
KR (1) KR102261474B1 (zh)
CN (1) CN114503205A (zh)
WO (1) WO2021010670A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102584198B1 (ko) * 2019-07-31 2023-10-04 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1163502A1 (en) 1999-02-18 2001-12-19 Bio-View Ltd System and method for identifying and analyzing rare cell types in a mixed population of cells
JP2004501358A (ja) * 2000-05-11 2004-01-15 ベクトン・ディキンソン・アンド・カンパニー 最適な境界を有する平滑化された多角形を使用して散布図中のクラスタを識別するシステム
KR101106201B1 (ko) * 2003-07-18 2012-01-20 고치 유니버시티 임상검사분석장치, 임상검사분석방법 및 그 방법을 컴퓨터에 실행시키는 프로그램을 저장하는 컴퓨터 판독 가능한 기록매체
KR100875915B1 (ko) * 2005-12-08 2008-12-26 한국전자통신연구원 정보추출 군집화 시스템 및 그 방법
KR101052592B1 (ko) * 2008-11-19 2011-07-29 한국과학기술정보연구원 계층적 클러스터링에서 최적의 군집 분할 방법 및 시스템
KR20110114181A (ko) * 2010-04-13 2011-10-19 고려대학교 산학협력단 예측 정확성이 향상된 대출 심사 방법
CN103459614B (zh) * 2011-01-05 2015-12-02 香港中文大学 胎儿性染色体的非侵入性产前基因分型
JP5645761B2 (ja) 2011-06-23 2014-12-24 登史夫 小林 医療データ解析方法、医療データ解析装置およびプログラム
KR101700104B1 (ko) * 2012-09-04 2017-02-13 에스케이플래닛 주식회사 군집 분석 지원 시스템 및 방법과, 이를 지원하는 장치
KR20140064471A (ko) * 2012-11-20 2014-05-28 한국과학기술원 대용량 데이터를 위한 군집화 방법
JP2015207111A (ja) 2014-04-18 2015-11-19 ソニー株式会社 検査サーバ、検査方法および検査システム
JP2016099888A (ja) 2014-11-25 2016-05-30 日本電信電話株式会社 センサデータ分類装置、方法およびプログラム
JP6952056B2 (ja) 2016-01-22 2021-10-20 オートレイシーズ, インク.Otraces, Inc. 疾患診断を改善するシステム及び方法
KR101782364B1 (ko) * 2016-05-23 2017-09-27 (주)에이앤아이 케이평균군집화를 통한 학습기반의 비전검사 방법

Also Published As

Publication number Publication date
JP2022540195A (ja) 2022-09-14
EP3985677A4 (en) 2023-06-21
WO2021010670A1 (ko) 2021-01-21
US20220277812A1 (en) 2022-09-01
KR20210007547A (ko) 2021-01-20
EP3985677A1 (en) 2022-04-20
JP7345811B2 (ja) 2023-09-19
KR102261474B1 (ko) 2021-06-07

Similar Documents

Publication Publication Date Title
JP7164125B2 (ja) シーケンシングベースのアッセイの妥当性を確保するための品質管理鋳型
US20190316209A1 (en) Multi-Assay Prediction Model for Cancer Detection
US11961589B2 (en) Models for targeted sequencing
RU2517286C2 (ru) Классификация данных выборок
CN112951327B (zh) 药物敏感预测方法、电子设备及计算机可读存储介质
EP4073804A1 (en) Cancer classification using patch convolutional neural networks
CN112599199A (zh) 一种适用于10x单细胞转录组测序数据的分析方法
AU2016355983A1 (en) Methods for detecting copy-number variations in next-generation sequencing
Asyali et al. Reliability analysis of microarray data using fuzzy c-means and normal mixture modeling based classification methods
CN114503205A (zh) 利用自动阈值的数据处理方法及系统
US20220101135A1 (en) Systems and methods for using a convolutional neural network to detect contamination
KR102124193B1 (ko) 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법
Mahmudah et al. Machine Learning Algorithms for Predicting Chronic Obstructive Pulmonary Disease from Gene Expression Data with Class Imbalance.
Ahmed et al. Genetic variations analysis for complex brain disease diagnosis using machine learning techniques: opportunities and hurdles
US20240038393A1 (en) Predicting disease progression based on digital-pathology and gene-expression data
CN115881218B (zh) 用于全基因组关联分析的基因自动选择方法
Casey et al. A machine learning approach to prostate cancer risk classification through use of RNA sequencing data
CN118369440A (zh) 鉴定癌症相关微生物生物标志物的方法
CN112119465A (zh) 一种特定数据群集的端点搜索方法及其数据处理系统
James et al. Feature selection using nearest attributes
CN117524308A (zh) 用于推测人亲缘关系等级的snp位点组合及其应用
Wu et al. Fuzzy C-Means based LSED analysis model of single-cell RNA sequencing data for gene expression difference data
Voyle et al. psychiatric epidemiology
Walker Iterative Random Forest Based High Performance Computing Methods Applied to Biological Systems and Human Health
Karetla et al. IR-ER-A hybrid pipeline for classifying COVID-19 RNA seq data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination