CN104361033A - 一种癌症相关信息自动收集方法及系统 - Google Patents

一种癌症相关信息自动收集方法及系统 Download PDF

Info

Publication number
CN104361033A
CN104361033A CN201410584231.1A CN201410584231A CN104361033A CN 104361033 A CN104361033 A CN 104361033A CN 201410584231 A CN201410584231 A CN 201410584231A CN 104361033 A CN104361033 A CN 104361033A
Authority
CN
China
Prior art keywords
cancer
known facts
factor
memory module
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410584231.1A
Other languages
English (en)
Other versions
CN104361033B (zh
Inventor
杨欧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiamei Kanglian Medical Technology Co.,Ltd.
Original Assignee
Shenzhen Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Polytechnic filed Critical Shenzhen Polytechnic
Priority to CN201410584231.1A priority Critical patent/CN104361033B/zh
Publication of CN104361033A publication Critical patent/CN104361033A/zh
Application granted granted Critical
Publication of CN104361033B publication Critical patent/CN104361033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种癌症相关信息自动收集系统及方法。所述系统,包括文献存储模块、已知因素识别存储模块、未知因素存储模块、统计分析模块和癌症相关因素存储模块。所述方法包括以下步骤:(1)获取与特定癌症相关的文献数据;(2)内容分解成词汇,保留名词性词汇;(3)识别为已知因素和未知因素;(4)判断所述已知因素与癌症关联的显著程度;(5)指定显著关联的未知因素的为已知因素的某一类别或新增的类别。本发明提供的系统及方法,用于收集癌症相关信息,综合性强,同时具备可扩展性。

Description

一种癌症相关信息自动收集方法及系统
技术领域
本发明属于模式识别领域,更具体地,涉及一种癌症相关信息自动收集系统及方法。
背景技术
癌症是一大类恶性肿瘤的统称。癌细胞的特点是无限制、无止境地增生,使患者体内的营养物质被大量消耗;癌细胞释放出多种毒素,使人体产生一系列症状;癌细胞还可转移到全身各处生长繁殖,导致人体消瘦、无力、贫血、食欲不振、发热以及严重的脏器功能受损等等。与之相对的有良性肿瘤,良性肿瘤则容易清除干净,一般不转移、不复发,对器官、组织只有挤压和阻塞作用,但癌症还可破坏组织、器官的结构和功能,引起坏死出血合并感染,患者最终由于器官功能衰竭而死亡。目前,癌症已成为人类健康的头号杀手。
现代医学研究认为,癌症与诸多因素相关联,是一种典型的多因素疾病。完整的收集和整理癌症相关信息,对于癌症的诊断治疗以及机理研究都有巨大的意义。然而,目前的癌症相关信息收集方法以及收集系统,都是针对某一类因素,如基因、蛋白质或者miRNA建立的,对象单一,并不能综合癌症相关信息,另外扩展性不佳。另外,现有的癌症相关信息收集方法,多为人工整理,较为费时费力。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种癌症相关信息自动收集系统及方法,其目的在于采用模式识别的方式,自动收集并整理癌症相关信息,并将与癌症显著相关的因素进行分类,由此解决现有的癌症相关信息收集技术对象单一、扩展性不佳或人工收集费时费力的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种癌症相关信息自动收集系统,包括文献存储模块、已知因素识别存储模块、未知因素存储模块、统计分析模块和癌症相关因素存储模块;
所述文献存储模块,用于获取与特定癌症相关文献数据,按照癌症种类将获取的文献数据进行分类存储,并将文献数据按照分解为单词,根据自然语言分类保留名词性词汇,将所有名词性词汇输出给已知因素识别存储模块;
所述已知因素识别存储模块,用于按照当前已知因素类别,存储已知因素类别识别器,获取所有名词性词汇,利用已知因素类别识别器,对所有名词性词汇进行识别并按照已知因素类别进行存储;无法识别为当前存储的已知因素类别时,将无法识别的名词输出给未知因素模块;
所述未知因素模块,用于接收所述已知因素识别存储模块无法识别的名词,并存储为未知因素,当出现统计分析模块判断为显著的未知因素时,将所述未知因素提交用户指定为当前存储的已知因素类别或新创件的已知因素类别,并将新创建的已知因素类别及其识别器提交给所述已知因素识别存储模块,并更新当前已知因素类别及其识别器;
所述统计分析模块,用于根据所述文献存储模块,癌症相关文献量及名词性词汇出现频率信息,采用共出现原理,评价癌症和名词性词汇的相关性,并根据预先设定的阈值,判断所述名词性词汇是否为显著的已知因素或显著的未知因素;
癌症相关因素存储模块,用于存储所有与癌症相关性名词性词汇、所述名词性词汇的已知因素类别或未知因素、以及其与癌症相关性,并以表的形式进行展示及查询。
优选地,所述癌症相关信息自动收集系统,其文献存储模块获取的与特定癌症相关的文献数据,为医学主题次系统标记的特定癌症相关文献。
优选地,所述癌症相关信息自动收集系统,其已知因素识别存储模块,其已知因素识别器为相应类别名词性词汇的正则表达式。
优选地,所述癌症相关信息自动收集系统,其已知因素识别存储模块,其类别包括操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
优选地,所述癌症相关信息自动收集系统,其统计分析模块,采用费舍尔检验,获得p值,按照p值越大,相关性越小的原则,评价癌症和名词性词汇的相关性。
按照本发明的另一个方面,提供了癌症相关信息自动收集方法,包括以下步骤:
(1)文献存储模块获取与特定癌症相关的文献数据;
(2)文献存储模块对于步骤(1)中获取的每一篇文献,将文件内容分解成词汇,利用自然语言分析对词汇进行词性分类,保留名词性词汇;
(3)已知因素识别存储模块将步骤(2)中的词汇识别为已知因素和未知因素,已知因素按照基因功能性片段、蛋白质和糖类分类;
(4)统计分析模块将步骤(3)中获得的已知因素,根据费舍尔检验,判断所述已知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的已知因素,保留所述已知因素为癌症相关因素;
(5)统计分析模块将步骤(3)中获得的已知因素,根据费舍尔检验,判断所述未知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的未知因素,指定所述未知因素的为已知因素的某一类别或新增的类别,使所述未知因素为已知因素并保留为癌症相关因素。
优选地,所述癌症相关信息自动收集方法,其步骤(1)所述的与特定癌症相关的文献数据,为医学主题词系统标记的特定癌症相关的文献。
优选地,所述癌症相关信息自动收集方法,其步骤(3)所述基因功能性片段为操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的癌症相关信息自动收集系统及方法,对于文献中所有出现的名词性词汇,都进行了识别和鉴定,突破了癌症相关因素的种类,综合了各种癌症相关因素,比目前的针对某一类生物因子的癌症相关因素收集方法或数据库,更加全面,综合程度更高。
(2)本发明提供的癌症相关信息自动收集系统及方法,可随着研究的不断深入,增加新的已知因素类别,从而具备良好的可扩展性,适用于新的癌症相关因素。
附图说明
图1是实施例1模块结构示意图;
图2是费舍尔检验示意图;
图3是实施例1miRNA类别展示表格。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的癌症相关信息自动收集系统,包括文献存储模块、已知因素识别存储模块、未知因素存储模块、统计分析模块和癌症相关因素存储模块。
所述文献存储模块,用于获取与特定癌症相关文献数据,按照癌症种类将获取的文献数据进行分类存储,并将文献数据按照分解为单词,根据自然语言分类保留名词性词汇,将所有名词性词汇输出给已知因素识别存储模块。所述文献存储模块获取的与特定癌症相关的文献数据,为医学主题次系统标记的特定癌症相关文献。
所述已知因素识别存储模块,用于按照当前已知因素类别,存储已知因素类别识别器,获取所有名词性词汇,利用已知因素类别识别器,对所有名词性词汇进行识别并按照已知因素类别进行存储;无法识别为当前存储的已知因素类别时,将无法识别的名词输出给未知因素模块。所述已知因素识别存储模块,其已知因素识别器为相应类别名词性词汇的正则表达式,其类别包括基因功能性片段、蛋白质和糖类分类;所述基因功能性片段包括操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
所述未知因素模块,用于接收所述已知因素识别存储模块无法识别的名词,并存储为未知因素,当出现统计分析模块判断为显著的未知因素时,将所述未知因素提交用户指定为当前存储的已知因素类别或新创件的已知因素类别,并将新创建的已知因素类别及其识别器提交给所述已知因素识别存储模块,并更新当前已知因素类别及其识别器。
所述统计分析模块,用于根据所述文献存储模块,癌症相关文献量及名词性词汇出现频率信息,采用共出现原理,评价癌症和名词性词汇的相关性,并根据预先设定的阈值,判断所述名词性词汇是否为显著的已知因素或显著的未知因素;优选地,采用费舍尔检验,获得p值,按照p值越大,相关性越小的原则,评价癌症和名词性词汇的相关性。
癌症相关因素存储模块,用于存储所有与癌症相关性名词性词汇、所述名词性词汇的已知因素类别或未知因素、以及其与癌症相关性,并以表的形式进行展示及查询。
本发明提供的癌症相关信息自动收集方法,包括以下步骤:
(1)文献存储模块获取与特定癌症相关的文献数据;与特定癌症相关的文献数据,为医学主题词系统(MeSH)标记的特定癌症相关的文献。
(2)文献存储模块对于步骤(1)中获取的每一篇文献,将文件内容分解成词汇,利用自然语言分析对词汇进行词性分类,保留名词性词汇;
(3)已知因素识别存储模块将步骤步骤(2)中的词汇识别为已知因素和未知因素,已知因素按照基因功能性片段、蛋白质和糖类分类;所述基因功能性片段包括操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
(4)统计分析模块将步骤(3)中获得的已知因素,根据费舍尔检验,判断所述已知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的已知因素,保留所述已知因素为癌症相关因素;
(5)统计分析模块将步骤(3)中获得的未知因素,根据费舍尔检验,判断所述未知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的未知因素,指定所述未知因素的为已知因素的某一类别或新增的类别,使所述未知因素为已知因素并保留为癌症相关因素。
以下为实施例:
实施例1
一种癌症相关信息自动收集系统,结构如图1所示,包括文献存储模块、已知因素识别存储模块、未知因素存储模块、统计分析模块和癌症相关因素存储模块。
所述文献存储模块,用于获取与特定癌症相关文献数据,按照癌症种类将获取的文献数据进行分类存储,并将文献数据按照分解为单词,根据自然语言分类保留名词性词汇,将所有名词性词汇输出给已知因素识别存储模块。所述文献存储模块获取的与特定癌症相关的文献数据,为医学主题次系统标记的特定癌症相关文献。
所述文献存储模块,存储有检索得到的文献数据70,207,066篇。
检索的癌症种类包括20种常见癌症:膀胱癌、脑癌、乳腺癌、子宫癌、结肠癌、食道癌、肾癌、白血病、肝癌、肺癌、皮肤癌、骨髓瘤、淋巴癌、口腔癌、卵巢癌、胰腺癌、前列腺癌、胃癌、甲状腺癌、以及宫颈癌。
从MeSH数据库中,检索上述癌症相关的主题次文献,共计70,207,066篇,仅保留摘要数据。
所述已知因素识别存储模块,用于按照当前已知因素类别,存储已知因素类别识别器,获取所有名词性词汇,利用已知因素类别识别器,对所有名词性词汇进行识别并按照已知因素类别进行存储;无法识别为当前存储的已知因素类别时,将无法识别的名词输出给未知因素模块。所述已知因素识别存储模块,其已知因素识别器为相应类别名词性词汇的正则表达式,其类别包括miRNA和蛋白质和糖类分类。具体的正则表达式识别原则,如下:
miRNA的具体识别方法如下:
A、在步骤(1)获得的文献中,选取100篇miRNA相关文献,并人工标定其中miRNA表达方式,包括:
1、miRNA标准命名如“miR-1”、“miR-2”。
2、miRNA标准命名带有一个前缀或后缀的命名实体,前缀的主要作用是表明物种或者状态,例如“hsa-miR-1”前缀用来表明物种,含义是人类miR-1基因,又如“pre-miR-1”前缀表示miRNA前体,后缀的主要作用是暗示位置或者种类,例如“miR-1a-1”。
3、对于多个miRNA缩写在一起的情况,正则表达式也尽量涵盖,如“miR-221/222”,“miR-15&-16”。
B、建立miRNA识别正则表达式:根据步骤A中的上述规则,建立正则表达式,匹配miRNA类的名词性词汇。
蛋白质的具体识别方法,可参考:Naeem,H.,Küffner,R.,Csaba,G.,et al.miRSel:automated extraction of associations betweenmicroRNAs and genes from the biomedical literature.BMCbioinformatics,2010,11(1):135。
所述未知因素模块,用于接收所述已知因素识别存储模块无法识别的名词,并存储为未知因素,当出现统计分析模块判断为显著的未知因素时,将所述未知因素提交用户指定为当前存储的已知因素类别或新创件的已知因素类别,并将新创建的已知因素类别及其识别器提交给所述已知因素识别存储模块,并更新当前已知因素类别及其识别器。
所述统计分析模块,用于根据所述文献存储模块,癌症相关文献量及名词性词汇出现频率信息,采用共出现原理,评价癌症和名词性词汇的相关性,并根据预先设定的阈值,判断所述名词性词汇是否为显著的已知因素或显著的未知因素。
统计分析模块采用费舍尔检验,获得p值,按照p值越大,相关性越小的原则,评价癌症和名词性词汇的相关性。p值阈值设定为10-4
使用了费舍尔检验来计算显著性参数P值,以miRNA为例具体步骤如下:对每一miRNA和癌症的关联做2×2的表格,如图2所示。在上述2×2的表格中,字母“a”、“b”、“c”、“d”分别代表特同时涉及到该miRNA和该癌症的文献摘要数量、仅涉及到该miRNA的文献摘要数量,仅涉及到该癌症的文献摘要数量、既没有涉及到该miRNA也没有涉及到该癌症的文献摘要数量。P值可通过超几何分布变换近似得到,计算公式如下:
p = ( a a + b ) ( c c + d ) ( a + c n ) = ( a + b ) ! ( c + d ) ! ( a + c ) ! ( b + d ) ! a ! b ! c ! d ! n !
其中: n k 代表二项式系数,符号“!”表示阶乘运算。P值显示实际上该miRNA与癌症相互关联的可能性,P值越小,代表实际相关的可能性越大。
其他已知因素类别,费舍尔检验过程类似。
癌症相关因素存储模块,用于存储所有与癌症相关性名词性词汇、所述名词性词汇的已知因素类别或未知因素、以及其与癌症相关性,并以表的形式进行展示及查询。
其中miRNA与癌症关联关系表,如图3所示,色块深浅表示相关性强弱,色块越深,相关性越强。
实施例2
一种癌症相关信息自动收集方法,包括以下步骤:
(1)文献存储模块获取与特定癌症相关的文献数据;与特定癌症相关的文献数据,为医学主题词系统(MeSH)标记的特定癌症相关的文献。
检索的癌症种类包括20种常见癌症:膀胱癌、脑癌、乳腺癌、子宫癌、结肠癌、食道癌、肾癌、白血病、肝癌、肺癌、皮肤癌、骨髓瘤、淋巴癌、口腔癌、卵巢癌、胰腺癌、前列腺癌、胃癌、甲状腺癌、以及宫颈癌。
从MeSH数据库中,检索上述癌症相关的主题次文献,共计70,207,066篇,仅保留摘要数据。
(2)文献存储模块对于步骤(1)中获取的每一篇文献,将文件内容分解成词汇,利用自然语言分析对词汇进行词性分类,保留名词性词汇;
(3)已知因素识别存储模块将步骤(2)中的词汇识别为已知因素和未知因素,已知因素按照基因功能性片段如miRNA和蛋白质。
miRNA的具体识别方法如下:
A、在步骤(1)获得的文献中,选取100篇miRNA相关文献,并人工标定其中miRNA表达方式,包括:
1、miRNA标准命名如“miR-1”、“miR-2”。
2、miRNA标准命名带有一个前缀或后缀的命名实体,前缀的主要作用是表明物种或者状态,例如“hsa-miR-1”前缀用来表明物种,含义是人类miR-1基因,又如“pre-miR-1”前缀表示miRNA前体,后缀的主要作用是暗示位置或者种类,例如“miR-1a-1”。
3、对于多个miRNA缩写在一起的情况,正则表达式也尽量涵盖,如“miR-221/222”,“miR-15&-16”。
B、建立miRNA识别正则表达式:根据步骤A中的上述规则,建立正则表达式,匹配miRNA类的名词性词汇。
蛋白质的具体识别方法,可参考:Naeem,H.,Küffner,R.,Csaba,G.,et al.miRSel:automated extraction of associations betweenmicroRNAs and genes from the biomedical literature.BMCbioinformatics,2010,11(1):135。
(4)统计分析模块将步骤(3)中获得的已知因素,根据费舍尔检验,判断所述已知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的已知因素,保留所述已知因素为癌症相关因素。具体过程参见实施例1。
(5)统计分析模块将步骤(3)中获得的未知因素,根据费舍尔检验,判断所述未知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的未知因素,指定所述未知因素的为已知因素的某一类别或新增的类别,使所述未知因素为已知因素并保留为癌症相关因素。
费舍尔检验过程与步骤(4)相同。
我们设定当一种未知因素与癌症相互关联的P值小于10-4时,这种未知因素与癌症的相互关联显著。
检验结果,发现未知因素“let-7”与肺癌相关性显著,经人工审核,将“let-7”指定为miRNA类比,并更新miRNA识别正则表达式。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种癌症相关信息自动收集系统,其特征在于,包括文献存储模块、已知因素识别存储模块、未知因素存储模块、统计分析模块和癌症相关因素存储模块;
所述文献存储模块,用于获取与特定癌症相关文献数据,按照癌症种类将获取的文献数据进行分类存储,并将文献数据按照分解为单词,根据自然语言分类保留名词性词汇,将所有名词性词汇输出给已知因素识别存储模块;
所述已知因素识别存储模块,用于按照当前已知因素类别,存储已知因素类别识别器,获取所有名词性词汇,利用已知因素类别识别器,对所有名词性词汇进行识别并按照已知因素类别进行存储;无法识别为当前存储的已知因素类别时,将无法识别的名词输出给未知因素模块;
所述未知因素模块,用于接收所述已知因素识别存储模块无法识别的名词,并存储为未知因素,当出现统计分析模块判断为显著的未知因素时,将所述未知因素提交用户指定为当前存储的已知因素类别或新创件的已知因素类别,并将新创建的已知因素类别及其识别器提交给所述已知因素识别存储模块,并更新当前已知因素类别及其识别器;
所述统计分析模块,用于根据所述文献存储模块,癌症相关文献量及名词性词汇出现频率信息,采用共出现原理,评价癌症和名词性词汇的相关性,并根据预先设定的阈值,判断所述名词性词汇是否为显著的已知因素或显著的未知因素;
癌症相关因素存储模块,用于存储所有与癌症相关性名词性词汇、所述名词性词汇的已知因素类别或未知因素、以及其与癌症相关性,并以表的形式进行展示及查询。
2.如权利要求1所述的癌症相关信息自动收集系统,其特征在于,所述文献存储模块获取的与特定癌症相关的文献数据,为医学主题次系统标记的特定癌症相关文献。
3.如权利要求1所述的癌症相关信息自动收集系统,其特征在于,所述已知因素识别存储模块,其已知因素识别器为相应类别名词性词汇的正则表达式。
4.如权利要求1所述的癌症相关信息自动收集系统,其特征在于,所述已知因素识别存储模块,其类别包括基因功能性片段、蛋白质和糖类分类;所述基因功能性片段包括操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
5.如权利要求1所述的癌症相关信息自动收集系统,其特征在于,所述统计分析模块,采用费舍尔检验,获得p值,按照p值越大,相关性越小的原则,评价癌症和名词性词汇的相关性。
6.一种应用如权利要求1至5所述系统的癌症相关信息自动收集方法,其特征在于,包括以下步骤:
(1)文献存储模块获取与特定癌症相关的文献数据;
(2)文献存储模块对于步骤(1)中获取的每一篇文献,将文件内容分解成词汇,利用自然语言分析对词汇进行词性分类,保留名词性词汇;
(3)已知因素识别存储模块将步骤(2)中的词汇识别为已知因素和未知因素,分别存储在已知因素识别存储模块和未知因素存储模块,已知因素按照基因功能性片段、蛋白质和糖类分类;
(4)统计分析模块将步骤(3)中获得的已知因素,根据费舍尔检验,判断所述已知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的已知因素,保留所述已知因素为癌症相关因素;
(5)统计分析模块将步骤(3)中获得的未知因素,根据费舍尔检验,判断所述未知因素与癌症关联的显著程度,对于显著程度超过预先设定的阈值的未知因素,指定所述未知因素的为已知因素的某一类别或新增的类别,使所述未知因素为已知因素并保留为癌症相关因素。
7.如权利要求6所述的癌症相关信息自动收集方法,其特征在于,步骤(1)所述的与特定癌症相关的文献数据,为医学主题词系统标记的特定癌症相关的文献。
8.如权利要求6所述的癌症相关信息自动收集方法,其特征在于,步骤(3)所述基因功能性片段为操纵子、增强子、蛋白质编码基因、miRNA、piRNA。
CN201410584231.1A 2014-10-27 2014-10-27 一种癌症相关信息自动收集方法及系统 Active CN104361033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410584231.1A CN104361033B (zh) 2014-10-27 2014-10-27 一种癌症相关信息自动收集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410584231.1A CN104361033B (zh) 2014-10-27 2014-10-27 一种癌症相关信息自动收集方法及系统

Publications (2)

Publication Number Publication Date
CN104361033A true CN104361033A (zh) 2015-02-18
CN104361033B CN104361033B (zh) 2017-06-09

Family

ID=52528295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410584231.1A Active CN104361033B (zh) 2014-10-27 2014-10-27 一种癌症相关信息自动收集方法及系统

Country Status (1)

Country Link
CN (1) CN104361033B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765947A (zh) * 2015-03-02 2015-07-08 大连理工大学 一种面向大数据的潜在药物不良反应数据挖掘方法
CN107767965A (zh) * 2017-11-14 2018-03-06 广东乐心医疗电子股份有限公司 多因素关联比对的健康监测系统及方法
CN110299210A (zh) * 2019-07-05 2019-10-01 韩宗婧 一种癌症领域互动数据分析系统
CN112151130A (zh) * 2019-01-15 2020-12-29 合肥工业大学 一种基于文献检索的决策支持系统和构建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
US20110258150A1 (en) * 2010-01-15 2011-10-20 Copanion, Inc. Systems and methods for training document analysis system for automatically extracting data from documents
CN103198057A (zh) * 2012-01-05 2013-07-10 深圳市腾讯计算机系统有限公司 一种自动给文档添加标签的方法和装置
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
US20140173425A1 (en) * 2012-12-17 2014-06-19 Hewlett-Packard Development Company, L. P. Presenting documents to a user based on topics and collective opinions expressed in the documents
CN103903164A (zh) * 2014-03-25 2014-07-02 华南理工大学 基于领域信息的半监督方面自动提取方法及其系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258150A1 (en) * 2010-01-15 2011-10-20 Copanion, Inc. Systems and methods for training document analysis system for automatically extracting data from documents
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103198057A (zh) * 2012-01-05 2013-07-10 深圳市腾讯计算机系统有限公司 一种自动给文档添加标签的方法和装置
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
US20140173425A1 (en) * 2012-12-17 2014-06-19 Hewlett-Packard Development Company, L. P. Presenting documents to a user based on topics and collective opinions expressed in the documents
CN103903164A (zh) * 2014-03-25 2014-07-02 华南理工大学 基于领域信息的半监督方面自动提取方法及其系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765947A (zh) * 2015-03-02 2015-07-08 大连理工大学 一种面向大数据的潜在药物不良反应数据挖掘方法
CN104765947B (zh) * 2015-03-02 2017-12-26 大连理工大学 一种面向大数据的潜在药物不良反应数据挖掘方法
CN107767965A (zh) * 2017-11-14 2018-03-06 广东乐心医疗电子股份有限公司 多因素关联比对的健康监测系统及方法
CN112151130A (zh) * 2019-01-15 2020-12-29 合肥工业大学 一种基于文献检索的决策支持系统和构建方法
CN112151130B (zh) * 2019-01-15 2022-11-04 合肥工业大学 一种基于文献检索的决策支持系统和构建方法
CN110299210A (zh) * 2019-07-05 2019-10-01 韩宗婧 一种癌症领域互动数据分析系统

Also Published As

Publication number Publication date
CN104361033B (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN104361033A (zh) 一种癌症相关信息自动收集方法及系统
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
CN104346539B (zh) 从目标测序面板中寻找变异的方法
CN106047998A (zh) 一种肺癌基因的检测方法及应用
KR20190036494A (ko) Dna 복제수 변이 기반의 암 종 예측 방법
CN109344250A (zh) 基于医保数据的单病种诊断信息快速结构化方法
CN104769134A (zh) 使用生物签名的信息管理系统和方法
CN105518151A (zh) 循环核酸肿瘤标志物的鉴别和用途
CN113903401B (zh) 基于ctDNA长度的分析方法和系统
CN115151974A (zh) 使用补丁卷积神经网络的癌症分类
CN106021983B (zh) 一种dna及蛋白质水平突变分析方法
CN114093411A (zh) 基于样本的微生物群体的进化关系和丰度信息的分析方法及设备
CN116064755B (zh) 一种基于连锁基因突变检测mrd标志物的装置
Brewster et al. Completeness of case ascertainment in a Scottish regional cancer registry for the year 1992
CN114334014A (zh) 一种基于自注意力深度学习的癌症亚型识别方法和系统
CN102831614A (zh) 基于交互式字典迁移的序列医学图像快速分割方法
CN114068002A (zh) 乳腺及甲状腺肿瘤临床决策、教学、科研辅助支持系统及方法
CN112699230A (zh) 一种恶性肿瘤诊疗知识获取方法及装置
CN116356001A (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
CN105567846A (zh) 检测粪便中细菌dna的试剂盒及其在大肠癌诊断中的应用
CN107760783A (zh) 基于108个基因的胃癌腹膜转移预测模型及其应用
CN106933802B (zh) 一种面向多数据源的社保类实体识别方法及装置
CN106778071A (zh) 用以分析细菌菌种的测序数据的系统及其方法
CN110348015A (zh) 一种自动标注医学文本中实体的方法
CN104846073B (zh) 前列腺癌的生物学标志物、治疗靶点及其用途

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210506

Address after: 433140 Qili Avenue, ZhangJin Town, Qianjiang City, Hubei Province

Patentee after: Cai Zongfu

Address before: 510700 building G4, Dazhuang international, Lianhe street, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou Yitong Intellectual Property Operation Co.,Ltd.

Effective date of registration: 20210506

Address after: 510700 building G4, Dazhuang international, Lianhe street, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Yitong Intellectual Property Operation Co.,Ltd.

Address before: 2190 Liuxian Avenue, Nanshan District, Shenzhen, Guangdong 518055

Patentee before: SHENZHEN POLYTECHNIC

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220810

Address after: No. 807, Building 22, Yuhuixili, Chaoyang District, Beijing 100000

Patentee after: Zhang Saizhu

Address before: 433140 Qili Avenue, ZhangJin Town, Qianjiang City, Hubei Province

Patentee before: Cai Zongfu

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221107

Address after: Room 602, Unit 1, Building 6, Yard 88, Kechuang 6th Street, Daxing District, Beijing (Yizhuang Cluster, High end Industrial Zone, Beijing Pilot Free Trade Zone)

Patentee after: Beijing Jiamei Kanglian Medical Technology Co.,Ltd.

Address before: No. 807, Building 22, Yuhuixili, Chaoyang District, Beijing 100000

Patentee before: Zhang Saizhu