CN110299210A - 一种癌症领域互动数据分析系统 - Google Patents

一种癌症领域互动数据分析系统 Download PDF

Info

Publication number
CN110299210A
CN110299210A CN201910601908.0A CN201910601908A CN110299210A CN 110299210 A CN110299210 A CN 110299210A CN 201910601908 A CN201910601908 A CN 201910601908A CN 110299210 A CN110299210 A CN 110299210A
Authority
CN
China
Prior art keywords
doctors
patients
text
cancer
needed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910601908.0A
Other languages
English (en)
Inventor
韩宗婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910601908.0A priority Critical patent/CN110299210A/zh
Publication of CN110299210A publication Critical patent/CN110299210A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种癌症领域互动数据分析系统,包含包括计算机系统,病历信息系统,病人数据分析系统,文献互动系统,数据传送系统,辅助构建处理系统和医患决策系统、将医患所需癌症领域研究文献向量化、求取医患所需癌症领域研究文献集合的调看文本类、对调看文本类进行相关内容分析;能从庞大而且多样的生物癌症文献文本集合中挖掘出有生物癌症价值的信息。

Description

一种癌症领域互动数据分析系统
技术领域
本发明涉及医学学领域,为一种癌症领域互动数据分析系统。
背景技术
随着生命科学和综合癌症的飞速发展,近些年癌症文献一直以指数级增长。癌症文献的文本庞大,学科交叉和内容广泛,使得科研人员越来越难以有效的利用现有的科学知识进行癌症研究。PubMed,最大的癌症文献集合,已有超过1700万篇文章,并且每周有超过10,000篇新提交的摘要。因此非常有必要运用单词挖掘技术,帮助患者在实践中更有效的发现和验证相关的癌症知识。
一直以来,癌症都是人类难以攻克的疾病。从2004年到2013年,癌症的整体发病率每年稳定地下降约2%;从2005年到2014年,癌症死亡率每年下降约1.5%。虽然癌症研究进展缓慢,但是癌症研究的相关文献数目一直在迅速增长。单纯靠人工阅读和分析来掌握乳腺癌的研究几乎是不可能的。癌症研究作为癌症的热门领域和重要方向,以及如何通过现实中的癌症患者区配发现与癌症相关的癌症知识,成为知识发现研究领域中的一个重要的挑战。
发明内容
有鉴于此,本发明提供了一种癌症领域互动数据分析系统,其特征在于,包括以下:
包括计算机系统,病历信息系统,病人数据分析系统,数据传送系统、文献互动系统,辅助构建处理系统和医患决策系统;计算机系统以癌症为关键词收集原始文献文本集合,提取原始文献文本集合中每个文献的发表时间信息;数据传送系统用于每个文献响应通信,并建立不同的文献文本归类;患者数据处于计算机系统设定的集合时称为初始状态集,数据传送系统采用这种方式能快速建立每个文献文本的集合,病历信息系统将原始文献文本集合按照多个时间段进行归类,并获取时间段内的原始文献文本的原始关键词,原始关键词为原始文献文本中出现频次超过设定阈值的词;病历信息系统包括医患互动单元和病情归类单元,病情须知单元的执行时间设置为每个月归类,执行过程为:病情须知单元查询计算机系统处理的最近一次文献状态信息,导出与当前时间的间隔超过36个月的患者状态信息作为文献状态收录目标,医患互动单元就是与需要设定的治疗方案,启动后病情须知单元查询计算机系统中的癌症领域数据并导出对应的文献,将对应的号码和编辑好的内容导入到信息群发平台,群发医患互动内容;病人数据分析系统对原始关键词进行文本计算得到癌症关键词;将癌症关键词保存成特定的文本格式作为关键信息进行存储,建立癌症领域文本集合;文献互动系统对癌症领域文本集合进行计算;计算过程包括:格式转换,文本预处理和词典构建;数据传送系统对医患所需癌症领域研究文献进行格式转换,过滤掉其文本的结构信息;文本预处理包括分词、去停用词、归一化、词干提取;对文本进行分词处理,以空格、标点符号、段落为分割符,将文献的文本分隔成独立的单词;对文本进行去停用词处理,删除文献的文本中没有意义的单词,包括助动词、介词、连接词和感叹词;对文本进行述归一化处理,将表达相同语义但是拼写格式不同的单词统一形式;归一化方法包括统一字母大小写、去掉重音和音调符号;对文本进行词干提取,将词项简化为词干形式;辅助构建处理系统对文本进行词典构建,建立癌症相关术语的单词集合;并将医患所需癌症领域研究文献向量化:将医患所需癌症领域研究文献视作由n个单词组成的向量di,di=(di1,di2,...,din),i为整数,每个单词对应一个特征项,第j个单词对应特征项tj;dij通过公式一计算:
公式一:
其中,dij为向量di在第j个维度的分量,csij为特征项tj在医患中所需的第i篇文献中出现的次数;csin为第i篇文献中总单词数:Z表示医患中所需领域研究文献集合中医患所需癌症领域研究文献的总数,Zj表示包含特征项tj的医患所需癌症领域研究文献的数目;
每个特征项tj对应一个偏重wij,表示特征项tj在该医患所需癌症领域研究文献中的重要程度,偏重wij通过公式二计算:
公式二:
其中,wij的值为第i篇文献的特征项tj的偏重,csij为特征项tj在第i篇文献中出现的次数;Z表示医患所需癌症领域研究文献集合中医患所需癌症领域研究文献的总数,smij为医患所需癌症领域研究文献集合中,包含特征项tj的医患所需癌症领域研究文献的数目;i、j和n均为正整数,j≤n;
医患决策系统求取医患所需癌症领域研究文献集合的调看文本类,在向量空间模型中,两个医患所需癌症领域研究文献d1和d2之间的通用度通过公式三计算:
公式三:
其中,T(d1,d2)为两个医患所需癌症领域研究文献d1和d2之间的通用度,d1j、d2j分别表示医患所需癌症领域研究文献d1和d2第j个维度的分量;j和n均为正整数,j≤n;
医患决策系统计算医患所需癌症领域研究文献集合中,所有医患所需癌症领域研究文献两两之间的通用度,求取医患所需癌症领域研究文献与其他各个医患所需癌症领域研究文献的通用度的平均值,将平均值最小的医患所需癌症领域研究文献作为调看文本类;医患决策系统对调看文本类进行内容分析,实证分析,热度分析以及效果分析,并进行深层的知识发现。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:
实施例1:
(1)以癌症为关键词获取原始文献文本集合,提取原始文献文本集合中每个文献的发表时间信息;
将原始文献文本集合按照多个时间段进行归类;
获取时间段内的原始文献文本的原始关键词,原始关键词为原始文献文本中出现频次超过设定阈值的词;
对原始关键词进行文本计算得到癌症关键词;
将癌症关键词保存成特定的文本格式作为关键信息进行存储,建立癌症领域文本集合;
(2)对癌症领域文本集合进行计算;计算过程包括:格式转换,文本预处理和词典构建;
对癌症领域研究文献进行格式转换,过滤掉其文本的结构信息;
文本预处理包括分词、去停用词、归一化、词干提取;
对文本进行分词处理,以空格、标点符号、段落为分割符,将文献的文本分隔成独立的单词;
对文本进行去停用词处理,删除文献的文本中没有意义的单词,包括助动词、介词、连接词和感叹词;
对文本进行述归一化处理,将表达相同语义但是拼写格式不同的单词统一形式;归一化方法包括统一字母大小写、去掉重音和音调符号;
对文本进行词干提取,将词项简化为词干形式;
对文本进行词典构建,建立癌症相关术语的单词集合;
(3)将癌症领域研究文献向量化
将癌症领域研究文献视作由n个单词组成的向量di=(di1,di2,...,din),每个单词对应一个特征项,第j个单词对应特征项tj;dij通过公式一计算:
公式一:
其中,dij为向量di在第j个维度的分量,csij为特征项tj在第i篇文献中出现的次数;csin为第i篇文献中总单词数:Z表示癌症领域研究文献集合中癌症领域研究文献的总数,Zj表示包含特征项tj的癌症领域研究文献的数目;
每个特征项tj对应一个偏重wij,表示特征项tj在该癌症领域研究文献中的重要程度,偏重wij通过公式二计算:
公式二:
其中,wij的值为第i篇文献的特征项tj的偏重,csij为特征项tj在第i篇文献中出现的次数;Z表示癌症领域研究文献集合中癌症领域研究文献的总数,smij为癌症领域研究文献集合中,包含特征项tj的癌症领域研究文献的数目;i、j和n均为正整数,j≤n;
(4)求取癌症领域研究文献集合的调看文本类
在向量空间模型中,两个癌症领域研究文献d1和d2之间的通用度通过公式三计算:
公式三:
其中,T(d1,d2)为两个癌症领域研究文献d1和d2之间的通用度,d1j、d2j分别表示癌症领域研究文献d1和d2第j个维度的分量;j和n均为正整数,j≤n;
计算癌症领域研究文献集合中,所有癌症领域研究文献两两之间的通用度,求取癌症领域研究文献与其他各个癌症领域研究文献的通用度的平均值,将平均值最小的癌症领域研究文献作为调看文本类;
(5)对调看文本类进行内容分析,实证分析,热度分析以及可视化分析,并进行深层的知识发现。怀孕主题作为乳腺癌主题中心,同样会对乳腺癌研究的文献数量造成直接影响,尤其是乳腺癌研究中有关怀孕主题的论文数量。计算怀孕主题中心情况与当年的怀孕主题论文数量的相关性。
本发明的有益成果为:本发明提供了一种癌症领域互动数据分析系统,能从庞大而且多样的癌症文献文本集合中挖掘出有癌症价值的信息,并且发现与癌症相关的癌症知识,具有广阔的市场前景和应用价值。

Claims (1)

1.一种癌症领域互动数据分析系统,其特征在于,包括以下步骤:
包括计算机系统,病历信息系统,病人数据分析系统,数据传送系统、文献互动系统,辅助构建处理系统和医患决策系统;计算机系统以癌症为关键词收集原始文献文本集合,提取所述原始文献文本集合中每个文献的发表时间信息;数据传送系统用于每个文献响应通信,并建立不同的文献文本归类;患者数据处于计算机系统设定的集合时称为初始状态集,数据传送系统采用这种方式能快速建立每个文献文本的集合,病历信息系统将原始文献文本集合按照多个时间段进行归类,并获取所述时间段内的原始文献文本的原始关键词,所述原始关键词为所述原始文献文本中出现频次超过设定阈值的词;病历信息系统包括医患互动单元和病情归类单元,所述病情须知单元的执行时间设置为每个月归类,执行过程为:所述病情须知单元查询计算机系统处理的最近一次文献状态信息,导出与当前时间的间隔超过36个月的患者状态信息作为文献状态收录目标,医患互动单元就是与所述需要设定的治疗方案,启动后所述病情须知单元查询计算机系统中的癌症领域数据并导出对应的文献,将所述对应的号码和编辑好的内容导入到信息群发平台,群发医患互动内容;病人数据分析系统对所述原始关键词进行文本计算得到所述癌症关键词;将所述癌症关键词保存成特定的文本格式作为关键信息进行存储,建立癌症领域文本集合;文献互动系统对所述癌症领域文本集合进行计算;所述计算过程包括:格式转换,文本预处理和词典构建;数据传送系统对医患所需癌症领域研究文献进行所述格式转换,过滤掉其文本的结构信息;文本预处理包括分词、去停用词、归一化、词干提取;对文本进行所述分词处理,以空格、标点符号、段落为分割符,将文献的文本分隔成独立的单词;对文本进行所述去停用词处理,删除文献的文本中没有意义的所述单词,包括助动词、介词、连接词和感叹词;对文本进行述归一化处理,将表达相同语义但是拼写格式不同的单词统一形式;所述归一化方法包括统一字母大小写、去掉重音和音调符号;对文本进行词干提取,将词项简化为词干形式;辅助构建处理系统对文本进行所述词典构建,建立癌症相关术语的单词集合;并将医患所需癌症领域研究文献向量化:将医患所需癌症领域研究文献视作由n个所述单词组成的向量di,di=(di1,di2,...,din),i为整数,每个单词对应一个特征项,第j个单词对应特征项tj;dij通过公式一计算:
公式一:
其中,dij为所述向量di在第j个维度的分量,csij为所述特征项tj在医患中所需的第i篇文献中出现的次数;所述csin为第i篇文献中总单词数:Z表示医患中所需领域研究文献集合中医患所需癌症领域研究文献的总数,Zj表示包含所述特征项tj的医患所需癌症领域研究文献的数目;
每个特征项tj对应一个偏重wij,表示所述特征项tj在该医患所需癌症领域研究文献中的重要程度,偏重wij通过公式二计算:
公式二:
其中,所述wij的值为所述第i篇文献的所述特征项tj的偏重,csij为所述特征项tj在所述第i篇文献中出现的次数;Z表示医患所需癌症领域研究文献集合中医患所需癌症领域研究文献的总数,smij为医患所需癌症领域研究文献集合中,包含特征项tj的医患所需癌症领域研究文献的数目;i、j和n均为正整数,j≤n;
医患决策系统求取医患所需癌症领域研究文献集合的调看文本类,在向量空间模型中,两个医患所需癌症领域研究文献d1和d2之间的通用度通过公式三计算:
公式三:
其中,T(d1,d2)为两个医患所需癌症领域研究文献d1和d2之间的通用度,d1j、d2j分别表示医患所需癌症领域研究文献d1和d2第j个维度的分量;j和n均为正整数,j≤n;
医患决策系统计算医患所需癌症领域研究文献集合中,所有医患所需癌症领域研究文献两两之间的所述通用度,求取医患所需癌症领域研究文献与其他各个医患所需癌症领域研究文献的所述通用度的平均值,将所述平均值最小的医患所需癌症领域研究文献作为调看文本类;医患决策系统对所述调看文本类进行内容分析,实证分析,热度分析以及效果分析,并进行深层的知识发现。
CN201910601908.0A 2019-07-05 2019-07-05 一种癌症领域互动数据分析系统 Pending CN110299210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910601908.0A CN110299210A (zh) 2019-07-05 2019-07-05 一种癌症领域互动数据分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910601908.0A CN110299210A (zh) 2019-07-05 2019-07-05 一种癌症领域互动数据分析系统

Publications (1)

Publication Number Publication Date
CN110299210A true CN110299210A (zh) 2019-10-01

Family

ID=68030483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910601908.0A Pending CN110299210A (zh) 2019-07-05 2019-07-05 一种癌症领域互动数据分析系统

Country Status (1)

Country Link
CN (1) CN110299210A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361033A (zh) * 2014-10-27 2015-02-18 深圳职业技术学院 一种癌症相关信息自动收集方法及系统
CN105956130A (zh) * 2016-05-09 2016-09-21 浙江农林大学 多信息融合的科研文献主题发现和跟踪方法及其系统
CN106708920A (zh) * 2016-10-09 2017-05-24 南京双运生物技术有限公司 一种针对个性化科研文献的筛选方法
US20180165776A1 (en) * 2016-12-12 2018-06-14 Tata Consultancy Services Limited System and method for analyzing research literature for strategic decision making of an entity

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361033A (zh) * 2014-10-27 2015-02-18 深圳职业技术学院 一种癌症相关信息自动收集方法及系统
CN105956130A (zh) * 2016-05-09 2016-09-21 浙江农林大学 多信息融合的科研文献主题发现和跟踪方法及其系统
CN106708920A (zh) * 2016-10-09 2017-05-24 南京双运生物技术有限公司 一种针对个性化科研文献的筛选方法
US20180165776A1 (en) * 2016-12-12 2018-06-14 Tata Consultancy Services Limited System and method for analyzing research literature for strategic decision making of an entity

Similar Documents

Publication Publication Date Title
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
Hu et al. Lcsts: A large scale chinese short text summarization dataset
CN106407443B (zh) 一种结构化医疗数据生成方法及装置
CN106682411B (zh) 一种将体检诊断数据转化为疾病标签的方法
Wang et al. Open event extraction from online text using a generative adversarial network
Lee et al. Emotion in code-switching texts: Corpus construction and analysis
CN104899260B (zh) 一种中文病理文本结构化处理方法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN110188359B (zh) 一种文本实体抽取方法
CN107977368B (zh) 信息提取方法及系统
WO2021127012A1 (en) Unsupervised taxonomy extraction from medical clinical trials
CN110019641A (zh) 一种医疗否定术语的检出方法及系统
Saranya et al. Intelligent medical data storage system using machine learning approach
CN113130025B (zh) 一种实体关系抽取方法、终端设备及计算机可读存储介质
KR20130097475A (ko) 의료 프로세스 모델링 및 검증 방법
Wang et al. A review of the application of natural language processing in clinical medicine
CN104933097B (zh) 一种用于检索的数据处理方法和装置
CN110299210A (zh) 一种癌症领域互动数据分析系统
Gu et al. Chemical-induced disease relation extraction with lexical features
Lu et al. What is Discussed about COVID-19: A Multi-Modal Framework for Analyzing Microblogs from Sina Weibo without Human Labeling.
Wu et al. Mining and correlation analysis of association rules between properties and therapeutic efficacy of Chinese materia medica based on strategy pattern
JP5239161B2 (ja) 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム
EP3230900A1 (en) Scalable web data extraction
Yan et al. Mobile medical question and answer system with improved char-level based convolution neural network and sparse auto encoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191001