CN110299210A - 一种癌症领域互动数据分析系统 - Google Patents
一种癌症领域互动数据分析系统 Download PDFInfo
- Publication number
- CN110299210A CN110299210A CN201910601908.0A CN201910601908A CN110299210A CN 110299210 A CN110299210 A CN 110299210A CN 201910601908 A CN201910601908 A CN 201910601908A CN 110299210 A CN110299210 A CN 110299210A
- Authority
- CN
- China
- Prior art keywords
- doctors
- patients
- text
- cancer
- needed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 104
- 201000011510 cancer Diseases 0.000 title claims abstract description 104
- 238000007405 data analysis Methods 0.000 title claims abstract description 8
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 8
- 238000011160 research Methods 0.000 claims abstract description 67
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000004891 communication Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000001225 therapeutic effect Effects 0.000 claims description 2
- 206010006187 Breast cancer Diseases 0.000 description 3
- 208000026310 Breast neoplasm Diseases 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 238000004321 preservation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种癌症领域互动数据分析系统,包含包括计算机系统,病历信息系统,病人数据分析系统,文献互动系统,数据传送系统,辅助构建处理系统和医患决策系统、将医患所需癌症领域研究文献向量化、求取医患所需癌症领域研究文献集合的调看文本类、对调看文本类进行相关内容分析;能从庞大而且多样的生物癌症文献文本集合中挖掘出有生物癌症价值的信息。
Description
技术领域
本发明涉及医学学领域,为一种癌症领域互动数据分析系统。
背景技术
随着生命科学和综合癌症的飞速发展,近些年癌症文献一直以指数级增长。癌症文献的文本庞大,学科交叉和内容广泛,使得科研人员越来越难以有效的利用现有的科学知识进行癌症研究。PubMed,最大的癌症文献集合,已有超过1700万篇文章,并且每周有超过10,000篇新提交的摘要。因此非常有必要运用单词挖掘技术,帮助患者在实践中更有效的发现和验证相关的癌症知识。
一直以来,癌症都是人类难以攻克的疾病。从2004年到2013年,癌症的整体发病率每年稳定地下降约2%;从2005年到2014年,癌症死亡率每年下降约1.5%。虽然癌症研究进展缓慢,但是癌症研究的相关文献数目一直在迅速增长。单纯靠人工阅读和分析来掌握乳腺癌的研究几乎是不可能的。癌症研究作为癌症的热门领域和重要方向,以及如何通过现实中的癌症患者区配发现与癌症相关的癌症知识,成为知识发现研究领域中的一个重要的挑战。
发明内容
有鉴于此,本发明提供了一种癌症领域互动数据分析系统,其特征在于,包括以下:
包括计算机系统,病历信息系统,病人数据分析系统,数据传送系统、文献互动系统,辅助构建处理系统和医患决策系统;计算机系统以癌症为关键词收集原始文献文本集合,提取原始文献文本集合中每个文献的发表时间信息;数据传送系统用于每个文献响应通信,并建立不同的文献文本归类;患者数据处于计算机系统设定的集合时称为初始状态集,数据传送系统采用这种方式能快速建立每个文献文本的集合,病历信息系统将原始文献文本集合按照多个时间段进行归类,并获取时间段内的原始文献文本的原始关键词,原始关键词为原始文献文本中出现频次超过设定阈值的词;病历信息系统包括医患互动单元和病情归类单元,病情须知单元的执行时间设置为每个月归类,执行过程为:病情须知单元查询计算机系统处理的最近一次文献状态信息,导出与当前时间的间隔超过36个月的患者状态信息作为文献状态收录目标,医患互动单元就是与需要设定的治疗方案,启动后病情须知单元查询计算机系统中的癌症领域数据并导出对应的文献,将对应的号码和编辑好的内容导入到信息群发平台,群发医患互动内容;病人数据分析系统对原始关键词进行文本计算得到癌症关键词;将癌症关键词保存成特定的文本格式作为关键信息进行存储,建立癌症领域文本集合;文献互动系统对癌症领域文本集合进行计算;计算过程包括:格式转换,文本预处理和词典构建;数据传送系统对医患所需癌症领域研究文献进行格式转换,过滤掉其文本的结构信息;文本预处理包括分词、去停用词、归一化、词干提取;对文本进行分词处理,以空格、标点符号、段落为分割符,将文献的文本分隔成独立的单词;对文本进行去停用词处理,删除文献的文本中没有意义的单词,包括助动词、介词、连接词和感叹词;对文本进行述归一化处理,将表达相同语义但是拼写格式不同的单词统一形式;归一化方法包括统一字母大小写、去掉重音和音调符号;对文本进行词干提取,将词项简化为词干形式;辅助构建处理系统对文本进行词典构建,建立癌症相关术语的单词集合;并将医患所需癌症领域研究文献向量化:将医患所需癌症领域研究文献视作由n个单词组成的向量di,di=(di1,di2,...,din),i为整数,每个单词对应一个特征项,第j个单词对应特征项tj;dij通过公式一计算:
公式一:
其中,dij为向量di在第j个维度的分量,csij为特征项tj在医患中所需的第i篇文献中出现的次数;csin为第i篇文献中总单词数:Z表示医患中所需领域研究文献集合中医患所需癌症领域研究文献的总数,Zj表示包含特征项tj的医患所需癌症领域研究文献的数目;
每个特征项tj对应一个偏重wij,表示特征项tj在该医患所需癌症领域研究文献中的重要程度,偏重wij通过公式二计算:
公式二:
其中,wij的值为第i篇文献的特征项tj的偏重,csij为特征项tj在第i篇文献中出现的次数;Z表示医患所需癌症领域研究文献集合中医患所需癌症领域研究文献的总数,smij为医患所需癌症领域研究文献集合中,包含特征项tj的医患所需癌症领域研究文献的数目;i、j和n均为正整数,j≤n;
医患决策系统求取医患所需癌症领域研究文献集合的调看文本类,在向量空间模型中,两个医患所需癌症领域研究文献d1和d2之间的通用度通过公式三计算:
公式三:
其中,T(d1,d2)为两个医患所需癌症领域研究文献d1和d2之间的通用度,d1j、d2j分别表示医患所需癌症领域研究文献d1和d2第j个维度的分量;j和n均为正整数,j≤n;
医患决策系统计算医患所需癌症领域研究文献集合中,所有医患所需癌症领域研究文献两两之间的通用度,求取医患所需癌症领域研究文献与其他各个医患所需癌症领域研究文献的通用度的平均值,将平均值最小的医患所需癌症领域研究文献作为调看文本类;医患决策系统对调看文本类进行内容分析,实证分析,热度分析以及效果分析,并进行深层的知识发现。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:
实施例1:
(1)以癌症为关键词获取原始文献文本集合,提取原始文献文本集合中每个文献的发表时间信息;
将原始文献文本集合按照多个时间段进行归类;
获取时间段内的原始文献文本的原始关键词,原始关键词为原始文献文本中出现频次超过设定阈值的词;
对原始关键词进行文本计算得到癌症关键词;
将癌症关键词保存成特定的文本格式作为关键信息进行存储,建立癌症领域文本集合;
(2)对癌症领域文本集合进行计算;计算过程包括:格式转换,文本预处理和词典构建;
对癌症领域研究文献进行格式转换,过滤掉其文本的结构信息;
文本预处理包括分词、去停用词、归一化、词干提取;
对文本进行分词处理,以空格、标点符号、段落为分割符,将文献的文本分隔成独立的单词;
对文本进行去停用词处理,删除文献的文本中没有意义的单词,包括助动词、介词、连接词和感叹词;
对文本进行述归一化处理,将表达相同语义但是拼写格式不同的单词统一形式;归一化方法包括统一字母大小写、去掉重音和音调符号;
对文本进行词干提取,将词项简化为词干形式;
对文本进行词典构建,建立癌症相关术语的单词集合;
(3)将癌症领域研究文献向量化
将癌症领域研究文献视作由n个单词组成的向量di=(di1,di2,...,din),每个单词对应一个特征项,第j个单词对应特征项tj;dij通过公式一计算:
公式一:
其中,dij为向量di在第j个维度的分量,csij为特征项tj在第i篇文献中出现的次数;csin为第i篇文献中总单词数:Z表示癌症领域研究文献集合中癌症领域研究文献的总数,Zj表示包含特征项tj的癌症领域研究文献的数目;
每个特征项tj对应一个偏重wij,表示特征项tj在该癌症领域研究文献中的重要程度,偏重wij通过公式二计算:
公式二:
其中,wij的值为第i篇文献的特征项tj的偏重,csij为特征项tj在第i篇文献中出现的次数;Z表示癌症领域研究文献集合中癌症领域研究文献的总数,smij为癌症领域研究文献集合中,包含特征项tj的癌症领域研究文献的数目;i、j和n均为正整数,j≤n;
(4)求取癌症领域研究文献集合的调看文本类
在向量空间模型中,两个癌症领域研究文献d1和d2之间的通用度通过公式三计算:
公式三:
其中,T(d1,d2)为两个癌症领域研究文献d1和d2之间的通用度,d1j、d2j分别表示癌症领域研究文献d1和d2第j个维度的分量;j和n均为正整数,j≤n;
计算癌症领域研究文献集合中,所有癌症领域研究文献两两之间的通用度,求取癌症领域研究文献与其他各个癌症领域研究文献的通用度的平均值,将平均值最小的癌症领域研究文献作为调看文本类;
(5)对调看文本类进行内容分析,实证分析,热度分析以及可视化分析,并进行深层的知识发现。怀孕主题作为乳腺癌主题中心,同样会对乳腺癌研究的文献数量造成直接影响,尤其是乳腺癌研究中有关怀孕主题的论文数量。计算怀孕主题中心情况与当年的怀孕主题论文数量的相关性。
本发明的有益成果为:本发明提供了一种癌症领域互动数据分析系统,能从庞大而且多样的癌症文献文本集合中挖掘出有癌症价值的信息,并且发现与癌症相关的癌症知识,具有广阔的市场前景和应用价值。
Claims (1)
1.一种癌症领域互动数据分析系统,其特征在于,包括以下步骤:
包括计算机系统,病历信息系统,病人数据分析系统,数据传送系统、文献互动系统,辅助构建处理系统和医患决策系统;计算机系统以癌症为关键词收集原始文献文本集合,提取所述原始文献文本集合中每个文献的发表时间信息;数据传送系统用于每个文献响应通信,并建立不同的文献文本归类;患者数据处于计算机系统设定的集合时称为初始状态集,数据传送系统采用这种方式能快速建立每个文献文本的集合,病历信息系统将原始文献文本集合按照多个时间段进行归类,并获取所述时间段内的原始文献文本的原始关键词,所述原始关键词为所述原始文献文本中出现频次超过设定阈值的词;病历信息系统包括医患互动单元和病情归类单元,所述病情须知单元的执行时间设置为每个月归类,执行过程为:所述病情须知单元查询计算机系统处理的最近一次文献状态信息,导出与当前时间的间隔超过36个月的患者状态信息作为文献状态收录目标,医患互动单元就是与所述需要设定的治疗方案,启动后所述病情须知单元查询计算机系统中的癌症领域数据并导出对应的文献,将所述对应的号码和编辑好的内容导入到信息群发平台,群发医患互动内容;病人数据分析系统对所述原始关键词进行文本计算得到所述癌症关键词;将所述癌症关键词保存成特定的文本格式作为关键信息进行存储,建立癌症领域文本集合;文献互动系统对所述癌症领域文本集合进行计算;所述计算过程包括:格式转换,文本预处理和词典构建;数据传送系统对医患所需癌症领域研究文献进行所述格式转换,过滤掉其文本的结构信息;文本预处理包括分词、去停用词、归一化、词干提取;对文本进行所述分词处理,以空格、标点符号、段落为分割符,将文献的文本分隔成独立的单词;对文本进行所述去停用词处理,删除文献的文本中没有意义的所述单词,包括助动词、介词、连接词和感叹词;对文本进行述归一化处理,将表达相同语义但是拼写格式不同的单词统一形式;所述归一化方法包括统一字母大小写、去掉重音和音调符号;对文本进行词干提取,将词项简化为词干形式;辅助构建处理系统对文本进行所述词典构建,建立癌症相关术语的单词集合;并将医患所需癌症领域研究文献向量化:将医患所需癌症领域研究文献视作由n个所述单词组成的向量di,di=(di1,di2,...,din),i为整数,每个单词对应一个特征项,第j个单词对应特征项tj;dij通过公式一计算:
公式一:
其中,dij为所述向量di在第j个维度的分量,csij为所述特征项tj在医患中所需的第i篇文献中出现的次数;所述csin为第i篇文献中总单词数:Z表示医患中所需领域研究文献集合中医患所需癌症领域研究文献的总数,Zj表示包含所述特征项tj的医患所需癌症领域研究文献的数目;
每个特征项tj对应一个偏重wij,表示所述特征项tj在该医患所需癌症领域研究文献中的重要程度,偏重wij通过公式二计算:
公式二:
其中,所述wij的值为所述第i篇文献的所述特征项tj的偏重,csij为所述特征项tj在所述第i篇文献中出现的次数;Z表示医患所需癌症领域研究文献集合中医患所需癌症领域研究文献的总数,smij为医患所需癌症领域研究文献集合中,包含特征项tj的医患所需癌症领域研究文献的数目;i、j和n均为正整数,j≤n;
医患决策系统求取医患所需癌症领域研究文献集合的调看文本类,在向量空间模型中,两个医患所需癌症领域研究文献d1和d2之间的通用度通过公式三计算:
公式三:
其中,T(d1,d2)为两个医患所需癌症领域研究文献d1和d2之间的通用度,d1j、d2j分别表示医患所需癌症领域研究文献d1和d2第j个维度的分量;j和n均为正整数,j≤n;
医患决策系统计算医患所需癌症领域研究文献集合中,所有医患所需癌症领域研究文献两两之间的所述通用度,求取医患所需癌症领域研究文献与其他各个医患所需癌症领域研究文献的所述通用度的平均值,将所述平均值最小的医患所需癌症领域研究文献作为调看文本类;医患决策系统对所述调看文本类进行内容分析,实证分析,热度分析以及效果分析,并进行深层的知识发现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910601908.0A CN110299210A (zh) | 2019-07-05 | 2019-07-05 | 一种癌症领域互动数据分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910601908.0A CN110299210A (zh) | 2019-07-05 | 2019-07-05 | 一种癌症领域互动数据分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110299210A true CN110299210A (zh) | 2019-10-01 |
Family
ID=68030483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910601908.0A Pending CN110299210A (zh) | 2019-07-05 | 2019-07-05 | 一种癌症领域互动数据分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110299210A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361033A (zh) * | 2014-10-27 | 2015-02-18 | 深圳职业技术学院 | 一种癌症相关信息自动收集方法及系统 |
CN105956130A (zh) * | 2016-05-09 | 2016-09-21 | 浙江农林大学 | 多信息融合的科研文献主题发现和跟踪方法及其系统 |
CN106708920A (zh) * | 2016-10-09 | 2017-05-24 | 南京双运生物技术有限公司 | 一种针对个性化科研文献的筛选方法 |
US20180165776A1 (en) * | 2016-12-12 | 2018-06-14 | Tata Consultancy Services Limited | System and method for analyzing research literature for strategic decision making of an entity |
-
2019
- 2019-07-05 CN CN201910601908.0A patent/CN110299210A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361033A (zh) * | 2014-10-27 | 2015-02-18 | 深圳职业技术学院 | 一种癌症相关信息自动收集方法及系统 |
CN105956130A (zh) * | 2016-05-09 | 2016-09-21 | 浙江农林大学 | 多信息融合的科研文献主题发现和跟踪方法及其系统 |
CN106708920A (zh) * | 2016-10-09 | 2017-05-24 | 南京双运生物技术有限公司 | 一种针对个性化科研文献的筛选方法 |
US20180165776A1 (en) * | 2016-12-12 | 2018-06-14 | Tata Consultancy Services Limited | System and method for analyzing research literature for strategic decision making of an entity |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
Hu et al. | Lcsts: A large scale chinese short text summarization dataset | |
CN106407443B (zh) | 一种结构化医疗数据生成方法及装置 | |
CN106682411B (zh) | 一种将体检诊断数据转化为疾病标签的方法 | |
Wang et al. | Open event extraction from online text using a generative adversarial network | |
Lee et al. | Emotion in code-switching texts: Corpus construction and analysis | |
CN104899260B (zh) | 一种中文病理文本结构化处理方法 | |
CN106598940A (zh) | 基于全局优化关键词质量的文本相似度求解算法 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN107977368B (zh) | 信息提取方法及系统 | |
WO2021127012A1 (en) | Unsupervised taxonomy extraction from medical clinical trials | |
CN110019641A (zh) | 一种医疗否定术语的检出方法及系统 | |
Saranya et al. | Intelligent medical data storage system using machine learning approach | |
CN113130025B (zh) | 一种实体关系抽取方法、终端设备及计算机可读存储介质 | |
KR20130097475A (ko) | 의료 프로세스 모델링 및 검증 방법 | |
Wang et al. | A review of the application of natural language processing in clinical medicine | |
CN104933097B (zh) | 一种用于检索的数据处理方法和装置 | |
CN110299210A (zh) | 一种癌症领域互动数据分析系统 | |
Gu et al. | Chemical-induced disease relation extraction with lexical features | |
Lu et al. | What is Discussed about COVID-19: A Multi-Modal Framework for Analyzing Microblogs from Sina Weibo without Human Labeling. | |
Wu et al. | Mining and correlation analysis of association rules between properties and therapeutic efficacy of Chinese materia medica based on strategy pattern | |
JP5239161B2 (ja) | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム | |
EP3230900A1 (en) | Scalable web data extraction | |
Yan et al. | Mobile medical question and answer system with improved char-level based convolution neural network and sparse auto encoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191001 |