CN112732946B - 一种医学文献的模块化数据分析和数据库建立方法 - Google Patents
一种医学文献的模块化数据分析和数据库建立方法 Download PDFInfo
- Publication number
- CN112732946B CN112732946B CN201910967424.8A CN201910967424A CN112732946B CN 112732946 B CN112732946 B CN 112732946B CN 201910967424 A CN201910967424 A CN 201910967424A CN 112732946 B CN112732946 B CN 112732946B
- Authority
- CN
- China
- Prior art keywords
- word
- medical
- information
- structured
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000007405 data analysis Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000011160 research Methods 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000003064 k means clustering Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 206010067484 Adverse reaction Diseases 0.000 claims description 5
- 230000006838 adverse reaction Effects 0.000 claims description 5
- 230000007717 exclusion Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000013142 basic testing Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 claims 1
- 239000013589 supplement Substances 0.000 claims 1
- 238000003672 processing method Methods 0.000 abstract description 3
- 238000005094 computer simulation Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000005065 mining Methods 0.000 description 4
- 238000002271 resection Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010197 meta-analysis Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/382—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Library & Information Science (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于医学文献数据分析和智能处理技术领域,公开了医学文献的模块化数据分析和数据库建立方法,包括对目标医学文献建立外部特征索引,录入标题、DOI号等文献基本信息,为作本发明将要从该文献挖掘的结构化信息的目录;建立文献内容分析模块,基于医学文献的基本特征和逻辑要求,针对各个模块开发独立的结构化录入构架;通过各模块中相互独立的语料知识库,识别文献的各个信息模块,并进行信息提取,将关键信息分别录入对应结构化模块,通过如人工的方法,对读取结果校验和算法优化,并通过对计算机模型进行训练,建立人工智能处理方法;是一种对指定的医学文献全文内关键信息进行模块化分析归集、同时建立模块化数据库的方法。
Description
技术领域
本发明属于医学文献数据分析和智能处理技术领域,具体涉及一种医学文献的模块化数据分析和数据库建立方法。
背景技术
医学文献是医学研究者和医务工作人员追踪和学习医学研究进展的最重要的信息来源。而随着现代生物医学各研究领域的长足发展,新研究成果的发表数量,正在爆发式的增长,医学研究者和医务工作者需要每天阅读大量的专业文献,才能跟上现代医学研究的发展速度,这就造成了海量医学文献的阅读要求,与医务工作者有限的学习时间之间的矛盾。
为了解决这一问题,现有技术中(包括在线数据库运用、专利技术文献等)具有一些致力于对文献检索进行优化,缩短检索时间,提高检索精度的技术方案出现,医务工作者可以通过在线数据库高级检索方式,缩小检索范围,提高阅读效率,现有技术中,如公开号为CN102024027A,名称为“一种医学数据库的建立方法”的中国发明专利文献,则公开了一种在获取文献全文后,进一步通过增加注释和加权评分,提高检索效率的技术方案,但是,在各个医学领域信息激增的今天,这些检索优化的方案,由于涉及大量的关键信息录入和学习,在实际运用中并不能很好的降低医务工作者需阅读大量文献内容的实际困难。
而在对文献的数据挖掘上,现目前应用的比较广泛的是MedRank排序方法、基于MEDLINE数据库来构建疾病和药物的关系网;而现有技术中,如公开号为CN106708959A,名称为“一种基于医学文献数据库的组合药物识别与排序方法”的中国发明专利文献,则更进一步通过识别数据库相关信息,对药物进行排序,提供相关研究趋势;而公开号为CN106844671A,名称为“医学文献智能处理方法及系统”的中国发明专利文献,则是试图通过人工智能,读取并分析经过结构化的二级文献信息,根据关键信息,判断其作为循证医学证据的级别。但显而易见,对文献关键词的抽取和关联,只能提供某一研究领域的大致发展趋势,对急需了解这一领域具体研究思路,治疗方案,治疗禁忌以及不良反应等信息的医务工作者而言,并未降低其阅读文献内容的工作强度。
目前对于医学文献内容的汇总和分析,更多的是通过文献综述和荟萃分析的方法,但是通过这些分析方法,不同研究者所得出的结果差异巨大,给出的分析结果也无法从研究细节出发,解释各项研究结果不一致的矛盾,并未解决医务工作者在甄别同质性研究优缺点时,所要承受的大量文献阅读的负担,为了找到对应的内容,读者任然需要对整篇文献进行阅读。
发明内容
本发明的目的在于针对现有技术的不足,提出一种对指定的医学文献全文内关键信息进行模块化挖掘、同时建立模块化数据库的方法和系统,通过不同文献模块间的差异比较,解释研究结果之间的差异并提供详尽的参考治疗方案,增强医务工作者对同质性研究开展过程中细节差异的把控能力,提高对同质性研究方案和结果的甄别效率。
本发明公开的一种医学文献的模块化数据分析和数据库建立方法,其特征在于,包括以下步骤:
特征索引建立步骤,通过网络爬虫对整篇医学文献的数据进行抓取,获得医学文献中的文献标题、发表期刊、时间和/或DOI号中的一种或多种作为索引目录;
结构化步骤,基于医学研究中对医学文献的基本特征和逻辑要求,对医学文献进行模块化分割,按照试验基本信息、研究背景、试验纳入排除标准、基线、统计方法、治疗方案、研究结果、亚组分析和不良反应的分类标准建立若干结构化信息模块;各结构化信息模块根据现代医学文献普遍结构,设计各自独立的结构化特征,为文献中不同结构的信息录入存储提供适宜结构;
结构化录入步骤,通过所述特征索引建立步骤建立的索引目录调取医学文献的内容进行信息提取和识别,通过关键词匹配的方法将医学文献的内容按照所述结构化步骤中的结构化信息模块进行分类归集,将医学文献中匹配到的内容对应录入至所述结构化信息模块中,建立成信息结构化且带有索引目录的结构化文献库;即,使用者在找寻相关文献内容的时候,可以根据医学分类在对应的结构化信息模块中直接针对性的检索到对应的信息内容并调取到其对应文献的信息和数据,有选择的针对有使用价值的内容进行阅读。
检验优化步骤,读取结构化录入步骤的结构化文献库,分析和校验结构化录入的准确性和完整性,并通过调整、修改和/或补充的方式对关键词进行优化,以及对所述结构化录入步骤中的信息提取和识别过程进行训练。
所述特征索引建立步骤中,是通过python网络爬虫工具从网络医学文献数据库中将指定的医学文献整篇下载,并根据设定的索引关键词对整篇医学文献的内容进行抓取获得索引目录。
所述结构化步骤中,每个结构化信息模块中均储存有对应其分类标准的关键词库,所述关键词库是在已有的常规医学特征词词库和预设特征词词库的基础上,通过k-means聚类算法对常规医学专用词词库和预设特征词词库中的样本语料信息进行处理,把样本语料中不同类型的医学专用词类型分为若干个不同的簇建立的。
具体的,所述常规医学专用词词库和预设特征词词库中的每一个特征词均有用于特征量化的数字编码,通过k-means聚类算法对经过特征量化的特征词进行聚类计算;
所述特征词的数字编码构成样本数量为N的多维样本数据集,
即,
选取K个特征词(这里的计算过程都是取用特征词对应的数字编码)计算其质心(c1,c2,…,ck),并通过TF-IDF权重计算的方式得到所述K个特征词的向量,所述K个特征词的向量与质心的欧式距离分为K个不同类别的簇(a1,a2,…ak),
其中质心,mi所表示的是簇ai中数据点的个数;
由于质心有自己的数字编码,所述k-means聚类算法的聚类目标,其中为特征词的向量xj与质心cj的欧式距离;
重复若干次迭代计算对质心进行调整,即选择更合适的点作为质心,直至质心趋于稳定,这样一来,我们就可以通过这种方式对其他词进行编码和处理,形成了基本知识库。
所述结构化步骤中,通过k-means聚类算法对常规医学专用词词库和预设特征词词库中的样本语料信息进行处理之前还包括关键词扩展处理过程,具体包括采用Skip-Gram训练模型对常规医学特征词词库和预设特征词词库中的特征词进行分析和处理,过滤掉非必要词汇(如连词,助词等非专业、技术词汇),并通过迭代分词对每个特征词扩展关联词。
所述Skip-Gram训练模型包括输入层、投影层、和输出层;所述扩展关联词是通过输入层输入当前词an,然后通过投影层投影预测所述当前词an可能关联的关联词并通过输出层输出关联词(an-2,an-1,an+1,an+2),根据每个关联词与当前词的向量关系建立矩阵,并通过欧式距离来判断与当前词的关系情况,建立霍夫曼树;霍夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树,既把关联度最高,最相近的叶子节点放到离根节点(中心词)最近的节点位置,从上往下依次根据欧式距离完成霍夫曼二叉树的排列。
所述Skip-Gram训练模型训练目标最大化为
其中,
n为窗口的大小,即输入的当前词的前后词的长度,如设置为5,就表示前后5个词,n的值越大,前后词就会越多,结果就容易更精确;
T为训练文本大小,at则表示第t个词的向量;P(at+j|at)为第t个词出现的概率。
所述检验优化步骤中,是抽选若干结构化录入的结构,通过人工比对的方式进行分析和校验、以及优化关键词的。
与现有技术相比,本发明的技术方案提供的医学文献的模块化数据挖掘和数据库建立方法建立不同的结构化文献信息挖掘模块,实用性和可行性强:一方面,该方案可以显著降低人工文献阅读时间和难度;另一方面,对基于医学研究基本特征和逻辑要求的文献模块化分割,显著降低了知识库和数据结构化建立的复杂度以及计算机自然语言识别能力的要求,并提高了文献信息提取准确性。为广大医务工作者提供直接的、完善的医学文献信息,解决医务工作者学习时间有限的矛盾;同时建立模块化数据库,通过不同文献模块间的差异比较,解释研究结果之间的差异并提供详尽的参考治疗方案,增强医务工作者对同质性研究开展过程中细节差异的把控能力,提高对同质性研究方案和结果的甄别效率。
使用者可以通过本方法,以任意结构化词条内关键词,对文献进行检索,提取符合检索条件的文献集,并可以根据具体研究目的,将文献集中任意模块信息导出,对差异信息进行标记,提取有效信息。例如,对特定疾病研究的文献集,比较“试验纳入排除标准”或“治疗方案和研究结果”模块差异,则可以提取疾病治疗方案的适用人群或不同方案的疗效差异等信息;对于治疗方案为检索词的文献集,则可以在其他模块中提取该治疗方案的适用人群、研究进展、不良反应等多种信息,通过医学文献模块化数据库的应用,可以在降低文献阅读强度的前提下,显著提高同质性医学文献的检索和差异比较效率,增强对治疗方案实施细节的把控能力。同时,本发明提供的文献证据级别标签,可以直接为使用者提供临床决策支持。
附图说明
本发明的前述和下文具体描述在结合以下附图阅读时变得更清楚,附图中:
图1是本发明一种优选方案的逻辑示意图;
图2是本发明Skip-Gram训练模型投影关系示意图;
图3是本发明结构化步骤中建立霍夫曼树一种优选方案的示意图。
具体实施方式
下面通过几个具体的实施例来进一步说明实现本发明目的技术方案,需要说明的是,本发明要求保护的技术方案包括但不限于以下实施例。
作为本发明一种具体的实施方案,本实施例公开的一种医学文献的模块化数据分析和数据库建立方法,包括:
对目标医学文献建立外部特征索引,录入标题、DOI号等文献基本信息,为作本发明将要从该文献挖掘的结构化信息的目录;
建立文献内容分析模块,基于医学文献的基本特征和逻辑要求,针对各个模块开发独立的结构化录入构架;
通过各模块中相互独立的语料知识库,识别文献的各个信息模块,并进行信息提取,将关键信息分别录入对应结构化模块。
通过如人工的方法,对读取结果校验和算法优化,并通过对计算机模型进行训练,建立人工智能处理方法。
其中:
对医学文献模块化数据库建立方法的步骤包括:
基于挖掘的文献全文信息,对各模块内结构化信息建立索引,构成模块化数据库;
实现文献模块内结构化信息的检索功能,为治疗方案的选择提供直接证据;
为数据库收录文献建立证据级别标签,并进行人工校验,为治疗决策提供支持。
医学文献全文信息挖掘系统的具体的方案实施:
第一步,通过研究方向关键词,通过python爬虫工具对在线数据库进行搜索抓取,获得目标文献,对获取文献进行外部特征,包括标题,发表期刊、时间、DOI号等信息建立索引,以便作为目录,在建立结构化解读的文献库后,与文献内部模块化信息相互调取。
第二步,文献内容分析模块的建立,是基于医学研究中,文献的基本特征和逻辑要求,对医学文献进行模块化分割,分为试验基本信息、研究背景、试验纳入排除标准、基线、统计方法、治疗方案、研究结果、亚组分析和不良反应等模块;各模块根据现代医学文献普遍结构,设计各自独立的结构化特征,为文献中不同结构的信息录入存储提供适宜结构。
第三步,我们通过各模块中独立知识库内的特征词库,识别文献的各个信息模块,分析模块内语意,提取有意义信息,录入上一述步骤中建立的对应结构化模块。
例如,“研究结果”作为医学文献最重要的信息,根据其数据结构特征,我们将其数据结构建立为:观察终点类型,治疗组,观察结果,统计结果以及组间比较统计结果,其中基于临床研究特定,还需设定各观察终点内部,可以对应多个治疗组以及其观察结果和统计结果。通过上述上述第三步方法提取的“研究结果”信息,可以一一对应录入此结构化模块,读者可以直观的获得该研究文献中不同治疗组的治疗结果。
们在预设的中英文对照的研究结果知识库中,建立有“观察终点类型”特征词,包括但不仅限于OS/PFS/DFS/TTP/ORR/手术切除率/R0切除率/局部复发率/病理缓解率/毒性/DCR/DOR/TTF/QoL/MTD等;“治疗组”特征词,囊括现行的临床治疗方案名称;“统计和组间比较结果”特征词,如风险比(HR)、置信区间(CI)以及显著性(pvalue)等。
有了这些预设的特征词,我们再通过k-means聚类算法进一步建立基本知识库,k-means聚类算法是对于既定的多维数据集,样本数量为N,即
把它K个不同的类别的簇(a1,a2,…ak),其质心是(c1,c2,…,ck),这当中的,mi所表示的是簇ai中数据点的个数。这样一来,聚类目标公式就是,这当中的就是xj与cj的欧式距离了。
我们在已有的常规特征词词库和预设特征词的基础上,通过k-means聚类算法对部分样本语料信息进行处理,把样本语料中不同类型的医学专用词类型分为K个不同的簇,再通过以上方法进行计算,就可以把文献中的一些重要语料信息经过比对归入相应的集合,再对分类后的集合词库进行进一步处理。对于研究结果和上述第二步中其他部分,如治疗方案,纳入排除标准等共K个模块等,就可以分为K个不同的簇,每个簇之下又有不同的特征属性,如研究结果就包括但不仅限于OS/PFS/DFS/TTP/ORR/手术切除率/R0切除率等,每个属性表示一个数据点个数。属性之间的特征向量相互关联,通过dij(xj-ci)计算其欧式距离,聚类目标则是所有点欧式距离的集合,这样便于建立一些常用医学术语词的编码。通过这样的方式完成基本知识库的建立。
这里依然以“研究结果”为例,基本知识库建立以后,由于医学文献研究结果正是以各种观察终点进行描述,通过对“观察终点类型”关键词的识别匹配,本发明即可定位医学文献中描述研究结果的部分,同时通过“治疗组”关键词识别,即可确定治疗组数量和类型,从而确定第二步中“研究结果”模块最终形态;在确定文献对应模块位置和模块最终形态后,结合后一种关键词,通过定位部分语句的自然语言识别和语意分析,以及三类关键词在语句内部的相对位置,即可提取每个观察终点类型中,每个治疗组的观察和统计有效数据,并区分统计结果和组间比较的统计结果。
具体来说,我们通过分词工具和知识库,对英文文献中如“研究结果”这一特征模块进行分词,可以对常用词性进行分析和处理,然后对部分不重要词(如连词,助词等)进行过滤,所采用到的训练模型是Skip-Gram模型,通过它来完成迭代分词,如图2,Skip-Gram模型主要分为输入层(input),投影(projection)和输出层(output),通过中心词(当前词)an的输入,来预测其可能关联的关联词,如(an-2,an-1,an+1,an+2)等关联词。关联词是通过之前的迭代扩展进来的,并且根据每个词与中心词的密切关系程度建立矩阵,根据欧式距离来判断与中心词的关系情况,如图3,建立霍夫曼树。霍夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树,既把关联度最高,最相近的叶子节点放到离根节点(中心词)最近的节点位置,从上往下依次根据欧式距离完成霍夫曼二叉树的排列。
Skip-Gram模型的核心参数主要包括2个,一个是输出词向量的维数d,还有一个就是n,就是前后词的长度,也就是句子中当前词与目标词之间的欧式距离。n的值越大,前后词就会越多,结果就容易更精确。它的训练目标最大化是:
其中,n就是窗口的大小,而T表示训练文本大小,at则表示第t个词的向量。
P(at+j|at)表示词出现的概率,它是通过激活函数softmax进行归一化来完成的,计算出每个词的概率,网络模型训练的最终目的是使得P(an-2|an)*P(an-1|an)*P(an+1|an)*P(an+2|an)的值最大,从而需要通过log来完成,将乘积转化为求和。
例如,在“研究结果”模块,我们确定了primaryendpoint(主要观察终点)为中心词,通过训练模型就很容易关联出medianOS(中位总生存时间)和CI(置信区间)等词来进行比对,形成霍夫曼树,通过树来寻找每个叶子节点。n值设置越大,关联词就会越多,但是相关性就会降低。因此本发明设置n=5比较适合。同时又根据每篇文献内容的不同,在训练之后可以修正相应的关联词出现概率。在找到每个匹配的关联词信息以后,需要自动把对应的数值如12.2(month),95%CI等信息读入系统中进行结构化处理,以形成数据信息的量化模型,便于对之后新来文献信息的分析和统计。
基本知识库中,每个词都有各自独立的编码,新来词的编码则通过它与已编码词之间的关系(即矩阵中的欧式距离)来建立新的编码,同时与训练得出的概率值进行比较,确认编码信息是否准确,形成迭代,最终可以在每次输入信息时判断时形成二维矩阵,进行卷积神经网络的输入,提供新的分词训练模式,进行下一次的迭代分词。
可以看出,通过这样建立不同的结构化文献信息挖掘模块,实用性和可行性强:一方面,该方案可以显著降低人工文献阅读时间和难度;另一方面,对基于医学研究基本特征和逻辑要求的文献模块化分割,显著降低了知识库和数据结构化建立的复杂度以及计算机自然语言识别能力的要求,并提高了文献信息提取准确性。
由于之前采用的Skip-Gram模型比较适合于短文本,而由于医学文献内容比较多样,而且不同文献的信息差异并不小,所以必须通过人工校验来进一步对此进行进一步的完善。同时,由于Skip-Gram模型在词性,词组合等方面缺少丰富信息的融合,导致词向量的语义表示不能满足我们的要求。所以必须采用人工校验,进行重新优化,进一步提高机器识别和读取能力。
由于文献中有些语句的内容非常复杂,句子中可能出现多个否定词(如neither,nor)进行多重否定,因此对句子中的词性要进行很好的分析。
同时,由于长句中存在很多项指标同时出现,既有百分比又有范围值,如(95%CI,10.6-14.2),还存在一些比较级术语,通过Skip-Gram模型就很难对其进行分解。这样,所以,必须通过人工校验,根据之前的k-means聚类形成的词库信息和规则,完成对特殊长句的处理,对不同层次,不同词性的信息进行进一步的聚类分析,才能完整提取文献中的关键信息,进行进一步的编码处理,让编码信息更为准确。
Claims (4)
1.一种医学文献的模块化数据分析和数据库建立方法,其特征在于,包括以下步骤:
特征索引建立步骤,通过网络爬虫对整篇医学文献的数据进行抓取,获得医学文献中的文献标题、发表期刊、时间和/或DOI号中的一种或多种作为索引目录;
结构化步骤,基于医学研究中对医学文献的基本特征和逻辑要求,对医学文献进行模块化分割,按照试验基本信息、研究背景、试验纳入排除标准、基线、统计方法、治疗方案、研究结果、亚组分析和不良反应的分类标准建立若干结构化信息模块;所述结构化步骤中,每个结构化信息模块中均储存有对应其分类标准的关键词库,所述关键词库是在已有的常规医学特征词词库和预设特征词词库的基础上,通过k-means聚类算法对常规医学专用词词库和预设特征词词库中的样本语料信息进行处理,把样本语料中不同类型的医学专用词类型分为若干个不同的簇建立的,通过k-means聚类算法对常规医学专用词词库和预设特征词词库中的样本语料信息进行处理之前还包括关键词扩展处理过程,具体包括采用Skip-Gram训练模型对常规医学特征词词库和预设特征词词库中的特征词进行分析和处理,过滤掉非必要词汇,并通过迭代分词对每个特征词扩展关联词,所述Skip-Gram训练模型包括输入层、投影层、和输出层;所述扩展关联词是通过输入层输入当前词an,然后通过投影层投影预测与所述当前词an关联的关联词并通过输出层输出关联词(an-2,an-1,an+1,an+2),根据每个关联词与当前词的向量关系建立矩阵,并通过欧式距离来判断与当前词的关系情况,建立霍夫曼树;
结构化录入步骤,通过所述特征索引建立步骤建立的索引目录调取医学文献的内容进行信息提取和识别,通过关键词匹配的方法将医学文献的内容按照所述结构化步骤中的结构化信息模块进行分类归集,将医学文献中匹配到的内容对应录入至所述结构化信息模块中,建立成信息结构化且带有索引目录的结构化文献库;
检验优化步骤,读取结构化录入步骤的结构化文献库,分析和校验结构化录入的准确性和完整性,并通过调整、修改和/或补充的方式对关键词进行优化,以及对所述结构化录入步骤中的信息提取和识别过程进行训练。
2.如权利要求1所述的一种医学文献的模块化数据分析和数据库建立方法,其特征在于:所述常规医学专用词词库和预设特征词词库中的每一个特征词均有用于特征量化的数字编码,通过k-means聚类算法对经过特征量化的特征词进行聚类计算;
所述特征词的数字编码构成样本数量为N的多维样本数据集,
即,
选取K个特征词计算其质心(c1,c2,…,ck),并通过TF-IDF权重计算的方式得到所述K个特征词的向量,所述K个特征词的向量与质心的欧式距离分为K个不同类别的簇(a1,a2,…ak),
其中质心,mi所表示的是簇ai中数据点的个数;重复若干次迭代计算对质心进行调整;
所述k-means聚类算法的聚类目标 ,其中为特征词的向量xj与质心cj的欧式距离。
3.如权利要求1所述的一种医学文献的模块化数据分析和数据库建立方法,其特征在于:所述Skip-Gram训练模型训练目标最大化为
其中,n为窗口的大小,即输入的当前词的前后词的数量长度;T为训练文本大小;at则表示第t个词的向量;P(at+j|at)为第t个词出现的概率。
4.如权利要求1所述的一种医学文献的模块化数据分析和数据库建立方法,其特征在于:所述检验优化步骤中,是抽选若干结构化录入的结构,通过人工比对的方式进行分析和校验、以及优化关键词的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910967424.8A CN112732946B (zh) | 2019-10-12 | 2019-10-12 | 一种医学文献的模块化数据分析和数据库建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910967424.8A CN112732946B (zh) | 2019-10-12 | 2019-10-12 | 一种医学文献的模块化数据分析和数据库建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112732946A CN112732946A (zh) | 2021-04-30 |
CN112732946B true CN112732946B (zh) | 2023-04-18 |
Family
ID=75588407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910967424.8A Active CN112732946B (zh) | 2019-10-12 | 2019-10-12 | 一种医学文献的模块化数据分析和数据库建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732946B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488119B (zh) * | 2021-06-18 | 2024-02-02 | 重庆医科大学 | 药物小分子数值特征结构化数据库及其建立方法 |
CN113657108A (zh) * | 2021-08-24 | 2021-11-16 | 平安国际智慧城市科技股份有限公司 | 医患关系监控方法、装置、计算机可读存储介质及服务器 |
CN113836892B (zh) * | 2021-09-08 | 2023-08-08 | 灵犀量子(北京)医疗科技有限公司 | 样本量数据提取方法、装置、电子设备及存储介质 |
CN114496143B (zh) * | 2021-12-31 | 2022-12-09 | 医渡云(北京)技术有限公司 | 临床数据与文献的关联方法、装置、电子设备及存储介质 |
CN114511027B (zh) * | 2022-01-29 | 2022-11-11 | 重庆工业职业技术学院 | 通过大数据网络进行英语远程数据提取方法 |
CN115392240B (zh) * | 2022-07-21 | 2023-04-18 | 成都成电金盘健康数据技术有限公司 | 基于文本结构的数据自动提取处理方法、装置及系统 |
CN114996465A (zh) * | 2022-08-01 | 2022-09-02 | 中国传媒大学 | 信息传播动力学文献分类知识库建立方法、系统、设备 |
CN116776854B (zh) * | 2023-08-25 | 2023-11-03 | 湖南汇智兴创科技有限公司 | 在线多版本文献内容关联方法、装置、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933846A (zh) * | 2015-12-30 | 2017-07-07 | 中国医学科学院医学信息研究所 | 肿瘤相关科学文献和科学数据的非结构化整合分析方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
CN100401300C (zh) * | 2006-04-29 | 2008-07-09 | 上海世纪互联信息系统有限公司 | 具有自动分类功能的搜索引擎 |
US7660793B2 (en) * | 2006-11-13 | 2010-02-09 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
US8250026B2 (en) * | 2009-03-06 | 2012-08-21 | Peoplechart Corporation | Combining medical information captured in structured and unstructured data formats for use or display in a user application, interface, or view |
CN101751455B (zh) * | 2009-12-31 | 2011-09-21 | 浙江大学 | 采用人工智能技术自动产生标题的方法 |
CN102024027B (zh) * | 2010-11-17 | 2013-03-20 | 北京健康在线网络技术有限公司 | 一种医学数据库的建立方法 |
CN202404591U (zh) * | 2011-10-24 | 2012-08-29 | 广州市家庭医生在线信息有限公司 | 一种医疗信息查询装置 |
CN103631909B (zh) * | 2013-11-26 | 2017-01-11 | 烽火通信科技股份有限公司 | 对大规模结构化和非结构化数据联合处理的系统及方法 |
JP7106077B2 (ja) * | 2016-09-22 | 2022-07-26 | エヌフェレンス,インコーポレイテッド | 意味的情報の可視化およびライフサイエンスエンティティ間の顕著な関連を示す時間的信号の推測のためのシステム、方法、およびコンピュータ可読媒体 |
CN109977286B (zh) * | 2019-03-21 | 2022-10-28 | 中国科学技术大学 | 基于内容的信息检索方法 |
-
2019
- 2019-10-12 CN CN201910967424.8A patent/CN112732946B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933846A (zh) * | 2015-12-30 | 2017-07-07 | 中国医学科学院医学信息研究所 | 肿瘤相关科学文献和科学数据的非结构化整合分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112732946A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112732946B (zh) | 一种医学文献的模块化数据分析和数据库建立方法 | |
CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
US20220237230A1 (en) | System and method for automated file reporting | |
CN112614538A (zh) | 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置 | |
CN109657011B (zh) | 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统 | |
CN114547346B (zh) | 知识图谱的构建方法和装置、电子设备和存储介质 | |
CN113742493A (zh) | 一种病理知识图谱的构建方法及装置 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN107291895A (zh) | 一种快速的层次化文档查询方法 | |
CN115293161A (zh) | 基于自然语言处理和药品知识图谱的合理用药系统及方法 | |
CN112768080A (zh) | 基于医疗大数据的医学关键词库建立方法及系统 | |
Shi et al. | Layout-aware subfigure decomposition for complex figures in the biomedical literature | |
CN116187444A (zh) | 一种基于K-means++的专业领域敏感实体知识库构建方法 | |
Tarride et al. | Large-scale genealogical information extraction from handwritten Quebec parish records | |
CN109582743B (zh) | 一种针对恐怖袭击事件的数据挖掘系统 | |
CN115879901B (zh) | 一种智能人事自助服务平台 | |
US20240303290A1 (en) | Systems and methods for screening names for identity matching | |
Meenachisundaram et al. | Biomedical Named Entity Recognition Using the SVM Methodologies and bio Tagging Schemes | |
CN113849639A (zh) | 一种城市级数据仓库主题模型类别的构建方法及系统 | |
Usha et al. | Feature Selection Techniques in Learning Algorithms to Predict Truthful Data | |
Hayat et al. | Self learning of news category using ai techniques | |
CN118152816B (zh) | 基于智能终端的取证分析方法及系统 | |
Ağduk et al. | Classification of news texts from different languages with machine learning algorithms | |
CN112487816B (zh) | 一种基于网络分类的命名实体识别方法 | |
Wang | Automatic classification of document resources based on Naive Bayesian classification algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 610041 No. 6 and 7, floor 7, unit 1, building 6, No. 399, west section of Fucheng Avenue, high tech Zone, Chengdu, Sichuan Applicant after: Sichuan Yishu Technology Co.,Ltd. Address before: No. 6, 7, Floor 7, Unit 1, Building 6, No. 399, West Section of Fucheng Avenue, Chengdu Hi-tech Zone, China (Sichuan) Free Trade Pilot Zone, Chengdu, Sichuan 610000 Applicant before: Sichuan Medical Science and Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |