CN111899832B

CN111899832B - 基于上下文语义分析的医疗主题管理系统与方法

Info

Publication number: CN111899832B
Application number: CN202010810384.9A
Authority: CN
Inventors: 周铁华; 王玲; 刘文强; 李建
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2024-03-29
Anticipated expiration: 2040-08-13
Also published as: CN111899832A

Abstract

本发明涉及计算机技术领域，特别是涉及一种基于上下文语义分析的医疗主题管理系统与方法。该系统包括：数据存储模块，数据预处理模块，NLP词频统计模块，关键词语义分析模块，主题关系处理模块。该系统和方法通过语义计算的方式，对病症相关的数据进行自动的多维影响因素的提取和综合分析，建立医疗语义关键词库，深入分析和挖掘病症与各个影响因素之间的潜在关系，并针对医疗主题进行自适应的综合性分类和管理。本发明主要用于医疗社区、医疗论坛、电子病历等医疗相关电子资源的管理与分析。

Description

基于上下文语义分析的医疗主题管理系统与方法

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于上下文语义分析的医疗主题管理系统与方法。

背景技术

随着医疗信息化的不断深入，医疗数据量呈现指数式增长，传统的医院数字化信息系统及电子健康档案系统已远远不能满足对海量医疗数据的存储处理、分析挖掘以及多元化医疗数据服务等方面的要求，如何从各种类型数据中提取有用的信息，发掘隐藏其间的知识，是当今医疗信息发展的一个重要研究方向。数据挖掘一直是计算机研究领域的一个热门话题。语义分析与文本主题挖掘是数据中获取知识的重要技术，充分利用医疗数据，挖掘潜在的关系，可以有效提高医疗服务水平。

经过研究发现，电子病历不同于普通文本数据，电子病历包含大量的医学专业术语，此类术语在生活用语中并不常见，即使在电子病历中，此类医学术语所占比重也较小。传统的数据挖掘类算法难以满足此类电子病历的知识提取要求，在对专业术语提取阶段可能因其生僻性将其当做干扰词直接去除，导致语义分析不准确，提取出的语义关键词不完整，从而影响整个实验结果。

数据挖掘类算法主要分为三大类：有监督类，无监督类，半监督类。本系统针对医疗数据的分析方法属于半监督类算法。半监督的数据挖掘算法是有监督算法与无监督算法的结合算法。对于前期的模型训练，只使用少量的语料库进行数据训练，利用这些训练好的数据构建关键词抽取模型，然后利用该模型对新的文本进行关键词提取，对于新提取出的关键词进行人工过滤，再将过滤得到的关键词加入原训练集，形成新的训练模型接着对接下来的训练文本进行关键词提取。

本发明针对电子病历的数据特点，提出了一种基于上下文语义分析的医疗主题管理系统与方法，根据电子病历的上下文环境，对电子病历的语义进行分析提取，再根据语义相关项进行主题挖掘。

发明内容

本发明的目的在于克服现有基于医疗文本数据的信息提取中所存在的不足，针对医疗文本数据的多样性、复杂性，提出一种结构合理，结果准确，效果佳的知识提取方法。

为实现上述目的，本发明是通过下述技术方案实现的：

基于上下文语义分析的医疗主题管理系统与方法，包括：数据存储模块、数据预处理模块、NLP词频统计模块、关键词语义分析模块和主题关系处理模块；所述数据存储模块用于存储原始数据，构造数据库整体；所述数据预处理模块基于数据库中的原始数据对数据进行数据清洗，提高原始数据质量，并对数据进行分类处理；所述NLP词频统计模块对预处理后的数据进行词频统计，并去除停用词，保存有效关键词，初步构造语义关键词库与生成关键词条；所述关键词语义分析模块对初步构造的语义关键词库中的关键词进行权重分析并归类，生成三个有效语义关键词库；所述主题关系处理模块，对语义关键词库中的关键词进行主题抽取并提纯。

所述的基于上下文语义分析的医疗主题管理系统与方法，数据存储模块将所有数据整合存储成统一的json字典格式数据。

所述的基于上下文语义分析的医疗主题管理系统与方法，数据预处理模块包括数据清洗装置和数据分类装置；所述数据清洗装置对数据库进行数据清洗，减少噪声数据；所述数据分类装置将清洗后的数据按照记录抽取，并将每条记录单独存储成一个文件，形成独立的文本文件。

所述的基于上下文语义分析的医疗主题管理系统与方法，NLP词频统计模块包括英文分词装置、词性标注装置、停用词去除装置、特殊字符去除装置、词频统计装置和词频存储装置；所述英文分词装置，按照英文句子中的空格将单词划分；所述词性标注装置，对划分好的英文单词进行词性标注；所述停用词去除装置，对英文单词中的停用词进行去除；所述特殊字符去除装置，对特殊字符进行去除；所述词频统计装置，对经过上述步骤处理后的英文单词进行词频统计，只保留名词与形容词及其词频，对总文档进行NLP词频统计后得到的词频表定义为wl，对记录型文档进行NLP词频统计后得到的词频表定义为w _t1 ，w _t2 ，…, w _tn；所述词频存储装置，将上述步骤所得词频表按照json字典格式存储，并将单词的词频作为单词的权重存储在词频表中，对wl的词频存储按照权重降序存储，对w _t1 ，w _t2 ，…,w _tn的存储按照单词在原始文本中单词顺序存储。

所述的基于上下文语义分析的医疗主题管理系统与方法，关键词语义分析模块包括WFA权重频分析装置、权重频数学期望计算装置、权重频方差计算装置和语义关键词库构造装置。

所述的基于上下文语义分析的医疗主题管理系统与方法，关键词语义分析模块只对wl进行处理，具体处理步骤为：

步骤(1)：根据NLP词频统计得到的词频利用公式:wt=n ₁ *1+n ₂ *2+…+n _k *k计算所有权重下的语义关键词总权重；

步骤(2)：针对各个权重，利用公式：wf=n _k *k/wt对每个权重计算其权重频，并构造权重频表；

步骤(3)：根据权重频表计算权重频的数学期望与方差；

步骤(4)：设总权重范围为L,根据公式: 设定初始/>，并根据公式l _i+1 ←l _i/>再次调整权重范围；

步骤(5)：计算新权重范围的方差，并且不断调整新的权重范围，求新权重范围的方差，选取最小方差下的权重范围为最优范围；

步骤(6)：方差最小的权重范围设为l，对l之前的权重范围设为l ₀，之后的权重范围设为l ₁，根据l ₀，l，l ₁构建语义关键词库。

所述的基于上下文语义分析的医疗主题管理系统与方法，主题关系处理模块包括贝叶斯提取装置、WTF分析装置和主题关系提纯装置。

所述的基于上下文语义分析的医疗主题管理系统与方法，贝叶斯提取装置的具体步骤为：

步骤(1)：根据词频表中的语义关键词A,B定义关系R₁={AB}；

步骤(2)：若A,B出现在同一语义关键词库中，保存R₁到预选主题关系库；

步骤(3)：对预选主题关系库中的关系利用公式：进行关系筛选，若p＞0,则将关系R₁={AB}添加进主题关系库；关于抽取出的关系遵循关系传递原则，即若A,B存在关系R₁={AB}，B,C存在关系R₂={BC}，则认为A,B,C同时存在关系，添加关系R₃={ABC}进主题关系库；

步骤(4)：定义wt为所有权重下的单词分别乘各自权重后相加的值，定义w _i为每个关键词的权重，对主题关系库中的所有关系使用公式:

计算主题关系的wtf值；

步骤(5)：比较R₃与R₁，R₂的wtf值，若R₃同时大于R₁，R₂，则将R₁，R₂从主题关系库中去除，只保留R₃，否则保留关系R₁，R₂，对提取出的主题关系提纯。

综上所述，本发明针对医疗数据的数据类型复杂，数据噪声大，生僻词汇较多等特点，对其采用了全新的数据预处理方式，得到三个语料库l、l ₀、l ₁。本系统的语料库生成算法保证了语料库的完整性与准确性。主题提取创造性地使用了wtf,用于评判抽取出的主题的重要度，并据此来对主题进行优化。本系统在算法上进行了全新的设计，提取出的语料库更加完整准确，得到的主题关系更加紧密，其方法科学合理，实用性强。

前面所述的为本申请的概述，因此必然有简化、概括和细节省略的情况；本领域的技术人员应该认识到，概述部分仅是对本申请的说明，而不应看作是对本申请的任何限定。本说明书中描述的装置和/或方法和/或其他主题的其他方面、特征和优点将会由于本说明书的阐述而变得清晰。概述部分是用来以一种简化的方式导入多个将在以下具体实施方式部分进一步描述的概念。本概述部分既非用于确定所要求保护主题的关键特征或必要特征，也非用来作为确定所要求保护主题的范围的辅助手段。

附图说明

通过下面说明书和所附的权利要求书并与附图结合，就会更加充分地清楚理解本申请的上述和其他特征。应当理解，这些附图仅是对本申请若干实施方式的描述，不应认为是对本申请范围的限定，通过附图，本申请内容将会得到更加明确和详细地说明。

图1是本发明的上下文语义分析的医疗主题管理系统与方法的系统框图。

图2是本发明的上下文语义分析的医疗主题管理系统与方法的数据预处理模块中数据分类处理的示意图。

图3是本发明的上下文语义分析的医疗主题管理系统与方法的算法流程图。

具体实施方式

在下面的具体实施方式部分中，结合作为说明书一部分的附图进行说明。在附图中，相同/类似的标记通常表示相同/类似的部件，除非说明书中另有说明。具体实施方式、附图和权利要求书中描述的用来举例说明的实施方式不应认为是对本申请的限定。在不偏离本申请表述的主题的精神或范围的情况下，可以采用本申请的其他实施方式，并且可以对本申请做出其他变化。应该很容易理解，可以对本说明书中一般性描述的、附图中图解说明的本申请的各个方面进行各种不同构成的配置、替换、组合，设计，而所有这些改变都显然在预料之中，并构成本申请的一部分。

参照图1，本发明提供了一种基于上下文语义分析的医疗主题管理系统与方法，包括：数据存储模块、数据预处理模块、NLP词频统计模块、关键词语义分析模块和主题关系处理模块。

所述数据存储模块用于存储原始数据，构造数据库整体，对原始数据按照统一json格式进行存储，并对原始数据进行分类，进而构建数据库本体。具体格式为：

[

{记录1},

{记录2}，

……

{记录n}

]

所述数据预处理模块基于数据库中的原始数据对数据进行数据清洗，提高原始数据质量，并对数据进行分类处理。其中，数据清洗的具体操作步骤是将所有电子病历作为一个总文档，记为文档f ₀，修正f ₀中错误单词，去除冗余重复字符，减少噪声数据，提高数据质量，为接下来的实验提供数据保障；分类处理是将数据按照记录抽取出来，随后单独存储成一个文件，形成独立的文本文件，记为文档f ₁,f ₂,…,f _n,具体参照图2。

所述NLP词频统计模块对预处理后的数据进行词频统计，并去除停用词，保存有效关键词，初步构造语义关键词库与生成关键词条；所述关键词语义分析模块对初步构造的语义关键词库中的关键词进行权重分析并归类，生成三个有效语义关键词库；所述主题关系处理模块，对语义关键词库中的关键词进行主题抽取并提纯。所述数据存储模块将所有数据整合存储成统一的json字典格式数据。

所述数据预处理模块包括数据清洗装置和数据分类装置。其中，数据清洗装置对数据库进行数据清洗，减少噪声数据；数据分类装置将清洗后的数据按照记录抽取，并将每条记录单独存储成一个文件，形成独立的文本文件。

所述NLP词频统计模块包括英文分词装置、词性标注装置、停用词去除装置、特殊字符去除装置、词频统计装置和词频存储装置。其中，英文分词装置，按照英文句子中的空格将单词划分；词性标注装置，对划分好的英文单词进行词性标注；停用词去除装置，对英文单词中的停用词进行去除，例如：it,he,she,there；特殊字符去除装置，对特殊字符进行去除。

所述词频统计装置，对经过上述步骤处理后的英文单词进行词频统计，只保留名词与形容词及其词频，对总文档进行NLP词频统计后得到的词频表定义为wl，对记录型文档进行NLP词频统计后得到的词频表定义为w _t1 ，w _t2 ，…,w _tn。一般来说，一句话中，名词可以体现该语句75%-85%的意思，形容词为15%左右，剩下动词、介词等只有5%的比重。故大多数的动词、介词等都是干扰词，只保留名词及形容词可以提高关键词的质量，从而提高信息提取的准确率，且只处理名词与形容词可提高算法的运行效率。

所述词频存储装置，将上述步骤所得词频表按照json字典格式存储，并将单词的词频作为单词的权重存储在词频表中，对wl的词频存储按照权重降序存储，对wt1，wt2，…, wtn的存储按照单词在原始文本中单词顺序存储。存储格式具体为：

[

{word:’keywords1’,weight:’number1’}，

{word:’keywords2’,weight:’number2’}，

……

{word:’keywordsn’,weight:’numbernn’}

]

参照图3，所述关键词语义分析模块包括WFA权重频分析装置、权重频数学期望计算装置、权重频方差计算装置和语义关键词库构造装置。该模块的主要任务是对NLP词频统计模块得到的语义关联语料库wl进行词语聚合，且只对语义关联语料库wl进行处理。该种方式保证了最终得到的语料库的完整性，以及主题提取的准确性。该模块具体处理步骤为：

步骤(1)：根据NLP词频统计得到的词频利用公式:wt=n ₁ *1+n ₂ *2+…+n _k *k计算所有权重下的语义关键词总权重，n _k为权重为k的单词的总个数,即将所有权重下的单词分别于它们权重相乘之后相加，得到wt。

步骤(2)：针对各个权重，利用公式：wf=n _k *k/wt对每个权重计算其权重频，并构造权重频表，权重频的作用是对计算wf中各权重下的词语占语料库wl的比重，根据权重频也可对语料库wl下的各权重的比重有大概的了解。

步骤(3)：根据权重频表计算权重频的数学期望与方差，其中数学期望E _（w） =k*wf _k。计算权重频的数学期望主要有两个作用：（1）反应权重频的平均取值大小；（2）为接下来的方差计算提供数据基础，以此对wl的离散程度有个初步认知。

步骤(4)：设总权重范围为L,根据公式: 设定初始/>，并根据公式l _i+1 ←l _i/>再次调整权重范围。该步骤的具体过程为：根据步骤3的得到的权重频期望E _（w）与原始权重范围长度L重新设定一个权重范围l _i，该范围的起始位置为E _(w) -L/3向下取整点，结束位置为E _(w) + L/3的向上取整点，并计算/>，/>。然后根据公式l _i+1 ←l _i/> ，每次将l _i向外扩充/>长度，重新赋值给权重范围l _i，并再次计算/>。每次比较/>的大小，直至得到最小的/>，并将重新设定的权重范围记为词/>下的l _i长度。

对于权重范围的扩张长度，理论上是越小越好，最好的增长速度是以长度1增长，但考虑到输入数据量大，得到的权重范围较广，以1位增长速度会导致系统计算量成倍增长，影响算法效率。经过实践验证，选取作为整张速度效果较好。对于权重范围的重新设置，本系统只采取将权重范围向外扩张的策略。因从医疗数据抽取出的语料库的语义集中点在E _(w)附近，扩大l _i的范围可将更多的语料用于主要主题的提取，是提取出的主题更加完善与准确。

步骤(5)：计算新权重范围的方差，/>,并且不断调整新的权重范围，求新权重范围的方差，选取最小方差下的权重范围为最优范围。其中，方差/>。

步骤(6)：方差最小的权重范围设为l，对l之前的权重范围设为l ₀，之后的权重范围设为l ₁，根据l ₀，l，l ₁构建语义关键词库。对记录型文档f ₁,f ₂,…,f _n进行NLP词频统计后得到的词频w ₁ ,w ₂ ,…,w _n按照单词在原始文本中单词顺序存储。

所述主题关系处理模块包括贝叶斯提取装置、WTF分析装置和主题关系提纯装置。主要任务是根据关键词权重分析模块得到的三个语料库，利用基于贝叶斯公式的新公式对语料进行初步的主题提取。随后分析提取出主题的WTF值，对提取出的主题进行优化。其中，所述贝叶斯提取装置的具体步骤为：

步骤(1)：根据词频表中的语义关键词A,B定义关系R₁={AB}；

步骤(4)：定义wt为所有权重下的单词分别乘各自权重后相加的值，定义w _i为每个关键词的权重，对主题关系库中的所有关系使用公式:计算主题关系的wtf值。P（ABC）作为R₃的概率作为基础值，/>体现了关键词A,B,C占总词库的重要度，/> 体现了同时包含关键词A,B,C文件的重要度，三者的成绩构成了关系/>的wtf值，该值作为关系的最终重要度评判标准用于接下来的主题优化；

综上所述，本发明是基于数据挖掘算法用于文本数据挖掘的方法，针对医疗数据的数据类型复杂，数据噪声大，生僻词汇较多等特点，对其采用了全新的数据预处理方式，得到三个语料库l、l ₀、l ₁。本系统的语料库生成算法保证了语料库的完整性与准确性。主题提取创造性地使用了wtf,用于评判抽取出的主题的重要度，并据此来对主题进行优化。本发明所述算法全面考虑到影响电子病历的语义挖掘与关联关系提取的多重因素，可以根据电子病历比较系统准确地挖掘语义，建立语义关键词库，并由此提取出关系。本发明在算法上进行了全新的设计，提取出的语料库更加完整准确，得到的主题关系更加紧密，其方法科学合理，实用性强。

前述已通过框图、流程图和/或实施例子进行了详细描述，阐明了本申请装置和/或方法的不同实施方式。当这些框图、流程图和/或实施例包含一个或多个功能和/或操作时，本领域的技术人员会明白，这些框图、流程图和/或实施例中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。

本领域的技术人员会认识到，以本说明书中说明的方式描述装置和/或方法，然后进行工程实践以将所描述的装置和/或方法集成到数据处理系统中，在本领域里是很常见的。也就是说，本说明书中描述的装置和/或方法中的至少一部分，可通过合理数量的实验集成到数据处理系统中。对于本说明书中所用的基本上任何复数和/或单数术语，本领域的技术人员可以将复数解释为单数和/或将单数解释为复数，只要这样做从上下文和/或应用上看是合适的即可。为了清楚起见，在本说明书中可能将各种单数/复数组合明确地表述出来。

本申请中公开了本申请的多个方面和实施方式，本领域的技术人员会明白本申请的其它方面和实施方式。本申请中公开的多个方面和实施方式只是用于举例说明，并非是对本申请的限定，本申请的真正保护范围和精神应当以下面的权利要求书为准。

Claims

1.基于上下文语义分析的医疗主题管理系统，其特征在于，包括：数据存储模块、数据预处理模块、NLP词频统计模块、关键词语义分析模块和主题关系处理模块；

所述数据存储模块用于存储原始数据，构造数据库整体；

所述数据预处理模块基于数据库中的原始数据对数据进行数据清洗，提高原始数据质量，并对数据进行分类处理；

所述NLP词频统计模块对预处理后的数据进行词频统计，并去除停用词，保存有效关键词，初步构造语义关键词库与生成关键词条；

所述关键词语义分析模块对初步构造的语义关键词库中的关键词进行权重分析并归类，生成三个有效语义关键词库；

所述主题关系处理模块，对语义关键词库中的关键词进行主题抽取并提纯；

所述数据预处理模块包括数据清洗装置和数据分类装置；

所述数据清洗装置对数据库进行数据清洗，减少噪声数据；

所述数据分类装置将清洗后的数据按照记录抽取，并将每条记录单独存储成一个文件，形成独立的文本文件；

所述NLP词频统计模块包括英文分词装置、词性标注装置、停用词去除装置、特殊字符去除装置、词频统计装置和词频存储装置；

所述英文分词装置，按照英文句子中的空格将单词划分；

所述词性标注装置，对划分好的英文单词进行词性标注；

所述停用词去除装置，对英文单词中的停用词进行去除；

所述特殊字符去除装置，对特殊字符进行去除；

所述词频统计装置，对经过上述步骤处理后的英文单词进行词频统计，只保留名词与形容词及其词频，对总文档进行NLP词频统计后得到的词频表定义为wl，对记录型文档进行NLP词频统计后得到的词频表定义为w_t1，w_t2，…,w_tn；

所述词频存储装置，将上述步骤所得词频表按照json字典格式存储，并将单词的词频作为单词的权重存储在词频表中，对wl的词频存储按照权重降序存储，对w_t1，w_t2，…,w_tn的存储按照单词在原始文本中单词顺序存储；

所述关键词语义分析模块包括WFA权重频分析装置、权重频数学期望计算装置、权重频方差计算装置和语义关键词库构造装置；

所述关键词语义分析模块只对wl进行处理，具体处理步骤为：

步骤(1)：根据NLP词频统计得到的词频利用公式:wt＝n₁*1+n₂*2+…+n_k*k计算所有权重下的语义关键词总权重；

步骤(2)：针对各个权重，利用公式：wf＝n_k*k/wt对每个权重计算其权重频，并构造权重频表；

步骤(3)：根据权重频表计算权重频的数学期望与方差；

步骤(4)：设总权重范围为L,根据公式:设定初始l_i，并根据公式/>再次调整权重范围；

步骤(6)：方差最小的权重范围设为l，对l之前的权重范围设为l₀，之后的权重范围设为l₁，根据l₀，l，l₁构建语义关键词库；

所述主题关系处理模块包括贝叶斯提取装置、WTF分析装置和主题关系提纯装置；

所述贝叶斯提取装置的具体步骤为：

步骤(1)：根据词频表中的语义关键词A,B定义关系R₁＝{AB}；

步骤(3)：对预选主题关系库中的关系利用公式：进行关系筛选，若p＞0,则将关系R₁＝{AB}添加进主题关系库；关于抽取出的关系遵循关系传递原则，即若A,B存在关系R₁＝{AB}，B,C存在关系R₂＝{BC}，则认为A,B,C同时存在关系，添加关系R₃＝{ABC}进主题关系库；

步骤(4)：定义wt为所有权重下的单词分别乘各自权重后相加的值，定义w_i为每个关键词的权重，对主题关系库中的所有关系使用公式:计算主题关系的wtf值；

步骤(5)：比较R₃与R₁，R₂的wtf值，若R₃同时大于R₁，R₂，则将R₁，R₂从主题关系库中去除，只保留R₃，否则保留关系R₁，R₂，对提取出的主题关系提纯。

2.根据权利要求1所述的基于上下文语义分析的医疗主题管理系统与方法，其特征在于，所述数据存储模块将所有数据整合存储成统一的json字典格式数据。