CN108133752A

CN108133752A - 一种基于tfidf的医学症状关键词提取优化及回收方法和系统

Info

Publication number: CN108133752A
Application number: CN201711396256.9A
Authority: CN
Inventors: 吕军震; 尹建波; 胥洪锋; 于国方; 李长松; 武佳
Original assignee: XINBO ZHUOCHANG TECHNOLOGY (BEIJING) Co Ltd
Current assignee: XINBO ZHUOCHANG TECHNOLOGY (BEIJING) Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-06-08

Abstract

本发明提供一种基于TFIDF的医学症状关键词提取优化及回收方法和系统，其中方法包括收集大规模病例，包括以下步骤：将所述大规模病例按照科室分类，提取主诉部分并进行分词；针对每一个科室计算各个词语优化后的TFIDF；按照词语回收法获得最终结果。本发明是对现有的词语权重评价方法进行优化，除考虑词语在科室的权重排名外，还考虑了词语在所有科室的重要程度，进而根据权重大小选出能代表各科室的关键词，提高提取各科室的关键症状的准确性、有效性，以方便病人根据自己的症状准确找到相应的科室进去挂号就医。

Description

一种基于TFIDF的医学症状关键词提取优化及回收方法和系统

技术领域

本发明涉及医学数据提取的技术领域，特别是一种基于TFIDF的医学症状关键词提取优化及回收方法和系统。

背景技术

随着医学信息的不断膨胀和扩张，对医学术语的关键词进行正确提取变得越来越重要，这不仅可以快速帮助病人找到相应的科室进行挂号就医，还可以提高整体的就医效率。

病历是医务人员对患者疾病的发生、发展、转归进行检查、诊断、治疗等医疗活动过程的记录，也是对采集到的资料加以归纳、整理、综合分析并按规定的格式和要求书写的患者医疗健康档案。主诉是现病史和入院记录的高度概括，更是整份病历的精华。

医院科室和病症状况繁多，病人很难根据自己的症状在短时间内进行初步的判断并挂号，因此我们建立了智能导诊系统，抽取出各科室关键症状词，方便病人挂号就医。

词语权重评价方法是文本文件提取重要关键词的常用方法，其原理是根据词语的权重进行排序。目前常用的关键词提取方法有 TextRank方法和TFIDF方法，两者都存在着一定的缺点：TextRank 方法将两个顶点词语的初始权重设为1，忽略了词语本身的属性、文档的篇章结构及句子的上下文信息；在应用TFIDF方法提取某科室中关键症状时，若在单个科室计算词语权重，计算结果受高频症状词语干扰较大，而若以所有科室为计算总文档，计算结果的抽取阈值难以统一以至于词语难以实现自动化。

百度文库公开了题目为《一种基于TFIDF方法的中文关键词抽取算法》 (https://wenku.baidu.com/view/523cf33567ec102de2bd8964.html)，该文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF 方法的中文关键词抽取算法。该算法在对文本进行自动分词后,用 TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词。在该算法中，当某个关键词的词频很低时，将难以被算法识别，如果将该算法应用到医学领域中，由于某症状的发病率不高，导致其症状关键词在医院的主诉中出现的频率很低，就会出现关键词被忽略的情况。

发明内容

为了解决上述的技术问题，本发明提出一种基于TFIDF的医学症状关键词提取优化及回收方法，考虑了词性的重要性、每个词在各科室出现的不同情况以及每个词在多个病历主诉里面出现的频繁程度，并基于词语在各个科室的排名情况，对词语进行按科室分类，从而使得到的结果更客观更准确。

本发明的第一目的是提供一种基于TFIDF的医学症状关键词提取优化及回收方法，包括使用计算机收集大规模病例并建立数据库，包括以下步骤：

步骤1：将所述大规模病例按照科室分类，提取主诉部分并进行分词；

步骤2：针对每一个科室计算各个词语优化后的TFIDF；

步骤3：按照词语回收法获得最终结果。

优选的是，所述分词方法为使用分词器加自定义字典分词，分词结果去除数词与标点符号。

在上述任一方案中优选的是，所述步骤2还包括将每个科室的病历的所述主诉当作一个总文档，每一条病历的所述主诉作为一个小文档。

在上述任一方案中优选的是，词频TF是指词语出现的频率，所述词频TF的计算公式为其中，n_i表示词语在某科室中出现的次数，N_i表示该科室的文档总数，α_w表示给予各词性的权重。

在上述任一方案中优选的是，逆向文件频率IDF是指词语普遍性的度量，所述逆向文件频率IDF的计算公式为其中， n表示某词出现的文档数，N表示总文档数。

在上述任一方案中优选的是，全局IDF的计算公式为其中，GIDF表示全局IDF,K表示参与计算的总科室数目，表示症状词语出现的概率。

在上述任一方案中优选的是，最终的计算公式为

WPFG＝TFfDF×GIDF^m，其中，TFIDF＝TF×IDF，m为任意自然数，表示GIDF的幂运算。

在上述任一方案中优选的是，所述词语回收法是指将出现在多个科室的所述主述中的症状词语回收到所述症状词语本来属于的科室。

在上述任一方案中优选的是，所述步骤3为计算词语的最终结果按权重排名后，每个词在不同的科室中有不同的排名。取计算结果中权重较高的词语，并按科室进行回收分类。

在上述任一方案中优选的是，所述步骤3包括以下子步骤：

步骤31：查看每个词语出现的科室以及词语在这些科室的排名 PM；

步骤32：针对所述排名PM对科室进行升序排名，取排名靠前的前s位，s越小，取得的结果越严格；

步骤33：得到上一步科室后，将词语划分到上述科室。

本发明的第二目的是提供一种基于TFIDF的医学症状关键词提取优化及回收系统，包括使用计算机收集大规模病例并建立数据库的收集模块，包括以下模块：

分类模块：将所述大规模病例按照科室分类，提取主诉部分并进行分词；

优化模块：针对每一个科室计算各个词语优化后的TFIDF；

回收模块：按照词语回收法获得最终结果。

在上述任一方案中优选的是，所述分词方法为使用分词器加自定义字典分词，分词结果去除数词与标点符号。

在上述任一方案中优选的是，所述优化模块具有将每个科室的病历的所述主诉当作一个总文档，每一条病历的所述主诉作为一个小文档的功能。

在上述任一方案中优选的是，词频TF是指词语出现的频率，所述词频TF的的计算公式为其中，n_i表示词语在某科室中出现的次数，N_i表示该科室的文档总数，α_w表示给予各词性的权重。

在上述任一方案中优选的是，最终的计算公式为 WPFG＝TFIDF×GIDF^m,其中，TFIDF＝TF×IDF,m为任意自然数，表示GIDF的幂运算。

在上述任一方案中优选的是，所述回收模块具有计算词语的最终结果按权重排名后，每个词在不同的科室中有不同的排名。取计算结果中权重较高的词语，并按科室进行回收分类的功能。

在上述任一方案中优选的是，所述回收模块包括以下子模块：

排名查看子模块：查看每个词语出现的科室以及词语在这些科室的排名PM；

科室排名子模块：针对所述排名PM对科室进行升序排名，取排名靠前的前s位，s越小，取得的结果越严格；

划分子模块：得到上一步科室后，将词语划分到上述科室。

本发明提出基于TFIDF的医学症状关键词提取优化及回收方法，通过优化TFDIF方法在提取各科室的关键症状的准确性、有效性，以方便病人根据自己的症状准确找到相应的科室进去挂号就医。

附图说明

图1为按照本发明的基于TFIDF的医学症状关键词提取优化及回收方法的一优选实施例的流程图。

图2为按照本发明的基于TFIDF的医学症状关键词提取优化及回收系统的一优选实施例的模块图。

图3为按照本发明的基于TFIDF的医学症状关键词提取优化及回收方法的如图1所示实施例的实例优化回收流程图。

图4为按照本发明的基于TFIDF的医学症状关键词提取优化及回收方法的词语按权重排名划分科室的如图1所示实施例的流程图。

图5为按照本发明的基于TFIDF的医学症状关键词提取优化及回收方法的词语回收方法的如图1所示实施例的示例图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1、图2所示，执行步骤100，收集模块200使用计算机收集大规模病例并建立数据库。执行步骤110，分类模块210将收集模块200收集到的大规模病例按科室分类，提取其中的主诉部分并对其进行分词，用分词器加自定义字典分词，分词结果去除数词与标点符号。执行步骤120，优化模块220针对一个科室计算各个词语优化后的TFIDF，将每个科室的病历主诉当作一个总文档，每一条病历的主诉作为一个小文档。词频TF是指词语出现的频率，词频TF的计算公式为其中，n_i表示词语在某科室中出现的次数，N_i表示该科室的文档总数，α_w表示给予各词性的权重。逆向文件频率IDF是指词语普遍性的度量，所述逆向文件频率IDF的计算公式为其中，n表示某词出现的文档数，N表示总文档数。全局IDF的计算公式为其中，GIDF表示全局IDF,K 表示参与计算的总科室数目，表示症状词语出现的概率。最终得到带惩罚的全局IDF计算WPFG，WPFG的计算公式为 WPFG＝TFIDF×GIDF^m,其中，TFIDF＝TF×IDF,在本实施例中， m＝2，表示GIDF的幂运算，影响不同词性计算词语排名的结果。执行步骤130，使用回收模块230中的排名查看子模块231查看每个词语出现的科室以及词语在这些科室的排名PM。执行步骤140，使用回收模块230中的科室排名子模块232针对排名PM对科室进行升序排名，取排名靠前的前s位，s越小，取得的结果越严格。执行步骤150，得到上一步科室后，使用回收模块230中划分子模块233将词语划分到上述科室。

WPFG是Weight-Punished Fomula Global IDF的简称形式。

实施例二

TFIDF方法主要是词频TF与逆向文件频率IDF的乘积，TF是词语出现的频率，IDF是词语普遍性的度量。此方法会更倾向于一些低频词，而忽略一些重要的高频词，这时TFIDF会因为其在多个文档出现而给予该词较低的权重，不能因为其在文档的重要性不同而给予不同的权重。本发明主要是对现有的词语权重评价方法进行优化，除考虑词语在科室的权重排名外，还考虑了词语在所有科室的重要程度，进而根据权重大小选出能代表各科室的关键词。

本发明的目的就是优化TFDIF方法在提取各科室的关键症状的准确性、有效性。以方便病人根据自己的症状准确找到相应的科室进去挂号就医。

如图3所示，执行步骤300，打开计算机中的数据库。执行步骤301，提取大规模病例中的主诉数据。执行步骤302，对主诉数据进行自定义分词。执行步骤303，获得词语、词性。执行步骤304，从获得的词语中去除停用词。执行步骤305，获得各科室主诉分词后的结果。执行步骤306，以科室为单个文档计算全局IDF值。在执行步骤306的同时，顺序执行步骤307和步骤308，以每条主诉为单个文档计算每个科室中每个词语的TFIDF值，并在TFIDF的基础上乘以词性权重。将步骤306和步骤308的结果合并，执行步骤309，将每个科室每个词语的改进TFIDF 值乘以该词语全局IDF的平方，并存入数据库。执行步骤310，选定待分类的词语，从表中获取包含该词语的科室。执行步骤311，科室按词语排名进行到排序。执行步骤312，选取排名靠前的2个科室。执行步骤313，如果该词语在科室中的权重排名位于前100，则将该词语分到该科室。

实施例三

本发明的主要思路如下：首先，使用计算机对各科室的病历进行分词，分词过程中加入医学名词的自定义字典。并根据TFIDF方法求每个词的初始权重，同时，将词语中的症状体征，疾病名称，解剖部位和修饰词分别赋予不同的权重α_w。将TFIDF的值乘以词性权重α_w, 接着每个词语的TFIDF值与其在所有科室的全局IDF结合，得到一个新的权重值，利用上面得到的结果将词语进行按权重排名，相同的词语在不同科室有不同的排名，按照此排名对科室进行排序，取排序靠前的科室，若该词语在这些科室中的权重排名在前100，将词语纳入这些科室中。

本发明采用下述的技术方案,具体步骤如下：

(1)使用计算机收集大规模病历，建立数据库并按科室分类，提取其中的主诉部分并对其进行分词，用分词器加自定义字典分词，分词结果去除数词与标点符号。

(2)下面是针对一个科室计算各个词语优化后的TFIDF，将每个科室的病历主诉当作一个总文档，每一条病历的主诉作为一个小文档。

因为各词语出现的次数以及词语的词性等都是影响词语重要性的关键因素，尤其是不同词性的词语的作用程度也不尽相同，同时主诉中不同位置的词语其重要性也不相同，但实验效果表明，词语位置对词语权重的影响没有词性大。所以本发明在综合考虑两者影响因素的基础上对TF计算公式进行了优化。

原有的TF公式：

优化的TF公式：

IDF的计算公式：

全局IDF的计算公式为

其中，n_i表示词语在某科室中出现的次数，N_i表示该科室的文档总数，α_w表示给予各词性的权重，各个词性权重赋值如表一。GIDF表示全局IDF,K表示参与计算的总科室数目。

词性	症状体征	疾病名称	解剖部位	修饰词	其他
						权重	15	10	8	6	1

表一各词性赋予的权重大小

优化的TF可以在词数和词性权重的基础下给出一个合理的词频，IDF可给予一些有代表性的普遍的词语较大的值，两者相乘使权重结果更合理，同时对于医学相关的词汇，其权重都应该适当的增加。同时我们考虑到某些症状会在多数科室出现(如头晕，疼痛等，这些词语并不能代表作为该科室的典型症状)，因此我们从所有科室出发，引入了GIDF，结算结果表明，当病症在多数科室都有出现时，GIDF的排名将会靠后，但词与词之间的GIDF值变化梯度小，为了使词语之间的差距拉开，将GIDF²作为引入对象加入优化的TFIDF，最终到带惩罚的全局IDF计算WPFG，WPFG的计算公式为WPEG＝TFIDF×GIDF²，其中，TFIDF＝TF×IDF，GIDF²表示全局IDF且进行平方运算。

(3)词语回收法：每个科室都有一些关键的词语，这些关键的词语可能是该科室的关键症状，如：“骨折”是骨科的关键症状。实际中一个词语可以出现在多个科室，而这些词语不会代表所有的科室。词语回收方法认为原本按科室归好的词语被用在各个科室中，现在用本发明中的方法将这些主诉中的症状词语回收得到词语本来属于的科室。

计算词语的最终结果按权重排名后，每个词在不同的科室中有不同的排名。取计算结果中权重较高的词语，并按科室进行回收分类，获得最终结果，具体操作过程如下：

如图4所示，执行步骤400，开始进行词语划分。执行步骤410，从优化的TFIDF排名表中选取词语。执行步骤420，查询包含该词语的科室及其在科室内的排名。执行步骤430，对上述查询结果按照其权重排名对科室进行正排序。执行步骤440，选取排名后的前两个科室。执行步骤450，判断词语在该科室排名在前100内。如果该词语在该科室的排名在前100以外，则执行步骤455，将该词语丢弃。如果该词语在该科室的排名在前100名之内，执行步骤460，将该词语划分到该科室。执行步骤470，判断待选择的词语是否已经都被选取。如果还存在待选择的词语，则重新执行步骤410，从优化的TFIDF排名表中选取词语。如果不存在待选择的词语，执行步骤480，词语划分结束。

实施例四

如图4所示，词语“行走不稳”的回收方法如下：

第一步，在数据库中查询到词语“行走不稳”在各个科室的权重排名为：神经内科第10名，脑病脑科第12名，中医科第56名，呼吸内科第58名，消化科第78名。

第二步，按照权重排名进行正排名：神经内科第10名，脑病脑科第12名，中医科第56名，呼吸内科第58名，消化科第78名。

第三步，选取排名后的前两个科室：神经内科第10名，脑病脑科第12名。

第四步，判断在这这两个科室中，词语“行走不稳”均排名在100 名以内。

第五步，将词语“行走不稳”纳入这两个科室。

实施例五

以骨科病例为例，有效率统计如表二所示：

表二方法结果对比

按词的个数排名来计算正确率，按有用词的个数比例来计算有效率。

分别从统计方法计算结果，优化的TFIDF方法计算结果中取骨科计算结果的前100名，同时取回收分类方法获得的结果进行对比。从上述结果可以看出，优化的TFIDF方法的正确率和有效率都获得提升，而有效率也提升了15.8％,引入全局IDF后，有效率又提升了11.4％，而将词语进行回收分类后，有效率进一步提升，如果只取权重排名为前100的词语，则正确率获得显著提升。这说明用我们的方法将词语按科室分类后，科室中筛去了大部分无用的词汇，且有效率的提升表明保留的词语中大多数都属于该科室。

在进行回收分类后，获得的有效词语数的比例提升，而获得的词语总数减少，既要保证数量和质量就在第2步(针对排名PM对科室进行升序排名，取排名靠前的前s位，s越小，取得的结果越严格)停止，若数据量很大，可以使用第3步(得到上一步科室后，将词语划分到上述科室)分类获得可观的词语数量。

实施例六

本方法引入的GIDF对科室推荐结果做了较好的优化，由于GIDF 站在所有科室的角度，考虑了每个词语在多个科室出现的情况，当某词语出现科室越多，该词越普遍，针对这一具体科室越不重要，确定归属科室越困难。不失一般性，下面以口腔科门诊的计算结果为例来说明GIDF的优势。采用对比方法具体说明如下：

表三为口腔科症状词语采用原始TFIDF计算方法的计算结果，计算结果中排名前8中出现“疼痛”，“外伤”等普遍症状，而排名后8 名中出现“颌面部损伤”，“下颌多生牙”等与口腔科门诊相关的症状。与预期不相符，预期结果为：口腔科相关的症状排名应该靠前，与口腔科不相关的症状排名应该靠后。

表三

表四为采用GIDF计算方法的计算结果。从表中可以看出，排名靠前的词语中普遍症状的减少、排名靠后的词语中普遍症状的比例增加。例如，“外伤”的排名由第1位下降为第2位，“疼痛”的排名由第3位下降为第8位。而排名最后的5个症状(排名91-95)都与口腔科门诊相关度很小，GIDF方法对口腔科的症状词语评价给出了有意义的结果。

表四

实施例七

本GIDF方法对于高频词与低频词都可以做出推荐。从参与计算的所有主诉分词中统计出一些常见症状与非常见症状，并为每个症状做科室推荐。推荐的科室最多取三个，统计结果如表五。从表中可以看出，对于高频词语，本方法可以推荐出多个科室，同时该词语与这些推荐科室的相关度比较高。相反对于低频词，本方法亦可以推荐出相关科室，且相关度较高。由于低频词属于不常见症状，所以推荐出的科室数量少于高频词。

表五

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种基于TFIDF的医学症状关键词提取优化及回收方法，包括使用计算机收集大规模病例并建立数据库，其特征在于，包括以下步骤：

步骤2：针对每一个科室计算各个词语优化后的TFIDF；

步骤3：按照词语回收法获得最终结果。

2.如权利要求1所述的基于TFIDF的医学症状关键词提取优化及回收方法，其特征在于：词频TF是指词语出现的频率，所述词频TF的计算公式为其中，n_i表示词语在某科室中出现的次数，N_i表示该科室的文档总数，α_w表示给予各词性的权重。

3.如权利要求2所述的基于TFIDF的医学症状关键词提取优化及回收方法，其特征在于：逆向文件频率IDF是指词语普遍性的度量，所述逆向文件频率IDF的计算公式为其中，n表示某词出现的文档数，N表示总文档数。

4.如权利要求3所述的基于TFIDF的医学症状关键词提取优化及回收方法，其特征在于：全局IDF的计算公式为其中，GIDF表示全局IDF,K表示参与计算的总科室数目，表示症状词语出现的概率。

5.如权利要求4所述的基于TFIDF的医学症状关键词提取优化及回收方法，其特征在于：最终得到带惩罚的全局IDF计算WPFG，WPFG的计算公式为WPFG＝TFIDF×GIDF^m，其中，TFIDF＝TF×IDF，m为任意自然数，表示GIDF的幂运算。

6.一种基于TFIDF的医学症状关键词提取优化及回收系统，包括使用计算机收集大规模病例并建立数据库的收集模块，其特征在于，包括以下模块：

优化模块：针对每一个科室计算各个词语优化后的TFIDF；

回收模块：按照词语回收法获得最终结果。

7.如权利要求6所述的基于TFIDF的医学症状关键词提取优化及回收系统，其特征在于：词频TF是指词语出现的频率，所述词频TF的计算公式为其中，n_i表示词语在某科室中出现的次数，N_i表示该科室的文档总数，α_w表示给予各词性的权重。

8.如权利要求7所述的基于TFIDF的医学症状关键词提取优化及回收系统，其特征在于：逆向文件频率IDF是指词语普遍性的度量，所述逆向文件频率IDF的计算公式为其中，n表示某词出现的文档数，N表示总文档数。

9.如权利要求8所述的基于TFIDF的医学症状关键词提取优化及回收系统，其特征在于：全局IDF的计算公式为其中，GIDF表示全局IDF,K表示参与计算的总科室数目，表示症状词语出现的概率。

10.如权利要求9所述的基于TFIDF的医学症状关键词提取优化及回收系统，其特征在于：最终得到带惩罚的全局IDF计算WPFG，WPFG的计算公式为WPFG＝TFIDF×GIDF^m，其中，TFIDF＝TF×IDF，m为任意自然数，表示GIDF的幂运算。