CN104021302A

CN104021302A - 一种基于贝叶斯文本分类模型的辅助挂号方法

Info

Publication number: CN104021302A
Application number: CN201410273989.3A
Authority: CN
Inventors: 崔晓艳; 王枞; 徐冉; 韩旭; 古恒
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2014-06-18
Filing date: 2014-06-18
Publication date: 2014-09-03

Abstract

本发明提出一种基于贝叶斯文本分类算法的辅助挂号方法，该方法包括：获取症状主诉文本数据并对数据进行预处理；将预处理后的数据利用贝叶斯文本分类算法进行训练；再对训练完毕的挂号辅助分类模型进行评估,最后将性能达到要求的模型应用于网络预约辅助挂号中。其中，利用贝叶斯理论训练的过程中，针对症状主诉数据的特点，从两方面进行了优化，一方面是利用核心症状词表在计算向量权重时赋予绝对权重，另一方面是利用疾病大类和特点，采用分层的贝叶斯模型进行训练。本发明通过训练症状主诉文本数据，获得挂号辅助分类模型，在疾病咨询和挂号咨询等典型场景下，提高了针对患者输入的处理能力。

Description

一种基于贝叶斯文本分类模型的辅助挂号方法

技术领域

本发明涉及一种基于贝叶斯文本分类模型的辅助挂号方法

背景技术

随着计算机软硬件性能的不断提升，人们更加期望计算机能够提供更加智能的人机交互方式，特别是在网络预约和用户自助挂号方面，通过对医疗领域文本数据的挖掘，可以辅助网络用户自助挂号，提高门诊效率。这种机器自动化辅助挂号功能的实现，底层都需要有文本挖掘技术的支持，文本挖掘技术的优劣，直接决定了系统性能的高低，也决定了人机交互效果的好坏。

要实现辅助挂号功能，核心是一个基于患者症状主诉文本数据的分类模型，要建立这个模型，首先要对获得的文本数据进行预处理，然后预处理后的数据用向量空间模型进行表示，再进行特征抽取，选出具有代表性的特征词，最后用朴素贝叶斯分类理论训练，获得辅助挂号模型。

目前，贝叶斯文本分类技术通常应用于web文本分类，判断网页内容属于哪一大类，这部分技术已经相对成熟，能够很好地完成网页信息的自动分类，然而，这一成熟的技术在医疗领域的应用很少，随着各大医院文本数据剧烈增涨，急需一些成熟的文本挖掘技术对这部分数据进行处理，获取有用的信息和知识。

贝叶斯理论有着坚实的概率论和数据统计基础，假设c＝{c₁,c₂,...,c_n}是n个不同类别的集合，给定一个未知类别属性的样本A，P(A)是A的先验概率，P(Ci)是Ci的先验概率。P(A|Ci)是假设类别Ci成立时样本A发生的概率，而我们需要的是给定一个训练样本A时Ci成立的后延概率，即P(Ci|A)。由贝叶斯公式可得：

P (C_{i} | A) = \frac{P (A | C_{i}) P (C_{i})}{P (A)}

对于任意的C_i,C_j∈C(i≠j)有P(C_i|A)＞P(C_j|A)成立，则将样本A的类别判定为Ci。其中条件概率假设采用极大似然估计(maximumlikelihood)的方法进行估计，公式如下：

C_{ml} = \underset{C_{i} &Element; C}{\arg \max} P (A {| C}_{i})

由朴素贝叶斯分类算法的条件独立性假设，得

P (C_{i} | A) &Proportional; P (C_{i}) Π_{k = 1}^{n} P (a_{k} | C_{i})

朴素贝叶斯分类模型的公式可表示为：

C_{nb} (A) = \underset{C_{i} &Element; C}{\arg \max} P (C_{i}) Π_{k = 1}^{n} P (a_{k} | C_{i})

其中Si是训练样本中属于类Ci的实例数，S是训练总样本数，

P(a₁|C_i),P(a₂|C_i),...,P(a_n|C_i)可由训练样本估计得出。

朴素贝叶斯分类模型具有简单，高效的优势，稳定性较强，但其要求条件属性间满足条件独立假设，许多学者研究朴素贝叶斯分类模型的改进方法，大多通过放松条件独立性假设，以提高分类器性能，如SNBC和TAN，针对通用模型的改进有一个缺点，即这种分类模型在某一领域的效果很好，但很可能在另一领域的效果就不理想，例如在金融行业效率很高的模型应用到医疗行业往往达不到要求。

发明内容

本发明的目的是提供一种能够切合症状主诉特点的贝叶斯分类模型，能够通过症状主诉语料的训练获得辅助挂号模型的方法。

针对医疗领域的文本数据特征，本发明对现有的贝叶斯分类器进行了改进优化，使其针对医疗文本有更好的分类效果，并将挖掘出的分类模型用于网络辅助预约挂号，能够起到指导就医的作用。

本发明解决其技术问题所采用的技术方案是：将贝叶斯文本分类技术应用于症状主诉文本数据，训练后的模型能够通过症状主诉辅助网络预约用户挂号。

在第一方面，在自然语言处理环节，引入症状词表进行分词，针对疾病主诉数据特征，优化分词结果；

在第二方面，本发明采用加权的贝叶斯分类模型，使用改进的TF-IDF公式计算权重的同时，引入核心词表，给每类疾病的核心症状词赋予绝对权重，以优化分类的准确率和性能；

在第三方面，本发明采用分层的贝叶斯模型，针对疾病有疾病大类和疾病所属科室的特征，将分类过程划分层次，即先推荐挂号的科室和疾病大类，如果查询词仍具有辨别力，再进一步推荐对证专科专家，如果不具有辨别力，则仅返回疾病大类和科室，不再做进一步分类；

最后，本专利将该分类模型应用到辅助挂号中，可以辅助网络预约用户挂号，能够通过输入主诉症状,获得对症专科专家。

本发明的有益效果是：通过训练疾病主诉文本数据，获得一个基于贝叶斯分类的辅助挂号模型，处理用户症状主诉输入，并将其应用于辅助挂号中，提高了网络预约流程人机交互环节的效率，尤其是在疾病咨询和挂号咨询等典型场景下，提高了针对用户输入的处理能力。

附图说明

无

具体实施方式

下面对本发明的具体实施方式做进一步说明。

基于贝叶斯算法的文本分类模型主要包括以下几个过程：文本数据预处理、文本表示、特征抽取、数据训练，模型评估，模型应用。

首先，对获取的文本病例数据进行数据预处理，每种疾病都需要数据进行训练，将一段文本通过分词拆分成一个字或者词，再去掉一些不具有类别代表性的词，如“的、在、有、是”等等；

然后利用向量空间模型将预处理后的数据表示成一个由词和权重对组成的向量，再分别计算各个特征词的权重；

本发明采用的特征权重的计算方法为Salton与1973年提出的TFIDF算法，并进行了归一化处理，TFIDF算法公式为：

TFIDF＝TF(w_k)_i×IDF(w_k)

TF(wk)i为i类疾病的病例中，特征词wk出现的频率，IDF(wk)为出现特征词wk的病例数的倒数，公式为:

IDF (w_{k}) = \log (\frac{| N |}{N_{wk}} + L)

其中|N|为病例集的总病例数，N_wk为出现特征词w_k的病例数，L的值通常由实验决定，暂取0.01，idf的思想是在大多数病例中出现的特征词鉴别能力较弱，应降低该词的权重。

最后归一化的权重计算公式为：

w_{ki} = \frac{TF {(w_{k})}_{i} \times IDF (w_{k})}{\sqrt{Σ_{k = 1}^{n} {(TF {(w_{k})}_{i} \times IDF (w_{k}))}^{2}}}

W_ki为第K个特征词在第i类疾病的权重，n表示特征项的维数。

权重计算完成后，进行数据训练，即计算每种疾病的先验概率，和加权的条件概率，加权条件概率的计算公式如下：

P (T_{j} | C_{i}) = Π_{k = 1}^{n} P (w_{k} | C_{i}) \times w_{ki}

其中P(tj|ci)表示第j个txt文本病例属于第i种疾病的概率。

以上步骤完成后，基于贝叶斯分类的挂号辅助模型就建立完成了，接下来需要对建立的模型准确度进行的测试评估，测试结果满足要求后就可以应用该模型进行网络辅助挂号。

正确地评估分类器的性能是文本分类领域中一个非常重要且复杂，常用的分类性能评估方法有：保持法、随机二次抽样、k-折交叉验证和自助法，以检验模型的稳定性及泛华能力。常用的评价指标有：准确率、召回率、BEP(Break-evenpoints)、F-Meatrue等。

根据获得的数据特征，本发明采用3-折交叉验证的方法，即先将数据分为相同大小的3个子集，选择其中两个个子集作为训练集，剩余的一个子集作为检验集，然后交换，使得每份数据都用于检验一次，总误差是3次运行的误差之和。选用的评价指标为：准确率、召回率和F值。

挂号辅助模型性能达到要求后，可将该模型应用到实用场景。本发明将性能达标的贝叶斯挂号辅助模型应用到网络预约挂号系统和自助挂号机中，可通过输入主诉症状，推荐对证的专科专家，以辅助用户自助挂号就医。

Claims

1.一种基于贝叶斯文本分类模型的挂号辅助方法，包括：

对获得的症状主诉文本数据进行预处理；

根据预处理后的数据，训练获得挂号辅助模型；

对得到的挂号辅助分类模型进行评估；

将评估达到要求的模型应用到网络预约挂号系统中进行辅助挂号；

其中，挂号辅助模型是利用贝叶斯文本分类算法训练获得，并根据症状主诉文本数据特征进行了优化。

2.根据权利要求1所述的方法，其中对获得的症状主诉文本数据进行预处理步骤还包括：

中文分词和去停用词，其中中文分词利用症状词表，针对症状主诉文本数据对分词器性能进行优化；去停用词则利用针对疾病主诉文本数据建立的常见停用词表，去掉不具有辨别力的词。

3.根据权利要求1所述的方法，其中根据预处理后的数据，训练获得挂号辅助模型还包括：

根据改进的tf-idf公式对每种疾病向量关键词赋予权重；

根据疾病典型症状词表，为每种疾病的典型症状词赋予绝对权重；

利用分层的贝叶斯算法对加权文本向量进行训练。

4.根据权利要求1所述的方法，对得到的挂号辅助模型进行评估还包括：利用准确率、召回率和F值评价指标和3-折交叉验证的方法建立评估模型，对该模型性能进行评估。

5.根据权利要求1所述的将评估达到要求的挂号辅助模型应用到挂号系统中进行辅助挂号还包括，根据患者输入的主诉症状数据，推荐其对证的专科专家,指导其就医。

6.根据权利要求5所述的模型应用，还包括：

对患者输入的主诉症状进行分词，去停用词，根据症状词表和停用词表抽取具有鉴别力的关键词，并建立关键词向量，再根据keyword表给向量中的词赋予权重，最后根据贝叶斯概率模型，计算各类疾病的概率，获取概率最大的前5条疾病列表，再进行专科专家匹配。

7.根据权利要求3所述的分层贝叶斯算法还包括：

利用疾病大类和疾病所属科室将分类过程划分层次，即先推荐挂号科室和疾病大类，如果仍具有辨别力，再进一步对证的专科专家，如果不具有辨别力，则仅返回疾病大类和科室，不再做进一步分类。