CN104021302A - 一种基于贝叶斯文本分类模型的辅助挂号方法 - Google Patents
一种基于贝叶斯文本分类模型的辅助挂号方法 Download PDFInfo
- Publication number
- CN104021302A CN104021302A CN201410273989.3A CN201410273989A CN104021302A CN 104021302 A CN104021302 A CN 104021302A CN 201410273989 A CN201410273989 A CN 201410273989A CN 104021302 A CN104021302 A CN 104021302A
- Authority
- CN
- China
- Prior art keywords
- symptom
- training
- disease
- model
- bayes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提出一种基于贝叶斯文本分类算法的辅助挂号方法,该方法包括:获取症状主诉文本数据并对数据进行预处理;将预处理后的数据利用贝叶斯文本分类算法进行训练;再对训练完毕的挂号辅助分类模型进行评估,最后将性能达到要求的模型应用于网络预约辅助挂号中。其中,利用贝叶斯理论训练的过程中,针对症状主诉数据的特点,从两方面进行了优化,一方面是利用核心症状词表在计算向量权重时赋予绝对权重,另一方面是利用疾病大类和特点,采用分层的贝叶斯模型进行训练。本发明通过训练症状主诉文本数据,获得挂号辅助分类模型,在疾病咨询和挂号咨询等典型场景下,提高了针对患者输入的处理能力。
Description
技术领域
本发明涉及一种基于贝叶斯文本分类模型的辅助挂号方法
背景技术
随着计算机软硬件性能的不断提升,人们更加期望计算机能够提供更加智能的人机交互方式,特别是在网络预约和用户自助挂号方面,通过对医疗领域文本数据的挖掘,可以辅助网络用户自助挂号,提高门诊效率。这种机器自动化辅助挂号功能的实现,底层都需要有文本挖掘技术的支持,文本挖掘技术的优劣,直接决定了系统性能的高低,也决定了人机交互效果的好坏。
要实现辅助挂号功能,核心是一个基于患者症状主诉文本数据的分类模型,要建立这个模型,首先要对获得的文本数据进行预处理,然后预处理后的数据用向量空间模型进行表示,再进行特征抽取,选出具有代表性的特征词,最后用朴素贝叶斯分类理论训练,获得辅助挂号模型。
目前,贝叶斯文本分类技术通常应用于web文本分类,判断网页内容属于哪一大类,这部分技术已经相对成熟,能够很好地完成网页信息的自动分类,然而,这一成熟的技术在医疗领域的应用很少,随着各大医院文本数据剧烈增涨,急需一些成熟的文本挖掘技术对这部分数据进行处理,获取有用的信息和知识。
贝叶斯理论有着坚实的概率论和数据统计基础,假设c={c1,c2,...,cn}是n个不同类别的集合,给定一个未知类别属性的样本A,P(A)是A的先验概率,P(Ci)是Ci的先验概率。P(A|Ci)是假设类别Ci成立时样本A发生的概率,而我们需要的是给定一个训练样本A时Ci成立的后延概率,即P(Ci|A)。由贝叶斯公式可得:
对于任意的Ci,Cj∈C(i≠j)有P(Ci|A)>P(Cj|A)成立,则将样本A的类别判定为Ci。其中条件概率假设采用极大似然估计(maximumlikelihood)的方法进行估计,公式如下:
由朴素贝叶斯分类算法的条件独立性假设,得
朴素贝叶斯分类模型的公式可表示为:
其中Si是训练样本中属于类Ci的实例数,S是训练总样本数,
P(a1|Ci),P(a2|Ci),...,P(an|Ci)可由训练样本估计得出。
朴素贝叶斯分类模型具有简单,高效的优势,稳定性较强,但其要求条件属性间满足条件独立假设,许多学者研究朴素贝叶斯分类模型的改进方法,大多通过放松条件独立性假设,以提高分类器性能,如SNBC和TAN,针对通用模型的改进有一个缺点,即这种分类模型在某一领域的效果很好,但很可能在另一领域的效果就不理想,例如在金融行业效率很高的模型应用到医疗行业往往达不到要求。
发明内容
本发明的目的是提供一种能够切合症状主诉特点的贝叶斯分类模型,能够通过症状主诉语料的训练获得辅助挂号模型的方法。
针对医疗领域的文本数据特征,本发明对现有的贝叶斯分类器进行了改进优化,使其针对医疗文本有更好的分类效果,并将挖掘出的分类模型用于网络辅助预约挂号,能够起到指导就医的作用。
本发明解决其技术问题所采用的技术方案是:将贝叶斯文本分类技术应用于症状主诉文本数据,训练后的模型能够通过症状主诉辅助网络预约用户挂号。
在第一方面,在自然语言处理环节,引入症状词表进行分词,针对疾病主诉数据特征,优化分词结果;
在第二方面,本发明采用加权的贝叶斯分类模型,使用改进的TF-IDF公式计算权重的同时,引入核心词表,给每类疾病的核心症状词赋予绝对权重,以优化分类的准确率和性能;
在第三方面,本发明采用分层的贝叶斯模型,针对疾病有疾病大类和疾病所属科室的特征,将分类过程划分层次,即先推荐挂号的科室和疾病大类,如果查询词仍具有辨别力,再进一步推荐对证专科专家,如果不具有辨别力,则仅返回疾病大类和科室,不再做进一步分类;
最后,本专利将该分类模型应用到辅助挂号中,可以辅助网络预约用户挂号,能够通过输入主诉症状,获得对症专科专家。
本发明的有益效果是:通过训练疾病主诉文本数据,获得一个基于贝叶斯分类的辅助挂号模型,处理用户症状主诉输入,并将其应用于辅助挂号中,提高了网络预约流程人机交互环节的效率,尤其是在疾病咨询和挂号咨询等典型场景下,提高了针对用户输入的处理能力。
附图说明
无
具体实施方式
下面对本发明的具体实施方式做进一步说明。
基于贝叶斯算法的文本分类模型主要包括以下几个过程:文本数据预处理、文本表示、特征抽取、数据训练,模型评估,模型应用。
首先,对获取的文本病例数据进行数据预处理,每种疾病都需要数据进行训练,将一段文本通过分词拆分成一个字或者词,再去掉一些不具有类别代表性的词,如“的、在、有、是”等等;
然后利用向量空间模型将预处理后的数据表示成一个由词和权重对组成的向量,再分别计算各个特征词的权重;
本发明采用的特征权重的计算方法为Salton与1973年提出的TFIDF算法,并进行了归一化处理,TFIDF算法公式为:
TFIDF=TF(wk)i×IDF(wk)
TF(wk)i为i类疾病的病例中,特征词wk出现的频率,IDF(wk)为出现特征词wk的病例数的倒数,公式为:
其中|N|为病例集的总病例数,Nwk为出现特征词wk的病例数,L的值通常由实验决定,暂取0.01,idf的思想是在大多数病例中出现的特征词鉴别能力较弱,应降低该词的权重。
最后归一化的权重计算公式为:
Wki为第K个特征词在第i类疾病的权重,n表示特征项的维数。
权重计算完成后,进行数据训练,即计算每种疾病的先验概率,和加权的条件概率,加权条件概率的计算公式如下:
其中P(tj|ci)表示第j个txt文本病例属于第i种疾病的概率。
以上步骤完成后,基于贝叶斯分类的挂号辅助模型就建立完成了,接下来需要对建立的模型准确度进行的测试评估,测试结果满足要求后就可以应用该模型进行网络辅助挂号。
正确地评估分类器的性能是文本分类领域中一个非常重要且复杂,常用的分类性能评估方法有:保持法、随机二次抽样、k-折交叉验证和自助法,以检验模型的稳定性及泛华能力。常用的评价指标有:准确率、召回率、BEP(Break-evenpoints)、F-Meatrue等。
根据获得的数据特征,本发明采用3-折交叉验证的方法,即先将数据分为相同大小的3个子集,选择其中两个个子集作为训练集,剩余的一个子集作为检验集,然后交换,使得每份数据都用于检验一次,总误差是3次运行的误差之和。选用的评价指标为:准确率、召回率和F值。
挂号辅助模型性能达到要求后,可将该模型应用到实用场景。本发明将性能达标的贝叶斯挂号辅助模型应用到网络预约挂号系统和自助挂号机中,可通过输入主诉症状,推荐对证的专科专家,以辅助用户自助挂号就医。
Claims (7)
1.一种基于贝叶斯文本分类模型的挂号辅助方法,包括:
对获得的症状主诉文本数据进行预处理;
根据预处理后的数据,训练获得挂号辅助模型;
对得到的挂号辅助分类模型进行评估;
将评估达到要求的模型应用到网络预约挂号系统中进行辅助挂号;
其中,挂号辅助模型是利用贝叶斯文本分类算法训练获得,并根据症状主诉文本数据特征进行了优化。
2.根据权利要求1所述的方法,其中对获得的症状主诉文本数据进行预处理步骤还包括:
中文分词和去停用词,其中中文分词利用症状词表,针对症状主诉文本数据对分词器性能进行优化;去停用词则利用针对疾病主诉文本数据建立的常见停用词表,去掉不具有辨别力的词。
3.根据权利要求1所述的方法,其中根据预处理后的数据,训练获得挂号辅助模型还包括:
根据改进的tf-idf公式对每种疾病向量关键词赋予权重;
根据疾病典型症状词表,为每种疾病的典型症状词赋予绝对权重;
利用分层的贝叶斯算法对加权文本向量进行训练。
4.根据权利要求1所述的方法,对得到的挂号辅助模型进行评估还包括:利用准确率、召回率和F值评价指标和3-折交叉验证的方法建立评估模型,对该模型性能进行评估。
5.根据权利要求1所述的将评估达到要求的挂号辅助模型应用到挂号系统中进行辅助挂号还包括,根据患者输入的主诉症状数据,推荐其对证的专科专家,指导其就医。
6.根据权利要求5所述的模型应用,还包括:
对患者输入的主诉症状进行分词,去停用词,根据症状词表和停用词表抽取具有鉴别力的关键词,并建立关键词向量,再根据keyword表给向量中的词赋予权重,最后根据贝叶斯概率模型,计算各类疾病的概率,获取概率最大的前5条疾病列表,再进行专科专家匹配。
7.根据权利要求3所述的分层贝叶斯算法还包括:
利用疾病大类和疾病所属科室将分类过程划分层次,即先推荐挂号科室和疾病大类,如果仍具有辨别力,再进一步对证的专科专家,如果不具有辨别力,则仅返回疾病大类和科室,不再做进一步分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410273989.3A CN104021302A (zh) | 2014-06-18 | 2014-06-18 | 一种基于贝叶斯文本分类模型的辅助挂号方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410273989.3A CN104021302A (zh) | 2014-06-18 | 2014-06-18 | 一种基于贝叶斯文本分类模型的辅助挂号方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104021302A true CN104021302A (zh) | 2014-09-03 |
Family
ID=51438054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410273989.3A Pending CN104021302A (zh) | 2014-06-18 | 2014-06-18 | 一种基于贝叶斯文本分类模型的辅助挂号方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104021302A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
CN105260782A (zh) * | 2015-09-23 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 挂号预约信息处理方法及装置 |
CN107480123A (zh) * | 2017-06-28 | 2017-12-15 | 武汉斗鱼网络科技有限公司 | 一种垃圾弹幕的识别方法、装置及计算机设备 |
CN107680685A (zh) * | 2017-10-24 | 2018-02-09 | 山东浪潮云服务信息科技有限公司 | 一种疾病预警方法及系统 |
CN107818483A (zh) * | 2017-11-27 | 2018-03-20 | 微梦创科网络科技(中国)有限公司 | 网络卡券推荐方法及系统 |
CN107895200A (zh) * | 2017-11-15 | 2018-04-10 | 广东天泽阳光康众医疗投资管理有限公司 | 一种智能预约挂号方法、装置、终端设备及存储介质 |
CN108231174A (zh) * | 2017-12-11 | 2018-06-29 | 浪潮软件集团有限公司 | 一种确定科室的方法、装置及系统 |
CN108256827A (zh) * | 2018-01-10 | 2018-07-06 | 广东轩辕网络科技股份有限公司 | 目标职位分析方法及系统 |
CN108897754A (zh) * | 2018-05-07 | 2018-11-27 | 广东省电信规划设计院有限公司 | 基于大数据的工单类型的识别方法、系统和计算设备 |
CN108899070A (zh) * | 2018-05-31 | 2018-11-27 | 平安医疗科技有限公司 | 处方推荐生成方法、装置、计算机设备和存储介质 |
CN108922608A (zh) * | 2018-06-13 | 2018-11-30 | 平安医疗科技有限公司 | 智能导诊方法、装置、计算机设备和存储介质 |
CN109585001A (zh) * | 2017-09-29 | 2019-04-05 | 北京搜狗科技发展有限公司 | 一种数据分析方法、装置、电子设备和存储介质 |
CN109599187A (zh) * | 2018-10-31 | 2019-04-09 | 北京春雨天下软件有限公司 | 一种在线问诊的分诊方法、服务器、终端、设备及介质 |
CN109840280A (zh) * | 2019-03-05 | 2019-06-04 | 百度在线网络技术(北京)有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN110009796A (zh) * | 2019-04-11 | 2019-07-12 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN110866038A (zh) * | 2019-11-12 | 2020-03-06 | 维沃移动通信有限公司 | 信息推荐方法及终端设备 |
CN111081370A (zh) * | 2019-10-25 | 2020-04-28 | 中国科学院自动化研究所 | 一种用户分类方法及装置 |
-
2014
- 2014-06-18 CN CN201410273989.3A patent/CN104021302A/zh active Pending
Non-Patent Citations (3)
Title |
---|
]K.M.AIDAROOS,A.BAKAR,Z.OTHMAN: "Medical Data Classification with Naive Bayes Approach", 《INFORMATION TECHNOLOGY JOURNA》 * |
MD. FAISAL KABIR等: "EnhancedClassification Accuracy on Naive Bayes Data Mining Models", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS》 * |
王丁: "基于中文文本分类的自动诊病系统", 《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933183B (zh) * | 2015-07-03 | 2018-02-06 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
CN105260782A (zh) * | 2015-09-23 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 挂号预约信息处理方法及装置 |
WO2019001075A1 (zh) * | 2017-06-28 | 2019-01-03 | 武汉斗鱼网络科技有限公司 | 一种垃圾弹幕的识别方法、装置及计算机设备 |
CN107480123A (zh) * | 2017-06-28 | 2017-12-15 | 武汉斗鱼网络科技有限公司 | 一种垃圾弹幕的识别方法、装置及计算机设备 |
CN107480123B (zh) * | 2017-06-28 | 2020-10-16 | 武汉斗鱼网络科技有限公司 | 一种垃圾弹幕的识别方法、装置及计算机设备 |
CN109585001A (zh) * | 2017-09-29 | 2019-04-05 | 北京搜狗科技发展有限公司 | 一种数据分析方法、装置、电子设备和存储介质 |
CN107680685A (zh) * | 2017-10-24 | 2018-02-09 | 山东浪潮云服务信息科技有限公司 | 一种疾病预警方法及系统 |
CN107895200A (zh) * | 2017-11-15 | 2018-04-10 | 广东天泽阳光康众医疗投资管理有限公司 | 一种智能预约挂号方法、装置、终端设备及存储介质 |
CN107818483A (zh) * | 2017-11-27 | 2018-03-20 | 微梦创科网络科技(中国)有限公司 | 网络卡券推荐方法及系统 |
CN107818483B (zh) * | 2017-11-27 | 2021-08-24 | 微梦创科网络科技(中国)有限公司 | 网络卡券推荐方法及系统 |
CN108231174A (zh) * | 2017-12-11 | 2018-06-29 | 浪潮软件集团有限公司 | 一种确定科室的方法、装置及系统 |
CN108256827A (zh) * | 2018-01-10 | 2018-07-06 | 广东轩辕网络科技股份有限公司 | 目标职位分析方法及系统 |
CN108897754A (zh) * | 2018-05-07 | 2018-11-27 | 广东省电信规划设计院有限公司 | 基于大数据的工单类型的识别方法、系统和计算设备 |
CN108897754B (zh) * | 2018-05-07 | 2020-12-11 | 广东省电信规划设计院有限公司 | 基于大数据的工单类型的识别方法、系统和计算设备 |
CN108899070A (zh) * | 2018-05-31 | 2018-11-27 | 平安医疗科技有限公司 | 处方推荐生成方法、装置、计算机设备和存储介质 |
CN108899070B (zh) * | 2018-05-31 | 2024-02-02 | 平安医疗科技有限公司 | 处方推荐生成方法、装置、计算机设备和存储介质 |
CN108922608A (zh) * | 2018-06-13 | 2018-11-30 | 平安医疗科技有限公司 | 智能导诊方法、装置、计算机设备和存储介质 |
CN109599187A (zh) * | 2018-10-31 | 2019-04-09 | 北京春雨天下软件有限公司 | 一种在线问诊的分诊方法、服务器、终端、设备及介质 |
CN109840280A (zh) * | 2019-03-05 | 2019-06-04 | 百度在线网络技术(北京)有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN110009796A (zh) * | 2019-04-11 | 2019-07-12 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN111081370A (zh) * | 2019-10-25 | 2020-04-28 | 中国科学院自动化研究所 | 一种用户分类方法及装置 |
CN111081370B (zh) * | 2019-10-25 | 2023-11-03 | 中国科学院自动化研究所 | 一种用户分类方法及装置 |
CN110866038A (zh) * | 2019-11-12 | 2020-03-06 | 维沃移动通信有限公司 | 信息推荐方法及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104021302A (zh) | 一种基于贝叶斯文本分类模型的辅助挂号方法 | |
CN103870973B (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
Zhila et al. | Combining heterogeneous models for measuring relational similarity | |
CN105139237A (zh) | 信息推送的方法和装置 | |
CN106682411A (zh) | 一种将体检诊断数据转化为疾病标签的方法 | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
Tayal et al. | Sentiment analysis on social campaign “Swachh Bharat Abhiyan” using unigram method | |
CN103207855A (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN109145085A (zh) | 语义相似度的计算方法及系统 | |
CN106970981B (zh) | 一种基于转移矩阵构建关系抽取模型的方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN112132633B (zh) | 一种基于消费事理图谱的消费意图识别和预测方法 | |
Limsettho et al. | Unsupervised bug report categorization using clustering and labeling algorithm | |
Van Atteveldt et al. | Studying political decision making with automatic text analysis | |
Li et al. | Mining online reviews for ranking products: A novel method based on multiple classifiers and interval-valued intuitionistic fuzzy TOPSIS | |
US20160321247A1 (en) | Gender and name translation from a first to a second language | |
CN103699568B (zh) | 一种从维基中抽取领域术语间上下位关系的方法 | |
CN105740879A (zh) | 基于多模态判别分析的零样本图像分类方法 | |
CN109033318A (zh) | 智能问答方法及装置 | |
Háva et al. | Supervised two-step feature extraction for structured representation of text data | |
US20170337484A1 (en) | Scalable web data extraction | |
CN107122420A (zh) | 一种旅游热点事件检测方法及系统 | |
Mirroshandel et al. | Active learning strategies for support vector machines, application to temporal relation classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140903 |
|
WD01 | Invention patent application deemed withdrawn after publication |