CN111128390B

CN111128390B - 一种基于骨科症状特征选取的文本处理方法

Info

Publication number: CN111128390B
Application number: CN201911321758.4A
Authority: CN
Inventors: 黄青松; 郭峰; 余慧; 刘利军; 冯旭鹏
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-11-04
Anticipated expiration: 2039-12-20
Also published as: CN111128390A

Abstract

本发明涉及基于骨科症状特征选取的文本处理方法，属计算机自然语言处理领域。本发明首先进行初始候选标签集的选取，将症状信息与患者标签信息、原始问句经神经网络得到的深度特征，一起联合输入Softmax层，选择概率最大的Top K对应标签作为初始候选标签集；再进行“二阶”标签相关性计算：根据计算上一步得到的初始候选标签集合中每对标签的条件概率来考察两两标签之间的交互关系，同时设定一个阈值来决定后续候选标签的取舍；再后处理：在得到初始候选标签集基础上，利用“二阶”标签相关性和阈值进行反复取舍，作为最终结果；本发明在各项评价指标上都优于传统的ML‑KNN、Rank‑SVM、AdaBoost.M2算法。

Description

一种基于骨科症状特征选取的文本处理方法

技术领域

本发明涉及一种基于骨科症状特征选取的文本处理方法，属于计算机自然语言处理技术领域。

背景技术

有关健康保健的研究一直都是科学研究中最重要的部分，因为没有人能够会对身体病痛产生免疫。现有的文献各种各样，但大致可以分为四个研究方向，即信息提取、疾病推断、预防医学及医疗检索。从医疗文本中进行信息提取是其他更高层次分析的基础，因此，如何做到有效的信息提取极为重要，但在信息提取中还存在诸多问题：首先，不同用户之间的表述差距使得医疗问答数据，相较于其它医疗健康数据，格式更不一致，是非结构化的，并且口语化严重。例如，对于相同症状“头疼”，不同用户可能使用“脑袋特别痛”或“头疼得难受”等来表述。其次，用户要在短短数十字的问题中描述他们的症状，相比与医生面对面交流或者那种复杂详细的电子健康记录，问句所包含的信息很少。这种不完整性可能会阻碍基于共享上下文的有效相似性估计。另外，医疗属性诸如年龄，性别、症状等，都是高度相关的，但是通常并没有以特别紧凑的形式出现来表征疾病，比如“胸闷”、“喘气”和“呼吸困难”经常同时发生来暗示“哮喘”，还有年纪越大患骨质疏松的可能性也越大。当然，构建各种疾病的基础知识库更是非常昂贵的。尽管研究者越来越关注使用机器学习技术来进行疾病症状特征文本处理，比如文献中提出一种学习框架，主要关注如何利用核磁共振图像完成阿尔茨海默病推断，主要通过整合视觉相似性和用户反馈。但上面这些因素限制了仅仅通过一般机器学习方法实现的性能，诸如决策树、SVM等算法，其学习策略的输出之后就紧跟着一个分类器，好像系统只有一层一样。

通过分析医疗问答中文本处理的难点，相比传统方法，本方法先充分考虑中文医疗问答数据特点，即非结构化、口语化严重的短文本，包含信息较少，并且缺乏大量公开可利用的资源，故通过提取症状信息来主动集中、强化文本特征。此外，某些疾病相关的医疗属性并非密集分布，因此本方法在症状识别基础上结合患者基本信息如性别、年龄等，将疾病辅助诊断看作多标签分类问题，从多标签分类角度出发，去解决基于骨科病症特征的文本处理问题。

发明内容

本发明提供了一种基于骨科症状特征选取的文本处理方法，将文本处理看作多标签分类问题，从多标签分类角度出发，去解决基于骨科病症特征的文本处理问题。

本发明的技术方案是：一种基于骨科症状特征选取的文本处理方法，所述方法的具体步骤如下：

Step1、初始候选标签集选取：集中、强化骨科咨询文本的特征，在症状识别的基础上，再结合患者的标签信息以及原始文本信息的深度特征，一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取；

Step2、“二阶”标签相关性计算：经Step1操作之后，对初始候选标签集中每一个标签，分别求出它与其他标签的“二阶”关系；

Step3、后处理，结果输出：得到K个初始候选标签及利用条件概率计算出候选标签集之间的“二阶”相关性并二次设定阈值后，进行后处理操作，得到最终结果。

进一步地，所述步骤Step1的具体步骤如下：

Step1.1、首先集中、强化骨科咨询文本的特征，在症状识别的基础上，再结合患者的标签信息以及原始文本信息的深度特征；其中标签信息包括性别、年龄；

其中，原始问句利用基于多窗口卷积和双向门控循环神经网络的深度模型得到其深度特征表示，词向量构成的原始问句表示采用单通道模式先输入到CNN中，使用2、3、4，三种不同窗口长度的卷积核若干个，分别对问句进行从前到后的卷积操作，卷积操作之后不继续池化操作，避免造成问句的时序信息不完整，从而影响后续序列建模；将相同窗口长度的卷积特征重新进行排列组合，再分别顺序、逆序输入到对应的前向、后向GRU中，最终将三种Bi-GRU的输出结果拼接得到问句更高层次的深度特征表示；

Step1.2、然后将输入层得到的深度特征表示输入到Softmax层中，进行初始候选标签选取；

Step1.3、最后将问句文本属于各类别的概率值进行从大到小排列，输出前Top K的对应标签，以此作为候选标签的选取结果。

进一步地，所述步骤Step2的具体步骤如下：

Step2.1、经过Step1操作后，对初始候选标签集中每一个标签y_i(1≤i≤m，假设标签集合大小为m)，分别利用条件概率来求出它与其他标签的“二阶”关系；

Step2.2、每当确定一个i，都将P(F_ij)的值从大到小排列，以便下一步骤后处理操作中输出结果，P(F_ij)表示在样本中H_i成立时，H_j也成立的事件的概率。

进一步地，所述步骤Step3的具体步骤如下：

Step3.1、首先将初始候选标签集中概率最大对应标签作为Top 1标签预输出，其次将余下K-1个标签与Top 1标签之间的条件概率做排序，取最大值，若最大值不小于阈值，则其对应标签作为新的Top 1标签加入预输出集；

Step3.2、以此类推，继续将余下标签与上一轮刚得到的Top 1标签重复进行上一步操作；

Step3.3、直到当前“二阶”条件概率的最大值小于阈值或者初始候选标签集中所有标签都处理完，则结束操作，然后输出预输出集，得到最终结果。

进一步地，所提到的“二阶”相关性计算：

有关标签相关性，主要可以分为三类：(1)“一阶(first-order)”相关性，主要考虑标签之间是相互独立的，此时就可以采用问题转化发法，把多标签分类问题转换成普通的分类问题，可是由于标签间可能存在的相关性被完全忽略，因此方法的泛化性能一般较低；(2)“二阶(second-order)”相关性：通过考察标签之间的两两相关性，如两两标签之间的交互关系等，从而设计多标签分类方法，因为在某种程度上考察了标签间的相关性，所以其涉及方法的泛化性能较优，同时也会增加一定的计算复杂度；(3)“高阶(high-order)”相关性：通常是考察多个标签之间的相关性，如处理一组随机标签集合的相关性等，这样尽管能够较好反映真实世界的标签相关性问题，可涉及的计算复杂度往往过高，难以处理标签数量较多的大规模学习问题。综上，选择“二阶”策略来处理疾病标签的相关性，并利用条件概率来计算，下面是具体计算过程。

对初始候选标签集中每一个标签y_i(1≤i≤m假设标签集合大小为m)，分别求出它与其他标签的“二阶”关系。假设F_ij表示在样本x中H_i成立时，H_j也成立的事件，这里H_i、H_j分别表示样本x含有标签i、j，如下式

P(F_ij)＝P(H_j|H_i)＝P(H_jH_i)/P(H_i)

其中，P(H_jH_i)表示样本x中同时具有标签y_i和y_j的概率，由下式得到：

其中，s表示平滑因子，这里令s为1，使用的是拉普拉斯平滑；Y_x表示样本x的标签集。

本发明的有益效果是：

1、通过分析医疗问答中特征选取的难点，相比传统，先充分考虑中文医疗问答数据特点，即非结构化、口语化严重的短文本，包含信息较少，并且缺乏大量公开可利用的资源，故通过提取症状信息来主动集中、强化文本特征。此外，某些骨科疾病相关的医疗属性并非密集分布，因此，在症状识别基础上结合患者基本信息如性别、年龄等，将其看作多标签分类问题，从多标签分类角度出发，去解决医疗自动问答系统中面向骨科病症特征选取问题，相较于其他方法，更加全面的结合了病症特征，提升了各项方法评价指标；

2、将特征选取的文本处理方法看作多标签分类问题后，考虑骨科涉及到的疾病种类较多，故不采用多标签分类中传统的问题转化法，而从算法自适应角度寻找解决方案。针对骨科咨询中的疾病辅助诊断，首先其疾病标签数量存在不确定性，其次，疾病标签之间往往不是相互独立甚至是紧密相关的，标签之间的相关性也是需要重点考虑的。对此，提出了一种基于候选标签选取和标签相关性的方法，解决了疾病标签数量存在的不确定性、不同问句中诊断结果的标签数量不同、疾病标签之间往往不是相互独立甚至是紧密相关的问题，以实现面向骨科病症特征的选取。

3、本发明主动集中、强化骨科咨询文本的特征，在症状识别的基础上，再结合患者的标签信息如性别、年龄等以及原始文本信息的深度特征，一起作为问句的新特征表示输入到Softmax层中进行初始候选标签选取。解决了医疗领域公开的中文问答数据资源较稀缺的问题，在实验数据有限的情况下提高了预测结果，实验结果证明在实验语料Corpus上，各项评价指标均取得最优结果；

综上所述，这种基于骨科症状特征选取的文本处理方法，首先进行初始候选标签集的选取：将症状信息与患者标签信息、原始问句经神经网络得到的深度特征，一起联合输入Softmax层，选择概率最大的Top K对应标签作为初始候选标签集；再进行“二阶”标签相关性计算：根据计算上一步得到的初始候选标签集合中每对标签的条件概率来考察两两标签之间的交互关系，同时设定一个阈值来决定后续候选标签的取舍；最后一步进行后处理：在得到初始候选标签集基础上，利用“二阶”标签相关性和阈值进行反复取舍，输出骨科文本处理结果。最终本发明所提基于骨科症状特征选取的文本处理方法在实验语料Corpus上，各项评价指标均取得最优结果。

附图说明

图1为本发明中的流程框图；

图2为本发明中基于症状特征的初始候选标签集选取示意图；

图3为本发明基于骨科症状特征选取的文本处理方法的实验对比。

具体实施方式

实施例1：如图1-3所示，一种基于骨科症状特征选取的文本处理方法，所述方法的具体步骤如下：

Step1、初始候选标签集选取：集中、强化骨科咨询文本的特征，在症状识别的基础上，包括症状信息，再结合患者的标签信息以及原始文本信息的深度特征，一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取；

进一步地，所述步骤Step1的具体步骤如下：

表1超参数及其对应值

进一步地，其中softmax函数如式：

其中，O_k表示神经网络第k类的输出值，其值由输入层与隐藏层决定；S_k代表问句文本属于k类别的概率值；

Step1.3、最后将S_k进行从大到小排列，输出前Top K的对应标签，以此作为候选标签的选取结果。

进一步地，为验证发明将症状信息作为特征输入能有效提高该方法的准确度，因此比较了Softmax层不同的输入特征组合，如下表2所示。由表可见，其中原始问句结合症状信息和患者标签信息的整体实验效果最好，其hamming-loss、coverage及average-precision的值分别为0.2048、1.7526和0.7367，均达到最优，而只有原始问句或者原始问句结合患者标签信息作为输入的实验结果均不理想，其中average-precision值与最优相差约8个百分点，这说明方法在症状识别基础上进行骨科文本处理的有效性。

表2不同输入特征组合的实验对比

进一步地，所述步骤Step2的具体步骤如下：

进一步地，所提到的“二阶”相关性计算：

P(F_ij)＝P(H_j|H_i)＝P(H_jH_i)/P(H_i)

进一步地，所述步骤Step3的具体步骤如下：

如图3所示，本发明所提基于骨科症状特征选取的文本处理方法在实验语料Corpus上，各项评价指标均取得最优结果，其hamming-loss、coverage与average-precision值分别为0.2048、1.7526和0.7367。其中ML-KNN和Rank-SVM算法均是针对多标签数据的特性，分别对KNN和SVM进行改进，两者取得了相似的实验结果；而AdaBoost.M2算法首先训练一个弱分类器SVM，再利用迭代思想对其不断加强，最终取得仅次于本发明方法的实验结果，其hamming-loss、coverage与average-precision值分别为0.2866、3.1084和0.6897，但中间迭代涉及的计算较多，因此相较于本发明方法其计算复杂度较大。实验结果再次证明所提方法的有效性。

本发明中，基于骨科症状特征选取的文本处理整体结构流程框图如图1所示，首先，进行初始候选标签集的选取：将症状信息与患者标签信息、原始问句经神经网络得到的深度特征，一起联合输入Softmax层，选择概率最大的Top K对应标签作为初始候选标签集，初始候选标签的方法如图2所示；再进行“二阶”标签相关性计算：根据计算上一步得到的初始候选标签集合中每对标签的条件概率来考察两两标签之间的交互关系，同时设定一个阈值来决定后续候选标签的取舍；最后一步进行后处理：在得到初始候选标签集基础上，利用“二阶”标签相关性和阈值进行反复取舍，最终输出结果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于骨科症状特征选取的文本处理方法，其特征在于：所述方法的具体步骤如下：

Step1、初始候选标签集选取：集中、强化骨科咨询文本的特征，在症状识别的基础上，再结合患者的标签信息包括性别、年龄的标签信息以及原始文本信息的深度特征，一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取；所述的文本为医疗问答中的文本；

Step2、“二阶”标签相关性计算：经Step1操作之后，对初始候选标签集中每一个标签，分别求出它与其他标签的“二阶”关系；通过考察标签之间的两两相关性，包括两两标签之间的交互关系，从而设计多标签分类方法；

Step3、后处理，结果输出：得到K个初始候选标签及利用条件概率计算出候选标签集之间的“二阶”相关性并二次设定阈值后，进行后处理操作，得到最终结果；

所述步骤Step3的具体步骤如下：

2.根据权利要求1所述的基于骨科症状特征选取的文本处理方法，其特征在于：所述步骤Step1的具体步骤如下：

3.根据权利要求1所述的基于骨科症状特征选取的文本处理方法，其特征在于：所述步骤Step2的具体步骤如下：

Step2.1、经过Step1操作后，对初始候选标签集中每一个标签y_i，1≤i≤m，假设标签集合大小为m，分别利用条件概率来求出它与其他标签的“二阶”关系；