CN111128390B - 一种基于骨科症状特征选取的文本处理方法 - Google Patents

一种基于骨科症状特征选取的文本处理方法 Download PDF

Info

Publication number
CN111128390B
CN111128390B CN201911321758.4A CN201911321758A CN111128390B CN 111128390 B CN111128390 B CN 111128390B CN 201911321758 A CN201911321758 A CN 201911321758A CN 111128390 B CN111128390 B CN 111128390B
Authority
CN
China
Prior art keywords
label
labels
initial candidate
tag
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911321758.4A
Other languages
English (en)
Other versions
CN111128390A (zh
Inventor
黄青松
郭峰
余慧
刘利军
冯旭鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201911321758.4A priority Critical patent/CN111128390B/zh
Publication of CN111128390A publication Critical patent/CN111128390A/zh
Application granted granted Critical
Publication of CN111128390B publication Critical patent/CN111128390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及基于骨科症状特征选取的文本处理方法,属计算机自然语言处理领域。本发明首先进行初始候选标签集的选取,将症状信息与患者标签信息、原始问句经神经网络得到的深度特征,一起联合输入Softmax层,选择概率最大的Top K对应标签作为初始候选标签集;再进行“二阶”标签相关性计算:根据计算上一步得到的初始候选标签集合中每对标签的条件概率来考察两两标签之间的交互关系,同时设定一个阈值来决定后续候选标签的取舍;再后处理:在得到初始候选标签集基础上,利用“二阶”标签相关性和阈值进行反复取舍,作为最终结果;本发明在各项评价指标上都优于传统的ML‑KNN、Rank‑SVM、AdaBoost.M2算法。

Description

一种基于骨科症状特征选取的文本处理方法
技术领域
本发明涉及一种基于骨科症状特征选取的文本处理方法,属于计算机自然语言处理技术领域。
背景技术
有关健康保健的研究一直都是科学研究中最重要的部分,因为没有人能够会对身体病痛产生免疫。现有的文献各种各样,但大致可以分为四个研究方向,即信息提取、疾病推断、预防医学及医疗检索。从医疗文本中进行信息提取是其他更高层次分析的基础,因此,如何做到有效的信息提取极为重要,但在信息提取中还存在诸多问题:首先,不同用户之间的表述差距使得医疗问答数据,相较于其它医疗健康数据,格式更不一致,是非结构化的,并且口语化严重。例如,对于相同症状“头疼”,不同用户可能使用“脑袋特别痛”或“头疼得难受”等来表述。其次,用户要在短短数十字的问题中描述他们的症状,相比与医生面对面交流或者那种复杂详细的电子健康记录,问句所包含的信息很少。这种不完整性可能会阻碍基于共享上下文的有效相似性估计。另外,医疗属性诸如年龄,性别、症状等,都是高度相关的,但是通常并没有以特别紧凑的形式出现来表征疾病,比如“胸闷”、“喘气”和“呼吸困难”经常同时发生来暗示“哮喘”,还有年纪越大患骨质疏松的可能性也越大。当然,构建各种疾病的基础知识库更是非常昂贵的。尽管研究者越来越关注使用机器学习技术来进行疾病症状特征文本处理,比如文献中提出一种学习框架,主要关注如何利用核磁共振图像完成阿尔茨海默病推断,主要通过整合视觉相似性和用户反馈。但上面这些因素限制了仅仅通过一般机器学习方法实现的性能,诸如决策树、SVM等算法,其学习策略的输出之后就紧跟着一个分类器,好像系统只有一层一样。
通过分析医疗问答中文本处理的难点,相比传统方法,本方法先充分考虑中文医疗问答数据特点,即非结构化、口语化严重的短文本,包含信息较少,并且缺乏大量公开可利用的资源,故通过提取症状信息来主动集中、强化文本特征。此外,某些疾病相关的医疗属性并非密集分布,因此本方法在症状识别基础上结合患者基本信息如性别、年龄等,将疾病辅助诊断看作多标签分类问题,从多标签分类角度出发,去解决基于骨科病症特征的文本处理问题。
发明内容
本发明提供了一种基于骨科症状特征选取的文本处理方法,将文本处理看作多标签分类问题,从多标签分类角度出发,去解决基于骨科病症特征的文本处理问题。
本发明的技术方案是:一种基于骨科症状特征选取的文本处理方法,所述方法的具体步骤如下:
Step1、初始候选标签集选取:集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息以及原始文本信息的深度特征,一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取;
Step2、“二阶”标签相关性计算:经Step1操作之后,对初始候选标签集中每一个标签,分别求出它与其他标签的“二阶”关系;
Step3、后处理,结果输出:得到K个初始候选标签及利用条件概率计算出候选标签集之间的“二阶”相关性并二次设定阈值后,进行后处理操作,得到最终结果。
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、首先集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息以及原始文本信息的深度特征;其中标签信息包括性别、年龄;
其中,原始问句利用基于多窗口卷积和双向门控循环神经网络的深度模型得到其深度特征表示,词向量构成的原始问句表示采用单通道模式先输入到CNN中,使用2、3、4,三种不同窗口长度的卷积核若干个,分别对问句进行从前到后的卷积操作,卷积操作之后不继续池化操作,避免造成问句的时序信息不完整,从而影响后续序列建模;将相同窗口长度的卷积特征重新进行排列组合,再分别顺序、逆序输入到对应的前向、后向GRU中,最终将三种Bi-GRU的输出结果拼接得到问句更高层次的深度特征表示;
Step1.2、然后将输入层得到的深度特征表示输入到Softmax层中,进行初始候选标签选取;
Step1.3、最后将问句文本属于各类别的概率值进行从大到小排列,输出前Top K的对应标签,以此作为候选标签的选取结果。
进一步地,所述步骤Step2的具体步骤如下:
Step2.1、经过Step1操作后,对初始候选标签集中每一个标签yi(1≤i≤m,假设标签集合大小为m),分别利用条件概率来求出它与其他标签的“二阶”关系;
Step2.2、每当确定一个i,都将P(Fij)的值从大到小排列,以便下一步骤后处理操作中输出结果,P(Fij)表示在样本中Hi成立时,Hj也成立的事件的概率。
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、首先将初始候选标签集中概率最大对应标签作为Top 1标签预输出,其次将余下K-1个标签与Top 1标签之间的条件概率做排序,取最大值,若最大值不小于阈值,则其对应标签作为新的Top 1标签加入预输出集;
Step3.2、以此类推,继续将余下标签与上一轮刚得到的Top 1标签重复进行上一步操作;
Step3.3、直到当前“二阶”条件概率的最大值小于阈值或者初始候选标签集中所有标签都处理完,则结束操作,然后输出预输出集,得到最终结果。
进一步地,所提到的“二阶”相关性计算:
有关标签相关性,主要可以分为三类:(1)“一阶(first-order)”相关性,主要考虑标签之间是相互独立的,此时就可以采用问题转化发法,把多标签分类问题转换成普通的分类问题,可是由于标签间可能存在的相关性被完全忽略,因此方法的泛化性能一般较低;(2)“二阶(second-order)”相关性:通过考察标签之间的两两相关性,如两两标签之间的交互关系等,从而设计多标签分类方法,因为在某种程度上考察了标签间的相关性,所以其涉及方法的泛化性能较优,同时也会增加一定的计算复杂度;(3)“高阶(high-order)”相关性:通常是考察多个标签之间的相关性,如处理一组随机标签集合的相关性等,这样尽管能够较好反映真实世界的标签相关性问题,可涉及的计算复杂度往往过高,难以处理标签数量较多的大规模学习问题。综上,选择“二阶”策略来处理疾病标签的相关性,并利用条件概率来计算,下面是具体计算过程。
对初始候选标签集中每一个标签yi(1≤i≤m假设标签集合大小为m),分别求出它与其他标签的“二阶”关系。假设Fij表示在样本x中Hi成立时,Hj也成立的事件,这里Hi、Hj分别表示样本x含有标签i、j,如下式
P(Fij)=P(Hj|Hi)=P(HjHi)/P(Hi)
其中,P(HjHi)表示样本x中同时具有标签yi和yj的概率,由下式得到:
Figure BDA0002327327690000031
其中,s表示平滑因子,这里令s为1,使用的是拉普拉斯平滑;Yx表示样本x的标签集。
本发明的有益效果是:
1、通过分析医疗问答中特征选取的难点,相比传统,先充分考虑中文医疗问答数据特点,即非结构化、口语化严重的短文本,包含信息较少,并且缺乏大量公开可利用的资源,故通过提取症状信息来主动集中、强化文本特征。此外,某些骨科疾病相关的医疗属性并非密集分布,因此,在症状识别基础上结合患者基本信息如性别、年龄等,将其看作多标签分类问题,从多标签分类角度出发,去解决医疗自动问答系统中面向骨科病症特征选取问题,相较于其他方法,更加全面的结合了病症特征,提升了各项方法评价指标;
2、将特征选取的文本处理方法看作多标签分类问题后,考虑骨科涉及到的疾病种类较多,故不采用多标签分类中传统的问题转化法,而从算法自适应角度寻找解决方案。针对骨科咨询中的疾病辅助诊断,首先其疾病标签数量存在不确定性,其次,疾病标签之间往往不是相互独立甚至是紧密相关的,标签之间的相关性也是需要重点考虑的。对此,提出了一种基于候选标签选取和标签相关性的方法,解决了疾病标签数量存在的不确定性、不同问句中诊断结果的标签数量不同、疾病标签之间往往不是相互独立甚至是紧密相关的问题,以实现面向骨科病症特征的选取。
3、本发明主动集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息如性别、年龄等以及原始文本信息的深度特征,一起作为问句的新特征表示输入到Softmax层中进行初始候选标签选取。解决了医疗领域公开的中文问答数据资源较稀缺的问题,在实验数据有限的情况下提高了预测结果,实验结果证明在实验语料Corpus上,各项评价指标均取得最优结果;
综上所述,这种基于骨科症状特征选取的文本处理方法,首先进行初始候选标签集的选取:将症状信息与患者标签信息、原始问句经神经网络得到的深度特征,一起联合输入Softmax层,选择概率最大的Top K对应标签作为初始候选标签集;再进行“二阶”标签相关性计算:根据计算上一步得到的初始候选标签集合中每对标签的条件概率来考察两两标签之间的交互关系,同时设定一个阈值来决定后续候选标签的取舍;最后一步进行后处理:在得到初始候选标签集基础上,利用“二阶”标签相关性和阈值进行反复取舍,输出骨科文本处理结果。最终本发明所提基于骨科症状特征选取的文本处理方法在实验语料Corpus上,各项评价指标均取得最优结果。
附图说明
图1为本发明中的流程框图;
图2为本发明中基于症状特征的初始候选标签集选取示意图;
图3为本发明基于骨科症状特征选取的文本处理方法的实验对比。
具体实施方式
实施例1:如图1-3所示,一种基于骨科症状特征选取的文本处理方法,所述方法的具体步骤如下:
Step1、初始候选标签集选取:集中、强化骨科咨询文本的特征,在症状识别的基础上,包括症状信息,再结合患者的标签信息以及原始文本信息的深度特征,一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取;
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、首先集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息以及原始文本信息的深度特征;其中标签信息包括性别、年龄;
其中,原始问句利用基于多窗口卷积和双向门控循环神经网络的深度模型得到其深度特征表示,词向量构成的原始问句表示采用单通道模式先输入到CNN中,使用2、3、4,三种不同窗口长度的卷积核若干个,分别对问句进行从前到后的卷积操作,卷积操作之后不继续池化操作,避免造成问句的时序信息不完整,从而影响后续序列建模;将相同窗口长度的卷积特征重新进行排列组合,再分别顺序、逆序输入到对应的前向、后向GRU中,最终将三种Bi-GRU的输出结果拼接得到问句更高层次的深度特征表示;
表1超参数及其对应值
Figure BDA0002327327690000051
Step1.2、然后将输入层得到的深度特征表示输入到Softmax层中,进行初始候选标签选取;
进一步地,其中softmax函数如式:
Figure BDA0002327327690000061
其中,Ok表示神经网络第k类的输出值,其值由输入层与隐藏层决定;Sk代表问句文本属于k类别的概率值;
Step1.3、最后将Sk进行从大到小排列,输出前Top K的对应标签,以此作为候选标签的选取结果。
进一步地,为验证发明将症状信息作为特征输入能有效提高该方法的准确度,因此比较了Softmax层不同的输入特征组合,如下表2所示。由表可见,其中原始问句结合症状信息和患者标签信息的整体实验效果最好,其hamming-loss、coverage及average-precision的值分别为0.2048、1.7526和0.7367,均达到最优,而只有原始问句或者原始问句结合患者标签信息作为输入的实验结果均不理想,其中average-precision值与最优相差约8个百分点,这说明方法在症状识别基础上进行骨科文本处理的有效性。
表2不同输入特征组合的实验对比
Figure BDA0002327327690000062
Step2、“二阶”标签相关性计算:经Step1操作之后,对初始候选标签集中每一个标签,分别求出它与其他标签的“二阶”关系;
进一步地,所述步骤Step2的具体步骤如下:
Step2.1、经过Step1操作后,对初始候选标签集中每一个标签yi(1≤i≤m,假设标签集合大小为m),分别利用条件概率来求出它与其他标签的“二阶”关系;
Step2.2、每当确定一个i,都将P(Fij)的值从大到小排列,以便下一步骤后处理操作中输出结果,P(Fij)表示在样本中Hi成立时,Hj也成立的事件的概率。
进一步地,所提到的“二阶”相关性计算:
有关标签相关性,主要可以分为三类:(1)“一阶(first-order)”相关性,主要考虑标签之间是相互独立的,此时就可以采用问题转化发法,把多标签分类问题转换成普通的分类问题,可是由于标签间可能存在的相关性被完全忽略,因此方法的泛化性能一般较低;(2)“二阶(second-order)”相关性:通过考察标签之间的两两相关性,如两两标签之间的交互关系等,从而设计多标签分类方法,因为在某种程度上考察了标签间的相关性,所以其涉及方法的泛化性能较优,同时也会增加一定的计算复杂度;(3)“高阶(high-order)”相关性:通常是考察多个标签之间的相关性,如处理一组随机标签集合的相关性等,这样尽管能够较好反映真实世界的标签相关性问题,可涉及的计算复杂度往往过高,难以处理标签数量较多的大规模学习问题。综上,选择“二阶”策略来处理疾病标签的相关性,并利用条件概率来计算,下面是具体计算过程。
对初始候选标签集中每一个标签yi(1≤i≤m假设标签集合大小为m),分别求出它与其他标签的“二阶”关系。假设Fij表示在样本x中Hi成立时,Hj也成立的事件,这里Hi、Hj分别表示样本x含有标签i、j,如下式
P(Fij)=P(Hj|Hi)=P(HjHi)/P(Hi)
其中,P(HjHi)表示样本x中同时具有标签yi和yj的概率,由下式得到:
Figure BDA0002327327690000071
其中,s表示平滑因子,这里令s为1,使用的是拉普拉斯平滑;Yx表示样本x的标签集。
Step3、后处理,结果输出:得到K个初始候选标签及利用条件概率计算出候选标签集之间的“二阶”相关性并二次设定阈值后,进行后处理操作,得到最终结果。
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、首先将初始候选标签集中概率最大对应标签作为Top 1标签预输出,其次将余下K-1个标签与Top 1标签之间的条件概率做排序,取最大值,若最大值不小于阈值,则其对应标签作为新的Top 1标签加入预输出集;
Step3.2、以此类推,继续将余下标签与上一轮刚得到的Top 1标签重复进行上一步操作;
Step3.3、直到当前“二阶”条件概率的最大值小于阈值或者初始候选标签集中所有标签都处理完,则结束操作,然后输出预输出集,得到最终结果。
如图3所示,本发明所提基于骨科症状特征选取的文本处理方法在实验语料Corpus上,各项评价指标均取得最优结果,其hamming-loss、coverage与average-precision值分别为0.2048、1.7526和0.7367。其中ML-KNN和Rank-SVM算法均是针对多标签数据的特性,分别对KNN和SVM进行改进,两者取得了相似的实验结果;而AdaBoost.M2算法首先训练一个弱分类器SVM,再利用迭代思想对其不断加强,最终取得仅次于本发明方法的实验结果,其hamming-loss、coverage与average-precision值分别为0.2866、3.1084和0.6897,但中间迭代涉及的计算较多,因此相较于本发明方法其计算复杂度较大。实验结果再次证明所提方法的有效性。
本发明中,基于骨科症状特征选取的文本处理整体结构流程框图如图1所示,首先,进行初始候选标签集的选取:将症状信息与患者标签信息、原始问句经神经网络得到的深度特征,一起联合输入Softmax层,选择概率最大的Top K对应标签作为初始候选标签集,初始候选标签的方法如图2所示;再进行“二阶”标签相关性计算:根据计算上一步得到的初始候选标签集合中每对标签的条件概率来考察两两标签之间的交互关系,同时设定一个阈值来决定后续候选标签的取舍;最后一步进行后处理:在得到初始候选标签集基础上,利用“二阶”标签相关性和阈值进行反复取舍,最终输出结果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于骨科症状特征选取的文本处理方法,其特征在于:所述方法的具体步骤如下:
Step1、初始候选标签集选取:集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息包括性别、年龄的标签信息以及原始文本信息的深度特征,一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取;所述的文本为医疗问答中的文本;
Step2、“二阶”标签相关性计算:经Step1操作之后,对初始候选标签集中每一个标签,分别求出它与其他标签的“二阶”关系;通过考察标签之间的两两相关性,包括两两标签之间的交互关系,从而设计多标签分类方法;
Step3、后处理,结果输出:得到K个初始候选标签及利用条件概率计算出候选标签集之间的“二阶”相关性并二次设定阈值后,进行后处理操作,得到最终结果;
所述步骤Step3的具体步骤如下:
Step3.1、首先将初始候选标签集中概率最大对应标签作为Top 1标签预输出,其次将余下K-1个标签与Top 1标签之间的条件概率做排序,取最大值,若最大值不小于阈值,则其对应标签作为新的Top 1标签加入预输出集;
Step3.2、以此类推,继续将余下标签与上一轮刚得到的Top 1标签重复进行上一步操作;
Step3.3、直到当前“二阶”条件概率的最大值小于阈值或者初始候选标签集中所有标签都处理完,则结束操作,然后输出预输出集,得到最终结果。
2.根据权利要求1所述的基于骨科症状特征选取的文本处理方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、首先集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息以及原始文本信息的深度特征;其中标签信息包括性别、年龄;
其中,原始问句利用基于多窗口卷积和双向门控循环神经网络的深度模型得到其深度特征表示,词向量构成的原始问句表示采用单通道模式先输入到CNN中,使用2、3、4,三种不同窗口长度的卷积核若干个,分别对问句进行从前到后的卷积操作,卷积操作之后不继续池化操作,避免造成问句的时序信息不完整,从而影响后续序列建模;将相同窗口长度的卷积特征重新进行排列组合,再分别顺序、逆序输入到对应的前向、后向GRU中,最终将三种Bi-GRU的输出结果拼接得到问句更高层次的深度特征表示;
Step1.2、然后将输入层得到的深度特征表示输入到Softmax层中,进行初始候选标签选取;
Step1.3、最后将问句文本属于各类别的概率值进行从大到小排列,输出前Top K的对应标签,以此作为候选标签的选取结果。
3.根据权利要求1所述的基于骨科症状特征选取的文本处理方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、经过Step1操作后,对初始候选标签集中每一个标签yi,1≤i≤m,假设标签集合大小为m,分别利用条件概率来求出它与其他标签的“二阶”关系;
Step2.2、每当确定一个i,都将P(Fij)的值从大到小排列,以便下一步骤后处理操作中输出结果,P(Fij)表示在样本中Hi成立时,Hj也成立的事件的概率。
CN201911321758.4A 2019-12-20 2019-12-20 一种基于骨科症状特征选取的文本处理方法 Active CN111128390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911321758.4A CN111128390B (zh) 2019-12-20 2019-12-20 一种基于骨科症状特征选取的文本处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911321758.4A CN111128390B (zh) 2019-12-20 2019-12-20 一种基于骨科症状特征选取的文本处理方法

Publications (2)

Publication Number Publication Date
CN111128390A CN111128390A (zh) 2020-05-08
CN111128390B true CN111128390B (zh) 2022-11-04

Family

ID=70500404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911321758.4A Active CN111128390B (zh) 2019-12-20 2019-12-20 一种基于骨科症状特征选取的文本处理方法

Country Status (1)

Country Link
CN (1) CN111128390B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590818B (zh) * 2021-06-30 2023-05-26 中国电子科技集团公司第三十研究所 一种基于cnn与gru及knn融合的政务文本数据分类方法
CN114783601A (zh) * 2022-03-28 2022-07-22 腾讯科技(深圳)有限公司 一种生理数据的分析方法、装置、电子设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454393B2 (en) * 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
CN101308496A (zh) * 2008-07-04 2008-11-19 沈阳格微软件有限责任公司 大规模文本数据的外部聚类方法及系统
CN106874655B (zh) * 2017-01-16 2018-12-14 西北工业大学 基于多标记学习和贝叶斯网络的中医症型分类预测方法
RU2686000C1 (ru) * 2018-06-20 2019-04-23 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
CN110298036B (zh) * 2019-06-06 2022-07-22 昆明理工大学 一种基于词性增量迭代的在线医疗文本症状识别方法
CN110298037B (zh) * 2019-06-13 2023-08-04 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110442707B (zh) * 2019-06-21 2022-06-17 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110377903B (zh) * 2019-06-24 2020-08-14 浙江大学 一种句子级实体和关系联合抽取方法

Also Published As

Publication number Publication date
CN111128390A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
Zhuang et al. A comprehensive survey on transfer learning
Ren et al. Cgmvqa: A new classification and generative model for medical visual question answering
CN109697285B (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
US20210034813A1 (en) Neural network model with evidence extraction
Sutter et al. Multimodal generative learning utilizing jensen-shannon-divergence
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
Xu et al. An overview of deep generative models
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
Adnan et al. Automatic image annotation based on deep learning models: a systematic review and future challenges
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111128390B (zh) 一种基于骨科症状特征选取的文本处理方法
CN117708339B (zh) 一种基于预训练语言模型的icd自动编码方法
Sasibhooshan et al. Image caption generation using visual attention prediction and contextual spatial relation extraction
CN114220516A (zh) 一种基于层级循环神经网络解码的脑ct医学报告生成方法
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN113380360A (zh) 一种基于多模态病历图的相似病历检索方法及系统
CN117688974A (zh) 基于知识图谱的生成式大模型建模方法、系统及设备
Al-Qatf et al. Image captioning with novel topics guidance and retrieval-based topics re-weighting
Song et al. Generalized zero-shot icd coding
CN116843995A (zh) 细胞影像学预训练模型构建方法和装置
Lauren et al. Convolutional neural network for clinical narrative categorization
CN116797817A (zh) 基于自监督图卷积模型的自闭症疾病预测技术
CN114969357A (zh) 中文知识图谱补全方法、装置、计算机设备和存储介质
Sonker et al. Techniques for Medical Concept Detection from Multi-Modal Images.
CN114841168A (zh) 影像学报告文本的结构化信息处理方法、肺部疾病监测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant