CN111832306A - 基于多特征融合的影像诊断报告命名实体识别方法 - Google Patents
基于多特征融合的影像诊断报告命名实体识别方法 Download PDFInfo
- Publication number
- CN111832306A CN111832306A CN202010656318.0A CN202010656318A CN111832306A CN 111832306 A CN111832306 A CN 111832306A CN 202010656318 A CN202010656318 A CN 202010656318A CN 111832306 A CN111832306 A CN 111832306A
- Authority
- CN
- China
- Prior art keywords
- report
- diagnosis report
- named entity
- model
- image diagnosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000004927 fusion Effects 0.000 title claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000002474 experimental method Methods 0.000 claims abstract description 18
- 238000011976 chest X-ray Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 201000010099 disease Diseases 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 238000002372 labelling Methods 0.000 description 6
- 208000024891 symptom Diseases 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000002874 Acne Vulgaris Diseases 0.000 description 1
- 206010000496 acne Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明涉及基于多特征融合的影像诊断报告命名实体识别方法,属于自然语言处理技术领域。本发明包括步骤:首先从医院信息管理系统拷取胸部X光片影像报告作为实验语料,并对语料进行预处理;然后预处理过后的诊断报告文本数据输入到BI‑LSTM网络中,输出最优的分词结果;获取最优的分词结果的特征向量,接着将特征向量送入CRF模型对诊断报告文本进行命名实体识别,训练得到基于多特征融合的影像诊断报告命名实体识别模型;对得到的影像诊断报告命名实体识别模型进行评估,根据测试结果选择最优的模型,依据此模型进行影像诊断报告命名实体识别。本发明有效的识别影像报告中的命名实体,最终总的F1值达到了88.03%。
Description
技术领域
本发明涉及基于多特征融合的影像诊断报告命名实体识别方法,属于自然语言处理技术领域。
背景技术
命名实体识别(NER)任务非常的重要,它对于问答系统、结构化数据库构建、检索等工作都有重要的意义。命名实体识别过去常用的方法有:采用以手工建立的规则和词典为标准,通过字符串匹配实现命名实体的识别工作。这种方法容易受到人工干预,对词典有很强的依赖性。采用机器学习的策略是目前处理该类问题的主流方法,主要包括最大熵模型,应用最广泛的条件随机场,支持向量机模型,还有比较常见的隐马尔科夫模型等等。该方法有较好的识别效果,在很多场合的实体识别任务中都有出现。这类方法需要人工选择特征,如果能针对处理对象的特性,选择合适的特征,往往有很好的识别效果。
发明内容
本发明提供了基于多特征融合的影像诊断报告命名实体识别方法,相比于传统的命名实体识别方法,充分地考虑了影像诊断报告的特点,本发明能更加全面和准确地对影像诊断报告进行实体抽取。
本发明的技术方案是:基于多特征融合的影像诊断报告命名实体识别方法,所述方法的具体步骤如下:
Step1、首先从医院信息管理系统拷取胸部X光片影像报告作为实验语料,并对语料进行预处理;
Step2、然后预处理过后的诊断报告文本数据输入到BI-LSTM网络中,输出最优的分词结果;
Step3、获取最优的分词结果的特征向量,接着将特征向量送入CRF模型对诊断报告文本进行命名实体识别,训练得到基于多特征融合的影像诊断报告命名实体识别模型;
Step4、对得到的影像诊断报告命名实体识别模型进行评估,根据测试结果选择最优的模型,依据此模型进行影像诊断报告命名实体识别。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、首先从医院信息管理系统拷取胸部X光片影像报告得到实验语料;
Step1.2、在得到的实验语料中选取胸部正片诊断报告,经过手动标注,完成了对诊断报告的标注工作。
进一步地,所述步骤Step2的具体步骤为:
Step2.1、将预处理好的诊断报告文本数据,输入到BI-LSTM网络中;
Step2.2、将各个字符对应的标签进行组合,利用维特比解码得到概率最大的标签序列,输出最优的分词结果。
对本发明做进一步阐述的,所述步骤Step2、Step3中:
1)提到的BI-LSTM网络:
BI-LSTM网络是在LSTM网络基础上扩展而来。BI-LSTM网络采用前后两个方向建模,可以更好的结合前后的信息。
LSTM网络相较于传统的网络模型增加了特殊的门结构,即遗忘门,输入门,输出门。这样的结构很好的弥补了传统模型的不足,是一项针对RNN(regression nerualnetwork)很好的创新工作。LSTM网络公式如下所示:
ft=σ(Wf[ht-1,xt]+bf) (1)
it=σ(Wi[ht-1,xt]+bi) (2)
ot=σ(Wo[ht-1,xt]+bo) (3)
gt=tanh(Wc[ht-1,xt]+bc) (4)
Ct=ftCt-1+itgt (5)
ht=ottanh(Ct) (6)
上述公式中σ是激活函数,xt是单元输入it,ft,ot,它们各自代表着网络单元中在t时刻的输入门、忘记门、和输出门。W,b是各个门结构对应的的权重以及偏置。gt是t时刻当前所处的状态。ht表示t时刻的输出。
2)提到的CRF模型:
CRF即条件随机场,它提供了一种概率计算框架,目前比较普遍的用来计算已知的数据序列X=(x1,x2,...,xn)的条件下,该序列所对应标签序列Y=(y1,y2,...,yn)整体出现的概率,公式如下所示θ代表模型参数,是任意定义的θk为参数关于观察序列X和标签序列Y的特征函数,Z(X;θ)是归一化因子。
目前常见的CRF网络,是线性链条件随机场,这样的网络应用在很多的方面,因为他的网络组成不复杂,学者很容易掌握它的工作流程,如图3所示为给出的其具体的结构示意图。条件随机场融合了其他模型如最大熵模型的优势,也克服了最大熵模型的标注偏见。在很多场景中都有应用,并且都取得了很好的效果。
本发明的有益效果是:
1、本发明的基于多特征融合的影像诊断报告命名实体识别方法,针对诊断报告文本,利用BI-LSTM很好的完成了诊断报告的分词工作,解决了诊断报告中未登录词过多的问题。
2、本发明的基于多特征融合的影像诊断报告命名实体识别方法,综合分析医疗影像报告的特点,考虑融合符号,词性,后缀等特征,通过CRF模型对诊断报告中的正常描述实体,异常描述实体和疾病实体进行实体识别。
附图说明
图1为本发明中的总的诊断报告实体识别流程图;
图2为本发明中的诊断报告实体识别总框架图;
图3为本发明中的链式CRF结构示意图;
图4为本发明中添加不同特征的F1值变化示意图。
具体实施方式
实施例1:如图1-4所示,基于多特征融合的影像诊断报告命名实体识别方法,所述方法的具体步骤如下:
Step1、首先从医院信息管理系统拷取胸部X光片影像报告作为实验语料,并对语料进行预处理;
Step2、然后预处理过后的诊断报告文本数据输入到BI-LSTM网络中,输出最优的分词结果;
Step3、获取最优的分词结果的特征向量,接着将特征向量送入CRF模型对诊断报告文本进行命名实体识别,训练得到基于多特征融合的影像诊断报告命名实体识别模型;在获取最优的粉刺结果的特征向量的时候,可以先进行特征选择,再进行特征计算,从而选择出特征向量,其中进行特征计算其实是将文本特征转化为特征向量的过程,也可以理解为用一个矩阵来表示诊断报告里面的文本特征;本发明选择的文本特征可以为:符号特征(word),词性特征(pos)、数字特征(number)、字母特征(letter)或后缀特征(suffix);
Step4、对得到的影像诊断报告命名实体识别模型进行评估,根据测试结果选择最优的模型,依据此模型进行影像诊断报告命名实体识别。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、首先从医院信息管理系统拷取胸部X光片影像报告得到实验语料;
Step1.2、在得到的实验语料中选取胸部正片诊断报告,经过手动标注,完成了对诊断报告的标注工作。
本发明对大量诊断报告进行分析并与有关专家进行讨论,了解到医疗影像描述中出现的特定医疗实体,对检查部位是否正常的判断和疑似某种疾病的判断都起到了至关重要的作用。这些医疗实体大多是专有医疗用语和医疗共识用语。获得的胸部x光诊断报告中句子分布用标点符号划分的句子数量为24199,不同字词数量为326。影像诊断报告类别标注示例如表1所示。
表1实体类别划分及标注
诊断报告的实体包括疾病(标记符号为DI),正常描述实体(标记符号为NE)和异常描述实体(标记符号为AE)三类实体。选择采用BIO的标注策略,应用到诊断报告的三类实体,数据标注示例如下所示。B定义为实体的开始位置,I定义为实体的中间,O定义为非实体。诊断报告实验数据标注如表2所示。
表2数据标注示例
进一步地,所述步骤Step2的具体步骤为:
Step2.1、将预处理好的诊断报告文本数据,输入到BI-LSTM网络中;
Step2.2、将各个字符对应的标签进行组合,利用维特比解码得到概率最大的标签序列,输出最优的分词结果。
本文实验采用准确率、召回率和F1值这些基本性能指标来检测模型的识别效果,这些也是数据挖掘中经常用到的评价指标。TP为准确识别出的标注实体;FP为错误识别出的非标注实体;FN为未识别出的标注实体。各个指标具体的计算公式为:
实验一:为了验证针对诊断报告文本采用BI-LSTM模型分词的有效性和对实体识别结果的影响。
第一组实验,首先利用BI-LSTM对诊断报告进行分词处理,再利用jieba分词添加各种医疗词典(如搜狗医学词典)对诊断报告进行分词。将所有4000份诊断分词,对比不同的分词策略对分词结果的影响。随机选取400份诊断报告,以实验中只采用字符特征作为唯一的基础特征,不同分词方式的分词结果如表3所示。实体识别结果如表4,表5所示。
表3不同方式的分词结果
分词方式 | Precision% | Recall% | F1% |
BI-LSTM | 95.49 | 94.80 | 95.14 |
Jieba | 91.33 | 90.16 | 90.74 |
表4以BI-LSTM分词实体抽取结果
实体类别 | Precision% | Recall% | F1% |
正常描述 | 84.15 | 72.62 | 77.96 |
异常描述 | 84.06 | 71.86 | 77.48 |
疾病实体 | 82.26 | 70.94 | 76.18 |
表5以分词工具分词实体抽取结果
实体类别 | Precision% | Recall% | F1% |
正常描述 | 80.36 | 71.21 | 75.51 |
异常描述 | 80.01 | 70.91 | 75.18 |
疾病实体 | 80.13 | 70.36 | 74.93 |
诊断报告文本进行分词的效果在很大程度上会对最终的实体识别产生影响,实验表明,诊断报告是一种相对特殊的文本且书写自由,采用BI-LSTM分词后,分词效果更好,同时实体识别的结果要好于用添加医学词典的分词软件。在随机挑选的较小的样本实体识别实验中,采用BI-LSTM分词方式后,症状实体抽取实验的F值提高了,疾病实体抽取实验的F值提高了。
实验二:为了验证不同的特征对实验结果的影响。
第二组实验,依次添加选择的特征,符号特征(word),词性特征(pos),数字特征(number),字母特征(letter),后缀特征(suffix),判断添加不同特征对实体识别结果的影响。
依次添加不同的特征,对诊断报告中出现的较长的正常描述的实体和异常描述的实体进行抽取,实验结果如表6,表7所示。
表6正常描述实体抽取
特征 | Precision% | Recall% | F<sub>1</sub>% |
word | 89.65 | 74.84 | 81.58 |
+pos | 89.13 | 83.69 | 86.32 |
+number/le | 88.91 | 83.32 | 86.02 |
+suffix | 90.46 | 86.47 | 88.42 |
表7异常描述实体抽取
特征 | Precision% | Recall% | F<sub>1</sub>% |
word | 89.03 | 74.08 | 80.87 |
+pos | 88.96 | 82.98 | 85.87 |
+number/le | 88.34 | 82.89 | 85.53 |
+suffix | 89.86 | 86.05 | 87.91 |
依次添加不同的特征,对诊断报告结论中出现的疾病名称进行实体抽取,实验结果如下表8所示。
表8疾病实体抽取结果
特征 | Precision% | Recall% | F<sub>1</sub>% |
word | 88.16 | 72.75 | 79.72 |
+pos | 86.63 | 82.68 | 84.61 |
+number/le | 86.97 | 82.21 | 84.52 |
+suffix | 89.71 | 86.94 | 88.30 |
依次添加不同的特征,比较各类实体F1值的变化如图4所示。
实验结果表明,第一,在字符特征的基础上一次添加词性特征和数字、字母特征,识别的准确性有所下降,但是加入后缀特征后,无论症状描述实体还是疾病实体的准确度,都有所提高。第二,在字符特征基础上,随着特征的增加,召回率有了明显的提高。第三,添加所有特征相较于单一的字符特征,症状实体识别的F值提高了,疾病实体识别的F值提高了。根据实验,通过BI-LSTM分词并且综合考虑所有特征达到了最好的识别结果,最终所有实体较好的完成了实体识别任务,总的p值为89.81%,R值为86.32%,F值为88.03。
基于BI-LSTM分词与特征融合的模型对诊断报告中描述的症状和诊断结论中的疾病名称进行实体抽取,取得了较好的实验效果。结果较好有以下的原因:一诊断报告文本,描述虽然自由但是有一定的相似性和规律性。二针对诊断报告未登录词过多的特点,采用BI-LSTM进行分词,效果很好。三针对诊断报告文本特点选取出了有效的模型,并且综合考虑采用了各个特征。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.基于多特征融合的影像诊断报告命名实体识别方法,其特征在于:所述方法的具体步骤如下:
Step1、首先从医院信息管理系统拷取胸部X光片影像报告作为实验语料,并对语料进行预处理;
Step2、然后预处理过后的诊断报告文本数据输入到BI-LSTM网络中,输出最优的分词结果;
Step3、获取最优的分词结果的特征向量,接着将特征向量送入CRF模型对诊断报告文本进行命名实体识别,训练得到基于多特征融合的影像诊断报告命名实体识别模型;
Step4、对得到的影像诊断报告命名实体识别模型进行评估,根据测试结果选择最优的模型,依据此模型进行影像诊断报告命名实体识别。
2.根据权利要求1所述的基于多特征融合的影像诊断报告命名实体识别方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先从医院信息管理系统拷取胸部X光片影像报告得到实验语料;
Step1.2、在得到的实验语料中选取胸部正片诊断报告,经过手动标注,完成了对诊断报告的标注工作。
3.根据权利要求1所述的基于多特征融合的影像诊断报告命名实体识别方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、将预处理好的诊断报告文本数据,输入到BI-LSTM网络中;
Step2.2、将各个字符对应的标签进行组合,利用维特比解码得到概率最大的标签序列,输出最优的分词结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010656318.0A CN111832306A (zh) | 2020-07-09 | 2020-07-09 | 基于多特征融合的影像诊断报告命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010656318.0A CN111832306A (zh) | 2020-07-09 | 2020-07-09 | 基于多特征融合的影像诊断报告命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111832306A true CN111832306A (zh) | 2020-10-27 |
Family
ID=72901236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010656318.0A Pending CN111832306A (zh) | 2020-07-09 | 2020-07-09 | 基于多特征融合的影像诊断报告命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832306A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907301A (zh) * | 2021-03-29 | 2021-06-04 | 哈尔滨工业大学 | 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统 |
CN113903422A (zh) * | 2021-09-09 | 2022-01-07 | 北京邮电大学 | 医疗影像诊断报告实体提取方法、装置及设备 |
CN117556808A (zh) * | 2024-01-12 | 2024-02-13 | 万里云医疗信息科技(北京)有限公司 | 基于大语言模型和影像知识库的语料自动生成方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549639A (zh) * | 2018-04-20 | 2018-09-18 | 山东管理学院 | 基于多特征模板修正的中医医案命名识别方法及系统 |
CN109753650A (zh) * | 2018-12-14 | 2019-05-14 | 昆明理工大学 | 一种融合多特征的老挝语人名地名实体识别方法 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
-
2020
- 2020-07-09 CN CN202010656318.0A patent/CN111832306A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549639A (zh) * | 2018-04-20 | 2018-09-18 | 山东管理学院 | 基于多特征模板修正的中医医案命名识别方法及系统 |
CN109753650A (zh) * | 2018-12-14 | 2019-05-14 | 昆明理工大学 | 一种融合多特征的老挝语人名地名实体识别方法 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
Non-Patent Citations (2)
Title |
---|
王超 等: "基于改进分词标注集的中文微博命名实体识别方法", 《计算机与数字工程》 * |
苏娅 等: "在线医疗文本中的实体识别研究", 《北京大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907301A (zh) * | 2021-03-29 | 2021-06-04 | 哈尔滨工业大学 | 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统 |
CN112907301B (zh) * | 2021-03-29 | 2022-06-14 | 哈尔滨工业大学 | 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统 |
CN113903422A (zh) * | 2021-09-09 | 2022-01-07 | 北京邮电大学 | 医疗影像诊断报告实体提取方法、装置及设备 |
CN117556808A (zh) * | 2024-01-12 | 2024-02-13 | 万里云医疗信息科技(北京)有限公司 | 基于大语言模型和影像知识库的语料自动生成方法及装置 |
CN117556808B (zh) * | 2024-01-12 | 2024-04-05 | 万里云医疗信息科技(北京)有限公司 | 基于大语言模型和影像知识库的语料自动生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110109835B (zh) | 一种基于深度神经网络的软件缺陷定位方法 | |
CN112818676B (zh) | 一种医学实体关系联合抽取方法 | |
US20210294974A1 (en) | Systems and methods for deviation detection, information extraction and obligation deviation detection | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN111832306A (zh) | 基于多特征融合的影像诊断报告命名实体识别方法 | |
CN110232395B (zh) | 一种基于故障中文文本的电力系统故障诊断方法 | |
Landeiro et al. | Robust text classification in the presence of confounding bias | |
CN111782807B (zh) | 一种基于多方法集成学习的自承认技术债务检测分类方法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
He et al. | Using convolutional neural network with BERT for intent determination | |
CN112966068A (zh) | 基于网页信息的简历识别方法和装置 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN112069307B (zh) | 一种法律法条引用信息抽取系统 | |
CN111859938B (zh) | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 | |
CN108363691A (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN114239612A (zh) | 一种多模态神经机器翻译方法、计算机设备及存储介质 | |
CN115033659A (zh) | 基于深度学习的子句级自动摘要模型系统及摘要生成方法 | |
Jui et al. | A machine learning-based segmentation approach for measuring similarity between sign languages | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
Gao et al. | REPRESENTATION LEARNING OF KNOWLEDGE GRAPHS USING CONVOLUTIONAL NEURAL NETWORKS. | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
CN115269795B (zh) | 一种电子病历的分段方法 | |
Fan et al. | A medical pre-diagnosis system for histopathological image of breast cancer | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN114153968A (zh) | 基于词属性位置关系与贝叶斯的少样本金融文本分类系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201027 |
|
RJ01 | Rejection of invention patent application after publication |