CN110348008A - 基于预训练模型和微调技术的医疗文本命名实体识别方法 - Google Patents
基于预训练模型和微调技术的医疗文本命名实体识别方法 Download PDFInfo
- Publication number
- CN110348008A CN110348008A CN201910520186.6A CN201910520186A CN110348008A CN 110348008 A CN110348008 A CN 110348008A CN 201910520186 A CN201910520186 A CN 201910520186A CN 110348008 A CN110348008 A CN 110348008A
- Authority
- CN
- China
- Prior art keywords
- medical
- text
- training
- model
- training model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 title claims abstract description 57
- 238000005516 engineering process Methods 0.000 title claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 208000024891 symptom Diseases 0.000 claims description 10
- 239000003814 drug Substances 0.000 claims description 9
- 229940079593 drug Drugs 0.000 claims description 5
- 210000003484 anatomy Anatomy 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 abstract description 6
- 230000008878 coupling Effects 0.000 abstract description 2
- 238000010168 coupling process Methods 0.000 abstract description 2
- 238000005859 coupling reaction Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001282153 Scopelogadus mizolepis Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种基于预训练模型和微调技术的医疗文本命名实体识别方法,本发明首先利用大规模非结构化的电子病历等医疗文本对BERT预训练模型进行预训练,以训练出包含文本中语义表示信息的预训练模型。利用堆叠扩张卷积神经网络对所产生的预训练模型进行微调,以获得能够进行医疗领域命名实体自动识别的深度神经网络模型。本发明提供的预训练模型能够更为准确的捕获文本中的语义信息,能够更有效的迁移到特定的任务中,提高模型进行命名实体识别的准确性;本发明将堆叠扩张卷积神经网络与预训练模型结合以对模型进行微调,最终进行医疗文本命名实体的识别,不仅能够很好的捕获文本中的语义信息,而且能够进行并行计算,以提高模型训练速度。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其是一种基于预训练模型和微调技术的医疗文本命名实体识别方法。
背景技术
临床医学是研究疾病的病因、诊断、治疗和预后,提高临床治疗水平,促进人体健康的科学。临床医学中的电子病历等医疗文本数据对于医学领域研究具有巨大的价值。随着互联网的普及,出现了越来越多的在线临床医疗社区以及临床医疗咨询网站。这些在线临床医疗网站也产生了丰富的医疗文本数据。这些医疗文本中有大量真实的个人案例,潜藏着丰富的临床医疗价值。但是这些临床医疗文本大多处于一种非结构化的状态。为充分挖掘其中的价值,并为接下来临床医疗问答机器人、临床医疗决策支持系统等应用打好基础工作。如何采用更加有效合理的方法,准确地挖掘出医疗文本数据中所存在的潜在价值,已经是未来信息科技发展的趋势,也是医疗文本数据挖掘技术产生的背景。
医疗机构通过构建和组织对医疗文本数据进行文本分析的文本数据分析团队,来挖掘临床医学中产生的医疗文本数据中所包含的有用信息,尤其是医疗文本中包含的命名实体信息,为提高医疗机构之间竞争中获取更大的商业利益。同时,国家也将医疗文本数据挖掘作为国家战略布局的重要组成成分,以提高国内医疗水平。
命名实体识别,又名实体识别、实体抽取,是自然语言处理领域信息抽取任务中的一项子任务,旨在通过利用机器学习相关方法从文本语料中自动识别并抽取出文本中的专有名词并加以分类。常见的命名实体有:人名、地名、机构名、特定实体等。命名实体识别是自然语言处理中一个相当重要的基础任务,是许多自然语言处理的高层应用,如搜索引擎、问答系统、推荐系统、翻译系统等的一个基础技术。随着信息技术的不断发展与信息系统应用范围的不断深化,对文本数据进行自动化命名实体识别是提高企业生产效率和竞争优势的一种重要手段及措施。
文本命名实体识别的分析方法可分为基于规则的命名实体识别方法、基于词典的命名实体识别方法、基于传统机器学习的命名实体识别方法和基于深度学习方法的命名实体识别方法。
基于规则的命名实体识别方法是利用模式匹配技术根据预先定义好的规则模板对文本进行匹配识别出命名实体。规则模板一般是根据词法、句法、语法等语言学知识来进行设计的。该方法因为所采用的规则一般是由专家编写的,所以具有较高的准确性。但是因为专家知识具有不可复用性,导致该方法存在人工成本非常高等缺点。
基于词典的命名实体识别方法是通过构建词典并根据词典对文本中的内容进行匹配的命名实体识别方法。传统的命名实体类别,如人名、地名、机构名等的命名实体数量巨大,很难全部收录在词典中,而且部分实体名称变化频繁,并没有严格的规律可循,因此单纯的基于词典匹配的命名实体识别通常无法满足实际应用的需求。
基于传统机器学习的命名实体识别方法利用统计学和概率学的知识,针对特定的命名实体识别问题设计各种复杂的统计模型,利用大量的标记数据进行有监督的学习调整模型的参数,进而使用训练好的模型来进行命名实体识别。相比前两种方法,此类方法不需要很强的语言学知识,灵活性高,适应性强,但命名实体识别的效果依赖标注数据的数量和质量。
基于深度学习的命名实体识别方法利用深度神经网络训练模型来识别不同领域中的特定命名实体。其中,具有代表性意义的方法有基于循环神经网络(Recurrent NeuralNetwork,RNN)及其变体的文本关系抽取方法和基于卷积神经网络(Convolutional NeuralNetworks,CNN)及其变体的方法。这些方法不仅能够更加准确地识别并抽取出相关领域文本语料中的命名实体,而且减少了人工成本消耗。
医疗文本命名实体识别是利用计算机技术从医疗文本中自动识别出医疗领域有用的命名实体,如解剖部位、独立症状、症状描述、手术、药物等命名实体,形成结构化的数据储存在数据库中,以供用户对信息的查询或进一步分析利用的过程。具体的说,是自然语言处理领域的命名实体识别技术从医疗文本中自动识别出医疗命名实体。
随着各类临床医疗症状的发现解决以及相关药物的研究发明,如何采用更加高效合理的技术从数目繁多的临床医疗文本中识别并抽取不同与医学相关的命名实体,并为不同用户群体及医学专家提供在线查询平台,已经是目前大数据行业所面临的直接问题与挑战。它是医疗知识挖掘、临床医疗问答机器人、临床医疗决策支持系统等应用领域的重要基础工作。综上所述,需要研究与开发一种科学准确的医疗文本命名实体识别的方法,具有很强的现实意义。
发明内容
针对现有技术的不足,本发明提供基于预训练模型和微调技术的医疗文本命名实体识别方法,该方法通过利用已标注好医疗命名实体的医疗文本对基于深度学习方法的命名实体识别模型进行训练,然后利用训练好的模型对未标注的医疗文本进行命名实体识别,并抽取出文档中所包含的命名实体。
本发明的技术方案为:基于预训练模型和微调技术的医疗文本命名实体识别方法,包括以下步骤:
S1)、利用文本数据挖掘的相关技术对医疗文本进行预处理;
S2)、利用BERT预训练模型对大规模非结构化的无标注的医疗文本进行预训练,训练出包含医疗领域语义表示信息的预训练模型;
S3)、利用堆叠扩张卷积神经网络IDCNN对步骤S2)所训练出的预训练模型进行微调,训练出能够识别医疗文本中所包含的相关医疗命名实体的深度神经网络模型;
S4)、将训练好的深度神经网络模型用于医疗文本的命名实体识别任务中,以识别更多有价值的命名实体。
进一步的,上述方法中,步骤S1)中,利用文本数据挖掘的相关技术对医疗文本进行预处理,主要包含以下步骤:
S101)、对医疗文本进行分词处理;
S102)、删除以分词句子中的停用词;
S103)、利用BIO序列标记法标注医疗文本中所存在的解剖部位、独立症状、症状描述、手术、药物相关的临床医疗命名实体;其中,B表示医疗命名实体的开始词;I表示医疗命名实体的中间词或结尾词;O表示非医疗命名实体;
进一步的,上述方法中,步骤S2)中,对大规模非结构化的无标注医疗文本进行预训练,以获得文本中所包含的丰富语义表示信息。相对于神经网络的词向量训练模型从大规模无标注医疗文本中训练词向量,将词向量作为下一层网络的输入,利用BERT预训练模型能够获得更加丰富的文本语义表示信息,能够更有效的迁移到特定的任务中。
进一步的,上述方法中,步骤S3)中,将堆叠扩张卷积神经网络与BERT预训练模型进行结合,对步骤S2)所产生的预训练模型进行微调,得到进行医疗文本命名实体识别的深度神经网络模型。
进一步的,上述方法中,步骤S4)中,通过将未进行命名实体标注的医疗文本输入到步骤S3)中利用预训练模型和微调技术训练出的深度神经网络模型中,得到该输入文本对应的医疗命名实体BIO标记,将上述标记利用可视化方法呈现给用户,使该系统的使用者能够方便的获取输入的医疗文本中被自动识别出的医疗命名实体信息。
本发明的有益效果为:
1、本发明采用预训练模型而不是词向量作为医疗文本命名实体识别模型的输入,相对于词向量,预训练模型能够更为准确的捕获文本中的语义信息,能够更有效的迁移到特定的任务中,提高模型进行命名实体识别的准确性;
2、本发明利用堆叠扩张卷积神经网络进行医疗文本命名实体识别,相对于现有技术,本发明采用的堆叠扩张卷积神经网络不仅能够很好的捕获文本中的语义信息,而且该方法能够进行并行计算,以提高模型训练速度;
3、本发明将堆叠扩张卷积神经网络与预训练模型结合使用,并使用堆叠扩张卷积神经网络来微调预训练得到的预训练模型,以提高模型性能。
附图说明
图1为本发明的流程示意图;
图2为本发明实施例的BIO标记结果示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,本发明提供一种基于预训练模型和微调技术的医疗文本命名实体识别方法,本发明首先利用大规模非结构化的电子病历等医疗文本对BERT预训练模型进行预训练,以训练出包含文本中语义表示信息的预训练模型。然后,利用堆叠扩张卷积神经网络对所产生的预训练模型进行微调,以获得能够进行医疗领域命名实体自动识别的深度神经网络模型。
具体为:S1)、利用文本数据挖掘相关技术对电子病历等医疗文本进行预处理操作;该过程具体包括以下步骤:
S101)、对电子病历等医疗文本进行分词处理;
S102)、删除已分词句子中停用词;
S103)、利用BIO序列标记法对医疗文本中存在的解剖部位、独立症状、症状描述、手术、药物等命名实体进行标注。BIO序列标记法是一种使用B、I、O三个字母来标记文本信息的方法。其中,B表示医疗命名实体的开始词;I表示医疗命名实体的中间词或结尾词;O表示非医疗命名实体。
S2)、利用BERT预训练模型大规模非结构化的无标注医疗文本进行预训练,生成包含文本中语义表示信息的预训练模型。
S3)、利用堆叠扩张卷积神经网络对步骤S2)所产生的预训练模型进行微调。在微调过程中,训练出能够自动识别医疗领域命名实体的深度神经网络模型;
S4)、将训练好的深度神经网络模型用于医疗文本命名实体识别任务中。
本发明采用预训练模型而不是词向量作为医疗文本命名实体识别模型的输入。预训练模型是专门为从大规模无标注语料中以无监督的方式学习语料中的语义信息的神经网络模型,它是由多层神经网络组成的复杂的学习模型,而词向量是使用词向量学习模型从大规模无标注语料中生成的一组一维向量。相对于词向量,预训练模型能够更为准确的捕获文本中的语义信息,提高模型进行命名实体识别的准确性。
同时,本发明采用基于深度学习的人工神经网络与自然语言处理命名实体识别方法相结合的方法,能够提高系统准确性、反应速度和容错性。针对医疗领域实体识别语料进行预处理和利用堆叠扩张卷积神经网络微调预训练模型,提高命名实体识别的准确性和效率,能够满足不同应用的需求。
为了更好的理解本发明,本发明对句子“左肾区叩击疼明显”进行分析,如图2所示,具体为:
1)、对待处理句子进行预处理的分词结果如下:“左肾区叩击疼明显”。
2)、将上述结果输入给基于预处理模型和微调技术的医疗文本命名实体识别模型中,进行命名实体识别,得到的命名实体识别结果为身体部位实体“左肾区”和症状实体“叩击疼”。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (5)
1.基于预训练模型和微调技术的医疗文本命名实体识别方法,其特征在于,包括以下步骤:
S1)、利用文本数据挖掘的相关技术对医疗文本进行预处理;
S2)、利用BERT预训练模型对大规模非结构化的无标注的医疗文本进行预训练,训练出包含医疗领域语义表示信息的预训练模型;
S3)、利用堆叠扩张卷积神经网络IDCNN对步骤S2)所训练出的预训练模型进行微调,训练出能够识别医疗文本中所包含的相关医疗命名实体的深度神经网络模型;
S4)、将训练好的深度神经网络模型用于医疗文本的命名实体识别任务中,以识别更多有价值的命名实体。
2.根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法,其特征在于:步骤S1)中,利用文本数据挖掘的相关技术对医疗文本进行预处理,主要包含以下步骤:
S101)、对医疗文本进行分词处理;
S102)、删除已分词句子中的停用词;
S103)、利用BIO序列标记法标注医疗文本中所存在的解剖部位、独立症状、症状描述、手术、药物相关的临床医疗命名实体;其中,B表示医疗命名实体的开始词;I表示医疗命名实体的中间词或结尾词;O表示非医疗命名实体。
3.根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法,其特征在于:步骤S2)中,对大规模非结构化的无标注医疗文本进行预训练,以获得文本中所包含的丰富语义表示信息。
4.根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法,其特征在于:步骤S3)中,将堆叠扩张卷积神经网络与BERT预训练模型进行结合,对步骤S2)所产生的预训练模型进行微调,得到进行医疗文本命名实体识别的深度神经网络模型。
5.根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法,其特征在于:步骤S4)中,通过将未进行命名实体标注的医疗文本输入到步骤S3)中利用预训练模型和微调技术训练出的深度神经网络模型中,得到该输入文本对应的医疗命名实体BIO标记,将上述标记利用可视化方法呈现给用户,使该系统的使用者能够方便的获取输入的医疗文本中被自动识别出的医疗命名实体信息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910520186.6A CN110348008A (zh) | 2019-06-17 | 2019-06-17 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
PCT/CN2019/105506 WO2020252950A1 (zh) | 2019-06-17 | 2019-09-12 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910520186.6A CN110348008A (zh) | 2019-06-17 | 2019-06-17 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110348008A true CN110348008A (zh) | 2019-10-18 |
Family
ID=68182151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910520186.6A Pending CN110348008A (zh) | 2019-06-17 | 2019-06-17 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110348008A (zh) |
WO (1) | WO2020252950A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127191A (zh) * | 2019-12-25 | 2020-05-08 | 北京百度网讯科技有限公司 | 风险评估方法及装置 |
CN111159416A (zh) * | 2020-04-02 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 语言任务模型训练方法、装置、电子设备及存储介质 |
CN111160023A (zh) * | 2019-12-23 | 2020-05-15 | 华南理工大学 | 一种基于多路召回的医疗文本命名实体识别方法 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111222340A (zh) * | 2020-01-15 | 2020-06-02 | 东华大学 | 基于多标准主动学习的乳腺电子病历实体识别系统 |
CN111274820A (zh) * | 2020-02-20 | 2020-06-12 | 齐鲁工业大学 | 一种基于神经网络的智能医疗命名实体识别方法和装置 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111584021A (zh) * | 2020-05-08 | 2020-08-25 | 青岛国新健康产业科技有限公司 | 病案信息校验方法、装置、电子设备及存储介质 |
CN111931490A (zh) * | 2020-09-27 | 2020-11-13 | 平安科技(深圳)有限公司 | 文本纠错方法、装置及存储介质 |
CN112016319A (zh) * | 2020-09-08 | 2020-12-01 | 平安科技(深圳)有限公司 | 预训练模型获取、疾病实体标注方法、装置及存储介质 |
CN112733543A (zh) * | 2021-01-26 | 2021-04-30 | 上海交通大学 | 基于文本编辑生成模型的机构命名实体归一化方法和系统 |
WO2021151328A1 (zh) * | 2020-09-04 | 2021-08-05 | 平安科技(深圳)有限公司 | 症状数据处理方法、装置、计算机设备及存储介质 |
CN113283244A (zh) * | 2021-07-20 | 2021-08-20 | 湖南达德曼宁信息技术有限公司 | 一种基于预训练模型的招投标数据命名实体识别方法 |
CN113808752A (zh) * | 2020-12-04 | 2021-12-17 | 四川医枢科技股份有限公司 | 一种医学文档识别方法、装置及设备 |
CN117709441A (zh) * | 2024-02-06 | 2024-03-15 | 云南联合视觉科技有限公司 | 通过逐步迁移领域训练专业医疗大模型的方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800767B (zh) * | 2021-01-31 | 2023-11-21 | 云知声智能科技股份有限公司 | 一种病历文本中患者基本信息的检查方法及系统 |
CN112989831B (zh) * | 2021-03-29 | 2023-04-28 | 华南理工大学 | 一种应用在网络安全领域的实体抽取方法 |
CN113158677B (zh) * | 2021-05-13 | 2023-04-07 | 竹间智能科技(上海)有限公司 | 一种命名实体识别方法和系统 |
CN114970522B (zh) * | 2022-05-20 | 2023-11-24 | 北京百度网讯科技有限公司 | 语言模型的预训练方法、装置、设备、存储介质 |
CN116070602B (zh) * | 2023-01-05 | 2023-10-17 | 中国科学院计算机网络信息中心 | 一种pdf文档智能标注与抽取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298651A (zh) * | 2014-09-09 | 2015-01-21 | 大连理工大学 | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统 |
US20190065460A1 (en) * | 2017-08-31 | 2019-02-28 | Ebay Inc. | Deep hybrid neural network for named entity recognition |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8738643B1 (en) * | 2007-08-02 | 2014-05-27 | Google Inc. | Learning synonymous object names from anchor texts |
CN108920460B (zh) * | 2018-06-26 | 2022-03-11 | 武大吉奥信息技术有限公司 | 一种多类型实体识别的多任务深度学习模型的训练方法 |
CN109062983A (zh) * | 2018-07-02 | 2018-12-21 | 北京妙医佳信息技术有限公司 | 用于医学健康知识图谱的命名实体识别方法及系统 |
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN109670179B (zh) * | 2018-12-20 | 2022-11-11 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN109710770A (zh) * | 2019-01-31 | 2019-05-03 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于迁移学习的文本分类方法及装置 |
-
2019
- 2019-06-17 CN CN201910520186.6A patent/CN110348008A/zh active Pending
- 2019-09-12 WO PCT/CN2019/105506 patent/WO2020252950A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298651A (zh) * | 2014-09-09 | 2015-01-21 | 大连理工大学 | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统 |
US20190065460A1 (en) * | 2017-08-31 | 2019-02-28 | Ebay Inc. | Deep hybrid neural network for named entity recognition |
Non-Patent Citations (2)
Title |
---|
EMMA STRUBELL ET AL.: "Fast and Accurate Entity Recognition with Iterated Dilated Convolutions", 《ARXIV:1702.02098V3》 * |
吕建新 等: "深度学习在苏宁知识抽取领域的尝试与实践", 《深度学习在苏宁知识抽取领域的尝试与实践-51CTO.COM(HTTPS://WWW.51CTO.COM/ARTICLE/592147.HTML)》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160023B (zh) * | 2019-12-23 | 2023-06-20 | 华南理工大学 | 一种基于多路召回的医疗文本命名实体识别方法 |
CN111160023A (zh) * | 2019-12-23 | 2020-05-15 | 华南理工大学 | 一种基于多路召回的医疗文本命名实体识别方法 |
CN111127191A (zh) * | 2019-12-25 | 2020-05-08 | 北京百度网讯科技有限公司 | 风险评估方法及装置 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111222339B (zh) * | 2020-01-13 | 2023-05-23 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111222340A (zh) * | 2020-01-15 | 2020-06-02 | 东华大学 | 基于多标准主动学习的乳腺电子病历实体识别系统 |
CN111274820B (zh) * | 2020-02-20 | 2023-04-07 | 齐鲁工业大学 | 一种基于神经网络的智能医疗命名实体识别方法和装置 |
CN111274820A (zh) * | 2020-02-20 | 2020-06-12 | 齐鲁工业大学 | 一种基于神经网络的智能医疗命名实体识别方法和装置 |
CN111159416B (zh) * | 2020-04-02 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 语言任务模型训练方法、装置、电子设备及存储介质 |
CN111159416A (zh) * | 2020-04-02 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 语言任务模型训练方法、装置、电子设备及存储介质 |
CN111584021B (zh) * | 2020-05-08 | 2023-08-18 | 青岛国新健康产业科技有限公司 | 病案信息校验方法、装置、电子设备及存储介质 |
CN111584021A (zh) * | 2020-05-08 | 2020-08-25 | 青岛国新健康产业科技有限公司 | 病案信息校验方法、装置、电子设备及存储介质 |
CN111444721B (zh) * | 2020-05-27 | 2022-09-23 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
WO2021151328A1 (zh) * | 2020-09-04 | 2021-08-05 | 平安科技(深圳)有限公司 | 症状数据处理方法、装置、计算机设备及存储介质 |
CN112016319A (zh) * | 2020-09-08 | 2020-12-01 | 平安科技(深圳)有限公司 | 预训练模型获取、疾病实体标注方法、装置及存储介质 |
CN112016319B (zh) * | 2020-09-08 | 2023-12-15 | 平安科技(深圳)有限公司 | 预训练模型获取、疾病实体标注方法、装置及存储介质 |
CN111931490A (zh) * | 2020-09-27 | 2020-11-13 | 平安科技(深圳)有限公司 | 文本纠错方法、装置及存储介质 |
CN113808752A (zh) * | 2020-12-04 | 2021-12-17 | 四川医枢科技股份有限公司 | 一种医学文档识别方法、装置及设备 |
CN112733543A (zh) * | 2021-01-26 | 2021-04-30 | 上海交通大学 | 基于文本编辑生成模型的机构命名实体归一化方法和系统 |
CN113283244B (zh) * | 2021-07-20 | 2021-10-01 | 湖南达德曼宁信息技术有限公司 | 一种基于预训练模型的招投标数据命名实体识别方法 |
CN113283244A (zh) * | 2021-07-20 | 2021-08-20 | 湖南达德曼宁信息技术有限公司 | 一种基于预训练模型的招投标数据命名实体识别方法 |
CN117709441A (zh) * | 2024-02-06 | 2024-03-15 | 云南联合视觉科技有限公司 | 通过逐步迁移领域训练专业医疗大模型的方法 |
CN117709441B (zh) * | 2024-02-06 | 2024-05-03 | 云南联合视觉科技有限公司 | 通过逐步迁移领域训练专业医疗大模型的方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020252950A1 (zh) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348008A (zh) | 基于预训练模型和微调技术的医疗文本命名实体识别方法 | |
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
CN111222340B (zh) | 基于多标准主动学习的乳腺电子病历实体识别系统 | |
CN110287481A (zh) | 命名实体语料标注训练系统 | |
CN108182262A (zh) | 基于深度学习和知识图谱的智能问答系统构建方法和系统 | |
CN110134772A (zh) | 基于预训练模型与微调技术的医疗文本关系抽取方法 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN106682397A (zh) | 一种基于知识的电子病历质控方法 | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN113076411B (zh) | 一种基于知识图谱的医疗查询扩展方法 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN111312354A (zh) | 基于多智能体强化学习的乳腺病历实体识别标注增强系统 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
Jin | Application optimization of NLP system under deep learning technology in text semantics and text classification | |
CN118296121A (zh) | 一种基于大语言模型的医学术语标准化辅助诊断方法 | |
CN111597330A (zh) | 一种基于支持向量机的面向智能专家推荐的用户画像方法 | |
CN117637175A (zh) | 基于多级语义的大模型医疗训练数据生成方法和系统 | |
CN117216578A (zh) | 基于元学习的可自定义标签深度学习模型构建方法及系统 | |
Liu et al. | Comparative research on structure function recognition based on deep learning | |
CN111538843B (zh) | 游戏领域的知识图谱关系匹配方法、模型构建方法及装置 | |
Pan et al. | Learning New Word Semantics with Conceptual Text | |
CN118170933B (zh) | 一种面向科学领域多模态语料数据的构建方法和装置 | |
CN114238561B (zh) | 基于三元损失训练策略的生物医学实体关系抽取方法 | |
Abed et al. | Based SVM distinct stages framework data mining technique approach for text extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |