CN111291568B - 一种应用于医学文本的实体关系自动标注方法 - Google Patents
一种应用于医学文本的实体关系自动标注方法 Download PDFInfo
- Publication number
- CN111291568B CN111291568B CN202010151091.4A CN202010151091A CN111291568B CN 111291568 B CN111291568 B CN 111291568B CN 202010151091 A CN202010151091 A CN 202010151091A CN 111291568 B CN111291568 B CN 111291568B
- Authority
- CN
- China
- Prior art keywords
- entity
- medical
- corpus
- gene
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012937 correction Methods 0.000 claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 239000003550 marker Substances 0.000 claims abstract description 13
- 108090000623 proteins and genes Proteins 0.000 claims description 50
- 201000010099 disease Diseases 0.000 claims description 42
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 42
- 238000012896 Statistical algorithm Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 7
- 239000003814 drug Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种应用于医学文本的实体关系自动标注方法,其包括以下步骤:S1、构造医学术语词典和先验知识库;S2、根据医学术语词典对目标医学文本进行统计共现并生成基础语料;S3、采用先验知识库对基础语料进行预标注,得到预标注后的语料;S4、对预标注后的语料进行实体校正,得到实体校正后的语料;S5、通过关系标志词对实体校正后的语料进行过滤,完成医学文本的实体关系自动标注。本发明采用自动标注的形式,减少了研究人员在关系抽取中对人力的投入,拥有较快的标注速度,同时本方法不需要依赖专家的标注,解决了医学文本标注困难的问题,且本方法通过关系标志词对标注过的文本进行进一步过滤,可以明显提高标注的精度。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种应用于医学文本的实体关系自动标注方法。
背景技术
随着精准医学领域的不断发展,每年与疾病基因等主题相关的论文呈现日益增长的趋势。论文作为精准医学关系知识的主要载体,从中自动提取出结构化信息是推动精准医学发展的主要因素。
将人类疾病与其涉及到的基因、药品等联系起来是精准医学的核心。这些联系可以通过各种不同类型的研究进行,包括孟德尔和复杂疾病的经典谱系遗传学研究,全基因组关联研究(GWAS),人类在线孟德尔遗传,体细胞突变频率,转录组学和蛋白质组学研究,以及个别蛋白质的详细分子生物学研究。如此多的研究人员来自不同的学科与领域,相关数据也很分散,很难得到一个全面的概述哪些疾病哪些基因或药品。如何利用这些零散的先验知识,对报告、论文等文本信息进行自动标注,让医生快速获取信息,并且不受无关信息的干扰,一直以来都是业界研究的重要课题。
现有的实体关系自动标注方法大部分基于远程监督进行:陈岭,余小康提出了一种结合从句级远程监督和半监督集成学习的关系抽取方法。首先通过远程监督将知识库中的关系三元组对齐到语料库,构建关系实例集,然后使用基于句法分析的从句识别去除关系实例集中的噪声数据,构建特征数据集,最终使用半监督集成学习算法训练关系分类器。刘瑞,左源等提出了一种基于异常处理的海量文本自动标注方法,首先从知识库中提取命名实体以及存在关系的命名实体对,分别进行存储,然后根据存储的命名实体,通过使用字符串匹配找出海量文本中每个句子的命名实体,根据存储的命名实体对找出文本中所有命名实体对共现的句子,进行粗标注。最终,对进行过粗标注的句子中的命名实体进行判断,当存在词对异常时,将其删除;当存在命名实体异常时,通过过滤算法将有命名实体异常的命名实体全部去除掉,得到最终的文本标注结果。
虽然现存的关系自动标注方法可以一定程度上避免对手工标注的依赖,但这些方法达到的精度有限。随着精准医学领域的不断发展,越来越多的相关论文在期刊杂志进行发表,精准医学领域的最新研究成果与知识大多蕴藏在论文中,论文的形式为半结构化数据。这些数据中包含了疾病与基因、药品、治疗方式的描述以及他们之间的关系,然而这些关系表达的形式多种多样,尤其是英文文献,其语法、时态等对最终关系的表述都会产生影响,又因为涉及医疗专业领域,这给计算机自动化抽取带来了很大的难度。
发明内容
针对现有技术中的上述不足,本发明提供的一种应用于医学文本的实体关系自动标注方法解决了现有医学文本实体关系自动抽取方法精度低的问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种应用于医学文本的实体关系自动标注方法,其包括以下步骤:
S1、构造医学术语词典和先验知识库,获取目标医学文本;
S2、根据医学术语词典对目标医学文本进行统计共现并生成基础语料;
S3、采用先验知识库对基础语料进行预标注,得到预标注后的语料;
S4、对预标注后的语料进行实体校正,得到实体校正后的语料;
S5、通过关键词统计算法获取关系标志词,并通过关系标志词对实体校正后的语料进行过滤,得到过滤后的语料,完成医学文本的实体关系自动标注。
进一步地,步骤S1中构造医学术语词典的具体方法为:
通过医疗资源网站获取疾病实体词典和基因实体词典,并将其进行半结构化处理,得到结构形式为<标准ID,中文标准名称,英文标准名称,中文别名,英文别名>的若干条疾病实体和基因实体,将由所有疾病实体和基因实体组成的集合作为医学术语词典。
进一步地,步骤S1中构造先验知识库的具体方法为:
对于任一疾病实体A和任一基因实体B,通过公式:
获取疾病实体A和基因实体B的EI值EIAB,并构建形式为<疾病实体A,基因实体B,EIAB>的三元组,进而得到若干个三元组,并将由若干个三元组构成的集合作为先验知识库;其中表示明确提出疾病实体A与基因实体B存在关系的出版物数量;表示同时提及疾病实体A与基因实体B的出版物数量。
进一步地,步骤S2的具体方法为:
通过对目标医学文本进行半结构化处理,得到包含文章标准ID、摘要、作者列表和期刊名称的文本;采用分词工具对摘要文本进行按句切分,根据医学术语词典通过搜索工具获取按句切分后的文本中同时出现疾病实体与基因实体的语句,得到基础语料。
进一步地,步骤S3的具体方法为:
对于基础语料中的每一个语句,获取其中包含的疾病实体与基因实体,通过先验知识库获取该语句中所包含的疾病实体与基因实体所对应的EI值,若EI值为0,则将该语句预标注为Negative;若EI值大于等于0.8,则将该语句预标注为Positive。
进一步地,步骤S4的具体方法为:
采用BioBERT+BiLSTM+CRF结构的训练模型对预标注后的语料进行实体边界校正和实体大小写校正,判断校正后的实体与校正前的实体是否相同,若是则不修改该实体所在语句的标注,否则将该实体所在语句的标注修改为Negative;
对于采用缩写的实体,将医学术语词典中所有的别名在整篇摘要中进行遍历,若整篇摘要中包含两个以上同一缩写实体的标准名或别名,则认为其连接指向同一实体,并将该缩写修改为该实体的标准名或别名;否则认为该实体选取错误,并将其舍去,得到实体校正后的语料。
进一步地,步骤S5的具体方法包括以下子步骤:
S5-1、通过关键词统计算法获取医学文献中用于描述疾病实体与基因实体之间关系的词,并将其作为关系标志词;
S5-2、选取出现次数最多的前n个关系标志词作为过滤特征;
S5-3、对于实体校正后的语料,选出预标注为Negative的语句;
S5-4、在剩下的实体校正后的语料中,将存在过滤特征的语句的标注修改为Positive并选出,将不存在过滤特征的语句舍去;
S5-5、将选出的标注为Negative的语句和Positive的语句的集合作为过滤后的语料,完成医学文本的实体关系自动标注。
本发明的有益效果为:本发明采用自动标注的形式,减少了研究人员在关系抽取中对人力的投入,拥有较快的标注速度,同时本方法不需要依赖专家的标注,解决了医学文本标注困难的问题,且本方法通过关系标志词对标注过的文本进行进一步过滤,可以明显提高标注的精度。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该应用于医学文本的实体关系自动标注方法包括以下步骤:
S1、构造医学术语词典和先验知识库,获取目标医学文本;
S2、根据医学术语词典对目标医学文本进行统计共现并生成基础语料;
S3、采用先验知识库对基础语料进行预标注,得到预标注后的语料;
S4、对预标注后的语料进行实体校正,得到实体校正后的语料;
S5、通过关键词统计算法获取关系标志词,并通过关系标志词对实体校正后的语料进行过滤,得到过滤后的语料,完成医学文本的实体关系自动标注。
步骤S1中构造医学术语词典的具体方法为:通过医疗资源网站获取疾病实体词典和基因实体词典,并将其进行半结构化处理,得到结构形式为<标准ID,中文标准名称,英文标准名称,中文别名,英文别名>的若干条疾病实体和基因实体,将由所有疾病实体和基因实体组成的集合作为医学术语词典。
步骤S1中构造先验知识库的具体方法为:对于任一疾病实体A和任一基因实体B,通过公式:
获取疾病实体A和基因实体B的EI值EIAB,并构建形式为<疾病实体A,基因实体B,EIAB>的三元组,进而得到若干个三元组,并将由若干个三元组构成的集合作为先验知识库;其中表示明确提出疾病实体A与基因实体B存在关系的出版物数量;表示同时提及疾病实体A与基因实体B的出版物数量。
步骤S2的具体方法为:通过对目标医学文本进行半结构化处理,得到包含文章标准ID、摘要、作者列表和期刊名称的文本;采用分词工具对摘要文本进行按句切分,根据医学术语词典通过搜索工具获取按句切分后的文本中同时出现疾病实体与基因实体的语句,得到基础语料。
步骤S3的具体方法为:对于基础语料中的每一个语句,获取其中包含的疾病实体与基因实体,通过先验知识库获取该语句中所包含的疾病实体与基因实体所对应的EI值,若EI值为0,则将该语句预标注为Negative;若EI值大于等于0.8,则将该语句预标注为Positive。
步骤S4的具体方法为:采用BioBERT+BiLSTM+CRF结构的训练模型对预标注后的语料进行实体边界校正和实体大小写校正,判断校正后的实体与校正前的实体是否相同,若是则不修改该实体所在语句的标注,否则将该实体所在语句的标注修改为Negative;对于采用缩写的实体,将医学术语词典中所有的别名在整篇摘要中进行遍历,若整篇摘要中包含两个以上同一缩写实体的标准名或别名,则认为其连接指向同一实体,并将该缩写修改为该实体的标准名或别名;否则认为该实体选取错误,并将其舍去,得到实体校正后的语料。
步骤S5的具体方法包括以下子步骤:
S5-1、通过关键词统计算法获取医学文献中用于描述疾病实体与基因实体之间关系的词,并将其作为关系标志词;
S5-2、选取出现次数最多的前n个关系标志词作为过滤特征;
S5-3、对于实体校正后的语料,选出预标注为Negative的语句;
S5-4、在剩下的实体校正后的语料中,将存在过滤特征的语句的标注修改为Positive并选出,将不存在过滤特征的语句舍去;
S5-5、将选出的标注为Negative的语句和Positive的语句的集合作为过滤后的语料,完成医学文本的实体关系自动标注。
在本发明的一个实施例中,边界校正的例子如下:若基因a的名字为ABC123,医学文本中提及一个基因b的名字为ABC1234,则在匹配过程中存在将整体为ABC1234的基因b拆分为基因a+字符4,该情况即为边界错误。当基因a的名字匹配出来成abc123时,即为大小写识别错误。当abc123所对应的基因和ABC123所对应的基因相同时,则认为校正后的实体与校正前的实体相同。当ABC123和ABC1234所对应的基因不同时,则认为校正后的实体与校正前的实体不同。
综上所述,本发明采用自动标注的形式,减少了研究人员在关系抽取中对人力的投入,拥有较快的标注速度,同时本方法不需要依赖专家的标注,解决了医学文本标注困难的问题,且本方法通过关系标志词对标注过的文本进行进一步过滤,可以明显提高标注的精度。
Claims (4)
1.一种应用于医学文本的实体关系自动标注方法,其特征在于,包括以下步骤:
S1、构造医学术语词典和先验知识库,获取目标医学文本;
S2、根据医学术语词典对目标医学文本进行统计共现并生成基础语料;
S3、采用先验知识库对基础语料进行预标注,得到预标注后的语料;
S4、对预标注后的语料进行实体校正,得到实体校正后的语料;
S5、通过关键词统计算法获取关系标志词,并通过关系标志词对实体校正后的语料进行过滤,得到过滤后的语料,完成医学文本的实体关系自动标注;
步骤S1中构造医学术语词典的具体方法为:
通过医疗资源网站获取疾病实体词典和基因实体词典,并将其进行半结构化处理,得到结构形式为<标准ID,中文标准名称,英文标准名称,中文别名,英文别名>的若干条疾病实体和基因实体,将由所有疾病实体和基因实体组成的集合作为医学术语词典;
步骤S1中构造先验知识库的具体方法为:
对于任一疾病实体A和任一基因实体B,通过公式:
获取疾病实体A和基因实体B的EI值EIAB,并构建形式为<疾病实体A,基因实体B,EIAB>的三元组,进而得到若干个三元组,并将由若干个三元组构成的集合作为先验知识库;其中表示明确提出疾病实体A与基因实体B存在关系的出版物数量;表示同时提及疾病实体A与基因实体B的出版物数量;
步骤S3的具体方法为:
对于基础语料中的每一个语句,获取其中包含的疾病实体与基因实体,通过先验知识库获取该语句中所包含的疾病实体与基因实体所对应的EI值,若EI值为0,则将该语句预标注为Negative;若EI值大于等于0.8,则将该语句预标注为Positive。
2.根据权利要求1所述的应用于医学文本的实体关系自动标注方法,其特征在于,所述步骤S2的具体方法为:
通过对目标医学文本进行半结构化处理,得到包含文章标准ID、摘要、作者列表和期刊名称的文本;采用分词工具对摘要文本进行按句切分,根据医学术语词典通过搜索工具获取按句切分后的文本中同时出现疾病实体与基因实体的语句,得到基础语料。
3.根据权利要求1所述的应用于医学文本的实体关系自动标注方法,其特征在于,所述步骤S4的具体方法为:
采用BioBERT+BiLSTM+CRF结构的训练模型对预标注后的语料进行实体边界校正和实体大小写校正,判断校正后的实体与校正前的实体是否相同,若是则不修改该实体所在语句的标注,否则将该实体所在语句的标注修改为Negative;
对于采用缩写的实体,将医学术语词典中所有的别名在整篇摘要中进行遍历,若整篇摘要中包含两个以上同一缩写实体的标准名或别名,则认为其连接指向同一实体,并将该缩写修改为该实体的标准名或别名;否则认为该实体选取错误,并将其舍去,得到实体校正后的语料。
4.根据权利要求1所述的应用于医学文本的实体关系自动标注方法,其特征在于,所述步骤S5的具体方法包括以下子步骤:
S5-1、通过关键词统计算法获取医学文献中用于描述疾病实体与基因实体之间关系的词,并将其作为关系标志词;
S5-2、选取出现次数最多的前n个关系标志词作为过滤特征;
S5-3、对于实体校正后的语料,选出预标注为Negative的语句;
S5-4、在剩下的实体校正后的语料中,将存在过滤特征的语句的标注修改为Positive并选出,将不存在过滤特征的语句舍去;
S5-5、将选出的标注为Negative的语句和Positive的语句的集合作为过滤后的语料,完成医学文本的实体关系自动标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151091.4A CN111291568B (zh) | 2020-03-06 | 2020-03-06 | 一种应用于医学文本的实体关系自动标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151091.4A CN111291568B (zh) | 2020-03-06 | 2020-03-06 | 一种应用于医学文本的实体关系自动标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291568A CN111291568A (zh) | 2020-06-16 |
CN111291568B true CN111291568B (zh) | 2023-03-31 |
Family
ID=71021960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010151091.4A Active CN111291568B (zh) | 2020-03-06 | 2020-03-06 | 一种应用于医学文本的实体关系自动标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291568B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782821B (zh) * | 2020-06-30 | 2023-12-19 | 平安科技(深圳)有限公司 | 基于fm模型的医学热点的预测方法、装置和计算机设备 |
CN112036151B (zh) * | 2020-09-09 | 2024-04-05 | 平安科技(深圳)有限公司 | 基因疾病关系知识库构建方法、装置和计算机设备 |
CN112487826A (zh) * | 2020-11-30 | 2021-03-12 | 北京百度网讯科技有限公司 | 信息抽取方法、抽取模型训练方法、装置以及电子设备 |
CN113065353B (zh) * | 2021-03-16 | 2024-04-02 | 北京金堤征信服务有限公司 | 实体识别方法及装置 |
CN113095081A (zh) * | 2021-06-11 | 2021-07-09 | 深圳市北科瑞声科技股份有限公司 | 疾病的识别方法及装置、存储介质、电子装置 |
CN113705226B (zh) * | 2021-10-29 | 2022-02-11 | 上海柯林布瑞信息技术有限公司 | 医学文本实体标注方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN108628824A (zh) * | 2018-04-08 | 2018-10-09 | 上海熙业信息科技有限公司 | 一种基于中文电子病历的实体识别方法 |
CN108846257A (zh) * | 2018-05-09 | 2018-11-20 | 云南大学 | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 |
CN109145120A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 医学健康领域知识图谱的关系抽取方法及系统 |
CN109493977A (zh) * | 2018-11-09 | 2019-03-19 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
CN110059195A (zh) * | 2019-04-10 | 2019-07-26 | 华侨大学 | 一种基于lis的医学检验知识图谱构建方法 |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110555103A (zh) * | 2019-07-22 | 2019-12-10 | 中国人民解放军总医院 | 生物医学实体展示平台的构建方法、装置和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11250331B2 (en) * | 2017-10-31 | 2022-02-15 | Microsoft Technology Licensing, Llc | Distant supervision for entity linking with filtering of noise |
-
2020
- 2020-03-06 CN CN202010151091.4A patent/CN111291568B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN108628824A (zh) * | 2018-04-08 | 2018-10-09 | 上海熙业信息科技有限公司 | 一种基于中文电子病历的实体识别方法 |
CN108846257A (zh) * | 2018-05-09 | 2018-11-20 | 云南大学 | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 |
CN109145120A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 医学健康领域知识图谱的关系抽取方法及系统 |
CN109493977A (zh) * | 2018-11-09 | 2019-03-19 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
CN110059195A (zh) * | 2019-04-10 | 2019-07-26 | 华侨大学 | 一种基于lis的医学检验知识图谱构建方法 |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110555103A (zh) * | 2019-07-22 | 2019-12-10 | 中国人民解放军总医院 | 生物医学实体展示平台的构建方法、装置和计算机设备 |
Non-Patent Citations (3)
Title |
---|
"Information Extraction from Free Text in Clinical Trials with Knowledge-Based Distant Supervision";Yingcheng Sun,等;《2019 IEEE 43rd Annual Computer Software and Applications Conference (COMPSAC)》;全文 * |
"面向精准医学知识库的基因—变异—疾病关系抽取技术研究";佟凡;《中国博士学位论文电子期刊网》;全文 * |
深度学习实体关系抽取研究综述;鄂海红等;《软件学报》(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111291568A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291568B (zh) | 一种应用于医学文本的实体关系自动标注方法 | |
CN109192255B (zh) | 病历结构化方法 | |
US10977444B2 (en) | Method and system for identifying key terms in digital document | |
Al‐Sughaiyer et al. | Arabic morphological analysis techniques: A comprehensive survey | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN106844351B (zh) | 一种面向多数据源的医疗机构组织类实体识别方法及装置 | |
Lobo et al. | Identifying human phenotype terms by combining machine learning and validation rules | |
CN106682209A (zh) | 一种跨语言科技文献检索方法及系统 | |
US20210183526A1 (en) | Unsupervised taxonomy extraction from medical clinical trials | |
US11270073B2 (en) | Method and system for extracting entity information from target data | |
CN112347204B (zh) | 药物研发知识库构建方法及装置 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
CN110019641A (zh) | 一种医疗否定术语的检出方法及系统 | |
Hossain et al. | Development of bangla spell and grammar checkers: Resource creation and evaluation | |
Cing et al. | Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language | |
CN112149411A (zh) | 一种抗生素临床使用领域本体构建方法 | |
Orosz et al. | Hybrid text segmentation for Hungarian clinical records | |
US11544304B2 (en) | System and method for parsing user query | |
Song et al. | POSBIOTM-NER: a machine learning approach for bio-named entity recognition | |
Azmi et al. | Light diacritic restoration to disambiguate homographs in modern Arabic texts | |
CN115438379A (zh) | 一种基于flat的电子病历数据脱敏方法及系统 | |
Khordad et al. | A machine learning approach for phenotype name recognition | |
CN113658652A (zh) | 一种基于电子病历数据文本的二元关系提取方法 | |
CN112955961A (zh) | 医学文本中对基因名称的标准化的方法和系统 | |
AU2021106441A4 (en) | Method, System and Device for Extracting Compound Words of Pathological location in Medical Texts Based on Word-Formation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |