CN114861663A - 一种实体关系联合抽取方法 - Google Patents
一种实体关系联合抽取方法 Download PDFInfo
- Publication number
- CN114861663A CN114861663A CN202210388465.3A CN202210388465A CN114861663A CN 114861663 A CN114861663 A CN 114861663A CN 202210388465 A CN202210388465 A CN 202210388465A CN 114861663 A CN114861663 A CN 114861663A
- Authority
- CN
- China
- Prior art keywords
- entity
- token
- text
- sequence
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 34
- 238000002372 labelling Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 12
- 150000001875 compounds Chemical class 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 241000282326 Felis catus Species 0.000 claims 1
- 238000004220 aggregation Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 4
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种实体关系联合抽取方法,属于人工智能和医疗电子信息技术的交叉技术领域。通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告。该发明提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中不能同时进行实体命名识别以及关系抽取的痛点问题,帮助进行高级医疗决策支持。
Description
技术领域
本发明涉及人工智能和医疗电子信息技术的交叉技术领域,特别涉及一种实体关系联合抽取方法。
背景技术
随着医疗健康服务不断朝着智能化方向发展,机器学习在医疗领域的应用开始成为人工智能时代的研究热点之一。非结构化医疗文档是放射科医生对影像表现的描述与总结,蕴含大量对病灶的描述。从非结构化医疗文本中提取这些重要信息,能够更好地服务于临床决策、数据挖掘等各类临床信息系统,从而减轻专业医师的工作量。
目前计算机难以从这些不规则的非结构化医疗文本数据中直接提取有价值的信息,从而无法利用ElasticSearch等搜索引擎进一步对数据进行挖掘分析。因此,如何从医学影像报告中自动、高效地提取所需信息,形成结构化的数据,并建立文本描述和影像病灶的关联,是目前智能医疗服务进程中的重要挑战之一。
发明内容
发明目的:提出一种实体关系联合抽取方法,以解决现有技术存在的上述问题。通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告。不仅提高了医务人员解读非结构化文本病历、报告的效率,还通过解决信息抽取过程中不能和关系进行联合抽取的痛点问题,帮助进行高级医疗决策支持。
技术方案:第一方面,提出了一种实体关系联合抽取方法,该方法具体包括以下步骤:
S1、确定需要进行关系分类与命名实体识别任务的非结构化医疗文本,并分割为训练集文本和测试集文本;
S2、通过训练集文本对命名实体与关系联合抽取框架模型进行训练,从而得到优化;
S3、将测试集文本作为命名实体与关系联合抽取框架模型的输入,送入训练优化后的命名实体与关系联合抽取框架模型中进行计算得出测试集文本的实体识别以及关系分类结果。
其中,步骤S2.1还包括:
S2.4、对命名实体与关系联合抽取框架模型进行优化。
在第一方面的一些可实现方式中,步骤S2.1具体包括以下步骤:
S2.1.1、将训练集文本作为输入,输入到命名实体与关系联合抽取框架模型中;过预训练模型BERT对原始输入序列进行计算,获得文本中的隐特征向量序列,以及句特征向量cls;并通过两个不同的Sigmoid分类器对每个token进行二分类,得到序列中每个位置分别对应头token与尾token分类标注结果的条件概率和,其中分类器计算结果大于0.5的被分为1,小于等于0.5的被分类为0;相关表达式为:
式中,与一一对应,表示的嵌入向量,表示的嵌入向量,表示为的嵌入向量;表示文本中所有位置对应的隐特征向量,其中任意一个位置的隐特征向量为;条件概率表达式中分母部分的e是指自然常数;表示头token分类的线性变换矩阵;表示尾token分类的线性变换矩阵;
步骤S2.1.2、根据边界预测模块输出的表示每个token是头token的二分类结果以及表示一个尾token的二分类结果,进一步确定潜在的实体集合。通过将所有头token分类为1的token以及所有尾token分类为1的token两两组合,将所有组合中尾token位置小于头token位置的组合筛除,并将所有组合中两个token位置所包围的span所代表的实体加入同一个集合,得到最终的。
在第一方面的一些可实现方式中,步骤S2.2的具体内容为:
S2.2.1、对于实体集合中的每个实体,从上下文特征序列中提取出其Span中所有token对应的特征序列,对实体特征序列进行MaxPooling操作,然后通过与句特征向量cls进行Concat操作,得到实体分类器输入的特征向量,最后通过Softmax分类器计算得到每个Span所代表的实体属于第k类实体标签的条件概率:
在第一方面的一些可实现方式中,S2.3的具体内容为:
S2.3.1、将实体集合中的实体两两配对,每对实体中头token位置更小的实体被称为左实体,头token位置更大的实体被称为右实体,如果左实体与右实体存在重叠部分,则将该实体对丢弃,剩下的实体对构成实体配对集合。
S2.3.2、每个实体配对集合中的实体配对两个实体之间的token序列构成了该实体对的上下文序列,其对应的隐特征序列为,对以上隐特征序列进行MaxPooling操作,得到了该实体对的上下文特征;表达式为:
S2.3.3、以实体配对集合中的每个实体对的左实体特征向量以及右实体特征向量,以及其对应的上下文特征作为输入送入到实体关系识别框架模型的关系预测模块中,通过Concat操作将、和三者进行连接,然后将Concat后的结果输入到Softmax关系分类器当中,得到该特征向量对应不同关系类型的条件概率,表达式为:
式中,与代表二元交叉熵损失;与代表实体分类与关系分类过程中产生的交叉熵损失;N代表文本序列S的长度,k代表实体种类数量,r代表关系种类数量;代表真实的第i类标签类别在所有类别中的占比;代表推理得到的第i类别标签在所有标签的占比;
S2.3.6、重复步骤现有步骤,对模型进行多轮训练并保留多轮训练后的最优模型并保存。
在第一方面的一些可实现方式中,训练集文本与测试集文本的数量比例为:4:1。
有益效果:本发明提出了一种实体关系联合抽取方法,通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告,提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中不能和关系进行联合抽取的痛点问题,帮助进行高级医疗决策支持。
同时,本申请方案可以计算文本中各单词的的标识信息,以此寻找到文本内容中的潜在实体,还可以通过一系列的公式计算求得各实体的所述实体类型,因此本申请可以提供更加准确、丰富的实体识别信息。
附图说明
图1为本发明对文本实体进行识别的整体流程示意图。
图2为本发明命名实体与关系联合抽取框架模型进行实体识别的流程示意图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
在一个实施例中,提出一种实体关系联合抽取方法,该方法具体包括以下步骤:
步骤1、确定进行命名实体识别和关系分类任务的非结构化医疗文本,并按4:1的比例进行分割,构建训练集文本和测试集文本;
步骤2、构建命名实体与关系联合抽取框架模型;
步骤3、采用参数优化的方式,对框架模型进行训练;
步骤4、采用训练好的框架模型进行实体关系联合抽取分析,获取测试集文本的实体识别以及关系分类结果。
其中,步骤4的分析过程具体包括:
步骤4.1、加载训练阶段记录的命名实体与关系联合抽取框架模型;
步骤4.2、命名实体与关系联合抽取框架模型接收测试集文本;
步骤4.3、分析测试集文本,并将测试集中分类概率超过阈值的实体作为分析结果进行输出。
在进一步的实施例中,步骤2中构建命名实体与关系联合抽取框架模型的具体步骤如下:
步骤2.1、构建内容输入模块;
具体的,该模块用于确定命名实体类型,对非结构化医疗文本进行0-1形式的头token以及尾token的序列标注,并确定输入文本最大长度等其他特殊约束;其次,针对中文词表中所有的字,基于在大规模数据集上进行预训练的BERT模型进行字向量采集,采集的字向量以文件形式进行存储;同时用于对标注文本内容进行字向量映射,并将其作为本模块内容进行输出。
步骤2.2、构建边界预测模块;
具体的,该模块首先初始化一个BERT模型作为特征提取网络,随后初始化两个Sigmoid及其线性变换矩阵,用于接收本模块BERT模型的输出,并输出句子中每个Token的序列标注类型。
步骤2.3、构建实体分类模块;
具体的,该模块用于初始化一个Softmax及其线性变换矩阵用于接收目标实体的特征,并计算该目标实体属于当前实体类型的概率。
步骤2.4、构建关系分类模块;
具体的,该模块用于初始化一个Softmax及其线性变换矩阵用于接收目标实体对的特征,并计算该目标实体对属于当前关系类型的概率。
步骤2.5、整合构建好的功能模块,获取最终的命名实体与关系联合抽取框架模型;
具体的,针对内容输入模块与边界预测模块,两者通过内容输入模块输出的嵌入向量序列相连结;对于边界预测模块与实体分类模块,两者通过边界预测模块的输出的潜在实体集合相连结,即作为边界预测模块输出的每个实体及其Span对应的隐特征向量序列,作为实体分类模块的输入将两个模块进行组合;对于实体分类模块与关系分类模块,两者通过实体分类模块输出的潜在实体对集合相连结,中每个实体对对应的三个隐向量、和作为关系分类模块输入的一部分,将两个模块进行组合。
在进一步的实施例中,为了提高模型的分析性能,步骤3中采用优化模型参数的方式对其进行性能训练,具体步骤如下:
步骤3.1、基于划分好的训练集文本,将其作为输入数据传输至命名实体与关系联合抽取框架模型中。
具体的,训练集文本包括:原始文本序列、原始文本中的实体集合和关系集合;其中表示文本中的各个单词,也即文本中的各个token。表示各个实体,以及对应实体所在的位置信息,即中的任意一个实体,其包含有一个二元组;表示第i个实体的开始位置,表示第i个实体的结束位置,该二元组被称为span,第i个实体对应的实体span即为;表示文本中存在的关系,每个关系包含存在关联的两个实体及其关系类型。
步骤3.2、命名实体与关系联合抽取框架模型中的内容输入模块接收训练集文本,并将原始文本序列映射为原始输入序列,同时根据文本中的实体集合对文本中的实体进行两次0-1形式标注。其中,与一一对应,表示的嵌入向量,表示的嵌入向量,表示为的嵌入向量。
具体的,第一次标注头实体位置,如果第i个位置的token是某个实体的第一个token,则将该位置标注为1,反之,将其标注为0,按照预设的标注需求对原始文本序列S进行标注,从而获得0-1标注序列,使得每个实体中的每个单词均具有对应的标识。第二次标注尾实体位置,如果第i个位置的token是某个实体的结尾,则将该位置标注为1,反之,将其标注为0,按照预设的标注需求,对原始文本序列S进行标注,从而获得0-1的标注序列,其表示为:,使得每个实体中的每个单词均有对应的标识。表达式中,表示每个实体中各个单词经过头token标注后的标签信息,取值为0或1;表示每个实体中各个单词经过尾token标注后的标签信息,取值为0或1。
步骤3.3、命名实体与关系联合抽取框架模型中的边界预测模块接收原始输入序列,通过预训练模型BERT计算输出文本中隐特征向量序列以及句特征向量cls,完后通过两个不同的Sigmoid分类器对每个token进行二分类,得到序列中每个位置分别对应头token与尾token分类标注结果的条件概率以及,其中分类器计算结果大于0.5的被分为1,小于等于0.5的被分类为0。对应数据获取的表达式为:
具体的,将所有头token分类为1的token以及所有尾token分类为1的token两两组合,将所有组合中尾token位置小于头token位置的组合筛除,并将所有组合中两个token位置所包围的span所代表的实体加入同一个集合,得到最终的。
步骤3.5、对于实体集合中的每个实体,从上下文特征序列中提取出其Span中所有token对应的特征序列,对实体特征序列进行MaxPooling操作,然后通过与句特征向量cls进行Concat操作,得到实体分类器输入的特征向量,最后通过Softmax分类器计算得到每个Span所代表的实体属于第k类实体标签的条件概率,表达式为:
步骤3.7、将实体集合中的实体两两配对,每对实体中头token位置更小的实体被称为左实体,头token位置更大的实体被称为右实体,如果左实体与右实体存在重叠部分,则将该实体对丢弃,剩下的实体对构成实体配对集合。
步骤3.9、以实体配对集合中的每个实体对的左实体特征向量以及右实体特征向量,以及其对应的上下文特征作为输入送入到实体关系识别框架模型的关系预测模块中,通过Concat操作将、和三者进行连接,然后将Concat后的结果输入到Softmax关系分类器当中,得到该特征向量对应不同关系类型的条件概率。
步骤3.13、重复上述步骤,对模型进行多轮训练并保留多轮训练后的最优模型并保存。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。
Claims (7)
1.一种实体关系联合抽取方法,其特征在于,具体包括以下步骤:
S1、确定需要进行关系分类与命名实体识别任务的非结构化医疗文本,并分割为训练集文本和测试集文本;
S2、通过训练集文本对命名实体与关系联合抽取框架模型进行训练,从而得到优化;
S3、将测试集文本作为命名实体与关系联合抽取框架模型的输入,送入训练优化后的命名实体与关系联合抽取框架模型中进行计算得出测试集文本的实体识别以及关系分类结果。
2.根据权利要求1所述的一种实体关系联合抽取方法,其特征在于,所述训练集文本与测试集文本的数量比例为:4:1。
4.根据权利要求3所述的一种实体关系联合抽取方法,其特征在于,所述步骤S1划分训练集文本和测试集文本后,还包括以下步骤:
步骤S1.1、将训练集文本作为输入,输入到命名实体与关系联合抽取框架模型中;
步骤S1.2、命名实体与关系联合抽取框架模型接收到训练集文本后,基于原始文本中的实体集合,采用两次0-1形式标注,对文本中的实体集合进行标注。
6.根据权利要求3所述的一种实体关系联合抽取方法,其特征在于,为提高命名实体与关系联合抽取框架模型的性能,步骤S2采用参数优化的方式,对框架模型进行训练;
进一步的,训练过程包括以下步骤:
步骤S2.2、通过预训练模型BERT对原始输入序列进行计算,获得文本中的隐特征向量序列,以及句特征向量cls;并通过两个不同的Sigmoid分类器对每个token进行二分类,得到序列中每个位置分别对应头token与尾token分类标注结果的条件概率和,其中分类器计算结果大于0.5的被分为1,小于等于0.5的被分类为0;相关表达式为:
式中,与一一对应,表示的嵌入向量,表示的嵌入向量,表示为的嵌入向量;表示文本中所有位置对应的隐特征向量,其中任意一个位置的隐特征向量为;条件概率表达式中分母部分的e是指自然常数;表示头token分类的线性变换矩阵;表示尾token分类的线性变换矩阵;
步骤S2.4、对于实体集合中的每个实体,从上下文特征序列中提取出其Span中所有token对应的特征序列,对实体特征序列进行MaxPooling操作,然后通过与句特征向量cls进行Concat操作,得到实体分类器输入的特征向量,最后通过Softmax分类器计算得到每个Span所代表的实体属于第k类实体标签的条件概率:
步骤S2.6、将实体集合中的实体两两配对,每对实体中头token位置更小的实体被称为左实体,头token位置更大的实体被称为右实体,如果左实体与右实体存在重叠部分,则将该实体对丢弃,剩下的实体对构成实体配对集合;
步骤S2.7、每个实体配对集合中的实体配对两个实体之间的token序列构成了该实体对的上下文序列,其对应的隐特征序列为,对以上隐特征序列进行MaxPooling操作,得到了该实体对的上下文特征;表达式为:
步骤S2.8、以实体配对集合中的每个实体对的左实体特征向量以及右实体特征向量,以及其对应的上下文特征作为输入送入到实体关系识别框架模型的关系预测模块中,通过Concat操作将、和三者进行连接,然后将Concat后的结果输入到Softmax关系分类器当中,得到该特征向量对应不同关系类型的条件概率,表达式为:
式中,与代表二元交叉熵损失;与代表实体分类与关系分类过程中产生的交叉熵损失;N代表文本序列S的长度,k代表实体种类数量,r代表关系种类数量;代表真实的第i类标签类别在所有类别中的占比;代表推理得到的第i类别标签在所有标签的占比;
步骤S2.12、重复步骤S2.1到步骤S2.11,对模型进行多轮训练并保留多轮训练后的最优模型并保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210388465.3A CN114861663A (zh) | 2022-04-13 | 2022-04-13 | 一种实体关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210388465.3A CN114861663A (zh) | 2022-04-13 | 2022-04-13 | 一种实体关系联合抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114861663A true CN114861663A (zh) | 2022-08-05 |
Family
ID=82631312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210388465.3A Pending CN114861663A (zh) | 2022-04-13 | 2022-04-13 | 一种实体关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861663A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028648A (zh) * | 2023-02-15 | 2023-04-28 | 熙牛医疗科技(浙江)有限公司 | 一种细粒度各场景通用的医疗文本结构化信息抽取方法 |
-
2022
- 2022-04-13 CN CN202210388465.3A patent/CN114861663A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028648A (zh) * | 2023-02-15 | 2023-04-28 | 熙牛医疗科技(浙江)有限公司 | 一种细粒度各场景通用的医疗文本结构化信息抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | The gap of semantic parsing: A survey on automatic math word problem solvers | |
CN108520780B (zh) | 一种基于迁移学习的医学数据处理和系统 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
Chen et al. | Temporally grounding natural sentence in video | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN112257441B (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
CN111259897A (zh) | 知识感知的文本识别方法和系统 | |
CN111243729B (zh) | 一种肺部x线胸片检查报告自动生成方法 | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
Ha et al. | Fine-grained interactive attention learning for semi-supervised white blood cell classification | |
Liu et al. | Data-driven regular expressions evolution for medical text classification using genetic programming | |
CN112927783A (zh) | 图像检索方法及装置 | |
CN117789971B (zh) | 基于文本情感分析的心理健康智能评测系统及方法 | |
Zhao et al. | Deeply supervised active learning for finger bones segmentation | |
CN109857892B (zh) | 基于类标传递的半监督跨模态哈希检索方法 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN114861663A (zh) | 一种实体关系联合抽取方法 | |
CN112749277B (zh) | 医学数据的处理方法、装置及存储介质 | |
CN114153839A (zh) | 多源异构数据的集成方法、装置、设备及存储介质 | |
CN114417836A (zh) | 一种基于深度学习的中文电子病历文本语义分割方法 | |
CN111898528B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN113095081A (zh) | 疾病的识别方法及装置、存储介质、电子装置 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
CN112784601A (zh) | 关键信息提取方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |