CN115146637A - 医学检查文本实体和属性及其关系的联合抽取方法、装置 - Google Patents
医学检查文本实体和属性及其关系的联合抽取方法、装置 Download PDFInfo
- Publication number
- CN115146637A CN115146637A CN202110348806.XA CN202110348806A CN115146637A CN 115146637 A CN115146637 A CN 115146637A CN 202110348806 A CN202110348806 A CN 202110348806A CN 115146637 A CN115146637 A CN 115146637A
- Authority
- CN
- China
- Prior art keywords
- data
- feature vector
- text
- training
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 360
- 238000000605 extraction Methods 0.000 claims abstract description 190
- 238000007689 inspection Methods 0.000 claims abstract description 153
- 238000012549 training Methods 0.000 claims description 149
- 230000015654 memory Effects 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 18
- 230000002457 bidirectional effect Effects 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000003902 lesion Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001574 biopsy Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002919 epithelial cell Anatomy 0.000 description 2
- 206010020718 hyperplasia Diseases 0.000 description 2
- 208000020082 intraepithelial neoplasia Diseases 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000002558 medical inspection Methods 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种医学检查文本实体和属性及其关系的联合抽取方法、装置,所述方法包括:将待处理文本转换为结构化数据,结构化数据包括检查时间、检查项目、检查结果及三者之间的对应关系;将检查结果输入边界抽取模型,输出待处理文本中所有第一数据的抽取结果,第一数据包括待处理文本中的属性和实体;将第一数据向量转换为文本特征向量,生成位置特征向量,将文本特征向量与位置特征向量组成第一数据的特征向量;生成任意一个实体和属性之间的第一数据关系特征向量;将第一数据和第一数据关系生成二分图,输入图卷积网络模型,输出第一数据和第一数据关系的类型标签。本发明能够提高医学检查文本实体和属性及其关系的联合抽取结果的准确性。
Description
技术领域
本发明涉及数据抽取领域,具体涉及一种医学检查文本实体和属性及其关系的联合抽取方法、装置。
背景技术
在信息研究领域,信息抽取技术是一项必不可少的关键技术。信息抽取不同于信息检索等信息处理技术,它需要对文本进行命名实体的识别,并抽取出实体之间的关系,而中文文本中词语的灵活多变、构词复杂且没有明显的标志,使得对中文命名实体的识别及关系的抽取就显得更加困难。
发明内容
本发明实施例要解决的技术问题是提供一种医学检查文本实体和属性及其关系的联合抽取方法、装置,能够提高医学检查文本实体和属性及其关系的联合抽取结果的准确性,提高医学检查文本实体和属性及其关系的联合抽取的效率。
根据本发明实施例的一个方面,提供了一种医学检查文本实体和属性及其关系的联合抽取方法,包括:
将待处理文本转换为结构化数据,所述结构化数据包括检查结果;
将所述检查结果输入预先训练好的边界抽取模型,输出所述待处理文本中所有第一数据的抽取结果,所述第一数据包括所述待处理文本中的属性和实体;
将所述第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;
生成任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
将所述第一数据和所述第一数据关系生成二分图,将所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系输入预先训练好的图卷积网络模型,输出所述第一数据和所述第一数据关系的类型标签。
此外,根据本发明的至少一个实施例,所述方法还包括训练所述边界抽取模型的步骤,训练所述边界抽取模型的步骤包括:
将训练文本转换为结构化数据,所述结构化数据包括检查时间、检查项目、检查结果及三者之间的对应关系,所述训练文本已标记第一数据及其类型、第一数据间的关系及其类型;
利用所述训练文本对边界抽取模型进行训练,所述边界抽取模型的输入为所述检查结果,输出为所述训练文本中所有第一数据的抽取结果,所述第一数据包括所述训练文本中的属性和实体。
此外,根据本发明的至少一个实施例,对所述边界抽取模型进行训练的训练目标为损失函数Lspan最小,Lspan采用以下公式计算:
其中,是所述检查结果中所述边界抽取模型预测的第i个标签,s是输入的所述检查结果,Wspan是所述边界抽取模型的权重参数,所述边界抽取模型包括双向长短期记忆网络和分类器,hi是所述双向长短期记忆网络输出的字特征向量表示,|s|是所述检查结果的长度,ti是所述检查结果中第i个字的真实标签。
此外,根据本发明的至少一个实施例,所述方法还包括训练所述图卷积网络模型的步骤,训练所述图卷积网络模型的步骤包括:
将所述训练文本中的第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;
生成所述训练文本中任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
利用所述训练文本中的第一数据和第一数据关系生成二分图,利用所述训练文本中第一数据的特征向量和所述第一数据关系特征向量对图卷积网络模型进行训练,所述图卷积网络模型的输入为所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系,输出为第一数据和第一数据关系的类型。
此外,根据本发明的至少一个实施例,对所述图卷积网络模型和所述边界抽取模型组成的联合抽取模型进行训练的训练目标为损失函数L最小,L采用以下公式计算:
L=Lspan+Lea+Lrel
其中,Lea是所述图卷积网络模型中第一数据类型的损失函数,Lrel是所述图卷积网络模型中第一数据关系类型的损失函数,是所述图卷积网络模型预测的第i个第一数据的类型标签,ei是第i个第一数据,s是输入的所述检查结果,Weα,Wrel是所述图卷积网络模型的权重参数,是所述图卷积网络模型输出的第i个第一数据的特征向量表示,是所有第一数据的总数,ti是第i个第一数据的真实标签,是所述图卷积网络模型预测的rij的类型标签,rij是第一数据i和第一数据j之间的关系,是所述图卷积网络模型输出的rij的特征向量表示,|rij|是所有关系的总数,l是关系rij的真实标签。
此外,根据本发明的至少一个实施例,将待处理文本转换为结构化数据包括:
利用检查项目术语词典,提取所述待处理文本中的检查项目;
利用时间抽取规则和模板,提取所述待处理文本中的检查时间;
基于文本标点符号和文本距离提取所述待处理文本中的检查结果;
建立所述检查项目、检查时间和检查结果之间的映射关系。
根据本发明实施例的另一方面,提供了一种医学检查文本实体和属性及其关系的联合抽取装置,包括:
结构化模块,用于将待处理文本转换为结构化数据,所述结构化数据包括检查结果;
边界抽取模块,用于将所述检查结果输入预先训练好的边界抽取模型,输出所述待处理文本中所有第一数据的抽取结果,所述第一数据包括所述待处理文本中的属性和实体;
特征向量生成模块,用于将所述第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;生成任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
处理模块,用于将所述第一数据和所述第一数据关系生成二分图,将所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系输入预先训练好的图卷积网络模型,输出所述第一数据和所述第一数据关系的类型标签。
此外,根据本发明的至少一个实施例,所述装置还包括第一训练模块,所述第一训练模块包括:
结构化单元,用于将训练文本转换为结构化数据,所述结构化数据包括检查时间、检查项目、检查结果及三者之间的对应关系,所述训练文本已标记第一数据及其类型、第一数据间的关系及其类型;
第一训练单元,用于利用所述训练文本对边界抽取模型进行训练,所述边界抽取模型的输入为所述检查结果,输出为所述训练文本中所有第一数据的抽取结果,所述第一数据包括所述训练文本中的属性和实体。
此外,根据本发明的至少一个实施例,对所述边界抽取模型进行训练的训练目标为损失函数Lspan最小,Lspan采用以下公式计算:
其中,是所述检查结果中所述边界抽取模型预测的第i个标签,s是输入的所述检查结果,Wspan是所述边界抽取模型的权重参数,所述边界抽取模型包括双向长短期记忆网络和分类器,hi是所述双向长短期记忆网络输出的字特征向量表示,|s|是所述检查结果的长度,ti是所述检查结果中第i个字的真实标签。
此外,根据本发明的至少一个实施例,所述装置还包括第二训练模块,所述第二训练模块包括:
特征向量生成单元,用于将所述训练文本中的第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;生成所述训练文本中任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
第二训练单元,用于利用所述训练文本中的第一数据和第一数据关系生成二分图,利用所述训练文本中第一数据的特征向量和所述第一数据关系特征向量对图卷积网络模型进行训练,所述图卷积网络模型的输入为所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系,输出为第一数据和第一数据关系的类型。
此外,根据本发明的至少一个实施例,对所述图卷积网络模型和所述边界抽取模型组成的联合抽取模型进行训练的训练目标为损失函数L最小,L采用以下公式计算:
L=Lspan+Lea+Lrel
其中,Lea是所述图卷积网络模型中第一数据类型的损失函数,Lrel是所述图卷积网络模型中第一数据关系类型的损失函数,是所述图卷积网络模型预测的第i个第一数据的类型标签,ei是第i个第一数据,s是输入的所述检查结果,Wea,Wrel是所述图卷积网络模型的权重参数,是所述图卷积网络模型输出的第i个第一数据的特征向量表示,是所有第一数据的总数,ti是第i个第一数据的真实标签,是所述图卷积网络模型预测的rij的类型标签,rij是第一数据i和第一数据j之间的关系,是所述图卷积网络模型输出的rij的特征向量表示,|rij|是所有关系的总数,l是关系rij的真实标签。
此外,根据本发明的至少一个实施例,所述结构化模块包括:
第一提取单元,用于利用检查项目术语词典,提取所述待处理文本中的检查项目;
第二提取单元,用于利用时间抽取规则和模板,提取所述待处理文本中的检查时间;
第三提取单元,用于基于文本标点符号和文本距离提取所述待处理文本中的检查结果;
映射关系建立单元,用于建立所述检查项目、检查时间和检查结果之间的映射关系。
本发明实施例还提供了一种医学检查文本实体和属性及其关系的联合抽取装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的医学检查文本实体和属性及其关系的联合抽取方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的医学检查文本实体和属性及其关系的联合抽取方法的步骤。
与现有技术相比,本发明实施例提供的医学检查文本实体和属性及其关系的联合抽取方法、装置,将待处理文本转换为结构化数据后进行实体和属性的提取,能够减少数据噪声,利于特征的提取,还可以提高计算性能;另外将第一数据的文本特征向量和位置特征向量相结合作为第一数据的特征向量,可以更好地表达实体和属性及其关系信息。本实施例的技术方案高效且易于实现,能够提高医学检查文本实体和属性及其关系的联合抽取结果的准确性,提高医学检查文本实体和属性及其关系的联合抽取的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的医学检查文本实体和属性及其关系的联合抽取方法的流程示意图;
图2为本发明一实施例医疗检查文本的示意图;
图3为本发明实施例结构化数据的示意图;
图4为本发明实施例抽取第一数据的示意图;
图5为本发明实施例进行位置编码的示意图;
图6为本发明实施例生成span结点的示意图;
图7为本发明实施例生成span关系结点的示意图;
图8为本发明实施例的医学检查文本实体和属性及其关系的联合抽取装置的结构示意图;
图9为本发明实施例的医学检查文本实体和属性及其关系的联合抽取装置的组成示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明的实施例提供一种医学检查文本实体和属性及其关系的联合抽取方法、装置,能够提高医学检查文本实体和属性及其关系的联合抽取结果的准确性,提高医学检查文本实体和属性及其关系的联合抽取的效率。
实施例一
本发明的实施例提供一种医学检查文本实体和属性及其关系的联合抽取方法,如图1所示,包括:
步骤101:将待处理文本转换为结构化数据,所述结构化数据包括检查结果;
本实施例中,待处理文本可以是医疗检查文本,一具体示例中,医疗检查文本如图2所示,医疗检查文本中的句子较长,不利于进行实体和属性的提取,需要将待处理文本转换为一定格式的结构化数据。
本实施例中,可以利用检查项目术语词典,提取所述待处理文本中的检查项目;检查项目术语词典可以从大量医疗数据(包括医疗指南、病历等)中用规则再辅以人工进行收集并整理,之后按照术语长度的由长到短对检查项目术语词典中的术语进行排序,使用最长匹配抽取原则抽取检查文本中的检查检查项目,比如TCT、阴道镜活检病理等。
本实施例中,可以利用时间抽取规则和模板,提取所述待处理文本中的检查时间;在统计大量医疗检查文本中检查时间可能的出现形式后,发现检查时间与检查结果存在相对位置关系,要么在检查结果之前(正序),要么在检查结果之后(逆序),因此可以通过正序时间抽取方法和逆序时间抽取方法,提取所述待处理文本中的检查时间。
本实施例中,可以基于文本标点符号和文本距离提取所述待处理文本中的检查结果;通过调研大量医疗检查文本发现:检查时间、检查项目和检查结果在医疗检查文本中一般紧挨在一起,且不同的检查描述之间一般以句号、分号、感叹号、问号等表示分割的符号隔开,因此,可以基于文本标点符号和文本距离提取所述待处理文本中的检查结果。
之后将提取出的检查项目、检查时间和检查结果一一映射,建立所述检查项目、检查时间和检查结果之间的映射关系,形成结构化数据。
一具体示例中,待处理文本为如图2所示的医疗检查文本,经转换后形成的结构化数据如图3所示。
步骤102:将所述检查结果输入预先训练好的边界抽取模型,输出所述待处理文本中所有第一数据的抽取结果,所述第一数据包括所述待处理文本中的属性和实体;
本实施例中,需要预先训练边界抽取模型,边界抽取模型的输入是医疗检查文本中的检查结果,输出是医疗检查文本中所有第一数据(以span表示,包括实体和属性)的抽取结果。
本实施例中,边界抽取模型可以采用任意的实体抽取模型,一具体示例中,如图4所示,所述边界抽取模型包括双向长短期记忆网络BiLSTM模型和分类器softmax。
在进行边界抽取模型的训练时,将训练文本转换为结构化数据,所述结构化数据包括检查时间、检查项目、检查结果及三者之间的对应关系,其中,所述训练文本已标记第一数据及其类型、第一数据间的关系及其类型;利用所述训练文本对边界抽取模型进行训练,所述边界抽取模型的输入为所述检查结果,输出为所述训练文本中所有第一数据的抽取结果,所述第一数据包括所述训练文本中的属性和实体。
如图4所示,一具体示例中,边界抽取模型的输入为“部分上皮细胞非典型增生,倾向”,输出为span的抽取结果,具体形式为一系列标签,其中,“B”表示span的起始位置,“I”表示属于span,“O”表示不属于span;“A”表示该span是一个属性,“E”表示该span是一个实体。
对所述边界抽取模型进行训练的训练目标为损失函数Lspan最小,Lspan采用以下公式计算:
其中,是所述检查结果中所述边界抽取模型预测的第i个标签,s是输入的所述检查结果,Wspan是所述边界抽取模型的权重参数,所述边界抽取模型包括双向长短期记忆网络和分类器,hi是所述双向长短期记忆网络输出的字特征向量表示,|s|是所述检查结果的长度,ti是所述检查结果中第i个字的真实标签。
在训练好边界抽取模型后,将步骤101得到的检查结果输入到边界抽取模型中,即可得到输出的span,但本步骤仅输出span,并未给出span的类型。本实施例中,span的类型包括实体和属性,实体主要指疾病、病变和症状等,如图4中的“增生”;而属性指描述这些实体的术语,如病变发生部位(图4中的“部分上皮细胞”),病变性质(图4中的“非典型”)等。
步骤103:将所述第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;生成任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
其中,第一数据可以称为span结点,第一数据关系可以称为span间关系结点,span结点和span间关系结点是后续要输入到图卷积网络模型上的结点。第一数据关系为两个第一数据之间的关系,该两个第一数据包括任意一个实体,还包括一个属性。
将步骤102得到的span边界结果和BiLSTM模型最终输出的文本向量特征表示,经过维度转换模型可以将一个span(由多个字特征向量表示)转换成一个特征向量表示,来代表该span的文本特征向量,其中,维度转换模型可以为CNN(卷积神经网络)+pooling(池化层)模型,也可以为其他维度转换模型。
另外,可以通过位置编码机制,生成span位置特征向量表示,将span文本特征向量表示和span位置特征向量表示相连来表示该span的特征向量。
Span位置编码机制如图5所示,步骤102得到的span(即实体和属性,图5中的a1,a2,e3,a4,a5,e6),称之为有用span,其单独各占一个位置;其余文本内容中标点符号算无用span(图5中的逗号“,”),表示一个位置;剩下的处于有用span和有用span之间、或处于有用span和标点符号(无用span)之间的文本(图5中的“倾向”),也称为无用span,单独占一个位置。最后对所有的span(包括有用span和无用span)按文本从左到右的顺序进行位置编号(图5中的1、2、3、4、5、6、7、8),可以表征有用span之间的位置距离关系,这种位置距离关系对最终span类型和span关系类型的预测是非常有效的信息。
将span的位置编号经过维度转换模型转换成一个特征向量表示,即span位置特征向量pi(图5中的p1、p2、p3、p4、p5、p6)。
如图6所示,将有用span的位置特征向量pi和特征向量si相连即可得到有用span的特征向量hi,即生成span结点:
hi=si+pi。
Span关系是指实体和属性之间的关系,如图5中的a1和e3间形成关系r13。一个span关系结点的特征包含两大部分:1)形成该span关系的实体span(即e3)和属性span(即a1)特征;2)存在于这两个span之前、中间和之后的上下文特征。
对于形成该span关系的实体span和属性span,分别生成各自的特征向量。
对于上下文特征中的上文、中间文和下文,每一部分和span特征向量形成的过程一样,都使用维度转换模型进行转换,形成上文、中间文和下文特征向量,之后将这五部分特征连接起来经过尺寸变换形成最终的span关系特征向量,即生成span关系结点,如图7所示。
其中,尺寸变化是为了保证span关系特征向量的尺寸与span特征向量的尺寸匹配。尺寸变化可以通过MLP(多层神经网络)模型实现。
步骤104:将所述第一数据和所述第一数据关系生成二分图,将所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系输入预先训练好的图卷积网络模型,输出所述第一数据和所述第一数据关系的类型标签。
本实施例中,需要预先训练图卷积网络模型,图卷积网络模型的输入是span结点和span关系结点及其之间的结构关系,该结构关系即是span结点和span关系结点在二分图中的连接关系,即第一数据的特征向量和第一数据关系特征向量及其之间的结构关系,输出是结点的类型,即第一数据和第一数据关系的类型标签。
Span关系结点与形成该span关系结点的两个span结点分别连接,就构成了二分图。如图7所示,利用span结点h1、span结点h3和span关系结点r13可以生成二分图,在该二分图中,span关系结点r13分别与span结点h1、span结点h3连接,span关系结点r13与span结点h1之间的连接关系、span关系结点r13与span结点h3之间的连接关系,即是span结点和span关系结点之间的结构关系,也就是第一数据的特征向量和第一数据关系特征向量之间的结构关系。
本实施例中,图卷积网络模型包括GCN(图卷积神经网络)模型和分类器softmax。
其中,训练所述图卷积网络模型的步骤包括:
将所述训练文本中的第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;
生成所述训练文本中任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
利用所述训练文本中的第一数据和第一数据关系生成二分图,利用所述训练文本中第一数据的特征向量和所述第一数据关系特征向量对图卷积网络模型进行训练,所述图卷积网络模型的输入为所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系,输出为第一数据和第一数据关系的类型。
其中,对所述图卷积网络模型和所述边界抽取模型组成的联合抽取模型进行训练的训练目标为损失函数L最小,L采用以下公式计算:
L=Lspan+Lea+Lrel
上述公式中,Lea为span结点分类损失函数,即图卷积网络模型中第一数据类型的损失函数,Lrel为span关系结点分类损失函数,即图卷积网络模型中第一数据关系类型的损失函数,是所述图卷积网络模型预测的第i个第一数据的类型标签,ei是第i个第一数据,s是输入的所述检查结果,Wea,Wrel是所述图卷积网络模型的权重参数,是所述图卷积网络模型输出的第i个第一数据的特征向量表示,是所有第一数据的总数,ti是第i个第一数据的真实标签,是所述图卷积网络模型预测的rij的类型标签,rij是第一数据i和第一数据j之间的关系,是所述图卷积网络模型输出的rij的特征向量表示,|rij|是所有关系的总数,l是关系rij的真实标签。
整个联合抽取模型的训练目标是得到最小的总损失函数得分,之后保存该模型的参数,即可使用该模型进行预测,将步骤103得到的span结点和span关系结点输入到训练好的图卷积网络模型中,使用softmax等分类器对特征进行分类,输出每个结点的类型。
本实施例中,利用span结点和span关系结点得到结点的类型,考虑了节点之间的关系,能够提高医学检查文本实体和属性及其关系的联合抽取结果的准确性,还提高了医学检查文本实体和属性及其关系的联合抽取的效率。
本实施例中,实体结点的类型有疾病、症状、病变等,属性结点的类型有部位、性质等,关系结点的类型由实体结点的类型和属性结点的类型两两结合构成,其中,结点的类型种类可根据实际应用进行调整。
本实施例中,将待处理文本转换为结构化数据后进行实体和属性的提取,能够减少数据噪声,利于特征的提取,还可以提高计算性能;另外将第一数据的文本特征向量和位置特征向量相结合作为第一数据的特征向量,可以更好地表达实体和属性及其关系信息。本实施例的技术方案高效且易于实现,能够提高医学检查文本实体和属性及其关系的联合抽取结果的准确性,提高医学检查文本实体和属性及其关系的联合抽取的效率。
实施例二
本发明实施例还提供了一种医学检查文本实体和属性及其关系的联合抽取装置,如图8所示,包括:
结构化模块21,用于将待处理文本转换为结构化数据,所述结构化数据包括检查结果;
本实施例中,待处理文本可以是医疗检查文本,一具体示例中,医疗检查文本如图2所示,医疗检查文本中的句子较长,不利于进行实体和属性的提取,需要将待处理文本转换为一定格式的结构化数据。
其中,所述结构化模块包括:
第一提取单元,用于利用检查项目术语词典,提取所述待处理文本中的检查项目;
本实施例中,可以利用检查项目术语词典,提取所述待处理文本中的检查项目;检查项目术语词典可以从大量医疗数据(包括医疗指南、病历等)中用规则再辅以人工进行收集并整理,之后按照术语长度的由长到短对检查项目术语词典中的术语进行排序,使用最长匹配抽取原则抽取检查文本中的检查检查项目,比如TCT、阴道镜活检病理等。
第二提取单元,用于利用时间抽取规则和模板,提取所述待处理文本中的检查时间;
本实施例中,可以利用时间抽取规则和模板,提取所述待处理文本中的检查时间;在统计大量医疗检查文本中检查时间可能的出现形式后,发现检查时间与检查结果存在相对位置关系,要么在检查结果之前(正序),要么在检查结果之后(逆序),因此可以通过正序时间抽取方法和逆序时间抽取方法,提取所述待处理文本中的检查时间。
第三提取单元,用于基于文本标点符号和文本距离提取所述待处理文本中的检查结果;
本实施例中,可以基于文本标点符号和文本距离提取所述待处理文本中的检查结果;通过调研大量医疗检查文本发现:检查时间、检查项目和检查结果在医疗检查文本中一般紧挨在一起,且不同的检查描述之间一般以句号、分号、感叹号、问号等表示分割的符号隔开,因此,可以基于文本标点符号和文本距离提取所述待处理文本中的检查结果。
映射关系建立单元,用于建立所述检查项目、检查时间和检查结果之间的映射关系。
之后将提取出的检查项目、检查时间和检查结果一一映射,建立所述检查项目、检查时间和检查结果之间的映射关系,形成结构化数据。
一具体示例中,待处理文本为如图2所示的医疗检查文本,经转换后形成的结构化数据如图3所示。
边界抽取模块22,用于将所述检查结果输入预先训练好的边界抽取模型,输出所述待处理文本中所有第一数据的抽取结果,所述第一数据包括所述待处理文本中的属性和实体;
本实施例中,需要预先训练边界抽取模型,边界抽取模型的输入是医疗检查文本中的检查结果,输出是医疗检查文本中所有第一数据(以span表示,包括实体和属性)的抽取结果。
本实施例中,边界抽取模型可以采用任意的实体抽取模型,一具体示例中,如图4所示,所述边界抽取模型包括双向长短期记忆网络BiLSTM模型和分类器softmax。
如图4所示,一具体示例中,边界抽取模型的输入为“部分上皮细胞非典型增生,倾向”,输出为span的抽取结果,具体形式为一系列标签,其中,“B”表示span的起始位置,“I”表示属于span,“O”表示不属于span;“A”表示该span是一个属性,“E”表示该span是一个实体。
在训练好边界抽取模型后,将得到的检查结果输入到边界抽取模型中,即可得到输出的span,但本步骤仅输出span,并未给出span的类型。本实施例中,span的类型包括实体和属性,实体主要指疾病、病变和症状等,如图4中的“增生”;而属性指描述这些实体的术语,如病变发生部位(图4中的“部分上皮细胞”),病变性质(图4中的“非典型”)等。
向量生成模块23,用于将所述第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;生成任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
其中,第一数据可以称为span结点,第一数据关系可以称为span间关系结点,span结点和span间关系结点是后续要输入到图卷积网络模型上的结点。第一数据关系为两个第一数据之间的关系,该两个第一数据包括任意一个实体,还包括一个属性。
将得到的span边界结果和BiLSTM模型最终输出的文本向量特征表示,经过维度转换模型可以将一个span(由多个字特征向量表示)转换成一个特征向量表示,来代表该span的文本特征向量,其中,维度转换模型可以为CNN(卷积神经网络)+pooling(池化层)模型,也可以为其他维度转换模型。
另外,可以通过位置编码机制,生成span位置特征向量表示,将span文本特征向量表示和span位置特征向量表示相连来表示该span的特征向量。
Span位置编码机制如图5所示,抽取模块22得到的span(即实体和属性,图5中的a1,a2,e3,a4,a5,e6),称之为有用span,其单独各占一个位置;其余文本内容中标点符号算无用span(图5中的逗号“,”),表示一个位置;剩下的处于有用span和有用span之间、或处于有用span和标点符号(无用span)之间的文本(图5中的“倾向”),也称为无用span,单独占一个位置。最后对所有的span(包括有用span和无用span)按文本从左到右的顺序进行位置编号(图5中的1、2、3、4、5、6、7、8),可以表征有用span之间的位置距离关系,这种位置距离关系对最终span类型和span关系类型的预测是非常有效的信息。
将span的位置编号经过维度转换模型转换成一个特征向量表示,即span位置特征向量pi(图5中的p1、p2、p3、p4、p5、p6)。
如图6所示,将有用span的位置特征向量pi和特征向量si相连即可得到有用span的特征向量hi,即生成span结点:
hi=si+pi。
Span关系是指实体和属性之间的关系,如图5中的a1和e3间形成关系r13。一个span关系结点的特征包含两大部分:1)形成该span关系的实体span(即e3)和属性span(即a1)特征;2)存在于这两个span之前、中间和之后的上下文特征。
对于形成该span关系的实体span和属性span,分别生成各自的特征向量。
对于上下文特征中的上文、中间文和下文,每一部分和span特征向量形成的过程一样,都使用维度转换模型进行转换,形成上文、中间文和下文特征向量,之后将这五部分特征连接起来经过尺寸变换形成最终的span关系特征向量,即生成span关系结点,如图7所示。
其中,尺寸变化是为了保证span关系特征向量的尺寸与span特征向量的尺寸匹配。尺寸变化可以通过MLP(多层神经网络)模型实现。
处理模块24,用于将所述第一数据和所述第一数据关系生成二分图,将所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系输入预先训练好的图卷积网络模型,输出所述第一数据和所述第一数据关系的类型标签。
本实施例中,需要预先训练图卷积网络模型,图卷积网络模型的输入是span结点和span关系结点及其之间的结构关系,该结构关系即是span结点和span关系结点在二分图中的连接关系,即第一数据的特征向量和第一数据关系特征向量及其之间的结构关系,输出是结点的类型,即第一数据和第一数据关系的类型标签。
将得到的span结点和span关系结点输入到训练好的图卷积网络模型中,使用softmax等分类器对特征进行分类,输出每个结点的类型。
本实施例中,实体结点的类型有疾病、症状、病变等,属性结点的类型有部位、性质等,关系结点的类型由实体结点的类型和属性结点的类型两两结合构成,其中,结点的类型种类可根据实际应用进行调整。
此外,根据本发明的至少一个实施例,所述装置还包括第一训练模块,所述第一训练模块包括:
结构化单元,用于将训练文本转换为结构化数据,所述结构化数据包括检查时间、检查项目、检查结果及三者之间的对应关系,所述训练文本已标记第一数据及其类型、第一数据间的关系及其类型;
第一训练单元,用于利用所述训练文本对边界抽取模型进行训练,所述边界抽取模型的输入为所述检查结果,输出为所述训练文本中所有第一数据的抽取结果,所述第一数据包括所述训练文本中的属性和实体。
此外,根据本发明的至少一个实施例,对所述边界抽取模型进行训练的训练目标为损失函数Lspan最小,Lspan采用以下公式计算:
其中,是所述检查结果中所述边界抽取模型预测的第i个标签,s是输入的所述检查结果,Wspan是所述边界抽取模型的权重参数,所述边界抽取模型包括双向长短期记忆网络和分类器,hi是所述双向长短期记忆网络输出的字特征向量表示,|s|是所述检查结果的长度,ti是所述检查结果中第i个字的真实标签。
此外,根据本发明的至少一个实施例,所述装置还包括第二训练模块,所述第二训练模块包括:
特征向量生成单元,用于将所述训练文本中的第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;生成所述训练文本中任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
第二训练单元,用于利用所述训练文本中的第一数据和第一数据关系生成二分图,利用所述训练文本中第一数据的特征向量和所述第一数据关系特征向量对图卷积网络模型进行训练,所述图卷积网络模型的输入为所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系,输出为第一数据和第一数据关系的类型。
此外,根据本发明的至少一个实施例,对所述图卷积网络模型和所述边界抽取模型组成的联合抽取模型进行训练的训练目标为损失函数L最小,L采用以下公式计算:
L=Lspan+Lea+Lrel
其中,Lea是所述图卷积网络模型中第一数据类型的损失函数,Lrel是所述图卷积网络模型中第一数据关系类型的损失函数,是所述图卷积网络模型预测的第i个第一数据的类型标签,ei是第i个第一数据,s是输入的所述检查结果,Wea,Wrel是所述图卷积网络模型的权重参数,是所述图卷积网络模型输出的第i个第一数据的特征向量表示,是所有第一数据的总数,ti是第i个第一数据的真实标签,是所述图卷积网络模型预测的rij的类型标签,rij是第一数据i和第一数据j之间的关系,是所述图卷积网络模型输出的rij的特征向量表示,|rij|是所有关系的总数,l是关系rij的真实标签。
本实施例中,将待处理文本转换为结构化数据后进行实体和属性的提取,能够减少数据噪声,利于特征的提取,还可以提高计算性能;另外将第一数据的文本特征向量和位置特征向量相结合作为第一数据的特征向量,可以更好地表达实体和属性及其关系信息。本实施例的技术方案高效且易于实现,能够提高医学检查文本实体和属性及其关系的联合抽取结果的准确性,提高医学检查文本实体和属性及其关系的联合抽取的效率。
实施例三
本发明实施例还提供了一种医学检查文本实体和属性及其关系的联合抽取装置30,如图9所示,包括:
处理器32;和
存储器34,在所述存储器34中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器32执行以下步骤:
将待处理文本转换为结构化数据,所述结构化数据包括检查结果;
将所述检查结果输入预先训练好的边界抽取模型,输出所述待处理文本中所有第一数据的抽取结果,所述第一数据包括所述待处理文本中的属性和实体;
将所述第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;
生成任意一个实体和属性两个所述第一数据之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
将所述第一数据和所述第一数据关系生成二分图,将所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系输入预先训练好的图卷积网络模型,输出所述第一数据和所述第一数据关系的类型标签。
进一步地,如图9所示,医学检查文本实体和属性及其关系的联合抽取装置30还包括网络接口31、输入设备33、硬盘35和显示设备36。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以包括任意数量的互联的总线和桥。具体由处理器32代表的一个或者多个中央处理器(CPU),以及由存储器34代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口31,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,例如训练文本、待处理文本等,并可以保存在硬盘35中。
所述输入设备33,可以接收操作人员输入的各种指令,并发送给处理器32以供执行。所述输入设备33可以包括键盘或者点击设备(例如,鼠标、轨迹球(trackball)、触感板或者触摸屏等)。
所述显示设备36,可以将处理器32执行指令获得的结果进行显示。
所述存储器34,用于存储操作系统运行所必须的程序和数据,以及处理器32计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器34可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器34存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统341和应用程序342。
其中,操作系统341,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序342,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序342中。
上述处理器32,当调用并执行所述存储器34中所存储的应用程序和数据,具体的,可以是应用程序342中存储的程序或指令时,将待处理文本转换为结构化数据,所述结构化数据包括检查结果;将所述检查结果输入预先训练好的边界抽取模型,输出所述待处理文本中所有第一数据的抽取结果,所述第一数据包括所述待处理文本中的属性和实体;将所述第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;生成任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;将所述第一数据和所述第一数据关系生成二分图,将所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系输入预先训练好的图卷积网络模型,输出所述第一数据和所述第一数据关系的类型标签。
进一步地,上述处理器32,当调用并执行所述存储器34中所存储的应用程序和数据,具体的,可以是应用程序342中存储的程序或指令时,将训练文本转换为结构化数据,所述结构化数据包括检查时间、检查项目、检查结果及三者之间的对应关系,所述训练文本已标记第一数据及其类型、第一数据间的关系及其类型;利用所述训练文本对边界抽取模型进行训练,所述边界抽取模型的输入为所述检查结果,输出为所述训练文本中所有第一数据的抽取结果,所述第一数据包括所述训练文本中的属性和实体。
其中,对所述边界抽取模型进行训练的训练目标为损失函数Lspan最小,Lspan采用以下公式计算:
其中,是所述检查结果中所述边界抽取模型预测的第i个标签,s是输入的所述检查结果,Wspan是所述边界抽取模型的权重参数,所述边界抽取模型包括双向长短期记忆网络和分类器,hi是所述双向长短期记忆网络输出的字特征向量表示,|s|是所述检查结果的长度,ti是所述检查结果中第i个字的真实标签。
进一步地,上述处理器32,当调用并执行所述存储器34中所存储的应用程序和数据,具体的,可以是应用程序342中存储的程序或指令时,获取开放数据,所述开放数据包括查询指令和与所述查询指令对应的查询结果;利用所述开放数据训练生成查询数据生成模型,所述查询数据生成模型能够根据输入的查询结果生成与所述查询结果对应的查询指令;将特定领域的文档输入所述查询数据生成模型,生成所述第一训练数据。
进一步地,上述处理器32,当调用并执行所述存储器34中所存储的应用程序和数据,具体的,可以是应用程序342中存储的程序或指令时,将所述训练文本中的第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;生成所述训练文本中任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;利用所述训练文本中的第一数据和第一数据关系生成二分图,利用所述训练文本中第一数据的特征向量和所述第一数据关系特征向量对图卷积网络模型进行训练,所述图卷积网络模型的输入为所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系,输出为第一数据和第一数据关系的类型。
其中,对所述图卷积网络模型和所述边界抽取模型组成的联合抽取模型进行训练的训练目标为损失函数L最小,L采用以下公式计算:
L=Lspan+Lea+Lrel
其中,Lea是所述图卷积网络模型中第一数据类型的损失函数,Lrel是所述图卷积网络模型中第一数据关系类型的损失函数,是所述图卷积网络模型预测的第i个第一数据的类型标签,ei是第i个第一数据,s是输入的所述检查结果,Weα,Wrel是所述图卷积网络模型的权重参数,是所述图卷积网络模型输出的第i个第一数据的特征向量表示,是所有第一数据的总数,ti是第i个第一数据的真实标签,是所述图卷积网络模型预测的rij的类型标签,rij是第一数据i和第一数据j之间的关系,是所述图卷积网络模型输出的rij的特征向量表示,|rij|是所有关系的总数,l是关系rij的真实标签。
进一步地,上述处理器32,当调用并执行所述存储器34中所存储的应用程序和数据,具体的,可以是应用程序342中存储的程序或指令时,利用检查项目术语词典,提取所述待处理文本中的检查项目;利用时间抽取规则和模板,提取所述待处理文本中的检查时间;基于文本标点符号和文本距离提取所述待处理文本中的检查结果;建立所述检查项目、检查时间和检查结果之间的映射关系。
本发明上述实施例揭示的方法可以应用于处理器32中,或者由处理器32实现。处理器32可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器32中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器32可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器34,处理器32读取存储器34中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
实施例四
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
将待处理文本转换为结构化数据,所述结构化数据包括检查结果;
将所述检查结果输入预先训练好的边界抽取模型,输出所述待处理文本中所有第一数据的抽取结果,所述第一数据包括所述待处理文本中的属性和实体;
将所述第一数据字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;
生成任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
将所述第一数据和所述第一数据关系生成二分图,将所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系输入预先训练好的图卷积网络模型,输出所述第一数据和所述第一数据关系的类型标签。
一些实施例中,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
将训练文本转换为结构化数据,所述结构化数据包括检查时间、检查项目、检查结果及三者之间的对应关系,所述训练文本已标记第一数据及其类型、第一数据间的关系及其类型;
利用所述训练文本对边界抽取模型进行训练,所述边界抽取模型的输入为所述检查结果,输出为所述训练文本中所有第一数据的抽取结果,所述第一数据包括所述训练文本中的属性和实体。
其中,对所述边界抽取模型进行训练的训练目标为损失函数Lspan最小,Lspan采用以下公式计算:
其中,是所述检查结果中所述边界抽取模型预测的第i个标签,s是输入的所述检查结果,Wspan是所述边界抽取模型的权重参数,所述边界抽取模型包括双向长短期记忆网络和分类器,hi是所述双向长短期记忆网络输出的字特征向量表示,|s|是所述检查结果的长度,ti是所述检查结果中第i个字的真实标签。
一些实施例中,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
将所述训练文本中的第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;
生成所述训练文本中任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
利用所述训练文本中的第一数据和第一数据关系生成二分图,利用所述训练文本中第一数据的特征向量和所述第一数据关系特征向量对图卷积网络模型进行训练,所述图卷积网络模型的输入为所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系,输出为第一数据和第一数据关系的类型。
其中,对所述图卷积网络模型和所述边界抽取模型组成的联合抽取模型进行训练的训练目标为损失函数L最小,L采用以下公式计算:
L=Lspan+Lea+Lrel
其中,Lea是所述图卷积网络模型中第一数据类型的损失函数,Lrel是所述图卷积网络模型中第一数据关系类型的损失函数,是所述图卷积网络模型预测的第i个第一数据的类型标签,ei是第i个第一数据,s是输入的所述检查结果,Wea,Wrel是所述图卷积网络模型的权重参数,是所述图卷积网络模型输出的第i个第一数据的特征向量表示,是所有第一数据的总数,ti是第i个第一数据的真实标签,是所述图卷积网络模型预测的rij的类型标签,rij是第一数据i和第一数据j之间的关系,是所述图卷积网络模型输出的rij的特征向量表示,|rij|是所有关系的总数,l是关系rij的真实标签。
一些实施例中,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
利用检查项目术语词典,提取所述待处理文本中的检查项目;
利用时间抽取规则和模板,提取所述待处理文本中的检查时间;
基于文本标点符号和文本距离提取所述待处理文本中的检查结果;
建立所述检查项目、检查时间和检查结果之间的映射关系。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种医学检查文本实体和属性及其关系的联合抽取方法,其特征在于,包括:
将待处理文本转换为结构化数据,所述结构化数据包括检查结果;
将所述检查结果输入预先训练好的边界抽取模型,输出所述待处理文本中所有第一数据的抽取结果,所述第一数据包括所述待处理文本中的属性和实体;
将所述第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;
生成任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
将所述第一数据和所述第一数据关系生成二分图,将所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系输入预先训练好的图卷积网络模型,输出所述第一数据和所述第一数据关系的类型标签。
2.根据权利要求1所述的医学检查文本实体和属性及其关系的联合抽取方法,其特征在于,还包括训练所述边界抽取模型的步骤,训练所述边界抽取模型的步骤包括:
将训练文本转换为结构化数据,所述结构化数据包括检查时间、检查项目、检查结果及三者之间的对应关系,所述训练文本已标记第一数据及其类型、第一数据间的关系及其类型;
利用所述训练文本对边界抽取模型进行训练,所述边界抽取模型的输入为所述检查结果,输出为所述训练文本中所有第一数据的抽取结果,所述第一数据包括所述训练文本中的属性和实体。
4.根据权利要求3所述的医学检查文本实体和属性及其关系的联合抽取方法,其特征在于,还包括训练所述图卷积网络模型的步骤,训练所述图卷积网络模型的步骤包括:
将所述训练文本中的第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;
生成所述训练文本中任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
利用所述训练文本中的第一数据和第一数据关系生成二分图,利用所述训练文本中第一数据的特征向量和所述第一数据关系特征向量对图卷积网络模型进行训练,所述图卷积网络模型的输入为所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系,输出为第一数据和第一数据关系的类型。
5.根据权利要求4所述的医学检查文本实体和属性及其关系的联合抽取方法,其特征在于,对所述图卷积网络模型和所述边界抽取模型组成的联合抽取模型进行训练的训练目标为损失函数L最小,L采用以下公式计算:
L=Lspan+Lea+Lrel
6.根据权利要求1所述的医学检查文本实体和属性及其关系的联合抽取方法,其特征在于,将待处理文本转换为结构化数据包括:
利用检查项目术语词典,提取所述待处理文本中的检查项目;
利用时间抽取规则和模板,提取所述待处理文本中的检查时间;
基于文本标点符号和文本距离提取所述待处理文本中的检查结果;
建立所述检查项目、检查时间和检查结果之间的映射关系。
7.一种医学检查文本实体和属性及其关系的联合抽取装置,其特征在于,包括:
结构化模块,用于将待处理文本转换为结构化数据,所述结构化数据包括检查结果;
边界抽取模块,用于将所述检查结果输入预先训练好的边界抽取模型,输出所述待处理文本中所有第一数据的抽取结果,所述第一数据包括所述待处理文本中的属性和实体;
特征向量生成模块,用于将所述第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;生成任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
处理模块,用于将所述第一数据和所述第一数据关系生成二分图,将所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系输入预先训练好的图卷积网络模型,输出所述第一数据和所述第一数据关系的类型标签。
8.根据权利要求7所述的医学检查文本实体和属性及其关系的联合抽取装置,其特征在于,还包括第一训练模块,所述第一训练模块包括:
结构化单元,用于将训练文本转换为结构化数据,所述结构化数据包括检查时间、检查项目、检查结果及三者之间的对应关系,所述训练文本已标记第一数据及其类型、第一数据间的关系及其类型;
第一训练单元,用于利用所述训练文本对边界抽取模型进行训练,所述边界抽取模型的输入为所述检查结果,输出为所述训练文本中所有第一数据的抽取结果,所述第一数据包括所述训练文本中的属性和实体。
10.根据权利要求9所述的医学检查文本实体和属性及其关系的联合抽取装置,其特征在于,还包括第二训练模块,所述第二训练模块包括:
特征向量生成单元,用于将所述训练文本中的第一数据的字特征向量转换为文本特征向量,并对所述第一数据进行位置编码,生成位置特征向量,将所述文本特征向量与所述位置特征向量相连组成所述第一数据的特征向量;生成所述训练文本中任意一个实体和属性之间的第一数据关系特征向量,所述第一数据关系特征向量包括两个所述第一数据的特征向量以及两个所述第一数据的上文特征向量、中间文特征向量和下文特征向量;
第二训练单元,用于利用所述训练文本中的第一数据和第一数据关系生成二分图,利用所述训练文本中第一数据的特征向量和所述第一数据关系特征向量对图卷积网络模型进行训练,所述图卷积网络模型的输入为所述第一数据的特征向量、所述第一数据关系特征向量以及两者在所述二分图中的连接关系,输出为第一数据和第一数据关系的类型。
11.根据权利要求10所述的医学检查文本实体和属性及其关系的联合抽取装置,其特征在于,对所述图卷积网络模型和所述边界抽取模型组成的联合抽取模型进行训练的训练目标为损失函数L最小,L采用以下公式计算:
L=Lspan+Lea+Lrel
12.根据权利要求7所述的医学检查文本实体和属性及其关系的联合抽取装置,其特征在于,所述结构化模块包括:
第一提取单元,用于利用检查项目术语词典,提取所述待处理文本中的检查项目;
第二提取单元,用于利用时间抽取规则和模板,提取所述待处理文本中的检查时间;
第三提取单元,用于基于文本标点符号和文本距离提取所述待处理文本中的检查结果;
映射关系建立单元,用于建立所述检查项目、检查时间和检查结果之间的映射关系。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的医学检查文本实体和属性及其关系的联合抽取方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110348806.XA CN115146637A (zh) | 2021-03-31 | 2021-03-31 | 医学检查文本实体和属性及其关系的联合抽取方法、装置 |
EP22162334.1A EP4068149A1 (en) | 2021-03-31 | 2022-03-15 | Method and apparatus for joint-extracting clinical text entities and attributes and their relationships |
JP2022046607A JP7416113B2 (ja) | 2021-03-31 | 2022-03-23 | 診察テキストの実体と属性とそれらの関係の共同抽出方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110348806.XA CN115146637A (zh) | 2021-03-31 | 2021-03-31 | 医学检查文本实体和属性及其关系的联合抽取方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115146637A true CN115146637A (zh) | 2022-10-04 |
Family
ID=80780535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110348806.XA Pending CN115146637A (zh) | 2021-03-31 | 2021-03-31 | 医学检查文本实体和属性及其关系的联合抽取方法、装置 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4068149A1 (zh) |
JP (1) | JP7416113B2 (zh) |
CN (1) | CN115146637A (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800411B (zh) * | 2018-12-03 | 2023-07-18 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
WO2019137562A2 (en) * | 2019-04-25 | 2019-07-18 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
WO2021030915A1 (en) * | 2019-08-22 | 2021-02-25 | The Governing Council Of The University Of Toronto | Systems and methods for extracting information from a dialogue |
CN112163416B (zh) * | 2020-10-09 | 2021-11-02 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
-
2021
- 2021-03-31 CN CN202110348806.XA patent/CN115146637A/zh active Pending
-
2022
- 2022-03-15 EP EP22162334.1A patent/EP4068149A1/en active Pending
- 2022-03-23 JP JP2022046607A patent/JP7416113B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP4068149A1 (en) | 2022-10-05 |
JP7416113B2 (ja) | 2024-01-17 |
JP2022159048A (ja) | 2022-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468233B2 (en) | Intention identification method, intention identification apparatus, and computer-readable recording medium | |
Chang et al. | Chinese named entity recognition method based on BERT | |
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN107977361B (zh) | 基于深度语义信息表示的中文临床医疗实体识别方法 | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN112818676B (zh) | 一种医学实体关系联合抽取方法 | |
CN105404632B (zh) | 基于深度神经网络对生物医学文本序列化标注的系统和方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN112329465A (zh) | 一种命名实体识别方法、装置及计算机可读存储介质 | |
CN110263325B (zh) | 中文分词系统 | |
WO2023160472A1 (zh) | 一种模型训练方法及相关设备 | |
WO2023236977A1 (zh) | 一种数据处理方法及相关设备 | |
CN112560478A (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN115858825A (zh) | 基于机器学习的设备故障诊断知识图谱构建方法和装置 | |
WO2021082086A1 (zh) | 机器阅读方法、系统、装置及存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112101031B (zh) | 一种实体识别方法、终端设备及存储介质 | |
CN114547230B (zh) | 一种智能行政执法案例信息抽取和案由认定方法 | |
CN113779996B (zh) | 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质 | |
CN111597341B (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN112287656B (zh) | 文本比对方法、装置、设备和存储介质 | |
CN111737467B (zh) | 一种基于分段卷积神经网络的对象级情感分类方法 | |
Hua et al. | A character-level method for text classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |