CN115858819A - 一种样本数据的增广方法及装置 - Google Patents

一种样本数据的增广方法及装置 Download PDF

Info

Publication number
CN115858819A
CN115858819A CN202310043044.1A CN202310043044A CN115858819A CN 115858819 A CN115858819 A CN 115858819A CN 202310043044 A CN202310043044 A CN 202310043044A CN 115858819 A CN115858819 A CN 115858819A
Authority
CN
China
Prior art keywords
text
unstructured
texts
unstructured text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310043044.1A
Other languages
English (en)
Other versions
CN115858819B (zh
Inventor
李传富
谷宗运
张禹萱
鲁文豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202310043044.1A priority Critical patent/CN115858819B/zh
Publication of CN115858819A publication Critical patent/CN115858819A/zh
Application granted granted Critical
Publication of CN115858819B publication Critical patent/CN115858819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种样本数据的增广方法及装置,所述方法包括:基于预构建的读片知识图谱,对第一非结构化文本进行标注,获得对应的第一结构化文本;根据数据清洗规则表,对第一非结构化文本进行数据清洗;根据读片知识图谱的节点同位词属性来对数据清洗后的第一非结构化文本及对应的第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本;根据读片知识图谱的节点同义词属性对第二非结构化文本进行第二次数据增广,获得第三非结构化文本;将每个第三非结构化文本及对应的一个第二结构化文本构建为一个样本数据。本发明的方法,有效解决了影像学报告结构化处理领域,难以收集和标注大量影像学报告样本的问题。

Description

一种样本数据的增广方法及装置
技术领域
本发明涉及医学文本的结构化处理技术领域,尤其涉及一种样本数据的增广方法及装置。
背景技术
医学影像诊断报告是医生影像诊断过程中的文字记录,包含检查所见和检查印象两大部分。其中,检查所见部分详细描述了病灶位置、大小、形态等,是临床疾病预测、决策支持以及用药模式挖掘的重要依据;检查印象是影像科医师将影像表现与其他临床信息综合得出的诊断结论。但是,无论检查所见还是检查印象均是由自然语言描述记录的非结构化数据,计算机难以从自由文本数据中直接提取到有价值的信息。如何将医学影像诊断报告结构化,是充分挖掘医疗核心数据的价值,推动人工智能与医疗影像的结合与发展的关键。
医疗文本的结构化是近年来自然语言处理应用于医疗领域的研究热点,共分为前结构化和后结构化两种方式。前结构化是临床医师按照固定模板进行信息录入,形式单一,内容固定,在临床工作中适用范围较小,应用难度较大。后结构化处理,是运用人工智能的方法将医生撰写的自然语言报告进行分析,得出所需信息,较为灵活,能够处理更丰富的临床文本数据,对于临床疾病预测、医学文本质控、智慧医疗数据挖掘等领域有着重要的实践意义。
自然语言处理应用于医疗文本的结构化处理领域,经过了字符串匹配(利用先验知识建立医学相关词库,将待处理文本与词库内容进行匹配)、机器学习(将命名实体识别转为序列标注任务,认为预测标签序列之间有强相互依赖关系,从样本数据集合中统计获取相关特征和参数),发展至如今的深度学习(从已标注过的文本学习字符序列信息)。深度学习方法不仅可以获取语法级别的特征,还可以学习语义级别的特征,成为医学文本结构化处理的主要研究算法。
但深度学习模型的训练要依赖大量标注好的数据,而在医学文本的结构化处理领域,收集和标注大量影像学报告是极其困难的。当带标签的数据样本很少或数据集很小时,如何确保深度学习模型能快速学习样本并提高泛化能力不仅是研究人员面临的巨大挑战也是必须解决的现实问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种样本数据的增广方法以及装置,以解决上述技术问题。
为实现上述目的及其他相关目的,本发明提供一种样本数据的增广方法,包括:
基于预构建的读片知识图谱,对第一非结构化文本进行人工标注,获得对应的第一结构化文本;
根据预先构建的数据清洗规则表,对所述第一非结构化文本进行数据清洗;
根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本;
根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本;
将每个所述第三非结构化文本及对应的一个所述第二结构化文本构建为一个样本数据。
在本发明的一可选实施例中,所述根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本,具体包括:
调用所述读片知识图谱的节点以及节点的所述同位词属性,以分别识别所述数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本中已经存在的同位词节点文本,并标记为第一可替换文本;
运用所述读片知识图谱节点的所述同位词属性,将所述第一可替换文本替换为具有相同同位词属性的同组其他节点,以获得所述若干第二非结构化文本及对应的第二结构化文本。
在本发明的一可选实施例中,所述根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本,还包括:
对获得所述若干第二非结构化文本及对应的第二结构化文本进行同位词替换结果校验,以检查数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本是否做到同步替换。
在本发明的一可选实施例中,所述根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本,具体包括:
调用所述读片知识图谱节点以及节点的所述同义词属性,以识别所述第二非结构化文本中已经存在的同义词节点文本,并标记为第二可替换文本;
运用所述读片知识图谱节点的所述同义词属性,将所述第二可替换文本随机替换为该节点同义词属性中包含的其他文本,以获得所述第三非结构化文本。
在本发明的一可选实施例中,所述读片知识图谱的构建过程具体包括:
构建以病变区域作为第一层级,病变特征作为第二层级,细节特征作为第三层级的所述读片知识图谱,其中所述病变特征和细节特征的节点具有所述同义词属性和所述同位词属性;
并增加病变位置作为所述读片知识图谱的第三层级的一类特殊节点,这类特殊节点按照解剖学知识呈现树状结构,用来实现疾病的定位,以细化病变特征。
在本发明的一可选实施例中,所述数据清洗规则表的构建过程具体包括:
创建病变位置同义词替换表、病变特征同义词替换表以及细节特征同义词替换表,用以对非结构化文本进行语句规范化处理;
创建标点符号使用规则表,用以对非结构化文本进行语句拆分和合并。
在本发明的一可选实施例中,根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本,具体包括:
根据所述标点符号使用规则表,对所述第二非结构化文本中病变位置不同,而病变特征或细节特征相同的若干分句进行合并处理;
根据所述读片知识图谱的节点同义词属性对合并处理后的所述第二非结构化文本进行第二次数据增广,获得所述第三非结构化文本。
在本发明的一可选实施例中,所述根据预先构建的数据清洗规则表,对所述第一非结构化文本进行数据清洗,具体包括:
调用所述病变位置同义词替换表、病变特征同义词替换表以及细节特征同义词替换表,用以对所述第一非结构化文本中的病变位置、病变特征以及细节特征进行专业术语的统一;
调用所述标点符号使用规则表,用以将所述第一非结构化文本中存在的多个病变位置对应一个病变特征的分句拆分为多个分句。
在本发明的一可选实施例中,所述基于预构建的读片知识图谱,对第一非结构化文本进行人工标注,获得对应的第一结构化文本,具体包括:
按照预定义的文本格式并结合所述读片知识图谱的节点设计对所述第一非结构化文本进行人工标注,以获得对应的第一结构化文本。
为实现上述目的及其它相关目的,本发明还提供一种样本数据的增广装置,包括:
文本标注模块,用以基于预构建的读片知识图谱,对第一非结构化文本进行人工标注,获得对应的第一结构化文本;
数据清洗模块,用以根据预先构建的数据清洗规则表,对所述第一非结构化文本进行数据清洗;
第一次数据增广模块,用以根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本;
第二次数据增广模块,用以根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本;
样本数据构件模块,用以将每个所述第三非结构化文本及对应的一个所述第二结构化文本构建为一个样本数据。
有益效果:
本申请首先基于预构建的读片知识图谱,对第一非结构化文本进行人工标注,获得对应的第一结构化文本;然后根据预先构建的数据清洗规则表,对所述第一非结构化文本进行数据清洗;再根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本;再根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本;最后将将每个所述第三非结构化文本及对应的一个所述第二结构化文本构建为一个样本数据。利用本申请所提供的样本数据的增广方法,实现了对少量的样本数据进行增广,有效解决了医学文本的结构化处理领域难以收集和标注大量影像学报告样本的技术问题,进而能提高深度模型训练的泛化能力。
附图说明
图1为本发明中一种样本数据增广方法的流程图。
图2为本申请一示例性实施例提供的一种读片知识图谱的创建模式架构图。
图3为本申请的一示例性实施例所提供的病变位置节点的模式图。
图4为本申请的一示例性实施例所提供的一种读片知识图谱的部分示意图。
图5为本发明的一种样本数据增广装置的框图。
具体实施方式
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
鉴于在医学文本的结构化处理领域收集和标注大量影像学报告样本是极其困难的,而深度学习模型的训练又依赖大量的数据集的技术问题,本申请的实施例分别提供一种样本数据的增广方法以及装置,以解决上述问题,以下将对这些实施例进行详细描述。
请参阅图1所示,图1是本申请的一示例性实施例示出的样本数据的增广方法的流程图。如图1所示,在一示例性实施例中,样本数据的增广方法包括步骤S110至步骤S150,详细介绍如下:
步骤S110,基于预构建的读片知识图谱,对第一非结构化文本进行人工标注,获得对应的第一结构化文本。
需要说明的是,本文中所提到的第一非结构化文本(也包括后文提到的非结构化文本)指的是医学影像诊断报告中的检查所见,第一结构化文本是医学影像诊断报告中的检查所见标注后的结果。
图2为本申请一示例性实施例提供的一种读片知识图谱的创建模式架构图,现结合图2来对步骤S110作一个详细描述:
首先,构建以病变区域作为第一层级,病变特征作为第二层级,细节特征作为第三层级的所述读片知识图谱,其中所述病变特征和细节特征的节点具有所述同义词属性和所述同位词属性;
需要说明的是,上述知识图谱的三层结构是基于临床医生在阅片时,要先观察病变区域,再观察病变特征,最后观察细节特征的阅片思维来构建的,更加贴合临床实际。在三层结构知识图谱中,病变特征、细节特征以及后文所述的病变位置类节点按照临床文本使用语法分成若干组同位词,并将同位词作为节点属性保存至知识图谱中。
还需要说明的是,本文所述的同位词指的是在知识图谱中相同类型、相同层级且在影像报告中语法使用规则相同,完全可以相互替换的一组节点,比如第一腰椎、第二腰椎、第三腰椎等就是一组同位词;所述的同义词指的是同一节点专业术语的不同表述形式,比如对于“形态欠规整”这个节点,有的医生可能描述为骨皮质欠规整或形态改变等多个含义相同的专业术语表达。
最后,增加病变位置作为所述读片知识图谱的第三层级的一类特殊节点,这类特殊节点按照解剖学知识呈现树状结构,用来实现疾病的定位,以细化病变特征。
请参阅图3所示,图3为本申请的一示例性实施例所提供的病变位置节点的模式图。病变位置节点作为三层结构知识图谱的第三层级中一类特殊的节点,此类节点按照解剖学知识呈现树状结构,用来实现疾病的定位,以细化病变特征,也可称为解剖类位置节点。如图3所示的,在一具体实施例中,病变位置节点分成了四级,需要说明的是病变位置类节点并不仅仅局限于分成4级,具体划分的级数取决于解剖学的层级划分规范。
在发明的一具体实施例中,基于预构建的读片知识图谱,对第一非结构化文本进行人工标注,获得对应的第一结构化文本,具体包括:
按照预定义的文本格式并结合所述读片知识图谱的节点设计,将非结构化文本标注成所述对应的结构化文本。在一具体实施例中,预设的文本格式可以是病变特征-位置-病变位置。
请参阅图4所示,为本申请的一示例性实施例所提供的一种读片知识图谱的部分示意图。现在对图4中的图谱做一个简要说明,“1.椎体及附件”对应的就是三层架构中的第一层,“1.3椎体变异”对应的就是三层架构中的第二层,“1.3.1蝴蝶椎”对应的是知识图谱的第三层。
结合如图4所展示的读片知识图谱并结合上述预定义的文本格式,作为示例,对于“腰椎生理曲度变直,L3-4椎体边缘见骨质增生,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。”这样一个第一非结构化文本,可标注为结构化文本“[腰椎-生理曲度-变直,椎体及附件-骨质增生-位置-椎体-第三腰椎,椎体及附件-骨质增生-位置-椎体-第四腰椎]”
步骤S120,根据预先构建的数据清洗规则表,对所述第一非结构化文本进行数据清洗。
首先说明的是,所述数据清洗规则表的构建过程如下:
创建病变位置同义词替换表、病变特征同义词替换表以及细节特征同义词替换表,用以对非结构化文本进行语句规范化处理;创建标点符号使用规则表,用以对非结构化文本进行语句拆分和合并。
请参阅表1、表2、表3所示,表1、表2、表3分别为本申请一示例性实施例提供的一种病变位置同义词替换表、病变特征及细节特征同义词替换表、标点符号使用规则表。
表1
Figure SMS_1
表2
Figure SMS_2
表3
Figure SMS_3
其中,病变位置同义词替换表用于将非结构化文本的病变位置的不同专业术语表述进行统一,如表1中所示的,“第一腰椎”、“第1腰椎”、“腰1”、“L1”可都统一为节点的名称“第一腰椎”;病变特征、细节特征同义词替换表用于将非结构化文本的病变特征和细节特征的不同专业术语表述进行统一,比如表2中的“形态改变”、“骨皮质欠规整”等同一特征的不同专业术语表达可都统一为节点名称“形态欠规整”;标点符号使用规则表,用于明确非结构化文本中每一个分句的断句位置,可以用来语句的拆分和合并,如表3中所示的,可利用上述标点符号使用规则表将“L1-3骨质破坏”这一个分句拆分为“第一腰椎骨质破坏,第二腰椎骨质破坏,第三腰椎骨质破坏”三个分句。
步骤S130,根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本。
在一示例性实施例中,根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本,具体包括:
首先,调用所述读片知识图谱的节点以及节点的所述同位词属性,以分别识别所述数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本中已经存在的同位词节点文本,并标记为第一可替换文本;
最后,运用所述读片知识图谱节点的所述同位词属性,将所述第一可替换文本替换为具有相同同位词属性的同组其他节点,以获得所述若干第二非结构化文本及对应的第二结构化文本。
现以第一非结构化文本为“腰椎生理曲度变直,第三腰椎、第四腰椎椎体边缘见骨质增生,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。”为例来对这一过程进行说明:
对于“腰椎生理曲度变直,第三腰椎、第四腰椎椎体边缘见骨质增生,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。”这样一个第一非结构化文本,通过步骤S120数据清洗后,规范成“腰椎生理曲度变直,第三腰椎椎体边缘见骨质增生,第四腰椎椎体边缘见骨质增生椎间隙无狭窄,未见明显骨质破坏及异常软组织影”。
比如,在调用所述读片知识图谱的节点以及节点的所述同位词属性后,识别出第一非结构化文本及对应的所述第一结构化文本的“第三腰椎”、“第四腰椎”以及“骨质增生”是已经存在的同位词节点文本,可将“第三腰椎”、“第四腰椎”以及“骨质增生”标记为第一可替换文本;
用读片知识图谱中和“第三腰椎”以及第四腰椎”同组的其它同位词(比如“第一腰椎”、“第二腰椎”以及“第五腰椎”等),来替换“第三腰椎”和“第四腰椎”;
用读片知识图谱中和“骨质增生”的同组的其它同位词(比如“骨质破坏”、“形态欠规整”等),来替换“骨质增生”;
通过对“第三腰椎”、第四腰椎”、以及“骨质增生”进行同位词替换,获得若干如下所示的第二非结构化文本及对应的第二结构化文本,其中括号前的是第二非结构化文本,括号里面的是对应的第二结构化文本:
A1.腰椎生理曲度变直,第一腰椎椎体边缘见骨质增生,第二腰椎椎体边缘见骨质增生,椎间隙无狭窄,未见明显骨质破坏及异常软组织影[腰椎-生理曲度-变直,椎体及附件-骨质增生-位置-椎体-第一腰椎,椎体及附件-骨质增生-位置-椎体-第二腰椎];
B1.腰椎生理曲度变直,第二腰椎椎体边缘见骨质增生,第三腰椎椎体边缘见骨质增生,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。[腰椎-生理曲度-变直,椎体及附件-骨质增生-位置-椎体-第二腰椎,椎体及附件-骨质增生-位置-椎体-第三腰椎];
C1.腰椎生理曲度变直,第四腰椎椎体边缘见骨质增生,第五腰椎椎体边缘见骨质增生,椎间隙无狭窄,未见明显骨质破坏及异常软组织影[腰椎-生理曲度-变直,椎体及附件-骨质增生-位置-椎体-第四腰椎,椎体及附件-骨质增生-位置-椎体-第五腰椎];
D1.腰椎生理曲度变直,第三腰椎椎体边缘见骨质增生,第四腰椎椎体边缘见骨质破坏,椎间隙无狭窄,未见明显骨质破坏及异常软组织影[腰椎-生理曲度-变直,椎体及附件-骨质增生-位置-椎体-第三腰椎,椎体及附件-骨质破坏-位置-椎体-第四腰椎];
E1.腰椎生理曲度变直,第三腰椎椎体边缘见形态欠规整,第四腰椎椎体边缘见骨质增生,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。[腰椎-生理曲度-变直,椎体及附件-形态欠规整-位置-椎体-第三腰椎,椎体及附件-骨质增生-位置-椎体-第四腰椎]
F1.腰椎生理曲度变直,第三腰椎椎体边缘见骨质破坏,第四腰椎椎体边缘见骨质破坏,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。[腰椎-生理曲度-变直,椎体及附件-骨质破坏-位置-椎体-第三腰椎,椎体及附件-骨质破坏-位置-椎体-第四腰椎]
G1.……
步骤S140,根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本。
在一示例性实施例中,根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本,具体包括:
首先,调用所述读片知识图谱节点以及节点的所述同义词属性,以识别所述第二非结构化文本中已经存在的同义词节点文本,并标记为第二可替换文本;
最后,运用所述读片知识图谱节点的所述同义词属性,将所述第二可替换文本随机替换为该节点同义词属性中包含的其他文本,以获得所述第三非结构化文本。
现以“腰椎生理曲度变直,第三腰椎、第四腰椎椎体边缘见形态欠规整,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。”这样一个非结构化文本为例,对第二次数据增广的过程作详细描述:
比如,调用所述读片知识图谱节点以及节点的所述同义词属性后,识别出所述第二非结构化文本中“第三腰椎”、“第四腰椎”以及“形态欠规整”是已经存在的同义词节点文本后,将“第三腰椎”、“第四腰椎”以及“形态欠规整”标记为第二可替换文本;
分别调用读片知识图谱中“第三腰椎”的同义词(“第3腰椎”、“腰三”、“腰3”、“L3”以及“l3”等)以及第四腰椎”的同义词(“第4腰椎”、“腰四”、“腰4”、“L4”以及“l4”),来替换“第三腰椎”和“第四腰椎”;
用读片知识图谱中和“形态欠规整”的同义词(比如“形态改变”、“骨皮质欠规整”、“形态欠佳”、“不规则”等),来替换“形态欠规整”;
通过对“第三腰椎”、第四腰椎”、以及“形态欠规整”进行同位词替换,获得若干如下所示的第三非结构化文本:
A2.腰椎生理曲度变直,L3、L4椎体边缘见骨皮质欠规整,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。
B2.腰椎生理曲度变直,第3腰椎、第4腰椎椎体边缘见形态改变,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。
C2.腰椎生理曲度变直,腰三、腰四椎体边缘见形态变化,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。
D2.……
需要说明的是,当第一次增广后出现F1中所示的“腰椎生理曲度变直,第三腰椎椎体边缘见骨质破坏,第四腰椎椎体边缘见骨质破坏,椎间隙无狭窄,未见明显骨质破坏及异常软组织影”只有病变位置不同的这样一类特殊的非结构化文本时,所述根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本,具体包括:
首先,根据所述标点符号使用规则表,对所述第二非结构化文本中病变位置不同,而病变特征或细节特征相同的若干分句进行合并处理;
作为示例,将增广结果“腰椎生理曲度变直,第三腰椎椎体边缘见骨质破坏,第四腰椎椎体边缘见骨质破坏,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。”进一步规范为“腰椎生理曲度变直,第三腰椎、第四腰椎椎体边缘见骨质破坏,椎间隙无狭窄,未见明显骨质破坏及异常软组织影。”
通过对只有病变位置不同的这样一类只有病变位置不同,而病变特征或细节特征相同的语句进行合并,使获得的非结构化文本,更符合临床上医生的描述习惯,用这种语句合并后的非结构化文本去做模型训练能更好得提高模型泛化能力。
最后,根据所述读片知识图谱的节点同义词属性对合并处理后的所述第二非结构化文本进行第二次数据增广,获得所述第三非结构化文本。
步骤S150,将每个所述第三非结构化文本及对应的一个所述第二结构化文本构建为一个样本数据。
需要说明的是,所述样本数据集是包括原始的第一非结构化文本以及第一结构化文本。利用增广后获得的样本数据集去训练BERT模型,得出训练结果,并应用于临床影像学报告结构化处理的工作中。
图5是本发明所提供的一种样本数据的增广装置500,所述样本数据的增广装置500包括文本标注模块501、数据清洗模块502、第一次数据增广模块503、第二次数据增广模块504以及样本数据构建模块505。所述文本标注模块501,用以基于预构建的读片知识图谱,对第一非结构化文本进行人工标注,获得对应的第一结构化文本;所述数据清洗模块502,用以根据预先构建的数据清洗规则表,对所述第一非结构化文本进行数据清洗;所述第一次数据增广模块503,用以根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本;所述第二次数据增广模块504,用以根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本;所述样本数据构建模块505,用以将每个所述第三非结构化文本及对应的一个所述第二结构化文本构建为一个样本数据。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种样本数据的增广方法,其特征在于,包括:
基于预构建的读片知识图谱,对第一非结构化文本进行人工标注,获得对应的第一结构化文本;
根据预先构建的数据清洗规则表,对所述第一非结构化文本进行数据清洗;
根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本;
根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本;
将每个所述第三非结构化文本及对应的一个所述第二结构化文本构建为一个样本数据。
2.根据权利要求1所述的样本数据的增广方法,其特征在于,所述根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本,具体包括:
调用所述读片知识图谱的节点以及节点的所述同位词属性,以分别识别所述数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本中已经存在的同位词节点文本,并标记为第一可替换文本;
运用所述读片知识图谱节点的所述同位词属性,将所述第一可替换文本替换为具有相同同位词属性的同组其他节点,以获得所述若干第二非结构化文本及对应的第二结构化文本。
3.根据权利要求2所述的样本数据的增广方法,其特征在于,所述根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本,还包括:
对获得所述若干第二非结构化文本及对应的第二结构化文本进行同位词替换结果校验,以检查数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本是否做到同步替换。
4.根据权利要求1所述的样本数据的增广方法,其特征在于,所述根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本,具体包括:
调用所述读片知识图谱节点以及节点的所述同义词属性,以识别所述第二非结构化文本中已经存在的同义词节点文本,并标记为第二可替换文本;
运用所述读片知识图谱节点的所述同义词属性,将所述第二可替换文本随机替换为该节点同义词属性中包含的其他文本,以获得所述第三非结构化文本。
5.根据权利要求1所述的样本数据的增广方法,其特征在于,所述读片知识图谱的构建过程具体包括:
构建以病变区域作为第一层级,病变特征作为第二层级,细节特征作为第三层级的所述读片知识图谱,其中所述病变特征和细节特征的节点具有所述同义词属性和所述同位词属性;
并增加病变位置作为所述读片知识图谱的第三层级的一类特殊节点,这类特殊节点按照解剖学知识呈现树状结构,用来实现疾病的定位,以细化病变特征。
6.根据权利要求5所述的样本数据的增广方法,其特征在于,所述数据清洗规则表的构建过程具体包括:
创建病变位置同义词替换表、病变特征同义词替换表以及细节特征同义词替换表,用以对非结构化文本进行语句规范化处理;
创建标点符号使用规则表,用以对非结构化文本进行语句拆分和合并。
7.根据权利要求6所述的样本数据的增广方法,其特征在于,根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本,具体包括:
根据所述标点符号使用规则表,对所述第二非结构化文本中病变位置不同,而病变特征或细节特征相同的若干分句进行合并处理;
根据所述读片知识图谱的节点同义词属性对合并处理后的所述第二非结构化文本进行第二次数据增广,获得所述第三非结构化文本。
8.根据权利要求6所述的样本数据的增广方法,其特征在于,所述根据预先构建的数据清洗规则表,对所述第一非结构化文本进行数据清洗,具体包括:
调用所述病变位置同义词替换表、病变特征同义词替换表以及细节特征同义词替换表,用以对所述第一非结构化文本中的病变位置、病变特征以及细节特征进行专业术语的统一;
调用所述标点符号使用规则表,用以将所述第一非结构化文本中存在的多个病变位置对应一个病变特征的分句拆分为多个分句。
9.根据权利要求1所述的样本数据的增广方法,其特征在于,所述基于预构建的读片知识图谱,对第一非结构化文本进行人工标注,获得对应的第一结构化文本,具体包括:
按照预定义的文本格式并结合所述读片知识图谱的节点设计对所述第一非结构化文本进行人工标注,以获得对应的第一结构化文本。
10.一种样本数据的增广装置,其特征在于,包括:
文本标注模块,用以基于预构建的读片知识图谱,对第一非结构化文本进行人工标注,获得对应的第一结构化文本;
数据清洗模块,用以根据预先构建的数据清洗规则表,对所述第一非结构化文本进行数据清洗;
第一次数据增广模块,用以根据所述读片知识图谱的节点同位词属性来对数据清洗后的所述第一非结构化文本及对应的所述第一结构化文本进行第一次数据增广,获得若干第二非结构化文本及对应的第二结构化文本;
第二次数据增广模块,用以根据所述读片知识图谱的节点同义词属性对所述第二非结构化文本进行第二次数据增广,获得第三非结构化文本;
样本数据构建模块,用以将每个所述第三非结构化文本及对应的一个所述第二结构化文本构建为一个样本数据。
CN202310043044.1A 2023-01-29 2023-01-29 一种样本数据的增广方法及装置 Active CN115858819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310043044.1A CN115858819B (zh) 2023-01-29 2023-01-29 一种样本数据的增广方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310043044.1A CN115858819B (zh) 2023-01-29 2023-01-29 一种样本数据的增广方法及装置

Publications (2)

Publication Number Publication Date
CN115858819A true CN115858819A (zh) 2023-03-28
CN115858819B CN115858819B (zh) 2023-05-16

Family

ID=85657311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310043044.1A Active CN115858819B (zh) 2023-01-29 2023-01-29 一种样本数据的增广方法及装置

Country Status (1)

Country Link
CN (1) CN115858819B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060305A1 (en) * 2016-08-25 2018-03-01 International Business Machines Corporation Semantic hierarchical grouping of text fragments
CN110059185A (zh) * 2019-04-03 2019-07-26 天津科技大学 一种医学文档专业词汇自动化标注方法
US20190317986A1 (en) * 2018-04-13 2019-10-17 Preferred Networks, Inc. Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
WO2020140377A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN113505243A (zh) * 2021-07-29 2021-10-15 深圳万海思数字医疗有限公司 基于医疗知识图谱的智能问答方法和装置
CN113672736A (zh) * 2021-09-09 2021-11-19 上海德拓信息技术股份有限公司 一种文本多标签分类方法及系统
CN114582470A (zh) * 2022-04-29 2022-06-03 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种模型的训练方法、训练装置及医学影像报告标注方法
CN114925206A (zh) * 2021-12-16 2022-08-19 深圳市普渡科技有限公司 人工智能体、语音信息识别方法、存储介质和程序产品
CN115062120A (zh) * 2022-08-18 2022-09-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 读片知识图谱构建方法、装置、处理器及报告生成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060305A1 (en) * 2016-08-25 2018-03-01 International Business Machines Corporation Semantic hierarchical grouping of text fragments
US20190317986A1 (en) * 2018-04-13 2019-10-17 Preferred Networks, Inc. Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
WO2020140377A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN110059185A (zh) * 2019-04-03 2019-07-26 天津科技大学 一种医学文档专业词汇自动化标注方法
CN113505243A (zh) * 2021-07-29 2021-10-15 深圳万海思数字医疗有限公司 基于医疗知识图谱的智能问答方法和装置
CN113672736A (zh) * 2021-09-09 2021-11-19 上海德拓信息技术股份有限公司 一种文本多标签分类方法及系统
CN114925206A (zh) * 2021-12-16 2022-08-19 深圳市普渡科技有限公司 人工智能体、语音信息识别方法、存储介质和程序产品
CN114582470A (zh) * 2022-04-29 2022-06-03 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种模型的训练方法、训练装置及医学影像报告标注方法
CN115062120A (zh) * 2022-08-18 2022-09-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 读片知识图谱构建方法、装置、处理器及报告生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANG DAI: "Recognising Biomedical Names: Challenges and Solutions", 《ARXIV》 *
魏小娜等: "医学影像人工智能辅助诊断的样本增广方法", 《计算机应用》 *

Also Published As

Publication number Publication date
CN115858819B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
He et al. Pathvqa: 30000+ questions for medical visual question answering
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
Liu et al. Medical-vlbert: Medical visual language bert for covid-19 ct report generation with alternate learning
CN107341264A (zh) 一种支持自定义实体的电子病历检索系统及方法
US11468989B2 (en) Machine-aided dialog system and medical condition inquiry apparatus and method
CN109545373A (zh) 一种人体疾病症状特征自动抽取方法、系统及设备
CN111755118B (zh) 医疗信息处理方法、装置、电子设备及存储介质
CN111312354B (zh) 基于多智能体强化学习的乳腺病历实体识别标注增强系统
Sarbin Toward the obsolescence of the schizophrenia hypothesis
Lacoste et al. Medical-image retrieval based on knowledge-assisted text and image indexing
CN111292814A (zh) 一种医疗数据标准化的方法及装置
CN111986799B (zh) 一种以关节运动功能为核心的骨科知识图谱的构建系统
Lin et al. Sgt: Scene graph-guided transformer for surgical report generation
CN110069639B (zh) 一种构建甲状腺超声领域本体的方法
CN111128388A (zh) 一种值域数据匹配方法、装置及相关产品
Jones Not a yes or no question: critical perspectives on sex and gender in forensic anthropology
CN112562809A (zh) 一种基于电子病历文本进行辅助诊断的方法及系统
CN115858819A (zh) 一种样本数据的增广方法及装置
Terwilliger et al. Advancing medical education: performance of generative artificial intelligence models on otolaryngology board preparation questions with image analysis insights
Sacoransky et al. ChatGPT and assistive AI in structured radiology reporting: a systematic review
CN108537893A (zh) 一种甲状腺占位病变的三维可视化模型生成方法
Li et al. Modeling pronoun resolution in the brain
CN111986800B (zh) 一种以关节运动功能为核心的骨科知识图谱的构建方法
CN116386796A (zh) 一种体格检查信息抽取方法、装置、设备及存储介质
Lahnakoski et al. Embodied Emotions in Ancient Neo-Assyrian Texts Revealed by Bodily Mapping of Emotional Semantics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant