CN110399450A

CN110399450A - 一种基于语义树的甲状腺超声报告结构化扫描方法

Info

Publication number: CN110399450A
Application number: CN201910536642.6A
Authority: CN
Inventors: 陈德华; 黄美花菊; 周建桥; 朱立峰
Original assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd; Donghua University
Current assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd; Donghua University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-11-01
Anticipated expiration: 2039-06-20
Also published as: CN110399450B

Abstract

本发明涉及一种基于语义树的甲状腺超声报告结构化扫描方法，通过三个步骤进行实现：1)甲状腺超声文本数据预处理，包括分块分句分词、同义词替换；2)语义树定位，相应的规则结合dewey编码进行结点定位，标记，删除等不同操作；3)记录所有结点，输出结构化结果。在甲状腺超声报告中，主要关注点在于甲状腺和甲状腺病灶的病变情况，所以本发明立足于解剖学的基础构建了基于甲状腺超声领域的语义树。通过扫描报告与语义树作相应匹配，将文本报告结构化，从中提取有用信息可用于后续研究，从而更好地辅助医生进行病情诊断和治疗。

Description

一种基于语义树的甲状腺超声报告结构化扫描方法

技术领域

本发明涉及一种基于语义树的甲状腺超声报告结构化扫描方法。

背景技术

超声检查报告是超声影像检查的影像结果记录的载体。甲状腺超声检查是一种常见的甲状腺检查项目，医生通过超声检查对甲状腺及其周围进行检查，甲状腺超声检查的影像表现中对甲状腺和甲状腺病灶分别进行了描述，对于病人的病情诊断和疾病分析预测有非常重要的作用。但现在医学上的超声检查报告大多都是非结构化的，而且存在很多叙述性质的文本信息，对于存储和深度挖掘其中包含的临床信息非常不利，对超声报告进行结构化处理的需求日益突出。

数据结构化存储也是近年来存储技术的热点之一，文本数据结构化主要是将信息从叙述复杂的文本中将有效信息抽取出来，生成具有关系的指标-指标值的模式，也可称之为键值对数据。其目的是得计算机能够理解并进行检索分析文档中所包含的语义及内容。不仅能够更加利于存储，而且能够有利于医生对患者更快更准地诊断病情，并且结构化后的数据能够作为后续数据挖掘的输入，是对数据进行深入分析，挖掘数据中隐含地内容的必备条件。医疗数据结构化是后续诸多预测以及对数据充分利用的基础，而传统的手工处理数据，将文本数据映射到对应的表格形成指标-指标值的模式的效率低下，需要大量的人工成本并且手工转换可能存在很多误差及不规范。

发明内容

本发明的目的是：针对甲状腺超声报告，以及甲状腺超声领域的语义树，将甲状腺超声检查报告文本结构化存储。

为了达到上述目的，本发明的技术方案提供了一种基于语义树的甲状腺超声报告结构化扫描方法，其特征在于，包括以下步骤：

步骤1、前期准备工作，包括以下步骤：

步骤1.1、建立适用于甲状腺超声领域的自定义词典，加入jieba分词词库，从而获得比较理想的分词结果，对后续结构化的准确率提升有很大的帮助；

步骤1.2、建立同义词表，相同意思的不同表达的词语映射到对应词语，该词语能够在语义树有所体现；

步骤1.3、建立部位词列表，存储所有部位词，部位词指的是定位词，通过部位词区别拥有相同的属性的不同的组织结构；

步骤2、输入文本预处理

步骤2.1、规范标点符号，区分中英文输入标点，尤其关于中英文句号的处理，若不规范符号数值型包含的小数点可能会影响分句结果；

步骤2.2、简单分块，在每块句首补上上一次出现的顶部部位词，利于提高扫描算法准确度；

步骤3、分句，属性分配上不同的符号需要做不同的处理；

步骤4、分词

利用jieba分词包，将报告分词语形式；

步骤5、排序短句中的部位词：

扫描短句中的部位词/定位词，给不同层次的部位词赋权值，根据扫描结果对模糊匹配后每个部位词累计权值并求平均，得出短句内的部位词的权重，根据权重排序，使得部位词按照语义树顺序排序，利于后续扫描的准确性；

步骤6、逐词扫描报告，与甲状腺超声语义树做匹配，包括以下步骤：

步骤7、部位词匹配，标记及擦除：

步骤7.1、若在子树匹配结果不为空，检测模糊匹配得到的列表中每个词语是否需要标记该词：若父结点被标记，则标记，若父结点未被标记，则判断父结点是否为抽象结点，若是则向上层递归判断，利用抽象结点特性进行选择，直至遇到已经标记父结点再逐级向下标记到该节点，否则该结点不标记，执行步骤9；

步骤7.2、若子树匹配结果为空，则扫描整个语义树，并标记，根据编码可得此次标记编码长度最长子结点，与上一个词标记结果的编码最长结点作对比可确定本词是否为上一个词的上层结点，若是，则进行擦除标记工作，并确定新的子树范围，并执行步骤7.1，若是同级结点，根据相关的符号标志位，判断若为短句内并列关系的同级部位词，则标记并扩充部位词列表，即下一次扫描范围为以两个部位词为根节点的子树的并集。若不是在同一个短剧内出现的部位词，则进行擦除标记的工作，确定新的子树范围，并执行步骤7.1；

步骤8、非部位词匹配，标记及擦除：

步骤8.1、首先进行与步骤7.1相同的步骤，若本次没有结点被标记，则在最小已标记的部位词子树下，即使匹配的节点的父结点未被标记，只要父结点非部位词结点，该结点及其父结点也被标记，执行步骤9；

步骤8.2、若子树匹配结果为空，则扫描整个语义树，并标记，根据编码可得此次标记编码长度最长子结点，与上一个词标记结果的编码最长结点作对比可确定本词是否为上一个词的子结点，若不是，则进行擦除标记工作，并确定新的子树范围，并执行步骤8.1；

步骤9、记录本次扫描结果

记录本次扫描结果，将本次需要添加的抽象结点和非抽象结点添加到输出子树的结点集合中，并将产生的抽象部位词记录，便于下一个待扫描词语的定位使用，直至所有词语扫描完毕，完善子树编码，输出子树。

优选地，步骤2.2中，简单分块中将文本分为甲状腺块、颈部块及甲状旁腺块，则所述顶部部位词包括甲状腺、甲状旁腺、颈部。

优选地，步骤3分句时考虑逗号短句、分号短句及句号长句。

优选地，所述步骤6包括以下步骤：

步骤6.1、根据步骤5得到的排序好部位词的短句进行逐词扫描判断该词是逗号‘，’、‘。’、‘；’或者文字型，若为逗号或者分号，则进入步骤6.2，若为句号或者问号，则进入步骤6.3，若能够在语义树上得以匹配，则进入步骤6.4，否则返回0，对该词不做处理；

步骤6.2、对下一短句进行判断是否包含部位词，若包含则置逗号标志位为0，则下一短句属性及属性词均为该短句部位词子结点，并且将该部位词加入目前部位词集合以便于无部位词短句使用；否则置逗号标志位为1，该短句属性及属性值属于该句子中所有部位词子结点；

步骤6.3、对下一句子判断是否包含部位词，若包含则置句号标志位为1，此时部位词应与上句扫描的部位词作对比，若为上次扫描部位词的上层或同层，则进行擦除操作；否则置0，沿用上个句子的部位词；

步骤6.4、模糊匹配判断该词是否为部位词，是部位词进入部位词扫描程序段即步骤7，否则进入非部位词扫描程序段即步骤8。

本发明选择利用dewey编码存储语义树。Dewey编码是一种重要的XML文档编码方式，根据结点的编码可以迅速定位结点位置，也可以根据子结点的编码推算父结点的编码，例如父结点的编码为1.1，则子结点的编码就为1.1.n，因此当某一结点编码为1.2.3，可以迅速推断出该结点的父结编码为1.2。除此之外，本发明还需要用到jieba分词包，它是一个已经集成的中文分词包，内部包含大多数日常常用词汇，由于医疗领域的一些基本名词比较生僻，不包含在常用词汇的库中，jieba分词包能够自己导入需要添加的词库，完善分词结果。本发明的具体技术方案是基于以上的工具，结合属性匹配思想，提供了一种能够比较简便的基于语义树的对于甲状腺超声报告结构化的扫描算法，其针对医学报告类文本的特殊性，用此方法能够获得准确率较高的结构化结果，并且经过前期的准备工作后，后续结构化过程基本无需人工干预。

在甲状腺超声报告中，主要关注点在于甲状腺和甲状腺病灶的病变情况，所以本发明立足于解剖学的基础构建了基于甲状腺超声领域的语义树。通过扫描报告与语义树作相应匹配，将文本报告结构化，从中提取有用信息可用于后续研究，从而更好地辅助医生进行病情诊断和治疗。

附图说明

图1为实施例输出子树。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

步骤1、前期准备工作，包括以下步骤：

步骤1.1、建立适用于甲状腺超声领域的自定义词典，加入jieba分词词库，从而获得比较理想的分词结果，部分分词词典展示如下；

峡部	左侧甲状腺	囊性为主	实性为主	低回声
					回声区	砂砾样强回声	欠规则	已切除	椭类圆形

步骤1.2、建立同义词表，相同意思的不同表达的词语映射到对应词语，该词语能够在语义树有所体现，入下表所示，每行代表互为同义词，每行第一个词是在语义树上有显示的词语，因此把每个词都映射到该行第一个词语上；

椭圆形	稍椭圆形	椭类圆形
					类圆形	圆形	趋圆
环状强回声	带状强回声	弧状强回声	弧形强回声	狐状强回声
					砂砾样钙化	砂粒样钙化	沙粒样钙化	粗大钙化	细点状钙化
细小强回声	细点状强回声
					不均匀	不均
网格状	树枝状	火海样
					边缘为主	周边为主
血供程度	血供
					全切	已切除

步骤1.3、建立部位词列表，存储所有部位词，部位词指的是定位词，由于不同的组织结构可能拥有相同的属性，所以需要部位词加以区别；

根据甲状腺超声领域语义树的特点，我们将该部位词列表定为以下词语，部位词下有对应的属性及属性值，存在不同部位词下对应相同属性及属性值。

['甲状腺','甲状旁腺区','颈部','左叶','右叶','峡部','左叶|左侧甲状腺','右叶|右侧甲状腺','左侧颈部','右侧颈部','残余','全切','结节','非结节','数量','多发结节类型','多发非结节类型','结节描述','非结节描述','第1个','第2个','第3个','第4个','第5个']

步骤2、输入文本预处理

步骤2.1、规范标点符号，区分中英文输入标点，尤其关于中英文句号的处理，若不规范符号数值型包含的小数点可能会影响分句结果；去掉括号，由于括号的存在可能会导致分词或分句时产生歧义，影响最终效果；此步将一些标点符号转换为对应需要的形式，

步骤2.2、简单分块，将文本分为甲状腺块，颈部块及甲状旁腺块，在每块句首补上上一次出现的顶部部位词(甲状腺、甲状旁腺、颈部)，利于提高扫描算法准确度；分段的标准主要结合了甲状腺超声报告的病理学知识，通过大量甲状腺超声报告的文本阅读，发现可以通过句子扫描，一般甲状腺，颈部及甲状旁腺的描述会在不同句子中呈现。若句子中包含“甲状腺”的则分为甲状腺块，若包含“甲状旁腺区”字样，则将句子分为甲状旁腺块，若包含‘颈’字的句子，则分为颈部块。

步骤3、分句方面主要根据句号、逗号、分号等进行分句处理。

例如对于上述例子报告中，可对其进行分句，处理时需要句号及分号短句分句，和逗号短句分句两种类型，具体如下示意：

其余部分也和上述分句方法相同。

步骤4、分词

步骤5、排序短句中的部位词：

根据部位词在语义树层次关系，给部位词分配权值，当短句中部位词不按照语义树层次顺序出现时，可以对待扫描词语的先后顺序进行合理调换顺序，使其保持与语义树层次顺序一致。即：使短句中，部位词的顺序，保持父节点在子节点之前的顺序。实际计算权值时先对词语进行模糊匹配可。本算法中给部位词赋权值的情况如下所示(具体取值可以根据实际情况进行调整)：

{'甲状腺':1,'甲状旁腺区':1,'颈部':1,'左叶':2,'右叶':2,'峡部':2,'左叶|左侧甲状腺':2,'右叶|右侧甲状腺':2,'左侧颈部':2,'右侧颈部':2,'残余':3,'全切':3,'之一|其一|另一|一|最大者':6}

步骤6.1、根据步骤5得到的排序好部位词的短句进行逐词扫描判断该词是逗号‘，’、‘。’、‘；’或者文字型。若为逗号或者分号，则进入步骤6.2，若为句号或者问号，则进入步骤6.3，若能够在语义树上得以匹配，则进入步骤6.4，否则返回0，对该词不做处理。

步骤6.2、对下一短句进行判断是否包含部位词，若包含则置逗号标志位为0，则下一短句属性及属性词均为该短句部位词子结点，并且将该部位词加入目前部位词集合以便于无部位词短句使用；否则置逗号标志位为1，该短句属性及属性值属于该句子中所有部位词子结点。

步骤6.3、对下一句子判断是否包含部位词，若包含则置句号标志位为1，此时部位词应与上句扫描的部位词作对比，若为上次扫描部位词的上层或同层，则进行擦除操作；否则置0，沿用上个句子的部位词。

步骤7、部位词匹配，标记及擦除

步骤7.1、若在子树匹配结果不为空，检测模糊匹配得到的列表中每个词语是否需要标记该词：若父结点被标记，则标记，若父结点未被标记，则判断父结点是否为抽象结点，若是则向上层递归判断，利用抽象结点特性进行选择，直至遇到已经标记父结点再逐级向下标记到该节点，否则该结点不标记。执行步骤9。

步骤7.2、若子树匹配结果为空，则扫描整个语义树，并标记。根据编码可得此次标记编码长度最长子结点，与上一个词标记结果的编码最长结点作对比可确定本词是否为上一个词的上层结点。若是，则进行擦除标记工作，并确定新的子树范围。并执行步骤7.1。若是同级结点，根据相关的符号标志位，判断若为短句内并列关系的同级部位词，则标记并扩充部位词列表，即下一次扫描范围为以两个部位词为根节点的子树的并集。若不是在同一个短剧内出现的部位词，则进行擦除标记的工作，确定新的子树范围，并执行步骤7.1。

步骤8、非部位词匹配，标记及擦除

步骤8.1、首先进行与步骤7.1同样操作，若本次没有结点被标记，则在最小已标记的部位词子树下，即使匹配的节点的父结点未被标记，只要父结点非部位词结点，该结点及其父结点也被标记。执行步骤9。若匹配到多个结点，并且位于同一部位词结点下，优先匹配与对应部位词结点层次近的结点或者编码序号小的结点。

步骤8.2、若子树匹配结果为空，则扫描整个语义树，并标记。根据编码可得此次标记编码长度最长子结点，与上一个词标记结果的编码最长结点作对比可确定本词是否为上一个词的子结点。若不是，则进行擦除标记工作，并确定新的子树范围。并执行步骤8.1。

步骤9、记录本次扫描结果

记录本次扫描结果，将本次需要添加的抽象结点和非抽象结点添加到输出子树的结点集合中，并将产生的抽象部位词记录，便于下一个待扫描词语的定位使用。直至所有词语扫描完毕。完善子树编码，输出子树。

例：甲状腺左、右叶大小及形态相等。其输出子树为图1。

Claims

1.一种基于语义树的甲状腺超声报告结构化扫描方法，其特征在于，包括以下步骤：

步骤1、前期准备工作，包括以下步骤：

步骤1.1、建立适用于甲状腺超声领域的自定义词典，加入jieba分词词库；

步骤2、输入文本预处理

步骤2.1、规范标点符号，区分中英文输入标点；

步骤3、分句，属性分配上不同的符号需要做不同的处理；

步骤4、分词

利用jieba分词包，将报告分词语形式；

步骤5、排序短句中的部位词：

步骤7、部位词匹配，标记及擦除：

步骤8、非部位词匹配，标记及擦除：

步骤9、记录本次扫描结果

2.如权利要求1所述的一种基于语义树的甲状腺超声报告结构化扫描方法，其特征在于，步骤2.2中，简单分块中将文本分为甲状腺块、颈部块及甲状旁腺块，则所述顶部部位词包括甲状腺、甲状旁腺、颈部。

3.如权利要求1所述的一种基于语义树的甲状腺超声报告结构化扫描方法，其特征在于，步骤3分句时考虑逗号短句、分号短句及句号长句。

4.如权利要求1所述的一种基于语义树的甲状腺超声报告结构化扫描方法，其特征在于，所述步骤6包括以下步骤：