CN109918672A

CN109918672A - 一种基于树结构的甲状腺超声报告的结构化处理方法

Info

Publication number: CN109918672A
Application number: CN201910188140.9A
Authority: CN
Inventors: 潘乔; 张敬谊; 王晔; 陈德华; 杜逸凡; 张鑫金
Original assignee: WANDA INFORMATION CO Ltd; Donghua University
Current assignee: WANDA INFORMATION CO Ltd; Donghua University
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-06-21
Anticipated expiration: 2039-03-13
Also published as: CN109918672B

Abstract

本发明涉及一种依照词性词典和依存关系树建立的树形结构化模板，并且参照此模板进行甲状腺超声报告的结构化的方法。总体流程主要包括词性词典建立模块、树形结构模板建立模块、树形模板调用进行结构化三个阶段。词性词典建立模块：对报告进行短句切分，进行短句聚类。然后使用命名实体识别技术，根据器官词ORG、位置词LOC、属性词ATT、属性名，建立完成词性词典。树形模板建立模块：使用依存句法分析得到每个短句的语义关系，使用词性词典得到每个词的词性。结合二者提出一个树形模板建立的流程。树形模板调用模块：使用树形模板进行文本结构化。

Description

一种基于树结构的甲状腺超声报告的结构化处理方法

技术领域

本发明涉及一种基于树结构模型的结构化系统，属于医疗设备技术领域。

背景技术

随着医疗信息化的快速发展，医疗机构在临床诊断的过程中产生了大量的原始电子病历数据，这些电子病历是记录患者诊断与治疗过程的重要信息，蕴含着丰富的知识。由于电子病历多为非结构化、叙述性文本，不能较好地存储、组织和管理病历中的临床信息，因此，未被结构化的电子病历文本很难被充分利用。所以目前对电子病历分析的研究主要集中在电子病历结构化的方面，通过对疾病的检查指标数据进行结构化，从杂乱、冗余、高复杂的非结构化电子病历数据获取规范、有价值的数据，最后利用人工智能算法对患者所患疾病进行诊断已成为研究热点。另外，如今大多数甲状腺电子病历仍是由自然语言书写而成，海量错综复杂的半结构化，甚至是非结构化的数据挑战着医疗行业。这使得尽管病人的数据充足，但难以从这些数据中获取知识，也使得资源难以合理地分配，给整个医疗行业的发展带来了巨大的压力。就甲状腺结节这一疾病而言，其患者的超声报告结果存储于叙述性医疗文本中，无法直接交由计算机识别分析。所以首要解决的问题就是实现中文文本的结构化。

通用语言与医学语言存在很大的不同。医疗文本专业性较强，会带有许多中英文的专业词语，并且医疗文本的结构也很大程度上取决于医生自身的书写习惯,因此不能直接使用一个公共的语言库对医学语言进行结构化处理分析。通常医疗文本结构化是基于构建本地医疗词典的方式，需要将类似的症状表现、体征描述、部位名称、诊断结论等医学术语提前定义出来，构建适用于特定医疗领域的实体词典库。国内外已经在使用医学字典结构化方面取得了不错的结果，并且随着人工智能机器学习的应用，使用命名实体识别技术建立医学字典领域也开展了许多的研究。

针对医疗文本的内在语义关系的处理也成为结构化的一个重要研究方向，如使用依存句法分析来结构化医疗文本，使用依存句法分析进行结构化是近年常用的方式之一，其基本原理是：不考虑各领域的专业知识的影响，从语言学的角度进行分析，对医疗短句进行词语切分，通过专业工具将切分结果构造成依存关系树等形式，判断词性及语义关系，构建自定义的信息抽取规则，进而实现信息抽取。

但是以上的医疗文本结构化的方法存在着一些不足：

(1)基于词典的方法无法匹配复杂语义结构。使用医学词典的医疗文本结构化方法流程清晰，抽取准确率较高，但是临床医疗文档结构多样，若只采用基于医学词典的方法无法记录每个词语之间的内在语义关系，例如在甲状腺超声报告中，存在对属性名“回声”的两种形容形式，分别是类似“回声分布均匀”的描述词在后，以及类似“密集中等回声”描述词在前，仅凭借从词典中匹配“回声”一词无法判断需要结构化的描述词前后位置。

(2)构建医疗专业词典需消耗大量人力与时间。建立一个特定领域的词典主要分为以下几个步骤：确定本体的专业领域和范畴；收集专业资源和重要术语；确定分类概念；细化分类概念层次；定义概念之间的关系及属性标注；逻辑语义关系判断。尤其是在确定分类概念和定义概念之间的关系及属性标注的时候需要大量的人力与时间并且在构建过程中难免会有遗漏的概念，更新词典也需要大量工作。

(3)单纯使用依存句法分析不能够将文本更细粒度切分。如使用依存句法分析并且结构化“甲状腺左右叶大小正常”，只能得出“甲状腺左右叶大小:正常”的结构化结果。这样的key值结果未切分完全，key仍含有丰富信息未被提取出来。

(4)结构化结果只是简单的key-value形式，没有层次结构，不便于理解。

发明内容

本发明的目的是：有效提高甲状腺电子病历中的结构化水平。

为了达到上述目的，本发明的技术方案是提供了一种依照词性词典和依存关系树建立的树形结构化模板，并且参照此模板进行甲状腺超声报告的结构化的方法。总体流程主要包括词性词典建立模块、树形结构模板建立模块、树形模板调用进行结构化三个阶段。词性词典建立模块：对报告进行短句切分，进行短句聚类。然后使用命名实体识别技术，根据器官词ORG、位置词LOC、属性词ATT、属性名，建立完成词性词典。树形模板建立模块：使用依存句法分析得到每个短句的语义关系，使用词性词典得到每个词的词性。结合二者提出一个树形模板建立的流程。树形模板调用模块：使用树形模板进行文本结构化。

本发明的具体技术方案是提供了一种基于树模型的甲状腺超声医疗检查文本报告的结构化处理方法，其特征在于，包括以下步骤：

步骤1、对甲状腺超声报告进行预处理，将甲状腺超声报告切分为多个短句；

步骤2、建立甲状腺超声报告词性词典，包括以下步骤：

步骤2.1、选取历史甲状腺超声报告作为数据训练集文件，利用步骤1的方法将数据训练集文件中的甲状腺超声报告切分为多个短句，形成短句集合训练数据；

步骤2.2、使用聚类算法对短句集合训练数据进行短句聚类，得到分类后的短句集合，随后使用分词包、医疗词库、停用词包对不同类别下的每一个短句进行分词，获得每一个短句所对应的所有词语；

步骤2.3、使用神经网络模型对不同类别中的所有词语进行命名实体识别，从而得到一个基于甲状腺超声报告的词性词典；

步骤3、基于词性词典、依存句法分析树建立结构化模板树，包括以下步骤：

步骤3.1、根据步骤2得到的词性词典得到甲状腺超声报告中每个词的词性关系，同时，根据依存句法分析树得到甲状腺超声报告中的每个词的语法关系；

步骤3.2、结合每个词的词性关系与每个词的语法关系的内在联系确立建立结构化模板树的规则；

步骤3.3、基于步骤3.2获得的规则，建立结构化模板树；

步骤4、实时获得甲状腺超声报告后，利用步骤3建立的结构化模板树对甲状腺超声报告进行结构化，得到结构化结果。

优选地，步骤2.2中：采用的聚类算法为BIRCH层次聚类算法；分词时采用JIEBA中文分词。

优选地，步骤2.3中，进行命名实体识别时，先对分词后的词语进行相关词性标注，随后使用LSTM-CRF模型算法进行命名实体识别。

优选地，步骤3.2获得的所述结构化模板树的规则为：所述结构化模板树为一个层次结构，所述结构化模板树的根节点到叶子节点为：器官词ORG、位置词LOC、属性词ATT、属性名VAL。

优选地，所述步骤3.3包括以下步骤：

步骤3.3.1、建立所述结构化模板树的第1、2层，遍历语义关系中的定中关系，并将词性是(器官词ORG，位置词LOC)的定中关系取出，分别作为第1层以及第2层；

步骤3.3.2、建立所述结构化模板树的最底2层，遍历语义关系中的主谓关系与动补关系，并将词性是(属性词ATT，属性名VAL)的主谓关系取出，以属性词ATT在上、属性名VAL在下的形式搭建所述结构化模板树的最后两层；

步骤3.3.3、建立所述结构化模板树的中间层，用于连接步骤3.3.1和步骤3.3.2所建立的结构化模板树，遍历语义关系的定中关系，将词性是(位置词LOC，属性词ATT)和(属性词ATT，属性词ATT)的定中关系提取出，分别用于连接上层的位置词LOC层与下层的属性名VAL层和上层的属性词ATT层和下层的属性名VAL层。

本发明具有如下优点：

(1)使用词性词典代替专业医用词典，只将词性作为词典的内容，降低构建词典的复杂度，减少建立词典的时间与人力成本。并且在构建词典过程中使用聚类算法，提高命名实体识别的覆盖率。

(2)结合词性词典与依存句法分析，克服只使用词典导致不同词语之间关系无法判断从而结构化不理想的情况，也可以克服只使用依存句法无法更加精确结构化的情况。

(3)使用树结构模板，将扁平的key-val形式的键值对结构化更细粒度，并且变成树状结构，层次更加清晰。

(4)提出了一个自动化建立树结构模型的方法，可以针对不同的医疗文本，快速建立对应的结构化模型，提高结构化效率。并且得到的结构化结果以树型的层次关系进行显示，更加直观便于理解。

附图说明

图1为本文采用的短句聚类的流程；

图2为本文采用的命名实体识别算法的算法流程图；

图3为对甲状腺超声报告例子进行依存句法分析得到的依存关系树；

图4为建立完成的甲状腺超声报告结构化模板；

图5为使用树形模板结构化流程图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

本发明的实施方式涉及一种利用树形模板对甲状腺超声报告进行结构化系统，这里不再赘述常见的数据预处理模块。系统主要部分包括：1)建立词性词典模块。2)树形模板建立模块。3)模板调用模块。

1.建立词性词典模块

为解决传统的通用词典构建繁琐、消耗大量人力与时间，并且使用起来过于死板的问题，本发明在文本结构化过程中，使用词性词典代替传统通用词典，仅在词典中记录每个词语的词性，如器官词、位置词、属性名、属性值。并且结合图1短句聚类过程中，为解决传统的聚类算法族类个数不确定时准确率低和多次试验随机选取簇心导致结果随机性较大的缺点，使用BIRCH层次聚类算法来进行短句的聚类，并且得到了良好的聚类结果。

结合图2，实现命名实体识别。在获得短句聚类结果后，再使用jieba分词对所有短句进行分词处理。将输入的向量数据传入LSTM中，通过LSTM中的门机制，决定要存储、更新以及删除的信息。针对LSTM会有多种变化形式，本发明采用Bi-LSTM网络。将上文提到的输入语句“回声分布均匀”通过character Embedding层转换为字向量，保存为(e₁，e₂，e₃，……e_n)格式，并将其输入Bi-LSTM层。对于给定的输入序列，针对每一个输入将其向量化成d维向量。前向LSTM采用从左向右的输入方式，针对每一字e_t得出相应的h_t，整个句子输出h_tl(h_1l，h_2l，h_3l，……h_nl)；后向LSTM采用从右向左的输入方式，针对每一个字e_t得出相应的h_t，整个句子输出h_tr(h_1r，h_2r，h_3r，……h_nr)；将h_tl和h_tr相加，即得出Bi-LSTM的输出结果h_t。这种方式针对输入序列中的每一个点均保存了其前向、后向信息。

2.树形模板建立模块

本发明提出一个自动建立模板树的算法，省去使用者在模板建立过程中受计算机领域知识的限制，并且结合词典的词性支持，依存句法的语义支持，树形模板树的层次性结构，能够更加准确，全面有层次，细粒度的切分报告，将结果以一种模板树的形式显示，使得最后得到的每一个结构化的结果，都尽可能的包含独立的较少的信息。

2.1建立模板树的依据

结合图3，本发明采用了依存树作为依存句法分析的存储结构。依存树充分考虑了句子中各个不同成分之间的关系，例如，主语谓语关系、动词宾语关系以及定语与中心语的关系。在分析句子中的不同成分之间的关系，并结合自然语言的处理，使得计算机能够对句子中不同成分之间的联系进行处理。

以超声报告中甲状腺腺体背景部分为例“甲状腺左右叶大小及形态正常，边界清楚，表面光滑，包膜完整”。其依存关系树如下图3所示，从图中可以看出依存关系树的根节点指向每句话的核心词，也就是报告中的属性值，每一个节点又有4项信息，分别是词原型、词在句中的位置、词性以及依存关系，其中依存关系表示节点中的词与父节点词之间的语义关系。甲状腺超声报告中属性值一般以形容词形式存在，作为依存树中的核心词，且依存树中核心词位于根节点，所以依存关系树的根节点就是属性值。甲状腺超声报告腺体背景部分中每一个描述指定部位或者描述结节部分的句子一般以单句的形式出现。在汉语中，单句的组成主要成分为：主语、谓语、宾语、定语、状语和补语，其中核心词是谓语。下图3中的依存关系树将句子中有语义关系的词用线相连，其中最重要的也是最常见的的语义关系有5种：主谓关系、动宾关系、定中关系、状中关系以及中补关系。依存关系树结构不仅反映了词之间的语义依赖，还给出每一个词语的词性以及不同的依赖类型。

2.2建立模板树的规则

结合表格1和表格2，即根据对医疗检查文本的依存句法分析结果以及词性分析结果，可以提出一个树结构模板的建立规则，此处选取甲状腺超声报告腺体背景部分为例进行解释说明。表1显示的是根据依存句法分析例句得到的依存树得到的语义关系。表2显示的是例句中每个词在词性词典中的词性。

表1

表2

结合表1与表2以及上文的依存关系树可以看出以下3个特点：

1.主谓关系，动补关系的二元组，都包含依存关系树的核心词；并且在词性词典中以ATT-VAL键值对形式对应存在。如果用词性代替语义关系二元组中词语，可以表示为(ATT,VAL)。

2.定中关系中的二元组，主要包括词性词典中的两种词性类型：ORG词与LOC词形成定中关系；LOC词和ATT词形成定中关系，同时也存在ATT词和ATT词形成定中关系(例如：大小和前后径)。如果用词性代替语义关系二元组中的词语，可以表示为(ORG,LOC)，(LOC,ATT)以及(ATT,ATT)。

3.在依存关系树中，从叶子节点往根节点遍历，遍历经过的关系是由：定中关系->主谓关系->核心词。如果用词性代替语义关系二元组的表达形式表示就是(ORG,LOC)->(LOC,ATT)->(ATT,VAL)。即特点一与特点二的两种表示是具有传递性的，可以连接起来。因此，结合以上的词性词典，语义关系和依存关系树的联系，可以推导出一套建立模板树的规则与若干定义：

规则1：词典中的器官词ORG与位置词LOC在报告中是存在于同一个短句中，且在报告中通常位于最开始的短句中，在依存树中是相邻层关系，因此在结构化模板树中，将器官词ORG定义为根节点，将器官内的位置词LOC定义为该根节点的子节点。并且将根节点定义为ORG层，根节点的下一层定义为LOC层。

规则2：词典中的属性名ATT与属性值VAL在报告中也是存在于一个短句中，同样在依存树中是上下层关系，且VAL是依存关系中的核心词，是结构化的目标，因此将模板树的最后一层定义为VAL层，倒数第二层定义为ATT层。

规则3：在语义关系中是定中关系的并且词性是(LOC，ATT)的两个词，用来连接模板树中ORG层以及ATT层。语义关系是定中关系的(ATT,ATT)的两个词，也可以用来连接模板树中不同的ATT层。

2.3结构化参数的确定

为了提高结构化的成功率，本发明采用了将结构化目标参数化的方法。在需要结构化的医疗检查文本中，结构化大多目标都是以key-value形式的键值对存在，但是也有少数是value-key形式，如在甲状腺超声报告中“内部呈密集中等回声”,“回声”的属性值“内部呈密集中等”是在回声之前。根据使用依存句法分析每一个键值对的语义关系，以及参照词性词典的词性，提出了一套键值对key，value位置前后关系的规则。根据这一套规则，可以将每一个属性对应的属性值的位置大致推断出来，从而提高结构化的精确程度。

结构化参数的确定。结构化参数是用来当模板树中的节点属性名在报告中被扫描确定后，属性名的属性值是在文本的前边还是后边进行一个判断。在分析了大量的结构化超声报告后，可以从中看出在依存树中的成分关系是主谓关系的，即属性名与属性值行成key-val键值对的，属性值都是在属性名的后边。例如，“形态饱满”和“大小正常”等。但是，医疗文本相对普通文本还有特殊性存在。比如“密集中等回声”情况，描述属性名“回声”和属性值“密集中等”虽然也是key-val形式的键值对，但是属性值却位于属性名的前部，所以，本发明提出一个使用正则表达式切分属性值时候，是匹配属性名前部的内容还是后部的内容的规范。在对照了上文的表1语义关系和表2的依存关系后，发现了属性名ATT与属性值VAL的2个特点：

1)如果属性名ATT与属性值VAL在短句中是主谓关系，那么在短句中ATT与VAL的位置关系一定是，ATT在前，VAL在后，形成标准的key-val形式的键值对。

2)如果属性名ATT与属性值VAL在短句中是定中关系或者动补关系，那么在短句中属性值VAL在属性名ATT前后位置取决于语义关系中VAL是属于支配词还是从属词。

结合以上两种特点，当匹配到模板树的属性名ATT这一层，开始寻找短句中对应的属性值VAL的时候要按照如下的规则进行判断：

规则1：如果被匹配的属性名ATT存在于语义关系中的主谓关系二元组中，那么使用正则切分的时候只要匹配属性名ATT，然后向后匹配短句寻找属性值VAL。自动生成匹配属性值ATT后部内容的正则表达式。

规则2：如果被匹配的属性名ATT存在于语义关系的定中关系与动补关系二元组中，那么就判断在二元组中，被匹配到的属性名ATT是属于支配词(二元组第一个词)还是从属词(二元组第二个词)。如果是属于支配词，那么属性值VAL就存在于短句中属性名ATT的后部；如果是属于从属词，那么属性值VAL就存在于短句中属性名ATT的前部。然后根据属性值VAL存在于前部或者后部，进行对应的正则表达式生成。

2.4自动化建立模板树

有了建立模板树的理论依据后，本发明提出了一个建立模板树的流程：

步骤1：建立模板树的第1，2层。遍历语义关系中的定中关系，并将词性是(ORG,LOC)的定中关系取出，分别作为第一层以及第二层的模板树。

步骤2：建立模板树的最底2层。遍历语义关系中的主谓关系与动补关系，并将词性是(ATT,VAL)的主谓关系取出，以ATT层在上，VAL在下的形式搭建模板树的最后两层。

步骤3：建立模板树的中间层，用于连接步骤1和步骤2所建立的模板树。遍历语义关系的定中关系，将词性是(LOC,ATT)和(ATT,ATT)的定中关系提取出，分别用于连接上层的LOC层与下层的VAL层和上层的ATT层和下层的VAL层。

3模板调用模块

结合图5，构建调用模板进行结构化模块。其中进行结构化模块的步骤主要由以下几步：获得ATT属性值对应的VAL属性名的步骤主要有以下几步：

1)将模板树对应的长句，进行短句切分处理。

2)对应每一个短句，依照词性词典进行分词处理，并且获得短句中的LOC方位词。

3)根据获得的LOC方位词来找到每一个短句在模板树中属于哪一个子模板树。

4)遍历子树进行子树的模板树匹配进行结构化处理

本发明提供了一种基于树模型的甲状腺超声医疗检查文本报告的结构化处理方法。实验证明，本发明使用的BIRCH层次聚类算法比传统KMEANS聚类算法的聚类结果更加优秀，提高了文本处理的准确度。同时结构化实验证明本文提出的方法能够针对甲状腺超声报告有良好的结构化处理效果，处理结果的平均准确度达到了90％；同时，本方法提出的属性模板可以被定期更新，应对医疗文本的更新，适应最新的医疗数据结构化的变化。

Claims

1.一种基于树模型的甲状腺超声医疗检查文本报告的结构化处理方法，其特征在于，包括以下步骤：

步骤2、建立甲状腺超声报告词性词典，包括以下步骤：

步骤3.3、基于步骤3.2获得的规则，建立结构化模板树；

2.根据权利要求1所述的基于树模型的甲状腺超声医疗检查文本报告的结构化处理方法，其特征在于，步骤2.2中：采用的聚类算法为BIRCH层次聚类算法；分词时采用JIEBA中文分词。

3.根据权利要求1所述的基于树模型的甲状腺超声医疗检查文本报告的结构化处理方法，其特征在于，步骤2.3中，进行命名实体识别时，先对分词后的词语进行相关词性标注，随后使用LSTM-CRF模型算法进行命名实体识别。

4.根据权利要求1所述的基于树模型的甲状腺超声医疗检查文本报告的结构化处理方法，其特征在于，步骤3.2获得的所述结构化模板树的规则为：所述结构化模板树为一个层次结构，所述结构化模板树的根节点到叶子节点为：器官词ORG、位置词LOC、属性词ATT、属性名VAL。

5.根据权利要求4所述的基于树模型的甲状腺超声医疗检查文本报告的结构化处理方法，其特征在于，所述步骤3.3包括以下步骤：