CN112837771A

CN112837771A - 一种融合文本分类与词法分析的体检异常项归一化方法

Info

Publication number: CN112837771A
Application number: CN202110095128.0A
Authority: CN
Inventors: 刘文丽; 李向阳
Original assignee: Shandong Health Medical Big Data Co ltd
Current assignee: Shandong Langchao Intelligent Medical Technology Co ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-25
Anticipated expiration: 2041-01-25
Also published as: CN112837771B

Abstract

本发明提供一种融合文本分类与词法分析的体检异常项归一化方法，属于自然语言处理的语义相似度技术领域，本发明通过文本分类技术对待归一词与归一词库中的词进行二分类。然后，对分出的两类词分别激进型归一化处理。本发明仅根据自身词特征完成体检异常项到知识库实体的自动匹配，从而解决体检报告异常结论与知识库异常结论类型实体的实体链接问题。

Description

一种融合文本分类与词法分析的体检异常项归一化方法

技术领域

本发明涉及自然语言处理的语义相似度技术领域，尤其涉及一种融合文本分类与词法分析的体检异常项归一化方法。

背景技术

在智能体检报告分析业务中，健康干预是指根据体检中的各项目结果，为用户提供检查项医学解释与健康建议。该过程的难点在于，不同体检机构的体检异常结论书写规范不同，因此很难将异常结论与知识库中的异常结论类型实体进行链接。

目前业界常用的实体链接方法是有基于语义相似度的实体链接方法、基于图嵌入的实体链接方法。基于语义相似度的实体链接方法，是指首先通过前后文语义对各词进行表示，然后通过距离计算确定各词相似度情况。该方法的优势在于充分考虑到了各词的语义信息，但该方法使用的前提是需要有完成的前后文信息。因此不适用于体检异常项归一化场景。基于图嵌入的实体链接方法，是指首先根据知识图谱中实体周围节点，完成中心实体的向量表示，然后通过距离计算确定各词的相似度。由于该方法需要先构建完备的知识图谱，因此不适用于体检异常项归一化场景。

鉴于体检异常项归一化问题中的归一化文本名称多为独立词汇，无上下文关联。因此在词汇相似度计算时使用不依赖上下文的编辑距离优于使用word2vec与欧氏距离组合的方式计算词汇相似度。然而，单纯进行编辑距离归于化存在如下问题，如“白细胞偏高”与“红细胞偏高”、“白细胞异常”，从编辑距离角度来看，“白细胞偏高”与“红细胞偏高”相似度更高，但实质上却是两个不同的异常项，不可将两部分归入一类异常项。

发明内容

为了解决以上技术问题，本发明提供了一种融合文本分类与词法分析的体检异常项归一化方法，旨在不依赖上下文信息，仅根据自身词特征完成体检异常项到知识库实体的自动匹配，从而解决体检报告异常结论与知识库异常结论类型实体的实体链接问题。

本发明的技术方案是：

一种融合文本分类与词法分析的体检异常项归一化方法，首先通过文本分类技术对待归一词与归一词库中的词进行二分类。然后，对分出的两类词分别激进型归一化处理。注意，待归一词是指体检结论原文中的异常情况描述，如“白细胞偏高”。归一词是指需要归一化的所有异常描述。归一词库是指由全部归一词组成的集合。发明具体过程如下

1文本分类

体检异常项词是指体检报告中对体检异常情况的描述。因此上文所指归一词、待归一词均为体检异常项词。体检异常项词按结构来分，可分为两类。一类是完整异常项词，后文统称为“一类词”。另一类是“实体词+程度”词模式，后文统称为“二类词”。二类词包含实体词与程度词两部分。实体词包括体征词、检验指标词、身体部位词。程度词是指描述临床所见内容增长或降低的词。

文本分类任务，就是基于文本分类模型将获得的体检异常项词进行以上两类文本的分类。具体模型构建过程见7.

2一类词归一化

在经过文本分类任务后，若待归一词为一类词，将被划分入一类词归一化流程进行归一化处理。

2.1一类待归一词与一类归一词库说明

经过文本分类任务划分后，进入一类词归一化流程的待归一词称为一类待归一词。一类归一词库是指文本分类任务中划分为一类的归一词的集合。

2.2编辑距离比较

在文本分类任务后，若待归一词被划分为一类词，即归为一类待归一词后，即可进入编辑距离比较任务。

该任务首先计算一类待归一词与一类归一词库中各词的编辑距离，然后选择编辑距离最小的一个归一词作为该一类待归一词所对应的归一词，进行输出。

3二类词归一化

在经过文本分类任务后，若待归一词为二类词，将被划分入二类词归一化流程进行归一化处理。

3.1二类待归一词1与二类归一词1库说明

经过文本分类任务划分后，进入二类词归一化流程的待归一词称为二类待归一词1。经过文本分类任务划分后，进入二类词归一化流程的归一词称为二类归一词1。由二类归一词组成的集合为二类归一词1库。

3.2词法分析

词法分析任务，是指通过词法分析模型对文本分类结果中的二类词进行实体词部分与程度词部分的识别。模型的输入为文本分类结果的二类词，包括二类待归一词1以及二类归一词1库中的词。输出为该以上输入各词的实体词部分与程度词部分，之间用“-”间隔。词法分析模型的具体构建方式见7.3部分。

3.3二类待归一词2与二类归一词2库说明

经过词法分析任务后，二类待归一词1与二类归一词1库中的二类归一词1将被拆分成“实体词-程度词”模式。其中，二类待归一词1转化为流程中的二类待归一词2。二类归一词1转化为二类归一词2。二类归一词2组成的集合为二类归一词2库。

3.4实体词编辑距离比较

实体词编辑距离比较流程，首先，将二类待归一词2中的实体词部分与二类归一词2库中词的实体词部分逐一进行编辑距离计算。然后，从二类归一词2库中筛选出编辑距离最小的实体词。

3.5二类归一词3库说明

经过实体词编辑距离比较后，从二类归一词2库中筛选出的实体词所对应的二类归一词2组成的库为二类归一词3库。二类归一词3库内的词也自动更改为二类归一词3。

3.6程度词分类库

程度词分类库，目前分为积极类程度词与消极类程度词。积极类程度词为“增高”、“偏高”等增长类程度词；消极类程度词为“减退”、“偏低”等降低类程度词。两类词分别编码为“11”、“22”，词库内容如下。

程度词分类库{11:['偏低','较低','减退','(偏低)','(偏低)','降低'],22:['偏高','较高','增高','(偏高)','(偏高)','升高']}

3.7程度词编码

程度词分类，是指依据程度词分类库，将二类待归一词2与二类归一词3库中的二类归一词3中的程度词部分进行编码处理。将消极程度词编码为11，积极程度词编码为22。经过程度词编码后二类待归一词2与二类归一词3将被处理成“实体词-11”或“实体词-22”

3.8二类待归一词3与二类归一词4库说明

经过程度词编码后的二类待归一词2称为二类待归一词3。经过程度词编码后的二类归一词3称为二类归一词4。二类归一词4组成的集合为二类归一词4库。

3.9程度词编辑距离比较

程度词编辑距离比较，首先，逐一计算二类待归一词3与二类归一词4库中各词之间的编辑距离。然后，从二类归一词4库中筛选出编辑距离最小的程度词所对应的二类归一词4。并将筛选出的二类归一词4所对应的归一词库中的归一词为最终的归一词。

本发明的有益效果是

其一，通过文本分类方法、实体词程度词词法分析方法，提升了基于编辑距离的相似度计算在体检异常项归一化场景中的匹配准确度。其二，该方法的提出解决了体检异常项与知识图谱体检异常类别实体的实体链接问题。其三，基于以上情况，进而推动了健康干预相关业务的研发工作。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种融合文本分类与词法分析的体检异常项归一化方法，总体实施流程如图1实施流程图所示。

1文本分类任务实施

文本分类任务为“实体词+程度”组合词与单一异常词，即上文提到的一类词与二类词的分类。该任务是基于文本分类模型完成的文本分类任务。模型构建及应用流程为：

1)样本采集。从当前数据库中，随机采集一类词与二类词各1000条，并进行样本二分类标注。

2)模型开发。在此可选用ernie、bert、fastText等NLP模型完成模型构建任务。因模型算法非发明内容，因此不做详细赘述。

3)模型应用。通过该分类模型，可将待归一词与归一词库中的每一个词均进行分类。接下来，若待归一词被判定为一类词，则与归一库中的一类词进入一类词归一化实施流程。若待归一词被判定为二类词，则与归一库中的二类词进行进入二类词归一化实施流程。

2一类词归一化实施

3二类词归一化实施

在二类词归一化实施流程中，主要的实施部分为词法分析模型的构建、实体词编辑距离比较、程度词编码、程度词编辑距离比较。

3.1词法分析模型构建与使用

词法分析任务仅针对上步中判别出的二类词进行处理，分为分字与词性标注两部分。

3.11)分字

分字任务可使用tokenize分字工具，并借助BERT内的词典完成分字。

3.12)词性标注

词性标注任务是指对分出的字进行实体词与程度词的BIO词性标注。实体词开端为B-S,实体词中间字为I-S,程度词开端为B-C,程度词中间字为I-C，其他部分字标注为O

模型构建流程如下

3.121)样本采集：从当前数据库中，随机采集二类词1000条，并对样本进行分字以及BIO词性标注。

3.122)模型构建。在此可选用ernie、bert、fastText等NLP模型完成模型构建任务。因模型算法非发明内容，因此不做详细赘述。

3.123)模型应用

在完成模型构建后，分别对上步中判别出的二类待归一词1与二类归一词1库中的二类词进行分词与词性标注工作。确定每个词的实体词部分与程度词部分内容。

3.2实体词编辑距离比较

基于上步结果，本流程对识别出的二类待归一词2中的实体词与二类归一2库中的实体词进行编辑距离计算，选择编辑距离最小实体词所对应的二类归一词2作为二类归一词3，进入接下来的流程。

3.3程度词编码

基于上步结果，依据程度词分类库编码，对二类待归一词2中的程度词与二类归一词3库中的程度词进行编码处理。将消极程度词编码为11，积极程度词编码为22。

3.4程度词编辑距离比较

基于上步结果，本流程对识别出的二类待归一词3中的程度词与二类归一4库中的程度词进行编辑距离计算，选择编辑距离最小程度词所对应的二类归一词4作为最终选定归一词，并输出该二类归一词4对应的归一词库中归一词。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种融合文本分类与词法分析的体检异常项归一化方法，其特征在于，

将体检异常项词分为两类；一类词和二类词；

首先通过文本分类对待归一词与归一词库中的词进行一类词和二类词的划分；然后，对分出的两类词分别归一化处理；其中，待归一词是指体检结论原文中的异常情况描述；归一词是指需要归一化的所有异常描述，归一词库是指由全部归一词组成的集合。

2.根据权利要求1所述的方法，其特征在于，

在经过文本分类任务后，若待归一词为一类词，将被划分入一类词归一化流程进行归一化处理；

3.根据权利要求2所述的方法，其特征在于，

一类词归一化流程具体步骤如下：

1.1)一类词归一化，在经过文本分类后，若待归一词为一类词，将被划分入一类词归一化流程进行归一化处理；

1.2)经过文本分类任务划分后，进入一类词归一化流程的待归一词列为一类待归一词；文本分类任务中划分为一类的归一词的集合列为一类归一词库；

1.3)编辑距离比较

首先计算一类待归一词与一类归一词库中各词的编辑距离，然后选择编辑距离最小的一个归一词作为该一类待归一词所对应的归一词，进行输出。

4.根据权利要求3所述的方法，其特征在于，

若待归一词被划分为一类词，即归为一类待归一词后，即可进入编辑距离比较任务。

5.根据权利要求2所述的方法，其特征在于，

二类词归一化流程具体步骤如下：

2.1)在经过文本分类任务后，若待归一词为二类词，将被划分入二类词归一化流程进行归一化处理；

2.2)经过文本分类任务划分后，进入二类词归一化流程的待归一词列为二类待归一词1；经过文本分类任务划分后，进入二类词归一化流程的归一词列为二类归一词1；由二类归一词组成的集合为二类归一词1库；

2.3)词法分析

通过词法分析模型对文本分类结果中的二类词进行实体词部分与程度词部分的识别；

2.4)经过词法分析任务后，二类待归一词1与二类归一词1库中的二类归一词1将被拆分成“实体词-程度词”模式；其中，二类待归一词1转化为二类待归一词2；二类归一词1转化为二类归一词2；二类归一词2组成的集合为二类归一词2库；

2.5)实体词编辑距离比较

2.6)经过实体词编辑距离比较后，从二类归一词2库中筛选出的实体词所对应的二类归一词2组成的库为二类归一词3库；二类归一词3库内的词也自动更改为二类归一词3；

2.7)程度词编码

程度词分类库，分为积极类程度词与消极类程度词；

依据程度词分类库，将二类待归一词2与二类归一词3库中的二类归一词3中的程度词部分进行编码处理；将消极程度词编码为11，积极程度词编码为22；经过程度词编码后二类待归一词2与二类归一词3将被处理成“实体词-11”或“实体词-22”；

2.8)经过程度词编码后的二类待归一词2列为二类待归一词3，经过程度词编码后的二类归一词3列为二类归一词4；二类归一词4组成的集合为二类归一词4库；

2.9)程度词编辑距离比较

首先，逐一计算二类待归一词3与二类归一词4库中各词之间的编辑距离；然后，从二类归一词4库中筛选出编辑距离最小的程度词所对应的二类归一词4，并将筛选出的二类归一词4所对应的归一词库中的归一词为最终的归一词。

6.根据权利要求5所述的方法，其特征在于，

步骤2.3)模型的输入为文本分类结果的二类词，包括二类待归一词1以及二类归一词1库中的词；输出为该以上输入各词的实体词部分与程度词部分，之间用“-”间隔。

7.根据权利要求5所述的方法，其特征在于，

步骤2.5)实体词编辑距离比较流程，首先，将二类待归一词2中的实体词部分与二类归一词2库中词的实体词部分逐一进行编辑距离计算；然后，从二类归一词2库中筛选出编辑距离最小的实体词。

8.根据权利要求5所述的方法，其特征在于，

词法分析任务对判别出的二类词进行处理，分为分字与词性标注两部分；

分字

分字任务可使用tokenize分字工具，并借助BERT内的词典完成分字；

词性标注

词性标注任务是指对分出的字进行实体词与程度词的BIO词性标注；实体词开端为B-S,实体词中间字为I-S,程度词开端为B-C,程度词中间字为I-C，其他部分字标注为O。

9.根据权利要求8所述的方法，其特征在于，

模型构建流程如下

1)样本采集：从当前数据库中，随机采集二类词1000条，并对样本进行分字以及BIO词性标注；

2)模型构建：在此选用NLP模型完成模型构建任务；

3)模型应用

在完成模型构建后，分别对上步中判别出的二类待归一词1与二类归一词1库中的二类词进行分词与词性标注工作；确定每个词的实体词部分与程度词部分内容。