CN110705262B

CN110705262B - 一种改进的应用于医技检查报告的智能纠错方法

Info

Publication number: CN110705262B
Application number: CN201910841786.2A
Authority: CN
Inventors: 李文杰; 贾禄帅; 王小冬; 简刚; 唐武斌
Original assignee: Ningbo Science And Technology Park Tomorrow Medical Network Technology Co ltd
Current assignee: Ningbo Science And Technology Park Tomorrow Medical Network Technology Co ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2023-08-29
Anticipated expiration: 2039-09-06
Also published as: CN110705262A

Abstract

本发明公开了一种改进的应用于医技检查报告的智能纠错方法，包括词库构建过程、训练过程和智能纠错过程，不仅能够检测常规的拼写错误，另外通过使用训练循环卷积神经网络得到的纠错模型，考虑语序和词语搭配，标记出有问题的词组搭配，并依据拼音词库和词语关联词库，给出一组可替代错误分词的建议词。本发明不仅可以对拼写错误进行检查，而且可以通过训练得到的循环卷积神经网络模型对上下文的词语搭配进行检查；在应用纠错模型过程中，采取不同的策略，当分词被判定为错误时，由拼音词库DIC4和词语关联词库DIC5给出可替代当前分词的建议词，最终实现能够更加准确地对医技检查报告进行智能纠错。

Description

一种改进的应用于医技检查报告的智能纠错方法

技术领域

本发明涉及一种纠错的技术领域，特别是一种改进的应用于医技检查报告的智能纠错方法。

背景技术

当今医院逐渐向信息电子化方向发展，医技检查报告也在由纸张化向电子化方向过渡，但是随之带来了报告中拼写错误检查的问题。不同地区、医院，报告系统中结构化模板的存在着较大差异，大多数报告医生还需要手动大量输入检查报告内容。对报告内容的准确性进行快速分析检测成为了一个亟待解决的问题。

常用的解决方法是对输入信息进行分词，查看分词是否在词典中出现，如果没有出现，则认为录入信息错误，然后对信息进行纠错。该技术的存在的两个主要缺点是：（1）查寻错误分词时，仅仅针对可能的拼写错误进行了检查，没有充分考虑输入文本的上下文语义信息；（2）提供的纠错文字只包含了与错误分词的读音相同或相近的词语，没有考虑上下文词语的搭配。

发明内容

本发明的目的是为了解决上述现有技术的不足而提供一种不仅能够检测常规的拼写错误，而且通过利用训练得到的循环卷积神经网络模型充分联系上下文语义信息，并结合恰当的纠错策略对获得的医技检查报告的一种改进的应用于医技检查报告的智能纠错方法。

为了实现上述目的，本发明所设计的一种改进的应用于医技检查报告的智能纠错方法，包括以下步骤：

步骤1、词库构建过程：

1.1、将自定义的医学词典库导入jieba的自定义词典库，采用jieba分词方法对训练样本进行分词，对分词后的语料，经过去重和重编码处理后，生成医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5；

步骤2、通过训练过程获得纠错模型：

2.1、对分词后的语料依据句子分隔符进行分句，经过乱序和词语替换，产生语序语料和词语搭配语料集，然后依据编码词库DIC1进行数字化编码；

2.2、将构建好的两个语料集分别送入到循环卷积神经网络中进行训练，获得纠错模型Model1和Model2；

步骤3、通过训练过程及得到的纠错模型对报告进行智能纠错过程：

3.1、得到待检测报告后，先对待检测的医技检查报告进行中文分词，以空格为分隔，先通过单词搜索词库DIC2进行搜索，筛选出拼写有问题的词语，并进行标记；

3.2、然后对分词后的句子按照逗号和结束符号进行分句，用Model1和Model2模型对每个分句都进行检测，判断分句的正误；如果分句被判断为错误，依据词组搜索词库DIC3对分句中的词组进行二次检查，并标注出错误的词语和搭配不当的词组，若分词中含有数字、英文字母或特殊符号，则不需要进行纠错；

3.3、对于错误的词语，根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词语；

3.4、当所有分句都分析完成后，智能纠错结束。

本发明得到的一种改进的应用于医技检查报告的智能纠错方法，不仅可以对拼写错误进行检查，而且可以通过训练得到的循环卷积神经网络模型对上下文的词语搭配进行检查；在应用纠错模型过程中，采取不同的策略，当分词被判定为错误时，由拼音词库DIC4和词语关联词库DIC5给出可替代当前分词的建议词，最终实现能够更加准确地对医技检查报告进行智能纠错。

附图说明

图1是本实施例1中一种改进的应用于医技检查报告的智能纠错方法的整体流程图；

图2是本实施例1的模型训练流程图；

图3是本实施例1中报告纠错流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例1：

如图1所示，本实施例提供的一种改进的应用于医技检查报告的智能纠错方法，包括以下步骤：

步骤1、词库构建过程：

步骤2、通过训练过程获得纠错模型：

2.1、对分词后的语料依据句子分隔符进行分句，经过乱序和词语替换，产生语序语料和词语搭配语料集，然后依据编码词库DIC1进行数字化编码；具体依据，

3.4、当所有分句都分析完成后，智能纠错结束。

如图2所示，在本实施例中通过训练过程获得纠错模型的具体完成步骤如下：

A.首先对医技检查报告语料库进行处理，构建各种所需词库；如：医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5；

B. 采用导入了医学词库的jieba分词方法对训练样本进行分词，并依据医技检查报告编码词库DIC1对训练样本进行数字化编码预处理，若样本分词不在医技检查报告词库DIC1中，则编码为“<unk>”词语对应的编码；

C. 将构建好的训练集送入到RCNN中进行训练，获得纠错模型Model1和Model2；

如图3所示，在本实施例中纠错的具体步骤如下：

a. 获得待检测的医技检查报告；

b. 经过训练得到纠错模型Model1和Model2后，采用中文分词方法jieba对待检测的医技检查报告进行中文分词，然后依据逗号或中文结束标点进行分句；

b. 对分句中的中文单词通过单词搜索词库DIC2进行检查，跳过包含非中文的单词或标点，对不在词库中的中文单词进行标注，认为是错误的单词；

c. 使用词组搜索词库DIC3，依次对有问题分句中相邻的中文单词词组进行检查，对不在词组词库中的词组进行标注，认为是错误的单词；

d. 对于标注出的错误的单词，根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词；

e. 当所有分词都分析完成后，智能报告纠错结束。

因此综上所述本发明的完整步骤如下：

先利用导入了的自定义医学词典的jieba分词方法对得到的整个医技检查报告语料库进行分词，并经过去重和编码处理后，得到编码词库DIC1和单词搜索词库DIC2，然后根据语料中相关联的单词构建词组搜索词库DIC3，另外依据单词的拼音和上下文的单词分别构建了拼音词库DIC4和词语关联词库DIC5，其中jieba分词是python的一种分词方法，它内部通过隐马尔可夫HMM统计模型来实现；

然后将句子按照逗号和句子结束符号（如句号、感叹号、问号等）继续分隔成为一个个的分句，接下来对单句采用随机打乱和单词随机替换的方式，分别处理成为两种不同的训练数据集，即语序语料和词语搭配语料集；

1-1、对于随机打乱的处理方式，将处理后的原始单句作为正样本，将原始单句进一步处理，采用随机打乱的方式；如果仅仅是一个词语，那么略过不做处理；如果是两个词语，则交换位置，产生一个负样本；如果是三个及以上的词语，采用随机打乱的方式，产生4个负样本，负样本完全不同，并且不同于正样本；

1-2、对于单词随机替换的处理方式，仍然将处理后原始单句作为正样本，对句子中的单词采用随机替换单词的方式，对仅仅含有一个单词的分句，直接略过；对含有两个单词的分句，生成两个不同的负样本；对含有三个单词及以上的分句，随机单词替换产生3个负样本，负样本完全不同，并且不同于正样本；

然后，依据医技检查报告编码词库DIC1对训练样本进行数字化编码，若样本分词不在医技检查报告编码词库DIC1中，则编码为“<unk>”词语对应的编码；

用分词后的语料库随机抽取10%，构建测试集，测试集是用来对训练完成的模型进行检测，相当于是模型之前没有见过的句子，剩余部分用于训练将处理好的数据集送入循环卷积神经网络RCNN分别进行训练，获得两个纠错模型Model1和Model2，分别用于检测语序和词语搭配错误；其中卷积神经网络RCNN是一种由RNN和CNN结合构成的人工神经网络，此RNN（Recurrent Neural Network）是一种层数为2层的双向循环神经网络，能够最大程度的捕捉句子中的语义信息，然后引入了一个最大池化层，捕获文本中的关键字信息。通过结合循环结构和最大池化层，模型同时利用了RNN和CNN的优点，模型计算的时间复杂度为O(n)；

经过训练得到纠错模型Model1和Model2，采用jieba分词方法对待检测的医技检查报告进行中文分词，中间以空格分隔，然后对待检测的医技检查报告按照逗号和结束标点符号（如逗号、句号、问号和感叹号）进行分句；

对分句中的中文单词通过单词搜索词库DIC2进行检查，跳过包含非中文的单词或标点，对不在词库中的单词进行标注，认为是错误的单词，并进行标注；

使用纠错模型Model1和Model2依次对每个分句进行检查，可以筛选出来潜在有语序问题或单词搭配问题的分句；

使用词组搜索词库DIC3，依次对有问题分句中相邻的中文单词词组进行检查，对不在词组词库中的词组进行标注，认为是错误的单词，并进行标注；

对于标注出的错误的单词，根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词；

当所有分词都分析完成后，智能纠错结束。

基于实例的通过训练过程获得纠错模型如下：

依据医技检查报告编码词库DIC1对训练样本进行数字化编码，若样本分词不在医技检查报告编码词库DIC1中，则将单词对应为”<unk>”对应的编码；如样本“两肺门结构清晰，其内未见明显肿大淋巴结影。”应用jieba分词后的结果为“两肺门结构清晰，其内未见明显肿大淋巴结影。”，按照逗号和中文结束标点符号分隔后，两个分句分别为“两肺门结构清晰”、“其内未见明显肿大淋巴结影”，相应数字化编码后的结果为“65 3195”、“115 3 4 146”，标记为正样本。另外，将分词后句子经过乱序，进行编码后标记为负样本，这样得到了词语顺序训练集。类似地，将分词后句子随机替换单词后，进行编码后标记为负样本，这样就得到了词语搭配训练集。

将构建好的词语顺序训练集和词语搭配训练集分别送入到循环卷积神经网络RCNN中进行训练，获得纠错模型Model1和Model2；

基于实例的智能纠错过程如下：

对样本“两肺门结构清晰，其内未见明显肿大淋巴结影。”应用导入医学词库的jieba分词方法分词后的结果为“两肺门结构清晰，其内未见明显肿大淋巴结影。”。使用单词搜索词库DIC1对其中的每个单词进行检查，并标记出错误单词。

对分词后的结构，按照逗号和中文结束标点符号分隔后，两个分句分别为“两肺门结构清晰”、“其内未见明显肿大淋巴结影”，相应数字化编码后的结果为“65 31 95”、“115 3 4 146”。将“65 31 95”和“115 3 4 146”中数字按照空格分割后的结果送入到纠错模型Model1和Model2，返回结果均为正确，认为两句子的语序和词语搭配均不存在问题。假如其中一个模型对第一个分句返回结果为错误，对分句中的词语搭配进行检查，第一个分句中的词组分别为“两肺门结构、结构清晰”，然后依据词组词库进行检查，如果发现错误，标记出来该词组，认为该词组的搭配有问题；

对标记出来的错误词语，依据拼音词库DIC4和词语关联词库DIC5，给出一组可替代错误分词的建议词。当所有分词都分析完成后，智能纠错结束。

本实施例不仅可以对拼写错误进行检查，而且可以通过训练得到的循环卷积神经网络模型对上下文的词语搭配进行检查；在应用纠错模型过程中，采取不同的策略，当分词被判定为错误时，由拼音词库DIC4和词语关联词库DIC5给出可替代当前分词的建议词，最终实现能够更加准确地对医技检查报告进行智能纠错。

Claims

1.一种改进的应用于医技检查报告的智能纠错方法，其特征在于，包括以下步骤：

步骤1、词库构建过程：

步骤2、通过训练过程获得纠错模型：

3.4、当所有分句都分析完成后，智能纠错结束，

其中通过训练过程获得纠错模型的具体完成步骤如下：

A.首先对医技检查报告语料库进行处理，构建各种所需词库，包括医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5；

B.采用导入了医学词库的jieba分词方法对训练样本进行分词，并依据医技检查报告编码词库DIC1对训练样本进行数字化编码预处理，若样本分词不在医技检查报告词库DIC1中，则编码为“<unk>”词语对应的编码；

C.将构建好的训练集送入到RCNN中进行训练，获得纠错模型Model1和Model2；

而纠错的具体步骤如下：

a.获得待检测的医技检查报告；

b.经过训练得到纠错模型Model1和Model2后，采用中文分词方法jieba对待检测的医技检查报告进行中文分词，然后依据逗号或中文结束标点进行分句；

b.对分句中的中文单词通过单词搜索词库DIC2进行检查，跳过包含非中文的单词或标点，对不在词库中的中文单词进行标注，认为是错误的单词；

c.使用词组搜索词库DIC3，依次对有问题分句中相邻的中文单词词组进行检查，对不在词组词库中的词组进行标注，认为是错误的单词；

d.对于标注出的错误的单词，根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词；

e.当所有分词都分析完成后，智能报告纠错结束。