CN108257650A

CN108257650A - 一种应用于医技检查报告的智能纠错方法

Info

Publication number: CN108257650A
Application number: CN201711426176.3A
Authority: CN
Inventors: 贾禄帅; 王井俊; 简刚; 唐武斌
Original assignee: NINGBO SCIENCE AND TECHNOLOGY PARK TOMORROW MEDICAL NETWORK TECHNOLOGY Co Ltd
Current assignee: NINGBO SCIENCE AND TECHNOLOGY PARK TOMORROW MEDICAL NETWORK TECHNOLOGY Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-07-06

Abstract

本发明公开了一种应用于医技检查报告的智能纠错方法，包括预处理过程→训练过程→智能纠错过程，通过使用递归神经网络得到的纠错模型，可以在进行纠错时，既考虑到医技检查报告词库对检测的影响，又考虑到上下文的语义关系；同时在应用纠错模型过程中，采取不同的策略，当分词不在医技检查报告词库中时，由拼音和字形给出可替代当前分词的建议值，当分词在词库中时，由纠错模型判断是否进行纠错处理，并根据上下文语义关系给出相应结果。

Description

一种应用于医技检查报告的智能纠错方法

技术领域

本发明涉及一种纠错方法，特别是一种应用于医技检查报告的智能纠错方法。

背景技术

随着医院信息化建设的发展，检查报告书写的方式已逐步由单一的在纸上书写向无纸化过渡，报告的编辑，管理也更加高效；但不同地区、医院，报告系统中结构化模板的质量存在着较大差异，大多数报告医生还需要手动大量输入检查报告内容。因此，如何对手动输入的报告内容进行分析检测，将是进一步提高报告的准确性和严谨性的重要一步。

传统的解决方法是通过使用当前语境下的词典对输入信息进行分词，查看分词是否在词典中出现，如果没有出现，则证明存在错误录入信息，并对错误录入信息进行纠错。该技术主要的缺点是：查找错误分词时没有充分考虑录入文本的上下文语义信息；提供的预测文字只提供与错误分词的读音相同或者对应按键相同的词语，没有充分考虑上下文的信息。

发明内容

本发明的目的是为了解决上述现有技术的不足而提供一种利用递归神经网络算法充分联系上下文语义信息，并结合纠错策略对获得的医技检查报告进行智能纠错的方法。

为了实现上述目的，本发明所设计的一种应用于医技检查报告的智能纠错方法，包括以下步骤：

步骤1、预处理过程：

1.1、将整个医技检查报告语料库作为训练样本，采用基于字符串匹配和隐马尔可夫模型HMM的中文分词模型CSM对训练样本进行分词，并经过去重和编号处理后，生成医技检查报告词库MERL；其中隐马尔可夫模型HMM是一种统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。中文分词模型CSM是指将使用自然语言描述的语句按照预定义规则切分成多个单独的词语。

步骤2、训练过程：

2.1、采用中文分词模型CSM对训练样本进行分词，并依据医技检查报告词库MERL对训练样本进行数字化编码，若样本分词不在医技检查报告词库MERL中，则编码为0；

2.2、将编码后的训练样本按3:1:1的比例构建训练集、验证集和测试集；

2.3、将构建好的训练集、验证集和测试集送入到递归神经网络RNN-双层长短期记忆网络LSTM中进行训练，获得纠错模型CM；其中递归神经网络RNN是一种节点定向连接成环的人工神经网络，可以利用它内部的记忆来处理任意时序的输入序列。双层长短期记忆网络LSTM是一种层数为2层的时间递归神经网络。

步骤3、智能纠错过程：

3.1、经过训练得到纠错模型CM后，采用中文分词模型CSM对待检测的医技检查报告进行中文分词，获得n个分词，并用thresh来表示纠错阈值，用nIn来记录纠错过程中分词连续出现在医技检查报告词库MERL的数目；

3.2、依次对得到的分词进行分析纠错，若分词中含有标点符号，则不需要进行纠错；

3.3、若当前第i个分词不在医技检查报告词库MERL，则认为该分词是错误的，概率值P_i=0，并根据拼音和字形给出一组可替代错误分词的建议值；

3.4、若当前第i个分词在医技检查报告词库MERL中，则将i-nIn,…,i共计nIn+1个分词送入纠错模型CM得到第i+1个分词的概率值P_i+1;

若P_i+1＜thresh，则将第i+1个分词标注为错误，并给出由纠错模型CM得到的一组可替代错误分词的建议值，，接下来去分析第i+2个分词并将nIn=0；

若P_i+1≥thresh，则认为第i+1个分词是正确的，接下来根据i-nIn,…,i,i+1共计nIn+2个词去分析第i+2个分词，并将nIn =nIn+1；

3.5、当所有分词都分析完成后，智能纠错结束。

若在智能纠错过程中的第i个分词在医技检查报告词库MERL中，但概率值P_i不存在，则令P_i=1。

本发明得到的一种应用于医技检查报告的智能纠错方法，通过使用递归神经网络得到的纠错模型，可以在进行纠错时，既考虑到医技检查报告词库对检测的影响，又考虑到上下文的语义关系；同时在应用纠错模型过程中，采取不同的策略，当分词不在医技检查报告词库中时，由拼音和字形给出可替代当前分词的建议值，当分词在词库中时，由纠错模型判断是否进行纠错处理，并根据上下文语义关系给出相应结果。

附图说明

图1是应用于医技检查报告的智能纠错方法的流程图；

图2是应用于医技检查报告的智能纠错方法的训练流程图；

图3是应用于医技检查报告的智能纠错方法的纠错过程流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例1：

如图1-图3所示，本实施例提供的应用于医技检查报告的智能纠错方法，包括以下步骤：

步骤1、预处理过程：

1.1、将整个医技检查报告语料库作为训练样本，采用基于字符串匹配和隐马尔可夫模型HMM的中文分词模型CSM对训练样本进行分词，并经过去重和编号处理后，生成医技检查报告词库MERL；

步骤2、训练过程：

2.1、采用中文分词模型CSM对训练样本进行分词，并依据医技检查报告词库MERL对训练样本进行数字化编码，若样本分词不在医技检查报告词库MERL中，则编码为0；如样本“两肺纹理略增多，肺野内未见明显病变”应用中文分词模型CSM分词后的结果为“两肺纹理略增多，肺野内未见明显病变”，则相应数字化编码后的结果为“41 626 46 65 144 11 3 5 104”。

2.3、将构建好的训练集、验证集和测试集送入到递归神经网络RNN-双层长短期记忆网络LSTM中进行训练，获得纠错模型CM；

步骤3、智能纠错过程：

3.4、若当前第i个分词在医技检查报告词库MERL中，则将i-nIn,…,i共计nIn+1个分词送入纠错模型CM得到第i+1个分词的概率值P_i+1；

若P_i+1＜thresh，则将第i+1个分词标注为错误，并给出由纠错模型CM得到的一组可替代错误分词的建议值，并将nIn=0，接下来去分析第i+2个分词；

3.5、当所有分词都分析完成后，智能纠错结束。

具体纠错过程为样本“两肺纹理略增多，肺野内未见明显病变”应用中文分词模型CSM分词后的结果为“两肺纹理略增多，肺野内未见明显病变”，则相应数字化编码后的结果为“41 626 46 65 1 44 11 3 5 104”，其中“两肺”为第1个分词，nIn=0，其对应的“41”在医技检查报告词库MERL中，则将第1个分词“41”送入纠错模型CM得到第2个分词“626（纹理）”的概率值P₂，

如果P₂＜thresh，则将第2个分词“626（纹理）”标注为错误，并给出由纠错模型CM得到的一组可替代错误分词的建议值，并将nIn=0，接下来去分析第3个分词；

若P₂≥thresh，则第2个分词626（纹理）是正确的，接下来根据“41（两肺）”和“626（纹理）”共计2个词去分析第3个分词，并将nIn =nIn+1。

当所有分词都分析完成后，智能纠错结束。

Claims

1.一种应用于医技检查报告的智能纠错方法，其特征在于，包括以下步骤：

步骤1、预处理过程：

步骤2、训练过程：

步骤3、智能纠错过程：

若P_i+1＜thresh，则将第i+1个分词标注为错误，并给出由纠错模型CM得到的一组可替代错误分词的建议值，接下来去分析第i+2个分词，并将nIn=0；

3.5、当所有分词都分析完成后，智能纠错结束。

2.根据权利要求1所述的一种应用于医技检查报告的智能纠错方法，其特征在于：若在智能纠错过程中的第i个分词在医技检查报告词库MERL中，但概率值P_i不存在，则令P_i=1。