CN115048937A

CN115048937A - 医疗文本纠错方法、装置、存储介质及电子设备

Info

Publication number: CN115048937A
Application number: CN202210651940.1A
Authority: CN
Inventors: 马鑫; 畅绍政
Original assignee: Yidu Cloud Beijing Technology Co Ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-09-13

Abstract

本公开涉及自然语言处理领域，具体涉及一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备，该文本纠错方法包括：获取用户输入的待纠错医疗文本；将所述待纠错医疗文本进行短句划分，以得到多个短句；利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理，生成第一纠错文本；利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本。本公开能够提高医疗文本纠错的准确率。

Description

医疗文本纠错方法、装置、存储介质及电子设备

技术领域

本公开涉及自然语言处理领域，尤其涉及一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备。

背景技术

在实际的医疗诊断过程中，医生在写病历的时候很有可能写入一些错别字、词。但医学是很严谨的，病例中的错误字、词可能会对患者造成误诊，进而对患者造成伤害。并且在医疗数据生产的过程中，存在错误字、词的医疗文本也可能对之后的医学研究造成一定的干扰。因此，需要对医疗文本进行纠错。

文本纠错，是自然语言处理领域检测一段文字是否存在错别字、以及将错别字进行纠正的技术。现有的医疗文本纠错方案，解决方法主要包括两种：第一种是N元语法n-gram、kenlm等概率计算模型进行纠错。采用此类模型进行文本纠错，对于存在上下文依赖的语义错误处理不够准确，导致文本纠错的准确率不高。

第二种是基于深度学习的神经网络模型构建的自然语言处理(Nature LanguageProcess，NLP)模型。此类模型通常使用海量中文语料库作为训练集训练构建而成，能够对医疗文本中的常见语义错误进行纠正，但对于医疗文本中专业医疗词汇的错误不能有效地进行纠错。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种医疗文本纠错方法，包括：

获取用户输入的待纠错医疗文本；

将所述待纠错医疗文本进行短句划分，以得到多个短句；

利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理，生成第一纠错文本；

利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本。

在本公开的一种示例性实施例中，所述利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理，生成第一纠错文本，包括：

获取所述待纠错医疗文本各短句中每个字的N元语法概率得分；

根据所述每个字的N元语法概率得分，识别所述待纠错医疗文本是否存在错别字；

在所述待纠错医疗文本存在错别字时，纠正所述错别字，生成第一纠错文本。

在本公开的一种示例性实施例中，根据所述每个字的N元语法概率得分，识别所述待纠错医疗文本是否存在错别字，包括：

根据各所述短句中每个字的N元语法概率得分，确定各所述短句的中位值及各所述短句的平均绝对离差；

针对各所述短句中每个字，计算所述字的N元语法概率得分与所述平均绝对离差的差值；

计算所述差值与正态分布参数的乘积，并确定所述乘积与所述平均绝对离差的比值；

若所述比值大于预设阈值，且所述字的N元语法概率得分小于所述中位值，则确定所述字为错别字。

在本公开的一种示例性实施例中，所述纠正所述错别字包括：

获取所述错别字的拼音，并根据所述拼音获取所述错别字对应的纠错候选集，所述纠错候选集中包括至少一个纠错候选字；

使用目标字对所述错别字进行纠错，所述目标字为所述至少一个纠错候选字中使用频率最高的字。

在本公开的一种示例性实施例中，所述使用目标字对所述错别字进行纠错后，所述方法还包括：

获取所述目标字对应的第一困惑度，所述第一困惑度为使用所述目标字对所述错别字进行纠错后所述第一纠错文本的困惑度；

分别使用所述至少一个纠错候选字中除所述目标字外的其他字中的每个字对所述错别字进行纠正，并分别获取所述其他字中每个字对应的第二困惑度；

从所述第一困惑度和所述第二困惑度中确定最小困惑度；

使用所述最小困惑度对应的字对所述错别字进行纠正。

在本公开的一种示例性实施例中，所述方法还包括：

对各所述短句分别进行切词，以用于将各所述短句中的词与预设混淆列表作比对，所述预设混淆列表包括至少一个错误词；

若所述词存在于所述预设混淆列表，则将所述词作为错别字。

在本公开的一种示例性实施例中，所述对各所述短句分别进行切词后，所述方法还包括：

从所述各所述短句中的词中确定过滤词和白名单词，所述过滤词为数字、特殊字符中的至少一种；

将各所述短句中除所述过滤词汇和所述白名单词汇外的其他词作为错别字。

在本公开的一种示例性实施例中，所述语义错别字纠正模型包括检测网络、SoftMasking连接层和纠正网络；所述利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本包括：

将所述第一纠错文本输入检测网络，以根据所述第一纠错文本中所有字的上下文信息预测所述第一纠错文本中每个字出现语义错误的第一概率，所述上下文信息包括第一纠错文本中每个字与所述第一纠错文本中其他字的长期依赖关系及短期依赖关系；

将所述第一概率以及所述第一纠错文本输入所述Soft Masking连接层，对所述第一概率和所述第一纠错文本进行加权运算，得到加权结果；

将所述加权结果以及所述第一纠错文本输入纠正网络，以对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本。

在本公开的一种示例性实施例中，所述方法还包括：

从所述第二纠错文本中获取患者的患病信息以及用药信息；

根据所述患病信息确定与所述患病信息对应的用药规则；

根据所述用药规则和所述用药信息判断用药是否符合用药规则；

在确定符合用药规则时，将所述第二纠错文本作为新的医疗文本数据添加至所述医疗文本库；

在所述医疗文本库中添加的新的医疗文本数据的数量大于或者等于预设数量时，采用所述医疗文本库中添加的新的医疗文本数据训练所述词汇错别字纠正模型。

根据本公开的第二方面，提供一种医疗文本纠错装置，包括：

待纠错医疗文本获取模块，用于获取用户输入的待纠错医疗文本；

短句划分模块，用于将所述待纠错医疗文本进行短句划分，以得到多个短句；

词汇错别字纠正模块，用于利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理，生成第一纠错文本；

语义错别字纠正模块，用于利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述的医疗文本纠错方法的步骤。

根据本公开的第四方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求第一方面中任一项所述的医疗文本纠错方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

综上所述，本公开提供的方法，采用医疗文本库训练词汇错别字纠正模型，并采用词汇错别字纠正模型对待纠错医疗文本进行词汇纠正，能够对待纠错医疗文本中出现的医疗词汇的错误准确地进行纠正。通过将词汇错别字纠正模型对待纠错医疗文本纠错后的第一纠错文本输入语义错别字纠正模型中的检测网络，能够对待纠错医疗文本语义错误进行纠正，不仅能准确的纠正待纠错医疗文本中医疗词汇的错误，并且能纠正待纠错医疗文本语义的错误，提高了医疗文本纠错的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了本公开示例性实施例中一种医疗文本纠错方法的流程图；

图2示意性地示出了本公开示例性实施例中一种系统架构的示意图；

图3示意性地示出了本公开示例性实施例中一种词汇错别字纠正方法的流程图；

图4示意性地示出了本公开示例性实施例中一种语义错别字纠正方法的流程图；

图5示意性地示出了本公开示例性实施例中一种用药合规确定方法的流程图；

图6示意性地示出了本公开示例性实施例中一种词汇错别字纠正模型训练方法的流程图；

图7示意性地示出了本公开示例性实施例中一种医疗文本纠错装置的方框图；

图8示意性地示出了本公开示例性实施例中一种存储介质的示意图；

图9示意性地示出了本公开示例性实施例中一种电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

现有的医疗文本纠错方案，解决方法主要包括两种：第一种是n-gram、 kenlm等概率计算模型进行纠错。其一般过程为：首先进行错误检测。利用切词器，首先将文本切成独立的词组。从中找出错误词。其次，对错误词进行查找，筛选出对应的候选词集。最后，进行错误纠正。从候选词集中，进行遍历，挑出合适的替换词，使得文本整体的困惑度值最小，完成对文本的纠错。但是采用此类模型进行文本纠错，对于存在上下文依赖的语义错误处理不够准确，导致文本纠错的准确率不高。

第二种是基于深度学习的神经网络模型构建的自然语言处理(Nature LanguageProcess，NLP)模型，比如Transformer变换器模型、基于变换器的双向编码器表示技术(Bidirectional Encoder Representation from Transformers，Bert)模型、序列到序列(Sequence to Sequence，Seq2Seq) 模型、循环神经网络(Recurrent Neural Networks，RNN)模型等进行文本纠错。此类模型通常使用海量中文语料库作为训练集训练构建而成。但是，医疗文本中通常存在大量的医疗术语，海量的中文语料库通常只包含中文日常用语以及中文常见用语，并不包含专业的医疗词汇，导致此类模型并不能对医疗文本中专业医疗词汇的错误有效地进行纠错。

针对现有技术中存在的上述缺陷，本示例实施方式中首先提供了一种医疗文本纠错方法，可以对医疗文本中的医疗词汇错误以及语义错误进行纠错处理，提高医疗文本纠错的准确率。参考图1中所示，上述的医疗文本纠错方法可以包括以下步骤：

S1、获取用户输入的待纠错医疗文本。

本示例实施方式中，参考图2所示的系统架构，可以包括：用户侧移动终端设备201、用户侧智能终端设备204和服务器203等。用户侧移动终端设备201、用户侧智能终端设备204和服务器203之间，均可以通过网络202进行数据传输。网络可以包括各种连接类型，例如有线通信链路、无线通信链路等等。上述的医疗文本纠错方法可以执行在服务器端或者由用户侧的终端设备与服务器端协作执行。以上述的方法执行在服务器端为例，用户可以在终端设备侧向服务器端上传医疗文本纠错请求；在医疗文本纠错请求中可以包含待纠错医疗文本对应的完整数据。或者，也可以包括待纠错医疗文本中的标识信息；服务器端可以利用该标识信息向文本库中查询与该文本，作为待纠错医疗文本。例如，该待纠错医疗文本为病历，待纠错医疗文本中的标识信息可以为病历号。服务器端可以利用该病历号向文本库中查询与该病历，作为待纠错医疗文本。

S2、将所述待纠错医疗文本进行短句划分，以得到多个短句。

在本公开的示例性实施例中，可以根据所述待纠错医疗文本的标点符号对所述待纠错医疗文本进行短句划分。例如，所述待纠错医疗文本中存在3个“，”，一个“。”，则将所述待纠错医疗文本划分为4个短句。

S3、利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理，生成第一纠错文本。

在本公开的示例性实施例中，词汇错别字纠正模型可以为n-gram， kenlm等概率计算模型。在利用词汇错别字纠正模型对待纠错医疗文本进行词汇错别字纠正处理前，需要采用医疗文本库作为训练集将词汇错别字纠正模型训练完成，以达到对待纠错医疗文本中专业词汇进行纠错的目的。采用医疗文本库训练完成的词汇错别字纠正模型对医疗文本进行词汇错别字纠正处理，获取的第一纠错文本中已经有效地纠正了医疗词汇的错误。

S4、利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本。

在本公开的示例性实施例中，语义错别字纠正模型可以为基于深度学习的神经网络模型构建的NLP模型，比如Bert模型、Seq2Seq模型，Transformer模型、RNN模型等。此类模型能够很好的对文本中存在的上下文依赖的语义错误进行纠正。

在本公开的示例性实施例中，由于利用词汇错别字纠正模型对待纠错医疗文本中各短句进行语义错别字识别及纠正处理，生成的第一纠错文本已经有效纠正了医疗词汇错误，进而利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理，能够对第一纠错文本中的语义错误进行纠正处理。因此，语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理后，生成的第二纠错文本中，不仅纠正了医疗词汇的错误，并且有效地纠正了语义错误。

综上所述，公开的示例性实施例的医疗文本纠错方法，可以利用词汇错别字纠正模型对待纠错医疗文本进行词汇错别字识别及纠正处理，生成第一纠错文本；利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别纠正处理，生成第二纠错文本，不仅能对待纠错医疗文本中的专业词汇错别字进行纠正，还能够纠正待纠错医疗文本中与上下文依赖的语义错误，提高了医疗文本纠错的准确率。

在本公开的示例性实施例中，上述利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理，生成第一纠错文本，具体来说，如图3所示，可以包括：

S311、获取所述待纠错医疗文本各短句中每个字的N元语法概率得分。

在本公开的示例性实施例中，N为大于1或者等于1的整数。词汇错别字纠正模型可以为kenlm模型。通过kenlm模型能够获取所述待纠错医疗文本各短句中每个字的N元语法概率n-Gram得分。

S312、根据所述每个字的N元语法概率得分，识别所述待纠错医疗文本是否存在错别字。

具体的，根据各所述短句中每个字的N元语法概率得分，确定各所述短句的中位值及各所述短句的平均绝对离差；针对各所述短句中每个字，计算所述字的N元语法概率得分与所述平均绝对离差的差值；计算所述差值与正态分布参数的乘积，并确定所述乘积与所述平均绝对离差的比值；若所述比值大于预设阈值，且所述字的N元语法概率得分小于所述中位值，则确定所述字为错别字。

平均绝对离差定义为各数据与平均值的离差的绝对值的平均数。例如，待纠错医疗文本中某短句包括5个字，依次为：服用金因花。每个字的n-Gram得分分别为0.06、0.07、0.05、0.045、0.07。则该短句所有字n-Gram 的平均值为(0.06+0.07+0.05+0.045+0.07)/5＝0.058，“服用金因花”中每个字的n-Gram得分与平均值0.058的离差值的绝对值分别为0.002、0.012、 0.008、0.013、0.012，再确定0.002、0.012、0.008、0.013、0.012的平均数为0.0094，即为第一短句的平均绝对离差。而“金”字处于第一短句的中间位置，则“金”字的n-Gram得分0.005为该短句的中位值。确定该短句的中位值0.005和平均绝对离差0.0094后，计算该短句中每个字的 n-Gram得分与0.0094的差值，再计算该差值与标准正态分布中误差概率在75％内时对应的正态分布参数值0.6745的乘积，进而计算该乘积与平均绝对离差0.0094的比值。若该待短句中某个字对应的比值大于预设阈值且这个字的N元语法概率得分小于中位值0.005，则确定这个字为错别字。在本公开的示例性实施例中，该预设阈值设置为2。例如，“因”字对应的比值为2.5545大于2，且“因”字的n-Gram得分0.045小于中位值0.005，则确定“因”为错别字。

本公开的示例性实施例此处只是示例性地给出了预设阈值的取值，预设阈值还可以取其他值，本公开对预设阈值的取值不作具体限制。

S313、在所述待纠错医疗文本存在错别字时，纠正所述错别字，生成第一纠错文本。

在本公开的示例性实施例中，在所述待纠错医疗文本存在错别字时，可以获取所述错别字的拼音并根据所述拼音获取所述错别字对应的纠错候选集，所述纠错候选集中包括至少一个纠错候选字；使用目标字对所述错别字进行纠错，所述目标字为所述至少一个纠错候选字中使用频率最高的字。

在本公开的示例性实施例中，使用目标字对所述目标字进行纠错后，错误可能依然存在，即目标字也不是错别字对应的正确字。例如，目标字为“音”，使用“音”替换“服用金因花”中的“因”后，“音”字也为错别字。

为了解决使用目标字对所述字进行纠错后，错误可能依然存在的问题，在本公开的示例性实施例中，使用目标字对所述错别字进行纠错后，获取所述目标字对应的第一困惑度，所述第一困惑度为所述使用所述目标字对所述错别字进行纠错后所述第一纠错文本的困惑度；分别使用所述至少一个纠错候选字中除所述目标字外的其他字中的每个字对所述错别字进行纠正，并分别获取所述其他字中每个字对应的第二困惑度；从所述第一困惑度和所述第二困惑度中确定最小困惑度；使用所述最小困惑度对应的字对所述错别字进行纠正。在自然语言处理中，困惑度(perplexity)用来衡量语言模型优劣，当用语音模型处理后的短句出现的概率越高，短句的困惑度越小。

例如，使用目标字“音”对“因”纠正后，该短句的第一困惑度为0.053。至少一个纠错候选字中除目标字“音”外，还包括“银”、“印”、“阴”。使用“银”、“印”、“阴”分别对“因”纠正后，该短句的第二困惑度分别为0.031、0.068、0.073、0.081，第一困惑度和第二困惑度中的最小困惑度为0.031，最小困惑度对应的字为“银”，则使用“银”字对“因”进行纠正。

通过从所述第一困惑度和所述第二困惑度中确定最小困惑度；使用所述最小困惑度对应的字对所述错别字进行纠正，能够有效地解决使用目标字对所述错别字进行纠错后，错误依然存在的问题，提高了医疗文本纠错的准确率。

在本公开的示例性实施例中，在所述待纠错医疗文本存在错别字时，还可以在终端设备的交互界面中显示纠错候选集；根据用户在所述纠错候选集中选定的一候选字，对所述错别字进行纠错。

例如，将纠错候选集中的“音”、“银”、“印”、“阴”显示在终端设备的交互界面，以便用户从终端设备的交互界面上显示的纠错候选集中“音”、“银”、“印”、“阴”选定一候选字。例如，用户从中选定候选字“银”，则使用“银”对“因”进行纠正。

在本公开的示例性实施例中，除了根据本公开示例提供的图3实施例的方式从待纠错医疗文本识别错别字，还可以通过以下在本公开的两种示例性实施例中的方式从待纠错医疗文本识别错别字：

在本公开的第一种示例性实施例中，将所述待纠错医疗文本进行短句划分后，还可以对各所述短句分别进行切词，以用于将各所述短句中的词与预设混淆列表作比对，所述预设混淆列表包括至少一个错误词；若所述词存在于所述预设混淆列表，则将所述词作为错别字。

在本公开的第二种示例性实施例中，所述对各所述短句分别进行切词后，还可从所述各所述短句中的词中确定过滤词和白名单词，所述过滤词为数字、特殊字符中的至少一种；将各所述短句中除所述过滤词汇和所述白名单词汇外的其他词作为错别字。

在本公开的示例性实施例中，可以将根据N元语法概率得分确定的错别字、根据预设混淆列表确定的错别字、根据过滤词和白名单词确定的错别字均作为待纠错医疗文本中的错别字，这样，能够尽可能多的找出待纠错医疗文本中的错别字，以准确的对待纠错医疗文本进行纠错，提高医疗文本纠错的准确率。

在本公开的示例性实施例中，所述语义错别字纠正模型可以为 Soft-MaskedBert模型，包括检测网络、Soft Masking连接层和纠正网络。上述利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本，具体来说，如图4所示，可以包括：

S411、将所述第一纠错文本输入检测网络，以根据所述第一纠错文本中所有字的上下文信息预测所述第一纠错文本中每个字出现语义错误的第一概率，所述上下文信息包括第一纠错文本中每个字与所述第一纠错文本中其他字的长期依赖关系及短期依赖关系。

在本公开的示例性实施例中，检测网络由双向门控制循环单元 (BidirectionalGate Recurrent Unit，Bi-GRU)构成，Bi-GRU可以同时从两个方向对文本进行特征提取，且Bi-GRU包含单元重置门以及更新门。重单元重置门有助于根据从两个方向对文本提取的特征捕捉文本的文字序列里短期的依赖关系，更新门有助于根据从两个方向对文本提取的特征捕捉文本的文字序列里长期的依赖关系。因此，将第一纠错文本输入Bi-GRU，能够第一纠错文本中每个字与所述第一纠错文本中其他字的长期依赖关系及短期依赖关系，进而预测所述第一纠错文本中每个字出现语义错误会更加准确。

S412、将所述第一概率以及所述第一纠错文本输入Soft Masking连接层，对所述第一概率和所述第一纠错文本进行加权运算，得到加权结果。

在本公开的示例性实施例中，将所述第一纠错文本以及所述第一概率输入所述Soft Masking，对所述第一纠错文本中的各字以及其对应的进行加权求和，得到加权结果。若所述第一纠错文本某个字的第一概率越小，则与该字的加权结果对应的字符与该字越相似，该字错误的可能性越小。

S413、将所述加权结果以及所述第一纠错文本输入纠正网络，以对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本。

在本公开的示例性实施例中，纠正网络了Bert模型，包括有12个编码Encoder层，并在Bert模型后设置有softmax层。将各所述加权结果输入Bert模型，Bert模型中最后一个Encoder层输出各所述加权结果所有隐藏状态，再将各所述加权结果的所有隐藏状态与所述第一纠错文本中各字对应相加进行残差连接得到残差连接值，再将将残差连接值输入到全连接层中，该全连接层会使用隐藏状态将残差连接值映成为与候选字维数相同的向量。再利用softmax函数输出第一纠错文本中某个字可以被纠正为候选字的第二概率。若第二概率大于预设概率阈值，则确定该字为语义错别字并采用候选字纠正该字。

基于上述内容，在本公开的其他示例性实施方式中，参考图5所示，上述的方法还可以包括：

S511、从所述第二纠错文本中获取患者的标识信息；

S512、根据所述标识信息从数据库中获取该患者的历史病例；

S513、在终端设备的交互界面中显示该患者的历史病例。

在本公开的示例性实施例中，第二纠错文本为纠错后的医疗文本。因此，可以从第二纠错文本中获取患者的姓名、性别、年龄等标识信息，再根据患者的标识信息获取该患者的历史病例，再将患者的历史病例显示在终端设备的交互界面，以便医生根据该患者的历史病例对该患者进行诊断。

在本公开的示例性实施方式中，当医疗文本纠错方法应用终端设备时，终端设备获取该患者的历史病例后，直接在交互界面中显示该患者的历史病例。当医疗文本纠错方法应用服务器时，服务器获取该患者的历史病例后，需将该患者的历史病例发送至终端设备，以便终端设备在交互界面中显示该患者的历史病例。

基于上述内容，在本公开的其他示例性实施方式中，参考图6所示，上述的方法还可以包括：

S521、从所述第二纠错文本中获取患者的患病信息以及用药信息；

S522、根据所述患病信息确定与所述患病信息对应的用药规则；

S523、根据所述用药规则和所述用药信息判断用药是否符合用药规则。

具体来说，患病信息包括疾病名称、病症、病程中的至少一种，用药信息包括药品种类、药品名称、用药数量、用药时长以及用药时间中的至少一种。获取患者的患病信息以及用药信息后，从用药规则库获取与患病信息对应的用药规则。其中，用药规则库中存储有各种不同的患病信息对应的用药规则，该用药规则为与该患病信息对应的可使用药品种类、药品名称、用药数量、用药时长以及用药时间等信息。例如，患者的患病信息为轻度感冒、伴随鼻塞流涕。与该患病信息对应的用药规则为服用非处方类药物金银花颗粒，服用三天，早晚服用，每次服用一袋。若该患者的用药信息为服用非处方类药物金银花颗粒，服用三天，早晚服用，每次服用一袋，则确定符合用药规则。

S524、在确定符合用药规则时，将所述第二纠错文本作为新的医疗文本数据添加至所述医疗文本库；

S525、在所述医疗文本库中添加的新的医疗文本数据的数量大于或者等于预设数量时，采用所述医疗文本库中添加的新的医疗文本数据训练所述词汇错别字纠正模型。

例如，预设数量可以为100。当医疗文本库添加的新的医疗文本数据的数量大于或者等于100时，采用新的大于或者等于100条的医疗文本数据训练词汇错别字纠正模型，使得词汇错别字纠正模型不断地贴合医生的习惯。而不同的医院以及不同的医生使用各自的医疗文本库训练词汇错别字纠正模型，也使词汇错别字纠正模型更加灵活，也更加灵敏，能够满足不同医院以及医生的个性化需求。本公开的其他示例性实施方式此处只是示例性地给出了预设数量的取值，预设数量还可以取其他值，本公开对预设数量的取值不作具体限制。

综上所述，本公开提供的医疗文本纠错方法，采用持续更新的医疗文本库训练词汇错别字纠正模型，并采用词汇错别字纠正模型对待纠错医疗文本进行词汇纠正，能够对待纠错医疗文本中出现的医疗词汇的错误准确地进行纠正，且能满足不同医院以及医生的个性化需求。通过将词汇错别字纠正模型对待纠错医疗文本纠错后的第一纠错文本输入语义错别字纠正模型中的检测网络，能够获取第一纠错文本中每个字与所述第一纠错文本中其他字的长期依赖关系及短期依赖关系，进而准确的预测的第一纠错文本中每个字出现语义错误的概率。将所述第一概率输入soft-mask层，能够准确的从第一纠错文本中确定待纠错字。再将待纠错字输入纠正网络，能够准确的对待纠错字进行纠错。因此，本公开提供的医疗文本纠错方法，不仅能准确的纠正待纠错医疗文本中医疗词汇的错误，并且能纠正待纠错医疗文本语义的错误，医疗文本纠错的准确率高，同时还能满足不同医院以及医生的个性化需求。

在介绍了本发明示例性实施方式的医疗文本纠错方法之后，接下来，参考图7对本发明示例性实施方式的医疗文本纠错装置进行描述。

参考图7所示，本发明示例性实施方式的医疗文本纠错装置70可以包括：待纠错医疗文本获取模块701、短句划分模块702、词汇错别字纠正模块703以及语义错别字纠正模块704，其中：

待纠错医疗文本获取模块701，用于获取用户输入的待纠错医疗文本；

短句划分模块702，用于将所述待纠错医疗文本进行短句划分，以得到多个短句；

词汇错别字纠正模块703，用于利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理，生成第一纠错文本；

语义错别字纠正模块704，用于利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本。

在本公开的一种示例性实施例中，所述词汇错别字纠正模块包括：

语法概率得分获取单元(图中未示出)，用于获取所述待纠错医疗文本各短句中每个字的N元语法概率得分；

错别字识别单元(图中未示出)，用于根据所述每个字的N元语法概率得分，识别所述待纠错医疗文本是否存在错别字；

错别字纠正单元(图中未示出)，用于错别字在所述待纠错医疗文本存在错别字时，纠正所述错别字，生成第一纠错文本。

在本公开的一种示例性实施例中，所述错别字识别单元具体用于：

在本公开的一种示例性实施例中，所述错别字纠正单元包括：

目标字纠错单元(图中未示出)，用于获取所述错别字的拼音，并根据所述拼音获取所述错别字对应的纠错候选集，所述纠错候选集中包括至少一个纠错候选字；使用目标字对所述错别字进行纠错，所述目标字为所述至少一个纠错候选字中使用频率最高的字。

在本公开的一种示例性实施例中，所述装置还包括：

困惑度获取单元(图中未示出)，用于获取所述目标字对应的第一困惑度，所述第一困惑度为使用所述目标字对所述错别字进行纠错后所述第一纠错文本的困惑度；分别使用所述至少一个纠错候选字中除所述目标字外的其他字中的每个字对所述错别字进行纠正，并分别获取所述其他字中每个字对应的第二困惑度；从所述第一困惑度和所述第二困惑度中确定最小困惑度；使用所述最小困惑度对应的字对所述错别字进行纠正。

在本公开的一种示例性实施例中，所述装置还包括：

短句切词模块(图中未示出)，用于对各所述短句分别进行切词，以用于将各所述短句中的词与预设混淆列表作比对，所述预设混淆列表包括至少一个错误词；若所述词存在于所述预设混淆列表，则将所述词作为错别字。

在本公开的一种示例性实施例中，所述装置还包括：

过滤词确定单元(图中未示出)，用于从所述各所述短句中的词中确定过滤词和白名单词，所述过滤词为数字、特殊字符中的至少一种；将各所述短句中除所述过滤词汇和所述白名单词汇外的其他词作为错别字。

在本公开的一种示例性实施例中，所述语义错别字纠正模型包括检测网络、SoftMasking连接层和纠正网络；

所述语义错别字纠正模块包括：

概率获取单元(图中未示出)，用于将所述第一纠错文本输入检测网络，以根据所述第一纠错文本中所有字的上下文信息预测所述第一纠错文本中每个字出现语义错误的第一概率，所述上下文信息包括第一纠错文本中每个字与所述第一纠错文本中其他字的长期依赖关系及短期依赖关系；

加权结果获取单元(图中未示出)，用于将所述第一概率以及所述第一纠错文本输入所述Soft Masking连接层，对所述第一概率和所述第一纠错文本进行加权运算，得到加权结果；

第二纠错文本生成单元，用于将所述加权结果以及所述第一纠错文本输入纠正网络，以对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本。

在本公开的一种示例性实施例中，所述装置还包括：

词汇错别字纠正模型训练模块(图中未示出)，用于从所述第二纠错文本中获取患者的患病信息以及用药信息；根据所述患病信息确定与所述患病信息对应的用药规则；根据所述用药规则和所述用药信息判断用药是否符合用药规则；在确定用药合规时，将所述第二纠错文本作为新的医疗文本数据添加至所述医疗文本库；在所述医疗文本库中添加的新的医疗文本数据的数量大于或者等于预设数量时，采用所述医疗文本库中添加的新的医疗文本数据训练所述词汇错别字纠正模型。

由于本发明实施方式的文本纠错装置的各个功能模块与上述文本纠错方法发明实施方式中相同，因此在此不再赘述。

在介绍了本发明示例性实施方式的医疗文本纠错方法、医疗文本纠错装置之后，接下来，参考图8对本发明示例性实施方式的存储介质进行说明。

参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如 Java、C++等，还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在介绍了本发明示例性实施方式的存储介质之后，接下来，参考图9 对本发明示例性实施方式的电子设备进行说明。

图9显示的电子设备90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备90以通用计算设备的形式表现。电子设备90 的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元910执行，使得所述处理单元910执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元 910可以执行如图1中所示的步骤S1至步骤S4。

存储单元920可以包括易失性存储单元，例如随机存取存储单元 (RAM)9201和/或高速缓存存储单元9202，还可以进一步包括只读存储单元(ROM)9203。存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204，这样的程序模块9205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以包括数据总线、地址总线和控制总线。

电子设备90也可以与一个或多个外部设备100(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口950进行。电子设备90还包括显示单元940，其连接到输入/输出(I/O)接口950，用于进行显示。并且，电子设备90还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器960通过总线90与电子设备90 的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了文本纠错装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种医疗文本纠错方法，其特征在于，包括：

获取用户输入的待纠错医疗文本；

将所述待纠错医疗文本进行短句划分，以得到多个短句；

2.根据权利要求1所述的方法，其特征在于，所述利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理，生成第一纠错文本，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述每个字的N元语法概率得分，识别所述待纠错医疗文本是否存在错别字，包括：

4.根据权利要求2所述的方法，其特征在于，所述纠正所述错别字包括：

5.根据权利要求4所述的方法，其特征在于，所述使用目标字对所述错别字进行纠错后，所述方法还包括：

从所述第一困惑度和所述第二困惑度中确定最小困惑度；

使用所述最小困惑度对应的字对所述错别字进行纠正。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述对各所述短句分别进行切词后，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述语义错别字纠正模型包括检测网络、Soft Masking连接层和纠正网络；所述利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本包括：

将所述第一纠错文本输入所述检测网络，以根据所述第一纠错文本中所有字的上下文信息预测所述第一纠错文本中每个字出现语义错误的第一概率，所述上下文信息包括第一纠错文本中每个字与所述第一纠错文本中其他字的长期依赖关系及短期依赖关系；

将所述加权结果以及所述第一纠错文本输入所述纠正网络，以对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述第二纠错文本中获取患者的患病信息以及用药信息；

根据所述患病信息确定与所述患病信息对应的用药规则；

10.一种医疗文本纠错装置，其特征在于，包括：

词汇错别字纠正模块，用于利用词汇错别字纠正模型对待纠错医疗文本进行词汇错别字纠正处理，获取第一纠错文本；

语义错别字纠正模块，用于利用语义错别字纠正模型对所述第一纠错文本进行语义错别字纠正处理，获取第二纠错文本。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～9任一项所述方法的步骤。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～9任一项所述方法的步骤。