CN110765836A

CN110765836A - 一种基于自然语言理解的文本定位方法和系统

Info

Publication number: CN110765836A
Application number: CN201910804622.2A
Authority: CN
Inventors: 李少宇
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2020-02-07
Anticipated expiration: 2039-08-28
Also published as: CN110765836B

Abstract

本发明提供了一种基于自然语言理解的文本定位方法，该基于自然语言理解的文本定位方法包括如下步骤：步骤(1)，通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容；步骤(2)，对每一个该缺陷项内容执行在该对象文本中的定位处理和邻近字符提取处理；步骤(3)，对该定位处理和该邻近字符提取处理的结果，执行自然语言理解处理，以此得到自然语言理解结果；步骤(4)，根据该自然语言理解结果，在该对象文本中进行相关缺陷项内容的标识处理。

Description

一种基于自然语言理解的文本定位方法和系统

技术领域

本发明涉及人工智能的技术领域，特别涉及一种基于自然语言理解的文本定位方法和系统。

背景技术

疾病诊断的智能化和病历的电子化已经成为医疗技术发展的主流方向，为了有效地降低电子病历存在的文书缺陷，还需要对电子病历进行相应的质控操作。目前而言，在电子病历的质控操作上，为了使机器确认的每一条质控缺陷项能够更好第在电子病历中显示出来和便于用户快速和准确定位缺陷所处的位置，现有技术通常采用通过缺陷项内容和电子病历内容全文搜索的方式来定位缺陷所处的位置，然后把缺陷位置和缺陷项进行连线和高亮显示。但是，在实际操作中，由于电子病历中缺陷位置不准确，例如当电子病历的内容中出现两个或者两个以上的缺陷内容时，其将无法真正地定位到其中一个缺陷内容，这导致无法实现对电子病历缺陷的唯一和准确位置定位。可见，现有技术急需一种能够在电子病历存在多种文书缺陷的情况下，对不同的缺陷内容进行快速和准确的位置定位方法和系统。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于自然语言理解的文本定位方法和系统，其中，该基于自然语言理解的文本定位方法包括如下步骤：步骤(1)，通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容；步骤(2)，对每一个该缺陷项内容执行在该对象文本中的定位处理和邻近字符提取处理；步骤(3)，对该定位处理和所述邻近字符提取处理的结果，执行自然语言理解处理，以此得到自然语言理解结果；步骤(4)，根据该自然语言理解结果，在该对象文本中进行相关缺陷项内容的标识处理；此外，该基于自然语言理解的文本定位系统包括质控查找模块、定位模块、字符提取模块、自然语言理解模块和标识模块；其中，该质控查找模块用于确定对象文本当前存在的一个或者多个缺陷项内容；该定位模块用于对每一个该缺陷项内容执行在所述对象文本中的定位处理；该字符提取模块用于对每一个该缺陷项内容执行在该对象文本中的邻近字符提取处理；该自然语言理解模块用于对该定位处理和该邻近字符提取处理的结果，执行自然语言理解处理，以此得到自然语言理解结果；该标识模块用于根据所述自然语言理解结果，在该对象文本中进行相关缺陷项内容的标识处理。可见，该基于自然语言理解的文本定位方法和系统有别于现有技术只是单纯通过电子病历文书缺陷本身的文字内容来识别和定位该文书缺陷，该方法和系统通过自然语言理解处理模式对大量的电子病历文书进行机器学习处理，并根据该机器学习处理的结果对不同文书缺陷进行识别，以此准确地定位每一个文书缺陷内容在电子病历中的具体位置，从而提高缺陷内容位置确定与判断的准确率，并且该自然语言理解处理模式不同于现有的缺陷内容文字识别，其能够在大量文书缺陷的基础上对不同缺陷内容执行进一步的甄别处理，以此根据电子病历上下文的关系来确定当前字段区域是否属于缺陷内容，这样能够有效地降低缺陷位置定位的误判率。

本发明提供一种基于自然语言理解的文本定位方法，其特征在于，所述基于自然语言理解的文本定位方法包括如下步骤：

步骤(1)，通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容；

步骤(2)，对每一个所述缺陷项内容执行在所述对象文本中的定位处理和邻近字符提取处理；

步骤(3)，对所述定位处理和所述邻近字符提取处理的结果，执行自然语言理解处理，以此得到自然语言理解结果；

步骤(4)，根据所述自然语言理解结果，在所述对象文本中进行相关缺陷项内容的标识处理；

进一步，在所述步骤(1)中，通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容具体包括，

步骤(101)，获取所述对象文本的文本语言类型、文本撰写类型和文本范围中的至少一者，以此确定所述对象文本对应的质控项目信息，其中，所述质控项目信息是采用固定规则和医疗知识图谱形结合算法模式获得的；

步骤(102)，根据所述质控项目信息，确定所述质控查找模式对所述对象文本的质控遍历方式；

步骤(103)，根据所述质控遍历方式，调整所述质控查找模式对所述对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者，以此确定所述一个或者多个缺陷项内容；

进一步，在所述步骤(2)中，对每一个所述缺陷项内容执行在所述对象文本中的定位处理和邻近字符提取处理具体包括，

步骤(201)，对每一个所述缺陷项内容进行分词处理，以此确定关于每一个所述缺陷项内容的词首、词中和词尾不同处的若干特征符；

步骤(202)，根据所述若干特征符，对所述对象文本的不同文本区段进行所述定位处理，以此得到与所述若干特征符中的每一个在所述不同文本区段的位置，并将所述位置确定为每一个所述缺陷项内容在所述对象文本中的位置；

步骤(203)，以每一个所述缺陷项内容在所述对象文本中的位置作为字符提取原点，并在所述字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现所述邻近字符提取处理；

进一步，在所述步骤(3)中，对所述定位处理和所述邻近字符提取处理的结果，执行自然语言理解处理，以此得到自然语言理解结果具体包括，

步骤(301)，将所述定位处理得到的关于每一个所述缺陷项内容在所述对象文本中的位置和所述邻近字符提取处理得到的若干邻近字符分别输入至自然语言理解模型的处理端口进行适应性的自然语言理解处理；

步骤(302)，所述自然语言理解模型根据所述位置和所述若干邻近字符，对每一个所述缺陷项内容进行相似度计算，所述相似度计算的公式如下

J＝|A∩B|÷|A∪B|

在上述公式中，J为每一个所述缺陷项内容的相似度系数，A为缺陷项内容，B为缺陷项内容在病历中的上下文，|A∩B|表示A和B的交集的字符串长度，|A∪B|表示A和B的并集的字符串长度，再根据所述相似度系数得到每一个所述缺陷项内容关于自然语言理解结果；

步骤(303)，根据所述自然语言理解结果，返回每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置；

进一步，在所述步骤(4)中，根据所述自然语言理解结果，在所述对象文本中进行相关缺陷项内容的标识处理具体包括，

步骤(401)，从所述自然语言理解结果中提取每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置，并根据所述文书内容信息及其文书内容位置生成标识指示信号；

步骤(402)，根据所述标识指示信号，通过所述质控查找模式在所述对象文本中对相应的缺陷项内容及缺陷项内容对应位置进行高亮标识处理。

本发明还提供一种基于自然语言理解的文本定位系统，其特征在于：

所述基于自然语言理解的文本定位系统包括质控查找模块、定位模块、字符提取模块、自然语言理解模块和标识模块；其中，

所述质控查找模块用于确定对象文本当前存在的一个或者多个缺陷项内容；

所述定位模块用于对每一个所述缺陷项内容执行在所述对象文本中的定位处理；

所述字符提取模块用于对每一个所述缺陷项内容执行在所述对象文本中的邻近字符提取处理；

所述自然语言理解模块用于对所述定位处理和所述邻近字符提取处理的结果，执行自然语言理解处理，以此得到自然语言理解结果；

所述标识模块用于根据所述自然语言理解结果，在所述对象文本中进行相关缺陷项内容的标识处理；

进一步，所述质控查找模块包括质控项目信息获取子模块、质控方式确定子模块和缺陷项内容确定子模块；其中，

所述质控项目信息获取子模块用于根据所述对象文本的文本语言类型、文本撰写类型和文本范围中的至少一者，以此确定所述对象文本对应的质控项目信息；

所述质控方式确定子模块用于根据所述质控项目信息，确定所述质控查找模式对所述对象文本的质控遍历方式；

所述缺陷项内容确定子模块用于根据所述质控遍历方式，调整所述质控查找模式对所述对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者，以此确定所述一个或者多个缺陷项内容；

进一步，所述基于自然语言理解的文本定位系统还包括分词处理模块；其中，

所述分词处理模块用于对每一个所述缺陷项内容进行分词处理，以此确定关于每一个所述缺陷项内容的词首、词中和词尾不同处的若干特征符；

所述定位模块用于根据所述若干特征符，对所述对象文本的不同文本区段进行所述定位处理，以此得到与所述若干特征符中的每一个在所述不同文本区段的位置，并将所述位置确定为每一个所述缺陷项内容在所述对象文本中的位置；

所述字符提取模块用于以每一个所述缺陷项内容在所述对象文本中的位置作为字符提取原点，并在所述字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现所述邻近字符提取处理；

进一步，所述自然语言理解模块还用于根据所述定位处理得到的关于每一个所述缺陷项内容在所述对象文本中的位置和所述邻近字符提取处理得到的若干邻近字符，对每一个所述缺陷项内容进行文本语法错误、文本逻辑错误和文本用字错误中的至少一者进行自然语言理解处理，以此得到每一个所述缺陷项内容关于自然语言理解结果；

进一步，所述自然语言理解模块还用于从所述自然语言理解结果中提取每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置，并根据所述文书内容信息及其文书内容位置生成标识指示信号；

所述标识模块还用于根据所述标识指示信号，通过所述质控查找模式在所述对象文本中对相应的缺陷项内容及缺陷项内容对应位置进行高亮标识处理。

相比于现有技术，该基于自然语言理解的文本定位方法和系统有别于现有技术只是单纯通过电子病历文书缺陷本身的文字内容来识别和定位该文书缺陷，该方法和系统通过自然语言理解处理模式对大量的电子病历文书进行机器学习处理，并根据该机器学习处理的结果对不同文书缺陷进行识别，以此准确地定位每一个文书缺陷内容在电子病历中的具体位置，从而提高缺陷内容位置确定与判断的准确率，并且该自然语言理解处理模式不同于现有的缺陷内容文字识别，其能够在大量文书缺陷的基础上对不同缺陷内容执行进一步的甄别处理，以此根据电子病历上下文的关系来确定当前字段区域是否属于缺陷内容，这样能够有效地降低缺陷位置定位的误判率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于自然语言理解的文本定位方法的流程示意图。

图2为本发明提供的一种基于自然语言理解的文本定位系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的一种基于自然语言理解的文本定位方法的流程示意图。该基于自然语言理解的文本定位方法包括如下步骤：

步骤(1)，通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容。

优选地，在该步骤(1)中，通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容具体包括，

步骤(101)，获取该对象文本的文本语言类型、文本撰写类型和文本范围中的至少一者，以此确定该对象文本对应的质控项目信息，其中，该质控项目信息是采用固定规则和医疗知识图谱形结合算法模式获得的；

步骤(102)，根据该质控项目信息，确定该质控查找模式对该对象文本的质控遍历方式；

步骤(103)，根据该质控遍历方式，调整该质控查找模式对该对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者，以此确定该一个或者多个缺陷项内容。

步骤(2)，对每一个该缺陷项内容执行在该对象文本中的定位处理和邻近字符提取处理。

优选地，在该步骤(2)中，对每一个该缺陷项内容执行在该对象文本中的定位处理和邻近字符提取处理具体包括，

步骤(201)，对每一个该缺陷项内容进行分词处理，以此确定关于每一个该缺陷项内容的词首、词中和词尾不同处的若干特征符；

步骤(202)，根据该若干特征符，对该对象文本的不同文本区段进行该定位处理，以此得到与该若干特征符中的每一个在该不同文本区段的位置，并将该位置确定为每一个该缺陷项内容在该对象文本中的位置；

步骤(203)，以每一个该缺陷项内容在该对象文本中的位置作为字符提取原点，并在该字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现该邻近字符提取处理。

步骤(3)，对该定位处理和该邻近字符提取处理的结果，执行自然语言理解处理，以此得到自然语言理解结果。

优选地，在该步骤(3)中，对该定位处理和该邻近字符提取处理的结果，执行自然语言理解处理，以此得到自然语言理解结果具体包括，

步骤(301)，将该定位处理得到的关于每一个该缺陷项内容在该对象文本中的位置和该邻近字符提取处理得到的若干邻近字符分别输入至自然语言理解模型的处理端口进行适应性的自然语言理解处理；

步骤(302)，该自然语言理解模型根据该位置和该若干邻近字符，对每一个该缺陷项内容进行相似度计算，该相似度计算的公式如下

J＝|A∩B|÷|A∪B|

在上述公式中，J为每一个该缺陷项内容的相似度系数，A为缺陷项内容，B为缺陷项内容在病历中的上下文，|A∩B|表示A和B的交集的字符串长度，|A∪B|表示A和B的并集的字符串长度，再根据该相似度系数得到每一个该缺陷项内容关于自然语言理解结果；

步骤(303)，根据该自然语言理解结果，返回每一个该缺陷项内容在该对象文本中的文书内容信息及其文书内容位置。

步骤(4)，根据该自然语言理解结果，在该对象文本中进行相关缺陷项内容的标识处理。

优选地，在该步骤(4)中，根据该自然语言理解结果，在该对象文本中进行相关缺陷项内容的标识处理具体包括，

步骤(401)，从该自然语言理解结果中提取每一个该缺陷项内容在该对象文本中的文书内容信息及其文书内容位置，并根据该文书内容信息及其文书内容位置生成标识指示信号；

步骤(402)，根据该标识指示信号，通过该质控查找模式在该对象文本中对相应的缺陷项内容及缺陷项内容对应位置进行高亮标识处理。

参阅图2，为本发明实施例提供的一种基于自然语言理解的文本定位系统的结构示意图。该基于自然语言理解的文本定位系统包括质控查找模块、定位模块、字符提取模块、自然语言理解模块和标识模块；其中，

该质控查找模块用于确定对象文本当前存在的一个或者多个缺陷项内容；

该定位模块用于对每一个该缺陷项内容执行在该对象文本中的定位处理；

该字符提取模块用于对每一个该缺陷项内容执行在该对象文本中的邻近字符提取处理；

该自然语言理解模块用于对该定位处理和该邻近字符提取处理的结果，执行自然语言理解处理，以此得到自然语言理解结果；

该标识模块用于根据该自然语言理解结果，在该对象文本中进行相关缺陷项内容的标识处理。

优选地，该质控查找模块包括质控项目信息获取子模块、质控方式确定子模块和缺陷项内容确定子模块；

优选地，该质控项目信息获取子模块用于根据该对象文本的文本语言类型、文本撰写类型和文本范围中的至少一者，以此确定该对象文本对应的质控项目信息；

优选地，该质控方式确定子模块用于根据该质控项目信息，确定该质控查找模式对该对象文本的质控遍历方式；

优选地，该缺陷项内容确定子模块用于根据该质控遍历方式，调整该质控查找模式对该对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者，以此确定该一个或者多个缺陷项内容；

优选地，该基于自然语言理解的文本定位系统还包括分词处理模块；

优选地，该分词处理模块用于对每一个该缺陷项内容进行分词处理，以此确定关于每一个该缺陷项内容的词首、词中和词尾不同处的若干特征符；

优选地，该定位模块用于根据该若干特征符，对该对象文本的不同文本区段进行该定位处理，以此得到与该若干特征符中的每一个在该不同文本区段的位置，并将该位置确定为每一个该缺陷项内容在该对象文本中的位置；

优选地，该字符提取模块用于以每一个该缺陷项内容在该对象文本中的位置作为字符提取原点，并在该字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现该邻近字符提取处理；

优选地，该自然语言理解模块还用于根据该定位处理得到的关于每一个该缺陷项内容在该对象文本中的位置和该邻近字符提取处理得到的若干邻近字符，对每一个该缺陷项内容进行文本语法错误、文本逻辑错误和文本用字错误中的至少一者进行自然语言理解处理，以此得到每一个该缺陷项内容关于自然语言理解结果；

优选地，该自然语言理解模块还用于从该自然语言理解结果中提取每一个该缺陷项内容在该对象文本中的文书内容信息及其文书内容位置，并根据该文书内容信息及其文书内容位置生成标识指示信号；

优选地，该标识模块还用于根据该标识指示信号，通过该质控查找模式在该对象文本中对相应的缺陷项内容及缺陷项内容对应位置进行高亮标识处理。

从上述实施例可以看出，该基于自然语言理解的文本定位方法和系统有别于现有技术只是单纯通过电子病历文书缺陷本身的文字内容来识别和定位该文书缺陷，该方法和系统通过自然语言理解处理模式对大量的电子病历文书进行机器学习处理，并根据该机器学习处理的结果对不同文书缺陷进行识别，以此准确地定位每一个文书缺陷内容在电子病历中的具体位置，从而提高缺陷内容位置确定与判断的准确率，并且该自然语言理解处理模式不同于现有的缺陷内容文字识别，其能够在大量文书缺陷的基础上对不同缺陷内容执行进一步的甄别处理，以此根据电子病历上下文的关系来确定当前字段区域是否属于缺陷内容，这样能够有效地降低缺陷位置定位的误判率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于自然语言理解的文本定位方法，其特征在于，所述基于自然语言理解的文本定位方法包括如下步骤：

步骤(4)，根据所述自然语言理解结果，在所述对象文本中进行相关缺陷项内容的标识处理。

2.如权利要求1所述的基于自然语言理解的文本定位方法，其特征在于：在所述步骤(1)中，通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容具体包括，

步骤(103)，根据所述质控遍历方式，调整所述质控查找模式对所述对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者，以此确定所述一个或者多个缺陷项内容。

3.如权利要求1所述的基于自然语言理解的文本定位方法，其特征在于：在所述步骤(2)中，对每一个所述缺陷项内容执行在所述对象文本中的定位处理和邻近字符提取处理具体包括，

步骤(203)，以每一个所述缺陷项内容在所述对象文本中的位置作为字符提取原点，并在所述字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现所述邻近字符提取处理。

4.如权利要求1所述的基于自然语言理解的文本定位方法，其特征在于：在所述步骤(3)中，对所述定位处理和所述邻近字符提取处理的结果，执行自然语言理解处理，以此得到自然语言理解结果具体包括，步骤(301)，将所述定位处理得到的关于每一个所述缺陷项内容在所述对象文本中的位置和所述邻近字符提取处理得到的若干邻近字符分别输入至自然语言理解模型的处理端口进行适应性的自然语言理解处理；步骤(302)，所述自然语言理解模型根据所述位置和所述若干邻近字符，对每一个所述缺陷项内容进行相似度计算，所述相似度计算的公式如下J＝|A∩B|÷|A∪B|

步骤(303)，根据所述自然语言理解结果，返回每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置。

5.如权利要求1所述的基于自然语言理解的文本定位方法，其特征在于：在所述步骤(4)中，根据所述自然语言理解结果，在所述对象文本中进行相关缺陷项内容的标识处理具体包括，

6.一种基于自然语言理解的文本定位系统，其特征在于：

所述标识模块用于根据所述自然语言理解结果，在所述对象文本中进行相关缺陷项内容的标识处理。

7.如权利要求6所述的基于自然语言理解的文本定位系统，其特征在于：所述质控查找模块包括质控项目信息获取子模块、质控方式确定子模块和缺陷项内容确定子模块；其中，

所述缺陷项内容确定子模块用于根据所述质控遍历方式，调整所述质控查找模式对所述对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者，以此确定所述一个或者多个缺陷项内容。

8.如权利要求6所述的基于自然语言理解的文本定位系统，其特征在于：所述基于自然语言理解的文本定位系统还包括分词处理模块；其中，所述分词处理模块用于对每一个所述缺陷项内容进行分词处理，以此确定关于每一个所述缺陷项内容的词首、词中和词尾不同处的若干特征符；所述定位模块用于根据所述若干特征符，对所述对象文本的不同文本区段进行所述定位处理，以此得到与所述若干特征符中的每一个在所述不同文本区段的位置，并将所述位置确定为每一个所述缺陷项内容在所述对象文本中的位置；

所述字符提取模块用于以每一个所述缺陷项内容在所述对象文本中的位置作为字符提取原点，并在所述字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现所述邻近字符提取处理。

9.如权利要求6所述的基于自然语言理解的文本定位系统，其特征在于：所述自然语言理解模块还用于根据所述定位处理得到的关于每一个所述缺陷项内容在所述对象文本中的位置和所述邻近字符提取处理得到的若干邻近字符，对每一个所述缺陷项内容进行文本语法错误、文本逻辑错误和文本用字错误中的至少一者进行自然语言理解处理，以此得到每一个所述缺陷项内容关于自然语言理解结果。

10.如权利要求9所述的基于自然语言理解的文本定位系统，其特征在于：所述自然语言理解模块还用于从所述自然语言理解结果中提取每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置，并根据所述文书内容信息及其文书内容位置生成标识指示信号；