CN110765836A - 一种基于自然语言理解的文本定位方法和系统 - Google Patents

一种基于自然语言理解的文本定位方法和系统 Download PDF

Info

Publication number
CN110765836A
CN110765836A CN201910804622.2A CN201910804622A CN110765836A CN 110765836 A CN110765836 A CN 110765836A CN 201910804622 A CN201910804622 A CN 201910804622A CN 110765836 A CN110765836 A CN 110765836A
Authority
CN
China
Prior art keywords
text
natural language
content
language understanding
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910804622.2A
Other languages
English (en)
Other versions
CN110765836B (zh
Inventor
李少宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201910804622.2A priority Critical patent/CN110765836B/zh
Publication of CN110765836A publication Critical patent/CN110765836A/zh
Application granted granted Critical
Publication of CN110765836B publication Critical patent/CN110765836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于自然语言理解的文本定位方法,该基于自然语言理解的文本定位方法包括如下步骤:步骤(1),通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容;步骤(2),对每一个该缺陷项内容执行在该对象文本中的定位处理和邻近字符提取处理;步骤(3),对该定位处理和该邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果;步骤(4),根据该自然语言理解结果,在该对象文本中进行相关缺陷项内容的标识处理。

Description

一种基于自然语言理解的文本定位方法和系统
技术领域
本发明涉及人工智能的技术领域,特别涉及一种基于自然语言理解的文本定位方法和系统。
背景技术
疾病诊断的智能化和病历的电子化已经成为医疗技术发展的主流方向,为了有效地降低电子病历存在的文书缺陷,还需要对电子病历进行相应的质控操作。目前而言,在电子病历的质控操作上,为了使机器确认的每一条质控缺陷项能够更好第在电子病历中显示出来和便于用户快速和准确定位缺陷所处的位置,现有技术通常采用通过缺陷项内容和电子病历内容全文搜索的方式来定位缺陷所处的位置,然后把缺陷位置和缺陷项进行连线和高亮显示。但是,在实际操作中,由于电子病历中缺陷位置不准确,例如当电子病历的内容中出现两个或者两个以上的缺陷内容时,其将无法真正地定位到其中一个缺陷内容,这导致无法实现对电子病历缺陷的唯一和准确位置定位。可见,现有技术急需一种能够在电子病历存在多种文书缺陷的情况下,对不同的缺陷内容进行快速和准确的位置定位方法和系统。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于自然语言理解的文本定位方法和系统,其中,该基于自然语言理解的文本定位方法包括如下步骤:步骤(1),通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容;步骤(2),对每一个该缺陷项内容执行在该对象文本中的定位处理和邻近字符提取处理;步骤(3),对该定位处理和所述邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果;步骤(4),根据该自然语言理解结果,在该对象文本中进行相关缺陷项内容的标识处理;此外,该基于自然语言理解的文本定位系统包括质控查找模块、定位模块、字符提取模块、自然语言理解模块和标识模块;其中,该质控查找模块用于确定对象文本当前存在的一个或者多个缺陷项内容;该定位模块用于对每一个该缺陷项内容执行在所述对象文本中的定位处理;该字符提取模块用于对每一个该缺陷项内容执行在该对象文本中的邻近字符提取处理;该自然语言理解模块用于对该定位处理和该邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果;该标识模块用于根据所述自然语言理解结果,在该对象文本中进行相关缺陷项内容的标识处理。可见,该基于自然语言理解的文本定位方法和系统有别于现有技术只是单纯通过电子病历文书缺陷本身的文字内容来识别和定位该文书缺陷,该方法和系统通过自然语言理解处理模式对大量的电子病历文书进行机器学习处理,并根据该机器学习处理的结果对不同文书缺陷进行识别,以此准确地定位每一个文书缺陷内容在电子病历中的具体位置,从而提高缺陷内容位置确定与判断的准确率,并且该自然语言理解处理模式不同于现有的缺陷内容文字识别,其能够在大量文书缺陷的基础上对不同缺陷内容执行进一步的甄别处理,以此根据电子病历上下文的关系来确定当前字段区域是否属于缺陷内容,这样能够有效地降低缺陷位置定位的误判率。
本发明提供一种基于自然语言理解的文本定位方法,其特征在于,所述基于自然语言理解的文本定位方法包括如下步骤:
步骤(1),通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容;
步骤(2),对每一个所述缺陷项内容执行在所述对象文本中的定位处理和邻近字符提取处理;
步骤(3),对所述定位处理和所述邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果;
步骤(4),根据所述自然语言理解结果,在所述对象文本中进行相关缺陷项内容的标识处理;
进一步,在所述步骤(1)中,通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容具体包括,
步骤(101),获取所述对象文本的文本语言类型、文本撰写类型和文本范围中的至少一者,以此确定所述对象文本对应的质控项目信息,其中,所述质控项目信息是采用固定规则和医疗知识图谱形结合算法模式获得的;
步骤(102),根据所述质控项目信息,确定所述质控查找模式对所述对象文本的质控遍历方式;
步骤(103),根据所述质控遍历方式,调整所述质控查找模式对所述对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者,以此确定所述一个或者多个缺陷项内容;
进一步,在所述步骤(2)中,对每一个所述缺陷项内容执行在所述对象文本中的定位处理和邻近字符提取处理具体包括,
步骤(201),对每一个所述缺陷项内容进行分词处理,以此确定关于每一个所述缺陷项内容的词首、词中和词尾不同处的若干特征符;
步骤(202),根据所述若干特征符,对所述对象文本的不同文本区段进行所述定位处理,以此得到与所述若干特征符中的每一个在所述不同文本区段的位置,并将所述位置确定为每一个所述缺陷项内容在所述对象文本中的位置;
步骤(203),以每一个所述缺陷项内容在所述对象文本中的位置作为字符提取原点,并在所述字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现所述邻近字符提取处理;
进一步,在所述步骤(3)中,对所述定位处理和所述邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果具体包括,
步骤(301),将所述定位处理得到的关于每一个所述缺陷项内容在所述对象文本中的位置和所述邻近字符提取处理得到的若干邻近字符分别输入至自然语言理解模型的处理端口进行适应性的自然语言理解处理;
步骤(302),所述自然语言理解模型根据所述位置和所述若干邻近字符,对每一个所述缺陷项内容进行相似度计算,所述相似度计算的公式如下
J=|A∩B|÷|A∪B|
在上述公式中,J为每一个所述缺陷项内容的相似度系数,A为缺陷项内容,B为缺陷项内容在病历中的上下文,|A∩B|表示A和B的交集的字符串长度,|A∪B|表示A和B的并集的字符串长度,再根据所述相似度系数得到每一个所述缺陷项内容关于自然语言理解结果;
步骤(303),根据所述自然语言理解结果,返回每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置;
进一步,在所述步骤(4)中,根据所述自然语言理解结果,在所述对象文本中进行相关缺陷项内容的标识处理具体包括,
步骤(401),从所述自然语言理解结果中提取每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置,并根据所述文书内容信息及其文书内容位置生成标识指示信号;
步骤(402),根据所述标识指示信号,通过所述质控查找模式在所述对象文本中对相应的缺陷项内容及缺陷项内容对应位置进行高亮标识处理。
本发明还提供一种基于自然语言理解的文本定位系统,其特征在于:
所述基于自然语言理解的文本定位系统包括质控查找模块、定位模块、字符提取模块、自然语言理解模块和标识模块;其中,
所述质控查找模块用于确定对象文本当前存在的一个或者多个缺陷项内容;
所述定位模块用于对每一个所述缺陷项内容执行在所述对象文本中的定位处理;
所述字符提取模块用于对每一个所述缺陷项内容执行在所述对象文本中的邻近字符提取处理;
所述自然语言理解模块用于对所述定位处理和所述邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果;
所述标识模块用于根据所述自然语言理解结果,在所述对象文本中进行相关缺陷项内容的标识处理;
进一步,所述质控查找模块包括质控项目信息获取子模块、质控方式确定子模块和缺陷项内容确定子模块;其中,
所述质控项目信息获取子模块用于根据所述对象文本的文本语言类型、文本撰写类型和文本范围中的至少一者,以此确定所述对象文本对应的质控项目信息;
所述质控方式确定子模块用于根据所述质控项目信息,确定所述质控查找模式对所述对象文本的质控遍历方式;
所述缺陷项内容确定子模块用于根据所述质控遍历方式,调整所述质控查找模式对所述对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者,以此确定所述一个或者多个缺陷项内容;
进一步,所述基于自然语言理解的文本定位系统还包括分词处理模块;其中,
所述分词处理模块用于对每一个所述缺陷项内容进行分词处理,以此确定关于每一个所述缺陷项内容的词首、词中和词尾不同处的若干特征符;
所述定位模块用于根据所述若干特征符,对所述对象文本的不同文本区段进行所述定位处理,以此得到与所述若干特征符中的每一个在所述不同文本区段的位置,并将所述位置确定为每一个所述缺陷项内容在所述对象文本中的位置;
所述字符提取模块用于以每一个所述缺陷项内容在所述对象文本中的位置作为字符提取原点,并在所述字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现所述邻近字符提取处理;
进一步,所述自然语言理解模块还用于根据所述定位处理得到的关于每一个所述缺陷项内容在所述对象文本中的位置和所述邻近字符提取处理得到的若干邻近字符,对每一个所述缺陷项内容进行文本语法错误、文本逻辑错误和文本用字错误中的至少一者进行自然语言理解处理,以此得到每一个所述缺陷项内容关于自然语言理解结果;
进一步,所述自然语言理解模块还用于从所述自然语言理解结果中提取每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置,并根据所述文书内容信息及其文书内容位置生成标识指示信号;
所述标识模块还用于根据所述标识指示信号,通过所述质控查找模式在所述对象文本中对相应的缺陷项内容及缺陷项内容对应位置进行高亮标识处理。
相比于现有技术,该基于自然语言理解的文本定位方法和系统有别于现有技术只是单纯通过电子病历文书缺陷本身的文字内容来识别和定位该文书缺陷,该方法和系统通过自然语言理解处理模式对大量的电子病历文书进行机器学习处理,并根据该机器学习处理的结果对不同文书缺陷进行识别,以此准确地定位每一个文书缺陷内容在电子病历中的具体位置,从而提高缺陷内容位置确定与判断的准确率,并且该自然语言理解处理模式不同于现有的缺陷内容文字识别,其能够在大量文书缺陷的基础上对不同缺陷内容执行进一步的甄别处理,以此根据电子病历上下文的关系来确定当前字段区域是否属于缺陷内容,这样能够有效地降低缺陷位置定位的误判率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于自然语言理解的文本定位方法的流程示意图。
图2为本发明提供的一种基于自然语言理解的文本定位系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种基于自然语言理解的文本定位方法的流程示意图。该基于自然语言理解的文本定位方法包括如下步骤:
步骤(1),通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容。
优选地,在该步骤(1)中,通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容具体包括,
步骤(101),获取该对象文本的文本语言类型、文本撰写类型和文本范围中的至少一者,以此确定该对象文本对应的质控项目信息,其中,该质控项目信息是采用固定规则和医疗知识图谱形结合算法模式获得的;
步骤(102),根据该质控项目信息,确定该质控查找模式对该对象文本的质控遍历方式;
步骤(103),根据该质控遍历方式,调整该质控查找模式对该对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者,以此确定该一个或者多个缺陷项内容。
步骤(2),对每一个该缺陷项内容执行在该对象文本中的定位处理和邻近字符提取处理。
优选地,在该步骤(2)中,对每一个该缺陷项内容执行在该对象文本中的定位处理和邻近字符提取处理具体包括,
步骤(201),对每一个该缺陷项内容进行分词处理,以此确定关于每一个该缺陷项内容的词首、词中和词尾不同处的若干特征符;
步骤(202),根据该若干特征符,对该对象文本的不同文本区段进行该定位处理,以此得到与该若干特征符中的每一个在该不同文本区段的位置,并将该位置确定为每一个该缺陷项内容在该对象文本中的位置;
步骤(203),以每一个该缺陷项内容在该对象文本中的位置作为字符提取原点,并在该字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现该邻近字符提取处理。
步骤(3),对该定位处理和该邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果。
优选地,在该步骤(3)中,对该定位处理和该邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果具体包括,
步骤(301),将该定位处理得到的关于每一个该缺陷项内容在该对象文本中的位置和该邻近字符提取处理得到的若干邻近字符分别输入至自然语言理解模型的处理端口进行适应性的自然语言理解处理;
步骤(302),该自然语言理解模型根据该位置和该若干邻近字符,对每一个该缺陷项内容进行相似度计算,该相似度计算的公式如下
J=|A∩B|÷|A∪B|
在上述公式中,J为每一个该缺陷项内容的相似度系数,A为缺陷项内容,B为缺陷项内容在病历中的上下文,|A∩B|表示A和B的交集的字符串长度,|A∪B|表示A和B的并集的字符串长度,再根据该相似度系数得到每一个该缺陷项内容关于自然语言理解结果;
步骤(303),根据该自然语言理解结果,返回每一个该缺陷项内容在该对象文本中的文书内容信息及其文书内容位置。
步骤(4),根据该自然语言理解结果,在该对象文本中进行相关缺陷项内容的标识处理。
优选地,在该步骤(4)中,根据该自然语言理解结果,在该对象文本中进行相关缺陷项内容的标识处理具体包括,
步骤(401),从该自然语言理解结果中提取每一个该缺陷项内容在该对象文本中的文书内容信息及其文书内容位置,并根据该文书内容信息及其文书内容位置生成标识指示信号;
步骤(402),根据该标识指示信号,通过该质控查找模式在该对象文本中对相应的缺陷项内容及缺陷项内容对应位置进行高亮标识处理。
参阅图2,为本发明实施例提供的一种基于自然语言理解的文本定位系统的结构示意图。该基于自然语言理解的文本定位系统包括质控查找模块、定位模块、字符提取模块、自然语言理解模块和标识模块;其中,
该质控查找模块用于确定对象文本当前存在的一个或者多个缺陷项内容;
该定位模块用于对每一个该缺陷项内容执行在该对象文本中的定位处理;
该字符提取模块用于对每一个该缺陷项内容执行在该对象文本中的邻近字符提取处理;
该自然语言理解模块用于对该定位处理和该邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果;
该标识模块用于根据该自然语言理解结果,在该对象文本中进行相关缺陷项内容的标识处理。
优选地,该质控查找模块包括质控项目信息获取子模块、质控方式确定子模块和缺陷项内容确定子模块;
优选地,该质控项目信息获取子模块用于根据该对象文本的文本语言类型、文本撰写类型和文本范围中的至少一者,以此确定该对象文本对应的质控项目信息;
优选地,该质控方式确定子模块用于根据该质控项目信息,确定该质控查找模式对该对象文本的质控遍历方式;
优选地,该缺陷项内容确定子模块用于根据该质控遍历方式,调整该质控查找模式对该对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者,以此确定该一个或者多个缺陷项内容;
优选地,该基于自然语言理解的文本定位系统还包括分词处理模块;
优选地,该分词处理模块用于对每一个该缺陷项内容进行分词处理,以此确定关于每一个该缺陷项内容的词首、词中和词尾不同处的若干特征符;
优选地,该定位模块用于根据该若干特征符,对该对象文本的不同文本区段进行该定位处理,以此得到与该若干特征符中的每一个在该不同文本区段的位置,并将该位置确定为每一个该缺陷项内容在该对象文本中的位置;
优选地,该字符提取模块用于以每一个该缺陷项内容在该对象文本中的位置作为字符提取原点,并在该字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现该邻近字符提取处理;
优选地,该自然语言理解模块还用于根据该定位处理得到的关于每一个该缺陷项内容在该对象文本中的位置和该邻近字符提取处理得到的若干邻近字符,对每一个该缺陷项内容进行文本语法错误、文本逻辑错误和文本用字错误中的至少一者进行自然语言理解处理,以此得到每一个该缺陷项内容关于自然语言理解结果;
优选地,该自然语言理解模块还用于从该自然语言理解结果中提取每一个该缺陷项内容在该对象文本中的文书内容信息及其文书内容位置,并根据该文书内容信息及其文书内容位置生成标识指示信号;
优选地,该标识模块还用于根据该标识指示信号,通过该质控查找模式在该对象文本中对相应的缺陷项内容及缺陷项内容对应位置进行高亮标识处理。
从上述实施例可以看出,该基于自然语言理解的文本定位方法和系统有别于现有技术只是单纯通过电子病历文书缺陷本身的文字内容来识别和定位该文书缺陷,该方法和系统通过自然语言理解处理模式对大量的电子病历文书进行机器学习处理,并根据该机器学习处理的结果对不同文书缺陷进行识别,以此准确地定位每一个文书缺陷内容在电子病历中的具体位置,从而提高缺陷内容位置确定与判断的准确率,并且该自然语言理解处理模式不同于现有的缺陷内容文字识别,其能够在大量文书缺陷的基础上对不同缺陷内容执行进一步的甄别处理,以此根据电子病历上下文的关系来确定当前字段区域是否属于缺陷内容,这样能够有效地降低缺陷位置定位的误判率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于自然语言理解的文本定位方法,其特征在于,所述基于自然语言理解的文本定位方法包括如下步骤:
步骤(1),通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容;
步骤(2),对每一个所述缺陷项内容执行在所述对象文本中的定位处理和邻近字符提取处理;
步骤(3),对所述定位处理和所述邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果;
步骤(4),根据所述自然语言理解结果,在所述对象文本中进行相关缺陷项内容的标识处理。
2.如权利要求1所述的基于自然语言理解的文本定位方法,其特征在于:在所述步骤(1)中,通过质控查找模式确定对象文本当前存在的一个或者多个缺陷项内容具体包括,
步骤(101),获取所述对象文本的文本语言类型、文本撰写类型和文本范围中的至少一者,以此确定所述对象文本对应的质控项目信息,其中,所述质控项目信息是采用固定规则和医疗知识图谱形结合算法模式获得的;
步骤(102),根据所述质控项目信息,确定所述质控查找模式对所述对象文本的质控遍历方式;
步骤(103),根据所述质控遍历方式,调整所述质控查找模式对所述对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者,以此确定所述一个或者多个缺陷项内容。
3.如权利要求1所述的基于自然语言理解的文本定位方法,其特征在于:在所述步骤(2)中,对每一个所述缺陷项内容执行在所述对象文本中的定位处理和邻近字符提取处理具体包括,
步骤(201),对每一个所述缺陷项内容进行分词处理,以此确定关于每一个所述缺陷项内容的词首、词中和词尾不同处的若干特征符;
步骤(202),根据所述若干特征符,对所述对象文本的不同文本区段进行所述定位处理,以此得到与所述若干特征符中的每一个在所述不同文本区段的位置,并将所述位置确定为每一个所述缺陷项内容在所述对象文本中的位置;
步骤(203),以每一个所述缺陷项内容在所述对象文本中的位置作为字符提取原点,并在所述字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现所述邻近字符提取处理。
4.如权利要求1所述的基于自然语言理解的文本定位方法,其特征在于:在所述步骤(3)中,对所述定位处理和所述邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果具体包括,步骤(301),将所述定位处理得到的关于每一个所述缺陷项内容在所述对象文本中的位置和所述邻近字符提取处理得到的若干邻近字符分别输入至自然语言理解模型的处理端口进行适应性的自然语言理解处理;步骤(302),所述自然语言理解模型根据所述位置和所述若干邻近字符,对每一个所述缺陷项内容进行相似度计算,所述相似度计算的公式如下J=|A∩B|÷|A∪B|
在上述公式中,J为每一个所述缺陷项内容的相似度系数,A为缺陷项内容,B为缺陷项内容在病历中的上下文,|A∩B|表示A和B的交集的字符串长度,|A∪B|表示A和B的并集的字符串长度,再根据所述相似度系数得到每一个所述缺陷项内容关于自然语言理解结果;
步骤(303),根据所述自然语言理解结果,返回每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置。
5.如权利要求1所述的基于自然语言理解的文本定位方法,其特征在于:在所述步骤(4)中,根据所述自然语言理解结果,在所述对象文本中进行相关缺陷项内容的标识处理具体包括,
步骤(401),从所述自然语言理解结果中提取每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置,并根据所述文书内容信息及其文书内容位置生成标识指示信号;
步骤(402),根据所述标识指示信号,通过所述质控查找模式在所述对象文本中对相应的缺陷项内容及缺陷项内容对应位置进行高亮标识处理。
6.一种基于自然语言理解的文本定位系统,其特征在于:
所述基于自然语言理解的文本定位系统包括质控查找模块、定位模块、字符提取模块、自然语言理解模块和标识模块;其中,
所述质控查找模块用于确定对象文本当前存在的一个或者多个缺陷项内容;
所述定位模块用于对每一个所述缺陷项内容执行在所述对象文本中的定位处理;
所述字符提取模块用于对每一个所述缺陷项内容执行在所述对象文本中的邻近字符提取处理;
所述自然语言理解模块用于对所述定位处理和所述邻近字符提取处理的结果,执行自然语言理解处理,以此得到自然语言理解结果;
所述标识模块用于根据所述自然语言理解结果,在所述对象文本中进行相关缺陷项内容的标识处理。
7.如权利要求6所述的基于自然语言理解的文本定位系统,其特征在于:所述质控查找模块包括质控项目信息获取子模块、质控方式确定子模块和缺陷项内容确定子模块;其中,
所述质控项目信息获取子模块用于根据所述对象文本的文本语言类型、文本撰写类型和文本范围中的至少一者,以此确定所述对象文本对应的质控项目信息;
所述质控方式确定子模块用于根据所述质控项目信息,确定所述质控查找模式对所述对象文本的质控遍历方式;
所述缺陷项内容确定子模块用于根据所述质控遍历方式,调整所述质控查找模式对所述对象文本的缺陷项内容查找顺序、查找频率和查找精度中的至少一者,以此确定所述一个或者多个缺陷项内容。
8.如权利要求6所述的基于自然语言理解的文本定位系统,其特征在于:所述基于自然语言理解的文本定位系统还包括分词处理模块;其中,所述分词处理模块用于对每一个所述缺陷项内容进行分词处理,以此确定关于每一个所述缺陷项内容的词首、词中和词尾不同处的若干特征符;所述定位模块用于根据所述若干特征符,对所述对象文本的不同文本区段进行所述定位处理,以此得到与所述若干特征符中的每一个在所述不同文本区段的位置,并将所述位置确定为每一个所述缺陷项内容在所述对象文本中的位置;
所述字符提取模块用于以每一个所述缺陷项内容在所述对象文本中的位置作为字符提取原点,并在所述字符原点的文本邻近前方和文本邻近后方分别提取若干邻近字符以此实现所述邻近字符提取处理。
9.如权利要求6所述的基于自然语言理解的文本定位系统,其特征在于:所述自然语言理解模块还用于根据所述定位处理得到的关于每一个所述缺陷项内容在所述对象文本中的位置和所述邻近字符提取处理得到的若干邻近字符,对每一个所述缺陷项内容进行文本语法错误、文本逻辑错误和文本用字错误中的至少一者进行自然语言理解处理,以此得到每一个所述缺陷项内容关于自然语言理解结果。
10.如权利要求9所述的基于自然语言理解的文本定位系统,其特征在于:所述自然语言理解模块还用于从所述自然语言理解结果中提取每一个所述缺陷项内容在所述对象文本中的文书内容信息及其文书内容位置,并根据所述文书内容信息及其文书内容位置生成标识指示信号;
所述标识模块还用于根据所述标识指示信号,通过所述质控查找模式在所述对象文本中对相应的缺陷项内容及缺陷项内容对应位置进行高亮标识处理。
CN201910804622.2A 2019-08-28 2019-08-28 一种基于自然语言理解的文本定位方法和系统 Active CN110765836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910804622.2A CN110765836B (zh) 2019-08-28 2019-08-28 一种基于自然语言理解的文本定位方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910804622.2A CN110765836B (zh) 2019-08-28 2019-08-28 一种基于自然语言理解的文本定位方法和系统

Publications (2)

Publication Number Publication Date
CN110765836A true CN110765836A (zh) 2020-02-07
CN110765836B CN110765836B (zh) 2022-04-29

Family

ID=69329503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910804622.2A Active CN110765836B (zh) 2019-08-28 2019-08-28 一种基于自然语言理解的文本定位方法和系统

Country Status (1)

Country Link
CN (1) CN110765836B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106448675A (zh) * 2016-10-21 2017-02-22 科大讯飞股份有限公司 识别文本修正方法及系统
CN107608732A (zh) * 2017-09-13 2018-01-19 扬州大学 一种基于bug知识图谱的bug搜索定位方法
CN107909119A (zh) * 2017-12-11 2018-04-13 深圳先进技术研究院 集合间相似度的确定方法和装置
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法
CN109920540A (zh) * 2019-03-14 2019-06-21 宁波中云创科信息技术有限公司 辅助诊疗决策系统的构建方法、装置及计算机设备
CN110110334A (zh) * 2019-05-08 2019-08-09 郑州大学 一种基于自然语言处理的远程会诊记录文本纠错方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106448675A (zh) * 2016-10-21 2017-02-22 科大讯飞股份有限公司 识别文本修正方法及系统
CN107608732A (zh) * 2017-09-13 2018-01-19 扬州大学 一种基于bug知识图谱的bug搜索定位方法
CN107909119A (zh) * 2017-12-11 2018-04-13 深圳先进技术研究院 集合间相似度的确定方法和装置
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法
CN109920540A (zh) * 2019-03-14 2019-06-21 宁波中云创科信息技术有限公司 辅助诊疗决策系统的构建方法、装置及计算机设备
CN110110334A (zh) * 2019-05-08 2019-08-09 郑州大学 一种基于自然语言处理的远程会诊记录文本纠错方法

Also Published As

Publication number Publication date
CN110765836B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN111753767B (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
US10650192B2 (en) Method and device for recognizing domain named entity
CN106980637B (zh) Sql审核方法和装置
US10489644B2 (en) System and method for automatic detection and verification of optical character recognition data
US10489645B2 (en) System and method for automatic detection and verification of optical character recognition data
CN108509342A (zh) 一种精准快速的App自动化测试方法
US9424823B2 (en) Method and apparatus for recognising music symbols
CN108573707B (zh) 一种语音识别结果的处理方法、装置、设备及介质
CN112560450B (zh) 一种文本纠错方法及装置
CN109815938A (zh) 基于多类核典型相关分析的多模态情感特征识别方法
RU2605078C2 (ru) Сегментация изображения для верификации данных
CN106484677B (zh) 一种基于最小信息量的汉语快速分词系统及方法
CN117094311B (zh) 一种关于中文语法纠错的误纠过滤器的建立方法
CN111144210A (zh) 图像的结构化处理方法及装置、存储介质及电子设备
CN109766891A (zh) 获取设备设施信息的方法及计算机可读存储介质
CN110135225A (zh) 样本标注方法及计算机存储介质
WO2023038722A1 (en) Entry detection and recognition for custom forms
JP2019212115A (ja) 検査装置、検査方法、プログラム及び学習装置
CN110765836B (zh) 一种基于自然语言理解的文本定位方法和系统
CN112101030A (zh) 建立术语映射模型、实现标准词映射的方法、装置及设备
CN113688243B (zh) 语句中实体的标注方法、装置、设备以及存储介质
CN110197175A (zh) 一种图书书名定位及词性标注的方法及系统
CN110751995B (zh) 一种电子病历缺陷标注与评分方法
CN110751994B (zh) 一种病历模板的差异化显示方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant