CN110889412B - 体检报告中的医学长文定位与分类方法及装置 - Google Patents

体检报告中的医学长文定位与分类方法及装置 Download PDF

Info

Publication number
CN110889412B
CN110889412B CN201911058667.6A CN201911058667A CN110889412B CN 110889412 B CN110889412 B CN 110889412B CN 201911058667 A CN201911058667 A CN 201911058667A CN 110889412 B CN110889412 B CN 110889412B
Authority
CN
China
Prior art keywords
page
physical examination
examination report
word
medical long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911058667.6A
Other languages
English (en)
Other versions
CN110889412A (zh
Inventor
刘岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN201911058667.6A priority Critical patent/CN110889412B/zh
Publication of CN110889412A publication Critical patent/CN110889412A/zh
Application granted granted Critical
Publication of CN110889412B publication Critical patent/CN110889412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种体检报告中的医学长文定位与分类方法及装置,该方法包括:对体检报告进行拆页处理,获得多页体检报告页;对每页体检报告页进行文字识别,获得每页体检报告页的文字识别结果;根据每页体检报告页的文字识别结果,定位所需医学长文页;根据预设类型对所需医学长文页进行类型分类,确定所需医学长文页的医学长文类型;根据预设主题类别对确定类型的所需医学长文页中的医学长文进行主题分类,获得主题分类结果;基于主题分类结果,对确定类型的所需医学长文页的医学长文进行归类,获得结构化的所需医学长文页。该方案降低了医学长文解析的难度,能直接应用于核保作业人员的复核系统和客户健康画像系统中,提高核保作业效率。

Description

体检报告中的医学长文定位与分类方法及装置
技术领域
本发明涉及文本处理技术领域,特别涉及一种体检报告中的医学长文定位与分类方法及装置。
背景技术
体检报告影像结构化过程中,医学长文部分的结构化是技术难度最大的部分之一,医学长文主要以B超检查为主(也可以包括心电图等)。由于体检报告种类复杂多样,对应的B超部分同样也是版式多样,B超部分的医疗数据的语言描述形式也很复杂,其中存在着大量非结构化的文本(主要是诊断信息),比如对于同一种疾病,可能会存在多种不同的表述,这些表述大都不够规范,甚至会有错别字的问题,这样在进行医学长文自然语言处理时,其数据范围过大,增加了医学长文解析的难度,另外,不能直接应用于核保作业人员的复核系统和客户健康画像系统中,导致核保作业效率低下。
发明内容
本发明实施例提供了一种体检报告中的医学长文定位与分类方法及装置,解决了现有技术中医学长文自然语言处理的数据范围过大增加医学长文解析难度、不能直接应用于核保作业人员的复核系统和客户健康画像系统中的技术问题。
本发明实施例提供了一种体检报告中的医学长文定位与分类方法,该方法包括:
对体检报告进行拆页处理,获得多页体检报告页;
对每页体检报告页进行文字识别,获得每页体检报告页的文字识别结果;
根据每页体检报告页的文字识别结果,从多页体检报告页中定位所需医学长文页;
根据预设类型对所需医学长文页进行类型分类,确定所需医学长文页的医学长文类型;
根据预设主题类别对确定类型的所需医学长文页中的医学长文进行主题分类,获得主题分类结果;
基于主题分类结果,对确定类型的所需医学长文页的医学长文进行归类,获得结构化的所需医学长文页。
本发明实施例还提供了一种体检报告中的医学长文定位与分类装置,该装置包括:
拆页模块,用于对体检报告进行拆页处理,获得多页体检报告页;
文字识别模块,用于对每页体检报告页进行文字识别,获得每页体检报告页的文字识别结果;
定位模块,用于根据每页体检报告页的文字识别结果,从多页体检报告页中定位所需医学长文页;
类型分类模块,用于根据预设类型对所需医学长文页进行类型分类,确定所需医学长文页的医学长文类型;
主题分类模块,用于根据预设主题类别对确定类型的所需医学长文页中的医学长文进行主题分类,获得主题分类结果;
归类模块,用于基于主题分类结果,对确定类型的所需医学长文页的医学长文进行归类,获得结构化的所需医学长文页。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
在本发明实施例中,通过对体检报告中的所需医学长文页进行文字识别、定位、医学长文类型分类和主题分类,缩小了医学长文分析的数据范围,降低了医学长文解析的难度;最终获得的结构化的所需医学长文页可直接应用于核保作业人员的复核系统和客户健康画像系统中,提高了核保作业的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种体检报告中的医学长文定位与分类方法流程图;
图2是本发明实施例提供的一种表格类B超结论示意图;
图3是本发明实施例提供的一种大段长文类B超结论示意图;
图4是本发明实施例提供的一种体检报告中的医学长文定位与分类装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于现有技术中存在的问题,为了降低医学长文结构化的难度,就需要逐层减小处理数据的范围,降低干扰数据的数量,本发明提出一种体检报告中的医学长文定位与分类方法与装置,旨在通过页定位、版式分类、行定位与主题分类等技术方法,实现医学长文部分的精确分割与定位,为下一步医学长文结构化做好铺垫。
在本发明实施例中,提供的一种体检报告中的医学长文定位与分类方法的流程图如图1所示,该方法包括:
步骤101:对体检报告进行拆页处理,获得多页体检报告页;
步骤102:对每页体检报告页进行OCR文字识别,获得每页体检报告页的文字识别结果;
步骤103:根据每页体检报告页的文字识别结果,从多页体检报告页中定位所需医学长文页;
步骤104:根据预设类型对所需医学长文页进行类型分类,确定所需医学长文页的医学长文类型;
步骤105:根据预设主题类别对确定类型的所需医学长文页中的医学长文进行主题分类,获得主题分类结果;
步骤106:基于主题分类结果,对确定类型的所需医学长文页的医学长文进行归类,获得结构化的所需医学长文页。
具体描述步骤101和步骤102。体检报告一般是多页的文档,存储格式主要是TIFF、PDF,为了便于OCR文字识别,首先需要将文件包拆分为各页独立的JPEG图像格式,TIFF主要通过文件解析分拆,PDF主要通过自动化工具分拆(可以使用开源工具)。得到拆分后的体检报告JPEG页后,对每一页分别进行OCR文字识别,得到各页的文字识别结果。
在本发明实施例中,所说的所需医学长文页可以指的是B超页,也可以是心电图页,当然也可以是其他类型。下面以B超页为例详细说明步骤103至步骤106。
分析B超页的前提是从体检报告众多页中定位到B超页,步骤103的定位过程如下:
1)基于OCR文字识别后的文本信息,利用体检报告医学知识,构建B超页关键词列表,示例如下:
A:{肝、肝脏、胆、胆囊、胰、胰腺、脾、脾腺、膀胱、前列腺、乳腺、肾、子宫、附件、彩超};
B:{形态、大小、正常、异常、未见明显异常、均匀、清晰、回声、包膜、形态};
C:{异常、分布、饱满、内膜、厚度、扩张、光整、包块};
共组建三个等级的词表:A、B、C,并且分别赋予每个词表不同的权值,由A到C,权重逐渐减小,设三个权值分别为x、y、z,总权重的和不超过1,即:
x+y+z≤1;
z<y<x。
2)将构建的B超页关键词列表加入到结巴分词(当然也可以是其他的分词)的词表中,对每页体检报告页的文字识别结果进行结巴分词处理,得到每页体检报告页的分词信息。
3)基于构建的B超页关键词列表和BAG-OF-WORDS模型,对每页体检报告页的分词信息进行遍历,计算每页体检报告页的分词分值。
BAG-OF-WORDS,也叫做“词袋”,在信息检索中,BAG-OF-WORDS模型假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。
具体的,每页体检报告页的分词分值按照如下公式确定:
score(t)=∑xai+∑ybi+∑zci
其中,score(t)为每页体检报告页的分词分值;t表示页码;ai、bi、ci的取值为{0,1},当有单词命中词表A、B、C中的词时,取值为1,否则取值为0;
a、b、c的数学描述分别为:
a={a1,a2,…,am};
b={b1,b2,…,bn};
c={c1,c2,…,cq};
其中,m、n、q分别表示命中词表A、B、C的单词个数。
4)将所述每页体检报告页的分词分值与预设阈值进行比较,若分词分值超过预设阈值,则相应的体检报告页为B超页。
具体的,当分词分值超过预设阈值,则判定该体检报告页中包含B超检查信息,该方法的好处在于对于跨页的信息由较好的容忍性。
在本发明实施例中,体检报告中的B超页主要有两种类型:表格类、大段长文类,两类版式差别较大,为了准确的解析这两类文本信息,需要先识别出两种类别,然后再针对各类的特点针对性解析。步骤104的类型分类过程如下:
1)对历史B超页进行预设类型标注:分别针对表格类、大段长文类B超进行文本标注,主要标注文本的类别,即该文本属于表格类,还是大段长文类。
2)对标注后的历史B超页(包括表格类历史B超页和大段长文类历史B超页)分别进行ORC文字识别和结巴分词,获得历史分词结果。
3)计算历史分词结果中的每个分词的TF-IDF值,将相应的分词结果中的每个分词的TF-IDF值进行从大到小排序,抽取前第一预设值(比如k,数值人为规定)个TF-IDF值对应的分词作为基础词向量V。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
4)基于所述基础词向量对第一SVM(支持向量机,SUPPORT VECTORMACHINE)分类模型进行训练,获得已训练的第一SVM分类模型。
上面1)-4)是类型分类模型训练过程,下面的5)-7)则是类型分类预测过程。
5)对当前B超页中文字识别结果进行结巴分词,获得当前分词结果,计算当前分词结果中的每个分词的TF-IDF值。
6)将当前分词结果添加到基础词向量中,当当前分词结果中有分词命中基础词向量中的分词时,则将基础词向量中的命中分词的TF-IDF值累加上当前分词结果中的命中分词的TF-IDF值,当当前分词结果中有分词未命中基础词向量中的分词时,则将当前分词结果中的未命中分词的TF-IDF值定为0,获得当前词向量(与基础词向量不同);
7)基于当前词向量和已训练的第一SVM分类模型,对当前B超页进行类型分类,确定当前B超页的医学长文类型。其中,分类结果输出为三种类别:表格类、大段长文类、其它,这样就得到体检B超页的分类标签。
B超结论样式示例如图2和图3所示,其中,图2为表格类B超结论示意图,图3为大段长文类B超结论示意图。
在本发明实施例中,在区分完B超表格、大段长文后,接下来分别针对两种类型的B超文本,以文本句子为单位,设计不同的句子主题分类模型,用以判定当前句子的主题类别,共分为三个类别:描述内容、描述结论、其它,即各个句子描述的内容是属于哪一个类别。步骤105的主题分类过程如下:
1)对OCR识别后的历史B超长文进行文本行切分,其中,文本行切分方式可以包括两种:(1)可以逗号和句号为分割点;(2)将水平方向上完整的一行作为输入,可能包含多个子句或者不完整的一句;
2)基于加入构建的B超页关键词列表的结巴分词词表,对文本行切分后的历史B超长文进行结巴分词处理,获得历史结巴分词结果。
3)基于描述内容类别、描述结论类别,对历史结巴分词结果进行标注,获得两个类别的分词结果。
4)分别计算两个类别的分词结果中的每个分词的TF-IDF值,分别将两个类别的分词结果中的每个分词的TF-IDF值进行从大到小排序,分别抽取前第二预设值(比如,f个,f为实验阈值)个TF-IDF值对应的分词作为基础词向量。
5)基于描述内容类别对应的基础词向量和描述结论类别对应的基础词向量,对第二SVM分类模型进行训练,获得已训练的第二SVM分类模型,期望输出为三分类:描述内容、描述结论、其它。
上面1)-5)是主题分类模型训练过程,下面的6)-8)则是主题分类预测过程。
6)对当前B超页中的文字识别结果进行文本行切分和结巴分词,获得当前分词结果,计算当前分词结果中的每个分词的TF-IDF值;
7)将当前分词结果分别添加到描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中,当当前分词结果中有分词命中描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中的分词时,则将描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中的命中分词的TF-IDF值累加上当前分词结果中的命中分词的TF-IDF值,当当前分词结果中有分词未命中描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中的分词时,则将当前分词结果中的未命中分词的TF-IDF值定为0,获得描述内容类别对应的当前词向量和描述结论类别对应的当前词向量;
8)基于描述内容类别对应的当前词向量、描述结论类别对应的当前词向量和已训练的第二SVM分类模型,对当前B超页进行主题分类,获得当前B超页的主题分类结果。
最后,步骤106是基于分类识别结果,对每个文本行进行归类,得到两大部分内容:B超描述部分、B超结论部分,这两部分内容的确定,极大缩小了后续医学长文结构化解析的范围,为后续结构化做好了铺垫。
基于同一发明构思,本发明实施例中还提供了一种体检报告中的医学长文定位与分类装置,如下面的实施例所述。由于体检报告中的医学长文定位与分类装置解决问题的原理与体检报告中的医学长文定位与分类方法相似,因此体检报告中的医学长文定位与分类装置的实施可以参见体检报告中的医学长文定位与分类方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是本发明实施例的体检报告中的医学长文定位与分类装置的结构框图,如图4所示,包括:
拆页模块401,用于对体检报告进行拆页处理,获得多页体检报告页;
文字识别模块402,用于对每页体检报告页进行文字识别,获得每页体检报告页的文字识别结果;
定位模块403,用于根据每页体检报告页的文字识别结果,从多页体检报告页中定位所需医学长文页;
类型分类模块404,用于根据预设类型对所需医学长文页进行类型分类,确定所需医学长文页的医学长文类型;
主题分类模块405,用于根据预设主题类别对确定类型的所需医学长文页中的医学长文进行主题分类,获得主题分类结果;
归类模块406,用于基于主题分类结果,对确定类型的所需医学长文页的医学长文进行归类,获得结构化的所需医学长文页。
在本发明实施例中,所述所需医学长文页包括B超页;
所述定位模块403具体用于:
对每页体检报告页的文字识别结果进行分词处理,得到每页体检报告页的分词信息,其中,分词词表中包括构建的B超页关键词列表;
基于构建的B超页关键词列表,对每页体检报告页的分词信息进行遍历,计算每页体检报告页的分词分值;
将所述每页体检报告页的分词分值与预设阈值进行比较,若分词分值超过预设阈值,则相应的体检报告页为B超页。
在本发明实施例中,所述构建的B超页关键词列表中包括多个等级的词表,多个等级的词表的权值不同,等级越高,权值越大,多个等级的词表的权值之和不超过1;
所述定位模块403具体用于:
将构建的B超页关键词列表加入到结巴分词的词表中,对每页体检报告页的文字识别结果进行结巴分词;
基于构建的B超页关键词列表和BAG-OF-WORDS模型,对每页体检报告页的分词信息进行遍历,计算每页体检报告页的分词分值。
在本发明实施例中,所述定位模块403具体用于:
按照如下公式确定每页体检报告页的分词分值:
score(t)=∑xai+∑ybi+∑zci
其中,score(t)为每页体检报告页的分词分值;t表示页码;x、y、z分别表示构建的三个等级的词表A、B、C的权值,x+y+z≤1,z<y<x;ai、bi、ci的取值为{0,1},当有单词命中词表A、B或C中的词时,取值为1,否则取值为0;
a、b、c的数学描述分别为:
a={a1,a2,…,am};
b={b1,b2,…,bn};
c={c1,c2,…,cq};
其中,m、n、q分别表示命中词表A、B、C的单词个数。
在本发明实施例中,所述预设类型包括表格类B超页和大段长文类B超页;
所述类型分类模块404具体用于:
对历史B超页进行预设类型标注,对标注后的历史B超页分别进行文字识别和结巴分词,获得历史分词结果;
计算历史分词结果中的每个分词的TF-IDF值,将相应的分词结果中的每个分词的TF-IDF值进行从大到小排序,抽取前第一预设值个TF-IDF值对应的分词作为基础词向量;
基于所述基础词向量对第一SVM分类模型进行训练,获得已训练的第一SVM分类模型;
对当前B超页中文字识别结果进行结巴分词,获得当前分词结果,计算当前分词结果中的每个分词的TF-IDF值;
将当前分词结果添加到基础词向量中,当当前分词结果中有分词命中基础词向量中的分词时,则将基础词向量中的命中分词的TF-IDF值累加上当前分词结果中的命中分词的TF-IDF值,当当前分词结果中有分词未命中基础词向量中的分词时,则将当前分词结果中的未命中分词的TF-IDF值定为0,获得当前词向量;
基于当前词向量和已训练的第一SVM分类模型,对当前B超页进行类型分类,确定当前B超页的医学长文类型。
在本发明实施例中,所述预设主题类别包括描述内容类别、描述结论类别和其他类别;
所述主题分类模块405具体用于:
对文字识别后的历史B超长文进行文本行切分;
基于加入构建的B超页关键词列表的结巴分词词表,对文本行切分后的历史B超长文进行结巴分词处理,获得历史结巴分词结果;
基于描述内容类别、描述结论类别,对历史结巴分词结果进行标注,获得两个类别的分词结果;
分别计算两个类别的分词结果中的每个分词的TF-IDF值,分别将两个类别的分词结果中的每个分词的TF-IDF值进行从大到小排序,分别抽取前第二预设值个TF-IDF值对应的分词作为基础词向量;
基于描述内容类别对应的基础词向量和描述结论类别对应的基础词向量,对第二SVM分类模型进行训练,获得已训练的第二SVM分类模型;
对当前B超页中的文字识别结果进行文本行切分和结巴分词,获得当前分词结果,计算当前分词结果中的每个分词的TF-IDF值;
将当前分词结果分别添加到描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中,当当前分词结果中有分词命中描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中的分词时,则将描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中的命中分词的TF-IDF值累加上当前分词结果中的命中分词的TF-IDF值,当当前分词结果中有分词未命中描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中的分词时,则将当前分词结果中的未命中分词的TF-IDF值定为0,获得描述内容类别对应的当前词向量和描述结论类别对应的当前词向量;
基于描述内容类别对应的当前词向量、描述结论类别对应的当前词向量和已训练的第二SVM分类模型,对当前B超页进行主题分类,获得当前B超页的主题分类结果。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
综上所述,本发明提出的体检报告中的医学长文定位与分类方法及装置实现了体检报告影像中B超长文的定位与主题分割分类,一方面该分类结果,缩小了医学长文自然语言处理的数据范围,极大降低了医学长文解析的难度;另一方面该方法实现了B超长文的段落分类,分类结果被直接用于核保作业人员的复核系统和客户健康画像系统中,提升了核保作业效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种体检报告中的医学长文定位与分类方法,其特征在于,包括:
对体检报告进行拆页处理,获得多页体检报告页;
对每页体检报告页进行文字识别,获得每页体检报告页的文字识别结果;
根据每页体检报告页的文字识别结果,从多页体检报告页中定位所需医学长文页,所述所需医学长文页包括B超页;包括:
对每页体检报告页的文字识别结果进行分词处理,得到每页体检报告页的分词信息,其中,分词词表中包括构建的B超页关键词列表;
基于构建的B超页关键词列表,对每页体检报告页的分词信息进行遍历,计算每页体检报告页的分词分值;
将所述每页体检报告页的分词分值与预设阈值进行比较,若分词分值超过预设阈值,则相应的体检报告页为B超页;
根据预设类型对所需医学长文页进行类型分类,确定所需医学长文页的医学长文类型,所述预设类型包括表格类B超页和大段长文类B超页;包括:基于当前词向量和已训练的第一SVM分类模型,对当前B超页进行类型分类,确定当前B超页的医学长文类型;
根据预设主题类别对确定类型的所需医学长文页中的医学长文进行主题分类,获得主题分类结果,所述预设主题类别包括描述内容类别、描述结论类别和其他类别;包括:基于描述内容类别对应的当前词向量、描述结论类别对应的当前词向量和已训练的第二SVM分类模型,对当前B超页进行主题分类,获得当前B超页的主题分类结果;
基于主题分类结果,对确定类型的所需医学长文页的医学长文进行归类,获得结构化的所需医学长文页,将结构化的所需医学长文页应用于核保作业人员的复核系统和客户健康画像系统中。
2.如权利要求1所述的体检报告中的医学长文定位与分类方法,其特征在于,所述构建的B超页关键词列表中包括多个等级的词表,多个等级的词表的权值不同,等级越高,权值越大,多个等级的词表的权值之和不超过1;
对每页体检报告页的文字识别结果进行分词处理,包括:
将构建的B超页关键词列表加入到结巴分词的词表中,对每页体检报告页的文字识别结果进行结巴分词;
基于构建的B超页关键词列表,对每页体检报告页的分词信息进行遍历,计算每页体检报告页的分词分值,包括:
基于构建的B超页关键词列表和BAG-OF-WORDS模型,对每页体检报告页的分词信息进行遍历,计算每页体检报告页的分词分值。
3.如权利要求2所述的体检报告中的医学长文定位与分类方法,其特征在于,所述每页体检报告页的分词分值按照如下公式确定:
score(t)=∑xai+∑ybi+∑zci
其中,score(t)为每页体检报告页的分词分值;t表示页码;x、y、z分别表示构建的三个等级的词表A、B或C的权值,x+y+z≤1,z<y<x;ai、bi、ci的取值为{0,1},当有单词命中词表A、B、C中的词时,取值为1,否则取值为0;
a、b、c的数学描述分别为:
a={a1,a2,…,am};
b={b1,b2,…,bn};
c={c1,c2,…,cq};
其中,m、n、q分别表示命中词表A、B、C的单词个数。
4.如权利要求1所述的体检报告中的医学长文定位与分类方法,其特征在于,根据预设类型对所需医学长文页进行类型分类,确定所需医学长文页的医学长文类型,包括:
对历史B超页进行预设类型标注,对标注后的历史B超页分别进行文字识别和结巴分词,获得历史分词结果;
计算历史分词结果中的每个分词的TF-IDF值,将相应的分词结果中的每个分词的TF-IDF值进行从大到小排序,抽取前第一预设值个TF-IDF值对应的分词作为基础词向量;
基于所述基础词向量对第一SVM分类模型进行训练,获得已训练的第一SVM分类模型;
对当前B超页中文字识别结果进行结巴分词,获得当前分词结果,计算当前分词结果中的每个分词的TF-IDF值;
将当前分词结果添加到基础词向量中,当当前分词结果中有分词命中基础词向量中的分词时,则将基础词向量中的命中分词的TF-IDF值累加上当前分词结果中的命中分词的TF-IDF值,当当前分词结果中有分词未命中基础词向量中的分词时,则将当前分词结果中的未命中分词的TF-IDF值定为0,获得当前词向量;
基于当前词向量和已训练的第一SVM分类模型,对当前B超页进行类型分类,确定当前B超页的医学长文类型。
5.如权利要求1所述的体检报告中的医学长文定位与分类方法,其特征在于,
根据预设主题类别对确定类型的所需医学长文页中的医学长文进行主题分类,获得主题分类结果,包括:
对文字识别后的历史B超长文进行文本行切分;
基于加入构建的B超页关键词列表的结巴分词词表,对文本行切分后的历史B超长文进行结巴分词处理,获得历史结巴分词结果;
基于描述内容类别、描述结论类别,对历史结巴分词结果进行标注,获得两个类别的分词结果;
分别计算两个类别的分词结果中的每个分词的TF-IDF值,分别将两个类别的分词结果中的每个分词的TF-IDF值进行从大到小排序,分别抽取前第二预设值个TF-IDF值对应的分词作为基础词向量;
基于描述内容类别对应的基础词向量和描述结论类别对应的基础词向量,对第二SVM分类模型进行训练,获得已训练的第二SVM分类模型;
对当前B超页中的文字识别结果进行文本行切分和结巴分词,获得当前分词结果,计算当前分词结果中的每个分词的TF-IDF值;
将当前分词结果分别添加到描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中,当当前分词结果中有分词命中描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中的分词时,则将描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中的命中分词的TF-IDF值累加上当前分词结果中的命中分词的TF-IDF值,当当前分词结果中有分词未命中描述内容类别对应的基础词向量或描述结论类别对应的基础词向量中的分词时,则将当前分词结果中的未命中分词的TF-IDF值定为0,获得描述内容类别对应的当前词向量和描述结论类别对应的当前词向量;
基于描述内容类别对应的当前词向量、描述结论类别对应的当前词向量和已训练的第二SVM分类模型,对当前B超页进行主题分类,获得当前B超页的主题分类结果。
6.一种体检报告中的医学长文定位与分类装置,其特征在于,包括:
拆页模块,用于对体检报告进行拆页处理,获得多页体检报告页;
文字识别模块,用于对每页体检报告页进行文字识别,获得每页体检报告页的文字识别结果;
定位模块,用于根据每页体检报告页的文字识别结果,从多页体检报告页中定位所需医学长文页,所述所需医学长文页包括B超页;包括:
对每页体检报告页的文字识别结果进行分词处理,得到每页体检报告页的分词信息,其中,分词词表中包括构建的B超页关键词列表;
基于构建的B超页关键词列表,对每页体检报告页的分词信息进行遍历,计算每页体检报告页的分词分值;
将所述每页体检报告页的分词分值与预设阈值进行比较,若分词分值超过预设阈值,则相应的体检报告页为B超页;
类型分类模块,用于根据预设类型对所需医学长文页进行类型分类,确定所需医学长文页的医学长文类型,所述预设类型包括表格类B超页和大段长文类B超页;包括:基于当前词向量和已训练的第一SVM分类模型,对当前B超页进行类型分类,确定当前B超页的医学长文类型;
主题分类模块,用于根据预设主题类别对确定类型的所需医学长文页中的医学长文进行主题分类,获得主题分类结果,所述预设主题类别包括描述内容类别、描述结论类别和其他类别;包括:基于描述内容类别对应的当前词向量、描述结论类别对应的当前词向量和已训练的第二SVM分类模型,对当前B超页进行主题分类,获得当前B超页的主题分类结果;
归类模块,用于基于主题分类结果,对确定类型的所需医学长文页的医学长文进行归类,获得结构化的所需医学长文页,将结构化的所需医学长文页应用于核保作业人员的复核系统和客户健康画像系统中。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至5任一项所述方法的计算机程序。
CN201911058667.6A 2019-11-01 2019-11-01 体检报告中的医学长文定位与分类方法及装置 Active CN110889412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911058667.6A CN110889412B (zh) 2019-11-01 2019-11-01 体检报告中的医学长文定位与分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911058667.6A CN110889412B (zh) 2019-11-01 2019-11-01 体检报告中的医学长文定位与分类方法及装置

Publications (2)

Publication Number Publication Date
CN110889412A CN110889412A (zh) 2020-03-17
CN110889412B true CN110889412B (zh) 2023-04-07

Family

ID=69746705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911058667.6A Active CN110889412B (zh) 2019-11-01 2019-11-01 体检报告中的医学长文定位与分类方法及装置

Country Status (1)

Country Link
CN (1) CN110889412B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364857B (zh) * 2020-10-23 2024-04-26 中国平安人寿保险股份有限公司 基于数值抽取的图像识别方法、装置及存储介质
CN113553892A (zh) * 2020-12-31 2021-10-26 内蒙古卫数数据科技有限公司 一种基于深度学习和ocr的检验、体检报告单结果提取方法
CN113505228A (zh) * 2021-07-22 2021-10-15 上海弘玑信息技术有限公司 一种多维文本数据分类方法、训练方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108174289A (zh) * 2017-12-28 2018-06-15 泰康保险集团股份有限公司 一种影像资料处理方法、装置、介质和电子设备
CN109086756A (zh) * 2018-06-15 2018-12-25 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
CN109657062A (zh) * 2018-12-24 2019-04-19 万达信息股份有限公司 一种基于大数据技术的电子病历文本解析闭环方法
CN110135457A (zh) * 2019-04-11 2019-08-16 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110379508A (zh) * 2019-06-27 2019-10-25 苏州浪潮智能科技有限公司 识别病情陈述中疾病参考信息的装置、方法、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016151827A (ja) * 2015-02-16 2016-08-22 キヤノン株式会社 情報処理装置、情報処理方法、情報処理システム、およびプログラム
CN106528642B (zh) * 2016-10-13 2018-05-25 广东广业开元科技有限公司 一种基于tf-idf特征提取的短文本分类方法
EP3392780A3 (en) * 2017-04-19 2018-11-07 Tata Consultancy Services Limited Systems and methods for classification of software defect reports
US10606903B2 (en) * 2017-11-17 2020-03-31 International Business Machines Corporation Multi-dimensional query based extraction of polarity-aware content
CN108399953A (zh) * 2018-03-12 2018-08-14 平安健康互联网股份有限公司 基于体检报告的健康评分方法、装置及存储介质
CN109471937A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种基于机器学习的文本分类方法及终端设备
CN109271973A (zh) * 2018-11-09 2019-01-25 天津新开心生活科技有限公司 医学文本ocr方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108174289A (zh) * 2017-12-28 2018-06-15 泰康保险集团股份有限公司 一种影像资料处理方法、装置、介质和电子设备
CN109086756A (zh) * 2018-06-15 2018-12-25 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
CN109657062A (zh) * 2018-12-24 2019-04-19 万达信息股份有限公司 一种基于大数据技术的电子病历文本解析闭环方法
CN110135457A (zh) * 2019-04-11 2019-08-16 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110379508A (zh) * 2019-06-27 2019-10-25 苏州浪潮智能科技有限公司 识别病情陈述中疾病参考信息的装置、方法、设备及介质

Also Published As

Publication number Publication date
CN110889412A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
US10891427B2 (en) Machine learning techniques for generating document summaries targeted to affective tone
CN110889412B (zh) 体检报告中的医学长文定位与分类方法及装置
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
US10997560B2 (en) Systems and methods to improve job posting structure and presentation
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
US20160019293A1 (en) Interpreting and Distinguishing Lack of an Answer in a Question Answering System
CN111475615B (zh) 一种情感增强的细粒度情感预测方法、装置、系统及存储介质
US20190317986A1 (en) Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
CN108959566A (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN108090099A (zh) 一种文本处理方法及装置
CN109815481B (zh) 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN108735198B (zh) 基于医学疾病数据的语音合成方法、装置及电子设备
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN109299467A (zh) 医学文本识别方法及装置、语句识别模型训练方法及装置
US20230205994A1 (en) Performing machine learning tasks using instruction-tuned neural networks
CN110610003A (zh) 用于辅助文本标注的方法和系统
US8572081B1 (en) Identifying non-compositional compounds
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
Zhang et al. A novel approach for recommending semantically linkable issues in GitHub projects
CN109300550B (zh) 医学数据关系挖掘方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant