CN112380862A - 自动获取病理信息的方法、装置和存储介质 - Google Patents

自动获取病理信息的方法、装置和存储介质 Download PDF

Info

Publication number
CN112380862A
CN112380862A CN202110061693.5A CN202110061693A CN112380862A CN 112380862 A CN112380862 A CN 112380862A CN 202110061693 A CN202110061693 A CN 202110061693A CN 112380862 A CN112380862 A CN 112380862A
Authority
CN
China
Prior art keywords
word
pathological
words
text
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110061693.5A
Other languages
English (en)
Other versions
CN112380862B (zh
Inventor
李黎
何轶兵
翟石磊
陈旺
孙安玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Champath Image Technology Co ltd
Original Assignee
Wuhan Champath Image Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Champath Image Technology Co ltd filed Critical Wuhan Champath Image Technology Co ltd
Priority to CN202110061693.5A priority Critical patent/CN112380862B/zh
Publication of CN112380862A publication Critical patent/CN112380862A/zh
Application granted granted Critical
Publication of CN112380862B publication Critical patent/CN112380862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动获取病理信息的方法、装置和存储介质,属于数据处理技术领域。该方法包括:获取原始文本并转化为可识别的文本文档;将文本文档中与病理评价无关的词语去除得到清洗后文本;对清洗后文本中的词语进行分词得到分词词组;由分词词组得到独热编码;再将独热编码输入循环神经网络得到成生成特征词向量;采用k近邻分类算法得到生成特征词向量对应词语的词类别;将词类别为病理标志词和病理特征词作为有效特征词并放入同一个病理数据结构进行存储。使用循环神经网络将词语向量化,提高了速度;可以对文本、图片、语音、纸质文档等病理报告进行处理,无需人工参与;通过基于统计学习和循环神经网络的优化训练来提升准确率。

Description

自动获取病理信息的方法、装置和存储介质
技术领域
本发明属于数据处理技术领域,特别涉及一种自动获取病理信息的方法、装置和存储介质,智能化程度高,尤其适用于从非结构病理文本中获取病理信息。
背景技术
病理报告信息的提取对医生进行疾病的诊断和治疗且有重要的参考意义,但是目前病理文本信息的提取依然由人工整理,通过人工手动将病理报告中包含的有效信息输出到计算机中。人工方法不仅耗时、低效,准确率也难以得到保证。随着计算机技术与医学诊疗的深度结合,诊疗过程中产生了海量的非结构化的文本信息,人工处理的方法越来越难以处理如此庞大的数据。
数据分析和数据挖掘技术的发展,给病理文本信息的提取带来了新的思路。通过深度学习技术,能够从复杂的文本中提取出有效的信息,将无关的信息进行去除。但是,由于医学诊疗的专业性和复杂性,深度学习技术在病理文本信息提取领域还没有得到有效的推广。
针对上述问题,本发明提供了一种基于统计学习和循环神经网络来获取病理信息的方法,极大地提高了病理文本信息提取与存储的自动化程度。
发明内容
本发明的目的是针对大量非结构病理文本中关键信息提取的应用需求,提供一种速度快、通用性好、自动化程度高的自动获取病理信息的方法、装置和存储介质。所述技术方案如下:
一方面,本发明实施例提供了一种自动获取病理信息的方法,该方法包括:
S101文本的获取与转化:获取原始文本并转化为可识别的文本文档;
S102文本清洗:通过正则匹配方法将文本文档中与病理评价无关的词语去除,得到清洗后文本;
S103分词:基于通用中文词库和专用病理词库,对清洗后文本中的词语进行分词得到分词词组;
如果词库中出现该词语,则使用正则匹配方法和有向无环图进行分词;如果词库中未出现该词语,则使用隐马尔科夫模型进行分词;
S104词语向量化:根据通用中文词库和专用病理词库中所存储的已标注词类别的词语的数量加上分词词组中词语数量生成独热编码;再将独热编码输入循环神经网络将高维度的独热编码转化成低维度的生成特征词向量;
S105 k近邻分类:采用k近邻分类算法计算生成特征词向量与文本数据库存储的特征词向量的欧氏距离,得到文本数据库存储特征词向量中与生成特征词向量距离最近的k个词语;如果存在距离为0的点,则以与文本数据库中距离为0的特征词向量对应的词类别作为生成特征词向量对应的词类别,否则将其中占比最大的词类别作为生成特征词向量对应的词类别;
S106结构存储:将词类别为病理标志词和病理特征词作为有效特征词进行存储,将无效词舍弃;同时,使用正向匹配法与反向匹配法,匹配病理标志词与病理特征词在清洗后文本中的位置,如果病理特征词和病理标志词匹配为对同一病理症状的描述,则将病理标志词和病理特征词放入同一个病理数据结构进行存储;
其中,所述文本数据库中存储通用中文词库和专用病理词库;其中,通用中文词库中仅存储词语及特征词向量,词类别默认为无效词;专用病理词库存储病理词语、相应的词类别及相应的特征词向量。
另一方面,本发明实施例还提供了一种自动获取病理信息的装置,该装置包括:
文本提取模块,用于获取原始文本并转化为可识别的文本文档;
文本处理模块,用于通过正则匹配方法将文本文档中与病理评价无关的词语去除,得到清洗后文本;基于通用中文词库和专用病理词库,对清洗后文本中的词语进行分词得到分词词组;如果词库中出现该词语,则使用正则匹配方法和有向无环图进行分词;如果词库中未出现该词语,则使用隐马尔科夫模型进行分词;根据文本数据库模块中所存储的已标注词类别的词语的数量加上分词词组中词语数量生成独热编码;采用k近邻分类算法计算生成特征词向量与文本数据库存储的特征词向量的欧氏距离,得到文本数据库存储特征词向量中与生成特征词向量距离最近的k个词语;如果存在距离为0的点,则以与文本数据库中距离为0的特征词向量对应的词类别作为生成特征词向量对应的词类别,否则将其中占比最大的词类别作为生成特征词向量对应的词类别;
文本数据库模块,用于存储通用中文词库和专用病理词库;其中,通用中文词库中仅存储词语及词向量,词类别默认为无效词,专用病理词库存储病理词语、相应的词类别及相应的词向量;如果文本处理模块得到的病理词语未包含在文本数据库模块中,则将未包含的病理词语存入;
神经网络模块,用于将独热编码转化成低维度的生成特征词向量并根据文本数据库模块中存储的病理词语及其对应的词向量进行训练以优化循环神经网络权重;
病理信息输出模块,用于将文本处理模块中提取的病理信息进行组织,并输出到图形界面向医师展示。
又一方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的自动获取病理信息的方法。
本发明实施例提供的技术方案带来的有益效果是:本发明的目的是针对大量非结构病理文本中关键信息提取的应用需求,提供一种速度快、通用性好、自动化程度高的自动获取病理信息的方法、装置和存储介质;具体地,使用循环神经网络将词语向量化,提高了速度;可以对文本、图片、语音、纸质文档等各类型的病理报告进行处理;整个处理系统都集成在计算机中,无需人工参与;通过基于统计学习和循环神经网络的优化训练来提升准确率。
附图说明
图1是本发明实施例提供的自动获取病理信息的方法的流程图;
图2是使用有向无环图进行分词的示意图;
图3是使用的循环神经网络的示意图;
图4是对提取的病理文本进行结构化存储的示意图;
图5是自动获取病理信息的装置的原理框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
实施例1
参见图1,实施例1提供了一种自动获取病理信息的方法,该方法包括:
S101文本的获取与转化:获取原始文本并转化为计算机可识别的文本文档;具体包括:通过OCR技术从图像中提取文本,通过语音识别从音频文件中提取文本,通过扫描仪从纸质文档中提取文本等。对于计算机可直接识别的格式直接添加到文本文档中。
S102文本清洗:通过正则匹配方法将文本文档中与病理评价无关的词语去除,得到清洗后文本,为常规技术,故省略详细描述。
S103分词:基于通用中文词库和专用病理词库,对清洗后文本中的词语进行分词得到分词词组;分词处理后得到一定数量的词语集合,即为分词词组。其具体过程为:如果词库(通用中文词库和专用病理词库,后同)中出现该词语,则使用正则匹配方法和有向无环图进行分词;如果词库中未出现该词语,则使用隐马尔科夫模型进行分词。进一步地,未出现该词语可以存储在文本数据库中便于后续处理。具体地,未出现的词语经步骤S105和S106处理后发现其为与病理相关的词(新病理词语)则存入专用病理词库,如果为无效词,则舍弃。
S104词语向量化:根据通用中文词库和专用病理词库中所存储的已标注词类别的词语的数量加上分词词组中词语数量生成独热编码;再将独热编码输入循环神经网络将高维度的独热编码转化成低维度的生成特征词向量;即将自然语言文本转化为数字化的特征词向量。
S105 k近邻分类:采用k近邻分类算法计算生成特征词向量与文本数据库存储的特征词向量的欧氏距离,得到文本数据库存储特征词向量中与生成特征词向量距离最近的k个词语。如果存在距离为0的点,则以与文本数据库中距离为0的特征词向量对应的词类别作为生成特征词向量对应(词语)的词类别,否则将其中占比最大的词类别作为生成特征词向量对应(词语)的词类别。其中,词类别包括但不限于病理标志词(如脑部)、病理特征词(如水肿)和无效词(如科室)等。
S106结构存储:将词类别为病理标志词和病理特征词作为有效特征词进行存储,将无效词舍弃;如将词类别为病理标志词(如脑部)和病理特征词(如水肿)作为有效特征词进行存储,将无效词(如科室)舍弃。同时,使用正向匹配法与反向匹配法,匹配病理标志词与病理特征词在清洗后文本中的位置,如果病理特征词和病理标志词匹配为对同一病理症状的描述,则将病理标志词和病理特征词放入同一个病理数据结构进行存储(存入文本数据库中)。
具体地,本实施例中的k取20,当然其个数可根据实际分类情况确定,相应地,词类别也可根据病理检测的需求相应增加。从文本数据库中得到20个词类别,并以其中词语数量最多的类别作为yi的词类别,假设20个词语中有10个为病理标志词、6个为无效词、4个为病理特征词,则判断yi对应的词语为病理标志词。最后,将k近邻分类中词类别为病理标志词(如脑部)和病理特征词(如水肿)作为有效词进行存储,将无效词(如科室)舍弃。
其中,在步骤S101- S106中,文本数据库中存储通用中文词库和专用病理词库等;其中,通用中文词库中仅存储词语及特征词向量,词类别默认为无效词;专用病理词库存储病理词语、相应的词类别及相应的特征词向量。
其中,原始文本的格式包括单不限于手写报告(可通过扫描获取)、图片格式和音频格式等中的一种或多种。
其中,在步骤S102中,与病理评价无关的词语包括但不限于无法识别的乱码、标点符号、停词和语气词等中的一种或多种。
其中,参见图2,步骤S103具体包括:
S1031:加载文本数据库中的存储的通用中文词库和专用病理词库。
S1032:使用正则匹配方法,切分出汉字、英文以及其它特殊字符(如罗马字母等)等构成的短语。
S1033:将短语按单个字符切分,构建有向无环图,根据通用中文词库和专用病理词库中各词语出现的频率,得到有向无环图中每条路径连通的概率。其中,得到的概率为使用最短路径算法求解有向无图过程每条路径的权重。
S1034:使用最短路径算法求解有向无环图,构建切分组合将短语切分成数个词语组成的词组。
参见图2,有向无环图过程具体可以为:假设待切分的短语为“积水性脑水肿”,按单个字符进行拆分可以拆分为“积”、“水”、“性”、“脑”、“水”和“肿”;按双字符拆分可分为“积水”、“水性”、“脑水”和“水肿”。有向无环图为图中没有循环路径的图结构,从图中一个结点出发,必然以另一个结点结束。有向无环图中存在的路径包括:“积”→“水”→“性”→“脑”→“水”→“肿”,“积”→“水性”→“脑”→“水”→“肿”,“积”→“水”→“性”→“脑”→“水肿”,“积”→“水”→“性”→“脑水”→“肿”,“积”→“水性”→“脑”→“水肿”,“积水”→“性”→“脑”→“水”→“肿”,“积水”→“性”→“脑”→“水肿”,“积水”→“性”→“脑水”→“肿”。图中的箭头表示当前节点的词出现时,下一次节点出现的概率,通过最短路径算法,找到组合概率最大路径,即为当前短语的最佳分词组合,实施例中概率最大的组合为:“积水”→“性”→“脑”→“水肿”。本实施例仅给出了应用时一种分词情况,在对其它文本进行分词时,同样可以使用该方法进行分词。
S1035:对于通用中文词库和专用病理词库中未出现的新词,使用隐马尔科夫模型进行分词。
其中,在步骤S104中,独热编码为一个高维度的向量,向量中只有其中一个维度值为1,其余维度值均为0。独热编码的维度大于通用中文词库和专用病理词库中所存储的词语的数量加上分词词组中词语的数量。
其中,在步骤S104中,生成特征词向量的生成过程为:
S1041:通过独热编码生成高维向量xi,i=1,……,N;其中,N为分词词组中词语数量,设置初始偏置量h0全为0。
S1042:通过函数M由hi-1计算得到hi,即:
Figure 100002_DEST_PATH_IMAGE002AA
S1043:通过以下公式计算得到xi对应的特征词向量yi,公式如下:
Figure 100002_DEST_PATH_IMAGE004AA
S1044:偏置量hi-1更新为hi,对高维向量xi+1,重复步骤S1042-S1043,得到xi+1对应的特征词向量yi+1
S1045:重复步骤S1042-S1044,直到计算出N个高维向量对应的特征词向量为止。
其中,图3中虚线框所包围的对第i个词语及第i+1个词语进行运算的循环神经网络实际上为同一个循环神经网络,将循环神经网络沿时间线展开得到如图所示的神经网络结构。循环神经网络包括输出层、隐藏层和输出层,hi-1、hi和hi+1为保存文本上下文信息的偏置向量,其中,所述循环神经网络包括输出层、隐藏层和输出层,hi-1、hi和hi+1为保存文本上下文信息的偏置向量。
其中,函数M为隐藏层中对偏置向量进行运算的函数,函数M为双曲正切函数,函数M的表达式为:
Figure DEST_PATH_IMAGE006AA
其中,函数F为隐藏层中对独热编码进行运算的函数,函数F为双曲正切函数,函数F的表达式为:
Figure DEST_PATH_IMAGE008AA
其中,函数G为输出层中对隐藏层的输出进行运算的函数,函数G为Sigmoid函数,函数G的表达式为:
Figure DEST_PATH_IMAGE010AA
上述函数M、F、G中,将x中的每一个值代入函数进行运算,得到同样长度的向量。
在对第i+1个词语进行计算时,神经网络函数M、F和G权重不变,输入的偏置向量由hi-1变为hi
其中,步骤S105具体包括:
S1501:获取步骤S104得到特征词向量yi(生成特征向量),i=1,……,N;其中,N为分词词组中词语数量,yi为一个向量[yi1,yi2……,yim],其中m为生成特征词向量的长度;
S1502:文本数据库中存储的词向量记为yj’,j=1,……,N’;其中, N’为文本数据库中词语的数量,计算yi与yj’之间的欧氏距离dj;其中,dj的计算公式为:
Figure DEST_PATH_IMAGE012AA
式中yi与yj’的长度都为m,q为1到m;
S1503:对dj进行排序,选出距离最小的k个词向量,k为20-40;
S1504:如果生成特征词向量与文本数据库中某个词语的特征词向量的距离为0,则说明该词语已在文本数据库中,则以文本数据库中存储的词语的词类别作为该词语的词类别,否则执行S1505;
S1505:从文本数据库中得到k个词语的词类别,并将其中占比最大的词类别(数量最多的词类别)作为yi的词类别。
其中,步骤S106中,正向匹配为计算清洗后文本中上一个病理标志词(M1)之后、当前病理标志词(M2)之前的病理特征词(F1)与当前病理标志词(M2)之间的距离,如果病理特征词(F1)与当前病理标志词(M2)的距离比其与上一个病理标志词(M1)的距离近,则判断该病理特征词(F1)和当前病理标志词(M2)属于同一病理数据结构;反之,则判断病理特征词F1和上一个病理标志词M1属于同一病理数据结构。
反向匹配为计算当前病理标志词(M2)之后、下一个病理标志词(M3)之前的病理特征词(F2)与两个病理标志词(M2和M3)之间的距离,如果病理特征词(F2)与当前病理标志词(M2)的距离比其与下一个病理标志词(M3)的距离近,则判断该病理特征词(F2)和当前病理标志词(M2)属于同一病理数据结构;反之,则判断病理特征词F2和下一个病理标志词M3属于同一病理数据结构;
正向匹配的方向与文本排列顺序相同,反向匹配的方向与文本排列顺序相反;正向匹配和反向匹配可同时进行,也可只选择其中一种匹配方式进行匹配。
储存病理文本的数据结构为多叉树。
其具体过程为:病理标志词为描述人体某个器官或组织等的病理名词,在本专利中具体可以由M表示;病理特征词为描述特定器官或组织相关症状等的动词或形容词,在本专利中具体可以由F表示。假设一组词组出现的顺序为病理标志词M1、病理特征词F1、病理标志词M2、病理特征词F2、病理标志词M3。对于病理标志词M2,正向匹配为计算M1与F1之间的距离DM1F1以及M2与F1之间的距离DM2F1,如果DM1F1大于DM2F1,则说明病理特征词F1与病理标志词M2的距离比病理特征词F1与病理标志词M1的距离近,从而判断病理特征词F1和病理标志词M2属于同一病理数据结构。反向匹配为计算F2与M2的距离DF2M2以及F2与M3的距离DF2M3,如果DF2M3大于DF2M2,则说明F2与M2的距离比F2与M3的距离近,从而判断F2和M2属于同一病理数据结构。
参见图4,本实施例中使用多叉树结构对病理文本进行存储,假设需要存储的病理词语有:“脑部”,“水肿”,“出血”,“积水性”,“渗透性”,“血管源性”,“静脉”和“动脉”;其中,“水肿”和“出血”为描述“脑部”的词语,“积水性”、“渗透性”和“血管源性”为描述“水肿”的词语,“静脉”和“动脉”为描述出血的词语,在存储时以关键词和特征词组合的形式进行存储,病理标志词和病理特征词组成一个病理结构,对于多叉树的单个结点,可以有单个关键词和多个描述词,将多叉树展开时,描述词为关键词的子结点,例如,“水肿”和“出血”为关键词“脑部”的描述词,(“水肿”:“积水性”、“渗透性”、“血管源性”)、(“出血”:“静脉”、“动脉”)结点为(“脑部”:“水肿”,“出血”)结点的子结点。同样地,“水肿”的描述词“积水性”、“渗透性”和“血管源性”,“出血”的描述词“静脉”和“动脉”也可以有相应的描述词。通过以多叉树的形式对病理文本进行存储,可以实现病理词语的快速查找和图形化显示,大大方便了医生的查阅。
进一步地,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的自动获取病理信息的方法。
实施例2
参见图5,实施例2提供了一种自动获取病理信息的装置,该装置包括:
文本提取模块,用于获取原始文本并转化为可识别的文本文档,具体可通过OCR技术从图像中提取文本,通过语音识别从音频文件中提取文本,通过扫描仪从纸质文档中提取文本。
文本处理模块,用于通过正则匹配方法将文本文档中与病理评价无关的词语去除,得到清洗后文本。基于通用中文词库和专用病理词库,对清洗后文本中的词语进行分词得到分词词组。如果词库中出现该词语,则使用正则匹配方法和有向无环图进行分词;如果词库中未出现该词语,则使用隐马尔科夫模型进行分词;根据文本数据库模块中所存储的已标注词类别的词语的数量加上分词词组中词语数量生成独热编码。采用k近邻分类算法计算生成特征词向量与文本数据库存储的特征词向量的欧氏距离,得到文本数据库存储特征词向量中与生成特征词向量距离最近的k个词语;如果存在距离为0的点,则以与文本数据库中距离为0的特征词向量对应的词类别作为生成特征词向量对应(词语)的词类别,否则将其中占比最大的词类别作为生成特征词向量对应(词语)的词类别。
文本数据库模块,用于存储通用中文词库和专用病理词库;其中,通用中文词库中仅存储词语及特征词向量,词类别默认为无效词;专用病理词库存储病理词语、相应的词类别及相应的特征词向量。如果文本处理模块得到的病理词语未包含在文本数据库模块中,则将未包含的病理词语(无效词需要舍弃)存入(具体为存入专用病理词库)。
神经网络模块,用于将独热编码转化成低维度的生成特征词向量并根据文本数据库模块(具体为通用中文词库和专用病理词库)中存储的病理词语及其对应的词向量进行训练以优化循环神经网络权重。具体地,神经网络模块可分为预测子模块和训练子模块,词语向量化过程中,将独热编码作为预测子模块的输入,预测子模块中使用已经训练好的循环神经网络进行运算,得到低维度的生成特征词向量。文本处理模块得到的新病理词语(由隐马尔科夫模型得到且不为无效词)会添加到文本数据库模块中(具体为存入专用病理词库),训练子模块使用文本数据库模块中存储的病理词语及其对应的词向量进行训练,优化循环神经网络权重。
病理信息输出模块,用于将文本处理模块中提取的病理信息进行组织,并输出到图形界面向医师展示;具体为常规的显示屏。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.自动获取病理信息的方法,其特征在于,所述方法包括:
S101文本的获取与转化:获取原始文本并转化为可识别的文本文档;
S102文本清洗:通过正则匹配方法将文本文档中与病理评价无关的词语去除,得到清洗后文本;
S103分词:基于通用中文词库和专用病理词库,对清洗后文本中的词语进行分词得到分词词组;
如果词库中出现该词语,则使用正则匹配方法和有向无环图进行分词;如果词库中未出现该词语,则使用隐马尔科夫模型进行分词;
S104词语向量化:根据通用中文词库和专用病理词库中所存储的已标注词类别的词语的数量加上分词词组中词语数量生成独热编码;再将独热编码输入循环神经网络将高维度的独热编码转化成低维度的生成特征词向量;
S105 k近邻分类:采用k近邻分类算法计算生成特征词向量与文本数据库存储的特征词向量的欧氏距离,得到文本数据库存储特征词向量中与生成特征词向量距离最近的k个词语;如果存在距离为0的点,则以与文本数据库中距离为0的特征词向量对应的词类别作为生成特征词向量对应的词类别,否则将其中占比最大的词类别作为生成特征词向量对应的词类别;
S106结构存储:将词类别为病理标志词和病理特征词作为有效特征词进行存储,将无效词舍弃;同时,使用正向匹配法与反向匹配法,匹配病理标志词与病理特征词在清洗后文本中的位置,如果病理特征词和病理标志词匹配为对同一病理症状的描述,则将病理标志词和病理特征词放入同一个病理数据结构进行存储;
其中,所述文本数据库中存储通用中文词库和专用病理词库;其中,通用中文词库中仅存储词语及特征词向量,词类别默认为无效词;专用病理词库存储病理词语、相应的词类别及相应的特征词向量。
2.根据权利要求1所述的自动获取病理信息的方法,其特征在于,所述原始文本的格式包括手写报告、图片格式和音频格式中的一种或多种。
3.根据权利要求1所述的自动获取病理信息的方法,其特征在于,在步骤S102中,所述与病理评价无关的词语包括无法识别的乱码、标点符号、停词和语气词中的一种或多种。
4.根据权利要求1所述的自动获取病理信息的方法,其特征在于,步骤S103具体包括:
S1031:加载文本数据库中的存储的通用中文词库和专用病理词库;
S1032:使用正则匹配方法,切分出汉字、英文以及其它特殊字符构成的短语;
S1033:将短语按单个字符切分,构建有向无环图,根据通用中文词库和专用病理词库中各词语出现的频率,得到有向无环图中每条路径连通的概率,所述概率为使用最短路径算法求解有向无图过程每条路径的权重;
S1034:使用最短路径算法求解有向无环图,构建切分组合将短语切分成数个词语组成的词组;
S1035:对于通用中文词库和专用病理词库中未出现的新词,使用隐马尔科夫模型进行分词。
5.根据权利要求1所述的自动获取病理信息的方法,其特征在于,在步骤S104中,所述独热编码为一个高维度的向量,向量中只有其中一个维度值为1,其余维度值均为0;所述独热编码的维度大于通用中文词库和专用病理词库中所存储的词语的数量加上分词词组中词语的数量。
6.根据权利要求1所述的自动获取病理信息的方法,其特征在于,在步骤S104中,所述生成特征词向量的生成过程为:
S1041:通过独热编码生成高维向量xi,i=1,……,N;其中,N为分词词组中词语数量,设置初始偏置量h0全为0;
S1042:通过函数M由hi-1计算得到hi,即:
Figure DEST_PATH_IMAGE002AA
S1043:通过以下公式计算得到xi对应的特征词向量yi,公式如下:
Figure DEST_PATH_IMAGE004AA
S1044:偏置量hi-1更新为hi,对高维向量xi+1,重复步骤S1042-S1043,得到xi+1对应的特征词向量yi+1
S1045:重复步骤S1042-S1044,直到计算出N个高维向量对应的特征词向量为止;
其中,所述循环神经网络包括输出层、隐藏层和输出层,hi-1、hi和hi+1为保存文本上下文信息的偏置向量,函数M为隐藏层中对偏置向量进行运算的函数,函数M为双曲正切函数,函数F为隐藏层中对独热编码进行运算的函数,函数F为双曲正切函数,函数G为输出层中对隐藏层的输出进行运算的函数,函数G为Sigmoid函数。
7.根据权利要求6所述的自动获取病理信息的方法,其特征在于,步骤S105具体包括:
S1501:获取步骤S104得到特征词向量yi,i=1,……,N;其中,N为分词词组中词语数量,yi为一个向量[yi1,yi2……,yim],其中m为生成特征词向量的长度;
S1502:文本数据库中存储的词向量记为yj’,j=1,……,N’;其中, N’为文本数据库中词语的数量,计算yi与yj’之间的欧氏距离dj;其中,dj的计算公式为:
Figure DEST_PATH_IMAGE006A
式中yi与yj’的长度都为m,q为1到m;
S1503:对dj进行排序,选出距离最小的k个词向量,所述k为20-40;
S1504:如果生成特征词向量与文本数据库中某个词语的特征词向量的距离为0,则说明该词语已在文本数据库中,则以文本数据库中存储的词语的词类别作为该词语的词类别,否则执行S1505;
S1505:从文本数据库中得到k个词语的词类别,并将其中占比最大的词类别作为yi的词类别。
8.根据权利要求1所述的自动获取病理信息的方法,其特征在于,步骤S106中,
正向匹配为计算清洗后文本中上一个病理标志词M1之后、当前病理标志词M2之前的病理特征词F1与当前病理标志词M2之间的距离,如果病理特征词F1与当前病理标志词M2的距离比其与上一个病理标志词M1的距离近,则判断该病理特征词F1和当前病理标志词M2属于同一病理数据结构;
反向匹配为计算当前病理标志词M2之后、下一个病理标志词M3之前的病理特征词F2与两个病理标志词M2和M3之间的距离,如果病理特征词F2与当前病理标志词M2的距离比其与下一个病理标志词M3的距离近,则判断该病理特征词F2和当前病理标志词M2属于同一病理数据结构;
储存病理文本的数据结构为多叉树。
9.自动获取病理信息的装置,其特征在于,包括:
文本提取模块,用于获取原始文本并转化为可识别的文本文档;
文本处理模块,用于通过正则匹配方法将文本文档中与病理评价无关的词语去除,得到清洗后文本;基于通用中文词库和专用病理词库,对清洗后文本中的词语进行分词得到分词词组;如果词库中出现该词语,则使用正则匹配方法和有向无环图进行分词;如果词库中未出现该词语,则使用隐马尔科夫模型进行分词;根据文本数据库模块中所存储的已标注词类别的词语的数量加上分词词组中词语数量生成独热编码;采用k近邻分类算法计算生成特征词向量与文本数据库存储的特征词向量的欧氏距离,得到文本数据库存储特征词向量中与生成特征词向量距离最近的k个词语;如果存在距离为0的点,则以与文本数据库中距离为0的特征词向量对应的词类别作为生成特征词向量对应的词类别,否则将其中占比最大的词类别作为生成特征词向量对应的词类别;
文本数据库模块,用于存储通用中文词库和专用病理词库;其中,通用中文词库中仅存储词语及特征词向量,词类别默认为无效词;专用病理词库存储病理词语、相应的词类别及相应的特征词向量;如果文本处理模块得到的病理词语未包含在文本数据库模块中,则将未包含的病理词语存入;
神经网络模块,用于将独热编码转化成低维度的生成特征词向量并根据文本数据库模块中存储的病理词语及其对应的词向量进行训练以优化循环神经网络权重;
病理信息输出模块,用于将文本处理模块中提取的病理信息进行组织,并输出到图形界面向医师展示。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的自动获取病理信息的方法。
CN202110061693.5A 2021-01-18 2021-01-18 自动获取病理信息的方法、装置和存储介质 Active CN112380862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110061693.5A CN112380862B (zh) 2021-01-18 2021-01-18 自动获取病理信息的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110061693.5A CN112380862B (zh) 2021-01-18 2021-01-18 自动获取病理信息的方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN112380862A true CN112380862A (zh) 2021-02-19
CN112380862B CN112380862B (zh) 2021-04-02

Family

ID=74581970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110061693.5A Active CN112380862B (zh) 2021-01-18 2021-01-18 自动获取病理信息的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112380862B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626460A (zh) * 2021-07-12 2021-11-09 武汉千屏影像技术有限责任公司 不同病理系统的数据交互方法、装置和存储介质
CN115048524A (zh) * 2022-08-15 2022-09-13 中关村科学城城市大脑股份有限公司 文本分类展示方法、装置、电子设备和计算机可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170251985A1 (en) * 2016-02-12 2017-09-07 Newton Howard Detection Of Disease Conditions And Comorbidities
CN108231201A (zh) * 2018-01-25 2018-06-29 华中科技大学 一种疾病数据分析处理模型的构建方法、系统及应用
CN109378053A (zh) * 2018-11-30 2019-02-22 安徽影联云享医疗科技有限公司 一种用于医学影像的知识图谱构建方法
CN109639739A (zh) * 2019-01-30 2019-04-16 大连理工大学 一种基于自动编码器网络的异常流量检测方法
CN109920541A (zh) * 2019-03-21 2019-06-21 武汉千屏影像技术有限责任公司 一种基于数据分析的病理诊断方法
US10671892B1 (en) * 2019-03-31 2020-06-02 Hyper Labs, Inc. Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170251985A1 (en) * 2016-02-12 2017-09-07 Newton Howard Detection Of Disease Conditions And Comorbidities
CN108231201A (zh) * 2018-01-25 2018-06-29 华中科技大学 一种疾病数据分析处理模型的构建方法、系统及应用
CN109378053A (zh) * 2018-11-30 2019-02-22 安徽影联云享医疗科技有限公司 一种用于医学影像的知识图谱构建方法
CN109639739A (zh) * 2019-01-30 2019-04-16 大连理工大学 一种基于自动编码器网络的异常流量检测方法
CN109920541A (zh) * 2019-03-21 2019-06-21 武汉千屏影像技术有限责任公司 一种基于数据分析的病理诊断方法
US10671892B1 (en) * 2019-03-31 2020-06-02 Hyper Labs, Inc. Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘亚南: "KNN文本分类中基于遗传算法的特征提取技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
史佳: "基于深度学习的儿科临床辅助诊断算法研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626460A (zh) * 2021-07-12 2021-11-09 武汉千屏影像技术有限责任公司 不同病理系统的数据交互方法、装置和存储介质
CN113626460B (zh) * 2021-07-12 2023-11-03 武汉千屏影像技术有限责任公司 不同病理系统的数据交互方法、装置和存储介质
CN115048524A (zh) * 2022-08-15 2022-09-13 中关村科学城城市大脑股份有限公司 文本分类展示方法、装置、电子设备和计算机可读介质
CN115048524B (zh) * 2022-08-15 2022-10-28 中关村科学城城市大脑股份有限公司 文本分类展示方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN112380862B (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN110046351B (zh) 规则驱动下基于特征的文本关系抽取方法
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
CN110413768B (zh) 一种文章题目自动生成方法
CN112380862B (zh) 自动获取病理信息的方法、装置和存储介质
US11886815B2 (en) Self-supervised document representation learning
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN111967258B (zh) 一种构建共指消解模型的方法、共指消解的方法和介质
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN111651986A (zh) 事件关键词提取方法、装置、设备及介质
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
CN115098706A (zh) 一种网络信息提取方法及装置
Niyozmatova et al. Classification based on decision trees and neural networks
CN111723571A (zh) 一种文本信息审核方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115878847B (zh) 基于自然语言的视频引导方法、系统、设备及存储介质
CN113158667A (zh) 基于实体关系级别注意力机制的事件检测方法
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN112417170A (zh) 面向不完备知识图谱的关系链接方法
Kore et al. Legal document summarization using nlp and ml techniques
CN111639189A (zh) 一种基于文本内容特征的文本图构建方法
CN115309899A (zh) 一种文本中特定内容识别存储方法及系统
CN114116953A (zh) 基于词向量的高效率语义拓展检索方法、装置及存储介质
CN112613315A (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
El-Gayar Automatic generation of image caption based on semantic relation using deep visual attention prediction
Nair et al. Understanding line plots using Bayesian Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant