CN112380862B

CN112380862B - 自动获取病理信息的方法、装置和存储介质

Info

Publication number: CN112380862B
Application number: CN202110061693.5A
Authority: CN
Inventors: 李黎; 何轶兵; 翟石磊; 陈旺; 孙安玉
Original assignee: Wuhan Champath Image Technology Co ltd
Current assignee: Wuhan Champath Image Technology Co ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-04-02
Anticipated expiration: 2041-01-18
Also published as: CN112380862A

Abstract

本发明公开了一种自动获取病理信息的方法、装置和存储介质，属于数据处理技术领域。该方法包括：获取原始文本并转化为可识别的文本文档；将文本文档中与病理评价无关的词语去除得到清洗后文本；对清洗后文本中的词语进行分词得到分词词组；由分词词组得到独热编码；再将独热编码输入循环神经网络得到成生成特征词向量；采用k近邻分类算法得到生成特征词向量对应词语的词类别；将词类别为病理标志词和病理特征词作为有效特征词并放入同一个病理数据结构进行存储。使用循环神经网络将词语向量化，提高了速度；可以对文本、图片、语音、纸质文档等病理报告进行处理，无需人工参与；通过基于统计学习和循环神经网络的优化训练来提升准确率。

Description

自动获取病理信息的方法、装置和存储介质

技术领域

本发明属于数据处理技术领域，特别涉及一种自动获取病理信息的方法、装置和存储介质，智能化程度高，尤其适用于从非结构病理文本中获取病理信息。

背景技术

病理报告信息的提取对医生进行疾病的诊断和治疗且有重要的参考意义，但是目前病理文本信息的提取依然由人工整理，通过人工手动将病理报告中包含的有效信息输出到计算机中。人工方法不仅耗时、低效，准确率也难以得到保证。随着计算机技术与医学诊疗的深度结合，诊疗过程中产生了海量的非结构化的文本信息，人工处理的方法越来越难以处理如此庞大的数据。

数据分析和数据挖掘技术的发展，给病理文本信息的提取带来了新的思路。通过深度学习技术，能够从复杂的文本中提取出有效的信息，将无关的信息进行去除。但是，由于医学诊疗的专业性和复杂性，深度学习技术在病理文本信息提取领域还没有得到有效的推广。

针对上述问题，本发明提供了一种基于统计学习和循环神经网络来获取病理信息的方法，极大地提高了病理文本信息提取与存储的自动化程度。

发明内容

本发明的目的是针对大量非结构病理文本中关键信息提取的应用需求，提供一种速度快、通用性好、自动化程度高的自动获取病理信息的方法、装置和存储介质。所述技术方案如下：

一方面，本发明实施例提供了一种自动获取病理信息的方法，该方法包括：

S101文本的获取与转化：获取原始文本并转化为可识别的文本文档；

S102文本清洗：通过正则匹配方法将文本文档中与病理评价无关的词语去除，得到清洗后文本；

S103分词：基于通用中文词库和专用病理词库，对清洗后文本中的词语进行分词得到分词词组；

如果词库中出现该词语，则使用正则匹配方法和有向无环图进行分词；如果词库中未出现该词语，则使用隐马尔科夫模型进行分词；

S104词语向量化：根据通用中文词库和专用病理词库中所存储的已标注词类别的词语的数量加上分词词组中词语数量生成独热编码；再将独热编码输入循环神经网络将高维度的独热编码转化成低维度的生成特征词向量；

S105 k近邻分类：采用k近邻分类算法计算生成特征词向量与文本数据库存储的特征词向量的欧氏距离，得到文本数据库存储特征词向量中与生成特征词向量距离最近的k个词语；如果存在距离为0的点，则以与文本数据库中距离为0的特征词向量对应的词类别作为生成特征词向量对应的词类别，否则将其中占比最大的词类别作为生成特征词向量对应的词类别；

S106结构存储：将词类别为病理标志词和病理特征词作为有效特征词进行存储，将无效词舍弃；同时，使用正向匹配法与反向匹配法，匹配病理标志词与病理特征词在清洗后文本中的位置，如果病理特征词和病理标志词匹配为对同一病理症状的描述，则将病理标志词和病理特征词放入同一个病理数据结构进行存储；

其中，所述文本数据库中存储通用中文词库和专用病理词库；其中，通用中文词库中仅存储词语及特征词向量，词类别默认为无效词；专用病理词库存储病理词语、相应的词类别及相应的特征词向量。

另一方面，本发明实施例还提供了一种自动获取病理信息的装置，该装置包括：

文本提取模块，用于获取原始文本并转化为可识别的文本文档；

文本处理模块，用于通过正则匹配方法将文本文档中与病理评价无关的词语去除，得到清洗后文本；基于通用中文词库和专用病理词库，对清洗后文本中的词语进行分词得到分词词组；如果词库中出现该词语，则使用正则匹配方法和有向无环图进行分词；如果词库中未出现该词语，则使用隐马尔科夫模型进行分词；根据文本数据库模块中所存储的已标注词类别的词语的数量加上分词词组中词语数量生成独热编码；采用k近邻分类算法计算生成特征词向量与文本数据库存储的特征词向量的欧氏距离，得到文本数据库存储特征词向量中与生成特征词向量距离最近的k个词语；如果存在距离为0的点，则以与文本数据库中距离为0的特征词向量对应的词类别作为生成特征词向量对应的词类别，否则将其中占比最大的词类别作为生成特征词向量对应的词类别；

文本数据库模块，用于存储通用中文词库和专用病理词库；其中，通用中文词库中仅存储词语及词向量，词类别默认为无效词，专用病理词库存储病理词语、相应的词类别及相应的词向量；如果文本处理模块得到的病理词语未包含在文本数据库模块中，则将未包含的病理词语存入；

神经网络模块，用于将独热编码转化成低维度的生成特征词向量并根据文本数据库模块中存储的病理词语及其对应的词向量进行训练以优化循环神经网络权重；

病理信息输出模块，用于将文本处理模块中提取的病理信息进行组织，并输出到图形界面向医师展示。

又一方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的自动获取病理信息的方法。

本发明实施例提供的技术方案带来的有益效果是：本发明的目的是针对大量非结构病理文本中关键信息提取的应用需求，提供一种速度快、通用性好、自动化程度高的自动获取病理信息的方法、装置和存储介质；具体地，使用循环神经网络将词语向量化，提高了速度；可以对文本、图片、语音、纸质文档等各类型的病理报告进行处理；整个处理系统都集成在计算机中，无需人工参与；通过基于统计学习和循环神经网络的优化训练来提升准确率。

附图说明

图1是本发明实施例提供的自动获取病理信息的方法的流程图；

图2是使用有向无环图进行分词的示意图；

图3是使用的循环神经网络的示意图；

图4是对提取的病理文本进行结构化存储的示意图；

图5是自动获取病理信息的装置的原理框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

实施例1

参见图1，实施例1提供了一种自动获取病理信息的方法，该方法包括：

S101文本的获取与转化：获取原始文本并转化为计算机可识别的文本文档；具体包括：通过OCR技术从图像中提取文本，通过语音识别从音频文件中提取文本，通过扫描仪从纸质文档中提取文本等。对于计算机可直接识别的格式直接添加到文本文档中。

S102文本清洗：通过正则匹配方法将文本文档中与病理评价无关的词语去除，得到清洗后文本，为常规技术，故省略详细描述。

S103分词：基于通用中文词库和专用病理词库，对清洗后文本中的词语进行分词得到分词词组；分词处理后得到一定数量的词语集合，即为分词词组。其具体过程为：如果词库（通用中文词库和专用病理词库，后同）中出现该词语，则使用正则匹配方法和有向无环图进行分词；如果词库中未出现该词语，则使用隐马尔科夫模型进行分词。进一步地，未出现该词语可以存储在文本数据库中便于后续处理。具体地，未出现的词语经步骤S105和S106处理后发现其为与病理相关的词（新病理词语）则存入专用病理词库，如果为无效词，则舍弃。

S104词语向量化：根据通用中文词库和专用病理词库中所存储的已标注词类别的词语的数量加上分词词组中词语数量生成独热编码；再将独热编码输入循环神经网络将高维度的独热编码转化成低维度的生成特征词向量；即将自然语言文本转化为数字化的特征词向量。

S105 k近邻分类：采用k近邻分类算法计算生成特征词向量与文本数据库存储的特征词向量的欧氏距离，得到文本数据库存储特征词向量中与生成特征词向量距离最近的k个词语。如果存在距离为0的点，则以与文本数据库中距离为0的特征词向量对应的词类别作为生成特征词向量对应（词语）的词类别，否则将其中占比最大的词类别作为生成特征词向量对应（词语）的词类别。其中，词类别包括但不限于病理标志词（如脑部）、病理特征词（如水肿）和无效词（如科室）等。

S106结构存储：将词类别为病理标志词和病理特征词作为有效特征词进行存储，将无效词舍弃；如将词类别为病理标志词（如脑部）和病理特征词（如水肿）作为有效特征词进行存储，将无效词（如科室）舍弃。同时，使用正向匹配法与反向匹配法，匹配病理标志词与病理特征词在清洗后文本中的位置，如果病理特征词和病理标志词匹配为对同一病理症状的描述，则将病理标志词和病理特征词放入同一个病理数据结构进行存储（存入文本数据库中）。

具体地，本实施例中的k取20，当然其个数可根据实际分类情况确定，相应地，词类别也可根据病理检测的需求相应增加。从文本数据库中得到20个词类别，并以其中词语数量最多的类别作为y_i的词类别，假设20个词语中有10个为病理标志词、6个为无效词、4个为病理特征词，则判断y_i对应的词语为病理标志词。最后，将k近邻分类中词类别为病理标志词（如脑部）和病理特征词（如水肿）作为有效词进行存储，将无效词（如科室）舍弃。

其中，在步骤S101- S106中，文本数据库中存储通用中文词库和专用病理词库等；其中，通用中文词库中仅存储词语及特征词向量，词类别默认为无效词；专用病理词库存储病理词语、相应的词类别及相应的特征词向量。

其中，原始文本的格式包括单不限于手写报告（可通过扫描获取）、图片格式和音频格式等中的一种或多种。

其中，在步骤S102中，与病理评价无关的词语包括但不限于无法识别的乱码、标点符号、停词和语气词等中的一种或多种。

其中，参见图2，步骤S103具体包括：

S1031：加载文本数据库中的存储的通用中文词库和专用病理词库。

S1032：使用正则匹配方法，切分出汉字、英文以及其它特殊字符（如罗马字母等）等构成的短语。

S1033：将短语按单个字符切分，构建有向无环图，根据通用中文词库和专用病理词库中各词语出现的频率，得到有向无环图中每条路径连通的概率。其中，得到的概率为使用最短路径算法求解有向无图过程每条路径的权重。

S1034：使用最短路径算法求解有向无环图，构建切分组合将短语切分成数个词语组成的词组。

参见图2，有向无环图过程具体可以为：假设待切分的短语为“积水性脑水肿”，按单个字符进行拆分可以拆分为“积”、“水”、“性”、“脑”、“水”和“肿”；按双字符拆分可分为“积水”、“水性”、“脑水”和“水肿”。有向无环图为图中没有循环路径的图结构，从图中一个结点出发，必然以另一个结点结束。有向无环图中存在的路径包括：“积”→“水”→“性”→“脑”→“水”→“肿”，“积”→“水性”→“脑”→“水”→“肿”，“积”→“水”→“性”→“脑”→“水肿”,“积”→“水”→“性”→“脑水”→“肿”,“积”→“水性”→“脑”→“水肿”，“积水”→“性”→“脑”→“水”→“肿”，“积水”→“性”→“脑”→“水肿”，“积水”→“性”→“脑水”→“肿”。图中的箭头表示当前节点的词出现时，下一次节点出现的概率，通过最短路径算法，找到组合概率最大路径，即为当前短语的最佳分词组合，实施例中概率最大的组合为：“积水”→“性”→“脑”→“水肿”。本实施例仅给出了应用时一种分词情况，在对其它文本进行分词时，同样可以使用该方法进行分词。

S1035：对于通用中文词库和专用病理词库中未出现的新词，使用隐马尔科夫模型进行分词。

其中，在步骤S104中，独热编码为一个高维度的向量，向量中只有其中一个维度值为1，其余维度值均为0。独热编码的维度大于通用中文词库和专用病理词库中所存储的词语的数量加上分词词组中词语的数量。

其中，在步骤S104中，生成特征词向量的生成过程为：

S1041：通过独热编码生成高维向量x_i，i=1,……，N；其中，N为分词词组中词语数量，设置初始偏置量h₀全为0。

S1042：通过函数M由h_i-1计算得到h_i，即：

。

S1043：通过以下公式计算得到x_i对应的特征词向量y_i，公式如下：

。

S1044：偏置量h_i-1更新为h_i，对高维向量x_i+1，重复步骤S1042-S1043，得到x_i+1对应的特征词向量y_i+1。

S1045：重复步骤S1042-S1044，直到计算出N个高维向量对应的特征词向量为止。

其中，图3中虚线框所包围的对第i个词语及第i+1个词语进行运算的循环神经网络实际上为同一个循环神经网络，将循环神经网络沿时间线展开得到如图所示的神经网络结构。循环神经网络包括输出层、隐藏层和输出层，h_i-1、h_i和h_i+1为保存文本上下文信息的偏置向量，其中，所述循环神经网络包括输出层、隐藏层和输出层，h_i-1、h_i和h_i+1为保存文本上下文信息的偏置向量。

其中，函数M为隐藏层中对偏置向量进行运算的函数，函数M为双曲正切函数，函数M的表达式为：

，

其中，函数F为隐藏层中对独热编码进行运算的函数，函数F为双曲正切函数，函数F的表达式为：

，

其中，函数G为输出层中对隐藏层的输出进行运算的函数，函数G为Sigmoid函数，函数G的表达式为：

，

上述函数M、F、G中，将x中的每一个值代入函数进行运算，得到同样长度的向量。

在对第i+1个词语进行计算时，神经网络函数M、F和G权重不变，输入的偏置向量由h_i-1变为h_i。

其中，步骤S105具体包括：

S1501：获取步骤S104得到特征词向量y_i（生成特征向量），i=1,……，N；其中，N为分词词组中词语数量，y_i为一个向量[y_i1，y_i2……，y_im]，其中m为生成特征词向量的长度；

S1502：文本数据库中存储的词向量记为y_j’，j=1,……，N’；其中, N’为文本数据库中词语的数量，计算y_i与y_j’之间的欧氏距离d_j；其中，d_j的计算公式为：

式中y_i与y_j’的长度都为m，q为1到m；

S1503：对d_j进行排序，选出距离最小的k个词向量，k为20-40；

S1504：如果生成特征词向量与文本数据库中某个词语的特征词向量的距离为0，则说明该词语已在文本数据库中，则以文本数据库中存储的词语的词类别作为该词语的词类别，否则执行S1505；

S1505：从文本数据库中得到k个词语的词类别，并将其中占比最大的词类别（数量最多的词类别）作为y_i的词类别。

其中，步骤S106中，正向匹配为计算清洗后文本中上一个病理标志词（M1）之后、当前病理标志词（M2）之前的病理特征词（F1）与当前病理标志词（M2）之间的距离，如果病理特征词（F1）与当前病理标志词（M2）的距离比其与上一个病理标志词（M1）的距离近，则判断该病理特征词（F1）和当前病理标志词（M2）属于同一病理数据结构；反之，则判断病理特征词F1和上一个病理标志词M1属于同一病理数据结构。

反向匹配为计算当前病理标志词（M2）之后、下一个病理标志词（M3）之前的病理特征词（F2）与两个病理标志词（M2和M3）之间的距离，如果病理特征词（F2）与当前病理标志词（M2）的距离比其与下一个病理标志词（M3）的距离近，则判断该病理特征词（F2）和当前病理标志词（M2）属于同一病理数据结构；反之，则判断病理特征词F2和下一个病理标志词M3属于同一病理数据结构；

正向匹配的方向与文本排列顺序相同，反向匹配的方向与文本排列顺序相反；正向匹配和反向匹配可同时进行，也可只选择其中一种匹配方式进行匹配。

储存病理文本的数据结构为多叉树。

其具体过程为：病理标志词为描述人体某个器官或组织等的病理名词，在本专利中具体可以由M表示；病理特征词为描述特定器官或组织相关症状等的动词或形容词，在本专利中具体可以由F表示。假设一组词组出现的顺序为病理标志词M1、病理特征词F1、病理标志词M2、病理特征词F2、病理标志词M3。对于病理标志词M2，正向匹配为计算M1与F1之间的距离DM1F1以及M2与F1之间的距离DM2F1,如果DM1F1大于DM2F1，则说明病理特征词F1与病理标志词M2的距离比病理特征词F1与病理标志词M1的距离近，从而判断病理特征词F1和病理标志词M2属于同一病理数据结构。反向匹配为计算F2与M2的距离DF2M2以及F2与M3的距离DF2M3，如果DF2M3大于DF2M2，则说明F2与M2的距离比F2与M3的距离近，从而判断F2和M2属于同一病理数据结构。

参见图4，本实施例中使用多叉树结构对病理文本进行存储，假设需要存储的病理词语有：“脑部”，“水肿”，“出血”，“积水性”，“渗透性”，“血管源性”，“静脉”和“动脉”；其中，“水肿”和“出血”为描述“脑部”的词语，“积水性”、“渗透性”和“血管源性”为描述“水肿”的词语，“静脉”和“动脉”为描述出血的词语，在存储时以关键词和特征词组合的形式进行存储，病理标志词和病理特征词组成一个病理结构，对于多叉树的单个结点，可以有单个关键词和多个描述词，将多叉树展开时，描述词为关键词的子结点，例如，“水肿”和“出血”为关键词“脑部”的描述词，（“水肿”：“积水性”、“渗透性”、“血管源性”）、（“出血”：“静脉”、“动脉”）结点为（“脑部”：“水肿”，“出血”）结点的子结点。同样地，“水肿”的描述词“积水性”、“渗透性”和“血管源性”，“出血”的描述词“静脉”和“动脉”也可以有相应的描述词。通过以多叉树的形式对病理文本进行存储，可以实现病理词语的快速查找和图形化显示，大大方便了医生的查阅。

进一步地，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的自动获取病理信息的方法。

实施例2

参见图5，实施例2提供了一种自动获取病理信息的装置，该装置包括：

文本提取模块，用于获取原始文本并转化为可识别的文本文档，具体可通过OCR技术从图像中提取文本，通过语音识别从音频文件中提取文本，通过扫描仪从纸质文档中提取文本。

文本处理模块，用于通过正则匹配方法将文本文档中与病理评价无关的词语去除，得到清洗后文本。基于通用中文词库和专用病理词库，对清洗后文本中的词语进行分词得到分词词组。如果词库中出现该词语，则使用正则匹配方法和有向无环图进行分词；如果词库中未出现该词语，则使用隐马尔科夫模型进行分词；根据文本数据库模块中所存储的已标注词类别的词语的数量加上分词词组中词语数量生成独热编码。采用k近邻分类算法计算生成特征词向量与文本数据库存储的特征词向量的欧氏距离，得到文本数据库存储特征词向量中与生成特征词向量距离最近的k个词语；如果存在距离为0的点，则以与文本数据库中距离为0的特征词向量对应的词类别作为生成特征词向量对应（词语）的词类别，否则将其中占比最大的词类别作为生成特征词向量对应（词语）的词类别。

文本数据库模块，用于存储通用中文词库和专用病理词库；其中，通用中文词库中仅存储词语及特征词向量，词类别默认为无效词；专用病理词库存储病理词语、相应的词类别及相应的特征词向量。如果文本处理模块得到的病理词语未包含在文本数据库模块中，则将未包含的病理词语（无效词需要舍弃）存入（具体为存入专用病理词库）。

神经网络模块，用于将独热编码转化成低维度的生成特征词向量并根据文本数据库模块（具体为通用中文词库和专用病理词库）中存储的病理词语及其对应的词向量进行训练以优化循环神经网络权重。具体地，神经网络模块可分为预测子模块和训练子模块，词语向量化过程中，将独热编码作为预测子模块的输入，预测子模块中使用已经训练好的循环神经网络进行运算，得到低维度的生成特征词向量。文本处理模块得到的新病理词语（由隐马尔科夫模型得到且不为无效词）会添加到文本数据库模块中（具体为存入专用病理词库），训练子模块使用文本数据库模块中存储的病理词语及其对应的词向量进行训练，优化循环神经网络权重。

病理信息输出模块，用于将文本处理模块中提取的病理信息进行组织，并输出到图形界面向医师展示；具体为常规的显示屏。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.自动获取病理信息的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的自动获取病理信息的方法，其特征在于，所述原始文本的格式包括手写报告、图片格式和音频格式中的一种或多种。

3.根据权利要求1所述的自动获取病理信息的方法，其特征在于，在步骤S102中，所述与病理评价无关的词语包括无法识别的乱码、标点符号、停词和语气词中的一种或多种。

4.根据权利要求1所述的自动获取病理信息的方法，其特征在于，步骤S103具体包括：

S1031：加载文本数据库中的存储的通用中文词库和专用病理词库；

S1032：使用正则匹配方法，切分出汉字、英文以及其它特殊字符构成的短语；

S1033：将短语按单个字符切分，构建有向无环图，根据通用中文词库和专用病理词库中各词语出现的频率，得到有向无环图中每条路径连通的概率，所述概率为使用最短路径算法求解有向无图过程每条路径的权重；

S1034：使用最短路径算法求解有向无环图，构建切分组合将短语切分成数个词语组成的词组；

5.根据权利要求1所述的自动获取病理信息的方法，其特征在于，在步骤S104中，所述独热编码为一个高维度的向量，向量中只有其中一个维度值为1，其余维度值均为0；所述独热编码的维度大于通用中文词库和专用病理词库中所存储的词语的数量加上分词词组中词语的数量。

6.根据权利要求1所述的自动获取病理信息的方法，其特征在于，在步骤S104中，所述生成特征词向量的生成过程为：

S1041：通过独热编码生成高维向量x_i，i=1,……，N；其中，N为分词词组中词语数量，设置初始偏置量h₀全为0；

S1042：通过函数M由h_i-1计算得到h_i，即：

；

S1044：偏置量h_i-1更新为h_i，对高维向量x_i+1，重复步骤S1042-S1043，得到x_i+1对应的特征词向量y_i+1；

S1045：重复步骤S1042-S1044，直到计算出N个高维向量对应的特征词向量为止；

其中，所述循环神经网络包括输出层、隐藏层和输出层，h_i-1和h_i为保存文本上下文信息的偏置向量，函数M为隐藏层中对偏置向量进行运算的函数，函数M为双曲正切函数，函数F为隐藏层中对独热编码进行运算的函数，函数F为双曲正切函数，函数G为输出层中对隐藏层的输出进行运算的函数，函数G为Sigmoid函数。

7.根据权利要求6所述的自动获取病理信息的方法，其特征在于，步骤S105具体包括：

S1501：获取步骤S104得到特征词向量y_i，i=1,……，N；其中，N为分词词组中词语数量，y_i为一个向量[y_i1，y_i2……，y_im]，其中m为生成特征词向量的长度；

式中y_i与y_j’的长度都为m，q为1到m；

S1503：对d_j进行排序，选出距离最小的k个词向量，所述k为20-40；

S1505：从文本数据库中得到k个词语的词类别，并将其中占比最大的词类别作为y_i的词类别。

8.根据权利要求1所述的自动获取病理信息的方法，其特征在于，步骤S106中，

正向匹配为计算清洗后文本中上一个病理标志词M1之后、当前病理标志词M2之前的病理特征词F1与当前病理标志词M2之间的距离，如果病理特征词F1与当前病理标志词M2的距离比其与上一个病理标志词M1的距离近，则判断该病理特征词F1和当前病理标志词M2属于同一病理数据结构；

反向匹配为计算当前病理标志词M2之后、下一个病理标志词M3之前的病理特征词F2与两个病理标志词M2和M3之间的距离，如果病理特征词F2与当前病理标志词M2的距离比其与下一个病理标志词M3的距离近，则判断该病理特征词F2和当前病理标志词M2属于同一病理数据结构；

储存病理文本的数据结构为多叉树。

9.自动获取病理信息的装置，其特征在于，包括：

文本数据库模块，用于存储通用中文词库和专用病理词库；其中，通用中文词库中仅存储词语及特征词向量，词类别默认为无效词；专用病理词库存储病理词语、相应的词类别及相应的特征词向量；如果文本处理模块得到的病理词语未包含在文本数据库模块中，则将未包含的病理词语存入；

病理信息输出模块，用于将文本处理模块得到的词类别为病理标志词和病理特征词作为有效特征词进行存储，将无效词舍弃；同时，使用正向匹配法与反向匹配法，匹配病理标志词与病理特征词在清洗后文本中的位置，如果病理特征词和病理标志词匹配为对同一病理症状的描述，则将病理标志词和病理特征词放入同一个病理数据结构进行存储并输出到图形界面向医师展示。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的自动获取病理信息的方法。