CN111091914B

CN111091914B - 基于病历的癌症分型分期方法及其装置

Info

Publication number: CN111091914B
Application number: CN201811237480.8A
Authority: CN
Inventors: 李雅楠; 王朋; 潘剑飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2023-11-21
Anticipated expiration: 2038-10-23
Also published as: CN111091914A

Abstract

本发明提出一种基于病历的癌症分型分期方法，其中，方法包括：首先对病人的原始病历进行数据清洗分类，获取多个类型的病历数据，再根据分型分期指标从多个类型的病历数据中获取相关的目标病历数据，然后根据预设的与分型分期指标对应的参考数据从目标病历数据中获取分型分期特征数据，最后根据与分型分期指标对应的预设规则，确定与分型分期特征数据对应的分型分期结果。由此，实现了对癌症高准确度地自动化分型分期，解决了现有技术中癌症分型分期结果准确率低的技术问题。本发明实施例还提出一种癌症分型分期装置，一种计算机程序产品，一种非临时性计算机可读存储介质。

Description

基于病历的癌症分型分期方法及其装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于病历的癌症分型分期方法及其装置。

背景技术

癌症被世界卫生组织列为世界五大疑难杂症之一，癌症的治愈率与分型分期的准确率有着紧密的联系，早确诊，早治疗，将大大提高癌症的治愈率。为了减轻医护人员的工作压力，加快癌症的诊断过程，把更多的医疗资源用于癌症的治疗，进而提高癌症的治愈率，人们尝试采用机器设备对癌症患者进行分型分期。

相关技术中，采用语言学家手工构造的语言模板对病历数据进行匹配，具体是针对不同的分型分期结果构建多个预设的语言模板，当病历数据与某个语言模板的匹配成功时，即被判定为该语言模板对应的分型分期结果。这种方法有以下不足：一是需要构造大量的语言模板，资源投入太大，二是由于人类语言描述的复杂多变性，纳入模板库中的病历描述语言具有有限性，不存在模板库中的病历数据无法被识别，导致分型分期准确度低。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于病历的癌症分型分期方法，以实现对癌症高准确度地自动化分型分期。

本发明的第二个目的在于提出一种基于病历的癌症分型分期装置。

本发明的第三个目的在于提出一种计算机程序产品。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于病历的癌症分型分期方法，包括：首先对病人的原始病历进行数据清洗分类，获取多个类型的病历数据，再根据分型分期指标从多个类型的病历数据中获取相关的目标病历数据，然后根据预设的与分型分期指标对应的参考数据从目标病历数据中获取分型分期特征数据，最后根据与分型分期指标对应的预设规则，确定与分型分期特征数据对应的分型分期结果。

另外，本发明实施例的基于病历的癌症分型分期方法，还具有如下附加的技术特征：

可选地，所述根据预设的与所述分型分期指标对应的参考数据从所述目标病历数据中获取分型分期特征数据，包括：获取预设的与所述分型分期指标对应的病理特征词表；将所述病理特征词表与所述目标病历数据进行匹配，从所述目标病历数据中获取匹配成功的数据作为所述分型分期特征数据。

可选地，所述根据预设的与所述分型分期指标对应的参考数据从所述目标病历数据中获取分型分期特征数据，包括：对所述目标病历数据进行文本分割，获取分割后的多个候选短句片段；获取预设的与所述分型分期指标对应的病理特征短句模板；将所述病理特征短句模板与每个候选短句片段进行匹配，获取匹配结果满足预设条件的候选短句片段作为所述分型分期特征数据。

可选地，所述将所述病理特征短句模板与每个候选短句片段进行匹配，获取匹配结果满足预设条件的候选短句片段作为所述分型分期特征数据，包括：按照预设算法将每个候选短句片段与所述病理特征短句模板进行相似度计算，获取每个候选短句片段与所述病理特征短句模板之间的相似度；按照预设算法计算每个候选短句片段在所述目标病历数据中的语义重要度；根据所述每个候选短句片段与所述病理特征短句模板之间的相似度，以及在所述目标病历数据中的语义重要度，获取每个候选短句片段的候选特征值；将每个候选短句片段的候选特征值与预设阈值进行比较，获取大于所述预设阈值的候选特征值对应的候选短句片段作为所述分型分期特征数据。

可选地，所述按照预设算法计算每个候选短句片段在所述目标病历数据中的语义重要度，包括：将所述每个候选短句片段切分为n个候选分词w₁,w₂...,w_n，获取每个候选分词在所属候选短句片段中的出现频次f₁,f₂...,f_n，以及所有候选短句片段中出现所述候选分词的候选短句片段s₁,s₂...,s_n，其中，所述n为大于1的正整数；根据如下公式计算所述每个候选短句片段在所述目标病历数据中的语义重要度：其中，所述tf-idf(B)为所述语义重要程度，所述m为所有候选短句片段的总数，所述B为所述每个候选短句片段。

可选地，在所述按照预设算法计算每个候选短句片段在所述目标病历数据中的语义重要度之前，还包括：将所述每个候选短句片段与预设无用词表匹配，获取匹配成功的目标无用词；将所述每个候选短句片段中的所述目标无用词过滤。

可选地，根据所述每个候选短句片段中与所述病理特征短句模板的相似度确定无关的分词，根据无关的分词更新所述预设无用词表。

本发明第二方面实施例提出了一种基于病历的癌症分型分期装置，包括：第一获取模块，用于对病人的原始病历进行数据清洗分类，获取多个类型的病历数据；第二获取模块，用于根据分型分期指标从所述多个类型的病历数据中获取相关的目标病历数据；第三获取模块，用于根据预设的与所述分型分期指标对应的参考数据从所述目标病历数据中获取分型分期特征数据；确定模块，用于根据与所述分型分期指标对应的预设规则，确定与所述分型分期特征数据对应的分型分期结果。

本发明第三方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的基于病历的癌症分型分期方法。

本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的基于病历的癌症分型分期方法。

本发明实施例提供的技术方案可以包含如下的有益效果：和现有的技术方案相比，不再对病历数据进行内容描述上的整体匹配，而是对病历数据进行特征提取，将分型分期的判断细化为多个特征数据的匹配，将特征数据的组合变化对应不同的分型分期结果，减少了资源投入，同时提高了病历数据与分型分期结果匹配的准确度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于病历的癌症分型分期方法的流程示意图；

图2-1为本发明实施例所提供的与T分型分期对应的分型分期指标；

图2-2为本发明实施例所提供的与N分型分期对应的分型分期指标；

图2-3为本发明实施例所提供的与M分型分期对应的分型分期指标；

图3为本发明实施例所提供的分型分期特征数据、参考数据、分型分期指标、分型分期结果的关系示意图；

图4为本发明实施例所提供的癌症分型分期的整个过程的示意图；

图5为本发明实施例所提供的T分型分期指标对应的病理特征词表的展示图；

图6为本发明实施例所提供的T分型分期实现案例的原理展示图；

图7为本发明实施例所提供的另一种基于病历的癌症分型分期方法的流程示意图；

图8为本发明实施例所提供的病理特征词表与目标病历数据匹配的原理展示图；

图9为本发明实施例所提供的M和N分型分期指标对应的样本名模板、指标名模板、指标值模板的展示图；

图10为本发明实施例所提供的又一种基于病历的癌症分型分期方法的流程示意图；

图11为本发明实施例所提供的一种基于病历的癌症分型分期装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于病历的癌症分型分期方法和装置。

基于上述现有技术的描述可以知道，相关技术中，通过将病历数据与预设的分型分期结果对应的描述模板进行匹配，一方面模板的覆盖程度有限，另一方面，模板直接对应于分型分析结果，模板的设置粒度较大，与复杂多变的病历描述语言对接存在较大断层，从而，导致分型分期结果准确度低。

针对这一问题，本发明实施例提供了一种基于病历的癌症分型分期方法，以较小粒度的新型匹配方式，根据病历数据对实现对癌症高准确度地自动化分型分期。图1为本发明实施例所提供的一种基于病历的癌症分型分期方法的流程示意图。如图1所示，该方法包括以下步骤：

S101，对病人的原始病历进行数据清洗分类，获取多个类型的病历数据。

应当理解的是，原始病历中包含病人个人信息、医生姓名、日期等与病情展示无关的数据，为了提高对癌症分型分期结果确定的效率和准确率，需要对原始病历进行数据清洗，剔除上述无关的数据。当然，去除上述无关数据的方式根据原始病例数据的展示形式的不同而不同，一种可能的实现方式是，按照原始病历的原始记载格式，找到原始病历中用来记载病人个人信息等与病情展示无关的数据，进行剔除。

另一种可能的实现方式是，不同类型的原始病历对检查结果的展示形式不一样，比如：胸CT报告是由文字描述以及胸CT影像图片共同组成的，手术报告是由文字描述组成的。对原始病历进行分类，对相同类型的原始病历采用相同的展示形式转化方法，转化为统一展示形式的病历数据，便于后续处理，比如将全部类型的病历数据转化为文字描述的展示形式。

进而，对原始病历数据进行初步清洗后，为了便于后续的分析和处理，按照当前常用的病历类型可以将清洗后的病历数据分为大病理，石蜡病理，冰冻病理，胸CT，PETCT，头CT，腹CT，全身骨和手术等。

S102，根据分型分期指标从多个类型的病历数据中获取相关的目标病历数据。

其中，分型分期指标对应于分型分期结果确定的规则，由于目前癌症分型分期的权威规则为TNM(Tumor，原发肿瘤的大小及浸润范围，Node，局部淋巴结受累情况，Metastasis，远隔脏器、组织中肿瘤转移情况)分型分期规则，从原发肿瘤的范围、局部淋巴结转移、远处转移等多个角度来进行癌症的分型分期判断，因而，本发明实施例中的分型分期指标可对应于与TNM规定的对应规则，比如，如图2-1所示，与T分型分期对应的分型分期指标可以包括由肿瘤直径、病发部位等与确定T分型分期结果有关的信息，如图2-2所示，与N分型分期对应的指标可以包括转移形式、转移部位等与确定N分型分期结果有关的信息，如图2-3所示，与M分型分期对应的指标可以包括有无远处转移、转移形式等与确定M分型分期结果有关的信息。

容易理解的是，与上述分型分期指标相关的病历数据对最终分型分期的结果确定具有直接意义，因而，比如：病历数据中有关肿瘤直径、肿瘤面积、淋巴结转移的内容可以确定为相关的目标病例数据。

在本发明的一个实施例中，从病历数据中获取相关的目标病历数据是通过对分型分期指标进行语义理解，而后对病历数据进行筛选实现的。一种可能的实现方式是，对分型分期指标进行分词处理，对每个分词进行同义、近义、反义转化，将分词及其同义词、近义词、反义词作为匹配关键词，在病例数据中进行匹配，将含有匹配关键词的病历数据中的文本片段筛选出来，作为目标病历数据。比如，分型分期指标是“原发肿瘤范围”，对其进行分词处理，得到原发肿瘤、范围两个分词，那么所有包含肿瘤、直径、大小、范围、块状突起、突变等词语的文本片段都被筛选出来，作为目标病历数据。

S103，根据预设的与分型分期指标对应的参考数据从目标病历数据中获取分型分期特征数据。

可以理解，预设的与分型分期指标对应的参考数据是用来描述每个分型分期指标指向不同分型分期结果的有关数据。比如，在T分型指标中，肿瘤直径小于等于一厘米则指向的T分型分期结果为T1a，肿瘤直径大于7厘米，则指向的T分型分期结果为T4，也就是说，参考数据是分型分期指标对应的考量标准，通过确定目标病历数据与参考数据的比对结果，可以确定出目标病历数据指向的最终分型分期结果。

需要强调的是，本发明实施例中，根据预设的与分型分期指标对应的参考数据从目标病历数据中获取分型分期特征数据，以便于进一步根据分型分期特征数据确定分型分期结果，一方面，比对的粒度是与分型分期指标对应的参考数据，参考数据对应于分型分期指标的多种考量标准，这种标准受到病历数据的丰富的语言描述的影响较小，实用性较强，比如，参考数据包括直径大小时，无论病例语言怎样描述，在考量该参考数据时，只识别病例数据中的肿瘤直径的大小等，模糊了病例语言的特殊化描述，另一方面，在比对时，本发明中也不是直接将目标病例数据与参考数据进行文本匹配，而是，提取与参考数据对应的分型分期特征数据，根据特征指向进一步确定分型分期结果，由于特征是指向数据的本质特性，因而，进一步弱化了病历数据语言的多元化描述，从目标病历数据的本质上挖掘与参考数据的对应关系，准确度更高，覆盖率更广。

S104，根据与分型分期指标对应的预设规则，确定与分型分期特征数据对应的分型分期结果。

正如以上分析的，如图3所示，在本发明的实施例中，分型分期特征数据用于描述目标病历数据和参考数据的关系，参考数据用于描述分型分期指标与分型分期特征数据的关系，分型分期指标指向最终的分型分期结果，因而，根据分型分期特征数据可以确定出对应的分型分期结果。

在实际执行过程中，预先设置与分型分期指标对应的预设规则，该预设规则用于限定出每个分型分期指标对应的参考数据以及参考数据对应的分型分期特征数据。该预设规则可以体现为表格形式也可以体现为深度模型等，在此不作限制。

当然，在实际执行过程中，由于目标病历数据类型有多种，因而，在获取同样的分型分期特征数据时，可能存在于多个目标病历数据中，在本发明的一个实施例中，针对同样的参考数据，在获取目标病历数据中对应的分型分期特征数据时，还可结合该参考数据在不同类型的目标病历数据中的权重来确定以哪个目标病历数据中获取到的分型分期特征数据为准。举例而言，在获取的参数数据为肿瘤直径时，由于该参考数据在不同类型的病历数据中的优先级从高到低为：胸CT>PETCT>大病理>石蜡病理>冰冻病理>手术，因而，当存在多种类型的目标病历数据中均包含对肿瘤直径的描述时，以优先级较高的类型的目标病历数据中的肿瘤直径作为与肿瘤直径对应的分型分期特征数据。

由此，本发明实施例中的基于病历的癌症分型分期方法，如图4所示，首先获取病人的原始病历，接着，对病人的原始病历进行数据清洗分类，将病人的病历数据梳理为多个类型的病历数据，进而，为了提高分型分期的效率，对病历数据进行病历理解，初步筛选掉与分型分期结果无关的病历数据，根据分型分期指标从多个类型的病历数据中获取相关的目标病历数据，进一步抽取目标病例数据中与分型分期指标对应的特征，根据预设的与分型分期指标对应的参考数据从目标病历数据中获取分型分期特征数据，以在特征粒度进行分型分期结果的确定，最终，根据与分型分期指标对应的预设规则，确定与分型分期特征数据对应的分型分期结果。

综上所述，本发明实施例的基于病历的癌症分型分期方法，在获取病人的病历数据后，经过预清洗等步骤后，根据分型分期指标对应的参考数据提取基于参考数据的分型分期特征数据，基于覆盖率较高的描述分型分期指标的参考数据粒度，提取与参考数据对应的分型分期特征数据，基于反映数据本质特性的特征数据最终确定出分型分期结果，准确率较高。

基于以上实施例，需要说明的是，参考数据的内容是多元化的，因而，从目标病历数据中获取分型分期特征数据的方式也具有多样化，为了使得本领域技术人员更加清楚地了解如何从目标病历数据中获取分型分期特征数据，下面分别以参考数据为不同的表现形式为例进行说明。

在本发明的一个实施例中，参考数据为对病理特征词表，该病理特征词表中包含了多种对分型分期指标的病理特征描述，该方式适用于对每个分型分期的结果确定。为了描述的方便，在本实施例中，以对T分型分期指标为例进行描述，从而，如图5所示，T分型分期指标对应的病理特征词表包括肺样本名词表等病变部位对应的名词表，症状词表以及直径词表等衡量发病程度的词表等。具体而言，如图6所示，T分型分期指标中对应的病理特征词表包括单发、多发、多原发等症状词、以及对侧肺、同一肺叶等病变部位词时，首先将目标病历数据与上述症状词和部位词匹配，从目标病历数据中获取匹配成功的数据作为分型分期特征数据(图中未示出)，进而，根据分型分期特征数据确定出最后的分型分期结果，比如，继续参照图6，通过将目标病历数据与上述症状词和部位词匹配后，可以得出最后的T分型结果可能为T3、T4等，另外，正如以上分析的，当获取与“单发”匹配的病历特征数据时，需要参考对应的分型分期特征数据在每一个病历类型中的权重，根据权重最高的分型分期特征数据确定最后的T分型结果，当然，在实际操作过程中，T、N、M分型分期判断具有交叉重叠的分支，如图6所示，在与“多原发”匹配时可能会得到M分期的结果，该分支与本申请的技术方案无关，在此不再赘述。。

具体而言，如图7所示，基于图1的方法流程，步骤S103中根据预设的与分型分期指标对应的参考数据从目标病历数据中获取分型分期特征数据，具体包括：

S201，获取预设的与分型分期指标对应的病理特征词表。

正如以上分析的，病理特征词表中包含了与分型分期指标指向的分型分期对应的病理性描述名词，基于该病理特征词表可以全面地描述出对应的分型分期特性，比如，进行T分型分期时，可以全面地描述出发病部位、症状情况以及肿瘤直径等。

S202，将病理特征词表与目标病历数据进行匹配，从目标病历数据中获取匹配成功的数据作为分型分期特征数据。

具体地，将病理特征词表与目标病历数据进行匹配，从目标病历数据中获取匹配成功的病历数据作为分型分期特征数据，其中，可以将匹配度大于一定值的数据作为分型分期特征数据，在实际匹配时，为了弱化病历描述语言的影响，可以基于语义进行匹配。

在本发明的一个实施例中，为了进一步提高分型分期结果确定的准确性，病理特征词表还可以包括自定义词表，即在对病历数据进行匹配时，在原有词表的基础上，在目标病历数据中确定出原有词的扩展词，以丰富病理特征词表的表达，在对病历数据进行匹配时，不断丰富病理特征词表，使得病理特征词表中覆盖的病理特征较为全面，提高了匹配的准确率。

基于以T分型为例进行举例，对病人的原始病历进行数据清洗分类，获取多个类型的病历数据后，根据分型分期指标从多个类型的病历数据中获取相关的目标病历数据，获取预设的与T分型指标对应的病理特征词表，该病理特征词表如图5所示，包括肺样本名词表、肺叶样本名词表、症状词表等，如图8所示，将病理特征词表与目标病历数据进行匹配，从目标病历数据中获取匹配成功的数据作为分型分期特征数据，进而，根据该分型分期特征数据确定分型分期结果。

在本发明的另一个实施例中，参考数据为病理特征短句模板，该病理特征短句模板包含了多种对分型分期指标的病理特征描述，该方式适用于对每个分型分期的结果确定，为了描述的方便，在本实施例中，以M和N分型分期指标为例进行描述，如图9所示，M和N分型分期指标对应的病例特征短句模板包括肺门、支气管淋巴结等器官部位对应的样本名模板，癌、瘤等指标名模板和可见、考虑、符合，可能，不除外等指标值模板等，该病理特征短句模板中以样本名、指标名和指标值为模板与目标病历数据进行匹配，粒度更小，更够更加全面的覆盖M和N分型分期结果对应的病理性特点。

具体而言，如图10所示，基于图1的方法流程，步骤S103中根据预设的与分型分期指标对应的参考数据从目标病历数据中获取分型分期特征数据，具体包括：

S301，对目标病历数据进行文本分割，获取分割后的多个候选短句片段。

应当理解的是，本实施例采用目标病历数据与病理特征短句模板匹配的方式从目标病历数据中获取分型分期特征数据，预先将目标病历数据进行文本分割，比如按照词性、标点符号等进行文本分割。

S302，获取预设的与分型分期指标对应的病理特征短句模板。

其中，病理特征短句模板是由如图9所示的样本名、指标名、指标值等词语拼接而成的，与通常的病历特征描述语句相比，简明扼要，重点突出。比如选取图9中的样本名为肾上腺，指标名为癌、转移，指标值为可能性大，那么拼接得到的病理特征短句模板是肾上腺癌转移可能性大。需要说明的是，对应于每个分型分期指标，都存在至少一个病理特征短句模板，不同的病历特征短句模板对应着该分型分期指标下的不同的分型分期特征数据。

S303，将病理特征短句模板与每个候选短句片段进行匹配，获取匹配结果满足预设条件的候选短句片段作为分型分期特征数据。

具体地，病理特征短句模板与候选短句片段匹配的方式有多种。一种可能的实现方式是，按照预设算法将每个候选短句片段与病理特征短句模板进行相似度计算，获取每个候选短句片段与病理特征短句模板之间的相似度，按照预设算法计算每个候选短句片段在目标病历数据中的语义重要度，根据每个候选短句片段与病理特征短句模板之间的相似度，以及在目标病历数据中的语义重要度，获取每个候选短句片段的候选特征值，将每个候选短句片段的候选特征值与预设的阈值进行比较，获取大于预设阈值的候选特征值对应的候选短句片段作为分型分期特征数据。

进一步地，按照预设算法将每个候选短句片段与病理特征短句模板进行相似度计算是为了将候选短句片段与病理特征短句模板进行比较，一种可能的实现方式是，将候选短句片段与病理特征短句模板拆分为字词，比较其中相同字词的数量占总字词数的比值。举例来说，候选短句片段为“肾上腺存在结节，考虑转移”，拆分为字词后为肾上腺、存在、结节、考虑、转移，病理特征短句模板为“肾上腺癌转移可能性大”，拆分为字词后为肾上腺、癌、转移、可能性大，比较两组字词，发现相同字词为肾上腺、转移，共两个字词，总字词数为九，则二者的相似度为2/9。

按照预设算法计算每个候选短句片段在目标病历数据中的语义重要度是为了从将候选短句片段与其他候选短句进行比较，从全部候选短句片段中筛选重要的候选短句片段。一种可能的实现方式是，以候选短句片段中候选分词出现的频率作为语义重要度的评价标准，具体地，将每个候选短句片段切分为n个候选分词w₁,w₂...,w_n，获取每个候选分词在所属候选短句片段中的出现频次f₁,f₂...,f_n，以及所有候选短句片段中出现候选分词的候选短句片段s₁,s₂...,s_n，其中，n为大于1的正整数。根据如下公式计算每个候选短句片段在目标病历数据中的语义重要度：其中，tf-idf(B)为语义重要程度，m为所有候选短句片段的总数，B为每个候选短句片段。比如，共有5个候选短句片段，将每个候选片段切分为2个候选分词，当前候选短句片段中的2个候选分词在当前候选短句片段中各出现1次，在所有候选短句片段中分别出现5次和1次，那么当前候选短句片段的语义重要度为/>可见，候选短句片段的每个候选分词重复出现的次数越高，则候选短句片段的语义重要度越大。

根据每个候选短句片段与病理特征短句模板之间的相似度，以及在目标病历数据中的语义重要度，获取每个候选短句片段的候选特征值，同时综合考虑了相似度和语义重要度对于匹配结果的影响。一种可能的实现方式是，候选特征值为相似度和语义重要度的加权平均值，即L＝w₁*S+w₂*T，其中，L为候选特征值，S为相似度，T为语义重要度，w₁和w₂为权数。另一种可能的实现方式是，候选特征值为相似度和语义重要度的几何平均值，即其中，k为比例系数。又一种可能的实现方式是，候选特征值为相似度和语义重要度的加权调和平均值，即/>

为了提高病理特征短句模板与候选短句片段匹配的准确度，减少候选短句片段中无用词对匹配结果的干扰。一种可能的实现方式是，在按照预设算法计算每个候选短句片段在模板病历数据中的语义重要度之前，将每个候选短句片段与预设无用词表匹配，获取匹配成功的目标无用词，将每个候选短句片段中的目标无用词过滤。

进一步地，考虑到候选短句片段的不断变化，静态的预设无用词表无法满足不同候选短句片段过滤无用词的需求。一种可能的实现方式是，根据每个候选短句片段中与病理特征短句模板的相似度确定无关的分词，根据无关的分词更新预设无用词表。

需要强调的是，本发明实施例中的病理特征短句模板是由样本名、指标名、指标值等词语拼接而成，类似于前述病理特征词表的自定义词表对原有特征词表的丰富，可以根据病理特征短句模板与候选短句片段匹配的结果，在候选短句片段中确定出原有词语的拓展词，为样本名、指标名、指标值等词语建立拓展词表，并且随着匹配次数的增加，不断丰富拓展词表的内容，进而丰富病理特征短句模板的表达，使得病理特征短句模板覆盖的病理特征描述方式更加全面，提高了匹配的准确率。

综上所述，本发明实施例的基于病历的癌症分型分期方法，基于每种分型分期特征进行更细粒度的参考数据的确定，一方面，参考数据的类型与分型分期指标适配，可以更加全面的覆盖分型分期对应的病理特征，另一方面，参考数据还可以基于病历数据不断丰富，基于病历数据不断扩展参考数据的描述，进一步提高了确定分型分期结果的准确性。

为了实现上述实施例，本发明实施例还提出一种基于病历的癌症分型分期装置，图11为本发明实施例所提供的一种基于病历的癌症分型分期装置的结构示意图，如图11所示，该装置包括：第一获取模块410，第二获取模块420，第三获取模块430，确定模块440。

第一获取模块410，用于对病人的原始病历进行数据清洗分类，获取多个类型的病历数据。

第二获取模块420，用于根据分型分期指标从多个类型的病历数据中获取相关的目标病历数据。

第三获取模块430，用于根据预设的与分型分期指标对应的参考数据从目标病历数据中获取分型分期特征数据。

确定模块440，用于根据与分型分期指标对应的预设规则，确定与分型分期特征数据对应的分型分期结果。

需要说明的是，前述对基于病历的癌症分型分期方法实施例的解释说明也适用于该实施例的基于病历的癌症分型分期装置，此处不再赘述。

综上所述，本发明一个实施例的基于病历的癌症分期装置，首先对病人的原始病历进行数据清洗分类，获取多个类型的病历数据，再根据分型分期指标从多个类型的病历数据中获取相关的目标病历数据，然后根据预设的与分型分期指标对应的参考数据从目标病历数据中获取分型分期特征数据，最后根据与分型分期指标对应的预设规则，确定与分型分期特征数据对应的分型分期结果。由此，实现了对癌症高准确度地自动化分型分期，解决了现有技术中癌症分型分期结果准确率低的技术问题。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的基于病历的癌症分型分期方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的基于病历的癌症分型分期方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于病历的癌症分型分期方法，其特征在于，包括以下步骤：

对病人的原始病历进行数据清洗，以剔除与病情展示无关的数据；

将清洗后的病历数据分类，获取多个类型的病历数据；

根据分型分期指标从所述多个类型的病历数据中获取相关的目标病历数据；

根据预设的与所述分型分期指标对应的参考数据从所述目标病历数据中获取分型分期特征数据；

根据与所述分型分期指标对应的预设规则，确定与所述分型分期特征数据对应的分型分期结果；

所述根据分型分期指标从所述多个类型的病历数据中获取相关的目标病历数据，包括：

对所述分型分期指标进行分词处理；

对每个分词进行同义、近义、反义转化，并将分词及其同义词、近义词、反义词作为匹配关键词；

在病例数据中进行匹配，将含有所述匹配关键词的病历数据中的文本片段筛选出来，作为所述目标病历数据；

所述根据预设的与所述分型分期指标对应的参考数据从所述目标病历数据中获取分型分期特征数据，包括：

获取预设的与所述分型分期指标对应的病理特征词表；

将所述病理特征词表与所述目标病历数据进行匹配，从所述目标病历数据中获取匹配成功的数据作为所述分型分期特征数据；或

对所述目标病历数据进行文本分割，获取分割后的多个候选短句片段；

获取预设的与所述分型分期指标对应的病理特征短句模板；

将所述病理特征短句模板与每个候选短句片段进行匹配，获取匹配结果满足预设条件的候选短句片段作为所述分型分期特征数据。

2.如权利要求1所述的方法，其特征在于，所述将所述病理特征短句模板与每个候选短句片段进行匹配，获取匹配结果满足预设条件的候选短句片段作为所述分型分期特征数据，包括：

按照预设算法将每个候选短句片段与所述病理特征短句模板进行相似度计算，获取每个候选短句片段与所述病理特征短句模板之间的相似度；

按照预设算法计算每个候选短句片段在所述目标病历数据中的语义重要度；

根据所述每个候选短句片段与所述病理特征短句模板之间的相似度，以及在所述目标病历数据中的语义重要度，获取每个候选短句片段的候选特征值；

将每个候选短句片段的候选特征值与预设阈值进行比较，获取大于所述预设阈值的候选特征值对应的候选短句片段作为所述分型分期特征数据。

3.如权利要求2所述的方法，其特征在于，所述按照预设算法计算每个候选短句片段在所述目标病历数据中的语义重要度，包括：

将所述每个候选短句片段切分为n个候选分词w₁,w₂...,w_n，获取每个候选分词在所属候选短句片段中的出现频次f₁,f₂...,f_n，以及所有候选短句片段中出现所述候选分词的候选短句片段s₁,s₂...,s_n，其中，所述n为大于1的正整数；

根据如下公式计算所述每个候选短句片段在所述目标病历数据中的语义重要度：

其中，所述tf-idf(B)为所述语义重要程度，所述m为所有候选短句片段的总数，所述B为所述每个候选短句片段。

4.如权利要求2所述的方法，其特征在于，在所述按照预设算法计算每个候选短句片段在所述目标病历数据中的语义重要度之前，还包括：

将所述每个候选短句片段与预设无用词表匹配，获取匹配成功的目标无用词；

将所述每个候选短句片段中的所述目标无用词过滤。

5.如权利要求4所述的方法，其特征在于，还包括：

根据所述每个候选短句片段中与所述病理特征短句模板的相似度确定无关的分词，根据无关的分词更新所述预设无用词表。

6.一种基于病历的癌症分型分期装置，其特征在于，包括：第一获取模块，用于对病人的原始病历进行数据清洗，以剔除与病情展示无关的数据；将清洗后的病历数据分类，获取多个类型的病历数据；

第二获取模块，用于根据分型分期指标从所述多个类型的病历数据中获取相关的目标病历数据；

第三获取模块，用于根据预设的与所述分型分期指标对应的参考数据从所述目标病历数据中获取分型分期特征数据；

确定模块，用于根据与所述分型分期指标对应的预设规则，确定与所述分型分期特征数据对应的分型分期结果；

第二获取模块，具体用于:

对所述分型分期指标进行分词处理；

第三获取模块，具体用于：

获取预设的与所述分型分期指标对应的病理特征词表；

获取预设的与所述分型分期指标对应的病理特征短句模板；

7.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的基于病历的癌症分型分期方法。