CN112365948B

CN112365948B - 癌症分期预测系统

Info

Publication number: CN112365948B
Application number: CN202011165914.5A
Authority: CN
Inventors: 谢鹏飞; 贾弼然; 蔡巍; 张霞
Original assignee: Shenyang Neusoft Intelligent Medical Technology Research Institute Co Ltd
Current assignee: Shenyang Neusoft Intelligent Medical Technology Research Institute Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2023-07-18
Anticipated expiration: 2040-10-27
Also published as: CN112365948A

Abstract

本公开涉及一种癌症分期预测系统，以实现癌症分期的自动化分析，提高癌症分期的分析效率。该癌症分期预测系统包括：数据输入模块，数据处理模块，数据存储模块，以及结果输出模块，所述数据输入模块用于将目标检测报告输入到数据处理模块，该数据处理模块用于：对目标检测报告中的文本数据进行实体识别，并将实体识别的结果输入规则引擎，以得到针对目标检测报告的第一分期结果；将文本数据与每一样本报告中的文本数据进行相似度计算，并将相似度最高的目标样本报告对应的实际分期结果确定为针对目标检测报告的第二分期结果；根据第一分期结果和第二分期结果，确定针对目标检测报告的目标分期结果，并通过结果输出模块输出目标分期结果。

Description

癌症分期预测系统

技术领域

本公开涉及数据分析技术领域，具体地，涉及一种癌症分期预测系统。

背景技术

癌症分期是指根据患者的身体检查报告确定患者癌症发展和扩散程度的方法。比如，常用的肝癌分期方法是肝癌TNM分期，其中T是原发肿瘤、N是区域淋巴结、M是远端转移。

目前，癌症分期的方式通常是医生根据经验人工分析患者的身体检查报告，从而确定患者对应的癌症分期结果。但是，此种通过医生人工分析患者癌症分期情况的方式，在患者数量较多的情况下，需要医生耗费大量的时间和精力进行癌症分期的分析，无法快速得到癌症分期结果，癌症分期的分析效率较低。

发明内容

本公开的目的是提供一种癌症分期预测系统，以实现癌症分期的自动化分析，提高癌症分期的分析效率。

为了实现上述目的，本公开提供一种癌症分期预测系统，包括：

数据输入模块，与所述数据输入模块连接的数据处理模块，与所述数据处理模块相连的数据存储模块，以及与所述数据处理模块相连的结果输出模块，其中，所述数据处理模块运行有规则引擎，所述数据存储模块存储有样本报告以及对应所述样本报告的实际分期结果；

所述数据输入模块用于将目标检测报告输入到所述数据处理模块；

所述数据处理模块用于：

对所述目标检测报告中的文本数据进行实体识别，并将实体识别的结果输入所述规则引擎，以通过所述规则引擎得到针对所述目标检测报告的第一分期结果；

将所述文本数据与每一所述样本报告中的文本数据进行相似度计算，并将相似度最高的目标样本报告对应的实际分期结果确定为针对所述目标检测报告的第二分期结果；

根据所述第一分期结果和所述第二分期结果，确定针对所述目标检测报告的目标分期结果，并通过所述结果输出模块输出所述目标分期结果。

可选地，所述数据处理模块用于：

针对所述目标检测报告中的文本数据，确定所述文本数据包括至少一个主实体，并判断所述至少一个主实体是否出现在所述文本数据的同一个短句中，当所述至少一个主实体中的第一主实体和第二主实体出现在所述文本数据的同一个短句中、且所述第一主实体的实体属性与所述第二主实体的实体属性相同时，将所述第一主实体和所述第二主实体确定为同一主实体，其中，所述第二主实体为在所述文本数据中识别到的、所述第一主实体的下一个主实体。

可选地，所述数据处理模块还用于：

当所述至少一个主实体中的第一主实体和第二主实体未出现在所述文本数据的同一个短句中时，将所述第一主实体所在的短句与第二主实体所在的短句之间的实体属性确定为所述第一主实体对应的实体属性。

可选地，所述数据处理模块用于：

当在所述文本数据中识别到主实体包括部位实体属性，且所述文本数据中位于所述部位实体属性之后的其他主实体不包括部位实体属性时，确定所述部位实体属性属于所述其他主实体。

可选地，所述数据处理模块用于：

将所述目标检测报告中的文本数据和每一所述样本报告中的文本数据进行分词处理；

针对分词处理得到的每一分词，确定该分词对应的目标词向量；

针对每一样本报告，根据该样本报告中第一类分词对应的目标词向量之和、该样本报告中第二类分词对应的目标词向量之和、所述目标检测报告中第一类分词对应的目标词向量之和、以及所述目标检测报告中第二类分词对应的目标词向量之和进行相似度计算，以确定该样本报告与所述目标检测报告的相似度，其中，所述第一类分词为与分期结果不相关的分词，所述第二类分词为与分期结果相关的分词。

可选地，所述数据处理模块用于：

针对分词处理得到的每一分词，通过词向量模型确定该分词的初始词向量，并根据该分词的所述初始词向量以及该分词在对应文本数据中出现的次数，确定该分词的目标词向量。

可选地，所述数据处理模块用于：

针对分词处理得到的每一分词，当该分词为与分期结果不相关的第一类分词时，对该分词对应的初始词向量添加第一权重因子，以得到该分词的目标词向量，所述第一权重因子是该分词在对应文本数据中出现的次数与第一预设权重值的乘积；

当该分词为与分期结果相关的第二类分词时，对该分词对应的初始词向量添加第二权重因子，以得到该分词的目标词向量，所述第二权重因子是该分词在所述文本数据出现的次数与该分词所属的词类型对应的第二预设权重值的乘积。

可选地，所述数据处理模块用于：

针对每一样本报告，按照如下公式进行相似度计算，以确定该样本报告与目标检测报告的相似度：

其中，S表示样本报告与目标检测报告的相似度，q₁与q₂之和为1，v_t1表示所述样本报告中第一类分词对应的目标词向量之和，v_t2表示所述目标检测报告中第一类分词对应的目标词向量之和，v_p1表示所述样本报告中第二类分词对应的目标词向量之和，v_p2表示所述目标检测报告中第二类分词对应的目标词向量之和。

可选地，所述目标样本报告为多个，每一所述目标样本报告对应一种分期结果，所述数据处理模块用于：

针对每一目标样本报告，当所述目标检测报告本与该目标样本报告之间的相似度大于预设阈值时，按照如下方式确定分期结果概率，将所述分期结果概率最大的分期结果确定为针对目标检测报告的目标分期结果：

R＝C₁R₁+C₂R₂·S_max

其中，R表示所述目标分期结果，C₁表示第三预设权重值，C₂表示第四预设权重值，C₁与C₂之和为1，R₁表示所述第一分期结果，R₂表示所述第二分期结果，S_max表示所述目标检测报告与所述目标样本报告之间的相似度。

可选地，所述数据处理模块还用于针对每一目标样本报告，当所述目标检测报告与该目标样本报告之间的相似度小于或等于所述预设阈值时，将所述第一分期结果确定为所述分期结果概率。

通过上述技术方案，规则引擎内存储有预设癌症分期规范，因此数据处理模块可以根据预设癌症分期规范确定针对目标检测报告的第一分期结果。并且，数据存储模块存储有样本报告以及该样本报告的实际分期结果，因此数据处理模块可以根据样本报告确定针对目标检测报告的第二分期结果。最后数据处理模块通过融合第一分期结果和第二分期结果，得到针对目标检测报告的目标分期结果，从而实现癌症分期的自动化分析，提高癌症分期的分析效率。并且由于融合了第一分期结果和第二分期结果来确定目标分期结果，一定程度上也可以保证癌症分期结果的准确性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的癌症分期预测系统的框图；

图2是根据本公开一示例性实施例示出的癌症分期预测系统中数据处理模块的数据处理过程示意图；

图3是根据本公开一示例性实施例示出的癌症分期预测系统中数据处理模块的实体识别过程示意图；

图4是根据本公开另一示例性实施例示出的癌症分期预测系统的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

正如背景技术所言，目前癌症分期的方式通常是医生根据经验人工分析患者的身体检查报告，从而确定患者对应的癌症分期结果。但是，此种通过医生人工分析患者癌症分期情况的方式，在患者数量较多的情况下，需要医生耗费大量的时间和精力进行癌症分期的分析，无法快速得到癌症分期结果，癌症分期的分析效率较低。

有鉴于此，本申请提供一种癌症分期预测系统，以实现自动化的癌症分期分析，提高癌症分期的分析效率。

图1是根据本公开一示例性实施例示出的一种癌症分期预测系统的框图。参照图1，该癌症分期预测系统100包括：

数据输入模块101，与数据输入模块101连接的数据处理模块102，与数据处理模块相连的数据存储模块103，以及与数据处理模块相连的结果输出模块104，其中，数据处理模块102运行有规则引擎，数据存储模块103存储有样本报告以及对应样本报告的实际分期结果。

数据输入模块101用于将目标检测报告输入到数据处理模块。

数据处理模块102用于：对目标检测报告中的文本数据进行实体识别，并将实体识别的结果输入规则引擎，以通过规则引擎得到针对目标检测报告的第一分期结果；将文本数据与每一样本报告中的文本数据进行相似度计算，并将相似度最高的目标样本报告对应的实际分期结果确定为针对目标检测报告的第二分期结果；根据第一分期结果和第二分期结果，确定针对目标检测报告的目标分期结果，并通过结果输出模块104输出目标分期结果。

示例的，数据输入模块101可以用于获取用户输入的目标检测报告，比如数据输入模块101可以用于获取用户输入的CT(Computed Tomography，电子计算机断层扫描)影像报告或DR(Digital Radiography，直接数字化X射线摄影系统)影像报告，然后将获取到的目标检测报告输入数据处理模块103进行后续的数据处理和数据分析，以得到该目标检测报告对应的目标癌症分期结果。或者，数据输入模块101可以与CT系统或DR系统通信连接，在此种情况下，数据输入模块101可以直接从CT系统或DR系统获取目标检测报告，然后将获取到的目标检测报告输入数据处理模块103进行后续的数据处理和数据分析，以得到该目标检测报告对应的目标癌症分期结果。应当理解的是，上述只是举例说明，本公开实施例对于数据输入模块101获取目标检测报告的方式不作限定。

数据输入模块101获取到目标检测报告之后，可以将该目标检测报告输入数据处理模块102。该数据处理模块102运行有规则引擎，该规则引擎可以用于根据预设癌症分期规则对输入的数据进行分析，以得到目标检测报告对应的第一分期结果。比如，在肝癌TNM分期预测中，数据处理模块102可以先对目标检测报告中的文本数据进行实体识别，以识别出影像报告对应的患者部位、原发肿瘤、肿瘤大小、肿瘤数量、血管侵犯和区域淋巴结转移等信息。然后数据处理模块102可以将实体识别的结果输入规则引擎，规则引擎可以根据预设的TNM分期规范判断T、N、M结果。比如通过实体识别确定影像报告的文本数据中包括用于描述患者体内存在一个小于等于2厘米的肝部肿瘤的文字，那么根据规则引擎中预设的TNM分期规范可以确定T为T1a。如果通过实体识别确定影像报告的文本数据中包括用于描述患者体内存在非肝部的转移肿瘤的文字，那么根据规则引擎中预设的TNM分期规范可以确定M为M1，等等。之后可以根据得到的T、N、M结果来判断肝癌分期，比如T、N、M结果分别为T1a、N0、M0，那么可以确定癌症分期结果为I期，即可以得到针对目标检测报告的第一分期结果为I期。

在得到第一分期结果的同时或之后，可以从与数据处理模块102相连的数据存储模块103获取样本报告以及对应的样本报告的实际分期结果。其中，样本报告可以是针对大量患者得到的多个CT影像报告或多个DR影像报告。每一样本报告的实际分期结果可以是通过医生针对该样本报告进行人工分析而得到的。目前，由于医疗机构均采用电子数据管理系统，因此医生对患者检查报告进行人工分析得到癌症分期结果后，会把该检查报告对应的癌症分期结果输入电子数据管理系统中进行存储。在此种情况下，数据存储模块可以从医疗机构的电子数据管理系统中获取多个历史患者的检查报告以及该检查报告对应的实际分期结果，即数据存储模块可以从医疗机构的电子数据管理系统获取样本报告以及该样本报告对应的实际分期结果进行存储。

在获取到数据存储模块103存储的样本报告以及该样本报告的实际分期结果之后，数据处理模块102可以将目标检测报告的文本数据与每一样本报告的文本数据进行文本相似度计算，并将相似度最高的目标样本报告对应的实际分期结果确定为针对目标检测报告的第二分期结果。在此之后，数据处理模块102可以融合目标检测报告的第一分期结果和第二分期结果，确定针对目标检测报告的目标分期结果，并将该目标分期结果输入到结果输出模块104，从而通过结果输出模块104输出目标分期结果。

示例地，结果输出模块104可以包括屏幕和/或音频组件。其中屏幕例如可以是触摸屏、LED显示屏等等，用于显示目标检测报告的目标分期结果。音频组件用于输出和/或输入音频信号。例如，音频组件可以包括至少一个扬声器，用于输出表征目标检测报告的目标分期结果的语音提示信息。

通过上述癌症分期预测系统，参照图2，数据处理模块可以针对影像检测报告进行实体识别，并将实体识别结果输入规则引擎，从而通过规则引擎确定针对影像检测报告的第一分期结果。并且，可以根据样本报告与影像检测报告进行相似度计算，确定针对影像检测报告的第二分期结果，最后融合第一分期结果和第二分期结果，以得到针对该影像检测报告的目标分期结果，并且可以通过数据输出模块输出目标分期结果。

其中，规则引擎内存储有预设癌症分期规范，因此数据处理模块可以根据预设癌症分期规范确定针对目标检测报告的第一分期结果。并且，数据存储模块存储有样本报告以及该样本报告的实际分期结果，因此数据处理模块可以根据样本报告确定针对目标检测报告的第二分期结果。最后数据处理模块通过融合第一分期结果和第二分期结果，得到针对目标检测报告的目标分期结果，从而实现癌症分期的自动化分析，提高癌症分期的分析效率。并且由于融合了第一分期结果和第二分期结果来确定目标分期结果，一定程度上也可以保证癌症分期结果的准确性。

为了使得本领域技术人员更加理解本公开实施例提供的癌症分期预测系统。下面对数据处理模块的数据处理和数据分析过程进行详细举例说明。

数据处理模块在接收到数据输入模块输入的目标检测报告之后，首先可以对该目标检测报告的文本数据进行实体识别，比如可以通过BILSTM(Bi-directional LongShort-Term Memory，双向长短时记忆循环神经网络)结合CRF(Conditional RandomField，条件随机场)的识别模型进行实体识别，等等，本公开实施例对此不作限定。

根据上文的举例可知，通过实体识别可以识别出影像报告对应的患者部位、原发肿瘤、肿瘤大小、肿瘤数量、血管侵犯和区域淋巴结转移等信息。进一步，还需要识别出哪几个实体是说的一件事，比如识别出两个肿瘤和两个肿瘤大小，需要知道识出的肿瘤大小分别属于哪个肿瘤，即需要将两个肿瘤与两个肿瘤大小进行准确对应。为了实现该目的，本公开实施例中的数据处理模块还可以进行实体划分。

示例地，数据处理模块可以用于：针对目标检测报告中的文本数据，确定文本数据包括至少一个主实体，并判断至少一个主实体是否出现在该文本数据的同一个短句中，当至少一个主实体中的第一主实体和第二主实体出现在文本数据的同一个短句中、且第一主实体的实体属性与第二主实体的实体属性相同时，将第一主实体和第二主实体确定为同一主实体，其中，第二主实体为在文本数据中识别到的、第一主实体的下一个主实体。

其中，主实体可以是与癌症分期结果直接相关的实体。比如，根据上文举例可知，在肝癌TNM分期预测中，原发肿瘤、区域淋巴结转移和血管侵犯的情况均与肝癌分期结果直接相关，因此可以将目标检测报告中用于描述的“原发肿瘤”、“区域淋巴结转移”和“血管侵犯”这三类情况的实体预先定义为主实体。在此种情况下，针对目标检测报告中的文本数据，可以先确定该文本数据是否包括用于描述“原发肿瘤”、“区域淋巴结转移”和“血管侵犯”这三类情况的至少一个主实体。如果确定该文本数据中包括至少一个主实体，则可以进一步判断该至少一个主实体是否出现在该文本数据的同一个短句中。其中短句是指对文本中的以句号结尾的一句话根据标点符号“；”、“，”拆分后得到的句子。

当该至少一个主实体中的第一主实体和第二主实体出现在文本数据的同一个短句中、且第一主实体的实体属性与第二主实体的实体属性相同时，则将第一主实体和第二主实体确定为同一主实体。其中，第一主实体可以是至少一个主实体中的任一主实体，第二主实体可以是在目标检测报告对应的文本数据中识别到的、第一主实体的下一个主实体。应当理解的是，由于实体识别过程是从目标检测报告对应的文本数据的开头依次进行识别，直到识别到该文本数据的末尾。因此，识别出的实体具有相对顺序。也即是说，在确定第一主实体之后，可以确定该文本数据中第一主实体的下一个主实体。

示例地，主实体的实体属性可以是用于描述该主实体特性的信息。比如，在肝癌TNM分期预测中，针对“肿瘤”这一主实体，该肿瘤的大小、所属部位等特性则为该主实体对应的实体属性。在本公开实施例中，若同一短句中的第一主实体与第二主实体具有相同的实体属性，则可以将该第一主实体与该第二主实体确定为同一主实体。比如，识别出的第一主实体为“肿瘤”，第二主实体为“原发肿瘤”，且该第一主实体的实体属性“部位”和该第二主实体的实体属性“部位”均为肝右叶，则可以将第一主实体和第二主实体作为同一主实体，即目标检测报告中的“肿瘤”和“原发肿瘤”描述的是同一个肿瘤。

通过上述方式，可以针对目标检测报告的文本数据进行实体识别之后进行实体划分，准确区分目标检测报告中哪些主实体描述的是同一数据信息，从而得到更加准确的实体识别结果，进而提高规则引擎根据实体识别结果得到第一分期结果的准确性。

在可能的情况下，数据处理模块还用于当至少一个主实体中的第一主实体和第二主实体未出现在文本数据的同一个短句中时，将第一主实体所在的短句与第二主实体所在的短句之间的实体属性确定为第一主实体对应的实体属性。

应当理解的是，若第一主实体与第二主实体不在同一短句中，则说明第一主实体和第二主实体很可能不是同一主实体。在此种情况下，若第一主实体和第二主实体之间出现实体属性，则可以将该实体属性确定为第一主实体对应的实体属性。比如，第一主实体为“肿瘤”，第二主实体为“淋巴结”，并且在该第一主实体和第二主实体之间包括实体属性“大小约为32×42毫米”，则可以确定该实体属性为第一主实体“肿瘤”对应的实体属性。

通过此种方式，可以将目标检测报告对应的文本数据中的实体属性与主实体进行更加准确的对应，避免将实体属性与错误的主实体进行对应或者无法确定实体属性对应的主实体的情况，从而得到更加准确的实体识别结果，进而提高规则引擎根据实体识别结果得到第一分期结果的准确性。

在可能的情况下，数据处理模块还用于当在文本数据中识别到主实体包括部位实体属性，且文本数据中位于该部位实体属性之后的其他主实体不包括部位实体属性时，确定该部位实体属性属于该其他主实体。

示例地，部位实体属性可以用于表征实体对应的部位信息。比如，目标检测报告对应的文本数据包括“肝右叶见一巨大不规则肿瘤”，在此种情况下，可以识别到“肿瘤”为主实体，“肝右叶”为该主实体的部位实体属性。

在本公开实施例中，当在目标检测报告的文本数据中识别到主实体包括部位实体属性，且该文本数据中位于该部位实体属性之后的其他主实体不包括任意部位实体属性时，则可以将识别到的该主实体的部位实体属性共享给其他主实体，使得其他主实体也具有该部位实体属性。例如，目标检测报告的文本数据中包括“肝右叶见一巨大不规则肿瘤，该肿瘤大小约为32×42毫米”。在此种情况下，出现的第一个主实体“肿瘤”包括部位实体属性“肝右叶”，第二个主实体“肿瘤”不包括部位实体属性，则可以将该部位实体属性“肝右叶”共享给第二个主实体“肿瘤”。通过此种方式，在后续数据处理中，则可以明确第二主实体“肿瘤”描述的是肝右叶的肿瘤。

通过上述方式，可以针对部位实体属性进行特殊处理，使得部位实体属性与主实体之间的对应关系更加准确，从而得到更加准确的实体识别结果，进而提高规则引擎根据实体识别结果得到第一分期结果的准确性。

参照图3，针对目标检测报告对应的文本数据中以句号结尾的每一句话，数据处理模块可以先确定该句话中是否存在至少一个主实体。若不存在至少一个主实体，则数据处理模块向规则引擎返回的识别结果为：无主实体。若存在至少一个主实体，则确定该至少一个主实体中的第一主实体与第二主实体是否出现在同一个短句中。若该至少一个主实体中的第一主实体与第二主实体出现在同一个短句中，且该第一主实体与第二主实体具有相同属性，则将该第一主实体与第二主实体确定为同一主实体。若该至少一个主实体中的第一主实体与第二主实体未出现在同一个短句中，则将第一主实体所在的短句与第二主实体所在的短句之间的实体属性确定为第一主实体对应的实体属性。此外，针对部位实体属性，数据处理模块可以根据上述方式实现属性共享。最后，数据处理模块可以将识别到的所有主实体以及对应的实体属性作为实体识别结果输入规则引擎，以使规则引擎则根据该实体识别结果以及预设癌症分期规范，确定针对目标检测报告的第一分期结果。

例如，在肝癌TNM分期预测中，规则引擎根据预设的TNM分期规范判断T、N、M结果。比如，通过上述实体识别方式确定目标检测报告的文本数据中包括用于描述患者体内存在一个小于等于2厘米的肝部肿瘤的文字，那么根据规则引擎预设的TNM分期规范可以确定T为T1a。如果通过上述实体识别方式确定目标检测报告的文本数据中包括用于描述患者体内存在非肝部的转移肿瘤的文字，那么根据规则引擎预设的TNM分期规范可以确定M为M1，等等。之后可以根据得到的T、N、M结果来判断肝癌分期，比如T、N、M结果分别为T1a、N0、M0，那么可以确定癌症分期结果为I期，即可以得到针对目标检测报告的第一分期结果为I期。

在得到针对目标检测报告的第一分期结果的同时或之后，数据处理模块可以将文本数据与每一所述样本报告中的文本数据进行相似度计算。在可能的情况下，数据处理模块可以将目标检测报告中的文本数据和每一样本报告中的文本数据进行分词处理，然后针对分词处理得到的每一分词，确定该分词对应的目标词向量，接着针对每一样本报告，根据该样本报告中第一类分词对应的目标词向量之和、该样本报告中第二类分词对应的目标词向量之和、目标检测报告中第一类分词对应的目标词向量之和、以及目标检测报告中第二类分词对应的目标词向量之和进行相似度计算，以确定该样本报告与目标检测报告的相似度，其中，第一类分词为与分期结果不相关的分词，第二类分词为与分期结果相关的分词。

示例地，可以通过相关技术中的任一分词模型对目标检测报告的文本数据和每一样本报告的文本数据进行分词处理，本公开实施例对此不作限定，应当理解的是，由于本公开实施例中目标检测报告涉及部位、原发肿瘤、肿瘤大小、肿瘤数量、血管侵犯和区域淋巴结转移等特殊词，因此为了提高分词结果的准确性，还可以在分词模型中增加包括上述特殊词的自定义词典，从而通过该自定义词典对目标检测报告中的特殊词进行准确分词。

针对分词处理得到的每一分词，数据处理模块可以确定该分词对应的目标词向量。在可能的情况下，数据处理模块可以针对分词处理得到的每一分词，通过词向量模型确定该分词的初始词向量，然后根据该分词的初始词向量以及该分词在对应文本数据中出现的次数，确定该分词的目标词向量。

示例地，词向量模型可以是word2ve模型，等等，本公开实施例对此不作限定。通过词向量模型可以得到每一分词对应的初始词向量。在一可能的情况下，可以将分词的初始词向量直接作为目标词向量确定文本向量。在另一可能的情况下，为了提高结果准确性，还可以根据分词的初始词向量以及该分词在对应文本数据中出现的次数，确定该分词的目标词向量。也即是说，可以在确定分词对应的词向量的过程中考虑该分词在文本数据中的词频。

示例地，可以将分词在文本数据出现的次数作为权重因子，对该分词对应的初始向量添加该权重因子，即可以在该分词对应的初始向量的基础上加上该权重因子。但是，针对某些与分期结果紧密相关但出现次数较少的分词，仅将分词出现的次数(即词频)作为权重因子，可能导致最终相似度结果的不准确，从而导致第二分期结果的不准确。

为了解决该问题，提高第二分期结果的准确性，在可能的情况下，数据处理模块还可以针对分词处理得到的每一分词，当该分词为与分期结果不相关的第一类分词时，对该分词对应的初始词向量添加第一权重因子，以得到该分词的目标词向量，第一权重因子是该分词在对应文本数据中出现的次数与第一预设权重值的乘积；当该分词为与分期结果相关的第二类分词时，对该分词对应的初始词向量添加第二权重因子，以得到该分词的目标词向量，第二权重因子是该分词在文本数据出现的次数与该分词所属的词类型对应的第二预设权重值的乘积。其中，第一预设权重值和第二预设权重值可以根据实际情况设定，本公开实施例对此不作限定。

示例地，第一类分词用于表征与分期结果不相关的分词，比如第一类分词可以包括用于描述部位、检测时间等信息的分词。第二类分词用于表征与分期结果相关的分词，比如第二类分词可以包括用于描述原发肿瘤、肿瘤大小、肿瘤数量、血管侵犯和区域淋巴结转移等信息的分词。

针对分词处理后的每一分词，若该分词为与分期结果不相关的第一类分词，则可以先根据该分词在对应文本数据中出现的次数(即词频)与第一预设权重值的乘积确定第一权重因子，然后在该分词对应的初始词向量基础上累加第一权重因子。若该分词为与分期结果相关的第二类分词，则可以先根据该分词在文本数据出现的次数(即词频)与该分词所属的词类型对应的第二预设权重值的乘积确定第二权重因子，然后在该分词对应的初始词向量的基础上累加第二权重因子。也即是说，可以根据分词对应的词频以及词类型确定第二权重因子。

示例地，词类型可以根据实际情况预先设定，例如可以预先设定词类型包括与分期结果相关的肿瘤词类型、血管侵犯词类型和区域淋巴转移词类型。并分别针对不同的词类型设定对应的第二预设权重值。比如，针对肿瘤词类型、血管侵犯词类型和区域淋巴转移词类型可以分别设定第二预设权重值为Q1、Q2和Q3，其中，Q1>Q2>Q3，等等，本公开实施例对此不作限定。在实际应用中，可以先根据分词的语义在预设词类型中查找该分词对应的词类型。若根据分词的语义在预设词类型中查找到对应的词类型，则可以将查找到的词类型对应的第二预设权重值作为用于确定第二权重因子的第二预设权重值。

应当理解的是，若没有查找到则说明在判断分词属于第一类分词还是属于第二类分词的过程中可能出现了偏差，该分词不是与分期结果相关的第二类分词，而是与分期结果不相关的第一类分词，因此可以根据第一类分词的方式确定目标词向量。

通过上述方式，若分词为与分期结果相关的分词，则可以根据该分词对应的词频以及词类型确定权重因子，然后对该分词对应的初始词向量添加该权重因子，从而得到更加准确的目标词向量，避免仅根据分词对应的词频确定权重因子而导致的词向量结果不准确的问题。

在确定分词处理得到的每一分词对应的目标词向量之后，数据处理模块可以针对每一样本报告，根据该样本报告中第一类分词对应的目标词向量之和、该样本报告中第二类分词对应的目标词向量之和、目标检测报告中第一类分词对应的目标词向量之和、以及目标检测报告中第二类分词对应的目标词向量之和进行相似度计算，以确定该样本报告与目标检测报告的相似度。

示例地，样本报告中第一类分词对应的目标词向量之和可以表示为：

v_t1＝[y_t1+w_tf_t1,y_t2+w_tf_t2,…,y_tn+w_tf_tn] (1)

其中，v_t1表示样本报告中第一类分词对应的目标词向量之和，y_ti表示第一类分词中第i个分词的目标词向量，w_t表示第一预设权重值，f_ti表示第一类分词中第i个分词在文本数据中出现的次数(即词频)，n表示第一类分词中的分词总数。

样本报告中第二类分词对应的目标词向量之和可以表示为：

v_p1＝[y_p1+w_p1f_p1,y_p2+w_p2f_p2,…,y_pm+w_pmf_pm] (2)

其中，v_p1表示样本报告中第二类分词对应的目标词向量之和，y_pj表示第二类分词中第j个分词的目标词向量，w_pj表示第二类分词中第j个分词所属词类型对应的第二预设权重值，f_pj表示第二类分词中第j个分词在文本数据中出现的次数(即词频)，m表示第二类分词中的分词总数。

目标检测报告中第一类分词对应的目标词向量之和可以表示为：

v_t2＝[x_t1+z_tk_t1,x_t2+z_tk_t2,…,x_tl+z_tk_tl] (3)

其中，v_t2表示目标检测报告中第一类分词对应的目标词向量之和，x_ti表示第一类分词中第i个分词的目标词向量，z_t表示第一预设权重值，k_ti表示第一类分词中第i个分词在文本数据中出现的次数(即词频)，l表示第一类分词中的分词总数。

目标检测报告中第二类分词对应的目标词向量之和可以表示为：

v_p2＝[x_p1+z_p1k_p1,x_p2+z_p2k_p2,…,x_pr+z_prk_pr] (4)

其中，v_p2表示目标检测报告中第二类分词对应的目标词向量之和，x_pj表示第二类分词中第j个分词的目标词向量，z_pj表示第二类分词中第j个分词所属词类型对应的第二预设权重值，k_pj表示第二类分词中第j个分词在文本数据中出现的次数(即词频)，r表示第二类分词中的分词总数。

在可能的情况下，数据处理模块可以针对每一样本报告，按照如下方式进行相似度计算，以得到该样本报告与目标检测报告的相似度：

其中，S表示样本报告与目标检测报告的相似度，v_t1表示样本报告中第一类分词对应的目标词向量之和，v_t2表示目标检测报告中第一类分词对应的目标词向量之和，v_p1表示样本报告中第二类分词对应的目标词向量之和，v_p2表示目标检测报告中第二类分词对应的目标词向量之和。

或者，考虑到第一类分词和第二类分词在目标检测报告或样本报告中的占比，还可以在相似度计算过程中添加权重值。也即是说，数据处理模块还可以针对每一样本报告，按照如下公式进行相似度计算，以确定该样本报告与目标检测报告的相似度：

其中，q₁与q₂分别表示预设权重值，可以根据实际情况设定，比如q₁与q₂均设定为二分之一，等等，本公开实施例对此不作限定，只要q₁与q₂之和为1即可。

通过上述方式，可以得到每一样本报告与目标检测报告之间的相似度，然后数据处理模块可以确定相似度最高的目标样本报告。示例地，目标样本报告可以为一个或多个，本公开实施例对此不作限定。比如可以直接在所有样本报告中确定一个相似度最高的目标样本报告，或者可以预先将样本报告按照分期结果进行分类，每一类分期结果对应多个样本报告。然后可以在每类分期结果对应的多个样本报告中，确定相似度最高的目标样本报告，得到多个目标样本报告。

在确定目标样本报告之后，数据处理模块可以将该目标样本报告对应的实际分期结果确定为针对目标检测报告的第二分期结果。最后，数据处理模块可以根据第一分期结果和第二分期结果，确定针对目标检测报告的目标分期结果。

示例地，若目标样本报告为一个，则第二分期结果为一个。此种情况下，当目标检测报告本与目标样本报告之间的相似度大于预设阈值时，则可以将该目标样本报告的实际分期结果确定为针对目标检测报告的目标分期结果。当目标检测报告与目标样本报告之间的相似度小于或等于预设阈值时，可以将第一分期结果确定为针对目标检测报告的目标分期结果。其中，预设阈值可以根据实际情况设定，本公开实施例对此不作限定。

在其他可能的情况下，若目标样本报告为多个，则可以得到多个第二分期结果。在此种情况下，数据处理模块可以根据第一分期结果和第二分期结果确定每一个第二分期结果为目标分期结果的概率，然后确定概率最大的第二分期结果为针对目标检测报告的目标分期结果。

进一步，数据处理模块可以针对每一目标样本报告，当目标检测报告本与目标样本报告之间的相似度大于预设阈值时，按照如下方式确定分期结果概率，然后将分期结果概率最大的分期结果确定为针对目标检测报告的目标分期结果：

R＝C₁R₁+C₂R₂·S_max (7)

其中，R表示分期结果概率，C₁表示第三预设权重值，C₂表示第四预设权重值，C₁与C₂之和为1，R₁表示第一分期结果，R₂表示第二分期结果，S_max表示目标检测报告与目标样本报告之间的相似度。

通过上述方式，数据处理模块可以当目标检测报告与目标样本报告之间的相似度较高的时候，通过融合目标样本报告对应的第二分期结果与通过规则引擎得到的第一分期结果，确定每一个第二分期结果为目标分期结果的概率，最终将概率最大的第二分期结果确定为目标分期结果，相较于相关技术中人工分析患者检查报告以确定分期结果的方式，本公开实施例提供了一种新的确定分期结果的方式。并且，通过融合第一分期结果与第二分期结果确定每种分期结果概率并根据概率确定分期结果的方式，可以减少仅通过第一分期结果或仅通过第二分期结果确定目标分期结果的偏差，提高结果准确性。

在其他可能的情况下，数据处理模块还可以当目标检测报告与目标样本报告之间的相似度小于或等于预设阈值时，将第一分期结果确定为针对目标检测报告的目标分期结果。

应当理解的是，若目标检测报告与目标样本报告之间的相似度小于或等于预设阈值，则说明目标检测报告的文本数据与目标样本报告的文本数据相似度较低，即目标检测报告与目标样本报告之间存在一定差异。在此种情况下，若将目标样本报告的实际分期结果作为针对目标检测报告的第二分期结果，并进一步根据该第二分期结果与第一分期结果，确定分期结果概率，则会导致目标分期结果与实际情况的偏差较大。此外，考虑到第一分期结果是规则引擎根据目标检测报告以及预设分期规范得到的，相较于与目标检测报告相似度较低的目标样本报告的实际分期结果，该第一分期结果更符合目标检测报告的实际分期结果。因此，在此种情况下，可以将通过规则引擎得到的第一分期结果确定为分期结果概率。另外应当理解的是，将第一分期结果确定为分期结果概率可以是先对第一分期结果进行数据处理，转换为用于表征概率的数值，然后将该数值作为分期结果概率。该数据处理的过程同相关技术中概率计算的数据处理过程类似，这里不再赘述。

通过上述方式，数据处理模块可以按照如下方式确定分期结果概率，并将分期结果概率最大的分期结果确定为针对目标检测报告的目标分期结果：

其中，T_S表示预设阈值。

下面通过另一示例性实施例对本公开提供癌症分期系统的组成部件进行说明。参照图4，该癌症分期系统400可以包括：处理器401，存储器402、多媒体组件403，输入/输出(I/O)接口404，以及通信组件405中的一者或多者。

其中，处理器401运行有规则引擎，用于控制该癌症分期系统400的整体操作，可以完成上文中所述数据处理模块的任意功能。存储器402用于存储各种类型的数据以支持在该癌症分期系统400的操作，这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如样本报告以及对应样本报告的实际分期结果等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏、LED屏幕，可以用于显示目标分期结果。音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器，用于输出表征目标分期结果的音频信号。

I/O接口404为处理器401和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通过I/O接口404可以将目标检测报告输入处理器401，以得到针对目标检测报告的目标分期结果。

通信组件405用于该癌症分期预测系统400与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件405可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，癌症分期预测系统400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于针对目标检测报告进行数据分析，得到针对目标检测报告的目标分期结果。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种癌症分期预测系统，其特征在于，包括：

所述数据处理模块用于：

2.根据权利要求1所述的系统，其特征在于，所述数据处理模块用于：

3.根据权利要求2所述的系统，其特征在于，所述数据处理模块还用于：

4.根据权利要求1所述的系统，其特征在于，所述数据处理模块用于：

5.根据权利要求1-4任一项所述的系统，其特征在于，所述数据处理模块用于：

6.根据权利要求5所述的系统，其特征在于，所述数据处理模块用于：

7.根据权利要求6所述的系统，其特征在于，所述数据处理模块用于：

8.根据权利要求5所述的系统，其特征在于，所述数据处理模块用于：

其中，表示样本报告与目标检测报告的相似度，/>与/>之和为1，/>表示所述样本报告中第一类分词对应的目标词向量之和，/>表示所述目标检测报告中第一类分词对应的目标词向量之和，/>表示所述样本报告中第二类分词对应的目标词向量之和，/>表示所述目标检测报告中第二类分词对应的目标词向量之和。

9.根据权利要求1-4任一项所述的系统，其特征在于，所述目标样本报告为多个，每一所述目标样本报告对应一种分期结果，所述数据处理模块用于：

其中，表示所述目标分期结果，/>表示第三预设权重值，/>表示第四预设权重值，与/>之和为1，/>表示所述第一分期结果，/>表示所述第二分期结果，/>表示所述目标检测报告与所述目标样本报告之间的相似度。

10.根据权利要求9所述的系统，其特征在于，所述数据处理模块还用于针对每一目标样本报告，当所述目标检测报告与该目标样本报告之间的相似度小于或等于所述预设阈值时，将所述第一分期结果确定为所述分期结果概率。