CN111967261B - 癌症分期信息处理方法、装置及存储介质 - Google Patents
癌症分期信息处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111967261B CN111967261B CN202011121896.0A CN202011121896A CN111967261B CN 111967261 B CN111967261 B CN 111967261B CN 202011121896 A CN202011121896 A CN 202011121896A CN 111967261 B CN111967261 B CN 111967261B
- Authority
- CN
- China
- Prior art keywords
- keyword
- character
- feature vector
- text information
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及医疗科技领域,具体公开了一种癌症分期信息处理方法、装置及存储介质,该方法包括:获取文本信息;确定所述文本信息中与癌症分期相关的第一关键词;根据所述文本信息以及所述第一关键词,确定所述第一关键词的有效性;在确定所述第一关键词有效的情况下,对所述第一关键词进行标准化,得到第二关键词;根据所述第二关键词,获取与所述第二关键词对应的癌症分期信息;和/或,将所述文本信息确定为与所述第二关键词对应的癌症分期信息。本申请有利于提高癌症分期信息获取的精确度。
Description
技术领域
本申请涉及文本识别技术领域,具体涉及一种癌症分期信息的确定方法、装置及存储介质。
背景技术
医生在诊断时,往往会输入一些关键词或者一篇电子病历,以便搜索一些一些相似的病例。这样医生可以从相似的病例中借鉴诊断治疗方案。
然而,不同分期的癌症具有完全不同的特性。比如早期癌症的临床特点和晚期癌症的临床特点就很不一样,早期癌症的诊断是一个难点,而晚期癌症的诊断则很容易。因此,如果医生输入的与癌症相关的关键词或者一篇癌症病例,那么系统返回的病例需要具有相近的癌症分期。然而,记录癌症分期额癌症信息的表现形式多种多样,比如,“二期癌症(Stage II cancer)”、“早期癌症(early cancer)”、“中晚期癌症(T2N2M0 cancer)”,等等。另外,在每个癌症分期又有不同的记录方式,比如“二期”,还可以表示为“Stage 2”,“second stage”、“stage 2-4”等。
目前,抽取信息的方式主要是使用字典和正则表达式来抽取。但是,这种抽取仅是进行了部分关键词匹配,可能导致抽取一些与癌症无关的信息。比如,通过关键词T2可能抽取出文本:“本研究旨在评价t2暗斑的诊断效果”(This study aimed to evaluate thediagnostic efficacy of T2 dark spot)”,这句文本中的T2和癌症无关,但是由于包含有关键词T2,在进行癌症分期信息抽取的时候,会把这个文本当做二期癌症信息抽取出来。
因此,现有抽取癌症信息的方式比较单一,会抽取出很多冗余和无效的信息,导致对癌症分期信息的获取缓慢,且降低医生的诊断效率和诊断精度。
发明内容
本申请实施例提供了一种癌症分期信息处理方法、装置及存储介质。通过验证关键词的有效性以及将关键词进行标准化,提高癌症分期信息的获取效率和精度。
第一方面,本申请实施例提供一种癌症分期信息处理方法,包括:
获取文本信息;
确定所述文本信息中与癌症分期相关的第一关键词;
根据所述文本信息以及所述第一关键词,确定所述第一关键词的有效性;
在确定所述第一关键词有效的情况下,对所述第一关键词进行标准化,得到第二关键词;
根据所述第二关键词,获取与所述第二关键词对应的癌症分期信息;和/或,将所述文本信息确定为与所述第二关键词对应的癌症分期信息。
第二方面,本申请实施例提供一种癌症分期信息处理装置,包括:
获取单元,用于获取文本信息;
确定单元,用于确定所述文本信息中与癌症分期相关的第一关键词;
所述确定单元,还用于根据所述文本信息以及所述第一关键词,确定所述第一关键词的有效性;
标准化单元,用于在确定所述第一关键词有效的情况下,对所述第一关键词进行标准化,得到第二关键词;
所述获取单元,还用于根据所述第二关键词,获取与所述第二关键词对应的癌症分期信息;和/或,将所述文本信息确定为与所述第二关键词对应的癌症分期信息。
第三方面,本申请实施例提供一种癌症分期信息处理装置,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如第一方面所述的方法中的步骤的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,在获取到文本信息后,先初步抽取文本信息中与癌症分期相关的第一关键词;然后,对该第一关键词进行有效性验证,而不是直接使用该第一关键词来获取对应的癌症分期信息,因此避免抽取出与癌症分期信息无关的信息,可提高癌症分期信息的获取效率;并且,在该第一关键词有效的情况下,再对该第一关键词进行标准化处理,得到标准化后的第二关键词;最后,使用该第二关键词获取对应的癌症信息时,由于第二关键词是标注后的,不会存在歧义,进而可以准确的获取到对应的癌症信息;将该文本信息作为与该第二关键词对应的癌症分期信息,即为该文本信息添加了分类标签,这样后续使用关键词检索癌症分期信息的过程,可以使关键词与该分类标签精确匹配,间接提高了获取精度和效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种癌症分期信息处理方法的流程示意图;
图2为本申请实施例提供的一种自注意机制的示意图;
图3为本申请实施例提供的一种第一网络的结构示意图;
图4为本申请实施例提供的一种第二网络的结构示意图;
图5为本申请实施例提供的一种癌症分期信息处理装置的结构示意图;
图6为本申请实施例提供的一种癌症分期信息处理装置的功能单元组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1为本申请实施例提供的一种癌症分期信息的确定方法的流程示意图。该方法应用于癌症分期信息处理装置。该方法包括以下步骤:
101:癌症分期信息处理装置获取文本信息。
其中,该文本信息可以是用户输入的文本信息,也可以是从文本库存储的目标对象中读取的,其中,该目标对象包括以下至少一种:电子文章、电子论文、电子期刊或者电子病历,等等。并且,在该文本信息为用户输入的文本信息的情况下,该文本信息用于搜索对应的癌症分期信息;在该文本信息为从文本库存储的目标对象中读取的情况下,可根据该文本信息为该目标对象添加标签,即将该目标对象确定为与该标签对应的癌症分期信息。
示例性的,癌症分期是根据癌症发生的程度将癌症分为几个不同的时期,比如,癌症一期(Stage I),癌症二期(Stage II),癌症三期(Stage III),等等。因此,癌症分期信息包括与这几个癌症时期相关的医学信息,其中,该医学信息包括癌症病例、癌症的治疗方案、与癌症研究成果相关的论文、期刊,等等。比如,一个癌症分期信息可以是癌症二期的治疗方案。
102:癌症分期信息处理装置获取所述文本信息中与癌症分期相关的第一关键词。
通过关键词抽取,从该文本信息中获取与癌症分期相关的第一关键词。
103:癌症分期信息处理装置根据文本信息以及所述第一关键词,确定所述第一关键词的有效性。
其中,该第一关键词的有效性是指该第一关键词是否是真正与癌症分期相关的关键词。比如,第一关键词为T2,且该T2是文本信息:This study aimed to evaluate thediagnostic efficacy of T2 dark spot中的关键词。由于该文本信息是与癌症分期无关的文本,则可确定出该第一关键词T2是无效的关键词;如果该T2是文本信息:“A T2 stagepatient with lung cancer”中的关键词,由于该文本信息是与癌症分期相关的文本,则可确定出该第一关键词T2是有效的关键词。
示例性的,可对该文本信息进行编码,得到第一特征向量;对该第一关键词进行编码,得到第二特征向量;将该第一特征向量与第二特征向量拼接,得到第三特征向量;根据该第三特征向量,确定该第一关键词的有效性。即根据该第三特征向量进行分类,确定该第一关键词属于有效关键词和无效关键词的分类概率,当属于有效关键的概率大于阈值时,确定该第一关键词是有效的。
示例性的,对该第一关键词进行编码,得到第二特征向量的实现过程可以包括:对该文本信息中的每个单词进行词嵌入,得到每个单词对应的词向量,对每个单词进行词嵌入,就是根据预设的映射关系将每个单词转化为对应的词向量,并且词嵌入为现有的技术手段,不做过多描述;其中,本申请所提到的单词在中文中就是指一个完整的字,在英文中就是一个完整的单词。然后,根据每个单词对应的词向量,得到该第一特征向量。示例性的,可根据每个单词对应的词向量进行语义特征提取,得到用于表征该文本信息的语义特征的第一特征向量。
示例性的,对该第一特征向量进行编码的,得到第二特征向量的实现过程可以包括:确定单一单词和第二单词在该文本信息中的位置,并根据第一单词和第二单词在该文本信息中的位置,对第一关键词进行编码,得到该第二特征向量,其中,该第一单词为该第一关键词中的第一个单词,该第二单词为该第一关键词中的最后一个单词。比如,第一关键词为“T1 stage”,则该第一单词为T1,第二单词为stage。
具体来说,获取预设向量维度并将该第二特征向量的维度设置为该预设向量维度;然后,根据该第一单词在该文本信息中的位置,确定该第一单词在该第二特征向量中的第一维度,即将该第一单词在该文本信息中的位置作为该第一单词在该第二特征向量中的第一维度;根据该第二单词在该文本信息中的位置,确定该第二单词在该第二特征向量中的第二维度,即将该第二单词在该文本信息中的位置作为该第二单词在该第二特征向量中的第二维度。最后,将该第一维度、第二维度、以及第一维度和第二维度之间的维度的取值均设置为第一预设值(比如1),将其余维度的取值均设置为第二预设值(比如0),得到该第二特征向量。
应理解,由于预先设定了第二特征向量的维度,则在该文本信息的长度大于该预设向量维度的情况下,其中,该文本信息的长度为该文本信息包含的单词的数量,可对该文本信息进行截取,得多个子文本信息,并将每个子文本信息作为上述文本信息,对每个子文本信息中的关键词进行有效性验证和标准化处理,具体过程可参见上述对第一关键词的处理过程,不再叙述。其中,每个子文本信息的包含的单词的数量小于或等于所述预设向量维度。
示例性的,若该文本信息为“A T2 stage patient with lung cancer”,且第一关键词为“T2 stage”,可以确定“T2”为该文本信息中的第二个单词,则该“T2”在第二特征向量中的维度为第二个维度,“stage”为该文本信息中的第三单词,确定“stage”在该第二特征向量中的维度为第三个维度。若该预设向量维度为100,可确定出该第二特征向量为(0,1,1,0,……,0)。然后,将该第一特征向量与该第二特征向量进行拼接,即横向拼接,得到该第三特征向量。比如,第一特征向量为(0,1,0,1,……,1),第二特征向量为(0,1,1,0,……,0),则将该第一特征向量与该第二特征向量进行横向拼接,得到的第三特征向量为(0,1,0,1,……,1,0,1,1,0,……,0)。最后,根据该第三特征向量进行分类,确定该第一关键词属于有效关键词的概率以及属于无效关键词的概率;根据该第一关键词属于有效关键词的概率以及属于无效关键词的概率,确定该第一关键词的有效性。
可以看出,在验证该第一关键词的有效性的过程中,不单单只使用该文本信息的语义特征,还结合了第一关键词在该文本信息中的位置信息。由于相同的关键词在不同的文本里面为了保证文本的顺畅,可能处于不同的位置。因此,该位置信息在一定程度上也可代表该文本信息的语义特征,结合第一关键词在该文本信息中的位置信息进行有效性识别,可以提高识别精度。
104:在确定所述第一关键词有效的情况下,癌症分期信息处理装置将所述第一关键词进行标准化,得到第二关键词。
示例性的,在确定该第一关键词属于无效关键词的情况下,则确定该第一关键词在本质上不是与癌症分期相关的关键词,可忽略该第一关键词以及该文本信息。
示例性的,该第一关键词包括至少一个字符,则可对每个字符进行词嵌入处理,得到与每个字符对应的字符向量;对每个字符对应的字符向量进行编码,得到每个字符对应的关键值向量、查询向量以及价值向量;然后,根据自注意力机制以及每个字符对应的查询向量(query)、关键值向量(key)以及价值向量(value),得到与每个字符对应的第四特征向量;根据每个字符对应的第四特征向量,确定该第一关键词对应的标准化关键词,得到该第二关键词。其中,对每个字符进行词嵌入处理,与上述对每个单词进行词嵌入处理类似,不再重复描述。
下面结合图2详细说明自注意机制的处理过程。
如图2所示,先通过词嵌入处理,得到每个字符对应的字符向量;然后,分别使用第一网络参数、第二网络参数以及第三网络参数对每个字符对应的字符向量进行编码,得到每个字符对应的查询向量、关键值向量以及价值向量。其中,该第一网络参数、第二网络参数以及第三网络参数是预先训练好的,后面详细说明该网络参数的训练过程,在此不做过多描述。
示例性的,每个字符对应的查询向量可以通过公式(1)表示:
示例性的,每个字符对应的关键值向量可以通过公式(2)表示:
示例性的,每个字符对应的价值向量可以通过公式(3)表示:
然后,确定字符A的查询向量与每个字符对应的关键值向量之间的相似度,得到该字符A与每个字符之间的权重,其中,该字符A为该至少一个字符中的任意一个字符。
示例性的,字符A与每个字符之间的权重可通过公式(4)表示:
最后,根据该字符A与每个字符之间的权重,对每个字符对应的价值向量进行加权处理,得到该字符A对应的第四特征向量。
示例性的,字符A对应的第四特征向量可通过公式(5)表示:
最后,根据每个字符对应的第四特征向量,确定该第一关键词对应的标准化关键词,即第二关键词。具体来说,根据该第四特征向量,确定落入预先设置好的多个标准化关键词中每个标准化关键词的概率,将概率最大的标准化关键词作为该第一关键词对应的标准化关键词。
可以看出,根据自注意力机制,可以将前后字符对当前字符的影响融合到第四特征向量中,而不是孤立的识别每个字符。这样,通过第四特征向量进行分类时,可提高分类精确。
105:根据所述第二关键词,获取与所述第二关键词对应的癌症分期信息;和/或,将所述文本信息确定为与所述第二关键词对应的癌症分期信息。
应理解,在该文本信息是用户输入的文本信息的情况下,则表示用户期望通过该文本信息搜索与该文本信息对应的癌症病历、期刊、文章,等等。因此,可以通过该第二关键词进行搜索,由于第二关键词是标准化后的关键词,在搜索时不会出现歧义,可以准确的搜索出用户期望获得的癌症分期信息,尽可能的减少搜索出无用信息的概率,提高搜索癌症分期的效率;在该文本信息是从文本库存储的目标对象中读取的,可确定用户是对该文本信息进行分类,将该文本信息确定为与该第二关键词对应的癌症分期信息,即使用该第二关键词为该文本信息添加分类标签,比如,该第二关键词为stage-II,则可以为该文本信息添加一个stage-II的分类标签,也就是说该文本信息是与癌症二期相关的癌症分期信息。这样为该文本信息打上标签之后,后续在搜索癌症分期信息的过程中,可以将标准化后的第二关键词与该分类标签进行快速匹配,进而快速检索出用户期望获得癌症分期信息,提高癌症分期信息获取的效率以及用户体验。
在本申请的一个实施方式中,本申请的方案还可以应用到智慧医疗领域。比如,接收医生输入的文本信息,通过本申请的癌症分期信息处理方法,获取该文本信息对应的癌症分期信息,比如,历史癌症病例。由于通过本申请的癌症分期信息处理方法,可获取到相对精确的癌症分期信息,这样可以为医生的诊断提供相对精确的癌症病例,提高医生的诊断效率和精确度。
在本申请的一个实施方式中,上述对第一关键词有效性的验证可以通过第一神经网络实现,对第一关键词进行标准化可以通过第二网络实现。下面分别结合第一网络和第二网络的网络结构说明进行有效性验证以及标准化的过程。
参阅图3,图3为本申请实施例提供的一种第一网络的结构示意图。如图3所示,第一网络包括第一词嵌入网络、第一语义特征提取网络、位置编码网络、全连接层。其中,该第一语义特征提取网络可以为任意一个现有的语义特征提取网络,比如长短期记忆网络(Long Short-Term Memory,LSTM)
将第一文本输入到词第一嵌入网络,对该文本信息中的每个单词进行词嵌入,得到每个单词对应的词向量;然后,将每个单词对应的词向量输入到第一语义特征提取网络进行语义特征提取,得到用于表征该文本信息的语义特征的第一特征向量;将第一单词以及第二单词在该文本信息中的位置,输入到该位置编码网络进行编码,得到第二特征向量;再者,对该第一特征向量和第二特征向量进行拼接,得到第三特征向量;最后,将该第三特征向量输入到全连接层进行分类,得到该第一关键词是与癌症分期相关的关键词的概率。根据该第一关键词是与癌症分期相关的关键词的概率,确定该第一关键词的有效性。
参阅图4,图4为本申请实施例提供的一种第二网络的结构示意图。如图4所示,第二网络包括第二词嵌入网络、注意力模块、第二语义特征提取网络以及全连接层。其中,该第二词嵌入网络和第二语义特征提取网络均可以为任意一个现有的字符级网络。比如,字符级卷积神经网络(Char-CNN)。
其中,将第一关键词中的每个字符输入到第二词嵌入网络,对每个字符进行词嵌入处理,得到每个字符对应的字符向量;然后,每个字符对应的字符向量输入到注意力模块,结合自注意力机制,得到每个字符对应的第四特征向量;然后,通过第二语义特征提取网络对每个字符对应的第四特征向量进行特征提取,得到用于表征该第一关键词的语义特征的第五特征向量;最后,通过全连接层对第五特征向量进行分类,确定该第一关键词落入各个预设标准关键词的概率。示例性的,如图4所示,分别确定落入T1期、T2期、T3期以及T4期的概率。最后,根据落入各个预设标准关键词的概,确定该第一关键词对应的标准关键词,即完成对第一关键词的标准化。
应理解,若落入多个标准关键词的概率接近,则将该多个标准关键词均作为与该第一关键词对应的标准关键词。比如,第一关键词为T2-4,且得到落入T2期、T3期以及T4期的概率接近。因此,可将T2期、T3期以及T4期均作为该第一关键词的标准关键词。
在本申请的一个实施方式中,可对第一网络和第二网络进行端到端的训练,也可以单独训练,本申请中以单独训练为例进行说明。下面结合图3和图4分别说明对第一网络和第二网络进行训练的过程。
示例1:对第一网络进行训练的过程。
获取文本样本;将所述文本样本输入到第一词嵌入网络,得到该文本样本中每个单词的词向量;将每个单词的词向量输入到第一语义特征提取网络,得到该文本样本的第五特征向量;然后,获取该文本样本中的第二关键词,将该第二关键词输入到位置编码网络,得到第六特征向量;将该第六特征向量与该第五特征向量进行拼接,得到第七特征向量;最后,将该第七特征向量输入到全连接层,预测该第二关键词为有效性关键词的概率;根据预测出的概率与真实的概率,得到第一损失;根据该第一损失以及梯度下降法,调整第一网络的网络参数,直至该第一网络收敛,完成对该第一网络的训练。
示例2:对第二网络进行训练的过程。
获取关键词样本;将该关键词样本输入到第二词嵌入网络,得到该关键词样本中每个字符的字符向量;然后,将每个字符的字符向量输入到注意模块,进行加权处理,得到每个字符对应的第八特征向量;然后,将每个字符对应的第八特征向量输入到第二语义特征网络,得到第九特征向量;最后,将该第九特征向量输入到全连接层,预测该关键词样本对应的标准化关键词;根据该预测的标准化关键词以及该关键词真实对应的标准化关键词,得到第二损失;根据该第二损失以及梯度下降法,调整第二网络的网络参数(比如,第一网络参数、第二网络参数和第三网络参数),直至该第二网络收敛,完成对该第二网络的训练。
参阅图5,图5为本申请实施例提供的一种癌症分期信息处理装置的结构示意图。如图5所示,癌症分期信息处理装置500包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行以下步骤的指令:
获取文本信息;
确定所述文本信息中与癌症分期相关的第一关键词;
根据所述文本信息以及所述第一关键词,确定所述第一关键词的有效性;
在确定所述第一关键词有效的情况下,对所述第一关键词进行标准化,得到第二关键词;
根据所述第二关键词,获取与所述第二关键词对应的癌症分期信息;和/或,将所述文本信息确定为与所述第二关键词对应的癌症分期信息。
在一些可能的实施方式中,在根据所述医疗文本以及所述第一关键词,确定所述第一关键词的有效性方面,上述程序具体用于执行以下步骤的指令:
对所述文本信息进行编码,得到第一特征向量;
对所述第一关键词进行编码,得到第二特征向量;
将所述第一特征向量与所述第二特征向量进行拼接,得到第三特征向量;
根据所述第三特征向量,确定所述第一关键词的有效性。
在一些可能的实施方式中,在对所述第一关键词进行编码,得到第二特征向量方面,上述程序具体用于执行以下步骤的指令:
分别确定第一单词和第二单词在所述文本信息中的位置,其中,所述第一单词为所述第一关键词中的第一个单词,所述第二单词为所述第一关键词中的最后一个单词;
根据所述第一单词和所述第二单词在所述文本信息中的位置,对所述第一关键词进行编码,得到所述第二特征向量。
在一些可能的实施方式中,在根据所述第一关键词中的第一单词和第二单词在所述文本信息中的位置,对所述第一关键词进行编码,得到所述第二特征向量方面,上述程序具体用于执行以下步骤的指令:
获取预设向量维度;
根据所述第一单词在所述文本信息中的位置,确定所述第一单词在所述第二特征向量中的第一维度;
根据所述第二单词在所述文本信息中的位置,确定所述第二单词在所述第二特征向量中的第二维度;
根据所述第一维度以及所述第二维度,得到所述第二特征向量,其中,所述第二特征向量的维度为所述预设向量维度,且所述第二特征向量的第一维度、第二维度、以及所述第一维度和所述第二维度之间的维度对应的取值均为第一预设值,其余维度对应的取值均为第二预设值。
在一些可能的实施方式中,在确定所述文本信息中与癌症分期相关的第一关键词之前,上述程序还用于执行以下步骤的指令:
确定所述文本信息包含的单词的数量;
在所述文本信息包含的单词的数量大于所述预设向量维度的情况下,将所述文本信息分割为多个子文本信息,并将每个子文本信息作为所述文本信息,其中,每个子文本信息的包含的单词的数量小于或等于所述预设向量维度。
在一些可能的实施方式中,所述第一关键词包括至少一个字符,在对所述第一关键词进行标准化,得到第二关键词方面,上述程序具体用于执行以下步骤的指令:
对每个字符进行词嵌入,得到与每个字符对应的字符向量;
对每个字符对应的字符向量进行编码,得到与每个字符对应的关键值向量、查询向量以及价值向量;
根据自注意力机制以及每个字符对应的查询向量、关键值向量以及价值向量,得到与每个字符对应的第四特征向量;
根据每个字符对应的第四特征向量对所述第一关键词进行标准化,得到所述第二关键词。
在一些可能的实施方式中,在根据自注意力机制以及每个字符对应的查询向量、关键值向量以及价值向量,得到与每个字符对应的第四特征向量方面,上述程序具体用于执行以下步骤的指令:
确定字符A对应的查询向量与每个字符对应的关键值向量之间的相似度,并将所述相似度作为所述字符A与每个字符之间的权重,其中,所述字符A为所述至少一个字符中的任意一个字符;
根据所述字符A与每个字符之间的权重,对每个字符对应的价值向量进行加权处理,得到所述字符A对应的第四特征向量。
参阅图6,图6本申请实施例提供的一种癌症分期信息处理装置的功能单元组成框图。癌症分期信息处理装置600包括:获取单元601、确定单元602、标准化单元603,其中:
获取单元601,用于获取文本信息;
确定单元602,用于确定所述文本信息中与癌症分期相关的第一关键词;
确定单元602,还用于根据所述文本信息以及所述第一关键词,确定所述第一关键词的有效性;
标准化单元603,用于在确定所述第一关键词有效的情况下,对所述第一关键词进行标准化,得到第二关键词;
获取单元601,还用于根据所述第二关键词,获取与所述第二关键词对应的癌症分期信息;和/或,将所述文本信息确定为与所述第二关键词对应的癌症分期信息。
在一些可能的实施方式中,在根据所述医疗文本以及所述第一关键词,确定所述第一关键词的有效性方面,确定单元602,具体用于:
对所述文本信息进行编码,得到第一特征向量;
对所述第一关键词进行编码,得到第二特征向量;
将所述第一特征向量与所述第二特征向量进行拼接,得到第三特征向量;
根据所述第三特征向量,确定所述第一关键词的有效性。
在一些可能的实施方式中,在对所述第一关键词进行编码,得到第二特征向量方面,确定单元602,具体用于:
分别确定第一单词和第二单词在所述文本信息中的位置,其中,所述第一单词为所述第一关键词中的第一个单词,所述第二单词为所述第一关键词中的最后一个单词;
根据所述第一单词和所述第二单词在所述文本信息中的位置,对所述第一关键词进行编码,得到所述第二特征向量。
在一些可能的实施方式中,在根据所述第一关键词中的第一单词和第二单词在所述文本信息中的位置,对所述第一关键词进行编码,得到所述第二特征向量方面,确定单元602,具体用于:
获取预设向量维度;
根据所述第一单词在所述文本信息中的位置,确定所述第一单词在所述第二特征向量中的第一维度;
根据所述第二单词在所述文本信息中的位置,确定所述第二单词在所述第二特征向量中的第二维度;
根据所述第一维度以及所述第二维度,得到所述第二特征向量,其中,所述第二特征向量的维度为所述预设向量维度,且所述第二特征向量的第一维度、第二维度、以及所述第一维度和所述第二维度之间的维度对应的取值均为第一预设值,其余维度对应的取值均为第二预设值。
在一些可能的实施方式中,在确定所述文本信息中与癌症分期相关的第一关键词之前,确定单元602,还用于确定所述文本信息包含的单词的数量;在所述文本信息包含的单词的数量大于所述预设向量维度的情况下,将所述文本信息分割为多个子文本信息,并将每个子文本信息作为所述文本信息,其中,每个子文本信息的包含的单词的数量小于或等于所述预设向量维度。
在一些可能的实施方式中,所述第一关键词包括至少一个字符,在对所述第一关键词进行标准化,得到第二关键词方面,标准化单元603,具体用于,:
对每个字符进行词嵌入,得到与每个字符对应的字符向量;
对每个字符对应的字符向量进行编码,得到与每个字符对应的关键值向量、查询向量以及价值向量;
根据自注意力机制以及每个字符对应的查询向量、关键值向量以及价值向量,得到与每个字符对应的第四特征向量;
根据每个字符对应的第四特征向量对所述第一关键词进行标准化,得到所述第二关键词。
在一些可能的实施方式中,在根据自注意力机制以及每个字符对应的查询向量、关键值向量以及价值向量,得到与每个字符对应的第四特征向量方面,标准化单元603,具体用于:
确定字符A对应的查询向量与每个字符对应的关键值向量之间的相似度,并将所述相似度作为所述字符A与每个字符之间的权重,其中,所述字符A为所述至少一个字符中的任意一个字符;
根据所述字符A与每个字符之间的权重,对每个字符对应的价值向量进行加权处理,得到所述字符A对应的第四特征向量。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种癌症分期信息的确定方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种癌症分期信息的确定方法的部分或全部步骤。
应理解,本申请中的癌症分期信息处理装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices,简称:MID)或穿戴式设备等。上述获取装置仅是举例,而非穷举,包含但不限于上述获取装置。在实际应用中,上述获取装置还可以包括:智能车载终端、计算机设备等等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory ,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种癌症分期信息处理方法,其特征在于,包括:
获取文本信息;
确定所述文本信息中与癌症分期相关的第一关键词;
根据所述文本信息以及所述第一关键词,确定所述第一关键词的有效性,具体包括:对所述文本信息进行编码,得到第一特征向量;对所述第一关键词进行编码,得到第二特征向量;将所述第一特征向量与所述第二特征向量进行拼接,得到第三特征向量;根据所述第三特征向量,确定所述第一关键词的有效性;
在确定所述第一关键词有效的情况下,对所述第一关键词进行标准化,得到第二关键词;
根据所述第二关键词,获取与所述第二关键词对应的癌症分期信息;和/或,将所述文本信息确定为与所述第二关键词对应的癌症分期信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一关键词进行编码,得到第二特征向量,包括:
分别确定第一单词和第二单词在所述文本信息中的位置,其中,所述第一单词为所述第一关键词中的第一个单词,所述第二单词为所述第一关键词中的最后一个单词;
根据所述第一单词和所述第二单词在所述文本信息中的位置,对所述第一关键词进行编码,得到所述第二特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一关键词中的第一单词和第二单词在所述文本信息中的位置,对所述第一关键词进行编码,得到所述第二特征向量,包括:
获取预设向量维度;
根据所述第一单词在所述文本信息中的位置,确定所述第一单词在所述第二特征向量中的第一维度;
根据所述第二单词在所述文本信息中的位置,确定所述第二单词在所述第二特征向量中的第二维度;
根据所述第一维度以及所述第二维度,得到所述第二特征向量,其中,所述第二特征向量的维度为所述预设向量维度,且所述第二特征向量的第一维度、第二维度、以及所述第一维度和所述第二维度之间的维度对应的取值均为第一预设值,其余维度对应的取值均为第二预设值,所述其余维度为所述第二特征向量中除所述第一维度、所述第二维度、以及所述第一维度和所述第二维度之间的维度之外的所有维度。
4.根据权利要求3所述的方法,其特征在于,在确定所述文本信息中与癌症分期相关的第一关键词之前,所述方法还包括:
确定所述文本信息包含的单词的数量;
在所述文本信息包含的单词的数量大于所述预设向量维度的情况下,将所述文本信息分割为多个子文本信息,并将每个子文本信息作为所述文本信息,其中,每个子文本信息的包含的单词的数量小于或等于所述预设向量维度。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述第一关键词包括至少一个字符,所述对所述第一关键词进行标准化,得到第二关键词,包括:
对每个字符进行词嵌入,得到与每个字符对应的字符向量;
对每个字符对应的字符向量进行编码,得到与每个字符对应的关键值向量、查询向量以及价值向量;
根据自注意力机制以及每个字符对应的查询向量、关键值向量以及价值向量,得到与每个字符对应的第四特征向量;
根据每个字符对应的第四特征向量对所述第一关键词进行标准化,得到所述第二关键词。
6.根据权利要求5所述的方法,其特征在于,所述根据自注意力机制以及每个字符对应的查询向量、关键值向量以及价值向量,得到与每个字符对应的第四特征向量,包括:
确定字符A对应的查询向量与每个字符对应的关键值向量之间的相似度,并将所述相似度作为所述字符A与每个字符之间的权重,其中,所述字符A为所述至少一个字符中的任意一个字符;
根据所述字符A与每个字符之间的权重,对每个字符对应的价值向量进行加权处理,得到所述字符A对应的第四特征向量。
7.一种癌症分期信息处理装置,其特征在于,包括:
获取单元,用于获取文本信息;
确定单元,用于确定所述文本信息中与癌症分期相关的第一关键词;
所述确定单元,还用于根据所述文本信息以及所述第一关键词,确定所述第一关键词的有效性,具体用于:对所述文本信息进行编码,得到第一特征向量;对所述第一关键词进行编码,得到第二特征向量;将所述第一特征向量与所述第二特征向量进行拼接,得到第三特征向量;根据所述第三特征向量,确定所述第一关键词的有效性;
标准化单元,用于在确定所述第一关键词有效的情况下,对所述第一关键词进行标准化,得到第二关键词;
所述获取单元,还用于根据所述第二关键词,获取与所述第二关键词对应的癌症分期信息;和/或,将所述文本信息确定为与所述第二关键词对应的癌症分期信息。
8.一种癌症分期信息处理装置,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-6任一项方法中的步骤的指令。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-6任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121896.0A CN111967261B (zh) | 2020-10-20 | 2020-10-20 | 癌症分期信息处理方法、装置及存储介质 |
PCT/CN2020/132475 WO2021159812A1 (zh) | 2020-10-20 | 2020-11-27 | 癌症分期信息处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121896.0A CN111967261B (zh) | 2020-10-20 | 2020-10-20 | 癌症分期信息处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967261A CN111967261A (zh) | 2020-11-20 |
CN111967261B true CN111967261B (zh) | 2021-02-12 |
Family
ID=73386781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011121896.0A Active CN111967261B (zh) | 2020-10-20 | 2020-10-20 | 癌症分期信息处理方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111967261B (zh) |
WO (1) | WO2021159812A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967261B (zh) * | 2020-10-20 | 2021-02-12 | 平安科技(深圳)有限公司 | 癌症分期信息处理方法、装置及存储介质 |
CN112530534B (zh) * | 2020-12-04 | 2023-02-07 | 平安科技(深圳)有限公司 | 一种基于电子病历的主题癌症分期的判别方法及系统 |
CN116089602B (zh) * | 2021-11-04 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备、存储介质和程序产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341264A (zh) * | 2017-07-19 | 2017-11-10 | 东北大学 | 一种支持自定义实体的电子病历检索系统及方法 |
CN111091914A (zh) * | 2018-10-23 | 2020-05-01 | 百度在线网络技术(北京)有限公司 | 基于病历的癌症分型分期方法及其装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8849576B2 (en) * | 2006-04-28 | 2014-09-30 | Hakima Amri | Phylogenetic analysis of mass spectrometry or gene array data for the diagnosis of physiological conditions |
US20150031011A1 (en) * | 2013-04-29 | 2015-01-29 | LTG Exam Prep Platform, Inc. | Systems, methods, and computer-readable media for providing concept information associated with a body of text |
US10424411B2 (en) * | 2013-09-20 | 2019-09-24 | Siemens Healthcare Gmbh | Biopsy-free detection and staging of cancer using a virtual staging score |
CN105260359B (zh) * | 2015-10-16 | 2018-10-02 | 晶赞广告(上海)有限公司 | 语义关键词提取方法及装置 |
CN108427686A (zh) * | 2017-02-15 | 2018-08-21 | 北京国双科技有限公司 | 文本数据查询方法及装置 |
CN107220386B (zh) * | 2017-06-29 | 2020-10-02 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
CN109299239B (zh) * | 2018-09-29 | 2021-11-23 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
CN110795911B (zh) * | 2019-09-16 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 在线文本标签的实时添加方法、装置及相关设备 |
CN111967261B (zh) * | 2020-10-20 | 2021-02-12 | 平安科技(深圳)有限公司 | 癌症分期信息处理方法、装置及存储介质 |
-
2020
- 2020-10-20 CN CN202011121896.0A patent/CN111967261B/zh active Active
- 2020-11-27 WO PCT/CN2020/132475 patent/WO2021159812A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341264A (zh) * | 2017-07-19 | 2017-11-10 | 东北大学 | 一种支持自定义实体的电子病历检索系统及方法 |
CN111091914A (zh) * | 2018-10-23 | 2020-05-01 | 百度在线网络技术(北京)有限公司 | 基于病历的癌症分型分期方法及其装置 |
Non-Patent Citations (1)
Title |
---|
运用自然语言处理技术从中文电子化病历系统中提取临床有用信息;陈梁;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20200115;第E072-749页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111967261A (zh) | 2020-11-20 |
WO2021159812A1 (zh) | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967261B (zh) | 癌症分期信息处理方法、装置及存储介质 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
CN111950303B (zh) | 医疗文本翻译方法、装置及存储介质 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN110929525B (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN112307190B (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN112270178A (zh) | 医疗文献簇的主题确定方法、装置、电子设备及存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN113626704A (zh) | 基于word2vec模型的推荐信息方法、装置及设备 | |
CN112270191A (zh) | 提取工单文本主题的方法及装置 | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN113240322B (zh) | 气候风险披露质量方法、装置、电子设备及存储介质 | |
CN111783425B (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
CN112287217B (zh) | 医学文献检索方法、装置、电子设备及存储介质 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN114780678A (zh) | 文本检索方法、装置、设备及存储介质 | |
CN112949299A (zh) | 新闻稿件的生成方法及装置、存储介质、电子装置 | |
CN113688268B (zh) | 图片信息抽取方法、装置、计算机设备及存储介质 | |
KR102495881B1 (ko) | 요약 평가 장치, 그것의 제어 방법 및 요약 평가 프로그램 | |
CN114707489B (zh) | 标注数据集获取方法、装置、电子设备及存储介质 | |
CN118132848A (zh) | 舆情的分析方法、装置、设备和介质 | |
CN117437422A (zh) | 一种医学影像识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |