CN117316371B - 病例报告表的生成方法、装置、电子设备和存储介质 - Google Patents
病例报告表的生成方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117316371B CN117316371B CN202311605975.2A CN202311605975A CN117316371B CN 117316371 B CN117316371 B CN 117316371B CN 202311605975 A CN202311605975 A CN 202311605975A CN 117316371 B CN117316371 B CN 117316371B
- Authority
- CN
- China
- Prior art keywords
- document
- analyzed
- information
- similarity
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000000605 extraction Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 19
- 238000013461 design Methods 0.000 abstract description 6
- 239000003814 drug Substances 0.000 abstract 1
- 230000008569 process Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013173 literature analysis Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种病例报告表的生成方法、装置、电子设备和存储介质,涉及医学技术领域。该方法包括:确定多个待分析文献与拟研究内容之间的文献相似度,基于所述文献相似度,从所述多个待分析文献中确定出至少两个待分析文献,其中,所述拟研究内容为拟展开研究的研究设计、摘要、关键词;提取所述至少两个待分析文献的文献区块信息;对所述文献区块信息提取结构化信息,其中,所述结构化信息包括文献变量;根据文献变量所在的至少一个待分析文献的文献相似度,确定该文献变量与所述拟研究内容之间的关联性;根据所述关联性,对所述拟研究内容生成病例报告表。本发明实施例提高了病例报告表生成的效率和准确度。
Description
技术领域
本发明涉及医学技术领域,特别是涉及一种病例报告表的生成方法、装置、电子设备和存储介质。
背景技术
病例报告表(Case Report Form,CRF)是开展医学研究的一个基本工具,具体是指根据医学研究设计制定的用于研究对象数据采集的数据字典,可以为医学研究的数据采集提供规范。一般地,对于拟开展的一项医学研究,研究团队会基于研究目的和研究设计,参考既往文献和专家意见,人工制定CRF用于研究对象数据采集。
然而,现有的CRF生成方法,不仅依赖于医学研究人员的专业知识和领域经验,且需依靠人工阅读大量研究文献,研究门槛高、效率低、评估标准主观且准确率受限,限制了基于CRF采集数据、建立统计模型的科学性和准确性。
发明内容
有鉴于此,本发明的目的在于提出一种病例报告表的生成方法,本发明能够针对性的解决现有的问题。
基于上述目的,第一方面,本发明提出了一种病例报告表的生成方法,包括:确定多个待分析文献与拟研究内容之间的文献相似度,基于所述文献相似度,从所述多个待分析文献中确定出至少两个待分析文献;提取所述至少两个待分析文献的文献区块信息;对所述文献区块信息提取结构化信息,其中,所述结构化信息包括文献变量;根据文献变量所在的至少一个待分析文献的文献相似度,确定该文献变量与所述拟研究内容之间的关联性;根据所述关联性,对所述拟研究内容生成病例报告表。
第二方面,还提供了一种病例报告表的生成装置,包括:筛选单元,被配置成确定多个待分析文献与拟研究内容之间的文献相似度,基于所述文献相似度,从所述多个待分析文献中确定出至少两个待分析文献;区块提取单元,被配置成提取所述至少两个待分析文献的文献区块信息;结构提取单元,被配置成对所述文献区块信息提取结构化信息,其中,所述结构化信息包括文献变量;关联确定单元,被配置成根据文献变量所在的至少一个待分析文献的文献相似度,确定该文献变量与所述拟研究内容之间的关联性;根据所述关联性,对所述拟研究内容生成病例报告表。
第三方面,还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现第一方面所述的方法。
第四方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现第一方面任一项所述的方法。
总的来说,本发明至少存在以下有益效果:可以提供了一种自动化对文献变量确定与拟研究内容的关联性的技术方案,解决了相关技术中,依赖于医学研究人员的专业知识和领域经验,且需依靠人工阅读大量研究文献,效率低、评估标准主观的技术问题,并且提高了文献分析结果的准确性。此外,本发明实施例通过文献变量所在的待分析文献与拟研究内容的文献相似度,准确地确定了文献变量与拟研究内容之间的关联性,有助于生成更加准确的病例报告表。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出本发明的病例报告表的生成方法流程图;
图2示出根据本发明实施例的病例报告表的生成装置的示意图;
图3示出了本发明一实施例所提供的一种电子设备的结构示意图;
图4示出了本发明一实施例所提供的一种存储介质的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1示出本发明的病例报告表的生成方法。本发明的实施例中,病例报告表的生成方法包括以下步骤:
步骤S101,确定多个待分析文献与拟研究内容之间的文献相似度,基于所述文献相似度,从所述多个待分析文献中确定出至少两个待分析文献。
在本实施例中,上述执行主体可以对于多个待分析文献,确定其中的待分析文献和拟研究内容之间文献相似度。
在实践中,拟研究内容可以是给定拟开展研究的研究目的、研究设计摘要、研究关键词。文献相似度评估模型,获取该拟研究内容的相同、相似研究领域的医学文献集合。
上述执行主体可以采用各种方式基于文献相似度,从多个待分析文献中确定出至少两个待分析文献。举例来说,上述执行主体可以找到文献相似度高于预设相似度阈值的待分析文献,作为至少两个待分析文献。或者,上述执行主体可以按照文献相似度从高到低的顺序,确定预设数量的待分析文献,作为至少两个待分析文献。
步骤S102,提取所述至少两个待分析文献的文献区块信息。
在本实施例中,上述执行主体可以提取至少两个待分析文献的文献区块信息。具体地,上述执行主体可以采用各种方式提取所述至少两个待分析文献的文献区块信息。举例来说,上述执行主体可以采用预设的神经网络模型,提取至少两个待分析文献中每个待分析文献的文献区块信息。该神经网络模型用于确定出待分析文献中的文献区块信息。
步骤S103,对所述文献区块信息提取结构化信息,其中,所述结构化信息包括文献变量和文献属性,所述文献属性包括以下至少一项:文献相似度、发表年份、文献被引次数和文献期刊影响因子。
在本实施例中,上述执行主体可以采用各种方式对所述文献区块信息提取结构化信息。比如,上述执行主体可以将文献区块信息输入结构化信息的确定函数,该函数可以用于从文献区块信息中,生成结构化信息。
文献变量是指文献研究的实验中采用的实验变量。比如,肿瘤研究中,文献变量可以包括性别,还可以包括年龄/年龄段等。
结构化信息可以包括至少一个文献属性。
步骤S104,对所述结构化信息进行标准化,得到标准化信息,所述标准化信息包括标准化文献变量和标准化属性。
在实践中,在确定了结构化信息之后,上述执行主体可以对结构化信息进行标准化。标准化的对象可以包括以下至少一项:变量名、定义、数据结构和值域。
步骤S105,对于所述标准化文献变量所在的待分析文献,通过文献相似度和预设的加权函数,对该待分析文献的各个标准化属性进行加权。
在这些可选的实现方式中,上述执行主体可以通过对文献属性进行加权计算,得到文献变量与拟研究内容之间的总相似度,该总相似度即是关联性。上述执行主体可以直接将加权结果作为总相似度。或者,上述执行主体可以将加权结果输入预设的公式或模型,得到从该公式或模型的输出,并将该输出作为关联性。
在确定关联性之后,上述执行主体可以按照文献变量的关联性的大小,对各个文献变量进行排序,得到各个文献变量与拟研究内容之间的关联性排序。之后,上述执行主体还可以按照排序结果筛选出关联性大于预设阈值的文献变量,或者指定数量的文献变量。
所述文献属性包括以下的至少两项:发表年份、文献被引用次数和文献期刊影响因子。
在实践中,对于结构化信息可以包括文献变量的集合Vstd,基于包括至少两个待分析文献的医学文献集合,及文献相似度y、发表年份t、文献被引次数c、文献期刊影响因子f,计算每个文献变量的与所述拟研究内容的关联度yweighted,i,公式如下:
yweighted,i= Σφ(ti,j,ci,j, fi,j)yi,j
其中,yweighted,i表示第i个标准化文献变量与所述拟研究内容的加权相似度,yi,j、ti,j、ci,j、fi,j分别表示第i个标准化文献变量所在的第j篇待分析文献的文献相似度、发表年份、文献被引次数和文献期刊影响因子,φ()表示ti,j、ci,j、fi,j的加权函数。
病例报告表(Case Report Form,CRF)是开展医学研究的一个基本工具,具体是指根据医学研究设计制定的用于研究对象数据采集的数据字典,可以为医学研究的数据采集提供规范。最终生成的文献分析结果可以是病例报告表。
步骤106,根据加权结果,得到该待分析文献中的该标准化文献变量与所述拟研究内容之间的关联性。
步骤107,根据所述关联性,对所述拟研究内容生成病例报告表。
根据文献变量所在的至少一个待分析文献的文献相似度,确定该文献变量与所述拟研究内容之间的关联性。
在本实施例中,上述执行主体可以采用各种方式根据文献变量所在待分析文献的相似度,确定文献变量与拟研究内容之间的关联性。比如,上述执行主体可以直接将文献变量所在的所有待分析文献的文献相似度输入预置的模型,从而得到该文献变量与拟研究内容之间的关联性。关联性可以是指示关联程度的数值。
在本实施例中,上述执行主体可以采用各种方式根据所述关联性,对所述拟研究内容生成病例报告表。比如,上述执行主体可以按照标准化待分析文献变量与所述研究内容的关联性从大到小的顺序,对所有标准化待分析文献变量进行排序,并从排序结果中关联性大的一端确定至少一个标准化文献变量,将该至少一个标准化文献变量及其属性生成符合拟研究内容需要的病例报告表。
本实施例可以提供了一种自动化对文献变量确定与拟研究内容的关联性的技术方案,解决了相关技术中,依赖于医学研究人员的专业知识和领域经验,且需依靠人工阅读大量研究文献,效率低、评估标准主观的技术问题,并且提高了文献分析结果的准确性。此外,本实施例通过文献变量所在的待分析文献与拟研究内容的文献相似度,准确地确定了文献变量与拟研究内容之间的关联性,有助于提高病例报告表生成的效率和准确度。
在本发明任一实施例的一些可选的实现方式中,所述对所述文献区块信息提取结构化信息,包括:将所述文献区块信息输入结构化信息提取模型,得到文献区块信息所指示的文献区块的结构化信息。
在这些可选的实现方式中,上述执行主体可以利用结构化信息提取模型,来提取文献区块信息中的结构化信息。具体地,上述执行主体可以将文献区块信息输入结构化信息提取模型,得到从该模型输出的结构化信息。
之后,上述执行主体可以通过结构化信息提取模型,来提取文献区块的结构化信息。这里的模型可以是各种各样的,比如卷积神经网络。
这些实现方式可以通过模型对结构化信息进行精准提取,从而提高结构化信息的准确度。
在本发明任一实施例的一些可选的实现方式中,所述结构化信息是通过结构化信息提取模型提取的;所述结构化信息提取模型存在共享层,所述共享层对应两个学习任务:命名实体识别任务和定义抽取任务;所述结构化信息提取模型的训练步骤包括:将文献区块信息输入结构化信息提取模型的所述共享层,得到所述结构化信息的向量化结果;将所述向量化结果输入条件随机场层,以执行所述命名实体识别任务;将所述向量化结果输入多层感知器层,以执行所述定义抽取任务;采用任务交替训练的方式,对所述结构化信息提取模型进行调参,得到训练后的结构化信息提取模型。
具体地,结构化信息提取模型可以存在共享层。该共享层可以用于对结构化信息进行向量化。向量化的结果可以供模型的两个学习任务在训练过程中共享。在实践中,共享层可以包括BERT模型。或者,共享层不仅可以包括BERT模型,还可以包括参数的硬共享机制(hard parameter sharing),该机制可以用于对BERT模型进行调参,以使BERT模型本地化。
条件随机场层和多层感知机层,在训练过程中可以分别完成命名实体识别任务和定义抽取任务。上述执行主体可以采用交替训练的方式,对结构化信息提取模型进行调参,调参后的结构化信息提取模型即是训练后的结构化信息提取模型。
这些实现方式可以通过任务的共享执行和分别执行,让训练后的结构化信息提取模型完成准确的结构化信息提取。
在本发明任一实施例的一些可选的实现方式中,所述方法还包括:确定多个待分析文献所包含实体词和拟研究内容所包含实体词之间的词相似度;基于所述词相似度,确定所述多个待分析文献与所述拟研究内容之间的文献相似度。
上述执行主体可以对于多个待分析文献,确定其中的待分析文献和拟研究内容之间实体词的词相似度。在实践中,上述执行主体可以首先在本设备或者从其他电子设备获取到待分析文献中的实体,和拟研究内容中的实体。上述执行主体可以将待分析文献和拟研究内容分别输入用于确定实体的模型。
用于确定实体的模型可以是命名实体识别任务(Named Entity Recognition,NER)模型和或条件随机场。在实践中的,该模型可以是基于全球一体化医学语言系统(Unified Medical Language System,UMLS)建立的医学实体语料库构建命名实体识别任务模型。或者,用于确定实体的模型还可以是词嵌入模型等可以进行自然语言处理的模型。在提取实体词之前,可以对各个文献进行向量化,比如采用预训练的BERT(BidirectionalEnoceder Representations from Transformers)模型进行向量化。
之后,上述执行主体可以确定实体词之间的词相似度。实体词之间的词相似度可以是采用各种方式确定的。比如,上述执行主体可以采用杰拉德Jaccard系数进行两两的相似度评估得到的。或者,上述执行主体还可以查询实体词的相似度对照关系表以得到相似度,对照关系表中指示了不同实体词之间的相似度。
可选地,文献存在文献相似度的影响参数,所述影响参数包括所述词相似度;
所述基于所述词相似度,确定所述多个待分析文献与所述拟研究内容之间的文献相似度,包括:根据所述影响参数和文献相似度函数,确定所述多个待分析文献与所述拟研究内容之间的文献相似度,其中,所述影响还包括实体词的出现频率;以及所述基于所述文献相似度,从所述多个待分析文献中确定出至少两个待分析文献,包括:按照所述文献相似度从大到小的顺序,从所述多个待分析文献中确定至少两个待分析文献。
在这些实现方式中,获得拟展开研究内容X中医学实体词集合E X和医学文献摘要D中第j篇文献摘要的医学实体词集合E j,j∈D,以及每个医学实体词出现的频率F X和F j。这里的D包括上述多个待分析文献。对于E X和E j中的每个医学实体词E X, p(E X, p∈E X)和E j, q(E j, q∈E j),基于杰卡德Jaccard系数进行两两相似度评估,得到词相似度Ip, j, q。最后,计算EX和Ej的文献相似度y,文献相似度函数如下:
y X , j= Σp, q(F X, p F j, q)1/2/> I p, j, q
其中,y X , j表示D中第j篇文献和拟研究内容X的文献相似度,FX, p和Fj, q分别表示EX中第p个医学实体在X中出现的频率和Ej中第q个医学实体词在D中第j篇文献中出现的频率。
基于上述文献相似度评估模型获得的EX和Ej的文献相似度,获得与给定的研究目的和研究设计概要X相似度高的研究文献集合S及对应文献相似度y、发表年份t、文献被引次数c、文献期刊影响因子f。这样,就获得了包括至少两个待分析文献的研究文献集合S。
在本发明任一实施例的一些可选的实现方式中,提取所述至少两个待分析文献的文献区块信息,包括:确定所述至少两个待分析文献的布局信息,其中,所述布局信息指示以下至少一项布局信息:图像布局信息、文本布局信息、表格布局信息;将所述布局信息输入区块分类模型,得到文献区块初始信息,其中,所述文献区块初始信息包括文献区块信息和区块边缘信息;利用表征嵌入,对所述文献区块初始信息指示的区块进行增强,将所述增强结果作为文献区块信息。
在这些实现方式中,上述执行主体可以根据布局信息,划分待分析文献的区块。在实践中,在文献区块初始信息表征至少两项布局信息的情况下,可以分别对每项布局信息进行表征嵌入,从而对区块进行增强。
文献区块初始信息可以包括指示区块的区块信息,还可以包括边缘(Edges)信息。边缘信息可以指示两个区块之间的空间关系。上述执行主体可以将区块信息进行增强,也可以对区块信息和边缘信息均进行增强。
在实践中,区块分类模型可以是图神经网络GNN。上述执行主体或者其他执行主体可以采用消息传递算法来训练GNN。消息传递算法能够让文献中的节点(即区块)相互通信并根据邻居节点的信息更新其特征表示。该算法通过聚合邻居节点的信息并使用它来更新每个节点的特征表示。此过程重复多次,直到收敛则训练完毕。在训练过程中,输入一批文献图像给GNN,其中每个文献图像代表一个PDF文件。GNN使用消息传递算法处理每个文献图像,并输出该PDF文件中分类为表格内容和方法内容的节点,最终根据节点中的位置信息获得表格和方法内容对应的位置,进而实现对医学文献集合S中的文献方法内容和表格内容进行提取。具体地,可以采用损失函数对GNN进行训练。
本申请实施例提供了一种病例报告表的生成装置,该病例报告表的生成装置用于执行上述实施例所述的病例报告表的生成方法,如图2所示,该病例报告表的生成装置包括:筛选单元210,被配置成确定多个待分析文献与拟研究内容之间的文献相似度,基于所述文献相似度,从所述多个待分析文献中确定出至少两个待分析文献;区块提取单元220,被配置成提取所述至少两个待分析文献的文献区块信息;结构提取单元230,被配置成对所述文献区块信息提取结构化信息,其中,所述结构化信息包括文献变量和文献属性,所述文献属性包括以下至少一项:文献相似度、发表年份、文献被引次数和文献期刊影响因子;标准化单元240,被配置成对所述结构化信息进行标准化,得到标准化信息,所述标准化信息包括标准化文献变量和标准化属性;加权单元250,被配置成对于所述标准化文献变量所在的待分析文献,通过文献相似度和预设的加权函数,对该待分析文献的各个标准化属性进行加权;关联确定单元260,被配置成根据加权结果,得到该待分析文献中的该标准化文献变量与所述拟研究内容之间的关联性;生成单元270,被配置成根据所述关联性,对所述拟研究内容生成病例报告表。
可选地,所述待分析文献包括文献属性;关联确定单元240,进一步被配置成按照如下方式执行所述根据文献变量所在的至少一个待分析文献的文献相似度,确定该文献变量与所述拟研究内容之间的关联性:对于文献变量所在的待分析文献,通过文献相似度和预设的加权函数,对该待分析文献的各个文献属性进行加权;根据加权结果,得到该待分析文献中的该文献变量与所述拟研究内容之间的关联性。
可选地,所述结构化信息包括文献属性;在所述对所述文献区块信息提取结构化信息之后,装置还包括:标准化步骤,被配置成按照标准数据,对所述结构化信息进行标准化,得到标准化信息,其中,所述标准化信息包括文献属性对应的标准化属性和标准化文献变量;所述关联确定单元240,进一步被配置成按照如下方式执行对于文献变量所在的待分析文献,通过文献相似度和预设的加权函数,对该待分析文献的各个文献属性进行加权:对于标准化文献变量所在的待分析文献,通过文献相似度和预设的加权函数,对该待分析文献的各个标准化属性进行加权。
可选地,所述结构化信息是通过结构化信息提取模型提取的;所述结构化信息提取模型存在共享层,所述共享层对应两个学习任务:命名实体识别任务和定义抽取任务;所述结构化信息提取模型的训练步骤包括:将文献区块信息输入结构化信息提取模型的所述共享层,得到所述结构化信息的向量化结果;将所述向量化结果输入条件随机场层,以执行所述命名实体识别任务;将所述向量化结果输入多层感知器层,以执行所述定义抽取任务;采用任务交替训练的方式,对所述结构化信息提取模型进行调参,得到训练后的结构化信息提取模型。
可选地,所述装置还包括:词确定单元,被配置成确定多个待分析文献所包含实体词和拟研究内容所包含实体词之间的词相似度;相似度确定单元,被配置成基于所述词相似度,确定所述多个待分析文献与所述拟研究内容之间的文献相似度。
可选地,文献存在文献相似度的影响参数,所述影响参数包括所述词相似度;所述基于所述词相似度,确定所述多个待分析文献与所述拟研究内容之间的文献相似度,包括:根据所述影响参数和文献相似度函数,确定所述多个待分析文献与所述拟研究内容之间的文献相似度,其中,所述影响参数还包括实体词的出现频率;以及所述基于所述文献相似度,从所述多个待分析文献中确定出至少两个待分析文献,包括:按照所述文献相似度从大到小的顺序,从所述多个待分析文献中确定至少两个待分析文献。
可选地,区块提取单元220,被配置成按照如下方式执行所述提取所述至少两个待分析文献的文献区块信息:确定所述至少两个待分析文献的布局信息,其中,所述布局信息指示以下至少一项布局信息:图像布局信息、文本布局信息、表格布局信息;将所述布局信息输入区块分类模型,得到文献区块初始信息,其中,所述文献区块初始信息包括文献区块信息和区块边缘信息;利用表征嵌入,对所述文献区块初始信息指示的区块进行增强,将所述增强结果作为文献区块信息。
本发明的上述实施例提供的病例报告表的生成系统与本发明实施例提供的病例报告表的生成方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本发明实施方式还提供一种与前述实施方式所提供的病例报告表的生成方法对应的电子设备,以执行上述病例报告表的生成方法。本发明实施例不做限定。
请参考图3,其示出了本发明的一些实施方式所提供的一种电子设备的示意图。如图3所示,所述电子设备30包括:处理器300,存储器301,总线302和通信接口303,所述处理器300、通信接口303和存储器301通过总线302连接;所述存储器301中存储有可在所述处理器300上运行的计算机程序,所述处理器300运行所述计算机程序时执行本发明前述任一实施方式所提供的方法。
其中,存储器301可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口303(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线302可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器301用于存储程序,所述处理器300在接收到执行指令后,执行所述程序,前述本发明实施例任一实施方式揭示的所述病例报告表的生成方法可以应用于处理器300中,或者由处理器300实现。
处理器300可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器300中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器300可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器301,处理器300读取存储器301中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的电子设备与本发明实施例提供的病例报告表的生成方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本发明实施方式还提供一种与前述实施方式所提供的病例报告表的生成方法对应的计算机可读存储介质,请参考图4,其示出的计算机可读存储介质为光盘40,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的病例报告表的生成方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本发明的上述实施例提供的计算机可读存储介质与本发明实施例提供的病例报告表的生成方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在上述文本中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,仅为本发明的具体实施方式,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (9)
1.一种病例报告表的生成方法,其特征在于,包括:
确定多个待分析文献与拟研究内容之间的文献相似度,基于所述文献相似度,从所述多个待分析文献中确定出至少两个待分析文献;
提取所述至少两个待分析文献的文献区块信息;
对所述文献区块信息提取结构化信息,其中,所述结构化信息包括文献变量和文献属性,所述文献属性包括以下至少一项:文献相似度、发表年份、文献被引次数和文献期刊影响因子;
对所述结构化信息进行标准化,得到标准化信息,所述标准化信息包括标准化文献变量和标准化属性;
对于所述标准化文献变量所在的待分析文献,通过文献相似度和预设的加权函数,对该待分析文献的各个标准化属性进行加权;
根据加权结果,得到该待分析文献中的该标准化文献变量与所述拟研究内容之间的关联性;
根据所述关联性,对所述拟研究内容生成病例报告表;
所述标准化文献变量与拟研究内容的关联性yweighted,i表示为:
yweighted,i = Σφ(ti,j, ci,j, fi,j) yi,j
其中,yweighted,i表示第i个标准化文献变量与所述拟研究内容的加权相似度,yi,j、ti,j、ci,j、fi,j分别表示第i个待分析标准化文献变量所在第j篇待分析文献的文献相似度、发表年份、文献被引次数和文献期刊影响因子,φ()表示ti,j、ci,j、fi,j的加权函数。
2.根据权利要求1所述的方法,其特征在于,所述结构化信息是通过结构化信息提取模型提取的;所述结构化信息提取模型存在共享层,所述共享层对应两个学习任务:命名实体识别任务和定义抽取任务。
3.根据权利要求2所述的方法,其特征在于,所述结构化信息提取模型的训练步骤包括:将文献区块信息输入结构化信息提取模型的所述共享层,得到所述结构化信息的向量化结果;
将所述向量化结果输入条件随机场层,以执行所述命名实体识别任务;
将所述向量化结果输入多层感知器层,以执行所述定义抽取任务;
采用任务交替训练的方式,对所述结构化信息提取模型进行调参,得到训练后的结构化信息提取模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定多个待分析文献所包含实体词和拟研究内容所包含实体词之间的词相似度;
基于所述词相似度,确定所述多个待分析文献与所述拟研究内容之间的文献相似度。
5.根据权利要求4所述的方法,其特征在于,文献存在文献相似度的影响参数,所述影响参数包括所述词相似度;
所述基于所述词相似度,确定所述多个待分析文献与所述拟研究内容之间的文献相似度,包括:
根据所述影响参数和文献相似度函数,确定所述多个待分析文献与所述拟研究内容之间的文献相似度,其中,所述影响参数还包括实体词的出现频率;以及
所述基于所述文献相似度,从所述多个待分析文献中确定出至少两个待分析文献,包括:
按照所述文献相似度从大到小的顺序,从所述多个待分析文献中确定至少两个待分析文献。
6.根据权利要求1所述的方法,其特征在于,所述提取所述至少两个待分析文献的文献区块信息,包括:
确定所述至少两个待分析文献的布局信息,其中,所述布局信息指示以下至少一项布局信息:图像布局信息、文本布局信息、表格布局信息;
将所述布局信息输入区块分类模型,得到文献区块初始信息,其中,所述文献区块初始信息包括文献区块信息和区块边缘信息;
利用表征嵌入,对所述文献区块初始信息指示的区块进行增强,将所述增强结果作为文献区块信息。
7.一种病例报告表的生成装置,其特征在于,包括:
筛选单元,被配置成确定多个待分析文献与拟研究内容之间的文献相似度,基于所述文献相似度,从所述多个待分析文献中确定出至少两个待分析文献;
区块提取单元,被配置成提取所述至少两个待分析文献的文献区块信息;
结构提取单元,被配置成对所述文献区块信息提取结构化信息,其中,所述结构化信息包括文献变量和文献属性,所述文献属性包括以下至少一项:文献相似度、发表年份、文献被引次数和文献期刊影响因子;
标准化单元,被配置成对所述结构化信息进行标准化,得到标准化信息,所述标准化信息包括标准化文献变量和标准化属性;
加权单元,被配置成对于所述标准化文献变量所在的待分析文献,通过文献相似度和预设的加权函数,对该待分析文献的各个标准化属性进行加权;
关联确定单元,被配置成根据加权结果,得到该待分析文献中的该标准化文献变量与所述拟研究内容之间的关联性;
生成单元,被配置成根据所述关联性,对所述拟研究内容生成病例报告表;
所述标准化文献变量与拟研究内容的关联性yweighted,i表示为:
yweighted,i = Σφ(ti,j, ci,j, fi,j) yi,j
其中,yweighted,i表示第i个标准化文献变量与所述拟研究内容的加权相似度,yi,j、ti,j、ci,j、fi,j分别表示第i个待分析标准化文献变量所在第j篇待分析文献的文献相似度、发表年份、文献被引次数和文献期刊影响因子,φ()表示ti,j、ci,j、fi,j的加权函数。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311605975.2A CN117316371B (zh) | 2023-11-29 | 2023-11-29 | 病例报告表的生成方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311605975.2A CN117316371B (zh) | 2023-11-29 | 2023-11-29 | 病例报告表的生成方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117316371A CN117316371A (zh) | 2023-12-29 |
CN117316371B true CN117316371B (zh) | 2024-04-16 |
Family
ID=89286951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311605975.2A Active CN117316371B (zh) | 2023-11-29 | 2023-11-29 | 病例报告表的生成方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117316371B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009093582A (ja) * | 2007-10-12 | 2009-04-30 | Fuji Xerox Co Ltd | 所見分析装置 |
CN106980767A (zh) * | 2017-03-31 | 2017-07-25 | 上海森亿医疗科技有限公司 | 一种基于结构化医学数据库的数据搜索方法及系统 |
KR20170085876A (ko) * | 2016-01-15 | 2017-07-25 | 한국전자통신연구원 | 데이터 마이닝을 이용한 질병 연관성 분석 방법 |
CN110517785A (zh) * | 2019-08-28 | 2019-11-29 | 北京百度网讯科技有限公司 | 相似病例的查找方法、装置及设备 |
CN111552776A (zh) * | 2020-04-24 | 2020-08-18 | 周敬洋 | 一种基于人工智能的Meta分析生成方法 |
CN112307190A (zh) * | 2020-10-31 | 2021-02-02 | 平安科技(深圳)有限公司 | 医学文献排序方法、装置、电子设备及存储介质 |
CN113761323A (zh) * | 2020-06-01 | 2021-12-07 | 深圳华大基因科技有限公司 | 文献推荐系统及文献推荐方法 |
CN114218361A (zh) * | 2021-11-12 | 2022-03-22 | 杭州未名信科科技有限公司 | 一种基于医学研究文献的医学路径推荐方法和系统 |
WO2022160454A1 (zh) * | 2021-01-28 | 2022-08-04 | 平安科技(深圳)有限公司 | 医疗文献的检索方法、装置、电子设备及存储介质 |
CN115732052A (zh) * | 2022-11-17 | 2023-03-03 | 启昇耀康信息科技(上海)有限公司 | 基于结构化临床项目的病例报告表生成方法及设备 |
CN116185332A (zh) * | 2022-12-30 | 2023-05-30 | 药融云数字科技(成都)有限公司 | 用于对检索结果进行排序的文献评价方法、存储介质及终端 |
WO2023195769A1 (ko) * | 2022-04-05 | 2023-10-12 | 주식회사 타날리시스 | 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 |
CN116910254A (zh) * | 2023-07-14 | 2023-10-20 | 魔方医药科技(苏州)有限公司 | 研究报告的生成方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200372987A1 (en) * | 2019-05-23 | 2020-11-26 | Evid Science, Inc. | Systems and methods for automatically generating medical research reports |
-
2023
- 2023-11-29 CN CN202311605975.2A patent/CN117316371B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009093582A (ja) * | 2007-10-12 | 2009-04-30 | Fuji Xerox Co Ltd | 所見分析装置 |
KR20170085876A (ko) * | 2016-01-15 | 2017-07-25 | 한국전자통신연구원 | 데이터 마이닝을 이용한 질병 연관성 분석 방법 |
CN106980767A (zh) * | 2017-03-31 | 2017-07-25 | 上海森亿医疗科技有限公司 | 一种基于结构化医学数据库的数据搜索方法及系统 |
CN110517785A (zh) * | 2019-08-28 | 2019-11-29 | 北京百度网讯科技有限公司 | 相似病例的查找方法、装置及设备 |
CN111552776A (zh) * | 2020-04-24 | 2020-08-18 | 周敬洋 | 一种基于人工智能的Meta分析生成方法 |
CN113761323A (zh) * | 2020-06-01 | 2021-12-07 | 深圳华大基因科技有限公司 | 文献推荐系统及文献推荐方法 |
WO2021190662A1 (zh) * | 2020-10-31 | 2021-09-30 | 平安科技(深圳)有限公司 | 医学文献排序方法、装置、电子设备及存储介质 |
CN112307190A (zh) * | 2020-10-31 | 2021-02-02 | 平安科技(深圳)有限公司 | 医学文献排序方法、装置、电子设备及存储介质 |
WO2022160454A1 (zh) * | 2021-01-28 | 2022-08-04 | 平安科技(深圳)有限公司 | 医疗文献的检索方法、装置、电子设备及存储介质 |
CN114218361A (zh) * | 2021-11-12 | 2022-03-22 | 杭州未名信科科技有限公司 | 一种基于医学研究文献的医学路径推荐方法和系统 |
WO2023195769A1 (ko) * | 2022-04-05 | 2023-10-12 | 주식회사 타날리시스 | 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 |
CN115732052A (zh) * | 2022-11-17 | 2023-03-03 | 启昇耀康信息科技(上海)有限公司 | 基于结构化临床项目的病例报告表生成方法及设备 |
CN116185332A (zh) * | 2022-12-30 | 2023-05-30 | 药融云数字科技(成都)有限公司 | 用于对检索结果进行排序的文献评价方法、存储介质及终端 |
CN116910254A (zh) * | 2023-07-14 | 2023-10-20 | 魔方医药科技(苏州)有限公司 | 研究报告的生成方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于文献共被引特征的文献相似度计算优化研究;韩青;周晓英;;情报学报(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117316371A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846097B (zh) | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 | |
CN113312480B (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN110688405A (zh) | 基于人工智能的专家推荐方法、装置、终端、及介质 | |
CN114077661A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
CN112632984A (zh) | 基于描述文本词频的图模型移动应用分类方法 | |
Schofield et al. | Identifying hate speech in social media | |
CN115374792A (zh) | 联合预训练和图神经网络的政策文本标注方法及系统 | |
CN115879508A (zh) | 一种数据处理方法及相关装置 | |
CN113486670B (zh) | 基于目标语义的文本分类方法、装置、设备及存储介质 | |
CN113535912B (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
Bonakdarpour et al. | Prediction rule reshaping | |
CN109977292A (zh) | 搜索方法、装置、计算设备和计算机可读存储介质 | |
CN113761124A (zh) | 文本编码模型的训练方法、信息检索方法及设备 | |
CN115860283B (zh) | 基于知识工作者画像的贡献度预测方法及装置 | |
CN116028722B (zh) | 一种基于词向量的岗位推荐方法、装置及计算机设备 | |
CN117316371B (zh) | 病例报告表的生成方法、装置、电子设备和存储介质 | |
CN112131884A (zh) | 用于实体分类的方法和装置、用于实体呈现的方法和装置 | |
Saha et al. | A large scale study of SVM based methods for abstract screening in systematic reviews | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
Anuradha et al. | Fuzzy based summarization of product reviews for better analysis | |
Eom et al. | Marketable value estimation of patents using ensemble learning methodology: Focusing on US patents for the electricity sector | |
CN111858830B (zh) | 基于自然语言处理的卫生监督执法数据检索系统及其方法 | |
CN118043802A (zh) | 一种推荐模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |