CN116631550A - 一种临床试验的数据管理及逻辑核查方法及其医疗系统 - Google Patents

一种临床试验的数据管理及逻辑核查方法及其医疗系统 Download PDF

Info

Publication number
CN116631550A
CN116631550A CN202310919406.9A CN202310919406A CN116631550A CN 116631550 A CN116631550 A CN 116631550A CN 202310919406 A CN202310919406 A CN 202310919406A CN 116631550 A CN116631550 A CN 116631550A
Authority
CN
China
Prior art keywords
category
dictionary
test data
character
clinical test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310919406.9A
Other languages
English (en)
Other versions
CN116631550B (zh
Inventor
陈梓嘉
杨劲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aidi Pharmaceutical Technology Co ltd
Original Assignee
Shenzhen Aidi Pharmaceutical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aidi Pharmaceutical Technology Co ltd filed Critical Shenzhen Aidi Pharmaceutical Technology Co ltd
Priority to CN202310919406.9A priority Critical patent/CN116631550B/zh
Publication of CN116631550A publication Critical patent/CN116631550A/zh
Application granted granted Critical
Publication of CN116631550B publication Critical patent/CN116631550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3088Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及医疗数据处理技术领域,提出了一种临床试验的数据管理及逻辑核查方法及其医疗系统,包括:获取若干病例的临床试验数据;将若干病例的临床试验数据根据每个病例的病例试验信息进行分类,根据每个类别中不同字符串的分布分别构建每个类别的原始字典,根据每个类别的原始字典中不同字符串的重复程度获取每个类别的初始字典;根据每个类别的初始字典中字符串在类别中临床试验数据中与后缀字符组成的字符串组合的语义信息,迭代判断后缀字符个数并更新字典,根据更新的字典完成对每个类别的临床试验数据的压缩;将压缩后的临床试验数据传输到服务器中进行存储。本发明旨在解决传统LZW算法对临床试验数据压缩率较低且压缩过程较慢的问题。

Description

一种临床试验的数据管理及逻辑核查方法及其医疗系统
技术领域
本发明涉及医疗数据处理技术领域,具体涉及一种临床试验的数据管理及逻辑核查方法及其医疗系统。
背景技术
临床试验是医疗研发过程中的关键环节,医疗研发过程中需要通过大量的临床试验进行验证;由于临床试验的数据质量是保证临床试验的质量的重要标准,而临床试验的数据质量判断是通过将数据输入到计算机系统对数据进行逻辑核查;临床试验过程中数据的收集都是基于每个病例的数据尽可能获取完备的信息,包括病例的性别、年龄、病史、临床表现、医疗影像以及各种诊断结果,而这些数据量较为庞大,因此需要进行压缩存储,为临床试验数据的管理及逻辑核查提供基础。
临床试验数据都是基于每个病例的数据,即病例记录表,其中包括病例的基本信息以及对应的临床试验信息,由于临床试验数据的特殊性,即同一种临床试验所记载的病例的数据以及临床试验数据的形式基本相同,因此可以采用LZW算法对临床试验数据进行压缩处理;传统的LZW算法中,通过设置默认字符来构建初始字典,并需要不断的更新字典,在每次更新字典过程中仅考虑增加一个后缀字符,使得对临床试验数据压缩过程较慢,同时增大更新后字典的冗余,导致编码压缩及解码过程耗时较长且复杂,使得压缩率较低。
发明内容
本发明提供一种临床试验的数据管理及逻辑核查方法及其医疗系统,以解决现有的传统LZW算法对临床试验数据压缩率较低且压缩过程较慢的问题,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种临床试验的数据管理及逻辑核查方法,该方法包括以下步骤:
获取若干病例的临床试验数据中的病例基础信息及病例试验信息;
获取每个病例的病例试验信息的段落向量,并作为每个病例的临床试验数据的特征向量,根据所有病例的临床试验数据的特征向量之间的余弦相似度将临床试验数据分为若干类别,对每个类别中的临床试验数据进行分词处理,将每个分词作为一个字符串,根据每个字符串在类别中所有临床试验数据中的分布获取每个类别的原始字典;
将任意一个类别的原始字典中任意两个字符串中每个字符作为一个元素得到两个字符串分别对应的集合,将两个集合的交集的元素数量与并集的元素数量的比值作为两个字符串的重要程度,根据重复程度获取两个字符串之间的重复词并得到每个类别的初始字典;
在每个类别的临床试验数据的每个句子进行压缩处理的过程中,获取每个类别的初始字典中每个字符串与后缀字符组成的字符串组合的完整程度,根据完整程度获取初始字典中每个字符串在类别中每个句子的最佳后缀字符个数,根据初始字典中每个字符串及最佳后缀字符个数,以及字符串在句子中相应的后缀字符,对每个类别的初始字典更新获取每个类别的最终字典,根据每个类别的最终字典对每个类别的临床试验数据进行压缩得到压缩后的临床试验数据;
将压缩后的临床试验数据及每个类别的最终字典传输到服务器中进行存储。
可选的,所述获取每个病例的病例试验信息的段落向量,包括的具体方法为:
将每个病例的病例试验信息中的文本信息作为一个段落输入到Doc2vec模型中,模型的输出数据为每个病例试验信息的段落向量。
可选的,所述根据所有病例的临床试验数据的特征向量之间的余弦相似度将临床试验数据分为若干类别,包括的具体方法为:
将特征向量之间的余弦相似度大于第一预设阈值的两个病例的临床试验数据归入到一个类别中,并确保两个病例的临床试验数据的特征向量与类别中其他病例的临床试验数据的特征向量之间的余弦相似度均大于第一预设阈值,对所有病例的临床试验数据根据特征向量之间的余弦相似度进行归类,得到若干类别。
可选的,所述根据每个字符串在类别中所有临床试验数据中的分布获取每个类别的原始字典,包括的具体方法为:
将任意一个类别中每个字符串在类别中所有临床试验数据的所有分词中的出现次数与所有分词的数量的比值,作为每个字符串的分布概率,将所有字符串的分布概率降序排列,将预设数量的分布概率最大的字符串作为该类别的原始字典。
可选的,所述根据重复程度获取两个字符串之间的重复词并得到每个类别的初始字典,包括的具体方法为:
获取任意一个类别的原始字典中所有重复程度大于第二预设阈值的两个字符串的交集,判断每个交集中的元素在所属两个字符串中是否均为连续的字符,将交集元素中连续的字符组成的字符串作为对应两个字符串的重复词进行提取,若不存在两个字符串中均为连续的字符则两个字符串不存在重复词,获取所有重复程度大于第二预设阈值的两个字符串的重复词,将该类别的原始字典中不存在重复词的字符串及重复词作为该类别的初始字典。
可选的,所述获取每个类别的初始字典中每个字符串与后缀字符组成的字符串组合的完整程度,包括的具体方法为:
对任意一个类别的初始字典中的任意一个字符串在类别中临床试验数据的任意一个句子进行压缩处理过程中,对该字符串的后缀字符个数以预设步长进行迭代增加,第次迭代形成的字符串组合的完整程度的计算方法为:
其中,表示该字符串在当前句子第/>次迭代的字符串组合的完整程度,/>表示该字符串组合在该类别的所有临床试验数据中出现的次数,/>表示该字符串组合第/>次出现的句子的句向量,/>表示该字符串组合第/>次出现的句子去除该字符串组合后的句向量,/>表示去除前后第/>次出现的句子的句向量之间的余弦相似度。
可选的,所述根据完整程度获取初始字典中每个字符串在类别中每个句子的最佳后缀字符个数,包括的具体方法为:
任意一个类别的初始字典中的字符串在任意句子的压缩处理的迭代过程中,第一次出现字符串组合完整程度大于第三预设阈值,此时的迭代次数即为字符串在当前句子的最佳后缀字符个数。
第二方面,本发明另一个实施例提供了一种临床试验的数据管理及逻辑核查的医疗系统,该系统包括:
数据获取模块,获取若干病例的临床试验数据中的病例基础信息及病例试验信息;
数据压缩模块:获取每个病例的病例试验信息的段落向量,并作为每个病例的临床试验数据的特征向量,根据所有病例的临床试验数据的特征向量之间的余弦相似度将临床试验数据分为若干类别,对每个类别中的临床试验数据进行分词处理,将每个分词作为一个字符串,根据每个字符串在类别中所有临床试验数据中的分布获取每个类别的原始字典;
将任意一个类别的原始字典中任意两个字符串中每个字符作为一个元素得到两个字符串分别对应的集合,将两个集合的交集的元素数量与并集的元素数量的比值作为两个字符串的重要程度,根据重复程度获取两个字符串之间的重复词并得到每个类别的初始字典;
获取每个类别的初始字典中字符串在类别中临床试验数据的每个句子进行压缩处理过程的与后缀字符组成的字符串组合的完整程度,根据完整程度获取初始字典中每个字符串在类别中每个句子的最佳后缀字符个数,根据初始字典中每个字符串及最佳后缀字符个数,以及字符串在句子中相应的后缀字符,对每个类别的初始字典更新获取每个类别的最终字典,根据每个类别的最终字典对每个类别的临床试验数据进行压缩得到压缩后的临床试验数据;
数据管理模块,将压缩后的临床试验数据传输到服务器中进行存储。
本发明的有益效果是:根据临床试验数据之间的相似性进行数据的分类,并根据不同类别的临床试验数据的字符串分布来获取每个类别的临床试验数据的初始字典;通过对初始字典中重复程度较大的字符串进行修改,获取每个类别的最终的初始字典,减少了初始字典中的冗余;在字典的更新过程中,根据临床试验数据中字符串的语义完整性,通过迭代的方法在不更改语义信息前提下获取最优的后缀字符个数;避免了传统的LZW算法中,通过设置默认字符来构建初始字典,并在每次更新字典过程中仅考虑增加一个后缀字符,使得对临床试验数据压缩过程较慢,同时增大更新后字典的冗余,导致编码压缩及解码过程耗时较长且复杂,使得压缩率较低;通过本发明中改进的LZW算法进行压缩可以加快字典的更新速度,并大大增加对临床实验数据的压缩率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种临床试验的数据管理及逻辑核查方法流程示意图;
图2为本发明另一个实施例所提供的一种临床试验的数据管理及逻辑核查的医疗系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种临床试验的数据管理及逻辑核查方法流程图,该方法包括以下步骤:
步骤S001、获取若干病例的临床试验数据。
本实施例的目的是对临床试验数据进行压缩存储完成数据管理,因此首先需要获取若干病例的临床试验数据;获取若干病例的病例记录表,每个病例记录表分别为一个病例的临床试验数据,临床试验数据包括病例的基本信息及病例试验信息,基本信息包括病例的性别、年龄以及病史,临床试验信息包括病例的临床表现以及诊断结果;需要说明的是,病例记录表按照病例的基本信息及病例试验信息预先设计好,数据获取时直接采集若干病例的病例记录表即可得到若干病例的临床试验数据。
步骤S002、将若干病例的临床试验数据根据每个病例的病例试验信息进行分类,根据每个类别中不同字符串的分布分别构建每个类别的原始字典,根据每个类别的原始字典中不同字符串的重复程度获取每个类别的初始字典。
需要说明的是,若干病例的临床试验数据属于若干种临床试验,相同的临床试验得到的临床试验数据中的临床表现及诊断结果存在一定相似性,其中的文本信息存在较多相同的字符串,将属于同种临床试验的临床试验数据作为一个类别进行压缩处理,可以将相同字符串作为字典进而进行LZW压缩,相较于设置默认字符来进行LZW压缩可以极大缩短压缩过程并提高压缩效率。
具体的,首先根据每个病例的病例试验信息之间的数据相似性对临床试验数据进行分类,病例试验信息包括临床表现及诊断结果;通过Doc2vec模型对采集到的病例试验信息进行特征向量的提取,每个临床试验数据对应一个病例试验信息即对应一个特征向量;其中Doc2vec模型的训练过程采用PV-DM模式,为现有技术本实施例不再赘述,将病例试验信息中的临床表现及诊断结果中的文本信息作为一个段落输入到模型中,模型的输出数据为每个病例试验信息的段落向量,此时得到的段落向量可以表征病例试验信息中临床表现及诊断结果的语义信息。
将每个病例试验信息的段落向量作为所属病例的临床试验数据的特征向量,获取任意两个病例的临床试验数据的特征向量之间的余弦相似度,给出第一预设阈值用以判断特征向量之间的相似性,本实施例中第一预设阈值采用0.7进行计算,将余弦相似度大于第一预设阈值的两个病例的临床试验数据归入到一个类别中,并确保两个病例的临床试验数据的特征向量与类别中其他病例的临床试验数据的特征向量之间的余弦相似度均大于第一预设阈值,对所有病例的临床试验数据根据特征向量之间的余弦相似度进行归类,得到若干类别;同一类别中的病例的临床试验数据的特征向量之间的余弦相似度较大,不同类别中的病例的临床试验数据的特征向量之间的余弦相似度较小;即同一类别中不同病例的病例试验信息中文本数据相近,可能为同一种临床试验;而不同类别中不同病例的病例试验信息中文本数据相差较大,大概率为不同种的临床试验。
进一步需要说明的是,病例的临床试验数据包括病例基本信息和病例试验信息,病例基本信息中的性别、年龄及病史均为文本信息且存在较高的重复性;而同一类别中病例试验信息相似性较大,其中同样包含较多的重复字符,例如病症名称及药物名称等;通过分词操作提取同一类别的临床试验数据中的若干分词并作为字符串,根据各字符串的分布概率来构建每个类别的原始字典,可以将重复性较高的字符串作为原始字典便于后续进行压缩处理。
具体的,对任意一个类别中的若干临床试验数据中的文本信息进行Jieba分词处理,获取到该类别中所有临床试验数据的所有分词,将每个分词作为一个字符串,将每个字符串在类别中所有临床试验数据的所有分词中的出现次数与所有分词的数量的比值,作为每个字符串的分布概率,将所有字符串的分布概率降序排列,本实施例选取前20个分布概率最大的字符串构建该类别的原始字典,具体实施过程实施者可根据情况选择不同数量的字符串进行原始字典的构建;按照上述方法获取每个类别的原始字典。
进一步需要说明的是,由于同一类别中不同字符串之间存在较高的重复性,即不同的两个字符串中可能多个字符相同,将这两个字符串都作为原始字典中的字符串,会导致字典产生较大冗余并使得压缩率较小,因此需要对原始字典中不同字符串的重复字符进行提取,进而得到初始字典,避免字典中冗余较大而导致压缩率减小。
具体的,将任意一个类别的原始字典中任意两个字符串中每个字符作为一个元素,则两个字符串分别为一个集合,对两个集合求交集及并集,交集即为两个字符串中重复的字符,并集为两个字符串中的所有字符,将交集的元素数量与并集的元素数量的比值作为两个字符串的重复程度;按照上述方法获取该类别的原始字典中任意两个字符串间的重复程度,给出第二预设阈值用以判断字符串之间的重复性,本实施例中第二预设阈值采用0.5进行计算,提取所有重复程度大于第二预设阈值的两个字符串的交集,判断每个交集中的元素在所属两个字符串中是否均为连续的字符,将交集元素中连续的字符组成的字符串作为对应两个字符串的重复词进行提取,若不存在两个字符串中均为连续的字符则两个字符串不存在重复词,获取所有重复程度大于第二预设阈值的两个字符串的重复词,将该类别的原始字典中不存在重复词的字符串及重复词作为该类别的初始字典,按照上述方法获取每个类别的初始字典。
至此,根据每个病例的病例试验信息对若干临床试验数据进行分类,并获取到每个类别的初始字典用于后续对临床试验数据的压缩处理。
步骤S003、根据每个类别的初始字典中字符串在类别中临床试验数据中与后缀字符组成的字符串组合的语义信息,迭代判断后缀字符个数并更新字典,根据更新的字典完成对每个类别的临床试验数据的压缩。
需要说明的是,在对初始字典进行更新的过程中,传统的LZW算法在初始字典的字符串基础上增加一个字符来进行压缩操作,会使得压缩过程较慢且压缩率较低,同时由于同一类别中临床试验数据之间较高的重复性,一个后缀字符会造成字典冗余;因此需要对后缀字符进行迭代增加,并根据语义信息的差异判断初始字典中每个字符串自适应的最佳后缀字符个数,进而完成字典更新并进行压缩处理。
具体的,在对任意一个类别的临床试验数据根据对应的初始字典进行LZW压缩过程中,以步长为1对初始字典中的字符串进行后缀字符个数迭代,本实施例中迭代最大范围为7,即初始字典中字符串的后缀字符个数最大为7,具体实施过程实施者可视情况进行调整;将该类别中的所有临床试验数据的文本信息输入到Doc2vec模型,模型的训练过程采用PV-DM模式,本实施例设置最大词长度为10,临床试验数据中的病例基础信息中的性别和年龄均分别视为一个句子,病史及病例试验信息在模型中进行句子划分,且不会超过最大词长度,模型的输出数据即为该类别每个临床试验数据中每个句子的句向量。
进一步的,以该类别初始字典中任意一个字符串在任意一个句子中第次迭代形成的字符串组合为例,所述字符串组合即为该字符串在该句子中与/>个后缀字符组成的字符串组合,计算去除该字符串组合前后该句子的句向量差异来表征该字符串组合的完整程度;例如任意一个类别的初始字典中的一个字符串为“葡萄”,该类别中的临床试验数据中存在一句“葡萄球菌导致中耳炎”的文本信息,则该字符串在该句子的第一次迭代形成的字符串组合为“葡萄球”,第二次迭代形成的字符串组合为“葡萄球菌”,该句子去除第一次迭代形成的字符串组合后的句子为“菌导致中耳炎”,原句子去除第二次迭代形成的字符串组合后的句子为“导致中耳炎”,通过比较“菌导致中耳炎”与“葡萄球菌导致中耳炎”的句向量差异来表征字符串组合“葡萄球”的完整程度,通过比较“导致中耳炎”与“葡萄球菌导致中耳炎”的句向量差异来表征字符串组合“葡萄球菌”的完整程度;具体的计算方法为:
其中,表示该字符串在当前句子第/>次迭代的字符串组合的完整程度,/>表示该字符串组合在该类别的所有临床试验数据中出现的次数,/>表示该字符串组合第/>次出现的句子的句向量,/>表示该字符串组合第/>次出现的句子去除该字符串组合后的句向量,/>则表示去除前后第/>次出现的句子的句向量之间的余弦相似度,通过1减去相似度的均值来表示反比例相似度与完整程度之间的相似关系;其中去除该字符串组合后的句向量仍由Doc2vec模型获取,具体过程为将去除该字符串组合后的句子输入到训练后的Doc2vec模型中得到输出的句向量;去除前后的句向量之间余弦相似度越大,表明去除该字符串组合对句子的语义影响越小,该字符串组合在出现的句子中的重要程度越小,此时的字符串组合含有语义信息较少,在当前句子中的完整程度越小,越应该继续迭代获取更大的完整程度;通过迭代过程形成的字符串组合在类别中所有临床试验数据出现的句子去除前后的句向量差异,表征字符串组合的完整程度,降低单次出现的偶然性,使初始字典中的字符串在所有句子中可以获取到最佳的后缀字符个数。
进一步的,给出第三预设阈值用以判断字符串迭代过程的完整程度,本实施例中第三预设阈值采用0.65进行计算,若初始字典中的字符串在任意句子的压缩处理的迭代过程中,第一次出现字符串组合完整程度大于第三预设阈值,则表明此时的迭代次数即为字符串在当前句子的最佳后缀字符个数;按照上述方法获取该类别的初始字典中的字符串在类别中所有临床试验数据的句子中的最佳后缀字符个数,并根据最佳后缀字符个数及句子中相应的字符对该类别的初始字典进行更新,根据更新的字典完成对该类别的临床试验数据的LZW压缩;需要说明的是,若初始字典中的字符串在某一句子的压缩处理的迭代过程中到最大范围仍为出现完整程度大于第三预设阈值的字符串组合,则为保证无损压缩,以字符串与在当前句子的一个后缀字符对初始字典进行更新;对字典的根据后缀字符进行更新为LZW算法的现有技术,本实施例不再赘述。
按照上述方法对每个类别的临床试验数据进行压缩,得到压缩后的临床试验数据,并将每个类别更新的字典记为每个类别的最终字典;需要说明的是,压缩处理仅针对临床试验数据中的文本信息,包括字母、数据及文字等信息,临床试验数据中的其他信息例如图像信息则不进行压缩直接进行传输;至此,完成对临床试验数据的压缩处理。
步骤S004、将压缩后的临床试验数据传输到服务器中进行存储,并在调取临床试验数据后实现逻辑核查。
将压缩后的临床试验数据及每个类别的最终字典传输到服务器中进行存储,完成对于临床试验数据的压缩存储,即数据管理;当医生调取临床试验数据时,根据临床试验数据所述类别的最终字典中的编码表进行解码,读取解码后的临床试验数据完成调取,医生对调取到的临床试验数据进行逻辑核查,保证临床试验数据的准确性。
请参阅图2,其示出了本发明另一个实施例所提供的一种临床试验的数据管理及逻辑核查的医疗系统结构框图,该系统包括:
数据获取模块S101,获取若干病例的临床试验数据。
数据压缩模块S102:
(1)将若干病例的临床试验数据根据每个病例的病例试验信息进行分类,根据每个类别中不同字符串的分布分别构建每个类别的原始字典,根据每个类别的原始字典中不同字符串的重复程度获取每个类别的初始字典;
(2)根据每个类别的初始字典中字符串在类别中临床试验数据中与后缀字符组成的字符串组合的语义信息,迭代判断后缀字符个数并更新字典,根据更新的字典完成对每个类别的临床试验数据的压缩。
数据管理模块S103,将压缩后的临床试验数据传输到服务器中进行存储,并在调取临床试验数据后实现逻辑核查。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种临床试验的数据管理及逻辑核查方法,其特征在于,该方法包括以下步骤:
获取若干病例的临床试验数据中的病例基础信息及病例试验信息;
获取每个病例的病例试验信息的段落向量,并作为每个病例的临床试验数据的特征向量,根据所有病例的临床试验数据的特征向量之间的余弦相似度将临床试验数据分为若干类别,对每个类别中的临床试验数据进行分词处理,将每个分词作为一个字符串,根据每个字符串在类别中所有临床试验数据中的分布获取每个类别的原始字典;
将任意一个类别的原始字典中任意两个字符串中每个字符作为一个元素得到两个字符串分别对应的集合,将两个集合的交集的元素数量与并集的元素数量的比值作为两个字符串的重要程度,根据重复程度获取两个字符串之间的重复词并得到每个类别的初始字典;
在每个类别的临床试验数据的每个句子进行压缩处理的过程中,获取每个类别的初始字典中每个字符串与后缀字符组成的字符串组合的完整程度,根据完整程度获取初始字典中每个字符串在类别中每个句子的最佳后缀字符个数,根据初始字典中每个字符串及最佳后缀字符个数,以及字符串在句子中相应的后缀字符,对每个类别的初始字典更新获取每个类别的最终字典,根据每个类别的最终字典对每个类别的临床试验数据进行压缩得到压缩后的临床试验数据;
将压缩后的临床试验数据及每个类别的最终字典传输到服务器中进行存储。
2.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法,其特征在于,所述获取每个病例的病例试验信息的段落向量,包括的具体方法为:
将每个病例的病例试验信息中的文本信息作为一个段落输入到Doc2vec模型中,模型的输出数据为每个病例试验信息的段落向量。
3.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法,其特征在于,所述根据所有病例的临床试验数据的特征向量之间的余弦相似度将临床试验数据分为若干类别,包括的具体方法为:
将特征向量之间的余弦相似度大于第一预设阈值的两个病例的临床试验数据归入到一个类别中,并确保两个病例的临床试验数据的特征向量与类别中其他病例的临床试验数据的特征向量之间的余弦相似度均大于第一预设阈值,对所有病例的临床试验数据根据特征向量之间的余弦相似度进行归类,得到若干类别。
4.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法,其特征在于,所述根据每个字符串在类别中所有临床试验数据中的分布获取每个类别的原始字典,包括的具体方法为:
将任意一个类别中每个字符串在类别中所有临床试验数据的所有分词中的出现次数与所有分词的数量的比值,作为每个字符串的分布概率,将所有字符串的分布概率降序排列,将预设数量的分布概率最大的字符串作为该类别的原始字典。
5.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法,其特征在于,所述根据重复程度获取两个字符串之间的重复词并得到每个类别的初始字典,包括的具体方法为:
获取任意一个类别的原始字典中所有重复程度大于第二预设阈值的两个字符串的交集,判断每个交集中的元素在所属两个字符串中是否均为连续的字符,将交集元素中连续的字符组成的字符串作为对应两个字符串的重复词进行提取,若不存在两个字符串中均为连续的字符则两个字符串不存在重复词,获取所有重复程度大于第二预设阈值的两个字符串的重复词,将该类别的原始字典中不存在重复词的字符串及重复词作为该类别的初始字典。
6.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法,其特征在于,所述获取每个类别的初始字典中每个字符串与后缀字符组成的字符串组合的完整程度,包括的具体方法为:
对任意一个类别的初始字典中的任意一个字符串在类别中临床试验数据的任意一个句子进行压缩处理过程中,对该字符串的后缀字符个数以预设步长进行迭代增加,第次迭代形成的字符串组合的完整程度的计算方法为:
其中,表示该字符串在当前句子第/>次迭代的字符串组合的完整程度,/>表示该字符串组合在该类别的所有临床试验数据中出现的次数,/>表示该字符串组合第/>次出现的句子的句向量,/>表示该字符串组合第/>次出现的句子去除该字符串组合后的句向量,表示去除前后第/>次出现的句子的句向量之间的余弦相似度。
7.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法,其特征在于,所述根据完整程度获取初始字典中每个字符串在类别中每个句子的最佳后缀字符个数,包括的具体方法为:
任意一个类别的初始字典中的字符串在任意句子的压缩处理的迭代过程中,第一次出现字符串组合完整程度大于第三预设阈值,此时的迭代次数即为字符串在当前句子的最佳后缀字符个数。
8.一种临床试验的数据管理及逻辑核查的医疗系统,其特征在于,该系统包括:
数据获取模块,获取若干病例的临床试验数据中的病例基础信息及病例试验信息;
数据压缩模块:获取每个病例的病例试验信息的段落向量,并作为每个病例的临床试验数据的特征向量,根据所有病例的临床试验数据的特征向量之间的余弦相似度将临床试验数据分为若干类别,对每个类别中的临床试验数据进行分词处理,将每个分词作为一个字符串,根据每个字符串在类别中所有临床试验数据中的分布获取每个类别的原始字典;
将任意一个类别的原始字典中任意两个字符串中每个字符作为一个元素得到两个字符串分别对应的集合,将两个集合的交集的元素数量与并集的元素数量的比值作为两个字符串的重要程度,根据重复程度获取两个字符串之间的重复词并得到每个类别的初始字典;
获取每个类别的初始字典中字符串在类别中临床试验数据的每个句子进行压缩处理过程的与后缀字符组成的字符串组合的完整程度,根据完整程度获取初始字典中每个字符串在类别中每个句子的最佳后缀字符个数,根据初始字典中每个字符串及最佳后缀字符个数,以及字符串在句子中相应的后缀字符,对每个类别的初始字典更新获取每个类别的最终字典,根据每个类别的最终字典对每个类别的临床试验数据进行压缩得到压缩后的临床试验数据;
数据管理模块,将压缩后的临床试验数据传输到服务器中进行存储。
CN202310919406.9A 2023-07-26 2023-07-26 一种临床试验的数据管理及逻辑核查方法及其医疗系统 Active CN116631550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310919406.9A CN116631550B (zh) 2023-07-26 2023-07-26 一种临床试验的数据管理及逻辑核查方法及其医疗系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310919406.9A CN116631550B (zh) 2023-07-26 2023-07-26 一种临床试验的数据管理及逻辑核查方法及其医疗系统

Publications (2)

Publication Number Publication Date
CN116631550A true CN116631550A (zh) 2023-08-22
CN116631550B CN116631550B (zh) 2023-11-28

Family

ID=87610300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310919406.9A Active CN116631550B (zh) 2023-07-26 2023-07-26 一种临床试验的数据管理及逻辑核查方法及其医疗系统

Country Status (1)

Country Link
CN (1) CN116631550B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820352A (zh) * 2023-08-23 2023-09-29 湖南奔普智能科技有限公司 一种具有数据容灾功能的病区自助结算系统
CN117313657A (zh) * 2023-11-30 2023-12-29 深圳市伟奇服装有限公司 一种校服设计数据编码压缩方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN111177999A (zh) * 2019-12-16 2020-05-19 平安国际智慧城市科技股份有限公司 基于文本框的文字文本展示方法、装置和计算机设备
CN113297844A (zh) * 2021-05-21 2021-08-24 西北工业大学 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法
CN114358001A (zh) * 2021-11-16 2022-04-15 安徽科大讯飞医疗信息技术有限公司 诊断结果的标准化方法及其相关装置、设备和存储介质
CN114861673A (zh) * 2022-05-13 2022-08-05 阳光保险集团股份有限公司 一种语义分析方法、装置及设备
CN115171830A (zh) * 2022-06-15 2022-10-11 平安科技(深圳)有限公司 基于病患数据的服务包生成方法、装置、设备及存储介质
WO2023029356A1 (zh) * 2021-08-31 2023-03-09 平安科技(深圳)有限公司 基于句向量模型的句向量生成方法、装置及计算机设备
CN116112434A (zh) * 2023-04-12 2023-05-12 深圳市网联天下科技有限公司 一种路由器数据智能缓存方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN111177999A (zh) * 2019-12-16 2020-05-19 平安国际智慧城市科技股份有限公司 基于文本框的文字文本展示方法、装置和计算机设备
CN113297844A (zh) * 2021-05-21 2021-08-24 西北工业大学 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法
WO2023029356A1 (zh) * 2021-08-31 2023-03-09 平安科技(深圳)有限公司 基于句向量模型的句向量生成方法、装置及计算机设备
CN114358001A (zh) * 2021-11-16 2022-04-15 安徽科大讯飞医疗信息技术有限公司 诊断结果的标准化方法及其相关装置、设备和存储介质
CN114861673A (zh) * 2022-05-13 2022-08-05 阳光保险集团股份有限公司 一种语义分析方法、装置及设备
CN115171830A (zh) * 2022-06-15 2022-10-11 平安科技(深圳)有限公司 基于病患数据的服务包生成方法、装置、设备及存储介质
CN116112434A (zh) * 2023-04-12 2023-05-12 深圳市网联天下科技有限公司 一种路由器数据智能缓存方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820352A (zh) * 2023-08-23 2023-09-29 湖南奔普智能科技有限公司 一种具有数据容灾功能的病区自助结算系统
CN116820352B (zh) * 2023-08-23 2023-11-10 湖南奔普智能科技有限公司 一种具有数据容灾功能的病区自助结算系统
CN117313657A (zh) * 2023-11-30 2023-12-29 深圳市伟奇服装有限公司 一种校服设计数据编码压缩方法
CN117313657B (zh) * 2023-11-30 2024-03-19 深圳市伟奇服装有限公司 一种校服设计数据编码压缩方法

Also Published As

Publication number Publication date
CN116631550B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN116631550B (zh) 一种临床试验的数据管理及逻辑核查方法及其医疗系统
CN111814466A (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
CN111737975A (zh) 文本内涵质量的评估方法、装置、设备及存储介质
CN112016313B (zh) 口语化要素识别方法及装置、警情分析系统
US11645447B2 (en) Encoding textual information for text analysis
CN110275928B (zh) 迭代式实体关系抽取方法
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN118098482B (zh) 基于5g技术的智慧医疗管理系统及方法
CN115687571B (zh) 一种基于模态融合重建哈希的深度无监督跨模态检索方法
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113673613A (zh) 基于对比学习的多模态数据特征表达方法、装置及介质
CN114387602B (zh) 医疗ocr数据优化模型训练方法、优化方法及设备
CN117407532A (zh) 一种利用大模型与协同训练进行数据增强的方法
CN112749277A (zh) 医学数据的处理方法、装置及存储介质
CN115545041A (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN114220505A (zh) 病历数据的信息抽取方法、终端设备及可读存储介质
CN114528944A (zh) 一种医疗文本编码方法、装置、设备及可读存储介质
CN111553442A (zh) 一种分类器链标签序列的优化方法及系统
CN116208772A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
WO2023070424A1 (zh) 一种数据库数据的压缩方法及存储设备
CN114997190A (zh) 机器翻译方法、装置、计算机设备和存储介质
CN114638229A (zh) 笔录数据的实体识别方法、装置、介质及设备
WO2022141855A1 (zh) 文本正则方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant