CN116631550A

CN116631550A - 一种临床试验的数据管理及逻辑核查方法及其医疗系统

Info

Publication number: CN116631550A
Application number: CN202310919406.9A
Authority: CN
Inventors: 陈梓嘉; 杨劲
Original assignee: Shenzhen Aidi Pharmaceutical Technology Co ltd
Current assignee: Shenzhen Aidi Pharmaceutical Technology Co ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-08-22
Anticipated expiration: 2043-07-26
Also published as: CN116631550B

Abstract

本发明涉及医疗数据处理技术领域，提出了一种临床试验的数据管理及逻辑核查方法及其医疗系统，包括：获取若干病例的临床试验数据；将若干病例的临床试验数据根据每个病例的病例试验信息进行分类，根据每个类别中不同字符串的分布分别构建每个类别的原始字典，根据每个类别的原始字典中不同字符串的重复程度获取每个类别的初始字典；根据每个类别的初始字典中字符串在类别中临床试验数据中与后缀字符组成的字符串组合的语义信息，迭代判断后缀字符个数并更新字典，根据更新的字典完成对每个类别的临床试验数据的压缩；将压缩后的临床试验数据传输到服务器中进行存储。本发明旨在解决传统LZW算法对临床试验数据压缩率较低且压缩过程较慢的问题。

Description

一种临床试验的数据管理及逻辑核查方法及其医疗系统

技术领域

本发明涉及医疗数据处理技术领域，具体涉及一种临床试验的数据管理及逻辑核查方法及其医疗系统。

背景技术

临床试验是医疗研发过程中的关键环节，医疗研发过程中需要通过大量的临床试验进行验证；由于临床试验的数据质量是保证临床试验的质量的重要标准，而临床试验的数据质量判断是通过将数据输入到计算机系统对数据进行逻辑核查；临床试验过程中数据的收集都是基于每个病例的数据尽可能获取完备的信息，包括病例的性别、年龄、病史、临床表现、医疗影像以及各种诊断结果，而这些数据量较为庞大，因此需要进行压缩存储，为临床试验数据的管理及逻辑核查提供基础。

临床试验数据都是基于每个病例的数据，即病例记录表，其中包括病例的基本信息以及对应的临床试验信息，由于临床试验数据的特殊性，即同一种临床试验所记载的病例的数据以及临床试验数据的形式基本相同，因此可以采用LZW算法对临床试验数据进行压缩处理；传统的LZW算法中，通过设置默认字符来构建初始字典，并需要不断的更新字典，在每次更新字典过程中仅考虑增加一个后缀字符，使得对临床试验数据压缩过程较慢，同时增大更新后字典的冗余，导致编码压缩及解码过程耗时较长且复杂，使得压缩率较低。

发明内容

本发明提供一种临床试验的数据管理及逻辑核查方法及其医疗系统，以解决现有的传统LZW算法对临床试验数据压缩率较低且压缩过程较慢的问题，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种临床试验的数据管理及逻辑核查方法，该方法包括以下步骤：

获取若干病例的临床试验数据中的病例基础信息及病例试验信息；

获取每个病例的病例试验信息的段落向量，并作为每个病例的临床试验数据的特征向量，根据所有病例的临床试验数据的特征向量之间的余弦相似度将临床试验数据分为若干类别，对每个类别中的临床试验数据进行分词处理，将每个分词作为一个字符串，根据每个字符串在类别中所有临床试验数据中的分布获取每个类别的原始字典；

将任意一个类别的原始字典中任意两个字符串中每个字符作为一个元素得到两个字符串分别对应的集合，将两个集合的交集的元素数量与并集的元素数量的比值作为两个字符串的重要程度，根据重复程度获取两个字符串之间的重复词并得到每个类别的初始字典；

在每个类别的临床试验数据的每个句子进行压缩处理的过程中，获取每个类别的初始字典中每个字符串与后缀字符组成的字符串组合的完整程度，根据完整程度获取初始字典中每个字符串在类别中每个句子的最佳后缀字符个数，根据初始字典中每个字符串及最佳后缀字符个数，以及字符串在句子中相应的后缀字符，对每个类别的初始字典更新获取每个类别的最终字典，根据每个类别的最终字典对每个类别的临床试验数据进行压缩得到压缩后的临床试验数据；

将压缩后的临床试验数据及每个类别的最终字典传输到服务器中进行存储。

可选的，所述获取每个病例的病例试验信息的段落向量，包括的具体方法为：

将每个病例的病例试验信息中的文本信息作为一个段落输入到Doc2vec模型中，模型的输出数据为每个病例试验信息的段落向量。

可选的，所述根据所有病例的临床试验数据的特征向量之间的余弦相似度将临床试验数据分为若干类别，包括的具体方法为：

将特征向量之间的余弦相似度大于第一预设阈值的两个病例的临床试验数据归入到一个类别中，并确保两个病例的临床试验数据的特征向量与类别中其他病例的临床试验数据的特征向量之间的余弦相似度均大于第一预设阈值，对所有病例的临床试验数据根据特征向量之间的余弦相似度进行归类，得到若干类别。

可选的，所述根据每个字符串在类别中所有临床试验数据中的分布获取每个类别的原始字典，包括的具体方法为：

将任意一个类别中每个字符串在类别中所有临床试验数据的所有分词中的出现次数与所有分词的数量的比值，作为每个字符串的分布概率，将所有字符串的分布概率降序排列，将预设数量的分布概率最大的字符串作为该类别的原始字典。

可选的，所述根据重复程度获取两个字符串之间的重复词并得到每个类别的初始字典，包括的具体方法为：

获取任意一个类别的原始字典中所有重复程度大于第二预设阈值的两个字符串的交集，判断每个交集中的元素在所属两个字符串中是否均为连续的字符，将交集元素中连续的字符组成的字符串作为对应两个字符串的重复词进行提取，若不存在两个字符串中均为连续的字符则两个字符串不存在重复词，获取所有重复程度大于第二预设阈值的两个字符串的重复词，将该类别的原始字典中不存在重复词的字符串及重复词作为该类别的初始字典。

可选的，所述获取每个类别的初始字典中每个字符串与后缀字符组成的字符串组合的完整程度，包括的具体方法为：

对任意一个类别的初始字典中的任意一个字符串在类别中临床试验数据的任意一个句子进行压缩处理过程中，对该字符串的后缀字符个数以预设步长进行迭代增加，第次迭代形成的字符串组合的完整程度的计算方法为：

其中，表示该字符串在当前句子第/>次迭代的字符串组合的完整程度，/>表示该字符串组合在该类别的所有临床试验数据中出现的次数，/>表示该字符串组合第/>次出现的句子的句向量，/>表示该字符串组合第/>次出现的句子去除该字符串组合后的句向量，/>表示去除前后第/>次出现的句子的句向量之间的余弦相似度。

可选的，所述根据完整程度获取初始字典中每个字符串在类别中每个句子的最佳后缀字符个数，包括的具体方法为：

任意一个类别的初始字典中的字符串在任意句子的压缩处理的迭代过程中，第一次出现字符串组合完整程度大于第三预设阈值，此时的迭代次数即为字符串在当前句子的最佳后缀字符个数。

第二方面，本发明另一个实施例提供了一种临床试验的数据管理及逻辑核查的医疗系统，该系统包括：

数据获取模块，获取若干病例的临床试验数据中的病例基础信息及病例试验信息；

数据压缩模块：获取每个病例的病例试验信息的段落向量，并作为每个病例的临床试验数据的特征向量，根据所有病例的临床试验数据的特征向量之间的余弦相似度将临床试验数据分为若干类别，对每个类别中的临床试验数据进行分词处理，将每个分词作为一个字符串，根据每个字符串在类别中所有临床试验数据中的分布获取每个类别的原始字典；

获取每个类别的初始字典中字符串在类别中临床试验数据的每个句子进行压缩处理过程的与后缀字符组成的字符串组合的完整程度，根据完整程度获取初始字典中每个字符串在类别中每个句子的最佳后缀字符个数，根据初始字典中每个字符串及最佳后缀字符个数，以及字符串在句子中相应的后缀字符，对每个类别的初始字典更新获取每个类别的最终字典，根据每个类别的最终字典对每个类别的临床试验数据进行压缩得到压缩后的临床试验数据；

数据管理模块，将压缩后的临床试验数据传输到服务器中进行存储。

本发明的有益效果是：根据临床试验数据之间的相似性进行数据的分类，并根据不同类别的临床试验数据的字符串分布来获取每个类别的临床试验数据的初始字典；通过对初始字典中重复程度较大的字符串进行修改，获取每个类别的最终的初始字典，减少了初始字典中的冗余；在字典的更新过程中，根据临床试验数据中字符串的语义完整性，通过迭代的方法在不更改语义信息前提下获取最优的后缀字符个数；避免了传统的LZW算法中，通过设置默认字符来构建初始字典，并在每次更新字典过程中仅考虑增加一个后缀字符，使得对临床试验数据压缩过程较慢，同时增大更新后字典的冗余，导致编码压缩及解码过程耗时较长且复杂，使得压缩率较低；通过本发明中改进的LZW算法进行压缩可以加快字典的更新速度，并大大增加对临床实验数据的压缩率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的一种临床试验的数据管理及逻辑核查方法流程示意图；

图2为本发明另一个实施例所提供的一种临床试验的数据管理及逻辑核查的医疗系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例所提供的一种临床试验的数据管理及逻辑核查方法流程图，该方法包括以下步骤：

步骤S001、获取若干病例的临床试验数据。

本实施例的目的是对临床试验数据进行压缩存储完成数据管理，因此首先需要获取若干病例的临床试验数据；获取若干病例的病例记录表，每个病例记录表分别为一个病例的临床试验数据，临床试验数据包括病例的基本信息及病例试验信息，基本信息包括病例的性别、年龄以及病史，临床试验信息包括病例的临床表现以及诊断结果；需要说明的是，病例记录表按照病例的基本信息及病例试验信息预先设计好，数据获取时直接采集若干病例的病例记录表即可得到若干病例的临床试验数据。

步骤S002、将若干病例的临床试验数据根据每个病例的病例试验信息进行分类，根据每个类别中不同字符串的分布分别构建每个类别的原始字典，根据每个类别的原始字典中不同字符串的重复程度获取每个类别的初始字典。

需要说明的是，若干病例的临床试验数据属于若干种临床试验，相同的临床试验得到的临床试验数据中的临床表现及诊断结果存在一定相似性，其中的文本信息存在较多相同的字符串，将属于同种临床试验的临床试验数据作为一个类别进行压缩处理，可以将相同字符串作为字典进而进行LZW压缩，相较于设置默认字符来进行LZW压缩可以极大缩短压缩过程并提高压缩效率。

具体的，首先根据每个病例的病例试验信息之间的数据相似性对临床试验数据进行分类，病例试验信息包括临床表现及诊断结果；通过Doc2vec模型对采集到的病例试验信息进行特征向量的提取，每个临床试验数据对应一个病例试验信息即对应一个特征向量；其中Doc2vec模型的训练过程采用PV-DM模式，为现有技术本实施例不再赘述，将病例试验信息中的临床表现及诊断结果中的文本信息作为一个段落输入到模型中，模型的输出数据为每个病例试验信息的段落向量，此时得到的段落向量可以表征病例试验信息中临床表现及诊断结果的语义信息。

将每个病例试验信息的段落向量作为所属病例的临床试验数据的特征向量，获取任意两个病例的临床试验数据的特征向量之间的余弦相似度，给出第一预设阈值用以判断特征向量之间的相似性，本实施例中第一预设阈值采用0.7进行计算，将余弦相似度大于第一预设阈值的两个病例的临床试验数据归入到一个类别中，并确保两个病例的临床试验数据的特征向量与类别中其他病例的临床试验数据的特征向量之间的余弦相似度均大于第一预设阈值，对所有病例的临床试验数据根据特征向量之间的余弦相似度进行归类，得到若干类别；同一类别中的病例的临床试验数据的特征向量之间的余弦相似度较大，不同类别中的病例的临床试验数据的特征向量之间的余弦相似度较小；即同一类别中不同病例的病例试验信息中文本数据相近，可能为同一种临床试验；而不同类别中不同病例的病例试验信息中文本数据相差较大，大概率为不同种的临床试验。

进一步需要说明的是，病例的临床试验数据包括病例基本信息和病例试验信息，病例基本信息中的性别、年龄及病史均为文本信息且存在较高的重复性；而同一类别中病例试验信息相似性较大，其中同样包含较多的重复字符，例如病症名称及药物名称等；通过分词操作提取同一类别的临床试验数据中的若干分词并作为字符串，根据各字符串的分布概率来构建每个类别的原始字典，可以将重复性较高的字符串作为原始字典便于后续进行压缩处理。

具体的，对任意一个类别中的若干临床试验数据中的文本信息进行Jieba分词处理，获取到该类别中所有临床试验数据的所有分词，将每个分词作为一个字符串，将每个字符串在类别中所有临床试验数据的所有分词中的出现次数与所有分词的数量的比值，作为每个字符串的分布概率，将所有字符串的分布概率降序排列，本实施例选取前20个分布概率最大的字符串构建该类别的原始字典，具体实施过程实施者可根据情况选择不同数量的字符串进行原始字典的构建；按照上述方法获取每个类别的原始字典。

进一步需要说明的是，由于同一类别中不同字符串之间存在较高的重复性，即不同的两个字符串中可能多个字符相同，将这两个字符串都作为原始字典中的字符串，会导致字典产生较大冗余并使得压缩率较小，因此需要对原始字典中不同字符串的重复字符进行提取，进而得到初始字典，避免字典中冗余较大而导致压缩率减小。

具体的，将任意一个类别的原始字典中任意两个字符串中每个字符作为一个元素，则两个字符串分别为一个集合，对两个集合求交集及并集，交集即为两个字符串中重复的字符，并集为两个字符串中的所有字符，将交集的元素数量与并集的元素数量的比值作为两个字符串的重复程度；按照上述方法获取该类别的原始字典中任意两个字符串间的重复程度，给出第二预设阈值用以判断字符串之间的重复性，本实施例中第二预设阈值采用0.5进行计算，提取所有重复程度大于第二预设阈值的两个字符串的交集，判断每个交集中的元素在所属两个字符串中是否均为连续的字符，将交集元素中连续的字符组成的字符串作为对应两个字符串的重复词进行提取，若不存在两个字符串中均为连续的字符则两个字符串不存在重复词，获取所有重复程度大于第二预设阈值的两个字符串的重复词，将该类别的原始字典中不存在重复词的字符串及重复词作为该类别的初始字典，按照上述方法获取每个类别的初始字典。

至此，根据每个病例的病例试验信息对若干临床试验数据进行分类，并获取到每个类别的初始字典用于后续对临床试验数据的压缩处理。

步骤S003、根据每个类别的初始字典中字符串在类别中临床试验数据中与后缀字符组成的字符串组合的语义信息，迭代判断后缀字符个数并更新字典，根据更新的字典完成对每个类别的临床试验数据的压缩。

需要说明的是，在对初始字典进行更新的过程中，传统的LZW算法在初始字典的字符串基础上增加一个字符来进行压缩操作，会使得压缩过程较慢且压缩率较低，同时由于同一类别中临床试验数据之间较高的重复性，一个后缀字符会造成字典冗余；因此需要对后缀字符进行迭代增加，并根据语义信息的差异判断初始字典中每个字符串自适应的最佳后缀字符个数，进而完成字典更新并进行压缩处理。

具体的，在对任意一个类别的临床试验数据根据对应的初始字典进行LZW压缩过程中，以步长为1对初始字典中的字符串进行后缀字符个数迭代，本实施例中迭代最大范围为7，即初始字典中字符串的后缀字符个数最大为7，具体实施过程实施者可视情况进行调整；将该类别中的所有临床试验数据的文本信息输入到Doc2vec模型，模型的训练过程采用PV-DM模式，本实施例设置最大词长度为10，临床试验数据中的病例基础信息中的性别和年龄均分别视为一个句子，病史及病例试验信息在模型中进行句子划分，且不会超过最大词长度，模型的输出数据即为该类别每个临床试验数据中每个句子的句向量。

进一步的，以该类别初始字典中任意一个字符串在任意一个句子中第次迭代形成的字符串组合为例，所述字符串组合即为该字符串在该句子中与/>个后缀字符组成的字符串组合，计算去除该字符串组合前后该句子的句向量差异来表征该字符串组合的完整程度；例如任意一个类别的初始字典中的一个字符串为“葡萄”，该类别中的临床试验数据中存在一句“葡萄球菌导致中耳炎”的文本信息，则该字符串在该句子的第一次迭代形成的字符串组合为“葡萄球”，第二次迭代形成的字符串组合为“葡萄球菌”，该句子去除第一次迭代形成的字符串组合后的句子为“菌导致中耳炎”，原句子去除第二次迭代形成的字符串组合后的句子为“导致中耳炎”，通过比较“菌导致中耳炎”与“葡萄球菌导致中耳炎”的句向量差异来表征字符串组合“葡萄球”的完整程度，通过比较“导致中耳炎”与“葡萄球菌导致中耳炎”的句向量差异来表征字符串组合“葡萄球菌”的完整程度；具体的计算方法为：

其中，表示该字符串在当前句子第/>次迭代的字符串组合的完整程度，/>表示该字符串组合在该类别的所有临床试验数据中出现的次数，/>表示该字符串组合第/>次出现的句子的句向量，/>表示该字符串组合第/>次出现的句子去除该字符串组合后的句向量，/>则表示去除前后第/>次出现的句子的句向量之间的余弦相似度，通过1减去相似度的均值来表示反比例相似度与完整程度之间的相似关系；其中去除该字符串组合后的句向量仍由Doc2vec模型获取，具体过程为将去除该字符串组合后的句子输入到训练后的Doc2vec模型中得到输出的句向量；去除前后的句向量之间余弦相似度越大，表明去除该字符串组合对句子的语义影响越小，该字符串组合在出现的句子中的重要程度越小，此时的字符串组合含有语义信息较少，在当前句子中的完整程度越小，越应该继续迭代获取更大的完整程度；通过迭代过程形成的字符串组合在类别中所有临床试验数据出现的句子去除前后的句向量差异，表征字符串组合的完整程度，降低单次出现的偶然性，使初始字典中的字符串在所有句子中可以获取到最佳的后缀字符个数。

进一步的，给出第三预设阈值用以判断字符串迭代过程的完整程度，本实施例中第三预设阈值采用0.65进行计算，若初始字典中的字符串在任意句子的压缩处理的迭代过程中，第一次出现字符串组合完整程度大于第三预设阈值，则表明此时的迭代次数即为字符串在当前句子的最佳后缀字符个数；按照上述方法获取该类别的初始字典中的字符串在类别中所有临床试验数据的句子中的最佳后缀字符个数，并根据最佳后缀字符个数及句子中相应的字符对该类别的初始字典进行更新，根据更新的字典完成对该类别的临床试验数据的LZW压缩；需要说明的是，若初始字典中的字符串在某一句子的压缩处理的迭代过程中到最大范围仍为出现完整程度大于第三预设阈值的字符串组合，则为保证无损压缩，以字符串与在当前句子的一个后缀字符对初始字典进行更新；对字典的根据后缀字符进行更新为LZW算法的现有技术，本实施例不再赘述。

按照上述方法对每个类别的临床试验数据进行压缩，得到压缩后的临床试验数据，并将每个类别更新的字典记为每个类别的最终字典；需要说明的是，压缩处理仅针对临床试验数据中的文本信息，包括字母、数据及文字等信息，临床试验数据中的其他信息例如图像信息则不进行压缩直接进行传输；至此，完成对临床试验数据的压缩处理。

步骤S004、将压缩后的临床试验数据传输到服务器中进行存储，并在调取临床试验数据后实现逻辑核查。

将压缩后的临床试验数据及每个类别的最终字典传输到服务器中进行存储，完成对于临床试验数据的压缩存储，即数据管理；当医生调取临床试验数据时，根据临床试验数据所述类别的最终字典中的编码表进行解码，读取解码后的临床试验数据完成调取，医生对调取到的临床试验数据进行逻辑核查，保证临床试验数据的准确性。

请参阅图2，其示出了本发明另一个实施例所提供的一种临床试验的数据管理及逻辑核查的医疗系统结构框图，该系统包括：

数据获取模块S101，获取若干病例的临床试验数据。

数据压缩模块S102：

（1）将若干病例的临床试验数据根据每个病例的病例试验信息进行分类，根据每个类别中不同字符串的分布分别构建每个类别的原始字典，根据每个类别的原始字典中不同字符串的重复程度获取每个类别的初始字典；

（2）根据每个类别的初始字典中字符串在类别中临床试验数据中与后缀字符组成的字符串组合的语义信息，迭代判断后缀字符个数并更新字典，根据更新的字典完成对每个类别的临床试验数据的压缩。

数据管理模块S103，将压缩后的临床试验数据传输到服务器中进行存储，并在调取临床试验数据后实现逻辑核查。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种临床试验的数据管理及逻辑核查方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法，其特征在于，所述获取每个病例的病例试验信息的段落向量，包括的具体方法为：

3.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法，其特征在于，所述根据所有病例的临床试验数据的特征向量之间的余弦相似度将临床试验数据分为若干类别，包括的具体方法为：

4.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法，其特征在于，所述根据每个字符串在类别中所有临床试验数据中的分布获取每个类别的原始字典，包括的具体方法为：

5.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法，其特征在于，所述根据重复程度获取两个字符串之间的重复词并得到每个类别的初始字典，包括的具体方法为：

6.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法，其特征在于，所述获取每个类别的初始字典中每个字符串与后缀字符组成的字符串组合的完整程度，包括的具体方法为：

其中，表示该字符串在当前句子第/>次迭代的字符串组合的完整程度，/>表示该字符串组合在该类别的所有临床试验数据中出现的次数，/>表示该字符串组合第/>次出现的句子的句向量，/>表示该字符串组合第/>次出现的句子去除该字符串组合后的句向量，表示去除前后第/>次出现的句子的句向量之间的余弦相似度。

7.根据权利要求1所述的一种临床试验的数据管理及逻辑核查方法，其特征在于，所述根据完整程度获取初始字典中每个字符串在类别中每个句子的最佳后缀字符个数，包括的具体方法为：

8.一种临床试验的数据管理及逻辑核查的医疗系统，其特征在于，该系统包括：