CN116646041A

CN116646041A - 基于大模型提升临床试验受试者匹配精度的方法和系统

Info

Publication number: CN116646041A
Application number: CN202310901710.0A
Authority: CN
Inventors: 张奇; 苏志鹄; 李丽
Original assignee: Beijing Huimeiyun Technology Co ltd
Current assignee: Beijing Huimeiyun Technology Co ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-08-25
Anticipated expiration: 2043-07-21
Also published as: CN116646041B

Abstract

本申请涉及一种基于大模型提升临床试验受试者匹配精度的方法和系统，应用于大模型的技术领域，其包括获取医学文本信息；构建医学领域大语言模型；通过所述医学领域大语言模型对医学文本信息进行提取并获取专病数据集；通过预设的项目纳排标准对专病数据集匹配对应的临床试验项目，所述项目纳排标准包括不同的临床试验项目以及对应的纳排标准。本申请具有通过效果更好的大语言模型提取医学实体及实体关系，相比较传统机器学习模型，能够显著提升实体识别的召回率和准确率的效果。

Description

基于大模型提升临床试验受试者匹配精度的方法和系统

技术领域

本申请涉及大模型的技术领域，尤其是涉及一种基于大模型提升临床试验受试者匹配精度的方法和系统。

背景技术

临床试验项目是为了评估药物、医疗器械等医疗产品的疗效、安全性和适应症而进行的研究。

现有的临床试验项目选择通常包括以下步骤：获取临床试验项目的入排标准文本,并抽取入排标准数据，其中，入排标准数据包括实体、属性以及实体-属性对应关系；将所述入排标准数据展示至规则配置界面；响应于对所述规则配置界面的规则配置操作，生成入排规则；基于所述入排规则和受试者病程信息的匹配结果，为受试者推荐临床试验项目。

针对上述的相关技术，发明人认为基于传统的机器学习，抽取医学实体和实体关系，准确率不高。

发明内容

为了改善现有的基于传统的机器学习，抽取医学实体和实体关系，准确率不高的问题，本申请提供一种基于大模型提升临床试验受试者匹配精度的方法和系统。

根据本发明的第一方面，提供了一种基于大模型提升临床试验受试者匹配精度的方法，此方法包括以下步骤：

获取医学文本信息；

构建医学领域大语言模型；

通过所述医学领域大语言模型对医学文本信息进行提取并获取专病数据集；

通过预设的项目纳排标准对专病数据集匹配对应的临床试验项目，所述项目纳排标准包括不同的临床试验项目以及对应的纳排标准。

在一个具体的可实施方案中，所述构建医学领域大语言模型包括；

获取医学文本数据；

提取医学文本关键词；

根据医学文本关键词查询对应的医学领域大模型；

训练医学领域大模型；

构建医学领域大语言模型。

在一个具体的可实施方案中，所述构建医学领域大语言模型包括：

查询不同的医学领域大语言模型对应的效果并进行评估；

根据评估结果选择精准度达标的医学领域大语言模型并进行融合操作；

若融合后的医学领域大语言模型的精准度大于融合前的任一医学领域大语言模型，则将融合后的医学领域大语言模型设置为构建医学领域大语言模型。

在一个具体的可实施方案中，所述提取医学文本关键词包括：

将医学文本关键词进行分类获得实体文本和关系文本；

所述实体文本识别具体包括如下步骤：

识别实体文本中的医学概念；

抽取实体文本中的医学关键信息；

输出已选关键信息至关系文本中。

在一个具体的可实施方案中，在所述将医学文本关键词进行分类获得实体文本和关系文本之后，还包括：

判断不同医学关键信息之间的关联关系；

将相关联的医学文本关键词作为集合输出关系文本；

将输出的所述关系文本与医学关键信息设置为医学文本关键词。

在一个具体的可实施方案中，所述获取专病数据集包括：

基于参考文献定义专病数据集框架；

结合医学文本关键词生成对应的专病数据集；

获取医学领域大语言模型优化后的医学知识图谱；

通过医学知识图谱对专病数据集进行扩充并生成完善专病数据集。

在一个具体的可实施方案中，所述方法还包括：

通过医学领域大语言模型对临床试验项目进行检验，所述检验操作具体包括：

根据临床试验项目获取对应的项目病症信息、项目用药信息和项目名称信息；

根据医学领域大语言模型分别对项目病症信息、项目用药信息和项目名称信息进行分析获取对应的项目医学关键词信息；

将项目医学关键词信息和医学文本关键词进行比对；

若项目医学关键词信息与医学文本关键词相匹配，则生成二次校验合格的提示信息；

否则，生成二次校验不合格的提示信息。

根据本申请的第二方面，还提供了一种基于大模型提升临床试验受试者匹配精度的系统，包括：

医学文本获取模块，用于获取医学文本信息；

医学模型构建模块，用于构建医学领域大语言模型；

专病数据获取模块，用于通过所述医学领域大语言模型对医学文本信息进行提取并获取专病数据集；

专病纳排匹配模块，用于通过预设的项目纳排标准对专病数据集匹配对应的临床试验项目，所述项目纳排标准包括不同的临床试验项目以及对应的纳排标准。

根据本申请的第三方面，还提供了一种计算机设备，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行第一方面的方法的计算机程序。

根据本申请的第四方面，还提供了一种计算机可读存储介质，存储有能够被处理器加载并执行如第一方面的方法的计算机程序。

综上所述，本申请包括以下至少一种有益技术效果：

1.通过效果更好的大语言模型提取医学实体及实体关系，相比较传统机器学习模型，能够显著提升实体识别的召回率和准确率；

2.基于大语言模型生成覆盖全病种的专病数据集，可以为任意临床试验项目进行受试者筛选，提供底层数据支持；

3.基于大模型完善后的知识图谱对专病数据集结果进行优化和完善，使得专病数据集结果不局限于病历语义信息，而是在富含专家经验的知识图谱基础上进行了扩展；

4.在临床试验项目纳排标准执行结果基础上，基于大模型对执行结果进行二次校验，显著提升准确率；

5.临床试验项目纳排标准编辑器，可以在专病数据集基础上，将医学逻辑转化为计算机可以执行的逻辑语言，而不是靠模型自己去理解，能够保证规则解读的精度。

附图说明

图1是本申请实施例中基于大模型提升临床试验受试者匹配精度的方法的流程图。

图2是本申请实施例中基于大模型提升临床试验受试者匹配精度的系统的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本实施例提供一种基于大模型提升临床试验受试者匹配精度的方法。该方法基于医学领域大语言模型，应用于医疗管理系统，通过构建医学领域大语言模块，通过医学领域大语言模型对医学文本信息进行分析生成专病数据集，并引入知识图谱对专病数据集进行扩充，使得受试者与临床试验项目相匹配。

如图1所示，本实施例的基于大模型提升临床试验受试者匹配精度的的方法具体可以包括如下步骤：

S1：获取医学文本信息。

其中，所述医学文本信息至少包括病人描述的病情以及医生基于病情通过智能设备输入医疗系统的医学专业名词等，同时医生还可以通过选择病人描述的病情进行对应的医学专业名词的替代等操作。

S2：构建医学领域大语言模型。

其中，医学领域大语言模型在提升临床试验受试者匹配精度方面具有显著的优势；现有技术方案的匹配方法通常基于患者的基本信息，如年龄、性别、诊断等进行匹配，但是这些信息往往不能充分反映患者之间的差异性，导致匹配的准确性不高；而医学领域大语言模型可以通过对大量患者的数据进行深度学习和分析，建立更加精准的患者特征模型，从而提高匹配的精度和可靠性。

S3：通过所述医学领域大语言模型对医学文本信息进行提取并获取专病数据集。

其中，专病数据集根据疾病的类型进行分类，也可以通过疾病的位置进行分类，并基于现有的可获取的疾病知识进行概括与补充，使得每一个疾病数据集都包含对应的疾病的所有数据与知识。

S4：通过预设的项目纳排标准对专病数据集匹配对应的临床试验项目。

其中，所述项目纳排标准包括不同的临床试验项目以及对应的纳排标准，基于临床试验项目纳排标准编辑器，对项目的纳排标准进行拆解，并按照执行逻辑，生成纳排标准的执行路径图；通过纳排规则执行引擎完成路径执行，并生成结果。

在一个实施例中，考虑到医学领域大语言模块可以对现有的数据进行集成以及扩充的效果，具体构建过程可以被执行为：

获取医学文本数据；提取医学文本关键词；根据医学文本关键词查询对应的医学领域大模型；训练医学领域大模型；构建医学领域大语言模型；具体来说，可以包括搜集广泛对医学文本数据、数据预处理、模型选型、模型训练、模型效果评估与调整、模型融合。

值得一提的是，构建医学领域大语言模型包括：查询不同的医学领域大语言模型对应的效果并进行评估；根据评估结果选择精准度达标的医学领域大语言模型并进行融合操作；若融合后的医学领域大语言模型的精准度大于融合前的任一医学领域大语言模型，则将融合后的医学领域大语言模型设置为构建医学领域大语言模型；若融合后的医学领域大语言模型的精准度不大于融合前的任一医学领域大语言模型，则不进行融合模型的操作，将融合前的医学领域大语言模型与其他的融合模型进行比对直至筛选出精准程度最好的模型，并将其设置为构建医学领域大语言模型。

在一个实施例中，考虑到医学文本信息包含大量的专有名词和关系，需要对医学文本信息进行优化提取，具体的优化操作可以被执行为：

将医学文本关键词进行分类获得实体文本和关系文本；所述实体文本识别具体包括如下步骤：识别实体文本中的医学概念；抽取实体文本中的医学关键信息；输出已选关键信息至关系文本中；实体识别：识别文本中的医学概念,如疾病、药物、基因、症状等。抽取文本中的医学关键信息,为关系抽取等提供必要输入。如“发热2天，加重3天”，识别结果为：“发热【症状】2天【时间段】，加重【性质】3天【时间段】”。

进一步的，在所述将医学文本关键词进行分类获得实体文本和关系文本之后，还包括：判断不同医学关键信息之间的关联关系；将相关联的医学文本关键词作为集合输出关系文本；将输出的所述关系文本与医学关键信息设置为医学文本关键词；关系抽取：判断两个或多个医学实体之间的语义关系,如“疾病-症状”、“药物-适应症”等关系。这是建立医学知识的核心内容。同样是上面的例子，将会生成这样的实体关系：【发热,时间段，2天】，【发热，性质，加重】，【发热，时间段，3天】。

在一个实施例中，考虑到不同的疾病对应的相关数据都具有规律性，因此需要对不同的疾病进行更新操作，具体的更新操作可以被执行为：

基于参考文献定义专病数据集框架；结合医学文本关键词生成对应的专病数据集；获取医学领域大语言模型优化后的医学知识图谱；通过医学知识图谱对专病数据集进行扩充并生成完善专病数据集。基于参考文献和指南，定义各个疾病/病种的专病数据集；并生成覆盖全病种的专病数据集。

进一步的，基于知识图谱，对专病数据集结果进行扩充和完善。比如某患者专病数据集，症状数据原有值A，通过知识图谱可知症状A跟诊断D有极大的关系，进而推断诊断数据元，可以补充值D1，以此类推。

在一个实施例中，考虑到临床试验项目与医学文本信息存在对应的逻辑关系，可以通过构建的医学领域大语言模型对临床试验项目进行反推来检验医学文本信息，具体的检验操作可以被执行为：

通过医学领域大语言模型对临床试验项目进行检验，所述检验操作具体包括：根据临床试验项目获取对应的项目病症信息、项目用药信息和项目名称信息；根据医学领域大语言模型分别对项目病症信息、项目用药信息和项目名称信息进行分析获取对应的项目医学关键词信息；将项目医学关键词信息和医学文本关键词进行比对；若项目医学关键词信息与医学文本关键词相匹配，则生成二次校验合格的提示信息；若项目医学关键词信息与医学文本关键词不匹配，则生成二次校验不合格的提示信息。

基于上述方法，本申请实施例还公开一种基于大模型提升临床试验受试者匹配精度的系统。

如图2所示该系统包括以下模块：

医学文本获取模块201，用于获取医学文本信息；

医学模型构建模块202，用于构建医学领域大语言模型；

专病数据获取模块203，用于通过所述医学领域大语言模型对医学文本信息进行提取并获取专病数据集；

专病纳排匹配模块204，用于通过预设的项目纳排标准对专病数据集匹配对应的临床试验项目，所述项目纳排标准包括不同的临床试验项目以及对应的纳排标准。

在一个实施例中，医学模型构建模块202，还用于构建医学领域大语言模型包括；获取医学文本数据；提取医学文本关键词；根据医学文本关键词查询对应的医学领域大模型；训练医学领域大模型；构建医学领域大语言模型。

在一个实施例中，医学模型构建模块202，还用于构建医学领域大语言模型包括：查询不同的医学领域大语言模型对应的效果并进行评估；根据评估结果选择精准度达标的医学领域大语言模型并进行融合操作；若融合后的医学领域大语言模型的精准度大于融合前的任一医学领域大语言模型，则将融合后的医学领域大语言模型设置为构建医学领域大语言模型。

在一个实施例中，医学模型构建模块202，还用于提取医学文本关键词包括：将医学文本关键词进行分类获得实体文本和关系文本；所述实体文本识别具体包括如下步骤：识别实体文本中的医学概念；抽取实体文本中的医学关键信息；输出已选关键信息至关系文本中。

在一个实施例中，专病数据获取模块204，还用于在所述将医学文本关键词进行分类获得实体文本和关系文本之后，还包括：判断不同医学关键信息之间的关联关系；将相关联的医学文本关键词作为集合输出关系文本；将输出的所述关系文本与医学关键信息设置为医学文本关键词。

在一个实施例中，专病数据获取模块204，还用于获取专病数据集包括：基于参考文献定义专病数据集框架；结合医学文本关键词生成对应的专病数据集；获取医学领域大语言模型优化后的医学知识图谱；通过医学知识图谱对专病数据集进行扩充并生成完善专病数据集。

在一个实施例中，专病数据获取模块204，还用于通过医学领域大语言模型对临床试验项目进行检验，所述检验操作具体包括：根据临床试验项目获取对应的项目病症信息、项目用药信息和项目名称信息；根据医学领域大语言模型分别对项目病症信息、项目用药信息和项目名称信息进行分析获取对应的项目医学关键词信息；将项目医学关键词信息和医学文本关键词进行比对；若项目医学关键词信息与医学文本关键词相匹配，则生成二次校验合格的提示信息；否则，生成二次校验不合格的提示信息。

本申请实施例还公开一种计算机设备。

具体来说，该计算机设备包括存储器和处理器，存储器上存储有能够被处理器加载并执行上述基于大模型提升临床试验受试者匹配精度的方法的计算机程序。

本实施例提供一种计算机可读存储介质，存储有可执行指令，该可执行指令被处理器执行时，执行如上述方法实施例中的基于大模型提升临床试验受试者匹配精度的的方法。

上述各实施例主要重点描述与其他实施例的不同之处，但本领域技术人员应当清楚的是，上述各实施例可以根据需要单独使用或者相互结合使用。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分相互参见即可，每个实施例重点说明的都是与其他实施例的不同之处，但本领域技术人员应当清楚的是，上述各实施例可以根据需要单独使用或者相互结合使用。另外，对于装置实施例而言，由于其是与方法实施例相对应，所以描述得比较简单，相关之处参见方法实施例的对应部分的说明即可。以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于大模型提升临床试验受试者匹配精度的方法，其特征在于，所述方法包括：

获取医学文本信息；

构建医学领域大语言模型；

2.根据权利要求1所述的基于大模型提升临床试验受试者匹配精度的方法，其特征在于，所述构建医学领域大语言模型包括；

获取医学文本数据；

提取医学文本关键词；

根据医学文本关键词查询对应的医学领域大模型；

训练医学领域大模型；

构建医学领域大语言模型。

3.根据权利要求2所述的基于大模型提升临床试验受试者匹配精度的方法，其特征在于，所述构建医学领域大语言模型包括：

查询不同的医学领域大语言模型对应的效果并进行评估；

4.根据权利要求2所述的基于大模型提升临床试验受试者匹配精度的方法，其特征在于，所述提取医学文本关键词包括：

将医学文本关键词进行分类获得实体文本和关系文本；

所述实体文本识别具体包括如下步骤：

识别实体文本中的医学概念；

抽取实体文本中的医学关键信息；

输出已选关键信息至关系文本中。

5.根据权利要求4所述的基于大模型提升临床试验受试者匹配精度的方法，其特征在于，在所述将医学文本关键词进行分类获得实体文本和关系文本之后，还包括：

判断不同医学关键信息之间的关联关系；

将相关联的医学文本关键词作为集合输出关系文本；

6.根据权利要求5所述的基于大模型提升临床试验受试者匹配精度的方法，其特征在于，所述获取专病数据集包括：

基于参考文献定义专病数据集框架；

结合医学文本关键词生成对应的专病数据集；

获取医学领域大语言模型优化后的医学知识图谱；

7.根据权利要求6所述的基于大模型提升临床试验受试者匹配精度的方法，其特征在于，所述方法还包括：

将项目医学关键词信息和医学文本关键词进行比对；

否则，生成二次校验不合格的提示信息。

8.一种基于大模型提升临床试验受试者匹配精度的系统，其特征在于，所述系统包括：

医学文本获取模块，用于获取医学文本信息；

医学模型构建模块，用于构建医学领域大语言模型；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。