CN113539515A

CN113539515A - 临床需求挖掘方法、装置、电子设备和存储介质

Info

Publication number: CN113539515A
Application number: CN202110745496.5A
Authority: CN
Inventors: 蒋建华; 周立运; 谢伟
Original assignee: Shanghai Yaohui Information Technology Co ltd
Current assignee: Beijing Huabin Licheng Technology Co ltd
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-10-22
Anticipated expiration: 2041-07-01
Also published as: CN113539515B

Abstract

本发明提供一种临床需求挖掘方法、装置、电子设备和存储介质，其中方法包括：确定目标适应证；基于目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种，确定目标适应证的临床需求；获批药物信息是基于临床知识文本确定的，临床研发信息是基于注册试验文本确定的，流行病学信息是基于流行病学统计文本确定的。本发明提供的方法、装置、电子设备和存储介质，通过对临床知识文本、注册试验文本和流行病学统计文本中的至少一种进行文本分析，得到获批药物信息、临床研发信息和流行病学信息中的至少一个方面的信息对目标适应证进行临床需求挖掘，有效提高了临床需求挖掘的实现效率，降低了临床需求挖掘的成本。

Description

临床需求挖掘方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种临床需求挖掘方法、装置、电子设备和存储介质。

背景技术

随着新技术、新靶点的发现，针对精准患者人群的靶向药物不断上市。由于特定靶点在人体的分布往往十分广泛，并可能涉及多个通路，靶向药物往往可以用于多种疾病的治疗，因而创新药物上市后继续进行适应证拓展是必然趋势。

适应证扩展需要反复的临床试验，考虑到临床试验成本高昂，在临床试验的立项阶段，药企的工作人员需要查阅大量文献数据，并结合临床科学家的建议，分析各个适应证的药物情况。

目前对于各适应证的药物情况的挖掘多是人工整理实现的，存在信息源分散、标准不统一、数据工作重复耗时、分析工作不可复用的缺陷，且挖掘所得的药物情况和需求可靠性和准确性较差。

发明内容

本发明提供一种临床需求挖掘方法、装置、电子设备和存储介质，用以解决现有的临床需求挖掘需要人工整理，费时费力且可靠性差的问题。

本发明提供一种临床需求挖掘方法，包括：

确定目标适应证；

基于所述目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种，确定所述目标适应证的临床需求；

所述获批药物信息是基于所述目标适应证的临床知识文本确定的，所述临床研发信息是基于所述目标适应证的注册试验文本确定的，所述流行病学信息是基于所述目标适应证的流行病学统计文本确定的。

根据本发明提供的一种临床需求挖掘方法，所述获批药物信息是基于如下步骤确定的：

确定所述目标适应证的临床知识文本；

从所述临床知识文本中提取所述目标适应证的疗法类型，以及所述疗法类型下各种获批药物的疗效信息和/或不良反应信息；

基于所述疗法类型，以及所述疗法类型下各种获批药物的疗效信息和/或不良反应信息，确定所述获批药物信息。

根据本发明提供的一种临床需求挖掘方法，所述从所述临床知识文本中提取所述目标适应证的疗法类型，以及所述疗法类型下各种获批药物的疗效信息和/或不良反应信息，包括：

对所述临床知识文本进行实体识别，得到所述临床知识文本中各个实体的实体类型，所述实体类型为疗法类型或药物名称；

基于所述临床知识文本以及各个实体的实体类型，对所述各个实体进行关系分析，得到各个实体之间的实体关系；

基于所述各个实体的实体类型，以及各个实体之间的实体关系，确定所述目标适应证的疗法类型，以及所述疗法类型下的各种获批药物；

基于各种获批药物在所述临床知识文本中的对应语段，确定各种获批药物的疗效信息和/或不良反应信息。

根据本发明提供的一种临床需求挖掘方法，所述临床研发信息是基于如下步骤确定的：

确定注册试验文本；

对所述注册试验文本进行适应症信息关联，得到所述目标适应证的在研药物；

对各在研药物在所述注册试验文本中的相关文本进行试验信息挖掘，得到各在研药物的试验信息，所述试验信息包括对应在研药物的关键试验数量、疗效信息和不良反应信息中的至少一种；

基于各在研药物的试验信息，确定所述目标适应证的临床研发信息。

根据本发明提供的一种临床需求挖掘方法，所述对所述注册试验文本进行适应症信息关联，得到所述目标适应证的在研药物，包括：

将所述注册试验文本与预设临床词典中的各个词条分别进行匹配，得到所述注册试验文本中与各个词条关联的分词，作为所述注册试验文本对应药物的在研适应症；

将所述在研适应症与所述目标适应证相关的药物，确定为所述目标适应证的在研药物。

根据本发明提供的一种临床需求挖掘方法，所述流行病学信息是基于如下步骤确定的：

获取所述流行病学统计文本中所述目标适应症的流行病学关联语段；

对所述流行病学关联语段进行信息挖掘，得到所述目标适应证在所述流行病学关联语段对应时段内的阶段流行病学信息，所述阶段流行病学信息包括发病率、患病人数、就诊率中的至少一种；

基于各时段内的阶段流行病学信息，以及各时段内的阶段流行病学信息之间的变化趋势，确定所述目标适应证的流行病学信息。

根据本发明提供的一种临床需求挖掘方法，所述基于所述目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种，确定所述目标适应证的临床需求，包括：

基于所述目标适应证的获批药物信息和/或临床研发信息中的对症药物的药物数量和疗效反馈信息，确定所述目标适应证的药物需求，所述对症药物包括获批药物和/或在研药物；

基于所述目标适应证的流行病学信息，确定所述目标适应证的市场需求；

基于所述目标适应证的药物需求和市场需求，确定所述目标适应证的临床需求。

本发明还提供一种临床需求挖掘装置，包括：

目标确定单元，用于确定目标适应证；

需求挖掘单元，用于基于所述目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种，确定所述目标适应证的临床需求；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述临床需求挖掘方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述临床需求挖掘方法的步骤。

本发明提供的临床需求挖掘方法、装置、电子设备和存储介质，通过对临床知识文本、注册试验文本和流行病学统计文本中的至少一种进行文本分析，得到获批药物信息、临床研发信息和流行病学信息中的至少一个方面的信息对目标适应证进行临床需求挖掘，在实现全面、可靠的临床需求挖掘的同时，有效提高了临床需求挖掘的实现效率，降低了临床需求挖掘的成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的临床需求挖掘方法的流程示意图；

图2是本发明提供的获批药物信息确定方法的流程示意图；

图3是本发明提供的临床研发信息确定方法的流程示意图；

图4是本发明提供的预设临床词典的结构示意图；

图5是本发明提供的临床需求挖掘装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

挖掘尚未满足的临床需求，开展针对性的新一代疗法及新药研发，以推出临床急需或更具临床优势的创新药物，为患者带来更好的健康治疗与保障，是医药行业永恒的主题。

此外，随着新技术、新靶点的发现，针对精准患者人群的靶向药物不断上市。由于特定靶点在人体的分布往往十分广泛，并可能涉及多个通路，靶向药物往往可以用于多种疾病的治疗，因此，一个已经上市的创新药物也需要不断探索其更多临床价值，拓展适应症是必然趋势。而哪些适应症是值得探索的临床需求，相应适应症的药物研发市场是否相对蓝海，都是药企首先要解决的问题。

综上，无论是新药药物研发的立项、新药适应症的筛选与定位、还是已上市药品的适应症扩展，都要基于对临床需求的挖掘与洞察，结合药企优势与基础，综合做出产品立项、定位和适应症扩展等研发决策。这些决策对药企的影响是重大的，一个产品立项或适应症临床试验往往意味着数亿资金和数年时间的庞大投入。一旦失败，对药企影响巨大。

目前，药企在考虑新药药物研发的立项、新药适应症的筛选与定位或者拓展新的适应证时，主要采用前期调研和医生访谈相结合的方式：临床试验立项人员需查阅大量的文献和数据，找到标准治疗方案的疗效及安全性数据、同类在研药物的临床试验结果、竞品药物的在研临床试验等，并结合富有经验的临床科学家的建议，最终确定临床试验的适应证人群和入组排除标准。目前信息调研过程主要基于人工整理，存在信息源分散、标准不统一、数据工作重复耗时、分析工作不能复用等缺点，由此挖掘得到的临床需求的可靠性和准确性较差。

目前，药企多数会通过临床医生访谈或专家咨询会的方式，从局部疾病的角度来片段化调研临床需求。这一过程非常低效耗时，一项常见的市场调研往往需要花费几个月到半年的时间。在市场调研中，调研问卷的设计与引导，问卷问题的开放与封闭，都会直接影响调研结果。而且，不同医院、不同经验专家的临床经验与观点又往往存在着差异，这使得药企对临床需求的把握更加扑朔迷离。药企往往需要拥有多年临床经验或专家级人员，在大量市场调研的基础上，再依赖个人经验来做出最终决策。

综上，目前亟需一种高效、敏捷并且客观可靠的临床需求挖掘方法，从而为药企的新药研发立项、新药适应症的筛选与定位以及拓展新的适应证提供参考。

针对上述问题，本发明实施例提供一种临床需求挖掘方法。图1是本发明提供的临床需求挖掘方法的流程示意图，如图1所示，该方法包括：

步骤110，确定目标适应证。

具体地，适应证是指某一种药物或治疗方法所能治疗的疾病范围。考虑到药物的适应证拓展需求，可以在药物临床试验立项之前，选择一个或者多个适应证作为目标适应证，以判断各个目标适应证是否存在临床需求，以便于选定适合的目标适应证进行临床试验立项。此处，目标适应证即需要挖掘分析是否存在临床需求的适应证，例如可以是可手术II期NSCLC(非小细胞肺腺癌)、不能耐手术II-III期NSCLC。

步骤120，基于目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种，确定目标适应证的临床需求；获批药物信息是基于目标适应证的临床知识文本确定的，临床研发信息是基于目标适应证的注册试验文本确定的，流行病学信息是基于目标适应证的流行病学统计文本确定的。

具体地，针对目标适应证的临床需求挖掘，可以从目标适应证的获批药物信息、临床研发信息和流行病学信息三方面中的至少一个方面进行：

其中，获批药物信息用于表征已经获批目标适应证的药物及其相关信息，具体可以包含已经获批目标适应证的药物名称，还可以包含获批药物对应的疗法类型，或者也可以包含获批药物的疗效反馈等。

针对获批药物信息的挖掘，可以通过分析目标适应证的临床知识文本实现。此处，临床知识文本指记载有已经投入临床实践的标准化治疗相关知识的文本，例如临床实践指南、标准治疗方案(standard of care，SOC)以及相关文献等。通过分析临床知识文本中携带的目标适应证相关的推荐治疗方法，即可以得到目标适应证下的获批药物信息。

临床研发信息用于表征尚未获批目标适应证且处于在研状态的药物及其相关信息，具体可以包含针对目标适应证在研的药物名称，还可以包含在研药物对应的疗法类型，或者也可以包含社会舆论对应在研药物的期望、热度等。

针对临床研发信息的挖掘，可以通过分析目标适应证的注册试验文本实现。此处，注册试验文本指记载有面向目标适应证正在临床试验阶段的药物相关信息的文本，例如临床试验数据库ClinicalTrials中注册的面向目标适应证的在研药物的相关文本，包括在研药物临床试验的标题、治疗方法和入排标准等。通过分析目标适应证相关的注册试验文本中涉及到的在研药品的信息，即可以得到目标适应证下的临床研发信息。

流行病学信息用于表征目标适应证对应疾病的流行病学数据，可以反映目标适应证对应疾病的分布规律及影响因素，具体可以包含目标适应证对应疾病的发病率、患者人数、就诊率和发病人数的历年变化趋势等。通过流行病学信息，可以反映目标适应证对症药物在市场上的需求大小。

针对流行病学信息的挖掘，可以通过分析目标适应证的流行病学统计文本实现。此处，流行病学统计文本指记载有目标适应证的流行病学相关信息的文本，例如卫生统计年鉴、卫生统计文献、临床调研或者资讯等。通过抓取有目标适应证相关的流行病学统计文本，并对流行病学统计文本进行信息抽取，即可得到目标适应证的流行病学信息。

在得到目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种之后，即可基于此分析目标适应证下是否存在临床需求，具体可以是针对目标适应证的临床需求，也可以是针对目标适应证下各个疗法类型的临床需求，还可以是针对目标适应证下各个治疗模式的临床需求，本发明实施例对此不作具体限定。

进一步地，在进行临床需求挖掘时，可以根据获批药物信息所反映的已经获批的药物数量、药物疗效和患者反馈等分析目标适应证下的面向新药物的药物市场需求，根据临床研发信息所反映的正在临床试验阶段的药物数量分析目标适应证下开发新药物的竞争风险，根据流行病学信息所反映的目标适应证的发病率、患者规模等信息分析目标适应证在商业市场上的需求，可以根据药物市场需求、竞争风险和商业市场需求中的任意一种，或者结合药物市场需求、竞争风险和商业市场需求中的任意两种或者全部，衡量针对该目标适应证的临床需求，从而根据挖掘所得的临床需求判断是否针对该目标适应证立项进行临床试验。

本发明实施例提供的方法，通过对临床知识文本、注册试验文本和流行病学统计文本中的至少一种进行文本分析，得到获批药物信息、临床研发信息和流行病学信息中的至少一个方面的信息对目标适应证进行临床需求挖掘，在实现全面、可靠的临床需求挖掘的同时，有效提高了临床需求挖掘的实现效率，降低了临床需求挖掘的成本。

基于上述实施例，图2是本发明提供的获批药物信息确定方法的流程示意图，如图2所示，获批药物信息是基于如下步骤确定的：

步骤210，确定目标适应证的临床知识文本。

步骤220，从临床知识文本中提取目标适应证的疗法类型，以及疗法类型下各种获批药物的疗效信息和/或不良反应信息。

步骤230，基于疗法类型，以及疗法类型下各种获批药物的疗效信息和/或不良反应信息，确定获批药物信息。

具体地，临床知识文本可以是从临床知识文本库中获取的与目标适应证相关的文本，此处的临床知识文本库可以是包含有临床实践指南、标准治疗方案以及相关文献的文本库，可以通过在临床知识文本库中以目标适应证为检索词，检索包含目标适应证的文本段落作为临床知识文本，还可以在构建临床知识文本库的过程中，直接将文本划分到对应的适应证分类下，从而可以直接从临床知识文本库中得到目标适应证的临床知识文本。

针对临床知识文本，可以从中提取出目标适应证的疗法类型。此处，疗法类型是指针对目标适应证对应疾病的治疗流程标准化后的类型，例如肿瘤的疗法类型包括但不限于：新辅助治疗、辅助治疗、初始治疗、巩固治疗、诱导治疗、维持治疗等。针对目标适应证的疗法类型的提取，可以通过实体识别、规则匹配等方法实现。

此外，针对临床知识文本，还可以从中提取目标适应证的获批药物及其相关信息。其中获批药物的获取，也可以通过实体识别、规则匹配等方法实现。获批药物的相关信息可以包括获批药物的疗效信息，例如获批药物对应患者的长期或者短期获益数据，具体可以是肿瘤患者的生存率OS(Overall survival)、客观缓解率ORR(Objective ResponseRate)；获批药物的相关信息也可以包括获批药物的不良反应信息，例如可以包括获批药物对应患者的不良反应发生率、严重不良反应发生率，还可以包括获批药物对应患者产生不良反应的具体症状等。

在得到目标适应证下的各疗法类型，以及各疗法类型下各种获批药物及其疗效信息和/或不良反应信息之后，即可对上述信息进行整合，从而得到获批药物信息。此处的获批药物信息，不仅可以包含上述信息，还可以包含上述信息之间的关系，例如可以以表格的形式进行展示。

基于上述任一实施例，步骤220包括：

对临床知识文本进行实体识别，得到临床知识文本中各个实体的实体类型，实体类型为疗法类型或药物名称；

基于临床知识文本以及各个实体的实体类型，对各个实体进行关系分析，得到各个实体之间的实体关系；

基于各个实体的实体类型，以及各个实体之间的实体关系，确定目标适应证的疗法类型，以及疗法类型下的各种获批药物；

基于各种获批药物在临床知识文本中的对应语段，确定各种获批药物的疗效信息和/或不良反应信息。

具体地，为了实现针对临床知识文本的实体识别，可以预先训练实体识别模型。此次所指的实体，包括针对于临床知识文本而言的疗法类型和药物名称，可以将临床知识文本输入到预先训练好的实体识别模型中，由实体识别模型对临床知识文本进行实体识别，并输出临床实体文本中每个字的实体标注，此处实体识别的标注体系可以是BIO、BIOES等，B表示实体开头，E表示实体结尾，I表示实体中间词，O表示非实体，S表示单个实体。

在此基础上，可以通过预先训练的关系识别模型，结合临床知识文本以及各个实体的实体类型，对临床知识文本中包含的各个实体之间的关系进行分析识别，从而确定各个实体之间的关系。此处，关系识别模型可以将输入的临床知识文本的文本语义，与临床知识文本中各个实体对应分词的分词语义，以及各个实体的实体类型相结合，以分析判断各个实体之间的关系。此处，实体之间的关系包含药物名称与疗法类型之间的对应关系。

在确定临床知识文本中包含的实体，以及实体之间的关系之后，即可整合出目标适应证的疗法类型，以及疗法类型下的各种获批药物。

在步骤220执行之前，可以分别训练实体识别模型和关系分析模型，其中实体识别模型的训练方法可以包括如下步骤：首先采集大量样本临床知识文本，并人工标注样本临床知识文本中的实体和实体类型。随即，基于样本临床知识文本以及其中标注的实体和实体类型，对初始实体识别模型进行训练，从而得到实体识别模型。

此外。关系分析模型的训练方法可以包括如下步骤：首先采集大量样本临床知识文本，并人工标注样本临床知识文本中的实体和实体类型，此外，还另外标注实体之间的关系。随即，基于样本临床知识文本、其中标注的实体和实体类型，以及实体之间关系，对初始关系分析模型进行训练，从而得到关系分析模型。

考虑到临床知识文本在介绍说明一种获批药物时，通常会在同个语段或者相邻语段中介绍该获批药物的疗效信息和/或不良反应信息，在确定目标适应证的疗法类型及疗法类型下的获批药物之后，可以定位各获批药物在临床知识文本中所处的语段，进而将所处语段，或者将所处语段及其相邻语段，作为各获批药物的对应语段，从中挖掘与各获批药物相关的疗效信息和/或不良反应信息。此处，针对各种获批药物的疗效信息和/或不良反应信息的挖掘，可以通过规则匹配或者语义理解等方式实现，本发明实施例对此不作具体限定。

基于上述任一实施例，步骤230中，结合疗法类型，以及疗法类型下各种获批药物的疗效信息和/或不良反应信息确定的获批药物信息，可以展示为表1所示的形式，表1反映了可手术II期NSCLC、一个目标适应证的获批药物信息，其中针对于可手术II期NSCLC，具体可以划分为辅助治疗、新辅助治疗等治疗类型，在辅助治疗类型下，NCCN中标准治疗方案推荐的获批药物是奥西替尼，奥西替尼在用于可手术II期NSCLC的辅助治疗时获益率是70％，不良反应发生率为64％；在新辅助治疗类型下，NCCN和CSCO中标准治疗方案推荐的获批药物是含铂双药化疗，含铂双药化疗在用于可手术II期NSCLC的新辅助治疗时获益率是80％，不良反应发生率为80％。

表1

后续用户在查看目标适应证下的获批药物信息时，可以选择按照长期/短期获益率或不良反应发生率从高到低或者从低到高的顺序来自动对类似表1形式的获批药物信息进行排序，从而获取到目前在获批药物场景下，临床指南中未被满足的临床需求；

例如：若在用户筛选某细分适应证下，临床指南推荐的药物长期/短期获益率很高且不良反应很低，则说明该临床需求已被很好的满足；若在用户筛选某细分适应证下，临床指南推荐的药物的长期/短期获益率不高且不良反应发生率很高，说明该临床需求未被满足。

基于上述任一实施例，图3是本发明提供的临床研发信息确定方法的流程示意图，如图3所示，临床研发信息是基于如下步骤确定的：

步骤310，确定注册试验文本。

步骤320，对注册试验文本进行适应症信息关联，得到目标适应证的在研药物。

步骤330，对各在研药物在注册试验文本中的相关文本进行试验信息挖掘，得到各在研药物的试验信息，试验信息包括对应在研药物的关键试验数量、疗效信息和不良反应信息中的至少一种。

步骤340，基于各在研药物的试验信息，确定目标适应证的临床研发信息。

具体地，目前临床试验数据库ClinicalTrials中注册的信息，通常直接与对应药物相关联，在进行目标适应证的临床研发信息挖掘时，可以从临床试验数据库ClinicalTrials或者其他途径获取注册试验文本，此处所指的注册试验文本可以是从临床试验数据库ClinicalTrials或者其他途径获取的对应各种适应症药品研发的相关信息文本，注册试验文本中常提及对应某种适应症的药物，即未明确待申请适应证的药物，注册试验文本可以包含对应药物的临床试验标题、治疗方法、入排标准等。

可以对注册试验文本进行适应症信息的关联，即挖掘注册试验文本中包含的与对应药物的适应症、疗法类型和治疗模式等相关的信息，并将上述信息确定为各药物的在研适应症信息。在此基础上，即可根据各药物的在研适应症信息，选取出在研适应症信息与目标适应证相关的药物，作为目标适应证的在研药物，即后续可能申请目标适应证的药物。

此外，还可以分别对各在研药物在注册试验文本中的相关文本进行试验信息挖掘，从而得到各在研药物的试验信息，此处的试验信息可以反映在研药物的在研情况，例如试验信息可以包括在研药物的关键试验数量，关键试验数量可以直接反映在研药物当前的研发试验进度，由此可以推断在研药物是否可能短期内上市；试验信息还可以包括在研药物在临床试验中体现出的疗效信息和/或不良反应信息，通过疗效信息和/或不良反应信息推断在研药物上市之后是否会带来较大的竞争，或者在研药物上市之后是否可能满足临床需求。

在此基础上，即可整合目标适应证的各在研药物的试验信息，从而得到目标适应证的临床研发信息。

基于上述任一实施例，步骤320包括：

将注册试验文本与预设临床词典中的各个词条分别进行匹配，得到注册试验文本中与各个词条关联的分词，作为注册试验文本对应药物的在研适应症；

将所述在研适应症与目标适应证相关的药物，确定为目标适应证的在研药物。在此基础上，即可根据各药物的在研适应症信息，选取出在研适应症信息与目标适应证相关的药物，作为目标适应证的在研药物。其中，在研适应症信息与目标适应证相关，可以理解为药物的在研适应症信息中涵盖了目标适应证的范畴，或者药物的在研适应症信息与目标适应证存在较大重合。

此处，预设临床词典包含了疾病-细分适应证的树状层级字典，例如图4是本发明提供的预设临床词典的结构示意图，图4层级化展示了疾病“非小细胞肺癌”下的各个细分的细分适应证。预设临床词典的构建可以是通过自然语言处理(Natural LanguageProcessing，NLP)或者人工，再或者NLP与人工相结合的形式实现的。

将注册试验文本与预设临床词典中各个词条分别进行匹配，即可定位到注册试验文本中与疾病或者其细分适应证存在同义词或者上下位词关系的分词，作为注册试验文本所指药物的在研适应症信息。

进一步地，可以基于预设临床词典训练关联词识别模型，从而基于关联词识别模型识别输入的注册试验文本中与预设临床词典中的词条存在关联的分词。

可选地，关联词识别模型可以通过mt5算法实现，此处将通过mt5算法构建的关联词识别模型记为第一关联词识别模型。可以将注册试验文本输入至第一关联词识别模型，得到第一关联词识别模型输出的注册试验文本中与各个词条关联的分词，

具体在进行第一关联词识别模型训练时，可以为预设临床词典中的每个词条均赋一个序号，并应用0标识空词条。在此基础上，根据mt5格式要求，指定prefix前缀，即指定任务类型:dictionary_match。由此得到的输出文本中包含输入的注册试验文本中与预设临床词典中的词条存在关联的分词，以及该分词关联的词条序号，例如Stage IIIB/IV orRecurrent Lung Cancer@36,48。其中，@为特殊符号,Stage IIIB和IV or Recurrent LungCancer标识两个与词条存在关联的分词，分别关联的词条序号为36和48，不同序号之间可以用逗号分隔。

基于mt5算法实现的适应症信息关联，可以表示为表2形式，其中输入文本即注册试验文本，输入文本中设置有下划线的部分即文本中与词条关联的分词，输出文本包含注册试验文本中与预设临床词典中的词条存在关联的分词，以及该分词关联的词条序号：

表2

考虑到预设临床词典中的词条数量大约在数百条，基于mt5算法设置数万条规模的训练集前后经过3次迭代训练即可达到90％以上测试准确率的预测效果。输出文本中仅输出与分词关联的词条序号，而不直接输出词典中与分词关联的词条，能够进一步减轻生成式模型对训练集数据量的依赖,从而进一步避免“言多必失”的可能性。

可选地，关联词识别模型也可以通过编解码器模型(Generic Encoder-DecoderModel)实现，此处将通过编解码器模型构建的关联词识别模型记为第二关联词识别模型。可以将注册试验文本与预设临床词典中的各个词条两两组合后输入至第二关联词识别模型，得到第二关联词识别模型输出的注册试验文本中与对应词条关联的分词。

第二关联词识别模型可以在预训练的mBERT模型(pre-trained BERT)的基础上进行微调训练得到。

针对编解码器模型设计的训练集可以表现为表3形式：

表3

其中，输入文本为预设临床词典中的词条(Dictionary entry)与注册试验文本(Inclusion)的拼接形式。具体对于每个词条，均可以与注册试验文本中的每一分句进行拼接，拼接后的每个输入文本对应一个输出文本，此处输出文本用于表示输入文本中的注册试验文本中是否存在与输入文本中的词条关联的分词。在存在一个关联分词的情况下，输出文本为该关联分词，在存在多个关联分词的情况下，输出文本为多个关联分词，且关联分词两两之间用“|”分界，在不存在关联分词的情况下，输出文本为“|”。

假设预设临床词典中包含100个词条，共有10000句注册试验文本，两两组合即可构成100*10000＝10⁶个训练样本。由此产生的训练样本中会存在大量负样本，也就是输出文本为“|”的样本，可以通过对正样本进行上采样与对负样本进行下采样的方式，使得整体训练集达到较为平衡的状态。实际预测时，可以将模型预测的输出文本按照“|”切分，以便于统计关联词识别模型的准确率。基于上述思路训练编解码器模型5次，得到的第二关联词识别模型的测试准确率为95％。

基于上述任一实施例，包含了目标适应证的获批药物信息和临床研发信息的表格可以表现为表4形式：

表4

表4中，获批药物信息和临床研发信息均基于目标适应证的疗法类型进行对应展示。获批药物信息的部分在表4中体现为“临床指南推荐”的对应列信息，临床研发信息的部分在表4中体现为“研发竞争现状”的对应列信息。表4中加粗的部分是针对单个疗法类型进行汇总的内容，加粗部分以下的内容，为针对单个疗法类型的各种药物的具体信息。例如，在新辅助治疗下，在研药物的关键试验数量的总数为4次，其中每种在研药物对应一次，表格内的“Ⅲ期：NTC123456”反映的是对应临床试验的批次。

同样地，后续用户在查看目标适应证下的临床研发信息时，可以选择按照长期/短期获益率或不良反应发生率从高到低或者从低到高的顺序来自动对类似表4形式的获批药物信息和临床研发信息进行排序，从而获取到目前在获批药物和临床研发场景下，未被满足的临床需求；

例如：若目前在研的药品数量多，已有研发药品的长期/短期获益率高且不良反应发生率低，则表明该细分适应证为即将被满足的临床需求；若目前在研药品数量少，已有研发药品的长期/短期获益率低且不良反应发生率高，表明该细分适应证为未被满足的临床需求。

基于上述任一实施例，流行病学信息是基于如下步骤确定的：

获取流行病学统计文本中目标适应症的流行病学关联语段；

对流行病学关联语段进行信息挖掘，得到目标适应证在流行病学关联语段对应时段内的阶段流行病学信息，阶段流行病学信息包括发病率、患病人数、就诊率中的至少一种；

基于各时段内的阶段流行病学信息，以及各时段内的阶段流行病学信息之间的变化趋势，确定目标适应证的流行病学信息。

具体地，考虑到流行病学统计文本中可能涉及到多种适应证的相关信息，因此在获取目标适应证的流行病学信息时，首先可以定位流行病学统计文本中与目标适应证相关联的流行病学关联语段，具体可以通过将目标适应证视为待识别的目标实体，对流行病学统计文本进行实体识别，从而定位包含目标适应证的语段作为流行病学关联语段，也可以预先设定好匹配规则，通过规则匹配的方式从流行病学统计文本中筛选流行病学关联语段。

在得到针对目标适应症的各流行病学关联语段之后，即可对各流行病学语段进行信息挖掘，从而得到各流行病学关联语段对应时段内的阶段流行病学信息，此处流行病学关联语段对应时段是指流行病学关联语段统计流行病学信息的时段，例如流行病学关联语段反映的可能是2013-2016年可手术II期NSCLC在全国的患者人数，则可以该流行病学语段得到的阶段流行病学信息对应的时段为2013-2016年。

目标适应证的流行病学信息，可以整合基于各时段内的阶段流行病学信息，并且通过各时段内的阶段流行病学信息梳理各阶段流行病学信息的变化趋势，例如历年发病人数的变化趋势，从而从静态和动态两个方面体现目标适应证的流行病学现状。

基于上述任一实施例，不仅在确定临床研发信息时可以通过预设临床词典实现，在从海量流行病学统计文本筛选目标适应症的流行病学关联语段时，同样可以通过预设临床词典实现。

需要说明的是，在预设临床词典的应用过程中，可能检测到一些未被预设临床词典收录的细分适应症，针对此部分未被收录的细分适应症，可以基于此对预设临床词典进行扩充。

基于上述任一实施例，步骤120包括：

基于目标适应证的获批药物信息和/或临床研发信息中的对症药物的药物数量和疗效反馈信息，确定目标适应证的药物需求，对症药物包括获批药物和/或在研药物；

基于目标适应证的流行病学信息，确定目标适应证的市场需求；

基于目标适应证的药物需求和市场需求，确定目标适应证的临床需求。

具体地，针对于目标适应证的获批药物信息，其中包含了已经获批目标适应证的获批药物的相关信息，可以通过统计目标适应证下各疗法类型下的获批药物的药物数量，判断目标适应证下各疗法类型的临床需求是否已经满足，从而推断此时进入该领域的机会成本大小；此外还可以统计目标适应证下各疗法类型下的获批药物的疗效反馈信息，包括药物疗效好坏、不良反应情况等，进而判断目标适应证下各疗法类型下的临床需求是否已经满足，从而推断此时进入该领域的机会大小。例如，获批药物的药物数量越多，进入该领域的机会越小；获批药物的药物疗效越好，进入该领域的机会越小，目标适应证的临床需求越小。

针对于目标适应证的临床研发信息，其中包含了尚未获批目标适应证且处于在研状态的在研药物的相关信息，可以通过统计目标适应证下各疗法类型下的在研药物的药物数量，判断目标适应证下各疗法类型下的临床需求在后期是否可能得到满足，从而推断此时进入该领域的风险大小。例如，在研药物的药物数量越多，进入该领域的风险越大，目标适应证的临床需求越小。还可以统计目标适应证下各疗法类型下的在研药物的疗效反馈信息，包括药物疗效好坏、不良反应情况等，进而判断目标适应证下各疗法类型下的临床需求在后期是否可能得到满足，从而推断此时进入该领域的风险大小。

此处，基于目标适应证的获批药物信息和/或临床研发信息分析所得的临床需求，均是在药物层面上得到的，因此可以视为药物需求。例如，表5为II期NSCLC下各细分适应证的获批药物信息和临床研发信息的统计汇总表，表5中加粗的药物为获批药物，双下划线的药物为在研药物：

表5

以“可手术Ⅱ期NSCLC”辅助治疗或新辅助治疗作为目标适应证进行临床需求挖掘时，可以通过表5获知：

在“可手术Ⅱ期NSCLC”的辅助治疗中，标准治疗方案(SOC)“奥西替尼”的疗效良好、不良反应少，同时又有国产药物“奥美替尼”在做相应的临床试验，所以“可手术Ⅱ期NSCLC”的辅助治疗的药物需求基本已经满足，此时进入机会小、风险大。

在“可手术Ⅱ期NSCLC”的新辅助治疗的在研临床试验包括“帕博利珠单抗”、“奥希替尼”、“奥美替尼”和单药化疗“吉西他滨”、“培美曲塞”，目前还没有药物获批。通过分析，“可手术Ⅱ期NSCLC”的新辅助治疗的药物需求巨大，但目前临床试验阶段的药物较多，此时进入机会较大、但是风险也较大，可利用进一步细分治疗人群、药物联用等方法减小风险。

此外，针对于目标适应证的流行病学信息，其中包含了目标适应证对应疾病的发病率、患者人数、就诊率和发病人数的历年变化趋势等信息，可以通过对上述信息进行分析，判断目标适应证对症药物在市场上的需求大小。例如，目标适应证对应疾病的发病率越高、患者人数越多，则目标适应证在市场上的需求越大，发病人数逐年递减，则目标适应证后续市场需求可能会越来越小。基于目标适应证的流行病学信息分析所得的临床需求，均是在商业市场层面上得到的，因此可以视为市场需求。

在进行临床需求挖掘时，可以结合药物需求和市场需求综合分析，从而得到更加客观可靠的临床需求。

本发明实施例提供的方法，从获批药物、在研药物以及流行病学三方面的文本文献入手，分别提取获批药物信息、临床研发信息和流行病学信息，从而实现临床需求挖掘。从细分适应证维度，帮助用户筛选出存在较大需求的适应证，从而提高研发成功率、降低临床试验风险。其次，也可以通过分析细分适应证内的竞争态势，发掘药品的优势从而规避竞争。

基于上述任一实施例，可以预先获取各种细分适应证的获批药物信息、临床研发信息和流行病学信息，其获取方式可以参考上述实施例中针对目标适应症的各种信息的获取方法。在此基础上，用户可以根据自身需求，在任意一种模式下进行各种细分适应证的临床需求挖掘，从而从各种细分适应证中选取得到可进入研发的适应症。

此处所指的模式可以是先考虑各细分适应证的获批药物信息，从中挖掘在获批药物信息维度上未满足需求的细分适应证，并进一步分析此类细分适应证的临床研发信息，从中挖掘在获批药物信息维度和临床研发信息维度上均未满足需求的细分适应证，再进一步分析此类细分适应证的流行病学信息，并从中挖掘出在三种信息维度上均未满足需求的细分适应证。此外，还可以根据用户自身需求修改上述三种信息维度的筛选顺序，例如先考虑流行病学信息，后考虑获批药物信息和临床研发信息，又例如并行考虑获批药物信息、临床研发信息和流行病学信息。

例如，用户可先在获批药物信息下对未满足的临床需求进行挖掘，通过对临床指南推荐的治疗方案/药品的长期/短期获益率或不良反应发生率进行排序，得到获批药物信息中对应的未满足的临床需求；

基于获批药物信息中未满足的临床需求，于临床研发信息中对全球目前在研药物的长期/短期获益率或不良反应发生率进行排序，从而获取目前临床指南及临床研发中均未被满足的临床需求。

再次基于上述未被满足的临床需求，在流行病学信息下通过对各种维度的数据进行排序或筛选，从而最终获取市场潜力大、商业价值高的未满足的临床需求。

下面对本发明提供的临床需求挖掘装置进行描述，下文描述的临床需求挖掘装置与上文描述的临床需求挖掘方法可相互对应参照。

图5是本发明提供的临床需求挖掘装置的结构示意图，如图5所示，该装置包括：

目标确定单元510，用于确定目标适应证；

需求挖掘单元520，用于基于所述目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种，确定所述目标适应证的临床需求；

本发明实施例提供的装置，通过对临床知识文本、注册试验文本和流行病学统计文本中的至少一种进行文本分析，得到获批药物信息、临床研发信息和流行病学信息中的至少一个方面的信息对目标适应证进行临床需求挖掘，在实现全面、可靠的临床需求挖掘的同时，有效提高了临床需求挖掘的实现效率，降低了临床需求挖掘的成本。

基于上述任一实施例，该装置还包括获批信息确定单元，获批信息确定单元包括：

知识文本确定子单元，用于确定所述目标适应证的临床知识文本；

获批信息提取子单元，用于从所述临床知识文本中提取所述目标适应证的疗法类型，以及所述疗法类型下各种获批药物的疗效信息和/或不良反应信息；

获取信息关联子单元，用于基于所述疗法类型，以及所述疗法类型下各种获批药物的疗效信息和/或不良反应信息，确定所述获批药物信息。

基于上述任一实施例，所述获批信息提取子单元用于：

基于上述任一实施例，该装置还包括研发信息确定单元，研发信息确定单元包括：

注册文本确定子单元，用于确定注册试验文本；

适应症关联子单元，用于对所述注册试验文本进行适应症信息关联，得到所述目标适应证的在研药物；

信息挖掘子单元，用于对各在研药物在所述注册试验文本中的相关文本进行试验信息挖掘，得到各在研药物的试验信息，所述试验信息包括对应在研药物的关键试验数量、疗效信息和不良反应信息中的至少一种；

在研信息规整子单元，用于基于各在研药物的试验信息，确定所述目标适应证的临床研发信息。

基于上述任一实施例，适应症关联子单元用于：

将所述注册试验文本输入至第一关联词识别模型，得到所述第一关联词识别模型输出的所述注册试验文本中与各个词条关联的分词，所述第一关联词识别模型是基于mt5构建的；

或者，

将所述注册试验文本与预设临床词典中的各个词条两两组合后输入至第二关联词识别模型，得到所述第二关联词识别模型输出的所述注册试验文本中与对应词条关联的分词，所述第二关联词识别模型是基于编解码器模型构建的。

基于上述任一实施例，该装置还包括流行病学信息确定单元，用于：

基于上述任一实施例，需求挖掘单元520用于：

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行临床需求挖掘方法，该方法包括：确定目标适应证；基于所述目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种，确定所述目标适应证的临床需求；所述获批药物信息是基于所述目标适应证的临床知识文本确定的，所述临床研发信息是基于所述目标适应证的注册试验文本确定的，所述流行病学信息是基于所述目标适应证的流行病学统计文本确定的。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的临床需求挖掘方法，该方法包括：确定目标适应证；基于所述目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种，确定所述目标适应证的临床需求；所述获批药物信息是基于所述目标适应证的临床知识文本确定的，所述临床研发信息是基于所述目标适应证的注册试验文本确定的，所述流行病学信息是基于所述目标适应证的流行病学统计文本确定的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的临床需求挖掘方法，该方法包括：确定目标适应证；基于所述目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种，确定所述目标适应证的临床需求；所述获批药物信息是基于所述目标适应证的临床知识文本确定的，所述临床研发信息是基于所述目标适应证的注册试验文本确定的，所述流行病学信息是基于所述目标适应证的流行病学统计文本确定的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种临床需求挖掘方法，其特征在于，包括：

确定目标适应证；

2.根据权利要求1所述的临床需求挖掘方法，其特征在于，所述获批药物信息是基于如下步骤确定的：

确定所述目标适应证的临床知识文本；

3.根据权利要求2所述的临床需求挖掘方法，其特征在于，所述从所述临床知识文本中提取所述目标适应证的疗法类型，以及所述疗法类型下各种获批药物的疗效信息和/或不良反应信息，包括：

4.根据权利要求1所述的临床需求挖掘方法，其特征在于，所述临床研发信息是基于如下步骤确定的：

确定注册试验文本；

5.根据权利要求4所述的临床需求挖掘方法，其特征在于，所述对所述注册试验文本进行适应症信息关联，得到所述目标适应证的在研药物，包括：

6.根据权利要求1所述的临床需求挖掘方法，其特征在于，所述流行病学信息是基于如下步骤确定的：

7.根据权利要求1至6中任一项所述的临床需求挖掘方法，其特征在于，所述基于所述目标适应证的获批药物信息、临床研发信息和流行病学信息中的至少一种，确定所述目标适应证的临床需求，包括：

8.一种临床需求挖掘装置，其特征在于，包括：

目标确定单元，用于确定目标适应证；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述临床需求挖掘方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述临床需求挖掘方法的步骤。