CN117672222A

CN117672222A - 大语言模型驱动的显微镜控制方法、装置及电子设备

Info

Publication number: CN117672222A
Application number: CN202410130789.6A
Authority: CN
Inventors: 许迎科; 于佳辉; 马天宇; 王绪娜
Original assignee: Binjiang Research Institute Of Zhejiang University; Zhejiang University ZJU
Current assignee: Binjiang Research Institute Of Zhejiang University; Zhejiang University ZJU
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-03-08
Anticipated expiration: 2044-01-31
Also published as: CN117672222B

Abstract

本发明涉及计算机技术领域，公开了一种大语言模型驱动的显微镜控制方法、装置及电子设备，所述方法包括：获取第一语音数据，并基于调整后的语音大模型结合上下文进行意图分析，确定与显微镜控制相关的第一指示信息；基于第一指示信息和硬件库，确定对显微镜的控制方案；按照控制方案对显微镜进行控制，并获取图像数据，以对图像数据进行分析；本申请的方法可以更好的对显微镜进行控制。

Description

大语言模型驱动的显微镜控制方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，尤其是涉及一种大语言模型驱动的显微镜控制方法、装置及电子设备。

背景技术

显微镜被广泛应用在生物学、医学等领域，如观察和捕捉细胞有丝分裂、判读病理分化程度。在使用过程中，专家或医生将样本放置在载物台，通过移动载物台、切换物镜、对焦、寻找目标视野，进行观察分析。

对于非专业人员，使用不同型号显微镜需要一定的学习成本，如硬件配置（镜头参数、操作步骤）或软件使用方法，才能达到使用标准。而他可能仅仅需要从样本上拍摄一组图像。这增加了显微镜的使用成本，降低生产力效率；对于专家或医生（如细胞学家、病理学医生），手工反复操作和长时间观察显微镜是一项复杂且容易疲惫的工作。总体来说，显微镜的使用很不方便。

发明内容

本发明提供一种大语言模型驱动的显微镜控制方法、装置及电子设备，可以便于使用显微镜。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本申请提供了一种大语言模型驱动的显微镜控制方法，所述方法包括：获取第一语音数据，并基于调整后的语音大模型结合上下文进行意图分析，确定与显微镜控制相关的第一指示信息；基于第一指示信息和硬件库，确定对显微镜的控制方案；按照控制方案对显微镜进行控制，并获取图像数据，以对图像数据进行分析。

优选的，所述方法还包括：获取第二语音数据，并基于调整后的语音大模型结合上下文进行意图分析，确定与图像数据相关的第二指示信息；依据第二指示信息与软件库，确定图像数据的分析方案，以对图像数据进行分析，确定分析结果。

优选的，调整后的语音大模型，依据以下步骤生成：获取设定语音数据，并基于语音大模型进行结合上下文进行交互，得到限定信息，限定信息包括用于定义语音大模型身份的系统角色信息、用于与语音大模型进行绑定以便语音大模型使用的硬件库、软件库，用于规范语音大模型的交互方式、生成控制方案以及生成分析方案的规范信息；基于限定信息对语音大模型进行限定，得到调整后的语音大模型。

优选的，所述基于第一指示信息和硬件库，确定对显微镜的控制方案，包括：基于第一指示信息中的硬件相关信息和硬件库，确定待控制的目标硬件，所述目标硬件包括显微镜相关的：载物平台、相机、物镜、信息识别组件、照明组件中的至少一个；基于第一指示信息中的控制策略和目标硬件的参数信息，确定目标硬件的控制方案；所述控制策略包括以下策略中的至少一个：载物平台控制策略，用于控制载物平台在X、Y、Z三维空间移动，以进行定位和对焦；相机控制策略，用于设置和调整显微镜的相机组件，包括设置相机组件的分辨率、帧率、曝光、白平衡，并调整拍摄显微镜视野；物镜控制策略，用于切换不同放大倍率的物镜；信息识别组件控制策略，用于控制信息识别组件扫描载玻片的条形码，获取承载对象的身份信息；照明组件控制策略，用于调整光照强度。

优选的，所述软件库包括软件函数库，所述依据第二指示信息与软件库，确定图像数据的分析方案，包括：从软件函数库中获取实现第二指示信息对应的逻辑函数，形成分析策略；输出分析策略对应的描述信息给用户，并在获取到用户对分析策略的确认指令后，依据分析策略生成图像数据的分析方案。

优选的，在获取图像数据之前，所述方法还包括：获取对焦要求信息，对焦要求信息依据第一语音数据或第二语音数据确定；按照对焦要求信息，确定显微镜的对焦方式，所述对焦方式包括全局对焦和逐点对焦；按照对焦方式确定对焦信息，以按照对焦信息获取图像数据。

优选的，当对焦方式为逐点对焦时，所述按照对焦方式确定对焦信息，包括：确定对焦范围，并在对焦范围内按照预设高度差获取多张不同高度的采集图像；对采集图像的目标像素点进行清晰度分析，确定清晰度最高的采集图像对应的目标对焦位置；依据目标对焦位置，缩小对焦范围和预设高度差，以按照更新后的对焦范围和高度差来采集图像以完成下一轮清晰度分析，直至确定最终对焦位置作为对焦信息；所述对采集图像的目标像素点进行清晰度分析，包括：依据目标像素点的第一亮度值和目标像素点的相邻像素点的第二亮度值之间的差异进行清晰度分析。

优选的，所述当对焦方式为全局对焦时，所述按照对焦方式确定对焦信息，包括：根据载玻片样本面积和物镜放大倍率，计算对焦列表，所述对焦列表用于存储对焦点的位置，每隔N个显微镜视野设定一个对焦点；采取逐点对焦的方式，对对焦列表中的对焦点进行对焦并记录；使用边缘检测算法分割前景和背景，将背景的焦面值校正为与背景相邻的前景的焦面值，并使用插值方法计算所有位置的焦面值并记录，得到载玻片的全局焦面列表，作为对焦信息；所述插值方法为线性插值。

第二方面，本申请提供了一种大语言模型驱动的显微镜控制装置，所述装置包括：语音交互处理模块，用于获取第一语音数据，并基于调整后的语音大模型结合上下文进行意图分析，确定与显微镜控制相关的第一指示信息；控制方案生成模块，用于基于第一指示信息和硬件库，确定对显微镜的控制方案；图像数据获取模块，用于按照控制方案对显微镜进行控制，并获取图像数据，以对图像数据进行分析。

第三方面，本申请提供了一种电子设备，包括：存储器和至少一个处理器；所述存储器用于存储计算机执行指令；所述至少一个处理器用于执行所述存储器中存储的计算机执行指令，使得所述至少一个处理器执行如第一方面所述的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面的方法。

本申请可以应用在对显微镜进行控制的场景，本方案可以通过调整后的语音大模型与用户进行交互，获取用户对显微镜进行控制的指示信息，并结合上下文进行理解和交互，进而形成对显微镜的控制方案，以按照控制方案对显微镜的载物平台、相机、物镜等组件进行控制，可以便于对显微镜进行控制；还可以基于调整后的大模型与用户的交互为用户生成对显微镜采集到的图像进行分析的分析方案，如可以生成疾病分析、细胞统计等方案，便于完成对图像的识别。具体来说，本申请可以对语音大模型进行微调，可以为语音大模型设定角色并绑定硬件库、软件库。硬件库提供对显微镜的相关硬件进行控制的控制模块，软件库包含对焦分析以及对图像进行分析的相关模型或函数等。用户可以通过语音与调整后的大模型进行交互，以利用语音及上下文来生成对显微镜的控制方案、对图像数据的分析方案等内容，以便完成显微镜的数据采集和数据分析。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本申请一个实施例的基础硬件逻辑库的结构示意图；

图2是本申请一个实施例的基础软件逻辑库的结构示意图；

图3是本申请一个实施例的大语言模型驱动的显微镜控制方法的步骤示意图；

图4是本申请一个实施例的大语言模型驱动的显微镜控制方法的流程示意图；

图5是本申请一个实施例的大语言模型驱动的显微镜控制装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请可以应用在对显微镜进行控制的场景，本方案可以通过调整后的语音大模型与用户进行交互，获取用户对显微镜进行控制的指示信息，并结合上下文进行理解和交互，进而形成对显微镜的控制方案，以按照控制方案对显微镜的载物平台、相机、物镜等组件进行控制，可以便于对显微镜进行控制；还可以基于调整后的大模型与用户的交互为用户生成对显微镜采集到的图像进行分析的分析方案，可以生成疾病分析、细胞统计等方案，便于完成对图像的识别。

具体来说，本发明提供了一种大语言模型（Chat-GPT）驱动的显微镜控制方法、装置及电子设备。本发明提供的方法与现存的语言控制方式不同，其具备语言理解能力、上下文长序列对话功能和更好的灵活性。本发明以智能显微镜的角色和使用情景，通过预设显微镜的软件库（或称基础软件逻辑库、软件控制库等）、硬件库（基础硬件逻辑库、硬件控制库等），将大语言模型（Chat-GPT）通过引导（prompt）方式规范和集成。使系统具备长序列上下文对话能力、逻辑函数生成能力、灵活的控制能力，能够精准完成用户的需求。适用于多种显微镜使用场景，如帮助细胞专家自动捕捉有丝分裂，辅助图像采集，病理扫描、AI分析。

本发明系统可通过以下方式构建，如图1所示：构建普适性的显微镜硬件控制库或称基础硬件逻辑库，包括参数获取模块S101、载物平台控制模块S102、相机控制模块S103、物镜控制模块S104、信息识别控制模块S105、照明控制模块S106、语言输入控制模块S107。

如图2所示，构建软件库或称基础软件逻辑库，包括自动对焦模型S201、定向分析模型S202（由用户自定义）、自动分析模型S203、软件函数库S204。

初始化大语言模型，采用prompt方式设定对话规范，包括：系统角色、硬件逻辑库说明、对话规范（通过多轮对话）。由上述步骤构建基于大语言模型（Chat-GPT）的显微镜（或称智能显微镜）系统。

大语言模型（Chat-GPT）基于构建的显微镜硬件库，驱动显微镜的智能控制和分析，克服了开发人员对特定功能需要编写特定代码的不足。普适性的控制库包含常规显微镜最基本的使用单元，因此通过构建普适性的显微镜硬件库，克服了现有语音控制的显微镜方法迁移性差的缺点。基于构建的软件库，通过集成定向分析模型，可实现特定的采集、分析、结果可视化等任务；通过集成现有的自动分析模型，可实现大量场景的分析，如不同病种的病理分析，无需单独训练模型。

具体的，参数收发模块S101，用于向显微镜发送指令，获取所需硬件的控制信息（或称参数信息，根据参数信息确定显微镜的当前状态），包括载物平台坐标、物镜孔位、照明亮度。载物平台逻辑模块S102，用于批量放置待分析的载玻片，通过发送指令使其在X、Y、Z三维空间移动，进行定位和对焦。坐标、移动步长由参数收发模块得到。坐标是每一张载玻片的起始位置坐标和终点位置坐标。移动步长在X方向等于一个显微镜视野的宽、在Y方向等于一个显微镜视野的高。相机逻辑模块S103，用于设置和控制显微镜相机（或称相机组件），包括设置相机的分辨率、帧率、曝光、白平衡，并控制拍摄显微镜视野。物镜逻辑模块S104，用于自动切换不同放大倍率的物镜。信息识别逻辑模块S105，或称信息识别组件，是一个相机设备，用于扫描载玻片的患者条形码，获取患者信息。照明逻辑模块S106，用于调整光照强度。语言输入逻辑模块S107，用于获取语音信息或文本信息。

软件库包括自动对焦模型S201和定向分析模型S202、自动分析模型S203。具体的，自动对焦模型S201，为提高智能显微镜工作效率，本发明的自动对焦模型根据任务类型分为全局对焦和逐点对焦。逐点对焦为在用户需要对焦的视野进行一次自动对焦，适用于如癌症筛查、检测任务；全局对焦为对整张载玻片的所有位置进行焦面计算，适用于如细胞计数、组织分割等扫描任务。全局对焦和逐点对焦可根据用户的语言意图选择，可以根据分析任务类型或者语音中指示的对焦方式来确定。具体步骤为：

逐点对焦包括：

1、调用载物平台逻辑模块，将载物台沿Z轴方向移动到最低焦面位置。

2、使用相机（相机组件）获取两帧图像，丢弃第一帧以清空相机缓冲区，保留第二帧图像，其中/>和/>为图像的宽和高。

3、利用清晰度处理算法计算图像的清晰度，记录当前位置的坐标/>和对应的清晰度值为/>。

依据清晰度处理算法计算清晰度的方式如公式1所示进行计算：

公式1

其中，和/>是图像中的像素点，/>表示像素位置/>的像素点的亮度值，为常数0.001。

4、在预设的对焦范围内，在Z方向移动载物平台一个粗步长，使用步骤2和3，直到最高焦面。

5、计算清晰度最高的位置，作为粗对焦焦面。

6、在粗对焦焦面，进行精细对焦。在粗对焦焦面的上下两个粗步长内，以更小的细步长移动载物平台，重复步骤2和3。寻找清晰度最高值对应的Z轴坐标作为最终焦面。

7、控制载物平台移动到最终焦面。

全局对焦包括：

1、根据载玻片样本面积和物镜放大倍率，计算对焦列表；所述的对焦列表用于存储需对焦点的位置。每隔N个显微视野设定一个对焦点。

2、使用上述逐点对焦的步骤，对对焦列表中的点进行对焦并记录。

3、使用边缘检测算法分割前景和背景。为优化前景边缘部分，将背景的焦面值校正为与它最临近的前景焦面值。

4、使用插值方法计算所有位置的焦面值并记录，得到载玻片的全局焦面列表。所述的插值方法为线性插值。

定向分析模型S202，由用户预设和预训练，并以prompt的方式向交互单元添加模型的描述，用于对拍摄的显微图像进行定向分析，如细胞检测、组织分类。大语音模型将定向分析模型的输出结果自动转换为文本形式。

自动分析模型S203，为现有的预训练视觉语言开源模型，如PLIP、CONCH。用于自动分析采集的图像，无需用户训练。模型的输入是图像或图像-文本，输出是文本结果。模型被调用时，自动加载或下载开源预训练权重，或调用开源模型的API实现。

软件函数库S204，为运行代码所需的函数库，运行前自动检测，若不存在，则自动安装。

进一步地，采用prompt方式初始化大语言模型，prompt方式包括：系统角色、硬件逻辑库说明、对话规范（通过多轮对话）。

举例来说：

角色prompt，将Chat-GPT的角色设定为一台智能显微镜，用于规范其对话功能。一个实施例子为：“你是一名智能电动显微镜。您的系统包括一台相机、一个可容纳四张幻灯片的电动平台，以及一个具有4倍、10倍、20倍和40倍物镜的电动物镜转换器”。

硬件逻辑库（硬件库）prompt，将上述的硬件控制逻辑模块和基础软件模型以prompt的方式输入到Chat-GPT，用于规范Chat-GPT可使用的基础功能模块。一个实施例为：“Converter_ objective (objective)：接收物镜的放大倍数，并转换到指定的位置；AFocus(fine_flag=True)：用于自动对焦。接收“fine_flag”是否需要更精确的聚焦。您可以根据具体任务决定“True”还是“False”。Image_Analysis_Model1(Parameter 1,Parameter 2, ……)：用于分析图像的模型。接收参数1、参数2……”。

对话规范，用于限定Chat-GPT的逻辑库调用、逻辑函数生成方式和对话方式。一个逻辑库调用的实施例为：“根据任务提示，您可以使用我上面提供的函数来创建新的函数，但不能使用任何假设性质或不存在的函数”。

一个新逻辑函数的实施例为：“除非你已经澄清了任务的所有细节，否则不允许根据自己的想法生成逻辑。比如在哪张载玻片操作、放大多少倍等等。如果任务的细节不够清楚，你必须进一步向我询问”。

一个对话方式的实施例为：“完成任务后，您将通知用户结果。您可以询问用户是否希望您根据现有知识提供医疗建议或生成结构化报告。如果用户问你其他问题，比如与你交谈，你可以根据你的正常思维过程做出回应。例如，如果他们询问癌症筛查知识，你可以像往常一样回答”。

如图3所示，本发明方法的实现具体包括以下步骤：

步骤1、连接硬件设备，启动并初始化系统，通过语音设备实时收集用户语音信息。

步骤2、语音识别单元将语音信息转换为文本信息；通过大语言模型（如Chat-GPT，可以是其他的）对文本信息进行校正。

步骤3、校正后的文本信息输入至交互单元。交互单元接收文本信息，生成回复性文本或用于实现功能的逻辑函数。回复性文本由语音设备播放输出，逻辑函数不播放。

步骤4、用户通过语音设备，与交互单元继续进行对话。

步骤5、当用户的对话内容为非功能性时，系统继续进行文本对话；当用户的对话内容为实现某个显微镜功能，包括语言引导的图像采集或图像分析，交互单元逐步询问功能的细节，直到反馈已完全理解。交互单元根据上下文对话内容自动生成功能逻辑代码。通过strip()函数和对“```python(.*?)```”字符进行切片，生成的代码片段不出现在对话单元的输出中。代码完成后，对话单元自动告知用户即将实现的详细逻辑功能，并询问是否正确和是否执行，以提高系统的稳定性。

步骤6、若用户表达确认性指令（如“对的，请开始”），显微镜开始运行，通过硬件设备连通显微镜设备，启动对应的硬件逻辑代码和软件模型；若用户表达非确认性指令，系统继续进行对话。

步骤7、运行完成后，对话单元输出运行情况，包括完成的功能、结果、提示是否给出诊疗建议等。

步骤8、用户继续与对话单元对话，循环步骤1—7，直到用户关闭系统。

本方案通过prompt的方式调整大语言模型的对话规范，使系统具备理解和上下文对话能力。克服了现有基于文本匹配的语音控制方法的局限性，其理解能力提升了智能显微镜的控制效率。通过借鉴大语言模型庞大的知识库，可进行任何场景的专业性对话；根据显微镜运行结果，可进行上下文的进一步交互和反馈，如生成结构化报告、给出下一步诊疗建议、输出样本情况。克服了现存的显微镜无法进行长序列上下文交互和反馈的缺点，提升了系统的交互效果。基于大语言模型驱动的智能显微镜方法、系统、设备，通过预设普适性的显微镜基础软硬件库，系统能够根据用户需求自动调用和生成实现逻辑功能的函数。无需预设大量的功能代码，即可实现多样化控制和分析。减少了开发人员大量的工作，克服了功能单一、灵活性和迁移性差的不足。

进一步地，步骤1，所述的连接硬件设备，为智能显微镜设备；所述的初始化，为上述的系统实现方法。

进一步地，步骤2语音识别单元为Chat-GPT的开源Whisper模型。通过Whisper模型，用于接收语音设备的语言信息，进行语音识别和语言校正。该单元是系统的输入端，实时获取用户语言信息，与系统进行对话和交互。所述的语音设备，为可以接收语音信号的麦克风装置。所述的语音识别单元，使用Whisper模型进行语音识别，通过模型API将语音识别和转换为文本信息。具体的，先将语音设备收集的信息转换为音频文件，音频文件可以是mp3、mp4、m4a、wav等格式；调用Whisper模型识别音频文件，通过prompt方式规范生成的文本内容，包括语言形式（如汉语或英语），得到文本语言；调用大语言模型进行文本语言校正。所述的Whisper模型为大语言模型（Chat-GPT）的开源模型。所述的文本语言校正，使用Chat-GPT的prompt方法校正语音识别错误的文字、符号，用于提高系统对话和交互的准确性、稳定性。Prompt方式包括角色设定和任务说明。

进一步地，步骤3，所述的交互单元，为已公开的生成式大语言模型Chat-GPT。通过提供的API输入文本语言，输出回复内容。回复对话包括文本语言、逻辑功能代码、结构报告等。

进一步地，步骤4，每一轮对话时，将上文信息和本次内容共同发送至交互单元，实现长序列上下文对话功能。交互单元每一轮生成的回复性文本或用于实现功能的逻辑函数代码，是结合上下文对话内容理解和生成的。

进一步地，步骤5，所述的非功能性内容，为文本形式的对话；所述的逻辑功能代码，用于实现用户的图像采集或分析任务。包括语言引导的图像采集、定向分析或自动分析。由大语言模型通过上述步骤1的初始化方法，根据用户上下文对话内容，调用prompt给定的基础软硬件库，主动生成的逻辑函数。

进一步地，步骤6，所述的用户指令，通过prompt方式由Chat-GPT计算用户指令的确认程度。确认程度大于阈值时，认为是确认性指令，显微镜开始执行；小于阈值时，认为是非确认性指令。

语言引导的图像采集，一个实施例为：

用户通过语音设备与交互单元连续对话，系统理解采集需求的详细内容。如采集需求为“对3号载玻片，等间隔采集25张清晰的组织图像。使用40X放大物镜，自动曝光”或“请使用20倍物镜，将所有载玻片扫描为数字图像，并拼接为缩略图进行展示”；系统利用上下文信息生成逻辑函数代码；系统描述逻辑函数的具体功能，询问用户是否执行；根据用户语音运行功能函数，显微镜自动巡航、切换物镜和采集；完成采集后报告采集情况、存储的路径，询问是否有其他任务。

定向分析，一个对宫颈细胞样本进行筛查的实施例为：用户将宫颈细胞筛查AI模型集成到显微镜系统；以prompt的方式对该模型进行描述，描述包括输入和输出；开始对话交互，如分析需求为“请对宫颈细胞的样本进行筛查，并告诉我所有样本的筛查结果”；系统生成逻辑函数，描述功能细节，询问用户是否执行；根据用户提示运行功能函数代码，显微镜开始巡航、对焦、调用AI模型；以语言形式报告模型筛查结果；用户对话“对于阳性患者，请给我一些治疗建议”；系统给出参考建议；继续其他对话。

自动分析，一个对肝组织样本进行分割的实施例为：用户与交互单元进行对话，发布需求，如“请帮我对1号和2号载玻片的肝组织样本进行分割，并将分割结果显示在屏幕上”；系统提示“尚未集成定向的肝组织分割模型，我将使用CONCH大模型对指定的样本进行自动分割，并将结果展示给您，可以吗”；用户发布确认性语言；系统生成逻辑函数并执行，显微镜切换物镜、定位载玻片、全局对焦、采集和分割图像、拼接和展示；继续其他对话。

本发明系统设备的实现具体包括以下步骤：显微镜系统，包括语音设备和显微镜设备。语音设备包含麦克风、音响，用于接收和播放交互单元的对话内容。语音设备和计算机系统硬件连接。显微镜设备包含显微镜本体、电动载物平台、主相机、电动物镜、信息采集相机。计算机系统：输入单元、显示单元、处理单元。

本方案通过prompt的方式调整大语言模型的对话规范，使系统具备理解和上下文对话能力。克服了现有基于文本匹配的语音控制方法的局限性，其理解能力提升了智能显微镜的控制效率。通过借鉴大语言模型庞大的知识库，可进行任何场景的专业性对话；根据显微镜运行结果，可进行上下文的进一步交互和反馈，如生成结构化报告、给出下一步诊疗建议、输出样本情况。克服了现存的显微镜无法进行长序列上下文交互和反馈的缺点，提升了系统的交互效果。通过预设普适性的显微镜基础软硬件库，系统能够根据用户需求自动调用和生成实现逻辑功能的函数。无需预设大量的功能代码，即可实现多样化控制和分析。减少了开发人员大量的工作，克服了功能单一、灵活性和迁移性差的不足。使显微镜自动实现表达的功能，降低使用者对显微镜的学习和使用成本，提高效率。本发明也为智能显微镜的进一步开发奠定基础。

具体的，本申请提供了一种大语言模型驱动的显微镜控制方法，如图4所示，所述方法包括：

步骤402、获取第一语音数据，并基于调整后的语音大模型结合上下文进行意图分析，确定与显微镜控制相关的第一指示信息。第一指示信息用于确定待控制的显微镜的硬件以及硬件的控制策略。

步骤404、基于第一指示信息和硬件库，确定对显微镜的控制方案。

步骤406、按照控制方案对显微镜进行控制，并获取图像数据，以对图像数据进行分析。可以通过下发指令的方式对显微镜的硬件进行控制。

本申请可以应用在对显微镜进行控制的场景，本方案可以通过调整后的语音大模型与用户进行交互，获取用户对显微镜进行控制的指示信息，并结合上下文进行理解和交互，进而形成对显微镜的控制方案，以按照控制方案对显微镜的载物平台、相机、物镜等组件进行控制，可以便于对显微镜进行控制；还可以基于调整后的大模型与用户的交互为用户生成对显微镜采集到的图像进行分析的分析方案，可以生成疾病分析、细胞统计等方案，便于完成对图像的识别。具体来说，本申请可以对语音大模型进行微调，可以为语音大模型设定角色并绑定硬件库、软件库。硬件库提供对显微镜的相关硬件进行控制的控制模块，软件库包含对焦分析以及对图像进行分析的相关模型或函数等。用户可以通过语音与调整后的大模型进行交互，以利用语音及上下文来生成对显微镜的控制方案、对图像数据的分析方案等内容，以便完成显微镜的数据采集和数据分析。

本申请还可以依据用户的语音交互来确定对显微镜的采集数据的分析方案，以进一步进行分析。具体的，作为一个可选的实施例，所述方法还包括：获取第二语音数据，并基于调整后的语音大模型结合上下文进行意图分析，确定与图像数据相关的第二指示信息；依据第二指示信息与软件库，确定图像数据的分析方案，以对图像数据进行分析，确定分析结果。其中，第一语音数据和第二语音数据可以是同一语音数据，可以通过上下文之间的关系来确定数据采集和数据分析的方式。第二指示信息用于确定软件库中对应的逻辑函数、或分析模型，以组合为分析方案。

可以通过限定语音大模型的角色、绑定对应的资源和规范交互方式来形成适配于显微镜控制的系统。具体的，作为一个可选的实施例，调整后的语音大模型，依据以下步骤生成：获取设定语音数据，并基于语音大模型进行结合上下文进行交互，得到限定信息，限定信息包括用于定义语音大模型身份的系统角色信息、用于与语音大模型进行绑定以便语音大模型使用的硬件库、软件库，用于规范语音大模型的交互方式、生成控制方案以及生成分析方案的规范信息；基于限定信息对语音大模型进行限定，得到调整后的语音大模型。为大模型绑定硬件库、软件库，限定语音大模型从硬件库和软件库中获取相应的资源，并利用规范信息来限定语音大模型的交互方式和生成方式（如不允许不经确认进行控制、不允许生成自定义函数等）。

可以基于语音交互的方式来对显微镜的硬件进行控制。具体的，作为一个可选的实施例，所述基于第一指示信息和硬件库，确定对显微镜的控制方案，包括：基于第一指示信息中的硬件相关信息和硬件库，确定待控制的目标硬件，所述目标硬件包括显微镜相关的：载物平台、相机、物镜、信息识别组件、照明组件中的至少一个；基于第一指示信息中的控制策略和目标硬件的参数信息，确定目标硬件的控制方案；所述控制策略包括以下策略中的至少一个：载物平台控制策略，用于控制载物平台在X、Y、Z三维空间移动，以进行定位和对焦；相机控制策略，用于设置和调整显微镜的相机组件，包括设置相机组件的分辨率、帧率、曝光、白平衡，并调整拍摄显微镜视野；物镜控制策略，用于切换不同放大倍率的物镜；信息识别组件控制策略，用于控制信息识别组件扫描载玻片的条形码，获取承载对象的身份信息；照明组件控制策略，用于调整光照强度。

可以为语音大模型提供软件函数库，使得语音大模型可以从软件函数库中获取逻辑函数并生成相应的分析方案。具体的，作为一个可选的实施例，所述软件库包括软件函数库，所述依据第二指示信息与软件库，确定图像数据的分析方案，包括：从软件函数库中获取实现第二指示信息对应的逻辑函数，形成分析策略；输出分析策略对应的描述信息给用户，并在获取到用户对分析策略的确认指令后，依据分析策略生成图像数据的分析方案。

本方案还可以进行自动对焦，以获取更清晰的图像。具体的，作为一个可选的实施例，在获取图像数据之前，所述方法还包括：获取对焦要求信息，对焦要求信息依据第一语音数据或第二语音数据确定；按照对焦要求信息，确定显微镜的对焦方式，所述对焦方式包括全局对焦和逐点对焦；按照对焦方式确定对焦信息，以按照对焦信息获取图像数据。具体的，作为一个可选的实施例，当对焦方式为逐点对焦时，所述按照对焦方式确定对焦信息，包括：确定对焦范围，并在对焦范围内按照预设高度差获取多张不同高度的采集图像；对采集图像的目标像素点进行清晰度分析，确定清晰度最高的采集图像对应的目标对焦位置；依据目标对焦位置，缩小对焦范围和预设高度差，以按照更新后的对焦范围和高度差来采集图像以完成下一轮清晰度分析，直至确定最终对焦位置作为对焦信息；所述对采集图像的目标像素点进行清晰度分析，包括：依据目标像素点的第一亮度值和目标像素点的相邻像素点的第二亮度值之间的差异进行清晰度分析。具体的，作为一个可选的实施例，所述当对焦方式为全局对焦时，所述按照对焦方式确定对焦信息，包括：根据载玻片样本面积和物镜放大倍率，计算对焦列表，所述对焦列表用于存储对焦点的位置，每隔N个显微镜视野设定一个对焦点；采取逐点对焦的方式，对对焦列表中的对焦点进行对焦并记录；使用边缘检测算法分割前景和背景，将背景的焦面值校正为与背景相邻的前景的焦面值，并使用插值方法计算所有位置的焦面值并记录，得到载玻片的全局焦面列表，作为对焦信息；所述插值方法为线性插值。

在上述实施例的基础上，本申请实施例还提供一种大语言模型驱动的显微镜控制装置，如图5所示，所述装置包括：

语音交互处理模块502，用于获取第一语音数据，并基于调整后的语音大模型结合上下文进行意图分析，确定与显微镜控制相关的第一指示信息。

控制方案生成模块504，用于基于第一指示信息和硬件库，确定对显微镜的控制方案。

图像数据获取模块506，用于按照控制方案对显微镜进行控制，并获取图像数据，以对图像数据进行分析。

本申请实施例的实施方式与上述方法实施例的实施方式类似，具体实施方式可以参考上述方法实施例的具体实施方式，此处不再赘述。

在上述实施例的基础上，本申请还提供一种电子设备，包括：存储器和至少一个处理器；所述存储器用于存储计算机执行指令；所述至少一个处理器用于执行所述存储器中存储的计算机执行指令，使得所述至少一个处理器执行如上述实施例所述的方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述数据的处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-OnlyMemory，简称ROM）、随机存取存储器（RandomACGessMemory，简称RAM）、磁碟或者光盘等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的定界，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种大语言模型驱动的显微镜控制方法，其特征在于，所述方法包括：

获取第一语音数据，并基于调整后的语音大模型结合上下文进行意图分析，确定与显微镜控制相关的第一指示信息；

基于第一指示信息和硬件库，确定对显微镜的控制方案；

按照控制方案对显微镜进行控制，并获取图像数据，以对图像数据进行分析。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第二语音数据，并基于调整后的语音大模型结合上下文进行意图分析，确定与图像数据相关的第二指示信息；

依据第二指示信息与软件库，确定图像数据的分析方案，以对图像数据进行分析，确定分析结果。

3.根据权利要求2所述的方法，其特征在于，调整后的语音大模型，依据以下步骤生成：

获取设定语音数据，并基于语音大模型进行结合上下文进行交互，得到限定信息，限定信息包括用于定义语音大模型身份的系统角色信息、用于与语音大模型进行绑定以便语音大模型使用的硬件库、软件库、用于规范语音大模型的交互方式、生成控制方案以及生成分析方案的规范信息；

基于限定信息对语音大模型进行限定，得到调整后的语音大模型。

4.根据权利要求1所述的方法，其特征在于，所述基于第一指示信息和硬件库，确定对显微镜的控制方案，包括：

基于第一指示信息中的硬件相关信息和硬件库，确定待控制的目标硬件，所述目标硬件包括显微镜相关的：载物平台、相机、物镜、信息识别组件、照明组件中的至少一个；

基于第一指示信息中的控制策略和目标硬件的参数信息，确定目标硬件的控制方案；

所述控制策略包括以下策略中的至少一个：

载物平台控制策略，用于控制载物平台在X、Y、Z三维空间移动，以进行定位和对焦；

相机控制策略，用于设置和调整显微镜的相机组件，包括设置相机组件的分辨率、帧率、曝光、白平衡，并调整拍摄显微镜视野；

物镜控制策略，用于切换不同放大倍率的物镜；

信息识别组件控制策略，用于控制信息识别组件扫描载玻片的条形码，获取承载对象的身份信息；

照明组件控制策略，用于调整光照强度。

5.根据权利要求2所述的方法，其特征在于，所述软件库包括软件函数库，所述依据第二指示信息与软件库，确定图像数据的分析方案，包括：

从软件函数库中获取实现第二指示信息对应的逻辑函数，形成分析策略；

输出分析策略对应的描述信息给用户，并在获取到用户对分析策略的确认指令后，依据分析策略生成图像数据的分析方案。

6.根据权利要求1所述的方法，其特征在于，在获取图像数据之前，所述方法还包括：

获取对焦要求信息，对焦要求信息依据第一语音数据或第二语音数据确定；

按照对焦要求信息，确定显微镜的对焦方式，所述对焦方式包括全局对焦和逐点对焦；

按照对焦方式确定对焦信息，以按照对焦信息获取图像数据。

7.根据权利要求6所述的方法，其特征在于，当对焦方式为逐点对焦时，所述按照对焦方式确定对焦信息，包括：

确定对焦范围，并在对焦范围内按照预设高度差获取多张不同高度的采集图像；

对采集图像的目标像素点进行清晰度分析，确定清晰度最高的采集图像对应的目标对焦位置；

依据目标对焦位置，缩小对焦范围和预设高度差，以按照更新后的对焦范围和高度差来采集图像以完成下一轮清晰度分析，直至确定最终对焦位置作为对焦信息；

所述对采集图像的目标像素点进行清晰度分析，包括：

依据目标像素点的第一亮度值和目标像素点的相邻像素点的第二亮度值之间的差异进行清晰度分析。

8.根据权利要求7所述的方法，其特征在于，所述当对焦方式为全局对焦时，所述按照对焦方式确定对焦信息，包括：

根据载玻片样本面积和物镜放大倍率，计算对焦列表，所述对焦列表用于存储对焦点的位置，每隔N个显微镜视野设定一个对焦点；

采取逐点对焦的方式，对对焦列表中的对焦点进行对焦并记录；

使用边缘检测算法分割前景和背景，将背景的焦面值校正为与背景相邻的前景的焦面值，并使用插值方法计算所有位置的焦面值并记录，得到载玻片的全局焦面列表，作为对焦信息；所述插值方法为线性插值。

9.一种大语言模型驱动的显微镜控制装置，其特征在于，所述装置包括：

语音交互处理模块，用于获取第一语音数据，并基于调整后的语音大模型结合上下文进行意图分析，确定与显微镜控制相关的第一指示信息；

控制方案生成模块，用于基于第一指示信息和硬件库，确定对显微镜的控制方案；

图像数据获取模块，用于按照控制方案对显微镜进行控制，并获取图像数据，以对图像数据进行分析。

10.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

所述存储器用于存储计算机执行指令；

所述至少一个处理器用于执行所述存储器中存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-8任一项所述的方法。