CN116860957B

CN116860957B - 一种基于大语言模型的企业筛选方法、装置及介质

Info

Publication number: CN116860957B
Application number: CN202310924970.XA
Authority: CN
Inventors: 陈开冉; 黎展; 黄东阳
Original assignee: Guangzhou Tungee Technology Co ltd
Current assignee: Guangzhou Tungee Technology Co ltd
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2024-04-16
Anticipated expiration: 2043-07-25
Also published as: CN116860957A

Abstract

本发明公开了一种基于大语言模型的企业筛选方法、装置及介质，一种基于大语言模型的企业筛选方法，所述方法包括：定义数据库以及prompt模板库，所述数据库中包括数种维度信息，所述维度信息为企业具有的属性，所述prompt模板库包括数种与所述维度信息对应的prompt模板；获取用户的筛选需求文本，通过所述prompt模板将所述筛选需求文本输入大语言模型中，通过所述大语言模型判断所述筛选需求文本命中的维度信息；将所述命中的维度信息搭建为筛选条件组；通过所述筛选条件组在企业知识图谱中进行检索，以获取符合要求的企业名单。本发明能够能够理解用户自然语言并自动构建符合企业信息查询工具格式要求的筛选组，便于用户快速进行企业筛选工作。

Description

一种基于大语言模型的企业筛选方法、装置及介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于大语言模型的企业筛选方法、装置及介质。

背景技术

随着信息化发展，tob端企业在寻找目标客户时，通常使用各种企业信息查询工具，根据实际需求建立筛选组以查找出所需的企业名单。

目前该类企业信息查询工具在建立筛选组时，通常需要根据实际需求选择筛选的企业属性，并选择企业属性的内容，以构建筛选组，查询端用户需要花费较多时间在构建筛选组上，工作开展不便且降低了工作效率。

因此需要一种能够理解用户自然语言并自动构建符合企业信息查询工具格式要求的筛选组构建方法。

发明内容

为了解决上述技术问题，本发明第一方面公开了一种基于大语言模型的企业筛选方法，所述方法包括：

定义数据库以及prompt模板库，所述数据库中包括数种维度信息，所述维度信息为企业具有的属性，所述prompt模板库包括数种与所述维度信息对应的prompt模板；

获取用户的筛选需求文本；

通过所述prompt模板将所述筛选需求文本多次输入大语言模型中，以使所述大语言模型判断所述筛选需求文本命中的维度信息；

将所述命中的维度信息搭建为筛选条件组，通过所述筛选条件组进行检索，以获取符合要求的企业名单。

进一步的实施例，所述维度信息包括属性名称、属性关系、属性值及值格式；

进一步的实施例，所述prompt模板包括筛选需求文本、维度信息

及用于引导所述大语言模型理解所述维度信息的引导信息

及用于引导所述大语言模型执行任务步骤的任务提示信息

及用于引导所述大语言模型生成预设输出格式的规范输出信息。

进一步的实施例，所述维度信息的分类包括信息抽取类、状态判断类、数值区间类、时间区间类、枚举类、特殊类。

进一步的实施例，所述将所述命中的维度信息搭建为筛选条件组的步骤中，还包括：

调用命中的维度信息搭建预览条件组；

将所述预览条件组应用为筛选条件组。

进一步的实施例，所述通过所述prompt模板将所述筛选需求文本多次输入大语言模型中，以使所述大语言模型判断所述筛选需求文本命中的维度信息的步骤中，还包括：

将所述筛选需求文本加入不同的所述prompt模板中；

将包括了所述筛选需求文本的prompt模板加入所述大语言模型，所述大语言模型拆解所述筛选需求文本；

通过大语言模型判断所述筛选需求文本中是否包含有与所述prompt模板对应的维度信息；如包含则所述大语言模型根据所述输出格式输出所述命中的维度信息，否则不输出。

进一步的实施例，所述通过筛选条件组进行检索的步骤中，还包括：

将筛选条件组与企业知识图谱相匹配，以获取符合要求的企业名单。

本发明第二方面公开了一种基于大语言模型的企业筛选装置，所述装置包括：

信息库模块，其用于定义数据库以及prompt模板库，所述数据库中包括数种维度信息，所述维度信息为企业具有的属性，所述prompt模板库包括数种与所述维度信息对应的prompt模板；

文本获取模块，其用于获取用户的筛选需求文本；

大模型判断模块，其用于通过所述prompt模板将所述筛选需求文本输入大语言模型中，通过所述大语言模型判断所述筛选需求文本命中的维度信息；

搭建模块，其用于将所述命中的维度信息搭建为筛选条件组，通过所述筛选条件组进行检索，以获取符合要求的企业名单。

进一步的实施方式，所述数据库中的所述维度信息包括属性名称、属性关系、属性值及值格式；所述维度信息的分类包括信息抽取类、状态判断类、数值区间类、时间区间类、枚举类、特殊类。

进一步的实施方式，所述prompt模板库中所述prompt模板包括筛选需求文本、维度信息

及用于引导所述大语言模型理解所述维度信息的引导信息

及用于引导所述大语言模型执行任务步骤的任务提示信息

进一步的实施方式，所述大模型判断模块将所述筛选需求文本加入不同的所述prompt模板中；

本发明第三方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的基于大语言模型的企业筛选方法中的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，首先构建具有企业属性名称以及描述的数据库，充分利用了实际业务经验作为先验知识以便后续指导大语言模型，根据维度信息构建prompt模板库能够实现大语言模型对维度信息的理解，使得大语言模型能够输出符合需求的维度信息用以构建筛选条件组；

本发明首先通过获取用户的筛选需求文本，通过prompt模板对筛选需求文本进行拆解，判断其中是否有命中的维度信息，将命中的维度信息按照预设置的格式输出并搭建为筛选条件组，实现了通过用户的自然描述话语精准搭建企业画像的效果，避免用户在筛选时需要执行繁琐的搭建筛选条件组的步骤，在提高工作效率的同时，通过大语言模型自动获取筛选需求文本中命中的维度信息并进行优化，实现了帮助用户快速匹配企业画像的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于大语言模型的企业筛选方法的流程示意图；

图2是本发明实施例公开的一种基于大语言模型的企业筛选装置的结构示意图；

图3是本发明实施例公开的一种计算机存储介质的结构示意图。

具体实施例

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种基于大语言模型的企业筛选方法、装置及介质，本发明首先通过获取用户的筛选需求文本，通过prompt模板对筛选需求文本进行拆解，判断其中是否有命中的维度信息，将命中的维度信息按照预设置的格式输出并搭建为筛选条件组，实现了通过用户的自然描述话语精准搭建企业画像的效果，避免用户在筛选时需要执行繁琐的搭建筛选条件组的步骤，在提高工作效率的同时，通过大语言模型自动获取筛选需求文本中命中的维度信息并进行优化。以下分别进行详细说明。

本实施例中的大语言模型是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义，可以如现有的大语言模型如ChatGPT、文心一言大语言模型的一种。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于大语言模型的企业筛选方法的流程示意图。如图1所示，该基于大语言模型的企业筛选方法可以包括以下操作：

101定义数据库以及prompt模板库，所述数据库中包括数种维度信息，所述维度信息为企业具有的属性，所述prompt模板库包括数种与所述维度信息对应的prompt模板；

可以理解的，维度信息即为企业具有的属性，维度信息的定义可以由人工先验知识进行归纳和定义，以使维度信息的定义更加准确，企业属性维度更加全面。

102获取用户的筛选需求文本；

103通过所述prompt模板将所述筛选需求文本多次输入大语言模型中，以使所述大语言模型判断所述筛选需求文本命中的维度信息；

可以理解的，所述通过所述prompt模板将所述筛选需求文本多次输入大语言模型中，以使所述大语言模型判断所述筛选需求文本命中的维度信息的步骤中，还包括：

将所述筛选需求文本加入包含有不同维度信息的所述prompt模板中；

通过大语言模型判断所述筛选需求文本中是否包含有与所述prompt模板对应的维度信息；如包含则所述大语言模型根据所述输出格式输出所述命中的维度信息，否则不输出。具体的，通过prompt模板将筛选需求文本输入大语言模型以获取维度信息时，大语言模型能够自行判断筛选需求文本中符合维度信息定义的关键词或语句从而获得维度信息，在筛选出命中的维度信息时更加准确灵活，用户在输入筛选需求文本时只需表达需求，提高了用户体验。

104将所述命中的维度信息搭建为筛选条件组，通过所述筛选条件组进行检索，以获取符合要求的企业名单。具体地，所述将所述命中的维度信息搭建为筛选条件组的步骤中，还包括：调用命中的维度信息搭建预览条件组；将所述预览条件组应用为筛选条件组。通过使用prompt模板将文本输入大语言模型进行判断，企业能够自行修改命中的维度信息的输出格式，以满足不同的企业信息库或企业信息平台的筛选组格式需求，从而在不同的平台实现快速搭建筛选组的功能，便于该方法应用于不同的企业信息检索工具。

进一步的实施例，所述维度信息包括属性名称、属性关系、属性值及值格式。其中如“主营业务，主营业务是指企业为完成其经营目标而从事的日常活动中的主要活动，可根据企业营业执照上规定的主要业务范围确定。输出格式为省份/城市。

进一步的实施例，所述prompt模板包括筛选需求文本、维度信息及用于引导所述大语言模型理解所述维度信息的引导信息及用于引导所述大语言模型执行任务步骤的任务提示信息，任务包括关系判断、信息抽取等任务，还包括用于引导所述大语言模型生成预设输出格式的规范输出信息，使大语言模型生成可用的，符合规范，易处理的输出格式。

所述维度信息的分类包括信息抽取类、状态判断类、数值区间类、时间区间类、枚举类、特殊类。可以理解的是，信息抽取类维度包括如主营业务、注册地址、公司地址、成立时间等需要从筛选需求文本中进行抽取的信息，状态判断类维度包括关键人是否存在、企业经营状态是否异常等直接进行判断的信息。特殊类是指某些特殊的维度，如注册地址，需要在prompt中设置特殊的处理地址信息的任务。不同的维度信息的输出格式根据维度信息相匹配，如注册地址和公司地址的引导有区别，前者着重省市区，后者着重街道、社区；不同维度的任务拆解不同，如判断类维度，只需判断关系，而抽取类维度还要额外进行抽取信息，如主营业务，需要抽取用户的目标客户群体的业务；不同维度信息的对应的prompt模板的输出标准不一样，如时间类维度输出时间区间，判断类维度输出布尔值。

所述通过筛选条件组进行检索的步骤中，还包括：

本发明实施例至少具有以下有益效果：

(1)结合业务使用经验构建多种企业的维度信息，实现对属性名称、属性描述的精准刻画，为大语言模型理解提供更加精确地支持。

(2)构建了能够使大语言模型理解高级筛选工作流的prompt模板。

(3)基于大语言模型的筛选条件组辅助用户精准搭建客户企业画像的产品形态。

为便于理解的，此处列举一本实施方式中一种基于大语言模型的企业筛选方法的流程：

S1用户输入筛选需求文本“我想找上海市，成立2年以上，有经营异常的企业，要有关键人”

S2通过prompt模板将筛选需求文本输入大语言模型，获得“成立时间2021-06-19～2023-06-19”“有关键人”“有经营异常”“经营异常的原因”等维度信息，将上述维度信息拼接为筛选条件组，获得精确的企业画像。

S3使用筛选条件组在企业知识图谱中进行筛选查找，最终输出符合筛选要求的企业名单。

可见，本发明首先通过获取用户的筛选需求文本，通过prompt模板对筛选需求文本进行拆解，判断其中是否有命中的维度信息，将命中的维度信息按照预设置的格式输出并搭建为筛选条件组，实现了通过用户的自然描述话语精准搭建企业画像的效果，避免用户在筛选时需要执行繁琐的搭建筛选条件组的步骤，在提高工作效率的同时，通过大语言模型自动获取筛选需求文本中命中的维度信息并进行优化。

实施例二

请参阅图2，图2是本发明实施例公开的一种基于大语言模型的企业筛选装置的结构示意图。如图2所示，该基于大语言模型的企业筛选装置可以包括：

信息库模块201，其用于定义数据库以及prompt模板库，所述数据库中包括数种维度信息，所述维度信息为企业具有的属性，所述prompt模板库包括数种与所述维度信息对应的prompt模板；所述维度信息的分类包括信息抽取类、状态判断类、数值区间类、时间区间类、枚举类、特殊类。

进一步的实施方式，所述数据库中的所述维度信息包括属性名称、属性关系、属性值及值格式；所述维度信息的分类包括信息抽取类、状态判断类、数值区间类、时间区间类、枚举类、特殊类。可以理解的是，信息抽取类维度包括如主营业务、注册地址、公司地址、成立时间等需要从筛选需求文本中进行抽取的信息，状态判断类维度包括关键人是否存在、企业经营状态是否异常等直接进行判断的信息。不同的维度信息的输出格式根据维度信息相匹配，如注册地址和公司地址的引导有区别，前者着重省市区，后者着重街道、社区；不同维度的任务拆解不同，如判断类维度，只需判断关系，而抽取类维度还要额外进行抽取信息，如主营业务，需要抽取用户的目标客户群体的业务；不同维度信息的对应的prompt模板的输出标准不一样，如时间类维度输出时间区间，判断类维度输出布尔值。

文本获取模块202，其用于获取用户的筛选需求文本；其中一实施例中，文本获取模块202可以通过语音输入、文本输入等方式获取筛选需求文本。

大模型判断模块203，其用于通过所述prompt模板将所述筛选需求文本输入大语言模型中，通过所述大语言模型判断所述筛选需求文本命中的维度信息。

具体地，所述大模型判断模块将所述筛选需求文本加入不同的所述prompt模板中；将包括了所述筛选需求文本的prompt模板加入所述大语言模型，所述大语言模型拆解所述筛选需求文本；通过大语言模型判断所述筛选需求文本中是否包含有与所述prompt模板对应的维度信息；如包含则所述大语言模型根据所述输出格式输出所述命中的维度信息，否则不输出。

搭建模块204，其用于将所述命中的维度信息搭建为筛选条件组，通过所述筛选条件组进行检索，以获取符合要求的企业名单。

其中一实施方式中，所述prompt模板库中的所述prompt模板包括筛选需求文本、维度信息及用于引导所述大语言模型理解所述维度信息的引导信息及用于引导所述大语言模型执行任务步骤的任务提示信息，任务包括关系判断、信息抽取等任务，还包括用于引导所述大语言模型生成预设输出格式的规范输出信息，使大语言模型生成可用的，符合规范，易处理的输出格式。

其中一实施方式中，所述大模型判断模块将所述筛选需求文本加入不同的所述prompt模板中；

对于上述基于大语言模型的企业筛选装置的具体描述可以参照上述基于大语言模型的企业筛选方法的具体描述，在此不再一一赘述。

实施例三

请参阅图3，图3是本发明实施例公开的一种计算机存储介质的结构示意图。如图3所示，本发明实施例公开了一种计算机存储介质301，计算机存储介质301存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一公开的基于大语言模型的企业筛选方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-OnlyMemory，ROM)、随机存储器(RandomAccessMemory，RAM)、可编程只读存储器(ProgrammableRead-onlyMemory，PROM)、可擦除可编程只读存储器(ErasableProgrammableReadOnlyMemory，EPROM)、一次可编程只读存储器(One-timeProgrammableRead-OnlyMemory，OTPROM)、电子抹除式可复写只读存储器(Electrically-ErasableProgrammableRead-OnlyMemory，EEPROM)、只读光盘(CompactDiscRead-OnlyMemory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种基于大语言模型的企业筛选方法、装置、终端以及存储介质所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种基于大语言模型的企业筛选方法，其特征在于，所述方法包括：

定义数据库以及prompt模板库，所述数据库中包括数种维度信息，所述维度信息为企业具有的属性，所述prompt模板库包括数种与所述维度信息对应的prompt模板；所述维度信息包括属性名称、属性关系、属性值及值格式；

获取用户的筛选需求文本；

通过所述prompt模板将所述筛选需求文本多次输入大语言模型中，以使所述大语言模型判断所述筛选需求文本命中的维度信息；包括以下步骤：将所述筛选需求文本加入不同的所述prompt模板中；将包括了所述筛选需求文本的prompt模板加入所述大语言模型，所述大语言模型拆解所述筛选需求文本；通过大语言模型判断所述筛选需求文本中是否包含有与所述prompt模板对应的维度信息；如包含则所述大语言模型根据输出格式输出所述命中的维度信息，否则不输出；

将所述命中的维度信息搭建为筛选条件组，调用命中的维度信息搭建预览条件组；将所述预览条件组应用为筛选条件组；通过所述筛选条件组进行检索，将筛选条件组与企业知识图谱相匹配，以获取符合要求的企业名单。

2.根据权利要求1所述的基于大语言模型的企业筛选方法，其特征在于，

所述prompt模板包括筛选需求文本、维度信息

及用于引导所述大语言模型理解所述维度信息的引导信息

及用于引导所述大语言模型执行任务步骤的任务提示信息

3.根据权利要求1所述的基于大语言模型的企业筛选方法，其特征在于，

所述维度信息的分类包括信息抽取类、状态判断类、数值区间类、时间区间类、枚举类、特殊类。

4.一种基于大语言模型的企业筛选装置，其特征在于，所述装置包括：

信息库模块，其用于定义数据库以及prompt模板库，所述数据库中包括数种维度信息，所述维度信息为企业具有的属性，所述prompt模板库包括数种与所述维度信息对应的prompt模板；所述维度信息包括属性名称、属性关系、属性值及值格式；

文本获取模块，其用于获取用户的筛选需求文本；

大模型判断模块，其用于通过所述prompt模板将所述筛选需求文本输入大语言模型中，通过所述大语言模型判断所述筛选需求文本命中的维度信息；包括以下步骤：将所述筛选需求文本加入不同的所述prompt模板中；将包括了所述筛选需求文本的prompt模板加入所述大语言模型，所述大语言模型拆解所述筛选需求文本；通过大语言模型判断所述筛选需求文本中是否包含有与所述prompt模板对应的维度信息；如包含则所述大语言模型根据输出格式输出所述命中的维度信息，否则不输出；

搭建模块，其用于将所述命中的维度信息搭建为筛选条件组，调用命中的维度信息搭建预览条件组；将所述预览条件组应用为筛选条件组；通过所述筛选条件组进行检索，将筛选条件组与企业知识图谱相匹配，以获取符合要求的企业名单。

5.根据权利要求4所述的基于大语言模型的企业筛选装置，其特征在于，所述维度信息的分类包括信息抽取类、状态判断类、数值区间类、时间区间类、枚举类、特殊类。

6.根据权利要求4所述的基于大语言模型的企业筛选装置，其特征在于，

所述prompt模板库中所述prompt模板包括筛选需求文本、维度信息

及用于引导所述大语言模型理解所述维度信息的引导信息

及用于引导所述大语言模型执行任务步骤的任务提示信息

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3任一项所述的基于大语言模型的企业筛选方法。