CN119322884A - 政策资源推荐方法、装置、计算机设备及存储介质 - Google Patents

政策资源推荐方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN119322884A
CN119322884A CN202411335191.7A CN202411335191A CN119322884A CN 119322884 A CN119322884 A CN 119322884A CN 202411335191 A CN202411335191 A CN 202411335191A CN 119322884 A CN119322884 A CN 119322884A
Authority
CN
China
Prior art keywords
policy
data
enterprise
vector
data vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202411335191.7A
Other languages
English (en)
Inventor
潘成挺
钟红义
张文会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Breeze Enterprise Technology Co ltd
Original Assignee
Hangzhou Breeze Enterprise Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Breeze Enterprise Technology Co ltd filed Critical Hangzhou Breeze Enterprise Technology Co ltd
Priority to CN202411335191.7A priority Critical patent/CN119322884A/zh
Publication of CN119322884A publication Critical patent/CN119322884A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)

Abstract

本发明实施例公开了政策资源推荐方法、装置、计算机设备及存储介质。方法包括:获取企业数据以及政策数据,并对政策数据进行预处理;进行文本向量化;将企业数据向量以及政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件;计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合;对候选政策集合进行加权处理,以得到处理结果;从处理结果中筛选出目标政策资源;发送目标政策资源至企业终端。通过实施本发明实施例的方法可实现根据企业自身的画像推荐精准的政策资源,有助于企业从众多政策中筛选出最符合其实际需求的政策,从而提升政策利用的效率和效果。

Description

政策资源推荐方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机,更具体地说是指政策资源推荐方法、装置、计算机设备及存储介质。
背景技术
随着信息技术的快速发展,大量的文本数据在互联网上被广泛传播。对于企业来说,需要从海量的文本数据中快速、准确地找到与自己相关的政策信息,然而,目前的政策资源推荐通常依赖于关键词匹配或固定模式。这些传统方法基于预设的关键词或模板,将企业的需求与政策数据库中的条目进行比对。虽然这种方法简单且易于实现,但存在明显的局限性。由于它们只关注关键词的直接匹配,无法深入理解企业的实际需求或政策的复杂内容,往往导致推荐结果不够精准和个性化。此外,这些方法不能灵活适应企业需求的变化,也难以捕捉政策与企业特定情境之间的微妙关系。因此,企业常常无法获得最适合自己的政策建议,从而影响了政策资源的有效利用。
因此,有必要设计一种新的方法,实现根据企业自身的画像推荐精准的政策资源,有助于企业从众多政策中筛选出最符合其实际需求的政策,从而提升政策利用的效率和效果。
发明内容
本发明的目的在于克服现有技术的缺陷,提供政策资源推荐方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:政策资源推荐方法,包括:
获取企业数据以及政策数据,并对政策数据进行预处理,以得到初始数据;
对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量;
将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件;
计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合;
对所述候选政策集合进行加权处理,以得到处理结果;
从所述处理结果中筛选出目标政策资源;
发送所述目标政策资源至企业终端。
其进一步技术方案为:所述获取企业数据以及政策数据,并进行预处理,以得到初始数据,包括:
获取企业数据和政策收据;
对所述政策数据进行文本结构化,以得到预处理结果;
将所述企业数据和预处理结果组合形成初始数据。
其进一步技术方案为:所述对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量,包括:
从所述初始数据的企业数据中识别出关键特征,并转化为向量形式,以得到第一向量;
将所述政策数据转化为向量形式,以得到第二向量;
对所述第一向量以及所述第二向量进行归一化处理;
根据地区为处理后的第一向量以及处理后的第二向量添加固定值的偏移量,以得到企业数据向量以及政策数据向量。
其进一步技术方案为:所述将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件,包括:
将所述企业数据向量以及所述政策数据向量写入FAISS索引库,并使用FAISS中的聚类算法对所述企业数据向量以及所述政策数据向量进行训练,划分为若干个类,并保存到一个文件中,以得到企业数据向量文件以及政策数据向量文件。
其进一步技术方案为:所述计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合,包括:
使用欧式距离计算企业数据向量文件以及政策数据向量文件的相似度,并筛选相似度符合要求的政策数据向量文件,以确定候选政策集合。
其进一步技术方案为:所述对所述候选政策集合进行加权处理,以得到处理结果,包括:
对所述候选政策集合进行同行业加权处理,以得到处理结果。
其进一步技术方案为:所述对所述候选政策集合进行同行业加权处理,以得到处理结果,包括:
对企业数据进行最细粒度的行业匹配,以得到匹配结果;
根据匹配结果确定加权规则;
根据所述加权规则对所述候选政策集合进行处理,以得到处理结果。
本发明还提供了政策资源推荐方法,包括:
获取单元,用于获取企业数据以及政策数据,并对政策数据进行预处理,以得到初始数据;
向量化单元,用于对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量;
聚类单元,用于将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件;
相似度计算单元,用于计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合;
加权处理单元,用于对所述候选政策集合进行加权处理,以得到处理结果;
筛选单元,用于从所述处理结果中筛选出目标政策资源;
发送单元,用于发送所述目标政策资源至企业终端。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过获取和预处理企业及政策数据,并将其向量化,利用FAISS索引库进行相似度计算和分类,接着,对候选政策集合进行加权处理,筛选出最符合企业需求的政策资源,并将其发送至企业终端。此流程旨在精确推荐政策,提高政策利用效率,实现根据企业自身的画像推荐精准的政策资源,有助于企业从众多政策中筛选出最符合其实际需求的政策,从而提升政策利用的效率和效果。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的政策资源推荐方法的应用场景示意图;
图2为本发明实施例提供的政策资源推荐方法的流程示意图;
图3为本发明实施例提供的政策资源推荐方法的子流程示意图;
图4为本发明实施例提供的政策资源推荐方法的子流程示意图;
图5为本发明实施例提供的政策资源推荐方法的子流程示意图;
图6为本发明实施例提供的企业数据向量以及政策数据向量的形成示意图;
图7为本发明实施例提供的政策资源推荐装置的示意性框图;
图8为本发明实施例提供的政策资源推荐装置的获取单元的示意性框图;
图9为本发明实施例提供的政策资源推荐装置的向量化单元的示意性框图;
图10为本发明实施例提供的政策资源推荐装置的加权处理单元的示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的政策资源推荐方法的应用场景示意图。图2为本发明实施例提供的政策资源推荐方法的示意性流程图。该政策资源推荐方法应用于服务器中。该服务器与终端进行数据交互,本实施例的方法专注于文本数据推荐领域,主要目标是为企业提供与其相关的政策资源推荐,以帮助企业更好地利用适合的政策资源。服务器基于企业画像进行政策资源推荐。企业画像是对企业进行全面深入描述的方式,涵盖了企业的基本信息、行业归属、经营范围等方面。利用企业画像进行推荐,可以更好地理解企业的具体需求,从而提供更加精准的政策推荐。
图2是本发明实施例提供的政策资源推荐方法的流程示意图。如图2所示,该方法包括以下步骤S110至S170。
S110、获取企业数据以及政策数据,并对政策数据进行预处理,以得到初始数据。
在本实施例中,初始数据是指企业数据以及预处理后的政策数据。
在一实施例中,请参阅图3,上述的步骤S110可包括步骤S111~S113。
S111、获取企业数据和政策收据。
在本实施例中,将从多种公开渠道收集企业的基本信息。具体操作如下:
数据来源:
企业官网:通常包含企业的基本信息、经营范围、业务活动等。
政府数据库:如工商注册信息系统,提供企业的法律登记信息。
行业协会:行业协会网站可能提供会员企业的详细信息。
其他渠道:包括新闻报道、企业信用信息网站等。
收集内容:
企业名称:作为企业的唯一标识,便于区分不同企业。
企业注册区域:企业所在的地理位置,有助于推荐与该地区相关的政策。
所属行业:企业所处的行业领域,用于推荐与其业务相关的政策。
经营范围:企业的具体业务活动,用于提供更精确的政策推荐。
销售额:反映企业的经济规模,帮助推荐适合其规模的政策。
数据处理:
清洗:去除重复记录和错误信息。
去重:确保每条信息唯一。
格式化:将数据转化为统一的格式,便于后续处理和分析。
最终形成企业数据。
对于政策数据而言,将从各种渠道收集最新的政策文本数据,具体包括:
数据来源:
政府官方网站:如全国各级人民政府、财政局、乡村振兴局、农业农村局等。
行业协会网站:提供与行业相关的政策信息。
新闻报道:关注最新政策动态。
其他渠道:如政务服务网、国家税务总局等。
收集内容:
政策标题:政策文件的名称。
政策文号:政策的正式编号。
政策正文:政策的具体内容。
部门:发布政策的部门。
扶持政策:政策的支持措施和优惠内容。
更新策略:设置自动更新机制,确保政策数据的时效性。
S112、对所述政策数据进行文本结构化,以得到预处理结果。
在本实施例中,预处理结果是指对政策数据进行文本结构化后形成的结果,
具体地,应用先进的大模型技术(如ChatGPT、Gemini、Baichuan、Qwen、ChatGLM等)对政策文本进行分析和提取,具体操作包括:
提取结构化信息:
政策文件名:政策文件的名称。
政策项目名:总结政策的主要内容或目标。
政策类型:如财政补贴、税收优惠等,分类政策的性质。
享受内容:明确企业可以从政策中获得的具体利益。
享受条件:列出企业享受政策的基本条件。
支持内容:描述政策提供的具体支持措施。
所属地区:政策适用的地理区域。
所属行业:政策适用的行业分类,可以参考国民经济行业分类或全球行业分类(GICS)等。
在本实施例中,采用prompt模板中添加精选的示例样本,采用Few Shot Learning的方法,使得信息化提取的效果和性能显著提升。
prompt模板如下:您的目标是从用户输入中提取与下面描述的表单匹配的结构化信息。提取信息时,请确保它与类型信息完全匹配。不要添加任何未出现在下面显示的架构中的属性。
TypeScript:
taxpolicyproject:Array<{//拆分成不同扶持或补贴项目,提炼项目信息,包括标题、扶持对象、扶持条件、优惠内容、扶持最高金额、经营时间、产业、主体分类。
project_name:string//扶持或补贴项目标题;
enjoy:string//扶持或补贴对象;
enjoy_conditions:string//扶持或补贴的满足的条件;
preferential:string//扶持或补贴的具体优惠内容;
start_end_time:string//开始生效和有效截止日期,以下面的格式回答,开始生效日期:2022-01-01;有效截止日期:2023-01-01;
money:string//扶持或补贴的最高金额,单位万元;
department:string//扶持或补贴项目的发布部门可能出现在正文文末,中文回答标准发布部门全称和简称,以下面的格式回答,发布部门全称:浙江省经济和信息化厅;发布部门简称:省经信厅;
enjoy_operating_time:string//经营时间,扶持对象需要满足的经营时间区间,时间区间包括:经营时间1年以内(含)、经营时间1-3年(含)、经营时间3-5年(含)、经营时间5-10年(含)、经营时间10-15年(含)、经营时间15年以上;
project_industry:string//属于下列哪个产业标签:金融业农业医疗健康生物医药医疗器械物联网文化创意集成电路高端装备节能环保建筑业旅游业新能源汽车新能源贸易电子商务采矿业人工智能5G/移动通信;
enjoy_cate:string//主体分类,扶持对象属于以下哪种机构类型:科研院所、院校、金融机构、文化机构、图书馆、企业;}>
请以JSON格式输出提取的信息。除了提取的信息外,不要输出任何内容。不要添加任何澄清信息。不要添加任何不在架构中的字段。如果文本包含未出现在架构中的属性,请忽略它们。所有输出都必须是JSON格式,并遵循上面指定的模式。将JSON封装在<json>标记中。
通过以上步骤,可以构建一个综合的政策推荐系统,能够根据企业的具体特征和需求,提供精准、实时的政策信息,从而帮助企业更好地利用政策资源。
S113、将所述企业数据和预处理结果组合形成初始数据。
S120、对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量。
在本实施例中,企业数据向量是指企业数据经过文本向量化形成的向量;政策数据向量是指预处理结果经过文本向量化形成的向量。
在一实施例中,请参阅图4,上述的步骤S120可包括步骤S121~S124。
S121、从所述初始数据的企业数据中识别出关键特征,并转化为向量形式,以得到第一向量。
在本实施例中,第一向量是指表征企业数据的关键特征的向量。
具体地,对企业数据使用TF-IDF、Word2Vec、Doc2Vec、BERT及变得等自然语言处理和机器学习技术,结合BGE、M3E、Text2Vec等向量模型,识别企业的关键特征,并将这些特征转化为向量形式,以便于后续的匹配和计算。
TF-IDF:用于衡量词汇在企业文档中的重要性。
Word2Vec/Doc2Vec:将企业描述转换为词向量或文档向量,捕捉词汇之间的语义关系。
BERT及变体:通过预训练模型获取上下文相关的企业特征表示。
BGE,M3E,Text2Vec:现代的向量化模型,通过处理复杂的语言结构获取更丰富的企业特征向量。
不同技术能捕捉到企业文档中的细微语义,提供更加准确的特征表示;向量化将企业信息转化为机器可处理的形式,便于后续分析和匹配。
S122、将所述政策数据转化为向量形式,以得到第二向量。
在本实施例中,第二向量是指政策数据转换成向量后形成的结果。
具体地,使用与企业数据向量化相同的方法(如TF-IDF、Word2Vec、BERT等)对政策文本进行处理,将政策信息转化为向量形式。
采用相同的向量化技术确保政策向量与企业向量在同一空间中,使得后续匹配更加准确;政策向量的标准化处理便于计算和比较与企业向量的相似性。
S123、对所述第一向量以及所述第二向量进行归一化处理。
在本实施例中,将第一向量以及所述第二向量各自除以其模(L2范数),即其中,u为归一化后的结果;v是指第一向量或第二向量。
归一化后,各向量的尺度一致,便于进行相似度计算;避免因向量长度差异影响相似度计算结果。
S124、根据地区为处理后的第一向量以及处理后的第二向量添加固定值的偏移量,以得到企业数据向量以及政策数据向量。
在本实施例中,为同地区的处理后的第一向量以及处理后的第二向量添加固定的槽位值(如beta=10)来调整向量位置。如图6所示,具体地,f(V政策,地区=f(V企业,地区=A)=[x1,x2...(xi+betaA)..xn]A)=[x1,x2...(xi+betaA)..xn];;在向量库中带约束地召回最近邻,对每个向量找到距离度量和坐标变换的方法,使得对目标行业的所有向量的距离远小于其他行业的距离,这种向量的召回方式对比直接的行业之间的协同过滤,效果大大提升。通过偏移处理,可以突出地区因素对匹配的影响,提高区域相关性;优化向量匹配效果,使得同地区的企业和政策更加准确地匹配。
S130、将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件。
在本实施例中,企业数据向量文件以及政策数据向量文件是指经过聚类后的企业数据向量和政策数据向量。
具体地,将所述企业数据向量以及所述政策数据向量写入FAISS索引库,并使用FAISS中的聚类算法对所述企业数据向量以及所述政策数据向量进行训练,划分为若干个类,并保存到一个文件中,以得到企业数据向量文件以及政策数据向量文件。
将企业数据向量和政策数据向量分别写入FAISS索引库。这涉及创建两个独立的索引(一个用于企业向量,另一个用于政策向量),并将这些向量添加到各自的索引中。
利用FAISS的高效存储和检索能力,确保向量数据能够快速访问和处理。FAISS支持多种索引类型,如IVF(倒排文件)和PQ(乘积量化),可根据具体需求选择。
应用FAISS的聚类算法(如K-means)对企业数据向量和政策数据向量进行训练,将这些向量划分为若干个类。聚类算法会自动将相似的向量分组到同一类中。聚类将相似的向量集中在一起,简化后续的相似度计算和检索。对于大规模数据集,聚类可以显著提高处理效率和准确性。
将训练好的FAISS索引和聚类结果保存到文件中。这通常包括索引结构、聚类模型及其参数等。保存索引和模型可以在后续查询中重用,无需重新训练,从而节省时间和计算资源。
通过这一过程,企业数据向量和政策数据向量可以高效地组织、检索和分析,使得匹配和推荐系统更加精准和高效。
S140、计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合。
在本实施例中,V1=[x1,x2......xn];V2=[y1,y2......yn];内积:V1·V2=∑xi*yi=||V1||*||V2||*cos<V1,V2>;V1和V2:这两个表示向量,可以在多维空间中。
(xi)和(yi):V1和V2向量中的对应分量。
余弦距离:1-cos<V1,V2>;
欧式距离:
在本实施例中,候选政策集合是指企业数据向量文件以及政策数据向量文件的相似度符合要求的政策数据向量文件。
具体地,使用欧式距离计算企业数据向量文件以及政策数据向量文件的相似度,并筛选相似度符合要求的政策数据向量文件,以确定候选政策集合。
在本实施例中,余弦距离是计算两个向量的夹角余弦值来衡量它们的相似度。欧式距离是计算向量之间的欧几里得距离,在归一化的情况下(即将向量长度归一化为1),余弦距离和欧式距离可以相互转化。具体来说,当向量已经被归一化为单位向量时,余弦距离的计算等价于欧式距离的计算。
将企业和政策数据的向量进行归一化处理,将每个向量的长度调整为1。归一化后的向量可以通过简单的向量除法进行;在FAISS中使用欧式距离作为相似度计算方法,这样可以利用FAISS提供的高效的索引和搜索功能。由于归一化后的向量的欧式距离与余弦距离等价,FAISS可以在不直接支持余弦距离的情况下有效地进行相似度计算。
在FAISS索引库中进行搜索,获取与给定企业向量最接近的前N(如N=100)政策向量。FAISS会返回与企业向量最相似的N个政策向量的索引和距离值;通过使用FAISS的索引和搜索能力,可以高效地检索最相似的政策向量,从而实现快速、准确的匹配和推荐。
使用FAISS的欧式距离计算可以借助其优化的索引结构和搜索算法,显著提升相似度检索的速度和效率;通过将余弦距离转换为欧式距离,可以利用FAISS现有的功能,而无需对FAISS进行额外的定制或修改;保持向量的归一化处理确保了计算结果的准确性。归一化后的向量适用于欧式距离和余弦距离之间的等价性;归一化处理简化了计算过程,降低了对计算资源的需求,特别是在处理大规模数据集时。
通过上述步骤和变换,FAISS可以有效地执行相似度检索,提供与原始余弦距离计算一致的结果,并利用FAISS的高效搜索算法提升性能。
S150、对所述候选政策集合进行加权处理,以得到处理结果。
在本实施例中,处理结果是指对候选政策集合进行加权处理后得到的结果。
具体地,对所述候选政策集合进行同行业加权处理,以得到处理结果。
在本实施例中,行业包括国民经济行业分类或者GICS(全球行业分类),优先最细粒度的行业匹配。具体规则:四级行业存在就比较四级行业,就不用看一、二、三级行业了。如果四级行业为空,就比较三级行业,就不用看一、二级行业了,如表1所示。
表1.行业分类
在一实施例中,请参阅图5,上述的步骤S150可包括步骤S151~S153。
S151、对企业数据进行最细粒度的行业匹配,以得到匹配结果。
在本实施例中,匹配结果是指企业数据所对应的具体行业。
从最详细的行业分类开始比较。例如,如果使用国民经济行业分类或GICS(全球行业分类),优先使用四级行业分类进行匹配。
S152、根据匹配结果确定加权规则。
在本实施例中,加权规则:
四级行业:如果企业和政策都在相同的四级行业中,则将政策的匹配得分乘以系统中的固定系数(如alpha=1.2),以提高该政策的推荐优先级。
三级行业:如果四级行业匹配不到,则退到三级行业进行比较。如果企业和政策匹配到相同的三级行业,应用相同的加权系数。
二级和一级行业:如果三级行业也不匹配,继续上升到二级或一级行业进行比较。每一步匹配到的行业都会影响加权,但优先匹配到的细粒度行业会有更高的权重。
S153、根据所述加权规则对所述候选政策集合进行处理,以得到处理结果。
根据匹配的行业级别,将相应的加权系数应用到政策的得分上。最终的推荐得分由加权后的结果决定,用于排序和推荐前M个最相关的政策。
具体地,同行业加权后乘以固定的系统alpha(比如alpha=1.2),得到最后的结果。
项目中,向量的实际维度采用128维或768维。示例采用3维来说明。
同地区向量偏移示例:企业向量=(0.1,0.2,0.7),政策向量=(0.2,0.3,0.5)。那么企业和政策的相似度是0.1*0.2+0.2*0.3+0.7*0.5=0.43;不妨设企业是某区注册的,政策是西湖区发布的,而西湖区属于第2个槽位,所以固定加beta(比如beta=10)。不同地区的beta值是不同的,beta值是根据标注师人工标注过的样本动态训练出来的,比如西湖区beta=10,滨江区beta=7。
这时企业向量=(0.1,0.2+10,0.7),政策向量=(0.2,0.3+10,0.5)。相似度是0.1*0.2+(0.2+10)*(0.3+10)+0.7*0.5=105.43,所以相似度会大幅提升,在三维的空间上的距离就显著拉开了。
以此类推,128维就是128个槽位、768维就是768个槽位,每个槽位代码具体的地区。
同行业加权后乘以固定的系统alpha示例:假设企业和政策不是同地区的,但是是同行业的,就在之前的0.43的基础上再乘以alpha(比如alpha=1.2),相似度变成0.516,相似度也会增加。
S160、从所述处理结果中筛选出目标政策资源。
在本实施例中,目标政策资源是指最符合企业的政策资源。
具体地,加权后的处理结果,从大到小排序,取topM(比如M=10),得到企业最可能申报的税收优惠、财政补贴政策。
将加权后的政策资源按照其权重从高到低进行排序。这确保了最具价值和适用性的政策资源排在前面;从排序结果中选择前M条(例如,M=10)政策资源,这些是最符合企业需求的政策资源。通过这种方式,企业可以更精准地获得最适合自己的税收优惠和财政补贴政策。
S170、发送所述目标政策资源至企业终端。
将筛选出的Top M政策资源以电子形式发送到企业的终端设备上。这种发送可以通过邮件、通知系统或企业管理平台完成。
通过加权排序和筛选,确保企业获得最相关的政策资源,提高了政策推荐的精准度;企业不必自行筛选大量政策信息,节省时间和精力,能够迅速获取最适合的政策;企业可以基于推荐的政策资源做出更有针对性的决策,优化资源配置和申请策略;自动化筛选和发送流程简化了政策获取过程,使企业能更高效地利用政策支持。
本实施例的方法将企业数据和政策数据转化为向量形式,有助于捕捉其特征和关系;利用向量分类技术进行高效匹配,将企业数据与政策数据进行比对,得到相似度较高的候选政策;通过计算相似度并加权处理,确保推荐的政策与企业需求的匹配度更高;最终筛选出最符合企业需求的政策,并将其发送至企业终端,提升政策利用的效率和效果。这个方法能精准推荐最合适的政策资源,帮助企业从众多政策中筛选出最符合实际需求的选项。
上述的政策资源推荐方法,通过获取和预处理企业及政策数据,并将其向量化,利用FAISS索引库进行相似度计算和分类,接着,对候选政策集合进行加权处理,筛选出最符合企业需求的政策资源,并将其发送至企业终端。此流程旨在精确推荐政策,提高政策利用效率,实现根据企业自身的画像推荐精准的政策资源,有助于企业从众多政策中筛选出最符合其实际需求的政策,从而提升政策利用的效率和效果。
图7是本发明实施例提供的一种政策资源推荐装置300的示意性框图。如图7所示,对应于以上政策资源推荐方法,本发明还提供一种政策资源推荐装置300。该政策资源推荐装置300包括用于执行上述政策资源推荐方法的单元,该装置可以被配置于服务器中。具体地,请参阅图7,该政策资源推荐装置300包括获取单元301、向量化单元302、聚类单元303、相似度计算单元304、加权处理单元305、筛选单元306以及发送单元307。
获取单元301,用于获取企业数据以及政策数据,并对政策数据进行预处理,以得到初始数据;向量化单元302,用于对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量;聚类单元303,用于将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件;相似度计算单元304,用于计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合;加权处理单元305,用于对所述候选政策集合进行加权处理,以得到处理结果;筛选单元306,用于从所述处理结果中筛选出目标政策资源;发送单元307,用于发送所述目标政策资源至企业终端。
在一实施例中,如图8所示,所述获取单元301包括数据获取子单元3011、文本结构化子单元3012以及组合子单元3013。
数据获取子单元3011,用于获取企业数据和政策收据;文本结构化子单元3012,用于对所述政策数据进行文本结构化,以得到预处理结果;组合子单元3013,用于将所述企业数据和预处理结果组合形成初始数据。
在一实施例中,如图9所示,所述向量化单元302包括识别子单元3021、转化子单元3022、归一化子单元3023以及偏移子单元3024。
识别子单元3021,用于从所述初始数据的企业数据中识别出关键特征,并转化为向量形式,以得到第一向量;转化子单元3022,用于将所述政策数据转化为向量形式,以得到第二向量;归一化子单元3023,用于对所述第一向量以及所述第二向量进行归一化处理;偏移子单元3024,用于根据地区为处理后的第一向量以及处理后的第二向量添加固定值的偏移量,以得到企业数据向量以及政策数据向量。
在一实施例中,所述聚类单元303,用于将所述企业数据向量以及所述政策数据向量写入FAISS索引库,并使用FAISS中的聚类算法对所述企业数据向量以及所述政策数据向量进行训练,划分为若干个类,并保存到一个文件中,以得到企业数据向量文件以及政策数据向量文件。
在一实施例中,所述相似度计算单元304,用于使用欧式距离计算企业数据向量文件以及政策数据向量文件的相似度,并筛选相似度符合要求的政策数据向量文件,以确定候选政策集合。
在一实施例中,所述加权处理单元305,用于对所述候选政策集合进行同行业加权处理,以得到处理结果。
在一实施例中,如图10所示,所述加权处理单元305包括匹配子单元3051、规则确定子单元3052以及处理子单元3053。
匹配子单元3051,用于对企业数据进行最细粒度的行业匹配,以得到匹配结果;规则确定子单元3052,用于根据匹配结果确定加权规则;处理子单元3053,用于根据所述加权规则对所述候选政策集合进行处理,以得到处理结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述政策资源推荐装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述政策资源推荐装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种政策资源推荐方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种政策资源推荐方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取企业数据以及政策数据,并对政策数据进行预处理,以得到初始数据;对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量;将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件;计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合;对所述候选政策集合进行加权处理,以得到处理结果;从所述处理结果中筛选出目标政策资源;发送所述目标政策资源至企业终端。
在一实施例中,处理器502在实现所述获取企业数据以及政策数据,并进行预处理,以得到初始数据步骤时,具体实现如下步骤:
获取企业数据和政策收据;对所述政策数据进行文本结构化,以得到预处理结果;将所述企业数据和预处理结果组合形成初始数据。
在一实施例中,处理器502在实现所述对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量步骤时,具体实现如下步骤:
从所述初始数据的企业数据中识别出关键特征,并转化为向量形式,以得到第一向量;将所述政策数据转化为向量形式,以得到第二向量;对所述第一向量以及所述第二向量进行归一化处理;根据地区为处理后的第一向量以及处理后的第二向量添加固定值的偏移量,以得到企业数据向量以及政策数据向量。
在一实施例中,处理器502在实现所述将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件步骤时,具体实现如下步骤:
将所述企业数据向量以及所述政策数据向量写入FAISS索引库,并使用FAISS中的聚类算法对所述企业数据向量以及所述政策数据向量进行训练,划分为若干个类,并保存到一个文件中,以得到企业数据向量文件以及政策数据向量文件。
在一实施例中,处理器502在实现所述计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合步骤时,具体实现如下步骤:
使用欧式距离计算企业数据向量文件以及政策数据向量文件的相似度,并筛选相似度符合要求的政策数据向量文件,以确定候选政策集合。
在一实施例中,处理器502在实现所述对所述候选政策集合进行加权处理,以得到处理结果步骤时,具体实现如下步骤:
对所述候选政策集合进行同行业加权处理,以得到处理结果。
在一实施例中,处理器502在实现所述对所述候选政策集合进行同行业加权处理,以得到处理结果步骤时,具体实现如下步骤:
对企业数据进行最细粒度的行业匹配,以得到匹配结果;根据匹配结果确定加权规则;根据所述加权规则对所述候选政策集合进行处理,以得到处理结果。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取企业数据以及政策数据,并对政策数据进行预处理,以得到初始数据;对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量;将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件;计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合;对所述候选政策集合进行加权处理,以得到处理结果;从所述处理结果中筛选出目标政策资源;发送所述目标政策资源至企业终端。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取企业数据以及政策数据,并进行预处理,以得到初始数据步骤时,具体实现如下步骤:
获取企业数据和政策收据;对所述政策数据进行文本结构化,以得到预处理结果;将所述企业数据和预处理结果组合形成初始数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量步骤时,具体实现如下步骤:
从所述初始数据的企业数据中识别出关键特征,并转化为向量形式,以得到第一向量;将所述政策数据转化为向量形式,以得到第二向量;对所述第一向量以及所述第二向量进行归一化处理;根据地区为处理后的第一向量以及处理后的第二向量添加固定值的偏移量,以得到企业数据向量以及政策数据向量。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件步骤时,具体实现如下步骤:
将所述企业数据向量以及所述政策数据向量写入FAISS索引库,并使用FAISS中的聚类算法对所述企业数据向量以及所述政策数据向量进行训练,划分为若干个类,并保存到一个文件中,以得到企业数据向量文件以及政策数据向量文件。
在一实施例中,所述处理器在执行所述计算机程序而实现所述计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合步骤时,具体实现如下步骤:
使用欧式距离计算企业数据向量文件以及政策数据向量文件的相似度,并筛选相似度符合要求的政策数据向量文件,以确定候选政策集合。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述候选政策集合进行加权处理,以得到处理结果步骤时,具体实现如下步骤:
对所述候选政策集合进行同行业加权处理,以得到处理结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述候选政策集合进行同行业加权处理,以得到处理结果步骤时,具体实现如下步骤:
对企业数据进行最细粒度的行业匹配,以得到匹配结果;根据匹配结果确定加权规则;根据所述加权规则对所述候选政策集合进行处理,以得到处理结果。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.政策资源推荐方法,其特征在于,包括:
获取企业数据以及政策数据,并对政策数据进行预处理,以得到初始数据;
对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量;
将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件;
计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合;
对所述候选政策集合进行加权处理,以得到处理结果;
从所述处理结果中筛选出目标政策资源;
发送所述目标政策资源至企业终端。
2.根据权利要求1所述的政策资源推荐方法,其特征在于,所述获取企业数据以及政策数据,并进行预处理,以得到初始数据,包括:
获取企业数据和政策收据;
对所述政策数据进行文本结构化,以得到预处理结果;
将所述企业数据和预处理结果组合形成初始数据。
3.根据权利要求1所述的政策资源推荐方法,其特征在于,所述对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量,包括:
从所述初始数据的企业数据中识别出关键特征,并转化为向量形式,以得到第一向量;
将所述政策数据转化为向量形式,以得到第二向量;
对所述第一向量以及所述第二向量进行归一化处理;
根据地区为处理后的第一向量以及处理后的第二向量添加固定值的偏移量,以得到企业数据向量以及政策数据向量。
4.根据权利要求3所述的政策资源推荐方法,其特征在于,所述将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件,包括:
将所述企业数据向量以及所述政策数据向量写入FAISS索引库,并使用FAISS中的聚类算法对所述企业数据向量以及所述政策数据向量进行训练,划分为若干个类,并保存到一个文件中,以得到企业数据向量文件以及政策数据向量文件。
5.根据权利要求1所述的政策资源推荐方法,其特征在于,所述计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合,包括:
使用欧式距离计算企业数据向量文件以及政策数据向量文件的相似度,并筛选相似度符合要求的政策数据向量文件,以确定候选政策集合。
6.根据权利要求1所述的政策资源推荐方法,其特征在于,所述对所述候选政策集合进行加权处理,以得到处理结果,包括:
对所述候选政策集合进行同行业加权处理,以得到处理结果。
7.根据权利要求6所述的政策资源推荐方法,其特征在于,所述对所述候选政策集合进行同行业加权处理,以得到处理结果,包括:
对企业数据进行最细粒度的行业匹配,以得到匹配结果;
根据匹配结果确定加权规则;
根据所述加权规则对所述候选政策集合进行处理,以得到处理结果。
8.政策资源推荐方法,其特征在于,包括:
获取单元,用于获取企业数据以及政策数据,并对政策数据进行预处理,以得到初始数据;
向量化单元,用于对所述初始数据进行文本向量化,以得到企业数据向量以及政策数据向量;
聚类单元,用于将所述企业数据向量以及所述政策数据向量输入至FAISS索引库内,以进行向量的分类,得到企业数据向量文件以及政策数据向量文件;
相似度计算单元,用于计算企业数据向量文件以及政策数据向量文件的相似度,以确定候选政策集合;
加权处理单元,用于对所述候选政策集合进行加权处理,以得到处理结果;
筛选单元,用于从所述处理结果中筛选出目标政策资源;
发送单元,用于发送所述目标政策资源至企业终端。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202411335191.7A 2024-09-24 2024-09-24 政策资源推荐方法、装置、计算机设备及存储介质 Pending CN119322884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411335191.7A CN119322884A (zh) 2024-09-24 2024-09-24 政策资源推荐方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411335191.7A CN119322884A (zh) 2024-09-24 2024-09-24 政策资源推荐方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN119322884A true CN119322884A (zh) 2025-01-17

Family

ID=94231727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411335191.7A Pending CN119322884A (zh) 2024-09-24 2024-09-24 政策资源推荐方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN119322884A (zh)

Similar Documents

Publication Publication Date Title
US11042776B1 (en) Determining similarity of images using multidimensional hash vectors corresponding to the images
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
CN103593425B (zh) 基于偏好的智能检索方法及系统
CN110188077B (zh) 一种电子卷宗智能分类方法、装置、电子设备和存储介质
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
CN102495892A (zh) 一种网页信息抽取方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
US20230297648A1 (en) Correlating request and response data using supervised learning
CN117493645B (zh) 一种基于大数据的电子档案推荐系统
WO2022231943A1 (en) Intelligent data extraction
CN116738988A (zh) 文本检测方法、计算机设备和存储介质
CN118885565A (zh) 一种基于bert增强的es检索知识库方法
CN119128607A (zh) 一种公共数据自动化分类分级方法、系统
CN117391086A (zh) 一种投标参与信息抽取方法、装置、设备及介质
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN113157857B (zh) 面向新闻的热点话题检测方法、装置及设备
CN104216880B (zh) 基于互联网的术语定义辨析方法
CN105512270B (zh) 一种确定相关对象的方法和装置
CN119322884A (zh) 政策资源推荐方法、装置、计算机设备及存储介质
CN116127068A (zh) 一种文本分类方法、装置、设备以及存储介质
CN115099241A (zh) 一种基于模型融合的海量旅游网络文本语义分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination