CN117972023A - 基于预训练模型和向量检索的电力客户匹配方法 - Google Patents

基于预训练模型和向量检索的电力客户匹配方法 Download PDF

Info

Publication number
CN117972023A
CN117972023A CN202410158765.1A CN202410158765A CN117972023A CN 117972023 A CN117972023 A CN 117972023A CN 202410158765 A CN202410158765 A CN 202410158765A CN 117972023 A CN117972023 A CN 117972023A
Authority
CN
China
Prior art keywords
power
text
training
vector
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410158765.1A
Other languages
English (en)
Inventor
孙钢
金王英
陈昱伶
庄立强
钱伟超
李希鹏
叶西子
何皓
徐宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority to CN202410158765.1A priority Critical patent/CN117972023A/zh
Publication of CN117972023A publication Critical patent/CN117972023A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于预训练模型和向量检索的电力客户匹配方法,包括:S1、基于电力领域文档构建电力领域预训练模型;S2、通过训练完成的电力领域预训练模型向量化电力客户信息,构建电力客户信息向量空间;S3、基于向量检索工具构建电力客户信息向量空间的检索引擎;S4、通过检索引擎查询目标电力客户信息并返回查询文本列表;S5、基于Top‑N重排方法对查询文本列表进行重排,获得电力客户信息的Top‑N匹配结果;通过电力领域预训练模型能够利用电力领域特定的语义和知识,提高对电力客户信息的文本理解和处理能力;克服了传统的电力客户信息匹配方法由于存在局限性导致查询效率低的问题,提高检索准确性和查询效率。

Description

基于预训练模型和向量检索的电力客户匹配方法
技术领域
本发明涉及电力系统技术领域,具体为基于预训练模型和向量检索的电力客户匹配方法。
背景技术
随着大数据和人工智能技术的快速发展,如何有效地管理和检索大量的电力客户资料成为一个重要的挑战。传统的检索方法往往基于关键词匹配,并且未考虑查询文本的类型,存在局限性,导致这种方法在处理大量文本数据时难以处理复杂的语义信息,从而导致匹配准确率不高,查询效率低。
中国专利,公开号:CN117435615A,公开日:2024年1月23日,公开了一种面向电力系统实时推演的多维数据并行查询方法,包括步骤:设计多维层次索引数据结构Hi4H,建立多维层次数据索引;基于哈希的多维索引,采用基于区间的查询算法,对查询条件进行分组,对每个分组内的查询条件建立区间索引,利用区间索引进行快速匹配。本发明方法通过设计更加高效的多维索引和查询算法,支持电力系统中潮流的实时推演,提高了潮流推演的效率和用户体验;解决了电力运行数据维度较高、管理困难,以及面对高维度的组合查询,性能难以保证的问题;而该发明未提出如何解决匹配数据源单一或查询条件模糊等导致匹配率不准确的问题。
发明内容
本发明的目的是针对传统的电力客户信息匹配方法由于存在局限性导致查询效率低的问题;设计了基于预训练模型和向量检索的电力客户匹配方法,通过电力领域文档构建电力领域预训练模型,使用电力领域预训练模型实现电力客户信息的文本向量化,构建电力客户信息向量空间,通过向量检索工具构建电力客户信息的检索引擎,通过检索引擎查询匹配目标电力客户信息并返回查询列表,根据Top-N重排法处理查询列表,获得最终的匹配结果;克服了传统的电力客户信息匹配方法由于存在局限性导致查询效率低的问题,提高检索准确性和查询效率。
为解决上述技术问题,本发明采用的技术方案为:基于预训练模型和向量检索的电力客户匹配方法,包括以下步骤:
S1、基于电力领域文档构建电力领域预训练模型;
S2、通过训练完成的电力领域预训练模型向量化电力客户信息,构建电力客户信息向量空间;
S3、基于向量检索工具构建所述电力客户信息向量空间的检索引擎;
S4、通过所述检索引擎查询目标电力客户信息并返回查询文本列表;
S5、基于Top-N重排方法对所述查询文本列表进行重排,获得所述电力客户信息的Top-N匹配结果。
本方案中,通过构建电力领域预训练模型能够利用电力领域特定的语义和知识,提高对电力客户信息的文本理解和处理能力,可以更准确地进行文本向量化和构建客户信息向量空间,从而实现更有效的客户检索和相关信息查询;预训练模型还可以帮助系统更好地理解和处理电力领域的文本数据,提高电力客户信息检索能力和效率;对电力客户信息向量化可以将文本信息转化为具有语义含义的向量表示,提高了对客户资料的表达能力,使得客户资料的信息更加丰富和准确,避免了电力系统存在客户信息维护不及时、数据不规范等情况下匹配结果不准确的问题;建立电力客户信息向量空间以便于对电力客户信息向量化后进行统一管理与维护,为建立检索引擎时为Faiss工具提供向量维度的数据源,确保检索引擎的可靠性和安全性,当通过Top-N重排方法将查询文本列表按照与查询的匹配度进行重排,可以显著提高搜索结果的精度,使得用户更容易找到他们需要的信息,节省用户筛选结果的时间,提高用户工作效率以及用户体验感,由于Top-N重排方法提供了更精确和相关度更高的匹配结果,因此可以增强用户对检索引擎的信任度和满意度,提高用户的忠诚度。
优选地,所述电力领域文档包括电力文档数据以及电力客户信息;
其中,所述电力文档数据包括电力技术文件、电力领域论文以及电力书籍;
所述电力客户信息包括营销系统电力客户的档户名、户号、用电地址以及企业客户的基本信息。
本方案中,电力文档数据包括公开的电力技术文件、电力领域论文、电力书籍等,这些文档包含了丰富的电力技术信息和专业知识,对于理解电力领域的技术发展、应用和趋势具有重要意义;电力客户信息包括营销系统电力客户的档户名、户号、用电地址等关键字段数据。这些数据记录了电力客户的基本信息和相关属性,对于了解电力客户的行为、需求和特征具有重要作用;企业客户的基本信息包括企业名称、企业地址、企业法人、统一社会信用代码等,这些数据可以提供关于企业客户的基本信息,可以为后续的检索工作提供高效、稳定、高质量的数据支持,提高文本匹配的准确性和效率。
优选地,所述S1包括如下子步骤:
S11、基于RoBERTa预训练模型的模型权重进行所述电力领域文档的模型预训练,并配置电力术语和文本信息,获得电力领域预训练模型结构;
S12、通过BERT模型对所述电力领域预训练模型结构中的所述电力术语和所述文本信息进行文本分词,获得独立单词并基于所述独立单词构建电力领域词表;
S13、基于分词工具以及所述电力领域词表对所述电力文档数据进行分词,将分词后的所述电力文档数据进行向量转换与文本预处理,获取预训练样本集;其中,所述文本预处理包括遮盖处理与替换处理;
S14、将所述预训练样本集作为深度神经网络算法的输入对BERT模型进行训练,获得电力领域预训练模型。
本方案中,通过构建电力领域词表并使用分词工具将电力文档数据进行分词,可以丰富电力系统的数据源以及增加客户信息匹配度,减少电力领域预训练模型需要处理的文本数据的复杂度,提高文本处理的效率;有助于当电力系统中客户资料未整合多源数据、匹配数据源单一以及在匹配电力客户信息时直接使用SQL精确匹配、简单模糊搜索匹配等传统方法,未综合考虑电力客户地址、电力客户类型等信息的情况下,为系统根据用户输入的查询条件进行信息检索和匹配提供可靠的数据支撑。
优选地,上述S12包括如下子步骤:
基于已有的电力领域语料,枚举所有可能的新词,计算中文词法相关统计指标,使用所述统计指标进行词过滤,尽量准确地筛选出潜在的新词;将产出的候选新词提交到筛选系统进行人工确认,排除常用词汇后得到领域专业词库,将上述领域专业词库作为所述电力领域词表;其中,所述统计指标包括频数、凝固度、自由度等。
优选地,所述S14包括如下子步骤:
初始化所述RoBERTa预训练模型的模型权重,根据所述预训练样本集的属性设置所述深度神经网络算法的训练参数;
基于所述训练参数对BERT模型进行训练,将训练完成的BERT模型作为所述电力领域预训练模型。
本方案中,通过RoBERTa预训练模型权重作为基础训练电力领域预训练模型,可以根据电力领域信息检索工作的具体需求进行权重微调,以便对模型进行进一步训练和优化,可以更好地满足电力客户匹配的特定需求,提高模型的性能和准确性;通过BERT模型将电力术语和文本信息切分成独立的单词或子词,使得模型可以理解并处理这些文本数据,构建电力领域词表的目的是为了为分词提供基础,确保每个单词或子词都能够被正确地切分和表示,并且每个切分后的单词或子词都能够被编码成对应的向量表示,以便在后续的处理中正确地识别和表示;通过分词,还可以减少模型需要处理的文本数据的复杂度,提高文本处理的效率,还可以减少处理文本数据时所需的存储空间和计算资源;此外,构建电力领域词表有利于电力领域预训练模型在不同语言的处理中保持一致性,因为每个单词或子词都可以在电力领域词表中找到相应的编码,使得电力领域预训练模型在多语言处理时更具通用性。
优选地,所述S2包括如下子步骤:
S21、通过所述电力领域预训练模型将所述电力客户信息的文本进行分词与向量转换,得到文本向量并将所述文本向量输入RoBERTa预训练模型进行计算,获取所述电力客户信息的平均向量;
S22、将所述平均向量信息进行保存并生成所述电力客户信息向量空间。
优选地,所述S3包括如下子步骤:
S31、基于所述电力客户信息向量空间的向量维度通过Faiss构建所述文本向量的倒排索引;S32、将所述文本向量作为所述倒排索引的训练数据,根据Faiss相应函数将所述训练数据添加到Faiss索引函数中进行训练,并将训练完成的所述倒排索引作为所述电力客户信息向量空间的检索引擎。
本方案中,Faiss提供了高效的相似度搜索和聚类功能,通过构建文本向量的倒排索引可以帮助加速相似度搜索的过程,通过倒排索引的构建,可以显著减少搜索的时间复杂度;倒排索引可以支持复杂度高的向量的搜索,因此能够适用于处理大规模的向量数据,提高检索引擎的可扩展性和适用性;倒排索引的使用还可以有效提高系统的性能和响应速度,使得系统能够更好地应对大规模电力信息数据的搜索需求,提高系统的效率和可用性。
优选地,所述S4包括如下子步骤:
S41、根据输入的目标电力客户信息判断查询文本的类型,若所述查询文本为非中文型文本,则执行S42;若所述查询文本为中文型文本,则执行S43;
S42、根据所述查询文本进行直接检索,输出检索结果;
S43、基于所述电力领域词表对所述查询文本进行中文分词,并将分词后的文本作为所述电力领域预训练模型的输入,经由所述电力领域预训练模型计算后获取查询文本向量;
S44、基于所述检索引擎对所述查询文本向量进行相似度计算,返回相似的文本列表构建查询文本列表。
优选地,所述S5包括如下子步骤:
S51、基于BM25算法对所述文本列表进行得分计算,获得所述文本列表中各所述查询文本向量的计算分数;
S52、所述计算分数进行从高至低或从低至高排序,并将完成排序的所述文本列表作为所述电力客户信息的Top-N匹配结果。
优选地,所述S51中,基于BM25算法对所述文本列表进行得分计算包括如下子步骤:基于BM25算法基础添加电力用户点击记录,获得得分计算方法,所述得分计算方法的计算公式如下所示:
式中,q表示查询,d表示文档,n表示查询中包含的词项数,f(qi,d)表示查询词项在文档d中出现的频率,k1为BM25算法的可调参数,f(cd)为文档d的历史点击次数,m表示返回的查询结果数,IDF(qi)表示查询词项的逆文档频率,f(cj)为文档d的第j个查询结果。
优选地,所述逆文档频率的计算公式如下所示:
式中,N表示文档总数,n(qi)表示包含查询词项qi的文档数。
本方案中,通过将点击记录作为额外得分计算方法,可以在BM25基础上更细粒度地调整检索结果的排序,提高排序效果,通过考虑用户点击的次数、点击的时间等信息,可以更好地反映出检索结果的相关性和匹配度。
本发明的有益效果:
1、通过构建的电力领域预训练模型对电力客户信息进行全面的综合考虑,减少查询过程中的人工干预和错误,避免客户信息混乱和错配的情况,降低运营成本和风险,提高工作效率和准确性;
2、通过向量检索工具能够避免传统的信息检索方法对于处理大规模数据集效率慢的问题,根据向量检索工具构建检索引擎能够高效地进行相似度匹配,提高检索速度;检索之前将文本向量化以便于捕捉文本的语义信息,从而更好地理解查询和文档的含义,提高文档匹配精度和速率;
3、通过Top-N重排方法将查询文本列表按照与查询的匹配度进行重排,可以显著提高搜索结果的精度,使得用户更容易找到他们需要的信息,节省用户筛选结果的时间,提高用户工作效率以及用户体验感。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。
图1为本发明实施例的一种基于预训练模型和向量检索的电力客户匹配方法的方法流程图。
图2为本发明实施例的一种Top-N匹配结果方法流程图。
图3为本发明实施例的一种电力领域词表构建方法示意图。
图4为本发明实施例的一种检索引擎工作流程示意图。
具体实施方式
为使本发明的目的、技术方案以及优点更加清楚明白,下面结合附图和实施例对本发明作进一步详细说明,应当理解的是,此处所描述的具体实施方式仅是本发明的一种最佳实施例,仅用以解释本发明,并不限定本发明的保护范围,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:如图1和图2所示,基于预训练模型和向量检索的电力客户匹配方法,包括步骤S1-S5,其中:
S1、基于电力领域文档构建电力领域预训练模型。
具体地,电力领域文档包括电力文档数据以及电力客户信息;
其中,电力文档数据包括电力技术文件、电力领域论文以及电力书籍;电力客户信息包括营销系统电力客户的档户名、户号、用电地址以及企业客户的基本信息。
本实施例中,电力领域预训练模型结合自然语言处理大模型技术,对电力客户信息进行全面的综合考虑,包括电力客户户名、户号、用电地址、统一社会信用代码等多维度信息,通过深度学习和模型优化,提高电力客户信息匹配的准确率和效率。具体来说,本模型能够自动化处理和识别电力客户信息,减少人工干预和错误,提高工作效率和准确性。
具体地,S1包括如下子步骤:
S11、基于RoBERTa预训练模型的模型权重进行电力领域文档的模型预训练,并配置电力术语和文本信息,获得电力领域预训练模型结构;
S12、通过BERT模型对电力领域预训练模型结构中的电力术语和文本信息进行文本分词,获得独立单词并基于独立单词构建电力领域词表;
S13、基于分词工具以及电力领域词表对电力文档数据进行分词,将分词后的电力文档数据进行向量转换与文本预处理,获取预训练样本集;其中,所述文本预处理包括遮盖处理与替换处理;
S14、将预训练样本集作为深度神经网络算法的输入对BERT模型进行训练,获得电力领域预训练模型。
本实施例中,遮盖处理是指将输入文本中的某些词语替换为特殊标记,例如,标记为[MASK],以便于模型学习预测这些词语;替换处理是指将输入文本中的某些词语替换为其他词语,以增加电力领域预训练模型的泛化能力。
具体地,如图3所示,本实施例提供的一种具体实例为:基于已有的大量语料,枚举可能所有新词,其中,按照原始字的顺序组合,限制长度为n-gram;计算中文词法相关统计指标,包括频数、凝固度、自由度等,使用统计指标进行词过滤,尽量准确地筛选出潜在的新词;将产出的候选新词提交到筛选系统进行人工确认,排除常用词汇后得到领域专业词库。
具体地,S14包括如下子步骤:
初始化RoBERTa预训练模型的模型权重,根据预训练样本集的属性设置深度神经网络算法的训练参数;
基于训练参数对BERT模型进行训练,将训练完成的BERT模型作为电力领域预训练模型。
具体地,本实施例提供的一种具体实例为:训练BERT模型可以使用深度学习框架PyTorch,基于开源的通用模型RoBERTa进行模型权重初始化,并将训练参数设置为:hidden_size为384、sequence_length为64、batch_size为256,依次进行hidden_size分别为512、768的预训练。
可以理解的是,RoBERTa在模型结构上继承了BERT的双向上下文注意力机制,但在训练方式、模型规模和数据集等方面进行了改进,通过去掉NSP任务、动态掩码和文本编码等手段,RoBERTa在训练过程中更加关注于文本的语义信息,从而提高了模型的语义理解能力。
S2、通过训练完成的电力领域预训练模型向量化电力客户信息,构建电力客户信息向量空间。
具体地,S2包括如下子步骤:
S21、通过电力领域预训练模型将电力客户信息的文本进行分词与向量转换,得到文本向量并将文本向量输入RoBERTa预训练模型进行计算,获取电力客户信息的平均向量;
S22、将平均向量信息进行保存并生成电力客户信息向量空间。
S3、基于向量检索工具构建电力客户信息向量空间的检索引擎。
具体地,S3包括如下子步骤:
S31、基于电力客户信息向量空间的向量维度通过Faiss构建文本向量的倒排索引;
S32、将文本向量作为倒排索引的训练数据,根据Faiss相应函数将训练数据添加到Faiss索引函数中进行训练,并将训练完成的倒排索引作为电力客户信息向量空间的检索引擎。
S3、基于向量检索工具构建电力客户信息向量空间的检索引擎;
S4、通过检索引擎查询目标电力客户信息并返回查询文本列表。
具体地,如图4所示,本实施例提供的一种具体实例为:在构建索引时,选择IndexIVFFlat函数作为构建方式,在构建索引时,会对向量库先进行聚类分簇,然后通过查询与query最近的聚类中心,然后返回这个类中所有与query相似的向量;
在构建完倒排索引后,需要将训练数据添加到index中,这可以通过调用Faiss的相关函数实现,例如,add函数或add_with_ids函数等,这些函数将向量数据添加到index中,并为其分配一个唯一的ID;
最后,可以对构建的向量库进行调整和评估,这包括调整搜索算法的参数,如搜索半径、查询超时时间等,以及评估搜索效果,使用各种评估指标来衡量搜索效果,如准确率、召回率、F1分数等,方法如下:
准确率,计算被检索出的相关客户数目与总检索出的客户数目之比,准确率越高,表示检索结果中包含的相关客户比例越高;
召回率,计算被检索出的相关客户数目与所有相关客户数目之比,召回率越高,表示检索出的客户中包含的相关客户比例越高;
F1分数,准确率和召回率的调和平均数,综合考虑了准确率和召回率的性能指标;
此外,还可以使用交叉验证、排名相关指标、混淆矩阵等方法进行更详细的性能评估和分析,通过这些评估指标和方法,可以全面评估电力客户检索引擎的性能和准确性,以便进一步改进和优化系统。
可以理解的是,Faiss是一种高效的相似度搜索和稠密向量聚类的库,Faiss方法使用优化的数据结构和算法,可以在短时间内完成相似度搜索和聚类任务;Faiss方法能够准确地找到相似度匹配的向量,具有良好的准确性和召回率,Faiss方法提供了丰富的功能和选项,可以根据不同的需求进行配置和优化;它支持不同的相似度度量方法,如欧氏距离、余弦相似度等,可以根据数据的特性和任务要求选择合适的度量方法;因此,本申请中使用Faiss构建检索引擎可以显著提高目标电力客户信息的检索效率。
具体地,S4包括如下子步骤:
S41、根据输入的目标电力客户信息判断查询文本的类型,若查询文本为非中文型文本,则执行S42;若查询文本为中文型文本,则执行S43;
S42、根据查询文本进行直接检索,输出检索结果;
S43、基于电力领域词表对查询文本进行中文分词,并将分词后的文本作为电力领域预训练模型的输入,经由电力领域预训练模型计算后获取查询文本向量;
S44、基于检索引擎对查询文本向量进行相似度计算,返回相似的文本列表构建查询文本列表。
S5、基于Top-N重排方法对查询列表进行重排,获得电力客户信息的Top-N匹配结果。
本实施例中,通过判断查询文本的类型,根据类型自动选择查询方式可以提高信息查询效率;若查询文本为非中文型文本,那就可以根据查询文本的内容直接进行精准检索,而不需要使用检索引擎,避免占用系统资源,例如,查询文本是一串表示统一社会信用代码的非中文符号,则不需要经过检索引擎的流程可以直接精准查询;例如,查询文本是一个模糊不具体的地址,那就通过检索引擎来进行查询,先将查询文本进行分词,得到独立的单词或子词,然后将这些单词或子词输入到电力领域预训练模型中进行处理,得到相对应的文本向量,再输入到Faiss检索引擎进行相似度匹配,返回若干相似的文本列表,最后通过Top-N重排方法得到与查询文本中相关的单词或子词形似度按照从高到低或者从低到高的顺序排列的匹配列表供用户选择。
可以理解的是,Top-N方法可以快速定位并提取出最重要的数据,从而节省用户时间和精力,通过从大量数据中提取出最具有代表性和重要性的前N项,提高了匹配结果的准确性。
具体地,S5包括如下子步骤:
S51、基于BM25算法对文本列表进行得分计算,获得文本列表中各查询文本向量的计算分数;S52、计算分数进行从高至低或从低至高排序,并将完成排序的文本列表作为电力客户信息的Top-N匹配结果。
进一步地,S51中,基于BM25算法对文本列表进行得分计算包括如下子步骤:
基于BM25算法基础添加电力用户点击记录,获得得分计算方法,得分计算方法的计算公式如下所示:
式中,q表示查询,d表示文档,n表示查询中包含的词项数,f(qi,d)表示查询词项在文档d中出现的频率,k1为BM25算法的可调参数,f(cd)为文档d的历史点击次数,m表示返回的查询结果数,IDF(qi)表示查询词项的逆文档频率,f(cj)为文档d的第j个查询结果。
具体地,所示逆文档频率的计算公式如下所示:
式中,N表示文档总数,n(qi)表示包含查询词项qi的文档数。
本实施例中,BM25算法是一种基于概率模型的文本检索算法,它通过使用余弦相似度来度量文档之间的相关性,并通过权重调整机制提高相关性的准确性;基于点击记录的BM25算法可以根据用户历史的搜索和点击行为,为用户定制个性化的搜索结果;可以更好地满足用户的需求,帮助用户更快地找到他们需要的电力领域信息,提高用户体验和满意度;其中,将点击记录作为额外得分计算方法,可以在BM25算法基础上更细粒度地调整检索结果的排序,提高排序效果,通过考虑用户点击的次数、点击的时间等信息,可以更好地反映出检索结果的相关性和匹配度;实现了根据不同用户群体的特点和需求,制定个性化的电力服务方案和策略,为用户提供更加贴心和便捷的服务体验。
以上的具体实施方式为本发明的较佳实施方式,非以此限定本发明的具体实施范围,本发明的范围包括并不限于本具体实施方式,凡依照本发明之形状、结构、方法所作的等效变化均在本发明的保护范围内。

Claims (10)

1.基于预训练模型和向量检索的电力客户匹配方法,其特征在于:包括如下子步骤:
S1、基于电力领域文档构建电力领域预训练模型;
S2、通过训练完成的电力领域预训练模型向量化电力客户信息,构建电力客户信息向量空间;
S3、基于向量检索工具构建所述电力客户信息向量空间的检索引擎;
S4、通过所述检索引擎查询目标电力客户信息并返回查询文本列表;
S5、基于Top-N重排方法对所述查询文本列表进行重排,获得所述电力客户信息的Top-N匹配结果。
2.根据权利要求1所述的基于预训练模型和向量检索的电力客户匹配方法,其特征在于:所述电力领域文档包括电力文档数据以及电力客户信息;
其中,所述电力文档数据包括电力技术文件、电力领域论文以及电力书籍;
所述电力客户信息包括营销系统电力客户档户名、户号、用电地址以及企业客户的基本信息。
3.根据权利要求2所述的基于预训练模型和向量检索的电力客户匹配方法,其特征在于:所述S1包括如下子步骤:
S11、基于RoBERTa预训练模型的模型权重进行所述电力领域文档的模型预训练,并配置电力术语和文本信息,获得电力领域预训练模型结构;
S12、通过BERT模型对所述电力领域预训练模型结构中的所述电力术语和所述文本信息进行文本分词,获得独立单词并基于所述独立单词构建电力领域词表;
S13、基于分词工具以及所述电力领域词表对所述电力文档数据进行分词,将分词后的所述电力文档数据进行向量转换与文本预处理,获取预训练样本集;
S14、将所述预训练样本集作为深度神经网络算法的输入对BERT模型进行训练,获得电力领域预训练模型。
4.根据权利要求3所述的基于预训练模型和向量检索的电力客户匹配方法,其特征在于:所述S14包括如下子步骤:
初始化所述RoBERTa预训练模型的模型权重,根据所述预训练样本集的属性设置所述深度神经网络算法的训练参数;
基于所述训练参数对BERT模型进行训练,将训练完成的BERT模型作为所述电力领域预训练模型。
5.根据权利要求1所述的基于预训练模型和向量检索的电力客户匹配方法,其特征在于:所述S2包括如下子步骤:
S21、通过所述电力领域预训练模型将所述电力客户信息的文本进行分词与向量转换,得到文本向量并将所述文本向量输入RoBERTa预训练模型进行计算,获取所述电力客户信息的平均向量;
S22、将所述平均向量信息进行保存并生成所述电力客户信息向量空间。
6.根据权利要求5所述的基于预训练模型和向量检索的电力客户匹配方法,其特征在于:所述S3包括如下子步骤:
S31、基于所述电力客户信息向量空间的向量维度通过Faiss构建所述文本向量的倒排索引;
S32、将所述文本向量作为所述倒排索引的训练数据,根据Faiss相应函数将所述训练数据添加到Faiss索引函数中进行训练,并将训练完成的所述倒排索引作为所述电力客户检索引擎。
7.根据权利要求3所述的基于预训练模型和向量检索的电力客户匹配方法,其特征在于:所述S4包括如下子步骤:
S41、根据输入的目标电力客户信息判断查询文本的类型,若所述查询文本为非中文型文本,则执行S42;若所述查询文本为中文型文本,则执行S43;
S42、根据所述查询文本进行直接检索,输出检索结果;
S43、基于所述电力领域词表对所述查询文本进行中文分词,并将分词后的文本作为所述电力领域预训练模型的输入,经由所述电力领域预训练模型计算后获取查询文本向量;
S44、基于所述检索引擎对所述查询文本向量进行相似度计算,返回相似的文本列表构建查询文本列表。
8.根据权利要求7所述的基于预训练模型和向量检索的电力客户匹配方法,其特征在于:所述S5包括如下子步骤:
S51、基于BM25算法对所述文本列表进行得分计算,获得所述文本列表中各所述查询文本向量的计算分数;
S52、所述计算分数进行从高至低或从低至高排序,并将完成排序的所述文本列表作为所述电力客户信息的Top-N匹配结果。
9.根据权利要求8所述的基于预训练模型和向量检索的电力客户匹配方法,其特征在于:所述S51中,基于BM25算法对所述文本列表进行得分计算包括如下子步骤:
基于BM25算法基础添加电力用户点击记录,获得得分计算方法,所述得分计算方法的计算公式如下所示:
式中,q表示查询,d表示文档,n表示查询中包含的词项数,f(qi,d)表示查询词项在文档d中出现的频率,k1为BM25算法的可调参数,f(cd)为文档d的历史点击次数,m表示返回的查询结果数,IDF(qi)表示查询词项的逆文档频率,f(cj)为文档d的第j个查询结果。
10.根据权利要求9所述的基于预训练模型和向量检索的电力客户匹配方法,其特征在于:
所示逆文档频率的计算公式如下所示:
式中,N表示文档总数,n(qi)表示包含查询词项qi的文档数。
CN202410158765.1A 2024-02-04 2024-02-04 基于预训练模型和向量检索的电力客户匹配方法 Pending CN117972023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410158765.1A CN117972023A (zh) 2024-02-04 2024-02-04 基于预训练模型和向量检索的电力客户匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410158765.1A CN117972023A (zh) 2024-02-04 2024-02-04 基于预训练模型和向量检索的电力客户匹配方法

Publications (1)

Publication Number Publication Date
CN117972023A true CN117972023A (zh) 2024-05-03

Family

ID=90851324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410158765.1A Pending CN117972023A (zh) 2024-02-04 2024-02-04 基于预训练模型和向量检索的电力客户匹配方法

Country Status (1)

Country Link
CN (1) CN117972023A (zh)

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
US20210382878A1 (en) Systems and methods for generating a contextually and conversationally correct response to a query
US8073877B2 (en) Scalable semi-structured named entity detection
Sumathy et al. Text mining: concepts, applications, tools and issues-an overview
CN111125334B (zh) 一种基于预训练的搜索问答系统
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US20090327230A1 (en) Structured and unstructured data models
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
Mehta et al. WEClustering: word embeddings based text clustering technique for large datasets
CN113342923A (zh) 数据查询方法、装置、电子设备及可读存储介质
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
Sandhya et al. Analysis of stemming algorithm for text clustering
Singhal et al. Data extract: Mining context from the web for dataset extraction
CN115248839A (zh) 一种基于知识体系的长文本检索方法以及装置
Ghanem et al. Stemming effectiveness in clustering of Arabic documents
WO2023278070A1 (en) Automatic labeling of text data
Sun et al. Identifying, indexing, and ranking chemical formulae and chemical names in digital documents
CN113342950A (zh) 基于语义联合的答案选取方法及系统
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
CN110688559A (zh) 一种检索方法及装置
Ziv et al. CompanyName2Vec: Company Entity Matching Based on Job Ads
Groza et al. Reference information extraction and processing using random conditional fields
CN117972023A (zh) 基于预训练模型和向量检索的电力客户匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination