CN117151082A - 一种基于大语言模型的商品标题spu关键词提取方法 - Google Patents
一种基于大语言模型的商品标题spu关键词提取方法 Download PDFInfo
- Publication number
- CN117151082A CN117151082A CN202311412578.3A CN202311412578A CN117151082A CN 117151082 A CN117151082 A CN 117151082A CN 202311412578 A CN202311412578 A CN 202311412578A CN 117151082 A CN117151082 A CN 117151082A
- Authority
- CN
- China
- Prior art keywords
- text word
- commodity
- value
- text
- commodity title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims description 58
- 238000013507 mapping Methods 0.000 claims description 16
- 230000009849 deactivation Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 description 6
- 238000004880 explosion Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013499 data model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言数据处理技术领域,具体涉及一种基于大语言模型的商品标题SPU关键词提取方法,该方法首先将每个商品标题划分出至少两个文本分词,根据相同商品标题类型中各种文本分词的出现频率和位置分布情况,得到位置特性参数;根据相同商品标题类型中各种文本分词的搜索指数分布情况,得到搜索指数参数;进一步地结合位置特性参数和搜索指数参数,得到每种文本分词对应的表征重要程度的关键词特征值。使得最后根据关键词特征值结合大语言模型进行商品标题SPU关键词提取的准确度更高。
Description
技术领域
本发明涉及自然语言数据处理技术领域,具体涉及一种基于大语言模型的商品标题SPU关键词提取方法。
背景技术
自然语言处理技术包括文本分词、词性标注、命名实体识别等多种技术,在关键词提取中应用广泛。而商品标题SPU关键词提取在电商领域中至关重要,能够便于搜索引擎和推荐系统对商品进行准确分类和匹配。
而大语言模型能够对商品标题SPU关键词提取过程进行预训练和微调,从而提高关键词提取的准确性和泛化能力。因此现有技术通常借助大语言模型进行商品标题SPU关键词提取。但是基于大语言模型的关键词提取方法通常需要考虑上下文信息,但是商品标题对应的文本信息通常较短,对应的上下文信息较为匮乏,导致借助大语言数据模型进行商品标题SPU关键词提取的准确度较低。
发明内容
为了解决现有技术通常借助大语言模型进行商品标题SPU关键词提取的准确度较低的技术问题,本发明的目的在于提供一种基于大语言模型的商品标题SPU关键词提取方法,所采用的技术方案具体如下:
本发明提出了一种基于大语言模型的商品标题SPU关键词提取方法,所述方法包括:
获取用于关键词提取的商品标题;
根据商品后台类目将对应的各个商品标题划分为至少两种商品标题类型;在每种商品标题类型中,根据每个商品标题的文本结构分布情况,将每个商品标题划分出至少两个文本分词;
根据每种文本分词在各个商品标题中的出现频率以及位置分布情况,得到每种文本分词的位置特性参数;根据每种文本分词的搜索频率整体分布状况,得到每种文本分词的搜索指数参数;
根据所述位置特性参数和所述搜索指数参数,得到每种文本分词的关键词特征值;根据所述关键词特征值结合大语言模型进行商品标题SPU关键词提取。
进一步地,所述位置特性参数的获取方法包括:
对于任意一个商品标题:
根据商品标题中文本分词的数量构建0序列;根据每个文本分词在商品标题中的位置,得到每个文本分词在0序列中的位置;依次将商品标题中的每个文本分词作为目标文本分词;将目标文本分词在0序列中对应位置的值置1,得到目标文本分词对应的二进制数;将所述二进制数转化为十进制得到目标文本分词的位置特性值;
将每种文本分词在同种商品标题类型的所有商品标题中的出现次数,作为每种文本分词的参考出现频次,所述每种文本分词中的各个文本分词相同;
在每种商品标题类型中,根据每种文本分词中的各个文本分词的位置特性值的数值整体分布情况,得到每种文本分词的参考位置特征值;
根据所述参考出现频次和所述参考位置特征值,得到每种商品标题类型中每种文本分词的位置特性参数,所述参考出现频次和所述参考位置特征值均与所述位置特性参数呈正相关关系。
进一步地,所述参考位置特征值的获取方法包括:
将每种文本分词对应的所有位置特性值的标准差与预设第一调节参数的和值,作为每种文本分词的第一参考和值,所述预设第一调节参数大于0;将每种文本分词对应的所有位置特性值的均值与所述第一参考和值的比值,作为每种文本分词的参考位置特征值。
进一步地,所述根据所述参考出现频次和所述参考位置特征值,得到每种商品标题类型中每种文本分词的位置特性参数的方法包括:
将所述参考位置特征值的正相关映射值与所述参考出现频次的乘积,作为每种商品标题类型中每种文本分词的位置特性参数。
进一步地,所述搜索指数参数的获取方法包括:
统计每种文本分词在当天之前预设天数中每天的搜索指数;将最大的搜索指数对应的天与当天的天数间隔,作为每种文本分词的参考高峰时间间隔;
将每种文本分词对应的所有搜索指数的均值,作为参考搜索均值;将所述参考搜索均值与每种文本分词对应的搜索指数的最小值之间的差异,作为参考均值差异;将所述参考均值差异与每种文本分词对应的搜索指数极差之间的比值,作为每种文本分词的搜索指数趋势参考值;
根据所述参考高峰时间间隔和所述搜索指数趋势参考值,得到的每种文本分词的搜索高峰趋近度,所述参考高峰时间间隔和所述搜索指数趋势参考值均与所述搜索高峰趋近度呈负相关;
将每种文本分词对应的所有搜索指数的标准差与预设第二调节参数的和值,作为每种文本分词的第二参考和值;将所述参考搜索均值与所述第二参考和值的比值,作为每种文本分词的搜索指数稳定度;
将所述搜索指数稳定度的正相关映射值与所述搜索高峰趋近度的乘积,作为每种文本分词的搜索指数参数。
进一步地,所述搜索高峰趋近度的获取方法包括:
将所述参考高峰时间间隔的归一化值的负相关映射值与所述搜索指数趋势参考值的负相关映射值的和值,作为每种文本分词的搜索高峰趋近度。
进一步地,所述关键词特征值的获取方法包括:
将所述位置特性参数与所述搜索指数参数的和值,作为每种文本分词的关键词特征值。
进一步地,所述根据所述关键词特征值结合大语言模型进行商品标题SPU关键词提取包括:
将用于关键词提取的商品标题输入到大语言模型中,输出对应的至少两个文本分词;将最大的预设数量个关键词特征值对应的文本分词,作为商品标题对应的SPU关键词。
进一步地,所述文本分词的获取方法包括:
将每个商品标题对应的文本通过分词和去停用词过程,得到每个商品标题对应的至少两个文本分词。
进一步地,所述商品标题类型的获取方法包括:
将电商系统中属于同一个三级类目的商品对应的所有商品标题,划分为一种商品标题类型。
本发明具有如下有益效果:
考虑到一个商品标题的文本所能提供的信息有限,而大语言模型需要足够的上下文信息,因此本发明实施例对同种商品标题类型的商品标题进行分析,使得同种商品标题类型的商品标题之间产生有效的上下文信息,使得后续的关键词提取更加准确。而商品标题通常由多个文本分词组成,其中就存在所需要提取的关键词,因此本发明实施例对商品标题中的各个文本分词进行分析,得到衡量文本分词重要程度的关键词特征值,从而借助关键词特征值进行关键词的提取。根据商品标题的客观规律,越重要的文本分词对应的位置越处于商品标题中靠前的位置,并且同种文本分词在相同商品标题类型中出现的次数也能够在一定程度上影响其重要性,因此本发明通过每种文本分词在各个商品标题中的出现频率以及位置分布情况,得到位置特性参数;并且考虑到对于每种文本分词而言,其对应的搜索频率也能反映其重要程度,因此本发明根据每种文本分词的搜索频率整体分布状况,得到每种文本分词的搜索指数参数;进一步地将位置特性参数和搜索指数参数结合,得到表征每种文本分词重要性的关键词特征值,使得最后根据关键词特征值结合大语言模型进行商品标题SPU关键词提取的准确度更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于大语言模型的商品标题SPU关键词提取方法。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大语言模型的商品标题SPU关键词提取方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于大语言模型的商品标题SPU关键词提取方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于大语言模型的商品标题SPU关键词提取方法流程图,该方法包括:
步骤S1:获取用于关键词提取的商品标题。
本发明实施例旨在提供一种基于大语言模型的商品标题SPU关键词提取方法,用于对各个商品标题中的文本信息进行处理,得到其中每个文本分词的关键词特征值,根据关键词特征值结合大语言模型进行商品标题SPU关键词提取。因此本发明实施例首先需要获取用于关键词提取的商品标题。
在本发明实施例中,通过电商网页直接采集所需要的商品标题,也即对应的商品标题文本。需要说明的是,目前电商平台对于商品标题的字数长度存在限制,并且通常限制30个文字和60个字符,因此为了避免采集到错误的商品标题,本发明实施例仅对30个文字以下且字符数不超过60的商品标题进行采集,实施者可根据具体实施环境自行调整。
步骤S2:根据商品后台类目将对应的各个商品标题划分为至少两种商品标题类型;在每种商品标题类型中,根据每个商品标题的文本结构分布情况,将每个商品标题划分出至少两个文本分词。
由于本发明实施例需要借助大语言模型进行关键词提取,而大语言模型需要保证足够的上下文信息,但是商品标题对应的文本信息较少,因此根据商品标题的文本信息借助大语言数据模型进行商品标题SPU关键词提取的准确度较低。考虑到上下文信息之间通常具有一定的关联性,而相同商品类型的商品标题之间由于具有一定的相似性,因此也符合具有关联性的特征,所以对同一商品类型的所有商品标题进行分析,相当于对具有上下文性质的商品标题进行分析,因此需要根据商品类型对商品标题进行分类。本发明实施例根据商品后台类目将对应的各个商品标题划分为至少两种商品标题类型。
优选地,商品标题类型的获取方法包括:
将电商系统中属于同一个三级类目的商品对应的所有商品标题,划分为一种商品标题类型。需要说明的是,三级类目属于电商系统中的一个划分等级,例如,鹅绒羽绒服女装即为一个三级类目为例,其所属的一级类目为女装衣物,所属的二级类目为羽绒服。类目越高,对应的邻域划分越细,实施者也可根据具体实施环境自行选取其他等级的类目或其他划分方式,得到商品标题类型,在此不做进一步赘述。
本发明实施例的目的在于根据每种文本分词的重要程度进行关键词提取,因此需要对文本分词的重要程度进行计算,而商品标题通常由多个文本分词组成,因此首先需要获取对应的文本分词。本发明实施例在每种商品标题类型中,根据每个商品标题的文本结构分布情况,将每个商品标题划分出至少两个文本分词。
优选地,文本分词的获取方法包括:
将每个商品标题对应的文本通过去停用词和分词方法,得到每个商品标题对应的至少两个文本分词。在本发明实施例中,分词方法选择基于字典的分词方法。需要说明的是,基于字典的分词方法和去停用词为自然语言数据处理中的常用技术手段,而自然语言数据处理为本领域技术人员所熟知的现有技术,且实施者可根据具体实施环境自行调整文本分词的划分方法,在此不做进一步赘述。此外需要说明的是,除基于字典的分词方法外,实施者也可通过其他分词方法进行分词,例如基于理解的分词方法等,在此不做进一步赘述。
步骤S3:根据每种文本分词在各个商品标题中的出现频率以及位置分布情况,得到每种文本分词的位置特性参数;根据每种文本分词的搜索频率整体分布状况,得到每种文本分词的搜索指数参数。
至此,得到每个商品标题所划分出的多个文本分词,进一步地需要对各种文本分词的重要程度进行衡量,使得后续关键词提取过程更加准确。对于电商平台而言,商品标题的汉字不但存在上限,而且完整的标题只有在用户点进商品详情页才能完整展示,在搜索页中最多展示的往往只有前十几个汉字;因此对于商家而言,通常需要保证商品标题靠前的十几个汉字就体现出商品的核心,从而实现促销的目的。因此根据该特点,越重要的文本分词对应的位置越处于商品标题中靠前的位置,也即文本分词在商品标题中的位置会影响其重要程度。
另一方面,在相同商品标题类型中,各个商品标题之间通常会具有一定的相似性,这种相似性能够使得上下文信息的利用体现更加明显,并且在客观规律上,对应的文本分词的种类在同一商品标题类型中出现的次数越多,说明对应的文本分词越重要,因此需要结合每种文本分词在同一商品标题类型中的出现频率进行分析。因此本发明实施例根据每种文本分词在各个商品标题中的出现频率以及位置分布情况,得到每种文本分词的位置特性参数。
优选地,位置特性参数的获取方法包括:
对于任意一个商品标题:
根据商品标题中文本分词的数量构建0序列;根据每个文本分词在商品标题中的位置,得到每个文本分词在0序列中的位置;依次将商品标题中的每个文本分词作为目标文本分词;将目标文本分词在0序列中对应位置的值置1,得到目标文本分词对应的二进制数;将二进制数转化为十进制得到目标文本分词的位置特性值。位置特性值相当于将每个文本分词在商品标题中的考前程度进行量化,对应的文本分词越考前,对应的位置特征值越大。并且由于引入了商品标题中文本分词的数量影响,也即商品标题中的文本分词的数量越多的情况下,文本分词越考前分布时,对应的重要程度相对更大。例如,假如一个商品标题由从前至后A、B、C、D、E、F和G的七个文本分词组成,则对于文本分词C而言,需要将C对应位置的值置1,其余位置依然是0,则文本分词C对应的二进制数为0010000,转化为十进制得到的位置特性值16。而对于B而言,其对应的二进制数为0100000,转化为十进制得到的位置特性值为32。因此对应的文本分词越靠前,对应的位置特性值越大。
将每种文本分词在同种商品标题类型的所有商品标题中的出现次数,作为每种文本分词的参考出现频次,每种文本分词中的各个文本分词相同,也即将相同的文本分词划分为一种,对应种类的文本分词在同种商品标题类型中的出现次数越大,对应的参考出现频次越大,也即对应种类的文本分词越重要。
进一步地,由于位置特性值越大时,对应的文本分词在商品标题中越靠前,说明对应种类的文本分词越倾向于是关键词,而当对应种类的文本分词在同类型的各个商品标题中均分布较为靠前,也即对应的各个文本分词的位置特性值整体较大,且分布较为稳定时,说明对应种类的文本分词作为关键词的置信度更高。因此本发明实施例在每种商品标题类型中,根据每种文本分词中的各个文本分词的位置特性值的数值整体分布情况,得到每种文本分词的参考位置特征值。
优选地,参考位置特征值的获取方法包括:
将每种文本分词对应的所有位置特性值的标准差与预设第一调节参数的和值,作为每种文本分词的第一参考和值,预设第一调节参数大于0;将每种文本分词对应的所有位置特性值的均值与第一参考和值的比值,作为每种文本分词的参考位置特征值。对应的所有位置特性值的均值越大,说明对应种类的文本分词整体越靠前。位置特性值的标准差越小时,说明对应的位置特性值的数值分布越稳定。因此得到的参考位置特征值越大时,说明对应种类的文本分词的重要程度越高。在本发明实施例中,预设第一调节参数设置为0.1,实施者可根据具体实施环境自行调整。
根据参考出现频次和参考位置特征值,与每种文本分词重要程度的关系,进一步地根据参考出现频次和参考位置特征值,得到每种商品标题类型中每种文本分词的位置特性参数,参考出现频次和参考位置特征值均与位置特性参数呈正相关关系。
优选地,根据参考出现频次和参考位置特征值,得到每种商品标题类型中每种文本分词的位置特性参数的方法包括:
由于参考出现频次越大,参考位置特征值越大时,对应种类的文本分词越重要,而本发明实施例通过位置特性参数表征每种文本分词在出现频次和位置上的重要程度,因此本发明实施例将参考位置特征值的正相关映射值与参考出现频次的乘积,作为每种商品标题类型中每种文本分词的位置特性参数。需要说明的是,实施者也可通过其他方法根据参考位置特征值和参考出现频次得到位置特性参数,例如相加等,在此不做进一步赘述。
在本发明实施例中,对于任意一种商品标题类型,将其中每种文本分词作为第/>种文本分词,则商品标题类型/>中的第/>种文本分词的位置特性参数的获取方法在公式上表现为:
其中,为商品标题类型/>中的第/>种文本分词的参考出现频次,/>为商品标题类型/>中的第/>种文本分词对应的所有位置特性值的均值,/>为商品标题类型/>中的第/>种文本分词对应的所有位置特性值的标准差,/>为预设第一调节参数,本发明实施例将预设第一调节参数设置为0.1,用于防止分母为0。/>为商品标题类型/>中的第/>种文本分词对应的第一参考和值,/>为商品标题类型/>中的第/>种文本分词对应的参考位置特征值。为以自然常数为底的指数函数,用于对参考位置特征值进行正相关映射。
考虑到对于每种文本分词而言,其对应的搜索频率在近段时间内越高,说明对应种类的文本分词的热度越高,在商家的角度上对应的重要程度就越高,而搜索指数能够反映文本分词对应的搜索频率或热度,因此本发明实施例根据每种文本分词的搜索频率整体分布状况,得到每种文本分词的搜索指数参数。
优选地,搜索指数参数的获取方法包括:
统计每种文本分词在当天之前预设天数中每天的搜索指数;将最大的搜索指数对应的天与当天的天数间隔,作为每种文本分词的参考高峰时间间隔。在本发明实施例中,通过搜索指数平台统计当天之前预设天数中每天的搜索指数,且本发明实施例将预设天数设置为30实施者可根据具体实施环境自行调整。需要说明的是,当天之前预设天数中每天的搜索指数中包含当天的搜索指数,且每天仅对应一个搜索指数。需要说明的是,参考高峰时间间隔的时间单位为天。
将每种文本分词对应的所有搜索指数的均值,作为参考搜索均值;将参考搜索均值与每种文本分词对应的搜索指数的最小值之间的差异,作为参考均值差异;将参考均值差异与每种文本分词对应的搜索指数极差之间的比值,作为每种文本分词的搜索指数趋势参考值。参考均值差异和搜索指数极差之间的比值对应的公式,类似于在搜索指数对应的所有值中,将参考搜索均值进行归一化。对于文本分词而言,若文本分词对应的某个商品产生了爆款的情况,则近期对应的搜索指数会迅速飙升,对应的最大值会呈现出一个断层的情况,导致对应的参考搜索均值在搜索指数最小值和搜索指数最大值的数值范围内,属于相对较小的数值,使得对应的搜索指数趋势参考值通常较小。而出现爆款情况也就意味着对应文本分词的重要程度更高,因此对应的搜索指数越小,说明对应种类的文本分词越重要。
此外,由于爆款情况发生时。对应的搜索指数最大值通常会在爆款情况最火热的时候出现,此时的热度最高,因此当天与搜索指数最大值对应的时间间隔越小时,对应的文本分词的热度越高,也即对应的重要程度越高。在具体参数上表现为,对应的参考高峰时间间隔越小,对应的重要程度越高。
本发明实施例通过搜索高峰趋近度表征在爆款的角度上的重要程度,进一步地根据参考高峰时间间隔和搜索指数趋势参考值与文本分词的重要程度之间的关系,根据参考高峰时间间隔和搜索指数趋势参考值,得到的每种文本分词的搜索高峰趋近度,参考高峰时间间隔和搜索指数趋势参考值均与搜索高峰趋近度呈负相关。
优选地,搜索高峰趋近度的获取方法包括:
将参考高峰时间间隔的归一化值的负相关映射值与搜索指数趋势参考值的负相关映射值的和值,作为每种文本分词的搜索高峰趋近度。在本发明实施例中,由于搜索指数趋势参考值对应的取值范围为0到1,因此将参考高峰时间间隔进行归一化后,均通过数值1减去对应的参数实现负相关映射,进一步地将负相关映射值相加,得到每种文本分词的搜索高峰趋近度。
将每种文本分词对应的所有搜索指数的标准差与预设第二调节参数的和值,作为每种文本分词的第二参考和值;将参考搜索均值与第二参考和值的比值,作为每种文本分词的搜索指数稳定度。当对应的参考搜索均值越大时,说明对应的文本分词在进去的搜索频率较高,而搜索指数的标准差能够反映搜索频率在进去的稳定情况,也即当近期没有出现爆款情况时,对应的搜索指数大且分布稳定时,对应的文本分词的重要程度越大。在本发明实施例中,预设第二调节参数设置为0.01,用于防止分母为0。
进一步地将搜索指数稳定度和搜索高峰趋近度结合,从搜索频率的角度上反映其重要程度,本发明实施例将搜索指数稳定度的正相关映射值与搜索高峰趋近度的乘积,作为每种文本分词的搜索指数参数。由于搜索指数稳定度越大,搜索高峰趋近度越大时,对应种类的文本分词的重要程度越大,因此通过乘积的方式获取表征搜索频率角度上每种文本分词的重要程度。在本发明实施例中,通过以自然常数为底的指数函数进行正相关映射,实施者也可根据具体实施环境选取其他方法,例如直接进行线性归一化等,在此不做进一步赘述。
在本发明实施例中,商品标题类型中第/>种文本分词的搜索指数参数的获取方法在公式上表现为:
其中,为商品标题类型/>中第/>种文本分词的搜索指数参数;在当天之前的预设天数中,/>为商品标题类型/>中第/>种文本分词的参考高峰时间间隔,/>为预设天数对应的天数数量,/>为商品标题类型/>中第/>种文本分词对应的所有搜索指数的均值,/>为商品标题类型/>中第/>种文本分词对应的搜索指数的最小值,/>为商品标题类型/>中第/>种文本分词对应的搜索指数的最大值,/>为商品标题类型/>中第/>种文本分词对应的搜索指数的标准差,/>为以自然常数为底的指数函数;/>为预设第二调节参数,本发明实施例设置为0.1,用于防止分母为0。/>为商品标题类型/>中第/>种文本分词对应的搜索指数稳定度,/>为商品标题类型/>中第/>种文本分词对应的参考均值差异,/>为商品标题类型/>中第/>种文本分词对应的搜索指数极差,/>为商品标题类型/>中第/>种文本分词对应的搜索指数趋势参考值,/>为商品标题类型/>中第/>种文本分词的参考高峰时间间隔的归一化值。需要说明的是,当搜索指数最大值和搜索指数最小值相等时,将对应的搜索指数趋势参考值直接赋值为0。
步骤S4:根据位置特性参数和搜索指数参数,得到每种文本分词的关键词特征值;根据关键词特征值结合大语言模型进行商品标题SPU关键词提取。
最后结合位置特性参数和搜索指数参数,通过频率位置和搜索频率两个方面表征文本分词的重要程度,本发明实施例根据位置特性参数和搜索指数参数,得到每种文本分词的关键词特征值。也即对应的关键词特征值越大,对应文本分词的重要程度越高,也即对应的关键程度越高。
优选地,关键词特征值的获取方法包括:
将位置特性参数与搜索指数参数的和值,作为每种文本分词的关键词特征值。实施者也可通过其他方法根据位置特性参数与搜索指数参数得到关键词特征值,例如乘积,或归一化之后相加,在此不做进一步赘述。
在本发明实施例中,商品标题类型中的第/>种文本分词的关键词特征值的获取方法在公式上表现为:
其中,为商品标题类型/>中的第/>种文本分词的关键词特征值,/>为商品标题类型/>中的第/>种文本分词的位置特性参数,/>为商品标题类型/>中的第/>种文本分词的搜索指数参数。
最后根据关键词特征值结合大语言模型进行商品标题SPU关键词提取。
优选地,根据关键词特征值结合大语言模型进行商品标题SPU关键词提取包括:
将用于关键词提取的商品标题输入到大语言模型中,输出对应的至少两个文本分词;将最大的预设数量个关键词特征值对应的文本分词,作为商品标题对应的SPU关键词。在本发明实施例中,考虑到搜索页面能够显示的文本数量有限,将预设数量设置为5,实施者可根据具体实施环境自行调整,且大语言模型为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
综上所述,本发明首先将每个商品标题划分出至少两个文本分词,根据相同商品标题类型中各种文本分词的出现频率和位置分布情况,得到位置特性参数;根据相同商品标题类型中各种文本分词的搜索指数分布情况,得到搜索指数参数;进一步地结合位置特性参数和搜索指数参数,得到每种文本分词对应的表征重要程度的关键词特征值。使得最后根据关键词特征值结合大语言模型进行商品标题SPU关键词提取的准确度更高。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (10)
1.一种基于大语言模型的商品标题SPU关键词提取方法,其特征在于,所述方法包括:
获取用于关键词提取的商品标题;
根据商品后台类目将对应的各个商品标题划分为至少两种商品标题类型;在每种商品标题类型中,根据每个商品标题的文本结构分布情况,将每个商品标题划分出至少两个文本分词;
根据每种文本分词在各个商品标题中的出现频率以及位置分布情况,得到每种文本分词的位置特性参数;根据每种文本分词的搜索频率整体分布状况,得到每种文本分词的搜索指数参数;
根据所述位置特性参数和所述搜索指数参数,得到每种文本分词的关键词特征值;根据所述关键词特征值结合大语言模型进行商品标题SPU关键词提取。
2.根据权利要求1所述的一种基于大语言模型的商品标题SPU关键词提取方法,其特征在于,所述位置特性参数的获取方法包括:
对于任意一个商品标题:
根据商品标题中文本分词的数量构建0序列;根据每个文本分词在商品标题中的位置,得到每个文本分词在0序列中的位置;依次将商品标题中的每个文本分词作为目标文本分词;将目标文本分词在0序列中对应位置的值置1,得到目标文本分词对应的二进制数;将所述二进制数转化为十进制得到目标文本分词的位置特性值;
将每种文本分词在同种商品标题类型的所有商品标题中的出现次数,作为每种文本分词的参考出现频次,所述每种文本分词中的各个文本分词相同;
在每种商品标题类型中,根据每种文本分词中的各个文本分词的位置特性值的数值整体分布情况,得到每种文本分词的参考位置特征值;
根据所述参考出现频次和所述参考位置特征值,得到每种商品标题类型中每种文本分词的位置特性参数,所述参考出现频次和所述参考位置特征值均与所述位置特性参数呈正相关关系。
3.根据权利要求2所述的一种基于大语言模型的商品标题SPU关键词提取方法,其特征在于,所述参考位置特征值的获取方法包括:
将每种文本分词对应的所有位置特性值的标准差与预设第一调节参数的和值,作为每种文本分词的第一参考和值,所述预设第一调节参数大于0;将每种文本分词对应的所有位置特性值的均值与所述第一参考和值的比值,作为每种文本分词的参考位置特征值。
4.根据权利要求2所述的一种基于大语言模型的商品标题SPU关键词提取方法,其特征在于,所述根据所述参考出现频次和所述参考位置特征值,得到每种商品标题类型中每种文本分词的位置特性参数的方法包括:
将所述参考位置特征值的正相关映射值与所述参考出现频次的乘积,作为每种商品标题类型中每种文本分词的位置特性参数。
5.根据权利要求1所述的一种基于大语言模型的商品标题SPU关键词提取方法,其特征在于,所述搜索指数参数的获取方法包括:
统计每种文本分词在当天之前预设天数中每天的搜索指数;将最大的搜索指数对应的天与当天的天数间隔,作为每种文本分词的参考高峰时间间隔;
将每种文本分词对应的所有搜索指数的均值,作为参考搜索均值;将所述参考搜索均值与每种文本分词对应的搜索指数的最小值之间的差异,作为参考均值差异;将所述参考均值差异与每种文本分词对应的搜索指数极差之间的比值,作为每种文本分词的搜索指数趋势参考值;
根据所述参考高峰时间间隔和所述搜索指数趋势参考值,得到的每种文本分词的搜索高峰趋近度,所述参考高峰时间间隔和所述搜索指数趋势参考值均与所述搜索高峰趋近度呈负相关;
将每种文本分词对应的所有搜索指数的标准差与预设第二调节参数的和值,作为每种文本分词的第二参考和值;将所述参考搜索均值与所述第二参考和值的比值,作为每种文本分词的搜索指数稳定度;
将所述搜索指数稳定度的正相关映射值与所述搜索高峰趋近度的乘积,作为每种文本分词的搜索指数参数。
6.根据权利要求5所述的一种基于大语言模型的商品标题SPU关键词提取方法,其特征在于,所述搜索高峰趋近度的获取方法包括:
将所述参考高峰时间间隔的归一化值的负相关映射值与所述搜索指数趋势参考值的负相关映射值的和值,作为每种文本分词的搜索高峰趋近度。
7.根据权利要求1所述的一种基于大语言模型的商品标题SPU关键词提取方法,其特征在于,所述关键词特征值的获取方法包括:
将所述位置特性参数与所述搜索指数参数的和值,作为每种文本分词的关键词特征值。
8.根据权利要求1所述的一种基于大语言模型的商品标题SPU关键词提取方法,其特征在于,所述根据所述关键词特征值结合大语言模型进行商品标题SPU关键词提取包括:
将用于关键词提取的商品标题输入到大语言模型中,输出对应的至少两个文本分词;将最大的预设数量个关键词特征值对应的文本分词,作为商品标题对应的SPU关键词。
9.根据权利要求1所述的一种基于大语言模型的商品标题SPU关键词提取方法,其特征在于,所述文本分词的获取方法包括:
将每个商品标题对应的文本通过分词和去停用词过程,得到每个商品标题对应的至少两个文本分词。
10.根据权利要求1所述的一种基于大语言模型的商品标题SPU关键词提取方法,其特征在于,所述商品标题类型的获取方法包括:
将电商系统中属于同一个三级类目的商品对应的所有商品标题,划分为一种商品标题类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311412578.3A CN117151082B (zh) | 2023-10-30 | 2023-10-30 | 一种基于大语言模型的商品标题spu关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311412578.3A CN117151082B (zh) | 2023-10-30 | 2023-10-30 | 一种基于大语言模型的商品标题spu关键词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117151082A true CN117151082A (zh) | 2023-12-01 |
CN117151082B CN117151082B (zh) | 2024-01-02 |
Family
ID=88899075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311412578.3A Active CN117151082B (zh) | 2023-10-30 | 2023-10-30 | 一种基于大语言模型的商品标题spu关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117151082B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390497A (zh) * | 2023-12-08 | 2024-01-12 | 浙江口碑网络技术有限公司 | 基于大语言模型的类目预测方法、装置和设备 |
CN117743838A (zh) * | 2024-02-20 | 2024-03-22 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
CN118656548A (zh) * | 2024-08-22 | 2024-09-17 | 成都信通信息技术有限公司 | 基于llm和文本相似度分析的产品描述生成方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070029967A (ko) * | 2005-09-12 | 2007-03-15 | (주)루크테크놀러지 | 키워드 광고 분석 시스템 |
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
KR20160091756A (ko) * | 2015-01-26 | 2016-08-03 | (주)해나소프트 | 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치 |
US20200081977A1 (en) * | 2017-10-20 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method and apparatus, storage medium, and electronic apparatus |
CN114663164A (zh) * | 2022-04-12 | 2022-06-24 | 广州欢聚时代信息科技有限公司 | 电商站点推广配置方法及其装置、设备、介质、产品 |
CN114663197A (zh) * | 2022-04-15 | 2022-06-24 | 广州欢聚时代信息科技有限公司 | 商品推荐方法及其装置、设备、介质、产品 |
CN114818674A (zh) * | 2022-05-09 | 2022-07-29 | 广州欢聚时代信息科技有限公司 | 商品标题关键词提取方法及其装置、设备、介质、产品 |
CN115129994A (zh) * | 2022-07-05 | 2022-09-30 | 多点(深圳)数字科技有限公司 | 商品推荐方法、装置、电子设备及可读存储介质 |
CN116521906A (zh) * | 2023-04-28 | 2023-08-01 | 广州商研网络科技有限公司 | 元描述生成方法及其装置、设备、介质 |
CN116796027A (zh) * | 2023-06-30 | 2023-09-22 | 广州商研网络科技有限公司 | 商品图片标签生成方法及其装置、设备、介质、产品 |
-
2023
- 2023-10-30 CN CN202311412578.3A patent/CN117151082B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070029967A (ko) * | 2005-09-12 | 2007-03-15 | (주)루크테크놀러지 | 키워드 광고 분석 시스템 |
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
KR20160091756A (ko) * | 2015-01-26 | 2016-08-03 | (주)해나소프트 | 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치 |
US20200081977A1 (en) * | 2017-10-20 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method and apparatus, storage medium, and electronic apparatus |
CN114663164A (zh) * | 2022-04-12 | 2022-06-24 | 广州欢聚时代信息科技有限公司 | 电商站点推广配置方法及其装置、设备、介质、产品 |
CN114663197A (zh) * | 2022-04-15 | 2022-06-24 | 广州欢聚时代信息科技有限公司 | 商品推荐方法及其装置、设备、介质、产品 |
CN114818674A (zh) * | 2022-05-09 | 2022-07-29 | 广州欢聚时代信息科技有限公司 | 商品标题关键词提取方法及其装置、设备、介质、产品 |
CN115129994A (zh) * | 2022-07-05 | 2022-09-30 | 多点(深圳)数字科技有限公司 | 商品推荐方法、装置、电子设备及可读存储介质 |
CN116521906A (zh) * | 2023-04-28 | 2023-08-01 | 广州商研网络科技有限公司 | 元描述生成方法及其装置、设备、介质 |
CN116796027A (zh) * | 2023-06-30 | 2023-09-22 | 广州商研网络科技有限公司 | 商品图片标签生成方法及其装置、设备、介质、产品 |
Non-Patent Citations (1)
Title |
---|
贺慧玲: "基于SEO的淘宝网店推广技术与策略研究", vol. 9, 电子商务 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390497A (zh) * | 2023-12-08 | 2024-01-12 | 浙江口碑网络技术有限公司 | 基于大语言模型的类目预测方法、装置和设备 |
CN117390497B (zh) * | 2023-12-08 | 2024-03-22 | 浙江口碑网络技术有限公司 | 基于大语言模型的类目预测方法、装置和设备 |
CN117743838A (zh) * | 2024-02-20 | 2024-03-22 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
CN117743838B (zh) * | 2024-02-20 | 2024-04-30 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
CN118656548A (zh) * | 2024-08-22 | 2024-09-17 | 成都信通信息技术有限公司 | 基于llm和文本相似度分析的产品描述生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117151082B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117151082B (zh) | 一种基于大语言模型的商品标题spu关键词提取方法 | |
KR101700585B1 (ko) | 온라인 제품 검색 방법 및 시스템 | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN105069086A (zh) | 一种优化电子商务商品搜索的方法及系统 | |
US20020016787A1 (en) | Apparatus for retrieving similar documents and apparatus for extracting relevant keywords | |
CN103473327A (zh) | 图像检索方法与系统 | |
CN107330057B (zh) | 一种ElasticSearch搜索相关度算法优化方法及系统 | |
CN105653562A (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
CN117390170B (zh) | 数据标准的对标方法、装置、电子设备和可读存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN110688572A (zh) | 冷启动状态下搜索意图的识别方法 | |
CN111966869B (zh) | 短语提取方法、装置、电子设备及存储介质 | |
CN108628875B (zh) | 一种文本标签的提取方法、装置及服务器 | |
CN113032573A (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
JP2000163437A (ja) | 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 | |
CN116010560B (zh) | 一种国际技术转移数据服务系统 | |
CN113535938B (zh) | 基于内容识别的标准数据构建方法、系统、设备及介质 | |
CN112069388B (zh) | 实体推荐方法、系统、计算机设备和计算机可读存储介质 | |
CN110413782B (zh) | 一种表自动主题分类方法、装置、计算机设备及存储介质 | |
JP2001155020A (ja) | 類似文書検索装置、類似文書検索方法及び記録媒体 | |
CN118643807B (zh) | 一种大模型合成信息质量评价方法 | |
CN114020990B (zh) | 一种数据排序方法、装置、设备及介质 | |
CN114897576B (zh) | 基于数据分析的商品推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |