CN116521906A - 元描述生成方法及其装置、设备、介质 - Google Patents
元描述生成方法及其装置、设备、介质 Download PDFInfo
- Publication number
- CN116521906A CN116521906A CN202310493080.8A CN202310493080A CN116521906A CN 116521906 A CN116521906 A CN 116521906A CN 202310493080 A CN202310493080 A CN 202310493080A CN 116521906 A CN116521906 A CN 116521906A
- Authority
- CN
- China
- Prior art keywords
- commodity
- meta
- description
- text
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012216 screening Methods 0.000 claims abstract description 70
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 130
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 230000006399 behavior Effects 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013215 result calculation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及电商技术领域中一种元描述生成方法及其装置、设备、介质,所述方法包括:获取商品的商品品类、商品标题及其目标关键词,构造出生成依据文本,所述目标关键词是与商品标题语义相关且搜索成效满足预设条件的商品搜索关键词;将所述生成依据文本输入至元描述生成模型,生成相应的多个候选元描述;采用预设的信息检索算法确定出多个所述候选元描述与所述商品标题之间的匹配度;筛选出所述匹配度满足预设条件的候选元描述,构造出推荐元描述列表推送给用户。本申请能够使用商品的商品品类、商品标题及其目标关键词生成高质量的元描述。
Description
技术领域
本申请涉及电商技术领域,尤其涉及一种元描述生成方法及其相应的装置、计算机设备、计算机可读存储介质。
背景技术
随着电商业务不断发展壮大,商家可通过构造其销售商品的元描述,使得能够作为搜索引擎的搜索结果有机会吸引到买家关注,达到引流的作用。传统技术中,通常是采用适用于文本生成的深度学习模型依据商家提供的少数几个关键词,或者依据描述商品的文本信息生成相应的元描述,如此实现,难以保证元描述的质量。
鉴于传统技术的不足,本申请人长期从事相关领域的研究,为解决电商领域业内难题,故另辟蹊径。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种元描述生成方法及其相应的装置、计算机设备、计算机可读存储介质。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种元描述生成方法,包括如下步骤:
获取商品的商品品类、商品标题及其目标关键词,构造出生成依据文本,所述目标关键词是与商品标题语义相关且搜索成效满足预设条件的商品搜索关键词;
将所述生成依据文本输入至元描述生成模型,生成相应的多个候选元描述;
采用预设的信息检索算法确定出多个所述候选元描述与所述商品标题之间的匹配度;
筛选出所述匹配度满足预设条件的候选元描述,构造出推荐元描述列表推送给用户。
进一步的实施例中,获取商品的商品品类、商品标题及其目标关键词之前,包括如下步骤:
采用预设的文本相似度模型确定出所述商品标题与预设的商品搜索关键词集中的每个商品搜索关键词之间对应的语义相似度;
筛选出所述商品搜索关键词集中所述语义相似度超过预设阈值的目标关键词。
进一步的实施例中,其特征在于,采用预设的文本相似度模型确定出所述商品标题与预设的商品关键词集中的每个商品关键词之间对应的语义相似度之前,包括如下步骤:
获取多个商品搜索关键词及其用户历史行为数据;
根据每个所述商品搜索关键词的用户历史行为数据确定出相应的搜索成效;
筛选出搜索成效满足预设条件的商品搜索关键词构造商品搜索关键词集。
进一步的实施例中,根据每个所述商品搜索关键词的用户历史行为数据确定出相应的搜索成效,包括如下步骤:
根据每个所述商品搜索关键词的用户历史行为数据确定出相应的点击率和转化率;
将所述点击率和所述转化率匹配对应的权重加和,计算出搜索成效。
进一步的实施例中,获取商品的商品品类、商品标题及其目标关键词,构造出生成依据文本之前,包括如下步骤:
获取训练商品的商品品类、商品标题及其目标关键词,构造出生成依据文本作为训练样本,并且标注所述训练商品的元描述作为训练样本的监督标签;
将所述训练样本输入至元描述生成模型,提取出训练样本的深层语义信息,生成元描述;
采用所述训练样本的监督标签,确定所述元描述的损失值,在所述损失值未达到预设阈值时,对元描述生成模型实施权重更新,并继续调用其他训练样本实施迭代训练直至元描述生成模型收敛。
进一步的实施例中,获取训练商品的商品品类、商品标题及其目标关键词,构造出生成依据文本作为训练样本,并且标注所述训练商品的元描述作为训练样本的监督标签之前,包括如下步骤:
获取多个商品的商品标题及元描述,确定出每个商品的元描述复述商品标题中文本对应的复现比率,筛选出所述复现比率满足预设阈值的初筛元描述;
采用预设的命名实体识别模型识别出所述初筛元描述中的实体文本及其实体类型,所述实体类型包括待检测实体类型及不检测实体类型;
采用预设的文本相似度模型确定出所述初筛元描述中待检测实体类型对应的实体文本与相应商品的商品标题之间的语义相似度;
筛选出所述初筛元描述中所述语义相似度满足预设阈值的合格实体类型,基于所述初筛元描述中的合格实体类型及不检测实体类型对应的预设子项评分,计算出相应的质量评分;
筛选出所述质量评分满足预设条件的精筛元描述对应的商品作为训练商品。
进一步的实施例中,获取多个商品的商品标题及元描述,确定出每个商品的元描述复述商品标题中文本对应的复现比率,筛选出所述复现比率满足预设阈值的初筛元描述之前,包括如下步骤:
获取商品的元描述作为训练样本,并且标注所述商品的元描述中的实体文本及其实体类型作为训练样本的监督标签;
将所述训练样本输入至命名实体识别模型预测出所述训练样本中的实体文本及其实体类型;
采用所述训练样本的监督标签,确定所述预测的实体文本及其实体类型对应的损失值,在所述损失值未达到预设阈值时,对命名实体识别模型实施权重更新,并继续调用其他训练样本实施迭代训练直至命名实体识别模型收敛。
另一方面,适应本申请的目的之一而提供的一种元描述生成装置,包括生成依据构造模块、元描述生成模块、匹配度确定模块以及元描述筛选模块,其中,生成依据构造模块,用于获取商品的商品品类、商品标题及其目标关键词,构造出生成依据文本,所述目标关键词是与商品标题语义相关且搜索成效满足预设条件的商品搜索关键词;元描述生成模块,用于将所述生成依据文本输入至元描述生成模型,生成相应的多个候选元描述;匹配度确定模块,用于采用预设的信息检索算法确定出多个所述候选元描述与所述商品标题之间的匹配度;元描述筛选模块,用于筛选出所述匹配度满足预设条件的候选元描述,构造出推荐元描述列表推送给用户。
进一步的实施例中,所述生成依据构造模块之前,包括:第一语义相似度确定子模块,用于采用预设的文本相似度模型确定出所述商品标题与预设的商品搜索关键词集中的每个商品搜索关键词之间对应的语义相似度;关键词筛选子模块,用于筛选出所述商品搜索关键词集中所述语义相似度超过预设阈值的目标关键词。
进一步的实施例中,其特征在于,所述语义相似度确定子模块之前,包括:数据获取子模块,用于获取多个商品搜索关键词及其用户历史行为数据;搜索成效确定子模块,用于根据每个所述商品搜索关键词的用户历史行为数据确定出相应的搜索成效;关键词集构造子模块,用于筛选出搜索成效满足预设条件的商品搜索关键词构造商品搜索关键词集。
进一步的实施例中,搜索成效确定子模块,包括:点击率转化率确定单元,用于根据每个所述商品搜索关键词的用户历史行为数据确定出相应的点击率和转化率;搜索成效计算单元,用于将所述点击率和所述转化率匹配对应的权重加和,计算出搜索成效。
进一步的实施例中,所述搜索成效确定子模块之前,包括:第一训练预备子模块,用于获取训练商品的商品品类、商品标题及其目标关键词,构造出生成依据文本作为训练样本,并且标注所述训练商品的元描述作为训练样本的监督标签;第一前馈推理子模块,用于将所述训练样本输入至元描述生成模型,提取出训练样本的深层语义信息,生成元描述;第一迭代收敛子模块,用于采用所述训练样本的监督标签,确定所述元描述的损失值,在所述损失值未达到预设阈值时,对元描述生成模型实施权重更新,并继续调用其他训练样本实施迭代训练直至元描述生成模型收敛。
进一步的实施例中,所述第一训练预备子模块之前,包括:元描述初筛子模块,用于获取多个商品的商品标题及元描述,确定出每个商品的元描述复述商品标题中文本对应的复现比率,筛选出所述复现比率满足预设阈值的初筛元描述;命名实体识别子模块,用于采用预设的命名实体识别模型识别出所述初筛元描述中的实体文本及其实体类型,所述实体类型包括待检测实体类型及不检测实体类型;第二语义相似度确定子模块,用于采用预设的文本相似度模型确定出所述初筛元描述中待检测实体类型对应的实体文本与相应商品的商品标题之间的语义相似度;质量评分计算子模块,用于筛选出所述初筛元描述中所述语义相似度满足预设阈值的合格实体类型,基于所述初筛元描述中的合格实体类型及不检测实体类型对应的预设子项评分,计算出相应的质量评分;商品筛选子模块,用于筛选出所述质量评分满足预设条件的精筛元描述对应的商品作为训练商品。
进一步的实施例中,所述元描述初筛子模块之前,包括:第二训练预备子模块,用于获取商品的元描述作为训练样本,并且标注所述商品的元描述中的实体文本及其实体类型作为训练样本的监督标签;第二前馈推理子模块,用于将所述训练样本输入至命名实体识别模型预测出所述训练样本中的实体文本及其实体类型;第二迭代收敛子模块,用于采用所述训练样本的监督标签,确定所述预测的实体文本及其实体类型对应的损失值,在所述损失值未达到预设阈值时,对命名实体识别模型实施权重更新,并继续调用其他训练样本实施迭代训练直至命名实体识别模型收敛。
又一方面,适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的元描述生成方法的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的元描述生成方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
本申请的技术方案存在多方面优势,包括但不限于如下各方面:
本申请构造出商品的商品品类、商品标题及其目标关键词相应的生成依据文本,将其输入至元描述生成模型,生成相应的多个候选元描述,采用预设的信息检索算法确定出多个候选元描述与商品标题之间的匹配度,筛选出所述匹配度满足预设条件的候选元描述,构造出推荐元描述列表推送给用户。本申请一方面通过预先给出了生成依据文本,生成依据文本中包含预选具有良好搜索成效的目标关键词,利用这些目标关键词生成的候选元描述,与这些目标关键词在语义上紧密关联,有助于确保用户通过输入这些目标关键词或其近义词搜索到相应的元描述,进一步能够吸引该用户关注,提升曝光率,而且该用户搜索到元描述有较大几率进行进一步操作产生搜索成效,带来流量。另一方面,推荐元描述列表中的元描述多样化且与商品高度相关,能够为商家用户提供更多的选择或参考,提升用户体验,增加用户粘性。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的元描述生成方法的典型实施例的流程示意图;
图2为本申请的实施例中确定商品搜索关键词集中与商品标题相匹配的目标关键词的流程示意图;
图3为本申请的实施例中构造商品搜索关键词集的流程示意图;
图4为本申请的实施例中确定商品搜索关键词的搜索成效的流程示意图;
图5为本申请的实施例中元描述生成模型的训练过程的流程示意图;
图6为本申请的实施例中确定训练商品的流程示意图;
图7为本申请的实施例中命名实体识别模型的训练过程的流程示意图;
图8为本申请的元描述生成装置的原理框图;
图9为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩充到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种元描述生成方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如,本申请的示例性应用场景中,可以在电商平台的服务器中部署实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的元描述生成方法,在其典型实施例中,包括如下步骤:
步骤S1100、获取商品的商品品类、商品标题及其目标关键词,构造出生成依据文本,所述目标关键词是与商品标题语义相关且搜索成效满足预设条件的商品搜索关键词;
所述商品的商品品类、商品标题都是描述商品的文本,能够以精简的表述直接明确地描述商品的属性、类型、特性等,能让买家快速准确地了解商品,吸引买家关注,通常所述商品品类、商品标题是关联相应的商品存储于商品数据库中,可通过相应的数据获取接口访问所述商品数据库中获取所述商品品类、商品标题,所述数据获取接口可由本领域技术人员灵活变通实现。
所述商品搜索关键词可以是来源于电商平台的用户搜索时输入的文本,也可以是来源于搜索引擎的用户搜索时输入的文本,无论是来源于电商平台或是搜索引擎均可监控用户搜索后是否进行进一步的操作例如“点击”到达相应的商品页面、“购买”商品、“点赞”商品、将商品“加入购物车”、“收藏”商品、“分享”商品等,当用户进行所述进一步操作后便可确定出相应量化的搜索成效,所述搜索成效可以体现为点击率和/或转化率,基于所述搜索成效是否超过预设阈值,便可据此相应界定搜索成效是否达标,所述预设阈值可由本领域技术人员按业务所需设定,当超过时表明搜索成效达标,相应的商品搜索关键词被用户用于搜索时,能够吸引到用户进行进一步操作且通常会被用户用于搜索,为销售商品带来流量;当不超过时表明搜索成效不达标,相应的商品搜索关键词被用户用于搜索时,不能够吸引到用户进行进一步操作且通常不会被用户用于搜索,无法为销售商品带来流量。进一步,确定出与所述商品标题语义相关的搜索成效达标的商品搜索关键词作为所述目标关键词,具体可通过计算所述搜索成效达标的商品搜索关键词与商品标题相对应的语义的特征表示之间的语义相似度,所述语义相似度大于预设阈值时,确定相应的商品搜索关键词与商品标题语义相关作为所述目标关键词,所述预设阈值可由本领域技术人员按业务所需设定,所述特征表示可通过采用预先训练至收敛的适用于提取文本特征输出相应的向量的深度学习模型,本领域技术人员可灵活变通实现。
拼接所述商品品类、商品标题及其目标关键词构造出所述生成依据文本。
步骤S1200、将所述生成依据文本输入至元描述生成模型,生成相应的多个候选元描述;
所述预设的元描述生成模型为端到端的语言模型,选型可为GPT系列模型、Bert模型、基于Encoder-Decoder模型、Transformer模型等等,本领域技术人员按需择一实现。所述元描述生成模型预先经过训练至收敛状态,习得根据生成依据文本生成相应的元描述的能力,具体的训练过程由后续部分实施例进一步揭示,本步骤暂且按下不表。
一种实施例中,所述预设的标题生成模型采用GPT-3模型,将所述生成依据文本作为模型的输入序列,对所述输入序列进行分词,获得相应的分词序列,然后,将分词序列输入至Transformer模型中的编码端,通过堆叠多层多头自注意力层和全连接层,对所述分词序列中的每个分词进行编码,具体而言,对每个所述分词,经过多头注意力层时对其进行多头注意力计算,从而对分词的不同维度进行自注意力加权,获得相应的加权的向量表示,再经过全连接层后,得到分词对应的编码向量表示,将分词序列中每个分词对应的编码表示输入至Transformer模型中的解码端,对所述每个分词对应的编码表示进行解码,生成相应的元描述作为候选元描述,具体而言,解码过程中根据已生成的单词和当前单词位置和分词对应的编码表示,计算每次生成单词的生成概率,选取生成概率最高的单词,将每次生成的单词依次拼接便可得到元描述。
据此,多样化生成候选元描述,多次调用所述元描述生成模型根据所述生成依据文本生成相对应的多个不同的候选元描述,确保生成丰富的元描述,从不同角度、不同的语言风格来描述商品,并且在此基础上还可筛选出较优的元描述。
步骤S1300、采用预设的信息检索算法确定出多个所述候选元描述与所述商品标题之间的匹配度;
一种实施例中,所述信息检索算法为可以采用基于关键词匹配的检索算法、基于向量空间模型的检索算法、基于机器学习的检索算法、基于概率检索模型的算法,本领域技术人员可按需择一实现,例如采用概率检索模型的算法BM25实现所述信息检索算法,计算出多个所述候选元描述与所述商品标题之间的相关度作为所述匹配度,具体而言,将每个所述候选元描述和所述商品标题进行分词,获得相应的分词序列,匹配出候选元描述与商品标题对应的分词序列中均出现的分词,及分词出现在候选元描述的词频,计算每个分词的IDF值,示范性公式举例:
其中:N表示候选元描述的个数,n表示包含该分词的候选元描述的个数。基于所述每个分词的IDF值计算出相应的BM25权重,示范性公式举例:
其中:表示该分词的BM25权重,tf表示该分词出现在候选元描述的词频,DL表示候选元描述的长度,avgDL表示平均候选元描述长度,k1和b都是可调参数,具体本领域技术人员可根据先验知识或实验数据按需设定。
步骤S1400、筛选出所述匹配度满足预设条件的候选元描述,构造出推荐元描述列表推送给用户。
根据所述多个候选元描述对应的匹配度从高到低的顺序,对多个候选元描述进行排序,筛选出排序靠前的候选元描述作为推荐元描述,汇总所有的推荐元描述构造出推荐元描述列表推送给用户,以供用户选取自身所需的推荐元描述,或是参考推荐元描述列表中的推荐元描述自行编辑元描述。
根据本申请的典型实施例可以知晓,本申请的技术方案存在多方面优势,包括但不限于如下各方面:
本申请构造出商品的商品品类、商品标题及其目标关键词相应的生成依据文本,将其输入至元描述生成模型,生成相应的多个候选元描述,采用预设的信息检索算法确定出多个候选元描述与商品标题之间的匹配度,筛选出所述匹配度满足预设条件的候选元描述,构造出推荐元描述列表推送给用户。本申请一方面通过预先给出了生成依据文本,生成依据文本中包含预选具有良好搜索成效的目标关键词,利用这些目标关键词生成的候选元描述,与这些目标关键词在语义上紧密关联,有助于确保用户通过输入这些目标关键词或其近义词搜索到相应的元描述,进一步能够吸引该用户关注,提升曝光率,而且该用户搜索到元描述有较大几率进行进一步操作产生搜索成效,带来流量。另一方面,推荐元描述列表中的元描述多样化且与商品高度相关,能够为商家用户提供更多的选择或参考,提升用户体验,增加用户粘性。
进一步的实施例中,步骤S1100、获取商品的商品品类、商品标题及其目标关键词之前,包括如下步骤:
步骤S1010、采用预设的文本相似度模型确定出所述商品标题与预设的商品搜索关键词集中的每个商品搜索关键词之间对应的语义相似度;
所述文本相似度模型可以是双塔模型,其包括两个处理支路,每个处理支路均包含完全相同的网络结构,每个处理支路包括文本特征表示层,然后,将两个处理支路的输出分别接入线性层进行语义相似度的计算,所述文本特征提取层可采用Text Transfomer、RoBERTa、XLM-RoBERTa、MPNet、BERT等,本领域技术人员可按需择一实现。所述线性层可采用MLP(多层感知机)、FC(全连接层)等,本领域技术人员可按需择一实现。鉴于RoBERTa+CRF、Text Transfomer、RoBERTa、XLM-RoBERTa、MPNet、BERT的训练过程为本领域所知晓,故对此不作详述。
将所述商品标题与预设的商品搜索关键词集中的每个商品搜索关键词构成文本数据对,将所述文本数据对作为所述文本相似度模型的输入,由一个处理支路提取文本数据对中商品标题的深层语义特征,获得相应向量化的特征表示,同时,另一处理支路提取文本数据对中商品搜索关键词的深层语义特征,获得相应向量化的特征表示,然后,由线性层计算商品标题与商品搜索关键词对应的特征表示之间的向量距离作为语义相似度,所述向量距离计算,可采用任意可用的向量距离算法实现,包括但不限于如下任意一种:余弦相似度算法、向量点积算法、曼哈顿距离、欧氏距离算法、皮尔逊相关系数等。
所述商品搜索关键词集是通过获取来源于电商平台的用户搜索时输入的且搜索成效满足预设条件的商品搜索关键词,和/或是获取来源于搜索引擎的用户搜索时输入的且搜索成效满足预设条件的商品搜索关键词构造而成,具体实现由后续部分实施例进一步揭示,本步骤暂且按下不表。
步骤S1020、筛选出所述商品搜索关键词集中所述语义相似度超过预设阈值的目标关键词。
筛选出所述商品搜索关键词集中所述语义相似度超过预设阈值的商品搜索关键词作为目标关键词,所述目标关键词便是与所述商品标题语义相关,所述预设阈值可由本领域技术人员按需设定。
本实施例中,通过采用文本相似度模型确定出商品搜索关键词集中与商品标题语义相关的目标关键词,执行高效,能够确保语义相似度的准确性,以其准确表示两个文本之间的语义相近程度。
进一步的实施例中,其特征在于,步骤S1010、采用预设的文本相似度模型确定出所述商品标题与预设的商品关键词集中的每个商品关键词之间对应的语义相似度之前,包括如下步骤:
步骤S1000、获取多个商品搜索关键词及其用户历史行为数据;
获取来源于电商平台的用户搜索时输入的文本即所述商品搜索关键词,和/或来源于搜索引擎的用户搜索时输入的文本即所述商品搜索关键词,此外,无论是来源于电商平台或是搜索引擎均可监控用户搜索后是否进行进一步的操作例如“点击”到达相应的商品页面、“购买”商品、“点赞”商品、将商品“加入购物车”、“收藏”商品、“分享”商品等,生成相应的用户历史行为数据。
步骤S1001、根据每个所述商品搜索关键词的用户历史行为数据确定出相应的搜索成效;
根据每个所述商品搜索关键词被用户用于搜索,搜索出相应的搜索结果后,计算用户点击行为的次数与用户无任何行为的次数之比,便可获得相应的点击率,计算用户加入购物车、购买、收藏、点赞、分享中任意一项或任意多项对应的次数之和与用户无任何行为的次数之和,便可获得相应的转化率。
由于点击率和转化率对于搜索成效的参考价值不同,为了合理衡量两者的作用力以确保搜索成效的合理性和准确性,将每个所述商品搜索关键词对应的点击率和转化率分别乘上相匹配的权重再相加,计算出搜索成效,所述点击率和转化率分别匹配的权重相加为1,具体可由本领域技术人员灵活变通设置,推荐的点击率对应的权重为0.4,转化率对应的权重为0.6。
步骤S1002、筛选出搜索成效满足预设条件的商品搜索关键词构造商品搜索关键词集。
不难理解,所述搜索成效越高表示商品搜索关键词越能引起用户的关注且通常会被用户用于搜索,根据搜索成效高到低的顺序对所述商品搜索关键词进行排序,筛选出排序靠前的多个商品搜索关键词,具体数量可由本领域技术人员按需设定,汇总所有的筛选出的商品搜索关键词构造出商品搜索关键词集。
本实施例中,通过确定出商品搜索关键词对应的搜索成效,据此,筛选出搜索成效较高的商品搜索关键词构建商品搜索关键词集,确保其中的商品搜索关键词能够吸引用户的关注且通常会被用户用于搜索。
进一步的实施例中,步骤S1001、根据每个所述商品搜索关键词的用户历史行为数据确定出相应的搜索成效,包括如下步骤:
步骤S2001、根据每个所述商品搜索关键词的用户历史行为数据确定出相应的点击率和转化率;
根据每个所述商品搜索关键词被用户用于搜索,搜索出相应的搜索结果后,计算用户点击行为的次数与用户无任何行为的次数之比,便可获得相应的点击率,计算用户加入购物车、购买、收藏、点赞、分享中任意一项或任意多项对应的次数之和与用户无任何行为的次数之和,便可获得相应的转化率。
步骤S3001、将所述点击率和所述转化率匹配对应的权重加和,计算出搜索成效。
将每个所述商品搜索关键词对应的点击率和转化率分别乘上相匹配的权重再相加,计算出搜索成效,所述点击率和转化率分别匹配的权重相加为1,具体可由本领域技术人员灵活变通设置,推荐的点击率对应的权重为0.4,转化率对应的权重为0.6。
本实施例中,本实施例中,根据商品搜索关键词的用户历史行为数据确定出相应的点击率和转化率,将两者匹配对应的权重加和,计算出搜索成效,能够确保搜索成效的合理性和准确性,即合理准确地表示采用商品搜索关键词搜索后能吸引用户的关注且通常会被用户用于搜索的可能性。
进一步的实施例中,步骤S1100、获取商品的商品品类、商品标题及其目标关键词,构造出生成依据文本之前,包括如下步骤:
步骤S2100、获取训练商品的商品品类、商品标题及其目标关键词,构造出生成依据文本作为训练样本,并且标注所述训练商品的元描述作为训练样本的监督标签;
拼接训练商品的商品品类、商品标题及其目标关键词构造出相应的生成依据文本作为训练样本,按照步骤S1010-S1020确定商品标题对应的目标关键词。
所述训练商品通过筛选出预先获取的多个商品的商品标题及元描述中,元描述与商品标题高度相关且质量高的对应的商品。具体实现参考后续部分实施例进一步揭示,本步骤暂且按下不表。
步骤S2110、将所述训练样本输入至元描述生成模型,提取出训练样本的深层语义信息,生成元描述;
一种实施例中,所述预设的标题生成模型采用GPT-3模型,将所述训练样本作为模型的输入序列,对所述输入序列进行分词,获得相应的分词序列,然后,将分词序列输入至Transformer模型中的编码端,通过堆叠多层多头自注意力层和全连接层,对所述分词序列中的每个分词进行编码,具体而言,对每个所述分词,经过多头注意力层时对其进行多头注意力计算,从而对分词的不同维度进行自注意力加权,提取出相应的深层语义信息,获得相应的加权的向量表示,再经过全连接层后,得到分词对应的编码向量表示,将分词序列中每个分词对应的编码表示输入至Transformer模型中的解码端,对所述每个分词对应的编码表示进行解码,生成相应的元描述作为候选元描述,具体而言,解码过程中根据已生成的单词和当前单词位置和分词对应的编码表示,计算每次生成单词的生成概率,选取生成概率最高的单词,将每次生成的单词依次拼接便可得到元描述。
步骤S2120、采用所述训练样本的监督标签,确定所述元描述的损失值,在所述损失值未达到预设阈值时,对元描述生成模型实施权重更新,并继续调用其他训练样本实施迭代训练直至元描述生成模型收敛。
调用预设的交叉熵损失函数,此处可由本领域技术人员根据先验知识或实验经验灵活变通设置,基于根据所述训练样本的监督标签计算所述元描述的交叉熵损失值,当交叉熵损失值达到预设阈值时,表明元描述生成模型已被训练至收敛状态,从而可以终止模型训练;交叉熵损失值未达到预设阈值时,表明模型未收敛,于是根据交叉熵损失值对模型实施梯度更新,通常通过反向传播修正模型各个环节的权重参数以使模型进一步逼近收敛,然后,继续调用其他训练样本对该模型实施迭代训练,直至该模型被训练至收敛状态为止,所述预设阈值可由本领域技术人员按需设定。
本实施例中,通过采用训练商品的元描述监督训练标题生成模型直至收敛,使得元描述生成模型习得根据依据生成文本生成相应的元描述的能力,由于训练商品的元描述是与商品标题高度相关且质量高,能够确保生成高质量的商品标题。
进一步的实施例中,步骤S2100、获取训练商品的商品品类、商品标题及其目标关键词,构造出生成依据文本作为训练样本,并且标注所述训练商品的元描述作为训练样本的监督标签之前,包括如下步骤:
步骤S3100、获取多个商品的商品标题及元描述,确定出每个商品的元描述复述商品标题中文本对应的复现比率,筛选出所述复现比率满足预设阈值的初筛元描述;
对每个商品的商品标题及元描述进行分词,得到相对应的分词序列,计算出元描述的分词序列中出现与商品标题的分词序列中的分词的个数,除以商品标题的分词序列中的分词的总个数,得到每个所述商品的元描述对应的所述复现比率,筛选出所述复现比率超过预设阈值的元描述作为初筛元描述,所述预设阈值可由本领域技术人员按需设定。
步骤S3110、采用预设的命名实体识别模型识别出所述初筛元描述中的实体文本及其实体类型,所述实体类型包括待检测实体类型及不检测实体类型;
所述命名实体识别模型适用于命名实体识别任务,具体模型选型可为RoBERTa+CRF、BiLSTM+CRF、IDCNN+CRF、Bert+BiLSTM+CRF、FLAT等,本领域技术人员按需选取一种选型实现即可,命名实体识别模型预先经过训练至收敛,习得识别出元描述中的实体文本及其实体类型的能力,具体训练过程由后续部分实施例进一步揭示,本步骤暂且按下不表。
一种实施例中,采用Bert+BiLSTM+CRF模型作为命名实体识别模型,将所述初筛元描述作为命名实体识别模型的输入,以Bert充当embedding层提取出初筛元描述的深层语义信息,输出相应的文本特征序列输入至BiLSTM层,所述文本特征序列包含向量化表示初筛元描述中每个单字或单词对应的特征向量,由BiLSTM层输出初筛元描述中每个单字或单词对应的属于每个类别的分数作为CRF层的输入,由CRF层输出类别序列,所述类别序列包含初筛元描述中每个单字或单词对应的类别,根据所述类别序列便可相应确定出初筛元描述中的实体文本及其实体类型,将实体类型为主题、商品自身特性、商品扩展特性、效果语作为待检测实体类型,将实体类型为结束号召语作为不检测实体类型。
步骤S3120、采用预设的文本相似度模型确定出所述初筛元描述中待检测实体类型对应的实体文本与相应商品的商品标题之间的语义相似度;
将所述初筛元描述中待检测实体类型对应的实体文本与相应商品的商品标题构成文本数据对,将所述文本数据对作为所述文本相似度模型的输入,由一个处理支路提取文本数据对中实体文本的深层语义特征,获得相应向量化的特征表示,同时,另一处理支路提取文本数据对中商品标题的深层语义特征,获得相应向量化的特征表示,然后,由线性层计算实体文本与商品标题对应的特征表示之间的向量距离作为语义相似度,所述向量距离计算,可采用任意可用的向量距离算法实现,包括但不限于如下任意一种:余弦相似度算法、向量点积算法、曼哈顿距离、欧氏距离算法、皮尔逊相关系数等。
步骤S3130、筛选出所述初筛元描述中所述语义相似度满足预设阈值的合格实体类型,基于所述初筛元描述中的合格实体类型及不检测实体类型对应的预设子项评分,计算出相应的质量评分;
可预设每个所述待检测实体类型及所述不检测实体类型对应的预设子项评分,以其量化表示相应的实体类型对应的实体文本存在于初筛元描述中,该初筛元描述的质量,所述预设子项评分可由本领域技术人员按需设定,示范性举例,每个所述待检测实体类型及所述不检测实体类型对应的预设子项评分为主题:3、商品自身特性:3、商品扩展特性:2、效果语:1、结束号召语:1。
筛选出所述初筛元描述中所述语义相似度超过预设阈值的实体文本所属的待检测实体类型为合格实体类型,所述预设阈值可由本领域技术人员按需设定。
计算所述初筛元描述中的合格实体类型及不检测实体类型对应的预设子项评分之和,算出相应的质量评分。
步骤S3140、筛选出所述质量评分满足预设条件的精筛元描述对应的商品作为训练商品。
一种实施例中,根据初筛元描述的质量评分高到低的顺序,对初筛元描述进行排序,筛选出排序靠前的初筛元描述作为精筛元描述,将所述精筛元描述对应的商品作为训练商品。
另一种实施例中,筛选出所述质量评分超过预设阈值的作为精筛元描述,将所述精筛元描述对应的商品作为训练商品。
本实施例中,通过确定出商品的元描述复述商品标题中文本对应的复现比率,初步筛选出复现比率较高的初筛元描述,进一步,识别出初筛元描述中的实体文本及其实体类型,确定出与商品标题语义相近的实体文本对应的合格实体类型,根据初筛元描述中合格实体类型及不检测实体类型对应的预设子项评分计算出相应的质量评分,精准筛选出质量评分较高的精筛元描述对应的商品作为训练商品,可以理解,初筛再精筛能够确保执行筛选效率,并且能够精准地筛选出与商品相关性高且高质量的元描述,在此基础上,训练商品的元描述用作监督训练元描述生成模型,能够确保模型生成高质量的元描述。
进一步的实施例中,步骤S3100、获取多个商品的商品标题及元描述,确定出每个商品的元描述复述商品标题中文本对应的复现比率,筛选出所述复现比率满足预设阈值的初筛元描述之前,包括如下步骤:
步骤S3000、获取商品的元描述作为训练样本,并且标注所述商品的元描述中的实体文本及其实体类型作为训练样本的监督标签;
根据各个实体类型采用BIO,BIOES,BMES三种标注方法中任意一种标注相对应的实体文本,所述实体类型包括主题、商品自身特性、商品扩展特性、效果语、结束号召语,为便于理解实体文本与其所属的实体类型之间的关系,示范性举例说明:
元描述文本为:“2023夏季新款厚底懒人鞋,品牌TELEIXI~(特雷西),让你脚踩舒适,走路不累。这款拖鞋采用最新设计,搭配踩屎感的造型,时尚百搭,随心所欲穿搭。厚实鞋底,懒人式快速穿脱,方便舒适。一旦你戴上这双鞋子,它就会让你引人注目,成为别人眼中的时尚焦点。适合各种不同场合穿搭,是你夏季不容错过的款式”
其中:
实体类型为主题,对应的实体文本为:2023夏季新款厚底懒人鞋,品牌TELEIXI~(特雷西)
实体类型为商品自身特性,对应的实体文本为:厚实鞋底、懒人式快速穿脱
实体类型为商品扩展属性,对应的实体文本为:舒适、时尚百搭、踩屎感的造型、适合各种不同场合穿搭
实体类型为效果语,对应的实体文本为:让你脚踩舒适,走路不累、一旦你戴上这双鞋子,它就会让你引人注目,成为别人眼中的时尚焦点。
实体类型为结束号召语,对应的实体文本为:是你夏季不容错过的款式。
步骤S3010、将所述训练样本输入至命名实体识别模型预测出所述训练样本中的实体文本及其实体类型;
一种实施例中,采用Bert+BiLSTM+CRF模型作为命名实体识别模型,将所述训练样本作为命名实体识别模型的输入,以Bert充当embedding层提取出样本的深层语义信息,输出相应的文本特征序列输入至BiLSTM层,所述文本特征序列包含向量化表示元描述中每个单字或单词对应的特征向量,由BiLSTM层输出元描述中每个单字或单词对应的属于每个类别的分数作为CRF层的输入,由CRF层输出类别序列,所述类别序列包含元描述中每个单字或单词对应的类别,根据所述类别序列便可相应确定出元描述中的实体文本及其实体类型。所述类别基于实体类型采用BIO,BIOES,BMES三种标注方法中任意一种而得。
步骤S3020、采用所述训练样本的监督标签,确定所述预测的实体文本及其实体类型对应的损失值,在所述损失值未达到预设阈值时,对命名实体识别模型实施权重更新,并继续调用其他训练样本实施迭代训练直至命名实体识别模型收敛。
调用预设的交叉熵损失函数,此处可由本领域技术人员根据先验知识或实验经验灵活变通设置,基于根据所述训练样本的监督标签计算所述预测的实体文本及其实体类型的交叉熵损失值,当交叉熵损失值达到预设阈值时,表明命名实体识别模型已被训练至收敛状态,从而可以终止模型训练;交叉熵损失值未达到预设阈值时,表明模型未收敛,于是根据交叉熵损失值对模型实施梯度更新,通常通过反向传播修正模型各个环节的权重参数以使模型进一步逼近收敛,然后,继续调用其他训练样本对该模型实施迭代训练,直至该模型被训练至收敛状态为止,所述预设阈值可由本领域技术人员按需设定。
本实施例中,通过采用标注元描述中的实体文本及其所属的实体类型监督训练命名实体识别模型直至收敛,使得命名实体识别模型习得识别出元描述中的实体文本及其实体类型的能力,能够确保识别的准确性。
请参阅图8,适应本申请的目的之一而提供的一种元描述生成装置,是对本申请的元描述生成方法的功能化体现,该装置包括生成依据构造模块1100、元描述生成模块1200、匹配度确定模块1300以及元描述筛选模块1400,其中,生成依据构造模块1100,用于获取商品的商品品类、商品标题及其目标关键词,构造出生成依据文本,所述目标关键词是与商品标题语义相关且搜索成效满足预设条件的商品搜索关键词;元描述生成模块1200,用于将所述生成依据文本输入至元描述生成模型,生成相应的多个候选元描述;匹配度确定模块1300,用于采用预设的信息检索算法确定出多个所述候选元描述与所述商品标题之间的匹配度;元描述筛选模块1400,用于筛选出所述匹配度满足预设条件的候选元描述,构造出推荐元描述列表推送给用户。
进一步的实施例中,所述生成依据构造模块1100之前,包括:第一语义相似度确定子模块,用于采用预设的文本相似度模型确定出所述商品标题与预设的商品搜索关键词集中的每个商品搜索关键词之间对应的语义相似度;关键词筛选子模块,用于筛选出所述商品搜索关键词集中所述语义相似度超过预设阈值的目标关键词。
进一步的实施例中,其特征在于,所述语义相似度确定子模块之前,包括:数据获取子模块,用于获取多个商品搜索关键词及其用户历史行为数据;搜索成效确定子模块,用于根据每个所述商品搜索关键词的用户历史行为数据确定出相应的搜索成效;关键词集构造子模块,用于筛选出搜索成效满足预设条件的商品搜索关键词构造商品搜索关键词集。
进一步的实施例中,搜索成效确定子模块,包括:点击率转化率确定单元,用于根据每个所述商品搜索关键词的用户历史行为数据确定出相应的点击率和转化率;搜索成效计算单元,用于将所述点击率和所述转化率匹配对应的权重加和,计算出搜索成效。
进一步的实施例中,所述搜索成效确定子模块之前,包括:第一训练预备子模块,用于获取训练商品的商品品类、商品标题及其目标关键词,构造出生成依据文本作为训练样本,并且标注所述训练商品的元描述作为训练样本的监督标签;第一前馈推理子模块,用于将所述训练样本输入至元描述生成模型,提取出训练样本的深层语义信息,生成元描述;第一迭代收敛子模块,用于采用所述训练样本的监督标签,确定所述元描述的损失值,在所述损失值未达到预设阈值时,对元描述生成模型实施权重更新,并继续调用其他训练样本实施迭代训练直至元描述生成模型收敛。
进一步的实施例中,所述第一训练预备子模块之前,包括:元描述初筛子模块,用于获取多个商品的商品标题及元描述,确定出每个商品的元描述复述商品标题中文本对应的复现比率,筛选出所述复现比率满足预设阈值的初筛元描述;命名实体识别子模块,用于采用预设的命名实体识别模型识别出所述初筛元描述中的实体文本及其实体类型,所述实体类型包括待检测实体类型及不检测实体类型;第二语义相似度确定子模块,用于采用预设的文本相似度模型确定出所述初筛元描述中待检测实体类型对应的实体文本与相应商品的商品标题之间的语义相似度;质量评分计算子模块,用于筛选出所述初筛元描述中所述语义相似度满足预设阈值的合格实体类型,基于所述初筛元描述中的合格实体类型及不检测实体类型对应的预设子项评分,计算出相应的质量评分;商品筛选子模块,用于筛选出所述质量评分满足预设条件的精筛元描述对应的商品作为训练商品。
进一步的实施例中,所述元描述初筛子模块之前,包括:第二训练预备子模块,用于获取商品的元描述作为训练样本,并且标注所述商品的元描述中的实体文本及其实体类型作为训练样本的监督标签;第二前馈推理子模块,用于将所述训练样本输入至命名实体识别模型预测出所述训练样本中的实体文本及其实体类型;第二迭代收敛子模块,用于采用所述训练样本的监督标签,确定所述预测的实体文本及其实体类型对应的损失值,在所述损失值未达到预设阈值时,对命名实体识别模型实施权重更新,并继续调用其他训练样本实施迭代训练直至命名实体识别模型收敛。
为解决上述技术问题,本申请实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种元描述生成方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的元描述生成方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的元描述生成装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的元描述生成方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请能够使用商品的商品品类、商品标题及其目标关键词生成高质量的元描述,这些目标关键词具有良好的搜索成效,因此,可确保相应的元描述作为搜索结果的时候能够取得良好的引流成效。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种元描述生成方法,其特征在于,包括如下步骤:
获取商品的商品品类、商品标题及其目标关键词,构造出生成依据文本,所述目标关键词是与商品标题语义相关且搜索成效满足预设条件的商品搜索关键词;
将所述生成依据文本输入至元描述生成模型,生成相应的多个候选元描述;
采用预设的信息检索算法确定出多个所述候选元描述与所述商品标题之间的匹配度;
筛选出所述匹配度满足预设条件的候选元描述,构造出推荐元描述列表推送给用户。
2.根据权利要求1所述的元描述生成方法,其特征在于,获取商品的商品品类、商品标题及其目标关键词之前,包括如下步骤:
采用预设的文本相似度模型确定出所述商品标题与预设的商品搜索关键词集中的每个商品搜索关键词之间对应的语义相似度;
筛选出所述商品搜索关键词集中所述语义相似度超过预设阈值的目标关键词。
3.根据权利要求1所述的元描述生成方法,其特征在于,采用预设的文本相似度模型确定出所述商品标题与预设的商品关键词集中的每个商品关键词之间对应的语义相似度之前,包括如下步骤:
获取多个商品搜索关键词及其用户历史行为数据;
根据每个所述商品搜索关键词的用户历史行为数据确定出相应的搜索成效;
筛选出搜索成效满足预设条件的商品搜索关键词构造商品搜索关键词集。
4.根据权利要求3所述的元描述生成方法,其特征在于,根据每个所述商品搜索关键词的用户历史行为数据确定出相应的搜索成效,包括如下步骤:
根据每个所述商品搜索关键词的用户历史行为数据确定出相应的点击率和转化率;
将所述点击率和所述转化率匹配对应的权重加和,计算出搜索成效。
5.根据权利要求1所述的元描述生成方法,其特征在于,获取商品的商品品类、商品标题及其目标关键词,构造出生成依据文本之前,包括如下步骤:
获取训练商品的商品品类、商品标题及其目标关键词,构造出生成依据文本作为训练样本,并且标注所述训练商品的元描述作为训练样本的监督标签;
将所述训练样本输入至元描述生成模型,提取出训练样本的深层语义信息,生成元描述;
采用所述训练样本的监督标签,确定所述元描述的损失值,在所述损失值未达到预设阈值时,对元描述生成模型实施权重更新,并继续调用其他训练样本实施迭代训练直至元描述生成模型收敛。
6.根据权利要求5所述的元描述生成方法,其特征在于,获取训练商品的商品品类、商品标题及其目标关键词,构造出生成依据文本作为训练样本,并且标注所述训练商品的元描述作为训练样本的监督标签之前,包括如下步骤:
获取多个商品的商品标题及元描述,确定出每个商品的元描述复述商品标题中文本对应的复现比率,筛选出所述复现比率满足预设阈值的初筛元描述;
采用预设的命名实体识别模型识别出所述初筛元描述中的实体文本及其实体类型,所述实体类型包括待检测实体类型及不检测实体类型;
采用预设的文本相似度模型确定出所述初筛元描述中待检测实体类型对应的实体文本与相应商品的商品标题之间的语义相似度;
筛选出所述初筛元描述中所述语义相似度满足预设阈值的合格实体类型,基于所述初筛元描述中的合格实体类型及不检测实体类型对应的预设子项评分,计算出相应的质量评分;
筛选出所述质量评分满足预设条件的精筛元描述对应的商品作为训练商品。
7.根据权利要求6所述的元描述生成方法,其特征在于,获取多个商品的商品标题及元描述,确定出每个商品的元描述复述商品标题中文本对应的复现比率,筛选出所述复现比率满足预设阈值的初筛元描述之前,包括如下步骤:
获取商品的元描述作为训练样本,并且标注所述商品的元描述中的实体文本及其实体类型作为训练样本的监督标签;
将所述训练样本输入至命名实体识别模型预测出所述训练样本中的实体文本及其实体类型;
采用所述训练样本的监督标签,确定所述预测的实体文本及其实体类型对应的损失值,在所述损失值未达到预设阈值时,对命名实体识别模型实施权重更新,并继续调用其他训练样本实施迭代训练直至命名实体识别模型收敛。
8.一种元描述生成装置,其特征在于,包括:
生成依据构造模块,用于获取商品的商品品类、商品标题及其目标关键词,构造出生成依据文本,所述目标关键词是与商品标题语义相关且搜索成效满足预设条件的商品搜索关键词;
元描述生成模块,用于将所述生成依据文本输入至元描述生成模型,生成相应的多个候选元描述;
匹配度确定模块,用于采用预设的信息检索算法确定出多个所述候选元描述与所述商品标题之间的匹配度;
元描述筛选模块,用于筛选出所述匹配度满足预设条件的候选元描述,构造出推荐元描述列表推送给用户。
9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310493080.8A CN116521906B (zh) | 2023-04-28 | 2023-04-28 | 元描述生成方法及其装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310493080.8A CN116521906B (zh) | 2023-04-28 | 2023-04-28 | 元描述生成方法及其装置、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116521906A true CN116521906A (zh) | 2023-08-01 |
CN116521906B CN116521906B (zh) | 2023-10-24 |
Family
ID=87393675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310493080.8A Active CN116521906B (zh) | 2023-04-28 | 2023-04-28 | 元描述生成方法及其装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116521906B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151082A (zh) * | 2023-10-30 | 2023-12-01 | 量子数科科技有限公司 | 一种基于大语言模型的商品标题spu关键词提取方法 |
CN117217236A (zh) * | 2023-11-07 | 2023-12-12 | 深圳市灵智数字科技有限公司 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
CN118132752A (zh) * | 2024-05-06 | 2024-06-04 | 浙江口碑网络技术有限公司 | 商品描述词的分类方法以及装置 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150269163A1 (en) * | 2014-03-21 | 2015-09-24 | Alibaba Group Holding Limited | Providing search recommendation |
US20180101893A1 (en) * | 2016-10-11 | 2018-04-12 | Ebay Inc. | Systems and methods to select a product title |
CN108304533A (zh) * | 2018-01-29 | 2018-07-20 | 上海名轩软件科技有限公司 | 关键词推荐方法及设备 |
US20190057159A1 (en) * | 2017-08-15 | 2019-02-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, server, and storage medium for recalling for search |
CN113361787A (zh) * | 2021-06-11 | 2021-09-07 | 上海跨境电子商务公共服务有限公司 | 商品归类系统、方法、存储介质及终端 |
CN113793182A (zh) * | 2021-09-15 | 2021-12-14 | 广州华多网络科技有限公司 | 商品对象推荐方法及其装置、设备、介质、产品 |
CN113836916A (zh) * | 2021-09-28 | 2021-12-24 | 多点生活(成都)科技有限公司 | 物品品牌方的确定方法、装置及服务器 |
US20220027419A1 (en) * | 2018-12-28 | 2022-01-27 | Shenzhen Sekorm Component Network Co., Ltd | Smart search and recommendation method for content, storage medium, and terminal |
CN114168843A (zh) * | 2021-11-05 | 2022-03-11 | 阿里巴巴(中国)有限公司 | 搜索词推荐方法、设备及存储介质 |
WO2022095374A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、终端设备及存储介质 |
CN114860874A (zh) * | 2022-04-24 | 2022-08-05 | 阿里巴巴(中国)有限公司 | 对象匹配方法、模型训练方法、产品匹配方法和存储介质 |
CN115375385A (zh) * | 2021-05-19 | 2022-11-22 | 京东科技控股股份有限公司 | 商品信息的处理方法、装置、计算机设备及存储介质 |
CN115545832A (zh) * | 2022-10-08 | 2022-12-30 | 广州欢聚时代信息科技有限公司 | 商品搜索推荐方法及其装置、设备、介质 |
CN115563280A (zh) * | 2022-10-13 | 2023-01-03 | 广州华多网络科技有限公司 | 商品标签标注方法及其装置、设备、介质 |
CN115689672A (zh) * | 2022-09-29 | 2023-02-03 | 广州欢聚时代信息科技有限公司 | 聊天式商品导购方法及其装置、设备、介质 |
CN115907928A (zh) * | 2022-12-30 | 2023-04-04 | 广州欢聚时代信息科技有限公司 | 商品推荐方法及其装置、设备、介质 |
-
2023
- 2023-04-28 CN CN202310493080.8A patent/CN116521906B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150269163A1 (en) * | 2014-03-21 | 2015-09-24 | Alibaba Group Holding Limited | Providing search recommendation |
US20180101893A1 (en) * | 2016-10-11 | 2018-04-12 | Ebay Inc. | Systems and methods to select a product title |
US20190057159A1 (en) * | 2017-08-15 | 2019-02-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, server, and storage medium for recalling for search |
CN108304533A (zh) * | 2018-01-29 | 2018-07-20 | 上海名轩软件科技有限公司 | 关键词推荐方法及设备 |
US20220027419A1 (en) * | 2018-12-28 | 2022-01-27 | Shenzhen Sekorm Component Network Co., Ltd | Smart search and recommendation method for content, storage medium, and terminal |
WO2022095374A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、终端设备及存储介质 |
CN115375385A (zh) * | 2021-05-19 | 2022-11-22 | 京东科技控股股份有限公司 | 商品信息的处理方法、装置、计算机设备及存储介质 |
CN113361787A (zh) * | 2021-06-11 | 2021-09-07 | 上海跨境电子商务公共服务有限公司 | 商品归类系统、方法、存储介质及终端 |
CN113793182A (zh) * | 2021-09-15 | 2021-12-14 | 广州华多网络科技有限公司 | 商品对象推荐方法及其装置、设备、介质、产品 |
CN113836916A (zh) * | 2021-09-28 | 2021-12-24 | 多点生活(成都)科技有限公司 | 物品品牌方的确定方法、装置及服务器 |
CN114168843A (zh) * | 2021-11-05 | 2022-03-11 | 阿里巴巴(中国)有限公司 | 搜索词推荐方法、设备及存储介质 |
CN114860874A (zh) * | 2022-04-24 | 2022-08-05 | 阿里巴巴(中国)有限公司 | 对象匹配方法、模型训练方法、产品匹配方法和存储介质 |
CN115689672A (zh) * | 2022-09-29 | 2023-02-03 | 广州欢聚时代信息科技有限公司 | 聊天式商品导购方法及其装置、设备、介质 |
CN115545832A (zh) * | 2022-10-08 | 2022-12-30 | 广州欢聚时代信息科技有限公司 | 商品搜索推荐方法及其装置、设备、介质 |
CN115563280A (zh) * | 2022-10-13 | 2023-01-03 | 广州华多网络科技有限公司 | 商品标签标注方法及其装置、设备、介质 |
CN115907928A (zh) * | 2022-12-30 | 2023-04-04 | 广州欢聚时代信息科技有限公司 | 商品推荐方法及其装置、设备、介质 |
Non-Patent Citations (1)
Title |
---|
季小刚;张华伟;: "基于元搜索的个性化教学信息推荐系统设计与实现", 南昌大学学报(理科版), no. 06, pages 609 - 613 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151082A (zh) * | 2023-10-30 | 2023-12-01 | 量子数科科技有限公司 | 一种基于大语言模型的商品标题spu关键词提取方法 |
CN117151082B (zh) * | 2023-10-30 | 2024-01-02 | 量子数科科技有限公司 | 一种基于大语言模型的商品标题spu关键词提取方法 |
CN117217236A (zh) * | 2023-11-07 | 2023-12-12 | 深圳市灵智数字科技有限公司 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
CN117217236B (zh) * | 2023-11-07 | 2024-02-27 | 深圳市灵智数字科技有限公司 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
CN118132752A (zh) * | 2024-05-06 | 2024-06-04 | 浙江口碑网络技术有限公司 | 商品描述词的分类方法以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116521906B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116521906B (zh) | 元描述生成方法及其装置、设备、介质 | |
CN110717106B (zh) | 信息推送的方法及装置 | |
CN111581510A (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
US11301540B1 (en) | Refined search query results through external content aggregation and application | |
CN114663197A (zh) | 商品推荐方法及其装置、设备、介质、产品 | |
CN116797280A (zh) | 广告文案生成方法及其装置、设备、介质 | |
CN114186013A (zh) | 实体识别模型热更新方法及其装置、设备、介质、产品 | |
CN115545832A (zh) | 商品搜索推荐方法及其装置、设备、介质 | |
CN116976920A (zh) | 商品导购方法及其装置、设备、介质 | |
Zhao et al. | Heterogeneous star graph attention network for product attributes prediction | |
CN114218426A (zh) | 音乐视频推荐方法及其装置、设备、介质、产品 | |
CN114818674A (zh) | 商品标题关键词提取方法及其装置、设备、介质、产品 | |
Rodrigues et al. | Aspect-based classification of product reviews using Hadoop framework | |
Sharma et al. | Intelligent data analysis using optimized support vector machine based data mining approach for tourism industry | |
Malhotra et al. | IMSS-E: An intelligent approach to design of adaptive meta search system for E commerce website ranking | |
CN114626926A (zh) | 商品搜索类目识别方法及其装置、设备、介质、产品 | |
CN114862480A (zh) | 广告投放定向方法及其装置、设备、介质、产品 | |
Salampasis et al. | Comparison of RNN and Embeddings Methods for Next-item and Last-basket Session-based Recommendations | |
Hoang et al. | Academic event recommendation based on research similarity and exploring interaction between authors | |
CN116484105B (zh) | 业务处理方法、装置及计算机设备、存储介质、程序产品 | |
CN116823404A (zh) | 商品组合推荐方法及其装置、设备、介质 | |
CN116029793A (zh) | 商品推荐方法及其装置、设备、介质 | |
CN115907928A (zh) | 商品推荐方法及其装置、设备、介质 | |
CN113806536B (zh) | 文本分类方法及其装置、设备、介质、产品 | |
CN115936805A (zh) | 商品推荐方法及其装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |