CN114818674A - 商品标题关键词提取方法及其装置、设备、介质、产品 - Google Patents

商品标题关键词提取方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN114818674A
CN114818674A CN202210501438.2A CN202210501438A CN114818674A CN 114818674 A CN114818674 A CN 114818674A CN 202210501438 A CN202210501438 A CN 202210501438A CN 114818674 A CN114818674 A CN 114818674A
Authority
CN
China
Prior art keywords
title
text
words
title text
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210501438.2A
Other languages
English (en)
Inventor
葛莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huanju Shidai Information Technology Co Ltd
Original Assignee
Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huanju Shidai Information Technology Co Ltd filed Critical Guangzhou Huanju Shidai Information Technology Co Ltd
Priority to CN202210501438.2A priority Critical patent/CN114818674A/zh
Publication of CN114818674A publication Critical patent/CN114818674A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及电商信息技术领域中一种商品标题关键词提取方法及其装置、设备、介质、产品,所述方法包括:获取商品的标题文本;从所述标题文本中提取出属于产品词和属性词的候选关键词;将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别;筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词。本申请利用文本分类模型经训练获得的语义识别能力,实现对标题文本中的冗余信息的过滤,命中具有较高信息价值的目标关键词,能提升电商平台的商品信息匹配效率。

Description

商品标题关键词提取方法及其装置、设备、介质、产品
技术领域
本申请涉及电商信息处理技术领域,尤其涉及一种商品标题关键词提取方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
电子商务网站上线售卖的商品,通常会在其标题中堆砌很多描述词汇,以提高SEO(Search Engine Optimization,搜索引擎优化)的流量,导致商品标题变得非常冗长,存在一定的冗余信息,甚至是商品无关的信息。在商品搜索、广告、推荐的算法模型中,商品标题是重要的输入信息,需要滤除其中的冗余和噪声,抽取出关键的摘要信息。
自然语言处理技术存在一些从一段文本或长文本生提取关键词的方案,但这些技术方案并未考虑电子商务网站的商品标题的特殊性,因而无法直接用于处理商品标题。
商品标题一般是一个堆砌许多词语的、没有完整语法结构的句子,与目前已有关键词提取相关的技术所处理的文本差异较大。因此,如何从商品标题中,提取出关键词,仍是亟待解决的问题。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种商品标题关键词提取方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种商品标题关键词提取方法,包括如下步骤:
获取商品的标题文本;
从所述标题文本中提取出属于产品词和属性词的候选关键词;
将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别;
筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词。
深化的部分实施例中,从所述标题文本中提取出候选关键词,包括如下步骤:
将所述标题文本与预设的产品词库进行匹配,获得该标题文本中的产品词;
将所述标题文本与预设的属性词库进行匹配,获得该标题文本中的属性词;
将所述产品词和属性词确定为该标题文本的候选关键词。
扩展的部分实施例中,将所述产品词和属性词确定为该标题文本的候选关键词的步骤之前,包括如下步骤:
根据所述标题文本与其产品词或属性词的语义相似度,过滤其中语义相似度低于预设阈值的产品词或属性词。
扩展的部分实施例中,将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类的步骤之前,包括如下步骤:
采用预设的数据集中的训练样本对文本分类模型实施迭代训练,将其训练至收敛状态,所述训练样本包括标题文本及该标题文本所包含的单个候选关键词。
扩展的部分实施例中,将其中的候选关键词作为所述标题文本的目标关键词的步骤之后,包括如下步骤:
根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征;
根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征;
所述标题文本的每个目标关键词的词频特征与位置特征量化确定该目标关键词的信息评分;
根据所述信息评分选取所述产品词与所述属性词的组合文本作为所述商品的标题摘要。
深化的部分实施例中,根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征,包括如下步骤:
根据每个目标关键词在第一标题库中的统计词频确定其第一词频特征,所述第一标题库为与所述商品属于同类的商品的标题文本所构成的标题库;
根据每个目标关键词在第二标题库中的统计词频确定其第二词频特征,所述第二标题库为与所述商品属于相同线上店铺的商品的标题文本所构成的标题库。
深化的部分实施例中,根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征,包括如下步骤:
根据每个目标关键词在所述标题文本中的绝对位置确定其绝对位置特征;
根据属于属性词的每个目标关键词在所述标题文本中相对于其最接近的产品词的相对位置确定其相对位置特征;
针对属于产品词的每个目标关键词以标准值确定其相对位置特征。
适应本申请的目的之一而提供的一种商品标题关键词提取装置,包括标题获取模块、词条提取模块、词条分类模块,以及目标确定模块,其中:所述标题获取模块,用于获取商品的标题文本;所述词条提取模块,用于从所述标题文本中提取出属于产品词和属性词的候选关键词;所述词条分类模块,用于将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别;所述目标确定模块,用于筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词。
深化的部分实施例中,所述词条提取模块,包括:产品词提取单元,用于将所述标题文本与预设的产品词库进行匹配,获得该标题文本中的产品词;属性词提取单元,用于将所述标题文本与预设的属性词库进行匹配,获得该标题文本中的属性词;候选集确定单元,用于将所述产品词和属性词确定为该标题文本的候选关键词。
扩展的部分实施例中,先于所述候选集确定单元,包括:相似过滤单元,用于根据所述标题文本与其产品词或属性词的语义相似度,过滤其中语义相似度低于预设阈值的产品词或属性词。
扩展的部分实施例中,先于所述词条分类模块,包括:模型训练模块,用于采用预设的数据集中的训练样本对文本分类模型实施迭代训练,将其训练至收敛状态,所述训练样本包括标题文本及该标题文本所包含的单个候选关键词。
扩展的部分实施例中,后于所述目标确定单元,包括:词频特征确定单元,用于根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征;位置特征确定单元,用于根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征;信息评分确定单元,用于所述标题文本的每个目标关键词的词频特征与位置特征量化确定该目标关键词的信息评分;标题摘要选取单元,用于根据所述信息评分选取所述产品词与所述属性词的组合文本作为所述商品的标题摘要。
深化的部分实施例中,所述词频特征确定单元,包括:词频特征第一单元,用于根据每个目标关键词在第一标题库中的统计词频确定其第一词频特征,所述第一标题库为与所述商品属于同类的商品的标题文本所构成的标题库;词频特征第二单元,用于根据每个目标关键词在第二标题库中的统计词频确定其第二词频特征,所述第二标题库为与所述商品属于相同线上店铺的商品的标题文本所构成的标题库。
深化的部分实施例中,所述位置特征确定单元,包括:绝对位置特征单元,用于根据每个目标关键词在所述标题文本中的绝对位置确定其绝对位置特征;属性词相对位置单元,用于根据属于属性词的每个目标关键词在所述标题文本中相对于其最接近的产品词的相对位置确定其相对位置特征;产品词相对位置单元,用于针对属于产品词的每个目标关键词以标准值确定其相对位置特征。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的商品标题关键词提取方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的商品标题关键词提取方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势包括:
本申请根据商品标题由多个词汇堆砌的特点,利用商品标题的标题文本与标题文本中的候选关键词组成句对,然后利用预先习得语义相关程度分类能力的文本分类模型以各个句对进行分类判断,确定出所述候选关键词与所述标题文本的相关类别,最后按照预设的目标相关类别选取所述标题文本中的候选关键词作为目标关键词,由此,利用模型经训练获得的语义识别能力,实现对标题文本中的冗余信息的过滤,命中具有较高信息价值的目标关键词,适用于电商平台中为商品搜索、商品广告、商品推荐提供匹配商品所需的基础素材,而提升整个电商平台的商品信息匹配效率。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的商品标题关键词提取方法的典型实施例的流程示意图;
图2为本申请的实施例中提取候选关键词的过程的流程示意图;
图3为本申请的实施例中确定标题文本的标题摘要的过程的流程示意图;
图4为本申请的实施例中确定多个词频特征的过程的流程示意图;
图5为本申请的实施例中确定多个位置特征的过程的流程示意图;
图6为本申请的一个实施例中筛选标题摘要的过程的流程示意图;
图7本申请的另一实施例中筛选标题摘要的过程的流程示意图;
图8本申请的商品标题关键词提取装置的原理框图;
图9本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种商品标题关键词提取方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的商品标题关键词提取方法,在其典型实施例中,包括如下步骤:
步骤S1100、获取商品的标题文本:
适应具体的应用场景的不同,可以从各个应用场景相应的渠道获取商品的标题文本,例如:
示例性的一个应用场景,电商平台的线上店铺的商家用户在发布商品推广活动时,需要填写商品相关信息的文案,此时,根据商品标题提炼的商品摘要,可以直接作为推广文案的撰写素材。
示例性的一个应用场景中,电商平台的线上店铺的商家用户需要发布其上线的商品的商品信息,其中包含商品标题相对应的标题文本,可采集该标题文本以便为其生成标题摘要,推荐给该商家用户调用。
示例性的另一应用场景中,电商平台需要基于消费者用户提供的查询信息确定与其相匹配的商品,从而实现商品搜索、商品广告、商品推荐等功能,为此,可先对电商平台的线上店铺的商品数据库中的各个商品的商品信息中的商品标题生成相应的标题摘要,通过将所述查询信息与所述标题摘要进行匹配,确定部分商品以推荐给消费者用户。
示例性的又一应用场景中,需要向相关用户,包括消费者用户或商家用户推送某个商品的摘要信息,其中包含该商品的标题信息,因此,可以基于从该商品的商品信息中获得相应的标题文件,生成相应的摘要文本,封装于所述摘要信息中推送给所述用户。
诸如此类,适应电子商品平台的具体应用场景的不同,可从多个途径获取所述的标题文本。
步骤S1200、从所述标题文本中提取出属于产品词和属性词的候选关键词:
所述标题文本中一般包含多个词条,所述词条的主要构成包括具有名词属性的产品词,和具有形容词或副词属性的属性词。其中的产品词主要用于指示商品的品名或其代称,其中的属性词主要用于描述商品的特点、功能、效果等某一方面属性的信息。可采用多种方式从所述标题文本中提取出其中的产品词、属性词相对应的词条,这些词条便构成所述标题文本中的候选关键词。
示例而言,对于服饰类商品,所述产品词包括但不限于:裙、裙子、女裙、长裙,所述属性词包括但不限于:长袖、圆领、纯棉、休闲。
从标题文本中提取候选关键词的方式较为灵活,例如,可基于规则匹配或语义匹配等方式,从所述标题文本中提取出相应的产品词和属性词,分别暂存于该标题文本相对应的产品词列表和属性词列表中以便后续调用。此外,某些变通的实施例中,可对所述标题文本进行分词,在各个分词的基础上通过不同匹配方式确定其是否属于产品词或属性词。对标题文本进行分词时,可借助Jieba,SnowNLP,PkuSeg等分词工具实施。
步骤S1300、将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别:
每个候选关键词可与所述标题文本组成相应的句对,借助预备的文本分类模型在该句对的基础上对该句对中的候选关键词与所述标题文本之间的相关程度进行判别。
为便于模型处理,可先对每个句对进行编码,编码时,先根据预设的编码词表,所述编码词表提供词与向量的映射关系数据,分别针对其中的候选关键词和标题文本进行编码,分别获得所述候选关键词的嵌入向量和所述标题文本的嵌入向量。其中,所述的标题文本先被分词确定出全量分词,在其分词的基础上根据所述的编码词表进行编码。最后,将候选关键词的嵌入向量和标题文本的嵌入向量拼接为一个句向量,即可用于输入所述的文本分类模型中进行分类判别。
所述文本分类模型,包括适于对文本信息相对应的句向量进行表示学习,而提取出其深层语义信息的文本特征提取网络,以及用于对该文本特征提取网络所输出的深层语义信息进行分类映射的分类器。
所述文本特征提取网络可采用Bert、AlBert、RoBERTa、RoBERTa-wwm-ext、TextCNN、LSTM等基于深度学习的神经网络模型。所述分类器经全连接层对所述深层语义信息进行全连接后映射到其输出层,在输出层中采用Softmax()之类的分类函数计算出其映射到预设的分类空间中的各个不同相关类别的分类概率,由此,通过所述不同相关类别分别表征所述句对中候选关键词与标题文本之间的相关程度,从而确定所述候选关键词对所述标题文本的信息贡献等级。
所述分类空间的相关类别数量可以在文本分类模型被训练的阶段灵活配置,示例而言,所述分类空间中包含三个相关类别,分别代表完全相关、部分相关,以及不相关。其他变例中,也可设置两个或多于三个的类别,视实际需求在所述文本分类模型的训练阶段灵活确定即可。其中,当设置为两个类别时,所述输出层中也可采用Sigmoid()函数计算所述的分类概率。
所述文本分类模型经事先训练,将其训练至收敛状态,使其习得适于对句对相对应的句向量进行分类所述相关类别的判别后投入使用。不难理解,根据基于深度学习的神经网络模型的原理,训练阶段与投入使用后的推理阶段中,对于文本分类模型的输入形式的要求是一致的。
由此,当一个句对被编码为句向量,输入所述的文本分类模型之后,该文本分类模型通过其文本特征提取网络对该句向量提取深层语义信息,然后由分类器对根据该深层语义信息进行分类映射,将其映射到各个相关类别,获得各个相关类别相对应的分类概率,其中分类概率最大的相关类别,即为该句对经文本分类模型判定而相对应的相关类别,表征该句对中的候选关键词与所述标题文本之间的相关程度,达到该相关类别所指示的等级,也表征该候选关键词对所述标题文本的信息贡献价值达到与该相关类别相对应的信息贡献等级。
针对每个候选关键词相对应的句对均做出分类判别后,便可获得各个候选关键词及其经文本分类模型判定的相关类别之间的映射关系数据。
步骤S1400、筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词:
如前所述,所述分类空间中配置的相关类别的数量可能包含多个,表示不同的相关程度,当需要筛选所述的候选关键词时,可根据所需的相关程度,设置目标相关类别,例如可以设置“完全相关”、“部分相关”两个相关类别为对候选关键词进行筛选的目标相关类别,然后,将相关类别属于所述目标相关类别的候选关键词确定为目标关键词,筛选出来构成相关的集合,完成所述标题文本的目标关键词的提取。
一个变通的实施例中,为了方便区分产品词和属性词,可分别将属于产品词和属于属性词的两类候选关键词构造为不同的集合,分别获得目标产品词列表和目标属性词列表。
所述标题文本中的其他分词及其他候选关键词,因未被确定为目标关键词,而被实质上滤除,不再使用,因而,实现对所述标题文本中的冗余信息的过滤。
根据以上的实施例可知,相对于现有技术,本申请的优势包括:本申请根据商品标题由多个词汇堆砌的特点,利用商品标题的标题文本与标题文本中的候选关键词组成句对,然后利用预先习得语义相关程度分类能力的文本分类模型以各个句对进行分类判断,确定出所述候选关键词与所述标题文本的相关类别,最后按照预设的目标相关类别选取所述标题文本中的候选关键词作为目标关键词,由此,利用模型经训练获得的语义识别能力,实现对标题文本中的冗余信息的过滤,命中具有较高信息价值的目标关键词,适用于电商平台中为商品搜索、商品广告、商品推荐提供匹配商品所需的基础素材,而提升整个电商平台的商品信息匹配效率。
请参阅图2,深化的部分实施例中,所述步骤S1200、从所述标题文本中提取出候选关键词,包括如下步骤:
步骤S1210、将所述标题文本与预设的产品词库进行匹配,获得该标题文本中的产品词:
示例性的方式之一,可基于规则匹配方式,在对所述标题文本分词获得多个词条的基础上,将各个词条与预设的产品词库进行精准匹配,将命中所述产品词库的词条确定为产品词。
示例性的方式之二,同理可基于规则匹配方式,将产品词库中各个词条以精确匹配的方式在所述标题文本中查找对应的字符串,当产品词库中的词条命中所述标题文本时,该词条即构成所述标题文本相应的产品词。
示例性的方式之三,可基于语义匹配规则,在对所述标题文本进行分词的基础上,将各个分词的语义向量与产品词库中的各个词条的语义向量计算相似度,选取产品词库中相似度最大且超过预设阈值的词条作为相应的分词相对应的产品词。在计算所述的相似度时,可采用任意一种数据距离算法实施,包括但不限于余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等等任意一项。
所述的产品词库,可以由本领域技术人员从预采集的海量的商品的商品标题中预先提取而得,以便构成本申请中用于确定所述标题文本的产品词的先验知识。
步骤S1220、将所述标题文本与预设的属性词库进行匹配,获得该标题文本中的属性词:
示例性的方式之一,可基于规则匹配方式,在对所述标题文本分词获得多个词条的基础上,将各个词条与预设的属性词库进行精准匹配,将命中所述属性词库的词条确定为属性词。
示例性的方式之二,同理可基于规则匹配方式,将属性词库中各个词条与所述标题文本进行精确匹配,当属性词库中的词条命中所述标题文本时,该词条即构成所述标题文本相应的属性词。
示例性的方式之三,可基于语义匹配规则,在对所述标题文本进行分词的基础上,将各个分词的语义向量与属性词库中的各个词条的语义向量计算相似度,选取属性词库中相似度最大且超过预设阈值的词条作为相应的分词相对应的属性词。在计算所述的相似度时,可采用任意一种数据距离算法实施,包括但不限于余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等等任意一项。
所述的属性词库,可以由本领域技术人员从预采集的海量的商品的商品标题中预先提取而得,以便构成本申请中用于确定所述标题文本的属性词的先验知识。
步骤S1230、将所述产品词和属性词确定为该标题文本的候选关键词:
从所述标题文本中确定出所述的产品词和属性词后,可对应创建一个产品词列表和一个属性词列表,将从标题文本中匹配出的产品词存储于所述产品词列表中作为其中的候选关键词,将从标题文本中匹配出的属性词存储于所述属性词列表中作为其中的候选关键词。
根据以上的实施例可知,所述标题文本的产品词、属性词均可根据预先构造的先验知识确定,即根据相应的产品词库和属性词库确定,由于产品词库和属性词库是在大数据基础上加工而得的有效数据,具有指示标题文本中各个相应的词条的知识价值的作用,因而,可初步从所述标题文本中提取出所述的产品词和属性词,而实现对标题文本中的其他性质的词条的过滤,去除了标题文本中的冗余信息,为后续处理所述词条的信息价值完成数据清洗。
扩展的部分实施例中,所述步骤S1230、将所述产品词和属性词确定为该标题文本的候选关键词的步骤之前,包括如下步骤:
步骤S2100、根据所述标题文本与其产品词或属性词的语义相似度,过滤其中语义相似度低于预设阈值的产品词或属性词:
当按照以上实施例,从所述标题文本中匹配出其中的产品词和属性词之后,可以进一步对产品词和属性词进行择优以确定候选关键词。示例性的择优原则,可根据所述产品词、属性词与所述标题文本进行语义匹配确定。一个实施例中,可将所述产品词和属性词及所述的标题文本,参考预设的编码词表,将其一一对应编码为嵌入向量。该嵌入向量既可以在本实施例中用于计算语义相似度,也可用于本申请的后续步骤中,构造所述文本分类模型的入参句对的句向量,以简化业务逻辑,提升执行效率。
在获得所述标题文本和其中各个产品词、属性词的嵌入向量之后,计算各个产品词、属性词与所述标题文本彼此的嵌入向量之间的语义相似度。计算所述语义相似度时,可采用任意一种数据距离算法实施,包括但不限于余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等等任意一项。确定每个产品词、属性词相对应的语义相似度后,区别产品词、属性词,根据所述语义相似度分别对产品词、属性词进行排序,然后,根据选取语义相似度超过预设阈值的产品词、属性词,确定为所述标题文本的候选关键词,分别对应构造为所述的产品词列表和属性词列表。
适应前文的部分实施例的变通,在从标题文本中匹配出产品词、属性词的过程中,已经进行了产品词、属性词与标题文本的语义相似度的计算并且根据预设阈值对产品词、属性词进行择优,这种情况下,实际上是将本步骤的过程融入到从标题文本中匹配出产品词、属性词的处理过程中,因而,可无需重复执行。
根据以上的实施例可知,在从标题文本确定出产品词和属性词之后,还可以利用产品词、属性词与标题文本之间的语义相似度进行择优确定候选关键词,确保最终确定的候选关键词具有较高的信息贡献价值。
扩展的部分实施例中,所述步骤S1300、将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类的步骤之前,包括如下步骤:
步骤S3100、采用预设的数据集中的训练样本对文本分类模型实施迭代训练,将其训练至收敛状态,所述训练样本包括标题文本及该标题文本所包含的单个候选关键词:
可采用一预设的数据集对所述文本分类模型实施训练,通过调用数据集中的训练样本对所述文本分类模型迭代训练,将其训练至收敛状态。
所述的数据集中的训练样本,可从电商平台的商品数据库中采集海量的商品标题来构造,将每个商品标题的标题文本及其中的一个产品词或属性词构成一个句对作为训练样本,也即一个标题文本与一个候选关键词构成一个句对,并且该候选关键词是该标题文本中的产品词或属性词,对应的,为该训练样本标注相关程度,即设定相应的相关类别,以便作为该文本分类模型对该训练样本的句对进行分类映射预测出其相关类别之后的监督标签。
在训练时,每个训练样本的句对被按照前述的编码原理编码为句向量,输入文本分类模型中,由其中的文本特征提取网络进行表示学习获得相应的深层语义信息,然后,经分类器执行分类映射,获得映射到分类空间的各个类别相对应的分类概率,从而将分类概率最在的相关类别确定为该句对相对应的相关类别。
当所述文本分类模型预测出一个训练样本的相关类别后,应用交叉熵函数,利用该训练样本相对应的监督标签计算出模型预测的相关类别的损失值,然后,判断所述损失值是否达到预设阈值,如果达到预设阈值,表明模型已经收敛,可终止训练,否则,根据该损失值对该模型反向传播修正其权重,实现梯度更新,促使模型进一步收敛,然后调用下一训练样本继续迭代训练。如此迭代训练,最终使模型达到收敛状态即可。
以上的实施例,通过将标题文本及其中的一个候选关键词结合为句对,构成相应的训练样本,用于对所述文本分类模型实施训练,并利用相应的监督标签修正模型损失,通过迭代训练可使模型收敛而用于根据句对确定其中的候选关键词的相关类别。
由此可知,由于训练文本分类模型所需的训练样本可从电商平台自身的商品数据库中采集商品标题而成,通过关联标题文本及其中的候选关键词为句对构成模型的输入,方便模型的文本特征提取网络在表示学习过程中提取两者之间的关联信息,使模型更易于训练,从而降低训练成本,促成模型更加快速地收敛。
每个标题文本获得其相应的产品词、属性词等目标关键词之后,这些目标关键词本身携带一定的特征,例如,目标关键词在所述标题文本中出现的位置相对应的位置特征,以及目标关键词在预设的知识体系中获得的词频特征等,每个目标关键词相对应的位置特征和词频特征构成其本身的统计特征,根据每个目标关键词的统计特征中的各个具体特征,将其根据预设公式量化为数值,将各个具体特征的数值汇总,便可确定为各个目标关键词相对应的信息评分。其中,汇总的方式可以是直接加和或者加权求和,可由本领域技术人员灵活实施。
可见,每个目标关键词相对应的信息评分,是对该目标关键词的信息价值的量化表示,各个目标关键词均确定了其相对应的信息评分后,便可根据信息评分确定所述标题文本的产品词与属性词之间的任意组合文本相对应的汇总的信息评分。
根据以上原理,请参阅图3,扩展的部分实施例中,所述步骤S1400、将其中的候选关键词作为所述标题文本的目标关键词的步骤之后,包括如下步骤:
步骤S1500、根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征:
从所述标题文本中确定的每个目标关键词的词频特征,可以参考预设的标题库提供的先验知识来确定。具体而言,预备至少一个标题库,所述标题库中采集海量的商品的商品标题。进一步,在对所述标题库中的各个商品标题进行分词的基础上,统计出其中的各个分词相对应的统计词频,然后,将分词与其词频之间的映射关系数据构成为词频统计表。
由此,在确定所述标题文本中每个目标关键词相对应的词频特征时,从所述词频统计表中调用该目标关键词相对应的分词的统计词频,按照预设的归一化方式,将其归一化为相应的数值,即可完成所述标题文本的各个目标关键词的词频特征的构造。
每个目标关键词的词频特征可以表现为一个或多个,具体而言,可通过不同类型的标题库来分别确定不同的词频统计表,分别获得每个目标关键词在不同标题库中的统计词频,从而可供每个目标关键词确定多个词频特征。当所述标题库由不同类型的商品标题构成时,其提供的统计词频将表征不同的参考信息价值,由此,从多个维度丰富了每个目标关键词的词频特征的内容。
步骤S1600、根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征:
每个目标关键词在所述标题文本中出现的位置是不同的,包括其绝对位置及其与某个属于产品词的目标关键词之间的相对位置均各不相同,由此,通过将各个目标关键词在所述标题文本中的位置信息应用预设的归一化方式量化为数值,所述的位置信息可以包括绝对位置信息,也可以是包括相对位置信息,还可以同时包括所述绝对位置信息和所述相对位置信息,便可获得各个目标关键词相应的位置特征。
步骤S1700、所述标题文本的每个目标关键词的词频特征与位置特征量化确定该目标关键词的信息评分:
如前所述,标题文本中各个目标关键词的词频特征与位置特征均已确定,且可归一化为数值特征,因此,针对每个目标关键词,将其各个词频特征和各个位置特征进行相加,或者加权求和,便可获得该目标关键词相对应的信息评分。由此,所述标题文本中的每个目标关键词,无论其属于产品词还是属性词,均可获得其相应的信息评分。不难理解,该信息评分综合了该目标关键词的位置信息价值和词频信息价值,能够有效衡量该目标关键词对标题文本的信息价值的贡献程度。
根据以上过程可知,通过参考先验知识确定所述标题文本中的各个目标关键词的词频特征,以及通过参考各个目标关键词在所述标题文本中的位置信息确定其相应的位置特征,根据各个目标关键词的词频特征和位置特征量化确定各个目标关键词相对应的信息价值,实现对所述标题文本中目标关键词的信息价值的有效量化,为后续生成所述标题文本的摘要提供了关键的参考信息。
步骤S1800、根据所述信息评分选取所述产品词与所述属性词的组合文本作为所述商品的标题摘要:
根据人类语言表达习惯,通常采用一个产品词便可指示一个商品,而为该产品词附加一个或多个属性词,便可使该商品区别于其他同名商品,所以,可以按照这一原理,将所述标题文本中被确定为目标关键词的产品词和属性词进行组合,以组合文本中各产品词和属性词的信息评分的总体情况筛选出一个或多个组合文本,即可作为所述的商品的标题摘要使用。
根据以上的实施例可知,相对于现有技术,本申请根据商品标题由多个词汇堆砌的特点,先分别针对商品的标题文本中被判定为目标关键词的产品词和属性词确定统计特征,在统计特征的基础上计算产品词和属性词的信息评分,然后根据信息评分从产品词与属性词的组合中选取部分组合作为该商品的标题文本的摘要,无需应用高成本的机器学习模型和深度学习模型即可在目标关键词的基础上获得标题摘要,实现成本低,运算效率高,特别适用于电商平台中为商品搜索、商品广告、商品推荐提供匹配商品所需的基础素材,而提升整个电商平台的商品信息匹配效率。
请参阅图4,深化的部分实施例中,所述步骤S1500、根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征,包括如下步骤:
步骤S1510、根据每个目标关键词在第一标题库中的统计词频确定其第一词频特征,所述第一标题库为与所述商品属于同类的商品的标题文本所构成的标题库:
为根据第一先验知识确定每个目标关键词在第一个方面的信息价值,可基于第一标题库获得相应的第一词频统计表。所述第一标题库中,预先采集与所述标题文本相对应的商品属于商品分类体系中的同个类目的商品的商品标题构成,然后在对第一标题库分词的基础上进行如前所述同理的词频统计,而获得其相应的第一词频统计表。进一步,参阅前一实施例所述,根据第一词频统计表中的统计词频,便可归一化确定出所述标题文本的各个目标关键词相对应的第一词频特征。
示例性的归一化方式之一,可对所述统计词频进行对数变换和最大最小归一化处理,即可获得相应的第一词频特征。
变通的一个实施例中,在所述第一标题库的基础上,可以针对产品词和属性词分别构造其相对应的第一词频统计表,以便对照调用快速获得所述各个目标关键词的词频。
步骤S1520、根据每个目标关键词在第二标题库中的统计词频确定其第二词频特征,所述第二标题库为与所述商品属于相同线上店铺的商品的标题文本所构成的标题库:
为根据第二先验知识确定每个目标关键词在第二个方面的信息价值,可基于第二标题库获得相应的第二词频统计表。所述第二标题库中,预先采集与所述标题文本相对应的商品属于同一线上店铺的商品的商品标题构成,然后在对第二标题库分词的基础上进行如前所述同理的词频统计,而获得其相应的第二词频统计表。进一步,参阅前一实施例所述,根据第二词频统计表中的统计词频,便可归一化确定出所述标题文本的各个目标关键词相对应的第二词频特征。
示例性的归一化方式之一,可对所述统计词频进行对数变换和最大最小归一化处理,即可获得相应的第二词频特征。
变通的一个实施例中,在所述第二标题库的基础上,可以针对产品词和属性词分别构造其相对应的第二词频统计表,以便对照调用快速获得所述各个目标关键词的词频。
根据以上的实施例可知,通过从同类商品、同店铺商品两个维度为所述标题文本中的各个目标关键词提供相应的词频特征,通常多个词频特征可以反映目标关键词在同类型商品和同店铺商品中的信息价值,丰富了用于确定目标关键词的信息评分的信息参考维度,克服了商品标题固有的堆砌词条导致词条的参考信息有限的弊端,使由此获得的信息评分更能反映相应的目标关键词的综合信息价值。
请参阅图5,深化的部分实施例中,所述步骤S1600、根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征,包括如下步骤:
步骤S1610、根据每个目标关键词在所述标题文本中的绝对位置确定其绝对位置特征:
每个目标关键词在所述标题文本中出现的顺序,即其绝对位置信息,具有表示该目标关键词的位置特征的作用,由此,可对应确定每个目标关键词在所述标题文本中的排列位序,将该排列位序应用预设方式进行归一化为数值,确定为其相对应的绝对位置特征。
示例性的归一化方式中,应用如下公式处理:
Fabs=1/log2(1+Labs)
其中,Labs表示目标关键词的排列位序相对应的数值,Fabs为应用公式归一化后获得的绝对位置特征。
针对属于产品词和属于属性词的每个目标关键词,均可按照以上原理进行归一化,从而确定每个目标关键词相对应的绝对位置特征。
步骤S1620、根据属于属性词的每个目标关键词在所述标题文本中相对于其最接近的产品词的相对位置确定其相对位置特征:
对于所述标题文本中每个目标关键词的相对位置特征,根据其词性的不同,本实施例的处理有所区别。
对于每个属性词,可参考其与其最相近的产品词的相对位置信息来确定其相对位置特征,先确定其排序位序差值,再根据该差值进行归一化。例如,标题文本“时尚优雅披肩斗篷针织羊毛衫”中,被确定为目标关键词的属性词“时尚”(位置序号为1),与在它后面的、最近的,且被确定为目标关键词的产品词“披肩”(位置序号为5),经过位置序号差值运算得到的相对位置信息为4。确定这一相对位置信息后,便可应用如下的公式对其进行归一化,获得属性词相应的相对位置特征:
Frel=1/log2(1+Lrel)
其中,Lrel表示属性词的相对位置信息相对应的数值,Frel为应用公式归一化后获得的相对位置特征。
步骤S1630、针对属于产品词的每个目标关键词以标准值确定其相对位置特征:
对于属于产品词的目标关键词而言,因其最接近的产品词即为其自身,如果参照属性词的方式确定其相对位置信息相对应的数值,会获得0值而无特征表示价值,因而,可采用一个标准值例如数值1统一描述所述产品词的相对位置信息,然后与属性词同理,应用所述的归一化公式对该标准值进行归一化,获得产品词相应的相对位置特征。
每个目标关键词的绝对位置特征和相对位置特征共同构成该目标关键词的位置特征,不难理解,通过绝对位置特征和相对位置特征共同描述出目标关键词在所述标题文本中的位置信息以及各个目标关键词与标题文本中的产品词的相对距离信息,使各个目标关键词的统计特征得以丰富,进一步实现对各个目标关键词的信息价值的有效表示。
请参阅图6,深化的部分实施例中,所述步骤S1800、根据所述信息评分选取所述产品词与所述属性词的组合文本作为所述商品的标题摘要,包括如下步骤:
步骤S1811、筛选出信息评分高于预设阈值的被判定为目标关键词的产品词和属性词:
所述标题文本中的各个被判定为目标关键词的产品词和属性词均获得其相应的信息评分后,便体现了各个目标关键词相对应的信息价值,因而,根据各个目标关键词相对应的信息评分,预先提供一个预设阈值,可用于实现对各个产品词和属性词的优选。由于所述产品词和属性词的信息评分均为归一化结果,因而,产品词和属性词的预设阈值可为同一预设阈值,该预设阈值可以是实测阈值或经验阈值,由本领域技术人员灵活设定即可。
据此,将信息评分高于所述预设阈值的产品词和属性词分别选取出来,构成新的产品词表和属性词表以便调用。
步骤S1812、将筛选出的任意数量的属性词与筛选出的任意单个产品词相组合构造为相应的标题摘要:
为了获得标题摘要,可以从所述的产品词表中选取任意一个产品词,从所述属性词表中选取任意数量的一个或多个属性词,按照自然语言表达习惯,将产品词后置,将属性词前置,进行任意组合,从而构造出多个组合文本,这些组合文本便构成所述商品的标题文本的标题摘要。
根据此处的实施例可知,通过信息评分先行对所述商品的标题文本中被判定为目标关键词的产品词和属性词进行优选,选取信息价值较高的目标关键词,然后将这些目标关键词按照自然语言表达习惯进行灵活组合获得相应的标题摘要,所获得的标题摘要是具有较高信息价值的目标关键词组合而成的字符串,已过滤了标题文本中的冗余信息,且所述属性词与产品词已经事先进行过滤,对所述标题文本起到提纲挈领的作用,具有精简指示标题文本的作用。
请参阅图7,深化的部分实施例中,所述步骤S1400、根据所述信息评分选取所述产品词与所述属性词的组合文本作为所述商品的标题摘要,包括如下步骤:
步骤S1821、将任意数量的被判定为目标关键词的属性词与单个被判定为目标关键词的产品词相组合构造为相应的候选标题摘要:
与前一实施例相替换的本实施例中,可按照自然语言表达习惯,将所述标题文本中获得的被判别为目标关键词的产品词后置,将其中被判定为目标关键词的属性词前置,进行任意组合,先行构造出多个组合文本,这些组合文本便构成所述商品的标题文本的候选标题摘要。同理,在所述组合文本中,一般只包含单个产品词,但可以包含一个或多个属性词。
步骤S1822、根据所述候选标题摘要中各个目标关键词的信息评分的评分总值筛选出评分总值高于预设阈值的候选标题摘要,作为最终确定的标题摘要:
所述候选标题摘要中,各个属性词及产品词均事先确定了其相应的信息评分,至此,可将其各个属性词、产品词的信息评分进行汇总,即进行加和或者加权和操作获得每个候选标题摘要相对应的评分总值。
在各个候选标题摘要均获得其相应的评分总值的基础上,根据评分总值对各个候选标题摘要进行倒排序,然后,按照预设的数量截取排序靠前的一个或多个候选标题摘要,作为所述标题文本相对应最终确定的标题摘要即可。
或者,可相替换的方式中,采用一个预设阈值与所述各个候选标题摘要的评分总值进行比较,将评分总值高于该预设阈值的候选标题摘要确定为最终的标题摘要亦可。由于所述产品词和属性词的信息评分均为归一化结果,因而,产品词和属性词的预设阈值可为同一预设阈值,该预设阈值可以是实测阈值或经验阈值,由本领域技术人员灵活设定即可。
根据以上的实施例可知,通过按照自然语言表达习惯先行组合所述标题文本的属性词和产品词获得多种组合文本,获得候选标题摘要,再根据各个候选标题摘要中各个目标关键词的信息评分加总后的评分总值对各个候选标题摘要进行排序择优,可以从产品词和属性词综合最佳的思路出发确定有效的标题摘要,由于多个属性词的存在常会导致整个标题摘要的评分总值相对于属性词较少时更高,因而,相对而言,按照这种方式确定的标题摘要,更接近原有的标题文本,所提供的信息更为丰富。
请参阅图8,适应本申请的目的之一而提供的一种商品标题关键词提取装置,是对本申请的商品标题关键词提取方法的功能化体现,该装置包括标题获取模块1100、词条提取模块1200、词条分类模块1300,以及目标确定模块1400,其中:所述标题获取模块1100,用于获取商品的标题文本;所述词条提取模块1200,用于从所述标题文本中提取出属于产品词和属性词的候选关键词;所述词条分类模块1300,用于将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别;所述目标确定模块1400,用于筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词。
深化的部分实施例中,所述词条提取模块1200,包括:产品词提取单元,用于将所述标题文本与预设的产品词库进行匹配,获得该标题文本中的产品词;属性词提取单元,用于将所述标题文本与预设的属性词库进行匹配,获得该标题文本中的属性词;候选集确定单元,用于将所述产品词和属性词确定为该标题文本的候选关键词。
扩展的部分实施例中,先于所述候选集确定单元,包括:相似过滤单元,用于根据所述标题文本与其产品词或属性词的语义相似度,过滤其中语义相似度低于预设阈值的产品词或属性词。
扩展的部分实施例中,先于所述词条分类模块1300,包括:模型训练模块,用于采用预设的数据集中的训练样本对文本分类模型实施迭代训练,将其训练至收敛状态,所述训练样本包括标题文本及该标题文本所包含的单个候选关键词。
扩展的部分实施例中,后于所述目标确定单元,包括:词频特征确定单元,用于根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征;位置特征确定单元,用于根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征;信息评分确定单元,用于所述标题文本的每个目标关键词的词频特征与位置特征量化确定该目标关键词的信息评分;标题摘要选取单元,用于根据所述信息评分选取所述产品词与所述属性词的组合文本作为所述商品的标题摘要。
深化的部分实施例中,所述词频特征确定单元,包括:词频特征第一单元,用于根据每个目标关键词在第一标题库中的统计词频确定其第一词频特征,所述第一标题库为与所述商品属于同类的商品的标题文本所构成的标题库;词频特征第二单元,用于根据每个目标关键词在第二标题库中的统计词频确定其第二词频特征,所述第二标题库为与所述商品属于相同线上店铺的商品的标题文本所构成的标题库。
深化的部分实施例中,所述位置特征确定单元,包括:绝对位置特征单元,用于根据每个目标关键词在所述标题文本中的绝对位置确定其绝对位置特征;属性词相对位置单元,用于根据属于属性词的每个目标关键词在所述标题文本中相对于其最接近的产品词的相对位置确定其相对位置特征;产品词相对位置单元,用于针对属于产品词的每个目标关键词以标准值确定其相对位置特征。
为解决上述技术问题,本申请实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种商品标题关键词提取方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的商品标题关键词提取方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的商品标题关键词提取装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的商品标题关键词提取方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请利用文本分类模型经训练获得的语义识别能力,实现对标题文本中的冗余信息的过滤,命中具有较高信息价值的目标关键词,适用于电商平台中为商品搜索、商品广告、商品推荐提供匹配商品所需的基础素材,而提升整个电商平台的商品信息匹配效率。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种商品标题关键词提取方法,其特征在于,包括如下步骤:
获取商品的标题文本;
从所述标题文本中提取出属于产品词和属性词的候选关键词;
将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别;
筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词。
2.根据权利要求1所述的商品标题关键词提取方法,其特征在于,从所述标题文本中提取出候选关键词,包括如下步骤:
将所述标题文本与预设的产品词库进行匹配,获得该标题文本中的产品词;
将所述标题文本与预设的属性词库进行匹配,获得该标题文本中的属性词;
将所述产品词和属性词确定为该标题文本的候选关键词。
3.根据权利要求2所述的商品标题关键词提取方法,其特征在于,将所述产品词和属性词确定为该标题文本的候选关键词的步骤之前,包括如下步骤:
根据所述标题文本与其产品词或属性词的语义相似度,过滤其中语义相似度低于预设阈值的产品词或属性词。
4.根据权利要求3所述的商品标题关键词提取方法,其特征在于,将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类的步骤之前,包括如下步骤:
采用预设的数据集中的训练样本对文本分类模型实施迭代训练,将其训练至收敛状态,所述训练样本包括标题文本及该标题文本所包含的单个候选关键词。
5.根据权利要求2所述的商品标题关键词提取方法,其特征在于,将其中的候选关键词作为所述标题文本的目标关键词的步骤之后,包括如下步骤:
根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征;
根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征;
所述标题文本的每个目标关键词的词频特征与位置特征量化确定该目标关键词的信息评分;
根据所述信息评分选取所述产品词与所述属性词的组合文本作为所述商品的标题摘要。
6.根据权利要求1所述的商品标题关键词提取方法,其特征在于,根据所述标题文本的每个目标关键词在预设的标题库中的统计词频确定其词频特征,包括如下步骤:
根据每个目标关键词在第一标题库中的统计词频确定其第一词频特征,所述第一标题库为与所述商品属于同类的商品的标题文本所构成的标题库;
根据每个目标关键词在第二标题库中的统计词频确定其第二词频特征,所述第二标题库为与所述商品属于相同线上店铺的商品的标题文本所构成的标题库。
7.根据权利要求1所述的商品标题关键词提取方法,其特征在于,根据所述标题文本的每个目标关键词在所述标题文本中的位置确定其位置特征,包括如下步骤:
根据每个目标关键词在所述标题文本中的绝对位置确定其绝对位置特征;
根据属于属性词的每个目标关键词在所述标题文本中相对于其最接近的产品词的相对位置确定其相对位置特征;
针对属于产品词的每个目标关键词以标准值确定其相对位置特征。
8.一种商品标题关键词提取装置,其特征在于,包括:
标题获取模块,用于获取商品的标题文本;
词条提取模块,用于从所述标题文本中提取出属于产品词和属性词的候选关键词;
词条分类模块,用于将每个候选关键词与所述标题文本组成句对,采用已经训练至收敛状态的文本分类模型分别对各个句对进行分类,确定出表征每个句对中的候选关键词与所述标题文本的相关程度的相关类别;
目标确定模块,用于筛选出所述相关类别为目标相关类别的句对,将其中的候选关键词作为所述标题文本的目标关键词。
9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
CN202210501438.2A 2022-05-09 2022-05-09 商品标题关键词提取方法及其装置、设备、介质、产品 Pending CN114818674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210501438.2A CN114818674A (zh) 2022-05-09 2022-05-09 商品标题关键词提取方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210501438.2A CN114818674A (zh) 2022-05-09 2022-05-09 商品标题关键词提取方法及其装置、设备、介质、产品

Publications (1)

Publication Number Publication Date
CN114818674A true CN114818674A (zh) 2022-07-29

Family

ID=82512488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210501438.2A Pending CN114818674A (zh) 2022-05-09 2022-05-09 商品标题关键词提取方法及其装置、设备、介质、产品

Country Status (1)

Country Link
CN (1) CN114818674A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151083A (zh) * 2023-10-30 2023-12-01 中教畅享(北京)科技有限公司 一种商品标题优化中重复率的计算方法
CN117151082A (zh) * 2023-10-30 2023-12-01 量子数科科技有限公司 一种基于大语言模型的商品标题spu关键词提取方法
CN118132752A (zh) * 2024-05-06 2024-06-04 浙江口碑网络技术有限公司 商品描述词的分类方法以及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151083A (zh) * 2023-10-30 2023-12-01 中教畅享(北京)科技有限公司 一种商品标题优化中重复率的计算方法
CN117151082A (zh) * 2023-10-30 2023-12-01 量子数科科技有限公司 一种基于大语言模型的商品标题spu关键词提取方法
CN117151082B (zh) * 2023-10-30 2024-01-02 量子数科科技有限公司 一种基于大语言模型的商品标题spu关键词提取方法
CN117151083B (zh) * 2023-10-30 2024-04-19 中教畅享(北京)科技有限公司 一种商品标题优化中重复率的计算方法
CN118132752A (zh) * 2024-05-06 2024-06-04 浙江口碑网络技术有限公司 商品描述词的分类方法以及装置

Similar Documents

Publication Publication Date Title
KR101778679B1 (ko) 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
CN110717106B (zh) 信息推送的方法及装置
US8051080B2 (en) Contextual ranking of keywords using click data
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN114818674A (zh) 商品标题关键词提取方法及其装置、设备、介质、产品
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
US20130060769A1 (en) System and method for identifying social media interactions
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN107766323B (zh) 一种基于互信息和关联规则的文本特征提取方法
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
US11321580B1 (en) Item type discovery and classification using machine learning
CN114186567A (zh) 敏感词检测方法及其装置、设备、介质、产品
CN114971730A (zh) 文案素材提取方法及其装置、设备、介质、产品
CN116521906B (zh) 元描述生成方法及其装置、设备、介质
CN115129913A (zh) 敏感词挖掘方法及其装置、设备、介质
CN114626926A (zh) 商品搜索类目识别方法及其装置、设备、介质、产品
CN116796027A (zh) 商品图片标签生成方法及其装置、设备、介质、产品
CN115545832A (zh) 商品搜索推荐方法及其装置、设备、介质
CN113722443B (zh) 一种融合文本相似度和协同过滤的标签推荐方法和系统
CN107784019A (zh) 一种搜索业务中搜索词处理方法及系统
CN110020439B (zh) 一种基于隐藏关联网络的多领域文本隐式特征抽取方法
CN115907928A (zh) 商品推荐方法及其装置、设备、介质
CN115203514A (zh) 商品查询重定向方法及其装置、设备、介质、产品
CN113806536B (zh) 文本分类方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination