CN113343684B - 核心产品词识别方法、装置、计算机设备及存储介质 - Google Patents

核心产品词识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113343684B
CN113343684B CN202110694603.6A CN202110694603A CN113343684B CN 113343684 B CN113343684 B CN 113343684B CN 202110694603 A CN202110694603 A CN 202110694603A CN 113343684 B CN113343684 B CN 113343684B
Authority
CN
China
Prior art keywords
keywords
commodity
keyword
transition probability
core product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110694603.6A
Other languages
English (en)
Other versions
CN113343684A (zh
Inventor
张铨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202110694603.6A priority Critical patent/CN113343684B/zh
Publication of CN113343684A publication Critical patent/CN113343684A/zh
Application granted granted Critical
Publication of CN113343684B publication Critical patent/CN113343684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种核心产品词识别方法、装置、计算机设备及存储介质,包括:获取待识别核心产品词的商品标题,对该商品标题进行关键词提取,获得符合预设的产品词典所定义的多个关键词构造基准词表;查询用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,计算每个关键词向其他关键词可能单向转移的转移概率的累加值;将转移概率的累加值最大的关键词输出为商品标题的核心产品词。本申请借助转移概率矩阵,以两两关键词之间共现的概率为预测方向的计算依据用于确定核心产品词,能精确地识别出商品标题的唯一核心产品词,特别适合集中对海量商品标题进行核心产品词提取,方便电商平台提供基于产品词的索引服务。

Description

核心产品词识别方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及电商技术领域,尤其是一种核心产品词识别方法、装置、计算机设备及存储介质。
背景技术
目前,电商服务平台通过识别自身平台中的商品的标题进行核心产品词提取,以便为用户可通过输入搜索关键词匹配相应的核心产品词进行相应的商品推荐,但当前电商产品的产品词识别一般使用文本分类方法进行提取,或者根据产品词词典利用关键词命中方法进行提取;对于文本分类法提取核心产品词,容易受限于有限集合,且需要大量的训练集,不容易实现,且准确率较低,使平台为用户所匹配的核心产品词并不准确,推荐的商品无法满足用户的需求;对于产品词词典关键词命中法,其问题是在某个商品文本中可能会提取出多个核心产品词,无法识别重点的核心产品词,大量的核心产品词易扰乱用户的购买意向,降低用户的购买欲望,使平台的成交量降低。因此,如何提高核心产品词识别的质量,成为需要本领域技术人员解决的技术问题。
发明内容
本申请的目的在于提供一种核心产品词识别方法、装置、计算机设备及存储介质。
为实现本申请的目的,采用如下技术方案:
适应本申请的目的之一而提出的一种核心产品词识别方法,包括如下步骤:
获取待识别核心产品词的商品标题,对该商品标题进行关键词提取,获得符合预设的产品词典所定义的多个关键词构造基准词表;
查询用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,计算每个关键词向其他关键词可能单向转移的转移概率的累加值;
将转移概率的累加值最大的关键词输出为所述商品标题的核心产品词。
进一步的实施例中,所述转移概率矩阵预先按照如下过程构造:
对商品标题库中的样本标题进行关键词提取,获得符合预设的产品词典所定义的关键词,利用关键词构造出基准词表;
构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵,其中任意两个关键词之间的有向边权重为其在各个所述的样本标题中同时出现的次数的累加值;
根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,其中一个关键词向另一关键词可能单向转移的转移概率为该两个关键词的有向边权重除以其中前一关键词到所有任意关键词的有向边权重的累加值。
进一步的实施例中,进行关键词提取,获得符合预设的产品词典所定义的关键词的过程包括如下步骤:
预备产品词典,产品词典按照预设分类标准定义有多个产品词,该产品词用作确定关键词的参照;
调用预设算法参考所述产品词典对需要提取关键词的标题进行关键词提取,获得该标题相对应的多个关键词;
对所提取出的多个关键词执行数据清洗操作,使关键词实现标准化;
对标准化的多个关键词执行取长操作,将已被其中其他关键词包含的关键词清除;
对执行取长操作后的多个关键词执行归一化操作,将其中含义相同的关键词统一为同一关键词。
进一步的实施例中,构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵的步骤,包括如下具体步骤:
构造权重矩阵的组织关系,其行列均按照基准词表中的关键词进行同顺序排列,以确定每个关键词在行与列中的坐标;
为权重矩阵中每一行所表示的每一个关键词统计其与每一列所表示的每一个关键词在商品标题库的各样本标题同时出现的次数的累加值;
将权重矩阵的各个坐标位置相对应的累加值作为其所在行所表示的关键词到其所在列所表示的关键词的有向边权重进行存储。
较佳的实施例中,根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵的步骤,包括如下具体步骤:
构造转移概率矩阵的组织关系,其行列均按照基准词表中的关键词进行同顺序排列,以确定每个关键词在行与列中的坐标;
计算转移概率矩阵中的每个坐标位置所表示的由其所在列所表示的关键词向其所在行所表示的关键词可能单向转移所确定的转移概率,该转移概率为该坐标位置所在行、列分别所表示的两个关键词的有向边权重除以所在列所表示的关键词与所有各行的关键词的有向边权重的计算值;
将所述计算值存储于该转移概率矩阵的相应坐标位置中成为相应的转移概率。
进一步的实施例中,该核心产品词识别方法包括如下后置步骤:
将获得核心产品词的商品标题所对应的商品信息添加到已有的商品索引库中,所述商品索引库存储多个商品相对应的商品信息,所述商品信息包含所述核心产品词,所述核心产品词作为该商品索引库的索引项。
进一步的实施例中,该核心产品词识别方法包括如下后置步骤:
依据所述核心产品词在已有的商品索引库中检索相同和/或相似商品信息,所述商品索引库存储多个商品相对应的商品信息,所述商品信息包含商品所对应的核心产品词,所述核心产品词作为该商品索引库的索引项;
将检索获得的商品信息格式化为商品查找结果列表输出。
较佳的实施例中,该核心产品词识别方法包括如下后置步骤:
依据所述核心产品词在转移概率矩阵中检索相似关键词;
在已有的商品索引库中检索出与所述核心产品词及其相似关键词相对应的商品信息,所述商品索引库存储多个商品相对应的商品信息,所述商品信息包含商品所对应的核心产品词及相似关键词,所述核心产品词及相似关键词作为该商品索引库的索引项;
将检索获得的商品信息格式化为商品查找结果列表输出。
适应本申请的目的而提出的一种核心产品词识别装置,其包括:
关键词提取模块,用于获取待识别核心产品词的商品标题,对该商品标题进行关键词提取,获得符合预设的产品词典所定义的多个关键词构造基准词表;
累加值计算模块,用于查询用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,计算每个关键词向其他关键词可能单向转移的转移概率的累加值;
产品词输出模块,用于将转移概率的累加值最大的关键词输出为所述商品标题的核心产品词。
进一步的实施例中,所述累加值计算模块包括:
基准词构建单元,用于对商品标题库中的样本标题进行关键词提取,获得符合预设的产品词典所定义的关键词,利用关键词构造出基准词表;
权重矩阵构造单元,用于构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵,其中任意两个关键词之间的有向边权重为其在各个所述的样本标题中同时出现的次数的累加值;
转移概率矩阵构造单元,用于根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,其中一个关键词向另一关键词可能单向转移的转移概率为该两个关键词的有向边权重除以其中前一关键词到所有任意关键词的有向边权重的累加值。
为解决上述技术问题本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述核心产品词识别方法的步骤。
为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述核心产品词识别方法的步骤。
本发明实施例的有益效果是:
本申请提出了一种新型的核心产品词识别技术,该技术通过为商品标题在预先构造的转移概率矩阵中查询其各关键词的转移概率进行累加计算然后取优,达到确定商品标题的核心产品词的目的。
本申请通过对商品标题进行关键词提取,通过结合预先构造的产品词典及关键词提取算法提取出符合规范的关键词并以之构造出基准词表,然后借助转移概率矩阵查询出基准词表中两两关键词之间的单向转移概率,计算每个关键词向其他关键词可能单向转移的转移概率的累加值,最后将转移概率的累加值最大的关键词输出为所述商品标题的核心产品词,实现商品标题的核心产品词的识别,该转移概率矩阵可以根据存储着两两关键词同时出现在同一商品标题中的次数的权重矩阵来构造而得,相比传统的文本分类法提取核心产品词,本识别方法不需要通过大量的训练即可投放使用,且通过各概率的累加计算,即可准确识别出唯一的核心产品词进行输出,相比传统的产品词词典根据词命中法,本方法仅会识别出重点的核心产品词进行输出,更便于准确地为商品标题相应的商品对象定位其商品属性,亦可准确地预测用户所查询的商品对象。
另外,本申请完成商品标题的核心产品词识别后,将该商品标题的商品信息储存至商品索引数据库中,以便将该商品信息相对应的商品对象构建基于核心产品词的归类索引服务,且便于将该商品对象输出至相应的买家用户进行商品推荐,有利于提升商品对象的曝光率,也能有效提升电商服务平台的营收。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为实施本申请的技术方案相关的一种典型的网络部署架构示意图;
图2为本申请的核心产品词识别方法的典型实施例的流程示意图;
图3为本申请的权重矩阵的示意图;
图4为本申请的转移概率矩阵的示意图;
图5为图2中步骤S12的具体步骤所形成的流程示意图;
图6为图5中步骤S121的具体步骤所形成的流程示意图;
图7为图5中步骤S122的具体步骤所形成的流程示意图;
图8为图5中步骤S123的具体步骤所形成的流程示意图;
图9为本申请的核心产品词识别方法的一种实施例中由其所添加的后置步骤所构成的流程示意图;
图10为本申请的核心产品词识别方法的另一种实施例中由其所添加的后置步骤所构成的流程示意图;
图11为本申请的核心产品词识别方法的再一种实施例中由其所添加的后置步骤所构成的流程示意图;
图12为本申请的核心产品词识别装置的典型实施例的原理框图;
图13为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
请参阅图1,本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称服务器80部署在云端,作为一个业务服务器,其可以负责进一步连接起相关数据服务器以及其他提供相关支持的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备例如图中所示的智能手机81和个人计算机82或者第三方服务器(未图示)提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与云端的服务器80建立数据通信链路,以便运行所述服务器所提供的服务相关的终端应用程序。
对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运行于服务器的相关技术方案,便可以此种方式实现于服务器中。
所述的应用程序,是指运行于服务器或终端设备上的应用程序,这一应用程序采用编程的方式实现了本申请的相关技术方案,其程序代码可被以计算机可执行指令的形式保存于计算机能识别的非易失性存储介质中,并被中央处理器调入内存中运行,通过该应用程序在计算机的运行而构造出本申请的相关装置。
对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运行于服务器的相关技术方案,便可以此种方式实现于服务器中。
对时下流行的各类终端设备而言,特别是平板、手机之类的移动设备,通常都内置配备有摄像头之类的摄像设备,或者个人计算机也可外置接入所述的摄像设备,理论上,本申请的终端设备的应用程序对于这些情况下的摄像设备均可实现调用。
本申请中适于在终端设备实现的技术方案也可以被编程内置于提供电商交易的应用程序中,作为其一部分扩展功能。所述的电商交易,是指一种基于前述的网络部署结构所显示的线上交易服务。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
请参阅图2,本申请的一种核心产品词识别方法,在其典型实施例中,其包括如下步骤:
步骤S11,获取待识别核心产品词的商品标题,对该商品标题进行关键词提取,获得符合预设的产品词典所定义的多个关键词构造基准词表:
服务器获取所述待识别核心产品词的商品标题,以便对该商品标题进行所述关键词提取,获取符合预设的所述产品词典所定义的多个所述关键词。
一种实施例中,所述商品标题由电商服务平台的买家用户通过在图形用户界面中相应的控件中输入所述商品标题,该买家用户的客户端根据该商品标题封装生成查询请求并发送至服务器中,以便服务器响应该查询请求,从该查询请求中获取所述商品标题,对该商品标题进行所述关键词提取,以为该商品标题进行识别相应的核心产品词进行反馈。关于所述核心产品词的实施方式,请参考后续步骤,本步骤恕不赘述。
另一种实施例中,所述商品标题由电商服务平台的卖家用户新上架的商品的商品标题,服务器从与其建立数据通信链路的商品服务器中获取该商品标题,对该商品标题进行所述关键词提取,以为该商品标题进行识别相应的核心产品词储存至相应的数据库,以便后续为买家用户输入的搜索词识别相应的核心产品词,进行所述商品标题相对应的商品的推荐活动。
关于所述关键词提取的实施,服务器获取所述商品标题后,根据关键词提取算法,从所述产品词典中储存的关键词中获取多个所述关键词作为该商品标题相对应的关键词。
所述产品词典中储存着海量的关于商品的产品词,其基于预先设置的规则及专名识别(NER)挖掘算法,预先从多个电商服务平台中挖掘大量的所述产品词进行一级分类储存,例如,可按照商品的类型进行一级分类,将各产品词分类为服饰、电子产品及食品等类型,以便服务器结合该产品词典中储存的海量所述产品词及所述关键词提取算法,获得符合该产品词典所定义的多个所述关键词。本领域技术人员可根据实际业务场景,构造所述产品词典,恕不赘述。
进一步的,所述关键词提取算法一般是指Flashtext算法,Flashtext算法将所述产品词典中储存的所有产品词根据其首字符对其进行分类,以构造该些产品词的Tire字典,并根据所述商品标题中各词组所包含的字符,从该Tire字典中进行关键词匹配,将相应的关键词作为该商品标题的所述关键词,例如,当所述产品词典中储存的产品词为[Phone、Pipe、Iphone、Iwatch、Charger、Car]时,Flashtext根据该些产品词的首字符进行分类,构造该些产品词的所述Tire字典,当所述商品标题为Iphone Moblie Phone Charger时,Flashtext将为其匹配的关键词为[Phone、Iphone、Charger]。所述Flashtext算法相比传统的正规匹配算法,正规匹配算法的提取关键词的时间复杂度是所述商品标题中包含的字符数量与所述产品字典的字符数量的乘积,而Flashtext算法的时间复杂度仅为所述商品标题中包含的字符数量,即所述Flashtext提取关键词的速度较快,使用户可快速的获取核心产品词的反馈,当然,本领域技术人员也可根据实际情况使用传统的正规匹配算法或其他关键词提取算法,只要能实现所述关键词提取即可,恕不赘述。
服务器结合所述产品词典及关键词提取算法所获取多个所述关键词后,将对该些关键词进行格式处理,首先执行数据清洗操作,使关键词实现标准化,例如,当所述关键词为‘Pant’时,则需要对其实现大小写、单复数的标准化,将该关键词转换为‘pants’;其次,服务器该些关键词完成所述标准后,将对该些关键词执行取长操作,将已被其中其他关键词包含的关键词清除,例如,提取出的关键词中包含[‘bag’,‘evening bag’,‘handbag’,‘body bag’]时,因‘bag’为其他关键词的子字符串,因此将为‘bag’的关键词进行清除;最后,服务器对执行取长操作后的多个关键词执行归一化操作,将其中含义相同的关键词统一为同一关键词,例如,将‘tank top’的关键词转换为‘tanktop’的关键词、将‘T Shirt’转换为‘t-shirt’的关键词。
服务器对所述关键词完成所述格式处理后,将根据该些关键词构造所述基准词表,以将该些关键词储存于所述基准词表中,以便后续服务器为该基准词表中储存的所有关键词计算其转移概率的累加值。关于所述累加值的计算,请参考后续步骤的相关实施方式,本步骤恕不赘述。
步骤S12,查询用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,计算每个关键词向其他关键词可能单向转移的转移概率的累加值:
服务器完成所述基准表的构造后,将从用于存储基准词表中所有所述关键词相互之间的所述单向转移概率的所述转移概率矩阵中,查询所述基准表中所有关键词相对应的多个所述单向转移概率,并为该些关键词计算各自所对应的所有单向转移概率的总和,以获取各关键词的所述累加值。
所述单向转移概率是指关键词与其他关键词之间的共同出现的概率,服务器根据用于存储基准词表中两两关键词之间的有向边权重的权重矩阵,查询所述关键词与某一关键词及所有关键词的所述有向边权重,并计算该关键词与所述某一关键词的有向边权重与该关键词与所有关键词(包括所述某一关键词)的有向边权重的总和的除积,将计算结果作为该关键词与所述某一关键词的所述单向转移概率。
进一步的,所述有向边权重用于表征所述关键词与其他关键词共同出现的次数,服务器通过统计多个所述关键词在同一商品标题中共同出现的次数,将其作为两两关键词之间的所述有向边权重。
请参考图3,所述权重矩阵如图3中所示,其表征两两关键词之间在同一商品标题中共同出现的次数,及两两关键词的所述有向边权重,例如,有向边权重301表征了关键词‘charger’与关键词‘iphone’在同一商品标题中共同出现的次数为1。
请参考图3及4,所述转移概率矩阵如图4中所示,其表征两两关键词之间在同一商品标题中共同出现的概率,即两两关键词的所述单向转移概率,转移概率矩阵中的各元素由服务器根据图3所示的所述权重矩阵中的元素计算所得,例如,计算图4中的单向转移概率401表征关键词‘charger’与关键词‘iphone’在同一商品标题中共同出现的概率为1/8,其通过将图3中的有向边权重301除以关键词‘iphone’与表中其他关键词的有向边权重302的总和所得。
服务器通过所述转移概率矩阵,查询所述基准词表中各关键词单向转移至所有关键词(包括自身)的所述转移概率后,将对各关键词的自身拥有的所有所述转移概率进行累加计算,将该些累积结果对应确定为各关键词的所述累加值,所述累加值的值域为[0,1],如图4所示,例如关键词‘iphone’的累加值为(1/2+1/9+1/8+1/8+0+1/9)=35/36。
请参考图3至8,关于服务器预先构造所述转移概率矩阵的实施方式,其具体实施步骤如下:
步骤S121,对商品标题库中的样本标题进行关键词提取,获得符合预设的产品词典所定义的关键词,利用关键词构造出基准词表:
服务器对所述商品标题库中的所述样本标题进行所述关键词提取,获取符合预设的所述产品词典所定义的关键词,利用该些关键词构造出所述基准词表。
所述商品标题库中储存着海量的样本标题,该些样本标题一般是通过爬虫系统从各大电商服务平台中所挖掘获取,或通过与服务器建立数据通信链路的电商服务平台的接口所获取,服务器将该些样本标题储存至所述商品标题库中,以便进行所述关键词提取,构造所述基准词表。
请参考图6,关于服务器进行所述关键词提取,获得符合预设的产品词典所定义的关键词的实施方式,其具体实施步骤如下:
步骤S1211,预备产品词典,产品词典按照预设分类标准定义有多个产品词,该产品词用作确定关键词的参照:
服务器通过基于预先设置的规则及专名识别(NER)挖掘算法,预先从多个电商服务平台中挖掘大量的所述产品词储存至所述产品词典中,并对该产品词典中的所有产品词进行一级分类储存,例如,可按照商品的类型进行一级分类,将各产品词分类为服饰、电子产品及食品等类型,或者按各产品词的首字符进行分类,以便服务器结合该产品词典中储存的海量所述产品词及预设算法,为所述商品标题库中储存着海量的样本标题获得符合该产品词典所定义的多个所述关键词。
步骤S1212,调用预设算法参考所述产品词典对需要提取关键词的标题进行关键词提取,获得该标题相对应的多个关键词:
服务器调用所述预设算法,参考所述产品词典中各产品词,对各所述样本标题进行所述关键词提取,获取各样本标题各自相对应的多个所述关键词。
具体的,所述预设算法一般是指Flashtext算法,Flashtext算法将所述产品词典中储存的所有产品词进行首字符分类,以构造该些产品词的Tire字典,并根据所述商品标题中各词组所包含的字符,从该Tire字典中进行关键词匹配,将相应的关键词作为该商品标题的所述关键词,例如,当所述产品词典中储存的产品词为[Phone、Pipe、Iphone、Iwatch、Charger、Car]时,Flashtext根据该些产品词的首字符进行分类,构造该些产品词的所述Tire字典,当所述商品标题为Iphone Moblie Phone Charger时,Flashtext将为其匹配的关键词为[Phone、Iphone、Charger]。所述Flashtext算法相比传统的正规匹配算法,正规匹配算法的提取关键词的时间复杂度是所述商品标题中包含的字符数量与所述产品字典的字符数量的乘积,而Flashtext算法的时间复杂度仅为所述商品标题中包含的字符数量,即所述Flashtext提取关键词的速度较快,使用户可快速的获取核心产品词的反馈,当然,本领域技术人员也可根据实际情况使用传统的正规匹配算法或其他预设算法,只要能实现所述关键词提取即可,恕不赘述。
步骤S1213,对所提取出的多个关键词执行数据清洗操作,使关键词实现标准化:
服务器结合所述产品词典及关键词提取算法所获取多个所述关键词后,将执行数据清洗操作,使关键词实现标准化,例如,当所述关键词为‘Pant’时,则需要对其实现大小写、单复数的标准化,将该关键词转换为‘pants’。
步骤S1214,对标准化的多个关键词执行取长操作,将已被其中其他关键词包含的关键词清除:
其次,服务器该些关键词完成所述标准后,将对该些关键词执行取长操作,将已被其中其他关键词包含的关键词清除,例如,提取出的关键词中包含[‘bag’,‘evening bag’,‘handbag’,‘body bag’]时,因‘bag’为其他关键词的子字符串,因此将为‘bag’的关键词进行清除。
步骤S1215,对执行取长操作后的多个关键词执行归一化操作,将其中含义相同的关键词统一为同一关键词:
服务器对执行取长操作后的多个关键词执行归一化操作,将其中含义相同的关键词统一为同一关键词,例如,将‘tank top’的关键词转换为‘tanktop’的关键词、将‘TShirt’转换为‘t-shirt’的关键词等。
服务器对所述关键词完成所述归一化操作后,将根据该些关键词构造所述基准词表,以将该些关键词储存于所述基准词表中。
步骤S122,构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵,其中任意两个关键词之间的有向边权重为其在各个所述的样本标题中同时出现的次数的累加值:
服务器完成各所述基准词表后,将统计该基准词表中两两所述关键词在同一所述样本标题中共同出现的次数,将其作为双方的所述有向边权重,以构造用于存储基该准词表中两两关键词之间的有向边权重的所述权重矩阵。
具体的,所述权重矩阵可参考图3所示的矩阵,该权重矩阵中记录着所述基准词表中两两关键词的所述有向边权重。
请参考图7,关于服务器构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵的实施方式,其具体实施步骤如下:
步骤S1221,构造权重矩阵的组织关系,其行列均按照基准词表中的关键词进行同顺序排列,以确定每个关键词在行与列中的坐标:
服务器根据所述基准词表中各关键词的排序,构造所述权重矩阵的组织关系,该权重矩阵的行列均按照该基准词表中的各关键词的排序,进行同顺序排列,以确定该些关键词在该权重矩阵中的行与列的坐标。
具体的,请参考图3,若所述基准词表中各关键词的排序为[iphone,charger,moblie phone,date line,car,phone case]时,该些关键词在所述权重矩阵中的排序将如图3所示。
步骤S1222,为权重矩阵中每一行所表示的每一个关键词统计其与每一列所表示的每一个关键词在商品标题库的各样本标题同时出现的次数的累加值:
服务器统计所述权重矩阵中行所表征的每一个关键词与列中所表示的每一个关键词在所述商品标题库中的各样本标题同时出现的次数的累加值,例如,请参考图3,若所述权重矩阵为图3所示的矩阵时,服务器将统计行中的关键词iphone与列中的iphone关键词、charger关键词、moblie phone关键词、date line关键词、car关键词及phone case关键词在所述商品标题库中的各样本标题同时出现的次数的累加值,以此类推,以统计该权重矩阵中charger关键词、moblie phone关键词、date line关键词、car关键词及phone case关键词分别与行中各关键词的所述累加值。
步骤S1223,将权重矩阵的各个坐标位置相对应的累加值作为其所在行所表示的关键词到其所在列所表示的关键词的有向边权重进行存储:
服务器将所述权重矩阵中各坐标位置(即行与列两两关键词在矩阵中相应的位置)相对应的累加值作为其所在行所表示的关键词到其所在列所表示的关键词的有向边权重进行存储,例如,请参考图3,有向边权重301表征行中的iphone关键词与列中的charger关键词的所述累加值,即双方在所述商品标题库中的各样本标题中同时出现的次数。
步骤123,根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,其中一个关键词向另一关键词可能单向转移的转移概率为该两个关键词的有向边权重除以其中前一关键词到所有任意关键词的有向边权重的累加值:
服务器完成所述权重矩阵的构造后,将根据该权重矩阵构造用于储存所述基准词表中各关键词两两之间的单向转移概率的所述转移概率矩阵,具体的,请参考图3及图4,所述转移概率矩阵如图4中所示,其表征两两关键词之间在同一商品标题中共同出现的概率,即两两关键词的所述单向转移概率,转移概率矩阵中的各单向转移概率由服务器根据图3所示的所述权重矩阵中各有向边权重计算所得,例如,计算图4中的单向转移概率401表征关键词‘charger’与关键词‘iphone’在同一商品标题中共同出现的概率为1/8,其通过将图3中的有向边权重301除以关键词‘iphone’与表中其他关键词的有向边权重302的总和所得。
请参考图8,关于服务器根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵的实施方式,其具体实施步骤如下:
步骤S1231,构造转移概率矩阵的组织关系,其行列均按照基准词表中的关键词进行同顺序排列,以确定每个关键词在行与列中的坐标:
服务器根据所述基准词表中各关键词的排序,构造所述转移概率矩阵的组织关系,该转移概率矩阵的行列均按照该基准词表中的各关键词的排序,进行同顺序排列,以确定该些关键词在该转移概率矩阵中的行与列的坐标。
具体的,请参考图4,若所述基准词表中各关键词的排序为[iphone,charger,moblie phone,date line,car,phone case]时,该些关键词在所述转移概率矩阵中的排序将如图4所示。
步骤S1232,计算转移概率矩阵中的每个坐标位置所表示的由其所在列所表示的关键词向其所在行所表示的关键词可能单向转移所确定的转移概率,该转移概率为该坐标位置所在行、列分别所表示的两个关键词的有向边权重除以所在列所表示的关键词与所有各行的关键词的有向边权重的计算值:
服务器计算所述转移概率矩阵中的各坐标位置(即行与列两两关键词在矩阵中相应的位置)用于表征其所处的列中所表示的列关键词向其所在行所表示的行关键词可能单向转移所确定的所述转移概率,服务器通过查询该列关键词在所述权重矩阵中的与行关键词的有向边权重,将该有向边权重除以该行关键词与所有列关键词的有向边权重的计算值,例如,请参考图3及图4,所述转移概率矩阵如图4中所示,计算图4中的单向转移概率401表征列关键词‘charger’与行关键词‘iphone’在同一商品标题中共同出现的概率为1/8,其通过将图3中的有向边权重301除以行关键词‘iphone’与表中所有列关键词的有向边权重302的总和所得。
步骤S1233,将所述计算值存储于该转移概率矩阵的相应坐标位置中成为相应的转移概率:
服务器将其通过所述权重矩阵所求得的所有计算值储存至所述转移概率矩阵中各相应的坐标位置中,以确定各坐标位置的所表示的列关键词向相应的行关键词可能单向转移所确定的转移概率。
步骤S13,将转移概率的累加值最大的关键词输出为所述商品标题的核心产品词:
服务器将该些关键词中所述转移概率的累加值最大的关键词确定为所述商品标题的核心产品词进行输出。
所述的核心产品词是指与商品标题中表征的产品相关性最强的关键词,当所述商品标题由电商服务平台的买家用户所提交时,服务器将该核心产品词相关联的商品对象进行封装,以便当该核心产品词被输出至买家用户的图形界面中进行展示时,买家用户可通过触控该核心产品词的可视化控件,使其图形用户界面中输出已进行封装的多个所述商品对象进行展示。
一种实施例中,所述商品标题由电商服务平台的卖家用户新上架的商品的商品标题时,服务器将所述核心产品词记录为该商品标题相对应的商品对象的索引,以便服务器为所述核心产品词封装商品对象时,可将该商品对象一并封装。
以上的典型实施例及其变化实施例充分揭示了本申请的核心产品词识别方法的实施方案,但是,仍可通过对一些技术手段的变换和扩增而演绎出该方法的多种变化实施例,如下概要说明其他实施例:
一种实施例中,请参阅图9,本方法还包括后置步骤,所述核心产品词识别方法包括如下后置步骤:
步骤S14,将获得核心产品词的商品标题所对应的商品信息添加到已有的商品索引库中,所述商品索引库存储多个商品相对应的商品信息,所述商品信息包含所述核心产品词,所述核心产品词作为该商品索引库的索引项:
服务器获取所述核心产品词后,将该核心产品词的所述商品标题所对应的商品信息添加到已有的所述商品索引库中,该商品索引库用于储存与所述核心产品词对应的商品标题的商品信息,该些商品信息中包含该核心产品词,且该商品索引库的索引项为所述核心产品词,即该商品索引库中各商品信息以其包含的索引项(核心产品词)进行分类,以便服务器将相应的核心产品词输出至买家用户客户端时,将查询所述商品索引库中的包含该核心产品词的商品信息进行封装推送至所述客户端中进行输出展示。
一种实施例中,所述商品信息可包含多个所述核心产品词,例如,商品信息表征的商品为iphone时,其包含的核心产品词包含iphone、apple及mobile phone,进而提升所述商品信息的输出辐射范围,提升商品信息对应的商品的曝光度。
另一种实施例中,请参阅图10,本方法还包括后置步骤,所述核心产品词识别方法包括如下后置步骤:
步骤S14’,依据所述核心产品词在已有的商品索引库中检索相同和/或相似商品信息,所述商品索引库存储多个商品相对应的商品信息,所述商品信息包含商品所对应的核心产品词,所述核心产品词作为该商品索引库的索引项:
服务器获取所述核心产品词后,将该核心产品词作为索引项,在所述商品索引库中查询与该索引项相同和/或相似的商品信息。
具体的服务器在所述商品索引库中检索的商品信息可为语义相似或类型类似的商品信息,例如,当所述核心产品词为mobile phone时,服务器在所述商品索引库检索的商品信息除了包含核心产品词为mobile phone的商品信息外,还可检索到包含核心产品词为iphone的商品信息或核心产品词为smart phone的商品信息等。
关于所述商品索引库的具体实施方式,请参考步骤S14中相关的叙述,本步骤恕不赘述。
步骤S15’,将检索获得的商品信息格式化为商品查找结果列表输出:
服务器将从所述商品索引库中索引获取的商品信息格式化为所述商品查找结果,输出至推送所述待识别核心产品词的商品标题的用户的客户端中进行展示,以便该客户端获取所述商品查询结果后,可通过该商品查询结果中表征的一个或多个商品信息输出显示至图形用户界面中。
再一种实施例中,请参阅图11,本方法还包括后置步骤,所述核心产品词识别方法包括如下后置步骤:
步骤S14”,依据所述核心产品词在转移概率矩阵中检索相似关键词:
服务器获取所述核心产品词后,查询所述转移概率矩阵中检索该核心产品词的所述相似关键词。
请参考图4,服务器在所述转移概率矩阵中查询所述核心产品词与其他关键词(不包括自身)的所述转移概率,例如,如图4所示,当所述核心产品词为iphone时,其与关键词charger的转移概率为1/9,与关键词moblie phone的转移概率为1/8,与关键词date line的转移概率为1/8,与关键词car的转移概率为0,以及与关键词phone case的转移概率为1/9,服务器将基于该些转移概率,确定出关键词iphone的所述相似关键词。
一种实施例中,服务器获取所述核心产品词在所述转移概率矩阵中与其他关键词(不包括自身)的所述转移概率后,将排序按照所述转移概率的大小对该些转移概率进行排序,将排序在预设范围内的转移概率所对应的关键词作为所述相似关键词,所述预设范围一般设置在2-4的范围内。
另一种实施例中,服务器获取所述核心产品词在所述转移概率矩阵中与其他关键词(不包括自身)的所述转移概率后,将转移概率大于等于预设概率值的转移概率相对于关键词作为所述相似关键词,所述预设概率值一般设置在60%-70%的范围内。
可以理解,因所述转移概率矩阵由服务器根据其相关联的电商服务平台下各商品标题所构造,使服务器通过所述转移概率矩阵确定出各所述相似关键词所对应的商品标题的商品为平台所管辖,因此当通过相似关键词为用户提供商品推荐时,该些商品均为平台所拥有的商品,有效防止无法通过相似关键词实施相应的商品推荐。
步骤S15”,在已有的商品索引库中检索出与所述核心产品词及其相似关键词相对应的商品信息,所述商品索引库存储多个商品相对应的商品信息,所述商品信息包含商品所对应的核心产品词及相似关键词,所述核心产品词及相似关键词作为该商品索引库的索引项:
服务器获取所述核心产品词及相似关键词后,将该核心产品词及相似关键词作为索引项,在所述商品索引库中查询与该些索引项相相对应的商品信息。
步骤S16”,将检索获得的商品信息格式化为商品查找结果列表输出:
服务器将从所述商品索引库中索引获取的商品信息格式化为所述商品查找结果,输出至推送所述待识别核心产品词的商品标题的用户的客户端中进行展示,以便该客户端获取所述商品查询结果后,可通过该商品查询结果中表征的一个或多个商品信息输出显示至图形用户界面中。
进一步,可以通过将上述各实施例所揭示的方法中的各个步骤进行功能化,构造出本申请的一种核心产品词识别装置,按照这一思路,请参阅图12,核心产品词识别方法的一个典型实施例中,该装置包括:关键词提取模块11、累加值计算模块12及产品词输出模块13,其中,关键词提取模块11,用于获取待识别核心产品词的商品标题,对该商品标题进行关键词提取,获得符合预设的产品词典所定义的多个关键词构造基准词表;累加值计算模块12,用于查询用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,计算每个关键词向其他关键词可能单向转移的转移概率的累加值;产品词输出模块13,用于将转移概率的累加值最大的关键词输出为所述商品标题的核心产品词。
一种实施例中,所述累加值计算模块12包括:基准词构建单元,用于对商品标题库中的样本标题进行关键词提取,获得符合预设的产品词典所定义的关键词,利用关键词构造出基准词表;权重矩阵构造单元,用于构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵,其中任意两个关键词之间的有向边权重为其在各个所述的样本标题中同时出现的次数的累加值;转移概率矩阵构造单元,用于根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,其中一个关键词向另一关键词可能单向转移的转移概率为该两个关键词的有向边权重除以其中前一关键词到所有任意关键词的有向边权重的累加值。
为解决上述技术问题,本申请实施例还提供一种计算机设备,用于运行根据所述核心产品词识别方法所实现的计算机程序。具体请参阅图13,图13为本实施例计算机设备基本结构框图。
如图13所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种核心产品词识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种核心产品词识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行本发明的核心产品词识别装置中的各个模块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。
本实施方式中的存储器存储有核心产品词识别装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种非易失性存储介质,所述的核心产品词识别方法被编写成计算机程序,以计算机可读指令的形式存储于该存储介质中,计算机可读指令被一个或多个处理器执行时,意味着该程序在计算机中的运行,由此使得一个或多个处理器执行上述任一实施例的核心产品词识别方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请借助转移概率矩阵,以两两关键词之间共现的概率为预测方向的计算依据用于确定核心产品词,能精确地识别出商品标题的唯一核心产品词,特别适合集中对海量商品标题进行核心产品词提取,方便电商平台提供基于产品词的索引服务。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (5)

1.一种核心产品词识别方法,其特征在于,包括如下步骤:
获取待识别核心产品词的商品标题,对该商品标题进行关键词提取,获得符合预设的产品词典所定义的多个关键词,构造基准词表;其中,包括:预备产品词典,产品词典按照预设分类标准定义有多个产品词,该产品词用作确定关键词的参照;调用FlashText算法参考所述产品词典对需要提取关键词的标题进行关键词提取,获得该标题相对应的多个关键词;对所提取出的多个关键词执行数据清洗操作,使关键词实现标准化;对标准化的多个关键词执行取长操作,将已被其中其他关键词包含的关键词清除;对执行取长操作后的多个关键词执行归一化操作,将其中含义相同的关键词统一为同一关键词;
查询用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,计算每个关键词向其他关键词可能单向转移的转移概率的累加值;
将转移概率的累加值最大的关键词输出为所述商品标题的核心产品词;
将获得核心产品词的商品标题所对应的商品信息添加到已有的商品索引库中,所述商品索引库存储多个商品相对应的商品信息,所述商品信息包含所述核心产品词及相似关键词,所述核心产品词及相似关键词作为该商品索引库的索引项;
在商品推荐时依据所述核心产品词在转移概率矩阵中检索相似关键词,包括:从所述转移概率矩阵中查询出所述核心产品词与其他关键词的转移概率,选取转移概率排序处于预设范围的其他关键词,或者选取转移 概率大于等于预设概率值的其他关键词作为所述相似关键词;
在已有的商品索引库中检索出与所述核心产品词及其相似关键词相对应的商品信息;
将检索获得的商品信息格式化为商品查找结果列表输出;
所述转移概率矩阵预先按照如下过程构造:
对商品标题库中的样本标题进行关键词提取,获得符合预设的产品词典所定义的关键词,利用关键词构造出基准词表;
构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵,其中任意两个关键词之间的有向边权重为其在各个所述的样本标题中同时出现的次数的累加值;
根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,其中一个关键词向另一关键词可能单向转移的转移概率为该两个关键词的有向边权重除以其中前一关键词到所有任意关键词的有向边权重的累加值。
2.根据权利要求1所述的方法,其特征在于,构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵的步骤,包括如下具体步骤:
构造权重矩阵的组织关系,其行列均按照基准词表中的关键词进行同顺序排列,以确定每个关键词在行与列中的坐标;
为权重矩阵中每一行所表示的每一个关键词统计其与每一列所表示的每一个关键词在商品标题库的各样本标题同时出现的次数的累加值;
将权重矩阵的各个坐标位置相对应的累加值作为该坐标位置所在行所表示的关键词到该坐标位置所在列所表示的关键词的有向边权重进行存储。
3.根据权利要求1所述的方法,其特征在于,根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵的步骤,包括如下具体步骤:
构造转移概率矩阵的组织关系,其行列均按照基准词表中的关键词进行同顺序排列,以确定每个关键词在行与列中的坐标;
计算转移概率矩阵中的每个坐标位置所表示的由该坐标位置所在列所表示的关键词向该坐标位置所在行所表示的关键词可能单向转移所确定的转移概率,该转移概率为两个数之间的商值,商值对应的被除数是该坐标位置所在行、列分别所表示的两个关键词之间的有向边权重,而商值对应的除数是该坐标位置所在列所表示的关键词分别与各行的关键词之间的有向边权重之和;
将所述商值存储于该转移概率矩阵的相应坐标位置中成为相应的转移概率。
4.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至3中任一项权利要求所述核心产品词识别方法的步骤。
5.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至3中任一项权利要求所述核心产品词识别方法的步骤。
CN202110694603.6A 2021-06-22 2021-06-22 核心产品词识别方法、装置、计算机设备及存储介质 Active CN113343684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110694603.6A CN113343684B (zh) 2021-06-22 2021-06-22 核心产品词识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110694603.6A CN113343684B (zh) 2021-06-22 2021-06-22 核心产品词识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113343684A CN113343684A (zh) 2021-09-03
CN113343684B true CN113343684B (zh) 2023-05-26

Family

ID=77477618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110694603.6A Active CN113343684B (zh) 2021-06-22 2021-06-22 核心产品词识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113343684B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470322B (zh) * 2022-10-21 2023-05-05 深圳市快云科技有限公司 一种基于人工智能的关键词生成系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115710A (zh) * 2019-06-03 2020-12-22 腾讯科技(深圳)有限公司 一种行业信息识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
CN104199898B (zh) * 2014-08-26 2018-05-15 北京小度互娱科技有限公司 一种属性信息的获取方法及装置、推送方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115710A (zh) * 2019-06-03 2020-12-22 腾讯科技(深圳)有限公司 一种行业信息识别方法及装置

Also Published As

Publication number Publication date
CN113343684A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
US9563665B2 (en) Product search method and system
CN108804532B (zh) 一种查询意图的挖掘和查询意图的识别方法、装置
CN102236663B (zh) 一种基于垂直搜索的查询方法、系统和装置
CN103400286B (zh) 一种基于用户行为进行物品特征标注的推荐系统及方法
EP2691884B1 (en) Management and storage of distributed bookmarks
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN103123632B (zh) 搜索中心词确定方法及装置、搜索方法及搜索设备
US20130290138A1 (en) Search Method, Apparatus and Server for Online Trading Platform
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
CN114663197A (zh) 商品推荐方法及其装置、设备、介质、产品
CN105989125B (zh) 对无结果词进行标签识别的搜索方法和系统
CN114898349A (zh) 目标商品识别方法及其装置、设备、介质、产品
CN114663164A (zh) 电商站点推广配置方法及其装置、设备、介质、产品
CN113761393A (zh) 商品协同推荐方法及其装置、设备、介质、产品
CN115099857A (zh) 广告商品组合发布方法及其装置、设备、介质、产品
CN113343684B (zh) 核心产品词识别方法、装置、计算机设备及存储介质
CN115545832A (zh) 商品搜索推荐方法及其装置、设备、介质
US11669530B2 (en) Information push method and apparatus, device, and storage medium
CN102915312B (zh) 网站中的信息发布方法和系统
US11170039B2 (en) Search system, search criteria setting device, control method for search criteria setting device, program, and information storage medium
CN115907928A (zh) 商品推荐方法及其装置、设备、介质
CN115422429A (zh) 关联词的确定方法、装置、计算机设备和存储介质
CN107368525B (zh) 搜索相关词的方法及装置、存储介质和终端设备
CN115292603A (zh) 商品搜索方法及其装置、设备、介质
CN112650869B (zh) 图像检索重排序方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant