CN109597990A - 一种社会热点与商品品类的匹配方法 - Google Patents

一种社会热点与商品品类的匹配方法 Download PDF

Info

Publication number
CN109597990A
CN109597990A CN201811396382.9A CN201811396382A CN109597990A CN 109597990 A CN109597990 A CN 109597990A CN 201811396382 A CN201811396382 A CN 201811396382A CN 109597990 A CN109597990 A CN 109597990A
Authority
CN
China
Prior art keywords
commodity
word
category
content
microblog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811396382.9A
Other languages
English (en)
Other versions
CN109597990B (zh
Inventor
窦志成
左笑晨
黄真
文继荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN201811396382.9A priority Critical patent/CN109597990B/zh
Publication of CN109597990A publication Critical patent/CN109597990A/zh
Application granted granted Critical
Publication of CN109597990B publication Critical patent/CN109597990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种社会热点与商品品类的匹配方法,其步骤:构建商品品类知识图谱;获取微博热门话题内容;将商品品类知识图谱与热门话题内容进行匹配:对于每一个实时产生的热门话题,获得该话题对应的微博内容,对于其中涉及到的知识图谱中的不同实体,采用不同的匹配方法,将匹配结果在已构建好的知识图谱上进行检索,得到最终的匹配得分;对商品标题与微博内容进行文本匹配;将商品品类知识图谱与热门话题内容的匹配结果与商品标题与微博内容的匹配结果相结合,得到最终的匹配结果。本发明能快速准确地找关联,并及时提供给有需求的店家,丰富店家的商品描述,提高商品销售效率。

Description

一种社会热点与商品品类的匹配方法
技术领域
本发明涉及一种匹配方法,特别是关于一种社会热点与商品品类的匹配方法。
背景技术
目前现有的电商平台中对商品与社会热点关联的挖掘并没有一个系统的算法,而是通过店主本身对时事热点情况的掌握,丰富与之相关的商品描述信息。社会热点话题的获取也是通过店主自己的了解。
现有的方法虽然可以满足一部分用户的需求,但是存在许多不足。一方面,店家通过自己对时事热点的掌握修改商品描述需要一定的人力成本,另一方面,店家本身对于热点的了解不够全面,许多商家不了解的热点话题往往是顾客们热衷的话题。另外,店家自身获取信息的途径具有一定的滞后性,而许多热点话题也是具有时效性的,需要根据热点话题的变化对商品描述实时更新,这对于目前的方法是十分困难的。
发明内容
针对上述问题,本发明的目的是提供一种社会热点与商品品类的匹配方法,其能快速准确地找关联,并及时提供给有需求的店家,丰富店家的商品描述,提高商品销售效率。
为实现上述目的,本发明采取以下技术方案:一种社会热点与商品品类的匹配方法,其包括以下步骤:1)构建商品品类知识图谱;2)获取微博热门话题内容;3)将商品品类知识图谱与热门话题内容进行匹配:对于每一个实时产生的热门话题,获得该话题对应的微博内容,对于其中涉及到的知识图谱中的不同实体,采用不同的匹配方法,将匹配结果在已构建好的知识图谱上进行检索,得到最终的匹配得分;4)对商品标题与微博内容进行文本匹配;5)将商品品类知识图谱与热门话题内容的匹配结果与商品标题与微博内容的匹配结果相结合,得到最终的匹配结果。
进一步,所述步骤1)中,商品品类知识图谱包括商品品类、三个实体和商品品类属性;每一个商品品类与三个实体关联,三个实体分别是泛产品品类、热搜词和品牌。
进一步,所述泛产品品类是将多个相近的品类集中起来,作为匹配过程中的一个整体,减少匹配品类总数,提高话题匹配成功的概率;所述热搜词是用户在搜索指定商品时输入的搜索词,热搜词具有词频的属性,不同的热搜词被使用的次数不同,使用次数高的热搜词更能够代表对应的品类,在匹配过程中匹配成功之后贡献的得分也相应更高。
进一步,所述步骤2)中,微博数据通过网络爬取,抓取最新的热搜微博内容;这些微博内容围绕同一个微博热搜榜话题,不仅包括话题发起者的微博,同时也包括微博用户对于该话题的相关评论,以及引用该话题的其他微博;将这些微博整理为文本,对其进行除噪过滤,将过滤之后的所有微博内容连接在一起,作为此话题对应的用于分析的微博内容,进而作为语料文本进行匹配。
进一步,所述过滤方法包括以下步骤:2.1)去除所有的标点符号以及表情非常用文本符号;2.2)去除所有以“@”开头以及冒号结尾的字符串;2.3)去除以“#”开头与结尾的字符串。
进一步,所述步骤3)中,匹配结果在已构建好的知识图谱上的检索方法如下:(1)泛产品品类识别检索:泛产品品类名称部分检索累计得分为Scoreg1,体识别结果在知识图谱中检索的累计得分为(2)对品牌名称识别检索:直接使用实体识别结果,识别出所有类型为品牌的实体,将这些实体在知识图谱中进行检索,与每个商品品类下相关的所有品牌进行比对,累计得分为Scoreb;(3)热搜词识别检索:对于所有的商品品类,找到该品类下相关的所有热搜词,将它们在微博内容中进行检索,检索结果累计得分为Scoreh;(4)商品属性识别检索:对于所有的商品品类,找到品类具有的属性值,将他们再微博内容中进行检索,检索结果累计得分为Scorea;(5)根据泛产品品类识别检索、品牌名称识别检索、热搜词识别检索和商品属性识别检索结果,得到最终匹配得分Score为:
进一步,所述泛产品品类名称部分检索中,使用HanLP汉语言处理包对微博内容进行分词,并将所有的泛产品品类名称作为词典对分词结果进行过滤;过滤后出现次数最多的前十个词,去除其中出现次数不超过1次的词,用这些词在知识图谱中的泛产品品类名称部分进行检索,即与每一个商品品类下相关的所有泛产品品类名称进行匹配,每匹配成功,便为该品类累计得分
进一步,所述实体识别结果在知识图谱中检索:采用Bidirectional LSTM-CRF模型,识别出微博文本中所有类型为泛产品品类的实体;将得到的实体在知识图谱中的泛产品品类名称部分进行检索,如果识别出的实体在之前HanLP分词结果中出现,则不再重复计算。
进一步,所述步骤4)中,商品标题与微博内容匹配方法包括以下步骤:4.1)确定待匹配的文本;4.2)采用KNRM[1]模型,KNRM通过引入核函数机制,在多个不同相似度下计算每个词的特征向量,由词的特征向量构成句子的特征向量;4.3)将商品标题与微博内容文本的词向量矩阵计算相似度,进而得到相似度矩阵;4.4)在相似度矩阵上使用多个不同的核函数,在多种相似度水平上,分别计算微博文本内各个词对商品标题中词的相关性贡献值,得到商品标题中各词的软词频;4.5)将各词的软词频加和得到用于排序的特征,通过多层感知机得到最终的匹配分数。
进一步,所述步骤5)中,商品品类知识图谱与热门话题内容匹配结果由微博文本与商品泛产品类目名称、品牌名称、热搜词与商品属性的精确匹配这四部分匹配结果综合得到,将这四部分匹配结果通过权重相加得到总得分;并且商品标题与微博内容直接采用文本匹配的方式,使用KNRM模型得到匹配结果的得分;将四部分匹配结果通过权重相加的总得分与KNRM模型得到匹配结果得分相结合,得到最终得分,将最终分数归一化到[0,1]区间,若分数大于0.5则认为匹配,否则不匹配。
本发明由于采取以上技术方案,其具有以下优点:本发明根据实时获取的微博信息,以及已有的商品信息,可以快速准确地找到这样的关联,并及时提供给有需求的店家,丰富店家的商品描述,提高商品销售效率。
附图说明
图1是本发明的商品品类知识图谱示意图;
图2是本发明的知识图谱检索流程示意图;
图3是本发明的KNRM结构示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明提供一种社会热点与商品品类的匹配方法,其包括以下步骤:
1)构建商品品类知识图谱;
如图1所示,商品品类知识图谱包括商品品类、三个实体和商品品类属性。每一个商品品类与其它三个实体关联,三个实体分别是泛产品品类、热搜词和品牌,其中商品品类本身还具有一些品类本身特有的属性,热搜词还有词频属性。具体的实体含义如下:
泛产品品类:将多个相近的品类集中起来,作为匹配过程中的一个整体,可以减少匹配品类总数,提高话题匹配成功的概率。原始数据给出了所有的商品品类,但是在这些商品品类中有很多品类对于顾客的需求没有太大的差异,如表1中品类名称所示。
表1泛产品品类示例
表1中呈现了三组泛产品品类名称,它们分别属于休闲娱乐、VR设备、保温壶这三个商品品类。
品牌:对于每一个商品品类,都拥有许多商品品牌;对于品牌名的匹配可以准确找到关联的商品品类。比如卫衣品类下有诸如丹杰仕、乔丹、朵比妮等品牌名称。在微博文本中,许多商家的官方微博内容中经常会涉及到许多品牌名,例如Dior官博发布的微博:“青年演员身着Dior迪奥二零一八早秋系列精彩演绎时尚街拍……”中提到的品牌名Dior。
热搜词:用户在搜索指定商品时输入的搜索词。比如对于中央空调品类下有关的热搜词有家用中央空调、美的中央空调、吸顶空调等。热搜词和微博内容类似,都有口语化现象,因此也更容易在微博文本中匹配成功。加入热搜词之后,大部分的热门话题都与部分商品关联成功。热搜词具有词频的属性,不同的热搜词被使用的次数不同,使用次数高的热搜词更能够代表对应的品类,在匹配过程中匹配成功之后贡献的得分也相应更高。
商品品类属性:除了几个与商品品类相关的实体之外,商品品类本身也有若干属性。比如品类T恤下拥有属性衬衫领形、袖长等属性;品类珍珠胸针下拥有属性镶嵌材质等。
2)获取微博热门话题内容;
微博数据通过网络爬取,抓取最新的热搜微博内容。这些微博内容围绕同一个微博热搜榜话题,不仅包括话题发起者的微博,同时也包括微博用户对于该话题的相关评论,以及引用该话题的其他微博。将这些微博整理为文本,对其进行除噪过滤,将过滤之后的所有微博内容连接在一起,作为此话题对应的用于分析的微博内容,进而作为语料文本进行匹配。
过滤方法如下:
2.1)去除所有的标点符号以及表情等非常用文本符号。
发微博或者评论微博的用户用语具有口语化以及随意性等特点,甚至有时整篇内容都是没有意义的符号。比如表示震惊的情绪时,可能会使用大量的感叹号,以及表达一些丰富的情感时,常使用一些特殊的表情符号,这些加强情感的符号对于商品品类的匹配没有较多的帮助,属于文本噪音,需要删去。
2.2)去除所有以“@”开头以及冒号结尾的字符串。
微博内容中一个非常鲜明的特点就是当微博涉及到其他用户或者是想让其他用户看到这篇微博时,会使用@加上该用户的昵称。除了一些官方微博以外,大部分用户的昵称对于商品的匹配过程是没有贡献的,甚至会产生极大的误导。因此用正则表达式匹配的方法将这些昵称删除。
2.3)去除以“#”开头与结尾的字符串。
与昵称问题类似,以“#”开头结尾的往往表示一个话题的名称。正常情况下,在一个话题中使用这样的符号引用另一个与之相似的话题并不会有不良影响,但许多微博用户并不遵循这种相似性规则,甚至有的人喜欢在某话题下面引用与之毫不相关的话题,这便对不同话题之间的比对造成干扰。所以删除类似这样的话题引用。
3)将商品品类知识图谱与热门话题内容进行匹配:对于每一个实时产生的热门话题,获得该话题对应的微博内容。对于其中涉及到的知识图谱中的不同实体,采用不同的匹配方法,将匹配结果在已构建好的知识图谱上进行检索,得到最终的匹配得分。
如图2所示,匹配结果在已构建好的知识图谱上的检索方法如下:
(1)泛产品品类识别检索:
(1.1)使用HanLP汉语言处理包对微博内容进行分词,并将所有的泛产品品类名称作为词典对分词结果进行过滤。过滤后出现次数最多的前十个词,去除其中出现次数不超过1次的词。用这些词在知识图谱中的泛产品品类名称部分进行检索,即与每一个商品品类下相关的所有泛产品品类名称进行精确匹配。每匹配成功,便为该品类累计得分计算得分的公式如下:
其中,表示第g个泛商品类型名称词在微博内容中出现的次数,表示泛产品品类识别对于匹配结果的贡献权重,gen表示泛商品。
(1.2)对微博内容进行命名实体识别(NER):采用Bidirectional LSTM-CRF模型,识别出微博文本中所有类型为泛产品品类的实体。将得到的实体在知识图谱中的泛产品品类名称部分进行检索。为了避免重复,如果识别出的实体在之前HanLP分词结果中出现,则不再重复计算。实体识别结果在知识图谱中检索的累计得分为:
其中,都表示识别出的实体在微博内容中出现的次数,区别在于前者表示的是包含某泛产品品类的实体,比如实体名称为纯牛奶,包含名为牛奶的泛产品名称;后者表示的是泛产品品类名称中包含的实体。例如某泛产品品类名称为游戏周边,包含实体游戏和周边。分别表示这两种实体对于最终匹配结果的贡献权重,en表示实体。
(2)品牌名称识别检索:
品牌名称检索识别部分直接使用步骤(1.2)中的实体识别结果,识别出所有类型为品牌的实体。将这些实体在知识图谱中进行检索,与每个商品品类下相关的所有品牌进行比对,累计得分Scoreb为:
其中,代表商品的第b个品牌在微博内容中出现的次数,wb表示品牌名称匹配结果对于最终匹配结果的贡献权重,brand表示品牌。
(3)热搜词识别检索:
热搜词不同于泛产品品类名称与品牌名称,它的内容往往很随意,比如对于品类项链,有热搜词迪士尼黄金苹果吊坠、SOINLOVE钻石旗舰店,这样的热搜词里面不仅可能包含泛产品品类名称和品牌名称,还可能包含其他的实体,例如迪士尼和旗舰店。因此无法使用简单的分词技术或者命名实体识别方法得到满意的结果。
对于所有的商品品类,找到该品类下相关的所有热搜词,将它们在微博内容中进行检索,检索结果累计得分Scoreh为:
其中,Valueh代表第h个在微博内容中出现热搜词的词频;sl表示该品类具有的热搜词数量,由于热搜词数据中不同品类下拥有的热搜词数量不同,热搜词数量多的品类在匹配中有可能会得到更高的分数,但实际上热搜词数量多的品类并不代表与话题有更多的关联,而是代表该品类在用户搜索过程中的表述形式更多样。因此,为了降低热搜词数量过多或过少对匹配得分造成的偏差,在原匹配分数上除以来消除影响。wh表示热搜词匹配对于匹配结果的贡献权重。
(4)商品属性识别检索:
由于不同商品品类属性种类各异,属性值在表达方式上也不规范,因此匹配过程与热搜词的匹配过程类似。对于所有的商品品类,找到品类具有的属性值,将他们再微博内容中进行检索,检索结果累计得分Scorea为:
其中,表示商品第a个商品属性值在微博内容中出现的次数,wa表示商品属性值匹配对于匹配结果的贡献权重,attr表示商品属性值。
(5)根据泛产品品类识别检索、品牌名称识别检索、热搜词识别检索和商品属性识别检索结果,得到最终匹配得分Score为:
4)为了考虑语义信息的影响,对商品标题与微博内容进行文本匹配:
商品标题与微博内容匹配采用文本匹配的方法,使用了机器学习的方法。
4.1)确定待匹配的文本;
微博热门话题采用整理好的微博正文内容文本即可,而在商品品类方面,采用商品标题文本,因为大部分的商品标题都是由商家书写,同时没有绝对规范的格式,与微博内容中常见的日常用语风格相近。对于某一商品品类,将该品类下的若干条商品标题连接起来形成待匹配的文本。
4.2)采用KNRM[1]模型,相比于传统的基于交互的匹配模型DRMM[2],KNRM通过引入核函数机制,在多个不同相似度下计算每个词的特征向量,由每个词的特征向量构成整个句子的特征向量,其模型结构如图3所示。
4.3)将商品标题与微博内容文本的词向量矩阵计算相似度,进而得到相似度矩阵。
4.4)在相似度矩阵上使用多个不同的核函数,在多种相似度水平上,分别计算微博文本内各个词对商品标题中词的相关性贡献值,得到商品标题中各词的软词频(Soft-TF);
4.5)将各词的Soft-TF加和得到用于排序的特征,通过多层感知机得到最终的匹配分数。
5)将商品品类知识图谱与热门话题内容的匹配结果与商品标题与微博内容的匹配结果相结合,得到最终的匹配结果;
其中,商品品类知识图谱与热门话题内容匹配结果由上述四个步骤中的四部分匹配结果综合得到,分别是微博文本与商品泛产品类目名称、品牌名称、热搜词与商品属性的精确匹配,将这四部分匹配结果通过权重相加得到总得分。另外,商品标题与微博内容直接采用文本匹配的方式,使用KNRM模型得到匹配结果的得分。将四部分匹配结果通过权重相加的总得分与KNRM模型得到匹配结果得分相结合,得到最终得分,将最终分数归一化到[0,1]区间,若分数大于0.5则认为匹配,否则不匹配;
结合时采用的权重为通过实验取评测指标最高时对应的权重,该权重对应的结合后得分即为最终得分;其中,评测指标为预先设定的指标,具体准确度、召回率与精确率。
综上所述,本发明解决了商品品类与微博热门话题的关联问题,通过实验证明了本发明匹配方法的有效性,可以挖掘出微博话题与商品品类的关联。
上述各实施例仅用于说明本发明,各个步骤都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不应排除在本发明的保护范围之外。

Claims (10)

1.一种社会热点与商品品类的匹配方法,其特征在于包括以下步骤:
1)构建商品品类知识图谱;
2)获取微博热门话题内容;
3)将商品品类知识图谱与热门话题内容进行匹配:对于每一个实时产生的热门话题,获得该话题对应的微博内容,对于其中涉及到的知识图谱中的不同实体,采用不同的匹配方法,将匹配结果在已构建好的知识图谱上进行检索,得到最终的匹配得分;
4)对商品标题与微博内容进行文本匹配;
5)将商品品类知识图谱与热门话题内容的匹配结果与商品标题与微博内容的匹配结果相结合,得到最终的匹配结果。
2.如权利要求1所述方法,其特征在于:所述步骤1)中,商品品类知识图谱包括商品品类、三个实体和商品品类属性;每一个商品品类与三个实体关联,三个实体分别是泛产品品类、热搜词和品牌。
3.如权利要求2所述方法,其特征在于:所述泛产品品类是将多个相近的品类集中起来,作为匹配过程中的一个整体,减少匹配品类总数,提高话题匹配成功的概率;所述热搜词是用户在搜索指定商品时输入的搜索词,热搜词具有词频的属性,不同的热搜词被使用的次数不同,使用次数高的热搜词更能够代表对应的品类,在匹配过程中匹配成功之后贡献的得分也相应更高。
4.如权利要求1所述方法,其特征在于:所述步骤2)中,微博数据通过网络爬取,抓取最新的热搜微博内容;这些微博内容围绕同一个微博热搜榜话题,不仅包括话题发起者的微博,同时也包括微博用户对于该话题的相关评论,以及引用该话题的其他微博;将这些微博整理为文本,对其进行除噪过滤,将过滤之后的所有微博内容连接在一起,作为此话题对应的用于分析的微博内容,进而作为语料文本进行匹配。
5.如权利要求4所述方法,其特征在于,所述过滤方法包括以下步骤:
2.1)去除所有的标点符号以及表情非常用文本符号;
2.2)去除所有以“@”开头以及冒号结尾的字符串;
2.3)去除以“#”开头与结尾的字符串。
6.如权利要求1所述方法,其特征在于:所述步骤3)中,匹配结果在已构建好的知识图谱上的检索方法如下:
(1)泛产品品类识别检索:泛产品品类名称部分检索累计得分为体识别结果在知识图谱中检索的累计得分为
(2)对品牌名称识别检索:直接使用实体识别结果,识别出所有类型为品牌的实体,将这些实体在知识图谱中进行检索,与每个商品品类下相关的所有品牌进行比对,累计得分为Scoreb
(3)热搜词识别检索:对于所有的商品品类,找到该品类下相关的所有热搜词,将它们在微博内容中进行检索,检索结果累计得分为Scoreh
(4)商品属性识别检索:对于所有的商品品类,找到品类具有的属性值,将他们再微博内容中进行检索,检索结果累计得分为Scorea
(5)根据泛产品品类识别检索、品牌名称识别检索、热搜词识别检索和商品属性识别检索结果,得到最终匹配得分Score为:
7.如权利要求6所述方法,其特征在于:所述泛产品品类名称部分检索中,使用HanLP汉语言处理包对微博内容进行分词,并将所有的泛产品品类名称作为词典对分词结果进行过滤;过滤后出现次数最多的前十个词,去除其中出现次数不超过1次的词,用这些词在知识图谱中的泛产品品类名称部分进行检索,即与每一个商品品类下相关的所有泛产品品类名称进行匹配,每匹配成功,便为该品类累计得分
8.如权利要求6所述方法,其特征在于:所述实体识别结果在知识图谱中检索:采用Bidirectional LSTM-CRF模型,识别出微博文本中所有类型为泛产品品类的实体;将得到的实体在知识图谱中的泛产品品类名称部分进行检索,如果识别出的实体在之前HanLP分词结果中出现,则不再重复计算。
9.如权利要求1所述方法,其特征在于:所述步骤4)中,商品标题与微博内容匹配方法包括以下步骤:
4.1)确定待匹配的文本;
4.2)采用KNRM[1]模型,KNRM通过引入核函数机制,在多个不同相似度下计算每个词的特征向量,由词的特征向量构成句子的特征向量;
4.3)将商品标题与微博内容文本的词向量矩阵计算相似度,进而得到相似度矩阵;
4.4)在相似度矩阵上使用多个不同的核函数,在多种相似度水平上,分别计算微博文本内各个词对商品标题中词的相关性贡献值,得到商品标题中各词的软词频;
4.5)将各词的软词频加和得到用于排序的特征,通过多层感知机得到最终的匹配分数。
10.如权利要求1所述方法,其特征在于:所述步骤5)中,商品品类知识图谱与热门话题内容匹配结果由微博文本与商品泛产品类目名称、品牌名称、热搜词与商品属性的精确匹配这四部分匹配结果综合得到,将这四部分匹配结果通过权重相加得到总得分;并且商品标题与微博内容直接采用文本匹配的方式,使用KNRM模型得到匹配结果的得分;将四部分匹配结果通过权重相加的总得分与KNRM模型得到匹配结果得分相结合,得到最终得分,将最终分数归一化到[0,1]区间,若分数大于0.5则认为匹配,否则不匹配。
CN201811396382.9A 2018-11-22 2018-11-22 一种社会热点与商品品类的匹配方法 Active CN109597990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811396382.9A CN109597990B (zh) 2018-11-22 2018-11-22 一种社会热点与商品品类的匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811396382.9A CN109597990B (zh) 2018-11-22 2018-11-22 一种社会热点与商品品类的匹配方法

Publications (2)

Publication Number Publication Date
CN109597990A true CN109597990A (zh) 2019-04-09
CN109597990B CN109597990B (zh) 2022-11-15

Family

ID=65960443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811396382.9A Active CN109597990B (zh) 2018-11-22 2018-11-22 一种社会热点与商品品类的匹配方法

Country Status (1)

Country Link
CN (1) CN109597990B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674313A (zh) * 2019-09-20 2020-01-10 四川长虹电器股份有限公司 一种基于用户日志动态更新知识图谱的方法
CN110990584A (zh) * 2019-11-26 2020-04-10 口口相传(北京)网络技术有限公司 知识图谱的生成方法及装置
CN111666171A (zh) * 2020-06-04 2020-09-15 中国工商银行股份有限公司 故障识别方法及装置、电子设备和可读存储介质
CN113256379A (zh) * 2021-05-24 2021-08-13 北京小米移动软件有限公司 一种为商品关联购物需求的方法
CN113590805A (zh) * 2021-07-26 2021-11-02 上海致景信息科技有限公司 基于知识图谱的纺织类商品名称的搜索方法及装置
CN113836904A (zh) * 2021-09-18 2021-12-24 唯品会(广州)软件有限公司 商品信息校验方法
CN114169945A (zh) * 2022-02-08 2022-03-11 北京金堤科技有限公司 一种确定对象所在领域内热门供需产品的方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
US20130110823A1 (en) * 2011-10-26 2013-05-02 Yahoo! Inc. System and method for recommending content based on search history and trending topics
US8977948B1 (en) * 2012-05-14 2015-03-10 Amdocs Software Systems Limited System, method, and computer program for determining information associated with an extracted portion of content
CN105045909A (zh) * 2015-08-11 2015-11-11 北京京东尚科信息技术有限公司 从文本中识别商品名称的方法和装置
CN105468780A (zh) * 2015-12-18 2016-04-06 北京理工大学 一种微博文本中产品名实体的规范化方法及装置
CN106779827A (zh) * 2016-12-02 2017-05-31 上海晶樵网络信息技术有限公司 一种互联网用户行为采集及分析检测的大数据方法
CN107633007A (zh) * 2017-08-09 2018-01-26 五邑大学 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN107885793A (zh) * 2017-10-20 2018-04-06 江苏大学 一种微博热点话题分析预测方法及系统
CN108804419A (zh) * 2018-05-22 2018-11-13 湖南大学 一种基于知识图谱的线下医药零售精准推荐技术

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
US20130110823A1 (en) * 2011-10-26 2013-05-02 Yahoo! Inc. System and method for recommending content based on search history and trending topics
US8977948B1 (en) * 2012-05-14 2015-03-10 Amdocs Software Systems Limited System, method, and computer program for determining information associated with an extracted portion of content
CN105045909A (zh) * 2015-08-11 2015-11-11 北京京东尚科信息技术有限公司 从文本中识别商品名称的方法和装置
CN105468780A (zh) * 2015-12-18 2016-04-06 北京理工大学 一种微博文本中产品名实体的规范化方法及装置
CN106779827A (zh) * 2016-12-02 2017-05-31 上海晶樵网络信息技术有限公司 一种互联网用户行为采集及分析检测的大数据方法
CN107633007A (zh) * 2017-08-09 2018-01-26 五邑大学 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN107885793A (zh) * 2017-10-20 2018-04-06 江苏大学 一种微博热点话题分析预测方法及系统
CN108804419A (zh) * 2018-05-22 2018-11-13 湖南大学 一种基于知识图谱的线下医药零售精准推荐技术

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冯时等: "基于LDA模型的中文微博话题意见领袖挖掘", 《东北大学学报(自然科学版)》 *
窦志成: "文本大数据分析技术的机遇与挑战", 《金融电子化》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674313A (zh) * 2019-09-20 2020-01-10 四川长虹电器股份有限公司 一种基于用户日志动态更新知识图谱的方法
CN110990584A (zh) * 2019-11-26 2020-04-10 口口相传(北京)网络技术有限公司 知识图谱的生成方法及装置
CN111666171A (zh) * 2020-06-04 2020-09-15 中国工商银行股份有限公司 故障识别方法及装置、电子设备和可读存储介质
CN113256379A (zh) * 2021-05-24 2021-08-13 北京小米移动软件有限公司 一种为商品关联购物需求的方法
CN113590805A (zh) * 2021-07-26 2021-11-02 上海致景信息科技有限公司 基于知识图谱的纺织类商品名称的搜索方法及装置
CN113836904A (zh) * 2021-09-18 2021-12-24 唯品会(广州)软件有限公司 商品信息校验方法
CN113836904B (zh) * 2021-09-18 2023-11-17 唯品会(广州)软件有限公司 商品信息校验方法
CN114169945A (zh) * 2022-02-08 2022-03-11 北京金堤科技有限公司 一种确定对象所在领域内热门供需产品的方法和装置

Also Published As

Publication number Publication date
CN109597990B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN109597990A (zh) 一种社会热点与商品品类的匹配方法
Nigam et al. Semantic product search
CN102609523B (zh) 基于物品分类和用户分类的协同过滤推荐方法
Reddy et al. Shopping queries dataset: A large-scale ESCI benchmark for improving product search
CN108763362A (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
KR102075833B1 (ko) 미술 작품 추천 큐레이션 방법 및 시스템
CN110059271B (zh) 运用标签知识网络的搜索方法及装置
CN109146626B (zh) 一种基于用户动态兴趣分析的时尚服装搭配推荐方法
Selke et al. Pushing the boundaries of crowd-enabled databases with query-driven schema expansion
Bai et al. Characterizing and predicting early reviewers for effective product marketing on e-commerce websites
US8428948B1 (en) Usage based query response
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN107256513A (zh) 一种对象的搭配推荐方法及装置
US8775160B1 (en) Usage based query response
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
KR102109338B1 (ko) 고객 맞춤형 의류 분석 및 추천 시스템
CN109325115A (zh) 一种角色分析方法及分析系统
Bianchi et al. Query2prod2vec grounded word embeddings for ecommerce
Gong et al. Aesthetics, personalization and recommendation: A survey on deep learning in fashion
JP5234992B2 (ja) 回答文書分類装置、回答文書分類方法及びプログラム
Zoghbi et al. I pinned it. Where can i buy one like it? Automatically linking Pinterest pins to online Webshops
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN106503064B (zh) 一种自适应微博话题摘要的生成方法
Bhatnagar et al. A Proposed framework for improved identification of implicit aspects in tourism domain using supervised learning technique
Long et al. Multimodal recommendation dialog with subjective preference: A new challenge and benchmark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant