CN107330752B - 识别品牌词的方法和装置 - Google Patents

识别品牌词的方法和装置 Download PDF

Info

Publication number
CN107330752B
CN107330752B CN201710398715.0A CN201710398715A CN107330752B CN 107330752 B CN107330752 B CN 107330752B CN 201710398715 A CN201710398715 A CN 201710398715A CN 107330752 B CN107330752 B CN 107330752B
Authority
CN
China
Prior art keywords
word
brand
label
words
commodity information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710398715.0A
Other languages
English (en)
Other versions
CN107330752A (zh
Inventor
黄运杜
陈海勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710398715.0A priority Critical patent/CN107330752B/zh
Publication of CN107330752A publication Critical patent/CN107330752A/zh
Application granted granted Critical
Publication of CN107330752B publication Critical patent/CN107330752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种识别品牌词的方法和装置,有助于更准确地从商品信息中识别品牌词,并具有较快的处理效率。本发明的识别品牌词的方法包括:根据已获取的多条商品信息构造多个特征集合;对所述多个特征集合使用预设的映射方式进行映射以得到训练数据,然后使用二分类器对所述训练数据进行训练以得到模型,该模型中包含特征集合中各特征的权重;根据指定的一条商品信息构造待处理数据;使用所述模型确定所述待处理数据中的各个特征的权重,再根据该权重确定各个待识别词在指定的商品信息中是品牌词的概率。

Description

识别品牌词的方法和装置
技术领域
本发明涉及计算机技术领域,特别地涉及一种识别品牌词的方法和装置。
背景技术
随着时代的发展,网上购物已经变成人们日常生活中不可或缺的一部分。用户在网购过程中,往往会检索某个品牌下的商品或者型号。然而,用户搜索“小米5斤”的时候,并不是搜索小米品牌,而是搜索吃的小米;搜索“华为手机壳”的时候,也不是搜索华为品牌,而是搜索适用于华为手机的手机壳。商家在使用各种手段,提升自己的搜索排名(SEO)时,也会填写多个品牌词来提升自己的排名。所以,一种准确识别品牌词的方法,对于识别用户搜索意图,提升用户体验;自动规范商家的商品编写规范,智能化平台服务;都具有重大意义。
用户输入的搜索词往往不止一个词,在习惯上,把用户搜索时输入的所有内容一并称作“搜索词”。
现有技术中,针对用户提供的搜索词进行品牌识别时,一般采用词表匹配法,使用品牌词典中的词与搜索词中的词进行匹配,如果匹配成功,则认为搜索词中的该词是一个品牌词。具体步骤如下:
a.获取搜索词;
b.对搜索词分词,得到分词列表;
c.获取品牌词典;
d.遍历分词列表,查找各分词是否存在于品牌词典中,若是则当前分词为品牌词。
上述方法的不足之处主要在于,如果某个词既可以作为品牌,又有其他含义可用于搜索,在采用其他含义作为搜索词时会匹配到该品牌,从而产生错误,例如用户输入“小米5斤”,则会匹配到小米这个品牌词,这显然是错误的。
因此在现有技术中,品牌词的识别仍然不够准确。
发明内容
有鉴于此,本发明实施例提供一种识别品牌词的方法和装置,有助于更准确地从商品信息中识别品牌词,并具有较快的处理效率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种识别品牌词的方法。
本发明实施例的识别品牌词的方法包括:根据已获取的多条商品信息构造多个特征集合;每个特征集合对应一个品牌词,该品牌词出现在商品信息中并且包含在品牌词典中;特征集合中的每个特征包含所述品牌词以及该品牌词所在的商品信息中的另一个或多个词;若所述品牌词在其所在商品信息中是作为该商品的品牌,则该品牌词对应的特征的标签为正标签,否则为负标签;对所述多个特征集合使用预设的映射方式进行映射以得到训练数据,然后使用二分类器对所述训练数据进行训练以得到模型,该模型中包含特征集合中各特征的权重;根据指定的一条商品信息构造待处理数据;构造的待处理数据中,每个属于所述品牌词典的词作为待识别词,每个待识别词对应一个特征集合,该特征集合中的每个特征包含该待识别词以及该指定的商品信息中的另一个词;使用所述模型确定所述待处理数据中的各个特征的权重,再根据该权重确定各个待识别词在指定的商品信息中是品牌词的概率。
可选地,所述商品信息是由电子商务的商家在展示商品的页面上提供;并且根据已获取的多条商品信息构造多个特征集合的步骤包括对获取的多条商品信息中的每条商品标题执行如下步骤A至步骤D:步骤A:读取对商品标题进行分词后得到的多个词;步骤B:对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签;步骤C:对具有第一类标签的各个词分别进行判断,若词与所述商品信息中的品牌相一致,则对该词添加第三类标签,否则对该词添加第四类标签;步骤D:对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从商品标题中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。
可选地,所述商品信息是由电子商务的用户在电子商务上进行商品搜索时形成的浏览日志中的搜索词和搜索后的品牌选择记录;并且根据已获取的多条商品信息构造多个特征集合的步骤包括针对所述浏览日志中的每条搜索词执行如下的步骤:步骤A:读取对搜索词进行分词后得到的多个词;步骤B:对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签;步骤C:对具有第一类标签的各个词分别进行判断,若词是该搜索词对应的品牌,则对该词添加第三类标签,否则对该词添加第四类标签;步骤D:对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从搜索词中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。
可选地,所述步骤C之前,还包括:根据所述浏览日志中的搜索词和搜索后的品牌选择记录,统计各搜索词在被搜索后对应的被选择品牌的分布;将分布概率达到设定值的品牌作为该搜索词对应的品牌。
可选地,所述使用二分类器对所述训练数据进行训练的步骤包括:先选择L1正则函数对所述训练数据进行训练,对训练后数据再选择L2正则函数进行训练。
根据本发明实施例的另一方面,提供了一种识别品牌词的装置。
本发明实施例的识别品牌词的装置包括:特征模块,用于根据已获取的多条商品信息构造多个特征集合;每个特征集合对应一个品牌词,该品牌词出现在商品信息中并且包含在品牌词典中;特征集合中的每个特征包含所述品牌词以及该品牌词所在的商品信息中的另一个或多个词;若所述品牌词在其所在商品信息中是作为该商品的品牌,则该品牌词对应的特征的标签为正标签,否则为负标签;训练模块,用于对所述多个特征集合使用预设的映射方式进行映射以得到训练数据,然后使用二分类器对所述训练数据进行训练以得到模型,该模型中包含特征集合中各特征的权重;预测模块,用于根据指定的一条商品信息构造待处理数据;构造的待处理数据中,每个属于所述品牌词典的词作为待识别词,每个待识别词对应一个特征集合,该特征集合中的每个特征包含该待识别词以及该指定的商品信息中的另一个词;使用所述模型确定所述待处理数据中的各个特征的权重,再根据该权重确定各个待识别词在指定的商品信息中是品牌词的概率。
可选地,所述商品信息是由电子商务的商家在展示商品的页面上提供;并且所述特征模块还用于对获取的多条商品信息中的每条商品标题执行如下步骤A至步骤D:步骤A:读取对商品标题进行分词后得到的多个词;步骤B:对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签;步骤C:对具有第一类标签的各个词分别进行判断,若词与所述商品信息中的品牌相一致,则对该词添加第三类标签,否则对该词添加第四类标签;步骤D:对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从商品标题中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。
可选地,所述商品信息是由电子商务的用户在电子商务上进行商品搜索时形成的浏览日志中的搜索词和搜索后的品牌选择记录;并且所述特征模块还用于针对所述浏览日志中的每条搜索词执行如下的步骤:步骤A:读取对搜索词进行分词后得到的多个词;步骤B:对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签;步骤C:对具有第一类标签的各个词分别进行判断,若词是该搜索词对应的品牌,则对该词添加第三类标签,否则对该词添加第四类标签;步骤D:对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从搜索词中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。
可选地,本发明的识别品牌词的装置还包括点击分布识别模块,用于:根据所述浏览日志中的搜索词和搜索后的品牌选择记录,统计各搜索词在被搜索后对应的被选择品牌的分布;将分布概率达到设定值的品牌作为该搜索词对应的品牌。
可选地,所述训练模块还用于:先选择L1正则函数对所述训练数据进行训练,对训练后数据再选择L2正则函数进行训练。
根据本发明实施例的另一方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例所述的方法。
根据本发明实施例的另一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如本发明实施例所述的方法。
根据本发明实施例的技术方案,通过构造特征并进行训练得到模型,实现了对疑似品牌词进行二分类,并且在构造特征的过程中实现了语义特征的加入,从而能够实现对一般文本中的品牌词的识别,不限于上述的商品标题或者搜索词,并且识别更准确。其中的二分类方法相比于多分类,更有区分度,因为多分类的特征空间比较稀疏,不容易区分正确。并且二分类的训练速度更快。因此采用本发明的技术方案有助于更准确地识别品牌词,并具有较快的处理效率。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施方式的识别品牌词的方法的主要步骤的示意图;
图2是根据本发明实施方式的识别品牌词的装置的主要模块的示意图;
图3A示出了可以应用本发明实施例的识别品牌词的方法或识别品牌词的装置的示例性系统架构;
图3B是适于用来实现本申请实施例的终端设备的计算机系统30的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施方式做出说明,其中包括本发明实施方式的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施方式做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本发明实施方式中,基于机器学习的方式来识别品牌词,其中根据历史数据构造特征,然后利用特征数据训练得到模型,再用模型来识别待处理文本中的品牌词。该处理文本是包含商品信息的文本,既可以是用户的搜索词,也可以是商家填写的商品标题,或者是其他场合中的句子或短语。商家填写的商品标题存在可能的不规范性,对其中的品牌词进行识别有助于帮助商家进行规范的填写。以下结合附图对本发明实施方式中的识别品牌词的技术方案加以说明。
作为示例,本实施方式中的数据来源采用商家给每个商品填写的标题和品牌,数据来源还包括用户搜索词和搜索后的品牌选择记录。在电子商务的商家页面上,商家需要填写商品标题,例如“山西特产沁州五谷杂粮黄小米沁州黄小米袋装2.5kg”。另外,商品的品牌需要商家在商品参数的表格的“品牌”一栏专门进行填写。用户在输入搜索词之后,网页会给出一个或多个品牌,用户从中点选品牌,从而构成品牌选择记录。本实施方式的技术方案中,还需用到品牌词典、商品标题库、以及搜索词库,以下对它们分别加以说明。
在构造品牌词典时,从众多的商家填写的品牌中获取尽可能全的品牌,这些品牌的集合构成品牌词典,并且品牌词典可以不断地扩充。商品标题库中是众商家填写的商品标题的集合。搜索词库中包含了从大量用户的浏览日志中获取的搜索词。
对于搜索词来说,还需确定其对应的品牌词。具体方法是,根据上述浏览日志中的搜索词和搜索后的品牌选择记录,统计各搜索词在被搜索后对应的被选择品牌的分布;再将分布概率达到设定值的品牌作为该搜索词对应的品牌。这种方式因为考察了被选择品牌的分布,所以可称作“点击分布法”。可以看出,如果用户没有搜索一个品牌,则搜索后在选择品牌时,选择的品牌必然比较分散;如果搜某品牌,或某品牌某型号,搜索后必然选择一个确定的品牌。
由于用户填写的搜索词的不规范性,需要采用上述方式来确定搜索词中的品牌词。这里虽然也实现了品牌词的识别,但是仅适用于有一定量的搜索日志的搜索词,并且不适用于其他商品信息例如商家填写的商品标题的识别。
商品标题库和搜索词库是用来构造特征以便训练得到模型。可以先对它们进行数据清洗,具体可以包括:大写字母转小写字母;分词后的品牌若前后有多余空格则去除;分词后将非品牌的数字替换为指定字符串(可用品牌词典来判断数字是否为品牌);去除分词后的空白与标点符号;去除分词后未包含品牌词的商品标题(商品标题中必须包含品牌)。
在进行了上述的数据准备工作之后,即可以进行模型的生成和使用。具体步骤如图1所示,图1是根据本发明实施方式的识别品牌词的方法的主要步骤的示意图。
步骤S11:根据已获取的多条商品信息构造多个特征集合。这里的商品信息包括商品标题库和搜索词库中的内容。在本步骤中,每个特征集合对应一个品牌词,该品牌词出现在商品信息中并且包含在品牌词典中;每个特征集合具有多个特征,各特征包含所述品牌词以及该品牌词所在的商品信息中的另一个或多个词;若所述品牌词在其所在商品信息中是作为该商品的品牌,则该品牌词对应的特征的标签为正标签,否则为负标签。
在采用商品标题库进行特征构造时,可以对各条商品标题按如下步骤进行处理:
步骤A:读取对商品标题进行分词后得到的多个词。
步骤B:对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签。商品标题中的某词属于品牌词典,并不意味着它必然是该商品标题中也作为品牌,例如前文中的“山西特产沁州五谷杂粮黄小米沁州黄小米袋装2.5kg”,其中的“小米”显然不是品牌。所以,添加了第一类标签的词,只能算作“疑似品牌词”。但添加了第二类标签的词,在采用当前品牌词典的情况下,必然不作为品牌词。可以看出这里应当对“小米”添加了第二类标签。这有助于使后续步骤中得到的模型能够更准确地识别“小米”是否为品牌词。
步骤C:对具有第一类标签的各个词分别进行判断,若词与所述商品信息中的品牌相一致,则对该词添加第三类标签,否则对该词添加第四类标签。商品信息中的品牌是商家在品牌一栏专门填写的内容,因此可以利用它来确定具有第一类标签的“疑似品牌词”在商品标题中是作为品牌词出现。这样,具有第三类标签的词,在其所在商品信息中是作为该商品的品牌,具有第四类标签的词,在其所在商品信息中没有作为该商品的品牌。
添加了上述标签后,得到的商品标题库中的条目内容例如(以下是一个条目中的内容,其中第一至第四类标签分别以B、o、1、0表示):
商品标题:莫伊儿2015春装新款韩版小西装女修身显瘦短款小香风外套蕾丝长袖西服
品牌名称:莫伊儿
分词标签:莫伊儿-B-1,numberdigital-o-0,春装新款-o-0,韩版-o-0,小西装-o-0,女-o-0,修身-o-0,显瘦-o-0,短款-o-0,小香风-o-0,外套-o-0,蕾丝长袖-o-0,西服-o-0
步骤D:对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从商品标题中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。因此每个具有第一类标签的词对应一条特征。本实施方式中采用二分法的分类器进行训练,而具有第一类标签的词进一步具有第三类和第四类这两种标签,所以可选择第三类标签为正标签,第四类标签为负标签。
在采用搜索词库进行特征构造时,步骤与上述类似,不同之处主要在步骤C中。各步骤如下:
步骤A:读取对搜索词进行分词后得到的多个词。
步骤B:对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签。
步骤C:对具有第一类标签的各个词分别进行判断,若词是该搜索词对应的品牌,则对该词添加第三类标签,否则对该词添加第四类标签。在本步骤中判断搜索词中的一个词是否为搜索词对应的品牌时,可采用上文中介绍的“点击分布法”。
添加了上述标签后,得到的搜索词库中的条目内容例如(以下是一个条目中的内容):
搜索词:1more活塞耳机
品牌名称:加一联创
分词标签:1more-B-1,活塞-o-0,耳机-o-0
步骤D:对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从搜索词中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。与上文中类似,此处构造的特征的标签可选择第三类标签为正标签,第四类标签为负标签。可以看出在构造特征时,进行上述的组合实现了语义特征的加入,这有助于更准确地识别品牌词。
对于上文中的两处步骤D,以下再举例做进一步说明。在步骤D中,进行了词的组合。假设一条商品信息为:
A1-o-0,A2-o-0,A3-o-0,D-B-1,A4-o-0,A5-o-0,A6-o-0
其中A1至A6表示分词之后不属于品牌词典的词,因此被添加第二类标签“o”,在本实施方式中,为了标签长度一致,也可对具有第二类标签的词添加第四类标签“0”。该商品信息中的D是出现在品牌词典中的词,因此被添加第一类标签“B”,并假设该词在该商品信息中也作为品牌词,从而被添加第三类标签“1”。这里的各个标签所用的字符可以自由选取。
在进行步骤D中的组合时,一般来说可以考虑如下方式:
方式一:词窗口为7,即选择7个词,用下划线的数量表示文本中词之间的距离。把词D与A1至A6进行组合后,可得到特征集合如下:
A1___D,A2__D,A3_D,D_A4,D__A5,D___A6
方式一存在的问题是,对于商品标题库和搜索词库,前者的条目中,分词标签一项较长,后者的条目中,分词标签一项较短,所以二者距离信息无法对等。
方式二:词窗口为5,舍弃A1和A6,剩下的词就近两两组合,并且对具有第一类标签的词与较远的词也作组合,得到特征集合如下:
A2_A3,A2__D,A3_D,A3__A4,D_A4,D__A5,A4_A5
方式二存在的问题是,缩小词窗口之后,对于较长的商品标题,必须舍弃一些词,导致有可能有用的词没进入特征。此外,两两组合的方式,会使组合结果失去区分度。例如,搜索词为“沁州小米”,分词并添加标签之后是:沁州-B-1,小米-B-0。但是对这两个词构造特征,均是“沁州_小米”,特征完全相同,失去区分度。
方式三:整个商品标题或搜索词作为词窗口,即选择分词后的所有词,并且特征集合的每个特征中,把具有B标签的词即疑似品牌词放前面。如上例,得到特征集合如下:
B_A1,B_A2,B_A3,B_A4,B_A5,B_A6
根据上面的分析,可以看出方式三既包含了分词后的所有词,从而使距离疑似品牌词较远的词也纳入考虑范围,又突出了疑似品牌词从而具备区分度,因此应当采用方式三。采用方式三,构造特征的具体例子如:
分词并添加标签的结果为:
沁州-B-1,山西-o-0,沁州黄-o-0,集团-o-0,小米-B-0
其中对于包含两个B标签的词,分别对二者构造特征。
沁州-B的特征集合如下:沁州_山西沁州_沁州黄沁州_集团沁州_小米。即该特征集合包含4个特征。该特征集合的标签以与“沁州-B-1”中的“1”相一致的方式来设置,即设为1。
类似地,小米-B的特征集合为:小米_沁州小米_山西小米_沁州黄小米_集团。由4个特征构成,特征集合标签按“小米-B-0”中的“0”来设置,即设为0。
以上是对特征构造的步骤的说明。在构造得到特征之后,即进入步骤S12。
步骤S12:将步骤S11中得到的特征进行映射以得到训练数据。映射方式有很多,例如hash映射、doubletree映射、map映射等,能够将特征映射到1位整数上。这样,一个特征集合即映射到一个数字集合上,该数字集合具有该特征集合的标签。映射后的结果与特征的标签构成训练数据,可以用来进行训练。
步骤S13:采用二分类器对训练数据进行训练以得到模型。在具体训练时,可以先选择L1正则函数对训练数据进行训练,以将训练后权重为0的特征去掉,再对训练后数据再选择L2正则函数进行训练,可以去除很多无用的特征,以降低特征维度。如前文所述,特征集合中包含多个特征。在训练得到的模型中,包含有各个特征的权重,权重可能是正数,也可能是负数。
在得到模型的情况下,就可以利用模型对包含了商品信息的文本进行识别以确定其中是否包含品牌词,即在步骤S13之后,进入步骤S14。
步骤S14:根据指定的一条商品信息构造待处理数据。这里的步骤与上述步骤类似,同样是构造特征,这样,构造的待处理数据中,每个属于品牌词典的词作为待识别词,每个待识别词对应一个特征集合,在每个特征集合中,包含有多个特征,各特征包含该待识别词以及该指定的商品信息中的另一个词。这样有几个待识别词,就会构造得到几个特征集合,也就是说特征集合的数目视该商品信息中的“疑似品牌词”即待识别词的数目而定。
步骤S15:使用上述模型确定待处理数据中的各个特征的权重。
步骤S16:根据步骤S15中得到的权重确定各个待识别词在指定的商品信息中是品牌词的概率。本步骤中可采用各种二分类的分类方法来确定该概率,但应当与训练时采用的分类方法相一致。概率越大,待识别词在指定的商品信息中越可能是一个品牌词。
以下再对本发明实施方式中的识别品牌词的装置的基本结构加以说明。图2是根据本发明实施方式的识别品牌词的装置的主要模块的示意图。如图2所示,识别品牌词的装置20主要包括特征模块、训练模块、以及预测模块。
特征模块用于根据已获取的多条商品信息构造多个特征集合;每个特征集合对应一个品牌词,该品牌词出现在商品信息中并且包含在品牌词典中;特征集合中的每个特征包含所述品牌词以及该品牌词所在的商品信息中的另一个或多个词;若所述品牌词在其所在商品信息中是作为该商品的品牌,则该品牌词对应的特征的标签为正标签,否则为负标签。
训练模块用于对所述多个特征集合使用预设的映射方式进行映射以得到训练数据,然后使用二分类器对所述训练数据进行训练以得到模型,该模型中包含特征集合中各特征的权重。
预测模块用于根据指定的一条商品信息构造待处理数据;构造的待处理数据中,每个属于所述品牌词典的词作为待识别词,每个待识别词对应一个特征集合,该特征集合中的每个特征包含该待识别词以及该指定的商品信息中的另一个词;使用所述模型确定所述待处理数据中的各个特征的权重,再根据该权重确定各个待识别词在指定的商品信息中是品牌词的概率。
图3A示出了可以应用本发明实施例的识别品牌词的方法或识别品牌词的装置的示例性系统架构300。
如图3A所示,系统架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的识别品牌词的方法可由服务器305或终端设备301、302、303中的一台或几台执行,相应地,识别品牌词的装置可设置于服务器305以及终端设备301、302、303中的一台或几台中。
应该理解,图3A中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图3B,图3B是适于用来实现本申请实施例的终端设备的计算机系统30的结构示意图。图3B示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3B所示,计算机系统30包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机系统30操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出接口(I/O接口)也连接至总线。
以下部件连接至I/O接口:输入部分,例如包括键盘、鼠标等;输出部分,例如包括诸如阴极射线管(CRT)、液晶显示器(LCD)等;存储部分,例如包括硬盘等;通信部分,例如及包括诸如LAN卡、调制解调器等的网络接口卡等。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本发明公开的实施例,上文描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行本发明公开的实施例所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括特征模块、训练模块、以及预测模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,特征模块还可以被描述为“用于根据已获取的多条商品信息构造多个特征集合的模块”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备能够实现上文所述的各方法。
根据本发明实施方式,通过构造特征并进行训练得到模型,实现了对疑似品牌词进行二分类,并且在构造特征的过程中实现了语义特征的加入,从而能够实现对一般文本中的品牌词的识别,不限于上述的商品标题或者搜索词,并且识别更准确。其中的二分类方法相比于多分类,更有区分度,因为多分类的特征空间比较稀疏,不容易区分正确。并且二分类的训练速度更快。因此采用本发明实施方式的技术方案有助于更准确地识别品牌词,并具有较快的处理效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种识别品牌词的方法,其特征在于,包括:
根据已获取的多条商品信息构造多个特征集合;每个特征集合对应一个品牌词,该品牌词出现在商品信息中并且包含在品牌词典中;特征集合中的每个特征包含所述品牌词以及该品牌词所在的商品信息中的另一个或多个词;若所述品牌词在其所在商品信息中是作为该商品的品牌,则该品牌词对应的特征的标签为正标签,否则为负标签;
对所述多个特征集合进行映射以得到训练数据,然后使用二分类器对所述训练数据进行训练以得到模型,该模型中包含特征集合中各特征的权重;
根据指定的一条商品信息构造待处理数据;待处理数据中,每个属于所述品牌词典的词作为待识别词,每个待识别词对应一个特征集合,该特征集合中的每个特征包含该待识别词以及该指定的商品信息中的另一个词;
使用所述模型确定所述待处理数据中的各个特征的权重,再根据该权重确定各个待识别词在指定的商品信息中是品牌词的概率。
2.根据权利要求1所述的方法,其特征在于,
所述商品信息是由电子商务的商家在展示商品的页面上提供;
并且根据已获取的多条商品信息构造多个特征集合的步骤包括对获取的多条商品信息中的每条商品标题执行如下步骤:
读取对商品标题进行分词后得到的多个词;
对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签;
对具有第一类标签的各个词分别进行判断,若词与所述商品信息中的品牌相一致,则对该词添加正标签,否则对该词添加负标签;
对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从商品标题中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。
3.根据权利要求1所述的方法,其特征在于,
所述商品信息是由电子商务的用户在电子商务上进行商品搜索时形成的浏览日志中的搜索词和搜索后的品牌选择记录;
并且根据已获取的多条商品信息构造多个特征集合的步骤包括针对所述浏览日志中的每条搜索词执行如下的步骤:
读取对搜索词进行分词后得到的多个词;
对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签;
对具有第一类标签的各个词分别进行判断,若词是该搜索词对应的品牌,则对该词添加正标签,否则对该词添加负标签;
对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从搜索词中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。
4.根据权利要求3所述的方法,其特征在于,所述对具有第一类标签的各个词分别进行判断,若词是该搜索词对应的品牌,则对该词添加正标签,否则对该词添加负标签的步骤之前,还包括:
根据所述浏览日志中的搜索词和搜索后的品牌选择记录,统计各搜索词在被搜索后对应的被选择品牌的分布;
将分布概率达到设定值的品牌作为该搜索词对应的品牌。
5.根据权利要求1所述的方法,其特征在于,所述使用二分类器对所述训练数据进行训练的步骤包括:先选择L1正则函数对所述训练数据进行训练,对训练后数据再选择L2正则函数进行训练。
6.一种识别品牌词的装置,其特征在于,包括:
特征模块,用于根据已获取的多条商品信息构造多个特征集合;每个特征集合对应一个品牌词,该品牌词出现在商品信息中并且包含在品牌词典中;特征集合中的每个特征包含所述品牌词以及该品牌词所在的商品信息中的另一个或多个词;若所述品牌词在其所在商品信息中是作为该商品的品牌,则该品牌词对应的特征的标签为正标签,否则为负标签;
训练模块,用于对所述多个特征集合进行映射以得到训练数据,然后使用二分类器对所述训练数据进行训练以得到模型,该模型中包含特征集合中各特征的权重;
预测模块,用于根据指定的一条商品信息构造待处理数据;待处理数据中,每个属于所述品牌词典的词作为待识别词,每个待识别词对应一个特征集合,该特征集合中的每个特征包含该待识别词以及该指定的商品信息中的另一个词;使用所述模型确定所述待处理数据中的各个特征的权重,再根据该权重确定各个待识别词在指定的商品信息中是品牌词的概率。
7.根据权利要求6所述的装置,其特征在于,所述商品信息是由电子商务的商家在展示商品的页面上提供;
并且所述特征模块还用于对获取的多条商品信息中的每条商品标题执行如下步骤:
读取对商品标题进行分词后得到的多个词;
对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签;
对具有第一类标签的各个词分别进行判断,若词与所述商品信息中的品牌相一致,则对该词添加正标签,否则对该词添加负标签;
对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从商品标题中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。
8.根据权利要求6所述的装置,其特征在于,所述商品信息是由电子商务的用户在电子商务上进行商品搜索时形成的浏览日志中的搜索词和搜索后的品牌选择记录;
并且所述特征模块还用于针对所述浏览日志中的每条搜索词执行如下的步骤:
读取对搜索词进行分词后得到的多个词;
对所述多个词中的各个词分别进行判断,若词属于品牌词典则对该词添加第一类标签,否则对该词添加第二类标签;
对具有第一类标签的各个词分别进行判断,若词是该搜索词对应的品牌,则对该词添加正标签,否则对该词添加负标签;
对于具有第一类标签的一个或多个词中的各个词,分别执行如下步骤:将具有第一类标签的一个词与从搜索词中选择的其他多个词中的各个词分别进行组合以得到多个所述特征。
9.根据权利要求8所述的装置,其特征在于,还包括点击分布识别模块,用于:
根据所述浏览日志中的搜索词和搜索后的品牌选择记录,统计各搜索词在被搜索后对应的被选择品牌的分布;
将分布概率达到设定值的品牌作为该搜索词对应的品牌。
10.根据权利要求6所述的装置,其特征在于,所述训练模块还用于:先选择L1正则函数对所述训练数据进行训练,对训练后数据再选择L2正则函数进行训练。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
CN201710398715.0A 2017-05-31 2017-05-31 识别品牌词的方法和装置 Active CN107330752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710398715.0A CN107330752B (zh) 2017-05-31 2017-05-31 识别品牌词的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710398715.0A CN107330752B (zh) 2017-05-31 2017-05-31 识别品牌词的方法和装置

Publications (2)

Publication Number Publication Date
CN107330752A CN107330752A (zh) 2017-11-07
CN107330752B true CN107330752B (zh) 2020-09-29

Family

ID=60193553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710398715.0A Active CN107330752B (zh) 2017-05-31 2017-05-31 识别品牌词的方法和装置

Country Status (1)

Country Link
CN (1) CN107330752B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052503B (zh) * 2017-12-26 2021-04-27 北京奇艺世纪科技有限公司 一种置信度的计算方法及装置
CN110457568A (zh) * 2018-05-03 2019-11-15 北京京东尚科信息技术有限公司 品牌词的识别方法及系统、对象推荐方法及系统
CN108804541B (zh) * 2018-05-08 2020-09-18 苏州闻道网络科技股份有限公司 电商标题优化系统及优化方法
CN108763220A (zh) * 2018-06-08 2018-11-06 山东汇贸电子口岸有限公司 一种快速识别大量电商商品品牌的方法
CN110750985B (zh) * 2018-07-04 2023-07-11 阿里巴巴集团控股有限公司 品牌词识别方法、装置、设备及存储介质
CN110851693B (zh) * 2018-07-27 2024-06-18 北京京东尚科信息技术有限公司 用于搜索的方法、系统和服务器集群
CN110851572A (zh) * 2018-07-27 2020-02-28 北京京东尚科信息技术有限公司 会话标注方法、装置、存储介质及电子设备
JP6894875B2 (ja) * 2018-08-29 2021-06-30 ヤフー株式会社 ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム。
CN110968775A (zh) * 2018-09-30 2020-04-07 北京京东尚科信息技术有限公司 商品属性生成模型的训练方法及生成、搜索方法和系统
CN109636476A (zh) * 2018-12-17 2019-04-16 山东浪潮云信息技术有限公司 一种品牌名称数据标准化处理方法及装置
CN109766550B (zh) * 2019-01-07 2023-05-23 有米科技股份有限公司 一种文本品牌识别方法、识别装置和存储介质
CN109885752B (zh) * 2019-01-14 2021-03-02 口碑(上海)信息技术有限公司 品牌词挖掘方法、装置、设备及可读存储介质
CN113220980A (zh) * 2020-02-06 2021-08-06 北京沃东天骏信息技术有限公司 物品属性词识别方法、装置、设备及存储介质
US11568425B2 (en) 2020-02-24 2023-01-31 Coupang Corp. Computerized systems and methods for detecting product title inaccuracies

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218719A (zh) * 2012-01-19 2013-07-24 阿里巴巴集团控股有限公司 一种电子商务网站导航方法及系统
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN104008186A (zh) * 2014-06-11 2014-08-27 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210529B2 (en) * 2005-04-04 2019-02-19 Mediaport Entertainment, Inc. Systems and methods for advertising on remote locations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218719A (zh) * 2012-01-19 2013-07-24 阿里巴巴集团控股有限公司 一种电子商务网站导航方法及系统
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN104008186A (zh) * 2014-06-11 2014-08-27 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置

Also Published As

Publication number Publication date
CN107330752A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN107330752B (zh) 识别品牌词的方法和装置
US11809393B2 (en) Image and text data hierarchical classifiers
CN107797982B (zh) 用于识别文本类型的方法、装置和设备
US10664888B2 (en) Method and system for attribute extraction from product titles using sequence labeling algorithms
US11741094B2 (en) Method and system for identifying core product terms
CN109145280A (zh) 信息推送的方法和装置
CN107679119B (zh) 生成品牌衍生词的方法和装置
CN109002432B (zh) 同义词的挖掘方法及装置、计算机可读介质、电子设备
US8793201B1 (en) System and method for seeding rule-based machine learning models
CN110827112A (zh) 深度学习的商品推荐方法、装置、计算机设备及存储介质
CN110766486A (zh) 确定物品类目的方法和装置
CN110674621A (zh) 一种属性信息填充方法和装置
CN114756570A (zh) 采购场景的垂直搜索方法、装置和系统
CN112148841A (zh) 一种对象分类以及分类模型构建方法和装置
CN112989190B (zh) 一种商品挂载方法、装置、电子设备和存储介质
CN111144122A (zh) 评价处理方法、装置和计算机系统及介质
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN114282119A (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN113239273A (zh) 用于生成文本的方法、装置、设备以及存储介质
CN113987026A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN113744011A (zh) 物品搭配方法和物品搭配装置
CN113342969A (zh) 数据处理方法和装置
CN111275476A (zh) 一种物流仓储服务的报价方法和装置
CN111274383A (zh) 一种应用于报价的分类对象方法和装置
CN111833085A (zh) 一种计算物品价格的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant