CN106649276A - 标题中核心产品词的识别方法以及装置 - Google Patents

标题中核心产品词的识别方法以及装置 Download PDF

Info

Publication number
CN106649276A
CN106649276A CN201611243898.0A CN201611243898A CN106649276A CN 106649276 A CN106649276 A CN 106649276A CN 201611243898 A CN201611243898 A CN 201611243898A CN 106649276 A CN106649276 A CN 106649276A
Authority
CN
China
Prior art keywords
title
product word
word
participle
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611243898.0A
Other languages
English (en)
Other versions
CN106649276B (zh
Inventor
车天博
高维国
陈海勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201611243898.0A priority Critical patent/CN106649276B/zh
Publication of CN106649276A publication Critical patent/CN106649276A/zh
Application granted granted Critical
Publication of CN106649276B publication Critical patent/CN106649276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种标题中核心产品词的识别方法以及装置,涉及计算机技术领域。本发明中word2vec模型生成一个词的词向量时会参考该词在标题中前后相邻或相近的词,因此,同一个词在不同的语境中生成的词向量是不同的,同时,产品词的n‑gram特征中包含了该产品词在标题中前后相邻或相近的词,能够进一步表示该产品词所在的语境,因此,同一个词在不同的语境中得到的n‑gram特征也不同,进而n‑gram特征用词向量表达也不同,通过核心产品词识别模型进行识别的结果也不同,改善了标题中核心产品词识别的歧义问题,提高了准确率。

Description

标题中核心产品词的识别方法以及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种标题中核心产品词的识别方法以及装置。
背景技术
句子成分分析是指采用各种方法标出句子基本成分。句子成分分析在是自然语言处理的基本问题之一,有着广泛的应用领域。电商标题成分分析是句子成分分析的一个分支领域,在意图识别、个性化排序等领域有着广泛应用。但由于标题是一系列词的堆砌(没有主语、谓语动词等成分),因此更加复杂。
标题中的核心产品词是指标题所涉及的具体的产品,例如,韩版休闲裤子男装中的核心产品词是裤子,识别标题中的核心产品词是电商领域中句子成分分析的一种主要的应用。现有的识别标题中的核心产品词通常采用基于词表的规则方法,维护一个映射的词表,例如:空调滤芯-空调,当这两个产品词均在标题中出现时,则认为空调滤芯作为核心产品词。
但是,利用词表分析标题中核心产品词的方法存在识别不准确的问题,例如,“小米”这个词,在不同的语境中有不同的含义:一个是品牌词“小米手机”,一个是产品词“小米粥”。单纯用词表,无法区分这两种含义,因此,造成核心产品词识别不准确。
发明内容
本发明所要解决的一个技术问题是:提供一种标题中核心产品词提取方案,能够提高核心产品词识别准确率。
根据本发明的一个方面,提供的一种标题中核心产品词的识别方法,包括:对待识别的标题进行分词;利用word2vec模型确定标题中各个分词的词向量;提取标题的各个分词中的产品词以及产品词在标题中前后连续预设个数的分词作为产品词的n-gram特征;将标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型;根据核心产品词识别模型的输出结果确定标题的核心产品词。
在一个实施例中,该方法还包括:提取标题中的品类标识作为产品词的作用域特征;将标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型包括:将标题中每个产品词的n-gram特征以及作用域特征所包含的各个分词的词向量输入核心产品词识别模型。
在一个实施例中,该方法还包括:提取标题中的修饰词、品牌词和产品词作为已确定n-gram特征的产品词的标题成分特征;将标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型包括:将标题中每个产品词的n-gram特征以及标题成分特征所包含的各个分词的词向量输入核心产品词识别模型。
在一个实施例中,该方法还包括:通过训练数据对核心产品词识别模型进行训练;其中,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和作用域特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和标题成分特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征、作用域特征和标题成分特征所包含的各个分词的词向量,其中,产品词的作用域特征是指标题中的品类标识,产品词的标题成分特征是指标题中的修饰词、品牌词和产品词。
在一个实施例中,标题中的核心产品词采用以下方法进行标注:根据用户搜索的产品词以及从搜索结果中选择的标题,记录被选择的标题以及用户搜索的产品词;将搜索次数最多的产品词标注为标题的核心产品词。
在一个实施例中,采用以下方法确定待确定分词的词向量:获得包含待确定分词的标题作为训练语料;将训练语料进行分词;将分词后的训练语料输入到word2vec算法中进行训练;获得word2vec算法输出的待确定分词的词向量。
在一个实施例中,核心产品词识别模型为提升树模型、卷积神经网络模型或者递归神经网络模型;产品词为中文词或英文词。
根据本发明的第二个方面,提供的一种标题中核心产品词的识别装置,包括:标题分词模块,用于对待识别的标题进行分词;词向量确定模块,用于利用word2vec模型确定标题中各个分词的词向量;n-gram特征提取模块,用于提取标题的各个分词中的产品词以及产品词在标题中前后连续预设个数的分词作为产品词的n-gram特征;待测数据输入模块,用于将标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型;核心产品词识别模块,用于根据核心产品词识别模型的输出结果确定标题的核心产品词。
在一个实施例中,该装置还包括:作用域特征提取模块;作用域特征提取模块,用于提取标题中的品类标识作为产品词的作用域特征;待测数据输入模块,用于将标题中每个产品词的n-gram特征以及作用域特征所包含的各个分词的词向量输入核心产品词识别模型。
在一个实施例中,该装置还包括:标题成分特征提取模块;标题成分特征提取模块,用于提取标题中的修饰词、品牌词和产品词作为已确定n-gram特征的产品词的标题成分特征;待测数据输入模块,用于将标题中每个产品词的n-gram特征以及标题成分特征所包含的各个分词的词向量输入核心产品词识别模型。
在一个实施例中,该装置还包括:训练模块,用于通过训练数据对核心产品词识别模型进行训练;其中,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和作用域特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和标题成分特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征、作用域特征和标题成分特征所包含的各个分词的词向量,其中,产品词的作用域特征是指标题中的品类标识,产品词的标题成分特征是指标题中的修饰词、品牌词和产品词。。
在一个实施例中,该装置还包括:训练数据标注模块;训练数据标注模块,用于根据用户搜索的产品词以及从搜索结果中选择的标题,记录被选择的标题以及用户搜索的产品词,将搜索次数最多的产品词标注为标题的核心产品词。
在一个实施例中,词向量确定模块,用于获得包含待确定分词的标题作为训练语料。将训练语料进行分词,将分词后的训练语料输入到word2vec模型中进行训练,获得word2vec模型输出的待确定分词的词向量。
在一个实施例中,核心产品词识别模型为提升树模型、卷积神经网络模型或者递归神经网络模型;产品词为中文词或英文词。
根据本发明的第三个方面,提供的一种标题中核心产品词的识别装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在所述存储器设备中的指令,执行如前述任一个实施例所述的标题中核心产品词的识别方法。
本发明中word2vec模型生成一个词的词向量时会参考该词在标题中前后相邻或相近的词,因此,同一个词在不同的语境中生成的词向量是不同的,同时,产品词的n-gram特征中包含了该产品词在标题中前后相邻或相近的词,能够进一步表示该产品词所在的语境,因此,同一个词在不同的语境中得到的n-gram特征也不同,进而n-gram特征用词向量表达也不同,通过核心产品词识别模型进行识别的结果也不同,改善了标题中核心产品词识别的歧义问题,提高了准确率。
此外,本发明中采用的word2vec模型能够计算出词与词的相似度,因此,即使某个词在核心产品词识别模型的训练样本中没有出现过,但训练样本中有与之相似的词,同样能通过核心产品词识别模型识别该词是不是核心产品词,进而能够识别更多的标题中的核心产品词,扩大召回。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明的一个实施例的标题中核心产品词的识别装置的结构示意图。
图2示出本发明的另一个实施例的标题中核心产品词的识别装置的结构示意图。
图3示出本发明的一个实施例的标题中核心产品词的识别方法的流程示意图。
图4示出本发明的另一个实施例的标题中核心产品词的识别方法的流程示意图。
图5示出本发明的又一个实施例的标题中核心产品词的识别方法的流程示意图。
图6示出本发明的再一个实施例的标题中核心产品词的识别方法的流程示意图。
图7示出本发明核心产品词识别模型训练过程的示意图。
图8示出本发明的另一个实施例的标题中核心产品词的识别装置的结构示意图。
图9示出本发明的又一个实施例的标题中核心产品词的识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例中的标题中核心产品词的识别装置可各由各种计算设备或计算机系统来实现,下面结合图1以及图2进行描述。
图1为本发明标题中核心产品词的识别装置的一个实施例的结构图。如图1所示,该实施例的装置10包括:存储器110以及耦接至该存储器110的处理器120,处理器120被配置为基于存储在存储器110中的指令,执行本发明中任意一个实施例中的标题中核心产品词的识别方法。
其中,存储器110例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图2为本发明标题中核心产品词的识别装置的另一个实施例的结构图。如图2所示,该实施例的装置10包括:存储器110以及处理器120,还可以包括输入输出接口230、网络接口240、存储接口250等。这些接口230,240,250以及存储器110和处理器120之间例如可以通过总线260连接。其中,输入输出接口230为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口240为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口250为SD卡、U盘等外置存储设备提供连接接口。
下面结合图3描述本发明标题中核心产品词的识别方法。本发明中的标题例如为商品的标题,主要由一系列词的堆砌(没有主语、谓语动词等成分)堆积而成。
图3为本发明标题中核心产品词的识别方法一个实施例的流程图。如图3所示,该实施例的方法包括:
步骤S302,对待识别的标题进行分词。
其中,可以采用现有的分词算法或分词工具对标题进行分词。例如,标题为七匹狼(septwolves)男士皮带商务自动扣牛皮男款腰带wa3994j黑色,其中,男士之前有一个空格,分词结果为七匹狼/(/septwolves/)//男士/皮带/商务/自动扣/牛皮/男/款/腰带/wa/3994/j/黑色。
其中,本发明中对于标题中的英文单词自动的划分为一个分词,并将中文的分词、英文单词以及标题中划分的其他数字或符号统称为分词。
此外,标题在分词后还可以进行预处理,例如将标题中的空格、括号等符号去除,这些符号通常不代表任何含义,删去后可以使标题更加简洁明确,并且可以使产品词的n-gram特征更加能够体现产品词所在的语境,提高识别的准确性。
步骤S304,利用word2vec模型确定标题中各个分词的词向量。
具体的,获得包含待确定分词的标题作为训练语料,将训练语料进行分词,将分词后的训练语料输入到word2vec模型中进行训练,获得word2vec模型输出的待确定分词的词向量。
例如,欲获得“皮带”一词的词向量,则通过搜索网站或数据库获取包含“皮带”多条商品标题:“七匹狼(septwolves)男士皮带商务自动扣牛皮男款腰带wa3994j黑色”,“老人头时尚牛皮男士皮带商务自动扣腰带713888黑色”等。将这些标题进行分词后作为训练语料输入到word2vec模型中进行训练,获得word2vec模型输出的“皮带”的词向量。
其中,例如通过word2vec模型中的CBOW(Continues Bag of Word,连续词袋模型)生成待确定分词的词向量。word2vec可以理解为n-gram模型的工具包,但它学习参数的方法是通过极大似然估计得到损失函数,再通过神经网络方法学习参数,word2vec可以通过n-gram模型识别两个词的相似度,例如,“华为”与“小米”的词向量非常接近,通过计算词向量相似度,可以得出这两个词是相似的。又例如,“woman”的词向量加上“king”的词向量,最相似的词向量结果是“queen”。因此,即使某个词在核心产品词识别模型的训练样本中没有出现过,但训练样本中有与之相似的词,通过word2vec模型得到该词与训练样本中的词有相似的词向量,再通过后续的核心产品词识别模型也能对该词进行识别,相对于现有技术中使用词表识别标题中的核心产品词,由于词表的覆盖范围有限,能够识别的标题有限,而本方案则识别更多的标题中的核心产品词,可以扩大召回。
步骤S306,提取标题的各个分词中的产品词以及产品词在标题中前后连续预设个数n的分词作为产品词的n-gram特征。
其中,标题中的各个分词包括品牌词(例如七匹狼)、修饰词(例如男士)以及数字和符号等,显然这些词不能成为核心产品词,因此,可以先获取标题中的产品词,例如通过词表的方法找到分词后的标题中的产品词。然后,将产品词以及产品词在标题中前后连续预设个数n的分词作为产品词的n-gram特征,实际使用过程中可以根据需求灵活设置n的值。
例如n取3时,在“七匹狼男士皮带商务自动扣牛皮男款腰带wa3994j黑色”这条标题中,产品词“皮带”的n-gram特征为“七匹狼”、“男士”、“皮带”、“商务”、“自动扣”这5个词。
一个词的n-gram特征可以在一定程度上反映其所在的语境,表征该词的语义,例如,“小米”一词如果前后出现“手机”等词则表明为品牌词,如果前后出现“天然”以及表示重量的词等,则表示产品词,因此,将n-gram特征作为产品词的一种语义表达方式可以解决歧义的问题,提高识别的准确性。
步骤S308,将标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型。
其中,每条标题中可能包括一个或多个产品词,例如“七匹狼男士皮带商务自动扣牛皮男款腰带wa3994j黑色”这条标题中可能将“皮带”“自动扣”“牛皮”“腰带”等词确定为产品词,而每个产品词都有n-gram特征,例如产品词“皮带”的n-gram特征为“七匹狼”、“男士”、“皮带”、“商务”、“自动扣”这5个词,将这5个词的词向量组合为表示“皮带”一词的特征的向量,假设每个词的词向量为200维的向量,那么“皮带”一词的n-gram特征用向量的形式表示为一条1000维的向量,将该1000维的向量输入核心产品词识别模型。
其中,核心产品词识别模型可以为提升树(Boosted Trees)模型、卷积神经网络模型或者递归神经网络模型等等,提升树模型例如可以采用开源的xgboost库实现。核心产品词识别模型是根据已标注核心产品词的标题形成的训练样本进行训练得到的,训练过程将在后续实施例进行描述。
步骤S310,根据核心产品词识别模型的输出结果确定标题的核心产品词。
例如,可以根据核心产品词识别模型输出的分类结果判断输入的产品词是否为核心产品词,还可以根据核心产品词识别模型输出的数值判断输入的产品词是否为核心产品词。以核心产品词识别模型为提升树模型为例,可以计算核心产品词识别模型中各个树输出的预测结果的总和,如果总和在核心产品词对应的预设范围内,则将输入的产品词为核心产品词,并通过程序解析找到对应的标题,确定为该标题的核心产品词。
上述实施例的方法中word2vec模型生成一个词的词向量时会参考该词在标题中前后相邻或相近的词,因此,同一个词在不同的语境中生成的词向量是不同的,同时,产品词的n-gram特征中包含了该产品词在标题中前后相邻或相近的词,能够进一步表示该产品词所在的语境,因此,同一个词在不同的语境中得到的n-gram特征也不同,进而n-gram特征用词向量表达也不同,通过核心产品词识别模型进行识别的结果也不同,解决了标题中核心产品词识别的歧义问题,提高了准确率。此外,上述实施例的方法中采用的word2vec模型能够计算出词与词的相似度,因此,即使某个词在核心产品词识别模型的训练样本中没有出现过,但训练样本中有与之相似的词,同样能通过核心产品词识别模型识别该词是不是核心产品词,进而能够识别更多的标题中的核心产品词,扩大召回。
本发明中为了提高标题中核心产品词识别的准确性,除了利用产品词的n-gram特征表示产品词的语义之外,还构建其他特征使产品词的语义更加明确,下面结合图4、图5和图6进行描述。
图4为本发明标题中核心产品词的识别方法另一个实施例的流程图。如图4所示,该实施例的方法在步骤S302~S306之后,可选的,还包括:
步骤S407,在常规标题中插入品类标识,进而提取标题中的品类标识作为产品词的作用域特征。
其中,品类标识例如为SKU标识和三级品类标识。SKU标识和商品的三级品类标识表示了标题所描述的商品的类型,进而可以限制产品词在该条标题中所起的作用,明确产品词的语境和语义。例如,在“榴莲水果糖”中,榴莲是一个修饰词(指榴莲味的糖),而不是一种水果。因此,利用品类标识作为产品词的语义特征,可以进一步区分不同语境中同一词的不同含义,进一步解决歧义问题。
例如,“七匹狼/男士/皮带/商务/自动扣/牛皮/男/款/腰带/wa/3994/j/黑色”这条标题加入SKU标识和三级品类标识生成一条新的标题“1369500/1349/七匹狼/男士/皮带/商务/自动扣/牛皮/男/款/腰带/wa/3994/j/黑色”,其中1369500、1349分别为SKU标识和三级品类标识。
在步骤S407之后,执行步骤S408,即步骤S308被替换为步骤S408。
步骤S408,将标题中每个产品词的n-gram特征以及作用域特征所包含的各个分词的词向量输入核心产品词识别模型。
其中,一个产品词的语义特征包括n-gram特征以及作用域特征,例如,“1369500/1349/七匹狼/男士/皮带/商务/自动扣/牛皮/男/款/腰带/wa/3994/j/黑色”这条标题中的“皮带”一词的语义特征可以表示为“1369500”、“1349”、“七匹狼”、“男士”、“皮带”、“商务”、“自动扣”这7个词。每个产品词的语义特征表示为向量则是n-gram特征以及作用域特征中包含的各个词的词向量组合在一起,例如,每个词的词向量都取200维,则每个产品词的语义特征表示为向量为1400维的向量。
上述实施例,在产品词的语义特征中添加品类标识,可以进一步区分不同语境中同一词的不同含义,进一步改善歧义问题。
图5为本发明标题中核心产品词的识别方法又一个实施例的流程图。如图5所示,该实施例的方法在步骤S302~S306之后,可选的,还包括:
步骤S508,提取标题中的修饰词、品牌词和产品词作为已确定n-gram特征的产品词的标题成分特征。
为了便于数据处理,可以设置每个产品词的标题成分特征中所含的分词数量,不足的用0代替。例如,假设标题成分特征包括10个词,“1369500/1349/七匹狼/男士/皮带/商务/自动扣/牛皮/男/款/腰带/wa/3994/j/黑色”这条标题中提取的标题成分特征为,“七匹狼”、“男士”、“皮带”、“商务”、“自动扣”、“牛皮”“男”、“款”、“腰带”、“黑色”。
在步骤S508之后,执行步骤S509,即步骤S308被替换为步骤S509。
步骤S509,将标题中每个产品词的n-gram特征以及标题成分特征所包含的各个分词的词向量输入核心产品词识别模型。
其中,一个产品词的语义特征包括n-gram特征以及标题成分特征,例如,“1369500/1349/七匹狼/男士/皮带/商务/自动扣/牛皮/男/款/腰带/wa/3994/j/黑色”这条标题中的“皮带”一词的语义特征可以表示为“七匹狼”、“男士”、“皮带”、“商务”、“自动扣”、“七匹狼”、“男士”、“皮带”、“商务”、“自动扣”、“牛皮”“男”、“款”、“腰带”、“黑色”这15个词,每个产品词的语义特征表示为向量则是n-gram特征以及标题成分特征中包含的各个词的词向量组合在一起,例如,每个词的词向量都取200维,则每个产品词的语义特征表示为向量为3000维的向量。
上述实施例,在产品词的语义特征中添加修饰词、品牌词和其他产品词等标题成分特征,能够辅助描述产品词所在的语境,进一步提高核心产品词识别的准确性。
上述三个实施例中的方案可以进行组合,即产品词的语义特征可以包括n-gram特征、作用域特征以及标题成分特征。下面结合图6进行描述。
图6为本发明标题中核心产品词的识别方法再一个实施例的流程图。如图6所示,该实施例的方法在步骤S302~S306之后,可选的,还包括:
步骤S407,提取标题中的品类标识作为产品词的作用域特征。
步骤S508,提取标题中的修饰词、品牌词和产品词作为已确定n-gram特征的产品词的标题成分特征。
在步骤S508之后,执行步骤S609,即步骤S308被替换为步骤S609。
步骤S609,将标题中每个产品词的n-gram特征、作用域特征以及标题成分特征所包含的各个分词的词向量输入核心产品词识别模型。
其中,一个产品词的语义特征包括n-gram特征、作用域特征以及标题成分特征,例如,“1369500/1349/七匹狼/男士/皮带/商务/自动扣/牛皮/男/款/腰带/wa/3994/j/黑色”这条标题中的“皮带”一词的语义特征可以表示为“1369500”、“1349”、“七匹狼”、“男士”、“皮带”、“商务”、“自动扣”、“七匹狼”、“男士”、“皮带”、“商务”、“自动扣”、“牛皮”“男”、“款”、“腰带”、“黑色”这17个词,每个产品词的语义特征表示为向量则是n-gram特征、作用域特征以及标题成分特征中包含的各个词的词向量组合在一起,例如,每个词的词向量都取200维,则每个产品词的语义特征表示为向量为3400维的向量。将这3400维的向量输入核心产品词识别模型进行识别。
此外,通常情况下,核心产品词识别模型需要先训练再使用。下面结合图7描述核心产品词识别模型训练过程的一个实施例。该训练过程包括:
步骤S702,获取训练样本,对训练样本中各个标题的核心产品词进行标注。
其中,提取一定数量的商品标题作为训练样本,对标题中的核心产品词可以采用人工标注的方法,也可以基于用户的搜索数据进行标注。具体的,根据用户搜索的产品词以及从搜索结果中选择的标题,记录被选择的标题以及用户搜索的产品词,将搜索次数最多的产品词标注为标题的核心产品词。
下面结合表1和表2描述对标题中的核心产品词进行标注的一个应用例。
如表1中所示,首先通过用户点击数据获取标题对应的搜索词(query)以及各个搜索词的搜索次数,例如,标题“Zippo打火机经典铬沙子200”,通过用户搜索并点击进入该标题对应的商品页面的数据,获取用户使用的搜索词包括:“打火机”、“Zippo”、“Zippo打火机”、“火机”等。然后,确定搜索词中的产品词,例如可以通过词表的方式确定。如表2中所示,“打火机”、“Zippo”、“Zippo打火机”、“火机”中的产品词为“打火机”、“火机”,最后根据产品词的搜索次数确定核心产品词,,“打火机”搜索次数为101次,“火机”搜索次数为7次,则“打火机”被确定为“Zippo打火机经典铬沙子200”的核心产品词,如表3中所示。
表1
表2
SKU 标题 产品词 搜索次数
100041 Zippo打火机经典铬沙子200 打火机 101
100041 Zippo打火机经典铬沙子200 火机 7
100111 Zippo打火机经典铬缎纱205 打火机 91
表3
SKU 标题 核心产品词 搜索次数
100041 Zippo打火机经典铬沙子200 打火机 101
100111 Zippo打火机经典铬缎纱205 打火机 91
步骤S704,对训练样本中的标题进行分词。
步骤S706,利用word2vec模型确定标题中各个分词的词向量。
其中,可以对标题进行一定的预处理,例如去除其中没有具体含义的标点、字符等,将SKU标识和三级品类标识加入标题中。确定各个分词的词向量的方法参考图3实施例中的步骤S304.
步骤S708,提取标题的各个分词中的产品词以及产品词在标题中前后连续预设个数的分词作为产品词的n-gram特征,参考前述核心产品词识别的实施例,可选的,还可以进一步提取标题中的品类标识作为产品词的作用域特征,以及进一步提取标题中的修饰词、品牌词和产品词作为已确定n-gram特征的产品词的标题成分特征。
步骤S710,将各个产品词的n-gram特征、作用域特征(可选的)和标题成分特征(可选的)转化为向量进行表示,生成训练数据。
将利用word2vec模型确定的各个分词的词向量带入n-gram特征、作用域特征和标题成分特征包含的各个分词中,假设每个词向量由200维,则每个产品的语义特征即可用3400维向量进行表示。此外,每个产品词通过之前的标注步骤,还有1维表示是否为核心产品词的标识,例如1表示该产品词是核心产品词,而0表示该产品词不是核心产品词。
步骤S712,将训练数据输入核心产品词识别模型进行训练。
例如,可以采用训练数据对提升树模型中的若干树进行训练,获得若干树的各个结点以及若干树的叶子结点的权重,得到核心产品词识别模型。
在一个测试例中,利用前述方法生成了约3千万条数据,其中,每条数据表示一个产品词的语义特征共3401维,1维表示该产品词是否为核心产品词,随机选取2500万条数据对核心产品词识别模型进行训练,500万条数据对核心产品词识别模型进行测试。并通过AUC(Area under Curve,Roc曲线下的面积)对模型的好坏进行判断,利用训练数据得到模型的AUC达到0.92以上,利用测试数据得到模型的AUC也达到0.92以上。
本发明还提供一种标题中核心产品词的识别装置,下面结合图8进行描述。
图8为本发明标题中核心产品词的识别装置另一个实施例的结构图。如图8所示,该装置80包括:
标题分词模块802,用于对待识别的标题进行分词。
词向量确定模块804,用于利用word2vec模型确定标题中各个分词的词向量。
具体的,词向量确定模块804,用于获得包含待确定分词的标题作为训练语料。将训练语料进行分词,将分词后的训练语料输入到word2vec模型中进行训练,获得word2vec模型输出的待确定分词的词向量。
n-gram特征提取模块806,用于提取标题的各个分词中的产品词以及产品词在标题中前后连续预设个数的分词作为产品词的n-gram特征。
待测数据输入模块808,用于将标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型。
核心产品词识别模块810,用于根据核心产品词识别模型的输出结果确定标题的核心产品词。
其中,核心产品词识别模型为提升树模型、卷积神经网络模型或者递归神经网络模型。产品词为中文词或英文词。
下面结合图9描述本发明标题中核心产品词的识别装置的另一个实施例。
图9为本发明c又一个实施例的结构图。如图9所示,该装置80还包括:
作用域特征提取模块912,用于提取标题中的品类标识作为产品词的作用域特征。
对应的,待测数据输入模块808,用于将标题中每个产品词的n-gram特征以及作用域特征所包含的各个分词的词向量输入核心产品词识别模型。
在一个实施例中,如图9所示,该装置80还包括:
标题成分特征提取模块914,用于提取标题中的修饰词、品牌词和产品词作为已确定n-gram特征的产品词的标题成分特征。
对应的,待测数据输入模块808,用于将标题中每个产品词的n-gram特征以及标题成分特征所包含的各个分词的词向量输入核心产品词识别模型。
在一个实施例中,如图9所示,该装置80还包括:
训练模块914,用于通过训练数据对核心产品词识别模型进行训练;
其中,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和作用域特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和标题成分特征所包含的各个分词的词向量,或者,训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征、作用域特征和标题成分特征所包含的各个分词的词向量,其中,产品词的作用域特征是指标题中的品类标识,产品词的标题成分特征是指标题中的修饰词、品牌词和产品词。
在一个实施例中,如图9所示,该装置80还包括:
训练数据标注模块916,用于根据用户搜索的产品词以及从搜索结果中选择的标题,记录被选择的标题以及用户搜索的产品词,将搜索次数最多的产品词标注为标题的核心产品词。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种标题中核心产品词的识别方法,其特征在于,包括:
对待识别的标题进行分词;
利用word2vec模型确定所述标题中各个分词的词向量;
提取所述标题的各个分词中的产品词以及所述产品词在所述标题中前后连续预设个数的分词作为所述产品词的n-gram特征;
将所述标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型;
根据所述核心产品词识别模型的输出结果确定所述标题的核心产品词。
2.根据权利要求1所述的方法,其特征在于,还包括:
提取所述标题中的品类标识作为所述产品词的作用域特征;
所述将所述标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型包括:
将所述标题中每个产品词的n-gram特征以及作用域特征所包含的各个分词的词向量输入核心产品词识别模型。
3.根据权利要求1所述的方法,其特征在于,还包括:
提取所述标题中的修饰词、品牌词和产品词作为已确定n-gram特征的产品词的标题成分特征;
所述将所述标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型包括:
将所述标题中每个产品词的n-gram特征以及标题成分特征所包含的各个分词的词向量输入核心产品词识别模型。
4.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
通过训练数据对所述核心产品词识别模型进行训练;
其中,所述训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征所包含的各个分词的词向量,或者,所述训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和作用域特征所包含的各个分词的词向量,或者,所述训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和标题成分特征所包含的各个分词的词向量,或者,所述训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征、作用域特征和标题成分特征所包含的各个分词的词向量;其中,所述产品词的作用域特征是指所述标题中的品类标识,所述产品词的标题成分特征是指所述标题中的修饰词、品牌词和产品词。
5.根据权利要求4项所述的方法,其特征在于,
所述标题中的核心产品词采用以下方法进行标注:
根据用户搜索的产品词以及从搜索结果中选择的标题,记录被选择的标题以及用户搜索的产品词;
将搜索次数最多的产品词标注为所述标题的核心产品词。
6.根据权利要求1-3任一项所述的方法,其特征在于,
采用以下方法确定待确定分词的词向量:
获得包含所述待确定分词的标题作为训练语料;
将所述训练语料进行分词;
将分词后的训练语料输入到word2vec模型中进行训练;
获得word2vec模型输出的所述待确定分词的词向量。
7.根据权利要求1-3任一项项所述的方法,其特征在于,
所述核心产品词识别模型为提升树模型、卷积神经网络模型或者递归神经网络模型;
所述产品词为中文词或英文词。
8.一种标题中核心产品词的识别装置,其特征在于,包括:
标题分词模块,用于对待识别的标题进行分词;
词向量确定模块,用于利用word2vec模型确定所述标题中各个分词的词向量;
n-gram特征提取模块,用于提取所述标题的各个分词中的产品词以及所述产品词在所述标题中前后连续预设个数的分词作为所述产品词的n-gram特征;
待测数据输入模块,用于将所述标题中每个产品词的n-gram特征所包含的各个分词的词向量输入核心产品词识别模型;
核心产品词识别模块,用于根据所述核心产品词识别模型的输出结果确定所述标题的核心产品词。
9.根据权利要求8所述的装置,其特征在于,还包括:作用域特征提取模块;
所述作用域特征提取模块,用于提取所述标题中的品类标识作为所述产品词的作用域特征;
所述待测数据输入模块,用于将所述标题中每个产品词的n-gram特征以及作用域特征所包含的各个分词的词向量输入核心产品词识别模型。
10.根据权利要求8所述的装置,其特征在于,还包括:标题成分特征提取模块;
所述标题成分特征提取模块,用于提取所述标题中的修饰词、品牌词和产品词作为已确定n-gram特征的产品词的标题成分特征;
所述待测数据输入模块,用于将所述标题中每个产品词的n-gram特征以及标题成分特征所包含的各个分词的词向量输入核心产品词识别模型。
11.根据权利要求8-10任一项所述的装置,其特征在于,还包括:
训练模块,用于通过训练数据对所述核心产品词识别模型进行训练;
其中,所述训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征所包含的各个分词的词向量,或者,所述训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和作用域特征所包含的各个分词的词向量,或者,所述训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征和标题成分特征所包含的各个分词的词向量,或者,所述训练数据包括训练样本中已标注核心产品词的标题中产品词的n-gram特征、作用域特征和标题成分特征所包含的各个分词的词向量,其中,所述产品词的作用域特征是指所述标题中的品类标识,所述产品词的标题成分特征是指所述标题中的修饰词、品牌词和产品词。。
12.根据权利要求11任一项所述的装置,其特征在于,还包括:训练数据标注模块;
所述训练数据标注模块,用于根据用户搜索的产品词以及从搜索结果中选择的标题,记录被选择的标题以及用户搜索的产品词,将搜索次数最多的产品词标注为所述标题的核心产品词。
13.根据权利要求8-10任一项所述的装置,其特征在于,
所述词向量确定模块,用于获得包含所述待确定分词的标题作为训练语料。将所述训练语料进行分词,将分词后的训练语料输入到word2vec模型中进行训练,获得word2vec模型输出的所述待确定分词的词向量。
14.根据权利要求8-10任一项所述的装置,其特征在于,
所述核心产品词识别模型为提升树模型、卷积神经网络模型或者递归神经网络模型;
所述产品词为中文词或英文词。
15.一种标题中核心产品词的识别装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器设备中的指令,执行如权利要求1-7任一项所述的标题中核心产品词的识别方法。
CN201611243898.0A 2016-12-29 2016-12-29 标题中核心产品词的识别方法以及装置 Active CN106649276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611243898.0A CN106649276B (zh) 2016-12-29 2016-12-29 标题中核心产品词的识别方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611243898.0A CN106649276B (zh) 2016-12-29 2016-12-29 标题中核心产品词的识别方法以及装置

Publications (2)

Publication Number Publication Date
CN106649276A true CN106649276A (zh) 2017-05-10
CN106649276B CN106649276B (zh) 2019-02-26

Family

ID=58836110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611243898.0A Active CN106649276B (zh) 2016-12-29 2016-12-29 标题中核心产品词的识别方法以及装置

Country Status (1)

Country Link
CN (1) CN106649276B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239449A (zh) * 2017-06-08 2017-10-10 锦州医科大学 一种英语识别方法和翻译方法
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 发票商品名分类方法、系统、设备及计算机可读存储介质
CN108037837A (zh) * 2017-11-07 2018-05-15 朗坤智慧科技股份有限公司 一种搜索词的智能提示方法
CN108920565A (zh) * 2018-06-21 2018-11-30 苏州大学 一种图片标题生成方法、装置和计算机可读存储介质
CN110134798A (zh) * 2019-05-15 2019-08-16 八戒科技服务有限公司 一种创新需求挖掘方法、系统、终端及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425691A (zh) * 2012-05-22 2013-12-04 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN103745012A (zh) * 2014-01-28 2014-04-23 广州一呼百应网络技术有限公司 一种根据产品标题智能匹配显示网页推荐信息的方法和系统
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425691A (zh) * 2012-05-22 2013-12-04 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN103745012A (zh) * 2014-01-28 2014-04-23 广州一呼百应网络技术有限公司 一种根据产品标题智能匹配显示网页推荐信息的方法和系统
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宁建飞 等: "融合Word2vec与TextRank的关键词抽取研究", 《现代图书情报技术》 *
李清 等: "基于 Word2vec 词向量的文本关键字抽取", 《中国科技论文在线》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239449A (zh) * 2017-06-08 2017-10-10 锦州医科大学 一种英语识别方法和翻译方法
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN107357778B (zh) * 2017-06-22 2020-10-30 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN108037837A (zh) * 2017-11-07 2018-05-15 朗坤智慧科技股份有限公司 一种搜索词的智能提示方法
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 发票商品名分类方法、系统、设备及计算机可读存储介质
CN108920565A (zh) * 2018-06-21 2018-11-30 苏州大学 一种图片标题生成方法、装置和计算机可读存储介质
CN108920565B (zh) * 2018-06-21 2022-07-05 苏州大学 一种图片标题生成方法、装置和计算机可读存储介质
CN110134798A (zh) * 2019-05-15 2019-08-16 八戒科技服务有限公司 一种创新需求挖掘方法、系统、终端及介质

Also Published As

Publication number Publication date
CN106649276B (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
CN106649276B (zh) 标题中核心产品词的识别方法以及装置
US11138250B2 (en) Method and device for extracting core word of commodity short text
CN105893478B (zh) 一种标签提取方法及设备
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
US20210342371A1 (en) Method and Apparatus for Processing Knowledge Graph
CN112908436B (zh) 临床试验数据结构化方法、临床试验推荐方法和装置
CN108846047A (zh) 一种基于卷积特征的图片检索方法及系统
CN112380349A (zh) 商品性别分类方法、装置及电子设备
CN110929498B (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN107832290B (zh) 中文语义关系的识别方法及装置
CN106919575A (zh) 应用程序搜索方法及装置
CN109087205A (zh) 舆情指数的预测方法及装置、计算机设备和可读存储介质
CN109086340A (zh) 基于语义特征的评价对象识别方法
CN106294733A (zh) 基于文本分析的网页检测方法
CN112395867B (zh) 同义词挖掘方法、装置、存储介质及计算机设备
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
US20130052619A1 (en) Method for building information on emotion lexicon and apparatus for the same
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN109902157A (zh) 一种训练样本有效性检测方法及装置
CN108733652A (zh) 基于机器学习的影评情感倾向性分析的测试方法
CN106815209B (zh) 一种维吾尔文农业技术术语识别方法
CN106649264A (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN109344233A (zh) 一种中文人名识别方法
CN111563361B (zh) 文本标签的提取方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant