CN103577989B - 一种基于产品识别的信息分类方法及信息分类系统 - Google Patents

一种基于产品识别的信息分类方法及信息分类系统 Download PDF

Info

Publication number
CN103577989B
CN103577989B CN201210266047.3A CN201210266047A CN103577989B CN 103577989 B CN103577989 B CN 103577989B CN 201210266047 A CN201210266047 A CN 201210266047A CN 103577989 B CN103577989 B CN 103577989B
Authority
CN
China
Prior art keywords
product
file
word
information
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210266047.3A
Other languages
English (en)
Other versions
CN103577989A (zh
Inventor
金华兴
陈镜
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Singapore Holdings Pte Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210266047.3A priority Critical patent/CN103577989B/zh
Priority to TW101142222A priority patent/TWI554896B/zh
Priority to KR20157002406A priority patent/KR20150037924A/ko
Priority to JP2015525462A priority patent/JP6335898B2/ja
Priority to PCT/US2013/051865 priority patent/WO2014022172A2/en
Priority to US13/949,970 priority patent/US20140032207A1/en
Publication of CN103577989A publication Critical patent/CN103577989A/zh
Application granted granted Critical
Publication of CN103577989B publication Critical patent/CN103577989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation

Abstract

本申请公开了一种基于产品识别的信息分类方法及信息分类系统,该方法包括:当接收到产品识别请求时,确定待识别的产品档案信息的候选产品词;分别根据所确定的候选产品词对所述待识别产品档案信息进行特征抽取;根据所述候选产品词及其对应的特征、所述学习子模型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词,并根据所确定的产品词对所述待识别的产品档案信息进行分类。通过本申请,实现了对产品档案信息的自动分类,提高了信息分类的效率。

Description

一种基于产品识别的信息分类方法及信息分类系统
技术领域
本申请涉及通信领域,特别是涉及一种基于产品识别的信息分类方法及信息分类系统。
背景技术
电子商务网站中,卖家发布的产品档案信息往往包含各种信息,如产品名称、产品属性、卖家信息以及广告词等,系统很难自动识别卖家发布的是什么产品,进而无法准确地对相应产品档案信息进行自动分类。
现有产品识别技术中,系统通常将卖家发布的产品档案信息中包含的标题作为一个普通句子,并将该句子中最核心的一个单词(即中心词)提取出来,作为标题的核心,以及整个产品信息的核心,并根据该中心词对相应产品档案信息进行识别。
在实现本申请的过程中,发明人发现现有技术至少存在如下问题:
现有技术中,仅仅根据产品档案信息中的标题信息对产品档案信息进行识别,而标题通常只包含十几个单词,信息量有限,且标题的描述方法多种多样,导致利用标题的中心词进行产品识别的可靠性较低。此外,由于标题的中心词往往只有一个单词,因此,仅仅利用中心词往往很难准确地识别产品。如标题中包含“table tennis bat”(乒乓球拍),其中“table”是桌子、“tennis”是网球,而“bat”则是一个意义比较泛泛的词,显然,无论用哪一个单词作为中心词都无法准确地表达该产品,因此,无法准确地对相应产品档案信息进行自动分类。
发明内容
本申请的目的在于提供一种基于产品识别的信息分类方法及信息分类系统,以实现对产品档案信息的自动分类,提高信息分类的效率,为此,本申请
采用如下技术方案:
一种基于产品识别的信息分类方法,产品识别系统中存储有用于产品识别的学习子模型以及由所述学习子模型组成的综合学习模型,该方法包括以下步骤:
当接收到产品识别请求时,确定待识别的产品档案信息的候选产品词;
分别根据所确定的候选产品词对所述待识别产品档案信息进行特征抽取;
根据所述候选产品词及其对应的特征、所述学习子模型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词,并根据所确定的产品词对所述待识别的产品档案信息进行分类。
一种信息分类系统,包括:
存储模块,用于存储有用于产品识别的学习子模型以及由所述学习子模型组成的综合学习模型;
第一确定模块,用于当所述产品识别系统接收到产品识别请求时,确定待识别的产品档案信息的候选产品词;
特征抽取模块,用于分别根据所确定的候选产品词对所述待识别产品档案信息进行特征抽取;
第二确定模块,用于根据所述候选产品词及其对应的特征、所述学习子模型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词;
分类模块,用于根据所述第二确定模块确定的产品词对所述待识别的产品档案信息进行分类。
本申请的实施例包括以下优点,当接收到产品识别请求时,确定待识别的产品档案信息的候选产品词;分别根据所确定的候选产品词对所述待识别产品档案信息进行特征抽取;根据所述候选产品词及其对应的特征、所述学习子模型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词,并根据所确定的产品词对所述待识别的产品档案信息进行分类,实现了对产品档案信息的自动分类,提高了信息分类的效率。
附图说明
图1为本申请实施例提供的一种基于产品识别的信息分类方法的流程示意图;
图2为本申请实施例提供的一种信息分类系统的结构示意图。
具体实施方式
针对上述现有技术中出现的问题,本申请实施例提供了一种基于产品识别的信息分类的技术方案。在该技术方案中,其主要流程可以分为三个阶段,即学习阶段、产品识别阶段以及信息分类阶段。其中,学习阶段主要为了为后续产品识别阶段提供学习模型,其具体流程可以包括:获取用于学习的产品档案信息,并对所述产品档案信息进行产品词抽取;根据产品词抽取结果对所述产品档案信息进行特征抽取;根据所述特征和产品档案信息确定学习子模型,并根据所述学习子模块确定学习模型。产品识别阶段则主要是根据学习阶段确定的学习模型对待识别的产品档案信息进行识别,其主要流程可以包括:接收到产品识别请求时,根据所述学习模型及所述产品识别请求中携带的待识别的产品档案信息确定该待识别的产品档案信息对应的产品词。信息分类阶段则主要是根据所确定的产品词对待识别产品档案信息进行分类,其主要流程可以包括:根据预设的分类关键词对所确定的产品词进行匹配,并根据匹配结果确定待识别的产品档案信息的类别。
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本申请实施例提供的一种基于产品识别的信息分类方法的流程示意图,可以包括以下步骤:
步骤101、获取用于学习的产品档案信息,并对该产品档案信息进行产品词抽取。
具体的,在本申请实施例中,可以从系统的输入数据中抽取部分产品档案信息作为学习样本(即用于学习的产品档案信息),并利用预设的规则对这些产品档案信息进行产品词抽取。
其中,利用预设的规则对产品档案信息进行产品词抽取可以具体通过以下方式实现:
根据产品档案信息获取产品档案的标题字段以及下述字段中的一个或多个字段:
产品档案关联的卖家档案中的供应产品字段、产品档案的属性字段或产品档案的关键字字段。
获取到上述字段后,可以对各字段进行处理,并确定各字段中包含的词组,并将满足预设条件的词组确定为该产品档案信息的产品词。
其中,该预设条件至少可以包括:
该词组在产品档案的标题字段中出现,且至少在其余一个字段中出现;或,
该词组在产品档案的标题字段中出现,且在所有字段中出现的次数不低于阈值;该阈值可以预先设定,如4次。
优选地,可以选择满足预设条件的最长词组作为对应产品档案信息的产品词,以提高所确定的产品词的准确性。
例如,“MP3 Player”、“MP3”、“Player”均满足预设条件,显然将“MP3Player”作为产品词的准确性更高。
步骤102、根据产品词抽取结果对所述产品档案信息进行特征抽取。
具体的,在本申请实施例中,在对产品档案信息进行了产品词抽取后,还可以根据产品档案信息获取产品档案的标题字段、产品档案关联的卖家档案中的供应产品字段、产品档案的属性字段以及产品档案的关键字字段。
一方面,分别获取各字段中包含的词组,确定各词组的hash值,并将标题字段中词组的hash值作为相应产品档案的标题特征(subject_candidate_feature),将供应产品字段中词组的hash值作为相应产品档案的供应产品特征(provide_products_feature),将属性字段中词组的hash值作为相应产品档案的属性特征(attr_desc_feature),将关键字字段中词组的hash值作为相应产品档案的关键词特征(keywords_feature)。
另一方面,根据产品词抽取成功的产品档案信息以及对应的产品词确定相应产品档案的正标签特征(positive_label_feature)和负标签特征(negative_label_feature)。
其具体实现可以如下:
1、provide_products_feature
把产品档案关联的卖家档案中的供应产品字段预处理(分割,换为小写,提取词干),对每个词组计算一个hash值作为特征。
2、keywords_feature
把产品档案的关键字字段预处理(分割,换为小写,提取词干),对每个词组计算一个hash值作为特征。
3、attr_desc_feature
把产品档案的属性字段预处理(分割,换为小写,提取词干),对每个词组计算一个hash值作为特征。
4、subjec_candidate_feature
把产品档案的标题字段预处理后(分割,提取chunk的所有子串,换为小写,提取词干),对每个词组计算一个hash ID作为候选词特征。其中,可以通过对标题字段进行词性识别,将被连词、介词或标点符号分割开的短语称为chunk。
5、positive_label_feature
对于成功抽取产品词的产品档案信息进行以下特征提取:
1)类型特征,可以至少包括以下一种或几种:
产品词是否全大写(单词全大写一般是缩写特指);其中,若产品词是全大写,则对应的特征值可以为1;否则,对应的特征值为0,下同;
产品词是否包含数字;
产品词是否包含标点符号(标点符号在候选产品词产生中作为分割符,但某些特殊的标点符号可能不会被认为分割符,这和切词工具有关);
产品词的词性是否都相同;
产品词的词性(多数词的词性);其中,可以设置动词对应的特征值为10,名词对应的特征值为11,形容词对应的特征词为12等,下同。
2)全局特征,可以至少包括以下一种或几种:
产品词是否有某个单词在标题中出现多次;
3)Chunk内部的上下文特征;可以至少包括以下一种或几种:
产品词是否在chunk的最前;
产品词是否在chunk的最后;
产品词前面单词的词性;
产品词前面单词是否全大写;
产品词前面单词是否包含数字;
产品词后面单词的词性;
产品词后面单词是否全大写;
产品词后面单词是否包含数字。
4)Chunk外部的上下文特征,可以至少包括以下一种或几种:
产品词所在chunk是否在标题的最后;
产品词所在chunk是否在标题的最前;
产品词所在chunk的前分割符的词性;
产品词所在chunk的后分割符的词性。
6、negative_label_feature
对于成功抽取产品词的产品档案信息进行这一类特征提取,选择预设数量(两个)的不同于正样本产品词的词组作为负样本,然后抽取特征,做法和positive_label_feature的特征抽取方法相同,在此不再赘述。其中,对于产品档案信息,在步骤101中抽取的产品词默认为正样本产品词,而标题中与正样本产品词不相同的词组即可以作为负样本。以标题为“4GB MP3 Player”为例,正样本产品词(即产品词)为“MP3 Player”,则负样本可以为“MP3”、“Player”或“4GB”等。
步骤103、根据所抽取的特征和产品档案信息确定学习子模型,并根据所述学习子模块确定综合学习模型。
其中,在本申请实施例中,学习子模型可以包括但不限于先验概率模型P(Y)、关键字条件概率模型P(K|Y)、属性条件概率模型P(A|Y)、类目条件概率模型P(Ca|Y)、公司条件概率模型P(Co|Y)以及标题条件概率模型P(T|Y)。下面分别对各自学习模型的确定进行说明:
在完成特征抽取操作之后,可以将产品词抽取成功的产品档案信息切分为两部分,一部分作为用于标题条件概率模型P(T|Y)的学习样本(即可以根据该部分产品档案信息确定P(T|Y)),另一部分作为子学习模型及综合学习模型的测试样本(用于测试各子学习模型和综合学习模型的准确性)。其中,两部分产品档案信息的数量通常不会相差太大。
1)先验概率模型P(Y)
可以根据步骤102中得到的特征provide_products_feature统计各词组对应的特征的频率(即出现次数),并对频率超过阈值的特征的频率取对数,进而进行归一化处理得到先验概率模型P(Y)。其中,对频率取对数时底数并不进行限定,即可以取以2为底、以10为底或自然对数等。
2)关键字条件概率模型P(K|Y)
可以利用步骤102中得到的特征subject_candidate_feature和keyword_feature构成二分图的两个顶点集,如果某个关键字字段中的词组和某个标题字段中的词组在同一个产品档案中出现,则在这两个顶点间建立一条边,边的权值为该两个顶点在同一个产品档案中出现的次数。遍历所有产品词抽取成功的产品档案信息,得到带权值的二分图,并在该带权值的二分图上进行random walk(随机游走)确定关键字条件概率模型P(K|Y)。
3)属性条件概率模型P(A|Y)
可以利用步骤102中得到的特征subject_candidate_feature和attr_desc_feature构成二分图的两个顶点集,如果某个属性字段中的词组和某个标题字段中的词组在同一个产品档案中出现,则在这两个顶点间建立一条边,边的权值为该两个顶点在同一个产品档案中出现的次数。遍历所有产品词抽取成功的产品档案信息,得到带权值的二分图,并通过在该带权值的二分图上进行random walk确定属性条件概率模型P(A|Y)。
4)类目条件概率模型P(Ca|Y)
可以将步骤102中得到的特征subject_candidate_feature作为候选产品词,并通过统计候选产品词的类目分布确定类目条件概率模型P(Ca|Y)。
5)公司条件概率模型P(Co|Y)
可以将步骤102中得到的特征subject_candidate_feature作为候选产品词,并通过统计候选产品词的公司分布确定公司条件概率模型P(Co|Y)。
6)标题条件概率模型P(T|Y)
标题模型表示从标题判断,抽取的词组是产品词的可能性,可建模为二分类问题,模型可选择常见二分类模型,特征数据为步骤102抽取的positive_label_feature和negative_label_feature。
确定上述子学习模型后,可以根据上述各子学习模型确定对应的综合学习模型P(Y|O),其具体实现可以通过以下公式实现:
P(Y|O)=P(T|Y)P(K|Y)P(A|Y)P(S|Y)P(Ca|Y)P(Co|Y)P(Y)
得到上述综合学习模型后,可以利用上述确定的测试样本对各模型进行测试,利用综合学习模型对测试样本中的产品档案信息进行识别,并统计准确率,从而可以根据该统计结果对各模型进行调试和改进。
步骤104、当接收到产品识别请求时,根据综合学习模型及产品识别请求中携带的待识别产品档案信息确定该待识别产品档案信息对应的产品词。
具体的,在本申请实施例中,当接收到产品识别请求后,可以根据该产品识别请求中携带的待识别产品档案信息确定候选产品词,并根据该待识别产品档案信息、候选产品词以及综合学习模型确定所述候选产品词的概率,并将概率最大的候选产品词确定为该待识别产品档案信息对应的产品词。其具体实现流程可以如下:
1、确定候选产品词
具体的,可以对待识别产品档案信息中包含的标题做词性识别,将待识别的产品档案信息的标题中被连词或介词或标点符号隔开的字符串中所包含的词组作为候选产品词。
2、抽取特征
其具体实现流程与学习阶段的特征抽取流程相同,在此不再赘述。
3、产品识别
对于待识别产品档案信息,经过步骤1和2,获得候选产品此和各种特征,将其输入概率模型,分别确定各候选产品词作为产品词的概率,并将概率最大的候选产品词作为该产品档案信息对应的产品词。优选地,还可以记录该候选产品词作为该产品档案信息对应的产品词的概率。
步骤105、根据所确定的产品词对待识别的产品档案信息进行分类。
具体的,在本申请实施例中,可以预先设定用于对产品档案信息进行分类的分类关键词,当确定了待识别的产品档案信息的产品词后,根据预设的分类关键词对所确定的产品词进行匹配,并根据匹配结果确定待识别的产品档案信息的类别。
基于上述方法实施例相同的技术构思,本申请实施例还提供了一种产品识别系统,可以应用于上述方法实施例。
如图2所示,为本申请实施例提供的一种信息分类系统的结构示意图,可以包括:
存储模块21,用于存储有用于产品识别的学习子模型以及由所述学习子模型组成的综合学习模型;
第一确定模块22,用于当所述产品识别系统接收到产品识别请求时,确定待识别的产品档案信息的候选产品词;
特征抽取模块23,用于分别根据所确定的候选产品词对所述待识别产品档案信息进行特征抽取;
第二确定模块24,用于根据所述候选产品词及其对应的特征、所述学习子模型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词;
分类模块25,用于根据所述第二确定模块24确定的产品词对所述待识别的产品档案信息进行分类。
其中,所述第一确定模块22可以具体用于,对待识别的产品档案信息的标题做词性识别,将所述待识别的产品档案信息的标题中被连词或介词或标点符号隔开的字符串中所包含的词组作为候选产品词。
其中,所述特征抽取模块23可以具体用于,
根据所述待识别的产品档案信息获取产品档案的标题字段、待识别的产品档案关联的卖家档案中的供应产品字段、待识别的产品档案的属性字段以及待识别的产品档案的关键字字段;
分别获取各字段中包含的词组,确定各词组的hash值,并将标题字段中词组的hash值作为相应产品档案的标题特征,将供应产品字段中词组的hash值作为相应产品档案的供应产品特征,将属性字段中词组的hash值作为相应产品档案的属性特征,将关键字字段中词组的hash值作为相应产品档案的关键词特征;
分别根据各候选产品词确定所述待识别的产品档案信息的正标签特征和负标签特征。
其中,所述第二确定模块24可以具体用于,根据所述候选产品词以及对应的特征、所述学习子模型以及所述综合学习模型确定各候选产品词作为产品词的概率;将所述概率最大的候选产品词确定为所述待识别的产品档案信息对应的产品词。
其中,所述分类模块25具体用于,根据预设的分类关键词对所确定的关键词进行匹配,并根据匹配结果确定所述待识别的产品档案信息的类别。
其中,本申请实施例提供的产品识别系统还可以包括:
生成模块26,用于生成用于产品识别的学习子模型以及由所述学习子模型组成的综合学习模型;
所述生成模块26可以具体用于,获取用于学习的产品档案信息,并对所述产品档案信息进行产品词抽取;根据产品词抽取结果对所述产品档案信息进行特征抽取;根据所述特征和产品档案信息确定学习子模型,并根据所述学习子模型确定综合学习模型。
其中,所述生成模块26可以具体用于通过以下方式对所述产品档案信息进行产品词抽取:
根据所述产品档案信息获取产品档案的标题字段、以及下述字段中的一个或多个字段:
产品档案关联的卖家档案中的供应产品字段、产品档案的属性字段、或产品档案的关键字字段;
将满足预设条件的词组确定为所述产品档案信息对应的产品词;
其中,所述预设条件包括:
所述词组在所述产品档案的标题字段中出现,且至少在其余一个字段中出现;或,
所述词组在所述产品档案的标题字段中出现,且在所有字段中出现的次数不低于阈值。
其中,所述生成模块26可以具体用于通过以下方式实现根据产品词抽取结果对所述产品档案信息进行特征抽取:
根据所述产品档案信息获取产品档案的标题字段、产品档案关联的卖家档案中的供应产品字段、产品档案的属性字段以及产品档案的关键字字段;
分别获取各字段中包含的词组,确定各词组的hash值,并将标题字段中词组的hash值作为相应产品档案的标题特征,将供应产品字段中词组的hash值作为相应产品档案的供应产品特征,将属性字段中词组的hash值作为相应产品档案的属性特征,将关键字字段中词组的hash值作为相应产品档案的关键词特征;
根据产品词抽取成功的产品档案信息以及对应的产品词确定相应产品档案的正标签特征和负标签特征。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本申请的保护范围。

Claims (14)

1.一种基于产品识别的信息分类方法,其特征在于,信息分类系统中存储有用于产品识别的学习子模型以及由所述学习子模型组成的综合学习模型,该方法包括以下步骤:
当接收到产品识别请求时,确定待识别的产品档案信息的候选产品词;
分别根据所确定的候选产品词对所述待识别产品档案信息进行特征抽取;
根据所述候选产品词及其对应的特征、所述学习子模型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词,并根据所确定的产品词对所述待识别的产品档案信息进行分类;
其中,所述根据候选产品词及其对应的特征、所述学习子模型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词,具体为:
根据所述候选产品词以及对应的特征、所述学习子模型以及所述综合学习模型确定各候选产品词作为产品词的概率;
将所述概率最大的候选产品词确定为所述待识别的产品档案信息对应的产品词。
2.如权利要求1所述的方法,其特征在于,所述确定待识别的产品档案信息的候选产品词,具体为:
对待识别的产品档案信息的标题做词性识别,将所述待识别的产品档案信息的标题中被连词或介词或标点符号隔开的字符串中所包含的词组作为候选产品词。
3.如权利要求1所述的方法,其特征在于,所述分别根据所确定的候选产品词对所述待识别产品档案信息进行特征抽取,具体为:
根据所述待识别的产品档案信息获取产品档案的标题字段、待识别的产品档案关联的卖家档案中的供应产品字段、待识别的产品档案的属性字段以及待识别的产品档案的关键字字段;
分别获取各字段中包含的词组,确定各词组的hash值,并将标题字段中词组的hash值作为相应产品档案的标题特征,将供应产品字段中词组的hash值作为相应产品档案的供应产品特征,将属性字段中词组的hash值作为相应产品档案的属性特征,将关键字字段中词组的hash值作为相应产品档案的关键词特征;
分别根据各候选产品词确定所述待识别的产品档案信息的正标签特征和负标签特征。
4.如权利要求1所述的方法,其特征在于,还包括:
所述根据所确定的产品词对所述待识别的产品档案信息进行分类,具体为:
根据预设的分类关键词对所确定的产品词进行匹配,并根据匹配结果确定所述待识别的产品档案信息的类别。
5.如权利要求1所述的方法,其特征在于,还包括:
生成用于产品识别的学习子模型以及由所述学习子模型组成的综合学习模型;
所述生成用于产品识别的学习子模型以及由所述学习子模型组成的综合学习模型,具体为:
获取用于学习的产品档案信息,并对所述用于学习的产品档案信息进行产品词抽取;
根据产品词抽取结果对所述用于学习的产品档案信息进行特征抽取;
根据所述特征和所述用于学习的产品档案信息确定学习子模型,并根据所述学习子模型确定综合学习模型。
6.如权利要求5所述的方法,其特征在于,所述对所述用于学习的产品档案信息进行产品词抽取,具体为:
根据所述用于学习的产品档案信息获取产品档案的标题字段、以及下述字段中的一个或多个字段:
产品档案关联的卖家档案中的供应产品字段、产品档案的属性字段、或产品档案的关键字字段;
将满足预设条件的词组确定为所述用于学习的产品档案信息对应的产品词;
其中,所述预设条件包括:
所述词组在所述产品档案的标题字段中出现,且至少在其余一个字段中出现;或,
所述词组在所述产品档案的标题字段中出现,且在所有字段中出现的次数不低于阈值。
7.如权利要求5所述的方法,其特征在于,所述根据产品词抽取结果对所述用于学习的产品档案信息进行特征抽取,具体为:
根据所述用于学习的产品档案信息获取产品档案的标题字段、产品档案关联的卖家档案中的供应产品字段、产品档案的属性字段以及产品档案的关键字字段;
分别获取各字段中包含的词组,确定各词组的hash值,并将标题字段中词组的hash值作为相应产品档案的标题特征,将供应产品字段中词组的hash值作为相应产品档案的供应产品特征,将属性字段中词组的hash值作为相应产品档案的属性特征,将关键字字段中词组的hash值作为相应产品档案的关键词特征;
根据产品词抽取成功的用于学习的产品档案信息以及对应的产品词确定相应产品档案的正标签特征和负标签特征。
8.一种信息分类系统,其特征在于,包括:
存储模块,用于存储有用于产品识别的学习子模型以及由所述学习子模型组成的综合学习模型;
第一确定模块,用于当所述产品识别系统接收到产品识别请求时,确定待识别的产品档案信息的候选产品词;
特征抽取模块,用于分别根据所确定的候选产品词对所述待识别产品档案信息进行特征抽取;
第二确定模块,用于根据所述候选产品词及其对应的特征、所述学习子模型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词;
分类模块,用于根据所述第二确定模块确定的产品词对所述待识别的产品档案信息进行分类;
其中,所述第二确定模块具体用于,根据所述候选产品词以及对应的特征、所述学习子模型以及所述综合学习模型确定各候选产品词作为产品词的概率;将所述概率最大的候选产品词确定为所述待识别的产品档案信息对应的产品词。
9.如权利要求8所述的信息分类系统,其特征在于,
所述第一确定模块具体用于,对待识别的产品档案信息的标题做词性识别,将所述待识别的产品档案信息的标题中被连词或介词或标点符号隔开的字符串中所包含的词组作为候选产品词。
10.如权利要求8所述的信息分类系统,其特征在于,所述特征抽取模块具体用于,
根据所述待识别的产品档案信息获取产品档案的标题字段、待识别的产品档案关联的卖家档案中的供应产品字段、待识别的产品档案的属性字段以及待识别的产品档案的关键字字段;
分别获取各字段中包含的词组,确定各词组的hash值,并将标题字段中词组的hash值作为相应产品档案的标题特征,将供应产品字段中词组的hash值作为相应产品档案的供应产品特征,将属性字段中词组的hash值作为相应产品档案的属性特征,将关键字字段中词组的hash值作为相应产品档案的关键词特征;
分别根据各候选产品词确定所述待识别的产品档案信息的正标签特征和负标签特征。
11.如权利要求8所述的信息分类系统,其特征在于,所述分类模块具体用于,根据预设的分类关键词对所确定的关键词进行匹配,并根据匹配结果确定所述待识别的产品档案信息的类别。
12.如权利要求8所述的信息分类系统,其特征在于,还包括:
生成模块,用于生成用于产品识别的学习子模型以及由所述学习子模型组成的综合学习模型;
所述生成模块具体用于,获取用于学习的产品档案信息,并对所述用于学习的产品档案信息进行产品词抽取;根据产品词抽取结果对所述用于学习的产品档案信息进行特征抽取;根据所述特征和所述用于学习的产品档案信息确定学习子模型,并根据所述学习子模型确定综合学习模型。
13.如权利要求12所述的信息分类系统,其特征在于,所述生成模块具体用于通过以下方式对所述用于学习的产品档案信息进行产品词抽取:
根据所述用于学习的产品档案信息获取产品档案的标题字段、以及下述字段中的一个或多个字段:
产品档案关联的卖家档案中的供应产品字段、产品档案的属性字段、或产品档案的关键字字段;
将满足预设条件的词组确定为所述用于学习的产品档案信息对应的产品词;
其中,所述预设条件包括:
所述词组在所述产品档案的标题字段中出现,且至少在其余一个字段中出现;或,
所述词组在所述产品档案的标题字段中出现,且在所有字段中出现的次数不低于阈值。
14.如权利要求12所述的信息分类系统,其特征在于,所述生成模块具体用于通过以下方式实现根据产品词抽取结果对所述用于学习的产品档案信息进行特征抽取:
根据所述用于学习的产品档案信息获取产品档案的标题字段、产品档案关联的卖家档案中的供应产品字段、产品档案的属性字段以及产品档案的关键字字段;
分别获取各字段中包含的词组,确定各词组的hash值,并将标题字段中词组的hash值作为相应产品档案的标题特征,将供应产品字段中词组的hash值作为相应产品档案的供应产品特征,将属性字段中词组的hash值作为相应产品档案的属性特征,将关键字字段中词组的hash值作为相应产品档案的关键词特征;
根据产品词抽取成功的用于学习的产品档案信息以及对应的产品词确定相应产品档案的正标签特征和负标签特征。
CN201210266047.3A 2012-07-30 2012-07-30 一种基于产品识别的信息分类方法及信息分类系统 Active CN103577989B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201210266047.3A CN103577989B (zh) 2012-07-30 2012-07-30 一种基于产品识别的信息分类方法及信息分类系统
TW101142222A TWI554896B (zh) 2012-07-30 2012-11-13 Information Classification Method and Information Classification System Based on Product Identification
KR20157002406A KR20150037924A (ko) 2012-07-30 2013-07-24 제품 인식에 근거한 정보 분류 기법
JP2015525462A JP6335898B2 (ja) 2012-07-30 2013-07-24 製品認識に基づく情報分類
PCT/US2013/051865 WO2014022172A2 (en) 2012-07-30 2013-07-24 Information classification based on product recognition
US13/949,970 US20140032207A1 (en) 2012-07-30 2013-07-24 Information Classification Based on Product Recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210266047.3A CN103577989B (zh) 2012-07-30 2012-07-30 一种基于产品识别的信息分类方法及信息分类系统

Publications (2)

Publication Number Publication Date
CN103577989A CN103577989A (zh) 2014-02-12
CN103577989B true CN103577989B (zh) 2017-11-14

Family

ID=48980277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210266047.3A Active CN103577989B (zh) 2012-07-30 2012-07-30 一种基于产品识别的信息分类方法及信息分类系统

Country Status (6)

Country Link
US (1) US20140032207A1 (zh)
JP (1) JP6335898B2 (zh)
KR (1) KR20150037924A (zh)
CN (1) CN103577989B (zh)
TW (1) TWI554896B (zh)
WO (1) WO2014022172A2 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102469758B1 (ko) 2015-09-02 2022-11-22 삼성전자주식회사 서버 장치, 사용자 단말 장치, 그 제어 방법 및 전자 시스템
CN106557505B (zh) * 2015-09-28 2021-04-27 北京国双科技有限公司 一种信息分类方法及装置
CN105354597B (zh) * 2015-11-10 2019-03-19 网易(杭州)网络有限公司 一种游戏物品的分类方法及装置
US11580589B2 (en) 2016-10-11 2023-02-14 Ebay Inc. System, method, and medium to select a product title
TWI621084B (zh) * 2016-12-01 2018-04-11 財團法人資訊工業策進會 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體
CN107133287B (zh) * 2017-04-19 2021-02-02 上海筑网信息科技有限公司 建筑安装行业工程清单归类解析方法及系统
JP7162417B2 (ja) * 2017-07-14 2022-10-28 ヤフー株式会社 推定装置、推定方法、及び推定プログラム
CN107977794B (zh) * 2017-12-14 2021-09-17 方物语(深圳)科技文化有限公司 工业产品的数据处理方法、装置、计算机设备及存储介质
JP7100797B2 (ja) * 2017-12-28 2022-07-14 コニカミノルタ株式会社 文書スコアリング装置、プログラム
CN110968887B (zh) * 2018-09-28 2022-04-05 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和系统
US10956487B2 (en) 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system
CN112182448A (zh) * 2019-07-05 2021-01-05 百度在线网络技术(北京)有限公司 页面信息处理方法、装置及设备
CN113220980A (zh) * 2020-02-06 2021-08-06 北京沃东天骏信息技术有限公司 物品属性词识别方法、装置、设备及存储介质
US20210304121A1 (en) * 2020-03-30 2021-09-30 Coupang, Corp. Computerized systems and methods for product integration and deduplication using artificial intelligence

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082426B2 (en) * 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US5983170A (en) * 1996-06-25 1999-11-09 Continuum Software, Inc System and method for generating semantic analysis of textual information
CN1997992A (zh) * 2003-03-26 2007-07-11 维克托·西 用于无线网络的在线智能多语种比较商店代理
AU2003265379A1 (en) * 2003-05-29 2005-01-21 Raul Mihali Raffle-based collaborative product selling and buying system
US7505969B2 (en) * 2003-08-05 2009-03-17 Cbs Interactive, Inc. Product placement engine and method
US7587309B1 (en) * 2003-12-01 2009-09-08 Google, Inc. System and method for providing text summarization for use in web-based content
US7870039B1 (en) * 2004-02-27 2011-01-11 Yahoo! Inc. Automatic product categorization
US20070005649A1 (en) * 2005-07-01 2007-01-04 Microsoft Corporation Contextual title extraction
JP4368336B2 (ja) * 2005-07-13 2009-11-18 富士通株式会社 カテゴリ設定支援方法及び装置
AU2006283553B9 (en) * 2005-08-19 2012-12-06 Fourthwall Media, Inc. System and method for recommending items of interest to a user
US7885859B2 (en) * 2006-03-10 2011-02-08 Yahoo! Inc. Assigning into one set of categories information that has been assigned to other sets of categories
US8326890B2 (en) * 2006-04-28 2012-12-04 Choicebot, Inc. System and method for assisting computer users to search for and evaluate products and services, typically in a database
US7996440B2 (en) * 2006-06-05 2011-08-09 Accenture Global Services Limited Extraction of attributes and values from natural language documents
US7979459B2 (en) * 2007-06-15 2011-07-12 Microsoft Corporation Scalable model-based product matching
JP2009026195A (ja) * 2007-07-23 2009-02-05 Yokohama National Univ 商品分類装置、商品分類方法及びプログラム
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
US8386519B2 (en) * 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
CN102081865A (zh) * 2009-11-27 2011-06-01 英业达股份有限公司 应用行动装置进行互动学习及监控的系统及其方法
US8775160B1 (en) * 2009-12-17 2014-07-08 Shopzilla, Inc. Usage based query response
CN102193936B (zh) * 2010-03-09 2013-09-18 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
TWI483129B (zh) * 2010-03-09 2015-05-01 Alibaba Group Holding Ltd Retrieval method and device
WO2011146527A2 (en) * 2010-05-17 2011-11-24 Zirus, Inc. Mammalian genes involved in infection
US8417651B2 (en) * 2010-05-20 2013-04-09 Microsoft Corporation Matching offers to known products
US20110302167A1 (en) * 2010-06-03 2011-12-08 Retrevo Inc. Systems, Methods and Computer Program Products for Processing Accessory Information
TWI518613B (zh) * 2010-08-13 2016-01-21 Alibaba Group Holding Ltd How to publish product information and website server
WO2012064893A2 (en) * 2010-11-10 2012-05-18 Google Inc. Automated product attribute selection
US20120123863A1 (en) * 2010-11-13 2012-05-17 Rohit Kaul Keyword publication for use in online advertising
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
US8650136B2 (en) * 2011-02-24 2014-02-11 Ketera Technologies, Inc. Text classification with confidence grading
CN102332025B (zh) * 2011-09-29 2014-08-27 奇智软件(北京)有限公司 一种智能垂直搜索方法和系统

Also Published As

Publication number Publication date
JP2015529901A (ja) 2015-10-08
JP6335898B2 (ja) 2018-05-30
US20140032207A1 (en) 2014-01-30
WO2014022172A3 (en) 2014-06-26
KR20150037924A (ko) 2015-04-08
TWI554896B (zh) 2016-10-21
TW201405341A (zh) 2014-02-01
CN103577989A (zh) 2014-02-12
WO2014022172A2 (en) 2014-02-06

Similar Documents

Publication Publication Date Title
CN103577989B (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN110825876B (zh) 电影评论观点情感倾向性分析方法
CN110377759B (zh) 事件关系图谱构建方法及装置
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN106649603B (zh) 一种基于网页文本数据情感分类的指定信息推送方法
CN101251862B (zh) 一种基于内容的问题自动分类方法及其系统
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN107766371A (zh) 一种文本信息分类方法及其装置
JP2022534377A (ja) テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体
CN109492101A (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN111159414B (zh) 文本分类方法及系统、电子设备、计算机可读存储介质
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
CN112487149B (zh) 一种文本审核方法、模型、设备及存储介质
CN106997339A (zh) 文本特征提取方法、文本分类方法及装置
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN113282701A (zh) 作文素材生成方法、装置、电子设备及可读存储介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN109062977A (zh) 一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统
Yao et al. Online deception detection refueled by real world data collection
CN111199151A (zh) 数据处理方法、及数据处理装置
CN111062211A (zh) 信息提取方法、装置、电子设备及存储介质
Khemani et al. A review on reddit news headlines with nltk tool
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1193217

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1193217

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20240328

Address after: Singapore

Patentee after: Alibaba Singapore Holdings Ltd.

Country or region after: Singapore

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

Country or region before: Cayman Islands