CN102262765A - 一种发布商品信息的方法及装置 - Google Patents

一种发布商品信息的方法及装置 Download PDF

Info

Publication number
CN102262765A
CN102262765A CN2010101874457A CN201010187445A CN102262765A CN 102262765 A CN102262765 A CN 102262765A CN 2010101874457 A CN2010101874457 A CN 2010101874457A CN 201010187445 A CN201010187445 A CN 201010187445A CN 102262765 A CN102262765 A CN 102262765A
Authority
CN
China
Prior art keywords
merchandise news
vocabulary
piling
speech
enumerating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010101874457A
Other languages
English (en)
Other versions
CN102262765B (zh
Inventor
林锋
张寿松
张勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201010187445.7A priority Critical patent/CN102262765B/zh
Priority to US13/068,976 priority patent/US20110295650A1/en
Priority to EP11787020.4A priority patent/EP2577585A4/en
Priority to PCT/US2011/000932 priority patent/WO2011149527A1/en
Priority to JP2013512600A priority patent/JP5714702B2/ja
Publication of CN102262765A publication Critical patent/CN102262765A/zh
Priority to HK12100207.5A priority patent/HK1159830A1/zh
Application granted granted Critical
Publication of CN102262765B publication Critical patent/CN102262765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Abstract

本申请涉及计算机领域,公开了一种发布商品信息的方法及装置,用以降低系统后期检索时的运行负荷,该方法为:接收用户输入的商品信息,并对所述商品信息进行解析;根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;确定所述置信度达到设定阈值时,阻止发布所述商品信息,或者建议修改商品信息再重发。这样,可以有效提高商品信息的简洁性和准确性,从而在后续检索过程中大幅度降低系统运行负荷,保证了电子商务网站的正常运行,确保了网站的服务质量。本申请同时公开了一种网站服务器。

Description

一种发布商品信息的方法及装置
技术领域
本申请涉及计算机网站技术,特别涉及一种发布商品信息的方法及装置。
背景技术
在电子商务领域中,一个商品的描述内容(例如,商品标题)包含了该产品的重要信息,例如,参阅图1所示,某商品的标题为“&New arrived&Fashionwind coat,ladies′coat,fashion coat,women′s wind coat(Wholesale price +Dodropship)”,这个商品标题记录了商品的相关信息,可以向用户准确展现该商品为一件女士风衣。但是,该商品标题却存在信息冗余,重复词汇罗列堆砌的问题,如,“Fashion wind coat”、“fashion coat”、“ladies′coat”和“women′swind coat”这些词汇重复出现,造成了商品信息的冗余,这样,严重降低了商品信息的简洁性和准确性,并且在用户搜索该商品时,也会由于商品信息的冗余,而造成搜索效率的下降,系统需要耗费大量的资源进行信息比对和排查,从而降低了识别检索效率,也增加了系统的运行负荷。
发明内容
本申请提供一种发布商品信息的方法及装置,用以提高商品信息的准确性和简洁性,从而降低系统后期检索时的运行负荷。
本申请提供的具体技术方案如下:
一种发布商品信息的方法,包括:
接收用户输入的商品信息,并对所述商品信息进行解析;
根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;
根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;
确定所述置信度达到设定阈值时,阻止发布所述商品信息。
一种网站服务器,包括:
通信单元,用于接收用户输入的商品信息;
解析单元,用于对所述商品信息进行解析,并根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;
第一处理单元,用于根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;
第二处理单元,用于在确定所述置信度达到设定阈值时,阻止发布所述商品信息。
综上所述,本申请实施例中,网站服务器在商品信息发布之前,根据预设规则对其包含的词汇的罗列堆砌程度进行评估,确定商品信息罗列堆砌时,阻止商品信息的发布,或者,建议修改后再重新发布。这样,可以有效提高商品信息的简洁性和准确性,从而在后续检索过程中大幅度降低系统运行负荷,保证了电子商务网站的正常运行,确保了网站的服务质量。
附图说明
图1为现有技术下商品标题示意图;
图2为本申请实施例中网站服务器功能结构示意图;
图3为本申请实施例中分类器原理示意图;
图4为本申请实施例中网站服务器发布商品信息流程图。
具体实施方式
在电子商务领域中,为了提高所发布的商品信息的准确性和简洁性,从而降低系统后续检索时的运行负荷,本申请实施例中,电子商务网站的服务器接收用户输入的商品信息,并对所述商品信息进行解析,再根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度,以及根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度,并在确定所述置信度达到设定阈值时,阻止发布所述商品信息;本申请实施例中,罗列堆砌分为对相同商品的罗列和对不同商品的堆砌。相同商品的罗列指的是在商品标题中使用多种描述同一商品名称的词语或词组甚至多次出现同一关键词语,不同商品的堆砌是指在商品标题中堆砌了多种商品名称,比如“mp3 player,mp4 player,ipod,walkman”。罗列堆砌程度,是指同一商品名称重复罗列出现的程度,或者多种商品名称堆砌的程度。
下面结合附图对本申请优选的实施方式进行详细说明。
参阅图2所示,本申请实施例中,用于管理电子商务网站的网站服务器包括通信单元10、解析单元11、第一解析单元12和第二解析单元13,其中,
通信单元10,用于接收用户输入的商品信息;
解析单元11,用于对所述商品信息进行解析,并根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;
计算单元12,用于根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;所谓置信度即是指将所述的商品信息判断为罗列堆砌信息的可靠程度
如图2所示,上述计算单元12进一步包括第一计算子单元120和第二计算子单元121,其中,
第一计算子单元120,用于将所述各指定特征属性的取值,作为基于最大熵原理的条件概率模型的给定信息;
第二计算子单元121,用于采用条件概率模型计算在所述给定信息的情况下,所述商品信息为罗列堆砌信息的后验概率,并将所述后验概率作为商品信息为罗列堆砌信息的置信度。
执行单元13,用于在确定所述置信度达到设定阈值时,阻止发布所述商品信息。
如图2所示,网站服务器中还可以包括策略单元14,用于在执行单元13阻止发布所述商品信息后,根据所述解析结果确定造成所述商品信息包含的词汇罗列堆砌的关键词汇,并通过通信单10向用户返回所述关键词汇,提示用户基于该关键词汇对商品信息进行修改;以及在向用户返回所述关键词汇时,向该用户通知相应的修改策略。
基于上述原理,本申请实施例中,采用基于机器学习的罗列堆砌识别算法,对用户指示发布的商品信息进行检测,在确定商品信息包含的词汇的罗列堆砌程序的置信度达到设定阈值时,阻止商品信息的发布。本实施例中,较佳地,采用基于最大熵原理的条件概率模型来计算上述置信度,其公式如下所示:
p ( y | x ) = 1 Z ( x ) exp ( Σ j λ j f j ( x , y ) ) 公式1
其中y∈{title is mess,title is not mess},表示y有title is mess和tetle is notmess两种取值,具体采用哪一取值,根据预设参量决定,如,y取值为title ismess时,表示计算出的p(y|x)为标题包含罗列堆砌信息的后验概率;x为商品信息的指定特征属性,其具体含义将在后续实施例中进行详细阐述。fj为最大熵模型针对各指定特征属性的特征值,λj是当前商品信息的各指定特征属性对应的权重,可以根据经验值预先设置;Z(x)是归一化因子,也可以根据经验值预先设置。
在实际中,还可以采用线性回归等机器学习模型来建立条件概率模型。在实际中,还可以采用支持向量机模型,虽然不是条件概率模型,但是计算的分值也可以用来作为置信度。
基于上述公式1,可以构建罗列堆砌分类器,输入为商品信息,输出为分类结果,即商品信息包含的词汇是否罗列堆砌的置信度,假设,类1为:title ismess;类2为title is not mess,则上述分类器的结构示意图如图3所示。
本申请实施例中,在基于机器学习的罗列堆砌识别算法时,针对商品信息所获取的指定特征属性分为词法特征属性或/和句法特征属性。下面以商品信息为商品标题为例,对这两类特征属性分别作出介绍。
首先,根据商品标题的解析结果获得其词法特征属性,该词法特征属性包括:
1、商品标题包含的逗号个数。
商品标题中包含逗号的个数,一定程度上反映了该商品标题所包含词汇为罗列堆砌的可能性。通常情况下,商品标题中逗号个数越多,商品标题包含词汇为罗列堆砌的可能性越大。
例如,在商品标题“#24 Baseball Jersey,Baseball Jerseys,Jerseys,SportsJerseys,Sport Jersey,Jersey,24# Baseball Jersey”中,逗号个数为6。
2、商品标题的句长(如,词汇个数+逗号个数)。
通常情况下,因为罗列堆砌的商品标题包含了比较多的冗余信息,因此,商品标题的句长越长,商品标题所包含词汇为罗列堆砌的可能性越大。
例如,在罗列堆砌标题“100% Original Asus P6T7 WS SuperComputerMotherboard,ASUS Motherboard,Computer Motherboard,ComputerMainboard,Motherboard”中,句长为18。
3、商品标题去重后包含的词汇个数与商品标题中词汇总数的比率
通常情况下,经过去根处理后的商品标题中,去重复后词汇的个数占原商品标题中词汇总数的比例越小,标题为罗列堆砌的可能性越大。其中,所谓去根处理,即是去除英文词汇的后缀,保留词干,若是中文标题,则根据省略去根处理这一操作步骤,下同,不再赘述。
例如,商品标题为“100% Original Asus P6T7 WS SuperComputerMotherboard,ASUS Motherboard,Computer Motherboard,ComputerMainboard,Motherboard”,经过去根处理后,对应的词汇串为“100% OriginAsus P6T7 WS SuperComput Motherboard ASUS Motherboard ComputMotherboard Comput Mainboard Motherboard”(个数为14),去除重复词汇后的句子为“100% Origin Asus P6T7 WS SuperComput Motherboard ComputMainboard(个数为9),则该商品标题去重后词汇个数与总词汇个数的比率为9/14。
4、商品标题中出现频率最高的词汇的出现次数。
通常情况下,在商品标题中某一词汇的出现频率越高,商品标题针对该词汇对应的商品进行罗列堆砌的可能性越大。
例如,在商品标题“09 branded handbag,designer handbag,new stylehandbag,fashion handbag,ladies′handbag,elegant handbag”中,经过词汇去根后,出现频率最高的词汇为“handbag”,而出现次数为6。显而易见,该商品标题是针对对商品“handbag”进行罗列堆砌的。
5、按照预设规则将商品标题划分为若干片段后每个片段中指定位置的词汇组成的集合中,去重后词汇个数与集合中词汇总数的比率。
通常情况,上述预设规则包含但不限于:按照商品标题中的逗号所在位置将商品标题划分为若干片段,或/和按照商品标题中出现频率最高的词汇所在位置将商品标题划分为若干片段。上述两种方式仅为举例,不排除其他划分方式的实施。
a)以逗号划分为例,将商品标题按照其包含的逗号所在位置划分为若干片段后,指定由每个片段的最后一个词汇组成一个集合。如果在该集合中,去重后词汇个数与集合中词汇总数的比率越低,则该商品标题包含的词汇为罗列堆砌的可能性越大。
例如,在商品标题“Paypal-Fashion sunglasses,ED sunglasses,CA sunglasses,Brand name sunglasses,designer sunglasses”中,首先经过词汇去根后,根据逗号分块后得到的片段集合为{“Paypal-Fashion sunglass”,“ED sunglass”,“CAsunglass”,“Brand nam sunglass”,“design sunglass”},各片段块最后一个词汇的集合为{“sunglass”,“sunglass”,“sunglass”,“sunglass”,“sunglass”},去重后的词汇集合为{“sunglass”}。则每个片段最后一个词汇组成的集合中,去重后词汇个数与集合中词汇总数的比率为1/5。
b)再次以逗号划分为例,将商品标题按照其包含的逗号所在位置划分为若干片段后,指定由每个片段最后两个词汇组成一个集合,如果在该集合中,去重后bi-gram词汇(即由各片段最后两个词汇组成的词汇)个数与集合中bi-gram词汇总数的比率越低,则该商品标题包含的词汇为罗列堆砌的可能性越大。
例如,商品标题为“Degree name card holder,business card holder,name cardcase,business card case,card holder,credit card holder”,经过词汇去根和逗号划分后,得到的片段集合为{“Degree nam card hold”,“busi card hold”,“namcard cas”,“busi card cas”,“card hold”,“credit card hold”},每个片段最后两个词汇组成的集合为{“card hold”,“card hold”,“card cas”,“card cas”,“cardhold”,“card hold”},去重后的集合为{“card hold”,“card cas”}。则去重后bi-gram词汇个数与集合中bi-gram词汇总数的比率为1/3。
c)以按出现频率最高的词汇进行片段划分为例,将商品标题按照其包含的出现频率最高的词汇划分为若干片段后,指定由每个片段最后一个词汇组成一个集合,则该集合中去重后的词汇个数与集合中词汇总数的比率越低,该商品标题所包含词汇为罗列堆砌的可能性越大。
例如,商品标题为“New style Brand tshirt Polo tshirt Fashion tshirt mens Topquality tshirt Paypal”,经过词汇去根处理后,得到的句子为“New styl Brand tshirtPolo tshirt Fashion tshirt men Top qualiti tshirt Payp”,其中,出现频率最高的词汇为“tshirt”。用“tshirt”做为分隔符对该句子进行分割,得到的片段集合为{“New styl Brand tshirt”,“Polo tshirt”,“Fashion tshirt”,“men Topqualiti tshirt”,“Payp”},指定由每个片段最后一个词汇组成的集合为{“tshirt”,“tshirt”,“tshirt”,“tshirt”,“Payp”},去重后的词汇集合为{“tshirt”,“Payp”},则每个片段最后一个词汇组成的集合中,去重后词汇个数与集合中词汇总数的比率为2/5。
实际应用中,上述a)、b)和c)中介绍的片段划分方式和相应的比率计算方式,可以实施其中的一种,也可以为了提高最终计算结果的精确性而组合性实施,组合方式任意,在此不再赘述。
6、按照预设规则将商品标题划分为若干片段后,每个片段的方差。
仍以逗号划分为例,商品标题根据包含的逗号所在位置划分成若干片段后,每个片段对应了相应的片段长度,即包含词汇的个数。通常情况下,这些片段组成的集合中,片段长度的方差越小,则该商品标题包含的词汇为罗列堆砌的可能性越大。
例如,在商品标题“Paypal-Fashion sunglasses,ED sunglasses,CA sunglasses,Brand name sunglasses,designer sunglasses”中,经过词汇去根和逗号划分后得到的片段集合为{“Paypal-Fashion sunglass”,“ED sunglass”,“CA sunglass”,“Brand nam sunglass”,“design sunglass”}。则片段对应的长度集合为{2,2,2,3,2},相应的片段长度的方差为0.2。
本实施例中,除了要根据商品标题的解析结果获得其词法特征属性,还要根据该解析结果获得商品标题的句法特征属性,这其中包括先要对商品标题进行词性标注,即针对商品标题包含的每一个词汇标注对应的词性,例如,名词、动词、形容词、副词等等。词性的类别比较少(例如,Penn TreeBank定义的词性有36种),因此,基于词性特征的属性比基于词汇特征的属性更具有泛化能力,可以扩展本申请技术方案的应用范围。为了进一步提高其泛化性,本实施例中,定义了词性的超类,即把词性分为:名词(N),动词(V),形容词(JJ),副词(ADV),介词(TO),数词(DT)等。基于上述原理,本申请实施例中,所谓的句法特征属性包括:
1、商品标题去重后包含的词汇的词性个数与商品标题中词汇的词性总数的比率。
通常情况下,商品标题去重复后所包含词汇的词性个数占原商品标题中词汇的词性总数的比率越低,该商品标题包含的词汇为罗列堆砌的可能性越大。
例如,商品标题为“100% Original Asus P6T7 WS SuperComputerMotherboard,ASUS Motherboard,Computer Motherboard,ComputerMainboard,Motherboard”,其分别对应的词性为“DT JJ N DT N N N,N N,N N,N N,N”,去重后得到的词性集合为{“DT”,“JJ”,“N”}。那么,去重复后包含的词汇的词性个数占原商品标题中词汇词性总数的比率为3/14。
2、商品标题中为名词的词汇去重后的个数与为名词的词汇总数的比率。
在电子商务领域中,商品标题中的名词具有更丰富的信息,描述了该商品的比较重要的信息,而且商品名称一般都为名词。因此,通常情况下,商品标题中为名词的词汇去重后的个数与为名词的词汇总数的比率越小,商品标题包含的词汇为罗列堆砌的可能性越大。
例如,商品标题为“100% Original Asus P6T7 WS SuperComputerMotherboard,ASUS Motherboard,Computer Motherboard,ComputerMainboard,Motherboard”中的名词为“Asus WS SuperComputer MotherboardASUS Motherboard Computer Motherboard Computer Mainboard Motherboard”,去除重复后得到的名词集合为{“Asus”,“WS”,“SuperComputer”,“Motherboard”,“Mainboard”},则商品标题中为名词的词汇去重后的个数与为名词的词汇总数的比率为5/11。
3、出现频率最高的词性的出现次数。
以bi-gram词性为例,为了提高对没有标点符号的罗列堆砌的商品标题的识别,较佳地,可以考察标题中连续两个词性(即bi-gram词汇)的出现频率,通常情况下,如果连续两个词性的出现频率越高,则该商品标题包含的词汇为罗列堆砌的可能性越大。
例如,商品标题为“Power Amplifier Audio Amplifier Professional PowerAmplifier Karaoke Amplifier Pa Pro Amplifier”,其对应的词性序列为“JJ N JJ NJJ N N N N N N N”,从中抽取出的的bi-gram词性集合为{“JJ N”,“N JJ”,“JJN”,“N JJ”,“JJ N”,“N N”,“N N”,“N N”,“N N”,“N N”,“N N”,“N N”},其中,出现频率最高的bi-gram词性序列为“N N”,次数为7。
4、按照预设规则将商品信息划分为若干片段后,每个片段中指定位置的词汇的词性组成的集合中,去重后的词性个数与集合中词性总数的比率。
其中,所谓按照预设规则将商品信息划分为若干片段,包含但不限于,按照商品信息中的逗号所在位置将商品标题划分为若干片段、或/和,按照商品信息中出现频率最高的词汇所在位置将商品标题划分为若干片段。
较佳地,仍以bi-gram词性为例,通常情况下,商品信息划分为若干片段后,指定由每个片段最后两个词汇的词性组成的集合中,去重后bi-gram词性个数与集合中bi-gram词性总数的比率越低,则该商品标题所包含词汇为罗列堆砌的可能性越大。
例如,商品标题为“100% Original Asus P6T7 WS SuperComputerMotherboard,ASUS Motherboard,Computer Motherboard,ComputerMainboard,Motherboard”,其中,每个片段最后两个词汇的词性组成的集合为{“N N”,“N N”,“N N”,“N N”,“N”},(最后一个片段只有一个词汇,则bi-gram词性序列为“N”),则去重后的集合为{“N N”,“N”},那么,这两个集合元素数目之间的比率为2/5。
本申请实施例中,商品信息还可以包含其他内容,例如,商品描述信息、商品介绍信息等等,本实施例仅以商品信息为商品标题为例进行阐述。
基于上述原理,参阅图4所示,本申请实施例中,仍以商品标题为例,网站服务器对用户指示发布的商品标题进行评估的详细流程如下:
步骤400:接收用户输入的商品标题。
步骤410:用于对所述商品标题进行解析,并根据解析结果获得所述商品标题的指定特征属性的取值,该指定特征属性用于描述商品标题所包含词汇的罗列堆砌程度。
本实施例中,所谓的指定特征属性包含词法特征属性或/和词法特征属性,其中,
词法特征属性包含以下任意一种或任意组合:商品标题包含的逗号个数;商品标题的句长;商品标题去重后包含的词汇个数与商品标题中词汇总数的比率;商品标题中出现频率最高的词汇的出现次数;按照预设规则将商品标题划分为若干片段后,将每个片段中指定位置的词汇组成集合,针对该集合去重后的词汇个数与集合中词汇总数的比率;按照预设规则将商品标题划分为若干片段后,每个片段的方差;
句法特征属性包含以下任意一种或任意组合:商品标题去重后包含的词汇的词性个数与信息标题中词汇的词性总数的比率;商品标题中为名词的词汇去重后的个数与为名词的词汇总数的比率;出现频率最高的词性的出现次数;按照预设规则将商品标题划分为若干片段后,每个片段中指定位置的词汇的词性组成的集合中,去重后的词性个数与集合中词性总数的比率。
步骤420:根据各指定特征属性的取值,基于最大熵原理,计算所述商品标题为罗列堆砌信息的置信度。
本实施例中,所谓基于最大熵原理,计算所述商品标题为罗列堆砌信息的置信度,即是将各指定特征属性的取值,作为基于最大熵原理的条件概率模型
Figure GSA00000127042800111
的给定信息;再采用条件概率模型计算在所述给定信息的情况下,所述商品标题为罗列堆砌信息的后验概率p(y|x),并将该后验概率p(y|x)作为商品标题为罗列堆砌信息的置信度。
步骤430:将所述置信度与设定阈值进行比较,确定所述置信度达到设定阈值时,阻止发布所述商品标题。
实际应用中,网站服务器阻止发布用户输入的商品标题后,还应根据步骤410中获得的解析结果,确定造成商品标题包含的词汇罗列堆砌的关键词汇,如,“handbag”,并向用户返回该关键词汇,提示用户基于该关键词汇对商品标题进行修改,如,将对针对“handbag”的多次重复描述进行简化,压缩,将针对“handbag”的多种形容词汇尽量在一句话中呈现。进一步地,网站服务器还可以将本地自动修改后的商品标题作为修改策略呈现给用户,以供用户参考和选择。
基于上述实施例,下面以一些具体的实验数据对上述流程进行进一步阐述。
在实际应用中,各指定特征属性的取值都将被被归一化为0-1的数值,然后分段映射到整数,以简化后续计算流程。例如,6被归一化到0.3(即6/20,20为归一化参数,可以根据被归一化的数据的取值而具体设定),并映射为整数3。针对这一特征,本实施例中,将归一化后的数值与整数之间的映射关系设置为:0->0,(0,0.05]->1,(0.05,0.15]->2,(0.15,0.3]->3,(0.3,0.5]->4,(0.5,1]->5。以下实施例中所有映射操作均基于此原理,将不再赘述。
那么,本实施例中,商品标题为“#24 Baseball Jersey,BaseballJerseys,Jerseys,Sports Jerseys,Sport Jersey,Jersey,24# Baseball Jersey”,假设根据商品标题的解析结果获得的指定特征属性的取值分别为:
商品标题包含的逗号个数逗号个数为6,经归一化处理后转化为0.3,再经映射处理,转化为整数3;其对应于λ1f1(x,y),其中,假设λ1的取值为0.0653117,f1(x,y)的取值为
Figure GSA00000127042800121
商品标题的句长为20,经归一化处理后转化为0.20,再经映射处理,转化为整数2;其对应于λ2f2(x,y),假设λ2的取值为0.853789,f2(x,y)的取值为
Figure GSA00000127042800131
商品标题去重后包含的词汇个数与商品标题中词汇总数的比率为4/14,经归一化处理转换为0.28,再经映射处理,转化为整数3;其对应于λ3f3(x,y),λ3的取值为-0.177941,假设f3(x,y)的取值为
Figure GSA00000127042800132
商品标题中出现频率最高的词汇的出现次数为7,经归一化处理转换为0.35,再经映射处理,转化为整数3;其对应于λ4f4(x,y),假设λ4的取值为0.457743,f4(x,y)的取值为
按照预设规则将商品标题划分为若干片段后每个片段中指定位置的词汇组成的集合中,去重后词汇个数与集合中词汇总数的比率,分为以下三种情况:
将商品标题按照其包含的逗号所在位置划分为若干片段后,每个片段最后一个词汇组成的集合中,去重后词汇个数与集合中词汇总数的比率为1/7,经归一化处理转换为0.14,再经映射处理,转化为整数2;其对应于λ5f5(x,y),假设λ5的取值为1.7743,f5(x,y)的取值为
Figure GSA00000127042800134
将商品标题按照其包含的逗号所在位置划分为若干片段后,每个片段最后两个词汇组成的集合中,去重后词汇个数与集合中词汇总数的比率为3/7,经归一化处理转换为0.42,再经映射处理,转化为整数4;其对应于λ6f6(x,y),假设λ6的取值为-0.24332,f6(x,y)的取值为
Figure GSA00000127042800141
将商品标题按照其包含的出现频率最高的词汇划分为若干片段后,每个片段最后一个词汇组成的集合中,去重后的词汇个数与集合中词汇总数的比率2/7,经归一化处理转换为0.29,再经映射处理,转化为整数3;其对应于λ7f7(x,y),假设λ7的取值为0.410227,f7(x,y)的取值为
Figure GSA00000127042800142
按照预设规则将商品标题划分为若干片段后,每个片段的方差0.28,经映射处理映射为2;其对应于λ8f8(x,y),假设λ8的取值为-0.188554,f8(x,y)的取值为
Figure GSA00000127042800143
商品标题去重后包含的词汇的词性个数与商品标题中词汇的词性总数的比率为2/14,经归一化处理后转换为0.14,再经映射处理,转化为整数2;其对应于λ9f9(x,y),假设λ9的取值为-0.0397724,f9(x,y)的取值为
Figure GSA00000127042800144
商品标题中为名词的词汇去重后的个数与为名词的词汇总数的比率3/15,经归一化处理后转换为0.2,再经映射处理,转化为整数2;其对应于λ9f9(x,y),假设λ10的取值为0.305969,f10(x,y)的取值为
出现频率最高的词性的出现次数为12,经归一化处理后转换为0.6,再经映射处理,转化为整数6;其对应于λ11f11(x,y),假设λ11的取值为0.105729,f11(x,y)的取值为
Figure GSA00000127042800151
按照预设规则将商品信息划分为若干片段后,每个片段中指定位置的词汇的词性组成的集合中,去重后的词性个数与集合中词性总数的比率为2/7,经归一化处理后转换为0.28,再经映射处理,转化为整数3;其对应于λ12f12(x,y),假设λ12的取值为-0.174333,f12(x,y)的取值为
Figure GSA00000127042800152
将上述各特征属性作为公式1的给定信息,可以得到后验概率p(y|x)为0.989271,假设设定的阈值为0.7,作为置信度的后验概率达到了设定阈值,因此,网站服务器确定用户输入的商品标题包含的词汇为罗列堆砌,需阻止其发布。当然,本申请实施例中,根据实际应用环境,也可以选择上述各特征属性中的一种或任意组合来训练模型,计算相应的后验概率。
进一步地,网站服务器中还可以在阻止发布所述商品信息后,向用户报告造成商品信息包含的词汇罗列堆砌的关键词汇,并提示用户基于该关键词汇对商品信息进行修改;以及在向用户返回所述关键词汇时,向该用户通知相应的修改策略。
综上所述,本申请实施例中,网站服务器在商品信息发布之前,根据预设规则对其包含的词汇的罗列堆砌程度进行评估,确定商品信息罗列堆砌时,阻止商品信息的发布,或者,建议修改后再重新发布。这样,可以有效提高商品信息的简洁性和准确性,从而在后续检索过程中大幅度降低系统运行负荷,保证了电子商务网站的正常运行,确保了网站的服务质量。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种发布商品信息的方法,其特征在于,包括:
接收用户输入的商品信息,并对所述商品信息进行解析;
根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;
根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;
确定所述置信度达到设定阈值时,阻止发布所述商品信息。
2.根据权利要求1所述的方法,其特征在于,所述根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度,包括:
将所述各指定特征属性的取值,作为基于最大熵原理的条件概率模型的给定信息;
采用条件概率模型计算在所述给定信息的情况下,所述商品信息为罗列堆砌信息的后验概率,并将所述后验概率作为商品信息为罗列堆砌信息的置信度。
3.如权利要求1或2所述的方法,其特征在于,所述指定特征属性包含词法特征属性或/和句法特征属性;其中,
所述词法特征属性包含以下任意一种或任意组合:
商品信息包含的逗号个数;商品信息的句长;商品信息去重后包含的词汇个数与商品信息中词汇总数的比率;商品信息中出现频率最高的词汇的出现次数;按照预设规则将商品信息划分为若干片段后,将每个片段中指定位置的词汇组成集合,针对该集合去重后的词汇个数与集合中词汇总数的比率;按照预设规则将商品信息划分为若干片段后,每个片段的方差;
所述句法特征属性包含以下任意一种或任意组合:
商品信息去重后包含的词汇的词性个数与信息标题中词汇的词性总数的比率;商品信息中为名词的词汇去重后的个数与为名词的词汇总数的比率;出现频率最高的词性的出现次数;按照预设规则将商品信息划分为若干片段后,每个片段中指定位置的词汇的词性组成的集合中,去重后的词性个数与集合中词性总数的比率。
4.如权利要求3所述的方法,其特征在于,所述按照预设规则将商品信息划分为若干片段,包括:
按照商品信息中的逗号所在位置将商品标题划分为若干片段;
或/和
按照商品信息中出现频率最高的词汇所在位置将商品标题划分为若干片段。
5.如权利要求1或2所述的方法,其特征在于,阻止发布所述商品信息后,还包括:
根据所述解析结果确定造成所述商品信息包含的词汇罗列堆砌的关键词汇;
向用户返回所述关键词汇,提示用户基于该关键词汇对商品信息进行修改。
6.如权利要求5所述的方法,其特征在于,向用户返回所述关键词汇时,向该用户通知相应的修改策略。
7.一种网站服务器,其特征在于,包括:
通信单元,用于接收用户输入的商品信息;
解析单元,用于对所述商品信息进行解析,并根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;
计算单元,用于根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;
执行单元,用于在确定所述置信度达到设定阈值时,阻止发布所述商品信息。
8.根据权利要求7所述的网站服务器,其特征在于,所述计算单元包括:
第一计算子单元,用于将所述各指定特征属性的取值,作为基于最大熵原理的条件概率模型的给定信息;
第二计算子单元,用于采用条件概率模型计算在所述给定信息的情况下,所述商品信息为罗列堆砌信息的后验概率,并将所述后验概率作为商品信息为罗列堆砌信息的置信度。
9.如权利要求7或8所述的网站服务器,其特征在于,所述指定特征属性包含词法特征属性或/和句法特征属性;其中,
所述词法特征属性包含以下任意一种或任意组合:
商品信息包含的逗号个数;商品信息的句长;商品信息去重后包含的词汇个数与商品信息中词汇总数的比率;商品信息中出现频率最高的词汇的出现次数;按照预设规则将商品信息划分为若干片段后,将每个片段中指定位置的词汇组成集合,针对该集合去重后的词汇个数与集合中词汇总数的比率;按照预设规则将商品信息划分为若干片段后,每个片段的方差;
所述句法特征属性包含以下任意一种或任意组合:
商品信息去重后包含的词汇的词性个数与信息标题中词汇的词性总数的比率;商品信息中为名词的词汇去重后的个数与为名词的词汇总数的比率;出现频率最高的词性的出现次数;按照预设规则将商品信息划分为若干片段后,每个片段中指定位置的词汇的词性组成的集合中,去重后的词性个数与集合中词性总数的比率。
10.如权利要求7或8所述的网站服务器,其特征在于,还包括:
策略单元,用于在所述第二处理单元阻止发布所述商品信息后,根据所述解析结果确定造成所述商品信息包含的词汇罗列堆砌的关键词汇,并通过所述通信单元向用户返回所述关键词汇,提示用户基于该关键词汇对商品信息进行修改。
11.如权利要求10所述的网站服务器,其特征在于,所述策略单元向用户返回所述关键词汇时,向该用户通知相应的修改策略。
CN201010187445.7A 2010-05-27 2010-05-27 一种发布商品信息的方法及装置 Active CN102262765B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201010187445.7A CN102262765B (zh) 2010-05-27 2010-05-27 一种发布商品信息的方法及装置
US13/068,976 US20110295650A1 (en) 2010-05-27 2011-05-24 Analyzing merchandise information for messiness
EP11787020.4A EP2577585A4 (en) 2010-05-27 2011-05-25 ANALYSIS OF PRODUCT INFORMATION TO DETERMINE IF THIS INFORMATION IS SCRAPPED
PCT/US2011/000932 WO2011149527A1 (en) 2010-05-27 2011-05-25 Analyzing merchandise information for messiness
JP2013512600A JP5714702B2 (ja) 2010-05-27 2011-05-25 商品情報の乱雑さの解析
HK12100207.5A HK1159830A1 (zh) 2010-05-27 2012-01-09 種發佈商品信息的方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010187445.7A CN102262765B (zh) 2010-05-27 2010-05-27 一种发布商品信息的方法及装置

Publications (2)

Publication Number Publication Date
CN102262765A true CN102262765A (zh) 2011-11-30
CN102262765B CN102262765B (zh) 2014-08-06

Family

ID=45009383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010187445.7A Active CN102262765B (zh) 2010-05-27 2010-05-27 一种发布商品信息的方法及装置

Country Status (6)

Country Link
US (1) US20110295650A1 (zh)
EP (1) EP2577585A4 (zh)
JP (1) JP5714702B2 (zh)
CN (1) CN102262765B (zh)
HK (1) HK1159830A1 (zh)
WO (1) WO2011149527A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544138A (zh) * 2012-07-11 2014-01-29 阿里巴巴集团控股有限公司 识别异常输入信息的方法与装置
CN103544264A (zh) * 2013-10-17 2014-01-29 常熟市华安电子工程有限公司 一种商品标题优化工具
CN103870960A (zh) * 2012-12-10 2014-06-18 腾讯科技(深圳)有限公司 一种商品发布方法、终端、服务器及系统
CN104391983A (zh) * 2014-12-10 2015-03-04 郑州悉知信息技术有限公司 一种批量发布产品信息的方法及系统
CN104714969A (zh) * 2013-12-16 2015-06-17 阿里巴巴集团控股有限公司 一种属性值的检测方法和检测装置
CN104715374A (zh) * 2013-12-11 2015-06-17 世纪禾光科技发展(北京)有限公司 一种电子商务平台重复产品的治理方法和系统
CN106469184A (zh) * 2015-08-20 2017-03-01 阿里巴巴集团控股有限公司 数据对象标签处理、显示方法及服务器和客户端
CN108431854A (zh) * 2015-12-29 2018-08-21 电子湾有限公司 检测垃圾信息发布
CN111429183A (zh) * 2020-03-26 2020-07-17 中国联合网络通信集团有限公司 一种商品分析方法及装置
CN113836904A (zh) * 2021-09-18 2021-12-24 唯品会(广州)软件有限公司 商品信息校验方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169328B2 (en) * 2016-05-12 2019-01-01 International Business Machines Corporation Post-processing for identifying nonsense passages in a question answering system
US10585898B2 (en) * 2016-05-12 2020-03-10 International Business Machines Corporation Identifying nonsense passages in a question answering system based on domain specific policy
US9842096B2 (en) * 2016-05-12 2017-12-12 International Business Machines Corporation Pre-processing for identifying nonsense passages in documents being ingested into a corpus of a natural language processing system
CN116308650B (zh) * 2023-03-13 2024-02-06 北京农夫铺子技术研究院 基于人工智能的智慧社区商品大数据沉浸式团购系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030063779A1 (en) * 2001-03-29 2003-04-03 Jennifer Wrigley System for visual preference determination and predictive product selection
US20050004880A1 (en) * 2003-05-07 2005-01-06 Cnet Networks Inc. System and method for generating an alternative product recommendation
US20090083096A1 (en) * 2007-09-20 2009-03-26 Microsoft Corporation Handling product reviews
US7689431B1 (en) * 2002-04-17 2010-03-30 Winway Corporation Context specific analysis

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0746359B2 (ja) * 1988-03-11 1995-05-17 富士通株式会社 日本語文章処理方式
JPH0721201A (ja) * 1993-06-18 1995-01-24 Ricoh Co Ltd 電子ファイリング装置
US20070094223A1 (en) * 1998-05-28 2007-04-26 Lawrence Au Method and system for using contextual meaning in voice to text conversion
US8677505B2 (en) * 2000-11-13 2014-03-18 Digital Doors, Inc. Security system with extraction, reconstruction and secure recovery and storage of data
AU2003239385A1 (en) * 2002-05-10 2003-11-11 Richard R. Reisman Method and apparatus for browsing using multiple coordinated device
US7035841B2 (en) * 2002-07-18 2006-04-25 Xerox Corporation Method for automatic wrapper repair
US9818136B1 (en) * 2003-02-05 2017-11-14 Steven M. Hoffberg System and method for determining contingent relevance
US7551780B2 (en) * 2005-08-23 2009-06-23 Ricoh Co., Ltd. System and method for using individualized mixed document
JP5217041B2 (ja) * 2006-10-10 2013-06-19 日立情報通信エンジニアリング株式会社 オンライン商取引システム
US20080215571A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Product review search
US20090063247A1 (en) * 2007-08-28 2009-03-05 Yahoo! Inc. Method and system for collecting and classifying opinions on products
US8271483B2 (en) * 2008-09-10 2012-09-18 Palo Alto Research Center Incorporated Method and apparatus for detecting sensitive content in a document
KR101550886B1 (ko) * 2009-03-27 2015-09-08 삼성전자 주식회사 동영상 콘텐츠에 대한 부가 정보 생성 장치 및 방법
US20110276513A1 (en) * 2010-05-10 2011-11-10 Avaya Inc. Method of automatic customer satisfaction monitoring through social media

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030063779A1 (en) * 2001-03-29 2003-04-03 Jennifer Wrigley System for visual preference determination and predictive product selection
US7689431B1 (en) * 2002-04-17 2010-03-30 Winway Corporation Context specific analysis
US20050004880A1 (en) * 2003-05-07 2005-01-06 Cnet Networks Inc. System and method for generating an alternative product recommendation
US20090083096A1 (en) * 2007-09-20 2009-03-26 Microsoft Corporation Handling product reviews

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544138B (zh) * 2012-07-11 2016-04-06 阿里巴巴集团控股有限公司 识别异常输入信息的方法与装置
CN103544138A (zh) * 2012-07-11 2014-01-29 阿里巴巴集团控股有限公司 识别异常输入信息的方法与装置
CN103870960A (zh) * 2012-12-10 2014-06-18 腾讯科技(深圳)有限公司 一种商品发布方法、终端、服务器及系统
CN103870960B (zh) * 2012-12-10 2019-02-15 腾讯科技(深圳)有限公司 一种商品发布方法、终端、服务器及系统
CN103544264A (zh) * 2013-10-17 2014-01-29 常熟市华安电子工程有限公司 一种商品标题优化工具
CN104715374A (zh) * 2013-12-11 2015-06-17 世纪禾光科技发展(北京)有限公司 一种电子商务平台重复产品的治理方法和系统
CN104714969B (zh) * 2013-12-16 2018-04-27 阿里巴巴集团控股有限公司 一种属性值的检测方法和检测装置
CN104714969A (zh) * 2013-12-16 2015-06-17 阿里巴巴集团控股有限公司 一种属性值的检测方法和检测装置
CN104391983A (zh) * 2014-12-10 2015-03-04 郑州悉知信息技术有限公司 一种批量发布产品信息的方法及系统
CN106469184A (zh) * 2015-08-20 2017-03-01 阿里巴巴集团控股有限公司 数据对象标签处理、显示方法及服务器和客户端
CN106469184B (zh) * 2015-08-20 2019-12-27 阿里巴巴集团控股有限公司 数据对象标签处理、显示方法及服务器和客户端
CN108431854A (zh) * 2015-12-29 2018-08-21 电子湾有限公司 检测垃圾信息发布
CN108431854B (zh) * 2015-12-29 2023-11-17 电子湾有限公司 检测垃圾信息发布
CN111429183A (zh) * 2020-03-26 2020-07-17 中国联合网络通信集团有限公司 一种商品分析方法及装置
CN113836904A (zh) * 2021-09-18 2021-12-24 唯品会(广州)软件有限公司 商品信息校验方法
CN113836904B (zh) * 2021-09-18 2023-11-17 唯品会(广州)软件有限公司 商品信息校验方法

Also Published As

Publication number Publication date
US20110295650A1 (en) 2011-12-01
EP2577585A4 (en) 2016-04-20
JP5714702B2 (ja) 2015-05-07
EP2577585A1 (en) 2013-04-10
JP2013543154A (ja) 2013-11-28
CN102262765B (zh) 2014-08-06
HK1159830A1 (zh) 2012-08-03
WO2011149527A1 (en) 2011-12-01

Similar Documents

Publication Publication Date Title
CN102262765B (zh) 一种发布商品信息的方法及装置
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
Quan et al. Unsupervised product feature extraction for feature-oriented opinion determination
US10565273B2 (en) Tenantization of search result ranking
CN112100344B (zh) 一种基于知识图谱的金融领域知识问答方法
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US20130060769A1 (en) System and method for identifying social media interactions
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN108038096A (zh) 知识库文档快速检索方法、应用服务器计算机可读存储介质
US8156097B2 (en) Two stage search
Bansal et al. Hybrid attribute based sentiment classification of online reviews for consumer intelligence
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
US20100306214A1 (en) Identifying modifiers in web queries over structured data
Li et al. A holistic model of mining product aspects and associated sentiments from online reviews
Lau et al. Automatic domain ontology extraction for context-sensitive opinion mining
CN104252456A (zh) 一种权重估计方法、装置及系统
Ravi Kumar et al. Dependency driven semantic approach to product features extraction and summarization using customer reviews
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
Wang et al. A semantic query expansion-based patent retrieval approach
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
Tan et al. Query Rewrite for Null and Low Search Results in eCommerce.
CN110688559A (zh) 一种检索方法及装置
Sood et al. Creating domain based dictionary and its evaluation using classification accuracy
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
Gayen et al. Automatic identification of Bengali noun-noun compounds using random forest

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1159830

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1159830

Country of ref document: HK