CN106469184A - 数据对象标签处理、显示方法及服务器和客户端 - Google Patents

数据对象标签处理、显示方法及服务器和客户端 Download PDF

Info

Publication number
CN106469184A
CN106469184A CN201610697766.9A CN201610697766A CN106469184A CN 106469184 A CN106469184 A CN 106469184A CN 201610697766 A CN201610697766 A CN 201610697766A CN 106469184 A CN106469184 A CN 106469184A
Authority
CN
China
Prior art keywords
descriptor
data object
word
object label
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610697766.9A
Other languages
English (en)
Other versions
CN106469184B (zh
Inventor
康杨杨
朱慕华
孙常龙
郎君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of CN106469184A publication Critical patent/CN106469184A/zh
Application granted granted Critical
Publication of CN106469184B publication Critical patent/CN106469184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种数据对象标签处理、显示方法及服务器和客户端。所述数据对象标签处理方法包括:将数据对象标签划分出多个词语,得出所述数据对象标签中属于类别描述词的词语;分析所述划分出的多个词语与所述类别描述词中的每一个词语的语义关系,从所述类别描述词中确定出核心描述词;根据所述多个词语与所述核心描述词的语义关系,确定所述多个词语中的虚假描述词。本申请所提供的数据对象标签处理、显示方法及服务器和客户端能够有效排查数据对象标签的虚假描述词。

Description

数据对象标签处理、显示方法及服务器和客户端
技术领域
本申请涉及互联网数据处理领域,特别涉及一种数据对象标签处理、显示方法及服务器和客户端。
背景技术
现实生活中,越来越多的人们通过互联网在网店中进行购物,相应的网络中的网店也越来越多。举例为,每年都有大量的人们在淘宝网中申请注册网店。每个网店可以销售多个商品,相同的商品也可能在多个网店进行销售。
随着网站中的网店越来越多,销售的产品也越来越多,消费者往往利用网站提供的搜索功能,查找其想要购买的商品。具体的,比如消费者进入淘宝网站之后,可以通过在搜索栏输入关键词,例如“阿迪达斯运动裤”,此时网站会在搜索标题中包括“阿迪达斯”和“运动裤”的商品,并反馈商品列表给用户。如此可以便于用户尽快找到其想要购买的商品。
然而,在一些情况下,网店经营者为了使其产品能够尽可能多的被搜索到,以增大其产品被购买的机会,可能会在商品的标题上堆积不同的关键词。比如网店销售一款运动裤,其可能为商品设置的标题为“春秋薄款耐克阿迪达斯三叶草纯棉加绒运动裤男款李宁卫裤休闲长裤冲锋衣货号51800”。这些堆积的关键词中可能会存在一些错误,或者可能误导消费者的关键词。比如上述举例中的“耐克”、“阿迪达斯”和“李宁”,显然一个裤子的品牌不可能同时属于上述三个品牌。
由于购物网站中往往商品数量是一个非常庞大的数量级,使得难以靠人工逐一阅读判断完成筛选工作。因此,需要一种可以针对商品的标题以及其他信息中发生关键词的不合理堆积的情况进行辨别的网络系统。
发明内容
本申请实施方式的目的是提供一种能够有效减少数据对象标签中不合理堆积关键词的数据对象标签过滤、显示和处理方法及服务器和客户端。
为解决上述技术问题,本申请提供本申请还提供了一种数据对象标签的处理方法,包括:将所述数据对象标签划分出多个词语,得出所述数据对象标签中属于类别描述词的词语;分析所述划分出的多个词语与所述类别描述词的语义关系,从所述类别描述词中确定出核心描述词;根据所述多个词语与所述核心描述词的语义关系,确定所述多个词语中的虚假描述词。
本申请还提供一种服务器,该服务器包括:类别描述词确定模块,用于将数据对象标签划分出多个词语,得出所述数据对象标签中属于类别描述词的词语;核心描述词确定模块,用于分析所述划分出的多个词语与所述类别描述词的语义关系,从所述类别描述词中确定出核心描述词;虚假描述词确定模块,用于根据所述多个词语与所述核心描述词的语义关系,确定所述多个词语中的虚假描述词。
本申请还提供了一种数据对象标签的显示方法,包括:接收用户输入的目标数据对象的第一数据对象标签;其中,所述第一数据对象标签中包括多个词语;将所述第一数据对象标签发送给服务器;接收所述服务器反馈的数据对象标签检验信息;其中,所述数据对象标签检验信息指示所述第一数据对象标签中的虚假描述词;显示所述目标数据对象的第二数据对象标签;其中,所述第二数据对象标签至少包括所述第一数据对象标签除所述虚假描述词之外的词语。
本申请还提供了一种客户端,包括:输入装置、通信模块、显示器和处理器,所述通信模块,耦合于所述处理器,用于进行网络数据通信;所述输入装置,用于接收用户的输入;所述显示器,用于为用户提供显示界面;所述处理器,用于通过所述输入装置接收用户输入的目标数据对象的第一数据对象标签;其中,所述第一数据对象标签中包括多个词语;通过所述通信模块将所述第一数据对象标签发送给服务器,并接收所述服务器反馈的数据对象标签检验信息;其中,所述数据对象标签检验信息指示所述第一数据对象标签中的虚假描述词;控制所述显示器显示所述目标数据对象的第二数据对象标签;其中,所述第二数据对象标签至少包括所述第一数据对象标签除所述虚假描述词之外的词语。
由以上本申请提供的技术方案可见,本申请通过根据语义关系分析数据对象标签中的核心描述词,进而可以根据词语与核心描述词之间的语义关系,确定数据对象标签中的虚假描述词,从而为对数据对象标签中虚假描述词的过滤等操作,提供了处理依据。数据对象虚假描述词数据对象可见,本申请能够实现在系统角度确定电商平台中网店销售的数据对象的数据对象标签中的虚假描述词数据对象虚假描述词,节省了大量的人工负荷。
再者,基于确定的虚假描述词,可以进一步处理,比如删除数据对象标签中的虚假描述词。数据对象能够使得电商平台中的数据对象标签能够更加准确的表示其对应的数据对象,一定程度上避免了数据对象标签给进行网络购物的消费者带来的误导。此外,由于数据对象标签可以更加准确的表示数据对象,使得消费者可以更加快捷的找到需要购买的数据对象,减少了消费者的时间浪费,提升了消费者的购物体验。
附图说明
为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个实施方式提供的数据对象标签处理方法的流程图;
图2为本申请一个实施方式提供的数据对象标签处理方法的应用场景图1;
图3为本申请一个实施方式提供的数据对象标签处理方法的应用场景图2;
图4为本申请一个实施方式提供的数据对象标签处理方法的应用场景图3;
图5为本申请一个实施方式提供的数据对象标签处理方法的流程图;
图6为本申请一个实施方式提供的服务器的功能模块图;
图7为本申请一个实施方式提供的数据对象标签的显示方法的流程图;
图8为本申请一个实施方式提供的数据对象标签的显示方法执行主体之间的交互图;
图9为本申请一个实施方式提供的客户端的模块示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
下面结合附图对本申请所述的数据对象标签处理、显示方法及服务器和客户端进行详细的说明。虽然本申请提供了如下述实施方式或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块结构。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施方式提供的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品执行时,可以按照实施方式或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
请参阅图1,为本申请一个实施方式所提供的一种数据对象标签处理方法。本数据对象标签处理方法可以为存储在存储器中的软体,该软体可以被具有运算功能的设备读取并运行。例如,计算机。数据对象标签可以包括数据对象的标题、数据对象简介或数据对象详细介绍中一个或多个。数据对象标签中可以包括数据对象的多个属性,具体的例如数据对象标签中可以包括商品的品牌、材质、适用季节、适用人群和产品风格等。当然数据对象标签的内容包括但不限于上述举例。该数据对象标签处理方法如下步骤。
步骤S10:将数据对象标签划分多个词语,得出所述数据对象标签中属于类别描述词的词语。
在本实施方式中,所述数据对象可以为产品也可以为一种服务,当然,所述数据对象的形式并不限于上述举例,其还可以为其他形式,本申请在此并不作具体的限定。具体的,例如,所述数据对象表示的产品可以包括交通工具、通信工具、日常生活品等等;数据对象表示的服务可以包括按摩、家政、中级车保养等等。其中,将数据对象标签划分多个词语的方式可以包括:在数据对象标签中取相邻的字组成临时词组,并通过将临时词组与预设词语集匹配,判断临时词组是否为一个词语。临时词组中的字的数量可以递次增加,并顺序在数据对象标签中取字。最初可以以数据对象标签的第一个字开始取字判断是否为词语,在判断发现第一个字和第二个字组成了一个词语之后,便从第三个字开始递次顺序取字形成临时词组进行判断。若一个字与其他字形成的临时词组均不是词语,则可以表示该字是单独一个字作为一个词语使用。经过上述方法便可以将数据对象标签划分成不同的词语。当然,将数据对象标签划分多个词语的方式并不限于上述方法,其还可以包括以特定字、词或标点符号等作为节点划分词语。具体的,例如将“的”作为节点划分词语,如此“时尚的衣服”中,便可以划分为“时尚”和“衣服”两个词。当然,将数据对象标签划分多个词语的方式还可以包括其他的词语划分方法,但只要其功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。
在本实施方式中,类别描述词可以用于表示数据对象的类别。可以是数据对象所表示的产品或服务的具体类别名称。类别描述词可以为一类产品或服务的名称,或者为一系列产品或服务的统称。为了宣传目的,数据对象标签中通常会包括类别描述词,以明确该数据对象的具体的内容。使得对数据对象标签划分成多个词语之后,可以得到属于类别描述词的词语。具体的,例如类别描述词可以包括:中级车、运动服、运动裤、铅笔或自行车等。
在本实施方式中,确定多个词语所属的类别的方式,可以为根据预设词语集确定所述多个词语所属的类别。可以预先定义词语类别,针对每个词语类别形成词语集。具体的,例如预先定义的词语类别可以包括品牌、材质、颜色、适用季节、适用人群、产品风格和类别描述词等,针对每个类别可以预先设置有预设词语集,将划分的词语与预设词语集进行匹配,从而得出每个词语属于的类别。当然,也可以利用语义分析的算法,分析得出词语的类别。
在本实施方式中,预设词语集可以包括针对现有网络中销售的产品的数据对象标签进行归纳整理,得出的词语集合;还可以包括归纳整理的词语的近义词;还可以包括社会上最新产生的词汇。
在一个具体的实施方式中,一个销售裤子的网页的数据对象标签为“春秋薄款耐克阿迪达斯三叶草纯棉加绒运动裤男款李宁卫裤休闲长裤冲锋衣货号51800”,可以利用预设词语集与该数据对象标签的内容匹配,可以将该数据对象标签划分为“春秋”、“薄款”、“耐克”、“阿迪达斯”、“三叶草”、“纯棉”、“加绒”、“运动裤”、“男款”、“李宁”、“卫裤”、“休闲”、“长裤”、“冲锋衣”和“货号51800”等。进一步根据预设词语集对应的类别。可以划分类别可以如下表1。
表1
类别 词语
适用季节 春秋
厚薄 薄款、加绒
品牌 耐克、阿迪达斯、三叶草、李宁
材质 纯棉
类别描述词 运动裤、卫裤、长裤、冲锋衣
适用人群 男款
风格 休闲
型号 货号51800
当然,本申请还可以包括仅仅从匹配的词语中划分出类别描述词,而不对其他的词语进行划分类别。再者,本申请并不限于上述列举的分类类别,所属领域人员在本申请的技术精髓启示下,还可以有其他的变更,但只要其实现的功能和效果,与本申请相同或相似,均应涵盖于本申请保护范围内。
步骤S12:分析所述划分出的多个词语与所述类别描述词的语义关系,从所述类别描述词中确定出核心描述词。
在本实施方式中,可以基于语义依存关系分析类别描述词中的核心描述词。分析语义关系的方式可以包括能够进行语义依存关系分析的概念依存理论、格语法、概念从属理论和语义场理论中的至少一个。可以根据语义依存关系分析得出多个词语中,每个词语与类别描述词之间的关系,当划分出的词语中的多数词语均与一个类别描述词之间的关系为预定关系时,该类别描述词便可以作为核心描述词。具体的,例如预定关系可以为修饰关系。即划分出的词语中多数词语均用于修饰一个类别描述词,此时该类别描述词可以作为核心描述词。当然,对应于仅仅划分出一个类别描述词时,该类别描述词便可以为核心描述词。其中修饰关系可以为词语之间,一个词语能够用于表明另一个词语的属性,或者一个词语能够用于对另一个词语的内容构成限定或解释。
在一个实施方式中,也可以设置预设语义关系集。该预设语义关系集中可以对应记录有词语以及词语之间的语义关系。具体的,预设语义关系集中可以包括品牌和品牌具有的货号,即品牌和货号的父子关系;品牌与品牌之间的关系,例如关系可以是父品牌和子品牌的父子关系,也可以是并列关系;类别描述词与类别描述词之间的关系,例如关系可以是并列关系、上位与下位关系、同义关系等。
在本实施方式中,分析语义关系的方式可以将语义依存关系以及预设语义关系集进行结合,判断划分出的词语与每一个类别描述词的语义关系,进而确定核心描述词。
在本实施方式中,作为核心描述词的词语可以相对较为准确的表示数据对象的类别。可以将核心描述词作为基准,判断其他词语是否存在作弊。
在一个具体的实施方式中,数据对象标签为“春秋薄款耐克阿迪达斯三叶草纯棉加绒运动裤男款李宁卫裤休闲长裤冲锋衣货号51800”,可以分析表1中不同类别的词语,分别与类别描述词中的词语之间的语义关系。可以采用基于语义依存关系分析得出“春秋”、“薄款”、“耐克”、“阿迪达斯”、“三叶草”、“加绒”、“男款”、“李宁”和“休闲”等,均可以修饰“运动裤”、“卫裤”、“长裤”和“冲锋衣”,此外“纯棉”还可以修饰“运动裤”、“卫裤”和“长裤”。再者,可以结合预设语义关系集,可以得出“货号51800”隶属于品牌“三叶草”,其标记的产品本身属于运动裤,使得“货号51800”与“运动裤”之间存在修饰关系。在类别描述词内的词语之间,“长裤”和“卫裤”都可以修饰“运动裤”,即“长裤”是非常宽泛的类别描述词,而“卫裤”是一款特殊的“运动裤”,而“冲锋衣”与其它类别描述词之间均为并列关系。由此可见,划分出的词语中,多数可以修饰“运动裤”,使得可以将“运动裤”作为核心描述词。本具体的实施方式中,将基于语义依存关系分析和采用与预设语义关系集匹配相结合的方式举例,本申请的保护范围并不局限于二者结合,也可以单独依据语义依存关系分析得出核心描述词,也可以单独采用与预设语义关系集匹配的方式得出核心描述词。当然,所属领域技术人员,在本申请的技术精髓启示下,还可能做出其它的变更,但只要其实现的功能和效果,与本申请相同或相似,均涵盖于本申请保护范围内。
在一个具体的实施方式中,可以包括以移进-归约算法确定核心描述词。所述移进-归约算法流程可包括如下步骤。
1、初始化:栈S=空,队列Q=<词语,语义标签>。
2、循环:当Q不为空时。
3、根据当前状况选择合适操作,所述合适操作包括:
移进操作:将队列Q左侧的元素移到栈顶;
左弧操作:以队列Q左侧的词为支配词,建立关系;
右弧操作:以栈S栈顶的词为支配词,建立关系;
执行操作,更新状态。
在本实施方式中,基于移进-归约算法的核心是确定了移进、左弧、右弧、执行四个操作,以动作来驱动状态的转移。每当两个词语之间建立关系之后,可以保留支配词,从队列Q和栈S中去除被支配的词,如此便可以通过往复操作,实现通过词语之间的关系保留最后的词语作为核心描述词。即由于每建立两个词语之间的关系之后,便去除被支配词,通过上述基于移进-归约算法便可以最终得到一个属于类别描述词的词语,该词语在该数据对象标签中处于支配地位,便可以为核心描述词。
在本实施方式中,判断两个词语的语义关系过程中,一个词语修饰另一词语,便可以认为被修饰的词语为支配词。
在本实施方式中,在执行基于移进-归约算法的过程中,可以基于语义依存分析或与预设语义关系集进行匹配的方式,选择合适的操作。
步骤S14:根据所述多个词语与所述核心描述词的语义关系,确定所述多个词语中的虚假描述词。
在本实施方式中,在得出核心描述词之后,便可以以核心描述词作为基准,以多个词语与核心描述词的语义关系作为条件,判断多个词语中的虚假描述词。
其中,所述虚假描述词可以是数据对象销售方为了提高数据对象标签被搜索到的概率而添加的数据对象与该产品或服务的客观情况不符合的关键词。在一种实施例下,产品的销售方会将虚假描述词添加在产品的标签。虚假描述词在功能上不能用于修饰数据对象标签对应的数据对象或者虚假描述词直接与数据对象标签中的其他词存在冲突的词。具体的,所述虚假描述词可以包括与核心描述词为并列关系的类别描述词。例如,当核心描述词为运动裤时,其他类别描述词,如冲锋衣、卫裤、长裤为虚假描述词。所述虚假描述词还可以包括修饰所述非核心描述词的类别描述词的修饰词,如李宁、休闲等。此外,所述虚假描述词还可以包括用于并列修饰所述核心描述词,且两个并列的词之间具有冲突关系。例如,当核心描述词为运动裤时,耐克和阿迪达斯为两个独立的品牌,一条裤子不可能既是耐克的品牌又是阿迪达斯的品牌。此时,可以结合其他辅助信息,例如,数据对象照片、数据对象的宝贝详情的信息,确定耐克和阿迪中的虚假描述词。
此外,在确定虚假描述词的过程中可以包括在类别描述词与核心描述词之间的语义关系为预设语义关系时,认定该类别描述词为虚假描述词。具体的,例如:预设语义关系是并列关系,当类别描述词与核心描述词之间的语义关系是并列关系的类别描述词,便可以认定为虚假描述词。例如,“冲锋衣”与核心描述词“运动裤”之间是并列关系,可以认为“冲锋衣”是虚假描述词,可以将“冲锋衣”从数据对象标签中删除。当然,在确定虚假描述词的过程中,可以包括在类别描述词与核心描述词之间的语义关系不是预设语义关系时,认定该类别描述词为虚假描述词。例如预设语义关系可以包括上位与下位关系、同义关系等,类别描述词“冲锋衣”与核心描述词“运动裤”之间的关系为并列关系,不是预设语义关系,所以可以认定“冲锋衣”是虚假描述词。
本申请实施方式,通过根据语义关系分析数据对象标签中的核心描述词,进而可以根据词语与核心描述词之间的语义关系,确定数据对象标签中的虚假描述词,从而为对数据对象标签中虚假描述词的过滤等操作,提供了处理依据。可见,本申请能够实现在系统角度确定电商平台中网店销售的数据对象的数据对象标签中的虚假描述词,节省了大量的人工负荷。
请参阅图2至图4,在一个具体的应用场景下,电商平台中的商铺销售方在为自己的中级车设置数据对象标签时,如图2所示,可以通过客户端的输入界面编辑框中输入了如下商铺标签:“豪华版三厢中级车宝马大众中型车迈腾飞度两厢紧凑型摩托车”。客户端接收到所述商铺标签后,将其发送给预定的服务器进行语义关系分析处理。
具体的,请参阅图3,服务器在对该数据对象标签进行语义分析处理后,可以将所述商铺标签划分成:豪华版,三厢,中级车,大众,迈腾,飞度,两厢,紧凑型,摩托车,两轮10个词语。然后可以根据类别与预设词语集的对应关系确定所述10个词语中的类别描述词A为中级车,类别描述词B为摩托车。
进一步的,可以分析所述划分出的多个词语与所述类别描述词中的每一个词语的语义关系,以从所述类别描述词中确定出核心描述词。其中,每个词语与类别描述词之间的语义关系如图3所示为:(豪华版,中级车,修饰)(三厢,中级车,修饰)(大众,中级车,修饰)(迈腾,中级车,修饰)(大众,迈腾,父子)(迈腾,飞度,并列)(两厢,飞度,修饰)(紧凑型,两厢,修饰)(两轮,摩托车,修饰)(摩托车,中级车,并列)。其中,括号内的第一个域属于从属地位的用于修饰类别描述词的词语,第二个域属于支配地位的被修饰的类别描述词,第三个域表示关系的类型。
当数据对象标签中具有一个类别描述词时,该类别描述词即为该数据对象标签的核心描述词。当数据对象标签中包括多个类别描述词时,需要识别类别描述词之间的关系,从而从多个类别描述词中选择一个作为核心描述词。
具体的,当上述例子中类别描述词包括:类别描述词A:中级车,类别描述词B:摩托车。经过识别非类别描述词与类别描述词之间的关系以及类别描述词之间的关系可以确定,非类别描述词中大部分都用于修饰的类别描述词A:中级车。可见,该数据对象标签的核心描述词为中级车。此外,也可以结合其他辅助参考信息,从所述类别描述词中确定出核心描述词。
进一步的,可以根据各个词语与核心描述词间的语义关系,确定出虚假描述词,进而可以将虚假描述词去除,以获得过滤后的数据对象标签发送给相应的用户。具体的,首先可以将与所述核心描述词中级车相并列的类别描述词摩托车以及用于修饰所述摩托车的两轮作为虚假描述词去除。然后,可以将不能用于修饰核心描述词的类别描述词以及修饰该类别描述的词语作为虚假描述词进行删除。例如,可以将:不能用于修饰中级车的飞度以及用于修饰飞度的两厢、紧凑型作为虚假描述词去除。如图4所示,虚假描述词去除后的数据对象标签可为:“豪华版三厢中级车大众迈腾”。
在一个实施方式中,在所述步骤S10中,还可以包括将数据对象标签中的文字按照顺序形成临时词组与预设词语集进行匹配,确定临时词组是否形成词语。
在本实施方式中,预设词语集可以用于判断临时词组是否形成词语。所述预设词语集具体可以包括:针对现有网络中销售的产品的数据对象标签进行归纳整理,得出的词语集合;还可以包括归纳整理的词语的近义词;还可以包括社会上最新产生的词汇;还可以包括词典中的词汇。
在本实施方式中,所述步骤S10可以包括在数据对象标签中取相邻的字组成临时词组,并通过将临时词组与预设词语集匹配,判断临时词组是否为一个词语。临时词组中的字的数量可以递次增加,并顺序在数据对象标签中取字。最初可以以数据对象标签的第一个字开始取字判断是否为词语,在判断发现第一个字和第二个字组成了一个词语之后,便从第三个字开始递次顺序取字形成临时词组进行判断。若一个字与其他字形成的临时词组均不是词语,则可以表示该字是单独一个字作为一个词语使用。经过上述方法便可以将数据对象标签划分成不同的词语。
在本实施方式中,在将所述临时词组与预设词语集进行匹配的过程中,可以将最长匹配的临时词组划分为一个词语。具体的,例如在预设词语集中分别包括有“运动”、“裤”、“运动裤”三个词语,当数据对象标签中包含有“运动裤”这三个字时,则可以将最长匹配的“运动裤”这一临时词组划分为一个词语,以充分表达出数据对象标签中所需表达的数据对象信息。
在本实施方式中,预设词语集中对应词语记录有类别。所述预设词语集中的每个词语可以对应存储有类别信息。具体的,所述类别可以包括品牌、材质、颜色、适用季节、适用人群、产品风格和类别描述词等。当临时词组与所述预设词语集完成匹配,确认为词语时,进一步的,可以与所述预设词语集中的类别进行匹配,以将所述词语进行分类。
在一个实施方式中,在所述步骤S10中,可以包括将数据对象标签中的预设字符作为划界标识,根据所述划界标识将位于其前后的所述数据对象标签中的文字划分为词语。
在本实施方式中,所述预设字符可以包括以特定字、词或标点符号等为界划分词语。具体的,所述预设字符可为“的”、“,”、“-”以及空格等。例如将“的”作为划界标识划分词语,如此“时尚的女式的西服”中,便可以划分为“时尚”、“女式”、“西服”三个词。
在本实施方式中,在所述步骤S10中,可以包括将划分的词语与预设词语集进行匹配确定词语的类别;其中,所述预设词语集中可以包括对应记录的词语和类别。具体的,所述词语类别可以包括品牌、材质、颜色、适用季节、适用人群、产品风格和类别描述词等,针对每个类别可以预先设置有词语集,将划分的词语与词语集进行匹配,从而得出每个词语属于的类别。此外,还可以仅仅从匹配的词语中划分出类别描述词,而不对其他的词语进行划分类别。具体的,预设词语集对应记录词语和类别的方式可以采用数据表。其中,数据表中的一列数据为词语,另一列数据为类别,在一行数据中的词语和类别相对应。当然,也可以采用面向对象的结构设计,词语可以作为一个对象,类别可以作为该对象的一个属性。
在一个实施方式中,在所述步骤S12中,可以包括将划分出的多个词语和属于类别描述词的词语在预设语义关系集中匹配得出划分出的多个词语与属于类别描述词的词语之间的语义关系;其中所述预设语义关系集包括对应记录的词语和类别描述词,以及二者之间的语义关系。
在本实施方式中,预设语义关系集中可以对应记录有词语以及词语之间的语义关系。具体的,预设语义关系集中可以包括品牌和品牌具有的货号,即品牌和货号的父子关系;品牌与品牌之间的关系,例如关系可以是父品牌和子品牌的父子关系,也可以是并列关系;类别描述词与类别描述词之间的关系,例如关系可以是并列关系、上位与下位关系、同义关系等。
在本实施方式中,在划分出词语并确定了类别描述词后,可以将所述划分出的词语与确定的每一个类别描述词在预设语义关系集中进行匹配。当划分出的词语中得出一个类别描述词时,所述划分出的其他词语为非类别描述词(以下简称属性词),此时可以将所述属性词与类别描述词在预设语义关系集中进行匹配,确定每个属性词与类别描述词之间的语义关系。当划分出的词语中得出多个类别描述词时,可以先将所述多个类别描述词在预设语义关系集中进行匹配,确定每两个类别描述词之间的语义关系,然后再确定类别描述词与属性词之间的语义关系。
在一个具体的实施方式中,预设语义关系集对应记录词语以及词语之间的语义关系的方式可以采用数据表。具体的,例如在数据表中的一列记录被支配词,另一列记录支配词,第三列记录词语之间的语义关系。即在一行数据中,便可以认为是对应的被支配词、支配词和语义关系。当然,也可以采用面相对象的结构设计,将支配词作为数据对象,将被支配词和语义关系作为数据对象的属性。
在本实施方式中,在预设语义关系集中匹配词语与类别描述词的语义关系,可以包括在预设语义关系集中对应查找同时具有该词语和类别描述词的数据记录,获取对应的语义关系。具体的,例如,在数据表中查找被支配词为该词语且支配词为该类别描述词的数据行,进而获取对应的语义关系。或者,在预设语义关系集中查找内容该类别描述词相同的数据对象,进而获取对应词语的语义关系。
请参阅图5。在一个实施方式中,所述数据对象标签处理方法还可以包括如下步骤。
步骤S16:在预定数据源中获取预定信息;所述预定数据源具有目标身份信息。
步骤S18:将所述预定信息与所述目标身份信息作为词语对应记录在所述预设语义关系集中;其中,所述预定信息与所述目标身份信息的语义关系可以为父子关系。
在本实施方式中,所述目标身份信息包括品牌;所述预定信息包括品牌、型号和货号中的至少一个。所述目标身份信息中的品牌可以与所述预定信息中的品牌、型号、货号为父子关系。
在本实施方式中,预定数据源可以包括针对目标身份信息进行介绍的网页;提供目标身份信息对应数据对象信息的网页。通过在预定数据源具有目标身份信息,实现有针对性的获取数据,使得获取的预定信息与目标身份信息可能存在一定的关系。由于针对目标身份信息获取预定信息,使得预定信息与目标身份信息之间,存在一定的依附关系,在本实施方式中称之为父子关系。
在本实施方式中,在预定数据源中获取预定信息的方式可以包括:获取网页中预定字段的信息,例如公司介绍、产品信息等;从预定数据表的文本数据中识别出预定信息,可以采用序列标注模型,例如隐马尔科夫模型(HMM)或者条件随机场模型(CRF)识别出文本数据中的预定信息。
在本实施方式中,所述目标身份信息和所述预定信息均可以为品牌;所述数据对象标签处理方法还可以包括:在所述预定信息中去除所述目标身份信息。
在本实施方式中,所述目标身份信息为所述预订信息的父品牌,所述预订信息为所述目标身份信息的子品牌。具体的,举例为:所述目标身份信息中的品牌可以为阿迪达斯,所述预定信息中的品牌可以为三叶草。由于所述预定信息、目标身份信息都可以通过所述预定数据源获取,在所述预定信息中可能存在目标身份信息本身。在所述预定信息中去除所述目标身份信息,可以使得预设语义关系集中的语义关系更加准确,防止出现预定信息中的品牌与目标身份信息中的品牌出现并列关系的情况。
在本实施方式中,所述预定数据源可以包括所述目标身份信息表示的品牌对应的网站;搜索引擎网站中关于目标身份信息的介绍网页;电商平台附带目标身份信息的搜索请求的搜索结果。
在本实施方式中,目标身份信息表示的品牌对应的网站可以包括各种品牌的官方旗舰店、官方网站等。可以提取官方网站或旗舰店的数据对象列表和公司介绍,从中抽取出数据对象对应的品牌标签,去除父品牌,余下的品牌则认为是该父品牌的子品牌。
在本实施方式中,通过所述搜索引擎网站中关于目标身份信息的介绍网页查询父品牌对应的子品牌时,所述介绍网页可以包括百科类知识。具体的,举例为,所述网站为搜索引擎网站中关于目标身份信息的介绍网页时,可以根据特定的查询,例如“XX品牌旗下品牌”获得搜索引擎返回的百科类知识,所述百科类知识可以包括:百度百科、互动百科、维基百科等;然后可以通过抽取百科的摘要、旗下品牌、品牌发展等文本片段,从这些片段中抽取有较大概率成为候选子品牌的词,作为该父属性的候选子属性。
在本实施方式中,通过所述电商平台附带目标身份信息的搜索请求的搜索结果查询父品牌对应的子品牌时,可以根据特定的查询,提取问答内容,所述特定的查询可以为一个具体的问题,例如淘宝品牌下的子品牌有哪些,然后抽取电商平台上的较佳答案中的文本内容,从这些文本内容中抽取有较大概率成为候选子品牌的词,作为该父属性的候选子属性。
在本实施方式中,可以把以上所述网站、介绍网页、电商平台三种途径获得的结果合并,并出去重复的部分作为预定信息。
在本实施方式中,所述数据对象标签处理方法还可以包括:将所述预定信息与预设信息集进行匹配,删除所述预定信息中未能与所述预设信息集匹配的信息。
在本实施方式中,所述预设信息集可以为已知的品牌表,在该预设信息集中可以不包括有品牌之间的关系。在前文介绍从预定数据源获取的所述预定信息,可以为一个数据的候选集合,其中可能存在一些数据不是品牌的词语。将预订信息与预设信息集进行匹配,使得发现预订信息中的非品牌词语,进而可以去除该些词语,使得预定信息更加准确。再者,通过预定信息与品牌之间的关系,实现可以确定预设信息集中品牌之间的关系,从而可以用于形成预设语义关系集的部分数据源。
在一个具体的实施方式中,将所述预定信息与所述预设信息集进行匹配的过程具体可举例为:针对预定信息中的品牌,在预设信息中查找是否具有相同的品牌,如果存在,则表明该品牌是对应父品牌的子品牌,若不存在,表明该品牌不是对应父品牌的子品牌,将其从所述预定信息中删除。
在一个实施方式中,在所述步骤S12中,在划分出的多个词语中的多数词语与一个类别描述词之间的关系为预定关系时,可以确定该类别描述词为核心描述词。
在本实施方式中,预定关系可以为修饰关系。即划分出的词语中多数词语均用于修饰一个类别描述词,此时该类别描述词可以作为核心描述词。在本实施方式中,作为核心描述词的类别描述词可以相对较为准确的表示数据对象标签介绍的数据对象,可以将核心描述词作为基准,判断其他词语是否存在作弊。此外,当划分出的词语中存在相同的概率修饰不同的类别描述词时,此时可以根据数据对象标签中的数据对象简介或数据对象详细介绍等信息进一步确定所述类别描述词中的一个为核心描述词。
在一个具体的实施方式中,数据对象标签为“春秋薄款耐克阿迪达斯三叶草纯棉加绒运动裤男款李宁卫裤休闲长裤冲锋衣货号51800”,可以分析得出“春秋”、“薄款”、“耐克”、“阿迪达斯”、“三叶草”、“加绒”、“男款”、“李宁”和“休闲”等,均可以修饰“运动裤”、“卫裤”、“长裤”和“冲锋衣”,此外“纯棉”还可以修饰“运动裤”、“卫裤”和“长裤”。再者,“货号51800”隶属于品牌“三叶草”,其标记的产品本身属于运动裤,使得“货号51800”与“运动裤”之间存在修饰关系。在类别描述词之间,“长裤”和“卫裤”都可以修饰“运动裤”,即“长裤”是非常宽泛的类别描述词,而“卫裤”是一款特殊的“运动裤”,而“冲锋衣”与其它类别描述词之间均为并列关系。由此可见,划分出的词语中,多数可以修饰“运动裤”,使得可以将“运动裤”作为核心描述词。
在一个实施方式中,在所述步骤S14中,所述类别描述词中与所述核心描述词之间的语义关系为并列关系的词语为虚假描述词。
在本实施方式中,类别描述词与核心描述词之间的关系为并列关系,可以表示该类别描述词与核心描述词所表示的数据对象不同。由于数据对象标签通常用于表示一个数据对象,而类别描述词与核心描述词表示的数据对象不同,便可以得出当前的数据对象标签表示了多个数据对象,可能存在作弊现象。由于核心描述词被认定为能够准确表示数据对象标签表示的数据对象,使得该类别描述词与核心描述词之间为并列关系时,认为该类别描述词是虚假描述词。具体的,举例为:当核心描述词为“运动裤”时,此时与其为并列关系的“冲锋衣”则为虚假描述词。
在一个实施方式中,在所述步骤S14中,所述类别描述词中与所述核心描述词之间的语义关系不是预设语义关系的词语为虚假描述词。
在本实施方式中,通过预设语义关系可以预定在数据对象标签中的类别描述词之间可以共存的语义关系,在类别描述词与核心描述词之间的语义关系不是预定语义关系时,便可以认为该类别描述词为虚假描述词。
在本实施方式中,预设语义关系可以包括同义关系、父子关系、交叉关系等。具体的,举例为:当核心描述词为“运动裤”时,非核心描述词的类别描述词包括:“卫裤”、“长裤”、“冲锋衣”,其中所述类别描述词“卫裤”与“运动裤”的关系为父子关系、即“卫裤”是一款特殊的“运动裤”,“长裤”与“运动裤”的关系为交叉关系,即“运动裤”可以是“长裤”,也可以不是“长裤”,比如运动短裤;所述类别描述词“卫裤”、“长裤”为非虚假描述词。所述类别描述词“冲锋衣”与所述核心描述词为“运动裤”为并列关系,其不是预设语义关系,所述“冲锋衣”为虚假描述词。而除此之外,当还有其他类别描述词与所述核心描述词之间存在预设语义关系中不存在的语义关系时,则可以将其定义为虚假描述词。
在一个实施方式中,在所述步骤S14中,所述多个词语中非类别描述词的词语与所述核心描述词的语义关系不是修饰关系,该词语为虚假描述词。
在本实施方式中,类别描述词可以用于表示产品类别,或者为一类产品的名称,或者为一系列产品的统称。为了宣传目的,数据对象标签中通常会包括类别描述词,以明确该数据对象的具体的内容。作为核心描述词的类别描述词可以相对较为准确的表示数据对象标签介绍的数据对象。可以将核心描述词作为基准,判断其他词语是否存在作弊。也就是说所述核心描述词通常为数据对象标签的核心,数据对象标签的其他词通常是用于修饰核心描述词的,特别是非类别描述词与核心描述词之间通常为修饰关系,若数据对象标签中划分出的非类别描述词与核心描述词的语义关系为非修饰关系时,此时可以将该词语作为虚假描述词,删除处理。
在一个实施方式中,本申请文件中提及的预设词语集、预设语义关系集和预设信息集可以出自于一个数据集合。出于不同用途目的从该数据集合中调取相应数据进而形成上述的预设词语集、预设语义关系集和预设信息集。即,该数据集合可以为数据相对全面完整的数据库。
在一个实施方式中,在所述步骤S14中还可以包括:删除所述多个词语中的所述虚假描述词。
在本实施方式中,可以通过将数据对象标签中的虚假描述词删除,实现通过系统维度对数据对象标签中的虚假描述词的去除。避免了大量的人工筛选操作,实现了系统自动的对数据对象标签的筛选。
再者,能够使得电商平台中的数据对象标签能够更加准确的表示其对应的数据对象,一定程度上避免了数据对象标签给进行网络购物的消费者带来的误导。此外,由于数据对象标签可以更加准确的表示数据对象,使得消费者可以更加快捷的找到需要购买的数据对象,减少了消费者的时间浪费,提升了消费者的购物体验。
基于上述实施方式所述的数据对象标签处理方法,本申请还提供一种服务器。
请参阅图6,本申请实施方式提供一种服务器100可以包括:类别描述词确定模块10、核心描述词确定模块12、虚假描述词确定模块14。
所述类别描述词确定模块10可以用于将数据对象标签划分出多个词语,得出所述数据对象标签中属于类别描述词的词语。
所述核心描述词确定模块12可以用于分析所述划分出的多个词语与所述类别描述词的语义关系,从所述类别描述词中确定出核心描述词。
所述虚假描述词确定模块14可以用于根据所述多个词语与所述核心描述词的语义关系,确定所述多个词语中的虚假描述词。
在一个实施方式中,所述服务器100还可以包括:虚假描述词删除模块,用于删除所述多个词语中的所述虚假描述词。
在一个实施方式中,所述核心描述词确定模块12分析所述划分出的多个词语与所述类别描述词的语义关系具体可以通过:将所述划分出的多个词语和属于所述类别描述词的词语在预设语义关系集中匹配得出所述划分出的多个词语分别与属于所述类别描述词的词语之间的语义关系;其中所述预设语义关系集包括对应记录的词语和类别描述词,以及二者之间的语义关系。
在一个实施方式中:所述核心描述词确定模块12还可以用于:在预定数据源中获取预定信息;所述预定数据源具有目标身份信息;将所述预定信息与所述目标身份信息作为词语对应记录在所述预设语义关系集中;其中,所述预定信息与所述目标身份信息的语义关系为父子关系。
上述实施方式公开的服务器与本申请提供的数据对象标签处理方法实施方式相对应,可以实现本申请的数据对象标签处理方法实施方式并达到方法实施方式的技术效果。
请参阅图7和图8,本申请一个实施方式中提供了一种数据对象标签的显示方法。该数据对象标签的显示方法可以包括如下步骤。
步骤S11:接收用户输入的目标数据对象的第一数据对象标签;其中,所述第一数据对象标签中包括多个词语。
在本实施方式中,客户端可以接收用户输入的目标数据对象的第一数据对象标签。具体的,所述客户端可以为可移动设备。例如,可以是智能携带终端、平板设备、车载设备、智能可穿戴设备等。所述用户客户端100还可以是桌面设备,诸如,桌面个人计算机(PC机)、一体机、智能自助终端(kiosk)等。
在本实施方式中,所述用户可以为在电商平台中的销售方,对于销售方而言,在发布店铺的数据对象前,其需要对其出售的数据对象进行相应的编辑,例如设置数据对象的标题,上传数据对象的图片,对数据对象的尺码、颜色进行设定,以及对数据对象进行详情介绍等。
其中,所述目标数据对象可以为用户待发布的数据对象,所述第一数据对象标签可以包括数据对象的标题、数据对象简介或数据对象详细介绍中一个或多个。第一数据对象标签中可以包括数据对象的多个属性,具体的例如第一数据对象标签中可以包括数据对象的品牌、材质、适用季节、适用人群和产品风格等,当然数据对象标签的内容包括但不限于上述举例。
在本实施方式中,一般的,用于为了使得目标数据对象尽可能快尽可能多地被搜索到,所述第一数据对象标签中一般包括多个词语。例如,用户需要发布一款新的运动裤,其可能设置的第一数据对象标签为:“春秋薄款耐克阿迪达斯三叶草纯棉加绒运动裤男款李宁卫裤休闲长裤”。
步骤S13:将所述第一数据对象标签发送给服务器。
在本实施方式中,所述用户可以通过客户端将所述第一数据对象标签发送给与的服务器。具体的,所述服务器可以提供一个网络地址,客户端将所述第一数据对象标签发送至该网络地址。其中,所述服务器对所述第一数据对象标签进行处理,确定虚假描述词的过程可以参照上述实施方式提供的方法中,有关服务器实施方式中的具体描述,本申请在此不再赘述。
步骤S15:接收所述服务器反馈的数据对象标签检验信息;其中,所述数据对象标签检验信息指示所述第一数据对象标签中的虚假描述词。
在本实施方式中,当所述服务器将所述第一数据对象标签中的虚假描述词确定出来后,可以将结果返回所述客户端。
所述客户端接收所述服务器反馈的数据对象标签检验信息,可以根据数据对象标签检验信息明确数据对象标签中的虚假描述词。具体的,所述数据对象标签检验信息可以为第一数据对象标签中的虚假描述词,将所述第一数据对象标签中的虚假描述词全部删除后的词语,与所述第一数据对象标签中的词语对应的词语标识,或者也可以为将虚假描述词进行标识后的信息。具体的,当所述检验信息为虚假描述词的词语标识,其可以为具体的数字,第一数据对象标签中的词有着原本的排列顺序,顺序本身可以作为词语标识。如此,通过指示具体的词语标识,可以明确第一数据对象标签中的虚假描述词。当所述检验信息为将虚假描述词进行标识后的信息时,所述标识可以为将虚假描述词进行突出显示,例如,加粗、加下划线、加删除线、倾斜、改变字体大小、颜色等等中的一种或多种组合,本申请在此并不作具体的限定。当所述检验信息为所述虚假描述词本身时,客户端在接收到该信息后,需要基于所述数据对象标签的检验信息,对所述第一数据对象标签进行处理,以将所述第一数据对象标签中的虚假描述词进行删除或进行标识。
步骤S17:显示所述目标数据对象的第二数据对象标签;其中,所述第二数据对象标签至少包括所述第一标签除所述虚假描述词之外的词语。
在本实施方式中,所述客户端可以显示第二数据对象标签。具体的,所述第二数据对象标签可以包括虚假描述词也可以不包括虚假描述词。在一个实施方式中,所述第二数据对象标签可以为将所述第一数据对象标签中的虚假描述词剔除后的内容;或者,可以为所述第一数据对象标签中的虚假描述词设置预定标识。当所述第二数据对象标签包括所述虚假描述词时,所述虚假描述词设置有预定标识。所述预定标识可以由所述服务器或客户端设定。例如,当所述预定标识为所述服务器设定时,所述检验信息可以为将虚假描述词进行标识后的信息。当所述预定标识为所述客户端设定时,所述检验信息可以为虚假描述词本身。具体的,例如第二数据对象标签包括第一数据对象标签中的全部词语,并针对虚假描述词进行了提示。所述提示包括但不限于:设置特殊背景颜色、与其他词语区别字体、设置字体加粗、斜体、与其他词不同的颜色等。
在本实施方式中,为了防止销售方利用数据对象标签关键词不合理堆积以提高数据对象销售量的行为,可以只显示不包含虚假描述词的数据对象标签。此外,也可以在搜索环节将所述带有虚假描述词的数据对象标签进行屏蔽。具体的,当用户输入某个关键词,而此关键词为某个销售方某个数据对象的数据对象标签中的虚假描述词时,该数据对象标签对应的数据对象无法进入搜索界面的数据对象列表中,从而可以有效避免用户采用上述关键词堆积的方式,进而可以使得电商平台中的数据对象标签能够更加准确的表示其对应的数据对象,一定程度上避免了数据对象标签给进行网络购物的消费者带来的误导。此外,由于数据对象标签可以更加准确的表示数据对象,使得消费者可以更加快捷的找到需要购买的数据对象,减少了消费者的时间浪费,提升了消费者的购物体验。
在一个实施方式中,所述数据对象标签检验信息可以包括下述中的任意一种:第一数据对象标签中的虚假描述词、将所述第一数据对象标签中的虚假描述词剔除后的词语、与所述第一数据对象标签中的词语对应的词语标识,或将所述第一数据对象标签中的虚假描述词设置预定标识。
在本实施方式中,所述客户端接收所述服务器反馈的数据对象标签检验信息,可以根据数据对象标签检验信息明确数据对象标签中的虚假描述词。
具体的,所述服务器在判断出所述第一数据对象标签中的虚假描述词后,可以将所述虚假描述词删除。相应的,其向所述客户端发送的检验信息中不包含所述第一数据对象标签中的虚假描述词的信息。
在本实施方式中,所述服务器在判断出所述第一数据对象标签中的虚假描述词后,还可以将所述虚假描述词进行标识。相应的,所述检验信息为将虚假描述词进行标识后的信息。具体的,所述标识可以为将虚假描述词进行突出显示,例如,加粗、加下划线、加删除线、倾斜、改变字体大小、颜色等等中的一种或多种组合,本申请在此并不作具体的限定。当所述做彼此具有预定标识后,可以屏蔽其作为数据对象标签关键词的作用,也就是说,该带有预定标识的虚假描述词不能起到关键词能被搜索的功能。
此外,所述检验信息也可以为虚假描述词本身、也可以能指示数据对象标签中第几个词为虚假描述词的词语标识。当所述检验信息为所述虚假描述词本身或者能指示数据对象标签中第几个词为虚假描述词的词语标识时,客户端在接收到该信息后,需要基于所述数据对象标签的检验信息,对所述第一数据对象标签进行处理,以将所述第一数据对象标签中的虚假描述词进行删除或进行标识。
基于上述实施方式所述的数据对象标签的显示方法,本申请还提供一种客户端。
请参阅图9,本申请实施方式中提供的客户端可以包括:通信模块11、显示器13、输入装置15和处理器17。
所述通信模块11耦合于所述处理器,用于进行网络数据通信。
在本实施方式中,通信模块11耦合于所述处理器17,可以包括以下方式。通信模块11和处理器17分别为单独的电路模块。二者通过电路电性连接,并可以进行数据传输。还可以为通信模块11和处理器17为采用集成电路中共同设计集成在一起。
在本实施方式中,所述通信模块11能进行网络通信收发数据。通信模块11可以是依照TCP/IP协议设置,并在该协议框架下进行网络通信。具体的,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
所述显示器13用于为用户提供显示界面。
在本实施方式中,显示器13具有显示屏幕、相应的显示驱动芯片以及背光模组等。显示器13接收处理器17提供的数据并进行图像化显示。显示器13可以为具有独立外壳的独立设备,也可以为集成在客户端内部,与客户端具有共同的外壳。显示器13还可以为触摸感应式显示器,即显示器13集成了所述输入装置15。当然,所述显示器13也可以为非触摸感应式显示器。
所述输入装置15可以为与所述客户端连接的输入外设,还可以为设置在所述客户端上的键盘。若所述显示器为触摸感应式显示器,所述输入设备15为集成在所述显示器13中。或者,所述输入设备15可以为触摸感应式显示器提供的虚拟键盘。
所述处理器17用于通过所述输入装置15接收用户输入的目标数据对象的第一数据对象标签;其中,所述第一数据对象标签中包括多个词语;通过所述通信模块11将所述第一数据对象标签发送给服务器,并接收所述服务器反馈的数据对象标签检验信息;其中,所述数据对象标签检验信息指示所述第一数据对象标签中的虚假描述词;控制所述显示器13显示所述目标数据对象的第二数据对象标签;其中,所述第二数据对象标签至少包括所述第一数据对象标签除所述虚假描述词之外的词语。
在本实施方式中,处理器17可以为大规模集成电路。处理器17具有逻辑运算的处理能力。
在一个实施方式中,所述数据对象标签检验信息可以包括下述中的任意一种:第一数据对象标签中的虚假描述词、将所述第一数据对象标签中的虚假描述词剔除后的词语、与所述第一数据对象标签中的词语对应的词语标识,或将所述第一数据对象标签中的虚假描述词设置预定标识。
在一个实施方式中,所述第二数据对象标签包括下述中的任意一种:将所述第一数据对象标签中的虚假描述词剔除后的内容;将所述第一数据对象标签中的虚假描述词设置预定标识。
上述实施方式公开的客户端中,处理器17所执行的具体功能可以与本申请数据对象标签的显示方法以及数据对象标签的处理方法等实施方式相对照解释,可以实现本申请的数据对象标签的显示方法实施方式并达到方法实施方式的技术效果。
本说明书中的上述各个实施方式均采用递进的方式描述,各个实施方式之间相同相似部分相互参照即可。每个实施方式重点说明的都是与其他实施方式不同之处。尤其对于服务器以及客户端实施方式而言,由于其基本相似于方法实施实施方式,所以描述的比较简单,相关之处参见方法实施方式部分说明即可。此外,在本申请文件中,介绍了本申请的多个实施方式,所属领域技术人员可以理解得出,本申请中的实施方式之间可以互相组合。而且,所属领域技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (29)

1.一种数据对象标签处理方法,其特征在于,其包括:
将数据对象标签划分多个词语,得出所述数据对象标签中属于类别描述词的词语;
分析所述划分出的多个词语与所述类别描述词的语义关系,从所述类别描述词中确定出核心描述词;
根据所述多个词语与所述核心描述词的语义关系,确定所述多个词语中的虚假描述词。
2.如权利要求1所述的方法,其特征在于,在将数据对象标签划分多个词语的步骤中包括将所述数据对象标签中的文字按照顺序形成临时词组与预设词语集进行匹配,确定所述临时词组是否形成词语。
3.如权利要求2所述的方法,其特征在于,在将所述临时词组与预设词语集进行匹配的过程中,将最长匹配的临时词组划分为一个词语。
4.如权利要求2所述的方法,其特征在于,在所述预设词语集中对应词语记录有类别。
5.如权利要求1所述的方法,其特征在于,在将数据对象标签划分多个词语的步骤中,将所述数据对象标签中的预设字符作为划界标识,根据所述划界标识将位于其前后的所述数据对象标签中的文字划分为词语。
6.如权利要求5所述的方法,其特征在于,在将数据对象标签划分多个词语的步骤中包括将划分的所述词语与预设词语集进行匹配确定所述词语的类别;其中,所述预设词语集中包括对应记录的词语和类别。
7.如权利要求1所述的方法,其特征在于,在分析语义关系以选择核心描述词的步骤中包括将所述划分出的多个词语和属于所述类别描述词的词语在预设语义关系集中匹配得出所述划分出的多个词语分别与属于所述类别描述词的词语之间的语义关系;其中所述预设语义关系集包括对应记录的词语和类别描述词,以及二者之间的语义关系。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
在预定数据源中获取预定信息;所述预定数据源具有目标身份信息;
将所述预定信息与所述目标身份信息作为词语对应记录在所述预设语义关系集中;其中,所述预定信息与所述目标身份信息的语义关系为父子关系。
9.如权利要求8所述的方法,其特征在于,所述目标身份信息包括品牌;所述预定信息包括品牌、型号和货号中的至少一个。
10.如权利要求9所述的方法,其特征在于,所述目标身份信息和所述预定信息均为品牌;所述数据对象标签处理方法还包括:在所述预定信息中去除所述目标身份信息。
11.如权利要求8所述的方法,其特征在于,所述预定数据源包括所述目标身份信息表示的品牌对应的网站;搜索引擎网站中关于所述目标身份信息表示的品牌的介绍网页;电商平台附带所述目标身份信息的搜索请求的搜索结果。
12.如权利要求8所述的方法,其特征在于,所述方法还包括:将所述预定信息与预设信息集进行匹配,删除所述预定信息中未能与所述预设信息集匹配的信息。
13.如权利要求1所述的方法,其特征在于,在分析语义关系以选择核心描述词的步骤中,分析的方式包括:能够进行语义依存关系分析的概念依存理论、格语法、概念从属理论和语义场理论中的至少一个。
14.如权利要求1所述的方法,其特征在于,在分析语义关系以选择核心描述词的步骤中包括:在划分出的多个词语中的多数词语与一个类别描述词之间的关系为预定关系时,确定该类别描述词为核心描述词。
15.如权利要求1所述的方法,其特征在于,在确定虚假描述词的步骤中包括:所述类别描述词中与所述核心描述词之间的语义关系为并列关系的词语为虚假描述词。
16.如权利要求1所述的方法,其特征在于,在确定虚假描述词的步骤中包括:所述类别描述词中与所述核心描述词之间的语义关系不是预设语义关系的词语为虚假描述词。
17.如权利要求1所述的方法,其特征在于,所述多个词语中非类别描述词的词语与所述核心描述词的语义关系不是修饰关系,该词语为虚假描述词。
18.如权利要求1所述的方法,其特征在于,所述方法还包括:删除所述多个词语中的所述虚假描述词。
19.一种服务器,其特征在于,该服务器包括:
类别描述词确定模块,用于将数据对象标签划分多个词语,确定所述多个词语所属的类别,得出所述数据对象标签中属于类别描述词的词语;
核心描述词确定模块,用于分析所述划分出的多个词语与所述类别描述词的语义关系,从所述类别描述词中确定出核心描述词;
虚假描述词确定模块,用于根据所述多个词语与所述核心描述词的语义关系,确定所述多个词语中的虚假描述词。
20.如权利要求19所述的服务器,其特征在于,还包括虚假描述词删除模块,用于删除所述多个词语中的所述虚假描述词。
21.如权利要求19所述的服务器,其特征在于:所述核心描述词确定模块分析所述划分出的多个词语与所述类别描述词的语义关系通过:将所述划分出的多个词语和属于所述类别描述词的词语在预设语义关系集中匹配得出所述划分出的多个词语分别与属于所述类别描述词的词语之间的语义关系;其中所述预设语义关系集包括对应记录的词语和类别描述词,以及二者之间的语义关系。
22.如权利要求21所述的服务器,其特征在于:所述核心描述词确定模块还用于:在预定数据源中获取预定信息;所述预定数据源具有目标身份信息;
将所述预定信息与所述目标身份信息作为词语对应记录在所述预设语义关系集中;其中,所述预定信息与所述目标身份信息的语义关系为父子关系。
23.一种数据对象标签的显示方法,其特征在于,包括:
接收用户输入的目标数据对象的第一数据对象标签;其中,所述第一数据对象标签中包括多个词语;
将所述第一数据对象标签发送给服务器;
接收所述服务器反馈的数据对象标签检验信息;其中,所述数据对象标签检验信息指示所述第一数据对象标签中的虚假描述词;
显示所述目标数据对象的第二数据对象标签;其中,所述第二数据对象标签至少包括所述第一数据对象标签除所述虚假描述词之外的词语。
24.如权利要求23所述的方法,其特征在于,所述第一数据对象标签包括:
数据对象的标题、数据对象简介或数据对象详情中一个或多个。
25.如权利要求23所述的方法,其特征在于,所述数据对象标签检验信息包括下述中的任意一种:第一数据对象标签中的虚假描述词、将所述第一数据对象标签中的虚假描述词剔除后的词语、与所述第一数据对象标签中的词语对应的词语标识,或将所述第一数据对象标签中的虚假描述词设置预定标识。
26.如权利要求23所述的方法,其特征在于,所述第二数据对象标签包括下述中的任意一种:
将所述第一数据对象标签中的虚假描述词剔除后的内容;或者,将所述第一数据对象标签中的虚假描述词设置预定标识。
27.一种客户端,其特征在于,包括:输入装置、通信模块、显示器和处理器,
所述通信模块,耦合于所述处理器,用于进行网络数据通信;
所述输入装置,用于接收用户的输入;
所述显示器,用于为用户提供显示界面;
所述处理器,用于通过所述输入装置接收用户输入的目标数据对象的第一数据对象标签;其中,所述第一数据对象标签中包括多个词语;通过所述通信模块将所述第一数据对象标签发送给服务器,并接收所述服务器反馈的数据对象标签检验信息;其中,所述数据对象标签检验信息指示所述第一数据对象标签中的虚假描述词;控制所述显示器显示所述目标数据对象的第二数据对象标签;其中,所述第二数据对象标签至少包括所述第一数据对象标签除所述虚假描述词之外的词语。
28.如权利要求27所述的客户端,其特征在于,所述数据对象标签检验信息包括下述中的任意一种:第一数据对象标签中的虚假描述词、将所述第一数据对象标签中的虚假描述词剔除后的词语、与所述第一数据对象标签中的词语对应的词语标识,或将所述第一数据对象标签中的虚假描述词设置预定标识。
29.如权利要求27所述的客户端,其特征在于,所述第二数据对象标签包括下述中的任意一种:
将所述第一数据对象标签中的虚假描述词剔除后的数据对象标签;将所述第一数据对象标签中的虚假描述词设置预定标识。
CN201610697766.9A 2015-08-20 2016-08-19 数据对象标签处理、显示方法及服务器和客户端 Active CN106469184B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2015105153347 2015-08-20
CN201510515334 2015-08-20

Publications (2)

Publication Number Publication Date
CN106469184A true CN106469184A (zh) 2017-03-01
CN106469184B CN106469184B (zh) 2019-12-27

Family

ID=58230560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610697766.9A Active CN106469184B (zh) 2015-08-20 2016-08-19 数据对象标签处理、显示方法及服务器和客户端

Country Status (1)

Country Link
CN (1) CN106469184B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020073524A1 (zh) * 2018-10-10 2020-04-16 深圳云天励飞技术有限公司 一种线下商品推荐方法、装置和电子设备
CN111353292A (zh) * 2020-02-26 2020-06-30 支付宝(杭州)信息技术有限公司 针对用户操作指令的解析方法及装置
CN112579747A (zh) * 2019-09-29 2021-03-30 北京国双科技有限公司 一种身份信息提取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262765A (zh) * 2010-05-27 2011-11-30 阿里巴巴集团控股有限公司 一种发布商品信息的方法及装置
CN103870446A (zh) * 2012-12-18 2014-06-18 阿里巴巴集团控股有限公司 一种描述词筛选方法及装置
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262765A (zh) * 2010-05-27 2011-11-30 阿里巴巴集团控股有限公司 一种发布商品信息的方法及装置
CN103870446A (zh) * 2012-12-18 2014-06-18 阿里巴巴集团控股有限公司 一种描述词筛选方法及装置
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020073524A1 (zh) * 2018-10-10 2020-04-16 深圳云天励飞技术有限公司 一种线下商品推荐方法、装置和电子设备
CN112579747A (zh) * 2019-09-29 2021-03-30 北京国双科技有限公司 一种身份信息提取方法及装置
CN111353292A (zh) * 2020-02-26 2020-06-30 支付宝(杭州)信息技术有限公司 针对用户操作指令的解析方法及装置
CN111353292B (zh) * 2020-02-26 2023-06-16 支付宝(杭州)信息技术有限公司 针对用户操作指令的解析方法及装置

Also Published As

Publication number Publication date
CN106469184B (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
US9678989B2 (en) System and method for use of images with recognition analysis
US10747826B2 (en) Interactive clothes searching in online stores
US7542610B2 (en) System and method for use of images with recognition analysis
CN103914492B (zh) 查询词融合方法、商品信息发布方法和搜索方法及系统
CN103970761B (zh) 一种商品数据搜索方法及装置
CN107835994A (zh) 通过图像的任务聚焦搜索
Wu et al. Automatic web content extraction by combination of learning and grouping
US11037071B1 (en) Cross-category item associations using machine learning
CN103678460B (zh) 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统
KR20160064259A (ko) 유사 상품 검색 방법 및 유사 상품 검색 서버
CN106469184A (zh) 数据对象标签处理、显示方法及服务器和客户端
WO2014196063A1 (ja) 商品検索システムおよび商品検索プログラム
CN111523315B (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN107153697A (zh) 一种商品交易网站中的商品搜索方法和装置
US11170039B2 (en) Search system, search criteria setting device, control method for search criteria setting device, program, and information storage medium
JP7133674B1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
KR101498944B1 (ko) 상품 판매 업체 관련 글 판단 방법 및 그 장치
CN112307298B (zh) 个人品牌标签的生成方法及其装置
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP2016162357A (ja) 商品に対するユーザの感情分析装置及びプログラム
JP2012243126A (ja) 商品情報検索システム、商品情報検索方法及び商品情報検索プログラム
JP7173314B2 (ja) マッピング支援装置、マッピング支援方法、及びプログラム
Soni Text Classification Feature extraction using SVM
KR101440385B1 (ko) 인디케이터를 이용한 정보 관리 장치
WO2007041647A2 (en) System and method for use of images with recognition analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant