CN107767195A - 描述信息的展示系统和展示、生成方法及电子设备 - Google Patents

描述信息的展示系统和展示、生成方法及电子设备 Download PDF

Info

Publication number
CN107767195A
CN107767195A CN201610674634.4A CN201610674634A CN107767195A CN 107767195 A CN107767195 A CN 107767195A CN 201610674634 A CN201610674634 A CN 201610674634A CN 107767195 A CN107767195 A CN 107767195A
Authority
CN
China
Prior art keywords
vocabulary
feature
emotion
evaluation information
word finder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610674634.4A
Other languages
English (en)
Inventor
孙常龙
裘龙
郎君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610674634.4A priority Critical patent/CN107767195A/zh
Priority to US15/677,973 priority patent/US20180053234A1/en
Priority to PCT/US2017/047020 priority patent/WO2018035164A1/en
Publication of CN107767195A publication Critical patent/CN107767195A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models

Abstract

本申请提供一种数据对象的描述信息的展示系统和展示、生成方法及电子设备,其中,所述生成方法包括获取所述数据对象的评价信息集;从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息。本申请实施方式提供的一种数据对象的描述信息的展示系统和展示、生成方法及电子设备,可以提高对数据对象描述的准确度。

Description

描述信息的展示系统和展示、生成方法及电子设备
技术领域
本申请涉及信息处理技术领域,特别涉及一种描述信息的展示系统和展示、生成方法及电子设备。
背景技术
随着网络通信技术的不断发展,越来越多的网上购物的应用程序被开发。在网上购物的应用程序中,数据对象的评价信息往往被用户所关注。数据对象的评价信息通常是由购买该数据对象的用户填写的,以表达用户对该数据对象的看法。
由于数据对象的评价信息往往比较繁多,对于想要购买该数据对象的新的用户而言,遍历每条评价信息往往会耗费较多的时间。因此,目前的应用程序中往往会对数据对象的评价信息进行总结,以生成该数据对象的描述信息,来便捷地为新用户提供购买该数据对象的参考意见。
在现有技术中往往是通过标签和计数来展示数据对象的描述信息。具体地,在现有技术中,可以预先设置与该数据对象相关的多个标签,这些标签例如可以为“质量好”、“服务态度好”、“价格便宜”、“物流较慢”等一系列的短语。这些预设的标签可以存储于应用程序的后台业务服务器中,在生成该数据对象的描述信息时,所述后台业务服务器可以获取该数据对象预设数量的评价信息,然后统计这些评价信息中出现所述预设的标签的次数。例如,所述后台业务服务器共计获取了10条该数据对象的评论信息,然后在这10条评论信息中,有6条均提到卖家的服务态度好,有8条均提到该数据对象的质量好,那么便可以统计出“质量好”这个标签对应的次数为8,“服务态度好”这个标签对应的次数为6。在统计出各个标签对应的次数之后,可以将统计的次数显示于该标签后的括号内。例如“质量好(8)”,“服务态度好(6)”。这样,显示了统计次数的标签便可以作为该数据对象的描述信息,显示于该数据对象评论区的上方,以供用户查看。
然而,现有技术中的网站提供的数据对象的描述信息,大多采用标签和计数的方法展示,但限于其网站的数据处理方式,其提供的数据对象的描述信息往往太过概括,对数据对象的细节描述往往很少。例如,对于产品“连衣裙”而言,描述信息中仅仅提到了质量好、服务态度好、物流快等信息,但是并没有对连衣裙的细节(例如衣领设计如何,腰身适合怎样的身材)进行描述。因此,现有技术中数据对象的描述信息对数据对象的描述并不够准确,无法为用户提供更加有意义的购买依据。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本申请实施方式的目的在于提供一种描述信息的展示系统和展示、生成方法及电子设备,可以提高对数据对象描述的准确度。
为实现上述目的,本申请一方面提供一种数据对象的描述信息的展示系统,所述系统包括:服务器和客户端,其中,所述服务器执行的步骤包括:获取所述数据对象的评价信息集,所述评价信息集中包括至少一条评价信息;从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息;将所述描述信息发送给所述客户端;所述客户端执行的步骤包括:展示所述描述信息。
为实现上述目的,本申请另一方面提供一种数据对象的描述信息的生成方法,所述方法包括:获取所述数据对象的评价信息集,所述评价信息集中包括至少一条评价信息;从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中,所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息。
为实现上述目的,本申请另一方面提供一种电子设备,包括:存储器,其存储有数据对象的评价信息集;所述评价信息集中包括至少一条评价信息;处理器,其能从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息。
为实现上述目的,本申请另一方面提供一种电子设备,包括:存储器,其存储有数据对象的评价信息集;所述评价信息集中包括至少一条评价信息;网络通信模块,用于进行网络数据通信;处理器,其能从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息;控制所述网络通信模块发送所述描述信息。
为实现上述目的,本申请另一方面提供一种数据对象的描述信息的生成方法,所述方法包括:客户端展示服务器提供的页面;其中,所述页面中包括数据对象、针对所述数据对象的评价信息集,以及基于所述评价信息生成的描述信息;其中,所述评价信息集包括至少一条评价信息;其中所述描述信息为所述服务器采用如下方式生成:从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述特征词汇的特征代表词;根据每个所述特征词汇集中特征词汇关联的情感词汇,分别确定每个所述当前特征词汇集对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息。
为实现上述目的,本申请另一方面提供一种数据对象的描述信息的生成方法,所述方法包括:从所述数据对象的评价信息中,提取所述数据对象的特征的代表词;基于所述代表词和获取的情感词,生成描述信息。
为实现上述目的,本申请另一方面提供一种电子设备,包括:存储器,其存储数据对象的评价信息;处理器,其从所述存储器中读取所述数据对象的评价信息,并从所述评价信息中提取所述数据对象的特征的代表词;基于所述代表词和获取的情感词,生成描述信息。
为实现上述目的,本申请另一方面提供一种数据对象的描述信息的生成方法,所述方法包括:获取所述数据对象的评价信息集;其中,所述评价信息集包括至少一条评价信息;从所述评价信息集中提取至少一条特征短语;基于所述特征短语生成描述信息;其中,所述描述信息包括至少一个自然段。
为实现上述目的,本申请另一方面提供一种电子设备,包括:存储器,其用于存储数据对象的评价信息集;其中,所述评价信息集包括至少一条评价信息;处理器,其用于从所述存储器中读取所述评价信息集,并从所述评价信息集中提取至少一条特征短语;基于所述特征短语生成描述信息;其中,所述描述信息包括至少一个自然段。
为实现上述目的,本申请另一方面提供一种数据对象的描述信息的展示方法,包括:向预设网址发出所述数据对象的页面访问请求;接收反馈的页面数据;其中,所述页面数据中包括所述数据对象的评价信息集和描述信息;其中,所述描述信息基于所述评价信息集生成;所述描述信息包括至少一个自然段;展示所述页面数据。
为实现上述目的,本申请另一方面提供一种电子设备,包括:网络通信模块,用于进行网络数据通信;处理器,用于控制所述网络通信模块向预设网址发出数据对象的页面访问请求;控制所述网络通信模块接收反馈的页面数据;其中,所述页面数据中包括所述数据对象的评价信息集和描述信息;其中,所述描述信息基于所述评价信息集生成;所述描述信息包括至少一个自然段;显示屏,用于展示所述页面数据。
由以上本申请实施方式提供的技术方案可见,本申请从数据对象的评价信息中提取出相关联的特征词汇和情感词汇,所述特征词汇可以是描述该数据对象某个细节的词汇,例如“衣领”、“袖口”;与该特征词汇相关联的情感词汇可以是对该细节进行评价的词汇,例如“好”、“别致”。本申请可以为描述同一个细节的特征词汇确定特征代表词汇,从而实现特征词汇的统一。例如对于“衣领”、“领口”等特征词汇,其对应的特征代表词汇可以为“衣领”。然后,本申请可以根据描述同一个细节的情感词汇进行判断,已购买该数据对象的用户对该细节是喜爱还是厌恶,从而可以得出与上述的特征代表词汇对应的情感代表词汇,那么根据所述特征代表词汇和对应的情感代表词汇,从而可以生成描述该数据对象细节的描述信息。由此可见,通过本申请技术方案生成的描述信息中能够包含对数据对象的细节进行描述的语句,从而提高了对数据对象描述的准确度。
参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本申请实施方式的进一步的理解,其构成了说明书的一部分,用于例示本申请的实施方式,并与文字描述一起来阐释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施方式提供的一种数据对象的描述信息的生成方法流程图;
图2为本申请实施方式提供的一种数据对象的描述信息生成方法的示意图;
图3为本申请实施方式中预设词汇库的建立方法流程图;
图4为本申请实施方式中确定情感代表词汇的方法流程图;
图5为本申请实施方式中生成描述短语的方法流程图;
图6为本申请实施方式提供的一种电子设备的功能模块图;
图7为本申请另一个实施方式提供的一种电子设备的功能模块图;
图8为本申请提供的一种数据对象的描述信息的展示系统的框架图;
图9本申请另一个实施方式提供的一种数据对象的描述信息的生成方法的流程图;
图10本申请另一个实施方式提供的一种数据对象的描述信息的生成方法的流程图;
图11本申请另一个实施方式提供的一种数据对象的描述信息的展示方法的流程图;
图12为本申请提供的所述页面数据的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。
请一并参阅图1和图2。本申请实施方式提供的一种数据对象的描述信息的生成方法可以包括以下步骤。
步骤S1:获取所述数据对象的评价信息集,所述评价信息集中包括至少一条评价信息。
在本实施方式中,所述数据对象可以为网络平台中出售的产品或服务。所述数据对象可以为实体的物品。例如生活用品、电脑耗材、食品、电子设备等等。所述数据对象也可以为虚拟的商品。例如游戏币、家政服务等。
在本实施方式中,所述数据对象表示的产品或服务可以通过网络销售平台进行销售。所述网络销售平台例如可以为淘宝、京东、亚马逊等等。各个网络销售平台可以分别对应一个应用程序,用户通过该应用程序便可以完成对数据对象表示的产品或服务的购买以及评价。所述应用程序例如可以为运行于终端设备上的淘宝客户端、天猫客户端、京东客户端等等。在所述应用程序中可以针对每个产品或服务均设置评论区,在所述评论区内可以展示购买该产品或服务的用户录入的评论信息。
在本实施方式中,所述产品或服务的评论信息可以存储于与所述应用程序相对应的后台业务服务器中,所述产品或服务的评论信息可以形成所述的评论信息集,在所述评论信息集中包括至少一条该产品或服务的评价信息。
在本实施方式中,执行获取所述数据对象的评论信息集这一步骤的主体可以为所述应用程序对应的后台业务服务器。在所述后台业务服务器中可以存储有多个数据对象的评论信息集,相关联的数据对象和评论信息集均可以携带相同的标识,该标识例如可以为数据对象在网络销售平台中的数字编号。所述后台业务服务器通过指定的标识,从而可以获取与所述指定的标识相对应的产品或服务的评论信息集。
在本实施方式中,执行获取所述数据对象的评论信息集这一步骤的主体还可以为具备数据存储和计算功能的设备。所述设备例如可以为移动智能电话、计算机(包括笔记本电脑,台式电脑,服务器)、平板电子设备、个人数字助理(PDA)或者智能可穿戴设备。所述设备可以访问所述应用程序对应的后台业务服务器。这样,所述设备通过指定的标识,从而可以从所述后台业务服务器中获取与所述指定的标识相对应的产品或服务的评论信息集。
在本实施方式中,获取所述数据对象的评价信息集的方式可以包括:从存储所述评价信息集的存储介质中读取或者接收其它设备发来的所述数据对象的评价信息集。具体地,在存储介质中可以存储有多个数据对象的评论信息集,相关联的数据对象和评论信息集均可以携带相同的标识,该标识例如可以为数据对象在网络销售平台中的数字编号。通过指定的标识,从而可以从所述存储介质中读取与所述指定的标识相对应的产品或服务的评价信息集。此外,所述数据对象的评价信息集可以存储于其它设备中。在本实施方式中,可以向存储所述数据对象的评价信息集的其它设备发送数据获取请求。这样,其它设备在接收到所述数据获取请求后,便可以发送所述数据对象的评价信息集,从而可以通过接收数据的方式来获取所述数据对象的评价信息集。
步骤S3:从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中,所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;每个所述特征词汇能与至少一个情感词汇相关联。
在本实施方式中,所述特征词汇可以为描述所述数据对象某个细节的词汇。例如,所述数据对象为连衣裙,那么所述特征词汇可以为“衣领”、“袖口”或者“腰身”等等。与所述特征词汇相关联的情感词汇可以为对该细节进行评价的词汇。例如“好”、“别致”或者“太差”等等。举例来说明,在“衣领设计很别致”这样的一条评价信息中,“衣领”可以为所述特征词汇,“别致”可以为与所述特征词汇“衣领”相关联的情感词汇。
在本实施方式中,所述特征词汇和情感词汇的关联性可以体现在:相关联的特征词汇和情感词汇位于同一评价信息中。例如上述的“衣领设计很别致”这样的评价信息,“衣领”和“别致”在同一评价信息中,因此从该评价信息中提取的特征词汇“衣领”和情感词汇“别致”具备关联性。在另一条评价信息“衣领太难看了”中,提取的特征词汇“衣领”和情感词汇“难看”也具备关联性。由上可见,在所述评价信息集中,与同一个特征词汇相关联的情感词汇可能不同。当然,关联性还可以进一步体现在,情感词汇对特征词汇存在语义上的修饰关系。可以基于语义分析算法分析出上述修饰关系。具体地,所述语义分析算法例如可以是单步算法或者爬虫算法。通过所述语义分析算法可以将每条评价信息转换为语句向量,通过对语句向量中的各个词向量进行分析,从而可以筛选出在语义上具备修饰关系的两个词汇。然后可以根据词性的不同,将筛选出的两个词汇区分为特征词汇和情感词汇。
需要说明的是,在某些评价信息中,可能仅仅包含一个情感词汇,而与该情感词汇相关联的特征词汇被省略了。例如,评价信息可以为“挺便宜的”或者“挺合身的”。在这样的评价信息中,往往仅仅包含对产品或服务进行描述的情感词汇,而没有写明与该情感词汇相关联的特征词汇。在本实施方式中,可以根据自然的语言结构推断出与该情感词汇相关联的特征词汇。例如,对于“挺便宜的”这条评价信息,由于“便宜”一般与“价格”相关联,因此从这条评价信息中提取出的特征词汇便可以为价格,这样,便可以将“价格”和“挺便宜的”作为相关联的特征词汇和情感词汇。同样地,对于“挺合身的”这条评价信息,可以推断出“合身”对应的描述主体可以为“尺寸”,那么从这条评价信息中便可以将“尺寸”和“挺合身的”作为相关联的特征词汇和情感词汇。在本实施方式中,在评价信息集中提取当前特征词汇集和当前情感词汇集的方式可以包括:通过语义分析算法对所述评价信息集中的评价信息进行语义分析,从而获取评价信息中存在语义修饰关系的特征词汇和情感词汇。具体地,所述语义分析算法例如可以是单步算法或者爬虫算法。通过所述语义分析算法可以将每条评价信息转换为语句向量,通过对语句向量中的各个词向量进行分析,从而可以筛选出在语义上具备修饰关系的两个词汇。然后可以根据词性的不同,将筛选出的两个词汇区分为特征词汇和情感词汇。这样,对不同的评价信息进行分析,从而可以得到不同的特征词汇和情感词汇。这些特征词汇和情感词汇从而可以分别形成当前特征词汇集和当前情感词汇集。
在本实施方式中,在评价信息集中提取当前特征词汇集和当前情感词汇集的方式还可以包括:根据预先设置的词汇库中的各个词汇,采用词汇匹配的方法,从所述评价信息集的评价信息中获取相匹配的特征词汇和情感词汇。具体地,所述词汇库可以是根据不同数据对象的评价信息集中包含的词汇形成的。在形成所述词汇库时,可以对评价信息集中各个评价信息进行拆分,从而得到若干词汇。由这些若干词汇构成的词汇集便可以为所述词汇库。
在本实施方式中,至少一个当前特征词汇集中,每个当前特征词汇集可以对应数据对象的一个属性。实现至少一个当前特征词汇集可以对应至少一个属性,生成的描述信息可以从至少一个属性角度来描述该数据对象。在本实施方式中,所述数据对象的属性可以表征所述数据对象的某个细节特征。例如,对于产品“连衣裙”而言,其属性例如可以包括衣领、袖口、裙摆、颜色、适用人群、材质等。其中,每个属性均可以与一个当前特征词汇集相对应。例如,对于款式而言,其对应的当前特征词汇集中的词汇可以包括“衣领”、“领子”、“领口”等特征词汇。由于数据对象的属性往往为至少一个,因此与数据对象的属性相对应的当前特征词汇集的数量也往往为至少一个。
步骤S5:分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇。
在本实施方式中,属于同一个当前特征词汇集的特征词汇可以具备相同或者相近的含义,因此,可以为所述至少一个当前特征词汇集分别确定特征代表词汇。例如,所述当前特征词汇集中包括“领子”、“衣领”、“领口”等特征词汇,那么该当前特征词汇集对应的特征代表词汇便可以为“衣领”。对于不同的当前特征词汇集,往往可以获取不同的特征代表词汇。例如,所述数据对象的特征代表词汇可以为“衣领”、“肩膀”、“裙摆”以及“腰身”。这样,尽管从所述评论信息集中提取的特征词汇可能不完全相同,但只要其具备相同或者相近的含义,那么便可以利用同一个特征代表词汇来表示。例如,从“衣领很别致”、“领子做工不太好”、“领口挺漂亮的”这三条评价信息中提取的特征词汇分别为“衣领”、“领子”、“领口”,尽管这三个特征词汇不完全相同,但这三个特征词汇均属于同一个当前特征词汇集,而该当前特征词汇集对应的特征代表词汇为“衣领”,那么这三条评价信息中涉及的特征词汇便可以统一用“衣领”来表示。
在本实施方式中,由于购买产品或服务的用户的观点不同,因此对于该产品或服务的同一个特征,不同的用户对该特征的评价可能会不同。例如,对于连衣裙的衣领而言,有些评论信息表达的含义可能是衣领很好看,而有些评论信息表达的含义则可能是衣领不好看。在这种情况下,为了生成该产品关于衣领的描述信息,则需要对评论信息中提取的情感词汇进行统计,以确定购买该产品的用户关于衣领的评价到底如何。
在本实施方式中,可以根据与属于同一个所述当前特征词汇集的所述特征词汇相关联的情感词汇,来确定每个所述特征代表词汇对应的情感代表词汇。具体地,所述当前特征词汇集例如可以是含义为“衣领”的当前特征词汇集,从所述评论信息中提取出的属于该当前特征词汇集的特征词汇可以有“衣领”、“领子”和“领口”,该当前特征词汇集的特征代表词汇为“衣领”。与这些特征词汇相关联的情感词汇例如可以为“好极了”、“太棒了”、“不怎么好看”,其中,“衣领”和“好极了”相关联,“领子”和“太棒了”相关联,“领口”和“不怎么好看”相关联。当然,在实际应用场景中,每条评论信息均可以提取出一组相关联的特征词汇和情感词汇,因此针对具备相同或者相近含义的特征词汇,其关联的情感词汇往往较多,上述仅仅例举了三个情感词汇。在本实施方式中,可以对上述例举的三个情感词汇进行统计,其中,表达积极情感的有两个,分别为“好极了”、“太棒了”,表达消极情感的有一个,为“不怎么好看”。由于表达积极情感的情感词汇多于表达消极情感的情感词汇,因此,可以确定对于“衣领”这一特征代表词汇而言,用户的评价是积极的,因此可以将上述的积极情感词汇“好极了”确定为所述特征代表词汇“衣领”对应的情感代表词汇。
在本实施方式中,对于不同的特征代表词汇,均可以通过上述的方式为其确定对应的情感代表词汇。通过本实施方式的处理方法,可以将所述评论信息集中众多的评论信息提炼为简洁的特征代表词汇及其对应的情感代表词汇。例如,在评论信息中关于产品的衣领有“衣领很别致”、“领子做工不太好”、“领口挺漂亮的”这三条评论信息,其提炼出的特征代表词汇可以为“衣领”,对应的情感代表词汇可以为“很别致”。对于其它的特征代表词汇,也可以根据相同的方法确定出对应的情感代表词汇。
步骤S7:基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息。
在本实施方式中,当确定每个特征代表词汇和对应的情感代表词汇后,便可以根据每个所述特征代表词汇和对应的所述情感代表词汇生成所述数据对象的描述信息。具体地,假设所述特征代表词汇为“衣领”、“袖口”以及“布料”,这些特征代表词汇对应的情感代表词汇分别为“别致”、“做工精细”以及“柔软”,那么便可以生成所述产品的描述信息:“衣领别致,袖口做工精细,布料柔软”。在生成的所述描述信息中可以包括至少一条描述短语。例如上述的描述信息中,可以包括“衣领别致”、“袖口做工精细”以及“布料柔软”这三条描述短语。每条描述短语中可以包括所述特征代表词汇以及与所述特征代表词汇对应的情感代表词汇。例如,在“袖口做工精细”这条描述短语中,可以包括特征代表词汇“袖口”以及对应的情感代表词汇“做工精细”。这样,根据所述数据对象的评价信息集,最终可以得到与该数据对象相关的多个特征代表词汇以及各自对应的情感代表词汇,从而可以生成对该数据对象描述比较准确的描述信息。
在本实施方式中,生成描述信息的方式可以包括:将在语义上存在修饰关系的特征代表词汇和对应的情感代表词汇组合为符合语言表述习惯的字符串。例如,存在修饰关系的特征代表词汇和对应的情感代表词汇可以分别为“布料”、“柔软”,那么将这两个词汇组合为符合语言表述习惯的字符串就可以是“布料柔软”。进一步地,可以根据语言表述习惯,在生成的字符串中添加修饰词汇,例如可以在“布料柔软”中添加修饰词“比较”,从而形成“布料比较柔软”,从而能够更加贴合用户的语言表述习惯。
需要说明的是,上述步骤S1至S7的步骤可以作为数据对象的描述信息的生成方法。上述步骤S1至S7的步骤均可以在应用程序对应的后台业务服务器中进行,也可以在具备数据存储和计算功能的设备中进行,本申请对此并不做限定。
请参阅图8,在一个实施方式中,本申请还提供一种数据对象的描述信息的展示系统。该描述信息的展示系统可以包括服务器和客户端。其中服务器可以执行上述步骤S1至步骤S7。在此基础上,服务器执行步骤还可以包括:将所述描述信息发送给所述客户端。如此便实现,服务器与客户端之间进行交互。服务器将生成的描述信息提供给客户端,如此客户端便可以进一步的处理。例如,客户端可以展示描述信息给用户。
在本实施方式中,服务器将描述信息发送给客户端的方式可以包括,通过有线数据通信网络,或者无线数据通信网络。可以基于能够实现上述目的的网络传输协议。具体的,例如Http协议或者TCP/IP协议等。
在本实施方式中,客户端执行的步骤可以包括:展示所述描述信息。
在本实施方式中,当生成所述数据对象的描述信息后,客户端便可以在所述数据对象的评论区的预设位置处(例如评论区的上方),展示所述描述信息。具体地,当用户在应用程序中点击查看该数据对象的评论信息时,应用程序可以向所述后台业务服务器发送加载评论信息的请求。在接收到该请求之后,所述后台业务服务器可以将与该数据对象相关的评论信息以及生成的描述信息返回至所述应用程序中,并在所述应用程序中预先设置的评论区内显示所述评论信息以及所述描述信息。当然,如果生成所述描述信息的主体是具备数据存储和计算功能的设备,那么当所述后台业务服务器接收到应用程序发来的加载评论信息的请求之后,可以从所述设备处获取生成的描述信息,或者可以从所述设备处获取该数据对象的评论信息以及描述信息,并将该数据对象的评论信息和描述信息返回至所述应用程序,并在所述应用程序的预设评论区中进行展示。
在本实施方式中,客户端可以包括移动智能电话、计算机(包括笔记本电脑,台式电脑,服务器)、平板电子设备、个人数字助理(PDA)或者智能可穿戴设备。当然,客户端也可以是运行于上述硬件设备上的软体程序。
在本申请一个具体应用场景中,针对手机淘宝中的产品连衣裙需要生成对应的描述信息时,可以预先由手机淘宝的后台业务服务器获取连衣裙这个产品的所有评论信息,构成产品连衣裙对应的评论信息集。所述后台业务服务器可以从所述评论信息集中提取出150个词汇组,每个词汇组中都可以包括相关联的特征词汇和情感词汇。例如,这150个词汇组中有120个涉及了与“物流”相关的特征词汇,用户使用的特征词汇例如可以为“物流”、“发货”、“快递”等等,用户使用的这些特征词汇都属于特征代表词汇为“物流”的当前特征词汇集。此外,这150个词汇组中还涉及了与“服务态度”、“衣领”、“袖口”、“尺寸”、“布料”这些特征代表词汇相关的特征词汇。以“物流”为例进行分析,在这120个涉及“物流”的评价信息中,认为物流比较快,对物流比较满意的有100条,其余20条认为物流不理想。这样,由于该产品的评价信息中认为物流较好的评价较多,因此可以给“物流”这个特征代表词汇确定对应的情感代表词汇为“较快”,从而可以生成连衣裙的描述短语“物流较快”。对于其它的特征代表词汇和对应的情感代表词汇,同样可以生成不同的描述短语。例如“服务态度挺好的”、“衣领不太好看”、“袖口设计很别致”、“尺寸略大”、“布料柔软”,这样,将所有生成的描述短语整合至一起,便可以生成产品连衣裙的描述信息:“关于本产品:物流较快,服务态度挺好的,衣领不太好看,袖口设计很别致,尺寸略大,布料柔软,请咨询后购买。”。其中,描述信息的句首“关于本产品:”以及句末“请咨询后购买”可以是预先设置的字符串,在句首和句末之间为通过本申请技术方案生成的描述信息。这样,当用户需要查看连衣裙的评价信息时,所述后台业务服务器便可以将连衣裙的所有评价信息以及生成的描述信息一并返回给应用程序,并展示于应用程序的评论区中,以供用户查看。
由以上本申请实施方式提供的技术方案可见,本申请从数据对象的评价信息中提取出相关联的特征词汇和情感词汇,所述特征词汇可以是描述该数据对象某个细节的词汇。例如“衣领”、“袖口”;与该特征词汇相关联的情感词汇可以是对该细节进行评价的词汇。例如“好”、“别致”。本申请可以为描述同一个细节的特征词汇确定特征代表词汇,从而实现特征词汇的统一。例如对于“衣领”、“领口”等特征词汇,其对应的特征代表词汇可以为“衣领”。然后,本申请可以根据描述同一个细节的情感词汇进行判断,已购买该数据对象的用户对该细节是喜爱还是厌恶,从而可以得出与上述的特征代表词汇对应的情感代表词汇,那么根据所述特征代表词汇和对应的情感代表词汇,从而可以生成描述该数据对象细节的描述信息。由此可见,通过本申请技术方案生成的描述信息中能够包含对数据对象的细节进行描述的语句,从而提高了对数据对象描述的准确度。
在本申请一个实施方式中,在提取至少一个当前特征词汇集的步骤中可以包括:根据预设词汇库从所述评价信息集中提取至少一个当前特征词汇集。其中,所述预设词汇库中可以预先设置有至少一个特征词汇集,每个所述特征词汇集包括至少一个特征词汇。此外,所述预设词汇库中还可以预先记录有至少一个情感词汇集,每个所述情感词汇集包括至少一个情感词汇。这样,在提取至少一个当前特征词汇集和至少一个当前情感词汇集的步骤中,还可以包括:根据所述预设词汇库,从所述评价信息集中提取至少一个当前情感词汇集。
在本实施方式中,从同一条评价信息中提取出的相关联的特征词汇和情感词汇可以构成一个词汇组。这样,所述评价信息集中往往包括预设数量的评价信息,因此,从所述评价信息集中也可以提取出预设数量的所述词汇组。
在本实施方式中,可以利用预设词汇库中的词汇对评价信息中的词汇进行匹配,以提取出评价信息中的特征词汇和情感词汇。具体地,所述预设词汇库中可以包括多个特征词汇和情感词汇。所述特征词汇和所述情感词汇可以通过预设规则进行分类,以形成特征词汇集和情感词汇集。处于同一个特征词汇集中的特征词汇可以具备相同或者相近的词义。例如,“衣领”、“领子”、“领口”等特征词汇可以属于同一个特征词汇集。处于同一个情感词汇集中的情感词汇也可以具备相同或者相近的词义。例如,“不错”、“别致”、“挺好的”等表达积极情感的情感词汇可以属于同一个情感词汇集。当然,所述预设词汇库中所有的情感词汇也可以位于同一个情感词汇集中,以将情感词汇和特征词汇进行区分。
在本实施方式中,所述词汇组中的特征词汇是根据所述预设词汇库中的词汇从所述评论信息集中提取的。因此,所述词汇组中的特征词汇均可以存在于所述预设词汇库中。这样,所述预设数量的词汇组中的所述特征词汇则可以属于所述至少一个特征词汇集的至少一个当前特征词汇集。例如,所述预设数量的词汇组中的特征词汇可以为“领子”、“衣领”、“领口”、“袖口”、“袖子”、“裙摆”、“下摆”,那么“领子”、“衣领”、“领口”这三个特征词汇可以属于代表“衣领”含义的当前特征词汇集中;“袖口”、“袖子”可以属于代表“袖口”含义的当前特征词汇集中;“裙摆”、“下摆”可以属于代表“裙摆”含义的当前特征词汇集中。
在本申请中,所述预设词汇库的每个所述特征词汇集可以分别对应所述数据对象的至少一个属性。例如,由“领子”、“衣领”、“领口”构成的特征词汇集便可以对应所述数据对象的衣领属性。由“袖口”、“袖子”构成的特征词汇集便可以对应所述数据对象的袖口属性。
在本申请一个实施方式中,在提取至少一个当前特征词汇和至少一个当前情感词汇集的步骤中,可以通过语义分析在所述评价信息集中提取与每个所述当前特征词汇集中的特征词汇关联的情感词汇,以形成至少一个情感词汇集。
在本实施方式中,位于同一条评价信息中的特征词汇和情感词汇往往存在修饰关系。例如,对于“领口太小了”这条评价信息,情感词汇“太小了”可以用来修饰特征词汇“领口”。在本实施方式中,可以通过语义分析算法从评价信息中提取与每个所述当前特征词汇集中的特征词汇关联的情感词汇,提取出的情感词汇从而可以形成至少一个情感词汇集。处于同一情感词汇集中的情感词汇可以具备相同或者相近的含义。具体地,所述语义分析算法例如可以是单步算法或者爬虫算法。通过所述语义分析算法可以将每条评价信息转换为语句向量,通过对语句向量中的各个词向量进行分析,从而可以筛选出具备修饰关系的两个词汇。然后可以根据词性的不同,将筛选出的两个词汇区分为特征词汇和情感词汇。这样,所述当前特征词汇集中的每个特征词汇均可以对应一个具备修饰关系的情感词汇,各个情感词汇从而能够形成至少一个情感词汇集。
由上可见,通过语义分析的方式,可以在评价信息集中提取具备修饰关系的特征词汇和情感词汇。这样,提取出的特征词汇和情感词汇便可以分别形成至少一个当前特征词汇集和至少一个当前情感词汇集。
请参阅图3。在本申请一个实施方式中,步骤S3中的所述预设词汇库可以通过以下步骤建立。
步骤S31:获取语料集,并根据预设算法获取所述语料集中各个词汇的词向量。
在本实施方式中,所述语料集中可以包括与所述数据对象处于同一类目下的所有数据对象的评论信息中出现的词汇。例如,对于淘宝平台中某一平牌的连衣裙而言,所述语料集可以包括淘宝平台中连衣裙类目下所有产品的评论信息中出现的词汇。所述语料集中的词汇可以包括所述特征词汇,也可以包括所述情感词汇。在本实施方式中,可以根据预设算法计算所述语料集中每个词汇对应的词向量,从而可以通过数字化的方式,定量地确定每个词汇的含义。在本实施方式中,所述预设算法例如可以为CBOW算法或者Skip-Gram算法或者GloVe算法。
在本实施方式中,获取语料集的方式可以包括:从存储所述语料集的存储介质中读取或者接收其它设备发来的所述语料集。具体地,在存储介质中可以存储有多个数据对象的评价信息集,这些评价信息集便可以组合成为所述语料集。相关联的数据对象和评论信息集均可以携带相同的标识,该标识例如可以为数据对象在网络销售平台中的数字编号。通过指定的标识,从而可以从所述存储介质中读取与所述指定的标识相对应的产品或服务的评价信息集,从而可以将读取的评价信息集作为语料集。此外,所述语料集可以存储于其它设备中。在本实施方式中,可以向存储所述语料集的其它设备发送数据获取请求。这样,其它设备在接收到所述数据获取请求后,便可以发送所述语料集,从而可以通过接收数据的方式来获取所述语料集。
步骤S33:根据获取的所述词向量,对所述语料集中的词汇进行聚类运算,得到包含至少一个特征词汇集的所述预设词汇库,所述特征词汇集中包括至少一个特征词汇。
在本实施方式中,具备相同或者相近含义的词汇,其对应的词向量往往相距较近。这样,通过对所述语料集中的词汇进行聚类运算,便可以将含义相同或者相近的词汇划分至同一个词汇集中。具体地,在本实施方式中,可以采用K-means算法、凝聚层次聚类算法或DBSCAN算法之类的聚类算法来对所述语料集中的词汇进行聚类。以K-means算法为例,首先可以在所述语料集中确定K个中心词汇,然后可以根据所述词向量,计算所述语料集中各个词汇与这K个中心词汇之间的距离,并将所述语料集中的词汇关联至距离较近的中心词汇处,从而可以形成K个词汇集。接着,为了聚类的准确性,可以重新计算这K个词汇集的中心词汇,并对所述语料集中的词汇通过计算距离的方法再次进行聚类,从而可以得到K个经过重新聚类的词汇集。这样,通过反复计算中心词汇和重新聚类,直至达到预设的聚类次数或者聚类后的词汇集不再变化为止。这样,在对所述语料集中的词汇进行聚类之后,便可以得到包含至少一个特征词汇集的所述预设词汇库,在所述特征词汇集中包括至少一个特征词汇。
在本申请一个实施方式中,当所述预设词汇库中的特征词汇集是根据词向量进行聚类得到时,可以通过计算中心词向量的方法获取所述至少一个当前特征词汇集的特征代表词汇。具体地,在本实施方式中,可以对所述当前特征词汇集中词汇的词向量通过求平均值的方式得到中心词向量。例如,所述当前特征词汇集中包含5个词汇,这5个词汇的词向量分别为(a1,b1),(a2,b2),(a3,b3),(a4,b4)以及(a5,b5),那么便可以对这5个词向量中的对应元素求和并除以词向量的个数,从而可以得到中心词向量。
在计算得到所述中心词向量之后,如果所述中心词向量在所述当前特征词汇集中正好对应着一个特征词汇,则可以将所述中心词向量对应的特征词汇确定为所述特征代表词汇。然而,有时候通过上述公式计算出的中心词向量在所述当前特征词汇集中并没有对应的特征词汇,那么此时便可以将与所述中心词向量最近的词向量对应的特征词汇确定为所述特征代表词汇。
在本申请另一实施方式中,为了简化特征代表词汇的获取方式,可以分别统计每个所述当前特征词汇集中各个特征词汇在所述评价信息集中的匹配次数,并将重复次数最多的特征词汇确定为所述特征代表词汇。例如,在某个当前特征词汇集中,“衣领”这个特征词汇重复的次数为5次,“领口”和“领子”的重复次数均为2次,那么便可以将“衣领”确定为所述特征代表词汇。
相应地,在本申请一个实施方式中,可以分别统计每个所述当前特征词汇集中特征词汇关联的情感词汇的重复次数,从而可以分别将重复次数最多的情感词汇,作为每个所述特征代表词汇对应的情感代表词汇。例如,在特征代表词汇为“衣领”的当前特征词汇集中,各个特征词汇均可以与一个情感词汇相关联。在这多个情感词汇中,“挺别致的”重复次数最多。因此,在本实施方式中,可以将“挺别致的”确定为“衣领”的情感代表词汇。
在本申请一个实施方式中,所述情感词汇的类别可以包括积极情感类别和消极情感类别。那么,可以对与所述特征词汇相关联的情感词汇所属的情感类别进行分析,从而确定每个所述特征代表词汇对应的情感代表词汇。请参阅图4,可以根据以下步骤来确定每个所述特征代表词汇对应的情感代表词汇。
步骤S51:在每个所述当前特征词汇集的特征词汇相关联的情感词汇中,统计情感类别为积极情感类别的情感词汇的第一数量以及统计情感类别为消极情感类别的情感词汇的第二数量。
步骤S53:计算所述第一数量在所述第一数量与所述第二数量之和中的占比。
步骤S55:根据预设的占比与情感程度词的映射关系,获取与所述占比相对应的情感程度词,并将所述情感程度词确定为所述特征代表词汇集对应的情感代表词汇。
在本实施方式中,假设在与“衣领”相关的当前特征词汇集中包含了从所述评论信息集中提取的“衣领”、“领口”、“领子”这三种特征词汇,其中,“衣领”对应的情感词汇可以为“好极了”,“领口”对应的情感词汇可以为“不太好”,“领子”对应的情感词汇可以为“比较精致”,那么可以统计出积极情感类别的情感词汇有2个,消极情感类别的情感词汇有1个。需要说明的是,在实际应用中,对于“衣领”这一个特征词汇,其关联的情感词汇可以有不止一种。例如有的评价信息为“衣领挺好的”,有的评价信息则可以为“衣领不太好”。在本实施方式中为了方便描述,对于每个特征词汇仅例举了关联的一个情感词汇,但本领域技术人员应当知晓,这并不意味着每个特征词汇仅可以关联一个情感词汇。
在本实施方式中,在统计出情感词汇所属情感类别的第一数量和第二数量之后,可以计算所述第一数量在所述第一数量与所述第二数量之和中的占比。例如上述例子中,第一数量可以为2,第二数量可以为1,那么所述第一数量在所述第一数量与所述第二数量之和中的占比可以为2/3。那么在本实施方式中,可以预先设置占比与情感程度词的映射关系。例如,占比为0对应的情感程度词可以为“很差”,占比为0.5对应的情感程度词可以为“一般”,占比为0.9对应的情感程度词可以为“很好”。需要说明的是,所述占比与情感程度词的映射关系中,占比可以是一个区间。例如大于等于0并且小于等于0.2,那么在该区间内的占比均可以对应同一个情感程度词。这样,根据预设的占比与情感程度词的映射关系,便可以获取与所述占比相对应的情感程度词。从而可以将所述情感程度词确定为所述特征代表词汇对应的情感代表词汇。
在本申请一个实施方式中,在计算得到所述占比之后,还可以将计算的所述占比作为参数添加至所述描述信息中。在本实施方式中,计算的所述占比可以视为该数据对象中某个特征的好评率。例如,对于“服务态度”这一特征词汇而言,其对应的积极情感类别的情感词汇的占比为90%,那么则说明该数据对象卖家的服务态度得到大多数用户的认可,因此,在“服务态度较好”这一描述短语之后,可以添加“好评率90%”的短语,从而形成“服务态度较好(好评率90%)”这样的描述短语,从而能够更加精确地表明该数据对象某个特征的具体好评情况。
在本申请一个实施方式中,在所述预设词汇库中除了包括特征词汇集,还可以包括至少一个情感词汇集。相应地,所述预设数量的词汇组中的所述情感词汇可以属于所述至少一个情感词汇集的至少一个当前情感词汇集。所述情感词汇集中的情感词汇同样可以通过对词向量进行聚类得到。属于同一个当前情感词汇集中的情感词汇可以具备相同或者相近的含义。例如“好极了”、“太棒了”、“非常满意”这些情感词汇可以属于同一当前情感词汇集。这样,每个当前情感词汇集也可以对应一个情感代表词汇。具体地,在本实施方式中可以对所述当前情感词汇集中词汇的词向量通过求平均值的方式得到中心词向量,然后可以将所述中心词向量对应的情感词汇或者与所述中心词向量最近的词向量对应的情感词汇确定为所述当前情感词汇集对应的情感代表词汇。具体的计算过程与上述的计算特征代表词汇的过程类似,这里便不再赘述。需要说明的是,在本实施方式中,所述当前情感词汇集可以根据情感类别进行划分,也就是说,所述当前情感词汇集可以包括当前积极情感词汇集和当前消极情感词汇集。
在本申请一个实施方式中,在确定了每个当前情感词汇集对应的情感代表词汇之后,可以对与属于同一个所述当前特征词汇集的所述特征词汇相关联的情感词汇的情感类别进行分析,从而确定所述特征代表词汇对应的情感代表词汇。具体地,本实施方式中可以在与属于同一个所述当前特征词汇集的所述特征词汇相关联的情感词汇中,统计情感类别为积极情感类别的情感词汇的第三数量以及统计情感类别为消极情感类别的情感词汇的第四数量。例如,假设在与“衣领”相关的当前特征词汇集中包含了从所述评论信息集中提取的“衣领”、“领口”、“领子”这三种特征词汇,其中,“衣领”对应的情感词汇可以为“好极了”,“领口”对应的情感词汇可以为“不太好”,“领子”对应的情感词汇可以为“比较精致”,那么可以统计出积极情感类别的情感词汇有2个,消极情感类别的情感词汇有1个,也就是所述第三数量为2,所述第四数量为1。并且,“好极了”和“比较精致”这两个情感词汇可以属于同一个当前积极情感词汇集,而“不太好”则可以属于当前消极情感词汇集。
在本实施方式中,当所述第三数量大于所述第四数量时,可以将所述当前积极情感词汇集对应的情感代表词汇确定为所述特征代表词汇对应的情感代表词汇。例如,上述的“好极了”和“比较精致”所属的当前积极情感词汇集对应的情感代表词汇为“挺好的”,那么由于第三数量大于第四数量,因此可以将“衣领”这一特征代表词汇对应的情感代表词汇确定为“挺好的”。
相反地,当所述第三数量小于所述第四数量时,则可以将所述当前消极情感词汇集对应的情感代表词汇确定为所述特征代表词汇对应的情感代表词汇。
在本申请一个实施方式中,在确定情感代表词汇的步骤中,可以在每个所述当前特征词汇集中特征词汇相关联的情感词汇中,统计属于相同情感词汇集的情感词汇的数量。例如,在表示“衣领”的当前特征词汇集中,各个特征词汇均可以与情感词汇相关联。由于情感词汇可以分为积极情感和消极情感,因此与特征词汇相关联的情感词汇可以处于不同的情感词汇集。在本实施方式中,可以统计属于相同情感词汇集的情感词汇的数量。这样,当处于某一情感词汇集中的情感词汇的数量最多时,则可以表明用户的整体评价倾向。例如,属于积极情感词汇集中的情感词汇的数量最多时,则表明评价信息集中用户的整体评价倾向为该数据对象较好。相反地,属于消极情感词汇集中的情感词汇的数量最多时,则表明评价信息集中用户的整体评价倾向为该数据对象较差。鉴于此,在本实施方式中可以将所述数量最多的情感词汇集分别作为与所述特征代表词汇对应的当前情感词汇集,并可以分别根据所述当前情感词汇集获取每个所述特征代表词汇对应的情感代表词汇。
在本申请一个实施方式中,在获取每个所述特征代表词汇对应的情感代表词汇时,同样可以对所述当前情感词汇集中词汇的词向量进行处理。具体地,可以对每个所述当前情感词汇集中词汇的词向量通过求平均值的方式得到中心词向量。在得到中心词向量之后,可以将所述中心词向量对应的情感词汇或者与所述中心词向量最近的词向量对应的情感词汇确定为所述当前情感词汇集对应的情感代表词汇。
在本申请另一个实施方式中,为了简化情感代表词汇的获取流程,可以将预设时间段内所述当前情感词汇集中匹配次数最多的情感词汇作为所述情感代表词汇;或者可以在所述当前情感词汇集中随机选择一个情感词汇作为所述情感代表词汇。其中,所述预设时间段可以为从当前时间开始,往前推算的某个时间段内。例如最近半年或者最近一年。这样处理的目的在于,商家可能在不断地改进出售中的数据对象,随着数据对象的更新,其对应的评价信息中的褒贬信息也往往随之改变。因此,对预设时间段内的评价信息进行信息提取可以保证当前数据对象的描述信息的准确性。
在本申请一个实施方式中,为了使得生成的描述信息中的描述短语更加自然,更加贴近用户的真实表达方式,可以借助于评价信息中语言的组织方式来生成所述描述短语。请参阅图5,可以通过以下步骤来生成所述描述信息中的描述短语。
步骤S71:从所述评价信息集中获取目标评价语句,所述目标评价语句中的特征词汇分别与所述特征代表词汇属于同一词汇集。
步骤S73:将所述目标评价语句中的特征词汇分别替换为相应的所述特征代表词汇,并将所述目标评价语句中的情感词汇分别替换为相应的所述特征代表词汇对应的情感代表词汇,以生成所述描述信息。
在本实施方式中,假设需要生成与“衣领”相关的描述短语时,可以从所述评价信息集中获取包含“衣领”含义的目标评价语句,在该目标评价语句中出现的特征词汇可能为“领口”,而“领口”与所述特征代表词汇“衣领”属于同一词汇集。那么该目标评价语句的语言组织方式便可以适用于生成的描述短语。例如,该目标评价语句为“这件连衣裙的领口设计得挺赞的”,在该目标评价语句中,“领口”为特征词汇,“挺赞的”为情感词汇,那么为了使得生成的描述短语符合用户的评价语气,可以将所述目标评价语句中的特征词汇替换为所述特征代表词汇,并将所述目标评价语句中的情感词汇替换为所述当前特征代表词对应的当前情感代表词。所述特征代表词汇为“衣领”,对应的情感代表词汇为“挺好的”,从而可以生成描述短语:“这件连衣裙的衣领设计得挺好的”。
在本申请一个实施方式中,上述的目标评价语句的选取标准可以为:述目标评价语句在所述评价信息集中的重复率最高。这样,选取出的目标评价语句可以符合多数人的语言习惯,使得生成的描述短语更加自然。
在本申请一个实施方式中,鉴于同一个数据对象对应的特征代表词汇往往有多个。例如对于连衣裙而言,其对应的特征代表词汇可以包括“衣领”、“袖口”、“裙摆”、“服务态度”以及“物流”,而用户关心的可能是连衣裙特有的特征。例如“裙摆”,对于“物流”和“服务态度”可能关注度不是特别高,那么在本实施方式中,当所述描述信息中包括至少两条描述短语时,可以根据描述短语中特征代表词汇的重要程度来对描述短语进行排序,将用户更加关注的特征优先描述。具体地,在本实施方式中,可以确定所述描述信息中每个所述特征代表词汇的优先级参数。所述优先级参数可以通过互信息算法或者TFIDF算法来计算。
在本实施方式中,通过互信息算法或者TFIDF算法来计算每个所述特征代表词汇的优先级参数的意义在于,假设在连衣裙的评价信息中,与裙摆相关的评价信息的数量为100条,连衣裙的评价信息的总数量为120条。而在整个淘宝平台中所有产品的集合中,与连衣裙的裙摆相关的评价信息的数量为1000条,而评价信息的总数量为20000条,这样的数据表明,连衣裙的裙摆在连衣裙产品中的关注度比较高,但是在整个淘宝平台的所有产品中的关注度并不高(原因在于其他产品可能并没有裙摆),也就是说,裙摆这一特征相对于连衣裙而言是比较重要的特征,那么计算的优先级参数也较大。而对于“物流”这一特征词汇,尽管其在连衣裙这一产品的评论信息中出现的次数也相当高。例如120条评价信息中110条均提到了物流,但由于物流这一特征在整个淘宝平台的所有产品中出现的次数也非常高。例如20000条评价信息中出现了18000条,那么其对应的优先级参数就会远远小于裙摆的优先级参数。
在本实施方式中,在计算出各个特征代表词汇对应的优先级参数后,便可以根据确定的所述优先级参数,对所述描述信息中的所述至少两条描述短语进行排序。例如上述的裙摆和物流这两个特征代表词汇,裙摆就可以排在物流之前进行描述。
请参阅图6,本申请还提供一种电子设备。所述电子设备可以包括存储器100和处理器200。
所述存储器100可以存储有数据对象的评价信息集;所述评价信息集中包括至少一条评价信息。
在本实施方式中,所述存储器可以是用于保存信息的记忆设备。在数字系统中,能保存二进制数据的设备可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也可以为存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也可以叫存储器,如内存条、TF卡等。
所述处理器200可以从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息。
在本实施方式中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。
上述实施方式公开的电子设备,其存储器100和处理器200实现的具体功能,可以与本申请数据对象的描述信息的生成方法实施方式相对照解释,可以实现本申请的数据对象的描述信息的生成方法实施方式并达到方法实施方式的技术效果。
请参阅图7,本申请另一个实施方式还提供一种电子设备,所述电子设备包括存储器110、网络通信模块210以及处理器310。
所述存储器110,其存储有数据对象的评价信息集;所述评价信息集中包括至少一条评价信息。
在本实施方式中,所述存储器可以是用于保存信息的记忆设备。在数字系统中,能保存二进制数据的设备可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也可以为存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也可以叫存储器,如内存条、TF卡等。
所述网络通信模块210,用于进行网络数据通信。
在本实施方式中,所述网络通信模块能够进行网络通信收发数据。所述网络通信模块210可以是依照TCP/IP协议设置,并在该协议框架下进行网络通信。具体地,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为WiFi芯片或者蓝牙芯片。
所述处理器310,其能从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息;控制所述网络通信模块发送所述描述信息。
在本实施方式中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。
上述实施方式公开的电子设备,其存储器110、网络通信模块210和处理器310实现的具体功能,可以与本申请数据对象的描述信息的展示方法实施方式相对照解释,可以实现本申请的数据对象的描述信息的展示方法实施方式并达到方法实施方式的技术效果。
本申请还提供一种数据对象的描述信息的生成系统。所述系统可以包括服务器和客户端。
所述服务器执行的步骤包括:获取所述数据对象的评价信息集,所述评价信息集中包括至少一条评价信息;从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息;将所述描述信息发送给所述客户端。
所述客户端执行的步骤包括:展示所述描述信息。
在本实施方式中,所述服务器可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的软件。所述服务器可以提供有预定端口,通过该预定端口可以向客户端发送描述信息。例如,所述服务器可以基于HTTP、TCP/IP或FTP等网络协议以及网络通信模块与客户端进行网络数据交互。
在本实施方式中,所述客户端可以是能够基于网络协议接入通信网络的终端设备。具体的,例如所述客户端可以为移动智能电话、计算机(包括笔记本电脑,台式电脑)、平板电子设备、个人数字助理(PDA)或者智能可穿戴设备等。此外,所述客户端也可以为运行于任一上述所列设备上的软件,例如支付宝客户端、手机淘宝客户端等。
本申请还提供一种数据对象的描述信息的生成方法,该方法可以应用于客户端这一侧,所述方法可以包括以下步骤。
客户端展示服务器提供的页面。其中,所述页面中包括数据对象、针对所述数据对象的评价信息集,以及基于所述评价信息生成的描述信息;其中,所述评价信息集包括至少一条评价信息。
在本实施方式中,所述描述信息可以为所述服务器采用如下方式生成:从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述特征词汇的特征代表词;根据每个所述特征词汇集中特征词汇关联的情感词汇,分别确定每个所述当前特征词汇集对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息。
请参阅图9,本申请还提供一种数据对象的描述信息的生成方法。如图9所示,所述方法可以包括以下步骤。
步骤S81:从所述数据对象的评价信息中,提取所述数据对象的特征的代表词;
步骤S83:基于所述代表词和获取的情感词,生成描述信息。
在本实施方式中,所述数据对象可以为网络平台中出售的产品或服务。所述数据对象可以为实体的物品。例如生活用品、电脑耗材、食品、电子设备等等。所述数据对象也可以为虚拟的商品。例如游戏币、家政服务等。
在本实施方式中,所述产品或服务可以通过网络销售平台进行销售。所述网络销售平台例如可以为淘宝、京东、亚马逊等等。各个网络销售平台可以分别对应一个应用程序,用户通过该应用程序便可以完成对产品或服务的购买以及对产品或服务的评价。所述应用程序例如可以为运行于终端设备上的淘宝客户端、天猫客户端、京东客户端等等。在所述应用程序中可以针对每个产品或服务均设置评论区,在所述评论区内可以展示购买该产品或服务的用户录入的评论信息。
在本实施方式中,所述产品或服务的评论信息可以存储于与所述应用程序相对应的后台业务服务器中,所述产品或服务的评论信息可以形成所述的评论信息集,在所述评论信息集中包括至少一条该产品或服务的评价信息。
在本实施方式中,所述评价信息往往是针对数据对象的某一个方面或者某几个方面进行评价的。例如对于“连衣裙”而言,用户的评价信息可以对连衣裙的衣领、袖口、裙摆进行评价。在本实施方式中,所述数据对象的特征可以为所述数据对象的某个属性。例如上述的衣领、袖口、裙摆即可以作为连衣裙的特征。
需要说明的是,由于不同用户的语言习惯也往往不同,因此对于所述数据对象的同一个属性,用户描述的词汇可以是不同的。例如对于衣领这一属性而言,其对应的特征可以是领子、衣领、领口等。在本实施方式中,在最终生成的描述信息中可以对不同的特征进行归纳,从而确定出特征的代表词。例如,对于领子、衣领、领口而言,其对应的代表词可以为衣领。这样,对于所述数据对象不同的特征,可以由不同的代表词来表示。
在本实施方式中,提取所述数据对象的特征的代表词的方式可以包括:将所述数据对象的评价信息按照语义关系进行分词,再将得到的词汇与预设词汇库中的词汇进行匹配,匹配得到的词汇便可以作为所述数据对象的特征的代表词。在本实施方式中,所述预设词汇库中的词汇可以是根据大量评价信息生成的。其中的每个词汇均可以表征数据对象的一个特征。
在本实施方式中,用户在对不同的特征进行评价时,往往会使用一些情感词来表达对数据对象的某个特征的褒贬。例如在“这个连衣裙的裙摆设计得特别好看”这个评价信息中,裙摆可以作为连衣裙的特征,而“特别好看”则可以作为修饰裙摆的情感词。在本实施方式中,当数据对象的特征的代表词确定之后,可以根据确定的代表词以及获取的情感词,生成该数据对象的描述信息。例如,连衣裙的特征的代表词可以有衣领、袖口和裙摆,这些代表词分别对应的情感词可以为太窄了、很好看和很别致。这样,根据代表词和对应的情感词,便可以生成“衣领太窄了,袖口很好看,裙摆很别致”这样的描述信息。
在本申请一个实施方式中,可以根据预设词汇库从所述评价信息中提取至少一个当前特征词汇集。其中,所述预设词汇库中预先设置有至少一个特征词汇集,每个所述特征词汇集包括至少一个特征词汇。然后可以分别确定每个所述当前特征词汇集的特征代表词汇,并将确定的每个所述特征代表词汇作为所述数据对象的特征的代表词。
在本实施方式中,从同一条评价信息中提取出的相关联的特征词汇和情感词汇可以构成一个词汇组。这样,所述评价信息集中往往包括预设数量的评价信息,因此,从所述评价信息集中也可以提取出预设数量的所述词汇组。
在本实施方式中,可以利用预设词汇库中的词汇对评价信息中的词汇进行匹配,以提取出评价信息中的特征词汇和情感词汇。具体地,所述预设词汇库中可以包括多个特征词汇和情感词汇。所述特征词汇和所述情感词汇可以通过预设规则进行分类,以形成特征词汇集和情感词汇集。处于同一个特征词汇集中的特征词汇可以具备相同或者相近的词义。例如,“衣领”、“领子”、“领口”等特征词汇可以属于同一个特征词汇集。处于同一个情感词汇集中的情感词汇也可以具备相同或者相近的词义。例如,“不错”、“别致”、“挺好的”等表达积极情感的情感词汇可以属于同一个情感词汇集。当然,所述预设词汇库中所有的情感词汇也可以位于同一个情感词汇集中,以将情感词汇和特征词汇进行区分。
在本实施方式中,所述词汇组中的特征词汇是根据所述预设词汇库中的词汇从所述评论信息集中提取的。因此,所述词汇组中的特征词汇均可以存在于所述预设词汇库中。这样,所述预设数量的词汇组中的所述特征词汇则可以属于所述至少一个特征词汇集的至少一个当前特征词汇集。例如,所述预设数量的词汇组中的特征词汇可以为“领子”、“衣领”、“领口”、“袖口”、“袖子”、“裙摆”、“下摆”,那么“领子”、“衣领”、“领口”这三个特征词汇可以属于代表“衣领”含义的当前特征词汇集中;“袖口”、“袖子”可以属于代表“袖口”含义的当前特征词汇集中;“裙摆”、“下摆”可以属于代表“裙摆”含义的当前特征词汇集中。
在本申请中,所述预设词汇库的每个所述特征词汇集可以分别对应所述数据对象的至少一个属性。例如,由“领子”、“衣领”、“领口”构成的特征词汇集便可以对应所述数据对象的衣领属性。由“袖口”、“袖子”构成的特征词汇集便可以对应所述数据对象的袖口属性。
在本申请一个实施方式中,所述预设词汇库同样可以按照如图3所示的步骤来建立。具体地,首先可以获取语料集,并根据预设算法获取所述语料集中各个词汇的词向量。然后可以根据获取的所述词向量,对所述语料集中的词汇进行聚类运算,得到包含至少一个特征词汇集的所述预设词汇库,所述特征词汇集中包括至少一个特征词汇。
具体地实现方式请参见关于图3的描述,这里便不再赘述。
在本申请一个实施方式中,当所述预设词汇库中的特征词汇集是根据词向量进行聚类得到时,可以通过计算中心词向量的方法获取所述至少一个当前特征词汇集的特征代表词汇。具体地,在本实施方式中,可以对所述当前特征词汇集中词汇的词向量通过求平均值的方式得到中心词向量。例如,所述当前特征词汇集中包含5个词汇,这5个词汇的词向量分别为(a1,b1),(a2,b2),(a3,b3),(a4,b4)以及(a5,b5),那么便可以对这5个词向量中的对应元素求和并除以词向量的个数,从而可以得到中心词向量。
在计算得到所述中心词向量之后,如果所述中心词向量在所述当前特征词汇集中正好对应着一个特征词汇,则可以将所述中心词向量对应的特征词汇确定为所述特征代表词汇。然而,有时候通过上述公式计算出的中心词向量在所述当前特征词汇集中并没有对应的特征词汇,那么此时便可以将与所述中心词向量最近的词向量对应的特征词汇确定为所述特征代表词汇。
在本申请一个实施方式中,为了使得生成的描述信息中的描述短语更加自然,更加贴近用户的真实表达方式,可以借助于评价信息中语言的组织方式来生成所述描述短语。具体地,可以通过如图5所示的方式来生成所述描述短语。首先可以从所述评价信息集中获取目标评价语句,所述目标评价语句中的特征词汇分别与所述特征代表词汇属于同一词汇集。然后可以将所述目标评价语句中的特征词汇分别替换为相应的所述特征代表词汇,并将所述目标评价语句中的情感词汇分别替换为相应的所述特征代表词汇对应的情感代表词汇,以生成所述描述信息。具体的实现过程请参阅上文对图5的描述,这里便不再赘述。
在本申请一个实施方式中,鉴于同一个数据对象对应的特征代表词汇往往有多个。例如对于连衣裙而言,其对应的特征代表词汇可以包括“衣领”、“袖口”、“裙摆”、“服务态度”以及“物流”,而用户关心的可能是连衣裙特有的特征。例如“裙摆”,对于“物流”和“服务态度”可能关注度不是特别高,那么在本实施方式中,当所述描述信息中包括至少两条描述短语时,可以根据描述短语中特征代表词汇的重要程度来对描述短语进行排序,将用户更加关注的特征优先描述。具体地,在本实施方式中,可以确定所述描述信息中每个所述特征代表词汇的优先级参数。所述优先级参数可以通过互信息算法或者TFIDF算法来计算。
在本实施方式中,在计算出各个特征代表词汇对应的优先级参数后,便可以根据确定的所述优先级参数,对所述描述信息中的所述至少两条描述短语进行排序。例如对于连衣裙而言,裙摆和物流这两个特征代表词汇,裙摆就可以排在物流之前进行描述。
相应地,本申请还提供一种电子设备。所述电子设备可以包括存储器和处理器。
所述存储器可以存储数据对象的评价信息。
所述处理器可以从所述存储器中读取所述数据对象的评价信息,并从所述评价信息中提取所述数据对象的特征的代表词;基于所述代表词和获取的情感词,生成描述信息。
在本实施方式中,所述存储器可以是用于保存信息的记忆设备。在数字系统中,能保存二进制数据的设备可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也可以为存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也可以叫存储器,如内存条、TF卡等。
在本实施方式中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。
请参阅图10,本申请还提供一种数据对象的描述信息的生成方法。如图10所示,所述方法可以包括以下步骤。
步骤S91:获取所述数据对象的评价信息集;其中,所述评价信息集包括至少一条评价信息。
步骤S93:从所述评价信息集中提取至少一条特征短语。
步骤S95:基于所述特征短语生成描述信息;其中,所述描述信息包括至少一个自然段。
在本实施方式中,所述评价信息可以针对数据对象的某个特征进行评价。所述评价信息中可以包含表示所述数据对象的某个特征的特征词汇,还可以包含用于修饰该特征词汇的情感词汇。例如,对于“这件连衣裙的裙摆设计得太漂亮了,我很喜欢”这句评价信息中,裙摆可以作为所述的特征词汇,太漂亮了可以作为修饰所述特征词汇的情感词汇。
在本实施方式中,由于评价信息是由用户输入的,根据不同用户的语言习惯,构成评价信息的语言风格也往往不同。在评价信息中也往往存在可有可无的描述语句。例如上述的“这件连衣裙的裙摆设计得太漂亮了,我很喜欢”这句评价信息,由于其位于连衣裙产品的评价区,因此其中的“这件连衣裙”可以省略,而“我很喜欢”表达的是用户自身的体会,在描述连衣裙的描述信息中也可以省略。因此,可以从这句评价信息中提取出“裙摆太漂亮了”这个简短的评价信息。在本实施方式中,所述特征短语便可以是包含了特征词汇和情感词汇的比较简洁的评价信息。例如上述的“裙摆太漂亮了”这样的评价信息便可以作为所述特征短语。
在本实施方式中,在提取出至少一条特征短语之后,便可以基于所述特征短语生成描述信息。其中,所述描述信息可以包括至少一个自然段。在本实施方式中,所述自然段可以包括由标点符号连接的语句。自然段也可以是采用指定方式结束的语句。具体的例如,采用“回车”方式作为结束。通常,自然段最后一行文字独占一行,不属于该自然段的文字另起一行。其中,所述语句可以包括至少一条所述特征短语。例如,对于连衣裙产品而言,提取出的特征短语可以由“裙摆太漂亮了”、“领口有点窄”、“袖口很别致”这几个特征短语。那么将这些特征短语利用标点符号连接起来,就可以形成描述信息,该描述信息可以为“裙摆太漂亮了,袖口也很别致,但是领口有点窄”。在所述产品的评论区的预设位置处(例如评论区的上方),可以展示所述描述信息,该描述信息可以通过自然段的方式进行展示。
在本实施方式中,获取所述数据对象的评价信息集的方式可以包括:从存储所述评价信息集的存储介质中读取或者接收其它设备发来的所述数据对象的评价信息集。具体地,在存储介质中可以存储有多个数据对象的评论信息集,相关联的数据对象和评论信息集均可以携带相同的标识,该标识例如可以为数据对象在网络销售平台中的数字编号。通过指定的标识,从而可以从所述存储介质中读取与所述指定的标识相对应的产品或服务的评价信息集。此外,所述数据对象的评价信息集可以存储于其它设备中。在本实施方式中,可以向存储所述数据对象的评价信息集的其它设备发送数据获取请求。这样,其它设备在接收到所述数据获取请求后,便可以发送所述数据对象的评价信息集,从而可以通过接收数据的方式来获取所述数据对象的评价信息集。
在本申请一个实施方式中,从所述评价信息集中提取至少一条特征短语时,首先可以从所述评价信息集中提取预设数量的词汇组,所述词汇组中包括相关联的特征词汇和情感词汇,其中,相关联的特征词汇和情感词汇处于同一条评价信息中。然后可以基于所述预设数量的词汇组,生成所述至少一条特征短语。
在本实施方式中,所述特征词汇可以为描述所述数据对象某个细节的词汇。例如,所述数据对象为连衣裙,那么所述特征词汇可以为“衣领”、“袖口”或者“腰身”等等。与所述特征词汇相关联的情感词汇可以为对该细节进行评价的词汇。例如“好”、“别致”或者“太差”等等。举例来说明,在“衣领设计很别致”这样的一条评价信息中,“衣领”可以为所述特征词汇,“别致”可以为与所述特征词汇“衣领”相关联的情感词汇。
在本实施方式中,所述特征词汇和情感词汇的关联性可以体现在:相关联的特征词汇和情感词汇位于同一评价信息中。例如上述的“衣领设计很别致”这样的评价信息,“衣领”和“别致”在同一评价信息中,因此从该评价信息中提取的特征词汇“衣领”和情感词汇“别致”具备关联性。在另一条评价信息“衣领太难看了”中,提取的特征词汇“衣领”和情感词汇“难看”也具备关联性。由上可见,在所述评价信息集中,与同一个特征词汇相关联的情感词汇可能不同。
在本实施方式中,从同一条评价信息中提取出的相关联的特征词汇和情感词汇可以构成一个词汇组。这样,所述评价信息集中往往包括预设数量的评价信息,因此,从所述评价信息集中也可以提取出预设数量的所述词汇组。
在本实施方式中,可以将相关联的特征词汇和情感词汇构成一个短语,这样便可以形成至少一条特征短语。
在本申请一个实施方式中,鉴于同一个数据对象对应的特征词汇往往有多个。例如对于连衣裙而言,其对应的特征词汇可以包括“衣领”、“袖口”、“裙摆”、“服务态度”以及“物流”,而用户关心的可能是连衣裙特有的特征。例如“裙摆”,对于“物流”和“服务态度”可能关注度不是特别高,那么在本实施方式中,可以根据特征短语中特征词汇的重要程度来对特征短语进行排序,将用户更加关注的特征优先描述。具体地,在本实施方式中,可以确定所述描述信息中每个所述特征词汇的优先级参数。所述优先级参数可以通过互信息算法或者TFIDF算法来计算。
在本实施方式中,在计算出各个特征词汇对应的优先级参数后,便可以根据确定的所述优先级参数,对至少两条特征短语进行排序,以生成描述信息。例如对于连衣裙而言,裙摆和物流这两个特征词汇,与裙摆相关的特征短语就可以排在与物流相关的特征短语之前进行描述。
相应地,本申请还提供一种电子设备。所述电子设备可以包括:存储器和处理器。
存储器,其用于存储数据对象的评价信息集;其中,所述评价信息集包括至少一条评价信息。
处理器,其用于从所述存储器中读取所述评价信息集,并从所述评价信息集中提取至少一条特征短语;基于所述特征短语生成描述信息;其中,所述描述信息包括至少一个自然段。
在本实施方式中,所述存储器可以是用于保存信息的记忆设备。在数字系统中,能保存二进制数据的设备可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也可以为存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也可以叫存储器,如内存条、TF卡等。
在本实施方式中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。
请参阅图11,在本申请一个实施方式中,还可以提供一种应用于客户端一侧的数据对象的描述信息的展示方法。如图11所示,所述方法可以包括以下步骤。
步骤S101:向预设网址发出所述数据对象的页面访问请求。
步骤S103:接收反馈的页面数据;其中,所述页面数据中包括所述数据对象的评价信息集和描述信息;其中,所述描述信息基于所述评价信息集生成;所述描述信息包括至少一个自然段。
步骤S105:展示所述页面数据。
在本实施方式中,所述预设网址可以是所述数据对象在服务器中对应的网址。当客户端需要访问所述数据对象的页面时,可以向所述数据对象在服务器中对应的网址处发送页面访问请求。所述页面访问请求中可以包含能够表征所述数据对象的标识。所述标识例如可以是数据对象的产品编号或者在服务器中存储的数字编号。
在本实施方式中,服务器在接收到客户端发来的页面访问请求后,可以按照预设规则对所述数据对象的页面数据进行处理,处理完成之后便可以向客户端反馈所述数据对象的页面数据。在本实施方式中,所述页面数据中可以包括所述数据对象的评价信息集和描述信息。其中,所述描述信息基于所述评价信息集生成,所述描述信息包括至少一个自然段。所述自然段可以包括由标点符号连接的语句。自然段也可以是采用指定方式结束的语句。具体的例如,采用“回车”方式作为结束。通常,自然段最后一行文字独占一行,不属于该自然段的文字另起一行。
在接收到服务器反馈的页面数据之后,客户端便可以展示所述页面数据。图12为本申请提供的所述页面数据的示意图。从图12中可以看出所述数据对象的评价页面,在该页面中可以包括用户全部的评价信息、用户选择的颜色和尺码以及用户账号的部分字符。在评价信息的上方可以设置数据对象的评分、星级以及评价摘要。在本实施方式中,评价摘要中就可以填入所述描述信息。如图12所示,所述描述信息可以通过两个自然段的形式来表示,其中一个自然段的内容为“适合个高偏瘦型男,无色差,穿着看起来一点也不臃肿”,另一个自然段的内容为“不过冬天穿不大合适,物流有点慢”。这两个自然段的最后都可以通过“回车”的方式结尾。
在本申请一个实施方式中,所述描述信息可以基于所述评价信息集生成。具体地,首先可以从所述评价信息集中提取至少一条特征短语。然后可以基于所述特征短语生成描述信息。具体地,所述评价信息可以针对数据对象的某个特征进行评价。所述评价信息中可以包含表示所述数据对象的某个特征的特征词汇,还可以包含用于修饰该特征词汇的情感词汇。例如,对于“这件连衣裙的裙摆设计得太漂亮了,我很喜欢”这句评价信息中,裙摆可以作为所述的特征词汇,太漂亮了可以作为修饰所述特征词汇的情感词汇。
在本实施方式中,所述特征短语可以是包含了特征词汇和情感词汇的比较简洁的评价信息。例如对于上述的“这件连衣裙的裙摆设计得太漂亮了,我很喜欢”这句评价信息,由于其位于连衣裙产品的评价区,因此其中的“这件连衣裙”可以省略,而“我很喜欢”表达的是用户自身的体会,在描述连衣裙的描述信息中也可以省略。因此,可以从这句评价信息中提取出“裙摆太漂亮了”这个特征短语。
在本实施方式中,在提取出特征短语之后,便可以基于所述特征短语生成描述信息。其中,所述描述信息可以包括至少一个自然段。在本实施方式中,所述自然段可以包括由标点符号连接的语句,其中,所述语句可以包括至少一条所述特征短语。例如,对于连衣裙产品而言,提取出的特征短语可以由“裙摆太漂亮了”、“领口有点窄”、“袖口很别致”这几个特征短语。那么将这些特征短语利用标点符号连接起来,就可以形成描述信息,该描述信息可以为“裙摆太漂亮了,袖口也很别致,但是领口有点窄”。在所述产品的评论区的预设位置处(例如评论区的上方),可以展示所述描述信息,该描述信息可以通过自然段的方式进行展示。
在本申请一个实施方式中,从所述评价信息集中提取至少一条特征短语时,首先可以从所述评价信息集中提取预设数量的词汇组,所述词汇组中包括相关联的特征词汇和情感词汇,其中,相关联的特征词汇和情感词汇处于同一条评价信息中。然后可以基于所述预设数量的词汇组,生成所述至少一条特征短语。
在本实施方式中,所述特征词汇可以为描述所述数据对象某个细节的词汇。例如,所述数据对象为连衣裙,那么所述特征词汇可以为“衣领”、“袖口”或者“腰身”等等。与所述特征词汇相关联的情感词汇可以为对该细节进行评价的词汇。例如“好”、“别致”或者“太差”等等。举例来说明,在“衣领设计很别致”这样的一条评价信息中,“衣领”可以为所述特征词汇,“别致”可以为与所述特征词汇“衣领”相关联的情感词汇。
在本实施方式中,所述特征词汇和情感词汇的关联性可以体现在:相关联的特征词汇和情感词汇位于同一评价信息中。例如上述的“衣领设计很别致”这样的评价信息,“衣领”和“别致”在同一评价信息中,因此从该评价信息中提取的特征词汇“衣领”和情感词汇“别致”具备关联性。在另一条评价信息“衣领太难看了”中,提取的特征词汇“衣领”和情感词汇“难看”也具备关联性。由上可见,在所述评价信息集中,与同一个特征词汇相关联的情感词汇可能不同。
在本实施方式中,从同一条评价信息中提取出的相关联的特征词汇和情感词汇可以构成一个词汇组。这样,所述评价信息集中往往包括预设数量的评价信息,因此,从所述评价信息集中也可以提取出预设数量的所述词汇组。
在本实施方式中,可以将相关联的特征词汇和情感词汇构成一个短语,这样便可以形成至少一条特征短语。
在本申请一个实施方式中,鉴于同一个数据对象对应的特征词汇往往有多个。例如对于连衣裙而言,其对应的特征词汇可以包括“衣领”、“袖口”、“裙摆”、“服务态度”以及“物流”,而用户关心的可能是连衣裙特有的特征。例如“裙摆”,对于“物流”和“服务态度”可能关注度不是特别高,那么在本实施方式中,可以根据特征短语中特征词汇的重要程度来对特征短语进行排序,将用户更加关注的特征优先描述。具体地,在本实施方式中,可以确定所述描述信息中每个所述特征词汇的优先级参数。所述优先级参数可以通过互信息算法或者TFIDF算法来计算。
在本实施方式中,在计算出各个特征词汇对应的优先级参数后,便可以根据确定的所述优先级参数,对至少两条特征短语进行排序,以生成描述信息。例如对于连衣裙而言,裙摆和物流这两个特征词汇,与裙摆相关的特征短语就可以排在与物流相关的特征短语之前进行描述。
相应地,本申请还提供一种电子设备。所述电子设备可以包括网络通信模块、处理器和显示屏。
所述网络通信模块,用于进行网络数据通信。
所述处理器,用于控制所述网络通信模块向预设网址发出数据对象的页面访问请求;控制所述网络通信模块接收反馈的页面数据;其中,所述页面数据中包括所述数据对象的评价信息集和描述信息;其中,所述描述信息基于所述评价信息集生成;所述描述信息包括至少一个自然段。
所述显示屏,用于展示所述页面数据。
在本实施方式中,所述网络通信模块能进行网络通信收发数据。网络通信模块可以是依照TCP/IP协议设置,并在该协议框架下进行网络通信。具体的,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施方式中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。
在本实施方式中,所述显示屏可以为将一定的电子文件通过特定的传输设备显示到屏幕上再反射到人眼的显示工具。所述显示屏可以包括液晶LCD显示屏、阴极射线管CRT显示屏、发光二极管LED显示屏等。
由以上本申请实施方式提供的技术方案可见,本申请根据从数据对象的评价信息中提取出相关联的特征词汇和情感词汇,所述特征词汇可以是描述该数据对象某个细节的词汇,例如“衣领”、“袖口”;与该特征词汇相关联的情感词汇可以是对该细节进行评价的词汇,例如“好”、“别致”。本申请可以为描述同一个细节的特征词汇确定特征代表词汇,从而实现特征词汇的统一。例如对于“衣领”、“领口”等特征词汇,其对应的特征代表词汇可以为“衣领”。然后,本申请可以根据描述同一个细节的情感词汇进行判断,已购买该数据对象的用户对该细节是喜爱还是厌恶,从而可以得出与上述的特征代表词汇对应的情感代表词汇,那么根据所述特征代表词汇和对应的情感代表词汇,从而可以生成描述该数据对象细节的描述信息。由此可见,通过本申请技术方案生成的描述信息中能够包含对数据对象的细节进行描述的语句,从而提高了对数据对象描述的准确度。
在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。
上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,对于装置实施方式而言,由于其基本相似于方法实施方式,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (45)

1.一种数据对象的描述信息的展示系统,其特征在于,包括:服务器和客户端,其中,
所述服务器执行的步骤包括:
获取所述数据对象的评价信息集,所述评价信息集中包括至少一条评价信息;
从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;
分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;
基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息;
将所述描述信息发送给所述客户端;
所述客户端执行的步骤包括:展示所述描述信息。
2.一种数据对象的描述信息的生成方法,其特征在于,包括:
获取所述数据对象的评价信息集,所述评价信息集中包括至少一条评价信息;
从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中,所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;每个所述特征词汇能与至少一个情感词汇相关联;
分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;
基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息。
3.根据权利要求2所述的方法,其特征在于,在提取至少一个当前特征词汇集的步骤中包括:根据预设词汇库从所述评价信息集中提取至少一个当前特征词汇集;其中,所述预设词汇库中预先设置有至少一个特征词汇集,每个所述特征词汇集包括至少一个特征词汇。
4.根据权利要求3所述的方法,其特征在于,所述预设词汇库的每个所述特征词汇集分别对应所述数据对象的至少一个属性。
5.根据权利要求3所述的方法,其特征在于,所述预设词汇库中还预先记录有至少一个情感词汇集;每个所述情感词汇集包括至少一个情感词汇;在提取至少一个当前特征词汇集和至少一个当前情感词汇集的步骤中,还包括:根据所述预设词汇库,从所述评价信息集中提取至少一个当前情感词汇集。
6.根据权利要求3所述的方法,其特征在于,在提取至少一个当前特征词汇和至少一个当前情感词汇集的步骤中,包括:通过语义分析在所述评价信息集中提取与每个所述当前特征词汇集中的特征词汇关联的情感词汇,以形成至少一个情感词汇集。
7.根据权利要求2所述的方法,其特征在于,在从所述评价信息集中提取至少一个特征词汇集和至少一个情感词汇集的步骤中包括;
通过语义分析在评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集。
8.根据权利要求2至7任一所述的方法,其特征在于,相关联的特征词汇和情感词汇处于同一条评价信息中,所述情感词汇与所述特征词汇存在修饰关系。
9.根据权利要求3所述的方法,其特征在于,所述预设词汇库通过下述步骤建立:
获取语料集,并根据预设算法获取所述语料集中各个词汇的词向量;
根据获取的所述词向量,对所述语料集中的词汇进行聚类运算,得到包含至少一个特征词汇集的所述预设词汇库。
10.根据权利要求2所述的方法,其特征在于,在确定每个所述当前特征词汇集的特征代表词汇的步骤中包括:
对每个所述当前特征词汇集中词汇的词向量通过求平均值的方式得到中心词向量;
将所述中心词向量对应的特征词汇或者与所述中心词向量最近的词向量对应的特征词汇确定为所述特征代表词汇。
11.根据权利要求2所述的方法,其特征在于,在确定每个所述当前特征词汇集的特征代表词汇的步骤中包括:
分别统计每个所述当前特征词汇集中各个特征词汇在所述评价信息集中的匹配次数,并将匹配次数最多的特征词汇确定为特征代表词汇。
12.根据权利要求2所述的方法,其特征在于,在确定情感代表词汇的步骤中包括:
分别统计每个所述当前特征词汇集中特征词汇关联的情感词汇的重复次数,分别将重复次数最多的情感词汇,作为每个所述特征代表词汇对应的情感代表词汇。
13.根据权利要求2所述的方法,其特征在于,所述情感词汇的类别包括积极情感类别和消极情感类别;
相应地,确定每个所述特征代表词汇对应的情感代表词汇具体包括:
在每个所述当前特征词汇集的特征词汇相关联的情感词汇中,统计属于积极情感类别的情感词汇的第一数量以及统计属于消极情感类别的情感词汇的第二数量;
计算所述第一数量在所述第一数量与所述第二数量之和中的占比;
根据预设的占比与情感程度词的映射关系,获取与所述占比相对应的情感程度词,并将所述情感程度词确定为所述特征代表词汇对应的情感代表词汇。
14.根据权利要求13所述的方法,其特征在于,在基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息之后,所述方法还包括:
将计算的所述占比作为参数添加至所述描述信息中。
15.根据权利要求2所述的方法,其特征在于,所述情感词汇的类别包括积极情感类别和消极情感类别,所述情感词汇集包括积极情感词汇集和消极情感词汇集;
相应地,确定每个所述特征代表词汇对应的情感代表词汇具体包括:
在每个所述当前特征词汇集中特征词汇相关联的情感词汇中,统计情感类别为积极情感类别的情感词汇的第三数量以及统计情感类别为消极情感类别的情感词汇的第四数量;
比较所述第三数量和所述第四数量,分别确定每个所述当前特征词汇集对应的当前情感词汇集,并根据所述当前情感词汇集获取所述特征代表词汇对应的情感代表词汇。
16.根据权利要求15所述的方法,其特征在于,当所述第三数量大于所述第四数量时,确定所述积极情感词汇集为所述当前情感词汇集,将所述当前情感词汇集对应的情感代表词汇确定为所述特征代表词汇对应的情感代表词汇。
17.根据权利要求15所述的方法,其特征在于,当所述第三数量小于所述第四数量时,确定所述消极情感词汇集为所述当前情感词汇集,将所述当前情感词汇集对应的情感代表词汇确定为所述特征代表词汇对应的情感代表词汇。
18.根据权利要求2所述的方法,其特征在于,在确定情感代表词汇的步骤中包括:
在每个所述当前特征词汇集中特征词汇相关联的情感词汇中,统计属于相同情感词汇集的情感词汇的数量;将所述数量最多的情感词汇集分别作为与所述特征代表词汇对应的当前情感词汇集;
分别根据所述当前情感词汇集获取每个所述特征代表词汇对应的情感代表词汇。
19.根据权利要求18所述的方法,其特征在于,在获取每个所述特征代表词汇对应的情感代表词汇的步骤中包括:
对每个所述当前情感词汇集中词汇的词向量通过求平均值的方式得到中心词向量;
将所述中心词向量对应的情感词汇或者与所述中心词向量最近的词向量对应的情感词汇确定为所述当前情感词汇集对应的情感代表词汇。
20.根据权利要求18所述的方法,其特征在于,在获取每个所述特征代表词汇对应的情感代表词汇的步骤中包括以下之一:
将预设时间段内所述当前情感词汇集中匹配次数最多的情感词汇作为所述情感代表词汇;或,
在所述当前情感词汇集中随机选择一个情感词汇作为所述情感代表词汇。
21.根据权利要求2所述的方法,其特征在于,在生成描述信息中的步骤中包括:
从所述评价信息集中获取目标评价语句,所述目标评价语句中的特征词汇分别与所述特征代表词汇属于同一词汇集;
将所述目标评价语句中的特征词汇分别替换为相应的所述特征代表词汇,并将所述目标评价语句中的情感词汇分别替换为相应的所述特征代表词汇对应的情感代表词汇,以生成所述描述信息。
22.根据权利要求21所述的方法,其特征在于,所述目标评价语句在所述评价信息集中的重复率最高。
23.根据权利要求2所述的方法,其特征在于,所述描述信息中包括至少两条描述短语,相应地,所述方法还包括:
确定所述描述信息中每个所述特征代表词汇的优先级参数,并根据确定的所述优先级参数,对所述描述信息中的所述至少两条描述短语进行排序。
24.一种电子设备,其特征在于,包括:
存储器,其存储有数据对象的评价信息集;所述评价信息集中包括至少一条评价信息;
处理器,其能从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息。
25.一种电子设备,其特征在于,包括:
存储器,其存储有数据对象的评价信息集;所述评价信息集中包括至少一条评价信息;
网络通信模块,用于进行网络数据通信;
处理器,其能从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述当前特征词汇集的特征代表词汇;根据每个所述当前特征词汇集中特征词汇关联的情感词汇,分别确定每个所述特征代表词汇对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息;控制所述网络通信模块发送所述描述信息。
26.一种数据对象的描述信息的生成方法,其特征在于,包括:
客户端展示服务器提供的页面;其中,所述页面中包括数据对象、针对所述数据对象的评价信息集,以及基于所述评价信息生成的描述信息;其中,所述评价信息集包括至少一条评价信息;
其中所述描述信息为所述服务器采用如下方式生成:从所述评价信息集中提取至少一个当前特征词汇集和至少一个当前情感词汇集;其中所述当前特征词汇集中包括至少一个特征词汇;所述当前情感词汇集中包括至少一个情感词汇;其中,每个所述特征词汇能与至少一个情感词汇相关联;分别确定每个所述特征词汇的特征代表词;根据每个所述特征词汇集中特征词汇关联的情感词汇,分别确定每个所述当前特征词汇集对应的情感代表词汇;基于至少一个所述特征代表词汇和分别对应的情感代表词汇,生成描述信息。
27.一种数据对象的描述信息的生成方法,其特征在于,包括:
从所述数据对象的评价信息中,提取所述数据对象的特征的代表词;
基于所述代表词和获取的情感词,生成描述信息。
28.根据权利要求27所述的方法,其特征在于,所述数据对象的特征的代表词与所述数据对象的至少一个属性相对应。
29.根据权利要求27所述的方法,其特征在于,从所述数据对象的评价信息中,提取所述数据对象的特征的代表词具体包括:
根据预设词汇库从所述评价信息中提取至少一个当前特征词汇集;其中,所述预设词汇库中预先设置有至少一个特征词汇集,每个所述特征词汇集包括至少一个特征词汇;
分别确定每个所述当前特征词汇集的特征代表词汇,并将确定的每个所述特征代表词汇作为所述数据对象的特征的代表词。
30.根据权利要求29所述的方法,其特征在于,所述预设词汇库通过下述步骤建立:
获取语料集,并根据预设算法获取所述语料集中各个词汇的词向量;
根据获取的所述词向量,对所述语料集中的词汇进行聚类运算,得到包含至少一个特征词汇集的所述预设词汇库。
31.根据权利要求29所述的方法,其特征在于,在确定每个所述当前特征词汇集的特征代表词汇的步骤中包括:
对每个所述当前特征词汇集中词汇的词向量通过求平均值的方式得到中心词向量;
将所述中心词向量对应的特征词汇或者与所述中心词向量最近的词向量对应的特征词汇确定为所述特征代表词汇。
32.根据权利要求29所述的方法,其特征在于,基于所述代表词和获取的情感词,生成描述信息具体包括:
从所述评价信息集中获取目标评价语句,所述目标评价语句中的特征词汇分别与所述特征代表词汇属于同一词汇集;
将所述目标评价语句中的特征词汇分别替换为相应的所述特征代表词汇,并将所述目标评价语句中的情感词汇分别替换为所述获取的情感词,以生成所述描述信息。
33.根据权利要求32所述的方法,其特征在于,所述描述信息中包括至少两条描述短语,相应地,所述方法还包括:
确定所述描述信息中每个所述特征代表词汇的优先级参数,并根据确定的所述优先级参数,对所述描述信息中的所述至少两条描述短语进行排序。
34.一种电子设备,其特征在于,包括:
存储器,其存储数据对象的评价信息;
处理器,其从所述存储器中读取所述数据对象的评价信息,并从所述评价信息中提取所述数据对象的特征的代表词;基于所述代表词和获取的情感词,生成描述信息。
35.一种数据对象的描述信息的生成方法,其特征在于,包括:
获取所述数据对象的评价信息集;其中,所述评价信息集包括至少一条评价信息;
从所述评价信息集中提取至少一条特征短语;
基于所述特征短语生成描述信息;其中,所述描述信息包括至少一个自然段。
36.根据权利要求35所述的方法,其特征在于,所述自然段包括由标点符号连接的语句;其中,所述语句包括至少一条所述特征短语。
37.根据权利要求35所述的方法,其特征在于,从所述评价信息集中提取至少一条特征短语具体包括:
从所述评价信息集中提取预设数量的词汇组,所述词汇组中包括相关联的特征词汇和情感词汇,其中,相关联的特征词汇和情感词汇处于同一条评价信息中;
基于所述预设数量的词汇组,生成所述至少一条特征短语。
38.根据权利要求37所述的方法,其特征在于,所述特征短语的数量为至少两条,相应地,基于所述特征短语生成描述信息具体包括:
确定每条所述特征短语中的特征词汇的优先级参数,并根据确定的所述优先级参数,对至少两条特征短语进行排序,以生成描述信息。
39.一种电子设备,其特征在于,包括:
存储器,其用于存储数据对象的评价信息集;其中,所述评价信息集包括至少一条评价信息;
处理器,其用于从所述存储器中读取所述评价信息集,并从所述评价信息集中提取至少一条特征短语;基于所述特征短语生成描述信息;其中,所述描述信息包括至少一个自然段。
40.一种数据对象的描述信息的展示方法,其特征在于,包括:
向预设网址发出所述数据对象的页面访问请求;
接收反馈的页面数据;其中,所述页面数据中包括所述数据对象的评价信息集和描述信息;其中,所述描述信息基于所述评价信息集生成;所述描述信息包括至少一个自然段;
展示所述页面数据。
41.根据权利要求40所述的方法,其特征在于,所述描述信息基于所述评价信息集生成具体包括:
从所述评价信息集中提取至少一条特征短语;
基于所述特征短语生成描述信息。
42.根据权利要求41所述的方法,其特征在于,从所述评价信息集中提取至少一条特征短语具体包括:
从所述评价信息集中提取预设数量的词汇组,所述词汇组中包括相关联的特征词汇和情感词汇,其中,相关联的特征词汇和情感词汇处于同一条评价信息中;
基于所述预设数量的词汇组,生成所述至少一条特征短语。
43.根据权利要求42所述的方法,其特征在于,所述特征短语的数量为至少两条,相应地,基于所述特征短语生成描述信息具体包括:
确定每条所述特征短语中的特征词汇的优先级参数,并根据确定的所述优先级参数,对至少两条特征短语进行排序,以生成描述信息。
44.根据权利要求41所述的方法,其特征在于,所述自然段包括由标点符号连接的语句;其中,所述语句包括至少一条所述特征短语。
45.一种电子设备,其特征在于,包括:
网络通信模块,用于进行网络数据通信;
处理器,用于控制所述网络通信模块向预设网址发出数据对象的页面访问请求;控制所述网络通信模块接收反馈的页面数据;其中,所述页面数据中包括所述数据对象的评价信息集和描述信息;其中,所述描述信息基于所述评价信息集生成;所述描述信息包括至少一个自然段;
显示屏,用于展示所述页面数据。
CN201610674634.4A 2016-08-16 2016-08-16 描述信息的展示系统和展示、生成方法及电子设备 Pending CN107767195A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610674634.4A CN107767195A (zh) 2016-08-16 2016-08-16 描述信息的展示系统和展示、生成方法及电子设备
US15/677,973 US20180053234A1 (en) 2016-08-16 2017-08-15 Description information generation and presentation systems, methods, and devices
PCT/US2017/047020 WO2018035164A1 (en) 2016-08-16 2017-08-15 Description information generation and presentation systems, methods, and devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610674634.4A CN107767195A (zh) 2016-08-16 2016-08-16 描述信息的展示系统和展示、生成方法及电子设备

Publications (1)

Publication Number Publication Date
CN107767195A true CN107767195A (zh) 2018-03-06

Family

ID=61190742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610674634.4A Pending CN107767195A (zh) 2016-08-16 2016-08-16 描述信息的展示系统和展示、生成方法及电子设备

Country Status (3)

Country Link
US (1) US20180053234A1 (zh)
CN (1) CN107767195A (zh)
WO (1) WO2018035164A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897833A (zh) * 2018-06-22 2018-11-27 龙马智芯(珠海横琴)科技有限公司 企业间相关性的分析方法、装置和存储介质
CN109214008A (zh) * 2018-09-28 2019-01-15 珠海中科先进技术研究院有限公司 一种基于关键词提取的情感分析方法及系统
CN110046231A (zh) * 2018-12-21 2019-07-23 阿里巴巴集团控股有限公司 一种客服信息处理方法、服务器和系统
CN110046246A (zh) * 2018-12-07 2019-07-23 阿里巴巴集团控股有限公司 用户评价的分析方法和装置
CN110704605A (zh) * 2018-06-25 2020-01-17 北京京东尚科信息技术有限公司 物品摘要自动生成方法、系统、设备及可读存储介质
CN111506733A (zh) * 2020-05-29 2020-08-07 广东太平洋互联网信息服务有限公司 对象画像的生成方法、装置、计算机设备和存储介质
CN111597296A (zh) * 2019-02-20 2020-08-28 阿里巴巴集团控股有限公司 商品数据的处理方法、装置和系统
CN112036159A (zh) * 2020-09-01 2020-12-04 北京金堤征信服务有限公司 一种词云数据生成方法以及装置
CN113032554A (zh) * 2019-12-24 2021-06-25 Tcl集团股份有限公司 一种决策系统和计算机可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202001621A (zh) * 2018-06-29 2020-01-01 香港商阿里巴巴集團服務有限公司 語料庫產生方法及裝置、人機互動處理方法及裝置
US11301640B2 (en) * 2018-10-24 2022-04-12 International Business Machines Corporation Cognitive assistant for co-generating creative content
CN111625620A (zh) * 2019-02-28 2020-09-04 北京京东尚科信息技术有限公司 信息处理方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析系统及方法
CN102760264A (zh) * 2011-04-29 2012-10-31 国际商业机器公司 为互联网上的评论生成摘录的计算机实现的方法和系统
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103744838A (zh) * 2014-01-24 2014-04-23 福州大学 一种用于度量主流情感信息的中文情感文摘系统及方法
CN103885933A (zh) * 2012-12-21 2014-06-25 富士通株式会社 用于评价文本的情感度的方法和设备
CN105117428A (zh) * 2015-08-04 2015-12-02 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN105512333A (zh) * 2015-12-28 2016-04-20 上海电机学院 基于情感倾向的产品评论主题搜索方法
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
US7865354B2 (en) * 2003-12-05 2011-01-04 International Business Machines Corporation Extracting and grouping opinions from text documents
CN105045777A (zh) * 2007-08-01 2015-11-11 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US20090048823A1 (en) * 2007-08-16 2009-02-19 The Board Of Trustees Of The University Of Illinois System and methods for opinion mining
US8606815B2 (en) * 2008-12-09 2013-12-10 International Business Machines Corporation Systems and methods for analyzing electronic text
US20130173254A1 (en) * 2011-12-31 2013-07-04 Farrokh Alemi Sentiment Analyzer
CN103577452A (zh) * 2012-07-31 2014-02-12 国际商业机器公司 用于丰富网站内容的方法和装置、网站服务器
US20170068975A1 (en) * 2015-09-04 2017-03-09 Wal-Mart Stores, Inc. System and method for displaying reviews according to features
US20180260860A1 (en) * 2015-09-23 2018-09-13 Giridhari Devanathan A computer-implemented method and system for analyzing and evaluating user reviews

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102760264A (zh) * 2011-04-29 2012-10-31 国际商业机器公司 为互联网上的评论生成摘录的计算机实现的方法和系统
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析系统及方法
CN103885933A (zh) * 2012-12-21 2014-06-25 富士通株式会社 用于评价文本的情感度的方法和设备
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103744838A (zh) * 2014-01-24 2014-04-23 福州大学 一种用于度量主流情感信息的中文情感文摘系统及方法
CN105117428A (zh) * 2015-08-04 2015-12-02 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN105512333A (zh) * 2015-12-28 2016-04-20 上海电机学院 基于情感倾向的产品评论主题搜索方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897833A (zh) * 2018-06-22 2018-11-27 龙马智芯(珠海横琴)科技有限公司 企业间相关性的分析方法、装置和存储介质
CN108897833B (zh) * 2018-06-22 2019-05-03 龙马智芯(珠海横琴)科技有限公司 企业间相关性的分析方法、装置和存储介质
CN110704605A (zh) * 2018-06-25 2020-01-17 北京京东尚科信息技术有限公司 物品摘要自动生成方法、系统、设备及可读存储介质
CN109214008A (zh) * 2018-09-28 2019-01-15 珠海中科先进技术研究院有限公司 一种基于关键词提取的情感分析方法及系统
CN110046246A (zh) * 2018-12-07 2019-07-23 阿里巴巴集团控股有限公司 用户评价的分析方法和装置
CN110046231A (zh) * 2018-12-21 2019-07-23 阿里巴巴集团控股有限公司 一种客服信息处理方法、服务器和系统
CN110046231B (zh) * 2018-12-21 2023-08-04 创新先进技术有限公司 一种客服信息处理方法、服务器和系统
CN111597296A (zh) * 2019-02-20 2020-08-28 阿里巴巴集团控股有限公司 商品数据的处理方法、装置和系统
CN113032554A (zh) * 2019-12-24 2021-06-25 Tcl集团股份有限公司 一种决策系统和计算机可读存储介质
CN111506733B (zh) * 2020-05-29 2022-06-28 广东太平洋互联网信息服务有限公司 对象画像的生成方法、装置、计算机设备和存储介质
CN111506733A (zh) * 2020-05-29 2020-08-07 广东太平洋互联网信息服务有限公司 对象画像的生成方法、装置、计算机设备和存储介质
CN112036159A (zh) * 2020-09-01 2020-12-04 北京金堤征信服务有限公司 一种词云数据生成方法以及装置
CN112036159B (zh) * 2020-09-01 2023-11-03 北京金堤征信服务有限公司 一种词云数据生成方法以及装置

Also Published As

Publication number Publication date
US20180053234A1 (en) 2018-02-22
WO2018035164A1 (en) 2018-02-22

Similar Documents

Publication Publication Date Title
CN107767195A (zh) 描述信息的展示系统和展示、生成方法及电子设备
CN110663023B (zh) 用于优化计算机机器学习的方法和系统
CN103778214B (zh) 一种基于用户评论的商品属性聚类方法
CN103617230B (zh) 一种基于微博的广告推荐方法及系统
CN103646088B (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN102279851B (zh) 一种智能导航方法、装置和系统
WO2019051081A1 (en) USE OF ARTIFICIAL INTELLIGENCE FOR DETERMINING A SIZE ADJUSTMENT PREDICTION
US20190108458A1 (en) Using artificial intelligence to determine a value for a variable size component
CN104239331B (zh) 一种用于实现评论搜索引擎排序的方法和装置
CN107301213A (zh) 智能问答方法及装置
US20160055563A1 (en) Methods and systems of discovery of products in e-commerce
US10733658B2 (en) Methods and systems of discovery of products in E-commerce
CN108829847A (zh) 基于多模态购物偏好的商品检索方法及系统
CN106557948A (zh) 一种评论信息的展示方法及装置
CN104050243B (zh) 一种将搜索与社交相结合的网络搜索方法及其系统
CN109388715A (zh) 用户数据的分析方法及装置
CN109325115A (zh) 一种角色分析方法及分析系统
US11874645B2 (en) Multi-source item creation system
CN105931082B (zh) 一种商品类目关键词提取方法和装置
CN107767205A (zh) 评价信息的展示系统、方法、客户端及处理方法、服务器
CN110807691B (zh) 一种跨商品品类的商品推荐方法和装置
CN110223095A (zh) 确定商品属性的方法、装置、设备和存储介质
CN110032685A (zh) 馈送优化
CN110516033A (zh) 一种计算用户偏好的方法和装置
Chung et al. A study on the user experience of mobile Fintech service in Z generation-Focused on KakaoPay and Toss

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180306