CN108984675A - 基于评价的数据查询方法和装置 - Google Patents
基于评价的数据查询方法和装置 Download PDFInfo
- Publication number
- CN108984675A CN108984675A CN201810709407.XA CN201810709407A CN108984675A CN 108984675 A CN108984675 A CN 108984675A CN 201810709407 A CN201810709407 A CN 201810709407A CN 108984675 A CN108984675 A CN 108984675A
- Authority
- CN
- China
- Prior art keywords
- entity
- label
- evaluation data
- information
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24575—Query processing with adaptation to user needs using context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于评价的数据查询方法和装置,包括:从多个网站获取各实体的评价数据和所述各实体的基本信息,根据各实体的评价数据和各实体的基本信息,提取各实体的标签,标签用于表示用户对实体的观点,对各实体的评价数据进行过滤处理,根据各实体的基本信息、各实体的标签和过滤后的各实体的评价数据,聚合得到具有相同标签的同一类实体的评价数据;根据检索语句和聚合得到的各标签的同一类实体的评价数据,查询得到目标实体的信息,检索语句中包括实体的类型和实体的标签,目标实体为与检索语句中包括的实体的类型和标签匹配的一类实体。所述方法能够为用户查询一类实体的信息,便于用户对实体进行对比。
Description
技术领域
本发明涉及数据挖掘领域,尤其涉及基于评价的数据查询方法和装置。
背景技术
在互联网信息爆发的时代,需求和消费评价的产生以几何倍数在增长,买前看评论已经成为许多人的购物习惯,然后网络舆情本身有着组织松散、随意性高、有效性分散等特点,水军、网络喷子的存在也进一步造成了低质量数据与无效评论的泛滥,从而无法为用户提供有效的评论。
现有技术中,用户通过搜索引擎只能查询到某个具体商品的一些基本信息和一些评论信息,而用户想要查询具有某些特征的一类商品时,现有技术无法为用户提供有效的查询结果。
发明内容
本发明提供一种基于评价的数据查询方法和装置,能够为用户查询一类实体的信息,便于用户对实体进行对比。
本发明第一方面提供一种基于评价的数据查询方法,包括:
从多个网站获取各实体的评价数据和所述各实体的基本信息;
根据所述各实体的评价数据和所述各实体的基本信息,提取所述各实体的标签,所述标签用于表示用户对实体的观点;
对所述各实体的评价数据进行过滤处理;
根据所述各实体的基本信息、所述各实体的标签和过滤后的所述各实体的评价数据,聚合得到具有相同标签的同一类实体的评价数据;
根据检索语句和聚合得到的各标签的同一类实体的评价数据,查询得到目标实体的信息,所述检索语句中包括实体的类型和实体的标签,所述目标实体为与所述检索语句中包括的实体的类型和标签匹配的一类实体,所述目标实体的信息包括所述目标实体的基本信息和所述目标实体的评价信息。
可选的,根据所述各实体的评价数据,提取所述各实体的标签之前,还包括:
获取预设周期内各类实体对应的检索词条以及检索词条的检索次数;
根据所述各实体的评价数据和所述各实体的基本信息,提取所述各实体的标签,包括:
根据所述各实体的评价数据、所述各实体的基本信息和所述预设周期内各类实体对应的检索词条以及检索词条的检索次数,提取所述各实体的标签。
可选的,从多个网站获取所述各实体的基本信息,包括:
从所述各网站获取所述各实体的原始信息,所述原始信息包括实体的名称、类型和关键词;
根据所述各实体的名称、类型和关键词,识别出相同实体,得到所述各实体的基本信息。
可选的,对所述各实体的评价数据进行过滤处理,包括:
对所述各实体的评论进行质量打分,删除质量打分低于分数阈值的评价数据;
对所述各实体的评论进行敏感词标记,删除包含敏感词的评价数据。
可选的,根据所述各实体的基本信息、所述各实体的标签和过滤后的所述各实体的评价数据,聚合得到同一类实体的相同标签之前,还包括:
对所述各实体的标签进行匹配,删除所述各实体的标签中与实体的类型不匹配的标签;
对所述各实体的评论进行情感分析,得到情感打分。
可选的,还包括:
根据所述各实体的情感打分,获取所述各实体的情感波动数据;
所述目标实体的信息还包括:实体的情感波动数据。
可选的,在聚合得到具有相同标签的同一类实体的评价数据之后,还包括:
对各标签的同一类实体的评价数据进行去重。
本发明第二方面提供一种基于评价的数据查询装置,包括:
第一获取模块,用于从多个网站获取各实体的评价数据和所述各实体的基本信息;
标签提取模块,用于根据所述各实体的评价数据和所述各实体的基本信息,提取所述各实体的标签,所述标签用于表示用户对实体的观点;
过滤模块,用于对所述各实体的评价数据进行过滤处理;
聚合模块,用于根据所述各实体的基本信息、所述各实体的标签和过滤后的所述各实体的评价数据,聚合得到具有相同标签的同一类实体的评价数据;
查询模块,用于根据检索语句和聚合得到的各标签的同一类实体的评价数据,查询得到目标实体的信息,所述检索语句中包括实体的类型和实体的标签,所述目标实体为与所述检索语句中包括的实体的类型和标签匹配的一类实体,所述目标实体的信息包括所述目标实体的基本信息和所述目标实体的评价信息。
可选的,还包括:
第二获取模块,用于获取预设周期内各类实体对应的检索词条以及检索词条的检索次数;
所述标签提取模块具体用于:
根据所述各实体的评价数据、所述各实体的基本信息和所述预设周期内各类实体对应的检索词条以及检索词条的检索次数,提取所述各实体的标签。
可选的,所述第一获取模块具体用于:从所述各网站获取所述各实体的原始信息,所述原始信息包括实体的名称、类型和关键词;
根据所述各实体的名称、类型和关键词,识别出相同实体,得到所述各实体的基本信息。
可选的,所述过滤模块具体用于:对所述各实体的评论进行质量打分,删除质量打分低于分数阈值的评价数据;
对所述各实体的评论进行敏感词标记,删除包含敏感词的评价数据。
可选的,还包括:
标签匹配模块,用于对所述各实体的标签进行匹配,删除所述各实体的标签中与实体的类型不匹配的标签;
情感分析模块,用于对所述各实体的评论进行情感分析,得到情感打分;
排序模块,用于对所述各实体的评论按照访问热度进行排序,或者,对所述各实体的评论进行打散排序。
可选的,还包括:
第三获取模块,用于根据所述各实体的情感打分,获取所述各实体的情感波动数据;
所述目标实体的信息还包括:实体的情感波动数据。
可选的,还包括:
去重模块,用于对各标签的同一类实体的评价数据进行去重。
本发明第三方面提供一种服务器,包括处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述服务器执行如本发明第一方面所述的方法。
本发明第四方面一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,使得计算机执行如本发明第一方面所述的方法。
本发明提供的基于评价的数据查询方法和装置,包括:从多个网站获取各实体的评价数据和所述各实体的基本信息,根据各实体的评价数据和各实体的基本信息,提取各实体的标签,标签用于表示用户对实体的观点,对各实体的评价数据进行过滤处理,根据各实体的基本信息、各实体的标签和过滤后的各实体的评价数据,聚合得到具有相同标签的同一类实体的评价数据;根据检索语句和聚合得到的各标签的同一类实体的评价数据,查询得到目标实体的信息,检索语句中包括实体的类型和实体的标签,目标实体为与检索语句中包括的实体的类型和标签匹配的一类实体。所述方法能够为用户查询一类实体的信息,便于用户对实体进行对比。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例一提供的基于评价的数据查询方法的流程图;
图2为实体的评价数据和基本信息的获取示意图;
图3为本发明实施例二提供的基于评价的数据查询方法的流程图;
图4为对各实体的评价数据进行的处理示意图;
图5为本发明实施例三提供的基于评价的数据查询装置的结构示意图;
图6为本发明实施例四提供的服务器的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的基于评价的数据查询方法的流程图,本实施例的方法由搜索引擎或者浏览器对应的服务器执行,如图1所示,本实施例的方法包括以下步骤:
步骤S101、从多个网站获取各实体的评价数据和各实体的基本信息。
实体的评价数据包括:评论人、评论时间、评论事项、评论内容和评价对象的信息,可选的,还可以包括一些关联信息。例如,电子产品的评价中,对于新款手机性能与价格评价,还会带上同价位手机的对比评价。实体的评价数据可以采用半结构化的数据进行存储。服务器可以通过爬虫的方式从多个网站获取各实体的评价数据,也可以由第三方提供各实体的评价数据。
该多个网站可以包括各类消费网站、资讯网站、新闻网页、手百资讯等,通过从多个网站获取评价数据,使得获取到的评价数据更加全面、准确。该实体可以包括:各种商品、景点、文字、应用、视频播放器、游戏等,凡是用户使用或购买的对象都可以作为实体,只要用户对实体进行了评价,都可以通过本实施例的方法获取到实体的评价数据,从而使得本实施例的方法可以的应用场景不仅局限在商品的推荐领域,通用性更好。
实体的基本信息包括:实体的名称、类型和关键词,实体的名称用于区别不同实体,实体的类型用于区别实体的种类,实体的关键词用于描述用户对实体主要关注的特征。实体的类型例如为:汽车、手机、电脑、音响等,同一类型的实体由于生产厂商、版本、年份等具有不同的型号,不同类型的实体其关键词不同。例如,用户对汽车关注的是油耗、空间、操控感等,则汽车作为实体时,其关键词包括油耗、空间和操控感。用户对手机关注的是内存、像素、电池等,则手机作为实体时,其关键词包括:内存、像素和电池。
同样,服务器可以通过爬虫的方式从多个网站获取各实体的基本信息,也可以由第三方提供各实体的基本数据,各实体的关键词也可以预先设定好。服务器可以从各网站直接获取到各实体的基本信息,也可以从各网站获取各实体的原始信息,该原始信息包括实体的名称和关键词,由于实体的原始信息来自不同网站。不同网站之间对于同一个实体的名称可能存在差异或者错误,例如对于同一款手机的评价可能来自于京东、国美、当当等多个电商网站,而不同电商网站上获取的实体的原始信息可能存在差别或者错误。因此,需要根据各实体的名称和关键词,识别出相同实体,得到各实体的基本信息。
示例性的,根据各实体的名称、类型和关键词,识别出相同实体,得到各实体的基本信息,具体为:对各实体的初始信息进行归一化处理,接入标准实体(如:核心集实体信息),核心集中定义了实体的类型以及实体的关键词,可以将获取的各实体的原始信息与核心集中的实体信息进行匹配,如果多个实体的原始信息与核心集中的同一个实体信息相同,则确定该多个实体为同一个实体。如果实体的类型在核心集中不存在,则采用建模方法,根据实体的名称和关键词进行相似度计算,如果两个实体的相似度大于预设的相似度阈值,则确定两个实体为同一个实体,如图两个实体的相似度小于预设的相似度阈值,则确定两个实体为不同的实体。
图2为实体的评价数据和基本信息的获取示意图,如图2所示,服务器从舆情网站、新闻网站、地图数据和实时搜索热点数据等渠道获取实体的评价数据和基本信息。示例性的,获取到的实体的评价数据为如下形式:
{
实体ID:001
实体类型(entity type):评论;
实体内容(entity content):手机1的新旗舰性价比很高,处理器给了,秒杀同价位的手机2,屏幕也不错
实体名称(entity name):手机1的名称
}
步骤S102、根据各实体的评价数据和各实体的基本信息,提取各实体的标签,该标签用于表示用户对实体的观点。
该标签可以是用户对实体的关键词的观点,实体的标签用作购买过/体验过/使用过的消费者的消费评价标签。例如,汽车的关键词为油耗、空间、操控感,则汽车X的标签可以为油耗大、空间大、操控感差。手机的关键词包括:内存、像素和电池,则手机X的标签可以为内存大、像素高和电池使用时间短。例如火锅的标签为价格、菜量和味道,则X商家的火锅的标签可以为:价格贵、菜量少、味道好。
服务器根据各实体的关键词,从各实体的评价中识别出用户对实体的关键词的观点,每个实体包括多个评价,不同评价中对同一个关键词可能有不同的观点,例如,对于手机X的像素的观点,评价1对像素的观点为像素高,评价2中对像素的观点为像素一般,评论3中对像素的观点为像素太烂,评论4中没有对像素进行评价。本实施例的方法能够全面的获取到用户对实体的不同观点。
步骤S103、对各实体的评价数据进行过滤处理。
示例性,过滤处理包括以下处理中的一种或多种:
(1)对各实体的评论进行质量打分,删除质量打分低于分数阈值的评价数据。
质量打分用于表示质量的好坏,每个实体的评价可能有几百条、几千条甚至上万条,而有一些评价是有效的、一些评价是无效的,例如,在手机的评论中,有用户对其他实体进行评价,则这类评价属于无效评价,网络上还存在一些喷子和水军,专门对实体进行贬低,对于这些评论没有什么参考价值,还有一些评论只简单的用一两个词进行评论,另一个评论通过内容丰富。对各实体的评论进行质量打分评估,输出一个[0,1]之间的分数,表示该评论的质量好坏,打分接近1的表明评论内容越丰富,越接近0的表明评论缺乏实际内容,如:XXX到此一游,得分0.06485。通过对各实体的每一条评价都进行打分,将打分低于分数阈值的评价数据删除,打分低于分数阈值的评价数据没有什么参考价值。
(2)对各实体的评论进行敏感词标记,删除包含敏感词的评价数据。
该敏感词包括禁止词、侵权词、不雅词、政治性、煽动性的词语等,对各实体的评论逐条进行敏感词标记,然后删除包含敏感词的评价数据,以抵制一些低俗、不良的信息。
步骤S104、根据各实体的基本信息、各实体的标签和过滤后的各实体的评价数据,聚合得到具有相同标签的同一类实体的评价数据。
本发明中会有成千上万个实体,根据实体的类型和实体的标签对实体的评价数据进行聚合。示例性的,先根据实体类型对实体进行划分,以某个类型为例,该类型实体的标签可能为多个,每次从多个标签中选择一个目标标签,确定该类型实体中的哪些实体的标签与该目标标签相同,将于目标标签相同的实体的评价数据聚合在一起。
例如,根据实体的类型将实体划分为汽车和手机,汽车的标签为油耗大、空间大、操控感差,手机的标签为内存大、像素高和电池使用时间短。汽车类型中共包括:100款不同的汽车,以油耗大为目标标签,假设油耗大的汽车共有20款,将该20款汽车的评价数据聚合到一起,这里的聚合是一种逻辑概念,可以为这20款汽车的评价数据设置一个标识,该标识用于标识汽车的油耗大。以空间大为目标标签,假设空间大的汽车共有30款,则将这30款汽车的评价数据聚合到一起。以操控感为目标标签,假设操控感的汽车共有25款,则将该25款汽车的评价数据聚合到一起。
可选的,在聚合得到具有相同标签的同一类实体的评价数据之后,还可以对各标签的同一类实体的评价数据进行去重。去重是指对评价内容相同的数据,也可以指保留一条评价数据,其余评价数据都删除。通过对评价数据去重,减少了评价数据的存储量,便于对评价数据进行管理,也可以提高检索阶段的检索速度。
步骤S105、根据检索语句和聚合得到的各标签的同一类实体的评价数据,查询得到目标实体的信息。
其中,检索语句中包括实体的类型和实体的标签,目标实体为与所述检索语句中包括的实体的类型和标签匹配的一类实体,目标实体的信息包括目标实体的基本信息和目标实体的评价信息。
检索语句是检索客户端(或者称为检索引擎、浏览器,例如百度搜索)发送给服务器的,客户端上的检索语句由用户输入。该检索语句中包括实体的类型和实体的标签,该检索语句用于检索一类型的手机,或者说用于检索具有某种标签的手机,该检索语句中包括的标签可以为一个或多个,本实施例不对此进行限制。
例如,检索语句为:“空间大的车有哪些?”,则车是实体类型,空间大是实体的标签。或者,检索语句为:“价格低于2000的手机”,则手机是实体类型,实体的标签为价格。或者检索语句为:“价格低于3000且像素高的手机”,则手机是实体类型,实体的标签为价格和像素高。其中,该检索语句可以是文字,还可以是语音,如果用户输入的是语音,则需要进行语音识别,将语音转换为文字,然后进行查询,根据文字和运营查询到的结果是一样的。服务器或者客户端需要对检索语句进行语义分析,进一步根据语义分析的结果进行查询。
服务器根据检索语句,从聚合得到的各标签的同一类实体中,查询与检索语句中包括的实体的类型和标签匹配的一类实体,得到目标实体,目标实体的信息包括目标实体的基本信息和评价信息。该评价信息包括好评率、差评率、好评的评价数量、差评的评价数量,该评价信息还可以包括具体的评价数据。
例如,当检索语句为:“空间大的车有哪些?”,查询得到的目标实体的信息包括多款空间大的车型,以及每个车型的基本信息和评价信息,以便于用户能够对多款车型进行比较。
可选的,目标实体的信息还包括实体的情感波动数据,实体的情感波动数据是根据实体的情感打分获取的,相应的,需要对各实体的评论进行情感分析,得到情感打分。例如,对评论的内容进行正、负、中三相情感分析打分,取得基本的态度相。其中,好评率、差评率、好评的评价数量、差评的评价数量也是基于实体情感打分得到的。
实体的情感波动数据可以是用户在检测时间段内情感的走向,例如,手机在最近半年内的好评波动图,该好评波动图的横轴为时间,时间单位可以为周,好评波动图的纵轴为好评率,通过好评波动图可以看出手机在半年内的口碑是变化了还是变差了。其中,不同类型的实体的时间单位有所不同。
在获取到目标实体的信息后,将目标实体的信息展示给用户,可以以列表的形式显示多个实体的信息。在将目标实体显示给用户之前,还可以对多个目标实体的信息进行排序,可以根据目标实体的访问热度对目标实体的评价进行排序,或者,对各实体的评论进行打散排序,本实施例不对此进行限制。
根据访问热度对目标实体的评价进行排序,可以将用户点击多/点赞多的评论,进行升序,优先展现,对于已经被源网站置顶或指定为热评的评论同样调高权重,便于用户能够快速了解到其他消费者对实体的主要评价。
在一些场景中需要对评论进行打散排序,通过打散使得目标实体的评论不会集中展现某些主要网站的评论,而忽略了其他网站上用户的声音,便于用户能够全面的了解对实体的评价。
可选的,还可以归功点赞页面交互接口,对于评论内容的呈现页面,允许访问者在页面内针对评论进行点评,形成新的观点,锁住流量。
本实施例中,从多个网站获取各实体的评价数据和所述各实体的基本信息,根据各实体的评价数据和各实体的基本信息,提取各实体的标签,标签用于表示用户对实体的观点,对各实体的评价数据进行过滤处理,根据各实体的基本信息、各实体的标签和过滤后的各实体的评价数据,聚合得到具有相同标签的同一类实体的评价数据;根据检索语句和聚合得到的各标签的同一类实体的评价数据,查询得到目标实体的信息,检索语句中包括实体的类型和实体的标签,目标实体为与检索语句中包括的实体的类型和标签匹配的一类实体。所述方法能够向用户返回一类实体的信息,便于用户对实体进行对比。
在实施例一的基础上,图3为本发明实施例二提供的基于评价的数据查询方法的流程图,如图3所示,本实施例的方法包括以下步骤:
步骤S201、从多个网站获取各实体的评价数据和各实体的基本信息。
步骤S202、获取预设周期内各类实体对应的检索词条以及检索词条的检索次数。
预设周期例如为最近一天、最近一周或最近一个月等,即分实体类型进行统计预设周期内的检索词条和检索词条的数据,实体的类型例如为汽车类型、手机类型、游戏类型、小说类型等。同类实体中,预设周期内的某个检索词条的检索次数越多,说明用户对该检索词条的关注度越高。
示例性的,这里的检索词条是从用户在检索框内输入的检索语句中提取的词条,该检索语句可以是单独的检索词条,例如,该检索语句为“汽车X”,则检索词条可以为汽车X;该检索语句还可以是用于检索一个具体的实体的信息的语句,例如,“汽车X的油耗怎么样?”,则检索词条为汽车X和油耗;该检索语句还可以是用于检索一类实体的信息的语句,例如,“油耗较低的汽车有哪些?,则检索词条为油耗。
步骤S203、根据各实体的评价数据、各实体的基本信息和预设周期内各类实体对应的检索词条以及检索词条的检索次数,提取各实体的标签。
通过步骤S202可以获取到各类实体的不同检索词条的检索次数,可以从各实体的评价数据中提取检索次数较多的检索词条的观点作为标签,以及从各实体的评论中提取用户对关键词的观点作为标签。
步骤S204、对各实体的评论进行质量打分,删除质量打分低于分数阈值的评价数据。
步骤S205、对各实体的评论进行敏感词标记,删除包含敏感词的评价数据。
步骤S204和S205用于对各实体的评价数据进行过滤。
步骤S206、对各实体的标签进行匹配,删除各实体的标签中与实体的类型不匹配的标签。
不同类型的实体的标签不同,如果某个类型的实体的标签中包括另一个类型的实体的标签,则删除另一个类型的实体的标签,例如,在汽车的标签中出现了手机的标签,则将手机的标签删除。
步骤S207、对各实体的评论进行情感分析,得到情感打分。
图4为对各实体的评价数据进行的处理示意图,如图4所示,分别对各实体进行了以下处理:标签提取、质量打分、敏感词标记和情感分析。对图2所示的评价数据执行上述处理后,得到图4所示形式的评价数据的,具体如下:
{
实体ID:001
实体类型:评论;
实体内容:手机1的新旗舰性价比很高,处理器给了,秒杀同价位的手机2,屏幕也不错
实体名称:手机1的名称
标签:性价比高、屏幕好
质量打分:0.875
情感打分:2
}
上述例子中,评价内容中没有敏感词,因此,没有敏感词标记。
步骤S208、根据各实体的情感打分,获取各实体的情感波动数据。
步骤S209、根据各实体的基本信息、各实体的标签和各实体的评价数据,聚合得到具有相同标签的同一类实体的评价数据。
步骤S210、对各标签的同一类实体的评价数据进行去重。
步骤S211、根据检索语句和聚合得到的各标签的同一类实体的评价数据,查询得到目标实体的信息。
其中,该检索语句中包括实体的类型和实体的标签,该目标实体为与检索语句中包括的实体的类型和标签匹配的一类实体,该目标实体的信息包括实体的基本信息、实体的评价信息和实体的情感波动数据。
图5为本发明实施例三提供的基于评价的数据查询装置的结构示意图,该装置可以集成或应用在服务器中,如图5所示,该装置包括:
第一获取模块11,用于从多个网站获取各实体的评价数据和所述各实体的基本信息;
标签提取模块12,用于根据所述各实体的评价数据和所述各实体的基本信息,提取所述各实体的标签,所述标签用于表示用户对实体的观点;
过滤模块13,用于对所述各实体的评价数据进行过滤处理;
聚合模块14,用于根据所述各实体的基本信息、所述各实体的标签和过滤后的所述各实体的评价数据,聚合得到具有相同标签的同一类实体的评价数据;
查询模块15,用于根据检索语句和聚合得到的各标签的同一类实体的评价数据,查询得到目标实体的信息,所述检索语句中包括实体的类型和实体的标签,所述目标实体为与所述检索语句中包括的实体的类型和标签匹配的一类实体,所述目标实体的信息包括目标实体的基本信息和目标实体的评价信息。
可选的,还包括:第二获取模块(图中未示出),用于获取各类实体对应的检索词条以及检索词条的检索次数。相应的,所述标签提取模块12具体用于:根据所述各实体的评价数据、所述各实体的基本信息和所述预设周期内各类实体对应的检索词条以及检索词条的检索次数,提取所述各实体的标签。
可选的,所述第一获取模块11具体用于:从所述各网站获取所述各实体的原始信息,所述原始信息包括实体的名称、类型和关键词;
根据所述各实体的名称、类型和关键词,识别出相同实体,得到所述各实体的基本信息。
可选的,所述过滤模块13具体用于:对所述各实体的评论进行质量打分,删除质量打分低于分数阈值的评价数据;
对所述各实体的评论进行敏感词标记,删除包含敏感词的评价数据。
可选的,还包括:
标签匹配模块(图中未示出),用于对所述各实体的标签进行匹配,删除所述各实体的标签中与实体的类型不匹配的标签;
情感分析模块(图中未示出),用于对所述各实体的评论进行情感分析,得到情感打分。
可选的,还包括:第三获取模块(图中未示出),用于根据所述各实体的情感打分,获取所述各实体的情感波动数据。相应的,所述目标实体的信息还包括:实体的情感波动数据。
可选的,还包括:去重模块(图中未示出),用于对各标签的同一类实体的评价数据进行去重。
本实施例提供的装置可以用于执行上述实施例一和实施例二的方法,具体实现方式和技术效果类似,这里不再赘述。
图6为本发明实施例四提供的服务器的结构示意图,如图6所示,本实施例提供的服务器包括处理器21、存储器22和收发器23,所述存储器22用于存储指令,所述收发器23用于和其他设备通信,所述处理器21用于执行所述存储器22中存储的指令,以使所述服务器执行如本发明实施例一和实施例二的方法。
本发明实施例五提供一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,使得计算机执行如本发明实施例一和实施例二的方法。
Claims (16)
1.一种基于评价的数据查询方法,其特征在于,包括:
从多个网站获取各实体的评价数据和所述各实体的基本信息;
根据所述各实体的评价数据和所述各实体的基本信息,提取所述各实体的标签,所述标签用于表示用户对实体的观点;
对所述各实体的评价数据进行过滤处理;
根据所述各实体的基本信息、所述各实体的标签和过滤后的所述各实体的评价数据,聚合得到具有相同标签的同一类实体的评价数据;
根据检索语句和聚合得到的各标签的同一类实体的评价数据,查询得到目标实体的信息,所述检索语句中包括实体的类型和实体的标签,所述目标实体为与所述检索语句中包括的实体的类型和标签匹配的一类实体,所述目标实体的信息包括所述目标实体的基本信息和所述目标实体的评价信息。
2.根据权利要求1所述的方法,其特征在于,根据所述各实体的评价数据,提取所述各实体的标签之前,还包括:
获取预设周期内各类实体对应的检索词条以及检索词条的检索次数;
根据所述各实体的评价数据和所述各实体的基本信息,提取所述各实体的标签,包括:
根据所述各实体的评价数据、所述各实体的基本信息和所述预设周期内各类实体对应的检索词条以及检索词条的检索次数,提取所述各实体的标签。
3.根据权利要求2所述的方法,其特征在于,从多个网站获取所述各实体的基本信息,包括:
从所述各网站获取所述各实体的原始信息,所述原始信息包括实体的名称、类型和关键词;
根据所述各实体的名称、类型和关键词,识别出相同实体,得到所述各实体的基本信息。
4.根据权利要求1所述的方法,其特征在于,对所述各实体的评价数据进行过滤处理,包括:
对所述各实体的评论进行质量打分,删除质量打分低于分数阈值的评价数据;
对所述各实体的评论进行敏感词标记,删除包含敏感词的评价数据。
5.根据权利要求4所述的方法,其特征在于,根据所述各实体的基本信息、所述各实体的标签和过滤后的所述各实体的评价数据,聚合得到同一类实体的相同标签之前,还包括:
对所述各实体的标签进行匹配,删除所述各实体的标签中与实体的类型不匹配的标签;
对所述各实体的评论进行情感分析,得到情感打分。
6.根据权利要求5所述的方法,其特征在于,还包括:
根据所述各实体的情感打分,获取所述各实体的情感波动数据;
所述目标实体的信息还包括:实体的情感波动数据。
7.根据权利要求1所述的方法,其特征在于,在聚合得到具有相同标签的同一类实体的评价数据之后,还包括:
对各标签的同一类实体的评价数据进行去重。
8.一种基于评价的数据查询装置,其特征在于,包括:
第一获取模块,用于从多个网站获取各实体的评价数据和所述各实体的基本信息;
标签提取模块,用于根据所述各实体的评价数据和所述各实体的基本信息,提取所述各实体的标签,所述标签用于表示用户对实体的观点;
过滤模块,用于对所述各实体的评价数据进行过滤处理;
聚合模块,用于根据所述各实体的基本信息、所述各实体的标签和过滤后的所述各实体的评价数据,聚合得到具有相同标签的同一类实体的评价数据;
查询模块,用于根据检索语句和聚合得到的各标签的同一类实体的评价数据,查询得到目标实体的信息,所述检索语句中包括实体的类型和实体的标签,所述目标实体为与所述检索语句中包括的实体的类型和标签匹配的一类实体,所述目标实体的信息包括所述目标实体的基本信息和所述目标实体的评价信息。
9.根据权利要求8所述的装置,其特征在于,还包括:
第二获取模块,用于获取预设周期内各类实体对应的检索词条以及检索词条的检索次数;
所述标签提取模块具体用于:
根据所述各实体的评价数据、所述各实体的基本信息和所述预设周期内各类实体对应的检索词条以及检索词条的检索次数,提取所述各实体的标签。
10.根据权利要求9所述的装置,其特征在于,所述第一获取模块具体用于:从所述各网站获取所述各实体的原始信息,所述原始信息包括实体的名称、类型和关键词;
根据所述各实体的名称、类型和关键词,识别出相同实体,得到所述各实体的基本信息。
11.根据权利要求8所述的装置,其特征在于,所述过滤模块具体用于:对所述各实体的评论进行质量打分,删除质量打分低于分数阈值的评价数据;
对所述各实体的评论进行敏感词标记,删除包含敏感词的评价数据。
12.根据权利要求11所述的装置,其特征在于,还包括:
标签匹配模块,用于对所述各实体的标签进行匹配,删除所述各实体的标签中与实体的类型不匹配的标签;
情感分析模块,用于对所述各实体的评论进行情感分析,得到情感打分;
排序模块,用于对所述各实体的评论按照访问热度进行排序,或者,对所述各实体的评论进行打散排序。
13.根据权利要求12所述的装置,其特征在于,还包括:
第三获取模块,用于根据所述各实体的情感打分,获取所述各实体的情感波动数据;
所述目标实体的信息还包括:实体的情感波动数据。
14.根据权利要求8所述的装置,其特征在于,还包括:
去重模块,用于对各标签的同一类实体的评价数据进行去重。
15.一种服务器,其特征在于,包括处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述服务器执行如权利要求1-7任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,使得计算机执行如权利要求1-7任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810709407.XA CN108984675B (zh) | 2018-07-02 | 2018-07-02 | 基于评价的数据查询方法和装置 |
US16/458,527 US11176142B2 (en) | 2018-07-02 | 2019-07-01 | Method of data query based on evaluation and device |
EP19183934.9A EP3564828A1 (en) | 2018-07-02 | 2019-07-02 | Method of data query based on evaluation and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810709407.XA CN108984675B (zh) | 2018-07-02 | 2018-07-02 | 基于评价的数据查询方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108984675A true CN108984675A (zh) | 2018-12-11 |
CN108984675B CN108984675B (zh) | 2019-08-13 |
Family
ID=64539525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810709407.XA Active CN108984675B (zh) | 2018-07-02 | 2018-07-02 | 基于评价的数据查询方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11176142B2 (zh) |
EP (1) | EP3564828A1 (zh) |
CN (1) | CN108984675B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800240A (zh) * | 2018-12-13 | 2019-05-24 | 平安科技(深圳)有限公司 | Sql语句归类方法、装置、计算机设备和存储介质 |
CN109993450A (zh) * | 2019-04-09 | 2019-07-09 | 湖南人文科技学院 | 电影评分方法、装置、设备及存储介质 |
CN110084687A (zh) * | 2019-05-15 | 2019-08-02 | 苗原 | 一种通过在购物过程中提供用户反馈信息的用户支持方法 |
CN110310120A (zh) * | 2019-07-08 | 2019-10-08 | 湖南共睹互联网科技有限责任公司 | 基于见证人参与的保障交易方法、装置及存储介质 |
CN110737845A (zh) * | 2019-10-15 | 2020-01-31 | 精硕科技(北京)股份有限公司 | 一种实现信息分析的方法、计算机存储介质及系统 |
CN111337015A (zh) * | 2020-02-28 | 2020-06-26 | 重庆特斯联智慧科技股份有限公司 | 一种基于商圈聚合大数据的实景导航方法与系统 |
CN111382262A (zh) * | 2020-03-19 | 2020-07-07 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN112860750A (zh) * | 2021-03-11 | 2021-05-28 | 广州市网星信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN113139838A (zh) * | 2021-05-10 | 2021-07-20 | 上海华客信息科技有限公司 | 酒店服务评价方法、系统、设备及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178586B (zh) * | 2019-12-06 | 2022-09-23 | 浙江工业大学 | 网络爱国舆情事件跟踪、预测和疏导方法 |
CN112819543A (zh) * | 2021-02-18 | 2021-05-18 | 北京城市网邻信息技术有限公司 | 信息展示方法、装置、计算机可读存储介质及电子设备 |
CN113051380B (zh) * | 2021-03-23 | 2023-07-25 | 北京百度网讯科技有限公司 | 信息生成方法、装置、电子设备和存储介质 |
CN113535813B (zh) * | 2021-06-30 | 2023-07-28 | 北京百度网讯科技有限公司 | 一种数据挖掘方法、装置、电子设备以及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778168A (zh) * | 2012-10-26 | 2014-05-07 | 北京华购网络技术有限公司 | 一种全网页评论、评论查询方法、装置及其系统 |
CN103886081A (zh) * | 2014-03-26 | 2014-06-25 | 海信集团有限公司 | 一种信息发送方法及系统 |
US20140188897A1 (en) * | 2013-01-02 | 2014-07-03 | CrowdChunk LLC | CrowdChunk System, Method and Computer Program Product for Searching Summaries of Mobile Apps Reviews |
CN105488705A (zh) * | 2015-11-23 | 2016-04-13 | 深圳正品创想科技有限公司 | 网上购物辅助系统及方法 |
CN106528676A (zh) * | 2016-10-31 | 2017-03-22 | 北京百度网讯科技有限公司 | 基于人工智能的实体语义检索处理方法及装置 |
CN106528611A (zh) * | 2016-09-28 | 2017-03-22 | 西南交通大学 | 一种基于互联网点评数据的分析方法 |
US9659084B1 (en) * | 2013-03-25 | 2017-05-23 | Guangsheng Zhang | System, methods, and user interface for presenting information from unstructured data |
CN107169020A (zh) * | 2017-04-07 | 2017-09-15 | 南京邮电大学 | 一种基于关键字的定向网页采集方法 |
CN108182175A (zh) * | 2017-12-29 | 2018-06-19 | 中国银联股份有限公司 | 一种文本质量指标获取方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6785671B1 (en) * | 1999-12-08 | 2004-08-31 | Amazon.Com, Inc. | System and method for locating web-based product offerings |
US6963867B2 (en) * | 1999-12-08 | 2005-11-08 | A9.Com, Inc. | Search query processing to provide category-ranked presentation of search results |
US20080313130A1 (en) * | 2007-06-14 | 2008-12-18 | Northwestern University | Method and System for Retrieving, Selecting, and Presenting Compelling Stories form Online Sources |
US8001003B1 (en) * | 2007-09-28 | 2011-08-16 | Amazon Technologies, Inc. | Methods and systems for searching for and identifying data repository deficits |
US20180047071A1 (en) * | 2012-07-24 | 2018-02-15 | Ebay Inc. | System and methods for aggregating past and predicting future product ratings |
-
2018
- 2018-07-02 CN CN201810709407.XA patent/CN108984675B/zh active Active
-
2019
- 2019-07-01 US US16/458,527 patent/US11176142B2/en active Active
- 2019-07-02 EP EP19183934.9A patent/EP3564828A1/en not_active Ceased
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778168A (zh) * | 2012-10-26 | 2014-05-07 | 北京华购网络技术有限公司 | 一种全网页评论、评论查询方法、装置及其系统 |
US20140188897A1 (en) * | 2013-01-02 | 2014-07-03 | CrowdChunk LLC | CrowdChunk System, Method and Computer Program Product for Searching Summaries of Mobile Apps Reviews |
US9659084B1 (en) * | 2013-03-25 | 2017-05-23 | Guangsheng Zhang | System, methods, and user interface for presenting information from unstructured data |
CN103886081A (zh) * | 2014-03-26 | 2014-06-25 | 海信集团有限公司 | 一种信息发送方法及系统 |
CN105488705A (zh) * | 2015-11-23 | 2016-04-13 | 深圳正品创想科技有限公司 | 网上购物辅助系统及方法 |
CN106528611A (zh) * | 2016-09-28 | 2017-03-22 | 西南交通大学 | 一种基于互联网点评数据的分析方法 |
CN106528676A (zh) * | 2016-10-31 | 2017-03-22 | 北京百度网讯科技有限公司 | 基于人工智能的实体语义检索处理方法及装置 |
CN107169020A (zh) * | 2017-04-07 | 2017-09-15 | 南京邮电大学 | 一种基于关键字的定向网页采集方法 |
CN108182175A (zh) * | 2017-12-29 | 2018-06-19 | 中国银联股份有限公司 | 一种文本质量指标获取方法及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800240A (zh) * | 2018-12-13 | 2019-05-24 | 平安科技(深圳)有限公司 | Sql语句归类方法、装置、计算机设备和存储介质 |
CN109800240B (zh) * | 2018-12-13 | 2024-03-22 | 平安科技(深圳)有限公司 | Sql语句归类方法、装置、计算机设备和存储介质 |
CN109993450A (zh) * | 2019-04-09 | 2019-07-09 | 湖南人文科技学院 | 电影评分方法、装置、设备及存储介质 |
CN110084687A (zh) * | 2019-05-15 | 2019-08-02 | 苗原 | 一种通过在购物过程中提供用户反馈信息的用户支持方法 |
CN110310120A (zh) * | 2019-07-08 | 2019-10-08 | 湖南共睹互联网科技有限责任公司 | 基于见证人参与的保障交易方法、装置及存储介质 |
CN110310120B (zh) * | 2019-07-08 | 2022-02-11 | 湖南共睹互联网科技有限责任公司 | 基于见证人参与的保障交易方法、装置及存储介质 |
CN110737845A (zh) * | 2019-10-15 | 2020-01-31 | 精硕科技(北京)股份有限公司 | 一种实现信息分析的方法、计算机存储介质及系统 |
CN111337015A (zh) * | 2020-02-28 | 2020-06-26 | 重庆特斯联智慧科技股份有限公司 | 一种基于商圈聚合大数据的实景导航方法与系统 |
CN111382262A (zh) * | 2020-03-19 | 2020-07-07 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN112860750A (zh) * | 2021-03-11 | 2021-05-28 | 广州市网星信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN112860750B (zh) * | 2021-03-11 | 2023-11-17 | 广州市网星信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN113139838A (zh) * | 2021-05-10 | 2021-07-20 | 上海华客信息科技有限公司 | 酒店服务评价方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3564828A1 (en) | 2019-11-06 |
CN108984675B (zh) | 2019-08-13 |
US20190332602A1 (en) | 2019-10-31 |
US11176142B2 (en) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984675B (zh) | 基于评价的数据查询方法和装置 | |
Zhao et al. | Connecting social media to e-commerce: Cold-start product recommendation using microblogging information | |
CN105808685B (zh) | 推广信息的推送方法及装置 | |
Goh et al. | Analyzing and forecasting tourism demand: A rough sets approach | |
KR101419504B1 (ko) | 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법 | |
US10685181B2 (en) | Linguistic expression of preferences in social media for prediction and recommendation | |
Chehal et al. | Implementation and comparison of topic modeling techniques based on user reviews in e-commerce recommendations | |
US8868570B1 (en) | Selection and display of online content items | |
WO2018040069A1 (zh) | 信息推荐系统及方法 | |
CN105488233A (zh) | 阅读信息推荐方法和系统 | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
CN106445963B (zh) | App平台的广告索引关键词自动生成方法和装置 | |
CN103744887A (zh) | 一种用于人物搜索的方法、装置和计算机设备 | |
CN111125491A (zh) | 商品信息的搜索方法和装置、存储介质及电子装置 | |
Kamath et al. | Board Recommendation in Pinterest. | |
US10366343B1 (en) | Machine learning-based literary work ranking and recommendation system | |
Bibi et al. | Public perception based recommendation system for cryptocurrency | |
CN103425705A (zh) | 一种否定关键词的获取方法及装置和搜索方法及装置 | |
CN112488854A (zh) | 服务经理个性化推荐方法和相关设备 | |
CN112214663A (zh) | 获取舆情声量的方法、系统、装置、存储介质及移动终端 | |
CN112288510A (zh) | 物品推荐方法、装置、设备及存储介质 | |
US20140278983A1 (en) | Using entity repository to enhance advertisement display | |
CN104462151B (zh) | 评估网页发布时间的方法和相关装置 | |
CN109064191A (zh) | 车源数据解析方法、装置及电子设备 | |
KR101318843B1 (ko) | 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |