CN112329462A - 一种数据排序方法、装置、电子设备及存储介质 - Google Patents

一种数据排序方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112329462A
CN112329462A CN202011350188.4A CN202011350188A CN112329462A CN 112329462 A CN112329462 A CN 112329462A CN 202011350188 A CN202011350188 A CN 202011350188A CN 112329462 A CN112329462 A CN 112329462A
Authority
CN
China
Prior art keywords
keyword
data
user
emotion
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011350188.4A
Other languages
English (en)
Other versions
CN112329462B (zh
Inventor
廖露阳
彭飞
邓竹立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 58 Information Technology Co Ltd
Original Assignee
Beijing 58 Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 58 Information Technology Co Ltd filed Critical Beijing 58 Information Technology Co Ltd
Priority to CN202011350188.4A priority Critical patent/CN112329462B/zh
Publication of CN112329462A publication Critical patent/CN112329462A/zh
Application granted granted Critical
Publication of CN112329462B publication Critical patent/CN112329462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据排序方法、装置、电子设备及存储介质。所述方法,包括:获取目标用户的用户标识,以及待排序的多个目标数据;针对任一所述目标数据,提取目标数据的关键词,并从用户情感评分矩阵中获取所述目标用户针对每个所述关键词的关键词评分值;基于所述目标用户针对每个所述关键词的关键词评分值,获取所述目标数据的情感评分值;根据所述情感评分值对每个所述目标数据进行排序,得到数据排序列表;其中,所述关键词评分值为根据所述用户发布的文本数据的情感倾向获取得到,所述情感倾向为通过对所述文本数据进行文本情感分析获取得到。从而将用户认同度更强的目标数据靠前排列,有效提升用户的点击转化率和用户信任感和使用粘性。

Description

一种数据排序方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据排序方法、装置、电子设备及存储介质。
背景技术
随着互联网的发展,各种网络应用油然而生。网民在互联网上可以发表各种言论,而且商家等业务数据提供方也可以提供多种数据以供用户浏览选择。而且各条数据在展示时的排序对相应数据是否被用户选择会产生较大影响。以搜索业务为例,搜索功能作为一个垂直业务,为各个业务线提供了一个重要的流量分发入口。各个搜索结果的排序会对用户的选择产生较大影响,排序越靠前用户选择的概率也更大,如果排序靠前的搜索结果中有对用户较为消极评价的内容,会一定程度上影响用户的点击率,反之,如果排序靠前的结果该用户基本都是正向评价的内容,则会一定程度上提高用户点击率和提升用户对搜索的可信度。
目前相关技术中主要是根据搜索词,返回跟搜索词匹配比较相近的结果,主要关注的是搜索词跟结果的匹配准确性这一维度,并未考虑到不同用户对于不同内容的情感差异特点,从而影响数据排序结果与用户情感需求的匹配度,以及数据的点击转化率和搜索排序结果的准确性。
发明内容
本发明实施例提供一种数据排序方法、装置、电子设备及存储介质,以解决现有的数据排序结果与用户情感需求的匹配度较低,从而影响数据的点击转化率和搜索排序结果的准确性的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种数据排序方法,包括:
获取目标用户的用户标识,以及待排序的多个目标数据;
针对任一所述目标数据,提取所述目标数据的关键词,并从用户情感评分矩阵中获取所述目标用户针对每个所述关键词的关键词评分值,所述用户情感评分矩阵中包含任一用户针对任一关键词的关键词评分值,所述关键词评分值用于标识所述目标用户针对所述关键词的情感倾向级别;
基于所述目标用户针对每个所述关键词的关键词评分值,获取所述目标数据的情感评分值,其中,所述情感评分值用于标识所述目标用户针对所述目标数据的情感倾向级别;
根据所述情感评分值对每个所述目标数据进行排序,得到数据排序列表;
其中,所述关键词评分值为根据所述用户发布的文本数据的情感倾向获取得到,所述情感倾向为通过对所述文本数据进行文本情感分析获取得到。
可选地,所述从用户情感评分矩阵中获取所述目标用户针对每个所述关键词的关键词评分值的步骤之前,还包括:
针对任一用户,获取所述用户发布的文本数据;
针对所述文本数据中的任意一条文本内容,获取所述文本内容的情感倾向,并获取所述文本内容中的关键词;
根据所述文本数据中每个文本内容的情感倾向,确定所述用户针对每个所述关键词的关键词评分值,并构建所述用户情感评分矩阵。
可选地,所述根据所述文本数据中每个文本内容的情感倾向,确定所述用户针对每个所述关键词的关键词评分值的步骤,包括:
针对所述文本数据中任一文本内容,响应于所述文本内容的情感倾向为正向,在所述用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值增加第一数值;
响应于所述文本内容的情感倾向为负向,在所述用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值降低第二数值。
可选地,所述获取所述文本内容中的关键词的步骤,包括:
基于关键词数据集,获取所述文本内容中包含的初始关键词,所述关键词数据集中包含至少一个关键词;
统计每个所述初始关键词在所述文本内容中的出现次数,并获取出现次数最多的K个初始关键词,作为所述文本内容的关键词,K为正整数。
可选地,所述获取所述文本内容的情感倾向的步骤,包括:
对所述文本内容进行分词处理,得到所述文本内容的分词列表;
根据所述分词列表,获取所述文本内容的情感得分;
响应于所述情感得分为正值,确定所述文本内容的情感倾向为正向;
响应于所述情感得分为负值,确定所述文本内容的情感倾向为负向。
可选地,所述根据所述分词列表,获取所述文本内容的情感得分的步骤,包括:
过滤掉所述分词列表中的否定词,并筛选过滤后的分词列表中的目标分词,所述目标分词包括情感分词、停用分词、副词中的至少一种;
根据所述目标分词,获取所述文本内容的情感得分。
可选地,所述基于所述目标用户针对每个所述关键词的关键词评分值,获取所述目标数据的情感评分值的步骤,包括:
获取所述目标数据中每个关键词的关键词评分值的平均值,得到所述目标数据的情感评分值。
可选地,所述根据所述情感评分值对每个所述目标数据进行排序,得到数据排序列表的步骤,包括:
根据每个所述目标数据的情感评分值和默认的初始排序评分值,以及情感评分权重,获取每个所述目标数据的最终排序评分值;
按照每个所述目标数据的最终排序评分值从高到低的顺序,对每个所述目标数据进行排序,得到数据排序列表。
可选地,所述目标数据包括基于所述目标用户设置的查询词返回的搜索结果数据,所述搜索结果数据的初始排序评分值基于所述搜索结果数据与所述查询词之间的匹配度确定得到,所述文本数据包括帖子、回帖、评论中的至少一种。
第二方面,本发明实施例提供了一种数据排序装置,包括:
排序数据获取模块,用于获取目标用户的用户标识,以及待排序的多个目标数据;
关键词评分获取模块,用于针对任一所述目标数据,提取所述目标数据的关键词,并从用户情感评分矩阵中获取所述目标用户针对每个所述关键词的关键词评分值,所述用户情感评分矩阵中包含任一用户针对任一关键词的关键词评分值,所述关键词评分值用于标识所述目标用户针对所述关键词的情感倾向级别;
情感评分获取模块,用于基于所述目标用户针对每个所述关键词的关键词评分值,获取所述目标数据的情感评分值,其中,所述情感评分值用于标识所述目标用户针对所述目标数据的情感倾向级别;
数据排序处理模块,用于根据所述情感评分值对每个所述目标数据进行排序,得到数据排序列表;
其中,所述关键词评分值为根据所述用户发布的文本数据的情感倾向获取得到,所述情感倾向为通过对所述文本数据进行文本情感分析获取得到。
可选地,所述装置,还包括:
文本数据获取模块,用于针对任一用户,获取所述用户发布的文本数据;
文本内容处理模块,用于针对所述文本数据中的任意一条文本内容,获取所述文本内容的情感倾向,并获取所述文本内容中的关键词;
情感评分矩阵维护模块,用于根据所述文本数据中每个文本内容的情感倾向,确定所述用户针对每个所述关键词的关键词评分值,并构建所述用户情感评分矩阵。
可选地,所述情感评分矩阵维护模块,包括:
第一矩阵维护子模块,用于针对所述文本数据中任一文本内容,响应于所述文本内容的情感倾向为正向,在所述用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值增加第一数值;
第二矩阵维护子模块,用于响应于所述文本内容的情感倾向为负向,在所述用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值降低第二数值。
可选地,所述文本内容处理模块,包括:
初始关键词获取子模块,用于基于关键词数据集,获取所述文本内容中包含的初始关键词,所述关键词数据集中包含至少一个关键词;
关键词确认子模块,用于统计每个所述初始关键词在所述文本内容中的出现次数,并获取出现次数最多的K个初始关键词,作为所述文本内容的关键词,K为正整数。
可选地,所述文本内容处理模块,包括:
分词处理子模块,用于对所述文本内容进行分词处理,得到所述文本内容的分词列表;
情感得分子模块,用于根据所述分词列表,获取所述文本内容的情感得分;
第一情感倾向确认子模块,用于响应于所述情感得分为正值,确定所述文本内容的情感倾向为正向;
第二情感倾向确认子模块,用于响应于所述情感得分为负值,确定所述文本内容的情感倾向为负向。
可选地,所述情感得分子模块,具体用于:
过滤掉所述分词列表中的否定词,并筛选过滤后的分词列表中的目标分词,所述目标分词包括情感分词、停用分词、副词中的至少一种;
根据所述目标分词,获取所述文本内容的情感得分。
可选地,所述情感评分获取模块,具体用于:
获取所述目标数据中每个关键词的关键词评分值的平均值,得到所述目标数据的情感评分值。
可选地,所述数据排序处理模块,包括:
排序评分获取子模块,用于根据每个所述目标数据的情感评分值和默认的初始排序评分值,以及情感评分权重,获取每个所述目标数据的最终排序评分值;
数据排序处理子模块,用于按照每个所述目标数据的最终排序评分值从高到低的顺序,对每个所述目标数据进行排序,得到数据排序列表。
可选地,所述目标数据包括基于所述目标用户设置的查询词返回的搜索结果数据,所述搜索结果数据的初始排序评分值基于所述搜索结果数据与所述查询词之间的匹配度确定得到,所述文本数据包括帖子、回帖、评论中的至少一种。
第三方面,本发明实施例另外提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的数据排序方法的步骤。
第四方面,本发明实施例另外提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的数据排序方法的步骤。
在本发明实施例中,通过分析用户以往发帖或回帖等文本数据的情感倾向,同时提取用户发布的文本数据的关键词,建立起用户与相应关键词的用户情感评分矩阵,在针对用户进行数据排序时,可以基于用户情感评分矩阵查找目标数据中包含的每个关键词的关键词评分值,进而得到目标数据的情感评分值,从而根据目标数据的情感评分值对目标数据进行排序,得到最终的排序结果。从而能够将用户认同度更强的目标数据靠前排列,可以有效的提升用户的点击转化率,同时增强用户信任感和使用粘性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种数据排序方法的步骤流程图;
图2是本发明实施例中的另一种数据排序方法的步骤流程图;
图3是本发明实施例中的一种文本情感分析过程的流程示意图;
图4是本发明实施例中的一种数据排序过程流程示意图;
图5是本发明实施例中的一种数据排序装置的结构示意图;
图6是本发明实施例中的另一种数据排序装置的结构示意图;
图7是本发明实施例中的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明实施例中一种数据排序方法的步骤流程图。
步骤110,获取目标用户的用户标识,以及待排序的多个目标数据;
步骤120,针对任一所述目标数据,提取所述目标数据的关键词,并从用户情感评分矩阵中获取所述目标用户针对每个所述关键词的关键词评分值,所述用户情感评分矩阵中包含任一用户针对任一关键词的关键词评分值,所述关键词评分值用于标识所述目标用户针对所述关键词的情感倾向级别,所述关键词评分值为根据所述用户发布的文本数据的情感倾向获取得到;
步骤130,基于所述目标用户针对每个所述关键词的关键词评分值,获取所述目标数据的情感评分值,其中,所述情感评分值用于标识所述目标用户针对所述目标数据的情感倾向级别,所述情感倾向为通过对所述文本数据进行文本情感分析获取得到;
步骤140,根据所述情感评分值对每个所述目标数据进行排序,得到数据排序列表。
在本发明实施例中,为了提高排序结果与用户主观需求的贴合度,可以基于分析用户以往发帖或回帖等文本内容的情感倾向,建立起用户与一些关键词的用户情感评分矩阵,在针对目标数据进行数据排序时则可以提取所述目标数据的关键词,进而基于用户情感评分矩阵,获取所述目标用户针对每个所述关键词的关键词评分值,此后则可以基于所述目标用户针对每个所述关键词的关键词评分值,获取每个所述目标数据的情感评分值,以针对每个所述目标数据进行重新排序,得到最终的排序结果返回给用户。
其中,用户情感评分矩阵中可以包含每个用户针对每个关键词的关键词评分值,而且为了构建用户情感评分矩阵可以获取每个用户历史发布的帖子、回帖、评论等文本数据并进行文本情感分析,以获取每个文本数据的情感倾向,进而基于每个文本数据中包含的关键词以及相应文本数据的情感倾向,构建并周期性地更新用户情感评分矩阵。而且,用户针对关键词的关键词评分值与相应关键词所在的由相应用户发布的文本数据的情感倾向之间的对应关系可以根据需求进行自定义设置,对此本发明实施例不加以限定。
此外,目标数据的情感评分值,与目标用户针对相应目标数据中每个所述关键词的关键词评分值之间的对应关系也可以根据需求进行自定义设置,对此本发明实施例不加以限定。例如,可以设置目标数据的情感评分值为其中包含的每个所述关键词的关键词评分值的均值、方差,等等。
例如,在构建用户情感评分矩阵或者更新用户情感评分矩阵时,当任一用户发表了话题或进行了回帖时,对其发表内容,也即发布的文本数据进行文本情感分析,得出该用户对该文本数据的情感倾向,其中正向表示评价正面,负向表示评价负面。同时,可以对发表内容进行关键词提取,提取的关键词代表了用户发表内容所包含的主要诉求或服务。然后维护用户情感评分矩阵中用户与提取出的关键词的关键词评分值,如果情感倾向为正向,则可以将用户对提取出的关键词的关键词评分值加一,如果情感倾向为负向,则将用户对提取出的关键词的关键词评分值减一。
在为目标用户针对每条目标数据进行排序时,可以查询当前的用户情感评分矩阵,获取目标用户针对目标数据中各个关键词的关键词评分值,得到该条目标数据的关键词列表中每个关键词的关键词评分值,对各个关键词的关键词评分值取均值,作为该条目标数据的情感评分值,在得到每条目标数据的情感评分值之后,则可以根据每条目标数据的情感评分值对每个目标数据进行排序,得到排序后的数据排序列表。
其中,目标数据的排序原则可以根据需求进行自定义设置,对此本发明实施例不加以限定。例如,可以按照情感评分值从大到小的顺序对每个目标数据进行排序,或者也可以按照情感评分值从低到高的顺序对每个目标数据进行排序,等等。
需要说明的是,在本发明实施例中,文本情感分析是自然语言处理(NLP,Neuro-Linguistic Programming)方法中的一种应用,是指通过对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。而情感倾向分析又属于情感分析中的一种,情感倾向分析是指对文本进行褒义(正向)、贬义(负向)、中性的判断。正向评分是指对用户发布的话题或回帖内容,经过文本情感分析之后得出的结论是褒义语义,则理解为用户对这个话题或回帖是正向评分的。
参照图2,在本发明实施例中,在所述步骤120之前,进一步还可以包括:
步骤S1,针对任一用户,获取所述用户发布的文本数据;
步骤S2,针对所述文本数据中的任意一条文本内容,获取所述文本内容的情感倾向,并获取所述文本内容中的关键词;
步骤S3,根据所述文本数据中每个文本内容的情感倾向,确定所述用户针对每个所述关键词的关键词评分值,并构建所述用户情感评分矩阵。
在本发明实施例中,在构建或者更新用户情感评分矩阵时,针对每个用户,可以获取其发布的文本数据,进而针对所述文本数据中的任意一条文本内容,获取所述文本内容的情感倾向,并获取所述文本内容中的关键词,进而可以根据所述文本数据中每个文本内容的情感倾向,确定所述用户针对每个所述关键词的关键词评分值,并构建所述用户情感评分矩阵。
其中,在本发明实施例中,可以通过任何情感倾向分析方法获取文本内容的情感倾向,同时可以通过任何可用方式提取文本内容中的关键词,对此本发明实施例不加以限定。
在本发明实施例中,可以周期性地更新用户情感评分矩阵,用户情感评分矩阵的更新周期可以根据需求进行自定义设置,对此本发明实施例不加以限定。而且,在每次更新用户情感评分矩阵时,可以获取相应周期内用户新发布的文本数据更新自身针对每个关键词的关键词评分值。而且,在本发明实施例中,可以仅构建一个用户情感评分矩阵,其中包含每个用户针对每个关键词的关键词评分值,也可以针对不同用户设置各自的用户情感评分矩阵,且在每个用户的用户情感评分矩阵中存储该用户针对每个关键词的关键词评分值,对此本发明实施例不加以限定。
可选地,在本发明实施例中,所述步骤S3进一步可以包括:
步骤S31,针对所述文本数据中任一文本内容,响应于所述文本内容的情感倾向为正向,在所述用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值增加第一数值;
步骤S32,响应于所述文本内容的情感倾向为负向,在所述用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值降低第二数值。
在实际应用中,如果用户发布的文本内容的情感倾向为正向,则说明相应用户比较认可其中包含的关键词,因此可以提高相应用户针对相应文本内容中包含的关键词的关键词评分值,具体地可以在相应用户对应的用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值增加第一数值。
而如果用户发布的文本内容的情感倾向为负向,则说明相应用户倾向于不认可其中包含的关键词,因此可以降低相应用户针对相应文本内容中包含的关键词的关键词评分值,具体地可以在相应用户对应的用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值降低第二数值。
其中,第一数值和第二数值的具体取值可以根据需求进行自定义设置,而且第一数值和第二数值的取值可以相同,也可以有所不同,对此本发明实施例不加以限定。例如,可以设置第一数值和第二数值均为1。
可选地,在本发明实施例中,获取关键词的过程,具体可以包括:
步骤A1,基于关键词数据集,获取所述文本内容中包含的初始关键词,所述关键词数据集中包含至少一个关键词;
步骤A2,统计每个所述初始关键词在所述文本内容中的出现次数,并获取出现次数最多的K个初始关键词,作为所述文本内容的关键词。
为了提高情感评分值与用户情感的匹配度,所提取的关键词需要能够代表文本内容。因此需要针对一段文本提取一组能够体现该文本所含主要服务或含义的关键词。
在本发明实施例中,可以根据不同业务需求,设置当前业务所需的关键词数据集,其中可以包含业务一些核心服务的关键词,如“找工作”、“找保姆”、“开锁”、“味道不错”、“服务质量好”等关键词。那么在提取文本数据和/或目标数据中的关键词时,可以直接基于关键词数据集,获取所述文本内容中包含的关键词,所述关键词数据集中包含至少一个关键词。例如,可以对文本内容进行分词处理,进而判断处理得到的各个分词是否包含于关键词数据集中,如果在关键词数据集中则可以相应分词作为相应文本内容包含的关键词,否则可以认为相应分词不是相应文本内容包含的关键词。
此外,文本内容可能包含很多包含于关键词数据集中的分词,而且各个分词在同一文本内容中的出现的次数可能有所不同,显然出现次数越多的分词越能代表相应文本内容。因此,在本发明实施例中,为了提高提取的关键词的代表能力,可以从文本内容中获取存在于关键词数据集中且出现次数最多的K个分词,作为相应文本内容的关键词。
具体地,可以基于关键词数据集,获取文本内容中包含的初始关键词,进一步统计每个初始关键词在相应文本内容中的出现次数,并获取出现次数最多的K个初始关键词,作为相应文本内容的关键词。其中,K为正整数,而且K的取值可以根据需求进行自定义设置,对此本发明实施例不加以限定。而如果某一文本内容提取的初始关键词的数量小于K,则可以直接以全部初始关键词作为相应文本内容的关键词,对此本发明实施例不加以限定。
需要说明的是,在本发明实施例中,在提取目标数据的关键词时,获取关键词的具体过程与从文本内容中提取关键词的过程类似,具体可以参照上述从文本内容中提取关键词的过程,在此不加以赘述。
可选地,在本发明实施例中,获取文本内容的情感倾向的过程,具体可以包括:
步骤B1,对所述文本内容进行分词处理,得到所述文本内容的分词列表;
步骤B2,根据所述分词列表,获取所述文本内容的情感得分;
步骤B3,响应于所述情感得分为正值,确定所述文本内容的情感倾向为正向;
步骤B4,响应于所述情感得分为负值,确定所述文本内容的情感倾向为负向。
当用户发布文本内容时,可以对相应文本内容进行文本情感分析,得出相应文本内容的情感倾向,情感倾向为正向表示用户认同相应文本内容所针对的对象,负向表示用户不认同相应文本内容所针对的对象。
那么在对文本内容进行文本情感分析时,可以使用jieba工具等任何可用的分词处理工具对文本内容进行分词处理,得到文本内容的分词列表,进而则可以根据所述分词列表,通过任何可用的文本情感分析算法获取所述文本内容的情感得分。而如果文本内容的情感得分为正值,则可以确定所述文本内容的情感倾向为正向;如果文本内容的情感得分为负值,则可以确定所述文本内容的情感倾向为负向。如果文本内容的情感得分为零,则可以确定相应文本内容的情感倾向为中性,也可以直接忽略相应的文本内容,对此本发明实施例不加以限定。
需要说明的是,在本发明实施例中,用户发布的文本数据可以包括帖子、回帖、评论等任何与文本相关的数据,文本数据中可以包含至少一条文本数据,且文本内容可以理解为一个帖子,或者一个回帖,或者一条评论,等等。而且在提取文本内容中的关键词时,可以提取文本内容中任何文本中的关键词,例如假设文本内容为一个帖子,可以从帖子的主题、帖子的主体内容、帖子的详情信息等各部分中提取关键词。
可选地,在本发明实施例中,所述步骤B2进一步可以包括:
步骤B21,过滤掉所述分词列表中的否定词,并筛选过滤后的分词列表中的目标分词,所述目标分词包括情感分词、停用分词、副词中的至少一种;
步骤B22,根据所述目标分词,获取所述文本内容的情感得分。
另外,在实际应用中,否定词在一定程度上容易影响文本情感分析的准确性,因此在本发明实施例中,为了提高情感分析结果的准确性,可以过滤掉所述分词列表中的否定词,另外还可以对各个分词进行分类别分析,以进一步提高情感分析结果的准确性。其中,在本发明实施例中,可以通过任何可用方式过滤掉所述分词列表中的否定词,并筛选过滤后的分词列表中的目标分词,对此本发明实施例不加以限定。
例如,如图3所示为本发明实施例中的一种文本情感分析的具体过程。此时文本情感分析是基于情感字典的方式进行情感分析,具体过程如下:
a)首先准备情感字典数据集,字典数据集包括:情感字典、停用字字典、副词和否定词字典;
b)数据初始化,将上面准备好的字典数据集读入内存,分别存入到情感字典数组、停用字典数组、副词数组和否定词字典数组;
c)使用jieba工具等任何可用的分词处理工具对文本内容进行分词处理,得到分词列表,将分词列表过滤掉否定词得到新的分词列表newWordsList,然后根据上面的情感字典数组、停用字典数组、副词数组,从newWordsList中获取到当前的文本内容中的情感分词、停用分词和副词等各类目标分词;
d)根据步骤(c)得到的各类目标分词,计算得到文本内容整体的情感得分,如果得分为正则相应文本内容的情感得分为正向,如果得分为负,则相应文本内容的情感得分为负向。
参照图2,在本发明实施例中,所述步骤130进一步可以包括:获取所述目标数据中每个关键词的关键词评分值的平均值,得到所述目标数据的情感评分值。
在本发明实施例中,为了快速获取目标数据的情感评分值,可以直接以其包含的各个关键词的关键词评分值的平均值,作为相应目标数据的情感评分值。
参照图2,在本发明实施例中,所述步骤140进一步可以包括:
步骤141,根据每个所述目标数据的情感评分值和默认的初始排序评分值,以及情感评分权重,获取每个所述目标数据的最终排序评分值;
步骤142,按照每个所述目标数据的最终排序评分值从高到低的顺序,对每个所述目标数据进行排序,得到数据排序列表。
在实际应用中,在针对各个目标数据进行展示等操作时,一般会默认各个目标数据的前后顺序,而且在针对目标数据进行默认排序时,一般是基于默认的初始排序评分值,但是默认的初始排序主要关注的是目标数据与排序时的搜索词等相关词的匹配准确性这一维度,没有考虑到用户对于一些内容的情感差异特点,因此在本发明实施例中,为了综合考虑不同用户的主观情感倾向,以及各个目标数据默认的初始排序,针对每个目标数据,可以结合其情感评分值和相应目标数据默认的初始排序评分值,以及情感评分权重,获取相应目标数据的最终排序评分值。
其中,情感评分权重的取值可以根据需求进行自定义设置,对此本发明实施例不加以限定。而且,在本发明实施例中,可以通过任何可用方式获取目标数据默认的初始排序评分值。
例如,可以根据现有的数据展示或者搜索平台中针对各个目标数据的默认的初始排序列表,根据各个目标数据在初始排序列表中的排序位置,确定各个目标数据的初始排序评分值。假设有10条待排序的目标数据,则当前在初始排序列表中排序第1位到第10位的目标数据的初始排序评分值可以依次分别为100,90,80...10。
针对任一目标数据,在获取得到其情感评分值和默认的初始排序评分值,则可以结合其情感评分值和初始排序评分值,参照情感评分权重,获取相应目标数据的最终排序评分值。例如,最终排序评分值可以为:score=m*(1-w)+n*w,其中m为初始排序评分值,n为情感评分值,w为情感评分权重。
进而可以按照每个所述目标数据的最终排序评分值从高到低的顺序,对每个所述目标数据进行排序,得到数据排序列表。而且在得到数据排序列表之后则可以向目标用户展示相应数据排序列表,从而可以根据不同用户的个性化情感倾向调整各个目标数据的排列顺序,满不同用户的个性化需求,提高用户粘性。
可选地,在本发明实施例中,所述目标数据包括基于所述目标用户设置的查询词返回的搜索结果数据,所述搜索结果数据的初始排序评分值基于所述搜索结果数据与所述查询词之间的匹配度确定得到。
在实际应用中,用户在搜索时,一般会根据用户输入的查询词搜索并返回默认的搜索结果列表,搜索结果列表中可以包括至少一条搜索结果数据。而且,在搜索结果列表中可以根据各个搜索结果数据与所述查询词之间的匹配度确定得到各个搜索结果数据的排列顺序,也即搜索结果数据的初始排序评分值可以基于所述搜索结果数据与所述查询词之间的匹配度确定得到。其中,初始排序评分值与匹配度之间的映射关系可以根据需求进行自定义设置,对此本发明实施例不加以限定。
例如,假设有10条搜索结果数据,可以按照搜索结果数据与所述查询词之间的匹配度从高到低的顺序,依次设置各条搜索结果数据的初始排序评分值分别为100,90,80...10。
另外,在本发明实施例中,如果目标数据为基于所述目标用户设置的查询词返回的搜索结果数据,那么此时也可以目标用户设置的查询词作为各个目标数据的关键词,以获取目标数据的情感评分值,当然也可以不考虑查询词,具体的可以根据需求进行自定义设置,对此本发明实施例不加以限定。
此外,目标数据也可以为未经搜索直接展示的数据,而且目标数据可以为任意一种可以被查询或者展示的数据,例如二手房交易平台中的目标数据可以为房屋信息数据,招聘平台中的目标数据可以为招聘信息数据,家政服务平台中的目标数据可以为家政服务数据,等等。
如图4所示为本发明实施例中的一种数据排序过程流程示意图。具体的执行步骤如下:
假设任一用户A发布了话题或进行了回帖等文本数据,
1、根据用户A发表的文本数据中的任一文本内容,基于文本情感分析得到用户对该文本内容的情感倾向。
本方案中文本情感分析可以基于情感字典的方式进行情感分析,具体过程如下:
a)首先准备情感字典数据集,字典数据集包括:情感字典、停用字字典、副词和否定词字典;
b)数据初始化,将上面准备好的词典数据读入内存,分别存入到情感字典数组、停用字典数组、副词数组和否定词字典数组;
c)使用jieba工具进行分词处理,得到分词列表数据,将分词列表数据过滤掉否定词得到新的分词列表newWordsList,然后根据上面的情感词列表,从newWordsList中获取到当前输入的情感字典、停用字字典和副词字典数据;
d)根据第c步得到的各项分词数据,计算得到输入语句的整体情感得分,如果得分为正则为正向评论,如果得分为负,则为负向评论;
2、提取用户发布的文本内容的关键词,关键词可能包含多个,关键词的提取可以基于关键词数据集进行,具体过程如下:
a)首先准备关键词数据集,关键词数据集主要由一些包含核心服务如“找工作”、“找保姆”、“开锁”等关键词组成的数据集;
b)遍历关键词数据集,查询文本内容中是否有词语命中关键词数据集中的关键词,如果命中,同时计算出该关键词在文本内容中出现的次数,然后记录下该关键词以及关键词出现的次数,作为该文本内容的候选关键词之一;
c)循环遍历完关键词数据集之后,就得到了用户发布的文本内容的一组候选关键词列表,根据各候选关键词的出现次数由高到低进行排序,获取前Top K个关键词,把这K个关键词作为相应文本内容的关键词;
3、维护用户的用户情感评分矩阵,基于第1步获得的情感倾向数据,以及第2步提取到的关键词列表,如果情感倾向为正向,则将该用户下对提取出的所有关键词的关键词评分值加一,如果为负向,则关键词评分值减一;
4、在目标用户搜索时,基于根据用户情感评分矩阵得到的情感评分值,结合初始排序评分值进行排序,具体过程如下:
a)基于目标用户输入的查询词,根据现有搜索策略得到搜索结果列表数据;
b)根据默认的搜索结果列表数据,计算出每条搜索结果的初始排序评分值。例如本次共返回10条搜索结果,则当前排序第1位到第10位的初始排序评分值可以依次分别为100,90,80...10;
c)遍历搜索结果列表,拿到每条搜索结果之后,利用第2步的方案,提取搜索结果的关键词(可以使用搜索结果的标题或副标题作为文本输入获取其关键词),得到该条搜索结果的关键词列表L,然后查询第3步维护的用户情感评分矩阵,得到关键词列表L中每个关键词的关键词评分值,对同一搜索结果的所有关键词的关键词评分值取均值,作为该条搜索结果的情感评分值;
5、根据第4步计算得到的每条搜索结果的初始排序评分值m和情感评分值n,结合情感评分权重w,利用下面公式计算出每条搜索结果的最终排序评分值:score=m*(1-w)+n*w;
6、根据第5步计算出的每条搜索结果的最终排序评分值,对搜索结果列表根据最终排序评分值由高到低重新排序,得到最终优化排序后的搜索结果列表返回给目标用户。
本发明通过分析用户以往发帖或回帖等文本数据的情感倾向,同时提取用户发表内容的关键词,建立起用户与相应关键词的用户情感评分矩阵,在用户进行搜索时,基于已有的搜索策略返回搜索结果列表数据,对返回的结果列表计算出初始排序得分,以及结合用户的用户情感评分矩阵得到情感评分值,根据初始排序评分值和情感评分值计算出每条搜索结果的最终排序评分值,然后根据最终排序评分值进行重新排序,得到最终的搜索排序结果。这样在不改造现有搜索策略的前提下,通过结合用户的情感倾向对搜索结果进行排序优化,既满足了搜索准确性要求,又能够将用户认同度更强的搜索结果靠前展示。可以有效的提升用户的搜索结果点击转化率,同时增强用户信任感和使用粘性。
参照图5,示出了本发明实施例中一种数据排序装置的结构示意图。
本发明实施例的数据排序装置包括:排序数据获取模块210、关键词评分获取模块220、情感评分获取模块230和数据排序处理模块240。
下面分别详细介绍各模块的功能以及各模块之间的交互关系。
排序数据获取模块210,用于获取目标用户的用户标识,以及待排序的多个目标数据;
关键词评分获取模块220,用于针对任一所述目标数据,提取所述目标数据的关键词,并从用户情感评分矩阵中获取所述目标用户针对每个所述关键词的关键词评分值,所述用户情感评分矩阵中包含任一用户针对任一关键词的关键词评分值,所述关键词评分值用于标识所述目标用户针对所述关键词的情感倾向级别;
情感评分获取模块230,用于基于所述目标用户针对每个所述关键词的关键词评分值,获取所述目标数据的情感评分值,其中,所述情感评分值用于标识所述目标用户针对所述目标数据的情感倾向级别;
数据排序处理模块240,用于根据所述情感评分值对每个所述目标数据进行排序,得到数据排序列表;
其中,所述关键词评分值为根据所述用户发布的文本数据的情感倾向获取得到,所述情感倾向为通过对所述文本数据进行文本情感分析获取得到。
参照图6,在本发明实施例中,所述装置,还可以包括:
文本数据获取模块250,用于针对任一用户,获取所述用户发布的文本数据;
文本内容处理模块260,用于针对所述文本数据中的任意一条文本内容,获取所述文本内容的情感倾向,并获取所述文本内容中的关键词;
情感评分矩阵维护模块270,用于根据所述文本数据中每个文本内容的情感倾向,确定所述用户针对每个所述关键词的关键词评分值,并构建所述用户情感评分矩阵。
可选地,在本发明实施例中,所述情感评分矩阵维护模块270,进一步可以包括:
第一矩阵维护子模块,用于针对所述文本数据中任一文本内容,响应于所述文本内容的情感倾向为正向,在所述用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值增加第一数值;
第二矩阵维护子模块,用于响应于所述文本内容的情感倾向为负向,在所述用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值降低第二数值。
可选地,在本发明实施例中,所述文本内容处理模块260,进一步可以包括:
初始关键词获取子模块,用于基于关键词数据集,获取所述文本内容中包含的初始关键词,所述关键词数据集中包含至少一个关键词;
关键词确认子模块,用于统计每个所述初始关键词在所述文本内容中的出现次数,并获取出现次数最多的K个初始关键词,作为所述文本内容的关键词,K为正整数。
可选地,在本发明实施例中,所述文本内容处理模块260,进一步可以包括:
分词处理子模块,用于对所述文本内容进行分词处理,得到所述文本内容的分词列表;
情感得分子模块,用于根据所述分词列表,获取所述文本内容的情感得分;
第一情感倾向确认子模块,用于响应于所述情感得分为正值,确定所述文本内容的情感倾向为正向;
第二情感倾向确认子模块,用于响应于所述情感得分为负值,确定所述文本内容的情感倾向为负向。
可选地,在本发明实施例中,所述情感得分子模块,具体可以用于:
过滤掉所述分词列表中的否定词,并筛选过滤后的分词列表中的目标分词,所述目标分词包括情感分词、停用分词、副词中的至少一种;
根据所述目标分词,获取所述文本内容的情感得分。
可选地,在本发明实施例中,所述情感评分获取模块230,具体可以用于:
获取所述目标数据中每个关键词的关键词评分值的平均值,得到所述目标数据的情感评分值。
可选地,在本发明实施例中,所述数据排序处理模块240,进一步可以包括:
排序评分获取子模块241,用于根据每个所述目标数据的情感评分值和默认的初始排序评分值,以及情感评分权重,获取每个所述目标数据的最终排序评分值;
数据排序处理子模块242,用于按照每个所述目标数据的最终排序评分值从高到低的顺序,对每个所述目标数据进行排序,得到数据排序列表。
可选地,所述目标数据包括基于所述目标用户设置的查询词返回的搜索结果数据,所述搜索结果数据的初始排序评分值基于所述搜索结果数据与所述查询词之间的匹配度确定得到,所述文本数据包括帖子、回帖、评论中的至少一种。
本发明实施例提供的数据排序装置能够实现图1至图2的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
优选的,本发明实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述数据排序方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述数据排序方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
图7为实现本发明各个实施例的一种电子设备的硬件结构示意图。
该电子设备500包括但不限于:射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解,图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
应理解的是,本发明实施例中,射频单元501可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器510处理;另外,将上行的数据发送给基站。通常,射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元501还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块502为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元503还可以提供与电子设备500执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。
输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit,GPU)5041和麦克风5042,图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。
电子设备500还包括至少一种传感器505,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度,接近传感器可在电子设备500移动到耳边时,关闭显示面板5061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元506可包括显示面板5061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板5061。
用户输入单元507可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器510,接收处理器510发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071,用户输入单元507还可以包括其他输入设备5072。具体地,其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板5071可覆盖在显示面板5061上,当触控面板5071检测到在其上或附近的触摸操作后,传送给处理器510以确定触摸事件的类型,随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图7中,触控面板5071与显示面板5061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板5071与显示面板5061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元508为外部装置与电子设备500连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备500内的一个或多个元件或者可以用于在电子设备500和外部装置之间传输数据。
存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器510是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器510可包括一个或多个处理单元;优选的,处理器510可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器510中。
电子设备500还可以包括给各个部件供电的电源511(比如电池),优选的,电源511可以通过电源管理系统与处理器510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备500包括一些未示出的功能模块,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种数据排序方法,其特征在于,包括:
获取目标用户的用户标识,以及待排序的多个目标数据;
针对任一所述目标数据,提取所述目标数据的关键词,并从用户情感评分矩阵中获取所述目标用户针对每个所述关键词的关键词评分值,所述用户情感评分矩阵中包含任一用户针对任一关键词的关键词评分值,所述关键词评分值用于标识所述目标用户针对所述关键词的情感倾向级别;
基于所述目标用户针对每个所述关键词的关键词评分值,获取所述目标数据的情感评分值,其中,所述情感评分值用于标识所述目标用户针对所述目标数据的情感倾向级别;
根据所述情感评分值对每个所述目标数据进行排序,得到数据排序列表;
其中,所述关键词评分值为根据所述用户发布的文本数据的情感倾向获取得到,所述情感倾向为通过对所述文本数据进行文本情感分析获取得到。
2.根据权利要求1所述的方法,其特征在于,所述从用户情感评分矩阵中获取所述目标用户针对每个所述关键词的关键词评分值的步骤之前,还包括:
针对任一用户,获取所述用户发布的文本数据;
针对所述文本数据中的任意一条文本内容,获取所述文本内容的情感倾向,并获取所述文本内容中的关键词;
根据所述文本数据中每个文本内容的情感倾向,确定所述用户针对每个所述关键词的关键词评分值,并构建所述用户情感评分矩阵。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文本数据中每个文本内容的情感倾向,确定所述用户针对每个所述关键词的关键词评分值的步骤,包括:
针对所述文本数据中任一文本内容,响应于所述文本内容的情感倾向为正向,在所述用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值增加第一数值;
响应于所述文本内容的情感倾向为负向,在所述用户情感评分矩阵中,将从所述文本内容中提取到的每个关键词的关键词评分值降低第二数值。
4.根据权利要求2所述的方法,其特征在于,所述获取所述文本内容中的关键词的步骤,包括:
基于关键词数据集,获取所述文本内容中包含的初始关键词,所述关键词数据集中包含至少一个关键词;
统计每个所述初始关键词在所述文本内容中的出现次数,并获取出现次数最多的K个初始关键词,作为所述文本内容的关键词,K为正整数。
5.根据权利要求2所述的方法,其特征在于,所述获取所述文本内容的情感倾向的步骤,包括:
对所述文本内容进行分词处理,得到所述文本内容的分词列表;
根据所述分词列表,获取所述文本内容的情感得分;
响应于所述情感得分为正值,确定所述文本内容的情感倾向为正向;
响应于所述情感得分为负值,确定所述文本内容的情感倾向为负向。
6.根据权利要求5所述的方法,其特征在于,所述根据所述分词列表,获取所述文本内容的情感得分的步骤,包括:
过滤掉所述分词列表中的否定词,并筛选过滤后的分词列表中的目标分词,所述目标分词包括情感分词、停用分词、副词中的至少一种;
根据所述目标分词,获取所述文本内容的情感得分。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述基于所述目标用户针对每个所述关键词的关键词评分值,获取所述目标数据的情感评分值的步骤,包括:
获取所述目标数据中每个关键词的关键词评分值的平均值,得到所述目标数据的情感评分值。
8.根据权利要求1-6中任一项所述的方法,其特征在于,所述根据所述情感评分值对每个所述目标数据进行排序,得到数据排序列表的步骤,包括:
根据每个所述目标数据的情感评分值和默认的初始排序评分值,以及情感评分权重,获取每个所述目标数据的最终排序评分值;
按照每个所述目标数据的最终排序评分值从高到低的顺序,对每个所述目标数据进行排序,得到数据排序列表。
9.根据权利要求8所述的方法,其特征在于,所述目标数据包括基于所述目标用户设置的查询词返回的搜索结果数据,所述搜索结果数据的初始排序评分值基于所述搜索结果数据与所述查询词之间的匹配度确定得到,所述文本数据包括帖子、回帖、评论中的至少一种。
10.一种数据排序装置,其特征在于,包括:
排序数据获取模块,用于获取目标用户的用户标识,以及待排序的多个目标数据;
关键词评分获取模块,用于针对任一所述目标数据,提取所述目标数据的关键词,并从用户情感评分矩阵中获取所述目标用户针对每个所述关键词的关键词评分值,所述用户情感评分矩阵中包含任一用户针对任一关键词的关键词评分值,所述关键词评分值用于标识所述目标用户针对所述关键词的情感倾向级别;
情感评分获取模块,用于基于所述目标用户针对每个所述关键词的关键词评分值,获取所述目标数据的情感评分值,其中,所述情感评分值用于标识所述目标用户针对所述目标数据的情感倾向级别;
数据排序处理模块,用于根据所述情感评分值对每个所述目标数据进行排序,得到数据排序列表;
其中,所述关键词评分值为根据所述用户发布的文本数据的情感倾向获取得到,所述情感倾向为通过对所述文本数据进行文本情感分析获取得到。
11.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的数据排序方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的数据排序方法的步骤。
CN202011350188.4A 2020-11-26 2020-11-26 一种数据排序方法、装置、电子设备及存储介质 Active CN112329462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011350188.4A CN112329462B (zh) 2020-11-26 2020-11-26 一种数据排序方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011350188.4A CN112329462B (zh) 2020-11-26 2020-11-26 一种数据排序方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112329462A true CN112329462A (zh) 2021-02-05
CN112329462B CN112329462B (zh) 2024-02-20

Family

ID=74308909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011350188.4A Active CN112329462B (zh) 2020-11-26 2020-11-26 一种数据排序方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112329462B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597767A (zh) * 2021-02-07 2021-04-02 全时云商务服务股份有限公司 卡片消息定制管理方法、系统及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170052946A1 (en) * 2014-06-06 2017-02-23 Siyu Gu Semantic understanding based emoji input method and device
CN109214008A (zh) * 2018-09-28 2019-01-15 珠海中科先进技术研究院有限公司 一种基于关键词提取的情感分析方法及系统
CN109271512A (zh) * 2018-08-29 2019-01-25 中国平安保险(集团)股份有限公司 舆情评论信息的情感分析方法、装置及存储介质
CN109325165A (zh) * 2018-08-29 2019-02-12 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
US20190318407A1 (en) * 2015-07-17 2019-10-17 Devanathan GIRIDHARI Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN111666757A (zh) * 2019-02-21 2020-09-15 北京京东尚科信息技术有限公司 商品评论情感倾向分析方法、装置、设备和可读存储介质
CN111767725A (zh) * 2020-06-24 2020-10-13 中国平安财产保险股份有限公司 一种基于情感极性分析模型的数据处理方法及装置
CN111881360A (zh) * 2020-08-12 2020-11-03 杭州安恒信息技术股份有限公司 一种舆情数据处理的方法、系统、设备及可读存储介质
US20210097238A1 (en) * 2017-08-29 2021-04-01 Ping An Technology (Shenzhen) Co., Ltd. User keyword extraction device and method, and computer-readable storage medium

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170052946A1 (en) * 2014-06-06 2017-02-23 Siyu Gu Semantic understanding based emoji input method and device
US20190318407A1 (en) * 2015-07-17 2019-10-17 Devanathan GIRIDHARI Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
US20210097238A1 (en) * 2017-08-29 2021-04-01 Ping An Technology (Shenzhen) Co., Ltd. User keyword extraction device and method, and computer-readable storage medium
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN109271512A (zh) * 2018-08-29 2019-01-25 中国平安保险(集团)股份有限公司 舆情评论信息的情感分析方法、装置及存储介质
CN109325165A (zh) * 2018-08-29 2019-02-12 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
CN109214008A (zh) * 2018-09-28 2019-01-15 珠海中科先进技术研究院有限公司 一种基于关键词提取的情感分析方法及系统
CN111666757A (zh) * 2019-02-21 2020-09-15 北京京东尚科信息技术有限公司 商品评论情感倾向分析方法、装置、设备和可读存储介质
CN111767725A (zh) * 2020-06-24 2020-10-13 中国平安财产保险股份有限公司 一种基于情感极性分析模型的数据处理方法及装置
CN111881360A (zh) * 2020-08-12 2020-11-03 杭州安恒信息技术股份有限公司 一种舆情数据处理的方法、系统、设备及可读存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
张亚娜;高子婷;胡溢;杨成;: "融媒体新闻生产中的中文评论关键词提取", 人工智能, no. 02, pages 58 - 67 *
李涵昱;钱力;周鹏飞;: "面向商品评论文本的情感分析与挖掘", 情报科学, no. 01, pages 53 - 57 *
樊振;过弋;张振豪;韩美琪;: "基于词典和弱标注信息的电影评论情感分析", 计算机应用, no. 11, pages 38 - 42 *
王永;陶娅芝;张勤;: "中文网络评论中的产品特征情感倾向提取算法研究", 重庆邮电大学学报(自然科学版), no. 01, pages 79 - 87 *
闫贺;白璐璐;张晓如;张再跃;: "基于模糊综合评价的美团评论数据情感分析", 软件导刊, no. 07 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597767A (zh) * 2021-02-07 2021-04-02 全时云商务服务股份有限公司 卡片消息定制管理方法、系统及可读存储介质

Also Published As

Publication number Publication date
CN112329462B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN109241431B (zh) 一种资源推荐方法和装置
US20170091335A1 (en) Search method, server and client
CN110096580B (zh) 一种faq对话方法、装置及电子设备
CN109561211B (zh) 一种信息显示方法及移动终端
CN106294308B (zh) 命名实体识别方法及装置
CN108494665B (zh) 一种群消息显示方法及移动终端
CN107958042B (zh) 一种目标专题的推送方法及移动终端
CN110209810B (zh) 相似文本识别方法以及装置
WO2021120875A1 (zh) 搜索方法、装置、终端设备及存储介质
CN112689201B (zh) 弹幕信息识别方法、显示方法、服务器及电子设备
CN108427761B (zh) 一种新闻事件处理的方法、终端、服务器及存储介质
CN110019840B (zh) 一种知识图谱中实体更新的方法、装置和服务器
CN110162653B (zh) 一种图文排序推荐方法及终端设备
CN110276010A (zh) 一种权重模型训练方法和相关装置
CN116070114A (zh) 数据集的构建方法、装置、电子设备及存储介质
CN111125307A (zh) 一种聊天记录查询方法及电子设备
CN109063076B (zh) 一种图片生成方法及移动终端
CN112329462B (zh) 一种数据排序方法、装置、电子设备及存储介质
CN110908751B (zh) 信息显示、收藏的方法、装置、电子设备及介质
CN110378798B (zh) 异构社交网络构建方法、群组推荐方法、装置及设备
CN111080305A (zh) 一种风险识别方法、装置及电子设备
CN116307394A (zh) 产品用户体验评分方法、装置、介质及设备
CN113505596B (zh) 话题切换标记方法、装置及计算机设备
CN111353422B (zh) 信息提取方法、装置及电子设备
CN113360796A (zh) 数据排序方法及装置、数据排序模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant