CN112559841A - 物品评论的处理方法、系统、电子设备及可读存储介质 - Google Patents
物品评论的处理方法、系统、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN112559841A CN112559841A CN201910911719.3A CN201910911719A CN112559841A CN 112559841 A CN112559841 A CN 112559841A CN 201910911719 A CN201910911719 A CN 201910911719A CN 112559841 A CN112559841 A CN 112559841A
- Authority
- CN
- China
- Prior art keywords
- attribute
- word segmentation
- similarity
- module
- participles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种物品评论的处理方法、系统、电子设备及可读存储介质,所述处理方法包括:构建一物品类目的属性列表;爬取一预设时间段内物品类目下的一目标物品的所有评论数据;对评论数据进行分词处理,得到多个分词;对每个分词进行情感分析,并将表征同一情感的分词划分至同一个分词集合;对每个分词集合,计算每个属性与分词集合中的分词的相似度,并统计相似度大于相似度阈值的频次;根据频次将属性进行降序或升序排列,生成属性评价列表,属性评价列表用于表征用户对目标物品的属性的评价。本发明从物品评论的中提取关联物品属性的词汇,并提炼出关于物品属性数据的统计,从而得到用户对该物品的评价如好评或差评。
Description
技术领域
本发明属于大数据处理领域,特别涉及一种物品评论的处理方法、系统、电子设备及可读存储介质。
背景技术
物品评论的自动处理涉及到大数据技术、机器学习、自然语言处理等前沿技术,互联网公司拥有海量的物品评论数据,包括基于简单规则(如物品星级评价、差评等)的数据描述,还有用户的主观评论数据,主要包括文本数据、图片数据等,目前物品评论的处理主要是通过人工来统计数据,给定的简单规则基础下将物品评论排序,选取满足规则的评论作为有参考价值的评论,进行人工分析,导致不能完全覆盖物品评论词自动分析和处理,且,通过人工标注方式,效率低,无法分析海量数据,达不到自动化的效果,适用范围不广。
发明内容
本发明实施例要解决的技术问题是为了克服现有技术中物品评论处理自动化程度不高且标注效率低的缺陷,提供一种物品评论的处理方法、系统、电子设备及可读存储介质。
本发明实施例是通过下述技术方案来解决上述技术问题:
一种物品评论的处理方法,所述处理方法包括:
构建一物品类目的属性列表,所述属性列表包括所述物品类目下所有物品的属性类目及每个属性类目相应的属性;
爬取一预设时间段内所述物品类目下的一目标物品的所有评论数据;
对所述评论数据进行分词处理,得到多个分词;
对每个分词进行情感分析,并基于不同的情感对所述多个分词进行分类;
将表征同一情感的分词划分至同一个分词集合;
对每个分词集合,计算每个属性与所述分词集合中的分词的相似度,并统计所述相似度大于相似度阈值的频次;
根据所述频次将所述属性进行降序或升序排列,生成属性评价列表,所述属性评价列表用于表征用户对所述目标物品的属性的评价。
较佳地,所述计算每个属性与所述分词集合中的分词的相似度的步骤具体包括:
按照音形编码规则分别对所述属性和所述分词集合中的分词进行转换,生成对应的音形编码;
基于编辑距离计算模型计算所述属性的音形编码与所述分词集合中的分词的音形编码的相似程度得到所述相似度。
较佳地,所述对每个分词集合,计算每个属性与所述分词集合中的分词的相似度,并统计所述相似度大于相似度阈值的频次的步骤之前,所述处理方法还包括:
将所述分词集合拆分为多个分词子集合;
多线程同时对所述多个分词子集合进行所述相似度的计算;
将每个分词子集合的计算结果进行合并;
根据合并后的计算结果得到所述频次。
较佳地,所述爬取一预设时间段内所述物品类目下一目标物品的所有评论数据的步骤之后,所述处理方法还包括:
对所述评论数据进行预处理,滤除无效评论数据;
所述对所述评论数据进行分词处理,得到多个分词的步骤中,对滤除后的评论数据进行分词处理。
较佳地,所述对所述评论数据进行分词处理,得到多个分词的步骤之后,所述处理方法还包括:
去除分词处理后的多个分词中的停用词,所述停用词包括语气助词、副词、介词和连接词中的至少一个;
所述对每个分词进行情感分析,并基于不同的情感对所述多个分词进行分类的步骤中,对去除停用词后的分词进行分类。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的物品评论的处理方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的物品评论的处理方法的步骤。
一种物品评论的处理系统,所述处理系统包括属性列表构建模块、评论数据获取模块、分词模块、分类模块、统计模块和列表生成模块;
所述属性列表构建模块用于构建一物品类目的属性列表,所述属性列表包括所述物品类目下所有物品的属性类目及每个属性类目相应的属性;
所述评论数据获取模块用于爬取一预设时间段内所述物品类目下的一目标物品的所有评论数据;
所述分词模块用于对所述评论数据进行分词处理,得到多个分词;
所述分类模块用于对每个分词进行情感分析,并基于不同的情感对所述多个分词进行分类,并将表征同一情感的分词划分至同一个分词集合;
所述统计模块用于对每个分词集合,计算每个属性与所述分词集合中的分词的相似度,并统计所述相似度大于相似度阈值的频次;
所述列表生成模块用于根据所述频次将所述属性进行降序或升序排列,生成属性评价列表,所述属性评价列表用于表征用户对所述目标物品的属性的评价。
较佳地,所述统计模块包括转换单元和相似度计算单元;
所述转换单元用于按照音形编码规则分别对所述属性和所述分词集合中的分词进行转换,生成对应的音形编码;
所述相似度计算单元用于基于编辑距离计算模型计算所述属性的音形编码与所述分词集合中的分词的音形编码的相似程度得到所述相似度。
较佳地,所述处理系统还包括拆分模块;
所述拆分模块用于将所述分词集合拆分为多个分词子集合;
所述统计模块用于多线程同时对所述多个分词子集合进行所述相似度的计算,并将每个分词子集合的计算结果进行合并,并根据合并后的计算结果得到所述频次。
较佳地,所述处理系统还包括滤除模块;
所述滤除模块用于对所述评论数据进行预处理,滤除无效评论数据;
所述分词模块用于对滤除后的评论数据进行分词处理。
较佳地,所述处理系统还包括去除模块;
所述去除模块用于去除分词处理后的多个分词中的停用词,所述停用词包括语气助词、副词、介词和连接词中的至少一个;
所述分类模块用于对去除停用词后的多个分词进行分类。
本发明实施例的积极进步效果在于:本发明实施例通过对物品评论的中文分词,从评论数据中提取关联物品属性词汇,并提炼出关于物品属性数据的统计,从属性数据中可以得出有价值的结果,比如可以得到用户对该物品的评价(好评或差评)主要偏向于哪些属性上,或者可以进行同一分类不同品牌的物品横向对比用户对同一属性的评价,或者也可以作为对物品本身的优势属性的确定,进而更好的推广物品等。
附图说明
图1为本发明实施例1的物品评论的处理方法的流程框图。
图2为本发明实施例2的物品评论的处理方法中步骤60的流程框图。
图3为本发明实施例3的物品评论的处理方法中步骤60的流程框图。
图4为本发明实施例4的电子设备的结构示意图。
图5为本发明实施例6的物品评论的处理系统的模块示意图。
图6为本发明实施例7的物品评论的处理系统中统计模块的模块示意图。
图7为本发明实施例8的物品评论的处理系统的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
一种物品评论的处理方法,如图1所示,所述处理方法包括:
步骤10、构建一物品类目的属性列表;
所述属性列表包括所述物品类目下所有物品的属性类目及每个属性类目相应的属性;按照某一物品分类,可以划分为若干属性类目,每一种属性类目是物品某种规格参数的统称,某一规格参数下的某种属性,比如显示参数为属性类目,包含亮度,屏幕比例,刷屏率,扫描方式,响应时间,屏幕分辨率,3D显示等属性。
步骤20、爬取一预设时间段内物品类目下的一目标物品的所有评论数据;
需要说明的是,可以是对单个物品,按照SKU进行爬取数据,也可以同一类别的物品,按照SPU进行爬取数据。
步骤30、对评论数据进行分词处理,得到多个分词;
需要说明的是,分词标准可以根据需要进行设置,本实施例汇总,分词后的分词并不限于词语,也可以是短句。
步骤40、对每个分词进行情感分析,并基于不同的情感对多个分词进行分类;
需要说明的是,此处的情感分析主要是为了区分评论中的分词是好评还是坏评,进而能够得到不同的评价下用户对物品的属性的评价。
步骤50、将表征同一情感的分词划分至同一个分词集合;
步骤60、对每个分词集合,计算每个属性与分词集合中的分词的相似度,并统计相似度大于相似度阈值的频次;
步骤70、根据频次将属性进行降序或升序排列,生成属性评价列表;所述属性评价列表用于表征用户对所述目标物品的属性的评价。
本实施例中,需要对评论数据要进行预先的处理,保证数据的真实性和可靠性,得过滤掉广告和水军评论,比如同一IP重复评论,根据现有的广告过滤模型等识别广告评论进行里拿出操作,具体的,步骤20之后,所述处理方法还包括:
步骤21、对评论数据进行预处理,滤除无效评论数据;
进一步的,步骤30中,对滤除后的评论数据进行分词处理。
本实施例中,为使分词更能反映评论的真实含义,且可减小算法的复杂度,对停用词进行去除,实现文本中“的”,“了”,“吗”,“?”,“!”,“,”等词和标点等的去除,具体地,步骤30之后,所述处理方法还包括:
步骤31、去除分词处理后的多个分词中的停用词;所述停用词包括语气助词、副词、介词和连接词中的至少一个。
进一步的,步骤40中,对去除停用词后的分词进行分类。
本实施例中,通过对物品评论的中文分词,从评论数据中提取关联物品属性词汇,并提炼出关于物品属性数据的统计,从属性数据中可以得出有价值的结果,比如可以得到用户对该物品的评价(好评或差评)主要偏向于哪些属性上,或者可以进行同一分类不同品牌的物品横向对比用户对同一属性的评价,或者也可以作为对物品本身的优势属性的确定,进而更好的推广物品等。
实施例2
本实施例的物品评论的处理方法是在实施例1的基础上进一步改进,如图2所示,所述计算每个属性与所述分词集合中的分词的相似度的步骤60具体包括:
步骤6011、对每个分词集合,按照音形编码规则分别对属性和分词集合中的分词进行转换,生成对应的音形编码;
步骤6012、基于编辑距离计算模型计算属性的音形编码与分词集合中的分词的音形编码的相似程度得到相似度。
每个属性都可以对应到不同的表述,比如关于屏幕分辨率,表述A:超高清4K或全高清或者高清,表述B:视频看起来非常清晰,或者更加口语化的,看电影很清楚等等。
有关音形编码技术本身属于现有技术,仅简要举例说明,编码规则主要包含两部分,前4位代表音码部分,后6位代表形码部分,汉字拼音中一共24种韵母,23种声母表通过简单规则映射到数字,再依据汉字音形码树形结构进行编码映射,比如:
表述A:拍(7271112218)照(9E942271313)清(HCH11123411)晰(4X413123412),将上述单字的编码连接起来,进而生成与“拍照清晰”这个分词对应的编码:271112218@9E942271313@HCH11123411@4X413123412,表述B:照片看起来很清楚,同理做如上的编码转换,表述C:反应快,同理做如上编码转换,基于编辑距离计算模型计算其与屏幕分辨率这个属性的相似度,得到表述A、B是对屏幕分辨率的描述,而C不是,具体计算方式采用现有的算法计算即可,本申请不作详细阐述。
实施例3
本实施例的物品评论的处理方法是在实施例1的基础上进一步改进,如图3所示,步骤60具体包括:
步骤6021、将分词集合拆分为多个分词子集合;
步骤6022、多线程同时对多个分词子集合进行相似度的计算;
步骤6023、将每个分词子集合的计算结果进行合并;
步骤6024、根据合并后的计算结果得到频次。
为了适应百万量、千万量级的数据处理,可以将分词集合按照时间维度进行拆分处理,具体的可以手工设定集合大小并灵活调整,分别处理后在集合统计得到最终的列表。
实施例4
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1-3中任意一个实施例所述的物品评论的处理方法。
图4为本实施例提供的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图4显示的电子设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备90可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备90的组件可以包括但不限于:至少一个处理器91、至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。
总线93包括数据总线、地址总线和控制总线。
存储器92可以包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理。
电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备90的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例5
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1-3中任意一个实施例所述的物品评论的处理方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明实施例还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1-3中任意一个实施例所述的物品评论的处理方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
实施例6
一种物品评论的处理系统,如图5所示,所述处理系统包括属性列表构建模块1、评论数据获取模块2、分词模块3、分类模块4、统计模块5和列表生成模块6;
所述属性列表构建模块1用于构建一物品类目的属性列表;
所述属性列表包括所述物品类目下所有物品的属性类目及每个属性类目相应的属性;按照某一物品分类,可以划分为若干属性类目,每一种属性类目是物品某种规格参数的统称,某一规格参数下的某种属性,比如显示参数为属性类目,包含亮度,屏幕比例,刷屏率,扫描方式,响应时间,屏幕分辨率,3D显示等属性。
所述评论数据获取模块2用于爬取一预设时间段内所述物品类目下的一目标物品的所有评论数据;
需要说明的是,可以是对单个物品,按照SKU进行爬取数据,也可以同一类别的物品,按照SPU进行爬取数据。
所述分词模块3用于对所述评论数据进行分词处理,得到多个分词;
所述分类模块4用于对每个分词进行情感分析,并基于不同的情感对所述多个分词进行分类,并将表征同一情感的分词划分至同一个分词集合;
需要说明的是,此处的情感分析主要是为了区分评论中的分词是好评还是坏评,进而能够得到不同的评价下用户对物品的属性的评价。
所述统计模块5用于对每个分词集合,计算每个属性与所述分词集合中的分词的相似度,并统计所述相似度大于相似度阈值的频次;
所述列表生成模块6用于根据所述频次将所述属性进行降序或升序排列,生成属性评价列表,所述属性评价列表用于表征用户对所述目标物品的属性的评价。
本实施例中,需要对评论数据要进行预先的处理,保证数据的真实性和可靠性,得过滤掉广告和水军评论,比如同一IP重复评论,根据现有的广告过滤模型等识别广告评论进行里拿出操作,具体地,所述处理系统还包括滤除模块7;
所述滤除模块7用于对所述评论数据进行预处理,滤除无效评论数据;
所述分词模块3用于对滤除后的评论数据进行分词处理。
另外,为使分词更能反映评论的真实含义,且可减小算法的复杂度,对停用词进行去除,实现文本中“的”,“了”,“吗”,“?”,“!”,“,”等词和标点等的去除,具体地,所述处理系统还包括去除模块8;
所述去除模块8用于去除分词处理后的多个分词中的停用词,所述停用词包括语气助词、副词、介词和连接词中的至少一个;
所述分类模块4用于对去除停用词后的多个分词进行分类。
本实施例中,通过对物品评论的中文分词,从评论数据中提取关联物品属性词汇,并提炼出关于物品属性数据的统计,从属性数据中可以得出有价值的结果,比如可以得到用户对该物品的评价(好评或差评)主要涉及到哪些属性上,或者可以进行同一分类不同品牌的物品横向对比用户对同一属性的评价,或者也可以作为对物品本身的优势属性的确定,进而更好的推广物品等。
实施例7
本实施例的物品评论的处理方法是在实施例6的基础上进一步改进,如图6所示,所述统计模块5包括转换单元51和相似度计算单元52;
所述转换单元51用于对每个分词集合,按照音形编码规则分别对所述属性和所述分词集合中的分词进行转换,生成对应的音形编码;
所述相似度计算单元52用于基于编辑距离计算模型计算所述属性的音形编码与所述分词集合中的分词的音形编码的相似程度得到所述相似度。
每个属性都可以对应到不同的表述,比如关于屏幕分辨率,表述A:超高清4K或全高清或者高清,表述B:视频看起来非常清晰,或者更加口语化的,看电影很清楚等等。
有关音形编码技术本身属于现有技术,仅简要举例说明,编码规则主要包含两部分,前4位代表音码部分,后6位代表形码部分,汉字拼音中一共24种韵母,23种声母表通过简单规则映射到数字,再依据汉字音形码树形结构进行编码映射,比如:
表述A:拍(7271112218)照(9E942271313)清(HCH11123411)晰(4X413123412),将上述单字的编码连接起来,进而生成与“拍照清晰”这个分词对应的编码:271112218@9E942271313@HCH11123411@4X413123412,表述B:照片看起来很清楚,同理做如上的编码转换,表述C:反应快,同理做如上编码转换,基于编辑距离计算模型计算其与屏幕分辨率这个属性的相似度,得到表述A、B是对屏幕分辨率的描述,而C不是,具体计算方式采用现有的算法计算即可,本申请不作详细阐述。
实施例8
本实施例的物品评论的处理方法是在实施例6的基础上进一步改进,如图7所示,所述处理系统包括拆分模块9;
所述拆分模块9用于将所述分词集合拆分为多个分词子集合;
所述统计模块5用于多线程同时对所述多个分词子集合进行所述相似度的计算,并将每个分词子集合的计算结果进行合并,并根据合并后的计算结果得到所述频次。
为了适应百万量、千万量级的数据处理,可以将分词集合按照时间维度进行拆分处理,具体的可以手工设定集合大小并灵活调整,分别处理后在集合统计得到最终的列表。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
1.一种物品评论的处理方法,其特征在于,所述处理方法包括:
构建一物品类目的属性列表,所述属性列表包括所述物品类目下所有物品的属性类目及每个属性类目相应的属性;
爬取一预设时间段内所述物品类目下的一目标物品的所有评论数据;
对所述评论数据进行分词处理,得到多个分词;
对每个分词进行情感分析,并基于不同的情感对所述多个分词进行分类;
将表征同一情感的分词划分至同一个分词集合;
对每个分词集合,计算每个属性与所述分词集合中的分词的相似度,并统计所述相似度大于相似度阈值的频次;
根据所述频次将所述属性进行降序或升序排列,生成属性评价列表,所述属性评价列表用于表征用户对所述目标物品的属性的评价。
2.如权利要求1所述的物品评论的处理方法,其特征在于,所述计算每个属性与所述分词集合中的分词的相似度的步骤具体包括:
按照音形编码规则分别对所述属性和所述分词集合中的分词进行转换,生成对应的音形编码;
基于编辑距离计算模型计算所述属性的音形编码与所述分词集合中的分词的音形编码的相似程度得到所述相似度。
3.如权利要求1所述的物品评论的处理方法,其特征在于,所述对每个分词集合,计算每个属性与所述分词集合中的分词的相似度,并统计所述相似度大于相似度阈值的频次的步骤之前,所述处理方法还包括:
将所述分词集合拆分为多个分词子集合;
多线程同时对所述多个分词子集合进行所述相似度的计算;
将每个分词子集合的计算结果进行合并;
根据合并后的计算结果得到所述频次。
4.如权利要求1所述的物品评论的处理方法,其特征在于,所述爬取一预设时间段内所述物品类目下一目标物品的所有评论数据的步骤之后,所述处理方法还包括:
对所述评论数据进行预处理,滤除无效评论数据;
所述对所述评论数据进行分词处理,得到多个分词的步骤中,对滤除后的评论数据进行分词处理。
5.如权利要求1所述的物品评论的处理方法,其特征在于,所述对所述评论数据进行分词处理,得到多个分词的步骤之后,所述处理方法还包括:
去除分词处理后的多个分词中的停用词,所述停用词包括语气助词、副词、介词和连接词中的至少一个;
所述对每个分词进行情感分析,并基于不同的情感对所述多个分词进行分类的步骤中,对去除停用词后的分词进行分类。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的物品评论的处理方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一项所述的物品评论的处理方法的步骤。
8.一种物品评论的处理系统,其特征在于,所述处理系统包括属性列表构建模块、评论数据获取模块、分词模块、分类模块、统计模块和列表生成模块;
所述属性列表构建模块用于构建一物品类目的属性列表,所述属性列表包括所述物品类目下所有物品的属性类目及每个属性类目相应的属性;
所述评论数据获取模块用于爬取一预设时间段内所述物品类目下的一目标物品的所有评论数据;
所述分词模块用于对所述评论数据进行分词处理,得到多个分词;
所述分类模块用于对每个分词进行情感分析,并基于不同的情感对所述多个分词进行分类,并将表征同一情感的分词划分至同一个分词集合;
所述统计模块用于对每个分词集合,计算每个属性与所述分词集合中的分词的相似度,并统计所述相似度大于相似度阈值的频次;
所述列表生成模块用于根据所述频次将所述属性进行降序或升序排列,生成属性评价列表,所述属性评价列表用于表征用户对所述目标物品的属性的评价。
9.如权利要求8所述的物品评论的处理系统,其特征在于,所述统计模块包括转换单元和相似度计算单元;
所述转换单元用于按照音形编码规则分别对所述属性和所述分词集合中的分词进行转换,生成对应的音形编码;
所述相似度计算单元用于基于编辑距离计算模型计算所述属性的音形编码与所述分词集合中的分词的音形编码的相似程度得到所述相似度。
10.如权利要求8所述的物品评论的处理系统,其特征在于,所述处理系统还包括拆分模块;
所述拆分模块用于将所述分词集合拆分为多个分词子集合;
所述统计模块用于多线程同时对所述多个分词子集合进行所述相似度的计算,并将每个分词子集合的计算结果进行合并,并根据合并后的计算结果得到所述频次。
11.如权利要求8所述的物品评论的处理系统,其特征在于,所述处理系统还包括滤除模块;
所述滤除模块用于对所述评论数据进行预处理,滤除无效评论数据;
所述分词模块用于对滤除后的评论数据进行分词处理。
12.如权利要求8所述的物品评论的处理系统,其特征在于,所述处理系统还包括去除模块;
所述去除模块用于去除分词处理后的多个分词中的停用词,所述停用词包括语气助词、副词、介词和连接词中的至少一个;
所述分类模块用于对去除停用词后的多个分词进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910911719.3A CN112559841A (zh) | 2019-09-25 | 2019-09-25 | 物品评论的处理方法、系统、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910911719.3A CN112559841A (zh) | 2019-09-25 | 2019-09-25 | 物品评论的处理方法、系统、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112559841A true CN112559841A (zh) | 2021-03-26 |
Family
ID=75029215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910911719.3A Pending CN112559841A (zh) | 2019-09-25 | 2019-09-25 | 物品评论的处理方法、系统、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559841A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129071A (zh) * | 2021-04-29 | 2021-07-16 | 北京数聚智连科技股份有限公司 | 一种商家产品sku分析方法和装置 |
-
2019
- 2019-09-25 CN CN201910911719.3A patent/CN112559841A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129071A (zh) * | 2021-04-29 | 2021-07-16 | 北京数聚智连科技股份有限公司 | 一种商家产品sku分析方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107315737B (zh) | 一种语义逻辑处理方法及系统 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
JP7334395B2 (ja) | ビデオ分類方法、装置、機器、および記憶媒体 | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN111797226A (zh) | 会议纪要的生成方法、装置、电子设备以及可读存储介质 | |
CN110717021B (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN112148881A (zh) | 用于输出信息的方法和装置 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN112330455A (zh) | 用于推送信息的方法、装置、设备以及存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN112560461A (zh) | 新闻线索的生成方法、装置、电子设备及存储介质 | |
CN111126084A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN112559841A (zh) | 物品评论的处理方法、系统、电子设备及可读存储介质 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN110807082A (zh) | 质量抽检项目确定方法、系统、电子设备及可读存储介质 | |
CN115391656A (zh) | 一种用户需求确定方法、装置及设备 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114218431A (zh) | 视频搜索方法、装置、电子设备以及存储介质 | |
CN112559727A (zh) | 用于输出信息的方法、装置、设备、存储介质和程序 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN113593528B (zh) | 语音切分模型的训练方法、装置、电子设备及存储介质 | |
CN113360712B (zh) | 视频表示的生成方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |