CN109190104A - 标签短语处理和相似度计算方法及装置,电子和存储设备 - Google Patents
标签短语处理和相似度计算方法及装置,电子和存储设备 Download PDFInfo
- Publication number
- CN109190104A CN109190104A CN201810618060.8A CN201810618060A CN109190104A CN 109190104 A CN109190104 A CN 109190104A CN 201810618060 A CN201810618060 A CN 201810618060A CN 109190104 A CN109190104 A CN 109190104A
- Authority
- CN
- China
- Prior art keywords
- phrase
- label phrase
- frequency
- label
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种评论数据中标签短语归一化的处理方法及装置,以及标签短语相似度的计算方法及装置,电子设备和存储设备,所述处理方法包括:根据评论数据,确定候选标签短语;从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;将所述高频标签短语作为所述评论数据的代表标签短语;从而提高标签短语归一化处理的准确性。
Description
技术领域
本申请涉及互联网应用领域,具体涉及一种评论数据中标签短语归一化的处理方法和装置。本申请同时涉及一种评论数据中标签短语相似度的计算方法和装置,以及电子设备和存储设备。
背景技术
随着互联网的发展,线上交易已成为常态。顾客可以通过互联网交易平台对购买的商品或服务进行评价,进而能够为其他顾客提供购买参考,以及能够使商家了解顾客对商品使用的反馈。
通常情况下,同一商品交易量越大,则评论信息越多。为使用户能够快速了解商品使用信息,现有技术中对评论信息进行标签化处理,例如:针对大量评论信息内容,可以提取不同评论信息中的相同关键信息,将相同的关键信息统一作为评论标签显示在评论信息内容的上方,用户可以根据对评论信息参考需求进行点选评论标签获得该评论标签下的相关评论信息内容。
公开号为CN107729317A的专利文献,提供一种评价标签的确定方法、装置及服务器,其记载通过对评价对象和/或评价词的进行标签挖掘,以得到评价目标对应的标签库或者通过语言技术平台(LTP)通过对每一条评价信息的分析得到标签库,接着确定每一条评价信息所包含的子句,最后将标签库中的标签与每一条评价信息所包含的子句中的词进行匹配,通过标签库的标签以及子句中的词确定每一条评价信息所包含的子句对应的评价标签。之后在确定每一条评价信息对应的评价标签后,还可以通过每一条评价信息对应的评价标签,统计出该评价目标对应的综合标签,通过综合标签准确标识评价目标提供的商品属性,供用户参考。
上述专利文献仅记载了标签的确定过程以及根据评价目标统计综合标签,具体如何统计综合标签没有给出解决方案。
现有技术中对评价标签的统计归类通常采用的方式之一包括:维护一个同义词典,把主题词或者情感词替换成同义的常见词,例如,优秀->好,马马虎虎->一般,但是在一些特定语境下,直接套用通用同义词典;
对于评价标签的统计归类还可以采用主题模型LDA挖掘同义词的方式,但主题模型LDA的方式适合长文本语料,并不适合类似评论标签的短文本;
上述评价标签归类的准确性不高,后期还需要人工再次整理维护。
发明内容
本申请提供一种评论数据中标签短语归一化的处理方法,以解决现有技术中标签短语归类不准确的问题。
本申请提供一种评论数据中标签短语归一化的处理方法,包括:
根据评论数据,确定候选标签短语;
从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;
根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;
将所述高频标签短语作为所述评论数据的代表标签短语。
优选的,所述从所述候选标签短语中确定高频标签短语和非高频标签短语包括:
根据标签短语的模式,从所述候选标签短语中获取第一类候选标签短语;
确定所述第一类候选标签短语中的高频标签短语和非高频标签短语,所述第一类候选标签短语中具有多个标签短语;和/或,
从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语;
确定所述第二类候选标签短语中的高频标签短语和非高频标签短语,所述第二类候选标签短语中具有多个字数相同的标签短语。
优选的,所述确定所述第一类候选标签短语中的高频标签短语,包括:
确定所述第一类候选标签短语中相同描述类型的高频主题词和高频情感词;
根据所述第一类候选标签短语中的高频主题词和高频情感词,确定所述第一类候选标签短语中的高频标签短语。
优选的,所述确定所述第一类候选标签短语中相同描述类型的高频主题词和高频情感词,包括:
统计所述第一类候选标签短语中主题词的词频,以及统计所述第一类候选标签短语中情感词的词频;
将所述主题词符合高频主题词词频条件的确定为高频主题词,将所述情感词符合高频情感词词频条件的确定为高频情感词。
优选的,所述根据标签短语的模式,从所述候选标签短语中获取第一类候选标签短语包括:
选取所述候选标签短语中词性组合符合匹配要求的标签短语作为所述第一类候选标签短语。
优选的,所述从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语包括:
选取所述候选标签短语中的四字短语作为所述第二类候选标签短语。
优选的,所述确定所述第二类候选标签短语中的高频标签短语包括:
统计所述第二类候选标签短语中第一描述类型的标签短语的出现频率;
将所述第二类候选标签短语中满足频率条件的所述第一描述类型的标签短语确定为第一描述类型的高频标签短语。
优选的,还包括:
确定所述高频标签短语与所述非高频标签短语之间的相似度。
优选的,所述确定所述高频标签短语与所述非高频标签短语之间的相似度,包括:
针对所述第一类候选标签短语中所述高频标签短语和所述非高频标签短语中的主题词和情感词构建二部图;
根据所述二部图获得所述第一类候选标签短语中所述高频标签短语和所述非高频标签短语的相似度。
优选的,所述确定所述高频标签短语与所述非高频标签短语之间的相似度包括:
计算所述第二类候选标签短语中高频标签短语的字向量和非高频标签短语的字向量;
根据所述高频标签短语的字向量获得所述高频标签短语的短语向量,根据所述非高频标签短语的字向量获得所述非高频标签短语的短语向量;
根据所述高频标签短语的短语向量和所述非高频标签短语的短语向量,确定所述高频标签短语与所述非高频标签短语的相似度。
优选的,所述根据所述高频标签短语的字向量获得所述高频标签短语的短语向量,包括:
将所述第二类候选标签短语中的标签短语的字向量进行加和处理;
将加和处理后的标签短语字向量平均值作为所述标签短语的短语向量;
所述根据所述高频标签短语的短语向量和所述非高频标签短语的短语向量,确定所述高频标签短语与所述非高频标签短语的相似度,包括:
将所述标签短语之间的向量余弦夹角满足余弦夹角阈值条件的标签短语的短语向量确定为所述第二类候选标签短语中所述高频标签短语与所述非高频标签短语之间的相似度。
优选的,所述根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语,包括:
将所述第一候选标签短语中的高频标签短语和非高频标签短语进行分组,获得标签短语对;
判断每组所述标签短语对的相似度是否满足设定的相似度阈值,若满足,则建立相似度标签短语集合;
将所述相似度标签短语集合中的非高频标签短语归一化到所述相似度标签短语集合中的高频标签短语。
优选的,所述根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语,包括:
将所述第二候选标签短语中的高频标签短语和非高频标签短语进行分组,获得标签短语对;
判断每组所述标签短语对的相似度是否满足设定的相似度阈值,若满足,则建立相似度标签短语集合;
将所述相似度集合中的非高频标签短语归一化到所述相似度集合中的高频标签短语。
优选的,还包括:
建立所述非高频标签短语对应的评论数据与所述高频标签短语的对应关系。
优选的,所述从所述候选标签短语中确定非高频标签短语包括:
从所述非高频标签短语中删除满足设定的过滤阈值的标签短语。
优选的,所述从所述候选标签短语中确定非高频标签短语,包括:
从所述非高频标签短语中删除满足设定的过滤阈值且满足设定的长度阈值的标签短语。
本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储对网络平台产生的数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,确定候选标签短语;
从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;
根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;
将所述高频标签短语作为所述评论数据的代表标签短语。
本申请还提供一种存储器,用于存储网络平台产生数据,以及对应所述玩过平台产生数据进行处理的程序;
所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,确定候选标签短语;
从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;
根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;
将所述高频标签短语作为所述评论数据的代表标签短语。
本申请还提供一种评论数据中标签短语归一化的处理装置,包括:
第一确定单元,用于根据评论数据,确定候选标签短语;
第二确定单元,用于从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;
归一单元,用于根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;
第三确定单元,用于将所述高频标签短语作为所述评论数据的代表标签短语。
优选的,所述第二确定单元包括:
第一类候选获取子单元,用于根据标签短语的模式,从所述候选标签短语中获取第一类候选标签短语;
第一类高频确定子单元,用于确定所述第一类候选标签短语中的高频标签短语和非高频标签短语,所述第一类候选标签短语中具有多个标签短语;和/或,
第二类候选获取子单元,用于从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语;
第二类高频确定子单元,用于确定所述第二类候选标签短语中的高频标签短语和非高频标签短语,所述第二类候选标签短语中具有多个字数相同的标签短语。
优选的,所述第一类高频确定子单元包括:
高频主情确定子单元,用于确定所述第一类候选标签短语中相同描述类型的高频主题词和高频情感词;
高频标签短语确定子单元,用于根据所述第一类候选标签短语中的高频主题词和高频情感词,确定所述第一类候选标签短语中的高频标签短语。
优选的,所述高频主情确定子单元包括:
词频统计子单元,用于统计所述第一类候选标签短语中主题词的词频,以及统计所述第一类候选标签短语中情感词的词频;
高频词语确定子单元,用于将所述主题词符合高频主题词词频阈值的确定为高频主题词,将所述情感词符合高频情感词词频阈值的确定为高频情感词。
优选的,所述第一类候选获取子单元包括:
选取子单元,用于选取所述候选标签短语中词性组合符合匹配要求的标签短语作为所述第一类候选标签短语。
优选的,所述第二类候选获取子单元包括:
选取子单元,用于选取所述候选标签短语中的四字短语作为所述第二类候选标签短语。
优选的,所述第二类高频确定子单元包括:
词频统计子单元,用于统计所述第二类候选标签短语中第一描述类型的标签短语的出现频率;
高频标签短语确定子单元,用于将所述第二类候选标签短语中满足频率条件的所述第一描述类型的标签短语确定为第一描述类型的高频标签短语。
优选的,还包括:
相似度确定单元,用于确定所述高频标签短语与所述非高频标签短语之间的相似度。
优选的,所述相似度确定单元包括:
构建子单元,用于针对所述第一类候选标签短语中所述高频标签短语和所述非高频标签短语中的主题词和情感词构建二部图;
获得子单元,用于根据所述二部图获得所述第一类候选标签短语中所述高频标签短语和所述非高频标签短语的相似度。
优选的,所述相似度确定单元包括:
字向量计算子单元,用于计算所述第二类候选标签短语中高频标签短语的字向量和非高频标签短语的字向量;
短语向量获得子单元,用于根据所述高频标签短语的字向量获得所述高频标签短语的短语向量,根据所述非高频标签短语的字向量获得所述非高频标签短语的短语向量;
相似度确定子单元,用于根据所述高频标签短语的短语向量和所述非高频标签短语的短语向量,确定所述高频标签短语与所述非高频标签短语的相似度。
优选的,所述短语向量获得子单元包括:
加和处理子单元,用于将所述第二类候选标签短语中的标签短语的字向量进行加和处理;
平均值获得子单元,用于将加和处理后的标签短语字向量平均值作为所述标签短语的短语向量;
所述相似度确定子单元具体用于将所述短语向量满足余弦夹角阈值条件的标签短语的短语向量确定为所述第二类候选标签短语中所述高频标签短语与所述非高频标签短语之间的相似度。
优选的,所述归一化单元包括:
分组子单元,用于将所述第一候选标签短语中的高频标签短语和非高频标签短语进行分组,获得标签短语对;
判断子单元,用于判断每组所述标签短语对的相似度是否满足设定的相似度阈值,若满足,则建立相似度标签短语集合;
归一处理子单元,将所述相似度标签短语集合中的非高频标签短语归一化到所述相似度标签短语集合中的高频标签短语。
优选的,所述归一化单元包括:
分组子单元,用于将所述第二候选标签短语中的高频标签短语和非高频标签短语进行分组,获得标签短语对;
判断子单元,用于判断每组所述标签短语对的相似度是否满足设定的相似度阈值,若满足,则建立相似度标签短语集合;
归一处理子单元,用于将所述相似度集合中的非高频标签短语归一化到所述相似度集合中的高频标签短语。
优选的,还包括:
对应关系建立单元,用于建立所述非高频标签短语对应的评论数据与所述高频标签短语的对应关系。
优选的,所述第二确定单元包括:
删除子单元,用于从所述非高频标签短语中删除满足设定的过滤阈值的标签短语。
优选的,所述第二确定单元包括:
删除子单元,用于从所述非高频标签短语中删除满足设定的过滤阈值且满足设定的长度阈值的标签短语。
本申请还提供一种评论数据中标签短语相似度的计算方法,包括:
根据评论数据,获得指定字数的候选标签短语;
获得所述候选标签短语的字向量;
根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
优选的,所述获得所述候选标签短语的字向量包括:
对指定字数的所述候选标签短语按字切分;
计算切分后的所述候选标签短语的字向量。
优选的,所述根据所述候选标签短语的字向量获得所述候选标签短语的短语向量,包括:
对获得的所述候选标签短语的字向量进行加和处理,获得所述候选标签短语的字向量和;
对所述字向量和取平均值,将所述平均值作为所述候选标签短语的短语向量。
优选的,所述根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度,包括:
根据所述指定字数的候选标签短语的短语向量之间的余弦夹角确定两个短语向量之间的相似度。
优选的,根据所述指定字数的候选标签短语的短语向量之间的余弦夹角确定两个短语向量之间的相似度,包括:
判断所述指定字数的候选标签短语的短语向量之间的余弦夹角是否满足设定的相似度阈值,若满足,则确定所述余弦夹角对应的两个所述指定字数的候选标签短语相似。
本申请还提供一种评论数据中标签短语相似度的计算装置,包括:
候选标签短语获得单元,用于根据评论数据,获得指定字数的候选标签短语;
字向量获得单元,用于获得所述候选标签短语的字向量;
短语向量获得单元,用于根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
确定单元,用于根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
优选的,所述字向量获得单元包括:
切分子单元,用于对指定字数的所述候选标签短语按字切分;
计算子单元,用于计算切分后的所述候选标签短语的字向量。
优选的,所述短语向量获得单元包括:
加和处理子单元,用于对获得的所述候选标签短语的字向量进行加和处理,获得所述候选标签短语的字向量和;
短语向量确定子单元,用于对所述字向量和取平均值,将所述平均值作为所述候选标签短语的短语向量。
优选的,所述确定单元包括:
相似度确定子单元,用于根据所述指定字数的候选标签短语的短语向量之间的余弦夹角确定两个短语向量之间的相似度。
优选的,所述相似度确定子单元包括:
判断子单元,用于判断所述指定字数的候选标签短语的短语向量之间的余弦夹角是否满足设定的相似度阈值,若满足,则确定所述余弦夹角对应的两个所述指定字数的候选标签短语相似。
本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储对网络平台产生的数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,获得指定字数的候选标签短语;
获得所述候选标签短语的字向量;
根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
本申请还提供一种存储设备,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,获得指定字数的候选标签短语;
获得所述候选标签短语的字向量;
根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
与现有技术相比,本申请具有以下优点:
本申请提供的一种评论数据中标签短语归一化的处理方法,通过根据评论数据,确定候选标签短语,在所述候选标签短语中确定出高频标签短语和非高频标签短语,之后根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;进而针对相近的所述评论数据采用不同形式但语义表达缺相近的标签短语,能够被归一化到一个高频标签短语上,通过所述高频标签短语能够作为相近的所述评论数据的代表标签短语。本申请通过采用相似度的手段,将语义表达符合相似度的非高频和高频短语归一化处理,提高归一化的准确定。
本申请还提供一种评论数据中标签短语相似度的计算方法,通过获得指定字数的候选标签短语计算获得所述候选标签短语的字向量,根据对候选标签短语的字向量计算获得所述候选标签短语的短语向量,之后根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度,所述相似度的计算能够避免仅为字面相似而导致归一处理不准确,或者是因为字序敏感导致的相似度计算不准确的问题。
附图说明
图1是本申请提供的一种评论数据中标签短语归一化的处理方法实施例的流程图;
图2是本申请提供的一种评论数据中标签短语归一化的处理装置实施例的结构示意图;
图3是本申请提供的一种评论数据中标签短语相似度的计算方法实施例的流程图;
图4是本申请提供的一种评论数据中标签短语相似度的计算装置实施例的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请中使用的术语是仅仅出于对特定实施例描述的目的,而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如:“一种、“第一”、和“第二”等,并非对数量上的限定,而是用来将同一类型的信息彼此区分。
请参考图1所示,图1是本申请提供的一种评论数据中标签短语归一化的处理方法实施例的流程图。
首先,需要说明的是,本申请提供的一种评论数据中标签短语归一化的处理方法的实施例可以采用针对餐饮行业的评论标签短语的归一化处理,在下述描述过程中,标签短语即为评论标签短语,候选标签短语即为候选评论标签短语。实际上,对于标签短语的归一化处理并不限于餐饮行业。
如图1所示,本申请提供的一种评论数据中标签短语归一化的处理方法包括:
步骤S101:根据评论数据,确定候选标签短语。
在所述步骤S101中,所述评论数据为针对商家提供的商品,顾客发表的针对所述商品的评论内容,该评论内容可以包括:商品质量和商品使用等相关的评论内容。通常情况下,顾客可以在交易完成后,将自己对商品的感受通过终端设备发表在相关商品提供的评论界面。
标签短语为根据所述评论数据提取出能够表征所述评论数据核心内容的概括性短语并以标签形式展示。
所述候选标签短语为根据所述评论数据得到的所述标签短语中选取的标签短语作为候选标签短语。
可以理解的是,所述候选标签短语可以包括全部的标签短语,也可以是从所述标签短语中选取的部分标签短语作为候选标签短语。
所述步骤S101根据评价数据确定候选标签的具体过程可以是:
首先,对所述评价数据的评价内容进行文本分析,所述文本分析包括:对分词、词性和句法中任意一种信息或多种信息进行分析。具体地,文本分析可以基于原始评价数据的评价内容,对评价内容的文本进行词语切分、词性判断()、和句法分析等操作,其中,词性判断可以包括名词、动词、形容词等词性判断,所述句法分析可以包括:主语、谓语、宾语等修饰关系的分析。
之后,根据对文本分析获得词性以及修饰依赖关系,进而得到标签短语,将所述标签短语作为所述候选标签短语。
步骤S102:从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语。
在所述步骤S102中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语,可以是将在所述候选标签短语中标签短语出现次数最多的作为频率条件,也可以是将满足预先设定的高频标签短语出现频率阈值作为频率条件,所述频率阈值可以根据所述评论数据的数量大小确定或者根据候选标签短语中描述类型相同的标签短语数量确定,在本实施例中,将根据标签短语出现次数最多的作为频率条件。
所述步骤S102中从所述候选标签短语中确定高频标签短语和非高频标签短语的确定过程,首先,可以对所述候选标签短语进行分类,在本实施中,将所述候选标签短语可以分为指定字数的标签短语和非指定字数的标签短语,下面对所述非指定字数的标签短语(第一类候选标签短语)进行说明,具体可以包括:
根据标签短语的模式,从所述候选标签短语中获取第一类候选标签短语;
确定所述第一类候选标签短语中的高频标签短语和非高频标签短语,所述第一类候选标签短语中具有多个标签短语。
其中,所述根据标签短语的模式,获取第一类候选标签短语可以包括:
选取所述候选标签短语中词性组合符合匹配要求的标签短语作为所述第一类候选标签短语。
所述标签短语模式可以为多种词语词性的模式匹配,例如:名词+形容词,形容词+名词、名词+动词+名词,副词+形容词、形容词+副词,名词+副词+形容词等等。
根据上述词性组合,将符合匹配要求的标签短语作为第一类候选标签短语。符合词性匹配要求的第一类候选标签短语中的标签短语字数不受限制,可以为两个字,例如:味美,也可以为三个字,例如:味道赞,也可以为四个字,例如:味道超棒,等等。
在确定出第一候选标签短语后,从所述第一候选标签短语中找到标签短语出现次数最多的标签短语,将出现次数最多的标签短语作为高频标签短语,其余可以归类为非高频标签短语。
在所述第一候选标签短语确定所述高频标签短语具体可以包括:
确定所述第一类候选标签短语中相同描述类型的高频主题词和高频情感词;
根据所述第一类候选标签短语中的高频主题词和高频情感词,确定所述第一类候选标签短语中的高频标签短语。
其中,所述描述类型可以是主题词针对某一事务的描述,例如:菜品、环境或服务等。在确定第一类候选标签短语中的高频主题词和高频情感词时,可以是针对相同描述类型进行确定,例如:针对菜品味道描述类型、针对餐厅环境描述类型,针对商家服务的描述类型。
在确定第一类候选标签短语的高频主题词和高频情感词时,可以针对一种所述描述类型相同确定,也可以对多种相同描述类型确定。
通常情况下,主题词为名词,且所述主题词在评论数据中采用的较为单一没有太多变化,例如:针对菜品的可以有的第一类候选标签短语包括:味道不错、味道赞、味道好、好美味等等。
根据评论数据的文本信息,所述情感词采用较多形式,例如:美、好、不错、赞等等,即所述第一类候选标签短语中,对于相同主题词可能会采用不同情感词。
在确定所述第一候选标签短语的高频主题词和高频情感词时,可以包括:
统计所述第一类候选标签短语中主题词的词频,以及统计所述第一类候选标签短语中情感词的词频;
将所述主题词符合高频主题词词频条件的确定为高频主题词,将所述情感词符合高频情感词词频条件的确定为高频情感词。
在所述第一类候选标签短语中主题词出现词频数最大的确定为高频主题词,即:所述主题词词频条件为出现频率最大。同样的,所述第一类候选标签短语中情感词出现词频数最大的确定为高频情感词,即:所述情感词词频条件为出现频率最大。
以上是对非指定字数的标签短语的分类说明,下面对指定字数的标签短语的分类进行说明,具体可以包括:
从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语;
确定所述第二类候选标签短语中的高频标签短语和非高频标签短语,所述第二类候选标签短语中具有多个字数相同的标签短语。
在本实施例中,所述从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语包括:
选取所述候选标签短语中的四字短语作为所述第二类候选标签短语。本实施例中,四字短语主要是指语义表达上存在并列关系的四字短语,例如:皮薄馅大,皮薄馅多、馅多皮薄、汁多皮薄、皮薄汁多、汁多味美、汁多肉嫩、肉嫩味美、肉嫩味鲜、肉嫩多汁、美味多汁、肉多味美、皮薄肉多、肉多皮薄、皮薄肉嫩、皮脆肉香等等,也就是说,所述第二类候选标签短语的指定字数包括:根据标签短语表达内容或词性进行指定,如指定词性包括:名词+形容词+名词+形容词,即两个并列名词之间包括形容词,并列名字末尾包括形容词,反之亦然,举例而言,所述皮薄馅大中的“皮薄”和“馅大”为并列词语,而“皮”和“馅”为并列主语,“薄”和“大”为修饰形容词。
所述确定所述第二类候选标签短语中的高频标签短语可以包括:
统计所述第二类候选标签短语中第一描述类型的标签短语的出现频率;具体地,可以是统计所述第二类候选标签短语中按照上述四字词语确定规则,确定的四字词语的出现频率。所述第一描述类型可以是针对菜品或服务或环境,例如将菜品作为第一描述类型的四字词语:皮薄馅大10次,皮薄馅多3次、馅多皮薄2次、汁多皮薄6次、皮薄汁多8次、汁多味美4次、汁多肉嫩1次、肉嫩味美1次、肉嫩味鲜1次、肉嫩多汁2次、美味多汁4次等,上述举例中的四字短语均为相同描述类型。通常四字短语出现于对餐饮商品味道质量等评价内容中,因此,此处仅以上述为例进行说明,但实际上,还可以包括除上述四字短语以外的其他描述类型的四字短语,例如:环境类型和/或服务类型等等。
将所述第二类候选标签短语中满足频率条件的所述第一描述类型的标签短语确定为第一描述类型的高频标签短语。具体可以是,将满足出现次数最多的作为高频标签短语,例如:上述的统计,可以将皮薄馅大作为高频标签短语。
需要说明的是,对所述候选标签短语的分类可以仅分为第一类候选标签短语,也可以仅分为第二类候选标签短语,也可以同时分为第一类候选标签短语和第二类候选标签短语。
为提高候选标签短语中高频标签短语和非高频标签短语的确定过程,还可以在所述候选标签短语中筛选出语义表达相同的词,情感表达相左的标签短语,将筛选出的情感表达相左的标签短语删除,例如:语义表达相同的可以包括:位置好找、位置偏僻,菜品不错,菜品好吃,菜品难吃等标签短语,该些标签短语中好找、偏僻、不错、好吃、难吃属于情感表达,但是情感上的表达存在相反,因此,删除情感表达相反的能够为后续归一化提供准确的候选高频标签短语和非高频标签短语。需要说明的是,通常情况下,以情感表达朝向较多的作为保留的标签短语,将与保留的标签短语情感表达相左的标签短语删除,即去除反义标签短语。
在所述候选标签短语中还存在部分低频长尾的标签短语,因此,从所述候选标签短语中确定非高频标签短语包括:
从所述非高频标签短语中删除满足设定的过滤阈值的标签短语。其中,所述过滤阈值可以是指根据所述候选标签短语中的标签短语不常用,语义表达错误,参考意义价值较低的其中一种或多种组合设定的过滤阈值。例如:店里要啥没啥,人挺有意思,辣螃蟹上市,羊肉串还没上等标签短语。
为提高候选标签短语中非高频标签短语的确定过程,所述从所述候选标签短语中确定非高频标签短语,包括:
从所述非高频标签短语中删除满足设定的过滤阈值且满足设定的长度阈值的标签短语。例如:将标签短语不常用且表述较长的删除,长度阈值可以根据字数的多少进行设定。
通过上述过滤删除,使得高频标签短语和非高频标签短语的确定更为快速,同时提高确定的准确性。
步骤S103:根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语。
所述步骤S103中的相似度可以是指标签短语之间的近似程度,所谓近似程度可以根据标签短语所要表达的语义相近,换言之,语义相同表达形式不同的标签短语可以认定为相似。
所述步骤S103中的归一化可以是指将非高频标签短语与高频标签短语进行融合,即采用高频标签短语代表非高频标签短语表达的内容和高频标签短语自身要表达的内容。
所述步骤S103的具体实现归一化的过程可以包括:
将所述第一候选标签短语中的高频标签短语和非高频标签短语进行分组,获得标签短语对;
判断每组所述标签短语对的相似度是否满足设定的相似度阈值,若满足,则建立相似度标签短语集合;
将所述相似度标签短语集合中的非高频标签短语归一化到相似度标签短语集合中的高频标签短语。
以上是针对从所述候选标签短语中确定第一类候选标签短语中的高频标签短语和非高频标签短语进行的归一化处理,针对第二类候选标签短语,所述步骤S103可以包括:
将所述第二候选标签短语中的高频标签短语和非高频标签短语进行分组,获得标签短语对;
判断每组所述标签短语对的相似度是否满足设定的相似度阈值,若满足,则建立相似度标签短语集合;
将所述相似度标签短语集合中的非高频标签短语归一化到所述相似度标签短语集合中的高频标签短语。
不论是对第一类候选标签短语中高频标签短语和非高频标签短语的归一化还是对第二类候选标签短语中的高频标签短语和非高频标签短语的归一化,均可以采用pair对形式进行分组,分组后可以将设定高频标签短语在所述pair对中的位置,为归一化提供便利。例如:[a,b]对,[a,c]对,[c,d]对,a为高频标签短语,b、c、d为非高频标签短语,[a,b],[a,c]的相似度均满足相似度阈值,[c,d]的相似度不满足相似度阈值,因此,建立相似度标签短语集合为{a,b,c},其中a为确定的高频标签短语,将b,c映射到a完成归一化处理;d则删除。
在进行归一化处理的同时或完成归一化处理之后,建立所述非高频标签短语对应的评论数据与所述高频标签短语的对应关系。也就是说,在进行归一化处理的同时或完成归一化处理之后,将非高频标签短语对应的评论数据体现在所述高频标签短语对应的位置,例如:非高频标签短语“味道不错”归一化到高频标签短语“味道好”的同时或之后,将对应“味道不错”的相关评论数据对应到“味道好”的相关评论数据中,对应过程可以根据评论数据发布时间进行排序,当顾客参考标签短语为“味道好”的评论数据时,之前在“味道不错”下显示的评论数据,均被显示在“味道好”的评论数据中,此时“味道不错”标签短语,在标签短语显示区域不显示。
在本实施例中,对高频标签短语和非高频标签短语相似度的确定可以包括如下方式,下述分别对第一类标签短语中的高频标签短语和非高频标签短语相似度的确定,以及对第二类标签短语中的高频标签短语和非高频标签短语相似度的确定进行说明。
本申请提供一种评论数据中标签短语归一化的处理方法中,在确定所述高频标签短语与所述非高频标签短语之间的相似度还可以包括:
针对所述第一类候选标签短语中所述高频标签短语和所述非高频标签短语中的主题词和情感词构建二部图;
根据所述二部图获得所述第一类候选标签短语中所述高频标签短语和所述非高频标签短语的相似度。
在本实施例中可以采用simrank方法完成第一类候选标签短语中所述高频标签短语和所述非高频标签短语的相似度的计算,所述simrank方法为基于图结构的相似度计算方法。
需要说明的是,本申请通过利用simrank进行相似度计算时,不仅能够确定语义表达直接的相似标签短语,还能够确定语义表达相似但是采用间接表达方式的相似标签短语,例如:标签短语为地方不好找、地方很偏,通过直接搭配可以得到不好找、很偏两个词是相似的,在此基础上,位置不好找、地段很偏,又得到位置、地段两个词是相似的,进而能够确定位置不好找和地段很偏的相似度,提高归一化处理的覆盖率。
在本实施例中,可以将直接共同的搭配关系的决定为一阶标签短语,例如:菜品美味、菜品可口,美味、可口经常和菜品搭配出现,可将美味、可口确定为一阶关联的相似度;将采用间接表达方式的相似标签短语确定为高阶标签短语。
本申请提供一种评论数据中标签短语归一化的处理方法中,在确定所述高频标签短语与所述非高频标签短语之间的相似度还可以包括:
计算所述第二类候选标签短语中高频标签短语的字向量和非高频标签短语的字向量;
根据所述高频标签短语的字向量获得所述高频标签短语的短语向量,根据所述非高频标签短语的字向量获得所述非高频标签短语的短语向量;
根据所述高频标签短语的短语向量和所述非高频标签短语的短语向量,确定所述高频标签短语与所述非高频标签短语的相似度。
本实施例中,对所述四字短语的字向量的计算可以采用word2vec方法获得,即:对四字短语进行字切分,例如:短语:皮薄馅大,切分为:皮、薄、馅、大。对每一个字采用word2vec方法训练得到每个字的字向量。对标签短语中每个字的字向量进行加和处理,取加和处理后的字向量平均值,将所述平均值作为所述标签短语的短语向量。
根据所述第二类候选标签短语中的四字短语的短语向量可以获得短语向量的向量余弦夹角,将所述标签短语之间的向量余弦夹角满足余弦夹角阈值条件的标签短语的短语向量确定为所述第二类候选标签短语中所述高频标签短语与所述非高频标签短语之间的相似度。
对于第二类候选标签短语中高频标签短语和非高频标签短语之间相似度的确定可以通过向量余弦夹角的方式,实际上还可以通过向量距离的方式确定相似度,例如:根据所有短语向量形成一个短语向量空间,每一短语向量为所述空间中的一个点,在所述空间上通过获得点到点的距离(即:短语向量到短语向量的距离),判断高频标签短语和非高频标签短语之间相似度。对于相似度的确定还可以利用Python计算编辑距离,确定高频标签短语和非高频标签短语之间相似度。
可以理解的是,所述相似度的计算具有多种方法,上述向量余弦角度,向量距离、编辑距离可以采用其中一种也可以结合多种方式进行确定。
步骤S104:将所述高频标签短语作为所述评论数据的代表标签短语。
所述步骤S104的具体实现过程是,将高频标签短语与对应的所述评论数据之间建立对应关系,即:查看高频标签短语时,在其下显示属于高频标签短语的评论数据。根据归一化的处理,所述高频标签短语中的评论数据不仅包括归一化处理前的评论数据还包括将非高频标签短语归一化至高频标签短语后,非高频标签短语对应的评论数据,也就是说,所述高频标签短语建立与评论数据之间的对应关系中,评论数据包括:两类,一类为归一化处理前的高频标签短语本身的评论数据,另一类为归一化处理后的被归一化处理的非高频标签短语对应的评论数据,高频标签短语将作为这两类评论数据的代表标签短语。
本申请提供的一种评论数据中标签短语归一化的处理方法,能够将大量表述相似的标签短语进行归一化处理,即通过一个代表性的标签短语(高频标签短语)表示相似的标签短语,建立评论数据与高频标签短语之间的对应关系,使得标签短语的归一化更为准确,并且避免在标签列表上由于存在大量表达相似的标签短语而导致的标签列表过于杂乱的现象。
以上是对本申请提供一种评论数据中标签短语归一化的处理方法实施例的说明,与前述提供的评论数据中标签短语归一化的处理方法实施例相对应,本申请还公开了一种评论数据中标签短语归一化的处理装置,请参看图2,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图2所示,图2是本申请提供的一种评论数据中标签短语归一化的处理装置实施例的结构示意图。所述装置包括:
第一确定单元201,用于根据评论数据,确定候选标签短语。
第二确定单元202,用于从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语。
所述第二确定单元202包括:
第一类候选获取子单元,用于根据标签短语的模式,从所述候选标签短语中获取第一类候选标签短语;
第一类高频确定子单元,用于确定所述第一类候选标签短语中的高频标签短语和非高频标签短语,所述第一类候选标签短语中具有多个标签短语;和/或,
第二类候选获取子单元,用于从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语;
第二类高频确定子单元,用于确定所述第二类候选标签短语中的高频标签短语和非高频标签短语,所述第二类候选标签短语中具有多个字数相同的标签短语。
所述第一类高频确定子单元包括:
高频主情确定子单元,用于确定所述第一类候选标签短语中相同描述类型的高频主题词和高频情感词;
高频标签短语确定子单元,用于根据所述第一类候选标签短语中的高频主题词和高频情感词,确定所述第一类候选标签短语中的高频标签短语。
所述高频主情确定子单元包括:
词频统计子单元,用于统计所述第一类候选标签短语中主题词的词频,以及统计所述第一类候选标签短语中情感词的词频;
高频词语确定子单元,用于将所述主题词符合高频主题词词频阈值的确定为高频主题词,将所述情感词符合高频情感词词频阈值的确定为高频情感词。
所述第一类候选获取子单元包括:
选取子单元,用于选取所述候选标签短语中词性组合符合匹配要求的标签短语作为所述第一类候选标签短语。
所述第二类候选获取子单元包括:
选取子单元,用于选取所述候选标签短语中的四字短语作为所述第二类候选标签短语。
所述第二类高频确定子单元包括:
词频统计子单元,用于统计所述第二类候选标签短语中第一描述类型的标签短语的出现频率;
高频标签短语确定子单元,用于将所述第二类候选标签短语中满足频率条件的所述第一描述类型的标签短语确定为第一描述类型的高频标签短语。
归一单元203,用于根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语。
针对所述第一候选标签短语,所述归一化单元203包括:
分组子单元,用于将所述第一候选标签短语中的高频标签短语和非高频标签短语进行分组,获得标签短语对;
判断子单元,用于判断每组所述标签短语对的相似度是否满足设定的相似度阈值,若满足,则建立相似度标签短语集合;
归一处理子单元,将所述相似度标签短语集合中的非高频标签短语归一化到所述相似度标签短语集合中的高频标签短语。
针对所述第二候选标签短语,所述归一化单元203包括:
分组子单元,用于将所述第二候选标签短语中的高频标签短语和非高频标签短语进行分组,获得标签短语对;
判断子单元,用于判断每组所述标签短语对的相似度是否满足设定的相似度阈值,若满足,则建立相似度标签短语集合;
归一处理子单元,用于将所述相似度集合中的非高频标签短语映射到所述相似度集合中的高频标签短语。
基于对第一类候选标签短语和第二类候选标签短语归一化的处理,本申请提供的评论数据中标签短语归一化的处理装置还包括:
对应关系建立单元,用于建立所述非高频标签短语对应的评论数据与所述高频标签短语的对应关系。
所述第二确定单元202包括:
删除子单元,用于从所述非高频标签短语中删除满足设定的过滤阈值的标签短语。
所述第二确定单元202包括:
删除子单元,用于从所述非高频标签短语中删除满足设定的过滤阈值且满足设定的长度阈值的标签短语。
基于上述内容,本申请提供的一种评论数据中标签短语归一化的处理装置中还可以包括:
相似度确定单元,用于对于高频标签短语和非高频标签短语之间相似度的确定。
对于所述第一类候选标签短语,所述相似度确定单元包括:
构建子单元,用于针对所述第一类候选标签短语中所述高频标签短语和所述非高频标签短语中的主题词和情感词构建二部图;
获得子单元,用于根据所述二部图获得所述第一类候选标签短语中所述高频标签短语和所述非高频标签短语的相似度。
对于所述第二类候选标签短语,所述相似度确定单元包括:
字向量计算子单元,用于计算所述第二类候选标签短语中高频标签短语的字向量和非高频标签短语的字向量;
短语向量获得子单元,用于根据所述高频标签短语的字向量获得所述高频标签短语的短语向量,根据所述非高频标签短语的字向量获得所述非高频标签短语的短语向量;
相似度确定子单元,用于根据所述高频标签短语的短语向量和所述非高频标签短语的短语向量,确定所述高频标签短语与所述非高频标签短语的相似度。
其中,所述短语向量获得子单元包括:
加和处理子单元,用于将所述第二类候选标签短语中的标签短语的字向量进行加和处理;
平均值获得子单元,用于将加和处理后的标签短语字向量平均值作为所述标签短语的短语向量;
所述相似度确定子单元具体用于将所述短语向量满足余弦夹角阈值条件的标签短语的短语向量确定为所述第二类候选标签短语中所述高频标签短语与所述非高频标签短语之间的相似度。
第三确定单元204,用于将所述高频标签短语作为所述评论数据的代表标签短语。
所述第三确定单元204具体可以是将高频标签短语与对应的所述评论数据之间建立对应关系,即:查看高频标签短语时,在其下显示属于高频标签短语的评论数据。根据归一化的处理,所述高频标签短语中的评论数据不仅包括归一化处理前的评论数据还包括将非高频标签短语归一化至高频标签短语后,非高频标签短语对应的评论数据,也就是说,所述高频标签短语建立与评论数据之间的对应关系中,评论数据包括:两类,一类为归一化处理前的高频标签短语本身的评论数据,另一类为归一化处理后的被归一化处理的非高频标签短语对应的评论数据,高频标签短语将作为这两类评论数据的代表标签短语。
以上是对本申请提供一种评论数据中标签短语归一化的处理装置实施例的说明,由于装置实施例基本相似于方法实施例,所以描述得比较简单,基于上述本申请提供的一种评论数据中标签短语归一化的处理方法和装置的说明,本申请还提供一种评论数据中标签短语相似度的计算方法,请参考图3所示,所述评论数据中标签短语相似度的计算方法与所述评论数据中标签短语归一化的处理方法中对相似度确定过程的描述相类似,因此,此处对评论数据中标签短语相似度的计算方法的描述仅为示意性的,具体计算的过程可以参考对评论数据中标签短语归一化的处理方法实施例的描述。
如图3所示,图3是本申请提供的一种评论数据中标签短语相似度的计算方法实施例的流程图,所述计算方法包括:
步骤S301:根据评论数据,获得指定字数的候选标签短语。
所述步骤S301中指定字数在本实施例中可以是指四字短语,即指定字数为四个字的短语作为候选标签短语。
对所述四字短语的选择可以根据标签短语表达内容或词性进行指定,如指定词性包括:名词+形容词+名词+形容词,即两个并列名词之间包括形容词,并列名字末尾包括形容词,反之亦然。例如:皮薄馅大,皮薄馅多、馅多皮薄、汁多皮薄、皮薄汁多、汁多味美、汁多肉嫩、肉嫩味美、肉嫩味鲜、肉嫩多汁、美味多汁、肉多味美、皮薄肉多、肉多皮薄、皮薄肉嫩、皮脆肉香等等,其中,皮薄馅大中的“皮薄”和“馅大”为并列词语,而“皮”和“馅”为并列主语,“薄”和“大”为并列修饰语。
上述举例中的四字短语均为相同描述类型。通常四字短语出现于对餐饮商品味道质量等评价内容中,因此,此处仅以上述为例进行说明,但实际上,还可以包括除上述四字短语以外的其他描述类型的四字短语,例如:环境类型和/或服务类型等等
步骤S302:获得所述候选标签短语的字向量。
所述步骤S302的具体实现过程可以包括:
对指定字数的所述候选标签短语按字切分;
计算切分后的所述候选标签短语的字向量。
在本实施例中,对所述四字短语的字向量的计算可以采用word2vec方法获得,即:对四字短语进行字切分,例如:四字短语为abcd,切分为a/b/c/d。对每一个字采用word2vec方法训练得到每个字的字向量,即获得a的字向量、b的字向量、c以及d的字向量。
步骤S303:根据所述候选标签短语的字向量获得所述候选标签短语的短语向量。
所述步骤S303具体实现过程可以包括:
对获得的所述候选标签短语的字向量进行加和处理,获得所述候选标签短语的字向量和;即:对四字短语的每个字的字向量进行加和处理,得到四字短语的字向量之和。
对所述字向量和取平均值,将所述平均值作为所述候选标签短语的短语向量;即:对四字短语的字向量和计算平均值,所述平均值即为四字短语的短语向量。
上述对字向量的具体描述可以参考上述步骤S103。
步骤S304:根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
所述步骤S304的具体实现过程可以包括:
根据所述指定字数的候选标签短语的短语向量之间的余弦夹角确定两个短语向量之间的相似度。
根据所述指定字数的候选标签短语的短语向量之间的余弦夹角确定两个短语向量之间的相似度,包括:
判断所述指定字数的候选标签短语的短语向量之间的余弦夹角是否满足设定的相似度阈值,若满足,则确定所述余弦夹角对应的两个所述指定字数的候选标签短语相似。
在四字短语的短语向量确定过程中可以通过向量余弦夹角的方式,还可以通过向量距离的方式确定相似度,例如:根据所有短语向量形成一个短语向量空间,每一短语向量为所述空间中的一个点,在所述空间上通过获得点到点的距离(即:短语向量到短语向量的距离),判断高频标签短语和非高频标签短语之间相似度。对于相似度的确定还可以利用Python计算编辑距离,确定高频标签短语和非高频标签短语之间相似度。
可以理解的是,所述相似度的计算具有多种方法,上述向量余弦角度,向量距离、编辑距离可以采用其中一种也可以结合多种方式进行确定。
以上是对本申请提供一种评论数据中标签短语相似度的计算方法实施例的说明,与前述提供的评论数据中标签短语相似度的计算方法实施例相对应,本申请还公开了一种评论数据中标签短语相似度的计算装置,请参看图4,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图4所示,图4是本申请提供的一种评论数据中标签短语相似度的计算装置实施例的结构示意图。所述计算装置包括:
候选标签短语获得单元401,用于根据评论数据,获得指定字数的候选标签短语;
字向量获得单元402,用于获得所述候选标签短语的字向量;
短语向量获得单元403,用于根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
确定单元404,用于根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
所述字向量获得单元402包括:
切分子单元,用于对指定字数的所述候选标签短语按字切分;
计算子单元,用于计算切分后的所述候选标签短语的字向量。
所述短语向量获得单元403包括:
加和处理子单元,用于对获得的所述候选标签短语的字向量进行加和处理,获得所述候选标签短语的字向量和;
短语向量确定子单元,用于对所述字向量和取平均值,将所述平均值作为所述候选标签短语的短语向量。
所述确定单元404包括:
相似度确定子单元,用于根据所述指定字数的候选标签短语的短语向量之间的余弦夹角确定两个短语向量之间的相似度。
所述相似度确定子单元包括:
判断子单元,用于判断所述指定字数的候选标签短语的短语向量之间的余弦夹角是否满足设定的相似度阈值,若满足,则确定所述余弦夹角对应的两个所述指定字数的候选标签短语相似。
以上是对本申请提供的一种评论数据中标签短语相似度的计算装置实施例的描述,所述装置中每个执行单元的具体执行过程可以参考上述关于评论数据中标签短语相似度的计算方法的描述,此处不做过多赘述。
基于上述本申请提供的一种评论数据中标签短语归一化的处理方法和装置,本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储对网络平台产生的数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,确定候选标签短语;
从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;
根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;
将所述高频标签短语作为所述评论数据的代表标签短语。
基于上述本申请提供的一种评论数据中标签短语归一化的处理方法和装置,本申请还提供一种存储设备,所述存储设备存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,确定候选标签短语;
从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;
根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;
将所述高频标签短语作为所述评论数据的代表标签短语。
基于上述本申请提供的一种评论数据中标签短语相似度的计算方法和装置,本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储对网络平台产生的数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,获得指定字数的候选标签短语;
获得所述候选标签短语的字向量;
根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
基于上述本申请提供的一种评论数据中标签短语相似度的计算方法和装置,本申请还提供一种存储设备,包括:存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,获得指定字数的候选标签短语;
获得所述候选标签短语的字向量;
根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (10)
1.一种评论数据中标签短语归一化的处理方法,其特征在于,包括:
根据评论数据,确定候选标签短语;
从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;
根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;
将所述高频标签短语作为所述评论数据的代表标签短语。
2.根据权利要求1所述的评论数据中标签短语归一化的处理方法,其特征在于,所述从所述候选标签短语中确定高频标签短语和非高频标签短语包括:
根据标签短语的模式,从所述候选标签短语中获取第一类候选标签短语;
确定所述第一类候选标签短语中的高频标签短语和非高频标签短语,所述第一类候选标签短语中具有多个标签短语;和/或,
从所述候选标签短语中获取满足指定字数要求的第二类候选标签短语;
确定所述第二类候选标签短语中的高频标签短语和非高频标签短语,所述第二类候选标签短语中具有多个字数相同的标签短语。
3.一种评论数据中标签短语归一化的处理装置,其特征在于,包括:
第一确定单元,用于根据评论数据,确定候选标签短语;
第二确定单元,用于从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;
归一单元,用于根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;
第三确定单元,用于将所述高频标签短语作为所述评论数据的代表标签短语。
4.一种评论数据中标签短语相似度的计算方法,其特征在于,包括:
根据评论数据,获得指定字数的候选标签短语;
获得所述候选标签短语的字向量;
根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
5.根据权利要求4所述的评论数据中标签短语相似度的计算方法,其特征在于,所述获得所述候选标签短语的字向量包括:
对指定字数的所述候选标签短语按字切分;
计算切分后的所述候选标签短语的字向量。
6.一种评论数据中标签短语相似度的计算装置,其特征在于,包括:
候选标签短语获得单元,用于根据评论数据,获得指定字数的候选标签短语;
字向量获得单元,用于获得所述候选标签短语的字向量;
短语向量获得单元,用于根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
确定单元,用于根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
7.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储对网络平台产生的数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,确定候选标签短语;
从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;
根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;
将所述高频标签短语作为所述评论数据的代表标签短语。
8.一种存储设备,其特征在于,存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,确定候选标签短语;
从所述候选标签短语中确定高频标签短语和非高频标签短语;其中,所述高频标签短语为在所述候选标签短语中出现频率满足频率条件的标签短语;
根据所述高频标签短语与所述非高频标签短语之间的相似度,将与所述高频标签短语满足相似度条件的所述非高频标签短语归一化到所述高频标签短语;
将所述高频标签短语作为所述评论数据的代表标签短语。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储对网络平台产生的数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,获得指定字数的候选标签短语;
获得所述候选标签短语的字向量;
根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
10.一种存储设备,其特征在于,存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被所述处理器读取执行时,执行如下操作:
根据评论数据,获得指定字数的候选标签短语;
获得所述候选标签短语的字向量;
根据所述候选标签短语的字向量获得所述候选标签短语的短语向量;
根据所述候选标签短语的短语向量确定指定字数的候选标签短语之间的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810618060.8A CN109190104A (zh) | 2018-06-15 | 2018-06-15 | 标签短语处理和相似度计算方法及装置,电子和存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810618060.8A CN109190104A (zh) | 2018-06-15 | 2018-06-15 | 标签短语处理和相似度计算方法及装置,电子和存储设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109190104A true CN109190104A (zh) | 2019-01-11 |
Family
ID=64948661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810618060.8A Pending CN109190104A (zh) | 2018-06-15 | 2018-06-15 | 标签短语处理和相似度计算方法及装置,电子和存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190104A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651012A (zh) * | 2012-03-09 | 2012-08-29 | 华中科技大学 | 互联网新闻文本之间的转载关系识别方法 |
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN104035927A (zh) * | 2013-03-05 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种基于用户行为的搜索方法及系统 |
CN104778209A (zh) * | 2015-03-13 | 2015-07-15 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
CN105069483A (zh) * | 2015-08-21 | 2015-11-18 | 中国地质大学(武汉) | 一种对分类数据集进行测试的方法 |
CN108153856A (zh) * | 2017-12-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
-
2018
- 2018-06-15 CN CN201810618060.8A patent/CN109190104A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651012A (zh) * | 2012-03-09 | 2012-08-29 | 华中科技大学 | 互联网新闻文本之间的转载关系识别方法 |
CN104035927A (zh) * | 2013-03-05 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种基于用户行为的搜索方法及系统 |
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN104778209A (zh) * | 2015-03-13 | 2015-07-15 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
CN105069483A (zh) * | 2015-08-21 | 2015-11-18 | 中国地质大学(武汉) | 一种对分类数据集进行测试的方法 |
CN108153856A (zh) * | 2017-12-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
Tsur et al. | ICWSM—a great catchy name: Semi-supervised recognition of sarcastic sentences in online product reviews | |
CN110175325B (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN108230085A (zh) | 一种基于用户评论的商品评价系统及方法 | |
CN108694647B (zh) | 一种商户推荐理由的挖掘方法及装置,电子设备 | |
CN109614550A (zh) | 舆情监控方法、装置、计算机设备及存储介质 | |
CN107833082B (zh) | 一种商品图片的推荐方法和装置 | |
CN110705612A (zh) | 一种混合多特征的句子相似度计算方法、存储介质及系统 | |
CN110188357B (zh) | 对象的行业识别方法及装置 | |
CN109710841A (zh) | 评论推荐方法和装置 | |
KR20120109943A (ko) | 문장에 내재한 감정 분석을 위한 감정 분류 방법 | |
CN111666761A (zh) | 细粒度情感分析模型训练方法及装置 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN110706028A (zh) | 基于属性特征的商品评价情感分析系统 | |
CN105955957B (zh) | 一种商家总体评论中方面评分的确定方法及装置 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN110955750A (zh) | 评论区域和情感极性的联合识别方法、装置、电子设备 | |
CN112434493A (zh) | 一种文案生成方法、装置、电子设备和存储介质 | |
KR101319413B1 (ko) | 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법 | |
CN107436916A (zh) | 智能提示答案的方法及装置 | |
CN107798622A (zh) | 一种识别用户意图的方法和装置 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN111695357A (zh) | 文本标注方法及相关产品 | |
CN110706064A (zh) | 菜品推荐信息的生成方法、装置、设备及存储介质 | |
CN107273546A (zh) | 仿冒应用检测方法以及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |