CN114064895B - 一种用户新建议实时发现方法、装置、设备及介质 - Google Patents
一种用户新建议实时发现方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114064895B CN114064895B CN202111356575.3A CN202111356575A CN114064895B CN 114064895 B CN114064895 B CN 114064895B CN 202111356575 A CN202111356575 A CN 202111356575A CN 114064895 B CN114064895 B CN 114064895B
- Authority
- CN
- China
- Prior art keywords
- clustered
- clustering
- center
- detected
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000012634 fragment Substances 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 68
- 238000004891 communication Methods 0.000 claims description 18
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 2
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用户新建议实时发现方法、装置、设备及介质,涉及数据处理技术领域,包括:根据预设的句式规则对所述用户评论文本数据进行抽取,得到待聚类建议文本片段;将多个所述待聚类建议文本片段进行聚类,得到若干个待测聚类中心;分别判断若干个所述待测聚类中心与预存的聚类中心是否相似;若当前所述待测聚类中心与所述预存的聚类中心不相似,则在所述预存的聚类中心上新建一类聚类中心,同时判定检测到新的用户建议。通过根据预设的句式规则从所述用户评论文本数据中获取待聚类建议文本片段后进行聚类得到待测聚类中心,再判断待测聚类中心与预存的聚类中心是否相似,从而确认待测聚类中心对应的待聚类建议文本片段是否是新的用户建议,提高了发现新的用户建议的效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种用户新建议实时发现方法、装置、设备及介质。
背景技术
在随着互联网技术的不断发展,人们越来越喜欢在电商平台购物,此购物方式为我们的生活提供了很大的便捷性。一般完成一次购物后,会把自己的购物体验、产品使用感受以及对产品的建议发布到电商平台,以表达自己对该产品的观点。而这些用户反馈文本,作为用户问题、建议、态度的载体,对产品评估和改进优化极具价值。因此品牌方可以从这些用户反馈中搜集用户对产品的建议,从而研究用户建议的可行性、应用性及盈利点,让产品变得更好。
目前已经有相关技术方法,可以从用户评论中抽取对产品的用户建议。常见方法是通过对文本数据直接进行聚类,得到用户对产品的建议。由于每次有新的用户建议,就会对所有文本做全量聚类,存在聚类结果生成时间比较长且发现新的用户建议所用时间比较长的问题。
发明内容
本发明提供了一种用户新建议实时发现方法、装置、设备及介质,以解决现有技术中对所有文本做全量聚类,存在聚类结果生成时间比较长且发现新的用户建议所用时间比较长的问题。
为了解决上述问题,本发明采用以下技术方案:
第一方面,本发明提供了一种用户新建议实时发现方法,包括:
获取用户评论文本数据和规则文件,所述规则文件包括预设的句式规则;
根据预设的句式规则对所述用户评论文本数据进行抽取,得到待聚类建议文本片段;
将多个所述待聚类建议文本片段进行聚类,得到若干个待测聚类中心;
分别判断若干个所述待测聚类中心与预存的聚类中心是否相似;
若当前所述待测聚类中心与所述预存的聚类中心不相似,则在所述预存的聚类中心上新建一类聚类中心,同时判定检测到新的用户建议,所述待测聚类中心即为新建的一类聚类中心;
若当前所述待测聚类中心与所述预存的聚类中心相似,则将所述待测聚类中心合并至所述预存的聚类中心中;
判断当前所述待测聚类中心是否属于若干个所述待测聚类中心中的最后一个待测聚类中心;
若否,则返回分别判断若干个所述待测聚类中心与预存的聚类中心是否相似的步骤。
其进一步的技术方案为,所述获取用户评论文本数据和规则文件之前,还包括:
对所述用户评论文本数据进行数据清洗处理,以过滤掉噪声数据。
其进一步的技术方案为,所述将多个所述待聚类建议文本片段进行聚类,得到若干个待测聚类中心,包括:
将所述待聚类建议文本片段进行预处理得到多个文本特征词;
将所述文本特征词一一转换成对应的词向量,得到多个词向量;
将所述多个词向量进行叠加求平均值得到文本向量;
利用预设的聚类算法对多个所述文本向量进行聚类,得到若干个所述待测聚类中心以及每个文本向量的所属聚类编号。
其进一步的技术方案为,所述待测聚类中心包括聚类中心向量,所述预存的聚类中心包括预存聚类中心向量,所述分别判断若干个所述待测聚类中心与所述预存的聚类中心是否相似,包括:
获取当前所述待测聚类中心中的聚类中心向量;
判断当前所述聚类中心向量与预存聚类中心向量相似程度是否小于预设的阈值;
若当前所述聚类中心向量与所述预存聚类中心向量相似程度小于预设的阈值,判定当前所述待测聚类中心与所述预存的聚类中心不相似。
其进一步的技术方案为,所述待聚类建议文本片段包括停用词,所述将所述待聚类建议文本片段进行分词预处理得到多个文本特征词,包括:
使用停用词词典去除掉所述待聚类建议文本片段中的所述停用词。
其进一步的技术方案为,所述待聚类建议文本片段还包括同义词,所述将所述待聚类建议文本片段进行分词预处理得到多个文本特征词,包括:
利用同义词典将所述待聚类建议文本片段中所有的所述同义词进行同义词替换。
其进一步的技术方案为,所述分别判断若干个所述待测聚类中心与预存的聚类中心是否相似之后,还包括:
若当前所述待测聚类中心是若干个所述待测聚类中心中的最后一个待测聚类中心,则返回获取用户评论文本数据和规则文件的步骤,以重新获取用户评论文本数据。
第二方面,本发明还提供了一种用户新建议实时发现装置,包括用于执行如第一方面所述方法的单元。
第三方面,本发明还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法的步骤。
本发明实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明实施例提供的一种用户新建议实时发现方法、装置、设备及介质,所述方法根据预设的句式规则从所述用户评论文本数据中获取待聚类建议文本片段,再将所述待聚类建议文本片段进行聚类得到待测聚类中心,再判断待测聚类中心与预存的聚类中心是否相似,从而确认待测聚类中心对应的待聚类建议文本片段是否是新的用户建议,提高了发现新的用户建议的效率,不用对整个用户评论文本数据进行全量聚类从而使节省时间,且提高了发现新的用户建议的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种用户新建议实时发现方法的流程示意图;
图2为本发明实施例1提供的一种用户新建议实时发现方法中所述将多个所述待聚类建议文本片段进行聚类,得到若干个待测聚类中心的流程示意图;
图3为本发明实施例2提供的一种用户新建议实时发现方法的流程示意图;
图4为本发明实施例3提供的一种用户新建议实时发现装置的结构框图;
图5为本发明实施例4提供的一种用户新建议实时发现装置的结构框图;
图6为本发明实施例5提出的一种电子设备的结构示意图。
具体实施方式
为了更充分理解本发明的技术内容,下面结合具体实施例对本发明的技术方案进一步介绍和说明,但不局限于此。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
实施例1
参见图1,结合图2所示,图1为本发明实施例1提供的一种用户新建议实时发现方法的流程示意图。该方法可应用于电子设备中,电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信,对此本发明不做具体限定。具体地,如图1所示,该方法包括以下步骤S101-S108。
S101,获取用户评论文本数据和规则文件,所述规则文件包括预设的句式规则。
所述用户评论文本数据即用户建议;所述规则文件用于存储所述预设的句式规则;所述预设的句式规则为用户根据需要设定的规则,所述预设的句式规则是用户通过编写正则表达式或更复杂的规则表达式从而形成的。
S102,根据预设的句式规则对所述用户评论文本数据进行抽取,得到待聚类建议文本片段。
所述根据预设的句式规则对所述用户评论文本数据进行抽取,得到待聚类建议文本片段,例如,用户要用预设的句式规则抽取所述用户评论文本数据中提及到的“要是xx就更完美了”文本,所述“要是xx就更完美了”文本则就是待聚类建议文本片段;处理器会解析句式规则中的表达式,并匹配出所述用户评论文本数据中提及到的“要是xx就更完美了”文本,从而获取待聚类建议文本片段“要是xx就更完美了”,所述预设的句式规则是用户编写的正则表达式或者更复杂的规则表达式描述出的。
S103,将多个所述待聚类建议文本片段进行聚类,得到若干个待测聚类中心。
所述聚类用于对所述待聚类建议文本片段进行分类,并得到若干个待测聚类中心。
在一实施例中,所述将多个所述待聚类建议文本片段进行聚类,得到若干个待测聚类中心,包括:
S1031,将所述待聚类建议文本片段进行预处理得到多个文本特征词。
所述预处理用于筛选所述待聚类建议文本片段中的关键词,从而得到多个文本特征词。
具体实施中,所述待聚类建议文本片段包括停用词,所述将所述待聚类建议文本片段进行分词预处理得到多个文本特征词,包括:
使用停用词词典去除掉所述待聚类建议文本片段中的所述停用词。
所述停用词词典中存储有用于去除停用词的相关的指令。
具体实施中,所述待聚类建议文本片段还包括同义词,所述将所述待聚类建议文本片段进行分词预处理得到多个文本特征词,包括:
利用同义词典将所述待聚类建议文本片段中所有的所述同义词进行同义词替换。
所述同义词典中存储有用于将所有的同义词进行同义词替换的相关的指令。
S1032,将所述文本特征词一一转换成对应的词向量,得到多个词向量。
所述将所述文本特征词一一转换成对应的词向量,得到多个词向量,可使用Word2vec或Glove模型把所述文本特征词一一转换成对应的词向量,得到多个词向量。
S1033,将所述多个词向量进行叠加求平均值得到文本向量。
将所有词向量采用词向量加权求平均值的方法转换为文本向量来表示。
S1034,利用预设的聚类算法对多个所述文本向量进行聚类,得到若干个所述待测聚类中心以及每条文本向量的所属聚类编号。
所述预设的聚类算法为对所述文本向量进行聚类而用到的一种聚类算法,所述文本向量的所属聚类编号即指所述文本向量属于某个所述待测聚类中心所处的类别中。
具体实施中,使用层次聚类对所述文本向量进行聚类,得到待聚类建议文本片段的待测聚类中心。
S104,分别判断若干个所述待测聚类中心与预存的聚类中心是否相似。
具体实施中,若将本批的多个所述待聚类建议文本片段进行聚类后,得到多个待测聚类中心,某个待测聚类中心为A’,预存的聚类中心为A、B及C,将待测聚类中心A’与预存的聚类中心A、B及C进行相似度计算,从而得出待测聚类中心A’与预存的聚类中心A、B及C中某个聚类中心相似度大于预设的阈值,则判定待测聚类中心A’对应的待聚类建议文本片段是已经存在的用户建议;若待测聚类中心A’与预存的聚类中心A、B及C的相似度都小于预设的阈值,则判定待测聚类中心A’对应的待聚类建议文本片段是新的用户建议。
在一实施例中,所述待测聚类中心包括聚类中心向量,所述预存的聚类中心包括预存聚类中心向量,所述分别判断若干个待测聚类中心与预存的聚类中心是否相似,包括:
获取当前待测聚类中心中的聚类中心向量;
判断当前所述聚类中心向量与预存聚类中心向量相似程度是否小于预设的阈值;
若当前所述聚类中心向量与预存聚类中心向量相似程度小于预设的阈值,判定当前待测聚类中心与预存的聚类中心不相似。
具体实施中,所述待测聚类中心包括聚类中心向量,所述预存的聚类中心包括预存聚类中心向量;对一批文本向量进行聚类后会得到若干待测聚类中心,处理器通过所述聚类中心向量与预存的聚类中心中的聚类中心向量的相似程度去判断待测聚类中心与预存的聚类中心是否相似,当相似程度大于预设的阈值时判定为相似,所述预设的阈值由用户根据业务场景的具体需求调整;例如,将本批的多个所述待聚类建议文本片段进行聚类后,得到多个待测聚类中心,多个待测聚类中心中的某个待测聚类中心为A’,预存的聚类中心为A、B及C,将待测聚类中心A’与预存的聚类中心A、B及C进行相似度计算,从而得出待测聚类中心A’与预存的聚类中心A、B及C中某个聚类中心相似度大于预设的阈值,则判定待测聚类中心A’对应的待聚类建议文本片段是已经存在的用户建议;若待测聚类中心A’与预存的聚类中心A、B及C的相似度都小于预设的阈值,则判定待测聚类中心A’对应的待聚类建议文本片段是新的用户建议。
S105,若当前所述待测聚类中心与所述预存的聚类中心不相似,则在所述预存的聚类中心上新建一类聚类中心,同时判定检测到新的用户建议,所述待测聚类中心即为新建的一类聚类中心。
当处理器判定待测聚类中心与预存的聚类中心不相似,则判定待测聚类中心对应的待聚类建议文本片段为新的用户建议,从而发现新的用户建议,同时对预存的聚类中心进行更新,将待测聚类中心加进预存的聚类中心且与预存的聚类中心为并列关系,即待测聚类中心为新建的一类聚类中心。
S106,若当前所述待测聚类中心与所述预存的聚类中心相似,则将所述待测聚类中心合并至所述预存的聚类中心中。
当处理器判定待测聚类中心与预存的聚类中心相似,则判定待测聚类中心对应的待聚类建议文本片段为已经存在的用户建议,此时将待测聚类中心合并至预存的聚类中心中。
S107,判断当前所述待测聚类中心是否属于若干个所述待测聚类中心中的最后一个待测聚类中心。
S108,若否,则返回分别判断若干个所述待测聚类中心与预存的聚类中心是否相似的步骤。
通过判断当前待测聚类中心是否属于若干个待测聚类中心中的最后一个待测聚类中心,在确认不是最后一个待测聚类中心时,返回分别判断若干个待测聚类中心与预存的聚类中心是否相似的步骤,从而对下一个待测聚类中心与预存的聚类中心进行相似度对比。
具体而言,通过一种用户新建议实时发现方法,根据预设的句式规则从所述用户评论文本数据中获取待聚类建议文本片段,再将所述待聚类建议文本片段进行聚类后得到待测聚类中心,再判断待测聚类中心与预存的聚类中心是否相似,从而确认待测聚类中心对应的待聚类建议文本片段是否是新的用户建议,提高了发现新的用户建议的效率,不用对整个用户评论文本数据进行全量聚类从而节省时间,且提高了发现新的用户建议的效率。
实施例2
参见图3,图3为本发明实施例2提供的一种用户新建议实时发现方法的流程示意图。实施例2的用户新建议实时发现方法包括步骤S201-S210,其中步骤S201-S208与上述实施例1中的步骤S101-S108类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S209-S210。
所述获取用户评论文本数据和规则文件之前,还包括:
S209,对所述用户评论文本数据进行数据清洗处理,以过滤掉噪声数据。
所述对所述用户评论文本数据进行数据清洗处理主要是过滤掉噪声数据,所述数据清洗处理主要包括:过滤掉水军评论以及用户评论中出现的无意义的符号;对所述用户评论文本数据中出现的标点符号、英文字母,采用统一的书写方式,转换为统一的表述;对于没有任何标点符号来分割的较长的所述用户评论文本数据,采用命名实体识别的方法,对所述用户评论文本数据进行分割,添加标点符号进行断句。
所述分别判断若干个所述待测聚类中心与预存的聚类中心是否相似之后,还包括:
S210,若当前所述待测聚类中心是若干个所述待测聚类中心中的最后一个待测聚类中心,则返回获取用户评论文本数据和规则文件的步骤,以重新获取用户评论文本数据。
若当前待测聚类中心是若干个待测聚类中心中的最后一个待测聚类中心,则代表完成对本批次所有的待测聚类中心与预存的聚类中心进行相似度对比的过程,则返回获取用户评论文本数据和规则文件的步骤,以重新获取用户评论文本数据,继续对下一批次的所有的待测聚类中心与预存的聚类中心进行相似度对比。
具体而言,通过对所述用户评论文本数据进行数据清洗处理,以过滤掉噪声数据,能够提高获取到的所述用户评论文本数据的质量,降低后续对所述用户评论文本数据处理过程中发生错误的频率;通过返回获取用户评论文本数据和规则文件的步骤,以重新获取用户评论文本数据,从而使得不断去发现新的用户建议。
实施例3
参见图4,本发明实施例还提供了一种用户新建议实时发现装置400,该用户新建议实时发现装置400包括第一获取单元401、第一抽取单元402、第一聚类单元403、第一判断单元404、第一新建单元405、第一合并单元406、第二判断单元407、第一返回单元408。
第一获取单元401,用于获取用户评论文本数据和规则文件,所述规则文件包括预设的句式规则;
第一抽取单元402,用于根据预设的句式规则对所述用户评论文本数据进行抽取,得到待聚类建议文本片段;
第一聚类单元403,用于将多个所述待聚类建议文本片段进行聚类,得到若干个待测聚类中心;
第一判断单元404,用于分别判断若干个所述待测聚类中心与预存的聚类中心是否相似;
第一新建单元405,用于若当前所述待测聚类中心与所述预存的聚类中心不相似,则在所述预存的聚类中心上新建一类聚类中心,同时判定检测到新的用户建议,所述待测聚类中心即为新建的一类聚类中心;
第一合并单元406,用于若当前所述待测聚类中心与所述预存的聚类中心相似,则将所述待测聚类中心合并至所述预存的聚类中心中;
第二判断单元407,用于判断当前所述待测聚类中心是否属于若干个所述待测聚类中心中的最后一个待测聚类中心;
第一返回单元408,用于当前待测聚类中心不属于若干个待测聚类中心中的最后一个待测聚类中心,则返回分别判断若干个所述待测聚类中心与预存的聚类中心是否相似的步骤。
在一实施例中,所述将多个所述待聚类建议文本片段进行聚类,得到若干个待测聚类中心,包括:
将所述待聚类建议文本片段进行预处理得到多个文本特征词;
将所述文本特征词一一转换成对应的词向量,得到多个词向量;
将所述多个词向量进行叠加求平均值得到文本向量;
利用预设的聚类算法对多个所述文本向量进行聚类,得到若干个待测聚类中心以及每个文本向量的所属聚类编号。
在一实施例中,所述待测聚类中心包括聚类中心向量,所述预存的聚类中心包括预存聚类中心向量,所述分别判断若干个待测聚类中心与预存的聚类中心是否相似,包括:
获取当前待测聚类中心中的聚类中心向量;
判断当前所述聚类中心向量与预存聚类中心向量相似程度是否小于预设的阈值;
若当前所述聚类中心向量与预存聚类中心向量相似程度小于预设的阈值,判定当前待测聚类中心与预存的聚类中心不相似。
在一实施例中,所述待聚类建议文本片段包括停用词,所述将所述待聚类建议文本片段进行分词预处理得到多个文本特征词,包括:
使用停用词词典去除掉所述待聚类建议文本片段中的所述停用词。
在一实施例中,所述待聚类建议文本片段还包括同义词,所述将所述待聚类建议文本片段进行分词预处理得到多个文本特征词,包括:
利用同义词典将所述待聚类建议文本片段中所有的所述同义词进行同义词替换。
本发明实施例中,通过预设的句式规则从所述用户评论文本数据中获取待聚类建议文本片段,再将所述待聚类建议文本片段进行聚类后得到待测聚类中心,再判断待测聚类中心与预存的聚类中心是否相似,从而确认待测聚类中心对应的待聚类建议文本片段是否是新的用户建议,提高了发现新的用户建议的效率,不用对整个用户评论文本数据进行全量聚类从而节省时间,且提高了发现新的用户建议的效率。
实施例4
参见图5,本发明实施例还提供了一种用户新建议实时发现装置400,该用户新建议实时发现装置400与实施例3提出的用户新建议实时发现装置400的区别在于,还包括:第一清洗单元409、第一更新单元410。
第一清洗单元409,用于在所述获取用户评论文本数据和规则文件之前,对所述用户评论文本数据进行数据清洗处理,以过滤掉噪声数据。
第二返回单元410,用于若当前所述待测聚类中心是若干个所述待测聚类中心中的最后一个待测聚类中心,则返回获取用户评论文本数据和规则文件的步骤,以重新获取用户评论文本数据。
本发明实施例中,通过对所述用户评论文本数据进行数据清洗处理,以过滤掉噪声数据,能够提高获取到的所述用户评论文本数据的质量,降低后续对所述用户评论文本数据处理过程中发生错误的频率;通过返回获取用户评论文本数据和规则文件的步骤,以重新获取用户评论文本数据,从而使得不断去发现新的用户建议。
实施例5
参见图6,本发明实施例还提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信。
存储器113,用于存放计算机程序;
处理器111,用于执行存储器113上所存放的程序,实现实施例1提供的用户新建议实时发现方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器111执行时实现如实施例1提供的用户新建议实时发现方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种用户新建议实时发现方法,其特征在于,包括:
对用户评论文本数据进行数据清洗处理,以过滤掉噪声数据,其中,所述数据清洗处理包括:过滤水军评论,对所述用户评论文本数据中的标点符号、英文字母采用统一的书写方式,转换为统一的表述,对未通过标点符号分割的用户评论文本数据添加标点符号进行断句;
获取所述用户评论文本数据和规则文件,所述规则文件包括预设的句式规则,所述预设的句式规则为用户编写的正则表达式;
根据预设的句式规则对所述用户评论文本数据进行抽取,得到待聚类建议文本片段;
将多个所述待聚类建议文本片段进行聚类,得到若干个待测聚类中心;
分别判断若干个所述待测聚类中心与预存的聚类中心是否相似,所述待测聚类中心包括聚类中心向量,所述预存的聚类中心包括预存聚类中心向量,包括:获取当前所述待测聚类中心中的聚类中心向量;判断当前所述聚类中心向量与预存聚类中心向量相似程度是否小于预设的阈值;若当前所述聚类中心向量与所述预存聚类中心向量相似程度小于预设的阈值,判定当前所述待测聚类中心与所述预存的聚类中心不相似;
若当前所述待测聚类中心与所述预存的聚类中心不相似,则在所述预存的聚类中心上新建一类聚类中心,同时判定检测到新的用户建议,所述待测聚类中心即为新建的一类聚类中心;
若当前所述待测聚类中心与所述预存的聚类中心相似,则将所述待测聚类中心合并至所述预存的聚类中心中;
判断当前所述待测聚类中心是否属于若干个所述待测聚类中心中的最后一个待测聚类中心;
若否,则返回分别判断若干个所述待测聚类中心与预存的聚类中心是否相似的步骤;
若当前所述待测聚类中心是若干个所述待测聚类中心中的最后一个待测聚类中心,则返回获取用户评论文本数据和规则文件的步骤,以重新获取所述用户评论文本数据。
2.根据权利要求1所述的用户新建议实时发现方法,其特征在于,所述将多个所述待聚类建议文本片段进行聚类,得到若干个待测聚类中心,包括:
将所述待聚类建议文本片段进行预处理得到多个文本特征词;
将所述文本特征词一一转换成对应的词向量,得到多个词向量;
将所述多个词向量进行叠加求平均值得到文本向量;
利用预设的聚类算法对多个所述文本向量进行聚类,得到若干个所述待测聚类中心以及每个文本向量的所属聚类编号。
3.根据权利要求1所述的用户新建议实时发现方法,其特征在于,所述待聚类建议文本片段包括停用词,将所述待聚类建议文本片段进行分词预处理得到多个文本特征词,包括:
使用停用词词典去除掉所述待聚类建议文本片段中的所述停用词。
4.根据权利要求1所述的用户新建议实时发现方法,其特征在于,所述待聚类建议文本片段还包括同义词,将所述待聚类建议文本片段进行分词预处理得到多个文本特征词,包括:
利用同义词典将所述待聚类建议文本片段中所有的所述同义词进行同义词替换。
5.一种用户新建议实时发现装置,其特征在于,包括用于执行如权利要求1-4任一项所述方法的单元。
6.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一项所述的方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111356575.3A CN114064895B (zh) | 2021-11-16 | 2021-11-16 | 一种用户新建议实时发现方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111356575.3A CN114064895B (zh) | 2021-11-16 | 2021-11-16 | 一种用户新建议实时发现方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114064895A CN114064895A (zh) | 2022-02-18 |
CN114064895B true CN114064895B (zh) | 2023-12-19 |
Family
ID=80272982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111356575.3A Active CN114064895B (zh) | 2021-11-16 | 2021-11-16 | 一种用户新建议实时发现方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114064895B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766437A (zh) * | 2018-12-07 | 2019-05-17 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN110888978A (zh) * | 2018-09-06 | 2020-03-17 | 北京京东金融科技控股有限公司 | 文章聚类方法、装置、电子设备、存储介质 |
CN111091000A (zh) * | 2019-12-24 | 2020-05-01 | 深圳视界信息技术有限公司 | 一种抽取用户细粒度典型意见数据处理系统及方法 |
CN111753082A (zh) * | 2020-03-23 | 2020-10-09 | 北京沃东天骏信息技术有限公司 | 基于评论数据的文本分类方法及装置、设备和介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10489438B2 (en) * | 2016-05-19 | 2019-11-26 | Conduent Business Services, Llc | Method and system for data processing for text classification of a target domain |
-
2021
- 2021-11-16 CN CN202111356575.3A patent/CN114064895B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110888978A (zh) * | 2018-09-06 | 2020-03-17 | 北京京东金融科技控股有限公司 | 文章聚类方法、装置、电子设备、存储介质 |
CN109766437A (zh) * | 2018-12-07 | 2019-05-17 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN111091000A (zh) * | 2019-12-24 | 2020-05-01 | 深圳视界信息技术有限公司 | 一种抽取用户细粒度典型意见数据处理系统及方法 |
CN111753082A (zh) * | 2020-03-23 | 2020-10-09 | 北京沃东天骏信息技术有限公司 | 基于评论数据的文本分类方法及装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114064895A (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN109345399B (zh) | 理赔风险评估方法、装置、计算机设备及存储介质 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
JP2012118977A (ja) | 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム | |
CN107145516B (zh) | 一种文本聚类方法及系统 | |
KR20190080234A (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN111190968A (zh) | 基于知识图谱的数据预处理和内容推荐方法 | |
CN111198946A (zh) | 一种网络新闻热点挖掘方法及装置 | |
Liu et al. | Open intent discovery through unsupervised semantic clustering and dependency parsing | |
CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN115086182A (zh) | 邮件识别模型的优化方法、装置、电子设备及存储介质 | |
JP2013131075A (ja) | 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法 | |
CN108470065B (zh) | 一种异常评论文本的确定方法及装置 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN110287270B (zh) | 实体关系挖掘方法及设备 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN114064895B (zh) | 一种用户新建议实时发现方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518057 401, block a, sharing building, No. 78, Keyuan North Road, songpingshan community, Xili street, Nanshan District, Shenzhen, Guangdong Applicant after: Shenzhen Shukuo Information Technology Co.,Ltd. Address before: 518057 401, block a, sharing building, No. 78, Keyuan North Road, songpingshan community, Xili street, Nanshan District, Shenzhen, Guangdong Applicant before: SHENZHEN SKIEER INFORMATION TECHNOLOGY CO.,LTD. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |