CN117828030B - 基于大数据的用户分析方法及电子设备 - Google Patents
基于大数据的用户分析方法及电子设备 Download PDFInfo
- Publication number
- CN117828030B CN117828030B CN202410233658.0A CN202410233658A CN117828030B CN 117828030 B CN117828030 B CN 117828030B CN 202410233658 A CN202410233658 A CN 202410233658A CN 117828030 B CN117828030 B CN 117828030B
- Authority
- CN
- China
- Prior art keywords
- text
- feedback
- feedback text
- tag
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 85
- 238000005259 measurement Methods 0.000 claims abstract description 10
- 238000007621 cluster analysis Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 235
- 238000012512 characterization method Methods 0.000 claims description 178
- 230000011218 segmentation Effects 0.000 claims description 63
- 238000000034 method Methods 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000004140 cleaning Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000005065 mining Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000011524 similarity measure Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 7
- 238000003860 storage Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 12
- 230000004888 barrier function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 235000020004 porter Nutrition 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种基于大数据的用户分析方法及电子设备,涉及数据处理领域,本申请通过低数据量的多要素辅助识别信息即可抛开反馈文本正文,将多匹配反馈文本进行高效匹配,实现高效、高召回率、低消耗的优势。之后针对备选反馈文本中不能采用辅助识别信息确认是否匹配的其他备选反馈文本,接着通过目标反馈文本的反馈文本正文与其他备选反馈文本的反馈文本正文的相似性度量结果,从其他备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本,完成匹配结果的保底。最后将匹配反馈文本的用户反馈分析结果作为目标反馈文本的用户分析结果,如此,基于已有分析结果进行现有样本的分析,有利于持续性聚类分析,识别高效准确。
Description
技术领域
本申请涉及数据处理,具体而言,涉及一种基于大数据的用户分析方法及电子设备。
背景技术
反馈收集与用户分析在各个领域都有着至关重要的意义。例如,在产品和服务开发中,反馈收集和用户分析在产品和服务开发中具有重要的意义,通过对用户的反馈进行分析可以理解用户需求和期望,这样可以帮助开发团队了解用户对产品或服务的喜好、问题和改进建议,从而指导产品的优化和迭代。此外,用户反馈和用户分析可以帮助发现产品存在的问题和缺陷,及早获得用户反馈并进行分析,可以快速识别和解决问题,改进产品质量,提升用户体验。总的来说,反馈收集和用户分析可以为产品优化、用户参与、创新和竞争力提供有力支持。
随着互联网的发展,反馈信息收集和用户分析已经完成了数字化转型,用户直接按照调查模板填写反馈信息,形成数字化反馈信息到达企业的后台数据库,经过统一分析后获得用户分析结果。目前,在大规模企业中,由于庞大的用户数据基数,获取的用户反馈信息是庞大的,如何高效准确地进行反馈大数据识别,完成用户分析是需要解决的技术问题。
发明内容
本申请的目的在于提供一种基于大数据的用户分析方法及电子设备。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种基于大数据的用户分析方法,其特征在于,应用于电子设备,所述方法包括:
获取目标反馈文本的反馈文本正文与多要素辅助识别信息,所述辅助识别信息包括所述目标反馈文本的事件标签序列;
基于所述目标反馈文本的事件标签序列与各参考反馈文本的事件标签序列之间的标签共性评分,在各个所述参考反馈文本中确定出备选反馈文本;其中,每一所述参考反馈文本分别对应有用户反馈分析结果;
通过所述辅助识别信息获取所述目标反馈文本与所述备选反馈文本对应每个辅助识别要素的辅助识别表征向量,通过各所述辅助识别表征向量在各个所述备选反馈文本中确定与所述目标反馈文本匹配的匹配反馈文本;
针对所述备选反馈文本中,除开所述匹配反馈文本外的其他备选反馈文本,基于所述目标反馈文本的反馈文本正文与各所述其他备选反馈文本的反馈文本正文的相似性度量结果,在各个所述其他备选反馈文本中确定与所述目标反馈文本匹配的匹配反馈文本;
将所述匹配反馈文本的用户反馈分析结果作为所述目标反馈文本的用户分析结果。
可选的实施方式中,所述基于所述目标反馈文本的事件标签序列与各参考反馈文本的事件标签序列之间的标签共性评分,在各个所述参考反馈文本中确定出备选反馈文本,包括:
分别对所述目标反馈文本与各所述参考反馈文本的事件标签序列进行表征向量抽取,得到标签表征向量;
通过所述目标反馈文本的标签表征向量与各所述参考反馈文本的标签表征向量之间的表征向量空间系数,在各个所述参考反馈文本中确定出备选反馈文本。
可选的实施方式中,所述方法还包括:
对各所述参考反馈文本的标签表征向量进行群集分析,得到设定数量个分类质心与所述分类质心所在的集群;
所述通过所述目标反馈文本的标签表征向量与各所述参考反馈文本的标签表征向量之间的表征向量空间系数,在各个所述参考反馈文本中确定出备选反馈文本,包括:
获取所述目标反馈文本的标签表征向量与各所述分类质心的空间相似性;
依据所述空间相似性在各个所述分类质心中确定出一个或多个分类质心;
获取所述目标反馈文本的标签表征向量与确定出的分类质心所在集群中各标签表征向量之间的空间相似性;
依据所述空间相似性从确定出的分类质心所在集群中确定出备选反馈文本。
可选的实施方式中,所述通过所述辅助识别信息获取所述目标反馈文本与所述备选反馈文本对应每个辅助识别要素的辅助识别表征向量,包括以下执行方式A~G中的一个或多个:
执行方式A:获取所述目标反馈文本与各所述备选反馈文本对应标签奇异性的标签奇异值;
执行方式B:获取所述目标反馈文本与各所述备选反馈文本对应事件标签序列的标签共性评分;
执行方式C:获取所述目标反馈文本与各所述备选反馈文本对应反馈文本简介的文本简介共性评分;
执行方式D:获取所述目标反馈文本与各所述备选反馈文本对应标签-简介的标签-简介共性评分;
执行方式E:获取所述目标反馈文本与各所述备选反馈文本对应简介-标签的简介-标签共性评分;
执行方式F:获取所述目标反馈文本与各所述备选反馈文本对应文本分词数量的文本分词数量共性评分;
执行方式G:获取所述目标反馈文本与各所述备选反馈文本对应用户画像的用户画像共性评分;
则,所述通过各所述辅助识别表征向量在各个所述备选反馈文本中确定与所述目标反馈文本匹配的匹配反馈文本,包括:
针对每个备选反馈文本,通过相应的所述标签奇异值、所述标签共性评分、所述文本简介共性评分、所述标签-简介共性评分、所述简介-标签共性评分、所述文本分词数量共性评分或所述用户画像共性评分中的一个或多个,预测所述目标反馈文本与所述备选反馈文本的共性置信水平,通过所述共性置信水平在各个所述备选反馈文本中确定匹配反馈文本。
可选的实施方式中,所述获取所述目标反馈文本与各所述备选反馈文本各自对应标签奇异性的标签奇异值,包括:
针对所述目标反馈文本与所述备选反馈文本,分别对相应的事件标签序列进行标签拆分,得到各自的标签集合;
针对所述标签集合中的每一标签,分别获取相应的标签影响系数;
对所述标签集合中每一标签的标签影响系数进行平均,得到各自的标签奇异值;
将所述目标反馈文本与所述备选反馈文本的标签奇异值的平均值,确定为对应标签奇异性的标签奇异值;
所述获取所述目标反馈文本与各所述备选反馈文本对应事件标签序列的标签共性评分,包括:针对所述目标反馈文本与各所述备选反馈文本,分别对相应的事件标签序列进行表征向量抽取,得到标签表征向量;将所述目标反馈文本的标签表征向量与各所述备选反馈文本的标签表征向量之间的表征向量空间系数,确定为对应事件标签序列的标签共性评分;或者,所述获取所述目标反馈文本与各所述备选反馈文本对应事件标签序列的标签共性评分,包括:针对所述目标反馈文本与各所述备选反馈文本,获取所述目标反馈文本与备选反馈文本关于事件标签序列的统一障碍值;获取所述目标反馈文本与所述备选反馈文本的标签容量中的大标签容量;通过所述统一障碍值与所述大标签容量的比值,获取对应事件标签序列的标签共性评分,所述标签共性评分与所述比值负关联;
所述获取所述目标反馈文本与各所述备选反馈文本对应反馈文本简介的文本简介共性评分,包括:
针对所述目标反馈文本与各所述备选反馈文本,分别对相应的反馈文本简介进行表征向量抽取,得到简介表征向量;
将所述目标反馈文本的简介表征向量与各所述备选反馈文本的简介表征向量之间的表征向量空间系数,确定为对应反馈文本简介的文本简介共性评分;
所述获取所述目标反馈文本与各所述备选反馈文本对应标签-简介的标签-简介共性评分,包括:
针对所述目标反馈文本与各所述备选反馈文本,对所述目标反馈文本的事件标签序列进行表征向量抽取,得到标签表征向量,对所述备选反馈文本的反馈文本简介进行表征向量抽取,得到简介表征向量;
将所述目标反馈文本的标签表征向量与各所述备选反馈文本的简介表征向量之间的表征向量空间系数,确定为对应标签-简介的标签-简介共性评分;
所述获取所述目标反馈文本与各所述备选反馈文本对应简介-标签的简介-标签共性评分,包括:
针对所述目标反馈文本与各所述备选反馈文本,对所述目标反馈文本的反馈文本简介进行表征向量抽取,得到简介表征向量,对所述备选反馈文本的事件标签序列进行表征向量抽取,得到标签表征向量;
将所述目标反馈文本的简介表征向量与各所述备选反馈文本的标签表征向量之间的表征向量空间系数,确定为对应简介-标签的简介-标签共性评分;
所述获取所述目标反馈文本与各所述备选反馈文本对应文本分词数量的文本分词数量共性评分,包括:
针对所述目标反馈文本与各所述备选反馈文本,获取所述目标反馈文本的文本分词数量为第一分词数量,确定所述备选反馈文本的文本分词数量为第二分词数量;
确定所述第一分词数量与所述第二分词数量的数值大小关系;
通过较小数量和较大数量的比值,确定对应文本分词数量的文本分词数量共性评分;
所述获取所述目标反馈文本与各所述备选反馈文本对应用户画像的用户画像共性评分,包括:
针对所述目标反馈文本与各所述备选反馈文本,获取所述目标反馈文本的用户画像对应的第一冗余清理序列,确定所述备选反馈文本的用户画像对应的第二冗余清理序列;
确定所述第一冗余清理序列与所述第二冗余清理序列的重叠度值,确定为对应用户画像的用户画像共性评分。
可选的实施方式中,所述通过相应的所述标签奇异值、所述标签共性评分、所述文本简介共性评分、所述标签-简介共性评分、所述简介-标签共性评分、所述文本分词数量共性评分或所述用户画像共性评分中的一个或多个,预测所述目标反馈文本与所述备选反馈文本的共性置信水平,包括:
获取调试完成的线性拟合算法中分别对应所述标签奇异性、所述事件标签序列、所述反馈文本简介、所述标签-简介、所述简介-标签、所述文本分词数量和所述用户画像的影响系数;
通过所述影响系数对所述标签奇异值、所述标签共性评分、所述文本简介共性评分、所述标签-简介共性评分、所述简介-标签共性评分、所述文本分词数量共性评分和所述用户画像共性评分进行权值分配,得到所述目标反馈文本与所述备选反馈文本的共性置信水平。
可选的实施方式中,所述基于所述目标反馈文本的反馈文本正文与各所述其他备选反馈文本的反馈文本正文的相似性度量结果,在各个所述其他备选反馈文本中确定与所述目标反馈文本匹配的匹配反馈文本,包括:
分别获取所述目标反馈文本的反馈文本正文与所述其他备选反馈文本的反馈文本正文;
对所述反馈文本正文进行预处理,得到预处理后的反馈文本正文;
从所述预处理后的反馈文本正文中提取文本段落,得到文本段落集合;
对所述文本段落集合进行文本段落表征向量挖掘,得到文本向量集合;
将所述目标反馈文本与所述其他备选反馈文本各自的文本向量集合进行持续性配对,通过配对结果获取所述目标反馈文本与所述其他备选反馈文本的共性置信水平。
可选的实施方式中,所述从所述预处理后的反馈文本正文中提取文本段落,得到文本段落集合,包括:
依据段落分隔器对所述反馈文本正文进行分段,得到多个反馈文本段落;
依据各个所述反馈文本段落在所述反馈文本正文中的顺序,将每个反馈文本段落中的文本段落进行排序,得到文本段落集合。
可选的实施方式中,所述将所述目标反馈文本与所述其他备选反馈文本各自的文本向量集合进行持续性配对,通过配对结果获取所述目标反馈文本与所述其他备选反馈文本的共性置信水平,包括:
通览所述目标反馈文本的文本向量集合中的文本段落表征向量;
针对每个其他备选反馈文本,获取通览到的文本段落表征向量与所述其他备选反馈文本的文本向量集合中各文本段落表征向量的空间相似性,通过所述空间相似性在所述其他备选反馈文本的文本向量集合中确定相应空间相似性最大的文本段落表征向量,通过通览得到的文本段落表征向量与所述相应空间相似性最大的文本段落表征向量组建的一组匹配文本段落,生成匹配文本段落清单;
基于所述匹配文本段落清单确定所述其他备选反馈文本中的匹配反馈文本段落;
通过所述匹配反馈文本段落的文本分词数量与所述其他备选反馈文本的文本分词数量的比值,获取所述目标反馈文本与所述其他备选反馈文本的共性置信水平。
根据本申请实施例的一个方面,提供一种电子设备,包括:
处理器;
以及存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行以上所述的方法。
本申请至少包含的有益效果:
本申请实施例提供的基于大数据的用户分析方法及电子设备,通过目标反馈文本对目标用户进行分析时,获取目标反馈文本的反馈文本正文与多要素辅助识别信息,该辅助识别信息包括目标反馈文本的事件标签序列。先通过目标反馈文本的事件标签序列与各参考反馈文本的事件标签序列之间的标签共性评分,在各个参考反馈文本中确定出备选反馈文本,最后将匹配反馈文本的用户反馈分析结果作为目标反馈文本的用户分析结果。以上因为仅计算事件标签序列直接的标签共性评分,无需对所有参考反馈文本采集反馈文本正文,如此,能够在大量的参考反馈文本中高效获取相匹配的匹配反馈文本,减少计算消耗,节约算力,实现对匹配反馈文本的高效匹配,以快速准确获得用户反馈分析结果。然后针对得到的备选反馈文本,通过目标反馈文本与备选反馈文本各自的辅助识别信息,获取目标反馈文本与备选反馈文本对应每个辅助识别要素的辅助识别表征向量,通过各辅助识别表征向量在各个备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本,如此,通过低数据量的多要素辅助识别信息即可抛开反馈文本正文,将多匹配反馈文本进行高效匹配,实现高效、高召回率、低消耗的优势。之后针对备选反馈文本中不能采用辅助识别信息确认是否匹配的其他备选反馈文本,接着通过目标反馈文本的反馈文本正文与其他备选反馈文本的反馈文本正文的相似性度量结果,从其他备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本,完成匹配结果的保底。最后将匹配反馈文本的用户反馈分析结果作为目标反馈文本的用户分析结果,如此,基于已有分析结果进行现有样本的分析,有利于持续性聚类分析,识别高效准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于大数据的用户分析方法的流程图。
图2是本申请实施例提供的用户分析装置的功能模块架构示意图。
图3是本申请实施例提供的一种电子设备的组成示意图。
附图标记为:用户分析装置200;文本获取模块210;备选确定模块220;初步配对模块230;进阶配对模块240;用户分析模块250;计算机系统300;中央处理器301;只读存储器302;随机访问存储器303;总线304;输入/输出接口305;输入部分306;输出部分307;存储部分308;通信部分309;驱动器310;存储介质311。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例首先提供了一种基于大数据的用户分析方法,其应用于电子设备,电子设备例如为服务器或计算机,具体类型和种类不做限定。请参照图1,为本申请实施例提供的基于大数据的用户分析方法的流程图,包括以下步骤:
步骤110,获取目标反馈文本的反馈文本正文与多要素辅助识别信息,辅助识别信息包括目标反馈文本的事件标签序列。
其中,目标反馈文本是需要进行分析匹配的反馈文本。具体地,目标反馈文本可以是从预设的反馈数据库中调取的反馈文本,反馈数据库中存储大量反馈文本,作为一种实施方式,反馈数据库中还存储有参考反馈文本,参考反馈文本是已经被识别出用户反馈分析结果的反馈文本,也可以称为历史反馈文本或示例反馈文本,本申请实施例中,可以将存储的多个参考反馈文本作为匹配对象,将目标反馈文本与参考反馈文本进行匹配,识别匹配或相似的参考反馈文本,将匹配的参考反馈文本的反馈分析结果作为目标反馈文本的反馈分析结果。在其他实施方式中,参考反馈还可以存储在除反馈数据库以外的数据库中,本申请实施例对此不做限定。
反馈文本的辅助识别信息是对反馈文本进行识别时的关联信息,非反馈文本的正文。多要素辅助识别信息表示反馈文本在多个要素层面的辅助识别信息,如事件标签序列、反馈文本简介、文本分词数量、用户画像等,作为一种示例,一个反馈文本包含事件标签序列、反馈简介和反馈正文,其中,事件标签序列可以是文字或者数字,用于标注反馈的事项,例如事件的类型、诉求分类、事件发生领域等简要信息,反馈文本简介是对反馈的简要概述信息,其通常为文本,反馈文本正文是对反馈的详细描述。
步骤120,基于目标反馈文本的事件标签序列与各参考反馈文本的事件标签序列之间的标签共性评分,在各个参考反馈文本中确定出备选反馈文本。
由于针对大范围区域(例如互联网全平台)的反馈信息采集中,用户基数大,反馈信息多,全通量地识别每一个反馈文本的内容,会引起效率低下的问题,对算力的负荷也造成更大的的负担。本申请实施例的步骤120中,仅基于获取相对信息较少和容易获取保存的事件标签序列进行初步召回,在大量反馈文本中匹配得到少数量的备选反馈文本,然后执行后续的识别分析,无需对所有参考反馈文本采集反馈文本正文,如此,能够在大量的参考反馈文本中高效获取相匹配的匹配反馈文本,减少计算消耗,节约算力,实现对匹配反馈文本的高效匹配。一般而言,事件标签序列是对反馈文本正文的精简准确地总结,基于对比目标反馈文本的事件标签序列与参考反馈文本的事件标签序列之间的标签共性评分,能准确评估两个反馈文本的匹配度。标签共性评分表征两个事件标签序列之间的特征相似度。
可选地,基于目标反馈文本的事件标签序列与各参考反馈文本的事件标签序列之间的标签共性评分,在各个参考反馈文本中确定出备选反馈文本,具体可以包括:
步骤121,分别对目标反馈文本与各参考反馈文本的事件标签序列进行表征向量抽取,得到标签表征向量。
可以通过预先调试完成的表征向量抽取网络,分别对目标反馈文本与各参考反馈文本的事件标签序列进行表征向量抽取,得到各自的标签表征向量。表征向量抽取网络用于对事件标签序列的表征向量进行特征抽取,例如采用卷积神经网络进行,本申请对表征向量抽取网络的组成和调试过程不进行限制。
步骤122,通过目标反馈文本的标签表征向量与各参考反馈文本的标签表征向量之间的表征向量空间系数,在各个参考反馈文本中确定出备选反馈文本。
本申请实施例中,表征向量抽取网络用于对事件标签序列进行表征向量抽取,其被训练完成时,针对语义接近的事件标签序列,抽取的表征向量在向量空间上距离接近,否则较远。可选地,可以生成训练样本集合{(A,B,C)},A为参考示例,B与A为相近示例,C与A为不相近示例。表征向量抽取网络对训练样本集合的损失函数为:
Loss=(∑(S2a,b-S2a,c+g))/n
其中,S为表征向量空间系数,例如为二者的余弦距离,a为当前样本的参考示例,b为当前样本中和参考示例a匹配的样本,c为当前样本中和参考示例a不匹配的样本,n为样本的总数,g为超参。
作为一种实施方案,可以采用群集分析将反馈文本聚类为多个类,在被匹配时,选择空间相似性最高(向量间距离最近)的质心,在各个类中进行索引。例如,本申请实施例还包括:对各参考反馈文本的标签表征向量进行群集分析,得到设定数量个分类质心与分类质心所在的集群。比如,对参考反馈文本的事件标签序列表征向量数据库中的标签表征向量进行K均值聚类,得到多个分类质心与集群,分类质心是集群中全部标签表征向量的平均值,同时集群中的标签表征向量和所在集群的分类质心的空间相似性最近,和其余集群的分类质心的空间相似性更远。
接着,获取目标反馈文本的标签表征向量与各分类质心的空间相似性(空间相似性可以通过计算向量空间距离得到,距离越近,空间相似性越大,距离可以为余弦距离或欧几里得距离,具体不做限定),依据空间相似性在各个分类质心中确定出一个或多个分类质心,获取目标反馈文本的标签表征向量与确定出的分类质心所在集群中各标签表征向量之间的空间相似性,依据空间相似性从确定出的分类质心所在集群中确定出备选反馈文本。比如,获取目标反馈文本的事件标签序列的标签表征向量和各个质心的空间相似性,筛选得到空间相似性最大的x个质心,对于x个质心,获取目标反馈文本的标签表征向量和x个质心所在集群中各个标签表征向量的空间相似性,确定成目标反馈文本和参考反馈文本的事件标签序列间的标签共性评分,进而依据该标签共性评分在x个集群中筛选得到p个备选反馈文本。
基于以上操作可以先获得高概率匹配反馈文本,可选地,输出结果可以为:(目标反馈文本标记-备选反馈文本标记-事件标签序列的标签共性评分)。
步骤130,通过辅助识别信息获取目标反馈文本与备选反馈文本对应每个辅助识别要素的辅助识别表征向量,通过各辅助识别表征向量在各个备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本。
反馈文本的辅助识别信息很完善,对于特征比较明显,逻辑比较清晰的反馈文本,通过辅助识别信息的比对就能比较准确分析出匹配情况。那么,可以先基于目标反馈文本和备选反馈文本进行辅助识别信息的匹配,在备选反馈文本中获取部分匹配反馈文本。进行辅助识别信息比对的先决条件是进行辅助识别信息特征的建立。本申请实施例中,通过辅助识别信息,建立多个辅助识别要素,例如标签奇异性、事件标签序列、反馈文本简介、标签-简介、简介-标签、文本分词数量、用户画像等。通过辅助识别信息获取目标反馈文本与备选反馈文本对应每个辅助识别要素的辅助识别表征向量,通过各辅助识别表征向量,在各个备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本。
如此,通过低数据量的多要素辅助识别信息即可抛开反馈文本正文,将多匹配反馈文本进行高效匹配,实现高效、高召回率、低消耗的优势。
可选地,通过调试完成的匹配反馈文本分析网络对目标反馈文本与备选反馈文本对应每个辅助识别要素的辅助识别表征向量进行分析,输出备选反馈文本与目标反馈文本匹配的共性置信水平,通过该共性置信水平从备选反馈文本中确定出匹配反馈文本。
在备选反馈文本中获取匹配反馈文本时,输入反馈文本的辅助识别信息,包括事件标签序列、反馈文本简介、用户画像、文本分词数量等,通过辅助识别信息确定对应各辅助识别要素的辅助识别表征向量,再通过匹配反馈文本分析网络,其本质为一种线性拟合算法,基于多个辅助识别表征向量输出分析结果,表征匹配分析结果,得到与目标反馈文本匹配的部分匹配反馈文本。
步骤140,针对备选反馈文本中除开匹配反馈文本以外的其他备选反馈文本,基于目标反馈文本的反馈文本正文与各其他备选反馈文本的反馈文本正文的相似性度量结果,在各个其他备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本。
针对备选反馈文本中不能采用辅助识别信息确认是否匹配的其他备选反馈文本,接着通过目标反馈文本的反馈文本正文与其他备选反馈文本的反馈文本正文的相似性度量结果,在其他备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本,步骤140对匹配反馈文本的整个过程而言,是一个保底步骤,增加整个流程的稳定性,可以将不易匹配的匹配反馈文本通过细腻度分析方式进行匹配索引,保障匹配的成功率。
整体而言,只有留存到当前步骤的其他备选反馈文本才进行反馈文本正文的采获取分析,前述步骤是不需要对全部参考反馈文本进行反馈文本正文的获取分析的。
步骤150,将匹配反馈文本的用户反馈分析结果作为目标反馈文本的用户分析结果。
容易理解,每一参考反馈文本分别对应有用户反馈分析结果,目标反馈文本和匹配反馈文本是匹配的,二者共享一个用户反馈分析结果,例如反馈了相同的事件、对事件做出了相同的评价、具有相同的诉求、产生了相同的观点等。
基于大数据的用户分析方法中,对目标反馈文本进行匹配反馈文本的匹配过程中,需要获取目标反馈文本的反馈文本正文与多要素辅助识别信息,该辅助识别信息包括目标反馈文本的事件标签序列。首先基于目标反馈文本的事件标签序列与各参考反馈文本的事件标签序列之间的标签共性评分,在各个参考反馈文本中确定出备选反馈文本,因为仅计算事件标签序列直接的标签共性评分,无需对所有参考反馈文本采集反馈文本正文,能够在大量的参考反馈文本中高效获取相匹配的匹配反馈文本,减少计算消耗,节约算力,实现对匹配反馈文本的高效匹配。然后针对得到的备选反馈文本,通过目标反馈文本与备选反馈文本各自的辅助识别信息,获取目标反馈文本与备选反馈文本对应每个辅助识别要素的辅助识别表征向量,通过各辅助识别表征向量在各个备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本,如此,通过低数据量的多要素辅助识别信息即可抛开反馈文本正文,将多匹配反馈文本进行高效匹配,实现高效、高召回率、低消耗的优势。接着,针对备选反馈文本中不能采用辅助识别信息确认是否匹配的其他备选反馈文本,接着通过目标反馈文本的反馈文本正文与其他备选反馈文本的反馈文本正文的相似性度量结果,从其他备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本,完成匹配结果的保底。最后将匹配反馈文本的用户反馈分析结果作为目标反馈文本的用户分析结果,如此,基于已有分析结果进行现有样本的分析,有利于持续性聚类分析,识别高效准确。
在一个实施方案中,基于辅助识别表征向量进行分析时,针对得到的备选反馈文本,与目标反馈文本生成初始匹配二元组,对每个初始匹配二元组,对目标反馈文本与各备选反馈文本生成针对每个辅助识别要素的辅助识别表征向量,而后通过这些辅助识别表征向量进行匹配度的分析判断。
可选地,可以获取目标反馈文本与各备选反馈文本对应标签奇异性的标签奇异值。标签奇异性表示事件标签序列是否包含非常规标签,例如出现率不是很普遍的文本。若目标反馈文本与一备选反馈文本的事件标签序列都没有奇异性,备选反馈文本可能仅是和目标反馈文本的事件标签序列相似,不是真正的反馈文本正文匹配。若目标反馈文本与一备选反馈文本的事件标签序列都比较奇异,则该两个反馈文本大概率反馈文本正文是高相似性的,互为匹配反馈文本的概率大。为了评估标签奇异性,针对目标反馈文本与备选反馈文本,可以对相应的事件标签序列进行标签拆分,得到各自的标签集合,针对标签集合中的每一标签,分别获取相应的标签影响系数,对标签集合中每一标签的标签影响系数进行平均,得到各自的标签奇异值;将目标反馈文本与备选反馈文本的标签奇异值的平均值,确定为对应标签奇异性的标签奇异值。
其中,标签影响系数是一个权重值,用以表征标签的奇异程度,事件标签序列中每一标签的标签影响系数的平均值表征整个标签奇异性的标签奇异值。针对标签集合中的每一标签,分别获取相应的标签影响系数,对事件标签序列中的每一标签计算标签的重要性,例如基于词频逆文档频率原理获取得到,得到目标反馈文本中每一标签的标签影响系数后,对每一标签的标签影响系数进行平均,得到目标反馈文本的标签奇异值。同理,可以获得备选反馈文本的标签奇异值,然后获取二者的平均值,将其确定为标签奇异值。
可选地,可以获取目标反馈文本与各备选反馈文本对应事件标签序列的标签共性评分。可选地,针对目标反馈文本与各备选反馈文本,可以分别对相应的事件标签序列进行表征向量抽取,得到标签表征向量,将目标反馈文本的标签表征向量与各备选反馈文本的标签表征向量之间的表征向量空间系数,确定为对应事件标签序列的标签共性评分。
作为一种实施方式,可以通过两个事件标签序列的统一障碍值来评估标签共性评分,比如,针对目标反馈文本与各备选反馈文本,获取目标反馈文本与备选反馈文本关于事件标签序列的统一障碍值,获取目标反馈文本与备选反馈文本各自标签容量(即包含的标签的个数)中的大标签容量,通过统一障碍值与大标签容量的比值,获取对应事件标签序列的标签共性评分,标签共性评分与比值负关联。其中,统一障碍值的含义是将一个事件标签序列转变为另一事件标签序列需要的次数,比如[1、2、3]转变为[2、3、4]需要的转变次数为1,则统一障碍值为1。统一障碍值与大标签容量的比值即标准化统一障碍值,计算标签共性评分时,标签共性评分=1-标准化统一障碍值。
可选地,可以获取目标反馈文本与各备选反馈文本对应反馈文本简介的文本简介共性评分。例如,针对目标反馈文本与各备选反馈文本,分别对相应的反馈文本简介进行表征向量抽取,得到简介表征向量,将目标反馈文本的简介表征向量与各备选反馈文本的简介表征向量之间的表征向量空间系数,确定为对应反馈文本简介的文本简介共性评分。反馈文本简介可以采用以上所述的表征向量抽取网络进行表征向量抽取,得到反馈文本简介对应的简介表征向量。
可选地,可以通过两个反馈文本简介的统一障碍值评估文本简介共性评分,例如,针对目标反馈文本与各备选反馈文本,获取目标反馈文本与备选反馈文本关于反馈文本简介的统一障碍值,获取目标反馈文本与备选反馈文本各自的反馈文本简介容量(包含的字符数)中的更大的反馈文本简介容量,通过统一障碍值与更大的反馈文本简介容量的比值,获取对应反馈文本简介的文本简介共性评分,文本简介共性评分与比值负关联。这里的统一障碍值是将一个反馈文本简介转变为另一反馈文本简介的次数。统一障碍值与更大的反馈文本简介容量的比值即标准化统一障碍值,计算文本简介共性评分使文本简介共性评分=1-标准化统一障碍值。
可选地,可以获取目标反馈文本与各备选反馈文本对应标签-简介的标签-简介共性评分。例如,针对目标反馈文本与各备选反馈文本,对目标反馈文本的事件标签序列进行表征向量抽取,得到标签表征向量,对备选反馈文本的反馈文本简介进行表征向量抽取,得到简介表征向量;将目标反馈文本的标签表征向量与各备选反馈文本的简介表征向量之间的表征向量空间系数,确定为对应标签-简介的标签-简介共性评分。
可选地,可以通过目标反馈文本的事件标签序列与备选反馈文本的反馈文本简介之间的统一障碍值评估标签-简介共性评分,例如,针对目标反馈文本与各备选反馈文本,获取目标反馈文本的事件标签序列与备选反馈文本的反馈文本简介的统一障碍值,获取目标反馈文本的事件标签序列与备选反馈文本的反馈文本简介的文本容量中的更大的容量,通过统一障碍值与更大的容量的比值,计算标签-简介的标签-简介共性评分,标签-简介共性评分与比值负关联。其中,统一障碍值是将目标反馈文本的事件标签序列转变为备选反馈文本的反馈文本简介的次数。
本申请实施例通过获取目标反馈文本的事件标签序列与备选反馈文本的反馈文本简介之间的标签-简介共性评分,可以挖掘事件标签序列与反馈文本简介的相似度,如此分析表征两个反馈文本的相似度,通过多要素层面调用反馈文本的辅助识别信息,提高反馈文本匹配的精度。
可选地,可以获取目标反馈文本与各备选反馈文本对应简介-标签的简介-标签共性评分。例如,针对目标反馈文本与各备选反馈文本,对目标反馈文本的反馈文本简介进行表征向量抽取,得到简介表征向量,对备选反馈文本的事件标签序列进行表征向量抽取,得到标签表征向量;将目标反馈文本的简介表征向量与各备选反馈文本的标签表征向量之间的表征向量空间系数,确定为对应简介-标签的简介-标签共性评分。
可选地,可以通过目标反馈文本的反馈文本简介与备选反馈文本的事件标签序列之间的统一障碍值评估简介-标签共性评分,例如,针对目标反馈文本与各备选反馈文本,获取目标反馈文本的反馈文本简介与备选反馈文本的事件标签序列的统一障碍值,获取目标反馈文本的反馈文本简介与备选反馈文本的事件标签序列的文本容量中的更大的容量,通过统一障碍值与更大的容量的比值,获取简介-标签的简介-标签共性评分,简介-标签共性评分与比值负关联。统一障碍值是将目标反馈文本的反馈文本简介转变为备选反馈文本的事件标签序列的转变次数。
通过获取目标反馈文本的反馈文本简介与备选反馈文本的事件标签序列之间的简介-标签共性评分,可以挖掘反馈文本简介与事件标签序列的共性,用于分析两个反馈文本是否是相似的,多个要素维度调取反馈文本的辅助识别信息,增加反馈文本匹配精度。
可选地,可以获取目标反馈文本与各备选反馈文本对应文本分词数量的文本分词数量共性评分。例如,针对目标反馈文本与各备选反馈文本,获取目标反馈文本的文本分词数量为第一分词数量,确定备选反馈文本的文本分词数量为第二分词数量,分别确定第一分词数量与第二分词数量的数值大小关系(哪一个大,哪一个小),通过数值大小关系的比值(将更小的数值除以更大的数值),确定对应文本分词数量的文本分词数量共性评分。
本申请实施例中,通过获取目标反馈文本的文本分词数量与备选反馈文本的文本分词数量之间的文本分词数量共性评分,可以挖掘两个反馈文本的文本分词数量的共性,确定为两个反馈文本对应文本分词数量这一辅助识别要素的特征,以此分析备选反馈文本的相似度,从多层面要素调用反馈文本的辅助识别信息,增加反馈文本匹配的精度。
可选地,可以获取目标反馈文本与各备选反馈文本对应用户画像的用户画像共性评分。例如,针对目标反馈文本与各备选反馈文本,获取目标反馈文本的用户画像对应的第一冗余清理序列,确定备选反馈文本的用户画像对应的第二冗余清理序列,分别确定第一冗余清理序列与第二冗余清理序列的重叠度值,将其确定为对应用户画像的用户画像共性评分,重叠度值可以为交并比,即Intersection over Union(IoU),或称Jaccard系数。其中,冗余清理序列是对用户画像中的标签进行重合数据删除获得的,用户画像通过多个标签组成,获得的用户画像共性评分为位于[0,1]的数值,数值越大,用户画像越接近。
通过获取目标反馈文本的用户画像与备选反馈文本的用户画像之间的用户画像共性评分,可以挖掘两个反馈文本的用户画像的共性,确定为两个反馈文本对应用户画像的辅助识别要素的特征,基于此分析备选反馈文本的相似情况,增加反馈文本匹配的精度。
针对以上对每个辅助识别要素的辅助识别表征向量,具体包括标签奇异值、标签共性评分、文本简介共性评分、标签-简介共性评分、简介-标签共性评分、文本分词数量共性评分或用户画像共性评分,通过其中的至少一个来预测目标反馈文本与备选反馈文本的共性置信水平。可选地,可以通过调试完成的线性拟合算法中分别对应标签奇异性、事件标签序列、反馈文本简介、标签-简介、简介-标签、文本分词数量和用户画像的影响系数,对标签奇异值、标签共性评分、文本简介共性评分、标签-简介共性评分、简介-标签共性评分、文本分词数量共性评分和用户画像共性评分进行权值分配,得到目标反馈文本与备选反馈文本的共性置信水平。
调试完成的线性拟合算法具体可以是一个多元回归算法,是基于反馈文本的辅助识别信息的辅助识别表征向量的算法,算法的参数训练调优时,通过大量携带标签的训练样本,比如在步骤120的备选反馈文本中获取样本进行标注,将匹配的样本赋予Y标签,不匹配的赋予N标签,之后将训练样本设置成70%训练集(Training Set)、15%验证集(Validation Set)和15%测试集(Test Set),将线性拟合算法作为初始分类器(对不同的辅助识别表征向量进行加权求和后得到的结果作为预测结果,得到的预测结果为一个置信度,即共性置信水平),通过训练样本对线性拟合算法进行调优,具体通过诸如梯度下降等方式获得全部影响系数,得到调试完成的线性拟合算法。
获得调试完成的线性拟合算法后,采用调试完成的线性拟合算法对目标反馈文本与备选反馈文本组成的反馈文本二元组进行处理,输出分析结果,例如分析结果可以是(目标反馈文本标记、备选反馈文本标记、共性置信水平、匹配与否)。
获得调试完成的线性拟合算法后,针对目标反馈文本与备选反馈文本组成的初始匹配二元组,通过相应的辅助识别表征向量,采用调试完成的线性拟合算法进行相似性分析,得到共性置信水平,针对其中共性置信水平不小于预设置信水平的反馈文本,将其确定为目标反馈文本的匹配反馈文本,针对共性置信水平小于预设置信水平的其他备选反馈文本,留存以作为初始匹配二元组,输入后续步骤进行反馈文本正文对比。
可选地,基于目标反馈文本的反馈文本正文与各其他备选反馈文本的反馈文本正文的相似性度量结果,在各个其他备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本,包括:
步骤141,分别获取目标反馈文本的反馈文本正文与各其他备选反馈文本的反馈文本正文。
步骤142,对反馈文本正文进行预处理,得到预处理后的反馈文本正文。
该预处理过程可以包括清洗、转换和归一化等处理,例如,在文本清理(TextCleaning)时,可以去除反馈文本正文中的噪音和不必要的字符,如标点符号、特殊符号、HTML标签等;另外,还可以包括去除停用词(Stopword Removal)处理,具体为去除常见的停用词,如“the”、“and”、“is”等,这些词在语义上没有太大贡献;此外,预处理还可以包括大小写转换,将文本转换为统一的大小写;又或者,预处理还可以包括词干提取(Stemming),具体将单词转化为其基本形式(词干),如将"running"转换为"run",使用算法如Porter算法或Lancaster算法;在更多的实施例中,预处理还可以包括词形还原(Lemmatization)、编码处理(Encoding)、标准化(Normalization)、文本拼写检查(Spelling Correction)等等,这些预处理方式可以根据具体的任务和需求进行灵活调整和组合,通过进行适当的预处理,可以提高文本数据的质量和可用性,从而更好地支持后续的任务,本申请对此不做限定和赘述。
步骤143,从预处理后的反馈文本正文中提取文本段落,得到文本段落集合。
可选地,从预处理后的反馈文本正文中提取文本段落,得到文本段落集合,包括:依据段落分隔器(如Paragraph Tokenizer、Sentence Tokenizer)对反馈文本正文进行分段,得到多个反馈文本段落;依据各反馈文本段落在反馈文本正文中的顺序,将每个反馈文本段落中的采样文本段落排序,得到文本段落集合。
步骤144,对文本段落集合进行文本段落表征向量挖掘,得到文本向量集合。
文本段落表征向量是对应段落的文本特征,可选地,可以通过通用的文本特征提取网络,例如BERT进行文本段落表征向量挖掘。
步骤145,将目标反馈文本与其他备选反馈文本各自的文本向量集合进行持续性配对,通过配对结果获取目标反馈文本与其他备选反馈文本的共性置信水平。
可选地,将目标反馈文本与其他备选反馈文本各自的文本向量集合进行持续性配对,通过配对结果获取目标反馈文本与其他备选反馈文本的共性置信水平,包括:通览目标反馈文本的文本向量集合中的文本段落表征向量;针对每个其他备选反馈文本,获取通览到的文本段落表征向量与其他备选反馈文本的文本向量集合中各文本段落表征向量的空间相似性,通过空间相似性在其他备选反馈文本的文本向量集合中确定相应空间相似性最大的文本段落表征向量,通过通览得到的文本段落表征向量与相应空间相似性最大的文本段落表征向量组建的一组匹配文本段落,生成匹配文本段落清单;基于匹配文本段落清单确定其他备选反馈文本中的匹配反馈文本段落;通过匹配反馈文本段落的文本分词数量与其他备选反馈文本的文本分词数量的比值,获取目标反馈文本与其他备选反馈文本的共性置信水平。
在一个示例中,针对基于目标反馈文本Tg提取的文本段落集合g和基于其他备选反馈文本Th提取的文本段落集合h,持续性配对方式为:
S1,从g中的第一个文本段落出发,通览(即遍历)g中全部文本段落,获取文本段落与h中全部文本段落的文本段落表征向量的空间相似性,例如计算余弦相似性作为空间相似性。针对余弦相似性小于阈值的,确定余弦相似性最小的h中的段落进行保存,保存方式为{P(x),Q(P(x))},针对g中全部段落都采取上述获取方式,得到匹配文本段落清单{{P(x),Q(P(x))},{P(x+1),Q(P(x+1))},{P(x+2),Q(P(x+2))}……}。
S2,针对匹配文本段落清单,自P(x)出发,分析P(x)到P(x+1)组成的g中的文本段落1和Q(P(x))到Q(P(x+1))组成的h中的文本段落2相似与否。例如分析二者的顺畅度、文本段落容量差别等维度,顺畅度表示匹配前后的空间相似性是否太小,文本段落容量差别指获得的文本段落1与文本段落2的容量差是否太大。在顺畅度、文本段落容量差都符合预设条件时,确定P(x)到P(x+1)组成的g中的文本段落1和Q(P(x))到Q(P(x+1))组成的h中的文本段落2为匹配文本段落。持续前进获取下一匹配点,将匹配的信息持续添加到两个文本段落,扩充匹配文本段落。
S3,若确定P(x)到P(x+1)组成的g中的文本段落1和Q(P(x))到Q(P(x+1))构建的h中的文本段落2不是相似文本段落,那么当前的文本段落匹配结束,在P(x+1)往后循环进行S2和S3,直至通览匹配文本段落清单。
S4,将得到的全部相似文本段落进行归集,确定字符数容量,将字符数容量与h的文本分词数量的比值作为共性置信水平输出,将共性置信水平不小于预设置信水平的对象作为匹配反馈文本输出。
作为一种完整的实施方式,本申请实施例提供的基于大数据的用户分析方法中,将目标反馈文本的反馈文本和辅助识别信息作为输入,目的是获取目标反馈文本匹配的匹配反馈文本,同时还有共性置信水平。计算消耗小的事件标签序列的标签共性评分被用以进行信息初步筛选,算力消耗大的反馈文本正文对比则可确保匹配的精度。整体流程包括辅助识别信息获取、备选反馈文本初步获取、基于多要素辅助识别信息的匹配分析、基于反馈文本正文的匹配分析以及用户反馈分析结果的确定。具体地,包括:
第一步,确定辅助识别信息。包括:获取目标反馈文本的事件标签序列,获取参考反馈文本的反馈文本地址,通过反馈文本地址对参考反馈文本进行辅助识别信息确定。辅助识别信息包括事件标签序列、用户画像、文本分词数量、反馈文本简介等。
第二步,备选反馈文本初步获取。包括:将事件标签序列进行深度特征挖掘,即标签表征向量获取,基于标签表征向量生成特征匹配集合,基于目标反馈文本的标签表征向量开始匹配,获得在标签表征向量上与目标反馈文本相近的备选反馈文本,作为初始匹配二元组,每个初始匹配二元组为(目标反馈文本-备选反馈文本。具体地:分别对目标反馈文本与各参考反馈文本的事件标签序列进行表征向量抽取,得到标签表征向量,对各参考反馈文本的标签表征向量进行群集分析,得到设定数量个分类质心与分类质心所在的集群,获取目标反馈文本的标签表征向量与各分类质心的空间相似性,依据空间相似性在各个分类质心中确定出一个或多个分类质心,获取目标反馈文本的标签表征向量与确定出的分类质心所在集群中各标签表征向量之间的空间相似性,依据空间相似性从确定出的分类质心所在集群中确定出备选反馈文本。
第三步,基于多要素辅助识别信息进行匹配分析。具体地,将初始匹配二元组中目标反馈文本和备选反馈文本的各种辅助识别信息,获取对应各自辅助识别要素的辅助识别表征向量,再基于一个调试完成的线性拟合算法进行匹配分析,最终预测得到的共性置信水平高的备选反馈文本,作为目标反馈文本的匹配反馈文本。包括:获取目标反馈文本与各备选反馈文本对应标签奇异性的标签奇异值,获取目标反馈文本与各备选反馈文本对应事件标签序列的标签共性评分,获取目标反馈文本与各备选反馈文本对应反馈文本简介的文本简介共性评分,获取目标反馈文本与各备选反馈文本对应标签-简介的标签-简介共性评分,获取目标反馈文本与各备选反馈文本对应简介-标签的简介-标签共性评分,获取目标反馈文本与各备选反馈文本对应文本分词数量的文本分词数量共性评分,获取目标反馈文本与各备选反馈文本对应用户画像的用户画像共性评分,获取调试完成的线性拟合算法中分别对应标签奇异性、事件标签序列、反馈文本简介、标签-简介、简介-标签、文本分词数量和用户画像的影响系数;针对每个备选反馈文本,通过影响系数,对标签奇异值、标签共性评分、文本简介共性评分、标签-简介共性评分、简介-标签共性评分、文本分词数量共性评分和用户画像共性评分进行权值分配,得到目标反馈文本与备选反馈文本的共性置信水平,通过共性置信水平在各个备选反馈文本中确定匹配反馈文本。
第四步,基于反馈文本正文的匹配分析,该分析是对前述分析的保底分析,将前述分析中不能确定的样本进行分析,将余下的初始匹配二元组中目标反馈文本和备选反馈文本进行反馈文本正文的调取,采用反馈文本解析、文本段落抽取、文本预处理、文本段落表征向量挖掘等步骤,以获得文本向量集合,通过文本向量集合生成匹配文本段落清单,通过匹配文本段落清单对目标反馈文本和余下的备选反馈文本进行持续性配对,获得相似文本段落,依据其评估反馈文本的相似情况。具体包括:分别获取目标反馈文本的反馈文本正文与其他备选反馈文本的反馈文本正文,对反馈文本正文进行预处理,得到预处理后的反馈文本正文,依据段落分隔器(Paragraph Tokenizer)对反馈文本正文进行分段,得到多个反馈文本段落,依据各个反馈文本段落在反馈文本正文中分布顺序,将每个反馈文本段落中的文本段落排序,得到文本段落集合;对文本段落集合进行文本段落表征向量挖掘,得到文本向量集合;通览目标反馈文本的文本向量集合中的文本段落表征向量,针对每个其他备选反馈文本,获取通览到的文本段落表征向量与其他备选反馈文本的文本向量集合中各文本段落表征向量的空间相似性,通过空间相似性在其他备选反馈文本的文本向量集合中确定相应空间相似性最大的文本段落表征向量,通过通览得到的文本段落表征向量与相应空间相似性最大的文本段落表征向量组建的一组匹配文本段落,生成匹配文本段落清单,基于匹配文本段落清单确定其他备选反馈文本中的匹配反馈文本段落,通过匹配反馈文本段落的文本分词数量与其他备选反馈文本的文本分词数量的比值,获取目标反馈文本与其他备选反馈文本的共性置信水平,通过共性置信水平在各个其他备选反馈文本中确定与目标反馈文本匹配的匹配反馈文本。
第五步,确定用户反馈分析结果。具体地,将匹配反馈文本的用户反馈分析结果作为目标反馈文本的用户分析结果。
为了便于理解,下面是对本申请实施例的一些术语概念的解释:
反馈文本:包含事件标签序列、反馈文本简介、反馈文本正文的长文本。
事件标签序列:可以是文字或者数字,用于标注反馈的事项,例如事件的类型、诉求分类、事件发生领域等简要信息。
反馈文本简介:对反馈的简要概述信息,其通常为文本。
反馈文本正文:对反馈内容的详细描述文本。
辅助识别信息:对反馈文本进行识别时的关联信息,非反馈文本的正文。
多要素辅助识别信息:在多个要素层面的辅助识别信息,如事件标签序列、反馈文本简介、文本分词数量、用户画像等。
共性评分:表示两个对象之间的相似程度的数值。
表征向量:对目标对象(如标签、文本)进行特征表征的矢量信息,通常通过特征提取算法(如CNN、RNN等神经网络算法)提取得到,可以是一个特征向量。
表征向量空间系数:表示两个表征向量间的相似程度。
空间相似性:两个表征向量的空间距离,如余弦距离、明氏距离、欧氏距离等表示,距离越小,空间相似性越大,表征向量空间系数越大。
群集分析:将数据进行聚类分桶的操作。
集群:群集分析得到的一个个数据簇。
分类质心:群集分析得到的集群中心,本质为一个特征向量。
奇异性:表示对象的非常规特性。
用户画像:通过用户的基本属性,如动态行为属性和/或静态描述属性等标签组成的信息集合,用以描述用户特征。
统一障碍值:将两个对象(例如集合)同一成一致的状态,需要的修改次数,即克服的障碍次数。
持续性配对:一直进行匹配的过程。
标签容量:包含的标签的个数。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的基于大数据的用户分析方法。图2示意性地示出了本申请实施例提供的用户分析装置的结构框图。如图2所示,用户分析装置200包括:
文本获取模块210,用于获取目标反馈文本的反馈文本正文与多要素辅助识别信息,所述辅助识别信息包括所述目标反馈文本的事件标签序列;
备选确定模块220,用于基于所述目标反馈文本的事件标签序列与各参考反馈文本的事件标签序列之间的标签共性评分,在各个所述参考反馈文本中确定出备选反馈文本;其中,每一所述参考反馈文本分别对应有用户反馈分析结果;
初步配对模块230,用于通过所述辅助识别信息获取所述目标反馈文本与所述备选反馈文本对应每个辅助识别要素的辅助识别表征向量,通过各所述辅助识别表征向量在各个所述备选反馈文本中确定与所述目标反馈文本匹配的匹配反馈文本;
进阶配对模块240,用于针对所述备选反馈文本中,除开所述匹配反馈文本外的其他备选反馈文本,基于所述目标反馈文本的反馈文本正文与各所述其他备选反馈文本的反馈文本正文的相似性度量结果,在各个所述其他备选反馈文本中确定与所述目标反馈文本匹配的匹配反馈文本;
用户分析模块250,用于将所述匹配反馈文本的用户反馈分析结果作为所述目标反馈文本的用户分析结果。
本申请各实施例中提供的用户分析装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图3示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图3示出的电子设备的计算机系统300仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统300包括中央处理器301(Central Processing Unit,CPU),其可以根据存储在只读存储器302(Read-Only Memory,ROM)中的程序或者从存储部分308加载到随机访问存储器303(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器303中,还存储有系统操作所需的各种程序和数据。中央处理器301、在只读存储器302以及随机访问存储器303通过总线304彼此相连。输入/输出接口305(Input/Output接口,即I/O接口)也连接至总线304。
以下部件连接至输入/输出接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至输入/输出接口305。存储介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从存储介质311被安装。在该计算机程序被中央处理器301执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (8)
1.一种基于大数据的用户分析方法,其特征在于,应用于电子设备,所述方法包括:
获取目标反馈文本的反馈文本正文与多要素辅助识别信息,所述辅助识别信息包括所述目标反馈文本的事件标签序列;
基于所述目标反馈文本的事件标签序列与各参考反馈文本的事件标签序列之间的标签共性评分,在各个所述参考反馈文本中确定出备选反馈文本;其中,每一所述参考反馈文本分别对应有用户反馈分析结果;
通过所述辅助识别信息获取所述目标反馈文本与所述备选反馈文本对应每个辅助识别要素的辅助识别表征向量,通过各所述辅助识别表征向量在各个所述备选反馈文本中确定与所述目标反馈文本匹配的匹配反馈文本;其中,所述通过所述辅助识别信息获取所述目标反馈文本与所述备选反馈文本对应每个辅助识别要素的辅助识别表征向量,包括以下执行方式A~G中的一个或多个:
执行方式A:获取所述目标反馈文本与各所述备选反馈文本对应标签奇异性的标签奇异值;
执行方式B:获取所述目标反馈文本与各所述备选反馈文本对应事件标签序列的标签共性评分;
执行方式C:获取所述目标反馈文本与各所述备选反馈文本对应反馈文本简介的文本简介共性评分;
执行方式D:获取所述目标反馈文本与各所述备选反馈文本对应标签-简介的标签-简介共性评分;
执行方式E:获取所述目标反馈文本与各所述备选反馈文本对应简介-标签的简介-标签共性评分;
执行方式F:获取所述目标反馈文本与各所述备选反馈文本对应文本分词数量的文本分词数量共性评分;
执行方式G:获取所述目标反馈文本与各所述备选反馈文本对应用户画像的用户画像共性评分;
则,所述通过各所述辅助识别表征向量在各个所述备选反馈文本中确定与所述目标反馈文本匹配的匹配反馈文本,包括:
针对每个备选反馈文本,通过相应的所述标签奇异值、所述标签共性评分、所述文本简介共性评分、所述标签-简介共性评分、所述简介-标签共性评分、所述文本分词数量共性评分或所述用户画像共性评分中的一个或多个,预测所述目标反馈文本与所述备选反馈文本的共性置信水平,通过所述共性置信水平在各个所述备选反馈文本中确定匹配反馈文本;
针对所述备选反馈文本中,除开所述匹配反馈文本外的其他备选反馈文本,基于所述目标反馈文本的反馈文本正文与各所述其他备选反馈文本的反馈文本正文的相似性度量结果,在各个所述其他备选反馈文本中确定与所述目标反馈文本匹配的匹配反馈文本;
将所述匹配反馈文本的用户反馈分析结果作为所述目标反馈文本的用户分析结果;
其中,所述基于所述目标反馈文本的事件标签序列与各参考反馈文本的事件标签序列之间的标签共性评分,在各个所述参考反馈文本中确定出备选反馈文本,包括:
分别对所述目标反馈文本与各所述参考反馈文本的事件标签序列进行表征向量抽取,得到标签表征向量;
通过所述目标反馈文本的标签表征向量与各所述参考反馈文本的标签表征向量之间的表征向量空间系数,在各个所述参考反馈文本中确定出备选反馈文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对各所述参考反馈文本的标签表征向量进行群集分析,得到设定数量个分类质心与所述分类质心所在的集群;
所述通过所述目标反馈文本的标签表征向量与各所述参考反馈文本的标签表征向量之间的表征向量空间系数,在各个所述参考反馈文本中确定出备选反馈文本,包括:
获取所述目标反馈文本的标签表征向量与各所述分类质心的空间相似性;
依据所述空间相似性在各个所述分类质心中确定出一个或多个分类质心;
获取所述目标反馈文本的标签表征向量与确定出的分类质心所在集群中各标签表征向量之间的空间相似性;
依据所述空间相似性从确定出的分类质心所在集群中确定出备选反馈文本。
3.根据权利要求1所述的方法,其特征在于,所述获取所述目标反馈文本与各所述备选反馈文本各自对应标签奇异性的标签奇异值,包括:
针对所述目标反馈文本与所述备选反馈文本,分别对相应的事件标签序列进行标签拆分,得到各自的标签集合;
针对所述标签集合中的每一标签,分别获取相应的标签影响系数,所述标签影响系数是一个权重值,用以表征标签的奇异程度;
对所述标签集合中每一标签的标签影响系数进行平均,得到各自的标签奇异值;
将所述目标反馈文本与所述备选反馈文本的标签奇异值的平均值,确定为对应标签奇异性的标签奇异值;
所述获取所述目标反馈文本与各所述备选反馈文本对应事件标签序列的标签共性评分,包括:针对所述目标反馈文本与各所述备选反馈文本,分别对相应的事件标签序列进行表征向量抽取,得到标签表征向量;将所述目标反馈文本的标签表征向量与各所述备选反馈文本的标签表征向量之间的表征向量空间系数,确定为对应事件标签序列的标签共性评分;或者,所述获取所述目标反馈文本与各所述备选反馈文本对应事件标签序列的标签共性评分,包括:针对所述目标反馈文本与各所述备选反馈文本,获取所述目标反馈文本与备选反馈文本关于事件标签序列的统一障碍值,所述统一障碍值是将目标反馈文本的反馈文本简介转变为备选反馈文本的事件标签序列的转变次数;获取所述目标反馈文本与所述备选反馈文本的标签容量中的大标签容量;通过所述统一障碍值与所述大标签容量的比值,获取对应事件标签序列的标签共性评分,所述标签共性评分与所述比值负关联;
所述获取所述目标反馈文本与各所述备选反馈文本对应反馈文本简介的文本简介共性评分,包括:
针对所述目标反馈文本与各所述备选反馈文本,分别对相应的反馈文本简介进行表征向量抽取,得到简介表征向量;
将所述目标反馈文本的简介表征向量与各所述备选反馈文本的简介表征向量之间的表征向量空间系数,确定为对应反馈文本简介的文本简介共性评分;
所述获取所述目标反馈文本与各所述备选反馈文本对应标签-简介的标签-简介共性评分,包括:
针对所述目标反馈文本与各所述备选反馈文本,对所述目标反馈文本的事件标签序列进行表征向量抽取,得到标签表征向量,对所述备选反馈文本的反馈文本简介进行表征向量抽取,得到简介表征向量;
将所述目标反馈文本的标签表征向量与各所述备选反馈文本的简介表征向量之间的表征向量空间系数,确定为对应标签-简介的标签-简介共性评分;
所述获取所述目标反馈文本与各所述备选反馈文本对应简介-标签的简介-标签共性评分,包括:
针对所述目标反馈文本与各所述备选反馈文本,对所述目标反馈文本的反馈文本简介进行表征向量抽取,得到简介表征向量,对所述备选反馈文本的事件标签序列进行表征向量抽取,得到标签表征向量;
将所述目标反馈文本的简介表征向量与各所述备选反馈文本的标签表征向量之间的表征向量空间系数,确定为对应简介-标签的简介-标签共性评分;
所述获取所述目标反馈文本与各所述备选反馈文本对应文本分词数量的文本分词数量共性评分,包括:
针对所述目标反馈文本与各所述备选反馈文本,获取所述目标反馈文本的文本分词数量为第一分词数量,确定所述备选反馈文本的文本分词数量为第二分词数量;
确定所述第一分词数量与所述第二分词数量的数值大小关系;
通过较小数量和较大数量的比值,确定对应文本分词数量的文本分词数量共性评分;
所述获取所述目标反馈文本与各所述备选反馈文本对应用户画像的用户画像共性评分,包括:
针对所述目标反馈文本与各所述备选反馈文本,获取所述目标反馈文本的用户画像对应的第一冗余清理序列,确定所述备选反馈文本的用户画像对应的第二冗余清理序列,其中,冗余清理序列是对用户画像中的标签进行重合数据删除获得的序列;
确定所述第一冗余清理序列与所述第二冗余清理序列的重叠度值,确定为对应用户画像的用户画像共性评分。
4.根据权利要求1所述的方法,其特征在于,所述通过相应的所述标签奇异值、所述标签共性评分、所述文本简介共性评分、所述标签-简介共性评分、所述简介-标签共性评分、所述文本分词数量共性评分或所述用户画像共性评分中的一个或多个,预测所述目标反馈文本与所述备选反馈文本的共性置信水平,包括:
获取调试完成的线性拟合算法中分别对应所述标签奇异性、所述事件标签序列、所述反馈文本简介、所述标签-简介、所述简介-标签、所述文本分词数量和所述用户画像的影响系数;
通过所述影响系数对所述标签奇异值、所述标签共性评分、所述文本简介共性评分、所述标签-简介共性评分、所述简介-标签共性评分、所述文本分词数量共性评分和所述用户画像共性评分进行权值分配,得到所述目标反馈文本与所述备选反馈文本的共性置信水平。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标反馈文本的反馈文本正文与各所述其他备选反馈文本的反馈文本正文的相似性度量结果,在各个所述其他备选反馈文本中确定与所述目标反馈文本匹配的匹配反馈文本,包括:
分别获取所述目标反馈文本的反馈文本正文与所述其他备选反馈文本的反馈文本正文;
对所述反馈文本正文进行预处理,得到预处理后的反馈文本正文;
从所述预处理后的反馈文本正文中提取文本段落,得到文本段落集合;
对所述文本段落集合进行文本段落表征向量挖掘,得到文本向量集合;
将所述目标反馈文本与所述其他备选反馈文本各自的文本向量集合进行持续性配对,通过配对结果获取所述目标反馈文本与所述其他备选反馈文本的共性置信水平。
6.根据权利要求5所述的方法,其特征在于,所述从所述预处理后的反馈文本正文中提取文本段落,得到文本段落集合,包括:
依据段落分隔器对所述反馈文本正文进行分段,得到多个反馈文本段落;
依据各个所述反馈文本段落在所述反馈文本正文中的顺序,将每个反馈文本段落中的文本段落进行排序,得到文本段落集合。
7.根据权利要求5所述的方法,其特征在于,所述将所述目标反馈文本与所述其他备选反馈文本各自的文本向量集合进行持续性配对,通过配对结果获取所述目标反馈文本与所述其他备选反馈文本的共性置信水平,包括:
通览所述目标反馈文本的文本向量集合中的文本段落表征向量;
针对每个其他备选反馈文本,获取通览到的文本段落表征向量与所述其他备选反馈文本的文本向量集合中各文本段落表征向量的空间相似性,通过所述空间相似性在所述其他备选反馈文本的文本向量集合中确定相应空间相似性最大的文本段落表征向量,通过通览得到的文本段落表征向量与所述相应空间相似性最大的文本段落表征向量组建的一组匹配文本段落,生成匹配文本段落清单;
基于所述匹配文本段落清单确定所述其他备选反馈文本中的匹配反馈文本段落;
通过所述匹配反馈文本段落的文本分词数量与所述其他备选反馈文本的文本分词数量的比值,获取所述目标反馈文本与所述其他备选反馈文本的共性置信水平。
8.一种电子设备,其特征在于,包括:
处理器;
以及存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410233658.0A CN117828030B (zh) | 2024-03-01 | 2024-03-01 | 基于大数据的用户分析方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410233658.0A CN117828030B (zh) | 2024-03-01 | 2024-03-01 | 基于大数据的用户分析方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117828030A CN117828030A (zh) | 2024-04-05 |
CN117828030B true CN117828030B (zh) | 2024-05-07 |
Family
ID=90517634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410233658.0A Active CN117828030B (zh) | 2024-03-01 | 2024-03-01 | 基于大数据的用户分析方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828030B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004006133A1 (en) * | 2002-07-03 | 2004-01-15 | Iotapi., Com, Inc. | Text-machine code, system and method |
WO2006101673A1 (en) * | 2005-03-23 | 2006-09-28 | Motorola, Inc. | Voice nametag audio feedback for dialing a telephone call |
CN110890088A (zh) * | 2019-10-12 | 2020-03-17 | 中国平安财产保险股份有限公司 | 语音信息反馈方法、装置、计算机设备和存储介质 |
CN111401063A (zh) * | 2020-06-03 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种基于多池化网络的文本处理方法、装置和相关设备 |
CN111783903A (zh) * | 2020-08-05 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN112148881A (zh) * | 2020-10-22 | 2020-12-29 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN113157876A (zh) * | 2021-03-18 | 2021-07-23 | 平安普惠企业管理有限公司 | 信息反馈方法、装置、终端和存储介质 |
CN114625831A (zh) * | 2020-12-08 | 2022-06-14 | 天津科技大学 | 一种面向智能电网负荷辨识的分类评价反馈方法 |
CN114663197A (zh) * | 2022-04-15 | 2022-06-24 | 广州欢聚时代信息科技有限公司 | 商品推荐方法及其装置、设备、介质、产品 |
CN116110612A (zh) * | 2023-02-15 | 2023-05-12 | 崇州市中医医院 | 一种基于医患交互的智能导诊问询反馈处理方法及系统 |
CN116127003A (zh) * | 2022-09-15 | 2023-05-16 | 马上消费金融股份有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN116244442A (zh) * | 2023-03-29 | 2023-06-09 | 重庆蚂蚁消费金融有限公司 | 文本分类方法、装置、存储介质及电子设备 |
CN116303940A (zh) * | 2023-02-20 | 2023-06-23 | 马上消费金融股份有限公司 | 文本生成方法、装置、电子设备及存储介质 |
CN116737928A (zh) * | 2023-06-12 | 2023-09-12 | 深圳市逗娱科技有限公司 | 平台用户需求的文本挖掘方法、系统及云平台 |
CN116842936A (zh) * | 2022-03-23 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 关键词识别方法、装置、电子设备和计算机可读存储介质 |
CN117235264A (zh) * | 2023-09-21 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备和计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10354009B2 (en) * | 2016-08-24 | 2019-07-16 | Microsoft Technology Licensing, Llc | Characteristic-pattern analysis of text |
US20220383153A1 (en) * | 2021-05-27 | 2022-12-01 | Cisco Technology, Inc. | Obtaining and utilizing feedback for agent-assist systems |
-
2024
- 2024-03-01 CN CN202410233658.0A patent/CN117828030B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004006133A1 (en) * | 2002-07-03 | 2004-01-15 | Iotapi., Com, Inc. | Text-machine code, system and method |
WO2006101673A1 (en) * | 2005-03-23 | 2006-09-28 | Motorola, Inc. | Voice nametag audio feedback for dialing a telephone call |
CN110890088A (zh) * | 2019-10-12 | 2020-03-17 | 中国平安财产保险股份有限公司 | 语音信息反馈方法、装置、计算机设备和存储介质 |
CN111401063A (zh) * | 2020-06-03 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种基于多池化网络的文本处理方法、装置和相关设备 |
CN111783903A (zh) * | 2020-08-05 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN112148881A (zh) * | 2020-10-22 | 2020-12-29 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN114625831A (zh) * | 2020-12-08 | 2022-06-14 | 天津科技大学 | 一种面向智能电网负荷辨识的分类评价反馈方法 |
CN113157876A (zh) * | 2021-03-18 | 2021-07-23 | 平安普惠企业管理有限公司 | 信息反馈方法、装置、终端和存储介质 |
CN116842936A (zh) * | 2022-03-23 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 关键词识别方法、装置、电子设备和计算机可读存储介质 |
CN114663197A (zh) * | 2022-04-15 | 2022-06-24 | 广州欢聚时代信息科技有限公司 | 商品推荐方法及其装置、设备、介质、产品 |
CN116127003A (zh) * | 2022-09-15 | 2023-05-16 | 马上消费金融股份有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN116110612A (zh) * | 2023-02-15 | 2023-05-12 | 崇州市中医医院 | 一种基于医患交互的智能导诊问询反馈处理方法及系统 |
CN116303940A (zh) * | 2023-02-20 | 2023-06-23 | 马上消费金融股份有限公司 | 文本生成方法、装置、电子设备及存储介质 |
CN116244442A (zh) * | 2023-03-29 | 2023-06-09 | 重庆蚂蚁消费金融有限公司 | 文本分类方法、装置、存储介质及电子设备 |
CN116737928A (zh) * | 2023-06-12 | 2023-09-12 | 深圳市逗娱科技有限公司 | 平台用户需求的文本挖掘方法、系统及云平台 |
CN117235264A (zh) * | 2023-09-21 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备和计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
双边平台环境下用户生成内容对在线购买的影响机制研究;魏如清;中国博士学位论文全文数据库经济与管理科学辑;20170615(第6期);J157-12 * |
用半监督聚类算法实现WEB文本挖掘;胡敏杰;;漳州师范学院学报(自然科学版);20101230(04);55-62 * |
重复模式识别算法及在Web信息抽取和聚类分析中的应用;木妮娜・玉素甫;古丽娜・玉素甫;;计算机科学;20171115(S2);49-55 * |
Also Published As
Publication number | Publication date |
---|---|
CN117828030A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11620450B2 (en) | Deep learning based text classification | |
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
CN107992596B (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
US11093854B2 (en) | Emoji recommendation method and device thereof | |
CN109471942B (zh) | 基于证据推理规则的中文评论情感分类方法及装置 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN110888983B (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
CN110555451A (zh) | 信息识别方法和装置 | |
CN111428011B (zh) | 词语的推荐方法、装置、设备及存储介质 | |
CN113590764A (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN110781669A (zh) | 文本关键信息提取方法与装置、电子设备、存储介质 | |
CN113011156A (zh) | 审核文本的质检方法、装置、介质以及电子设备 | |
CN115409039A (zh) | 一种对标车型数据的分析方法、装置、电子设备及介质 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN110705308B (zh) | 语音信息的领域识别方法、装置、存储介质及电子设备 | |
CN111475626A (zh) | 裁判文书结构化分块方法及装置 | |
CN117828030B (zh) | 基于大数据的用户分析方法及电子设备 | |
CN111625619A (zh) | 查询省略方法、装置、计算机可读介质及电子设备 | |
CN115238676A (zh) | 招标需求热点识别方法、装置、存储介质及电子设备 | |
CN115827867A (zh) | 文本类型的检测方法及装置 | |
CN115329754A (zh) | 一种文本主题提取方法、装置、设备及存储介质 | |
CN112084764B (zh) | 数据检测方法、装置、存储介质及设备 | |
CN114661892A (zh) | 稿件摘要生成方法和装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |