CN111309903B

CN111309903B - 一种数据处理方法、装置、存储介质和电子设备

Info

Publication number: CN111309903B
Application number: CN202010065877.4A
Authority: CN
Inventors: 王鹏
Original assignee: Future Vipkid Ltd
Current assignee: Future Vipkid Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2023-06-16
Anticipated expiration: 2040-01-20
Also published as: WO2021147710A1; CN111309903A

Abstract

本发明实施例提供了一种数据处理方法、装置、存储介质和电子设备。在本发明实施例中，通过自然语言处理技术对终端产生的数据进行采集和分析，获取目标用户对应的热点问题。能够提高数据处理的效率，及时高效的发现产品中存在的问题，便于针对性的改进产品缺陷，优化产品，提升用户体验。

Description

一种数据处理方法、装置、存储介质和电子设备

技术领域

本发明涉及数据处理领域，尤其涉及一种数据处理方法、装置、存储介质和电子设备。

背景技术

随着互联网技术的发展，基于网络的在线教学得到越来越广泛的应用。在线教学场景中，家长和老师或者其他销售人员的沟通很频繁，而且随着学员学习的进展，沟通会长期持续。积累了大量的数据，包括语音和文本，这些数据中可能包含用户遇到的各种问题、建议和体验反馈，对所述数据的舆情挖掘能及时发现问题并解决问题，为产品优化方向提供参考依据，提升用户体验。现有的对数据的分析主要是通过人工进行。然而，人工分析成本高，效率低下，且分析不全面，无法有效的利用相关的数据。因此，如何有效利用沟通过程中的数据来提升用户体验成为急需解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种数据处理方法、装置、存储介质和电子设备，能够提高对语音请求分类的准确性。

第一方面，本发明实施例提供一种数据处理方法，所述方法包括：

获取至少一个用户相关的舆情数据，所述舆情数据包括文本数据和/或语音数据；

对所述舆情数据进行分析，得到至少一个语义片段；

提取所述至少一个语义片段中的词汇；

基于所述各词汇的出现频次，得到至少一个目标词汇；

对所述至少一个目标词汇进行语义聚类，确定热点事件。

优选地，所述方法还包括：

获取与热点事件相关的至少一个语义片段；

根据所述至少一个语义片段分析目标用户对所述热点事件的情感极性，所述目标用户为与至少一个所述语义片段相关的用户；

发送所述目标用户对所述热点事件的情感极性信息。

优选地，所述方法还包括：

确定与热点事件相关的至少一个目标用户；

获取与所述目标用户相关的至少一个语义片段；

根据所述至少一个语义片段确定所述目标用户的标签；

发送所述目标用户的标签。

优选地，所述方法还包括：

获取各目标用户相关的至少一个语义片段；

根据所述至少一个语义片段确定所述目标用户的标签；

根据所述标签确定所述目标用户分类；

发送所述目标用户分类信息。

优选地，所述提取所述至少一个语义片段的词汇包括：

对所述语义片段进行分词处理、去停用词以及繁简转换处理。

优选地，所述对所述至少一个目标词汇进行语义聚类包括：

获取目标词汇的词向量；

对所述词向量进行聚类，以确定聚类后的多个词汇集合；以及

根据词汇集合确定对应的热点事件。

优选地，述舆情数据包括时间信息，所述舆情数据的日期距离当前日期的时长小于预定值。

第二方面，本发明实施例提供一种数据处理装置，所述装置包括：

数据获取单元，用于获取至少一个用户相关的舆情数据，所述舆情数据包括文本数据和/或语音数据；

语义片段获取单元，用于对所述舆情数据进行分析，得到至少一个语义片段；

词汇提取单元，用于提取所述至少一个语义片段中的词汇；

词汇频次确定单元，用于基于所述各词汇的出现频次，得到至少一个目标词汇；

语义聚类单元，用于对所述至少一个目标词汇进行语义聚类，确定热点事件。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

第四方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行如第一方面所述的方法。

在本发明实施例中，通过自然语言处理技术对终端产生的数据进行采集和分析，获取目标用户对应的热点问题。能够提高数据处理的效率，及时高效的发现产品中存在的问题，便于针对性的改进产品缺陷，优化产品，提升用户体验。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明第一实施例的数据处理方法的流程图；

图2是本发明第一实施例预测目标用户的标签的示意图；

图3是本发明第一实施例预测目标用户的标签的示意图；

图4是本发明第一实施例一个可选实现方式的数据处理方法的流程图；

图5是本发明第二实施例的数据处理装置的示意图；

图6是本发明第三实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。

有鉴于此，本发明实施例提供一种数据处理方法，能够有效分析在线教育相关的沟通数据，根据沟通数据及时调整产品服务，提升用户体验。

图1是本发明第一实施例的数据处理方法的流程图。如图1所示，本实施例的方法包括如下步骤：

步骤S100，获取至少一个用户相关的舆情数据，所述舆情数据包括文本数据和/或语音数据。

所述舆情数据包括时间信息，所述舆情数据的日期距离当前日期的时长小于预定值。

具体地，根据所述舆情数据中的时间信息，剔除过期的数据，将距离当前时间预定期限的数据作为所述舆情数据。在一种可选的实现方式中，所述预定期限可以是一个月或者一个星期等。由此确保能够去除时间过久不具有参考性的数据，及时准确的获取近期的用户反馈。

在一种可选的实现方式中，所述预定值是一个月。例如，当前的日期为2019年10月9日，将2019年9月9日-2019年10月9日之间的通信文本数据和通信语音数据作为舆情数据。

具体地，服务器获取预定终端的通信过程中产生的文本数据和语音数据来获取舆情数据。所述预定终端和服务器之间数据传输方式可以是无线传输也可以是有线的传输。可以是同步传输也可以是异步传输。在一种可选的实现方式中，预定终端以无线同步传输的方式向服务器发送通信文本数据和通信语音数据。

所述预定终端可以是老师或者销售人员在与用户沟通过程中使用的通信设备。具体地，预定终端可以是电脑、智能手机、智能电视以及平板电脑等。文本数据和语音数据中可能包含用户遇到的各种问题、建议和体验反馈。语音数据可以是包括语音格式的聊天记录，沟通电话的语音，家长与老师的交流记录。文本数据可以是包括文本格式的聊天记录，也可以是学生的学习报告等。

在一个可选的实施例中通信文本数据可以是“您好，最近上课过程中经常出现卡顿，课件播放不流畅”、“教学过程中有杂音，听不清楚”以及“XX老师语速过快，跟不上”等。

步骤S200，对所述舆情数据进行分析，得到至少一个语义片段。

具体地，首先对通信语音数据进行语音识别然后把语音转化为文本，由此，使通信语音数据和通信文本数据的格式一致，便于后续对所述舆情数据的处理。

然后，对所述舆情数据进行数据清洗以尽可能多地去除干扰信息。例如，可以首先确定舆情数据中的干扰信息，然后从舆情数据中去除干扰信息。所述干扰信息可以包括：无意义的符号、数字或文字。例如，所述干扰信息可以包括：电话号码，邮箱、乱码信息，或者问候语如“您好”“谢谢”等无关信息。

步骤S300，提取所述至少一个语义片段中的词汇。

对所述语义片段进行分词处理、去停用词以及繁简转换处理。在一种可选的实现方式中，所述词汇可以是“延迟”、“不清晰”以及“声音小等”。

步骤S400，基于所述各词汇的出现频次，得到至少一个目标词汇。

各词汇的出现频次可以根据频率指数(Term Frequency–Inverse DocumentFrequency，TF-IDF，也可以称为词频-逆文本频率指数)来体现。频率指数是一种用于信息检索与数据挖掘的常用加权技术。频率指数用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

在本步骤，获得频率指数后，根据频率指数对所述词汇进行排序。频率指数越高，说明该词汇对应的事件的被关注度高。将频率指数大于预定值的词汇作为目标词汇。

预定值可以是一个预定的频率指数，也可以是第N个词汇的频率指数。在一种可选的实现方式中，所述词汇可以是频率指数排序前50的词汇。

步骤S500，对所述至少一个目标词汇进行语义聚类，确定热点事件。

具体地，所述对频率指数大于预定值的词汇进行语义聚类具体包括如下步骤：

步骤S501，获取各目标词汇的词向量。

具体地，对目标词汇词汇进行词汇嵌入(word embedding)操作，将其转化为向量形式。本领域技术人员理解，可以采用各种方式来进行所述向量化操作。例如，可以采用简单的独热编码(one-hot coding)方式。又例如，可以采用基于神经网络算法训练的词汇嵌入模型还获取词向量。具体来说，可以采用Word2Vec模型来实现。Word2Vec模型是用一个一层的神经网络把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的模型。Word2Vec里面有两个重要的模型，即CBOW模型(Continuous Bag-of-Words Model，连续词袋模型)与Skip-gram模型。

步骤S502，对所述词向量进行聚类，以确定聚类后的多个词汇集合。

具体地，对于各词向量，可以采用无监督方式进行聚类，例如，主成分分析(PSA)算法，也可以采用监督方式的聚类模型来进行聚类。由此，

通过对词向量进行聚类，就可以获得多个词汇集合，也即，聚类获得的多个簇，每个簇为一个词汇集合，每个词汇集合包括至少一个词汇。

步骤S503、根据词汇集合确定对应的热点事件。

由于每个词汇集合中的词为类似的词汇，因此，可以确定出每个词汇集合对应的热点事件，也即，每个词汇集合表征的舆情的含义。在一个可选的实现方式中，可以预先建立热点事件的词汇表。然后计算词汇集合和所述词汇表中的各词汇之间的语义距离，选取语义距离最小的词汇作为确定得到的热点事件。例如，聚类确定得到一个词汇集合包括“听不懂”“口音”“难懂”等，则计算得到的距离最近的词汇可能为“不理解课程内容”，则可以将该表述作为热点事件反馈。在另一个可选的实现方式中，也可以直接将词汇集合的全部或一部分确定为热点事件的内容。

在一个可选的实施例中，所述方法还包括：

步骤S600，获取与热点事件相关的至少一个语义片段。

具体地，根据热点事件的词汇集合，获取包括词汇集合中的词汇的语义片段。

步骤S700，根据所述至少一个语义片段分析目标用户对所述热点事件的情感极性，所述目标用户为与至少一个所述语义片段相关的用户。

具体地，所述目标用户可以是某个家长、老师或者学生。

将所述各目标用户对应的语义片段输入第一模型，以确定各所述目标用户的情感结果。

具体地，根据所述语义片段分析判断用户对具体事物对象(Aspect-based)的情感极性(正向、负向和中性)。

其中，所述第一模型采用情感分类算法，以历史舆情数据作为训练数据预先训练获得。具体地，训练第一模型包括基于主题挖掘(比如三层贝叶斯概率模型(LatentDirichlet Allocation，LDA)，pLSA等)定位出历史舆情数据中每条语义片段中潜在的主题；根据所述主题训练面向情感的三分类模型。进一步地，所述情感分类算法包括：FastText以及支持向量机。

图2是本发明第一实施例的分析目标用户对热点事件的情感极性的示意图。如图2所示，将所述各目标用户对应的语义片段输入第一模型。获取关于目标用户对产品的情感结果。准确预测目标用户对产品的满意度，当目标用户的情感极性多表现为负性时，需要及时调整产品。

在一种可选的实现方式中，如输入“XX老师很有耐心”的语义片段到第一模型，则输出情感结果是正向。如输入“XX老师讲课语速太快，听不清”的语义片段到第一模型，则输出情感结果是负向。

步骤S800，发送所述目标用户对所述热点事件的情感极性信息。

所述情感极性信息可以发送至预定的终端，以弹窗的形式展示在所述预定终端。所述情感极性信息还可以是包括热点事件的以及对热点事件的情感极性的邮件或者短信等。将包含热点事件情感极性的邮件或短信发送至相关负责人。由相关负责人及时了解用户需求，根据情感极性信息及时解决课程存在的缺陷，以提升用户体验。

在另一个可选的实施例中，所述方法还包括：

步骤S900，获取各目标用户相关的至少一个语义片段。

具体地，所述目标用户可以是某个家长、老师或者学生。

如上所述，在步骤S200，多个目标用户相关的语义片段已经被获取，由此，在本步骤可以容易地获取每个目标用户相关的语义片段。

步骤S1000，根据所述至少一个语义片段确定所述目标用户的标签。

将所述各目标用户对应的语义片段输入第二模型，以确定各所述目标用户的标签。

其中，所述第二模型采用标签分类算法，以历史舆情数据作为训练数据预先训练获得。

具体地，历史舆情数据可以包括语义片段。历史舆情数据可以是在当前时间之前一段时间通过与用户沟通产生的数据，第二模型的训练过程包括对历史舆情数据进行实体识别，将可能存在的各类实体进行标注并合并，再采用标签分类算法训练所述第二模型。进一步地，所述标签分类算法可以为BERT(Bidirectional Encoder Representations fromTransformers)、XLNet或支持向量机(Support Vector Machine,SVM)。

图3是本发明第一实施例预测目标用户的标签的示意图。如图3所示，将目标用户对应的语义片段输入训练好的第二模型中，输出和目标用户相关的标签。每个目标用户可以关联于1个或者多个标签。所述标签预先设置在标签库中，当目标用户的语义片段与某一标签相关时，则输出目标用户对应的标签。在一个可选的实现方式中，所述标签可以包括“关注价格”、“工作忙”、“孩子正在学习某课程”以及“关注教学效果”等。例如语义片段中出现“价格超出预算”以及“有优惠活动吗”，则可以为目标用户确定为“关注价格”标签。

步骤S1100，根据所述标签确定所述目标用户分类。

例如，将具有相同标签的用户作为一类用户。

步骤S1200，发送所述目标用户分类信息。

可以将各目标用户的分类结果发送至预定的终端，以弹窗的形式展示在所述预定终端。还可以将包含分类结果的邮件或短信发送至相关负责人。由相关负责人根据分类结果对目标用户采取不同的服务策略。针对性的对不同类别的目标用户推荐不同的产品。如当有优惠活动时，向关注价格一类的目标用户推荐优惠产品。

在另一个可选的实施例中，所述方法还包括：

步骤S1300，确定与热点事件相关的至少一个目标用户。

具体地，所述目标用户为所述热点事件涉及的目标用户。包括反馈热点事件信息的用户，或者热点事件中提到的目标用户。所述目标用户可以是某个家长、老师或者学生。

步骤S1400，获取与所述目标用户相关的至少一个语义片段。

步骤S1500，根据所述至少一个语义片段确定所述目标用户的标签。

具体地，可以参考步骤S1000，在此不再赘述。

由此，可以确定热点事件涉及的目标用户的类别标签。

步骤S1600，发送所述目标用户的标签。

将目标用户的标签发送至预定终端。根据目标用户的标签对各目标用户采取不同的服务策略。

图4是本发明第一实施例一个可选实现方式的数据处理方法的流程图。如图4所示，在一个可选的实施例中，本发明第一实施例的数据处理方法包括如下步骤：

步骤S401，获取至少一个用户相关的舆情数据。

具体地，可以参考步骤S100，在此不再赘述。

步骤S402，对所述舆情数据进行分析，得到至少一个语义片段。

在步骤S402后，执行步骤S403和步骤S409。

具体地，可以参考步骤S200，在此不再赘述。

步骤S403，提取所述至少一个语义片段中的词汇。

具体地，可以参考步骤S300，在此不再赘述。

步骤S404，得到至少一个目标词汇。

具体地，可以参考步骤S400，在此不再赘述。

步骤S405，确定热点事件。

在步骤S405后，执行步骤S406和步骤S413。

具体地，可以参考步骤S500，在此不再赘述。

步骤S406，获取与热点事件相关的至少一个语义片段。

具体地，可以参考步骤S600，在此不再赘述。

步骤S407，分析所述热点事件的情感极性。

具体地，可以参考步骤S700，在此不再赘述。

步骤S408，发送情感极性信息。

在步骤S408后，可以分别执行步骤S409和步骤S412。具体地，可以参考步骤S800，在此不再赘述。

步骤S409，获取各目标用户相关的至少一个语义片段。

具体地，可以参考步骤S900，在此不再赘述。

步骤S410，根据所述目标用户的标签。

具体地，可以参考步骤S1000，在此不再赘述。

步骤S411，根据所述标签确定所述目标用户分类。

具体地，可以参考步骤S1100，在此不再赘述。

步骤S412，发送所述目标用户分类信息。

具体地，可以参考步骤S1200，在此不再赘述。

步骤S413，确定与热点事件相关的至少一个目标用户。

具体地，可以参考步骤S1300，在此不再赘述。

步骤S414，获取与所述目标用户相关的至少一个语义片段。

具体地，可以参考步骤S1400，在此不再赘述。

步骤S415，确定所述目标用户的标签。

具体地，可以参考步骤S1500，在此不再赘述。

步骤S416，发送所述目标用户的标签。

具体地，可以参考步骤S1600，在此不再赘述。

本实施例通过对预定终端产生的数据进行采集、筛选、预处理，通过智能聚类、分类、信息抽取、统计分析等，实现了教育场景下对舆情及时发掘的需要，通过本发明实施例对数据的分析，能够便于全面高效的获取数据中的各种隐藏信息，为全面掌握舆情动态、洞察用户心声、优化产品策略，提供精准数据支持。

在本发明实施例中，通过自然语言处理技术对终端产生的数据进行采集和分析，获取与目标用户对应的热点问题。能够提高数据处理的效率，及时高效的发现产品中存在的问题，便于针对性的改进产品缺陷，优化产品，提升用户体验。

图5是本发明第二实施例的数据处理装置的示意图。如图5所示，本发明实施例的数据处理装置包括：数据获取单元510，语义片段获取单元520，词汇提取单元530，词汇频次确定单元540以及语义聚类单元550。

数据获取单元510，用于获取至少一个用户相关的舆情数据，所述舆情数据包括文本数据和/或语音数据。

语义片段获取单元520，用于对所述舆情数据进行分析，得到至少一个语义片段。

词汇提取单元530，用于提取所述至少一个语义片段中的词汇。

词汇频次确定单元540，用于基于所述各词汇的出现频次，得到至少一个目标词汇。

语义聚类单元550，用于对所述至少一个目标词汇进行语义聚类，确定热点事件。

上述产品可执行本申请实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本申请实施方式所提供的方法。

图6是本发明第三实施例的电子设备的示意图。图6所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器61和存储器62。处理器61和存储器62通过总线63连接。存储器62适于存储处理器61可执行的指令或程序。处理器61可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器61通过执行存储器62所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线63将上述多个组件连接在一起，同时将上述组件连接到显示控制器64和显示装置以及输入/输出(I/O)装置65。输入/输出(I/O)装置65可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置65通过输入/输出(I/O)控制器66与系统相连。

其中，存储器62可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

本发明的第四实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。从而具备相应的有益效果。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明公开的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实现方式、完全软件实现方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实现方式。此外，本发明公开的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明公开各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取至少一个用户相关的舆情数据，所述舆情数据包括预定期限内的文本数据和/或语音数据；

对所述舆情数据进行分析，得到至少一个语义片段；

提取所述至少一个语义片段中的词汇；

基于所述各词汇的出现频次，得到至少一个目标词汇；

对所述至少一个目标词汇进行语义聚类，确定热点事件；

确定与热点事件相关的至少一个目标用户；

获取与所述目标用户相关的至少一个语义片段；

根据所述至少一个语义片段确定所述目标用户的标签；

发送所述目标用户的标签至预定的终端，以根据所述目标用户的标签对所述目标用户采取不同的服务策略。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与热点事件相关的至少一个语义片段；

发送所述目标用户对所述热点事件的情感极性信息。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取各目标用户相关的至少一个语义片段；

根据所述至少一个语义片段确定所述目标用户的标签；

根据所述标签确定所述目标用户分类；

发送所述目标用户分类信息。

4.根据权利要求1所述的方法，其特征在于，所述提取所述至少一个语义片段的词汇包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述至少一个目标词汇进行语义聚类包括：

获取目标词汇的词向量；

根据词汇集合确定对应的热点事件。

6.根据权利要求1所述的方法，其特征在于，所述舆情数据包括时间信息，所述舆情数据的日期距离当前日期的时长小于预定值。

7.一种数据处理装置，其特征在于，所述装置包括：

数据获取单元，用于获取至少一个用户相关的舆情数据，所述舆情数据包括预定期限内的文本数据和/或语音数据；

词汇提取单元，用于提取所述至少一个语义片段中的词汇；

语义聚类单元，用于对所述至少一个目标词汇进行语义聚类，确定热点事件；

所述装置还被用于：

确定与热点事件相关的至少一个目标用户；

获取与所述目标用户相关的至少一个语义片段；

根据所述至少一个语义片段确定所述目标用户的标签；

8.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行如权利要求1-6中任一项所述的方法。