CN111309873A

CN111309873A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN111309873A
Application number: CN201811413557.2A
Authority: CN
Inventors: 李丹
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2020-06-19

Abstract

本申请实施例提供一种数据处理方法、装置、电子设备及存储介质，属于数据处理领域。该方法通过基于目标服务提供者的聊天记录获得其聊天主题，对聊天主题进行分析获得该目标服务提供者的喜好信息，从而在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息，进而使得目标服务提供者可在提供服务的过程中了解与自身喜好相关的信息，减少了服务过程中的枯燥乏味，提高了服务的乐趣以及体验。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理领域，具体而言，涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着网约车的普及，网约车的规模在逐渐地扩大，越来越多的司机加入网约车平台为人民提供网约车服务，现在网约车平台上加盟司机大多以单独个体劳动形式存在，司机作为服务业从业者，不仅工作重复，长期单枪匹马的工作中司机常常感到枯燥乏味，而网约车平台多以管控为主，无法获得司机更多的个人信息，进而无法照顾到司机个人情绪或喜好问题，导致司机在服务过程中体验不佳。

发明内容

本申请实施例的目的在于提供一种数据处理方法、装置、电子设备及存储介质，以使目标服务提供者可在提供服务的过程中了解与自身喜好相关的信息，减少了服务过程中的枯燥乏味，提高了服务的乐趣以及体验。

第一方面，本申请实施例提供了一种数据处理方法，所述方法包括：获取目标服务提供者在聊天群中的聊天记录；从所述聊天记录中提取聊天主题；基于所述聊天主题分析获得所述目标服务提供者的喜好信息，并在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息。

在上述实现过程中，通过基于目标服务提供者的聊天记录获得其聊天主题，对聊天主题进行分析获得该目标服务提供者的喜好信息，从而在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息，进而使得目标服务提供者可在提供服务的过程中了解与自身喜好相关的信息，减少了服务过程中的枯燥乏味，提高了服务的乐趣以及体验。

可选地，从所述聊天记录中提取聊天主题，包括：利用文档主题生成模型LDA从所述聊天记录中提取聊天主题，所述聊天主题对应所述聊天记录中的多个词。

在上述实现过程中，由于LDA模型可用来识别大规模文档集或语料库中潜藏的主题信息，所以，通过LDA模型从聊天记录中提取聊天主题，可以更加便捷和准确地从聊天记录中提取聊天主题。

可选地，利用文档主题生成模型LDA从所述聊天记录中提取聊天主题之前，还包括：获得多个训练聊天文档，每个训练聊天文档为每个服务提供者的聊天记录；对所述多个训练聊天文档中每个训练聊天文档进行预处理，获得语料库；根据得到的语料库进行LDA建模，得到所述LDA模型中的主题分布概率模型和词分布概率模型，以利用所述主题分布概率模型和所述词分布概率模型获取所述聊天文档的聊天主题。

上述实现过程中，通过获取大量的训练聊天文档来建立LDA模型，从而使得获得的LDA模型在实际应用时可以更准确的预测文档中潜藏的主题。

可选地，对所述多个训练聊天文档进行预处理，获得语料库，包括：对所述多个训练聊天文档中每个训练聊天文档进行分词处理，得到每个训练聊天文档中的词；将得到的词根据预设停留词表进行去停留词处理，得到语料库。

在上述实现过程中，通过将聊天文档进行分词处理，然后进行去停留词处理，从而可以删除一些无用的信息，减少了后续对词进行分析时的数据处理量。

可选地，所述词分布概率模型为：

所述主题分布概率模型为：

其中，

表示主题k下词t的分布概率，θ_m,k表示为第m篇聊天文档对应的聊天主题为k的分布概率，

表示主题k下关于词t的计数，

表示第m篇聊天文档下关于词t的计数，β_t表示关于词t的参数β，α_t表示关于词t的参数α。

可选地，在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息，包括：在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息向所述目标服务提供者发送推荐提示信息，所述推荐提示信息包括与所述目标服务提供者的喜好信息相关的商家信息。

在上述实现过程中，基于目标服务提供者的喜好信息向该目标服务提供者推荐对应的商家信息，从而可实现商家推广。

可选地，在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息，包括：在检测到所述目标服务提供者在执行服务提供操作时，获取多个其他服务提供者的喜好信息；将所述目标服务提供者的喜好信息与每个其他服务提供者的喜好信息进行相似匹配，获得匹配结果；根据所述匹配结果从所述多个其他服务提供者中选择与所述目标服务提供者的喜好信息满足预设相似度的目标其他服务提供者；将所述目标其他服务提供者的喜好信息以及所述目标其他服务提供者的个人信息作为推荐提示信息发送给所述目标服务提供者。

在上述实现过程中，可以基于目标服务提供者的喜好信息向该目标服务提供者推荐与其喜好相似或相同的其他服务提供者，扩展了目标服务提供者的交际圈，并且提高了目标服务提供者在提供服务过程中的乐趣。

第二方面，本申请实施例提供了一种数据处理装置，所述装置包括：聊天记录获取模块，用于获取目标服务提供者在聊天群中的聊天记录；聊天主题提取模块，用于从所述聊天记录中提取聊天主题；喜好分析模块，用于基于所述聊天主题分析获得所述目标服务提供者的喜好信息，并在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息。

可选地，所述聊天主题提取模块，具体用于利用文档主题生成模型LDA从所述聊天记录中提取聊天主题，所述聊天主题对应所述聊天记录中的多个词。

可选地，所述装置还包括：

模型建立模块，用于获得多个训练聊天文档，每个训练聊天文档为每个服务提供者的聊天记录；对所述多个训练聊天文档中每个训练聊天文档进行预处理，获得语料库；根据得到的语料库进行LDA建模，得到所述LDA模型中的主题分布概率模型和词分布概率模型，以利用所述主题分布概率模型和所述词分布概率模型获取所述聊天文档的聊天主题。

可选地，所述模型建立模块，还用于对所述多个训练聊天文档中每个训练聊天文档进行分词处理，得到每个训练聊天文档中的词；将得到的词根据预设停留词表进行去停留词处理，得到语料库。

可选地，所述词分布概率模型为：

所述主题分布概率模型为：

其中，

表示主题k下关于词t的计数，

可选地，所述喜好分析模块，具体用于在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息向所述目标服务提供者发送推荐提示信息，所述推荐提示信息包括与所述目标服务提供者的喜好信息相关的商家信息。

可选地，所述喜好分析模块，具体用于在检测到所述目标服务提供者在执行服务提供操作时，获取多个其他服务提供者的喜好信息；将所述目标服务提供者的喜好信息与每个其他服务提供者的喜好信息进行相似匹配，获得匹配结果；根据所述匹配结果从所述多个其他服务提供者中选择与所述目标服务提供者的喜好信息满足预设相似度的目标其他服务提供者；将所述目标其他服务提供者的喜好信息以及所述目标其他服务提供者的个人信息作为推荐提示信息发送给所述目标服务提供者。

第三方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出根据本申请的一些实施例的可以实现本申请思想的电子设备的示例性硬件和软件组件的示意图；

图2为本申请实施例提供的一种数据处理方法的流程图；

图3为本申请实施例提供的一种聊天记录时间分布的示意图；

图4为本申请实施例提供的一种各个业务竞赛活动对应的聊天记录的示意图；

图5为本申请实施例提供的一种数据处理装置的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“网约车”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕网约车进行描述，但是应该理解，这仅是一个示例性实施例。本申请可以应用于任何其他交通运输类型。例如，本申请可以应用于不同的运输系统环境，包括陆地，海洋，或航空等，或其任意组合。运输系统的交通工具可以包括出租车、私家车、顺风车、公共汽车、火车、子弹头列车、高速铁路、地铁、船只、飞机、宇宙飞船、热气球、或无人驾驶车辆等，或其任意组合。本申请还可以包括用于提供服务的任何服务系统，例如，用于发送和/或接收快递的系统、用于买卖双方交易的服务系统。本申请的系统或方法的应用可以包括网页、浏览器的插件、客户端终端、定制系统、内部分析系统、或人工智能机器人等，或其任意组合。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请中的术语“司机”、“提供方”、“服务提供方”和“服务提供者”可互换使用，以指代可以提供服务的个人、实体或工具。本申请中的术语“乘客”、“请求方”、“服务人员”、“服务请求方”和“客户”可互换使用，以指代可以请求或订购服务的个人、实体或工具。

请参照图1，图1示出根据本申请的一些实施例的可以实现本申请思想的电子设备100的示例性硬件和软件组件的示意图。例如，处理器可以用于电子设备100上，并且用于执行本申请中的功能。

电子设备100可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的数据处理方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口150。

为了便于说明，在电子设备100中仅描述了一个处理器。然而，应当注意，本申请中的电子设备100还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备100的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

请参照图2，图2为本申请实施例提供的一种数据处理方法的流程图，所述方法包括如下步骤：

步骤S110：获取目标服务提供者在聊天群中的聊天记录。

服务提供者为上述的服务提供方，以指代可以提供服务的个人、实体或工具。以网约车为例，服务提供者为司机，下面为描述的方便，均将服务提供者作为司机进行描述。

一般网约车平台为了鼓励司机积极接单，通常会举办一些组队竞赛活动来提高司机接单的积极性，这些竞赛活动有如端午车主组队竞赛活动、世界杯车主组队赛、3月车主组队PK赛等活动。

为了使得下次在参加活动的团队有更好的成绩，所以，在推荐团队成员时，需要对团队成员的各个方面进行考虑，如年龄、各个成员经常活动的区域以及各个成员接单的时间等等，综合各个成员的情况，合理的分配团队的成员，能够让竞赛更好的进行，让司机得到更好的分配，使得组成的团队在参加比赛时可以更好的配合，以在竞赛中有更好的表现。所以，为了使得参加业务竞赛的团队中的各个成员可以有更多相同或相似的属性信息，本实施例中通过对司机的喜好信息进行分析，从而了解各个司机的喜好信息，为运营人员在后续的司机组队活动中提供可靠的数据支持，例如可以将具有相同喜好的司机分在同一团队中，则各个司机之间可能有共同的话题，使得团队中的各个司机在竞赛过程中能够更好的配合，获得较佳的成绩。

为了对司机的喜好信息进行分析，可以选取参加过历史业务竞赛活动的司机，然后对这些司机的相关数据进行分析，一般在参加竞赛过程中团队之间为了方便交流会建立聊天群，团队中的成员可在聊天群中相互交流，为了分析某个司机的喜好信息，先获取该司机在聊天群中的聊天记录，即获取目标服务提供者在聊天群中的聊天记录。

需要说明的是，目标服务提供者可以是参加过历史业务竞赛的任何一个团队中的任何一个司机，当然也可以是没有参加过历史业务竞赛的任意一个司机，由此可以获取该司机在聊天群中的聊天记录。

步骤S120：从所述聊天记录中提取聊天主题。

在获取目标服务提供者的聊天记录后，从聊天记录中提取聊天主题，具体地，可以先从聊天记录中提取多个词组，由于预先对这些词组在不同的主题进行了分类，如对于主题为端午的，其对应的词组可以有屈原、粽子、龙舟、糯米等词，每个词可能对应了不同的主题，由此，可基于聊天记录中的词组获得聊天主题，聊天主题可能为多个。

当然，其中为了分析的简便，可提取在预设时间段内该目标服务提供者的聊天记录。

其中，为了方便聊天主题的提取，可将聊天记录先生成聊天文档，然后在对聊天文档中的语句进行分词处理获得多个词组，可以采用分词方法有：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。

下面分别对上述的三种分词方法进行介绍。

基于字符串匹配的分词方法：该方法又称机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(即识别出一个词)。

按照扫描方向的不同，字符串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；按照是否与词性标注过程相结合，可以分为单纯分词方法和分词与词性标注相结合的一体化方法，常用的字符串匹配方法有如下几种：正向最大匹配法、逆向最大匹配法、最小切分法和双向最大匹配法。

在基于字符串匹配的分词方法的基础上还有一种正向最大增字匹配分词算法，正向最大增字匹配分词算法实现思想是准备一个分词的词典，然后利用算法对输入的语句(如聊天记录)进行从左到右进行扫描，其目的是将聊天记录中的字符串与词典中的词条进行逐个匹配。匹配字段是从一个字开始，匹配中不断增字，直到匹配不下去为止，每一轮结束得到的结果，取最大的可以匹配成功的当前匹配字段，例如，输入的聊天记录为“我端午节当天下午要去人民北路接放学的女儿”，词典中有“端午”、“端午节”、“人民”、“人民北路”等词，然后从“端”字开始，向后依次扫描，分别取“端”、“端午”、“端午节”进行匹配，词典中最长的匹配字符串是“端午节”，那么该词被切分出来，接下来从“当”字开始扫描，重复上述操作，结果为“我/端午节/当天/下午/要/去/人民北路/接/放学/的/女儿”，由此可对语句进行分词处理，获得多个词组。

基于字符串匹配的分词方法的优点是速度快，时间复杂度可以保持在O(n)，实现简单，效果较佳。

基于理解的分词方法：该方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。通常包括三部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语音知识和信息。

基于统计的分词方法：该方法是在给定大量已经分词的文本的前提下，利用统计机器学习模型学习词语切分的规律，即训练，从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。其中，主要的统计机器学习模型有：N元文法模型、隐马尔科夫模型、最大熵模型、条件随机场模型等。

在实际应用中，基于统计的分词系统都需要使用分词词典来进行字符串匹配分词，同时使用统计方法是把一些新词，即将字符串频率统计和字符串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

另外，还可利用分词工具进行分词，常用的分词工具有jieba分词、SnowNLP分词、THULAC分词、NLPIR分词系统等分词工具。

所以，在对聊天记录进行分词处理后，获得多个词组，然后基于不同词组对应的主题，从而可获得聊天记录中对应的聊天主题。

步骤S130：基于所述聊天主题分析获得所述目标服务提供者的喜好信息，并在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息。

以网约车为例，若获得某个司机的喜好信息后，可以在该司机在进行网约车服务时向该司机推送与司机的喜好相关的信息，即在该司机通过司机终端触发服务提供操作时，服务提供操作可以是指司机通过司机终端进入网约车平台，司机从网约车平台中接收乘客的网约车订单的操作，此时可在检测到司机进入网约车平台执行服务提供操作时，获得该司机的喜好信息，如该司机在最近时间段内的聊天主题是关于照片、摄影等，则表示该司机可能对摄影类的信息比较感兴趣，则可以向该司机推送关于如何提高摄影技术的内容，从而可实现司机对相关摄影内容的了解。

另外，还可以在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息向所述目标服务提供者发送推荐提示信息，所述推荐提示信息包括与所述目标服务提供者的喜好信息相关的商家信息。

例如，该司机在最近时间段内的聊天主题是关于结婚、婚礼等，则表示该司机可能对结婚类的信息比较感兴趣，则可以向该司机推送婚纱店、婚庆店、婚纱照拍摄等商家信息，从而可实现商家推广。

另外，为了扩大目标服务提供者的人际交往，还可以获取多个其他服务提供者的喜好信息，其他服务提供者的喜好信息也可基于上述方式获取，然后将所述目标服务提供者的喜好信息与每个其他服务提供者的喜好信息进行相似匹配，获得匹配结果，然后根据所述匹配结果从所述多个其他服务提供者中选择与所述目标服务提供者的喜好信息满足预设相似度的目标其他服务提供者，再将所述目标其他服务提供者的喜好信息以及所述目标其他服务提供者的个人信息作为所述推荐提示信息发送给所述目标服务提供者。

其中，计算目标服务提供者的喜好信息与每个其他服务提供者的喜好信息之间的相似匹配的方法也可以采用上述的TF-IDF方法进行计算，即计算出的TF-IDF值可作为目标提供者的喜好信息与每个其他服务提供者的喜好信息之间的相似度值，当然，还可以将喜好信息转换为向量形式，然后计算向量之间的夹角余弦值作为相似度值，其具体过程在这不在过多赘述。

所以，可向目标服务提供者推荐与其喜好相似或相同的目标其他服务提供者的喜好信息以及其个人信息，则目标服务提供者可以选择将该目标其他服务提供者成为好友，如在网约车服务中，目标司机可以和其他有相似喜好的司机成为好友，从而在网约车服务中可以进行兴趣交流，提高了网约车服务的乐趣，减少了司机在网约车服务过程中的枯燥。

另外，为了满足司机在在组织归属感，网约车平台推出了司机组队活动，为司机提供有趣、正向的组织化激励，所以，在获得目标服务提供者的喜好信息后，还可以根据所述目标服务提供者的喜好信息向所述目标服务提供者推荐参与业务竞赛的团队。

具体地，不同的聊天主题可能代表了司机的不同喜好，当然，若从聊天记录中获得的词组数量较多时，为了便于减少分析压力，可以在从获取的词组中值提取一部分词进行主题分析即可，例如，从某个司机的聊天记录中获得的词有：后位、参加、五一、师傅、活动、告知、留下、端午节、队员、回复、提供、车队、樱花、意向、赢得、发车、赚钱、出车、现有等词，然后从预先设定的各个词与主题的对应关系中查找这些词对应的主题，由此可以看成该司机的聊天记录是关于五一和端午活动相关的主题，则从这个司机的聊天记录中提取的主题即为五一和端午两个聊天主题。从这两个主题可以看出这个司机对五一和端午的相关活动可能感兴趣，则表明这个司机的目前的喜好信息为五一和端午的相关活动。

所以，若此时刚好五一和端午有网约车平台举办的业务竞赛活动，则可向该司机推送五一或端午相关的业务竞赛活动的信息，以及向该司机推荐参与业务竞赛的团队，即这个团队的成员可能也对端午或五一的相关活动感兴趣，若这些司机组成一个团队参加业务竞赛，可能有较多的共同话题，有更好的配合，从而可以对司机的业务成绩有更好的提升。

其中，在向目标服务提供者推荐团队时，可以向目标服务提供者的用户终端发送推荐信息，即该推荐信息中包含有业务竞赛信息以及该团队的相关信息，该目标服务提供者可在用户终端触发选择加入该团队参加业务竞赛的请求，从而组队成功。当然，该目标服务提供者也可以选择不加入该团队参加业务竞赛。

所以，通过基于目标服务提供者的聊天记录获得其聊天主题，对聊天主题进行分析获得该目标服务提供者的喜好信息，从而向该目标服务提供者推荐参与业务竞赛的团队，进而使得该团队中的成员可能具有相似或相同喜好信息，以此提高了团队成员之间的氛围，使得该团队在竞赛过程可能有更好的成绩，调动了服务提供者参与竞赛的积极性。

在上述实施例中，从聊天记录中提取聊天主题的方式还可以利用文档主题生成模型(Latent Dirichlet Allocation，LDA)从聊天记录中提取聊天主题，LDA模型又叫隐含狄利克雷分布模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓文档主题生成模型，就是说，认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

由于LDA模型可用来识别大规模文档集或语料库中潜藏的主题信息，所以，通过LDA模型从聊天记录中提取聊天主题，可以更加便捷和准确地从聊天记录中提取聊天主题。

其中，LDA模型的建立过程为：先获取多训练聊天文档，每个训练聊天文档为每个服务提供者的聊天记录，即一个服务提供者的聊天记录对应的一个训练聊天文档，然后对这多个训练聊天文档中的每个训练聊天文档进行预处理，获得预料库，该预处理的过程为对所述多个训练聊天文档中每个训练聊天文档进行分词处理，得到每个训练聊天文档中的词，分词处理可以采用上述的分词方法，如采用结巴分词，获得聊天文档中的词，然后将得到的词根据预设的停留词表进行去停留词处理，得到语料库。其中，还可以根据隐马尔科夫模型对词进行识别，自定义词典，对专有词及热门词设定一定的权重，确保分词时，该词能被准确分割，根据停用词表自动过滤掉没有实际意义的词汇，如介词、冠词、语气助词、副词、连接词以及标点等。

通过获取大量的训练聊天文档来建立LDA模型，从而使得获得的LDA模型在实际应用时可以更准确的预测文档中潜藏的主题。

其中，自定义词典，对专有词及热门词设定一定的权重的方式可以为：采用词频-逆文档频率(term frequency–inverse document frequency，TF-IDF)算法获每个词语的TF-IDF值，将词语的TF-IDF值作为该词语的权重。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词语具有很好的类别区分能力，适合用来分来。TF-IDF实际上是TF*IDF，TF词频(Term Frequency)，IDF逆文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率，IDF的主要思想是：如果包含词条t的文档越少，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。所以在实际应用中，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文档的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文档的特征词以区别与其它类文档。

具体地，获取每个词语的TF-IDF值首先计算并获得每个词语在所属文档中词频TF，词频TF＝某个词语在所属文档中出现次数/该文档的总词数，其计算公式为

其中n_i,j是该词在所属文档中出现的次数，分母表示在该文档中所有字词的出现次数之和，如词语“出租车”在所属文档中的出现次数为300次，该文档的总词数为1200，则该词语“出租车”的词频TF＝300/1200＝0.25。然后再获取每个词语的逆文档频率IDF，逆文档频率IDF＝log(语料库的文档总数/包含该词语的文档数+1)，其计算公式为

其中|D|表示语料库中的文档总数，|{j:t_i∈d_j}|表示包含该词语的文档数。再基于每个词语的词频TF及逆文档频率IDF，获取每个词语的TF-IDF值，即词语的TF-IDF值＝词频TF*逆文档频率IDF。

通过上述处理后，获得语料库，然后可以根据得到的语料库进行LDA建模，得到所述LDA模型中的主题分布概率模型和词分布概率模型，以利用所述主题分布概率模型和所述词分布概率模型获取所述聊天文档的聊天主题。

其中，所述词分布概率模型为：

所述主题分布概率模型为：

其中，

表示主题k下关于词t的计数，

在训练过程中，可以选择全国所有的组队获得的司机的聊天记录，如图3所示，其共计有1434476条文本记录，涉及545个活动，参与队伍数87577，参与人数达169016。

由于活动的规模和举办城市各不相同，活动持续时间、参与人数对于聊天活跃度也有很大影响，因此，可以先统计各个活动的聊天记录数、参与人数和持续时间，然后从中挑选出聊天记录数最多的前100次竞赛活动进行分析，聊天记录数和活动参与人数的关系如图4所示，从图4可以看出，活动聊天记录数与参与人数的趋势基本一致。

所以，可以获得更多的数据参与模型的训练，使得训练的模型的使用效果更好。通过上述训练过程建立LDA模型后，所以，在获得某个文档的主题时，可直接将该文档输入到LDA模型中，然后该模型输出各个词下对应的不同主题，如下述获得10个主题对应的不同的词，其结果如下：

Topic#0：奖励、邀请、队伍、时间、活动、发来、入队、个队、清明、四天、期间、全天、跑车、添加、师兄、奖金、报名、接单、冲单、队员。

Topic#1：谢谢、车牌号码、您好、请问、麻烦、奖金、冲单、队长、微信、希望、接单、老板、合作、努力、回复、跑车、即可、信号、注册、有意。

Topic#2：加油、队长、第一、努力、明天、出车、第一名、奖励、晚上、休息、小时、辛苦、接单、昨天、希望、几个、时间、滴滴、师傅、第二名。

Topic#3：后位、参加、五一、师傅、活动、告知、留下、端午节、队员、回复、提供、车队、樱花、意向、赢得、发车、赚钱、出车、现有。

Topic#4：发过来、团队、尾号、车号、位数、同意、专业、车尾、队友、诚邀、发送、加油、三个、本队、第一、天天、收到、车辆、注册、手机。

Topic#5：单子、奖励、高峰、晚上、小时、早上、昨天、明天、麻木、休息、机场、流水、光谷、下午、滴滴、服务、回家、汉口、武昌、早晚。

Topic#6：发给、全职、专职、滴滴、司机、兼职、朋友、站队、帅哥、服务、赢大奖、几天、微信、组队参加、冠军、计划、几千、几十、队伍、拼搏。

Topic#7：兄弟、兴趣、号码、微信、进队、跑车、有没有、哥们、滴滴、注册、朋友、信号、天天、信群、出车、三个、接单、有空、交流、白天。

Topic#8：战队、微信、尾数、组建、要加、滴滴、朋友、信号、告诉、加不加、报下、报上、七夕、冠军、加油、照后、大奖、要入、不好意思、注册。

Topic#9：组队、告诉、加队、端午、拿大奖、跑车、朋友、赚钱、七夕、数字、发来、请告、拿奖、不好意思、成功、参赛、联系电话、端午节、夺金、系统。

从以上10个主题可以看出，topic#3是与“五一”、“端午”活动相关的主题，topic#5是与武汉某些地点相关的主题，topic#8是和“七夕”活动相关的主题。

所以，基于上述方式可以从司机的聊天文档中分析出对应的聊天主题，然后可基于聊天主题分析获得司机的喜好信息，然后可基于该司机的喜好信息向该司机推荐与该喜好信息相关的信息，如向该司机推荐参与业务竞赛的团队、或者推送相应的商家信息、或者其他司机的喜好信息和个人信息等。

请参照图5，图5为本申请实施例提供的一种数据处理装置200的结构框图，所述装置包括：

聊天记录获取模块210，用于获取目标服务提供者在聊天群中的聊天记录；

聊天主题提取模块220，用于从所述聊天记录中提取聊天主题；

喜好分析模块230，用于基于所述聊天主题分析获得所述目标服务提供者的喜好信息，并在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息。

可选地，所述聊天主题提取模块220，具体用于利用文档主题生成模型LDA从所述聊天记录中提取聊天主题，所述聊天主题对应所述聊天记录中的多个词。

可选地，所述装置还包括：

可选地，所述词分布概率模型为：

所述主题分布概率模型为：

其中，

表示主题k下关于词t的计数，

可选地，所述喜好分析模块230，具体用于在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息向所述目标服务提供者发送推荐提示信息，所述推荐提示信息包括与所述目标服务提供者的喜好信息相关的商家信息。

可选地，所述喜好分析模块230，具体用于在检测到所述目标服务提供者在执行服务提供操作时，获取多个其他服务提供者的喜好信息；将所述目标服务提供者的喜好信息与每个其他服务提供者的喜好信息进行相似匹配，获得匹配结果；根据所述匹配结果从所述多个其他服务提供者中选择与所述目标服务提供者的喜好信息满足预设相似度的目标其他服务提供者；将所述目标其他服务提供者的喜好信息以及所述目标其他服务提供者的个人信息作为推荐提示信息发送给所述目标服务提供者。

本申请实施例提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图2所示方法实施例中电子设备所执行的方法过程。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

综上所述，本申请实施例提供一种数据处理方法、装置、电子设备及存储介质，该方法通过基于目标服务提供者的聊天记录获得其聊天主题，对聊天主题进行分析获得该目标服务提供者的喜好信息，从而在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息，进而使得目标服务提供者可在提供服务的过程中了解与自身喜好相关的信息，减少了服务过程中的枯燥乏味，提高了服务的乐趣以及体验。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取目标服务提供者在聊天群中的聊天记录；

从所述聊天记录中提取聊天主题；

基于所述聊天主题分析获得所述目标服务提供者的喜好信息，并在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息。

2.根据权利要求1所述的方法，其特征在于，从所述聊天记录中提取聊天主题，包括：

利用文档主题生成模型LDA从所述聊天记录中提取聊天主题，所述聊天主题对应所述聊天记录中的多个词。

3.根据权利要求2所述的方法，其特征在于，利用文档主题生成模型LDA从所述聊天记录中提取聊天主题之前，还包括：

获得多个训练聊天文档，每个训练聊天文档为每个服务提供者的聊天记录；

对所述多个训练聊天文档中每个训练聊天文档进行预处理，获得语料库；

根据得到的语料库进行LDA建模，得到所述LDA模型中的主题分布概率模型和词分布概率模型，以利用所述主题分布概率模型和所述词分布概率模型获取所述聊天文档的聊天主题。

4.根据权利要求3所述的方法，其特征在于，对所述多个训练聊天文档进行预处理，获得语料库，包括：

对所述多个训练聊天文档中每个训练聊天文档进行分词处理，得到每个训练聊天文档中的词；

将得到的词根据预设停留词表进行去停留词处理，得到语料库。

5.根据权利要求3所述的方法，其特征在于，

所述词分布概率模型为：

所述主题分布概率模型为：

其中，

表示主题k下关于词t的计数，

6.根据权利要求1所述的方法，其特征在于，在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息，包括：

在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息向所述目标服务提供者发送推荐提示信息，所述推荐提示信息包括与所述目标服务提供者的喜好信息相关的商家信息。

7.根据权利要求1所述的方法，其特征在于，在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息，包括：

在检测到所述目标服务提供者在执行服务提供操作时，获取多个其他服务提供者的喜好信息；

将所述目标服务提供者的喜好信息与每个其他服务提供者的喜好信息进行相似匹配，获得匹配结果；

根据所述匹配结果从所述多个其他服务提供者中选择与所述目标服务提供者的喜好信息满足预设相似度的目标其他服务提供者；

将所述目标其他服务提供者的喜好信息以及所述目标其他服务提供者的个人信息作为推荐提示信息发送给所述目标服务提供者。

8.一种数据处理装置，其特征在于，所述装置包括：

聊天记录获取模块，用于获取目标服务提供者在聊天群中的聊天记录；

聊天主题提取模块，用于从所述聊天记录中提取聊天主题；

喜好分析模块，用于基于所述聊天主题分析获得所述目标服务提供者的喜好信息，并在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息，向所述目标服务提供者推荐与所述喜好信息相关的信息。

9.根据权利要求8所述的装置，其特征在于，所述聊天主题提取模块，具体用于利用文档主题生成模型LDA从所述聊天记录中提取聊天主题，所述聊天主题对应所述聊天记录中的多个词。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述模型建立模块，还用于对所述多个训练聊天文档中每个训练聊天文档进行分词处理，得到每个训练聊天文档中的词；将得到的词根据预设停留词表进行去停留词处理，得到语料库。

12.根据权利要求10所述的装置，其特征在于，

所述词分布概率模型为：

所述主题分布概率模型为：

其中，

表示主题k下关于词t的计数，

13.根据权利要求8所述的装置，其特征在于，所述喜好分析模块，具体用于在检测到所述目标服务提供者在执行服务提供操作时，根据所述目标服务提供者的喜好信息向所述目标服务提供者发送推荐提示信息，所述推荐提示信息包括与所述目标服务提供者的喜好信息相关的商家信息。

14.根据权利要求8所述的装置，其特征在于，所述喜好分析模块，具体用于在检测到所述目标服务提供者在执行服务提供操作时，获取多个其他服务提供者的喜好信息；将所述目标服务提供者的喜好信息与每个其他服务提供者的喜好信息进行相似匹配，获得匹配结果；根据所述匹配结果从所述多个其他服务提供者中选择与所述目标服务提供者的喜好信息满足预设相似度的目标其他服务提供者；将所述目标其他服务提供者的喜好信息以及所述目标其他服务提供者的个人信息作为推荐提示信息发送给所述目标服务提供者。

15.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-7任一所述方法中的步骤。

16.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-7任一所述方法中的步骤。