CN113705200B

CN113705200B - 投诉行为数据的分析方法、装置、设备及存储介质

Info

Publication number: CN113705200B
Application number: CN202111012045.7A
Authority: CN
Inventors: 严杨扬
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-09-15
Anticipated expiration: 2041-08-31
Also published as: CN113705200A

Abstract

本申请涉及人工智能技术领域，揭示了一种投诉行为数据的分析方法、装置、设备及存储介质，其中方法包括：获取第i个时间区间的多个目标投诉行为数据集；获取目标名词词典，采用所述目标名词词典，对每个所述目标投诉行为数据集分别进行文档生成及分词处理，得到分词后的文档；对每个所述分词后的文档进行停用词删除处理，得到目标文档；根据各个所述目标文档进行每个短语的TF‑IDF权重计算，得到TF‑IDF权重及短语集；根据所述TF‑IDF权重及短语集进行关键投诉短语提取，得到目标分析结果。从而实现了将原本互不相干的单次投诉行为进行动态关联，然后再进行关键投诉短语的挖掘，提高了客户投诉分析的准确性。

Description

投诉行为数据的分析方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种投诉行为数据的分析方法、装置、设备及存储介质。

背景技术

现有的客户投诉流程基本是客户通过拨打投诉热线或通过应用系统中的投诉通道进行投诉，处理这些投诉的方法是采用逐一电话、短信回访等方式单次逐一处理客户投诉。事实上，客户的投诉行为是有模式的，比如，在某个产品投入市场的初期，极有可能因为销售坐席对于该产品的个人理解不足而误导了客户，进而引发了投诉行为。又比如，某个产品的规定文档书写有误，从而导致该产品的客户投诉行为激增。而单次逐一处理客户投诉无法动态地将各个投诉情况联系起来，降低了客户投诉分析的准确性。

发明内容

本申请的主要目的为提供一种投诉行为数据的分析方法、装置、设备及存储介质，旨在解决现有技术的单次逐一处理客户投诉无法动态地将各个投诉情况联系起来，降低了客户投诉分析的准确性的技术问题。

为了实现上述发明目的，本申请提出一种投诉行为数据的分析方法，所述方法包括：

获取第i个时间区间的多个目标投诉行为数据集；

获取目标名词词典，采用所述目标名词词典，对每个所述目标投诉行为数据集分别进行文档生成及分词处理，得到分词后的文档；

对每个所述分词后的文档进行停用词删除处理，得到目标文档；

根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集；

根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果。

进一步的，所述根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集的步骤，包括：

根据每个所述目标文档进行每个短语的词频计算，得到词频集；

根据各个所述目标文档分别进行每个短语的逆向文件频率计算，得到逆向文件频率集；

根据各个所述词频集和所述逆向文件频率集进行每个短语的TF-IDF权重计算，得到所述TF-IDF权重及短语集。

进一步的，所述根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果的步骤，包括：

对所述TF-IDF权重及短语集进行倒序排序，得到排序后的TF-IDF权重及短语集；

获取关键投诉短语提取规则；

采用所述关键投诉短语提取规则，从所述排序后的TF-IDF权重及短语集中进行TF-IDF权重提取，得到目标TF-IDF权重及短语集；

将所述目标TF-IDF权重及短语集中的每个短语作为所述关键投诉短语；

将各个所述关键投诉短语作为所述目标分析结果。

进一步的，所述根据每个所述目标文档进行每个短语的词频计算，得到词频集的步骤之后，还包括：

获取词频阈值；

将所述词频集中大于所述词频阈值的每个词频作为目标词频；

根据所述目标词频对应的短语生成密集投诉提醒信号；

将所述密集投诉提醒信号发送给密集投诉处理端。

进一步的，所述获取第i个时间区间的多个目标投诉行为数据集的步骤，包括：

获取预设区间划分规则；

采用所述预设区间划分规则的区间划分规则，从投诉行为数据库中获取第i个时间区间的投诉行为数据，得到待划分的投诉行为数据集；

采用所述预设区间划分规则的区间滑动窗口，从所述待划分的投诉行为数据集中进行投诉行为数据提取，得到第i个时间区间的多个所述目标投诉行为数据集。

进一步的，所述采用所述预设区间划分规则的区间划分规则，从投诉行为数据库中获取第i个时间区间的投诉行为数据，得到待划分的投诉行为数据集的步骤之前，还包括：

获取数据批量获取配置数据；

采用所述数据批量获取配置数据，从Kafka消息中间件中获取所述投诉行为数据，得到待更新的投诉行为数据集；

将所述待更新的投诉行为数据集更新到所述投诉行为数据库中。

进一步的，所述获取数据批量获取配置数据的步骤之前，包括：

获取第i-1个时间区间的分析时长和所述数据批量获取配置数据；

当所述第i-1个时间区间的分析时长大于所述数据批量获取配置数据的批处理间隔数据时，获取CPU核心数量和块间隔数据，根据所述第i-1个时间区间的分析时长、所述CPU核心数量和所述块间隔数据进行所述批处理间隔数据计算，得到待更新的批处理间隔数据；

根据所述待更新的批处理间隔数据分别进行滑动窗口大小计算和滑动间隔数据计算，得到待更新的滑动窗口大小和待更新的滑动间隔数据；

根据所述待更新的批处理间隔数据、所述待更新的滑动窗口大小和所述待更新的滑动间隔数据更新所述数据批量获取配置数据。

本申请还提出了一种投诉行为数据的分析装置，所述装置包括：

数据获取模块，用于获取第i个时间区间的多个目标投诉行为数据集；

分词后的文档确定模块，用于获取目标名词词典，采用所述目标名词词典，对每个所述目标投诉行为数据集分别进行文档生成及分词处理，得到分词后的文档；

目标文档确定模块，用于对每个所述分词后的文档进行停用词删除处理，得到目标文档；

TF-IDF权重及短语集确定模块，用于根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集；

目标分析结果确定模块，用于根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的投诉行为数据的分析方法、装置、设备及存储介质，其中方法首先通过获取第i个时间区间的多个目标投诉行为数据集，其次通过采用所述目标名词词典，对每个所述目标投诉行为数据集分别进行文档生成及分词处理，得到分词后的文档，对每个所述分词后的文档进行停用词删除处理，得到目标文档，然后通过根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集，最后通过根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果，从而实现了将原本互不相干的单次投诉行为进行动态关联，然后再进行关键投诉短语的挖掘，提高了客户投诉分析的准确性。

附图说明

图1为本申请一实施例的投诉行为数据的分析方法的流程示意图；

图2为本申请一实施例的投诉行为数据的分析装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种投诉行为数据的分析方法，所述方法包括：

S1：获取第i个时间区间的多个目标投诉行为数据集；

S2：获取目标名词词典，采用所述目标名词词典，对每个所述目标投诉行为数据集分别进行文档生成及分词处理，得到分词后的文档；

S3：对每个所述分词后的文档进行停用词删除处理，得到目标文档；

S4：根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集；

S5：根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果。

本实施例首先通过获取第i个时间区间的多个目标投诉行为数据集，其次通过采用所述目标名词词典，对每个所述目标投诉行为数据集分别进行文档生成及分词处理，得到分词后的文档，对每个所述分词后的文档进行停用词删除处理，得到目标文档，然后通过根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集，最后通过根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果，从而实现了将原本互不相干的单次投诉行为进行动态关联，然后再进行关键投诉短语的挖掘，提高了客户投诉分析的准确性。

对于S1，可以获取用户输入的第i个时间区间的多个目标投诉行为数据集，也可以从数据库中获取第i个时间区间的多个目标投诉行为数据集，还可以从第三方应用系统中获取第i个时间区间的多个目标投诉行为数据集。

目标投诉行为数据集中包括第i个时间区间的一个或多个投诉行为数据。目标投诉行为数据集中的投诉行为数据来自同一个区间滑动窗口。

所述投诉行为数据，是一个客户在一次投诉的文本数据。所述投诉行为数据包括但不限于：客户标识、投诉时间、投诉描述文本数据。

对于S2，可以获取用户输入的目标名词词典，也可以从数据库中获取目标名词词典，还可以从第三方应用系统中获取目标名词词典。

目标名词词典包括：业务人员目标名词词典、机构目标名词词典和产品及服务目标名词词典。也就是说，目标名词词典是多维度的名词词典。

所述业务人员目标名词词典包括但不限于：业务人员的姓名、业务人员的工号和业务人员的性别。

所述机构目标名词词典包括但不限于：机构名称、机构标识、上级机构标识和下级机构标识。机构标识是机构ID，用于唯一标识一个机构。上级机构标识，是指上级机构的机构标识。下级机构标识，是指下级机构的机构标识。

所述产品及服务目标名词词典包括但不限于：产品标识、服务标识、产品名称、服务名称。产品标识是产品ID，用于唯一标识一个产品。服务标识是服务ID，用于唯一标识一个服务。

可选的，所述目标名词词典还包括：常用名词词典。

比如，当本申请应用于保险行业时，所述业务人员目标名词词典包括但不限于：保险代理人的姓名、保险代理人的工号和保险代理人的性别，所述产品及服务目标名词词典包括但不限于：交强险、车辆损失险、第三者责任险、车上人员责任险、全车盗抢险，在此举例不做具体限定。

其中，首先将所述目标投诉行为数据集中的各个投诉行为数据合并到同一个文档中，将该文档作为待分词的文档，然后采用所述目标名词词典，对所述待分词的文档进行分词处理，将分词处理后的所述待分词的文档作为所述分词后的文档。也就是说，每个所述目标投诉行为数据集对应一个所述分词后的文档。

其中，采用所述目标名词词典中的每个短语，在所述待分词的文档中进行查找，得到词语查找结果；根据为成功的各个所述词语查找结果对应的短语确定所述分词后的文档。也就是说，所述分词后的文档是一个包括多个短语的文档。

对于S3，可以获取用户输入的停用词集，也可以从数据库中获取停用词集，还可以从第三方应用系统中获取停用词集。

停用词集中包括一个或多个停用词。停用词，是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。

采用所述停用词集中的每个停用词，在所述分词后的文档中进行删除处理，将删除处理后的每个所述分词后的文档作为一个所述目标文档。也就是说，每个所述目标投诉行为数据集对应一个所述目标文档。

对于S4，根据各个所述目标文档，对各个所述目标文档中的短语进行TF-IDF权重计算，将短语和TF-IDF权重作为关联数据(也就是TF-IDF权重与短语组合成的关联数据)，将各个关联数据作为TF-IDF权重及短语集。

对于S5，采用关键投诉短语提取规则，从所述TF-IDF权重及短语集中提取出TF-IDF权重最大的多个短语，将提取出的每个短语作为一个关键投诉短语，将各个关键投诉短语作为目标分析结果。从而实现了将原本互不相干的单次投诉行为进行动态关联的结果进行关键投诉短语的挖掘，提高了客户投诉分析的准确性。

目标分析结果，包括一个或多个关键投诉短语。

在一个实施例中，上述根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集的步骤，包括：

S41：根据每个所述目标文档进行每个短语的词频计算，得到词频集；

S42：根据各个所述目标文档分别进行每个短语的逆向文件频率计算，得到逆向文件频率集；

S43：根据各个所述词频集和所述逆向文件频率集进行每个短语的TF-IDF权重计算，得到所述TF-IDF权重及短语集。

本实施例同先在每个目标文档中进行每个短语的词频计算，然后在各个目标文档中进行每个短语的逆向文件频率计算，最后根据所述词频集和逆向文件频率集进行每个短语的TF-IDF权重计算，从而为在将原本互不相干的单次投诉行为进行动态关联的基础上实现了TF-IDF权重的计算，为关键投诉短语的挖掘提供了基础。

对于S41，短语i在第j个所述目标文档中的词频计算公式TF_i,j为：

n_i.j表示短语i在第j个所述目标文档中的出现次数，∑_kn_k,j表示第j个所述目标文档中的所有短语的出现次数的总和。

也就是说，每个所述目标文档对应一个词频集。

对于S42，短语i对应的逆向文件频率计算公式IDF_i为：

|d|是所述目标文档的数量，|{j:t_i∈d_j}|表示包含短语i的所述目标文档的数量，log是对数函数。

对于S43，短语i对应的TF-IDF权重的计算公式TF-IDF_i为：

TF-IDF_i＝TF_i*IDF_i

其中，TF_i为短语i在各个所述词频集中的最大值，IDF_i是短语i对应的逆向文件频率。

在一个实施例中，上述根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果的步骤，包括：

S51：对所述TF-IDF权重及短语集进行倒序排序，得到排序后的TF-IDF权重及短语集；

S52：获取关键投诉短语提取规则；

S53：采用所述关键投诉短语提取规则，从所述排序后的TF-IDF权重及短语集中进行TF-IDF权重提取，得到目标TF-IDF权重及短语集；

S54：将所述目标TF-IDF权重及短语集中的每个短语作为所述关键投诉短语；

S55：将各个所述关键投诉短语作为所述目标分析结果。

本实施例通过TF-IDF权重及短语集进行关键投诉短语提取，从而分析得到了将原本互不相干的单次投诉行为进行动态关联之后的关键投诉短语，提高了客户投诉分析的准确性。

对于S51，对所述TF-IDF权重及短语集按TF-IDF权重进行倒序排序，将倒序排序后的所述TF-IDF权重及短语集作为所述排序后的TF-IDF权重及短语集。

对于S52，可以获取用户输入的关键投诉短语提取规则，也可以从数据库中获取关键投诉短语提取规则，还可以从第三方应用系统中获取关键投诉短语提取规则，还可以将关键投诉短语提取规则写入实现本申请的程序中。

可选的，关键投诉短语提取规则设为预设提取数量。预设提取数量是一个大于0的整数。

可选的，关键投诉短语提取规则设为预设提取比例。预设提取比例是0％-100％的一个值。

对于S53，从所述排序后的TF-IDF权重及短语集中的开头开始提取数量符合所述关键投诉短语提取规则的TF-IDF权重，将提取的TF-IDF权重及其对应的短语作为目标TF-IDF权重及短语集。

对于S54，将所述目标TF-IDF权重及短语集中的每个短语作为一个所述关键投诉短语。

对于S55，将各个所述关键投诉短语作为所述目标分析结果，从而得到了将原本互不相干的单次投诉行为进行动态关联之后的客户投诉分析的准确结果。

在一个实施例中，上述根据每个所述目标文档进行每个短语的词频计算，得到词频集的步骤之后，还包括：

S61：获取词频阈值；

S62：将所述词频集中大于所述词频阈值的每个词频作为目标词频；

S63：根据所述目标词频对应的短语生成密集投诉提醒信号；

S64：将所述密集投诉提醒信号发送给密集投诉处理端。

本实施例通过大于所述词频阈值的每个词频对应的短语生成密集投诉提醒信号，从而快速的识别出高频的短语提醒密集投诉处理端快速处理，有利于快速定位并解决问题，避免问题进一步扩大。

对于S61，可以获取用户输入的词频阈值，也可以从数据库中获取词频阈值，还可以从第三方应用系统中获取词频阈值，还可以将词频阈值写入实现本申请的程序中。

词频阈值，是一个具体数值。

对于S62，将所述词频集中大于所述词频阈值的每个词频作为一个目标词频。也就是说，目标词频可以是0个，也可以是1个，还可以是多个。

对于S63，获取所述目标词频对应的短语作为高频短语；根据高频短语和所述目标词频生成密集投诉提醒信号。也就是说，高频短语和所述目标词频作为密集投诉提醒信号的参数。

对于S64，通过与密集投诉处理端的通信连接，将所述密集投诉提醒信号发送给密集投诉处理端。

密集投诉处理端在收到密集投诉提醒信号时，将采用预设的警报发送规则，根据密集投诉提醒信号中的高频短语和所述目标词频发出警报，从而实现及时通知相关部门，有利于相关部门快速定位并解决问题，避免问题进一步扩大。

在一个实施例中，上述获取第i个时间区间的多个目标投诉行为数据集的步骤，包括：

S11：获取预设区间划分规则；

S12：采用所述预设区间划分规则的区间划分规则，从投诉行为数据库中获取第i个时间区间的投诉行为数据，得到待划分的投诉行为数据集；

S13：采用所述预设区间划分规则的区间滑动窗口，从所述待划分的投诉行为数据集中进行投诉行为数据提取，得到第i个时间区间的多个所述目标投诉行为数据集。

本实施例首先通过区间划分规则从投诉行为数据库中获取第i个时间区间的投诉行为数据得到待划分的投诉行为数据集，然后采用区间滑动窗口从待划分的投诉行为数据集中提取投诉行为数据，从而为实现将原本互不相干的单次投诉行为进行动态关联提供了基础。

对于S11，可以获取用户输入的预设区间划分规则，也可以从数据库中获取预设区间划分规则，还可以从第三方应用系统中获取预设区间划分规则，还可以将预设区间划分规则写入实现本申请的程序中。

预设区间划分规则，也就是将每天24小时划分为多个时间区间，将每个时间区间划分为多个区间滑动窗口。

对于S12，采用所述预设区间划分规则的区间划分规则，从投诉行为数据库中获取第i个时间区间的投诉行为数据，也就是说，从投诉行为数据库中获取一个时间区间的数据。

投诉行为数据库中包括：一个或多个投诉行为数据。可以理解的是，投诉行为数据库中的各个投诉行为数据是按投诉时间进行顺时针排列的。

待划分的投诉行为数据集中的各个投诉行为数据是按投诉时间进行顺时针排列的。

对于S13，所述预设区间划分规则的区间滑动窗口，在所述待划分的投诉行为数据集中进行滑动，将每次的区间滑动窗口的各个投诉行为数据作为一个投诉行为数据集，将各个投诉行为数据集作为第i个时间区间的多个所述目标投诉行为数据集。

比如，区间划分规则为每天24小时划分为24个时间区间，以0点整开始(包括0点)，每个时间区间包括12个区间滑动窗口，每个区间滑动窗口提取的是5分钟的投诉行为数据，也就是说，每个所述目标投诉行为数据集包括5分钟的投诉行为数据，在此举例不做具体限定。

在一个实施例中，上述采用所述预设区间划分规则的区间划分规则，从投诉行为数据库中获取第i个时间区间的投诉行为数据，得到待划分的投诉行为数据集的步骤之前，还包括：

S121：获取数据批量获取配置数据；

S122：采用所述数据批量获取配置数据，从Kafka消息中间件中获取所述投诉行为数据，得到待更新的投诉行为数据集；

S123：将所述待更新的投诉行为数据集更新到所述投诉行为数据库中。

本实施例通过采用数据批量获取配置数据，从Kafka消息中间件中获取所述投诉行为数据更新到投诉行为数据库中，从而实时获取到投诉行为数据，为快速的进行投诉行为数据的分析提供了基础；而且将投诉行为数据更新到投诉行为数据库中，有利于快速的进行第i个时间区间的多个目标投诉行为数据集的生成。

对于S121，可以获取用户输入的数据批量获取配置数据，也可以从数据库中获取数据批量获取配置数据，还可以从第三方应用系统中获取数据批量获取配置数据。

所述数据批量获取配置数据包括：批处理间隔数据、块间隔数据、滑动窗口大小、滑动间隔数据。

比如，每台计算机的CPU核心数量为10，则将批处理间隔数据设置为2S，块间隔数据设置为200ms，这样每个批次对应的任务数量为10个(也就是批处理间隔数据设置的2S除以块间隔数据设置200ms)，从而充分利用每个CPU核心，不损失计算机的计算性能，在此举例不做具体限定。

其中，滑动窗口大小和滑动间隔数据设置为批处理间隔数据的整数倍。

对于S122，采用所述数据批量获取配置数据，从Kafka消息中间件中获取所述投诉行为数据，将获取的每个投诉行为数据作为一个待更新的投诉行为数据集。

Kafka，是高吞吐量的分布式发布订阅消息系统。

对于S123，将获取的所述待更新的投诉行为数据集更新到所述投诉行为数据库中。

在一个实施例中，上述获取数据批量获取配置数据的步骤之前，包括：

S1211：获取第i-1个时间区间的分析时长和所述数据批量获取配置数据；

S1212：当所述第i-1个时间区间的分析时长大于所述数据批量获取配置数据的批处理间隔数据时，获取CPU核心数量和块间隔数据，根据所述第i-1个时间区间的分析时长、所述CPU核心数量和所述块间隔数据进行所述批处理间隔数据计算，得到待更新的批处理间隔数据；

S1213：根据所述待更新的批处理间隔数据分别进行滑动窗口大小计算和滑动间隔数据计算，得到待更新的滑动窗口大小和待更新的滑动间隔数据；

S1214：根据所述待更新的批处理间隔数据、所述待更新的滑动窗口大小和所述待更新的滑动间隔数据更新所述数据批量获取配置数据。

本实施例通过在所述第i-1个时间区间的分析时长大于所述数据批量获取配置数据的批处理间隔数据时，根据所述第i-1个时间区间的分析时长、所述CPU核心数量和所述块间隔数据进行所述批处理间隔数据计算，根据计算结果更新数据批量获取配置数据，从而使数据批量获取配置数据符合实现本申请的程序所在服务器的服务器性能，提高了本申请的稳定性。

对于S1211，可以从数据库中获取第i-1个时间区间的分析时长，也可以从缓存中获取第i-1个时间区间的分析时长。

第i-1个时间区间的分析时长，是第i-1个时间区间的多个目标投诉行为数据集的分析的时长。

对于S1212，当所述第i-1个时间区间的分析时长大于所述数据批量获取配置数据的批处理间隔数据时，意味着对第i-1个时间区间的投诉行为数据的分析超过预期时长，此时需要调整数据批量获取配置数据，避免对第i个时间区间的投诉行为数据的分析出现超时的情况，因此获取CPU核心数量和块间隔数据。

CPU核心数量，是指实现本申请的程序文件提供投诉行为数据的分析服务时所装载的服务器的CPU的核心数量。

块间隔数据，是实现本申请的程序文件提供投诉行为数据的分析服务时所装载的服务器处理每个数据块的时长。

可选的，可以直接根据所述第i-1个时间区间的分析时长、所述CPU核心数量和所述块间隔数据进行所述批处理间隔数据计算，将计算得到的所述批处理间隔数据作为待更新的批处理间隔数据。

可选的，采用预设调整比例，根据所述第i-1个时间区间的分析时长进行所述批处理间隔数据计算，得到待处理的批处理间隔数据；根据所述待处理的批处理间隔数据、所述CPU核心数量和所述块间隔数据进行批处理间隔数据计算，得到所待更新的批处理间隔数据。

可选的，预设调整比例是0-1的数值，不包括0，可以包括1。

对于S1213，获取第一预设倍数和第二预设倍数；将所述待更新的批处理间隔数据与第一预设倍数相乘，得到待更新的滑动窗口大小；将所述待更新的批处理间隔数据与第二预设倍数相乘，得到待更新的滑动间隔数据。

第一预设倍数是整数。

第二预设倍数是整数。

对于S1214，将所述待更新的批处理间隔数据、所述待更新的滑动窗口大小和所述待更新的滑动间隔数据对所述数据批量获取配置数据中的数据进行替换更新。

参照图2，本申请还提出了一种投诉行为数据的分析装置，所述装置包括：

数据获取模块100，用于获取第i个时间区间的多个目标投诉行为数据集；

分词后的文档确定模块200，用于获取目标名词词典，采用所述目标名词词典，对每个所述目标投诉行为数据集分别进行文档生成及分词处理，得到分词后的文档；

目标文档确定模块300，用于对每个所述分词后的文档进行停用词删除处理，得到目标文档；

TF-IDF权重及短语集确定模块400，用于根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集；

目标分析结果确定模块500，用于根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果。

在一个实施例中，上述TF-IDF权重及短语集确定模块400包括：词频集确定子模块、逆向文件频率集确定子模块和TF-IDF权重及短语集确定子模块；

所述词频集确定子模块，用于根据每个所述目标文档进行每个短语的词频计算，得到词频集；

所述逆向文件频率集确定子模块，用于根据各个所述目标文档分别进行每个短语的逆向文件频率计算，得到逆向文件频率集；

所述TF-IDF权重及短语集确定子模块，用于根据各个所述词频集和所述逆向文件频率集进行每个短语的TF-IDF权重计算，得到所述TF-IDF权重及短语集。

在一个实施例中，上述目标分析结果确定模块500包括：排序单元、目标TF-IDF权重及短语集确定单元和目标分析结果确定单元；

所述排序单元，用于对所述TF-IDF权重及短语集进行倒序排序，得到排序后的TF-IDF权重及短语集；

所述目标TF-IDF权重及短语集确定单元，用于获取关键投诉短语提取规则，采用所述关键投诉短语提取规则，从所述排序后的TF-IDF权重及短语集中进行TF-IDF权重提取，得到目标TF-IDF权重及短语集；

所述目标分析结果确定单元，用于将所述目标TF-IDF权重及短语集中的每个短语作为所述关键投诉短语，将各个所述关键投诉短语作为所述目标分析结果。

在一个实施例中，上述装置还包括：密集投诉确定模块；

所述密集投诉确定模块，用于获取词频阈值，将所述词频集中大于所述词频阈值的每个词频作为目标词频，根据所述目标词频对应的短语生成密集投诉提醒信号，将所述密集投诉提醒信号发送给密集投诉处理端。

在一个实施例中，上述数据获取模块100包括：待划分的投诉行为数据集确定子模块和投诉行为数据提取子模块；

所述待划分的投诉行为数据集确定子模块，用于获取预设区间划分规则，采用所述预设区间划分规则的区间划分规则，从投诉行为数据库中获取第i个时间区间的投诉行为数据，得到待划分的投诉行为数据集；

所述投诉行为数据提取子模块，用于采用所述预设区间划分规则的区间滑动窗口，从所述待划分的投诉行为数据集中进行投诉行为数据提取，得到第i个时间区间的多个所述目标投诉行为数据集。

在一个实施例中，上述装置还包括：投诉行为数据库更新模块；

所述投诉行为数据库更新模块，用于获取数据批量获取配置数据，采用所述数据批量获取配置数据，从Kafka消息中间件中获取所述投诉行为数据，得到待更新的投诉行为数据集，将所述待更新的投诉行为数据集更新到所述投诉行为数据库中。

在一个实施例中，上述装置还包括：数据批量获取配置数据更新模块；

所述数据批量获取配置数据更新模块，用于获取第i-1个时间区间的分析时长和所述数据批量获取配置数据，当所述第i-1个时间区间的分析时长大于所述数据批量获取配置数据的批处理间隔数据时，获取CPU核心数量和块间隔数据，根据所述第i-1个时间区间的分析时长、所述CPU核心数量和所述块间隔数据进行所述批处理间隔数据计算，得到待更新的批处理间隔数据，根据所述待更新的批处理间隔数据分别进行滑动窗口大小计算和滑动间隔数据计算，得到待更新的滑动窗口大小和待更新的滑动间隔数据，根据所述待更新的批处理间隔数据、所述待更新的滑动窗口大小和所述待更新的滑动间隔数据更新所述数据批量获取配置数据。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存投诉行为数据的分析方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种投诉行为数据的分析方法。所述投诉行为数据的分析方法，包括：获取第i个时间区间的多个目标投诉行为数据集；获取目标名词词典，采用所述目标名词词典，对每个所述目标投诉行为数据集分别进行文档生成及分词处理，得到分词后的文档；对每个所述分词后的文档进行停用词删除处理，得到目标文档；根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集；根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种投诉行为数据的分析方法，包括步骤：获取第i个时间区间的多个目标投诉行为数据集；获取目标名词词典，采用所述目标名词词典，对每个所述目标投诉行为数据集分别进行文档生成及分词处理，得到分词后的文档；对每个所述分词后的文档进行停用词删除处理，得到目标文档；根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集；根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果。

上述执行的投诉行为数据的分析方法，首先通过获取第i个时间区间的多个目标投诉行为数据集，其次通过采用所述目标名词词典，对每个所述目标投诉行为数据集分别进行文档生成及分词处理，得到分词后的文档，对每个所述分词后的文档进行停用词删除处理，得到目标文档，然后通过根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集，最后通过根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果，从而实现了将原本互不相干的单次投诉行为进行动态关联，然后再进行关键投诉短语的挖掘，提高了客户投诉分析的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种投诉行为数据的分析方法，其特征在于，所述方法包括：

获取第i个时间区间的多个目标投诉行为数据集；

根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果；

所述根据所述TF-IDF权重及短语集进行关键投诉短语提取，得到目标分析结果的步骤，包括：

获取关键投诉短语提取规则；

将各个所述关键投诉短语作为所述目标分析结果；

所述获取第i个时间区间的多个目标投诉行为数据集的步骤，包括：

获取预设区间划分规则；

采用所述预设区间划分规则的区间滑动窗口，从所述待划分的投诉行为数据集中进行投诉行为数据提取，得到第i个时间区间的多个所述目标投诉行为数据集；

所述采用所述预设区间划分规则的区间划分规则，从投诉行为数据库中获取第i个时间区间的投诉行为数据，得到待划分的投诉行为数据集的步骤之前，还包括：

获取数据批量获取配置数据；

将所述待更新的投诉行为数据集更新到所述投诉行为数据库中；

所述获取数据批量获取配置数据的步骤之前，包括：

2.根据权利要求1所述的投诉行为数据的分析方法，其特征在于，所述根据各个所述目标文档进行每个短语的TF-IDF权重计算，得到TF-IDF权重及短语集的步骤，包括：

3.根据权利要求2所述的投诉行为数据的分析方法，其特征在于，所述根据每个所述目标文档进行每个短语的词频计算，得到词频集的步骤之后，还包括：

获取词频阈值；

根据所述目标词频对应的短语生成密集投诉提醒信号；

将所述密集投诉提醒信号发送给密集投诉处理端。

4.一种投诉行为数据的分析装置，用于实现权利要求1至3中任一项所述的方法，其特征在于，所述装置包括：

5.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。