CN115858787B

CN115858787B - 一种基于公路运输中问题诉求信息的热点提取和挖掘方法

Info

Publication number: CN115858787B
Application number: CN202211598156.5A
Authority: CN
Inventors: 贾红; 周炜; 汪旗航; 董轩
Original assignee: Research Institute of Highway Ministry of Transport
Current assignee: Research Institute of Highway Ministry of Transport
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-08-01
Anticipated expiration: 2042-12-12
Also published as: CN115858787A

Abstract

本发明公开了一种基于公路运输中问题诉求信息的热点提取和挖掘方法，包括以下步骤：收集诉求信息，并通过对诉求信息进行预处理，获得现有词和新词；通过文本聚类模型对所述现有词进行聚类划分处理，获得现有词话题数据集；通过关联规则对所述新词进行整合，获得新词话题数据集；对所述现有词话题数据集和所述新词话题数据集进行排序，根据排序结果确定热点话题；基于结巴分词法和TF‑IDF法对所述热点话题进行预处理，获得候选关键词集；通过对所述候选关键词集进行过滤和重要性调整，获得关键词集。本方法可以准确找出反应问题的关键词，为工作人员通过关键字准确地发现诉求信息中反映较多的问题提供了极大的帮助。

Description

一种基于公路运输中问题诉求信息的热点提取和挖掘方法

技术领域

本发明属于信息数据分析领域，特别是涉及一种基于公路运输中问题诉求信息的热点提取和挖掘方法。

背景技术

在交通越来越方便公路不断增多的情况下，公路运输举报投诉问题也随之增多，群众投诉热点问题所表现广泛性和复杂性特点。广泛性是指群众投诉问题广泛存在于各种类型的公路运输的各个环节中，复杂性是指投诉原因的复杂程度不断增加，而且一个投诉语料中的热点词汇，常常受周期性、自身趋势的影响，由于事件、政策等因素引起相关词语的突发性、递增性增长的情况下，热词挖掘是我们确定未知主题热点的关键，然而对投诉内容分析过程中更需要依赖于人工经验，使得投诉处理难度也不断地加大。

发明内容

为了克服投诉内容多，处理投诉内容困难的问题，本发明提出一种基于公路运输中问题诉求信息的热点提取和挖掘方法，该方法通过对投诉内容进行热点提取处理，能够准确发现投诉的热点问题。

为实现上述目的，本发明提供了如下方案：一种基于公路运输中问题诉求信息的热点提取和挖掘方法，包括以下步骤：

收集诉求信息，并通过对诉求信息进行预处理，获得现有词和新词；

通过文本聚类模型对所述现有词进行聚类划分处理，获得现有词话题数据集；

通过关联规则对所述新词进行整合，获得新词话题数据集；

对所述现有词话题数据集和所述新词话题数据集进行排序，根据排序结果确定热点话题；

基于结巴分词法和TF-IDF法对所述热点话题进行预处理，获得候选关键词集；

通过对所述候选关键词集进行过滤和重要性调整，获得关键词集。

优选地，所述对诉求信息进行预处理的过程包括：

将收集到的诉求信息进行去重处理；

将去重处理后的诉求信息通过结巴分词进行划分，得到现有词和新词。

优选地，所述获得现有词话题数据集的过程包括：

通过Bert模型将现有词向量化，组成文本集合，将文本集合进行平均划分，预设初始聚类中心个数，并通过初始化的评价函数选择初始聚类中心，获得最初划分好的簇，对最初划分好的簇进行迭代计算，获得最终簇，通过文本聚类模型对最终簇进行聚类划分处理，获得现有词话题数据集。

优选地，所述获得新词话题数据集的过程包括：

通过贝叶斯平均修正对新词进行计算，获得新词热度，基于新词热度，得到热点新词词汇；

基于热点新词词汇，通过关联规则进行关联高频词汇提取，得到候选高频词汇集；

对候选高频词汇集进行置信度计算，获得高频词汇集；

基于高频词汇集，人工整合出新词话题数据集。

优选地，所述计算词汇热度的方法为：

式中，w_t为词汇，T_j为时间窗口，F(w_t,T_j)为词汇w_t在时间窗口T_j的出现次数，S(w_t)为词汇热度。

优选地，对所述现有词话题数据集和所述新词话题数据集进行排序的方法包括：

通过对现有词话题和新词话题进行计算，获得话题热度，所述话题热度计算方式包括：

话题热度＝1/2(统计周期内话题总量)+1/2(统计周期内话题变化量)；

基于话题热度大小，对所述现有词话题数据集和所述新词话题数据集进行排序。

优选地，所述获得候选关键词集的过程包括：

基于结巴分词法，对热点话题进行切割处理，获得独立的词汇，并对独立的词汇进行词性标注；

对词性标注后的词汇进行停用词过滤，计算过滤后的词汇的词频大小和逆文档频率，根据词频和逆文档频率计算词汇的TF-IDF数值，基于TF-IDF数值，选取候选关键词集。

优选地，所述获得关键词集的过程包括：

对所述词性标注后的词汇进行词性过滤，剔除不属于名词、动词、形容词和副词的关键词，赋予名词、动词、形容词和副词不同的权重，通过权重大小判断关键词的重要性，根据关键词的重要性对关键词进行排序，获得关键词集。

本发明公开了以下技术效果：

本发明提供的一种基于公路运输中问题诉求信息的热点提取和挖掘方法，通过对现有词和新词的统计分析，找出诉求信息中的热点话题，针对每一个热点话题，以其经过样式处理的后的所有投诉文本为分析主体，提取其中有价值、关系性较强的词汇作为描述话题的关键字，为工作人员通过关键字准确地发现诉求信息中反映较多的问题提供了极大的帮助。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供了一种基于公路运输中问题诉求信息的热点提取和挖掘方法，包括以下步骤：

通过文本聚类模型对现有词进行聚类划分处理，获得现有词话题数据集；

通过关联规则对新词进行整合，获得新词话题数据集；

对现有词话题数据集和新词话题数据集进行排序，根据排序结果确定热点话题；

基于结巴分词法和TF-IDF法对热点话题进行预处理，获得候选关键词集；

通过对候选关键词集进行过滤和重要性调整，获得关键词集。

进一步地优化方案，定义热点类目录为工单四级目录中排序前100的目录，每期热点问题的出处一般来自于热点类目录下的工单。

每期热点问题梳理工作中，每个热点类目录只出一条热点问题。梳理出的每条热点问题的依据工单越多越好，依据工单的数量最少为20条，从中选出3条具有代表性的工单作为典型工单。当分析过程中一旦发现依据工单数量较少，但社会关注度较高的热点问题，则作为预测型热点问题保留。预测型热点问题也可算作本期分析工作梳理出的热点问题，但需要通过审核确定。

进一步地优化方案，对诉求信息进行文本预处理是对以工单编号为依据去重后的投诉文本进行中文分词，中文分词是中文信息处理的基础和关键。此处采用准确率和运行效率较高、使用范围较广的结巴分词实现。通过分词词典进行分词，分词后进行文本去噪处理，主要包括用于过滤分词后的无效标签符号以及停用词的过程。其中停用词是自然语言处理领域的一个重要工具，通常被用来提升文本特征的质量，或者降低文本特征的维度，通常为无意义但高频的助词、副词等，如“的”。在此处采用文本分析领域的通用停词典，为了保证分析的质量，后续还应基于信息量、期望值等统计信息自动生成停用词，丰富现有停用词典。

中文分词需要依赖分词词典。在本领域中，分词词典通过以下三个部分构成：

(1)自然语言处理通用词典：存放中文表述中常用词汇、成语和俗语等；

(2)公路运输领域专用词典，由全国高速公路专有名词、全国五级行政区域词典、货运物流有名词、汽车及其零部件名词等多个词典构成；

(3)新词发现词汇和词组：除上述词典外，可能存在部分未登录词汇和词组，因此采用自然语言处理领域的新词发现技术挖掘新词，此过程对于发现未知主题热点具有重要意义。

进一步地优化方案，采用Bert模型实现投诉词汇分词结果的向量化，如利用某一方法处理后，“运输”这一词汇可用四维向量[0.1234,0.2356,0.5678,0.8765]表示。然后通过k-medoids算法将文本集合进行平均划分，通过初始化的评价函数选择k个初始的聚类中心(k是预先设定好)，从而得到最初的划分好的簇。在接下来的步骤中不断使用迭代重定位的方法来遍历所有文本，围绕着k个簇进行重复计算，把文本重新规划到新的簇中，由此逐步提高划分的质量。在迭代过程中，尽可能使得簇内部的文本相似度高，而不同簇之间的文本相似度低。迭代的过程一直直到满足划分的终止条件才停止，终止条件一般是达到最大迭代次数或者簇中心不再进行漂移，此时算法已经收敛并且能够得到最终的聚类效果。

进一步地优化方案，获得新词话题数据集的过程包括：

基于研究和实际经验发现，一个投诉语料中的热点词汇，常常受以下几个因素的影响：

(1)周期性影响：如月份、节气等周期性的变化，会使得“大雾”、“雨”、“三月”等事件意义性不强的词语在不同分析月份中分别成为热词。

(2)自身趋势：由于事件、政策等因素引起相关词语的突发性、递增性等的增长。

因此，在事件、政策等因素引起相关词语的突发性、递增性增长的情况下热词挖掘是我们确定未知主题热点的关键。

针对每一个预处理后得到的词汇，引入以词频增量为主要衡量指标，并通过贝叶斯平均修正对新词进行计算，获得新词热度，基于新词热度，得到热点新词词汇；

对候选高频词汇集进行置信度计算，获得高频词汇集；

基于高频词汇集，人工整合出新词话题数据集。

进一步地优化方案，针对每一个预处理后得到的词汇，引入以词频增量为主要衡量指标，并通过贝叶斯平均修正的热词热度计算方法：

其中，w_t表示某个词汇，T_j表示时间窗口，F(w_t,T_j)表示词汇w_t在时间窗口T_j的出现次数，S(w_t)表示词汇当前的热度，即梯度分数。

利用贝叶斯平均对梯度分数进行修正：

进一步地优化方案，通过关联规则确定描述数据之间关联特性，能够很好地反映未知主题热点文本内部相关度大的特征，通过挖掘关联规则可以从海量信息数据中抽取出最具价值的知识模式。本实施例中采用关联规则中的Apriori算法实现，下面进行举例说明：假设X是投诉记录的集合，并只选取该热点词汇及其下投诉记录的关联热点词汇，分别记为D和T，其中每条记录是的一个非空的子集，也就是说每一条投诉记录都对应一个唯一的标识符。关联规则在投诉记录集合中的支持度是指集合中同时包含D和组合T的记录的概率，该值表示本条记录在整个数据集中的重要性；置信度是包含D的投诉记录中同时又包含T包含的记录条件概率，置信度的大小反映了该条记录的在整个数据集中的可靠程度。只有支持度和置信度都大于指定最小阈值时，该条关联规则才算是有价值的，应该引起用户的高度关注。通过对这两个变量的分析，可以得出D和T之间可能存在的某种对应规则，其共现可能可以组成一个话题，然后进行人工整合。

进一步地优化方案，基于上述2个过程，可以提取出2种不同形式的热点，但还缺乏对每一个热点具体热度的衡量标准。此处采用统计量和变化量的形式进行折算：

热度＝1/2(统计周期内话题总量)+1/2(统计周期内话题变化量)；

以热度为标准对每个话题进行排序，最终可输出前N个热点信息。

进一步地优化方案，针对清除了噪声，例如:文本中的空格，表情符号，特殊符号的每一个话题文本，采用结巴分词将文本切割为独立的词汇。与上一过程相同，分词词典公路运输领域各项专有词典(全国高速公路专有名词、全国五级行政区域词典、货运物流有名词、汽车及其零部件名词等)、现代汉语通用词典、以及采用新词发现算法生成的词语与词组组成。

在分词的过程中，同时为每一个词汇标注其词性，如“更换零部件”的分词结果为[“更换”，“零部件”]，词性标注的结果为[“动词，“名词”]。

进一步地优化方案，关键字提取流程为：

对于每一个热点话题，如“道路客运安全服务问题”下的所有工单组成分析语料库，即文本合集，其每一个投诉文本(以工单id为条件过滤重复工单)成为独立的文档，执行以下计算流程：

步骤一：针对预处理后每一个词汇，分别计算其词频大小；

步骤二：针对预处理后每一个词汇，分别计算其逆文档频率；

步骤三：针对每一个词汇，根据词频和逆文档频率计算该词汇的TF-IDF数值；

步骤四：以TF-IDF值为标准，按从大到小的顺序排列输出关键字候选集。

进一步地优化方案，对于通过TF-IDF提取的关键字候选集，进一步结合其词性，过滤不属于名词、动词、形容词和副词的关键字。

其中TF-IDF是常见的加权算法，衡量文本集中一个特征词对包含该特征词的文本的重要程度，常用于关键字提取、词向量转化等自然语言处理领域的应用。TF-IDF是TF与IDF的乘积，TF-IDF的词条提取函数如下：

W_tf-idf＝TF(i)×IDF(i)

其中，W_tf-idf表示第i个词汇的TF-IDF值，TF(i)表示该词的词频，特征词i在文本中出现的次数越多，TF(i)越大，则表明该词可能会较好地描述文本的信息。TF(i)的计算公式如下：

其中，n_i为该词汇出现的次数，n为所有特征词的总次数。

IDF(i)表示逆文档频率，若包含该特征词i文档数越少，IDF(i)越大，说明该词i具有良好的类型区分作用，计算如下：

其中，N为文档总数，df(i)为文档出现该词语的文档数。

TF-IDF算法表明：在文本中出现频率足够高，而在整个文本集合D的其他文档中出现频率足够低的特征词是区别该文本最关键的词语。TF词频代表同类文本特征，不同类别文本的特征由IDF来表示。IDF主要用于调整TF，抑制噪声加权。

同时，考虑到不同词性词汇作为关键字的重要性不同，进一步对名词、动词、形容词和副词类关键字赋予不同的权重修正关键字的重要性，其中关键字的重要性计算公式如下：

I(i)＝W_tf-idf×W_cnonce

W_cnonce为该关键字词性的权重。参考相关研究，名词、动词、形容词和副词的权重分别调整为：1、0.8、0.3。

综上可见，本发明与现有技术相比的显著优势概括如下：

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于公路运输中问题诉求信息的热点提取和挖掘方法，其特征在于，包括以下步骤：

通过关联规则对所述新词进行整合，获得新词话题数据集；

所述获得候选关键词集的过程包括：

对词性标注后的词汇进行停用词过滤，计算过滤后的词汇的词频大小和逆文档频率，根据词频和逆文档频率计算词汇的TF-IDF数值，基于TF-IDF数值，选取候选关键词集；

通过对所述候选关键词集进行过滤和重要性调整，获得关键词集；

所述获得关键词集的过程包括：

2.根据权利要求1所述的基于公路运输中问题诉求信息的热点提取和挖掘方法，其特征在于，所述对诉求信息进行预处理的过程包括：

将收集到的诉求信息进行去重处理；

3.根据权利要求1所述的基于公路运输中问题诉求信息的热点提取和挖掘方法，其特征在于，所述获得现有词话题数据集的过程包括：

通过Bert模型将现有词向量化，获得文本集合，将文本集合进行平均划分，预设初始聚类中心个数，并通过初始化的评价函数选择初始聚类中心，获得最初划分好的簇，对最初划分好的簇进行迭代计算，获得最终簇，通过文本聚类模型对最终簇进行聚类划分处理，获得现有词话题数据集。

4.根据权利要求1所述的基于公路运输中问题诉求信息的热点提取和挖掘方法，其特征在于，所述获得新词话题数据集的过程包括：

对候选高频词汇集进行置信度计算，获得高频词汇集；

基于高频词汇集，人工整合出新词话题数据集。

5.根据权利要求4所述的基于公路运输中问题诉求信息的热点提取和挖掘方法，其特征在于，所述计算词汇热度的方法为：

6.根据权利要求1所述的基于公路运输中问题诉求信息的热点提取和挖掘方法，其特征在于，对所述现有词话题数据集和所述新词话题数据集进行排序的方法包括：