CN112560445A

CN112560445A - 一种市长热线热点诉求话题检测方法和装置

Info

Publication number: CN112560445A
Application number: CN202011405266.6A
Authority: CN
Inventors: 杨勇; 洪学海
Original assignee: Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Current assignee: Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Priority date: 2020-12-05
Filing date: 2020-12-05
Publication date: 2021-03-26

Abstract

本申请实施例公开了一种市长热线热点诉求话题检测方法和装置，其中方法包括步骤：通过正则校验去除文本中的非中文字符，然后对文本进行分词；对诉求进行话题聚类，检测出诉求中的热点话题；挖掘所有诉求话题热词，并定期更新话题热词；计算话题的热度值，并定期更新话题的热度值。本申请实施例提供的方法和装置实现了自动检测市长热线中热度诉求话题，通过定时计算话题的热度值，实现了话题的后续追踪。

Description

一种市长热线热点诉求话题检测方法和装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种市长热线热点诉求话题检测方法和装置。

背景技术

随着互联网技术的高速发展，市长热线作为建立在群众一线的政府机构，是联结政府和人民群众的重要纽带。但是，随着市长热线的广泛运用，每天都有成千上万的诉求需要处理，目前，都是通过人工筛选过滤的模式对诉求进行处理,这种方法显然难以在短时间内收集当前的热点诉求。如何在政务大数据支撑下，利用政务大数据和人工智能技术，建立政务大数据集,并从数据集中挖掘诉求中热点诉求，并追踪诉求的后续发展，从而提高政府决策的前瞻性。目前市长热线主要存在以下几个方面的问题。第一，采用人工方式处理系统中的诉求，效率低。第二，不能实现对诉求话题的关注和后续追踪。

发明内容

本申请的目的在于提供一种市长热线热点诉求话题检测方法和装置，该方法实现了自动检测市长热线中热度诉求话题，通过定时计算话题的热度值，实现了话题的后续追踪。

第一方面，本申请实施例提供的一种市长热线热点诉求话题检测方法，包括步骤：通过正则校验去除文本中的非中文字符，然后对文本进行分词；对诉求进行话题聚类，检测出诉求中的热点话题；挖掘所有诉求话题热词，并定期更新话题热词；计算话题的热度值，并定期更新话题的热度值，实现对诉求话题的追踪。

一个可选的实施例中，所述通过正则校验去除文本中的非中文字符，然后对文本进行分词包括：通过正则表达式去除诉求文本数据中的非中文字符，包括但不限于：标点符号，表情符、数字、英文；通过“结巴”分词工具对文本数据分词，在分词的过程中需要构建停用词表和自定义字典，停用词表去除诉求文本数据中一些无意义的词。

一个可选的实施例中，通过潜在狄利克雷分布模型对诉求进行话题聚类,具体包括：从狄利克雷分布α中取样生成诉求文档i的主题分布θ(i)，通过α得到文档i的主题分布；从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j)，从主题分布中得到词的主题；从狄利克雷分布β中取样生成主题 z(i,j)的词语分布φ_z(i,j)得到所述主题的词分布；从词语的多项式分布φ_z(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。

一个可选的实施例中，通过TF-IDF算法挖掘所有诉求话题热词，并按照所述热词的权重，选出权重最高的50个热词作为诉求的热词，并保存所述热词的权重，通过词云的方式展示。

一个可选的实施例中，通过如下公式计算话题的热度值：

其中，hot_init表示话题的初始热度，α*(n-1)表示话题诉求数量部分，其中α诉求数量影响因子，n话题中诉求的数量，

表示热度随时间衰减，δ表示时间控制因子，t₁表示当前时间，t₀表示事件产生时间，单位为小时。

第二方面，本申请实施例还公开了一种装置，包括：

分词单元，用于通过正则校验去除文本中的非中文字符，然后对文本进行分词；

聚类单元，用于对诉求进行话题聚类，检测出诉求中的热点话题；

热词单元，用于挖掘所有诉求话题热词，并定期更新话题热词；

热度计算单元，用于计算话题的热度值，并定期更新话题的热度值。

一个可选的实施例中，所述分词单元具体地通过正则表达式去除诉求文本数据中的非中文字符，包括但不限于：标点符号，表情符、数字、英文；通过“结巴”分词工具对文本数据分词，在分词的过程中需要构建停用词表和自定义字典，停用词表去除诉求文本数据中一些无意义的词。

一个可选的实施例中，所述聚类单元通过潜在狄利克雷分布模型对诉求进行话题聚类,具体包括：从狄利克雷分布α中取样生成诉求文档i的主题分布θ(i)，通过α得到文档i的主题分布；从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j)，从主题分布中得到词的主题；从狄利克雷分布β中取样生成主题z(i,j)的词语分布φ_z(i,j)得到所述主题的词分布；从词语的多项式分布φ_z(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。

一个可选的实施例中，所述热度计算单元通过如下公式计算话题的热度值：

第三方面，本申请实施例还提供了一种电子装置，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述装置执行如第一方面中任一项所述的方法。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以用这些附图获得其他的附图。

图1是本申请实施例提供的一种市长热线热点诉求话题检测方法流程图；

图2是LDA模型的结构图；

图3是市长热线热点诉求话题；

图4是市长热线诉求热词；

图5是本申请实施例提供的一种市长热线热点诉求话题检测装置示意图；

图6是本申请实施例提供的一种电子设备硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的识别证件的方法一种自动的市长热线热点诉求话题检测方法，实现了自动检测热点诉求话题，和诉求话题的后续追踪。首先，通过自然语言处理技术对数据进行预处理和对诉求进行话题聚类，自动检测海量诉求中的热点诉求话题。其次，计算出诉求话题的热度值，实现对诉求话题的追踪。

如图1所示，图1是本申请实施例提供的一种市长热线热点诉求话题检测方法流程图，包括以下步骤：

步骤101：通过正则校验去除文本中的非中文字符，然后对文本进行分词。

本步骤中，通过正则表达式去除诉求文本数据中的非中文字符，包括但不限于：标点符号，表情符、数字、英文。接着，通过“结巴”分词工具对文本数据分词，在分词的过程中需要构建停用词表和自定义字典，停用词表去除诉求文本数据中一些无意义的词。

步骤102：对诉求进行话题聚类，检测出诉求中的热点话题。

本步骤中,以通过潜在狄利克雷分布模型对诉求进行话题聚类为例说明。 LDA模型的结构图如图2所示，其中，K表示主体个数，N表示文档中词的个数， M表示文档个数，α表示文档的先验超参数，β表示词的先验超参数，

表示主题k的词分布，θ(i)表示文档i的主题分布，第i个文档j个词的主题，w(i,j) 表示在第i个文档中j个词的分布。从狄利克雷分布α中取样生成诉求文档i 的主题分布θ(i)，通过α得到文档i的主题分布；从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j)，从主题分布中得到词的主题；从狄利克雷分布β中取样生成主题z(i,j)的词语分布φ_z(i,j)得到所述主题的词分布；从词语的多项式分布φ_z(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。

步骤103：挖掘所有诉求话题热词，并定期更新话题热词。

本步骤中，通过TF-IDF算法挖掘所有诉求话题热词，并按照所述热词的权重，选出权重最高的50个热词作为诉求的热词，并保存所述热词的权重，通过词云的方式展示。TF-IDF(Term Frequency-inverse Document Frequency)是一种针对关键词的统计分析方法，用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比，跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响，提高了关键词与文章之间的相关性。

步骤104：计算话题的热度值，并定期更新话题的热度值，实现对诉求话题的追踪。

本步骤中，通过如下公式计算话题的热度值：

本申请提供的方法应用在某地市长热线，图3是该市热点诉求话题，行政服务人员可以通过该列表观察当前的市民热点诉求话题。图4是该市诉求热词，行政服务人员可以通过了解市民的热点诉求关键词。实践表明，通过自动的市长热线热点诉求话题检测方法，帮助行政服务人员在海量的实名诉求中自动挖掘诉求中热点诉求，并追踪诉求的后续发展，从而提高政府决策的前瞻性,提高政府决策效率，提升政府社会治理能力。

如图5所示，本申请实施例还公开了一种用于市长热线热点诉求话题检测的装置，该装置包括：

分词单元501，用于通过正则校验去除文本中的非中文字符，然后对文本进行分词。

聚类单元502，用于对诉求进行话题聚类，检测出诉求中的热点话题。

热词单元503，用于挖掘所有诉求话题热词，并定期更新话题热词。

热度计算单元504，用于计算话题的热度值，并定期更新话题的热度值。

具体地，分词单元501通过正则表达式去除诉求文本数据中的非中文字符，包括但不限于：标点符号，表情符、数字、英文；通过“结巴”分词工具对文本数据分词，在分词的过程中需要构建停用词表和自定义字典，停用词表去除诉求文本数据中一些无意义的词。

具体地，聚类单元502通过潜在狄利克雷分布模型对诉求进行话题聚类,具体包括：从狄利克雷分布α中取样生成诉求文档i的主题分布θ(i)，通过α得到文档i的主题分布；从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j)，从主题分布中得到词的主题；从狄利克雷分布β中取样生成主题 z(i,j)的词语分布φ_z(i,j)得到所述主题的词分布；从词语的多项式分布φ_z(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。

具体地，热词单元503通过TF-IDF算法挖掘所有诉求话题热词，并按照所述热词的权重，选出权重最高的50个热词作为诉求的热词，并保存所述热词的权重，通过词云的方式展示。

具体地，热度计算单元504通过如下公式计算话题的热度值：

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器610、存储器620、输入/输出接口630、通信接口640和总线650。其中处理器610、存储器620、输入/输出接口630和通信接口640通过总线650实现彼此之间在设备内部的通信连接。

处理器610可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit， ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。存储器620可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器620可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器620中，并由处理器610来调用执行。

输入/输出接口630用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口640用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线650包括一通路，在设备的各个组件(例如处理器610、存储器620、输入/输出接口630和通信接口640)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器610、存储器620、输入/输出接口630、通信接口640以及总线650，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种市长热线热点诉求话题检测方法，其特征在于，包括：

通过正则校验去除文本中的非中文字符，然后对文本进行分词；

对诉求进行话题聚类，检测出诉求中的热点话题；

挖掘所有诉求话题热词，并定期更新话题热词；

计算话题的热度值，并定期更新话题的热度值。

2.根据权利要求1所述的方法，其特征在于，所述通过正则校验去除文本中的非中文字符，然后对文本进行分词包括：

通过正则表达式去除诉求文本数据中的非中文字符，包括但不限于：标点符号，表情符、数字、英文；

通过“结巴”分词工具对文本数据分词，在分词的过程中需要构建停用词表和自定义字典，停用词表去除诉求文本数据中一些无意义的词。

3.根据权利要求1所述的方法，其特征在于，通过潜在狄利克雷分布模型对诉求进行话题聚类,具体包括：

从狄利克雷分布α中取样生成诉求文档i的主题分布θ(i)，通过α得到文档i的主题分布；

从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j)，从主题分布中得到词的主题；

从狄利克雷分布β中取样生成主题z(i,j)的词语分布φ_z(i,j)得到所述主题的词分布；

从词语的多项式分布φ_z(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。

4.根据权利要求1所述的方法，其特征在于，通过TF-IDF算法挖掘所有诉求话题热词，并按照所述热词的权重，选出权重最高的50个热词作为诉求的热词，并保存所述热词的权重，通过词云的方式展示。

5.根据权利要求1-4任一项所述的方法，其特征在于，通过如下公式计算话题的热度值：

6.一种装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述分词单元具体地通过正则表达式去除诉求文本数据中的非中文字符，包括但不限于：标点符号，表情符、数字、英文；通过“结巴”分词工具对文本数据分词，在分词的过程中需要构建停用词表和自定义字典，停用词表去除诉求文本数据中一些无意义的词。

8.根据权利要求6所述的装置，其特征在于，所述聚类单元通过潜在狄利克雷分布模型对诉求进行话题聚类,具体包括：

9.根据权利要求6-8任一项所述的装置，其特征在于，所述热度计算单元通过如下公式计算话题的热度值：

10.一种电子装置，其特征在于，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述装置执行如权利要求1-5中任一项所述的市长热线热点诉求话题检测方法。