CN112905741B - 一种考虑时空特征的供水用户关注点挖掘方法 - Google Patents

一种考虑时空特征的供水用户关注点挖掘方法 Download PDF

Info

Publication number
CN112905741B
CN112905741B CN202110183557.3A CN202110183557A CN112905741B CN 112905741 B CN112905741 B CN 112905741B CN 202110183557 A CN202110183557 A CN 202110183557A CN 112905741 B CN112905741 B CN 112905741B
Authority
CN
China
Prior art keywords
water
text data
word
user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110183557.3A
Other languages
English (en)
Other versions
CN112905741A (zh
Inventor
穆利
朱波
姜元春
吴铭
李�浩
王亚琦
钱洋
孔子涵
孙见山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Water Group Co ltd
Hefei University of Technology
Original Assignee
Hefei Water Group Co ltd
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Water Group Co ltd, Hefei University of Technology filed Critical Hefei Water Group Co ltd
Priority to CN202110183557.3A priority Critical patent/CN112905741B/zh
Publication of CN112905741A publication Critical patent/CN112905741A/zh
Application granted granted Critical
Publication of CN112905741B publication Critical patent/CN112905741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种考虑时空特征的供水用户关注点挖掘方法,其步骤包括:1.基于时间维度数据,构建T个带时间标签的用水文本数据;2.基于空间维度数据,构建K个带空间标签的用水文本数据;3.基于时间和空间维度数据,构建T×K个带时‑空标签的用水文本数据;4.对所述用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理,得到预处理后的用水文本数据;5.利用TF‑IDF在微观局部上挖掘出用户用水的关注点;6.利用主题模型在宏观整体上挖掘出用户用水的关注点。本发明能通过对用户反馈的用水文本数据进行挖掘,从而能快速且精确的得到用户对用水的关注点,并结合TF‑IDF和主题模型技术,在微观局部与宏观整体上实现结果的对比。

Description

一种考虑时空特征的供水用户关注点挖掘方法
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种考虑时空特征的供水用户关注点挖掘方法。
背景技术
随着自来水用户的不断增多,出现了各种各样的用水问题,用户对企业的反馈内容得到爆炸性的增长,反馈文本不仅数量巨大,而且是非结构化的,面对如此多和复杂的反馈文本,如何从中挖掘出供水用户的关注点成为一大难题。
近年来,文本分析技术已经得到了快速的发展,已经有不同的方法用来处理多而复杂的文本数据。其中TF-IDF和主题模型已经是较为成熟的技术。
发明内容
本发明为克服现有技术存在的不足之处,提供一种考虑时空特征的供水用户关注点挖掘方法,以期能通过对用户反馈的用水文本数据进行挖掘,从而能快速且精确的得到用户对用水的关注点,并结合TF-IDF和主题模型技术,在微观局部与宏观整体上实现结果的对比。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种考虑时空特征的供水用户关注点挖掘方法的特点是按如下步骤进行:
步骤1、基于时间维度数据,构建T个时间标签;
步骤1.1、获取客服热线数据,所述客服热线数据包括:时间维度数据、空间维度数据以及用户反馈的用水文本数据;
步骤1.2、获取所述客服热线数据中最大的时间跨度;
步骤1.3、将最大的时间跨度均分为T个时间段,从而形成T个时间标签,并将用户反馈的用水文本数据划分为T个带时间标签的用水文本数据;
步骤2、基于空间维度数据,构建K′个空间标签;
步骤2.1、抽取客服热线数据中用户的所在地址,并将用户的所在地址转换成经纬度信息;
步骤2.2、使用聚类算法对所述经纬度信息进行聚类,从而获得K′个空间标签,并将用户反馈的用水文本数据划分为K′个带空间标签的用水文本数据;
步骤3、构建时间-空间标签,并将用户反馈的用水文本数据划分为T×K′个带时-空标签的用水文本数据;
步骤4、对所述用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理,得到预处理后的文本数据;
步骤5、采用TF-IDF方法对预处理后的用水文本数据提取能表征内容的关键词,并选取前N个关键词作为微观上用户对用水的关注点,从而得到T个带时间标签的用水文本数据中所提取出的微观上用户对用水的关注点、K′个带空间标签的用水文本数据中所提取出的微观上用户对用水的关注点、以及T×K′个带时-空标签的用水文本数据中所提取出的微观上用户对用水的关注点;
步骤6、采用主题模型的方法对预处理后的用水文本数据进行主题分析;
步骤6.1、将所有预处理后的用水文本数据整合,并构建语料库;
假设所述语料库中有M条用水文本数据,则所述语料库中所有的词记为
Figure GDA0003501949250000021
其中,
Figure GDA0003501949250000022
表示第m条用水文本数据集合,并有,
Figure GDA0003501949250000023
Figure GDA0003501949250000024
表示第m条用水数据集合中第i个词,Nm表示第m条用水文本数据中的单词数量,m=1,2,…,M;
步骤6.2、计算语料库中用水文本数据的主题生成概率;
步骤6.2.1、利用式(1)得到第m条用水文本数据中的主题生成概率
Figure GDA0003501949250000025
Figure GDA0003501949250000026
式(1)中,
Figure GDA0003501949250000027
表示第m条用水文本数据中主题分布情况,且
Figure GDA0003501949250000028
Figure GDA0003501949250000029
表示第m条用水文本数据中第k个主题产生的词个数;α表示超参数,θm表示第m条用水文本数据的主题分布,且θm={θm1m2,...,θmk,...θmK},θmk表示第m条用水文本数据在第k个主题上的权重,
Figure GDA00035019492500000210
表示第m条用水文本数据
Figure GDA00035019492500000211
对应的主题,且
Figure GDA00035019492500000212
Figure GDA00035019492500000213
表示第m条用水文本数据中第i个词对应的主题编号,Δ为运算符,且对于任意K维的向量x,有:
Figure GDA00035019492500000214
xk表示K维向量的第k个分量,Γ(·)为伽马函数,且θm服从参数为α的狄利克雷分布,
Figure GDA00035019492500000215
服从参数为θm的多项式分布;
步骤6.2.2、利用式(2)得到所述语料库中所有主题的主题生成概率
Figure GDA00035019492500000216
Figure GDA00035019492500000217
式(2)中,
Figure GDA0003501949250000031
表示所述语料库中所有词对应的主题,且
Figure GDA0003501949250000032
步骤6.3、计算语料库中用水文本数据的词生成概率;
步骤6.3.1、利用式(3)得到第k个主题的词生成概率
Figure GDA0003501949250000033
Figure GDA0003501949250000034
式(3)中,
Figure GDA0003501949250000035
表示由第k个主题产生的词,
Figure GDA0003501949250000036
表示词
Figure GDA0003501949250000037
对应的主题,β是超参数,
Figure GDA0003501949250000038
表示语料库中主题k的词分布,且
Figure GDA0003501949250000039
Figure GDA00035019492500000310
表示第v个词在主题k下所有词中所占权重,V表示语料库中所有不重复词的总数;
Figure GDA00035019492500000311
服从参数为β的狄利克雷分布,
Figure GDA00035019492500000312
服从参数为
Figure GDA00035019492500000313
的多项式分布;
Figure GDA00035019492500000314
表示第k个主题下词的分布情况,且
Figure GDA00035019492500000315
Figure GDA00035019492500000316
表示第k个主题产生第v个词的个数;
步骤6.3.2、利用式(4)得到所述语料库中所有词的词生成概率
Figure GDA00035019492500000317
Figure GDA00035019492500000318
步骤6.4、利用式(5)计算语料库中用水文本数据的联合生成概率
Figure GDA00035019492500000319
Figure GDA00035019492500000320
步骤6.5、利用式(6)计算语料库中每个词更新后的主题
Figure GDA00035019492500000321
Figure GDA00035019492500000322
式(6)中,
Figure GDA00035019492500000323
表示排除第i个词后,第m条文本数据中第k个主题对应的单词数目,zi表示第i个词对应的主题,
Figure GDA00035019492500000324
表示排除第i个词后,其余单词对应的主题,∝表示正比于,
Figure GDA00035019492500000325
表示排除第i个词后,第k个主题生成的第v个词的数目;
步骤6.6、利用式(7)计算第k个主题的第v个词的权重
Figure GDA00035019492500000326
Figure GDA00035019492500000327
步骤6.7、利用式(8)计算第m条用水文本数据中第k个主题的权重θmk
Figure GDA0003501949250000041
步骤6.8、根据第k个主题的第v个词的权重
Figure GDA0003501949250000042
从第k个主题选取前N个词作为第k个主题的关键词,并作为宏观上用户对用水关注点。
与已有技术相比,本发明有益效果体现在:
1、本发明构建了时间的标签,将用户的用水反馈文本划分为不同时间下的子文档集合;在不同的时间下,用户对用水的关注点可能也不一样,即在考虑了时间的因素下,挖掘出用户对用水的关注点会更加精确。
2、本发明构建了空间的标签,将用户的用水反馈文本划分为不同空间下的子文档集合;在不同的空间下,用户对用水的关注点可能也不一样,即在考虑了空间的因素下,挖掘出用户对用水的关注点会更加精确。
3、本发明在使用TF-IDF挖掘用户对用水的关注点时,由于TF-IDF本身不能识别语义信息,因此本发明构建了自己的停用词表以及语义对齐操作,使得挖掘出用户对用水的关注点会更加精确。
4、本发明在挖掘用户对用水的关注点时,也使用了主题模型的方式,适合大规模的文档集合的处理,更加符合实际上的需求,并且其结果具有良好的可解释性。
附图说明
图1是建立不同标签的用户反馈文本内容流程图;
图2是处理客服数据的用户反馈文本内容流程图;
图3是计算TF-IDF流程图;
图4是主题模型的拓扑结构图;
图5是主题模型有向图概率图表示的示意图;
图6是建立反馈文本主题模型的模型生成过程图。
具体实施方式
本实施例中,一种考虑时空特征的供水用户关注点挖掘方法是按如下步骤进行:
步骤1、基于时间维度数据,构建T个时间标签;
步骤1.1、获取客服热线数据,客服热线数据包括:时间维度数据、空间维度数据以及用户反馈的用水文本数据;
步骤1.2、获取客服热线数据中最大的时间跨度;假设客服数据的最大时间跨度为2020年1月至2020年11月,则时间跨度为11个月。并以月为时间段进行划分。
步骤1.3、将最大的时间跨度均分为T个时间段,从而形成T个时间标签,并将用户反馈的用水文本数据划分为T个带时间标签的用水文本数据;
步骤2、基于空间维度数据,构建K′个空间标签;
步骤2.1、抽取客服热线数据中用户的所在地址,并将用户的所在地址转换成经纬度信息;本实施例中是通过调用高德地图API,将用户的所在地址转换成经纬度信息,包括以下步骤:
b1.依据客服中的用户地址数据,判断用户地址的类型;
b2.根据不同类型的地址,采取不同的方式对地址数据进行处理;
b3.将处理后的地址数据通过调用高德地图,得到经纬度信息;
在本实施例中,地址类型分为两种,一种是地址中带有“楼”字符,称为“楼”型地址。由于“楼”型地址后会带上“表”,“室”,“井”等字符。这种类型的地址是无法直接得到经纬度和所在地区,需要对它进行处理。注意到,这种类型的地址只需要“楼”之前的信息,因此只要在“楼”处截断即可。在这里调用了python中的strip().split(“楼”)[0]来实现上面的功能,不过这样做的话,会导致“楼”字都被去掉,因此要在结果后加上“楼”这个字符。另一种是地址中不含“楼”的字符串,这样的地址是可以直接得到经纬度和所在地区。
在本发明中,通过高德地图得到经纬度信息需要使用到网络爬虫技术和正则表达式的匹配技术。通过高德地图实现地址的转换要按以下步骤进行:
A.得到要转换的地址在高德地图上的URL;
B.对此URL发出请求;
C.对返回值进行text操作,使其变成字符串类型;
D.使用json.load对数据进行字典格式转换;
E.提取得到的数据;
在本实施例中,对地址进行批量转换成经纬度以及其所属的地区,需按以下步骤进行:
Step1:需要获取该地址在高德地图上的URL,观察高德地图的URL规律得知,只需要在URL的keywords里传入该地址即可。此时,需要使用python中的.format(“地址”)方法,至此,得到了该地址的URL。
Step2:对此URL发出请求,得到页面信息,对其进行text操作,使其变成字符串类型的数据。此时,需要使用python中的request.get(url).text的方法,至此得到了页面的信息,并将其变成了字符串类型的数据。
Step3:在Step2中得到的数据是以json形式返回的,所以要对text信息进行json的解析,将其变成子典类型,才可以进行索引和信息提取。此时,需要使用python中的json.loads()方法。
Step4:提取Step3中得到的数据,该数据在一个名为item的字典里,其中item[“location”]就是需要的经纬度信息。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符以及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑,从而实现字符串处理的便捷性和高效性。如表1所示为一个实施例的地址转换中用到的正则表达式及其功能:
表1正则表达式及其功能表
Figure GDA0003501949250000061
使用正则表达式,可以从逻辑匹配的结果中获取我们目标的数据形式,在地址转换中主要用到了正则表达式的以下操作功能:
1)匹配:“re.findall()”将搜索整个字符串,获得所有匹配的结果,返回的结果是列表的形式
2)替换:“re.sub(pattern,repl,string,count=0,flags=0)”repl替换掉string中被pattern匹配的字符,count表示最大替换次数,flags表示正则表达式的常量。
步骤2.2、使用聚类算法对经纬度信息进行聚类,从而获得K′个空间标签,并将用户反馈的用水文本数据划分为K′个带空间标签的用水文本数据;
本实施例中,基于所获得的经纬度信息,使用Pythonscikit-learn包中的DBSCAN聚类方法,获取K′个空间标签。
步骤3、构建时间-空间标签,并将用户反馈的用水文本数据划分为T×K′个带时-空标签的用水文本数据;如图1所示;
步骤4、对用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理,得到预处理后的用水文本数据;
本实施例中,对用户反馈的用水文本数据进行处理,如图2所示,包括以下步骤:
Step1:挑选一个标签下的用水文本数据;
Step2:构建停用词表;
Step3:进行语义对齐处理;
Step4:进行分词处理;
Step5:最终得到经过处理后的用水文本数据;
本实施例中,对用水文本数据进行去停用词处理。停用词表中的内容主要有中文、数字、特殊字符、标点符号等。在现有停用词表的基础上,根据实际的用水文本数据,采用词频统计及排序的方法,获取排序后上5%的词汇作为高频词,获取排序下5%的词汇作为低频词,对现有的停用词表进行修改,得到最终需要的停用词表。停用词表中的部分内容如表2所示:
表2部分停用词表
类型 部分内容
中文 户号,用户,一下,一次,事宜,不如,之一,再
数字 0,1,2,3,4,5,6,7,8,9
特殊字符 /,//,[,],=,>,<,
标点符号 ,。“”?!
在挖掘微观局部上的用户对用水关注点时,使用了TF-IDF的方法,但是TF-IDF有一个缺点,即TF-IDF在提取关键词的时候,是不能识别语义信息的。“停水”、“没水”虽然不相同,但是其表达的含义是相同的,如果直接进行关键词的提取,就会对结果造成比较大的影响。
本实施例中,对用水文本数据进行语义对齐处理,以此来保证结果的准确性和可靠性。部分语义对齐如表3所示。
表3:部分语义对齐表
Figure GDA0003501949250000081
本实施例中,使用正则表达式来进行用水文本数据的语义对齐操作。“停水”与“没水”的语义对齐操作可以使用python中的re.sub(“没水”,“停水”,要处理的文本)方法。
本实施例中,对用水文本数据进行分词处理。使用结巴分词的方法,目前结巴分词支持三种分词模式:
1)精确模式:试图将句子最精确地切开,适合文本分析。
2)全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
在本实施例中,对用水文本数据进行分词处理时,使用的是精确模式,与此同时调用Step2中构建的停用词表,去除停用词,提高分词的精确性。最终得到了处理之后的用水文本数据。
步骤5、采用TF-IDF方法对预处理后的用水文本数据提取能表征内容的关键词,并选取前N个关键词作为微观上用户对用水的关注点,从而得到T个带时间标签的用水文本数据中所提取出的微观上用户对用水的关注点、K′个带空间标签的用水文本数据中所提取出的微观上用户对用水的关注点、以及T×K′个带时-空标签的用水文本数据中所提取出的微观上用户对用水的关注点;
TF-IDF是一种用于信息检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
在本实施例中,为了挖掘出微观局部上用户对用水的关注点,对用水文本数据进行提取关键词的操作,使用TF-IDF方法,需要以下几个步骤,如图3所示:
Step1:选取某个标签下的用水文本数据,将其均匀的分成D个文档,构成语料库;
Step2:利用式(1)计算词i在文档j中出现的频率tfij
Figure GDA0003501949250000091
式(1)中,nij表示词i在文档j中出现的次数,分母∑inij表示文档j中所有词汇出现的次数之和。词频(TF)表示词条(关键字)在文档中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文档。
Step3:利用式(2)计算词i的逆向文件频率idfi
Figure GDA0003501949250000092
式(2)中,|D|表示语料库中的文档总数,|{j:ti∈dj}|表示包含词语ti的文档数量(即nij≠0时的文档数目)。如果该词不在语料库中,就会导致分母为0,因此一般情况下使用1+|{j:ti∈dj}|。
逆向文件频率(IDF):某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
Step4:利用式(3)计算词i在语料库中出现的权重tf-idfi
tf-idfi=tfij×idfi (3)
Step5:选取前N个词作为该用水文本数据的关键词,即用户对用水的关注点。
在本实施例中,对获取到的用水文本数据进行提取关键词的操作,利用TF-IDF的方法,在微观局部上提取表征用户对用水关注点的相关数据。如表4所示为TF-IDF方法提取的用水文本数据的部分关键词:
表4:TF-IDF方法获取的部分关键词表
Figure GDA0003501949250000101
步骤6、采用主题模型的方法对预处理后的用水文本数据进行主题分析;
对预处理后的用水文本数据进行主题分析的操作,可采用主题建模方法,图4是一个主题建模模型拓扑结构图,其中C1为文档层、C2为主题层、C3为单词层。使用主题建模的方法,需要以下步骤:
Step1.将所有的处理后的用水文本数据作为一个语料库;
Step2.对于语料库中的每一条用水文本,从其主题分布中抽样生成一个主题;
Step3.从Step2中被抽到的这个主题所对应的单词分布中随机抽取一个单词;
步骤6.1、将所有预处理后的用水文本数据整合,并构建语料库;
如图5所示的概率图模型,M表示语料库中的用水文本数目,则语料库中所有的词记为
Figure GDA0003501949250000102
其中,
Figure GDA0003501949250000103
表示第m条用水文本数据集合,并有,
Figure GDA0003501949250000104
Figure GDA0003501949250000105
表示第m条用水文本数据集合中第i个词,Nm表示第m条用水文本数据中的单词数量,m=1,2,…,M;K表示主题模型中的主题数;V表示整个语料库中不重复单词的数目;θm是一个M*K的矩阵,表示语料库中第m条用水文本数据的主题分布;
Figure GDA0003501949250000111
是一个K*V的矩阵,表示语料库中主题为k的单词的分布;α是每条用水文本数据的主题分布的参数,θm服从参数为α的狄利克雷分布;β是每个主题的词分布参数,其中
Figure GDA0003501949250000112
服从参数为β的狄利克雷分布。
步骤6.2、计算语料库中用水文本数据的主题生成概率;
如图6所示的是建立用水文本数据主题模型生成过程图,由此得知,该模型的生成过程有个物理过程。第一个物理过程α→θm→zm,n,这个过程表示生成第m条用水文本数据中第n个词的主题zm,n。对于语料库中的第m条用水文本数据,利用狄利克雷分布生成第m条用水文本中的主题分布θm,然后在主题分布中生成用水文本数据中第个n词的主题zm,n
由第一个物理过程可以知道,
Figure GDA0003501949250000113
表示生成第m条用水文本数据中所有词的主题,由于α→θm是一个狄利克雷分布,
Figure GDA0003501949250000114
是一个多项式分布,所以整体形成了一个狄利克雷多项式共轭结构。由此计算出第m条用水文本数据中的主题生成概率。
步骤6.2.1、利用式(1)得到第m条用水文本数据中的主题生成概率
Figure GDA0003501949250000115
Figure GDA0003501949250000116
式(1)中,
Figure GDA0003501949250000117
表示第m条用水文本数据中主题分布情况,且
Figure GDA0003501949250000118
Figure GDA0003501949250000119
表示第m条用水文本数据中第k个主题产生的词个数;α表示超参数,θm表示第m条用水文本数据的主题分布,且θm={θm1m2,...,θmk,...θmK},θmk表示第m条用水文本数据在第k个主题上的权重,
Figure GDA00035019492500001110
表示第m条用水文本数据
Figure GDA00035019492500001111
对应的主题,且
Figure GDA00035019492500001112
Figure GDA00035019492500001113
表示第m条用水文本数据中第i个词对应的主题编号,Δ为运算符,且对于任意K维的向量x,有:
Figure GDA00035019492500001114
xk表示K维向量的第k个分量,Γ(·)为伽马函数,且θm服从参数为α的狄利克雷分布,
Figure GDA00035019492500001115
服从参数为θm的多项式分布;
因为语料库中M条用水文本数据的主题生成过程是相互独立的,所以可以得到M个相互独立的狄利克雷多项式共轭结构,由此计算出语料库中所有主题的主题生成概率。
步骤6.2.2、利用式(2)得到语料库中所有主题的主题生成概率
Figure GDA0003501949250000121
Figure GDA0003501949250000122
式(2)中,
Figure GDA0003501949250000123
表示语料库中所有词对应的主题,且
Figure GDA0003501949250000124
本实施例中,如图6所示的是建立用水文本数据主题模型生成过程图,由此得知,该模型的生成过程有个物理过程。第二个物理过程
Figure GDA0003501949250000125
这个过程表示了用户生成第m条用水文本中第n个词wm,n。对于第m条用水文本数据中第n个词wm,n的主题zm,n,利用狄利克雷分布生成其词分布
Figure GDA0003501949250000126
然后在词分布中抽样生成wm,n
由第二个物理过程可以知道,
Figure GDA0003501949250000127
表示生成语料库中第k个主题下的所有词,由于
Figure GDA0003501949250000128
是一个狄利克雷分布,
Figure GDA0003501949250000129
是一个多项式分布,所以整体形成了一个狄利克雷多项式共轭结构。由此计算出语料库中第k个主题的词生成概率。
步骤6.3、计算语料库中用水文本数据的词生成概率;
步骤6.3.1、利用式(3)得到第k个主题的词生成概率
Figure GDA00035019492500001210
Figure GDA00035019492500001211
式(3)中,
Figure GDA00035019492500001212
表示由第k个主题产生的词,
Figure GDA00035019492500001213
表示词
Figure GDA00035019492500001214
对应的主题,β是超参数,
Figure GDA00035019492500001215
表示语料库中主题k的词分布,且
Figure GDA00035019492500001216
Figure GDA00035019492500001217
表示第v个词在主题k下所有词中所占权重,V表示语料库中所有不重复词的总数;
Figure GDA00035019492500001218
服从参数为β的狄利克雷分布,
Figure GDA00035019492500001219
服从参数为
Figure GDA00035019492500001220
的多项式分布;
Figure GDA00035019492500001221
表示第k个主题下词的分布情况,且
Figure GDA00035019492500001222
Figure GDA00035019492500001223
表示第k个主题产生第v个词的个数;
因为语料库中K个主题生成词的过程是相互独立的,所以可以得到K个相互独立的狄利克雷多项式共轭结构,由此计算出语料库中所有主题的主题生成概率。
步骤6.3.2、利用式(4)得到语料库中所有词的词生成概率
Figure GDA00035019492500001224
Figure GDA0003501949250000131
步骤6.4、利用式(5)计算语料库中用水文本数据的联合生成概率
Figure GDA0003501949250000132
Figure GDA0003501949250000133
步骤6.5、利用式(6)计算语料库中每个词更新后的主题
Figure GDA0003501949250000134
Figure GDA0003501949250000135
式(6)中,
Figure GDA0003501949250000136
表示排除第i个词后,第m条用水文本数据中第k个主题对应的单词数目,zi表示第i个词对应的主题,
Figure GDA0003501949250000137
表示排除第i个词后,其余单词对应的主题,∝表示正比于,
Figure GDA0003501949250000138
表示排除第i个词后,第k个主题生成的第v个词的数目;
步骤6.6、利用式(7)计算第k个主题的第v个词的权重
Figure GDA0003501949250000139
Figure GDA00035019492500001310
步骤6.7、利用式(8)计算第m条用水文本数据中第k个主题的权重θmk
Figure GDA00035019492500001311
步骤6.8、根据第k个主题的第v个词的权重
Figure GDA00035019492500001312
从第k个主题选取前N个词作为第k个主题的关键词,并作为宏观上用户对用水的关注点。
在本实施例中,对获取到的用水文本数据进行主题分析的操作,利用主题分析的方法,在宏观整体上提取表征用户对用水关注点的相关数据。如表5所示为主题分析方法提取的用水文本数据的部分主题词汇:
表5:主题分析方法获取的主题词汇
主题 主题词汇
Topic1 咨询、过户、短信、缴费、变更、水价、订阅、微信、退订、水费
Topic2 核实、水表、供水、告知、来电、物业、工作人员、回复、小区、水量
Topic3 漏水、水表、阀门、水管、管道、后阀、关不住、自转、协助、检查
Topic4 止数、欠费、水价、抄表、时间、金额、水费、水量、周期、缴费
Topic7 水小、水压、水量、水黄、检查、解释、水质、发现、建议、后阀
Topic8 停水、恢复、水箱、清洗、抢修、供水、咨询、维修、小区、二次
Topic9 查询、水费、信息、户名、核实、未查、不符、出户、地址、挂断
根据其中所示的词汇,体现了用户对用水的关注点所在,由此企业也就得知了用户的日常需求,能更针对性、高效的做好解决措施。

Claims (1)

1.一种考虑时空特征的供水用户关注点挖掘方法,其特征是按如下步骤进行:
步骤1、基于时间维度数据,构建T个时间标签;
步骤1.1、获取客服热线数据,所述客服热线数据包括:时间维度数据、空间维度数据以及用户反馈的用水文本数据;
步骤1.2、获取所述客服热线数据中最大的时间跨度;
步骤1.3、将最大的时间跨度均分为T个时间段,从而形成T个时间标签,并将用户反馈的用水文本数据划分为T个带时间标签的用水文本数据;
步骤2、基于空间维度数据,构建K′个空间标签;
步骤2.1、抽取客服热线数据中用户的所在地址,并将用户的所在地址转换成经纬度信息;
步骤2.2、使用聚类算法对所述经纬度信息进行聚类,从而获得K′个空间标签,并将用户反馈的用水文本数据划分为K′个带空间标签的用水文本数据;
步骤3、构建时间-空间标签,并将用户反馈的用水文本数据划分为T×K′个带时-空标签的用水文本数据;
步骤4、对所述用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理,得到预处理后的文本数据;
步骤5、采用TF-IDF方法对预处理后的用水文本数据提取能表征内容的关键词,并选取前N个关键词作为微观上用户对用水的关注点,从而得到T个带时间标签的用水文本数据中所提取出的微观上用户对用水的关注点、K′个带空间标签的用水文本数据中所提取出的微观上用户对用水的关注点、以及T×K′个带时-空标签的用水文本数据中所提取出的微观上用户对用水的关注点;
步骤6、采用主题模型的方法对预处理后的用水文本数据进行主题分析;
步骤6.1、将所有预处理后的用水文本数据整合,并构建语料库;
假设所述语料库中有M条用水文本数据,则所述语料库中所有的词记为
Figure FDA0003501949240000011
其中,
Figure FDA0003501949240000012
表示第m条用水文本数据集合,并有,
Figure FDA0003501949240000013
Figure FDA0003501949240000014
表示第m条用水数据集合中第i个词,Nm表示第m条用水文本数据中的单词数量,m=1,2,…,M;
步骤6.2、计算语料库中用水文本数据的主题生成概率;
步骤6.2.1、利用式(1)得到第m条用水文本数据中的主题生成概率
Figure FDA0003501949240000015
Figure FDA0003501949240000016
式(1)中,
Figure FDA0003501949240000021
表示第m条用水文本数据中主题分布情况,且
Figure FDA0003501949240000022
Figure FDA0003501949240000023
表示第m条用水文本数据中第k个主题产生的词个数;α表示超参数,θm表示第m条用水文本数据的主题分布,且θm={θm1m2,...,θmk,...θmK},θmk表示第m条用水文本数据在第k个主题上的权重,
Figure FDA0003501949240000024
表示第m条用水文本数据
Figure FDA0003501949240000025
对应的主题,且
Figure FDA0003501949240000026
Figure FDA0003501949240000027
表示第m条用水文本数据中第i个词对应的主题编号,Δ为运算符,且对于任意K维的向量x,有:
Figure FDA0003501949240000028
xk表示K维向量的第k个分量,Γ(·)为伽马函数,且θm服从参数为α的狄利克雷分布,
Figure FDA0003501949240000029
服从参数为θm的多项式分布;
步骤6.2.2、利用式(2)得到所述语料库中所有主题的主题生成概率
Figure FDA00035019492400000210
Figure FDA00035019492400000211
式(2)中,
Figure FDA00035019492400000212
表示所述语料库中所有词对应的主题,且
Figure FDA00035019492400000213
步骤6.3、计算语料库中用水文本数据的词生成概率;
步骤6.3.1、利用式(3)得到第k个主题的词生成概率
Figure FDA00035019492400000214
Figure FDA00035019492400000215
式(3)中,
Figure FDA00035019492400000216
表示由第k个主题产生的词,
Figure FDA00035019492400000217
表示词
Figure FDA00035019492400000218
对应的主题,β是超参数,
Figure FDA00035019492400000219
表示语料库中主题k的词分布,且
Figure FDA00035019492400000220
Figure FDA00035019492400000221
表示第v个词在主题k下所有词中所占权重,V表示语料库中所有不重复词的总数;
Figure FDA00035019492400000222
服从参数为β的狄利克雷分布,
Figure FDA00035019492400000223
服从参数为
Figure FDA00035019492400000224
的多项式分布;
Figure FDA00035019492400000225
表示第k个主题下词的分布情况,且
Figure FDA00035019492400000226
Figure FDA00035019492400000227
表示第k个主题产生第v个词的个数;
步骤6.3.2、利用式(4)得到所述语料库中所有词的词生成概率
Figure FDA00035019492400000228
Figure FDA00035019492400000229
步骤6.4、利用式(5)计算语料库中用水文本数据的联合生成概率
Figure FDA00035019492400000230
Figure FDA0003501949240000031
步骤6.5、利用式(6)计算语料库中每个词更新后的主题
Figure FDA0003501949240000032
Figure FDA0003501949240000033
式(6)中,
Figure FDA0003501949240000034
表示排除第i个词后,第m条文本数据中第k个主题对应的单词数目,zi表示第i个词对应的主题,
Figure FDA0003501949240000035
表示排除第i个词后,其余单词对应的主题,∝表示正比于,
Figure FDA0003501949240000036
表示排除第i个词后,第k个主题生成的第v个词的数目;
步骤6.6、利用式(7)计算第k个主题的第v个词的权重
Figure FDA0003501949240000037
Figure FDA0003501949240000038
步骤6.7、利用式(8)计算第m条用水文本数据中第k个主题的权重θmk
Figure FDA0003501949240000039
步骤6.8、根据第k个主题的第v个词的权重
Figure FDA00035019492400000310
从第k个主题选取前N个词作为第k个主题的关键词,并作为宏观上用户对用水关注点。
CN202110183557.3A 2021-02-08 2021-02-08 一种考虑时空特征的供水用户关注点挖掘方法 Active CN112905741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110183557.3A CN112905741B (zh) 2021-02-08 2021-02-08 一种考虑时空特征的供水用户关注点挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110183557.3A CN112905741B (zh) 2021-02-08 2021-02-08 一种考虑时空特征的供水用户关注点挖掘方法

Publications (2)

Publication Number Publication Date
CN112905741A CN112905741A (zh) 2021-06-04
CN112905741B true CN112905741B (zh) 2022-04-12

Family

ID=76123493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110183557.3A Active CN112905741B (zh) 2021-02-08 2021-02-08 一种考虑时空特征的供水用户关注点挖掘方法

Country Status (1)

Country Link
CN (1) CN112905741B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135242B1 (en) * 2011-10-10 2015-09-15 The University Of North Carolina At Charlotte Methods and systems for the analysis of large text corpora
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
US10007406B1 (en) * 2014-11-24 2018-06-26 Evernote Corporation Adaptive writing interface

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041953A1 (en) * 2010-08-16 2012-02-16 Microsoft Corporation Text mining of microblogs using latent topic labels
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
US10558657B1 (en) * 2016-09-19 2020-02-11 Amazon Technologies, Inc. Document content analysis based on topic modeling
CN108959550B (zh) * 2018-06-29 2022-03-25 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
US11379668B2 (en) * 2018-07-12 2022-07-05 Samsung Electronics Co., Ltd. Topic models with sentiment priors based on distributed representations
CN109933657B (zh) * 2019-03-21 2021-07-09 中山大学 一种基于用户特征优化的主题挖掘情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135242B1 (en) * 2011-10-10 2015-09-15 The University Of North Carolina At Charlotte Methods and systems for the analysis of large text corpora
US10007406B1 (en) * 2014-11-24 2018-06-26 Evernote Corporation Adaptive writing interface
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统

Also Published As

Publication number Publication date
CN112905741A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN109857990B (zh) 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN109684440B (zh) 基于层级标注的地址相似度度量方法
Jung Semantic vector learning for natural language understanding
Comber et al. Machine learning innovations in address matching: A practical comparison of word2vec and CRFs
US7672833B2 (en) Method and apparatus for automatic entity disambiguation
CN101404037B (zh) 一种检测及定位电子文本内容剽窃的方法
CN103150405B (zh) 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN106547875B (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN102955833A (zh) 一种通讯地址识别、标准化的方法
CN112016294B (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
Jian et al. [Retracted] LSTM‐Based Attentional Embedding for English Machine Translation
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
Song et al. Improving neural named entity recognition with gazetteers
US11675839B2 (en) Data processing in enterprise application
Zhang Applications of deep learning in news text classification
Qiu et al. ChineseTR: A weakly supervised toponym recognition architecture based on automatic training data generator and deep neural network
CN106202039B (zh) 基于条件随机场的越南语组合词消歧方法
Liang et al. Out-domain Chinese new word detection with statistics-based character embedding
CN111738008B (zh) 基于多层模型的实体识别方法、装置、设备及存储介质
Guo et al. Web table column type detection using deep learning and probability graph model
CN112905741B (zh) 一种考虑时空特征的供水用户关注点挖掘方法
Jiang et al. Research and implementation of intelligent chinese resume parsing
Ismail et al. Using custom fuzzy thesaurus to incorporate semantic and reduce data sparsity for twitter sentiment analysis
Sarwar et al. Machine learning based intelligent framework for data preprocessing.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant