CN112905741B - 一种考虑时空特征的供水用户关注点挖掘方法 - Google Patents
一种考虑时空特征的供水用户关注点挖掘方法 Download PDFInfo
- Publication number
- CN112905741B CN112905741B CN202110183557.3A CN202110183557A CN112905741B CN 112905741 B CN112905741 B CN 112905741B CN 202110183557 A CN202110183557 A CN 202110183557A CN 112905741 B CN112905741 B CN 112905741B
- Authority
- CN
- China
- Prior art keywords
- water
- text data
- word
- user
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 184
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000005065 mining Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims description 41
- 230000014509 gene expression Effects 0.000 claims description 13
- 239000011541 reaction mixture Substances 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 244000273256 Phragmites communis Species 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000008399 tap water Substances 0.000 description 1
- 235000020679 tap water Nutrition 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种考虑时空特征的供水用户关注点挖掘方法,其步骤包括:1.基于时间维度数据,构建T个带时间标签的用水文本数据;2.基于空间维度数据,构建K个带空间标签的用水文本数据;3.基于时间和空间维度数据,构建T×K个带时‑空标签的用水文本数据;4.对所述用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理,得到预处理后的用水文本数据;5.利用TF‑IDF在微观局部上挖掘出用户用水的关注点;6.利用主题模型在宏观整体上挖掘出用户用水的关注点。本发明能通过对用户反馈的用水文本数据进行挖掘,从而能快速且精确的得到用户对用水的关注点,并结合TF‑IDF和主题模型技术,在微观局部与宏观整体上实现结果的对比。
Description
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种考虑时空特征的供水用户关注点挖掘方法。
背景技术
随着自来水用户的不断增多,出现了各种各样的用水问题,用户对企业的反馈内容得到爆炸性的增长,反馈文本不仅数量巨大,而且是非结构化的,面对如此多和复杂的反馈文本,如何从中挖掘出供水用户的关注点成为一大难题。
近年来,文本分析技术已经得到了快速的发展,已经有不同的方法用来处理多而复杂的文本数据。其中TF-IDF和主题模型已经是较为成熟的技术。
发明内容
本发明为克服现有技术存在的不足之处,提供一种考虑时空特征的供水用户关注点挖掘方法,以期能通过对用户反馈的用水文本数据进行挖掘,从而能快速且精确的得到用户对用水的关注点,并结合TF-IDF和主题模型技术,在微观局部与宏观整体上实现结果的对比。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种考虑时空特征的供水用户关注点挖掘方法的特点是按如下步骤进行:
步骤1、基于时间维度数据,构建T个时间标签;
步骤1.1、获取客服热线数据,所述客服热线数据包括:时间维度数据、空间维度数据以及用户反馈的用水文本数据;
步骤1.2、获取所述客服热线数据中最大的时间跨度;
步骤1.3、将最大的时间跨度均分为T个时间段,从而形成T个时间标签,并将用户反馈的用水文本数据划分为T个带时间标签的用水文本数据;
步骤2、基于空间维度数据,构建K′个空间标签;
步骤2.1、抽取客服热线数据中用户的所在地址,并将用户的所在地址转换成经纬度信息;
步骤2.2、使用聚类算法对所述经纬度信息进行聚类,从而获得K′个空间标签,并将用户反馈的用水文本数据划分为K′个带空间标签的用水文本数据;
步骤3、构建时间-空间标签,并将用户反馈的用水文本数据划分为T×K′个带时-空标签的用水文本数据;
步骤4、对所述用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理,得到预处理后的文本数据;
步骤5、采用TF-IDF方法对预处理后的用水文本数据提取能表征内容的关键词,并选取前N个关键词作为微观上用户对用水的关注点,从而得到T个带时间标签的用水文本数据中所提取出的微观上用户对用水的关注点、K′个带空间标签的用水文本数据中所提取出的微观上用户对用水的关注点、以及T×K′个带时-空标签的用水文本数据中所提取出的微观上用户对用水的关注点;
步骤6、采用主题模型的方法对预处理后的用水文本数据进行主题分析;
步骤6.1、将所有预处理后的用水文本数据整合,并构建语料库;
步骤6.2、计算语料库中用水文本数据的主题生成概率;
式(1)中,表示第m条用水文本数据中主题分布情况,且 表示第m条用水文本数据中第k个主题产生的词个数;α表示超参数,θm表示第m条用水文本数据的主题分布,且θm={θm1,θm2,...,θmk,...θmK},θmk表示第m条用水文本数据在第k个主题上的权重,表示第m条用水文本数据对应的主题,且 表示第m条用水文本数据中第i个词对应的主题编号,Δ为运算符,且对于任意K维的向量x,有:xk表示K维向量的第k个分量,Γ(·)为伽马函数,且θm服从参数为α的狄利克雷分布,服从参数为θm的多项式分布;
步骤6.3、计算语料库中用水文本数据的词生成概率;
式(3)中,表示由第k个主题产生的词,表示词对应的主题,β是超参数,表示语料库中主题k的词分布,且 表示第v个词在主题k下所有词中所占权重,V表示语料库中所有不重复词的总数;服从参数为β的狄利克雷分布,服从参数为的多项式分布;表示第k个主题下词的分布情况,且 表示第k个主题产生第v个词的个数;
式(6)中,表示排除第i个词后,第m条文本数据中第k个主题对应的单词数目,zi表示第i个词对应的主题,表示排除第i个词后,其余单词对应的主题,∝表示正比于,表示排除第i个词后,第k个主题生成的第v个词的数目;
步骤6.7、利用式(8)计算第m条用水文本数据中第k个主题的权重θmk:
与已有技术相比,本发明有益效果体现在:
1、本发明构建了时间的标签,将用户的用水反馈文本划分为不同时间下的子文档集合;在不同的时间下,用户对用水的关注点可能也不一样,即在考虑了时间的因素下,挖掘出用户对用水的关注点会更加精确。
2、本发明构建了空间的标签,将用户的用水反馈文本划分为不同空间下的子文档集合;在不同的空间下,用户对用水的关注点可能也不一样,即在考虑了空间的因素下,挖掘出用户对用水的关注点会更加精确。
3、本发明在使用TF-IDF挖掘用户对用水的关注点时,由于TF-IDF本身不能识别语义信息,因此本发明构建了自己的停用词表以及语义对齐操作,使得挖掘出用户对用水的关注点会更加精确。
4、本发明在挖掘用户对用水的关注点时,也使用了主题模型的方式,适合大规模的文档集合的处理,更加符合实际上的需求,并且其结果具有良好的可解释性。
附图说明
图1是建立不同标签的用户反馈文本内容流程图;
图2是处理客服数据的用户反馈文本内容流程图;
图3是计算TF-IDF流程图;
图4是主题模型的拓扑结构图;
图5是主题模型有向图概率图表示的示意图;
图6是建立反馈文本主题模型的模型生成过程图。
具体实施方式
本实施例中,一种考虑时空特征的供水用户关注点挖掘方法是按如下步骤进行:
步骤1、基于时间维度数据,构建T个时间标签;
步骤1.1、获取客服热线数据,客服热线数据包括:时间维度数据、空间维度数据以及用户反馈的用水文本数据;
步骤1.2、获取客服热线数据中最大的时间跨度;假设客服数据的最大时间跨度为2020年1月至2020年11月,则时间跨度为11个月。并以月为时间段进行划分。
步骤1.3、将最大的时间跨度均分为T个时间段,从而形成T个时间标签,并将用户反馈的用水文本数据划分为T个带时间标签的用水文本数据;
步骤2、基于空间维度数据,构建K′个空间标签;
步骤2.1、抽取客服热线数据中用户的所在地址,并将用户的所在地址转换成经纬度信息;本实施例中是通过调用高德地图API,将用户的所在地址转换成经纬度信息,包括以下步骤:
b1.依据客服中的用户地址数据,判断用户地址的类型;
b2.根据不同类型的地址,采取不同的方式对地址数据进行处理;
b3.将处理后的地址数据通过调用高德地图,得到经纬度信息;
在本实施例中,地址类型分为两种,一种是地址中带有“楼”字符,称为“楼”型地址。由于“楼”型地址后会带上“表”,“室”,“井”等字符。这种类型的地址是无法直接得到经纬度和所在地区,需要对它进行处理。注意到,这种类型的地址只需要“楼”之前的信息,因此只要在“楼”处截断即可。在这里调用了python中的strip().split(“楼”)[0]来实现上面的功能,不过这样做的话,会导致“楼”字都被去掉,因此要在结果后加上“楼”这个字符。另一种是地址中不含“楼”的字符串,这样的地址是可以直接得到经纬度和所在地区。
在本发明中,通过高德地图得到经纬度信息需要使用到网络爬虫技术和正则表达式的匹配技术。通过高德地图实现地址的转换要按以下步骤进行:
A.得到要转换的地址在高德地图上的URL;
B.对此URL发出请求;
C.对返回值进行text操作,使其变成字符串类型;
D.使用json.load对数据进行字典格式转换;
E.提取得到的数据;
在本实施例中,对地址进行批量转换成经纬度以及其所属的地区,需按以下步骤进行:
Step1:需要获取该地址在高德地图上的URL,观察高德地图的URL规律得知,只需要在URL的keywords里传入该地址即可。此时,需要使用python中的.format(“地址”)方法,至此,得到了该地址的URL。
Step2:对此URL发出请求,得到页面信息,对其进行text操作,使其变成字符串类型的数据。此时,需要使用python中的request.get(url).text的方法,至此得到了页面的信息,并将其变成了字符串类型的数据。
Step3:在Step2中得到的数据是以json形式返回的,所以要对text信息进行json的解析,将其变成子典类型,才可以进行索引和信息提取。此时,需要使用python中的json.loads()方法。
Step4:提取Step3中得到的数据,该数据在一个名为item的字典里,其中item[“location”]就是需要的经纬度信息。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符以及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑,从而实现字符串处理的便捷性和高效性。如表1所示为一个实施例的地址转换中用到的正则表达式及其功能:
表1正则表达式及其功能表
使用正则表达式,可以从逻辑匹配的结果中获取我们目标的数据形式,在地址转换中主要用到了正则表达式的以下操作功能:
1)匹配:“re.findall()”将搜索整个字符串,获得所有匹配的结果,返回的结果是列表的形式
2)替换:“re.sub(pattern,repl,string,count=0,flags=0)”repl替换掉string中被pattern匹配的字符,count表示最大替换次数,flags表示正则表达式的常量。
步骤2.2、使用聚类算法对经纬度信息进行聚类,从而获得K′个空间标签,并将用户反馈的用水文本数据划分为K′个带空间标签的用水文本数据;
本实施例中,基于所获得的经纬度信息,使用Pythonscikit-learn包中的DBSCAN聚类方法,获取K′个空间标签。
步骤3、构建时间-空间标签,并将用户反馈的用水文本数据划分为T×K′个带时-空标签的用水文本数据;如图1所示;
步骤4、对用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理,得到预处理后的用水文本数据;
本实施例中,对用户反馈的用水文本数据进行处理,如图2所示,包括以下步骤:
Step1:挑选一个标签下的用水文本数据;
Step2:构建停用词表;
Step3:进行语义对齐处理;
Step4:进行分词处理;
Step5:最终得到经过处理后的用水文本数据;
本实施例中,对用水文本数据进行去停用词处理。停用词表中的内容主要有中文、数字、特殊字符、标点符号等。在现有停用词表的基础上,根据实际的用水文本数据,采用词频统计及排序的方法,获取排序后上5%的词汇作为高频词,获取排序下5%的词汇作为低频词,对现有的停用词表进行修改,得到最终需要的停用词表。停用词表中的部分内容如表2所示:
表2部分停用词表
类型 | 部分内容 |
中文 | 户号,用户,一下,一次,事宜,不如,之一,再 |
数字 | 0,1,2,3,4,5,6,7,8,9 |
特殊字符 | /,//,[,],=,>,<, |
标点符号 | ,。“”?! |
在挖掘微观局部上的用户对用水关注点时,使用了TF-IDF的方法,但是TF-IDF有一个缺点,即TF-IDF在提取关键词的时候,是不能识别语义信息的。“停水”、“没水”虽然不相同,但是其表达的含义是相同的,如果直接进行关键词的提取,就会对结果造成比较大的影响。
本实施例中,对用水文本数据进行语义对齐处理,以此来保证结果的准确性和可靠性。部分语义对齐如表3所示。
表3:部分语义对齐表
本实施例中,使用正则表达式来进行用水文本数据的语义对齐操作。“停水”与“没水”的语义对齐操作可以使用python中的re.sub(“没水”,“停水”,要处理的文本)方法。
本实施例中,对用水文本数据进行分词处理。使用结巴分词的方法,目前结巴分词支持三种分词模式:
1)精确模式:试图将句子最精确地切开,适合文本分析。
2)全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
在本实施例中,对用水文本数据进行分词处理时,使用的是精确模式,与此同时调用Step2中构建的停用词表,去除停用词,提高分词的精确性。最终得到了处理之后的用水文本数据。
步骤5、采用TF-IDF方法对预处理后的用水文本数据提取能表征内容的关键词,并选取前N个关键词作为微观上用户对用水的关注点,从而得到T个带时间标签的用水文本数据中所提取出的微观上用户对用水的关注点、K′个带空间标签的用水文本数据中所提取出的微观上用户对用水的关注点、以及T×K′个带时-空标签的用水文本数据中所提取出的微观上用户对用水的关注点;
TF-IDF是一种用于信息检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
在本实施例中,为了挖掘出微观局部上用户对用水的关注点,对用水文本数据进行提取关键词的操作,使用TF-IDF方法,需要以下几个步骤,如图3所示:
Step1:选取某个标签下的用水文本数据,将其均匀的分成D个文档,构成语料库;
Step2:利用式(1)计算词i在文档j中出现的频率tfij:
式(1)中,nij表示词i在文档j中出现的次数,分母∑inij表示文档j中所有词汇出现的次数之和。词频(TF)表示词条(关键字)在文档中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文档。
Step3:利用式(2)计算词i的逆向文件频率idfi:
式(2)中,|D|表示语料库中的文档总数,|{j:ti∈dj}|表示包含词语ti的文档数量(即nij≠0时的文档数目)。如果该词不在语料库中,就会导致分母为0,因此一般情况下使用1+|{j:ti∈dj}|。
逆向文件频率(IDF):某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
Step4:利用式(3)计算词i在语料库中出现的权重tf-idfi:
tf-idfi=tfij×idfi (3)
Step5:选取前N个词作为该用水文本数据的关键词,即用户对用水的关注点。
在本实施例中,对获取到的用水文本数据进行提取关键词的操作,利用TF-IDF的方法,在微观局部上提取表征用户对用水关注点的相关数据。如表4所示为TF-IDF方法提取的用水文本数据的部分关键词:
表4:TF-IDF方法获取的部分关键词表
步骤6、采用主题模型的方法对预处理后的用水文本数据进行主题分析;
对预处理后的用水文本数据进行主题分析的操作,可采用主题建模方法,图4是一个主题建模模型拓扑结构图,其中C1为文档层、C2为主题层、C3为单词层。使用主题建模的方法,需要以下步骤:
Step1.将所有的处理后的用水文本数据作为一个语料库;
Step2.对于语料库中的每一条用水文本,从其主题分布中抽样生成一个主题;
Step3.从Step2中被抽到的这个主题所对应的单词分布中随机抽取一个单词;
步骤6.1、将所有预处理后的用水文本数据整合,并构建语料库;
如图5所示的概率图模型,M表示语料库中的用水文本数目,则语料库中所有的词记为其中,表示第m条用水文本数据集合,并有, 表示第m条用水文本数据集合中第i个词,Nm表示第m条用水文本数据中的单词数量,m=1,2,…,M;K表示主题模型中的主题数;V表示整个语料库中不重复单词的数目;θm是一个M*K的矩阵,表示语料库中第m条用水文本数据的主题分布;是一个K*V的矩阵,表示语料库中主题为k的单词的分布;α是每条用水文本数据的主题分布的参数,θm服从参数为α的狄利克雷分布;β是每个主题的词分布参数,其中服从参数为β的狄利克雷分布。
步骤6.2、计算语料库中用水文本数据的主题生成概率;
如图6所示的是建立用水文本数据主题模型生成过程图,由此得知,该模型的生成过程有个物理过程。第一个物理过程α→θm→zm,n,这个过程表示生成第m条用水文本数据中第n个词的主题zm,n。对于语料库中的第m条用水文本数据,利用狄利克雷分布生成第m条用水文本中的主题分布θm,然后在主题分布中生成用水文本数据中第个n词的主题zm,n。
由第一个物理过程可以知道,表示生成第m条用水文本数据中所有词的主题,由于α→θm是一个狄利克雷分布,是一个多项式分布,所以整体形成了一个狄利克雷多项式共轭结构。由此计算出第m条用水文本数据中的主题生成概率。
式(1)中,表示第m条用水文本数据中主题分布情况,且 表示第m条用水文本数据中第k个主题产生的词个数;α表示超参数,θm表示第m条用水文本数据的主题分布,且θm={θm1,θm2,...,θmk,...θmK},θmk表示第m条用水文本数据在第k个主题上的权重,表示第m条用水文本数据对应的主题,且 表示第m条用水文本数据中第i个词对应的主题编号,Δ为运算符,且对于任意K维的向量x,有:xk表示K维向量的第k个分量,Γ(·)为伽马函数,且θm服从参数为α的狄利克雷分布,服从参数为θm的多项式分布;
因为语料库中M条用水文本数据的主题生成过程是相互独立的,所以可以得到M个相互独立的狄利克雷多项式共轭结构,由此计算出语料库中所有主题的主题生成概率。
本实施例中,如图6所示的是建立用水文本数据主题模型生成过程图,由此得知,该模型的生成过程有个物理过程。第二个物理过程这个过程表示了用户生成第m条用水文本中第n个词wm,n。对于第m条用水文本数据中第n个词wm,n的主题zm,n,利用狄利克雷分布生成其词分布然后在词分布中抽样生成wm,n。
步骤6.3、计算语料库中用水文本数据的词生成概率;
式(3)中,表示由第k个主题产生的词,表示词对应的主题,β是超参数,表示语料库中主题k的词分布,且 表示第v个词在主题k下所有词中所占权重,V表示语料库中所有不重复词的总数;服从参数为β的狄利克雷分布,服从参数为的多项式分布;表示第k个主题下词的分布情况,且 表示第k个主题产生第v个词的个数;
因为语料库中K个主题生成词的过程是相互独立的,所以可以得到K个相互独立的狄利克雷多项式共轭结构,由此计算出语料库中所有主题的主题生成概率。
式(6)中,表示排除第i个词后,第m条用水文本数据中第k个主题对应的单词数目,zi表示第i个词对应的主题,表示排除第i个词后,其余单词对应的主题,∝表示正比于,表示排除第i个词后,第k个主题生成的第v个词的数目;
步骤6.7、利用式(8)计算第m条用水文本数据中第k个主题的权重θmk:
在本实施例中,对获取到的用水文本数据进行主题分析的操作,利用主题分析的方法,在宏观整体上提取表征用户对用水关注点的相关数据。如表5所示为主题分析方法提取的用水文本数据的部分主题词汇:
表5:主题分析方法获取的主题词汇
主题 | 主题词汇 |
Topic1 | 咨询、过户、短信、缴费、变更、水价、订阅、微信、退订、水费 |
Topic2 | 核实、水表、供水、告知、来电、物业、工作人员、回复、小区、水量 |
Topic3 | 漏水、水表、阀门、水管、管道、后阀、关不住、自转、协助、检查 |
Topic4 | 止数、欠费、水价、抄表、时间、金额、水费、水量、周期、缴费 |
Topic7 | 水小、水压、水量、水黄、检查、解释、水质、发现、建议、后阀 |
Topic8 | 停水、恢复、水箱、清洗、抢修、供水、咨询、维修、小区、二次 |
Topic9 | 查询、水费、信息、户名、核实、未查、不符、出户、地址、挂断 |
根据其中所示的词汇,体现了用户对用水的关注点所在,由此企业也就得知了用户的日常需求,能更针对性、高效的做好解决措施。
Claims (1)
1.一种考虑时空特征的供水用户关注点挖掘方法,其特征是按如下步骤进行:
步骤1、基于时间维度数据,构建T个时间标签;
步骤1.1、获取客服热线数据,所述客服热线数据包括:时间维度数据、空间维度数据以及用户反馈的用水文本数据;
步骤1.2、获取所述客服热线数据中最大的时间跨度;
步骤1.3、将最大的时间跨度均分为T个时间段,从而形成T个时间标签,并将用户反馈的用水文本数据划分为T个带时间标签的用水文本数据;
步骤2、基于空间维度数据,构建K′个空间标签;
步骤2.1、抽取客服热线数据中用户的所在地址,并将用户的所在地址转换成经纬度信息;
步骤2.2、使用聚类算法对所述经纬度信息进行聚类,从而获得K′个空间标签,并将用户反馈的用水文本数据划分为K′个带空间标签的用水文本数据;
步骤3、构建时间-空间标签,并将用户反馈的用水文本数据划分为T×K′个带时-空标签的用水文本数据;
步骤4、对所述用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理,得到预处理后的文本数据;
步骤5、采用TF-IDF方法对预处理后的用水文本数据提取能表征内容的关键词,并选取前N个关键词作为微观上用户对用水的关注点,从而得到T个带时间标签的用水文本数据中所提取出的微观上用户对用水的关注点、K′个带空间标签的用水文本数据中所提取出的微观上用户对用水的关注点、以及T×K′个带时-空标签的用水文本数据中所提取出的微观上用户对用水的关注点;
步骤6、采用主题模型的方法对预处理后的用水文本数据进行主题分析;
步骤6.1、将所有预处理后的用水文本数据整合,并构建语料库;
步骤6.2、计算语料库中用水文本数据的主题生成概率;
式(1)中,表示第m条用水文本数据中主题分布情况,且 表示第m条用水文本数据中第k个主题产生的词个数;α表示超参数,θm表示第m条用水文本数据的主题分布,且θm={θm1,θm2,...,θmk,...θmK},θmk表示第m条用水文本数据在第k个主题上的权重,表示第m条用水文本数据对应的主题,且 表示第m条用水文本数据中第i个词对应的主题编号,Δ为运算符,且对于任意K维的向量x,有:xk表示K维向量的第k个分量,Γ(·)为伽马函数,且θm服从参数为α的狄利克雷分布,服从参数为θm的多项式分布;
步骤6.3、计算语料库中用水文本数据的词生成概率;
式(3)中,表示由第k个主题产生的词,表示词对应的主题,β是超参数,表示语料库中主题k的词分布,且 表示第v个词在主题k下所有词中所占权重,V表示语料库中所有不重复词的总数;服从参数为β的狄利克雷分布,服从参数为的多项式分布;表示第k个主题下词的分布情况,且 表示第k个主题产生第v个词的个数;
式(6)中,表示排除第i个词后,第m条文本数据中第k个主题对应的单词数目,zi表示第i个词对应的主题,表示排除第i个词后,其余单词对应的主题,∝表示正比于,表示排除第i个词后,第k个主题生成的第v个词的数目;
步骤6.7、利用式(8)计算第m条用水文本数据中第k个主题的权重θmk:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110183557.3A CN112905741B (zh) | 2021-02-08 | 2021-02-08 | 一种考虑时空特征的供水用户关注点挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110183557.3A CN112905741B (zh) | 2021-02-08 | 2021-02-08 | 一种考虑时空特征的供水用户关注点挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905741A CN112905741A (zh) | 2021-06-04 |
CN112905741B true CN112905741B (zh) | 2022-04-12 |
Family
ID=76123493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110183557.3A Active CN112905741B (zh) | 2021-02-08 | 2021-02-08 | 一种考虑时空特征的供水用户关注点挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905741B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135242B1 (en) * | 2011-10-10 | 2015-09-15 | The University Of North Carolina At Charlotte | Methods and systems for the analysis of large text corpora |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
US10007406B1 (en) * | 2014-11-24 | 2018-06-26 | Evernote Corporation | Adaptive writing interface |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120041953A1 (en) * | 2010-08-16 | 2012-02-16 | Microsoft Corporation | Text mining of microblogs using latent topic labels |
CN105095229A (zh) * | 2014-04-29 | 2015-11-25 | 国际商业机器公司 | 训练主题模型的方法,对比文档内容的方法和相应的装置 |
US10558657B1 (en) * | 2016-09-19 | 2020-02-11 | Amazon Technologies, Inc. | Document content analysis based on topic modeling |
CN108959550B (zh) * | 2018-06-29 | 2022-03-25 | 北京百度网讯科技有限公司 | 用户关注点挖掘方法、装置、设备及计算机可读介质 |
US11379668B2 (en) * | 2018-07-12 | 2022-07-05 | Samsung Electronics Co., Ltd. | Topic models with sentiment priors based on distributed representations |
CN109933657B (zh) * | 2019-03-21 | 2021-07-09 | 中山大学 | 一种基于用户特征优化的主题挖掘情感分析方法 |
-
2021
- 2021-02-08 CN CN202110183557.3A patent/CN112905741B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135242B1 (en) * | 2011-10-10 | 2015-09-15 | The University Of North Carolina At Charlotte | Methods and systems for the analysis of large text corpora |
US10007406B1 (en) * | 2014-11-24 | 2018-06-26 | Evernote Corporation | Adaptive writing interface |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112905741A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857990B (zh) | 一种基于文档结构与深度学习的金融类公告信息抽取方法 | |
CN109684440B (zh) | 基于层级标注的地址相似度度量方法 | |
Jung | Semantic vector learning for natural language understanding | |
Comber et al. | Machine learning innovations in address matching: A practical comparison of word2vec and CRFs | |
US7672833B2 (en) | Method and apparatus for automatic entity disambiguation | |
CN101404037B (zh) | 一种检测及定位电子文本内容剽窃的方法 | |
CN103150405B (zh) | 一种分类模型建模方法、中文跨文本指代消解方法和系统 | |
CN106547875B (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
CN102955833A (zh) | 一种通讯地址识别、标准化的方法 | |
CN112016294B (zh) | 一种基于文本的新闻重要性评估方法、装置及电子设备 | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
Jian et al. | [Retracted] LSTM‐Based Attentional Embedding for English Machine Translation | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
Song et al. | Improving neural named entity recognition with gazetteers | |
US11675839B2 (en) | Data processing in enterprise application | |
Zhang | Applications of deep learning in news text classification | |
Qiu et al. | ChineseTR: A weakly supervised toponym recognition architecture based on automatic training data generator and deep neural network | |
CN106202039B (zh) | 基于条件随机场的越南语组合词消歧方法 | |
Liang et al. | Out-domain Chinese new word detection with statistics-based character embedding | |
CN111738008B (zh) | 基于多层模型的实体识别方法、装置、设备及存储介质 | |
Guo et al. | Web table column type detection using deep learning and probability graph model | |
CN112905741B (zh) | 一种考虑时空特征的供水用户关注点挖掘方法 | |
Jiang et al. | Research and implementation of intelligent chinese resume parsing | |
Ismail et al. | Using custom fuzzy thesaurus to incorporate semantic and reduce data sparsity for twitter sentiment analysis | |
Sarwar et al. | Machine learning based intelligent framework for data preprocessing. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |