CN115563276A - 一种数据分析的方法和装置 - Google Patents

一种数据分析的方法和装置 Download PDF

Info

Publication number
CN115563276A
CN115563276A CN202211163080.3A CN202211163080A CN115563276A CN 115563276 A CN115563276 A CN 115563276A CN 202211163080 A CN202211163080 A CN 202211163080A CN 115563276 A CN115563276 A CN 115563276A
Authority
CN
China
Prior art keywords
text data
user
data
data set
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211163080.3A
Other languages
English (en)
Inventor
王娟
刘小龙
武海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Zhenshi Information Technology Co Ltd filed Critical Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority to CN202211163080.3A priority Critical patent/CN115563276A/zh
Publication of CN115563276A publication Critical patent/CN115563276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分析的方法和装置,涉及大数据技术领域。该方法的一具体实施方式包括:从多个用户的原始文本数据集中识别出多个用户的公有文本数据、以及每个用户的私有文本数据,得到与对应用户存在第一归属关系的第一文本数据集;从原始文本数据集中除第一文本数据集之外的各个文本数据中,识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第二归属关系的第二文本数据集;根据第一文本数据集和第二文本数据集识别原始文本数据集中的异常文本数据。该实施方式能够提高异常数据识别的准确性,有效避免通过设定阈值对数据进行分析的方式无法识别异常数据以及通过公共或者相似特征误判异常数据的情形。

Description

一种数据分析的方法和装置
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据分析的方法和装置。
背景技术
现有技术中在分析数据时,通常根据可量化指标设定阈值,然后将阈值与数据进行比较,或者使用可量化指标训练神经网络,进而对数据进行分类。由于依赖可量化指标,当正常数据与异常数据通过量化难以区分时,会非常影响异常数据识别的准确性。这种现象在识别目标用户时尤为明显,即使挖掘用户之间的关联关系,也会因为相同或相似数据产生误判,难以准确地识别异常数据。
发明内容
有鉴于此,本发明实施例提供一种数据分析的方法和装置,通过识别出在用户的原始文本数据集中出现的文本数据,并且识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第一归属关系或者第二归属关系的文本数据集,根据所述文本数据集识别原始文本数据集中的异常文本数据,由此能够提高识别异常文本数据的准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据分析的方法,包括:
从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据、以及每个所述用户的私有文本数据,得到与对应用户存在第一归属关系的第一文本数据集;
从所述原始文本数据集中除所述第一文本数据集之外的各个文本数据中,识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第二归属关系的第二文本数据集;
根据所述第一文本数据集和所述第二文本数据集识别所述原始文本数据集中的异常文本数据。
可选地,从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据,包括:
将在所述多个用户的原始文本数据集中都出现的文本数据,或者在大于等于预设第一阈值个用户的原始文本数据集中都出现的文本数据,作为所述公有文本数据。
可选地,从多个用户的原始文本数据集中识别出每个所述用户的私有文本数据,包括:
将仅在一个用户的原始文本数据集中出现的文本数据,或者在小于等于预设第二阈值个用户的原始文本数据集中都出现的文本数据,作为所述私有文本数据。
可选地,所述数据分析的方法还包括:采用词频-逆文档频率算法识别所述多个用户的原始文本数据集中的公有文本数据和/或私有文本数据。
可选地,识别出数据主题在对应用户的数据主题范围内的文本数据,包括:
获取所述用户的数据主题范围,确定所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据的数据主题,在所述任一文本数据的数据主题在所述用户的数据主题范围内的情况下,将所述任一文本数据作为所述用户的私有文本数据。
可选地,所述数据分析的方法还包括:获取所述用户的历史文本数据集,依据所述历史文本数据集,使用主题建模的方法确定所述用户的数据主题范围。
可选地,所述主题建模的模型包括以下的一种:隐含狄利克雷分布、非负矩阵分解。
根据本发明实施例的第二方面,提供一种数据分析的装置,包括:
第一识别模块,用于从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据、以及每个所述用户的私有文本数据,得到与对应用户存在第一归属关系的第一文本数据集;
第二识别模块,用于从所述原始文本数据集中除所述第一文本数据集之外的各个文本数据中,识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第二归属关系的第二文本数据集;
第三识别模块,用于根据所述第一文本数据集和所述第二文本数据集识别所述原始文本数据集中的异常文本数据。
可选地,所述第一识别模块将在所述多个用户的原始文本数据集中都出现的文本数据,或者在大于等于预设第一阈值个用户的原始文本数据集中都出现的文本数据,作为所述公有文本数据。
可选地,所述第一识别模块将仅在一个用户的原始文本数据集中出现的文本数据,或者在小于等于预设第二阈值个用户的原始文本数据集中都出现的文本数据,作为所述私有文本数据。
可选地,所述第一识别模块还用于:采用词频-逆文档频率算法识别所述多个用户的原始文本数据集中的公有文本数据和/或私有文本数据。
可选地,所述第二识别模块获取所述用户的数据主题范围,确定所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据的数据主题,在所述任一文本数据的数据主题在所述用户的数据主题范围内的情况下,将所述任一文本数据作为所述用户的私有文本数据。
可选地,所述装置还包括预识别模块,用于:获取所述用户的历史文本数据集,依据所述历史文本数据集,使用主题建模的方法确定所述用户的数据主题范围。
可选地,所述主题建模的模型包括以下的一种:隐含狄利克雷分布、非负矩阵分解。
根据本发明实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现上述任一实施例所述的方法。
根据本发明实施例的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过识别出在用户的原始文本数据集中出现的文本数据,并且识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第一归属关系或者第二归属关系的文本数据集,根据所述文本数据集识别原始文本数据集中的异常文本数据,由此能够准确地识别异常文本数据。本发明实施例通过分析用户所使用的文本数据形成归属关系,能够在不依赖可量化指标的情况下提高异常数据识别的准确性,有效避免可量化指标区分度低时通过阈值方式无法识别异常数据以及通过公共或者相似特征误判异常数据的情形。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的数据分析的方法的主要流程的示意图;
图2是根据本发明可选实施例的实现思路示意图;
图3是根据本发明一个可参考实施例的数据分析的方法的主要流程的示意图;
图4是根据本发明另一个可参考实施例的数据分析的方法的主要流程的示意图;
图5是根据本发明还一个可参考实施例的数据分析的方法的主要流程的示意图;
图6是根据本发明实施例的数据分析的装置的主要模块的示意图;
图7是本发明实施例可以应用于其中的示例性系统架构图;
图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前,主要通过设定阈值的方式或者通过训练神经网络对数据进行聚类的方式识别异常数据。上述两种数据分析方式主要针对的是可以量化的数据,例如下单量、下单账号数、寄件地址数等交易数据。但是由于依赖可量化数据的质量,当分别进行量化后的正常数据和异常数据之间的差异不够明显,或者不能从中发现规律进而区分时,根据上述两种数据分析方式来识别异常数据并不能反映真实情况,识别结果不准确,参考价值低。
另外,对于不可量化数据,不适合使用上述两种数据分析方式识别其中的异常数据。例如,识别物流过程中的异常数据尚处于起步阶段,物流过程中的文本数据体量庞大,但是没有统一规范,难以量化。现有技术不能准确地识别其中的异常数据。
有鉴于此,根据本发明实施例的一个方面,提供了一种数据分析的方法。
图1是根据本发明实施例的数据分析的方法的主要流程的示意图。如图1所示,根据本发明实施例的数据分析的方法,包括:
步骤S101,从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据、以及每个所述用户的私有文本数据,得到与对应用户存在第一归属关系的第一文本数据集。
原始文本数据集包括由用户输入的或者通过用户执行相关指令操作而产生的文本数据。原始文本数据集中的文本数据具有不同的维度,以物流运输业务为例,包括寄件地址、寄件手机号、寄件人、商品类别、下单账号等维度。公有文本数据和私有文本数据是原始文本数据集中的一部分。
第一文本数据集包括每个用户的公有文本数据和/或私有文本数据。第一文本数据集可以具有数组、链表或映射表等数据结构,其中,当第一文本数据集使用数组或链表的数据结构时,数组的首个元素或链表的首个结点保存用户的基础信息,后续的数组元素或链表结点用于保存用户的公有文本数据和/或私有文本数据,通过检索数组的首个元素或链表的首个结点能够确定用户的基础信息,进而确定用户的公有文本数据和/或私有文本数据;当第一文本数据集使用映射表的数据结构时,映射表的键为用户的基础信息,映射表的值为用户的公有文本数据和/或私有文本数据,根据用户的基础信息(即映射表的键)能够确定用户的公有文本数据和/或私有文本数据(即映射表的值)。
用户在过去一段时间内经常使用的数据与该用户具有归属关系,将用户经常使用的数据看作是属于该用户的,数据与用户之间的归属关系也可以理解为用户的数据使用习惯;用户在未来一段时间内,也更可能使用与用户具有归属关系的数据,从而强化数据与用户之间的归属关系。示例性地,在物流运输领域,用户在一个月内多次使用P省Q市作为寄件地址,并使用同一个手机号作为联系方式,能够得到P省Q市和该手机号与该用户具有归属关系,并且用户以后更可能经常使用P省Q市和该手机号作为其在物流运输领域的数据。
用户与文本数据具有第一归属关系,说明该文本数据是该用户与其他用户公用的文本数据,或者是该用户单独使用的文本数据。在第一文本数据集中,通过用户的基础数据能够确定的公有文本数据和私有文本数据,与该用户具有第一归属关系。与用户具有第一归属关系的数据是原始文本数据集中由该用户输入的或者通过该用户执行相关指令操作而产生的文本数据。
步骤S102,从所述原始文本数据集中除所述第一文本数据集之外的各个文本数据中,识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第二归属关系的第二文本数据集。
文本数据具有数据主题,根据用户的原始文本数据集可以确定用户的数据主题范围。数据主题的划分方式可以选择性设定,示例性地,在物流运输领域,依据寄件地址所属的区域(例如省、市或县)划分的数据主题可以包括R省、S市、T县等等;依据寄件人的姓氏划分的数据主题可以包括U姓、V姓、W姓等等;依据用户的经营范围划分的数据主题包括多个品类(例如:服装、食品、玩具等等)。如果文本数据的数据主题在用户的数据主题范围内,则将该文本数据作为与用户存在第二归属关系的文本数据,存储至第二文本数据集。
第二文本数据集包括在每个用户的数据主题范围内的文本数据。第二文本数据集可以具有与第一文本数据集相同的数据结构。在第二文本数据集中,根据用户的基础信息,能够确定在该用户的数据主题范围内的文本数据。
用户与文本数据具有第二归属关系,说明该文本数据是在该用户的数据主题范围内的文本数据。在第二文本数据集中,通过用户的基础数据能够确定的在该用户的数据主题范围内的文本数据,与该用户具有第二归属关系。与用户具有第二归属关系的数据也是原始文本数据集中由该用户输入的或者通过该用户执行相关指令操作而产生的文本数据。
步骤S103,根据所述第一文本数据集和所述第二文本数据集识别所述原始文本数据集中的异常文本数据。
第一文本数据集的数据和第二文本数据集的数据是用户正常使用的文本数据。当用户的原始文本数据集中的文本数据不存在于第一文本数据集,也不存在于第二文本数据集,说明该文本数据与用户不存在第一归属关系,也不存在第二归属关系,即该文本数据不是用户的公有文本数据或私有文本数据,也不是在用户的数据主题范围内的文本数据,则将该文本数据作为用户的异常文本数据。
在本发明的实施例中,分别获取多个用户的原始文本数据集,所述原始文本数据集可以是寄件地址、寄件手机号、寄件人、下单账号、品类等维度的文本数据,并且原始文本数据集还可以是将上述维度中的至少两个维度的文本数据相结合形成的复合维度的文本数据。实际应用过程中,还可以获取多个用户的多个维度的文本数据,并针对其中每一个维度的文本数据,分别通过本发明实施例步骤S101至步骤S103识别其中的异常文本数据。
在一些可选实施例中,从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据时,可以将在所述多个用户的原始文本数据集中都出现的文本数据作为所述公有文本数据。所述多个用户为两个及两个以上的用户。
本实施例中,从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据时,若多个用户在同一数据维度下都具有相同的文本数据,则该相同的文本数据是上述多个用户的公有文本数据。例如,在对10个用户进行数据分析时,若10个用户都使用同一个寄件地址X发货,则该寄件地址X会被识别为该10个用户的公有文本数据,该寄件地址X和这10个用户之间形成第一归属关系,存入第一文本数据集中。
在另一些可选实施例中,从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据时,可以将在大于等于预设第一阈值个用户的原始文本数据集中都出现的文本数据,作为所述公有文本数据。所述多个用户为两个及两个以上的用户。本实施例中,从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据时,在相同数据维度下具有相同的文本数据的用户数大于等于预设的第一阈值时,该相同的文本数据是上述用户的公有文本数据。其中,第一阈值可以根据实际需求选择性设置或修改。例如,在对10个用户进行数据分析时,预设第一阈值为7,则当7个及7个以上的用户使用寄件地址X发货时,该寄件地址X会被识别为这7个及7个以上用户的公有文本数据,该寄件地址X和使用该寄件地址X的用户之间形成第一归属关系,存入第一文本数据集中。
很多正常用户会使用公共数据或者相似数据,例如通过公共地址发货,这属于正常运营,不应将这类数据识别为异常数据。识别出公有文本数据,可以避免将其误判为异常数据,保证数据分析的准确性。
在一些可选实施例中,从多个用户的原始文本数据集中识别出每个所述用户的私有文本数据时,可以将仅在一个用户的原始文本数据集中出现的文本数据作为所述私有文本数据。
本实施例中,从多个用户的原始文本数据集中识别出每个所述用户的私有文本数据时,若某个文本数据仅出现在其中的一个用户的原始文本数据集中,则这个文本数据被识别为该用户的私有文本数据。例如,在对15个用户进行数据分析时,当仅有一个用户使用寄件人Y发货时,该寄件人Y被识别为所述一个用户的私有文本数据,该寄件人Y和使用该寄件人Y的用户之间形成第一归属关系,存入第一文本数据集中。
在另一些可选实施例中,从多个用户的原始文本数据集中识别出每个所述用户的私有文本数据时,可以将在小于等于预设第二阈值个用户的原始文本数据集中都出现的文本数据,作为所述私有文本数据。本实施例中,当从多个用户的原始文本数据集中识别出每个所述用户的私有文本数据时,在预设第二阈值的情况下,使用该文本数据的用户数量不超过第二阈值,则该文本数据被识别为使用该文本数据的用户的私有文本数据。其中,第二阈值可以根据实际需求选择性设置或修改。例如,在对15个用户进行数据分析时,预设第二阈值为5,则当5个及5个以下的用户使用寄件人Y发货时,该寄件人Y会识别为这5个及5个以下用户的私有文本数据,该寄件人Y和使用该寄件人Y的用户之间形成第一归属关系,存入第一文本数据集中。
用户有属于自己或者所在团体的私有数据,仅供本人或者团体内部使用。使用这种方法可以在不受可量化数据质量影响的情况下,准确地识别出私有文本数据,保证数据分析的准确性。
可选地,步骤S101还包括:采用词频-逆文档频率算法识别所述多个用户的原始文本数据集中的公有文本数据和/或私有文本数据。
例如,图2是根据本发明可选实施例的实现思路示意图。如图2所示,获取多个用户的原始文本数据集,包括寄件地址、寄件手机号、寄件人、下单账号、品类等文本数据,通过词频-逆文档频率算法识别原始文本数据集中与用户存在第一归属关系的文本数据:
以寄件地址为例,基于寄件地址形成用户-寄件地址明细表,如表1所示。
表1
Figure BDA0003860959980000101
Figure BDA0003860959980000111
其中,每个用户的每个运单的寄件地址作为一个词,每个用户的所有运单对应的寄件地址构成一篇文档。
然后,基于用户-寄件地址明细,计算每个寄件地址在不同用户的由寄件地址所构成的文档中的词频(TF)、每个寄件地址的逆文档频率(IDF)以及词频-逆文档频率指数(TF-IDF)。其中,词频、逆文档频率、词频-逆文档频率指数的计算方式分为:
词频=某个寄件地址在所述文档中出现的次数/文档总词数
逆文档频率=log(文档总数/(包含该寄件地址的文档数+1))
词频-逆文档频率指数=词频*逆文档频率
计算结果如表2和表3所示:
表2
寄件地址 TF(A) TF(B) TF(C) IDF
add1 0.40 0.20 0.60 -0.12
add2 0.00 0.20 0.40 0.00
add3 0.40 0.20 0.00 0.00
add4 0.20 0.20 0.00 0.00
add5 0.00 0.20 0.00 0.18
表3
寄件地址 TF-IDF(A) TF-IDF(B) TF-IDF(C)
add1 -0.05 -0.02 -0.07
add2 0.00 0.00 0.00
add3 0.00 0.00 0.00
add4 0.00 0.00 0.00
add5 0.00 0.04 0.00
从表2和表3中可以看出,寄件地址add1在三个用户中都出现,并且其词频和逆文档频率均不为零,所以其词频-逆文档频率指数不为零,可以认为add1为公有寄件地址,应存入所述三个用户的第一文本数据集中;寄件地址add5仅在用户B中出现,并且其词频和逆文档频率均不为零,所以其词频-逆文档频率指数不为零,可以认为add5为用户B的私有寄件地址,应存入用户B的第一文本数据集中;而寄件地址add2、add3、add4因为在多个用户中均有出现,并且出现次数较多,其词频-逆文档频率指数均为零,所以无法判断这些寄件地址是否为公有文本数据或者私有文本数据,需要结合步骤S102进行进一步分析。
本发明实施例通过对寄件地址数据进行分析,识别用户的公有寄件地址和私有寄件地址,得到与用户存在第一归属关系的第一文本数据集。需要指出的是,本发明实施例也可应用于其他维度与用户之间的第一归属关系研究,例如,可以应用于寄件人、寄件手机号、下单账户、品类等维度与用户之间的第一归属关系研究,还可以应用于上述多个维度相结合所形成的维度与用户之间的第一归属关系研究。
可选地,识别出数据主题在对应用户的数据主题范围内的文本数据,包括:获取所述用户的数据主题范围,确定所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据的数据主题,在所述任一文本数据的数据主题在所述用户的数据主题范围内的情况下,将所述任一文本数据作为所述用户的私有文本数据。当不能识别某些文本数据是公有文本数据或是私有文本数据时,可获取用户的数据主题范围,将不能识别的这部分数据与所述用户的数据主题范围进行比较,进一步识别这部分数据与用户之间的第二归属关系。
可选地,识别出数据主题在对应用户的数据主题范围内的文本数据,包括:将所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据转换为词-文档矩阵,所述词-文档矩阵表示文档中各个词的概率相关度;然后将所述词-文档矩阵分解为主题-文档矩阵和词-主题矩阵,这两个矩阵分别表示文档与主题的概率相关度和主题与词的概率相关度,由此得到所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据的数据主题范围;使用相同方法获取所述用户的数据主题范围,在所述任一文本数据的数据主题在所述用户的数据主题范围内的情况下,将所述任一文本数据作为所述用户的私有文本数据,进一步识别这部分数据与用户之间的第二归属关系,有助于准确地识别异常数据,减少误判。
可选地,识别出数据主题在对应用户的数据主题范围内的文本数据,包括:将所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据转换为词-文档矩阵,对所述词-文档矩阵进行奇异值分解,对奇异值分解后的矩阵进行降维,使用降维后的矩阵构建潜在语义空间,可以将所述潜在语义空间作为所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据的数据主题范围;使用相同方法获取所述用户的数据主题范围,在所述任一文本数据的数据主题在所述用户的数据主题范围内的情况下,将所述任一文本数据作为所述用户的私有文本数据,进一步识别这部分数据与用户之间的第二归属关系,有助于准确地识别异常数据,减少误判。
可选地,步骤S102还包括:获取所述用户的历史文本数据集,依据所述历史文本数据集,使用主题建模的方法确定所述用户的数据主题范围。在将文本数据与用户的数据主题范围进行比较之前,可以预先通过主题建模的方法确定用户的数据主题范围。所述主题建模的模型可以是隐含狄利克雷分布(LDA)、非负矩阵分解(NMF)等等。
如图2所示,可以使用LDA主题建模的方法进一步对数据进行分析,识别数据与用户之间的归属关系。LDA是一种文档主题生成模型,包含词、主题、文档三层结构。所述文档代表一些主题所构成的概率分布,所述主题又代表很多词所构成的概率分布。主题建模可以用来识别文档集或语料库中潜藏的主题信息。
以寄件地址和用户A为例,例如,通过LDA主题建模得到用户A在寄件地址这个维度下的分布为:add1(0.4)、add2(0.2)、add3(0.4),其中括号内的数字为用户使用对应寄件地址的概率。将上述主题范围与表1中用户A对应的寄件地址明细相比较,除去已经被识别为用户A的公有寄件地址的add1,可以看出add3在用户A的数据主题范围内,可以将add3作为所述用户的私有文本数据,存入第二文本数据集。
步骤S103基于步骤S101得到的第一文本数据集和步骤S102得到的第二文本数据集,在所述原始文本数据集中的文本数据不存在于第一文本数据集中,也不存在于第二文本数据集中的情况下,将所述文本数据识别为用户使用的与其没有归属关系的异常文本数据。
以寄件地址和用户A为例,用户A的寄件地址明细中包括:add1、add3、add4。其中用户A的第一文本数据集包括add1、第二文本数据集包括add3,所以add4将被识别为用户A的寄件地址明细中的异常文本数据。
需要说明的是,本发明实施例可以应用于识别使用异常数据的目标用户,还可以应用于识别其他用户。示例性地,基于某一维度的文本数据,将与该维度的异常文本数据之间存在归属关系的用户作为目标用户;或者,基于多个维度的文本数据,将与任意一个或几个维度的异常文本数据之间存在归属关系的用户作为目标用户。通过对相关维度的数据以及数据的组合进行分析,可以识别其他存在代替操作的目标用户行为,本发明实施例在用户行为研究中具有很高的复用性。
根据上面所述的各种实施例,可以看出本发明实施例通过识别出在用户的原始文本数据集中出现的文本数据,并且识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第一归属关系或者第二归属关系的文本数据集,根据所述文本数据集识别原始文本数据集中的异常文本数据,由此能够准确地识别异常文本数据。本发明实施例通过分析用户所使用的文本数据形成归属关系,能够在不依赖可量化指标的情况下提高异常数据识别的准确性,有效避免可量化指标区分度低时通过阈值方式无法识别异常数据以及通过公共或者相似特征误判异常数据的情形。
图3是根据本发明一个可参考实施例的数据分析的方法的主要流程的示意图。作为本发明的又一个实施例,如图3所示,所述数据分析的方法可以包括:
步骤301,从多个用户的原始文本数据集中识别出在所述多个用户的原始文本数据集中都出现的文本数据,将所述文本数据作为公有文本数据存入第一文本数据集;
步骤302,从多个用户的原始文本数据集中识别出仅在一个用户的原始文本数据集中出现的文本数据,将所述文本数据作为私有文本数据存入第一文本数据集;
所述多个用户是指两个及两个以上的用户,将在两个及两个以上的用户中都出现的文本数据作为公有文本数据,而与此相对,私有文本数据指的是仅在一个用户中出现过的数据;
步骤S303,获取所述用户的数据主题范围,确定所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据的数据主题;
步骤S304,判断所述任一文本数据的数据主题是否在所述用户的数据主题范围内;在所述任一文本数据的数据主题在所述用户的数据主题范围内的情况下跳转至步骤S305,否则跳转至步骤S306;
步骤S305,将所述任一文本数据作为所述用户的私有文本数据存入第二文本数据集;
步骤S306,根据所述第一文本数据集和所述第二文本数据集识别所述原始文本数据集中的异常文本数据。
上述本发明一个可参考实施例的数据分析的方法的具体实施内容,在上面所述数据分析的方法中已经详细说明了,故在此重复内容不再说明。
图4是根据本发明另一个可参考实施例的数据分析的方法的主要流程的示意图。作为本发明的又一个实施例,如图4所示,所述数据分析的方法可以包括:
步骤S401,从多个用户的原始文本数据集中识别出在所述多个用户的原始文本数据集中都出现的文本数据,并预设第一阈值和/或第二阈值;
步骤S402,判断所述多个用户的数量是否大于等于预设第一阈值;在所述多个用户的数量大于等于预设第一阈值的情况下跳转至步骤S403,否则跳转至步骤S404;
步骤S403,将所述文本数据作为公有文本数据存入第一文本数据集;
步骤S404,判断所述多个用户的数量是否小于等于预设第二阈值;在所述多个用户的数量小于等于预设第一阈值的情况下跳转至步骤S405,否则跳转至步骤S406;
步骤S405,将所述文本数据作为私有文本数据存入第一文本数据集;
预设第一阈值小于等于用户总数,超过预设第一阈值数量的用户中都出现过的文本数据,被定义为公有文本数据;预设第二阈值大于等于1,不超过预设第二阈值数量的用户中都出现过的文本数据,被定义为私有文本数据。在实际操作中,可以同时设置预设第一阈值和预设第二阈值,也可以仅设置预设第一阈值或者仅设置预设第二阈值;
步骤S406,获取所述用户的数据主题范围,确定所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据的数据主题;
步骤S407,判断所述任一文本数据的数据主题是否在所述用户的数据主题范围内。在所述任一文本数据的数据主题在所述用户的数据主题范围内的情况下跳转至步骤S408,否则跳转至步骤S409;
步骤S408,将所述任一文本数据作为所述用户的私有文本数据存入第二文本数据集;
步骤S409,根据所述第一文本数据集和所述第二文本数据集识别所述原始文本数据集中的异常文本数据。
上述本发明另一个可参考实施例的数据分析的方法的具体实施内容,在上面所述数据分析的方法中已经详细说明了,故在此重复内容不再说明。
图5是根据本发明还一个可参考实施例的数据分析的方法的主要流程的示意图。作为本发明的又一个实施例,如图5所示,所述数据分析的方法可以包括:
步骤S501,从多个用户的原始文本数据集中,采用词频-逆文档频率算法识别多个用户的原始文本数据集中的公有文本数据和私有文本数据,作为第一文本数据集;
步骤S502,获取所述用户的历史文本数据集,依据所述历史文本数据集,使用主题建模的方法确定所述用户的数据主题范围;
根据所述用户之前使用过的历史文本数据集,预先使用主题建模的方法确定所述用户的数据主题范围,所述主题建模的方法包括以下的一种:隐含狄利克雷分布、非负矩阵分解;
步骤S503,确定所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据的数据主题;
步骤S504,判断所述任一文本数据的数据主题是否在所述用户的数据主题范围内。在所述任一文本数据的数据主题在所述用户的数据主题范围内的情况下跳转至步骤S505,否则跳转至步骤S506;
步骤S505,将所述任一文本数据作为所述用户的私有文本数据存入第二文本数据集;
步骤S506,根据所述第一文本数据集和所述第二文本数据集识别所述原始文本数据集中的异常文本数据。
上述本发明另一个可参考实施例的数据分析的方法的具体实施内容,在上面所述数据分析的方法中已经详细说明了,故在此重复内容不再说明。
根据本发明实施例的第二方面,提供一种实现上述方法的装置。
图6是根据本发明实施例的数据分析的装置的主要模块的示意图,如图6所示,所述数据分析的装置600包括第一识别模块601、第二识别模块602和第三识别模块603;其中,第一识别模块601用于从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据、以及每个所述用户的私有文本数据,得到与对应用户存在第一归属关系的第一文本数据集;第二识别模块602用于从所述原始文本数据集中除所述第一文本数据集之外的各个文本数据中,识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第二归属关系的第二文本数据集;第三识别模块603用于根据所述第一文本数据集和所述第二文本数据集识别所述原始文本数据集中的异常文本数据。
可选地,所述第一识别模块601还用于:
将在所述多个用户的原始文本数据集中都出现的文本数据,或者在大于等于预设第一阈值个用户的原始文本数据集中都出现的文本数据,作为所述公有文本数据。
将仅在一个用户的原始文本数据集中出现的文本数据,或者在小于等于预设第二阈值个用户的原始文本数据集中都出现的文本数据,作为所述私有文本数据。
可选地,所述第一识别模块601还用于:
采用词频-逆文档频率算法识别所述多个用户的原始文本数据集中的公有文本数据和/或私有文本数据。
可选地,所述第二识别模块602还用于:
获取所述用户的数据主题范围,确定所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据的数据主题,在所述任一文本数据的数据主题在所述用户的数据主题范围内的情况下,将所述任一文本数据作为所述用户的私有文本数据。
可选地,所述装置还包括预识别模块,用于:获取所述用户的历史文本数据集,依据所述历史文本数据集,使用主题建模的方法确定所述用户的数据主题范围。
可选地,所述主题建模的模型包括以下的一种:隐含狄利克雷分布、非负矩阵分解。
需要说明的是,在本发明所述数据分析的装置的具体实施内容,在上面所述数据分析的方法中已经详细说明了,故在此重复内容不再说明。
根据本发明实施例的第三方面,提供一种数据分析的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。
根据本发明实施例的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例第一方面提供的方法。
图7示出了可以应用本发明实施例的数据分析的方法或数据分析的装置的示例性系统架构700。
如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如数据分析类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所进行的数据分析提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户信息查询请求等数据进行分析等处理,并将处理结果(仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的数据分析的方法一般由服务器705执行,相应地,所述数据分析的装置一般设置在服务器705中。本发明实施例所提供的数据分析的方法也可以由终端设备701、702、703执行,相应地,所述数据分析的装置可以设置在终端设备701、702、703中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图8,其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分608加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一识别模块、第二识别模块和第三识别模块,其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,第一识别模块还可以被描述为“识别公有文本数据和私有文本数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,该设备实现如下方法:从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据、以及每个所述用户的私有文本数据,得到与对应用户存在第一归属关系的第一文本数据集;从所述原始文本数据集中除所述第一文本数据集之外的各个文本数据中,识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第二归属关系的第二文本数据集;根据所述第一文本数据集和所述第二文本数据集识别所述原始文本数据集中的异常文本数据。
根据本发明实施例的技术方案,通过识别出在用户的原始文本数据集中出现的文本数据,并且识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第一归属关系或者第二归属关系的文本数据集,根据所述文本数据集识别原始文本数据集中的异常文本数据,由此能够提高识别异常文本数据的准确性。本发明实施例通过分析用户所使用的文本数据形成归属关系,能够在不依赖可量化指标的情况下提高异常数据识别的准确性,有效避免可量化指标区分度低时通过阈值方式无法识别异常数据以及通过公共或者相似特征误判异常数据的情形。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。

Claims (10)

1.一种数据分析的方法,其特征在于,包括:
从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据、以及每个所述用户的私有文本数据,得到与对应用户存在第一归属关系的第一文本数据集;
从所述原始文本数据集中除所述第一文本数据集之外的各个文本数据中,识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第二归属关系的第二文本数据集;
根据所述第一文本数据集和所述第二文本数据集识别所述原始文本数据集中的异常文本数据。
2.根据权利要求1所述的方法,其特征在于,从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据,包括:
将在所述多个用户的原始文本数据集中都出现的文本数据,或者在大于等于预设第一阈值个用户的原始文本数据集中都出现的文本数据,作为所述公有文本数据。
3.根据权利要求1所述的方法,其特征在于,从多个用户的原始文本数据集中识别出每个所述用户的私有文本数据,包括:
将仅在一个用户的原始文本数据集中出现的文本数据,或者在小于等于预设第二阈值个用户的原始文本数据集中都出现的文本数据,作为所述私有文本数据。
4.根据权利要求1所述的方法,其特征在于,还包括:
采用词频-逆文档频率算法识别所述多个用户的原始文本数据集中的公有文本数据和/或私有文本数据。
5.根据权利要求1所述的方法,其特征在于,识别出数据主题在对应用户的数据主题范围内的文本数据,包括:
获取所述用户的数据主题范围,确定所述用户的原始文本数据集中除所述第一文本数据集之外的任一文本数据的数据主题,在所述任一文本数据的数据主题在所述用户的数据主题范围内的情况下,将所述任一文本数据作为所述用户的私有文本数据。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取所述用户的历史文本数据集,依据所述历史文本数据集,使用主题建模的方法确定所述用户的数据主题范围。
7.根据权利要求6所述的方法,其特征在于,所述主题建模的模型包括以下的一种:隐含狄利克雷分布、非负矩阵分解。
8.一种数据分析的装置,其特征在于,包括:
第一识别模块,用于从多个用户的原始文本数据集中识别出所述多个用户的公有文本数据、以及每个所述用户的私有文本数据,得到与对应用户存在第一归属关系的第一文本数据集;
第二识别模块,用于从所述原始文本数据集中除所述第一文本数据集之外的各个文本数据中,识别出数据主题在对应用户的数据主题范围内的文本数据,得到与对应用户存在第二归属关系的第二文本数据集;
第三识别模块,用于根据所述第一文本数据集和所述第二文本数据集识别所述原始文本数据集中的异常文本数据。
9.一种电子设备,其特征在于,包括:
一个或者多个处理器;
存储装置,用于存储一个或者多个程序,
当所述一个或者多个程序被所述一个或者多个处理器执行时,所述一个或者多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202211163080.3A 2022-09-23 2022-09-23 一种数据分析的方法和装置 Pending CN115563276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211163080.3A CN115563276A (zh) 2022-09-23 2022-09-23 一种数据分析的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211163080.3A CN115563276A (zh) 2022-09-23 2022-09-23 一种数据分析的方法和装置

Publications (1)

Publication Number Publication Date
CN115563276A true CN115563276A (zh) 2023-01-03

Family

ID=84741608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211163080.3A Pending CN115563276A (zh) 2022-09-23 2022-09-23 一种数据分析的方法和装置

Country Status (1)

Country Link
CN (1) CN115563276A (zh)

Similar Documents

Publication Publication Date Title
US20190188326A1 (en) Domain specific natural language understanding of customer intent in self-help
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN108021651B (zh) 一种网络舆情风险评估方法及装置
CN104081392A (zh) 社会媒体配置文件的影响评分
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
CN112613917A (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN111949550B (zh) 自动生成测试数据的方法、装置、设备及存储介质
CN113836131A (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
CN113435859A (zh) 信访件处理方法、装置、电子设备和计算机可读介质
CN113268560A (zh) 用于文本匹配的方法和装置
CN108021713B (zh) 一种文档聚类的方法和装置
CN111444368B (zh) 构建用户画像的方法、装置、计算机设备及存储介质
CN114036921A (zh) 一种政策信息匹配方法和装置
Cheng et al. Asymptotic ruin probabilities of a two-dimensional renewal risk model with dependent inter-arrival times
CN107315807B (zh) 人才推荐方法和装置
CN115545753A (zh) 一种基于贝叶斯算法的合作伙伴预测方法及相关设备
CN115563276A (zh) 一种数据分析的方法和装置
CN114648010A (zh) 数据表标准化方法、装置、设备及计算机存储介质
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN113095078A (zh) 关联资产确定方法、装置和电子设备
US20200334595A1 (en) Company size estimation system
CN113869904A (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
CN113392208A (zh) It运维故障处理经验积累的方法、装置及存储介质
CN109726882A (zh) 一种对对象进行评价的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination