CN110209643A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN110209643A CN110209643A CN201910327309.4A CN201910327309A CN110209643A CN 110209643 A CN110209643 A CN 110209643A CN 201910327309 A CN201910327309 A CN 201910327309A CN 110209643 A CN110209643 A CN 110209643A
- Authority
- CN
- China
- Prior art keywords
- data
- subfile
- segmentation
- file
- action log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种数据处理方法及装置,本发明涉及大数据技术领域,方法包括:获取第一文件数据,第一文件数据为用户行为日志数据;读取第一文件数据的分割规则,分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;按照分割规则对第一文件数据进行分割,得到多个子文件,其中,每个子文件包括至少一条用户行为日志数据;将多个子文件写入目标数据库,每个子文件设有时间段标识;根据预设的筛选条件筛选目标数据库,得到与筛选条件相符合的用户行为日志数据,筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。本发明实施例提供的技术方案能够解决现有技术中用户行为日志文件处理效率低的问题。
Description
【技术领域】
本发明涉及大数据技术领域,尤其涉及一种数据处理方法及装置。
【背景技术】
目前,windows平台上的客服服务器,随着访问量和数据量的快速增长,用于记录用户行为的日志文件的数据量变得非常大,从而使得用户行为日志文件无法直接下载到本地,或者文件太大导致读取速度极慢,从而使得用户行为日志文件的处理效率低。
【发明内容】
有鉴于此,本发明实施例提供了一种数据处理方法及装置,用以解决现有技术中用户行为日志文件处理效率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种数据处理方法,所述方法包括:
获取第一文件数据,所述第一文件数据为用户行为日志数据;读取所述第一文件数据的分割规则,所述分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,其中,每个所述子文件包括至少一条用户行为日志数据;将多个所述子文件写入目标数据库,每个所述子文件设有时间段标识;根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据,所述筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。
进一步地,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:
读取预先设置的分割份数;按照所述分割份数平均分割所述第一文件数据,得到多个子文件。
进一步地,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:
获取所述第一文件数据的文件容量大小;读取预先设置的子文件的容量阈值;根据所述预先设置的子文件的容量阈值分割所述第一文件数据,得到多个子文件,其中,所有的所述子文件的容量值皆小于所述容量阈值。
进一步地,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:
获取所述第一文件数据的行数;读取预先设置的子文件的行数阈值;根据所述预先设置的子文件的行数阈值分割所述第一文件数据,得到多个子文件,其中,所有的所述子文件的行数值皆小于所述行数阈值。
进一步地,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件之后,所述方法包括:
按照预设的文件关联长度,对每个所述子文件的两端进行分割,得到关联上文及关联下文;将每个所述子文件与相邻的前一个所述子文件的关联下文、相邻的后一个所述子文件的关联上文进行拼接处理,得到拼接文件;用所述拼接文件替换未分割的所述子文件。
进一步地,在所述根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据之前,所述方法包括:
提取每条所述用户行为日志数据中的多个关键词;分析所述关键词,得到所述用户行为日志数据的用户行为倾向;根据所述用户行为日志数据的用户行为倾向进行聚类分析,得到所述用户行为分组,其中,所述用户行为分组包括好评、投诉、抱怨、意见反馈;根据所述用户行为分组标注所述用户行为日志数据。
进一步地,所述将多个所述子文件写入目标数据库,每个子文件设有时间段标识,包括:获取所述子文件中的第一条用户行为日志数据的第一生成时间及所述子文件中的最后一条用户行为日志数据的第二生成时间,并将所述第一生成时间及所述第二生成时间作为所述子文件的时间段标识。
为了实现上述目的,根据本发明的一个方面,提供了一种数据处理装置,所述装置包括:
获取单元,用于获取第一文件数据,所述第一文件数据为用户行为日志数据;读取单元,用于读取所述第一文件数据的分割规则,所述分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;分割单元,用于按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,其中,每个所述子文件包括至少一条用户行为日志数据;写入单元,用于将多个所述子文件写入目标数据库,每个所述子文件设有时间段标识;筛选单元,用于根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据,所述筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机非易失性存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在设备执行上述的数据处理方法。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的数据处理方法的步骤。
在本方案中,当用户行为日志文件因为数据过大而无法读取时,通过根据预设的分割规则对大型文件进行分割,分割成多个小文件,再将小文件写入目标数据库,并通过预设的筛选条件来筛选所述目标数据库中的数据,从而查询得到与筛选条件相符合的用户行为日志数据。从而实现快速筛选出所需的数据,不会因为数据过大而影响数据处理效率,提高数据处理效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种可选的数据处理方法的流程图;
图2是本发明实施例提供的一种可选的数据处理装置的示意图;
图3是本发明实施例提供的一种可选的计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一终端也可以被称为第二终端,类似地,第二终端也可以被称为第一终端。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是根据本发明实施例的一种数据处理方法的流程图,如图1所示,该方法包括:
步骤S101,获取第一文件数据,第一文件数据为用户行为日志数据;
步骤S102,读取第一文件数据的分割规则,分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;
步骤S103,按照分割规则对第一文件数据进行分割,得到多个子文件,其中,每个子文件包括至少一条用户行为日志数据;
步骤S104,将多个子文件写入目标数据库,每个子文件设有时间段标识;
步骤S105,根据预设的筛选条件筛选目标数据库,得到与筛选条件相符合的用户行为日志数据,筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。
其中,固定份数分割为将第一文件数据分割为预设数量份数的子文件;固定容量分割为将第一文件数据分割为预设容量(如容量不超过3G)的子文件;固定行数分割为将第一文件数据分割为预设行数(如行数不超过10行)的子文件。具体地,在Windows平台上,可以使用很多工具来打开文件查看其行数,最常用的就是MS Office Word、记事本等,该行数是指所用工具默认的行。
在本方案中,当用户行为日志文件因为数据过大而无法读取时,通过根据预设的分割规则对大型文件进行分割,分割成多个小文件,再将小文件写入目标数据库,并通过预设的筛选条件来筛选所述目标数据库中的数据,从而查询得到与筛选条件相符合的用户行为日志数据。从而实现快速筛选出所需的数据,不会因为数据过大而影响数据处理效率,提高数据处理效率。
具体地,获取第一文件数据的方式可以从各个业务日志的服务器上采集用户行为日志。用户行为日志可以用来描述一个用户什么时间在哪个终端设备上通过哪个应用程序进行了什么操作。每一条数据包括接收到数据的时间、操作持续时间、终端ID号码、用户ID号码、操作类型、商品的评价信息等。可以理解地,用户行为日志随着时间几何式增长,数据极为庞大,容量大容易使得数据在读写时受到磁盘的制约,导致读取效率低。因此需要将大文件数据进行分割处理。
其中,第一文件数据中的所有的用户行为日志数据具有相同的数据类型和格式。
可选地,按照分割规则对第一文件数据进行分割,得到多个子文件,包括:读取预先设置的分割份数;按照分割份数平均分割第一文件数据,得到多个子文件。例如将5G的第一文件数据分割为50份子文件。当第一文件数据被分割为子文件后,磁盘读取的数据能够加快。
可选地,按照分割规则对第一文件数据进行分割,得到多个子文件,包括:获取第一文件数据的文件容量大小;读取预先设置的子文件的容量阈值;根据预先设置的子文件的容量阈值分割第一文件数据,得到多个子文件,其中,所有的子文件的容量值皆小于容量阈值。例如将5G的文件分割为1024个5M的子文件,从而使得计算机运行时能够快速读取子文件。可以理解地,当设定了子文件的容量阈值,那么每个子文件的容量值在分割时就会控制在5M以下。
可选地,按照分割规则对第一文件数据进行分割,得到多个子文件,包括:获取第一文件数据的行数;读取预先设置的子文件的行数阈值;根据预先设置的子文件的行数阈值分割第一文件数据,得到多个子文件,其中,所有的子文件的行数值皆小于行数阈值。例如将10000行的文件分割为200个50行的子文件,从而使得计算机运行时能够快速读取子文件。可以理解地,当设定了子文件的行数阈值,那么每个子文件的行数值在分割时就会控制在50行以内,从而加快后期的读取速度。
在一种实施方式中,建立分割脚本,例如python脚本、sql脚本等,利用分割脚本在实现第一文件数据的分割处理。
可以理解地,文件在分割过程中容易使得同一条用户行为日志数据被分割至两个不同的子文件中,使得这条用户行为日志数据失去意义。因此,需要在文件分割时保障用户行为日志数据的完整性。
可选地,按照分割规则对第一文件数据进行分割,得到多个子文件之后,方法包括:
按照预设的文件关联长度,对每个子文件的两端进行分割,得到关联上文及关联下文;将每个子文件与相邻的前一个子文件的关联下文、相邻的后一个子文件的关联上文进行拼接处理,得到拼接文件;用拼接文件替换未分割的子文件。
具体地,按照预设的分割规则对第一文件数据进行分割时,容易使得一条用户行为日志数据被分割至两个不同的子文件中,使得原来的语义被分割而导致无法完整解析用户行为日志数据中的信息。因此,将每个子文件的两端进行关联分割,例如将50行的子文件中的前两行和最后两行分割出来,得到关联上文及关联下文,将前两行与前一个相邻的子文件的最后一行进行拼接,将后两行与后一个相连的子文件的第一行进行拼接。
例如:某一用户行为日志数据为用户ID为123456,2020-01-01,11.03am~11.10am、终端ID号码111111、某app、商品的评价行为:我今天买了某产品,包裹破损;希望客服能够帮我处理一下赔偿事项。例如根据预设的分割规则进行分割后,段商品的评价行为中的“今天买了某产品,包裹破损”被分割入第一子文件及商品的评价行为中的“希望客服能够帮我处理一下赔偿事项”被分入第二子文件,这样就会导致无法获取该客户反馈的完整语义。通过获取关联上文及关联下文,能够使得整个子文件中的某条反馈信息更完整,从而保存上下文的关联性。
可以理解,可以通过设置分割时文件的重合度,对文件数据进行分割,从而保障每一条用户行为日志数据的完整性。例如:每个子文件中的第一条用户行为日志数据与前一个相邻的子文件的最后一条用户行为日志数据重合。
当然,在写入目标数据库后,需要进一步对用户行为日志数据进行去重。写入目标数据库可以根据预设字段逐一写入每个子文件中的每一条用户行为日志数据。根据分割后的子文件写入目标数据库,能够减轻磁盘的压力,提高写入效率。
可选地,将多个子文件写入目标数据库,每个子文件设有时间段标识,包括:获取子文件中的第一条用户行为日志数据的第一生成时间及子文件中的最后一条用户行为日志数据的第二生成时间,并将第一生成时间及第二生成时间作为子文件的时间段标识。
例如第一条用户行为日志数据的产生时间为20200101,最后一条用户行为日志数据的产生时间为20200201,那么这个子文件的时间段标识为20200101~20200201。从而使得在写入目标数据库时,能够根据时间段标识依次写入子文件,从而保障时间排列的准确性。
可选地,在根据预设的筛选条件筛选目标数据库,得到与筛选条件相符合的用户行为日志数据之前,方法包括:
提取每条用户行为日志数据中的多个关键词;分析关键词,得到用户行为日志数据的用户行为倾向;根据用户行为日志数据的用户行为倾向进行聚类分析,得到用户行为分组,其中,用户行为分组包括好评、投诉、抱怨、意见反馈;根据用户行为分组标注用户行为日志数据。
在一种实施方式中,关键词提取可以选用克努特——莫里斯——普拉特算法(Knuth-Morris-Pratt,简称KMP),KMP算法是一种改进的字符串匹配算法,选用KMP算法进行关键词提取,节省时间,提高数据处理效率。关键词提取也可选用隐马尔科夫模型HiddenMarkov Model,简称HMM模型)。
具体地,可以利用预设训练的分类模型,将用户行为日志数据输入分类模型,分类模型能够提取关键词,进一步根据关键词得到用户行为日志数据的行为定义标签(即好评、投诉、抱怨、意见反馈)。可以理解地,这个行为定义标签即为用户行为分组。例如“我今天买了某产品,包裹破损;希望客服能够帮我处理一下赔偿事项”的用户行为分组为“投诉”,或者,“商品包装太差了”的用户行为分组为“抱怨”。
可选地,当筛选条件为用户信息时,从目标数据库得到与用户信息相符合的用户行为日志数据,例如:用户ID为123456的所有的用户行为日志数据。进一步分析这些用户行为日志数据,从而得到用户关于某个商品或某个平台的评价趋势。例如5条用户行为日志数据中,前三条都是好评,而后两条转为投诉,说明用户正在对商品或平台失去信心,用户脱离的可能性增大。
可选地,当筛选条件为时间段信息时,从目标数据库得到与时间段信息相符合的用户行为日志数据,例如:时间段信息为20200101~20200115,在筛选过程中,先将筛选条件与子文件的时间段标识进行匹配,当匹配成功后,再从匹配得到的子文件中筛选时间段从20200101至20200115这个时间段的用户行为日志数据。通过分析这个时间段的用户行为日志数据,可以得到这个时间段用户的评价总趋势,或查找部分异常评价行为。例如这个时间段的投诉率高达56%,则需要进一步查找具体的原因,及时解决导致高投诉率问题。
在本方案中,当用户行为日志文件因为数据过大而无法读取时,通过根据预设的分割规则对大型文件进行分割,分割成多个小文件,再将小文件写入目标数据库,并通过预设的筛选条件来筛选所述目标数据库中的数据,从而查询得到与筛选条件相符合的用户行为日志数据。从而实现快速筛选出所需的数据,不会因为数据过大而影响数据处理效率,提高数据处理效率。
本发明实施例提供了一种数据处理装置,该装置用于执行上述移动终端内置数据处理方法,如图2所示,该装置包括:获取单元10、读取单元20、分割单元30、写入单元40、筛选单元50。
获取单元10,用于获取第一文件数据,第一文件数据为用户行为日志数据;
读取单元20,用于读取第一文件数据的分割规则,分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;
分割单元30,用于按照分割规则对第一文件数据进行分割,得到多个子文件,其中,每个子文件包括至少一条用户行为日志数据;
写入单元40,用于将多个子文件写入目标数据库,每个子文件设有时间段标识;
筛选单元50,用于根据预设的筛选条件筛选目标数据库,得到与筛选条件相符合的用户行为日志数据,筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。
其中,固定份数分割为将第一文件数据分割为预设数量份数的子文件;固定容量分割为将第一文件数据分割为预设容量(如容量不超过3G)的子文件;固定行数分割为将第一文件数据分割为预设行数(如行数不超过10行)的子文件。具体地,在Windows平台上,可以使用很多工具来打开文件查看其行数,最常用的就是MS Office Word、记事本等,该行数是指所用工具默认的行。
在本方案中,当用户行为日志文件因为数据过大而无法读取时,通过根据预设的分割规则对大型文件进行分割,分割成多个小文件,再将小文件写入目标数据库,并通过预设的筛选条件来筛选所述目标数据库中的数据,从而查询得到与筛选条件相符合的用户行为日志数据。从而实现快速筛选出所需的数据,不会因为数据过大而影响数据处理效率,提高数据处理效率。
具体地,获取第一文件数据的方式可以从各个业务日志的服务器上采集用户行为日志。用户行为日志可以用来描述一个用户什么时间在哪个终端设备上通过哪个应用程序进行了什么操作。每一条数据包括接收到数据的时间、操作持续时间、终端ID号码、用户ID号码、操作类型、商品的评价行为等。可以理解地,用户行为日志随着时间几何式增长,数据极为庞大,容量大容易使得数据在读写时受到磁盘的制约,导致读取效率低。因此需要将大文件数据进行分割处理。
其中,第一文件数据中的所有的用户行为日志数据具有相同的数据类型和格式。
可选地,分割单元30包括第一读取子单元、第一分割子单元。
第一读取子单元,用于读取预先设置的分割份数;第一分割子单元,用于按照分割份数平均分割第一文件数据,得到多个子文件。例如将5G的第一文件数据分割为50份子文件。当第一文件数据被分割为子文件后,磁盘读取的数据能够加快。
可选地,分割单元30包括第一获取子单元、第二读取子单元、第二分割子单元。
第一获取子单元,用于获取第一文件数据的文件容量大小;第二读取子单元,用于读取预先设置的子文件的容量阈值;第二分割子单元,用于根据预先设置的子文件的容量阈值分割第一文件数据,得到多个子文件,其中,所有的子文件的容量值皆小于容量阈值。例如将5G的文件分割为1024个5M的子文件,从而使得计算机运行时能够快速读取子文件。可以理解地,当设定了子文件的容量阈值,那么每个子文件的容量值在分割时就会控制在5M以下。
可选地,分割单元30包括第二获取子单元、第三读取子单元、第三分割子单元。
第二获取子单元,用于获取第一文件数据的行数;第三读取子单元,用于读取预先设置的子文件的行数阈值;第三分割子单元,用于根据预先设置的子文件的行数阈值分割第一文件数据,得到多个子文件,其中,所有的子文件的行数值皆小于行数阈值。例如将10000行的文件分割为200个50行的子文件,从而使得计算机运行时能够快速读取子文件。可以理解地,当设定了子文件的行数阈值,那么每个子文件的行数值在分割时就会控制在50行以内,从而加快后期的读取速度。
在一种实施方式中,建立分割脚本,例如python脚本、sql脚本等,利用分割脚本在实现第一文件数据的分割处理。
可以理解地,文件在分割过程中容易使得同一条用户行为日志数据被分割至两个不同的子文件中,使得这条用户行为日志数据失去意义。因此,需要在文件分割时保障用户行为日志数据的完整性。
可选地,装置还包括:第二分割单元、拼接单元、替换单元。
第二分割单元,用于按照预设的文件关联长度,对每个子文件的两端关联分割,得到关联上文及关联下文;拼接单元,用于将每个子文件与相邻的前一个子文件的关联下文、相邻的后一个子文件的关联上文进行拼接处理,得到拼接文件;替换单元,用于用拼接文件替换未分割的子文件。
具体地,按照预设的分割规则对第一文件数据进行分割时,容易使得一条用户行为日志数据被分割至两个不同的子文件中,使得原来的语义被分割而导致无法完整解析用户行为日志数据中的信息。因此,将每个子文件的两端进行关联分割,例如将50行的子文件中的前两行和最后两行分割出来,得到关联上文及关联下文,将前两行与前一个相邻的子文件的最后一行进行拼接,将后两行与后一个相连的子文件的第一行进行拼接。
例如:某一用户行为日志数据为用户ID为123456,2020-01-01,11.03am~11.10am、终端ID号码111111、某app、商品的评价行为:我今天买了某产品,包裹破损;希望客服能够帮我处理一下赔偿事项。例如根据预设的分割规则进行分割后,商品的评价行为中的“今天买了某产品,包裹破损”被分割入第一子文件及商品的评价行为中的“希望客服能够帮我处理一下赔偿事项”被分入第二子文件,这样就会导致无法获取该客户反馈的完整语义。通过获取关联上文及关联下文,能够使得整个子文件中的某条反馈信息更完整,从而保存上下文的关联性。
可以理解,可以通过设置分割时文件的重合度,对文件数据进行分割,从而保障每一条用户行为日志数据的完整性。例如:每个子文件中的第一条用户行为日志数据与前一个相邻的子文件的最后一条用户行为日志数据重合。
当然,在写入目标数据库后,需要进一步对用户行为日志数据进行去重。写入目标数据库可以根据预设字段逐一写入每个子文件中的每一条用户行为日志数据。根据分割后的子文件写入目标数据库,能够减轻磁盘的压力,提高写入效率。
可选地,装置还包括第一标注单元,用于获取子文件中的第一条用户行为日志数据的第一生成时间及子文件中的最后一条用户行为日志数据的第二生成时间,并将第一生成时间及第二生成时间作为子文件的时间段标识。
例如第一条用户行为日志数据的产生时间为20200101,最后一条用户行为日志数据的产生时间为20200201,那么这个子文件的时间段标识为20200101~20200201。从而使得在写入目标数据库时,能够根据时间段标识依次写入子文件,从而保障时间排列的准确性。
可选地,装置还包括提取单元、分析单元、处理单元、第二标注单元。
提取单元,用于提取每条用户行为日志数据中的多个关键词;分析单元,用于分析关键词,得到用户行为日志数据的用户行为倾向;处理单元,用于根据用户行为日志数据的用户行为倾向进行聚类分析,得到用户行为分组,其中,用户行为分组包括好评、投诉、抱怨、意见反馈;第二标注单元,用于根据用户行为分组标注用户行为日志数据。
在一种实施方式中,关键词提取可以选用克努特——莫里斯——普拉特算法(Knuth-Morris-Pratt,简称KMP),KMP算法是一种改进的字符串匹配算法,选用KMP算法进行关键词提取,节省时间,提高数据处理效率。关键词提取也可选用隐马尔科夫模型HiddenMarkov Model,简称HMM模型)。
具体地,可以利用预设训练的分类模型,将用户行为日志数据输入分类模型,分类模型能够提取关键词,进一步根据关键词得到用户行为日志数据的行为定义标签(即好评、投诉、抱怨、意见反馈)。可以理解地,这个行为定义标签即为用户行为分组。例如“我今天买了某产品,包裹破损;希望客服能够帮我处理一下赔偿事项”的用户行为分组为“投诉”,或者,“商品包装太差了”的用户行为分组为“抱怨”。
可选地,当筛选条件为用户信息时,从目标数据库得到与用户信息相符合的用户行为日志数据,例如:用户ID为123456的所有的用户行为日志数据。进一步分析这些用户行为日志数据,从而得到用户关于某个商品或某个平台的评价趋势。例如5条用户行为日志数据中,前三条都是好评,而后两条转为投诉,说明用户正在对商品或平台失去信心,用户脱离的可能性增大。
可选地,当筛选条件为时间段信息时,从目标数据库得到与时间段信息相符合的用户行为日志数据,例如:时间段信息为20200101~20200115,在筛选过程中,先将筛选条件与子文件的时间段标识进行匹配,当匹配成功后,再从匹配得到的子文件中筛选时间段从20200101至20200115这个时间段的用户行为日志数据。通过分析这个时间段的用户行为日志数据,可以得到这个时间段用户的评价总趋势,或查找部分异常评价行为。例如这个时间段的投诉率高达56%,则需要进一步查找具体的原因,及时解决导致高投诉率问题。
在本方案中,当用户行为日志文件因为数据过大而无法读取时,通过根据预设的分割规则对大型文件进行分割,分割成多个小文件,再将小文件写入目标数据库,并通过预设的筛选条件来筛选所述目标数据库中的数据,从而查询得到与筛选条件相符合的用户行为日志数据。从而实现快速筛选出所需的数据,不会因为数据过大而影响数据处理效率,提高数据处理效率。
本发明实施例提供了一种计算机非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以下步骤:
获取第一文件数据,第一文件数据为用户行为日志数据;读取第一文件数据的分割规则,分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;按照分割规则对第一文件数据进行分割,得到多个子文件,其中,每个子文件包括至少一条用户行为日志数据;将多个子文件写入目标数据库,每个子文件设有时间段标识;根据预设的筛选条件筛选目标数据库,得到与筛选条件相符合的用户行为日志数据,筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:读取预先设置的分割份数;按照分割份数平均分割第一文件数据,得到多个子文件。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:获取第一文件数据的文件容量大小;读取预先设置的子文件的容量阈值;根据预先设置的子文件的容量阈值分割第一文件数据,得到多个子文件,其中,所有的子文件的容量值皆小于容量阈值。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:获取第一文件数据的行数;读取预先设置的子文件的行数阈值;根据预先设置的子文件的行数阈值分割第一文件数据,得到多个子文件,其中,所有的子文件的行数值皆小于行数阈值。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:按照预设的文件关联长度,对每个子文件的两端进行关联分割,得到关联上文及关联下文;将未关联分割的每个子文件与相邻的前一个子文件的关联下文、相邻的后一个子文件的关联上文进行拼接处理,得到拼接文件;用拼接文件替换未关联分割的子文件。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:提取每条用户行为日志数据中的多个关键词;分析关键词,得到用户行为日志数据的用户行为倾向;根据用户行为日志数据的用户行为倾向进行聚类分析,得到用户行为分组,其中,用户行为分组包括好评、投诉、抱怨、意见反馈;根据用户行为分组标注用户行为日志数据。
图3是本发明实施例提供的一种计算机设备的示意图。如图3所示,该实施例的计算机设备100包括:处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103,处理器101执行计算机程序103时实现实施例中的数据处理方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器101执行时实现实施例中数据处理装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器101、存储器102。本领域技术人员可以理解,图3仅仅是计算机设备100的示例,并不构成对计算机设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器101可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以是计算机设备100的内部存储单元,例如计算机设备100的硬盘或内存。存储器102也可以是计算机设备100的外部存储设备,例如计算机设备100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器102还可以既包括计算机设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一文件数据,所述第一文件数据为用户行为日志数据;
读取所述第一文件数据的分割规则,所述分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;
按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,其中,每个所述子文件包括至少一条用户行为日志数据;
将多个所述子文件写入目标数据库,每个所述子文件设有时间段标识;
根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据,所述筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。
2.根据权利要求1所述的方法,其特征在于,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:
读取预先设置的分割份数;
按照所述分割份数平均分割所述第一文件数据,得到多个子文件。
3.根据权利要求1所述的方法,其特征在于,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:
获取所述第一文件数据的文件容量大小;
读取预先设置的子文件的容量阈值;
根据所述预先设置的子文件的容量阈值分割所述第一文件数据,得到多个子文件,其中,所有的所述子文件的容量值皆小于所述容量阈值。
4.根据权利要求1所述的方法,其特征在于,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:
获取所述第一文件数据的行数;
读取预先设置的子文件的行数阈值;
根据所述预先设置的子文件的行数阈值分割所述第一文件数据,得到多个子文件,其中,所有的所述子文件的行数值皆小于所述行数阈值。
5.根据权利要求2~4中任意一项所述的方法,其特征在于,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件之后,所述方法包括:
按照预设的文件关联长度,对每个所述子文件的两端进行分割,得到关联上文及关联下文;
将每个所述子文件与相邻的前一个所述子文件的关联下文、相邻的后一个所述子文件的关联上文进行拼接处理,得到拼接文件;
用所述拼接文件替换未分割的所述子文件。
6.根据权利要求1所述的方法,其特征在于,在所述根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据之前,所述方法包括:
提取每条所述用户行为日志数据中的多个关键词;
分析所述关键词,得到所述用户行为日志数据的用户行为倾向;
根据所述用户行为日志数据的用户行为倾向进行聚类分析,得到所述用户行为分组,其中,所述用户行为分组包括好评、投诉、抱怨、意见反馈;
根据所述用户行为分组标注所述用户行为日志数据。
7.根据权利要求1所述的方法,其特征在于,所述将多个所述子文件写入目标数据库,每个子文件设有时间段标识,包括:
获取所述子文件中的第一条用户行为日志数据的第一生成时间及所述子文件中的最后一条用户行为日志数据的第二生成时间,并将所述第一生成时间及所述第二生成时间作为所述子文件的时间段标识。
8.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取第一文件数据,所述第一文件数据为用户行为日志数据;
读取单元,用于读取所述第一文件数据的分割规则,所述分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;
分割单元,用于按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,其中,每个所述子文件包括至少一条用户行为日志数据;
写入单元,用于将多个所述子文件写入目标数据库,每个所述子文件设有时间段标识;
筛选单元,用于根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据,所述筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。
9.一种计算机非易失性存储介质,所述存储介质包括存储的程序,其特征在于,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7任意一项所述的数据处理方法。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910327309.4A CN110209643A (zh) | 2019-04-23 | 2019-04-23 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910327309.4A CN110209643A (zh) | 2019-04-23 | 2019-04-23 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110209643A true CN110209643A (zh) | 2019-09-06 |
Family
ID=67786104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910327309.4A Pending CN110209643A (zh) | 2019-04-23 | 2019-04-23 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209643A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111121683A (zh) * | 2019-12-05 | 2020-05-08 | 山西裕鼎精密科技有限公司 | 数据处理装置、方法及计算机存储介质 |
CN111639059A (zh) * | 2020-05-28 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 日志信息的存储及定位方法、电子设备及存储介质 |
CN111767197A (zh) * | 2020-06-22 | 2020-10-13 | 郑州阿帕斯数云信息科技有限公司 | 日志处理方法和装置 |
CN112199596A (zh) * | 2020-10-19 | 2021-01-08 | 杭州迪普科技股份有限公司 | 一种日志过滤处理的方法、装置、设备及介质 |
CN112580092A (zh) * | 2020-12-07 | 2021-03-30 | 北京明朝万达科技股份有限公司 | 一种敏感文件识别方法及装置 |
WO2022083332A1 (zh) * | 2020-10-23 | 2022-04-28 | 华为技术有限公司 | 商品数据管理方法、装置及服务器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242665A (ja) * | 2007-03-26 | 2008-10-09 | Sony Ericsson Mobilecommunications Japan Inc | 暗号化処理装置、暗号化処理方法及びファイル分割保存システム |
CN104391954A (zh) * | 2014-11-27 | 2015-03-04 | 北京国双科技有限公司 | 数据库日志的处理方法及装置 |
CN106250424A (zh) * | 2016-07-22 | 2016-12-21 | 杭州朗和科技有限公司 | 一种日志上下文内容的搜索方法、装置及系统 |
CN107194016A (zh) * | 2017-07-14 | 2017-09-22 | 上海瀚之友信息技术服务有限公司 | 一种数据分割方法 |
-
2019
- 2019-04-23 CN CN201910327309.4A patent/CN110209643A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242665A (ja) * | 2007-03-26 | 2008-10-09 | Sony Ericsson Mobilecommunications Japan Inc | 暗号化処理装置、暗号化処理方法及びファイル分割保存システム |
CN104391954A (zh) * | 2014-11-27 | 2015-03-04 | 北京国双科技有限公司 | 数据库日志的处理方法及装置 |
CN106250424A (zh) * | 2016-07-22 | 2016-12-21 | 杭州朗和科技有限公司 | 一种日志上下文内容的搜索方法、装置及系统 |
CN107194016A (zh) * | 2017-07-14 | 2017-09-22 | 上海瀚之友信息技术服务有限公司 | 一种数据分割方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111121683A (zh) * | 2019-12-05 | 2020-05-08 | 山西裕鼎精密科技有限公司 | 数据处理装置、方法及计算机存储介质 |
CN111639059A (zh) * | 2020-05-28 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 日志信息的存储及定位方法、电子设备及存储介质 |
CN111767197A (zh) * | 2020-06-22 | 2020-10-13 | 郑州阿帕斯数云信息科技有限公司 | 日志处理方法和装置 |
CN112199596A (zh) * | 2020-10-19 | 2021-01-08 | 杭州迪普科技股份有限公司 | 一种日志过滤处理的方法、装置、设备及介质 |
CN112199596B (zh) * | 2020-10-19 | 2023-08-25 | 杭州迪普科技股份有限公司 | 一种日志过滤处理的方法、装置、设备及介质 |
WO2022083332A1 (zh) * | 2020-10-23 | 2022-04-28 | 华为技术有限公司 | 商品数据管理方法、装置及服务器 |
CN112580092A (zh) * | 2020-12-07 | 2021-03-30 | 北京明朝万达科技股份有限公司 | 一种敏感文件识别方法及装置 |
CN112580092B (zh) * | 2020-12-07 | 2023-03-24 | 北京明朝万达科技股份有限公司 | 一种敏感文件识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209643A (zh) | 一种数据处理方法及装置 | |
US20230222366A1 (en) | Systems and methods for semantic analysis based on knowledge graph | |
US11113477B2 (en) | Visualizing comment sentiment | |
CN110428322A (zh) | 一种业务数据的适配方法及装置 | |
US8577155B2 (en) | System and method for duplicate text recognition | |
CN111428599B (zh) | 票据识别方法、装置和设备 | |
CN107704539A (zh) | 大规模文本信息批量结构化的方法及装置 | |
US9104709B2 (en) | Cleansing a database system to improve data quality | |
CN113093958B (zh) | 数据处理方法、装置和服务器 | |
WO2019061664A1 (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN104063450A (zh) | 热点信息分析方法及设备 | |
CN113204603B (zh) | 金融数据资产的类别标注方法及装置 | |
CN102982077A (zh) | 用户数据处理方法及装置 | |
CN103077192A (zh) | 一种数据处理方法及其系统 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN104933077B (zh) | 基于规则的多文件信息分析方法 | |
CN109669954A (zh) | 合同数据的获取方法、设备、存储介质及装置 | |
CN109992711A (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
CN104933096B (zh) | 数据库的异常键识别方法、装置与数据系统 | |
CN110362478A (zh) | 应用升级测试方法、装置、计算机设备和存储介质 | |
CN115357689B (zh) | 分布式日志的数据处理方法、装置、介质及计算机设备 | |
CN112487186A (zh) | 一种人人对话日志分析方法、系统、设备及存储介质 | |
CN107430633A (zh) | 与数据存储系统相关联的经相关优化的代表性内容 | |
CN112559644B (zh) | 一种产品部件动态组装方法、装置、设备及存储介质 | |
CN113626387A (zh) | 一种任务数据的导出方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |