CN110196974B - 一种用于大数据清洗的快速数据聚合方法 - Google Patents

一种用于大数据清洗的快速数据聚合方法 Download PDF

Info

Publication number
CN110196974B
CN110196974B CN201910501539.8A CN201910501539A CN110196974B CN 110196974 B CN110196974 B CN 110196974B CN 201910501539 A CN201910501539 A CN 201910501539A CN 110196974 B CN110196974 B CN 110196974B
Authority
CN
China
Prior art keywords
word
words
traversing
data
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910501539.8A
Other languages
English (en)
Other versions
CN110196974A (zh
Inventor
周柚
王康平
时小虎
吴春国
耿昭阳
王依章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910501539.8A priority Critical patent/CN110196974B/zh
Publication of CN110196974A publication Critical patent/CN110196974A/zh
Application granted granted Critical
Publication of CN110196974B publication Critical patent/CN110196974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于大数据清洗的快速数据聚合方法,包括以下步骤:数据读取:原有的数据是在Excel中存储的,利用文件流的形式读取出Excel中的数据信息,根据数据的格式,将读取出来的数据信息存储在记录列表中,最后返回一个记录列表;对大数据文本进行切分;进行文本相似度比较;聚合结果的显示和修改:将要显示的表单打印出来并且提供给用户修改和删除,修改完成后,进行表单的下载。

Description

一种用于大数据清洗的快速数据聚合方法
技术领域
本发明涉及大数据清洗技术领域,特别是一种用于大数据清洗的快速数据聚合方法。
背景技术
大数据时代,数据是企业最具价值的资产之一,企业的数据质量与业务绩效之间存在着直接联系,企业的每一个商业决策、客户管理和商业投资都是建立在数据分析的基础之上。进行数据清洗,可大幅提升企业数据质量,帮助企业进行更合理的决策,进一步降低成本和提高收入和竞争力。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。然而,以大数据开展的数据挖掘面临着数据可用性等诸多问题,大数据清洗技术研究是保证大数据质量和可用性的关键技术,是提高企业数据商业价值的基础。快速的数据聚合方法是实现大数据清洗的核心技术。而现有数据聚合方法在处理大数据时,在算法时间复杂度和准确率上无法在有效时间内得到结果,不能满足大数据清洗的需求。
总结为两个问题::一是如何能够提高聚合的准确度,如果按照传统的索引标识进行划分,虽然可以很方便规整,但是这样会使得文本内的聚合效果并不理想,没有关联性。二是如何在大数据量的时候提高算法的计算性能。
发明内容
本发明的目的在于,根据现有技术的不足,提供一种用于大数据清洗的快速数据聚合方法。
为实现以上目的,提供以下技术方案:
一种用于大数据清洗的快速数据聚合方法,包括以下步骤:
S1:数据读取:原有的数据是在Excel中存储的,利用文件流的形式读取出 Excel中的数据信息,根据数据的格式,将读取出来的数据信息存储在记录列表中,最后返回一个记录列表,所述记录列表为自定义类,主要包含字符型的物料编号,字符型的物料名称,字符型的分类词;
S2:对大数据文本进行切分:对字符型的物料名称进行切分并统计词频,统计文本频率,并通过公式A*Math.log(total/B)/Math.log(2.0)计算出词语的tfidf 值,选择tfidf值最大的词语作为该记录的分类词;将全部带有分类词标识的记录存储在一个表单当中;
S3:进行文本相似度比较:根据分类词标识将其分组进行并行计算,在计算单元内,将同组的记录两两进行字符串的文本相似度比较,如果文本相似度在设定的阈值之上,则将其存储在要显示的表单当中;
S4:聚合结果的显示和修改:将要显示的表单打印出来并且提供给用户修改和删除,修改完成后,进行表单的下载。
优选地,所述步骤S2中对字符型的物料名称进行切分并统计词频包括:
S21:创建词频键值对数组和切分词语键值对数组;
S22:遍历记录列表:对于正在遍历的记录列表,首先用正则表达式将记录列表中字符型的物料名称的中英文符号去掉,将其中的非汉字部分用空格代替;
S23:对去掉符号后的字符型的物料名称按照空格进行切分,并存储在数组中;
S24:遍历数组:判断切分后的字符型的词语是否在记录中重复出现,如果是重复出现,则将该词语的频率加1;如果第一次出现,则将该词语的词语频率设置为1;遍历完成后,将切分后的字符型的词语的词语频率存储在词频键值对数组中;
S25:将切分后全部字符型的词语存储在切分词语键值对数组中。
优选地,所述步骤S2中统计文本频率包括:
S26:通过切分词语键值对数组创建词语集,创建被去掉的词语集合;
S27:对词语集进行遍历,并创建一个用来存储该词语在全部记录中出现次数的变量,将变量的初始值设置为0;
S28:对记录列表进行遍历:并判断记录列表中每个被切分词语,并将每个词语出现的次数在变量上叠加得到每个词语的变量值,遍历完成后,如果没有含有这个词语的记录,则将这个词语存储到被去掉的词语集合中;
S29:将每个词语的变量值存储到词频键值对数组中,并将存储该词语在全部记录列表中出现次数的变量设置为0;
S30:将存储到被去掉的词语集合中的词语从切分词语键值对数组中删除。
优选地,所述步骤S2中计算出词语的tfidf值包括:
S31:创建tfidf值的键值对数组;
S32:遍历词语集:从词频键值对数组获取存储词语在全部切分词语中出现词频A,从变量中获取存储词语在全部记录中出现文本频率B;
S33:通过公式A*Math.log(total/B)/Math.log(2.0)计算得到存储词语的tfidf值,其中total表示全部记录数,将存储词语存和其tfidf值存入tfidf值的键值对数组中;
S34:遍历tfidf值的键值对数组:依次比较记录列表中每一个记录物料信息的切分词语的tfidf值,计算得到切分词语中的最大值,将这个值对应的词语作为该条记录的分类词存储在一个表单。
有益效果为:
1、本发明主要是利用了在生物信息学领域中广泛使用的相似度比较算法来对于任意两个字符串进行相似度比较,然后再设定一个经过实验比较后得到的阈值,与计算的相似度比较。如果相似度在阈值以上,则认为两个记录是相似重复的,将其聚合到一起显示,如果在阈值以下,则认为两个记录不是相似重复的。并且在提取分类词以后将词语进行拼音化,能够避免在分类词出现谐音字错误的情况下没有办法被聚合到一起这种现象。从而提高了聚合的准确性。本发明利用了在信息检索领域中得到广泛使用的基于词频和逆文本频率方法,提取出每条记录的关键字,然后根据关键字来对整个文本进行划分。这样既完成了对于大文本的切分,也完成了文本内的相似记录聚合。
2、将数据进行切分,将大文本打散成为小文本,然后再将小文本分别放置在不同的计算单元,再在小的计算单元内进行计算,这样可以很大程度地缩减计算时间,从而使得大数据量级的操作可以在短时间周期内完成。利用并行计算,使得切分的数据可以在不同的计算单元内同时计算,然后将结果进行聚合。从而使得整个算法达到了一个很理想的性能。
附图说明
图1是一种用于大数据清洗的快速数据聚合方法整体流程图;
图2是步骤S2中对字符型的物料名称进行切分并统计词频方法流程图;
图3是步骤S2中统计文本频率方法流程图;
图4是步骤S2中计算出词语的tfidf值方法流程图;
图5是传统融合方法结果集示意图;
图6是本发明的融合方法结果集示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,在本发明的描述中,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
另外,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示一种用于大数据清洗的快速数据聚合方法,包括以下步骤:
S1:数据读取:原有的数据是在Excel中存储的,利用文件流的形式读取出 Excel中的数据信息,根据数据的格式,将读取出来的数据信息存储在记录列表中,最后返回一个记录列表,所述记录列表为自定义类,主要包含字符型的物料编号,字符型的物料名称,字符型的分类词;
S2:对大数据文本进行切分:对字符型的物料名称进行切分并统计词频,统计文本频率,并通过公式A*Math.log(total/B)/Math.log(2.0)计算出词语的tfidf 值,选择tf-idf值最大的词语作为该记录的分类词;将全部带有分类词标识的记录存储在一个表单当中;
如图2所示步骤S2中对字符型的物料名称进行切分并统计词频包括:
S21:创建词频键值对数组和切分词语键值对数组;
S22:遍历记录列表:对于正在遍历的记录列表,首先用正则表达式将记录列表中字符型的物料名称的中英文符号去掉,将其中的非汉字部分用空格代替;
S23:对去掉符号后的字符型的物料名称按照空格进行切分,并存储在数组中;
S24:遍历数组:判断切分后的字符型的词语是否在记录中重复出现,如果是重复出现,则将该词语的频率加1;如果第一次出现,则将该词语的词语频率设置为1;遍历完成后,将切分后的字符型的词语的词语频率存储在词频键值对数组中;
S25:将切分后全部字符型的词语存储在切分词语键值对数组中。
如图3所示步骤S2中统计文本频率包括:
S26:通过切分词语键值对数组创建词语集,创建被去掉的词语集合;
S27:对词语集进行遍历,并创建一个用来存储该词语在全部记录中出现次数的变量,将变量的初始值设置为0;
S28:对记录列表进行遍历:并判断记录列表中每个被切分词语,并将每个词语出现的次数在变量上叠加得到每个词语的变量值,遍历完成后,如果没有含有这个词语的记录,则将这个词语存储到被去掉的词语集合中;
S29:将每个词语的变量值存储到词频键值对数组中,并将存储该词语在全部记录列表中出现次数的变量设置为0;
S30:将存储到被去掉的词语集合中的词语从切分词语键值对数组中删除。
如图4所示步骤S2中计算出词语的tfidf值包括:
S31:创建tfidf值的键值对数组;
S32:遍历词语集:从词频键值对数组获取存储词语在全部切分词语中出现词频A,从变量中获取存储词语在全部记录中出现文本频率B;
S33:通过公式A*Math.log(total/B)/Math.log(2.0)计算得到存储词语的tfidf值,其中total表示全部记录数,将存储词语存和其tfidf值存入tfidf值的键值对数组中;
S34:遍历tfidf值的键值对数组:依次比较记录列表中每一个记录物料信息的切分词语的tfidf值,计算得到切分词语中的最大值,将这个值对应的词语作为该条记录的分类词存储在一个表单。
S3:进行文本相似度比较:根据分类词标识将其分组进行并行计算,在计算单元内,将同组的记录两两进行字符串的文本相似度比较,如果文本相似度在设定的阈值之上,则将其存储在要显示的表单当中;
S4:聚合结果的显示和修改:将要显示的表单打印出来并且提供给用户修改和删除,修改完成后,进行表单的下载。
本发明经过真实的工业数据进行测试,对比了性能和准确性两个方面。首先是性能方面,对比于传统的两两记录相似度比较的方法和截取部分文本的相似度比较方法,算法性能明显占优,尤其是在数据量级增大的情况下,算法性能的优势越明显。在200行记录的情况下,传统方法的算法时长为359毫秒,截取部分文本的算法时长为37毫秒,该算法的算法时长为82毫秒;在1000行记录的情况下,传统方法的算法时长为7579毫秒,截取部分文本的算法时长为 1419毫秒,该算法的算法时长为219毫秒;在10000行记录的情况下,传统方法的算法时长为1622700毫秒,截取部分文本的算法时长为658292毫秒,该算法的算法时长为7051毫秒。可以看到在算法性能上该算法的优势所在。在算法准确性上,如图5所示是阈值设定在0.8时,经过传统的两两记录相似度比较的方法聚合在一起以后的结果集。通过集合中的结果,可以发现算法虽然将相似重复的记录聚合到一起,并且对于图中标示出的例如“网式滤油器XRXTA乳化液箱WU-250×630J-W2”和“网式滤油漆XRXTA乳化液箱WU-250×630J-W2”这一对看似相同,但其中存在录入错误的数据进行了聚合。但是,对于字符长度较短,可能因为录入错误而导致的相似重复记录并没有很好地进行聚合。如图中标示出的例如“滤油漆-01”和“滤油器-02”这一对记录;对于由于录入错误,而记录空缺过长这种现象,也并没有很好的聚合。如图中标示出的例如“网式滤油器XRXTA乳化液箱”和“网式滤油器XRXTA乳化液箱WU-250×630J-W2”这一对记录,对于这种应属于相同类别,只是由于录入错误而缺少过多字符,但在传统相似聚合算法中并没有将这种结果聚合到一起。如图6所示,是经过本发明计算后所得到的结果集。通过集合中的结果,可以发现相对于传统方法,本发明所提出的方法,可以更有效地解决上面所提到的问题。提高了相似聚合的准确性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (3)

1.一种用于大数据清洗的快速数据聚合方法,其特征在于,包括以下步骤:
S1:数据读取:原有的数据是在Excel中存储的,利用文件流的形式读取出Excel中的数据信息,根据数据的格式,将读取出来的数据信息存储在记录列表中,最后返回一个记录列表,所述记录列表为自定义类,主要包含字符型的物料编号,字符型的物料名称,字符型的分类词;
S2:对大数据文本进行切分:对字符型的物料名称进行切分并统计词频,统计文本频率;S31:创建tfidf值的键值对数组;S32:遍历词语集:从词频键值对数组获取存储词语在全部切分词语中出现词频A,从变量中获取存储词语在全部记录中出现文本频率B;S33:通过公式A*Math.log(total/B)/Math.log(2.0)计算得到存储词语的tfidf值,其中total表示全部记录数,将存储词语存和其tfidf值存入tfidf值的键值对数组中;S34:遍历tfidf值的键值对数组:依次比较记录列表中每一个记录物料信息的切分词语的tfidf值,计算得到切分词语中的最大值,将这个值对应的词语作为该条记录的分类词存储在一个表单;
S3:进行文本相似度比较:根据分类词标识将其分组进行并行计算,在计算单元内,将同组的记录两两进行字符串的文本相似度比较,如果文本相似度在设定的阈值之上,则将其存储在要显示的表单当中;
S4:聚合结果的显示和修改:将要显示的表单打印出来并且提供给用户修改和删除,修改完成后,进行表单的下载。
2.根据权利要求1所述的一种用于大数据清洗的快速数据聚合方法,其特征在于,所述步骤S2中对字符型的物料名称进行切分并统计词频包括:
S21:创建词频键值对数组和切分词语键值对数组;
S22:遍历记录列表:对于正在遍历的记录列表,首先用正则表达式将记录列表中字符型的物料名称的中英文符号去掉,将其中的非汉字部分用空格代替;
S23:对去掉符号后的字符型的词语按照空格进行切分,并存储在数组中;
S24:遍历数组:对数组进行遍历,然后判断切分后的每一个字符型的词语是否在记录中重复出现,如果是重复出现,则将该词语的频率加1;如果第一次出现,则将该词语的词语频率设置为1;遍历完成后,将切分后的字符型的词语的词语频率存储在词频键值对数组中;
S25:将切分后全部字符型的词语存储在切分词语键值对数组中。
3.根据权利要求2所述的一种用于大数据清洗的快速数据聚合方法,其特征在于,所述步骤S2中统计文本频率包括:
S26:通过切分词语键值对数组创建词语集,创建被去掉的词语集合;
S27:对词语集进行遍历,并创建一个用来存储该词语在全部记录中出现次数的变量,将变量的初始值设置为0;
S28:对记录列表进行遍历:并判断记录列表中每个被切分词语,并将每个词语出现的次数在变量上叠加得到每个词语的变量值,遍历完成后,如果没有含有这个词语的记录,则将这个词语存储到被去掉的词语集合中;
S29:将每个词语的变量值存储到词频键值对数组中,并将存储该词语在全部记录列表中出现次数的变量设置为0;
S30:将存储到被去掉的词语集合中的词语从切分词语键值对数组中删除。
CN201910501539.8A 2019-06-11 2019-06-11 一种用于大数据清洗的快速数据聚合方法 Active CN110196974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910501539.8A CN110196974B (zh) 2019-06-11 2019-06-11 一种用于大数据清洗的快速数据聚合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910501539.8A CN110196974B (zh) 2019-06-11 2019-06-11 一种用于大数据清洗的快速数据聚合方法

Publications (2)

Publication Number Publication Date
CN110196974A CN110196974A (zh) 2019-09-03
CN110196974B true CN110196974B (zh) 2023-07-07

Family

ID=67754342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910501539.8A Active CN110196974B (zh) 2019-06-11 2019-06-11 一种用于大数据清洗的快速数据聚合方法

Country Status (1)

Country Link
CN (1) CN110196974B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632953B (zh) * 2020-12-22 2023-07-25 云汉芯城(上海)互联网科技股份有限公司 一种快速准确侦测多次上传的物料清单属于同一产品的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053992A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 聚类方法和系统
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN102955857A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及系统
CN107609103A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种基于推特的事件检测方法
CN108875049A (zh) * 2018-06-27 2018-11-23 中国建设银行股份有限公司 文本聚类方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4652741B2 (ja) * 2004-08-02 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常検出装置、異常検出方法、異常検出プログラム、及び記録媒体
US10747994B2 (en) * 2016-12-28 2020-08-18 Captricity, Inc. Identifying versions of a form

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053992A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 聚类方法和系统
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN102955857A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及系统
CN107609103A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种基于推特的事件检测方法
CN108875049A (zh) * 2018-06-27 2018-11-23 中国建设银行股份有限公司 文本聚类方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Applying data cleaning in Changqing Oilfield Company"s data warehouse;Gao Xiang;《2010 Second llTA International Conference on Geoscience and Remote Sensing》;20101014;605-607 *
一种基于集成学习的钓鱼网站检测方法;余恩泽;《计算机工程与应用》;20190531;第18卷(第55期);81-88 *
基于Word2vec 和改进型TF-IDF 的卷积神经网络文本分类模型;王根生;《小型微型计算机系统》;20190514;第40卷(第5期);1120-1126 *
基于大数据的数据清洗技术及运用;刘政宇;《数字技术与应用》;20190415;第37卷(第4期);92-94 *
基于社会化标签的群用户个性化信息服务;常苗苗;《科技创业月刊》;20160410;第29卷(第07期);43-48 *
融合量子密钥真随机性的二值图像水印;周柚;《光学精密工程》;20171115;第25卷(第11期);2968-2974 *

Also Published As

Publication number Publication date
CN110196974A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110019396B (zh) 一种基于分布式多维分析的数据分析系统及方法
US20200279107A1 (en) Digital image-based document digitization using a graph model
US8719308B2 (en) Method and system to process unstructured data
US7003725B2 (en) Method and system for normalizing dirty text in a document
EP2045731A1 (en) Automatic generation of ontologies using word affinities
CN107145445A (zh) 软件自动化测试的报错日志的自动分析方法和系统
CN113687826A (zh) 一种基于需求项提取的测试用例复用系统及方法
CN112364165A (zh) 一种基于中文隐私政策条款的自动分类方法
CN113254255B (zh) 一种云平台日志的分析方法、系统、设备及介质
CN113590556A (zh) 一种基于数据库的日志处理方法、装置及设备
CN112000656A (zh) 基于元数据的智能化数据清洗方法及装置
CN103324641B (zh) 信息记录推荐方法和装置
CN110196974B (zh) 一种用于大数据清洗的快速数据聚合方法
CN106168968A (zh) 一种网站分类方法及装置
CN109901978A (zh) 一种Hadoop日志无损压缩方法和系统
CN111090395B (zh) 一种用于会计行业的电子信息智能存储系统
CN116484084B (zh) 基于应用信息挖掘的元数据血缘分析方法、介质及系统
CN114969018B (zh) 一种数据监控方法及系统
CN111984625B (zh) 数据库负载特征处理方法、装置、介质和电子设备
CN114491044A (zh) 日志的处理方法及装置
CN113779200A (zh) 目标行业词库的生成方法、处理器及装置
CN110807449A (zh) 一种科技项目申报线上服务终端
CN110781177A (zh) 一种电能表用电信息整理方法、装置及可读存储介质
Chen Reducing web page complexity to facilitate effective user navigation
CN103631799A (zh) 网络组图聚合方法和系统以及图片搜索方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant