CN116662327B - 一种用于数据库的数据融合清理方法 - Google Patents
一种用于数据库的数据融合清理方法 Download PDFInfo
- Publication number
- CN116662327B CN116662327B CN202310940232.4A CN202310940232A CN116662327B CN 116662327 B CN116662327 B CN 116662327B CN 202310940232 A CN202310940232 A CN 202310940232A CN 116662327 B CN116662327 B CN 116662327B
- Authority
- CN
- China
- Prior art keywords
- text
- abstract
- labels
- fusion
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000004927 fusion Effects 0.000 title claims abstract description 67
- 238000004140 cleaning Methods 0.000 title claims abstract description 25
- 238000003860 storage Methods 0.000 claims abstract description 61
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 21
- 235000019633 pungent taste Nutrition 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000005484 gravity Effects 0.000 claims description 10
- 230000006872 improvement Effects 0.000 abstract description 5
- 238000007499 fusion processing Methods 0.000 abstract description 3
- 238000003672 processing method Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用于数据库的数据融合清理方法,涉及数据融合技术领域,包括:步骤S1,通过云服务器获取数据源,通过摘要获取法获取数据源中每个文本的文本摘要;步骤S2,建立文本存储表格,对于任意一个文本,基于该文本的热度标签,将文本放置在文本存储表格内;步骤S3,通过文本融合方法以及文本更替方法对文本存储表格内的文本进行融合清理以及更替;本发明对现有技术进行改进,用于解决现有技术中缺少在数据融合过程中对数据分类进行的改进,在新增数据进行添加时缺少有效的处理方法的问题。
Description
技术领域
本发明涉及数据融合技术领域,尤其涉及一种用于数据库的数据融合清理方法。
背景技术
数据融合是将多传感器信息源的数据和信息加以联合、相关及组合,获得更为精确的位置估计及身份估计,现有的应用在数据融合的改进通常是提高数据融合的处理效率,比如在公开号为“CN112015398A”的发明专利中,公开了“数据融合方法及装置”,该方案就是通过将复杂耗时的数据融合程序编写过程用简单的模块化的组件组合代替,自动生成程序,缩短了获得数据融合程序所需的时间,提高了数据融合的处理效率,同时其他的用于数据融合的改进通常是提高数据融合系统的融合质量,但是上述技术缺少在数据融合过程中对数据分类进行的改进,在新增数据进行添加时缺少有效的处理方法,鉴于此,有必要对现有的数据融合技术进行改进。
发明内容
针对现有技术存在的不足,本发明目的是提供一种用于数据库的数据融合清理方法,用于解决现有技术中缺少在数据融合过程中对数据分类进行的改进,在新增数据进行添加时缺少有效的处理方法的问题。
为了实现上述目的,第一方面,本发明提供一种用于数据库的数据融合清理方法,包括:
步骤S1,通过云服务器获取数据源,通过摘要获取法获取数据源中每个文本的文本摘要;
步骤S2,建立文本存储表格,对于任意一个文本,基于该文本的热度标签,将文本放置在文本存储表格内;
步骤S3,通过文本融合方法以及文本更替方法对文本存储表格内的文本进行融合清理以及更替。
进一步地,所述步骤S1包括如下子步骤:
步骤S101,通过检索云服务器获取需要获取的数据源,将数据源记为数据源1至数据源N;
步骤S102,对于数据源1至数据源N中的任意一个数据源,通过摘要获取法获取数据源中每个文本的文本摘要。
进一步地,所述步骤S102包括如下子步骤:
步骤S1021,获取数据源1至数据源N所占存储空间的大小,记为容量1至容量N,将容量1至容量N由大到小进行排列;
步骤S1022,基于容量1至容量N,以数据源1至数据源N中所占存储空间最大的数据源开始,使用摘要获取法获取该数据源中文本的文本摘要,并对每个文本摘要添加标签;
步骤S1023,基于每个文本摘要的标签,将文本摘要进行分类。
进一步地,所述步骤S1022中的摘要获取法为:获取数据源中的文本,记为文本1至文本M;
对于文本1至文本M中的任意一个文本,获取该文本的文本数据,当所述文本数据包含摘要关键字时,获取所述摘要关键字所在的所有文本段落的字数,记为摘要段落字数1至摘要段落字数Q,所述摘要关键字用于指示所述文本数据中的文本摘要所在的位置,所述摘要关键字基于该文本所在的数据源的类型在摘要型数据库中获取;
将摘要段落字数1至摘要段落字数Q分别与第一摘要字数进行比对;
当将摘要段落字数1至摘要段落字数Q中存在小于等于第一摘要字数且大于第二摘要字数的段落摘要字数时;
将摘要段落字数1至摘要段落字数Q中小于等于第一摘要字数的摘要段落字数且大于第二摘要字数的摘要段落字数对应的文本段落记为待定文本摘要1至待定文本摘要Z;
对待定文本摘要1至待定文本摘要Z使用中文分词,获取使用中文分词待定文本摘要1至待定文本摘要Z中每个待定文本摘要中的中文词的数量,记为中文词数1至中文词数Y,将每个待定文本摘要中的中文词与摘要型数据库中的摘要关键字进行逐词匹配,获取每个待定文本摘要的中文词与摘要型数据库中的摘要关键字匹配成功的数量,记为匹配数1至匹配数X;
基于中文词数1至中文词数Y以及匹配数1至匹配数X获取待定文本摘要1至待定文本摘要Z中每个待定文本摘要的匹配率,记为匹配率1至匹配率U,所述匹配率等于匹配数除以中文词数;
获取匹配率1至匹配率U的最大值,记为匹配率MAX,当匹配率MAX大于等于标准匹配率时,将该匹配率对应的文本段落记为该文本的文本摘要,对文本摘要添加标签,所述标签为该文本摘要对应的摘要关键字;
当匹配率MAX小于等于标准匹配率时,获取匹配数1至匹配数X中的最大值,记为匹配数MAX,将匹配数MAX对应的文本段落记为该文本的文本摘要,对文本摘要添加标签;
当将摘要段落字数1至摘要段落字数Q中不存在小于等于第一摘要字数且大于第二摘要字数的段落摘要字数时;
对所有文本段落使用中文分词,将进行中文分词后的文本段落中的中文词与摘要型数据库中的摘要关键字进行匹配,获取匹配成功数量最多的文本段落,将该文本段落记为该文本的文本摘要,获取匹配成功数量最多的中文词,将该中文词记为文本摘要的标签。
进一步地,所述步骤S1023包括如下子步骤:
步骤V231,获取所有数据源中的所有文本,记为文本1至文本A,获取文本1至文本A的文本摘要,记为文本摘要1至文本摘要A,将文本摘要1至文本摘要A的标签记为标签1至标签A,当标签1至标签A进行排列时,标签1至标签A对应的文本基于标签的排列位置进行改变;
步骤V232,将标签1至标签A基于在搜索引擎中的搜索热度由大到小进行排列,将排列后的标签1至标签A记为热度标签1至热度标签A;
步骤V233,将热度标签1至热度标签A中前第一百分比的热度标签记为热门标签,将热度标签1至热度标签A中第二百分比的热度标签记为冷门标签,将热度标签1至热度标签A中不属于热门标签且不属于冷门标签的热度标签记为普通标签。
进一步地,所述步骤S2包括建立文本存储表格,所述文本存储表格的顶端标题行为热度标签,所述文本存储表格的顶端标题行下方的行填有文本的名称。
进一步地,所述步骤S2还包括将热度标签1至热度标签A在顶端标题行从右往左进行放置;
获取每个热度标签对应的文本,基于文本所占的空间大小由大到小依次放置在热度标签的下方。
进一步地,所述步骤S3包括如下子步骤:
步骤S301,通过文本融合方法对文本存储表格内的文本进行融合清理;
步骤S302,通过文本更替方法对文本存储表格内的文本进行更替。
进一步地,所述步骤S301包括:
当通过步骤S1获取到新的文本摘要时,使用文本融合方法对文本存储表格内的文本进行融合清理:
所述文本融合方法为:将获取到的新的文本记为融合文本,将获取到的新的文本摘要的标签记为融合标签,通过近义词词库获取与融合标签词义最相近的热度标签,将融合文本与该热度标签所在列的所有文本进行查重比对得到重复率,获取重复率的最大值记为最大比重,当最大比重大于等于标准重复率时,将融合文本删除。
进一步地,所述步骤S302包括:
基于步骤S301中的文本融合方法对新的文本使用文本更替方法;
所述文本更替方法为:当最大比重小于标准重复率时,获取融合标签与上述热度标签的相似率,当相似率等于第一标准相似率时,将融合文本放置在该热度标签所在列的空白网格内,当相似率不等于第一标准相似率时,使用步骤S2将融合文本以及融合标签新增在文本存储表格内;
第二方面,本发明提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上任一项所述方法中的步骤;
第三方面,本发明提供一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,运行如上任一项所述方法中的步骤。
本发明的有益效果:本发明通过检索云服务器获取需要获取的数据源,将数据源记为数据源1至数据源N;对于数据源1至数据源N中的任意一个数据源,通过摘要获取法获取数据源中每个文本的文本摘要,这样的好处在于,通过摘要获取法得到的文本摘要可以有效对整个文本的内容进行概括,有利于在后续方法中对文本进行分类,减少工作人员的工作量,提高数据库的数据融合效率;
本发明还通过建立文本存储表格,对于任意一个文本,基于该文本的热度标签,将文本放置在文本存储表格内;通过文本融合方法以及文本更替方法对文本存储表格内的文本进行融合清理以及更替,这样的好处在于,通过建立文本存储表格,可以对文本进行更好的存储以及管理,同时通过文本融合方法以及文本更替方法,可以对新增的文本进行有效的管理,在不影响文本存储表格内容的同时将重复率较高的文本删除,可以有效降低系统所占的空间。
本发明附加方面的优点将在下面的具体实施方式的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:
图1为本发明的一种用于数据库的数据融合清理方法的流程图;
图2为本发明的一种用于数据库的数据融合清理方法中所述待定文本摘要的获取示意图;
图3为本发明的一种电子设备的连接框图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
第一方面,请参阅图1所示,本发明提供一种用于数据库的数据融合清理方法,包括:
步骤S1,通过云服务器获取数据源,通过摘要获取法获取数据源中每个文本的文本摘要;
步骤S1包括如下子步骤:
步骤S101,通过检索云服务器获取需要获取的数据源,将数据源记为数据源1至数据源N;
在具体实施过程中,云服务器可以通过大数据进行获取,基于需要获取的文本资源通过云服务器获取的数据源;
步骤S102,对于数据源1至数据源N中的任意一个数据源,通过摘要获取法获取数据源中每个文本的文本摘要;
步骤S102包括如下子步骤:
步骤S1021,获取数据源1至数据源N所占存储空间的大小,记为容量1至容量N,将容量1至容量N由大到小进行排列;
在具体实施过程中,将容量1至容量N由大到小进行排序后,对于第一个分析的数据源,该数据源所占的容量最大,因此该数据源中可能蕴含的摘要关键词的数量最多,通过对该数据源进行分析可以有效提高对摘要型数据库的检索程度,有利于提高后续的数据源的文本摘要的获取速度;
步骤S1022,基于容量1至容量N,以数据源1至数据源N中所占存储空间最大的数据源开始,使用摘要获取法获取该数据源中文本的文本摘要,并对每个文本摘要添加标签;
步骤S1022中的摘要获取法为:获取数据源中的文本,记为文本1至文本M;
对于文本1至文本M中的任意一个文本,获取该文本的文本数据,当文本数据包含摘要关键字时,获取摘要关键字所在的所有文本段落的字数,记为摘要段落字数1至摘要段落字数Q,摘要关键字用于指示文本数据中的文本摘要所在的位置,摘要关键字基于该文本所在的数据源的类型在摘要型数据库中获取;摘要数据库用于存储数据源的类型对应的不同的摘要关键字;
将摘要段落字数1至摘要段落字数Q分别与第一摘要字数进行比对;
当将摘要段落字数1至摘要段落字数Q中存在小于等于第一摘要字数且大于第二摘要字数的段落摘要字数时;
在具体实施过程中,第一摘要字数为300,第二摘要字数为150,在通常情况下,摘要的字数在150至300之间,该步骤通过对字数进行筛选,筛选出含有摘要关键词且字数在150至300之间的段落;
请参阅图2所示,将摘要段落字数1至摘要段落字数Q中小于等于第一摘要字数的摘要段落字数且大于第二摘要字数的摘要段落字数对应的文本段落记为待定文本摘要1至待定文本摘要Z;
对待定文本摘要1至待定文本摘要Z使用中文分词,获取使用中文分词待定文本摘要1至待定文本摘要Z中每个待定文本摘要中的中文词的数量,记为中文词数1至中文词数Y,将每个待定文本摘要中的中文词与摘要型数据库中的摘要关键字进行逐词匹配,获取每个待定文本摘要的中文词与摘要型数据库中的摘要关键字匹配成功的数量,记为匹配数1至匹配数X;
在具体实施过程中,通过匹配数1至匹配数X可以反映待定文本摘要1至待定文本摘要Z中含有摘要相关词语的数量,对该文本的文本摘要进行进一步的判断;
基于中文词数1至中文词数Y以及匹配数1至匹配数X获取待定文本摘要1至待定文本摘要Z中每个待定文本摘要的匹配率,记为匹配率1至匹配率U,匹配率等于匹配数除以中文词数;
在具体实施过程中,例如匹配数为20,中文词数为100,则匹配为0.2;
获取匹配率1至匹配率U的最大值,记为匹配率MAX,当匹配率MAX大于等于标准匹配率时,将该匹配率对应的文本段落记为该文本的文本摘要,对文本摘要添加标签,标签为该文本摘要对应的摘要关键字;
在具体实施过程中,标准匹配率为0.6,当待定文本摘要的匹配率大于等于0.6时说明该待定文本摘要中包含较多与摘要相关的词语,因此可以将匹配率最大的待定文本摘要记为该文本的文本摘要;
当匹配率MAX小于等于标准匹配率时,获取匹配数1至匹配数X中的最大值,记为匹配数MAX,将匹配数MAX对应的文本段落记为该文本的文本摘要,对文本摘要添加标签;
当将摘要段落字数1至摘要段落字数Q中不存在小于等于第一摘要字数且大于第二摘要字数的段落摘要字数时;
在具体实施过程中,当将摘要段落字数1至摘要段落字数Q中不存在小于等于第一摘要字数且大于第二摘要字数的段落摘要字数时说明文本中缺少与摘要相关的段落,因此需要对该文本的所有段落进行分析,筛选出与摘要相关性最强的段落作为该文本的文本摘要;
对所有文本段落使用中文分词,将进行中文分词后的文本段落中的中文词与摘要型数据库中的摘要关键字进行匹配,获取匹配成功数量最多的文本段落,将该文本段落记为该文本的文本摘要,获取匹配成功数量最多的中文词,将该中文词记为文本摘要的标签;
步骤S1023,基于每个文本摘要的标签,将文本摘要进行分类;
步骤S1023包括如下子步骤:
步骤V231,获取所有数据源中的所有文本,记为文本1至文本A,获取文本1至文本A的文本摘要,记为文本摘要1至文本摘要A,将文本摘要1至文本摘要A的标签记为标签1至标签A,当标签1至标签A进行排列时,标签1至标签A对应的文本基于标签的排列位置进行改变;
步骤V232,将标签1至标签A基于在搜索引擎中的搜索热度由大到小进行排列,将排列后的标签1至标签A记为热度标签1至热度标签A;
步骤V233,将热度标签1至热度标签A中前第一百分比的热度标签记为热门标签,将热度标签1至热度标签A中第二百分比的热度标签记为冷门标签,将热度标签1至热度标签A中不属于热门标签且不属于冷门标签的热度标签记为普通标签;
在具体实施过程中,在实际使用文本存储表格时,可以通过热度标签的排列顺序,首先对热度最高的文本进行检索,更有利于查找到需要的相关内容,可以有效减少在文本存储表格中检索的时间;
步骤S2,建立文本存储表格,对于任意一个文本,基于该文本的热度标签,将文本放置在文本存储表格内;
步骤S2包括如下子步骤:
步骤S201,请参阅表1所示,建立文本存储表格,文本存储表格的顶端标题行为热度标签,文本存储表格的顶端标题行下方的行填有文本的名称;
表1
步骤S202,将热度标签1至热度标签A在顶端标题行从右往左进行放置;
步骤S203,获取每个热度标签对应的文本,基于文本所占的空间大小由大到小依次放置在热度标签的下方;
步骤S3,通过文本融合方法以及文本更替方法对文本存储表格内的文本进行融合清理以及更替;
步骤S3包括如下子步骤:
步骤S301,通过文本融合方法对文本存储表格内的文本进行融合清理;
步骤S301包括:
当通过步骤S1获取到新的文本摘要时,使用文本融合方法对文本存储表格内的文本进行融合清理:
文本融合方法为:将获取到的新的文本记为融合文本,将获取到的新的文本摘要的标签记为融合标签,通过近义词词库获取与融合标签词义最相近的热度标签,将融合文本与该热度标签所在列的所有文本进行查重比对得到重复率,获取重复率的最大值记为最大比重,当最大比重大于等于标准重复率时,将融合文本删除;
在具体实施过程中,标准重复率为80%,当最大比重大于等于80%时,说明融合文本与文本存储表格内文本基本一致,因此不需要将该文本添加到文本存储表格内,可以有效减少文本存储表格所占的存储空间;
步骤S302,通过文本更替方法对文本存储表格内的文本进行更替;
步骤S302包括:
基于步骤S301中的文本融合方法对新的文本使用文本更替方法;
文本更替方法为:当最大比重小于标准重复率时,获取融合标签与上述热度标签的相似率,当相似率等于第一标准相似率时,将融合文本放置在该热度标签所在列的空白网格内,当相似率不等于第一标准相似率时,使用步骤S2将融合文本以及融合标签新增在文本存储表格;
在具体实施过程中,第一标准相似率为100%,当融合标签与热度标签完全一致时,可以将融合文本放置在该热度标签所在列的空白网格内,除此之外应该使用步骤S2另起一列对融合文本进行存储。
实施例二
请参阅图3所示,第二方面,本申请提供一种电子设备40,包括处理器401以及存储器402,存储器402存储有计算机可读取指令,当计算机可读取指令由处理器401执行时,运行如上任意一项方法中的步骤。通过上述技术方案,处理器401和存储器402通过通信总线和/或其他形式的连接机构(未标出)互连并相互通讯,存储器402存储有处理器可执行的计算机程序,当电子设备40运行时,处理器401执行该计算机程序,以执行时执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:通过检索云服务器获取需要获取的数据源,将数据源记为数据源1至数据源N;对于数据源1至数据源N中的任意一个数据源,通过摘要获取法获取数据源中每个文本的文本摘要;本发明还通过建立文本存储表格,对于任意一个文本,基于该文本的热度标签,将文本放置在文本存储表格内;通过文本融合方法以及文本更替方法对文本存储表格内的文本进行融合清理以及更替。
实施例三
第三方面,本申请提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,运行如上任意一项方法中的步骤。通过上述技术方案,计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:通过检索云服务器获取需要获取的数据源,将数据源记为数据源1至数据源N;对于数据源1至数据源N中的任意一个数据源,通过摘要获取法获取数据源中每个文本的文本摘要;本发明还通过建立文本存储表格,对于任意一个文本,基于该文本的热度标签,将文本放置在文本存储表格内;通过文本融合方法以及文本更替方法对文本存储表格内的文本进行融合清理以及更替。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种用于数据库的数据融合清理方法,其特征在于,包括:
步骤S1,通过云服务器获取数据源,通过摘要获取法获取数据源中每个文本的文本摘要;基于每个文本摘要的标签,将文本摘要进行分类;
步骤S2,建立文本存储表格,对于任意一个文本,基于该文本的热度标签,将文本放置在文本存储表格内;
步骤S3,通过文本融合方法以及文本更替方法对文本存储表格内的文本进行融合清理以及更替;
基于每个文本摘要的标签,将文本摘要进行分类包括如下子步骤:
步骤V231,获取所有数据源中的所有文本,记为文本1至文本A,获取文本1至文本A的文本摘要,记为文本摘要1至文本摘要A,将文本摘要1至文本摘要A的标签记为标签1至标签A,当标签1至标签A进行排列时,标签1至标签A对应的文本基于标签的排列位置进行改变;
步骤V232,将标签1至标签A基于在搜索引擎中的搜索热度由大到小进行排列,将排列后的标签1至标签A记为热度标签1至热度标签A;
步骤V233,将热度标签1至热度标签A中前第一百分比的热度标签记为热门标签,将热度标签1至热度标签A中第二百分比的热度标签记为冷门标签,将热度标签1至热度标签A中不属于热门标签且不属于冷门标签的热度标签记为普通标签;
所述步骤S2包括建立文本存储表格,所述文本存储表格的顶端标题行为热度标签,所述文本存储表格的顶端标题行下方的行填有文本的名称;
所述步骤S3包括如下子步骤:
步骤S301,通过文本融合方法对文本存储表格内的文本进行融合清理;
步骤S302,通过文本更替方法对文本存储表格内的文本进行更替;
所述步骤S301包括:
当通过步骤S1获取到新的文本摘要时,使用文本融合方法对文本存储表格内的文本进行融合清理:
所述文本融合方法为:将获取到的新的文本记为融合文本,将获取到的新的文本摘要的标签记为融合标签,通过近义词词库获取与融合标签词义最相近的热度标签,将融合文本与该热度标签所在列的所有文本进行查重比对得到重复率,获取重复率的最大值记为最大比重,当最大比重大于等于标准重复率时,将融合文本删除;
所述步骤S302包括:
基于步骤S301中的文本融合方法对新的文本使用文本更替方法;
所述文本更替方法为:当最大比重小于标准重复率时,获取融合标签与上述热度标签的相似率,当相似率等于第一标准相似率时,将融合文本放置在该热度标签所在列的空白网格内,当相似率不等于第一标准相似率时,使用步骤S2将融合文本以及融合标签新增在文本存储表格内。
2.根据权利要求1所述的一种用于数据库的数据融合清理方法,其特征在于,所述步骤S1包括如下子步骤:
步骤S101,通过检索云服务器获取需要获取的数据源,将数据源记为数据源1至数据源N;
步骤S102,对于数据源1至数据源N中的任意一个数据源,通过摘要获取法获取数据源中每个文本的文本摘要。
3.根据权利要求2所述的一种用于数据库的数据融合清理方法,其特征在于,所述步骤S102包括如下子步骤:
步骤S1021,获取数据源1至数据源N所占存储空间的大小,记为容量1至容量N,将容量1至容量N由大到小进行排列;
步骤S1022,基于容量1至容量N,以数据源1至数据源N中所占存储空间最大的数据源开始,使用摘要获取法获取该数据源中文本的文本摘要,并对每个文本摘要添加标签。
4.根据权利要求3所述的一种用于数据库的数据融合清理方法,其特征在于,所述步骤S1022中的摘要获取法为:获取数据源中的文本,记为文本1至文本M;
对于文本1至文本M中的任意一个文本,获取该文本的文本数据,当所述文本数据包含摘要关键字时,获取所述摘要关键字所在的所有文本段落的字数,记为摘要段落字数1至摘要段落字数Q,所述摘要关键字用于指示所述文本数据中的文本摘要所在的位置,所述摘要关键字基于该文本所在的数据源的类型在摘要型数据库中获取;
将摘要段落字数1至摘要段落字数Q分别与第一摘要字数进行比对;
当将摘要段落字数1至摘要段落字数Q中存在小于等于第一摘要字数且大于第二摘要字数的摘要段落字数时;
将摘要段落字数1至摘要段落字数Q中小于等于第一摘要字数的摘要段落字数且大于第二摘要字数的摘要段落字数对应的文本段落记为待定文本摘要1至待定文本摘要Z;
对待定文本摘要1至待定文本摘要Z使用中文分词,获取使用中文分词待定文本摘要1至待定文本摘要Z中每个待定文本摘要中的中文词的数量,记为中文词数1至中文词数Y,将每个待定文本摘要中的中文词与摘要型数据库中的摘要关键字进行逐词匹配,获取每个待定文本摘要的中文词与摘要型数据库中的摘要关键字匹配成功的数量,记为匹配数1至匹配数X;
基于中文词数1至中文词数Y以及匹配数1至匹配数X获取待定文本摘要1至待定文本摘要Z中每个待定文本摘要的匹配率,记为匹配率1至匹配率U,所述匹配率等于匹配数除以中文词数;
获取匹配率1至匹配率U的最大值,记为匹配率MAX,当匹配率MAX大于等于标准匹配率时,将该匹配率对应的文本段落记为该文本的文本摘要,对文本摘要添加标签,所述标签为该文本摘要对应的摘要关键字;
当匹配率MAX小于等于标准匹配率时,获取匹配数1至匹配数X中的最大值,记为匹配数MAX,将匹配数MAX对应的文本段落记为该文本的文本摘要,对文本摘要添加标签;
当将摘要段落字数1至摘要段落字数Q中不存在小于等于第一摘要字数且大于第二摘要字数的段落摘要字数时;
对所有文本段落使用中文分词,将进行中文分词后的文本段落中的中文词与摘要型数据库中的摘要关键字进行匹配,获取匹配成功数量最多的文本段落,将该文本段落记为该文本的文本摘要,获取匹配成功数量最多的中文词,将该中文词记为文本摘要的标签。
5.根据权利要求1所述的一种用于数据库的数据融合清理方法,其特征在于,所述步骤S2还包括将热度标签1至热度标签A在顶端标题行从右往左进行放置;
获取每个热度标签对应的文本,基于文本所占的空间大小由大到小依次放置在热度标签的下方。
6.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-5任一项所述方法中的步骤。
7.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,运行如权利要求1-5任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310940232.4A CN116662327B (zh) | 2023-07-28 | 2023-07-28 | 一种用于数据库的数据融合清理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310940232.4A CN116662327B (zh) | 2023-07-28 | 2023-07-28 | 一种用于数据库的数据融合清理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116662327A CN116662327A (zh) | 2023-08-29 |
CN116662327B true CN116662327B (zh) | 2023-09-29 |
Family
ID=87722745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310940232.4A Active CN116662327B (zh) | 2023-07-28 | 2023-07-28 | 一种用于数据库的数据融合清理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662327B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116991978B (zh) * | 2023-09-26 | 2024-01-02 | 杭州今元标矩科技有限公司 | 一种cms碎片特征提取方法、系统、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413787A (zh) * | 2019-07-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 文本聚类方法、装置、终端和存储介质 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN112015398A (zh) * | 2019-05-31 | 2020-12-01 | 杭州海康威视数字技术股份有限公司 | 数据融合方法及装置 |
CN113408301A (zh) * | 2021-07-12 | 2021-09-17 | 北京沃东天骏信息技术有限公司 | 一种样本处理方法、装置、设备和介质 |
CN114298227A (zh) * | 2021-12-29 | 2022-04-08 | 中国建设银行股份有限公司 | 文本去重方法、装置、设备及介质 |
CN115759027A (zh) * | 2022-11-25 | 2023-03-07 | 上海苍阙信息科技有限公司 | 文本数据处理系统及方法 |
CN115809328A (zh) * | 2021-09-14 | 2023-03-17 | 中移(苏州)软件技术有限公司 | 一种文本摘要的生成方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11663254B2 (en) * | 2016-01-29 | 2023-05-30 | Thomson Reuters Enterprise Centre Gmbh | System and engine for seeded clustering of news events |
US11526808B2 (en) * | 2019-05-29 | 2022-12-13 | The Board Of Trustees Of The Leland Stanford Junior University | Machine learning based generation of ontology for structural and functional mapping |
-
2023
- 2023-07-28 CN CN202310940232.4A patent/CN116662327B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015398A (zh) * | 2019-05-31 | 2020-12-01 | 杭州海康威视数字技术股份有限公司 | 数据融合方法及装置 |
CN110413787A (zh) * | 2019-07-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 文本聚类方法、装置、终端和存储介质 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN113408301A (zh) * | 2021-07-12 | 2021-09-17 | 北京沃东天骏信息技术有限公司 | 一种样本处理方法、装置、设备和介质 |
CN115809328A (zh) * | 2021-09-14 | 2023-03-17 | 中移(苏州)软件技术有限公司 | 一种文本摘要的生成方法、装置及设备 |
CN114298227A (zh) * | 2021-12-29 | 2022-04-08 | 中国建设银行股份有限公司 | 文本去重方法、装置、设备及介质 |
CN115759027A (zh) * | 2022-11-25 | 2023-03-07 | 上海苍阙信息科技有限公司 | 文本数据处理系统及方法 |
Non-Patent Citations (2)
Title |
---|
Piska Dwi Nurfadila等.Journal classification using cosine similarity method on title and abstract with frequency-based stopword removal.《International journal of artificial intelligence research》.2019,第3卷(第2期),1-19. * |
马宇峰.一种基于半监督学习的实体集合扩展方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2015,I138-685. * |
Also Published As
Publication number | Publication date |
---|---|
CN116662327A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2686590C1 (ru) | Способ и устройство для сравнения схожих элементов высокоразмерных признаков изображений | |
US9208219B2 (en) | Similar document detection and electronic discovery | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN101826107B (zh) | 哈希数据处理方法和装置 | |
US11449564B2 (en) | System and method for searching based on text blocks and associated search operators | |
CN111506771B (zh) | 一种视频检索方法、装置、设备及存储介质 | |
CN116662327B (zh) | 一种用于数据库的数据融合清理方法 | |
CN107193892B (zh) | 一种文档主题确定方法及装置 | |
CN114610951A (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
CN110874358B (zh) | 多属性列的存储、检索方法和装置以及电子设备 | |
CN109460404A (zh) | 一种基于redis的高效Hbase分页查询方法 | |
CN102959548A (zh) | 数据存储方法、查找方法及装置 | |
US11609897B2 (en) | Methods and systems for improved search for data loss prevention | |
CN114677695A (zh) | 表格解析方法、装置、计算机设备和存储介质 | |
WO2019227705A1 (zh) | 图片录入方法、服务器及计算机存储介质 | |
CN109739854A (zh) | 一种数据存储方法及装置 | |
CN101894158B (zh) | 一种智能检索系统 | |
CN114385891B (zh) | 数据搜索方法、装置、电子设备及存储介质 | |
CN114116811B (zh) | 日志处理方法、装置、设备及存储介质 | |
CN115952800A (zh) | 命名实体识别方法、装置、计算机设备及可读存储介质 | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
CN112328752B (zh) | 基于搜索内容的课程推荐方法、装置、计算机设备及介质 | |
CN108197164A (zh) | 业务数据保存方法及装置 | |
CN114428776A (zh) | 一种面向时序数据的索引分区管理方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |